Doctorant F/H Graphes dynamiques de co-expression des gènes et inférence de réseaux de régulation

Type de contrat : Fixed-term contract

Niveau de diplôme exigé : Graduate degree or equivalent

Fonction : PhD Position

Contexte et atouts du poste

Des cellules ayant le même génome peuvent néanmoins exprimer leurs gènes à des niveaux très différents, y compris lorsqu'elles reçoivent les mêmes signaux de leur environnement. Cette variabilité joue un rôle fondamental dans les mécanismes dits de prise de décision cellulaire (comme la différenciation de cellules « souches » pluripotentes en cellules « matures » spécialisées) et peut s'expliquer par la conjonction de deux phénomènes biologiques : la stochasticité de l'expression des gènes (présence d'aléa intrinsèque dans les quantités produites d'ARNm et de protéines) et le fait que ces derniers interagissent entre eux via les molécules produites, formant un système dynamique complexe appelé réseau de régulation, avec des propriétés émergentes. Les états cellulaires stables sont alors interprétés comme des attracteurs de ce système dynamique, avec une certaine probabilité de passer d'un attracteur à un autre [1].

Dans ce contexte, l'inférence de graphes d'interactions entre les gènes est devenue un cas d'école pour la statistique en grande dimension, notamment depuis l'arrivée puis la massification des données transcriptomiques en cellules uniques (single-cell). En particulier, les données de type scRNA-seq permettent de construire de façon classique des graphes non-orientés appelés réseaux de co-expression, par exemple en estimant la matrice de covariance entre les gènes. Ces réseaux ont l'intérêt de représenter des données complexes sous forme simplifiée, mais ils ne constituent qu'une information partielle puisqu'ils ne décrivent pas les interactions biologiques à l'origine des motifs de co-expression observés.

Mission confiée

Ce projet de thèse s'intéresse à la question suivante : comment passer des réseaux de co-expression (motifs statistiques observés) aux réseaux de régulation (interactions biologiques causales) ?

Cette question s'avère nettement plus difficile et n'est pas encore résolue de façon satisfaisante à ce jour, notamment à cause de son caractère « mal posé » : les données étant essentiellement observationnelles, il n'est pas possible d'identifier les interactions causales de façon universelle, c'est-à-dire sans faire d'hypothèses sur le système dynamique sous-jacent.

On propose ici de se baser sur un modèle mathématique particulier pour ce système dynamique : il s'agit d'un processus markovien déterministe par morceaux (PDMP) dont la seule source d'aléa est le phénomène biologique de bursting transcriptionnel [2,3]. L'intérêt principal de ce modèle est de pouvoir capturer la variabilité des données single-cell sans nécessiter l'ajout d'un modèle de bruit ad hoc, contrairement aux équations différentielles ordinaires ou même stochastiques souvent utilisées dans ce contexte.

Principales activités

Dans un premier temps, on se placera dans le cas d'un jeu de données scRNA-seq constitué de plusieurs snapshots (profils transcriptomiques simultanés d'un échantillon de cellules individuelles) avec ou sans structure temporelle. Il s'agira de développer un cadre statistique à la fois bien posé mathématiquement et réaliste d'un point de vue biologique, à partir de résultats obtenus sur le modèle PDMP. L'objectif est d'être capable d'intégrer les différents snapshots dans une phase de pre-processing standardisée, en distinguant la variabilité biologique des différentes sources de variabilité technique [4].

Dans un second temps, on s'intéressera à l'inférence bayésienne exacte de graphes dynamiques de co-expression à partir de données scRNA-seq temporelles, en adaptant un formalisme existant basé sur une famille de modèles graphiques probabilistes [5]. Ces modèles sont construits par mélange de lois, à partir d'une hyper-loi sur des champs aléatoires particuliers (qui vérifient la propriété de Markov sur un arbre, lui-même aléatoire). Un résultat algébrique de type matrix-tree permet alors d’interpréter la constante de normalisation comme le déterminant d’une certaine matrice, rendant l’inférence exacte réalisable en temps polynomial, et ce malgré l’explosion du nombre de graphes possibles.

On s'attaquera enfin à l'inférence de réseaux de régulation, en construisant un modèle statistique capable d'intégrer une séquence temporelle de snapshots scRNA-seq. L'objectif fondamental sera de relier de façon quantitative les paramètres du modèle statistique à ceux du modèle dynamique PDMP, tout en assurant l'identifiabilité des interactions grâce à la structure temporelle reliant les snapshots : on pourra partir des résultats obtenus par deux approches existantes, qui n'utilisent que partiellement l'information temporelle [6,7]. Une piste prometteuse consistera à étendre le formalisme bayésien précédent en introduisant un processus markovien (de sauts ou gaussien) à valeurs dans l'espace des matrices laplaciennes de graphes orientés pondérés, puis à estimer la loi a posteriori de ce processus par un algorithme de type EM variationnel [8].

On pourra également s'intéresser à l'adaptation de ce formalisme aux données transcriptomiques spatiales, en plein essor, qui contiennent une information potentiellement très riche (interactions possibles entre les cellules) tout en soulevant des problématiques différentes des données single-cell.

Bibliographie

  1. E. Ventre, T. Espinasse, C.-E. Bréhier, V. Calvez, T. Lepoutre, and O. Gandrillon, “Reduction of a stochastic model of gene expression: Lagrangian dynamics gives access to basins of attraction as cell types and metastabilty,” Journal of Mathematical Biology, vol. 83, no. 5, p. 59, 2021.
  2. U. Herbach, A. Bonnaffoux, T. Espinasse, and O. Gandrillon, “Inferring gene regulatory networks from single-cell data: a mechanistic approach,” BMC Systems Biology, vol. 11, no. 1, p. 105, 2017.
  3. E. Ventre, U. Herbach, T. Espinasse, G. Benoit, and O. Gandrillon, “One model fits all: Combining inference and simulation of gene regulatory networks,” PLOS Computational Biology, vol. 19, no. 3, p. e1010962, 2023.
  4. A. Sarkar and M. Stephens, “Separating measurement and expression models clarifies confusion in single-cell RNA sequencing analysis,” Nature Genetics, vol. 53, no. 6, pp. 770– 777, 2021.
  5. M. Meilă and T. Jaakkola, “Tractable Bayesian learning of tree belief networks,” Statistics and Computing, vol. 16, no. 1, pp. 77–92, 2006.
  6. E. Ventre, “Reverse engineering of a mechanistic model of gene expression using metasta- bility and temporal dynamics,” In Silico Biology, vol. 14, no. 3-4, pp. 89–113, 2021.
  7. U. Herbach, “Harissa: stochastic simulation and inference of gene regulatory networks based on transcriptional bursting,” in Lecture Notes in Computer Science, vol. 14137 of Lecture Notes in Bioinformatics, pp. 97–105, 2023.
  8. R. Momal, S. Robin, and C. Ambroise, “Tree-based inference of species interaction networks from abundance data,” Methods in Ecology and Evolution, vol. 11, no. 5, pp. 621–632, 2020.

Compétences

Modélisation statistique : modèles graphiques probabilistes, inférence bayésienne, méthodes variationnelles

Langues : français, anglais scientifique

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

2100€ brut/mois la 1ère année