Post-Doctorant F/H Postdoc Améliorer la frugalité et la robustesse d'un modèle de langage pour les textes médicaux en français

The offer description be low is in French

Contract type : Fixed-term contract

Level of qualifications required : PhD or equivalent

Fonction : Post-Doctoral Research Visit

About the research centre or Inria department

Le centre de recherche Inria de Saclay a été créé en 2008. Sa dynamique s’inscrit dans le développement du plateau de Saclay, en partenariat étroit d’une part avec le pôle de l’Université Paris-Saclay et d’autre part avec le pôle de l’Institut Polytechnique de Paris . Afin de construire une politique de site ambitieuse, le centre Inria de Saclay a signé en 2021 des accords stratégiques avec ces deux partenaires territoriaux privilégiés.

Le centre compte 40 équipes-projets, dont 32 sont communes avec l’Université Paris-Saclay ou l’Institut Polytechnique de Paris. Son action mobilise plus de 600 personnes, scientifiques et personnels d’appui à la recherche et à l’innovation, issues de 54 nationalités.

Le centre Inria Saclay - Île-de-France est un acteur essentiel de la recherche en sciences du numérique sur le plateau de Saclay. Il porte les valeurs et les projets qui font l’originalité d’Inria dans le paysage de la recherche : l’excellence scientifique, le transfert technologique, les partenariats pluridisciplinaires avec des établissements aux compétences complémentaires aux nôtres, afin de maximiser l’impact scientifique, économique et sociétal d’Inria.

Context

Dans le cadre du projet Partages, coordonné par le Health Data Hub et financé par BPI France,  l’ objectif est de développer un modèle open source pour les données médicales françaises.

L'intelligence artificielle générative et les grands modèles de langage ont récemment ouvert des perspectives sur l'utilisation de l'IA dans divers domaines. Pour concrétiser ce potentiel, le projet national collaboratif
"PARTAGES" répond à un besoin crucial : le développement d'un modèle de langage open-source en français, spécialisé dans les données de santé. Un tel outil accélérera considérablement et démocratisera l'utilisation de l'IA pour la santé, apportant des bénéfices massifs à l'organisation du système de santé, aux conditions de travail des soignants et, en fin de compte, à la santé publique. Une préoccupation principale lors de l'analyse des données textuelles de santé est la confidentialité des patients, et c'est pourquoi il est stratégique de développer des modèles open source pouvant être utilisés dans les hôpitaux et autres acteurs de santé. Pour cela "Partages" se déroulera en deux étapes : (i) générer des comptes rendus médicaux synthétiques en combinaison avec la littérature scientifique biomédicale pour affiner un modèle open-source, (ii) raffiner le modèle sur des comptes rendus médicaux réels, au sein de chacun des 18 établissements de soins partenaires. L'équipe Soda est impliquée dans la réalisation de tâches de la première partie : travail sur des données uniquement publiques, et mise à disposition du modèle en open-source.

Assignment

En nous appuyant sur l'expertise de l'équipe Soda en matière d'IA robuste et frugale, nous participons à la création d'un modèle de base qui est robuste face à un nouveau vocabulaire (que ce soit de nouveaux concepts médicaux apparaissant à l'avenir, ou des fautes d'orthographe ou des abréviations utilisées dans les textes médicaux), et frugal. Le postdoc recruté, Joel Mba Kouhoue travaillera sur la distillation de modèles, afin d'obtenir un modèle (dit ``étudiant'') plus économe en ressources de calcul que le modèle originel (dit ``enseignant''). Plusieurs architectures et catégories de modèles seront envisagées pour le modèle étudiant : modèles "encoder-only" de type BERT, en particulier pour les tâches de détection d'entités et d'annotations de documents, avec une comparaison avec des modèles génératifs sur ces tâches, et modèles "encoder-decoder" pour des tâches nécessitant un modèle génératif, comme le résumé, la génération d'exercices pour la formation des personnels soignants. L'ensemble des résultats de ces expériences sera publié et partagé en open-source.

Le travail consistera d'une part à distiller des gros modèles ``enseignants'' existants en utilisant pour la distillation des corpus proches de ceux applicatifs (et donc avec un vocabulaire médical), d'autre part à affiner et valider ces modèles sur des tâches proxis, telles que de l'extraction d'entitées nomées. L'étude fera varier le choix du modèle enseignant (en faisant attention au choix de licence compatible avec nos objectifs d'open source), cherchera le meilleur corpus (y compris en utilisant de l'augmentation de données) et mesurera les compromis taille de modèle / performance sur les tâches proxis.

Main activities

Le candidat travaillera à l'élaboration et l'évaluation de modèles frugaux et robustes.

Skills

Compétences techniques et niveau requis :

Langues :

Compétences relationnelles :

Compétences additionnelles appréciées :

Benefits package

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Remuneration

Salaire brut mensuel : 2 788 euros brut/mois