Doctorant F/H CIFRE - Apprentissage faiblement supervisé à grande échelle pour le diagnostic différentiel basé sur la parole

The offer description be low is in French

Contract type : Fixed-term contract

Level of qualifications required : Graduate degree or equivalent

Fonction : PhD Position

Context

Cette thèse CIFRE s'inscrit dans le cadre d'une collaboration interdisciplinaire entre la société ECHO et les équipes Multispeech et Sémagramme du Centre Inria de l'Université de Lorraine. La mission d'ECHO est d'améliorer la prise en charge des appels au SAMU et à SOS Médecins en aidant le personnel de régulation à estimer le niveau d'urgence rapidement et précisément. Pour cela, ECHO dispose d'une base de données unique en Europe contenant les enregistrements de plusieurs centaines de milliers d'appels à SOS Médecins, annotés avec les rapports rédigés par les assistants de régulation médicale, la modalité de prise en charge (visite d'un médecin à domicile, envoi d'une ambulance, renvoi vers le SAMU, etc.) et, dans le cas de la visite d'un médecin à domicile, le rapport diagnostic du médecin et/ou les résultats de tests biologiques.

Le/la doctorant.e sera co-encadré.e par le Pr. Laurent Rigal, Chief Medical Officer d'ECHO et directeur du département de médecine générale de l'Université Paris-Saclay, et par Vincent P. Martin et Emmanuel Vincent, chercheurs Inria. Il/elle alternera des périodes en laboratoire de recherche en informatique à Nancy, dans un incubateur de start-up, et un environnement médical (SOS Médecins, Hôpital Bicêtre) à Paris, selon des modalités à définir conjointement. Le télétravail est aussi possible selon des modalités à définir conjointement.

Assignment

La parole mobilise plusieurs processus moteurs, linguistiques et cognitifs, qui en font un signal sensible à de nombreux symptômes et maladies. La thèse se concentre sur deux cas où l'analyse de la parole peut significativement améliorer le diagnostic différentiel et la prise en charge des patients: i) distinguer les pathologies respiratoires basses et hautes, qui représentent des niveau d'urgence et de gravité différentes, requérant des prises en charges différentes et ii) identifier les patients redirigés vers les services d'urgence pour suspicion d'accidents vasculaires cérébraux (AVC), maladie qui présente peu de symptômes spécifiques et peut correspondre à des motifs d'appel très différents.

L'analyse de la parole a précédemment été employée pour détecter la grippe [1], la Covid-19 [2] ou les AVC [3], avec des performances de l'ordre de 90%. Ces études présentent cependant trois limitations fortes qui empêchent leur mise en œuvre pour la régulation des appels à SOS Médecins :

  • le petit nombre de patients et la qualité des annotations, parfois basées sur une auto-évaluation [2], qui limitent la généralisation et décrédibilisent les résultats aux yeux des professionnels de santé ;
  • le fossé entre les jeux de données utilisés (lecture de texte ou description d'image à voix haute) et les appels à SOS Médecins (dialogue spontané, qualité sonore réduite), qui fait chuter la performance pour les AVC à seulement 35% en pratique [4] ;
  • le focus sur la tâche de détection binaire d'une maladie (malade / non malade), qui diffère de la tâche effectuée par les assistants de régulation qui font face à des appelants ayant des tableaux cliniques tous symptomatologiques et souvent similaires et doivent évaluer la gravité et le niveau d'urgence de la maladie sous-jacente sans nécessairement l'expliciter. 

L'objectif de la thèse est de résoudre ces trois limitations à l'aide de la grande base de données d'appels à disposition d'ECHO.

[1] M. Albes, Z. Ren, B.W. Schuller, and N. Cummins, "Squeeze for sneeze: Compact neural networks for cold and flu recognition", in Interspeech, pp. 4546-4550, 2020.
[2] V. Despotovic, M. Ismael, M. Cornil, R.M. Call, and G. Fagherazzi, "Detection of COVID-19 from voice, cough and breathing patterns: Dataset and preliminary results", Computers in Biology and Medicine, vol. 138, art. no. 104944, 2021.
[3] A. Bandini, J. Green, B. Richburg, and Y. Yunusova, "Automatic detection of orofacial impairment in stroke", in Interspeech, pp. 1711-1715, 2018.
[4] J. Wenstrup, J. Drachmann Havtorn, L. Borgholt, S.N. Blomberg, L. Maaloe, M.R. Sayre, H. Christensen, C. Kruuse, and H. Collatz Christensen, "A retrospective study on machine learning-assisted stroke recognition for medical helpline calls", NPJ Digital Medicine, vol. 6, art. no. 235, 2023.

Main activities

Ces données sont intrinsèquement incomplètes. En effet, si tous les appelants sont pris en charge par un assistant de régulation, la complexité et la gravité du cas peut enchaîner différents interlocuteurs, chacun générant des informations cliniques de nature et de précision différentes : médecin régulateur (au téléphone, générant un premier bilan clinique) ; médecin de SOS Médecins se rendant au domicile ou faisant une téléconsultation (générant un bilan clinique d'une meilleure fiabilité) ; redirection vers le SAMU (pas de rapport supplémentaire mais indiquant une sévérité importante) ; ou maintien à domicile de l’appelant avec une consultation en ville le lendemain (pas de rapport supplémentaire). Dans certains cas (grippe, COVID, etc.), ces diagnostics cliniques peuvent être confirmés par les résultats de tests biologiques.

Notre objectif sera donc d'estimer à partir d'un appel les probabilités de présence ou de sévérité de ces symptômes/maladies/entités cliniques, qui seront ensuite modélisées au sein d'un réseau (graphe) de symptômes [5,6]. Celui-ci sera ensuite utilisé pour contraindre l'apprentissage et/ou l'inférence des entités cliniques pertinentes pour le diagnostic différentiel des maladies étudiées.

Les activités principales comprennent mais ne se limitent pas à i) l'extraction robuste de caractéristiques pertinentes à partir d'enregistrements d'appels et de rapports cliniques non structurés [7], pouvant passer par l'amélioration de la reconnaissance de la parole [8] et la diarisation ; ii) la conception, l'entraînement et l'évaluation de modèles d'apprentissage faiblement/non-supervisés pour la détection simultanée de plusieurs symptômes/entités cliniques et le diagnostic différentiel ; iii) l'intégration de connaissances cliniques ou épidémiologiques dans les modèles grâce à la modélisation des relations entre ces entités cliniques par des graphes de symptômes et à la contrainte de l'apprentissage du modèle avec ces graphes.

Des périodes d'observation sur le terrain (SOS Médecins, Paris) seront proposées afin d'ancrer la conception du dispositif dans la réalité de son utilisation, et garantir l'adéquation entre son usage projeté (amélioration de la prise en charge par les assistants de régulation) et son environnement réel (salle d'appel et de régulation médicale).

[5] K. Lu, K. Yang, E. Niyongabo, Z. Shu, J. Wang, K. Chang, Q. Zou, J. Jiang, C. Jia, B. Liu, and X. Zhou, "Integrated network analysis of symptom clusters across disease conditions", Journal of Biomedical Informatics, vol. 107, art. no. 103482, 2020.
[6] V.P. Martin, J.-L. Rouas, and P. Philip, "Automatic detection of sleepiness-related symptoms and syndromes using voice and speech biomarkers", Biomedical Signal Processing and Control, vol. 91, art. no. 105989, 2024.
[7] A. Neuraz, I. Lerner, O. Birot, C. Arias, L. Han, C.L. Bonzel, T. Cai, K.T. Huynh, and A. Coulet, "TAXN: Translate Align Extract Normalize, a multilingual extraction tool for clinical texts", in MEDINFO 2023—The Future Is Accessible, pp. 649-653, 2024.
[8] A. Radford, J.W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, "Robust speech recognition via large-scale weak supervision", in 40th International Conference on Machine Learning (ICML), pp. 28492--28518, 2023.

Skills

La/le candidat.e devra être titulaire d'un Master en traitement de la parole, TAL, machine learning, linguistique informatique ou dans un domaine lié, avec de solides compétences en Python/Pytorch.

Une expérience préalable en traitement de la parole ou en TAL sera un atout.

Le projet portant exclusivement sur des enregistrements en français et incluant une immersion terrain dans un centre d'appel francophone, la compréhension du français avec un bon niveau (B2) est requise.

Remuneration

30 000 € bruts/an ou plus selon expérience