Doctorant F/H CIFRE - Apprentissage faiblement supervisé à grande échelle pour le diagnostic différentiel basé sur la parole
Contract type : Fixed-term contract
Level of qualifications required : Graduate degree or equivalent
Fonction : PhD Position
Context
Cette thèse CIFRE s'inscrit dans le cadre d'une collaboration interdisciplinaire entre la société ECHO et les équipes Multispeech et Sémagramme du Centre Inria de l'Université de Lorraine. La mission d'ECHO est d'améliorer la prise en charge des appels au SAMU et à SOS Médecins en aidant le personnel de régulation à estimer le niveau d'urgence rapidement et précisément. Pour cela, ECHO dispose d'une base de données unique en Europe contenant les enregistrements de plusieurs centaines de milliers d'appels à SOS Médecins, annotés avec les rapports rédigés par les assistants de régulation médicale, la modalité de prise en charge (visite d'un médecin à domicile, envoi d'une ambulance, renvoi vers le SAMU, etc.) et, dans le cas de la visite d'un médecin à domicile, le rapport diagnostic du médecin et/ou les résultats de tests biologiques.
Le/la doctorant.e sera co-encadré.e par le Pr. Laurent Rigal, Chief Medical Officer d'ECHO et directeur du département de médecine générale de l'Université Paris-Saclay, et par Vincent P. Martin et Emmanuel Vincent, chercheurs Inria. Il/elle alternera des périodes en laboratoire de recherche en informatique à Nancy, dans un incubateur de start-up, et un environnement médical (SOS Médecins, Hôpital Bicêtre) à Paris, selon des modalités à définir conjointement. Le télétravail est aussi possible selon des modalités à définir conjointement.
Assignment
La parole mobilise plusieurs processus moteurs, linguistiques et cognitifs, qui en font un signal sensible à de nombreux symptômes et maladies. La thèse se concentre sur deux cas où l'analyse de la parole peut significativement améliorer le diagnostic différentiel et la prise en charge des patients: i) distinguer les pathologies respiratoires basses et hautes, qui représentent des niveau d'urgence et de gravité différentes, requérant des prises en charges différentes et ii) identifier les patients redirigés vers les services d'urgence pour suspicion d'accidents vasculaires cérébraux (AVC), maladie qui présente peu de symptômes spécifiques et peut correspondre à des motifs d'appel très différents.
L'analyse de la parole a précédemment été employée pour détecter la grippe [1], la Covid-19 [2] ou les AVC [3], avec des performances de l'ordre de 90%. Ces études présentent cependant trois limitations fortes qui empêchent leur mise en œuvre pour la régulation des appels à SOS Médecins :
- le petit nombre de patients et la qualité des annotations, parfois basées sur une auto-évaluation [2], qui limitent la généralisation et décrédibilisent les résultats aux yeux des professionnels de santé ;
- le fossé entre les jeux de données utilisés (lecture de texte ou description d'image à voix haute) et les appels à SOS Médecins (dialogue spontané, qualité sonore réduite), qui fait chuter la performance pour les AVC à seulement 35% en pratique [4] ;
- le focus sur la tâche de détection binaire d'une maladie (malade / non malade), qui diffère de la tâche effectuée par les assistants de régulation qui font face à des appelants ayant des tableaux cliniques tous symptomatologiques et souvent similaires et doivent évaluer la gravité et le niveau d'urgence de la maladie sous-jacente sans nécessairement l'expliciter.
L'objectif de la thèse est de résoudre ces trois limitations à l'aide de la grande base de données d'appels à disposition d'ECHO.
[1] M. Albes, Z. Ren, B.W. Schuller, and N. Cummins, "Squeeze for sneeze: Compact neural networks for cold and flu recognition", in Interspeech, pp. 4546-4550, 2020.
[2] V. Despotovic, M. Ismael, M. Cornil, R.M. Call, and G. Fagherazzi, "Detection of COVID-19 from voice, cough and breathing patterns: Dataset and preliminary results", Computers in Biology and Medicine, vol. 138, art. no. 104944, 2021.
[3] A. Bandini, J. Green, B. Richburg, and Y. Yunusova, "Automatic detection of orofacial impairment in stroke", in Interspeech, pp. 1711-1715, 2018.
[4] J. Wenstrup, J. Drachmann Havtorn, L. Borgholt, S.N. Blomberg, L. Maaloe, M.R. Sayre, H. Christensen, C. Kruuse, and H. Collatz Christensen, "A retrospective study on machine learning-assisted stroke recognition for medical helpline calls", NPJ Digital Medicine, vol. 6, art. no. 235, 2023.
Main activities
Ces données sont intrinsèquement incomplètes. En effet, si tous les appelants sont pris en charge par un assistant de régulation, la complexité et la gravité du cas peut enchaîner différents interlocuteurs, chacun générant des informations cliniques de nature et de précision différentes : médecin régulateur (au téléphone, générant un premier bilan clinique) ; médecin de SOS Médecins se rendant au domicile ou faisant une téléconsultation (générant un bilan clinique d'une meilleure fiabilité) ; redirection vers le SAMU (pas de rapport supplémentaire mais indiquant une sévérité importante) ; ou maintien à domicile de l’appelant avec une consultation en ville le lendemain (pas de rapport supplémentaire). Dans certains cas (grippe, COVID, etc.), ces diagnostics cliniques peuvent être confirmés par les résultats de tests biologiques.
Notre objectif sera donc d'estimer à partir d'un appel les probabilités de présence ou de sévérité de ces symptômes/maladies/entités cliniques, qui seront ensuite modélisées au sein d'un réseau (graphe) de symptômes [5,6]. Celui-ci sera ensuite utilisé pour contraindre l'apprentissage et/ou l'inférence des entités cliniques pertinentes pour le diagnostic différentiel des maladies étudiées.
Les activités principales comprennent mais ne se limitent pas à i) l'extraction robuste de caractéristiques pertinentes à partir d'enregistrements d'appels et de rapports cliniques non structurés [7], pouvant passer par l'amélioration de la reconnaissance de la parole [8] et la diarisation ; ii) la conception, l'entraînement et l'évaluation de modèles d'apprentissage faiblement/non-supervisés pour la détection simultanée de plusieurs symptômes/entités cliniques et le diagnostic différentiel ; iii) l'intégration de connaissances cliniques ou épidémiologiques dans les modèles grâce à la modélisation des relations entre ces entités cliniques par des graphes de symptômes et à la contrainte de l'apprentissage du modèle avec ces graphes.
Des périodes d'observation sur le terrain (SOS Médecins, Paris) seront proposées afin d'ancrer la conception du dispositif dans la réalité de son utilisation, et garantir l'adéquation entre son usage projeté (amélioration de la prise en charge par les assistants de régulation) et son environnement réel (salle d'appel et de régulation médicale).
[5] K. Lu, K. Yang, E. Niyongabo, Z. Shu, J. Wang, K. Chang, Q. Zou, J. Jiang, C. Jia, B. Liu, and X. Zhou, "Integrated network analysis of symptom clusters across disease conditions", Journal of Biomedical Informatics, vol. 107, art. no. 103482, 2020.
[6] V.P. Martin, J.-L. Rouas, and P. Philip, "Automatic detection of sleepiness-related symptoms and syndromes using voice and speech biomarkers", Biomedical Signal Processing and Control, vol. 91, art. no. 105989, 2024.
[7] A. Neuraz, I. Lerner, O. Birot, C. Arias, L. Han, C.L. Bonzel, T. Cai, K.T. Huynh, and A. Coulet, "TAXN: Translate Align Extract Normalize, a multilingual extraction tool for clinical texts", in MEDINFO 2023—The Future Is Accessible, pp. 649-653, 2024.
[8] A. Radford, J.W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, "Robust speech recognition via large-scale weak supervision", in 40th International Conference on Machine Learning (ICML), pp. 28492--28518, 2023.
Skills
La/le candidat.e devra être titulaire d'un Master en traitement de la parole, TAL, machine learning, linguistique informatique ou dans un domaine lié, avec de solides compétences en Python/Pytorch.
Une expérience préalable en traitement de la parole ou en TAL sera un atout.
Le projet portant exclusivement sur des enregistrements en français et incluant une immersion terrain dans un centre d'appel francophone, la compréhension du français avec un bon niveau (B2) est requise.
Remuneration
30 000 € bruts/an ou plus selon expérience
General Information
- Theme/Domain : Language, Speech and Audio
- Town/city : Villers lès Nancy
- Inria Center : Centre Inria de l'Université de Lorraine
- Starting date : 2025-02-01
- Duration of contract : 3 years
- Deadline to apply : 2024-12-04
Warning : you must enter your e-mail address in order to save your application to Inria. Applications must be submitted online on the Inria website. Processing of applications sent from other channels is not guaranteed.
Instruction to apply
Defence Security :
This position is likely to be situated in a restricted area (ZRR), as defined in Decree No. 2011-1425 relating to the protection of national scientific and technical potential (PPST).Authorisation to enter an area is granted by the director of the unit, following a favourable Ministerial decision, as defined in the decree of 3 July 2012 relating to the PPST. An unfavourable Ministerial decision in respect of a position situated in a ZRR would result in the cancellation of the appointment.
Recruitment Policy :
As part of its diversity policy, all Inria positions are accessible to people with disabilities.
Contacts
- Inria Team : MULTISPEECH
-
PhD Supervisor :
Vincent Emmanuel / emmanuel.vincent@inria.fr
About Inria
Inria is the French national research institute dedicated to digital science and technology. It employs 2,600 people. Its 200 agile project teams, generally run jointly with academic partners, include more than 3,500 scientists and engineers working to meet the challenges of digital technology, often at the interface with other disciplines. The Institute also employs numerous talents in over forty different professions. 900 research support staff contribute to the preparation and development of scientific and entrepreneurial projects that have a worldwide impact.