Doctorant F/H Diagnostic différentiel d’infarctus à partir de la parole

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Doctorant

Contexte et atouts du poste

Cette thèse CIFRE s'inscrit dans le cadre d'une collaboration interdisciplinaire entre le SAMU54 du CHRU de Nancy et les équipes Multispeech et Sémagramme du Centre Inria de l'Université de Lorraine. 

Le/la doctorant.e sera co-encadré.e par Vincent P. Martin et Emmanuel Vincent, chercheurs Inria, et par le Pr. Tahar Chouihed, Chef de Service SAMU-SMUR-Urgences et professeur de médecine d’urgence à l’Université de Lorraine. Il/elle alternera des périodes en laboratoire de recherche en informatique et dans les locaux du SAMU54, présentement situés à l'Hôpital Central de Nancy. 

Mission confiée

Parmi les 300 000 appels au SAMU54 chaque année, plus de 1 000 concernent des suspicions d’infarctus (obstruction d’un vaisseau sanguin conduisant à la nécrose des tissus). Ce dernier se traduit par des symptômes peu spécifiques et atypiques (douleurs thoraciques, pâleur, malaises, sueurs, essoufflement, nausées) avec de fortes variations interindividuelles, notamment entre femmes et hommes [1], et nécessite une prise en charge médicale rapide.

L'objectif de la thèse est de détecter l'infarctus en temps réel durant un appel au SAMU par l'analyse de la parole de l'appellant.e, et de le différencier d’autres troubles avec des symptômes similaires. En effet, l'infarctus a un impact majeur sur le système cardio-respiratoire et donc sur la parole [2]. Certains symptômes comme la douleur [3] ou l'essoufflement [4] ont déjà été détectés à partir de la parole. Cependant, bien qu'il existe des publications sur la détection de l'insuffisance cardiaque à partir de la parole [5], il n'en existe pas sur celle de l'infarctus. Pour réaliser cette tâche, le SAMU54 dispose d'une base de données contenant les enregistrements des appels, annotés avec les rapports rédigés par les assistants de régulation médicale, la modalité de prise en charge (envoi d'un SMUR, envoi d'une ambulance, renvoi vers les urgences, etc.), et le diagnostic final (infarctus ou non).

Plus largement, la thèse a pour objectif de dépasser trois limites des travaux utilisant la parole pour des tâches liées à la santé grâce à la base de données mise à disposition par le SAMU54:

  • le petit nombre de patients et la qualité des annotations, parfois basées
    sur une auto-évaluation, qui limitent la généralisation et décrédibilisent les résultats aux yeux des professionnels de santé ;
  • le fossé entre les jeux de données utilisés dans la littérature (lecture de texte ou description d'image à voix haute) et les appels au SAMU (dialogue spontané, qualité sonore réduite), qui complexifie l'extraction de descripteurs pertinents ;
  • le focus sur la tâche de détection binaire d'une maladie (malade / non malade) ou d'un unique symptôme (par exemple, la sévérité de la douleur), qui diffère de la tâche effectuée par les assistants de régulation qui font face à des appelants ayant des tableaux cliniques tous symptomatologiques et souvent similaires et doivent évaluer la gravité et le niveau d'urgence de la maladie sous-jacente sans nécessairement l'expliciter.

[1] D. L. Campo. “Recognizing myocardial infarction in women: a case study”. American Journal of Nursing 116(9):46–49, 2016.
[2] P. B. Denes and E. N. Pinson. The Speech Chain: The Physics and Biology of Spoken Language, 2nd edition, 1993.
[3] S. Borna, C. R. Haider, K. C. Maita, R. A. Torres, F. R. Avila, J. P. Garcia, G. D. De Sario Velasquez, C. J. McLeod, C. J. Bruce, R. E. Carter, and A. J. Forte. A review of voice-based pain detection in adults using artificial
intelligence. Bioengineering (Basel) 10(4):500, 2023.
[4] E. Castillo-Guerra and A. Ruiz. ”Automatic modeling of acoustic perception of breathiness in pathological voices”. IEEE Transactions on Biomedical Engineering 56(4):932–940, 2009.
[5] M. K. Reddy, P. Helkkula, Y. M. Keerthana, K. Kaitue, M. Minkkinen, H. Tolppanen, T. Nieminen, and P. Alku. “The automatic detection of heart failure using speech signals”. Computer Speech & Language 69:101205, 2021.

Principales activités

Les données du SAMU54 sont intrinsèquement incomplètes. Alors que tous les appelants sont pris en charge par un assistant de régulation, différents interlocuteurs génèrent ensuite des informations cliniques de nature et de précision différentes selon le cas : assistant de régulation (au téléphone, générant un premier bilan clinique) ; médecin régulateur (générant un bilan clinique) ; médecin urgentiste envoyé sur place, effectuant un électrocardiogramme (générant un bilan clinique d'une meilleure fiabilité) ; envoi du patient aux urgences pour une coronographie (permettant de poser le diagnostic définitif d'infarctus).

Notre objectif sera donc d'estimer à partir d'un appel les probabilités de présence ou de sévérité de ces symptômes/maladies/entités cliniques, qui seront ensuite modélisées au sein d'un réseau (graphe) de symptômes [6]. Celui-ci sera ensuite utilisé pour contraindre l'apprentissage et/ou l'inférence des entités cliniques pertinentes pour le diagnostic différentiel de l'infarctus.

Les activités principales comprennent mais ne se limitent pas à i) l'extraction robuste de caractéristiques pertinentes à partir d'enregistrements d'appels et de rapports cliniques non structurés [7], pouvant passer par l'amélioration de la reconnaissance de la parole [8] et la diarisation ; ii) la conception, l'entraînement et l'évaluation de modèles d'apprentissage faiblement/non-supervisés pour la détection simultanée de plusieurs symptômes/entités cliniques et le diagnostic différentiel ; iii) l'intégration de connaissances cliniques ou épidémiologiques dans les modèles grâce à la modélisation des relations entre ces entités cliniques par des graphes de symptômes et à la contrainte de l'apprentissage du modèle avec ces graphes.

Des périodes d'observation sur le terrain (SAMU54, Nancy) seront proposées afin d'ancrer la conception du dispositif dans la réalité de son utilisation par les assistants de régulation et les médecins régulateurs.

[6] D. Borsboom. A network theory of mental disorders. World Psychiatry 16:5–13, 2017.
[7] A. Neuraz, I. Lerner, O. Birot, C. Arias, L. Han, C. L. Bonzel, T. Cai, K. T. Huynh, and A. Coulet, ”TAXN: Translate Align Extract Normalize, a multilingual extraction tool for clinical texts”, in MEDINFO 2023—The Future
Is Accessible, pp. 649–653, 2024.
[8] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, ”Robust speech recognition via large-scale weak supervision”, in 40th International Conference on Machine Learning (ICML), pp. 28492–28518, 2023.

Compétences

La/le candidat.e devra être titulaire d'un Master en traitement de la parole, TAL, machine learning, linguistique informatique ou dans un domaine voisin, avec de solides compétences en Python/Pytorch.

Une expérience préalable en traitement de la parole ou en TAL sera un atout.

Le projet portant exclusivement sur des enregistrements en français et incluant une immersion terrain dans un centre d'appel francophone, la compréhension du français avec un bon niveau (B2) est requise.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

2200€ brut/mois