Stage de M2 - Reconstruction tridimensionnelle dynamique du conduit vocal lors de la production de la parole
Type de contrat : Convention de stage
Niveau de diplôme exigé : Bac + 5 ou équivalent
Fonction : Stagiaire de la recherche
Contexte et atouts du poste
Préambule :
Ce sujet s'inscrit dans le dispositif PhD tracks du centre Inria de l'Université de Lorraine et antenne de Strasbourg. Ce dispositif vise à attirer et accompagner des éléments prometteurs et motivés, inscrits actuellement en Master 2, vers le doctorat en proposant un financement couplé de quatre ans couvrant stage de Master2 + thèse. Le stage de Master 2, d'une durée de 5 à 6 mois, sera gratifié à 4.35 €/heure (plus ou moins 670 €/mois). Les candidats admis dans le dispositif présenteront en mai 2025 l’avancement de leurs travaux devant un jury qui validera l'entrée en thèse (l’arrêt du PhD track devrait être exceptionnel).
Ce dispositif, le mode de candidature et le calendrier sont décrits dans l'onglet PhD track du site https://www.inria.fr/fr/centre-inria-universite-lorraine
Bien qu'il existe maintenant de très bons systèmes de synthèse de la parole à partir du texte la compréhension du processus humain de production de la parole reste un domaine de recherche pour lequel il existe plusieurs défis non résolus. Le premier est le contrôle de l'évolution temporelle de la forme géométrique tridimensionnelle du conduit vocal qui définit les cavités de résonance, et par conséquent les propriétés acoustiques des sons de la parole.
Nous avons récemment proposé une approche à base d'apprentissage profond pour synthétiser la forme bidimensionnelle du conduit vocal à partir d'une suite de phonèmes à articuler[1]. Le système opère dans le plan médio-sagittal et il est entraîné à partir d'une vaste base de données IRM temps réel acquises au laboratoire IADI à Nancy pour une locutrice francophone. \`{A} notre connaissance il s'agit du système le plus avancé car il fournit le contour de tous les articulateurs de la parole que sont la langue, les lèvres, le larynx... Sa limitation principale est de ne fournir qu'une information bidimensionnelle car la base de données ne contient que des images dans le plan médio-sagittal à cause de contraintes technologiques qui ne peuvent pas être levées facilement.
Le but de ce projet est d'ajouter la troisième dimension en utilisant plusieurs séries d'enregistrements d'images bidimensionnelles acquises orthogonalement au plan médio-sagittal (dans le plan axial pour le pharynx puis dans le plan coronal pour la cavité buccale).
Les laboratoires Loria et IADI ont développé une coopération soutenue dans le domaine de l'exploitation de données d'IRM et en particulier d'IRM temps réel pour modéliser les gestes articulatoires de la parole. Nous avons étudié le problème direct pour synthétiser la forme du conduti vocal à partir d'une suite de phonèmes et le problème inverse consistant à retrouver les gestes articulatoires à partir du signal de parole. Nous disposons d'un système d'enregistrement temps réel pour l'IRM unique en France qui nous permet d'acquérir des données é une fréquence de 50 Hz.
Ce sujet de master peut se poursuivre en thèse dans plusieurs directions. La première concerne l'adaptation à un nouveau locuteur à partir d'une IRM 3D statique sans utiliser de données dynamiques. La seconde direction consiste à reconstruire dynamiquement les articulateurs de la parole (langue, lèvres...) en 3D et non pas seulement un ensemble restreint de coupes transverses.
Mission confiée
Le travail s'appuiera sur une base de données acquise pour un locuteur pour lequel une courte histoire de 45 secondes a été lue une fois pour 35 coupes transversales au plan médio-sagittal. Les données comprennent le signal de parole débruité et des images IRM en temps réel (50 images par seconde) pour les 35 coupes.
Une acquisition IRM 3D de précision millimétrique est également disponible et permet d'aligner toutes les acquisitions dans un repère géométrique unique.
La première étape consistera à réaligner temporellement toutes les acquisitions audio afin de s'assurer que les images de toutes les coupes transversales correspondent au même son. Ce travail sera basé sur la segmentation phonétique des 35 acquisitions enregistrées et sur des outils d'alignement forcé utilisant la reconnaissance automatique de la parole.
La deuxième étape consistera à déterminer la section transverse correspondant à l'air, et il sera possible d'utiliser la forme médio-sagittale pour améliorer la précision de la détection. Pour cette tâche, il est possible soit d'adapter les outils de segmentation que nous avons développés[2] à partir de R-CNN [3], soit d'utiliser des outils automatiques disponibles tels que SegmentAnyting https://segment-anything.com/.
La troisième étape consistera à concevoir et à entraîner un modèle de prédiction qui prend la forme médio-sagittale en entrée et génère l'aire du conduit vocal pour les 35 coupes transversales. Ce modèle sera ensuite utilisé pour déterminer l'aire du conduit vocal perpendiculaire à la ligne centrale correspondant à la propagation de l'onde sonore dans le conduit vocal.
[1] Vinicius Ribeiro, Karyna Isaieva, Justine Leclere, Pierre-André Vuissoz, Yves Laprie Automatic generation of the complete vocal tract shape from the sequence of phonemes to be articulated Speech Communication, 141:1–13, 2022.
[2] Vinicius Ribeiro, Karyna Isaieva, Justine Leclere, Jacques Felblinger, Pierre-André Vuissoz, Yves Laprie. Automatic segmentation of vocal tract articulators in real-time magnetic resonance imaging Computer Methods and Programs in Biomedicine, 243, 2024.
[3] Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick. Mask R-CNN. In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017.
[4] Richard S. McGowan, Michel T-T. Jackson, Michael A. Berger. Analyses of vocal tract cross-distance to area mapping: An investigation of a set of vowel images. J. Acoust. Soc. Am. 1 January 2012, 131(1): 42–434.
[5] Isaieva K, Odille F, Laprie Y, Drouot G, Felblinger J, Vuissoz P.-A. Super-Resolved Dynamic 3D Reconstruction of the Vocal Tract during Natural Speech. J Imaging., 9(10):233, 2023
Compétences
Compétences techniques et niveau requis : Master 1 en informatique ou mathématique appliquées
Langues : français ou anglais
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
- Accès à la formation professionnelle
- Sécurité sociale
Rémunération
Gratification de stage : 4,35 €/heure (plus ou moins 670 €/mois)
Rémunération de la thèse : 2100 € brut/mois la 1ère année
Informations générales
- Thème/Domaine :
Langue, parole et audio
Calcul Scientifique (BAP E) - Ville : Villers lès Nancy
- Centre Inria : Centre Inria de l'Université de Lorraine
- Date de prise de fonction souhaitée : 2025-02-01
- Durée de contrat : 6 mois
- Date limite pour postuler : 2024-12-01
Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti.
Consignes pour postuler
Sécurité défense :
Ce poste est susceptible d’être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L’autorisation d’accès à une zone est délivrée par le chef d’établissement, après avis ministériel favorable, tel que défini dans l’arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l’annulation du recrutement.
Politique de recrutement :
Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap.
Contacts
- Équipe Inria : MULTISPEECH
-
Recruteur :
Laprie Yves / yves.laprie@loria.fr
A propos d'Inria
Inria est l’institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l’interface d’autres disciplines. L’institut fait appel à de nombreux talents dans plus d’une quarantaine de métiers différents. 900 personnels d’appui à la recherche et à l’innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.