Doctorant F/H Inversion acoustique articulatoire du conduit vocal complet et indépendante du locuteur
Type de contrat : CDD
Niveau de diplôme exigé : Bac + 5 ou équivalent
Fonction : Doctorant
Contexte et atouts du poste
Thématique/Contexte
L’inversion acoustique articulatoire consiste à retrouver la forme géométrique du conduit vocal à partir du signal de parole. Il s’agit d’un défi scientifique majeur en traitement automatique de la parole. Parmi les multiples applications potentielles, il peut notamment s’agir de fournir un retour articulatoire à un apprenant d’une langue étrangère ou encore d’établir un diagnostic médical sur l’articulation de la parole. Pour l’instant ce problème n’a reçu que des solutions partielles et les techniques d’inversion qui existent ne permettent que de retrouver quelques variables articulatoires dans le conduit vocal, essentiellement pour la partie avant de la langue et les lèvres [3].
Nous avons déjà développé une approche de l’inversion acoustique articulatoire monolocuteur en entraînant l’inversion à partir de données d’IRM temps réel et du signal de parole débruité [1].
Cette offre de doctorat est proposée par le cluster ENACT AI et ses partenaires. Retrouvez toutes les offres et actions de doctorat ENACT sur https://cluster-ia-enact.ai/.
Objectif
L’objectif est maintenant de développer une inversion multilocuteur complète du conduit vocal. Pour cela nous disposons de données concernant une vingtaine de locuteurs. Ces données sont moins complètes mais elles permettront d’élaborer une procédure de normalisation anatomique pour adapter l’inversion à un nouveau locuteur et de réaliser une adaptation acoustique.
Environnement
Nos deux équipes travaillent déjà ensemble étroitement depuis plusieurs années sur la modélisation articulatoire en utilisant intensivement les données de l’IRM dynamique. Nous sommes l’une des équipes les plus en pointe dans l’utilisation de l’IRM temps réel pour le traitement automatique de la parole. Le doctorant pourra disposer des bases de données déjà acquises dans le cadre des projets ANR ArtSpeech (de l’ordre de 10 minutes de parole pour 10 locuteurs) et de celles beaucoup plus de l’ANR Full3DTalkingHead (de l’ordre de 3 heures de parole pour 3 locuteurs). Il sera aussi possible d’acquérir des données complémentaires à l’aide du système d’IRM disponible au laboratoire IADI. Ce projet de doctorat s’appuiera donc sur la coopération actuelle, et bien sûr sur les données et les outils de segmentation que nous avons développés et que nous continuons à améliorer.
L’environnement scientifique des deux équipes est très complémentaire avec une très forte compétence dans tous les domaines de l’IRM et de l’anatomie au sein du laboratoire IADI et de l’apprentissage profond au sein de l’équipe MultiSpeech du Loria. Les deux équipes sont proches géographiquement (1,5 km). Le doctorant aura accès à des moyens techniques (ordinateur, accès aux clusters de calcul) lui permettant de travailler dans de très bonnes conditions. Une réunion de suivi aura lieu chaque semaine et chacune des deux équipes organise un séminaire scientifique hebdomadaire. Le doctorant aura aussi l’occasion de participer à une ou deux écoles d’été et aux conférences en IRM et en traitement automatique de la parole. Il sera aussi aidé pour la rédaction des articles de conférence ou de revue.
Une partie des données concernant l’allemand il est prévu de coopérer avec deux équipes en Allemagne (Universität des Saarlandes et TU Dresden).
Mission confiée
Travail
Le travail comportera quatre aspects : (i) l’adaptation anatomique avec ou sans une image IRM statique du nouveau locuteur, (ii) l’adaptation des données acoustiques d’un nouveau locuteur de manière à pour inverser le signal de parole par rapport au modèle construit sur les autres locuteurs, (iii) l’inversion acoustique articulatoire proprement dite (ii) l’évaluation géométrique en mesurant l’écart aux formes du conduit vocal attendues ou l’évaluation à l’aide de variables articulatoires qui correspondent mieux aux informations phonétiques.
La première partie du travail consistera à développer une méthode d’adaptation anatomique [2] pour prendre en compte un nouveau locuteur à partir d’une image IRM statique comme cela peut être envisagé pour une application médicale. Cette adaptation est destinée à remettre dans le même repère géométrique les données du nouveau locuteur. Nous disposons des images IRM statiques et dynamiques qui seront utilisées pour cette adaptation. Il sera aussi possible de développer une procédure d’adaptation géométrique sans image à partir du seul signal acoustique. Après adaptation il sera possible de projeter les résultats de l’inversion dans le repère anatomique du nouveau locuteur.
La seconde partie du travail portera sur l’adaptation acoustique pour que l’inversion puisse prendre en compte les données acoustiques d’un nouveau locuteur de manière optimale. Cette adaptation doit aussi compenser le fait que les données acoustiques utilisées pour l’apprentissage de l’inversion ont été enregistrées dans un bruit intense (celui de la machine IRM) et qu’elles ont dû être débruitées. L’adaptation acoustique est un thème qui a donné lieu à de nombreux travaux en traitement automatique de la parole et il existe donc plusieurs pistes pour aborder cette question efficacement.
Pour l’inversion elle-même l’approche actuelle repose souvent sur des LSTM bidirectionnels et consiste à retrouver le contour des articulateurs. Il sera possible d’ajouter une information d’attention concernant l’impact phonétique de tel ou tel articulateur pour améliorer la cohérence des résultats de l’inversion.
Le dernier aspect concerne l’évaluation. Il peut s’agir d’une évaluation purement géométrique entre la position du contour attendu et celle du contour retrouvé par inversion. Il peut aussi s’agir d’une évaluation à l’aide de variables articulatoires moins précises mais qui reflètent les propriétés acoustiques attendues.
Bibliographie
[1] Azzouz, S., Vuissoz, P.-A. and Laprie, Y. 2024. Complete reconstruction of the tongue contour through acoustic to articulatory inversion using real-time MRI data.
[2] Oura, A., Kikuchi, H. and Kobayashi, T. 2024. Preprocessing for acoustic-to-articulatory inversion using real-time MRI movies of Japanese speech. (2024), 1550–1554.
[3] Parrot, M., Millet, J. and Dunbar, E. 2020. Independent and Automatic Evaluation of Speaker-Independent Acoustic-to-Articulatory Reconstruction. Proceedings of INTERSPEECH 2020, 21st Annual Conference of the International Speech Communication Association (Shanghai / Virtual, China, Oct. 2020).
Compétences
Le candidat doit avoir une solide expérience en apprentissage profond, en mathématiques appliquées et en sciences informatiques. Des connaissances en traitement de la parole et de l'IRM seront également appréciées.
Langues : Anglais et Français (A2)
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
- Accès à la formation professionnelle
- Sécurité sociale
Rémunération
2200€ brut/mois
Informations générales
- Thème/Domaine :
Langue, parole et audio
Calcul Scientifique (BAP E) - Ville : Villers lès Nancy
- Centre Inria : Centre Inria de l'Université de Lorraine
- Date de prise de fonction souhaitée : 2025-10-01
- Durée de contrat : 3 ans
- Date limite pour postuler : 2025-03-26
Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti.
Consignes pour postuler
Sécurité défense :
Ce poste est susceptible d’être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L’autorisation d’accès à une zone est délivrée par le chef d’établissement, après avis ministériel favorable, tel que défini dans l’arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l’annulation du recrutement.
Politique de recrutement :
Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap.
Contacts
- Équipe Inria : MULTISPEECH
-
Directeur de thèse :
Laprie Yves / yves.laprie@loria.fr
A propos d'Inria
Inria est l’institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l’interface d’autres disciplines. L’institut fait appel à de nombreux talents dans plus d’une quarantaine de métiers différents. 900 personnels d’appui à la recherche et à l’innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.