Stage en “fine-tuning dirigé par le modèle d’explicabilité en reconnaissance du locuteur et de la langue parlée”
Type de contrat : Stage
Niveau de diplôme exigé : Bac + 4 ou équivalent
Autre diplôme apprécié : M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée
Fonction : Stagiaire de la recherche
Contexte et atouts du poste
Ce stage s’inscrit dans un projet plus global visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio/patho/physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet en effet de
conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision
instruite.
L’approche mise en œuvre dans ce projet repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur dans [1] et [2].
Ces attributs binaires sont obtenus en deux phases :
– D’abord, un extracteur d’embedding “classique” entraîné pour la détection du locuteur ou de la langue représente un signal vocal de taille variable par un vecteur de taille fixe, un embedding. Récemment, l’emploi de modèles pré-appris géants, comme WavLM[3], a montré un fort intérêt, en remplacement de l’extracteur “classique”, tant
en termes de performances qu’en facilité de déploiement.
– Ensuite, un auto-encodeur binaire spécialement entraîné [4] extrait le vecteur d’attributs
binaires depuis cet embedding.
Que ce soit dans le cadre d’un extracteur “classique” ou pré-appris, être capable de spécialiser l’extracteur d’embedding à l’aide de l’auto-encodeur binaire est d’un grand intérêt. Cela permet d’espérer améliorer les performances mais aussi, et surtout, d’améliorer très significativement l’explicabilité et l’interprétabilité globale du modèle.
Le stage proposé permet donc de prendre en main les modèles de deep learning en vogue et de travailler à leur spécialisation à des tâches spécifiques. Mais il permet également de s’intéresser à l’explicabilité des modèles en deep learning, une direction qui devient de première importance dans ce domaine, et de découvrir une approche originale en explicabilité.
[1] Ben-Amor, I., & Bonastre, J. F. (2022, April). BA-LR: Binary-Attribute-based Likelihood Ratio estimation for forensic voice comparison. In 2022 International workshop on biometrics and forensics (IWBF) (pp. 1-6). IEEE.
[2] Ben-Amor, I., Bonastre, J. F., O'Brien, B., & Bousquet, P. M. (2023, August). Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition.
In Interspeech 2023. [3] Chen, Sanyuan, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu
Li, et al. « WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing ». IEEE Journal of Selected Topics in Signal Processing 16, no 6 (octobre 2022):
1505‑18. https://doi.org/10.1109/JSTSP.2022.3188113. [4] Ben-Amor, I., Bonastre, J. F., & Mdhaffar, S. (2024). Extraction of interpretable and shared speaker-specific speech attributes through binary auto-encoder. In Proc. Interspeech 2024 (pp. 3230-3234).
Mission confiée
L’objectif principal du stage proposé est d’étudier et de mettre en œuvre une solution de fine-tuning de l’extracteur par l’auto-encodeur binaire dédié à l’explicabilité.
Le travail sera décomposé en trois phases :
· La prise en main d’une chaîne de détection du locuteur explicable : entraînement de l’extracteur « classique », entraînement de l’auto-encodeur.
· La mise en œuvre du fine-tuning de l’extracteur « classique » guidée l’auto-encodeur
· L’adaptation de la chaîne de traitement à un extracteur pré-appris, de type WavLM.
· L’évaluation des solutions tant en termes de performance qu’en termes d’explicabilité
L’équipe entourant le stage est composée d’environ dix personnes, réparties sur les sites de Paris et de Grenoble. Le stage se déroulera de préférence à l’Antenne Inria MINATEC Grenoble et sera encadré par Jean-François Bonastre et Solène Evain.
Ce stage est ouvert à des étudiantes et étudiants de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.
Compétences
- Programmation Python
- Pratique d’une librairie type Pytorch, Keras, Scikit-learn
- Connaissances pratiques en apprentissage automatique
- Maîtrise de l’anglais
- Des connaissances en traitement automatique de la parole constitueront un plus.
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés déterminés en fonction de la durée du stage
- Possibilité de télétravail (après 2 mois d'ancienneté)
- Équipements professionnels à disposition (visioconférence, prêts de matériels
informatiques, etc.) - Prestations sociales, culturelles et sportives (Association de gestion des œuvres
sociales d'Inria) - Accès à la formation professionnelle
Informations générales
- Ville : Grenoble
- Centre Inria : Siège
- Date de prise de fonction souhaitée : 2025-03-01
- Durée de contrat : 6 mois
- Date limite pour postuler : 2025-02-28
Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti.
Consignes pour postuler
Sécurité défense :
Ce poste est susceptible d’être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L’autorisation d’accès à une zone est délivrée par le chef d’établissement, après avis ministériel favorable, tel que défini dans l’arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l’annulation du recrutement.
Politique de recrutement :
Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap.
Contacts
- Équipe Inria : MIS-DEFENSE (DIRECTION)
-
Recruteur :
Arunraja Emilie / emilie.arunraja@inria.fr
A propos d'Inria
Inria est l’institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l’interface d’autres disciplines. L’institut fait appel à de nombreux talents dans plus d’une quarantaine de métiers différents. 900 personnels d’appui à la recherche et à l’innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.