Stage en “fine-tuning dirigé par le modèle d’explicabilité en reconnaissance du locuteur et de la langue parlée”

Type de contrat : Stage

Niveau de diplôme exigé : Bac + 4 ou équivalent

Autre diplôme apprécié : M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée

Fonction : Stagiaire de la recherche

Contexte et atouts du poste

Ce stage s’inscrit dans un projet plus global visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio/patho/physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet en effet de
conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision
instruite.


L’approche mise en œuvre dans ce projet repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur dans [1] et [2].
Ces attributs binaires sont obtenus en deux phases :
– D’abord, un extracteur d’embedding “classique” entraîné pour la détection du locuteur ou de la langue représente un signal vocal de taille variable par un vecteur de taille fixe, un embedding. Récemment, l’emploi de modèles pré-appris géants, comme WavLM[3], a montré un fort intérêt, en remplacement de l’extracteur “classique”, tant
en termes de performances qu’en facilité de déploiement.
– Ensuite, un auto-encodeur binaire spécialement entraîné [4] extrait le vecteur d’attributs
binaires depuis cet embedding.

Que ce soit dans le cadre d’un extracteur “classique” ou pré-appris, être capable de spécialiser l’extracteur d’embedding à l’aide de l’auto-encodeur binaire est d’un grand intérêt. Cela permet d’espérer améliorer les performances mais aussi, et surtout, d’améliorer très significativement l’explicabilité et l’interprétabilité globale du modèle.


Le stage proposé permet donc de prendre en main les modèles de deep learning en vogue et de travailler à leur spécialisation à des tâches spécifiques. Mais il permet également de s’intéresser à l’explicabilité des modèles en deep learning, une direction qui devient de première importance dans ce domaine, et de découvrir une approche originale en explicabilité.


[1] Ben-Amor, I., & Bonastre, J. F. (2022, April). BA-LR: Binary-Attribute-based Likelihood Ratio estimation for forensic voice comparison. In 2022 International workshop on biometrics and forensics (IWBF) (pp. 1-6). IEEE.
[2] Ben-Amor, I., Bonastre, J. F., O'Brien, B., & Bousquet, P. M. (2023, August). Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition.
In Interspeech 2023. [3] Chen, Sanyuan, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu
Li, et al. « WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing ». IEEE Journal of Selected Topics in Signal Processing 16, no 6 (octobre 2022):
1505‑18. https://doi.org/10.1109/JSTSP.2022.3188113. [4] Ben-Amor, I., Bonastre, J. F., & Mdhaffar, S. (2024). Extraction of interpretable and shared speaker-specific speech attributes through binary auto-encoder. In Proc. Interspeech 2024 (pp. 3230-3234).

Mission confiée

L’objectif principal du stage proposé est d’étudier et de mettre en œuvre une solution de fine-tuning de l’extracteur par l’auto-encodeur binaire dédié à l’explicabilité.
Le travail sera décomposé en trois phases :
· La prise en main d’une chaîne de détection du locuteur explicable : entraînement de l’extracteur « classique », entraînement de l’auto-encodeur.
· La mise en œuvre du fine-tuning de l’extracteur « classique » guidée l’auto-encodeur
· L’adaptation de la chaîne de traitement à un extracteur pré-appris, de type WavLM.
· L’évaluation des solutions tant en termes de performance qu’en termes d’explicabilité

L’équipe entourant le stage est composée d’environ dix personnes, réparties sur les sites de Paris et de Grenoble. Le stage se déroulera de préférence à l’Antenne Inria MINATEC Grenoble et sera encadré par Jean-François Bonastre et Solène Evain.


Ce stage est ouvert à des étudiantes et étudiants de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.

Compétences

  • Programmation Python
  • Pratique d’une librairie type Pytorch, Keras, Scikit-learn
  • Connaissances pratiques en apprentissage automatique
  • Maîtrise de l’anglais
  • Des connaissances en traitement automatique de la parole constitueront un plus.

Avantages

  •  Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés déterminés en fonction de la durée du stage
  • Possibilité de télétravail (après 2 mois d'ancienneté)
  • Équipements professionnels à disposition (visioconférence, prêts de matériels
    informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres
    sociales d'Inria)
  • Accès à la formation professionnelle