Stage en “fine-tuning dirigé par le modèle d’explicabilité en reconnaissance du locuteur et de la langue parlée”
Contract type : Internship
Level of qualifications required : Master's or equivalent
Other valued qualifications : M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée
Fonction : Internship Research
Context
Ce stage s’inscrit dans un projet plus global visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio/patho/physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet en effet de
conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision
instruite.
L’approche mise en œuvre dans ce projet repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur dans [1] et [2].
Ces attributs binaires sont obtenus en deux phases :
– D’abord, un extracteur d’embedding “classique” entraîné pour la détection du locuteur ou de la langue représente un signal vocal de taille variable par un vecteur de taille fixe, un embedding. Récemment, l’emploi de modèles pré-appris géants, comme WavLM[3], a montré un fort intérêt, en remplacement de l’extracteur “classique”, tant
en termes de performances qu’en facilité de déploiement.
– Ensuite, un auto-encodeur binaire spécialement entraîné [4] extrait le vecteur d’attributs
binaires depuis cet embedding.
Que ce soit dans le cadre d’un extracteur “classique” ou pré-appris, être capable de spécialiser l’extracteur d’embedding à l’aide de l’auto-encodeur binaire est d’un grand intérêt. Cela permet d’espérer améliorer les performances mais aussi, et surtout, d’améliorer très significativement l’explicabilité et l’interprétabilité globale du modèle.
Le stage proposé permet donc de prendre en main les modèles de deep learning en vogue et de travailler à leur spécialisation à des tâches spécifiques. Mais il permet également de s’intéresser à l’explicabilité des modèles en deep learning, une direction qui devient de première importance dans ce domaine, et de découvrir une approche originale en explicabilité.
[1] Ben-Amor, I., & Bonastre, J. F. (2022, April). BA-LR: Binary-Attribute-based Likelihood Ratio estimation for forensic voice comparison. In 2022 International workshop on biometrics and forensics (IWBF) (pp. 1-6). IEEE.
[2] Ben-Amor, I., Bonastre, J. F., O'Brien, B., & Bousquet, P. M. (2023, August). Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition.
In Interspeech 2023. [3] Chen, Sanyuan, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu
Li, et al. « WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing ». IEEE Journal of Selected Topics in Signal Processing 16, no 6 (octobre 2022):
1505‑18. https://doi.org/10.1109/JSTSP.2022.3188113. [4] Ben-Amor, I., Bonastre, J. F., & Mdhaffar, S. (2024). Extraction of interpretable and shared speaker-specific speech attributes through binary auto-encoder. In Proc. Interspeech 2024 (pp. 3230-3234).
Assignment
L’objectif principal du stage proposé est d’étudier et de mettre en œuvre une solution de fine-tuning de l’extracteur par l’auto-encodeur binaire dédié à l’explicabilité.
Le travail sera décomposé en trois phases :
· La prise en main d’une chaîne de détection du locuteur explicable : entraînement de l’extracteur « classique », entraînement de l’auto-encodeur.
· La mise en œuvre du fine-tuning de l’extracteur « classique » guidée l’auto-encodeur
· L’adaptation de la chaîne de traitement à un extracteur pré-appris, de type WavLM.
· L’évaluation des solutions tant en termes de performance qu’en termes d’explicabilité
L’équipe entourant le stage est composée d’environ dix personnes, réparties sur les sites de Paris et de Grenoble. Le stage se déroulera de préférence à l’Antenne Inria MINATEC Grenoble et sera encadré par Jean-François Bonastre et Solène Evain.
Ce stage est ouvert à des étudiantes et étudiants de M2 en IA, mathématiques, mathématiques appliquée ou informatique ou équivalent, avec une forte motivation pour la recherche appliquée.
Skills
- Programmation Python
- Pratique d’une librairie type Pytorch, Keras, Scikit-learn
- Connaissances pratiques en apprentissage automatique
- Maîtrise de l’anglais
- Des connaissances en traitement automatique de la parole constitueront un plus.
Benefits package
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés déterminés en fonction de la durée du stage
- Possibilité de télétravail (après 2 mois d'ancienneté)
- Équipements professionnels à disposition (visioconférence, prêts de matériels
informatiques, etc.) - Prestations sociales, culturelles et sportives (Association de gestion des œuvres
sociales d'Inria) - Accès à la formation professionnelle
General Information
- Town/city : Grenoble
- Inria Center : Siège
- Starting date : 2025-03-01
- Duration of contract : 6 months
- Deadline to apply : 2025-02-28
Warning : you must enter your e-mail address in order to save your application to Inria. Applications must be submitted online on the Inria website. Processing of applications sent from other channels is not guaranteed.
Instruction to apply
Defence Security :
This position is likely to be situated in a restricted area (ZRR), as defined in Decree No. 2011-1425 relating to the protection of national scientific and technical potential (PPST).Authorisation to enter an area is granted by the director of the unit, following a favourable Ministerial decision, as defined in the decree of 3 July 2012 relating to the PPST. An unfavourable Ministerial decision in respect of a position situated in a ZRR would result in the cancellation of the appointment.
Recruitment Policy :
As part of its diversity policy, all Inria positions are accessible to people with disabilities.
Contacts
- Inria Team : DIRECTION (DIRECTION)
-
Recruiter :
Arunraja Emilie / emilie.arunraja@inria.fr
About Inria
Inria is the French national research institute dedicated to digital science and technology. It employs 2,600 people. Its 200 agile project teams, generally run jointly with academic partners, include more than 3,500 scientists and engineers working to meet the challenges of digital technology, often at the interface with other disciplines. The Institute also employs numerous talents in over forty different professions. 900 research support staff contribute to the preparation and development of scientific and entrepreneurial projects that have a worldwide impact.