Stage Recherche M2: Réhaussement de la Parole à l’Aide de Microphones Distribués en Combinant Apprentissage Automatique et Acoustique

Type de contrat : Stage

Contrat renouvelable : Oui

Niveau de diplôme exigé : Bac + 4 ou équivalent

Fonction : Stagiaire de la recherche

Contexte et atouts du poste

Les microphones sont aujourd’hui omniprésents dans notre environnement : aides auditives, enceintes connectées, smartphones, casques de réalité augmentée, systèmes de visio-conférence, … L’utilisation confortable de ces dispositifs nécessite l’emploi d’algorithmes permettant de réhausser les signaux de paroles d’intérêt, même en présence de sources de bruit et de réverbération. Cette tâche est rendue d’autant plus difficile en conditions dynamiques, dans lesquels sources et microphones peuvent se déplacer. Ce stage s’inscrit dans un projet de recherche Franco-Allemand (ANR-DFG AWESOME 2026-2029) visant à exploiter l’ensemble des microphones disponibles dans une salle, formant ainsi un réseau dit distribué ou ad-hoc, pour améliorer grandement la qualité des signaux de paroles captés.

Mission confiée

La difficulté principale pour atteindre les obejectifs du projet est que les positions relatives et absolues des microphones dans la pièce ainsi que leurs caractéristiques acoustiques et celles de la salle ne sont généralement que partiellement connues, ce qui empêche l’exploitation du réseau complet à son plein potentiel. Pour débloquer ce verrou, ce stage explorera des approches combinant méthodes acoustiques inverses et apprentissage automatique, et en particulier les récents modèles génératifs basés sur la diffusion. Deux pistes pourront être explorées :

  • Déréverbération multicanale préservant les réflexions précoces. Une approche de déréverbération telle que [1] ou [2] sera étendue au scénario considéré, puis combinée avec une méthode acoustique inverse telle que [3] pour localiser les dispositifs par rapports aux réflecteurs les plus proches.
  • Calibration par clappements de mains. Un modèle de diffusion de type Shrödinger Bridge [4] sera utilisé pour transformer des enregistrements de clappements de main en réponses impulsionnelles de salle, dont les parties précoces seront exploitée par la méthode inverse [5] pour localiser les réflecteurs.

Principales activités

  • Recherches et lectures bibliographiques
  • Prise en main et implémentation de code Python / PyTorch
  • Production d'expériences numériques et analyses des résultats

Compétences

  • Excellent niveau en programmation Python. PyTorch est un plus
  • Formation en deep learning, et traitement du signal. Des connaissances ou un intérêt pour l’audio, l’acoustique, les méthodes numériques ou l’optimisation sont un plus.
  • Niveau master 2 (en informatique, traitement du signal, machine learning, acoustique ou mathématiques appliquées) et un fort intérêt pour la recherche académique.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

4.35 €/heure