2018-01198 - Doctorant(e) F/H Apprentissage profond pour l’identification vocale en conditions réelles

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Doctorant

Contexte et atouts du poste

Cette thèse se place dans le cadre du projet ANR "ROBOVOX" impliquant l'équipe Multispeech d'Inria/Loria, l'équipe de traitement de la parole du laboratoire d'informatique d'Avignon (http://lia.univ-avignon.fr/), et l'entreprise A.I. Mergence (http://www.ai-mergence.com/fr/).

Mission confiée

Depuis peu, l’identification vocale a été déployée dans différents cadres applicatifs dont l’accès sécurisé aux services bancaires par téléphone ou par internet. Cependant, l’identification vocale reste une modalité offrant une fiabilité limitée dans des conditions réelles impliquant de nombreuses perturbations acoustiques (bruit, réverbération...). Des travaux récents indiquent que le rehaussement multicanal des signaux de test permet d'améliorer les performance des systèmes d’identification vocale en milieu bruité [1], en particulier, car il permet de contrôler les distorsions introduites sur la parole [2]. Par ailleurs l'utilisation de l'apprentissage profond [3] pour le rehaussement multicanal a récemment permis d'améliorer grandement les performance des algorithmes de rehaussement [4, 5].

[1] D. Ribas, E. Vincent, J. R. Calvo, “Full multicondition training for robust i-vector based speaker recognition”, In Proc. Interspeech, 2015.

[2] R. Serizel, M. Moonen, B. Van Dijk and J. Wouters, “Low-rank Approximation Based Multichannel Wiener Filter Algorithms for Noise Reduction with Application in Cochlear Implants”. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2014, vol. 22, pp. 785–799.

[3] L. Deng and D. Yu, Deep Learning: Methods and Applications, NOW Publishers, 2014.

[4] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming”. In Proc. ICASSP, 2016.

[5] Nugraha, A. A., Liutkus, A. and Vincent, E. "Multichannel audio source separation with deep neural networks", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, vol. 24, n. 9, pp. 1652–1664.

Principales activités

L'objectif de cette thèse est d'explorer l'utilisation de techniques de rehaussement de la parole multicanal à base de réseaux de neurones pour améliorer les performances des systèmes d’identification vocale en milieu réel (impliquant du bruit et de la réverbération). Nous proposons dans un premier temps de développer des algorithmes permettant de traiter conjointement le bruit et la réverbération en s'appuyant sur les travaux récents en matières de dé-réverbération [6] et de dé-bruitage [4, 5]. L'objectif final étant de proposer des approches de bout-en-bout permettant d'effectuer l’identification vocale directement à partir des signaux multicanaux perturbés notamment en explorant des approches permettant d'apprendre des représentations intermédiaires robustes à ces perturbations en comparant des enregistrements d'un locuteur dans différentes conditions acoustiques [7, 8, 9].

[6] O. Schwartz, S. Gannot and E. A. Habets, “Multi-microphone speech dereverberation and noise reduction using relative early transfer functions.” IEEE/ACM Transactions on Audio, Speech and Language Processing, 2015, vol. 23, n. 2, pp. 240-251.

[7] H. Bredin. "Tristounet: triplet loss for speaker turn embedding". In Proc. ICASSP, 2015.

[8] G. Andrew, R. Arora, J. Bilmes, and K. Livescu. "Deep canonical correlation analysis". In Proc. ICML, 2013.

[9] S. Sun, S. "A survey of multi-view machine learning". Neural Computing and Applications, 2013, vol. 23, n. 7-8, pp 2031–2038.

Compétences

Master recherche en informatique, apprentissage ou traitement du signal
Expérience de programmation en Python
Une expérience avec un outil pour l'apprentissage profond serait un plus

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Sécurité sociale
  • Congés payés
  • Aménagement du temps de travail
  • Installations sportives

Rémunération

1982,00€ brut mensuel les deux premières années (1594,00€ net)

2085,00€ brut mensuel la 3ème année (1677,00€ net)