Doctorant F/H Génération et contrôle de mannequin virtuel par apprentissage pour la simulation de processus industriels en réalité virtuelle

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Doctorant

A propos du centre ou de la direction fonctionnelle

Le centre Inria de l'Université de Rennes est l'un des neuf centres d’Inria et compte plus d'une trentaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l’enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.

Contexte et atouts du poste

Cette thèse se déroule en collaboration entre le CEA (LIST et Pays de la Loire) et l'équipe Virtus du Centre Inria de l'Université de Rennes. La localisation sera principalement sur Paris, avec des visites prévues dans les centres partenaires (couvertes par l'employeur). La date de début de thèse est indicative et pourra dépendre du traitement administratif du recrutement. 

La thèse porte sur la simulation d’humain numérique dans un contexte de processus industriels en réalité virtuelle. Cet opérateur numérique est appelé à réaliser diverses tâches (manipulation, vissage…) dans des environnements virtuels plus ou moins contraints. On veut que les mouvements de cet opérateur soient le plus fidèles possibles par rapport à la réalité, en termes de posture, d’efforts et d’interactions avec l’environnement.

Compte tenu de la sophistication des gestes à reproduire et du nombre de paramètres à définir manuellement, les méthodes de contrôle classique deviennent trop complexes à mettre en œuvre. Dans la littérature, les travaux mettant en œuvre des méthodes d’apprentissage par imitation montrent des résultats prometteurs. Ces méthodes souffrent toutefois de limitations importantes, comme l’utilisation d’une grande base de données d’exemples ou des temps d’entraînement importants.

L’objectif de cette thèse est d’apporter des modifications substantielles aux méthodes existantes, et le cas échéant d’en proposer une nouvelle, qui apprenne et coordonne, à partir d’une base de données de taille modeste, les mouvements et interactions d’un mannequin virtuel nécessaires à la réalisation de tâches dans un milieu industriel. Une grande attention sera portée aux efforts générés pour obtenir le mouvement et leur adéquation avec le réalisme physique. La méthode sera appliquée à des cas industriels et des simulations en réalité virtuelle.

Mission confiée

On cherche à simuler un humain numérique dans un contexte de processus industriel en réalité virtuelle. Cet opérateur numérique est appelé à réaliser diverses tâches (manipulation, vissage…) dans des environnements virtuels plus ou moins contraints. On veut que les mouvements de cet opérateur soient le plus fidèles possibles selon les critères suivants :

  • Les gestes de l’opérateur et les mouvements de son corps doivent être fidèles à ceux réalisés dans le monde réel
  • Les efforts appliqués par son corps doivent être cohérents et réalistes
  • Les obstacles et sources d’interactions dans l’environnement virtuel doivent être pris en compte et l’opérateur virtuel doit agir en conséquence (contourner un obstacle, ouvrir une porte, se baisser…)
  • Les mouvements et gestes doivent être consistants et suivre les modifications de morphologie de l’opérateur virtuel (poids, taille, handicap…)

Dans un contexte de réalité virtuelle, des contraintes supplémentaires apparaissent : non seulement les mouvements de l’opérateur virtuel doivent répondre aux critères précédents, mais ils doivent en plus suivre des consignes fournies par un utilisateur réel (joysticks, casques et manettes de réalité virtuelle). L’une des difficultés concerne la génération de mouvements réalistes en traitant un nombre limité de données d’entrée.

Compte tenu de la complexité de la chaîne cinématique d’un humain numérique, les méthodes de contrôle classique (e.g. par contrôleurs PD régissant chaque articulation) deviennent complexes à mettre en œuvre dès lors que le geste à reproduire atteint une certaine sophistication, le nombre de paramètres à définir manuellement devenant trop important.

Dans la littérature, les travaux les plus proches de ces préoccupations concernent l’animation automatique d’avatars dans le domaine de l’animation ou du jeu vidéo et mettent en œuvre des techniques d’apprentissage pour générer des mouvements, suivant principalement deux approches [1] :

  • Les approches cinématiques, où l’animation de l’avatar résulte principalement de l’apprentissage des lois statistiques extraites d’une base de données de mouvements existants. L’absence de contraintes physiques rend cette approche caduque pour nos besoins.
  • Les approches basées sur la physique, où la connaissance des lois physiques est utilisée pour générer des animations réalistes, par exemple en entraînant un agent dans en environnement virtuel utilisant un moteur physique.

Parmi les travaux issus de cette dernière approche, ceux mettant en œuvre des méthodes d’apprentissage par imitation montrent des résultats prometteurs [2], comme la possibilité de transférer une animation d’un type de personnage à un autre [3] ou la génération d’interactions entre le mannequin et l’environnement [4]–[6], ou entre plusieurs agents [7]. Certaines de ces méthodes permettent également d’appliquer un même mouvement à des mannequins de morphologie différente [7], [8] ou dans des environnements avec des objets de tailles et de formes différentes.

Dans ces travaux, l’apprentissage par renforcement est utilisé pour entraîner un agent à reproduire un mouvement cible dans un environnement virtuel, tout en étant comparé à des mouvements similaires issus d’une base de données de mouvements réels. Ces méthodes souffrent toutefois de limitations importantes, notamment rencontrées pour notre cas d’étude :

  • Elles nécessitent une quantité importante de données de mouvements acquises par capture de geste. Si les bases de données publiques peuvent permettre d’apprendre des mouvements simples et généraux (monter des marches, s’asseoir…), il faut acquérir les mouvements spécifiques aux opérations que l’on veut reproduire, et celles-ci ne seront disponibles qu’en quantité limitée.
  • Les temps d’entraînement, pendant lesquels l’agent interagit dans l’environnement virtuel, sont très longs, de l’ordre de plusieurs jours sur du matériel performant.
  • A chaque mouvement différent, un agent différent doit être entraîné, ce qui engendre un temps d’entraînement supplémentaire [9]
  • La génération de nouveaux mouvements absents des bases de données reste un problème difficile, même si des travaux proposent des solutions de type « panachage » de mouvements [6], [10]

 

Principales activités

L’objectif de cette thèse est donc d’apporter des modifications substantielles aux méthodes existantes, et le cas échéant d’en proposer une nouvelle, qui apprenne et coordonne, à partir d’une base de données de taille modeste, les mouvements et interactions d’un mannequin virtuel nécessaires à la réalisation de tâches dans un milieu industriel en réalité virtuelle. Une grande attention sera portée aux efforts générés pour obtenir le mouvement et leur adéquation avec le réalisme physique. Si les méthodes d’apprentissage par imitation constituent un point de départ privilégié, d’autres approches pourront être abordées et investiguées (apprentissage supervisé et/ou auto-supervisé pour tirer le meilleur parti des données, Graph Neural Networks pour l’apprentissage de la représentation…).

Le ou la doctorant-e réalisera un travail bibliographique permettant d’établir un panorama exhaustif des méthodes récentes de génération de mouvements. Puis il ou elle implémentera la ou les méthodes les plus pertinentes pour notre cas d’étude et évaluera leurs performances. Une nouvelle méthode sera ensuite proposée, permettant d’obtenir une amélioration substantielle par rapport à l’état de l’art sur l’un des points susmentionnés. Enfin, son implémentation sur un cas représentatif du milieu industriel permettra d’en évaluer ses performances, au sein de simulations en réalité virtuelle.

Ce travail amènera le doctorant à élaborer une nouvelle méthode de génération de mouvements.

Ces travaux seront valorisés par au moins une publication dans un journal international avec comité de lecture et plusieurs articles de conférence internationale avec comité de lecture.

Le travail pourra se décomposer de la manière suivante :

  • To - To+3 : Prise en main du sujet (étude bibliographique)
  • To+3 - To+12 : Implémentation et comparaison des méthodes de génération existantes
  • To+12 - To+23 : Proposition de nouvelle méthode de génération de mouvements
  • To+23 - To+33 : Expérimentation sur des cas d’étude
  • To+33 - To+36 : Rédaction du manuscrit

La thèse est encadrée par trois partenaires : CEA LIST, CEA Pays de la Loire, INRIA (Centre de l'Université de Rennes). Elle se déroulera principalement sur le site de Nano-innov du CEA LIST et intègrera des périodes de visite chez les autres partenaires.

Bibliographie 

  1. Mourot, L. Hoyet, F. L. Clerc, F. Schnitzler, et P. Hellier, « A Survey on Deep Learning for Skeleton-Based Human Animation », Comput. Graph. Forum, vol. 41, no 1, p. 122‑157, févr. 2022, doi: 10.1111/cgf.14426.
  2. Kwiatkowski et al., « A Survey on Reinforcement Learning Methods in Character Animation », Comput. Graph. Forum, vol. 41, no 2, p. 613‑639, mai 2022, doi: 10.1111/cgf.14504.
  3. B. Peng, Z. Ma, P. Abbeel, S. Levine, et A. Kanazawa, « AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control », ACM Trans. Graph., vol. 40, no 4, p. 1‑20, août 2021, doi: 10.1145/3450626.3459670.
  4. Lee et H. Joo, « Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D Environments ». arXiv, 9 janvier 2023. Consulté le: 17 août 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2301.02667
  5. Hassan, Y. Guo, T. Wang, M. Black, S. Fidler, et X. B. Peng, « Synthesizing Physical Character-Scene Interactions ». arXiv, 2 février 2023. Consulté le: 21 août 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2302.00883
  6. Bae, J. Won, D. Lim, C.-H. Min, et Y. M. Kim, « PMP: Learning to Physically Interact with Environments using Part-wise Motion Priors ». arXiv, 4 mai 2023. Consulté le: 4 août 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2305.03249
  7. Zhang, D. Gopinath, Y. Ye, J. Hodgins, G. Turk, et J. Won, « Simulation and Retargeting of Complex Multi-Character Interactions ». arXiv, 31 mai 2023. Consulté le: 5 juillet 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2305.20041
  8. Reda, J. Won, Y. Ye, M. van de Panne, et A. Winkler, « Physics-based Motion Retargeting from Sparse Inputs ». arXiv, 4 juillet 2023. Consulté le: 22 août 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2307.01938
  9. Won, D. Gopinath, et J. Hodgins, « A scalable approach to control diverse behaviors for physically simulated characters », ACM Trans. Graph., vol. 39, no 4, août 2020, doi: 10.1145/3386569.3392381.
  10. Xu, X. Shang, V. Zordan, et I. Karamouzas, « Composite Motion Learning with Task Control ». 5 mai 2023. doi: 10.1145/3592447.
  11. Zhong, V. Weistroffer, P. Maurice, C. Andriot et F. Colas, « Interacting with a Torque-Controlled Virtual Human in Virtual Reality for Ergonomics Studies ». IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW), 2022, pp. 678-679, doi: 10.1109/VRW55335.2022.00190.

Compétences

Le candidat doit être titulaire d'une master en informatique, idéalement avec un parcours apprentissage automatique. Une connaissance de la simulation physique, de l'infographie ou de la réalité virtuelle est un atout. En outre, le candidat doit être à l'aise avec le plus grand nombre possible des éléments suivants :

  • Apprentissage profond / Apprentissage par renforcement profond
  • Développement d'applications 3D/VR (par exemple Unity3D) en C# ou C++.
  • Méthodes d'évaluation et études d'utilisateurs contrôlés.
  • Infographie et simulation physique.

Le candidat doit avoir de bonnes capacités de communication et parler couramment l'anglais.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Possibilité de télétravail à hauteur de 90 jours annuels
  • Prise en charge partielle du coût de la mutuelle

Rémunération

Salaire mensuel brut de 2 100 € les deux premières années et 2 190 € la troisième