2022-05670 - Post-Doctorant F/H Modèles de données et estimations de coût computationnel pour la souveraineté européenne de l’IA
The offer description below is in French

Contract type : Fixed-term contract

Level of qualifications required : PhD or equivalent

Fonction : Post-Doctoral Research Visit

Context

Ce post-doctorat s’inscrit dans le cadre du projet européen EICACS portant sur la standardisation pour le combat aérien collaboratif, financé par le Fonds Européen de Défense, dans lequel Inria est responsable du volet sur la souveraineté européenne de l’IA. Ce projet d’ampleur coordonné par Dassault Aviation est réalisé en partenariat avec des industriels et académiques issus de 10 pays européens.

Les travaux coordonnés par Inria visent à répertorier les outils, méthodes et bibliothèques publiques d'IA, afin de mener une analyse de risques de souveraineté du point de vue technique, quantifier le manque à gagner en cas de recours à un outil souverain moins performant que son équivalent non-souverain, et élaborer des recommandations de travaux R&D permettant d'améliorer la souveraineté du paysage IA à l'échelle européenne.

L’ambition est de répondre à des questions telles que :

  • Si une bibliothèque est open source mais maintenue par une entreprise non-européenne (exemple de Tensorflow), l’utiliser dans nos systèmes européens peut-il quand même créer une dépendance étrangère ? Est-il facile d’y substituer une autre bibliothèque a posteriori ? Une décision politique du mainteneur pourrait-elle nous empêcher le développement de certaines fonctions à l’avenir ? Si une évolution des conditions d’utilisation rend impossible l’usage des mises à jour futures de la bibliothèque dans nos systèmes, à quels risques (fonctionnels ou de sécurité) s’expose-t-on ?
  • De quelles fonctionnalités manquent les bibliothèques européennes pour supporter l’implémentation des dernières méthodes de l’état de l’art ? Quels développements open source (couches d’abstraction, bindings…) seraient nécessaires pour pouvoir les substituer plus facilement à des bibliothèques non-souveraines ?
  • Si une ressource (un dataset, un modèle pré-entraîné) est créée ou distribuée par un acteur non-européen, comment s’assurer qu’elle n’a pas été modifiée de manière malicieuse par son auteur (data poisoning, backdoor…) ?
  • Si pour ces raisons on choisit de ne pas utiliser un certain modèle pré-entraîné faisant office de standard dans la communauté (exemple de BERT), quelle perte de performance ? Certaines fonctions deviennent-elles impossibles à développer ? Quel coût pour reproduire le même modèle au niveau européen ? Comment prioriser entre les modèles à reproduire ?
  • Comment tirer le meilleur parti des ressources déjà existantes au niveau européen ? Quels modèles de données communs pour rassembler ces ressources unitaires en ressources unifiées plus massives, comment fédérer les futurs développements ?
  • Le recours à certains outils ou bibliothèques impose-t-il l’usage de composants (architecture matérielle, carte graphique spécifique) qui ne sont produits que dans un certain pays non-européen ? Quelle perte de performance en cas de remplacement par un autre composant ? Pourrait-on la compenser par davantage d’investissements matériels (et à quel coût) ?

Le spectre d’étude étant particulièrement large, les réponses à ces interrogations seront élaborées en ciblant l’analyse sur un certain ensemble de fonctions et de bibliothèques identifiées comme prioritaires (sur la base de cas d’usage fournis par les partenaires).

Ce post-doctorat portera plus spécifiquement sur les aspects liés aux modèles de données et aux estimations de coût computationnel. Le ou la post-doctorante travaillera sous la supervision de Lauriane Aufrant (chercheuse en IA au sein d’Inria Défense & Sécurité), et en collaboration étroite avec les partenaires académiques et industriels du projet.

Assignment

Le post-doctorat commencera par une série d’études bibliographiques, visant à identifier l’ensemble des méthodes pertinentes à considérer pour les analyses de risques (car répondant aux besoins fonctionnels et aux contraintes techniques des cas d’usage, donc à coordonner avec les partenaires industriels), ainsi que les outils existants et bibliothèques nécessaires ou utiles pour implémenter ces méthodes. Un accent particulier sera mis sur l’identification de frameworks permettant déjà d’apporter une couche d’abstraction et d’interopérabilité aux modèles, et la caractérisation de leurs capacités.

Le travail consistera ensuite à revenir sur les différents outils ou méthodes de cette liste, afin d’en mener une analyse de souveraineté appuyée sur des arguments expérimentaux : par exemple, réaliser une expérience de reproduction d’un gros modèle pré-entraîné mais à plus petite échelle, afin d’estimer quel serait le coût de reproduction du modèle complet (coût computationnel mais aussi environnemental, humain, financier…).

Il s’agira enfin de formuler des propositions concrètes d’actions permettant de rendre plus souverain le paysage européen de l’IA, par exemple en proposant des formalismes (nouveaux modèles de données, abstractions unifiant différentes méthodes…) rendant les composants souverains davantage interopérables avec leurs équivalents.

Les résultats de ces études seront à valoriser via des publications scientifiques, notamment des articles de type reviews, position papers, études de reproduction, définition de nouveaux formalismes, etc.

Main activities

  • Recherches bibliographiques
  • Analyse de besoins
  • Expérimentations et estimations de coût computationnel
  • Rédaction de recommandations
  • Publication d'articles scientifiques

Skills

  • Titulaire d’un doctorat en intelligence artificielle, ou s’apprêtant à soutenir
  • Connaissance théorique et pratique de l’apprentissage profond, mais aussi d’autres méthodes d’apprentissage automatique et d’IA symbolique
  • Bonnes compétences de programmation, aisance pour la mise en œuvre rapide d’expériences
  • Capacité à réaliser efficacement une revue de l’état de l’art sur des sujets variés
  • Volonté de diversifier ses compétences et connaissances en explorant de multiples domaines de l’IA
  • Aisance en français et en anglais

Benefits package

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale