Logo Inria

Collecte de données et modèles de traduction pour une langue régionale de France

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Autre diplôme apprécié : Traitement automatique des langues, Linguistique Informatique, Informatique;

Fonction : Ingénieur scientifique contractuel

Niveau d'expérience souhaité : Jeune diplômé

Contexte et atouts du poste

Ce poste se place dans le cadre du Défi Inria COLaF(Corpus et Outils pour les Langues de France), qui est une collaboration entre les équipes-projets Inria ALMAnaCH (centre Inria de Paris) et MULTISPEECH (centre Inria de Nancy–Grand Est). L’objectif du Défi est de développer et mettre à disposition des technologies numériques linguistiques pour la francophonie et les langues de France (ensemble des langues parlées en France: français apprenant, langues régionales romanes et non romanes, créoles, langues d’immigration, etc.), en contribuant à la création de corpus de données inclusifs, de modèles, et de briques logicielles. ALMAnaCH se focalise sur le texte et MULTISPEECH sur la parole multimodale. Les deux principaux objectifs de ce projet sont :

  1. La collecte de corpus de données francophones, massifs et inclusifs : Il s’agit de constituer de très grands corpus textuels et de parole, avec des métadonnées riches pour améliorer la robustesse des modèles face à la variation linguistique, avec une place particulière pour la variation géographico-dialectale dans le contexte de la francophonie. Les variations diachroniques, diatopiques et diastratiques seront des éléments importants à prendre en compte dans la collection du corpus.

  2. Le développement et la mise à disposition de technologies linguistiques: Cela inclut mais ne se limite pas à la production de ressources annotées (parties du discours, syntaxe, entités nommées), à l’extraction et la reformalisation de données structurées (p. ex. dictionnaires) et l’entraînement de modèles (p. ex. de langue et de traduction) pour la variété linguistique en France et dans la francophonie.

Mission confiée

Sous la direction de Benoît Sagot (DR, co-responsable de COLaF), Rachel Bawden (CR) et Thibault Clérice (Inria Starting Research Position [SRP] dédié au projet), l’objectif de la personne recrutée sera d’améliorer l’outillage (ressources et modèles) pour (au moins) une langue régionale de France métropolitaine (p. ex. l’occitan, le breton, l’alsacien) ou le corse, dans ses variations locales et diachroniques. Pour ceci, la mission consiste en trois activités principales :

  1. la production de données (corpus bruts, corpus bilingues, etc.)

  2. la conception et entraînement de modèles de traduction

  3. l’interaction avec les contacts et institutions en lien avec la langue traitée

Les données traitées pourront inclure des corpus textuels, des lexiques ou dictionnaires, mais également des documents sur lesquels une étape d’acquisition du texte brute par des techniques d’OCR ou d’HTR (dans ce dernier cas, une collaboration avec les projets HTRomance ou HTRogène est envisageable, selon les langues).

La conception de nouveaux modèles de traduction nécessitera de prendre en compte plusieurs dimensions qui représentent un défi : (i) la faible quantité de données parallèles disponibles, ce qui nécessitera d’utiliser et de concevoir des méthodes adaptées à des scénarios peu dotées, et (ii) la variation dialectale et graphique qui existent au sein d’une même langue (p. ex. les variétés d’occitan, y compris les variétés anciennes), ce qui nécessitera d’entraîner des modèles robustes à cette variation.

Une interaction avec les locuteurs de la langue sélectionnée ainsi que les associations des locuteurs sera importante à la fois pour la collecte de nouvelles données mais aussi pour comprendre et prendre en compte les enjeux linguistiques et sociétaux liés au développement d’outils et de ressources pour ces communautés.

Un contrat doctoral sur la traduction automatique sur cette langue dans sa variété géographique, stylistique et diachronique sera ouvert à la suite de cette mission. La personne recrutée sera invitée à y postuler.

Principales activités

Principales activités

  • Identification et acquisition de données pour une ou plusieurs langues de France. Ceci inclut

    • la transformation de corpus en XML-TEI

    • la co-gestion du catalogage (métadonnées) et des cycles de mises à disposition des données

    • Établissement de recommandations sur l’outillage pour les autres langues de France,

    • l’acquisition et production de transcription de documents manuscrits le cas échéant.

  • Collaboration avec l’équipe d’OSCAR et des équipes sur les langues de France en synchronie et diachronie, le cas échéant.

  • Conception et entraînement de modèles de traduction adaptés aux variations des langues traitées;

  • Lecture bibliographique sur les méthodes de traitement automatique des langues, et plus particulièrement de la traduction automatique, pour les scénarios peu dotées et des scénarios représentant la variation graphique et ou de langues similaires.

Compétences

La mission décrite fait appel à des qualités variées, au niveau des compétences en informatique, en traitement automatique des langues (y compris en apprentissage automatique) et en linguistique (y compris des connaissances d’une langue régionale). Il n’est donc pas attendu que la personne recrutée possèdent toutes ces dimensions au début du contrat; elle pourrait les acquérir au fur et à mesure de la mission. Nous sommes intéressés par les profils plus linguistiques en plus des profils plus informatiques, pourvu que le ou la candidat(e) ait les compétences suivantes :

  • Compétences en informatique et en programmation, notamment avec le langage Python

  • Expérience préalable en traitement automatique des langues (une expérience en traduction automatique serait un plus)

  • Un intérêt pour les langues et la linguistique

  • Un volonté d’apprendre et de se former qu’il s’agisse de compétences en apprentissage automatique ou en linguistique et apprentissage d’une des langues ciblées

  • Français et anglais écrit et oral équivalent C1 minimum;

Un candidat avec un niveau de langue suffisant pour la lecture de documents dans une langue de France régionale romane ou non romane (occitan, corse, breton, alsacien, etc.) serait un plus.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Télétravail
  • Aménagement du temps de travail (après 12 mois d'ancienneté)
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

Rémunération en fonction de l'expérience et des grilles de la fonction publique