Stage en Augmentation de données textuelles à l’aide de Grands Modèles de Langage (LLM) (F/H)
Type de contrat : Stage
Niveau de diplôme exigé : Bac + 3 ou équivalent
Fonction : Stagiaire de la recherche
Contexte et atouts du poste
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. Le stage sera réalisée au sein de l’équipe de recherche en TALN de Inria D&S en partenariat avec l’Agence Ministérielle pour l’IA de Défense (AMIAD), sous la direction de Pauline Soutrenon et Lucie Chasseur Ingénieures NLP (Mission D&S Inria, Grenoble) ainsi que Nihel Kooli Experte NLP et IA (Agence Ministérielle pour l’IA de Défense (AMIAD, Rennes)).
Dans le domaine du Traitement Automatique des Langues, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité. Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles d’apprentissage automatique de capturer les subtilités du langage humain. Cependant, constituer ces jeux de données est une tâche complexe, chronophage et coûteuse, nécessitant une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations. Ces contraintes rendent l’accès à des données de qualité particulièrement difficile, notamment pour les langues peu représentées ou les domaines spécialisés comme celui de la défense.
Cette rareté des données annotées constitue une problématique majeure dans le domaine du Traitement Automatique des Langues. Quelle que soit la tâche, l’efficacité des approches repose sur la disponibilité des données annotées. Dans la plupart des cas, ces données sont limitées ou parfois même inexistantes, ce qui représente un frein important au développement de solutions robustes.
L’émergence des Grands Modèles de Langage (LLM), tels que ChatGPT, Llama ou Mistral, offre une opportunité de générer, enrichir ou diversifier des jeux de données de manière automatisée tout en réduisant les coûts et les délais associés à leur production.
Ce stage s’inscrit dans cette perspective et a pour objectif d’explorer les capacités des LLM pour répondre aux besoins critiques de données annotées.
Mission confiée
Ce projet s’inscrit dans la continuité de notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données du jeu de données fourni avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations. Ces travaux ont produit des résultats prometteurs qui nécessitent d’être approfondis.
Dans le cadre de ce stage, l’augmentation de données sera appliquée à un corpus de documents textuels issus d’informations en direct du journal Le Monde. Ces news ont été produites sur la période initiale de la guerre en Ukraine entre février et mars 2022. L'accumulation de données journalistiques depuis le début de la guerre en Ukraine offre l'opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent. Un premier travail d’annotation du corpus a été effectué en suivant un guide d'annotation spécifiquement conçu pour ce projet.
La première partie du stage consistera à prendre connaissances des données. Des tests pourront ensuite être réalisés pour sélectionner le ou les LLM les plus pertinents pour cette tâche. Puis, la mission consistera à définir une stratégie d’augmentation (prompt(s) à utiliser, processus pour garantir la qualité et la cohérence des données générées) et à mettre en place la pipeline d’augmentation de données (en mettant l’accent sur le traitement et le formatage des réponses générées par le LLM). Enfin, une évaluation de l’impact des données générées pourra être réalisée de manière à vérifier la qualité des annotations et à identifier les biais et les cas limites.
Principales activités
- Analyser les besoins et se familiariser avec les données
- Tester et sélectionner le(s) LLM le(s) plus pertinent(s) pour cette tâche
- Définir une stratégie d’augmentation de données
- Mettre en place la pipeline d’augmentation de données
- Évaluer l’impact des données générées
- Documenter et présenter les résultats
Compétences
- Maîtrise du français écrit et parlé
- Connaissances solides en linguistique et en traitement automatique des langues
- Connaissance de Python
- Familiarité avec les LLM et leurs API
- Une connaissance d’outil d’annotation, comme Label studio, sera appréciée
Références
Armingaud, R., Peuvot, A., Besançon, R., Ferret, O., Souihi, S., et al. (2024, July). CEA-List@EvalLLM2024 : prompter un très grand modèle de langue ou affiner un plus petit ?. Atelier sur l'évaluation des modèles génératifs (LLM) et challence d'extraction d'information few-shot, Institut des sciences informatiques et de leurs interactions - CNRS Sciences informatiques [INS2I-CNRS], Toulouse, France.
Bogdanov, S., Constantin, A., Bernard, T., Crabb'e, B., & Bernard, E. (2024, February). NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing.
Dai, X., & Adel, H. (2020, October). An Analysis of Simple Data Augmentation for Named Entity Recognition. In Proceedings of the 28th International Conference on Computational Linguistics.
Ye, J., Xu, N., Wang, Y., Zhou, J., Zhang, Q., Gui, T., & Huang, X. (2024, February). LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition.
Avantages
-
Restauration subventionnée
-
Transports publics remboursés partiellement
-
Congés déterminés en fonction de la durée du stage
-
Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.) Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria
Informations générales
- Ville : Grenoble
- Centre Inria : Siège
- Date de prise de fonction souhaitée : 2025-02-01
- Durée de contrat : 6 mois
- Date limite pour postuler : 2025-02-28
Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti.
Consignes pour postuler
Sécurité défense :
Ce poste est susceptible d’être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L’autorisation d’accès à une zone est délivrée par le chef d’établissement, après avis ministériel favorable, tel que défini dans l’arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l’annulation du recrutement.
Politique de recrutement :
Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap.
Contacts
- Équipe Inria : MIS-DEFENSE (DIRECTION)
-
Recruteur :
Arunraja Emilie / emilie.arunraja@inria.fr
A propos d'Inria
Inria est l’institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l’interface d’autres disciplines. L’institut fait appel à de nombreux talents dans plus d’une quarantaine de métiers différents. 900 personnels d’appui à la recherche et à l’innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.