2020-02971 - ingénieur développement pour les données de la recherche

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Ingénieur scientifique contractuel

Niveau d'expérience souhaité : Jeune diplômé

Contexte et atouts du poste

 
Contexte :
 
La recherche dans le numérique manipule de plus en plus de données, souvent volumineuses,
ayant des contraintes de sécurités, de performance...
De différents formats, issues de campagnes de mesures pouvant avoir différents objectifs (typiquement entraînement d'IA),
ces données peuvent être brutes, anonymisées le cas échéant, subir des traitements (filtres, annotations), être enrichies.
Elles peuvent être à caractère personnel ou non.
Elles sont stockées localement ou dans le cloud, peuvent être dupliquées.
Elles font l'objet d'une licence d'exploitation et peuvent être publiques, partiellement, ou pas du tout.
Elles peuvent être partagées selon accords ou être mises à disposition du public.
 
La gestion de ces données par les équipes de recherches scientifique devient un enjeu important dans l'activité de recheche.
Nous devons mettre en place les outils pour le faire et fournir un DMP (Data Management Plan) lors des appels à projets.
Ensuite, pour la réalisation technique (stockage, partage), nous devons choisir l'outil le mieux adapté au besoin,
l'espaces de stockage, les restrictions d'accès, la base de données conformément aux déclaration.
 
Aujourd'hui il existe un grand nombre de solutions, d'outils, de choix architecturaux, pas forcément compatibles.
Cela aboutit à un morcellement des données, rendant leur gestion, visibilité et contrôle au niveau de l'institut très complexe.
Cette fragmentation et multitude de solutions rend très difficile la mutualisation des jeux de données,
qui, au contraire, pourrait être un atout majeur pour l'institut. En facilitant l'accès à ces données,
nous augmenterions la visibilité des travaux des équipes d'Inria.

Ce constat est plus particulièrement sensible dans le contexte de l'utilisation du machine learning et du deep learning.
D'une part, la reproductibilité des travaux est une préoccupation grandissante pour les scientifiques et leurs communautés,
et devient même une contrainte, voire une obligation, pour certaines publications.
D'autre part, afin de valider les avancées scientifiques, comparer de nouveaux modèles aux anciens,
il est nécessaire de confronter ces nouvelles techniques aux mêmes données que précédemment.
Se pose alors les problèmes de mise à disposition, mais aussi de pérennisation de ces jeux de données.

 

 

Objectif :

L'objectif de ce travail est d'étudier et de proposer une ou des solutions de gestion des données de la recherche globale
pour les cas d'usage les plus fréquents.
Elle prendra les données depuis les phases d'acquisition et de premiers traitements jusqu'à la mise à disposition à des partenaires
ou le transfert vers d'autres systèmes.
Elle permettra de proposer des moyens techniques adaptés à la majorité des situations,
ainsi que des procédures permettant de garantir, comme pour le développement logiciel, les "bonnes pratiques"
nécessaires à la qualité, utilisabilité et pérennité des jeux de données.

L'ADT étudiera les outils gratuits et open-source tels que :
  • [ckan](https://ckan.org/) largement utilisé dans le cadre de l'initiative open data , e.g. [European data portal](https://www.europeandataportal.eu/en), [data.gov](https://www.data.gov/), et peut être couplé au CMS Drupal
  • [dkan](https://getdkan.org/), un clone de CKAN basé directement sur Drupal
  • [Udata](https://github.com/opendatateam/udata/) porté par [etalab](https://www.etalab.gouv.fr/), l'initiative open-data du gouvernement français

mais également les plateformes "faites maison" ou basées sur des outils payants tels que
  • [Junar](https://www.junar.com/),
  • [OpenDataSoft](https://www.opendatasoft.com/fr/)
  • [Socrata](https://www.tylertech.com/products/socrata).

Elle regardera l'adéquation de ces outils et de nos données les plus courantes avec les licences classiques.

Mission confiée

Missions :
Intégré au service d'experimentation et développement (SED), la personne recrutée aura en charge cette étude et la réalisation de plateforme(s) de données scientifiques, et de favoriser son utilisation auprès des scientifiques.

Elle regardera l'adéquation de ces outils avec les besoins suivants :
  • Anonymisation des données personnelles (pseudo anonymisation).
  • Confidentialité des données (gestion des droits, des accès, chiffrement)
  • Stockage et sauvegarde de ces données, PCA PRA.
  • Conformité RGPD si les données y sont relatives.

 

Pour une meilleure connaissance du sujet proposé :


Un état de l'art a déjà été effectué. Il sera le point de départ de ce travail.

Collaboration :

La personne recrutée sera intégré au service SED et sous la responsabilité hiérarchique de son responsable. En lien avec Olivier Rochel (ingénieur SED) et Frederic Beck (ingénieur SED), il travaillera de concert avec les scientifiques concernés et plus généralement l'ensemble du service.

 

Principales activités

Principales activés (5 maximum) :

Les activités principales seront des tests et évaluations d'outils, mise en place technique, réalisation de scripts de transferts de données et changement de formats, interfaces WEB et authentification.

 

Activités complémentaires (3 maximum) :

 Des présentations et documentations seront à réaliser dans le but de promotion de la plateforme.

 

Compétences

Compétences techniques requis :

  • De bonnes connaissances en programmation (différents langages tels que python, javascript, java...)
  • De bonnes connaissances systeme en stockage, virtualisation et cloud  (FS, docker, AWS, ...)
  • Outils de forge logiciels (git, gitlab, ...)
  • Formats de données (json, xml, ...) et bases de données et leurs écosystèmes (bd non relationnelle, moteurs de recherche et d'indexation, outils de visualisation)
  • Méthodes agiles de développement

Langues :

  • Anglais lu écrit parlé.

Compétences relationnelles :

  • Gout pour le travail d'équipe, dans un contexte décentralisé, voir de télétravail partiel
  • Capacité à présenter et promouvoir son travail

Compétences additionnelles appréciées :

  • Des connaissances en deep learning et les outils d'IA associé est un plus,
  • De la cryptographie,

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

A partir de 2562€ brut par mois.