Type de contrat : CDD
Niveau de diplôme exigé : Thèse ou équivalent
Fonction : Post-Doctorant
A propos du centre ou de la direction fonctionnelle
L'équipe STORM contribue sur les thèmes des langages DSL de haut niveau, des supports d'exécution et d'outils d'analyse de performance pour exploiter les architectures d'ordinateur modernes, d'une façon portable.
Contexte et atouts du poste
Dans le cadre d’un partenariat
- Avec Atos/BULL à Grenoble
- Et Inria à Bordeaux (équipe STORM)
Les pannes hardware et problèmes software sont des problèmes majeurs pour les clusters HPC. Ils gâchent une grande quantité de ressources en empêchant le bon déroulement des calculs. C’est pourquoi il est primordial de les identifier, comprendre les circonstances qui ont mené à leurs apparitions en vue de les prédire et in fine de permettre des actions de maintenance préventives permettant de les éviter.
Il existe un large spectre d’informations et de logs qui servent à monitorer l’exécution d’une application sur un système. Cela va des métriques de bas niveau (e.g., performance counters) à des traces propres au type d’application. Dans le cadre du plan de relance, la société ATOS et les équipe-projets Inria-STORM et POLARIS proposent de mettre en place une collaboration visant à comprendre comment ce large spectre d’informations peut servir à comprendre plus rapidement les pannes et potentiellement guider la prédiction de futurs problèmes. Pour ce faire, nous utiliserons des techniques de machine learning.
Mission confiée
L’objectif du postdoc est de réaliser une preuve de concept qui trouve la cause racine d'une panne dans les applications HPC.
La collaboration débutera en octobre 2022 et durera 2 ans.
La personne recrutée travaillera à 80% de son temps dans les locaux d’ATOS à Grenoble, sis au 1 rue de Provence, 38130 Échirolles et pour les 20% restants dans le centre de recherche Inria Bordeaux Sud-Ouest, situé au 200 Avenue de la Vieille Tour 33405 TALENCE Cedex.
Principales activités
Le travail se décomposera en 3 étapes décrites ci-dessous.
- Première phase
• Choix des problèmes à traiter (définition du use case)
La première étape du travail consistera à caractériser les différents types d’erreurs pouvant survenir sur un environnement HPC. On référencera les données pertinentes en entrée pour chaque type de panne (logs, métriques, analyse statique, compteurs…). Une étude sera également faite pour estimer l’impact de ces métriques sur le fonctionnement du HPC et identifier les algorithmes performants pour détecter et comprendre les pannes pouvant survenir. Pour un incident donné, une analyse post-mortem permettra d’identifier la cause racine d’un incident.
• Choix des données (sélection des données)
La valeur des données (e.g., logs, pannes collectées) impacte directement la qualité des prédictions. Ainsi il est primordial de choisir les données à collecter (compteurs, logs ou autres métriques) qui sont pertinentes et ont suffisamment d’informations pour caractériser les problèmes. Cela pourra se faire via des algorithmes de sélections de variables.
• Etude des séquences d’évènements
A partir des données caractéristiques d’un incident, afin d’aider l’administrateur à analyser cette panne, il convient d’identifier et de représenter la séquence des évènements entre l’apparition des symptômes (début de la déviation par rapport à un comportement normal) à la validation de l’incident (panne détectée et validée).
- Seconde phase
Après cette première phase, nous nous intéresserons à rajouter des éléments contextuels pour aider l’administrateur à mieux comprendre l’origine de la panne. Pour cela, nous pourrons utiliser deux nouvelles sources de données : la topologie du supercalculateur et l’expertise métier.
Les cas d’usages étudiés lors de la première phase seront donc complétés.
• Techniques de prise en compte de la topologie
Utilisation de modèles basés sur les graphs pour prendre en compte l’architecture du HPC dans l’explication de la panne. La topologie sera notamment intéressante pour illustrer la propagation des signaux faibles jusqu’à la confirmation de la panne.
• Techniques de formalisation de la connaissance métier
Prise en compte de la connaissance métier pour valider les prédictions d’incidents.
Avec un rapprochement avec une base de connaissance et des incidents passés, essayer d’enrichir le rapport d’incident avec une recommandation d’actions de maintenance.
- Conception d’un modèle d’IA
Les phases 1 et 2 seront validés via des modèles d’IA.
• Création d’un modèle d’apprentissage
Des techniques de machine learning seront utilisées pour créer un modèle d’apprentissage qui sera capable d’anticiper les différents types de panne pouvant survenir.
• Validation du modèle
La dernière étape sera consacrée à l’identification et la quantification des cas d’usage qui peuvent être détectés et corrigés afin d’améliorer l’usage des data centers.
Compétences
Compétences techniques et niveau requis :
- très bon niveau en système de type Unix,
- être famillier des outils de travail collaboratif (ssh, git, etc.),
- connaissance en compilation et LLVM serait appréciée,
- bonne connaissance des infrastructures de calcul haute performance
- notions de ML appréciées
Langues : anglais (lu écrit parlé)
Compétences relationnelles :
- aimer le travail en équipe,
- savoir communiquer sur ses résultats et ses avancées,
- être à l'écoute des différentes idées.
Compétences additionnelles appréciées :
- être capable de commencer un poste en télétravail.
- être capable de travailler avec des personnes sur différents sites.
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Possibilité de télétravail et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
- Accès à la formation professionnelle
- Sécurité sociale
Rémunération
2653€ brut mensuel
Partager
Informations générales
- Thème/Domaine :
Calcul distribué et à haute performance
Calcul Scientifique (BAP E) - Ville : Grenoble
- Centre Inria : CRI Bordeaux - Sud-Ouest
- Date de prise de fonction souhaitée : 2022-10-01
- Durée de contrat : 2 ans
- Date limite pour postuler : 2022-07-14
Contacts
- Equipe Inria : STORM
-
Recruteur :
Saillard Emmanuelle / emmanuelle.saillard@inria.fr
L'essentiel pour réussir
A propos d'Inria
Inria est l’institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 200 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3500 scientifiques pour relever les défis du numérique, souvent à l’interface d’autres disciplines. L’institut fait appel à de nombreux talents dans plus d’une quarantaine de métiers différents. 900 personnels d’appui à la recherche et à l’innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 180 start-up. L'institut s'efforce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.
Consignes pour postuler
Merci d'enseigner :
- CV avec liste des publications
- Lettre de motivation
- Eventuelles lettres de recommandation
Sécurité défense :
Ce poste est susceptible d’être affecté dans une zone à régime restrictif (ZRR), telle que définie dans le décret n°2011-1425 relatif à la protection du potentiel scientifique et technique de la nation (PPST). L’autorisation d’accès à une zone est délivrée par le chef d’établissement, après avis ministériel favorable, tel que défini dans l’arrêté du 03 juillet 2012, relatif à la PPST. Un avis ministériel défavorable pour un poste affecté dans une ZRR aurait pour conséquence l’annulation du recrutement.
Politique de recrutement :
Dans le cadre de sa politique diversité, tous les postes Inria sont accessibles aux personnes en situation de handicap.
Attention: Les candidatures doivent être déposées en ligne sur le site Inria. Le traitement des candidatures adressées par d'autres canaux n'est pas garanti.