2022-05108 - Post-Doctorant F/H Méthodes pour l'analyse des pannes reposant sur des techniques de types statistical learning

Type de contrat : CDD

Niveau de diplôme exigé : Thèse ou équivalent

Fonction : Post-Doctorant

A propos du centre ou de la direction fonctionnelle

L'équipe STORM contribue sur les thèmes des langages DSL de haut niveau, des supports d'exécution et d'outils d'analyse de performance pour exploiter les architectures d'ordinateur modernes, d'une façon portable. 

Contexte et atouts du poste

Dans le cadre d’un partenariat

  • Avec Atos/BULL à Grenoble
  • Et Inria à Bordeaux (équipe STORM)

Les pannes hardware et problèmes software sont des problèmes majeurs pour les clusters HPC. Ils gâchent une grande quantité de ressources en empêchant le bon déroulement des calculs. C’est pourquoi il est primordial de les identifier, comprendre les circonstances qui ont mené à leurs apparitions en vue de les prédire et in fine de permettre des actions de maintenance préventives permettant de les éviter.

Il existe un large spectre d’informations et de logs qui servent à monitorer l’exécution d’une application sur un système. Cela va des métriques de bas niveau (e.g., performance counters) à des traces propres au type d’application. Dans le cadre du plan de relance, la société ATOS et les équipe-projets Inria-STORM et POLARIS proposent de mettre en place une collaboration visant à comprendre comment ce large spectre d’informations peut servir à comprendre plus rapidement les pannes et potentiellement guider la prédiction de futurs problèmes. Pour ce faire, nous utiliserons des techniques de machine learning.

 

Mission confiée

L’objectif du postdoc est de réaliser une preuve de concept qui trouve la cause racine d'une panne dans les applications HPC. 

La collaboration débutera en octobre 2022 et durera 2 ans.

La personne recrutée travaillera à 80% de son temps dans les locaux d’ATOS à Grenoble, sis au 1 rue de Provence, 38130 Échirolles et pour les 20% restants dans le centre de recherche Inria Bordeaux Sud-Ouest, situé au 200 Avenue de la Vieille Tour 33405 TALENCE Cedex.

Principales activités

Le travail se décomposera en 3 étapes décrites ci-dessous.

  1. Première phase

• Choix des problèmes à traiter (définition du use case)

La première étape du travail consistera à caractériser les différents types d’erreurs pouvant survenir sur un environnement HPC. On référencera les données pertinentes en entrée pour chaque type de panne (logs, métriques, analyse statique, compteurs…). Une étude sera également faite pour estimer l’impact de ces métriques sur le fonctionnement du HPC et identifier les algorithmes performants pour détecter et comprendre les pannes pouvant survenir. Pour un incident donné, une analyse post-mortem permettra d’identifier la cause racine d’un incident.

• Choix des données (sélection des données)

La valeur des données (e.g., logs, pannes collectées) impacte directement la qualité des prédictions. Ainsi il est primordial de choisir les données à collecter (compteurs, logs ou autres métriques) qui sont pertinentes et ont suffisamment d’informations pour caractériser les problèmes. Cela pourra se faire via des algorithmes de sélections de variables.

• Etude des séquences d’évènements

A partir des données caractéristiques d’un incident, afin d’aider l’administrateur à analyser cette panne, il convient d’identifier et de représenter la séquence des évènements entre l’apparition des symptômes (début de la déviation par rapport à un comportement normal) à la validation de l’incident (panne détectée et validée).

 

  1. Seconde phase

Après cette première phase, nous nous intéresserons à rajouter des éléments contextuels pour aider l’administrateur à mieux comprendre l’origine de la panne. Pour cela, nous pourrons utiliser deux nouvelles sources de données : la topologie du supercalculateur et l’expertise métier.

Les cas d’usages étudiés lors de la première phase seront donc complétés.

• Techniques de prise en compte de la topologie

Utilisation de modèles basés sur les graphs pour prendre en compte l’architecture du HPC dans l’explication de la panne. La topologie sera notamment intéressante pour illustrer la propagation des signaux faibles jusqu’à la confirmation de la panne.

• Techniques de formalisation de la connaissance métier

Prise en compte de la connaissance métier pour valider les prédictions d’incidents.

Avec un rapprochement avec une base de connaissance et des incidents passés, essayer d’enrichir le rapport d’incident avec une recommandation d’actions de maintenance.

 

  1. Conception d’un modèle d’IA

Les phases 1 et 2 seront validés via des modèles d’IA.

• Création d’un modèle d’apprentissage

Des techniques de machine learning seront utilisées pour créer un modèle d’apprentissage qui sera capable d’anticiper les différents types de panne pouvant survenir.

• Validation du modèle

La dernière étape sera consacrée à l’identification et la quantification des cas d’usage qui peuvent être détectés et corrigés afin d’améliorer l’usage des data centers.

 

Compétences

Compétences techniques et niveau requis :

  • très bon niveau en système de type Unix,
  • être famillier des outils de travail collaboratif (ssh, git, etc.),
  • connaissance en compilation et LLVM serait appréciée,
  • bonne connaissance des infrastructures de calcul haute performance
  • notions de ML appréciées

Langues : anglais (lu écrit parlé)

Compétences relationnelles :

  • aimer le travail en équipe,
  • savoir communiquer sur ses résultats et ses avancées,
  • être à l'écoute des différentes idées.

Compétences additionnelles appréciées :

  • être capable de commencer un poste en télétravail.
  • être capable de travailler avec des personnes sur différents sites.

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Possibilité de télétravail et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

2653€ brut mensuel