Intégration des mécanismes de tolérance aux fautes dans StarPU

The offer description be low is in French

Contract type : Fixed-term contract

Level of qualifications required : Graduate degree or equivalent

Fonction : Temporary scientific engineer

Level of experience : Recently graduated

About the research centre or Inria department

Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France et compte une vingtaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l’enseignement supérieur, laboratoires d'excellence, institut de recherche technologique…

Context

Contexte :

Le besoin en puissance de calcul concerne de plus en plus de domaines tels que la biologie, la météorologie, l’astrophysique … Les applications sont exécutées sur des supercalculateurs avec de grandes capacités de calcul. Le PEPR Numérique pour l’exascale (NumPEx) s’inscrit dans ce contexte. Il a pour but de fournir les briques logicielles nécessaires pour l’exascale. Il est divisé en 5 projets ciblés (appelés PC), allant des méthodes mathématiques au traitement des données en passant par les logiciels. Cette fiche de poste s’inscrit dans le cadre du 2e PC : Exa-SofT dont le but et de fournir la pile logicielle nécessaire au bon fonctionnement des applications.

Afin d’atteindre ces performances de calcul, les supercalculateurs contiennent de plus en plus d’unités de calcul parfois hétérogènes. Par exemple, Frontier, classé numéro 1 au Top500 contient plus de 8 millions de coeurs. Avec autant de composants, la probabilité qu’une défaillance se produise est de plus en plus élevée. Il existe plusieurs techniques pour tolérer les fautes, certaines au niveaux de l’application [1] avec pour avantage la fine connaissance de l’application et de ses besoins, d’autres au niveau du système [2] qui évitent au programmeur d’ajouter les mécanismes de tolérance aux fautes à l’application. Ces techniques utilisent typiquement le principe de checkpoint/restart: régulièrement pendant l’exécution de l’application, l’état de l’application est sauvegardé (checkpoint), pour pouvoir être restauré en cas de panne (restart).

L’autre obstacle introduit par les supercalculateurs est la difficulté à programmer. En effet, devoir gérer des millions de ressources hétérogènes, avec ce que cela implique en terme de programmation, de gestion de la mémoire et des ressources, peut devenir très complexe. Afin d’abstraire l’architecture, les supports d’exécution à base de graphes de tâches peuvent être utilisés. L’idée est de représenter l’application sous forme de graphe de tâches guidé par les dépendances des données. Une fois le graphe exprimé, le support d’exécution s’occupe des transferts des données nécessaires à l’application. Ainsi l’utilisateur n’a plus à gérer cette difficulté. StarPU [3], développé à Bordeaux dans l’équipe STORM, fait partie des supports d’exécution basés sur les graphes de tâches.

Combiner la tolérance aux fautes et la représentation en graphe de tâches a plusieurs avantages. Tout d’abord, la connaissance des dépendances implique la connaissance des données nécessaires au restart, rendant la taille des checkpoints plus raisonnable. Ensuite, les messages à sauvegarder pour éviter un redémarrage global ou un effet domino peut aussi être simplifié grâce au graphes de tâches. Des travaux ont déjà été effectués dans le contexte de la tolérance aux fautes dans StarPU [4]. Ces travaux n’ont cependant pas encore été complètement intégrés dans StarPU lui-même: la sauvegarde du log de messages a été implémentée dans un prototype reprenant le fonctionnement de base de StarPU-MPI.

Références :

[1] G. Bosilca, R. Delmas, J. Dongarra and J. Langou : Algorithm-based fault tolerance applied to high performance computing. Journal of Parallel and Distributed Computing. 2009.

[2] Elnozahy, E. N. (Mootaz) and Alvisi, Lorenzo and Wang, Yi-Min and Johnson, David B: A survey of rollback-recovery protocols in message-passing systems. ACM Comput. Surv. 2002.

[3] C. Augonnet, S. Thibault, R. Namyst, and P-A. Wacrenier
StarPU: A Unified Platform for Task Scheduling on Heterogeneous Multicore Architectures. CCPE - Concurrency and Computation: Practice and Experience, Special Issue: Euro-Par 2009, 23:187-198, February 2011

[4] Romain Lion, Samuel Thibault: From tasks graphs to asynchronous distributed checkpointing with local restart. FTXS@SC 2020

Assignment

Missions :

Avec l'aide de Samuel Thibault et Amina Guermouche, la personne recrutée devra intégrer les mécanismes de tolérance aux fautes dans StarPU.

Main activities

Le but de ce poste est :
1- Intégrer la tolérance aux fautes dans StarPU. Cette intégration comprendra l’intégration de la sauvegarde d’un log de messages, de la détection de fautes, et la mise en place du restart.
2- Effectuer une campagne de tests sur plusieurs applications afin de pouvoir tester les performances et l’impact du checkpoint.

Skills

Compétences techniques et niveau requis :

Programmation C
Programmation parallèle, MPI
Linux, bash

Langues : Anglais

Benefits package

Restauration subventionnée
Transports publics remboursés partiellement
Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
Possibilité de télétravail et aménagement du temps de travail
Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
Accès à la formation professionnelle
Sécurité sociale

Remuneration

Le salaire moyen se situera entre 2692€ et 2765€ brut en fonction de l'expérience.

Apply for this position

General Information

Theme/Domain : Distributed and High Performance Computing
Scientific computing (BAP E)
Town/city : Talence
Inria Center : Centre Inria de l'université de Bordeaux
Starting date : 2024-10-01
Duration of contract : 6 months
Deadline to apply : 2024-07-15

Warning : you must enter your e-mail address in order to save your application to Inria. Applications must be submitted online on the Inria website. Processing of applications sent from other channels is not guaranteed.

Instruction to apply

Si vous êtes intéressés, merci de bien vouloir candidater via le site jobs.inria avec les documents suivants :

CV
lettre de motivation

Defence Security :
This position is likely to be situated in a restricted area (ZRR), as defined in Decree No. 2011-1425 relating to the protection of national scientific and technical potential (PPST).Authorisation to enter an area is granted by the director of the unit, following a favourable Ministerial decision, as defined in the decree of 3 July 2012 relating to the PPST. An unfavourable Ministerial decision in respect of a position situated in a ZRR would result in the cancellation of the appointment.

Recruitment Policy :
As part of its diversity policy, all Inria positions are accessible to people with disabilities.

Contacts

Inria Team : STORM
Recruiter :
Thibault Samuel / Samuel.Thibault@inria.fr

About Inria

Inria is the French national research institute dedicated to digital science and technology. It employs 2,600 people. Its 200 agile project teams, generally run jointly with academic partners, include more than 3,500 scientists and engineers working to meet the challenges of digital technology, often at the interface with other disciplines. The Institute also employs numerous talents in over forty different professions. 900 research support staff contribute to the preparation and development of scientific and entrepreneurial projects that have a worldwide impact.