2018-00957 - Accélérer des solveurs linéaires de type Krylov avec des techniques de compression agnostiques

Type de contrat : CDD de la fonction publique

Contrat renouvelable : Oui

Niveau de diplôme exigé : Thèse ou équivalent

Fonction : Post-Doctorant

A propos du centre ou de la direction fonctionnelle

Les avancées significatives en terme de simulation numérique ont toujours été liées aux paliers importants franchis par les technologies du HPC. Après le seuil des machines teraflops des années 1990 et actuelles, la communauté scientifique se prépare  à utiliser de manière généraliste les architectures pétaflops et même exaflops dans les années 2020. Pour que des codes applicatifs puissent exploiter de telles puissances de calcul en utilisant des centaines de millions  de coeurs de calcul en passant effectivement à l'échelle, il est nécessaire de repenser les modèles physiques, leur modélisation mathématique et les algorithmes associés, ainsi que faire une mise en oeuvre permettant d'exploiter tous les niveaux de parallélisme de l'architecture. Le traitement des données pour ces simulations sera aussi un problème critique vue les tailles qui sont en jeu.

Dans ce contexte, l'objectif de HiePACS est de développer des compétences pluridisciplinaires de pointe en mathématiques appliquées et en informatique du HPC pour traiter des simulations frontières multi-échelles sur les machines petaflops et exaflops qui vont être disponibles bientôt.

Contexte et atouts du poste

Ce poste est ouvert dans le cadre du Joint Laboratory for Extreme Scale Computing (JLESC) dans le cadre d'une collaboration entre l'Inria et le laboratoire national Argonne. Le projet conjoint étudiera comment la compression avec perte peut être surveillée par les solveurs Krylov afin de réduire significativement l'empreinte mémoire lors de la résolution de systèmes linéaires clairsemés de très grande taille. Les solveurs qui en résulteront réduiront la pénalité d'E/S payée lors de l'exécution de grands calculs en utilisant soit des mécanismes de points de contrôle pour traiter la résilience, soit des techniques non essentielles pour résoudre d'énormes problèmes.

L'équipe HiePACS de l'Inria Bordeaux-Sud Ouest a étudié et développé des solveurs linéaires à haute performance basés sur les sous-espaces de Krylov qui sont candidats pour le calcul à l'échelle extrême. Il existe des résultats théoriques montrant que ces solveurs peuvent s'accommoder d'une certaine inexactitude dans le calcul sans empêcher la convergence à la précision prescrite à l'origine[4, 5].

L'équipe de l'extrême résilience de la division Mathématiques et Informatique du Laboratoire national Argonne développe actuellement un effort global de compression avec perte de données scientifiques dans le cadre du US Exascale Computing Project (ECP). En particulier, l'équipe a développé le compresseur SZ lossy[3, 6] qui permet d'obtenir des taux de compression très élevés tout en respectant strictement les contrôles d'erreur définis par l'utilisateur. L'équipe a montré empiriquement que SZ peut être utilisé pour vérifier certains solveurs itératifs tels que GMRES tout en préservant la convergence.

Mission confiée

Pour la solution des grands systèmes linéaires de la forme Ax = b où A ∈ Rn×n, x et b ∈ Rn, les méthodes du sous-espace de Krylov sont parmi les solveurs itératifs les plus couramment utilisés ; elles sont en outre étendues pour faire face au calcul à l'échelle extrême car on peut intégrer des caractéristiques telles que la communication cachée dans leurs variantes appelées solveurs de Krylov en pipeline[2]. D'une part, les méthodes subspatiales de Krylov telles que GMRES permettent une certaine inexactitude dans le calcul de la base de recherche orthonormale ; plus précisément, les résultats théoriques[4, 5] montrent que le produit matrice vecteur impliqué dans la construction des nouvelles directions de recherche peut être de plus en plus inexact lorsque la convergence vers la solution a lieu. Un schéma inexact de cette forme écrit dans une égalité Arnoldi généralisée.

(A + E1)v1, ...., (A + Ek)vk] =[v1, ...., vk, vk+1]H ̄k. (1)

où la théorie donne un lien sur ∥Ek∥ qui dépend de la norme résiduelle ∥b - Axk∥ à l'étape k, où xk est l'itération kth. Un tel résultat a un intérêt majeur dans les applications où la matrice n'est pas formée explicitement, par exemple, dans le contexte des méthodes de décomposition rapide mutipôle (FMM) ou de décomposition de domaine (DDM), où cela permet de réduire drastiquement l'effort de calcul.

D'autre part, de nouvelles techniques de compression de données à perte agnostique sont étudiées pour réduire l'empreinte E/S des grandes applications qui doivent stocker des instantanés du calcul, pour l'analyse a posteriori, parce qu'elles mettent en œuvre des calculs out-of-core ou pour le contrôle des données de résilience. Ces techniques de compression avec perte permettent un contrôle précis de l'erreur introduite par le com-presseur pour s'assurer que les données stockées sont toujours significatives pour l'application considérée. Dans le contexte de la méthode de Krylov, la base Vk+1 =[v1,....,vk,vk+1] représente les données les plus exigeantes en termes d'empreinte mémoire, de sorte que, dans un contexte de tolérance aux pannes ou en dehors du cœur, le stockage sous forme de perte permettrait une économie considérable.

L'objectif de ce post-doc est de contrôler dynamiquement l'erreur de compression de Vk+1 pour se conformer à la théorie inexacte de Krylov. La principale difficulté est de traduire l'inexactitude théorique connue sur Ek en un mécanisme de compression avec perte adapté pour vk avec perte ∥δvk∥ .

Principales activités

Le candidat retenu partagera son temps entre l'Inria Bordeaux et le Laboratoire National d'Argonne pour travailler sur les activités qui suivront l'ordre du jour provisoire donné ci-dessous :

    M0-M2 à l'Inria : analyse théorique pour traduire le contrôle des perturbations de ∥Ek∥ en une norme calculable de contrôle des perturbations sur ∥δvk∥ (3 mois).

    M3-M6 à Argonne : concevoir/régler une technique de compression avec perte de sorte que la perte soit inférieure à ∥δvk∥ (3 mois).

    M7-M9 à l'Inria : mettre en œuvre/intégrer la technique de compression dans un solveur GMRES parallèle out-of-core pour évaluer le gain sur des problèmes importants (4 mois).

    M10-M15 à l'Inria : étendre la méthodologie pour bloquer les techniques de Krylov en pipeline[2] pour la solution de systèmes linéaires à côtés droits multiples[1] (6 mois).

Avantages sociaux

  • Restauration subventionnée
  • Transports publics remboursés partiellement

Rémunération

2653€ brut / mois