A Generic Approach to Scheduling and Checkpointing Workflows

Li Han; Valentin Le Fèvre; Louis-Claude Canon; Yves Robert; Frédéric Vivien

Rapport (Rapport De Recherche) Année : 2018

A Generic Approach to Scheduling and Checkpointing Workflows

(1, 2) , (1) , (3, 1) , (1, 4) , (1)

1
2
3
4

Li Han

Fonction : Auteur
PersonId : 174198
IdHAL : lihan
ORCID : 0000-0001-5797-2554
IdRef : 244421129

Optimisation des ressources : modèles, algorithmes et ordonnancement

East China Normal University [Shangaï]

Valentin Le Fèvre

Fonction : Auteur

Optimisation des ressources : modèles, algorithmes et ordonnancement

Louis-Claude Canon

Fonction : Auteur
PersonId : 779960
IdHAL : louis-claude-canon
ORCID : 0000-0002-5458-0982
IdRef : 150645910

Franche-Comté Électronique Mécanique, Thermique et Optique - Sciences et Technologies (UMR 6174)

Optimisation des ressources : modèles, algorithmes et ordonnancement

Yves Robert

Fonction : Auteur
PersonId : 739318
IdHAL : yves-robert
ORCID : 0000-0003-2361-055X
IdRef : 029813611

Optimisation des ressources : modèles, algorithmes et ordonnancement

Innovative Computing Laboratory [Knoxville]

Frédéric Vivien

Fonction : Auteur
PersonId : 1372
IdHAL : fredericvivien
ORCID : 0000-0002-0663-6152
IdRef : 189808535

Optimisation des ressources : modèles, algorithmes et ordonnancement

Résumé

This work deals with scheduling and checkpointing strategies to execute scientific workflows on failure-prone large-scale platforms. To the best of our knowledge, this work is the first to target fail-stop errors for arbitrary workflows. Most previous work addresses soft errors, which corrupt the task being executed by a processor but do not cause the entire memory of that processor to be lost, contrarily to fail-stop errors. We revisit classical mapping heuristics such as HEFT and MinMin and complement them with several checkpointing strategies. The objective is to derive an efficient trade-off between checkpointing every task (CkptAll), which is an overkill when failures are rare events, and checkpointing no task (CkptNone), which induces dramatic re-execution overhead even when only a few failures strike during execution. Contrarily to previous work, our approach applies to arbitrary workflows, not just special classes of dependence graphs such as M-SPGs (Minimal Series-Parallel Graphs). Extensive experiments report significant gain over both CkptAll and CkptNone, for a wide variety of workflows.

Ce travail porte sur l’ordonnancement et les stratégies de checkpoint utiles à l’exécution d’applications scientifiques structurées en forme de graphes de tâches, sur des plateformes à grande échelle, sensibles aux fautes. A notre connaissance, ce travail est le premier à traiter des erreurs fatales pour des graphes de tâches arbitraires. La plupart des travaux existants traitent des erreurs silencieuses, qui corrompent la tâche en train d’être exécutée sur un processeur mais ne provoquent pas la disparition totale de la mémoire de ce processeur, contrairement aux erreurs fatales. Nous revisitons les heuristiques d’allocation classiques telles que HEFT et MinMin, auxquelles nous rajoutons plusieurs stratégies de checkpoint. L’objectif est de trouver un juste milieu efficace entre checkpointer toutes les tâches (CkptAll), ce qui est trop lourd quand les erreurs surviennent rarement, et n’en checkpointer aucune (CkptNone), ce qui induit des temps de ré-exécution élevés, même quand seulement quelques fautes surgissent durant l’exécution. Contrairement à ce qui a été fait précédemment, notre approche s’applique à des graphes de tâches quelconques, pas seulement à certaines classes spéciales de graphes de tâches comme les M-SPGs (Graphe Série-Parallèle Minimal). Plusieurs expériences montrent un gain significatif par rapport à CkptAll et CkptNone, pour une large variété de graphes de tâches.

Mots clés

fail-stop error

workflow checkpoint erreur fatale résilience

Domaines

Informatique [cs]

Fichier principal

RR-9167.pdf (1.04 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Equipe Roma : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01766352

Soumis le : vendredi 1 juin 2018-14:12:59

Dernière modification le : jeudi 1 février 2024-10:04:33

Dates et versions

hal-01766352 , version 1 (13-04-2018)

hal-01766352 , version 2 (01-06-2018)

Identifiants

HAL Id : hal-01766352 , version 2

Citer

Li Han, Valentin Le Fèvre, Louis-Claude Canon, Yves Robert, Frédéric Vivien. A Generic Approach to Scheduling and Checkpointing Workflows. [Research Report] RR-9167, Inria. 2018, pp.1-29. ⟨hal-01766352v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON UNIV-RENNES1 CNRS INRIA UNIV-FCOMTE UNIV-BM UNIV-LYON1 IRISA FEMTO-ST INRIA-RRRT UNIV-BM-THESE INRIA2 LARA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UDL UR1-MATH-NUM

248 Consultations

423 Téléchargements

A Generic Approach to Scheduling and Checkpointing Workflows

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager