Checkpointing Workflows à la Young/Daly Is Not Good Enough - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2021

Checkpointing Workflows à la Young/Daly Is Not Good Enough

La période de checkpoint de Young/Daly n’est pas optimale pour l’exécution de graphes de tâches

Résumé

This paper revisits checkpointing strategies when workflows composed of multiple tasks execute on a parallel platform. The objective is to minimize the expectation of the total execution time. For a single task, the Young/Daly formula provides the optimal checkpointing period. However, when many tasks execute simultaneously, the risk that one of them is severely delayed increases with the number of tasks. To mitigate this risk, a possibility is to checkpoint each task more often than with the Young/Daly strategy. But is it worth slowing each task down with extra checkpoints? Does the extra checkpointing make a difference globally? This paper answers these questions. On the theoretical side, we prove several negative results for keeping the Young/Daly period when many tasks execute concurrently, and we design novel checkpointing strategies that guarantee an efficient execution with high probability. On the practical side, we report comprehensive experiments that demonstrate the need to go beyond the Young/Daly period and to checkpoint more often, for a wide range of application/platform settings.
Cet article étudie les stratégies de checkpoint pour l’exécution de graphes de tâches (applications de type workflow). La formule de Young/Daly est optimale pour minimiser l’espérance du temps d’exécution d’une seule tâche. Mais quand plusieurs tâches s’exécutent en parallèle, le risque est grand que l’une d’entre elles soit retardée significativement, et partant, que soit retardée l’exécution de ses successeurs dans le graphe de tâches. Nous étudions la meilleure stratégie de checkpoitnt dans ce contexte, et montrons qu’effectivement il faut prendre des checkpoints plus souvent pour obtenir une solution efficace avec très grande probabilité. Nous conduisons des simulations sur des graphes de tâches de référence, qui confirment les résultats théoriques.
Fichier principal
Vignette du fichier
rr9413.pdf (2.87 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03264047 , version 1 (17-06-2021)

Identifiants

  • HAL Id : hal-03264047 , version 1

Citer

Anne Benoit, Lucas Perotin, Yves Robert, Hongyang Sun. Checkpointing Workflows à la Young/Daly Is Not Good Enough. [Research Report] RR-9413, Inria - Research Centre Grenoble – Rhône-Alpes. 2021, pp.54. ⟨hal-03264047⟩
53 Consultations
174 Téléchargements

Partager

Gmail Facebook X LinkedIn More