Optimal checkpointing period with replicated execution on heterogeneous platforms

Anne Benoit; Aurélien Cavelan; Valentin Le Fèvre; Yves Robert

Rapport (Rapport De Recherche) Année : 2017

Optimal checkpointing period with replicated execution on heterogeneous platforms

Période de checkpoint optimale avec réplication sur plates-formes hétérogènes

(1, 2) , (1, 2) , (1, 2) , (1, 2, 3)

1
2
3

Anne Benoit

Fonction : Auteur
PersonId : 182817
IdHAL : anne-benoit
ORCID : 0000-0003-2910-3540
IdRef : 074758438

École normale supérieure de Lyon

Optimisation des ressources : modèles, algorithmes et ordonnancement

Aurélien Cavelan

Fonction : Auteur

École normale supérieure de Lyon

Optimisation des ressources : modèles, algorithmes et ordonnancement

Valentin Le Fèvre

Fonction : Auteur

École normale supérieure de Lyon

Optimisation des ressources : modèles, algorithmes et ordonnancement

Yves Robert

Fonction : Auteur
PersonId : 739318
IdHAL : yves-robert
ORCID : 0000-0003-2361-055X
IdRef : 029813611

École normale supérieure de Lyon

Optimisation des ressources : modèles, algorithmes et ordonnancement

The University of Tennessee [Knoxville]

Résumé

In this paper, we design and analyze strategies to replicate the execution of an application on two different platforms subject to failures, using checkpointing on a shared stable storage. We derive the optimal pattern size~$W$ for a periodic checkpointing strategy where both platforms concurrently try and execute $W$ units of work before checkpointing. The first platform that completes its pattern takes a checkpoint, and the other platform interrupts its execution to synchronize from that checkpoint. We compare this strategy to a simpler on-failure checkpointing strategy, where a checkpoint is taken by one platform only whenever the other platform encounters a failure. We use first or second-order approximations to compute overheads and optimal pattern sizes, and show through extensive simulations that these models are very accurate. The simulations show the usefulness of a secondary platform to reduce execution time, even when the platforms have relatively different speeds: in average, over a wide range of scenarios, the overhead is reduced by $30\%$. The simulations also demonstrate that the periodic checkpointing strategy is globally more efficient, unless platform speeds are quite close.

Ce rapport propose un modèle et une étude analytique de deux stratégies de réplication, combinée avec des prises de checkpoint, sur plates-formes hétérogènes. L'application s'exécute sur deux plates-formes de vitesses et taux de fautes différents, et qui partagent un espace de stockage stable. Nous déterminons la taille optimale du travail $W$ pour une stratégie périodique où les deux plates-formes tentent d'exécuter $W$ unités de travail avant de prendre un checkpoint. La première plate-forme qui réussit prend ce checkpoint, et l'autre s'interrompt et se resynchronise avec la première à partir du checkpoint. Nous comparons cette stratégie avec une stratégie plus simple, dite de checkpoint-sur-faute, où un checkpoint n'est pris sur une plate-forme que quand l'autre est sujette à une faute. Nous calculons des approximations du premier et deuxième ordre pour la taille optimale W, et montrons par simulationque celles-ci sont très précises. Les simulations montrent l'utilité d'une seconde plate-forme, même lorsqu'elle a une vitesse relativement différente, puisqu'on gagne 30% en moyenne. En- n, la stratégie périodique est la plus efficace globalement, sauf si les deux plates-formes sont des vitesses très proches.

Mots clés

failures checkpointing period replication heterogeneous platforms

résilience faute checkpoint période de checkpoint réplication plates-forme hétérogènes

Domaines

Informatique [cs]

Fichier principal

rr9055inria.pdf (1.07 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Equipe Roma : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01504936

Soumis le : lundi 10 avril 2017-16:33:44

Dernière modification le : jeudi 11 mai 2023-11:56:10

Archivage à long terme le : mardi 11 juillet 2017-14:28:23

Dates et versions

hal-01504936 , version 1 (10-04-2017)

Identifiants

HAL Id : hal-01504936 , version 1

Citer

Anne Benoit, Aurélien Cavelan, Valentin Le Fèvre, Yves Robert. Optimal checkpointing period with replicated execution on heterogeneous platforms. [Research Report] RR-9055, INRIA. 2017. ⟨hal-01504936⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON CNRS INRIA UNIV-LYON1 INRIA-RRRT INRIA2 LARA UDL

142 Consultations

124 Téléchargements

Optimal checkpointing period with replicated execution on heterogeneous platforms

Période de checkpoint optimale avec réplication sur plates-formes hétérogènes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager