Optimal checkpointing period with replicated execution on heterogeneous platforms - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2017

Optimal checkpointing period with replicated execution on heterogeneous platforms

Période de checkpoint optimale avec réplication sur plates-formes hétérogènes

Résumé

In this paper, we design and analyze strategies to replicate the execution of an application on two different platforms subject to failures, using checkpointing on a shared stable storage. We derive the optimal pattern size~$W$ for a periodic checkpointing strategy where both platforms concurrently try and execute $W$ units of work before checkpointing. The first platform that completes its pattern takes a checkpoint, and the other platform interrupts its execution to synchronize from that checkpoint. We compare this strategy to a simpler on-failure checkpointing strategy, where a checkpoint is taken by one platform only whenever the other platform encounters a failure. We use first or second-order approximations to compute overheads and optimal pattern sizes, and show through extensive simulations that these models are very accurate. The simulations show the usefulness of a secondary platform to reduce execution time, even when the platforms have relatively different speeds: in average, over a wide range of scenarios, the overhead is reduced by $30\%$. The simulations also demonstrate that the periodic checkpointing strategy is globally more efficient, unless platform speeds are quite close.
Ce rapport propose un modèle et une étude analytique de deux stratégies de réplication, combinée avec des prises de checkpoint, sur plates-formes hétérogènes. L'application s'exécute sur deux plates-formes de vitesses et taux de fautes différents, et qui partagent un espace de stockage stable. Nous déterminons la taille optimale du travail $W$ pour une stratégie périodique où les deux plates-formes tentent d'exécuter $W$ unités de travail avant de prendre un checkpoint. La première plate-forme qui réussit prend ce checkpoint, et l'autre s'interrompt et se resynchronise avec la première à partir du checkpoint. Nous comparons cette stratégie avec une stratégie plus simple, dite de checkpoint-sur-faute, où un checkpoint n'est pris sur une plate-forme que quand l'autre est sujette à une faute. Nous calculons des approximations du premier et deuxième ordre pour la taille optimale W, et montrons par simulationque celles-ci sont très précises. Les simulations montrent l'utilité d'une seconde plate-forme, même lorsqu'elle a une vitesse relativement différente, puisqu'on gagne 30% en moyenne. En- n, la stratégie périodique est la plus efficace globalement, sauf si les deux plates-formes sont des vitesses très proches.
Fichier principal
Vignette du fichier
rr9055inria.pdf (1.07 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01504936 , version 1 (10-04-2017)

Identifiants

  • HAL Id : hal-01504936 , version 1

Citer

Anne Benoit, Aurélien Cavelan, Valentin Le Fèvre, Yves Robert. Optimal checkpointing period with replicated execution on heterogeneous platforms. [Research Report] RR-9055, INRIA. 2017. ⟨hal-01504936⟩
142 Consultations
124 Téléchargements

Partager

Gmail Facebook X LinkedIn More