Managing large-scale, distributed systems research experiments with control-flows

Tomasz Buchert

Résumé

Running experiments on modern systems such as supercomputers, cloud infrastructures or P2P networks became very complex, both technically and methodologically. It proved difficult to run experiments correctly and understand obtained results, even with the background on the employed technology and methods. Moreover, large-scale experiments suffer from erroneous and the unpredictable behavior of underlying software and hardware, undermining the scientific principles of experimental computer science. This worrisome state of research on large-scale distributed systems calls for new approaches to design, run and interpret experiments. This work explores the use of control-flows (business processes) as a model for representing the large-scale experiments in research on distributed systems. We set out to find advantages, disadvantages and limitations of this approach, and practical considerations for future implementers. We make 3 main contributions. First, we analyze the current state of experiment management tools, their limits and features to better understand difficulties that lay ahead. We construct a general framework to evaluate tools of this type. Second, we design and implement an experiment management tool which is based on the model of control-flows. We show that this methodology can be implemented and used in practice to run challenging and large-scale experiments while offering a wide set of features, some of them missing in the previous approaches. Finally, we analyze the use of provenance in computer science, and in particular in experimental research on distributed systems, and propose a provenance collection system that emerges from the control-flow model used as the representation of experiments. The design is implemented and shown to collect provenance in efficient and automatic way. Our results show that workflows are a viable model for the design and execution of experiments in distributed systems research. With these positive conclusions in mind, we also sketch future research directions for improving our work.

L'expérimentation sur les systèmes modernes comme les superordinateurs, les infrastructures cloud ou les réseaux P2P, est devenue complexe à cause des difficultés techniques et méthodologiques. La réalisation correcte d'expériences et l'analyse des résultats obtenus est difficile, même en possédant toute l'expertise nécessaire sur le domaine d'étude et la technologie utilisée. De plus, les expériences à grande échelle échouent souvent en raison du comportements aléatoires du matériel et du logiciel, menaçant les principes de la recherche expérimentale comme la fiabilité et la reproductibilité des résultats. Cette situation inquiétante de la recherche sur les systèmes distribués à grande échelle nécessite la découverte de nouvelles approches pour la structuration, le contrôle et l'interprétation d'expériences. Ce travail explore l'utilisation de control-flows (processus métier) comme un modèle pour la représentation d'expériences à grande échelle dans le domaine des systèmes distribués. Il analyse les avantages, inconvénients et limitations de cette approche, ainsi que des considérations pratiques pour leur implantation future. Trois contributions principales peuvent être distinguées. D'abord, nous analysons l'état actuel des outils pour le contrôle d'expériences. Nous montrons les fonctionnalités manquantes et permettons de comprendre les difficultés partagées par toutes les approches. Cette analyse se termine avec la construction d'une hiérarchie des propriétés qui peut être utilisée pour l'évaluation des outils qui contrôlent les expériences. La deuxième contribution consiste en un design et une implantation d'un système de contrôle d'expériences qui se base sur le modèle de control-flows. Nous montrons que cette méthodologie est capable du contrôle efficace et robuste des expériences à grande échelle et offre des fonctionnalités nécessaires, dont certains ne sont pas présentes dans les approches existantes. La dernière contribution porte sur la conception et l'implantation d'un système pour la collection de provenance pendant l'exécution d'expériences sur les systèmes distribués. Elle utilise intensément le modèle de control-flows et améliore l'approche présentée précédemment. Le prototype de ce système est capable d'une collection de provenance de manière efficace et automatique. Les résultats obtenus montrent que le modèle proposé est une approche viable du contrôle d'expériences dans les systèmes distribués. De plus, les améliorations possibles sont mentionnées à la fin du document.

Managing large-scale, distributed systems research experiments with control-flows

Gestion d'expériences à grande échelle dans la recherche sur les systèmes distribués à l'aide de control-flows

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager