Observation d'exécutions parallèles - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Hdr Année : 2000

Observation of parallel program executions

Observation d'exécutions parallèles

Résumé

The aim of the research work presented in this document is the design and implementation of tools to help programmers both for correctness and performance debugging of parallel applications, running on medium to large scale clusters of symmetric multi-processors nodes. Parallel programs are executed by a dynamically evolving network of communicating threads; within the same node, threads communicate through shared memory while threads belonging to different nodes use message passing communications. This work addresses mainly two problems. First of all, the identification of transient errors, arising from the non determinism of the programming model, is addressed by adapting the execution replay techniques to the communicating threads programming model. The other problem is the complexity of the dynamic behavior of parallel program executions, which makes them difficult to understand in order to find their errors. An interactive, scalable and extensible visualization tool, based on execution trace analysis, helps understanding the dynamic behavior of communicating threads parallel programs. Several issues raised by the integration of these tools into a coherent debugging environment are then pointed out and possible solutions are sketched.
L'objectif des travaux présentés est la conception etl'implémentation d'outils d'aide à la mise au point d'applications parallèles, pour en éliminer les erreurs de logique et de performance. Les plateformes parallèles cibles sont des grappes de plusieurs dizaines de noeuds multiprocesseurs. Les programmes parallèles considérés mettent en oeuvre un réseau de fils d'exécution \textit((threads)) évoluant dynamiquement et qui communiquent par mémoire commune à l'intérieur d'un même noeud et par passage de message entre deux noeuds distincts. Deux problèmes sont abordés principalement. Tout d'abord, la recherche d'erreurs fugitives provenant de l'indéterminisme du modèle de programmation est traitée par l'adaptation de méthodes de ré-exécution déterministe à ce modèle. L'autre problème est la complexité de la dynamique des exécutions de programmes parallèles, qui rend difficile leur compréhension et l'identification des erreurs. Un outil de visualisation interactif, «scalable» et extensible, basé sur l'analyse de traces d'exécution, permet de faciliter cette compréhension. Les difficultés que pose l'intégration des outils développés dans un environnement cohérent de mise au point sont ensuite identifiées et des solutions sont esquissées.
Fichier principal
Vignette du fichier
tel-00004711.pdf (553.61 Ko) Télécharger le fichier
Loading...

Dates et versions

tel-00004711 , version 1 (17-02-2004)

Identifiants

  • HAL Id : tel-00004711 , version 1

Citer

Jacques Chassin de Kergommeaux. Observation d'exécutions parallèles. Autre [cs.OH]. Institut National Polytechnique de Grenoble - INPG, 2000. ⟨tel-00004711⟩
162 Consultations
248 Téléchargements

Partager

Gmail Facebook X LinkedIn More