Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2003

Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles

Résumé

The increasing size of cluster of workstations sets down the scalability problem of applications running on these platforms. This concerns both numerical parallel applications and exploitation tools (administration, monitoring...). In this thesis work, we study the deployment of parallel applications on large clusters, that can be extended to grids. The deployment includes on one hand the launch of the parallel program on all nodes and on the other hand the setting up of a communication layer. Efficiency is obtained thanks to the overlay of all independent steps of the deployment. This work shows this problem as equivalent as the well known problem of the single message broadcast. Performance gap between the cost of a network communication and this of a remote execution call enable us to use a work stealing algorithm to realize a near-optimal schedule of remote execution calls. The good properties and performance figures of this tool, Taktuk, are demonstrated by its use in several projects like: KaTools (included and used by the Clic Mandrake Cluster Linux distribution), OAR (Job manager) and Inuktitut (Communication layer of the environment ATHAPASCAN).
La taille grandissante des grappes de calcul pose le problème du "passage à l'échelle" des applications qui s'exécutent sur ces plates-formes. Ceci concerne les applications de calculs scientifiques et les applications permettant d'exploiter ces plates-formes (administration, surveillance de charge, etc...). Dans ce travail de thèse nous nous sommes intéressés au déploiement d'une application parallèle sur une grappe de grande taille. L'objectif de cette étude était de fournir une méthode de déploiement efficace sur des grappes composées de milliers de noeuds et pouvant être facilement étendue aux grilles de calcul. Le déploiement inclut d'une part le lancement du programme parallèle sur tous les noeuds et d'autre part la mise en oeuvre d'un environnement de communication entre ces instances de programme. L'efficacité est obtenue par la parallélisation systématique des différentes initiations d'exécution distante. Ces travaux montrent que le problème de la diffusion optimale d'une requête d'exécution est similaire au problème largement étudié de la diffusion d'un message sur un réseau complètement maillé. Nous proposons une bibliothèque, "Taktuk", permettant de réaliser un ordonnancement dynamique (par vol de travail) des communications (appels d'exécution distante) de manière générique. L'utilisabilité et le bon fonctionnement de l'outil que nous proposons sont validés par son utilisation et sa diffusion dans plusieurs projets~: KaTools (inclus et utilisé par la distribution Linux Mandrake Clic), OAR (gestionnaire de travaux pour grappes) et Inuktitut (bibliothèque de communication d'ATHAPASCAN).
Fichier principal
Vignette du fichier
tel-000046101.pdf (857.81 Ko) Télécharger le fichier
tel-00004610.pdf (1017.79 Ko) Télécharger le fichier
Format : Autre

Dates et versions

tel-00004610 , version 1 (10-02-2004)

Identifiants

  • HAL Id : tel-00004610 , version 1

Citer

Cyrille Martin. Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles. Réseaux et télécommunications [cs.NI]. Institut National Polytechnique de Grenoble - INPG, 2003. Français. ⟨NNT : ⟩. ⟨tel-00004610⟩
164 Consultations
646 Téléchargements

Partager

Gmail Facebook X LinkedIn More