Neural-Based Modeling for Performance Tuning of Cloud Data Analytics

Khaled Zaouk

Thèse Année : 2021

Neural-Based Modeling for Performance Tuning of Cloud Data Analytics

Modélisation à Base de Réseaux de Neurones des Performances des Plateformes Cloud

(1, 2)

1
2

Khaled Zaouk

Fonction : Auteur

Laboratoire d'informatique de l'École polytechnique [Palaiseau]

Rich Data Analytics at Cloud Scale

Résumé

Cloud data analytics has become an integral part of enterprise business operations for data-driven insight discovery. Performance modeling of cloud data analytics is crucial for performance tuning and other critical operations in the cloud. Traditional modeling techniques fail to adapt to the high degree of diversity in workloads and system behaviors in this domain. In this thesis, we bring recent Deep Learning techniques to bear on the process of automated performance modeling of cloud data analytics, with a focus on Spark data analytics as representative workloads. At the core of our work is the notion of learning workload embeddings (with a set of desired properties) to represent fundamental computational characteristics of different jobs, which enable performance prediction when used together with job configurations that control resource allocation and other system knobs. Our work provides an in-depth study of different modeling choices that suit our requirements. Results of extensive experiments reveal the strengths and limitations of different modeling methods, as well as superior performance of our best performing method over a state-of-the-art modeling tool for cloud analytics

L'analyse des données en utilisant des ressources cloud est désormais omniprésente dans l'activité des entreprises qui s'engagent dans une transformation digitale pour mieux comprendre les données volumineuses dont elles disposent. La modélisation des performances des plateformes cloud utilisées dans ce contexte est une nécessité pour pouvoir garantir une bonne performance des requettes réparties (appelées jobs) ainsi qu'une meilleure gestion des ressources cloud. Les techniques de modélisation traditionnelles ne s'adaptent ni à la diversité de ces jobs ni aux différents comportements des systèmes distribués. Dans cette thèse, nous proposons des techniques récentes de Deep Learning pour pouvoir automatiser cette tâche de modélisation avec un focus en particulier sur la plateforme Spark utilisée pour les calculs distribués. Au coeur de notre travaux de recherche, on présente la notion d'apprentissage d'embeddings, vecteurs capables de décrire de façon compacte les caractéristiques fondamentales des différents jobs. Nous montrerons dans cette thèse comment ces embeddings permettent une meilleure prédiction des performances des jobs sous différentes configurations du système de calculs répartis. Nous aborderons aussi une étude de différents choix de modélisation à base de réseaux de neurones répondant à nos besoins. Les résultats de nos expériences révèlent les forces et les limites des différents choix de modélisation. Nos expériences dévoilent aussi des performances supérieures d'une méthode qu'on propose par rapport à l'état de l'art dans la modélisation des systèmes de gestion de base de données.

Mots clés

Apache Spark Cloud computing Deep learning Databases Data Analytics Representation Learning Recommender Systems

Apache Spark Apprentissage profond Analyse de données Bases de données Cloud computing Representation Learning Systèmes de recommendation

Domaines

Calcul parallèle, distribué et partagé [cs.DC] Apprentissage [cs.LG] Base de données [cs.DB]

Fichier principal

96242_ZAOUK_2021_archivage.pdf (2.18 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03284173

Soumis le : lundi 12 juillet 2021-13:52:11

Dernière modification le : lundi 29 janvier 2024-14:51:09

Archivage à long terme le : mercredi 13 octobre 2021-19:02:07

Dates et versions

tel-03284173 , version 1 (12-07-2021)

Identifiants

HAL Id : tel-03284173 , version 1

Citer

Khaled Zaouk. Neural-Based Modeling for Performance Tuning of Cloud Data Analytics. Distributed, Parallel, and Cluster Computing [cs.DC]. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAX016⟩. ⟨tel-03284173⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

X CNRS INRIA LIX STAR X-LIX X-DEP-INFO INRIA2 IP_PARIS GS-COMPUTER-SCIENCE

229 Consultations

255 Téléchargements

Neural-Based Modeling for Performance Tuning of Cloud Data Analytics

Modélisation à Base de Réseaux de Neurones des Performances des Plateformes Cloud

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager