Contributions à la réplication de données dans les systèmes distribués à grande échelle

Sébastien Monnet

Hdr Année : 2015

Contributions to data replication in large-scale distributed systems

Contributions à la réplication de données dans les systèmes distribués à grande échelle

(1, 2)

1
2

Sébastien Monnet

Fonction : Auteur
PersonId : 831800

Université Pierre et Marie Curie - Paris 6

Large-Scale Distributed Systems and Applications

Résumé

Data replication is a key mechanism for building a reliable and efficient data management system. Indeed, by keeping several replicas for each piece of data, it is possible to improve durability. Furthermore, well-placed copies reduce data access time. However, having multiple copies for a single piece of data creates consistency problems when the data is updated. Over the last years, I made contributions related to these three aspects: data durability, data access performance and data consistency. RelaxDHT and SPLAD enhance data durability by placing data copies smartly. Caju, AREN and POPS reduce access time by improving data locality and by taking popularity into account. To enhance data lookup performance, DONUT creates efficient shortcuts taking data distribution into account. Finally, in the replicated database context, Gargamel parallelizes independent transactions only, improving database performance and avoiding aborting transactions. My research has been carried out in collaboration with height PhD students, four of which have defended. In my future work, I plan to extend these contributions by (i) designing a storage system tailored for MMOGs, which are very demanding, and (ii) designing a data management system that is able to re-distribute data automatically in order to scale the number of servers up and down according to the changing workload, leading to a greener data management.

La réplication de données est une technique clé pour permettre aux systèmes de gestion de données distribués à grande échelle d'offrir un stockage fiable et performant. Comme il gère un nombre suffisant de copies de chaque donnée, le système peut améliorer la pérennité. De plus, la présence de copies bien placées réduit les temps d'accès. Cependant, cette même existence de plusieurs copies pose des problèmes de cohérence en cas de modification. Ces dernières années, mes contributions ont porté sur ces trois aspects liés à la réplication de données: la pérennité des données, la performance des accès et la gestion de la cohérence. RelaxDHT et SPLAD permettent d'améliorer la pérennité des données en jouant sur le placement des copies. Caju, AREN et POPS permettent de réduire les temps d'accès aux données en améliorant la localité et en prenant en compte la popularité. Pour accélérer la localisation des copies, DONUT crée des raccourcis efficaces prenant en compte la distribution des données. Enfin, dans le contexte des bases de données répliquées, Gargamel permet de ne paralléliser que les transactions qui sont indépendantes, améliorant ainsi les performances et évitant tout abandon de transaction pour cause de conflit. Ces travaux ont été réalisés avec huit étudiants en thèse dont quatre ont soutenu. Pour l'avenir, je me propose d'étendre ces travaux, d'une part en concevant un système de gestion de données pour les MMOGs, une classe d'application particulièrement exigeante; et, d'autre part, en concevant des mécanismes de gestion de données permettant de n'utiliser que la quantité strictement nécessaire de ressources, en redistribuant dynamiquement les données en fonction des besoins, un pas vers une gestion plus écologique des données.

Mots clés

Large-scale distributed systems Data replication Fault Tolerance Peer-to-Peer (P2P) Consistency Models/Protocols Massively Multiplayer Online Games (MMOGs)

Systèmes distribués à grande échelle Réplication de données Tolérance aux fautes Pair-à-pair (P2P) Cohérence de données Jeux massivement multi-joueurs en ligne (MMOGs)

Domaines

Algorithme et structure de données [cs.DS]

Fichier principal

HDR-Monnet.pdf (521.88 Ko)

Sébastien Monnet : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-01241522

Soumis le : jeudi 10 décembre 2015-16:01:18

Dernière modification le : mardi 11 avril 2023-15:16:28

Archivage à long terme le : samedi 29 avril 2017-11:25:49

Dates et versions

tel-01241522 , version 1 (10-12-2015)

Identifiants

HAL Id : tel-01241522 , version 1

Citer

Sébastien Monnet. Contributions à la réplication de données dans les systèmes distribués à grande échelle. Algorithme et structure de données [cs.DS]. UPMC Université Paris VI, 2015. ⟨tel-01241522⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS INRIA LIP6 INRIA2 SORBONNE-UNIVERSITE SU-SCIENCES

644 Consultations

1578 Téléchargements

Contributions to data replication in large-scale distributed systems

Contributions à la réplication de données dans les systèmes distribués à grande échelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager