Skip to Main content Skip to Navigation
Conference papers

MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce

Miguel Liroz-Gistau 1 Reza Akbarinia 1 Divyakant Agrawal 2 Esther Pacitti 1 Patrick Valduriez 1, 3
1 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : La réduction du transfert des données dans la phase "Shuf?e" de MapReduce est très importante, car elle augmente la localité des données, et diminue le coût total des exécutions des jobs MapReduce. Dans la littérature, plusieurs optimisations ont été proposées pour réduire le transfert de données entre les mappers et les reducers. Néanmoins, toutes ces approches sont limitées par la façon dont les clé-valeurs intermédiaires sont réparties sur les mappers. Dans cet article, nous proposons une technique qui repartitionne les tuples dans le ?chier d'entrée, avec l'objectif d'optimiser la distribution des clés-valeurs sur les mappers. Notre approche détecte les relations entre les tuples d'entrée et les clé-valeurs intermédiaires en surveillant l'exécution d'un ensemble de tâches MapReduce qui est représentatif du workload. Puis, à partir des relations détectées, il affecte les tuples d'entrée aux mappers, et augmente la localité des données lors des futures exécutions. Nous avons implémenté notre approche dans Hadoop, et l'avons évaluée par expérimentation dans Grid5000. Les résultats montrent une grande réduction dans le transfert de données pendant la phase "Shuf?e" par rapport à Hadoop.
Complete list of metadatas

Cited literature [12 references]  Display  Hide  Download

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00879531
Contributor : Miguel Liroz-Gistau <>
Submitted on : Monday, November 18, 2013 - 10:45:27 AM
Last modification on : Monday, May 4, 2020 - 11:39:24 AM
Document(s) archivé(s) le : Wednesday, February 19, 2014 - 3:05:18 AM

File

bda_2013-paper.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : lirmm-00879531, version 1

Collections

Citation

Miguel Liroz-Gistau, Reza Akbarinia, Divyakant Agrawal, Esther Pacitti, Patrick Valduriez. MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce. BDA: Bases de Données Avancées, Oct 2013, Nantes, France. ⟨lirmm-00879531⟩

Share

Metrics

Record views

580

Files downloads

703