Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs) - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2012

Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs)

Résumé

Spherical Harmonic Transforms (SHT) are at the heart of many scientific and practical applications ranging from climate modelling to cosmological observations. In many of these areas new, cutting-edge science goals have been recently proposed requiring simulations and analyses of experimental or observational data at very high resolutions and of unprecedented volumes. Both these aspects pose formidable challenge for the currently existing implementations of the transforms. This paper describes parallel algorithms for computing the SHTs with two variants of intra-node parallelism appropriate for novel supercomputer architectures, multi-core processors and Graphic Processing Units (GPU) and discusses their performance tests, alone and embedded within a top-level, MPI-based parallelization layer ported from the S$^2$HAT library, in terms of their accuracy, overall efficiency and scalability. We show that our inverse SHTs with GeForce 400 Series GPUs equipped with latest CUDA architecture ("Fermi") outperforms the state of the art implementation for a multi-core processor executed on a current Intel Core i7-2600K. Furthermore, we show that an MPI/CUDA version of the inverse transform run on a cluster of 128 NVIDIA Tesla S1070 is as much as 3 times faster than the hybrid MPI/OpenMP version executed on the same number of quad-core processors Intel Nahalem for problem sizes motivated by our target applications. For the direct transforms, the performance is however found to be at the best comparable. Here we discuss in detail optimizations of two major steps involved in the transforms calculation, demonstrating how the overall performance efficiency can be obtained, and elucidating the sources of the dichotomy between the direct and the inverse operations
Les transformations en harmoniques sphériques (SHT) sont au cœur de nombreuses applications scientifiques et pratiques allant de la modélisation du climat aux observations cosmologiques. Ces domaines nécessitent des simulations et des analyses de données expérimentales engendrant des larges volumes de données. Ceci représente un défi important pour les implémentations actuelles des transformations en harmoniques sphériques. Ce papier décrit la mise en œuvre multi CPU-GPU d'une SHT inverse, basée sur une programmation hybride, combinant MPI et CUDA. Nous comparons les performances de la version multi GPU par rapport à une version hybride MPI / OpenMP de la même transformation. Nous constatons qu'une NVIDIA Tesla S1070 peut exécuter la SHT 3 fois plus rapidement que la version MPI / OpenMP exécutée sur un processeur quad-core (Intel Nehalem cadencé à 2,93 GHz) . De plus, en raison d'un très bon passage à l'échelle des deux versions, 128 cartes Tesla donnent d'aussi bonnes performances que 256 processeurs à 12 coeurs (AMD Op te ron 2,1 GHz).
Fichier principal
Vignette du fichier
s2hat_jpaper_inria_format.pdf (7.49 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00597576 , version 1 (01-06-2011)
inria-00597576 , version 2 (30-05-2012)

Identifiants

  • HAL Id : inria-00597576 , version 2
  • ARXIV : 1106.0159

Citer

Mikolaj Szydlarski, Pierre Esterie, Joel Falcou, Laura Grigori, R. Stompor. Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs). [Research Report] RR-7635, 2012, pp.31. ⟨inria-00597576v2⟩
775 Consultations
479 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More