VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

Changhan Wang; Morgane Rivière; Ann Lee; Anne Wu; Chaitanya Talnikar; Daniel Haziza; Mary Williamson; Juan Pino; Emmanuel Dupoux

doi:10.18653/v1/2021.acl-long.80

Communication Dans Un Congrès Année : 2021

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

(1) , (1) , (1) , (1) , (1) , (1) , (1) , (2) , (3, 4, 1, 5, 6, 7)

1
2
3
4
5
6
7

Changhan Wang

Fonction : Auteur
PersonId : 1105959

Facebook AI Research [Paris]

Morgane Rivière

Fonction : Auteur
PersonId : 1108695

Facebook AI Research [Paris]

Ann Lee

Fonction : Auteur
PersonId : 1108696

Facebook AI Research [Paris]

Anne Wu

Fonction : Auteur
PersonId : 1108697

Facebook AI Research [Paris]

Chaitanya Talnikar

Fonction : Auteur
PersonId : 1108698

Facebook AI Research [Paris]

Daniel Haziza

Fonction : Auteur
PersonId : 1108699

Facebook AI Research [Paris]

Mary Williamson

Fonction : Auteur
PersonId : 1108700

Facebook AI Research [Paris]

Juan Pino

Fonction : Auteur

Chercheur indépendant

Emmanuel Dupoux

Fonction : Auteur

École des hautes études en sciences sociales

École normale supérieure - Paris

Facebook AI Research [Paris]

Département d'Etudes Cognitives - ENS Paris

Apprentissage machine et développement cognitif

Laboratoire de sciences cognitives et psycholinguistique

Résumé

We introduce VoxPopuli, a large-scale multilingual corpus providing 400K hours of unlabeled speech data in 23 languages. It is the largest open data to date for unsupervised representation learning as well as semisupervised learning. VoxPopuli also contains 1.8K hours of transcribed speeches in 15 languages and their aligned oral interpretations into 15 target languages totaling 17.3K hours. We provide speech recognition (ASR) baselines and validate the versatility of VoxPopuli unlabeled data in semisupervised ASR and speech-to-text translation under challenging out-of-domain settings. The corpus is available at https://github. com/facebookresearch/voxpopuli.

Domaines

Linguistique Sciences cognitives Informatique Machine Learning [stat.ML]

Fichier principal

2101.00390.pdf (268.23 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sabrina Zermani : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03831929

Soumis le : jeudi 27 octobre 2022-11:54:25

Dernière modification le : vendredi 19 avril 2024-16:18:55

Dates et versions

hal-03831929 , version 1 (27-10-2022)

Identifiants

HAL Id : hal-03831929 , version 1
ARXIV : 2101.00390v2
DOI : 10.18653/v1/2021.acl-long.80

Citer

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, et al.. VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation. ACL 2021 - 59th Annual Meeting of the Association for Computational Linguistics, Aug 2021, Bangkok, Thailand. ⟨10.18653/v1/2021.acl-long.80⟩. ⟨hal-03831929⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS INRIA EHESS LSCP DEC INRIA2 PSL ANR PRAIRIE-IA

72 Consultations

238 Téléchargements

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager