Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article Dans Une Revue Transactions of the Association for Computational Linguistics Année : 2022

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Isaac Caswell
  • Fonction : Auteur
Lisa Wang
  • Fonction : Auteur
Ahsan Wahab
  • Fonction : Auteur
Daan van Esch
  • Fonction : Auteur
Artem Sokolov
  • Fonction : Auteur
Monang Setyawan
  • Fonction : Auteur
Clara Rivera
  • Fonction : Auteur
Iroro Orife
  • Fonction : Auteur
Nanda Muhammad
  • Fonction : Auteur
Ayanda Mnyakeni
  • Fonction : Auteur
Colin Leong
  • Fonction : Auteur
Nze Lawson
  • Fonction : Auteur
Sneha Kudugunta
  • Fonction : Auteur
Sakhile Dlamini
  • Fonction : Auteur
Sakine Çabuk Balli
  • Fonction : Auteur
Stella Biderman
  • Fonction : Auteur
Ankur Bapna
  • Fonction : Auteur
Pallavi Baljekar
  • Fonction : Auteur

Résumé

With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundreds of languages. However, to date there has been no systematic analysis of the quality of these publicly available datasets, or whether the datasets actually contain content in the languages they claim to represent. In this work, we manually audit the quality of 205 language-specific corpora released with five major public datasets (CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4), and audit the correctness of language codes in a sixth (JW300). We find that lower-resource corpora have systematic issues: at least 15 corpora are completely erroneous, and a significant fraction contains less than 50% sentences of acceptable quality. Similarly, we find 82 corpora that are mislabeled or use nonstandard/ambiguous language codes. We demonstrate that these issues are easy to detect even for non-speakers of the languages in question, and supplement the human judgements with automatic analyses. Inspired by our analysis, we recommend techniques to evaluate and improve multilingual corpora and discuss the risks that come with low-quality data releases.
Fichier principal
Vignette du fichier
tacl_a_00447.pdf (348.24 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03177623 , version 1 (13-02-2022)

Licence

Paternité

Identifiants

Citer

Julia Kreutzer, Isaac Caswell, Lisa Wang, Ahsan Wahab, Daan van Esch, et al.. Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets. Transactions of the Association for Computational Linguistics, 2022, 10, pp.50-72. ⟨10.1162/tacl_a_00447⟩. ⟨hal-03177623⟩
391 Consultations
250 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More