Évaluation des propriétés multilingues d'un embedding contextualisé

Félix Gaschi; Alexandre Joutard; Parisa Rastin; Yannick Toussaint

Communication Dans Un Congrès Année : 2022

Évaluation des propriétés multilingues d'un embedding contextualisé

(1, 2) , (1) , (3) , (2)

1
2
3

Félix Gaschi

Fonction : Auteur

Posos

Knowledge representation, reasonning

Alexandre Joutard

Fonction : Auteur

Posos

Parisa Rastin

Fonction : Auteur

Machine Learning and Computational Biology

Yannick Toussaint

Fonction : Auteur
PersonId : 845715
IdHAL : yannick-toussaint

Knowledge representation, reasonning

Résumé

Deep learning models like BERT, a stack of attention layers with an unsupervised pretraining on large corpora, have become the norm in NLP. mBERT, a multilingual version of BERT, is capable of learning a task in one language and of generalizing it to another. This generalization ability opens the perspective of having efficient models in languages with few annotated data, but remains still largely unexplained. We propose a new method based on in-context translated words rather than translated Sentences in order to analyze the similarity between contextualized representations across languages. We show that the representations learned by mBERT are closer for deep layers, outperforming other representations that were specifically trained to be aligned.

Les modèles d'apprentissage profond comme BERT, un empilement de couches d'attention avec un pré-entraînement non supervisé sur de larges corpus, sont devenus la norme en NLP. mBERT, une version pré-entraînée sur des corpus monolingues dans 104 langues, est ensuite capable d'apprendre une tâche dans une langue et de la généraliser à une autre. Cette capacité de généralisation ouvre la perspective de modèles efficaces dans des langues avec peu de données annotées, mais reste encore largement inexpliquée. Nous proposons une nouvelle méthode fondée sur des mots traduits en contexte plutôt que des phrases pour analyser plus finement la similarité de représentations contextualisées à travers les langues. Nous montrons que les représentations de différentes langues apprises par mBERT sont plus proches pour des couches profondes, et dépassent les modèles spécifiquement entraînés pour être alignés.

Domaines

Intelligence artificielle [cs.AI] Informatique et langage [cs.CL]

Fichier principal

submission_33.pdf (286.13 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Félix Gaschi : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03578480

Soumis le : jeudi 17 février 2022-12:06:30

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : mercredi 18 mai 2022-18:44:54

Dates et versions

hal-03578480 , version 1 (17-02-2022)

Identifiants

HAL Id : hal-03578480 , version 1

Citer

Félix Gaschi, Alexandre Joutard, Parisa Rastin, Yannick Toussaint. Évaluation des propriétés multilingues d'un embedding contextualisé. EGC 2022 - Conférence francophone sur l'Extraction et la Gestion des Connaissances, Jan 2022, Blois, France. ⟨hal-03578480⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE LORIA LORIA-ALGO LORIA-NLPKD

69 Consultations

76 Téléchargements

Évaluation des propriétés multilingues d'un embedding contextualisé

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager