Identification des Expressions Polylexicales dans les Tweets - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Identification des Expressions Polylexicales dans les Tweets

Résumé

Multiword expression (MWE) identification in tweets is a complex task due to the complex linguistic nature of MWEs combined with the non-standard language use on social networks. In this article, we present this related task on \nico{English} Twitter data. We compare the performance of two systems: lexicon-based and deep neural networks-based (DNN). We experimentally evaluate seven configurations of a state-of-the-art DNN system based on recurrent networks using pre-trained contextual embeddings from BERT. The DNN-based system outperforms the lexicon-based one thanks to its superior generalization power.
L'identification des expressions polylexicales (EP) dans les tweets est une tâche difficile en raison de la nature linguistique complexe des EP combinée à l'utilisation d'un langage non standard. Dans cet article, nous présentons cette tâche d'identification sur des données anglaises de Twitter. Nous comparons les performances de deux systèmes : un utilisant un dictionnaire et un autre des réseaux de neurones. Nous évaluons expérimentalement sept configurations d'un système état de l'art fondé sur des réseaux neuronaux récurrents utilisant des embeddings contextuels générés par BERT. Le système fondé sur les réseaux neuronaux surpasse l'approche dictionnaire, collecté automatiquement à partir des EP dans des corpus, grâce à son pouvoir de généralisation supérieur.
Fichier principal
Vignette du fichier
TALN2022__Expression_polylexciales_dans_les_tweets.pdf (188.13 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03676506 , version 1 (24-05-2022)

Identifiants

  • HAL Id : hal-03676506 , version 1

Citer

Nicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr. Identification des Expressions Polylexicales dans les Tweets. RECITAL 2022- Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03676506⟩
125 Consultations
70 Téléchargements

Partager

Gmail Facebook X LinkedIn More