ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement

Résumé

Cet article présente la réalisation d'ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d'approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l'absence d'équivalent pour le langage écrit, il est toutefois susceptible d'intéresser l'ensemble de la communauté TAL. Par ailleurs, le schéma d'annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource.
Fichier principal
Vignette du fichier
TALN_2013_ANCOR_FINAL.pdf (185.81 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01016562 , version 1 (03-07-2014)

Identifiants

  • HAL Id : hal-01016562 , version 1

Citer

Judith Muzerelle, Anaïs Lefeuvre, Jean-Yves Antoine, Emmanuel Schang, Denis Maurel, et al.. ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. TALN'2013, 20e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2011, Les Sable d'Olonne, France. pp.555-563. ⟨hal-01016562⟩
659 Consultations
753 Téléchargements

Partager

Gmail Facebook X LinkedIn More