ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement

Cet article présente la réalisation d'ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d'approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l'absence d'équivalent pour le langage écrit, il est toutefois susceptible d'intéresser l'ensemble de la communauté TAL. Par ailleurs, le schéma d'annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource.

Mots clés

Corpus annotation coréférence anaphore parole conversationnelle

Domaines

Informatique et langage [cs.CL]

Fichier principal

TALN_2013_ANCOR_FINAL.pdf (185.81 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Jean-Yves Antoine : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01016562

Soumis le : jeudi 3 juillet 2014-08:59:49

Dernière modification le : vendredi 16 février 2024-18:16:04

Archivage à long terme le : vendredi 3 octobre 2014-10:42:10

Dates et versions

hal-01016562 , version 1 (03-07-2014)

Identifiants

HAL Id : hal-01016562 , version 1

Citer

Judith Muzerelle, Anaïs Lefeuvre, Jean-Yves Antoine, Emmanuel Schang, Denis Maurel, et al.. ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. TALN'2013, 20e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2011, Les Sable d'Olonne, France. pp.555-563. ⟨hal-01016562⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM EC-PARIS UNIV-RENNES1 UNIV-TOURS CNRS INRIA UNIV-ORLEANS INSA-RENNES IRISA MSL MSL-THESE UBS IRISA_UBS IRISA-D6 LIBDTLN LLL UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES LIFAT INSA-GROUPE INSA-CVL UR1-MATH-NUM

659 Consultations

753 Téléchargements