Évaluer et améliorer une ressource distributionnelle - Université Toulouse III - Paul Sabatier - Toulouse INP Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2013

Évaluer et améliorer une ressource distributionnelle

Résumé

Using distributional analysis methods to compute semantic proximity links between words has become commonplace in NLP. This paper focuses on the issues of evaluating a distributional resource. We consider that setting up an evaluation procedure is a first step towards the characterization of the resource, and a way to improve its overall quality. We then propose a new protocol for in-text annotation of distributional neighbors, which is used to build a reliable reference data set. The data generated are analyzed and used to guide the automatic categorization of distributional links.
L'application de méthodes d'analyse distributionnelle pour calculer des liens de proximité sémantique entre les mots est devenue courante en TAL. Toutefois, il reste encore beaucoup à faire pour mieux comprendre la nature de la proximité sémantique qui est calculée par ces méthodes. Cet article est consacré à la question de l'évaluation d'une ressource distributionnelle, et de son amélioration ; en effet, nous envisageons la mise en place d'une procédure d'évaluation comme une première étape vers la caractérisation de la ressource et vers son ajustement, c'est-à-dire la réduction du bruit en faveur de paires de voisins distributionnels exhibant une relation sémantique pertinente. Nous proposons un protocole d'annotation en contexte des voisins distributionnels, qui nous permet de constituer un ensemble fiable de données de référence (couples de voisins jugés pertinents ou non par les annotateurs). Les données produites sont analysées, puis exploitées pour entraîner un système de catégorisation automatique des liens de voisinage distributionnel, qui prend en compte une large gamme d'indices et permet un filtrage efficace de la ressource considérée.
Fichier principal
Vignette du fichier
Adam-TAL54-1-2.pdf (388.85 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00978662 , version 1 (14-04-2014)

Identifiants

  • HAL Id : hal-00978662 , version 1

Citer

Clémentine Adam, Cécile Fabre, Philippe Muller. Évaluer et améliorer une ressource distributionnelle : Protocole d'annotation de liens sémantiques en contexte. Revue TAL : traitement automatique des langues, 2013, 54 (1), pp.71-97. ⟨hal-00978662⟩
306 Consultations
192 Téléchargements

Partager

Gmail Facebook X LinkedIn More