An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts

Résumé

This paper presents an empirical study on the application of the maximum entropy approach for part-of-speech tagging of Vietnamese text, a language with special characteristics which largely distinguish it from occidental languages. Our best tagger explores and includes useful knowledge sources for tagging Vietnamese text and gives a 93.40%overall accuracy and a 80.69%unknown word accuracy on a test set of the Vietnamese treebank. Our tagger significantly outperforms the tagger that is being used for building the Vietnamese treebank, and as far as we are aware, this is the best tagging result ever published for the Vietnamese language.
Nous présentons dans cet article une étude empirique de l'application de l'approche de l'entropie maximale pour l'étiquetage syntaxique de textes vietnamiens. Le vietnamien est une langue qui possède des caractéristiques spéciales qui la distinguent largement des langues occidentales. Notremeilleur étiqueteur explore et inclut des connaissances utiles qui, en terme de performance pour l'étiquetage de textes vietnamiens, fournit un taux de précision globale de 93.40% et de 80.69% pour les mots inconnus sur un ensemble de test du corpus arboré vietnamien. Notre étiqueteur est nettement supérieur à celui qui est en train d'être utilisé pour développer le corpus arboré vietnamien, et à l'heure actuelle c'est le meilleur résultat obtenu pour l'étiquetage de textes vietnamiens.
Fichier principal
Vignette du fichier
vnTagger.pdf (125.53 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00526139 , version 1 (13-10-2010)

Identifiants

  • HAL Id : inria-00526139 , version 1

Citer

Phuong Le-Hong, Azim Roussanaly, Thi Minh Huyen Nguyen, Mathias Rossignol. An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts. Traitement Automatique des Langues Naturelles - TALN 2010, ATALA (Association pour le Traitement Automatique des Langues), Jul 2010, Montréal, Canada. pp.12. ⟨inria-00526139⟩
859 Consultations
782 Téléchargements

Partager

Gmail Facebook X LinkedIn More