Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2010

Construction of a syntactic component based on tree adjoining grammars for Vietnamese

Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien

Phuong Le-Hong
  • Fonction : Auteur
  • PersonId : 881129

Résumé

This thesis deals with the construction of linguistic resources and tools for the automatic processing of the Vietnamese language. The central research topic of the thesis is the development of a syntactic component including a broad-coverage grammar and a deep syntactic parser for this language. We have developed a modular and customizable chain aimed to apply to raw texts a cascade of surface processing steps including automatic sentence detection, word segmentation and part-of-speech tagging. Necessarily preliminary steps before parsing, they can be also used to prepare other tasks. The Vietnamese grammar is modeled using the Lexicalized Tree Adjoining Grammar (LTAG) formalism. We have developed a system which extracts automatically a grammar LTAG from a treebank for Vietnamese. The tree templates of this grammar cover the most frequent syntactic structures of the Vietnamese language. We have implemented a deep syntactic parser for Vietnamese which is able to give both constituency and dependency analysis of a sentence. We describe theoretical foundations of the system and its modules, their quantitative evaluations. Our system has good performances on related tasks, some modules have the best result ever published for the Vietnamese language.
Cette thèse s'inscrit dans le domaine du traitement automatique des langues naturelles et plus spécifiquement dans celui du traitement du vietnamien. Le travail présenté dans la thèse porte sur la construction d'outils et de ressources linguistiques pour les tâches fondamentales de traitement automatique du vietnamien, notamment la construction d'une grammaire à large couverture et un analyseur syntaxique pour cette langue. Nous développons une chaîne modulaire de prétraitements pour le vietnamien dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Il s'agit d'un segmenteur en phrases, d'un segmenteur en unités lexicales, d'un reconnaisseur de mots redoublés et d'un étiqueteur morpho-syntaxique. Préalables nécessaires à une possible analyse, ces traitements peuvent également servir à préparer d'autres tâches. La modélisation de la grammaire vietnamienne est effectuée en utilisant le formalisme des grammaires d'arbres adjoints lexicalisées (Lexicalized Tree Adjoining Grammars ou LTAG). Nous développons un système qui extrait automatiquement une grammaire LTAG à partir d'un corpus arboré du vietnamien. Les arbres élémentaires de la grammaire forment les structures syntaxiques de la langue vietnamienne. Nous adaptons et enrichissons un analyseur syntaxique du français pour construire un analyseur syntaxique profond pour le vietnamien. Nous présentons les fondements théoriques des différents modules et systèmes, leurs évaluations quantitatives. Nos systèmes atteignent des performances prometteuses dans les tâches du traitement automatique du vietnamien à l'heure actuelle.
Fichier principal
Vignette du fichier
phd-thesis-phuonglh.pdf (1.43 Mo) Télécharger le fichier

Dates et versions

tel-00529657 , version 1 (26-10-2010)

Identifiants

  • HAL Id : tel-00529657 , version 1

Citer

Phuong Le-Hong. Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien. Interface homme-machine [cs.HC]. Université Nancy II, 2010. Français. ⟨NNT : ⟩. ⟨tel-00529657⟩
364 Consultations
1401 Téléchargements

Partager

Gmail Facebook X LinkedIn More