Descriptions définies et démonstratives : analyses de corpus pour la génération de textes - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2003

Descriptions définies et démonstratives : analyses de corpus pour la génération de textes

Résumé

The ob jective of the thesis is to generate demonstrative descriptions and definite de- scriptions that refer to new referents, by carrying out a corpus study of 10,000 definite and demonstrative NPs. The first part of the thesis is a state-of-the-art overview and the second shows the results of the present work. The first chapter reviews some theoretical and empirical results on referential NPs and shows the limitations of these analyses. The second chapter discusses the problems involved in the generation of referential expres- sions, and the third presents the concepts behind corpus linguistics and the processing of digital corpora. The first part concludes by showing the relationships between the above three domains. The fifth chapter of this thesis presents the corpus study that was carried out, from automated pre-processing to the extraction of results. The sixth ans seventh chapters discuss findings on bridging and coreferential NPs and two extensions to the Gardent-Striegnitz algorithm. The final chapter presents the semantic and syntactic con- straints on the choice of determinant in referring NPs which were identified through the corpus study.
La thèse porte sur la génération automatique de descriptions définies et démonstratives. Il s'agit d'établir les contraintes linguistiques qui régissent leur production, et d'identifier les connaissances non linguistiques qui entrent en jeu dans cette production. Les algorithmes existant traitent essentiellement la génération de descriptions définies lorsque leur référent est déjà connu et les pronoms. Notre objectif est de parvenir à la génération de descriptions définies référant à des entités nouvelles et de descriptions démonstratives. Pour y parvenir, nous avons étudié un corpus de 10 000 descriptions définies et démonstratives. Notre thèse s'articule autour de deux grandes parties. Dans la première partie, nous réalisons un état de l'art dans les trois domaines qui nous concernent et dans la seconde, nous présentons les résultats de notre étude, et les extensions des algorithmes que nous proposons. Dans le premier chapitre, nous exposons les données théoriques et empiriques connues sur la référence, les expressions référentielles en français, et en anglais. Nous concluons par une synthèse montrant les limites de ces analyses. Nous présentons dans le deuxième chapitre la problématique de la génération d'expressions référentielles, et les algorithmes existant. Nous présentons l'algorithme de Gardent et Striegnitz, et montrons en quoi il nous semble être le plus approprié pour les extensions que nous souhaitons réaliser. Le troisième chapitre présente les concepts liés la linguistique de corpus et au traitement de corpus électroniques. Nous terminons la première partie par une synthèse exposant comment se lient les problèmes posés par les trois domaines abordés. Le cinquième chapitre de notre thèse présente les travaux ralisés sur le corpus, des pré-traitements informatiques à l'extraction des résultats. Dans le sixième chapitre, nous exposons les résultats d'une étude approfondie des anaphores associatives annotées dans notre corpus, et une extension de l'algorithme de Gardent et Striegnitz. Le septième chapitre présente une étude des descriptions définies et démonstratives et une seconde extension de l'algorithme de Gardent et Striegnitz, en tenant compte de la notion d'informativité d'une expression référentielle. Le dernier chapitre présente les contraintes identifiées l'aide du corpus sur le choix du déterminant des descriptions, et nous montrons qu'elles sont à la fois syntaxiques et sémantiques.
Fichier principal
Vignette du fichier
manuelianthese.pdf (1.48 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00526602 , version 1 (15-10-2010)

Identifiants

  • HAL Id : tel-00526602 , version 1

Citer

Hélène Manuélian. Descriptions définies et démonstratives : analyses de corpus pour la génération de textes. Linguistique. Université de Nancy 2, 2003. Français. ⟨NNT : ⟩. ⟨tel-00526602⟩
255 Consultations
602 Téléchargements

Partager

Gmail Facebook X LinkedIn More