Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article Dans Une Revue Langages Année : 2012

Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage

Résumé

The information extraction task requires a good knowledge of the object to be extracted. In this work we explore the behavior of textual sequences describing the itinerary within the travel writing. Travel novel is a specific genre that is recognized to be heterogeneous, so we analyze its heterogeneity in order to discriminate homogeneous sequences, one of which being the itinerary description. Our analysis holds on different discourse levels, it allows us to get an overview of itinerary behavior through the narration. In order to automatize the extraction of itineraries, we use different tools, each one being perfectly adapted to the discourse level in question. Our theoretical framework at the semantic representation level, the SDRT (Segmented Discourse Representation Theory), complies with such kind of analysis, as we see in the course of this work. This study makes us understand the itinerary sequences behavior, leading us to enrich our extraction method to cope with heterogeneity of the discourse units dedicated to the itinerary.
L'extraction d'information nécessite une connaissance des objets à extraire. Nous cherchons dans ce travail à décrire le comportement des séquences textuelles présentant l'itinéraire au sein du récit de voyage. Le récit de voyage est reconnu comme genre hétérogène, nous analysons donc cette hétérogénéité afin de pouvoir reconnaître les séquences homogènes, dont la description d'itinéraire fait partie. Nous menons notre analyse à plusieurs niveaux discursifs, ce qui nous permet d'avoir une vision globale du comportement de notre objet d'étude, l'itinéraire, et du contexte dans lequel il apparaît. Dans la perspective de l'extraction automatique d'itinéraire, nous utilisons de nombreux outils, chacun adapté au mieux au niveau d'analyse traité. En nous appuyant sur le cadre théorique de la SRDT (Segmented Discourse Representation Theory), dont nous montrons l'adéquation à l'étude, nous approchons le fonctionnement des descriptions des itinéraires, nous poussant à enrichir la méthode d'extraction afin de gérer l'hétérogénéité des unités discursives dans lesquels l'itinéraire est énoncé.
Fichier principal
Vignette du fichier
HetLVHal.pdf (988.37 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00751871 , version 1 (14-11-2012)

Identifiants

  • HAL Id : hal-00751871 , version 1

Citer

Anaïs Lefeuvre, Natalia Vinogradova. Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage. Langages, 2012, 3 (187), pp. 127-144. ⟨hal-00751871⟩
183 Consultations
217 Téléchargements

Partager

Gmail Facebook X LinkedIn More