Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2000

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Résumé

Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR, comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
Fichier non déposé

Dates et versions

inria-00099146 , version 1 (26-09-2006)

Identifiants

  • HAL Id : inria-00099146 , version 1

Citer

Abdel Belaïd, Yannick Toussaint. Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières. Colloque International Francophone sur l'Ecrit et le Document - CIFEd'00, Jul 2000, Lyon, France, 10 p. ⟨inria-00099146⟩
65 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More