Champs Conditionnels Aléatoires pour l'Annotation d'Arbres

Avec en vue la transformation de documents semi-structurés de type XML, nous nous intéressons au problème de l'annotation de tels documents par apprentissage statistique, à partir d'exemples de documents déjà annotés. Afin de modéliser la probabilité d'une annotation connaissant un document, nous nous plaçons dans le cadre des champs conditionnels aléatoires. Ce modèle a déjà fait ses preuves pour l'annotation de séquences : nous l'adaptons ici aux arbres ordonnés d'arité non bornée. Nous étudions l'expressivité du nouveau modèle ainsi introduit en le comparant aux automates d'arbres stochastiques (ou grammaires régulières probabilistes d'arbres). Nous présentons aussi en détail l'algorithme de recherche de l'annotation la plus probable et l'algorithme d'inférence pour ce modèle. Ces algorithmes sont implantés dans une librairie Tree CRF écrite en JAVA. Ces travaux sont des préliminaires qui nous permettront par la suite d'étudier les applications du modèle pour la transformation de documents.

Mots clés

Données semi-structurées Annotation Modèles conditionnels Champs conditionnels aléatoires

Domaines

Apprentissage [cs.LG] Web

Fichier principal

jousse.pdf (144.53 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Marc Tommasi : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00117014

Soumis le : mercredi 29 novembre 2006-18:24:49

Dernière modification le : vendredi 24 mars 2023-14:52:48

Archivage à long terme le : mardi 6 avril 2010-19:12:39

Dates et versions

inria-00117014 , version 1 (29-11-2006)

Identifiants

HAL Id : inria-00117014 , version 1

Citer

Florent Jousse, Rémi Gilleron, Isabelle Tellier, Marc Tommasi. Champs Conditionnels Aléatoires pour l'Annotation d'Arbres. CAp 2006, May 2006, Trégastel, France. ⟨inria-00117014⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LILLE3 CNRS INRIA LIFL MOSTRARE INRIA2

162 Consultations

181 Téléchargements