Classification de flux de documents évolutifs avec apprentissage de classes inconnues - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2014

Classification de flux de documents évolutifs avec apprentissage de classes inconnues

Résumé

In this paper, we propose a stream-based semi-supervised active learning method for document classification, which is able to query (from an operator) the class labels of documents that are informative, according to an uncertainty measure. The method maintains a dynamically evolving graph topology of labelled document-representatives, which constitutes a covered feature space. The method is able to automatically discover the emergence of novel classes in the stream. An incoming document is identified as a member of a novel class or an existing class, depending on whether it is outside or inside the area covered by the known classes. Experiments on different real datasets show that the proposed method requires a small amount of the incoming documents to be labelled, in order to learn a model which achieves better or equal accuracy than to the usual supervised methods with fully labelled training documents.
Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d’apprentissage non supervisé, permet de repérer les documents les plus informatifs à l’aide d’une mesure d’incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d’un graphe à topologie dynamique dont les noeuds sont des représentants de documents étiquetés, formant ce qu’on appelle l’"espace couvert par les classes connues". Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d’une nouvelle classe ou d’une classe connue, selon qu’il se trouve à l’extérieur ou à l’intérieur de l’espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu’elle atteint des performances comparables aux méthodes supervisées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés.
Fichier non déposé

Dates et versions

hal-01131453 , version 1 (13-03-2015)

Identifiants

  • HAL Id : hal-01131453 , version 1

Citer

Mohamed-Rafik Bouguelia, Yolande Belaïd, Abdel Belaïd. Classification de flux de documents évolutifs avec apprentissage de classes inconnues. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2014, De l'imprimé au multimodal - Analyse et reconnaissance du document numérique, 17 (3), pp.21. ⟨hal-01131453⟩
159 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More