Utilisation de matrices de dissimilarité multiples pour la classification de documents

Francisco de A. T. de Carvalho; Thierry Despeyroux; Filipe M. de Melo; Yves Lechevallier

Communication Dans Un Congrès Année : 2010

Utilisation de matrices de dissimilarité multiples pour la classification de documents

(1, 2) , (2) , (1) , (2)

1
2

Francisco de A. T. de Carvalho

Fonction : Auteur
PersonId : 845635

Centro de Informatica UFPE [Recife]

Usage-centered design, analysis and improvement of information systems

Thierry Despeyroux

Fonction : Auteur
PersonId : 830028

Usage-centered design, analysis and improvement of information systems

Filipe M. de Melo

Fonction : Auteur
PersonId : 899358

Centro de Informatica UFPE [Recife]

Yves Lechevallier

Fonction : Auteur
PersonId : 830029

Usage-centered design, analysis and improvement of information systems

Résumé

This paper introduces a clustering algorithm that is able to partition objects taking into account simultaneously their relational descriptions given by multiple dissimilarity matrices. These matrices could have been generated using different sets of variables and a fixed dissimilarity function, using a fixed set of variables and different dissimilarity functions or using different sets of variables and dissimilarity functions. This method, which is based on the dynamic hard clustering algorithm for relational data, is designed to provided a partition and a prototype for each cluster as well as to learn a relevance weight for each dissimilarity matrix by optimizing an adequacy criterion that measures the fit between clusters and their representatives. These relevance weights change at each algorithm iteration and are different from one cluster to another. Experiments aiming at obtaining a categorization of a document data base demonstrate the usefulness of this partitional clustering method.

Cet article introduit l'algorithme de classification donné dans CarvhaloLechevallier:2007:SFC capable de partitionner des objets en prenant en compte de manière simultanée plusieurs matrices de dissimilarité qui les décrivent. Ces matrices peuvent avoir été générées en utilisant différents ensembles de variables et une fonction de dissimilarité unique, un ensemble de variables donné et différentes fonctions de dissimilarité ou bien différents ensembles de variables et de fontions de dissimilarité. Cette méthode, basée sur l'algorithme de nuées dynamiques est conçu pour fournir une partition et un prototype pour chaque classe tout en découvrant une pondération pertinante pour chaque matrice de dissimilarité en optimisant un critère d'adéquation entre les classes et leurs représentants. Ces pondérations changent à chaque itération de l'algorithme et sont différentes pour chacune des classes. Ce papier se focalise sur une expérience utilisant un ensemble de documents, dont nous connaisssons une classification donnée a priori par des experts servant de référence, et montre l'utilité de cette méthode de partitionnement.

Domaines

Recherche d'information [cs.IR]

Fichier principal

cdml.pdf (161.46 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Thierry Despeyroux : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00586210

Soumis le : vendredi 15 avril 2011-14:04:19

Dernière modification le : jeudi 15 février 2024-03:31:09

Archivage à long terme le : jeudi 8 novembre 2012-16:36:26

Dates et versions

inria-00586210 , version 1 (15-04-2011)

Identifiants

HAL Id : inria-00586210 , version 1

Citer

Francisco de A. T. de Carvalho, Thierry Despeyroux, Filipe M. de Melo, Yves Lechevallier. Utilisation de matrices de dissimilarité multiples pour la classification de documents. Conférence Maghrébine sur l'Extraction et la Gestion des Connaissances, Dec 2010, Alger, Algérie. ⟨inria-00586210⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 INRIA IRISA INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

99 Consultations

763 Téléchargements

Utilisation de matrices de dissimilarité multiples pour la classification de documents

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager