Un algorithme de classification automatique pour des données relationnelles multi-vues - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Un algorithme de classification automatique pour des données relationnelles multi-vues

Résumé

This paper introduces an improvement of a clustering algorithm \citep{decarvalho12} that is able to partition objects taking into account simultaneously their relational descriptions given by multiple dissimilarity matrices. These matrices could have been generated using different sets of variables and dissimilarity functions. This method, which is based on the dynamic hard clustering algorithm for relational data, is designed to provided a partition and a prototype for each cluster as well as to learn a relevance weight for each dissimilarity matrix by optimizing an adequacy criterion that measures the fit between clusters and their representatives. These relevance weights change at each algorithm iteration and are different from one cluster to another. Moreover, various tools for the partition and cluster interpretation furnished by this new algorithm are also presented. Two experiments demonstrate the usefulness of this clustering method and the merit of the partition and cluster interpretation tools. The first one uses a data set from UCI machine learning repository concerning handwritten numbers (digitalized pictures). The second uses a set of reports for which we have an expert classification given a priori.
Cet article introduit une amélioration d'un algorithme de classification automatique \citep{decarvalho12} capable de partitionner des objets en prenant en compte de manière simultanée plusieurs matrices de dissimilarité qui les décrivent. Ces matrices peuvent avoir été générées en utilisant différents ensembles de variables et de fonctions de dissimilarité. Cette méthode, basée sur l'algorithme de nuées dynamiques est conçu pour fournir une partition et un prototype pour chaque classe tout en découvrant une pondération pertinente pour chaque matrice de dissimilarité en optimisant un critère d'adéquation entre les classes et leurs représentants. Ces pondérations changent à chaque itération de l'algorithme et sont différentes pour chacune des classes. Nous présentons aussi plusieurs outils d'aide á l'interprétation des groupes et de la partition fournie par cette nouvelle méthode. Deux exemples illustrent l'interêt de la méthode. Le premier utilise des données concernant des chiffres manuscrits (0 à 9) numérisés en images binaires provenant de l'UCI. Le second utilise un ensemble de rapports dont nous connaissons une classification experte donnée à priori.
Fichier non déposé

Dates et versions

hal-00697118 , version 1 (14-05-2012)

Identifiants

  • HAL Id : hal-00697118 , version 1

Citer

Thierry Despeyroux, Yves Lechevallier, Francisco de A.T. de Carvahlo, Filipe M. de Melo. Un algorithme de classification automatique pour des données relationnelles multi-vues. EGC 2012 - Extraction et Gestion des Connaissances 2012, Jan 2012, Bordeaux, France. pp.125-136. ⟨hal-00697118⟩

Collections

INRIA INRIA2
128 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More