Co-clustering contraint pour le résumé de matrices document-terme - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Co-clustering contraint pour le résumé de matrices document-terme

Résumé

Co-clustering is a data mining technique which simultaneously produces row-clusters of observations and column-clusters of features. This work presents a novel co-clustering model which easily summarizes textual data in a document-term format. In addition to highlighting homogeneous co-clusters, we also distinguish noisy co-clusters from significant co-clusters, which are particularly useful for sparse document-term matrices. Furthermore, the model proposes a structure among the significant co-clusters, thus providing improved interpretability to users. A Stochastic Expectation-Maximization algorithm is proposed to implement the model's inference as well as a model selection criterion to choose the number of co-clusters.
Le co-clustering est une méthode de fouille de données qui produit simul-tanément un clustering des observations (en ligne) et un clustering des variables (en colonne). Ce travail présente un nouveau modèle de co-clustering pour résumer des données textuelles stockées sous la forme de matrice document-terme. Nous appelons bloc le croisement d'un cluster en ligne et d'un cluster en colonne. Notre modèle met eń evidence des blocs homogènes, mais distingue aussi les blocs significatifs des blocs dits "de bruit". Cela est particulièrement utile pour les matrices document-terme qui sont sparses et de haute dimension. De plus, le modèle propose une organisation parmi les blocs significatifs et de bruit, ce qui rend plus facile pour l'utilisateur d'interpréter les résultats. Un algorithme Stochastic Gibbs Expectation-Maximization (SEM-Gibbs) est utilisé pour l'inférence du modèle.
Fichier principal
Vignette du fichier
main.pdf (205.38 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02490028 , version 1 (24-02-2020)

Identifiants

  • HAL Id : hal-02490028 , version 1

Citer

Margot Selosse, Julien Jacques, Christophe Biernacki. Co-clustering contraint pour le résumé de matrices document-terme. JdS 2020 - 52èmes Journées de Statistique de la Société Française de Statistique, May 2020, Nice, France. ⟨hal-02490028⟩
57 Consultations
60 Téléchargements

Partager

Gmail Facebook X LinkedIn More