Co-clustering contraint pour le résumé de matrices document-terme

Margot Selosse; Julien Jacques; Christophe Biernacki

Communication Dans Un Congrès Année : 2020

Co-clustering contraint pour le résumé de matrices document-terme

(1) , (1) , (2)

1
2

Margot Selosse

Fonction : Auteur

Entrepôts, Représentation et Ingénierie des Connaissances

Julien Jacques

Fonction : Auteur
PersonId : 173226
IdHAL : julien-jacques
ORCID : 0000-0003-4808-2781
IdRef : 098191551

Entrepôts, Représentation et Ingénierie des Connaissances

Christophe Biernacki

Fonction : Auteur
PersonId : 923939

MOdel for Data Analysis and Learning

Résumé

Co-clustering is a data mining technique which simultaneously produces row-clusters of observations and column-clusters of features. This work presents a novel co-clustering model which easily summarizes textual data in a document-term format. In addition to highlighting homogeneous co-clusters, we also distinguish noisy co-clusters from significant co-clusters, which are particularly useful for sparse document-term matrices. Furthermore, the model proposes a structure among the significant co-clusters, thus providing improved interpretability to users. A Stochastic Expectation-Maximization algorithm is proposed to implement the model's inference as well as a model selection criterion to choose the number of co-clusters.

Le co-clustering est une méthode de fouille de données qui produit simul-tanément un clustering des observations (en ligne) et un clustering des variables (en colonne). Ce travail présente un nouveau modèle de co-clustering pour résumer des données textuelles stockées sous la forme de matrice document-terme. Nous appelons bloc le croisement d'un cluster en ligne et d'un cluster en colonne. Notre modèle met eń evidence des blocs homogènes, mais distingue aussi les blocs significatifs des blocs dits "de bruit". Cela est particulièrement utile pour les matrices document-terme qui sont sparses et de haute dimension. De plus, le modèle propose une organisation parmi les blocs significatifs et de bruit, ce qui rend plus facile pour l'utilisateur d'interpréter les résultats. Un algorithme Stochastic Gibbs Expectation-Maximization (SEM-Gibbs) est utilisé pour l'inférence du modèle.

Mots clés

Latent Block Model Textual data Interpretability

Modèle des blocs latents Donnés textuelles Interprétabilité

Domaines

Statistiques [math.ST]

Fichier principal

main.pdf (205.38 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Margot Selosse : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02490028

Soumis le : lundi 24 février 2020-18:32:32

Dernière modification le : lundi 12 février 2024-15:38:10

Dates et versions

hal-02490028 , version 1 (24-02-2020)

Identifiants

HAL Id : hal-02490028 , version 1

Citer

Margot Selosse, Julien Jacques, Christophe Biernacki. Co-clustering contraint pour le résumé de matrices document-terme. JdS 2020 - 52èmes Journées de Statistique de la Société Française de Statistique, May 2020, Nice, France. ⟨hal-02490028⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LYON1 UNIV-LYON2 INSMI ERIC INRIA2 UNIV-LILLE UDL LPP-MATH

57 Consultations

60 Téléchargements

Co-clustering contraint pour le résumé de matrices document-terme

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager