Co-clustering de données textuelles et continues - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Co-clustering de données textuelles et continues

Résumé

Le clustering est un outil essentiel pour l’analyse de données. C’est une manière de résumer un jeu de données en formant des groupes homogènes d’observations (les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables, conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveau tel que les techniques de clustering ne sont plus toujours adaptées pour discerner des structures. En effet, l’analyse d’un cluster repose généralement sur un représentant de ce cluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grand nombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. De cette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupement en clusters peut permettre, de façon symmétrique au regroupement classique des individus en clusters. Le co-clustering est alors une méthode candidate car elle réalise un clustering simultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, et notamment le clustering de document, le co-clustering est un thème largement étudié lors de ces dernières années. Cependant, la plupart des approches ne permettent pas de prendre en compte, en plus des données textuelles, d’autres variables. Le travail présenté propose une extension du modèle des blocs latents pour des jeux de données avec des variables textuelles et continues.
Fichier principal
Vignette du fichier
sfds.pdf (641.21 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01797493 , version 1 (22-05-2018)

Identifiants

  • HAL Id : hal-01797493 , version 1

Citer

Margot Selosse, Julien Jacques, Christophe Biernacki. Co-clustering de données textuelles et continues. SFdS 2018 - 50èmes Journées de Statistique, May 2018, Saclay, France. ⟨hal-01797493⟩
231 Consultations
502 Téléchargements

Partager

Gmail Facebook X LinkedIn More