Le modèle des blocs latents, une méthode régularisée pour la classification en grande dimension - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Le modèle des blocs latents, une méthode régularisée pour la classification en grande dimension

Résumé

Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. In order to counterbalance this curse of dimensionality, some proposals have been made to take into account redundancy and features utility, but related models are not suitable for too many variables. We advocate that the latent bloc model, a probabilistic model for co-clustering, is of particular interest to perform HD clustering of individuals even if it is not its primary function. We illustrate in an empirical manner the trade-off bias-variance of the co-clustering strategy in scenarii involving HD fundaments (correlated variables, irrelevant variables) and show the ability of co-clustering to outperform simple mixture row-clustering
Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines tentatives pour pren-dre en compte la redondance ou la pertinence des variables se heurtentà des problèmes de complexité explosive. Nous recommandons d'utiliser le modèle des blocs latents, un modèle probabiliste de classification croisée simultanée des individus et des variables, pour classifier des individus en grande dimension. Nous illustrons de façon empirique le com-promis biais-variance de la stratégie de classification croisée dans des scénarii en grande dimension comportant des caractéristiques de redondance et de non pertinence et nous montrons son effet régularisateur sur la classification simple.
Fichier principal
Vignette du fichier
26-Keribin-Biernacki-JDS2019.pdf (223.28 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02391379 , version 1 (03-12-2019)

Identifiants

  • HAL Id : hal-02391379 , version 1

Citer

Christine Keribin, Christophe Biernacki. Le modèle des blocs latents, une méthode régularisée pour la classification en grande dimension. JdS 2019 - 51èmes Journées de Statistique de la SFdS, Jun 2019, Nancy, France. ⟨hal-02391379⟩
43 Consultations
86 Téléchargements

Partager

Gmail Facebook X LinkedIn More