A sparse variable selection procedure in model-based clustering - Université Toulouse III - Paul Sabatier - Toulouse INP Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2012

A sparse variable selection procedure in model-based clustering

Résumé

Au vu de l'augmentation du nombre de jeux de données de grande dimension, la sélection de variables pour la classification non supervisée est un enjeu important. Dans le cadre de la classification par mélanges gaussiens, nous reformulons le problème de sélection de variables en un problème général de sélection de modèle. Dans un premier temps, notre procédure consiste à construire une sous-collection de modèles grâce à une méthode de régularisation l1. Puis, l'estimateur du maximum de vraisemblance est déterminé via un algorithme EM pour chaque modèle. Enfin un critère pénalisé non asymptotique est proposé pour sélectionner à la fois le nombre de composants du mélange et l'ensemble des variables informatives pour la classification. D'un point de vue théorique, un théorème général de sélection de modèles dans le cadre de l'estimation par maximum de vraisemblance avec une collection aléatoire de modèles est établi. Il permet en particulier de justifier la forme de la pénalité de notre critère, forme qui dépend de la complexité de la collection de modèles. En pratique, ce critère est calibré grâce à la méthode dite de l'heuristique de pente. Cette procédure est illustrée sur deux jeux de données simulées. Finalement, une extension, associée à une modélisation plus générale des variables non informatives pour la classification, est proposée.
Fichier principal
Vignette du fichier
RR-INRIA-ARTICLE.pdf (866.67 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00734316 , version 1 (21-09-2012)

Identifiants

  • HAL Id : hal-00734316 , version 1

Citer

Caroline Meynet, Cathy Maugis-Rabusseau. A sparse variable selection procedure in model-based clustering. [Research Report] 2012. ⟨hal-00734316⟩
336 Consultations
395 Téléchargements

Partager

Gmail Facebook X LinkedIn More