A predictive deviance criterion for selecting a generative model in semi-supervised classification - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article Dans Une Revue Computational Statistics and Data Analysis Année : 2013

A predictive deviance criterion for selecting a generative model in semi-supervised classification

Résumé

Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. This paper is concerned with selecting a generative classification model from both unlabeled and labeled data. We propose a predictive deviance criterion AIC$_{cond}$ aiming to select a parsimonious and relevant generative classifier in the semi-supervised context. Contrary to standard information criteria as AIC and BIC, AIC$_{cond}$ is focusing to the classification task since it aims to measure the predictive power of a generative model by approximating its predictive deviance. On an other hand, it avoids the computational trouble encountered with cross validation criteria due to the repeated use of the EM algorithm. AIC$_{cond}$ is proved to have consistency properties ensuring its parsimony compared to the Bayesian Entropy Criterion (BEC) which has a similar focus than AIC$_{cond}$. In addition, numerical experiments on both simulated and real data sets highlight an encouraging behavior of AIC$_{cond}$ for variable and model selection in comparison to the other mentioned criteria.
La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points étiquetés. Cet article a trait à la sélection d'un modèle de classification génératif dans un contexte semi-supervisé. Nous proposons un crit\ère de déviance prédictive AIC$_{cond}$ pour choisir un modèle génératif parcimonieux de classification. Au contraire des critères classiques d'information comme AIC ou BIC, AIC$_{cond}$ se focalise sur le but de classification en mesurant le pouvoir prédictif d'un modèle génératif par sa déviance prédictive. Par ailleurs, il évite les problèmes de temps de calcul inhérents à la validation croisée à cause de l'emploi répété de l'algorithme EM. Nous prouvons des propriétés de convergence du critère AIC$_{cond}$ qui assurent sa supériorité vis-à-vis du critère d'entropie bayésienne BEC dont le but est analogue. De plus, des illustrations numériques sur des données réelles et simulées mettent en lumière un comportement prometteur de AIC$_{cond}$ par rapport aux critères mentionnés pour la sélection de variables et de modèles génératifs de classification à partir d'échantillons semi-supervisés.
Fichier principal
Vignette du fichier
RR-7377.pdf (369.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00516991 , version 1 (13-09-2010)

Identifiants

Citer

Vincent Vandewalle, Christophe Biernacki, Gilles Celeux, Gérard Govaert. A predictive deviance criterion for selecting a generative model in semi-supervised classification. Computational Statistics and Data Analysis, 2013, 64, pp.220-236. ⟨10.1016/j.csda.2013.02.010⟩. ⟨inria-00516991⟩
400 Consultations
445 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More