Validation croisée - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Chapitre D'ouvrage Année : 2018

Cross-validation

Validation croisée

Résumé

This text is a survey on cross-validation. We define all classical cross-validation procedures, and we study their properties for two different goals: estimating the risk of a given estimator, and selecting the best estimator among a given family. For the risk estimation problem, we compute the bias (which can also be corrected) and the variance of cross-validation methods. For estimator selection, we first provide a first-order analysis (based on expectations). Then, we explain how to take into account second-order terms (from variance computations, and by taking into account the usefulness of overpenalization). This allows, in the end, to provide some guidelines for choosing the best cross-validation method for a given learning problem.
Ce texte présente un survol des connaissances actuelles sur la validation croisée. Après avoir défini l'ensemble des méthodes de validation croisée, on étudie leurs propriétés pour deux objectifs: estimer le risque d'un estimateur fixé, d'une part, et sélectionner le meilleur estimateur possible au sein d'une famille donnée, d'autre part. Pour l'estimation du risque, on calcule leur biais (ou on le corrige) et leur variance. Pour la sélection d'estimateurs, on procède d'abord à une analyse au premier ordre (sur la base de calculs d'espérances) puis on explique comment tenir compte de termes de second ordre (sur la base de calculs de variance, et en tenant compte de l'utilité de la surpénalisation). Ceci permet, au final, de dégager quelques principes pour choisir la meilleur méthode de validation croisée pour un problème d'apprentissage donné.
Fichier principal
Vignette du fichier
hal_JES_validation-croisee.pdf (722.32 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01485508 , version 1 (08-03-2017)

Identifiants

Citer

Sylvain Arlot. Validation croisée. Myriam Maumy-Bertrand; Gilbert Saporta; Christine Thomas-Agnan. Apprentissage statistique et donn\'ees massives, Editions Technip, 2018, 9782710811824. ⟨hal-01485508⟩
1224 Consultations
5028 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More