Validation croisée

Sylvain Arlot

Chapitre D'ouvrage Année : 2018

Cross-validation

Validation croisée

(1, 2)

1
2

Sylvain Arlot

Fonction : Auteur
PersonId : 1608
IdHAL : sylvain-arlot
IdRef : 124609589

Model selection in statistical learning

Laboratoire de Mathématiques d'Orsay

Résumé

This text is a survey on cross-validation. We define all classical cross-validation procedures, and we study their properties for two different goals: estimating the risk of a given estimator, and selecting the best estimator among a given family. For the risk estimation problem, we compute the bias (which can also be corrected) and the variance of cross-validation methods. For estimator selection, we first provide a first-order analysis (based on expectations). Then, we explain how to take into account second-order terms (from variance computations, and by taking into account the usefulness of overpenalization). This allows, in the end, to provide some guidelines for choosing the best cross-validation method for a given learning problem.

Ce texte présente un survol des connaissances actuelles sur la validation croisée. Après avoir défini l'ensemble des méthodes de validation croisée, on étudie leurs propriétés pour deux objectifs: estimer le risque d'un estimateur fixé, d'une part, et sélectionner le meilleur estimateur possible au sein d'une famille donnée, d'autre part. Pour l'estimation du risque, on calcule leur biais (ou on le corrige) et leur variance. Pour la sélection d'estimateurs, on procède d'abord à une analyse au premier ordre (sur la base de calculs d'espérances) puis on explique comment tenir compte de termes de second ordre (sur la base de calculs de variance, et en tenant compte de l'utilité de la surpénalisation). Ceci permet, au final, de dégager quelques principes pour choisir la meilleur méthode de validation croisée pour un problème d'apprentissage donné.

Mots clés

bias-corrected cross-validation V-fold cross-validation cross-validation V-fold penalization risk estimation model selection estimator selection overpenalization

surpénalisation sélection de modèles estimation du risque pénalisation V-fold validation croisée V-fold sélection d'estimateurs validation croisée leave-one-out leave-p-out validation croisée corrigée

Domaines

Statistiques [math.ST] Machine Learning [stat.ML] Théorie [stat.TH]

Fichier principal

hal_JES_validation-croisee.pdf (722.32 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sylvain Arlot : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01485508

Soumis le : mercredi 8 mars 2017-22:31:25

Dernière modification le : mardi 16 avril 2024-11:19:33

Archivage à long terme le : vendredi 9 juin 2017-14:31:26

Dates et versions

hal-01485508 , version 1 (08-03-2017)

Identifiants

HAL Id : hal-01485508 , version 1
ARXIV : 1703.03167

Citer

Sylvain Arlot. Validation croisée. Myriam Maumy-Bertrand; Gilbert Saporta; Christine Thomas-Agnan. Apprentissage statistique et donn\'ees massives, Editions Technip, 2018, 9782710811824. ⟨hal-01485508⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA LM-ORSAY INRIA2 UNIV-PARIS-SACLAY GS-MATHEMATIQUES GS-COMPUTER-SCIENCE

1224 Consultations

5028 Téléchargements

Cross-validation

Validation croisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager