Détection par boosting de données aberrantes en régression

Nathalie Chèze; Jean-Michel Poggi

Article Dans Une Revue Revue des Nouvelles Technologies de l'Information Année : 2008

Détection par boosting de données aberrantes en régression

(1) , (2, 3)

1
2
3

Nathalie Chèze

Fonction : Auteur

Modélisation aléatoire de Paris X

Jean-Michel Poggi

Fonction : Auteur

Laboratoire de Mathématiques d'Orsay

Model selection in statistical learning

Résumé

Nous proposons une méthode basée sur le boosting, pour la détec-tion des données aberrantes en régression. Le boosting privilégie naturellement les observations difficiles à prévoir, en les surpondérant de nombreuses fois au cours des itérations. La procédure utilise la réitération du boosting pour sélec-tionner parmi elles les données effectivement aberrantes. L'idée de base consiste à sélectionner l'observation la plus fréquemment rééchantillonnée lors des itéra-tions du boosting puis de recommencer après l'avoir retirée. Le critère de sélec-tion est basé sur l'inégalité de Tchebychev appliquée au maximum du nombre moyen d'apparitions dans les échantillons bootstrap. Ainsi, la procédure ne fait pas d'hypothèses sur la loi du bruit. Des exemples tests bien connus sont consi-dérés et une étude comparative avec deux méthodes classiques illustrent le com-portement de la méthode.

Domaines

Statistiques [math.ST]

Fichier principal

1000722.pdf (308.89 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Administrateur HAL Nanterre : Connectez-vous pour contacter le contributeur

https://hal.parisnanterre.fr/hal-01633701

Soumis le : mardi 21 novembre 2017-10:05:24

Dernière modification le : mardi 2 avril 2024-15:40:02

Dates et versions

hal-01633701 , version 1 (21-11-2017)

Identifiants

HAL Id : hal-01633701 , version 1

Citer

Nathalie Chèze, Jean-Michel Poggi. Détection par boosting de données aberrantes en régression. Revue des Nouvelles Technologies de l'Information, 2008, pp.159--171. ⟨hal-01633701⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA LM-ORSAY INRIA2 UNIV-PARIS-SACLAY MODALX UNIV-PARIS-LUMIERES UNIV-PARIS-NANTERRE GS-MATHEMATIQUES

104 Consultations

545 Téléchargements

Détection par boosting de données aberrantes en régression

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager