Régression non linéaire robuste en grande dimension - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Régression non linéaire robuste en grande dimension

Résumé

Non linear regression is used to model complex relations between a target and a possibly large number of features. Nevertheless, under the common gaussian setting, outliers are known to affect the stability of the results and can lead to misleading predictions. Robust approaches that are tractable in high dimension are therefore needed 1 in order to improve the accuracy of linear or non-linear regression methods under the presence of outliers. In the proposed method, non linearity is handled via a mixture of regressions. Mixture models and paradoxically also the so-called mixture of regression models are mostly used to handle clustering issues and few articles refer to mixture models for actual prediction purposes. Interestingly, it was shown in (Deleforge et al., 2015 [1]) that a prediction approach based on mixture of regressions in a Gaussian setting was relevant. However, the method developed by these authors is not designed to perform robust regression. Therefore, we build on the work in [1] by considering mixture of Student distributions that are able to handle outliers. The parameter estimation can be performed via an EM algorithm which remains numerically feasible when the number of variables exceeds the number of observations. During the talk, intensive simulations, both on illustrative and more complex examples in high dimension, will demonstrate that the proposed model performs well in this setting. Application of the method on real datasets will also be illustrated.
La régression non-linéaire permet de modéliser des relations complexes entre des variables cibles et un nombre possiblement grand de covariables. Cependant, dans le cadre classique gaussien, il a été montré que les outliers affectent la stabilité des résultats ce qui peut mener à des prédictions erronées. Il est donc nécessaire de développer des approches robustes, applicables en grande dimension, afin de réduire l'impact de ces outliers et d'améliorer la précision des méthodes de régression linéaire ou non linéaire. La non-linéarité est prise en compte dans la méthode proposée par un modèle de mélange de régressions. Les modèles de mélanges, et paradoxalement les mélanges de régression sont principalement utilisés pour répondre à un objectif de classification et peu d'articles font référence aux mélanges de régression dans une optique de régression et de prédiction. La pertinence d'une approche de prédiction fondée sur un mélange de régression dans un contexte Gaussien a pourtant été montrée dans (Deleforge et al., 2015 [1]). Cependant la méthode développée par ces auteurs n'est pas une approche de régression robuste. On propose donc d'étendre cette méthode en considérant un mélange de lois de Student généralisées, capables de prendre en compte les outliers. Un algorithme EM est proposé pour l'estimation des paramètres, numériquement implémentable en grande dimension (nombre de variables supérieur au nombre d'observations). Durant la présentation, les performances de la méthode seront étudiées sur des simulations et sur une application sur données réelles.
Fichier principal
Vignette du fichier
gabarit_text_long.pdf (176.61 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01423630 , version 1 (30-12-2016)

Identifiants

  • HAL Id : hal-01423630 , version 1

Citer

Emeline Perthame, Florence Forbes, Brice Olivier, Antoine Deleforge. Régression non linéaire robuste en grande dimension. 48èmes Journées de Statistique organisées par la Société Française de Statistique, May 2016, Montpellier, France. ⟨hal-01423630⟩
736 Consultations
238 Téléchargements

Partager

Gmail Facebook X LinkedIn More