An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2024

An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression

Un aperçu des procédures de sélection de variables utilisant les chemins de régularisation pour le modèle de régression linéaire gaussienne de grande dimension

Résumé

Current high-throughput technologies provide a large amount of variables to describe a phenomenon. Only a few variables are generally sufficient to answer the question. Identify them in a high-dimensional Gaussian linear regression model is the one of the most-used statistical methods. In this article, we describe step-by-step the variable selection procedures built upon regularization paths. Regularization paths are obtained by combining a regularization function and an algorithm. Then, they are combined either with a model selection procedure using penalty functions or with a sampling strategy to obtain the final selected variables. We perform a comparison study by considering three simulation settings with various dependency structures on variables. In all the settings, we evaluate (i) the ability to discriminate between the active variables and the non-active variables along the regularization path (pROC-AUC), (ii) the prediction performance of the selected variable subset (MSE) and (iii) the relevance of the selected variables (recall, specificity, FDR). From the results, we provide recommendations on strategies to be favored depending on the characteristics of the problem at hand. We obtain that the regularization function Elastic-net provides most of the time better results than the $\ell_1$ one and the lars algorithm has to be privileged as the GD one. ESCV provides the best prediction performances. Bolasso and the knockoffs method are judicious choices to limit the selection of non-active variables while ensuring selection of enough active variables. Conversely, the data-driven penalties considered in this review are not to be favored. As for Tigress and LinSelect, they are conservative methods.
Les technologies actuelles à haut débit fournissent un nombre très important de variables pour décrire un phénomène. Seules quelques unes d'entre elles sont généralement suffisantes pour répondre à la question posée. L'une des méthodes statistiques les plus utilisées est de les identifier sous un modèle de régression linéaire gaussien de grande dimension. Dans cet article, nous décrivons étape par étape les procédures de sélection de variables basées sur des chemins de régularisation. Ces derniers sont obtenus en combinant une fonction de régularisation et un algorithme. Ensuite, ils sont combinés soit avec une procédure de sélection de modèle utilisant des fonctions de pénalité, soit avec une stratégie d'échantillonnage pour obtenir les variables sélectionnées finales. Nous effectuons une étude comparative en considérant trois contextes de simulation avec différentes structures de dépendance sur les variables. Pour toutes les configurations, nous évaluons (i) la capacité de discriminer entre les variables actives et les variables non actives le long du chemin de régularisation (pROC-AUC), (ii) les performances de prédiction du sous-ensemble de variables sélectionnées (MSE) et (iii) la pertinence des variables sélectionnées (rappel, spécificité, FDR). A partir des résultats, nous fournissons des recommandations sur les stratégies à privilégier en fonction de la problématique posée. Nous obtenons que la fonction de régularisation Elastic-net fournit la plupart du temps de meilleurs résultats que celle de $\ell_1$ (Lasso) et que l'algorithme lars doit être privilégié comme celui de la GD. ESCV fournit les meilleures performances de prédiction. Bolasso et la méthode des knockoffs sont des choix judicieux pour limiter la sélection de variables non actives tout en garantissant la sélection d'un nombre suffisant de variables actives. À l'inverse, les pénalités calibrées sur les données considérées dans cette revue ne sont pas à privilégier. Quant à Tigress et LinSelect, ce sont des méthodes conservatrices.
Fichier principal
Vignette du fichier
ArXiv_review.pdf (1.8 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03366851 , version 1 (14-02-2024)

Identifiants

Citer

Perrine Lacroix, Mélina Gallopin, Marie-Laure Martin. An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression. 2024. ⟨hal-03366851⟩
173 Consultations
10 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More