An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression

Perrine Lacroix; Mélina Gallopin; Marie-Laure Martin

Pré-Publication, Document De Travail Année : 2024

An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression

Un aperçu des procédures de sélection de variables utilisant les chemins de régularisation pour le modèle de régression linéaire gaussienne de grande dimension

(1, 2, 3) , (4) , (3, 5)

1
2
3
4
5

Perrine Lacroix

Fonction : Auteur

Laboratoire de Mathématiques d'Orsay

Statistique mathématique et apprentissage

Institut des Sciences des Plantes de Paris-Saclay

Mélina Gallopin

Fonction : Auteur

Institut de Biologie Intégrative de la Cellule

Marie-Laure Martin

Fonction : Auteur
PersonId : 181913
IdHAL : marie-laure-martin-magniette
ORCID : 0000-0003-4000-9600
IdRef : 130874698

Institut des Sciences des Plantes de Paris-Saclay

AgroParisTech

Résumé

Current high-throughput technologies provide a large amount of variables to describe a phenomenon. Only a few variables are generally sufficient to answer the question. Identify them in a high-dimensional Gaussian linear regression model is the one of the most-used statistical methods. In this article, we describe step-by-step the variable selection procedures built upon regularization paths. Regularization paths are obtained by combining a regularization function and an algorithm. Then, they are combined either with a model selection procedure using penalty functions or with a sampling strategy to obtain the final selected variables. We perform a comparison study by considering three simulation settings with various dependency structures on variables. In all the settings, we evaluate (i) the ability to discriminate between the active variables and the non-active variables along the regularization path (pROC-AUC), (ii) the prediction performance of the selected variable subset (MSE) and (iii) the relevance of the selected variables (recall, specificity, FDR). From the results, we provide recommendations on strategies to be favored depending on the characteristics of the problem at hand. We obtain that the regularization function Elastic-net provides most of the time better results than the $\ell_1$ one and the lars algorithm has to be privileged as the GD one. ESCV provides the best prediction performances. Bolasso and the knockoffs method are judicious choices to limit the selection of non-active variables while ensuring selection of enough active variables. Conversely, the data-driven penalties considered in this review are not to be favored. As for Tigress and LinSelect, they are conservative methods.

Les technologies actuelles à haut débit fournissent un nombre très important de variables pour décrire un phénomène. Seules quelques unes d'entre elles sont généralement suffisantes pour répondre à la question posée. L'une des méthodes statistiques les plus utilisées est de les identifier sous un modèle de régression linéaire gaussien de grande dimension. Dans cet article, nous décrivons étape par étape les procédures de sélection de variables basées sur des chemins de régularisation. Ces derniers sont obtenus en combinant une fonction de régularisation et un algorithme. Ensuite, ils sont combinés soit avec une procédure de sélection de modèle utilisant des fonctions de pénalité, soit avec une stratégie d'échantillonnage pour obtenir les variables sélectionnées finales. Nous effectuons une étude comparative en considérant trois contextes de simulation avec différentes structures de dépendance sur les variables. Pour toutes les configurations, nous évaluons (i) la capacité de discriminer entre les variables actives et les variables non actives le long du chemin de régularisation (pROC-AUC), (ii) les performances de prédiction du sous-ensemble de variables sélectionnées (MSE) et (iii) la pertinence des variables sélectionnées (rappel, spécificité, FDR). A partir des résultats, nous fournissons des recommandations sur les stratégies à privilégier en fonction de la problématique posée. Nous obtenons que la fonction de régularisation Elastic-net fournit la plupart du temps de meilleurs résultats que celle de $\ell_1$ (Lasso) et que l'algorithme lars doit être privilégié comme celui de la GD. ESCV fournit les meilleures performances de prédiction. Bolasso et la méthode des knockoffs sont des choix judicieux pour limiter la sélection de variables non actives tout en garantissant la sélection d'un nombre suffisant de variables actives. À l'inverse, les pénalités calibrées sur les données considérées dans cette revue ne sont pas à privilégier. Quant à Tigress et LinSelect, ce sont des méthodes conservatrices.

Mots clés

Variable selection Gaussian linear regression High-dimension Regularization paths Comparison study

Domaines

Applications [stat.AP] Mathématiques [math] Statistiques [stat] Méthodologie [stat.ME]

Fichier principal

ArXiv_review.pdf (1.8 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Perrine Lacroix : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03366851

Soumis le : mercredi 14 février 2024-18:52:12

Dernière modification le : mercredi 3 avril 2024-10:20:13

Dates et versions

hal-03366851 , version 1 (14-02-2024)

Identifiants

HAL Id : hal-03366851 , version 1
ARXIV : 2109.12006v2

Citer

Perrine Lacroix, Mélina Gallopin, Marie-Laure Martin. An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression. 2024. ⟨hal-03366851⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA AGROPARISTECH CNRS INRIA UNIV-EVRY LM-ORSAY INRIA2 CEA-UPSAY I2BC IPS2 UNIV-PARIS-SACLAY JOLIOT CEA-DRF INRAE UP-SCIENCES ANR GS-ENGINEERING GS-MATHEMATIQUES GS-COMPUTER-SCIENCE GS-BIOSPHERA GS-LIFE-SCIENCES-HEALTH GS-HEALTH-DRUG-SCIENCES INSTITUT-SCIENCES-LUMIERE BIOLOGIE_ET_AMELIORATION_DES_PLANTES

173 Consultations

10 Téléchargements

An overview of variable selection procedures using regularization paths in high-dimensional Gaussian linear regression

Un aperçu des procédures de sélection de variables utilisant les chemins de régularisation pour le modèle de régression linéaire gaussienne de grande dimension

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager