Structured Sparse Learning on Graphs in High-Dimensional Data with Applications to NeuroImaging

Eugene Belilovsky

Résumé

This dissertation presents novel structured sparse learning methods on graphs that address commonly found problems in the analysis of neuroimaging data as well as other high dimensional and few sample data. The first part of the thesis focuses on developing and utilizing convex relaxations of discrete and combinatorial penalties. These are developed with the aim of learning an interpretable predictive linear model satisfying sparse and graph based constraints. In the context of neuroimaging these models can leverage implicit structured sparsity properties to learn predictive and interpretable models that can inform analysis of neuro-imaging data. In particular we study the problem of statistical estimation with a signal known to be sparse, spatially contiguous, and containing many highly correlated variables. We take inspiration from the k-support norm, which has been successfully applied to sparse prediction problems with correlated features, but lacks any explicit structural constraints commonly found in machine learning and image processing. We address this problem by incorporating a total variation penalty in the k-support framework. We introduce the (k, s) support total variation norm as the tightest convex relaxation of the intersection of a set of discrete sparsity and total variation penalties. We show that this norm leads to an intractable combinatorial graph optimization problem, which we prove to be NP-hard. We then introduce a tractable relaxation with approximation guarantees. We demonstrate the effectiveness of this penalty on classification in the low-sample regime with M/EEG neuroimaging data and fMRI data, as well as image recovery with synthetic and real data background subtracted image recovery tasks. We show that our method is particularly useful compared to existing methods in terms of accuracy, interpretability, and stability. We consider structure discovery of undirected graphical models from observational data. We then consider the problem of learning the structure of graphical models with structured sparse constraints. Functional brain networks are well described and estimated from data with Gaussian Graphical Models (GGMs), e.g. using sparse inverse covariance estimators. In this thesis we make two contributions for estimating Gaussian Graphical Models under various constraints. Our first contribution is to identify differences in GGMs known to have similar structure. We characterize the uncertainty of differences with confidence intervals obtained using a parametric distribution on parameters of a sparse estimator. Sparse penalties enable statistical guarantees and interpretable models even in high-dimensional and low-sample settings. Characterizing the distributions of sparse models is inherently challenging as the penalties produce a biased estimator. Recent work invokes the sparsity assumptions to effectively remove the bias from a sparse estimator such as the lasso. These distributions can be used to give confidence intervals on edges in GGMs, and by extension their differences. However, in the case of comparing GGMs, these estimators do not make use of any assumed joint structure among the GGMs. Inspired by priors from brain functional connectivity we derive the distribution of parameter differences under a joint penalty when parameters are known to be sparse in the difference. This leads us to introduce the debiased multi-task fused lasso, whose distribution can be characterized in an efficient manner. We show how the debiased lasso and multi-task fused lasso can be used to obtain confidence intervals on edge differences in GGMs. We validate the techniques proposed on a set of synthetic examples as well as neuro-imaging dataset created for the study of autism. Finally, we consider a novel approach to the structure discovery of undirected graphical models from observational data. Although, popular methods rely on estimating a penalized maximum likelihood of the precision matrix, in these approaches structure recovery is an indirect consequence of the data-fit term, the penalty can be difficult to adapt for domain-specific knowledge, and the inference is computationally demanding. By contrast, it may be easier to generate training samples of data that arise from graphs with the desired structure properties. We propose to leverage this latter source of information as training data to learn a function, parametrized by a neural network that maps empirical covariance matrices to estimated graph structures. Learning this function brings two benefits: it implicitly models the desired structure or sparsity properties to form suitable priors, and it can be tailored to the specific problem of edge structure discovery, rather than maximizing data likelihood. Applying this framework, we find our learnable graph-discovery method trained on synthetic data generalizes well: identifying relevant edges in both synthetic and real data, completely unknown at training time. We find that on genetics, brain imaging, and simulation data we obtain performance generally superior to analytical methods.

Cette thèse présente de nouvelles méthodes d’apprentissage parcimonieux structuré sur des graphes qui abordent les problèmes couramment rencontrés dans l’analyse des neuroimages ainsi que ceux relatifs à des échantillons de petite taille dans des espaces de grande dimension. La première partie de la thèse se concentre sur le développement et l’utilisation de relaxations convexes bien fondées de fonctions de coût discrètes et combinatoires. Ces relaxations sont développées dans le but d’apprendre un modèle linéaire prédictif interprétable avec des contraintes basées sur des graphes. Dans le contexte de la neuro-imagerie, ces modèles peuvent exploiter des propriétés implicites de parcimonie structurée pour apprendre des modèles prédictifs et interprétables pouvant faciliter l’analyse des images. En particulier, nous étudions le problème de l’estimation statistique d’un signal supposé creux, spatialement contigu et contenant de nombreuses variables fortement corrélées. Nous nous inspirons de la norme à k-support introduite récemment, ayant été appliquée avec succès à des problèmes de prédiction parcimonieuse avec des caractéristiques fortement corrélées, mais qui ne couvre pas les contraintes structurelles explicites communément rencontrées dans l’apprentissage machine et le traitement d’image. Nous résolvons ce problème en intégrant une pénalité de variation totale dans le cadre de la norme à k-support. Nous introduisons la (k, s) norme de totale variation à k-support comme la relaxation convexe minimale de l’intersection d’un ensemble de parcimonie discrète et sous pénalités de totale variation. Nous montrons que cette norme conduit à un problème d’optimisation de graphe combinatoire intractable, que nous prouvons être d’ordre de complexité NP. Nous introduisons ensuite une relaxation tractable de ce problème avec des garanties d’approximation. Nous élaborons plusieurs stratégies d’optimisation de premier ordre pour l’estimation des paramètres statistiques avec la pénalité décrite. Nous démontrons l’efficacité de cette pénalité sur la classification dans le régime de faible données, la classification avec des données de neuroimagerie M / EEG, et la récupération d’image avec des tâches synthétiques et réelles de récupération d’image sans arrière-plan. Nous analysons exhaustivement l’application de notre pénalité à des tâches complexes d’identification de régions prédictives à partir de données cérébrales fMRI de à faible échantillons et haute dimension. Nous montrons que notre méthode est particulièrement efficace comparée aux méthodes existentes en terme de performance, d’interprétabilité, et de stabilité. montrons que notre méthode est particulièrement utile par rapport aux méthodes existantes en termes de précision, d’interprétabilité et de stabilité. Dans la seconde partie de cette thèse, nous nous intéressons à la découverte de structure de modèles graphiques non dirigés à partir de données d’observation. Nous considérons en particulier le problème de l’apprentissage de la structure de modèles graphiques sous contraintes parcimonieuses. Les réseaux fonctionnels cérébraux sont bien décrits et estimés à partir de données avec des modèles graphiques gaussiens (MGG), e.g. avec des estimateurs de covariance inverse. Comparer la connectivité fonctionnelle entre des sujets de deux populations appelle à comparer ces MGG estimés. Notre objectif est d’identifier les différences dans des MGG ayant une structure similaire. Nous caractérisons l’incertitude sur les différences avec des intervalles de confiance obtenus au moyen de distributions paramétriques sur les paramètres d’un estimateur parcimonieux. Les contraintes parcimonieuses mènent à des garanties statistiques et des modèles interprétables même dans le cas d’une dimension haute et d’un faible nombre de données. La caractérisation des distributions de modèles parcimonieux est rendue délicate par le biais introduit par les contraintes parcimonieuses. De récents travaux mettent en jeu des à-prioris parcimonieux pour débiaiser un estimateur tel que le lasso. Ces distributions peuvent être utilisées pour assigner des intervalles de confiance à des arêtes de MGG, et par extension à leurs différences. Néanmoins, dans le cas de la comparaison de MGGs, ces estimateurs ne font pas appel à un à-priori sur la structure des MGGs. Inspirés des à-prioris de connectivité fonctionnelle cérébrale, nous développons la distribution des différences entre les paramètres sous une pénalité jointe quand les paramètres sont parcimonieux en cette différence. Ceci nous mène à introduir un lasso débiaisé multitâche, dont la distribution peut être efficacement caractérisée. Nous montrons comment le lasso débiaisé et le lasso joint multi-tâche peuvent être utilisés pour obtenir des intervalles de confiance sur les différence entre arêtes dans les MGGs. Nous validons les techniques proposées sur un ensemble d’exemples synthétiques ainsi qu’un ensemble de données d’imagerie neuronale créé pour l’étude de l’autisme. Enfin, nous considérons une approche nouvelle de découverte de structure de modèles graphiques non-dirigés à partir de données observées. Inférer des structures probables à partir d’un faible nombre d’exemples est une tâche complexe qui demande souvent l’introduction d’à-priors et de procédures d’inférence sophistiquées. Des méthodes populaires reposent sur une estimation par maximization de probabilité pénalisée de la matrice de précision. Cependant, dans ces approches, la détermination de la structure est une conséquence indirecte du terme d’adaptation à la donnée, la pénalité peut être difficile à adapter dans le cas d’une connaissance experte du domaine, et l’inférence est computationnellement exigeante. Par opposition, il peut être plus facile de générer des exemples d’entraînement qui pourraient découler de graphes avec les structures désirées. Nous proposons ici d’utiliser cette source additionnelle d’information comme donnée d’apprentissage pour apprendre une fonction, paramétrisée par un réseau de neurones qui associe des structures de graphes estimées à des matrices de covariance empiriques. L’apprentissage de cette fonction présente deux avantages: la structure désirée ou les propriétés parcimonieuses formant des à-prioris adaptés sont modélisés implicitement; et la fonction peut être adaptée au problème spécifique de découverte de structure, plutôt que de maximiser la probabilité des données. Appliquant ce principe, nous constatons que notre méthode de découverte de structure appris sur des données synthétiques se généralise bien, identifiant des arêtes appropriées dans des données synthétiques et des données réelles, non accessibles à l’entraînement. Nous notons une performance obtenue par des méthodes généralement supérieure à des méthodes analytiques classiques sur les données génétiques, d’imagerie cérébrales, ainsi que sur des données d’entraînement.

Structured Sparse Learning on Graphs in High-Dimensional Data with Applications to NeuroImaging

Apprentissage de graphes structuré et parcimonieux dans des données de haute dimension avec applications à l’imagerie cérébrale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager