Méthodes du noyau pour l'analyse des données de grandes dimensions - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2019

Kernel Methods for High Dimensional Data Analysis

Méthodes du noyau pour l'analyse des données de grandes dimensions

Résumé

Since data are being collected using an increasing number of fea- tures, datasets are of increasingly high dimension. Computational problems, re- lated to the apparent dimension, i.e. the dimension of the vectors used to collect data, and theoretical problems, which depends notably on the effective dimension of the dataset, the so called intrinsic dimension, have affected high dimensional data analysis. In order to provide a suitable approach to data analysis in high dimensions, we introduce a more comprehensive scenario in the framework of metric measure spaces. The aim of this thesis, is to show how to take advantage of high dimensionality phenomena in the pure high dimensional regime. In particular, we aim at in- troducing a new point of view in the use of distances and probability measures defined on the data set. More specifically, we want to show that kernel meth- ods, already used in the intrinsic low dimensional scenario in order to reduce dimensionality, can be investigated under purely high dimensional hypotheses, and further applied to cases not covered by the literature.
Les nouvelles technologies permettant la collecte de données dépendant d’un nombre de plus en plus important de paramètres, les ensembles de données voient leur dimension devenir de plus en plus grande. Les problèmes théoriques, qui dépendent notamment de la dimension intrinsèque de l’ensemble des données, et les problèmes de calcul, liés à la dimension de l’espace où vivent les données, affectent l’analyse de données en grandes dimensions. Dans cette thèse, nous étudions le problème de l’analyse de données en grandes dimensions en nous placant dans le cadre des espaces métriques mesurés. Nous utilisons la concentration de la mesure pour produire des outils capables de décrire la structure des ensembles de données de grandes dimensions. Nous visons à introduire un nouveau point de vue sur l’utilisation des distances et des mesures de probabilité définies sur les données. Plus précisément, nous montrons que les méthodes de noyau, déjà utilisées en petites dimensions intrinsèques pour réduire la dimensionnalité, peuvent être utilisées en grandes dimensions et appliquées à des cas non traités dans la littérature.
Fichier principal
Vignette du fichier
TheseAlba2019.pdf (1.21 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02419727 , version 1 (19-12-2019)
tel-02419727 , version 2 (02-03-2020)

Identifiants

  • HAL Id : tel-02419727 , version 1

Citer

Alba Chiara de Vitis. Méthodes du noyau pour l'analyse des données de grandes dimensions. Géométrie algorithmique [cs.CG]. Université Côte d'Azur, 2019. Français. ⟨NNT : ⟩. ⟨tel-02419727v1⟩
178 Consultations
1267 Téléchargements

Partager

Gmail Facebook X LinkedIn More