Développement de méthodes d'analyse de données en ligne - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2013

Development of methods to analyze data streams

Développement de méthodes d'analyse de données en ligne

Résumé

High dimensional data are supposed to be independent on-line observations of a random vector. In the second chapter, the latter is denoted by Z and sliced into two random vectors R et S and data are supposed to be identically distributed. A recursive method of sequential estimation of the factors of the projected PCA of R with respect to S is defined. Next, some particular cases are investigated : canonical correlation analysis, canonical discriminant analysis and canonical correspondence analysis ; in each case, several specific methods for the estimation of the factors are proposed. In the third chapter, data are observations of the random vector Zn whose expectation θn varies with time. Let Zn_tilde = Zn − θn and suppose that the vectors Zn_tilde form an independent and identically distributed sample of a random vector Z_tilde. Stochastic approximation processes are used to estimate on-line direction vectors of the principal axes of a partial principal components analysis (PCA) of Z_tilde. This is applied next to the particular case of a partial generalized canonical correlation analysis (gCCA) after defining a stochastic approximation process of the Robbins-Monro type to estimate recursively the inverse of a covariance matrix. In the fourth chapter, the case when both expectation and covariance matrix of Zn vary with time n is considered. Finally, simulation results are given in chapter 5.
On suppose que des vecteurs de données de grande dimension arrivant en ligne sont des observations indépendantes d'un vecteur aléatoire. Dans le second chapitre, ce dernier, noté Z, est partitionné en deux vecteurs R et S et les observations sont supposées identiquement distribuées. On définit alors une méthode récursive d'estimation séquentielle des r premiers facteurs de l'ACP projetée de R par rapport à S. On étudie ensuite le cas particulier de l'analyse canonique, puis de l'analyse factorielle discriminante et enfin de l'analyse factorielle des correspondances. Dans chacun de ces cas, on définit plusieurs processus spécifiques à l'analyse envisagée. Dans le troisième chapitre, on suppose que l'espérance θn du vecteur aléatoire Zn dont sont issues les observations varie dans le temps. On note Zn_tilde = Zn − θn et on suppose que les vecteurs Zn_tilde forment un échantillon indépendant et identiquement distribué d'un vecteur aléatoire Z_tilde. On définit plusieurs processus d'approximation stochastique pour estimer des vecteurs directeurs des axes principaux d'une analyse en composantes principales (ACP) partielle de Z_tilde. On applique ensuite ce résultat au cas particulier de l'analyse canonique généralisée (ACG) partielle après avoir défini un processus d'approximation stochastique de type Robbins-Monro de l'inverse d'une matrice de covariance. Dans le quatrième chapitre, on considère le cas où à la fois l'espérance et la matrice de covariance de Zn varient dans le temps. On donne finalement des résultats de simulation dans le chapitre 5.
Fichier principal
Vignette du fichier
bar.pdf (1.29 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01750512 , version 2 (07-02-2014)
tel-01750512 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01750512 , version 2

Citer

Romain Bar. Développement de méthodes d'analyse de données en ligne. Statistiques [math.ST]. Université de Lorraine, 2013. Français. ⟨NNT : 2013LORR0216⟩. ⟨tel-01750512v2⟩
450 Consultations
1099 Téléchargements

Partager

Gmail Facebook X LinkedIn More