Forêts aléatoires pour données longitudinales de grande dimension.

Louis Capitaine

Résumé

Introduced by Leo Breiman in 2001, random forests are a statistical learning method that is widely used in many fields of scientific research both for its ability to describe complex relationships between explanatory variables and a response variable as well as for its ability to handle high dimensional data. In many health applications, repeated measurements over time are available. These are referred to as longitudinal data. The correlations induced by the measurements of the same individual at different times must be taken into account, which is not the case in the classical random forests method. The aim of this thesis is to adapt this method to the analysis of longitudinal data in a high dimensional context. To do so, two approaches are proposed. The first one is based on a semi-parametric mixed-effects model which allows the intra-individual covariance structure to be taken into account in the construction of the random forest. This method was applied to an HIV vaccine trial and enabled to select 21 gene transcripts for which the association with the HIV viral load was in line with the results observed during the primary infection. The second method takes place in the more general framework of regression on metric spaces. In this context, repeated data are treated as curves. We then introduce the concept of Fréchet random forests, which allows to learn relationships between heterogeneous variables, such as curves, images or shapes, in unordered metric spaces. We describe a new way of splitting the nodes of the trees composing the Fréchet random forest and then we detail the prediction procedure for a non-Euclidean output variable. The classical notions of OOB error as well as the variable importance are adapted to the Fréchet random forest. A consistency theorem for Fréchet regressogram predictor using data-dependent partitions is stated and then applied to Fréchet purely uniformly random trees. A simulation study is then carried out to study the behaviour of this new method within the framework of regression on curves, images and scalars. Finally, Fréchet random forest is applied to the analysis of two high dimensional HIV vaccine trials.

Introduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode d’apprentissage statistique largement utilisée dans de nombreux domaines de recherche scientifiques tant pour sa capacité à décrire des relations complexes entre des variables explicatives et une variable réponse que pour sa faculté à traiter des données de grande dimension. Dans de nombreuses applications en santé, on dispose de mesures répétées au cours du temps. On parle alors de données longitudinales. Les corrélations induites entre les mesures d'un même individu à différents temps doivent être prises en compte, ce qui n'est pas le cas dans la méthode classique des forêts aléatoires. L'objectif de cette thèse est d'adapter cette méthode à l'analyse des données longitudinales dans un contexte de grande dimension. Pour ce faire, deux approches sont proposées. La première s'appuie sur l'utilisation d'un modèle semi-paramétrique à effets mixtes qui permet de prendre en compte la structure de covariance intra-individuelle dans la construction de la forêt aléatoire. Cette méthode a été appliquée à un essai vaccinal contre le VIH et a permis de sélectionner 21 transcrits de gènes pour lesquels l'association avec la charge virale du VIH était en adéquation avec les résultats observés lors de l'infection primaire. La seconde se place dans le cadre plus général de la régression sur des espaces métriques. Dans ce contexte, les données répétées sont traitées comme des courbes. Nous introduisons alors le concept de forêts aléatoires de Fréchet qui permet d’apprendre des relations entre des variables de natures diverses, comme des courbes, des images ou des formes, dans des espaces métriques non ordonnés. Nous décrivons une nouvelle manière de découper les noeuds des arbres constituant la forêt de Fréchet puis nous détaillons la procédure de prédiction pour une variable de sortie à valeurs dans un espace non euclidien. Les notions classiques d'erreur OOB ainsi que d'importance des variables sont adaptées aux forêts aléatoires de Fréchet. Un théorème de consistance pour les régressogrammes de Fréchet utilisant des partitions données-dépendantes est énoncé puis appliqué aux arbres de Fréchet purement uniformément aléatoires. Une étude de simulations est ensuite menée pour étudier le comportement de cette nouvelle méthode dans le cadre de la régression sur courbes, images et scalaires. Enfin, la méthode des forêts aléatoires de Fréchet est appliquée à l'analyse de deux essais vaccinaux de grande dimension sur le VIH.

Random forests for high-dimensional longitudinal data.

Forêts aléatoires pour données longitudinales de grande dimension.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager