Contribution à la modélisation et l'inférence de réseaux de régulation de gènes - Université Toulouse III - Paul Sabatier - Toulouse INP Accéder directement au contenu
Thèse Année : 2014

Contribution to the modeling and inference of gene regulatory networks

Contribution à la modélisation et l'inférence de réseaux de régulation de gènes

Magali Champion

Résumé

This manuscript intends to study a theoretical analysis and the use of statistical and optimization methods in the context of gene networks. Such networks are powerful tools to represent and analyse complex biological systems, and enable the modelling of functional relationships between elements of these systems. The first part is dedicated to the study of statistical learning methods to infer networks, from sparse linear regressions, in a high-dimensional setting, and particularly the L2-Boosting algorithms. From a theoretical point of view, some consistency results and support stability results were obtained, assuming conditions on the dimension of the problem. The second part deals with the use of L2-Boosting algorithms to learn Sobol indices in a sensitive analysis setting. The estimation of these indices is based on the decomposition of the model with functional ANOVA. The elements of this decomposition are estimated using a procedure of Hierarchical Orthogonalisation of Gram-Schmidt, devoted to build an approximation of the analytical basis, and then, a L2-Boosting algorithm, in order to obtain a sparse approximation of the signal. We show that the obtained estimator is consistant in a noisy setting on the approximation dictionary. The last part concerns the development of optimization methods to estimate relationships in networks. We show that the minimization of the log-likelihood can be written as an optimization problem with two components, which consists in finding the structure of the complete graph (order of variables of the nodes of the graph), and then, in making the graph sparse. We propose to use a Genetic Algorithm, adapted to the particular structure of our problem, to solve it.
Cette thèse propose des développements autour de l’étude théorique et l’utilisation de méthodes statistiques mathématiques et d’optimisation dans le contexte des réseaux géniques. De tels réseaux sont des outils puissants de représentation et d’analyse de systèmes biologiques complexes, et permettent de modéliser des relations fonctionnelles entre les éléments qui composent ces systèmes. La première partie de cette thèse est consacrée à l’étude de méthodes d’apprentissage statistique pour inférer ces réseaux par le biais de régressions parcimonieuses dans le contexte de grande dimension, et plus particulièrement les algorithmes de L2-Boosting. D’un point de vue théorique, nous montrons des résultats de consistance et de stabilité du support, sous des hypothèses concernant notamment la dimension du problème. La deuxième partie concerne l’utilisation des algorithmes de L2-Boosting pour l’apprentissage d’indices de Sobol dans le cadre d’analyse de sensibilité. Pour estimer ces indices, on s’appuie sur la décomposition du modèle sous forme de fonctionnelles d’ANOVA. Les composantes sont estimées via une procédure d’orthogonalisation hiérarchique de Gram-Schmidt, visant à construire une approximation de la base analytique, et une procédure de L2-Boosting pour reconstruire une approximation parcimonieuse du signal. Nous montrons alors que l’estimateur obtenu est consistant dans un contexte de bruit sur le dictionnaire d’approximation. La dernière partie concerne enfin le développement de méthodes d’optimisation pour estimer des interactions au sein de réseaux. Nous montrons que le problème de minimisation de la logvraisemblance peut être réécrit sous la forme d’un problème de double optimisation, consistant à trouver la forme complète du graphe (ordre des variables au sein du graphe) puis à le rendre parcimonieux. Nous proposons de le résoudre par le biais d’un algorithme génétique, spécifiquement adapté à la structure de notre problème.
Fichier principal
Vignette du fichier
theseMChampion.pdf (2.37 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01112126 , version 1 (02-02-2015)

Identifiants

  • HAL Id : tel-01112126 , version 1

Citer

Magali Champion. Contribution à la modélisation et l'inférence de réseaux de régulation de gènes. Mathématiques [math]. Université de Toulouse III, 2014. Français. ⟨NNT : ⟩. ⟨tel-01112126⟩
192 Consultations
205 Téléchargements

Partager

Gmail Facebook X LinkedIn More