Outils statistiques pour la sélection de variables et l'intégration de données 'omiques' - Université Toulouse III - Paul Sabatier - Toulouse INP Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'

Résumé

Les récentes avancées biotechnologiques permettent maintenant de mesurer une quantité massive de données biologiques de différentes sources (données génomiques, protéomiques, métabolomiques, phénotypiques), souvent caractérisées par un petit nombre d'échantillons. Ce type de données représente un challenge à la fois pour le statisticien, dont l'inférence de résultats fiables est limitée du fait du petit nombre d'échantillon et de variables généralement très bruités; mais aussi pour le biologiste, qui a besoin de nouveaux outils statistiques pour analyser ces jeux de données et répondre à la question biologique posée. La sélection de variables est donc cruciale pour les deux interlocuteurs. Tout d'abord, nous nous intéressons spécifiquement aux données de transcriptome et à la sélection de gènes prédictifs ou discriminants dans un cadre de classification supervisée. Pour cela nous proposons une approche de sélection de variables de type wrapper agrégeant les méthodes de classification tels que CART ou SVM. Ensuite, dans le cadre d'approches exploratoires, nous cherchons à sélectionner des variables de types différents pour mettre en valeur les relations entre deux tableaux de données omiques. Pour cela nous avons développé une approche sparse PLS avec pénalisation l1 qui permet de sélectionner des sous-ensembles de variables conjointement mesurées sur les mêmes échantillons biologiques. Nous évaluons les approches proposées sur de nombreux jeux de données réels. Les critères statistiques usuels que nous appliquons sont souvent limités par le petit nombre d'échantillons et ne permettent pas toujours une évaluation statistique fiable. Nous soulignons dans ce travail l'importance de l'interprétation biologique des resultats.
Fichier non déposé

Dates et versions

inria-00386803 , version 1 (22-05-2009)

Identifiants

  • HAL Id : inria-00386803 , version 1
  • PRODINRA : 249700

Citer

Kim-Anh Lê Cao, Christèle Robert-Granié, Philippe Besse. Outils statistiques pour la sélection de variables et l'intégration de données 'omiques'. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. ⟨inria-00386803⟩
198 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More