Recherche d'associations séquentielles et alignement d'ontologies biologiques - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2009

Search of sequential associations and biological ontologies alignment

Recherche d'associations séquentielles et alignement d'ontologies biologiques

Résumé

The main topic of this thesis is functional annotation. Functional annotation consists in associating proteins with biological functions. We explored two aspects of functional annotation. On one hand, we have tested the hypothesis that the order of domains in a protein could play a role in a protein biological function. We have introduced the new notion of sequential nugget of knowledge as an association of a sequence of items with a predetermined target. We have designed and implemented SNK, an algorithm that find such nuggets of knowledge. SNK algorithm has been adapted to fit specific needs expressed by our biologist collaborators. SNK has been successfully used to study a protein family. On the other band, we were interested in biological ontologies and functional hierarchies used by experts to perform functional annotation. Many of these structured and controlled vocabularies exist and express various aspects on the annotation. The mapping of biological ontologies appeared as a need to enable the study of whole set of annotation data for genomics purpose. We have chosen to develop a dedicated method O'Browser, that use specificity of biological ontologies by (i) using a matcher based on homology relationships between proteins annotated with the ontologies, and (ii) introducing the notion of adaptive weighting of matchers. This method has been used for the alignment of two functional hierarchies.
Le thème principal de cette thèse est l'annotation fonctionnelle, qui consiste à associer à une protéine sa ou ses fonctions biologiques. Nous nous sommes intéressés à deux aspects. Dans un premier temps, nous avons testé l'hypothèse biologique selon laquelle l'ordre des domaines dans une protéine pourrait jouer un rôle dans la fonction biologique de celle-ci. Pour cela, nous avons introduit la notion de pépites séquentielles de connaissance comme une association séquentielle entre séquence d'items et une cible déterminée. Nous avons conçu et implémenté SNK, un algorithme pour rechercher ces pépites. Pour répondre à un besoin de nos collaborateurs, nous avons étendu l'algorithme SNK en lui donnant une spécification plus adaptée à la biologie, puis nous avons utilisé avec succès SNK pour l'étude d'une famille protéique. Dans un second temps, nous avons travaillé sur les ontologies biologiques et les hiérarchies fonctionnelles que les experts biologistes utilisent pour l'annotation. Il existe plusieurs de ces vocabulaires contrôlés et structurés exprimant chacun un point de vue sur l'annotation. Pour permettre de travailler avec l'ensemble de ces données d'annotation dans le cadre de travaux de génomique comparative. Il est apparu nécessaire de mettre en correspondance des ontologies biologiques. Nous avons choisi de développer une méthode de mapping, O'Browser, prenant en compte les spécificités des ontologies biologiques, en introduisant un matcher utilisant les relations d'homologie entre les protéines annotées par ces ontologies et la notion de pondération adaptative des ces matchers. Cette méthode a été utilisée pour l'alignement de deux hiérarchies fonctionnelles.
Fichier principal
Vignette du fichier
theseBastienRance.pdf (2.09 Mo) Télécharger le fichier

Dates et versions

tel-00782556 , version 1 (30-01-2013)

Identifiants

  • HAL Id : tel-00782556 , version 1

Citer

Bastien Rance. Recherche d'associations séquentielles et alignement d'ontologies biologiques. Bio-informatique [q-bio.QM]. Université Paris Sud - Paris XI, 2009. Français. ⟨NNT : ⟩. ⟨tel-00782556⟩
376 Consultations
692 Téléchargements

Partager

Gmail Facebook X LinkedIn More