Knowledge-based Approaches for Modelling the 3D Structural Interactome - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2012

Knowledge-based Approaches for Modelling the 3D Structural Interactome

Extraction de Connaissances pour la Modelisation tri-dimensionnelle de l'Interactome Structural

Anisah Ghoorah
  • Fonction : Auteur
  • PersonId : 908967

Résumé

Understanding how the protein interactome works at a structural level could provide useful insights into the mechanisms of diseases. Comparative homology modelling and ab initio protein docking are two computational methods for modelling the three-dimensional (3D) structures of protein-protein interactions (PPIs). Previous studies have shown that both methods give significantly better predictions when they incorporate experimental PPI information. However, in general, PPI information is often not available in an easily accessible way, and cannot be re-used by 3D PPI modelling algorithms. Hence, there is currently a need to develop a reliable framework to facilitate the reuse of PPI data. This thesis presents a systematic knowledge-based approach for representing, describing and manipulating 3D interactions to study PPIs on a large scale and to facilitate knowledge-based modelling of protein-protein complexes. The main contributions of this thesis are: (1) it describes an integrated database of non-redundant 3D hetero domain interactions; (2) it presents a novel method of describing and clustering DDIs according to the spatial orientations of the binding partners, thus introducing the notion of "domain family-level binding sites" (DFBS); (3) it proposes a structural classification of DFBSs similar to the CATH classification of protein folds, and it presents a study of secondary structure propensities of DFBSs and interaction preferences; (4) it introduces a systematic case-base reasoning approach to model on a large scale the 3D structures of protein complexes from existing structural DDIs. All these contributions have been made publicly available through a web server (http://kbdock.loria.fr). The KBDOCK database contains 2,721 non-redundant hetero DDIs corresponding to 1,439 DFBSs located in 947 distinct domain families. The KBDOCK database allows large-scale studies. For example, it was used to show that: (1) nearly 70% of protein domain families have just one binding site and the remaining families have a small number of binding sites which suggests that DDIs often re-use the same binding sites; (2) over 80% of DFBSs interact with just one other type of protein domain family, and very few DFBSs interact with more than three different Pfam domain families, which indicates that most DFBSs are primarily monogamous in their structural relationships with other domains; (3) Pfam families often have secondary structure pairing preferences, which might be useful for the prediction of unknown DDIs; (4) when DFBSs are in fact re-used, focused docking improves significantly the docking predictions. Thus, KBDOCK provides a useful framework for enriching our knowledge of the structural interactome.
L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK. Le système KBDOCK couvre plus de 2,700 hetero DDIs non-redondantes correspondant à 1,439 DFBSs localisés sur 947 domaines Pfam distincts. KBDOCK a permis de réaliser plusieurs études étendues. Par exemple, KBDOCK a été utilisé pour montrer que: (1) après de 70% de familles de domaines protéiques n'ont qu'un seul DFBS et les autres familles en ont un petit nombre seulement, ce qui suggère que les DDIs re-utilisent souvent les mêmes sites de liaison; (2) plus de 80% de DFBSs interagissent avec une seule famille de domaines protéiques et les autres DFBSs interagissent avec un petit nombre de familles, ce qui indique que la plupart des DFBSs sont principalement monogames dans leur interactions avec les autres domaines protéiques; (3) les DFBSs impliqués dans des interactions présentent des régularités en terme de structure secondaire, ce qui pourrait servir comme un descripteur complémentaire dans la prédiction d'interaction; (4) lorsque les domaines re-utilisent leur DFBS, le docking orienté vient améliorer les prédictions. Ainsi, KBDOCK constitue une ressource unifiée qui permet d'enrichir les connaissances sur l'interactome structural.
Fichier principal
Vignette du fichier
anisah_ghoorah_thesis_22nov2012.pdf (10.9 Mo) Télécharger le fichier

Dates et versions

tel-01749614 , version 2 (07-12-2012)
tel-01749614 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01749614 , version 2

Citer

Anisah Ghoorah. Knowledge-based Approaches for Modelling the 3D Structural Interactome. Bioinformatics [q-bio.QM]. Université de Lorraine, 2012. English. ⟨NNT : 2012LORR0204⟩. ⟨tel-01749614v2⟩
502 Consultations
725 Téléchargements

Partager

Gmail Facebook X LinkedIn More