Structural and parametric identification of bacterial regulatory networks

Diana Stefan

Résumé

High-throughput technologies yield large amounts of data about the steady-state levels and the dynamical changes of gene expression in bacteria. An important challenge for the biological interpretation of these data consists in deducing the topology of the underlying regulatory network as well as quantitative gene regulation functions from such data. A large number of inference methods have been proposed in the literature and have been successful in a variety of applications, although several problems remain. We focus here on improving two aspects of the inference methods. First, transcriptome data reflect the abundance of mRNA, whereas the components that regulate are most often the proteins coded by the mRNAs. Although the concentrations of mRNA and protein correlate reasonably during steady-state growth, this correlation becomes much more tenuous in time-series data acquired during growth transitions in bacteria because of the very different half-lives of proteins and mRNA. Second, the dynamics of gene expression is not only controlled by transcription factors and other specific regulators, but also by global physiological effects that modify the activity of all genes. For example, the concentrations of (free) RNA polymerase and the concentration of ribosomes vary strongly with growth rate. We therefore have to take into account such effects when trying to reconstruct a regulatory network from gene expression data. We propose here a combined experimental and computational approach to address these two fundamental problems in the inference of quantitative models of the activity of bacterial promoters from time-series gene expression data. We focus on the case where the dynamics of gene expression is measured in vivo and in real time by means of fluorescent reporter genes. Our network reconstruction approach accounts for the differences between mRNA and protein half-lives and takes into account global physiological effects. When the half-lives of the proteins are available, the measurement models used for deriving the activities of genes from fluorescence data are integrated to yield estimates of protein concentrations. The global physiological state of the cell is estimated from the activity of a phage promoter, whose expression is not controlled by any transcription factor and depends only on the activity of the transcriptional and translational machinery. We apply the approach to a central module in the regulatory network controlling motility and the chemotaxis system in Escherichia coli. This module comprises the FliA, FlgM and tar genes. FliA is a sigma factor that directs RNA polymerase to operons coding for components of the flagellar assembly. The effect of FliA is counteracted by the antisigma factor FlgM, itself transcribed by FliA. The third component of the network, tar, codes for the aspartate chemoreceptor protein Tar and is directly transcribed by the FliA-containing RNA polymerase holoenzyme. The FliA-FlgM module is particularly well-suited for studying the inference problems considered here, since the network has been well-studied and protein half-lives play an important role in its functioning. We stimulated the FliA-FlgM module in a variety of wild-type and mutant strains and different growth media. The measured transcriptional response of the genes was used to systematically test the information required for the reliable inference of the regulatory interactions and quantitative predictive models of gene regulation. Our results show that for the reliable reconstruction of transcriptional regulatory networks in bacteria it is necessary to include global effects into the network model and explicitly deduce protein concentrations from the observed expression profiles. Our approach should be generally applicable to a large variety of network inference problems and we discuss limitations and possible extensions of the method.

Les technologies expérimentales à haut débit produisent de grandes quantités de données sur les niveaux d'expression des gènes dans les bactéries à l'état d'équilibre ou lors des transitions de croissance.Un défi important dans l'interprétation biologique de ces données consiste à en déduire la topologie du réseau de régulation ainsi que les fonctions de régulation quantitatives des gènes.Un grand nombre de méthodes d'inférence a été proposé dans la littérature. Ces méthodes ont été utilisées avec succès dans une variété d'applications, bien que plusieurs problèmes persistent.Nous nous intéressons ici à l'amélioration de deux aspects des méthodes d'inférence.Premièrement, les données transcriptomiques reflètent l'abondance de l'ARNm, tandis que, le plus souvent, les composants régulateurs sont les protéines codées par les ARNm.Bien que les concentrations de l'ARNm et de protéines soient raisonnablement corrélées à l'état stationnaire, cette corrélation devient beaucoup moins évidente dans les données temporelles acquises lors des transitions de croissance à cause des demi-vies très différentes des protéines et des ARNm.Deuxièmement, la dynamique de l'expression génique n'est pas uniquement contrôlée par des facteurs de transcription et d'autres régulateurs spécifiques, mais aussi par des effets physiologiques globaux qui modifient l'activité de tous les gènes. Par exemple, les concentrations de l'ARN polymérase (libre) et les concentrations des ribosomes (libres) varient fortement avec le taux de croissance. Nous devons donc tenir compte de ces effets lors de la reconstruction d'un réseau de régulation à partir de données d'expression génique.Nous proposons ici une approche expérimentale et computationnelle combinée pour répondre à ces deux problèmes fondamentaux dans l'inférence de modèles quantitatifs de promoteurs bactériens à partir des données temporelles d'expression génique.Nous nous intéressons au cas où la dynamique de l'expression génique est mesurée in vivo et en temps réel par l'intermédiaire de gènes rapporteurs fluorescents. Notre approche d'inférence de réseaux de régulation tient compte des différences de demi-vie entre l'ARNm et les protéines et prend en compte les effets physiologiques globaux.Lorsque les demi-vies des protéines sont connues, les modèles expérimentaux utilisés pour dériver les activités des gènes à partir de données de fluorescence sont intégrés pour estimer les concentrations des protéines.L'état physiologique global de la cellule est estimé à partir de l'activité d'un promoteur de phage, dont l'expression n'est contrôlée par aucun des facteurs de transcription et ne dépend que de l'activité de la machinerie d'expression génique.Nous appliquons l'approche à un module central dans le réseau de régulation contrôlant la motilité et le système de chimiotactisme chez Escherichia coli.Ce module est composé des gènes FliA, FlgM et tar.FliA est un facteur sigma qui dirige l'ARN polymérase vers les opérons codant pour des composants de l'assemblage des flagelles.Le troisième composant du réseau, tar, code pour la protéine récepteur chimiotactique de l'aspartate, Tar, et est directement transcrit par FliA associé à l' holoenzyme ARN polymérase. Le module FliA-FlgM est particulièrement bien adapté pour l'étude des problèmes d'inférence considérés ici, puisque le réseau a été bien étudié et les démivies des protéines jouent un rôle important dans son fonctionnement.Nos résultats montrent que, pour la reconstruction fiable de réseaux de régulation transcriptionelle chez les bactéries, il est nécessaire d'inclure les effets globaux dans le modèle de réseau et d'en déduire de manière explicite les concentrations des protéines à partir des profils d'expression observés, car la demi-vie de l'ARNm et des protéines sont très différentes. Notre approche reste généralement applicable à une grande variété de problèmes d'inférence de réseaux et nous discutons les limites et les extensions possibles de la méthode.

Structural and parametric identification of bacterial regulatory networks

Identification structurelle et paramétrique des réseaux de régulation bactériens

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager