La aplicación de nuevas metodologías de secuenciación automatizada de DNA ha permitido determinar la secuencia nucleotídica de un gran número de genes, por lo que en la última década, la información contenida en las bases de secuencias nucleotídicas y de aminoácidos ha tenido un crecimiento exponencial. A la fecha, se ha determinado la secuencia nucleotídica de cerca de ochenta mil millones de pares de bases, de donde se ha deducido la secuencia de aminoácidos de más de sesenta millones de péptidos y se calcula que en cinco años, el tamaño de dichas bases sea diez veces mayor. Aunado a lo anterior, se han secuenciado en su totalidad más de ochocientos genomas en los que se incluyen organismos del reino Eubacteria, Archaeabacteria y Eucaria. Recientemente, la secuenciación del Genoma Humano constituye un punto de referencia importante en la actual era pos-genómica. En este sentido, el objetivo de nuestro grupo es el de entender el significado biológico de la información contenida en los genomas y de cómo dicha información se genera, evoluciona y expresa. A partir de esa información y del empleo de métodos de análisis cuantitativo, elaborar modelos biológicos que nos permitan generar hipótesis verificables que guíen la experimentación a nivel genómico para profundizar en nuestro conocimiento de los procesos moleculares y celulares de los organismos. A continuación se mencionan las principales líneas de investigación de nuestro grupo.
Análisis de la conservación de señales de regulación transcripcional en genes ortólogos. Como se mencionó anteriormente, la secuenciación de diversos genomas totales, constituye hoy en día, un punto de referencia importante en la actual era pos-genómica y abre la posibilidad de generar conocimiento mediante el análisis simultáneo de diferentes organismos, dentro de una nueva disciplina de las Ciencias Biológicas a la que se le ha llamado Genómica Comparativa. Dentro de esta área, el estudio de la regulación genética es un elemento fundamental para elucidar el funcionamiento de cualquier sistema biológico. En este sentido, la caracterización de los elementos de regulación en su conjunto, han permitido establecer redes de regulación de la expresión genética que representan los diferentes elementos por lo que los genes de una célula son transcritos en la cantidad y tiempo requeridos para contender con los estímulos externos o en base a un programa de desarrollo predeterminado. Con el objetivo de identificar dichos elementos de regulación en los diferentes genomas hemos iniciado una línea de estudio en donde se considera las regiones potenciales de regulación en el conjunto de más de 4,000 familias de genes ortólogos agrupadas dentro de la base de datos COG. Para cada una de estas familias de genes identificamos los motivos estadísticamente sobre-representados en la región 5' inmediatamente anterior a los mismos. Hemos considerado tres tipos de señales:
La evaluación de la curvatura estática del DNA fue realizada en base al algoritmo propuesto por Goodsell y Dickerson e implementada por nuestro grupo para realizar el análisis de varios miles de secuencias de manera eficiente. En este sentido, cabe mencionar que el papel de la curvatura del DNA en la regulación de la transcripción ha sido caracterizado puntualmente en un grupo reducido de genes, como aquellos que codifican para las proteínas H-NS, IHF y HU, o algunos genes transcritos por sigmas o sigma54, pero ninguno de dichos estudios, a nuestro entender, ha sido conducido bajo un enfoque de genómica comparativa que permita incluir el análisis de todas las regiones de DNA de los genomas totalmente secuenciados que sean potencialmente blancos de la regulación transcripcional. Nuestro estudio in silico mostró que la curvatura estática del DNA es un elemento de regulación que puede ser compartido en diferentes grupos de genes ortólogos, entre los cuales se encuentran los previamente caracterizados, H-NS, IHF y HU, así como otros grupos para los cuales no existía una clara descripción, como los son algunas familias de genes involucrados en división celular, biosíntesis de flagelo y motilidad. En paralelo al análisis in silico, nuestro grupo lleva a cabo experimentos de mutación sitio específico sobre algunas de las regiones de DNA curvo para verificar en el laboratorio algunos de nuestros modelos teóricos más importantes.
Referente a la identificación de señales que dependen de la estructura secundaria del RNA, hemos realizado programas de cómputo que nos permiten identificar atenuadores transcripcionales en los genomas bacterianos. Dicha identificación es realizada primordialmente con base a la energía libre del conjunto de estructuras secundarias del RNA que pueden ser formadas en la región líder del RNA mensajero y algunas de sus propiedades en términos de distancia y composición de la secuencia, entre otras. Nuestro análisis identificó la gran mayoría de los atenuadores reportados en las literaturas incluyendo a genes regulados por riboswitches y genes de biosíntesis de aminoácidos, así como un gran número de nuevos atenuadoras conservadas en distintas familias de genes ortólogos.
Finalmente, la identificación de las regiones de DNA con secuencia primaria conservada fueron realizadas con los programas de cómputo MEME y MAST. A pesar de que dichos programas han sido utilizados previamente en la identificación de señales de regulación, nuestro enfoque de genómica comparativa nos ha permitido identificar señales de regulación previamente caracterizadas como los riboswitches de tiamina, riboflavina y vitamina B12, así como los elementos T-box que regulan a los genes que codifican a ciertas aminoacil tRNA sintetasas de bacterias Gram positivas. Adicionalmente a las anteriores señales, hemos identificado elementos conservados en familias de genes que codifican para DNA polimerasas, proteínas ribosomales, factores de elongación, activadores transcripcionales, y ciertos tipos de transportadores. Actualmente realizamos la verificación experimental de nuestras predicciones teóricas.
Cabe mencionar que en esta línea hemos empezado un nuevo proyecto de investigación relacionado a la regulación de la expresión genética en bacterias Gram-positivas por el riboswitch T-box. El riboswitch T-box modula la expresión de muchos genes relacionados al metabolismo de aminoácidos en las bacterias Gram-positivas, especialmente miembros del Firmicutes. La T-box sensa los nivels de tRNA descargado mediante interacciones de puentes de hidrógeno. Dichas interacciones promueven la estabilización de una estructura de antiterminación, favoreciendo la transcripción del operón regulado, vías de la horquilla, de un adaptador transcriptivo intrínseco, o de un antiterminator competente de la transcripción . En este nuevo proyecto hemos realizado búsquedas computacionales exhaustivas para identificar este elemento de regulación en todos los genomas totalmente secuenciados en nuestros días. Las relaciones bioquímicas de los productos peptídicos de los genes regulados dentro de las diferentes rutas metabólicas, es analizado. Paralelamente a los estudios realizados sobre las secuencias nucleotídicas, nuestro grupo también realizó proyectos de investigación relacionados al análisis la estructura-función de proteínas. Experimentos de desnaturalización y naturalización han demostraron que existen proteínas que después de ser desnaturalizadas pueden recuperar su plegado activo y éste ser indistinguible de su forma nativa. No obstante, este fenómeno de autoplegamiento no ocurre en otras proteínas en donde la conformación final no está determinada exclusivamente por su secuencia polipeptídica, si no que existen otros factores que determinan el proceso de plegamiento. Se ha pensado que uno de estos factores pudiera ser la velocidad de síntesis protéica. Actualmente estamos analizando esta hipótesis mediante el análisis estadístico de la distribución de codones raros en distintos conjuntos de secuencias de proteínas homólogas
En el período correspondiente, se iniciaron cuatro nuevas líneas de análisis. La primera de ellas concersiente a entender los mecanismos moleculares de la regulación de los operones de biosíntesis de triptofano en bacterias Gram positivas. La segunda de ellas contempla la definición de grupos de genes ortólogos dentro de la base de datos COG (Tatusov RL, Koonin EV, Lipman DJ: A genomic perspective on protein families. Science 1997, 278:631-637). Las dos últimas líneas de investigacíon corresponden a análisis genómicos en organismos eucariotes y contemplan la identificación de splicing alternativo del mRNA y el desarrollo de nuevos algoritmos para la predicción de promotores eucariontes. En el período reportado, se inició el proyecto 'Desarrollo de una nueva alternativa metodológica para la identificación de proteínas involucradas en el proceso de infección de Helicobacter pylori y su uso potencial para desarrollo de una vacuna para la prevención de cáncer gástrico'. Mediante algoritmos computacionales que involucraron la construcción de modelos de Markov escondidos, fue posible identificar genes que potencialmente pudieran participar en la jeringa molecular utilizada por H. pylori para iniciar su proceso infeccioso. Se identificaron tres genes con características similares a virB2 y tres genes candidatos a ser homólogos de virB5. Cada uno de los seis genes antes mencionados, fueron amplificados del genoma y clonados para su posterior manipulación. Con el objeto de analizar el fenotipo en cada uno de los genes de interés, estos fueron interrumpidos con un marcador de selección para su posterior integración por recombinación homóloga en el genoma de H. pylori. Adicionalmente a lo anterior, los genes antes mencionados fueron clonados en vehìculos de expresión que permiten la purificaciòn del producto proteico mediante la adición de residuos de histidina. Esperamos que las construcciones obtenidas nos permitan la purificación de las correspondientes proteìnas para la producción de anticuerpos específicos con los que se podrá determinar mediante inmunolocalización, cuales de los genes identificados bioinformáticamente, particiá en la construcción de la jeringa molecular. Esta información será vital para el desarrollo de una vacuna para la prevención de cáncer gástrico.
Dentro de la lìnea de investigación PREDICCIONES DE REDES DE REGULACION MEDIANTE GENOMICA COMPARATIVA. Estudio de la regulación de la transcripción en organismos procariotes. Se inició el análisis de dos organismos modelo, Escherichia coli y Bacillus subtilis. Se iniciò con la construcción de la red de regulación transcripcional de Bacillus subtilis y la construcción de un modelo epigenético, el cual será comparado con los resultados obtenidos previamente para la bacteria Gram negativa Escherichia coli. En el caso de B. subtilis, continuaremos con el análisis de consistencia utilizando la información recabada para la bacteria Gram positiva B. subtilis en la base de datos de DBTDS (http://dbtbs.hgc.jp/), que comprende información sobre factores de transcripción, factores sigma y sus genes regulados. Como se pretende hacer un modelo que describa de la manera más precisa posible las relaciones entre los factores transcripcionales y sus reguladores, seguiremos colectando información relacionada con la función de cada regulador como activador, represor o dual y el mecanismo que lo hace cambiar de conformación activa a inactiva. Hemos extraído también de la base de datos RegTransBase (http://regtransbase.lbl.gov/cgi-bin/regtransbase?page=main) algunos de los metabolitos asociados a factores transcripcionales de Bacillus subtilis sobre los cuales se ha iniciado un análisis de consistencia, verificando que la molécula efectora reportada en la base de datos, en efecto reconozca directamente al factor de transcripción al cual se le a asociado. Del mismo modo, continuaremos colectando información para cada regulador con metabolitos reportados en la literatura responsable del cambio de conformación. En este mismo campo, con una variante propuesta en nuestro grupo trataremos de identificar a través de proteínas ortólogas de las cuales se conoce el metabolito efector, los dominios en reguladores de B. subtilis que sean compartidos por otros factores de transcripción previamente caracterizados experimentalmente. Con estos datos probaremos el modelo generado para E. coli en B. subtillis, tomando de las bases de datos públicas experimentos de expresión global que nos permitan evaluar, la congruencia entre los resultados de nuestro modelo y la red de regulación construida. Por otro lado, con la red de regulación construida en Bacillus subtilis, realizaremos análisis topológicos iguales a los generados previamente para E. coli en Resendis O. et al 2006 y en Gutierrez-Rios RM et al 2007, en la que el análisis topológico de la red se realiza en la subred generada como consecuencia de la expresión global de genes en una condición determinada obtenida de experimentos de microarreglos. Para aquellos casos como el del estimulón de glucosa, los resultados entre la subred de B. subtilis y E. coli serán comparados dado que las condiciones experimentales fueron iguales.
Predicción de operones bacterianos de forma sencilla y precisa. Un operón es un conjunto de genes bacterianos que se co-transcriben en una
misma molécula de RNA. Debido a la importancia biológica de los operones en coordinar la expresión de genes que se encuentran metabólica o
funcionalmente relacionados, distintos protocolos de cómputo han sido ideados para su identificación in silico. En principio,
los genes que pertenecen a un operón podrían ser definidos si los elementos de regulación que delimitan el inicio (promotor) y el final de
la transcripción (terminator) de las unidades transcripcionales pudieran ser identificados. No obstante, la capacidad actual para determinar
computacionalmente promotores y terminadores transcipcionales de manera precisa está restringida a elementos canónicos, por lo que otras
características genómicas han tenido que ser consideradas para la identificación in silico de operones, entre las que se encuentran:
A pesar de este gran conjunto de variables utilizadas en la predicción in silico de operones y a las diferentes mejoras en los métodos matemáticos empleados en dichos análisis, la capacidad predictiva de operones en E. coli, el organismo bacteriano mejor caracterizado, es del orden de 93% y decrece entre 10% y 30% en la predicción de operones de otros organismos. En nuestro grupo hemos desarrollado una metodología de sencilla aplicación que solamente considera dos parámetros, la distancia intergénica de los genes y el valor de la relación funcional entre grupos de proteínas ortólogas definidas en la base de datos STRING (Jensen et al., 2009) para determinar con una precisión la estructura de operones en genomas bacterianos. La precisión alcanzada por nuestro método es del 95% para operones de Escherichia coli y 93% para operones de Bacillius subtilis. Hasta donde sabemos, esta es la precisión más grande lograda en la predicción de operones por métodos bioinformáticos. Los resultados de esta nueva metodología de predicción de operones constituyeron un artículo que fue recientemente sometido para su publicación. Estudiando la regulación de la transcripción de una manera global. Una de las líneas de interés en las que nuestro ha trabajado recientemente versa en la construcción de modelos de regulación transcripcional en diferentes organismos modelo. Para tal fin, hemos empleado la llamada Teoría de Redes que nos permite entender a las diferentes relaciones entre los factores transcripcionales y sus genes regulados, como una compleja red de interacciones cuya estructura topológica nos permite elucidar algunas de las propiedades de la fisiología del organismo de estudio. En una primera instancia, nuestros trabajo se ha enfocado al estudio de las redes de regulación de Escherichia coli y Bacillus subtilis, organismos modelo representantes de las bacterias Gram negativas y Gram positivas, respectivamente. Nuestro estudio realizado en Bacillus subtilis, consideró una sección de la red de regulación transcripcional que responde a cambios en la fuente de carbono, tomando como base los resultados de la expresión de los genes en medio LB enriquecido con glucosa, cuantificados mediante microarreglos. Desde el punto de vista de la Teoría de Redes, el análisis de la subred construida mostró que está posee propiedades libres de escala, presentando una organización jerárquico-modular, compuesta por 9 módulos discretos funcionalmente relacionados con procesos celulares tales como la represión catabólica, esporulación, reparación del DNA, sistema SOS y competencia, entre otros. Los resultados de B. subtilis, fueron comparados con nuestro trabajo previo en Escherichia coli, en donde encontramos 8 módulos también funcionalmente relacionados. La comparación demostró que la respuesta regulatoria a glucosa está parcialmente conservada en funciones generales como transcripción, traducción y replicación, así como en genes relacionados con el metabolismo central (Vázquez-Hernández C, 2009). Siguiendo esta misma línea de trabajo, y en base a los datos reportados en la literatura, nos dimos a la tarea estudiar la red de factores trancripcionales de Bacillus subtilis y definir sus propiedades topológicas. Los resultados mostraron una red jerárquico modular con 9 módulos funcionalmente relacionados cuyos elementos pudieran estar regulados de manera redundante. Los módulos mostraron además no ser totalmente independientes ni completamente homogéneos, lo que es el reflejo de la manera en que los componentes de la célula están conectados y de cómo una función tiene influencia sobre otra (Manjarrez-Casas A. 2009). Empleando el enfoque de descomposición natural recientemente propuesto por Freyre-González (2008) se hizo un análisis de la red completa conocida para Bacillus subtilis. Nuestros resultados muestran que a pesar de su distancia filogenética, Bacillus subtilis posee la misma arquitectura jerárquico-modular no piramidal revelada para Escherichia coli, compuesta por 19 f actores de transcripción globales gobernando a 90 módulos independientes cuyas respuestas se integran a nivel promotor por 42 genes intermodulares. Al igual que en el caso de Escherichia coli, mediante una metodología matemática conocida como valor kappa, se identificó a los factores de transcripción globales, recuperando así 6 previamente descritos en la literatura, 8 de 14 factores sigma, más 5 predicciones. Además, se identificó y clasificó a los factores de transcripción de acuerdo a su jerarquía dentro de la red. Finalmente, se ha iniciado el análisis de la red de regulación transcripcional de levadura. Los resultados de análisis topológicos sugieren que esta red exhibe propiedades que aparentemente permiten catalogarla como jerárquico-modular. Sin embargo, la presencia de un bajo valor de agrupamiento en nodos participando en pocas interacciones regulatorias indica que esta red puede seguir principios de organización diferentes a aquellos gobernando a las redes de regulación de procariontes.
Lic. Kareny Denisse Garcia Botello
Maikel Gilberto Fernández López
Dra. Rosa Maria Gutierrez Rios
M.B. Maria Luisa Tabche Barrera