INTRODUCCIÓN A LA BIOINFORMÁTICA

31/08/2012

Introducción a la Bioinformática

1

Presentación
• El fin del siglo XX ha visto una explosión de información provinente de los seres vivos, especialmente en biología molecular
– Secuenciación de genomas – Secuencia y estructura de proteínas – Estudios sobre la expresión simultánea de muchos genes bajo muchas condiciones diferentes.
31/08/2012 Introducción a la Bioinformática 2

El crecimiento explosivo de datos

Hace ... Nucleótidos Proteínas DNA continuo SNPs Genomas 26 años (1982) 26 años 16 años 16 años 11 años

Antes 680338 pb (GenBank) 1500 73 kb centenares 0 organismos Limitado pocos genes

Ahora > Miles de millones 300.000 > 270 Mbases 11 millones 1282 Organismos
(mediados 2010)

Expresión

10 años

Miles de estudios con miles de genes

31/08/2012

Introducción a la Bioinformática

3

Crecimiento de GenBank
(1982-2000)

31/08/2012

Introducción a la Bioinformática

4

Genomes Online Database

31/08/2012

Introducción a la Bioinformática

5

La información biológica

31/08/2012

Introducción a la Bioinformática

6

La información biológica
• La información biológica se encuentra
– codificada en los genes y – se expresa a partir / mediante los genes

• Esta idea se refleja en el Dogma Central de la Biologia Molecular

31/08/2012

Introducción a la Bioinformática

7

El dogma central

31/08/2012

Introducción a la Bioinformática

8

Información biológica y bioinformática
• La biología se enfrenta con el problema de la decodificación del lenguaje biológico
– Como se codifica la información en los genes? – Como (cuando, ...) se traduce esta información?
• Ej. Splicing alternativo

– Qué determina la estructura de las proteínas? – Como se determina la función de las proteínas

• La bioinformática sirve para estudiar como se procesa toda esta información biológica
31/08/2012 Introducción a la Bioinformática 9

31/08/2012

Introducción a la Bioinformática

10

La información biológica
• Los ácidos nucleicos (AN) contienen la información para generar los organismos:
DNA  RNA  PROTEINAS  Función

• Las proteínas se forman con aminoácidos (AA) unidos en secuencias lineales • Las instrucciones para definir la secuencia de AA están codificadas en los AN por grupos de tres nucleótidos, en un código genético redundante
31/08/2012 Introducción a la Bioinformática 11

El código genético

31/08/2012

Introducción a la Bioinformática

12

Codificación de información biológica
• Las secuencias biológicas se organizan en grupos con un significado, en general desconocido para nosotros • Podemos distinguir una jerarquía (niveles de organización) que podemos comparar con
– Frases (las proteínas) – Palabras (motivos o configuraciones) – Letras (Los AA o los nucleótidos)
31/08/2012 Introducción a la Bioinformática 13

Descifrado de la información biológica
• Las secuencias, establecidas experimentalmente se representan como cadenas de un alfabeto y se comparan
– Regiones comunes asocian las palabras a propiedades comunes de las moléculas – Regiones diferentes revelan palabras con un sentido asociado a propiedades que diferencian a las moléculas – Muchas regiones no contienen información
31/08/2012 Introducción a la Bioinformática 14

Pero, ¿qué es la bioinformática?

31/08/2012

Introducción a la Bioinformática

15

La Bioinformática
• Nace a la par del
– desarrollo de nuevas tecnologías y de – su aplicación para la generación de grandes cantidades de datos.

• La disciplina científica que engloba todos los aspectos de la adquisición, procesamiento, distribución, análisis, interpretación e integración de la información biológica 31/08/2012 Introducción a la Bioinformática

16

Bioinformatica e interdisciplinariedad
Química Matemática Estadistics Biología Biología Molecular

Bioinformatica
Ciencia Computadoras Informática

Medicina

Física

31/08/2012

Introducción a la Bioinformática

17

Bioinformática, Biología y Biología Computacional

31/08/2012

Introducción a la Bioinformática

18

Biología Computacional o Bioinformática
• Biología Computacional aplica las técnicas de la ciencia de las computadoras, matemática aplicada y estadística para entender problemas biológicos.
Bioinformatica es la aplicación de la tecnología de la información al campo de la biología molecular.
31/08/2012 Introducción a la Bioinformática 19

Genómica y Bioinformática

El futuro de la genómica reside en la fundación del Proyecto del Genoma Humano

31/08/2012

Introducción a la Bioinformática

20

Los ámbitos de la Bioinformática
• Organización de la información
– Bases y bancos de datos – Algoritmos y herramientas de explotación

• Análisis e interpretación de resultados experimentales
– – – – Secuenciación y análisis de genomas Genómica Comparatíva Transcriptómica y expresión génica Proteómica, redes de interacción PPI
Introducción a la Bioinformática 21

• Modelos de Sistemas Biológicos
31/08/2012

Organización de la información

31/08/2012

Introducción a la Bioinformática

22

Análisis e interpretación

AGAGTTCTGCTCG AG G G TTAT G C G C G

31/08/2012

Introducción a la Bioinformática

23

Modelización de sistemas biológicos

31/08/2012

Introducción a la Bioinformática

24

Bioinformática Integrativa

31/08/2012

Introducción a la Bioinformática

25

25

En resumen …

Datos

Recursos y herramientas bioinformáticos

Conocimiento

• Como quiera que se defina, desde donde quiera que se mire, el papel de la Bioinformática ha sido, es y será crucial para el avance de la Biología y la Medicina del siglo XXI
31/08/2012 Introducción a la Bioinformática 26

Que es un@ bioinformatic@
2 – Entorno, formación, actividades de l@s bioinformatic@s

31/08/2012

Introducción a la Bioinformática

27

Que sabe un@ bioinformatic@?
• Debe tener “sólidos conocimientos” en
– Alguna disciplina biológica
• Bioquímica, Genética,…

– Entornos de desarrollo informáticos
• SO [Linux], Lenguajes[Perl, Java, R], Bases de datos [SQL], Desarrollo web [PHP, ASP, Ajax…]

– Alguna disciplina cuantitativa
• [Matemáticas, Estadística, Física]

Al menos dos de las tres anteriores!!
31/08/2012 Introducción a la Bioinformática 28

Que hace un@ bioinformatic@?
• Gestión de la información
– Implementación y explotación de bases de dados locales o en internet. – Instalación, mantenimiento de servidores web.

• Desarrollo de aplicaciones
– Elaboración de programas locales o web,

• Explotación y análisis de datos
– Microarrays, datos de alto rendimiento
31/08/2012 Introducción a la Bioinformática 29

Donde se hace Bioinformática
• Centros Especializados
– EBI, NCBI, EMBL. – INB / Plataforma Bioinformática de la UAB.

• Servicios Bioinformáticos de centros de investigación,
– UEB, UBB, BU

• Universidades, • Laboratorios Farmacéuticos, 31/08/2012 Introducción a la Bioinformática • …

30

Como se hace Bioinformatica
• Usualmente, aunque no necesariamente la BIF tiene vocación “universal”, de acceder al máximo de usuarios:
– Suele buscarse soluciones WEB – Suele basarse en proyectos [más o menos] open source de distribución libre.

• Esto no es del todo general
– Por ejemplo Ingenuity Pathway Analysis no es gratis pero esIntroducción a la Bioinformática bueno. 31/08/2012 31

• Existen multitud de recursos gratuitos
– 2can en el EBI – Tutoriales del NCBI – Cursos “locales”

Para saber más:

• Introducción a la Bioinformatica (A. Sanchez UEB/UB) • Invitacio a la Bioinformatica (Plataforma BIF UAB)

• Una gran variedad de libros sobre el tema
– List of books on bioinformatics

• Revistas y sociedades científicas
– Bioinformatics, Briefings in Bioinformatics – International Society for Computational Biology
31/08/2012 Introducción a la Bioinformática 32

Los centros de bioinformática y los bancos de datos

31/08/2012

Introducción a la Bioinformática

33

Las bases de datos biológicas
• Buena parte del trabajo en bioinformática consiste en la construcción y/o explotación de bases de datos de información biológica • Se usan, por ejemplo para:
– Añadir o buscar información (“anotaciones”) – Buscar similitudes o patrones – Hacer predicciones • De estructura o función en proteínas • De genes en genomas
31/08/2012 Introducción a la Bioinformática 34

El acceso a los recursos
• La WWW ha revolucionado la provisión de servicios en bioinformática • Muchas cosas pueden hacerse a través de internet sin que sean necesarias copias locales de las bases de datos o el software para explotarlas • A pesar de esta globalización existen organizaciones que centralizan los recursos
31/08/2012 Introducción a la Bioinformática 35

Centros y recursos importantes
• Centros importantes a nivel mundial
– EMBL / EBI (www.embl.org / www.ebi.ac.uk ) – NCBI ( www.ncbi.nlm.nih.gov ) – DDBJ ( www.ddbj.nig.ac.jp )

• Bases de datos biológicas
– – – – EMBL DNA sequence database SWISSPROT i TREMBL PIR, PDB Catálogo de bases de datos biológicas www.infobiogen.fr/services/dbcat
Introducción a la Bioinformática 36

31/08/2012

Un poco de práctica

31/08/2012

Introducción a la Bioinformática

37

Ejemplos de uso de la Bioinformática
1. Clasificación de un hongo, comparando una secuencia suya con las de una base de datos para determinar si las hay similares 2. Visualización de estructuras moleculares en tres dimensiones 3. Introducción al análisis de secuencias

31/08/2012

Introducción a la Bioinformática

38

• Unos investigadores han detectado una infección fúngica en un cultivo agrario. • En caso de duda en la identificación directa (crecimiento lento del hongo, características morfológicas similares entre varias especies, etc.) se puede plantear la alternativa siguiente:
– Secuenciar un fragmento del ADN del hongo – Buscar en bases de datos moleculares intentando encontrar la misma secuencia o una lo más similar posible (“DB homology search”)
31/08/2012 Introducción a la Bioinformática 39

Ejemplo 1: Identificación de un hongo

Ej. 1.1 Secuencia característica
• Obtenemos la secuencia siguiente • gtttacgctctacaaccctttgtgaacatacc tacaactgttgcttcggcgggtagggtctccg cgaccctcccggcctcccgcctccgggcgggt cggcgcccgccggaggataaccaaactctgat ttaacgacgtttcttctgagtggtacaagcaa ataatcaaaacttttaacaaccggatctcttg gttctggcatcgatgaagaacgcagcgaaatg cgataagtaatgtgaat
31/08/2012 Introducción a la Bioinformática 40

Ej. 1.2 Búsqueda de la secuencia en una base de datos
1. Vía internet accedemos al EBI: European Bioinformatics Institute 2. Aquí escogemos la opción “Tools” y
1. Seleccionamos Fasta3  2. Seleccionamos en DATABASES :
Nucleic ACIDS , FUNGI

3. Enganchamos la secuencia y hacemos la consulta

3. Obtendremos un listado de especies ordenado de mayor a menor similitud
31/08/2012 Introducción a la Bioinformática 41

i) Vamos a la Web del EBI

31/08/2012

Introducción a la Bioinformática

42

ii) Escogemos la opción Tools

31/08/2012

Introducción a la Bioinformática

43

iii) En Tools seleccionamos FASTA3

31/08/2012

Introducción a la Bioinformática

44

iv) la opción DATABASES NUCLEIC ACIDS, FUNGI

31/08/2012

Introducción a la Bioinformática

45

v) Enganchamos la secuencia en el cuadro inferior y ejecutar (Run FASTA 3)

31/08/2012

Introducción a la Bioinformática

46

v) Resultados de la búsqueda
• • • • • • • • • • • • • • • • • • • • • • • • • • FASTA searches a protein or DNA sequence data bank version 3.3t09 May 18, 2001 Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448 @:1-: 241 nt vs EMBL Fungi library searching /ebi/services/idata/v225/fastadb/em_fun library 104701680 residues in 66478 sequences statistics extrapolated from 60000 to 61164 sequences Expectation_n fit: rho(ln(x))= -1.2290+/-0.000361; mu= 72.1313+/- 0.026 mean_var=907.6270+/-295.007, 0's: 68 Z-trim: 4246 B-trim: 15652 in 3/79 Lambda= 0.0426 FASTA (3.39 May 2001) function [optimized, +5/-4 matrix (5:-4)] ktup: 6 join: 48, opt: 33, gap-pen: -16/ -4, width: 16 Scan time: 3.180 The best scores are: opt bits E(61164) EM_FUN:CGL301988 AJ301988.1 Colletotrichum glo (1484) [f] 1184 88 5.7e-17 EM_FUN:AF090855 AF090855.1 Colletotrichum gloe ( 500) [f] 1205 88 7.3e-17 EM_FUN:CGL301986 AJ301986.1 Colletotrichum glo (1484) [f] 1166 87 1.2e-16 EM_FUN:CGL301908 AJ301908.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16 EM_FUN:CGL301909 AJ301909.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16 EM_FUN:CGL301907 AJ301907.1 Colletotrichum glo (2867) [f] 1148 87 1.3e-16 EM_FUN:CGL301919 AJ301919.1 Colletotrichum glo (1171) [f] 1166 87 1.6e-16 EM_FUN:CGL301977 AJ301977.1 Colletotrichum glo (1876) [f] 1148 86 2e-16 EM_FUN:CFR301912 AJ301912.1 Colletotrichum fra (2870) [f] 1137 86 2.1e-16

31/08/2012

Introducción a la Bioinformática

47

• RASMOL es un programa para visualizar estructuras moleculares en tres dimensiones

Ejemplo 2: Visualización de estructuras moleculares

• Haciendo click aquí podéis acceder a una guía rápida del programa desde donde podréis descargarlo, instalarlo y ejecutarlo con facilidad

31/08/2012

Introducción a la Bioinformática

48

Ejemplo 3: Introducción práctica al análisis de secuencias
• Haciendo click aquí se accede al Bioinformatics Web Practical del servicio de Bioinformática de la Universidad de Manchester (UMBER) • El objetivo de este tutorial es
– Dar un vistazo a algunos recursos bioinformáticos existentes en Internet – Adquirir una primera idea sobre que es el análisis de secuencias

• A continuación podéis ver algunas de las pantallas que aparecerán
31/08/2012 Introducción a la Bioinformática 49

Enganchamos una secuencia al traductor

31/08/2012

Introducción a la Bioinformática

50

Traducción de la secuencia y búsqueda en OWL

31/08/2012

Introducción a la Bioinformática

51

La secuencia ha sido identificada

31/08/2012

Introducción a la Bioinformática

52

Bioinformática
Como se aplica al genoma Bacillus megaterium

Vamos a hablar de
• ¿Por qué estamos haciendo la secuenciación del ADN • ¿Qué genes se parecen y donde se encuentran? • ¿Cómo podemos comparar las secuencias entre las diferentes especies? • Cómo los genes se mueven entre las especies?

Secuenciado del ADN
• • • • Bioinformática : se basa en el hecho de que la secuenciación del ADN es barato, y cada vez más fácil y más barato . el Proyecto Genoma Humano costó alrededor de $ 3 mil millones y tuvo 12 años (1991-2003). La secuenciación del genoma de James Watson en 2007 costó $ 2 millones y tomó 2 meses Hoy en día, usted puede obtener su genoma secuenciado por alrededor de $ 100.000 y tomaría un mes. El Archon X Prize: usted gana $ 10 millones si puede secuenciar 100 genomas humanos en 10 días, a un costo de 10.000 dólares por genoma. Es realista imaginar 100 dólares por genoma dentro de los 10 años: el genoma de todo el mundo podría ser secuenciado si se quiere o necesite.

¿Por qué es útil?
• • Toda la información necesaria para construir un organismo está contenida en su ADN. Si pudiéramos entenderlo, sabríamos cómo funciona la vida. Prevenir y curar enfermedades como el cáncer (que es causada por mutaciones en el ADN) y las enfermedades hereditarias. Curar enfermedades infecciosas , desde el SIDA, la malaria, hasta el resfriado común). Si entendemos cómo funciona un microorganismo, podemos encontrar la manera de bloquearlo. Comprender las relaciones genéticas y evolutivas entre las especies Entender las relaciones genéticas entre los seres humanos. Existen proyectos para entender la diversidad genética humana. Además, la secuenciación del genoma del Neandertal. ADN antiguo: actualmente se piensa que, en condiciones ideales (continuamente se mantuvo congelado), hay un límite de aproximadamente 1 millón de años para la supervivencia del ADN. Por lo tanto, Jurassic Park probablemente seguirá siendo ficción.


• •

Del ADN al Gen
• Pero: la extracción de tal información es difícil. Cómo convertir una cadena de ACGT en conocimiento de cómo funciona el organismo es tarea ardua. • La mayoría del trabajo es computarizado, que confirma los experimentos claves hechos en el "laboratorio". • La secuencia siguiente contiene un gen crítico para la vida: el gen que inicia la replicación del ADN. ¿Puede usted detectarlo? Ahora vamos a pasar algún tiempo en ver como los genes se ven y cómo los podemos encontrar.
TTGGAAAACATTCATGATTTATGGGATAGAGCTTTAGATCAAATTGAAAAAAAATTAAGCAAACCTAGTTTTGAAACCTG GCTCAAATCGACAAAAGCTCATGCTTTACAAGGAGACACGCTCATTATTACTGCACCTAATGATTTTGCACGGGACTGGT TAGAATCTAGGTATTCTAATTTAATTGCTGAAACACTTTATGATCTTACGGGGGAAGAGTTAGATGTAAAATTTATTATT CCTCCTAACCAGGCCGAGGAAGAATTCGATATTCAAACTCCTAAAAAGAAAGTCAATAAAGACGAAGGAGCAGAATTTCC TCAAAGCATGCTAAATTCGAAGTATACCTTTGATACATTTGTTATCGGATCTGGAAATCGGTTTGCGCATGCAGCTTCTT TAGCAGTAGCAGAAGCGCCGGCTAAAGCGTATAATCCGCTTTTTATTTACGGGGGAGTAGGATTAGGCAAAACACACTTA ATGCACGCCATAGGCCACTATGTGTTAGATCATAATCCTGCCGCGAAAGTCGTGTACTTATCATCTGAAAAATTCACAAA CGAGTTTATTAACTCTATTCGTGACAATAAAGCAGTAGAATTCCGCAACAAATACCGTAATGTAGATGTTTTACTGATTG ATGATATTCAATTCTTAGCAGGTAAAGAGCAGACACAAGAAGAATTTTTCCATACGTTTAATACGCTTCACGAAGAAAGC AAGCAGATTGTCATCTCAAGTGATCGACCGCCGAAAGAAATTCCTACACTTGAAGATCGACTTCGCTCTCGCTTTGAATG GGGCCTTATTACAGACATCACACCACCAGATTTGGAAACACGAATTGCTATTTTGCGTAAAAAAGCCAAAGCGGACGGCT TAGTTATTCCAAATGAAGTTATGCTTTATATCGCCAATCAGATTGATTCAAATATTAGAGAATTAGAAGGCGCACTTATT

ADN
• ADN es una larga cadena de 4 letras (nucleótidos o bases): adenina, guanina, citosina y timina. • Que referimos como A, C, G y T y estamos omitiendo muchos detalles • Cada molécula de ADN tiene 2 hilos, con los pares de bases en el centro A de una cadena siempre se empareja con T de la otra hebra G se empareja con la C. • Las cadenas corren en direcciones opuestas (como carreteras) Puesto que las dos hebras de ADN son complementarias, no hay necesidad de escribir ambas hebras

Cromosomas y Genes
• • Cada cromosoma es una larga pieza de ADN El genoma de B. megaterium es un círculo (como la mayoría de las bacterias) con alrededor de 5 millones de bases. Los cromosomas humanos son 100-200 millones de bases de longitud. Tenemos 46 cromosomas (2 juegos de 23, un juego de cada padre). Los genes son sólo las regiones en tal ADN. Si nos fijamos en una secuencia de ADN , no es evidente donde están los genes. Hay una gran cantidad de ADN que no es parte de los genes: en los seres humanos sólo el 2% del ADN forma parte de los genes. Las bacterias utilizan más de su ADN: 80% del cromosoma B. meg son genes. B. mega tiene cerca de un gen por cada 1.000 pares de bases (pb) de ADN. Alrededor de 5.000 genes Los seres humanos tienen unos 25.000 genes. Somos mucho más complicados que las bacterias: la regulación de los genes es muy complicado en los seres humanos Utilizamos el mismo gen de diferentes maneras en diferentes tejidos

Genes and Proteínas
• La mayoría de los genes codifican para las proteínas: cada gen contiene la información necesaria para hacer una proteína. Las proteínas son el tipo de macromoléculas más importantes de - Estructura: colágeno en la piel, la queratina en el cabello, cristalina en el ojo. - Enzimas: Todas las transformaciones metabólicas, (acúmulo, reordenamiento y descomposición de compuestos orgánicos) se llevan a cabo por las enzimas, que son proteínas. - Transporte: en la sangre. eloxígeno es transportado por la hemoglobina, todo lo que ocurre dentro o fuera de una célula (excepto el agua y unos pocos gases) es transportado por las proteínas. - También: la nutrición (yema de huevo), las hormonas, la defensa, el movimiento

El Código Genético
• • Las proteínas son largas cadenas de aminoácidos. Hay 20 aminoácidos diferentes codificadas en el ADN Sólo hay 4 bases del ADN, por lo que se necesita 3 bases de ADN que codifica para 20 aminoácidos 4 x 4 x 4 = 64 posibles combinaciones de 3 bases (codones) Cada codón codifica para un aminoácido. La mayoría de los aminoácidos tienen más de un codón posible Los genes comienzan a partir de un codón de inicio y el final en un codón de parada. 3 codones son codones de terminación: todos los genes terminan en un codón de parada. Los Codones de inicio son un poco complicados, ya que se encuentran en el medio de genes, así como al comienzo en eucariotas, ATG es siempre el codón de iniciación, haciendo a la metionina (Met) el primer aminoácido en todas las proteínas (pero en muchas proteínas es removido inmediatamente). En procariotas, ATG, GTG, o TTG se puede utilizar como un codón de inicio. B. meg prefiere ATG, pero aproximadamente el 30% de los genes comienzan con GTG o TTG.

• •

In bioinformatics, we generally ignore the fact that RNA uses the base uracil (U) in place of T.

Expresión Genética
• • • ¿Cómo se obtiene una proteína de un gen? Es un proceso de dos pasos (llamado el dogma central de la biología molecular). En primer lugar, el gen tiene que ser copiado (transcrito) en una forma de ARN. La copia de ARN (ARN mensajero) es exactamente igual a excepción que T se sustituye por U. La regulación de la mayoría de genes ocurre aquí: si el gen está en "on" u "off" En segundo lugar, el ARN se traduce a proteína por los ribosomas, que son máquinas híbridas complejas de ARN /proteínas. Con la ayuda de moléculas de ARN de transferencia, que tienen un extremo unido con el codón de base 3 y el otro extremo resulta en un aminoácido apropiado. El ribosoma comienza en el codón de inicio y se mueve a lo largo del ARN mensajero, añadiendo un aminoácido a la cadena de a.a en crecimiento. Cuando el ribosoma alcanza un codón de parada, se separa, liberando la nueva proteína

Marcos de Lectura
• Aquí tenemos un ejemplo. Dado que los codones constan de 3 bases, hay 3 "marcos de lectura posibles" en un ARN (o ADN), dependiendo de si se inicia la lectura en la primera , la segunda o la tercera base. • Los marcos de lectura diferentes dan proteínas totalmente diferentes. • Considere la posibilidad de ATGCCATC, y se refieren al código genético. (X es basura) • Leyendo el cuadro 1 esto se divide en ATGCCA-TC, que se traduce en Met-Pro-X • El marco de lectura 2 se divide en A-TGCCAT-C, que se traduce a X-Su Cys-X• El Marco de lectura 3 se divide en AT-GCCATC, que se traduce en X-Ala-Ile Cada gen utiliza un marco de lectura única, por lo que una vez que el ribosoma se inicia, sólo tiene que contar los grupos de 3 bases para producir la proteína adecuada.

Marcos de Lectura Abiertos
• Los ribosomas son muy obediente a los codones de parada: cuando un codón de parada es alcanzado, la proteína está terminada. Así, todos los genes terminan en el codón de parada en su primera fase de lectura. - Puesto que 3 de los 64 codones son los codones de parada,
el ADN tiene los codones de parada con mucha frecuencia. Sin embargo, los genes hacen lo necesario para la supervivencia, la selección natural mantiene fuera los codones de parada que están a mitad de los genes. Es decir, si surge una mutación que crea un codón de parada en el medio de un gen, el organismo muere y no deja descendientes.

Marcos de lectura abierta (ORF) son las regiones que no tienen codones de terminación. Todos los genes residen en largos marcos de lectura abiertos
Nótese que los codones de parada en otros marcos de lectura no tienen efecto en el gen. El codón de iniciación debe ser "aguas arriba" en el mismo marco de lectura del codón de parada. Es generalmente cerca del comienzo de la ORF, pero no necesariamente el primer codón de inicio posible. Determinación del codón de inicio exacta no es fácil ni obvia. Pero, el codón de parada en una primera fase de lectura abierta es siempre una suposición razonable

This is a map of the stop codons in all 3 reading frames in a stretch of DNA. The long ORF in reading frame 1 is highlighted in black.

Ubicación de los Genes
• • • • Los genes pueden ocurrir en cualquiera de las cadenas de ADN. Si están en la cadena inversa, la secuencia de ADN tiene que ser invertida y complementada En las bacterias, la mayor parte del ADN es parte de un gen. La mayoría de marcos abiertos de lectura largos (por ejemplo 100 pb o más) que no se superpongan a otros ORFs contienen gene La mayoría de los genes no se solapan entre sí. A veces hay superposiciones muy cortas (50 pb o menos), especialmente si los dos genes están funcionalmente relacionados. En las bacterias, los genes que afectan a la misma vía bioquímica o función son a veces adyacentes entre sí en la misma hebra de ADN (no necesariamente el mismo marco de lectura), lo que les permite estar co-regulados . Este grupo de genes se denomina un "operón" Operones sólo existen en las bacterias, no están presentes en las células eucariotas.

Buscando los Genes
– La primera tarea es encontrar ORFs largos, examinar primero los ORFs más largos y la elaboración de un conjunto con solapamientos mínimos. También es necesario identificar posibles codones de inicio, con el codón de inicio más lejano aguas arriba como la opción más fácil.

Entonces, ¿cómo sabemos que el ORF contiene un gen de verdad?
– La manera más definitiva es que coincida con un gen conocido de otras especies La conservación de una secuencia entre las especies sugiere fuertemente que la secuencia tiene una función que está siendo conservado por selección natural

– Se comparan las secuencias de proteínas y no el ADN, porque en la evolución la proteína está más conservada que el ADN
– La supervivencia del organismo depende de que la proteína sea funcional, lo que significa que tiene la secuencia correcta de aminoácidos Dado que el código genético es degenerado, muchas secuencias de ADN diferentes dará proteínas idénticas. La Estructura 3-dimensional de La proteína está aún más conservada, porque está más estrechamente relacionada con la actividad enzimática que la secuencia de aminoácidos. – Sin embargo, no tenemos forma de determinar la estructura 3-D desde la secuencia de ADN

Comparación de Secuencias
• Así, comparamos nuestra secuencia ORF a una base de datos de secuencias de proteínas de muchas especies conocidas. BLAST es la herramienta estándar de la alineación de secuencias (BLAST = Herramienta básica de búsqueda de alineamiento local ) BLAST se basa en el concepto de que si se comparan las mismas (es decir, homólogas) proteínas de diferentes especies, se puede ver que algunos aminoácidos se sustituyen unos por otros y hay otros que casi nunca lo hacen. Una matriz de sustitución, da una puntuación para cada posición de aminoácidos en las proteínas que se comparan.

Practicando el BLAST
• BLAST es en sí mismo un software que puede ejecutarse en casi cualquier ordenador, pero la base de datos necesaria para una buena comparación entre especies es bastante grande la base de datos se denomina "NR" por "no-redundante", y que contiene al menos 20 Gb de datos de secuencias Vamos a utilizar el servicio de BLAST en UniProt, un consorcio europeo que contiene una amplia colección de secuencias de proteínas http://www.uniprot.org/~~V Casi todos los derivados de las secuencias de ADN: la secuenciación directa de las proteínas es difícil Terminología: la secuencia, que se pega en el cuadro en la página web, es la secuencia de la consulta. Las secuencias en la base de datos que coinciden con los suyos se llaman secuencias temáticas.

Una Secuencia para el BLAST
• Este es un gen de B. meg.más o menos elegido al azar >ORF00135 |chromosome Tiene 174 aminoácidos de 538197-538721 revcomp longitud MKAKLIQYVYDAECRLFKSVN Está escrito en formato QHFDRKHLNRFLRLLTHAGGA "FASTA" : la primera línea TFTIVIACLLLFLYPSSVAYA CAFSLAVSHIPVAIAKKLYPR comienza con> y es seguida KRPYIQLKHTKVLENPLKDHS inmediatamente por un FPSGHTTAIFSLVTPLMIVYP identificador (ORF00135), y AFAAVLLPLAVMVGISRIYLG luego algunos comentarios LHYPTDVMVGLILGIFSGAVA diversos. LNIFLT Después, la secuencia está escrito sin espacios u otras marcas

Results

BLAST Scores
• Los mejores resultados se ordenan en la parte superior La puntuación más importante es el valor esperado, o E-valor, que se puede definir como el número de accesos que cualquier secuencia aleatoria (con la misma longitud que la suya) tendría en la base de datos. E-valores para buenos accesos se escriben generalmente como: 3e-42, que es lo mismo que 3 x 10-42, un número muy pequeño Accesos malos son muy comunes, y que tienen e-valores de manera más familiar: por ejemplo, 0.004 o el 1,2 Unos e-valores muy buenos inferiores a 1e-180, subpasa la capacidad de procesamiento de la computadora, por lo que se escribe como 0.0 Los E-valores se ven afectados por la longitud de la secuencia consultada, así como el tamaño de la base de datos, por lo que incluso apareamientos perfectos con secuencias cortas dan e-valores pobres En este caso vemos muchos accesos con buenos e-valores, y en la parte superior todos los e-valores son muy similares. Antes de que podamos concluir que nuestra proteína es un homólogo de las proteínas coincidentes con el BLAST, nos gustaría que tengan más o menos la misma longitud y un alto porcentaje de aminoácidos idénticos. Las longitudes de las secuencias de consulta deben estar dentro del 20% uno del otro No debe haber menos del 30% de aminoácidos idénticos En este caso, podemos estar bastante seguros de que tenemos un buen partido BLAST también devuelve a un cuarto del valor, la puntuación de bits, por lo que vamos a ignorarlo

Nombres de los Genes
• La mayoría de las veces los genes se denominan conforme a la función de las proteínas. en algún momento, algunos genes relacionados tenían su función determinada a través del trabajo de laboratorio: al examinar los efectos de las mutaciones en el gen, mediante el aislamiento y el estudio de la proteína producida por el gen, etc Las enzimas (terminan en-asa), se transporte a través de la membrana celular, procesamiento de la información genética (ADN-> ARN-> proteína), proteínas estructurales, la esporulación y la germinación, y mucho más! Muchos de los genes (tal vez 1/4 de ellos en un genoma típico) no se conoce su función, aunque se encuentran en varias especies diferentes: los hipotéticos genes conservados • Cada nuevo genoma tiene genes que son únicos: no hay coincidencias en la base de datos. ¿Son genes reales? A veces hay evidencia en la forma de ARN mensajero, pero por lo general no sabemos los llaman los genes hipotéticos "Putativo" significa que creemos que sabemos la función del gen, pero no estamos seguros. Putativos debe ser seguido por el nombre de la función.

Mas Nombres de Genes
• Una cuestión de interés: ¿los nombres de las BLAST hits top están de acuerdo unos con otros? Se debería, pero siempre hay errores de anotación, y nuestro conocimiento de la función de genes aumenta con el tiempo. Con un poco de descuido debido a las diferentes convenciones de nomenclatura practicado por diferentes científicos Aquí tenemos un caso clásico de mal nombramiento. ¿Por qué es la proteína ribosomal S2, sin acceso de éxito con otra con este nombre? Las proteínas ribosómicas son altamente conservados en la evolución • Algunos controles ponen de manifiesto que ninguna homología existente entre este gen y la proteína ribosomal S2 se encuentra en las otras especies de Bacillus Los otros nombres son similares, aunque no idénticos. ¿Qué es "PAP2"? Una rápida búsqueda en Google muestra que es sinónimo de "fosfatasa ácida fosfatídico", que se ajusta a los otros nombres también. Es probable que exista cierta incertidumbre sobre su función exacta, dada la variedad de nombres y de la designación "familia de proteínas” de varios de ellos.

Transferencia Genética Horizontal y Vertical
• Estamos acostumbrados a pensar que los genes se transmiten de padres a hijos, manteniéndose siempre dentro de la especie, con la división muy ocasional de una especie en dos. Esto se llama transferencia genética vertical. Pero, se sabe que algunos genes son transferidos entre líneas de especies, no por los mecanismos genéticos normales. Esto se llama transferencia horizontal de genes Es raro en los seres humanos y otros organismos superiores En las bacterias 10% o más de los genes han sido transferidas en forma horizontal. Los genes de B meg que provienen de descendencia vertical de otras especies de Bacillus (o de otras especies estrechamente relacionadas) tienen un acceso más cercano Los genes transferidos horizontalmente puede venir de casi cualquier parte: otras bacterias, arqueas y eucariotas: plantas, animales, hongos Los mecanismos generales son bien conocidos, incluyendo conjugación (transferencia directa de ADN entre dos bacterias), transducción (transferencia de ADN utilizando un virus como un portador), y la transformación (las bacterias recoger las moléculas de ADN de su entorno

Bacillus Phylogeny
• “Kings Play Chess On Fine Ground Sand”
• • • • • • Bacteria is the domain Firmicutes is the phylum Bacilli is the class Bacillales is the order Bacillaceae is the family Bacillus is the genus.

Nuestro ejemplo
• La mayoría de los grandes accesos son de diversas especies de Bacillus: hay una pequeña duda de que este gen sea el resultado del flujo de gen vertical normal. ¿Qué pasa con "Anoxybacillus flavithermus"? Haga clic en el número de acceso para obtener más información, incluyendo su filogenia. Linaje de bacterias taxonómica => Firmicutes> Bacillales> Bacillaceae> Anoxybacillus. La misma familia que el B megas.

Secuencias alineadas
• Usted puede ver las secuencias alineadas haciendo clic en los diagramas de "alineación locales" Secuencia de consulta arriba, el sujeto abajo Los aminoácidos idénticos están en el medio de la alineación, y otros similares tienen un signo +. Lagunas: las regiones en donde tiene una secuencia de aminoácidos que no se encuentran en la otra secuencia, se indican con ---. Esta proteína es muy típica en que los mejores accesos están en el medio de la proteína, con un menor número de aminoácidos idénticos cerca de los extremos. Además, el acceso no coincide al principio de las proteínas, aunque son casi idénticos en longitud. El sitio activo de la mayoría de enzimas está en el medio Los extremos de las proteínas a menudo no están bien conservadas

Local Alignment Result

Vista Gráfica
• Hacer clic en Descripción gráfica (justo debajo del casillero a la izquierda de BLAST) para obtener una visión general de todas las secuencias alineadas La extensión de la región correspondiente se muestra con los espacios de colores, con las regiones que no coinciden dibujadas como una línea. El color indica porcentaje de aminoácidos idénticos Se puede ver que en su mayoría nuestra consulta y los diferentes accesos se alinean a lo largo en casi toda su longitud. Esta es una buena manera de comprobar si nuestra sitio de partida es razonable. Los pocos accesos extraños están más abajo. Los genes, y pedazos de los genes, pueden moverse a nuevas ubicaciones en el genoma, se fusionan con otros genes, se rompen, etc. Siempre sujetos a la selección natural: si el gen alterado no funciona, el organismo va a morir y no lo podremos ver. Por supuesto, los errores de secuenciación y anotación pueden ocurrir.

Los puntos básicos
1.

2.
3. 4. 5. 6. 7.

ADN se puede leer en 3 diferentes marcos de lectura, una consecuencia del código genético (3 bases de ácidos = 1 amino) Los genes se encuentran en largos marcos de lectura abiertos, áreas donde no existen los codones de parada. BLAST es la herramienta que se utiliza para comparar las secuencias entre especies Resultados del BLAST (e-valores) describen la probabilidad de encontrar una secuencia aleatoria de la base de datos Las secuencias genéticas se conservan entre las especies por selección natural Secuencias de ADN fuera de los genes son mucho menos conservadas La mayoría de los genes son transferidos verticalmente, de padres a hijos, pero un número significativo son transferidos horizontalmente, de especies no relacionadas).