21 Bioinformatica

INTRODUCCIN A LA
BIOINFORMTICA
Presentacin
El fin del siglo XX ha visto una explosin de
informacin proveniente de los seres vivos,
especialmente en biologa molecular
Secuenciacin de genomas
Secuencia y estructura de protenas
Estudios sobre la expresin simultnea de muchos
genes bajo muchas condiciones diferentes.
Las bases de datos biolgicas
Buena parte del trabajo en bioinformtica
consiste en la construccin y/o explotacin de
bases de datos de informacin biolgica
Se usan, por ejemplo para:
Aadir o buscar informacin (anotaciones)
Buscar similitudes o patrones
Hacer predicciones
De estructura o funcin en protenas
De genes en genomas
Donde se hace Bioinformtica
Centros Especializados
EBI, NCBI, EMBL.
INB / Plataforma Bioinformtica de la UAB.
Servicios Bioinformticos de centros de
investigacin,
UEB, UBB, BU
Universidades,
Laboratorios Farmacuticos,

El acceso a los recursos
La WWW ha revolucionado la provisin de
servicios en bioinformtica
Muchas cosas pueden hacerse a travs de
internet sin que sean necesarias copias locales
de las bases de datos o el software para
explotarlas
A pesar de esta globalizacin existen
organizaciones que centralizan los recursos
Centros y recursos importantes
Centros importantes a nivel mundial

EMBL / EBI (www.embl.org / www.ebi.ac.uk )
NCBI ( www.ncbi.nlm.nih.gov )
DDBJ ( www.ddbj.nig.ac.jp )
Bases de datos biolgicas
EMBL DNA sequence database
SWISSPROT i TREMBL
PIR, PDB
Catlogo de bases de datos biolgicas
www.infobiogen.fr/services/dbcat
Vamos a hablar de
Por qu estamos haciendo la secuenciacin
del ADN
Qu genes se parecen y donde se
encuentran?
Cmo podemos comparar las secuencias
entre las diferentes especies?
Cmo los genes se mueven entre las
especies?
Secuenciado del ADN
Bioinformtica : se basa en el hecho de que la
secuenciacin del ADN es barato, y cada vez ms
fcil y ms barato .
el Proyecto Genoma Humano cost alrededor de $ 3
mil millones y tuvo 12 aos (1991-2003).
La secuenciacin del genoma de James Watson en
2007 cost $ 2 millones y tom 2 meses
Hoy en da, usted puede obtener su genoma
secuenciado por alrededor de $ 100.000 y tomara
un mes.
El Archon X Prize: usted gana $ 10 millones si puede
secuenciar 100 genomas humanos en 10 das, a un
costo de 10.000 dlares por genoma.
Es realista imaginar 100 dlares por genoma dentro
de los 10 aos: el genoma de todo el mundo podra
ser secuenciado si se quiere o necesite.
Por qu es til?
Toda la informacin necesaria para construir un organismo est
contenida en su ADN. Si pudiramos entenderlo, sabramos cmo
funciona la vida.
Prevenir y curar enfermedades como el cncer (que es causada
por mutaciones en el ADN) y las enfermedades hereditarias.
Curar enfermedades infecciosas , desde el SIDA, la malaria, hasta
el resfriado comn).
Si entendemos cmo funciona un microorganismo, podemos
encontrar la manera de bloquearlo.
Comprender las relaciones genticas y evolutivas entre las
especies
Entender las relaciones genticas entre los seres humanos.
Existen proyectos para entender la diversidad gentica humana.
Adems, la secuenciacin del genoma del Neandertal.
ADN antiguo: actualmente se piensa que, en condiciones ideales
(continuamente se mantuvo congelado), hay un lmite de
aproximadamente 1 milln de aos para la supervivencia del
ADN. Por lo tanto, Jurassic Park probablemente seguir siendo
ficcin.
Del ADN al Gen
Pero: la extraccin de tal informacin es difcil. Cmo convertir una
cadena de ACGT en conocimiento de cmo funciona el organismo es
tarea ardua.
La mayora del trabajo es computarizado, que confirma los experimentos
claves hechos en el "laboratorio".
La secuencia siguiente contiene un gen crtico para la vida: el gen que
inicia la replicacin del ADN. Puede usted detectarlo?
Ahora vamos a pasar algn tiempo en ver como los genes se ven y cmo
los podemos encontrar.
TTGGAAAACATTCATGATTTATGGGATAGAGCTTTAGATCAAATTGAAAAAAAATTAAGCAAACCTAGTTTTGAAACCTG
GCTCAAATCGACAAAAGCTCATGCTTTACAAGGAGACACGCTCATTATTACTGCACCTAATGATTTTGCACGGGACTGGT
TAGAATCTAGGTATTCTAATTTAATTGCTGAAACACTTTATGATCTTACGGGGGAAGAGTTAGATGTAAAATTTATTATT
CCTCCTAACCAGGCCGAGGAAGAATTCGATATTCAAACTCCTAAAAAGAAAGTCAATAAAGACGAAGGAGCAGAATTTCC
TCAAAGCATGCTAAATTCGAAGTATACCTTTGATACATTTGTTATCGGATCTGGAAATCGGTTTGCGCATGCAGCTTCTT
TAGCAGTAGCAGAAGCGCCGGCTAAAGCGTATAATCCGCTTTTTATTTACGGGGGAGTAGGATTAGGCAAAACACACTTA
ATGCACGCCATAGGCCACTATGTGTTAGATCATAATCCTGCCGCGAAAGTCGTGTACTTATCATCTGAAAAATTCACAAA
CGAGTTTATTAACTCTATTCGTGACAATAAAGCAGTAGAATTCCGCAACAAATACCGTAATGTAGATGTTTTACTGATTG
ATGATATTCAATTCTTAGCAGGTAAAGAGCAGACACAAGAAGAATTTTTCCATACGTTTAATACGCTTCACGAAGAAAGC
AAGCAGATTGTCATCTCAAGTGATCGACCGCCGAAAGAAATTCCTACACTTGAAGATCGACTTCGCTCTCGCTTTGAATG
GGGCCTTATTACAGACATCACACCACCAGATTTGGAAACACGAATTGCTATTTTGCGTAAAAAAGCCAAAGCGGACGGCT
TAGTTATTCCAAATGAAGTTATGCTTTATATCGCCAATCAGATTGATTCAAATATTAGAGAATTAGAAGGCGCACTTATT
ADN
ADN es una larga cadena de 4 letras
(nucletidos o bases): adenina,
guanina, citosina y timina.
Que referimos como A, C, G y T y
estamos omitiendo muchos detalles
Cada molcula de ADN tiene 2 hilos,
con los pares de bases en el centro
A de una cadena siempre se
empareja con T de la otra hebra
G se empareja con la C.
Las cadenas corren en direcciones
opuestas (como carreteras)
Puesto que las dos hebras de ADN
son complementarias, no hay
necesidad de escribir ambas hebras
Cromosomas y Genes
Cada cromosoma es una larga pieza de ADN
El genoma de B. megaterium es un crculo (como la mayora
de las bacterias) con alrededor de 5 millones de bases.
Los cromosomas humanos son 100-200 millones de bases de
longitud. Tenemos 46 cromosomas (2 juegos de 23, un juego
de cada padre).
Los genes son slo las regiones en tal ADN. Si nos fijamos en
una secuencia de ADN , no es evidente donde estn los
genes. Hay una gran cantidad de ADN que no es parte de los
genes: en los seres humanos slo el 2% del ADN forma parte
de los genes.
Las bacterias utilizan ms de su ADN: 80% del cromosoma B.
meg son genes. B. mega tiene cerca de un gen por cada
1.000 pares de bases (pb) de ADN. Alrededor de 5.000 genes
Los seres humanos tienen unos 25.000 genes.
Somos mucho ms complicados que las bacterias: la
regulacin de los genes es muy complicado en los seres
humanos
Utilizamos el mismo gen de diferentes maneras en diferentes
tejidos
Genes y Protenas
La mayora de los genes codifican para las protenas:
cada gen contiene la informacin necesaria para hacer
una protena.
Las protenas son el tipo de macromolculas ms
importantes de
- Estructura: colgeno en la piel, la queratina en el
cabello, cristalina en el ojo.
- Enzimas: Todas las transformaciones metablicas,
(acmulo, reordenamiento y descomposicin de
compuestos orgnicos) se llevan a cabo por las
enzimas, que son protenas.
- Transporte: en la sangre. eloxgeno es transportado
por la hemoglobina, todo lo que ocurre dentro o fuera
de una clula (excepto el agua y unos pocos gases) es
transportado por las protenas.
- Tambin: la nutricin (yema de huevo), las hormonas,
la defensa, el movimiento
El Cdigo Gentico
Las protenas son largas cadenas de aminocidos.
Hay 20 aminocidos diferentes codificadas en el ADN
Slo hay 4 bases del ADN, por lo que se necesita 3 bases de
ADN que codifica para 20 aminocidos
4 x 4 x 4 = 64 posibles combinaciones de 3 bases (codones)
Cada codn codifica para un aminocido. La mayora de los
aminocidos tienen ms de un codn posible
Los genes comienzan a partir de un codn de inicio y el
final en un codn de parada.
3 codones son codones de terminacin: todos los genes
terminan en un codn de parada.
Los Codones de inicio son un poco complicados, ya que se
encuentran en el medio de genes, as como al comienzo en
eucariotas,
ATG es siempre el codn de iniciacin, haciendo a la
metionina (Met) el primer aminocido en todas las
protenas (pero en muchas protenas es removido
inmediatamente).
In bioinformatics, we generally
En procariotas, ATG, GTG, o TTG se puede utilizar como un ignore the fact that RNA uses the
codn de inicio. B. meg prefiere ATG, pero base uracil (U) in place of T.
aproximadamente el 30% de los genes comienzan con GTG
o TTG.
Expresin Gentica
Cmo se obtiene una protena de un gen?
Es un proceso de dos pasos (llamado el dogma central de la
biologa molecular).
En primer lugar, el gen tiene que ser copiado (transcrito) en
una forma de ARN.
La copia de ARN (ARN mensajero) es exactamente igual a
excepcin que T se sustituye por U.
La regulacin de la mayora de genes ocurre aqu: si el gen
est en "on" u "off"
En segundo lugar, el ARN se traduce a protena por los
ribosomas, que son mquinas hbridas complejas de ARN
/protenas.
Con la ayuda de molculas de ARN de transferencia, que
tienen un extremo unido con el codn de base 3 y el otro
extremo resulta en un aminocido apropiado.
El ribosoma comienza en el codn de inicio y se mueve a lo
largo del ARN mensajero, aadiendo un aminocido a la
cadena de a.a en crecimiento.
Cuando el ribosoma alcanza un codn de parada, se separa,
liberando la nueva protena
Marcos de Lectura
Aqu tenemos un ejemplo.
Dado que los codones constan de 3 bases, hay
3 "marcos de lectura posibles" en un ARN (o
ADN), dependiendo de si se inicia la lectura en
la primera , la segunda o la tercera base.
Los marcos de lectura diferentes dan protenas
totalmente diferentes.
Considere la posibilidad de ATGCCATC, y se
refieren al cdigo gentico. (X es basura)
Leyendo el marco 1 esto se divide en ATG-CCA-
TC, que se traduce en Met-Pro-X
El marco de lectura 2 se divide en A-TGC-CAT-
C, que se traduce a X-Su Cys-X-
El marco de lectura 3 se divide en AT-GCC-ATC,
que se traduce en X-Ala-Ile
Cada gen utiliza un marco de lectura nico, por lo

que una vez que el ribosoma se inicia, slo tiene
que contar los grupos de 3 bases para producir la
protena adecuada.
Estos marcos abiertos de lectura se denominan +1, +2, +3, -1, -2 y -3.
En un ejemplo con la secuencia 5' aactgcagtacgtaacgtca 3
+3 5' a act gca gta cgt aac gtc a 3

+2 5' aa ctg cag tac gta acg tca 3'
+1 5' aac tgc agt acg taa cgt ca 3'
-1 3' ttg acg tca tgc att gca gt 5'
-2 3' tt gac gtc atg cat tgc agt 5'
-3 3' t tga cgt cat gca ttg cag t 5'
Marcos de Lectura Abiertos
Marcos de lectura abierta (ORF) son las regiones que no tienen codones de
terminacin. Todos los genes residen en largos marcos de lectura abiertos
El codn de iniciacin debe ser "aguas arriba" en el mismo marco de lectura del codn de parada.
Es generalmente cerca del comienzo de la ORF, pero no necesariamente el primer codn de inicio
posible. Determinacin del codn de inicio exacta no es fcil ni obvia. Pero, el codn de parada en
una primera fase de lectura abierta es siempre una suposicin razonable
Marcos de Lectura Abiertos
Los ribosomas son muy obedientes a los
codones de parada: cuando un codn de parada
es alcanzado, la protena est terminada. As,
todos los genes terminan en el codn de parada
en su primera fase de lectura.
Puesto que 3 de los 64 codones son los

codones de parada, el ADN tiene los codones
de parada con mucha frecuencia. Sin embargo,
los genes hacen lo necesario para la
supervivencia, la seleccin natural mantiene This is a map of the stop
fuera los codones de parada que estn a mitad codons in all 3 reading
frames in a stretch of DNA.
de los genes. The long ORF in reading
Es decir, si surge una mutacin que crea un frame 1 is highlighted in
codn de parada en el medio de un gen, el black.
organismo muere y no deja descendientes.
Ubicacin de los Genes
Los genes pueden ocurrir en cualquiera de las cadenas de ADN.
Si estn en la cadena inversa, la secuencia de ADN tiene que ser invertida y
complementada
En las bacterias, la mayor parte del ADN es parte de un gen. La mayora de marcos
abiertos de lectura largos (por ejemplo 100 pb o ms) que no se superpongan a otros
ORFs contienen gene
La mayora de los genes no se solapan entre s.
A veces hay superposiciones muy cortas (50 pb o menos), especialmente si los dos
genes estn funcionalmente relacionados.
En las bacterias, los genes que afectan a la misma va bioqumica o funcin son a veces
adyacentes entre s en la misma hebra de ADN (no necesariamente el mismo marco de
lectura), lo que les permite estar co-regulados . Este grupo de genes se denomina un
"opern"
Operones slo existen en las bacterias, no estn presentes en las clulas eucariotas.
Buscando los Genes
La primera tarea es encontrar ORFs largos, examinar primero los
ORFs ms largos y la elaboracin de un conjunto con
solapamientos mnimos.
Tambin es necesario identificar posibles codones de inicio, con el

codn de inicio ms lejano aguas arriba como la opcin ms fcil.
Entonces, cmo sabemos que el ORF contiene un gen de verdad?
La manera ms definitiva es que coincida con un gen conocido de

otras especies
La conservacin de una secuencia entre las especies sugiere

fuertemente que la secuencia tiene una funcin que est siendo
conservado por seleccin natural
Se comparan las secuencias de protenas y no el ADN, porque
en la evolucin la protena est ms conservada que el ADN
La supervivencia del organismo depende de que la protena

sea funcional, lo que significa que tiene la secuencia correcta
de aminocidos
Dado que el cdigo gentico es redundante, muchas

secuencias de ADN diferentes dar protenas idnticas.
La protena est an ms conservada, porque est ms

estrechamente relacionada con la actividad enzimtica que la
secuencia de aminocidos.
Sin embargo, no tenemos forma de determinar la estructura 3-

D desde la secuencia de ADN
Comparacin de Secuencias
As, comparamos nuestra secuencia ORF a una base de datos de secuencias de
protenas de muchas especies conocidas.
BLAST es la herramienta estndar de la alineacin de secuencias (BLAST =
Herramienta bsica de bsqueda de alineamiento local )
BLAST se basa en el concepto de que si se comparan las mismas protenas de
diferentes especies (es decir, homlogas), se puede ver que algunos
aminocidos se sustituyen unos por otros y hay otros que casi nunca lo hacen.
Una matriz de sustitucin, da una puntuacin para cada posicin de

aminocidos en las protenas que se comparan.
Practicando el BLAST
BLAST es en s mismo un software que puede ejecutarse en casi cualquier
ordenador, pero la base de datos necesaria para una buena comparacin
entre especies es bastante grande
La base de datos se denomina "NR" por "no-redundante", y que contiene al

menos 20 Gb de datos de secuencias
Vamos a utilizar el servicio de BLAST en UniProt, un consorcio europeo que

contiene una amplia coleccin de secuencias de protenas
http://www.uniprot.org/~~V
Casi todos los derivados de las secuencias de ADN: la secuenciacin directa de

las protenas es difcil
Terminologa: la secuencia, que se pega en el cuadro en la pgina web, es la

secuencia de la consulta. Las secuencias en la base de datos que coinciden
con los suyos se llaman secuencias temticas.
Una Secuencia para el BLAST
Este es un gen de Bacillus
megaterium ms o menos
elegido al azar >ORF00135 |chromosome
538197-538721 revcomp
MKAKLIQYVYDAECRLFKSVN
Tiene 174 aminocidos de QHFDRKHLNRFLRLLTHAGGA
longitud TFTIVIACLLLFLYPSSVAYA
CAFSLAVSHIPVAIAKKLYPR
KRPYIQLKHTKVLENPLKDHS
Est escrito en formato "FASTA" : FPSGHTTAIFSLVTPLMIVYP
la primera lnea comienza con > y AFAAVLLPLAVMVGISRIYLG
es seguida inmediatamente por LHYPTDVMVGLILGIFSGAVA
LNIFLT
un identificador (ORF00135), y
luego algunos comentarios
diversos.
Despus, la secuencia est escrito

sin espacios u otras marcas
>gi|345441867|gb|CP003017.1| Bacillus megaterium WSH-002, complete genome
ATGCAATGAATTTTCGAAACTTATCCACAATCACTACACCTTGTGGAGAAAAGTTTTCCACAACACAAGA
TAGTGTGCATGAGTTGTCGATAAGGAATGGAGAAGTAGAAAAATGTCGAAAAAACTTATCCACAAAGGTT
TAAGAGAAGAATTTGAATAAAAAAGAGGCTTTTTATAACATTTATTGTTGTAGTTTTGTTCAGTAACGAT
GTGATCGCAGCTGGTAGAGAAAGAAAAAGTGATGAAAAGGAAAAATTTTTTCTTTAATAAATCAATGAAT
TTTATTGATTAGGTATAGACAATTGGGTTATAAAGATATTAGAATGAAGAAGATTGAGTAAAACAGATAA
TGAAACCAAGAGATTGAAAATTTTATTTTTTAAATAACATTGACATCTTCTTAGTCTTTTCATTATAATT
GCAAGGACTGTCTTTTTCAGTTATTCCTCGAGGAGGTGTTTATAGATGAAAAGAACTTACCAACCAAACA
AACGTAAGCACAGTAAAGTACACGGTTTCCGCGCTCGTATGAGCTCAGCGAATGGACGTAAAGTTTTAGC
TCGTCGTCGTCGTAAAGGAAGAAAAGTATTATCAGCATAATAGACCACTGACGCCAGTGGTCTTTTTTCG
CTTTATAAGGCTAAAATCACCTCTGTTCCTGTAGGGACTACATAAGAGCATGACCTGAAAAAGGGCAGGA
GTTGTTAAAAATGAAAAAAAGATATCGTATAAAAAAGAATGATGAATTTCAAACAGTTTTTAAAAAGGGC
AAGTCCGTAGCGAATCGCCAATTTGTCTTGTATGTTCTAGACAAACCGGATCAAGAACATTTCCGCGTAG
GATTCTCCGTGGGCAAAAAGATTGGAAATGCCGTGACTCGTAATCGAGTTAAGCGCCTTGCTAAACAAAT
TATGTTTGAATTCACACCGTATTTAAAGCAAGACAAAGATTATATTGTAATTGCAAGGCAGCCTGCTGCA
ACGATGAGCTATGAAGAAATTAAAAGCAGCTTGCAGCATGTCTTTAAGCGTGGCAAATTACTTACACATA
GACAAAACGATTAATAAACAATAGAAGAAAAGCCTTTAATAGCTGTTGTTTTTCTACCGCATCCTTATAT
AATGGATTTTGACGCACTTTCAGAATTGAAAGGTGAACATGTAGAAGGAGGAAAAACAGGTGAAGAAGAA
GTTGTTTTTAGGGATAACACTTATCTTTCTATTAACTGTTTTGGCGGGTTGTACGGAAATTAACCAACCT
ATTACAGATGATAGTAAAGGTTTTTGGAATGAGTATGTTGTGTATCCGCTATCATTGGTCATTACGTATC
Results
BLAST Scores
Los mejores resultados se ordenan en la parte superior
La puntuacin ms importante es el valor esperado, o E-valor, que se puede

definir como el nmero de accesos que cualquier secuencia aleatoria (con la
misma longitud que la suya) tendra en la base de datos.
E-valores para buenos accesos se escriben generalmente como: 3e-42, que es

lo mismo que 3 x 10-42, un nmero muy pequeo
Accesos malos son muy comunes, y que tienen e-valores : por ejemplo, 0.004 o
el 1,2
Unos e-valores muy buenos inferiores a 1e-180, sobrepasa la capacidad de

procesamiento de la computadora, por lo que se escribe como 0.0
Los E-valores se ven afectados por la longitud de la secuencia consultada, as

como el tamao de la base de datos, por lo que incluso apareamientos
perfectos con secuencias cortas dan e-valores pobres
En este caso vemos muchos accesos con e-valores buenos y
en la parte superior todos los e-valores son muy similares.
Antes de que podamos concluir que nuestra protena es un

homlogo de las protenas coincidentes con el BLAST, nos
gustara que tengan ms o menos la misma longitud y un alto
porcentaje de aminocidos idnticos.
Las longitudes de las secuencias consultadas deben estar

dentro del 20%, uno del otro
No debe haber menos del 30% de aminocidos idnticos

En este caso, podemos estar bastante seguros de que
tenemos un buen partido
BLAST tambin devuelve a un cuarto del valor, la puntuacin

de bits, por lo que vamos a ignorarlo
Nombres de los Genes
Mayormente los genes se denominan conforme a la funcin de las protenas.
Algunos genes tenan su funcin determinada a travs del trabajo de
laboratorio: al examinar los efectos de las mutaciones en el gen, mediante el
aislamiento y el estudio de la protena producida por el gen, etc
Por su funcin: Las enzimas, gentica (ADN-> ARN-> protena), protenas

estructurales, la esporulacin y la germinacin, y mucho ms!
Cada genoma nuevo tiene genes que son nicos: no hay coincidencias en la
base de datos. Son genes reales? A veces hay evidencia en la forma de ARN
mensajero, pero por lo general no lo sabemos, los llaman los genes hipotticos
Muchos de los genes (tal vez 1/4 en un genoma tpico) no se conoce su

funcin, aunque estan en varias especies diferentes: los genes conservados
hipotticos
"Putativo" significa que creemos que sabemos la funcin del gen, pero no
estamos seguros. Putativo debe ser seguido por el nombre de la funcin.
Transferencia Gentica Horizontal y Vertical
Estamos acostumbrados a pensar que los genes se
transmiten de padres a hijos, mantenindose siempre dentro
de la especie, con la divisin muy ocasional de una especie
en dos. Esto se llama transferencia gentica vertical.
Pero, se sabe que algunos genes son transferidos entre

lneas de especies, no por los mecanismos genticos
normales. Esto se llama transferencia horizontal de genes
Es raro en los seres humanos y otros organismos superiores
En las bacterias 10% o ms de los genes han sido transferidas
en forma horizontal. Los genes de B megaterium que
provienen de descendencia vertical de otras especies de
Bacillus (o de otras especies estrechamente relacionadas)
tienen un acceso ms cercano
Los genes transferidos horizontalmente puede venir de casi
cualquier parte: otras bacterias, arqueas y eucariotas:
plantas, animales, hongos. Los mecanismos generales son
bien conocidos, incluyendo conjugacin (transferencia
directa de ADN entre dos bacterias), transduccin
(transferencia de ADN utilizando un virus como un portador),
y la transformacin (las bacterias recoger las molculas de
ADN de su entorno.
Filogenia de
Bacillus
Bacteria es el Dominio
Firmicutes es el Phylum
Bacilli es la Clase
Bacillales es el Orden
Bacillaceae es la Familia
Bacillus es el Gnero.
Nuestro ejemplo
La mayora de los grandes accesos son de diversas especies de Bacillus: hay una
pequea duda de que este gen sea el resultado del flujo de gen vertical normal.
Qu pasa con "Anoxybacillus flavithermus"?
Haga clic en el nmero de acceso para obtener ms informacin, incluyendo su
filogenia.
Linaje de bacterias taxonmica => Firmicutes> Bacillales> Bacillaceae> Anoxybacillus.
La misma familia que el B. megaterium.
Secuencias alineadas
Usted puede ver las secuencias alineadas haciendo clic en los
diagramas de "alineacin locales"
Secuencia de consulta arriba, el sujeto abajo
Los aminocidos idnticos estn en el medio de la alineacin, y
otros similares tienen un signo +.
Lagunas: las regiones en donde tiene una secuencia de
aminocidos que no se encuentran en la otra secuencia, se indican
con ---.
Esta protena es muy tpica en que los mejores accesos estn en el
medio de la protena, con un menor nmero de aminocidos
idnticos cerca de los extremos.
Adems, el acceso no coincide al principio de las protenas, aunque
son casi idnticos en longitud.
El sitio activo de la mayora de enzimas est en el medio.
Los extremos de las protenas a menudo no estn bien conservadas
Resultado de Alineamiento Local
Vista Grfica
Hacer clic en Descripcin grfica (justo debajo
del casillero a la izquierda de BLAST) para
obtener una visin general de todas las
secuencias alineadas.
La extensin de la regin correspondiente se
muestra con los espacios de colores, con las
regiones que no coinciden dibujadas como una
lnea.
El color indica porcentaje de aminocidos
idnticos. Se puede ver que los diferentes
accesos se alinean a lo largo en casi toda su
longitud.
Esta es una buena manera de comprobar si nuestro

sitio de partida es razonable.
Los pocos accesos extraos estn ms abajo.

Los genes, y pedazos de genes, pueden moverse
a nuevas ubicaciones en el genoma, se fusionan
con otros genes, se rompen, etc.
Siempre sujetos a la seleccin natural: si el gen
alterado no funciona, el organismo va a morir y
no lo podremos ver.
Por supuesto, los errores de secuenciacin y
anotacin pueden ocurrir.
Los puntos bsicos
1. ADN se puede leer en 3 diferentes marcos de lectura, una
consecuencia del cdigo gentico (3 bases de cidos = 1
amino)
2. Los genes se encuentran en largos marcos de lectura
abiertos, reas donde no existen los codones de parada.
3. BLAST es la herramienta que se utiliza para comparar las
secuencias entre especies
4. Resultados del BLAST (e-valores) describen la probabilidad
de encontrar una secuencia aleatoria de la base de datos
5. Las secuencias genticas se conservan entre las especies por
seleccin natural
6. Secuencias de ADN fuera de los genes son mucho menos
conservadas
7. La mayora de los genes son transferidos verticalmente, de
padres a hijos, pero un nmero significativo son transferidos
horizontalmente, de especies no relacionadas).
Ejemplos de uso de la Bioinformtica
1. Clasificacin de un hongo, comparando una
secuencia suya con las de una base de datos
para determinar si las hay similares
2. Visualizacin de estructuras moleculares en
tres dimensiones
3. Introduccin al anlisis de secuencias
Ejemplo 1: Identificacin de un hongo
Unos investigadores han detectado una infeccin
fngica en un cultivo agrario.
En caso de duda en la identificacin directa
(crecimiento lento del hongo, caractersticas
morfolgicas similares entre varias especies, etc.)
se puede plantear la alternativa siguiente:
Secuenciar un fragmento del ADN del hongo
Buscar en bases de datos moleculares intentando
encontrar la misma secuencia o una lo ms similar
posible (DB homology search)
Ej. 1.1 Secuencia caracterstica
Obtenemos la secuencia siguiente

gtttacgctctacaaccctttgtgaacatacc
tacaactgttgcttcggcgggtagggtctccg
cgaccctcccggcctcccgcctccgggcgggt
cggcgcccgccggaggataaccaaactctgat
ttaacgacgtttcttctgagtggtacaagcaa
ataatcaaaacttttaacaaccggatctcttg
gttctggcatcgatgaagaacgcagcgaaatg
cgataagtaatgtgaat
Ej. 1.2 Bsqueda de la secuencia en una
base de datos
1. Va internet accedemos al EBI: European
Bioinformatics Institute
2. Aqu escogemos la opcin Tools y
1. Seleccionamos Fasta3
2. Seleccionamos en DATABASES :
Nucleic ACIDS , FUNGI
3. Enganchamos la secuencia y hacemos la consulta
3. Obtendremos un listado de especies ordenado
de mayor a menor similitud
The European Bioinformatics Institute Popular
Part of the European Molecular Biology Services
Laboratory Research
EMBL-EBI provides freely available data from Training
life science experiments, performs basic research News
in computational biology and offers an extensive Jobs
user training programme, supporting researchers Visit us
in academia and industry. EMBL
Contacts
Services Overview A to Z
Service teams
Support
Bioinformatics services
We maintain the worlds most comprehensive range of freely available and up-to-
date molecular databases. Developed in collaboration with our colleagues
worldwide, our services let you share data, perform complex queries and analyse
the results in different ways. You can work locally by downloading our data and
software, or use our web services to access our resources programmatically.
DNA & RNA genes, genomes & variation

Gene expression RNA, protein & metabolite expression
Services > DNA & RNA
DNA & RNA
Popular services
Ensembl
Ensembl enables and advances genome science by
providing high-quality, integrated annotation on
vertebrate genomes within a consistent and
accessible infrastructure.
FASTA [nucleotide]
Similarity search tool for nucleotide sequence
databases.
STEP 1 - Select your databases NUCLEOTIDE DATABASES X Clear Selection110 Databanks Selected
EMBL-Bank
EMBL Release
EMBL Updates
EMBL Coding Sequence
Others
IMGT
Patents
STEP 2 - Enter your input sequence Enter or paste a sequence in any supported format:
or upload a file:
STEP 3 - Set your parameters PROGRAM
SUBMIT
Resultados de la bsqueda
FASTA searches a protein or DNA sequence data bank
version 3.3t09 May 18, 2001
Please cite:
W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448
@:1-: 241 nt
vs EMBL Fungi library

searching /ebi/services/idata/v225/fastadb/em_fun library
104701680 residues in 66478 sequences

statistics extrapolated from 60000 to 61164 sequences
Expectation_n fit: rho(ln(x))= -1.2290+/-0.000361; mu= 72.1313+/- 0.026
mean_var=907.6270+/-295.007, 0's: 68 Z-trim: 4246 B-trim: 15652 in 3/79
Lambda= 0.0426
FASTA (3.39 May 2001) function [optimized, +5/-4 matrix (5:-4)] ktup: 6
join: 48, opt: 33, gap-pen: -16/ -4, width: 16
Scan time: 3.180
The best scores are: opt bits E(61164)
EM_FUN:CGL301988 AJ301988.1 Colletotrichum glo (1484) [f] 1184 88 5.7e-17
EM_FUN:AF090855 AF090855.1 Colletotrichum gloe ( 500) [f] 1205 88 7.3e-17
EM_FUN:CGL301977 AJ301977.1 Colletotrichum glo (1876) [f] 1148 86 2e-16
EM_FUN:CFR301912 AJ301912.1 Colletotrichum fra (2870) [f] 1137 86 2.1e-16
Ejemplo 2: Visualizacin de
estructuras moleculares
RASMOL es un programa para visualizar
estructuras moleculares en tres dimensiones
Haciendo click aqu podis acceder a una gua

rpida del programa desde donde podris
descargarlo, instalarlo y ejecutarlo con facilidad
Ejemplo 3: Introduccin prctica al
anlisis de secuencias
Haciendo click aqu se accede al Bioinformatics Web
Practical del servicio de Bioinformtica de la
Universidad de Manchester (UMBER)
El objetivo de este tutorial es
Dar un vistazo a algunos recursos bioinformticos
existentes en Internet
Adquirir una primera idea sobre que es el anlisis de
secuencias
A continuacin podis ver algunas de las pantallas

que aparecern
Enganchamos una secuencia al traductor
Traduccin de la secuencia y bsqueda en OWL
La secuencia ha sido identificada
El crecimiento explosivo de datos
Hace ... Antes Ahora

Nucletidos 26 aos (1982) 680338 pb > Miles de
(GenBank) millones
Protenas 26 aos 1500 300.000
DNA continuo 16 aos 73 kb > 270 Mbases
SNPs 16 aos centenares 11 millones
Genomas 11 aos 0 1282
organismos Organismos
(mediados 2010)
Expresin 10 aos Limitado pocos Miles de
genes estudios con
miles de genes
Crecimiento de GenBank
(1982-2000)
Genomes Online Database
La informacin biolgica
La informacin biolgica se encuentra
codificada en los genes y
se expresa a partir / mediante los genes
Esta idea se refleja en el Dogma Central de
la Biologia Molecular
El dogma central
Informacin biolgica y bioinformtica
La biologa se enfrenta con el problema de la

decodificacin del lenguaje biolgico
Como se codifica la informacin en los genes?
Como (cuando, ...) se traduce esta informacin?
Ej. Splicing alternativo
Qu determina la estructura de las protenas?
Como se determina la funcin de las protenas
La bioinformtica sirve para estudiar como se
procesa toda esta informacin biolgica
PARADIGMA CENTRAL DE LA BIOINFORMATICA
Informacin Gentica > Estructura Molecular > F uncin Bioqumica > Sntomas(Fenotipo)
Los cidos nucleicos (AN) contienen la informacin
para generar los organismos:
DNA RNA PROTEINAS Funcin
Las protenas se forman con aminocidos (AA)
unidos en secuencias lineales
Las instrucciones para definir la secuencia de AA
estn codificadas en los AN por grupos de tres
nucletidos, en un cdigo gentico redundante
El cdigo gentico
Codificacin de la informacin biolgica
Las secuencias biolgicas se organizan en grupos con

un significado, en general desconocido para nosotros
Podemos distinguir una jerarqua (niveles de

organizacin) que podemos comparar con
Frases (las protenas)
Palabras (motivos o configuraciones)
Letras (Los AA o los nucletidos)
Descifrado de la informacin biolgica
Las secuencias, establecidas experimentalmente se
representan como cadenas de un alfabeto y se comparan
Regiones comunes asocian las palabras a propiedades
comunes de las molculas
Regiones diferentes revelan palabras con un sentido asociado a
propiedades que diferencian a las molculas
Muchas regiones no contienen informacin
Pero, qu es la bioinformtica?
La Bioinformtica
Nace a la par del
desarrollo de nuevas tecnologas y de
su aplicacin para la generacin de grandes
cantidades de datos.
La disciplina cientfica que engloba todos los
aspectos de la adquisicin, procesamiento,
distribucin, anlisis, interpretacin e
integracin de la informacin biolgica
Bioinformatica e
interdisciplinariedad
Qumica
Matemtica Biologa
Estadistics Biologa Molecular
Bioinformatica
Ciencia
Computadoras
Informtica Medicina
Fsica
Bioinformtica, Biologa y
Biologa Computacional
Biologa Computacional
o Bioinformtica
Biologa Computacional aplica las tcnicas de la

ciencia de las computadoras, matemtica aplicada
y estadstica para entender problemas biolgicos.
Bioinformtica es la aplicacin de la tecnologa

de la informacin al campo de la biologa
molecular.
Genmica y Bioinformtica
El futuro de la genmica reside en la fundacin del Proyecto del Genoma Humano

Los mbitos de la Bioinformtica
Organizacin de la informacin
Bases y bancos de datos
Algoritmos y herramientas de explotacin
Anlisis e interpretacin de resultados
experimentales
Secuenciacin y anlisis de genomas
Genmica Comparatva
Transcriptmica y expresin gnica
Protemica, redes de interaccin PPI
Modelos de Sistemas Biolgicos
Organizacin de la informacin
Anlisis e interpretacin
AGAGTTCTGCTCG
AG G G TTAT G C G C G
Modelizacin de sistemas biolgicos
Bioinformtica Integrativa
74
En resumen
Recursos y herramientas
Datos bioinformticos Conocimiento
Como quiera que se defina, desde donde quiera que se

mire, el papel de la Bioinformtica ha sido, es y ser
crucial para el avance de la Biologa y la Medicina del
siglo XXI
Que es un@ bioinformatic@
2 Entorno, formacin, actividades de l@s

bioinformatic@s
Que sabe un@ bioinformatic@?
Debe tener slidos conocimientos en
Alguna disciplina biolgica
Bioqumica, Gentica,
Entornos de desarrollo informticos
SO [Linux], Lenguajes[Perl, Java, R], Bases de datos [SQL],
Desarrollo web [PHP, ASP, Ajax]
Alguna disciplina cuantitativa
[Matemticas, Estadstica, Fsica]
Al menos dos de las tres anteriores!!
Que hace un@ bioinformatic@?
Gestin de la informacin
Implementacin y explotacin de bases de dados
locales o en internet.
Instalacin, mantenimiento de servidores web.
Desarrollo de aplicaciones
Elaboracin de programas locales o web,
Explotacin y anlisis de datos
Microarrays, datos de alto rendimiento
Como se hace Bioinformatica
Usualmente, aunque no necesariamente la BIF
tiene vocacin universal, de acceder al
mximo de usuarios:
Suele buscarse soluciones WEB
Suele basarse en proyectos [ms o menos] open
source de distribucin libre.
Esto no es del todo general
Por ejemplo Ingenuity Pathway Analysis no es
gratis pero es bueno.
Para saber ms:
Existen multitud de recursos gratuitos
2can en el EBI
Tutoriales del NCBI
Cursos locales
Introduccin a la Bioinformatica (A. Sanchez UEB/UB)
Invitacio a la Bioinformatica (Plataforma BIF UAB)
Una gran variedad de libros sobre el tema
List of books on bioinformatics
Revistas y sociedades cientficas
Bioinformatics, Briefings in Bioinformatics
International Society for Computational Biology

21 Bioinformatica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

21 Bioinformatica

Uploaded by

Copyright:

Available Formats

INTRODUCCIN A LA

Centros importantes a nivel mundial

Cada gen utiliza un marco de lectura nico, por lo

En un ejemplo con la secuencia 5' aactgcagtacgtaacgtca 3

+3 5' a act gca gta cgt aac gtc a 3

Puesto que 3 de los 64 codones son los

Tambin es necesario identificar posibles codones de inicio, con el

Entonces, cmo sabemos que el ORF contiene un gen de verdad?

La manera ms definitiva es que coincida con un gen conocido de

La conservacin de una secuencia entre las especies sugiere

La supervivencia del organismo depende de que la protena

Dado que el cdigo gentico es redundante, muchas

La protena est an ms conservada, porque est ms

Sin embargo, no tenemos forma de determinar la estructura 3-

Una matriz de sustitucin, da una puntuacin para cada posicin de

La base de datos se denomina "NR" por "no-redundante", y que contiene al

Vamos a utilizar el servicio de BLAST en UniProt, un consorcio europeo que

Casi todos los derivados de las secuencias de ADN: la secuenciacin directa de

Terminologa: la secuencia, que se pega en el cuadro en la pgina web, es la

Despus, la secuencia est escrito

La puntuacin ms importante es el valor esperado, o E-valor, que se puede

E-valores para buenos accesos se escriben generalmente como: 3e-42, que es

Unos e-valores muy buenos inferiores a 1e-180, sobrepasa la capacidad de

Los E-valores se ven afectados por la longitud de la secuencia consultada, as

Antes de que podamos concluir que nuestra protena es un

Las longitudes de las secuencias consultadas deben estar

No debe haber menos del 30% de aminocidos idnticos

BLAST tambin devuelve a un cuarto del valor, la puntuacin

Por su funcin: Las enzimas, gentica (ADN-> ARN-> protena), protenas

Muchos de los genes (tal vez 1/4 en un genoma tpico) no se conoce su

Pero, se sabe que algunos genes son transferidos entre

Esta es una buena manera de comprobar si nuestro

Los pocos accesos extraos estn ms abajo.

Obtenemos la secuencia siguiente

DNA & RNA genes, genomes & variation

STEP 3 - Set your parameters PROGRAM

vs EMBL Fungi library

104701680 residues in 66478 sequences

Haciendo click aqu podis acceder a una gua

A continuacin podis ver algunas de las pantallas

Hace ... Antes Ahora

La biologa se enfrenta con el problema de la

Las secuencias biolgicas se organizan en grupos con

Podemos distinguir una jerarqua (niveles de

Biologa Computacional aplica las tcnicas de la

Bioinformtica es la aplicacin de la tecnologa

El futuro de la genmica reside en la fundacin del Proyecto del Genoma Humano

Como quiera que se defina, desde donde quiera que se

2 Entorno, formacin, actividades de l@s

You might also like