You are on page 1of 39

Bioinformtica

Breve Historia
La aparicin de las secuencias completas del genoma humano y
cientos de otros genomas es el producto de un siglo de
investigacin dirigido a comprender la informacin gentica.
Comienzos del siglo XX: redescubrimiento de las leyes de Mendel.
Durante el primer cuarto de siglo, la biologa descubri que la base
celular de la informacin eran los cromosomas.
Durante el segundo cuarto de siglo, se descubri que la base
molecular de la informacin era el DNA.
Durante el tercer cuarto de siglo, se definieron los mecanismos
que utilizan las clulas para leer esta informacin y se
desarrollaron las herramientas de DNA recombinante.
Durante el ultimo cuarto de siglo, la biologa se volc a colectar
informacin gentica - primero de genes, luego de genomas
completos.

La cantidad de datos es enorme

Secuencia DNA

Secuencia Protena

Reconocimiento

Estructura 3D
6

La vida real sin embargo


>gi|261252063|ref|NZ_ACZV01000005.1| Vibrio orientalis CIP 102891
VIA.Contig80, whole genome shotgun sequence
ACGCGTTAAGTAGACCGCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAATGAATTGACGGGGGCCCGC
ACAAGCGGTGGAGCATGTGGTTTAATTCGATGCAACGCGAAGAACCTTACCTACTCTTGACATCCAGAGA
AGCCGGAAGAGATTCTGGTGTGCCTTCGGGAACTCTGAGACAGGTGCTGCATGGCTGTCGTCAGCTCGTG
TTGTGAAATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTATCCTTGTTTGCCAGCGAGTAATGTCGG
GAACTCCAGGGAGACTGCCGGTGATAAACCGGAGGAAGGTGGGGACGACGTCAAGTCATCATGGCCCTTA
CGAGTAGGGCTACACACGTGCTACAATGGCGCATACAGAGGGCAGCCAACTTGCGAAAGTGAGCGAATCC
CAAAAAGTGCGTCGTAGTCCGGATTGGAGTCTGCAACTCGACTCCATGAAGTCGGAATCGCTAGTAATCG
TGGATCAGAATGCCACGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGGAGTGGG
CTGCAAAAGAAGTAGGTAGTTTAACCTTCGGGAGAACGCTTACCACTTTGTGGTTCATGACTGGGGTGAA
GTCGTAACAAGGTAGCCCTAGGGGAACCTGGGGCTGGATCACCTCCTTATACGATGATTACTCACGATGA
GTGTCCACACAGATTGATATGTCTTTATTAGAGCTTTGAGGGGCTATAGCTCAGCTGGGAGAGCGCTTCG

Secuencia Protena

Secuencia DNA
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM

Reconocimiento

95
96
97
98
99
100
101
102
103
104
105
106
107
108
109

CE2
CE3
CZ2
CZ3
CH2
N
CA
C
O
CB
CG
OD1
OD2
N
CA

TRP
TRP
TRP
TRP
TRP
ASP
ASP
ASP
ASP
ASP
ASP
ASP
ASP
PHE
PHE

115
115
115
115
115
116
116
116
116
116
116
116
116
117
117

28.381
27.500
27.750
26.888
27.053
26.290
25.763
24.689
24.564
26.872
26.368
25.812
26.590
23.915
22.766

8.071
9.825
7.155
8.895
7.584
11.255
10.825
11.802
12.103
10.617
10.397
9.294
11.276
12.348
13.148

33.915
32.526
33.103
31.705
32.002
36.778
38.096
38.607
39.797
39.142
40.557
40.721
41.416
37.709
38.156

Estructura 3D

1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00

10.00
10.00
10.00
10.00
10.00
10.00
10.00
10.00
10.00
50.00
50.00
50.00
50.00
10.00
10.00

El resultado:
De ser una ciencia puramente experimental(con base en el
laboratorio) la biologa est siendo transformada en una ciencia de la
informacin
La informacin acumulada no slo es informacin gentica
(secuencias de DNA)
expresin de RNAs
interaccin entre protenas
estructuras tridimensionales
Anulacin sistemtica de genes (knockouts, RNAi) que produce
informacin de fenotipo
Cada vez ms diversos estudios comienzan con el anlisis de bases
de datos para luego formular hiptesis o disear experimentos.
Trabajo de laboratorio termina en la acumulacin de colecciones
masivas de datos que deben ser luego analizados.

Porqu surgue la bioinformtica

Las planillas de MS Excel ya no alcanzan.


Globalizacin de la informacin y de los recursos.
Necesidades de clculo intensivo
Necesidades de modelado intensivo
Contrastar por modelos lo observado en la realidad
Tecnologas de alto rendimiento, un nuevo
paradigma
.

Bioinformtica..
El trmino se acuo por primera vez en 1988 por la Dra. Hwa Lim
La definicin original era:
a collective term for data compilation, organisation, analysis and dissemination

La bioinformtica es el campo de la ciencia en donde la

biologa, la ciencia de la computacin, y la tecnologa de


informacin se funden en una disciplina.
El objetivo principal es el descubrimiento de nuevos indicios
biolgicos, como tambin crear una perspectiva global de la
cual poder unificar principios de la biologa.
(NCBI Education)

Origen de la informacin
Investigaciones individuales
Buena calidad pero limitada cantidad

Proyectos de secuenciacin masiva: EST, HTS,


genomas.
Gran cantidad de datos. Calidad no segura.
Frecuente actualizacin

Bases de datos
Una Base de Datos es un conjunto
de
datos
relacionados
y
almacenados para un proposito
particular con una estructura
lgica.
Base de Datos = Estructura + Datos.

Principales proveedores de secuencias


Bases de datos
DNA
EMBL, Genbank, DDBJ
Protein
Swissprot/TrEMBL, PIR

Ventajas: rpidas de formular; no hay que leer el manual; ni hacer un curso


Desventajas: poco selectivas

Ejemplo: Entrez (PubMed)


Entrez busca en una serie de listas para ver si la palabra ingresada se
encuentra en alguna

MeSH (Medical Subject Headings): vocabulario controlado utilizado


para indexar artculos en PubMed.
Journals: nombre completo del journal, abreviaturas usadas en
MEDLINE y nmeros ISSN.
Lista de frases: cientos de miles de frases generadas a partir de
MeSH y otros vocabularios controlados similares.
ndice de autores: apellido e iniciales.

Bsquedas avanzadas
Presuponen un cierto conocimiento sobre la organizacin subyacente de
los datos
Hay que especificar sobre qu campos buscar: hay que conocer los
campos
Entrez: se especifican entre corchetes Tags predefinidos (hay que
conocerlos)
Escherichia coli[organism]
review[publication type]
attenuator[feature key]
SRS: formulario avanzado (no hay que conocer trminos)

14/10/2009

Genmica aplicada a la medicina clnica

22

14/10/2009

Genmica aplicada a la medicina clnica

23

TEXT

14/10/2009

Genmica aplicada a la medicina clnica

27

14/10/2009

Genmica aplicada a la medicina clnica

28

14/10/2009

Genmica aplicada a la medicina clnica

29

REQUISITO BSICO

Genmica Funcional
Busca y da significado a las secuencias del
genoma:
- Identificacin de genes
- Organizacin
- Funcin
Objetivo: identificacin de todas las molculas
de ARNm transcriptas por un genoma
(Transcriptoma) y de todas las protenas
codificadas por el mismo (Proteoma)

Prediccin de funciones a
partir de la secuencia.
Bsqueda de homlogos.
Alineamientos y
comparacin de
secuencias.
Las secuencias homlogas estn relacionadas
evolutivamente:
Genes ortlogos: genes homlogos
encontrados en especies diferentes que
evolucionaron a partir de un mismo gen de un
ancestro comn
Genes parlogos: genes homlogos en un
mismo organismo originado por duplicacin
de un gen individual en el pasado evolutivo.

Formato FASTA
Formato basado en texto.
Representa secuencias de ADN o de protenas.

Usan letras para representar pares o residuos de


protenas.
Permite introducir nombres y comentarios.

PRACTICA:

You might also like