You are on page 1of 29

Fundamentos de Bioinformtica

Prof. Alexis Bellorn PhD Biologa Molecular

Introduccin
Los organismos individuales y las poblaciones contienen diferentes niveles de informacin biolgica que fluyen a travs de ellos

Qu es la bioinformtica?
Es la rama computacional de la biologa molecular Esto es, el uso de aplicaciones de computadoras y bases de datos para la inferencia, anlisis y comparacin de estructuras primarias (secuencias de monmeros), secundarias y terciarias de biopolmeros Actualmente tambin se estudian y comparan genomas completos (genmica), as como toda el complejo de protenas expresadas y codificadas (protemica)

Para qu sirve la bioinformtica?


Aprender y generalizar: descubrir patrones conservados (motivos o firmas) en las secuencias, estructuras, metabolismos Predecir: inferir la funcin o estructura de una secuencia nueva de un gen, genoma, proteoma a partir de las generalizacin anteriores Organizar e integrar: desarrollar un enfoque sistemtico y genmico a las interacciones moleculares, metabolismo, sealizacin celular, expresin gentica Simular: modelos de estructura secundaria, terciaria y cuaternaria de protenas, de expresin gentica, regulacin gentica, doblado de protenas Ingeniera: construir nuevas secuencias o nuevas funciones a partir de la informacin preexistente Marcaje: reconocer secuencias especficas a las que puedan ser marcadas de alguna manera o la que se les puedan disear drogas especficas que no tengan tantos efectos secundarios

La bioinformtica se inici con el estudio de la estructura primaria o secuencias de aa en las protenas


Sanger y Tuppy (1951): primeras secuencias de residuos de aminocidos de protenas (insulina, citocromos) o estructura primaria Inicialmente se establecan y estudiaban las secuencias manualmente, hasta que se comenzaron a utilizar computadoras en 1960 Dayhoff (1972, 1978): primeras bases de datos de secuencias de protenas (PIR) clasificacin de las protenas en familias y superfamilias de acuerdo a grado de similitud

Luego se inici el anlisis de las secuencias de nucletidos del ADN


Sanger (1970): mtodo de secuenciacin manual mediante el uso de nucletidos marcados por fluorescencia Las primeras bases de datos se establecieron en Los Alamos National Laboratory (LANL), que luego dio lugar al GenBank, y el European Molecular Biology Laboratory (EMBL) en Heidelberg

Cdigos para anotar los nucletidos que forman el ADN

Cdigos de los 20 aminocidos que forman las protenas

La bioinformtica produce un vasto volumen de datos que crece exponencialmente

La bioinformtica se basa en una gran diversidad de tipos de datos

Ejemplos de productos de la bioinformtica


Bases de datos (p.ej. GenBank) Alineamientos de secuencias (p.ej. Blast y otros programas de alineamiento) Descubrimiento de motivos conservados entre secuencias de biomolculas provenientes de distintas fuentes (p.ej. De duplicaciones gnicas) Inferencia de filogenias y genealogas Inferencia de la estructura secundaria, terciaria y cuaternaria de protenas Generacin de microarrays

Principales bases de datos

http://www.ncbi.nlm.nih.gov/

Formatos de las secuencias


Formato de Genbank

Formato de FASTA (Pearson y Lipman 1988)

Obtencin de secuencias de ADN o protenas del GenBank


ENTREZ Por nmero de acceso Por el buscador taxonmico Por palabra clave Por publicacin o autor Se recomienda salvar las secuencias en formato FASTA

Identificacin de una secuencia desconocida en GenBank


BLAST Se debe copiar la secuencia desconocida (query ) en formato FASTA Se realiza la bsqueda dependiendo si es una secuencia de nucletidos, protenas, estructuras, etc. El BLAST produce alineamientos de la secuencia query con las secuencias depositadas en el GenBank ordenndolas de acuerdo a los mejores puntajes de coincidencia

ALINEAMIENTO: obtencin de la homologa posicional entre dos secuencias que tambin son homlogas

Alineamientos par a par de secuencias, preferiblemente homlogas

Mtodo matricial de comparacin de secuencias par a par


Identificacin de regiones homlogas entre dos secuencias

Los alineamientos mltiples permiten descubrir ms fcilmente regiones variables y regiones conservadas

Los motivos normalmente corresponden a regiones de la estructura primaria con incidencia en el fenotipo

Alineamiento mltiple y estructura secundaria de consenso para los homlogos de sRNA-Xcc1

Alineamiento simple y mltiple computarizado (CLUSTALW)


http://www.genome.jp/tools/clustalw/

El paradigma central de la bioinformtica


La estructura primaria de los genes y protenas es unidimensional, pero su funcin depende de la estructura tridimensional

El polimorfismo en la estructura primaria de las biomolculas es la base de los anlisis comparativos


Las comparaciones de la estructura primaria de una misma protena (y ms tarde de un mismo gen) en diferentes organismos, llevaron al descubrimiento de los polimorfismos genticos a nivel molecular: las secuencias genticas podan tener diferencias entre una especie y otra

Alineamiento mltiple de secuencias de la subunidad II de la protena citocromo - c - oxidasa (COII) en diferentes animales

Existen mutaciones neutras y silenciosas que producen el polimorfismo molecular


Los genes poseen pequeas diferencias entre una especie y otra (polimorfismos), algunos afectan a la regin codificante o reguladora y producen cambios importantes en la estructura de la protena o en el mecanismo de regulacin de la expresin, y pueden traducirse en diferentes fenotipos; otros no tienen consecuencias (neutros y silenciosos) Un polimorfismo puede consistir en la sustitucin de una simple base nitrogenada, o la delecin o insercin de una (SNP o mutaciones puntuales), o puede ser ms complejo (por ejemplo, insercin o borrado de un fragmento de la secuencia).

Los dos tipos de SNP: sustitucin (transicin o transversin) o indel

Las mutaciones neutras no producen cambios en la protena


Por ejemplo, mutaciones puntuales ocurren en la segunda y tercera posicin del codn y no afectan el aminocido codificado

Mutaciones silenciosas: cambios en los aminocidos que no alteran la funcin

Secuencias de aa del citocromo c

Inferencia de las relaciones filogenticas probables de tres secuencias

Inferencia de filogenias basadas en comparacin de secuencias


1. las secuencias deben ser homlogas 2. No debera estar sujetas a transferencia lateral de genes 3. Dependiendo del nivel taxonmico-evolutivo de la comparacin, las secuencias deberan contener el suficiente polimorfismo para ser informativas, pero a la vez no ser tan variables para posibilitar el alineamiento MTODOS GENERALES:
Distancias Mxima parsimonia Mxima versomilitud Mximas Probabilidades posteriores (anlisis Bayesianos)