You are on page 1of 8

Cátedra Biología Molecular

Facultad de Ciencias Naturales e IML


-2015-

Trabajo Práctico N4


SECUENCIACIÓN Y GENÓMICA

1- Objetivos

• Que el alumno comprenda y maneje términos referentes a procesos de


secuenciación y análisis de genomas.
• Que el alumno comprenda la importancia de la era genómica en la revolución de las
ciencias biológicas.
• Que el alumno conozca las aplicaciones de esta disciplina en las ciencias biológicas.
• Que el alumno sea capaz de analizar genomas mediante programas y bases de datos
disponibles on line.
• Que el alumno conozca y tenga un manejo básico de los programas bioinformáticos
más usados, disponibles para anotaciones de genes.

2- Introducción

SECUENCIACIÓN

La secuenciación del ADN es la técnica que permite determinar la secuencia, es decir, el


orden de bases de nucleótidos en una determinada porción continua de ADN, pudiendo ser
esta porción parte de un gen, un gen completo o incluso un genoma.
La primera generación de técnicas para efectuar la secuenciación del ADN empezó en 1975
con la metodología de Sanger y Coulson, la “más y menos” (del inglés, “plus and minus”),
la cual necesitaba clonar cada lectura inicial para producir un ADN de cadena simple. En
1977, Maxam y Gilbert publicaron la metodología de secuenciación de ADN mediante
degradación química. Este método estaba basado en la modificación química y posterior
rotura del ADN, y empezó a ser el método de secuenciación más utilizado porque permitía
utilizar un ADN purificado sin necesidad de clonarlo. El mismo año Sanger publico el
método de secuenciación de ADN por síntesis química o enzimática, que estableció un
nuevo estándar para los próximos 30 años. El método de Sanger permitía leer 25 bases (b) y
más tarde, 80 b, utilizando los terminadores dideoxi. El método fue optimizado con la
utilización de dideoxinucleótidos fluorescentes en vez de productos tóxicos y radioisótopos,
detección automatizada, mayor rendimiento y precisión, permitiendo leer 1.000 b.
Estos avances representaron una revolución fascinante, porque permitieron descifrar
inicialmente genes y eventualmente los genomas completos, aunque con un alto costo para
el segundo caso.

El método de Maxam y Gilbert para secuenciar ADN


El método de Sanger para secuenciar ADN.

- 62 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

La segunda generación de plataformas de secuenciación de ADN (también llamada de


siguiente generación; del inglés, “next-generation”) fue desarrollada hace sólo cinco años,
aumentando la efectividad de la secuenciación del ADN algunos ordenes de magnitud. Así,
permitió generar lecturas de gigabases en una sola corrida o experimento (del inglés,
“run”). Cuatro plataformas de segunda generación han sido comercializadas por el
momento:
1) El instrumento 454 (454 Life Sciences), está basado en emulsión, secuenciación por
síntesis (SBS; del inglés, “sequencing-by-synthesis”) y pirosecuenciación. Este desarrollo
fue publicado en 2005, comprado por Roche Diagnostics en 2007 y vendido como el
“Genome Sequencer 20 System” y el “Genome Sequencer FLX System” (Roche Applied
Sciences) <https://www.roche-appliedscience. com/sis/sequencing/index.jsp>. La
tecnología 454 empezó leyendo 100 b, después de 16 meses podía leer 250 b, y ahora más
de 400 b.
2) El protocolo de secuenciación de „polonias‟ multiplexadas (del inglés, “multiplex polony
sequencing protocol”) es parecido al método mencionado anteriormente, pero es más barato
porque usa instrumentos y reactivos estándar. Las bibliotecas genómicas obtenidas por la
técnica de perdigonazos (del inglés, “shotgun genomic libraries”) son amplificadas en
microesferas mediante PCR por emulsión. Después, son utilizadas como sustratos para
hacer la secuenciación con las reacciones fluorescentes de ligación nonamérica sobre un
portaobjetos de microscopio, generando millones de lecturas de 26 pares de bases (pb), de
modo que cualquier laboratorio pueden desarrollar este método.
3) El “Genome Analyzer System” (Solexa) combina la química SBS con terminadores y
tecnología de grupos (del inglés, “cluster”). La compañía fue adquirida por Illumina en
2007, produciendo el “Genome Analyzer Sequencing System”
<http://www.illumina.com/pages.ilmn?ID=204>. Este tipo de tecnología genera diez veces
más lecturas que la 454, pero con solamente 35 b o menos en longitud.
4) El “SOLiD System” (Applied Biosystems) usa una química basada en ligasa y fue
producido en 2007 <http://solid.appliedbiosystems.com>.
La segunda generación de plataformas de secuenciación de ADN difiere de los métodos
tradicionales de secuenciación en dos aspectos:
a) En vez de hacer una secuenciación de clones de ADN de algunos individuos (p. ej., 96
secuenciaciones de sustratos en un secuenciador capilar Sanger), cientos de miles (sistema
454) o miles de millones (Solexa y SOLiD) de moléculas de ADN son secuenciadas en
paralelo, usando volúmenes de reacción menores.
b) Las secuencias obtenidas son generalmente mucho más cortas (25-50 nucleótidos para
las tecnologías de „polonias‟, Solexa y SOLiD, aunque pueden alcanzar 200- 400
nucleótidos para el sistema 454) que las generados por secuenciación tradicional.
No obstante, el costo de los nuevos instrumentos es mayor
(aproximadamente, unos 500.000 dólares) que los que usan el método de Sanger (de 10.000
a 100.000 dólares), que también pueden realizarse con instrumentación manual más barata
usando radioisótopos o fluoróforos. Métodos de Secuenciación de DNA y equipos de
secuenciación masiva. Como ejemplo práctico de estos avances, la primera secuenciación
del genoma humano ( Homo sapiens sapiens) ha requerido cientos de máquinas trabajando
24 horas al día, durante 13 años, con un costo de más de 300 millones de dólares. Más

- 63 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

tarde, el genoma diploide de una sola persona (J. Craig Venter) fue leído mediante
secuenciación de genomas completos por perdigonazos (del inglés, “wholegenome shotgun
sequencing”), necesitando 10 años y 70 millones de dólares, usando la tecnología
optimizada de Sanger. Por su parte, el genoma de Watson fue secuenciado en sólo dos
meses y un costo de un millón de dólares, usando la maquina “454 Life Sciences”.
Otro ejemplo es la secuenciación del genoma del “ornitorrinco” ( Ornithorhynchus
anatinus), revelando marcas únicas de su evolución, con genes que aparecen en reptiles, o
aves y otros de mamíferos. Esta mezcla fascinante de características en el genoma del
“ornitorrinco” proporciona pistas sobre el rol y la evolución de los genomas de los
mamíferos.
La tercera generación (también llamada “next-next-generation”) de la secuenciación de
ADN ha sido producida en 2008, con químicas revolucionarias de una sola molécula:
1) El secuenciador HeliScope de molécula única (del inglés, “HeliScope Single Molecule
Sequencer”), de Helicos BioSciences <http://www.helicosbio.com>, fue anunciado este
año. Ofrece lecturas muy precisas de 25 a 45 bases para miles de millones (millardos) de
cadenas en un solo experimento (produciendo más que 2 Gb de datos de secuenciación por
día), y hasta un millardo de bases por hora en el futuro
<http://www.helicosbio.com/Portals/0/Vid eos/tSM S-How_It_Works.flv> Ello es debido
al uso de la verdadera secuenciación de molécula única (del inglés, “true Single Molecule
Sequencing” (tSMS), para leer hebras individuales de ADN.
2) “VisiGen Biotechnologies” <http://visigenbio.com> no ha sido producido todavía, pero
promete micromatrices masivamente paralelas (del inglés, “microarrays”) de
nanomáquinas, con una tasa de secuenciación de un Mb/s/maquina (más de 86 Gb de
secuencia de datos por día)
<http://visigenbio.com/flash/stream/visigen_movie_6mb.swf>, leyendo también moléculas
simples.
Estos avances permitirán reducir el precio de la secuenciación de uno a dos órdenes de
magnitud, lo cual propiciará el desarrollo del “la genómica personal”: hacer la
secuenciación de todo el genoma humano de cualquier persona en menos de un día, por
1.000 dólares o menos.
Por otra parte, la tercera generación de métodos de secuenciación es tan poderosa que
permite hacer estudios no solamente de genómica estructural, sino también de genómica
funcional y consenso de secuencias, incluyendo : i) ChIP-Seq, que está basado en la
inmunoprecipitación de cromatina (ChIP), para mapear in vivo las secuencias del ADN
ocupadas por proteínas de unión al ADN; ii) Sec-ARNm (del inglés, “mRNA-Seq”), para
estudiar la expresión de genes; y iii) Sec-Metil (del inglés, “Methyl-Seq”), para analizar los
patrones de metilación. Estos procedimientos se pueden aplicar también al ADN antiguo,
siempre que ADN, ADN-proteína o ARNm pueda ser aislado de tales muestras.

GENÓMICA
Un genoma es el conjunto de secuencias de ADN que caracterizan a un individuo. Por
extensión a las secuencias de ADN características de una especie se les conoce igualmente
como genoma.
La secuenciación del genoma, es un proceso de laboratorio que determina la secuencia el

- 64 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

total del ADN del genoma de un organismo de una sola vez. Esto implica la secuenciación
de todo el ADN cromosómico, así como el ADN contenido en la mitocondria y, en el caso
de las plantas, en el cloroplasto del organismo. Casi cualquier muestra biológica, incluso
una cantidad muy pequeña de ADN o de ADN antiguo, puede proporcionar el material
genético necesario para la secuenciación del genoma completo. Las muestras podrán
incluir la saliva, células epiteliales, médula ósea, el pelo (siempre y cuando el pelo
contiene un folículo del pelo), semillas, hojas de plantas, o cualquier otra parte con
células que contienen ADN. Debido a que la secuencia de datos que se produce puede ser
muy grande (por ejemplo, hay aproximadamente seis mil millones de pares de bases en
cada genoma diploide humano), los datos genómicos se almacenan electrónicamente y
requieren una gran cantidad de potencia informática y capacidad de almacenamiento. Es
por ello que la secuenciación del genoma completo habría sido casi imposible antes de la
llegada de los microprocesadores, los ordenadores y la era de la información.
A diferencia de la genética clásica que a partir de un fenotipo, generalmente por un
mutante, busca el o los genes responsables de dicho fenotipo, la genómica tiene como
objetivo predecir la función de los genes a partir de su secuencia o de sus interacciones
con otros genes. Así, la genómica tiene un enfoque distinto para responder preguntas
biológicas cuando se compara a otras ramas de la biología más tradicionales. Por lo tanto
genómica es el conjunto de ciencias y técnicas dedicadas al estudio integral del
funcionamiento, el contenido, la evolución y el origen de los genomas. Es una de las áreas
más vanguardistas de la Biología. La genómica usa conocimientos derivados de distintas
ciencias como son: biología molecular, bioquímica, informática, estadística, matemáticas,
física, etc. Muchas veces, la genómica es usada como sinónimo de otras áreas de estudio
relacionadas, como la proteómica y la transcriptómica, por ejemplo.
Las ciencias genómicas han tenido un importante auge en los últimos años, sobre todo
gracias a las tecnologías avanzadas de secuenciación de ADN, a los avances en
bioinformática, y a las técnicas cada vez más sofisticadas para realizar análisis de
genomas completos. El desarrollo de la genómica ha contribuido al avance de distintos
campos de la ciencia como la medicina, la agricultura, etc; gracias al descubrimiento de
secuencias de genes necesarias para la producción de proteínas de importancia médica y
a la comparación de secuencias genómicas de distintos organismos. Por ejemplo en varios
países como Estados Unidos, la Unión Europea y Japón se han realizado enormes
proyectos para secuenciar el genoma de diversos organismos modelo. Probablemente el
más conocido es el Proyecto Genoma Humano. En la actualidad se cuenta además con
importantes servidores de acceso público, como el del NCBI (National Center for
Biotechnology Information), que permiten que cualquier usuario con conexión a Internet
acceda a la secuencia completa del genoma de decenas de organismos y a las secuencias
de cientos de miles de genes de distintos organismos.
De acuerdo a la página web
http://www.genomenewsnetwork.org/resources/sequenced, hasta el presente se han
secuenciado el genoma completo de 189 organismos.
LA GENÓMICA EN EL FUTURO
Los genomas que han sido secuenciados han sido muy útiles para la humanidad, pero es
una mínima parte del total de genomas existentes. La secuenciación de estos genomas

- 65 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

aportará una información muy valiosa para el tratamiento de enfermedades, la


agricultura y la biotecnología. Las secuencias genómicas completas de mamíferos
ayudarán al entendimiento de la evolución y función del genoma humano. En el futuro,
la información sobre la secuencia genómica completa podrá aplicarse en el tratamiento
individual de pacientes, incluso en recién nacidos, dando lugar a una medicina más
individualizada. El conocimiento de secuencias completas también tiene un aspecto
negativo, ya que puede llevar a la discriminación de algunas personas identificadas como
portadores de secuencias que determinen enfermedades, trastornos y rasgos físicos.
PROGRAMAS BIOINFORMÁTICOS PARA ANOTACIÓN Y ANÁLISIS DE
GENOMAS
P lataforma RAST
Es un servicio totalmente automatizado para la anotación de genomas. El servicio
identifica la codificación de la proteína de genes, rRNA y tRNA, le asigna funciones,
predice que los subsistemas están representados en el genoma, usa esta información para
reconstruir la vía metabólica, y hace que sea fácil descargar toda la información.
Además, de la anotación del genoma, se puede navegar en un entorno para apoyar el
análisis comparativo de los genomas anotados que están presente en el entorno del
sistema SEED.
La anotación completa se produce normalmente dentro de las 12-24 horas, y la actual
aplicación puede realizarla a un promedio de entre 50 a 100 genomas por día. Sin
embargo, es importante tener en cuenta que la velocidad no es el tema central, sino los
requisitos de ese sistema son, exactitud, integridad y la coherencia, en última
instancia, serán los criterios utilizados para evaluar el éxito o fracaso de un
servicio. Hasta la fecha, el servidor ha sido utilizado por más de 120 de los usuarios
externos para anotar más de 350 genomas.
Por otra parte los bancos de datos NMPDR y la SEED facilitan el acceso a todos los
genomas público sin necesidad de tener una cuenta de usuario. Para acceder al RAST, en
cambio, se debe abrir una cuenta gratuita de usuario para que el acceso a sus datos
y puedan ser mantenido bajo control del interesado. Las herramientas disponibles en el
RAST para comparar sus datos privados con nuevos genomas ya publicados
son en su mayoría las mismas que las disponibles para el análisis de genomas público
presentes en la plataforma NMPDR (www.nmpdr.org org).
La plataforma RAST pretende lograr la precisión, consistencia, y la integridad en el uso
de una creciente biblioteca de subsistemas que son manualmente controladas, y en las
familias de proteínas en gran parte derivados de los subsistemas (FIGfams).
S ubsistemas del RAST
Un gen es asignado a una determinada categoría de genes, las cuales se denominan como
subsistemas. Un subsistema es un conjunto abstracto de funciones orgánicas. Por ejemplo,
la siguiente figura muestra un caso muy simple en el que un subsistema llamado
"Utilización tricarbalilato" se compone de cuatro roles funcionales.
El subsistema lo que hace es conectar los roles funcionales
de genes específicos en los genomas, produciendo una hoja de cálculo en el subsistema,
donde cada fila representa un genoma y cada columna corresponde a un papel funcional.
El esfuerzo cooperativo del desarrollo de los subsistemas ha producido una disponibilidad

- 66 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

al público de un conjunto de subsistemas que ahora incluye más de


600. Estos subsistemas incluyen afirmaciones de la función de más de 500.000 genes
codificadores de proteínas en más de 500 genomas de bacterias y arqueas (en relación
con más de 6.200 roles funcionales). Si bien es cierto que la calidad de las afirmaciones
varía sustancialmente, también es cierto que estos conjuntos estructurados de
afirmaciones representan un recurso importante en la construcción de los sistemas de
anotación automática.
Programa ARTEMIS.
rograma Artemis es una herramienta de visualización y anotación libre de genoma que
permite la
visualización de las características de la secuencia y los resultados del análisis en el
contexto de la secuencia y su traducción de sus seis-marcos de lectura. Puede leer las
entradas o secuencias de base de datos en EMBL y GENBANK, en FASTA o en un
formato
no procesado. Las características de la secuencia adicionales pueden ser en formato
EMBL, GENBANK o GFF.
ARTEMIS lee las características y secuencia desde el archivo y muestra las características
en una traducción de la secuencia en sus seis-marcos de lectura. Dos vistas de la
secuencia se exhiben y las dos pueden ser ampliadas al nivel de base, o disminuidas para
mostrar la secuencia completa. También hay una lista de características en la parte
inferior de la ventana.
Además de esta pantalla básica, ARTEMIS puede trazar los resultados de los cálculos en la
secuencia, o en cualquiera de las características de CDS (secuencias de ADN
codificantes). Los marcos de la secuencia están atados a la visualización de la secuencia y
ampliados o disminuidos al cambiar el nivel del enfoque. Para cada uno de los marcos,
podrás ajustar el tamaño de la ventana para adaptarse al nivel del enfoque.
Además de las capacidades de visualización de la secuencia descritas anteriormente,
ARTEMIS puede mostrar los resultados de numerosos análisis de la secuencia; las
predicciones CDS, BLASTN, BLASTX en-marco, tRNA y las búsquedas por motivo, etc.
pueden ser todos vistos e incorporados en la anotación. ARTEMIS también ejecuta los
análisis en los conjuntos de características CDS, tales como las búsquedas FASTA y
BLASTP
y permite que los resultados sean visualizados directamente desde el objeto seleccionado.
La información adicional, así como la función en colores, las clasificaciones funcionales,
etc. también se puede añadir a la anotación, y el archivo final escrito con todas estas
características intactas y para uso interno, o con características no-EMBL puede ser
guardadas o no.
La característica de alejamiento de la imagen se puede utilizar para mirar los genes en el
contexto de amplias cantidades de secuencias.
3- Actividades prácticas
3.1. Analizar los resultados de un genoma anotado y disponible mediante la Plataforma
RAST.
1. Entrar a la página http://rast.nmpdr.org/
2. Introducir Login: LACTOCINA y password:

- 67 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

IZ8jbAW
3. Seleccionar SeedViewer
4. Seleccionar el organismo del que se quiere analizar el genoma completo
5. Seleccionar Anopheles gambiae
6. En esta página, se abre una tabla que muestra cuantos contig (fragmentos vecinos
derivados de una fuente de secuenciación simple) hay, el número de genes que se
asignan para completar los subsistemas y las categorías de subsistemas representados
en su genoma. Ahora, copia esos datos y realiza una tabla con esta información en un
archivo word.
7. La página de la información del genoma muestra un gráfico circular de subsistemas
completos identificados en el genoma. Se puede ampliar las categorías para ver las
subcategorías y nombres de subsistema, junto con el número o las proteínas asignadas
a cada uno. La tabla (haga clic en el botón verde "Características de los subsistemas")
y ello ofrece un acceso similar, y usted puede seleccionar la categoría de
los "carbohidratos", desde la parte superior de la columna. Desde la categoría
carbohidratos, ya sea en el gráfico o tabla, puede hacer clic para abrir los
subsistemas de la glucólisis y de la Gluconeogénesis.
8. Haciendo clic en cualquiera de los genes del genoma recién anotado se abre la página
de “Información general de anotación”, por lo que se abre en una nueva ventana o
pestaña. Copia y realiza un resumen de la información de los genes que seleccionaste.
3.2. Anotación de genes mediante Programa ARTEMIS.
1. Abre la secuencia FASTA (Ava1) que te facilita el docente, utilizando el comando
File/Open. Observa que al abrir el archivo, aparecen tres ventanas, una inferior
vacía y dos superiores que muestran la secuencia nucleotídica y las secuencias
aminoacídicas correspondientes a las traducciones en los seis marcos de lectura
posibles (tres marcos de lectura por hebra) (Figura 1).
2. Utilizando la opción Create/Mark ORF (open reading frames), se establecen los
posibles ORFs, con un largo superior a 100 aminoácidos
3. El programa identifica diversas regiones de una secuencia, como unidades con un
determinado significado, a las cuales se les pueden asignar nombres y anotar datos
acerca de ellas. Estas regiones se denominan “features” (características o marcas),
y pueden ser ORFs, exones, etc.
4. Analiza los features (en este caso ORFs) obtenidos utilizando BLAST. Los features
aparecen indicados en la ventana inferior como CDS. Debes seleccionar cada uno
de los CDS y presionando el botón derecho del mouse sobre el feature, y utilizando
la opción View/Amino Acids of selection as FASTA (también se puede seleccionar
la secuencia nucleotidíca View/Bases of selection as FASTA) podrás obtener la
secuencia de cada CDS para su análisis.
5. Utilizando la información obtenida mediante BLAST, ahora puedes editar la
información contenida en los features, haciendo click con el botón derecho, y
seleccionando la opción Edit/Selected feature in editor. En la ventana que se abre
se puede modificar el nombre del feature con la opción Key, y agregar
información, colores, etc., con la opción Add Qualifiers.
6. Los features pueden estar separados de la secuencia en un archivo aparte

- 68 -
Cátedra Biología Molecular
Facultad de Ciencias Naturales e IML
-2015-

denominado “entry”. Abre la entry localizada en el archivo Ava1_entry y observa


los features ahí contenidos (File/read an entry). Este archivo fue realizado por el
investigador que depositó la secuencia en el GenBank.
7. Compara el tamaño de los ORFs obtenidos con los anotados en Ava1_entry. ¿Se
encuentran diferencias? Si es así, explica por qué. Si es necesario, modifica el
tamaño de los ORF de acuerdo a los datos obtenidos mediante BLAST.
8. Tu también puedes bajar el archivo con todas las anotaciones o features
directamente del Genbank. Para esto utilice la opción File/Open from EBI y
coloque el número de accessión (Acc. Number: DQ985395). Para obtener
información adicional sobre los features anotados dirigete a View/view selected
features. ¿Qué información posee el tercer CDS?. Incluye la información adicional
en el panel de features (panel 5, Figura 1).
Figura 1. Ventana principal de artemis.
1. Menú desplegable principal
2. “entry” activas. Las “entry” actúan como capas o layers en las que puedo
realizar anotación. Puedo crear tantas como desee y se utilizan para organizar la
información en unidades independientes.
3. Panel principal de visualización de las secuencias. Las líneas grises representan
las hebra forward (superior) y reverse (inferior). Se representa también las
secuencias aminoacídicas correspondientes a las traducciones en los seis marcos
de lectura posibles (tres marcos de lectura por hebra). Las líneas negras verticales
representan los codones stop. Las regiones coloreadas representan los distintos
“features” que han sido anotados en la secuencia.
4. Este panel tiene la misma estructura que el panel principal de visualización
pero ha sido aumentado para visualizar las secuencias nucleotídicas y
aminoacídicas.
5. Este panel indica los distintos “features” que presenta la secuencia.
6. Barras para aumentar o disminuir los paneles
7. Barras para movilizarse en la secuencia
8. Barras para desplazar los “features”.

- 69 -

You might also like