You are on page 1of 7

Carrasco Ziga Daniela Cuestionario Bioinformtica CONTESTE de forma breve y concisa. 1.- Qu es la bioinformtica?

La bioinformtica consiste en analizar, comprender y predecir procesos biolgicos con la ayuda de herramientas computacionales. Es una ciencia estratgica imprescindible para dar sentido a la avalancha de nuevos datos biolgicos, para explicar el funcionamiento de los sistemas biolgicos y para la nueva generacin de recursos, bienes y servicios que se deriven de los nuevos conocimientos y tecnologas. 2.- Qu es una base de datos? Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemticamente para su posterior uso. 3.- Qu es el GenBank y para qu sirve? Es la base de datos de secuencia gentica NIH, una coleccin comentada de todas las secuencias de ADN disponibles al pblico. GenBank es parte de la base de datos de secuencias de nucletidos Colaboracin Internacional , que comprende el banco de datos de ADN de Japn (DDBJ), el Laboratorio Europeo de Biologa Molecular (EMBL) y GenBank en NCBI. Estas tres organizaciones intercambian de datos sobre una base diaria. La base de datos GenBank est diseada para proporcionar y fomentar el acceso de la comunidad cientfica a la ms actualizada y completa informacin de la secuencia de ADN. 4.- A qu se refiere el nmero de referencia de un gen o una secuencia en el GenBank? El GenBank es una coleccin publica de secuencias tanto de protenas como de cidos nucleicos con soporte bibliogrfico (referencias tomadas de la literatura reportada) y notacin biolgica (especie y origen). La base de datos del GenBank crece de una manera exponencial, este crecimiento es debido a la forma misma en que la base se actualiza. Son los mismos autores quienes se encargan de mantener la base al da, pero adems de remisiones de autores, el GenBank se nutre tambin de las otras bases de datos existentes actualizando interactivamente sus ficheros. En el ltimo ao segn estimativos oficiales creci en 690000 nuevas secuencias, cerca de 30000 especies estn presentes en el GenBank, nuevas especies son aadidas a una velocidad calculada de 600 por mes. La porcin del genoma humano constituye un 57% del total. Sin embargo estn tambin por ejemplo: Caenorhabditis elegans, Arabidopsis thaliana, Saccharomyces cerevisiae. Las secuencias son procesadas una vez remitidas, y desde ese momento pueden ser localizadas usando una herramienta de bsqueda basada en una clave taxonmica desarrollada por el NCBI en colaboracin con el EMBL y el DDBJ. Con el objeto de establecer un identificador nico para cada entrada en el GenBank el NCBI asigna a cada secuencia un trmino llamado gi. Un nuevo identificador gi es asignado s cada secuencia despus de que esta ha sido actualizada de alguna manera, esta llave nica aparece en el campo ACCESSION de la entrada, justo antes del nmero de entrada (ACCESSION #). El nmero de entrada a diferencia del identificador gi no vara cada vez que la entrada es modificada, se mantiene invariable an cuando las anotaciones correspondientes a las secuencias cambian. 5.- Que significan las siglas NCBI? Qu funcin tiene este instituto? Centro Nacional de Informacin sobre Biotecnologa tiene como funcin ayudar a la ciencia y la salud mediante el acceso a la informacin biomdica y genmica. 6.-Para qu se utiliza ENTREZ de NCBI? Haciendo una bsqueda atraves del Entrez es posible llegar a mltiples fuentes de informacin acerca del mismo tema, por ejemplo es factible para una secuencia encontrar su listado de citaciones bibliogrficas contenidas en

Medline y al mismo tiempo ver su correspondiente comparacin bajo Fasta, y al mismo tiempo observar en un visualizador externo su estructura tridimensional. 7.- Qu clase de datos puede encontrar utilizando MapView? Proporciona capacidades especiales de navegacin de mapas y secuencias montadas para un subconjunto de organismos. 8.-Para qu sirve PUBMED? PubMed es un motor de bsqueda de libre acceso a la base de datos MEDLINE de citaciones y resmenes de artculos de investigacin biomdica. Ofrecido por la Biblioteca Nacional de Medicina de los Estados Unidos como parte de Entrez. MEDLINE tiene alrededor de 4800 revistas publicadas en Estados Unidos y en ms de 70 pases de todo el mundo desde 1966 hasta la actualidad. 9.-Indique para sirven las siguientes bases de datos (db): PFAM: Pfam es una gran coleccin de secuencias mltiples y modelos ocultos de alineaciones de Markov que abarca muchos mbitos comunes de protenas. Pfam es una coleccin de familias de protenas y dominios. Pfam contiene mltiples alineaciones de protenas y de perfil HMMs de estas familias. Pfam es una base de datos de la familia de protenas semi-automtico, que pretende ser integral y precisa. SWISSPROT: Es una base de datos de secuencias de protenas producidas en colaboracin por Amos Bairoch (Universidad de Ginebra) y la Biblioteca de Datos EMBL. Los datos de Swiss-Prot se derivan de las traducciones de las secuencias de ADN de la base de datos de nucletidos EMBL Sequencef, adaptado de la identificacin de protenas de Recursos (PIR) recogida, extrado de la literatura y directamente presentado por los investigadores. Contiene anotaciones de alta calidad, no es redundante, y con referencias cruzadas a otras bases de datos, en particular la base de datos EMBL secuencia de nucletidos, la base de datos PROSITE patrn y PDB. SWISS-PROT es una base de datos de secuencias de protenas que se esfuerza por proporcionar un alto nivel de anotacin (tales como la descripcin de la funcin de una protena, su estructura de dominio, modificaciones posttraduccionales, variantes, etc), un nivel mnimo de redundancia y un alto nivel de integracin con otras bases de datos. PROSITE: La base de datos PROSITE se compone de una gran coleccin de firmas biolgicamente significativas que se describen como patrones o perfiles. Cada firma est vinculada a la documentacin que proporciona informacin biolgica til para la familia, el dominio funcional o sitio protena identificada por la firma. La pgina web PROSITE ha sido rediseado y varias herramientas se han implementado para ayudar al usuario a descubrir nuevas regiones conservadas en sus propias protenas y visualizar los arreglos de dominio. BLOCKS: Ayuda a la deteccin y verificacin de la homologa y secuenciacin de una protena. OMIM: Lnea Herencia Mendeliana en el Hombre. OMIM es un catlogo de genes humanos y trastornos genticos escrito y editado por el Dr. Victor A. McKusick y sus colegas en la Universidad Johns Hopkins. La base de datos contiene informacin de texto, imgenes e informacin de referencia. Tambin contiene enlaces a bases de datos Entrez copias de NCBI de artculos MEDLINE e informacin de secuencia. PUBMED: PubMed, un servicio de la Biblioteca Nacional de Medicina, incluye ms de 15 millones de citas de MEDLINE y revistas de ciencias biolgicas adicionales para los artculos biomdicos desde la dcada de 1950. PubMed incluye enlaces a artculos de texto completo y otros recursos relacionados dbSNP: Polimorfismo de un solo nucletido. Una base de datos de polimorfismos de nucletidos: un aspecto clave de la investigacin en gentica es asociar variaciones de secuencia con fenotipos hereditarios. Las variaciones ms comunes son los polimorfismos de nucletido nico (SNP), que se producen aproximadamente una vez cada 100 a 300 bases. Debido a que se espera que los SNP para facilitar los estudios de asociacin gentica a gran escala, recientemente ha habido un gran inters en el descubrimiento de SNP y deteccin.

10.-Indique parea que sirven las siguientes herramientas (tools) del sitio NCBI? CDART: Muestra los dominios funcionales que componen una secuencia de la protena dada. En l se enumeran las protenas con arquitecturas de dominio similares y puede obtener las protenas que contienen combinaciones particulares de dominios. Homologene: Un sistema automatizado para construir grupos homlogos de genes completos, establece una amplia gama de especies eucariotas. Taxplot: Una herramienta para la comparacin de los genomas sobre la base de secuencias de la protena que codifican. Para utilizar TaxPlot, uno selecciona un genoma de referencia y dos especies para la comparacin. Resultados de BLAST pre-calculados se usan entonces para trazar un punto para cada protena predicha en el genoma de referencia, sobre la base de la mejor alineacin con las protenas en cada uno de los dos genomas que se comparan. e-PCR: Un procedimiento de clculo que se utiliza para identificar los sitios marcados de secuencia (STS) dentro de las secuencias de ADN. e-PCR busca STS potenciales en secuencias de ADN mediante la bsqueda de subsecuencias que coinciden estrechamente con los cebadores de PCR y tienen el orden correcto, la orientacin, y el espaciamiento que podran representar los cebadores de PCR utilizados para generar STS conocidos. 11.-Indique la diferencia entre identidad, similitud y homologa Similitud: es una cantidad observable que puede ser expresada como, por ejemplo, un porcentaje de identidad. Identidad: est relacionada con la similitud y la homologa y se refiere a la cercana que hay entre los genes. Homologa: es una conclusin basada, en parte, en la similaridad y de la que se infiere una relacin evolutiva entre nuestras secuencias, no puede ser cuantificada. 12.- Cundo se dice que dos genes son homlogos? Son los que comparten un ancestro evolutivo comn, revelado por las similitudes de secuencia entre los genes. Estas similitudes representas los datos en los que se basa la filogenia molecular. 13.- Se manejan tres tipos de homlogos que son ortlogos, parlogos y xenlogos. Explique que es cada uno. Ortlogos: son aquellos homlogos que estn presentes en diferentes organismos y cuyo ancestro comn antecede a la divisin entre las especies. Cumplen funciones iguales o muy similares. Parlogos: estn presentes en el mismo organismo, a menudo como miembros de una familia multigenica reconocida y su ancestro comn puede anteceder, o no, a las especies en las que ahora se encuentran los genes. Xenlogos. Resultado de transferencias horizontales de genes. 14.- Cmo se originan los genes ortlogos y cmo los parlogos? Estos dos genes se originan debido a que un gen ancestral sufrio duplicacin y los dos genes resultantes divergieron durante la evolucin. 15.-Para que nos sirven las alineaciones de secuencias de nucletidos (DNA) o de aminocidos (Protenas)? Las secuencias de ADN y protena marcan la funcin de las protenas en los seres vivos. Cuando ms similares sean dos secuencias ms similares tendern a ser las funciones de las protenas codificadas por ellas . 16.-Si se le da una secuencia de nucletidos de 1000 pares de bases, cuntos ORFs posibles tiene esta secuencia? porqu? 17.- Cules son los parmetros ( y que indican) que se califican en un alineamiento BLAST? (Score, Valor E, gap penalty, similarity )

Score value: Un nmero que se utiliza para evaluar la importancia biolgica de un hallazgo. En el contexto de alineamientos de secuencias, una puntuacin es un valor numrico que describe el conjunto calidad de una alineacin. Los nmeros ms altos corresponden a mayor similitud. La escala de puntuacin depende del sistema de puntuacin utilizado (sustitucin matriz, penalizacin de espacio). Observaciones: Si la penalizacin de hueco es demasiado grande, se evitan los huecos y las secuencias no pueden ser correctamente alineadas. Si la penalizacin de hueco es demasiado baja, los huecos se insertan en todas partes para evitar desajustes. Esto no hace producir cualquier alineamiento informativo. El "mejor" alineamiento se obtiene una penalizacin de espacio intermediario. Observacin: Las calificaciones de estas alineaciones diferentes no se pueden comparar (ni utilizado para seleccionar los mejores alineamientos) porque su escala depende de la brecha pena. En el contexto de alineamientos de secuencias (BLAST), el bit S-score es un puntaje normalizado expresada en bits que le permite estimar la magnitud del espacio de bsqueda que usted tendra que mirar a travs antes de que usted esperara encontrar un resultado tan bueno o mejor que ste por oportunidad. Althshul propone la siguiente definicin: S es la puntuacin cruda. Parmetros y K depender de la sustitucin de la matriz y en las penalizaciones por hueco (Altchul). El valor E es un numero dado por elalineamiento de manera al azar. Por lo tanto nos permite definir qu alineamientos queremos obtener de acuerdo a su significacin estadstica. El valor E ms bajo implica una mayor similitud estadstica entre una secuencia y otra, mientras que un valor ms grande de E implica menos probabilidad de homologa o identidad entre una secuncia y otra. Gap penalty estn diseados para acercarse en el marcador cuando una secuencia de alineacin ha sido perturbado por indeles . Normalmente, los elementos centrales para medir el resultado de una alineacin han sido los partidos, los desajustes y espacios. Otro elemento importante para medir la alineacin resultados estn vacos. Un hueco es una carrera consecutivo de espacios en un alineamiento y se utilizan para crear alineaciones que estn mejor conformados para modelos biolgicos subyacentes y adaptarse ms estrechamente patrones que uno espera encontrar en las alineaciones significativas. Las lagunas estn representados en forma de guiones en una protena / DNA secuencia alineacin. La longitud de un vaco se obtuvo por el nmero de indeles (inserciones / deleciones) en la secuencia de alineacin. En la protena y la secuencia de ADN a juego, dos secuencias se alinean para determinar si tienen un segmento de cada uno, que es significativamente similar. Una puntuacin de alineamiento local se asigna de acuerdo a la calidad de los partidos en la alineacin resta de sanciones por las lagunas presentes en la alineacin. Los mejores costes de hueco para utilizar con una matriz de sustitucin dado se determinan empricamente. 18.- Cmo se califica la similitud y como la identidad en un alineamiento de secuencias de aminocidos usando BLASTp 19.- Porqu el valor E es el valor ms importante de un alineamiento BLAST? 20.- Que diferencia existe entre un alineamiento global y un alineamiento local? Un alineamiento global es una forma de optimizacin global que "fuerza" al alineamiento a ocupar la longitud total de todas las secuencias introducidas (secuencias problema). Comparativamente, los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son muy divergentes entre s. A

menudo se prefieren los alineamientos locales, pero pueden ser ms difciles de calcular porque se aade el desafo de identificar las regiones de mayor similitud. 21.-Cundo se prefiere el uso del alineamiento global Cuando las secuencias problema iniciales son similares y aproximadamente del mismo tamao (no quiere decir que los alineamientos globales no puedan terminar en huecos). Una estrategia general de alineamiento global es el algoritmo Needleman-Wunsch basado en programacin dinmica. 22.-Qu es una matriz de sustitucin? Describe el ritmo al que un carcter en una secuencia cambia a otro carcter con el tiempo. Las matrices de sustitucin se ven usualmente en el contexto de alineamiento de secuencias de aminocidos o ADN, donde la similitud entre secuencias depende del tiempo desde su divergencia y de los ritmos de sustitucin segn se representan en la matriz. Estas matrices se utilizan como parmetros de los algoritmos de alineamiento (por ejemplo los de Needlemann-Wunsch o Smith-Waterman), en los cuales cumplen el papel de asignar una determinada puntuacin a cada emparejamiento entre los aminocidos de las secuencias a alinear, contribuyendo as a la puntuacin global del alineamiento. 23.-Qu significan las siglas de la matriz de sustitucin BLOSUM, las de la matriz PAM? BLOSUM BLOcks of Amino Acid SUbstitution Matrix, o matriz de sustitucin de bloques de aminocidos PAM Percent Accepted Mutation, mutacion puntual aceptada. 24.- Qu diferencia existe entre la matrices BLOSUM y las matrices PAM? 1. Las matrices PAM se basan en un modelo evolutivo explcito que asume que los intercambios entre aminocidos ocurren bajo un proceso de Mrkov que independiza los cambios en una determinada posicin de los posibles cambios acaecidos previamente en ese mismo lugar, y que luego (puesto que se asume que estos cambios son de los primeros en ocurrir al considerar secuencias con un muy alto grado de similitud) se extrapolan para contemplar mayores distancias evolutivas, mientras que las matrices BLOSUM no se basan en ningn modelo explcito de evolucin, y consideran secuencias de protenas empricamente relacionadas que comparten un antepasado comn. 2 Las matrices PAM se basan en mutaciones observadas a travs de un alineamiento global; esto incluye tanto regiones altamente conservadas como regiones mutables. Las matrices BLOSUM estn basadas slo en regiones altamente conservadas en series de alineamientos en los que no deben existir huecos (gaps). El mtodo utilizado para considerar las sustituciones es diferente: al contrario que en la matriz PAM, el procedimiento de BLOSUM usa grupos de secuencias dentro de los cuales no todas las mutaciones ponderan igual. Nmeros altos en el esquema de denominacin de la matriz PAM denotan grandes distancias evolutivas, mientras que nmeros altos en la matriz BLOSUM denotan alta similitud en las secuencias y, por lo tanto, distancias evolutivas ms pequeas. Por ejemplo: PAM150 se usa para mayores distancias que PAM100; BLOSUM 62 se usa para distancias ms cortas que BLOSUM50.

2.

3.

4.

25.-Porqu se prefiere que la alineaciones en BLAST para bsqueda de homlogos sean hechas con la secuencias de aminocido de la protena? 26.-Si tiene una secuencia de nucletidos como hara un alineamiento utilizando BLASTp que es para alinear secuencias de aminocidos?

27.- Cul es la matriz de sustitucin usada por default cuando se hace un alineamiento en BLAST? BLOSUM 62 28.-Qu es un alineamiento de secuencias mltiple (del Ingls MSA) y que informacin obtenemos de este. Es un alineamiento de tres o ms secuencias biolgicas, generalmente protenas, ADN o ARN. En general, se asume que el conjunto de secuencias de consulta que se ingresa como entrada (conjunto problema) tienen una relacin evolutiva por la cual comparten un linaje y descienden de un ancestro comn. Del MSA resultante, se puede inferir la homologa, y puede llevarse a cabo el anlisis filogentico para evaluar los orgenes evolutivos compartidos por las secuencias. Las representaciones visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales (un solo cambio de aminocidos o nucletidos) que aparecen como diferentes caracteres en una sola columna del alineamiento, y la insercin o supresin de mutaciones (o indels) que aparecen como huecos en una o varias de las secuencias en la alineacin. El alineamiento mltiple de secuencias a menudo se utiliza para evaluar la conservacin de los dominios proteicos, las estructuras terciarias y secundarias, e incluso aminocidos o nucletidos individuales. 29.- Defina que es un dominio, un motivo y una firma en una secuencia de aminocidos. Un motivo es un elemento conservado en la secuencia de aminocidos, que habitualmente se asocia con una funcin concreta. Los motivos se generan a partir de alineamientos mltiples de regiones con elementos funcionales o estructurales conocidos, por lo que son tiles para predecir la existencia de esos mismos elementos en otras protenas de funcin y estructura desconocida. Una firma es un conjunto de motivos que se usan para predecir la presencia de motivos similares, bien en una secuencia concreta o en una base de datos. Contiene un nmero de motivos consecutivos tomados de distintos puntos de un alineamiento mltiple. Las secuencias que pertenecen a la misma familia contienen todos los motivos de la misma firma, mientras que las subfamilias comparten slo parte del fingerprrint. Un dominio es un trmino ms genrico que designa una regin de una protena con inters biolgico funcional o estructural. Tambin se llama dominio a una regin de la estructura tridimensional de una protena con una funcin concreta, que incluye regiones no necesariamente contiguas en la secuencia de aminocidos.

30.- El gen FOXP2 es importante en la evolucin del H. sapiens, en qu aspecto? En qu otros organismos est presente? Cmo buscara sus homlogos (ortlogos)? Se le llama FOXP2 y es un gen que compartimos con todos los dems vertebrados. Varias investigaciones muestran que cuando el FOXP2 est defectuoso, la capacidad de articular palabras se afecta gravemente, o en el caso de las aves canoras, la de cantar, o si se trata de ratones, la de emitir chillidos. El gen posee un papel importante en el desarrollo de algunas regiones del cerebro estrechamente asociadas con la coordinacin motora y el aprendizaje. En los organismos vertebrados, el gen FOXP2 ha sufrido pocos cambios en su devenir evolutivo: si comparmos la protena para la cual codifica el gen FOXP2 de los ratones con la de los chimpancs y de los gor ila s, descubriremos slo una diferencia, es decir, tiene solamente un aminocido distinto. Ahora bien, si tomamos en cuenta que los ratones surgieron 75 millones de aos antes que los grandes simios, esto significa que el FOXP2 ha evolucionado muy lentamente, ha tenido un solo cambio en esos 75 millones de aos. El linaje humano se separ del de los grandes simios hace unos seis millones de aos, y si comparamos el FOXP2, digamos, del chimpanc, con el del ser humano, se pueden identificar dos cambios, lo cual significa, en otras palabras, que el gen FOXP2 ha cambiado muchsimo ms rpido en nuestro linaje. Ms an, en 2007 un grupo de investigadores dirigidos por Svante Pbo lograron extraer ADN de dos ejemplares de neandertales descubiertos en el Sidrn, Espaa, y determinar la secuencia de ADN de sus genes FOXP2. Para sorpresa de todos, los genes FOXP2 de los neandertales tenan la misma secuencia del gen humano, lo cual

significa, si tomamos en cuenta que el linaje Neandertal (Homo neanderthalensis) se separ del linaje humano (Homo sapiens) hace 500 000 aos, que la versin del FOXP2 que hoy poseemos nosotros, ya estaba presente antes de que el linaje de los humanos se separara del de los neandertales. 31.-Para que nos sirven localizar en la secuencia de un gen sitios STS o EST? Se refiere a una secuencia nica de ADN (de entre 200 y 500 pares de bases) que se pueden amplificar por PCR y utilizar en la construccin de mapas fsicos y genticos. Los mapas fsicos reflejan las posiciones de los marcadores a lo largo de una cadena de ADN. Uno de estos marcadores es el sitio de secuencia especfica o STS, que consiste en una secuencia corta conocida de ADN y que puede ser detectada. As, los mapas fsicos de los cromosomas humanos que estn construidos por el Proyecto del Genoma Humano se basan en gran medida en estos sitios de referencia. Los EST son secuencias cortas obtenidas de clones de ADN complementario (ADNc) y sirven como pequeos identificadores del gen. Puede usarse como un marcador, para buscar el resto del gen o para ubicarlo en un segmento ms grande de ADN. Los datos de los EST son capaces de proporcionar una estimacin aproximada de los genes que estn expresados activamente en un genoma bajo una condicin fisiolgica en particular. Esto debido a que las frecuencias para ESTs particulares reflejan abundancia en los ARNm de una clula, que corresponde con los niveles de expresin de genes bajo esa condicin. Otro potencial beneficio del muestreo por EST es que, al secuenciar clones de ADNc de manera aleatoria es posible encontrar nuevos genes 32.-Qu diferencia hay entre las clonas genmicas y las clonas de cDNA o secuencia de transcritos?