You are on page 1of 17

Informe práctico 2:

Alineamiento de secuencias

Nombre: Anaís Fuller Vargas.


Profesor Encargado: Maximiliano Figueroa.

pág. 1
Introducción
En bioinformática, el alineamiento de secuencias es una técnica fundamental para comparar y analizar
secuencias biológicas. Como, por ejemplo, secuencias de ADN, ARN y proteicas. El propósito de esta
técnica se basa en identificar regiones de similitud y homología entre dos o más secuencias para poder
comprender estructura y funciones de biomoléculas, hasta predecir sus funciones. Además, permite
conocer la relación evolutiva, es decir conocer si las dos secuencias de DNA tienen un ancestro común
del cual pudieron haber evolucionado por bifurcación de especies o por duplicación de genes (Lozano,
2006).
Los tipos de alineamiento de secuencias que observaremos en este práctico serán el alineamiento global
de pares, utilizando secuencias proteicas de hemoglobina alfa humana y mioglobina de perro. También,
utilizaremos alineamiento múltiple con 18 secuencias proteicas, de las cuales 6 pertenecen a
hemoglobina alfa, 6 de hemoglobina beta y 6 de mioglobina. Para estas 18 secuencias utilizaremos 3
servidores de alineamiento distintos: ClustalOmega, MUSCLE y T-Coffee.

pág. 2
Desarrollo
1. Actividad 1: alineamiento de pares de secuencias.
En primer lugar, ingresaremos al sitio web de EMBOSS Needle y copiaremos dos secuencias proteicas
pertenecientes a hemoglobina alfa humana y mioglobina de perro, las cuales están en formato FASTA.
Luego, realizaremos el alineamiento con las siguientes combinaciones de parámetros:
Tabla 1. Parámetros de alineamiento.
Matriz Apertura de GAP Extensión de GAP
Blosum35 50 5
Blosum35 5 0.2
Blosum85 50 5
Blosum85 5 0.2
PAM10 50 5
PAM10 5 0.2
PAM500 50 5
PAM500 5 0.2
Tabla 1: Parámetros a seguir para la actividad 1.
Figura 1. Sitio web de EMBOSS Needle.

Figura 1: Sitio web de EMBOSS Needle donde ingresaremos dos secuencias proteicas: hemoglobina
alfa humana y mioglobina de perro.
Figura 2. Alineamiento utilizando Blosum 35, GAP open 50, Gap extend 5.0.

pág. 3
Figura 2: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos Blosum 35, GAP open 50 y GAP extend 5.0
Figura 3. Alineamiento utilizando Blosum 35, GAP open 5.0, Gap extend 0.2.

Figura 3: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos Blosum 35, GAP open 5.0 y GAP extend 0.2.
Figura 4. Alineamiento utilizando Blosum 85, GAP open 50, Gap extend 5.0.

pág. 4
Figura 4: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos Blosum 85, GAP open 50 y GAP extend 5.0.
Figura 5. Alineamiento utilizando Blosum 85, GAP open 5.0, Gap extend 0.2.

Figura 5: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos Blosum 85, GAP open 5 y GAP extend 0.2.
Figura 6. Alineamiento utilizando PAM10, GAP open 50, Gap extend 5.0.

pág. 5
Figura 6: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos PAM10, GAP open 50 y GAP extend 5.0.
Figura 7. Alineamiento utilizando PAM10, GAP open 5.0, Gap extend 0.2.

pág. 6
Figura 7: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos PAM10, GAP open 5.0 y GAP extend 0.2.
Figura 8. Alineamiento utilizando PAM500, GAP open 50, Gap extend 5.0.

Figura 8: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos PAM500, GAP open 50 y GAP extend 5.0.
Figura 9. Alineamiento utilizando PAM500, GAP open 5.0, Gap extend 0.2.

pág. 7
Figura 9: Resultados del alineamiento de hemoglobina alfa humana y mioglobina de perro, donde
utilizamos PAM500, GAP open 5.0 y GAP extend 0.2.
• ¿Cuál es el método de alineamiento usado? ¿Como funciona? ¿para qué se usa?
El método utilizado es el alineamiento de a pares local (Blosum) y global (PAM). Este método funciona
a través de matrices de puntuación, como en este caso son Blosum y PAM, los cuales asignan valores a
las coincidencias, sustituciones y espacios, reflejando así una similitud entre los elementos de la
secuencia. Luego se rellenan las matrices calculando los valores de puntuación para cada posición, se
realiza un recorrido de la matriz, y, por último, a partir de este recorrido se identifican regiones de
coincidencia, sustitución y espacios o brechas en la secuencia.
Se utiliza para identificar regiones funcionales, predecir estructura y función de proteínas y reconocer
zonas conservadas de una proteína o un gen.

• ¿Por qué en los alineamientos obtenidos no siempre aparecen las secuencias completas?
R: Debido a que se busca un buen alineamiento entre segmentos y estos se extienden solo hasta que
siga siendo bueno. También, porque hay secuencias que no están dentro del alineamiento y estas se
eliminan.

• ¿Cuál es efecto en sus alineamientos al cambiar la matriz de sustitución? Y ¿Cuál es el aporte


de cada Matriz?

pág. 8
R: El efecto que ocurre al cambiar de matriz son las variaciones de porcentaje de identidad y similitud
en los resultados de los alineamiento. PAM es una matriz que realiza un alineamiento global,
considerando todas las posiciones aminoacídicas, también es la más adecuada para trazar orígenes
evolutivos de la proteína. En cambio, BLOSUM considera solo cambios en posiciones dentro de
bloques conservados y es la más adecuada para encontrar dominios conservados.

• En relación con la penalidad de gap, ¿Qué sucede con sus alineamientos? ¿En qué regiones se
observan los cambios?
R: La penalidad de GAP hace que se observen menor cantidad de estos, generando que se busque alinear
las secuencias sin GAPS y así no verse afectado el score final. En los alineamientos, cuando la penalidad
de GAP es baja existen más porcentaje de GAPS en las regiones medias del alineamiento, y cuando
esta penalidad es alta, existe una menor cantidad de GAPS y estos se pueden encontrar muchas veces
en regiones extremas del alineamiento.
2. Actividad 2: Alineamiento múltiple de secuencias.
Se utilizarán 18 secuencias proteicas distintas, las cuales incluyen:

• 6 secuencias de hemoglobina alfa.


• 6 secuencias de hemoglobina beta.
• 6 secuencias de mioglobina.
A partir de esto, se realizará un alineamiento múltiple de secuencias en ClustalOmega, MUSCLE y T-
Coffee.
Figura 10. Sitio web de ClustalOmega.

Figura 10: sitio web de ClustalOmega donde se realizará un alineamiento múltiple de secuencias.
Figura 11. Alineamiento múltiple en ClustalOmega.

pág. 9
Figura 11: Resultados del alineamiento múltiple de 18 secuencias proteicas distintas en ClustalOmega.

• ¿Es el orden de las secuencias en el alineamiento igual al orden usado como “input”?
R: No, debido a que el orden de alineamiento ordena las secuencias desde un grado de similitud alta a
una baja. En cambio, el orden usado como “input” se encuentra en el orden de como uno lo ingresa y
no necesariamente va a seguir una jerarquía de alineamiento.

• ¿Logró el alineamiento agrupar secuencias similares entre sí? ¿Qué es este árbol guía?
R: Si, debido a la información que entrega los árboles guía y filogenéticos. El árbol guía es un árbol
filogenético que clasifica y compara secuencias nucleotídicas o proteicas y las ordena por similitud.
Esto ayuda a comprender relaciones evolutivas que tienen estas secuencias.
Figura 12. Árbol guía del alineamiento en ClustalOmega.

pág. 10
Figura 12: árbol guía del alineamiento de las 18 secuencias en ClustalOmega.
Figura 13. Sitio web de MUSCLE.

Figura 13: sitio web de MUSCLE donde se realizará un alineamiento múltiple de secuencias.
Figura 14. Alineamiento múltiple en MUSCLE.

pág. 11
Figura 14: Resultados del alineamiento múltiple de 18 secuencias proteicas distintas en MUSCLE.
Figura 15. Árbol filogenético en MUSCLE.

Figura 15: Árbol filogenético del alineamiento de las 18 secuencias en MUSCLE.

pág. 12
Figura 16. Sitio web de T-Coffee.

Figura 16: sitio web de T-Coffee donde se realizará un alineamiento múltiple de secuencias.
Figura 17. Alineamiento múltiple en T-Coffee.

pág. 13
Figura 17: Resultados del alineamiento múltiple de 18 secuencias proteicas distintas en T-Coffee.
Figura 18. Árbol filogenético en T-Coffee.

Figura 18: Árbol filogenético del alineamiento de las 18 secuencias en T-Coffee.

• Identifique diferencias y similitudes entre los resultados obtenidos con los 3


programas distintos.

R: Los tres programas obtuvieron las mismas identidades reportadas, pero diferentes
sustituciones (conservadores y semi conservadoras). Además, T-Coffee utiliza menos GAPS
que ClustalOmega y MUSCLE.

• ¿Cuántas identidades se reportan en cada caso? Las identidades están


representadas por asteriscos *.
R: Se identificaron 16 identidades.

• Averigüe cómo definen las similitudes cada uno de los programas usados.
Los programas definen las similitudes como una conservación entre grupos de propiedades que
son similares en una región de la secuencia. Además, estos tres programas representan esta
similitud con dos puntos (:).

• ¿Pudieron los tres programas agrupar las secuencias de acuerdo con su tipo (agrupó
hemoglobinas alfa, beta y mioglobinas por separado)?
R: Si y se observa en los árboles filogenéticos.

• ¿Puede usted identificar algún residuo que sea importante para la función de estas
proteínas? apóyese de literatura para responder esta pregunta, complementado el
análisis de sus alineamientos múltiples.
R: Un residuo importarte es la histidina, debido a que este es importante para la estabilización del grupo
HEMO y la función de estas proteínas. Las hemoproteínas están involucradas en un amplio espectro de
funciones biológicas cruciales que incluyen la unión a oxígeno (hemoglobinas), el metabolismo de
oxígeno (oxidasas, peroxidasas, catalasas e hidroxilasas) y la transferencia de electrones (citocromos)
(Villavicencio-Queijeiro, 2012). Además, en los resultados del alineamiento se visualiza que las
secuencias poseen dos identidades de histidinas, las que estarán involucradas con el grupo HEMO.

pág. 14
Discusión

Los resultados obtenidos en la primera sección de este práctico, nos demuestra que la variación de
apertura y extensión de GAPS y las matrices influenciarán en los resultados de nuestro alineamiento.
Utilizando las matrices BLOSUM se logró obtener mayor porcentaje de identidad entre las
secuencias, siendo este de 28.7% utilizando BLOSUM35 con una apertura y extensión de GAP de 5 y
0.2 respectivamente. En cambio, utilizando la matriz de PAM se logró la mayor similitud entre
secuencias y score, la cual fue de 60.9% 286.2 respectivamente, utilizando la matriz PAM500 con
apertura de GAP 5 y una extensión de 0.2. En relación con estos resultados, dependiendo de la finalidad
con la que se requiera hacer el alineamiento de secuencias, se escogerá la matriz optima. Debido a que
con la matriz PAM podemos trazar el origen evolutivo de la proteína y con BLOSUM podremos hacer
análisis locales y hallar dominios conservados.

En la segunda sección de nuestro práctico, se obtuvo los resultados del alineamiento múltiple de 18
secuencias correspondientes a hemoglobina alfa, beta y mioglobina, donde gracias a los programas
ClustalOmega, Muscle y T-Coffee, pudimos agrupar las secuencias según sus características de mayor
a menor similitud. Pero, T-Coffee los agrupaba en cuatro secciones, mientras que los otros dos
programas los agrupaban en tres secciones. Además. En los tres grupos de proteínas se repetían los
aminoácidos histidina, ácido glutámico, valina, fenilalanina, alanina y treonina.

pág. 15
Conclusión

Los resultados obtenidos en las dos secciones de este práctico destacan la importancia de la elección de
parámetros y matrices adecuados para el análisis de secuencias biológicas. En la primera sección, se
evidenció cómo la variación en la apertura y extensión de GAPS, así como la elección de matrices de
puntuación, impacta directamente en la calidad y precisión del alineamiento obtenido. Las matrices
BLOSUM mostraron un mayor porcentaje de identidad entre secuencias, mientras que las matrices
PAM proporcionaron una mayor similitud y score. Además, la elección de la matriz y del programa
adecuado dependerá de los objetivos específicos del análisis. Las matrices PAM permiten rastrear el
origen evolutivo de las proteínas, mientras que las matrices BLOSUM son valiosas para detectar
regiones conservadas y dominios.

En la segunda sección, al analizar el alineamiento múltiple de 18 secuencias de hemoglobina alfa, beta


y mioglobina, se resalta la utilidad de programas como ClustalOmega, Muscle y T-Coffee en la
agrupación de secuencias según su similitud. Además, la importancia de la conservación de residuos
aminoacídicos, como histidina, ácido glutámico, valina, fenilalanina, alanina y treonina, nos indica la
importancia en la similitud funcional que tienen estas proteínas.

Para finalizar, el alineamiento de secuencias es un pilar esencial en bioinformática para comparar y


analizar información genética y proteica. Esta técnica revela similitudes, ayudando a entender
estructuras y funciones moleculares, así como a rastrear la evolución. Además, es una herramienta
fundamental para descubrir conexiones evolutivas y patrones conservados.

pág. 16
Bibliografía

Lozano, M. A.-M. (2006). Diseño de un Procesador para el Alineamiento Global de Secuencias de


DNA.
Villavicencio-Queijeiro, A. (2012). La mitocondria como fábrica de cofactores: biosíntesis de grupo
hemo, centros Fe-S y nucleótidos de flavina (FMN/FAD). TIP Revista Especializada en
Ciencias Químico-Biológicas, 116-132.

pág. 17

You might also like