- Inferir una filogenia es un proceso de estimación.

Se hace la “mejor estimación” de una historia evolutiva con base en la información parcial o incompleta que representan los datos disponibles

MAXIMA PARSIMONIA
EN LA INFERENCIA FILOGENÉTICA DE SECUENCIAS DE ADN

- Debido a que se pueden postular diferentes escenarios evolutivos con los datos evaluados, es necesario contar con un criterio definido para seleccionar uno o más árboles preferidos de entre las múltiples hipótesis que se pueden producir
Tree 1 A C A Tree 2 B A Tree 3 B

B

D

C

D

D

C

Francisco X. González-Cózatl CEAMISH - UAEM

-El definir un criterio óptimo al comparar filogenias alternativas, permite decidir cuál es la mejor (o si varias de ellas son igualmente buenas)

@2007González-Cózatl

Máxima Parsimonia

1

@2007González-Cózatl

Máxima Parsimonia

2

- En un contexto general, el criterio de Parsimonia significa simplicidad o economía - Metodológicamente, este principio postula la elección de la hipótesis más sencilla entre varias hipótesis concurrentes - Aplicado a la Sistemática Filogenética el criterio de parsimonia conduce a la elección del cladograma o árbol filogenético que explica la filogenia de un grupo con el menor número de cambios evolutivos - La primera mención de la aplicación del criterio de Parsimonia en filogenia fue realizada por Edwards y Cavalli-Sforza en 1963; el árbol evolutivo preferido debe ser aquel que involucre “la cantidad mínima neta de evolución”

- A diferencia de los métodos de distancias, bajo el criterio de parsimonia (y ML – BI) los datos a evaluar corresponden a cada posición o sitio en la secuencia de nucleótidos o aminoácidos = DATOS DISCRETOS (vs. datos continuos)
MP, ML, BI Distancias

@2007González-Cózatl

Máxima Parsimonia

3

@2007González-Cózatl

Máxima Parsimonia

4

- Aunque en muchas ocasiones, el criterio de distancias genera resultados iguales a los de MP, este último método permite identificar que sitios (caracteres) están contribuyendo a la topología de la filogenia y a la longitud de las ramas

- La premisa básica en Parsimonia es que los taxa que comparten una característica (similitud), lo hacen porque heredaron esa característica de un ancestro común = HOMOLOGÍA

- Cuando este supuesto no se cumple, esta similitud se explican por eventos como reversión, convergencia o paralelismo, que en conjunto se agrupan bajo el término = HOMOPLASIA

@2007González-Cózatl

Máxima Parsimonia

5

@2007González-Cózatl

Máxima Parsimonia

6

De los caracteres variables. 3) son considerados filogenéticamente informativos 1 2 3 4 1 A A G G 2 T T C C 3 A C A C 4 T G G G 5 T T T T Máxima Parsimonia 10 2 4 3 4 4 3 @2007González-Cózatl Máxima Parsimonia 9 @2007González-Cózatl . 1 2 3 4 A A G G T T C C A C A C T G G G T T T T Tree 1 1 3 1 Tree 2 2 1 Tree 3 2 .Evidentemente. el método o algoritmo más común es el de Fitch (1971) que asume un paso al cambio entre cualquier estado . aquellos en los que solo una secuencia o taxón es diferente (4).Este algoritmo permite contabilizar el número de cambios en un árbol bifurcado o binario con datos de secuencias. en las cuales cualquiera de las cuatro bases (A. transversiones).g. en general pueden ser divididas en dos grupos: -Parsimonia no pesada o sin pesos (unweighted MP) -Se asume que sustituciones de nucleótidos o aminoácidos ocurren en todas direcciones con la misma (o casi la misma) probabilidad -Parsimonia pesada (weighted MP) -Se asume que algunas sustituciones (e. resulta razonable asignar diferente peso a los distintos tipos o eventos de sustituciones @2007González-Cózatl Máxima Parsimonia 11 .Para cada sitio. no son informativos en parsimonia y no se incluyen en un análisis . y en consecuencia. aquellos sitios que no son variables (constantes). bajo el criterio de parsimonia se pueden reconocer sitios o caracteres que SI contribuyen a decidir cual sería el árbol óptimo (de menor número de pasos). los sitios 4 y 5 tienen el mismo número de pasos para los tres árboles y por los tanto no discriminan entre estas tres alternativas. mientras que otros NO son útiles para este fin .Solo los sitios en donde más de dos secuencias tienen en mismo estado (1. G. 2..Dentro de este grupo. C. tampoco son informativos porque la variación en ese sitio siempre puede ser explicada con el mismo número de pasos en cualquier árbol .Parsimonia no pesada o sin pesos (unweighted MP) . transiciones) ocurren más frecuentemente que otras (e. con la condicionante de recurrir al menor número de cambios 1 2 3 4 Site 1 -Este proceso se repite para otros posibles árboles 1 2 3 4 A A G G T T C C A C A C T G G G T T T T A A G G T T C C A C A C T G G G T T T T Tree 1 1 3 1 Tree 2 2 1 Tree 3 2 2 4 3 4 4 3 @2007González-Cózatl Máxima Parsimonia 7 @2007González-Cózatl Máxima Parsimonia 8 -Como se observa.g. como el 5. T) puede cambiar hacia cualquier otra @2007González-Cózatl Máxima Parsimonia 12 .Entonces. se busca reconstruir la evolución del mismo en un árbol.Aunque existen distintas variantes de métodos en Parsimonia.

resulta razonable asignar un peso diferencial a los diferentes sitios de la secuencia (carácter) o distintos tipos de sustitución (estado del carácter) en función de su posible aportación en la inferencia filogenética -En cualquier caso. la asignación del mismo costo a todos los cambios podría resultar en árboles poco confiables -Por lo tanto.Para calcular los estados de los nodos internos (1.Un caso extremo de parsimonia pesada representa la “Parsimonia de transversión” en donde las transiciones no son consideradas en el análisis Pars.-Algoritmo de Fitch .Considerando que los transiciones por lo general ocurren más frecuentemente que las trasversiones. La longitud acumulada será la suma de los nodos descendientes -Si la intersección de los estados de los nodos descendientes esta vacía.En genes que codifican para una proteína. los cuales son menos probables que sean homoplásicos (particularmente cuando las tazas de cambio son altas) y por lo tanto. A C G T A 0 1 0 1 C 1 0 1 0 G 0 1 0 1 T 1 0 1 0 A C G T 5:1 A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0 A C G T 10 : 1 A C G T 0 10 1 10 10 0 10 1 1 10 0 10 10 1 10 0 18 @2007González-Cózatl Máxima Parsimonia 17 @2007González-Cózatl Máxima Parsimonia . con una longitud acumulada de cero W X Y Z G A C C G T G G A T A G C C T C -Algoritmo de Fitch -En cada nodo interno. los nucleótidos de los cada una de las posiciones del codón evolucionan a distintas tasas de cambio: 2A LENTA 1A TASA EVOLUCIÓN 3A RÁPIDA 2A MENOR 1A PESO 3A MAYOR @2007González-Cózatl Máxima Parsimonia 15 @2007González-Cózatl Máxima Parsimonia 16 -Parsimonia pesada (weighted MP) -Pesando el estado del carácter . entonces el estado del nodo ancestral es la unión de dichos estados.2.3) se siguen dos reglas simples: @2007González-Cózatl Máxima Parsimonia 13 @2007González-Cózatl Máxima Parsimonia 14 -Parsimonia pesada (weighted MP) -Considerando que algunos tipos de sustituciones son más frecuentes que otros. o que algunos sitios evolucionan más rápidamente que otros. La longitud acumulada será la suma de los nodos descendientes más uno (+ 1) .Esto se puede implementar construyendo una matriz de costos ó de pasos -Parsimonia pesada (weighted MP) -Pesando el estado del carácter . más probables que reflejen la historia filogenética -Parsimonia pesada (weighted MP) -Pesando el carácter . probando distintas opciones ó en función del modelo evolutivo que mejor se ajuste a los datos de secuencias . los estados ancestrales corresponderán a la intersección de los estados de los nodos descendientes.Los esquemas de pesos pueden implementarse de manera empírica. resulta conveniente darle mayor peso a estas últimas . Transv.Se inicia considerando que cada uno los estados en los nodos terminales corresponde a los nucleótidos observados en la secuencia. el objetivo es dar un mayor peso a los cambios que son raros.

en la práctica.. (2·T-3) @2007González-Cózatl Máxima Parsimonia 21 @2007González-Cózatl Máxima Parsimonia 22 -Métodos de búsqueda de árboles óptimos -Algoritmos exactos -Se garantiza que se encontrará el árbol ó árboles óptimos.Descomposición de estrella (Star decomposition) @2007González-Cózatl Máxima Parsimonia 23 -Métodos de búsqueda de árboles óptimos -Búsqueda Exahustiva .Búsqueda “branch and bound” -Métodos heurísticos (aproximados) -Se intenta encontrar soluciones óptimas.-Parsimonia pesada (weighted MP) .Cuando los niveles de divergencia son bajos. pero puede requerirse una gran cantidad de tiempo de cómputo . No obstante. se reduce el tiempo de análisis cuando se evalúan datos con un gran número de taxa . se puede producir un número importante de árboles -El número de posibles árboles se incrementa de manera factorial con cada nueva secuencia o taxon @2007González-Cózatl Máxima Parsimonia 19 @2007González-Cózatl Máxima Parsimonia 20 -Métodos de búsqueda de árboles óptimos -Métodos de búsqueda de árboles óptimos -Número de posibles árboles binarios sin raíz (Nu) Nu = A (2i-5) T i =3 (2·3-5) (2·4-5) (2·5-5).El procedimiento para generar todos los árboles posible sin raíz es el siguiente @2007González-Cózatl Máxima Parsimonia 24 .En cualquier caso.. la estrategia de pesos que se implemente deberá estar en función del grado de divergencia entre las secuencias que se están analizando .Búsqueda exhaustiva .. incluso.Aunque el criterio de Máxima Parsimonia nos permite aceptar como la mejor hipótesis el árbol con el menor número de cambios evolutivos. es posible que. pero no hay garantía de hallarlas (en este caso el árbol óptimo).Adición secuencial (Stepwise addition) .Cuando el número de secuencias o taxa no es muy grande (‹ 10). los métodos de parsimonia sin pesos funcionen adecuadamente y se pueda obtener la filogenia correcta -Exclusión de información como 3as. (2·T-5) -Número de posibles árboles binarios con raíz (Nr) Nr = A (2i-3) T i =2 (2·2-3) (2·3-3) (2·4-3).. es posible calcular la longitud de todos los posible árboles y determinar cuál es el más parsimonioso . el reto es encontrar ese árbol entre los múltiples árboles posibles que se pueden generar con los datos -Incluso con solo pocas secuencias o taxa. posiciones o transiciones puede tener implicaciones en la pérdida de información para recuperar relaciones entre secuencias poco divergentes -Métodos de búsqueda de árboles óptimos .Permutación de ramas (Branch swapping) .

Este algoritmo opera al evaluar implícitamente todos los árboles posibles.Este límite superior representa el valor de longitud o probabilidad de cualquiera de los posibles árboles que se pueden generar con las secuencias o taxa analizados -Útil para evaluar hasta 25 secuencias o taxa -Búsqueda Exahustiva @2007González-Cózatl Máxima Parsimonia 25 @2007González-Cózatl Máxima Parsimonia 26 -Métodos de búsqueda de árboles óptimos -Búsqueda Branch and Bound .En filogenia. -Dependiendo del sitio en donde se inicie el ascenso se podrá llegar o no a la cima más alta en una zona montañosa . pero cada vez que se adiciona una nueva secuencia o taxón en una de las ramas del árbol en construcción se calcula el valor del mismo (longitud o probabilidad) .En función de que cada uno de los métodos heurísticos por si mismos no garantizan encontrar la solución óptima.Este método genera los árboles de forma similar a la búsqueda exhaustiva.En general los búsquedas heurísticas son referidas como un proceso de escalada o ascenso a la cima (Hill-climbing). la cima más alta corresponde al árbol óptimo. en la búsqueda de árboles. el árbol obtenido es sometido a una serie de rearreglos o permutaciones de ramas (Branch swapping) con los que se intenta mejorar su valor. que es establecido como límite superior .En la práctica solo se evalúan aquellos árboles que no exceden un determinado valor. en donde se determina que no conducirán a árboles óptimos . se continua adicionando nuevas secuencias o taxa . se convierte en el nuevo límite de referencia @2007González-Cózatl Máxima Parsimonia 27 -Métodos de búsqueda de árboles óptimos -Búsqueda Branch and Bound @2007González-Cózatl Máxima Parsimonia 28 -Métodos de búsqueda de árboles óptimos -Búsquedas aproximadas .Si este valor no excede el límite superior establecido.Si el valor de un árbol completo es mejor que límite superior. es decir el más parsimonioso ó el más probable @2007González-Cózatl Máxima Parsimonia 30 .En una primera etapa. El proceso continua hasta que ya no es posible encontrar una mejor solución @2007González-Cózatl Máxima Parsimonia 29 -Métodos de búsqueda de árboles óptimos -Búsquedas aproximadas . pero evitando rutas. un árbol inicial es generado usando un algoritmo que construye este de adicionando secuencias o taxa de forma secuencial (Stepwise addition) -En una segunda fase.-Métodos de búsqueda de árboles óptimos -Métodos de búsqueda de árboles óptimos -Búsqueda Branch and Bound .Cuando el valor de un árbol incompleto (no incluye todas las secuencias) supera el límite superior se detiene la búsqueda en esa ruta . varios programas (PAUP y otros) utilizan un sistema de dos fases para realizar búsquedas aproximadas .

En general los métodos de parsimonia pueden ser muy eficaces bajo diferentes escenarios evolutivos. los cuales involucran el corte del árbol en uno o varios segmentos y un reensamble posterior de estos elementos de tal forma que se obtenga un árbol distinto al original . este se rechaza y se regresa al árbol previo.Al realizar estos rearreglos se intenta mejorar el valor del árbol inicial.Permutación de ramas (brach swapping) .Una vez que se ha generado un árbol inicial (mediante la adición secuencial).Con esto se trata de iniciar la búsqueda desde distintos puntos en el espacio de árboles posibles.No obstante. sin embargo.Rearreglos .Métodos de permutación de ramas + Rearreglos @2007González-Cózatl Máxima Parsimonia 35 @2007González-Cózatl Máxima Parsimonia 36 .Con el propósito de encontrar la mejor solución con este algoritmo.Este algoritmo funciona de forma similar al proceso seguido en las búsquedas Exahustiva y de Branch and Bound.-Métodos de búsqueda de árboles óptimos -Adición secuencial (stepwise addition) . esperando que al menos una de esta rutas conduzca al árbol óptimo -Métodos de búsqueda de árboles óptimos .Adición secuencial @2007González-Cózatl Máxima Parsimonia 32 -Métodos de búsqueda de árboles óptimos .El escenario clásico donde esto podría pasar. se recomienda repetir el proceso varias veces (réplicas) y que la adición de secuencias sea al azar .Justificaciones y objeciones para Parsimonia . es decir. se pueden implementar los métodos de intercambio de ramas. pero difiere en que cada vez que se adiciona una nueva secuencia o taxón se calcula el valor de los árboles generados y únicamente se continua con el árbol que en esa fase o paso parece ser la mejor solución -El inconveniente es que esa ruta que se sigue no necesariamente conduce a la solución óptima y se puede quedar “entrampado” en un solución subóptima -El proceso termina cuando se han incorporado todas las secuencias o taxa @2007González-Cózatl Máxima Parsimonia 31 -Métodos de búsqueda de árboles óptimos . se ha demostrado que resultan más efectivos cuando las tasas de evolución de los taxa analizados son lentas .Adición secuencial . se guarda el nuevo árbol y se intentan nuevos rearreglos -El proceso se detiene cuando rearreglos adicionales no mejoran el valor del mejor árbol guardado @2007González-Cózatl Máxima Parsimonia 33 @2007González-Cózatl Máxima Parsimonia 34 -Métodos de búsqueda de árboles óptimos . se conoce como el fenómeno de atracción de ramas largas . se ha señalado que bajo ciertos escenarios parsimonia puede ser potencialmente inconsistente. Si el valor mejora. Si el valor del nuevo árbol no mejora. que puede conducir a una solución equivocada (filogenia incorrecta) incluso cuando se adicionan más datos al análisis .

El potencial problema de la ramas largas no es en si la longitud de las ramas.2) / (3.Justificaciones y objeciones para Parsimonia .4) que la topología alternativa (1.Justificaciones y objeciones para Parsimonia .Para que parsimonia recupere el árbol correcto ((1..Justificaciones y objeciones para Parsimonia -El fenómeno de atracción de ramas largas se refiere a situaciones en las que linajes o secuencias con una tasa de cambio muy acelerada aparentemente muestran una relación muy estrecha.Una estrategia para reducir el posible efecto de atracción de ramas largas consiste en la adición de secuencias que pudieran unirse a estas ramas largas con el fin de romperlas y reducir su longitud @2007González-Cózatl Máxima Parsimonia 39 @2007González-Cózatl Máxima Parsimonia 40 .2). sino que sustituciones idénticas (homoplasias) hayan ocurrido a lo largo de las dos ramas .4) / (2.Justificaciones y objeciones para Parsimonia . a pesar de que esta no sea necesariamente cierta .Estas convergencias podrían sobrepasar el número de sitios que cambian en la rama interna y así favorecer. es muy posible entonces que por casualidad (azar) 1 y 4 hallan adquirido el mismo nucleótido independientemente .3) .4)) deben existir más sitios apoyando la relación (1.Si la rama interna es relativamente más corta que las ramas terminales.La probabilidad de encontrar sitios que covarian tiende a reducirse cuando ramas largas se encuentran distantes evolutivamente . el árbol incorrecto @2007González-Cózatl Máxima Parsimonia 37 @2007González-Cózatl Máxima Parsimonia 38 .(3. bajo el enfoque de parsimonia.