Professional Documents
Culture Documents
Curso 2007/2008
Profesora: Isabel Mateu Andrs
Web: http://www.uv.es/cuaderno0708
Programa
Sesin 1.- Introduccin a la asignatura. La clasificacin biolgica. Lgica, fundamentos y
objetivos. Proceso de clasificacin. Escuelas taxonmicas actuales. Mtodos de ordenacin.
Sesiones 2 5.- Metodologa fentica. Principios en que se basa. Etapas de trabajo. Tipos
de caracteres y codificacin. Obtencin de dendrogramas. Interpretacin de resultados.
1.- Introduccin a NTSYS.
2.- Medida de la semejanza: Algoritmos de semejanza. Algoritmos de agrupamiento.
3.- Algoritmos de distancia. Transformacin de datos cuantitativos.
4.- Delimitacin de grupos. Jerarquizacin y asignacin de nombres.
5.- Arboles de consenso. Evaluacin de resultados.
Sesiones 6 8.- Metodologa Cladstica. Principios en que se basa. Etapas de trabajo. Tipos
de caracteres y codificacin.
1.- Introduccin a Phylip.
2.- Trabajo con diferentes tipos de datos: Morfolgicos, secuencias, sitios de restriccin,
frecuencias genticas.
3.- Algoritmos adecuados a cada tipo de datos. Construccin de rboles.
4.- Formacin de grupos: rboles de consenso y bootstraps.
5.- Jerarquizacin y asignacin de nombre.
Sesiones 9 10.- Mtodos de ordenacin.
1.- Anlisis de componentes principales (PCA).
2.- Anlisis factorial de correspondencias (AFC).
3.- Anlisis de la Funcin Discriminante.
2.- Anlisis de la Correlacin Cannica.
Bibliografa
Cuadras, C. M. (1991). Mtodos de Anlisis Multivariante. Segunda edicin. Promociones y Publicaciones
Universitarias, S. A. Barcelona. 644 pp.
Felsenstein, J. (1995) PHYLIP (Phylogeny Inference Package) Version 3.57c. University of
Washington.<http://evolution.genetics.washington.edu/phylip.html>.
Forey, P. L., C. J. Humphries, I. L. Kitching, R. W. Scotland, D. J. Siebert & D. M. Williams -Edit.- (1992).
Cladistics, a Practical Course in Systematics. The Systematics Association Publication nq. 10. Oxford
Claredon Press. Oxford.
Johnson DE. (2000). Mtodos multivariados aplicados al anlisis de datos. International Thomson Editores.
Krzanowski, W. J. (1996) Principles of Multivariate Analysis. A User's Perspective. Oxford Science
Publications. Clarendon Press, Oxford. 563 pp.
Lebart, L., A. Morineau & J.-P. Fnelon (1985). Tratamiento Estadstico de Datos. Mtodos y Programas.
Marcombo, S. A., Barcelona. 520 pp.
Legendre , P. & L. Legendre (1998). Numerical Ecology. 2nd English edition. Developments in
Environmental Modelling, 20. Elsevier Science B. V. Amsterdam, The Netherlands. 853 pp.
Manly, B. F. (1994) Multivariate Statistical Methods. A Primer. 2nd. Edition. Chapman & Hall. London. 215
pp.
Mayr, E. & P. D. Ashlock (1991). Principles of Systematic Zoology. 2nd Edition. McGraw-Hill, Inc.,
Singapore. 475pp.
Quicke, D. L. J. (1993). Principles and Thecniques of Contemporary Taxonomy. Tertiary Level Biology.
Blackie Acad. & Professional, Chapman & Hall,Glosgow. 311 pp.
Rohlf, F. J. (1998) NTSYS-pc. Numerical Taxonomy and Multivariate Analysis System. Version 2. User Guide.
Exeter Software. Applied Biostatistics Inc. Setauket.
Sneath, P. H. A. & R. R. Sokal (1973) Numerical Taxonomy. The Principles and Practice of Numerical
Classification. W. H. Freeman and Co. San Francisco. 573 pp.
Stuessy, T. F. (1990). Plant Taxonomy. The Systematic Evaluation of Comparative Data. Columbia University
Press, New York. 514 pp.
Recursos en Internet:
General:
http://entomologia.rediris.es/sea/bol/vol26/s1/articulo/
http://mendel.uab.es/biocomputacio/treballs00-01/rodriguez-rotllant/taxonomia.htm
Cladstica:
http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf
http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf
http://www.science.uts.edu.au/sasb/WestonCrisp.html
http://www.ucmp.berkeley.edu/clad/clad1.html
Ordenacin:
http://www.okstate.edu/artsci/botany/ordinate/
http://life.bio.sunysb.edu/morph/
Programas relacionados con la materia:
http://evolution.genetics.washington.edu/phylip.html
http://www.cladistics.org/education.html
Introduccin
La sociedad tiene una necesidad creciente de informacin taxonmica fiable que permita conservar, manejar, entender y
disfrutar del mundo natural (Wheeler, Raven & Wilson, Science 303, 2004).
La jerarqua taxonmica
La clasificacin de los seres vivos es jerrquica: Las especies se encuadran dentro de gneros, los gneros
dentro de familias etc.
Una clasificacin jerrquica funciona como un sistema de cajas rusas, en el que cada grupo se incluye dentro
de otros de mayor rango, de forma que presenta unas caractersticas propias exclusivas, al tiempo que rene
las caractersticas de todos los grupos de mayor rango en los que se incluye. Este sistema permite establecer
de una forma sencilla las relaciones de parentesco entre los distintos grupos. Todos los seres vivos deben,
obligatoriamente, encuadrarse en las siguientes categoras:
Reino
Divisin (Phylum)
Clase
Orden
Familia
Gnero
Especie
Dos individuos se incluyen en la misma clase porque comparten aquellos atributos que definen esa clase.
Los miembros de una clase son los grupos de rango inferior que dicha clase incluye: los miembros de la clase
familia son gneros, los de gneros son especies. Slo en el caso de la especie sus miembros son individuos.
El nmero de miembros de una clase no influye en su validez. Una clase puede estar formada por un solo
miembro o por varios, solo en el caso de la especie, al ser individuos, los miembros han de ser varios o
muchos, ya que no tendra sentido crear una especie para un solo individuo.
Existen categoras intermedias que pueden usarse para indicar diferentes afinidades dentro de las categoras
anteriores. Ejemplos: Secciones y subsecciones de un gnero, subfamilias y tribus de una familia, subordenes
de un orden, etc. No son de uso obligatorio.
Rango es el nivel en el que se sita un grupo dentro de la jerarqua
Taxon es un grupo sin especificacin de rango.
Caracteres diagnsticos son los que sirven para separar dos grupos.
Caracteres sintticos son aquellos comunes a grupos distintos y, por tanto, sirven para establecer grupos de
mayor rango.
El proceso de la clasificacin
La clasificacin se basa en la comparacin de los caracteres que manifiesta cada unidad objeto de dicha
clasificacin. Los caracteres, son atributos de un organismo que pueden ser descritos, medidos, pesados,
contados, etc. Los caracteres, a su vez, pueden manifestar diferentes estados de carcter. Por ejemplo, un
carcter es el color de los ojos, y cada uno de los colores (castaos, azules, grises, verdes) que se encuentran
en nuestro grupo de trabajo, seran sus estados de carcter.
Medida y Descripcin
Caracteres
Estados
de carcter
Comparacin
Txones
2.- Jerarquizacin de los grupos antes formados: Se trata de establecer las relaciones que existen
entre dichos grupos mediante el establecimiento de la jerarqua, es decir la forma en que se subordinan unos a
otros. Para ello, hay dos etapas: en la primera se seleccionan aquellos caracteres tiles para ese propsito y en
la segunda se evala el nivel de parentesco entre los grupos a travs de esos caracteres.
Los caracteres empleados en la jerarquizacin son aquellos comunes a distintos grupos. En funcin de los
caracteres que comparten, se establecen los niveles de semejanza, que nos permitirn agrupar los txones
previamente establecidos a diferentes niveles.
Seleccin
Txones
Evaluacin
Estados de carcter
Categoras
Lgica de la clasificacin
Independientemente de la naturaleza del objeto a clasificar, existen unas reglas generales de clasificacin, que
son:
1.- Los objetos a clasificar se agrupan en clases que estn hechas del modo ms homogneo posible.
2.- Cada objeto se incluye en aquella clase con cuyos miembros comparte mayor nmero de atributos.
3.- Se establece una clase separada para cualquier objeto que es demasiado diferente para ser incluido en una
de las clases previamente establecidas.
4.- El grado de diferencia entre las clases se expresa ordenndolas en una jerarqua de conjuntos encajados.
Cada nivel de la jerarqua (categora) expresa un cierto grado de diferenciacin.
As pues, las clases se establecen en funcin de los atributos que comparten los objetos y, una clase puede
eliminarse si los atributos que la diferencian de las restantes no son suficientes o no estn establecidos con
claridad.
Una clasificacin no es inmutable en cuanto que grupos existentes pueden eliminarse al igual que pueden
crearse grupos nuevos por razones de conveniencia, criterio de clasificacin, por resultar inadecuada al estado
de conocimientos, etc.
Nomenclatura
El ltimo paso de la clasificacin biolgica, es la perfecta identificacin de cada uno de ellos. Esto se
consigue con la aplicacin de un nombre nico para cada grupo y exclusivo para l, de forma que dando ese
nombre sea posible identificar el grupo al que pertenece sin confundirlo con otro ===> Nomenclatura.
El objetivo del Cdigo de Nomenclatura Biolgica, es asegurar que un taxon slo tenga un nombre mediante
el cual pueda ser conocido correctamente. Un nombre no es mas que un simbolo convencional que sirve para
identificar un taxon concreto.
Los nombres de grupos de rango superior a especie, estan formados por una sola palabra latina. Los nombres
de las especies son binomiales, uniendo al nombre del gnero a que pertenece dicha especie un epteto
especfico, acorde con el gnero. Este sistema binomial fu establecido tambien por Linneo, evitando la
uitilizacion de frases descriptivas como se hacia anteriormente.
Un nombre debe estar vlidamente publicado, para lo cual han de cumplirse varias condiciones:
- publicarse en revistas, monografas, etc, cientficas de uso corriente en el campo correspondiente.
- obedecer las reglas relativas a la formacin de nombres.
- dar una descripcin del organismo o referirse s una publicacin anterior vlida.
- indicar un tipo nomenclatural, es decir, el elemento sobre el cual se basa la descripcin.
- establecer claramente su rango.
Puede ocurrir que haya mas de un nombre para un mismo grupo por diferentes razones (ignorar la publicacin
anterior, considerar como iguales especies descritas como diferentes, etc.). En estos casos se aplica la ley de
prioridad, que establece que el nombre correcto es el primero vlidamente publicado en Botnica y
Bacteriologa, o el ms antiguo disponible en el caso de Zoologa. Los restantes nombres se consideran
sinnimos.
Escuelas actuales
Para establecer la clasificacin de los seres vivos hay diferentes mtodos que permiten aproximaciones distintas
a esos objetivos, pero la estructura esta ya establecida y es inamovible. As pues, nuestro trabajo trata de
establecer grupos y encajarlos en ella.
Actualmente se trabaja con distintas metodologas:
Filogentica: es la que sigue el mtodo clsico.
No se hacen clculos especiales, ms all de tomar las dimensiones de los rganos a utilizar.
Dan diferente valor a distintos caracteres.
El valor que se da a cada carcter depende del conocimiento y la experiencia personal.
No hay reglas explcitas para establecer clasificaciones.
Tienen una importante componente de subjetividad y, por tanto, difcilmente reproducibles y comprobables.
Fentica: Su principio es la objetividad, para lo cual parten de tantos datos como sea posible disponer y
aplicando clculos matemticos.
No presuponen nada sobre los caracteres ni los txones.
Utilizan un gran nmero de caracteres de diferentes tipos.
Dan el mismo valor a todos los caracteres.
Se basan siempre en datos expresados de forma objetiva.
Utilizan expresiones matemticas para medir la semejanza.
El parentesco se deduce del grado de semejanza.
Ordenacin
Es la situacin de t UTOs en un espacio de dimensionalidad variable entre 1 y t-1.
Los mtodos de ordenacin son fenticos. Se aplican en casos en los que no tiene por que haber relacin entre
UTOs, mientras que los mtodos de clasificacin parten de UTOs relacionados.
Pueden aplicarse a cualquier tipo de datos y los resultados son semejantes a los obtenidos mediante
agrupamiento aunque su representacin es diferente, disponiendo los UTOs en un espacio bi o tridimensional.
Limoniumolei
Sarcocornia
Arthrocnemum
Salicornia
Suaedavera
Suaedafruticosa
Plantagocoro
Plantagocras
Limoniumvulg
Frankenialaevis
Frankeniapulv
Spergulariamed
Spergulariaboc
Coronopus
Inulacrithmoid
Sonchusmarit
Halimione
Atriplex
* Podemos expresar los caracteres dndoles valores que indiquen la diferencia entre estados de carcter (e.c.).
Ej.: mayor o menor sensibilidad de microorganismos a un compuesto 1, 2, 3. Se consideran coincidencias
1/1, 2/2 y 3/3; 1/ 2 no indica mayor proximidad que 1/3.
En la prctica, lo ms frecuente es expresarlos como caracteres distintos. Esto tiene el inconveniente de se da
mayor peso a stos caracteres que a otros con solo dos estados de carcter. En la prctica, sin embargo,
cuando se toman muchos caracteres y solo algunos presentan este problema esa diferencia no es apreciable, ya
que se diluye en el conjunto.
b.- Caracteres cuantitativos continuos: Podemos optar entre dos posibilidades
- Binarizacin: Establecer intervalos discretos para expresar los e.c.
- Expresar los e.c. mediante sus valores absolutos.
UT
Oi
UTO j
1
a 1,1
0
b 1,0
c 0,1
d 0,0
as. Por ejemplo, la ausencia de alas no indica semejanza entre nemtodos, ratas y piojos. La ausencia de
flores no indica semejanza entre algas, helechos y briofitos. Mientras que a niveles bajos, la ausencia de alas,
la reduccin de raices, o nmero de estambres, etc., s es importante ya que la presencia o ausencia de ese
rgano indica semejanza entre UTOs.
Transformaciones
Programas TRANSF y STAND
Cuando tenemos matrices de datos nominales, con frecuencia no encontramos con que tenemos datos medidos
en escalas diferentes y con rangos de variacin mas o menos amplia, segn los datos. Ej.: peso, longitud,
superficie, volumen. Peso de un organismo completo respecto a partes de l.
Aquellos caracteres que presenten valores ms elevados tendrn mayor peso al aplicar un ndice de distancia
entre UTOs. Para evitarlo, se aplican transformaciones con las que se consigue que los datos sean
comparables.
Las ms utilizadas son las transformaciones logartmicas, en que valores como 1, 10, 100, 1000 y 10000, se
convierten en 0, 1, 2, 3 y 4. Con ln se transforman de forma que x = y ln10 (Ej.: trans ln de 1000: x=3x2,3)
(ln10=2,302, e=2,7273)
Otras transformaciones son lineares. En ellas se pueden seguir diferentes mtodos: sumar, multiplicar o
dividir por una constante. Otra transformacin de este tipo es: X= (X-X)/(X max - Xmin)
Tambin un mismo carcter puede presentar un amplio rango de variacin que producir distorsiones
semejantes en el clculo de las distancias entre UTOs. El mtodo ms utilizado para corregir este efecto, es la
standarizacin: X= (X-X)/.
Agrupamiento de UTOs
Programa SAHN-Clustering
Conocida la semejanza o diferencia entre cada par de UTOs, se trata de establecer la relacin que existe entre
todos ellos. El rbol se construye uniendo UTOs en funcin del grado de semejanza (o diferencia) que existe
entre ellos.
Estos mtodos son aglomerativos, jerrquicos y secuenciales:
Aglomerativos: Van uniendo UTOs progresivamente.
Jerrquicos: Presentan distintos rangos o niveles de unin de los UTOs.
Secuenciales: Se repite el mismo proceso hasta unir todos los UTO.
Los mtodos mas frecuentes de encadenamiento de UTOs, son encadenamiento simple (SINGLE), completo
(COMPLETE), por la media aritmtica (UPGMA) y por la media ponderada (WPGMA).
El encadenamiento viene dado por el algoritmo de Lance & Williams (1966, 1967)
U(J,K)L = JUJ,L + KUK,L+ UJ,K+ [UJ,L-UK,L]
U = coeficiente de semejanza o distancia para los UTOs J-K y L (J-K es un grupo ya unido), , , son
coeficientes establecidos segn el mtodo de encadenamiento que se sigue.
j
k
U
Simple
1/2
1/2
0
-1/2
min.
Completo
1/2
1/2
0
1/2
max.
WPGMA
1/2
1/2
0
0
media ponderada
UPGMA
tj/t j,k tk/t j,k 0
0
media aritmetica
En el encadenamiento simple, llamado tambin mtodo del vecino ms prximo, o de los mnimos, se unen
los UTO por el valor de mayor semejanza o menor distancia.
En el encadenamiento completo, del vecino ms lejano o de mximos, se unen los UTOs por el valor menor
de semejanza o mayor de distancia.
En el encadenamiento por la media, se obtiene la media de los coeficientes de semejanza (o diferencia)
entreUTOs, y se unen segn este valor. En ste caso, cada vez que se obtiene un grupo se ha de volver a
calcular los valores medios. En el caso del encadenamiento UPGMA se promedian los valores originales, en
el encadenamiento WPGMA, se emplean los de la matrz triangular inmediatamente anterior. El mtodo de
encadenamiento UPGMA es el ms usado en anlisis cluster.
Evaluacin de resultados
Programas COPH y MXCOMP
El programa MXCOMP de NTSYS, permite medir el grado de relacin existente entre dos matrices
triangulares, la de distancias (o semejanzas) y la de valores cofenticos. Para ello, utiliza el test de Mantel,
que fu desarrollado para establecer relacin entre datos geogrficos y de otro tipo. En ste test, se obtiene Z
n
Z = XijYik
i<j
Xij e Yik son los elementos no diagonales de las matrices X (o S= semejanza) e Y (o C= valores cofenticos).
El valor que se obtiene al aplicar el test de Mantel a una matrz de valores cofenticos y otra sobre la cual se
basa el encadenamiento, es un coeficiente de correlacin cofentica, que puede usarse para medir la bondad
de un anlisis cluster.
Para poder comparar dos matrices (MXCOMP), stas han de tener el mismo formato. Las dos matrices a
comparar son la triangular de semejanzas o distancias y la de valores cofenticos (aquellos con los que se ha
construido el dendrograma). Dado que el formato de ambas matrices es diferente, el primer paso es obtener
una matriz triangular de valores cofenticos. Esto se consigue con el programa COPH.
El resultado aparece como un valor de r (ajuste entre los valores de ambas matrices). Este valor,
generalmente, vara entre 0,7 y 0,95, dependiendo del mtodo de encadenamiento (u ordenacin), y de la
naturaleza de los UTOs clasificados.
Para interpretarlo fcilmente, podemos decir
0.9<r
ajuste muy bueno
0.8<r<0.9 ajuste bueno
Arboles de consenso
Cuando hay mas de un rbol posible, no sabemos cual de ellos es el verdadero o el mejor. Esto puede
resolverse con los rboles de consenso.
Los datos que se proporcionan al programa son los que se obtienen de SAHN clustering. Pueden darse varias
matrices en un mismo archivo o en dos diferentes. Si hay varios rboles en un fichero, el programa har todas
las combinaciones posibles entre rboles de ese fichero, para obtener el rbol de consenso. Si hay dos
archivos con varios rboles, har todas las combinaciones entre los rboles de los dos archivos.
NTSYS utiliza tres mtodos:
STRICT: cada elemento del grupo ha de formar parte de l en todos los rboles que se comparan. Es el que
el programa tiene por defecto.
MAJRUL: une los UTOs que se encuentran unidos en ms del 50% de los rboles. Si hay dos rboles o si
ponemos el nivel 1, el resultado es igual que si se trata de STRICT.
STINEB: es mas complejo. Para cada subgrupo que contiene el UTO i, la interseccin se obtiene del
conjunto de todos ellos.
Indices de consenso: Son valores que permiten evaluar la calidad de los rboles de consenso. Hay varios:
N = n total de subgrupos del rbol de consenso, sin contar el grupo completo y los subgrupos unitarios.
ndice de consenso de Colless: ICc = N/(n-2)
ndice de consenso de Michevich: IC M = Ni/Nmax
ndice de consenso de Schuh & Farris: ICSF = Ni siendo Ni=[ni(ni-1)]/2
NTSYS:
1.- CONSENSE: Se dan dos archivos de entrada conteniendo las matrices que vamos a consensuar
entrada1: matriz1.sah
entrada2:matriz2.sah
Mtodos cladsticos
Buscan la reconstruccin filogentica de un grupo partiendo de las UEs (Unidades Evolutivas) terminales.
Para ello, suponen que los caracteres compartidos indican un origen comn, as pus, a partir de los caracteres
que comparten las UEs buscan los ancestros comunes mas recientes a cada par de UEs o de estas con dichos
antecesores comunes mas recientes.
La Cladstica se basa en caracteres homlogos, es decir aquellos cuya semejanza procede de un origen comn,
y no pueden emplearse caracteres semejantes resultantes de homoplasia, es decir por convergencia (aparicin
independiente en grupos que no comparte un origen comn) o reversin (aparicin del e.c. ancestral despus
de que este haya sufrido un cambio progresivo: 0-1 revierte a 0).
Las representaciones son rboles llamados cladogramas, al final de cuyas ramas se disponen las UEs y cada
par de ellas se unen en un nudo, que representa al antecesor comn mas reciente a ambas UEs. La
metodologa cladista no admite otro tipo de topologa, como las politomas (varias ramas partiendo del mismo
nudo).
Las etapas de trabajo necesarias para desarrollar el estudio cladstico de un grupo, son:
1.- Seleccin de grupo. Las unidades de trabajo son las Unidades Evolutivas (UEs).
2.- Seleccin de caracteres de inters evolutivo.
3.- Codificacin de caracteres.
4.- Construccin rboles de Ues.
5.- Asignacin de rango y nombre a cada grupo.
Para realizar un estudio cladstico, partimos de una matriz semejante a las empleadas en fentica. Mediante la
aplicacin de un algoritmo adecuado, obtendremos los rboles de UEs, en los que se observaran las relaciones
filogenticas que existen entre UEs.
1.- Seleccin de grupo: Las UEs deben ser apropiadas a las preguntas que deseamos responder. Con
frecuencia son especies. El grupo debe ser monofiltico. Para algnos autores no sera correcto trabajar con
grupos parafilticos.
Holofiltico es equivalente al trmino anterior pero en el caso concreto de que se incluyan todos los
organismos que tienen el mismo origen.
Parafiltico: Grupo que comprende un antecesor comn y algunos, pero no todos, los organismos que
comparten ese origen comn.
Polifiltico: es el grupo que comprende dos o ms grupos de txones cuyos antecesores ms recientes no son
miembros de un mismo grupo.
2.- Seleccin de caracteres de inters evolutivo: Los caracteres tiles en Cladstica son aquellos en los que la
probabilidad de cambio es baja.
3.- Codificacin de caracteres: Es la forma en que vamos a expresar cada uno de los estados de carcter que
presentan los diferentes caracteres considerados. Vara dependiendo del tipo de caracteres, podemos codificar
con datos cuantitativos (frecuencias allicas) o binarios. Estos, a su vez, pueden ser 0/1 (caracteres
morfolgicos, sitios de restriccin) o letras (secuencias de nucletidos o proteinas).
4.- Construccin de rboles de UEs: Hay varios mtodos para la construccin de rboles de Ues. Cuando
nuestros datos dan medidas de distancia pueden aplicarse Neighbor-joining WPGMA) o UPGMA. Ambos son
mtodos aglomerativos y secuenciales semejantes a los empleados en Fentica. En Cladstica el ms
empleado es el mtodo de parsimonia, que impone que el rbol mas adecuado para explicar la filogenia de un
grupo es aqul que implica menor nmero de cambios. Dependiendo del tipo de caracteres y las posibilidades
de cambio que estos pueden sufrir, se pueden aplicar diferentes algoritmos, as como para la construccin de
rboles. Los rboles se enrazan a posteriori, generalmente por comparacin con uno o mas grupos externos.
5.- Establecimiento de la genealoga del grupo
Mtodos de parsimonia
En parsimonia siempre se busca el rbol que requiere menor nmero de transformaciones. Para hallarlo
existen diferentes posibilidades que estn muy relacionadas con el tipo de datos y la probabilidad de cambio
de los caracteres.
1.- Wagner: Los cambios 0-1 y 1- 0 son igualmente probables, por lo que se admiten reversiones.
Los cambios son aditivos: si 0 1 supone un cambio, y 1- 2 otro, el paso 0-2 supone dos cambios,
0-1-2-3 supone 3, y as sucesivamente.
Es adecuado para caracteres multiestado.
2.- Camin-Sokal: Los cambios 0-1 son mucho mas probables que a la inversa y, por tanto, no admite
reversiones.
El estado ancestral debe ser conocido.
3.- Fitch: Es semejante al de Wagner, en el sentido de que pueden producirse cambios en cualquier sentido,
pero aqu no son aditivos. Por lo tanto es adecuado para caracteres desordenados como los datos de
secuencias en que cada base o protena puede cambiar a cualquier otra.
4.- Dollo: Asume que la probabilidad de cambio 0-1 es menor que la de reversin 1-0. As pues, permite un
solo cambio del primer tipo mientras que pueden haber tantas reversiones como sea necesario para explicar el
patrn de estados observado. Es adecuado a sitios de restriccin y, en general, a caracteres que sufran un solo
cambio.
5.- Polimorfismo: Un carcter puede manifestar simultneamente sus e.c. plesiomrficos y apomrficos.
Admite reversin de caracteres.
Como viene siendo habitual, tambin para la construccin de rboles existen diferentes mtodos, dependiendo
del tipo de datos, as como del nmero de UEs.
Cuando nuestros datos son medidas de distancia, los mtodos mas empleados son UPGMA y NeighborJoining o WPGMA, vistos en Fentica.
Cuando se aplican mtodos de parsimonia, lo deseable es evaluar todas las topologas posibles escogiendo la
mejor. Dado que el nmero de topologas posibles es (2n-3)!/[2n-2(n-2)!] (n=nmero de UEs) esto solo es
posible cuando el nmero de UEs es bajo. En el caso de que el nmero de UEs sea mayor, se construye el
rbol aadiendo una UE cada vez y valorando cual es la posicin ptima de acuerdo con el criterio de
parsimonia. El orden en que se toman las UEs puede influir en el resultado final, por lo que los programas
suelen disponer de una opcin que permita cambiar el orden al azar. Repitiendo este proceso un cierto nmero
de veces, aumentamos la probabilidad de obtener el mejor rbol posible.
DNAPARS
Obtiene rboles de UEs a partir de datos de secuencias
Es un programa semejante a MIX que parte de los mismos supuestos:
DOLLOP
Para matrices binarias de sitios de restriccin
Utiliza el algoritmo de Dollo. El programa intenta minimizar el nmero de reversiones necesarias.
El programa asume:
1.- Se conoce el estado de carcter ancestral (0)
2.- Los caracteres evolucionan independientemente
3.- Los linajes evolucionan independientemente
4.- La probabilidad de cambio hacia delante (0-1) es pequea respecto al tiempo evolutivo implicado
5.- La probabilidad de reversin es tambin pequea, pero mucho mayor que la de cambio hacia delante, por
lo que es mas fcil que hayan varias reversiones que un cambio hacia delante.
6.- Es altamente improbable la retencin de polimorfismo de ambos estados de carcter (0,1)
Opciones: U,J,T,A y M
GENDIST
Adecuado para datos de frecuencia gentica.
El programa halla la distancia gentica entre poblaciones (o especies) y puede hacerlo por tres mtodos:
1.- Nei (1972): D= -ln k[xkixkj ]/(kx2kix2kj )
2.- Cavalli-Sforza Cavalli-Sforza & Edwards, 1967): dij= 4[n-k(xkixkj)], n=n loci
3.- Reynolds, Weir & Cokerham (1983): D2= [xki-x2kj]/2[1-xkixkj]
El ndice de Nei asume mutacin neutral, equilibrio entre mutacin y deriva, y tamao poblacional constante,
mientras que los otros dos no. En ellos la variacin de frecuencias se debe a deriva, principalmente, y sta
depende del tamao efectivo de las poblaciones, de forma que a mayor tamao es mas lenta.
Obtenida la matriz de distancias, se utiliza un programa para obtener los rboles (por ejemplo NEIGHBOR).
Mtodos de Ordenacin
La obtencin de dendrogramas es el mtodo de clasificacin fentica ms adecuado cuando partimos de
organismos que presentan niveles de semejanza importantes y, por tanto, es evidente que deben reunirse en
grupos, de forma que nuestro problema es ver cmo se agrupan (n de grupos, niveles de agrupamiento).
Con frecuencia, tanto en Biologa (Ecologa, Paleontologa) como en otras materias de investigacin
(Sociologa, Economa, Antropologa, Medicina, etc.), nos encontramos con objetos definidos por un conjunto
de variables, y tratamos de establecer si existen o no relaciones entre ellos.
Para resolver este tipo de problemas, se emplean tcnicas de anlisis multivariante conocidas como mtodos
de ordenacin.
Existen diferentes mtodos que son adecuados para diferentes tipos de datos (cuantitativos o cualitativos), y
que utilizan diferentes ndices de distancia pero, en esencia, todos ellos tratan de conseguir lo mismo:
partiendo de una matriz de dimensiones nxm (UTO x caracteres), representar los UTO en un hiperespacio de
dimensin t. El nmero de ejes de este hiperespacio esta reducido respecto al original.
Para ello, es necesario que exista correlacin entre algnos de los caracteres, de modo que cada vector exprese
combinaciones de esos caracteres. Si no es as, si todos son mutuamente independientes, entonces es
imposible reducir esas dimensiones y no es posible este tipo de anlisis multivariante.
El agrupamiento entre ejes se realiza de tal forma que los nuevos vectores renan la mxima cantidad de
variacin, y no estn correlacionados entre s.
1.00000
0.67540 1.00000
0.76851 0.76102 1.00000
0.52901 0.52408 0.60665 1.00000
3.- Eigen: A partir de la matriz triangular, obtiene los componentes principales y los valores propios de cada
componente principal.
Coeficientes de los vectores propios
Componente Valor Propio X1
X2
X3 .(=n ejes pedidos)
______________________________________________
1
3.54925 0.82538 0.04166 0.53674
2
0.53268 0.87593 -0.21787 0.07984
3
0.43176 0.85881 -0.23903 -0.16466
4
0.31790 0.89145 -0.13462 -0.30394
5
0.16841 0.75400 0.63892 -0.13341
total=5
Valores propios
% explic. % acumulado
________________________________________________
1
3.54925
70,98
70,98
2
0.53268
10,65
81,63
3
0.43176
8,63
90,27
4
0.31790
6,35
96,63
5
0.16841
3,37
100
El % de explicacin se obtiene dividiendo el valor propio de cada componente principal por la suma de los
valores propios. As el % de explicacin del primer componente es 3,549/5=70,98%; 2 componente 0,532/5=
10,65%, etc.
Los valores propios se dan en orden descendente, de forma que el primer eje es el que rene mayor cantidad
de informacin, seguido del segundo, y as sucesivamente.
4.- Proyeccin de los UTOs sobre los nuevos vectores.
5.- Dibujo (MXPLOT o Mod3d)
Ntsys:
1.- Std: standarizacin de variables (si es necesario)
2.- Simint: corr/varcov (correlacin=covarianzas entre variables std).
3.- Eigen: obtencin de vectores y valores propios.
Entrada: matriz .cov
Salida: dos archivos conteniendo vectores y valores propios, respectivamente.
En el informe (report listing) aparecen los valores propios, los % de explicacin y los % acumulados. En las
respectivas matrices se guardan los valores propios y los vectores propios, con stos se puede ver la
contribucin de cada variable original a cada uno de los nuevos ejes.
4.- Proj: proyeccin de ejes en los ejes PCA.
Entrada: matriz .std
Entrada: matriz de vectores propios
Entrada: matriz de valores propios (opcional)
Salida: matriz de proyeccin: contiene las nuevas coordenadas de los UTO respecto a los nuevos ejes
(componentes principales)
5.- Mod3d: grfico tridimensional. Entrada: = archivo de salida de Proj
Representa poblaciones o UTOs y caracteres al mismo tiempo, permitiendo ver las relaciones entre ellos.
Este tipo de anlisis tiene un propsito semejante al de Componentes Principales. La idea bsica es que es
posible describir un conjunto de variables en funcin de un nmero menor de ndices o factores para, as,
establecer las relaciones que existen entre ellas. Tambin el procedimiento es semejante al del Anlisis de
Componentes Principales en cuanto a la extraccin de valores y vectores propios. Sin embargo presenta varias
diferencias importantes:
Si la distribucin de frecuencias de los caracteres en la poblacin Hi viene dado por Hi= (fi1/fi, fi2/fi,.fin/fi)
la distancia 2 entre las poblaciones Hi,Hj en relacin a los caracteres A1, A2, An, es: d2(Hi,Hj) =1
El modelo que sigue el AFC es el siguiente: (ij = i j )1/2 (1+ k (k ik jk)1/2 siendo ij las frecuencias
relativas x ij/x , i j las frecuencias relativas de filas y columnas, k es el k valor propio y ik jk son
elementos de las matrices de factores de filas y columnas.
Utiliza un nmero reducido de vectores principales, los 2-3-4 primeros (los de mayores valores) y con ellos
vuelve a obtener los nuevos que ahora se llaman factores. Para obtener esos factores, hace unas
rotaciones que consisten en escoger los valores dij de las nuevas ecuaciones F1 = d11F1 + d12F2 + ..... + d1mFm
Esas rotaciones pueden ser de distintos tipos segn se desee la total independencia de los factores o no. As,
en las rotaciones oblicuas los factores no estn correlacionados, como los antiguos vectores.
Ntsys
CORRESPONDENCE ANALYSIS. El archivo de entrada es el que contiene la matrz original, se crean otros
siete y, como resultado, tenemos ya la representacin grfica. En el informe, se dan los valores propios y los
% de explicacin que cada uno de ellos representa en el conjunto, as como los acumulados. Aparecen
tambin las frecuencias relativas y las distancias 2 al centroide de cada UTO y cada variable. (Aqu los
valores propios son <1).
Las matrices que se crean son:
Factores de filas y columnas, contienen las coordenadas respecto de cada eje.
Contribuciones absolutas, contienen la proporcin de la variacin de cada factor que explican las variables y
los UTO.
Correlaciones cuadradas, se muestra la importancia de cada variable y UTO para cada factor.
Para representar UTOs y caracteres, podemos, tambien, utilizar los programas 2D-PLOT y 3D-PLOT, para
dos o tres dimensiones. El archivo de entrada es el de factores de filas/columnas obtenido con CORRESP
(segn vayamos a representar UTOs o caracteres), y la direccin ser siempre por columnas.
Mensajes de error frecuentes: Cuando se realiza una operacin ilcita, el programa se bloquea y no es
posible seguir trabajando.
Mensaje:
Cannot focus a dissabled window
Problem in reading value: 1.000000.
Access violation . (nmero)
File not found
Solucin:
Cerrar el programa y volverlo a abrir.
Idem.
Reiniciar el ordenador
Situarse en la lnea del archivo de entrada y dar doble click.
Aparecer una pantalla pequea en la que podemos sealar el
archivo.
Importante: No minimizar el report listing. La consecuencia es que al ejecutar otra vez el mismo
programa u otro diferente, no encontramos los datos que habitualmente aparecen en pantalla y los archivos de
resultados estn vacos.
Formato de archivos: Phylip no tiene editor, por lo que los archivos deben construirse con un programa
de tratamiento de texto y ser guardados con formato texto (.txt).
El archivo solo contendr los datos que el programa necesite para trabajar, sin texto en el archivo.
Los primeros datos que lee el programa son los que le indican el nmero de filas y el de columnas y, a
continuacin, la matriz.
Las UEs se sitan siempre en filas. Para identificar cada UE se reservan los diez primeros espacios de cada
fila.
Dependiendo del tipo de datos, los caracteres se pueden indicar con valores, letras o ser binarios (0/1). Solo en
el caso de valores es necesario utilizar espacios en blanco para separar caracteres. Cuando tenemos largas
series de datos, podemos separar por un espacio los bloques de diez, facilitando la identificacin de cada dato.
Ejemplos:
Datos binarios:
6 12
UE1
0010010011 01
UE2
0101010101 01
UE3
1100101001 00
UE4
1001101010 10
UE5
0010101010 10
UE6
0101010101 11
Secuencias de ADN:
6 12
Especie1 AGCAGGCAATTA
Especie2 GCTTAATCGTCC
Especie3 CAGTAATCCTGC
Especie4 CCTTGACGACTT
Especie5 AAGCTAAGACTT
Especie6 CCGGTAATTCGG
Frecuencias de alelos:
67
3121112
pob 1 0.065 0.130 0.805 1.000 0.935 0.065 1.000 1.000 1.000 0.568 0.432
pob 2 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.435 0.565
pob 3 0.000 0.130 0.870 1.000 1.000 0.000 1.000 1.000 1.000 0.275 0.725
pob 4 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.267 0.733
pob 5 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.494 0.506
pob 6 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.700 0.300
Se requiere una segunda lnea de encabezamiento cuyas cifras corresponden al nmero de alelos (columnas)
de los distintos loci.
Matriz de distancias:
6
pob 1
0.0000
pob 2
0.0090 0.0000
pob 3
0.0012 0.0044
pob 4
0.0090 0.0000
pob 5
0.0090 0.0000
pob 6
0.0090 0.0000
0.0000
0.0044 0.0000
0.0044 0.0000 0.0000
0.0044 0.0000 0.0000 0.0000
0 1 2 3 4 5 6 .....
0! 2 2 2 2 1 1
10! 1 2 3 1 1 1 1
20!
30!
Opcin 5: Tambin da informacin adicional en la que se pueden seguir los estados de carcter en cada nudo
del rbol. (Alpha, Beta, Gamma, Delta y Epsilon, son UEs en el ejemplo)
From
1
2
4
4
2
3
3
1
To
1
2
4
Epsilon yes
Gamma no
3
Delta
Beta
Alpha
Any Steps?
no
maybe
yes
yes
maybe
maybe
Length
---------0.00000
0.00000
0.00000
0.00610
0.00290
0.00170
0.00000
0.00000
0.00000
Ficheros treefile, contienen la informacin para dibujar los rboles con el formato de parntesis. Cada rbol
acaba con ;
Los rboles que se obtienen con un programa basado en medidas de distancia, como NEIGHBOR o FITCH,
permiten conocer la longitud de las ramas. As, el rbol anterior, en el treefile, tiene el formato:
(pob5:0.00000,pob6:0.00000,
((pob1:0.00290,pob3:0.00170):0.00610,pob2:0.00000,pob4:0.00000):0.00000):0.00000);
y significa que la longitud entre el nudo 4 y las UEs pob5 y pob6 es 0; entre el nudo 4 y el 3 tambin 0; entre
el nudo 3 y el 1 la longitud seria de 0.0061; entre el nudo 1 y la pob1 seria de 0.0029 y entre el nudo 1 y la
pob3 de 0.0017; entre el nudo 3 y el 2 seria 0, al igual que entre estas UEs y el nudo 2.