Cuaderno 0708

Tcnicas Automatizadas de Clasificacin y Ordenacin
Curso 2007/2008
Profesora: Isabel Mateu Andrs
Web: http://www.uv.es/cuaderno0708
Programa
Sesin 1.- Introduccin a la asignatura. La clasificacin biolgica. Lgica, fundamentos y
objetivos. Proceso de clasificacin. Escuelas taxonmicas actuales. Mtodos de ordenacin.
Sesiones 2 5.- Metodologa fentica. Principios en que se basa. Etapas de trabajo. Tipos
de caracteres y codificacin. Obtencin de dendrogramas. Interpretacin de resultados.
1.- Introduccin a NTSYS.
2.- Medida de la semejanza: Algoritmos de semejanza. Algoritmos de agrupamiento.
3.- Algoritmos de distancia. Transformacin de datos cuantitativos.
4.- Delimitacin de grupos. Jerarquizacin y asignacin de nombres.
5.- Arboles de consenso. Evaluacin de resultados.
Sesiones 6 8.- Metodologa Cladstica. Principios en que se basa. Etapas de trabajo. Tipos
de caracteres y codificacin.
1.- Introduccin a Phylip.
2.- Trabajo con diferentes tipos de datos: Morfolgicos, secuencias, sitios de restriccin,
frecuencias genticas.
3.- Algoritmos adecuados a cada tipo de datos. Construccin de rboles.
4.- Formacin de grupos: rboles de consenso y bootstraps.
5.- Jerarquizacin y asignacin de nombre.
Sesiones 9 10.- Mtodos de ordenacin.
1.- Anlisis de componentes principales (PCA).
2.- Anlisis factorial de correspondencias (AFC).
3.- Anlisis de la Funcin Discriminante.
2.- Anlisis de la Correlacin Cannica.
Sesiones 11 12.- Presentacin de trabajos.
Bibliografa
Cuadras, C. M. (1991). Mtodos de Anlisis Multivariante. Segunda edicin. Promociones y Publicaciones
Universitarias, S. A. Barcelona. 644 pp.
Felsenstein, J. (1995) PHYLIP (Phylogeny Inference Package) Version 3.57c. University of
Washington.<http://evolution.genetics.washington.edu/phylip.html>.
Forey, P. L., C. J. Humphries, I. L. Kitching, R. W. Scotland, D. J. Siebert & D. M. Williams -Edit.- (1992).
Cladistics, a Practical Course in Systematics. The Systematics Association Publication nq. 10. Oxford
Claredon Press. Oxford.
Johnson DE. (2000). Mtodos multivariados aplicados al anlisis de datos. International Thomson Editores.
Krzanowski, W. J. (1996) Principles of Multivariate Analysis. A User's Perspective. Oxford Science
Publications. Clarendon Press, Oxford. 563 pp.
Lebart, L., A. Morineau & J.-P. Fnelon (1985). Tratamiento Estadstico de Datos. Mtodos y Programas.
Marcombo, S. A., Barcelona. 520 pp.
Legendre , P. & L. Legendre (1998). Numerical Ecology. 2nd English edition. Developments in
Environmental Modelling, 20. Elsevier Science B. V. Amsterdam, The Netherlands. 853 pp.
Manly, B. F. (1994) Multivariate Statistical Methods. A Primer. 2nd. Edition. Chapman & Hall. London. 215
pp.
Mayr, E. & P. D. Ashlock (1991). Principles of Systematic Zoology. 2nd Edition. McGraw-Hill, Inc.,
Singapore. 475pp.
Quicke, D. L. J. (1993). Principles and Thecniques of Contemporary Taxonomy. Tertiary Level Biology.
Blackie Acad. & Professional, Chapman & Hall,Glosgow. 311 pp.
Rohlf, F. J. (1998) NTSYS-pc. Numerical Taxonomy and Multivariate Analysis System. Version 2. User Guide.
Exeter Software. Applied Biostatistics Inc. Setauket.
Sneath, P. H. A. & R. R. Sokal (1973) Numerical Taxonomy. The Principles and Practice of Numerical
Classification. W. H. Freeman and Co. San Francisco. 573 pp.
Stuessy, T. F. (1990). Plant Taxonomy. The Systematic Evaluation of Comparative Data. Columbia University
Press, New York. 514 pp.
Recursos en Internet:
General:
http://entomologia.rediris.es/sea/bol/vol26/s1/articulo/
http://mendel.uab.es/biocomputacio/treballs00-01/rodriguez-rotllant/taxonomia.htm
Cladstica:
http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf
http://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdf
http://www.science.uts.edu.au/sasb/WestonCrisp.html
http://www.ucmp.berkeley.edu/clad/clad1.html
Ordenacin:
http://www.okstate.edu/artsci/botany/ordinate/
http://life.bio.sunysb.edu/morph/
Programas relacionados con la materia:
http://evolution.genetics.washington.edu/phylip.html
http://www.cladistics.org/education.html
Introduccin
La sociedad tiene una necesidad creciente de informacin taxonmica fiable que permita conservar, manejar, entender y
disfrutar del mundo natural (Wheeler, Raven & Wilson, Science 303, 2004).
Clasificar: Ordenar o disponer por clases o categoras.

Sistemtica: Estudio cientfico de la diversidad de organismos y de las relaciones que se establecen entre
ellos.
Taxonoma: Estudio terico de la clasificacin, incluyendo sus bases, principios, procedimientos y reglas.
Identificacin o determinacin: Asignacin de objetos no identificados en la clase correcta, una vez que se
ha establecido una clasificacin.
La clasificacin esta presente en cualquier aspecto de la vida cotidiana. Cuando el nmero de objetos es
elevado se impone la clasificacin como una necesidad, ya que mediante ella podemos predecir lo que puede
derivarse de un acto, comportamiento, circunstancia, etc.
En la clasificacin de los seres vivos se persiguen dos objetivos:
1.- Delimitar grupos estableciendo los lmites de su variabilidad.
2.- Situarlos en el conjunto de los seres vivos expresando su parentesco.
Una vez delimitados los grupos, se les asigna un nombre cientfico, mediante el cual ser posible su
identificacin inequvoca. Este sistema de nomenclatura proporciona un mtodo adecuado de identificacin y
permite la comunicacin cientfica de forma sencilla.
Las especies son las unidades fundamentales de anlisis en biogeografa, ecologa, macroevolucin,
conservacin, etc as como en materias, aparentemente no relacionadas con la taxonoma, como fisiologa,
biologa celular, gentica o bioqumica. En cualquiera de ellas se trabaja con organismos que pertenecen a
especies concretas, elegidas en funcin de los objetivos que se pretende alcanzar, por lo que se basan en lo
previamente establecido en la taxonoma del grupo con que se trabaja.
La jerarqua taxonmica
La clasificacin de los seres vivos es jerrquica: Las especies se encuadran dentro de gneros, los gneros
dentro de familias etc.
Una clasificacin jerrquica funciona como un sistema de cajas rusas, en el que cada grupo se incluye dentro
de otros de mayor rango, de forma que presenta unas caractersticas propias exclusivas, al tiempo que rene
las caractersticas de todos los grupos de mayor rango en los que se incluye. Este sistema permite establecer
de una forma sencilla las relaciones de parentesco entre los distintos grupos. Todos los seres vivos deben,
obligatoriamente, encuadrarse en las siguientes categoras:
Reino
Divisin (Phylum)
Clase
Orden
Familia
Gnero
Especie
Dos individuos se incluyen en la misma clase porque comparten aquellos atributos que definen esa clase.
Los miembros de una clase son los grupos de rango inferior que dicha clase incluye: los miembros de la clase
familia son gneros, los de gneros son especies. Slo en el caso de la especie sus miembros son individuos.
El nmero de miembros de una clase no influye en su validez. Una clase puede estar formada por un solo
miembro o por varios, solo en el caso de la especie, al ser individuos, los miembros han de ser varios o
muchos, ya que no tendra sentido crear una especie para un solo individuo.
Existen categoras intermedias que pueden usarse para indicar diferentes afinidades dentro de las categoras
anteriores. Ejemplos: Secciones y subsecciones de un gnero, subfamilias y tribus de una familia, subordenes
de un orden, etc. No son de uso obligatorio.
Rango es el nivel en el que se sita un grupo dentro de la jerarqua
Taxon es un grupo sin especificacin de rango.
Caracteres diagnsticos son los que sirven para separar dos grupos.
Caracteres sintticos son aquellos comunes a grupos distintos y, por tanto, sirven para establecer grupos de
mayor rango.
Normas para el uso y aplicacin de las categoras taxonmicas:

La jerarqua taxonmica es inamovible. Fue establecida por Linneo, quin fij las categoras y estableci el
orden jerrquico entre ellas, de forma que al diferenciar grupos se puede apreciar cuales estn mas prximos o
alejados entre s, deduciendo las relaciones de parentesco que los unen. Dicha jerarqua ha sido
universalmente aceptada, dando estabilidad a la clasificacin biolgica, cosa que anteriormente no exista.
Como consecuencia:
- No se pueden crear nuevas categoras.
- Las categoras principales son de uso obligatorio: todos los organismos pertenecen a una especie
que se incluye en un gnero y ste en una familia, y as sucesivamente.
- No se han de utilizar necesariamente todas las categoras intermedias y pueden usarse categoras
que estn por debajo de otras que, en cambio no se usan en un caso concreto.
- Las categoras intermedias sirven, sobre todo, para expresar esas relaciones de parentesco entre
grupos que pertenecen a un mismo grupo principal
- Las categoras estn establecidas, pero los criterios para definirlas no lo estn, ni pueden estarlo,
por lo que pueden variar segn los autores. Esto lleva a que lo que para unos autores es un gnero para otros
es un familia, etc. Sin embargo este es un hecho normal en Biologa, al que hay que habituarse y saber
interpretar de forma adecuada: es secundario lo que se incluye en un grupo ya que puede variar a criterio de la
persona que lo hace, pero es importante que la estructura se mantenga para entendernos.
- La separacin de grupos, el cambio de rango, etc. no altera la clasificacin.
Se dice que una categora es natural cuando todos los grupos que la forman estn relacionados. Siempre se
pretende crear categoras naturales, pero conseguirlo o no depende de nuestro nivel de conocimiento de los
seres vivos.
El proceso de la clasificacin
La clasificacin se basa en la comparacin de los caracteres que manifiesta cada unidad objeto de dicha
clasificacin. Los caracteres, son atributos de un organismo que pueden ser descritos, medidos, pesados,
contados, etc. Los caracteres, a su vez, pueden manifestar diferentes estados de carcter. Por ejemplo, un
carcter es el color de los ojos, y cada uno de los colores (castaos, azules, grises, verdes) que se encuentran
en nuestro grupo de trabajo, seran sus estados de carcter.
Para establecer una clasificacin distinguimos dos fases:

1.- Agrupamiento: Su objeto es la formacin de grupos. Requiere el estudio previo de los caracteres
y su comparacin. El mtodo de trabajo con el que se realiza este ltimo paso, difiere segn el objetivo que se
persigue en cada caso (fenticos, cladsticos).
Para comparar las unidades de trabajo (UTO en fentica y UE en cladstica), despus de estudiados y medidos
los caracteres, es necesario describirlos de algn modo, es decir, descomponer los caracteres en sus estados de
carcter.
Seleccin
Organismos
individuales
Medida y Descripcin
Caracteres
Estados
de carcter
Comparacin
Txones
2.- Jerarquizacin de los grupos antes formados: Se trata de establecer las relaciones que existen
entre dichos grupos mediante el establecimiento de la jerarqua, es decir la forma en que se subordinan unos a
otros. Para ello, hay dos etapas: en la primera se seleccionan aquellos caracteres tiles para ese propsito y en
la segunda se evala el nivel de parentesco entre los grupos a travs de esos caracteres.
Los caracteres empleados en la jerarquizacin son aquellos comunes a distintos grupos. En funcin de los
caracteres que comparten, se establecen los niveles de semejanza, que nos permitirn agrupar los txones
previamente establecidos a diferentes niveles.
Seleccin
Txones
Evaluacin
Estados de carcter
Categoras
Lgica de la clasificacin
Independientemente de la naturaleza del objeto a clasificar, existen unas reglas generales de clasificacin, que
son:
1.- Los objetos a clasificar se agrupan en clases que estn hechas del modo ms homogneo posible.
2.- Cada objeto se incluye en aquella clase con cuyos miembros comparte mayor nmero de atributos.
3.- Se establece una clase separada para cualquier objeto que es demasiado diferente para ser incluido en una
de las clases previamente establecidas.
4.- El grado de diferencia entre las clases se expresa ordenndolas en una jerarqua de conjuntos encajados.
Cada nivel de la jerarqua (categora) expresa un cierto grado de diferenciacin.
As pues, las clases se establecen en funcin de los atributos que comparten los objetos y, una clase puede
eliminarse si los atributos que la diferencian de las restantes no son suficientes o no estn establecidos con
claridad.
Una clasificacin no es inmutable en cuanto que grupos existentes pueden eliminarse al igual que pueden
crearse grupos nuevos por razones de conveniencia, criterio de clasificacin, por resultar inadecuada al estado
de conocimientos, etc.
Nomenclatura
El ltimo paso de la clasificacin biolgica, es la perfecta identificacin de cada uno de ellos. Esto se
consigue con la aplicacin de un nombre nico para cada grupo y exclusivo para l, de forma que dando ese
nombre sea posible identificar el grupo al que pertenece sin confundirlo con otro ===> Nomenclatura.
El objetivo del Cdigo de Nomenclatura Biolgica, es asegurar que un taxon slo tenga un nombre mediante
el cual pueda ser conocido correctamente. Un nombre no es mas que un simbolo convencional que sirve para
identificar un taxon concreto.
Los nombres de grupos de rango superior a especie, estan formados por una sola palabra latina. Los nombres
de las especies son binomiales, uniendo al nombre del gnero a que pertenece dicha especie un epteto
especfico, acorde con el gnero. Este sistema binomial fu establecido tambien por Linneo, evitando la
uitilizacion de frases descriptivas como se hacia anteriormente.
Un nombre debe estar vlidamente publicado, para lo cual han de cumplirse varias condiciones:
- publicarse en revistas, monografas, etc, cientficas de uso corriente en el campo correspondiente.
- obedecer las reglas relativas a la formacin de nombres.
- dar una descripcin del organismo o referirse s una publicacin anterior vlida.
- indicar un tipo nomenclatural, es decir, el elemento sobre el cual se basa la descripcin.
- establecer claramente su rango.
Puede ocurrir que haya mas de un nombre para un mismo grupo por diferentes razones (ignorar la publicacin
anterior, considerar como iguales especies descritas como diferentes, etc.). En estos casos se aplica la ley de
prioridad, que establece que el nombre correcto es el primero vlidamente publicado en Botnica y
Bacteriologa, o el ms antiguo disponible en el caso de Zoologa. Los restantes nombres se consideran
sinnimos.
Escuelas actuales
Para establecer la clasificacin de los seres vivos hay diferentes mtodos que permiten aproximaciones distintas
a esos objetivos, pero la estructura esta ya establecida y es inamovible. As pues, nuestro trabajo trata de
establecer grupos y encajarlos en ella.
Actualmente se trabaja con distintas metodologas:
Filogentica: es la que sigue el mtodo clsico.
No se hacen clculos especiales, ms all de tomar las dimensiones de los rganos a utilizar.
Dan diferente valor a distintos caracteres.
El valor que se da a cada carcter depende del conocimiento y la experiencia personal.
No hay reglas explcitas para establecer clasificaciones.
Tienen una importante componente de subjetividad y, por tanto, difcilmente reproducibles y comprobables.
Fentica: Su principio es la objetividad, para lo cual parten de tantos datos como sea posible disponer y
aplicando clculos matemticos.
No presuponen nada sobre los caracteres ni los txones.
Utilizan un gran nmero de caracteres de diferentes tipos.
Dan el mismo valor a todos los caracteres.
Se basan siempre en datos expresados de forma objetiva.
Utilizan expresiones matemticas para medir la semejanza.
El parentesco se deduce del grado de semejanza.
Sus representaciones son los dendrogramas de jerarqua taxonmica.

Entre sus puntos dbiles esta el hecho de que es frecuente que obtener clasificaciones ligeramente diferentes
con los mismos datos dependiendo de pequeas variaciones en el proceso de trabajo y los programas
empleados. La crtica ms importante que se hace a estos mtodos consiste en que no tienen en cuenta
posibles convergencias, con lo que son inadecuados para trabajar con grupos de rango taxonmico elevado.
Cladista: Tratan de establecer las relaciones genealgicas dentro de grupos monofilticos.

Partiendo de unas UEs terminales, buscan la reconstruccin filogentica del grupo, partiendo de:
Los caracteres compartidos indican un origen comn.
Utilizan caracteres de inters evolutivo, solamente.
Se basan en la aplicacin de algoritmos matemticos.
Las representaciones que utilizan son los cladogramas.
Puntos dbiles de la metodologa cladista son que parten de grupos establecidos por lo que, en consecuencia,
es necesario establecer los grupos previamente, y que imponen la separacin de una especie ancestral en
dos, cuando realmente hay otros muchos modos de diversificacin.
Puede decirse que los mtodos cladistas y fenticos son complementarios, ya que mediante mtodos
fenticos podemos establecer los grupos de nivel mas bajo, y mediante cladstica podemos establecer su
genealoga.
Ordenacin
Es la situacin de t UTOs en un espacio de dimensionalidad variable entre 1 y t-1.
Los mtodos de ordenacin son fenticos. Se aplican en casos en los que no tiene por que haber relacin entre
UTOs, mientras que los mtodos de clasificacin parten de UTOs relacionados.
Pueden aplicarse a cualquier tipo de datos y los resultados son semejantes a los obtenidos mediante
agrupamiento aunque su representacin es diferente, disponiendo los UTOs en un espacio bi o tridimensional.
Limoniumolei
Sarcocornia
Arthrocnemum
Salicornia
Suaedavera
Suaedafruticosa
Plantagocoro
Plantagocras
Limoniumvulg
Frankenialaevis
Frankeniapulv
Spergulariamed
Spergulariaboc
Coronopus
Inulacrithmoid
Sonchusmarit
Halimione
Atriplex
Mtodos fenticos de Clasificacin

El proceso de la clasificacin mediante mtodos fenticos, implica:
1.- eleccin de unidades de trabajo (UTO=Unidades Taxonmicas Operativas)
2.- " de caracteres
3.- descripcin y/o medida de los caracteres
4.- establecer la semejanza entre cada par de UTOs.
5.- establecer los grupos de UTOs
6.- Jerarquizar los grupos
1.- Eleccin de UTOs: Los UTOs son individuos, generalmente. Estos individuos deben estar en estadios de
desarrollo comparables (ej.: fases de desarrollo larvario de insectos).
El nmero de UTOs no debe ser inferior a 10 (Sneath, 1976), y si es posible debe ser superior a 25
para obtener una representacin adecuada de la semejanza entre UTOs.
Cuando se trata de grupos mayores, es difcil tratar con individuos, entonces se sigue el mismo
proceso pero en etapas distintas. Primero se establecen los grupos y despus se trabaja con estos como UTOs.
2.- Eleccin de caracteres:
a.- Se han de comparar rganos equivalentes. Ej.: hojas basales y superiores de plantas, patas de distintos
pares en insectos.
b.- Es preferible disponer de datos de distintos tipos: morfolgicos, anatmicos, cariolgicos, qumicos,
ontognicos, ultraestructurales, etc. Es importante disponer de datos sobre distintos rganos, etapas de
desarrollo, etc.
c.- Evitar redundancias: Ej. caracteres ligados. Ej.: Radio y dimetro de un rgano; contenido en hemoglobina
e intensidad de color de la sangre.
d.- No se deben usar caracteres relacionados con el medio. Ej.: intensidad del color verde de las hojas con
relacin a iluminacin del medio, adems, puede variar en el mismo individuo si cambian las condiciones.
e.- Deteccin de posibles analogas. Homlogos son rganos iguales en origen y estructura pero con
diferentes funciones, anlogos son rganos diferentes y con la misma funcin (Ej.: patas de mamferos/ aletas
de ballenas / aletas de peces). Generalmente, son poco frecuentes en grupos de nivel bajo.
3.- Descripcin y/o medida de los caracteres y estados de carcter: Codificacin
Los caracteres correspondientes a los distintos aspectos estudiados, se renen en una matriz y pueden
codificarse de forma binaria o bien expresarse en valores absolutos. En la misma matriz podemos tener datos
cuantitativos discontinuos o continuos, y cualitativos, uni- o multiestado.
Los datos cualitativos binarios se expresan como 0/1, generalmente, siendo indiferente a que estado de
carcter le llamamos 0 y a cul 1. Los caracteres cuantitativos discretos o mersticos, pueden tratarse como
cualitativos.
Cuando tenemos caracteres cualtitativos y cuantitativos continuos, debemos binarizar los cuantitativos para
incluirlos en una misma matriz:
a.- Caracteres cualitativos multiestado: Ej. flores de colores blanco, amarillo y rojo.
* Podemos expresarlos como caracteres diferentes, codificndolos de forma binaria (0/1).
blanco: 100
amarillo: 010
rojo:
001
* Podemos expresar los caracteres dndoles valores que indiquen la diferencia entre estados de carcter (e.c.).
Ej.: mayor o menor sensibilidad de microorganismos a un compuesto 1, 2, 3. Se consideran coincidencias
1/1, 2/2 y 3/3; 1/ 2 no indica mayor proximidad que 1/3.
En la prctica, lo ms frecuente es expresarlos como caracteres distintos. Esto tiene el inconveniente de se da
mayor peso a stos caracteres que a otros con solo dos estados de carcter. En la prctica, sin embargo,
cuando se toman muchos caracteres y solo algunos presentan este problema esa diferencia no es apreciable, ya
que se diluye en el conjunto.
b.- Caracteres cuantitativos continuos: Podemos optar entre dos posibilidades
- Binarizacin: Establecer intervalos discretos para expresar los e.c.
- Expresar los e.c. mediante sus valores absolutos.
Medida de la Semejanza entre UTOs

Indices de semejanza o distancia entre pares de UTOs. Programa QUALITATIVE.
Existen varios ndices para expresar tanto semejanzas como diferencias entre UTOs, que son diferentes segn
trabajemos con caracteres binarios o valores absolutos.
Para entenderlo mejor, consideremos una matriz de caracteres binarios:
UT
Oi
UTO j
1
a 1,1
0
b 1,0
c 0,1
d 0,0
a= concordancia positiva 1,1

b= discordancia 1,0
m= a+d
c= "
0,1
u= b+c
d= concordancia negativa 0,0
n= m+u= a+b+c+d
Si consideramos que n=1, m= 1-u, u= 1-m
Coeficiente de concordancia simple: SSM= m = m/n = a+d / m+u = a+d/ a+b+c+d
La diferencia ms importante respecto al ndice de Jaccard, reside en que ste ndice s admite concordancias
negativas. Igualmente vara entre 0 y 1.
Indice de Jaccard: SJ= a / a+u = a / a+b+c
Vara entre 0-1, segn que no exista ninguna concordancia positiva o concuerden todos los caracteres. Este
ndice no tiene en cuenta las concordancias negativas (d).
Jaccard fue el primero en utilizar este ndice en 1908 (para otros usos), por lo que lleva su nombre, aunque en
fentica fue puesto en uso por Sneath en 1957.
Variantes de ste ndice son los ndices de Dice (1945), tambin usado por Sorensen (1948): S D= 2a/(2a+u) en
que se da mas importancia a las concordancias que a las discordancias.
Rogers y Tanimoto: SRT= m/(n+u)= (a+d)/(a+2b+2c+d).
En grupos pequeos las concordancias negativas tienen importancia, en grandes grupos generalmente no es
as. Por ejemplo, la ausencia de alas no indica semejanza entre nemtodos, ratas y piojos. La ausencia de
flores no indica semejanza entre algas, helechos y briofitos. Mientras que a niveles bajos, la ausencia de alas,
la reduccin de raices, o nmero de estambres, etc., s es importante ya que la presencia o ausencia de ese
rgano indica semejanza entre UTOs.
Indices de distancia. Programa INTERVAL.

* Distancia de Manhattan: mide el nmero absoluto de diferencias en estados de caracter entre dos txones.
DM= [Xij-Xik], siendo Xij, Xik= valores del caracter i para los UTOs j,k.
La Distancia de Manhattan promediada es igual a la anterior pero dividiendo por n = n absoluto de
diferencias de estados de carcter entre dos txones. Mij= 1/n |Xij-Xik|
* Distancia Eucldea: DE = [ (Xij-Xik)2] 1/2
* Distancia taxonmica promedio: Eij = [k1/n(Xij-Xik)2]1/2
Transformaciones
Programas TRANSF y STAND
Cuando tenemos matrices de datos nominales, con frecuencia no encontramos con que tenemos datos medidos
en escalas diferentes y con rangos de variacin mas o menos amplia, segn los datos. Ej.: peso, longitud,
superficie, volumen. Peso de un organismo completo respecto a partes de l.
Aquellos caracteres que presenten valores ms elevados tendrn mayor peso al aplicar un ndice de distancia
entre UTOs. Para evitarlo, se aplican transformaciones con las que se consigue que los datos sean
comparables.
Las ms utilizadas son las transformaciones logartmicas, en que valores como 1, 10, 100, 1000 y 10000, se
convierten en 0, 1, 2, 3 y 4. Con ln se transforman de forma que x = y ln10 (Ej.: trans ln de 1000: x=3x2,3)
(ln10=2,302, e=2,7273)
Otras transformaciones son lineares. En ellas se pueden seguir diferentes mtodos: sumar, multiplicar o
dividir por una constante. Otra transformacin de este tipo es: X= (X-X)/(X max - Xmin)
Tambin un mismo carcter puede presentar un amplio rango de variacin que producir distorsiones
semejantes en el clculo de las distancias entre UTOs. El mtodo ms utilizado para corregir este efecto, es la
standarizacin: X= (X-X)/.
Agrupamiento de UTOs
Programa SAHN-Clustering
Conocida la semejanza o diferencia entre cada par de UTOs, se trata de establecer la relacin que existe entre
todos ellos. El rbol se construye uniendo UTOs en funcin del grado de semejanza (o diferencia) que existe
entre ellos.
Estos mtodos son aglomerativos, jerrquicos y secuenciales:
Aglomerativos: Van uniendo UTOs progresivamente.
Jerrquicos: Presentan distintos rangos o niveles de unin de los UTOs.
Secuenciales: Se repite el mismo proceso hasta unir todos los UTO.
Los mtodos mas frecuentes de encadenamiento de UTOs, son encadenamiento simple (SINGLE), completo
(COMPLETE), por la media aritmtica (UPGMA) y por la media ponderada (WPGMA).
El encadenamiento viene dado por el algoritmo de Lance & Williams (1966, 1967)
U(J,K)L = JUJ,L + KUK,L+ UJ,K+ [UJ,L-UK,L]
U = coeficiente de semejanza o distancia para los UTOs J-K y L (J-K es un grupo ya unido), , , son
coeficientes establecidos segn el mtodo de encadenamiento que se sigue.
j
k
U
Simple
1/2
1/2
0
-1/2
min.
Completo
1/2
1/2
0
1/2
max.
WPGMA
1/2
1/2
0
0
media ponderada
UPGMA
tj/t j,k tk/t j,k 0
0
media aritmetica
En el encadenamiento simple, llamado tambin mtodo del vecino ms prximo, o de los mnimos, se unen
los UTO por el valor de mayor semejanza o menor distancia.
En el encadenamiento completo, del vecino ms lejano o de mximos, se unen los UTOs por el valor menor
de semejanza o mayor de distancia.
En el encadenamiento por la media, se obtiene la media de los coeficientes de semejanza (o diferencia)
entreUTOs, y se unen segn este valor. En ste caso, cada vez que se obtiene un grupo se ha de volver a
calcular los valores medios. En el caso del encadenamiento UPGMA se promedian los valores originales, en
el encadenamiento WPGMA, se emplean los de la matrz triangular inmediatamente anterior. El mtodo de
encadenamiento UPGMA es el ms usado en anlisis cluster.
Evaluacin de resultados
Programas COPH y MXCOMP
El programa MXCOMP de NTSYS, permite medir el grado de relacin existente entre dos matrices
triangulares, la de distancias (o semejanzas) y la de valores cofenticos. Para ello, utiliza el test de Mantel,
que fu desarrollado para establecer relacin entre datos geogrficos y de otro tipo. En ste test, se obtiene Z
n
Z = XijYik
i<j
Xij e Yik son los elementos no diagonales de las matrices X (o S= semejanza) e Y (o C= valores cofenticos).
El valor que se obtiene al aplicar el test de Mantel a una matrz de valores cofenticos y otra sobre la cual se
basa el encadenamiento, es un coeficiente de correlacin cofentica, que puede usarse para medir la bondad
de un anlisis cluster.
Para poder comparar dos matrices (MXCOMP), stas han de tener el mismo formato. Las dos matrices a
comparar son la triangular de semejanzas o distancias y la de valores cofenticos (aquellos con los que se ha
construido el dendrograma). Dado que el formato de ambas matrices es diferente, el primer paso es obtener
una matriz triangular de valores cofenticos. Esto se consigue con el programa COPH.
El resultado aparece como un valor de r (ajuste entre los valores de ambas matrices). Este valor,
generalmente, vara entre 0,7 y 0,95, dependiendo del mtodo de encadenamiento (u ordenacin), y de la
naturaleza de los UTOs clasificados.
Para interpretarlo fcilmente, podemos decir
0.9<r
ajuste muy bueno
0.8<r<0.9 ajuste bueno
0.7<r<0.8 ajuste pobre

0.7<r
muy pobre
Se obtiene tambien N = n valores que se comparan = [(n objetos)2-n objetos]/2
ejemplo: en matrices triangulares de 10 x 10 N= (100-10)/2 = 45; en matrices de 8 x 8 N = (64-8)/2 = 28
Complementariamente, puede obtenerse un grfico de la distribucin relativa de los N objetos en las dos
matrices (> amplitud en UPGMA que en encadenamiento simple, por ejemplo).
NTSYS:
1.- COPH: Obtencin de la matriz de valores cofenticos en formato triangular
entrada: matriz.sah
salida: matrz.cof
2.- MXCOMP: Comparacin de matrices triangulares mediante el test de Mantel
entrada1: matrz.sm (o dis)
entrada2: matrz.cof
Arboles de consenso
Cuando hay mas de un rbol posible, no sabemos cual de ellos es el verdadero o el mejor. Esto puede
resolverse con los rboles de consenso.
Los datos que se proporcionan al programa son los que se obtienen de SAHN clustering. Pueden darse varias
matrices en un mismo archivo o en dos diferentes. Si hay varios rboles en un fichero, el programa har todas
las combinaciones posibles entre rboles de ese fichero, para obtener el rbol de consenso. Si hay dos
archivos con varios rboles, har todas las combinaciones entre los rboles de los dos archivos.
NTSYS utiliza tres mtodos:
STRICT: cada elemento del grupo ha de formar parte de l en todos los rboles que se comparan. Es el que
el programa tiene por defecto.
MAJRUL: une los UTOs que se encuentran unidos en ms del 50% de los rboles. Si hay dos rboles o si
ponemos el nivel 1, el resultado es igual que si se trata de STRICT.
STINEB: es mas complejo. Para cada subgrupo que contiene el UTO i, la interseccin se obtiene del
conjunto de todos ellos.
Indices de consenso: Son valores que permiten evaluar la calidad de los rboles de consenso. Hay varios:
N = n total de subgrupos del rbol de consenso, sin contar el grupo completo y los subgrupos unitarios.
ndice de consenso de Colless: ICc = N/(n-2)
ndice de consenso de Michevich: IC M = Ni/Nmax
ndice de consenso de Schuh & Farris: ICSF = Ni siendo Ni=[ni(ni-1)]/2
NTSYS:
1.- CONSENSE: Se dan dos archivos de entrada conteniendo las matrices que vamos a consensuar
entrada1: matriz1.sah
entrada2:matriz2.sah
Mtodos cladsticos
Buscan la reconstruccin filogentica de un grupo partiendo de las UEs (Unidades Evolutivas) terminales.
Para ello, suponen que los caracteres compartidos indican un origen comn, as pus, a partir de los caracteres
que comparten las UEs buscan los ancestros comunes mas recientes a cada par de UEs o de estas con dichos
antecesores comunes mas recientes.
La Cladstica se basa en caracteres homlogos, es decir aquellos cuya semejanza procede de un origen comn,
y no pueden emplearse caracteres semejantes resultantes de homoplasia, es decir por convergencia (aparicin
independiente en grupos que no comparte un origen comn) o reversin (aparicin del e.c. ancestral despus
de que este haya sufrido un cambio progresivo: 0-1 revierte a 0).
Las representaciones son rboles llamados cladogramas, al final de cuyas ramas se disponen las UEs y cada
par de ellas se unen en un nudo, que representa al antecesor comn mas reciente a ambas UEs. La
metodologa cladista no admite otro tipo de topologa, como las politomas (varias ramas partiendo del mismo
nudo).
Las etapas de trabajo necesarias para desarrollar el estudio cladstico de un grupo, son:
1.- Seleccin de grupo. Las unidades de trabajo son las Unidades Evolutivas (UEs).
2.- Seleccin de caracteres de inters evolutivo.
3.- Codificacin de caracteres.
4.- Construccin rboles de Ues.
5.- Asignacin de rango y nombre a cada grupo.
Para realizar un estudio cladstico, partimos de una matriz semejante a las empleadas en fentica. Mediante la
aplicacin de un algoritmo adecuado, obtendremos los rboles de UEs, en los que se observaran las relaciones
filogenticas que existen entre UEs.
1.- Seleccin de grupo: Las UEs deben ser apropiadas a las preguntas que deseamos responder. Con
frecuencia son especies. El grupo debe ser monofiltico. Para algnos autores no sera correcto trabajar con
grupos parafilticos.
Monofiltico es un grupo de organismos que tienen un antecesor evolutivo comn.
Holofiltico es equivalente al trmino anterior pero en el caso concreto de que se incluyan todos los
organismos que tienen el mismo origen.
Parafiltico: Grupo que comprende un antecesor comn y algunos, pero no todos, los organismos que
comparten ese origen comn.
Polifiltico: es el grupo que comprende dos o ms grupos de txones cuyos antecesores ms recientes no son
miembros de un mismo grupo.
2.- Seleccin de caracteres de inters evolutivo: Los caracteres tiles en Cladstica son aquellos en los que la
probabilidad de cambio es baja.
3.- Codificacin de caracteres: Es la forma en que vamos a expresar cada uno de los estados de carcter que
presentan los diferentes caracteres considerados. Vara dependiendo del tipo de caracteres, podemos codificar
con datos cuantitativos (frecuencias allicas) o binarios. Estos, a su vez, pueden ser 0/1 (caracteres
morfolgicos, sitios de restriccin) o letras (secuencias de nucletidos o proteinas).
4.- Construccin de rboles de UEs: Hay varios mtodos para la construccin de rboles de Ues. Cuando
nuestros datos dan medidas de distancia pueden aplicarse Neighbor-joining WPGMA) o UPGMA. Ambos son
mtodos aglomerativos y secuenciales semejantes a los empleados en Fentica. En Cladstica el ms
empleado es el mtodo de parsimonia, que impone que el rbol mas adecuado para explicar la filogenia de un
grupo es aqul que implica menor nmero de cambios. Dependiendo del tipo de caracteres y las posibilidades
de cambio que estos pueden sufrir, se pueden aplicar diferentes algoritmos, as como para la construccin de
rboles. Los rboles se enrazan a posteriori, generalmente por comparacin con uno o mas grupos externos.
5.- Establecimiento de la genealoga del grupo
Mtodos de parsimonia
En parsimonia siempre se busca el rbol que requiere menor nmero de transformaciones. Para hallarlo
existen diferentes posibilidades que estn muy relacionadas con el tipo de datos y la probabilidad de cambio
de los caracteres.
1.- Wagner: Los cambios 0-1 y 1- 0 son igualmente probables, por lo que se admiten reversiones.
Los cambios son aditivos: si 0 1 supone un cambio, y 1- 2 otro, el paso 0-2 supone dos cambios,
0-1-2-3 supone 3, y as sucesivamente.
Es adecuado para caracteres multiestado.
2.- Camin-Sokal: Los cambios 0-1 son mucho mas probables que a la inversa y, por tanto, no admite
reversiones.
El estado ancestral debe ser conocido.
3.- Fitch: Es semejante al de Wagner, en el sentido de que pueden producirse cambios en cualquier sentido,
pero aqu no son aditivos. Por lo tanto es adecuado para caracteres desordenados como los datos de
secuencias en que cada base o protena puede cambiar a cualquier otra.
4.- Dollo: Asume que la probabilidad de cambio 0-1 es menor que la de reversin 1-0. As pues, permite un
solo cambio del primer tipo mientras que pueden haber tantas reversiones como sea necesario para explicar el
patrn de estados observado. Es adecuado a sitios de restriccin y, en general, a caracteres que sufran un solo
cambio.
5.- Polimorfismo: Un carcter puede manifestar simultneamente sus e.c. plesiomrficos y apomrficos.
Admite reversin de caracteres.
Construccin de rboles de UEs
Como viene siendo habitual, tambin para la construccin de rboles existen diferentes mtodos, dependiendo
del tipo de datos, as como del nmero de UEs.
Cuando nuestros datos son medidas de distancia, los mtodos mas empleados son UPGMA y NeighborJoining o WPGMA, vistos en Fentica.
Cuando se aplican mtodos de parsimonia, lo deseable es evaluar todas las topologas posibles escogiendo la
mejor. Dado que el nmero de topologas posibles es (2n-3)!/[2n-2(n-2)!] (n=nmero de UEs) esto solo es
posible cuando el nmero de UEs es bajo. En el caso de que el nmero de UEs sea mayor, se construye el
rbol aadiendo una UE cada vez y valorando cual es la posicin ptima de acuerdo con el criterio de
parsimonia. El orden en que se toman las UEs puede influir en el resultado final, por lo que los programas
suelen disponer de una opcin que permita cambiar el orden al azar. Repitiendo este proceso un cierto nmero
de veces, aumentamos la probabilidad de obtener el mejor rbol posible.
Trabajo con Phylip

MIX
Es un programa que trabaja con datos binarios que, por los algoritmos que emplea, es adecuado para el trabajo
con caracteres morfolgicos.
Utiliza los algoritmos de Wagner y Camin-Sokal, o bien puede aplicar los dos al mismo tiempo para
diferentes caracteres.
Si se escoge la opcin M (=mixture) pueden usarse ambos algoritmos para diferentes caracteres. En este caso,
es necesario especificar el algoritmo a aplicar a cada carcter. Esto se hace escribiendo la inicial del algoritmo
(W=Wagner; C(S)=Camin-Sokal) en una lnea entre la cabecera y los datos de UEs.
El programa asume:
1.-Camin-Sokal: Los estados ancestrales son conocidos
Wagner: Los estados ancestrales son desconocidos
2.- Los caracteres evolucionan independientemente
3.- Los linajes evolucionan independientemente
4.- Permite utilizar los mtodos de Wagner y Camin-Sokal
5.- Cualquier cambio es poco probable a priori
Opciones: U,J,O,T y M. La opcin U permite evaluar la calidad de los rboles. Da la media y la varianza de
las diferencias en pasos entre rboles, si la media es >196los rboles son significativamente distintos.
DNAPARS
Obtiene rboles de UEs a partir de datos de secuencias
Es un programa semejante a MIX que parte de los mismos supuestos:
1.- Cada sitio evoluciona independientemente

3.- La probabilidad de sustitucin de bases en un sitio dado es pequea respecto a cada rama de la filogenia
4.- La probabilidad de cambio en diferentes ramas de la filogenia son semejantes
5.- Es igualmente probable que se produzca un cambio en sitios diferentes que mas de uno en un mismo sitio
Permite utilizar las mismas opciones que MIX (U,J,O,T y M).
DOLLOP
Para matrices binarias de sitios de restriccin
Utiliza el algoritmo de Dollo. El programa intenta minimizar el nmero de reversiones necesarias.
El programa asume:
1.- Se conoce el estado de carcter ancestral (0)
2.- Los caracteres evolucionan independientemente
4.- La probabilidad de cambio hacia delante (0-1) es pequea respecto al tiempo evolutivo implicado
5.- La probabilidad de reversin es tambin pequea, pero mucho mayor que la de cambio hacia delante, por
lo que es mas fcil que hayan varias reversiones que un cambio hacia delante.
6.- Es altamente improbable la retencin de polimorfismo de ambos estados de carcter (0,1)
Opciones: U,J,T,A y M
GENDIST
Adecuado para datos de frecuencia gentica.
El programa halla la distancia gentica entre poblaciones (o especies) y puede hacerlo por tres mtodos:
1.- Nei (1972): D= -ln k[xkixkj ]/(kx2kix2kj )
2.- Cavalli-Sforza Cavalli-Sforza & Edwards, 1967): dij= 4[n-k(xkixkj)], n=n loci
3.- Reynolds, Weir & Cokerham (1983): D2= [xki-x2kj]/2[1-xkixkj]
El ndice de Nei asume mutacin neutral, equilibrio entre mutacin y deriva, y tamao poblacional constante,
mientras que los otros dos no. En ellos la variacin de frecuencias se debe a deriva, principalmente, y sta
depende del tamao efectivo de las poblaciones, de forma que a mayor tamao es mas lenta.
Obtenida la matriz de distancias, se utiliza un programa para obtener los rboles (por ejemplo NEIGHBOR).
NEIGHBOR: Obtencin de rboles a partir de matrices de distancias.

Partiendo de una matriz de distancias, este programa construye rboles de UEs mediante uno de dos mtodos
alternativos, Neighbor-joining o UPGMA. El mtodo UPGMA es igual al visto en fentica y Neighborjoining, que es la opcin por defecto, se ha explicado mas arrriba.
CONSENSE: Arboles de consenso.

Cuando nos encontramos con que hay dos o ms rboles posibles que tienen la misma calidad. Una solucin
posible a este problema es la obtencin de rboles de consenso.
El archivo de entrada de datos ha de contener los rboles con los que obtener el de consenso, es decir, un
treefile.
Se puede escoger entre dos mtodos de consenso (visto en mtodos fenticos): Strict consensus tree.
Majority rule consensus tree: los grupos que aparecen >50% de las veces. Puede cambiarse a cifras entre 50100%, pero no inferiores a 50%.
SEQBOOT: Mtodos Bootstrap.

Cuando el nmero de UEs es elevado, se emplean mtodos como el stepwise addition, cuyo resultado
depende del orden en que se van uniendo las UEs. Dado el elevado nmero de rboles posibles, en este caso
solo podemos aproximarnos al mejor rbol posible. Recientemente se han ideado mtodos que, simulando la
influencia que tienen diferentes grupos de datos seleccionados de forma mas o menos aleatoria de la matriz
original, permiten conocer el nmero de veces que aparece cada nudo en el rbol cuando se toman solo parte
de los caracteres. Ese nmero es un indicador de la probabilidad de que aparezca ese nudo en la evolucin del
grupo.
El programa SEQBOOT permite crear mltiples grupos de datos con los originales. Hay tres mtodos:
- Bootstrap toma, cada vez, N caracteres al azar con reemplazamiento, de forma que el grupo
resultante tiene el mismo tamao que el original pero algunos caracteres no se tienen en cuenta y
otros se duplican.
- Jackknife toma la mitad de datos al azar y la otra mitad no se toma en cuenta, cada vez.
- Permutacin: Permuta los caracteres de la matriz original, haciendo que no haya estructura
taxonmica.
Este programa puede aplicarse a matrices rectangulares o a matrices de distancia. Para obtener un rbol, ha de
enlazarse con otros:
1.- SEQBOOT, el archivo de entrada de datos contiene una sola matriz. El resultado del trabajo es otra matriz
conteniendo mltiples grupos. Esto puede hacerse mediante uno de los tres mtodos explicados arriba
(bootstrap por defecto).
2.- MIX usa como matriz de entrada el outfile obtenido con SEQBOOT
3.- CONSENSE obtiene el rbol de consenso. Utiliza el treefile obtenido con MIX, tal cual.
Mtodos de Ordenacin
La obtencin de dendrogramas es el mtodo de clasificacin fentica ms adecuado cuando partimos de
organismos que presentan niveles de semejanza importantes y, por tanto, es evidente que deben reunirse en
grupos, de forma que nuestro problema es ver cmo se agrupan (n de grupos, niveles de agrupamiento).
Con frecuencia, tanto en Biologa (Ecologa, Paleontologa) como en otras materias de investigacin
(Sociologa, Economa, Antropologa, Medicina, etc.), nos encontramos con objetos definidos por un conjunto
de variables, y tratamos de establecer si existen o no relaciones entre ellos.
Para resolver este tipo de problemas, se emplean tcnicas de anlisis multivariante conocidas como mtodos
de ordenacin.
Existen diferentes mtodos que son adecuados para diferentes tipos de datos (cuantitativos o cualitativos), y
que utilizan diferentes ndices de distancia pero, en esencia, todos ellos tratan de conseguir lo mismo:
partiendo de una matriz de dimensiones nxm (UTO x caracteres), representar los UTO en un hiperespacio de
dimensin t. El nmero de ejes de este hiperespacio esta reducido respecto al original.
Para ello, es necesario que exista correlacin entre algnos de los caracteres, de modo que cada vector exprese
combinaciones de esos caracteres. Si no es as, si todos son mutuamente independientes, entonces es
imposible reducir esas dimensiones y no es posible este tipo de anlisis multivariante.
El agrupamiento entre ejes se realiza de tal forma que los nuevos vectores renan la mxima cantidad de
variacin, y no estn correlacionados entre s.
Anlisis de Componentes Principales

Se aplica a datos cuantitativos.
Utiliza la distancia eucldea.
El Anlisis de Componentes Principales (PCA) es uno de los mtodos mas usados entre los de ordenacin.
Los nuevos ejes, que aqu se llaman Componentes Principales, son combinacin lineal de los valores de la
matriz original, de forma que uno de ellos es combinacin de las variables X 1, X2, .... Xp
Z1=a11X1+a12X2+ ..... a1pXp
Las dimensiones independientes se denominan vectores propios, y son aquellos distintos de 0. Su nmero se
denomina rango de la matriz. Un valor propio es igual a la varianza a lo largo de su eje correspondiente, es
decir, de la llamada componente principal, var(Zi)=i
Las constantes ai1, ai2,.... aip son los elementos de vector propio. Estos cumplen la propiedad de que su suma
es =1: a2i1+ a2i2+ ..... a2ip = 1
De forma resumida, el proceso que se sigue es el siguiente:
1.- Estandarizacin de los datos (STD)
2.- Obtencin de la correlacin/covarianza que existe entre las variables ==> matriz triangular. (Simint: corr,
o Varcov). Si los datos se standarizan, la matriz de correlacin = matriz de varianzas-covarianzas de datos no
standarizados.
La covarianza entre dos variables j,k es: cjk = (xij-xk)(xik-xk)/(n-1)
Ejemplo: Partiendo de la matriz pajaros.txt, la matriz de correlacin obtenida es:
1.00000
0.68934
0.63506
0.59171
0.56685
1.00000
0.67540 1.00000
0.76851 0.76102 1.00000
0.52901 0.52408 0.60665 1.00000
3.- Eigen: A partir de la matriz triangular, obtiene los componentes principales y los valores propios de cada
componente principal.
Coeficientes de los vectores propios
Componente Valor Propio X1
X2
X3 .(=n ejes pedidos)
______________________________________________
1
3.54925 0.82538 0.04166 0.53674
2
0.53268 0.87593 -0.21787 0.07984
3
0.43176 0.85881 -0.23903 -0.16466
4
0.31790 0.89145 -0.13462 -0.30394
5
0.16841 0.75400 0.63892 -0.13341
total=5
Valores propios
% explic. % acumulado
________________________________________________
1
3.54925
70,98
70,98
2
0.53268
10,65
81,63
3
0.43176
8,63
90,27
4
0.31790
6,35
96,63
5
0.16841
3,37
100
El % de explicacin se obtiene dividiendo el valor propio de cada componente principal por la suma de los
valores propios. As el % de explicacin del primer componente es 3,549/5=70,98%; 2 componente 0,532/5=
10,65%, etc.
Los valores propios se dan en orden descendente, de forma que el primer eje es el que rene mayor cantidad
de informacin, seguido del segundo, y as sucesivamente.
4.- Proyeccin de los UTOs sobre los nuevos vectores.
5.- Dibujo (MXPLOT o Mod3d)
Ntsys:
1.- Std: standarizacin de variables (si es necesario)
2.- Simint: corr/varcov (correlacin=covarianzas entre variables std).
3.- Eigen: obtencin de vectores y valores propios.
Entrada: matriz .cov
Salida: dos archivos conteniendo vectores y valores propios, respectivamente.
En el informe (report listing) aparecen los valores propios, los % de explicacin y los % acumulados. En las
respectivas matrices se guardan los valores propios y los vectores propios, con stos se puede ver la
contribucin de cada variable original a cada uno de los nuevos ejes.
4.- Proj: proyeccin de ejes en los ejes PCA.
Entrada: matriz .std
Entrada: matriz de vectores propios
Entrada: matriz de valores propios (opcional)
Salida: matriz de proyeccin: contiene las nuevas coordenadas de los UTO respecto a los nuevos ejes
(componentes principales)
5.- Mod3d: grfico tridimensional. Entrada: = archivo de salida de Proj
Anlisis Factorial de Correspondencias

Es un anlisis complejo, por lo que Ntsys dispone de un programa especfico: CORRESPONDENCE
ANALYSIS
Se aplica a datos cualitativos o bien matrices de frecuencias.
Como medida de distancia, utiliza la 2 (mide frecuencias)
Representa poblaciones o UTOs y caracteres al mismo tiempo, permitiendo ver las relaciones entre ellos.
Este tipo de anlisis tiene un propsito semejante al de Componentes Principales. La idea bsica es que es
posible describir un conjunto de variables en funcin de un nmero menor de ndices o factores para, as,
establecer las relaciones que existen entre ellas. Tambin el procedimiento es semejante al del Anlisis de
Componentes Principales en cuanto a la extraccin de valores y vectores propios. Sin embargo presenta varias
diferencias importantes:
Si la distribucin de frecuencias de los caracteres en la poblacin Hi viene dado por Hi= (fi1/fi, fi2/fi,.fin/fi)
la distancia 2 entre las poblaciones Hi,Hj en relacin a los caracteres A1, A2, An, es: d2(Hi,Hj) =1
El modelo que sigue el AFC es el siguiente: (ij = i j )1/2 (1+ k (k ik jk)1/2 siendo ij las frecuencias
relativas x ij/x , i j las frecuencias relativas de filas y columnas, k es el k valor propio y ik jk son
elementos de las matrices de factores de filas y columnas.
Utiliza un nmero reducido de vectores principales, los 2-3-4 primeros (los de mayores valores) y con ellos
vuelve a obtener los nuevos que ahora se llaman factores. Para obtener esos factores, hace unas
rotaciones que consisten en escoger los valores dij de las nuevas ecuaciones F1 = d11F1 + d12F2 + ..... + d1mFm
Esas rotaciones pueden ser de distintos tipos segn se desee la total independencia de los factores o no. As,
en las rotaciones oblicuas los factores no estn correlacionados, como los antiguos vectores.
Ntsys
CORRESPONDENCE ANALYSIS. El archivo de entrada es el que contiene la matrz original, se crean otros
siete y, como resultado, tenemos ya la representacin grfica. En el informe, se dan los valores propios y los
% de explicacin que cada uno de ellos representa en el conjunto, as como los acumulados. Aparecen
tambin las frecuencias relativas y las distancias 2 al centroide de cada UTO y cada variable. (Aqu los
valores propios son <1).
Las matrices que se crean son:
Factores de filas y columnas, contienen las coordenadas respecto de cada eje.
Contribuciones absolutas, contienen la proporcin de la variacin de cada factor que explican las variables y
los UTO.
Correlaciones cuadradas, se muestra la importancia de cada variable y UTO para cada factor.
Para representar UTOs y caracteres, podemos, tambien, utilizar los programas 2D-PLOT y 3D-PLOT, para
dos o tres dimensiones. El archivo de entrada es el de factores de filas/columnas obtenido con CORRESP
(segn vayamos a representar UTOs o caracteres), y la direccin ser siempre por columnas.
Anlisis de la Funcin Discriminante

Objetivo: Saber si es posible separar dos o ms grupos de individuos en funcin de un nmero de variables
(cuantitativas) y, si lo es, cuan bien puede hacerse.
Procedimiento: Partimos de dos o ms grupos de UTOs que comparten el mismo nmero de variables.
Se caracteriza cada grupo para compararlo con los restantes, despus.
Se asignan los UTO a cada grupo.
Este anlisis no se ve afectado de forma importante por el escalamiento de las variables individuales, por lo
que no es necesario estandarizar los datos.
1.- SIMINT: Creamos la matriz de varianzas-covarianzas de cada grupo (ndice varcov).

Direccin: por caracteres.
2.- POOLVCV: Creamos la matriz de varianzas-covarianzas entre grupos:
Entrada: archivo de matriz rectangular
Entrada: archivo con la matrz de varianzas-covarianzas
Crea: matriz de medias de grupos (.mgr).
matriz de covarianzas entre grupos (.cgr).
matriz de tamaos de grupos (.tam).
3.- CVA: Hallamos las relaciones entre grupos de medias con respecto a la variacin intragrupos, para asignar
especimenes desconocidos a grupos previamente establecidos.
Se dan las tres matrices creadas en el paso anterior, y se crean otras nuevas:
a.- vectores cannicos (.cve).
b.- covarianzas de las nuevas variables que se comparan con las originales (cvv).
c.- coordenas de las variables cannicas (las proyecciones de las desviaciones de las medias de los grupos
respecto de la gran media en las variables cannicas (.sco)).
d.- distancias generalizadas entre todos los pares de medias de grupos (.gdi).
e.- Por ltimo, se da la matrz cuyos UTO se quieren asignar a aquellos grupos (.txt).
En el informe salen las asignaciones a grupos, con eso se obtiene el % de asignaciones correctas, lo que nos
dar la validez de esas variables para caracterizar grupos y, por tanto, la fiabilidad de asignaciones de nuevos
UTO.
Han de determinarse funciones de las variables que separen los grupos tan bien como sea posible. La forma
mas simple consiste en buscar combinaciones lineares de las X variables tales como: Z = a1X1+a2X2+ ..
+apXp
los grupos pueden separarse bien usando Z si la media cambia considerablemente entre grupos, siendo los
valores de cada grupo bastante constantes.
Una forma de hallarlo es mediante la distancia de Mahalanobis: halla un vector de medias por grupos Dij2=
pr=1 ps=1 (ri - rj) vrs (si - sj) en que vrs es el elemento de la fila r y columna s, de la matriz inversa de
covarianzas para las p variables, por tanto: D2ij= (i - j) V-1 (i - j).
Anlisis de la Correlacin Cannica

Objetivo: Este anlisis permite establecer si existe correlacin entre variables de dos tipos diferentes.
Ejemplo: Disponemos de datos sobre altitud, precipitaciones y temperaturas mxima y mnima, por una parte,
y sobre frecuencias de alelos de Pgi, de distintas poblaciones (filas) de la mariposa Euphydryas editha.
(matrices: mari, mariposas)
En este anlisis, se buscan combinaciones lineares con las variables de los dos tipos por separado. Cada par de
ellas ha de tener una correlacin mxima (entre las de los dos tipos). En este anlisis, se impone la condicin
de que estas combinaciones lineales sean ortogonales (correlacin 0) con respecto a cualquier otro par de
combinaciones y dentro de cada grupo de variables.

Si las variables (=caracteres) del primer grupo son X1, X2, X3 y las del segundo son Y1, Y2,Y3, . se
buscan combinaciones del tipo
U=a1X1+a2X2+ para el primer grupo de variables
y
V= b1Y1+b2Y2+ para el segundo
Si la correlacin entre U y V es elevada, podemos suponer que ambos tipos de caracteres estan relacionados.
En la prctica, pueden calcularse varios pares de variables cannicas. En este caso el nuevo par U2 V2, tiene
la mayor correlacin entre s y no estn correlacionadas con las del par anterior U1 y V1. El mximo de pares
posible viene dado por el del grupo con menor nmero de variables.
Procedimiento:
1.- SIMINT: Hallar la matriz de correlacin (corr) entre las variables (caracteres) con las que se va a trabajar.
La matriz de correlacin X/Y aparece en el informe.
X1 X2 X3 X4 Y1 Y2 Y3 Y4
X1
X2
correl. X/X
correl X/Y
X3
X4
Y1
Y2
correl. X/Y
correl Y/Y
Y3
Y4
2.- CanCorPLS
a.- Entrada la matriz de salida de SIMINT:corr.
b.- se da una lista de los caracteres del primer grupo: 1,2,3,4
c.- tipo de anlisis: CANCOR/PLS.
d.- nmero de variables cannicas a calcular.
e.- archivo con las combinaciones lineares del primer grupo de variables(.izd).
f.- dem. con el segundo (dch).
g.- matriz de valores singulares: correlaciones cuadradas de las combinaciones entre var. cannicas y los
vectores propios b1,b2, (.sin)
h.- matriz de correlaciones entre combinaciones lineares del primer grupo y todas las variables (.ci).
i.- dem con las del segundo grupo y todas las variables (.cd).
Siguen otras dos matrices opcionales, que no se crean en nuestro caso.
Las matrices h e i contienen los valores de la correlacin de las variables con las combinaciones del primer y
segundo grupo, respectivamente. Estos nos permiten interpretar las variables cannicas: valor absoluto mas
elevado indica mayor correlacin, el signo positivo o negativo indica correlacin positiva o negativa.
Anexo 1: Introduccin al programa Ntsys

Formato de archivos:
Para que el programa Ntsys pueda trabajar con los datos de un archivo, es necesario que ste le proporcione
informacin con un formato determinado. Adems de los datos, esa informacin esta contenida en la
cabecera. Esta consta de cuatro datos:
a.- Tipo de matriz. Es el primer dato que ha de leer el programa. Es una cifra que indica el tipo de matriz:
1 - matriz rectangular
2-
de distancias
3-
de semejanzas
456 - valores cofenticos
b.- Nmero de filas. Podemos utilizar etiquetas (labels) que nos permitan identificar cada fila, poniendo junto
al nmero de filas una letra. Dicha letra indica que hay etiquetas y segn la letra empleada, indicamos dnde
estn las etiquetas:
L - label - las etiquetas se sitan entre la cabecera y la matriz
B - beguinning - etiquetas al principio de cada fila
E - end - etiquetas al final de cada fila
Una etiqueta no puede ocupar mas de 16 espacios.
c.- Nmero de columnas. Si queremos poner identificadores, lo haremos con L y los daremos entre la
cabecera y la matriz.
d.- Datos codificados como presencia/ausencia: 1/0
Ntsys puede trabajar con matrices en las que falta algn dato. En este caso, el cuarto dato de la cabecera es 1
seguido de un cdigo que sirve para que el programa sepa que cuando lo encuentra entre los datos de la
matriz, ese no es un valor sino un dato ausente. Se recomienda utilizar 999.
A continuacin se da la matriz de datos. Estos se separan por un espacio en blanco.
Ntsys permite poner comentarios. Se sitan antes de la cabecera y se indican con al principio de cada lnea
de comentario, pero no al final.
Ejemplo: Matriz rectangular de 3 filas y 4 columnas con etiquetas L para ambas, datos completos y
comentarios
Lnea de comentarios
1 3L 4L 0
ABC
1234
0.7 2.3 3.5 7.1
1.2 6.8 1.5 4.7
1.1 3.3 1.0 2.2
La misma matriz con etiquetas de filas al principio, datos ausentes en la fila 1 columna 3, y sin comentarios:
1 3B 4L 1 999
1234
A 0.7 2.3 999 7.1
B 1.2 6.8 1.5 4.7
C 1.1 3.3 1.0 2.2
Ejemplo de matriz de datos binarios:

1 4L 4 0
ABCD
1101
0101
1010
0001
Formato: Los archivos para trabajar con Ntsys, pueden crearse con el editor del propio programa o bien con
cualquier programa de tratamiento de texto. En este caso, hay que guardar los archivos en formato txt, nunca
doc.
Programa OUTPUT: Sirve para ver el contenido de los archivos. Para poderlo utilizar los archivos han de
tener el formato adecuado para Ntsys.
Mensajes de error frecuentes: Cuando se realiza una operacin ilcita, el programa se bloquea y no es
posible seguir trabajando.
Mensaje:
Cannot focus a dissabled window
Problem in reading value: 1.000000.
Access violation . (nmero)
File not found
Solucin:
Cerrar el programa y volverlo a abrir.
Idem.
Reiniciar el ordenador
Situarse en la lnea del archivo de entrada y dar doble click.
Aparecer una pantalla pequea en la que podemos sealar el
archivo.
Importante: No minimizar el report listing. La consecuencia es que al ejecutar otra vez el mismo
programa u otro diferente, no encontramos los datos que habitualmente aparecen en pantalla y los archivos de
resultados estn vacos.
Anexo 2: Introduccin al programa Phylip

Phylip siempre nos pide un archivo de entrada antes de arrancar a trabajar, si no lo encuentra no sigue.
Cuando encuentra dicho archivo, despliega una pantalla con diferentes opciones que podemos utilizar o no.
Algunas de ellas requieren una preparacin previa de la matriz.
Despus de seleccionar las opciones con las que vamos a trabajar, aceptamos (tecla enter) y se obtiene un
archivo outfile y, segn los casos, otro treefile, que se encuentran entre los de Phylip. Para conservar los
datos de dichos archivos y seguir trabajando con Phylip, es necesario cambiarles el nombre y, en nuestro caso,
enviarlos al diskette. Ambos se pueden abrir con programas de tratamiento de texto (Word). Si abrimos los
archivos treefile con el programa TreeView obtenemos grficos de calidad en distintos formatos. Si a estos
archivos les ponemos la extensin .tre, los dibujar cargando el programa TreeView simultneamente.
Formato de archivos: Phylip no tiene editor, por lo que los archivos deben construirse con un programa
de tratamiento de texto y ser guardados con formato texto (.txt).
El archivo solo contendr los datos que el programa necesite para trabajar, sin texto en el archivo.
Los primeros datos que lee el programa son los que le indican el nmero de filas y el de columnas y, a
continuacin, la matriz.
Las UEs se sitan siempre en filas. Para identificar cada UE se reservan los diez primeros espacios de cada
fila.
Dependiendo del tipo de datos, los caracteres se pueden indicar con valores, letras o ser binarios (0/1). Solo en
el caso de valores es necesario utilizar espacios en blanco para separar caracteres. Cuando tenemos largas
series de datos, podemos separar por un espacio los bloques de diez, facilitando la identificacin de cada dato.
Ejemplos:
Datos binarios:
6 12
UE1
0010010011 01
UE2
0101010101 01
UE3
1100101001 00
UE4
1001101010 10
UE5
0010101010 10
UE6
0101010101 11
Secuencias de ADN:
6 12
Especie1 AGCAGGCAATTA
Especie2 GCTTAATCGTCC
Especie3 CAGTAATCCTGC
Especie4 CCTTGACGACTT
Especie5 AAGCTAAGACTT
Especie6 CCGGTAATTCGG
Frecuencias de alelos:
67
3121112
pob 1 0.065 0.130 0.805 1.000 0.935 0.065 1.000 1.000 1.000 0.568 0.432
pob 2 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.435 0.565
pob 3 0.000 0.130 0.870 1.000 1.000 0.000 1.000 1.000 1.000 0.275 0.725
pob 4 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.267 0.733
pob 5 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.494 0.506
pob 6 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.700 0.300
Se requiere una segunda lnea de encabezamiento cuyas cifras corresponden al nmero de alelos (columnas)
de los distintos loci.
Matriz de distancias:
6
pob 1
0.0000
pob 2
0.0090 0.0000
pob 3
0.0012 0.0044
pob 4
0.0090 0.0000
pob 5
0.0090 0.0000
pob 6
0.0090 0.0000
0.0000
0.0044 0.0000
0.0044 0.0000 0.0000
0.0044 0.0000 0.0000 0.0000
Opciones dentro de los programas

A, Por defecto, el programa considera como ancestral el estado 0 y como derivado el 1, en matrices binarias.
Con esta opcin se pueden cambiar los estados de carcter ancestrales, especificandolo en cada caso.
En el archivo de entrada ha de figurar A en la primera lnea, despus del nmero de filas y columnas; y se
utiliza una segunda lnea de cabecera, que se iniciar con la letra A, dejando 10 caracteres y, a continuacin,
se da el estado que se considera ancestral para cada uno de ellos.
U, Evaluacin de rboles: Permite evaluar la calidad de los rboles. Da la media y la varianza de las
diferencias en pasos entre rboles, si la media es >196, los rboles son significativamente distintos.
El archivo de datos ha de contener el archivo original seguido del n de rboles a evaluar y, en lneas
separadas, cada rbol (quitar[cifra]) cerrado con ;
O, enraizar rboles. Por defecto considera que hay grupo externo y toma la primera UE como tal, pero puede
cambiarse con esta opcin, dando el n de UE que ocupa en la matriz.
M, opcin para usar dos o ms grupos de datos. Cada matriz ha de tener su cabecera. Sirve para obtener
bootstraps (SEQBOOT) junto con CONSENSUS.
X, sirve para escoger el algoritmo a emplear en cada carcter en algunos programas en que hay dos
alternativos (MIX, por ejemplo).
El archivo de entrada tendr M en la primera lnea y la segunda tendr M, tambin, como primer carcter,
seguido de nueve espacios; a continuacin se especificar el algoritmo elegido para cada carcter. Al ejecutar
el programa, se elige la opcin X.
J, revolver o mezclar. Por defecto, el programa toma los grupos en el orden en que se han dado en la matriz de
datos. Podemos cambiarlo dando un n impar y el n de veces que deseamos que repita el proceso, cambiando
el orden de las UEs ==> nos dar solo el mejor rbol que encuentra como resultado.
Opcin 4: Da informacin adicional sobre el rbol: indica el nmero de pasos en cada sitio. Ej. sitio 13
corresponde a la unin de la segunda fila con la 3 columna, y tiene 3 pasos
requieres a total of 9.000 steps in each site
*
0 1 2 3 4 5 6 .....
0! 2 2 2 2 1 1
10! 1 2 3 1 1 1 1
20!
30!
Opcin 5: Tambin da informacin adicional en la que se pueden seguir los estados de carcter en cada nudo
del rbol. (Alpha, Beta, Gamma, Delta y Epsilon, son UEs en el ejemplo)
From
1
2
4
4
2
3
3
1
To
1
2
4
Epsilon yes
Gamma no
3
Delta
Beta
Alpha
Any Steps?
no
maybe
yes
yes
maybe
maybe
State upper node (.means...)

1?011 0
.?...
.
.0...
.
0.1..
.
......
.
.?.00 .
001.. 1
.1...
.
.1...
.
Ficheros outfile: Contienen los rboles e informacin adicional.

En los nudos de los rboles aparecen cifras arbitrarias o *. Sirven para identificar cada dicotoma.
El mensaje "remember this is an unrooted tree!" no tiene sentido. Aunque se de grupo externo sigue diciendo
que es un rbol no enraizado (=red en Biologa)
La longitud de los brazos solamente es real cuando se obtienen con programas que se basan en clculos de
distancias (NEIGHBOR o FITCH).
+pob 5
!
--4
+pob 6
!
! +pob 1
! +--1
! ! +pob 3
+--3
! +pob 2
+--2
+pob 4
Between And
--------4
pob 5
4
pob 6
4
3
3
1
1
pob 1
1
pob 3
3
2
2
pob 2
2
pob 4
Length
---------0.00000
0.00000
0.00000
0.00610
0.00290
0.00170
0.00000
0.00000
0.00000
Ficheros treefile, contienen la informacin para dibujar los rboles con el formato de parntesis. Cada rbol
acaba con ;
Los rboles que se obtienen con un programa basado en medidas de distancia, como NEIGHBOR o FITCH,
permiten conocer la longitud de las ramas. As, el rbol anterior, en el treefile, tiene el formato:
(pob5:0.00000,pob6:0.00000,
((pob1:0.00290,pob3:0.00170):0.00610,pob2:0.00000,pob4:0.00000):0.00000):0.00000);
y significa que la longitud entre el nudo 4 y las UEs pob5 y pob6 es 0; entre el nudo 4 y el 3 tambin 0; entre
el nudo 3 y el 1 la longitud seria de 0.0061; entre el nudo 1 y la pob1 seria de 0.0029 y entre el nudo 1 y la
pob3 de 0.0017; entre el nudo 3 y el 2 seria 0, al igual que entre estas UEs y el nudo 2.
Mensajes de error frecuentes:

Error allocating memory significa que el archivo de entrada de datos no es adecuado para Phylip, bien sea
por su formato o por el nombre. La solucin es abrir dicho archivo y corregir aquello que sea errneo o
inadecuado para el programa (cabecera, formato de datos, texto en el encabezamiento,.) o, simplemente,
cambiar el nombre del archivo (por ej. un archivo Treefile no puede usarse directamente, debe cambiarse el
nombre sin que el nuevo comience por tre).

Cuaderno 0708

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cuaderno 0708

Uploaded by

Copyright:

Available Formats

Tcnicas Automatizadas de Clasificacin y Ordenacin

Sesiones 11 12.- Presentacin de trabajos.

Clasificar: Ordenar o disponer por clases o categoras.

Normas para el uso y aplicacin de las categoras taxonmicas:

Para establecer una clasificacin distinguimos dos fases:

Sus representaciones son los dendrogramas de jerarqua taxonmica.

Cladista: Tratan de establecer las relaciones genealgicas dentro de grupos monofilticos.

Mtodos fenticos de Clasificacin

Medida de la Semejanza entre UTOs

a= concordancia positiva 1,1

Indices de distancia. Programa INTERVAL.

0.7<r<0.8 ajuste pobre

Monofiltico es un grupo de organismos que tienen un antecesor evolutivo comn.

Construccin de rboles de UEs

Trabajo con Phylip

1.- Cada sitio evoluciona independientemente

NEIGHBOR: Obtencin de rboles a partir de matrices de distancias.

CONSENSE: Arboles de consenso.

SEQBOOT: Mtodos Bootstrap.

Anlisis de Componentes Principales

Anlisis Factorial de Correspondencias

Anlisis de la Funcin Discriminante

1.- SIMINT: Creamos la matriz de varianzas-covarianzas de cada grupo (ndice varcov).

Anlisis de la Correlacin Cannica

combinaciones y dentro de cada grupo de variables.

Anexo 1: Introduccin al programa Ntsys

Ejemplo de matriz de datos binarios:

Anexo 2: Introduccin al programa Phylip

Opciones dentro de los programas

State upper node (.means...)

Ficheros outfile: Contienen los rboles e informacin adicional.

Mensajes de error frecuentes:

You might also like