Introducción Al Análisis Cluster

INTRODUCCIN AL ANLISIS CLUSTER
Planteamiento general Criterios basados en distancias como indicadores de disimilaridad

DISTANCIA EUCLIDEA DISTANCIA EUCLIDEA NORMALIZADA DISTANCIA DE MAHALANOBIS OTRAS DISTANCIAS
Criterios basados en similaridades. Medidas de similaridad Medidas de similitud y distancia entre grupos
DISTANCIA MINIMA (NEAREST NEIGHBOUR DISTANCE) DISTANCIA MAXIMA (FURTHEST NEIGHBOUR DISTANCE) DISTANCIA ENTRE CENTROIDES
Mtodos de anlisis cluster Mtodos jerrquicos Mtodo de la distancia mnima (nearest neighbour o single linkage) Mtodo de la distancia mxima (furthest neighbour o complete linkage) Mtodo de la media (u.p.g.m.a.) Mtodo del centroide Mtodo de la mediana Mtodo de Ward Mtodo flexible de Lance y Williams
ANLISIS CLUSTER Planteamiento general

El anlisis cluster es un conjunto de tcnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogneos. Pertenece, al igual que otras tipologas y que el anlisis discriminante al conjunto de tcnicas que tiene por objetivo la clasificacin de los individuos. La diferencia fundamental entre el anlisis cluster y el discriminante reside en que en el anlisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el anlisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qu medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados . As pues, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el anlisis un marcado carcter exploratorio.
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de individuos (de N elementos) caracterizados por la informacin de n variables Xj , (j = 1,2,..., n), nos planteamos el reto de ser capaces de clasificarlos de manera que los individuos pertenecientes a un grupo (cluster) (y siempre con respecto a la informacin disponible) sean tan similares entre s como sea posible, siendo los distintos grupos entre ellos tan disimilares como sea posible. Como puede comprenderse fcilmente el anlisis cluster tiene una extraordinaria importancia en la investigacin cientfica, en cualquier rama del saber. Tngase presente que la clasificacin es uno de los objetivos fundamentales de la ciencia .Y en la medida en que el anlisis cluster nos proporciona los medios tcnicos para realizarla, se nos har imprescindible en cualquier investigacin. Ya desde Linneo, las clasificaciones y taxonomas fueron piezas clave en las investigaciones biolgicas, y, en consecuencia, no puede resultarnos extrao que haya sido en los entornos de este tipo de ciencias donde hayan surgido las tcnicas del anlisis cluster. Los trabajos de Sokal y Sneath , marcan el inicio de las tcnicas de clusterizacin, que, poco a poco, han ido extendiendo sus aplicaciones a todos los mbitos cientficos. Con el anlisis cluster se pretende encontrar un conjunto de grupos a los que ir asignando los distintos individuos por algn criterio de homogeneidad. Por lo tanto, se hace imprescindible definir una medida de similitud o bien de divergencia para ir clasificando a los individuos en unos u otros grupos. Adems algunas consideraciones podrn tenerse en cuenta antes de comenzar el anlisis: As, debemos plantearnos si vamos a comenzar la agrupacin partiendo de algunos grupos ya establecidos o si, por el contrario, comenzaremos por considerar cada elemento individual como un cluster inicial que posteriormente iremos agrupando hasta obtener los clusters finales: Deberemos plantearnos la posibilidad de reasignaciones a lo largo del proceso. Igualmente deberemos establecer criterios para detener la agrupacin y para llevarla a cabo. Bsicamente, el anlisis constar de un algoritmo de clasificacin que nos permitir la obtencin de una o varias particiones, de acuerdo con los criterios establecidos El proceso completo puede estructurarse de acuerdo con el siguiente esquema:
Partimos de un conjunto de N individuos de los que se dispone de una informacin cifrada por un conjunto de n variables (una matriz de datos de N individuos n variables) . Establecemos un criterio de similaridad para poder determinar: Una matriz de similaridades que nos permita relacionar la semejanza de los individuos entre s (matriz de N individuos x N individuos). Escogemos un algoritmo de clasificacin para determinar la estructura de agrupacin de los individuos.
Especificamos esa estructura mediante diagramas arbreos o dendogramas u otros grficos.
As pues, la clave de una buena clasificacin pasar por : a) Una buena seleccin de las variables que nos van a describir a los individuos. En este sentido un anlisis de datos previo puede ser necesario o interesante. La posibilidad de combinar secuencialmente el anlisis factorial y el anlisis cluster, como se har aqu, puede ser provechosa. b) Poner buen cuidado en el criterio de similiaridad a utilizar. c) Seleccionar adecuadamente el algoritmo de clasificacin. As pues, en las siguientes pginas dedicaremos algn espacio a resear los criterios ms importantes de similaridad y los principales mtodos de anlisis , centrndonos en los algoritmos de clasificacin jerrquica ascendente ms utilizados.
Criterios de similitud. Similitud, divergencia y distancia
Una vez hemos hecho una adecuada seleccin de las variables a considerar, cada uno de los individuos sujetos al anlisis nos vendr representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificacin. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre s, en funcin de lo diferentes que resulten ser sus representaciones en el espacio de las variables. Para medir lo similares ( o disimilares) que son los individuos existe una enorme cantidad de ndices de similaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y habr que ser consciente de ellas para su correcta aplicacin al caso que nos ocupe. La mayor parte de estos ndices sern o bien, indicadores basados en la distancia (considerando a los individuos como vectores en el espacio de las variables) (en este sentido un elevado valor de la distancia entre dos individuos nos indicar un alto grado de disimilaridad entre ellos); o bien, indicadores basados en coeficientes de correlacin ; o bien basados en tablas de datos de posesin o no de una serie de atributos.
Criterios basados en distancias como indicadores de disimilaridad
Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relacin a un cierto nmero de caractersticas cuantitativa y / o cualitativas. El valor de d(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor ser la diferencia entre los individuos i y j. Toda distancia debe verificar, al menos, las siguientes propiedades: (P.1) d(i,j) > 0 (no negatividad) (P.2) d(i,i) = 0 (P.3) d(i,j) = d(j,i) (simetra) Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorial de dimensin igual o inferior a la dimensin del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia eucldea ordinaria coincida con la distancia utilizada. Es decir si existe un espacio vectorial Rm , con m < n (siendo n el nmero de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi = (Pi1 , Pi2 ,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificndose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia eucldea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) = ( Pi - Pj ) , diremos que la distancia d (i,j) es euclidiana . Cuando la distancia es euclidiana se verifica adems que: (P.4) (P.5) d(i,j)< d(i,t) + d(j,t) (desigualdad triangular) d(i,j) > 0 " i j
Cualquier distancia que verifica la propiedad P.4 es llamada distancia mtrica. Cumplindose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias mtricas. Si adems de verificar la propiedad P.4 una distancia verifica la propiedad: (P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramtrica) se dice que la distancia es ultramtrica. Existe una gran cantidad de distancias e indicadores de disimilaridad y no se puede disponer de una regla general que nos permita definir una disimilaridad conveniente para todo tipo de anlisis. De las propiedades de que goce, de la naturaleza de las variables utilizadas y de los individuos estudiados y de la finalidad del anlisis depender la adecuada eleccin de una u otra.
Comentaremos aqu, no todas y cada una de ellas, pero s, al menos, las ms importantes. Antes de pasar a ello hagamos algunas precisiones en cuestin de notacin: Recordemos que los datos de partida del anlisis son las observaciones de n variables y N individuos. Teniendo en cuenta esto, podemos representar a los individuos en el espacio de las variables de manera que representaremos al individuo i-simo por el vector :
; y al individuo j-simo: DISTANCIA EUCLIDEA La distancia eucldea es la disimilaridad ms conocida y ms sencilla de comprender, pues su definicin coincide con el concepto ms comn de distancia. Su expresin es la siguiente: d (i,j) = (Wi - Wj )' (Wi - Wj)
La distancia eucldea, a pesar de su sencillez de clculo y de que verifica algunas propiedades interesantes tiene dos graves inconvenientes:
El primero de ellos es que la eucldea es una distancia sensible a las unidades de medida de las variables: las diferencias entre los valores de variables medidas con valores altos contribuirn en mucha mayor medida que las diferencias entre los valores de las variables con valores bajos. Como consecuencia de ello, los cambios de escala determinarn, tambin, cambios en la distancia entre los individuos. Una posible va de solucin de este problema es la tipificacin previa de las variables, o la utilizacin de la distancia eucldea normalizada . El segundo inconveniente no se deriva directamente de la utilizacin de este tipo de distancia, sino de la naturaleza de las variables. Si las variables utilizadas estn correlacionadas, estas variables nos darn una informacin, en gran medida redundante. Parte de las diferencias entre los valores individuales de algunas variables podran explicarse por las diferencias en otras variables. Como consecuencia de ello la distancia eucldea inflar la disimilaridad o divergencia entre los individuos.
La solucin a este problema pasa por analizar las componentes principales (que estn incorrelacionadas) en vez de las variables originales. Otra posible solucin es ponderar la contribucin de cada par de variables con pesos inversamente proporcionales a las correlaciones, lo que nos lleva, como veremos a la utilizacin de la distancia de Mahalanobis.
La distancia eucldea ser, en consecuencia, recomendable cuando las variables sean homogneas y estn medidas en unidades similares y/o cuando se desconozca la matriz de varianzas.
DISTANCIA EUCLIDEA NORMALIZADA La distancia eucldea normalizada entre los individuos i y j la definiremos como : d (i,j)= (Wi - Wj)' S-1 (Wi - Wj) Donde S es una matriz diagonal con las varianzas en su diagonal principal y ceros en el resto de sus elementos. Obviamente S-1 ser su inversa: la matriz diagonal que tendr los valores recprocos de las varianzas en su diagonal. Utilizar como matriz de la forma cuadrtica distancia la matriz S-1 , en vez de la matriz identidad, I, es, claramente, equivalente a utilizar como valores de partida los valores de las variables cambiados de escala a la desviacin tpica de las variables. Empleando este tipo de distancia solventamos el inconveniente de los efectos de unidades de medida distintas de las variables y obtenemos una distancia que no depender de las unidades de medida. Sin embargo, la alta correlacin entre algunas variables puede seguir siendo un grave inconveniente.
DISTANCIA DE MAHALANOBIS La distancia de Mahalanobis entre los individuos i y j la definimos por la expresin: d (i,j) = (Wi - Wj )' V-1 (Wi - Wj ) Donde la matriz asociada a la forma cuadrtica V-1 es la inversa de la matriz de varianzas V. Esta distancia presenta las ventajosas propiedades de solventar los dos inconvenientes de la aplicacin de la distancia eucldea: Por una lado es invariante ante los cambios de escala y no depende, por tanto de las unidades de medida. En efecto: Si consideramos las variables originales x representadas por el vector de variables:
y consideramos su transformacin lineal a otras nuevas
variables, y, representadas por el vector de variables: relacin Y = C X ;
que vendr dada por la
la matriz de varianzas de Y ser : V= C' V C En el espacio de las nuevas variables los individuos vendrn representados por un nuevo vector: W* = C' W La distancia de Mahalanobis sobre las nuevas variables ser entonces:
D (i,j) = (Wi* - Wj* )' V-1(Wi* - Wj*) = (Wi - Wj )' C [(C' V-1 C) ]C' (Wi - Wj )==(Wi-Wj)'V-1(Wi-Wj) que es la distancia de Mahalanobis calculada sobre las variables originales. Por otro lado al utilizar la matriz V , se consideran las correlaciones entre las variables y se corrige el efecto de la redundancia. Es interesante hacer ahora dos observaciones finales ms: 1)Si las variables estn incorrelacionadas, la distancia de Mahalanobis coincide con la distancia eucldea normalizada. En efecto: Si las variables estn incorrelacionadas la matriz V coincide con la matriz S , y, por tanto, la inversa de V coincidir con la inversa de S. 2)La distancia de Mahalanobis coincide con la distancia eucldea calculada sobre el espacio de las componentes principales. Este importante resultado tendr una consecuencia prctica clave en el desarrollo de nuestro trabajo emprico: el programa de anlisis cluster del paquete informtico utilizado (S.P.S.S) no dispone de la opcin de anlisis con la distancia de Mahalanobis,
pero basndonos en esta propiedad procederemos a la clusterizacin equivalente utilizando las componentes principales. Veamos ahora cmo se cumple esta propiedad: La distancia de Mahalanobis es, como sabemos, invariante respecto de los cambios de escala. En particular, ser invariante respecto de la tipificacin. De forma que podemos partir de la distancia de Mahalanobis sobre el espacio de las variables tipificadas. En consecuencia representaremos cada individuo por el vector:
La distancia de Mahalanobis entre los individuos i y j vendr dada por : D (i,j) = (Wi - Wj )' R-1 (Wi - Wj ) Por otro lado, R = A'A (donde A es la matriz factorial); y de la relacin entre componentes principales y variables originales, tenemos que:Z = A F. De manera que si el i-simo individuo puede describirse en funcin de las componentes principales como:
tendremos que Wi* = A'Wi De forma que la distancia de Mahalanobis quedara: D (i,j) = (Wi - Wj )'R-1 (Wi - Wj )= = (Wi - Wj )'(A A') -1 (Wi - Wj ) = (Wi - Wj )' A A' (Wi - Wj ) = (Wi* - Wj* )' (Wi* - Wj*) es decir, la distancia eucldea entre los individuos considerados en funcin de las componentes principales. Para los casos en los que existan relaciones lineales entre las variables, y, por tanto, la matriz V sea singular, la distancia de Mahalanobis puede generalizarse como: D (i,j) = (W - W )' G (W - W ) donde G es una g-inversa que verifica que V G V = V .
OTRAS DISTANCIAS Adems de las tres distancias citadas, que son las ms utilizadas, cabe mencionar, entre otras: LA DISTANCIA MANHATTAN O CIUDAD: D (i,j) = S| xki - xkj | LA DISTANCIA DE CHEBYSHEV: D (i,j) = Max| xki - xkj | LAS DISTANCIAS DE MINKOWSKI D(i,j) = (S(xki - xkj)r )
1/r
donde al ir variando el valor de r se van generando distintas distancias.
Criterios basados en similaridades. Medidas de similaridad

Para determinar la homogeneidad entre los individuos se puede trabajar con indicadores de su divergencia o disimilaridad, como las distancias que hemos relatado anteriormente; o bien, podemos utilizar indicadores de la similitud. Si una distancia alta entre individuos nos indica que son muy diferentes y una baja que son muy similares; los indicadores de similitud actuar n de manera contraria: conforme aumente su valor, aumentar la similaridad entre los individuos.Muchos de los indicadores de similitud se basan en coeficientes de correlacin o de asociacin. El coeficiente de correlacin de Pearson se utiliza, en ocasiones, preferentemente con datos cuantitativos y utilizando el algoritmo de distancia mnima. Los coeficientes de correlacin por rangos de Kendall y Spearman se utilizan, tambin, en casos de variables ordinales. Para variables binarias se utilizan distintos coeficientes de asociacin o matching type:
ndice binario: donde m es el nmero de coincidencias y M el un nmero total de variables comunes.
ndice de Tanimoto donde h es el nmero de variables con 1 en los dos individuos y H es el nmero de variables con algn 1.
y una veintena de indicadores ms que no tiene sentido mencionar aqu .
Medidas de similitud y distancia entre grupos

La aplicacin del anlisis cluster requiere, por lo general, no slo el clculo de las distancias o similitudes entre los individuos iniciales, sino, tambin la determinacin de las distancias o similaridades entre los grupos y/o entre un grupo y un individuo. Esta necesidad de determinar las distancias o similaridades entre grupos es especialmente importante en los mtodos jerrquico s, como se ver ms tarde. Hay varias alternativas diferentes para definir la distancia entre grupos: DISTANCIA MINIMA (NEAREST NEIGHBOUR DISTANCE) Podemos definir la distancia entre un grupo y un individuo como la menor de las distancias entre los individuos del grupo y el individuo exterior considerado. Si llamamos I al grupo formado por los individuos (i1 , i2 ,... ii ) y j al individuo exterior, definiremos, entonces, la distancia entre I y j como: D (I,j) = min D (i , j) Anlogamente, siguiendo este criterio, puede definirse la distancia entre dos grupos I = { i1 , i2 ,... ii } y J = { j1 , j2 ,... jj }, como la mnima de las distancias entre un individuo de I y otro de J: D (I,J) = min D (i ,j ) Como veremos, la distancia mnima ser la utilizada en el algoritmo jerrquico de clasificacin conocido como mtodo de la distancia mnima o single linkage.
DISTANCIA MAXIMA (FURTHEST NEIGHBOUR DISTANCE) Tambin podemos definir la distancia entre un grupo I y un individuo j como el valor mximo de las distancias entre j y los individuos de I; esto es:D (I,j) = max D (i , j) Y, la distancia entre dos grupos, I y J, anlogamente, sera : D (I,J) = max D (i , j ) Esta distancia ser la utilizada en el mtodo o algoritmo de la distancia mxima o complete linkage.
DISTANCIA ENTRE CENTROIDES Tambin se puede definir la distancia entre el grupo I y el individuo j como la distancia entre el centroide o centro de gravedad de I y j. Si i es el centro de gravedad de I, tendremos que: D(I,j) = D (i, j)
Y de la misma manera la distancia entre dos grupos I y J nos vendr dada por la distancia entre sus centroides: D (I,J) = D (i, j ) Estas y otras definiciones de distancias entre grupos sern utilizadas como criterios a emplear en los distintos algoritmos de clasificacin Por lo que hace a los indicadores de similaridad, algunos criterios se han dado para la definicin de la similaridad entre grupos. As, por ejemplo, Lance y Williams proponen como similaridad entre los grupos I y J :
Mtodos de anlisis cluster

De acuerdo con Cuadras una clasificacin puede ser : A) Aglomerativa o divisiva. Ser aglomerativa o ascendente si se parte progresivamente fusionando, formando particiones. Por el contrario, ser divisiva o de individuos como un conglomerado y se ms pequeos. B)Jerrquica o no jerrquica. En una clasificacin no jerrquica se forman grupos homogneos sin establecer relaciones entre ellos. En una clasificacin jerrquica, en cambio, los grupos se van fusionando (o subdividiendo) sucesivamente, siguiendo una prelacin o jerarqua, decreciendo la homogeneidad conforme se van haciendo ms amplios. C)Monottica o polittica. Una clasificacin monottica est basada en una nica caracterstica muy relevante. Se procede de forma divisiva, separando entre individuos que la tienen e individuos que no la tienen. Una clasificacin polittica est basada en un gran nmero de caractersticas y no se exige que todos los miembros de un conglomerado posean todas las caractersticas, (aunque s que tengan cierta homogeneidad en ellas). Usualmente se procede en estos casos de forma aglomerativa. inicialmente de los individuos que se van , grupos que constituyen las sucesivas descendente si se parte de todo el conjunto va sucesivamente subdividiendo en grupos
Sin perder de vista estas distinciones, los distintos mtodos de anlisis cluster pueden ser considerados como pertenecientes a una de las siguientes cinco categoras : 1) Mtodos jerrquicos 2)Mtodos de optimizacin 3)Mtodos de densidad (o mode-seeking) 4)Mtodos "Clumping" (o de particin) 5)Y otros mtodos que no pueden ser integrados en las cuatros anteriores. Los mtodos jerrquicos son, quiz , los que han sido ms desarrollados y sern los que dedicaremos mayor atencin en el siguiente sub-epgrafe. Aqu, daremos, en cambio, un vistazo general a las otras tcnicas. Los mtodos de optimizacin se caracterizan fundamentalmente porque se admite en ellos la "reasignacin" de un individuo. Esto es, una vez considerado un individuo como miembro de un cluster, en un siguiente paso del anlisis, puede, muy bien, salirse de l e integrarse en otro si de esta forma se mejora (optimiza) la particin. Esta posibilidad permite la sucesiva mejora de la particin inicial. Por lo general, estos mtodos asumen a priori un nmero de clusters a formar. Son llamados as porque pretenden obtener la particin que optimice una cierta medida numrica definida. Los distintos mtodos de optimizacin se diferencian entre s en la manera de obtener la particin inicial y en la medida a optimizar en el proceso. Los criterios de optimizacin suelen ser:

la minimizacin de la traza de la matriz de varianzas intra-grupos. la minimizacin del determinante de la matriz de varianzas intra-grupos. la maximizacin de la traza de la matriz (BW ) donde B es la matriz de varianzas inter-grupos y W es la matriz de varianzas intra-grupos, presentando cierta conexin con la discriminacin factorial. utilizando medidas de informacin o de estabilidad
Los mtodos de densidad se basan en la idea de construir "clusters naturales" partiendo de la mayor o menor densidad de puntos de las distintas zonas del espacio (de las variables) en el que estn los individuos. Y, por ltimo, los mtodos clumping utilizados usualmente en estudios lingsticos, permiten el solapamiento de los grupos, de ah que quiz el nombre de "mtodos de particin" con el que suele traducrseles no sea muy adecuado.
Mtodos jerrquicos
En los mtodos jerrquicos los individuos no se particionan en clusters de una sola vez, sino que se van haciendo particiones sucesivas a " distintos niveles de agregacin o agrupamiento ". Fundamentalmente, los mtodos jerrquicos suelen subdividirse en mtodos aglomerativos (ascendentes), que van sucesivamente fusionando grupos en cada paso; y mtodos divisivos (descendentes), que van desglosando en grupos cada vez ms pequeos el conjunto total de datos. Nosotros utilizaremos en el desarrollo de nuestro estudio mtodos aglomerativos; razn por la cual, dedicaremos ms atencin a estos mtodos. Cabe concluir, por tanto, que la clusterizacin jerrquica produce taxones o clusters de diferentes niveles y estructurados de forma ordenada, para ser exactos, estableciendo una "jerarqua"; de ah su nombre. Establecer una clasificacin jerrquica supone poder realizar una serie de particiones del conjunto de individuos total W = { i1 , i2 , ...,iN } ; de forma que existan particiones a distintos niveles que vayan agregando (o desagregando, si se trata de un mtodo divisivo) a las particiones de los niveles inferiores . La representacin de la jerarqua de clusters obtenida suele llevarse a cabo por medio de un diagrama en forma de rbol invertido llamado "dendograma", en el que las sucesivas fusiones de las ramas a los distintos niveles nos informan de las sucesivas fusiones de los grupos en grupos de superior nivel (mayor tamao, menor homogeneidad) sucesivamente: El nivel de agrupamiento para cada fusin viene dado por un indicador llamado "valor cofentico" que debe ser proporcional a la distancia o disimilaridad considerada en la fusin (distancia de agrupamiento).Esta distancia o disimilaridad considerada en cada fusin estar definida, a veces, entre individuos y, otras, entre clusters; razn por la cual, ser necesario ampliar el concepto de distancia o disimilaridad de acuerdo con algn criterio que nos permita realizar el algoritmo de clasificacin. Una vez completamente definida la distancia para individuos, clusters y clusterindividuo, la clasificacin jerrquica se puede llevar a cabo mediante un sencillo algoritmo general : PASO 1 Formamos la particin inicial: P = { i1},{ i2 },...{ iN } considerando cada individuo como un cluster. PASO 2 Determinamos los dos clusters ms prximo (de menor distancia) ii ,ij , y los agrupamos en uno solo. PASO 3 Formamos la particin:
P = { i1},{ i2 },...{ ii u ij },...,{ iN } PASO 4 Repetimos los pasos 2 y 3 hasta obtener la particin final Pr= {W} Este algoritmo ser esencialmente el mismo para todos los mtodos de clasificacin jerrquica (ascendente); las diferencias residirn , como ya hemos apuntado y veremos con ms detalle, en el criterio de definicin de la distancia entre clusters.
Mtodo de la distancia mnima (nearest neighbour o single linkage)

En este mtodo se procede de acuerdo con el algoritmo general considerando la distancia ENTRE CLUSTERS como la distancia mnima entre los individuos ms prximos Este mtodo es espacio-contractivo, esto es, tiende a aproximar los individuos ms de lo que indicaran sus disimilaridades o distancias iniciales. El mtodo del mnimo ha sido reivindicado "matemticamente preferible" por sus propiedades por Jardine y Sibson . Sin embargo, ha sido muy criticado por ser muy sensible en aquellos casos en los que existen individuos perturbadores entre clusters bien diferenciados individuos intermedios) (casos con "ruido").
Mtodo de la distancia mxima (furthest neighbour o complete linkage)

Este mtodo, debido a Johnson ,utiliza el algoritmo general para la obtencin de la clasificacin jerrquica ascendente, pero considerando la distancia entre clusters con la distancia entre los individuos ms alejados. Por modificar la mtrica en sentido inverso que el mtodo anterior, este mtodo es espacio-dilatante, en el sentido en que tiende a separar a los individuos en mayor medida que la indicada por sus disimilaridades iniciales. El mtodo de la distancia mxima se encuentra, como el anterior, en franca decadencia, ya que presenta los inconvenientes de alargar mucho el proceso y dar como resultado agrupaciones encadenadas. Mientras el mtodo de la distancia mnima asegura que la distancia entre los individuos m s prximos de un cluster ser siempre menor que la distancia entre elementos de distintos clusters, el de la distancia mxima va a asegurar que la distancia mxima dentro de un cluster ser menor que la distancia entre cualquiera de sus elementos y los elementos ms alejados de los dems clusters.
Mtodo de la media (u.p.g.m.a.)

Los dos mtodos anteriores, a pesar de poseer buenas propiedades tericas tienen el inconveniente de distorsionar las medidas iniciales de disimilaridad, constringiendo o dilantando, respectivamente, la mtrica. Una solucin al problema fue el mtodo ideado por Sokal y Michener, conocido como Group Average. Sokal y Michener propusieron utilizar como distancia entre un grupo I y un individuo j la media de las distancias entre los individuos del grupo I y el individuo j: D (I,j) = 1/NI S D (i , j) Posteriormente, Lance y Williams extendieron la definicin a la distancia entre dos grupos como la media de todas las distancias entre todos los pares de individuos de los dos grupos. Este mtodo es espacio-conservativo, sto es, no hace variar considerablemente la mtrica inicial, y resulta ser uno de los ms utilizados, resolviendo de forma ms aceptable la presencia de ruido.
Mtodo del centroide

Fue propuesto originalmente, tambin, por Sokal y Michener, y utiliza como distancia entre grupos la distancia entre los centroides de cada grupo.Este mtodo es, tambin, espacio-conservativo, pero presenta el inconveniente de dejarse influir excesivamente por los grupos de mayor tamao. Esto hace que sea menos utilizado que el anterior.
Mtodo de la mediana
La mayor desventaja del mtodo del centroide es que si se fusionan dos grupos de diferente tamao, el centroide del nuevo grupo queda ms cerca del grupo de mayor tamao y ms alejado del de menor tamao en proporcin a sus diferencias de tamao. Esto trae como consecuencia que durante el proceso aglomerativo de fusin se van perdiendo paulatinamente las propiedades de los grupos pequeos. Para evitar esto, puede suponerse, con independencia del tamao que tengan los grupos en realidad, que los grupos son de igual tamao. Llevando a cabo esta estrategia, la distancia entre un individuo o grupo K de centroide k y el grupo formado por la fusin de los grupos I y J de centroides i y j viene dada por la mediana del tringulo i,j, k. Razn por la cual Gower propuso el nombre de mtodo (distancia) de la mediana. Este mtodo es, como el del centroide, espacio-conservativo, aunque tambin como l no resulta ser invariante ante transformaciones montonas de la distancia empleada, cosa que s ocurra con los tres primeros mtodos.
Mtodo de Ward
Ward propuso que la prdida de informacin que se produce al integrar los distintos individuos en clusters puede medirse a travs de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la media del cluster en el que se integra.Para que el proceso de clusterizacin resulte ptimo, en el sentido de que los grupos formados no distorsionen los datos originales, propona la siguiente estrategia: En cada paso del anlisis, considerar la posibilidad de la unin de cada par de grupos y optar por la fusin de aquellos dos grupos que menos incrementen la suma de los cuadrados de las desviaciones al unirse. El mtodo de Ward es uno de los ms utilizados en la prctica; posee casi todas las ventajas del mtodo de la media y suele ser ms discriminativo en la determinacin de los niveles de agrupacin .Una investigacin llevada a cabo por Kuiper y Fisher prob que este mtodo era capaz de acertar mejor con la clasificacin ptima que otros mtodos (mnimo, mximo, media y centroide).
Mtodo flexible de Lance y Williams

Las distintas distancias entre grupos definidas en los mtodos anteriores se pueden expresar a travs de una nica formula recurrente de cuatro par metros; de forma que, para los distintos valores de stos se generan las distintas distancias.En efecto, si consideramos el grupo formado por la fusin de los grupos I, J, (I,J) y el grupo exterior K, la distancia entre (I,J) y K puede expresarse como: D((I,J),K) = aI D(I,K)+ aJ D(J,K)+ b D(I,J)+ g |D(I,K)-D(J,K)| En el caso del mtodo del mnimo: aI = aJ = 1/2 ;; b = 0 ;; g = - 1/2 En el caso del mtodo del mximo: aI = aJ = 1/2 ;; b = 0 ;; g = 1/2 En el caso del mtodo de la media:
En el caso del mtodo del centroide:
En el caso del mtodo de la mediana: aI = aJ = 1/2 ;; b = - 1/4 ;; g = 0 Y en el caso del mtodo de Ward:
Notas
La palabra inglesa cluster cabe traducirla por conglomerado, grupo, racimo, enjambre o coleccin. En lo sucesivo, utilizaremos esta palabra inglesa para referirnos a los grupos o conglomerados en los que cabe clasificar a los individuos o en los que pretendemos hacerlo.
2
Cfr.:Snchez Carrin,J.J.:"Introduccin a las tcnicas de anlisis multivariable aplicadas a las ciencias sociales " op. cit. pag. 133
3
Cfr. Mostern, J.: "Conceptos y Teoras en la Ciencia" Alianza. 1984. Cap. 2 :"Taxonoma formal"pags. 41- 64.
4
Sokal,R.R. y Sneath, P.H.A.: "Principles of Numerical Taxonomy" W.H.Freeman & Co. 1963
Cfr.: Martnez Ramos,E.:"Aspectos tericos del Anlisis Cluster y aplicacina a la caracterizacin del electorado potencial de un partido" en Snchez Carrin, J.J.(Ed.):"Introduccin a las tcnicas...." op.cit. pag165.
6
Antecedentes de la conjuncin secuencial de las dos tcnicas pueden verse en :
* Green,P.E.;Frank,R.E. y Robinson,P.J.: "Cluster Analysis in Tests Market Selection" Management Science , 13, 1967. * Everitt, B.;Gourlay,A.J. y Kendel,R.E.: "An Attemp at Validation of Traditional Psychiatric Symdromes By Cluster Analysis" British Journal of Psychiatry, 119, 1971.pags. 299-412. * Lebart,L.;Morineau,A. y Fenelon,J.P.:"Traitement des Dones Statistiques "Dunod. 1979
7
Cfr.: Everitt, B.: "Cluster Analysis" J.Willey & Sons, 1981, pgs. 12-17. Cuadras, C.: "Mtodos de Anlisis Multivariante" op.cit. pg. 371.
Cfr.: Jambu, M. y Lebeaux, M.O.: "Cluster Analysis & Data Analysis" North-Holland Publish, Co. 1983, pgs. 82-83.
10
Cfr.: Cuadras, C.: "Mtodos de Anlisis Multivariante" op.cit. pg. 372. Obsrvese la diferencia entre P.2 y P.5. Cfr. Jambu, M. y Lebeaux, M.O.: "Cluster Analysis ..." op.cit. pg. 83. Ibidem.
11
12
13
14
En ocasiones a la distancia as obtenida se la denomina distancia eucldea al cuadrado y se reserva el nombre de distancia eucldea, propiamente dicha, a la raiz cuadrada de la expresin anterior.La razn de considerar la raiz cuadrada es tener un indicador acorde con las unidades de medida de las variables y no con los cuadrados de estas unidades.
15
Ambos procedimientos son equivalentes.
16
A esta distancia se la conoce tambin como distancia de Gower (Gower, J.C.: "Some Distances properties of latent root and Vector methods in Multivaiate Analysis", Biometrikal, 53, 1966, pgs. 315-328.
17
Cfr.: Everitt, B.: "Cluster Analysis" op.cit. pgs.17-ss.
18
Puede verse referencia de ellos en Everitt,B.: "Cluster Analysis".J.Willey & Sons 1980, pgs. 12-17.
Lance,G.N. y Williams,W.T.: "A General Theory of Classification Sorting Strategies: 1.Hierarchical Systems " Comp. Jour. 9, 1967, pags. 373-380.
Cuadras, C.: "Mtodos de Anlisis Multivariante" op.cit. pgs.433-434.
Esta clasificacin recogida por Everitt en "Cluster Analysis" (op. cit. pag.23-24) se basa, a su vez, en un artculo de Cormack: Cormack, R.M.: "A Review of Classification" Journal of the Royal Statistics Society, S.A. 134,3, 1971; pags. 321-367
"Clump" es otra palabra inglesa traducible por grupo o conglomerado, pero con otro matiz. En este contexto se hace referencia a la construccin de clases no disjuntas , que pueden solaparse.
Puede consultarse, p.ej. , Everitt,B.: "Cluster Analysis" op. cit. pags. 42-46. Sobre los aspectos formales y la definicin axiomtica del concepto de jerarqua y jerarqua indexada puede verse: Jambu,M. y Lebeaux,M.O.: "Cluster Analysis & Data Analysis" op. cit. pags. 113 y ss.; o bien; Cuadras, C.: "Mtodos de anlisis multivariante" op. cit. pags. 437-442.
Una clasificacin jerrquica doble implica una distancia ultramtrica (ver Cuadras, op. cit. pag. 441 y ss.).Las distintas formas de definir esta distancia para cluster-individuo y cluster-cluster nos determinarn los diferentes criterios de clasificacin Jardine,N. y Sibson,R.: "Mathematical Taxonomy" J.Willey,1971.
Johnson,S.C.: "Hierarchical Clustering Schemes" Psychometrika, 32, 1967, pags. 241254.
Sokal,R.R. y Michener,C.D.: "A statistical Method for Evaluating Systematic Relationship" Univ.Kansas Scienc. Bull. 38, 1958, pags. 1409-1438.
Lance,G.N. y Williams, W.T.: "Computer Programs for Hierarchical Polythetic Classification" Comp.Jour. 9,1966. Pags.60-64.
Gower,J.C.: "A Comparision of some Methods of Cluster Analyisis" Biometrics , 23, 1967, pags. 623-628. Ward, J.H.: "Hierarchical Groupings to optimise an objective function" Journal of the American Statistical Association, vol 58, 1963, pags. 236-244.
Kuiper,F.K. y Fisher,L.: "A Monte Carlo Comparision of six Clustering Procedures" Biometrics, 31,1975,pags.777-783.

Introducción Al Análisis Cluster

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introducción Al Análisis Cluster

Uploaded by

Copyright:

Available Formats

INTRODUCCIN AL ANLISIS CLUSTER

Planteamiento general Criterios basados en distancias como indicadores de disimilaridad

ANLISIS CLUSTER Planteamiento general

Especificamos esa estructura mediante diagramas arbreos o dendogramas u otros grficos.

Criterios de similitud. Similitud, divergencia y distancia

Criterios basados en distancias como indicadores de disimilaridad

y consideramos su transformacin lineal a otras nuevas

variables, y, representadas por el vector de variables: relacin Y = C X ;

que vendr dada por la

donde al ir variando el valor de r se van generando distintas distancias.

Criterios basados en similaridades. Medidas de similaridad

ndice binario: donde m es el nmero de coincidencias y M el un nmero total de variables comunes.

y una veintena de indicadores ms que no tiene sentido mencionar aqu .

Medidas de similitud y distancia entre grupos

Mtodos de anlisis cluster

Mtodo de la distancia mnima (nearest neighbour o single linkage)

Mtodo de la distancia mxima (furthest neighbour o complete linkage)

Mtodo de la media (u.p.g.m.a.)

Mtodo del centroide

Mtodo flexible de Lance y Williams

En el caso del mtodo del centroide:

Antecedentes de la conjuncin secuencial de las dos tcnicas pueden verse en :

Ambos procedimientos son equivalentes.

Cfr.: Everitt, B.: "Cluster Analysis" op.cit. pgs.17-ss.

Cuadras, C.: "Mtodos de Anlisis Multivariante" op.cit. pgs.433-434.

Johnson,S.C.: "Hierarchical Clustering Schemes" Psychometrika, 32, 1967, pags. 241254.

You might also like