You are on page 1of 16

IX.

ANÁLISIS DE CLUSTER
Suponga que un mercadólogo tiene datos que ha reunido sobre consumidores. Las variables medidas podrían incluir aspectos como la edad, el nivel educativo, el nivel de ingresos, el estado civil, el empleo, la cantidad de niños menores de 5 años de edad, el número de niños entre 6 y 13 y los niños de 14 años o mayores. Este mercadólogo podría querer usar esta información para dividir a los clientes en subgrupos, llamados agrupamientos, de modo que los clientes que se hallen en determinado subgrupo tengan características semejantes con respecto a las variables medidas. Si es posible dividir a los clientes en subgrupos, entonces el mercadólogo puede estudiar los hábitos de compra de los clientes que estén en cada uno de los subgrupos. Esta información podría ser extraordinariamente valiosa cuando se tomen decisiones acerca de cómo realizar la mejor publicidad para los clientes que estén dentro de los diferentes subgrupos. En otras palabras, esta información pudiera dar cuenta del uso más eficiente de los recursos que una compañía haya destinado a la publicidad. En términos más generales, suponga que un investigador ha reunido datos sobre un gran número de unidades experimentas. La cuestión básica planteada para un análisis por agrupación es si es posible idear una clasificación o esquema de agrupación que permita dividir las unidades que estén dentro de una clase o grupo sean semejantes entre sí, en tanto que aquellas que pertenezcan a clases o grupos distintos no sean semejantes a las de los otros grupos. El análisis por agrupación comprende técnicas que producen calificaciones a partir de datos que, inicialmente, no están clasificados y no deben confundirse con el análisis discriminante, en el cual desde un principio se sabe cuántos grupos existen y se tienen datos que provienen de cada uno de estos grupos.

118

1). que es la distancia entre dos observaciones en el espacio muestral p-dimensional y se midiera la distancia entre ellas usando una regla.2). en la ecuación (9. clasificación y taxonomía numérica. Otra posibilidad para medir la distancia entre una pareja de puntos es. y.1 Medidas de semejanza y de desemejanza. 9. Algunos otros nombres incluyen topología. 119 . estandarizar todas las variables y. usando sus valores Z estandarizados. probablemente ésta sea la mejor elección para medir desemejanzas. enseguida. Para realizar un análisis por agrupación. en primer lugar se debe poder medir la semejanza y desemejanza entre dos observaciones separadas. Una mediada sencilla de desemejanza es la distancia euclidiana estándar. Distancia métrica estandarizada. la semejanza o desemejanza entre dos agrupamientos de observaciones. se da la fórmula con la que se calcula la distancia euclidiana estandarizada. en primer lugar.Muchas disciplinas tienen su propia terminología para la agrupación y el análisis por agrupación.. calcular la distancia euclidiana estándar entre los puntos. Distancia métrica. Para la mayoría de las situaciones. Más adelante. La fórmula con que se calcula la distancia euclidiana se da más adelante mediante la ecuación (9. a continuación. también llamada distancia métrica.

3) se da la fórmula con la que se calcula una distancia del tipo de Mahalanobis. las tres elecciones de desemejanza entre los dos puntos x r y x i antes discutidas son: 1. no se puede calcular una distancia de Mahalanobis hasta que no se hayan agrupado los puntos en agrupamientos iniciales.2) y en donde z r es el vector de los valores Z correspondientes a la r-ésima unidad experimental. En la sección que sigue. la razón principal por la que se realiza el análisis por agrupación! Por lo tanto. el investigador necesitaría conocer en dónde están los agrupamientos y ¡ésta es. la estimación de una matriz combinada de varianza y covarinza es imposible por que. en donde d rs = [(x r − x s )' (x r − x s ] d rs = [ (z r − z s )' (z r − z s ] 1/ 2 (9. entonces en probable que ya no se necesite la medida de la distancia de Mahalanobis. precisamente.La distancia de Mahalanobis. entonces tampoco estaría bien definida la medida de esta distancia. y 120 . si no lo están. Incluso entonces. Por la consiguiente. Distancia métrica estandarizada. Si los agrupamientos están bien identificados. Una tercera posibilidad es calcular una distancia del tipo de Mahalanobis entre los puntos. en la ecuación (10.1) 2. la utilidad de esta medida de la distancia dependería de cuán bien se identifican los agrupamientos. después de lo cual estas matrices se combinarían a través de los agrupamientos. en donde 1/ 2 (9. Sin embargo. Esto requeriría las estimaciones de las matrices de varianza y covarianza dentro de los agrupamientos. para hacerlo. Métodos de desemejanza. Distancia métrica.

3. 9. seleccionar visualmente los agrupamientos. a continuación. Esto es desafortunado. La distancia de Mahalanobis. 121 . en donde d rs = (x r − x s )' ∑ −1 (x r − x s [ ] 1/ 2 (9. cuando sólo se están midiendo dos variables en cada unidad experimental. con frecuencia los métodos de agrupación detectan agrupamientos que tal vez no existan en realidad. Estas características indeseables de los algoritmos de agrupación sugiere que los investigadores necesitan formas de verificar o evaluar los resultados de los programas de agrupación. Gráficas de dispersión. estarían de acuerdo en que existen tres agrupamientos de puntos en estos datos.3) en donde ∑ se remplaza por alguna estimación razonable de la misma. quizá la mejor y más segura manera de identifica los agrupamientos de puntos es la representación gráfica de los datos y.2 Ayudas gráficas en la agrupación. Por ejemplo los investigadores que se enfrentan a una gráfica semejante a la que en la figura 9. Muchos de los métodos gráficos estudiados en el capítulo 3 son muy valiosos para verificar. Existen muchos algoritmos para agrupar y. pero sucede porque la elección de una algoritmo de agrupación impone una estructura en la muestra.1. Cuando p=2. a menudo. es decir. algoritmos diferentes aplicados al mismo conjunto de datos producirán agrupamientos apreciablemente distintos. evaluar y afinar los resultados de los programas de agrupación. Además.

se puede llevar a cavo un análisis de componentes principales par ver si. si los datos se encuentran en un plano dentro del espacio muestral p-dimensional.Fig. Cuando p>2. Uso de componentes principales.1 Gráfica de dispersión en la que se muestran tres agrupamientos. como se describió con anterioridad. Si se requieren más de dos componentes principales. 122 . caen dentro de un espacio de dimensiones reducidas. Si es posible hacer que la dimensionalidad efectiva llegue hasta dos. 9. y luego se podrían seleccionar visualmente los agrupamientos. en realidad. es probable que todavía sea más seguro y más fácil aplicar los programas de agrupación a las calificaciones de unas cuantas de las primeras componentes principales en lugar de aplicar esos programas a los valores de los datos en bruto. es decir. entonces podrían representarse gráficamente las calificaciones de las dos primeras componentes principales correspondientes a cada unidad experimental del conjunto de datos.

si se deja que el paquete de computación elija las simientes.3 Métodos de agrupación. se infiera el número de agrupamientos que va a existir. construir esos agrupamientos en torno a cada una de las simientes. su selección a menudo depende del orden en el que se leen los datos en la computadora. se pueden dividir los agrupamientos demasiados grandes y los que éste realmente cercanos a otros se pueden combinar. usando las medidas de desemejanza para medir las distancias entre cada uno de los puntos y esas simientes de agrupamientos. Una manera de buscar agrupamientos es seleccionar en principio un conjunto de puntos siguientes de aquellos y. en un principio. en los que los puntos datos observados se concentran en 123 . el procedimiento no es factible desde el punto de vista del cálculo por que hay precisamente demasiadas elecciones posibles. a continuación. Existen dos tipos básicos de buscar agrupamientos y se distinguen por ser de naturaleza jerárquica o no jerárquica. Otras formas de selección de agrupamientos se clasifican como métodos de análisis de agrupación jerárquica .9. Métodos de agrupación no jerárquica. Además. Este tipo de agrupación se clasifica como no jerárquica y auque es una enfoque muy razonable. La primera es que el procedimiento exige que. Por último. tiene tres desventajas importantes. no sólo para el número de agrupamientos sino también para las ubicaciones de las simientes. de modo que dos investigadores podrían realizar un análisis por agrupación sobre el mismo conjunto de datos y producir agrupamientos completamente diferentes. Agrupación jerárquica. con mucha frecuencia. Después. Estos se realiza al asignar cada punto del conjunto de datos a su simiente más cercana. Otra es que la selección de las simientes iniciales de los agrupamientos influye mucho sobre el procedimiento.

Un ejemplo de método de agrupación de enlace es el método del vecino más cercano. Defina la desemejanza entre este nuevo agrupamiento y cualquier otro punto como la distancia mínima entre los dos puntos del agrupamiento y este punto. Empiece con N agrupamientos. Continúe combinando los agrupamientos que sean los más cercanos entre sí de modo que. Más adelante en esta sección. 3. Es evidente que el número apropiado de agrupamientos se encuentra en algún lugar entre el principio de este proceso y su final. se describen algunos métodos para decidir cuándo detener este proceso o determinar el número de agrupamientos que existen. el método del vecino más cerca se inicia con N agrupamientos. la cantidad de agrupamientos se reduzca en uno y la desemejanza entre cualesquiera dos de éstos siempre se defina como la distancia entre sus miembros más cercanos. Método del vecino más cercano. Una manera de decidir cuándo detener el proceso de agrupación es construir un diagrama de árbol jerárquico. Los métodos más eficientes de agrupación jerárquica se conocen como métodos de agrupación de un solo enlace. en donde cada uno de ellos contiene exactamente un punto dato. 2. Enlace los dos puntos más cercanos según una de las tres medidas seleccionadas de la distancia.agrupamientos en una sucesión anidada de agrupaciones. Este tipo de diagrama contiene ramas que unes puntos 124 . En éste se aplican los siguientes: 1. en cada etapa. es donde cada uno de estos contiene una observación y continúa combinando los puntos y agrupamientos hasta que todas las observaciones están dentro de un agrupamiento. 4. De este modo. Un diagrama de árbol jerárquico.

Otros métodos de agrupación jerárquica.2.21 unidades. Este proceso continúa hasta que se tienen todos los puntos combinados en un solo agrupamiento.04 unidades cuando se asignaron al mismo agrupamiento.07 unidades. En la figura 9. de modo que ésta sería la longitud de la rama que los una. Fig. la rama que une el punto 6 con el agrupamiento que contiene los puntos 3 y 5 tendría una longitud igual a 0. 125 . cuando los puntos y los agrupamientos se combinan. de donde. se muestra una diagrama de árbol jerárquico. La distancia entre el punto y este agrupamiento.04 unidades de largo. Por ejemplo tenemos. fue igual a 0. Las longitudes de sus ramas son proporcionales a las distancias entre los puntos y agrupamientos. según se calcula por el método del vecino más cercano.datos y muestran el orden en que se asignan los puntos de agrupamiento. En el segundo paso. Estaban separados 0. 9. los puntos 2 y 4 se colocaron en un agrupamiento común.2 Diagrama de árbol jerárquico.07 unidades. de este modo una rama que uniera estos dos puntos tendría 0. se combinó el punto 6 con el agrupamiento que contiene los puntos 3 y 5. En el tercer paso. en primer lugar los puntos 3 y 5. que se encontraban separados 0.

al mirar gráficas multivariadas de los datos que están 126 . en donde la distancia entre los agrupamientos se define como aquélla entre sus dos miembros más alejados. 2) el método del centroide. Comparación de métodos de agrupación. en todos los casos relacionados con agrupaciones en imperativo que los investigadores verifique o afinen los resultados de los programas de agrupación. en donde la distancia entre los agrupamientos se define como aquélla entre las medias de los propios agrupamientos. entonces se puede suponer que en realidad existen agrupaciones naturales. Verificación de los métodos de agrupación. El método del vecino más cercano tiende a maximizar “lo conexo” de una pareja de agrupamiento y tiene la tendencia a crear menos de éstos que el método del vecino más lejano. como resultado. Si varios métodos dan resultado semejante. Esta último tiende a minimizar las distancias dentro de los agrupamientos en cada paso y. tiende a hallar agrupamientos más compactos. Como se mencionó al principio. La agrupación exacta no es una tarea sencilla y es difícil hacer recomendaciones generales. La mayoría de los otros métodos caen en alguna parte entre dos extremos. Siempre es aconsejable intentar con más de un método. en donde la distancia entre dos agrupamientos se define como el cuadrado de la distancia entre las medias de cómo los métodos de agrupación jerárquica se encuentran en el procedimiento CLUSTER de SAS. en donde la distancia entre los agrupamientos se define como el promedio de todas las desemejanzas entre todas las parejas posibles de puntos tales que unos de cada pareja estén en cada agrupamiento y 4) el método de varianza mínima de Ward.Otros métodos de agrupación jerárquica incluyen: 1) el método del vecino más cercano. 3) el método del promedio.

usando las calificaciones de las componentes principales. El diagrama de árbol jerárquico que se muestra en la figura 9. 3) las gráficas tridimensionales de dispersión.3. Si un investigador obtuvo un diagrama semejante al de la figura 9. 2) las gráficas de dispersión de las calificaciones de las dos primeras componentes principales.3 debería tener suficiente confianza en que los datos caen en tres agrupamientos diferentes. usando caras de Chernoff. o de ambas de las tres primeras componentes principales. en especial cuando estas últimas explican la mayor parte de la variabilidad de los datos que se están agrupando. y 7) las gráficas de Andrrews para cada unidad experimental. en especial cuando estas dos componentes explican la mayor parte de la variabilidad de los datos que se están agrupando. 5)las gráficas de estrella usando los datos originales o las componentes principales importantes. En la figura 10. usando los datos originales. 127 . las de burbujas.2 no revela alguna estructura particular en agrupamientos de los datos usados para producirlo. Muchos programas estadísticos de software producen estos tipos de diagrama (a veces conocidos como gráficas de carámbano). como se describió antes. si las variables se pueden ordenar por su importancia relativa. o bien. cuando sólo se tienen dos variables que se están usando para definir los agrupamientos. 6) las gráficas delos valores de los datos o de las calificaciones de las componentes principales. Una de ellas es usar un diagrama de árbol jerárquico. se muestra un ejemplo de un diagrama ideal de árbol. ¿Cuántos grupos? En esta sección se consideran algunas maneras que pueden ayudar a determinar la cantidad real de agrupamientos en un conjunto de datos.agrupando Algunos de os tipos de representaciones gráficas que resultan muy útiles son: 1) las gráficas de dispersión.

La reducción de escala multidimensional (MDS: multidimensional scaling) es una técnica matemática que permite en un espacio de menos dimensiones de las distancia entre los puntos que se encuentran en un espacio de muchas dimensiones.3 Diagrama de árbol en el que se muestran tres agrupamientos. los puntos daros se pueden representar gráficamente en el espacio bidimensional y se puede examinar esa gráfica para ver cuales puntos tienden a caer cercanos entre sí. 9. cuando se desea poner las observaciones en grupos. Resulta de máxima utilidad cuando se pueden mapear distancias de un espacio de muchas dimensiones hacia uno bidimensional. 9. Young y Hamer (1987) dan un informe 128 .4 Reducción de escala multidimensional.Fig. en este caso. la reducción de escala multidimensional se puede usar como otra técnica. Como consecuencia.

N y s = 1.1 En esta sección que sigue se dan fórmulas matemáticas que reducen las distancias entre los puntos hasta un espacio bidimensional. Se podría considerar una encuesta en una muestra aleatoria de consumidores de desodorante y pedir a cada uno de éstos que califique cada uno de los productos respecto a varios criterios. aplicar la fórmula de la distancia métrica estandarizada. enseguida. Note que estos argumentos se pueden extraer a cosos donde se esté intentando reducir un conjunto de datos p − dimensionales a q dimensiones.2. . la facilidad de aplicación y la característica de no dejar residuos en la ropa. Como un ejemplo. Una de las medias más razonables de la distancia que se pueden usar es estandarizar los datos y. como se describe en la sección 10. en lo que sigue sólo se considera el caso en que q = 2 . Para aplicar la reducción de escala multidimensional a un conjunto de datos (Quizá un conjuntos de medias de grupos). Los consumidores podrían evaluar los desodorantes en cuanto a la fragancia. en donde q es cualquier número menor que p .2. Suponga que Dn representa la distancia real entre el r-ésimo y el s-ésimo puntos. en un espacio bidimensional. . lo que podría ayudarle en la determinación de cómo invertir inteligentemente el dinero para publicidad de la compañía. Se podrían calcular medias para cada una de las distancias entre todas las parejas de media marcadas. para r = 1. Se podrían usar la reducción de escala multidimensional para crear una gráfica en la que se intente mostrar las ubicaciones relativas de las macas entre sí. Por ejemplo.excelente de muchos de los aspectos relacionados con la reducción de escala multidimensional. N en 129 . en el espacio muestral p − dimensional. la capacidad para controlar la humedad. Debido a cierta inclinación por la sencillez. en primer lugar deben calcularse las distancias entre todas las parejas de puntos. suponga que un productor de antitranspirantes desea saber quién podría ser el competidor más cercano. la capacidad para anular el olor.

donde N es el número total de puntos datos. a saber. de modo que 130 . Dr2 s2 al distancia entre los dos siguientes puntos más cercanos. y DrN ( N −1) / 2 s N ( N −1) / 2 las distancias entre los dos puntos más lejos.. La reducción de escala multidimensional intenta localizar N puntos en un espacio bidimensional. Si la representación gráfica de estas parejas de distancias revela una tendencia monótona creciente. Note que el número de parejas de puntos distintas es igual a N ( N − 1) 2 . de modo que hay N ( N − 1) 2 distancias posibles por pares. Considere a continuación la representación gráfica de N puntos en un espacio bidimensional y denote por d rs la distancia entre el r − ésimo y el s − ésimo puntos en este espacio bidimensional.. y d rN ( N −1) / 2 s N ( N −1) / 2 la distancia entre los dos puntos más lejanos.. respectivamente. Sean Dr1s1 la distancia entre dos puntos más cercanos.. entonces la distancia métrica estandarizada entre estos dos puntos datos se expresa por Dn = [ ( z r − z s ) ' ( z r − z s ) ] 1/ 2 Estas distancias se pueden ordenar desde la más pequeña hasta la más grande. Los programas MDS intentan localizar los puntos datos observados en un espacio de dimensiones reducidas. sean d r1s1 la distancia entre los dos puntos más cercanos. Dr1s1 < Dr2 s2 <  DrN ( N −1) / 2 s N ( N −1) / 2 Para evaluar la calidad del ajuste se acostumbra representar gráficamente las diferencias reales entre las parejas de puntos contra sus distancias modeladas.. Si se representan por z r y z s los vectores Z al r − ésimo y s − ésimo puntos datos. d r2 s2 la distancia entre los siguientes dos puntos más cercanos. En este mismo espacio.. de modo que las distancias entre parejas de puntos en este espacio correspondan tanto como se pueda con las distancias verdaderas ordenadas entre los puntos observados. entonces se puede deducir que la gráfica bidimensional ilustra con exactitud la cercanía de las parejas de puntos.

0 8. ciencias naturales y educación física.3 10.0 9. la cual no se muestra en su totalidad.7 6.5 7.5 6.5 8.5 7.0 8.5 6.0 10.7 7.5 C.1: Consideremos las calificaciones obtenidas por 10 alumnos de secundaria en las materias de matemáticas.2 6.0 8.0 7.1 8.5 8.2 6.3 9. en donde Dr s es la distancia entre la r − ésima y la s − ésima observaciones y d rs es la distancia entre esos mismos dos puntos en el espacio reducido.0 10.0 Educ.0 10.0 8.7 9.7 6. 131 .9 6.8 C. Física 9.8 8.0 7.2 6. Ejemplo 9.2 8.0 8.2 7. español. Naturales 7.9 8.0 9.N  r =1 E= ∑∑ ( D s =1 N r −1 rs ∑∑ D r =1 s =1 r −1  2 − d rs ) / Drs   rs Se minimice.5 5.1 9. Estudiante Matemática KATHY JUAN TOMAS LAURA RAFAEL CLARA YAMI GOYO LALO ERIKA s 6.5 6.0 9.6 9.0 8.3 6.0 8.5 10.7 9.0 Se creo el programa mostrado mas abajo en el paquete SAS y se ejecuto obteniéndose una salida bastante amplia. ciencias sociales. Sociales 9.4 Español 10.0 9. en el anexo 6.5 8.

0 G O YO TO M AS CLAR A R AFAE L LAU RA YAM I E R IK A JU A N LA LO KA TH Y FIG 9.0 0 .5 3 .5 2 . 132 .5.5 1 .0 3 .0 Linkage Distance 2 . C o m p l e t e L in k a g e E u c lid e a n d is t a n c e s 6 5 4 Linkage Distance 3 2 1 0 C LAR A R AFAEL TO M AS G O YO LA U R A YAM I E R IK A JU A N LA LO KATH Y Figura 9.0 1 .5 0 .T r e e D ia g r a m f o r 1 0 C a s e s S in g le L in k a g e E u c lid e a n d is ta n c e s 4 . Dendograma de la agrupación de los estudiantes usando ligamiento completo (vecino más lejano) y distancia euclidiana .4 Dendograma de la agrupación de los estudiantes usando ligamiento simple (vecino más cercano) y distancia euclidiana.

96945 6.5 8.26131 -0.52787 0.CLUSTER=2 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 3 KATHY -1.9 8.7 8.CLUSTER=5 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 10 TOMAS 2.3 9 -------------------------------------.5 7.1.0 10 6 ERIKA -0.5 7.2.20099 -0.0 9.99615 6.0 8.7 8.5 6.9 7.CLUSTER=3 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 5 YAMI -0.8 8 9 -----------------------------------.5 8.7 9.9 7.42903 0.CLUSTER=4 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 8 LAURA -1.CLUSTER=1 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 1 RAFAEL 1.CLUSTER=3 ----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 5 YAMI -0. .5 10.62470 0.86066 6.7 8. Tabla 9.11676 6.7 7.93207 0.5 6.1 10.67339 6.5 10. .5 9 -----------------------------------.15600 6.2 9.33665 1.76261 6.8 10.06313 6. Definición y descripción resumida de grupos utilizando el método jerárquico 133 .3 9 -----------------------------------.0 10 7 JUAN 0.9 8.3 9.5 8.8 10.86066 6.42903 0.5 7.2 8.94219 0.4 8.-----------------------------------.7 8. Definición y descripción resumida de grupos utilizando el método jerárquico ------------------------------------.2 9.26131 -0. .5 7.7 7.31864 6.0 10 6 ERIKA -0.1 8.20099 -0.8 8 9 ------------------------------------.0 7 9 9 GOYO -1.2 9.0 9.2 9 2 CLARA 1.7 9. .5 8 -------------------------------------.62470 0.31864 6.96945 6.5 8. .0 10 4 LALO -1.52787 0.CLUSTER=4 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 8 LAURA -1.0 10 7 JUAN 0.7 7.CLUSTER=2 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 3 KATHY -1.94219 0.93207 0.5 8 -----------------------------------.2 8.0 8.11676 6.99615 6.5 8.15600 6.33665 1.CLUSTER=1 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 1 RAFAEL 1.67339 6.4 8.1 10.3 5.61811 .0 7 9 9 GOYO -1. Tabla 9. .74935 -2.2 9. .83489 -1.83489 -1.06313 6.CLUSTER=5 -----------------------------------------OBS NOMBRE CP1 CP2 X1 X2 X3 X4 X5 10 TOMAS 2.5 8.2 8 ------------------------------------.2 9 2 CLARA 1.6 9.7 7.1 8.61811 . .5 8.0 10 4 LALO -1.76261 6.74935 -2.