Práctica 10.

Análisis de conglomerados

1

Práctica 10 ANÁLISIS DE CONGLOMERADOS

Objetivos:
En esta práctica utilizaremos el paquete SPSS para introducir la técnica de Análisis Multivariante conocida como Análisis de Conglomerados. Describiremos los métodos jerárquicos y no jerárquicos y los aplicaremos a ejemplos de problemas multivariantes.

Índice:
1. Análisis de conglomerados jerárquico. 2. Análisis de conglomerados no jerárquico 3. Ejercicios complementarios

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

2

1. Análisis de conglomerados jerárquico
En los métodos de análisis de conglomerados jerárquicos se realiza un proceso de agrupación de las observaciones en el que en cada paso se agrupan dos conglomerados para formar uno conjunto. El proceso comienza considerando tantos conglomerados como observaciones y acaba con la formación de un único conglomerado que las contenga todas. Existen diversos métodos jerárquicos, dependiendo del criterio de agrupación: Método de los centroides, método del vecino más próximo (single linkage), método del vecino más lejano (complete linkage), método de la distancia media (average linkage between groups) y método de Ward.

Ejercicio 1:
Realizar un análisis de conglomerados jerárquico sobre los 7 individuos cuyas medidas, denotadas por x, y aparecen en la tabla. Utilizar la distancia euclídea y el método de los centroides. Dibujar el dendograma y comentarlo. 1 0.0 2.0 2 1.0 2.0 3 2.0 0.0 4 2.4 2.0 5 3.0 0.0 6 4.0 2.0 7 5.1 2.0

x y

En primer lugar, creamos un fichero de datos, que podemos llamar CONG1, con tres variables: variable SUJETO, que es una variable tipo Cadena para etiquetar los sujetos observados de S1 a S7, variable X y variable Y. En el menú principal seleccionamos Analizar /Clasificar/Conglomerados jerárquicos y aparece la ventana de selección de las variables y el método a utilizar. Elegimos X, Y como variables de para la agrupación y SUJETO para las etiquetas.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

3

Al pulsar sobre la opción Método, aparece la ventana de selección del método a utilizar:

En la misma ventana podemos elegir el tipo de distancia a utilizar:

En la parte inferior de esta misma ventana aparecen opciones para transformar o estandarizar las observaciones, si fuera necesario. Antes de realizar el análisis de conglomerados con el método y la distancia elegidos, podemos indicar el tipo de Estadísticos y Gráficas que deseamos obtener. Pulsando en la opción Estadísticos de la ventana principal, obtenemos la correspondiente ventana de selección.
Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

4

Elegimos: Historial de conglomeración, Matriz de distancias y Conglomerado de pertenencia, con un rango de soluciones que ha de estar entre 2 y 6 (en general entre un mínimo de 2 y un máximo de n-1). De forma similar, si pulsamos la opción Gráficos, obtenemos la ventana de selección de gráficos, en la que marcamos Dendograma y Diagrama de Témpanos de todos los conglomerados en posición vertical. Volvemos a la ventana principal y pulsamos Aceptar. SPSS realiza el análisis jerárquico y muestra los resultados. En primer lugar aparece la Matriz de Distancias (en nuestro caso, la matriz de distancias euclídeas al cuadrado): Matriz de distancias Caso 1:S1 2:S2 3:S3 4:S4 5:S5 6:S6 7:S7 1,000 8,000 5,760 13,000 16,000 26,010 5,000 1,960 8,000 9,000 16,810 4,160 1,000 8,000 13,610 4,360 2,560 7,290 5,000 8,410 1,210 1:S1 2:S2 1,000 3:S3 8,000 5,000 4:S4 5,760 1,960 4,160 5:S5 13,000 8,000 1,000 4,360 6:S6 16,000 9,000 8,000 2,560 5,000 7:S7 26,010 16,810 13,610 7,290 8,410 1,210

A continuación aparece el Historial de Conglomeración, en el que, para cada etapa, las columnas de Conglomerado que se combina indican dos elementos de los conglomerados que se unen. La columna Coeficiente presenta el valor que se ha usado para decidir los conglomerados que se unen, calculado por el método elegido. En este caso, la distancia euclídea al cuadrado entre los centroides. Valores pequeños del coeficiente indican que los dos conglomerados que se juntan son bastante homogéneos y tiene sentido juntarlos. Valores altos del coeficiente indican que el nuevo conglomerado es bastante heterogéneo y quizá no debería construirse. Historial de conglomeración Conglomerado que se Coeficientes Etapa en la que el conglomerado Próxi combina aparece por primera vez ma etapa Etapa Conglomera Conglome Conglomerado Conglomerado do 1 rado 2 1 2 1 3 5 1,000 0 0 5 2 1 2 1,000 0 0 4 3 6 7 1,210 0 0 6 4 1 4 3,610 2 0 5 5 1 3 5,868 4 1 6 6 1 6 8,877 5 3 0
Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

5

Seguidamente aparece el Conglomerado de pertenencia, que muestra, para cada sujeto observado, a qué conglomerado pertenecería en el caso de existir el número de conglomerados indicado en cada columna (desde 6 hasta 2, ya que 7 conglomerados indicaría que cada sujeto está en un conglomerado individual y 1 conglomerado los contendría a todos).

Conglomerado de pertenencia 6 1: S1 1 2: S2 2 3: S3 3 4: S4 4 5: S5 3 6: S6 5 7: S7 6 5 1 1 2 3 2 4 5 4 1 1 2 3 2 4 4 3 1 1 2 1 2 3 3 2 1 1 1 1 1 2 2 Caso conglomerados conglomerados conglomerados conglomerados conglomerados

Después aparece el Diagrama de Témpanos, que muestra el proceso de conglomeración como si fueran témpanos verticales de hielo que en su parte inferior están separados, pero en su parte superior aparecen unidos unos a otros. El diagrama se mira por filas. En cada fila los sujetos unidos por X pertenecen al mismo conglomerado. Por ejemplo, si miramos la última fila, correspondiente a 6 conglomerados, vemos que las observaciones S7, S6, S4, S2 y S1 permanecen aisladas, formando cada una un conglomerado, mientras que S5 y S3 se han unido formando el sexto conglomerado.

Diagrama de témpanos vertical: Número de 7 6 conglomerados 1 X X X 2 X X X 3 X X X 4 X X X 5 X X 6 X X

5 X X X X X X X X X X X X X

3 X X X X X X X X

4 X X X X X X X X X

2 X X X X X X X X X X X

1 X X X X X X

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

6

Finalmente, aparece el Dendograma en que se observa el proceso de agrupación de las observaciones y los conglomerados, que van uniéndose por líneas. La escala horizontal muestra la distancia euclídea entre los centroides de los conglomerados que se unen, en una escala de 0 a 25. Si la distancia es pequeña, tiene sentido unir los dos conglomerados en uno nuevo. Si la distancia es grande, el nuevo conglomerado es heterogéneo y quizá no debería formarse.

Ejercicio 2:
Para el conjunto de datos del Ejercicio 1, realizar un análisis de conglomerados jerárquico utilizando el método del vecino más próximo y comparar el dendograma resultante con el obtenido en el Ejercicio 1.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

7

2. Análisis de conglomerados no jerárquico
En los métodos de análisis de conglomerados no jerárquicos se realiza un proceso de agrupación de las observaciones para formar un número de conglomerados, k, fijado previamente. Los k conglomerados comienzan definiéndose a partir de unos centros iniciales. Las restantes observaciones se asignan al conglomerado cuyo centro esté más próximo. La asignación produce un cambio en los centros de los conglomerados. A partir de esta asignación inicial, comienza un proceso iterativo de reasignaciones en el que una observación puede cambiar de conglomerado si existe otro centro más próximo que el del conglomerado anteriormente asignado. El proceso termina cuando no hay cambio en los centros o el cambio es menor de un valor de parada fijado.

Ejercicio 3:
Realizar un análisis de conglomerados no jerárquico sobre los 7 individuos del Ejercicio 1, construyendo 3 conglomerados En el menú principal seleccionamos Analizar/Clasificar/Conglomerados de K medias y aparece la ventana de selección de las variables y el método a utilizar. Elegimos X, Y como variables para la agrupación y SUJETO para las etiquetas. Fijamos el número de conglomerados en 3 y elegimos la opción de Iterar y Clasificar. Pulsando la opción Centros >> se pueden leer de un fichero los centros iniciales. Pulsando la opción Iterar, se puede fijar el número máximo de iteraciones (por defecto, 10) y el mínimo cambio en los centros para seguir iterando (por defecto está fijado en 0, lo que indica que sólo parará cuando no haya ningún cambio en los centros). Pulsando Opciones>>Estadísticos, se puede pedir, junto con los Centros de conglomerados iniciales, la Información del conglomerado en cada caso.

Al pulsar Aceptar, SPSS realiza el proceso de conglomeración y muestra los resultados. En primer lugar, aparecen los centros iniciales, que en nuestro caso corresponden a las observaciones S1, S7 y S5.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

8

Centros iniciales de los conglomerados
1 ,0 2,0 Conglomerado 2 5,1 2,0 3 3,0 ,0

X Y

A continuación aparece el historial de iteraciones mostrando, para cada iteración, el cambio producido en los centros. En nuestro caso, el proceso acaba cuando no se produce ningún cambio en los centros.

Historial de iteraciones Cambios en los centros de los conglomerados Iteración 1 2 1 .500 .000 2 .550 .000 3 .854 .000

a Convergencia alcanzada debido a un cambio en la distancia nulo o pequeño. La distancia máxima en la que ha cambiado cada centro es ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es 2,900.

Después aparece información sobre la pertenencia de cada sujeto observado a los conglomerados finales. La columna Distancia muestra la distancia euclídea de cada observación al centro de su conglomerado correspondiente.

Pertenencia a los conglomerados Número de caso 1 2 3 4 5 6 7 SUJETO S1 S2 S3 S4 S5 S6 S7 Conglomerado 1 1 3 3 3 2 2 Distancia ,500 ,500 ,814 1,335 ,854 ,550 ,550

Finalmente, aparecen los Centros de los conglomerados finales (redondeados a una cifra decimal, tal como están los datos), las Distancias entre los centros de los conglomerados y el Número de casos en cada conglomerado.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

9

3. Ejercicios complementarios
1.- Efectuar una clasificación en cuatro grupos, según sus nutrientes, de los alimentos que se encuentran en la tabla siguiente: (Los datos se encuentran en el fichero ALIMENTOS). Calorías 245 420 372 115 265 340 340 202 70 80 135 200 195 120 180 110 Proteínas 21 15 19 20 20 20 19 18 11 14 16 19 16 17 22 23 Grasa 17 39 32 3 20 28 29 14 1 2 5 13 11 5 9 1 Calcio 9 7 9 8 9 9 9 7 80 38 15 5 14 159 367 98 Hierro 2.7 2.0 2.6 1.4 2.6 2.5 2.5 2.5 6.0 0.8 0.5 1.0 1.3 0.7 2.5 2.6

Hamburguesa (HA) Rostbif (RB) Filete de ternera (FT) Pollo asado (PA) Pierna de cordero (PC) Jamón ahumado (JA) Asado de cerdo (AC) Lengua de vaca (LV) Almejas frescas (AF) Cangrejo en lata (CL) Merluza frita (MF) Caballa fresca (CF) Perca frita (PF) Salmón enlatado (SE) Sardinas en lata (SL) Gambas GA)

2.- Efectuar una clasificación de los países europeos de acuerdo con el resultado de la encuesta siguiente, en la que se recoge el porcentaje de hogares en cada país que tenían el correspondiente tipo de alimento en el momento de realizar la encuesta. Los datos se encuentran en el fichero HOGARES. AL 90 45 88 19 57 51 19 21 27 21 81 75 71 22 91 85 74 30 IT 82 10 60 2 55 41 3 2 4 2 67 71 46 80 66 24 94 5 FR 88 42 63 4 76 53 11 23 11 5 87 84 45 88 94 47 36 57 HO 96 62 98 32 62 67 43 7 14 14 83 89 81 15 31 97 13 53 BE 94 38 48 11 74 37 25 9 13 12 76 76 57 29 84 80 83 20 LX 97 61 86 28 79 73 12 7 26 23 85 94 20 91 94 94 84 31 GB 27 86 99 22 91 55 76 17 20 24 76 68 91 11 95 94 57 11 SU 73 72 85 25 31 69 10 17 19 15 79 70 61 64 82 48 61 48 SW 97 13 93 31 0 43 43 39 54 45 56 78 75 9 68 32 48 2 DK 96 17 92 35 66 32 17 11 51 42 81 72 64 11 92 91 30 11 ES 70 40 40 0 62 43 2 14 23 7 59 77 38 86 44 51 91 16

Café (grano) Café (inst). Té Sacarina Galletas Sopa (sobre) Sopa (lata) Puré patata Pescado Verduras Manzanas Naranjas Jamón Ajos Mantequilla Margarina Aceite Yogur

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

10

3.- Utilizando los distintos métodos jerárquicos y fijando un número de (i) tres grupos, (ii) cinco grupos, realizar un análisis de conglomerados para los datos de los perfiles laborales de los países europeos presentados en la tabla siguiente (AGR = Agricultura, MIN = Minería, IND = Industria, ENE = Energía, CON = Construcción, SER = Servicios, FIN = Finanzas, SOC =Trabajos sociales, TC=Transporte y comunicaciones): (Los datos se encuentran en el fichero EMPLEO). AGR 3.3 9.2 10.8 6.7 23.2 15.9 7.7 6.3 2.7 12.7 13.0 41.4 9.0 27.8 22.9 6.1 7.7 66.8 23.6 16.5 21.7 31.1 34.7 48.7 23.7 MIN 0.9 0.1 0.8 1.3 1.0 0.6 3.1 0.1 1.4 1.1 0.4 0.6 0.5 0.3 0.8 0.4 0.2 0.7 1.9 2.9 3.1 2.5 2.1 1.5 1.4 IND 27.6 21.8 27.5 35.8 20.7 27.6 30.8 22.5 30.2 30.2 25.9 17.6 22.4 24.5 28.5 25.9 37.8 7.9 32.3 35.5 29.6 25.7 30.1 16.8 25.8 ENE 0.9 0.6 0.9 0.9 1.3 0.5 0.8 1.0 1.4 1.4 1.3 0.6 0.8 0.6 0.7 0.8 0.8 0.1 0.6 1.2 1.9 0.9 0.6 1.1 0.6 CON 8.2 8.3 8.9 7.3 7.5 10.0 9.2 9.9 6.9 9.0 7.4 8.1 8.6 8.4 11.5 7.2 9.5 2.8 7.9 8.7 8.2 8.4 8.7 4.9 9.2 SER 19.1 14.6 16.8 14.4 16.8 18.1 18.5 18.0 16.9 16.8 14.7 11.5 16.9 13.3 9.7 14.4 17.5 5.2 8.0 9.2 9.4 7.5 5.9 6.4 6.1 FIN 6.2 6.5 6.0 5.0 2.8 1.6 4.6 6.8 5.7 4.9 5.5 2.4 4.7 2.7 8.5 6.0 5.3 1.1 0.7 0.9 0.9 0.9 1.3 11.3 0.5 SOC 26.6 32.2 22.6 22.3 20.8 20.1 19.2 28.5 28.3 16.8 24.3 11.0 27.6 16.7 11.8 32.4 15.4 11.9 18.2 17.9 17.2 16.1 11.7 5.3 23.6 TC 7.2 7.1 5.7 6.1 6.1 5.7 6.2 6.8 6.4 7.0 7.6 6.7 9.4 5.7 5.5 6.8 5.7 3.2 6.7 7.0 8.0 6.9 5.0 4.0 9.3

Bélgica Dinamarca Francia Alemania Irlanda Italia Luxemburgo Holanda Reino Unido Austria Finlandia Grecia Noruega Portugal España Suecia Suiza Turquía Bulgaria Checoslovaquia Hungría Polonia Rumania Yugoslavia Rusia

En el estudio se planteó si sería posible discriminar entre grupos en base a los patrones de empleo. Concretamente, en el momento del estudio se consideraron los siguientes grupos: (1) Países pertenecientes, en aquel momento a la Comunidad Económica Europea: Bélgica, Dinamarca, Francia, Alemania, Irlanda, Italia, Luxemburgo, Holanda y Reino Unido. (2) Países del occidente europeo no pertenecientes, en aquel momento, a la Comunidad Económica Europea: Austria, Finlandia, Grecia, Noruega, Portugal, España, Suecia, Suiza y Turquía. (3) Países de la Europa del este: Bulgaria, Checoslovaquia, Hungría, Polonia, Rumania, Rusia y Yugoslavia. Compara estos grupos con los obtenidos en el análisis de conglomerados.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 10. Análisis de conglomerados

11

4.- La tabla adjunta muestra seis medidas de cada una de 25 vasijas de barro halladas en una excavación arqueológica en Tailandia. (Los datos se encuentran en el fichero VASIJAS). Vasija 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 X1 13 14 19 17 19 12 12 12 11 11 12 13 12 13 14 14 15 19 12 17 13 9 8 9 12 X2 21 14 23 18 20 20 19 22 15 13 20 21 15 22 22 19 16 21 20 20 20 9 8 9 19 X3 23 24 24 16 16 24 22 25 17 14 25 23 19 26 26 20 15 20 26 27 27 10 7 8 27 X4 14 19 20 16 16 17 16 15 11 11 18 15 12 17 15 17 15 16 16 18 17 7 5 4 18 X5 7 5 6 11 10 6 6 7 6 7 5 9 5 7 7 5 9 9 7 6 6 4 2 2 5 X6 8 9 12 8 7 9 10 7 5 4 12 8 6 10 9 10 7 10 10 14 9 3 2 2 12

Interesa agrupar las vasijas por su forma, más que por su tamaño. Se considera que dos vasijas que tienen casi la misma forma son similares, aunque su tamaño sea muy distinto Una manera simple de eliminar las diferencias en tamaño es dividir cada medida de las vasijas por una de esas medidas (por ejemplo X6) o por la suma de todas ellas. Esta estandarización asegurará que las vasijas con igual forma pero diferentes tamaños sean similares.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Sign up to vote on this title
UsefulNot useful