Professional Documents
Culture Documents
Analisis de Cluster - Prof Salinas (TM)
Analisis de Cluster - Prof Salinas (TM)
Unidad IV
Análisis Cluster
Mg.
Mg. Jesú
Jesús Salinas Flores jsalinas@lamolina.edu.pe 2
1
Clasificación de los métodos cluster ¿Cómo realizar el análisis cluster?
(Jerárquico Aglomerativo)
Divisivos
Métodos Jerá
Jerárquicos
Aglomerativos
Métodos Cluster
Reasignació
Reasignación
Búsqueda de la densidad
Métodos No Jerá
Jerárquicos Directos
Reducció
Reducción de dimensiones
5 6
2
Procedimiento del Análisis Cluster
Estandarización de los datos
Las medidas de similaridad son muy
sensibles a las unidades que estén
medidas dichas variables.
Para evitar esta influencia no deseable de
una variable debida exclusivamente a la
unidad en que viene medida, es necesario
corregir el efecto de los datos recurriendo
a un proceso de estandarización.
Xi − X
Puntuaciones Z Zi =
9 Si 10
3
Algoritmos de Agrupamiento Métodos de Enlace o Agrupamiento
X1 X2
Ejemplo Nº 1: A 1 2
(A,B)
(A,B)
0
C
2
D
4.24
E
3.61
F
2.24
B 2 1
C 2 0 3.16 4.12 2.24
C 4 1 D 4.24 3.16 0 2.24 2.24
D 5 4 E 3.61 4.12 2.24 0 2
E 3 5 F 2.24 2.24 2.24 2 0
F 3 3
A B C D E F (A,B) C D (E,F)
A 0 1.41 3.16 4.47 3.61 2.24
B 1.41 0 2 4.24 4.12 2.24
(A,B) 0 2 4.24 2.24
C 3.16 2 0 3.16 4.12 2.24
D 4.47 4.24 3.16 0 2.24 2.24
C 2 0 3.16 2.24
E 3.61 4.12 4.12 2.24 0 2
F 2.24 2.24 2.24 2.24 2 0 D 4.24 3.16 0 2.24
(E,F) 2.24 2.24 2.24 0
15 16
4
Salida con el SPSS
Historial de conglomeración
(A,B,C) D (E,F)
Etapa en la que el conglomerado
(A,B,C) 0 3,16 2.24 Conglomerado que se combina aparece por primera vez Próxima
D 3,16 0 2.24 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 1 2 1.414 0 0 3
(E,F) 2.24 2.24 0 2 5 6 2.000 0 0 4
3 1 3 2.000 1 0 5
4 4 5 2.236 0 2 5
5 1 4 2.236 3 4 0
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
(A,B,C,E,F) D
Dendrogram using Single Linkage
C A S E 0 5 10 15 20 25
D 2,24 0 Label Num +---------+---------+---------+---------+---------+
A 1 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
B 2 ò÷ ùòòòòòòòòòòòòòø
C 3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
E 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòú
F 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
17 18
D 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
3:C
5:E
2:B
1:A
6:F
5
Utilización de los indicadores
Otros indicadores Estadí
Estadístico Concepto Medido Comentarios
Raíz cuadrada de la media de las RMSSTD Homogeneidad del El valor debe ser
desviaciones típicas del nuevo nuevo conglomerado pequeño
conglomerado (RMSSTD) SPR Homogeneidad de los El valor debe ser
R2 semiparcial (SPR) conglomerados pequeño
fusionados
R cuadrado (RS)
RS Heterogeneidad entre El valor debe ser
Distancia entre los conglomerados (DC)
conglomerados grande
CD Homogeneidad de los El valor debe ser
conglomerados pequeño
21 fusionados 22
Ejemplo de Aplicación Nº 2 (Gondar, 2004) La información que se requirió de estas 21 personas es la siguiente:
A este grupo de personas que se tiene
6
Atributos Variables
• Salir de compras es divertido divertido
25 26
Evaluación de la aplicabilidad del AC Se define una medida de “similitud”, puesto que esta medida de similitud
nos puede entregar una pauta para formar conglomerados (cluster)
Analizar – Correlaciones - Bivariadas… homogéneos.
Correlaciones
Buena
Divertido Presupuesto Aprovecho compra No importa Ahorro
Divertido Correlación de Pearson 1 .058 .839** -.105 -.874** .032
Sig. (bilateral) .802 .000 .650 .000 .890
N 21 21 21 21 21 21
Presupuesto Correlación de Pearson .058 1 -.018 .441* -.127 .470*
Sig. (bilateral) .802 .938 .045 .585 .031 ¿Qué “distancia” hay
entre el caso i y el
N 21 21 21 21 21 21
Aprovecho Correlación de Pearson .839** -.018 1 -.304 -.714** .061
Sig. (bilateral) .000 .938 .181 .000 .792 caso j?
N 21 21 21 21 21 21
Buena compra Correlación de Pearson -.105 .441* -.304 1 .022 .582**
Sig. (bilateral) .650 .045 .181 .923 .006
N 21 21 21 21 21 21
No importa Correlación de Pearson -.874** -.127 -.714** .022 1 -.207
Sig. (bilateral) .000 .585 .000 .923 .368
N 21 21 21 21 21 21
Ahorro Correlación de Pearson .032 .470* .061 .582** -.207 1
Sig. (bilateral) .890 .031 .792 .006 .368
N 21 21 21 21 21 21
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
27 28
7
La distancia euclídea al cuadrado entre el caso 1 y el caso 2 es:
[(6 – 2)2 + (4 – 3)2 + (7 – 1)2 + (3 – 4)2 + (2 – 5)2 + (3 – 4)2] = 64
31 32
8
Historial de conglomeración
Historial de conglomeración
Etapa en la que el conglomerado
Conglomerado que se combina aparece por primera vez Etapa en la que el conglomerado
Próxima
Conglomerado que se combina aparece por primera vez Próxima
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8
2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7
3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7
4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14
5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9
6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15
7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10
8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11
9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12
10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13
11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16
12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14
13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15
14 2 5 10.750 4 12 19
15 14 2 5 10.750 4 12 19
1 3 11.667 13 6 17
16 15 1 3 11.667 13 6 17
4 10 11.750 11 0 18
17 16 4 10 11.750 11 0 18
1 15 14.125 15 0 20
18 17 1 15 14.125 15 0 20
4 18 22.600 16 0 19
19 18 4 18 22.600 16 0 19
2 4 37.944 14 18 20
20 19 2 4 37.944 14 18 20
1 2 46.389 17 19 0
20 1 2 46.389 17 19 0
Esta tabla muestra como los casos son “aglomerados” en cada etapa Los casos 5 y 11 se unen en un conglomerado en la etapa 5
del análisis de cluster. 33 34
Historial de conglomeración
Historial de conglomeración
Etapa en la que el conglomerado
Etapa en la que el conglomerado Conglomerado que se combina aparece por primera vez Próxima
Conglomerado que se combina aparece por primera vez Próxima Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa 1 14 16 2.000 0 0 8
1 14 16 2.000 0 0 8 2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7 3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7 4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14 5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9 6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15 7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10 8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11 9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12 10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13 11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16 12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14 13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15 14 2 5 10.750 4 12 19
14 2 5 10.750 4 12 19 15 1 3 11.667 13 6 17
15 1 3 11.667 13 6 17 16 4 10 11.750 11 0 18
16 4 10 11.750 11 0 18 17 1 15 14.125 15 0 20
17 1 15 14.125 15 0 20 18 4 18 22.600 16 0 19
18 4 18 22.600 16 0 19 19 2 4 37.944 14 18 20
19 2 4 37.944 14 18 20 20 1 2 46.389 17 19 0
20 1 2 46.389 17 19 0
Cuando conglomerados o casos son unidos, el nuevo cluster es La columna de coeficientes indica la distancia entre los dos cluster
etiquetado con el número menor de etiqueta de los dos cluster. o casos en cada etapa. La “distancia” es la elegida según el
35 36
método
9
Historial de conglomeración
Conglomerado de pertenencia
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
39 40
10
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
Label Num +---------+---------+---------+---------+---------+
14 òûòø
14 òûòø 16 ò÷ ùòø Aquí hay similitud
16 ò÷ ùòø 4 òòò÷ ùòòòòòø
òòò÷ ùòòòòòø
Note como las
4
19 òòòòò÷ ùòòòòòòòòòòòø
Las líneas 19
10
òòòòò÷
òòòòòòòòòòò÷
ùòòòòòòòòòòòø
ùòòòòòòòòòòòòòòòòòø
“ramas” se unen 10 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòø verticales que unen 18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
òòòòòòòòòòòòòòòòòòòòòòò÷ ó
los casos denotan òûòòòòòòòø ùòòòòòòòø
18
a medida que
2
2 òûòòòòòòòø ùòòòòòòòø 13 ò÷ ó ó ó
uno mira de 13 ò÷ ó ó ó similitud, cuando 5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
estas están a la ò÷ ùòòòø ó ó
5
izquierda a
11
11 ò÷ ùòòòø ó ó 9 òòò÷ ùò÷ ó
derecha 9 òòò÷ ùò÷ ó izquierda 20 òòòòòòò÷ ó
20 òòòòòòò÷ ó 3 òûòòòòòòòòòø ó
3 òûòòòòòòòòòø ó 8 ò÷ ó ó
8 ò÷ ó ó 6 òø ùòø ó
6 òø ùòø ó 7 òôòòòø ó ó ó
7 òôòòòø ó ó ó 12 òú ùòø ó ó ó
12 òú ùòø ó ó ó 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 1 òòòòò÷ ó ó
1 òòòòò÷ ó ó 17 òòòòòòò÷ ó
17 òòòòòòò÷ ó 15 òòòòòòòòòòòòò÷
15 òòòòòòòòòòòòò÷
41 42
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups) Dendrogram using Average Linkage (Between Groups)
C A S E 0 5 10 15 20 25 C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+ Label Num +---------+---------+---------+---------+---------+
14 òûòø 14 òûòø
similitud, cuando 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
convenientemente 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
estas están a la 11 ò÷ ùòòòø ó ó de 0 a 25 en este 11 ò÷ ùòòòø ó ó
derecha del 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 3 òûòòòòòòòòòø ó 3 òûòòòòòòòòòø ó
8 ò÷ ó ó 8 ò÷ ó ó
6 òø ùòø ó 6 òø ùòø ó
7 òôòòòø ó ó ó 7 òôòòòø ó ó ó
12 òú ùòø ó ó ó 12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó 1 òòòòò÷ ó ó
17 òòòòòòò÷ ó 17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷ 15 òòòòòòòòòòòòò÷
43 44
11
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
14 òûòø
16 ò÷ ùòø
4 òòò÷ ùòòòòòø
A la distancia 19 òòòòò÷ ùòòòòòòòòòòòø
indicada 10
18
òòòòòòòòòòò÷
òòòòòòòòòòòòòòòòòòòòòòò÷
ùòòòòòòòòòòòòòòòòòø
ó
formamos tres 2 òûòòòòòòòø ùòòòòòòòø
cluster que no 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
son similares 11 ò÷ ùòòòø ó ó
entre sí 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
3 òûòòòòòòòòòø ó
8 ò÷ ó ó
6 òø ùòø ó
7 òôòòòø ó ó ó
12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷
45 46
47 48
12
Caracterización de los clusters
Analizar – Tablas –
Tablas Personalizadas…
4
Lujuriosos Indiferentes Ahorradores
3
0 1 2 3 4 5 6 7 8 9 10
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
1. Los casos del cluster 1 tienen valores altos en las variables divertido,
aprovecho, medios en las variables presupuesto, buena compra, ahorro
y bajo en no importa.
2. Los casos del cluster 2 tienen valores altos sólo en la variables no importa,
medios en las variables presupuesto, buena compra, ahorro y bajo en
divertido, aprovecho.
3. Los casos del cluster 3 tienen valores altos en las variables presupuesto,
buena compra, ahorro, medios en las variables divertido, aprovecho, no 11 12 13 14 15 16 17 18 19 20 2152
51
importa y no tiene valores bajos.
13
Procedimiento del aná
análisis cluster no jerá
jerárquico
Análisis cluster no jerárquico Se determinan los centroides iniciales de los k
grupos, estos es, los valores medios de las variables
que caracterizan las observaciones en cada uno de
Es aquel donde se conoce a priori el esos grupos. Estos centroides se conocen como
número de grupos “k” que se desea, y las semillas.
observaciones son asignadas a cada uno Cada observación se asigna a aquel cluster, de entre
de esos “k” clusters de forma tal que los k existentes, cuyo centroide esté más cercano a
esa observación en términos de distancia euclídea.
maximiza la homogeneidad de los sujetos
Se recalculan los centroides de los k grupos de
asignados a un mismo grupo y la acuerdo con las observaciones que han sido
heterogeneidad entre los distintos clasificadas en casa uno de ellos. Si el cambio en los
clusters. centroides es mayor que un valor criterio de
convergencia preestablecido, se vuelve al paso 2,
finalizando el proceso cuando se cumpla el criterio
de convergencia o se supere un número prefijado de
53
iteraciones. 54
ANOVA
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Divertido 29.488 2 .602 18 48.996 .000
Presupuesto 10.250 2 .972 18 10.543 .001
Aprovecho 33.393 2 .787 18 42.429 .000
Buena compra 15.377 2 .725 18 21.201 .000
No importa 22.071 2 .833 18 26.486 .000
Ahorro 11.810 2 1.074 18 10.995 .001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes
conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse
como pruebas de la hipótesis de que los centros de los conglomerados son iguales.
14
Asociación entre las dos variables cluster Tabla de contingencia Average Linkage (Between Groups)
Number of Case
* Cluster
Recuento
Analizar – Estadísticos Descriptivos – Tablas de Contingencia… Cluster Number of Case
1 2 3 Total
Average Linkage 1 0 0 9 9
(Between Groups) 2 0 6 0 6
3 6 0 0 6
Total 6 6 9 21
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 42.000a 4 .000
Razón de verosimilitudes 45.318 4 .000
Asociación lineal por
20.000 1 .000
lineal
N de casos válidos 21
a. 9 casillas (100.0%) tienen una frecuencia esperada inferior a
5. La frecuencia mínima esperada es 1.71.
57 58
Componente
1 2
Divertido .961 -.022
Presupuesto .085 .761
Aprovecho .915 -.140
Buena compra -.172 .841
No importa -.922 -.129
Ahorro .131 .840
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
59 60
15
61 62
Ahorradores
63 64
16
Segmentación de Mercados Posicionamiento de Productos
La finalidad del AC es descubrir, entre los El AC se realiza con el fin de poder
consumidores, grupos de individuos reagruparlos, en un cierto número de
(segmentos), cuyos comportamientos, clases o tipos, en función de la actitud de
actitudes y hábitos sean similares; con el los consumidores ante los mismos.
objeto de poder diseñar estrategias que se El conocimiento de estos tipos permite,
adapten perfectamente a cada uno de los para cada marca, aislar a sus
competidores y modificar su política
segmentos de la población estudiada comercial en consecuencia.
65 66
Bibliografía
Campo de publicidad
1. Luque, Teodoro & otros. “Técnicas de análisis
de datos en investigación de mercados”.
El AC se realiza con el fin de poder Ediciones Pirámide. 2000. España
obtener grupos de medios (periódicos, 2. Pedret, Ramón & otros. “Herramientas para
revistas, programas de TV, etc.) similares segmentar mercados y posicionar productos:
en cuanto a su audiencia. análisis de información cuantitativa en
investigación comercial”. Ediciones Deusto.
El AC se aplica para obtener temas 2000. España.
publicitarios en función de similitudes 3. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
semánticas percibidas por los Multivariante Aplicado. Aplicaciones al
entrevistados entre las diversas palabras marketing, investigación de mercados,
que describen a un producto. economía, dirección de empresas y turismo”.
Editorial Thomson. 2005. España.
4. Gondar, Emilio. Data Mining Institute
67
www.estadistico.com. 2004 68
17