Analisis de Cluster - Prof Salinas (TM)

Universidad Nacional Agraria La Molina
Dpto. de Estadística e Informática

Estadística Aplicada a la Economía y los Negocios II
Unidad IV
Análisis Cluster
Mg.
Mg. Jesú
Jesús Salinas Flores jsalinas@lamolina.edu.pe 2
Ejemplo (Uriel, 2005):

El responsable de marketing tiene una BDD con
Introducción
las características sociodemográficas de sus
clientes: edad, nivel educativo, nivel de El análisis cluster es una técnica diseñada para
ingresos, estado civil, ocupación, número de clasificar tantas observaciones en grupos de tal
hijos, etc. forma que:
Se plantea si pudiera dividir a sus clientes en Cada grupo (conglomerado o cluster) sea
subgrupos que tuvieran características homogéneo respecto a las variables utilizadas
sociodemográficas similares entre sí, pero que para caracterizarlos; es decir, que cada
fueran lo más diferentes posible unos subgrupos observación contenida en él sea parecida a
de otros. todas las que estén incluidas en ese grupo.
Si fuera posible, se podría diseñar campañas de
publicidad distintas para cada grupo, con Que los grupos sean lo más distintos posible
creatividades diferentes o utilizando diarios, unos de otros respecto a las variables
revistas o cadenas de televisión distintas según consideradas.
el grupo al que fuera dirigida la campaña 3 4
1
Clasificación de los métodos cluster ¿Cómo realizar el análisis cluster?
(Jerárquico Aglomerativo)
Divisivos
Métodos Jerá
Jerárquicos
Aglomerativos
Métodos Cluster
Reasignació
Reasignación
Búsqueda de la densidad
Métodos No Jerá
Jerárquicos Directos
Reducció
Reducción de dimensiones
5 6
…Procedimiento del ACJA

Procedimiento del ACJA…
3. Se crean grupos, de forma que cada
1. Se tienen n observaciones (individuos, grupo contenga aquellas observaciones
empresas, etc.) de los que se tiene que más se parezcan entre sí. Hay dos
información sobre p variables (edad, tipos de AC: jerárquico y no jerárquico. A
estado civil, número de hijos, etc) su vez, en cada tipo se pueden utilizar
distintos métodos de agrupación y
2. Se establece un indicador que nos diga conglomeración.
en qué medida cada par de
observaciones se parece entre sí. A este 4. Se debe describir los grupos que se ha
medida se le denomina distancia o obtenido y compararlos unos con los
similaridad. otros. Para ello bastará con ver qué
valores promedio toman las p variables
utilizadas en el AC en cada uno de los g
7 grupos obtenidos (g ≤ n) 8
2
Procedimiento del Análisis Cluster
Estandarización de los datos
Las medidas de similaridad son muy
sensibles a las unidades que estén
medidas dichas variables.
Para evitar esta influencia no deseable de
una variable debida exclusivamente a la
unidad en que viene medida, es necesario
corregir el efecto de los datos recurriendo
a un proceso de estandarización.
Xi − X
Puntuaciones Z Zi =
9 Si 10
Medidas de distancia Formación de los grupos:

Distancia euclidiana: es la raíz
análisis cluster jerárquico
cuadrada de la suma de las diferencias Una vez que mediante la matriz de
al cuadrado entre los dos elementos en distancias, se sabe que observaciones están
la variable o variables consideradas
más próximas entre sí, y más distantes de
D(X, Y) = ∑ (X − Yi )2
otras, es necesario formar los grupos.
i
Distancia euclidiana al cuadrado

Ello implica tomar dos decisiones:
D2 (X, Y) = ∑ (X i − Yi )2
Selección del algoritmo de agrupación que
Distancia métrica de Chebychev: es
la referencia máxima en valores se elige
absolutos entre los valores de los Determinación de un número de grupos o
elementos D(X, Y) = Max X − Y clusters.
i i i
11 12
3
Algoritmos de Agrupamiento Métodos de Enlace o Agrupamiento
Método del vecino más cercano

(vinculación simple)
Método del vecino más lejano
(vinculación completa)
Método de la vinculación promedio o
intergrupos
Método del centroide
(vinculación de centroides)
Método de Ward
13 14
X1 X2
Ejemplo Nº 1: A 1 2
(A,B)
(A,B)
0
C
2
D
4.24
E
3.61
F
2.24
B 2 1
C 2 0 3.16 4.12 2.24
C 4 1 D 4.24 3.16 0 2.24 2.24
D 5 4 E 3.61 4.12 2.24 0 2
E 3 5 F 2.24 2.24 2.24 2 0
F 3 3
A B C D E F (A,B) C D (E,F)
A 0 1.41 3.16 4.47 3.61 2.24
B 1.41 0 2 4.24 4.12 2.24
(A,B) 0 2 4.24 2.24
C 3.16 2 0 3.16 4.12 2.24
D 4.47 4.24 3.16 0 2.24 2.24
C 2 0 3.16 2.24
E 3.61 4.12 4.12 2.24 0 2
F 2.24 2.24 2.24 2.24 2 0 D 4.24 3.16 0 2.24
(E,F) 2.24 2.24 2.24 0
15 16
4
Salida con el SPSS
Historial de conglomeración
(A,B,C) D (E,F)
Etapa en la que el conglomerado
(A,B,C) 0 3,16 2.24 Conglomerado que se combina aparece por primera vez Próxima
D 3,16 0 2.24 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 1 2 1.414 0 0 3
(E,F) 2.24 2.24 0 2 5 6 2.000 0 0 4
3 1 3 2.000 1 0 5
4 4 5 2.236 0 2 5
5 1 4 2.236 3 4 0
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
(A,B,C,E,F) D
Dendrogram using Single Linkage
(A,B,C,E,F) 0 2,24 Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
D 2,24 0 Label Num +---------+---------+---------+---------+---------+
A 1 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
B 2 ò÷ ùòòòòòòòòòòòòòø
C 3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
E 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòú
F 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
17 18
D 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
Selección del número de

conglomerados de la solución
Diagrama de témpanos vertical El SPSS sólo ofrece el dendograma como
Caso herramienta de apoyo
Número de Debe detenerse el proceso de fusión cuando los
4:D
3:C
5:E
2:B
1:A
6:F
conglomerados grupos que se han de unir están a una distancia

1 X X X X X X X X X X X
significativamente mayor de los que
2
3
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
previamente se han fusionado.
4 X X X X X X X X Se debe realizar el cálculo de las tasas de
5 X X X X X X X variación entre los coeficientes de aglomeración
obtenidos entre etapas sucesivas. Cuando una
tasa de variación sea drásticamente superior a la
anterior, será el momento de detener las
fusiones.
19 20
5
Utilización de los indicadores
Otros indicadores Estadí
Estadístico Concepto Medido Comentarios
Raíz cuadrada de la media de las RMSSTD Homogeneidad del El valor debe ser
desviaciones típicas del nuevo nuevo conglomerado pequeño
conglomerado (RMSSTD) SPR Homogeneidad de los El valor debe ser
R2 semiparcial (SPR) conglomerados pequeño
fusionados
R cuadrado (RS)
RS Heterogeneidad entre El valor debe ser
Distancia entre los conglomerados (DC)
conglomerados grande
CD Homogeneidad de los El valor debe ser
conglomerados pequeño
21 fusionados 22
Ejemplo de Aplicación Nº 2 (Gondar, 2004) La información que se requirió de estas 21 personas es la siguiente:
A este grupo de personas que se tiene
• Salir de compras es divertido

• Salir de compras afecta el presupuesto
… se le medirá una serie de atributos de tipo métrico, y conforme a De una escala del 1 al 7, donde 1 es • Al salir de compras aprovecho de comer fuera
estos atributos se van a clasificar a estas personas en grupos o desacuerdo y 7 de acuerdo, de su • Al salir a comprar trato de hacer las mejores
categorías de tal forma que dentro de cada grupo las unidades grado de conformidad a las siguientes
• No me importa salir de compras
muestrales sean lo más homogénea posible, y entre los grupos estas afirmaciones
• Al salir de compra voy a ahorrar si comparo precios
unidades, comparativamente, sean lo más heterogénea posibles.
23 24
6
Atributos Variables
• Salir de compras es divertido divertido
• Salir de compras afecta el presupuesto presupuesto
• Al salir de compras aprovecho de comer fuera aprovecho
• Al salir a comprar trato de hacer las mejores buenacompra

• No me importa salir de compras noimporta
• Al salir de compra voy a ahorrar si comparo precios. ahorro
25 26
Evaluación de la aplicabilidad del AC Se define una medida de “similitud”, puesto que esta medida de similitud
nos puede entregar una pauta para formar conglomerados (cluster)
Analizar – Correlaciones - Bivariadas… homogéneos.
Correlaciones
Buena
Divertido Presupuesto Aprovecho compra No importa Ahorro
Divertido Correlación de Pearson 1 .058 .839** -.105 -.874** .032
Sig. (bilateral) .802 .000 .650 .000 .890
N 21 21 21 21 21 21
Presupuesto Correlación de Pearson .058 1 -.018 .441* -.127 .470*
Sig. (bilateral) .802 .938 .045 .585 .031 ¿Qué “distancia” hay
entre el caso i y el
N 21 21 21 21 21 21
Aprovecho Correlación de Pearson .839** -.018 1 -.304 -.714** .061
Sig. (bilateral) .000 .938 .181 .000 .792 caso j?
N 21 21 21 21 21 21
Buena compra Correlación de Pearson -.105 .441* -.304 1 .022 .582**
Sig. (bilateral) .650 .045 .181 .923 .006
N 21 21 21 21 21 21
No importa Correlación de Pearson -.874** -.127 -.714** .022 1 -.207
Sig. (bilateral) .000 .585 .000 .923 .368
N 21 21 21 21 21 21
Ahorro Correlación de Pearson .032 .470* .061 .582** -.207 1
Sig. (bilateral) .890 .031 .792 .006 .368
N 21 21 21 21 21 21
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
27 28
7
La distancia euclídea al cuadrado entre el caso 1 y el caso 2 es:
[(6 – 2)2 + (4 – 3)2 + (7 – 1)2 + (3 – 4)2 + (2 – 5)2 + (3 – 4)2] = 64
Nota: se pueden utilizar otras “distancias”. A menor distancia mayor

29 30
similaridad
31 32
8
Conglomerado que se combina aparece por primera vez Etapa en la que el conglomerado
Próxima
Conglomerado que se combina aparece por primera vez Próxima
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8
2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7
3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7
4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14
5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9
6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15
7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10
8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11
9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12
10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13
11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16
12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14
13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15
14 2 5 10.750 4 12 19
15 14 2 5 10.750 4 12 19
1 3 11.667 13 6 17
16 15 1 3 11.667 13 6 17
4 10 11.750 11 0 18
17 16 4 10 11.750 11 0 18
1 15 14.125 15 0 20
18 17 1 15 14.125 15 0 20
4 18 22.600 16 0 19
19 18 4 18 22.600 16 0 19
2 4 37.944 14 18 20
20 19 2 4 37.944 14 18 20
1 2 46.389 17 19 0
20 1 2 46.389 17 19 0
Esta tabla muestra como los casos son “aglomerados” en cada etapa Los casos 5 y 11 se unen en un conglomerado en la etapa 5
del análisis de cluster. 33 34
Etapa en la que el conglomerado Conglomerado que se combina aparece por primera vez Próxima
Conglomerado que se combina aparece por primera vez Próxima Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa 1 14 16 2.000 0 0 8
1 14 16 2.000 0 0 8 2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7 3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7 4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14 5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9 6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15 7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10 8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11 9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12 10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13 11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16 12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14 13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15 14 2 5 10.750 4 12 19
14 2 5 10.750 4 12 19 15 1 3 11.667 13 6 17
15 1 3 11.667 13 6 17 16 4 10 11.750 11 0 18
16 4 10 11.750 11 0 18 17 1 15 14.125 15 0 20
17 1 15 14.125 15 0 20 18 4 18 22.600 16 0 19
18 4 18 22.600 16 0 19 19 2 4 37.944 14 18 20
19 2 4 37.944 14 18 20 20 1 2 46.389 17 19 0
20 1 2 46.389 17 19 0
Cuando conglomerados o casos son unidos, el nuevo cluster es La columna de coeficientes indica la distancia entre los dos cluster
etiquetado con el número menor de etiqueta de los dos cluster. o casos en cada etapa. La “distancia” es la elegida según el
35 36
método
9
Etapa en la que el conglomerado Esta

Conglomerado que se combina aparece por primera vez Próxima parte de
la tabla
Etapa en la que el conglomerado Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
Conglomerado que se combina aparece por primera vez Próxima 1 14 16 2.000 0 0 8
Tres cluster Etapa
1
Conglomerado 1
14
Conglomerado 2
16
Coeficientes
2.000
Conglomerado 1
0
Conglomerado 2
0
etapa
8
2 6 7 2.000 0 0 7 muestra
permanecen 2 6 7 2.000 0 0 7 3 12 21 3.000 0 0 7 la etapa
3 12 21 3.000 0 0 7 4 2 13 3.000 0 0 14 en que
después de la 4 2 13 3.000 0 0 14 5 5 11 3.000 0 0 9 aparece
etapa 18. Lo
5 5 11 3.000 0 0 9 6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15
7 6 12 3.500 2 3 10
por
indicado es 7
8
6
4
12
14
3.500
4.000
2
0
3
1
10
11
8 4 14 4.000 0 1 11 primera
formar 3 cluster 9 5 9 4.500 5 0 12 9 5 9 4.500 5 0 12 vez un
10 10 1 6 5.750 0 7 13 cluster.
como solución
1 6 5.750 0 7 13
11 4 19 7.000 8 0 16 11 4 19 7.000 8 0 16
12 5 20 7.333 9 0 14 12 5 20 7.333 9 0 14 Y los
valores
13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15
14 2 5 10.750 4 12 19
15 1 3 11.667 13 6 17
14 2 5 10.750 4 12 19 “0”
15
16 4 10 11.750 11 0 18 1 3 11.667 13 6 17
indican
17 1 15 14.125 15 0 20 16 4 10 11.750 11 0 18
18 4 18 22.600 16 0 19 17 1 15 14.125 15 0 20
que el
19 2 4 37.944 14 18 20 18 4 18 22.600 16 0 19 cluster
20 1 2 46.389 17 19 0
19 2 4 37.944 14 18 20 es aún
20 1 2 46.389 17 19 0 un
“caso”
Aquí hay un “salto súbito” en la El cluster 6 (que ya no es un “caso”) apareció por primera
“buena solución”
creación de un nuevo cluster vez en la etapa 2, y volverá a aparecer en la etapa 10.
37 38
Conglomerado de pertenencia
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Ahora, si se ha decidido formar tres

3
Dendrogram using Average Linkage (Between Groups)
conglome
Caso
1
rados cluster o conglomerados, dando las Rescaled Distance Cluster Combine
1
2 2 instrucciones pertinentes al software C A S E
Label Num
0 5 10 15 20 25
+---------+---------+---------+---------+---------+
3 1 deberá aparecer esta solución de 14 òûòø
4
5
3
pertenencia. 16 ò÷ ùòø
2
4 òòò÷ ùòòòòòø
6 1
7 1
El dendograma o 19
10
òòòòò÷
òòòòòòòòòòò÷
ùòòòòòòòòòòòø
ùòòòòòòòòòòòòòòòòòø
8 1
Esto es, las personas que tienen las “etiquetas” diagrama de 18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
9 2
{1, 3, 6, 7, 8, 12, 15, 17 y 21} pertenecen al árbol muestra la 2 òûòòòòòòòø
ò÷ ó
ùòòòòòòòø
ó ó
10 3 13
11 2 conglomerado 1. similitud relativa 5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
12 1 entre los casos 11 ò÷ ùòòòø ó

òòò÷ ùò÷
ó
ó
Las personas etiquetadas con {2, 5, 9, 11, 13,
9
13 2
20 òòòòòòò÷ ó
14
15
3
1
y 20} pertenecen al conglomerado 2. 3 òûòòòòòòòòòø ó
8 ò÷ ó ó
16
17
3
1
Y las personas etiquetadas con {4,10,14,16,18 6
7
òø
òôòòòø
ùòø
ó ó
ó
ó
18 3 y 19} pertenecen al conglomerado 3. 12 òú ùòø ó ó ó
19 3 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
20 2
21 1
15 òòòòòòòòòòòòò÷
39 40
10
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
Label Num +---------+---------+---------+---------+---------+
14 òûòø
14 òûòø 16 ò÷ ùòø Aquí hay similitud
16 ò÷ ùòø 4 òòò÷ ùòòòòòø
òòò÷ ùòòòòòø
Note como las
4
19 òòòòò÷ ùòòòòòòòòòòòø
Las líneas 19
10
òòòòò÷
ùòòòòòòòòòòòø
“ramas” se unen 10 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòø verticales que unen 18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
òòòòòòòòòòòòòòòòòòòòòòò÷ ó
los casos denotan òûòòòòòòòø ùòòòòòòòø
18
a medida que
2
2 òûòòòòòòòø ùòòòòòòòø 13 ò÷ ó ó ó
uno mira de 13 ò÷ ó ó ó similitud, cuando 5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
estas están a la ò÷ ùòòòø ó ó
5
izquierda a
11
11 ò÷ ùòòòø ó ó 9 òòò÷ ùò÷ ó
derecha 9 òòò÷ ùò÷ ó izquierda 20 òòòòòòò÷ ó
20 òòòòòòò÷ ó 3 òûòòòòòòòòòø ó
3 òûòòòòòòòòòø ó 8 ò÷ ó ó
8 ò÷ ó ó 6 òø ùòø ó
6 òø ùòø ó 7 òôòòòø ó ó ó
7 òôòòòø ó ó ó 12 òú ùòø ó ó ó
12 òú ùòø ó ó ó 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 1 òòòòò÷ ó ó
1 òòòòò÷ ó ó 17 òòòòòòò÷ ó
17 òòòòòòò÷ ó 15 òòòòòòòòòòòòò÷
41 42
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups) Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+ Label Num +---------+---------+---------+---------+---------+
14 òûòø 14 òûòø
Las líneas 16 ò÷ ùòø Aquí no hay similitud 16 ò÷ ùòø

4 òòò÷ ùòòòòòø 4 òòò÷ ùòòòòòø
verticales que 19 òòòòò÷ ùòòòòòòòòòòòø Las distancias entre 19 òòòòò÷ ùòòòòòòòòòòòø
unen los casos no 10

18
òòòòòòòòòòòòòòòòòòòòòòò÷
ó
cluster están 10
18
ó
describen 2 òûòòòòòòòø ùòòòòòòòø escaladas 2 òûòòòòòòòø ùòòòòòòòø
similitud, cuando 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
convenientemente 13
5
ò÷
òûòø
ó
ó ó
ó
estas están a la 11 ò÷ ùòòòø ó ó de 0 a 25 en este 11 ò÷ ùòòòø ó ó
derecha del 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 3 òûòòòòòòòòòø ó 3 òûòòòòòòòòòø ó
8 ò÷ ó ó 8 ò÷ ó ó
6 òø ùòø ó 6 òø ùòø ó
7 òôòòòø ó ó ó 7 òôòòòø ó ó ó
12 òú ùòø ó ó ó 12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó 1 òòòòò÷ ó ó
17 òòòòòòò÷ ó 17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷ 15 òòòòòòòòòòòòò÷
43 44
11
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
14 òûòø
16 ò÷ ùòø
4 òòò÷ ùòòòòòø
A la distancia 19 òòòòò÷ ùòòòòòòòòòòòø
indicada 10
18
ó
formamos tres 2 òûòòòòòòòø ùòòòòòòòø
cluster que no 13
5
ò÷
òûòø
ó
ó ó
ó
son similares 11 ò÷ ùòòòø ó ó
entre sí 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
3 òûòòòòòòòòòø ó
8 ò÷ ó ó
6 òø ùòø ó
7 òôòòòø ó ó ó
12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
45 46
Análisis de tablas de frecuencias Gráfico de Líneas

Gráficos – Generador de gráficos…
Average Average Average Average Average Average Average

Linkage Linkage Linkage Linkage Linkage Linkage Linkage
(Between (Between (Between (Between (Between (Between (Between
Groups) Groups) Groups) Groups) Groups) Groups) Groups)
Count Count Count Count Count Count Count
1 6 6 8 8 9 9 9
2 2 6 6 6 6 6 12
3 2 2 4 5 5 6
4 4 4 1 1 1
5 4 1 1 1
6 1 1 1
7 1 1
8 1
47 48
12
Caracterización de los clusters
Analizar – Tablas –
Tablas Personalizadas…
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro

Media Media Media Media Media Media
Average Linkage 1 5.667 3.667 6.000 3.222 2.000 4.000
(Between 2 1.667 3.000 1.833 3.500 5.500 3.333
Groups) 3 3.500 5.500 3.333 6.000 3.500 6.000
49 Total 3.905 4.000 4.048 4.095 3.429 50
4.381
Divertidos Pasan de todo Cuidan presupuesto

7
innovadores Les da lo mismo 8 que 80 Buscan mejor compra
6
4
Lujuriosos Indiferentes Ahorradores
3
0 1 2 3 4 5 6 7 8 9 10
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro
Cluster 1 Cluster 2 Cluster 3 Promedio
1. Los casos del cluster 1 tienen valores altos en las variables divertido,
aprovecho, medios en las variables presupuesto, buena compra, ahorro
y bajo en no importa.
2. Los casos del cluster 2 tienen valores altos sólo en la variables no importa,
medios en las variables presupuesto, buena compra, ahorro y bajo en
divertido, aprovecho.
3. Los casos del cluster 3 tienen valores altos en las variables presupuesto,
buena compra, ahorro, medios en las variables divertido, aprovecho, no 11 12 13 14 15 16 17 18 19 20 2152
51
importa y no tiene valores bajos.
13
Procedimiento del aná
análisis cluster no jerá
jerárquico
Análisis cluster no jerárquico Se determinan los centroides iniciales de los k
grupos, estos es, los valores medios de las variables
que caracterizan las observaciones en cada uno de
Es aquel donde se conoce a priori el esos grupos. Estos centroides se conocen como
número de grupos “k” que se desea, y las semillas.
observaciones son asignadas a cada uno Cada observación se asigna a aquel cluster, de entre
de esos “k” clusters de forma tal que los k existentes, cuyo centroide esté más cercano a
esa observación en términos de distancia euclídea.
maximiza la homogeneidad de los sujetos
Se recalculan los centroides de los k grupos de
asignados a un mismo grupo y la acuerdo con las observaciones que han sido
heterogeneidad entre los distintos clasificadas en casa uno de ellos. Si el cambio en los
clusters. centroides es mayor que un valor criterio de
convergencia preestablecido, se vuelve al paso 2,
finalizando el proceso cuando se cumpla el criterio
de convergencia o se supere un número prefijado de
53
iteraciones. 54
ANOVA
Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Divertido 29.488 2 .602 18 48.996 .000
Presupuesto 10.250 2 .972 18 10.543 .001
Aprovecho 33.393 2 .787 18 42.429 .000
Buena compra 15.377 2 .725 18 21.201 .000
No importa 22.071 2 .833 18 26.486 .000
Ahorro 11.810 2 1.074 18 10.995 .001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes
conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse
como pruebas de la hipótesis de que los centros de los conglomerados son iguales.
Número de casos en cada conglomerado

Conglomerado 1 6.000
2 6.000
3 9.000
Válidos 21.000
Perdidos 6.000
55 56
14
Asociación entre las dos variables cluster Tabla de contingencia Average Linkage (Between Groups)
Number of Case
* Cluster
Recuento
Analizar – Estadísticos Descriptivos – Tablas de Contingencia… Cluster Number of Case
1 2 3 Total
Average Linkage 1 0 0 9 9
(Between Groups) 2 0 6 0 6
3 6 0 0 6
Total 6 6 9 21
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 42.000a 4 .000
Razón de verosimilitudes 45.318 4 .000
Asociación lineal por
20.000 1 .000
lineal
N de casos válidos 21
a. 9 casillas (100.0%) tienen una frecuencia esperada inferior a
5. La frecuencia mínima esperada es 1.71.
57 58
Segmentación usando Análisis Factorial

Matriz de componentesa
Componente
1 2
Divertido .961 -.022
Presupuesto .085 .761
Aprovecho .915 -.140
Buena compra -.172 .841
No importa -.922 -.129
Ahorro .131 .840
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
59 60
15
61 62
Aplicaciones del análisis cluster

Lujuriosos Segmentación de mercados
Posicionamiento de marcas
Indiferentes Nuevos productos

Selección de medios publicitarios
Ahorradores
63 64
16
Segmentación de Mercados Posicionamiento de Productos
La finalidad del AC es descubrir, entre los El AC se realiza con el fin de poder
consumidores, grupos de individuos reagruparlos, en un cierto número de
(segmentos), cuyos comportamientos, clases o tipos, en función de la actitud de
actitudes y hábitos sean similares; con el los consumidores ante los mismos.
objeto de poder diseñar estrategias que se El conocimiento de estos tipos permite,
adapten perfectamente a cada uno de los para cada marca, aislar a sus
competidores y modificar su política
segmentos de la población estudiada comercial en consecuencia.
65 66
Bibliografía
Campo de publicidad
1. Luque, Teodoro & otros. “Técnicas de análisis
de datos en investigación de mercados”.
El AC se realiza con el fin de poder Ediciones Pirámide. 2000. España
obtener grupos de medios (periódicos, 2. Pedret, Ramón & otros. “Herramientas para
revistas, programas de TV, etc.) similares segmentar mercados y posicionar productos:
en cuanto a su audiencia. análisis de información cuantitativa en
investigación comercial”. Ediciones Deusto.
El AC se aplica para obtener temas 2000. España.
publicitarios en función de similitudes 3. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
semánticas percibidas por los Multivariante Aplicado. Aplicaciones al
entrevistados entre las diversas palabras marketing, investigación de mercados,
que describen a un producto. economía, dirección de empresas y turismo”.
Editorial Thomson. 2005. España.
4. Gondar, Emilio. Data Mining Institute
67
www.estadistico.com. 2004 68
17

Analisis de Cluster - Prof Salinas (TM)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Cluster - Prof Salinas (TM)

Uploaded by

Copyright:

Available Formats

Universidad Nacional Agraria La Molina

Dpto. de Estadística e Informática

Ejemplo (Uriel, 2005):

…Procedimiento del ACJA

Medidas de distancia Formación de los grupos:

 Distancia euclidiana al cuadrado

 Método del vecino más cercano

(A,B,C,E,F) 0 2,24 Rescaled Distance Cluster Combine

Selección del número de

conglomerados grupos que se han de unir están a una distancia

• Salir de compras es divertido

• Salir de compras afecta el presupuesto presupuesto

• Al salir de compras aprovecho de comer fuera aprovecho

• Al salir a comprar trato de hacer las mejores buenacompra

Nota: se pueden utilizar otras “distancias”. A menor distancia mayor

Etapa en la que el conglomerado Esta

Ahora, si se ha decidido formar tres

12 1 entre los casos 11 ò÷ ùòòòø ó

Rescaled Distance Cluster Combine Rescaled Distance Cluster Combine

Las líneas 16 ò÷ ùòø Aquí no hay similitud 16 ò÷ ùòø

unen los casos no 10

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

Análisis de tablas de frecuencias Gráfico de Líneas

Average Average Average Average Average Average Average

Divertido Presupuesto Aprovecho Buena compra No importa Ahorro

Divertidos Pasan de todo Cuidan presupuesto

Cluster 1 Cluster 2 Cluster 3 Promedio

Número de casos en cada conglomerado

Segmentación usando Análisis Factorial

Aplicaciones del análisis cluster

Indiferentes  Nuevos productos

You might also like

Distancia euclidiana al cuadrado

Método del vecino más cercano

Indiferentes Nuevos productos