You are on page 1of 17

Universidad Nacional Agraria La Molina

Dpto. de Estadística e Informática


Estadística Aplicada a la Economía y los Negocios II

Unidad IV

Análisis Cluster

Mg.
Mg. Jesú
Jesús Salinas Flores jsalinas@lamolina.edu.pe 2

Ejemplo (Uriel, 2005):


„ El responsable de marketing tiene una BDD con
Introducción
las características sociodemográficas de sus
clientes: edad, nivel educativo, nivel de „ El análisis cluster es una técnica diseñada para
ingresos, estado civil, ocupación, número de clasificar tantas observaciones en grupos de tal
hijos, etc. forma que:
„ Se plantea si pudiera dividir a sus clientes en … Cada grupo (conglomerado o cluster) sea
subgrupos que tuvieran características homogéneo respecto a las variables utilizadas
sociodemográficas similares entre sí, pero que para caracterizarlos; es decir, que cada
fueran lo más diferentes posible unos subgrupos observación contenida en él sea parecida a
de otros. todas las que estén incluidas en ese grupo.
„ Si fuera posible, se podría diseñar campañas de
publicidad distintas para cada grupo, con … Que los grupos sean lo más distintos posible
creatividades diferentes o utilizando diarios, unos de otros respecto a las variables
revistas o cadenas de televisión distintas según consideradas.
el grupo al que fuera dirigida la campaña 3 4

1
Clasificación de los métodos cluster ¿Cómo realizar el análisis cluster?
(Jerárquico Aglomerativo)
Divisivos

Métodos Jerá
Jerárquicos
Aglomerativos

Métodos Cluster

Reasignació
Reasignación
Búsqueda de la densidad
Métodos No Jerá
Jerárquicos Directos
Reducció
Reducción de dimensiones

5 6

…Procedimiento del ACJA


Procedimiento del ACJA…
3. Se crean grupos, de forma que cada
1. Se tienen n observaciones (individuos, grupo contenga aquellas observaciones
empresas, etc.) de los que se tiene que más se parezcan entre sí. Hay dos
información sobre p variables (edad, tipos de AC: jerárquico y no jerárquico. A
estado civil, número de hijos, etc) su vez, en cada tipo se pueden utilizar
distintos métodos de agrupación y
2. Se establece un indicador que nos diga conglomeración.
en qué medida cada par de
observaciones se parece entre sí. A este 4. Se debe describir los grupos que se ha
medida se le denomina distancia o obtenido y compararlos unos con los
similaridad. otros. Para ello bastará con ver qué
valores promedio toman las p variables
utilizadas en el AC en cada uno de los g
7 grupos obtenidos (g ≤ n) 8

2
Procedimiento del Análisis Cluster
Estandarización de los datos
„ Las medidas de similaridad son muy
sensibles a las unidades que estén
medidas dichas variables.
„ Para evitar esta influencia no deseable de
una variable debida exclusivamente a la
unidad en que viene medida, es necesario
corregir el efecto de los datos recurriendo
a un proceso de estandarización.
Xi − X
Puntuaciones Z Zi =
9 Si 10

Medidas de distancia Formación de los grupos:


„ Distancia euclidiana: es la raíz
análisis cluster jerárquico
cuadrada de la suma de las diferencias „ Una vez que mediante la matriz de
al cuadrado entre los dos elementos en distancias, se sabe que observaciones están
la variable o variables consideradas
más próximas entre sí, y más distantes de
D(X, Y) = ∑ (X − Yi )2
otras, es necesario formar los grupos.
i

„ Distancia euclidiana al cuadrado


„ Ello implica tomar dos decisiones:
D2 (X, Y) = ∑ (X i − Yi )2
…Selección del algoritmo de agrupación que
„ Distancia métrica de Chebychev: es
la referencia máxima en valores se elige
absolutos entre los valores de los …Determinación de un número de grupos o
elementos D(X, Y) = Max X − Y clusters.
i i i
11 12

3
Algoritmos de Agrupamiento Métodos de Enlace o Agrupamiento

„ Método del vecino más cercano


(vinculación simple)
„ Método del vecino más lejano
(vinculación completa)
„ Método de la vinculación promedio o
intergrupos
„ Método del centroide
(vinculación de centroides)
„ Método de Ward
13 14

X1 X2

Ejemplo Nº 1: A 1 2
(A,B)
(A,B)
0
C
2
D
4.24
E
3.61
F
2.24
B 2 1
C 2 0 3.16 4.12 2.24
C 4 1 D 4.24 3.16 0 2.24 2.24
D 5 4 E 3.61 4.12 2.24 0 2
E 3 5 F 2.24 2.24 2.24 2 0
F 3 3

A B C D E F (A,B) C D (E,F)
A 0 1.41 3.16 4.47 3.61 2.24
B 1.41 0 2 4.24 4.12 2.24
(A,B) 0 2 4.24 2.24
C 3.16 2 0 3.16 4.12 2.24
D 4.47 4.24 3.16 0 2.24 2.24
C 2 0 3.16 2.24
E 3.61 4.12 4.12 2.24 0 2
F 2.24 2.24 2.24 2.24 2 0 D 4.24 3.16 0 2.24
(E,F) 2.24 2.24 2.24 0

15 16

4
Salida con el SPSS
Historial de conglomeración
(A,B,C) D (E,F)
Etapa en la que el conglomerado
(A,B,C) 0 3,16 2.24 Conglomerado que se combina aparece por primera vez Próxima
D 3,16 0 2.24 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 1 2 1.414 0 0 3
(E,F) 2.24 2.24 0 2 5 6 2.000 0 0 4
3 1 3 2.000 1 0 5
4 4 5 2.236 0 2 5
5 1 4 2.236 3 4 0

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

(A,B,C,E,F) D
Dendrogram using Single Linkage

(A,B,C,E,F) 0 2,24 Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
D 2,24 0 Label Num +---------+---------+---------+---------+---------+

A 1 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
B 2 ò÷ ùòòòòòòòòòòòòòø
C 3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
E 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòú
F 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
17 18
D 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Selección del número de


conglomerados de la solución
Diagrama de témpanos vertical „ El SPSS sólo ofrece el dendograma como
Caso herramienta de apoyo
Número de „ Debe detenerse el proceso de fusión cuando los
4:D

3:C
5:E

2:B

1:A
6:F

conglomerados grupos que se han de unir están a una distancia


1 X X X X X X X X X X X
significativamente mayor de los que
2
3
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
previamente se han fusionado.
4 X X X X X X X X „ Se debe realizar el cálculo de las tasas de
5 X X X X X X X variación entre los coeficientes de aglomeración
obtenidos entre etapas sucesivas. Cuando una
tasa de variación sea drásticamente superior a la
anterior, será el momento de detener las
fusiones.
19 20

5
Utilización de los indicadores
Otros indicadores Estadí
Estadístico Concepto Medido Comentarios

„ Raíz cuadrada de la media de las RMSSTD Homogeneidad del El valor debe ser
desviaciones típicas del nuevo nuevo conglomerado pequeño
conglomerado (RMSSTD) SPR Homogeneidad de los El valor debe ser
„ R2 semiparcial (SPR) conglomerados pequeño
fusionados
„ R cuadrado (RS)
RS Heterogeneidad entre El valor debe ser
„ Distancia entre los conglomerados (DC)
conglomerados grande
CD Homogeneidad de los El valor debe ser
conglomerados pequeño
21 fusionados 22

Ejemplo de Aplicación Nº 2 (Gondar, 2004) La información que se requirió de estas 21 personas es la siguiente:
A este grupo de personas que se tiene

• Salir de compras es divertido


• Salir de compras afecta el presupuesto
… se le medirá una serie de atributos de tipo métrico, y conforme a De una escala del 1 al 7, donde 1 es • Al salir de compras aprovecho de comer fuera
estos atributos se van a clasificar a estas personas en grupos o desacuerdo y 7 de acuerdo, de su • Al salir a comprar trato de hacer las mejores
categorías de tal forma que dentro de cada grupo las unidades grado de conformidad a las siguientes
• No me importa salir de compras
muestrales sean lo más homogénea posible, y entre los grupos estas afirmaciones
• Al salir de compra voy a ahorrar si comparo precios
unidades, comparativamente, sean lo más heterogénea posibles.
23 24

6
Atributos Variables
• Salir de compras es divertido divertido

• Salir de compras afecta el presupuesto presupuesto

• Al salir de compras aprovecho de comer fuera aprovecho

• Al salir a comprar trato de hacer las mejores buenacompra


• No me importa salir de compras noimporta
• Al salir de compra voy a ahorrar si comparo precios. ahorro

25 26

Evaluación de la aplicabilidad del AC Se define una medida de “similitud”, puesto que esta medida de similitud
nos puede entregar una pauta para formar conglomerados (cluster)
Analizar – Correlaciones - Bivariadas… homogéneos.
Correlaciones

Buena
Divertido Presupuesto Aprovecho compra No importa Ahorro
Divertido Correlación de Pearson 1 .058 .839** -.105 -.874** .032
Sig. (bilateral) .802 .000 .650 .000 .890
N 21 21 21 21 21 21
Presupuesto Correlación de Pearson .058 1 -.018 .441* -.127 .470*
Sig. (bilateral) .802 .938 .045 .585 .031 ¿Qué “distancia” hay
entre el caso i y el
N 21 21 21 21 21 21
Aprovecho Correlación de Pearson .839** -.018 1 -.304 -.714** .061
Sig. (bilateral) .000 .938 .181 .000 .792 caso j?
N 21 21 21 21 21 21
Buena compra Correlación de Pearson -.105 .441* -.304 1 .022 .582**
Sig. (bilateral) .650 .045 .181 .923 .006
N 21 21 21 21 21 21
No importa Correlación de Pearson -.874** -.127 -.714** .022 1 -.207
Sig. (bilateral) .000 .585 .000 .923 .368
N 21 21 21 21 21 21
Ahorro Correlación de Pearson .032 .470* .061 .582** -.207 1
Sig. (bilateral) .890 .031 .792 .006 .368
N 21 21 21 21 21 21
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
27 28

7
La distancia euclídea al cuadrado entre el caso 1 y el caso 2 es:
[(6 – 2)2 + (4 – 3)2 + (7 – 1)2 + (3 – 4)2 + (2 – 5)2 + (3 – 4)2] = 64

Nota: se pueden utilizar otras “distancias”. A menor distancia mayor


29 30
similaridad

31 32

8
Historial de conglomeración
Historial de conglomeración
Etapa en la que el conglomerado
Conglomerado que se combina aparece por primera vez Etapa en la que el conglomerado
Próxima
Conglomerado que se combina aparece por primera vez Próxima
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8 Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
1 14 16 2.000 0 0 8
2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7
3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7
4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14
5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9
6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15
7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10
8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11
9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12
10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13
11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16
12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14
13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15
14 2 5 10.750 4 12 19
15 14 2 5 10.750 4 12 19
1 3 11.667 13 6 17
16 15 1 3 11.667 13 6 17
4 10 11.750 11 0 18
17 16 4 10 11.750 11 0 18
1 15 14.125 15 0 20
18 17 1 15 14.125 15 0 20
4 18 22.600 16 0 19
19 18 4 18 22.600 16 0 19
2 4 37.944 14 18 20
20 19 2 4 37.944 14 18 20
1 2 46.389 17 19 0
20 1 2 46.389 17 19 0

Esta tabla muestra como los casos son “aglomerados” en cada etapa Los casos 5 y 11 se unen en un conglomerado en la etapa 5
del análisis de cluster. 33 34

Historial de conglomeración
Historial de conglomeración
Etapa en la que el conglomerado
Etapa en la que el conglomerado Conglomerado que se combina aparece por primera vez Próxima
Conglomerado que se combina aparece por primera vez Próxima Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa 1 14 16 2.000 0 0 8
1 14 16 2.000 0 0 8 2 6 7 2.000 0 0 7
2 6 7 2.000 0 0 7 3 12 21 3.000 0 0 7
3 12 21 3.000 0 0 7 4 2 13 3.000 0 0 14
4 2 13 3.000 0 0 14 5 5 11 3.000 0 0 9
5 5 11 3.000 0 0 9 6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15 7 6 12 3.500 2 3 10
7 6 12 3.500 2 3 10 8 4 14 4.000 0 1 11
8 4 14 4.000 0 1 11 9 5 9 4.500 5 0 12
9 5 9 4.500 5 0 12 10 1 6 5.750 0 7 13
10 1 6 5.750 0 7 13 11 4 19 7.000 8 0 16
11 4 19 7.000 8 0 16 12 5 20 7.333 9 0 14
12 5 20 7.333 9 0 14 13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15 14 2 5 10.750 4 12 19
14 2 5 10.750 4 12 19 15 1 3 11.667 13 6 17
15 1 3 11.667 13 6 17 16 4 10 11.750 11 0 18
16 4 10 11.750 11 0 18 17 1 15 14.125 15 0 20
17 1 15 14.125 15 0 20 18 4 18 22.600 16 0 19
18 4 18 22.600 16 0 19 19 2 4 37.944 14 18 20
19 2 4 37.944 14 18 20 20 1 2 46.389 17 19 0
20 1 2 46.389 17 19 0

Cuando conglomerados o casos son unidos, el nuevo cluster es La columna de coeficientes indica la distancia entre los dos cluster
etiquetado con el número menor de etiqueta de los dos cluster. o casos en cada etapa. La “distancia” es la elegida según el
35 36
método

9
Historial de conglomeración

Etapa en la que el conglomerado Esta


Historial de conglomeración
Conglomerado que se combina aparece por primera vez Próxima parte de
la tabla
Etapa en la que el conglomerado Etapa Conglomerado 1 Conglomerado 2 Coeficientes Conglomerado 1 Conglomerado 2 etapa
Conglomerado que se combina aparece por primera vez Próxima 1 14 16 2.000 0 0 8
Tres cluster Etapa
1
Conglomerado 1
14
Conglomerado 2
16
Coeficientes
2.000
Conglomerado 1
0
Conglomerado 2
0
etapa
8
2 6 7 2.000 0 0 7 muestra
permanecen 2 6 7 2.000 0 0 7 3 12 21 3.000 0 0 7 la etapa
3 12 21 3.000 0 0 7 4 2 13 3.000 0 0 14 en que
después de la 4 2 13 3.000 0 0 14 5 5 11 3.000 0 0 9 aparece
etapa 18. Lo
5 5 11 3.000 0 0 9 6 3 8 3.000 0 0 15
6 3 8 3.000 0 0 15
7 6 12 3.500 2 3 10
por
indicado es 7
8
6
4
12
14
3.500
4.000
2
0
3
1
10
11
8 4 14 4.000 0 1 11 primera
formar 3 cluster 9 5 9 4.500 5 0 12 9 5 9 4.500 5 0 12 vez un
10 10 1 6 5.750 0 7 13 cluster.
como solución
1 6 5.750 0 7 13
11 4 19 7.000 8 0 16 11 4 19 7.000 8 0 16
12 5 20 7.333 9 0 14 12 5 20 7.333 9 0 14 Y los
valores
13 1 17 8.000 10 0 15
13 1 17 8.000 10 0 15
14 2 5 10.750 4 12 19
15 1 3 11.667 13 6 17
14 2 5 10.750 4 12 19 “0”
15
16 4 10 11.750 11 0 18 1 3 11.667 13 6 17
indican
17 1 15 14.125 15 0 20 16 4 10 11.750 11 0 18
18 4 18 22.600 16 0 19 17 1 15 14.125 15 0 20
que el
19 2 4 37.944 14 18 20 18 4 18 22.600 16 0 19 cluster
20 1 2 46.389 17 19 0
19 2 4 37.944 14 18 20 es aún
20 1 2 46.389 17 19 0 un
“caso”
Aquí hay un “salto súbito” en la El cluster 6 (que ya no es un “caso”) apareció por primera
“buena solución”
creación de un nuevo cluster vez en la etapa 2, y volverá a aparecer en la etapa 10.
37 38

Conglomerado de pertenencia
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *

Ahora, si se ha decidido formar tres


3
Dendrogram using Average Linkage (Between Groups)
conglome
Caso
1
rados cluster o conglomerados, dando las Rescaled Distance Cluster Combine
1
2 2 instrucciones pertinentes al software C A S E
Label Num
0 5 10 15 20 25
+---------+---------+---------+---------+---------+
3 1 deberá aparecer esta solución de 14 òûòø
4
5
3
pertenencia. 16 ò÷ ùòø
2
4 òòò÷ ùòòòòòø
6 1
7 1
El dendograma o 19
10
òòòòò÷
òòòòòòòòòòò÷
ùòòòòòòòòòòòø
ùòòòòòòòòòòòòòòòòòø
8 1
Esto es, las personas que tienen las “etiquetas” diagrama de 18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
9 2
{1, 3, 6, 7, 8, 12, 15, 17 y 21} pertenecen al árbol muestra la 2 òûòòòòòòòø
ò÷ ó
ùòòòòòòòø
ó ó
10 3 13
11 2 conglomerado 1. similitud relativa 5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó

12 1 entre los casos 11 ò÷ ùòòòø ó


òòò÷ ùò÷
ó
ó
Las personas etiquetadas con {2, 5, 9, 11, 13,
9
13 2
20 òòòòòòò÷ ó
14
15
3
1
y 20} pertenecen al conglomerado 2. 3 òûòòòòòòòòòø ó
8 ò÷ ó ó
16
17
3
1
Y las personas etiquetadas con {4,10,14,16,18 6
7
òø
òôòòòø
ùòø
ó ó
ó
ó
18 3 y 19} pertenecen al conglomerado 3. 12 òú ùòø ó ó ó
19 3 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
20 2
17 òòòòòòò÷ ó
21 1
15 òòòòòòòòòòòòò÷

39 40

10
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
Label Num +---------+---------+---------+---------+---------+
14 òûòø
14 òûòø 16 ò÷ ùòø Aquí hay similitud
16 ò÷ ùòø 4 òòò÷ ùòòòòòø
òòò÷ ùòòòòòø
Note como las
4
19 òòòòò÷ ùòòòòòòòòòòòø
Las líneas 19
10
òòòòò÷
òòòòòòòòòòò÷
ùòòòòòòòòòòòø
ùòòòòòòòòòòòòòòòòòø
“ramas” se unen 10 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòø verticales que unen 18 òòòòòòòòòòòòòòòòòòòòòòò÷ ó
òòòòòòòòòòòòòòòòòòòòòòò÷ ó
los casos denotan òûòòòòòòòø ùòòòòòòòø
18
a medida que
2
2 òûòòòòòòòø ùòòòòòòòø 13 ò÷ ó ó ó
uno mira de 13 ò÷ ó ó ó similitud, cuando 5 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
estas están a la ò÷ ùòòòø ó ó
5
izquierda a
11
11 ò÷ ùòòòø ó ó 9 òòò÷ ùò÷ ó
derecha 9 òòò÷ ùò÷ ó izquierda 20 òòòòòòò÷ ó
20 òòòòòòò÷ ó 3 òûòòòòòòòòòø ó
3 òûòòòòòòòòòø ó 8 ò÷ ó ó
8 ò÷ ó ó 6 òø ùòø ó
6 òø ùòø ó 7 òôòòòø ó ó ó
7 òôòòòø ó ó ó 12 òú ùòø ó ó ó
12 òú ùòø ó ó ó 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 1 òòòòò÷ ó ó
1 òòòòò÷ ó ó 17 òòòòòòò÷ ó
17 òòòòòòò÷ ó 15 òòòòòòòòòòòòò÷
15 òòòòòòòòòòòòò÷

41 42

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *

Dendrogram using Average Linkage (Between Groups) Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+ Label Num +---------+---------+---------+---------+---------+

14 òûòø 14 òûòø

Las líneas 16 ò÷ ùòø Aquí no hay similitud 16 ò÷ ùòø


4 òòò÷ ùòòòòòø 4 òòò÷ ùòòòòòø
verticales que 19 òòòòò÷ ùòòòòòòòòòòòø Las distancias entre 19 òòòòò÷ ùòòòòòòòòòòòø

unen los casos no 10


18
òòòòòòòòòòò÷
òòòòòòòòòòòòòòòòòòòòòòò÷
ùòòòòòòòòòòòòòòòòòø
ó
cluster están 10
18
òòòòòòòòòòò÷
òòòòòòòòòòòòòòòòòòòòòòò÷
ùòòòòòòòòòòòòòòòòòø
ó
describen 2 òûòòòòòòòø ùòòòòòòòø escaladas 2 òûòòòòòòòø ùòòòòòòòø

similitud, cuando 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
convenientemente 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
estas están a la 11 ò÷ ùòòòø ó ó de 0 a 25 en este 11 ò÷ ùòòòø ó ó

derecha del 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
dendograma 3 òûòòòòòòòòòø ó 3 òûòòòòòòòòòø ó
8 ò÷ ó ó 8 ò÷ ó ó
6 òø ùòø ó 6 òø ùòø ó
7 òôòòòø ó ó ó 7 òôòòòø ó ó ó
12 òú ùòø ó ó ó 12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó 1 òòòòò÷ ó ó
17 òòòòòòò÷ ó 17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷ 15 òòòòòòòòòòòòò÷

43 44

11
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

14 òûòø
16 ò÷ ùòø
4 òòò÷ ùòòòòòø
A la distancia 19 òòòòò÷ ùòòòòòòòòòòòø

indicada 10
18
òòòòòòòòòòò÷
òòòòòòòòòòòòòòòòòòòòòòò÷
ùòòòòòòòòòòòòòòòòòø
ó
formamos tres 2 òûòòòòòòòø ùòòòòòòòø

cluster que no 13
5
ò÷
òûòø
ó
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ó
son similares 11 ò÷ ùòòòø ó ó

entre sí 9
20
òòò÷
òòòòòòò÷
ùò÷ ó
ó
3 òûòòòòòòòòòø ó
8 ò÷ ó ó
6 òø ùòø ó
7 òôòòòø ó ó ó
12 òú ùòø ó ó ó
21 ò÷ ó ùòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
1 òòòòò÷ ó ó
17 òòòòòòò÷ ó
15 òòòòòòòòòòòòò÷

45 46

Análisis de tablas de frecuencias Gráfico de Líneas


Gráficos – Generador de gráficos…

Average Average Average Average Average Average Average


Linkage Linkage Linkage Linkage Linkage Linkage Linkage
(Between (Between (Between (Between (Between (Between (Between
Groups) Groups) Groups) Groups) Groups) Groups) Groups)
Count Count Count Count Count Count Count
1 6 6 8 8 9 9 9
2 2 6 6 6 6 6 12
3 2 2 4 5 5 6
4 4 4 1 1 1
5 4 1 1 1
6 1 1 1
7 1 1
8 1

47 48

12
Caracterización de los clusters

Analizar – Tablas –
Tablas Personalizadas…

Divertido Presupuesto Aprovecho Buena compra No importa Ahorro


Media Media Media Media Media Media
Average Linkage 1 5.667 3.667 6.000 3.222 2.000 4.000
(Between 2 1.667 3.000 1.833 3.500 5.500 3.333
Groups) 3 3.500 5.500 3.333 6.000 3.500 6.000
49 Total 3.905 4.000 4.048 4.095 3.429 50
4.381

Divertidos Pasan de todo Cuidan presupuesto


7
innovadores Les da lo mismo 8 que 80 Buscan mejor compra
6

4
Lujuriosos Indiferentes Ahorradores
3

0 1 2 3 4 5 6 7 8 9 10
Divertido Presupuesto Aprovecho Buena compra No importa Ahorro

Cluster 1 Cluster 2 Cluster 3 Promedio

1. Los casos del cluster 1 tienen valores altos en las variables divertido,
aprovecho, medios en las variables presupuesto, buena compra, ahorro
y bajo en no importa.
2. Los casos del cluster 2 tienen valores altos sólo en la variables no importa,
medios en las variables presupuesto, buena compra, ahorro y bajo en
divertido, aprovecho.
3. Los casos del cluster 3 tienen valores altos en las variables presupuesto,
buena compra, ahorro, medios en las variables divertido, aprovecho, no 11 12 13 14 15 16 17 18 19 20 2152
51
importa y no tiene valores bajos.

13
Procedimiento del aná
análisis cluster no jerá
jerárquico
Análisis cluster no jerárquico „ Se determinan los centroides iniciales de los k
grupos, estos es, los valores medios de las variables
que caracterizan las observaciones en cada uno de
„ Es aquel donde se conoce a priori el esos grupos. Estos centroides se conocen como
número de grupos “k” que se desea, y las semillas.
observaciones son asignadas a cada uno „ Cada observación se asigna a aquel cluster, de entre
de esos “k” clusters de forma tal que los k existentes, cuyo centroide esté más cercano a
esa observación en términos de distancia euclídea.
maximiza la homogeneidad de los sujetos
„ Se recalculan los centroides de los k grupos de
asignados a un mismo grupo y la acuerdo con las observaciones que han sido
heterogeneidad entre los distintos clasificadas en casa uno de ellos. Si el cambio en los
clusters. centroides es mayor que un valor criterio de
convergencia preestablecido, se vuelve al paso 2,
finalizando el proceso cuando se cumpla el criterio
de convergencia o se supere un número prefijado de
53
iteraciones. 54

ANOVA

Conglomerado Error
Media Media
cuadrática gl cuadrática gl F Sig.
Divertido 29.488 2 .602 18 48.996 .000
Presupuesto 10.250 2 .972 18 10.543 .001
Aprovecho 33.393 2 .787 18 42.429 .000
Buena compra 15.377 2 .725 18 21.201 .000
No importa 22.071 2 .833 18 26.486 .000
Ahorro 11.810 2 1.074 18 10.995 .001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes
conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse
como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

Número de casos en cada conglomerado


Conglomerado 1 6.000
2 6.000
3 9.000
Válidos 21.000
Perdidos 6.000
55 56

14
Asociación entre las dos variables cluster Tabla de contingencia Average Linkage (Between Groups)
Number of Case
* Cluster

Recuento
Analizar – Estadísticos Descriptivos – Tablas de Contingencia… Cluster Number of Case
1 2 3 Total
Average Linkage 1 0 0 9 9
(Between Groups) 2 0 6 0 6
3 6 0 0 6
Total 6 6 9 21

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 42.000a 4 .000
Razón de verosimilitudes 45.318 4 .000
Asociación lineal por
20.000 1 .000
lineal
N de casos válidos 21
a. 9 casillas (100.0%) tienen una frecuencia esperada inferior a
5. La frecuencia mínima esperada es 1.71.
57 58

Segmentación usando Análisis Factorial


Matriz de componentesa

Componente
1 2
Divertido .961 -.022
Presupuesto .085 .761
Aprovecho .915 -.140
Buena compra -.172 .841
No importa -.922 -.129
Ahorro .131 .840
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos

59 60

15
61 62

Aplicaciones del análisis cluster


Lujuriosos „ Segmentación de mercados
„ Posicionamiento de marcas

Indiferentes „ Nuevos productos


„ Selección de medios publicitarios

Ahorradores

63 64

16
Segmentación de Mercados Posicionamiento de Productos
„ La finalidad del AC es descubrir, entre los „ El AC se realiza con el fin de poder
consumidores, grupos de individuos reagruparlos, en un cierto número de
(segmentos), cuyos comportamientos, clases o tipos, en función de la actitud de
actitudes y hábitos sean similares; con el los consumidores ante los mismos.
objeto de poder diseñar estrategias que se „ El conocimiento de estos tipos permite,

adapten perfectamente a cada uno de los para cada marca, aislar a sus
competidores y modificar su política
segmentos de la población estudiada comercial en consecuencia.

65 66

Bibliografía
Campo de publicidad
1. Luque, Teodoro & otros. “Técnicas de análisis
de datos en investigación de mercados”.
„ El AC se realiza con el fin de poder Ediciones Pirámide. 2000. España
obtener grupos de medios (periódicos, 2. Pedret, Ramón & otros. “Herramientas para
revistas, programas de TV, etc.) similares segmentar mercados y posicionar productos:
en cuanto a su audiencia. análisis de información cuantitativa en
investigación comercial”. Ediciones Deusto.
„ El AC se aplica para obtener temas 2000. España.
publicitarios en función de similitudes 3. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
semánticas percibidas por los Multivariante Aplicado. Aplicaciones al
entrevistados entre las diversas palabras marketing, investigación de mercados,
que describen a un producto. economía, dirección de empresas y turismo”.
Editorial Thomson. 2005. España.
4. Gondar, Emilio. Data Mining Institute
67
www.estadistico.com. 2004 68

17

You might also like