SPSS Tutorial

Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto

Análisis Cluster
Guía • Análisis Cluster • Ejemplo de análisis cluster • Trabajo sobre asignación

Análisis Cluster
• Es una clase de técnicas utilizadas para clasificar casos en grupos que son relativamente homogéneos dentro de si mismos y heterogéneos entre ellos, sobre la base de un conjunto definido de variables. Estos grupos se llaman Clusters o Conglomerados.

Análisis Cluster e Investigación de mercados
• Segmentación de Mercados. Agrupamiento de consumidores de acuerdo a sus preferencias de atributos • Comprender el comportamiento de los compradores. Los consumidores con similares comportamientos/características son agrupados juntos. • Identificar oportunidades de nuevos productos. Los clusters de similares marcas/productos pueden ayudar a identificar competidores/oportunidades de mercado • Reducción de los datos. En mapas de preferencias

Etapas de un Análisis cluster 1. Seleccionar una medida de distancia 2. Seleccionar un algoritmo de agrupamiento 3. Validar el análisis . Determinar el número de clusters 4.

3 2 1 0 -1 -2 -3 -4 -3 -2 -1 0 1 2 3 4 REGR factor score 2 for analysis 1 .

Definición de la distancia: La distancia Euclídea Dij   x n k 1 ki  xkj  2 Dij distancia entre los casos i y j xki valor de la variable Xk para el caso j Problemas: • Diferentes medidas = diferentes ponderaciones • Correlación entre variables (redundancia) Solución: Análisis de componentes principales .

hasta obtener n cluster) • Procedimientos no jerarquicos – Cluster de K-medias . hasta llegar a obtener 1 cluster) – Divisivo (comienza desde 1 cluster.Procedimientos de Clustering • Procedimientos jerarquicos – Aglomerativo (comienza desde n clusters.

Agrupamiento aglomerativo .

Agrupamiento aglomerativo • – – – Métodos de enlace Enlace simple (distancia mínima) Enlace Completo (distancia máxima) Enlace promedio • Método de Ward 1. Calcular la suma de las distancias al cuadrado dentro de los clusters Agregar clusters con incremento mínimo en la suma de cuadrados total La distancia entre dos clusters se define como la distancia entre los centroides (medias de los cluster) • – Método del centroide . 2.

• • El número k de clusters es fijo Se proporciona un conjunto inicial de k “semillas” (centros de agregación) K primeros elementos Otras semillas 3. Se calculan nuevas semillas 5. 2.Cluster de K-medias 1. Dado un cierto umbral. Volver a la etapa 3 hasta que no sea necesaria una reclasificación Las unidades pueden ser reasingnadas en etapas sucesivas (partición óptima) . todas unidades son asignadas a la más cercana semilla del grupo 4.

Métodos jerarquicos vs no jerarquicos Agrupamiento jerarquico • No hay decisión acerca del número de clusters • Existen problemas cuando los datos contienen un alto nivel de error • Puede ser muy lento • La decisión inicial influye mucho (una etapa única) Agrupamiento no jerarquico • Más rápido. más fíable • Es necesario especificar el número de clusters (arbitrario) • Es necesario establecer la semilla inicial (arbitrario) .

Luego utilizar el procedimiento kmedias para formar los clusters .Método sugerido 1. Primero ejecutar un método jerárquico para definir el número de clusters 2.

Definición del número de clusters: regla del codazo (1) n Stage Number of clusters 0 12 1 11 2 10 3 9 4 8 5 7 6 6 7 5 8 4 9 3 10 2 11 1 Stage 1 2 3 4 5 6 7 8 9 10 11 Agglomeration Schedule Stage Cluster First Appears Cluster 1 Cluster 2 Next Stage 0 0 4 0 0 5 0 0 4 1 3 6 0 2 7 4 0 7 5 6 8 7 0 9 8 0 10 9 0 11 10 0 0 Cluster Combined Cluster 1 Cluster 2 Coefficients 4 7 .492 1 11 6.787 1 3 11.015 6 10 .974 4 8 1.744 1 2 8.708 8 9 .680 1 4 3.100 4 5 3.042 1 6 1.276 1 12 8.403 .

Regla del codazo (2): El diagram scree 12 10 8 Distance 6 4 2 0 11 10 9 8 7 6 5 4 3 2 1 Number of clusters .

Validación del análisis • Impacto de las semillas iniciales / orden de los casos • Impacto del método seleccionado • Considerar la relevancia del conjunto de variables elegido .

SPSS Example .

5 0.0 JOHN -.0 -.0 -1.1.5 JULIA 1.0 MATTHEW LUCY JENNIFER .5 PAMELA THOMAS ARTHUR Component2 -1.5 2.0 .0 -1.5 -1.0 1.5 NICOLE 0.5 1.5 FRED -2.0 Component1 .

026 .Agglomeration Schedule Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 3 0 4 0 6 2 1 5 7 8 Stage 1 2 3 4 5 6 7 8 9 Cluster Combined Cluster 1 Cluster 2 3 6 2 5 4 9 1 7 4 10 1 8 1 2 3 4 1 3 Coefficients .849 1.000 Next Stage 8 7 5 6 8 7 9 9 0 Number of clusters: 10 – 6 = 4 .456 4.078 .878 18.503 9.409 .224 .

5 NICOLE 0.5 -1.5 2.5 PAMELA THOMAS -1.1.0 Component1 .5 -2.0 -1.5 1.5 0.0 .5 MATTHEW JULIA LUCY JENNIFER 1.0 JOHN -.0 -.0 ARTHUR Cluster Number of Ca 4 3 -1.0 1.0 FRED 2 1 .

rdg.uk/~aes02mm/ supermarket.uk/~aes02mm/ supermarket.ac.sav From your N: directory (if you saved it there last time Or download it from: http://www.ac.sav • Open it in SPSS .rdg.Open the dataset supermarkets.sav http://www.

sav dataset .The supermarkets.

Run Principal Components Analysis and save scores • Select the variables to perform the analysis • Set the rule to extract principal components • Give instruction to save the principal components as new variables .

Cluster analysis: basic steps • Apply Ward‟s methods on the principal components score • Check the agglomeration schedule • Decide the number of clusters • Apply the k-means method .

Analyse / Classify .

Select the component scores Select from here Untick this .

Select Ward’s algorithm Select method here Click here first .

Output: Agglomeration schedule .

Number of clusters Identify the step where the “distance coefficients” makes a bigger jump .

The scree diagram (Excel needed) Distance 800 700 600 500 400 300 200 100 0 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146 Step 148 .

Number of clusters Number of cases 150 Step of „elbow‟ 144 __________________________________ Number of clusters 6 .

Now repeat the analysis • • • • Choose the k-means technique Set 6 as the number of clusters Save cluster number for each case Run the analysis .

K-means .

K-means dialog box Specify number of clusters .

Save cluster membership Click here first Thick here .

Final output .

Cluster membership .

287 .492 Vegetarian 1. 5 components extracted.14E-02 -5.29E-03 .152 .507 -6. Organic radio listener 5 .35E-02 .73E-02 -4.536 % spent in organic food .12E-02 -3.75E-02 -5. Vegetarian TV 1 2 3 4 lover .247 .127 -.612 .232 .184 1.475 -. Vegetarian .694E-02 .199 Monthly amount spent Meat expenditure Fish expenditure .525 Vegetables expenditure .206 -. .26E-02 -.347 .334 -.186 -9.182 -7.173 -5.197 -3.649 Number of kids .008E-02 .443 Yearly household income .46E-02 -6.192 % spent in own-brand .462 -.908 Age of respondent .383 -.559 -.989E-02 (hours) Surf the web .183 2.239 TV and -.172 6. a.271 -4.135 .619 -.810 -. “Old Rich Big Spender” Component Matrixa 4.Component meaning (tutorial week 5) 1.190 .342 -.460 .942E-04 Extraction Method: Principal Component Analysis.345 -.134 -.646 product Own a car .228 6.53E-02 .95E-02 .647 .26E-02 .124 (hours) Weekly Radio listening 2.207web hater -.663 -9.891 Component 3.465 -.406 -.529 -8.349 .294 -4.140 5.281 .369 Weekly TV watching .480 -.61E-02 -.784E-02 Household Size . Family shopper .102 .24E-02 .64E-02 -.

77126 .38724 -.12759 1.23631 4 .57109 1.93375 3 .41343 -.22215 .11108 5 .04972 .87815 .09055 -.05295 -1.58943 -1.34106 .21758 -.15052 .04886 2 .72711 -.84536 .39335 .28837 -.40776 .31902 6 .57755 -.34392 .Final Cluster Centers Cluster 1 REGR factor score 1 for analysis 1 REGR factor score 2 for analysis 1 REGR factor score 3 for analysis 1 REGR factor score 4 for analysis 1 REGR factor score 5 for analysis 1 -1.30786 1.09743 -.17812 1.13646 -1.

38) • Cluster 2 is very far from profile 5 (-0.Cluster interpretation through mean component values • Cluster 1 is very far from profile 1 (-1.93) and not particularly similar to any profile • Cluster 3 is extremely similar to profiles 3 and 5 and very far from profile 2 • Cluster 4 is similar to profiles 2 and 4 • Cluster 5 is very similar to profile 3 and very far from profile 4 • Cluster 6 is very similar to profile 5 and very far from profile 3 .34) and more similar to profile 2 (0.

Which cluster to target? • Objective: target the organic consumer • Which is the cluster that looks more “organic”? • Compute the descriptive statistics on the original variables for that cluster .

Representation of factors 1 and 4 (and cluster membership) 3 2 1 Cluster Number of Ca 0 6 5 -1 4 -2 3 2 -3 -3 -2 -1 0 1 2 1 REGR factor score 1 for analysis 1 .

Sign up to vote on this title
UsefulNot useful