Professional Documents
Culture Documents
Curso Pude 2008
Curso Pude 2008
MULTIVARIANTES AL SERVICIO DE LA
INVESTIGACIÓN DE MERCADOS
2
BIBLIOGRAFÍA BÁSICA
3
1. Introducción
Definición:
Técnicas estadísticas para el análisis descriptivo o inferencial
de observaciones multivariantes.
Objetivos:
1. Describir
2. Estructurar la población creando grupos o clases.
3. Explicar las relaciones observadas entre caracteres
Problemas a resolver:
1. Dimensionalidad
2. Información redundante
3. Clasificación
4
TIPOS DE TÉCNICAS MULTIVARIANTES
Factoriales:
1. Análisis de Componentes Principales. Para tablas de
medidas o de escalas métricas.
2. Análisis de Correspondencias Simple y Múltiple. Para tablas
de contingencia o de frecuencias
Clasificación:
1. Análisis Cluster
2. Análisis Discriminante
5
FUENTES DE DATOS
Objetivo del estudio
Información disponible:
Fuentes de datos
Encuestas:
Características de la población de la que se extrae la
muestra
Diseño muestral
Presupuesto disponible
6
2. Análisis de Componentes Principales
Objetivo:
Transformar un conjunto de variables en un nuevo conjunto, componentes
principales, incorrelacionadas entre sí. Se consigue una representación
simplificada, más sencilla y fácil de ver.
Metodología:
Los datos se presentan en una tabla rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables
heterogéneas. Hay dos espacios:
Rp : n individuos con los valores que toman para cada una de las p variables.
Rn : p variables para cada individuo.
Finalidad:
7
Gráficamente:
Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí,
medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con
matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de
cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales.
Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad
que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de
sentido, ya que las variables originales y las componentes o nuevas variables coincidirían. 8
MATRIZ DE DATOS
Cálculo de medias y
desviaciones típicas
R =X´X
MATRIZ DE CORRELACIONES
Diagonalización de R, cálculo de
valores propios, varianza
explicada y correlaciones
COMPONENTES PRINCIPALES
9
Resumen
10
CASO:
Posicionamiento de turistas en Tenerife
Metodología:
11
Datos. Medianas
Nacionalidad Nº Nº visitas Gasto Edad
Noches anteriores noche/persona
Alemana 14,00 ,00 76,6290 42,00
Austriaca 7,00 ,00 35,7452 33,00
Belga 7,00 1,00 46,2028 35,00
Británica 14,00 2,00 37,5633 39,00
Española 7,00 ,00 85,8589 31,00
Europa exc 7,00 ,00 41,7811 24,50
Finlandesa 32,00 50,00 46,9541 73,00
Francesa 7,00 ,00 75,1265 38,00
Holandesa 14,00 ,00 18,9410 26,00
Italiana 7,00 ,00 72,9800 28,00
R. América 29,00 1,00 19,1990 22,50
R. Europa 7,00 ,00 89,0786 34,00
R. mundo 6,00 ,00 117,9486 30,00
Sueca 7,00 ,00 123,5552 30,00
Suiza 7,00 ,00 80,3639 37,00
Tabla de datos:
Matriz con 15 filas, correspondientes a las nacionalidades, y 4
columnas, correspondientes a las 4 variables. Dentro, medianas
12
SPSS versión 14.0 para windows
Analizar Reducción de datos Análisis Factorial
13
Elección del numero de ejes
Criterio de la media aritmética:
p
Si las variables originales están tipificadas, λ j p , por lo que la media
de la inercia es igual a 1. Se retendrán losj1factores cuya inercia sea
mayor que 1.
14
Resultados ACP 1
Estadísticos descriptivos más importantes de las variables utilizadas
Estadísticos descriptivos
Desviación
Media típica N del análisis
Nº Noches 11,47 8,27 15
Nº visitas anteriores 3,60 12,85 15
Edad del turista 34,87 11,92 15
Gasto por persona y día 64,53 32,54 15
15
Resultados ACP 2
Matriz de correlaciones
16
Resultados ACP 3
La adecuación de los datos al análisis factorial de componentes principales se contrasta
mediante KMO y prueba de Bartlett
17
Resultados ACP 4
KMO:
Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las
variables son pequeñas. Indica la proporción de varianza de las variables originales que
es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un
análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados
probablemente no sean muy útiles.
rij2
KMO
i j
rij : coeficiente de correlación lineal de Pearson entre las variables i,j
rij2 a ij2
i j i j aij: coeficiente de correlación parcial entre las variables i,j
KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP.
18
Resultados ACP 5
Matrices anti-imagen
19
Resultados ACP 6
Comunalidades
Inicial Extracción
Nº Noches 1,000 ,835
Nº visitas anteriores 1,000 ,954
Edad del turista 1,000 ,918
Gasto por persona y día 1,000 ,926
Método de extracción: Análisis de Componentes principales.
20
Resultados ACP 7
Varianza total explicada
Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como
componentes o factores posibles.
Total: Cantidad de varianza explicada por cada componente en las variables observadas.
“% de varianza”: Porcentaje de varianza explicada por las componentes.
“% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente
correspondiente y las anteriores.
En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la
varianza de las variables originales, lo que indica un buen modelo factorial.
También se muestran las cantidades de varianza explicada por cada factor extraído una vez
realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la
varianza, mientras que el segundo factor explica el 34.63%.
21
Resultados ACP 8
Matriz de componentesa
Matriz de casos
Componente
1 2 Nacionalidad F1 F2
Nº visitas anteriores ,943 ,254 Alemana 0,142 0,380
Nº Noches ,860 -,309
Edad del turista ,848 ,447 Austriaca -0,201 -0,666
Gasto por persona y día -,404 ,873 Belga -0,167 -0,331
Método de extracción: Análisis de componentes principales. Británica 0,309 -0,619
a. 2 componentes extraídos
Española -0,505 0,466
Europa excomunista -0,471 -0,805
Cargas factoriales para cada variable
Finlandesa 3,374 0,988
sobre las componentes no rotadas.
Cada valor representa la correlación Francesa -0,254 0,443
entre la variable y la componente. Holandesa -0,026 -1,534
Pueden ayudar a formular una Italiana -0,526 0,058
interpretación de los factores. Resto América 0,524 -2,126
a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05.
Los valores residuales son pequeños. La bondad del modelo factorial estimado es
bastante alta 23
Resultados ACP 10
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes
Componente
1 2
Nº Noches ,189 -,397
Nº visitas anteriores ,437 ,040
Edad del turista ,477 ,211
Gasto por persona y día ,194 ,771
Método de extracción: Análisis de componentes principales.
Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada
nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable
por los coeficientes de la puntuación factorial.
24
Gráfico ACP: Diagrama de dispersión
25
Rotación de los ejes: Procedimientos
Objetivo:
Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una
correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto.
Cada factor tendrá correlación alta con un grupo de variables y baja con el resto.
26
Resultados Rotación VARIMAX 1
Matriz de componentes rotadosa
Componente
1 2
Nº visitas anteriores ,960 -,182
Edad del turista ,958 ,033
Gasto por persona y día ,017 ,962
Nº Noches ,640 -,652
Método de extracción: Análisis de componentes principales.
Explicación:
Componente 1: Los turistas de más edad son los que más veces han repetido
visita a Tenerife, y los que más alargan su estancia durante sus vacaciones.
Componente 2: Los que más gastan por persona y día son los que menor
tiempo de estancia tienen.
27
Resultados Rotación VARIMAX 2
MATRIZ DE CASOS ROTADOS Factor 1:
Nacionalidad F1 F2
Cuadrante positivo:
Alemana 0,293 0,280
Nacionalidades: Finlandesa, Alemana y
- Británica.
Austriaca -0,471 0,512 Nº visitas anteriores, edad, nº noches
- Cuadrante negativo:
Belga -0,294 0,226 Nacionalidades: Resto
-
Británica 0,008 0,692 Factor 2:
Española -0,252 0,640
Cuadrante positivo:
- Nacionalidades: Alemana, Española, Francesa,
Europa excomunista -0,775 0,520
Italiana, Resto de Europa, Resto del Mundo,
- Sueca y Suirza.
Finlandesa 3,467 0,580 Gasto noche persona
Francesa -0,036 0,510 Cuadrante negativo:
- Nacionalidades: Resto.
Holandesa -0,691 1,370 Nº noches
Italiana -0,449 0,281
-
Resto América -0,454 2,142
Resto Europa -0,112 0,769
28
Resto mundo -0,123 1,430
Gráfico ACP rotado: Diagrama de dispersión
29
Caso a resolver:
Imagen de fabricantes de modas para
penetración en un mercado extranjero
La marca de ropas St. John no es muy conocida en Europa. Procede de EEUU.
Allí es adquirida por mujeres de nivel socioeconómico alto. St. John fabrica
primordialmente trajes de chaqueta, empleando fibras naturales que mezcla con
una pequeña parte de un polímero sintético que impide que la ropa se arrugue.
Muchas mujeres compran ropa de este fabricante, especialmente si realizan un
trabajo en el que la imagen sea importante, pues los trajes presentan un aspecto
impecable después de muchas horas de llevarlos puestos. Se puede llegar al
final de la jornada casi sin que sea necesario tener que plancharlos.
En 1991 se realizó un estudio sobre el posicionamiento de marcas de fabricantes
de ropa (Dishener y Grande, 1991) para detectar cómo era percibida esta marca
y encontrar el segmento en el que podría ser incluida y decidir sobre la
oportunidad de penetrar en el mercado español.
Fase cualitativa:
Como la marca no era conocida en España, no tenía mucho sentido obtener
información en el mercado. Se optó por consultar con expertos del mundo de la
moda para que posicionaran las marcas. Tras una serie de entrevistas con
directores de escuelas de diseño de moda se consideraron las variables más
importantes para juzgar una serie de marcas. En un principio se pensó que,
debido al perfil socioeconómico de las compradoras de St. John en EEUU, el
segmento dentro del cual podría penetrar la marca podría ser el de Loewe o
Chanel. 30
Objetivo del estudio:
Averiguar en qué medida se situaba cada una de las marcas respecto a una
marca media. Se intenta obtener las valoraciones de cada marca; no sólo estudiar
qué aspectos destacan en su imagen, sino si se encuentran por debajo o por
encima de la media.
Metodología:
Se consideró que la técnica más adecuada para este caso era el Análisis de
Componentes Principales, que trabaja con datos métricos. Se diseñó un
cuestionario en el que debían valorarse de 0 a 100 las características citadas
para cada una de las marcas.
La valoración que debía darse era en términos positivos: cuanto más cara fuera la
marca, mayor su calidad, prestigio, exclusividad, etc., mayor tenía que ser la
puntuación asignada. La aparente dificultad de las valoraciones - obliga a pensar
y fatiga - quedó mitigada por el reducido número de atributos a valorar y la gran
cualificación de los encuestados, todos ellos expertos en moda.
Muestra:
31
CASAS P1 P2 P3 P4 P5 P6 P7
ÚNGARO 79 87 87 87 82 72 62
ARMANI 69 89 96 92 91 72 75
GENNY 63 77 73 91 72 73 90
VERINO 64 72 68 56 55 69 62
ESCADA 70 91 82 76 82 75 72
FERRAUD 60 78 70 71 72 59 53
VERSACE 78 83 92 91 66 87 79 P1 PRECIO
ST. JOHN 72 87 54 75 85 59 81 P2 CALIDAD
DIOR 69 83 85 81 74 53 77 P3 PRESTIGIO
KENZO 68 78 82 79 65 81 65 P4 EXCLUSIVIDAD
A. DOMINGUEZ 65 76 75 77 72 68 44 P5 ELEGANCIA
BURBERRYS 69 77 74 63 72 30 48 P6 VANGUARDIA
MOSCHINO 71 81 89 87 44 92 91 P7 COMPLEMENTOS
YVES ST.LAURENT 62 82 79 80 81 63 72
P.CARDIN 66 71 75 69 72 37 53
RODIER 65 62 60 58 48 30 28
LOEWE 74 91 97 92 91 48 90
CHANEL 73 92 99 97 97 64 94
ESCORPION 71 63 52 48 52 32 27
BENETTON 70 53 77 64 30 62 51
32
3. Análisis de Correspondencias Simples
Método:
33
Caso:
Lugar de residencia de turistas y su edad
Estudio sobre la posible asociación entre la zona o lugar de residencia de los
turistas en Tenerife y su edad agrupada en intervalos
Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha
realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia
de los turistas en Tenerife.
34
Metodología:
Análisis de correspondencias simple
Objetivo:
Método:
Obtener ejes factoriales que reducen la información original mediante
nuevas variables estudiando la asociación entre modalidades fila y
columna. Se parte de frecuencias relativas para comparar.
Perfil de líneas en Rn
fij/fj
Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años 33 95 16 144
[24 - 30) 41 85 26 152
[30 - 40) 50 82 51 183
[40 - 50) 35 71 45 151
[50 - 60) 25 46 27 98
> de 60 años 26 32 11 69
Margen activo 210 411 176 797
38
Distancia Chi-cuadrado
1 f ij f i j 2 1 f ij f ij 2
2
d (i,i ) = ( )( - ) 2
d (j, j ) = ( )( - )
f j fi f i fi f j f j
Propiedades:
Equivalencia distribucional
Permite agregar dos modalidades de idénticas frecuencias de una
variable, en una nueva modalidad afectada por la suma de sus masas,
sin cambiar nada, ni en las distancias entre modalidades de esta
variable o de la otra.
Relaciones de transición
Ligan gráficamente las dos variables representadas en líneas y
columnas.
39
Obtención de los ejes factoriales
Analizar Reducción de datos Análisis de correspondencias
41
Estadísticos
42
Análisis
Valores propios. Inercia total
p 1
χ2
I λα 2
χ k I Contraste de independen cia I
α 1 k
Coordenadas: Proyecciones de los puntos filas en los ejes factoriales
2 d α2 (i, G) ψ αi2
Cos (i) 2
α 2
d (i, G) d (i, G)
43
Interpretación de representación simultánea
Filas (columnas) con estructura similar, situación próxima en el plano.
44
Resultados AC 1
Perfil fila
Proporción de modalidades de la variable fila en cada modalidad de
la variable columna. Proporción de edades en cada zona. El 66%
de los turistas de < 24 años se alojaron en Las Américas-Los
Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de
turistas de la muestra alojados en ella.
Perfiles de fila
Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años ,229 ,660 ,111 1,000
[24 - 30) ,270 ,559 ,171 1,000
[30 - 40) ,273 ,448 ,279 1,000
[40 - 50) ,232 ,470 ,298 1,000
[50 - 60) ,255 ,469 ,276 1,000
> de 60 años ,377 ,464 ,159 1,000
Masa ,263 ,516 ,221
45
Resultados AC 2
Perfil columna
De 30 a 40 años es la edad más frecuente (23%), repitiéndose esta
situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y
los alojados en el Resto de Lugares (29%). Sin embargo, entre los
turistas alojados en Las Américas-Los Cristianos, el intervalo de edad
modal es los jóvenes de menos de 24 años (23.1%).
Perfiles de columna
Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Masa
< de 24 años ,157 ,231 ,091 ,181
[24 - 30) ,195 ,207 ,148 ,191
[30 - 40) ,238 ,200 ,290 ,230
[40 - 50) ,167 ,173 ,256 ,189
[50 - 60) ,119 ,112 ,153 ,123
> de 60 años ,124 ,078 ,063 ,087
Margen activo 1,000 1,000 1,000
46
Resultados AC 3
Resumen
Desviación Correlación
Dimensión Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada típica 2
1 ,183 ,033 ,807 ,807 ,032 ,050
2 ,089 ,008 ,193 1,000 ,038
Total ,041 32,953 ,000a 1,000 1,000
a. 10 grados de libertad
Valor propio o singular: medida de asociación para cada una de las dimensiones
entre las variables fila y columna, donde valores altos indican la existencia de una
fuerte relación
48
Resultados AC 3
Analisis en Rp: Examen de los puntos fila
Examen de los puntos de filaa
Puntuación en la
dimensión Contribución
De los puntos a la
inercia de la De la dimensión a la inercia del
dimensión punto
Intervalos de Edad Masa 1 2 Inercia 1 2 1 2 Total
< de 24 años ,181 ,718 -,239 ,018 ,510 ,115 ,949 ,051 1,000
[24 - 30) ,191 ,284 ,056 ,003 ,084 ,007 ,981 ,019 1,000
[30 - 40) ,230 -,363 ,063 ,006 ,165 ,010 ,985 ,015 1,000
[40 - 50) ,189 -,399 -,253 ,007 ,165 ,136 ,836 ,164 1,000
[50 - 60) ,123 -,309 -,073 ,002 ,064 ,007 ,973 ,027 1,000
> de 60 años ,087 ,150 ,865 ,006 ,011 ,725 ,058 ,942 1,000
Total activo 1,000 ,041 1,000 1,000
a. Normalización Simétrica
49
Resultados AC 4
Puntuación en la
dimensión Contribución
De los puntos a la
inercia de la De la dimensión a la inercia del
dimensión punto
Lugar de Residencia Masa 1 2 Inercia 1 2 1 2 Total
Pto. de la Cruz ,263 -,015 ,500 ,006 ,000 ,736 ,002 ,998 1,000
Américas-Cristianos ,516 ,331 -,174 ,012 ,310 ,175 ,881 ,119 1,000
Resto Lugares ,221 -,755 -,190 ,024 ,690 ,089 ,970 ,030 1,000
Total activo 1,000 ,041 1,000 1,000
a. Normalización Simétrica
50
GRÁFICO
51
Interpretación de resultados
INTERPRETACIÓN:
• Eje 1
Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos.
Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz
muy ligeramente.
Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto
de Lugares.
Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares.
• Eje 2
52
CONCLUSIONES
Existe asociación entre las dos variables, por lo que
será posible el hacer corresponder las modalidades
de una con las de la otra.
53
Caso a resolver:
Forma jurídica de las empresas exportadoras
canarias y su propensión a exportar
Se quiere realizar un estudio sobre la relación existente entre las
distintas formas jurídicas de las empresas exportadoras canarias
y su propensión a exportar, definida ésta como el cociente entre
el volumen de exportaciones y el volumen de negocios de cada
una de ellas.
Los datos con los que se cuenta provienen de una Base de Datos
elaborada por la empresa CAMERDATA en 1990 que contiene
información sobre 36020 empresas exportadoras españolas, de
las cuales 693 pertenecen a la Comunidad Autónoma de
Canarias.
Una vez depurada la Base de Datos, el número de empresas
exportadoras canarias se redujo a 394 realizándose
transformaciones sobre las variables con las que cuenta la Base
de Datos
54
Las siete formas jurídicas de las A partir del volumen de exportación y
empresas, se redujeron a cuatro volumen de negocios se obtuvo la
mediante la agregación de algunas propensión a exportar de cada empresa
de ellas. Así, las formas jurídicas de la Base de datos depurada. Hecho
resultantes fueron: esto, se agregaron los resultados. Así, la
Sociedades Anónimas propensión a exportar presentara tres
modalidades:
Sociedades Limitadas
Propensión a exportar baja: 0 a 10%.
Autónomos Propensión a exportar media:10 a
Otros 50% .
Propensión a exportar alta: 50 a 100%.
Tabla de correspondencias
Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años 33 95 16 144
[24 - 30) 41 85 26 152
[30 - 40) 50 82 51 183
[40 - 50) 35 71 45 151
[50 - 60) 25 46 27 98
> de 60 años 26 32 11 69
Margen activo 210 411 176 797
55
4. Análisis de Correspondencias Múltiples
56
La tabla disyuntiva completa
La forma de la matriz Z (Tabla disyuntiva completa) será:
p
Si hay alguna variable
0 1 0 0 0 1 0 00 0 1 0 continua, debe transformarse
Z (n, p)
0 0 1 0 0 0 1 01 0 0 0 en nominal, ordenándose en
0 0 0 1 1 0 0 10 1 0 0 intervalos a los que se da un
1 0 0 0 0 0 0 00 0 0 1 rango de valores.
Las frecuencias marginales de las líneas de la tabla disyuntiva completa
son iguales al número de preguntas, s, y las frecuencias marginales de las
columnas corresponden al número de sujetos que han elegido la
modalidad j de la pregunta q, por lo que para cada subtabla, el número
total de individuos es n.
En consecuencia, si para n individuos se dispone de respuestas respecto
a, por ejemplo, dos variables nominales que tienen respectivamente p1 y
p2 modalidades, entonces es equivalente someter a un Análisis de
Correspondencias Simples la tabla de contingencia (p1, p2) y analizar la
tabla binaria de n líneas y (p1 + p2) columnas que describe las
respuestas.
57
La tabla de Burt
59
Caso:
Estudio de los turistas en función del lugar
de residencia, sexo y alojamiento
A partir de la base de Residencia Sexo Alojamiento
datos referida a los Puerto Cruz Hombre Hotel 1 y 2 *
T. sharing y Propiedad
60
Con estas tres variables se ha construido la tabla de Burt.
A partir de ella se ha creado una hoja de cálculo en spss (corres
multiple turismo.sav).
61
Resultados
Utilizaremos una tabla de Burt.
Con ella se podrán obtener las puntuaciones (distancias al
centro de gravedad), contribuciones absolutas de cada
modalidad y variable a los ejes o factores obtenidos
(contribución de cada modalidad o variable a la inercia de los
nuevos ejes) y contribuciones relativas o correlaciones de cada
modalidad con los nuevos ejes.
El número de ejes considerado fue de 2.
Como en la Tabla de Burt las filas y las columnas representan
las mismas modalidades, el estudio de ambas ofrece iguales
resultados, por lo que sólo presentaremos los de las filas.
Para la resolución en el SPSS, en primer lugar hay que
introducir los datos de la misma forma que en el análisis de
correspondencias simples, creando por tanto tres variables. Las
dos primeras corresponden a los rangos de todas las
modalidades y, en la tercera, se incluirán las frecuencias
conjuntas de los pares de modalidades, las cuales funcionarán
como ponderaciones.
62
Los valores singulares, inercia, porcentajes de varianza explicada y sus
acumulados fueron:
Proporción de inercia Confianza para el Valor propio
Dimensión Valor propio Inercia Chi-cuadrado Sig. Correlación
Explicada Acumulada Desviación típica
2
1 0,4176 0,1744 0,1193 0,1193 0,0112 0,1794
2 0,3708 0,1375 0,0941 0,2134 0,0117
3 0,3333 0,1111 0,0760 0,2894
4 0,3333 0,1111 0,0760 0,3655
5 0,3333 0,1111 0,0760 0,4415
6 0,3333 0,1111 0,0760 0,5175
7 0,3333 0,1111 0,0760 0,5935
8 0,3333 0,1111 0,0760 0,6696
9 0,3333 0,1111 0,0760 0,7456
10 0,3333 0,1111 0,0760 0,8216
11 0,3333 0,1111 0,0760 0,8976
12 0,2966 0,0880 0,0602 0,9578
13 0,2482 0,0616 0,0422 1,0000
Total 1,4615 10483,6594 0,0000 1,0000 1,0000
64
Examen de los puntos de fila(a)
Puntuación
Contribución
dimensión
Modalidades
Masa Inercia De puntos a inercia De dimensión a inercia
1 2 de la dimensión del punto
1 2 1 2 Total
Puerto Cruz 0,0878 1,3235 -0,0499 0,0871 0,3684 0,0006 0,7377 0,0009 0,7386
Sur 0,2455 -0,4735 0,0179 0,0312 0,1318 0,0002 0,7377 0,0009 0,7386
Hombre 0,1669 0,0038 -0,7465 0,0562 0,0000 0,2507 0,0000 0,6135 0,6135
Mujer 0,1665 -0,0038 0,7483 0,0563 0,0000 0,2514 0,0000 0,6135 0,6135
Hotel 1 y 2* 0,0050 2,2753 -1,2916 0,1104 0,0622 0,0226 0,0983 0,0281 0,1264
Hotel 3 0,0489 0,1300 0,8489 0,0951 0,0020 0,0951 0,0036 0,1375 0,1411
Hotel 4* 0,1092 0,8233 -0,1887 0,0773 0,1772 0,0105 0,4000 0,0187 0,4187
Hotel 5* 0,0096 -0,9448 -0,2004 0,1082 0,0206 0,0010 0,0331 0,0013 0,0345
Aparh 1 y 2* 0,0084 -0,0944 -0,6479 0,1084 0,0002 0,0095 0,0003 0,0120 0,0123
Aparh 3* 0,0414 -0,0057 -0,1925 0,0973 0,0000 0,0041 0,0000 0,0058 0,0058
Aparh 4 y 5* 0,0263 -1,0830 0,2056 0,1034 0,0740 0,0030 0,1249 0,0040 0,1288
Apart 1 ll 0,0130 -0,9530 -0,9822 0,1073 0,0282 0,0337 0,0458 0,0432 0,0891
Apart 2 ll 0,0138 -0,3691 1,8511 0,1069 0,0045 0,1275 0,0073 0,1640 0,1714
Apart 3 ll 0,0226 -1,3432 -1,1078 0,1052 0,0976 0,0747 0,1617 0,0977 0,2594
Apart 4 o 5 ll 0,0142 -0,8247 -1,0939 0,1068 0,0232 0,0459 0,0378 0,0591 0,0969
T. sh y prop 0,0209 -0,4536 1,1095 0,1045 0,0103 0,0694 0,0172 0,0914 0,1086
Total activo 1,0000 1,4615 1,0000 1,0000
a Normalización Simétrica
65
66
Eje 1:
Se contraponen los turistas que se quedan en el Puerto de la Cruz y que destacan por
alojarse en hoteles de 1, 2 y 4*, todos ellos en el lado positivo, a los turistas que van al
Sur y que se alojan en hoteles de 5*, aparthoteles de 4 y 5* y apartamentos de 1, 3, 4 y 5
llaves, todos ellos en el lado negativo.
Las variables con mayor contribución absoluta a la inercia del eje 1 son Puerto de la
Cruz, Sur y Hoteles de 4*.
Las variables más correlacionadas con el eje 1 son Puerto Cruz, Sur y Hoteles de 4*.
Eje 2:
Sobresalen en el lado positivo los turistas mujeres, que se alojan en hoteles de 3*,
apartamentos de dos llaves y Time sharing y propiedad, contraponiéndose a los turistas
hombres que se alojan en hoteles de 1 y 2*, apartamentos de 1, 3, 4 y 5 llaves, todas
ellas en el lado negativo.
Las variables con mayor contribución absoluta a la inercia del eje 2 son:
Hombres, mujeres y apartamentos de 2 llaves.
Por tanto, podemos decir que el eje 1 viene afectado por la variable lugar de
residencia, mientras que en el eje 2 influye la variable sexo. 67
CONCLUSIONES
En cuanto al lugar de residencia y al sexo de los turistas, éstos residen
en el Puerto de La Cruz y en el Sur, independientemente del sexo.
68
Caso a resolver:
Estudio de la conducta del consumidor en Centros
Comerciales en Tenerife
Se realizaron encuestas en los Municipios de Santa Cruz de Tenerife,
Puerto de la Cruz y Adeje en la isla de Tenerife para estudiar el
comportamiento de los consumidores en Centros Comerciales de la isla
de Tenerife. El tamaño de la muestra fue de 456 elementos. (datos acm
consumidores.sav)
69
5. Análisis Cluster
Etapas:
Elección de las entidades (objetos, variables, individuos, etc..) que se
van a clasificar.
Elección de las características que permiten la definición de las
entidades y sobre las que se basará la clasificación final.
Elección de una medida que defina la proximidad entre entidades.
Selección de un método de clasificación.
Interpretación de los grupos resultantes.
70
Método
Objetivo: condiciona en buena medida los criterios empleados en la
agrupación, por lo que no existe una metodología cluster única.
Describiremos aquí la clasificación jerárquica que es la más utilizada.
Método:
Transformación de matriz de datos originales en matriz de distancias euclídeas.
1ª etapa: agrupar los elementos con distancias más pequeñas.
A continuación, atender a la menor de las distancias entre cada elemento agrupado
con anterioridad y los que quedan en conglomerados individuales.
El procedimiento continuará hasta llegar a alcanzar el número de conglomerados
que se hayan fijado con anterioridad.
73
Ventanas de SPSS
Analizar ClasificarConglomerados jerárquicos
74
Resultados:
Matriz distancias euclídeas al cuadrado
Casos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1:Alemana 0,000 1,211 0,601 1,027 0,426 1,781 10,813 0,161 3,693 0,550 6,427 0,403 1,495 1,654 0,227
2:Austriaca 1,211 0,000 0,113 0,262 1,374 0,093 15,510 1,233 0,785 0,630 2,658 1,769 3,892 4,270 1,454
3:Belga 0,601 0,113 0,000 0,309 0,750 0,318 14,272 0,607 1,467 0,281 3,699 1,022 2,770 3,081 0,771
4:Británica 1,027 0,262 0,309 0,000 1,841 0,643 11,977 1,446 0,949 1,156 2,317 2,149 4,520 4,875 1,713
5:Española 0,426 1,374 0,750 1,841 0,000 1,618 15,317 0,064 4,231 0,167 7,779 0,036 0,641 0,800 0,044
6:Eur. Exc. 1,781 0,093 0,318 0,643 1,618 0,000 17,998 1,606 0,730 0,748 2,735 2,100 4,226 4,640 1,823
7:Finlandesa 10,813 15,510 14,272 11,977 15,317 17,998 0,000 13,454 17,918 16,075 17,818 14,632 16,929 16,877 13,759
8:Francesa 0,161 1,233 0,607 1,446 0,064 1,606 13,454 0,000 3,962 0,223 7,207 0,073 0,855 1,012 0,011
9:Holandesa 3,693 0,785 1,467 0,949 4,231 0,730 17,918 3,962 0,000 2,786 0,653 4,910 8,162 8,711 4,362
10:Italiana 0,550 0,630 0,281 1,156 0,167 0,748 16,075 0,223 2,786 0,000 5,874 0,351 1,425 1,667 0,275
11:R.América 6,427 2,658 3,699 2,317 7,779 2,735 17,818 7,207 0,653 5,874 0,000 8,592 12,870 13,523 7,775
12:R.Europa 0,403 1,769 1,022 2,149 0,036 2,100 14,632 0,073 4,910 0,351 8,592 0,000 0,437 0,558 0,028
13:R.mundo 1,495 3,892 2,770 4,520 0,641 4,226 16,929 0,855 8,162 1,425 12,870 0,437 0,000 0,010 0,669
14:Sueca 1,654 4,270 3,081 4,875 0,800 4,640 16,877 1,012 8,711 1,667 13,523 0,558 0,010 0,000 0,809
15:Suiza 0,227 1,454 0,771 1,713 0,044 1,823 13,759 0,011 4,362 0,275 7,775 0,028 0,669 0,809 0,000
75
Resultados: Historial de conglomeración
Historial de conglomeración
Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 13 14 ,010 0 0 11
2 8 15 ,011 0 0 4
3 5 12 ,036 0 0 4
4 5 8 ,052 3 2 7
5 2 6 ,093 0 0 6
6 2 3 ,215 5 0 9
7 5 10 ,254 4 0 8
8 1 5 ,353 0 7 11
9 2 4 ,404 6 0 12
10 9 11 ,653 0 0 12
11 1 13 1,002 8 1 13
12 2 9 1,917 9 10 13
13 1 2 3,622 11 12 14
14 1 7 15,239 13 0 0
76
Diagrama de Témpanos
Diagrama de témpanos vertical
Caso
6:Europa excomunista
11:Resto América
12:Resto Europa
13:Resto mundo
7:Finlandesa
9:Holandesa
2:Austriaca
8:Francesa
5:Española
4:Británica
1:Alemana
10:Italiana
14:Sueca
15:Suiza
3:Belga
Número de
conglomerados
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X
77
Resultados: Dendograma
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
78
CONCLUSIONES
Cluster 1:
Cluster 2:
Cluster 3:
Finlandeses.
79
Caso a resolver:
Resultados de la rotación varimax en el ACP
para el posicionamiento de casas de moda
80
6. Análisis de la Varianza Paramétrico y no
Paramétrico
El Analisis de la Varianza es una prueba estadística de homogeneidad de los
comportamientos medios de una determinada característica o variable
respuesta, para k poblaciones independientes, correspondientes a k condiciones
distintas de un determinado factor.
H0: 1 = 2 = … = k
H1: (i,j) / i ≠ j
Esta prueba paramétrica puede considerarse como una extensión del contraste
paramétrico de igualdad de medias para dos poblaciones independientes, ya
estudiado anteriormente. Al igual que éste, el Análisis de la Varianza requiere la
verificación de una serie de supuestos, como puede ser la normalidad,
homocedasticidad, etc.
VARIABLE RESPUESTA
Es la variable dependiente o característica objeto de nuestro estudio y que
cuantifica el efecto de una serie de condiciones que influyen sobre ella. Por tanto,
se necesita que dicha variable pueda medirse en escala cuantitativa.
FACTOR
Es cada una de las variables independientes o explicativas que influyen en la
característica de estudio o variable respuesta. Cada factor debe incluir las
diferentes condiciones a las que se somete a los individuos para analizar el efecto
diferencial de las mismas.
NIVELES
A las distintas modalidades que presenta un factor se les denomina niveles.
Estos suelen diferenciarse en tratamientos (cuando se pueden manipular las
condiciones del factor) o modos de clasificación (cuando las condiciones del
factor no son susceptibles de manipulación). 82
SUPUESTOS BÁSICOS
(1) Las muestras han de ser extraídas de forma aleatoria.
(2) Las puntuaciones u observaciones han de ser independientes entre sí.
(3) Las observaciones del j-ésimo grupo (Xij, i=1,…,nj) deben tener distribución
Normal de media j.
(4) Todos los grupos deben tener la misma varianza poblacional 2, lo que se
conoce como homocedasticidad.
(5) La variable respuesta debe ser cuantitativa, mientras que la variable
independiente o factor se establece a modo de categorías, pudiendo ser
cuantitativa o cuantitativa.
DISEÑOS SEGÚN TIPO DE FACTORES
Los niveles observados incluyen
todos los posibles, o bien, todos los
Factor fijo Modelo de efectos fijos que interesan
El número de posibles
niveles del factor es
Factor aleatorio Modelo de efectos aleatorios elevado y se seleccionan
aleatoriamente algunos
para realizar el estudio.
Intervienen factores
Modelo de efectos mixtos fijos y aleatorios 83
VARIABILIDAD
El Análisis de la Varianza permite separar el efecto que sobre la variable
respuesta ejerce uno o varios factores controlados del de otros no controlados,
contrastando la influencia de los factores controlados sobre los resultados.
85
CONTRASTE PARAMÉTRICO:
MODELO FACTORIAL SIMPLE. ANOVA I
Xij Valor de la variable respuesta para el i-ésimo individuo del j-ésimo grupo.
Constante común para todas las observaciones que representa a la
media poblacional.
Aj Es la aportación cuantitativa del j-ésimo nivel del factor a la puntuación
total, que refleja la diferencia entre la puntuación esperada del j-ésimo grupo j
y la puntuación esperada para toda la población, .
ij Error experimental de cada puntuación, que indica la parte de Xij no
explicada por las otras dos componentes. Se verifica que ij N (0, 2)
( X
j 1 i 1
ij X ) 2 n j ( X j X ) 2 ( X ij X j ) 2 ya que
j 1 j 1 i 1
(X
i 1
ij X j) 0
SCT (X j X) 2
( X ij X j )2
SCE
SˆT2
j 1 i 1
SCF SˆE2
j 1 i 1
SˆF2
j 1
n 1 n 1 nk nk
k 1 k 1
Se puede demostrar que S2T, S2F y S2E son estimadores insesgados de 2.
(k 1) SˆF2
Además k21
2
SˆF2
Fk 1, n k
(n k ) SˆE2 ˆ
SE 2
2
n2 k
87
La región crítica asociada al contraste será:
R ( x11, ..., xn11 ), ( x12, ..., xn2 2 ),...,( x1k , ..., xnk k ) E / F Fk 1, n k ,1
siendo el estadístico de contraste:
SˆF2
F 2
SˆE
Suma de Punto
Variabilidad g. l. Estimador Estadístico
cuadrados crítico
FACTOR SCF k-1 SF2 = SCF/(k-1)
F = SF2 / SE2 Fk-1,n-k,1-
ERROR SCE n-k S = SCF/(n-k)
E
2
1 2 3 4
139 138 134 149
143 141 139 150
145 144 135 148
141 143 138 150
144 137 139 146
138 140 136 151
140 143 140 149
141 140 135
89
Comandos SPSS
Dependiente: precios
Factor: ciudad
Opciones:
Estadísticos:
Descriptivos
Homogeneidad de varianzas
Gráfico de medias
ŜF2
F(k 1),(nk);(1α)
ŜE2
Contraste unilateral a la derecha: A mayor numerador respecto al
denominador, mayor posibilidad de rechazar la hipótesis nula. Mientras
más pequeño, mayor posibilidad de no rechazarla.
91
Ejemplo de ANOVA I. Resultados SPSS
Descriptivos
PRECIO
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 8 141,38 2,45 ,86 139,33 143,42 138 145
2 8 140,75 2,49 ,88 138,67 142,83 137 144
3 8 137,00 2,27 ,80 135,10 138,90 134 140
4 7 149,00 1,63 ,62 147,49 150,51 146 151
Total 31 141,81 4,81 ,86 140,04 143,57 134 151
PRECIO
Estadístico
de Levene gl1 gl2 Sig.
1,054 3 27 ,385
92
Resultados ANOVA I SPSS
ANOVA
PRECIO
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 557,464 3 185,821 36,522 ,000
Intra-grupos 137,375 27 5,088
Total 694,839 30
Conclusión:
A nivel de significación del
Función de densidad
F (3,27) 93
Resultados SPSS. Pruebas dos a dos
Comparaciones múltiples
95
Test U de Mann-Whitney
Objetivo:
Contrastación de promedios de dos poblaciones a partir de dos muestras
independientes.
Supuestos:
Observaciones extraídas de muestras aleatorias.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma medida
de tendencia central, la mediana, para poderlo aplicar a datos ordinales.
Metodología:
Combinación de las n y m observaciones procedentes de dos poblaciones
ordenadas en orden creciente de magnitud, asignando a cada una un
rango de 1 a n+m.
96
Caso:
Dietas alternativas de engorde de cerdos
Se quiere comparar dos dietas distintas para engorde de cerdos.
Para ello se seleccionan 8 cerdos de 6 meses de edad de la
granja A que los alimenta con la primera dieta, y a 12 cerdos de la
misma edad de la granja B que usa la segunda, obteniéndose el
incremento de peso en el último mes. Los resultados se reflejan
en la tabla adjunta. Comprobar, con un 5% de significación, que
existen diferencias significativas en el promedio de incremento de
peso de los cerdos en el último mes entre las dos dietas. (Se ha
comprobado previamente la no normalidad de los incrementos de
peso en ambas granjas).
GRANJA A 22 18 15 19 22 23 22 19
GRANJA B 15 18 15 15 18 16 25 12 21 14 15 13
Hipótesis:
H0: 1 = 2
Ha: 1 2
97
Ejemplo Test de Mann-Whitney.
Comandos SPSS
Introducir datos: Igual que ANOVA
Desviación
N Media típica Mínimo Máximo
Incremento de precios 20 17,85 3,69 12 25
GRANJAS 20 1,60 ,50 1 2
Supuestos:
Observaciones extraídas de muestras aleatorias relacionadas.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma medida
de tendencia central.
Metodología:
Diferencias de los n pares de observaciones procedentes de dos
poblaciones ordenadas en orden creciente, independientemente del
signo, asignando a cada una un rango de 1 a n.
100
Caso:
Comparación de dos materiales para fabricación de
tacones de zapatos de caballero
En un experimento para comparar dos materiales distintos, A y B, que se
deben utilizar para fabricar tacones de zapatos de caballero, se seleccionó
a 15 hombres y se les proporcionó un par de zapatos nuevos de los cuales
un tacón estaba hecho con el material A y el otro con el material B. Al
principio del experimento, cada tacón tenía un grosor de 10 mm. Después
de usar los zapatos durante un mes, se midió el grosor restante, resultando
PAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MATERIAL A 6,6 7,0 8,3 8,2 5,2 9,3 7,9 8,5 7,8 7,5 6,1 8,9 6,1 9,4 9,1
Verificar
que no existen
MATERIAL B 7,4 diferencias
5,4 8,8 8,0 6,8significativas en 4,4
9,1 6,3 7,5 7,0 6,6 el el
7,7grosor resultante
4,2 9,4 9,1
de los tacones entre ambos materiales, usando un α=0,05.
101
Ejemplo Test de Wilcoxon. Resultados
SPSS
Estadísticos descriptivos
Desviación
N Media típica Mínimo Máximo
Material A 15 7,727 1,289 5,2 9,4
Material B 15 7,180 1,628 4,2 9,4
Rangos
Estadísticos de contrasteb
Rango Suma de
N promedio rangos Material B -
Material B - Material A Rangos negativos 10a 7,35 73,50 Material A
Rangos positivos 3b 5,83 17,50 Z -1,960a
Empates 2c Sig. asintót. (bilateral) ,050
Total 15 a. Basado en los rangos positivos.
a. Material B < Material A
b. Prueba de los rangos con signo de Wilcoxon
b. Material B > Material A
c. Material A = Material B
Supuestos:
Observaciones extraídas de muestras aleatorias relacionadas.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma
medida de tendencia central.
Metodología:
Se asignan rangos, de 1 a n (n = n 1 + n2 + .... + nk).
103
Caso:
Influencia de la renta familiar en el nivel cultural de
los hijos
Se desea saber si la renta familiar influye en el grado de cultura de los hijos.
Para verificarlo se toman cuatro niveles de renta y en cada uno un cierto
número de familias con niños comprendidos entre ciertas edades. Se somete
a los niños a tests cuyos resultados, expresados en la tabla adjunta, reflejan
el grado de cultura. Usar un 5% de significación.
NIVEL RENTA 1 NIVEL RENTA 2 NIVEL RENTA 3 NIVEL RENTA 4
171 121 108 121
146 144 108 108
117 164 108 96
191 196 178 72
164 125 149 121
137 155 117 96
126 137 119 72
182 191 89
155 155
121 129
98
98
Hipótesis:
H0: 1 = 2= 3 = 4
104
Ha: 1 2 3 4
Ejemplo Test de Kruskall-Wallis.
Comandos SPSS
Introducir datos: Columna para cada variable
k muestras independientes
Contrastar Variables: Puntuaciones
Variable de agrupación
Definir rango (1 4)
Tipo de prueba: H de Kruskall-Wallis
Opciones: Estadísticos descriptivos
105
Ejemplo Test de Kruskall-Wallis.
Resultados SPSS
Rangos
Estadísticos descriptivos
Rango
Desviación Niveles renta N promedio
N Media típica Mínimo Máximo Puntuaciones Nivel renta 1 10 25,65
Puntuaciones 37 132,03 32,90 72 196 Nivel renta 2 8 26,63
Niveles renta 37 2,43 1,09 1 4 Nivel renta 3 12 14,92
Nivel renta 4 7 7,79
Total 37
Estadísticos de contrastea,b
Puntuaciones
Chi-cuadrado 17,028
gl 3
Sig. asintót. ,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Niveles renta
Supuestos:
Observaciones de muestras aleatorias independientes.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de k poblaciones con la misma medida de
tendencia central.
Metodología:
De forma independiente, en los datos o puntuaciones de cada fila se
asignan rangos, correspondiendo el 1 a la puntuación menor de la fila y el
k a la mayor puntuación
107
Caso:
Comparación de calificaciones en una prueba de
salto
Cuatro jueces se encargan de calificar en una competencia de salto que
incluye a 10 finalistas. Los datos que figuran en la tabla siguiente son
calificaciones, donde un 10 indica un salto perfecto. Para una significación
del 1%, determinar si existe diferencia significativa en las calificaciones que
otorgan cada uno de los cuatro jueces.
JUEZ
COMPETIDOR 1 2 3 4
1 8,5 8,6 8,2 8,4
2 9,8 9,7 9,4 9,6
3 7,9 8,1 7,5 8,2
4 9,7 9,8 9,6 9,6
5 6,2 6,8 6,9 6,5
6 8,9 9,2 8,1 8,7
7 9,2 9,2 8,7 8,9
8 8,4 8,5 8,4 8,6
9 9,2 9,6 8,9 9,5
10 8,8 9,2 8,6 9,3
H0: 1 = 2= 3 = 4
Ha: 1 2 3 4
108
Ejemplo Test de Friedman. Comandos
SPSS
Introducir datos: Columna para cada variable
k muestras independientes
Contrastar Variables: Calificaciones
Tipo de prueba: Friedman
Opciones: Estadísticos descriptivos
109
Ejemplo Test de Friedman. Resultados
SPSS
Estadísticos descriptivos Rangos
Desviación Rango
N Media típica Mínimo Máximo promedio
A 10 8,660 1,042 6,2 9,8 A 2,50
B 10 8,870 ,913 6,8 9,8 B 3,45
C 10 8,430 ,817 6,9 9,6 C 1,40
D 10 8,730 ,933 6,5 9,6 D 2,65
Estadísticos de contrastea
Con un nivel de significación del
N 10
Chi-cuadrado 13,206
1%, hay diferencias significativas
gl 3 en al menos una de las
Sig. asintót. ,004
calificaciones que otorgan cada
a. Prueba de Friedman
uno de los cuatro jueces.
110
7. Análisis Discriminante
Objetivo:
111
SUPUESTOS
112
CLASIFICACIÓN
Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son
combinación lineal de las P variables, interviniendo cada una con un peso
diferente que indica las que más discriminan. Problema descriptivo.
MATRIZ DE DATOS
G X1 X2 .... Xp
1
1
.... DATOS
2
2
3
113
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
116
DATOS
CC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12
Andalucía 1 2 6 4 4 3 3 5 6 6 5 5 5
Castilla-La Mancha 1 3 7 3 2 4 5 3 5 5 8 7 3
Extremadura 1 1 7 5 3 4 3 8 5 4 7 6 5
Murcia 1 3 3 3 4 3 7 9 7 9 6 5 3
Aragón 2 7 5 9 7 7 7 4 7 5 6 5 3
Castilla-León 2 5 6 6 6 7 5 5 5 4 7 7 4
La Rioja 2 8 6 4 7 6 8 5 6 5 6 6 5
Asturias 2 5 2 9 6 5 4 4 5 4 4 8 9
Canarias 2 5 5 6 7 6 5 6 4 9 4 6 8
Cantabria 2 6 7 8 9 6 6 3 6 5 5 8 9
Galicia 2 3 3 5 5 3 5 5 2 6 5 7 9
Valencia 2 5 4 6 5 4 6 6 6 8 5 4 6
Baleares 3 8 3 7 5 10 8 5 6 6 3 4 10
Cataluña 4 8 4 9 9 6 7 6 9 8 3 5 7
Madrid 4 9 7 9 9 5 7 10 9 10 4 4 3
Navarra 4 10 8 10 10 6 10 6 10 7 4 2 5
Euskadi 4 10 6 9 9 5 8 4 9 8 2 1 9
117
Objetivo y metodología del estudio
Objetivo:
Contrastar si la clasificación que realizamos de las
Comunidades Autónomas españolas es correcta,
dependiendo de las 12 variables consideradas.
Metodología:
La técnica adecuada es el Análisis Discriminante. En
él, la variable grupo de bienestar es la variable
dependiente, mientras que el resto son las variables
independientes que, previsiblemente, discriminan.
118
Obtención de las funciones discriminantes
Criterio:
Maximizar variabilidad entre grupos respecto a la de dentro de ellos.
Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del
individuo i-ésimo sobre él es el peso zi:
p
zi = u j xij (i = 1,2,.....n )
j=1
Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de
Fisher. Es una combinación lineal de las k variables explicativas originales.
Z X1u1 X 2u 2 ......X n u n
119
Métodos iterativos de selección de variables
Método de inclusión iterativa
En cada paso se selecciona la variable que más contribuye a la separación de
los grupos. El proceso se detiene si ninguna variable separa los grupos
significativamente más de lo que ya estaban.
120
Stepwise
Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más
significativa será la variable para la que se calcula. Hay que fijar:
Nivel de tolerancia: Medida del grado de asociación lineal entre las variables
clasificadoras.
121
Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la
regla de clasificación óptima se obtiene con funciones lineales cuadráticas.
Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de
obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no
suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de
matrices de covarianzas.
122
Ventanas SPSS 1
Analizar ClasificarAnálisis discriminante
De 1 a 4
123
Ventanas SPSS 2
125
Resultados: Estadísticos descriptivos
GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL
Índice
Media Desv. típ. CVP Media Desv. típ. CVP Media Media Desv. típ. CVP Media Desv. típ. CVP
Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,957 0,104 5,765 2,796 0,485
Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341
Ss.sanitarios 3,75 0,957 0,255 6,625 1,847 0,279 7 9,25 0,500 0,054 6,588 2,347 0,356
N.educativo y
cultural 3,25 0,957 0,295 6,5 1,309 0,201 5 9,25 0,500 0,054 6,294 2,365 0,376
Of.educativa,
cultural/ocio 3,5 0,577 0,165 5,5 1,414 0,257 10 5,5 0,577 0,105 5,294 1,795 0,339
Empleo 4,5 1,915 0,426 5,75 1,282 0,223 8 8 1,414 0,177 6,118 1,900 0,311
Condiciones trabajo 6,25 2,754 0,441 4,75 1,035 0,218 5 6,5 2,517 0,387 5,529 1,940 0,351
Vivienda 5,75 0,957 0,167 5,125 1,553 0,303 6 9,25 0,500 0,054 6,294 2,054 0,326
Acces.ec.y
seguridad vial 6 2,160 0,360 5,75 1,832 0,319 6 8,25 1,258 0,153 6,412 1,938 0,302
Conv.y partic.social 6,5 1,291 0,199 5,25 1,035 0,197 3 3,25 0,957 0,295 4,941 1,600 0,324
Seguridad
ciudadana 5,75 0,957 0,167 6,375 1,408 0,221 4 3 1,826 0,609 5,294 1,929 0,364
Entorno natural y
clima 4 1,155 0,289 6,625 2,446 0,369 10 6 2,582 0,430 6,059 2,512 0,415
Nº CASOS 4 8 1 4 17
126
Pruebas de igualdad de medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig. La lambda de Wilk oscila entre 0 y
Índice de renta ,172 20,872 3 13 ,000 1. Valores pequeños indican fuertes
Índice de salud ,764 1,340 3 13 ,304
Índice de servicios diferencias de grupo y los cercanos
sanitarios ,311 9,615 3 13 ,001
a 1 no diferencias de grupo.
Índice de nivel educativo
y cultural ,173 20,696 3 13 ,000
Índice de oferta
F es una proporción de variabilidad
educativa, cultural y de ,311 9,623 3 13 ,001
ocio entre-grupos y variabilidad intra-
Índice de empleo ,493 4,450 3 13 ,023
Índice decondiciones
grupos.
trabajo (calidad del
empleo) ,818 ,967 3 13 ,438
Variables con los menores valores
Índice de vivienda y
equipamiento del hogar ,302 10,029 3 13 ,001 de lambda: Nivel de instrucción,
Índice de accesibilidad
económica y seguridad
vial
vivienda, riqueza, servicios sanitarios
,703 1,833 3 13 ,191
y educación, cultura y ocio, Empleo y
Índice de convivencia y
participación social ,372 7,300 3 13 ,004 accesibilidad económico-comercial
Índice de seguridad
ciudadana ,447 5,355 3 13 ,013
con F significativos a menos de un
Índice de entorno natural
10%.
y clima ,653 2,307 3 13 ,125
128
Variables introducidas/eliminadas en el análisis
Paso Introducidas Eliminadas Mín. D cuadrado
Estadístico Entre grupos F exacta
Estadístico gl1 gl2 Sig.
1 N.Educativo 1,887 2y3 1,677 1 13 0,218
2 Renta 10,223 2y4 12,582 2 12 0,001
3 Of.Educativa 10,530 1y2 7,920 3 11 0,004
4 Renta 7,905 2y4 9,729 2 12 0,003
5 Vivienda 15,903 2y4 11,961 3 11 0,001
6 Conv.y Part.Social 16,958 2y4 8,697 4 10 0,003
Los dos grupos con mayores F y menores niveles de significación son los
que difieren más.
Los dos grupos con menores F y mayores niveles de significación son los
que difieren menos.
Si el valor de significación es pequeño, la diferencia entre los grupos es
significativa. Si el valor de significación es grande (mayor que el 5%)
entonces la diferencia entre los grupos no es significativa.
132
Funciones canónicas discriminantes
Función Autovalor % de varianza % acumulado Correlación canónica
1 7,007 48,1 48,1 ,935
2 5,255 36,1 84,3 ,917
3 2,291 15,7 100,0 ,834
La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de
los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos
no son diferentes (igual a 1 indica que todas las medias son la misma).
Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor
que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las
medias de los grupos no difieren.
134
Matriz de estructura
Función
1 2 3
Oferta Educativa -,548 ,139 ,088
Empleo (a) ,381 ,279 -,245
Servicios Sanitarios (a) -,325 ,286 -,184
Condiciones de Trabajo (a) ,298 -,014 -,032
Nivel Educativo -,120 ,937 ,159
Convivencia y participación social ,281 -,442 ,212
Renta (a) ,013 ,382 -,341
Vivienda ,019 ,508 -,646
Seguridad ciudadana (a) -,097 -,088 ,560
Salud (a) ,046 ,149 ,386
Entorno y clima (a) -,229 ,212 ,236
Accesibilidad económica y seguridad vial (a) ,171 ,163 -,205
137
Resultados
Grupo Grupo
Comunidad Función Discriminante
pronosticado inicial
Autónoma 1 2 3
Andalucía 1,76874 -1,46939 -1,55655 1 1
Castilla-La Mancha 2,11870 -4,01632 -,82647 1 1
Extremadura 1,66988 -2,99912 -,48748 1 1
Murcia 2,93504 -1,49257 -2,04129 1 1
Aragón -,66163 ,11811 ,40840 2 2
Castilla-León -,65555 -1,13349 1,94311 2 2
La Rioja ,38824 ,25586 1,32614 2 2
Asturias -,94784 -,20245 ,54859 2 2
Canarias -1,94436 ,30223 2,29563 2 2
Cantabria ,43552 2,14989 2,45621 2 2
Galicia 1,37935 -1,06135 2,98193 2 2
Valencia ,99360 -,84751 -,74635 1 2
Baleares -8,52374 -2,09642 -1,53590 3 3
Cataluña -,79022 2,78225 -1,25852 4 4
Madrid 1,42596 2,89681 -,82553 4 4
Navarra ,87219 3,63588 -,95218 4 4
Euskadi -,46390 3,17757 -1,72973 4 4
Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo
grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la
función discriminante de Fisher, hay que incluirla en el primer grupo. 138
Estadísticos de clasificación por casos Puntuaciones
Grupo mayor 2º grupo mayor
Grupo discriminantes
Nº
real P(D>d/ P(G=g/ 2 2
casos Grupo D Grupo P(G=g|/D=d) D F. 1 F. 2 F. 3
G=g) D=d)
pronost
p gl
1 1 1 ,733 3 ,997 1,284 2 ,003 14,352 1,769 -1,469 -1,557
2 1 1 ,479 3 1,000 2,478 2 ,000 25,719 2,119 -4,016 -,826
3 1 1 ,799 3 ,999 1,008 2 ,001 15,480 1,670 -2,999 -,487
4 1 1 ,508 3 1,000 2,324 2 ,000 23,302 2,935 -1,493 -2,041
5 2 2 ,729 3 ,998 1,302 4 ,002 12,441 -,662 ,118 ,408
6 2 2 ,628 3 1,000 1,742 1 ,000 19,628 -,656 -1,133 1,943
7 2 2 ,947 3 ,999 ,366 4 ,000 14,576 ,388 ,256 1,326
8 2 2 ,700 3 ,999 1,425 4 ,000 15,549 -,948 -,202 ,549
9 2 2 ,238 3 1,000 4,229 4 ,000 24,981 -1,944 ,302 2,296
10 2 2 ,099 3 ,991 6,278 4 ,009 14,283 ,436 2,150 2,456
11 2 2 ,123 3 1,000 5,783 1 ,000 20,330 1,379 -1,061 2,982
12 2 1** ,239 3 ,609 4,220 2 ,389 6,501 ,994 -,848 -,746
13 3 3 1,000 3 1,000 ,000 2 ,000 83,320 -8,524 -2,096 -1,536
14 4 4 ,747 3 ,998 1,226 2 ,002 15,552 -,790 2,782 -1,259
15 4 4 ,673 3 ,999 1,542 2 ,001 16,068 1,426 2,897 -,826
16 4 4 ,875 3 1,000 ,694 2 ,000 20,141 ,872 3,636 -,952
17 4 4 ,845 3 1,000 ,818 2 ,000 20,352 -,464 3,178 -1,730
Grupo real: el que se asignó a cada caso en la clasificación inicial.
Grupo mayor: En el que debe estar incluido cada caso, según las funciones
discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor,
(teorema de Bayes), utilizando la Distancia de Mahalanobis, D 2, y la probabilidad
condicionada P(D>d/ G=g)
Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.
Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones
139
discriminantes canónicas.
Gráfico
Grupo 1:
Andalucía, Castilla-La Mancha,
Extremadura, Valencia y
Murcia.
Grupo 2:
Canarias, Aragón, Castilla-
León, Asturias, Cantabria,
Galicia y La Rioja.
Grupo 3:
Baleares
Grupo 4:
Cataluña, Madrid, Euskadi y
Navarra.
La única Comunidad Autónoma
reclasificada, pasándola del
grupo 2 al 1 Valencia.
140
Conclusiones
Las variables independientes que más discriminan entre
los cuatro grupos iniciales referidos al bienestar de las
autonomías son:
Nivel educativo
Oferta educativa
Vivienda
Convivencia y participación social
141
Caso a resolver:
Lugar previsible de residencia de los turistas en
Tenerife
Objetivo:
Lugar de residencia previsible de los turistas que
vienen a Tenerife.
Metodología:
Cuestionario: Fichero: base turistas curso.sav
Se han elegido: nacionalidad, noches, nº visitas, nº
personas, edad, sexo y gasto/persona/noche.
Se elige como variable dependiente de clasificación
el lugar de residencia con tres posibilidades: Puerto
de la Cruz, Las Américas-Los Cristianos, Resto.
142