You are on page 1of 142

EL SPSS Y LAS TÉCNICAS

MULTIVARIANTES AL SERVICIO DE LA
INVESTIGACIÓN DE MERCADOS

Dr. D. Ángel M. Ramos Domínguez


Director-Profesor del Curso
Dra. Dña. Victoria I. Jiménez González
Profesora del Curso
1
CONTENIDO
1. Introducción al análisis multivariante y al SPSS
2. Análisis de componentes principales:
posicionamiento de productos
3. Análisis de correspondencias: mapa de
posicionamiento
4. Análisis cluster: segmentación de mercados
5. Análisis de la Varianza paramétrico y no
paramétrico
6. Análisis discriminante: clasificación de nuevos
clientes

2
BIBLIOGRAFÍA BÁSICA

Análisis Multivariante Aplicado. Uriel Jiménez, E. y Aidás Manzano, J.


Paraninfo Cengage Learning. 2005.
Técnicas de Análisis Multivariante. Jimenez, V. y Ramos, A. Fotocopiadora
Campus. 2007.
Técnicas estadísticas con SPSS versión 12. Aplicaciones al análisis de
datos. C.Pérez. Pearson-Prentice Hall. 2005.
Técnicas de análisis multivariantes de datos. Aplicaciones con SPSS.
López, C.Pearson-Prentice-Hall.
Técnicas de Análisis de datos en investigación de mercados. Luque
Martínez, T. Ed Piramide. 2000.
Métodos multivariantes para investigación comercial. Abascal, E. y Grande,
I. Ariel Economía. 1989.
Métodos estadíticos avanzados con SPSS. Pérez López, C. Editorial
Thomson. 2005.

3
1. Introducción

Definición:
Técnicas estadísticas para el análisis descriptivo o inferencial
de observaciones multivariantes.
Objetivos:
1. Describir
2. Estructurar la población creando grupos o clases.
3. Explicar las relaciones observadas entre caracteres
Problemas a resolver:
1. Dimensionalidad
2. Información redundante
3. Clasificación

4
TIPOS DE TÉCNICAS MULTIVARIANTES

Factoriales:
1. Análisis de Componentes Principales. Para tablas de
medidas o de escalas métricas.
2. Análisis de Correspondencias Simple y Múltiple. Para tablas
de contingencia o de frecuencias

Clasificación:
1. Análisis Cluster
2. Análisis Discriminante

5
FUENTES DE DATOS
Objetivo del estudio

Información disponible:
Fuentes de datos
Encuestas:
Características de la población de la que se extrae la
muestra
Diseño muestral

Presupuesto disponible

6
2. Análisis de Componentes Principales
Objetivo:
Transformar un conjunto de variables en un nuevo conjunto, componentes
principales, incorrelacionadas entre sí. Se consigue una representación
simplificada, más sencilla y fácil de ver.

Metodología:
Los datos se presentan en una tabla rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables
heterogéneas. Hay dos espacios:
Rp : n individuos con los valores que toman para cada una de las p variables.
Rn : p variables para cada individuo.

Finalidad:

Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de


información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la
deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se
obtendrán nuevas variables, combinaciones lineales de las variables originales
llamadas factores o componentes.

7
Gráficamente:

ui es el vector unitario o propio y z i es la proyección de xi en Fi.

Como medida de la cantidad de información incorporada en una componente se utiliza su


varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La
primera componente será la de mayor varianza.

Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí,
medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con
matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de
cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales.
 
Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad
que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de
sentido, ya que las variables originales y las componentes o nuevas variables coincidirían. 8
MATRIZ DE DATOS

Cálculo de medias y
desviaciones típicas

X: MATRIZ DE DATOS TIPIFICADOS

R =X´X
MATRIZ DE CORRELACIONES

Diagonalización de R, cálculo de
valores propios, varianza
explicada y correlaciones

COMPONENTES PRINCIPALES

9
Resumen

Las componentes principales son combinaciones lineales de las variables


originales.

Los coeficientes de las combinaciones lineales son los elementos de los


vectores característicos asociados a la matriz de covarianzas de las variables
originales. Por tanto, la obtención de componentes principales es un caso típico
de cálculo de raíces y vectores característicos de una matriz simétrica.

La primera componente se asocia a la mayor raíz característica a que va


asociada.

Si se tipifican las variables originales, su proporción de variabilidad total captada


por una componente es igual a su raíz característica dividida por el número de
variables originales.

La correlación entre una componente y una variable original se determina con la


raíz característica de la componente y el correspondiente elemento del vector
característico asociado, si las variables originales están tipificadas

10
CASO:
Posicionamiento de turistas en Tenerife

Objetivo: Posicionamiento del producto turístico de


Tenerife según nacionalidades.

Metodología:

 Cuestionario: Fichero base turistas curso.sav.


 Caso de ACP: Se han elegido noches, nº visitas, nº
personas, gasto y edad
 Se crea una nueva variable: Gasto/persona/noche.
 Se obtienen las medianas por nacionalidad para las
variables.

11
Datos. Medianas
Nacionalidad Nº Nº visitas Gasto Edad
Noches anteriores noche/persona
Alemana 14,00 ,00 76,6290 42,00
Austriaca 7,00 ,00 35,7452 33,00
Belga 7,00 1,00 46,2028 35,00
Británica 14,00 2,00 37,5633 39,00
Española 7,00 ,00 85,8589 31,00
Europa exc 7,00 ,00 41,7811 24,50
Finlandesa 32,00 50,00 46,9541 73,00
Francesa 7,00 ,00 75,1265 38,00
Holandesa 14,00 ,00 18,9410 26,00
Italiana 7,00 ,00 72,9800 28,00
R. América 29,00 1,00 19,1990 22,50
R. Europa 7,00 ,00 89,0786 34,00
R. mundo 6,00 ,00 117,9486 30,00
Sueca 7,00 ,00 123,5552 30,00
Suiza 7,00 ,00 80,3639 37,00

Fuente: Encuesta a turistas. Base turistas.sav

Tabla de datos:
Matriz con 15 filas, correspondientes a las nacionalidades, y 4
columnas, correspondientes a las 4 variables. Dentro, medianas
12
SPSS versión 14.0 para windows
Analizar Reducción de datos Análisis Factorial

13
Elección del numero de ejes
Criterio de la media aritmética:

Se seleccionan las componentes cuya varianza (valor propio) o inercia


asociada a cada componente, exceda de la media de las raíces
características. Por tanto, se debe pverificar que
 λi
λh  λ  i1
p

p
Si las variables originales están tipificadas,  λ j  p , por lo que la media
de la inercia es igual a 1. Se retendrán losj1factores cuya inercia sea
mayor que 1.

14
Resultados ACP 1
Estadísticos descriptivos más importantes de las variables utilizadas
Estadísticos descriptivos

Desviación
Media típica N del análisis
Nº Noches 11,47 8,27 15
Nº visitas anteriores 3,60 12,85 15
Edad del turista 34,87 11,92 15
Gasto por persona y día 64,53 32,54 15

El perfil promedio de los turistas de la muestra tiene un estancia promedio de


11 o 12 días, han visitado con anterioridad la isla entre 3 y 4 ocasiones, el
gasto persona/día de sus vacaciones ha sido de 64,53€, la edad es
aproximadamente 35 años.
La variable con mayor grado de dispersión relativa es el nº de visitas
anteriores (357%).

15
Resultados ACP 2
Matriz de correlaciones

Nº visitas Edad del Gasto por


Nº Noches anteriores turista persona y día
Correlación Nº Noches 1,000 ,702 ,509 -,508
Nº visitas anteriores ,702 1,000 ,887 -,170
Edad del turista ,509 ,887 1,000 -,016
Gasto por persona y día -,508 -,170 -,016 1,000
Sig. (Unilateral) Nº Noches ,002 ,026 ,027
Nº visitas anteriores ,002 ,000 ,272
Edad del turista ,026 ,000 ,478
Gasto por persona y día ,027 ,272 ,478

Matriz de coeficientes de correlación para todos los pares de variables


originales.
Niveles de significación unilaterales de cada uno de los coeficientes.
Para un nivel del 5% de significación, resultaron significativos 4 de los 6
(67%), porcentaje de índices de correlación adecuado para el análisis.

16
Resultados ACP 3
La adecuación de los datos al análisis factorial de componentes principales se contrasta
mediante KMO y prueba de Bartlett

KMO y prueba de Bartlett


Medida de adecuación muestral de
Kaiser-Meyer-Olkin. ,572

Prueba de esfericidad Chi-cuadrado


32,762
de Bartlett aproximado
gl 6
Sig. ,000

17
Resultados ACP 4
KMO:
Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las
variables son pequeñas. Indica la proporción de varianza de las variables originales que
es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un
análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados
probablemente no sean muy útiles.

  rij2
KMO 
i j
rij : coeficiente de correlación lineal de Pearson entre las variables i,j
  rij2    a ij2
i j i j aij: coeficiente de correlación parcial entre las variables i,j

KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP.

Prueba de esferidad de Bartlett:


Indica si la matriz de correlaciones es una matriz identidad, por lo que que las variables
no están relacionadas
Hay evidencia suficiente para rechazar que la matriz de correlaciones es una matriz
identidad. Existe un cierto nivel de relación entre las variables.

18
Resultados ACP 5
Matrices anti-imagen

Nº visitas Edad del Gasto por


Nº Noches anteriores turista persona y día
Covarianza anti-imagen Nº Noches ,333 -,117 ,057 ,236
Nº visitas anteriores -,117 ,128 -,130 -,013
Edad del turista ,057 -,130 ,184 -,047
Gasto por persona y día ,236 -,013 -,047 ,661
Correlación anti-imagen Nº Noches ,617a -,567 ,229 ,503
Nº visitas anteriores -,567 ,556a -,850 -,043
Edad del turista ,229 -,850 ,569a -,136
Gasto por persona y día ,503 -,043 -,136 ,513a
a. Medida de adecuación muestral

Covarianzas y correlaciones parciales negativas. Índice de las correlaciones no debidas a los


factores. Valores pequeños: las variables están relativamente libres de correlaciones no
explicadas. La mayoría de los valores fuera de la diagonal principal deberían ser muy pequeños
(próximos a cero). En nuestro caso, parece existir una parte importante de las correlaciones entre
las variables que los factores extraídos no consiguen explicar.
Elementos de la diagonal principal de la matriz de correlación anti-imagen: medida de adecuación
muestral para cada variable. Valores inferiores a 0,5: Las variables no se ajustan a la estructura
de las otras. Deberíamos eliminarlas del análisis. En nuestro caso todas las variables presentan
una medida de adecuación muestral superior a 0,5.

19
Resultados ACP 6
Comunalidades

Inicial Extracción
Nº Noches 1,000 ,835
Nº visitas anteriores 1,000 ,954
Edad del turista 1,000 ,918
Gasto por persona y día 1,000 ,926
Método de extracción: Análisis de Componentes principales.

Indican la cantidad de varianza de cada variable que es explicada. En el método de


extracción Componentes Principales, las comunalidades iniciales son siempre 1.
Las comunalidades de la extracción son estimaciones de la varianza de cada variable
que es explicada por los factores incluidos en la solución factorial.
Para todas las variables la cantidad de varianza explicada por los factores de la
solución factorial es alta.
Todas las variables se ajustan bien a la solución factorial.

20
Resultados ACP 7
Varianza total explicada

Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado


Autovalores iniciales de la extracción de la rotación
% de la % de la % de la
Componente Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 2,511 62,772 62,772 2,511 62,772 62,772 2,248 56,190 56,190
2 1,122 28,047 90,819 1,122 28,047 90,819 1,385 34,628 90,819
3 ,291 7,265 98,084
4 ,077 1,916 100,000
Método de extracción: Análisis de Componentes principales.

Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como
componentes o factores posibles.
Total: Cantidad de varianza explicada por cada componente en las variables observadas.
“% de varianza”: Porcentaje de varianza explicada por las componentes.
“% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente
correspondiente y las anteriores.
En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la
varianza de las variables originales, lo que indica un buen modelo factorial.
También se muestran las cantidades de varianza explicada por cada factor extraído una vez
realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la
varianza, mientras que el segundo factor explica el 34.63%.
21
Resultados ACP 8
Matriz de componentesa
Matriz de casos
Componente
1 2 Nacionalidad F1 F2
Nº visitas anteriores ,943 ,254 Alemana 0,142 0,380
Nº Noches ,860 -,309
Edad del turista ,848 ,447 Austriaca -0,201 -0,666
Gasto por persona y día -,404 ,873 Belga -0,167 -0,331
Método de extracción: Análisis de componentes principales. Británica 0,309 -0,619
a. 2 componentes extraídos
Española -0,505 0,466
Europa excomunista -0,471 -0,805
Cargas factoriales para cada variable
Finlandesa 3,374 0,988
sobre las componentes no rotadas.
Cada valor representa la correlación Francesa -0,254 0,443
entre la variable y la componente. Holandesa -0,026 -1,534
Pueden ayudar a formular una Italiana -0,526 0,058
interpretación de los factores. Resto América 0,524 -2,126

La mayoría de las variables originales Resto Europa -0,436 0,643


presentan una correlación alta con el Resto mundo -0,734 1,234
primero de los factores, lo que dificulta Sueca -0,720 1,335
la interpretación de los mismos. Suiza -0,308 0,535
22
Resultados ACP 9
Correlaciones reproducidas y residuos
Patrón predictivo de las relaciones. Si la solución es correcta, las correlaciones
reproducidas están próximas a los valores observados, Los residuos indican la
diferencia entre valores reproducidos y observados. La mayoría de estos valores
deberán ser pequeños.
Correlaciones reproducidas

Nº visitas Edad del Gasto por


Nº Noches anteriores turista persona y día
Correlación reproducida Nº Noches ,835b ,733 ,591 -,617
Nº visitas anteriores ,733 ,954b ,913 -,159
Edad del turista ,591 ,913 ,918b ,047
Gasto por persona y día -,617 -,159 ,047 ,926b
Residual a Nº Noches -,030 -,082 ,109
Nº visitas anteriores -,030 -,026 -,011
Edad del turista -,082 -,026 -,063
Gasto por persona y día ,109 -,011 -,063
Método de extracción: Análisis de Componentes principales.
a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 3 (50,0%)
residuales no redundantes con valores absolutos mayores que 0,05.
b. Comunalidades reproducidas

a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05.
Los valores residuales son pequeños. La bondad del modelo factorial estimado es
bastante alta 23
Resultados ACP 10
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes

Componente
1 2
Nº Noches ,189 -,397
Nº visitas anteriores ,437 ,040
Edad del turista ,477 ,211
Gasto por persona y día ,194 ,771
Método de extracción: Análisis de componentes principales.

Método de rotación: Normalización Varimax con Kaiser.

Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada
nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable
por los coeficientes de la puntuación factorial.

24
Gráfico ACP: Diagrama de dispersión

25
Rotación de los ejes: Procedimientos
Objetivo:
Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una
correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto.
Cada factor tendrá correlación alta con un grupo de variables y baja con el resto.

1. Rotación ortogonal: Queda preservada la incorrelación entre los factores.


VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas
de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con
mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo:
normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de
la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la
varianza total explicada por los factores como la comunalidad de cada una de las variables
EQUAMAX y el QUARTIMAX

2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una


asociación más nítida de cada variable con el factor correspondiente.

OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se ve


modificada la comunalidad en la rotación oblicua

26
Resultados Rotación VARIMAX 1
Matriz de componentes rotadosa

Componente
1 2
Nº visitas anteriores ,960 -,182
Edad del turista ,958 ,033
Gasto por persona y día ,017 ,962
Nº Noches ,640 -,652
Método de extracción: Análisis de componentes principales.

Método de rotación: Normalización Varimax con Kaiser.


a. La rotación ha convergido en 3 iteraciones.

Las cargas factoriales quedan más repartidas


Para la componente 1 las variables con mayores cargas factoriales son: “nº de
visitas anteriores” (+), “edad del turista” (+) y “nº de noches” (+), aunque ésta
última, también presenta una alta carga factorial con la componente 2.
Con la componente 2 además de el “nº de noches” (-), se da una alta
correlación con : “gasto por persona y día” (+).

Explicación:
Componente 1: Los turistas de más edad son los que más veces han repetido
visita a Tenerife, y los que más alargan su estancia durante sus vacaciones.
Componente 2: Los que más gastan por persona y día son los que menor
tiempo de estancia tienen.
27
Resultados Rotación VARIMAX 2
MATRIZ DE CASOS ROTADOS Factor 1:
Nacionalidad F1 F2
Cuadrante positivo:
Alemana 0,293 0,280
Nacionalidades: Finlandesa, Alemana y
- Británica.
Austriaca -0,471 0,512 Nº visitas anteriores, edad, nº noches
- Cuadrante negativo:
Belga -0,294 0,226 Nacionalidades: Resto
-
Británica 0,008 0,692 Factor 2:
Española -0,252 0,640
 
Cuadrante positivo:
- Nacionalidades: Alemana, Española, Francesa,
Europa excomunista -0,775 0,520
Italiana, Resto de Europa, Resto del Mundo,
- Sueca y Suirza.
Finlandesa 3,467 0,580 Gasto noche persona
Francesa -0,036 0,510 Cuadrante negativo:
- Nacionalidades: Resto.
Holandesa -0,691 1,370 Nº noches
Italiana -0,449 0,281
-
Resto América -0,454 2,142
Resto Europa -0,112 0,769
28
Resto mundo -0,123 1,430
Gráfico ACP rotado: Diagrama de dispersión

29
Caso a resolver:
Imagen de fabricantes de modas para
penetración en un mercado extranjero
La marca de ropas St. John no es muy conocida en Europa. Procede de EEUU.
Allí es adquirida por mujeres de nivel socioeconómico alto. St. John fabrica
primordialmente trajes de chaqueta, empleando fibras naturales que mezcla con
una pequeña parte de un polímero sintético que impide que la ropa se arrugue.
Muchas mujeres compran ropa de este fabricante, especialmente si realizan un
trabajo en el que la imagen sea importante, pues los trajes presentan un aspecto
impecable después de muchas horas de llevarlos puestos. Se puede llegar al
final de la jornada casi sin que sea necesario tener que plancharlos.
En 1991 se realizó un estudio sobre el posicionamiento de marcas de fabricantes
de ropa (Dishener y Grande, 1991) para detectar cómo era percibida esta marca
y encontrar el segmento en el que podría ser incluida y decidir sobre la
oportunidad de penetrar en el mercado español.

Fase cualitativa:
Como la marca no era conocida en España, no tenía mucho sentido obtener
información en el mercado. Se optó por consultar con expertos del mundo de la
moda para que posicionaran las marcas. Tras una serie de entrevistas con
directores de escuelas de diseño de moda se consideraron las variables más
importantes para juzgar una serie de marcas. En un principio se pensó que,
debido al perfil socioeconómico de las compradoras de St. John en EEUU, el
segmento dentro del cual podría penetrar la marca podría ser el de Loewe o
Chanel. 30
Objetivo del estudio:

Averiguar en qué medida se situaba cada una de las marcas respecto a una
marca media. Se intenta obtener las valoraciones de cada marca; no sólo estudiar
qué aspectos destacan en su imagen, sino si se encuentran por debajo o por
encima de la media.

Metodología:

Se consideró que la técnica más adecuada para este caso era el Análisis de
Componentes Principales, que trabaja con datos métricos. Se diseñó un
cuestionario en el que debían valorarse de 0 a 100 las características citadas
para cada una de las marcas.
La valoración que debía darse era en términos positivos: cuanto más cara fuera la
marca, mayor su calidad, prestigio, exclusividad, etc., mayor tenía que ser la
puntuación asignada. La aparente dificultad de las valoraciones - obliga a pensar
y fatiga - quedó mitigada por el reducido número de atributos a valorar y la gran
cualificación de los encuestados, todos ellos expertos en moda.

Muestra:

El cuestionario se distribuyó a 256 directores de centros de diseño de moda, 30


distribuidores y 10 importadores. La información se recogió a lo largo de mayo y
junio de 1991. Los valores medios de cada marca en cada atributo son los
siguientes:

31
CASAS P1 P2 P3 P4 P5 P6 P7
ÚNGARO 79 87 87 87 82 72 62
ARMANI 69 89 96 92 91 72 75
GENNY 63 77 73 91 72 73 90
VERINO 64 72 68 56 55 69 62
ESCADA 70 91 82 76 82 75 72
FERRAUD 60 78 70 71 72 59 53
VERSACE 78 83 92 91 66 87 79 P1 PRECIO
ST. JOHN 72 87 54 75 85 59 81 P2 CALIDAD
DIOR 69 83 85 81 74 53 77 P3 PRESTIGIO
KENZO 68 78 82 79 65 81 65 P4 EXCLUSIVIDAD
A. DOMINGUEZ 65 76 75 77 72 68 44 P5 ELEGANCIA
BURBERRYS 69 77 74 63 72 30 48 P6 VANGUARDIA
MOSCHINO 71 81 89 87 44 92 91 P7 COMPLEMENTOS
YVES ST.LAURENT 62 82 79 80 81 63 72
P.CARDIN 66 71 75 69 72 37 53
RODIER 65 62 60 58 48 30 28
LOEWE 74 91 97 92 91 48 90
CHANEL 73 92 99 97 97 64 94
ESCORPION 71 63 52 48 52 32 27
BENETTON 70 53 77 64 30 62 51

32
3. Análisis de Correspondencias Simples

Estudio de tablas de contingencia, para juzgar objetos según un


cierto número de criterios.

Matriz de datos de orden (n*p):Tabla de doble entrada.

 Filas: n modalidades de la variable A.


 Columnas: p modalidades de la variable B.
 Intersección kij: frecuencia conjunta entre las modalidades i y j.

Método:

 Simétrico con relación a líneas y columnas.


 Deberá permitir comparar las distribuciones de frecuencias.

33
Caso:
Lugar de residencia de turistas y su edad
Estudio sobre la posible asociación entre la zona o lugar de residencia de los
turistas en Tenerife y su edad agrupada en intervalos

Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha
realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia
de los turistas en Tenerife.

Se elaboró una tabla de contingencia. Como algunos pares de modalidades se


repetían un número muy pequeño de veces, se agruparon:

 Los ocho intervalos de edad de la base de datos se redujeron a seis:


* < de 24 anos * 24 a 30 años
* 31 a 40 años * 41 a 50 años
* 51 a 60 años * > 60 años

 El lugar de residencia se reduce a tres modalidades:


* Puerto de la Cruz* Las Américas-Los Cristianos * Resto

34
Metodología:
Análisis de correspondencias simple
Objetivo:

Conocer el lugar de residencia de los turistas que se asocia con un


intervalo de edad en mayor proporción que los demás.
Detectar las características que más destacan en cada intervalo de
edad y en cada lugar de residencia de los turistas.
Reducir nº de caracteres relacionados a dimensiones independientes.

Método:
Obtener ejes factoriales que reducen la información original mediante
nuevas variables estudiando la asociación entre modalidades fila y
columna. Se parte de frecuencias relativas para comparar.

En el espacio de las columnas: nube de n puntos i con coordenadas


kij/ki. para j = 1, 2, .....p
En el espacio de las filas: nube de p puntos j con coordenadas kij/k.j
para i = 1, 2, ......n
35
Transformaciones en la matriz de datos
F Perfil de líneas en Rp
1.............j..............p
1
.
i Kij
fij fij/fi
.
n

Perfil de líneas en Rn

fij/fj

Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes.


p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones.
Centro de gravedad: media de perfiles de frecuencias afectados por sus masas
n f ij
 f i.  f.j
i 1 f i.
36
Tabla de contingencia
Tabla de correspondencias

Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años 33 95 16 144
[24 - 30) 41 85 26 152
[30 - 40) 50 82 51 183
[40 - 50) 35 71 45 151
[50 - 60) 25 46 27 98
> de 60 años 26 32 11 69
Margen activo 210 411 176 797

Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las


Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y
que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40).

Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de


24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas
alojados en el Resto de Lugares tienen una edad >60 años los que representan el
grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las
Américas-Los Cristianos es la zona más frecuente de residencia.
37
SPSS: Introducir los datos
Poner en las dos primeras columnas los pares de rangos posibles para las
columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y,
en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas
al valor de cada rango.

Utilizar como variable de ponderación las frecuencias mediante los comandos


del menú: Datos, Ponderar casos

38
Distancia Chi-cuadrado

1 f ij f i j 2 1 f ij f ij  2
2
d (i,i  ) =  ( )( - ) 2
d (j, j  ) =  ( )( - )
f j fi f i fi f j f j

Propiedades:

 Equivalencia distribucional
Permite agregar dos modalidades de idénticas frecuencias de una
variable, en una nueva modalidad afectada por la suma de sus masas,
sin cambiar nada, ni en las distancias entre modalidades de esta
variable o de la otra.
 Relaciones de transición
Ligan gráficamente las dos variables representadas en líneas y
columnas.

39
Obtención de los ejes factoriales
Analizar Reducción de datos Análisis de correspondencias

Dos transformaciones: en el perfil de líneas y de las columnas.


Se toma como columnas la dimensión más pequeña.
Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje:
 2 
Max  fi.d (i, O)
u  i 
n f f
Matriz a diagonalizar s   ij ij´
jj
i 1 f i f .j´

Descartado el valor propio trivial igual a 1 y su vector propio asociado, retenemos


los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos 40
como máximo p-1 ejes factoriales.
Normalización

Canónica: Para examinar


conjuntamente las diferencias o
similitudes entre dos variables.

Principal: Examinar las diferencias


o similitudes entre categorías de
variables, pero por separado.

Principal por filas: Averiguar cómo


difieren entre sí las distintas
categorías de la variable fila.

Principal por columnas: Averiguar


cómo difieren entre sí las distintas
categorías de la variable columna.

Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia


y contribuciones, pero las puntuaciones por filas y columnas son diferentes.

41
Estadísticos

Dependiendo de la opción elegida en la normalización se podrá


demandar el gráfico conjunto o no.

Si se ha elegido la normalización canónica: Gráfico conjunto.


Si se ha elegido la principal: Gráficos por separado de filas y columnas.

42
Análisis
Valores propios. Inercia total
p 1
χ2
I   λα 2
χ  k I Contraste de independen cia  I
α 1 k
Coordenadas: Proyecciones de los puntos filas en los ejes factoriales

Contribuciones a la inercia de puntos a varianza explicada en cada eje


f i.ψ αi2
Crα (i) 
λα
Correlaciones: Contribución de dimensiones a la inercia de cada punto

2 d α2 (i, G) ψ αi2
Cos (i)  2
α  2
d (i, G) d (i, G)

43
Interpretación de representación simultánea
Filas (columnas) con estructura similar, situación próxima en el plano.

Cercanía punto fila i y columna j: interpretar si están alejados del origen.

Línea con perfil próximo al medio, se encontrará próxima al origen.

Buscar los puntos de mayor Contribución absoluta de las inercias. Se


separa los que se proyectan del lado positivo de los del lado negativo.

Estudiar la calidad de representación (correlación) de los puntos.


Correlación pequeña: tiene un papel importante sobre otro eje.

Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación


del factor, sí se encuentran bien representados (correlación alta).

44
Resultados AC 1
Perfil fila
Proporción de modalidades de la variable fila en cada modalidad de
la variable columna. Proporción de edades en cada zona. El 66%
de los turistas de < 24 años se alojaron en Las Américas-Los
Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de
turistas de la muestra alojados en ella.
Perfiles de fila

Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años ,229 ,660 ,111 1,000
[24 - 30) ,270 ,559 ,171 1,000
[30 - 40) ,273 ,448 ,279 1,000
[40 - 50) ,232 ,470 ,298 1,000
[50 - 60) ,255 ,469 ,276 1,000
> de 60 años ,377 ,464 ,159 1,000
Masa ,263 ,516 ,221

45
Resultados AC 2
Perfil columna
De 30 a 40 años es la edad más frecuente (23%), repitiéndose esta
situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y
los alojados en el Resto de Lugares (29%). Sin embargo, entre los
turistas alojados en Las Américas-Los Cristianos, el intervalo de edad
modal es los jóvenes de menos de 24 años (23.1%).
Perfiles de columna

Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Masa
< de 24 años ,157 ,231 ,091 ,181
[24 - 30) ,195 ,207 ,148 ,191
[30 - 40) ,238 ,200 ,290 ,230
[40 - 50) ,167 ,173 ,256 ,189
[50 - 60) ,119 ,112 ,153 ,123
> de 60 años ,124 ,078 ,063 ,087
Margen activo 1,000 1,000 1,000

46
Resultados AC 3
Resumen

Confianza para el Valor


Proporción de inercia propio

Desviación Correlación
Dimensión Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada típica 2
1 ,183 ,033 ,807 ,807 ,032 ,050
2 ,089 ,008 ,193 1,000 ,038
Total ,041 32,953 ,000a 1,000 1,000
a. 10 grados de libertad

Valor propio o singular: medida de asociación para cada una de las dimensiones
entre las variables fila y columna, donde valores altos indican la existencia de una
fuerte relación

 Inercia: Cuadrado del valor propio. Varianza explicada


 Inercia global
p 1
I   λα
α 1

Chi cuadrado: Prueba de independencia.


2 χ2
χ  kI  I
k
2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre 47
las
modalidades.
ANÁLISIS
Analisis en Rp: Examen de los puntos fila

 COORDENADAS :Puntos fila


Proyecciones de los puntos filas en los ejes factoriales. Mientras más alejados
del origen sean los valores, mejor representadas estarán las filas en cada uno
de los ejes.

 CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS:


Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se
busca conocer los elementos responsables de la construcción de cada eje.
fi.ψ2αi
Crα (i) 
λα
 CORRELACIÓN O CONTRIBUCIÓN RELATIVA:
La contribución de las dimensiones a la inercia de cada punto fila es la
correlación existente entre cada uno de los caracteres y los nuevos ejes.
Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la
nube al punto i.
2 d2α (i, G) ψ2αi
Cosα (i)  2 
d (i, G) d2 (i, G)
Analisis en Rp: Examen de los puntos columna. Igual

48
Resultados AC 3
 Analisis en Rp: Examen de los puntos fila
Examen de los puntos de filaa

Puntuación en la
dimensión Contribución
De los puntos a la
inercia de la De la dimensión a la inercia del
dimensión punto
Intervalos de Edad Masa 1 2 Inercia 1 2 1 2 Total
< de 24 años ,181 ,718 -,239 ,018 ,510 ,115 ,949 ,051 1,000
[24 - 30) ,191 ,284 ,056 ,003 ,084 ,007 ,981 ,019 1,000
[30 - 40) ,230 -,363 ,063 ,006 ,165 ,010 ,985 ,015 1,000
[40 - 50) ,189 -,399 -,253 ,007 ,165 ,136 ,836 ,164 1,000
[50 - 60) ,123 -,309 -,073 ,002 ,064 ,007 ,973 ,027 1,000
> de 60 años ,087 ,150 ,865 ,006 ,011 ,725 ,058 ,942 1,000
Total activo 1,000 ,041 1,000 1,000
a. Normalización Simétrica

49
Resultados AC 4

Analisis en Rn: Examen de los puntos columna


Examen de los puntos columnaa

Puntuación en la
dimensión Contribución
De los puntos a la
inercia de la De la dimensión a la inercia del
dimensión punto
Lugar de Residencia Masa 1 2 Inercia 1 2 1 2 Total
Pto. de la Cruz ,263 -,015 ,500 ,006 ,000 ,736 ,002 ,998 1,000
Américas-Cristianos ,516 ,331 -,174 ,012 ,310 ,175 ,881 ,119 1,000
Resto Lugares ,221 -,755 -,190 ,024 ,690 ,089 ,970 ,030 1,000
Total activo 1,000 ,041 1,000 1,000
a. Normalización Simétrica

50
GRÁFICO

51
Interpretación de resultados
INTERPRETACIÓN:

• Eje 1 

Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos.
Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz
muy ligeramente.
Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto
de Lugares.
Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares.

• Eje 2

Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz.


Lado negativo: < 24 años, 41-50 y 51-60 años. Américas-Cristianos y Resto de Lugares.
Contribución de puntos a la inercia de la dimensión: 41-50 años y < 24 años. Puerto de
la Cruz.
Contribución de la dimensión a la inercia del punto: 41-50 años. Puerto de la Cruz.

52
CONCLUSIONES
Existe asociación entre las dos variables, por lo que
será posible el hacer corresponder las modalidades
de una con las de la otra.

Los turistas con una edad mayor de los 60 años se


alojan preferentemente en la zona del Puerto de la
Cruz, mientras que los menores de 30 años lo hacen
en Las Américas-Los Cristianos.

Los turistas con una edad entre los 30 y 50 años


tienen una tendencia a alojarse en el grupo de zonas
etiquetadas con el nombre de Resto de Lugares.

53
Caso a resolver:
Forma jurídica de las empresas exportadoras
canarias y su propensión a exportar
Se quiere realizar un estudio sobre la relación existente entre las
distintas formas jurídicas de las empresas exportadoras canarias
y su propensión a exportar, definida ésta como el cociente entre
el volumen de exportaciones y el volumen de negocios de cada
una de ellas.
Los datos con los que se cuenta provienen de una Base de Datos
elaborada por la empresa CAMERDATA en 1990 que contiene
información sobre 36020 empresas exportadoras españolas, de
las cuales 693 pertenecen a la Comunidad Autónoma de
Canarias.
Una vez depurada la Base de Datos, el número de empresas
exportadoras canarias se redujo a 394 realizándose
transformaciones sobre las variables con las que cuenta la Base
de Datos

54
Las siete formas jurídicas de las A partir del volumen de exportación y
empresas, se redujeron a cuatro volumen de negocios se obtuvo la
mediante la agregación de algunas propensión a exportar de cada empresa
de ellas. Así, las formas jurídicas de la Base de datos depurada. Hecho
resultantes fueron: esto, se agregaron los resultados. Así, la
Sociedades Anónimas propensión a exportar presentara tres
modalidades:
Sociedades Limitadas
Propensión a exportar baja: 0 a 10%.
Autónomos Propensión a exportar media:10 a
Otros 50% .
Propensión a exportar alta: 50 a 100%.
Tabla de correspondencias

Lugar de Residencia
Pto. de la Américas- Resto
Intervalos de Edad Cruz Cristianos Lugares Margen activo
< de 24 años 33 95 16 144
[24 - 30) 41 85 26 152
[30 - 40) 50 82 51 183
[40 - 50) 35 71 45 151
[50 - 60) 25 46 27 98
> de 60 años 26 32 11 69
Margen activo 210 411 176 797

55
4. Análisis de Correspondencias Múltiples

Generalización del ACS. Permite describir grandes tablas binarias,


referidas por ejemplo a ficheros de encuestas socio-económicas.
Líneas: individuos u observaciones.
Columnas: Modalidades de variables nominales.
El ACM es un Análisis de Correspondencias Simple aplicado, no a
tablas de contingencia sino a una tabla disyuntiva completa Z, en la
que para cada modalidad de cada variable hay sólo dos valores
posibles: 0 = el encuestado no contesta esa modalidad. 1= es la
respuesta elegida por él. Las propiedades de Z son interesantes y los
procedimientos de cálculo y sus reglas de interpretación de las
representaciones obtenidas son simples y específicas.
La mayoría de los ficheros de encuestas presentan las respuestas a
las preguntas bajo la forma de una tabla disyuntiva completa.

56
La tabla disyuntiva completa
La forma de la matriz Z (Tabla disyuntiva completa) será:
p
Si hay alguna variable
0 1 0 0 0 1 0 00 0 1 0 continua, debe transformarse
Z  (n, p)
0 0 1 0 0 0 1 01 0 0 0 en nominal, ordenándose en
0 0 0 1 1 0 0 10 1 0 0 intervalos a los que se da un
1 0 0 0 0 0 0 00 0 0 1 rango de valores.
Las frecuencias marginales de las líneas de la tabla disyuntiva completa
son iguales al número de preguntas, s, y las frecuencias marginales de las
columnas corresponden al número de sujetos que han elegido la
modalidad j de la pregunta q, por lo que para cada subtabla, el número
total de individuos es n.
En consecuencia, si para n individuos se dispone de respuestas respecto
a, por ejemplo, dos variables nominales que tienen respectivamente p1 y
p2 modalidades, entonces es equivalente someter a un Análisis de
Correspondencias Simples la tabla de contingencia (p1, p2) y analizar la
tabla binaria de n líneas y (p1 + p2) columnas que describe las
respuestas.
57
La tabla de Burt

A partir de la tabla disyuntiva completa se puede construir la tabla de


contingencia de Burt, B, que es una tabla simétrica de orden (p, p):
B = Z´Z
B es una yuxtaposición de tablas de contingencia y está formada de s2
bloques de la forma:
Cada bloque es una
p1 p2 ps
submatriz formada
p1 0 por tablas de
0
contingencia de las
p2 0 variables dos a dos,
p
B = Z´Z = 0 salvo los bloques que
se están en la
0 diagonal que son las
ps
0 tablas de
contingencia de cada
variable consigo
p misma.
58
Principios del análisis de correspondencias múltiples

Es el análisis de correspondencias de una tabla disyuntiva completa,


estudiándose la nube de los individuos y la nube de las modalidades.
Sus principios son, por tanto, los del análisis de correspondencias:
Iguales transformaciones de la tabla en los perfiles líneas y columnas
Igual criterio de ajuste con ponderación de los puntos por sus
frecuencias marginales
Igual distancia, la chi-cuadrado
Presenta propiedades particulares debido a la naturaleza misma de la
tabla disyuntiva completa.
La Tabla disyuntiva completa es equivalente a la tabla de Burt y
ambos producen los mismos factores

59
Caso:
Estudio de los turistas en función del lugar
de residencia, sexo y alojamiento
A partir de la base de Residencia Sexo Alojamiento
datos referida a los Puerto Cruz Hombre Hotel 1 y 2 *

turistas que vienen a Sur Mujer Hotel 3 *

Tenerife, se quiere Hotel 4 *

estudiar la asociación Hotel 5 *

existente entre el Aparthotel 1 y 2 *

lugar donde residen Aparthotel 3 *

en la isla, el sexo y el Aparthotel 4 y 5 *


tipo de alojamiento en Apartamento 1 ll
el que se quedan, Apartamento 2 ll
con sus respectivas Apartamento 3 ll
modalidades. Apartamento 4 o 5 ll

T. sharing y Propiedad

60
Con estas tres variables se ha construido la tabla de Burt.
A partir de ella se ha creado una hoja de cálculo en spss (corres
multiple turismo.sav).

Residencia Sexo Alojamiento


TABLA DE BURT Hotel Aparthotel Apartamento
P. Cruz Sur Hombre Mujer T. sh y Prop.
1y2* 3* 4* 5* 1* y 2* 3* 4* y 5* 1 ll 2 ll 3 ll 4 o 5 ll
Puerto Cruz 210 0 108 102 7 33 99 3 5 26 7 4 7 4 5 10
Residencia
Sur 0 587 291 296 5 84 162 20 15 73 56 27 26 50 29 40
Hombre 108 291 399 0 7 51 133 12 11 51 31 18 12 32 20 21
Sexo
Mujer 102 296 0 398 5 66 128 11 9 48 32 13 21 22 14 29
Hotel 1 y 2 * 7 5 7 5 12 0 0 0 0 0 0 0 0 0 0 0
Hotel 3 * 33 84 51 66 0 117 0 0 0 0 0 0 0 0 0 0
Hotel 4 * 99 162 133 128 0 0 261 0 0 0 0 0 0 0 0 0
Hotel 5 * 3 20 12 11 0 0 0 23 0 0 0 0 0 0 0 0
Aparthotel 1 y 2 * 5 15 11 9 0 0 0 0 20 0 0 0 0 0 0 0
Aparthotel 3 * 26 73 51 48 0 0 0 0 0 99 0 0 0 0 0 0
Alojamiento
Aparthotel 4 y 5 * 7 56 31 32 0 0 0 0 0 0 63 0 0 0 0 0
Apartamento 1 ll 4 27 18 13 0 0 0 0 0 0 0 31 0 0 0 0
Apartamento 2 ll 7 26 12 21 0 0 0 0 0 0 0 0 33 0 0 0
Apartamento 3 ll 4 50 32 22 0 0 0 0 0 0 0 0 0 54 0 0
Apartamento 4 o 5 ll 5 29 20 14 0 0 0 0 0 0 0 0 0 0 34 0
T. sharing y Propiedad 10 40 21 29 0 0 0 0 0 0 0 0 0 0 0 50

61
Resultados
Utilizaremos una tabla de Burt.
Con ella se podrán obtener las puntuaciones (distancias al
centro de gravedad), contribuciones absolutas de cada
modalidad y variable a los ejes o factores obtenidos
(contribución de cada modalidad o variable a la inercia de los
nuevos ejes) y contribuciones relativas o correlaciones de cada
modalidad con los nuevos ejes.
El número de ejes considerado fue de 2.
Como en la Tabla de Burt las filas y las columnas representan
las mismas modalidades, el estudio de ambas ofrece iguales
resultados, por lo que sólo presentaremos los de las filas.
Para la resolución en el SPSS, en primer lugar hay que
introducir los datos de la misma forma que en el análisis de
correspondencias simples, creando por tanto tres variables. Las
dos primeras corresponden a los rangos de todas las
modalidades y, en la tercera, se incluirán las frecuencias
conjuntas de los pares de modalidades, las cuales funcionarán
como ponderaciones.

62
Los valores singulares, inercia, porcentajes de varianza explicada y sus
acumulados fueron:
Proporción de inercia Confianza para el Valor propio
Dimensión Valor propio Inercia Chi-cuadrado Sig. Correlación
Explicada Acumulada Desviación típica
2
1 0,4176 0,1744 0,1193 0,1193 0,0112 0,1794
2 0,3708 0,1375 0,0941 0,2134 0,0117
3 0,3333 0,1111 0,0760 0,2894
4 0,3333 0,1111 0,0760 0,3655
5 0,3333 0,1111 0,0760 0,4415
6 0,3333 0,1111 0,0760 0,5175
7 0,3333 0,1111 0,0760 0,5935
8 0,3333 0,1111 0,0760 0,6696
9 0,3333 0,1111 0,0760 0,7456
10 0,3333 0,1111 0,0760 0,8216
11 0,3333 0,1111 0,0760 0,8976
12 0,2966 0,0880 0,0602 0,9578
13 0,2482 0,0616 0,0422 1,0000
Total 1,4615 10483,6594 0,0000 1,0000 1,0000

Los valores singulares son los valores propios que se obtendrían si


hubiéramos partido de una tabla disyuntiva completa, cuyo cuadrado es igual a
la Inercia o valores propios resultantes de la matriz de Burt.

En el Análisis de Correspondencias Múltiples, los porcentajes de varianza


explicada suelen ser pequeños para cada eje y no se pueden explicar de igual
forma que en el análisis de correspondencias simples.
63
Examen de los puntos
Las distancias de las modalidades, mientras más alejadas se
encuentren del origen, mejor representados estarán. Mientras
más alejadas estén las modalidades entre sí en el gráfico
menos asociación existirá entre ellas y cuanto más cercanas,
más asociación existirá entre ellas.

La contribución de los puntos a la inercia de cada dimensión o


contribución de cada una de las filas a la inercia o varianza
explicada en cada uno de los ejes considerados

La contribución de las dimensiones a la inercia de cada punto.


Se refiere a la correlación existente entre cada uno de los
caracteres y los nuevos ejes.

A continuación se presentan los resultados y el diagrama de


dispersión de los dos ejes obtenidos.

64
Examen de los puntos de fila(a)
Puntuación
Contribución
dimensión
Modalidades
Masa Inercia De puntos a inercia De dimensión a inercia
1 2 de la dimensión del punto
1 2 1 2 Total
Puerto Cruz 0,0878 1,3235 -0,0499 0,0871 0,3684 0,0006 0,7377 0,0009 0,7386
Sur 0,2455 -0,4735 0,0179 0,0312 0,1318 0,0002 0,7377 0,0009 0,7386
Hombre 0,1669 0,0038 -0,7465 0,0562 0,0000 0,2507 0,0000 0,6135 0,6135
Mujer 0,1665 -0,0038 0,7483 0,0563 0,0000 0,2514 0,0000 0,6135 0,6135
Hotel 1 y 2* 0,0050 2,2753 -1,2916 0,1104 0,0622 0,0226 0,0983 0,0281 0,1264
Hotel 3 0,0489 0,1300 0,8489 0,0951 0,0020 0,0951 0,0036 0,1375 0,1411
Hotel 4* 0,1092 0,8233 -0,1887 0,0773 0,1772 0,0105 0,4000 0,0187 0,4187
Hotel 5* 0,0096 -0,9448 -0,2004 0,1082 0,0206 0,0010 0,0331 0,0013 0,0345
Aparh 1 y 2* 0,0084 -0,0944 -0,6479 0,1084 0,0002 0,0095 0,0003 0,0120 0,0123
Aparh 3* 0,0414 -0,0057 -0,1925 0,0973 0,0000 0,0041 0,0000 0,0058 0,0058
Aparh 4 y 5* 0,0263 -1,0830 0,2056 0,1034 0,0740 0,0030 0,1249 0,0040 0,1288
Apart 1 ll 0,0130 -0,9530 -0,9822 0,1073 0,0282 0,0337 0,0458 0,0432 0,0891
Apart 2 ll 0,0138 -0,3691 1,8511 0,1069 0,0045 0,1275 0,0073 0,1640 0,1714
Apart 3 ll 0,0226 -1,3432 -1,1078 0,1052 0,0976 0,0747 0,1617 0,0977 0,2594
Apart 4 o 5 ll 0,0142 -0,8247 -1,0939 0,1068 0,0232 0,0459 0,0378 0,0591 0,0969
T. sh y prop 0,0209 -0,4536 1,1095 0,1045 0,0103 0,0694 0,0172 0,0914 0,1086
Total activo 1,0000 1,4615 1,0000 1,0000
a Normalización Simétrica

65
66
Eje 1:
Se contraponen los turistas que se quedan en el Puerto de la Cruz y que destacan por
alojarse en hoteles de 1, 2 y 4*, todos ellos en el lado positivo, a los turistas que van al
Sur y que se alojan en hoteles de 5*, aparthoteles de 4 y 5* y apartamentos de 1, 3, 4 y 5
llaves, todos ellos en el lado negativo.

Las variables con mayor contribución absoluta a la inercia del eje 1 son Puerto de la
Cruz, Sur y Hoteles de 4*.

Las variables más correlacionadas con el eje 1 son Puerto Cruz, Sur y Hoteles de 4*.

Eje 2:
Sobresalen en el lado positivo los turistas mujeres, que se alojan en hoteles de 3*,
apartamentos de dos llaves y Time sharing y propiedad, contraponiéndose a los turistas
hombres que se alojan en hoteles de 1 y 2*, apartamentos de 1, 3, 4 y 5 llaves, todas
ellas en el lado negativo.

Las variables con mayor contribución absoluta a la inercia del eje 2 son:
Hombres, mujeres y apartamentos de 2 llaves.

Las variables más correlacionadas con el eje 2 son hombre y mujer.

Por tanto, podemos decir que el eje 1 viene afectado por la variable lugar de
residencia, mientras que en el eje 2 influye la variable sexo. 67
CONCLUSIONES
En cuanto al lugar de residencia y al sexo de los turistas, éstos residen
en el Puerto de La Cruz y en el Sur, independientemente del sexo.

Las diferencias se encuentran en el tipo de alojamiento que utilizan. Así,


en el Puerto de la Cruz se caracterizan los que se quedan en hoteles de
4*, frente al Sur, que se caracterizan por alojarse en aparthoteles de 4 y
5* y en hoteles de 5*.En cuanto al tipo de alojamiento por sexo, las
mujeres se caracterizan por preferir especialmente los apartamentos de
2 llaves y el Time sharing y propiedad, frente a los hombres, que
prefieren especialmente los apartamentos de 1, 3, 4 y 5 llaves.

Nos referimos a que en esos tipos de alojamientos se diferencian


hombres y mujeres o Puerto de la Cruz y Sur.

68
Caso a resolver:
Estudio de la conducta del consumidor en Centros
Comerciales en Tenerife
Se realizaron encuestas en los Municipios de Santa Cruz de Tenerife,
Puerto de la Cruz y Adeje en la isla de Tenerife para estudiar el
comportamiento de los consumidores en Centros Comerciales de la isla
de Tenerife. El tamaño de la muestra fue de 456 elementos. (datos acm
consumidores.sav)

El objetivo es analizar el comportamiento de los consumidores en los


Centros Comerciales de Tenerife estudiando la asociación existente
entre una serie de variables y entre sus respectivas modalidades.

Se partió de las preguntas sobre la edad, el sexo, los estudios, los


ingresos y el gasto, al ser consideradas como básicas. A ellas se
añadieron las que tenían un alto grado de asociación con aquellas,
como son tipo de transporte al centro comercial, lugar de residencia,
frecuencia de las visitas o compras y razón de la visita.

La técnica adecuada será el Análisis de Correspondencias Multiples

69
5. Análisis Cluster

Conjunto de técnicas multivariantes de clasificación que ante un


conjunto de datos derivados de una muestra de entidades, tratan de
reorganizarlas en clases, tipos o grupos, internamente los más
homogéneos posible y heterogéneos entre sí.

Etapas:
 Elección de las entidades (objetos, variables, individuos, etc..) que se
van a clasificar.
 Elección de las características que permiten la definición de las
entidades y sobre las que se basará la clasificación final.
 Elección de una medida que defina la proximidad entre entidades.
 Selección de un método de clasificación.
 Interpretación de los grupos resultantes.

70
Método
 Objetivo: condiciona en buena medida los criterios empleados en la
agrupación, por lo que no existe una metodología cluster única.
Describiremos aquí la clasificación jerárquica que es la más utilizada.

 Puede aplicarse a variables cuantitativas o cualitativas.

 Procedimiento de agrupamiento: Formar los conglomerados en


distintas etapas.

 Representación gráfica: Dendograma.

 Medida de homogeneidad entre dos elementos, viene dada por la


distancia entre ellos. Hemos utilizado la distancia euclídea, ya que
trabajaremos con valores y no con frecuencias:
1/2
p
  
d(Xi , X j )    x ik  x jk 2 
k 1 
71
Caso:
Resultados de la rotación varimax en el ACP para el
posicionamiento de turistas en Tenerife
MATRIZ DE CASOS ROTADOS
Nacionalidad F1 F2
El objetivo es clasificar a las
Alemana 0,293 0,280
distintas nacionalidades de
Austriaca -0,471 -0,512
turistas de la muestra en
grupos homogéneos, en Belga -0,294 -0,226
función de las dos nuevas Británica 0,008 -0,692
variables creadas en el Española -0,252 0,640
Análisis de Componentes Europa excomunista -0,775 -0,520
Principales. Finlandesa 3,467 -0,580
Francesa -0,036 0,510
Los resultados obtenidos Holandesa -0,691 -1,370
fueron: Italiana -0,449 0,281
Resto América -0,454 -2,142
Resto Europa -0,112 0,769
Resto mundo -0,123 1,430
Sueca -0,067 1,515
Suiza -0,044 72
0,616
Clasificación jerárquica
Procedimiento de clasificación: Análisis cluster jerárquico.
Identifica grupos relativamente homogéneos de casos (o de variables) basándose en
las características seleccionadas, mediante un algoritmo que comienza con cada
caso (o variable) en un conglomerado diferente y combina los conglomerados hasta
que sólo queda uno. Es posible analizar las variables brutas o elegir de entre una
variedad de transformaciones de estandarización.
Medidas de distancia o similitud: Proximidades. Los estadísticos se muestran en
cada etapa para ayudar a seleccionar la mejor solución.
Propósito: Unir los objetos (nacionalidades) en clusters sucesivamente más grandes,
usando una cierta medida de semejanza o de distancia. Un resultado típico de este
tipo de agrupación es el árbol jerárquico.

Método:
Transformación de matriz de datos originales en matriz de distancias euclídeas.
1ª etapa: agrupar los elementos con distancias más pequeñas.
A continuación, atender a la menor de las distancias entre cada elemento agrupado
con anterioridad y los que quedan en conglomerados individuales.
El procedimiento continuará hasta llegar a alcanzar el número de conglomerados
que se hayan fijado con anterioridad.

73
Ventanas de SPSS
Analizar ClasificarConglomerados jerárquicos

74
Resultados:
Matriz distancias euclídeas al cuadrado
Casos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1:Alemana 0,000 1,211 0,601 1,027 0,426 1,781 10,813 0,161 3,693 0,550 6,427 0,403 1,495 1,654 0,227

2:Austriaca 1,211 0,000 0,113 0,262 1,374 0,093 15,510 1,233 0,785 0,630 2,658 1,769 3,892 4,270 1,454

3:Belga 0,601 0,113 0,000 0,309 0,750 0,318 14,272 0,607 1,467 0,281 3,699 1,022 2,770 3,081 0,771

4:Británica 1,027 0,262 0,309 0,000 1,841 0,643 11,977 1,446 0,949 1,156 2,317 2,149 4,520 4,875 1,713

5:Española 0,426 1,374 0,750 1,841 0,000 1,618 15,317 0,064 4,231 0,167 7,779 0,036 0,641 0,800 0,044

6:Eur. Exc. 1,781 0,093 0,318 0,643 1,618 0,000 17,998 1,606 0,730 0,748 2,735 2,100 4,226 4,640 1,823

7:Finlandesa 10,813 15,510 14,272 11,977 15,317 17,998 0,000 13,454 17,918 16,075 17,818 14,632 16,929 16,877 13,759

8:Francesa 0,161 1,233 0,607 1,446 0,064 1,606 13,454 0,000 3,962 0,223 7,207 0,073 0,855 1,012 0,011

9:Holandesa 3,693 0,785 1,467 0,949 4,231 0,730 17,918 3,962 0,000 2,786 0,653 4,910 8,162 8,711 4,362

10:Italiana 0,550 0,630 0,281 1,156 0,167 0,748 16,075 0,223 2,786 0,000 5,874 0,351 1,425 1,667 0,275

11:R.América 6,427 2,658 3,699 2,317 7,779 2,735 17,818 7,207 0,653 5,874 0,000 8,592 12,870 13,523 7,775

12:R.Europa 0,403 1,769 1,022 2,149 0,036 2,100 14,632 0,073 4,910 0,351 8,592 0,000 0,437 0,558 0,028

13:R.mundo 1,495 3,892 2,770 4,520 0,641 4,226 16,929 0,855 8,162 1,425 12,870 0,437 0,000 0,010 0,669

14:Sueca 1,654 4,270 3,081 4,875 0,800 4,640 16,877 1,012 8,711 1,667 13,523 0,558 0,010 0,000 0,809

15:Suiza 0,227 1,454 0,771 1,713 0,044 1,823 13,759 0,011 4,362 0,275 7,775 0,028 0,669 0,809 0,000

• Están resaltados en negrilla, las distancias más pequeñas como son la


existente entre la nacionalidad sueca y resto del mundo con una distancia de
0.010, francesa y suiza con una distancia de 0.011 y suiza y resto de Europa
con una distancia euclídea al cuadrado de 0.028 y española y resto de Europa
con una distancia de 0.036.

75
Resultados: Historial de conglomeración
Historial de conglomeración

Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina vez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coeficientes erado 1 erado 2 etapa
1 13 14 ,010 0 0 11
2 8 15 ,011 0 0 4
3 5 12 ,036 0 0 4
4 5 8 ,052 3 2 7
5 2 6 ,093 0 0 6
6 2 3 ,215 5 0 9
7 5 10 ,254 4 0 8
8 1 5 ,353 0 7 11
9 2 4 ,404 6 0 12
10 9 11 ,653 0 0 12
11 1 13 1,002 8 1 13
12 2 9 1,917 9 10 13
13 1 2 3,622 11 12 14
14 1 7 15,239 13 0 0

76
Diagrama de Témpanos
Diagrama de témpanos vertical

Caso

6:Europa excomunista
11:Resto América

12:Resto Europa
13:Resto mundo
7:Finlandesa

9:Holandesa

2:Austriaca

8:Francesa

5:Española
4:Británica

1:Alemana
10:Italiana
14:Sueca

15:Suiza
3:Belga
Número de
conglomerados
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X

77
Resultados: Dendograma

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Resto mundo 13 


Sueca 14  
Francesa 8  
Suiza 15   
Española 5   
Resto Europa 12  
Italiana 10  
Alemana 1   
Austriaca 2   
Europa excomunista 6   
Belga 3   
Británica 4   
Holandesa 9  
Resto América 11  
Finlandesa 7 
 

78
CONCLUSIONES
Cluster 1:

Resto del Mundo, suecos, franceses, suizos, españoles, resto de


Europa, italianos y Alemanes.

Cluster 2:

Austriacos, Europa excomunista, belgas, británicos, holandeses y


resto de América.

Cluster 3:

Finlandeses.

79
Caso a resolver:
Resultados de la rotación varimax en el ACP
para el posicionamiento de casas de moda

Clasificar a las casas de moda del caso


resuelto en ACP en grupos
homogéneos, a partir de los resultados
obtenidos en dicho análisis una vez
rotado.

80
6. Análisis de la Varianza Paramétrico y no
Paramétrico
El Analisis de la Varianza es una prueba estadística de homogeneidad de los
comportamientos medios de una determinada característica o variable
respuesta, para k poblaciones independientes, correspondientes a k condiciones
distintas de un determinado factor.
H0: 1 = 2 = … = k
H1:  (i,j) / i ≠ j

Esta prueba paramétrica puede considerarse como una extensión del contraste
paramétrico de igualdad de medias para dos poblaciones independientes, ya
estudiado anteriormente. Al igual que éste, el Análisis de la Varianza requiere la
verificación de una serie de supuestos, como puede ser la normalidad,
homocedasticidad, etc.

En caso de que no se cumpla algunos de estos supuestos, hemos estudiado


algunos procedimientos alternativos, encuadrados dentro de los contrastes no
paramétricos que podríamos llamar análisis de la varianza no paramétrico.. 81
CONCEPTOS
A continuación se van a definir los principales términos que intervienen en el
análisis de la varianza:

VARIABLE RESPUESTA
Es la variable dependiente o característica objeto de nuestro estudio y que
cuantifica el efecto de una serie de condiciones que influyen sobre ella. Por tanto,
se necesita que dicha variable pueda medirse en escala cuantitativa.

FACTOR
Es cada una de las variables independientes o explicativas que influyen en la
característica de estudio o variable respuesta. Cada factor debe incluir las
diferentes condiciones a las que se somete a los individuos para analizar el efecto
diferencial de las mismas.

NIVELES
A las distintas modalidades que presenta un factor se les denomina niveles.
Estos suelen diferenciarse en tratamientos (cuando se pueden manipular las
condiciones del factor) o modos de clasificación (cuando las condiciones del
factor no son susceptibles de manipulación). 82
SUPUESTOS BÁSICOS
(1) Las muestras han de ser extraídas de forma aleatoria.
(2) Las puntuaciones u observaciones han de ser independientes entre sí.
(3) Las observaciones del j-ésimo grupo (Xij, i=1,…,nj) deben tener distribución
Normal de media j.
(4) Todos los grupos deben tener la misma varianza poblacional 2, lo que se
conoce como homocedasticidad.
(5) La variable respuesta debe ser cuantitativa, mientras que la variable
independiente o factor se establece a modo de categorías, pudiendo ser
cuantitativa o cuantitativa.
DISEÑOS SEGÚN TIPO DE FACTORES
Los niveles observados incluyen
todos los posibles, o bien, todos los
Factor fijo Modelo de efectos fijos que interesan

El número de posibles
niveles del factor es
Factor aleatorio Modelo de efectos aleatorios elevado y se seleccionan
aleatoriamente algunos
para realizar el estudio.
Intervienen factores
Modelo de efectos mixtos fijos y aleatorios 83
VARIABILIDAD
El Análisis de la Varianza permite separar el efecto que sobre la variable
respuesta ejerce uno o varios factores controlados del de otros no controlados,
contrastando la influencia de los factores controlados sobre los resultados.

La variabilidad total de la variable respuesta se puede dividir en dos partes. La


causada por el factor controlable y sus niveles; y la originada por el resto de
factores, conocidos o no, que influyen sobre ella, llamada variabilidad debida al
error experimental. Esta división daría lugar a dos tipos de varianzas:

(1) Varianza dentro de los grupos: Representa la variabilidad debida al error


experimental, causante de las posibles diferencias existentes entre los elementos
de cada grupo.
(2) Varianza entre grupos: Representa la variabilidad existente entre los grupos
debida al efecto de los diferentes niveles del factor.

Para decidir si existen diferencias entre o no como consecuencia de los diferentes


niveles del factor, esta técnica se basará en la comparación de los estimadores de
las dos varianzas definidas.
84
PLANTEAMIENTO INICIAL

Este modelo se caracteriza porque la variable respuesta considerada depende de


un único factor con k niveles, quedando el resto de las causas de variación
englobadas en el error experimental.

El objetivo del mismo será contrastar la homogeneidad de promedios de la variable


respuesta para k poblaciones independientes, pudiendo expresarse de la siguiente
manera:
H0: 1 = 2 = … = k
H1:  (i,j) / i ≠ j

Si rechazamos la hipótesis nula, concluiremos que existen diferencias significativas


entre los comportamientos promedio, ya que, al menos uno de ellos es diferente a
los demás.

85
CONTRASTE PARAMÉTRICO:
MODELO FACTORIAL SIMPLE. ANOVA I
Xij  Valor de la variable respuesta para el i-ésimo individuo del j-ésimo grupo.
  Constante común para todas las observaciones que representa a la
media poblacional.
Aj  Es la aportación cuantitativa del j-ésimo nivel del factor a la puntuación
total, que refleja la diferencia entre la puntuación esperada del j-ésimo grupo j
y la puntuación esperada para toda la población, .
ij  Error experimental de cada puntuación, que indica la parte de Xij no
explicada por las otras dos componentes. Se verifica que ij  N (0, 2)

Al ser los valores de , Aj y ij desconocidos, habrá que estimarlos, por


ejemplo, utilizando el método de los mínimos cuadrados, dando lugar a:
n
1 k j
ˆ   X ij Aˆ j  X j  X ˆij  X ij  X j
n j 1 i 1
Por tanto, el modelo quedaría:
X ij  X  ( X j  X )  ( X ij  X j )  X ij  X  ( X j  X )  ( X ij  X j ) 86
Así pues:
k nj k k nj nj

 ( X
j 1 i 1
ij  X ) 2  n j ( X j  X ) 2   ( X ij  X j ) 2 ya que
j 1 j 1 i 1
(X
i 1
ij  X j)  0

En términos de las sumas de cuadrados se tiene que: SCT = SCF + SCE

A partir de SCT se obtienen los estimadores de las varianzas:


Cuasivarianza

Total Debida al factor Debida al error (dentro


(entre grupos) de los grupos)
k nj k nj
k
 ( X ij  X) 2

SCT (X j  X) 2
 ( X ij  X j )2
SCE
SˆT2 
j 1 i 1
 SCF SˆE2 
j 1 i 1

SˆF2 
j 1
n 1 n 1  nk nk
k 1 k 1

Se puede demostrar que S2T, S2F y S2E son estimadores insesgados de 2.

(k  1) SˆF2
Además   k21
 2
SˆF2
 Fk 1, n  k
(n  k ) SˆE2 ˆ
SE 2
2
  n2 k
 87
La región crítica asociada al contraste será:


R  ( x11, ..., xn11 ), ( x12, ..., xn2 2 ),...,( x1k , ..., xnk k )  E / F  Fk 1, n k ,1 
siendo el estadístico de contraste:
SˆF2
F 2
SˆE

El cuadro resumen de todo el proceso vendrá dado por:

Suma de Punto
Variabilidad g. l. Estimador Estadístico
cuadrados crítico
FACTOR SCF k-1 SF2 = SCF/(k-1)
F = SF2 / SE2 Fk-1,n-k,1-
ERROR SCE n-k S = SCF/(n-k)
E
2

TOTAL SCT n-1 ST2 = SCT/(n-1)

Contraste unilateral a la derecha: A mayor numerador respecto al


denominador, mayor posibilidad de rechazar la hipótesis nula. Mientras más
pequeño, mayor posibilidad de no rechazarla.
88
Caso:
Comparación del precio de pan de molde

Se ha realizado un experimento con el fin de comparar los precios de


la barra de pan de molde en cuatro ciudades diferentes. La muestra
está formada por ocho almacenes para las tres primeras ciudades,
mientras que para la cuarta está formada por siete almacenes, todos
ellos seleccionados aleatoriamente.

1 2 3 4
139 138 134 149
143 141 139 150
145 144 135 148
141 143 138 150
144 137 139 146
138 140 136 151
140 143 140 149
141 140 135

89
Comandos SPSS

o Introducir datos en columna: Variable ciudad, variable precios

o Analizar Comparar medias ANOVA de un factor

 Dependiente: precios

 Factor: ciudad

 Opciones:
 Estadísticos:
Descriptivos
Homogeneidad de varianzas
 Gráfico de medias

 Post hoc: Tukey


90
Planteamiento
Modelo factorial simple con efectos fijos, ya que las conclusiones se
referirán exclusivamente a esas cuatro ciudades.
X ij μ A j ε ij
Variable independiente: Ciudad, con cuatro niveles.
Variable respuesta (dependiente): precio de la barra de pan.
Objetivo: determinar si hay diferencias significativas entre los precios
medios de la barra de pan en las cuatro ciudades.
Hipótesis
Ho :μ1μ2  μ3 μ4
H1 :μ1μ2 μ3  μ4
Estadístico del contraste: será una F de Snedecor:

ŜF2
F(k 1),(nk);(1α) 
ŜE2
Contraste unilateral a la derecha: A mayor numerador respecto al
denominador, mayor posibilidad de rechazar la hipótesis nula. Mientras
más pequeño, mayor posibilidad de no rechazarla.

91
Ejemplo de ANOVA I. Resultados SPSS

Descriptivos

PRECIO
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 8 141,38 2,45 ,86 139,33 143,42 138 145
2 8 140,75 2,49 ,88 138,67 142,83 137 144
3 8 137,00 2,27 ,80 135,10 138,90 134 140
4 7 149,00 1,63 ,62 147,49 150,51 146 151
Total 31 141,81 4,81 ,86 140,04 143,57 134 151

Prueba de homogeneidad de varianzas

PRECIO
Estadístico
de Levene gl1 gl2 Sig.
1,054 3 27 ,385

92
Resultados ANOVA I SPSS

ANOVA

PRECIO
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 557,464 3 185,821 36,522 ,000
Intra-grupos 137,375 27 5,088
Total 694,839 30

Conclusión:
A nivel de significación del
Función de densidad

5%, se rechaza la hipótesis


nula de igualdad de
medias. Hay diferencias
significativas entre los
precios medios del pan de
las cuatro ciudades.
,00 ,60 1,20 1,80 P.C.: 2,97 3,00 3,60 4,20

F (3,27) 93
Resultados SPSS. Pruebas dos a dos

Comparaciones múltiples

Variable dependiente: PRECIO


HSD de Tukey
Intervalo de confianza al
95%
Diferencia de Límite
(I) CIUDAD (J) CIUDAD medias (I-J) Error típico Sig. Límite inferior superior
1 2 ,63 1,13 ,945 -2,46 3,71
3 4,38* 1,13 ,003 1,29 7,46
4 -7,63* 1,17 ,000 -10,82 -4,43
2 1 -,63 1,13 ,945 -3,71 2,46
3 3,75* 1,13 ,013 ,66 6,84
4 -8,25* 1,17 ,000 -11,44 -5,06
3 1 -4,38* 1,13 ,003 -7,46 -1,29
2 -3,75* 1,13 ,013 -6,84 -,66
4 -12,00* 1,17 ,000 -15,19 -8,81
4 1 7,63* 1,17 ,000 4,43 10,82
2 8,25* 1,17 ,000 5,06 11,44
3 12,00* 1,17 ,000 8,81 15,19
*. La diferencia entre las medias es significativa al nivel .05.

Los promedios de precios son significativamente


distintos, salvo entre las ciudades 1 y 2. 94
CONTRASTES NO PARAMÉTRICOS DE
IGUALDAD DE PROMEDIOS

Pruebas de hipótesis de características poblacionales si no se


conoce la distribución de probabilidad de la variable de la que
procede la muestra.

Si hay razones para presuponer una determinada distribución,


hay que hacer una prueba paramétrica. Es estadísticamente
mejores.

De gran utilidad en economía y empresa, en las que es difícil


que se cumpla la hipótesis de normalidad de la distribución de
probabilidad de las variables que se están estudiando.

95
Test U de Mann-Whitney
Objetivo:
Contrastación de promedios de dos poblaciones a partir de dos muestras
independientes.

Supuestos:
 Observaciones extraídas de muestras aleatorias.
 Valores ordenables (escala no nominal)

Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma medida
de tendencia central, la mediana, para poderlo aplicar a datos ordinales.

Metodología:
Combinación de las n y m observaciones procedentes de dos poblaciones
ordenadas en orden creciente de magnitud, asignando a cada una un
rango de 1 a n+m.

96
Caso:
Dietas alternativas de engorde de cerdos
Se quiere comparar dos dietas distintas para engorde de cerdos.
Para ello se seleccionan 8 cerdos de 6 meses de edad de la
granja A que los alimenta con la primera dieta, y a 12 cerdos de la
misma edad de la granja B que usa la segunda, obteniéndose el
incremento de peso en el último mes. Los resultados se reflejan
en la tabla adjunta. Comprobar, con un 5% de significación, que
existen diferencias significativas en el promedio de incremento de
peso de los cerdos en el último mes entre las dos dietas. (Se ha
comprobado previamente la no normalidad de los incrementos de
peso en ambas granjas).

GRANJA A 22 18 15 19 22 23 22 19
GRANJA B 15 18 15 15 18 16 25 12 21 14 15 13
Hipótesis:
H0: 1 = 2
Ha: 1  2

97
Ejemplo Test de Mann-Whitney.
Comandos SPSS
Introducir datos: Igual que ANOVA

Analizar Pruebas no paramétricas

Dos muestras independientes


 Contrastar variables: Incremento peso
 Variable de agrupación: Granjas
 Definir grupos: (1 2)
 Tipo de prueba: U de Mann-Whitney
 Opciones: Estadísticos descriptivos
98
Ejemplo Test de Mann-Whitney.
Resultados SPSS
Estadísticos descriptivos

Desviación
N Media típica Mínimo Máximo
Incremento de precios 20 17,85 3,69 12 25
GRANJAS 20 1,60 ,50 1 2

Rangos Estadísticos de contrasteb

Rango Suma de Incremento


GRANJAS N promedio rangos de precios
Incremento de precios Granja A 8 14,25 114,00 U de Mann-Whitney 18,000
Granja B 12 8,00 96,00
W de Wilcoxon 96,000
Total 20
Z -2,340
Sig. asintót. (bilateral) ,019
Las dos dietas no producen por Sig. exacta [2*(Sig.
,020
a
unilateral)]
término medio los mismos a. No corregidos para los empates.
resultados en cuanto al engorde b. Variable de agrupación: GRANJAS

de los animales. Aparentemente,


el engorde es mayor en la dieta
aplicada en la granja B que en la
aplicada en la granja A. 99
Test de Wilcoxon
Objetivo:
Contrastar si los dos promedios de variables relacionadas procedentes de
una misma población o son diferentes.

Supuestos:
 Observaciones extraídas de muestras aleatorias relacionadas.
 Valores ordenables (escala no nominal)

Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma medida
de tendencia central.

Metodología:
Diferencias de los n pares de observaciones procedentes de dos
poblaciones ordenadas en orden creciente, independientemente del
signo, asignando a cada una un rango de 1 a n.

100
Caso:
Comparación de dos materiales para fabricación de
tacones de zapatos de caballero
En un experimento para comparar dos materiales distintos, A y B, que se
deben utilizar para fabricar tacones de zapatos de caballero, se seleccionó
a 15 hombres y se les proporcionó un par de zapatos nuevos de los cuales
un tacón estaba hecho con el material A y el otro con el material B. Al
principio del experimento, cada tacón tenía un grosor de 10 mm. Después
de usar los zapatos durante un mes, se midió el grosor restante, resultando

PAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MATERIAL A 6,6 7,0 8,3 8,2 5,2 9,3 7,9 8,5 7,8 7,5 6,1 8,9 6,1 9,4 9,1
Verificar
que no existen
MATERIAL B 7,4 diferencias
5,4 8,8 8,0 6,8significativas en 4,4
9,1 6,3 7,5 7,0 6,6 el el
7,7grosor resultante
4,2 9,4 9,1
de los tacones entre ambos materiales, usando un α=0,05.

Hipótesis de partida serán:


H0: 1 = 2
Ha: 1  2

101
Ejemplo Test de Wilcoxon. Resultados
SPSS
Estadísticos descriptivos

Desviación
N Media típica Mínimo Máximo
Material A 15 7,727 1,289 5,2 9,4
Material B 15 7,180 1,628 4,2 9,4

Rangos
Estadísticos de contrasteb
Rango Suma de
N promedio rangos Material B -
Material B - Material A Rangos negativos 10a 7,35 73,50 Material A
Rangos positivos 3b 5,83 17,50 Z -1,960a
Empates 2c Sig. asintót. (bilateral) ,050
Total 15 a. Basado en los rangos positivos.
a. Material B < Material A
b. Prueba de los rangos con signo de Wilcoxon
b. Material B > Material A
c. Material A = Material B

El estadístico es igual a –1,96. Está en el límite de (-1,96; 1,96), por lo que se


concluye que, a un nivel de significación del 5%, no estamos seguros de
aceptar o rechazar la hipótesis nula. En este caso se debería recomendar
aumentar el tamaño de la muestra para estar más seguros si existen
diferencias significativas en el grosor resultante de los tacones entre ambos
materiales. 102
Test de Kruskall-Wallis
Objetivo:
Decidir si varias muestras independientes (más de dos) puede
considerarse que provienen de poblaciones con la misma distribución,
desde el punto de vista de su promedio.

Supuestos:
 Observaciones extraídas de muestras aleatorias relacionadas.
 Valores ordenables (escala no nominal)

Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la misma
medida de tendencia central.

Metodología:
Se asignan rangos, de 1 a n (n = n 1 + n2 + .... + nk).

103
Caso:
Influencia de la renta familiar en el nivel cultural de
los hijos
Se desea saber si la renta familiar influye en el grado de cultura de los hijos.
Para verificarlo se toman cuatro niveles de renta y en cada uno un cierto
número de familias con niños comprendidos entre ciertas edades. Se somete
a los niños a tests cuyos resultados, expresados en la tabla adjunta, reflejan
el grado de cultura. Usar un 5% de significación.
NIVEL RENTA 1 NIVEL RENTA 2 NIVEL RENTA 3 NIVEL RENTA 4
171 121 108 121
146 144 108 108
117 164 108 96
191 196 178 72
164 125 149 121
137 155 117 96
126 137 119 72
182 191 89
155 155
121 129
98
98

Hipótesis:
  H0: 1 = 2= 3 = 4
104
Ha: 1  2 3  4
Ejemplo Test de Kruskall-Wallis.
Comandos SPSS
Introducir datos: Columna para cada variable

Analizar Pruebas no paramétricas

k muestras independientes
 Contrastar Variables: Puntuaciones
 Variable de agrupación
 Definir rango (1 4)
 Tipo de prueba: H de Kruskall-Wallis
 Opciones: Estadísticos descriptivos
105
Ejemplo Test de Kruskall-Wallis.
Resultados SPSS
Rangos
Estadísticos descriptivos
Rango
Desviación Niveles renta N promedio
N Media típica Mínimo Máximo Puntuaciones Nivel renta 1 10 25,65
Puntuaciones 37 132,03 32,90 72 196 Nivel renta 2 8 26,63
Niveles renta 37 2,43 1,09 1 4 Nivel renta 3 12 14,92
Nivel renta 4 7 7,79
Total 37
Estadísticos de contrastea,b

Puntuaciones
Chi-cuadrado 17,028
gl 3
Sig. asintót. ,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Niveles renta

Con un nivel de significación del 5%, se rechaza la hipótesis nula de


igualdad de promedios poblacionales. Al menos uno de los
promedios es diferente al del resto. Efectivamente, hay diferencias
significativas en el grado de cultura de los hijos según el nivel de
renta de los padres. 106
Test de Friedman
Objetivo:
Comparar en términos promedio el comportamiento de los mismos
individuos bajo k (> 2) condiciones diferentes.

Supuestos:
 Observaciones de muestras aleatorias independientes.
 Valores ordenables (escala no nominal)

Hipótesis nula:
Los datos muestrales proceden de k poblaciones con la misma medida de
tendencia central.

Metodología:
De forma independiente, en los datos o puntuaciones de cada fila se
asignan rangos, correspondiendo el 1 a la puntuación menor de la fila y el
k a la mayor puntuación

107
Caso:
Comparación de calificaciones en una prueba de
salto
Cuatro jueces se encargan de calificar en una competencia de salto que
incluye a 10 finalistas. Los datos que figuran en la tabla siguiente son
calificaciones, donde un 10 indica un salto perfecto. Para una significación
del 1%, determinar si existe diferencia significativa en las calificaciones que
otorgan cada uno de los cuatro jueces.

JUEZ
COMPETIDOR 1 2 3 4
1 8,5 8,6 8,2 8,4
2 9,8 9,7 9,4 9,6
3 7,9 8,1 7,5 8,2
4 9,7 9,8 9,6 9,6
5 6,2 6,8 6,9 6,5
6 8,9 9,2 8,1 8,7
7 9,2 9,2 8,7 8,9
8 8,4 8,5 8,4 8,6
9 9,2 9,6 8,9 9,5
10 8,8 9,2 8,6 9,3
H0: 1 = 2= 3 = 4
Ha: 1  2 3  4
108
Ejemplo Test de Friedman. Comandos
SPSS
Introducir datos: Columna para cada variable

Analizar Pruebas no paramétricas

k muestras independientes
 Contrastar Variables: Calificaciones
 Tipo de prueba: Friedman
 Opciones: Estadísticos descriptivos

109
Ejemplo Test de Friedman. Resultados
SPSS
Estadísticos descriptivos Rangos

Desviación Rango
N Media típica Mínimo Máximo promedio
A 10 8,660 1,042 6,2 9,8 A 2,50
B 10 8,870 ,913 6,8 9,8 B 3,45
C 10 8,430 ,817 6,9 9,6 C 1,40
D 10 8,730 ,933 6,5 9,6 D 2,65

Estadísticos de contrastea
Con un nivel de significación del
N 10
Chi-cuadrado 13,206
1%, hay diferencias significativas
gl 3 en al menos una de las
Sig. asintót. ,004
calificaciones que otorgan cada
a. Prueba de Friedman
uno de los cuatro jueces.

110
7. Análisis Discriminante

Técnica multivariante de clasificación de individuos en grupos sistemáticamente


distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos
de objetos o individuos, de los que conocemos los valores de p variables.

Objetivo:

Explicar la pertenencia de cada individuo a un grupo (variable categórica) según


la variable aleatoria p-dimensional del objeto (variable explicativa).
Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor
de la variable p dimensional clasificadora o explicativa.

Puede aplicarse para:

Describir: Explicar la diferencia entre los distintos tipos de objetos.


Hacer Inferencia: Contrastar diferencias significativas entre poblaciones.
Tomar de decisiones: Decidir donde clasificar un objeto.

111
SUPUESTOS

 Existen K poblaciones o grupos G1, G2,....Gk.

 Cada grupo está formado por n1, n2,...nk objetos: .

 Sobre cada objeto han sido medidas p variables x1, x2,.xp,

 Se quiere buscar una regla de decisión que permita asignar un objeto a


uno de los grupos partiendo de la información anterior.

 Los datos se presentan en matriz de n objetos pertenecientes a K


grupos, medidos por una variable aleatoria p dimensional y una
variable discreta que indica el grupo al que pertenece cada objeto.

112
CLASIFICACIÓN
Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son
combinación lineal de las P variables, interviniendo cada una con un peso
diferente que indica las que más discriminan. Problema descriptivo.

Funciones discriminantes canónicas:


Sirven para la predicción óptima del grupo a que pertenece un individuo.
Problema de inferencia.

MATRIZ DE DATOS
G X1 X2 .... Xp
1
1
.... DATOS
2
2
3

113
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II

Los errores de clasificación están en :


•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
eI C e II X
grupo II donde Xi<C,: casos del grupo II
X I  X II mal clasificados en el grupo I.
Punto de corte discriminante : C 
2
114
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II

Los errores de clasificación están en :


•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
eI C e II X
grupo II donde Xi<C,: casos del grupo II
X I  X II mal clasificados en el grupo I.
Punto de corte discriminante : C 
2
115
Caso:
Situación de las Comunidades Autónomas
españolas en cuanto a indicadores de bienestar
En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio
incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad
Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año
2001, clasificándolas a partir de las 12 variables siguientes:
1 Renta 7 Condiciones de trabajo
2 Salud 8 Vivienda y equipamiento del hogar
3 Servicios sanitarios 9 Accesibilidad económica y seguridad vial
4 Nivel educativo y culturañ 10 Convivencia y participación social
5 Oferta educativa, cultura y ocio 11 Seguridad ciudadana
6 Empleo 12 Entorno natural y clima

El estudio establece una clasificación según el bienestar de las provincias. Queremos


hacer un estudio similar, pero considerando el mapa de las autonomías y los datos
correspondientes al Anuario social de España de 2004. Tras la aplicación de un análisis
cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.

116
DATOS
CC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12
Andalucía 1 2 6 4 4 3 3 5 6 6 5 5 5
Castilla-La Mancha 1 3 7 3 2 4 5 3 5 5 8 7 3
Extremadura 1 1 7 5 3 4 3 8 5 4 7 6 5
Murcia 1 3 3 3 4 3 7 9 7 9 6 5 3
Aragón 2 7 5 9 7 7 7 4 7 5 6 5 3
Castilla-León 2 5 6 6 6 7 5 5 5 4 7 7 4
La Rioja 2 8 6 4 7 6 8 5 6 5 6 6 5
Asturias 2 5 2 9 6 5 4 4 5 4 4 8 9
Canarias 2 5 5 6 7 6 5 6 4 9 4 6 8
Cantabria 2 6 7 8 9 6 6 3 6 5 5 8 9
Galicia 2 3 3 5 5 3 5 5 2 6 5 7 9
Valencia 2 5 4 6 5 4 6 6 6 8 5 4 6
Baleares 3 8 3 7 5 10 8 5 6 6 3 4 10
Cataluña 4 8 4 9 9 6 7 6 9 8 3 5 7
Madrid 4 9 7 9 9 5 7 10 9 10 4 4 3
Navarra 4 10 8 10 10 6 10 6 10 7 4 2 5
Euskadi 4 10 6 9 9 5 8 4 9 8 2 1 9
117
Objetivo y metodología del estudio

Objetivo:
Contrastar si la clasificación que realizamos de las
Comunidades Autónomas españolas es correcta,
dependiendo de las 12 variables consideradas.

Metodología:
La técnica adecuada es el Análisis Discriminante. En
él, la variable grupo de bienestar es la variable
dependiente, mientras que el resto son las variables
independientes que, previsiblemente, discriminan.

118
Obtención de las funciones discriminantes
Criterio:
Maximizar variabilidad entre grupos respecto a la de dentro de ellos.

Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del
individuo i-ésimo sobre él es el peso zi:
p
zi =  u j xij (i = 1,2,.....n )
j=1
Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de
Fisher. Es una combinación lineal de las k variables explicativas originales.

Z  X1u1  X 2u 2  ......X n u n

Problema:Obtener los coeficientes de ponderación uj.

Hay que tener en cuenta que :


1. La matriz a diagonalizar no es simétrica: los vectores propios no son necesariamente
ortogonales.
2.  El número de ejes discriminantes, F es como máximo el mínimo de [(K-1), p].

119
Métodos iterativos de selección de variables
Método de inclusión iterativa
En cada paso se selecciona la variable que más contribuye a la separación de
los grupos. El proceso se detiene si ninguna variable separa los grupos
significativamente más de lo que ya estaban.

Método de exclusión iterativa


Se incluyen todas las variables y en cada paso se elimina la que menos
contribuye a la separación de los grupos. El proceso se detiene cuando la
exclusión de cualquiera de las variables hace disminuir significativamente la
separación entre los grupos.

Método mixto de inclusión-exclusión: Stepwise


En cada etapa se evalúa la posibilidad de incluir o excluir una variable, según
criterios prefijados. Su aplicación requiere definir previamente una regla de
decisión, Landa de Wilks, cociente entre el determinante de la matriz de
variación dentro de los grupos y el de la matriz de variación total.

120
Stepwise
Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más
significativa será la variable para la que se calcula. Hay que fijar:

F mínimo para entrar (F-min-to-enter).

F máximo para salir (Fmax-to-go) (F to enter > F de salida).

Nivel de tolerancia: Medida del grado de asociación lineal entre las variables
clasificadoras.

Si la tolerancia de la variable i es muy pequeña, significa que dicha variable


está muy correlacionada con el resto, lo que puede provocar problemas en la
estimación. Generalmente, se fija un nivel mínimo de tolerancia.

121
Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la
regla de clasificación óptima se obtiene con funciones lineales cuadráticas.
Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de
obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no
suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de
matrices de covarianzas.

Si las distribuciones de probabilidad poblacionales de los grupos son normales


multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a
priori y costes idénticos para todos los grupos, la predicción con todas las
funciones lineales discriminantes coincide con la clasificación óptima obtenida con
la regla de decisión.

Cuando las poblaciones no son normales, las probabilidades o verosimilitud de la


muestra no se conocen, al no conocer la forma de la distribución probabilística de
cada grupo. En este caso, puede sustituirse el cociente de verosimilitudes por el
de distancias de Mahalanobis. Si las poblaciones son normales, ambos coinciden.

122
Ventanas SPSS 1
Analizar ClasificarAnálisis discriminante

En la variable de agrupación pondremos


la variable categórica que es la que
indica el grupo de pertenencia de cada
individuo en la matriz inicial. En nuestro
caso se han considerado cuatro grupos.

De 1 a 4

Pediremos las medias y los ANOVAS


univariados. Además, pediremos los
coeficientes de la función de Fisher, la
correlación y la covarianza intra-grupos.

123
Ventanas SPSS 2

Si elegimos usar método de


inclusión por pasos, debemos
definir el que deseamos y los
criterios. Utilizaremos la distancia
de Mahalanobis. Además,
indicaremos que el resultado
muestre un resumen de los pasos y
el valor de la F de Snedecor para
las distancias por parejas.

La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos


grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones
(matrices de productos cruzados o de covarianzas intragrupos) de los grupos.

Di2, j  ( x i  x j )D I,1II( x i  x j )

DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).

Se asignará cada individuo al grupo para el que D² es menor.


124
Ventanas SPSS 3
Probabilidades previas:
Se puede elegir todos los grupos iguales
calcular según tamaño de grupos.
Mostrar:
Resultados para cada grupo y tabla resumen.
Usar matriz de covarianzas intragrupos.
Gráficos de los grupos combinados.

125
Resultados: Estadísticos descriptivos
GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL
Índice
Media Desv. típ. CVP Media Desv. típ. CVP Media Media Desv. típ. CVP Media Desv. típ. CVP
Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,957 0,104 5,765 2,796 0,485
Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341
Ss.sanitarios 3,75 0,957 0,255 6,625 1,847 0,279 7 9,25 0,500 0,054 6,588 2,347 0,356
N.educativo y
cultural 3,25 0,957 0,295 6,5 1,309 0,201 5 9,25 0,500 0,054 6,294 2,365 0,376
Of.educativa,
cultural/ocio 3,5 0,577 0,165 5,5 1,414 0,257 10 5,5 0,577 0,105 5,294 1,795 0,339
Empleo 4,5 1,915 0,426 5,75 1,282 0,223 8 8 1,414 0,177 6,118 1,900 0,311
Condiciones trabajo 6,25 2,754 0,441 4,75 1,035 0,218 5 6,5 2,517 0,387 5,529 1,940 0,351
Vivienda 5,75 0,957 0,167 5,125 1,553 0,303 6 9,25 0,500 0,054 6,294 2,054 0,326
Acces.ec.y
seguridad vial 6 2,160 0,360 5,75 1,832 0,319 6 8,25 1,258 0,153 6,412 1,938 0,302
Conv.y partic.social 6,5 1,291 0,199 5,25 1,035 0,197 3 3,25 0,957 0,295 4,941 1,600 0,324
Seguridad
ciudadana 5,75 0,957 0,167 6,375 1,408 0,221 4 3 1,826 0,609 5,294 1,929 0,364
Entorno natural y
clima 4 1,155 0,289 6,625 2,446 0,369 10 6 2,582 0,430 6,059 2,512 0,415
Nº CASOS 4 8 1 4 17

126
Pruebas de igualdad de medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig. La lambda de Wilk oscila entre 0 y
Índice de renta ,172 20,872 3 13 ,000 1. Valores pequeños indican fuertes
Índice de salud ,764 1,340 3 13 ,304
Índice de servicios diferencias de grupo y los cercanos
sanitarios ,311 9,615 3 13 ,001
a 1 no diferencias de grupo.
Índice de nivel educativo
y cultural ,173 20,696 3 13 ,000

Índice de oferta
F es una proporción de variabilidad
educativa, cultural y de ,311 9,623 3 13 ,001
ocio entre-grupos y variabilidad intra-
Índice de empleo ,493 4,450 3 13 ,023
Índice decondiciones
grupos.
trabajo (calidad del
empleo) ,818 ,967 3 13 ,438
Variables con los menores valores
Índice de vivienda y
equipamiento del hogar ,302 10,029 3 13 ,001 de lambda: Nivel de instrucción,
Índice de accesibilidad
económica y seguridad
vial
vivienda, riqueza, servicios sanitarios
,703 1,833 3 13 ,191
y educación, cultura y ocio, Empleo y
Índice de convivencia y
participación social ,372 7,300 3 13 ,004 accesibilidad económico-comercial
Índice de seguridad
ciudadana ,447 5,355 3 13 ,013
con F significativos a menos de un
Índice de entorno natural
10%.
y clima ,653 2,307 3 13 ,125

Variables con niveles superiores de lambda:


Condiciones de trabajo, sanidad, convivencia y
participación social, entorno y clima y seguridad y
medio ambiente, que no muestran diferencias
significativas entre los grupos de bienestar, con
niveles de significación de la F superiores al 10%. 127
Matriz de correlaciones
Correlación 1 2 3 4 5 6 7 8 9 10
renta 1 0,38 -0,02 0,47 0,49 0,75 -0,24 0,74 -0,07 0,23
salud 0,38 1 0,02 0,37 0,52 0,15 -0,2 0,17 -0,34 0,52
Ss.Sanitarios -0,02 0,02 1 0,32 0,31 -0,26 -0,19 0,33 -0,38 -0,15
N.Educativo 0,47 0,37 0,32 1 0,44 0,31 -0,06 0,53 -0,01 -0,18
Oferta Educativa 0,49 0,52 0,31 0,44 1 0,19 -0,2 0,47 -0,4 0,48
Empleo 0,75 0,15 -0,26 0,31 0,19 1 0 0,57 0,16 0,31
Cond.Trabajo -0,24 -0,2 -0,19 -0,06 -0,2 0 1 0 0,55 0,05
Vivienda 0,74 0,17 0,33 0,53 0,47 0,57 0 1 0 0,11
Acc.Ec.y Seg.Vial -0,07 -0,34 -0,38 -0,01 -0,4 0,16 0,55 0 1 -0,38
Conv.y Part.Social 0,23 0,52 -0,15 -0,18 0,48 0,31 0,05 0,11 -0,38 1
Seg.Ciudadana -0,34 -0,05 0,11 0,04 0,15 -0,43 -0,08 -0,37 -0,34 0,19
Entorno y clima -0,44 -0,29 0,09 0,05 -0,45 -0,43 -0,35 -0,48 -0,05 -0,73

Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una


matriz de correlaciones. Son diferentes de las matrices usuales donde todos los
casos son tratados como una muestra individual. Las covarianzas intra-grupos
combinadas se obtienen promediando las matrices de covarianzas separadas
para todos los grupos. Las correlaciones intra-grupos combinadas se calculan a
partir de las covarianzas y varianzas.

128
Variables introducidas/eliminadas en el análisis
Paso Introducidas Eliminadas Mín. D cuadrado
      Estadístico Entre grupos F exacta      
          Estadístico gl1 gl2 Sig.
1 N.Educativo   1,887 2y3 1,677 1 13 0,218
2 Renta   10,223 2y4 12,582 2 12 0,001
3 Of.Educativa   10,530 1y2 7,920 3 11 0,004
4   Renta 7,905 2y4 9,729 2 12 0,003
5 Vivienda   15,903 2y4 11,961 3 11 0,001
6 Conv.y Part.Social   16,958 2y4 8,697 4 10 0,003

Distancia de Mahalanobis grande: Casos con valores extremos en una o más


variables independientes. En cada paso se introduce la variable que maximiza
la distancia de Mahalanobis entre los grupos más cercanos.
Paso 1: la variable que maximiza la distancia de Mahalanobis entre los dos
grupos más cercanos (2 y 3) es el Nivel educativo y cultural.
Paso 2: Renta entre los grupos 2 y 4.
Paso 3: Oferta educativa entre los grupos 1 y 2.
Paso 4: Se elimina la variable Renta, puesto el estadístico desciende respecto
a los anteriores entre los grupos 2 y 4.
Paso 5: Se introduce la variable Vivienda puesto que maximinza la distancia
entre los grupos 2 y 4 que son los más cercanos.
Paso 6: Convivencia y participación social entre los grupos 2 y 4. 129
Estadísticos para las variables en el análisis
F para Mín. D Entre
Paso Variables Tolerancia
eliminar cuadrado grupos
1 Nivel Educativo 1,000 20,696
2 Nivel Educativo ,783 4,547 ,945 3 y 4
Renta ,783 4,607 1,887 2 y 3
3 Nivel Educativo ,721 4,207 6,821 1 y 2
Renta ,687 2,678 7,905 2 y 4
Oferta Educativa ,704 6,495 10,223 2 y 4
4 Nivel Educativo ,802 20,726 ,000 2 y 4
Oferta Educativa ,802 9,786 1,887 2 y 3
5 Nivel Educativo ,666 13,130 5,584 1 y 2
Oferta Educativa ,726 10,242 3,173 1 y 3
Vivienda ,646 7,461 7,905 2 y 4
2
1 - ri
6 Nivel Educativo ,508 12,235 12,096 1 y 2
Oferta Educativa ,460 16,481 11,528 1 y 3
Vivienda ,643 6,778 8,560 2 y 4
Convivencia y ,574 5,761 15,903 2 y 4
participación social
Tolerancia: Proporción de la varianza de la variable que no es explicada por las otras
variables independientes. Se utiliza para determinar cuantas variables independientes
están linealmente relacionadas con las otras (multicolinealidad). Una variable con muy
baja tolerancia contribuye con poca información al modelo y puede causar problemas de
cálculo.
F para eliminar: Útil para describir qué ocurre si la variable es eliminada del modelo
presente. Es la misma que la F para entrar en la etapa anterior. Dependiendo del método
por pasos elegido, podemos ver otros estadísticos tales como la lambda de Wilks. 130
Número de variables en cada etapa
Número F exacta F aproximada
Lambda gl1 gl2 gl3
de
Paso Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.
variables
1 1 ,173 1 3 13 20,696 3 13 ,000
2 2 ,080 2 3 13 10,102 6 24 ,000
3 3 ,029 3 3 13 9,816 9 26,922 ,000
4 2 ,050 2 3 13 13,847 6 24 ,000
5 3 ,017 3 3 13 13,142 9 26,922 ,000
6 4 ,006 4 3 13 13,121 12 26,749 ,000

Lambda: Contraste multivariante de significación. Contraste de hipótesis de


igualdad de medias entre los grupos para cada uno de los pasos. Oscila entre 0
y 1. Valores cercanos a 0: las medias de los grupos son diferentes. Valores
cercanos a 1: las medias de los grupos no son diferentes.
Lambda y sus grados de libertad son transformados en un estadístico F. Si el
valor de significación es pequeño (menor que 0,10) indica que las medias de los
grupos difieren. Si el valor de significación es grande (mayor que 0,10) indica
que las medias de los grupos no difieren.
Como el nivel de significación o área que deja a la derecha el estadístico es,
como máximo 0,012, a un nivel de significación del 5%, no se puede concluir
que las medias de los grupos sean iguales. Es decir, se rechaza la igualdad de
131
medias entre grupos de cada una de las variables incluidas en el análisis.
Comparaciones de grupos por pares:
Última etapa
Paso GRUPOS 1 2 3 4
1 F 9,200 17,478 13,471
Sig. ,002 ,000 ,000
2 F 9,200 14,243 8,697
Sig. ,002 ,000 ,003
6
3 F 17,478 14,243 16,082
Sig. ,000 ,000 ,000
4 F 13,471 8,697 16,082
Sig. ,000 ,003 ,000

Los dos grupos con mayores F y menores niveles de significación son los
que difieren más.
Los dos grupos con menores F y mayores niveles de significación son los
que difieren menos.
Si el valor de significación es pequeño, la diferencia entre los grupos es
significativa. Si el valor de significación es grande (mayor que el 5%)
entonces la diferencia entre los grupos no es significativa.

132
Funciones canónicas discriminantes
Función Autovalor % de varianza % acumulado Correlación canónica
1 7,007 48,1 48,1 ,935
2 5,255 36,1 84,3 ,917
3 2,291 15,7 100,0 ,834

Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor


valor propio corresponde al vector propio en la dirección de la máxima dispersión de las
medias de los grupos. El segundo, al vector propio en la dirección que tiene la siguiente
mayor dispersión, y así sucesivamente. La raíz cuadrada de cada valor propio proporciona
un índice de la longitud del correspondiente vector propio. Valores propios pequeños
explican muy poco de la dispersión total.
% de varianza: Evalúa la dispersión de cada variable canónica.
% acumulado: Porcentaje de la dispersión total explicada por las variables canónicas. Las
dos primeras variables canónicas explican el 100% de la dispersión total.
Correlación canónica: mide la asociación entre las puntuaciones discriminantes y los
grupos. Valores cercanos a 1 indican una fuerte correlación entre las puntuaciones
discriminantes y los grupos.
Número de variables canónicas: Cuando hay más de dos grupos, es k-1 (donde k es el
número de grupos) o p (el número de variables), el que sea menor de los dos. 133
Prueba de hipótesis igualdad de medias entre grupos
de las funciones

Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.


1 a la 3 ,006 61,260 12 ,000
2 a la 3 ,049 36,297 6 ,000
3 ,304 14,296 2 ,001

La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de
los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos
no son diferentes (igual a 1 indica que todas las medias son la misma).
Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor
que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las
medias de los grupos no difieren.

134
Matriz de estructura
Función
1 2 3
Oferta Educativa -,548 ,139 ,088
Empleo (a) ,381 ,279 -,245
Servicios Sanitarios (a) -,325 ,286 -,184
Condiciones de Trabajo (a) ,298 -,014 -,032
Nivel Educativo -,120 ,937 ,159
Convivencia y participación social ,281 -,442 ,212
Renta (a) ,013 ,382 -,341
Vivienda ,019 ,508 -,646
Seguridad ciudadana (a) -,097 -,088 ,560
Salud (a) ,046 ,149 ,386
Entorno y clima (a) -,229 ,212 ,236
Accesibilidad económica y seguridad vial (a) ,171 ,163 -,205

Correlaciones intra-grupos de cada variable predictora con la función canónica.


Proporciona otra forma de estudiar la utilidad de cada variable en la función
discriminante. Para cada variable, en negrilla se marca su mayor correlación absoluta
con una de las funciones canónicas, ordenándose luego por tamaño de correlación.
Función 1: Oferta educativa, Empleo, Servicios sanitarios y Condiciones de trabajo.
Función 2: Nivel educativo, Convivencia y participación social y Renta.
Función 3: Vivienda, Seguridad ciudadana, Salud, Entorno y clima y Accesibilidad
económica y seguridad vial. 135
Coeficientes de funciones canónicas
Coeficientes Función Se utilizan para calcular las puntuaciones de la
Variable canónica 1 2 3 variable canónica en cada caso. Si las variables son
Nivel educativo ,542 ,957 ,864 medidas en unidades diferentes, la magnitud de un
Oferta educativa -1,410 -,283 ,021
coeficiente no estandarizado proporciona poca
Vivienda ,277 ,147 -1,173
Convivencia y Part. social 1,023 -,152 ,490 indicación de la contribución relativa de la variable a la
discriminación global.
Función Los coeficientes no tipificados de las funciones
1 2 3 4
Nivel educativo 4,573 7,679 -,603 8,604
canónicas discriminantes son estrictamente
Oferta educativa -4,335 -2,048 9,092 -3,400 proporcionales a los coeficientes tipificados de
Vivienda 2,544 -,132 ,522 2,756 dichas funciones para cada una de las
Convivencia y part.social 8,164 6,884 -2,091 5,632 variables. Si sustituimos los valores de las
(Constante) -35,138 -37,812 -45,214 -53,788 variables para cada una de las Autonomías,
obtendremos las puntuaciones discriminantes.
Función Medias de las variables canónicas por grupos. Las
GRUPOS 1 2 3 medias intra-grupos se calculan para cada variable
1 2,123 -2,494 -1,228 canónica. Funciones discriminantes canónicas no
2 -,127 -,052 1,402
tipificadas evaluadas en las medias de los grupos. La
3 -8,524 -2,096 -1,536
4 ,261 3,123 -1,191 estimación de la función de clasificación para las
Comunidades Autónomas del grupo 1 es
2,123G1  0.127G2  8.524G3  0.261G4 136
Estimación del grupo con los coeficientes de las
Funciones discriminantes lineales de Fisher
GRUPO DE PERTENENCIA
1 2 3 4
Nivel educativo 4,573 7,679 -,603 8,604
Oferta educativa -4,335 -2,048 9,092 -3,400
Vivienda 2,544 -,132 ,522 2,756
Convivencia y part.social 8,164 6,884 -2,091 5,632
(Constante) -35,138 -37,812 -45,214 -53,788

El programa SPSS no ofrece la función discriminante de Fisher, sino tantas


funciones como grupos se hayan considerado para los casos. A partir de
estas funciones se podría obtener la Función discriminante lineal de Fisher.
Con ellas se podrá predecir en qué grupo debe estar un individuo. Para ello,
habrá que sustituir en cada una de las funciones los valores originales de las
tres variables para cada una de las Comunidades Autónomas.
En nuestro caso, se clasificará la Comunidad Autónoma en aquel grupo cuyo
valor sea mayor en una de las cuatro funciones discriminantes anteriores.

137
Resultados
Grupo Grupo
Comunidad Función Discriminante
pronosticado inicial
Autónoma 1 2 3
Andalucía 1,76874 -1,46939 -1,55655 1 1
Castilla-La Mancha 2,11870 -4,01632 -,82647 1 1
Extremadura 1,66988 -2,99912 -,48748 1 1
Murcia 2,93504 -1,49257 -2,04129 1 1
Aragón -,66163 ,11811 ,40840 2 2
Castilla-León -,65555 -1,13349 1,94311 2 2
La Rioja ,38824 ,25586 1,32614 2 2
Asturias -,94784 -,20245 ,54859 2 2
Canarias -1,94436 ,30223 2,29563 2 2
Cantabria ,43552 2,14989 2,45621 2 2
Galicia 1,37935 -1,06135 2,98193 2 2
Valencia ,99360 -,84751 -,74635 1 2
Baleares -8,52374 -2,09642 -1,53590 3 3
Cataluña -,79022 2,78225 -1,25852 4 4
Madrid 1,42596 2,89681 -,82553 4 4
Navarra ,87219 3,63588 -,95218 4 4
Euskadi -,46390 3,17757 -1,72973 4 4
Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo
grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la
función discriminante de Fisher, hay que incluirla en el primer grupo. 138
Estadísticos de clasificación por casos Puntuaciones
Grupo mayor 2º grupo mayor
Grupo discriminantes

real P(D>d/ P(G=g/ 2 2
casos Grupo D Grupo P(G=g|/D=d) D F. 1 F. 2 F. 3
G=g) D=d)
pronost
p gl
1 1 1 ,733 3 ,997 1,284 2 ,003 14,352 1,769 -1,469 -1,557
2 1 1 ,479 3 1,000 2,478 2 ,000 25,719 2,119 -4,016 -,826
3 1 1 ,799 3 ,999 1,008 2 ,001 15,480 1,670 -2,999 -,487
4 1 1 ,508 3 1,000 2,324 2 ,000 23,302 2,935 -1,493 -2,041
5 2 2 ,729 3 ,998 1,302 4 ,002 12,441 -,662 ,118 ,408
6 2 2 ,628 3 1,000 1,742 1 ,000 19,628 -,656 -1,133 1,943
7 2 2 ,947 3 ,999 ,366 4 ,000 14,576 ,388 ,256 1,326
8 2 2 ,700 3 ,999 1,425 4 ,000 15,549 -,948 -,202 ,549
9 2 2 ,238 3 1,000 4,229 4 ,000 24,981 -1,944 ,302 2,296
10 2 2 ,099 3 ,991 6,278 4 ,009 14,283 ,436 2,150 2,456
11 2 2 ,123 3 1,000 5,783 1 ,000 20,330 1,379 -1,061 2,982
12 2 1** ,239 3 ,609 4,220 2 ,389 6,501 ,994 -,848 -,746
13 3 3 1,000 3 1,000 ,000 2 ,000 83,320 -8,524 -2,096 -1,536
14 4 4 ,747 3 ,998 1,226 2 ,002 15,552 -,790 2,782 -1,259
15 4 4 ,673 3 ,999 1,542 2 ,001 16,068 1,426 2,897 -,826
16 4 4 ,875 3 1,000 ,694 2 ,000 20,141 ,872 3,636 -,952
17 4 4 ,845 3 1,000 ,818 2 ,000 20,352 -,464 3,178 -1,730
Grupo real: el que se asignó a cada caso en la clasificación inicial.
 Grupo mayor: En el que debe estar incluido cada caso, según las funciones
discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor,
(teorema de Bayes), utilizando la Distancia de Mahalanobis, D 2, y la probabilidad
condicionada P(D>d/ G=g)
 Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.
 Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones
139
discriminantes canónicas.
Gráfico
Grupo 1:
Andalucía, Castilla-La Mancha,
Extremadura, Valencia y
Murcia.
Grupo 2:
Canarias, Aragón, Castilla-
León, Asturias, Cantabria,
Galicia y La Rioja.
Grupo 3:
Baleares
Grupo 4:
Cataluña, Madrid, Euskadi y
Navarra.
La única Comunidad Autónoma
reclasificada, pasándola del
grupo 2 al 1 Valencia.
140
Conclusiones
Las variables independientes que más discriminan entre
los cuatro grupos iniciales referidos al bienestar de las
autonomías son:
 Nivel educativo
 Oferta educativa
 Vivienda
 Convivencia y participación social

Con las funciones discriminantes obtenidas, todas las


comunidades autónomas se encuentran clasificadas en los
mismos grupos inicialmente considerados, salvo Valencia
que se había incluido en el grupo 2 y, a partir del Análisis
Discriminante, parece mejor situada en el grupo 1.

141
Caso a resolver:
Lugar previsible de residencia de los turistas en
Tenerife

Objetivo:
Lugar de residencia previsible de los turistas que
vienen a Tenerife.

Metodología:
 Cuestionario: Fichero: base turistas curso.sav
 Se han elegido: nacionalidad, noches, nº visitas, nº
personas, edad, sexo y gasto/persona/noche.
 Se elige como variable dependiente de clasificación
el lugar de residencia con tres posibilidades: Puerto
de la Cruz, Las Américas-Los Cristianos, Resto.

142

You might also like