You are on page 1of 56

Anlisis de Correspondencias

Simples y Mltiples

Dpto. de Estadstica e Investigacin Operativa


Universidad de Valladolid

Roberto San Martn Fernndez


Anlisis Exploratorio de Datos Multidimensionales

I. Mtodos Factoriales
II. Mtodos de Clasificacin

I. Mtodos Factoriales

1. Anlisis de Componentes Principales (ACP)


Normado o Sin Normar (Regresin Ortogonal)

2. Anlisis de Correspondencias (AC)


Simples (ACS) o Mltiples (ACM)

3. Anlisis de Discriminante

4. Etc.
Anlisis Exploratorio de Datos Multidimensionales

I. Mtodos Factoriales
II. Mtodos de Clasificacin

II. Mtodos de Clasificacin


(Anlisis Cluster)
Cluster)

1. Mtodos Jerrquicos
Distancia (euclidea)
Criterio de Agregacin (Ward)

2. Mtodos No Jerrquicos
k medias
Anlisis de Correspondencias (AC)

Anlisis de Datos Categricos

Anlisis de Correspondencias Simples (ACS)


- Dos Variables Categricas
- Anlisis de Tablas de Contingencia (grandes)

Anlisis de Correspondencias Mltiples (ACM)


- Ms de dos Variables Categricas

Utilizacin.
- Por s solos
- Junto a otros anlisis (loglineales, logsticos, etc.)
Anlisis de Tablas de Contingencia

nij = n de individuos en las categoras i de la Var. Fila


y j de la Var. Columna.
Anlisis de Tablas de Contingencia

ni. = n de individuos en la categora i de la Var. Fila


k
ni. nij
j 1
Anlisis de Tablas de Contingencia

n.j = n de individuos en la categora j de la Var. Colum.


n
n. j nij
i 1
Anlisis de Tablas de Contingencia

n.. = n Total Individuos


n k n k
n.. nij ni. n. j
i 1 j 1 i 1 j 1
Anlisis de Tablas de Contingencia

Objetivo: Estudio de Asociaciones entre las


Objetivo:
categoras de las variables.
Asociacin & Independencia
Ejemplo 1
Tabla de Frecuencias para 525 pinus segn Provincia y Especie

Fila
nigra pinaster pinea sylvestris Total
--------------------------------------------------------
Burgos | 4 | 135 | 11 | 43 | 193
--------------------------------------------------------
Soria | 7| 100 | 35 | 190 | 332
---------------------------------------------------------
Columna 11 235 46 233 525
Total

Estudio asociaciones: Provincia Especie


Cmo? Utilizacin de Porcentajes.
Qu porcentajes? Tipos de porcentajes.
Tabla de Frecuencias

Fila
nigra pinaster pinea sylvestris Total
--------------------------------------------------------
Burgos | 4 | 135 | 11 | 43 | 193
--------------------------------------------------------
Soria | 7| 100 | 35 | 190 | 332
---------------------------------------------------------
Columna 11 235 46 233 525 Total
Total Tabla

nigra Tipos de Porcentajes


-------------------
Burgos 4 Frecuencia Absoluta
0,8% % Tabla
2,1% % Fila
36,4% % Columna
-------------------
Porcentajes Tabla
Fila
nigra pinaster pinea sylvestris Total
------------------------------------------------------------
Burgos | 0,8% | 25,7% | 2,1% | 8,2% | 36,8%
-----------------------------------------------------------
Soria | 1,3% | 19,1% | 6,7% | 36,2% | 63,2%
------------------------------------------------------------
Columna 2,1% 44,8% 8,8% 44,4% 100%
Total

Diagrama de Barras
40
porcentaje

30 Especie
nigra
20 pinaster
pinea
sy lv estris
10

0
Burgos Soria
Provincia
Porcentajes por Provincia (Fila)
Fila
nigra pinaster pinea sylvestris Total
----------------------------------------------------------
Burgos | 2,1% | 69,9% | 5,7% | 22,3% | 100%
----------------------------------------------------------
Soria | 2,1% | 30,1% | 10,6% | 57,2% | 100%
----------------------------------------------------------
Columna 2,1% 44,8% 8,8% 44,4% 100%
Total

Porcentajes en las Provincias

Burgos
Especie
Negro
Pinaster
Pionero
Soria Silv estre
Porcentajes por Especie (Columna)
Fila
nigra pinaster pinea sylvestris Total
----------------------------------------------------------
Burgos | 36,4% | 57,4% | 23,9% | 18,4% | 36,8%
----------------------------------------------------------
Soria | 63,6% | 42,5% | 76,1% | 81,5% | 63,2%
----------------------------------------------------------
Columna 100% 100% 100% 100% 100%
Total

Porcentajes en las Especies

Prov incia
Burgos
Soria

Negro Pinaster Pionero Silv estre

Volver
Conclusiones

Asociaciones

Provincia Especie

Burgos pinaster
Soria sylvestris
pinea
Test de Independencia - Test Chi
Chi--2

H 0 : Independen cia

H 1 : Asociacin

pvalor p( (2n1)( k 1) 2 )
Test de Independencia - Test Chi
Chi--2

H 0 : Independen cia

H 1 : Asociacin

Contraste de Chi-cuadrado Ejemplo 1


------------------------------------------
Chi-cuadrado GL P-Valor
------------------------------------------
80,11 3 0,0000
------------------------------------------
El StatAdvisor
-------------------
Dado que el p-valor es inferior a 0.01, podemos rechazar la hiptesis de que
las filas y columnas son independientes con un nivel de confianza del 99%.
En consecuencia, el valor observado de Provincia para un caso particular
tiene relacin con su valor en Especie.
Ejemplo 2: Caso de Independencia

Porcentajes en las Provincias

Burgos
Porcentajes en las Especies

nigra
pinaster
Contraste de Chi-cuadrado pinea
------------------------------------------
Soria sy lv estris
Chi-cuadrado GL P-Valor
------------------------------------------ Burgos
0,02 3 0,9992 Soria
------------------------------------------
El StatAdvisor
--------------
nigra pinaster pinea sy lv estris
Dado que el p-valor es superior a 0.10, no podemos rechazar la hiptesis
de que las filas y columnas son independientes. En consecuencia, el valor
observado de Provincia para un caso particular puede no tener relacin
con su valor en Especie.
!!!!!!! Importante !!!!!!!

Porcentajes por Provincia


Fila
nigra pinaster pinea sylvestris Total
----------------------------------------------------------
Burgos | 2,1% | 69,9% | 5,7% | 22,3% | 100%
----------------------------------------------------------
Soria | 2,1% | 30,1% | 10,6% | 57,2% | 100%
----------------------------------------------------------
Columna 2,1% 44,8% 8,8% 44,4% 100%
Total

PERFIL de Soria
PERFIL MEDIO
PERFIL de Burgos

PERFILES FILA !!!!!!


PERFILES COLUMNA !!!!!!
Porcentajes por Especie
Fila
nigra pinaster pinea sylvestris Total
----------------------------------------------------------
Burgos | 36,4% | 57,4% | 23,9% | 18,4% | 36,8%
----------------------------------------------------------
Soria | 63,6% | 42,5% | 76,1% | 81,5% | 63,2%
----------------------------------------------------------
Columna 100% 100% 100% 100% 100%
Total

PERFIL de nigra
PERFIL de pinaster PERFIL MEDIO

PERFIL de pinea

PERFIL de sylvestris
Anlisis de Correspondencias (AC)

Anlisis de Correspondencias Simples(ACS)

- Dos Variables Categricas

- Anlisis de Tablas de Contingencia (grandes)

- Anlisis de los Perfiles Fila y Columna


ACP (Principal Components Analysis)
Distancia Chi-2

- Representacin en bi-plots de los Perfiles.

- Superposicin de los bi-plots


ACS para Provincia & Especie

Perfil Especie
Reglas de Interpretacin

1. Los puntos del bi-plot = Perfiles de las variables.

2. Origen de Coordenadas = Perfil Medio.

3. Dos Perfiles de una misma variable:


3.1 Proximidad Igualdad
3.2 Lejana Diferencia

4. La situacin de los Perfiles Fila y de los Perfiles


Columna explican las igualdades y diferencias
anteriores
Ejemplo 3: Enfermedad de Hodgkin

Enfermedad de Hodgkin (cancer). 538 pacientes fueron


clasificados en funcin de 4 tipologas de la
enfermedad (LP, NS, MC, LD) y su respuesta a un
Tratamiento (Positivo, Parcial, Nulo) al cabo de tres
meses.
| Positivo Parcial Nulo
---------------------------------------------------
LP | 74 18 12
NS | 68 16 12
MC | 154 54 58
LD | 18 10 44

Tratamiento igual en todas las tipologas ??


Ejemplo 3: Enfermedad de Hodgkin
Ejemplo 4: Qu piensan los ingleses

. del resto de europeos?


(1) elegancia (2) arrogancia (3) sexy (4) ladinos (5) tranquilos
(6) codicioso (7) cobardes (8) aburrido (9) eficiente (10) perezoso
(11) trabajador (12) inteligente (13) valiente

Paises (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13)

Francia 37 29 21 19 10 10 8 8 6 6 5 2 1
Espaa 7 14 8 9 27 7 3 7 3 23 12 1 3
Italia 30 12 19 10 20 7 12 6 5 13 10 1 2
Inglat. 9 14 4 6 27 12 2 13 26 16 29 6 25
Irlanda 1 7 1 16 30 3 10 9 5 11 22 2 27
Holanda 5 4 2 2 15 2 0 13 24 1 28 4 6
Alemania 4 48 1 12 3 9 2 11 41 1 38 8 8
Ejemplo 4: Qu piensan los ingleses
Anlisis de Correspondencias Mltiples
(ACM)

Anlisis de Datos Categricos


Extensin del Anlisis de Correspondencias
Simples (ACS)
- Tres o ms Variables Categricas
Clculos sencillos
Resultados bi-plots
- Muestran todas las variables y sus categoras.
- Muestran todos los individuos
- Fcil interpretacin
No habitual
Anlisis de Correspondencias Mltiples
DATOS

Supongamos que:
Estudiamos 3 variables categricas: A, B y C
- Variable A: 3 categoras a1 a2 a3
- Variable B: 2 categoras b1 b2
- Variable C: 3 categoras c1 c2 c3

Estudiamos a 10 individuos
Anlisis de Correspondencias Mltiples
DATOS

A B C a1 a2 a3 b1 b2 c1 c2 c3
ind 1 a 2 b1 c1 0 1 0 1 0 1 0 0
ind 2 a 2 b 2 c3 0 1 0 0 1 0 0 1

ind 3 a3 b 2 c3 0 0 1 0 1 0 0 1
ind 4 a1 b1 c 2
1 0 0 1 0 0 1 0
ind 5 a1 b 2 c1 1 0 0 0 1 1 0 0
Z
ind 6 a 2 b1 c 2 0 1 0 1 0 0 1 0
ind 7 a3 b1 c1 0 0 1 1 0 1 0 0

ind 8 a 2 b 2 c 2 0 1 0 0 1 0 1 0
ind 9 a1 b 2 c 2 1 0 0 0 1 0 1 0

ind 10 a3 b1 c3 0 0 1 1 0 0 0 1
Anlisis de Correspondencias Mltiples
DATOS

a1 a2 a3 b1 b2 c1 c2 c3
3 0 0 1 2 1 2 0 a1 Tabla A & B
0 4 0 2 2 1 2 1 a2

0 0 3 2 1 1 0 2 a3 Tabla A & C


1 2 2 5 0 2 2 1 b1 Tabla B & C
B Z 'Z
2 2 1 0 5 1 2 2 b2


1 1 1 2 1 3 0 0 c1
2 2 0 2 2 0 4 0 c2 Total categora

0 1 2 1 2 0 0 3 c3
Anlisis de Correspondencias Mltiples
DATOS

a1 a2 a3 b1 b2 c1 c2 c3
3 0 0 1 2 1 2 0 a1
0 4 0 2 2 1 2 1 a2

0 0 3 2 1 1 0 2 a3
TABLA

1 2 2 5 0 2 2 1 b1 DE
B Z 'Z
2 2 1 0 5 1 2 2 b2
BURT

1 1 1 2 1 3 0 0 c1
2 2 0 2 2 0 4 0 c2

0 1 2 1 2 0 0 3 c3
Ejemplo 5: La Comercializacin del pin en
la Comarca de Tierra de Pinares.
Ejemplo 5: La Comercializacin del pin en
la Comarca de Tierra de Pinares.

OBJETIVOS

Describir la cadena de valor del pin desde su


produccin en el monte hasta el consumidor.
Identificar y Caracterizar a los principales agentes
implicados en esta cadena.
Identificar los factores de xito y de fracaso en este
modelo de comercializacin.
Analizar las implicaciones sociales, ambientales y
econmicas de este modelo de comercializacin.
MATERIAL Y MTODOS

Entrevistas Personales.
1. Consumidores
2. Empresarios

Tamao de la muestra
N Z2 p q
n 2
d ( N 1) Z2 p q
Consumidores = 100 encuestas
Empresarios = 30 encuestas

Tratamiento Estadstico de los datos


- Anlisis Factorial (ACM)
- Anlisis Cluster
MATERIAL Y MTODOS

Entrevistas Personales Consumidores

Muestreo estratificado por rangos de edad y sexo

HOMBRES MUJERES

Rangos de N Tamao muestral N Tamao muestral


edad habitantes estimado habitantes estimado

15 a 24 220 7 207 7
25 a 34 304 10 267 9
35 a 49 470 15 441 14
50 a 64 321 11 267 9
> 65 240 8 297 10
Total 1 555 51 1 479 49
MATERIAL Y MTODOS

ENCUESTA A CONSUMIDORES

22 preguntas en 3 bloques diferenciados:

3 Preguntas de identificacin: edad, ocupacin y nivel de


estudios.

11 Preguntas de consumo: dnde lo compran, procedencia,


motivo de consumo, forma de consumo, frecuencia de consumo,
etc.

8 Preguntas de conocimiento: vinculacin al sector, trabajo,


parentescos, utilidades, etc.
MATERIAL Y MTODOS

ENCUESTA A EMPRESARIOS

18 preguntas en 4 bloques diferenciados:

7 Preguntas de caracterizacin: de la empresa: forma jurdica,


nmero de socios, antigedad, ltima inversin, fase elaboracin,
dedicacin, etc.

3 Preguntas de tipo laboral: nmero empleados, fase


elaboracin, tipo de contrato.

4 Preguntas de tipo comercial: sobre materias primas y


productos finales.

2 Preguntas de conocimiento: beneficios relacionados con el


aprovechamiento del pin.
ANLISIS DE DATOS

Metodologa

1. Anlisis Descriptivo de las Variables


- Anlisis Univariantes.
- Anlisis Bivariantes (Tablas de Contingencia).
- Primeros Resultados y Depuracin de los Datos

2. Anlisis Factorial ACM


- Eleccin del nmero de Ejes Factoriales.
- Caracterizacin de los ejes

3. Anlisis Cluster
- Eleccin del nmero de Grupos.
- Caracterizacin de los Grupos
FORMA HABITUAL DE COMSUMO

Hbito
6,49%
Empionados
12,99% Guisos
Otros
Repostera
41,56%

38,96%

Tipos de Consumo
NIVEL DE ESTUDIOS

Estudios primarios

Estudios secundarios

Mdulos F.P.

Sin estudios

Universitarios

0 10 20 30 40 50

Frecuencia
Tipos de Consumo
RELACIN EDAD CONSUMO

25 Consumo
N
20 S
p orcen taje

15

10

0
15 a 24 25 a 34 35 a 49 50 a 64 > 65

Edad
Edad & Consumo
TAMAO DE LAS EMPRESAS.

9,09%
Socios Rang o
1a5
13,64% 5 a 10
> 10

77,27%

N de Socios
ANTIGEDAD DE LAS EMPRESAS.

Form
26,67% < 5 aos
> 25
De 15 a 25 aos
De 5 a 15 aos

56,67% 3,33%

13,33%

Aos de Antigedad
TIPO DE TRABAJO DENTRO DE CADENA PIN

25 Fase elaboracin
B
20 B, R
B, R, A
15 B, R, A, Ex, Ca
B, R, A, Ex, Ca, M, E, Co
10 B,R,A
Co
5 M
R
0
Pasado Actualmente

Aos
B = Bajada dede Antigedad & Forma
pias M =Jurdica
Mondado.
R = Recogida de pias. E = Envasado.
A = Almacenamiento de pias. Co = Comercializacin.
Ca = Cascado.
A. Correspondencias Mltiples
N de pregunta en Denominacin en el
Variable Modalidades
cuestionario anlisis ACM
- Naci en Pedrajas
Relacin con el pueblo de
0 Relacin (C1) - Vive en Pedrajas
Pedrajas
- Otra
- Semanalmente
Frecuencia de consumo de
2 Frecuencia (C3) - Mensualmente
pin
- Otra
Atencin que se presta a la - S
3 Marca (C4)
marca al consumir - No
Atencin que se presta a la - S
4 Procedencia (C5)
procedencia al consumir - No
- nico que le ofrecen
- Calidad
Motivo por el que consume 6 Consumo (C6)
- Tradicin
- Otra
Forma de conseguir el pin - Directamente
7 Conseguir (C7)
que consumen - Intermediarios
- Empionados
Forma habitual de consumo 9 Hbito (C8) - Guisos
- Otros
- No
Trabaja dentro del sector del
12 Trabaja (C9) - Pasado
pin
- S
A. Correspondencias Mltiples
N de pregunta en Denominacin en el
Variable Modalidades
cuestionario anlisis ACM
Miembro de la familia trabaja/ - S
16 Miembro (C10)
en el sector del pin - No
- Ecolgico
Beneficios de mayor Mayor beneficio
17 - Econmico
importancia (C12)
- Social
- Ecolgico
Beneficios de menor Menor beneficio
17 - Econmico
importancia (C14)
- Social
- 15 a 24
- 25 a 34
Edad del encuestado 20 Edad (C15) - 35 a 49
- 50 a 64
- > 65
- Ama de casa
- Desempleado
Ocupacin laboral 21 Ocupacin (C16)
- Empleado
- Negocio propio
- Sin estudios
Nivel de estudios - Estudios primarios
Nivel de estudios 22
(C17) - Estudios secundarios
- Universitarios
- Hombre
Sexo - Sexo (C18)
- Mujer
ACM Factor 1 & Factor 2
ACM Factor 1 & Factor 2
ACM Factor 1 & Factor 2
ACM Factor 1 & Factor 2
ACM Factor 1 & Factor 2
CARACTERIZACIN DE EJES FACTORIALES

Factor 1. Caracterizado por :


- Una gradacin creciente de las edades, asociado con el
nivel de estudios

Factor 2. Caracterizado por :


- Separacin trabajadores ---- desempleados

Factor 1 + Factor 2 = 20.54 % de la inercia Total

Anlisis Cluster a partir de coordenadas


- Dendograma (Ward, distancias euclideas al cuadrado)
- Eleccin del nmero de grupos
- Consolidacin utilzando k-medias
- Caracterizacin de los grupos
ANALISIS CLUSTER

Classific ation hirarchique direc te

01 100 05 37 40 26 98 104 14 48 97 53 77 10 45 80 101 35 34 38 88 68 41 66 85 42 102 94 46 30 07 89 47 84 69 90 81 17 96 18 73 99 93 51 62 78 103 95 91 86

Grupo 1 Grupo 2 Grupo 3


Caracterizacin de los Grupos

Grupo 1: (36% de la muestra).


Consumidores de edad entre los 15 a 24 aos con estudios
universitarios. La relacin que tienen con el pueblo es poco cercana,
ya que visitan el pueblo de vez en cuando. No fijarse en la
procedencia del pin que consumen.

Grupo 2: (15% de la muestra).


Consumidores de edad superior a 65 aos, jubilados y sin
estudios. Nacieron o vivieron en el mismo municipio. No fijarse en
la marca de los distintos productos que compran. Trabajaron en el
sector del pin en el pasado.

Grupo 3: (49% de la muestra).


edad comprendido de los 50 a 64 aos que nacieron en el mismo
municipio. Tienen un negocio propio, trabajan en el sector del
pin. Respecto al consumo, se fijan en la procedencia del pin y
lo hacen en un 55% de los casos de forma semanal.
Muito Obrigado

Muchas Gracias