You are on page 1of 34

Anlisis de asociacin y

correlacin entre dos


variables

Transformar variables
Si la mayora de nuestras variables
son
cualitativas,
y
queremos
relacionar
algunas
variables,
tenemos que transformar la escala
en la que la variable ha sido
registrada o medida.
Esta transformacin slo se puede
realizar desde una variable continua,
para llevarla a una categrica.

Cmo?
Vamos a la tabla de datos Datos de
empleados.
Transformaremos
la
variable
Salario
actual.
Lo primero, explorar la distribucin de la
variable, para ver el mnimo y el mximo
(si la variable no es de razn).
Teniendo los lmites, identificar los puntos
de corte de la distribucin.
Por ejemplo, cuatro punto de corte: 15.000
a 46.000; 47.000 a 78.000; 79.000 a
110.000; 111.000 a 142.000.

Paso 1: ir a recodificar

Paso 2: Crear la variable de salida e ingresar


los puntos de corte.

Marcar

Marcar

Se crea la variable, pero hay que


generar las categoras!

Entonces, la distribucin sera

Tabla contingencia
sexo/salario

Cmo podemos crear un tabla que


muestre la relacin entre sexo, salario
segn pertenencia tnica?

Anlisis no
paramtricos para dos
variables categricas
nominales u ordinales
Chi-cuadrado

(Chi cuadrado)
Es una prueba para evaluar la hiptesis de la
relacin entre dos variables categricas a nivel
nominal u ordinal.
Se calcula por medio de una tabla de
contingencia.
Parte del supuesto de no relacin de variables.
Analiza la diferencia de entre frecuencia
esperadas y observadas.
Si existe relacin, la tabla obtenida tiene que ser
diferente respecto a las frecuencias esperadas.

Formula

Identifi
ca
Poltica

Provincia
Cautn

Malleco

Total

Izquierda (280)*Cautn (540)


Total (1040)

Izquierd
a

180

100

280

Derecha

190

280

470

Centro

170

120

290

Total

540

500

145.4

1040
Nij= Frecuencia observada en cada
celda
Mij= Frecuencia esperada en cada
celda.

Ejemplo de interpretacin: sexo y


categora laboral
Chi
cuadrado
es
79,277
La probabilidad es de
0,000.
Siendo la probabilidad
muy
pequea
(se
acepta
hasta
inferiores a 0,05), se
rechaza la hiptesis
de independencia y se
concluye
que
hay
relacin.

Para interpretar la prueba, se debe cautelar que las frecuencias


esperada no sean demasiado pequeas. Si hay frecuencias menores
a 5, no deben exceder el 20% del total de frecuencias esperadas.
Ms de un 20% debe ser interpretado con mucho cuidado.

Qu pasa con los bajos efectivos


o celdas con frecuencias
esperadas menores a 5?
Al ser estos valores el denominador de la
frmula, valores pequeos abultan el
aporte de la celda al Chi-cuadrado.
Para ello podemos usar la prueba de Yates,
que resta 0,5 a la diferencia entre f
observada y esperada para cada celda.
Para muestras pequea (menos de 30
casos) en tablas de 2 x 2, se usa la prueba
de Fisher.

Otro problema es el n o tamao de


la muestra
Chi-cuadrado es sensible al tamao de la muestra
(no es aconsejable para muestras mayores a 900
casos), ya que tiende a aumentar el nivel de
significancia.
Por ejemplo: una distribucin de 15 casos,
manteniendo la proporcionalidad entre los valores,
chi-cuadrado sera de 1.76 con una sig. de 0.415.
Si la muestra fuese de 1.500, manteniendo las
misma proporcin de valores, chi-cuadrado sube a
176
y
la
sig.
0.000000000000000000000000000000000000005
99

Anlisis paramtricos para una variable


nominal u ordinal dicotmica y una continua.
T-student

T-student
Examina si dos grupos difieren de
manera significativa respecto de sus
medias.
Parte de la hiptesis de diferencia
entre grupos, es decir, los grupos
difieren significativamente entre s
respecto de sus medias (la H0
postula la no diferencia).

Prueba Levene: homogenidad o igualdad e varianza. Mayor a 0,05,


varianza iguales; menor a 0,05, varianza distintas. Se decide que lnea
de estadsticos interpretar. Para el ejemplo, 0,000 es menor que 0,05,
por lo tanto asume varianzas no iguales.
Pruba T-student: indica 11,68 con un nivel crtico de 0,000, lo que
implica la compatibilidad entre las diferencias observadas entre las
medias muestrales de los grupos y la hiptesis nula de que las medias
poblacionales son iguales. Al ser la sig. menor a 0,05, se rechaza la
hiptesis nula, determinando que los salarios entre hombre y mujeres
son diferentes.

Correlacin entre dos variables


continuas.
Coeficiente r de Pearson

r de Pearson.
Prueba que busca establecer la correlacin
entre variables a nivel de intervalo o de razn.
Se obtienen correlaciones del tipo: A mayor x,
mayor y; A mayor x, menor y; valores altos en
x se asocian a valores altos en y; valores altos
en x se asocian a valores bajos en y.
La prueba no parte de la lgica causa efecto,
aun cuando esta se puede derivar desde la
teora.
Vara entre -1.00 y 1.00

Interpretacin del signo


-1.00= correlacin negativa perfecta (a mayor
x, menor y); esto de manera proporcional,
aumentando o disminuyendo por cada unidad
constante (a menor x, mayor y).
-0.9 (fuerte); -0.75 (considerable); -0.50
(media); -0.25 (dbil); -0.10 (muy dbil).

0.9 (fuerte); 0.75 (considerable); 0.50


(media); 0.25 (dbil); 0.10 (muy dbil).
1.00= correlacin positiva perfecta (a mayor
x, mayor y; a menor x, menor y).

Propiedades de r

Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1
o r=-1.
Cuanto ms cerca est r de +1 o -1 mejor ser el
grado de relacin lineal.
Siempre que no existan observaciones anmalas.
Relaci
n
inversa
perfect
a

-1

Variables
incorrelad
as

Relaci
n
directa
casi
perfect
a

+1

Estudio conjunto de dos


variables

A la derecha tenemos una posible manera


de recoger los datos obtenido observando
dos variables en varios individuos de una
muestra.
En cada fila tenemos los datos de un individuo

Cada columna representa los valores que


toma una variable sobre los mismos.
Las individuos no se muestran en ningn
orden particular.

Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.

Nuestro objetivo ser intentar reconocer a

Altura
en cm.

Peso
en Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Diagramas de dispersin o nube


de puntos
Tenemos las alturas y los pesos de 30 individuos representados en
un diagrama de dispersin.

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Relacin entre variables.


Tenemos las alturas y los pesos de 30 individuos representados en
un diagrama de dispersin.

e
c
e
r
a
P
a
r
u
alt

l
e
e
u
q

u
a
eso

nt
e
m

l
n
o
c
a

Prediccin de una variable en


funcin de la otra

Aparentemente el peso aumenta 10Kg por cada 10 cm de


altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.

Relacin directa e inversa


330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la


media tenemos valores de Y por
encima y por debajo en
proporciones similares.
Incorrelacin.

Para los valores de X mayores que la


media le corresponden valores de Y
mayores tambin.
Para los valores de X menores que la
media le corresponden valores de Y
menores tambin.
Esto se llama relacin directa.
Para los valores de X mayores
que la media le corresponden
valores de Y menores. Esto es
relacin inversa o decreciente.

Entrenando el ojo: correlaciones positivas

Entrenando el ojo: correlaciones negativas

Animacin: Evolucin de r y diagrama de dispersin

Ejemplo para la variable salario inicial


y actual

Esto nos indica que


r corresponde a
0,88, con una sig.
0,000.
Correlacin
lineal
positiva fuerte, del
tipo a mayor x,
mayor y; a menor
x, menor y.

Qu pasa con tipo de salario y


meses de contrato?
Qu pasa con aos de estudio y
tipo de salario?
Qu pasa con experiencia previa
y tipo de salario?