You are on page 1of 17

UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2

______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 1

UNIDAD TEMATICA 2: ANALISIS DE RELACION O ASOCIACION ENTRE DOS
VARIABLES. (Correspondiente a las semanas 4, 5 y 6 del slabo)

INTRODUCCIN

INDEPENDENCIA DE DOS VARIABLES X e Y

Uno de los propsitos del estudio de variables bidimensionales es analizar la relacin o asociacin
existente entre ellas (X , Y). Antes de hacer el anlisis de asociacin, debemos saber si las variables
son independientes. Si no son independientes, posiblemente estn relacionadas o asociadas y el
siguiente paso es determinar en qu medida estn asociadas, o sea cul es el grado o intensidad de la
relacin o asociacin.
La independencia de variables se determina tericamente y tambin grficamente.

DEFINICIN DE INDEPENDENCIA
1) Dados los datos bidimensionales ( x
i
, y
i
), donde i =1, 2, 3, , n valores de la variable
bidimensional (X, Y), organizados en una tabla de contingencia de k filas por r columnas,
presentando sus frecuencias absolutas conjuntas (f
i j
) y frecuencias absolutas marginales de X (f
i .
),
frecuencias absolutas marginales de Y (f
j .
),

diremos que X e Y son independientes si:
n
f f
f
j i
ij
. .
*
= o h
i j
= h
i .
* h
. j


2) Haciendo uso de las distribuciones de frecuencias condicionales de Y /X o de X / Y presentadas
respectivamente en tablas denominadas perfil fila y perfil columna con sus grficos
correspondientes:
a) Dados (x
i
, y
j
) valores de X e Y respectivamente, si para cada i fijo las frecuencias condicionales
de X
i
/ Y = y
j
,( h
i

j
) ,son iguales para todo j se dice que X e Y son independientes.
b) Dado (x
i
, y
j
) valores de X e Y respectivamente, si para cada j fijo las frecuencias condicionales
de Y
j
/ X= x
i
,(h
j

i
), son iguales para todo i se dice que X e Y son independientes
EJEMPLO 1.-
Tabla 1: Tabla de frecuencias absolutas conjuntas y absolutas marginales

X i / Y j BA ME AL f. a. m.
X:
f i .
AP 40 30 20 90
DE 35 15 10 60
NO 30 15 5 50
f. a. m.Y:
f . j
105 60 35 n = 200

Usando la definicin dada en (1), debemos comparar cada frecuencia conjunta con el producto de
las frecuencias marginales:
f
11
= (105x90) / 200=47.25 f
21
= (105x60 / 200 = 31.5

f
31
= (105x50) / 200 = 26.25
f
12
= (60x90) / 200 = 27.0

f
22
= (60x60) / 200 = 18.0

f
32
= (60x50) / 200 = 15.0


f
13
= (35x90) / 200 = 15.75 f
23
= (35x60) / 200 = 10.5 f
33
= (35x50) / 200 = 8.75
Como f
ij
( f
i .
f
. j
) / n , ) y , (x
j i
, entonces X e Y no son independientes.
Tabla 2: Tabla de frecuencias relativas condicionales de X i / Y= y
j
: h
i

j
(en %)
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 2


Xi : Opinin Xi / Y
1

= BA

h
i

j = 1

Xi / Y
2 = ME

h
i

j = 2

Xi / Y
3 = AL

h
i

j = 3

AP 38.1 50 57.1
DE 33.3 25 28.6
NO 28.6 25 14.3
TOTAL 100.0 100 100.0
Segn 2 (a) y usando la tabla de perfiles columna:

Para i = AP (dado) , las h
i

j
toman los siguientes valores para todo j : 38.1, 50.0, 57.1.
Para i = DE (dado), las h
i

j
toman los siguientes valores para todo j : 33.3, 25, 28.6.
Para i = NO (dado), las h
i

j
toman los siguientes valores para todo j : 28.6, 25, 14.3.

Tal como se observa, numricamente, las frecuencias condicionales de cada fila de la tabla son
diferentes; por lo tanto, las variables X e Y no son independientes.
Grficamente: haciendo el grfico de perfiles columna, se apreciar en cada barra correspondiente al
nivel socioeconmico la diferencia de frecuencias para las categoras de opinin respectivas,
indicando sto que las variables no son independientes.

Tabla 3: Tabla de frecuencias relativas condicionales de Y
j
/ X = x
i
: h
j

i
(en %)



Segn 2 (b) y usando la tabla de perfiles fila:

Para j = BA (dado) , las h
j

i
toman los siguientes valores para todo i: 45, 58.3, 60.
Para j = ME (dado) , las h
j

i
toman los siguientes valores para todo i: 33, 25, 30.
Para j = AL (dado) , las h
j

i
toman los siguientes valores para todo i: 22, 16.7, 10.

Tal como se observa, numricamente, las frecuencias condicionales de cada columna de la tabla son
diferentes; por lo tanto, las variables X e Y no son independientes.
Grficamente: haciendo el grfico de perfiles fila, se apreciar en cada barra de opinin la diferencia
de frecuencias para las categoras de nivel socioeconmico respectivas, indicando sto que las
variables no son independientes.
Consideremos un ejemplo de independencia de variables X e Y.- A 470 operarios de una planta
industrial se registro informacin respecto al tipo de medio de transporte (pblico o privado)
utilizado para concurrir a su centro de trabajo y el gnero (hombre, mujer).
M.Transporte/Gnero Hombre Mujer Marginal fila
Pblico 90 (40) 135 (60) 225
Privado 206 (40) 309 (60) 515
Marginal columna 296 (40) 444 (60) 740

Observamos que los hombres representan el 40% del total de operarios y las mujeres el 60 %.
Tambin observamos que tanto para los 225 operarios que utilizan el transporte pblico como para
Y j : Nivel de instruccin BA ME AL TOTAL
Yj / X
1 = AP

h
j

i = 1

45.0 33 22.0 100
Yj / X
2 = DE

h
j

i = 2

58.3 25 16.7 100
Yj / X
3 = NO

h
j

i = 3

60.0 30 10.0 100
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 3

los 515 que utilizan el transporte privado, la distribucin de porcentajes de hombres y mujeres sigue
siendo 40% y el 60 % respectivamente. Es decir la distribucin de gnero de los operarios de la
planta industrial no se ve modificada por el hecho de considerar por separado a los operarios que
utilizan uno u otro tipo de transporte; se mantiene constante dichos porcentajes. Podramos afirmar
que la distribucin de la variable gnero para este conjunto de operarios es independiente de la
variable medio de transporte utilizado.
Tambin se muestra la independencia de dichas variables al comparar la odds para la variable
gnero del conjunto de los operarios con la que obtenemos dentro de cada tipo de transporte que es
de 1.5 mujeres por cada hombre ( odds = 1.5 = 444/296= 309/206 = 135 / 90).
Se traduce los ODDS como ventaja, posibilidad, razn y se puede definir como la posibilidad
de ocurrencia de un suceso respecto a su posibilidad de no ocurrencia, de ah que en el numerador se
considera la frecuencia de individuos que presentan el suceso (n) y en el denominador la frecuencia
de individuos que no la presentan (m); por lo tanto representa el nmero de individuos en los que se
produce el suceso por cada uno que no lo presenta. Los odds varan de: 0 odds < y son muy
tiles para valorar la asociacin entre el suceso y una determinada variable.

Si las variables no son independientes, a continuacin se debe hacer un anlisis de relacin o
asociacin, usando indicadores adecuados, segn sea el tipo de las variables en estudio.

MEDIDAS DE ASOCIACIN PARA DOS VARIABLES X e Y

Introduccin
Para evaluar la magnitud de la asociacin entre dos variables categricas o cualitativas se necesita de
un estadstico denominado genricamente:
Medidas de asociacin , si la relacin es simtrica y
Medidas de tamao del efecto si la relacin es asimtrica.

Relacin simtrica.- Cuando no se puede distinguir con precisin entre una variable de clasificacin
factor ( independiente) y una variable respuesta (dependiente)
Se expresa como X R Y o X Y

EJEMPLO 2

Sea X : Religin que profesa: Catlica, protestante
Y : Lugar de nacimiento : Lima, provincia.

Relacin Asimtrica .- Cuando se puede distinguir a una variable como variable respuesta
(dependiente) y la otra como variable factor (independiente).
Se expresa como Y = f (X) o X Y
Factor Respuesta
Independiente Dependiente
EJEMPLO 3
Sea X : Sabe leer : Si , No (independiente o factor)
Y : Entiende bien lo que lee : Si, No (dependiente o respuesta)

MEDIDAS DE ASOCIACIN PARA DOS VARIABLES CUALITATIVAS O
CATEGRICAS

1.- COEFICIENTE DE YULE (ambas variables dicotmicas)
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 4

(existencia, magnitud,sentido)
Yule estableci lo siguiente para una tabla de contingencia 2 x 2

22 11 12 21
22 11 12 21
* *
* *
f f f f
f f f f
+

=

1 1 +
= 0 significa relacin nula entre X e Y
= 1 significa asociacin perfecta entre X e Y

EJEMPLO 4
A 100 universitarios extranjeros se les pregunt sobre la religin que profesan (Y) y su raza (X),
obtenindose los siguientes resultados:

TABLA 4
Yj
Xi
Catlico Protestante

Total
Sajn 0 1 1
Latino 99 0 99
Total 99 1 100

de Yule = 99x1 0x0 / 99x1 + 0x0 = 99 / 99 =1
Existe una relacin positiva perfecta entre X e Y
Todo catlico es latino y todo latino es catlico
Todo protestante es sajn y todo sajn es protestante.

Qu sucede si se invierte el orden de las filas de la tabla de contingencia 2 x 2 ?


TABLA 5
Yj
Xi Catlico Protestante

Total
Latino 99 0 99
Sajn 0 1 1
Total 99 1 100

de Yule = 0 x 0- 99x1 / 0 x 0 + 99x1= -99 / 99 = -1
Existe una relacin negativa perfecta entre X e Y
Relacin negativa entre ser catlico y ser sajn y entre ser sajn y ser catlico.
Relacin negativa entre ser latino y ser protestante y entre ser protestante y ser latino.

El alumno podr hacer la representacin grfica de los datos de ambas tablas y notar la relacin
existente.

NOTA
No todo valor de de Yule = 1 indica relacin perfecta



UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 5

EJEMPLO 5
TABLA 6
Yj
Xi Catlico Protestante

Total
Sajn 30 40 70
Latino 75 0 75
Total 105 40 145

= 75x40 30x0 / 75x40 + 30x 0 = 3000/3000 =1
Existe una clara relacin positiva entre ser catlico y ser latino y entre ser latino y ser
catlico, y todo protestante es sajn y no todo sajn es protestante.


2.- MEDIDAS DE ASOCIACIN BASADAS EN EL ESTADSTICO CHI CUADRADO o JI
CUADRADO:
2
(Propuesto por Karl Pearson 1900)
Con el smbolo
2
se denota a un estadstico cuya distribucin de probabilidad se aproxima a la
distribucin de probabilidad llamada chi cuadrado, a medida que se aumenta ms y ms el tamao de
la muestra. Dicho estadstico se define como sigue:

= =


k
i
r
j
j i
j i
ij
n
f f
n
f f
f
1 1
. .
2
. .
*
*

: entonces tericas, o esperadas s frecuencia ,
y muestra la de observadas s frecuencia , hacemos Si
. .

e
j i
o j i
f
n
*f f
f f
=
=


2
=


j i
e
e o
f
f f
,
) (


Si para todo (i, j) f
0
= f
e
, X e Y son independientes
a) COEFICIENTE PHI de Pearson: (ambas variables dicotmicas) (existencia,magnitud)
Se usa cuando X e Y son dicotmicas y estn medidas en escala nominal
= n /
2

0 < < 1 = 0 las variables son independientes
= 1 las variables no son independientes
Cuando 0 < < 1 , es difcil interpretar su resultado. Uno de los criterios es:

30 Nivel bajo de asociacin.
0.30 < < 0.50 Nivel medio de asociacin
0.50 Nivel alto de asociacin
NOTA: No se recomienda usar para tablas de contingencia de orden mayor de 2 x 2.

EJEMPLO 6
X: Raza: sajn, latino Y: Religin: catlico, protestante
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 6


TABLA 7: Frecuencias observadas TABLA 8: Frecuencias esperadas
Yj
Xi Catlico Protestante

Total
Sajn 20 70 90
Latino 100 10 110
Total 120 80 200

Yj
Xi Catlico Protestante

Total
Sajn 54 36 90
Latino 66 44 110
Total 120 80 200



2
= (20-54)
2
/ 54 + (70-36)
2
/66 + (100-66)
2
/66 + (10-44)
2
/44 = 97.306

= n /
2
= (97.306 / 200)
1/2
= 0.6975

Existe una ligera dependencia entre religin y raza, los catlicos tienden a ser latinos y los latinos
tienden a ser catlicos. Los protestantes tienden a ser sajones y los sajones tienden a ser protestantes.

b) COEFICIENTE DE CONTINGENCIA C de Pearson (existencia,magnitud)

n
C
+
=
2
2



0 C < 1 C prximo a 0 indica ausencia de relacin
C prximo a 1 indica existencia de relacin

NOTA: Para tablas cuadradas el valor mximo de C es

C
max
=
t
t 1


Donde t es el mnimo entre el nmero de filas y el nmero de columnas de la tabla de contingencia.

Tabla de 2 x 2 C
max
= 2 / 1 = 0.707
Tabla de 3 x 3 C
max
= 3 / 2 = 0.816

NOTA: Se recomienda usar este coeficiente en tablas de contingencia de cualquier tamao.
Algunos prefieren usar el coeficiente de contingencia ajustado: C aj

C aj = C / C
max


EJEMPLO 7:

X: Despenalizacin del aborto: en contra, indiferente, a favor
Y: Implantacin de la pena de muerte: en contra, indiferente, a favor

TABLA 8: Frecuencias observadas: f
o
Despenalizacin del aborto
Implantacin de la pena de muerte
En contra Indiferente A favor Total
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 7

En contra 161 436 121 718
Indiferente 209 678 132 1019
A favor 118 144 155 417
Total 488 1258 408 2154






TABLA 9: frecuencias esperadas: f
e

Despenalizacin del aborto
Implantacin de la pena de muerte
En contra Indiferente A favor Total
En contra 162.6667 419.3333 136 718
Indiferente 230.8598 695.1263 193.0139 1019
A favor 94.4735 243.5404 78.9861 417
Total 488 1258 408 2154


2
= (161-162.6667)
2
/ 162.6667 + .+ (155-78.9861)
2
/ 78.9861
= 154.9282
n
C
+
=
2
2



C = [154.9282 / (154.9282 + 2154 )]
1/2
= 0.2590
C
aj
= C / C
max
= 0.2590/0.816 = 0.3174
Se puede decir que entre X e Y hay ausencia de relacin, pues los valores de C son muy pequeos,
no son significativos.

c) COEFICIENTE DE CONTINGENCIA V DE CRAMER (variables pluricotmicas, f*c)
(existencia,magnitud)

V =
) 1 (
2
t n

donde t = mnimo (#filas, #columnas)



0 V 1 V = 0 ausencia de relacin
V = 1 existencia de relacin perfecta

NOTA: Se usa en tablas de contingencia de cualquier dimensin, siendo similar al coeficiente
cuando la tabla es de 2 x 2

Considerando los datos del ejemplo 7: t = min (3, 3) = 3

V =
) 1 3 ( 2154
9282 . 154

= 0.1896

UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 8

Un resultado muy conservador respecto al anterior, no hay relacin entre la implantacin de la pena
de muerte y despenalizacin del aborto.

3.- MEDIDAS DE ASOCIACIN BASADAS EN LA REDUCCIN PROPORCIONAL DEL
ERROR DE PREDICCION: RPE
Las medidas de asociacin estudiadas nos proporcionan informacin sobre el grado de dependencia
de dos variables categricas; en cambio las medidas del error de prediccin fueron ideadas para
cuantificar y describir la reduccin proporcional del error en una clasificacin.
Estas medidas descansan sobre las especificaciones de las probabilidades marginales de fila y
marginales de columna para cada una de las variables X e Y de la tabla de contingencia.
Al poseer informacin de una variable, se pretende predecir el valor de la otra variable y nos
preguntamos El conocimiento que tenemos de una variable modifica la prediccin que podramos
realizar a priori de la otra variable? Cul es la magnitud del error que se cometera en una
prediccin de este tipo?
Si el error de prediccin es muy elevado, no resultar conveniente utilizar la informacin disponible
de una variable para predecir el valor de la otra. Se sabe que la tasa del error de prediccin est
ntimamente ligada al concepto de la intensidad de la asociacin, En la medida en que es menor la
intensidad, mayor ser la tasa de error de prediccin, y a la inversa, cuanto mayor sea la intensidad
de la asociacin, menor ser la tasa de error en la prediccin.
Un valor igual a cero nos indicara que no existe disminucin en la proporcin del error de
prediccin respecto a la que realizaramos a priori desconociendo cualquier informacin de la
variable predictora. Por el contrario un valor igual a 1 indicara que la reduccin proporcional del
error de prediccin es mxima.

Aqu debemos distinguir dos casos: cuando la relacin es asimtrica y cuando es simtrica. En ambos
casos se usar el coeficiente (lambda) de Kruscal.

CASO 1: En relaciones asimtricas
Es lo mismo predecir los valores de una variable X a partir de los valores de la variable Y que a la
inversa?. La tasa de reduccin proporcional del error no tiene por qu ser la misma segn la
direccionalidad en que se realiza la prediccin en la clasificacin.

Esta medida se basa en la reduccin proporcional del error de prediccin cuando se utilizan los
valores de la variable independiente para predecir los valores de la variable dependiente.

Tomando X como variable respuesta: X = f (Y) o Y X
Factor respuesta
independiente dependiente

(columnas) (filas)

X
=
j
p
ij

max
p
i
.
max
/ (1 - p
i
.
max
)


Tomando Y como variable respuesta: Y = f ( X ) o X Y
Factor respuesta
Independiente dependiente

Y
=
i
p
ij

max
p
. j

max
/ (1 - p
. j

max
)

CASO 2: En relaciones simtricas
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 9

Una versin simtrica de lambda , apropiada para el caso en que no se distingue ninguna variable
como respuesta, es un promedio de las dos anteriores.
Es decir, cuando X R Y o X Y, usamos:

=
i
p
ij

max
+
j
p
ij

max
- p
i
.
max
- p
. j

max
/ 2 - p
i
.
max
- p
. j

max


0 < < 1 = 0 (Mximo error en la prediccin) indica ausencia de relacin
= 1 (No existe error de prediccin) indica presencia de relacin

EJEMPLO 8 : Adaptamos el ejemplo 7 para mostrar el clculo de lambda

1.- Clculo de las probabilidades p
ij
: Se divide cada f
ij
entre n

2.- Clculo de las probabilidades marginales p
i
.

y p
. j
: Se divide f
i
. entre n

y f
. j
entre n


TABLA N 10 (p
i j
)
Despenalizacin
del aborto (X)
Implantacin de la pena de muerte (Y)
En contra Indiferente A favor Total p
i
.
En contra 0.0747 0.2024 0.0562 0.3333
Indiferente 0.0970 0.3148 0.0613 0.4731
A favor 0.0548 0.0669 0.0720 0.1936
Total p.
j
0.2266 0.5840 0.1894 1.0000


Para el caso: X = f(Y) o Y X
Despenalizacin del aborto = f( Implantacin de la pena de muerte)


x
= 0.0970 +0.3148 + 0.0720 0.4731 / 1 0.4731 = 0.0203
(suma de mximos de cada columna - mximo de filas marginales)

Para el caso: Y = f ( X ) o X Y
Implantacin de la pena de muerte = f(Despenalizacin del aborto)


y
= 0.2024 + 0.3148 + 0.0720 0.5840 / 1 0.5840 = 0.0123
(suma de mximos de cada fila - mximo de columnas marginales)

Para el caso: X R Y X Y

= 0.4838+0.5892 0.4731 0.5840 / 2 0.4731 0.5840 =
(1.073 1.057) / 0.7429 = 0.016 / 0.7429 = 0.0169

Podemos concluir que X e Y no estn relacionados.

MEDIDAS DE ASOCIACIN DE VARIABLES CATEGRICAS ORDINALES

MEDIDAS CONCORDANTES

UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 10

Cuando se considera la ordenacin de individuos en dos variables X e Y , es posible determinar
comparativamente si el par es concordante ( cuando un sujeto con puntuacin alta en X tambin
tiene una puntuacin alta en Y) o discordante ( cuando un sujeto con puntuacin alta en X obtiene
una puntuacin baja en Y)
El par se dice empatado si ambos sujetos obtienen la misma puntuacin en X e Y.

NOTACIONES:
C: Nmero total de pares concordantes
D: Nmero total de pares discordantes.
E: Nmero total de pares empatados
a
i j
: frecuencia total de casos concordantes
b
i j
: frecuencia total de casos discordantes

a) El estadstico a usar es gamma de Goodman y Kruskall ( 1979) para el caso simtrico:
(existencia, magnitud,direccin)

= C D / C + D
-1 < < 1

Si D = 0 = 1 (cuando todos los pares son concordantes)
y si C = 0 = -1 (cuando todos los pares son discordantes)

Cuando = 0 hay ausencia de relacin
= 1 existe relacin positiva perfecta
= -1 existe relacin negativa perfecta

NOTA: Se usa para tablas de contingencia de cualquier dimensin, pero es apropiado para tablas de
contingencia cuadradas ( igual nmero de filas y columnas)

Clculo de gamma:

C =
i

j
f
i j
a
i j
donde a
i j =

k>i

l>j
f
kl

D =
i

j
f
i j
b
i j
donde b
i j =

k>i

l<j
f
kl

E
x y
=
i

j
f
i j
(f
i j
1) / 2 E
x
=
i
f
i .
(f
i .
1) / 2 E
y
=
j
f
. j
(f
. j
1) / 2

Interpretacin de pares: Dados los pares ( x
1
, y
1
) y ( x
2
, y
2
)

Dos pares son concordantes si:
x
1
es inferior a x
2
y y
1
es inferior a y
2
o x
1
es superior a x
2
y y
1
es superior a y
2 .

Dos pares son discordantes si :
x
1
es superior a x
2
y y
1
es inferior a y
2
o x
1
es inferior a x
2
y y
1
es superior a y
2 .

Dos pares son empatados solo en X si: x
1
es igual a x
2


Dos pares son empatados solo en Y si: y
1
es igual a y
2


Dos pares son simultneamente empatados en X e Y si: x
1
es igual a x
2
y y
1
es igual a y
2
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 11


EJEMPLO 9: Se seleccion una muestra de 45 personas y se registr su nivel social (X): alto,
medio, bajo y su nivel econmico (Y): alto, medio, bajo, cuyos resultados se muestran a
continuacin.
TABLA N 11

Nivel
social, X

Nivel econmico, Y
Bajo Medio Alto f
i .
Bajo 7 6 1 14
Medio 3 9 4 16
Alto 2 5 8 15
f
. j
12 20 13 45

Clculo de C: pares concordantes
a
i j
f
i j
a
i j
total
a
11
=


k>1

l >1
f
kl
=
k=2, 3

l=2, 3
f
kl

= f
22
+ f
23
+ f
32
+ f
33
= 9 + 4 + 5 + 8 = 26 7 (26) 182
a
12
=


k>1

l >2
f
kl
=
k=2, 3

l=3
f
kl

= f
23
+ f
33
= 4 + 8 = 12 6 (12) 72


a
13
= 0 1 (0) 0
a
21
= 5 + 8 = 13 3 (13) 39
a
22
= 8 9 (8) 72
a
23
= 0 4 (0) 0
a
31
= 0 2 (0) 0
a
32
= 0 5 (0) 0
a
33
= 0 8 (0) 0

El nmero total de pares concordantes es: C = 182 + 72 + 39 + 72 = 365.


Clculo de D: pares discordantes
b
i j
f
i j
b
i j
total
b
11
=
k>1

l<1
f
kl
=
k=2, 3

l = 0
f
kl
= 0 7 (0) 0
b
12
=


k>1

l<2
f
kl
=
k=2, 3

l=1
f
kl
= 3 + 2 = 5 6 (5) 30
b
13
= 3+9+2+5 = 19 1 (19) 19
b
21
= 0 3 (0) 0
b
22
= 2 9 (2) 18
b
23
= 2+5 = 7 4 (7) 28
b
31
= 0 2 (0) 0
b
32
= 0 5 (0) 0
b
33
= 0 8 (0) 0

El nmero total de pares discordantes es: D = 30 + 19 + 18 + 28 = 95

= C-D / C+D = 365 95 / 365 + 95 = 270 / 460 = 0.58695

Existe una asociacin considerable entre X e Y. Quienes tienen cierta categora de nivel social
tienden a conservar la misma categora de nivel econmico. Podemos decir que = 0.58 es un
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 12

valor bastante alto, si nos atenemos a los resultados obtenidos ordinariamente con variables de este
tipo.

NOTA: Cuando se cambia el orden de las categoras de una variable, cambia el signo de .

Clculo de pares empatados: E
E
x
= {14(13)+16(15)+15(14)} / 2 = 316
E
y
= {12(11)+20(19)+13(12)} / 2 = 334
E
x y
= {7(6)+6(5)+1(0)+3(2)+9(8)+4(3)+2(1)+5(4)+8(7)} / 2 = 120

b) Estadtico Tau-b de Kendall :
b
Es una variante de


b
= C D / { n(n-1)/2 - E
x
} { n(n-1)/2 E
y
}

-1 <
b
< 1
Se usa para cualquier tamao de tablas de contingencia, pero se recomienda para T.C. de igual
nmero de filas y columnas.

EJEMPLO 10: Considerando los datos del ejemplo 9 , tenemos:

b
= 365 95 / [ 45(44)/2 316] [45(44)/2 334] = 0.0006


MEDIDAS DE ASOCIACIN DE VARIABLES CUANTITATIVAS

a) Coeficiente de correlacin de Spearman (existencia, magnitud, direccin)

Cuando se tiene una sucesin de valores en escala de intervalo, de las variables (X,Y), a los cuales se
les puede asignar rangos ( escala ordinal) de acuerdo a la posicin que ocupan , se recomienda usar
el coeficiente de correlacin de Spearman para medir la relacin entre X e Y (mide la relacin entre
los rangos asignados a una variable y los rangos asignados a la otra variable)

r
s
= 1 [6 d
i

2
/ n(n
2
1)]

donde d
i
es la diferencia de rangos entre X e Y.

Por ejemplo, si se tratara de averiguar la relacin existente entre los puntajes de ingreso a la
universidad (X) y la situacin acadmica de los alumnos del curso al concluir el primer ao de
estudios (Y), deberamos ordenarlos segn su puntaje de ingreso y segn sus promedios ponderados,
y estos valores se convertiran en rangos.

PROCEDIMIENTO PARA EL CALCULO DEL COEFICIENTE DE SPEARMAN
Se anota el rango de cada individuo en la variable X y en la variable Y.
Se determina la diferencia entre los rangos , d
i
.
Se elevan al cuadrado estas diferencias y luego se suman.
Aplicar la frmula.

Qu hacer cuando varios valores de la variable tienen el mismo puntaje?

UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 13

Cuando se presenta dos o ms mediciones empatadas, el rango que se asigna a todas ellas es la media
aritmtica de los correspondientes valores ordinales o rangos.

NOTA: - 1 <= r
s
<= 1.
El coeficiente alcanzar El mximo valor si todos los individuos ocupan exactamente los mismos
rangos o posiciones en X y en Y.

EJEMPLO 11:
Los datos que siguen muestran las puntuaciones en nivel de lectura (X) y la conducta mostrada en
clase Y de 10 nios con problemas de conducta y de lectura, sometidos a un programa de
recuperacin cuyo fin era manifestar la eficacia de las tcnicas de modificacin de la conducta en la
superacin de dichos problemas.
TABLA N 12
Nivel de lectura
X
Conducta en clase
Y
RANGOS d
i
d
i
2
X Y
2.7 40 4 1 3 9
2.2 14 8 9 -1 1
2.3 18 7 7 0 0
2.6 20 5 5 0 0
3.1 22 3 4 -1 1
3.4 36 2 3 -1 1
1.9 17 10 8 2 4
2.1 13 9 10 -1 1
2.4 39 6 2 4 16
3.9 19 1 6 -5 25
Total 0 58

r
s
= 1 [6 d
i

2
/ n(n
2
1)] = 1 - [6*58 / 10(10
2
-1)] = 1 0.35 = 0.65
Existe una asociacin considerable entre los rangos asignados.

Si se hubiera asignado los rangos en ambas variables desde el mnimo hasta el mximo, el valor del
coeficiente sera el mismo.
NOTA: Respecto a los rangos, es indiferente atribuir en ambas variables el valor 1 al sujeto con la
mxima puntuacin, el valor 2 al inmediato inferior etc., que atribuir el valor 1 al sujeto con mnima
puntuacin, el 2 al inmediato superior etc. El valor de r
s
ser el mismo en uno u otro caso.

b) Coeficiente de correlacin de Pearson: r (existencia, magnitud, direccin, forma)

r = S
xy
/ S
x
S
y
-1 r 1

donde

S
xy
es la covarianza de X e Y
S
x
y

S
y
son las desviaciones estndar de X y de Y, respectivamente.


EJEMPLO12: Con los datos de las variables X e Y de la tabla 12, vamos a calcular el valor del
coeficiente de correlacin lineal. Para tal efecto, agregaremos columnas a la tabla 13 con los clculos
necesarios.
TABLA N 14
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 14

X Y
XY X^2 Y^2
2.7 40 108 7.29 1600
2.2 14 30.8 4.84 196
2.3 18 41.4 5.29 324
2.6 20 52 6.76 400
3.1 22 68.2 9.61 484
3.4 36 122.4 11.56 1296
1.9 17 32.3 3.61 289
2.1 13 27.3 4.41 169
2.4 39 93.6 5.76 1521
3.9 19 74.1 15.21 361
26.6 238 650.1 74.34 6640

media de X 2.66 media de Y 23.8
varianza de X 0.3584 Varianza de Y 97.56
desvest X 0.598665182 desvest Y 9.87724658
COV(X,Y) 1.702 COEF. DE CORREL. 0.287832387

Se puede decir que entre X e Y no hay relacin lineal.

MEDIDAS DE ASOCIACIN DE VARIABLES MIXTAS: UNA CUANTITATIVA Y OTRA
CUALITATIVA

a) Coeficiente de correlacin biseral puntual de X e Y: r
bp
(existencia, magnitud,direccin)

Es una estimacin de r cuando una variable es contnua y la otra variable es una variable cualitativa
dicotmica ( debe existir una relacin lineal)


r
bp
=
X
nS
X X n n ) (
0 1 1 0

-1 r
bp
1
donde:
X es la variable cuantitativa continua,
Y es la variable cualitativa dicotmica (1 si objeto posee cierta caracterstica y 0 si no la posee),
1
X
es la media del grupo que presenta cierta caracterstica de inters

0
X
es la media del grupo que no presenta la caracterstica de inters

S
X
es la desviacin estndar de la muestra total
n
1
es el tamao de muestra del grupo que tiene la caracterstica de inters

n
0
es el tamao de muestra del grupo que no tiene la caracterstica de inters

EJEMPLO 13:
Los datos que siguen muestran la distribucin de puntajes de un test de apreciacin musical, logrados
por 145 estudiantes del 5 ao de secundaria. Los 145 estudiantes se dividieron en dos grupos: el
primero, compuesto por 21 estudiantes con formacin musical (caracterstica de inters) y el segundo
grupo compuesto por 124 estudiantes sin ninguna preparacin musical. El problema consiste en
descubrir si existe alguna correlacin entre los puntajes del test y la preparacin musical previa.
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 15


TABLA N 15
X X
1
X
0

Puntajes
Grupo
Preparado en
msica

Grupo
no
preparado
en msica Total
55-59 1 16 17
60-64 0 21 21
65-69 1 19 20
70-74 6 27 33
75-79 6 19 25
80-84 2 16 18
85-89 5 6 11
Tamao n
1
= 21 n
2
= 124 n = 145

Notar que, dentro de las casillas, y en cada fila, se tienen las frecuencias observadas de cada grupo y
del grupo total, respectivamente.
Se debe calcular la media de cada grupo y del grupo total:

1
X = 1617/21 = 77
0
X = 8728/124 = 70.39 X = 10345/145 = 71.34
La varianza de los 145 puntajes (grupo total) est dada por:

=
2
X
S (749325/145) (71.34)
2
= 78.358

Reemplazando en la frmula del coeficiente:

r
bp
=
X
nS
X X n n ) (
0 1 1 0

= 0.263
Existe una asociacin muy dbil entre la preparacin musical previa y el puntaje del test de
apreciacin musical.
Tambin se puede deducir el coeficiente r
bp
a partir del r
xy
y se obtiene:

r
bp = { (X1 X 0 / Sx
} ( pq) o r
bp = { (X1

X / Sx
} ( p /q)
donde p = n
1
/ n y q= n
o
/ n
Considerando el ejemplo 14 tenemos: p = 245/520 = 0.47 q = 275/520 = 0.53 pq = 0.50
Sx= 1324.192/520 = 1.596

r
bp
= {(2.71-3.53)/1.596 }0.50 = 0.257

b) Coeficiente de correlacin Etha :

Determina el grado de relacin existente entre una variable cualitativa nominal (Y) , la cual tiene k
modalidades o categoras, y una variable cuantitativa continua ( X).
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 16

Para el clculo del coeficiente se toma en cuenta el tamao de la poblacin o de la muestra n, la
media X y la varianza
2
X
S de la variable numrica X. Segn la variable categrica, la poblacin o la
muestra se particiona en k clases de tamaos n
k
con medias
k
X y varianzas
2
k
S .

=
2
2
X
entre
S
S
0 1 (1)
Este ndice vale 0 cuando la varianza entre es nula y traduce la ausencia de vnculo entre la variable
real (cuantitativa) y la variable categrica. Vale 1 cuando la varianza entre es igual a la varianza total
y traduce entonces un fuerte vnculo ente la variable real y la variable categrica.
El ndice
2
se denomina poder discriminante.

Frmulas adicionales:

=
k
n n

=
k k
X n
n
X
1

2 2 2
dentro entre X
S S S + =

2 2 2
1
X X n
n
S
k k entre
=

=
2 2
1
k dentro
S
n
S


Cuando la relacin entre X e Y no es lineal , no se puede usar la r de Pearson , entonces se puede
usar para hallar correlacin entre dos escalas de intervalo.

Tambin se suele usar la siguiente expresin para el clculo de
2



2
= n
j
( X
j
X )
2
/ ( x
i
X )
2
f
i
(2)
j

i


n
j
nmero de observaciones del subgrupo j de X

X
j
media del grupo j (correspondiente a la categora j de la variable cualitativa Y)

X media total
k nmero de subgrupos o categoras de la variable Y
x
i
valor de la variable de escala de intervalo

EJEMPLO 14

Un investigador desea determinar el grado de asociacin entre el nmero de hijos: (X) y el lugar de
procedencia (ciudad y campo) :(Y) de un grupo de familias. Para ello se toma una muestra de 520
familias y se registra lo siguiente:

N de
hijos
X
Fam.
Ciudad
f
ciu

Fam.
Campo
f
cam

Fam.
Total
f
T

X
i
f
T
X
i
f
ciu
X
i
f
cam

(Xi-X
T
)2 f
i

0 10 5 15 0 0 0 147.894
1 40 20 60 60 40 20 274.776
2 80 40 120 240 160 80 155.952
UNMSM FCM EAPE CURSO: ESTADISTICA II-semestre 2011-2
______________________________________________________________________

Profesoras del curso: Mg. Ana Mara Crdenas y Lic. Caridad Huaroto Pgina 17

3 50 80 130 390 150 240 2.548
4 30 60 90 360 120 240 66.564
5 20 40 60 300 100 200 207.576
6 10 20 30 180 60 120 245.388
7 5 10 15 105 35 70 223.494
total 245 275 520 1635 665 970 1324.192

Sea:
X: N de hijos, variable cuantitativa
Y:Lugar de procedencia, variable cualitativa con dos categoras (familias de la ciudad, familias del
campo)

Media total del nmero de hijos : X
T
= 1635/ 520 = 3.14

Media del nmero de hijos de las familias de la ciudad: X
ciu
= 665/ 245 = 2.71

Media del nmero de hijos de las familias del campo: X
cam
= 970/275= 3.53

Usando (2) tenemos:
2
= 245(2.71-3.14)2 + 275(3.53-3.14)2 / 1324.192 = 0.0658



= 0.257
Para ayudarte en la interpretacin realiza el grfico de X versus Y considerando ambas categoras

EJERCICIO:
Se considera una poblacin de 15 alumnos distribuidos segn el grupo al que pertenecen y sus notas
en Matemtica I.
Iden a b c d e f g h i j k l m n
Grupo B B B B B C C C C A A A A A A
Mat1 10 11 12 14 11 10 15 10 11 7 7 7 7 8 8

El alumno deber hallar e interpretar el valor del ndice

You might also like