You are on page 1of 8

Escuela Profesional de Sociologa

Estadstica Social
Ms. Marcos Obando Aguirre

1

Anlisis de Contingencia
En la primera parte del curso, cuando se desarroll el tema de proporciones y porcentajes, se
introdujeron algunos elementos propios de las tablas de contingencia, bajo la denominacin de
tablas de doble entrada o tablas cruzadas. En esa oportunidad se mencion que este tipo de
tablas permite organizar los datos cuando provienen de dos variables que interactan en forma
simultnea. Por ejemplo, si tenemos una variable: sexo, podemos observar cmo interacta con
ella una segunda variable, supongamos, opinin sobre el aborto teraputico. Desde el plano de las
hiptesis de investigacin, podemos adelantar que las opiniones de varones y mujeres sern
diferentes en relacin a este tema. Es as que, basados en una perspectiva terica que coloca a la
mujer como sujeta, en mayor medida, a consideraciones excesivamente moralistas de la sociedad,
adelantamos la hiptesis que ellas estarn menos dispuestas a aceptar este tipo de prcticas, an
sacrificando su propia libertad y salud personal; por el contrario afirmaremos que los varones se
muestran en mayor medida indiferentes a este problema.
Las variables contenidas en esta hiptesis, originan una tabla de doble entrada, la misma que
depender en su tamao, del nmero de opciones que cada variable genere. Esto resulta muy
claro en el caso de la variable sexo, en donde las nicas opciones posibles son: varn y mujer.

El asunto puede aparecer algo menos fcil en el caso de la variable opinin sobre el aborto
teraputico, en donde se pueden trabajar ms de dos tipos de opinin


Opinin sobre el
aborto
En desacuerdo y lo rechaza de todas maneras
De acuerdo totalmente sin condiciones
En desacuerdo, pero lo aceptara bajo
determinadas condiciones
Sexo
Varn
Mujer
Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

2


La tabla de doble entrada, permitir visualizar de un modo bastante ms claro esta interaccin
entre variables.







Cada casilla contiene un tipo particular de dato, as la casilla a) contiene el nmero de varones que
rechaza totalmente esta prctica; la casilla b), el nmero de mujeres que rechazan totalmente; las
casillas c) y d), los varones y mujeres que rechazan pero que aceptaran en determinadas
circunstancias. Las casillas e) y f), presentan a varones y mujeres que estn de acuerdo con esta
prctica. En otras palabras cada casilla representa una propiedad especfica de la interaccin de
las variables. El nmero de casillas depender del nmero de posiciones que tenga cada una de
las variables que se combinan; en el ejemplo tenemos el sexo con dos posiciones y la opinin con
tres posiciones, decimos que estamos frente a una tabla de 2 x 3. El tamao de las tablas se mide
por tanto, en funcin al nmero de posiciones que tienen las variables que se relacionan, siendo el
menor nmero de posiciones de dos por cada variable, tabla de 2 x 2. Resulta lgico comprender
que pueden existir tablas de mayor tamao 3 x 3, 3 x 4, 4 x 4, etc.
Una tabla de contingencia tpica tiene la siguiente forma:
TITULO DE LA TABLA

Varones Mujeres Total
En desacuerdo y lo rechaza de
todas maneras

En desacuerdo pero lo
aceptara bajo determinadas
condiciones

De acuerdo totalmente sin
condiciones

Total


Pongamos atencin a la columna y a la fila del total, es obvio que en las tres primeras casilla de la
columna total podemos leer el total de individuos segn el tipo de opinin que manifiesten; en la
a) b)
c) d)
Varones Mujeres
En desacuerdo y lo
rechaza de todas maneras
En desacuerdo pero lo
aceptara bajo
determinadas condiciones
De acuerdo totalmente
sin condiciones
e) f)
Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

3

fila total, podemos ver en los casilleros, el total de varones y mujeres; finalmente, en la casilla del
extremo inferior derecho, final de la columna y final de la fila, se aprecia el total de casos.
Este tipo de tablas se utiliza con mucha frecuencia en el anlisis social, en tanto que trabaja con
variables cualitativas, de escala nominal y ordinal. El estudiante debera, a modo de ejercicio,
plantearse la mayor cantidad de variables que originen tablas de contingencia, utilizando para ello
variables cualitativas con distinto nmero de posiciones o categoras cada una de ellas.
El anlisis de contingencia trabaja directamente con las frecuencias y se basa en la comparacin
entre dos tipos de frecuencias: frecuencia observada y frecuencia esperada. Se denomina
frecuencia observada, a la registrada directamente en el conteo de los datos, es decir, luego de
aplicar un instrumento para recojo de datos (encuestas u otras similares), tenemos la posibilidad
de contar cuntas frecuencias existen en cada categora en que se divide la variable; por ejemplo,
si pregunto por el departamento de nacimiento, podre contar cuntas personas son de Arequipa,
Lima, Puno, Cusco, etc., esa es la frecuencia observada.
La frecuencia esperada, por el contrario, se construye tericamente, y corresponde en realidad a
la distribucin por azar de las frecuencias en cada casillero de la tabla. Por qu es importante
esta frecuencia? Porque permite establecer el grado de similitud o de diferencia que existe entre
lo observado y lo esperado en condiciones de completa independencia entre las variables. Dado
que la frecuencia esperada es aquella que ocurre en completa independencia entre las variables, si
la diferencia con lo observado es grande, entonces lo que explica esta diferencia tiene que ser la
influencia de una variable sobre la otra.
Para mejor entender estas ideas de existencia o inexistencia de relacin, planteamos los siguientes
dos casos:
1. Un socilogo(a) plantea que la variable nivel educativo tiene relacin con la categora
laboral que una persona puede lograr y es bastante probable que efectivamente sea as,
por lo que no resulta extraa la relacin entre nivel educativo y categora laboral.
2. Un socilogo(a) no puede esperar que las variables sexo e inteligencia tengan relacin; si
aceptara esto, tendra que aceptar que las mujeres son ms inteligentes que los varones o
viceversa, situacin que no es sociolgica ni funcionalmente posible de sostener. Por
tanto no resulta plausible que se sostenga este tipo de relacin.
Se comprende que en el primer caso, el socilogo(a), espera que las variables nivel educativo y
categora laboral estn relacionadas; incluso podemos afirmar que en situaciones normales, a
mayor nivel educativo, corresponde una mayor oportunidad de alcanzar mejor categora
ocupacional. No esperaramos independencia entre las variables o, para decirlo de otra manera,
ausencia de relacin entre ellas.
Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

4

El segundo caso plantea una situacin diferente, dado que no existe ningn elemento que permita
sostener que un sexo es ms o menos inteligente que el otro, esperamos que las variables se
comporten con independencia una de la otra, es decir, sin relacin entre ellas.
Estos argumentos estn en la base de la formulacin de la hiptesis de nulidad (H
0
) en la prueba
de contingencia; esta prueba plantea independencia entre las variables, o si se quiere nulidad de
relacin entre variables. Se entiende entonces, que la hiptesis alterna (H
1
), plantea lo opuesto,
que las variables estn relacionadas entre s, y por tanto, que el comportamiento de una de ellas
(variable dependiente), se explica por la influencia de la otra variable (variable independiente).
La prueba estadstica se realiza mediante la distribucin de muestreo chi cuadrado (
2
). Esta
distribucin corresponde en realidad a variables continuas y su utilizacin en pruebas estadsticas
que implican variables cualitativas, fuerza las caractersticas de la distribucin; por este motivo, en
algunos casos, que explicaremos luego, se hace necesario realizar algunos ajustes para corregir la
distorsin generada por esta causa.
Veamos un caso, a partir de nuestra ya conocida base de datos base3 cabinas.sav. Alli tenemos
dos variables que reunen las condiciones para realizar anlisis de contingencia, es decir, se trata de
variables cualitativas nominales, sexo y preferencia en horario de uso de internet. A partir de
esto, el socilogo(a), puede plantearse la pregunta siguiente: Los varones prefieren horarios de
tarde y noche, a diferencia de las mujeres que prefieren horarios de maana. Si esto es cierto,
entonces podemos afirmar que la variable sexo (ser varn o mujer) determina que tipo de horario
de uso de cabina de internet se prefiere. Estamos listos para iniciar la prueba de contingencia y
para ello seguimos los pasos del protocolo ya explicado.
Primer paso. Supuestos.
Nivel de medicin: escala nominal para ambas variables
Muestras aleatorias independientes
Hiptesis de nulidad: no existe relacin entre el sexo y el horario preferido para navegar en
internet.
Hiptesis alterna: existe relacin entre ambas variables.
Segundo paso. Eleccin de la prueba estadstica
Como requerimos descartar una H
0
que plantea independencia entre dos variables nominales,
elegimos el anlisis de contingencia. La distribucin de muestreo asociada es la distribucin
2

Tercer paso. Eleccin de un nivel de significacin y regin crtica
De nuevo estamos ante la necesidad de elegir un nivel de significacin para la prueba, como se ha
visto en otras pruebas, este nivel puede ser 0.05 o menor. Para encontrar en la tabla el valor
2

Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

5

que corresponde a la prueba se debe calcular primero los grados de libertad. El clculo de los
grados de libertad implica un procedimiento peculiar que exponemos a continuacin.
Para el anlisis de contingencia, los grados de libertad se calculan en atencin al nmero de
casilleros que tiene la tabla de contingencia y no en relacin al tamao de la muestra. La frmula
para establecer estos grados de libertad es:
= 1 1
En donde:
c = columnas
f = filas
En el caso que tratamos, la tabla de contingencia es la siguiente:

PREFERENCIA PARA NAVEGAR * SEXO DEL ENTREVISTADO

SEXO DEL
ENTREVISTADO
Total

MUJER VARN
PREFERENCIA
PARA
NAVEGAR
MAANA
38 50 88
TARDE
77 96 173
NOCHE
66 73 139
IGUAL EN
CUALQUIER
MOMENTO
24 44 68
Total
205 263 468

Tenemos dos columnas (correspondientes a mujer y varn) y cuatro filas (correspondientes a
maana, tarde, noche, igual en cualquier momento), aplicando la frmula:
= 2 14 1
= 13
= 3
La prueba tiene 3 grados de libertad.
Observamos en la tabla
1
del
2
, qu valor corresponde a un nivel de significacin de 0.05 y 3
grados de libertad, vemos que este valor es igual a 7.8147, este valor se convierte en regin crtica,

1
Tomada de: http://www.cema.edu.ar/~rst/Simulacion_de_Sistemas/Teoria/tablachicuadrado.pdf
Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

6

puesto que si al calcular la prueba obtenemos un valor igual o superior a este, podemos rechazar
la H
0
. En caso el valor calculado sea inferior a 7.8147, no es posible rechazar H
0
.

Cuarto paso. Clculo de la prueba.
Como ya se ha mencionado, la prueba implica la comparacin entre frecuencia observada (f
o
) y
frecuencia esperada (f
e
); las frecuencias obervadas son las que se obtienen del trabajo de campo,
en este caso luego de contar el nmero de casos efectivos declarados en la encuesta. Por el
contrario, la frecuencias esperadas son un clculo terico y para ello debemos observar los
siguientes pasos.
El clculo de f
e
, se inicia con la tabla de contingencia vacia en los datos centrales, pero
conservando los totales de filas y columnas. Para orientar mejor el procedimiento a cada casilla se
le asigna una letra de orden.
PREFERENCIA PARA NAVEGAR * SEXO DEL ENTREVISTADO
Clculo de frecuencias esperadas

SEXO DEL
ENTREVISTADO
Total

MUJER VARN
PREFERENCIA
PARA
NAVEGAR
MAANA


a) b)
88
TARDE


c) d)
173
NOCHE


e) f)
139
IGUAL EN
CUALQUIER
MOMENTO
g) h)
68
Total
205 263 468

Para calcular la f
e
de la casilla a), debemos multiplicar el total de la fila por el total de la columna y
dividir entre el total de casos:

=
88 205
468
= 38.5


Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

7

=
173 205
468
= 75.8

=
139 205
468
= 60.9
El estudiante se preguntar ahora, porqu razn se han calculado las f
e
de las casillas a), c) y e) y
no las otras. La razn es simple, las otras se calculan por diferencia, as:

= 88 38.5 = 49.5

= 173 75.8 = 97.2

= 139 60.9 = 78.1

= 205 38.5 +75.8 + 60.9 = 29.8

= 68 29.8 = 38.2

Colocamos estos datos en el cuadro, se estila colocar arriba la f
o
y debajo de esta la f
e
.
PREFERENCIA PARA NAVEGAR * SEXO DEL ENTREVISTADO
Clculo de frecuencias esperadas

SEXO DEL
ENTREVISTADO
Total

MUJER VARN
PREFERENCIA
PARA
NAVEGAR
MAANA


a)
38
38.5
-0.5

b)
50
49.5
0.5
88
TARDE


c)
77
75.8
1.2
d)
96
97.2
-1.2
173
NOCHE


e)
66
60.9
5.1
f)
73
78.1
-5.1
139
IGUAL EN
CUALQUIER
MOMENTO
g)
24
29.8
-5.8
h)
44
38.2
5.8
68
Total
205 263 468

Un tercer clculo es el residual, es decir la diferencia enter f
o
f
e
. Estos resultados los colocamos
directamente en el cuadro, debajo de la f
e
. Casi a simple vista se puede notar que las diferencias
entre frecuencias observadas y esperadas son bastante bajas.


Escuela Profesional de Sociologa
Estadstica Social
Ms. Marcos Obando Aguirre

8

La frmula para calcular el
2
es:


Todos estos valores ya los tenemos en la tabla; sin embargo, para mejor proceder los podemos
acomodar en una matriz del tipo:
Casillas f
o
f
e
f
o
- f
e
(f
o
- f
e
)
2
(f
o
- f
e
)
2
/f
e

a 38 38.5 -0.5 0.25 0.00649351
b 50 49.5 0.5 0.25 0.00505051
c 77 75.8 1.2 1.44 0.01899736
d 96 97.2 -1.2 1.44 0.01481481
e 66 60.9 5.1 26.01 0.4270936
f 73 78.1 -5.1 26.01 0.33303457
g 24 29.8 -5.8 33.64 1.12885906
h 44 38.2 5.8 33.64 0.88062827
468 468 0 122.68 2.81497169
Nota: El nmero de decimales ha considerar en la ltima columna debe considerar el nmero de decimales de los
valores
2
que proporciona la tabla, que en realidad son cuatro.
El valor del
2
calculado es 2.8149.
Quinto paso. Decisin
Vemos que el valor del
2
calculado es 2.8149, y es bastante menor al
2
en la tabla que es 7.8147.
En consecuencia, no podemos rechazar la H
0
, y tenemos que concluir, que no existen diferencias
significativas en las preferencias de horario entre varones y mujeres.

You might also like