You are on page 1of 23

PRUEBAS ESTADSTICAS CON LA DISTRIBUCIN CHI-CUADRADO

1. BONDAD DE AJUSTE
Las pruebas de bondad de ajuste tienen por objetivo determinar si los
datos se ajustan a una determinada distribucin, esta distribucin puede estar
completamente especificada (hiptesis simple) o perteneciente a una clase
paramtrica (hiptesis compuesta).
Con mucha frecuencia no se conoce la distribucin de probabilidad de la
variable aleatoria en estudio, digamos X, y se desea probar la hiptesis de que
X sigue una distribucin de probabilidad particular. Por ejemplo, podra ser de
inters probar la hiptesis de que X sigue una distribucin normal, una
exponencial, etc.
Existen dos procedimientos para realizar pruebas de bondad de ajuste
que son los ms conocidos. El primero se basa en una tcnica grfica muy til
llamada grfica de probabilidad y el segundo procedimiento se basa en la
distribucin Chi-cuadrada.

2. INTRODUCCIN A LA CHI-CUADRADO
La prueba de Chi- cuadrado (X
2
), permite calcular la probabilidad de
obtener resultados que nicamente por efecto del azar se desven de las
expectativas en la magnitud observada si el modelo es correcto.
Para realizar una prueba de Chi-cuadrado, el primer paso es comparar el
nmero de individuos observado en cada categora con los nmeros esperados
considerando el tamao de la muestra y el modelo propuesto. Las desviaciones
son elevadas al cuadrado y divididas por los valores esperados, lo cual
proporciona un valor de Chi-cuadrado. Se utiliza el nmero de individuos y no
las proporciones, X
2
toma en consideracin el tamao de la muestra.

La formula para X
2
es como se indica a continuacin:

( )


=
i
esperados resultados
esperados resultados observados resultados
x
2
2


El siguiente paso es determinar los grados de libertad. Los grados de
libertad son el nmero de categoras o clases variables independientes que
existe. Generalmente, esto es igual a uno menos el nmero total de clases.
Por ejemplo, si hay dos clases de semillas, amarillas y verdes,
nicamente una de ellas es variable independientemente una vez se conozca
el nmero de semillas amarillas en un tamao de muestra determinado,
tambin se conoce el nmero de semillas verdes. Por lo tanto, los grados de
libertad en este ejemplo son uno.
El paso final en la aplicacin de la prueba de Chi-cuadrado es buscar el
valor de Chi-cuadrado y los grados de libertad en una tabla o grafica como las
que se presentan a continuacin y determinar el valor de la probabilidad. Este
valor es la probabilidad de que el azar por s mismo pudiera ser responsable de
una desviacin tan grande o mayor que la observada, si la hiptesis es
correcta.
Si la probabilidad es alta se considera que los datos estn de acuerdo
con el modelo, lo cual no prueba que el modelo sea correcto, sino que
simplemente no se puede demostrar que sea incorrecto. Si la probabilidad es
baja, la desviacin no es debida al azar y se considera que los datos no
respaldan el modelo.
Seguidamente se tiene que decidir que tan baja probabilidad es posible
aceptar antes de rechazar el modelo propuesto. Generalmente, el nivel de
confianza escogido es de 5%. Si la probabilidad es menor de 0.05, la diferencia
es significativa, y si es menor de 0.01, esta es considerada altamente

significativa. Las probabilidades en estos intervalos generalmente causan el


rechazo de un modelo, sin embargo, el rechazo de la hiptesis al nivel del 5%
significa que se rechazan hiptesis correctas 5% de las veces.



Tabla Distribucin de ji-cuadrado

Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,30
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25,00 27,49 30,58 32,80
16 23,54 26,30 28,85 32,00 34,27
17 24,77 27,59 30,19 33,41 35,72
18 25,99 28,87 31,53 34,81 37,16
19 27,20 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40,00
21 29,62 32,67 35,48 38,93 41,40
22 30,81 33,92 36,78 40,29 42,80
23 32,01 35,17 38,08 41,64 44,18
24 33,20 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,50 71,42 76,15 79,49
60 74,40 79,08 83,30 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,30
100 118,50 124,34 129,56 135,81 140,17

3. TABLAS DE CONTINGENCIA
En estadstica las tablas de contingencia se emplean para registrar y
analizar la relacin entre dos o ms variables, habitualmente de naturaleza
cualitativa, nominales u ordinales.
Las tablas de contingencia tienen dos objetivos fundamentales:
1) Organizar la informacin contenida en un experimento cuando sta es de
carcter bidimensional, es decir, cuando est referida a dos factores (variables
cualitativas).
2) A partir de la tabla de contingencia se puede adems analizar si existe
alguna relacin de dependencia o independencia entre los niveles de las
variables cualitativas objeto de estudio. El hecho de que dos variables sean
independientes significa que los valores de una de ellas no estn influidos por
la modalidad o nivel que adopte la otra.
Supngase que se dispone de dos variables, la primera el sexo (hombre
o mujer) y la segunda que recoge si consume o no alimentos ecolgicos. Se ha
observado esta pareja de variables en una muestra aleatoria de 100 individuos.
Se puede emplear una tabla de contingencia para expresar la relacin entre
estas dos variables, del siguiente modo:

CONSUME NO
CONSUME
TOTAL
HOMBRE 43 9 52
MUJER 44 4 46
TOTAL 87 13 100

Las cifras en la columna de la derecha y en la fila inferior reciben el


nombre de frecuencias marginales y la cifra situada en la esquina inferior
derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres
consumidores es aproximadamente igual a la proporcin de mujeres
consumidoras. Sin embargo, ambas proporciones no son idnticas y la
significacin estadstica de la diferencia entre ellas puede ser evaluada con el
test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una
muestra aleatoria de una poblacin. Si la proporcin de individuos en cada
columna vara entre las diversas filas y viceversa, se dice que existe asociacin
entre las dos variables. Si no existe asociacin se dice que ambas variables
son independientes.
El grado de asociacin entre dos variables se puede evaluar empleando
distintos coeficientes: el ms simple es el coeficiente phi que se define por

N
x
2
=
donde
2
se deriva del test de Pearson, y N es el total de observaciones -el
gran total-. puede oscilar entre 0 (que indica que no existe asociacin entre
las variables) y 1 (asociacin total).
Para identificar relaciones de dependencia entre variables cualitativas se
utiliza un contraste estadstico basado en el estadstico
x
2
(Chi-cuadrado),
cuyo clculo nos permitir afirmar con un nivel de confianza estadstico
determinado si los niveles de una variable cualitativa influyen en los niveles de
la otra variable nominal analizada.
Siguiendo con el ejemplo propuesto, el clculo de la Chi-cuadrado nos
permitira saber si el sexo de una persona es un factor determinante en que
dicha persona fume o no fume.

Cmo podemos determinar si existe una relacin de dependencia o


independencia entre las variables analizadas?

Dos variables son independientes si:

a) las frecuencias relativas condicionadas son iguales a las frecuencias
relativas marginales, es decir:

= =

= =

= =

n
n
n
n
n
n
n j
j
i
f f f
1
1
1
1
12
2
1
1
11
1
1



= =

= =

= =

n
n
n
n
n
n
n j
j
f f f
2
2
2
2
2
22
2
2
2
21
1
2





Frecuencias relativas marginales:


= = =

n
f
n
n
i
ij
i
ij
j
i
f

= = =

n
f
n
n j
ji
j
ij
i
j
f




b) O bien si se cumple que la frecuencia relativa conjunta es igual al


producto de las frecuencias relativas marginales:

( )

=


n
n
n j
i
ij
j i
x f

De esta forma, comparando las frecuencias tericas esperadas en caso
de independencia entre los factores con las frecuencias observadas en la
muestra, podremos concluir si existe una relacin de dependencia o
independencia entre los factores o atributos analizados.
Segn la notacin de la tabla inicial, y utilizando el concepto
frecuentalista de probabilidad, podemos estimar la probabilidad de que se de
un suceso determinado a partir de sus frecuencias relativas:

nij
ij
;

=


ni
i
;

=


n j
j


De esta forma, si las variables son independientes




=

n
n j
i
ij
ij
x

donde E
ij
sera el nmero de casos o frecuencia absoluta esperada o terica
en condiciones de independencia. Por lo tanto podremos calcular las
frecuencias esperadas:


n n j i
ij
x


En lugar de los E
ij
, habremos observado los n
ij
. Tendremos tantos
valores E
ij
y n
ij
como celdas de la matriz, concluyendo que si hay poca
diferencia entre estos valores los atributos sern independientes, no

pudindose afirmar lo mismo en caso contrario. Supuesto que el atributo A


tiene n filas y el atributo B, k columnas, la tabla ser de orden nxk. Pearson
plante la utilizacin del estadstico c2 para analizar la independencia, definido
por:



( )


= =
=
ij
k
j
h
i
ij ij
n
x
2
1 1 2

La hiptesis nula a contrastar ser la de independencia entre los
factores, siendo la hiptesis alternativa la de dependencia entre los factores.
El valor de
x
2
calculado se compara con el valor tabulado de una
x
2

para un nivel de confianza determinado y (n-1) (k-1) grados de libertad. Si el
valor calculado es mayor que el valor de tablas de una
( )( ) x k n
2
1 1
, significar que
las diferencias entre las frecuencias observadas y las frecuencias tericas o
esperadas son muy elevadas y por tanto diremos con un determinado nivel de
confianza que existe dependencia entre los factores o atributos analizados.




Resumiendo:


( )( ) x x k n
2
1 1
2



Rechazar hiptesis nula (dependencia entre las variables)



( )( ) x x k n
2
1 1
2


Aceptar hiptesis nula (independencia entre las variables)




Vemoslo con el mismo ejemplo anterior:



SEXO
HOMBRE MUJER MARGINAL
CONSUME 65 58 123
ALIMENTOECOLGICO NOCONSUME 43 67 110
MARGINAL 108 125 233


Frecuencias relativas marginales:
P (ser hombre) = 108/ 233 = 46.4%
P (ser mujer) = 125/ 233 = 53.6%
P (consumir) = 123/ 233 = 52.8%
P (no consumir) = 110/ 233 = 47.2%

Frecuencias relativas conjuntas:
P (hombre y consumir) = 65/ 233 = 27.9%
P (hombre y no consumir) = 43/ 233 = 18.5%
P (mujer y consumir) = 58/ 233 = 24.9%
P (mujer y no consumir) = 67/ 233 = 28.8%

Frecuencias relativas tericas esperadas en caso de independencia:
E (hombre y consumir) = 46.4% x 52.8% = 24.5%
E (hombre y no consumir) = 46.4% x 47.2% = 21.9%
E (mujer y consumir) = 53.6% x 52.8% = 28.3%
E (mujer y no consumir) = 53.6% x 47.2% = 25.3%

Frecuencias absolutas tericas esperadas en caso de independencia:
E (hombre y consumir) = 123 * 108 /233 = 57
E (hombre y no consumir) = 108*110/233 = 51
E (mujer y consumir) = 123*125/233 = 66
E (mujer y no consumir) = 125*110/233 = 59


Valor de la Chi-cuadrado:

( )


= =
=
ij
k
j
h
i
ij ij
n
x
2
1 1 2
=
( ) ( ) ( ) ( )
42 , 4
59 51 66 57
59 67 51 43 66 58 57 65
2 2 2 2
= + + +



Dado que el valor calculado de la
x
2
para un nivel de confianza del 95%
(5% nivel de significacin) es mayor que el valor de tablas, se rechaza la
hiptesis nula de independencia entre los factores, aceptando por tanto que el
sexo de una persona influye en que sta sea consumidora o no de alimentos
ecolgicos.

4. TABLAS PIVOTE EN EXCEL
Tambin llamadas tablas dinmicas, es una tabla interactiva que
contiene campos, la que se usa para resumir y analizar los datos de mltiples
filas de informacin de una tabla o de una lista original. Una tabla dinmica
puede actualizarse cada vez que se modifiquen los datos originales de la
misma, o sea los utilizados para su confeccin.


EJEMPLO:

Disponemos de una hoja de clculo con las horas trabajadas durante una
semana por los trabajadores de una planta de procesado de fruta de una
empresa segn los diferentes cargos que ocupa.







Queremos crear una tabla dinmica que muestre, para cada empleado
de la empresa, en pginas individuales, el total de horas trabajadas en cada
uno de las funciones durante la ltima semana.

1. Sitate en una de las celdas que contienen los datos y ve a Datos (Men
principal), Asistente para tablas dinmicas. Se iniciar el Asistente, que
consta de cuatro cuadros de dilogo consecutivos.

2. En el primer cuadro de dilogo (paso 1 de 4) se solicita el origen de los
datos a organizar en forma de tabla dinmica. En este caso, dejamos la
opcin preseleccionada (Lista o base de datos de Microsoft Excel) y
pulsamos Siguiente.

3. El siguiente cuadro de dilogo (paso 2 de 4) permite seleccionar el rango
de celdas en el que estn situados los datos a organizar.





4. En el tercer cuadro de dilogo (paso 3 de 4) se disear la distribucin
de los campos en la tabla a crear.

En la parte derecha de la ventana se muestra un botn para cada campo
de la lista y en la parte izquierda aparece el rea en donde se disear la tabla,
que est dividida en cuatro secciones (PGINA, FILA, COLUMNA y DATOS),
en las que se pueden colocar los distintos campos, pulsando sobre el botn del
campo y arrastrndolo a una seccin.

A la hora de organizar los datos en nuestro ejemplo deber tenerse en
cuenta lo siguiente:

1. El campo que se coloque en la seccin PGINA aparecer en forma


de una lista desplegable desde la que se podr seleccionar aquel
elemento del que se desee mostrar el resumen. Existir adems la
posibilidad de mostrar el resumen correspondiente a cada empleado en
una hoja diferente.

2. El campo que se coloque en la seccin FILA mostrar sus elementos
como encabezados o ttulos de las filas en la tabla

3. El campo que se coloque en la seccin COLUMNA, mostrar sus
elementos como encabezados de las columnas de la tabla

4. En cuanto al campo que se coloque en la seccin DATOS, sus datos
se sometern a una determinada operacin de clculo: Suma (es la
que se ofrece por defecto cuando los datos de este campo son todos
numricos), Contar (la que se ofrece por defecto en los dems casos),
Promedio, Mnimo, Mximo, Producto, etc.





En nuestro ejemplo, por tanto, colocaremos los campos del siguiente
modo:

El campo Empleado en la seccin PGINA
El campo Proyecto en la seccin FILA
El campo Fecha en la seccin COLUMNA
El campo Horas (que contiene los valores que queremos sumar) en
la seccin DATOS, aceptando la funcin de SUMA que Excel
propone por defecto.







Notas:

a) La forma elegida aqu para organizar los datos slo es una de entre
todas las posibles. Cabe organizar los datos de otra manera; no obstante,
hemos de procurar que la forma elegida sea la ms clara y fcil de
interpretar.

b) Aunque los datos de una tabla dinmica tienen el mismo aspecto que
cualquier hoja de clculo, no se pueden introducir ni editar los datos
directamente en ella. Para modificar sus resultados debern modificarse
forzosamente los datos a partir de los cuales se ha creado.

c) No obstante, las tablas dinmicas no se actualizan automticamente


cuando los datos de origen cambian, sino que, cambiados los datos
fuente es necesario seleccionar con el botn derecho del ratn una celda
cualquiera de la tabla y elegir la opcin Actualizar datos del men
contextual correspondiente.

d) Una vez creada la tabla dinmica, se puede cambiar fcilmente su
diseo arrastrando los botones sombreados con los nombres de los
campos a otras posiciones de la tabla (por esta razn se llaman
dinmicas, precisamente)





5. DISTRIBUCIN CHI-CUADRADO EN EXCEL

DISTR.CHI
Devuelve la probabilidad de una variable aleatoria continua siguiendo
una distribucin chi cuadrado de una sola cola. La distribucin 2 est asociada
a una prueba 2. Utilice la prueba 2 para comparar los valores observados
con los esperados. Por ejemplo, un experimento gentico podra estar basado
en la hiptesis de que la prxima generacin de plantas presentar un conjunto
determinado de colores. Al comparar los resultados observados con los
resultados esperados, puede decidir si su hiptesis original es vlida.
Sintaxis
DISTR.CHI(x;grados_de_libertad)
X es el valor al que desea evaluar la distribucin.

Grados_de_libertad es el nmero de grados de libertad.


Observaciones
Si uno de los argumentos no es numrico, DISTR.CHI devuelve el valor
de error #VALOR!
Si el argumento x es negativo, DISTR.CHI devuelve el valor de error
#NUM!
Si el argumento grados_de_libertad no es un entero, se trunca.
Si el argumento grados_de_libertad < 1 o si grados_de_libertad 10^10,
DISTR.CHI devuelve el valor de error #NUM!
DISTR.CHI se calcula como DISTR.CHI = P(X>x), donde X es una
variable aleatoria de 2.

PRUEBA.CHI
Devuelve la prueba de independencia. PRUEBA.CHI devuelve el valor
de la distribucin chi cuadrado (2) para la estadstica y los grados de libertad
apropiados. Las pruebas 2 pueden utilizarse para determinar si un
experimento se ajusta a los resultados tericos.
Sintaxis
PRUEBA.CHI(rango_actual;rango_esperado)
Rango_actual es el rango de datos que contiene observaciones para
probar frente a valores esperados.
Rango_esperado es el rango de datos que contiene la relacin del
producto de los totales de filas y columnas con el total global.

Observaciones
Si rango_actual y rango_esperado tienen un nmero diferente de puntos
de datos, PRUEBA.CHI devuelve el valor de error #N/A.
La prueba 2 primero calcula una estadstica 2 y despus suma las
diferencias entre los valores reales y los valores esperados. La ecuacin
para esta funcin es PRUEBA.CHI=p( X>2 ), donde:
y donde:
Aij = frecuencia actual en la isima fila, jsima columna
Eij = frecuencia esperada en la isima fila, jsima columna
r = nmero de filas
c = nmero de columnas
PRUEBA.CHI devuelve la probabilidad para una estadstica 2 y grados
de libertad, gl, donde gl = (r - 1)(c - 1).

PRUEBA.CHI.INV
Devuelve para una probabilidad dada, de una sola cola, el valor de la
variable aleatoria siguiendo una distribucin chi cuadrado. Si el argumento
probabilidad = DISTR.CHI(x;...), entonces PRUEBA.CHI.INV(probabilidad,...) =
x. Utilice esta funcin para comparar los resultados observados con los
resultados esperados, a fin de decidir si la hiptesis original es vlida.
Sintaxis
PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Probabilidad es una probabilidad asociada con la distribucin chi cuadrado.
Grados_de_libertad es el nmero de grados de libertad.

Observaciones
Si uno de los argumentos no es numrico, PRUEBA.CHI.INV devuelve el
valor de error #VALOR!
Si probabilidad < 0 o si probabilidad > 1, PRUEBA.CHI.INV devuelve el
valor de error #NUM!
Si el argumento grados_de_libertad no es un entero, se trunca.
Si grados_de_libertad < 1 o si grados_de_libertad 10^10,
PRUEBA.CHI.INV devuelve el valor de error #NUM!
PRUEBA.CHI.INV usa una tcnica iterativa para calcular la funcin. Dado
un valor de probabilidad, PRUEBA.CHI.INV itera hasta que el resultado tenga
una exactitud de 3x10^-7. Si PRUEBA.CHI.INV no converge despus de 100
iteraciones, la funcin devuelve el valor de error #N/A.




















6. BIBLIOGRAFA

I. http://64.233.183.104/search?q=cache:ieq5iAYRk9EJ:ininweb.uprm.edu/
cc/PRUEBA%2520DE%2520BONDAD%2520Y%2520AJUSTE%2520.d
oc+bondad+de+ajuste&hl=es&ct=clnk&cd=7&gl=es
II. http://cete.iespana.es/genetica/pragen10.pdf
III. http://www.wiphala.net/research/manual/statistic/chi_cuadrado.html
IV. http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
V. http://es.wikipedia.org/wiki/Tablas_de_contingencia
VI. http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
VII. http://iteso.mx/~luisfnc/practica%207.htm

You might also like