You are on page 1of 33

Distribucin

Distribucin (ji-cuadrado)

Funcin de densidad de probabilidad

Funcin de distribucin de probabilidad

Parmetros
grados de libertad

Dominio
Funcin de densidad (pdf)

Funcin de distribucin(cdf)

Media

Mediana
aproximadamente

Moda
if

Varianza

Coeficiente de simetra

Curtosis

Entropa

Funcin generadora de
for
momentos (mgf)

Funcin caracterstica

[editar datos en Wikidata]

En estadstica, la distribucin de Pearson, llamada tambin ji cuadrada(o) o chi

cuadrado(a) (), es una distribucin de probabilidad continua con un parmetro que


representa los grados de libertad de la variable aleatoria
Donde son variables aleatorias normales independientes de media cero y varianza uno.

El que la variable aleatoria tenga esta distribucin se representa habitualmente as: .

ndice
[ocultar]

1Propiedades
o 1.1Funcin de densidad
o 1.2Funcin de distribucin acumulada
2Relacin con otras distribuciones
3Aplicaciones
4Vase tambin
5Enlaces externos

Propiedades[editar]
Funcin de densidad[editar]
Su funcin de densidad es:

donde es la funcin gamma.

[Expandir]Demostracin

Funcin de distribucin acumulada[editar]


Su funcin de distribucin es

donde es la funcin gamma incompleta.


El valor esperado y la varianza de una variable aleatoria X con distribucin son,
respectivamente, k y 2k.

Relacin con otras distribuciones[editar]

La distribucin es un caso especial de la distribucin gamma. De hecho,


Cuando k es suficientemente grande, como consecuencia del teorema central del lmite,
puede aproximarse por una distribucin normal:
Aplicaciones
La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es
la de la denominada prueba utilizada como prueba de independencia y como prueba de
bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el
problema de estimar la media de una poblacin normalmente distribuida y en el problema
de estimar la pendiente de una recta de regresin lineal, a travs de su papel en
la distribucin t de Student.
Aparece tambin en todos los problemas de anlisis de varianza por su relacin con
la distribucin F de Snedecor, que es la distribucin del cociente de dos variables
aleatorias independientes con distribucin .

Ejercicios del seminario nueve: Chi cuadrado


En este seminario hemos trabajado con la distribucin Chi cuadrado, usada nicamente para las
variables categricas o cualitativas. Es un estadstico que nos ayuda a decidir si las frecuencias
observadas estn o no en concordancia con las frecuencias esperadas (es decir, si el nmero de
resultados esperados corresponde aproximadamente al nmero esperado). Para comprobarlo, haremos
un contraste de hiptesis usando dicha distribucin, Chi cuadrado:

A continuacin, se muestran los ejercicios correspondientes con este seminario:

Ejercicio 1
En un grupo de enfermos que se quejaban de que no dorman se les dio somnferos y placebos. Con
los siguientes resultados. Nivel de significacin: 0, 05.

Es lo mismo tomar somnferos o placebos para dormir bien o mal en este grupo de enfermos?

Las hiptesis de este ejercicio, seran las siguientes:

Ho: No es lo mismo tomar somnferos o placebos para dormir mal o bien


-H1: Es lo mismo tomar somnferos o placebos para dormir bien o mal.

Para la realizacin del problema se muestran los pasos a seguir, a continuacin.

Paso 1: Completar la tabla de las frecuencias observadas.

Paso 2: Calcular las frecuencias tericas.


(Es importante caer en la cuenta de que la suma de las frecuencias observadas debe de ser igual a la
suma de las frecuencias tericas).

Para este clculo, tenemos que basarnos en la frmula: (total filas x total columnas) / total

e 1 (Duermen bien con somnferos):

e 2 (Duermen bien con placebos):

e 3 (Duermen mal con somnferos):

e 4 (Duermen mal con placebos):

Como dijimos antes, la suma de las frecuencias observables deba de ser igual a la suma de las
frecuencias esperadas. En este caso podemos decir, que dicho pronstico se cumple:

Suma frecuencias observadas = 170

Suma de frecuencias esperadas: 39, 71 + 85, 29 + 14, 29 + 30, 71 = 170


Paso 3: Calcular los grados de libertad. En este caso, como son dos los criterios de clasificacin, el
grado de libertad se calculara as:
Grados de libertad = (n de filas 1) por (n de columnas 1)

Grados de libertad = (2 1)(2 1) = 1 x 1 = 1

Paso 4: Calcular el valor de chi cuadrado (usando para ello la frmula escrita al principio de esta
entrada)

Paso 5: Ver la tabla.


En este apartado, buscamos en la tabla de la distribucin X2 el valor que se compara con el del resultado
del chi cuadrado. Para ello, tenemos que tener en cuenta el nivel de significacin (0, 05) y el grado de
libertad (1). La tabla que se utiliza, se muestra en seguida:

Observando la tabla, obtenemos pues que el valor que buscamos es 3, 84.

Paso 6: Comparar los valores.


Valor calculado > 2, 57

Valor de la tabla > 3, 84

Conclusin: como 2, 57 < 3, 84 > ACEPTAMOS H0 y rechazamos H1. Podemos decir que la
diferencia no es estadsticamente significativa y que se debe al azar. Es decir, no es lo mismo usar
somferos o placebos para dormir bien o mal en este grupo de enfermos.

_________________________________________________

Ejercicio 2
En un C de Salud analizamos las historias de enfermera (292 hombres y 192 mujeres). De ellos tienen
lcera 10 hombres y 24 mujeres y no tienen 282 y 168 respectivamente. Nivel de significacin 0, 05.
Las hiptesis seras:
Ho: No existe relacin entre tener lcera y el sexo.

H1: S existe relacin entre tener lcera y el sexo.

Paso 1: Realizar la tabla de las frecuencias observadas.

Paso 2: Calcular las frecuencias tericas.


Para ello, usamos la misma frmula que en el ejercicio anterior se emple, teniendo cuenta, adems,
de que la suma de las frecuencias observadas y la suma de las fecuencias terias tienen el mismo valor.

e (Hombres son lcera):

e (Mujeres con lcera):

e (Hombres sin lcera):

e (Mujeres sin lcera):

Dijimos anteriormente, que la suma respectiva de las frecuencias tericas y la de las frecuencias
observadas tenan que tener el mismo valor, pues comprobmoslo:

Suma de frecuencias observadas = 484

Suma de frecuencias tericas: 20, 51 + 13, 49 + 271, 49 + 178, 51 = 484.

S se cumple.

Paso 3: Calcular los grados de libertad.


Grados de libertad = (n de filas 1) por (n de columnas 1)

Grados de libertad = (2 1)(2 1) = 1 x 1 = 1

Paso 4: Calcular el valor de chi cuadrado.

Paso 5: Ver la tabla.


En este apartado, teniendo en cuenta que el nivel de significacin es de 0, 05 y el grado de libertad de
1, buscamos en la tabla el valor que necesitamos.

Una vez observado la tabla (mostrada en el ejercicio anterior), vemos que el valor que buscamos es 3,
84.

Paso 6: Comparar los valores.


Valor calculado > 14, 61

Valor de la tabla > 3, 84

Conclusin: como 14, 61 > 3, 84 -> rechazamos Ho y ACEPTAMOS H1. Podemos decir que la diferencia
es estadsticamente significativa; es decir, que no existe relacin entre tener lcera y el sexo de la
persona.

La otra tarea de este seminario, a parte de los ejercicios ya mostrados, consiste en saber hacer un
contraste de hiptesis, solo que en vez de usar esos clculos, usamos el programa del SSPS. A
continuacin se muestran los pasos a seguir:

Paso 1: abrir un archivo SPSS y darle a los apartados que aparecen en la imagen.

Paso 2: Elegir dos variables cuantitativas.


-Paso 3: darle al apartado estadsticos.

-Paso 4: Sealar la opcin de Chi cuadrado; luego, continuar, y por ltimo, aceptar

Como resultado obtenemos lo siguiente:


De esto podemos concluir que, sin haber hecho falta el uso de los clculos que anteriormente s hemos
utilizado, el valor de chi cuadrado = 10, 115; el grado de libertad = 5; y el valor de p = 0, 072; y
como ste ltimo es mayor que alfa (o, o5) decimos pues que ACEPTAMOS Ho y rechazamos H1. Es
decir, que la diferencia no es estadsticamente significativa, y que por tanto no tienen relacin ambas
variables.

OBLACIN Y MUESTRA
La muestra aleatoria
Parmetros y estadsticos
o Estadsticos de centralidad:
La media aritmtica
La mediana
La moda
Los cuantiles o percentiles
o Estadsticos de dispersin:
El rango
La varianza
La desviacin tpica
Coeficiente de variacin
Pruebas chi-cuadrado de ajuste e independencia
o Chi-cuadrado de ajuste
o Chi-cuadrado de contingencia o independencia
Comparacin mltiple de distintas proporciones o
probabilidades
Prueba de homogeneidad de muestras

La muestra aleatoria
Una poblacin en estadstica es el conjunto de todas las observaciones
en las que estamos interesados. Se llama tamao de la poblacin al nmero de
individuos que la componen, siendo cada posible observacin un individuo; as
pues, las poblaciones pueden ser finitas e infinitas.

Cada observacin en una poblacin es un valor de una variable


aleatoria X con una funcin de probabilidad o densidad
determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de
la distribucin de la variable; es decir, hablaremos de poblaciones normales,
binomiales, etc.

Para estudiar una poblacin existen dos posibilidades. Una de ellas


consiste en estudiar todos sus elementos y sacar conclusiones; la otra consiste en
estudiar slo una parte de ellos, una muestra, elegidos de tal forma que nos digan
algo sobre la totalidad de las observaciones de la poblacin. El mejor mtodo ser
el primero, cuando es posible, lo cual slo ocurre en las poblaciones finitas y
razonablemente pequeas; en el caso de poblaciones muy grandes o infinitas ser
muy difcil o imposible realizar un estudio total. En este caso necesitaremos tomar
una muestra y nos surgir el problema de cmo hacer para que la muestra nos
diga algo sobre el conjunto de la poblacin.

La condicin ms obvia que se le puede pedir a una muestra es que sea


representativa de la poblacin. Est claro que si no conocemos la poblacin no
podemos saber si la muestra es representativa o no. La nica forma de tener
cierta garanta de que esto ocurra es tomar nuestra muestra de forma que cada
individuo de la poblacin y cada subgrupo posible de la poblacin tengan igual
probabilidad de ser elegidos. A este tipo de muestras se les llama muestras
aleatorias o muestras al azar.

Una muestra aleatoria de tamao n es un conjunto de n individuos


tomado de tal manera que cada subconjunto de tamao n de la poblacin tenga la
misma probabilidad de ser elegido como muestra; es decir, si la poblacin tiene
tamao N, cada una de las combinaciones posibles de n elementos debe ser
equiprobable.

Los sistemas de muestreo se basan normalmente en la asignacin de un


nmero a cada uno de los individuos de la poblacin y la posterior obtencin de
una muestra de n nmeros aleatorios que se obtendr por sorteo utilizando bolas
numeradas, ordenadores, etc
Otra variante del muestreo es cuando se divide la poblacin en n grupos,
que no correspondan con ninguna clasificacin relacionada con el problema en
estudio, que se ordenan. Por sorteo se elige un elemento del primer grupo y a
continuacin los elementos correspondientes de los dems grupos. Este tipo de
muestra se denomina muestra al azar sistemtico.

Si la poblacin est subdividida en grupos podemos tomar otro tipo de


muestra en la que cada grupo de la poblacin est representado por un porcentaje
de individuos igual al porcentaje de individuos de la poblacin integrados en ese
grupo. Este tipo se llama muestra al azar estratificado.

Parmetros y estadsticos
Parmetros poblacionales

Se llama parmetros poblacionales a cantidades que se obtienen a partir


de las observaciones de la variable y sus probabilidades y que determinan
perfectamente la distribucin de esta, as como las caractersticas de la poblacin,
por ejemplo: La media, , la varianza 2, la proporcin de determinados sucesos,
P.

Los Parmetros poblacionales son nmeros reales, constantes y nicos.

Parmetros muestrales

Los Parmetros muestrales son resmenes de la informacin de la


muestra que nos "determinan" la estructura de la muestra.

Los Parmetros muestrales no son constantes sino variables aleatorias


pues sus valores dependen de la estructura de la muestra que no es siempre la
misma como consecuencia del muestreo aleatorio. A estas variables se les suele
llamar estadsticos.

Los estadsticos se transforman en dos tipos: estadsticos de centralidad y


estadsticos de dispersin.
Estadsticos de centralidad:

Son medidas de la tendencia central de la variable. los ms conocidos son:

1) La media aritmtica

Es el valor esperado de las observaciones de la muestra


calculado como si la muestra fuera una variable completa, es decir,
multiplicando observaciones por frecuencias y sumando.

Si x1, x2,.., xn representan una muestra de tamao n de la


poblacin, la media aritmtica se calcula como:

La media aritmtica es la medida de la tendencia central que


posee menor varianza. Engloba en ella toda la informacin de la
muestra; esto, con ser una ventaja, supone una cierta desventaja
pues los valores muy extremos, en muestras pequeas afectan
mucho a la media.

La media de la media aritmtica es igual a la de las


observaciones () y su varianza es igual a la de las observaciones
partida por n. En poblaciones normales, la distribucin de la media es
normal,

Si la poblacin no es normal, pero la muestra es grande (n


30), por el teorema central del lmite la distribucin de la media ser
asintticamente normal.
2) La mediana

En una variable se define como el punto para el cual la funcin


de distribucin alcance el valor 0.5; en una muestra la mediana es el
valor central.

Para calcularla se ordenan las observaciones de menor a


mayor. Si n es impar, la mediana es la observacin central

Si n es par, la mediana se define como la media de las dos


observaciones centrales

En resumen, podramos decir que la mediana es el valor que


es mayor o igual que el 50% de las observaciones de la muestra y
menor o igual que el otro 50%.
No tiene por qu ser igual a una de las observaciones de la
muestra.

Es ms fcil de calcular que la media aritmtica y apenas se


afecta por observaciones extremas; sin embargo tiene mayor
varianza que X y slo toma en cuenta la informacin de los valores
centrales de la muestra.

3) La moda

Es el valor ms frecuente.

Su clculo es el ms simple de los tres correspondientes a


estadsticos de centralidad pero la moda es el estadstico de mayor
varianza.

La moda puede no existir y cuando existe no es


necesariamente nica. No tiene sentido en muestras pequeas en
las que la aparicin de coincidencias en los valores es con gran
frecuencia ms producto del azar que de otra cosa.

La media es el estadstico de centralidad ms usado cuando uno espera


que la poblacin tenga una distribucin ms o menos simtrica, sin estar
clasificada en grupos claramente diferenciados.

En el caso de distribuciones muy asimtricas, con una cola muy larga, la


mediana es, normalmente, el valor de eleccin dado que la media suele estar
desplazada respecto al ncleo principal de observaciones de la variable. En estos
casos, la mediana es el valor que mejor expresa el punto donde se acumulan
mayoritariamente las observaciones de la variable.

En el caso de poblaciones o muestras subdivididas en grupos claramente


definidos la media y la mediana carecen, normalmente, de sentido y los valores
que ms claramente reflejan el comportamiento de las observaciones de la
variable son las modas.
Otros estadsticos de centralidad son los cuantiles.

Los cuantiles o percentiles

Un percentil X, PX, es un valor de la distribucin muestral o


poblacional de la variable que es mayor o igual que el X% de las
observaciones de la variable P(Y PX) = X%.

Existe un tipo especial de cuantiles llamados cuartiles.

Los cuartiles son tres valores que dividen la distribucin en


cuatro partes equivalentes porcentualmente.

o El primer cuartil es el valor que es mayor o igual que el 25%


de las observaciones de la muestra y menor o igual que el
75%.

o El segundo cuartil es la mediana.

o El tercer cuartil es mayor o igual que el 75% de las


observaciones de la muestra y menor o igual que el 25%.

Estadsticos de dispersin

Los estadsticos de dispersin son parmetros muestrales que expresan la


dispersin de los valores de la variable respecto al punto central, es decir, su
posicin relativa. Los ms importantes son:
El rango

Es la diferencia entre las dos observaciones extremas, la


mxima menos la mnima. Expresa cuantas unidades de diferencia
podemos esperar, como mximo, entre dos valores de la variable.

El rango estima el campo de variacin de la variable.

Se afecta mucho por observaciones extremas y utiliza


nicamente una pequea parte de la informacin.

La varianza

Es la desviacin cuadrtica media de las observaciones a la


media muestral.

Su concepto es anlogo al de la varianza poblacional. No


obstante esta expresin de clculo de la varianza muestral no se
utiliza mucho pues sus valores tienden a ser menores que el de la
autntica varianza de la variable (debido a que la propia media
muestral tiene una varianza que vale un ensimo de la de las
observaciones) Para compensar esta deficiencia y obtener valores
que no subestimen la varianza poblacional (cuando estamos
interesados en ella y no en la varianza muestral) utilizaremos una
expresin, esencialmente igual que la anterior salvo que el
denominador est disminuido en una unidad.

Normalmente, estaremos interesados en saber cosas acerca


de la varianza poblacional y no de la varianza muestral. Por tanto, en
adelante, cuando hablemos de varianza muestral, salvo indicacin
expresa, nos referiremos a la segunda.
Es el estadstico de dispersin ms usado por las propiedades
de su distribucin. Si la poblacin de la que procede la muestra es
normal:

con n-1 grados de libertad.

Adems, utiliza toda la informacin de la muestra.

Su mayor inconveniente consiste en que se expresa en


unidades cuadrticas. Por ello, para muchos propsitos se utiliza otro
estadstico de dispersin que la desviacin tpica.

Si no disponemos de una calculadora, el clculo de la


varianza puede ser complicado porque, habitualmente, los
valores de las desviaciones de las observaciones a la media
resultan ser nmeros con varias cifras decimales. Por ello, se
suele utilizar una ecuacin que deriva directamente de la
anterior:

o, alternativamente, la equivalente a aquella de "la


media de los cuadrados menos el cuadrado de la media".

La desviacin tpica

Es la raz cuadrada positiva de la varianza y, por tanto, se


expresa en las unidades de medida de la variable.

Su concepto es anlogo al de la desviacin tpica poblacional.


Coeficiente de variacin

Es el cociente entre la desviacin tpica y la media aritmtica


muestrales y expresa la variabilidad de la variable en tanto por uno,
sin dimensiones.

Permite comparar muestras de variables de distinta naturaleza


o muestras de la misma variable en poblaciones en las que el orden
de magnitud de las observaciones sea muy diferente.

Pruebas chi-cuadrado de ajuste e


independencia
Las pruebas chi-cuadrado son un grupo de contrastes de hiptesis que
sirven para comprobar afirmaciones acerca de las funciones de probabilidad (o
densidad) de una o dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadstica paramtrica pues


no establecen suposiciones restrictivas en cuanto al tipo de variables que admiten,
ni en lo que refiere a su distribucin de probabilidad ni en los valores y/o el
conocimiento de sus parmetros.

Se aplican en dos situaciones bsicas:

a) Cuando queremos comprobar si una variable, cuya descripcin parece


adecuada, tiene una determinada funcin de probabilidad. La prueba
correspondiente se llama chi-cuadrado de ajuste.

b) Cuando queremos averiguar si dos variables (o dos vas de clasificacin)


son independientes estadsticamente. En este caso la prueba que
aplicaremos ser la chi-cuadrado de independencia o chi-cuadrado de
contingencia.

Chi-cuadrado de ajuste

En una prueba de ajuste la hiptesis nula establece que una variable X


tiene una cierta distribucin de probabilidad con unos determinados valores de los
parmetros. El tipo de distribucin se determina, segn los casos, en funcin de:
La propia definicin de la variable, consideraciones tericas al margen de esta y/o
evidencia aportada por datos anteriores al experimento actual.

A menudo, la propia definicin del tipo de variable lleva implcitos los


valores de sus parmetros o de parte de ellos; si esto no fuera as dichos
parmetros se estimarn a partir de la muestra de valores de la variable que
utilizaremos para realizar la prueba de ajuste.

Como en casos anteriores, empezaremos definiendo las hiptesis.

Hiptesis nula: X tiene distribucin de probabilidad f(x) con


parmetros y1,..., yp

Hiptesis alternativa: X tiene cualquier otra distribucin de


probabilidad.

Es importante destacar que el rechazo de la hiptesis nula no implica que


sean falsos todos sus aspectos sino nicamente el conjunto de ellos; por ejemplo,
podra ocurrir que el tipo de distribucin fuera correcto pero que nos hubisemos
equivocado en los valores de los parmetros.

Obviamente, necesitaremos una muestra de valores de la variable X. Si la


variable es discreta y tiene pocos valores posible estimaremos las probabilidades
de dichos valores mediante sus frecuencias muestrales; si la variable es continua
o si es una discreta con muchos o infinitos valores estimaremos probabilidades de
grupos de valores (intervalos).

Metodolgicamente, la prueba se basa en la comparacin entre la serie de


frecuencias absolutas observadas empricamente para los valores de la variable
(Oi) y las correspondientes frecuencias absolutas tericas obtenidas en base a la
funcin de probabilidad supuesta en la hiptesis nula (Ei).
As pues, una vez calculadas las frecuencias absolutas de cada valor o
intervalo de valores, obtendremos el nmero total de observaciones de la muestra
(T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este nmero total de


observaciones (T) en partes proporcionales a la probabilidad de cada suceso o
grupo de sucesos. Para ello calcularemos dichas probabilidades utilizando la
funcin de probabilidad definida en la hiptesis nula f(x), de modo que, cada valor
Ei tendr la siguiente expresin:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable x1 x2 x3 ... xi ... xk


Frecuencias observadas O1 O2 O3 ... Oi ... Ok

Frecuencias esperadas E1 E2 E3 ... Ei ... Ek

Si la hiptesis nula es cierta, las diferencias entre valores observados y


esperados (que siempre existirn por tratarse de una muestra aleatoria) son
atribuibles, exclusivamente, al efecto del azar. En estas condiciones, se puede
calcular un parmetro que depende de ambos, cuya distribucin se ajusta a una
chi-cuadrado.

Si, por el contrario, la hiptesis nula fuera falsa los Ei ya no seran,


realmente, los valores esperados de las frecuencias; por tanto, las diferencias
entre los valores "esperados" y los observados reflejaran no slo el efecto del
azar sino tambin las diferencias entre los Ei y la autntica serie de valores
esperados (desconocida) Como consecuencia, las diferencias de los numeradores
de la expresin anterior tienden a ser ms grandes y, por estar elevadas al
cuadrado, la suma de cocientes ser positiva y mayor que lo que se esperara para
los valores de una chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de contraste de la prueba


de hiptesis y la regin crtica se encontrar siempre en la cola derecha de la
distribucin chi-cuadrado. Evidentemente, esta prueba ser siempre de una sola
cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 de la distribucin


chi-cuadrado con grados de libertad.

Cabe sealar que en las pruebas chi-cuadrado lo corriente es que


pretendamos comprobar que una variable tiene una cierta distribucin y, por tanto,
habitualmente, nos vemos obligados a colocar nuestra propia hiptesis en la
hiptesis nula. nicamente podremos colocar nuestra hiptesis en la alternativa en
el caso excepcional de que pretendamos demostrar que cierto tratamiento produce
una distorsin de la distribucin bsica de la variable en estudio.

El nmero de grados de libertad de la variable chi-cuadrado se calcula de la


siguiente forma:

A priori, tendr tantos grados de libertad como parejas frecuencia


observada - frecuencia esperada.

A esta cantidad se debe restar el nmero de restricciones lineales


impuestas a las frecuencias observadas, es decir, el nmero de parmetros
que es necesario calculardirectamente a partir de los valores observados
para establecer los valores esperados. Este nmero es, como mnimo, uno
ya que siempre tendremos que calcular el nmero total de observaciones
de la muestra.

Una condicin bsica para que podamos llevar a cabo una prueba chi-
cuadrado es que las frecuencias de las distintas clases deben ser suficientemente
altas como para garantizar que pequeas desviaciones aleatorias en la muestra
no tengan importancia decisiva sobre el valor del estadstico de contraste.

Las reglas que determinan cuando es posible o no realizar el contraste


varan mucho de unos autores a otros. En un extremo de mxima rigidez se
encuentran aquellos que opinan que no se puede realizar la prueba cuando alguna
de las frecuencias, observadas o esperadas, sea menor que 5. En el otro extremo
se encuentran quienes opinan que, para que la prueba sea viable ninguna de las
frecuencias esperadas debe ser menor que 1 y no ms del 25% pueden ser
menores que 5; en lo que refiere a las frecuencias observadas no existiran lmites.
La autora de este texto simpatiza ms con la segunda postura, no slo por
razones prcticas, sino porque lo razonable es que la distribucin esperada est
adecuadamente definida y, por tanto, no debe incluir valores muy bajos; sin
embargo, los valores extremos en la distribucin observada simplemente reflejan
diferencias importantes entre la distribucin supuesta por la hiptesis nula y la
real.

Sea cual sea el criterio que elijamos, si resultara que la prueba no es viable
podramos recurrir a englobar los valores o clases de valores con sus vecinos ms
prximos y pasar as a engrosar sus frecuencias. Este procedimiento no puede
llevarse hasta el absurdo pero proporciona una salida digna a situaciones
complejas. En casos excepcionales se pueden englobar valores que no sean
vecinos porque exista algn nexo lgico de conexin entre ellos.

Cuando sea necesario agrupar valores, los grados de libertad no se deben


calcular hasta que tengamos establecidas definitivamente las parejas de
frecuencias observadas y esperadas con las que calcularemos el estadstico de
contraste.

Chi-cuadrado de contingencia o independencia

La prueba chi-cuadrado de contingencia sirve para comprobar la


independencia de frecuencias entre dos variables aleatorias, X e Y.

Las hiptesis contrastadas en la prueba son:

Hiptesis nula: X e Y son independientes.

Hiptesis alternativa: X e Y no son independientes (No importa cual


sea la relacin que mantengan ni el grado de esta.
La condicin de independencia, tal como fue definida en la pgina anterior
era: X e Y son independientes si y slo si para cualquier pareja de valores x e y la
probabilidad de que X tome el valor x e Y el valor y, simultneamente, es igual al
producto de las probabilidades de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de
probabilidad conjunta (f(x,y))

Empezaremos la prueba tomando una muestra de parejas de valores sobre


la que contaremos la frecuencia absoluta con la que aparece cada combinacin de
valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se
recogen estos datos, es en realidad nuestra estimacin de la funcin de
probabilidad conjunta multiplicada por el nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales


debemos sumar por filas y por columnas los valores de las frecuencias conjuntas.
Las sumas de filas (Fi) son, en cada caso, el nmero de veces que hemos
obtenido un valor de X (xi) en cualquier combinacin con distintos valores de Y, es
decir, son nuestra estima de la funcin de probabilidad de X multiplicada por el
nmero total de observaciones; anlogamente, las sumas de columnas (C j) son
nuestra estima de la funcin de probabilidad de Y multiplicada por el nmero total
de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de
todas las frecuencias observadas o, tambin, como la suma de las sumas de filas
o de las sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente


debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema
consiste en distinguir entre las diferencias producidas por efecto del muestreo y
diferencias que revelen falta de independencia.

Podemos convertir la ecuacin anterior a frecuencias absolutas


multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a y, por


tanto,

bajo la hiptesis de independencia, es el valor esperado


de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son independientes,


es decir, si las frecuencias Eij son realmente los valores esperados de las
frecuencias Oij, se puede calcular un parmetro que depende de ambas que tiene
distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre
las series de frecuencias observadas y esperadas sern mayores que las
atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de
la expresin anterior, sta tender a ser mayor que lo que suele ser el valor de
una variable chi-cuadrado.
Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis
y la regin crtica se encontrar siempre en la cola derecha de la distribucin chi-
cuadrado. Nuevamente, esta prueba ser siempre de una sola cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 de la distribucin


chi-cuadrado con grados de libertad.

Tal como ocurra en la prueba anterior lo corriente es que queramos


demostrar que dos variables son independientes, es decir, que, habitualmente,
nos veremos obligados a colocar nuestra hiptesis en la hiptesis nula.

El nmero de grados de libertad de la chi-cuadrado que sirve de contraste


se calcula de la siguiente forma:

A priori tendremos tantos grados de libertad como combinaciones de


valores xi, yj tengamos (I J)

A este nmero tendremos que restarle I debido a que, para calcular las
frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla
anterior. Conocidas las sumas de filas obtenemos el nmero total de
observaciones sin perder ningn grado de libertad.

A continuacin, necesitaremos calcular, a partir de las frecuencias


observadas J - 1 de las sumas de columnas; la restante podemos obtenerla
restando la suma de las anteriores del total de observaciones (T).

En resumen, el nmero de grados de libertad de la prueba es el producto


del nmero de filas menos uno por el nmero de columnas menos uno.
En cuanto a la magnitud mnima necesaria de las frecuencias observadas y
esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En
este caso, si nos viramos obligados a juntar valores para sumar frecuencias,
debemos unir columnas o filas completas (y contiguas). Obviamente, los grados
de libertad no deben calcularse hasta que no se hayan realizado todas las
agrupaciones necesarias y quede claro cual es el nmero de filas y columnas de la
tabla definitiva.

Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo
de distribucin de ninguna de las variables implicadas y utiliza nicamente
informacin de la muestra, es decir, informacin contingente. Esta es la razn por
la que, habitualmente, se le llama chi-cuadrado de contingencia.

Comparacin mltiple de distintas proporciones o probabilidades

Una aplicacin concreta de la chi-cuadrado de independencia es la


comparacin mltiple de las distintas proporciones o probabilidades de un suceso
en I poblaciones diferentes.

Supongamos que tenemos I poblaciones en las cuales las observaciones se


pueden clasificar como A o no-A. Llamemos Pi a la probabilidad del suceso A en
cada poblacin i y P a la frecuencia media de A en el conjunto de las poblaciones;
la probabilidad del suceso no-A en cada poblacin i ser 1 - Pi y la media de todas
ellas valdr 1 - P.

Las hiptesis de la prueba sern:

Hiptesis nula:

Hiptesis alternativa:

Si tomamos una muestra de tamao ni en cada poblacin y contamos en


cada caso el nmero de sucesos A aparecidos en la muestra obtendramos la
siguiente tabla:
Esta es una tabla tpica a la que se puede aplicar la metodologa de la prueba chi-
cuadrado de independencia. Veamos como corresponden las hiptesis de una y
otra prueba. Si la clasificacin de las observaciones en sucesos A y no-A fuera
independiente de la clasificacin en muestras, la frecuencia relativa de A (y la de
no-A) seran iguales en todos los casos y los valores esperados de las frecuencias
absolutas se calcularan multiplicando la estima comn de la frecuencia relativa
global por el nmero de observaciones en cada muestra.

La estima global de la frecuencia de A se hallara dividiendo el nmero total


de sucesos A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila uno (F1) y el total de
observaciones (T)

Por tanto, el valor esperado de la frecuencia observada de A en la muestra i


(EA,i) ser:

La estima global de la frecuencia de no-A se hallara dividiendo el nmero


total de sucesos no-A por el nmero total de observaciones:
lo cual no es otra cosa que el cociente entre la suma de la fila dos (F2) y el total de
observaciones (T)

Por tanto, el valor esperado de la frecuencia observada de no-A en la


muestra i (Eno-A,i) ser:

Es decir, los valores esperados se calcularan, en pura lgica, tal como


indica el procedimiento estndar de la prueba de contingencia. En definitiva:

Hiptesis nula: La clasificacin en sucesos es


independiente de la clasificacin en poblaciones.

Hiptesis alternativa: La clasificacin en sucesos no


es independiente de la clasificacin en poblaciones.

En resumen, la prueba de comparacin mltiple de proporciones se realizar


mediante una prueba de contingencia que nos dir si las probabilidades son todas
iguales o si, al menos, existe una que sea diferente de las dems.

Los grados de libertad sern siempre:


Prueba de homogeneidad de muestras

Otra de las aplicaciones interesantes de la prueba chi-cuadrado de


independencia consiste en la comprobacin de la homogeneidad de distintas
muestras de una variable.

Supongamos que hemos obtenido J muestras de tamao n j de una misma


variable aleatoria (X) y queremos comprobar si son homogneas, es decir, si la
variable tiene la misma distribucin de probabilidad en todas ellas, bien para
utilizarlas conjuntamente, bien porque se trate de identificar diferencias entre las
poblaciones de procedencia de las distintas muestras. Las frecuencias observadas
sern las de la tabla siguiente, en la que Fi es la frecuencia absoluta total del valor

xi y T es el nmero total de observaciones

El razonamiento en este caso es idntico al anterior. Si las muestras son


homogneas, se puede obtener una estima conjunta de la frecuencia de cada
valor xi (Fi / T) y el valor esperado de la frecuencia absoluta de xi en cada muestra
se calcular como el producto de dicha frecuencia por el tamao de la muestra
correspondiente

As pues, las hiptesis de la prueba sern:


Hiptesis nula: Las muestras son homogneas La clasificacin de
las observaciones segn los valores de la variable es
independiente de la clasificacin en muestras.

Hiptesis alternativa: Las muestras no son homogneas. La


clasificacin de las observaciones segn los valores de la
variable no es independiente de la clasificacin en muestras.

Obviamente, la prueba se realizar segn la metodologa habitual.

En este caso, a la prueba chi-cuadrado de contingencia se le suele llamar


chi-cuadrado de homogeneidad.

Qu es una prueba de chi-cuadrado?


Ms informacin sobre Minitab 17

Una prueba de chi-cuadrado es una prueba de hiptesis que compara la distribucin


observada de los datos con una distribucin esperada de los datos.

Existen varios tipos de pruebas de chi-cuadrado:

Prueba de chi-cuadrado de bondad de ajuste

Utilice este anlisis para probar qu tan bien una muestra de datos categricos
se ajusta a una distribucin terica.

Por ejemplo, usted puede comprobar si un dado es justo, lanzando el dado


muchas veces y utilizando una prueba de chi-cuadrado de bondad de ajuste
para determinar si los resultados siguen una distribucin uniforme. En este
caso, el estadstico chi-cuadrado cuantifica qu tanto vara la distribucin
observada de conteos con respecto a la distribucin hipottica.

Pruebas de chi-cuadrado de asociacin e independencia


Los clculos para estas pruebas son iguales, pero la pregunta que se est
tratando de contestar puede ser diferente.
Prueba de asociacin: utilice una prueba de asociacin para determinar
si una variable est asociada a otra variable. Por ejemplo, determine si
las ventas de diferentes colores de automviles dependen de la ciudad
donde se venden.
Prueba de independencia: utilice una prueba de independencia para
determinar si el valor observado de una variable depende del valor
observado de otra variable. Por ejemplo, determine si el hecho de que
una persona vote por un candidato no depende del sexo del elector.
NOTA
Minitab no utiliza el factor de correccin de Yate cuando realiza una prueba
de chi-cuadrado.

You might also like