You are on page 1of 40

Variables aleatorias discretas y continuas

Variables aleatorias discretas o Distribucin uniforme o Distribucin binomial o Distribucin multinomial o Distribucin hipergeomtrica o Distribucin multihipergeomtrica o Distribucin de poisson Variables aleatorias continuas o Distribucin normal o de Gauss o Distribucin Gamma ( ) o Distribucin exponencial o Distribucin Chi-cuadrado o Distribucin T de Student o Distribucin F de Snedecor POBLACIN Y MUESTRA

Variables aleatorias discretas


Distribucin uniforme
La distribucin uniforme es la que corresponde a una variable que toma todos sus valores, x1, x2... , xk, con igual probabilidad; el espacio muestral debe ser finito. Si la variable tiene k posibles valores, su funcin de probabilidad sera:

donde k es el parmetro de la distribucin (un parmetro es un valor que sirve para determinar la funcin de probabilidad o densidad de una variable aleatoria) La media y la varianza de la variable uniforme se calculan por las expresiones:

El histograma de la funcin toma el aspecto de un rectngulo, por ello, a la distribucin uniforme se le suele llamar distribucin rectangular.

Distribucin binomial
La distribucin binomial es tpica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1) El experimento est compuesto de n pruebas iguales, siendo n un nmero natural fijo. 2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binmica o de Bernouilli, es decir, slo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como xito y fracaso. 3) La probabilidad del xito (o del fracaso) es constante en todas las pruebas. P(xito) = p ; P(fracaso) = 1 - p = q 4) Las pruebas son estadsticamente independientes,

En estas condiciones, la variable aleatoria X que cuenta el nmero de xitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral estar compuesto por los nmeros enteros del 0 al n. Se suele decir que una variable binmica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento. La funcin de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el nmero de pruebas y p la probabilidad del xito. n y p son los parmetros de la distribucin.

La manera ms fcil de calcular de valor de nmeros combinatorios, como los incluidos en la expresin anterior, es utilizando el tringulo de Tartaglia

La media y la varianza de la variable binomial se calculan como: Media = =np

Varianza =

=npq

Grficamente el aspecto de la distribucin depende de que sea o no simtrica Por ejemplo, el caso en que n = 4:

Distribucin multinomial
La distribucin multinomial es esencialmente igual a la binomial con la nica diferencia de que cada prueba tiene ms de dos posibles resultados mutuamente excluyentes. Si tenemos K resultados posibles (Ei , i = 1, ... , K) con probabilidades fijas (pi , i = 1, ... , K), la variable que expresa el nmero de resultados de cada tipo obtenidos en n pruebas independientes tiene distribucin multinomial.

La probabilidad de obtener x1 resultados E1, x2 resultados E2, etc. se representa como:

Los parmetros de la distribucin son p1,..., pK y n.

Distribucin hipergeomtrica
Una variable tiene distribucin hipergeomtrica si procede de un experimento que cumple las siguientes condiciones: 1) Se toma una muestra de tamao n, sin reemplazamiento, de un conjunto finito de N objetos. 2) K de los N objetos se pueden clasificar como xitos y N - K como fracasos. X cuenta el nmero de xitos obtenidos en la muestra. El espacio muestral es el conjunto de los nmeros enteros de 0 a n, de 0 a K si K < n. En este caso, la probabilidad del xito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre s. La funcin de probabilidad de la variable hipergeomtrica es:

Los parmetros de la distribucin son n, N y K. Los valores de la media y la varianza se calculan segn las ecuaciones:

Si n es pequeo, con relacin a N (n << N), la probabilidad de un xito variar muy poco de una prueba a otra, as pues, la variable, en este caso, es

esencialmente binomial; en esta situacin, N suele ser muy grande y los nmeros combinatorios se vuelven prcticamente inmanejables, as pues, la probabilidades se calculan ms cmodamente aproximando por las ecuaciones de una binomial con p = K / N. La media de la variable aproximada ( = n p = n (K / N)) es la misma que la de la variable antes de la aproximacin; sin embargo, la varianza de la variable binomial es ligeramente superior a la de la hipergeomtrica.

el factor por el que difieren ser siempre menor que 1 y tan prximo a 1 como cierto sea que n << N. El aspecto de la distribucin es bastante similar al de la binomial. Como ejemplo, mostramos los casos anlogos a los de las binomiales del apartado anterior (p inicial = 0,25 y n = 4)

Distribucin multihipergeomtrica
Este variable se define igual que la hipergeomtrica con la nica diferencia de que se supone que el conjunto de objetos sobre el que se muestrea se divide en R grupos de A1, A2,..., AR objetos y la variable describe el nmero de objetos de cada tipo que se han obtenido (x1, x2,..., xR)

Esta situacin es anloga a la planteada en el caso de la distribucin multinomial. La funcin de probabilidad es:

Distribucin de poisson
Una variable de tipo poisson cuenta xitos (es decir, objetos de un tipo determinado) que ocurren en una regin del espacio o del tiempo. El experimento que la genera debe cumplir las siguientes condiciones: 1. El nmero de xitos que ocurren en cada regin del tiempo o del espacio es independiente de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior. 2. La probabilidad de un xito en un tiempo o espacio pequeo es proporcional al tamao de este y no depende de lo que ocurra fuera de l. 3. La probabilidad de encontrar uno o ms xitos en una regin del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la regin en estudio. Como consecuencia de estas condiciones, las variables Poisson tpicas son variables en las que se cuentan sucesos raros. La funcin de probabilidad de una variable Poisson es:

El parmetro de la distribucin es de la variable.

que es igual a la media y a la varianza

Esta caracterstica puede servirnos para identificar a una variable Poisson en casos en que se presenten serias dificultades para verificar los postulados de definicin. La distribucin de Poisson se puede considerar como el lmite al que tiende la distribucin binomial cuando n tiende a y p tiende a 0, siendo np constante (y menor que 7); en esta situacin sera difcil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximacin a travs de una variable Poisson con media l = n p. La varianza de la variable aproximada es ligeramente superior a la de la variable binomial.

Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias. El aspecto de la distribucin depende muchsimo de la magnitud de la media. Como ejemplo, mostramos tres casos con = 0,5 (arriba a la izquierda), = 1,5 (arriba a la derecha) y = 5 (abajo) Obsrvese que la asimetra de la distribucin disminuye al crecer y que, en paralelo, la grfica empieza a tener un aspecto acampanado.

Variables aleatorias continuas


Distribucin normal o de Gauss
La distribucin normal fue definida por De Moivre en 1733 y es la distribucin de mayor importancia en el campo de la estadstica. Una variable es normal cuando se ajusta a la ley de los grandes nmeros, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal. Las variables normales tienen una funcin de densidad con forma de campana a la que se llama campana de Gauss. Su funcin de densidad es la siguiente:

Los parmetros de la distribucin son la media y la desviacin tpica, y , respectivamente. Como consecuencia, en una variable normal, media y desviacin tpica no deben estar correlacionadas en ningn caso (como desgraciadamente ocurre en la inmensa mayora de las variables aleatorias reales que se asemejan a la normal.

La curva normal cumple las siguientes propiedades: 1) El mximo de la curva coincide con la media. 2) Es perfectamente simtrica respecto a la media (g1 = 0). 3) La curva tiene dos puntos de inflexin situados a una desviacin tpica de la media. Es convexa entre ambos puntos de inflexin y cncava en ambas colas.

4) Sus colas son asintticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habra que integrar la funcin de densidad entre los extremos del intervalo. por desgracia (o por suerte), la funcin de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la nica solucin es referirse a tablas de la funcin de distribucin de la variable (calculadas por integracin numrica) Estas tablas tendran que ser de triple entrada ( , , valor) y el asunto tendra una complejidad enorme. Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribucin normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuacin:

La funcin de distribucin de la variable normal tipificada est tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese. De forma anloga a lo pasaba con las variables Poisson, la suma de variables normales independientes es otra normal.

Histograma de una normal idealizada

Histograma de una muestra de una variable normal

Distribucin Gamma ( )
La distribucin gamma se define a partir de la funcin gamma, cuya ecuacin es:

La funcin de densidad de la distribucin gamma es:

son los parmetros de la distribucin. La media y la varianza de la variable gamma son:

Distribucin exponencial
Es un caso particular de la distribucin gamma cuando de densidad es: = 1. Su funcin

Su parmetro es . La media y la varianza de la distribucin exponencial son:

Distribucin Chi-cuadrado G
Es otro caso particular de la distribucin gamma para el caso / 2, siendo n un nmero natural. Su funcin de densidad es: =2y =n

El parmetro de la distribucin G es R y su media y su varianza son, respectivamente:

Otra forma de definir la distribucin G es la siguiente: Supongamos que tenemos n variables aleatorias normales independientes, X1,..., Xn, con media i y varianza (i = 1 ... n), la variable definida como

tiene distribucin G con n grados de libertad y se le denomina Gn.

Variables chi-cuadrado con valores de

progresivamente

mayores son cada vez menos asimtricas.

Distribucin T de Student
Supongamos dos variables aleatorias independientes, una normal tipificada, Z , y otra con distribucin G con R grados de libertad, la variable definida segn la ecuacin:

tiene distribucin t con R grados de libertad. La funcin de densidad de la distribucin t es:

El parmetro de la distribucin t es R, su nmero de grados de libertad. Esta distribucin es simtrica respecto al eje Y y sus colas se aproximan asintticamente al eje X. Es similar a la distribucin Z salvo que es platicrtica y, por tanto, ms aplanada. Cuando n tiende a infinito, t tiende asintticamente a Z y se pueden considerar prcticamente iguales para valores de n mayores o iguales que 30..

Variables T con valores de R progresivamente mayores son cada vez menos platicrticas

Comparacin entre la variable T y la normal tipificado.

Distribucin F de Snedecor
Sean U y V dos variables aleatorias independientes con distribucin G con R1 y R2 grados de libertad, respectivamente. La variable definida segn la ecuacin:

tiene distribucin F con R1, R2 grados de libertad. La funcin de densidad de la distribucin F es:

Los parmetros de la variable F son sus grados de libertad R1 y R2. Las distribuciones F tienen una propiedad que se utiliza en la construccin de tablas que es la siguiente: Llamemos fER1,R2 al valor de una distribucin F con R1 y R2 grados de libertad que cumple la condicin, P(F > fER1,R2) = ; llamemos fER1,R2 al valor de una distribucin F con R1 y R2 grados de libertad que cumple la condicin, P(F > fER1,R2) = 1- . Ambos valores estn relacionados de modo que uno es el inverso del otro.

Variables F con distintos valores de

1,

POBLACIN Y MUESTRA
y y

La muestra aleatoria Parmetros y estadsticos o Estadsticos de centralidad:  La media aritmtica  La mediana  La moda  Los cuantiles o percentiles o Estadsticos de dispersin:  El rango  La varianza  La desviacin tpica  Coeficiente de variacin Pruebas chi-cuadrado de ajuste e independencia o Chi-cuadrado de ajuste o Chi-cuadrado de contingencia o independencia  Comparacin mltiple de distintas proporciones o probabilidades  Prueba de homogeneidad de muestras

La muestra aleatoria

Una poblacin en estadstica es el conjunto de todas las observaciones en las que estamos interesados. Se llama tamao de la poblacin al nmero de individuos que la componen, siendo cada posible observacin un individuo; as pues, las poblaciones pueden ser finitas e infinitas. Cada observacin en una poblacin es un valor de una variable aleatoria X con una funcin de probabilidad o densidad determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de la distribucin de la variable; es decir, hablaremos de poblaciones normales, binomiales, etc. Para estudiar una poblacin existen dos posibilidades. Una de ellas consiste en estudiar todos sus elementos y sacar conclusiones; la otra consiste en estudiar slo una parte de ellos, una muestra, elegidos de tal forma que nos digan algo sobre la totalidad de las observaciones de la poblacin. El mejor mtodo ser el primero, cuando es posible, lo cual slo ocurre en las poblaciones finitas y razonablemente pequeas; en el caso de poblaciones muy grandes o infinitas ser muy difcil o imposible realizar un estudio total. En este caso necesitaremos tomar una muestra y nos surgir el problema de cmo hacer para que la muestra nos diga algo sobre el conjunto de la poblacin. La condicin ms obvia que se le puede pedir a una muestra es que sea representativa de la poblacin. Est claro que si no conocemos la poblacin no podemos saber si la muestra es representativa o no. La nica forma de tener cierta garanta de que esto ocurra es tomar nuestra muestra de forma que cada individuo de la poblacin y cada subgrupo posible de la poblacin tengan igual probabilidad de ser elegidos. A este tipo de muestras se les llama muestras aleatorias o muestras al azar. Una muestra aleatoria de tamao n es un conjunto de n individuos tomado de tal manera que cada subconjunto de tamao n de la poblacin tenga la misma probabilidad de ser elegido como muestra; es decir, si la poblacin tiene tamao N, cada una de las combinaciones posibles de n elementos debe ser equiprobable.

Los sistemas de muestreo se basan normalmente en la asignacin de un nmero a cada uno de los individuos de la poblacin y la posterior obtencin de una muestra de n nmeros aleatorios que se obtendr por sorteo utilizando bolas numeradas, ordenadores, etc

Otra variante del muestreo es cuando se divide la poblacin en n grupos, que no correspondan con ninguna clasificacin relacionada con el problema en estudio, que se ordenan. Por sorteo se elige un elemento del primer grupo y a continuacin los elementos correspondientes de los dems grupos. Este tipo de muestra se denomina muestra al azar sistemtico. Si la poblacin est subdividida en grupos podemos tomar otro tipo de muestra en la que cada grupo de la poblacin est representado por un porcentaje

de individuos igual al porcentaje de individuos de la poblacin integrados en ese grupo. Este tipo se llama muestra al azar estratificado.

Parmetros y estadsticos
Parmetros poblacionales
Se llama parmetros poblacionales a cantidades que se obtienen a partir de las observaciones de la variable y sus probabilidades y que determinan perfectamente la distribucin de esta, as como las caractersticas de la poblacin, por ejemplo: La media, , la varianza 2, la proporcin de determinados sucesos, P. Los Parmetros poblacionales son nmeros reales, constantes y nicos.

Parmetros muestrales
Los Parmetros muestrales son resmenes de la informacin de la muestra que nos "determinan" la estructura de la muestra. Los Parmetros muestrales no son constantes sino variables aleatorias pues sus valores dependen de la estructura de la muestra que no es siempre la misma como consecuencia del muestreo aleatorio. A estas variables se les suele llamar estadsticos. Los estadsticos se transforman en dos tipos: estadsticos de centralidad y estadsticos de dispersin.

Estadsticos de centralidad:
Son medidas de la tendencia central de la variable. los ms conocidos son: 1) La media aritmtica Es el valor esperado de las observaciones de la muestra calculado como si la muestra fuera una variable completa, es decir, multiplicando observaciones por frecuencias y sumando.

Si x1, x2,.., xn representan una muestra de tamao n de la poblacin, la media aritmtica se calcula como:

La media aritmtica es la medida de la tendencia central que posee menor varianza. Engloba en ella toda la informacin de la muestra; esto, con ser una ventaja, supone una cierta desventaja pues los valores muy extremos, en muestras pequeas afectan mucho a la media. La media de la media aritmtica es igual a la de las observaciones ( ) y su varianza es igual a la de las observaciones partida por n. En poblaciones normales, la distribucin de la media es normal,

Si la poblacin no es normal, pero la muestra es grande (n 30), por el teorema central del lmite la distribucin de la media ser asintticamente normal.

2) La mediana En una variable se define como el punto para el cual la funcin de distribucin alcance el valor 0.5; en una muestra la mediana es el valor central. Para calcularla se ordenan las observaciones de menor a mayor. Si n es impar, la mediana es la observacin central

Si n es par, la mediana se define como la media de las dos observaciones centrales

En resumen, podramos decir que la mediana es el valor que es mayor o igual que el 50% de las observaciones de la muestra y menor o igual que el otro 50%.

No tiene por qu ser igual a una de las observaciones de la muestra. Es ms fcil de calcular que la media aritmtica y apenas se afecta por observaciones extremas; sin embargo tiene mayor varianza que X y slo toma en cuenta la informacin de los valores centrales de la muestra. 3) La moda Es el valor ms frecuente. Su clculo es el ms simple de los tres correspondientes a estadsticos de centralidad pero la moda es el estadstico de mayor varianza. La moda puede no existir y cuando existe no es necesariamente nica. No tiene sentido en muestras pequeas en las que la aparicin de coincidencias en los valores es con gran frecuencia ms producto del azar que de otra cosa.

La media es el estadstico de centralidad ms usado cuando uno espera que la poblacin tenga una distribucin ms o menos simtrica, sin estar clasificada en grupos claramente diferenciados. En el caso de distribuciones muy asimtricas, con una cola muy larga, la mediana es, normalmente, el valor de eleccin dado que la media suele estar desplazada respecto al ncleo principal de observaciones de la variable. En estos casos, la mediana es el valor que mejor expresa el punto donde se acumulan mayoritariamente las observaciones de la variable. En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la media y la mediana carecen, normalmente, de sentido y los valores que ms claramente reflejan el comportamiento de las observaciones de la variable son las modas.

Otros estadsticos de centralidad son los cuantiles. Los cuantiles o percentiles Un percentil X, PX, es un valor de la distribucin muestral o poblacional de la variable que es mayor o igual que el X% de las observaciones de la variable P(Y PX) = X%. Existe un tipo especial de cuantiles llamados cuartiles. Los cuartiles son tres valores que dividen la distribucin en cuatro partes equivalentes porcentualmente. o El primer cuartil es el valor que es mayor o igual que el 25% de las observaciones de la muestra y menor o igual que el 75%. El segundo cuartil es la mediana. El tercer cuartil es mayor o igual que el 75% de las observaciones de la muestra y menor o igual que el 25%.

o o

Estadsticos de dispersin
Los estadsticos de dispersin son parmetros muestrales que expresan la dispersin de los valores de la variable respecto al punto central, es decir, su posicin relativa. Los ms importantes son: El rango Es la diferencia entre las dos observaciones extremas, la mxima menos la mnima. Expresa cuantas unidades de diferencia podemos esperar, como mximo, entre dos valores de la variable. El rango estima el campo de variacin de la variable. Se afecta mucho por observaciones extremas y utiliza nicamente una pequea parte de la informacin.

La varianza Es la desviacin cuadrtica media de las observaciones a la media muestral.

Su concepto es anlogo al de la varianza poblacional. No obstante esta expresin de clculo de la varianza muestral no se utiliza mucho pues sus valores tienden a ser menores que el de la autntica varianza de la variable (debido a que la propia media muestral tiene una varianza que vale un ensimo de la de las observaciones) Para compensar esta deficiencia y obtener valores que no subestimen la varianza poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una expresin, esencialmente igual que la anterior salvo que el denominador est disminuido en una unidad.

Normalmente, estaremos interesados en saber cosas acerca de la varianza poblacional y no de la varianza muestral. Por tanto, en adelante, cuando hablemos de varianza muestral, salvo indicacin expresa, nos referiremos a la segunda. Es el estadstico de dispersin ms usado por las propiedades de su distribucin. Si la poblacin de la que procede la muestra es normal:

con n-1 grados de libertad. Adems, utiliza toda la informacin de la muestra. Su mayor inconveniente consiste en que se expresa en unidades cuadrticas. Por ello, para muchos propsitos se utiliza otro estadstico de dispersin que la desviacin tpica.

Si no disponemos de una calculadora, el clculo de la varianza puede ser complicado porque, habitualmente, los valores de las desviaciones de las observaciones a la media resultan ser nmeros con varias cifras decimales. Por ello, se suele utilizar una ecuacin que deriva directamente de la anterior:

o, alternativamente, la equivalente a aquella de "la media de los cuadrados menos el cuadrado de la media".

La desviacin tpica Es la raz cuadrada positiva de la varianza y, por tanto, se expresa en las unidades de medida de la variable.

Su concepto es anlogo al de la desviacin tpica poblacional. Coeficiente de variacin Es el cociente entre la desviacin tpica y la media aritmtica muestrales y expresa la variabilidad de la variable en tanto por uno, sin dimensiones.

Permite comparar muestras de variables de distinta naturaleza o muestras de la misma variable en poblaciones en las que el orden de magnitud de las observaciones sea muy diferente.

Pruebas chi-cuadrado de ajuste e independencia


Las pruebas chi-cuadrado son un grupo de contrastes de hiptesis que sirven para comprobar afirmaciones acerca de las funciones de probabilidad (o densidad) de una o dos variables aleatorias. Estas pruebas no pertenecen propiamente a la estadstica paramtrica pues no establecen suposiciones restrictivas en cuanto al tipo de variables que admiten, ni en lo que refiere a su distribucin de probabilidad ni en los valores y/o el conocimiento de sus parmetros. Se aplican en dos situaciones bsicas: a) Cuando queremos comprobar si una variable, cuya descripcin parece adecuada, tiene una determinada funcin de probabilidad. La prueba correspondiente se llama chi-cuadrado de ajuste. b) Cuando queremos averiguar si dos variables (o dos vas de clasificacin) son independientes estadsticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de independencia o chi-cuadrado de contingencia.

Chi-cuadrado de ajuste
En una prueba de ajuste la hiptesis nula establece que una variable X tiene una cierta distribucin de probabilidad con unos determinados valores de los parmetros. El tipo de distribucin se determina, segn los casos, en funcin de: La propia definicin de la variable, consideraciones tericas al margen de esta y/o evidencia aportada por datos anteriores al experimento actual.

A menudo, la propia definicin del tipo de variable lleva implcitos los valores de sus parmetros o de parte de ellos; si esto no fuera as dichos parmetros se estimarn a partir de la muestra de valores de la variable que utilizaremos para realizar la prueba de ajuste. Como en casos anteriores, empezaremos definiendo las hiptesis.

Hiptesis nula: X tiene distribucin de probabilidad f(x) con parmetros y1,..., yp Hiptesis alternativa: X tiene cualquier otra distribucin de probabilidad.

Es importante destacar que el rechazo de la hiptesis nula no implica que sean falsos todos sus aspectos sino nicamente el conjunto de ellos; por ejemplo, podra ocurrir que el tipo de distribucin fuera correcto pero que nos hubisemos equivocado en los valores de los parmetros. Obviamente, necesitaremos una muestra de valores de la variable X. Si la variable es discreta y tiene pocos valores posible estimaremos las probabilidades de dichos valores mediante sus frecuencias muestrales; si la variable es continua o si es una discreta con muchos o infinitos valores estimaremos probabilidades de grupos de valores (intervalos). Metodolgicamente, la prueba se basa en la comparacin entre la serie de frecuencias absolutas observadas empricamente para los valores de la variable (Oi) y las correspondientes frecuencias absolutas tericas obtenidas en base a la funcin de probabilidad supuesta en la hiptesis nula (Ei). As pues, una vez calculadas las frecuencias absolutas de cada valor o intervalo de valores, obtendremos el nmero total de observaciones de la muestra (T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este nmero total de observaciones (T) en partes proporcionales a la probabilidad de cada suceso o grupo de sucesos. Para ello calcularemos dichas probabilidades utilizando la

funcin de probabilidad definida en la hiptesis nula f(x), de modo que, cada valor Ei tendr la siguiente expresin:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable

x1 x2 x3 ... xi ... xk

Frecuencias observadas O1 O2 O3 ... Oi ... Ok Frecuencias esperadas E1 E2 E3 ... Ei ... Ek

Si la hiptesis nula es cierta, las diferencias entre valores observados y esperados (que siempre existirn por tratarse de una muestra aleatoria) son atribuibles, exclusivamente, al efecto del azar. En estas condiciones, se puede calcular un parmetro que depende de ambos, cuya distribucin se ajusta a una chi-cuadrado.

Si, por el contrario, la hiptesis nula fuera falsa los Ei ya no seran, realmente, los valores esperados de las frecuencias; por tanto, las diferencias entre los valores "esperados" y los observados reflejaran no slo el efecto del azar sino tambin las diferencias entre los Ei y la autntica serie de valores esperados (desconocida) Como consecuencia, las diferencias de los numeradores de la expresin anterior tienden a ser ms grandes y, por estar elevadas al cuadrado, la suma de cocientes ser positiva y mayor que lo que se esperara para los valores de una chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de contraste de la prueba de hiptesis y la regin crtica se encontrar siempre en la cola derecha de la

distribucin chi-cuadrado. Evidentemente, esta prueba ser siempre de una sola cola.

Estadstico de contraste Se acepta la hiptesis nula si , el percentil 1 chi-cuadrado con grados de libertad. de la distribucin

Cabe sealar que en las pruebas chi-cuadrado lo corriente es que pretendamos comprobar que una variable tiene una cierta distribucin y, por tanto, habitualmente, nos vemos obligados a colocar nuestra propia hiptesis en la hiptesis nula. nicamente podremos colocar nuestra hiptesis en la alternativa en el caso excepcional de que pretendamos demostrar que cierto tratamiento produce una distorsin de la distribucin bsica de la variable en estudio. El nmero de grados de libertad de la variable chi-cuadrado se calcula de la siguiente forma:  A priori, tendr tantos grados de libertad como parejas frecuencia observada - frecuencia esperada.  A esta cantidad se debe restar el nmero de restricciones lineales impuestas a las frecuencias observadas, es decir, el nmero de parmetros que es necesario calcular directamente a partir de los valores observados para establecer los valores esperados. Este nmero es, como mnimo, uno ya que siempre tendremos que calcular el nmero total de observaciones de la muestra.

Una condicin bsica para que podamos llevar a cabo una prueba chicuadrado es que las frecuencias de las distintas clases deben ser suficientemente altas como para garantizar que pequeas desviaciones aleatorias en la muestra no tengan importancia decisiva sobre el valor del estadstico de contraste. Las reglas que determinan cuando es posible o no realizar el contraste varan mucho de unos autores a otros. En un extremo de mxima rigidez se encuentran aquellos que opinan que no se puede realizar la prueba cuando alguna de las frecuencias, observadas o esperadas, sea menor que 5. En el otro extremo se encuentran quienes opinan que, para que la prueba sea viable ninguna de las frecuencias esperadas debe ser menor que 1 y no ms del 25% pueden ser menores que 5; en lo que refiere a las frecuencias observadas no existiran lmites. La autora de este texto simpatiza ms con la segunda postura, no slo por razones prcticas, sino porque lo razonable es que la distribucin esperada est

adecuadamente definida y, por tanto, no debe incluir valores muy bajos; sin embargo, los valores extremos en la distribucin observada simplemente reflejan diferencias importantes entre la distribucin supuesta por la hiptesis nula y la real. Sea cual sea el criterio que elijamos, si resultara que la prueba no es viable podramos recurrir a englobar los valores o clases de valores con sus vecinos ms prximos y pasar as a engrosar sus frecuencias. Este procedimiento no puede llevarse hasta el absurdo pero proporciona una salida digna a situaciones complejas. En casos excepcionales se pueden englobar valores que no sean vecinos porque exista algn nexo lgico de conexin entre ellos. Cuando sea necesario agrupar valores, los grados de libertad no se deben calcular hasta que tengamos establecidas definitivamente las parejas de frecuencias observadas y esperadas con las que calcularemos el estadstico de contraste.

Chi-cuadrado de contingencia o independencia


La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y. Las hiptesis contrastadas en la prueba son:

Hiptesis nula: X e Y son independientes. Hiptesis alternativa: X e Y no son independientes (No importa cual sea la relacin que mantengan ni el grado de esta.

La condicin de independencia, tal como fue definida en la pgina anterior era: X e Y son independientes si y slo si para cualquier pareja de valores x e y la probabilidad de que X tome el valor x e Y el valor y, simultneamente, es igual al producto de las probabilidades de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de probabilidad conjunta (f(x,y)) Empezaremos la prueba tomando una muestra de parejas de valores sobre la que contaremos la frecuencia absoluta con la que aparece cada combinacin de valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es en realidad nuestra estimacin de la funcin de probabilidad conjunta multiplicada por el nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son, en cada caso, el nmero de veces que hemos obtenido un valor de X (xi) en cualquier combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de probabilidad de X multiplicada por el nmero total de observaciones; anlogamente, las sumas de columnas (Cj) son nuestra estima de la funcin de probabilidad de Y multiplicada por el nmero total de observaciones. El nmero total de observaciones lo podemos obtener como la suma de todas las frecuencias observadas o, tambin, como la suma de las sumas de filas o de las sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de independencia. Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:

tanto,
y

Si X e Y son independientes, Oij debe ser igual a

y, por

bajo la hiptesis de independencia, esperado de Oij (Eij)

es el valor

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede calcular un parmetro que depende de ambas que tiene distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre las series de frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta tender a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin crtica se encontrar siempre en la cola derecha de la distribucin chicuadrado. Nuevamente, esta prueba ser siempre de una sola cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 chi-cuadrado con grados de libertad.

de la distribucin

Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que dos variables son independientes, es decir, que, habitualmente, nos veremos obligados a colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de libertad de la chi-cuadrado que sirve de contraste se calcula de la siguiente forma:  A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj tengamos (I J)  A este nmero tendremos que restarle I debido a que, para calcular las frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las sumas de filas obtenemos el nmero total de observaciones sin perder ningn grado de libertad.  A continuacin, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores del total de observaciones (T). En resumen, el nmero de grados de libertad de la prueba es el producto del nmero de filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias observadas y esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos viramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cual es el nmero de filas y columnas de la tabla definitiva. Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo de distribucin de ninguna de las variables implicadas y utiliza nicamente informacin de la muestra, es decir, informacin contingente. Esta es la razn por la que, habitualmente, se le llama chi-cuadrado de contingencia.

Comparacin mltiple de distintas proporciones o probabilidades


Una aplicacin concreta de la chi-cuadrado de independencia es la comparacin mltiple de las distintas proporciones o probabilidades de un suceso en I poblaciones diferentes. Supongamos que tenemos I poblaciones en las cuales las observaciones se pueden clasificar como A o no-A. Llamemos Pi a la probabilidad del suceso A en cada poblacin i y P a la frecuencia media de A en el conjunto de las poblaciones; la probabilidad del suceso no-A en cada poblacin i ser 1 - Pi y la media de todas ellas valdr 1 - P. Las hiptesis de la prueba sern:

Hiptesis nula: Hiptesis alternativa:

Si tomamos una muestra de tamao ni en cada poblacin y contamos en cada caso el nmero de sucesos A aparecidos en la muestra obtendramos la siguiente tabla:

Esta es una tabla tpica a la que se puede aplicar la metodologa de la prueba chicuadrado de independencia. Veamos como corresponden las hiptesis de una y otra prueba. Si la clasificacin de las observaciones en sucesos A y no-A fuera independiente de la clasificacin en muestras, la frecuencia relativa de A (y la de no-A) seran iguales en todos los casos y los valores esperados de las frecuencias absolutas se calcularan multiplicando la estima comn de la frecuencia relativa global por el nmero de observaciones en cada muestra.

La estima global de la frecuencia de A se hallara dividiendo el nmero total de sucesos A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila uno (F1) y el total de observaciones (T) Por tanto, el valor esperado de la frecuencia observada de A en la muestra i (EA,i) ser:

La estima global de la frecuencia de no-A se hallara dividiendo el nmero total de sucesos no-A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila dos (F2) y el total de observaciones (T) Por tanto, el valor esperado de la frecuencia observada de no-A en la muestra i (Eno-A,i) ser:

Es decir, los valores esperados se calcularan, en pura lgica, tal como indica el procedimiento estndar de la prueba de contingencia. En definitiva:

Hiptesis nula: La clasificacin en sucesos es independiente de la clasificacin en poblaciones. Hiptesis alternativa: La clasificacin en sucesos no es independiente de la clasificacin en poblaciones.

En resumen, la prueba de comparacin mltiple de proporciones se realizar mediante una prueba de contingencia que nos dir si las probabilidades son todas iguales o si, al menos, existe una que sea diferente de las dems. Los grados de libertad sern siempre:

Prueba de homogeneidad de muestras


Otra de las aplicaciones interesantes de la prueba chi-cuadrado de independencia consiste en la comprobacin de la homogeneidad de distintas muestras de una variable. Supongamos que hemos obtenido J muestras de tamao nj de una misma variable aleatoria (X) y queremos comprobar si son homogneas, es decir, si la variable tiene la misma distribucin de probabilidad en todas ellas, bien para utilizarlas conjuntamente, bien porque se trate de identificar diferencias entre las poblaciones de procedencia de las distintas muestras. Las frecuencias observadas sern las de la tabla siguiente, en la que Fi es la frecuencia absoluta total del valor xi y T es el nmero total de observaciones

El razonamiento en este caso es idntico al anterior. Si las muestras son homogneas, se puede obtener una estima conjunta de la frecuencia de cada valor xi (Fi / T) y el valor esperado de la frecuencia absoluta de xi en cada muestra se calcular como el producto de dicha frecuencia por el tamao de la muestra correspondiente

As pues, las hiptesis de la prueba sern: Hiptesis nula: Las muestras son homogneas La clasificacin de las observaciones segn los valores de la variable es independiente de la clasificacin en muestras. Hiptesis alternativa: Las muestras no son homogneas. La clasificacin de las observaciones segn los valores de la variable no es independiente de la clasificacin en muestras.

Obviamente, la prueba se realizar segn la metodologa habitual. En este caso, a la prueba chi-cuadrado de contingencia se le suele llamar chi-cuadrado de homogeneidad.

You might also like