Professional Documents
Culture Documents
Distribucin Muestral
La inferencia estadstica trata bsicamente con generalizaciones y predicciones. Por ejemplo, podemos afirmar, con base a opiniones de varias personas entrevistadas en Copiap, que en las prximas elecciones municipales el 52% de los electores votar por el candidato A. En este caso tratamos con una muestra aleatoria de opiniones de una poblacin finita muy grande. Podemos afirmar que el costo promedio para construir una piscina est entre 4 y 4.5 millones de pesos, con base en las estimaciones de tres contratistas seleccionados al azar de 30 que construyen piscinas residenciales actualmente. La poblacin que ser muestreada aqu es finita pero muy pequea. Por otro lado, un funcionario de cierta compaa calcula la media de 40 bebidas y obtiene 236 c.c., y con base en este valor decide que la mquina an sirve bebidas con un contenido promedio de =240 c.c. Las 40 bebidas representan una muestra de la
2
Distribucin Muestral
poblacin infinita de posibles bebidas que esta mquina servir. En cada uno de estos ejemplos calculamos una estadstica a partir de una muestra seleccionada de la poblacin, y de estas estadsticas hacemos varias afirmaciones con respecto a los valores de los parmetros de la poblacin que pueden ser ciertos o no. El funcionario de la compaa toma la decisin de que la mquina despachadora sirve bebidas con un contenido promedio de 240 c.c. aunque la media de la muestra fue 236 c.c., porque sabe de la teora de muestreo que es probable que ocurra tal valor de la muestra. De hecho si realiza pruebas similares, digamos cada una hora, esperara que los valores del promedio estn por arriba y por debajo de =240 c.c. Solamente cuando el promedio es considerablemente distinto de 240 c.c. el funcionario de la compaa iniciara una accin para ajustar la mquina.
3
Distribucin Muestral
La distribucin de probabilidad de una estadstica se llama distribucin muestral. Recordemos algunas estadsticas: Si X1, X2, , Xn representa una muestra aleatoria (m.a.) de tamao n, entonces la media de la muestra se define mediante la estadstica
En la prctica al valor de una estadstica por lo general se le da el mismo nombre de la estadstica. Por ejemplo, el trmino medio de la muestra se aplica tanto a la estadstica como a su valor calculado .
4
Distribucin Muestral
Si X1, X2, , Xn representa una m.a. de tamao n, entonces la varianza de la muestra se define con la estadstica
La desviacin estndar de la muestra, que se denota por S, es la raz cuadrada positiva de la varianza de la muestra. La distribucin muestral de una estadstica depende del tamao de la poblacin, el tamao de las muestras y el mtodo de eleccin de las muestras.
5
Distribucin Muestral
Se deben estudiar las distribuciones muestrales de las estadsticas
como el mecanismo a partir del cual haremos finalmente inferencias de los parmetros y 2. La distribucin muestral de la estadstica con tamao muestral n es la distribucin que resulta cuando un experimento se lleva a cabo una y otra vez (siempre con tamao muestral n) y resultan los diversos valores de . Esta distribucin muestral, entonces, describe la variabilidad de los promedios muestrales alrededor de la media poblacional . Se aplica el mismo principio en el caso de la distribucin de S2. La distribucin muestral produce informacin acerca de la variabilidad de los valores de s2 alrededor de 2 en experimentos que se repiten.
6
Distribucin Muestral
La primera distribucin muestral importante a considerar es la de la media muestral . Supongamos que una m.a. de n observaciones se toma de una poblacin normal con media y desviacin estndar . Cada observacin de la m.a. tendr entonces la misma distribucin normal que la poblacin que se muestrea. Teorema del Lmite Central. Si es la media de una m.a. de tamao n tomada de una poblacin con media y desviacin estndar , entonces la forma lmite de la distribucin de
conforme n, es la distribucin normal estndar. La aproximacin normal para por lo general ser buena si n>=30 sin importar la forma de la poblacin. Si n<30, la aproxi7
Distribucin Muestral
macin es buena solamente si la poblacin no es muy diferente de una distribucin normal y si se sabe que la poblacin es normal, la distribucin muestral de seguir una distribucin normal exacta, no importa que tan pequeo sea el tamao de las muestras. Ejemplo 1: Una empresa elctrica fabrica lmparas que tienen una duracin que se distribuye aproximadamente en forma normal, con media de 800 horas y desviacin estndar de 40 horas. Calcular la probabilidad de que una m.a. de 16 lmparas tenga una vida media de menos de 775 horas. La distribucin muestral de ser aproximadamente normal con media 800 y desviacin estndar . La probabilidad que se desea est dada por
De esta manera se experimentara por casualidad una que est a 0.027 milmetros de la media en slo siete de 1000 experimentos. Como resultado, este experimento con . ciertamente no proporciona evidencia que apoye la conjetura de que =5.0.
11
De aqu
Por lo tanto,
15
16
18
2 Distribucin muestral de S
En lo anterior aprendimos acerca de la distribucin de muestreo de la media muestral. El TLC nos permiti hacer uso del hecho de que tiende a N(0,1) conforme crece el tamao de la muestra. Los Ejemplos 3 y 4 ilustran la aplicacin del TLC, que nos permite extraer conclusiones acerca de la media de la poblacin o la diferencia en dos medias de poblacin. Las distribuciones muestrales de estadsticas importantes nos permiten conocer informacin sobre los parmetros. Si un ingeniero se interesa en la resistencia media de la poblacin de cierto tipo de resistor, se explorar la distribucin muestral de vv una vez que se rena la informacin de la muestra. Por otro lado, si se estudia la variabilidad en el resistor, claramente se utilizar la distribucin muestral de S2 para conocer la contraparte
19
Distribucin muestral de S2
paramtrica, la varianza de la poblacin 2. Teorema 3: Si S2 es la varianza de una muestra aleatoria de tamao n que se toma de una poblacin normal que tiene desviacin estndar , entonces la estadstica
tiene una distribucin chi cuadrado con =n-1 grados de libertad. Ejemplo 5: Un fabricante de bateras para autos garantiza que sus bateras durarn, en promedio, tres aos con una desviacin estndar de un ao. Si cinco de estas bateras tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 aos, el fabricante an est convencido de que sus bateras tienen una desviacin estndar de un ao?. Supongamos que la duracin de las bateras sigue una distribucin normal.
20
Distribucin muestral de S2
Primero calculamos la varianza muestral
Entonces
es un valor de una distribucin chi cuadrado con 4 grados de libertad. Como 95% de los valores 2 con 4 grados de libertad caen entre 0.484 y 11.143 (ver Tabla de la distribucin chi cuadrado), el valor calculado con 2=1 es razonable y por lo tanto el fabricante no tiene razn para sospechar que la desviacin estndar es diferente a un ao. La siguiente Figura muestra la distribucin chi cuadrado con 2,3,4,5 y 8 grados de libertad, respectivamente.
21
tiene distribucin chi cuadrado con 1 grado de libertad. Ahora si sumamos n variables de este tipo, se obtiene otra v.a. que tiene distribucin chi cuadrado con n grados de libertad.
23
tiene distribucin chi cuadrado con n grados de libertad. No daremos la demostracin del Teorema 3, sin embargo se puede ver que cuando no se conoce y se considera la distribucin de
hay 1 grado de libertad menos, o se pierde un grado de libertad en la estimacin de (es decir, cuando se reemplaza por ). En otras palabras: Hay n grados de libertad o piezas de informacin independientes en la muestra aleatoria de la distribucin normal.
24
Distribucin t
Cuando los datos (los valores en la muestra) se utilizan para calcular la media, hay 1 grado de libertad menos en la informacin que se utiliza para estimar la varianza poblacional 2. El uso del TLC y la distribucin normal es ciertamente til en aplicaciones que giran alrededor de las inferencias sobre la media de la poblacin o la diferencia entre dos medias de poblacin. Sin embargo se supuso que la desviacin estndar de la poblacin se conoce. Esta suposicin puede ser racional en situaciones donde el ingeniero est bastante familiarizado con el sistema o proceso. Sin embargo, en muchos escenarios experimentales el conocimiento de no es ms razonable que el conocimiento de la media de la poblacin. Frecuentemente, de hecho, una estimacin de la debe proporcionar la misma informacin muestral que produce la media muestral. Como consecuencia, una estadstica natural a considerar para tratar con las inferencias
25
Distribucin t
sobre es
puesto que S es el anlogo de la muestra para . Si el tamao de la muestra es pequeo, los valores de S2 fluctan de forma considerable de una muestra a otra y la distribucin de T se desva de forma apreciable de la de una distribucin normal estndar. Si el tamao de la muestra es suficientemente grande, digamos n>=30, la distribucin de T no difiere de manera considerable de la normal estndar. Sin embargo, para n<30, es til tratar con la distribucin exacta de T. Para desarrollar la distribucin muestral de T supondremos que la muestra aleatoria se selecciona de una poblacin normal.
26
Distribucin t
Podemos escribir entonces:
tiene distribucin chi cuadrado con =n-1 grados de libertad. Al muestrear de poblaciones normales, se puede demostrar que y S2 son independientes, y en consecuencia tambin Z y V lo son.
27
Distribucin t
Teorema 4: Sea Z una v.a. normal estndar y V una v.a. chi cuadrado con grados de libertad. Si Z y V son independientes, entonces la distribucin de la v.a. T, donde est dada por
Esta se conoce como la distribucin t (de Student) con grados de libertad. Corolario: Sean X1,X2,,Xn variables aleatorias independientes que son normales con media y desviacin estndar . Entonces la variable aleatoria tiene una distribucin t con =n-1 grados de libertad.
28
Distribucin t
La distribucin de probabilidad de T se public por primera vez en 1908 en un artculo de William Sealy Gosset. En esa poca, Gosset era empleado de una cervecera irlandesa que prohiba la publicacin de investigaciones de sus empleados. Para eludir esta prohibicin, public su trabajo en secreto bajo el seudnimo de Student. En consecuencia, la distribucin de T usualmente se llama distribucin t de Student o simplemente distribucin t. Gosset supone que las muestras se seleccionan de una poblacin normal. Aunque esto parece una suposicin fuerte, se puede demostrar que las poblaciones no normales que poseen distribuciones en forma casi de campana an proporcionan valores de T que se aproximan muy cerca a la distribucin t. La distribucin de T es similar a la distribucin de Z, pues ambas son simtricas alrededor de una media de cero. Ambas distribuciones tiene forma de campana, pero la distribucin t es
29
Distribucin t
ms variable, debido al hecho de que los valores de T dependen de las fluctuaciones de dos cantidades, y S2 , mientras que los valores Z dependen solamente de los cambios de entre una muestra y otra. La distribucin de T difiere de la distribucin de Z en que la varianza de T depende del tamao de la muestra n y siempre es mayor que 1. nicamente cuando el tamao de la muestra n, las dos distribuciones sern la misma. En la Figura siguiente se muestra la relacin entre una distribucin normal (=) y las distribuciones t con 2,3, 4 y 5 grados de libertad. Se acostumbra representar con t el valor t por arriba del cual encontramos un rea igual a . De aqu, el valor t con 10 grados de libertad que deja un rea de 0.025 a la derecha es t=2.228 (ver Tabla de la distribucin t).
30
Distribucin t
31
Distribucin t
Ejemplo 6: Calcular el valor t con 14 grados de libertad que deja un rea de 0.025 a la izquierda, y por tanto un rea de 0.975 a la derecha. t0.975= t0.025= 2.145 Como la distribucin t es simtrica alrededor de una media de cero, tenemos que t1-=t, es decir, el valor t que deja un rea de 1- a la derecha y por tanto un rea a la izquierda, es igual al valor t negativo que deja un rea de en la cola derecha de la distribucin. Por ejemplo, t0.95= t0.05, t0.99= t0.01, etc. Ejemplo 7: Calcular Ejemplo 8: Calcular el valor de k tal que para una muestra aleatoria de tamao 15 que se selecciona de una poblacin normal.
32
Distribucin t
Ejemplo 9: Un ingeniero qumico afirma que el rendimiento medio de la poblacin de cierto proceso en lotes es 500 gramos por milmetro de materia prima. Para verificar esta afirmacin muestrea 25 lotes cada mes. Si el valor t calculado cae entre t0.05 y t0.05 queda satisfecho con su afirmacin. Qu conclusin extraera de una muestra que tiene una media de 518 gramos por milmetro y una desviacin estndar de 40 gramos?. Supongamos que la distribucin de rendimientos es aproximadamente normal. De la Tabla de la distribucin t encontramos que t0.05 =1.711 para 24 grados de libertad. Por lo tanto, el fabricante queda satisfecho con esta afirmacin si una muestra de 25 lotes rinde un valor t entre 1.711 y 1.711. Si =500, entonces
Distribucin t
La probabilidad de obtener un valor t, con 24 grados de libertad, igual o mayor que 2.25 es aproximadamente 0.02. Si >500, el valor t calculado de la muestra sera ms razonable. De aqu que es probable que el fabricante concluya que el proceso produce un mejor producto del que piensa. Debemos tener en cuenta que el uso de la distribucin t para la estadstica
requiere que la muestra X1,X2,,Xn sea normal. El uso de la distribucin t y la consideracin del tamao de la muestra no se relacionan con el TLC. El uso de la distribucin normal estndar en lugar de t para n>=30 solamente implica que S es un estimador suficientemente bueno para en este caso.
34
Distribucin F
La distribucin t se aplica a problemas en las que hay muestreo comparativo (es decir, comparacin entre dos medias muestrales). Por ejemplo, un ingeniero qumico rene datos de dos catalizadores . Un bilogo colecta datos sobre dos medios de crecimiento. Un qumico rene datos sobre dos mtodos de material de recubrimiento para suprimir la corrosin. Aunque es de inters que la informacin muestral de luces sobre dos medias poblacionales, es frecuente tambin e igualmente importante la comparacin de la variabilidad. La distribucin F encuentra enorme aplicacin en la comparacin de las varianzas muestrales. Las aplicaciones de la distribucin F se encuentran en problemas que involucran dos o ms muestras. La estadstica F se define como la razn de dos variables aleatorias chi cuadrado independientes, dividida cada una entre su nmero de grados de libertad.
35
Distribucin F
De aqu, podemos escribir
donde U y V son variables aleatorias independientes que tienen distribuciones chi cuadrado con 1 y 2 grados de libertad, respectivamente. Teorema 5: Sean U y V dos v.a. independientes que tienen distribuciones chi cuadrado con 1 y 2 grados de libertad, respectivamente. Entonces la distribucin de la v.a. est dada por
36
Distribucin F
La curva de la distribucin F depende no solamente de los parmetros 1 y 2 sino tambin del orden en el que se establecen. Una vez que se dan estos valores, podemos identificar la curva. En la siguiente Figura se muestran curvas F tpicas. Sea f por arriba del cual encontramos un rea igual a (ver la Tabla de la distribucin F para =0.05 y =0.01). De aqu, el valor de f con 6 y 10 grados de libertad, que deja un rea de 0.05 a la derecha, es f0.05=3.217. Por medio del siguiente Teorema estas Tablas tambin se pueden utilizar para encontrar valores de f0.95 y f0.99. La demostracin se omite. Teorema 6: Al escribir f(1,2) para f con 1 y 2 grados de libertad, obtenemos
37
Distribucin F
38
Distribucin F
As, el valor f con 6 y 10 grados de libertad, que deja un rea de 0.95 a la derecha, es
Ahora supongamos que las muestras aleatorias de tamaos n1 y n2 se seleccionan de dos poblaciones normales con desviaciones estndar 1 y 2, respectivamente. Del Teorema 3, sabemos que
Son variables aleatorias que tienen distribuciones chi cuadrado con 1=n1-1 y 2=n2-1 grados de libertad. Adems como las muestra se seleccionan a azar, tratamos con variables aleatorias independientes, entonces con el uso del Teorema 5 y ... obtenemos el siguiente resultado:
39
Distribucin F
Teorema 7: Si S1 y S2 son las desviaciones estndar de muestras independientes de tamaos n1 y n2 tomadas de poblaciones normales con desviaciones estndar 1 y 2, respectivamente, entonces
tiene un distribucin F con 1=n1-1 y 2=n2-1 grados de libertad. La distribucin F se utiliza en situaciones de dos muestras para extraer inferencias acerca de las varianzas poblacionales. Esto implica la aplicacin del Teorema 7. Sin embargo, la distribucin F se aplica a muchos otros tipos de problemas en los que las varianzas muestrales estn involucradas. De hecho, la distribucin F se llama distribucin de razn de varianzas.
40
Distribucin F
Ejemplo 10: Supongamos que hay tres tipos de pinturas a comparar, digamos A, B y C. Deseamos determinar si las medias de las poblaciones son equivalentes. Supongamos, que importante informacin del experimento es el siguiente:
El problema se centra alrededor en que si las medias muestrales estn suficientemente alejadas o no. La implicacin de suficientemente alejadas es muy importante. Parece razonable pensar que si la variabilidad entre las medias muestrales es mayor que lo que se espera por casualidad, los datos no apoyan la conclusin de que . Que estas medias muestrales pudieran ocurrir por casualidad depende de la variabilidad dentro
41
Distribucin F
de las muestras. La nocin de las componentes importantes de la variabilidad se ve mejor por medio de algunas grficas simples. Los datos originales se muestran a continuacin:
Parece evidente que los datos vienen de distribuciones con diferentes medias poblacionales, aunque hay alguna superposicin entre las muestras. Un anlisis que incluya todos los datos intentara determinar la variabilidad entre las medias muestrales y la variabilidad dentro de las muestras. Este estudio podra ocurrir conjuntamente si las poblaciones tienen una media comn. La clave para hacer este anlisis se centra alrededor de las siguientes dos fuentes de variabilidad:
42
Distribucin F
(1) Variabilidad dentro de las muestras (entre observaciones en distintas muestras). (2) Variabilidad entre muestras (entre medias muestrales). Claramente, si la variabilidad en (1) es considerablemente mayor que la de (2) habr una considerable superposicin en los datos de la muestra y una seal de que los datos podran venir de una distribucin comn. Por ejemplo, en la figura siguiente hay un conjunto de datos que contiene tres muestras. Estos datos podran venir de la misma distribucin.
Por otro lado, es muy poco probable que los datos de una distribucin con media comn puedan tener variabilidad entre
43
Distribucin F
medias muestrales que sea considerablemente mayor que la variabilidad dentro de las muestras. Las fuentes de variabilidad (1) y (2) generan importantes razones de varianzas muestrales y las razones se utilizan junto con la distribucin F. El procedimiento general involucrado se denomina anlisis de la varianza (ANOVA). Es interesante que en el ejemplo de las pinturas tratamos con inferencias de tres medias poblacionales, pero se utilizan dos fuentes de variabilidad.
44