You are on page 1of 31

5.

DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Y MUESTRALES

5.1. Distribuciones de Probabilidad de una variable aleatoria continua Toda distribucin de probabilidad es generada por una variable aleatoria x, la que puede ser de dos tipos: Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes valores: Aleatoria, porque el valor tomado es totalmente al azar y Discreta porque solo puede tomar valores enteros y un nmero finito de ellos. Ejemplos: x Variable que nos define el nmero de burbujas por envase de vidrio que son generadas en un proceso dado. x0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase xVariable que nos define el nmero de productos defectuosos en un lote de 25 productos. x0, 1, 2, 3,....,25 productos defectuosos en el lote xVariable que nos define el nmero de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos. x0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad Con los ejemplos anteriores nos damos cuenta claramente que los valores de la variable x siempre sern enteros, nunca fraccionarios. Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque puede tomar tanto valores enteros como fraccionarios y un nmero infinito de ellos. Ejemplos: xVariable que nos define el dimetro de un engrane en pulgadas x5.0, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96 xVariable que nos define la longitud de un cable o circuito utilizado en un arns de auto x20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0 xVariable que nos define la concentracin en gramos de plata de algunas muestras de mineral x14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8 Como se observa en los ejemplos anteriores, una variable continua puede tomar cualquier valor, entero o fraccionario, una forma de distinguir cuando se trata de una variable continua es que esta variable nos permite medirla o evaluarla, mientras que una variable discreta no es medible, es una variable de tipo atributo, cuando se inspecciona

un producto este puede ser defectuoso o no, blanco o negro, cumple con las especificaciones o no cumple, etc, etc. Las variables descritas anteriormente nos generan una distribucin de probabilidad, las que pueden ser. 1) 1) Distribucin de probabilidad discreta. 2) 2) Distribucin de probabilidad continua 5.2 MEDIA VARIA ZA DE U A VARIABLE ALEATORIA CO TI UA

La Distribucin Normal La distribucin normal fue reconocida por primera vez por el francs Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elabor desarrollos ms profundos y formul la ecuacin de la curva; de ah que tambin se la conozca, ms comnmente, como la "campana de Gauss". La distribucin de una variable normal est completamente determinada por dos parmetros, su media y su desviacin estndar, denotadas generalmente por y . Con esta notacin, la densidad de la normal viene dada por la ecuacin:

Ecuacin 1:

que determina la curva en forma de campana que tan bien conocemos (Figura 2). As, se dice que una caracterstica sigue una distribucin normal de media y varianza , y se denota como , si su funcin de densidad viene dada por la Ecuacin 1. Al igual que ocurra con un histograma, en el que el rea de cada rectngulo es proporcional al nmero de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el rea bajo la curva delimitada por esas lneas indica la probabilidad de que la variable de inters, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintticamente hacia los ejes, cuando una variable siga una distribucin normal, ser mucho ms probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de ste. Propiedades de la distribucin normal:

La distribucin normal posee ciertas propiedades importantes que conviene destacar: i. ii. Tiene una nica moda, que coincide con su media y su mediana. La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre y es tericamente posible. El rea total bajo la curva es, por tanto, igual a 1. Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es igual a una desviacin tpica ( ). Cuanto mayor sea , ms aplanada ser la curva de la densidad. El rea bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . La forma de la campana de Gauss depende de los parmetros y (Figura 3). La media indica la posicin de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin.

iii.

iv.

v.

vi.

Como se deduce de este ltimo apartado, no existe una nica distribucin normal, sino una familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que corresponde a una distribucin de media 0 y varianza 1. As, la expresin que define su densidad se puede obtener de la Ecuacin 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribucin , se puede obtener otra caracterstica Z con

una distribucin normal estndar, sin ms que efectuar la transformacin: Ecuacin 2: Esta propiedad resulta especialmente interesante en la prctica, ya que para una distribucin existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirn resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribucin aproximadamente normal. Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada poblacin sigue una distribucin aproximadamente normal, con una media de 80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg? Denotando por X a la variable que representa el peso de los individuos en esa poblacin, sta sigue una distribucin . Si su distribucin fuese la de una normal estndar podramos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como ste no es el caso, resultar entonces til transformar esta caracterstica segn la Ecuacin 2, y obtener la variable:

para poder utilizar dicha tabla. As, la probabilidad que se desea calcular ser:

Como el rea total bajo la curva es igual a 1, se puede deducir que:

Esta ltima probabilidad puede ser fcilmente obtenida a partir de la Tabla 1, resultando ser . Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa poblacin tenga un peso mayor de 100 Kg , es de 10.9772=0.0228, es decir, aproximadamente de un 2.3%.

De modo anlogo, podemos obtener la probabilidad de que el peso de un sujeto est entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas estndar no proporcionan el valor de para valores negativos de la variable. Sin embargo, haciendo uso de la simetra de la distribucin normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.97720.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendra la misma conclusin recurriendo a la propiedad (iii) de la distribucin normal. No obstante, es fcil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la prctica. Generalmente no se dispone de informacin acerca de la distribucin terica de la poblacin, sino que ms bien el problema se plantea a la inversa: a partir de una muestra extrada al azar de la poblacin que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacin de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma poblacin, obtenindose una media muestral de Kg, y una desviacin estndar muestral Kg, querramos extraer alguna conclusin acerca del valor medio real de ese peso en la poblacin original. La solucin a este tipo de cuestiones se basa en un resultado elemental de la teora estadstica, el llamado teorema central del lmite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucin normal con igual media que la de la poblacin y desviacin estndar la de la poblacin dividida por . En nuestro caso, podremos entonces considerar la media muestral , con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de caeran

dentro del intervalo . Puesto que los valores de y son desconocidos, podramos pensar en aproximarlos por sus anlogos muestrales, resultando . Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la poblacin de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la teora

estadstica subyacente es mucho ms compleja, en lneas generales ste es el modo de construir un intervalo de confianza para la media de una poblacin. 5.3. DISTRIBUCI DE PROBABILIDAD T-STUDE T
El resultado ofrecido en el teorema anterior nos proporciona la base del desarrollo de procedimientos para hacer inferencias con respecto a la media de una poblacin normal con una varianza 2 . En este caso el teorema 7.1 nos dice que

n Y / tiene una distribucin normal estndar. Cuando se desconoce se le


puede estimar mediante S =

S 2 y la expresin

Y n S

nos dar como base para el desarrollo de mtodos de inferencias con respecto a .

Demostraremos que la distribucin de probabilidad de

n(Y ) / S esta dada

por una funcin de densidad de probabilidad conocida como distribucin t de Student con n 1 grados de libertad . La definicin general de una variable aleatoria que posee una distribucin t de Student ( 0 simplemente distribucin t), es la siguiente:

DEFINICION: Sea Z una variable aleatoria normal estndar y sea aleatoria ji - cuadrada con grados de libertad. Entonces si Z y 2 son independientes,

2 una variable

T=

2 /

se dice que tiene una distribucin t con grados de libertad.

Si Y1, Y2, ..., Yn es una muestra aleatoria de una poblacin normal con media y varianza 2, se puede aplicar el teorema 7.1 para demostrar que Z = tiene
2

n Y /
nos dice que

una

distribucin
2 2

normal

estndar.
2

El

teorema

7.3

= (n 1)S / tiene una distribucin con v = n 1 grados de libertad y que Z y 2 son independientes (ya que Yy 2 los son). Por lo tanto, por la definicin 7.2

T=

2 /v

Y = n S (n 1)S 2 / 2 (n 1)

n Y /

tiene una distribucin t con (n-1) grados de libertad.

La ecuacin para la funcin de densidad t no se presentara aqu, pero se dan algunas indicaciones para su obtencin en los ejercicios del final del capitulo. Como la funcin de densidad normal estndar, la funcin de densidad t es simtrica con respecto a cero, adems, para v > 1, E( T ) =0 y para v > 2, V ( T ) = v / ( v - 2 ). As vemos que una variable aleatoria con una distribucin t tiene el mismo valor esperado que una variable normal estndar. Sin embargo, una variable aleatoria normal estndar siempre tiene una varianza de 1, mientras que la varianza de una variable aleatoria con una distribucin t siempre es mayor que 1.

En al figura 7.2 se muestran las grficas de una funcin de densidad normal estndar y de una funcin de densidad t. Ntese que ambas funciones de densidad son simtricas con respecto al origen, pero que la densidad t tiene mas masa probabilstica en las colas. Normal

7.2 Una comparacin entre las funciones de densidad normal estndar y t

estndar

valores de tales que P ( T > t ) = para =0.100,0.050,0.025,0.010 y 0.005 se dan en la tabla 5 del apndice III . Por ejemplo si una variable aleatoria tiene una distribucin t con 21 grados de libertad (g.1.), t 0.100 se encuentra al buscar en el rengln encabezado por 21g.1. y en la columna con t 0.100 . aplicando la tabla 5, vemos que t 0.100 = 1.323. Por lo tanto, para 21g.1. la probabilidad de que una variable aleatoria con distribucin t sea mayor que 1.323 es 0.100.

5.4. DISTRIBUCI DE PROBABILIDAD TIPO GAMMA


Los tiempos que tardan en revisar un motor de un automvil avin tienen una distribucin de frecuencias sesgadas. Las poblaciones asociadas a estas variables aleatorias frecuentemente tienen distribuciones que se pueden modelar adecuadamente por la funcin de densidad tipo gamma.

Funcin de densidad de probabilidad para una variable aleatoria tipo gamma:

, > 0;0 y
f ( y) = y 1 e y / ( ) 0
En donde:

( ) = y 1e
0

dy

La cantidad de la de la funcin alfa se conoce como la funcin gamma. La integracin directa nos da que la funcin uno igual a uno. La integracin por partes nos da que la funcin de alfa menos uno alfa menos uno por la funcin alfa menos uno

para cualquier intervalo de alfa mayor o igual a uno y que la funcin de n sea igual a n menos uno factorial, para un nmero entero n.

En el caso especial cuando alfa es un nmero entero, se puede expresar la funcin de distribucin de una variable aleatoria tipo gamma como una suma de ciertas variables aleatorias de Poisson.

Si alfa no es un nmero entero, es imposible encontrar la antiderivada del integrando de la expresin:

0 < c < d <


donde

y 1 e y / dy ( )

Y por lo tanto es importante obtener las reas bajo la funcin de densidad tipo gamma mediante integracin directa.

Hay dos casos especiales de las variables aleatorias tipo gamma que merece consideracin particular:

Una variable aleatoria tipo gamma que tiene una funcin de densidad con parmetros alfa igual a v entre dos y beta igual a dos se denomina variable aleatoria ji - cuadrada. Ji - cuadrada se presenta con frecuencia en la teora de la estadstica. El parmetro v se denomina nmero de grados de libertad asociado a la variable aleatoria ji cuadrada.

La funcin de densidad gamma para el caso especial v = 1 se denomina funcin de densidad exponencial.

> 0;0 y <


f ( y) = 0
En cualquier punto.

y /

La funcin de densidad exponencial muchas veces es til en los modelos de duracin de componentes elctricos.

Un fusible es un ejemplo de un componente para el cual este supuesto suele cumplirse.

5.5. DISTRIBUCI DE PROBABILIDAD TIPO BETA


La distribucin de probabilidad beta es una funcin de densidad con dos parmetros definida en el intervalo cerrado 0 <= y <= 1. Se utiliza frecuentemente como modelo para fracciones, tal como la proporcin de impurezas en un producto qumico o la fraccin de tiempo que una maquina est en reparacin.

Funcin de densidad probabilidad:

, > 0;0 y 1
y 1 (1 y ) 1 f ( y) = { B( , )

En cualquier otro punto donde

B ( , ) = y 1 (1 y ) 1 dy =

( ) ( ) ( + )

Ntese que la definicin de (y) sobre el intervalo 0<= y <= 1 restringe su aplicacin. Si c<= y <= d, y = (y- c) / (d- c) definir una nueva variable en el intervalo 0<= y <= 1. As la funcin de densidad beta se puede aplicar a una variable aleatoria definida en el intervalo c<= y <= d mediante una traslacin y una medicin en la escala.

La funcin de distribucin acumulativa para la variable aleatoria beta se llama comnmente funcin beta y esta dada por

F ( y) =

t 1 (1 t ) 1 dt = I y ( , ) B( , )

Para valores enteros de alfa y beta, Iy (alfa, beta) est relacionada con la funcin de probabilidad binomial. Cuando y = p, se puede demostrar que

F ( p) =

n y 1 (1 y ) 1 dy = p y (1 p) n y B( , ) y =

En donde 0< p < 1 y n igual a alfa ms beta menos uno. 5.6. DISTRIBUCIN DE PROBABILIDAD TIPO C2 Y F Supngase que deseamos comparar las varianzas de dos poblaciones normales basados en la informacin contenida en muestras aleatorias independiente de las dos poblaciones. Supngase que una muestra aleatoria contiene n1 variables aleatorias distribuidas normalmente con una varianza comn 12 y que la otra muestra aleatoria contiene n2 variables aleatorias distribuidas normalmente con una varianza comn 12 y que la otra muestra aleatoria contiene n2 variables aleatorias distribuidas normalmente con una varianza comn 12 . Si calculamos S12 de las observaciones
2 en la muestra 1, entonces S12 es una estimacin de 12 . De manera similar, S 2

calculada a partir de las observaciones de la segunda muestra es una estimacin para


2 2 2 . As intuitivamente podramos pensar en utilizar S12 / S 2 para hacer inferencias 2 con respecto a las magnitudes relativas de 12 y 2 . Si dividimos cada S i2 por i2 ,

entonces la razn siguiente

2 S12 S12 / 12 2 = 2 2 2 2 S2 / 2 1 S 2

tiene una distribucin F con (n1 1)(n2 1) grados de libertad. La definicin general de una distribucin F es como sigue:

DEFINICION

2 variables aleatorias ji - cuadrada con v1 y v2 grados Sean 12 y 2

2 de libertad. Respectivamente. Entonces si 12 y 2 son independientes,

F=

12 / v1 2 2 / v2

se dice que tiene una distribucin F con v1 grados de libertad del numerador y v2 grados de libertad del denominador.

La funcin de densidad para variables aleatorias con la distribucin F es un miembro de la familia de las distribuciones beta . Omitimos la formula para la densidad de una variable aleatoria con la distribucin F , pero el mtodo para obtenerla se indica en los ejercicios al final del capitulo.

DISTRIBUCION DE PROBABILIDAD I CUADRADA

Considerando nuevamente las distribuciones normales, sabemos que

muestras

aleatorias

independientes

de

2 2 2 12 = (n1 1)S12 / 12 y 2 = (n2 1)S 2 / 2

tienen distribuciones 2 independientes con

v1 = (n1 1) yv2 = (n2 1)

grados de libertad, respectivamente.

As la definicin 7.3 implica que

F=

12 / v1 (n1 1)S12 / 12 (n1 1) S12 / 12 = = 2 2 2 2 / v2 (n2 1)S 2 / 2 (n2 1) S 22 / 22

tiene una distribucin F con

(n1 1)

grados de libertad del numerador y (n 2 1)

grados de libertad del denominador.

En al figura 7.3 se muestra la grfica de una tpica funcin de densidad F . Los valoras de F tales que P(F > F ) = se dan en la tabla 7 del apndice III, para los valores de = 0.100, 0.050, 0.025, 0.010 y 0.005. En la tabla 7 del apndice III, los encabezados de las columnas corresponden a los grados de libertad del numerador, en tanto que los grados de libertad del denominador se encuentran como los encabezados principales de los renglones.

Frente a los grados de libertad del denominador (los encabezados de los renglones), se encuentran los valores de = 0.100, 0.050, 0.025, 0.010 y 0.005. Por ejemplo, si la variable F estudiada tiene 5 grados de libertad del numerador y 7 grados de libertad del denominador, F 0.100= 2.88, F 0.050= 3.97, F 0.025 = 5.29, F 0.010 = 7.46 y F 0.005 =9.52. luego la probabilidad de que una variable aleatoria con una distribucin F con 5 grados de libertad del numerador y 7 grados de libertad del

denominador exceda de 7.46 es 0.01 . Lo correspondiente se afirma para los dems casos.

FIGURA 7.3 Una tpica funcin de densidad De probabilidad F

f (u )

u F

5.7. DISTRIBUCIN DE PROBABILIDAD WIEBULL

Devuelve la probabilidad de una variable aleatoria siguiendo una distribucin de Weibull. Esta distribucin se aplica en los anlisis de fiabilidad, para establecer, por ejemplo, el periodo de vida de un componente hasta que presenta una falla.

La ecuacin para la funcin de distribucin acumulada de Weibull es:

F (x, , ) = 1 e ( x )

La funcin de densidad de probabilidad es:

f ( x, , ) =

1 ( x ) x e .

Cuando = 1 la distribucin de Weibull devuelve la distribucin exponencial con:

5.8. TEOREMA DE COMBINACIN LINEAL DE VARIABLES ALEATORIAS Y TEOREMA DEL LIMITE CENTRAL.

En ingeniera y ciencias se realizan muchos experimentos cuyo fin es desarrollar un modelo matemtico que explique la relacin entre dos o ms variables. El objetivo es ser capaz de predecir el valor de una de las variables, y, dados valores especficos de las otras variables.
Las estimaciones de los parmetros del modelo son funciones lineales de los valores y de la muestra observada.

Teorema de combinaciones lineales de variables aleatorias independientes

Sean y1, y2, ..., yn un conjunto de variables aleatorias normalmente distribuidas con medias . , n). Si
E ( yi ) = i

y varianza

V ( yi ) = i2

y Cov ( yi , y j ) = 0

para ( i = 1, 2, .

l = a1 y1 + a2 y2 + . . . . . + an yn a , ......, an en donde a1 , 2 son constantes. Entonces, la distribucin de muestreo de una combinacin lineal de las variables aleatorias normales tiene una funcin de densidad normal con media y varianza:

= E ( l ) = a11 + a2 2 + . . . . . . + an n

2 2 2 2 l2 = V ( l ) = a12 12 + a 2 2 + . . . . . . + an n

Para que esto sea vlido las Yi son independientes Suponga que selecciona muestras aleatorias independientes de dos poblaciones normales, n1 observaciones de la poblacin 1 y n2 observaciones de la poblacin 2. Si
2 ( 1 , 12 ) y ( 2 , 2 ), las medias y varianzas de las poblaciones 1 y 2 son respectivamente, y si y1 y y2 son las medias de muestra correspondientes, obtenga la distribucin de la diferencia ( y1 y2 )

Solucin:

1. 1. Paso Puesto que y1 y y2 son funciones lineales de variables aleatorias distribuidas normalmente, por el teorema de combinaciones lineales tendrn una distribucin normal. Las medias y varianzas de las medias de muestra son:
E (Yi ) = i y V (Yi ) =

i2
ni

(i = 1, 2 )

2. 2. Paso La funcin lineal es l = y1 y2

3. 3. Paso ( l ) tendr una distribucin normal con

E (l ) = l = E ( y1 ) E ( y2 ) = 1 2 V (l ) = l2 = (1) 2 V ( y1 ) + (1) 2 V ( y2 ) + 2 (1)(1) Cov ( y1 , y2 )

4. 4. Paso Como las muestras se seleccionaron de forma independiente, independientes y Cov ( y1 , y2 ) = 0 . Por tanto,
V (l ) =

y1 y y2 son

12
n1

2 2

n2

5. 5. Paso Conclusin:

y1 y2

( 1 2 ,

12
n1

2 2

n2

El Teorema Central del Lmite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribucin (cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal. Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye segn una distribucin normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parmetros de la distribucin normal son: Media : n * (media de la variable individual multiplicada por el nmero de variables independientes) Varianza : n * 2 (varianza de la variable individual multiplicada por el nmero de variables individuales) Veamos ahora un ejemplo: Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye segn el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salgan ms de 60 caras.

La variable suma de estas 100 variables independientes se distribuye, por tanto, segn una distribucin normal. Media = 100 * 0,5 = 50 Varianza = 100 * 0,25 = 25 Para ver la probabilidad de que salgan ms de 60 caras calculamos la variable normal tipificada equivalente:

(*) 5 es la raiz cuadrada de 25, o sea la desviacin tpica de esta distribucin

Por lo tanto: P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228 Es decir, la probabilidad de que al tirar 100 veces la moneda salgan ms de 60 caras es tan slo del 2,28%.

5.9 Muestreo : Introduccin al muestreo y tipos de muestreo Introduccin


En este documento ofrecemos un resumen sobre el concepto de muestreo, y los tipos de muestreo existentes. Adems, se dispone de una hoja para el clculo de tamaos muestrales en auditoras de Historias Clnicas en Excel. No pretendemos, ni mucho menos, ser exhaustivos. Simplemente ofrecemos una pequea herramienta que pueda servir de apoyo en la evaluacin de los distintos indicadores de calidad.

Concepto de muestreo
El muestreo es una herramienta de la investigacin cientfica. Su funcin bsica es determinar que parte de una realidad en estudio (poblacin o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblacin. El error que se comete debido al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observacin de slo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versin simplificada de la poblacin, que reproduzca de algn modo sus rasgos bsicos.

Terminologa
Poblacin objeto: conjunto de individuos de los que se quiere obtener una informacin. Unidades de muestreo: nmero de elementos de la poblacin, no solapados, que se van a estudiar. Todo miembro de la poblacin pertenecer a una y slo una unidad de muestreo. Unidades de anlisis: objeto o individuo del que hay que obtener la informacin. Marco muestral: lista de unidades o elementos de muestreo.

Muestra: conjunto de unidades o elementos de anlisis sacados del marco.

Muestreo probabilstico
El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y dicha probabilidad no es nula para ningn elemento. Los mtodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la poblacin. (En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la poblacin.) Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos: Muestreo aleatorio simple Muestreo estratificado Muestreo sistemtico Muestreo polietpico o por conglomerados

CARACTERISTICAS

VENTAJAS

INCONVENIENTES

Aleatorio simple

Se selecciona una muestra de tamao n de una poblacin de N unidades, cada elemento tiene una probabilidad de inclusin igual y conocida de n/N.

Sencillo y de fcil comprensin. Clculo rpido de medias y varianzas. Se basa en la teora estadstica, y por tanto existen paquetes informticos para analizar los datos

Requiere que se posea de antemano un listado completo de toda la poblacin. Cuando se trabaja con muestras pequeas es posible que no represente a la poblacin adecuadamente.

Sistemtico

Conseguir un listado de los N elementos de la poblacin Determinar tamao muestral n. Definir un intervalo k=N/n. Elegir un nmero aleatorio, r, entre 1 y k (r=arranque aleatorio). Seleccionar los elementos de la lista.

Fcil de aplicar. No siempre es necesario tener un listado de toda la poblacin. Cuando la poblacin est ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Si la constante de muestreo est asociada con el fenmeno de inters, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de seleccin

Estratificado

En ciertas ocasiones resultar conveniente estratificar la muestra segn ciertas variables de inters. Para ello debemos conocer la composicin estratificada de la poblacin objetivo a muestrear. Una vez calculado el tamao muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la poblacin usando una simple regla de tres.

Tiende a asegurar que la muestra represente adecuadamente a la poblacin en funcin de unas variables seleccionadas. Se obtienen estimaciones ms precisa Su objetivo es conseguir una muestra lo mas semejante posible a la poblacin en lo que a la o las variables estratificadoras se refiere.

Se ha de conocer la distribucin en la poblacin de las variables utilizadas para la estratificacin.

Conglomerados

Se realizan varias fases de muestreo sucesivas (polietpico) La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.

Es muy eficiente cuando la poblacin es muy grande y dispersa. No es preciso tener un listado de toda la poblacin, slo de las unidades primarias de muestreo.

El error estndar es mayor que en el muestreo aleatorio simple o estratificado. El clculo del error estndar es complejo.

Ventajas e inconvenientes de los distintos tipos de muestreo probabilstico

Clculo del tamao muestral


Cada estudio tiene un tamao muestral idneo, que permite comprobar lo que se pretende con la seguridad y precisin fijadas por el investigador. De que depende el tamao muestral ? Variabilidad del parmetro a estimar: Datos previos, estudios piloto o usar 50% como peor estimacin Precisin: Amplitud del intervalo de confianza. Si se estima prevalencia su formato ser % Nivel de confianza (1- ): habitualmente 95% o 99%. Probabilidad complementaria al error admitido

Si aumentamos el tamao muestral n , podremos mejorar la calidad de la estimacin bien aumentando la precisin (disminuye amplitud del intervalo) o bien aumentando la seguridad (disminuye el error admitido)

Clculo del tamao muestral en una auditora de Historias Clnicas


Se trata de una situacin especial, en la que se va a determinar la presencia o ausencia de un determinado documento, por ejemplo (variable dicotmica). En este caso, hay que determinar la proporcin esperada de la variable de inters, la precisin deseada, y el nivel de confianza. Podemos aplicar las siguientes frmulas para el clculo del tamao muestral (si el muestreo es aleatorio). Si conocemos el tamao de la poblacin usaremos el mtodo para poblaciones finitas. Si por el contrario el tamao de la poblacin es desconocido o infinito usaremos la otra alternativa. Hay que tener en cuenta que una poblacin infinita puede corresponder a una finita (conocida) en la que se ha definido un muestreo con reemplazamiento (el mismo individuo puede salir muestreado varias veces)

Tamao de la poblacin infinito o desconocido

Tamao de la poblacin finito

n N Z p

Tamao muestral Tamao de la poblacin, nmero total de historias. Valor correspondiente a la distribucin de Gauss 1,96 para =0,05 y 2,58 para =0,01. Prevalencia esperada del parmetro a evaluar. En caso de desconocerse, aplicar la opcin ms desfavorable (p=0,5), que hace mayor el tamao muestral.

q i

1-p (Si p=30%, q=70%) Error que se prev cometer. Por ejemplo, para un error del 10%, introduciremos en la frmula el valor 0,1. As, con un error del 10%, si el parmetro estimado resulta del 80%, tendramos una seguridad del 95% (para =0,05) de que el parmetro real se sita entre el 70% y el 90%. Vemos, por tanto, que la amplitud total del intervalo es el doble del error que introducimos en la frmula.

5.10 Teorema de limite central

El Teorema Central del Lmite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribucin (cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal. Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye segn una distribucin normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parmetros de la distribucin normal son: Media : n * (media de la variable individual multiplicada por el nmero de variables independientes)

Varianza : n * 2 (varianza de la variable individual multiplicada por el nmero de variables individuales 5.11. Distribucin central de la media
TEOREMA CENTRAL DEL LIMITE (DISTRIBUCIN DE LA MEDIA )

Importancia: El teorema central del lmite (TCL) nos permite usar la distribucin normal como la distribucin de las medias de muestras grandes, sin interesar cual sea la distribucin original de las variables aleatorias. Teorema. Sea X1, X2,...,Xn una muestra aleatoria de tamao n de variables independientes e idnticamente distribuidas tomadas de una poblacin infinita, con media y varianza

, entonces la distribucin lmite de

es la distribucin normal estndar (0,1), cuando n , (independiente de la distribucin de X1, X2,...,Xn). Otra forma de presentar el TCL es la siguiente: Si X1, X2,...,Xn es una muestra aleatoria de tamao n de variables independientes e idnticamente distribuidas tomadas de una poblacin infinita, con media y varianza

, y si

es la media muestral, entonces su distribucin muestral tiende

a una distribucin normal con media y varianza

/n cuando n.

Ejemplo grfico Con el fin de ilustrar grficamente el TCL presentaremos la distribucin de la media muestral obtenida al lanzar dos dados, en comparacin con la distribucin individual de cada dado. Si X representa el resultado obtenido al lanzar un dado, entonces su funcin de probabilidad est dada por:

con la anterior representacin grfica. Consideremos ahora el lanzamiento de dos dados. Sean X1 y X2 los respectivos resultados. Sea la media respectiva. La tabla siguiente presenta su respectiva distribucin de probabilidad (la cual haba sido analizada previamente al estudiar el concepto de variable aleatoria, y considerar la suma de los dos dados).

Su representacin grfica se presenta en la figura siguiente.

Como se puede observar, el cambio en la forma de la distribucin es bastante notable, al pasar de una distribucin completamente plana (uniforme discreta) a una distribucin que, aunque no es normal, si tiende a

parecerse ms a una distribucin normal que a su distribucin original. Si continuamos promediando ms variables, la distribucin resultante se aproximar an ms a una distribucin. La siguiente grfica presenta los resultados al promediar cuatro lanzamientos de la moneda. Observacin importante: Debe tenerse en cuenta que si n entonces la varianza de (=

/n) tiende a

. Lo que el TCL dice es que cuando el cero, lo cual implica a su vez que tamao muestral es grande, la media de una muestra aleatoria tiende a seguir la distribucin normal. Cundo n es lo suficientemente grande?. En general depende de la distribucin original de la variable aleatoria X; sin embargo, para variables continuas y n 30, la aproximacin normal se aplica, no importa cual sea la distribucin original. Para n< 30 la aproximacin es vlida segn la forma de la distribucin original.
Si la distribucin original es continua y uniforme (por ejemplo el caso de los nmeros aleatorios que van de cero a uno), para que el promedio tienda hacia una distribucin normal, se requieren muestras de por lo menos 10 observaciones (esto se determinado mediante pruebas de bondad de ajuste).

5.12. Distribucin muestral de diferencia de medias


Cada muestra de tamao n que podemos extraer de una poblacin proporciona una media. Si consideramos cada una de estas medias como valores de una variable aleatoria podemos estudiar su distribucin que llamaremos distribucin muestral de medias.

Si tenemos una poblacin normal (m,s) y extraemos de ella muestras de tamao n, la distribucin muestral de medias sigue tambin una distribucin normal

Si la poblacin no sigue una distribucin normal pero n>30, aplicando el llamado Teorema central del lmite la distribucin muestral de medias se aproxima tambin a la normal anterior.

En muchos campos de la investigacin cientfica a menudo deseamos comparar las medias de dos variables aleatorias, tales como el efecto de dos condiciones, tratamientos o mtodos de produccin. Supngase que ahora se tiene 2 poblaciones, la primera con media 1 y varianza 1 , segunda con media y varianza el estadstico x1 representa la media de una muestra
2

aleatoria de tamao n1 seleccionada de la primera poblacin, y que el estadstico x2 representa la media de una muestra aleatoria seleccionada de una segunda poblacin, independiente de la muestra de la primera poblacin. Qu puede decirse acerca de la distribucin muestral de la diferencia x1 - x2 para muestras repetidas de tamaos

n1 y n2 ? De acuerdo al teorema del limite central, las variables x1 y x 2 son aproximadamente distribuidos en forma normal con medias 1 y 2 y variancias

12
n1

2 2

n2

respectivamente. Esta aproximacin mejora conforme n1 y n2 se

incrementan. Con lo anterior podemos concluir:

Si se sacan al azar muestras independientes de tamao n1 y n2 de dos poblaciones


2 2 continuas, con medias 1 y 2 y varianzas 1 y 2 , respectivamente, entonces la distribucin muestral de la diferencia de medias x1 x 2 est distribuida

aproximadamente en forma normal con media y varianzas:

x2

= 1 2

2 x

x2

12
n1

2 2

n2

De aqu que,

Z=

( X 1 X 2 ) ( 1 2 )

12
n1

2 2

n2

es aproximadamente una variable normal estndar.

5.13. Distribucin muestral de la proporcin


En numerosas ocasiones se plantea estimar una proporcin o porcentaje. En estos casos la variable aleatoria toma solamente dos valores diferentes (xito o fracaso), es decir sigue una distribucin binomial y cuando la extensin de la poblacin es grande la distribucin binomial B(n,p) se aproxima a la normal .

Para muestras de tamao n>30, la distribucin muestral de proporciones sigue una distribucin normal

donde p es la proporcin de uno de los valores que presenta la variable estadstica en la poblacin y q=1-p.

5.14.- Distribucin normal de la diferencia de las proporciones


DISTRIBUCIN DE LA DIFERENCIA ENTRE PROPORCIONES. Sea una muestra aleatoria (n1) tomada de un proceso de Bernoulli

una muestra aleatoria (n2) tomada de un con parmetro 1. Sea proceso de Bernoulli con parmetro 2. Estamos interesado en conocer la distribucin de la diferencia de proporciones muestrales P1 - P2.

Sabemos que

se distribuye normalmente con una valor esperado cuando n1 es grande. De forma similar

1 y una varianza

se distribuye normalmente con una valor esperado varianza cuando n2 es grande.

2 y una

Tenemos que:

Como tanto P1 como P2 se distribuyen normalmente, normalmente, entonces su diferencia tambin se distribuyen normalmente con los parmetros arriba mencionados. Es decir,

tambin la variable aleatoria Z definida como

tiene una distribucin normal cuando n1 y n2 son grandes. Si se desea verificar si las dos distribuciones son iguales, se tendra entonces que analizar si 1 = 2 , es decir, 1 - 2 = 0.

5.15. Distribucin muestral de la varianza S2 0 .5 2 P(S2=s2) Distribucin muestral de la Varianza .42 .48 .1 con media (S2 ) y varianza Var(S2 )

P( S 2 = s 2 ) P ( S 2 = 0) = P (1,1)

+ P (2,2) + P (3,3)

= 0.5 * 0.5 + 0.4 * 0.4 + 0.1* 0.1 = 0.42


P ( S 2 = 0.5) = P (1,2) + P (2,1) + P (2,3) + P (3,2)

= 0.5 * 0.4 + 0.4 * 0.5 + 0.4 * 0.1 + 0.1* 0.4 = 0.48 P(S2 = 2) = P (1,3) + P (3,1) = 0.5 * 0.1 + 0.1* 0.5 = 0.10 Obtener la MEDIA de la Distribucin Muestral de la Varianza

( S 2 ) = s 2 = 0 * 0.42 + 0.5 * 0.48 + 2 * 0.10 = 0.44

x2 = Var ( x) = 0.44
E ( S 2 ) = s 2 = 0.44
La media de la distribucin muestral de la varianza es igual a la varianza poblacional La media de la distribucin muestral de la varianza es igual a la varianza poblacional
2 S = Var ( S 2 ) = (0 0.44)2 * 0.42 + (0.5 0.44)2 * 0.48 + (2 0.44)2 * 0.10 = 0.32
2

Var ( S 2 ) =

4
n

3 n 4 n( n 1)

5.16. DISTRIBUCIN DE LA MUESTRAL VARIANZAS

DE LA RELACIN DE

INTERVALOS DE CONFIANZA PARA LA RELACIN DE VARIANZAS DE DOS DISTRIBUCIONES NORMALES Se tienen dos poblaciones normales e independientes con varianzas desconocidas 1 y 2, respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de tamaos n1 y n2, respectivamente; sean S1 y S2 las varianzas muestrales respectivas. Para hallar el intervalo de confianza del 100(1)% para el cociente de dos varianzas sabemos que la siguiente relacin tiene una distribucin muestral F con n1-1 y n2-1 grados de libertad:

Entonces, para construir el intervalo de confianza para la relacin de dos varianzas, nos basamos en la siguiente probabilidad:

Si invertimos el trmino central de la desigualdad anterior, obtenemos lo siguiente:

Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relacin de dos varianzas. Teorema. Si son las varianzas de muestras aleatorias independientes tomadas de poblaciones normales, entonces un intervalo de confianza 100(1-)%

para el cociente de dos varianzas est dado por:

Bibliografa

PROBABILIDAD Y ESTADSTICA SPIEGEL, MURRAY http://bochica.udea.edu.co/~bcalderon/4_relvarianzasnormale s.html Cannavos G. Probabilidad y Estadstica Aplicacin y mtodos. Ed. en espaol Mc GRAW- HILL/INTERAMERICANA DE MEXICO.1995.

http://www.eumed.net/libros/2006a/rmss/a8.htm Devore, J.L. (2000). Probabilidad y Estadstica para Ingeniera y Ciencias, Quinta Edicin, Thomson Learning. Mendenhall, W. (1998). Estadstica para Administradores, Segunda Edicin, Grupo Editorial Iberoamrica. Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadstica Aplicadas a la Ingeniera, Primera Edicin, Mc Graw Hill. Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadstica para Ingeniera, Primera Edicin, Grupo Editorial Iberoamrica. Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill. Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para Ingenieros, Sexta Edicin, Prentice Hall. Weimer, R.C. (1996). Estadstica, Segunda Edicin, CECSA.

ACTIVIDADES complementarios adicionales 1.- La renta media de los habitantes de un pas se distribuye uniformemente entre 4,0 millones ptas. y
10,0 millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentas supere los 725 millones ptas. Cada renta personal es una variable independiente que se ditribuye segn una funcin uniforme. Por ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Lmite. 2.- Una mquina vendedora de refrescos est programada para que la cantidad de refrescos que sirve sea una variable aleatoria con una media de 200 mililitros y una desviacin estndar de 15 mililitros. Cul es la probabilidad de que la cantidad media de refresco servido en una muestra aleatoria de 36 refrescos sea por lo menos 204 mililitros?. Realice los clculos usando la desigualdad de Chebyshev y el TCL