You are on page 1of 11

DISTRIBUCIONES PARA VARIABLES ALEATORIAS

CONTINUAS

Distribución Normal o de Gauss

Introducción
Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y más
utilizada en la práctica es la distribución normal, también llamada distribución
gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas
variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta
distribución. Caracteres morfológicos (como la talla o el peso),
o psicológicos (como el cociente intelectual) son ejemplos de variables de las que
frecuentemente se asume que siguen una distribución normal.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede
explicarse, además, por otras razones. Muchos de los procedimientos estadísticos
habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas
de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general,
esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta
recomendable contrastar siempre si se puede asumir o no una distribución normal. La
simple exploración visual de los datos puede sugerir la forma de su distribución. No
obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que
pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone
procede o no de una distribución normal. Cuando los datos no sean normales, podremos
o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de
restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus
propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la
inferencia estadística.

Dato Histórico
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más
comúnmente, como la "campana de Gauss".
Definición

Se dice que la v.a continua X es una v.a. normal con parámetros  y  2 si su función
de densidad es:
1 x   
2

1 
2   

f ( x)  e ,   x  ......(1)
 2
Se denota X~ N (µ, σ²) y se dice X se distribuye normal con parámetros µ y σ²

Gráfica de la Distribución Normal

Propiedades de la distribución normal

La distribución normal posee ciertas propiedades importantes que conviene destacar:


a). La función siempre es positiva, f(x) > 0 para toda x.
1
b). Tiene una única moda, que coincide con su media y su mediana, cuyo valor es
 2
.
c). La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre  y
 es teóricamente posible.
d). El área total bajo la curva es, igual a 1.
e). Es simétrica con respecto a su media. Según esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
f). La distancia entre la línea trazada en la media y el punto de inflexión (µ-σ y µ+σ) de
la curva es igual a una desviación típica (  ). Cuanto mayor sea  , más aplanada
será la curva de la densidad.
f). El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo.
g). La forma de la campana de Gauss depende de los parámetros  y  . La media
indica la posición de la campana, de modo que para diferentes valores de la gráfica es
desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de  ,
más se dispersarán los datos en torno a la media y la curva será más plana. Un valor
pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribución.

Distribución Normal Estándar


Deduciendo de la última propiedad, no existe una única distribución normal, sino una
familia de distribuciones con una forma común, diferenciadas por los valores de su media
y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar,
que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define
su densidad se puede obtener de la Ecuación 1, resultando:

1 2
1 z
f ( z)  e 2 ,   z  ......(2)
2

Es importante conocer que, a partir de cualquier variable X  N (  ,  ) , se puede obtener


otra característica Z con una distribución normal estándar, sin más que efectuar la
x
transformación: z , donde z  N (0,1) .

Gráfica de la Distribución Normal Estándar

(-) 0 (+) Z
Ejercicios

1. Dada una distribución normal estándar, encuentre el área bajo la curva que está
a) a la izquierda de z = 1.43
b) a la derecha de z = -0.89
c) entre z = -2.16 y z = -0.65
d) a la izquierda de z = -1.39
e) a la derecha de z = 1.96
f) entre z = -0.48 y z = 1.74
2. Una de las estrategias para determinar el manejo de bosques naturales se basa en la
reducción de un porcentaje de los árboles presentes (raleo). Los árboles que se cortan
son los de mayor diámetro. Si la distribución de los diámetros de los árboles sigue una
distribución normal, con media 60 cm y varianza 144 cm2.
a) ¿qué porcentaje de árboles se removerá si se talan todos los árboles con más de 70
cm de diámetro?
b) Si se quiere remover el 30% de los árboles, ¿cuál será el diámetro mínimo para
cortar el árbol?
Ejercicio 3: El caudal de un canal de riego medido en m3/seg es una variable aleatoria
con distribución aproximadamente normal con media 3 m3/seg. y desviación estándar
0.8 m3/seg. A partir de estas referencias calcular la probabilidad de los siguientes
eventos:
a) Evento A: que el caudal en un instante dado sea a lo sumo de 2.4 m3/seg.
b) Evento B: que el caudal en un instante dado esté entre 2.8 y 3.4 m3/seg.
2. Una fábrica de alimentos empaca productos cuyos pesos están normalmente
distribuidos con media de 450 gramos y desviación estándar de 20 gramos. Encuentre
la probabilidad de que un paquete escogido al azar pese entre 425 y 486 gramos.

3. Se regula una máquina despachadora de refresco para que sirva un promedio de 200
mililitro por vaso. Si la cantidad de bebida se distribuye normalmente con una
desviación estándar igual a 15 mililitros,
a) ¿qué fracción de los vasos contendrán más de 224 mililitros?
b) ¿cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
c) ¿cuántos vasos probablemente se derramarán si se utilizan vasos de 230 mililitros
para las siguientes 1000 bebidas?
d) ¿por debajo de qué valor obtendremos 25% de las bebidas más pequeñas?
Importante

Las distribuciones “t” de Student, Chi cuadrado (  2 ) y F, se derivan de la distribución


Normal y están relacionadas con la teoría del muestreo pequeño n < 30.
Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.

Las variables “t”,  2 y F surgen de transformaciones de variables aleatorias en las que


están involucrados estadísticos muestrales, tales como la media y la varianza. En la
práctica, por lo tanto, no podemos decir por Ejemplo que el peso, la altura, etc., se
distribuyen según t”,  2 y F

DISTRIBUCIÓN DE STUDENT O DISTRIBUCIÓN “t”

¿Quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El
verdadero nombre del creador de la t de Student es William Sealy Gosset, (1876 – 1937);
era un matemático y químico inglés.

En muchos casos se seleccionan de una población normal, muestras de tamaño pequeño


n < 30 y  desconocido.

DEFINICIÓN

Una variable con distribución t de Student se define como el cociente entre una variable
normal estandarizada y la raíz cuadrada positiva de una variable  2 dividida por sus
grados de libertad.

La función de densidad de probabilidad de la variable aleatoria “t” está dada por:

 (v  1) / 2 1  t 2 
 ( v 1) / 2

h(t )    ,   t  
 (v / 2)  v  v 
Esta se conoce como la distribución t con grados de libertad.

CARACTERISTICAS

 La distribución se denomina distribución de Student o distribución “t”.


 Cada curva “t” tiene forma de campana con centro en 0.
v
 Es simétrica, con media 0, y variancia mayor que 1. Es decir:  2  ,v  2
v2
 Es más achatada que la normal y adopta diferentes formas, según el número de grados
de libertad.

 La variable t se extiende desde -  a +  .


 A medida que aumenta los (v = n -1, es decir v   ) grados de libertad la distribución
“t” se aproxima en su forma a una distribución normal estándar. Por lo que la curva
“z” recibe a veces el nombre de curva “t” con gl = grande “  ”.

 El parámetro de la distribución es (v = n-1) grados de libertad, originando una


distribución diferente para cada tamaño de muestra.

¿Cómo se deduce una distribución de “t”?

 Extraigo K muestras de tamaño n < 30.


 Calculo para cada muestra el valor de “t”.
 Grafique la distribución para cada tamaño muestral

Distribución “t” para diferentes grados de libertad (n-1)


Ejemplo:

a) Encuentre la probabilidad de –t0.025 < t < t0.05.

b) Encuentre k tal que P (k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño
15 que se selecciona de una distribución normal.

c) Un ingeniero químico afirma que el rendimiento medio de la población de cierto


proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta
afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre
–t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería de una
muestra que tiene una media de 518 gramos por milímetro y una desviación estándar
de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente
normal.

d) Calcular el percentil t0,95 y t0,25 en cada uno de los siguientes casos:

1. En una distribución t-Student con 3 grados de libertad.


2. En una distribución t-Student con 30 grados de libertad.
3. En una distribución t-Student con 52 grados de libertad.
4. En una distribución t-Student con 120 grados de libertad.
INTRODUCCIÓN

A LA

INFERENCIA ESTADÍSTICA

El proceso de Inferencia Estadística permite extraer conclusiones


científicamente válidas acerca de la población a partir de los resultados muéstrales
(obtenidos a través de la estadística descriptiva).

El propósito de la inferencia estadística es realizar:

- Estimación de Parámetros

- Contraste de Hipótesis

Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.

Estimación puntual de µ

En base al resultado de la muestra particular de tamaño n, una estimación puntual de µ


sería el valor numérico que toma X en dicha muestra.

En nuestro ejemplo, a partir de una muestra de n=50 planchas de acero. Daríamos como
estimación del peso medio poblacional o teórico, X = 215 Kg.

Inconveniente(s):

 La estimación puntual depende de la muestra particular que se obtenga.


 Existe una incertidumbre total, acerca de la proximidad (lejanía) del valor puntual a la
media poblacional o teórica.
Sin embargo

Conocemos la distribución de la medias muéstrales bajo ciertas condiciones sobre la


población de partida.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

a) Si asumimos que X → N (µ, σ), σ → conocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen


según una distribución normal (campana de Gauss):

X 
X  N ( , X )  Z   N (0,1)
X
Donde:  X es el error típico o desviación estándar de la media muestral.

b) Si asumimos que X → N (µ, σ), σ desconocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen


según una distribución t-student con n-1 grados de libertad (gl)
X 
X  N ( , sX )  T   tn 1
sX
Donde: S X es el error típico o desviación estándar de la media muestral.

Nota: (Error estándar o Error típico de la media)


   conocida
x   Tamaño de población (N) demasiado grande
n o infinita.
 N n   conocida
x   Tamaño de población (N) conocido o finita.
n N 1
S   desconocida, entonces   S
Sx   Tamaño de población (N) demasiado grande
n
o infinita.
S N n   desconocida, entonces   S
Sx   Tamaño de población (N) conocida o finita.
n N 1

Estimación por Intervalo de confianza para µ

Supongamos que de una población normal con media desconocida  y varianza conocida
o desconocida  2 se extrae una muestra de tamaño n, entonces de la distribución de la
media muestral X se obtiene que, lleva asociado un error típico de dicho estadístico de
lo que ha de tenerse en cuenta para valorar la precisión de una estimación puntual.
Idea

Construir intervalos de confianza, basado X , que contenga “con alta probabilidad” el


parámetro µ.
Caso I: X → N (µ, σ), σ conocida

El Intervalo de confianza para µ es:

X  Z1 / 2 *  X    X  Z1 / 2 * X

Con un nivel de confianza del 1   .

Caso II: X → N (µ, σ), σ desconocida

El intervalo de confianza para µ es:

X  t1 / 2;n1 * S X    X  t1 / 2;n1 * S X

Con un nivel de confianza del 1   .


Tamaño de muestra

Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si  se estima por x , el error de estimación no sea mayor que un valor dado e. En
efecto:

 Tamaño de población (N) demasiado grande


Z 2  * 2 o infinita.
1  Si la desviación estándar ( 
) es
n 2
desconocida, se estima por la desviación
e2 estándar muestral (S) hallado a partir de una
muestra piloto.

Z 2  * 2 * N  Tamaño de población (N) conocida o finita


1  Si la desviación estándar ( 
) es
n 2

Z 2  * 2  e 2 ( N  1) desconocida, se estima por la desviación


estándar muestral (S) hallado a partir de una
1
2
muestra piloto.
Ejercicio
Considerar la variable rendimiento de maíz, cuya distribución es normal con media μ y desviación
estándar σ. Para estimar el rendimiento promedio del maíz bajo el efecto de un herbicida, se toma
una muestra de tamaño 40 y se obtiene un promedio de 60 qq/ha. Se sabe por experiencias
anteriores que la varianza poblacional σ2 es 25 (qq/ha)2.
a) Construir los intervalos de confianza del 95% y 99% para μ.
b) ¿Cómo cambia el intervalo anterior (95%) si el tamaño de la muestra fuese 100 y se obtiene el
mismo promedio?
c) ¿Cómo se modifica el intervalo del 95% calculado en a) si la desviación estándar fuese de 7
qq/ha.?

Ejercicio
Se desea establecer el contenido vitamínico de un alimento balanceado para pollos. Se toma una
muestra de 49 bolsas y se encuentra que el contenido promedio de vitaminas por cada 100 grs. es
de 12 mg. y que la desviación estándar es de 2 mg. Encontrar el intervalo de confianza del 95%
para el verdadero promedio del contenido de vitaminas.

Ejercicio
Para estimar el rendimiento promedio del trigo en un departamento del sur cordobés se
relevan los campos de distintos productores mediante un esquema de muestreo aleatorio
simple. Se conoce por experiencias anteriores que  es igual a 0.7 qq/ha y que el
promedio histórico es 26 qq/ha.
1) ¿Qué número de campos se deben evaluar para estimar la media de rendimiento con
una confianza del 95% si la amplitud del intervalo no debe ser mayor que el 2.5% del
promedio histórico?
2) Si la varianza de la distribución aumenta (proponga =1.4), ¿aumenta o disminuye el
tamaño muestral necesario para mantener la misma amplitud? Justificar la respuesta.