You are on page 1of 38

La

La
Distribuci
Distribuci

n
n
Normal
Normal
y su uso en
y su uso en
la Inferencia Estad
la Inferencia Estad

stica
stica
Los conceptos bsicos de Probabilidad Probabilidad y de Distribuciones Distribuciones Muestrales Muestrales
sirven como introduccin al mtodo de Inferencia Estadstica; esta se
compone en dos reas:
Estimaci Estimaci n n
Pruebas Pruebas de de Hip Hip tesis tesis
La estimacin busca evaluar los valores de los parmetros de la
poblacin (por ejemplo la media y la desviacin estndar) basados en una
muestra.
Las pruebas de Hiptesis constituyen un proceso relacionado con
aceptar o rechazar alguna afirmacin acerca de los parmetros de la
poblacin.
Ejemplo.
Supngase que un fabricante de lpices compra a un proveedor borradores para
pegarlos a los lpices. El fabricante tiene que decidir si cada lote de borradores
del proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o
menos de borradores defectuosos.
Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene
una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o
menos borradores defectuosos en la muestra, aceptar un lote; si hay ms de 3
defectuoso rechazar el lote y lo de volver al proveedor.
Sin embargo, si acepta un lote cuando ste contiene ms del 15% de borradores
defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando
contiene menos del 15% de borradores defectuosos, tambin ha cometido un
error.
Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado
de responder a la pregunta tiene el lote una proporcin de lpices defectuoso
tan grande que sea necesario rechazarlo?
Al responder a lo anterior, el fabricante de lpices ha tomado una decisin acerca
de la proporcin de defectos en la poblacin general, ya que la proporcin en la
poblacin es un parmetro de la poblacin y las decisiones acerca de los
parmetros de la poblacin constituyen el proceso de pruebas de hiptesis, en
realidad el fabricante ha realizado la tarea de probar una hip probar una hip tesis tesis.
Si el fabricante est interesado en estimar la verdadera proporcin de defectos
con base a su informacin muestral, tendr que intentar responder a la pregunta
Esta pregunta corresponde a lo que se llama Estimaci Estimaci n n.
Con base en la muestra
Qu afirmacin puedo hacer
acerca de la proporcin de la
poblacin que es defectuosa ?
Al hacer mediciones de cualquier tipo y distribuir nuestros
resultados bajo algn criterio, es muy comn encontrar que los
datos se agrupen de manera muy caracterstica.
En muchos de estos casos veremos que dichas distribuciones
siguen una forma muy particular en la que tenemos un mayor
nmero de observaciones para cierto valor, disminuyendo la
cantidad de observaciones a ambos lados de la observacin ms
frecuente.
Un ejemplo es al dejar caer
canicas por entre una serie
clavos como lo muestra la
figura, al final del
experimento con muchas
canicas tendremos que las
canicas se han agrupado
como se ve en la figura.
Porqu Porqu es es normal la normal la distribuci distribuci n n Normal? Normal?
Ejercicio interactivo: Mquina de Galton
A este tipo de distribucin se le conoce como Distribucin Gaussiana,
ya que el matemtico alemn Karl F. Gauss (1799-1830) fue quien la
describi de manera analtica.
La forma de sta funcin es parecida a la de una campana, por eso
tambin se conoce como campana de Gauss.
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
-3.09
0.999
0
Distribucin Normal
Es tan comn encontrar esta distribucin en tan diversas ramas del
conocimiento, que tambin se le da el nombre de Distribuci Distribuci n n
Normal Normal. La aportacin de Gauss se honraba en los billetes de los
marcos alemanes (antes de los Euros) como uno de sus
descubrimientos ms trascendentales.
La distribucin Gaussiana se aplica a una gran gama de observaciones en
ramas como la biologa, la geografa, la astronoma y por supuesto la
economa.
Muchos ejemplos de la naturaleza se pueden aproximar con una
distribucin normal.
En general esto se puede pensar como resultado de la interaccin de
muchos (o un gran nmero) efectos aleatorios en la variable que se
estudia.
Por ejemplo, si medimos el tamao de las hojas de un rbol, veremos que
tienden a distribuirse en forma gaussiana.
Ejercicio interactivo: Jugando con la distribucin normal
Pero a qu se debe esta aparentemente sorprendente resultado?
Estas distribuciones son el resultado del agregado agregado de muchos procesos
azarosos o fortuitos que podran no ser observables individualmente.
Matemticamente esta distribucin obedece a lo que se conoce como el
Teorema del L
Teorema del L

mite Central
mite Central.
Este teorema estipula que si tomamos muestras de una poblacin que
tenga cualquier tipo de distribucin, pero una media y varianza
finitas, entonces, la distribucin de las medias tiende a la distribucin
normal. Entre mayor sea el nmero de muestras mejor ser la
aproximacin a una distribucin normal.
Por ejemplo, si nos tiramos un dado la probabilidad de que caiga
cualquier nmero es 1/6. Esto implica una distribucin de
posibilidades de la siguiente forma (x es el nmero o cara):
P
1 2 3 4 5 6 x
1/6
Esta es una Distribuci Distribuci n de Probabilidad Uniforme n de Probabilidad Uniforme que, como se
ve, es la misma probabilidad para todos los valores que toma la
variable
Ahora imaginemos que tiramos un dado 500 veces y tomamos el
nmero total de puntos de cada tirada, entonces decimos que N = 1,
y las sumas de cada tirada las distribuimos como en la figura.
Ahora lo hacemos con 4 dados (N = 4), y luego con 7 y con 10.
Al final tendremos las siguientes distribuciones:
Notemos que conforme vamos aumentando el nmero de muestras muestras
la distribucin se acerca ms a una distribucin normal.
Ejemplo interactivo: distribucin muestral
Entre las propiedades agradables de la distribucin normal, est el
hecho de que
La distribuci La distribuci n normal de una suma o diferencia (que en n normal de una suma o diferencia (que en
general es lo mismo) de distribuciones normales es tambi general es lo mismo) de distribuciones normales es tambi n n
normal. normal.
Si tenemos que:
Otro motivo por el cual as distribuciones normales son muy
utilizadas es que tienen muchas propiedades propiedades muy convenientes. Por
eso, si las variables aleatorias que nos interesan tienen
distribuciones desconocidas, podemos hacer inferencias iniciales
suponiendo distribuciones normales.
y
Y la correlacin entre x
1
y x
2
es , entonces:
Debido a todo lo anterior esta distribucin es muchas veces el modelo
de partida de los anlisis de los datos. Aunque cuando no podemos
generalizar, muchas veces la podremos utilizar como una buena
aproximacin a la realidad.
Y tambin:
Distribuci Distribuci n Normal Est n Normal Est ndar o tipificada. Calificaci ndar o tipificada. Calificaci n Z n Z. .
Una de las consecuencias del Teorema del Lmite Central es que dada una
poblacin con media my para n lo bastante grande, la distribucin de la
variable
es una distribucin normal.
donde:
es la observacin que estamos queriendo analizar
es el valor de la media de la muestra
s es el valor de la desviacin estndar de la muestra
Si nos fijamos en la frmula el valor de Z es la distancia de la la distancia de la
observaci observaci n a la media en unidades de desviaci n a la media en unidades de desviaci n est n est ndar ndar, es decir, a
cuntas desviaciones estndar est alejada nuestra observacin de la
media.
i
x x
Z
s

=
i
x

x
Veamos qu significa esto en una grfica:
3 2 1 0 -1 -2 -3
0.4
0.3
0.2
0.1
0.0
Z
D
e
n
s
i
d
a
d
Normal estndar
Media=0, Desv Est=1
Una desviacin estndar
Dos desviaciones estndar
d) Qu significa este resultado?
Actividad 1 Si nos dicen que una poblacin tiene una media de 23 y
una desviacin estndar de 3.5, encontrar la calificacin Z de
a)26.6, b) 16, c)19.5 d) 29:
a) lo que significa que 26.6 est a 1.03
desviaciones estndar a la derecha a la derecha de la media (porque es positivo).

03 . 1
5 . 3
23 6 . 26
=

= Z
b) lo que significa que la observacin est
a 2 desviaciones estndar a la izquierda a la izquierda de la media (porque es
negativo).
16- 23
Z = = -2
3.5
c) Qu significa este resultado?
19.5- 23
Z = = -1
3.5
72 . 1
5 . 3
23 29
=

= Z
Si cambiamos todos los valores observados a calificaciones Z, entonces
podemos crear una distribucin normal genrica llamada distribucin
normal estndar o tipificada en donde
la media, que est la media, que est en el centro de la curva, nos queda en el valor en el centro de la curva, nos queda en el valor
0 0
la desviaci la desviaci n est n est ndar es ahora igual a 1 y ndar es ahora igual a 1 y
el el rea bajo la curva tambi rea bajo la curva tambi n es igual a la unidad n es igual a la unidad lo que equivale al
total de los casos de la poblacin estudiada, es decir,
De este modo, la porcin de rea bajo la curva, limitada por dos
ordenadas o perpendiculares levantadas en puntos del eje X, expresan el
porcentaje de casos que quedan comprendidos entre las calificaciones Z
correspondientes a los puntos sobre los que se trazan las ordenadas.
Vemoslo en el siguiente diagrama.
El El rea total rea total = = 1 corresponde al 100% de los casos, y porciones del 1 corresponde al 100% de los casos, y porciones del
rea son proporcionales a porcentajes parciales de la muestra. rea son proporcionales a porcentajes parciales de la muestra.
La Regla del 68 95 - 99.7%
Todas las curvas o distribuciones de densidad normal satisfacen la
siguiente propiedad a la cual comnmente se le refiere como la
Regla Emprica.
68%
de las observaciones caen dentro de 1 desviaci 1 desviaci n n est est ndar ndar de la de la
media media, o sea, entre - y + .
95%
de las observaciones caen dentro de 2 desviaciones 2 desviaciones est est ndar ndar de la de la
media media, o sea, entre - 2 y + 2 .
99.7%
de las observaciones caen dentro de 3 desviaciones 3 desviaciones est est ndar ndar de la de la
media media, o sea, entre - 3 y + 3 .
Podemos ver que casi casi todas todas las observaciones caen dentro de
3 3 desviaciones desviaciones est est ndar ndar de la media y m m s s del 95% del 95% caeran a
2 2 desviaciones desviaciones est est ndar ndar de la media
Valores o calificaciones z
-3 -2 -1 0 1 2 3
2.15% 13.59% 34.13% 34.13% 13.59% 2.15%
El rea correspondiente a
una distancia de 1
desviacin estndar de la
media (a ambos lados) es
de aproximadamente 68%
Porcentajes del rea total o
porcentajes de la poblacin o
probabilidad
De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se
encuentra el 34.13% de los casos, es decir que el rea bajo la curva es
0.3413, o lo que significa que el 68.26% de la poblacin est alejada de la
media a lo ms una desviacin estndar. O que solamente el 4.30% de los
casos estn ms all de dos desviaciones estndar de la media.
Existen tablas que nos ayudan a obtener los porcentajes de casos entre
diferentes calificaciones Z y la media.
Sin embargo se debe tener mucho cuidado de ver cul es el rea bajo la
curva que nos dan, porque se tabula de forma diferente en los libros,
algunos la dan a partir de 0 y otros a partir de -

.
Ejemplos:
1.Si queremos encontrar el rea bajo la curva comprendida entre las
calificaciones estndar de los incisos a) y d) anteriores, buscamos en la
tabla los valores que corresponden:
R e gl a e m pri ca
-4 -3 -2 - 1 0 1 2 3 4
z
f
(
z
)
para Z = 1.03 el rea bajo la curva es 0.8485
para Z = 1.72 el rea bajo la curva es 0.9564
lo que nos da un rea de 0.9564-0.8485 = 0.1079
Esto quiere decir que el 10.79% est entre los valores 26.6 y 29 (recordar que el
rea total =1 equivale al 100% de los casos).
z
Que porcentaje de datos podramos esperar con valores mayores a 29?
para Z = 1.72 el rea bajo la curva es 0.9564
lo que nos da 1 0.9564 = 0.0436 o sea 4.36%
10.79%
z
95.64%
2. Encontrar el rea bajo la curva entre las calificaciones Z = -2 y Z = -1
Como en unas tablas no nos dan el rea del lado izquierdo podemos usar los valores
del lado derecho y el rea es la misma porque la curva es simtrica.
Para Z = 2 el rea bajo la curva es 0.9772
para Z = 1 el rea bajo la curva es 0.8413
lo que nos da un rea entre medio de ellas de 0.9772-0.8413 = 0.1359
z
C C lculo de Probabilidades lculo de Probabilidades
Antes de pasar a usar los conceptos anteriores tenemos que definir
qu es la probabilidad. Podemos pensar en este concepto de dos
maneras:
1. Si conocemos todos los resultados posibles de un experimento u
observacin, y queremos saber el porcentaje de que ocurra un cierto
tipo de resultado, entonces llamamos probabilidad a:
( )
Nmero de resultados de un cierto tipo n
P A
Nmero de resultados totales N

= =

Actividad No. 1:
Al tirar dos dados queremos ver la probabilidad de que salga el nmero
4 al sumar los puntos.
En este caso el nmero total de resultados es 36, por lo tanto N=36
El nmero de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3
Es la probabilidad de que la suma de los puntos de dos dados sea = 4
3 1
( )
36 12
n
P A
N
= = =
Si embargo, algunas de estas sumas se repiten, por lo que podemos
hacer una tabla como la siguiente
Valores
de la suma
(x)
Nmero
de
casos
Probabilidad
P(x)
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/26
Total 36 1.0
Si ahora hacemos un histograma con los valores de las sumas y sus
probabilidades, tendremos lo siguiente
Esto es lo que llamaramos a una distribuci distribuci n de probabilidad n de probabilidad para la
suma de dos dados. La cual, por cierto, en este caso se aproxima a una
distribucin normal.
2. La otra manera de pensar en el concepto de probabilidad es por
medio de la idea de frecuencia.
Si realizamos un experimento muchas veces (tantas como sea posible)
entonces
La diferencia con la forma anterior es que ahora no conocemos todos
los posibles casos, sino que los medimos con base en una serie de
experimentos. Como puede pensarse, en esta situacin tendremos una
aproximacin a la probabilidad buscada, la cual es mejor mientras
mayor sea el nmero de experimentos.
( )
Nmero de resultados de un cierto tipo n
P A
Nmero de resultados totales N

= =

Actividad 1. Si se tiene una media de 156 y una desviacin estndar de 15,
encontrar las calificaciones Z para:
a) 144
b) 167
c) 173
d) 136
Encontrar el rea bajo la curva entre las calificaciones Z de:
a) y b)
b) y c)
b) y d)
Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de
estadstica pero hay que fijarse si se tabula la curva completa o slo la
mitad.
El concepto de calificacin Z estudiado nos va a
ayudar para calcular probabilidades de que
ocurra un cierto caso referido a la media de la
poblacin, como veremos a continuacin.
Actividad 2. Resolver los siguientes problemas
El promedio de estudiantes inscritos en jardines de nios es de 500 con una
desviacin estndar de 100. El nmero de alumnos tiene una distribucin
aproximadamente normal. Cul es la probabilidad de que el nmero de
alumnos inscritos en una escuela elegida al azar est:
a) entre 450 y 500
b) entre 400 y 640
= 500, = 100


a)

5 . 0
100
500 450
1
=

= z 0
2
= z


P(450 < x < 500 ) = [(0.5)]- [(0)]
= 0.6915-0.5
= 0.1915

Respuesta: la probabilidad es de 19.15%
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
-0.5
0.191
0
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.1915
b) entre 400 y 640
= 500, = 100


b)

1
100
500 400
1
=

= z 4 1
100
500 640
2
. z =

=


P(400 < x < 640 ) = (1)- [1-(1.4)]
= 0.8413-(1-.9192)
= 0.8413-0.0808
= 0.7605

Respuesta: la probabilidad es de 76.05%
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
-1
0.761
0 1.4
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.7605
Se ha determinado que la vida til de cierta marca de llantas radiales tienen
una distribucin normal con un promedio de 38,000 kilmetros y
desviacin estndar de 3,000 kilmetros
a)Cul es la probabilidad de que una llanta elegida al azar tenga una
vida til de cuando menos cuando menos 30,000 kilmetros?
b)Cul es la probabilidad de que dure 40,000 kilmetros o m o m s s?
= 38,000 , = 3000


a)

666 . 2
3000
38000 30000
1
=

= z


P(x > 30,000 ) = (2.67)
= 0.9962


Respuesta: la probabilidad es de 99.62%
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
-2.666
0.996
0
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.9962
b)

666 . 0
3000
38000 40000
1
=

= z


P(x > 40,000 ) = 1- (0.67)
= 1-0.7486
= 0.2514



b)Cul es la probabilidad de que dure 40,000 kilmetros o m o m s s?
Respuesta: la probabilidad es de 25.14%
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
0.666
0.253
0
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.2514
Un distribuidor hace un pedido de 500 de las llantas especificadas en el
problema anterior. Aproximadamente cuntas llantas durarn
a) entre 30,000 y 40,000 kilmetros
b) 38,000 kilmetros o ms
74.86% de 500,
0.7486x500 = 374.3
a)

666 . 2
3000
38000 30000
1
=

= z 666 . 0
3000
38000 40000
2
=

= z

P(30000 < x < 40000) = (0.67) [1- (2.67)]
= 0.7486 (1 0.9962)
= 0.7486

0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
-2.666
0.743
0 0.666
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.7486
Actividad 3.
El tiempo promedio que tarda un paciente en llevar a cabo un test
psicolgico es de 12 min con una desviacin estndar (o tpica) de 2
min. Se considera que tiene una distribucin normal.
a) Si se selecciona al azar un estudiante Cul es la probabilidad de
tarde 15 min o ms?
8. 12, 2 = =
a) ) 15 ( x P
5 . 1
2
3
2
12 15
= =

= Z

) 5 . 1 ( 1 ) 15 ( = x P
9332 . 0 1 =
0668 . 0 =
La probabilidad es del 6.68%

0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
1.5
0.0668
0
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.0668
b) Si en una universidad hay 10000 estudiantes Cuntos tardarn ms
de 11 min?
b) ) 11 ( x P
5 . 0
2
1
2
12 11
= =

= Z

6915 . 0 ) 11 ( = x P
915 , 6 000 , 10 6915 . 0 =






0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
t
y
-0.5
0.691
0
Distribution Plot
Normal, Mean=0, StDev=1
rea = 0.6915
El nmero estimado de estudiantes que tardarn ms de 11 min. en resolver
el test es de 6,915
TAREA 3
Supngase que la duracin promedio de las estancias de los pacientes en
un hospital es de 10 das con una desviacin estndar de 2 das.
Considrese que la distribucin de las duraciones est normalmente
distribuida.
a) Cul es la probabilidad de que el prximo paciente que se reciba
permanezca ms de 11 das?
b) Si el da de hoy se admitieran 200 pacientes Cuntos continuarn en
el hospital despus de 2 semanas?

You might also like