You are on page 1of 24

Metodos Estadsticos II Sabando/Villa Cox/Meja

Apuntes de Clase # 3
Fecha: II Termino-2012

4. Estimacion
4.1. Preliminares
Objetivo: Familiarizarse con las tecnicas estadsticas que permiten extraer conclusiones acerca
de los parametros de una poblacion a partir de datos experimentales.

Definicion 4.1.1 La inferencia estadstica es el conjunto de metodos por los que se realizan
generalizaciones acerca de una poblacion.

Nota: Existen dos metodos que se utilizan para realizar inferencias estadsticas: El metodo clasico
y el metodo bayesiano, en este curso se profundizara sobre el metodo clasico.
Definicion 4.1.2 El metodo clasico de estimacion es aquel que basa la inferencia estadstica
estrictamente en la informacion que se obtiene de una muestra.

Definicion 4.1.3 Se llama estimacion puntual al proceso de utilizar el valor de un estadstico


(definicion 3.1.4) para estimar un parametro poblacional. Al estadstico del cual se obtiene este valor
se lo llama estimador puntual, y al valor obtenido punto estimado.

Nota: Se habla de puntual para diferenciar de la estimacion por intervalos que se estudiara mas
adelante.

Ejemplos:
Utilizar el valor que toma X para estimar la media de la poblacion.
Considerar a una proporcion muestral observada como estimador del parametro de una
distribucion bernoulli.

Nota: A menos que se indique algo diferente, por estimador se entendera estimador puntual y
por estimado se entendera punto estimado.

4.2. Propiedades deseables de un estimador


Los estimadores, al ser una funcion de una muestra aleatoria (definiciones 4.1.3 y 3.1.4), son
variables aleatorias y por tanto no pueden brindar informacion exacta sobre el parametro que
tratan de estimar.
Para cada parametro existe un numero infinito de estimadores.

En esta seccion se expondra un conjunto de criterios que permitiran calificar los meritos de
cada uno de los posibles estimadores de un parametro.

4.2.1. Insesgadez
Definicion 4.2.1 Un estadstico
b es un estimador insesgado del parametro si

E()
b =

A3-1
Ejemplo 4.2.1 S 2 , definido como
Pn
X)
i=1 (Xi
S2 =
n1
es un estimador insesgado de la varianza poblacional 2

Demostracion Como parte de la demostracion del segundo postulado del teorema 3.4.7 se puede
establecer que " n #
Pn 2
(Xi X) 1 X
S2 = i=1
= (Xi )2 n (X )2
n1 n 1 i=1
a partir de este punto
 Pn
X)2

i=1 (Xi
E(S 2 ) = E
n1
" n #
1 X
2 2
= E(Xi ) n E(X )
n1 i=1

y puesto que
2
E(Xi )2 = 2 y E(X )2 =
n
entonces
2
 
2 1 2
E(S ) = n n
n1 n

E(S 2 ) = 2 //
QED

Definicion 4.2.2 (Sesgo) Sea


b un estimador de , el sesgo del estimador esta definido como

b(, b
b ) = E()

b 6= 0 entonces se dice que


Si b() b es un estimador sesgado de

Definicion 4.2.3 (Insesgadez asintotica) Sea b un estimador sesgado de , se dice que b es


asintoticamente insesgado si el lmite del sesgo tiende a cero cuando n tiende a infinito

lm b(,
b ) = 0
n

Nota: Todo estimador insesgado es tambien asintoticamente insesgado.

Ejemplo 4.2.2 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de la poblacion dada por


 (x)
e para x >
f (x) =
0 en otro caso

entonces X es un estimador sesgado de

Demostracion El teorema 3.3.1 establece que E(X) = E(X). Por otro lado, se tiene que la
esperanza de X es igual a Z
E(X) = xe(x) dx = 1 +

A3-2
para demostrarlo se utilizara el metodo de integracion por partes.
Z Z
u dv = uv v du

Sea
u=x y por tanto du = dx
dv = e(x) dx y por tanto v = e(x)
entonces
Z Z
xe(x) dx = xe(x) e(x) dx


x

= (x) e(x)

e
 
x
= [0 1]
e(x) x=
x
Como (x) evaluado en x = es una indefinicion de la forma
se puede aplicar la regla de LHopital
e
obteniendose finalmente que


Z  
1
xe(x) dx

= +1
e(x) x=

= [0 ] + 1
Z
xe(x) dx = 1+ //
QED

Por tanto X es un estimador sesgado de , que es lo que se quera demostrar. En particular, el sesgo
esta dado por
b(X, ) = E(X) = (1 + ) = 1 //
R

Nota: Del ejercicio anterior se puede concluir que Ye = X 1 es un estimador insesgado de


. Por supuesto, en la mayora de los casos no es posible pasar de un estimador sesgado a uno inses-
gado por el simple conocimiento del sesgo.

Ejemplo 4.2.3 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-
tonces Pn 2
2 i=1 Xi X

e =
n
2
es un estimador sesgado de , pero asintoticamente insesgado.

Demostracion Siguiendo un procedimiento similar al del ejemplo 4.2.1 se tendra que


" Pn 2 #
2 i=1 Xi X
E(e
) = E
n
n
1X 1
E(Xi X)2 = n 2 2

=
n i=1 n
 
n1
2 )
E(e = 2
n
e2 es un estimador sesgado de 2 con sesgo igual a
lo que demuestra que
 
n1
e2 , 2 e2 2 = 2 2
 
b = E
n
 
n1 1
= 2 1 = 2
n n
No obstante, este sesgo tiende a cero cuando n tiende a infinito
 
2 2
 1 2
e , = lm = 0
lm b
n n n

A3-3
e2 es un estimador asintoticamente insesgado de 2 .
Por tanto
Ejemplo 4.2.4 Dada una muestra aleatoria X1 , X2 , . . . , Xn . El estimador X
e = Xi es un estimador
insesgado de la media poblacional , para cualquier i {1, 2, 3, . . . , n}

Demostracion La esperanza de un elemento cualquiera de la muestra (el elemento i) es igual a

E(Xi ) =

e = Xi para cualquier i {1, 2, 3, . . . , n} es un estimador insesgado de .


En conclusion, X

4.2.2. Eficiencia relativa


Definicion 4.2.4 Si
b1 y b 2 son dos estimadores insesgados del parametro de una poblacion
dada y la varianza de b 1 es menor que la varianza de b 2 , entonces
b 1 es relativamente mas
eficiente que
b2

Teorema 4.2.1 La varianza de todos los estimadores insesgados cumple la siguiente propiedad
conocida como la Desigualdad de Cramer-Rao
 
b 1
Var " 2 #
ln f (X; )
nE

donde es el conjunto de parametros que definen la poblacion, f (x) es el valor de la funcion de


densidad en x y n es el tamano de la muestra aleatoria.

Teorema 4.2.2 Si
b es un estimador insesgado de y
  1
Var
b = " 2 #
ln f (X; )
nE

entonces
b es un estimador insesgado de varianza mnima de

Nota: La cantidad en el denominador se conoce como la informacion sobre que proporciona


la muestra. As, mientras menor sea la varianza mayor es la informacion.

Definicion 4.2.5 Si
b es un estimador de que cumple con el teorema 4.2.2 entonces
b es el
estimador insesgado mas eficiente de .

Nota: Cuando simplemente se dice que un estimador es el mas eficiente usualmente es implcito
que se esta hablando de el estimador insesgado mas eficiente.

Ejemplo 4.2.5 X es un estimador insesgado de varianza mnima de la media de una poblacion


normal.

Solucion: La funcion de densidad de la distribucion normal esta dada por


1 x 2
e 2 ( )
1
f (x; , 2 ) =

2 2
Se requiere calcular " 2 # " 2 #
ln f (X; ) ln f (X; , 2 )
E =E

A3-4
Para tal efecto se requiere hacer los siguientes calculos
h i 1  x 2
2
ln f (x; , ) = ln 2
2
ln f (x; , 2 )
 
1 x
=

Reemplazando valores
" 2 # " 2 #
ln f (X; , 2 ) 1 x 1
E = 2E =
2

Finalmente se ha obtenido que un estimador insesgado de tendra como mnimo una varianza de

1 1 2
" 2 # = 1
=
n
ln f (X; , 2 ) n 2
nE

Dado que esta es justamente la varianza del estadstico X, el cual es un estimador insesgado de
, se concluye que para poblaciones normales X es un estimador insesgado de varianza mnima de
. (Recuerdese que no se puede generalizar que X sea el estimador mas eficiente de la media de
cualquier poblacion)

Definicion 4.2.6 (Eficiencia asintotica) Un estimador


b es asintoticamente eficiente si su
varianza tiende a cero cuando n tiende a infinito

lm Var()
b =0
n

Observaciones 4.2.1 Sean


b1 y
b 2 dos estimadores insesgados de

La eficiencia relativa de
b 1 respecto a
b 2 no implica que
b 1 sea el estimador mas eficiente
de .
Si
b 1 es el estimador mas eficiente entonces
b 1 tambien sera asintoticamente eficiente.

Si
b 1 no es asintoticamente eficiente entonces
b 1 tampoco puede ser el mas eficiente.

Los dos puntos anteriores requieren que la informacion que la muestra provee sobre el parame-
tro sea diferente de cero.

Ejemplo 4.2.6 X e = Xi para cualquier i {1, 2, 3, . . . , n} es un estimador insesgado de pero no


es asintoticamente eficiente.

Demostracion La varianza de X
e esta dada por

e = Var(Xi ) = 2
Var(X)

Dado que la varianza del estimador no tiende a cero a medida que n tiende a infinito se concluye
que el estimador no es eficiente.
e = lm 2 = 2 6= 0
lm Var(X)
n n

Ejemplo 4.2.7 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-
tonces Pn 2
2 i=1 Xi X
S =
n1
es un estimador insesgado de 2 , su varianza no es mnima (es mayor al lmite inferior de Cramer-
Rao), pero es asintoticamente eficiente.

A3-5
Solucion: En el ejemplo 4.2.1 ya se demostro que S 2 es un estimador insesgado de 2 . Queda por
demostrar que este estimador no es de varianza mnima para una poblacion normal. En particular,
se necesitara calcular
" 2 # " 2 #
ln f (X; ) ln f (X; , 2 )
E =E
2
Para esto, se tiene que
2
1   1 (x )
ln f (x; , 2 ) = ln 2 2
2 2 2 " #
2
ln f (x) 1 1 2 1 (x )
= 2 + 4 (x ) = 1
2 2 2 2 2 2

por lo que
" ( #)2
2 # "
2
ln f (X; , 2 ) 1 (x )
E = E 1
2 2 2 2
( )
4 2
1 (x ) (x )
= E 2 +1
4 4 4 2
h i h i
4 2
1 E (x ) E (x )
= 2 + 1
4 4 4 2
 4
2

1 3 1
= 2 + 1 = (2)
4 4 4 2 4 4
1
=
2 4
Se concluye que para una poblacion normal, un estimador insesgado de varianza mnima de 2
tendra una varianza de
1 1 2 4
= =
1
" 2
#
ln f (X; , 2 )
 n
nE n 4
2 2

Se procede ahora a calcular la varianza de S 2 , y para tal efecto se sabe por el teorema 3.4.7 que
(n 1)S 2
  h i
Var 2
= Var 2(n1)

2
(n 1)
Var(S 2 ) = 2(n 1)
4
por lo tanto
2 4 2 4
Var(S 2 ) = 6=
n1 n
finalmente se calcula el lmite de la varianza del estimador cuando n tiende a infinito.
2 4
lm Var(S 2 ) = lm =0
n n n 1

Lo cual demuestra que S 2 es un estimador insesgado que no tiene varianza mnima pero que es
asintoticamente eficiente. (o S 2 solo es eficiente asintoticamente)

Nota: Si la media poblacional fuera conocida, entonces un estimador insesgado de varianza


mnima para una poblacion normal sera
n 2
X (Xi )
b2 =

i=1
n

A3-6
Definicion 4.2.7 El error cuadratico medio de un estimador
b se define como
 2 
ECM()b =E b

Observaciones 4.2.2
El ECM es diferente a la varianza de b la cual esta definida por
 2 
Var() = E E()
b b b

La diferencia entre ambos es que la Var()


b mide la dispersion de la distribucion de
b alrededor
de su valor esperado, mientras que ECM() b mide la dispersion alrededor del verdadero valor
del parametro.

La relacion entre ambos esta dada por


 2 
ECM() b =E b
h   i2 
=E b E()
b + E() b
 2     2 
=E b E()
b +2 b E()
b b + E()
E() b
 2       2 
=E b E()
b +E 2 b E()
b b + E E()
E() b

y dado que E()


b y son constantes
 2       2
=E b E()
b b E
+ 2 E() b E()
b b
+ E()

de donde se obtiene que


h i2
ECM()
b = Var()
b + b(,
b )

Es decir, el error cuadratico medio de


b es igual a la varianza de
b mas el sesgo de
b al
cuadrado.

Definicion 4.2.8 El criterio de mnimo ECM consiste en seleccionar un estimador cuyo ECM
sea el menor en un conjunto de estimadores comparables.

Observaciones 4.2.3
Si el sesgo es igual a cero el critero de mnimo ECM es equivalente al criterio de mnima
varianza, pues en ese caso
ECM()b = Var()
b

En la practica el criterio de mnimo ECM se utiliza cuando los estimadores insesgados son
incapaces de cumplir con el criterio de varianza mnima.

4.2.3. Consistencia
Definicion 4.2.9 El estadstico
b es un estimador consistente del parametro si y solo si para
cada c > 0  
lm P < c = 1
b
n

Interpretacion: Para cada numero positivo c, existe un valor de n lo suficientemente grande


a partir del cual podemos estar practicamente seguros que la diferencia entre el estimador y el
parametro no excedera a c.

A3-7
l

+c

c

ng n

La clase de convergencia expresada por el lmite de la definicion 4.2.9 generalmente se llama con-
vergencia en probabilidad.
Teorema 4.2.3 Si b es un estimador insesgado del parametro y Var() b desciende hacia cero
conforme n asciende a infinito, entonces
b es un estimador consistente de .

( )
l
f
l)
Var (

l) =
E ( l
0
n

El teorema 4.2.3 tambien es valido si


b es asintoticamente eficiente.

4.3. Metodos de estimacion puntual


Existe un numero infinito de estimadores para un mismo parametro de una poblacion.
Por las propiedades que cumplen, algunos de los metodos de estimacion mas conocidos son:

Metodo de momentos.
Metodo de maxima verosimilitud.
Estimacion bayesiana.
Metodo de mnimos cuadrados.

4.3.1. El metodo de maxima verosimilitud


Los estimados hallados por este metodo maximizan la probabilidad de obtener la muestra
observada.
Los estimadores de maxima verosimilitud son asintoticamente insesgados de varianza mnima.
Propiedad de invarianza: Si b es un estimador de maxima verosimilitud del parametro
y la funcion dada por g() es continua, entonces g()
b tambien es un estimador de maxima
verosimilitud de g().

A3-8
Definicion 4.3.1 Si x1 , x2 , . . . , xn son los valores observados en una muestra aleatoria de una po-
blacion con parametro , la funcion de verosimilitud de esta muestra esta dada por
L() = f (x1 , x2 , . . . , xn ; )
Donde se encuentra dentro de un dominio dado y f (x1 , x2 , . . . , xn ; ) es el valor de la distribucion de
probabilidad conjunta de las variables aleatorias X1 , X2 , . . . , Xn cuando X1 = x1 , X2 = x2 , . . . , Xn =
xn .
Ejemplo 4.3.1 La probabilidad de que llueva en un da esta dada por . Hubo lluvia en 5 de los
7 das de la semana pasada. Cual es el valor de que maximiza la probabilidad de que suceda lo
observado?
Solucion: La probabilidad de que llueva en 5 de los 7 das de la semana pasada cuando la
probabilidad de lluvia para cada da es puede ser calculada a traves de la funcion de probabilidad
binomial  
n x nx
(1 )
x
donde n es el total de das en analisis y x representa el numero de das en los que efectivamente
llovio. Reemplazando valores se tiene que la probabilidad en cuestion es igual a
 
7 5 75 2
(1 ) = 21 5 (1 )
5
Esta probabilidad es una funcion de y corresponde a la definicion de funcion de verosimilitud L().
2
L() = 21 5 (1 )

Interesa encontrar el valor que maximice esta probabilidad (que maximice la funcion de verosimi-
litud)
= arg max L() = 21 5 (1 )2

este problema de maximizacion es equivalente a
= arg max ln L() = ln 21 + 5 ln + 2 ln(1 )

para encontrar el valor de en cuestion se deriva la expresion anterior con respecto a y se iguala
a cero, obteniendo as la condicion que debe cumplir .
5 2
=0
1
y por tanto
5
=
7
Se concluye que la probabilidad de que se hayan observado 5 das con lluvia la semana pasada se
maximiza cuando la probabilidad de lluvia para un da es igual a 5/7. Al valor obtenido se lo llama
estimado de maxima verosimilitud.
Ejemplo 4.3.2 Se puede resolver el ejercicio anterior para un caso general: dado x exitos en n
intentos, encontrar el estimador de maxima verosimilitud ()
b del parametro de una poblacion
binomial.
Solucion: La funcion de verosimilitud para este caso esta dada por
 
n x nx
L() = (1 )
x

Para encontrar el valor que maximiza esta probabilidad es necesario maximizar la funcion de
verosimilitud con respecto a . As
 
n x
= arg max L() = (1 )nx
x

A3-9
lo que es equivalente a
 
n
= arg max ln L() = ln + x ln() + (n x) ln(1 )
x

derivando con respecto a e igualando a cero se obtiene que


x nx
=0
1
x
=
n
por tanto, el estimador de maxima verosimilitud de es

b=X

n
Observaciones 4.3.1
es el estimado de maxima verosimilitud del parametro , es decir el valor que se hallo para
una muestra en particular.
El estimado de maxima verosimilitud del parametro es aquel valor de que maximiza la
funcion de verosimilitud o, dicho de otro modo, el valor de que hace maxima la probabilidad
de observar una muestra en particular.

b es el estimador de maxima veromilitud del parametro , es decir la formula que indica
como a partir de los datos de una muestra calcular el estimado.

Ejemplo 4.3.3 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de tamano n de una poblacion


normal con media y varianza 2 , encuentre los estimadores conjuntos de maxima verosimilitud de
estos dos parametros.

Solucion: La funcion de densidad para cada Xi esta dada por


1
1 (xi )2
f (xi ; , ) = e 2 2
2
Como los elementos de una muestra aleatoria proveniente de una poblacion infinita son independien-
tes, entonces la funcion de densidad conjunta f (x1 , x2 , . . . , xn ; , ) de la muestra es la multiplicacion
de las funciones de densidad de cada Xi . Esta funcion de densidad conjunta evaluada en la muestra
constituye la funcion de verosimilitud.
n
Y
L(, ) = f (xi ; , )
i=1
n
1 X
n (xi )2
2 2 i=1

1
= e
2
Para hacer mas facil el proceso de maximizacion se puede tomar logaritmos a la funcion de verosi-
militud, as
n
n 1 X 2
ln L(, ) = ln(2) + ln( 2 ) 2

(xi )
2 2 i=1

las derivadas parciales con respecto a y 2 son las siguientes


n
ln L(, ) 1 X
= (xi )
2 i=1
n
ln L(, ) n 1 X
= + (xi )2
2 2 2 2 4 i=1

A3-10
al igualar a cero ambas derivadas parciales se encuentran las condiciones que deben cumplir los
estimados de maxima verosimilitud x (para ) y s2 (para 2 )
n
1 X
: (xi x) = 0
2 i=1
n
X
xi nx = 0
i=1

Pn
i=1 xi
x = =x
n

n
n 1 X 2
2 : + (xi x) = 0
2s2 2s4 i=1
s2 1
Pn 2 =
i=1 (xi x) n
Pn 2
(xi x)
s2 = i=1
n
Pn 2
(xi x)
s2 = i=1
n
En conclusion, los estimadores de maxima verosimilitud de los parametros y 2 de una poblacion
normal son
Pn
i=1 Xi
=
n
Pn 2
i=1 Xi X
2 =
n
Observacion 4.3.2 El estimador de maxima verosimilitud del parametro de una poblacion nor-
mal es v
uX n
2
Xi X
u
u
t
i=1
=
n
por la propiedad de invarianza del metodo de maxima verosimilitud.

4.4. Estimacion por intervalo


Definicion 4.4.1 Una estimador por intervalo de es un intervalo de la forma


bL < <
bU

donde
bL y b U son estadsticos elegidos de tal forma que la probabilidad de que el parametro se
encuentre en el intervalo es un valor dado 1 .

Prob( bU) = 1
bL < <

Observaciones 4.4.1
Al igual que los estimadores puntuales, los estimadores por intervalo de un parametro no son
unicos.
Tanto
b L como b L son variables aleatorias que dependen de la muestra aleatoria y de la
probabilidad 1 .

A3-11
Definicion 4.4.2 Un intervalo de confianza del (1 )100 % para el parametro

L < < U

es el valor que toma el estimador por intervalo de


bL < <
bU

para una probabilidad 1 dada.

Definicion 4.4.3 Al valor 1 se lo conoce con el nombre de nivel de confianza. A se lo suele


llamar nivel de significancia.

Definicion 4.4.4 A los lmites inferior L y superior U de un intervalo de confianza se los llama
lmites de confianza inferior y superior respectivamente.

Observaciones 4.4.2
Mientras mas alto sea 1 , mayor sera la amplitud del intervalo
Mientras mas grande sea el intervalo mas imprecisa sera la informacion que se proporciona.
Ejemplo: Que es preferible? Saber con un nivel de confianza del 90 % que un parametro
se encuentra entre 2 y 4 o saber con un nivel de confianza del 99,99 % que el mismo parametro
se encuentra entre -10000 y 10000?
Una propiedad deseable de un intervalo de confianza es que la longitud del intervalo, dado un
nivel de confianza 1 , sea la menor posible.
bU
Otra propiedad deseable es que la longitud esperada, E( b L ), sea tan corta como sea
posible.

Ejemplo 4.4.1 Para una muestra aleatoria X1 , X2 , . . . , Xn donde n > 30 se define el siguiente
estimador por intervalo para la media poblacional : L < < U , donde L = X 2 X y
U = X + 2 X Cual es la probabilidad 1 de que la media poblacional se encuentre dentro
de este intervalo? (probabilidad de que la media poblacional se encuentre dentro de dos desviaciones
estandar de la media muestral)

Solucion: Considerese que efectivamente se encuentra dentro del intervalo

x 2 X < < x + 2 X

Reordenando terminos la expresion anterior tambien indica que x se encuentra a dos desviaciones
estandar de

x 2 X < < x + 2 X

x + 2 X > > x 2 X

2 X > x > 2 X

+ 2 X > x > 2 X

2 X < x < 2 X

Para determinar la probabilidad de que esto ocurra se definira la siguiente variable aleatoria

X X
Z= /n
=
X

A3-12
que se distribuye aproximadamente normal estandar dado que la muestra es mayor a 30. Por tanto
P (L < < U ) = P ( 2 X < X < 2 X )
= P (2 < Z < 2)
= 0,955 //
R

En conclusion la probabilidad de que el verdadero valor de la media poblacional se encuentre a dos


desviaciones estandar de la media muestral es 0,955.

Nota: En el ejemplo se ha podido asumir que X se distribuye aproximadamente normal, por


tanto, la esperanza de la media muestral es la media poblacional y esta se encuentra ubicada en
el centro de la curva normal. (ver figura 1)

Figura 1: Distribucion aproximada de la media muestral

Para todos los valores de X que se encuentran fuera del rango que va desde 2 X hasta + 2 X
la estimacion por intervalo (X 2 X < < X + 2 X ) no contendra a la verdadera media de la
poblacion. Esto sucede en el 4,5 % de los casos, es decir, en el area no sombreada de la figura 1.

Figura 2: Intervalos de confianza para distintos valores de X y un mismo

A3-13
Observacion 4.4.3 Por lo general se trabajara con dos tipos de intervalos de confianza:

Los de dos colas, en los que Prob( > b U ) = y Prob( < b L) = ; y


2 2
Los de una cola, en los que Prob( > b L = , o Prob( <
bU) = y b U = .
b L) = y

Su uso dependera del problema a tratarse.

Tipos de intervalos de confianza para el parametro

Intervalo de confianza de dos colas

Rango de posibles valores de


-
^ ^
L U
^ ^ Prob( > ^U)= / 2
Prob( < ^L)= / 2 Prob(L < < U)=1-

Intervalos de confianza de una cola

Rango de posibles valores de


-
^ ^
L U

^
Prob( < ^L)= Prob( > L)=1-

Rango de posibles valores de


-
^ ^
L U

Prob( < ^U)=1- Prob( > ^U)=

Definicion 4.4.5 Dado un estimador b del parametro , el error de estimacion es un valor d tal
que la probabilidad de que la diferencia maxima entre b y sea a lo mucho d es al menos 1 .
Esto puede ser expresado por  
Prob d 1

Observacion 4.4.4 Para estimadores consistentes y un nivel de significancia dado es posible


establecer un error de estimacion tan pequeno como se desee manipulando el tamano de la muestra
n. Esto se vera claramente en la siguiente seccion.

4.5. Estimacion de medias


4.5.1. Error de estimacion
Teorema 4.5.1 Si X, la media de una muestra aleatoria de tamano n de una poblacion normal con
varianza conocida 2 , se va a usar
como
 un estimador de la media poblacional , la probabilidad
de que el error de estimacion X sea menor a Z/2 / n es 1 , donde Z/2 es tal que la
integral de la funcion de densidad normal estandar desde Z/2 hasta es igual a /2.

A3-14
Demostracion Por la observacion 3.3.1 se sabe que X sigue una distribucion normal con

2 2
X = y X =
n
para muestras aleatorias de tamano n de una poblacion normal con media y varianza 2 .

Si se define a la variable aleatoria Z por


X
Z= /n

se puede decir que


Prob(|Z| < Z/2 ) = 1
lo cual puede ser re-escrito como
 
X
Prob < Z/2 = 1

/ n
de donde finalmente se obtiene
 

Prob X < Z/2 = 1

n
Corolario 4.5.1 Para muestras grandes (n > 30) los resultados del teorema se aplican de manera
aproximada independientemente de la distribucion que siga la poblacion.
Demostracion La demostracion es directa invocando al teorema 3.3.2, el teorema del lmite
central.

Corolario 4.5.2 Si la poblacion no sigue una distribucion normal y el tamano de la muestra es


pequeno (n < 30), entonces se requiere de mas informacion sobre la poblacion para poder decir algo
acerca del error de estimacion.
Demostracion El teorema del lmite central solo se cumple para muestras grandes.

Observacion 4.5.1 (el tamano del error de estimacion) Manipulando el tamano de la mues-
tra n es posible conseguir un error de estimacion arbitrariamente pequeno para un nivel de confianza
1 dado.
Teorema 4.5.2 Si la media muestral X se va a usar como un estimador de la media de una
2
poblacion normal, y la varianza
 poblacional es desconocida, entonces la probabilidad de que el
error de estimacion X sea menor a t 2 ,n1 Sn es 1 ; donde S es la desviacion estandar

muestral y t 2 ,n1 es tal que la integral de la funcion de densidad t-student desde t 2 ,n1 hasta
es igual a /2.
Demostracion Para una poblacion normal, se sabe que
X
T = S/n

se distribuye como una t con n 1 grados de libertad. Por tanto


Prob(|T | < t 2 ,n1 ) = 1
De donde se puede obtener que
 
X
Prob S < t 2 ,n1 = 1
/ n
y por tanto que  
S
Prob X < t 2 ,n1 =1
n

A3-15
Corolario 4.5.3 Para muestras grandes (n > 30) el error de estimacion puede ser aproximado por
Z/2 Sn ; donde Z/2 es como se definio en el teorema 4.5.1.

Demostracion La distribucion t-student con n 1 grados de libertad converge a una normal


cuando n tiende a infinito. Se suele considerar que a partir de n > 30 la distribucion normal es una
buena aproximacion de la distribucion t-student con n 1 grados de libertad.

Corolario 4.5.4 Si la poblacion no se distribuye como una normal y la muestra es grande (n > 30),
entonces el error de estimacion puede ser aproximado por Z/2 Sn ; donde Z/2 es como se definio en
el teorema 4.5.1.

Idea de la demostracion Se requiere demostrar que

X
T = S/n

converge a una distribucion normal estandar cuando n tiende a infinito para cualquier distribucion
que haya generado a X y S.

Re-escribiendo T de la siguiente manera

X
T = /n

S

y haciendo uso de la independencia entre X y S 2 (teorema 3.4.7) se puede demostrar que el pri-
mer termino de la multiplicacion converge en distribucion a una normal estandar y que el segundo
termino converge en probabilidad a 1.

Claramente estan involucradas definiciones que no se han estudiado en el presente curso y por esto
no se desarrolla la demostracion.

4.5.2. Intervalos de confianza


Los errores de estimacion y los intervalos de confianza suelen hallarse ntimamente relacionados.
La causa es que se pueden construir intervalos de confianza a partir del conocimiento del error de
estimacion.

Teorema 4.5.3 Si x es el valor de la media de una muestra aleatoria de tamano n de una poblacion
normal con varianza conocida 2 , entonces

x Z/2 < < x + Z/2
n n

es un intervalo de confianza al (1 )100 % de la media poblacional.

Demotracion Se sabe que


 

Prob X < Z/2
= 1
n
 

Prob Z/2 < X < Z/2 = 1
n n
 

Prob Z/2 > X > Z/2 = 1
n n
 

Prob Z/2 < X < Z/2 = 1
n n
 

Prob X Z/2 < < X + Z/2 = 1
n n

A3-16
Lo que demuestra que

x Z/2 < < x + Z/2
n n
es el intervalo de confianza en cuestion.

Observacion 4.5.2 En general, se hacen afirmaciones de probabilidad cuando se habla de los valores
futuros de variables aleatorias (por ejemplo el error potencial de una estimacion) y afirmaciones de
confianza una vez que se han obtenido los datos.

Teorema 4.5.4 Si x y s son los valores de la media y la desviacion estandar de una muestra aleatoria
de tamano n de una poblacion normal, entonces
s s
x t 2 ,n1 < < x + t 2 ,n1
n n

es un intervalo de confianza al (1 )100 % de la media de la poblacion.

Idea de la demostracion: Se procede la misma manera que en el ejercicio anterior, pero ahora
partiendo de
Prob(|T | < t 2 ,n1 ) = 1
donde T es como se definio en el teorema 4.5.2.

Resumen para todos los casos:


Poblacion Varianza Tamano muestral Intervalo de confianza
Normal Otras Conocida No conoc. n 30 n > 30 al (1 )100 % de

x Z/2 < < x + Z/2
n n

x Z/2 s < < x + Z/2 s
n n

x t 2 ,n1 s < < x + t 2 ,n1 s


n n

que se puede aproximar por


x Z/2 s < < x + Z/2 s
n n

x t 2 ,n1 s < < x + t 2 ,n1 s


n n

Se requiere conocer la
distribucion exacta de la poblacion

Las demostraciones son iguales a las de los dos teoremas anteriores mas la argumentacion de si
el tamano de la muestra es lo suficientemente grande como para aproximar la distribucion de X a
una normal.

4.6. Estimacion de diferencias de medias


Establecida la relacion entre el error de estimacion y los intervalos de confianza que se estan
presentando, a partir de esta parte solo se trabajara con los intervalos de confianza.
Teorema 4.6.1 Si x1 y x2 son los valores de las medias de muestras aleatorias independientes de
tamano n1 y n2 de poblaciones normales con varianzas conocidas 12 y 22 , entonces
s s
12 22 12 2
(x1 x2 ) Z 2 + < 1 2 < (x1 x2 ) + Z 2 + 2
n1 n2 n1 n2

es un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias poblacionales.

A3-17
Demostracion Por la observacion 3.3.1 y el corolario 3.3.2 se sabe que X1 y X2 se distribuyen
normalmente y que su combinacion lineal tambien sera normal, por tanto

(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2

sigue una distribucion normal estandar. Si en

Prob(Z/2 < Z < Z/2 )

se reemplaza Z se obtendra
 
(X1 X2 )(1 2 )
Prob Z/2 < q < Z/2 =1
12 22
n1 + n2

 q 2
22
Prob Z/2 n11 + n2 < (1 2 )
q 
12 22
(X1 X2 ) < Z/2 n1 + n2 =1

 q 2
22
Prob (X1 X2 ) Z/2 n11 + n2< (1 2 )
q 
12 2
< (X1 X2 ) + Z/2 n1 + n22 = 1

Obteniendo a partir de aqu el intervalo de confianza que propone el teorema.


Corolario 4.6.1 Para muestras grandes (n1 y n2 mayores a 30), si las poblaciones de donde pro-
vienen X1 y X2 no son normales, los resultados del teorema siguen siendo aplicables de manera
aproximada.

Demostracion Haciendo uso del teorema 3.3.2 (teorema del lmite central) se sabe que para
cualquier distribucion que sigan X1 y X2

(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2

se distribuye aproximadamente como una normal estandar. A partir de aqu el resto de la prueba es
igual que la del teorema.

Corolario 4.6.2 Para muestras grandes (n1 y n2 mayores a 30), si las poblaciones son normales
y las varianzas poblacionales 12 y 22 no son conocidas pero se puede disponer de las varianzas
muestrales (s21 y s22 respectivamente), entonces
s s
s21 s22 s21 s2
(x1 x2 ) Z 2 + < 1 2 < (x1 x2 ) + Z 2 + 2
n1 n2 n1 n2

es aproximadamente un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias


poblacionales.

Idea de la demostracion: Se aplica igual criterio que en el corolario 4.5.4.

A3-18
Teorema 4.6.2 Si x1 , x2 , s1 y s2 son los valores de las medias y las desviaciones estandar de va-
riables aleatorias independientes de tamano n1 y n2 de poblaciones normales con varianzas iguales
(12 = 22 = 2 ), entonces
r
1 1
(x1 x2 ) t 2 ,n1 +n2 2 sp
+ < 1 2
n1 n2
r
1 1
< (x1 x2 ) + t 2 ,n1 +n2 2 sp +
n1 n2
donde s
(n1 1)s21 + (n2 1)s22
sp =
n1 + n2 2
es un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias poblacionales
Demostracion Se sabe que para poblaciones normales
(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2

sigue una distribucion normal estandar, y por tanto si las varianzas poblaciones son iguales la misma
distribucion normal aplica para
(X1 X2 ) (1 2 )
Z= q
n11 + n12

donde es un parametro desconocido que sera estimado por Sp . Aparte se sabe que
(n1 1)S12 (n2 1)S22
y
2 2
siguen distribuciones chi-cuadrado con n1 1 y n2 1 grados de libertad, y por tanto su suma
(n1 1)S12 (n2 1)S22 (n1 + n2 2)Sp2
Y = + =
2 2 2
sigue una distribucion chi-cuadrado con n1 + n2 2 grados de libertad. Z y Y son independientes
(lo cual no se demostrara) por lo que aplicando el teorema 3.5.1 tenemos que
Z
T = q
Y
n1 +n2 2

(X1 X2 ) (1 2 )
T = q
Sp n11 + n12

sigue una distribucion t con n1 + n2 2 grados de libertad. Reemplazando este valor en


Prob(t 2 ,n1 +n2 2 < T < t 2 ,n1 +n2 2 ) = 1
se obtiene
 
(X1 X2 )(1 2 )
Prob t 2 ,n1 +n2 2 < q <t
2 ,n1 +n2 2
=1
Sp n1 + n1
1 2

de donde es facil ver que se obtiene el intervalo de confianza que propone el teorema

Observaciones:
Los resultados del teorema 4.6.2 son utilizados para muestras pequenas (n1 +n2 230).
Para muestras en donde n1 + n2 2 > 30 los resultados del teorema 4.6.2 pueden aproximarse
con un intervalo de confianza construido en base a la distribucion normal.
Si alguna de las poblaciones no es normal, entonces se aplicaran los resultados para muestras
grandes y varianzas desconocidas solo si n1 > 30 y n2 > 30.

A3-19
4.7. Estimacion de proporciones
Una proporcion puede ser entendida como el parametro de una poblacion Bernoulli con funcion
de probabilidad
f (y) = y (1 )1y y {0, 1}
representa en esta poblacion la probabilidad de exito, es decir, la probabilidad de que X = 1.

Si Y1 , Y2 , Y3 , . . . , Yn es una muestra aleatoria de esta poblacion, entonces el total de exitos dentro de


la muestra
X n
X= Yi
i=1

constituye una variable aleatoria binomial cuya funcion de probabilidad es la siguiente


 
n x
f (x) = (1 )nx x {0, 1, 2, . . . , n}
x

Teorema 4.7.1 Si X es una variable aleatoria que tiene una distribucion binomial con los parame-
tros n y , entonces la distribucion de
X n
Z=p
n(1 )

se aproxima a la distribucion normal estandar cuando n

Bosquejo de la demostracion Para demostrar el teorema se requiere probar que la funcion


generatriz de momentos de la distribucion binomial tiende a la funcion generatriz de momentos de
la distribucion normal estandar cuando n . No se realizara la prueba dado que las funciones
generatrices de momentos no han sido estudiadas en este curso.
Observacion 4.7.1 Los resultados del teorema solo son validos cuando n , sin embargo a
menudo se usa la distribucion normal para aproximar probabilidades binomiales. Una buena regla
emprica es usar esta aproximacion solo cuando n y n(1 ) son ambos mayores a 5.

Teorema 4.7.2 Si X es una variable aleatoria binomial con parametros n y , n es grande y = x/n,
donde x es el valor que toma la variable aleatoria X, entonces podemos afirmar con un (1 )100 %
de confianza que el error de estimacion es menor a
s
(1 )
Z 2
n

Demostracion Se sabe por el teorema 4.7.1 que para muestras grandes


X n
Z=p
n(1 )

se distribuye aproximadamente como una normal estandar. Z puede ser re-escrito de la siguiente
manera
X n X n
Z = p =q
n(1 ) n2 (1)
n

X
X n
= q = qn
(1) (1)
n n n

b

Z = q
(1)
n

A3-20
Es facil ver que (1)/n es la varianza de b = X/n lo cual implica que b tambien se distribuye
aproximadamente normal en muestras grandes. Se observa que el error de estimacion que plantea
el teorema utiliza la version muestral de la desviacion estandar de ,
b esto es (1
b )
b
/n. Si utilizamos
0
esta version tendremos una nueva variable aleatoria Z definida por
b

Z0 = q
(1
b )
b
n

La pregunta es si Z 0 sigue alguna distribucion conocida. Para responder a esta pregunta se puede
utilizar la misma argumentacion empleada en el corolario 4.5.4 y por tanto se puede decir que Z 0 se
distribuye aproximadamente como una normal estandar para muestras grandes.

A partir de lo expuesto anteriormente se tiene que


Prob |Z 0 | < Z 2 = 1


Reemplazando Z 0 se encuentra que




b
Prob q < Z
2
= 1
(1
b b
)
n

1
Prob q < Z 2 = 1
b
(1
b )
b
n
s
(1
b )
b
Prob < Z 2 = 1
b
n
q
(1 )
De donde se puede ver que | | < Z/2 con un (1 )100 % de confianza
b b
n
Teorema 4.7.3 Si X es una variable aleatoria binomial con parametros n y , n es grande y el
estimado de la proporcion es = x/n, donde x es el valor que toma la variable aleatoria X,
entonces s s
(1 ) (1 )
Z 2 < < + Z 2
n n
es un intervalo de confianza aproximado al (1 )100 % para .
Demostracion En la prueba del teorema 4.7.2 ya se argumento las condiciones bajo las cuales
b

Z0 = q
(1
b )
b
n

sigue aproximadamente una distribucion normal estandar, y a partir de este hecho se establecio que
s
(1
b )
b
Prob < Z 2 =1
b
n

Ahora se manipulara la expresion anterior para que la desigualdad haga referencia solo a .
s
b < Z (1 ) = 1
b b
Prob

2
n
s s
b )
(1 b b )
(1 b
Prob Z 2 < b < Z =1
n 2
n
s s
b )
(1 b b )
(1 b
Prob b Z << b + Z =1
2
n 2
n

Este resultado demuestra el teorema.

A3-21
4.8. Estimacion de diferencias entre proporciones
Para establecer intervalos de confianza para la diferencia de proporciones entre poblaciones Ber-
noulli independientes con parametros 1 y 2 es necesario primero determinar cual es la distribucion
b1
del estimador a usarse. En esta seccion se trabajara con el estimador b 2 que esta definido por

b 1 = X1
y b 2 = X2

n1 n2
donde n1 y n2 son los tamanos de las muestras aleatorias de cada poblacion y, X1 y X2 representan
el total de exitos encontrados en cada una de las dos muestras en cuestion.
De b1 b 2 se puede demostrar que
 
E b1
b2 = 1 2

b1
 1 (1 1 ) 2 (1 2 )
Var b2 = +
n1 n2
y puesto que tanto 1 como 2 se distribuyen aproximadamente normal para muestras grandes (ver
la primera parte de la demostracion del teorema 4.7.2) entonces tambien su diferencia lo hara, esto
implica que
b1
( b 2 ) (1 2 )
Z= q
1 (11 )
n1 + 2 (1
n2
2)

es aproximadamente una variable aleatoria normal estandar.


Teorema 4.8.1 Si X1 es una variable aleatoria binomial con parametros n1 y 1 , X2 es una variable
aleatoria binomial con parametros n2 y 2 , n1 y n2 son grandes, y 1 = x1/n1 y 2 = x2/n2 , donde x1
y x2 son los valores que toman las variables aleatorias X1 y X2 respectivamente, entonces
s
1 (1 1 ) 2 (1 2 )
(1 2 ) Z 2 + <
n1 n2
s
1 (1 1 ) 2 (1 2 )
1 2 < (1 2 ) + Z 2 +
n1 n2
es un intervalo de confianza aproximado al (1 )100 % para 1 2 .
Demostracion Dado que 1 y 2 son desconocidos no podemos valernos del hecho que
b1
( b 2 ) (1 2 )
Z= q
1 (11 )
n1 + 2 (1
n2
2)

sigue aproximadamente una distribucion normal estandar para muestras grandes para construir
un intervalo de confianza. Sin embargo, utilizando la misma argumentacion que en el corolario
4.5.4 podemos llegar a la conclusion de que si reemplazamos los parametros desconocidos 1 y 2
por sus versiones muestrales 1 y 2 respectivamente, la variable aleatoria resultante tambien se
distribuira aproximadamente como una normal estandar para muestras grandes. Es decir,
b1
( b 2 ) (1 2 )
Z0 = q

b 1 (1b 1)
+ 2 (1
b b 2)
n1 n2

sigue aproximadamente una distribucion normal estandar para muestras grandes.

Partiendo de este hecho tenemos que

Prob |Z 0 | < Z 2 = 1




b1
( b 2 ) (1 2 )
Prob q < Z = 1
2
b 1 (1b 1)
+
b 2 (1
b 2)

n1 n2

A3-22

Prob (1 2 ) (
b1
b 2 )

q 

b 1 (1b 1)
b 2 (1b 2)
<Z
2 n1 + n2 = 1

 q
b 2) Z
b1
Prob (
b 1 (1b 1)
+
b 2 (1b 2)
<
2 n1 n2
q 

b 1 (1b 1)
b 2 (1b 2)
1 2 < (
b1
b 2) + Z
2 n1 + n2 = 1

lo cual completa la prueba.

4.9. Estimacion de varianzas


Teorema 4.9.1 Si s2 es el valor de la varianza de una muestra aleatoria de tamano n de una
poblacion normal, entonces
(n 1)s2 (n 1)s2
2 < 2 < 2
/2 ; n1 1/2 ; n1

es un intervalo de confianza al (1 )100 % para 2 .

Demostracion Si S 2 es la varianza muestral de una poblacion normal con varianza 2 y n


representa el tamano de la muestra, entonces

(n 1)S 2
2
es una variable aleatoria que sigue una distribucion chi-cuadrado con n1 grados de libertad (revisar
la seccion 3.4, en especial el teorema 3.4.7). As

(n 1)S 2
 
2 2
Prob 1/2 ; n1 < < /2 ; n1 = 1
2
!
1 2 1
Prob > > 2 = 1
21/2 ; n1 (n 1)S 2 /2 ; n1

!
(n 1)S 2 (n 1)S 2
Prob 2 < 2 < 2 = 1
/2 ; n1 1/2 ; n1

Lo cual implica que


(n 1)s2 (n 1)s2
2 < 2 < 2
/2 ; n1 1/2 ; n1

es un intervalo de confianza al (1 )100 % para 2 , tal como lo plantea el teorema.

4.10. Estimacion de la razon entre dos varianzas


Teorema 4.10.1 Si s21 y s22 son los valores de las varianzas de muestras aleatorias independientes
de tamano n1 y n2 de poblaciones normales, entonces

s21 1 12 s21
< < f 2 ; n2 1 ; n1 1
s22 f 2 ; n1 1 ; n2 1 22 s22

es un intervalo de confianza al (1 )100 % para 12/ 2 .


2

A3-23
Demostracion Si S12 y S22 son las varianzas de muestras aleatorias independientes de tamano n1
y n2 de poblaciones normales, entonces
2 S 2
F = 22 12
1 S2
es una variable aleatoria que tiene una distribucion F con n1 1 y n2 2 grados de libertad (teorema
1.6.1). As, se puede decir que

22 S12
 
Prob f1 2 ; n1 1 ; n2 1 < 2 2 < f 2 ; n1 1 ; n2 1 = 1
1 S2

lo cual puede ser re-escrito en virtud del teorema 3.6.2 como

22 S12
 
1
Prob < 2 2 < f 2 ; n1 1 ; n2 1 = 1

f 2 ; n2 1 ; n1 1 1 S2
2
Ordenando la desigualdad para que exprese un intervalo para 1/22 se obtiene
 2
12 S12

S1 1
Prob < < f
2 ; n2 1 ; n1 1
=1
S22 f 2 ; n1 1 ; n2 1 22 S22

lo que demuestra la veracidad del teorema.

A3-24