You are on page 1of 52

Notas para el curso de

n a la Estadstica,
Introduccio

dictado por Juan Kalemkerian 1


en la Facultad de Ciencias, el segundo semestre de 2008.

Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Indice general

1. Introduccion 3
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 6

2. Muestreo aleatorio simple 8


2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Estadsticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Teora de la Estimaci on, metodos de estimaci on 15


3.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Metodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Metodo de Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. metodo de estimaci
on por cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5. Estimaci
on de la funci
on de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6. Convergencia casi segura de Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 23

4. Evaluaci
on de Estimadores 24

5. Estimacin por intervalos de confianza 33

6. Pruebas de hip otesis 36


6.1. Regi
on Crtica Optima, Teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . 37
6.2. Familias con cociente de verosimilitud monotono . . . . . . . . . . . . . . . . . . . . 40
6.3. Metodo de la raz on de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.1. Test de 2 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.5. An alisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7. Modelos Lineales 47
7.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3. Hip
otesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.4. Aplicaci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2
Captulo 1

Introducci
on

Este captulo pretende introducir los conceptos de esperanza condicional, as como las nociones
de convergencia de variables aletorias, que seran necesarios para los siguientes captulos. Se asumira
que el lector est
a familiarizado con los conceptos basicos de la probabilidad, correspondientes a un
primer curso introductorio, no as los del analisis real.

1.1. Esperanza Condicional



on 1.1. Dado , A, P un espacio de probabilidad, y X, Y : R variables aleatorias,
Definici
definimos la Esperanza Condicional de X dado Y que anotaremos

E X|Y ,

como la funci
on de Y que verifica
 
E XIY (B) = E E(X|Y )IY (B)

para todo B perteneciente a la sigma


algebra de borel de R, que anotaremos de aqu en mas como
B(R)

Observaci
on 1.2. E(X|Y ) est
a bien definido
existencia: Se sigue del Teorema de Radon-Nikodym
unicidad: Supongamos que (Y ) y (Y ) cumplen
 
E XIY (B) = E (Y )IY (B) B B(R)

= E (Y )IY (B) .

Consideremos B = {(Y ) > (Y )}, sabemos que 0 = E ((Y ) (Y ))IY (B) , como ((Y )
(Y ))IY (B) 0 y su esperanza es 0 entonces ((Y ) (Y ))IY (B) = 0 c.s.. De forma
totalmente an
aloga, tomando B = {(Y ) > (Y )}, obtenemos que ((Y ) (Y ))IY (B)
=
0, c.s., de donde se sigue que = c.s.

Proposici on 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z ser
an
variables aleatorias a valores reales y a, b n
umeros reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X 0 c.s. entonces E(X|Y ) 0 c.s..

3) Si X Z entonces E(X|Y ) E(Z|Y ).

3
Captulo 1. Introduccion

4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.

7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).



8) E E(X|Y ) = E(X).
Demostraci
on.
1) Por la unicidad, basta demostrar que, para todo B B(R)
 
E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) ,

usando la linealidad de la esperanza el u


ltimo termino es
 
aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) ,

que, por definici


on de esperanza condicional, es igual a
 
aE XIB (Z) + bE Y IB (Z) .

2) La demostraci
on necesita de conceptos del analisis real.

3) Es consecuencia inmediata de 2).


4) Es consecuencia inmediata de la unicidad.
  
6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la inde-
pendencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostraci
on necesita de conceptos del analisis real.

8) Basta tomar en la definici


on B = R.

on 1.4. Desigualdad de Jensen: Sea : R R convexa, entonces


Proposici
 
E(X) E (X)
 
E(X|Y ) E (X)|Y

Recordemos que es convexa si y solo si (p + (1 )q) (p) + (1 )(q) p, q, [0, 1],


y que si es C 2 , es convexa si y solo si 00 (x) 0 x.
Definici
on 1.5. Distribuci
on Condicional: Dadas X, Y v.a., definimos

FX|Y =y (x) := P (X x|Y = y) := E(I( ,x] (x)|Y = y).

Definici
on 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos

P (X [a, b]|Y ) := E(I[a,b] (X)|Y ).

Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.

4
Captulo 1. Introduccion

Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m N , defini-
mos la probabilidad condicional en el sentido usual, como

PX,Y (x, y)
PX|Y =y (x) = P (X = x|Y = y) = x Rec(X), y Rec(Y ),
PY (y)
entonces X
E(X|Y ) = xPX|Y (x),
xRec(X)

Demostraci
on. Sabemos que
X 1 X
xPX|Y =y (x) = xPX,Y (x, y) =: (Y )(y),
PY (y)
xRec(X) xRec(X)

queremos demostrar que



1 X 
E xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
PY (Y )
xRec(X)


1 X X
E xPX,Y (x, Y )IB (Y ) = (y)PY (y)
PY (Y )
xRec(X) yRec(Y )B
X X
= xPX,Y (x, y)IB (Y )
yRec(Y ) xRec(X)

= E XIB (Y ) .

Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces


Z +
fX,Y (x, Y )
E(X|Y ) = x dx
fY (Y )

Demostraci
on.
Z +  Z + Z + 
fX,Y (x, Y ) fXY (x, y)
E x dxIB (Y ) = x IB (y)dx fy (y)dy
fY (Y ) fy (y)
Z + Z +
= xIB (y)fX,Y (x, y)dxdy

= E(XIB (Y )).

Luego, la tesis es consecuencia de la unicidad.

Proposici
on 1.8. F
ormula de la distribucion conjunta: Dadas X, Y v.a. se tiene que
Z y
FX,Y (x, y) = FX|Y =t (x)dFy (t)

5
Captulo 1. Introduccion

Demostraci
on.

FXY (x, y) = P (X x, Y y) = E I(,x] (X)I(,y] (Y )
  
= E E I(,x] (X)I(,y] (Y ) Y
Z +
= I(,y] (t)FX|Y =t (x)dFY (t)

Z y
= FX|Y =t (x)dFY (t)

Definici on condicionada a un conjunto: Dada X v.a. y A A con P (A) 6= 0


on 1.9. Distribuci
definimos
P (X x A)
FX|A = P (X x|A) =
P (A)
Definici
on 1.10. Esperanza condicionada a un conjunto:
Z +
E(X|A) = xdFX|A (x) A A, P (A) 6= 0

1.2. Nociones de convergencia de variables aletorias



Definicion 1.11. Convergencia en probabilidad y casi segura: Dado , A, P espacio de
probabilidad, {Xn } una sucesi
on de v.a. y X una v.a. decimos que
P
1) Xn converge a X en probabilidad, y anotamos Xn X si

lm P |Xn X| = 1
n+

c.s.
2) Xn converge a X casi seguramente, y anotamos Xn X si
 
P lm Xn = X = 1
n+


Definici
on 1.12. Convergencia en distribuci on: Sean Xn v.a. en n , An , Pn y X v.a. en
, A, P , decimos que Xn converge en distribucion a X y anotamos

d
Xn X si lm FXn (x) = FX (x) x punto de continuidad de FX
n+

Proposici on entre convergencias: Si {Xn } y X son v.a. sobre , A, P enton-
on 1.13. Relaci
ces
c.s. P d
Xn X Xn X Xn X.
Observaci
on 1.14. Todos los recprocos de la proposici
on anterior son falsos.

Teorema 1.15. Ley Fuerte de los grandes n umeros: Sean {Xn } v.a. sobre , A, P y Xn
independientes identicamentes distribuidas (i.i.d.) en L1 y = E(X) entonces

X1 + + Xn c.s.
Xn =
n

6
Captulo 1. Introduccion

Teorema 1.16. Teorema Central del Lmite: Sean {Xn } definidas en , A, P v.a. i.i.d. en
L2 entonces
Xn d
N (0, 1).
/ n
Donde N (0, 1) denota la distribuci
on normal con esperanza 0 y varianza 1.
2
Observaci on N (, n ) donde
on 1.17. Si n es grande y fijo, FXn se aproxima por la distribuci
= E(Xn ) y 2 = V ar(Xn )

7
Captulo 2

Muestreo aleatorio simple

2.1. Algunas definiciones previas



Definici on 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en , A, P
son una aleatoria simple si son independientes identicamente distribuidas (i.i.d.) con distribucion
igual a la de X.

Definici
on 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
X1 + . . . , Xn
1) Media Muestral: Xn = .
n
n
1 X
2) Varianza Muestra Sn2 = (Xi Xn )2
n 1 i=1
n
1 X 2
on 2.3. Sn2 =
Observaci Xi2 nXn
n 1 i=1
c.s.
on 2.4. Si X L1 , Xn = E(X) por L.F.G.N.
Observaci
c.s.
on 2.5. Si X L2 , Sn2 2 = V ar(X).
Observaci
Demostraci
on. !
n
n 1X 2 2 c.s.
Sn2 = X Xn E(X 2 ) 2 = 2 ,
n1 n i=1 i

donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .

2.2. Muestreo en poblaciones normales


Definici
on 2.6. Distribuci
on Gamma: Decimos que X tiene distribucion Gamma(, ) si su
densidad es



x1 ex si x > 0
fX (x) = ()
0 si x = 0

Observaci
on 2.7. Tres propiedades importantes de la distribuci
on Gamma son:
1) Si X v Gamma(, ) entonces E(X) = / y V ar(X) = /2 .

8
Captulo 2. Muestreo aleatorio simple

2) Si X v Gamma(, ) e Y v Gamma(, ) y son independientes entonces X+Y v Gamma(+


, ).
3) Si = 1, Gamma(1, ) = Exp().
Definici
on 2.8. Distribucion Chi cuadrado con k grados de libertad: Decimos que X v 2k
si X v Gamma(k/2, 1/2) es decir si

xk/21 ex/2
fX (x) = I(0,+)
(k/2)2k/2

Observaci
on 2.9. Se puede demostrar que

E(2k ) = k
V ar(2k ) = 2k

Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces

X12 + + Xk2 = k(X1 , . . . , Xk )k2 v 2k

Demostraci que Xi2 v


on. Por la propiedad 2) de las distribuciones Gamma, es suficientedemostrar
2 2
1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X t) = P (|X| t) = P ( t X

t) =
Z t Z t Z t
1 1 s2 1 1 s2 1 1 1

e 2 ds = 2 e 2 ds = e 2 u ,
t 2 0 2 2 0 u
2
donde en la primera igualdad hemos usado que la funcion e1/2x es par, y en la seguna hemos
2
hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que
1
e 2 u
,
2 u

es la densidad de 21 pero esto se sigue de que Gamma(1/2) = .

9
Captulo 2. Muestreo aleatorio simple

Definicion 2.11. Distribuci on T-Student con k grados de libertad: Sean X v N (0, 1) e


Y v 2k independientes, la distribuci
on de
X
Tk = p ,
Y /n

on T Student con k grados de libertad. Decimos que la variable Tk tiene


se llama distribuci
on T Student no central, con parametro de no centralidad > 0 si
distribuci
X +
Tk = p
Y /k

Observaci
on 2.12. Se verifica que
E(Tk ) = 0
V ar(Tk ) = k/(k 2) para k > 2.
Teorema 2.13. Sea T v Tk , entonces la densidad es

( k+1
2 )
fT (t) =  k+1
t2
k( k2 ) 1 + k
2

Demostraci
on. Tomemos el vector (X, Y ), su densidad es
k y
1 2
1 1 2 y2 e
fX,Y (x, y) = e 2 x k k I(0,+) (y).
2 ( 2 )2 2

Sea g : Rk R+ Rk R+ tal que


!
x  p 
g(x, y) = p , y , g es biyectiva y g 1 (u, v) = u v/k, v ,
y/k

tenemos entonces que g(X, Y ) = (U, V )

I(0,+) (v)
fg(x,y) (u, v) = fU,V (u, v) = fX,Y g 1 (u, v)


det Jg g 1 (u, v)

donde !
1 u 1
k2 v
p
y/k y det Jg (x, y) = k/y,
0 1
luego, sustituyendo
1 2 k v
1 e 2k u v v 2 1 e 2 v
fU,V (u, v) = I(0,+) (v) ,
2 ( k2 )2k/2 k
como T = U tenemos que
Z + Z +
1 u2

k1 v + 12
fU (u) = fU,V (u, v)dv = k v 2 e 2k
dv,
2k(k/2)2 2 0

por otro lado sabemos que


Z + Z +
()
x1 ex dx = 1 entonces x1 ex dx = ,
() 0 0
k+1 u2 1
si tomamos entonces = 2 x=v y= 2k + 2 se concluye la tesis.

10
Captulo 2. Muestreo aleatorio simple

Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (, 2 ), entonces


2
 
1) Xn v N , .
n
2) Xn y Sn2 son independientes.
n1 2
3) S v 2n1 .
2 n
(Xn )
4) n v Tn .
Sn
Demostraci
on.
1) es inmediato
3) tomemos = 1, por inducci
on en n, para n = 2 tenemos que
 2  2
2 X1 + X2 X1 + X2
S2 = X1 + X2
2 2
 2  2  2
X1 X2 X2 X1 X1 X2
= + = v 21 ,
2 2 2
n1
supongamos cierto para n1. Vamos a usar la igualdad (n1)Sn2 = (n2)Sn1
2
+ (Xn
n
Xn1 )2 , como estamos tomando = 1 tenemos que ver que (n 1)Sn2 v 2n1 o lo que es lo
mismo (n 2)Sn12
+ n1 2
n (Xn Xn1 ) v n1 ,
2

por hip on (n 2)Sn1 v n2 , ademas n1


otesis de inducci 2 2 2
n (Xn Xn ) es independiente de
2 2 2
(n 2)Sn1 pues Xn es independiente de Sn1 por la parte 2), y Xn es independiente de Sn1
2
pues Sn1 depende s olo de X1 , . . . , Xn y la muestra son un M.A.S.
Basta entonces ver que n1 2
n (Xn Xn ) v 1 ,
2

   
1 n n1
Xn Xn1 v N 0, 1 + = N 0, (Xn Xn1 )2 v 21 ,
n1 n1 n
y, como la suma de 2 es tiene distribucion 2 con la suma de los grados tenemos que 2n2 +
21 v 2n1 .

11
Captulo 2. Muestreo aleatorio simple

4) Es inmediato a partir de 1,2 y 3.


2)
n
1 X
Sn2 = (X1 Xn )2 + (Xi Xn )2

n1 i=2
n n
1 X
2
X
(Xi Xn )2 ,

= ( Xi Xn ) +
n 1 i=2 i=2

hemos escrito entonces Sn2 en funci on de X2 Xn , . . . , Xn Xn , basta demostrar entonces que


Xn es independiente de X2 Xn , . . . , Xn Xn .
Consideremos Y1 = Xn , Y2 = X2 Xn , . . . , Yn = Xn Xn , y1 = xn , y2 = x2 xn , . . . , yn =
xn xn y y = g(x1 , . . . , xn ) entonces
1 1 1

n n ... n
1 1 1 ... n1
n n
Jg = . .

..
.. .
1 1 1
n n ... 1 n

Es f
acil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
1
g (y) = yi y1 , y2 + y1 , . . . , yn + y1 ,
2

entonces
1
fY (y) = fX (g 1 (y)
| det Jg (g 1 (y))|
( !)
n 1 2
X X
2
X
2 2
= exp y1 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 )
(2)n/2 2 2 2 2
( !)
n n n o 1 X X
= exp y12 exp ( yi ) 2 + yi2 .
(2)n/2 2 2 2 2

Por lo tanto factorizamos respecto de y1 , iterando, son independientes.

Observaci on 2.15. on F de Fisher: Sea X v 2n e Y v 2m independientes, la


Distribuci
distribuci
on de
X/n
Y /m
se denomina distribuci
on F de Fisher de parametros n y m, y la anotamos F (n, m).
A modo de motivaci
on geometrica de la distribucion F de Fisher, vamos a enunciar el siguiente
teorema.
angulo que forma un vector X v N (0, 2 ) en Rd con un subespacio R de
Teorema 2.16. Sea A el
dimensi
on , entonces

tan2 (A) v F (d , )
d

12
Captulo 2. Muestreo aleatorio simple

Observaci
on 2.17. Si Z v F (n, m) entonces
n
n+m
  n
2 n 2 w 2 1
fZ (w) =  n+m I(0,+) (w)
n2 m
 
2
m n
1+ m w 2
2
Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (X , X ) y Y1 , . . . , Yn M.A.S. de Y v N (Y , Y2 )
X e Y independientes, entonces
2 2
SX /X
2 2 v F (n 1, m 1)
SY /Y

Demostraci
on. La demostraci
on se sigue de la parte 3) y 2) del teorema 2.14

2.3. Estadsticos de Orden para una M.A.S.


Definici
on 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos

X1:n = mn{X1 , . . . , Xn }

X2:n = mn {X1 , . . . , Xn } \ {X1:n }
..
.

Xn:n = mn {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }

se tiene entonces que X1:n Xn:n


Teorema 2.20. Distribucion de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absoluta-
mente continua, entonces
n! j1 nj
fXj:n (x) = fX (x) FX (x) 1 FX (x)
(j 1)!(n j)!

on. FXj:n = P (Xj:n x) es decir, que al menos j variables sean menores o iguales
Demostraci
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
n n
X X k nk
P (Xj:n x) = P (Y j) = P (Y = k) = Ckn FX (x) 1 FX (x)
k=j k=j

entonces, derivando y usando q = 1 p


n
X n!  
fXj:n (x) = kpk1 fX (x)q nk fX (x)(n k)q nk1 pk
(n k)!k!
k=j

n n1
X 1 X 1
= fX (x)n! pk1 q nk pk q nk1
(n k)!(k 1)! (n k 1)!k!
k=j k=j

n n
X 1 X 1
= fX (x)n! pk1 q nk pk1 q nk
(n k)!(k 1)! (n k)!(k 1)!
k=j k=j+1
1
= fX (x)n! pj1 q nj
(n j)!(j 1)!

13
Captulo 2. Muestreo aleatorio simple

n1 n1
Observaci
on 2.21. fXmax (x) = nfX (x) FX (x) y fXmin (x) = nfX (x) 1 FX (x)
( + ) 1
Definici
on 2.22. Si X tiene densidad f (x) = x (1 x)1 I(0,1) (x) decimos que X v
()()
Beta(, )

Observaci
on 2.23. Si X v Beta(, ) entonces E(X) = /(+) y V ar(X) = .
( + )2 ( + + 1)
on 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n j + 1).
Observaci

14
Captulo 3

Teora de la Estimaci
on, m
etodos
de estimacion

3.1. Algunas definiciones previas


Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|) donde Rk es un
par
ametro desconocido.
Definicion 3.1. Sea : Rn Rk medible, independiente de , entonces (X
1 , . . . , Xn ) : Rk
es un estimador de .
Ejemplo 3.2. Si X v N (, 2 ) y = (, 2 ) entonces si definimos
n
!
1 , . . . , xn ) = x1 + + xn 1 X x1 + + xn
(x , xi : Rn R2
n n 1 i=1 n

entonces
1 , . . . , Xn ) = (Xn , S 2 )
(X n
es un estimador de .
Observemos que si bien es un vector, es un vector aleatorio a valores en Rk .
Definici on 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|) y es un estimador, decimos que
P c.s.
es debilmente consistente si . Decimos que es fuertemente consistente si
Ejemplo 3.4. Si X v N (, 2 ) y = (Xn , Sn2 ) entonces es fuertemente consistente.
Notacion: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parametro
. Por ejemplo si X v N (, 2 ) = (, 2 ) entonces (H) = R R+ .

3.2. M
etodo de los momentos
Si X1 , . . . , Xn es una M.A.S. de X v F (X|) y = (1 , . . . , k ) Rk y X L1 . Consideremos
el sistema
E(X) =


Xn
n

1X 2
E(X 2 ) = Xi


n i



.. ..


. .
n

k 1X k
E(X ) = Xi


n i

15
Captulo 3. Teora de la Estimacion, metodos de estimacion

Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos
muestrales. Los i aparecen en los momentos poblacionales y si despejamos las k incognitas de las
k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solucion
ni ser u
nica. Observemos que por la ley fuerte, los estiamdores que se despejan para cada i son
consistentes.

Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y = (a, b) entonces el metodo de los momentos
es 
1/2(b a) = P Xn
1/12(b a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2
Si despejamos b en la primer ecuaci
on y sustituimos en la segunda obtenemos las soluciones
q q
a = Xn 3(M2 Xn ), b = Xn 3(M2 Xn )

Como (H) = {(a, b) R2 : a < b} descartamos soluciones y nos queda


q q
= Xn 3(M2 Xn ), b = Xn + 3(M2 Xn ).
a

Teorema 3.6. M etodo de los momentos, existencia de soluci on: Si F : (H) Rk Rk


es tal que F (1 , . . . , n ) = (E(X), E(X ), . . . , E(X )), entonces, si F es inyectiva, F 1 y F son
2 k

continuas y si Xn , M2 , . . . , Mk F (H) c.s. entonces los estimadores por momentos convergen c.s.
a 1 , . . . , k .
on. F (1 , . . . , n ) = (M1 , . . . , Mk ) entonces (1 , . . . , k ) = F 1 (M1 , . . . , Mk ), como
Demostraci
c.s.
M1 = Xn E(X)
..
.
1 X k c.s.
Mk = Xi E(X k )
n i

y F 1 es continua entonces
c.s.
(1 , . . . , k ) = F 1 (M1 , . . . , Mk ) F 1 E(X), . . . , E(X k )


= F 1 F (1 , . . . , k ) = (1 , . . . , k ),


de donde es fuertemente consistente.

3.3. M
etodo de M
axima Verosimilitud
Definici on de Verosimilitud: Dada una M.A.S. de X v F (X|) (H) Rk
on 3.7. Funci
n
Y
L(, x
) = fX (xi |) si X es absolutamente continua
i=1
Yn
L(, x
) = pX (xi |) si es discreta
i=1

), dicho es el
El metodo consiste entonces en hallar (H) donde se realice max(H) L(, x
estimador de m axima verosimilitud (E.M.V.) de . El metodo no asegura la existencia y/o unicidad

de .

16
Captulo 3. Teora de la Estimacion, metodos de estimacion

Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp() entonces la funcion de verosimilitud para
es
Yn X
L() = exp{xi } = n exp{ xi },
i=1 i

con xi 0 i, derivando obtenemos


( !)
X X
0 n1
L () = exp xi n xi ,
i i

n 1
y por lo tanto, como 6= 0, si hacemos L0 () = 0 obtenemos = P = , es facil ver, mirando
i xi Xn
el signo de L0 () que es un m
aximo.
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la funcion de verosimilitud
es entonces
1 1
n
( (
Y 1 si 0 < x1 , . . . , x n < b si b > max{x1 , . . . , xn }
L(b) = I[0,b] (xi ) = b n = bn
i=1
b 0 si no 0 si no

on 1/bn es decreciente obtenemos que b = xn:n = max{x1 , . . . , xn }.


Como la funci
Observacion 3.10. Interpretaci on del m
etodo: Para el caso discreto, si tenemos X1 , . . . , Xn
una M.A.S. y X v pX (X|) entonces
n
Y n
Y
L(|
x) = pX (xi |) = P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |),
i=1 i=1

esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en funcion de . El metodo busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el que haga que la
muestra sea m as probable.

Principio de invarianza del E.M.V.: Supongamos que tenemos un parametro (H) y


g : (H) R, y que estamos interesados en estimar g() por el metodo de maxima verosimilitud, es
que haga que la muestra sea mas probable. Queremos maximizar
= g()
decir queremos encontrar M
entonces
L (M |
x) = sup L(|
x),
{:g()=M }

Veremos que si M = E.M.V. de g(), es decir donde se realiza el maximo de L entonces M


= g()
siendo = E.M.V de . En efecto:
|
L (M x) = sup L (M |
x) = sup sup L(|
x) = sup L(, x x)
) = L(|
M M {:g()=M } (H)

y
x
L (g(), ) = sup L(| x).
x) = L(|

{:g()=g()}

es E.M.V. de g().
Entonces g()
Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es p = Xn , como 2 = p(1 p) = g(p)
por el Principio de Invarianza 2 = g(
p) = p(1 p).
P
Observaci on 3.12. Si h() = log(L()) = log(fX (xi |) podemos, dado que log(x) es una funcion
creciente, tomar el que maximiza h()

17
Captulo 3. Teora de la Estimacion, metodos de estimacion

Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|) y (H) R donde
(H) es tal que si 0 es el valor exacto de entonces > 0 tal que (0 , 0 + ) (H), si
h() = log(L()) es derivable como funcion de y ademas f (x|) = f (x|0 ) implica = 0 c.s.
entonces
c.s.
n (H) tal que h(n ) = 0 y n 0

Demostraci
on.
n n n  
X X X f (xi |0 )
h(0 ) h(0 ) = log((f (xi |0 )) log((f (xi |0 ))) = log
i=1 i=1 i=1
f (xi |0 )

entonces
    
h(0 ) h(0 ) 1X f (xi |0 ) L.F.G.N. f (xi |0 )
= log E log c.s.,
n n f (xi |0 ) f (xi |0 )

como log es una funci


on convexa, usando la desigualdad de Jensen y la inyectividad.
     
f (xi |0 ) f (xi |0 )
E log < log E ,
f (xi |0 ) f (xi |0 )

por otro lado


  + +
f (xi |0 ) f (x|0 )
Z Z
E = f (x|0 )dx = f (x|0 )dx = 1.
f (xi |0 ) f (x|0 )

Luego el lmite anterior es negativo. Lo mismo para 0 . Definamos


  
n h(0 ) h(0 ) c.s. f (xi |0 ) o
A = : E log <0 .
n f (xi |0 )

Por la L.F.G.N. P (A ) = 1. Fijado Aj existe n0 = n0 (, ) tal que h(0 ) > h(0 ) n n0 ,



existe n tal que h(n ) = 0. Definamos

n o
B = : n (0 , 0 + ) y h(n ) = 0 .

Como A B tenemos que P (B ), si tomamos = 1/n,

!
\
P B1/n = 1.
i=1

c.s.
on n verifica n 0 y es cero de
La sucesi
h.

Observaci
on 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.
P d d
Lema 3.15. Lema de Slutsky: Si Xn c y Yn Y con c constante entonces Xn +Yn c+Y
d
y Xn Yn cY .
d P
Recordemos que Xn c Xn c.

Teorema 3.16. Normalidad asint otica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|),
supongamos que existe > 0 tal que (0 , 0 +) (H), si se cumplen, para todo (0 , 0 +)
c.s.
1) {n } variables aleatorias tal que h(n ) = 0 n y n 0

18
Captulo 3. Teora de la Estimacion, metodos de estimacion

3
 
2) E h(| con E(M (X))
x) M (X) < .
3
!

f (x|)
3) E = 0.
f (x|)

2
!
2 f (x|)
4) E = 0.
f (x|)
!2

f (x|)
5) i() := E > 0, el n
umero i se denomina n
umero de informacion de Fischer.
f (x|)

Entonces

 
 d 1
n n 0 N 0,
i(0 )
Demostraci
on. La demostraci
on ser
a una consecuencia de dos afirmaciones:
1
Afirmaci on 1: h(0 ) N (0, i(0 ))
n
1 P
Afirmaci on 2: n(n 0 ) h(0 ) 0.
ni(0 )
Veamos primero c omo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir

 
1 1
n(n 0 ) = n(n 0 ) h(0 ) + h(0 )
ni(0 ) ni(0 )
Veamos la demostraci
on de la Afirmacion 1:
n n
1 1 X f (xi |0 ) 1 X f (xi |0 )
h(0 ) = = n = nZ n .
n n i=1 f (xi |0 ) n i=1 f (xi |0 )

otesis 3) y V ar(Zi ) = E(Zi2 ) E 2 (Zi ) = i() > 0 por la hipotesis 5). Luego,
E(Zi ) = 0 por la hip
d
si aplicamos el T.C.L. tenemos que nZ n N (0, i(0 )). Lo que concluye la demostracion de la
afirmacion 1.

Veamos la demostraci
on de la Afirmacion 2: podemos escribir, usando el desarrollo de Taylor y
la hip
otesis 1,

2 3 (n 0 )2
0= h(n ) = h(0 ) + 2 h(0 )(n 0 ) + 3 h(n )
2

donde n [0 , n ], despejando obtenemos



h(n )
n 0 =
2
2 h(0 ) +
3 (n 0 )
3 h(n )
2

y

1 h(n ) n 1
n(n 0 ) h(0 ) = 2 ( )
h(0 ) =
ni(0 ) 3
n 0 ni(0 )
2 h(0 ) + 3 h(n ) 2
" #
1 1 1
h(0 ) (3.1)
n 1 2 1 3 (n 0 ) i(0 )
n 2 h(0 ) + n 3 h(n ) 2

19
Captulo 3. Teora de la Estimacion, metodos de estimacion

1 d
Nuevamente, como h(0 ) N (0, i(0 )), por el lema de Slutsky, la afirmacion 2 queda
n
demostrada si probamos que la expresi on entre [] tiende en probabilidad a 0 (o lo que es lo mismo,
en distribuci
on a 0).
Sabemos que
1 3 (n 0 ) P
h(n ) 0,
n 3 2
P P
donde hemos usado que si Xn 0 y si E(Yn ) k n entonces Xn Yn 0.
 2   2

| |
n
! n
2 f (x| ) f (x ) f (x )
f (xi |0 )
1 1 X 1 X 2 0 i 0 i 0
h(0 ) = = 2 .
n 2 n i=1 f (xi |0 ) n i=1

f (xi |0 )

Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hip
otesis 4:  
2 !2
2 f (x |
i 0 ) f (x | )
i 0
f (x|)
E 2 E = i(0 )
f (x|)

f (x|0 )
de donde se concluye que la expresi
on entre [] en 3.1. converge en probabilidad a 0 como queramos
demostrar.
Observaci
on 3.17. Sobre las hip
otesis del teorema anterior
1) Es la tesis del Teorema 3.13.
!
Z + Z +
f (x|) f (x|)
3) E = f (x|)dx = f (x|)dx, observemos que si pudiera-
f (x|) f (x|)
Z +

mos aplicar convergencia dominada f (x|)dx = 1 = 0.

4) An
alogo a 3).

f (x|)
5) Por 3), 5) es pedir que no sea constante.
f (x|)

3.4. m
etodo de estimaci
on por cuantiles
on 3.18. Cuantil o percentil p: Sea X v.a., dado p (0, 1) el cuantil p es
Definici

xp = nf x R : FX (x) p

Observaci
on 3.19. xp existe, y es mnimo
Demostraci on. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es
tal que F (xn ) p y xn p, como F es continua por derecha

lm F (xn ) = F (lm xn ) = F (xp ) p.


n n

Definici
on 3.20. Percentil emprico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra
ordenada X1 = X1:n Xn = Xn:n , entonces

Xnp si np N
Xp =
X[np]+1 si np
/N

20
Captulo 3. Teora de la Estimacion, metodos de estimacion

Pk
El metodo consiste en plantear la funcion g() = i=1 (Xpi xpi )2 donde los pi y k son cuales-
quiera. Lo que se busca es el mnimo de g(). El argumento que minimiza g() sera y dependera de
los cuantiles empricos Xpi .
1
Ejemplo 3.21. Si X v (, 2 ), entonces fX (x|, 2 ) =  .
x 2

1 +
acil ver que E(X) = y que su mediana es . Vamos a estimar = (, 2 ) por el metodo
Es f
de cuantiles. Tomamos k = 4, Q1 = X 0,25 , Q2 = X
0,5 y Q3 = X
0,75 , estimadores de los cuartiles.
Entonces, la funci
on a minimizar es

g(, 2 ) = (Q1 x0,25 )2 + (Q2 x0,5 )2 + (Q3 x0,75 )2

Calculemos los cuartiles x0,25 , x0,5 y x0,75 en funcion de y .


 
2 1 1 x
FX (x|, ) = + arctan
2
 
x
Si hacemos FX (x|, 2 ) = 0,25 entonces arctan = de donde x = . Analogamente
4
x0,5 = y x0,75 = + (estos valores se calculan facilmente a partir de x0,25 usando la paridad de
fX ). Luego, la funci
on a minimizar resulta entonces

g(, 2 ) = (Q1 + )2 + (Q2 )2 + (Q3 )2

Derivando esta funci


on respecto de y de , el gradiente resultante se anula en
Q1 + Q2 + Q3 Q3 Q1

=
=
3 2

3.5. Estimaci
on de la funci
on de Distribuci
on
Definici
on 3.22. Distribuci on Emprica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es
desconocida, la distribuci
on emprica se define como
n
1X
Fn (x) = I(,x] (Xi )
n i=1

Observemos que en cada x nos da la proporcion de observaciones menores o iguales que x, y que,
para x y n fijos, Fn (x) es una v.a. Observemos ademas que si xi 6= xj i 6= j los incrementos de Fn
son n , y de tama no 1/n.
c.s.
on 3.23. Fn (x) F (x) x R.
Proposici
Demostraci on. Es una consecuencia inmediata de la L.F.G.N a las variables I(,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadstica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces
c.s.
kFn FX k = sup Fn (x) FX (x) 0

xR
.
Demostraci
on. Para la demostraci
on vamos a necesitar el siguiente lema:

Lema 3.25. Yn = supxR Fn (x) FX (X) es una v.a., es decir, es medible.

21
Captulo 3. Teora de la Estimacion, metodos de estimacion

on. Basta demostrar que {Yn } A f orall.


Demostraci

{Yn } = |Fn (x) FX (x)| x R = F (x) Fn (x) F (x) + x R


 
\
F (x) Fn (x) F (x) +

=
xR

Basta demostrar que


\ \
F (x) Fn (x) F (x) + = F (x) Fn (x) F (x) +

xR xQ

Fijemos x R, dado > 0 y Q, y x tal que


1) Fn (y) Fn (x) pues Fn es continua por derecha.
2) F (y) F (x) pues F es continua por derecha.

3) F (y) Fn (y) F (y) + .


Podemos escribir entonces
xy 3 1 xy 3 2
F (x) F (y) Fn (y) Fn (x) Fn (y) F (y) + F (x) + +

y por lo tanto
F (x) Fn (x) F (x) + + > 0
entonces
F (x) Fn (x) F (x) + .
lo cual concluye la demostraci
on del lema.
Veamos la demostraci on del teorema, para el caso continuo, dado x R sea Ax = { :
lmn Fn (x) =
 F (x)}. Por la proposici
on anterior sabemos que P (Ax ) = 1 para todo x. Luego
T
P xQ Ax = 1.
Sea A := xQ Ax , basta ver que A { : lmn supxR |Fn (x) FX (x)|0}. Sea > 0.
T
Como lmx+ F (x) = 0 existe k1 Q tal que x < k1 F (x) < .
Como lmx+ F (x) = 1 existe k2 Q tal que x > k2 1 F (x) < .
Como F es uniformemente continua en [k1 , k2 ] existe k1 x2 < . . . < xm k2 Q tal que
F (xk+1 ) F (xk ) < para todo k = 2, . . . , m 1.
Luego si tomamos = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < + = xm+2 se verifica
que F (xk+1 ) F (xk ) < para todo k = 0, . . . , m + 1. Si x R existe k {0, . . . , m + 2} tal que
xk x xk+1 entonces
1 2
Fn (x) Fn (xk+1 ) F (xk+1 ) + F (x) + + = F (x) + 2,

donde 1 es porque xk+1 Q y hemos tomado A. Esta desigualdad vale para n > n0 , que no
depende de x. La desigualdad 2 se sigue de que F (xk+1 ) F (xk ) + F (x) + . Razonando de
forma an
aloga llegamos a que, para n > n1 , para todo x tenemos que

F (x) 2 Fn (x) F (x) + 2

de donde
lm sup |Fn F | = 0.
n+

22
Captulo 3. Teora de la Estimacion, metodos de estimacion

3.6. Convergencia casi segura de Percentiles


Teorema 3.26. Dado p (0, 1) tal que > 0 F (xp + ) > p entonces el percentil emprico
c.s.
Xp,n x p .
Demostraci
on. Observemos que
1

n np = p si np N
Fn (Xp,n ) = 1 .
n ([np] + 1) p si np
/N
n n
dado > 0 sabemos que Fn (xp + ) F (xp + ) > p c.s. y Fn (Xp.n ) p por lo tanto n n0 se
c.s. n
cumple que Fn (Xp,n ) < Fn (xp + ), de donde Xp,n < xp + . Ademas Fn (xp ) F (xp ) < p
c.s
p,n
y, razonando de forma an aloga xp < xp . Por lo tanto X xp .

23
Captulo 4

Evaluaci
on de Estimadores

Definici
on 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|) y T = Tn (X1 , . . . , Xn )
estimador de g() con g a valores reales, conocida. Decimos que

Tn es insesgado si E(Tn ) = g() (H)


n
oticamente insesgado si E(Tn ) g()
Tn es asint

Definici
on 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )g()
2
Definici
on 4.3. Error cuadratico medio: Se define E.C.M (Tn ) = E Tn g()
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mnimo.

on 4.4. Estimador de mnima varianza: Sea Tn un estimador de g() tal que Tn L2 ,


Definici
decimos que es insesgado en 0 (H), de varianza mnima si
i) Tn es insesgado en 0
ii) Si Tn0 L2 es insesgado en 0 V ar0 (Tn ) V ar0 (Tn0 ).
 R
Observaci on 4.5. E Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|)
Observacion 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mnima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en 0 si y solo si
E0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que E (f ) = 0.
Demostraci
on. Para demostrar el teorema sera necesario el siguiente lema
Lema 4.8. Tn es insesgado de mnima varianza en 0 si y solo si Tn es insesgado y V ar0 (Tn )
V ar0 (Tn + f ) para todo R , para todo f tal que E0 (f ) = 0.
Demostraci on. Veamos el directo, sea y f tal que E0 (f ) = 0, Tn0 = Tn + f es insesgado pues
E(Tn + f ) = E(Tn ) + E(f ) = E(Tn ) = g(). Como Tn es de mnima varianza V ar0 (Tn )
V ar0 (Tn0 ).
Para demostrar el recproco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 Tn ), tomemos
f = Tn0 Tn y = 1 entonces E(f ) = 0, luego, por hipotesis

V ar0 (Tn ) V ar0 (Tn + f ) = V ar0 (Tn0 ).

24
Captulo 4. Evaluacion de Estimadores

on del teorema. Por el lema basta ver que V ar (Tn ) V ar0 (Tn +f )
Veamos ahora la demostraci
si y solo si E0 (f Tn ) = 0.

V ar0 (Tn + f ) = V ar(Tn ) + 2 V (f ) + 2cov(Tn , f ) V ar0 (Tn ) R


2 V ar0 (f ) + 2cov(Tn , f ) 0 R
p() = 2 V ar0 2cov(Tn , f ) 0 cov(Tn , f ) = 0,

de lo contrario p tendr
a 2 raices.

cov(Tn , f ) = E(Tn f ) E(Tn )E(f ) = 0 E(Tn f ) = 0.

Definici
on 4.9. Estimador insesgado de mnima varianza uniformemente: Tn es estimador
I.M.V.U. si es insesgado de varianza mnima (H).
Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(), = 1/. Un estimador de es Xn , veamos
c.s.
que es de mnima varianza. Sabemos que Xn E(X) = 1/ = . Si f es tal que E(f ) = 0 para
todo . Z X
E(f ) = f (x1 , . . . , xn )n exp{ xi }dx1 . . . dxn = 0
[0,+)n

entonces Z X
f (x1 , . . . , xn ) exp{ xi }dx1 . . . dxn = 0 R.
[0,+)n

Veamos que E(f Xn ) = 0.


Z n
1 X  n X
E(f Xn ) = f (x1 , . . . , xn ) xi exp{ xi }dx1 . . . dxn = 0
[0,+)n n i=1
Z n
1 X  X
f (x1 , . . . , xn ) xi exp{ xi }dx1 . . . dxn = 0
[0,+)n n i=1
Z
 X 
f (x1 , . . . , xn ) exp{ xi } dx1 . . . dxn = 0
[0,+)n
Z
 X 
f (x1 , . . . , xn ) exp{ xi } dx1 . . . dxn = 0
[0,+)n

Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos


que es de mnima varianza, sea f tal que E(f ) = 0

X n
Y
E(f ) = f (x1 , . . . , xn ) p(xi |p)
(x1 ,...,xn ){0,1}n i=1
X P P
xi
= f (x1 , . . . , xn )p (1 p)n xi

(x1 ,...,xn ){0,1}n


n
X X P P
xi
= f (x1 , . . . , xn )p (1 p)n xi

k=0 x1 ++xn =k
n
" #
X X
= f (x1 , . . . , xn ) pk (1 p)nk = 0
k=0 x1 ++xn =k

25
Captulo 4. Evaluacion de Estimadores

Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus
coeficientes son nulos. Luego si calculamos
n
!
X X k k
E(f Xn ) = f (x1 , . . . , xn ) p (1 p)nk = 0
n
k=0 x1 ++xn =k

Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|). Si Tn


es un estimador insesgado de g(). Asumiremos que estamos en las hipotesis de derivacion dentro
de la integral, es decir que
Z n
!
Y
E(Tn ) = Tn fX (xi |) dx1 . . . dxn
Rn i=1

y
Z n Z n
Y Y
fX (xi |)dxi = fX (xi |)dxi ,
Rn i=1 Rn i=1
entonces
g 0 ()

V ar(Tn ) 
2 .
f (x|)
nE f (x|)

Adem
as, el igual se da si y solo si existe = (n, ) tal que
n
c.s. f (xi |)
X
Tn (X1 , . . . , Xn ) g() = .
i=1
f (xi |)

Demostraci
on.
Z n
0 Y
g () = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|)dx1 . . . dxn
Rn i=1
Z " n
#
Y
= Tn (x1 , . . . , xn ) fX (xi |) dx1 . . . dx n
Rn i=1
Z n
 Y
= Tn (x1 , . . . , xn ) g() fX (xi |)dx1 . . . dxn
Rn i=1
r
Qn
fX (xi |)
Z
 Yn
= Tn (x1 , . . . , xn ) g() fX (xi |) pQni=1

dx1 . . . dxn
i=1 fX (xi |)
Rn i=1

26
Captulo 4. Evaluacion de Estimadores

entonces, si aplicamos la desigualdad de Cauchy-Schwartz


n
Qn 2
Q i=1 fX (xi |)
Z Z
2 2 Y
g 0 () Tn g() fX (xi |) n
Rn i=1 Rn i=1 fX (xi |)

Qn 2
Q i=1 fX (xi |)
Z
=V (Tn ) n
Rn i=1 fX (xi |)

Q n 2 !2
Q i=1 f X (x i |)
=V (Tn )E n
i=1 fX (xi |)
n
!2
Y
=V (Tn )E log fX (xi |)
i=1
 2

=V (Tn )E log(fX (xi |))

!2
X f (xi |)

=V (Tn )E .
f (xi |)


f (xi |)
Definamos g(Xi ) = .
f (xi |)
X 2 X X X
g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2
  
E g(Xi ) = E E g(Xi )g(Xj ) .
i6=j i6=j
 
Basta ver
 que E g(X
 i )g(Xj ) = 0 para todo i 6
= j. Como son independientes E g(Xi )g(Xj ) =
E g(Xi ) E g(Xj ) .

f (xi |)
Z
E(g(Xi )) = f (xi |)dx
R f (xi |)
Z

= f (xi |)dx = 0.
R

Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe = (n, ) independiente de x1 , . . . , xn tal que

Q
qY
fX (xi |)
(Tn g()) fX (xi |) = pQ
fX (xi |)

y esto sucede si y solo si



Q
Q fX (xi |)  Y  X 
Tn g() = = log fX (xi |) = log fX (xi |)
fX (xi |)

fX (xi |)
X
=
fX (xi |)

Definicion 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g() y cumple el


igual en la desigualdad de Cramer-Rao se dice que es eficiente
on 4.14. Si es un estimador de , es eficiente si y solo si
Observaci
i) es insesgado

27
Captulo 4. Evaluacion de Estimadores

= 1
ii) V ar() 
2
f (x|)
nE f (x|)

Observaci on 4.15. Observemos que si es eficiente, es de mnima varianza (entre el conjunto de


estimadores que estan el las hip
otesis del Teorema de Cramer-Rao). Podria no existir un estimador
eficiente, adem
as, existen estimadores de mnima varianza que no cumplen la igualdad.
Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y ademas

!2 2 !
p p(x|p)

1 1 1 1
nE =n 2
p+ (1 p) = n = ,
p(x|p) p 1p p(1 p) V ar(X)

por lo tanto p = Xn es eficiente. Como Xn es eficiente es de mnima varianza varianza ya que X es


de recorrido finito.
Definici on 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para si y solo si FX1 ,...,Xn |T no depende de .
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostraci
on.
P (X1 , . . . , Xn , T = t)
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = =
P (T = t)
( P
0 si t 6= xi
P (X1 =x1 )...P (Xn =xn ) P
P (T =t) si t = xi
P P
xi
p (1 p)n xi
= n
Ct pt (1 p)nt
1
= n.
Ct
Que no depende de p, hemos usado que T v Bin(n, p).
Qn 
x|) =
Teorema 4.19. T es suficiente para si y solo si L( i=1 f (xi |) = g T (
x), h(
x)
Demostraci
on. (Caso discreto:)
n
Y n
Y
x|) =
L( pX (xi |) = P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |) =
i=1 i=1
P (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(
x)g(T (
x, ))

Veamos el recproco, supongamos que P (T = t) > 0.


P (X1 = x1 , . . . , Xn = xn , T = t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
P (T = t)
(
0 si t 6= T (
x)
= P (X1 =x1 ,...,Xn =xn )
P (T =t) si t = T (x)

Para el caso en que t = T (


x)
P (X1 = x1 , . . . , Xn = xn ) g(T (x))h(x)
P (X1 = x1 , . . . , Xn = xn |T = t) = P =P .
y )=t P (X1 = y1 , . . . , Xn = yn )
y:T ( y )=t g(T (
y:T ( y ), )h(
y)

28
Captulo 4. Evaluacion de Estimadores

Observemos que, dado que estamos en el caso T ( x) = t y g(T ( x), ) = g(t, ) = g(T (
y ), ). Por
lo tanto
h( x)
P (X1 = x1 , . . . , Xn = xn |T = t) = P .
y )=t h(
y:T ( y)
Que no depende de .
Ejemplo
P 4.20. Sea X1 , . . . , Xn M.A.S. de X v N (, 2 ). Estimamos y 2 , consideremos T (
x) =
2
P
( xi , xi ) = (T1 , T2 ).
n  
Y 1 1
L(x|(, )) = exp 2 (xi )2
i=1
2
( n
)
1 1 X 2
= exp 2 (xi )
(2)n/2 n 2 i=1
( n n
)
2 n
X X
2 2
= (2 ) 2 exp xi 2 xi + n
i=1 i=1
 
n 1
n exp 2 T2 2T1 + n2 .

= (2) 2
2
Por lo tanto si definimos
 
n 1
x), (, 2 ) = n exp 2 T2 2T1 + n2 .
x) = (2) 2 y g T (
 
h(
2
De donde T es suficiente.
Observaci on 4.21. Siempre existe un estimador suficiente, basta tomar T (
x) = x
y h constante.
Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
 Q 1

ba si a < xi < b
L x |(a, b) =
0 si no
(b a)n si

a < xi < b
=
0 si no
(b a)n si

a < x1:i ; xn:n < b
=
0 si no
(b a)n si

a < T1 ; T2 < b
=
0 si no

Luego T (
x) = (T1 , T2 ) es suficiente.
Observaci on 4.23. Si T es fuciente, el E.M.V. es funci on de un estimador suficiente, ya que
x|) = g(T (
en este caso L( x), )h(
x), y, al maximizar en como h no vara, podemos maximizar
solamente en g(T (
x), )
Definicion 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para
todo T 0 estimador suficiente, T es funci
on de T 0 .
Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|), si T es un estimador que cumple:
x|)
L(
no depende de T (
x) = T (
y)
y |)
L(
entonces T es suficiente minimal.

29
Captulo 4. Evaluacion de Estimadores

Demostraci
on. Veamos primero que T es suficiente, podemos escribir, tomando y tal que T (
y) =
T (
x)
x|)
L( 
L(x|) = y |) = h(
L( y |) = h(
x)L( x)g T (
x), ) .
y |)
L(
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funcion de
verosimilitud.
Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(x|) = g 0 T 0 (
x), h0 (

x).
y y, T 0 (
Sea x x) = T 0 (
y ) entonces

x|)
L( g 0 (T 0 (
x), )h0 (x) h0 (
x)
= 0 0 = ,
y |)
L( g (T ( y ), )h0 (
y) h0 (
y)

que no depende de , entonces, usando el directo de nuestra hipotesis tenemos que T ( x) = T (


y ).
Hemos demostrado que cada ves que T 0 (
x) = T 0 (
y ) entonces T (
x) = T (
y ). Veamos que esto implica
que T = f (T 0 ). Definimos para z
/ Im(T 0 ) f (z) cualquier cosa, y para z Im(T 0 ) entonces
0
z = T (x) y f (z) := T (x).
Definicion 4.26.  Estadstico Completo: T se dice completo si toda vez que tenga una funcion
g tal que E g(T ) = 0 para todo (H) implica que g(T ) = 0 c.s.

Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, ) veamos que = xn:n es completo.


+
tn1 1
Z Z Z
n
E(g(T )) = g(t)fT (t)dt = g(t)n n1 dt = n tn1 g(t)dt,
0 0
R
luego E(g(T )) = 0 si y solo si 0 tn1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., n1 g() = 0 entonces g() = 0 para todo .
Definici
on 4.28. funci erdida: Sea (H) y L : (H) (H) R que verifica
on de P
i) L(u, v) = L(v, u) para todo u, v (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,

para todo p, q (H) (H) L(p + (1 )q) L(p) + (1 )L(q).

se denomina funci
on de perdida.
on 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo
Observaci
Definici
on 4.30. funci on de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|) y (H) des-
conocida, dado T (X1 , . . . , Xn ) estimador de y L una funcion de perdida, definimos la funcion de
riesgo 
R(, T ) = E L(, T ) .
Definici
on 4.31. Estimador de riesgo mnimo, uniformemente entre los insesgados: T
es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que

R(, T ) R(, T 0 ) (H).

Teorema 4.32. Rao-Blackwell: Si (X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente,


entonces 
(X1 , . . . , Xn ) = E (X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,
entonces
R(, ) R(, ).

30
Captulo 4. Evaluacion de Estimadores

Demostraci
on.
  
R(, ) = E L(, ) = E L(, E(|T )) = E L(E(, |T ))
 
E E(L(, )|T ) = E L(, ) .
Donde hemos usado la desigualdad de Jensen.
Observaci on 4.33. En la demostraci
on anterior, la hip
otesis de que T es suficiente es necesaria
para que sea un estimador de .
Observaci on 4.34. es insesgado E() = E(E(|T )) = E() = .
 
Lema 4.35. Sea T suficiente, y T (X  1 , . . . , Xn ) tal que si
 f T (X1 , . . . , Xn ) es una funci
on de
T insesgada entonces T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces (T ) es uniformemente
de mnimo riesgo entre los insesgados.
Demostraci on. Sea insesgado, por Rao-Blackwell, como T es suficiente R(, ) R(, ), sea
= E(|T ) es una funcion de T y es insesgado entonces por hipotesis f (T ) = (T ) c.s.. Entonces
= (T ), y R(, (T )) R(, ), donde es arbitrario dentro de los insesgados, por lo tanto es
uniformemente de mnimo riesgo.
Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) (T (X1 , . . . , Xn )) son insesgados entonces en-
tonces
f (T (X1 , . . . , Xn )) = (T (X1 , . . . , Xn )) c.s.
Demostraci on. E(f (T ) (T )) = 0 para todo (H), como T es completo, tomamos g(T ) =
f (T ) (T ) entonces E(g(T )) = 0 para todo (H), entonces g = 0 c.s..
Teorema 4.37.
1) Si T es suficiente y completo y es insesgado entonces E(|T ) minimiza el riesgo uniforme-
mente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre
los insesgados.
Demostraci
on.
1) Sea (T ) = E(|T ), entonces es insesgado ya que lo es. Si f (T ) es insesgado, por el Lema
4.36 f (T ) = (T ) c.s., entonces, por el Lema 4.35 (T ) minimiza el riesgo uniformemente
entre los insesgados.
2) Tomamos = E(T |T ) = T y se concluye usando la parte anterior.

Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces p = Xn es uniformemente de


mnimo riesgo entre los insesgados. Como ya vimos p es insesgado y suficiente como ya vimos, veamos
que es completo.
X
0 = E(g( p)) = g(x)P (X1 = x1 , . . . , Xn = xn )
x1 ,...,xn {0,1}
n  
X X k
= g pk (1 p)nk
n
k=0 x1 ++xn =k
n  
X k
= g k
p (1 p)nk Ank = 0 p
n
k=0
X  k   p k k!
= (1 p)n g .
n 1p (n k)!

31
Captulo 4. Evaluacion de Estimadores

Como p (0, 1) y tomamos t = p/(1p). Luego, tenemos un polinomio de grado n, en t con infinitas
raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.

32
Captulo 5

Estimacin por intervalos de


confianza

Definicion 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|) con desco-


nocido, R. Un intervalo de confianza al nivel 1 con (0, 1) es
 
I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) ,

donde L y U son estimadores y P ( I) = 1 .


Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (, 2 ) con 2 conocido,
tomamos = . Buscamos un intervalo de la forma
 
X n k, X n + k .

Debemos hallar k tal que P ( I) = 1 , entonces

1 =P (X n k X n + k)
=P ( k X n + k)
   
+k k
=
/ n / n
   
nk nk
=

 
nk
=2 1,

donde en la tercer igualdad hemos usado que X v N (, 2 /) y en la ltima la paridad de . Por lo


tanto obtuvimos que
 
nk nk
1 /2 = entonces = 1 (1 /2),

y por lo tanto tomamos

k = 1 (1 /2).
n
Notacin: Anotaremos Zp = 1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es  
X n Z1/2 , X n + Z1/2 .
n n

33
Captulo 5. Estimacin por intervalos de confianza

Ejemplo 5.3. Se X v N (, 2 ) con 2 desconocido, y = , buscamos un intervalo de la forma


 
X n kSn , X n + kSn .

n|X n |


P ( I) = P |X n | kSn = P nk .
Sn
Recordemos que
n(X n )
v Tn1 ,
Sn
entonces

P ( I) =P nk T nk

=FT ( nk) FT ( nk)

=2FT ( nk) 1 = 1 ,

donde hemos usado la simetra de F . Despejando obtenemos


FT1 (1 /2) t1/2 (n 1)
k= = ,
n n
donde usamos la notacin FT1 (p) = tp (n 1) donde n 1 son los grados de libertad. Por lo tanto el
intervalo de confianza para al nivel 1 es
 
Sn Sn
I = X n t1/2 (n 1), X n + t1/2 (n 1) .
n n
c.s.
Obervemos que como Sn entonces

n(X n ) d
Tn = N (0, 1), tp (n 1) Zp .
Sn
Ejemplo 5.4. Si X L2 cualquiera con E(X) = y V ar(X) = 2 , si n es grande, en vista de las
observaciones anteriores, un intervalo de confianza aproximado, para al nivel 1 es
 
Sn Sn
X n Z1/2 , X n + Z1/2 .
n n
Ejemplo 5.5. Si X v N (, 2 ) con desconocido, tomamos = 2 , busquemos a y b tal que
P aSn2 2 bSn2 = 1 ,


Recordemos que
Sn2
(n 1) v 2n1 ,
2
entonces
(n 1)Sn2
     
(n 1) n1 n1 n1
P ( 2 /b Sn2 2 /a) = P 2
=F F ,
b a a b
Basta elegir a tal que F ((n 1)/a) = 1/2 y b tal que F ((n 1)/b) = /2, de donde
n1 n1
a= b= ,
21/2 (n 1) 2/2 (n
1)

donde hemos usado la notacin F1 2


2 (p) = p (n 1), para la distribucin
2
con (n 1) grados de
libertad. Luego el intervalo es
" #
n1 n 1
I= S2 , .
21/2 (n 1) n 2/2 (n 1)

34
Captulo 5. Estimacin por intervalos de confianza

Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos = p, si aproximamos usando el T.C.L. es
facil ver, como 2 = p(1 p) y Sn = X n (1 Xn ), nos queda el intervalo
q q
Xn (1 Xn ) Xn (1 Xn )
I = Xn Z1/2 , Xn + Z1/2
n n

Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para = E(X) cuando
2 = f (). Consideremos X1 , . . . , Xn M.A.S. de X L2 y g : R R clase C 1 . Si g 0 () 6= 0, veamos
d
que n(g(Xn g()) N (0, (g 0 ())2 ) :

n(g(Xn g()) = ng 0 (Cn )(Xn ) = g 0 (Cn ) n(Xn ),
c.s. d
con Cn [Xn , ] o Cn [, Xn ], sabemos que g 0 (Cn ) g 0 () y n(Xn ) N (0, 2 ), por lo
tanto usando el lema de Slutsky

35
Captulo 6

Pruebas de hip
otesis

Supongamos que queremos saber si una moneda esta balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decision entre

H0 : p = 1/2 donde p = P (cara)


H1 : p 6= 1/2.

Definicion 6.1. Test de hip otesis: Dada X1 , . . . , Xn M.A.S. de FX (x|) con desconocido, un
test de hip
otesis es decidir entre 2 hip
otesis;

H0 : A hipotesis nula
H1 : B hipotesis alternativa

donde suponemos que A, B (H) y A B = .


Definici
on 6.2. Regi on Crtica: La region critica, que anotaremos como RC Rn con n el
tama
no de la muestra, es la zona de rechazo de H0 .
Definici on 6.3. Regla de decisi on: Si (x1 , . . . , xn ) RC entonces rechazo H0 , en caso contrario
si (x1 , . . . , xn )
/ RC no rechazo H0 (acepto H0 ).
Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar

RC = (x1 , . . . , xn ) {0, 1}n Rn : |Xn 1/2| k




Definici
on 6.5. Errores de tipo 1 y 2:

* error tipo 1: rechazar H0 siendo cierta


* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.
Definici
on 6.6. Significaci
on de una prueba:

= sup P (X1 , . . . , Xn ) RC = P ( error tipo 1 ).
A

on 6.7. Probabilidad del error tipo 2: definimos, para B


Definici

() = PH1 (X1 , . . . , Xn )
/ RC = P ( error tipo 2 ).

Definici
on 6.8. Potencia de la prueba: se define como

() = P (X1 , . . . , Xn ) RC

36
Captulo 6. Pruebas de hipotesis

on 6.9. () = 1() si B y () si A. En particualr si A es 0 (0 ) = .


Observaci
Ejemplo 6.10. Para el caso de la moneda, si tomamos = 0,05 es decir el 5 %, entonces 2 = 1/4.
= P1/2 (X1 , . . . , Xn ) [1/2 k, 1/2 + k]c


= P1/2 Xn [1/2 k, 1/2 + k]c




= P 20(Xn 1/2) [20k, 20k]c




= 1 (20k) + (20k) = 2 2(20k)



donde hemos usado la aproximacion de 100 (Xn 1/2) por una N (0, 1). Obtenemos entonces 20k =
Z0,975 de donde k = 0,098. Tenemos entonces la region crtica
RC = (x1 , . . . , xn ) Rn : |xn 1/2| 0,098 .


Como |0, 54 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.


Observaci on 6.11. La decisi on depende fuertemente del nivel al que trabajo. Concretamente si
elegimos = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 .
Calculemos (p) con p H1 = {1/2}c con
(p) = Pp (RC c )
= Pp (|Xn 1/2| < 0,098)
= P (0,402 < Xn < 0,598)

0,598 p 0,402 p
=
p(1p) p(1p)
100 100
 
Donde hemos usado que Xn v N p, p(1p)
100 .

Observaci on 6.12. Si construimos una RC con un nivel dado entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observaci on 6.13. En general, uno define la regi
on crtica a partir de un estimador insesgado
RC = {| 0 | k}.
Observaci on 6.14. Al permitir variar el tama
no de la muestra uno puede fijar los errores y y
hallar un n que verifique las igualdades.
Observaci on 6.15. Como el error de tipo 1 es m as grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia emprica
para decir que H0 es falso. No es que se acepte H0 .

6.1. Regi
on Crtica Optima, Teorema de Neyman-Pearson
Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|) absolutamente con-
tinua, y el test
H0 : = 0
H1 : = 1
( n
)
Y f (xi , 1 )
Sea Sk = k , si k es tal que
i=1
f (xi |0 )

PH0 (Sk ) = PH0 (X1 , . . . , Xn ) Sk = ,
entonces Sk es entre todas las RC de nivel la que tiene menor (maxima potencia).

37
Captulo 6. Pruebas de hipotesis

on. Sea = P1 (Skc ) y 0 = P1 (S0c ) donde S0 es otra RC de nivel , entonces


Demostraci

0 = P1 (Skc ) P1 (S0c )
Z Y n Z n
Y
= f (xi |1 )dx1 . . . dxn f (xi |1 )dx1 . . . dxn
Skc i=1 S0c i=1
Z n
Y Z n
Y
= f (xi |1 )dx1 . . . dxn f (xi |1 )dx1 . . . dxn
Skc \S0c i=1 S0c Sk i=1
"Z n Z n
#
Y Y
k f (xi |0 )dx1 . . . dxn f (xi |0 )dx1 . . . dxn
Skc \S0c i=1 S0c Sk i=1
"Z n Z n
#
Y Y
=k f (xi |0 )dx1 . . . dxn f (xi |0 )dx1 . . . dxn
Skc i=1 S0c i=1

k P0 (Skc ) P0 (S0c ) = k[1 (1 )] = 0.


 
=

Luego 0 , como 0 es arbitrario es mnimo.


Ejemplo 6.17. Hallar la forma de la RC optima para el caso X v N (, 1) y el problema

H0 : = 0
H1 : = 1

n n
Y f (xi |1 ) Y 1 2
+ 12 (xi 0 )2 1
Pn 2 2 1
Pn
xi +n(21 20 )
= e 2 (xi 1 ) = e 2 i=1 (xi ) +(xi 0 ) = e 2 (20 21 ) i=1

i=1
f (xi |0 ) i=1

n n
Y f (xi |0 ) X
k (1 0 ) xi + n(21 20 ) k
i=1
f (xi |1 ) i=1

n(1 0 )xn + n(21 20 ) k


k
(1 0 )xn (21 20 ) = k.
n
n o

k
on crtica es: Si 0 > 1 RC = (x1 , . . . , xn ) Rn : xn
Por lo tanto la regi 0 1
n o

k
on crtica es RC = (x1 , . . . , xn ) Rn : xn 0
y si 1 > 0 la regi 1

Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (, 1) y el problema

H0 : = 0
H1 : = 1

con 0 < 1 . Vamos a hallar la RC optima. Como es optima, del ejemplo anterior sabemos que
tiene la forma {xn k}, vamos a hallar k tal que P (RC) = .


 
Xn 0
PH0 (Xn k) = 1 PH0 (Xn k) = 1 PH0 n(k 0 ) =
1/ n

1 n(k 0 ) = .
Z1
Luego si despejamos obtenemos n(k 0 ) = Z1 entonces k = 0 + .
n

38
Captulo 6. Pruebas de hipotesis

Observaci
on 6.19. Si fuese

H0 : = 0
H1 : > 1

Resulta una RC
optima de la misma forma (observar que el hecho de que H1 : = 1 se usa s
olo
cuando 1 > 0). En este caso decimos que es una RC uniformemente optima o uniformemente
de m
axima potencia.
Observaci
on 6.20. Si fuese

H0 : 0
H1 : > 1

Resulta la misma region crtica que en el caso anterior. Observemos ademas que se calcula =
sup PH0 (Xn k) la funci
on PH0 (Xn k) crece con y el supremo es en 0 .
Corolario 6.21. Corolario de Neyman-Pearson, en las hipotesis del teorema, + 1
Demostraci
on.
Z n
Y Z n
Y
c
= PH1 (S ) = f (xi |1 )dx1 . . . dxn k f (xi |0 )dx1 . . . dxn =
S c i=1 S c i=1
n
Z Y

k 1 f (xi |1 )dx1 . . . dxn = k(1 ),
S i=1

si k 1 entonces 1 de donde + 1,
si k 1
n
Z Y n
Z Y
1 = PH1 (S) = f (xi |1 )dx1 . . . dxn k f (xi |0 )dx1 . . . dxn = k,
S i=1 S i=1

como k 1 entonces 1 k de donde + 1.


Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|) absolutamente continua, y
la prueba

H0 : = 0
H1 : = 1
n
!
Y f (Xi |1 )
y k = kn es tal que PH0 kn = entonces n 0.
i=1
f (Xi |0 )
n
! n  
Y f (Xi |1 ) X f (Xi |1 )
Demostraci
on. log = log y por la L.F.G.N.
i=1
f (Xi |0 ) i=1
f (Xxi |0 )

n
!   
1 Y f (Xi |1 ) c.s. f (X|1 )
log E log
n i=1
f (Xi |0 ) f (X|0 )
  
f (X|1 )
< log E
f (X|0 )
Z 
f (x|1 )
= log f (x|0 )dx = log(1) = 0.
f (x|0 )

39
Captulo 6. Pruebas de hipotesis

Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente concava), y
en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir = 0 . Tenemos entonces que
n  
X f (Xi |1 ) c.s.
log .
i=1
f (Xi |0 )

Luego, para todo > 0 tomando = , y para todo m N existe n0 tal que n n0
n   !
X f (Xi |1 )
P log < m 1 = 1 .
i=1
f (Xi |0 )

Llamemos ( )
n
Y f (Xi |1 )
Sn = kn
i=1
f (Xi |)
y ( )
n  
X f (Xi |)
An,m log < m .
i=1
f (Xi |)
Si tomamos An,m Sn entonces
n  
X f (Xi ()|1 )
log(Kn ) log < m,
i=1
f (Xi ()|0 )

luego, tenemos que m N, n0 tal que n n0 log(kn ) < m de donde kn 0.


Observemos que Sn ARn,mQ6= ya que P (SnR) +QP (An,m ) > + 1 > 1, luego, se intersectan.
c
Como n = PH1 (Snc ) = S c f (xi |)dx kn n f (xi |)dx 0.
n

Corolario 6.23. Consideremos el caso particular

H0 : = 0
H1 : = 1
nQ o
n f (xi |1 )
Sea Sn = i=1 f (xi |0 ) 1 entonces n + n 0
 
Pn i |1 ) P
Demostraci on. Si H0 es cierto entonces i=1 log ff (X (Xi |0 ) , de donde n = PH0 (Sn ) =
P   
n f (Xi |1 ) n
PH 0 i=1 log f (Xi |0 ) 0 0.
 
Pn (Xi |0 ) P
Si H1 es cierto entonces i=1 log ff (X i |1 )
.

n   !
X f (Xi |1 )
n = PH 1 log 0 0.
i=1
f (Xi |0 )

6.2. Familias con cociente de verosimilitud mon


otono
on 6.24. Familia con C.V.M.: Una familia de densidades f (|) con (H) R tiene
Definici
C.V.M. si Qn
x|)
L( i=1 f (xi |)

0
= Qn 0
= g T (
x) ,
x| )
L( i=1 f (xi | )
donde g : R R es estrictamente creciente, > 0 , y T = Tn es un estimador. Observemos que g
depende de n de y de 0

40
Captulo 6. Pruebas de hipotesis

Ejemplo 6.25. f (|) es una familia exponencial (para (H) R) si


n
Y
f (xi |) = Cn eQ()t(x) h(
x) con Cn () > 0,
i=1

si Q es estrictamente creciente la familia tiene C.V.M.:

L( x|) Cn () eQ()t(x) h( x) Cn () t(x) Q()Q(0 )



= = e = g(t(
x))
L( x|0 ) Cn (0 ) eQ(0 )t(x) h(
x) Cn (0 )

() s Q()Q( 0 )
con g(s) = CCnn( 0) e , luego, g es una funcion creciente de s.

Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (|) perteneciente a una familia con
x) absolutamente continua y (H) R, consideremos
C.V.M, sea T (

H0 : 0
H1 : > 0

Si R = {x Rn : T (
x) k} donde k es tal que R sea R.C. de nivel , entonces R es R.C.
uniformemente de m
axima potencia.
Demostraci on. En el conjutno { : 0 } (H) defino k () = () = P (R). Probaremos
que es creciente y por lo tanto supH0 () = (0 ), de donde el k de la hipotesis es tal que
x) k) = . Consideremos la prueba
P0 (T (

H0 : = 0
H1 : = 00

Con 00 > 0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la
regi
on crtica
optima ( n )
Y f (xi |00 )
0
0)
x) g 1 (k 0 )},
k = {T (
i=1
f (x i |

en esta igualdad hemos usado que g es creciente, llamemos k 00 = g 1 (k 0 ). Para esta prueba + 1,
x k)}) = (0 ) y = P00 ({T (
= P0 ({T ( x) k 00 }c ) = 1 P00 ({T ( x) k 00 }) = 1 (00 ).
0 00 0 00 0 00
Entonces ( ) + 1 ( ) 1 y por lo tanto ( ) ( ). Como y son arbitrarios se deduce
que creciente.
Veamos ahora que R es optima, es decir, uniformemente de maxima potencia. Supongamos por
absurdo, que existe otra S RC de nivel tal que existe > 0 y S () < R (), sabemos que
sup0 S () = ya que hemos supuesto que S es RC de nivel , por lo tanto S (0 ) .
Consideremos la prueba

H0 : = 0
H1 : > 0 (6.1)

Sea S 0 = {T ( x) k} con k 0 tal que S 0 (0 ) = S (0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de maxima potencia para la prueba 6.1.
Entonces S 0 () S () 0 . En particular S 0 () S (). Como S (0 ) = R (0 ) o
0
lo que es lo mismo P0 (T ( x) k ) P0 (T ( x k) obtenemos que k k 0 , pero esto contradice

S 0 () S () ya que esto es equivalente a que P({T ( x) k 0 }c ) < P({T (
x) k}c ) ya que esto
0
implica k k .

41
Captulo 6. Pruebas de hipotesis

6.3. M
etodo de la raz
on de verosimilitud para RC:
Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|) con (H) Rk y la prueba
H0 : A (H)
H1 :
/A
Planteamos una RC de la forma
 
n x|)
supA L(
R= x R : k .
x|)
supH L(
Observemos que para hip
otesis simples H0 : = 0 y H1 : = 1 se obtiene
n
Y
x|) = L(
sup L( x|0 ) = f (xi |0 )
A i=1
y
n
Y
x|0 ) =
L( f (xi |0 ) de donde R =



x|) =
sup L( i=1
n
(H) Y
x|1 ) =
L(

f (xi |1 )
i=1
Entonces, la RC de de la raz
on de verosimilitud queda
( n
)
n
Y f (xi |0 )
R :
x k
i=1
f (xi |1 )
que es la RCO del teorema de Neyman Pearson.
Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (, 1) y la prueba
H0 : = 0
H1 : 6= 0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
x|) = L(
sup L( x|x)
R
y ( )
 n n
1 1X 2 n 2
x|) =
L( exp x exp{nx}
2 2 i=1 i 2
entonces
n2
0
x|0 )
L( e 2 +n0 x n2
2 0 +n0 x nx
2 n 2
= 2 = e 2 = e 2 (0 x)
x|x)
L(
e 2
nx
+nx2

si planteamos la regi
on critica
x|0 )
L( n
k (x 0 )2 L(k) = k 0 |x 0 | k 00
x|x)
L( 2
por lo tanto la regi
on crtica es de la forma
x Rn : |x 0 | k}
RC = {
Proposici
on 6.28. Consideremos la prueba
H0 : A (H)
H1 :
/A
x|)
supA L( supA g(T (
x), )h(
x) supA g(T (
x), )
(
x) = = = = (T (
x))
x|)
sup(H) L( sup(H) g(T (
x), )h(
x) sup(H) g(T (
x, ))

42
Captulo 6. Pruebas de hipotesis

6.4. Pruebas de Bondad de ajuste


Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribucion, (conocida
o no) se queire tomar una decisi on acerca de si X distribuye como F0 o no, es decir,

H0 : FX = F0
H1 : FX 6= F0

6.4.1. Test de 2 :
Consideremos la prueba

H 0 : FX = F0
H1 : FX 6= F0

Dado k N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai1 , ai ], I1 = (, a1 ] y Ik = (ak , +]


tal que Ii Ij = si i 6= j, y ki=1 Ii = R. Si H0 es cierto P (X Ij ) = F0 (aj ) F0 (aj1 ) = F0 (Ij ),
c.s.
dada X1 , . . . , Xn M.A.S. de X definimos Fn la distribucion emprica, sabemos que Fn (Ij )
FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en
Pk
el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj Ej )2 . Es razonable entonces construir
la RC = {T k}. P
(a E )2 d
Si definimos Tn = j
Ej
j
, bajo la hipotesis H0 , se prueba que Tn 2k1 . Luego si =
PH0 (Tn k), se aproxima con la distribucion de una 2k1 y se halla un k aproximado.

6.4.2. Test de Kolmogorov-Smirnov


Consideremos

H0 : FX = F0 completamente conocidaH1 ; FX 6= F0

tomemos RC = {supxR |Fn (x) F0 (x)| k}, por GilvencoCantelli Fn converge uniformemente
on de supxR |Fn (x) F0 (x)| tneemos el siguiente teorema.
a F0 (x). Para conocer la distribuci
Teorema 6.29. Kolmogorov: Si Dn = supxR |Fn (x) F0 (x)| entonces, si F0 es continua

X 2 2
(1)n1 e2n z

lm P nDn z = 1 2
n+
n=1

Definici
on 6.30. Dada una prueba de hipotesis

H0 : A
H1 :
/A

on crtica sea RC = {T k} con T = T (X1 , . . . , Xn ) estimador de , el p valor es


cuya regi
T (

sup P T (X) x)
A

Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (, 1), consideremos la prueba

H0 : = 0 = 0
H1 : 6= 0 = 0

Sabemos que RC = {|xn k} entonces T (X) = |Xn | el p valor es



PH0 (|Xn |x) = 1 PH0 (|Xn | |x|) = 1 ( n|x|) + ( n|x|) = 2 1 ( n|x|)

43
Captulo 6. Pruebas de hipotesis

Proposici on 6.32. Si los supremos se realizan en un mismo 0 A, < p valor no rechazo


H0 al nivel .
k) ,

Demostracion. Si < p valor entonces hallamos k tal que = supA P ( T (X

k < sup P T (X
T (
 
= sup P T (X) x)
A A

k < P P T (X)
T (
 
= sup P T (X) 0
x)
0

de donde T (
x) < k por lo tanto x / RC y no rechado H0 . El razonamiento es analogo si >
p valor.

Observaci on 6.33. La propiedad se cumple si H0 es simple ( = 0 ), o en el caso de concientes


de verosimilitud mon
otonos.

6.5. An
alisis de Varianza, (ANOVA)
Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v
N (i , 2 ) para todo i, j. Queremos testear si los i son todos iguales o no. El supuesto de que 2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para
cada i {1, . . . , k} definimos
n
1 X
Yi = Yij ,
ni j=1
y
i n
1 X
Si2 = (Yij Yij )2 .
ni 1 j=1

Sabemos que

(ni 1) 2
Yi v N (i , 2 /ni ) Si v 2ni 1
2
on 6.34. Si A = {a = (a1 , . . . , ak ) Rk :
P
Observaci ai = 0} entonces
X
1 = = k a A, ai i = 0

Demostracion. El directo es inmediato, veamos el recproco, tomemos a1 = 1, a2 = 1, a3 = =


ak = 0 entonces 1 2 = 0 y as sucesivamente 1 = = k .
Pk
on 6.35. Si defino Sp2 = N 1k i=1 (ni 1)Sik con N =
P
Observaci ni . entonces

k
N k 2 X (ni 1) 2
Sp = Si v 2N k .
2 i=1
2

Adem
as !
k k Pk 2 2
i=1 ai
X X
ai Yi v N ai i , .
i=1 i=1
ni

Se puede demostrar que Sp2 y


P
ai Yi son independientes, luego, si recordamos que si X v N (0, 1)
es independiente de 2n entonces
X
p v tn
2n /n

44
Captulo 6. Pruebas de hipotesis

obtenemos que
k
X X k
ai Yi a i i Xk
i=1
Pk
i=1 ai (Yi i )
2
i=1 ai /ni i=1
q = qP v tN k
(N K) 2 k 2 /n
2 S p /(N k) Sp a
i=1 i i

Supongamos que a A fijo, y (0, 1) tenemos


X
H0 : ai i = 0
H1 : no H0

Consideremos la regi
on crtica,
( P )
| ai Yi |
RC = pP >m ,
Sp ai /ni
P !
| ai Yi |
= PH0 (RC) = PH0 pP >k ,
Sp ai /ni
como estamos bajo H0 si utilizamos la observacion anterior

= 1 P (m < T < m), con T v tN k ,

y por lo tanto 1 /2 = F (m), k = t1/2 (N k).


Nos planteamos ahora la siguiente prueba

H0 : 1 = = k
H1 : noH0

y esto es si y solo si
X
H0 : ai i = 0 a A
H1 : noH0
P  
ai Yi 2
Tomo el estadstico Ta = pP 2 , resulta natural plantear la region crtica RC = sup Ta > k .
Sp ai /ni aA
DebemosP
entonces hallar la distribucio n de sup aA aT bajo la hipo tesis H 0 cierto. Llamemos Ci = Yi
ni Ci
y Ci = N .
2 P ai 2
(Ci C) ni
P
1 a i C i n
sup Ta2 =
i
sup P = sup P ,
aA Sp aA ai /ni aA ai /ni
P
donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai 2
(Ci C) ni
P 2
ai /ni ni (Ci C)2
P
ni X
sup P sup P = ni (Ci C)2 .
aA ai /ni aA ai /ni

Obtuvimos
P una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci C) es claro
que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
Pk Pk
ni (Yi Y )2 ni Yi
sup Ta2 = i=1
donde Y = i=1
,
aA Sp2 N

45
Captulo 6. Pruebas de hipotesis

recordemos que
2n /n
v F (n, m),
2m /m
k
X
se puede demostrar que ni (Yi Yi )2 v 2k1 y por lo tanto
i=1

2 2k1 2k1 /(k 1)


sup 2 2
> cte v F (k 1, N k) cte/(k 1).
aA N k /(N k) 2N k /(N k)

Planteamos
cte 
= PH0 (RC) = 1 PH0 F (k 1, N k) entonces cte = F1 (k 1, N k)(k 1).
k1
Finalmente, obtuvimos la regi
on crtica
( k
)
1 X 2
RC = ni (Yi Yi ) F1 (k 1, N k)(k 1) .
Sp i=1

46
Captulo 7

Modelos Lineales

7.1. Variable Normal Multivariada


Definici on 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el vector de medias =
(1 , . . . , n ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es

V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn )
cov(X2 X1 ) V ar(X2 )
nn =

.. .. ..
. . .
cov(Xn X1 ) ... V ar(Xn )

Anotamos = E(X) y V ar(X) = nn .

Observaci
on 7.2. Veamos algunas propiedades

1) Si A Mkn es constante entonces E(AX) = AE(X).


2) V ar(AX) = Ann At .
3) Si X Rn es un vector aleatorio A es una matriz k n y b un vector k 1 constante entonces

E(AX + b) = AE(X) + b y V ar(AX + b) = AX At .

4) Si X es un vector aleatorio en Rn , X es semidefinida positiva.


Demostraci
on.

2) Es inmediato a partir de observar que V ar(X) = E (X E(X))(X E(X))t .

que para todo = (1 , . . . , n ) Rn entonces t 0, y esto se sigue de


4) Tenemos que ver P
t
que = V ar( i Xi ).

Definicion 7.3. Normal tpica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribucion
normal tpica en Rn si las Ui v N (0, 1) y son independientes.
Observaci
on 7.4. La densidad conjunta de U es
1 2
e 2 kxk
fU (x) = n .
(2) 2

47
Captulo 7. Modelos Lineales

Definicion 7.5. Normal multivariada Decimos que X tiene distribucion normal multivariada si
existe una matris n k C y un vector n 1 tal que X = CU + .
Observaci
on 7.6. Observemos que si X tiene distribuci
on normal multivariada entonces E(X) =
y X = CC t
Proposici
on 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cnn es invertible, X es absolutamente coninua y
1 t 1
e 2 (x) (x)
fX (x) = = CC t .
(2)n/2 | det |1/2

on. X = CU + = g(U ), g : Rn Rn es invertible ya que C lo es.


Demostraci
1 1
fX (x) = fg(U ) (x) = fU ((g 1 (x)) = fU (C 1 (x ))
| det Jg (g 1 (x))| | det C|
1 1 t 1
e 2 (x)(C ) C (x)
=
(2)n/2 | det |1/2

2) La distribuci
on normal tpica es invariante bajo tranformaciones ortogonales. De hecho es
la u
nica distribuci
on que depende solamente de la norma, y que es invariante bajo trans-
formaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo
transformaciones ortogonales se sigue de la definici
on y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Amn y bm1 constantes.
4) Si X = CU + y C es sobreyectiva entonces X es absolutamente continua.
Definici
on 7.8. Normal multivariada degenerada: Si X = CU + con U normal tpica,
decimos que es degenerada si C no es sobreyectiva
Observaci
on 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostraci on. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre
si y solo si det(CC t ) = det() = 0, si det() = 0 entonces ttt = V ar(tX) = 0 entonces tX es c.s.
constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al
integrarla en S obtendramos que debera dar 1 porque X esta contenida ahi, pero 0 porque S tiene
medida nula, absurdo.
Observacion 7.10. Si X v N (, ) cualquier subvector de X tambien es normal multivariado.
Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A
adecuadamente.
Observaci on 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (, ) entonces si cov(Xi , Yj ) = 0 i, j enont-
ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
Demostraci
on. Si es invertible, entonces
1
 
0
1 = X
0 1
Y

y es f acil ver que fX,Y (x) = gX (x)gY (y).


Si no es invertible, y Y si, entonces (X1 , . . . , Xk ) S, variedad lineal de dimensi on k,
supongamos que S esta generado por X1 , . . . , X entonces
(X1 , . . . , X , Y1 , . . . , Ym ) est
a en las hip
otesis anteriores y por lo tanto son independientes, de donde
(X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que Y tampoco es invertible es an alogo.

48
Captulo 7. Modelos Lineales

7.2. Modelos Lineales


Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea
estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces
g(
x) = g( x, ) = 1 X1 + + k Xk , = (1 , . . . , k ). Para estimar g estimamos . Se plantea
entonces
Y1 X11 X12 . . . X1k 1
.. . .. .. ..
. = .. . . .
Yn Xn1 Xn2 ... Xnk k
Se observan n muestras de Y ,

X11 X12 ... X1k
.. .. ..
X= . ,

. .
Xn1 Xn2 ... Xnk

es la matriz de dise
no (constante y conocida).

En el modelo lineal planteamos Y = X + e donde, X es una matriz de dise


no, y

Y1 1 e1
.. .. ..
Y = . = . e = . ,
Yn k en

e aleatorio (vector de errores).


Ejemplo 7.12. An alisis de varianza: Yij = i + eij , en este caso la matrix X es un vector n 1
con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = + X + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y
= (, ), y como matriz de dise
no la matriz

1 X1
1 X2
X= . ,

..
1 Xn

lo que se busca es entonces ajustar una recta a los datos.


Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma analoga al ejemplo anterior, si
Y = + 1 x + 2 x2 + + k xk + e, planteamos la matriz de dise
no

1 X1 X12 . . . X1k

.. ..
X= . .

.
1 Xn Xn2 ... Xnk

Observaci on 7.15. Observemos que, en vistas del ejemplo anterior, la funci on y = g(x1 , . . . , xn , )
es lineal en pero no en x
= (x1 , . . . , xn ), podra ser x3 = cos(x1 ) etc.

7.3. Hip
otesis del modelo
1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei ) = 0 para todo i.

49
Captulo 7. Modelos Lineales

3) Homocedasticidad: V ar(ei ) = 2 para todo i.


3) cov(ei , ej ) = 0 para todo i 6= j.
4) el vector e de errores tiene distribucion N (0, 2 I) en este caso se cumplen 2), 3) y 30 )

Para estimar Rk se utiliza el metodo de los mnimos cuadrados, consiste en hallar Rk


donde se realize
mn kY Xk.
Rk

otesis 1 se cumple que (X t X)1 X t Y es el estimador por mnimos


Teorema 7.16. Bajo la hip
cuadrados de .
on. Sea el valor donde se obtiene el mnimo, es decir
Demostraci
2 kY Xk2
kY X k Rk ,

on por X como una transformacion lineal de Rk en Rn entonces X


si consideramos la multiplicaci
on de Y sobre la imagen de X, entonces Y X X
es la proyecci para todo Rk , esto es
t
0 = (X) (Y X ), o lo que es lo mismo

t X t Y = t X t X Rk ,

luego las transformaciones lineales X t Y y X t X son iguales, de donde = (X t X)1 X t Y .


Teorema 7.17.
otesis 1) y 2), es insesgado.
a) Bajo las hip
otesis 1), 2) y 3), = 2 (X t X)1 .
b) Bajo las hip
Demostraci
on.
= (X t X)1 X t E(Y ) = (X t X)1 X t X = .
a) E()
b) = (X t X)1 X t e+ = (X t X)1 X t ( 2 Id)X(X t X)1 , donde usamos que AX+C = AX At ,
finalmente se obtiene, = 2 (X t X)1 , ya que transponer e invertir conmutan.

Teorema 7.18. Bajo las hip otesis 1) a 4) el E.M.V. de coincide con el de mnimos cuadrados y

as el E.M.V. de es n1 kY X k.
adem
.
otesis 1) a 4) es insesgado de mnima varianza, uniformemente.
Teorema 7.19. Bajo las hip
Demostraci on. Veamos que es suficiente:
   
1 2 exp 1 kX Xk2 = h( )
L(y1 , . . . , yn |, 2 ) = (2 2 )n/2 exp 2 kY X k y )g(,
2 2 2

donde hemos usado que Y X es perpendicular a X X. Es facil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como funcion de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-
on Noramal), entonces es uniformemente de minima varianza entre los estimadores lineales e
ci
insesgados, (es decir los
= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):

50
Captulo 7. Modelos Lineales

2
n 2
kY X k
a) 2
= 2
v 2(nk)

2
n
kY X k
b) s2 = = 2 es asint
es insesgado (de donde oticamente insesgado).
nk nk
kX( )k2
c) v F (k, n k)
ks2
1 (1 1 ) + (2 2 ) + + n (n n )
d) p v tnk Rn
s t (X t X)1
Demostraci on. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canonica, B
es ortogonal y
Y = BZ de donde Z = B 1 Y = B t Y v N (B t X, B t 2 IdB) y por lo tanto Z es normal
multivariado y Z = 2 Id, adem as Zi son variables aleatorias independientes con distribucion
N (1 , 2 ).
2 2
Xn Xk Xn n
X
2
Zi2 ,

kY X k = Z i vi Z j vj = Z i vi =


i=1 j=1 k=1 i=k+1

2 n  2
kY X k X Zi
=
2
i=k+1

Zi
v N (i , 1),
2
Pn demostrar que todos los i para i = k + 1 son 0. Observemos que E(Y ) = X S
bastaria entones
y E(Y ) = i=1 i vi .
!
1 2
kY X k
2
b) E(s ) =
E kY X k) = E = 2
nk nk 2
2
Xk k
X Xk
c) kX Xk =
2
Z i vi i vi = (Zi i )2 . entonces


i=1 i=1 i=1

P  Zi i 2
k
kX X 2k /k
= v 2 v F (k, n k).
ks2 k 1 nk /(n k)
2 nk kY X k

d) 1 (1 1 ) + + n (n n ) = t ( ), como v N (, 2 (X t X)1 ), entonces t ( ) v


N (0, t 2 (X t X)1 ),
t
t ()
( ) (X t X)1
p = s ,
s t (X t X)1

por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY Xk2 depende de Zk+1 , . . . , Zn y X de Zk+1 , . . . , Zk .

51
Captulo 7. Modelos Lineales

7.4. Aplicaci
on
on de intervalos de confianza para t . Consideremos
Construcci

I = t ks, t + ks ,
 

! !
t ( ) t
( ) k
1 = P (t I) = P k =P p t t p t t 1 ,

s s (X X)1 (X X)
p
de donde, por la parte d) k = t1/2 (n k) t (X t X)1 .
Observemos que en particular tomando = (1, . . . , 0) obtenemos un intervalo de confianza para 1 .

52

You might also like