Professional Documents
Culture Documents
Lecture 3
f (xt ; θ), t = 1, 2, . . . , n
Definamos:
I Función de Verosimilitud (FV): L(x; θ) = f (x1 , x2 , . . . , xn ; θ)
I Logaritmo de la FV: ln[L(x; θ)]
I Función Score: ∂ln[L(x;θ)]
∂θ
El estimador de Máxima Verosimilitud (MLE) se obtiene de:
Por lo tanto,
n
n n 2 1 X
ln[L(x; θ)] = − ln(2π) − ln(σ ) − 2 (xt − µ)2
2 2 2σ
t=1
n
X ∂ 2 ln[L(x; θ)] n
(xt − µ̂)2 = nσ̂ 2 =⇒ |θ=θ̂ = − 4
∂σ 4 2σ̂
t=1
− σ̂n2
0
H(θ̂) =
0 − 2σ̂n 4
n2
− σ̂n2 < 0 y determinante de H(θ̂) = 2σ̂ 6
> 0 y H(θ̂) es negativa definida.
nσ̂ 2
∼ χ2 (n − 1)
σ2
Por lo tanto,
nσ̂ 2 n n−1 2
E( ) = n − 1 =⇒ 2 E (σ̂ 2 ) = n − 1 =⇒ E (σ̂ 2 ) = σ 6= σ 2
σ2 σ n
y
n
1X
E (µ̂) = E ( xt ) = µ
n
t=1
∂Bias(θ) 2
2
∂ ln[L(x; θ)]
CRLB(θ) = 1 + /E −
∂θ ∂θ2
" #
n σ2
σ2
0 −1 n 0
In (θ) = n , In (θ) = 2σ 4
0 2σ 4 0 n
Pn
Como E (µ̂) = E ( n1 t=1 xt ) = µ podemos chequear que,
n
1 X σ2
Var (µ̂) = 2 Var (xt ) = = In (θ)−1
11
n n
t=1
Entonces,
n (n − 1)2 2σ 4
CRLB = (1 − 1/n)2 / =
2σ 4 n2 n
2(n−1)σ 4
Además, Var (σ̂ 2 ) = n2
, por lo tanto
2(n − 1)σ 4 1
MSE = 2
+ (− σ 2 )2 6= CRLB
n n
y el estimador de la varianza no es completamente eficiente.
Alcanza s 2 (el estimador de la varianza de MCC) la cota de Cramer-Rao?
1 Pn
Sabemos que s 2 = n−1 2 2
t=1 (xt − µ̂) es un estimador insesgado de σ .
(n − 1)s 2 (n − 1)2
Var ( ) = 2(n − 1), =⇒ Var (s 2 ) = 2(n − 1)
σ2 σ4
2σ 4
=⇒ Var (s 2 ) = 6= In (θ)−1
22
(n − 1)
y el estimador de la varianza de MCC tampoco es completamente eficiente.
Propiedades asintóticas: Sea θ̂n el estimador MLE de θ entonces:
p
a) θ̂n −→ θ.
√ d
b) n(θ̂n − θ) −→ N[0, V (θ)].
−1
c) V (θ) = I (θ) .
donde I (θ) = limn→∞ [ n1 In (θ)] es la matriz de información de Fisher asintótica.
Ejemplo (continuación)
µ̂
θ̂n =
σ̂ 2
√ d
n(θ̂n − θ) −→ N[0, I (θ)−1 ]
n 1
1 1 σ2
0 σ2
0
I (θ) = lim [ In (θ)] = lim n = 1
n→∞ n n→∞ n 0 2σ 4
0 2σ 4
√ 2
n(µ̂ − µ) d 0 σ 0
√ −→ N ,
n(σ̂ 2 − σ 2 ) 0 0 2σ 4
ó 2
µ̂ µ σ /n 0
∼ AN ,
σ̂ 2 σ2 0 2σ 4 /n
Note que el estimador de la varianza es asintóticamente eficiente.
Ejemplo 2: MCC.
y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0
1
f (y ) = f (u) = (2πσ 2 )n/2 exp[− (y − xβ)0 (y − xβ)] ≡ L(x; θ)
2σ 2
n n 1
ln[L(x; θ)] = − ln(2π) − ln(σ 2 ) − 2 (y 0 y − β 0 x 0 xβ − 2β 0 x 0 y )
2 2 2σ
∂ln[L(x; θ)] 1 1
= − 2 (2x 0 xβ − 2x 0 y ) = 2 (x 0 y − x 0 xβ) = 0 (1)
∂β 2σ σ
∂ln[L(x; θ)] n 1
2
= − 2 + 4 (y − xβ)0 (y − xβ) = 0 (2)
∂σ 2σ 2σ
1 û 0 û
(2)y (3) =⇒ σ̂ 2 = (y − x β̂)0 (y − x β̂) = (4)
n n
∂ 2 ln[L(x; θ)] 1 1 1
2
= − 4 (x 0 y − x 0 xβ) = − 4 x 0 (y − xβ) = − 4 x 0 u (6)
∂β∂σ 2σ 2σ 2σ
Esperanzas,
∂ 2 ln[L(x; θ)]
1 1
E 0
= E (− 2 x 0 x) = − 2 x 0 x
∂β∂β σ σ
2
nσ 2
∂ ln[L(x; θ)] n 1 0 n n
E 4
= 4
− 6
E (u u) = 4
− 6
=− 4
∂σ 2σ σ 2σ σ 2σ
∂ 2 ln[L(x; θ)]
1
E =− E (x 0 u) = 0 (7)
∂β∂σ 2 2σ 4
Por lo tanto, la matriz de información de Fisher muestral es,
2 1 0
∂ ln[L(x; θ)] xx 0
In (θ) = −E = σ2 n
∂θ∂θ0 0 2σ 4
y el MSE es,
2(n − k) 4 k 2 2 2(n − k) + nk 2 4
MSE (σ̂ 2 ) = σ + (− σ ) = σ
n2 n n2
La cota de Cramer-Rao es,
∂Bias(θ) 2
2
∂ ln[L(x; θ)]
CRLB = 1+ /E −
∂θ ∂θ2
k 2(n − k)2 σ 4
= (1 − )2 /(n/2σ 4 ) =
n n3
El estimador de la varianza es sesgado y su MSE no alcanza la cota de Cramer-Rao.
(n − k)s 2 2 2 û 0 û
∼ χ (n − k); s =
σ2 (n − k)
Esperanza,
(n − k)s 2
E( ) = n − k =⇒ E (s 2 ) = σ 2
σ2
Varianza,
(n − k)s 2 2 2σ 4 −1 2σ 4
Var ( ) = 2(n − k) =⇒ Var (s ) = 6
= In (θ) 22 =
σ2 n−k n
El estimador es insesgado pero tampoco es completamente eficiente.
Propiedades Asintóticas:
p p
β̂ −→ β, s 2 −→ σ 2
√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , s 2 )0
1
1 2Q 0 1
I (θ) = lim [ In (θ)] = σ
1 , Q = lim x 0 x
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(s 2 − σ 2 ) −→ N[0, 2σ 4 ]
Ambos estimadores son asintóticamente insesgados y eficientes.
y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0
Supuestos:
1. x aleatorias con densidad f (x).
2. f (x) no depende de θ.
3. x y u se distribuyen en forma independiente.
Por lo tanto,
û 0 û E (x 0 x) 0
1
β̂ = (x 0 x)−1 x 0 y , σ̂ 2 =
, In (θ) = σ2 n
n 0 2σ 4
1
1 Q 0 1
I (θ) = lim [ In (θ)] = σ 2
1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n
Propiedades asintóticas,
p p
β̂ −→ β, σ̂ 2 −→ σ 2
√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , σ̂ 2 )0
1
1 Q 0 1
I (θ) = lim [ In (θ)] = σ2 1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(σ̂ 2 − σ 2 ) −→ N[0, 2σ 4 ]
Todos estos resultados asumieron normalidad del término de error. Sin este supuesto no
hay garantı́as de que los estimadores de MV sean los de MCC o que el estimador de MCC
alcance la cota de Cramer-Rao.
Si el término de error no es normal, todo lo anterior implica que los estimadores de MV
maximizan una función de verosimilitud que está mal especificada.
Podemos aproximar consistentemente los términos del corchete del estadı́stico anterior
evaluando en el estimador de máxima verosimilitud θ̂,
∂Ln[L(x, θ)]
|θ̃ + F (θ̃)λ̃ = 0 (13)
∂θ
φ(θ̃) = 0
Tomemos una expansión de Taylor de primer orden de φ(θ̂) y φ(θ̃) alrededor del
verdadero vector de parámetros θ. Ignorando los términos op (1) tenemos,
√ √ √
nφ(θ̂) = nφ(θ) + F (θ)0 n(θ̂ − θ) (14)
√ √ √
nφ(θ̃) = nφ(θ) + F (θ)0 n(θ̃ − θ) (15)
De las condiciones de primer orden sabemos que φ(θ̃) = 0 de forma tal que restando (15)
de (14) obtenemos √ √
nφ(θ̂) = F (θ)0 n(θ̂ − θ̃) (16)
Por otro lado, tomando una expansión de Taylor de primer orden de ∂Ln[L(x, ∂θ
θ)]
|θ=θ̂ y
∂Ln[L(x, θ)]
∂θ |θ=θ̃ alrededor del verdadero vector de parámetros θ tenemos (ignorando los
términos op (1))
Note que,
∂Ln[L(x, θ)] ∂Ln[L(x, θ)] ∂ 2 Ln[L(x, θ)]
|θ=θ̂ = + (θ̂ − θ) =⇒
∂θ ∂θ ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] 1 ∂ 2 Ln[L(x, θ)] √
√ |θ=θ̂ = √ + n(θ̂ − θ) =⇒
n ∂θ n ∂θ n ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̂ = √ − I (θ) n(θ̂ − θ)
n ∂θ n ∂θ
(19)
De la misma manera
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̃ = √ − I (θ) n(θ̃ − θ) (20)
n ∂θ n ∂θ
1 ∂Ln[L(x, θ)] √ √
√ |θ=θ̃ = −I (θ) n(θ̃ − θ̂) = I (θ) n(θ̂ − θ̃) (21)
n ∂θ
Por lo tanto
√ 1 ∂Ln[L(x, θ)]
n(θ̂ − θ̃) = I (θ)−1 √ |θ=θ̃ (22)
n ∂θ
√ λ̃
nφ(θ̂) = −F (θ)0 I (θ)−1 F (θ̃) √
n
λ̃
=⇒ −F (θ)0 I (θ)−1 F (θ) √ (24)
n
Entonces,
λ̃ −1 √
√ = − F (θ)0 I (θ)−1 F (θ)
nφ(θ̂) (25)
n
λ̃ h −1 i
√ ∼ N 0, F (θ)0 I (θ)−1 F (θ) (26)
n
O con
n
1 X ∂Ln[L(xi , θ)] ∂Ln[L(xi , θ)]
|θ=θ̃ |θ=θ̃ (30)
n ∂θ ∂θ0
i=1
Note que,
n
∂Ln[L(x, θ̃)] X ∂Ln[L(xi , θ̃)]
=
∂θ0 ∂θ0
i=1
y
n
X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)]
X 0X =
∂θ ∂θ0
i=1
Entonces,
10 X (X 0 X )−1 X 0 1
R2 = =
10 1
hP i−1 P
Pn ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)]
i=1 ∂θ0 i=1 ∂θ ∂θ0 i=1 ∂θ
n
=⇒ LM = nR 2 ∼ χ2 (q)
Este resultado sugiere que el test LM no es más que el R 2 no centrado de una regresión
auxiliar de un vector de unos sobre los scores, evaluados en la estimación de máxima
verosimilitud restringida, multiplicado por el número de observaciones.
L(x, θ̃)
µ = maxφ(θ)=0 L(x, θ)/maxθ L(x, θ) =
L(x, θ̂)
Entonces el estadı́stico de contraste es,
d
LR = −2Ln(µ) = 2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} −→H0 χ2 (q)
∂Ln[L(x, θ̂)]
Ln[L(x, θ̃)] ' Ln[L(x, θ̂)] + (θ̂ − θ̃)
∂ θ̂
1 ∂ 2 Ln[L(x, θ̂)]
+ (θ̂ − θ̃)0 (θ̂ − θ̃)
2 ∂ θ̂∂ θ̂0
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 48 / 85
Máxima Verosimilitud: Inferencia Estadı́stica
∂ 2 Ln[L(x, θ̂)]
−2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = (θ̂ − θ̃)0 (θ̂ − θ̃) =⇒
∂ θ̂∂ θ̂0
0
2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = n(θ̂ − θ̃) I (θ)(θ̂ − θ̃)
√ d
Por lo tanto, como n(θ̂ − θ) −→ N[0, I (θ)−1 ], se desprende que,
d
n(θ̂ − θ̃)0 I (θ)(θ̂ − θ̃) −→H0 χ2 (q)
f (y , z)
f (y , z|z > a) =
Pr (z > a)
Teorema 20.4 (Greene, 1997, Cap. 20, página 975): Si y y z tienen una distribución
normal bivariada con medias µy y µz , desvı́os estándar σy y σz y correlación ρ, entonces:
zi∗ = γ 0 wi + ui ,
Como queda claro de este desarrollo, estimar por MCC la ecuación de interés usando solo
los datos observados, produce estimadores inconsistentes de β por el argumento estándar
de variables omitidas (i.e. estamos omitiendo λi (·)).
Cómo podemos obtener estimaciones consistentes de la ecuación de horas de trabajo
utilizando solo los datos observados.
En principio tenemos un problema similar al de la variable habilidad omitida en la
ecuación del salario. En este caso, la variable λi (·) no es observada.
Note que aún cuando observáramos λi (·), MCC no nos darı́a estimadores eficientes
porque los errores de la ecuación de interés, vi , son heterocedásticos (i.e.
Var (vi ) = σ2 (1 − ρ2 δi ) de acuerdo al teorema 20.4 de Greene).
Una posible solución es estimar la ecuación de selección para obtener los γ̂ y construir la
variable omitida como λ̂i = φ(γ̂ 0 wi )/Φ(γ̂ 0 wi ). Luego en un segundo paso estimar la
ecuación de interés por MCC en una regresión de y sobre x y λ̂.
El único problema de esta solución es que la variable dependiente de la ecuación de
selección, zi∗ , no es observada. Lo que podemos observar es zi = 1 si zi∗ > 0, es decir si la
persona está trabajando; o zi = 0 si zi∗ < 0 si la persona no está trabajando.
Es decir que el modelo que podemos estimar es:
zi = γ 0 wi + ui , (33)
Una posibilidad es estimar la ecuación de selección por MCC. Para ver porque esta no es
la mejor solución considere la esperanza condicional de la variable dependiente.
E (zi |wi ) = γ 0 wi
Como zi solo adopta dos valores, zi = 1 ó zi = 0, los errores del modelo pueden ser
ui = 1 − γ 0 wi ó ui = −γ 0 wi con probabilidades Pi y 1 − Pi respectivamente. Entonces la
distribución de los errores es,
ui f (ui )
1 − γ 0 wi γ 0 wi
−γ 0 wi 1 − γ 0 wi
A diferencia de lo que ocurrı́a con el MPL en este caso existe una relación no lineal con
los parámetros del modelo y por lo tanto no puede usarse el método de mı́nimos
cuadrados para la estimación.
Para realizar la estimación del modelo debemos recurrir al método de máxima
verosimilitud.
Como sabemos la función de probabilidad de los errores y tenemos una muestra aleatoria
(es decir, compuesta por variables aleatorias independientes) la función de verosimilitud es
simplemente la multiplicación de las funciones de probabilidad para todas las
observaciones que hay en la muestra.
n
Y
L(γ; w ) = Φ(γ 0 wi )zi [1 − Φ(γ 0 wi )](1−zi )
i=1
n
zi − Φ(γ̂ 0 wi )
∂l(·) X
0
S(γ̂) = = φ(γ̂ wi ) wi = 0
∂γ̂ Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1
Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.
Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,
∂ 2 l(·)
I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(γ̂ 0 wi )]2
= wi wi0
Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1
φ(γ̂ 0 wi )
λ̂i =
Φ(γ̂ 0 wi )
Para poder hacer inferencia estadı́stica en la regresión del segundo paso hay que tener en
cuenta dos problemas: heterocedasticidad en vi y el hecho de que una de las variables
explicativas de la regresión está construı́da a partir de una estimación anterior.
Heckman (1979) deriva la verdadera matriz de varianzas y covarianzas de los estimadores
del segundo paso.
\ 2 2
Recuerde que Var (vi ) = σ̂ (1 − ρ̂ δ̂i ) usando el teorema (20.4) de Greene. Donde
2 e0e 2 1P
σ̂ = n + δ̄ β̂λ , y δ̄ = n i δ̂i .
Entonces la estimación correcta de la matriz de varianzas y covarianzas del segundo paso
es, " #
X 0 X 0
X 0
Var [β̂, β̂λ ] = σ̂2 ( xi∗ xi∗ )−1 (1 − ρ̂2 δ̂i )xi∗ xi∗ + Q ( xi∗ xi∗ )−1
i i i
Donde,
0
Q = ρ̂2 (X ∗ ∆W )[Avar (γ̂)](W 0 ∆X ∗ )
y ∆ es una matriz diagonal con δ̂i en la diagonal principal.
La estimación del ATE condicional es directa a través del método de mı́nimos cuadrados
clásicos.
En la práctica estimamos E [y | w, sT = 1] con el plano de regresión muestral, m
b 1 (w, δ̂1 ),
con las observaciones del tratamiento y estimamos E [y | w, sT = 0] con el plano de
regresión muestral, m
b 0 (w, δ̂0 ), con las observaciones del control.
N
1 Xh i
τbw = b 1 (wi , δ̂1 ) − m
m b 0 (wi , δ̂0 )
N
i=1
Entonces
Donde asumimos que el error ui tiene distribución normal estándar (modelo Probit).
En términos de nuestro ejemplo,
Z xi γ
1 t2
Φ(xi γ) = √ e − 2 dt
−∞ 2π
existe una relación nolineal entre la probabilidad de recibir el tratamiento y los parámetros
del modelo.
n
Y
L(γ; x) = Φ(xi γ)si [1 − Φ(xi γ)](1−si )
i=1
Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.
Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,
∂ 2 l(·)
I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(xi γ̂)]2
= xi x 0
Φ(xi γ̂)[1 − Φ(xi γ̂)] i
i=1
Note que a diferencia de los modelos lineales, el efecto marginal es una función y no una
constante.
Para obtener un resultado numérico puntual, es estándar en la práctica calcular el
denominado efecto marginal promedio.
En términos matemáticos,
E {Pr [yi = 1|xi = 1] − Pr [yi = 1|xi = 0]} = E {Φ(α + β + zγ) − Φ(α + zγ)} (39)
E [Yi | Xi , Si ] = Φ X0i β0 + β1 Si
(41)
y el ATE es