Econometrics03 2022 New

Econometrı́a
Maestrı́a en Economı́a - Maestrı́a en Econometrı́a
Lecture 3
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 1 / 85

Agenda
1 Estimación por Máxima Verosimilitud

Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica
2 Costos Económicos de Nacer con Peso Bajo
3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Agenda

Introducción
Estimación
Propiedades

Definiciones
Suponga que x = (x1 , x2 , . . . , xn )0 es una muestra aleatoria de
f (xt ; θ), t = 1, 2, . . . , n
Definamos:
I Función de Verosimilitud (FV): L(x; θ) = f (x1 , x2 , . . . , xn ; θ)
I Logaritmo de la FV: ln[L(x; θ)]
I Función Score: ∂ln[L(x;θ)]
∂θ
El estimador de Máxima Verosimilitud (MLE) se obtiene de:
θ̂MLE : argmaxθ∈Θ ln[L(x; θ)]

Agenda

Introducción
Estimación
Propiedades

Máxima Verosimilitud: Estimación
En el caso de que la función de verosimilitud sea diferenciable, entonces el estimador MLE
se obtiene de la solución a las siguientes ecuaciones:
∂ln[L(x;θ)]
a) ∂θ =0
∂ 2 ln[L(x;θ)]
b) H(θ) = ∂θ 2 |θ=θ̂ <0
Ejemplo: suponga que (x1 , x2 , . . . , xn ) es una muestra aleatoria de una N(µ, σ 2 ).
Definamos a θ = (µ, σ 2 )0 . Entonces,
n
Y
L(x; θ) = f (x1 , x2 , . . . , xn ; θ) = f (xt ; θ)
t=1
n
Y 1 1
= √ exp[− 2 (xt − µ)2 ]
σ 2π 2σ
t=1
n n
1 1 X
= √ exp[− 2 (xt − µ)2 ]
σ 2π 2σ
t=1

Por lo tanto,
n
n n 2 1 X
ln[L(x; θ)] = − ln(2π) − ln(σ ) − 2 (xt − µ)2
2 2 2σ
t=1
Las condiciones de primer orden vienen dadas por,

n n
∂ln[L(x; θ)] 1 X 1X
= − (x t − µ) = 0 =⇒ µ̂ = xt
∂µ σ2 n
t=1 t=1
n
∂ln[L(x; θ)] n 1 X
= − 2+ 4 (xt − µ)2 = 0
∂σ 2 2σ 2σ
t=1

De la segunda ecuación tenemos,
n
1X
=⇒ σ 2 = (xt − µ)2
n
t=1
n
2 1X
=⇒ σ̂ = (xt − µ̂)2
n
t=1
Las condiciones de segundo orden son,
n
∂ 2 ln[L(x; θ)] n ∂ 2 ln[L(x; θ)] n 1 X
2
= − 2; = − (xt − µ)2
∂µ σ ∂σ 4 2σ 4 σ 6
t=1
y
n
∂ 2 ln[L(x; θ)] 1 X
= − (xt − µ)
∂µ∂σ 2 σ4
t=1

Evaluando las derivadas segundas en θ = θ̂ tenemos:

n
X ∂ 2 ln[L(x; θ)]
(xt − µ̂) = 0 =⇒ |θ=θ̂ = 0
∂µ∂σ 2
t=1
n
X ∂ 2 ln[L(x; θ)] n
(xt − µ̂)2 = nσ̂ 2 =⇒ |θ=θ̂ = − 4
∂σ 4 2σ̂
t=1
La matriz hessiana queda entonces,
− σ̂n2

0
H(θ̂) =
0 − 2σ̂n 4
n2
− σ̂n2 < 0 y determinante de H(θ̂) = 2σ̂ 6
> 0 y H(θ̂) es negativa definida.

Agenda

Introducción
Estimación
Propiedades

Máxima Verosimilitud: Propiedades
Invariancia: Sea g : Θ → Rk y θ̂ el estimador MLE de θ entonces g (θ̂) es el MLE de g (θ).
En general los estimadores MLE no son insesgados. Ejemplo,
n
1X
σ̂ 2 = (xt − x̄)2
n
t=1
nσ̂ 2
∼ χ2 (n − 1)
σ2
Por lo tanto,
nσ̂ 2 n n−1 2
E( ) = n − 1 =⇒ 2 E (σ̂ 2 ) = n − 1 =⇒ E (σ̂ 2 ) = σ 6= σ 2
σ2 σ n
y
n
1X
E (µ̂) = E ( xt ) = µ
n
t=1

Eficiencia. Teorema de Cramer-Rao: Sea θ̂ un estimador insesgado de
θ = (θ1 , θ2 , . . . , θk )0 . Entonces bajo ciertas condiciones de regularidad,
Var (θ̂) − In (θ)−1 ≥ 0
donde
∂ln[L(x; θ)] 0
2
∂ln[L(x; θ)] ∂ ln[L(x; θ)]
In (θ) = E =E −
∂θ ∂θ ∂θ∂θ0
es la matriz de información de Fisher.
 2 
∂ ln[L(x;θ)] ∂ 2 ln[L(x;θ)] ∂ 2 ln[L(x;θ)]
· · ·
 2 ∂θ12 ∂θ1 ∂θ2 ∂θ1 ∂θk 
 ∂ ln[L(x;θ)] ∂ 2 ln[L(x;θ)] ∂ 2 ln[L(x;θ)] 
 ∂θ2 ∂θ1 ∂θ22
· · · ∂θ2 ∂θk 
In (θ) = −E  .. .. .. ..


.
 2 . . .
 
∂ ln[L(x;θ)] 2
∂ ln[L(x;θ)] 2
∂ ln[L(x;θ)]

∂θk ∂θ1 ∂θk ∂θ2 · · · ∂θ 2
k

Por lo tanto Var (θ̂i ) ≥ In (θ)−1

ii .
Un estimador insesgado se dice completamente eficiente si su varianza “alcanza la cota de
Cramer-Rao” Var (θ̂i ) = In (θ)−1
ii .
Si el estimador es sesgado, entonces su eficiencia se calcula con el MSE
MSE (θ̂) = E [(θ̂ − θ)2 ] = Var (θ̂) + Bias(θ̂)2
en este caso, MSE (θ̂) ≥ CRLB(θ),
∂Bias(θ) 2
2
∂ ln[L(x; θ)]
CRLB(θ) = 1 + /E −
∂θ ∂θ2

Ejemplo (continuación):
−n − σ14 nt=1 (xt − µ)
P
H(θ) = Pn σ2
− σ14 n
− σ16 nt=1 (xt − µ)2
P
t=1 (xt − µ) 2σ 4
Por definición, In (θ) = −E [H(θ)]. Entonces,

n n
n n 1 X 1 X
E (− 2 ) = − 2 , E [− 4 (xt − µ)] = − 4 E (xt − µ) = 0
σ σ σ σ
t=1 t=1
y
n n
n 1 X n 1 X
E[ − (xt − µ)2 ] = − E (xt − µ)2
2σ 4 σ 6 2σ 4 σ 6
t=1 t=1
n nσ 2 n
= 4
− 6
=− 4
2σ σ 2σ
" #
n σ2

σ2
0 −1 n 0
In (θ) = n , In (θ) = 2σ 4
0 2σ 4 0 n
Pn
Como E (µ̂) = E ( n1 t=1 xt ) = µ podemos chequear que,
n
1 X σ2
Var (µ̂) = 2 Var (xt ) = = In (θ)−1
11
n n
t=1
y el estimador de µ es completamente eficiente.

n−1 2
Para el estimador de la varianza tenemos E (σ̂ 2 ) = n σ = σ 2 − n1 σ 2 .
Por lo tanto,
∂Bias 1
2
=−
∂σ n

Entonces,
n (n − 1)2 2σ 4
CRLB = (1 − 1/n)2 / =
2σ 4 n2 n
2(n−1)σ 4
Además, Var (σ̂ 2 ) = n2
, por lo tanto
2(n − 1)σ 4 1
MSE = 2
+ (− σ 2 )2 6= CRLB
n n
y el estimador de la varianza no es completamente eficiente.
Alcanza s 2 (el estimador de la varianza de MCC) la cota de Cramer-Rao?
1 Pn
Sabemos que s 2 = n−1 2 2
t=1 (xt − µ̂) es un estimador insesgado de σ .

Para saber si s 2 es completamente eficiente calculamos,
(n − 1)s 2 (n − 1)2
Var ( ) = 2(n − 1), =⇒ Var (s 2 ) = 2(n − 1)
σ2 σ4
2σ 4
=⇒ Var (s 2 ) = 6= In (θ)−1
22
(n − 1)
y el estimador de la varianza de MCC tampoco es completamente eficiente.
Propiedades asintóticas: Sea θ̂n el estimador MLE de θ entonces:
p
a) θ̂n −→ θ.
√ d
b) n(θ̂n − θ) −→ N[0, V (θ)].
−1
c) V (θ) = I (θ) .
donde I (θ) = limn→∞ [ n1 In (θ)] es la matriz de información de Fisher asintótica.

Estimadores de I (θ),
(i)
1 ∂ 2 ln[L(x, θ̂)] p
− −→ I (θ)
n ∂θ∂θ0
(ii)
n
" ! !0 #
1X ∂ln[L(x, θ̂)] ∂ln[L(x, θ̂)] p
−→ I (θ)
n t=1 ∂θ ∂θ
Estimadores de Var (θ̂n )

!−1
∂ 2 ln[L(x, θ̂)]
∂θ∂θ0
ó,
" n
! !0 #−1
X ∂ln[L(x, θ̂)] ∂ln[L(x, θ̂)]
∂θ ∂θ
t=1
Ejemplo (continuación)

µ̂
θ̂n =
σ̂ 2
√ d
n(θ̂n − θ) −→ N[0, I (θ)−1 ]
n 1

1 1 σ2
0 σ2
0
I (θ) = lim [ In (θ)] = lim n = 1
n→∞ n n→∞ n 0 2σ 4
0 2σ 4
√ 2
n(µ̂ − µ) d 0 σ 0
√ −→ N ,
n(σ̂ 2 − σ 2 ) 0 0 2σ 4

ó 2
µ̂ µ σ /n 0
∼ AN ,
σ̂ 2 σ2 0 2σ 4 /n
Note que el estimador de la varianza es asintóticamente eficiente.

Agenda

Introducción
Estimación
Propiedades

Ejemplo 2: MCC.
y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0
1
f (y ) = f (u) = (2πσ 2 )n/2 exp[− (y − xβ)0 (y − xβ)] ≡ L(x; θ)
2σ 2
n n 1
ln[L(x; θ)] = − ln(2π) − ln(σ 2 ) − 2 (y 0 y − β 0 x 0 xβ − 2β 0 x 0 y )
2 2 2σ

Condiciones de primer orden:
∂ln[L(x; θ)] 1 1
= − 2 (2x 0 xβ − 2x 0 y ) = 2 (x 0 y − x 0 xβ) = 0 (1)
∂β 2σ σ
∂ln[L(x; θ)] n 1
2
= − 2 + 4 (y − xβ)0 (y − xβ) = 0 (2)
∂σ 2σ 2σ
(1) =⇒ x 0 y − x 0 xβ = 0 =⇒ β̂ = (x 0 x)−1 x 0 y (3)
1 û 0 û
(2)y (3) =⇒ σ̂ 2 = (y − x β̂)0 (y − x β̂) = (4)
n n

Condiciones de segundo orden,
∂ 2 ln[L(x; θ)] 1 ∂ 2 ln[L(x; θ)] n 1

0
= − 2 x 0 x; 4
= 4 − 6 u0u (5)
∂β∂β σ ∂σ 2σ σ
∂ 2 ln[L(x; θ)] 1 1 1
2
= − 4 (x 0 y − x 0 xβ) = − 4 x 0 (y − xβ) = − 4 x 0 u (6)
∂β∂σ 2σ 2σ 2σ
Esperanzas,
∂ 2 ln[L(x; θ)]

1 1
E 0
= E (− 2 x 0 x) = − 2 x 0 x
∂β∂β σ σ
2
nσ 2

∂ ln[L(x; θ)] n 1 0 n n
E 4
= 4
− 6
E (u u) = 4
− 6
=− 4
∂σ 2σ σ 2σ σ 2σ

∂ 2 ln[L(x; θ)]

1
E =− E (x 0 u) = 0 (7)
∂β∂σ 2 2σ 4
Por lo tanto, la matriz de información de Fisher muestral es,
2 1 0
∂ ln[L(x; θ)] xx 0
In (θ) = −E = σ2 n
∂θ∂θ0 0 2σ 4
La inversa de la matriz de información de Fisher es,

2 0 −1
−1 σ (x x) 0
In (θ) = 2σ 4
0 n

Propiedades de los Estimadores
E (β̂) = β, Var (β̂) = σ 2 (x 0 x)−1 = In (θ)−1

11
y el estimador de MV de β es completamente eficiente.
nσ̂ 2 2 nσ̂ 2 n−k 2

2
∼ χ (n − k) =⇒ E ( 2
) = (n − k) =⇒ E (σ̂ 2 ) = σ 6= σ 2
σ σ n
n−k 2 k k
E (σ̂ 2 ) = σ = σ 2 − σ 2 =⇒ Bias(σ̂ 2 ) = − σ 2
n n n
Entonces,
nσ̂ 2 2(n − k) 4
Var ( 2
) = 2(n − k) =⇒ Var (σ̂ 2 ) = σ
σ n2

y el MSE es,
2(n − k) 4 k 2 2 2(n − k) + nk 2 4
MSE (σ̂ 2 ) = σ + (− σ ) = σ
n2 n n2
La cota de Cramer-Rao es,
∂Bias(θ) 2
2
∂ ln[L(x; θ)]
CRLB = 1+ /E −
∂θ ∂θ2
k 2(n − k)2 σ 4
= (1 − )2 /(n/2σ 4 ) =
n n3
El estimador de la varianza es sesgado y su MSE no alcanza la cota de Cramer-Rao.

Es el estimador de la varianza de MCC es completamente eficiente?
(n − k)s 2 2 2 û 0 û
∼ χ (n − k); s =
σ2 (n − k)
Esperanza,
(n − k)s 2
E( ) = n − k =⇒ E (s 2 ) = σ 2
σ2
Varianza,
(n − k)s 2 2 2σ 4 −1 2σ 4
Var ( ) = 2(n − k) =⇒ Var (s ) = 6
= In (θ) 22 =
σ2 n−k n
El estimador es insesgado pero tampoco es completamente eficiente.

Propiedades Asintóticas:
p p
β̂ −→ β, s 2 −→ σ 2
√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , s 2 )0
1
1 2Q 0 1
I (θ) = lim [ In (θ)] = σ
1 , Q = lim x 0 x
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(s 2 − σ 2 ) −→ N[0, 2σ 4 ]
Ambos estimadores son asintóticamente insesgados y eficientes.

MCC con variables explicativas aleatorias.
y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0
Supuestos:
1. x aleatorias con densidad f (x).
2. f (x) no depende de θ.
3. x y u se distribuyen en forma independiente.
L(y , x; θ) = f (y |x)f (x) = f (u|x)f (x) = f (u)f (x)

El logaritmo de la función de verosimilitud queda,
Ln[L(y , x; θ)] = Ln[f (u)] + Ln[f (x)]
n n 1
= − ln(2π) − ln(σ 2 ) − 2 (y − xβ)0 (y − xβ)
2 2 2σ
+ Ln[f (x)]
Por lo tanto,
û 0 û E (x 0 x) 0
1
β̂ = (x 0 x)−1 x 0 y , σ̂ 2 =
, In (θ) = σ2 n
n 0 2σ 4
1
1 Q 0 1
I (θ) = lim [ In (θ)] = σ 2
1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n
Propiedades asintóticas,
p p
β̂ −→ β, σ̂ 2 −→ σ 2

√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , σ̂ 2 )0
1
1 Q 0 1
I (θ) = lim [ In (θ)] = σ2 1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(σ̂ 2 − σ 2 ) −→ N[0, 2σ 4 ]
Todos estos resultados asumieron normalidad del término de error. Sin este supuesto no
hay garantı́as de que los estimadores de MV sean los de MCC o que el estimador de MCC
alcance la cota de Cramer-Rao.
Si el término de error no es normal, todo lo anterior implica que los estimadores de MV
maximizan una función de verosimilitud que está mal especificada.

Cuasi (Pseudo) Máxima Verosimilitud: MCC
En este caso, el método se denomina de Cuasi-Máxima Verosimilitud y tiene las siguientes

propiedades.
Todos los resultados de muestra finita que vimos para MCC estimados por MV pueden
re-interpretarse como resultados de muestra finita del cuasi-MLE cuando el error es
incorrectamente especificado como teniendo distribución normal.

Agenda

Introducción
Estimación
Propiedades

Sea L(x, θ) la función de densidad conjunta del vector de variables aleatorias

x = (x1 , . . . , xn )0 , caracterizadas por el vector de parámetros θ de dimensión (k × 1).
Queremos contrastar las siguientes hipótesis
H0 : φ(θ) = 0 vs. H1 : φ(θ) 6= 0
donde φ(·) es un vector de dimensión q × 1 de funciones diferenciables con q < k.

Definamos a θ̂ como el estimador MLE sin restricciones, i.e. resuelve argmaxθ Ln[L(x, θ)].
Definamos a θ̃ como el estimador MLE restringido, i.e. resuelve
argmaxθ Ln[L(x, θ)], s.t. φ(θ) = 0.

Test de Wald
Haciendo una expansión de Taylor de primer orden de φ(θ̂) alrededor del verdadero vector
de parámetros θ, tenemos
φ(θ̂) = φ(θ) + F (θ)0 (θ̂ − θ) + op (1) =⇒

√ h i √
n φ(θ̂) − φ(θ) = F (θ)0 n(θ̂ − θ) + op (1) (8)
0
donde F (θ) = ∂φ(θ)
∂θ con rango [F (θ)] = q.
De las propiedades asintóticas de los estimadores de máxima verosimilitud sabemos que:
√
n(θ̂ − θ) ∼ N(0, I (θ)−1 ) (9)
De (8) y (9) tenemos:
√ h i
n φ(θ̂) − φ(θ) ∼ N[0, F (θ)0 I (θ)−1 F (θ)]

Test de Wald
Bajo la hipótesis nula φ(θ) = 0 por lo tanto,

√
nφ(θ̂) ∼ N[0, F (θ)0 I (θ)−1 F (θ)] (10)
Usando la forma cuadrática de variables aleatorias normales tenemos
nφ(θ̂)0 [F (θ)0 I (θ)−1 F (θ)]−1 φ(θ̂) ∼ χ2 (q) (11)
Podemos aproximar consistentemente los términos del corchete del estadı́stico anterior
evaluando en el estimador de máxima verosimilitud θ̂,
W = nφ(θ̂)0 [F (θ̂)0 I (θ̂)−1 F (θ̂)]−1 φ(θ̂) ∼ χ2 (q) (12)

Test del Multiplicador de Lagrange (LM)
Se resuelve el siguiente problema:
maxθ Ln[L(x, θ)] s.t. φ(θ) = 0
L(θ, λ) = Ln[L(x, θ)] + λ0 φ(θ)

La solución satisface el siguiente conjunto de ecuaciones:
∂Ln[L(x, θ)]
|θ̃ + F (θ̃)λ̃ = 0 (13)
∂θ
φ(θ̃) = 0
donde θ̃ es la solución del problema de maximización condicionada.

El tests LM está basado en la idea de que λ̃ apropiadamente ponderado tiene distribución
asintótica normal.

Tomemos una expansión de Taylor de primer orden de φ(θ̂) y φ(θ̃) alrededor del
verdadero vector de parámetros θ. Ignorando los términos op (1) tenemos,
√ √ √
nφ(θ̂) = nφ(θ) + F (θ)0 n(θ̂ − θ) (14)
√ √ √
nφ(θ̃) = nφ(θ) + F (θ)0 n(θ̃ − θ) (15)
De las condiciones de primer orden sabemos que φ(θ̃) = 0 de forma tal que restando (15)
de (14) obtenemos √ √
nφ(θ̂) = F (θ)0 n(θ̂ − θ̃) (16)
Por otro lado, tomando una expansión de Taylor de primer orden de ∂Ln[L(x, ∂θ
θ)]
|θ=θ̂ y
∂Ln[L(x, θ)]
∂θ |θ=θ̃ alrededor del verdadero vector de parámetros θ tenemos (ignorando los
términos op (1))

∂Ln[L(x, θ)] ∂Ln[L(x, θ)] ∂ 2 Ln[L(x, θ)]

|θ=θ̂ = + (θ̂ − θ) (17)
∂θ ∂θ ∂θ∂θ0
|θ=θ̃ = + (θ̃ − θ) (18)
∂θ ∂θ ∂θ∂θ0
Note que,
|θ=θ̂ = + (θ̂ − θ) =⇒
∂θ ∂θ ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] 1 ∂ 2 Ln[L(x, θ)] √
√ |θ=θ̂ = √ + n(θ̂ − θ) =⇒
n ∂θ n ∂θ n ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̂ = √ − I (θ) n(θ̂ − θ)
n ∂θ n ∂θ
(19)

De la misma manera
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̃ = √ − I (θ) n(θ̃ − θ) (20)
n ∂θ n ∂θ
De las condiciones de primer orden de la maximización no restringida sabemos que

∂Ln[L(x, θ)]
∂θ |θ=θ̂ = 0. Restando (19) de (20) tenemos,
1 ∂Ln[L(x, θ)] √ √
√ |θ=θ̃ = −I (θ) n(θ̃ − θ̂) = I (θ) n(θ̂ − θ̃) (21)
n ∂θ
Por lo tanto
√ 1 ∂Ln[L(x, θ)]
n(θ̂ − θ̃) = I (θ)−1 √ |θ=θ̃ (22)
n ∂θ

De (16) y (22) tenemos

√ 1 ∂Ln[L(x, θ)]
nφ(θ̂) = F (θ)0 I (θ)−1 √ |θ=θ̃ (23)
n ∂θ
Usando (13) obtenemos
√ λ̃
nφ(θ̂) = −F (θ)0 I (θ)−1 F (θ̃) √
n
λ̃
=⇒ −F (θ)0 I (θ)−1 F (θ) √ (24)
n
Entonces,
λ̃ −1 √
√ = − F (θ)0 I (θ)−1 F (θ)

nφ(θ̂) (25)
n

√
De (10), bajo la hipótesis nula nφ(θ̂) ∼ N[0, F (θ)0 I (θ)−1 F (θ)], por lo tanto
λ̃ h −1 i
√ ∼ N 0, F (θ)0 I (θ)−1 F (θ) (26)
n
Nuevamente, usando la forma cuadrática de variables normales se obtiene

1 0 d
λ̃ [F (θ)0 I (θ)−1 F (θ)]λ̃ −→H0 χ2 (q) (27)
n
Usando (13) otra forma del estadı́stico LM es
1 ∂Ln[L(x, θ)] ∂Ln[L(x, θ)] d

0
|θ=θ̃ I (θ)−1 |θ=θ̃ −→H0 χ2 (q) (28)
n ∂θ ∂θ
Para que el test LM sea operativo en la práctica debemos evaluar la matriz de
información de Fisher en la estimación restringida consistente, θ̃.
Podemos aproximar I (θ) con:

n
1 X ∂ 2 Ln[L(xi , θ)]
− |θ=θ̃ (29)
n ∂θ∂θ0
i=1
O con
n
1 X ∂Ln[L(xi , θ)] ∂Ln[L(xi , θ)]
|θ=θ̃ |θ=θ̃ (30)
n ∂θ ∂θ0
i=1
Si elegimos la segunda aproximación el test LM queda,

" n #−1
1 ∂Ln[L(x, θ̃)] 1 X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] ∂Ln[L(x, θ̃)]
LM = (31)
n ∂θ0 n ∂θ ∂θ0 ∂θ
i=1

Note que,
n
∂Ln[L(x, θ̃)] X ∂Ln[L(xi , θ̃)]
=
∂θ0 ∂θ0
i=1
por lo que el test LM queda,

LM =
n n
" #−1 n
X ∂Ln[L(xi , θ̃)] X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] X ∂Ln[L(xi , θ̃)]
∂θ0 ∂θ ∂θ0 ∂θ
i=1 i=1 i=1
Recuerde la definición del R 2 no centrado para el modelo y = X β + u:
ŷ 0 ŷ (X β̂)0 X β̂ y 0 X (X 0 X )−1 X 0 X (X 0 X )−1 X 0 y y 0 X (X 0 X )−1 X 0 y

R2 = = = = (32)
y 0y y 0y y 0y y 0y

Defina y = 1 = (1 1 . . . 1)0 al vector de unos de dimensión n × 1 y

h i0
X = ∂Ln[L(x∂θ 0
1 , θ̃)] ∂Ln[L(x2 , θ̃)]
∂θ 0 . . . ∂Ln[L(xn , θ̃)]
∂θ 0 a la matriz n × k de valores de las variables
explicativas.
En la ecuación del R 2 no centrado tenemos:
n
X ∂Ln[L(xi , θ̃)]
y 0 X = 10 X =
∂θ0
i=1
y
n
X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)]
X 0X =
∂θ ∂θ0
i=1

Entonces,
10 X (X 0 X )−1 X 0 1
R2 = =
10 1
hP i−1 P
Pn ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)]
i=1 ∂θ0 i=1 ∂θ ∂θ0 i=1 ∂θ
n
=⇒ LM = nR 2 ∼ χ2 (q)
Este resultado sugiere que el test LM no es más que el R 2 no centrado de una regresión
auxiliar de un vector de unos sobre los scores, evaluados en la estimación de máxima
verosimilitud restringida, multiplicado por el número de observaciones.

Estadı́stico del cociente de verosimilitud (LR test)
L(x, θ̃)
µ = maxφ(θ)=0 L(x, θ)/maxθ L(x, θ) =
L(x, θ̂)
Entonces el estadı́stico de contraste es,
d
LR = −2Ln(µ) = 2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} −→H0 χ2 (q)
Note que, haciendo una expansión de Taylor de segundo orden
∂Ln[L(x, θ̂)]
Ln[L(x, θ̃)] ' Ln[L(x, θ̂)] + (θ̂ − θ̃)
∂ θ̂
1 ∂ 2 Ln[L(x, θ̂)]
+ (θ̂ − θ̃)0 (θ̂ − θ̃)
2 ∂ θ̂∂ θ̂0
La ecuación anterior implica que,
∂ 2 Ln[L(x, θ̂)]
−2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = (θ̂ − θ̃)0 (θ̂ − θ̃) =⇒
∂ θ̂∂ θ̂0
0
2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = n(θ̂ − θ̃) I (θ)(θ̂ − θ̃)
Donde hicimos uso de,

∂Ln[L(x, θ̂)]
=0
∂ θ̂
1 ∂ 2 Ln[L(x, θ̂)]
I (θ) = −
n ∂ θ̂∂ θ̂0

√ d
Por lo tanto, como n(θ̂ − θ) −→ N[0, I (θ)−1 ], se desprende que,
d
n(θ̂ − θ̃)0 I (θ)(θ̂ − θ̃) −→H0 χ2 (q)

Agenda

Introducción
Estimación
Propiedades

Sesgo de Selección por Truncamiento Incidental
En economı́a un caso emblemático de aplicación de máxima verosimilitud es el modelo de

oferta de trabajo de las mujeres (Gronau, 1974; Heckman, 1976). Este modelo consiste
de dos ecuaciones, una ecuación de salarios que representa la diferencia entre el salario de
mercado de una persona y su salario de reserva en función de caracterı́sticas tales como la
edad, educación, número de hijos etc.
La segunda ecuación es una ecuación de horas deseadas de trabajo que depende del
salario, de la presencia de hijos pequeños en el hogar, del estado civil, etc.
El problema del truncamiento es que en la segunda ecuación observamos las horas reales
solo si la persona está trabajando. Esto es, solo si el salario de mercado excede al salario
de reserva. En este caso se dice que la variable horas en la segunda ecuación está
incidentalmente truncada.

Definiciones: Suponga que y y z tienen una distribución bivariada con correlación ρ.

Nosotros estamos interesados en la distribución de y dado que z excede un determinado
valor. Esto es, la función de densidad conjunta de y y z es:
f (y , z)
f (y , z|z > a) =
Pr (z > a)
Teorema 20.4 (Greene, 1997, Cap. 20, página 975): Si y y z tienen una distribución
normal bivariada con medias µy y µz , desvı́os estándar σy y σz y correlación ρ, entonces:
E (y |z > a) = µy + ρσy λ(αz )
Var (y |z > a) = σy2 [1 − ρ2 δ(αz )],

donde, αz = (a − µz )/σz , λ(αz ) = φ(αz )/[1 − Φ(αz )] y δ(αz ) = λ(αz )[λ(αz ) − αz ].

Para poner el ejemplo de la oferta de trabajo de las mujeres en un marco general de

análisis, digamos que la ecuación que determina la selección muestral es:
zi∗ = γ 0 wi + ui ,
donde zi∗ es la diferencia entre el salario de mercado y el salario de reserva de la persona i.

La ecuación de interés es,
yi = β 0 xi + i ,
donde yi es la oferta de trabajo (en horas) de la persona i.
La regla es que yi es observada solo cuando zi∗ es mayor a cero.

Asumamos que ui y i tienen distribución normal bivariada con medias cero y correlación
ρ. Aplicando el teorema 20.4 tenemos,
E (yi |yi es observada) = E (yi |zi∗ > 0)

= E (yi |ui > −γ 0 wi )
= β 0 xi + E (i |ui > −γ 0 wi )
= β 0 xi + ρσ λi (αu )
= β 0 xi + βλ λi (αu )
donde αu = −γ 0 wi /σu y λi (αu ) = φ(γ 0 wi /σu )/Φ(γ 0 wi /σu ).

Entonces, la ecuación de interés puede escribirse como,
yi |zi∗ > 0 = β 0 xi + βλ λi (αu ) + vi
donde vi es un término de error con media cero.

Como queda claro de este desarrollo, estimar por MCC la ecuación de interés usando solo
los datos observados, produce estimadores inconsistentes de β por el argumento estándar
de variables omitidas (i.e. estamos omitiendo λi (·)).
Cómo podemos obtener estimaciones consistentes de la ecuación de horas de trabajo
utilizando solo los datos observados.
En principio tenemos un problema similar al de la variable habilidad omitida en la
ecuación del salario. En este caso, la variable λi (·) no es observada.
Note que aún cuando observáramos λi (·), MCC no nos darı́a estimadores eficientes
porque los errores de la ecuación de interés, vi , son heterocedásticos (i.e.
Var (vi ) = σ2 (1 − ρ2 δi ) de acuerdo al teorema 20.4 de Greene).

Una posible solución es estimar la ecuación de selección para obtener los γ̂ y construir la
variable omitida como λ̂i = φ(γ̂ 0 wi )/Φ(γ̂ 0 wi ). Luego en un segundo paso estimar la
ecuación de interés por MCC en una regresión de y sobre x y λ̂.
El único problema de esta solución es que la variable dependiente de la ecuación de
selección, zi∗ , no es observada. Lo que podemos observar es zi = 1 si zi∗ > 0, es decir si la
persona está trabajando; o zi = 0 si zi∗ < 0 si la persona no está trabajando.
Es decir que el modelo que podemos estimar es:
zi = γ 0 wi + ui , (33)
donde zi es una variable binaria.

Modelo de Probabilidad Lineal
Una posibilidad es estimar la ecuación de selección por MCC. Para ver porque esta no es
la mejor solución considere la esperanza condicional de la variable dependiente.
E (zi |wi ) = γ 0 wi
Además desde la definición de esperanza matemática E (zi |wi ) = 0 ∗ (1 − Pi ) + 1 ∗ Pi = Pi

donde Pi es la probabilidad de que zi = 1. Entonces,
Pi = Pr [zi = 1|wi ] = E (zi |wi ) = γ 0 wi
de aquı́ el nombre de Modelo de Probabilidad Lineal.

El problema es que la estimación por MCC de z, ẑi = γ̂ 0 wi , es la estimación de la
probabilidad de que la persona i se encuentre trabajando. En la práctica, como MCC
estima una recta, los valores de ẑi pueden caer fuera del intervalo (0, 1).

Como zi solo adopta dos valores, zi = 1 ó zi = 0, los errores del modelo pueden ser
ui = 1 − γ 0 wi ó ui = −γ 0 wi con probabilidades Pi y 1 − Pi respectivamente. Entonces la
distribución de los errores es,
ui f (ui )
1 − γ 0 wi γ 0 wi
−γ 0 wi 1 − γ 0 wi
Una consecuencia de la distribución anterior es que
Var (ui ) = γ 0 wi (1 − γ 0 wi )2 + (1 − γ 0 wi )(γ 0 wi )2

= γ 0 wi (1 − γ 0 wi )
= E (zi |wi )[1 − E (zi |wi )].
y los errores son heterocedásticos.

Golberger (1964) sugirió el siguiente procedimiento de estimación: Primero, estime (33)

por MCC. Segundo, calcule ẑi (1 − ẑi ) y use MCGE.
Los problemas del MPL son los siguientes
1. En la práctica ẑi (1 − ẑi ) puede ser cero o negativo y el método de MCGE no puede aplicarse.
2. Como la esperanza condicional de la variable dependiente E (zi |wi ) se interpreta como una
probabilidad, en la práctica su estimación por MCGE puede arrojar valores fuera del intervalo
(0, 1).
Una forma alternativa para formular el modelo que resuelve los problemas anteriores es
considerar que zi = 1 cuando zi∗ > 0 de forma tal que
Pi = Pr [zi = 1] = Pr [zi∗ > 0] = Pr [γ 0 wi + ui > 0]

= Pr [ui > −γ 0 wi ] = Pr [ui < γ 0 wi ]
= Φ(γ 0 wi )

Modelo Probit
A diferencia de lo que ocurrı́a con el MPL en este caso existe una relación no lineal con
los parámetros del modelo y por lo tanto no puede usarse el método de mı́nimos
cuadrados para la estimación.
Para realizar la estimación del modelo debemos recurrir al método de máxima
verosimilitud.
Como sabemos la función de probabilidad de los errores y tenemos una muestra aleatoria
(es decir, compuesta por variables aleatorias independientes) la función de verosimilitud es
simplemente la multiplicación de las funciones de probabilidad para todas las
observaciones que hay en la muestra.
n
Y
L(γ; w ) = Φ(γ 0 wi )zi [1 − Φ(γ 0 wi )](1−zi )
i=1

Modelo Probit: Estimación
El logaritmo natural de la función de verosimilitud es,

n
X
zi ln{Φ(γ̂ 0 wi )} + (1 − zi )ln{1 − Φ(γ̂ 0 wi )}

l(γ̂; wi ) =
i=1
Las condiciones de primer orden para la maximización de esta función son,
n
zi − Φ(γ̂ 0 wi )

∂l(·) X
0
S(γ̂) = = φ(γ̂ wi ) wi = 0
∂γ̂ Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1
Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.

Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,
∂ 2 l(·)

I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(γ̂ 0 wi )]2
= wi wi0
Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1
Entonces la matriz de varianzas y covarianzas asintótica viene dada por [I (γ̂)]−1 .

Adicionalmente, usando el algoritmo de Newton-Raphson, comenzando con un valor

inicial γ̂0 el nuevo valor de γ̂1 se obtiene,
γ̂1 = γ̂0 + [I (γ̂0 )]−1 S(γ̂0 )

este procedimiento iterativo se repite hasta converger.
Volviendo al ejemplo de la estimación de la oferta de trabajo de las mujeres, Heckman
(1979) sugirió utilizar el siguiente procedimiento en dos etapas.
1. Estimar la ecuación de selección usando un Probit para obtener estimaciones de γ. Luego
para cada observación de la muestra se construye,
φ(γ̂ 0 wi )
λ̂i =
Φ(γ̂ 0 wi )
También vamos a necesitar δ̂i = λ̂i (λ̂i + γ̂ 0 wi ).

2. Estime β y βλ por MCC en una regresión de y sobre x y λ̂.

Para poder hacer inferencia estadı́stica en la regresión del segundo paso hay que tener en
cuenta dos problemas: heterocedasticidad en vi y el hecho de que una de las variables
explicativas de la regresión está construı́da a partir de una estimación anterior.
Heckman (1979) deriva la verdadera matriz de varianzas y covarianzas de los estimadores
del segundo paso.
\ 2 2
Recuerde que Var (vi ) = σ̂ (1 − ρ̂ δ̂i ) usando el teorema (20.4) de Greene. Donde
2 e0e 2 1P
σ̂ = n + δ̄ β̂λ , y δ̄ = n i δ̂i .
Entonces la estimación correcta de la matriz de varianzas y covarianzas del segundo paso
es, " #
X 0 X 0
X 0
Var [β̂, β̂λ ] = σ̂2 ( xi∗ xi∗ )−1 (1 − ρ̂2 δ̂i )xi∗ xi∗ + Q ( xi∗ xi∗ )−1
i i i

Donde,
0
Q = ρ̂2 (X ∗ ∆W )[Avar (γ̂)](W 0 ∆X ∗ )
y ∆ es una matriz diagonal con δ̂i en la diagonal principal.

Costos Económicos de Nacer con Peso Bajo
Considere un caso hipotético como el de Almond et al. (2005).

La pregunta que se quiere responder es si fumar durante el embarazo afecta el peso de un
recién nacido.
Las unidades en este caso son mujeres embarazadas, algunas de las cuales fumaron
durante el embarazo.
La variable de resultado es el peso del bebé al nacer.

La figura muestra el peso del bebé al nacer para madres fumadoras y no fumadoras como
función de la edad de la madre.

La figura sugiere que las mujeres fumadoras tienden a tener mayor edad que las no
fumadoras.
Para las mujeres fumadoras de mayor edad y las no fumadoras más jóvenes no parece
haber un soporte común.
Supongamos que observamos los resultados potenciales de cada mujer embarazada:

Lo que hace el método de regresión es estimar una regresión (con los datos observados,
cı́rculos sólidos) del peso del bebé sobre la edad de la madre para el grupo de madres
fumadoras y para el grupo de madres no fumadoras.
Luego se usa la linea de regresión muestral de las madres fumadoras como resultado
contrafáctico de las madres no fumadoras y viceversa.

Estimación
La estimación del ATE condicional es directa a través del método de mı́nimos cuadrados
clásicos.
En la práctica estimamos E [y | w, sT = 1] con el plano de regresión muestral, m
b 1 (w, δ̂1 ),
con las observaciones del tratamiento y estimamos E [y | w, sT = 0] con el plano de
regresión muestral, m
b 0 (w, δ̂0 ), con las observaciones del control.
N
1 Xh i
τbw = b 1 (wi , δ̂1 ) − m
m b 0 (wi , δ̂0 )
N
i=1

Inversa del propensity score como ponderador
Una alternativa a esto es ponderar las esperanzas matemáticas por la inversa de la
probabilidad condicional de recibir el tratamiento (propensity score).
El método del propensity score ve a los resultados potenciales no observados (cı́rculos sin
relleno) como observaciones faltantes y usa ponderadores para corregir las estimaciones
de las esperanzas para las unidades tratadas y no tratadas.
El método aplica mayor ponderación a los cı́rculos verdes sólidos correspondientes a
madres de mayor edad y menor ponderación a los correspondientes a madres más jóvenes.

En términos formales, una forma de estimar el ATE es utilizando la inversa del propensity
score (π(x)) como ponderador.
Recordando que sy = sy1 tenemos

sy sy1 sy1
E x = E x =E E x, s x
π(x) π(x) π(x)

sE (y1 |x, s)
sE (y1 |x)
= E x =E x
π(x) π(x)

s
= E x E (y1 |x) = E (y1 |x)
π(x)
Haciendo uso de E (s|x) = π(x).
Usando un argumento similar se puede mostrar que:

(1 − s)y
E x = E (y0 |x)
1 − π(x)
Usando álgebra se puede mostrar que,

[s − π(x)]y
E (y1 − y0 |x) = E x
π(x)[1 − π(x)]
Y usando expectativas iteradas,

[s − π(x)]y
τATE = E (y1 − y0 ) = E (34)
π(x)[1 − π(x)]

Note que π(x) = Pr [s = 1|x] es la probabilidad de recibir el tratamiento y ex-ante no es

observable.
Lo único que observamos en la práctica es si la persona recibe el tratamiento (s = 1) o no
lo recibe (s = 0).
Supongamos que una persona se autoselecciona en el tratamiento dependiendo de la
utilidad que le brinda.
Denotemos por
UiT = xi γT + uiT (35)
a la utilidad que le brinda al individuo i autoseleccionarse en el tratamiento y de la misma
manera
UiC = xi γC + uiC (36)
a la utilidad de no recibir el tratamiento.

Entonces
π(x) = Pr [s = 1|x] = Pr [UiT > UiC ] = Pr [uiC − uiT ≤ xi (γT − γC )]

= Pr [ui ≤ xi γ] = Φ(xi γ)
Donde asumimos que el error ui tiene distribución normal estándar (modelo Probit).
En términos de nuestro ejemplo,
Z xi γ
1 t2
Φ(xi γ) = √ e − 2 dt
−∞ 2π
existe una relación nolineal entre la probabilidad de recibir el tratamiento y los parámetros
del modelo.

Modelo Probit: estimación
Para realizar la estimación del modelo debemos recurrir al método de máxima

verosimilitud.
La función de verosimilitud es la multiplicación de la probabilidad de recibir el tratamiento
para todas las observaciones que hay en la muestra.
n
Y
L(γ; x) = Φ(xi γ)si [1 − Φ(xi γ)](1−si )
i=1

El logaritmo natural de la función de verosimilitud es,

n
X
l(γ̂; xi ) = [si ln{Φ(xi γ̂)} + (1 − si )ln{1 − Φ(xi γ̂)}]
i=1
Las condiciones de primer orden para la maximización de esta función son,

n
∂l(·) X si − Φ(xi γ̂)
S(γ̂) = = φ(xi γ̂) xi = 0
∂γ̂ Φ(xi γ̂)[1 − Φ(xi γ̂)]
i=1
Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.

Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,
∂ 2 l(·)

I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(xi γ̂)]2
= xi x 0
Φ(xi γ̂)[1 − Φ(xi γ̂)] i
i=1
Entonces la matriz de varianzas y covarianzas asintótica viene dada por [I (γ̂)]−1 .

Adicionalmente, usando el algoritmo de Newton-Raphson, comenzando con un valor

inicial γ̂0 el nuevo valor de γ̂1 se obtiene,
γ̂1 = γ̂0 + [I (γ̂0 )]−1 S(γ̂0 )
este procedimiento iterativo se repite hasta converger.

Una vez estimado el propensity score usando un Probit estimamos el ATE,
N
1 X [s − π̂(x)]y
τ̂ATE = (37)
N π̂(x)[1 − π̂(x)]
i=1

Variable Dependiente Binaria y Efectos Marginales
En los modelos lineales los coeficientes que acompañan a las variables explicativas tienen
la interpretación de ser directamente el efecto marginal de un cambio en la variable
explicativa sobre la variable dependiente.
En el caso de modelos no lineales como el Probit los coeficientes que acompañan a las
variables explicativas no tienen esta interpretación.
Para ver esto, considere el siguiente modelo:
Z α+βxi +zγ
1 t2
Φ(α + βxi + zγ) = √ e − 2 dt
−∞ 2π
donde z es un vector de variables explicativas adicionales a x y γ un vector de parámetros
poblacionales.
En este caso el efecto marginal viene dado por la derivada parcial de la probabilidad
ex-ante con respecto a alguna variable explicativa.
∂Pr [yi = 1|·]
= φ(α + βxi + zγ) × β
∂xi
La expresión anterior corresponde a una variable explicativa xi continua.

Si xi es una variable discreta (binaria) el efecto marginal viene dado por:
Pr [yi = 1|xi = 1] − Pr [yi = 1|xi = 0] = {Φ(α + β + zγ) − Φ(α + zγ)} (38)
Note que a diferencia de los modelos lineales, el efecto marginal es una función y no una
constante.
Para obtener un resultado numérico puntual, es estándar en la práctica calcular el
denominado efecto marginal promedio.
En términos matemáticos,
E {Pr [yi = 1|xi = 1] − Pr [yi = 1|xi = 0]} = E {Φ(α + β + zγ) − Φ(α + zγ)} (39)

Supongamos ahora que queremos analizar la eficacia de una vacuna contra el COVID-19
en un experimento aleatorizado.
La “polı́tica” es la vacunación.
La variable de resultado es si el individuo se contagia o no de COVID.
Aquı́ el resultado potencial es una variable binaria y en un modelo lineal el ATE viene
dado por:
ATE = E (Ys (u)|sT = 1) − E (Ys (u)|sT = 0) = E (YT (u)) − E (YC (u))
= Pr (Ys = 1|sT = 1) − Pr (Ys = 1|sT = 0) (40)
donde u denota al individuo, Ys es una variable binaria que adopta el valor unitario si el
individuo se contagia de COVID-19 y vale cero si no se contagia y sT = 1 si el individuo
está vacunado.
La segunda igualdad viene dada por el hecho de que la esperanza matemática condicional
de un modelo de variable dependiente binaria es igual a la probabilidad de ocurrencia del
evento analizado.
Supongamos que estimamos las probabilidades utilizando un modelo Probit
E [Yi | Xi , Si ] = Φ X0i β0 + β1 Si

(41)
Ahora la “switching equation” es
E [Yi | Xi , Si ] = Φ X0i β0 + Φ X0i β0 + β1 − Φ X0i β0 × Si

(42)
y el ATE es
ATE = E {Pr (Yi = 1|Xi , Si = 1) − Pr (Yi = 1|Xi , Si = 0)}

= E Φ X0i β0 + β1 − Φ X0i β0

(43)

El principal resultado de esta discusión es que estimar el efecto tratamiento promedio

usando un modelo Probit involucra calcular el efecto marginal promedio.
En la práctica no hay grandes diferencias entre el efecto marginal promedio y el coeficiente
sobre la variable de asignación del tratamiento en un modelo de regresión lineal.
Esta regularidad empı́rica más la complejidad adicional para hacer inferencia estadı́stica
(i.e. se necesitan errores estándar para los efectos marginales promedio) hace que muchos
investigadores cuando trabajan con evaluaciones de impacto prefieran aproximar la
estimación de las esperanzas matemáticas condicionales usando un modelo de
probabilidad lineal.

Econometrics03 2022 New

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Econometrics03 2022 New

Uploaded by

Copyright:

Available Formats

Econometrı́a

Maestrı́a en Economı́a - Maestrı́a en Econometrı́a

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 1 / 85

1 Estimación por Máxima Verosimilitud

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 2 / 85

1 Estimación por Máxima Verosimilitud

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 3 / 85

Suponga que x = (x1 , x2 , . . . , xn )0 es una muestra aleatoria de

θ̂MLE : argmaxθ∈Θ ln[L(x; θ)]

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 4 / 85

1 Estimación por Máxima Verosimilitud

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 5 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 6 / 85

Las condiciones de primer orden vienen dadas por,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 7 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 8 / 85

Evaluando las derivadas segundas en θ = θ̂ tenemos:

La matriz hessiana queda entonces,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 9 / 85

1 Estimación por Máxima Verosimilitud

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 10 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 11 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 12 / 85

Por lo tanto Var (θ̂i ) ≥ In (θ)−1

MSE (θ̂) = E [(θ̂ − θ)2 ] = Var (θ̂) + Bias(θ̂)2

en este caso, MSE (θ̂) ≥ CRLB(θ),

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 13 / 85

Por definición, In (θ) = −E [H(θ)]. Entonces,

y el estimador de µ es completamente eficiente.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 15 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 16 / 85

Para saber si s 2 es completamente eficiente calculamos,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 17 / 85

Estimadores de Var (θ̂n )

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 19 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 20 / 85

1 Estimación por Máxima Verosimilitud

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 21 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 22 / 85

Condiciones de primer orden:

(1) =⇒ x 0 y − x 0 xβ = 0 =⇒ β̂ = (x 0 x)−1 x 0 y (3)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 23 / 85

Condiciones de segundo orden,

∂ 2 ln[L(x; θ)] 1 ∂ 2 ln[L(x; θ)] n 1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 24 / 85

La inversa de la matriz de información de Fisher es,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 25 / 85

Propiedades de los Estimadores

E (β̂) = β, Var (β̂) = σ 2 (x 0 x)−1 = In (θ)−1

y el estimador de MV de β es completamente eficiente.

nσ̂ 2 2 nσ̂ 2 n−k 2

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 26 / 85

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 27 / 85