You are on page 1of 85

Econometrı́a

Maestrı́a en Economı́a - Maestrı́a en Econometrı́a

Lecture 3

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 1 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 2 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 3 / 85


Definiciones

Suponga que x = (x1 , x2 , . . . , xn )0 es una muestra aleatoria de

f (xt ; θ), t = 1, 2, . . . , n

Definamos:
I Función de Verosimilitud (FV): L(x; θ) = f (x1 , x2 , . . . , xn ; θ)
I Logaritmo de la FV: ln[L(x; θ)]
I Función Score: ∂ln[L(x;θ)]
∂θ
El estimador de Máxima Verosimilitud (MLE) se obtiene de:

θ̂MLE : argmaxθ∈Θ ln[L(x; θ)]

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 4 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 5 / 85


Máxima Verosimilitud: Estimación
En el caso de que la función de verosimilitud sea diferenciable, entonces el estimador MLE
se obtiene de la solución a las siguientes ecuaciones:
∂ln[L(x;θ)]
a) ∂θ =0
∂ 2 ln[L(x;θ)]
b) H(θ) = ∂θ 2 |θ=θ̂ <0
Ejemplo: suponga que (x1 , x2 , . . . , xn ) es una muestra aleatoria de una N(µ, σ 2 ).
Definamos a θ = (µ, σ 2 )0 . Entonces,
n
Y
L(x; θ) = f (x1 , x2 , . . . , xn ; θ) = f (xt ; θ)
t=1
n
Y 1 1
= √ exp[− 2 (xt − µ)2 ]
σ 2π 2σ
t=1
 n n
1 1 X
= √ exp[− 2 (xt − µ)2 ]
σ 2π 2σ
t=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 6 / 85


Máxima Verosimilitud: Estimación

Por lo tanto,
n
n n 2 1 X
ln[L(x; θ)] = − ln(2π) − ln(σ ) − 2 (xt − µ)2
2 2 2σ
t=1

Las condiciones de primer orden vienen dadas por,


n n
∂ln[L(x; θ)] 1 X 1X
= − (x t − µ) = 0 =⇒ µ̂ = xt
∂µ σ2 n
t=1 t=1
n
∂ln[L(x; θ)] n 1 X
= − 2+ 4 (xt − µ)2 = 0
∂σ 2 2σ 2σ
t=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 7 / 85


Máxima Verosimilitud: Estimación
De la segunda ecuación tenemos,
n
1X
=⇒ σ 2 = (xt − µ)2
n
t=1
n
2 1X
=⇒ σ̂ = (xt − µ̂)2
n
t=1
Las condiciones de segundo orden son,
n
∂ 2 ln[L(x; θ)] n ∂ 2 ln[L(x; θ)] n 1 X
2
= − 2; = − (xt − µ)2
∂µ σ ∂σ 4 2σ 4 σ 6
t=1
y
n
∂ 2 ln[L(x; θ)] 1 X
= − (xt − µ)
∂µ∂σ 2 σ4
t=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 8 / 85


Máxima Verosimilitud: Estimación

Evaluando las derivadas segundas en θ = θ̂ tenemos:


n
X ∂ 2 ln[L(x; θ)]
(xt − µ̂) = 0 =⇒ |θ=θ̂ = 0
∂µ∂σ 2
t=1

n
X ∂ 2 ln[L(x; θ)] n
(xt − µ̂)2 = nσ̂ 2 =⇒ |θ=θ̂ = − 4
∂σ 4 2σ̂
t=1

La matriz hessiana queda entonces,

− σ̂n2
 
0
H(θ̂) =
0 − 2σ̂n 4

n2
− σ̂n2 < 0 y determinante de H(θ̂) = 2σ̂ 6
> 0 y H(θ̂) es negativa definida.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 9 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 10 / 85


Máxima Verosimilitud: Propiedades
Invariancia: Sea g : Θ → Rk y θ̂ el estimador MLE de θ entonces g (θ̂) es el MLE de g (θ).
En general los estimadores MLE no son insesgados. Ejemplo,
n
1X
σ̂ 2 = (xt − x̄)2
n
t=1

nσ̂ 2
∼ χ2 (n − 1)
σ2
Por lo tanto,
nσ̂ 2 n n−1 2
E( ) = n − 1 =⇒ 2 E (σ̂ 2 ) = n − 1 =⇒ E (σ̂ 2 ) = σ 6= σ 2
σ2 σ n
y
n
1X
E (µ̂) = E ( xt ) = µ
n
t=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 11 / 85


Máxima Verosimilitud: Propiedades
Eficiencia. Teorema de Cramer-Rao: Sea θ̂ un estimador insesgado de
θ = (θ1 , θ2 , . . . , θk )0 . Entonces bajo ciertas condiciones de regularidad,
Var (θ̂) − In (θ)−1 ≥ 0
donde
∂ln[L(x; θ)] 0
    2 
∂ln[L(x; θ)] ∂ ln[L(x; θ)]
In (θ) = E =E −
∂θ ∂θ ∂θ∂θ0
es la matriz de información de Fisher.
 2 
∂ ln[L(x;θ)] ∂ 2 ln[L(x;θ)] ∂ 2 ln[L(x;θ)]
· · ·
 2 ∂θ12 ∂θ1 ∂θ2 ∂θ1 ∂θk 
 ∂ ln[L(x;θ)] ∂ 2 ln[L(x;θ)] ∂ 2 ln[L(x;θ)] 
 ∂θ2 ∂θ1 ∂θ22
· · · ∂θ2 ∂θk 
In (θ) = −E  .. .. .. ..


.
 2 . . .
 
∂ ln[L(x;θ)] 2
∂ ln[L(x;θ)] 2
∂ ln[L(x;θ)]

∂θk ∂θ1 ∂θk ∂θ2 · · · ∂θ 2
k

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 12 / 85


Máxima Verosimilitud: Propiedades

Por lo tanto Var (θ̂i ) ≥ In (θ)−1


ii .
Un estimador insesgado se dice completamente eficiente si su varianza “alcanza la cota de
Cramer-Rao” Var (θ̂i ) = In (θ)−1
ii .
Si el estimador es sesgado, entonces su eficiencia se calcula con el MSE

MSE (θ̂) = E [(θ̂ − θ)2 ] = Var (θ̂) + Bias(θ̂)2

en este caso, MSE (θ̂) ≥ CRLB(θ),

∂Bias(θ) 2
   2 
∂ ln[L(x; θ)]
CRLB(θ) = 1 + /E −
∂θ ∂θ2

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 13 / 85


Máxima Verosimilitud: Propiedades
Ejemplo (continuación):
−n − σ14 nt=1 (xt − µ)
 P 
H(θ) = Pn σ2
− σ14 n
− σ16 nt=1 (xt − µ)2
P
t=1 (xt − µ) 2σ 4

Por definición, In (θ) = −E [H(θ)]. Entonces,


n n
n n 1 X 1 X
E (− 2 ) = − 2 , E [− 4 (xt − µ)] = − 4 E (xt − µ) = 0
σ σ σ σ
t=1 t=1
y
n n
n 1 X n 1 X
E[ − (xt − µ)2 ] = − E (xt − µ)2
2σ 4 σ 6 2σ 4 σ 6
t=1 t=1
n nσ 2 n
= 4
− 6
=− 4
2σ σ 2σ
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 14 / 85
Máxima Verosimilitud: Propiedades

" #
n σ2
 
σ2
0 −1 n 0
In (θ) = n , In (θ) = 2σ 4
0 2σ 4 0 n
Pn
Como E (µ̂) = E ( n1 t=1 xt ) = µ podemos chequear que,
n
1 X σ2
Var (µ̂) = 2 Var (xt ) = = In (θ)−1
11
n n
t=1

y el estimador de µ es completamente eficiente.


n−1 2
Para el estimador de la varianza tenemos E (σ̂ 2 ) = n σ = σ 2 − n1 σ 2 .
Por lo tanto,
∂Bias 1
2
=−
∂σ n

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 15 / 85


Máxima Verosimilitud: Propiedades

Entonces,
n (n − 1)2 2σ 4
CRLB = (1 − 1/n)2 / =
2σ 4 n2 n
2(n−1)σ 4
Además, Var (σ̂ 2 ) = n2
, por lo tanto

2(n − 1)σ 4 1
MSE = 2
+ (− σ 2 )2 6= CRLB
n n
y el estimador de la varianza no es completamente eficiente.
Alcanza s 2 (el estimador de la varianza de MCC) la cota de Cramer-Rao?
1 Pn
Sabemos que s 2 = n−1 2 2
t=1 (xt − µ̂) es un estimador insesgado de σ .

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 16 / 85


Máxima Verosimilitud: Propiedades

Para saber si s 2 es completamente eficiente calculamos,

(n − 1)s 2 (n − 1)2
Var ( ) = 2(n − 1), =⇒ Var (s 2 ) = 2(n − 1)
σ2 σ4
2σ 4
=⇒ Var (s 2 ) = 6= In (θ)−1
22
(n − 1)
y el estimador de la varianza de MCC tampoco es completamente eficiente.
Propiedades asintóticas: Sea θ̂n el estimador MLE de θ entonces:
p
a) θ̂n −→ θ.
√ d
b) n(θ̂n − θ) −→ N[0, V (θ)].
−1
c) V (θ) = I (θ) .
donde I (θ) = limn→∞ [ n1 In (θ)] es la matriz de información de Fisher asintótica.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 17 / 85


Máxima Verosimilitud: Propiedades
Estimadores de I (θ),
(i)
1 ∂ 2 ln[L(x, θ̂)] p
− −→ I (θ)
n ∂θ∂θ0
(ii)
n
" ! !0 #
1X ∂ln[L(x, θ̂)] ∂ln[L(x, θ̂)] p
−→ I (θ)
n t=1 ∂θ ∂θ

Estimadores de Var (θ̂n )


!−1
∂ 2 ln[L(x, θ̂)]
∂θ∂θ0
ó,
" n
! !0 #−1
X ∂ln[L(x, θ̂)] ∂ln[L(x, θ̂)]
∂θ ∂θ
t=1
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 18 / 85
Máxima Verosimilitud: Propiedades

Ejemplo (continuación)
 
µ̂
θ̂n =
σ̂ 2

√ d
n(θ̂n − θ) −→ N[0, I (θ)−1 ]

n 1
   
1 1 σ2
0 σ2
0
I (θ) = lim [ In (θ)] = lim n = 1
n→∞ n n→∞ n 0 2σ 4
0 2σ 4
 √     2 
n(µ̂ − µ) d 0 σ 0
√ −→ N ,
n(σ̂ 2 − σ 2 ) 0 0 2σ 4

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 19 / 85


Máxima Verosimilitud: Propiedades

ó      2 
µ̂ µ σ /n 0
∼ AN ,
σ̂ 2 σ2 0 2σ 4 /n
Note que el estimador de la varianza es asintóticamente eficiente.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 20 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 21 / 85


Máxima Verosimilitud: MCC

Ejemplo 2: MCC.

y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0

1
f (y ) = f (u) = (2πσ 2 )n/2 exp[− (y − xβ)0 (y − xβ)] ≡ L(x; θ)
2σ 2
n n 1
ln[L(x; θ)] = − ln(2π) − ln(σ 2 ) − 2 (y 0 y − β 0 x 0 xβ − 2β 0 x 0 y )
2 2 2σ

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 22 / 85


Máxima Verosimilitud: MCC

Condiciones de primer orden:

∂ln[L(x; θ)] 1 1
= − 2 (2x 0 xβ − 2x 0 y ) = 2 (x 0 y − x 0 xβ) = 0 (1)
∂β 2σ σ

∂ln[L(x; θ)] n 1
2
= − 2 + 4 (y − xβ)0 (y − xβ) = 0 (2)
∂σ 2σ 2σ

(1) =⇒ x 0 y − x 0 xβ = 0 =⇒ β̂ = (x 0 x)−1 x 0 y (3)

1 û 0 û
(2)y (3) =⇒ σ̂ 2 = (y − x β̂)0 (y − x β̂) = (4)
n n

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 23 / 85


Máxima Verosimilitud: MCC

Condiciones de segundo orden,

∂ 2 ln[L(x; θ)] 1 ∂ 2 ln[L(x; θ)] n 1


0
= − 2 x 0 x; 4
= 4 − 6 u0u (5)
∂β∂β σ ∂σ 2σ σ

∂ 2 ln[L(x; θ)] 1 1 1
2
= − 4 (x 0 y − x 0 xβ) = − 4 x 0 (y − xβ) = − 4 x 0 u (6)
∂β∂σ 2σ 2σ 2σ
Esperanzas,
∂ 2 ln[L(x; θ)]
 
1 1
E 0
= E (− 2 x 0 x) = − 2 x 0 x
∂β∂β σ σ
 2
nσ 2

∂ ln[L(x; θ)] n 1 0 n n
E 4
= 4
− 6
E (u u) = 4
− 6
=− 4
∂σ 2σ σ 2σ σ 2σ

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 24 / 85


Máxima Verosimilitud: MCC

∂ 2 ln[L(x; θ)]
 
1
E =− E (x 0 u) = 0 (7)
∂β∂σ 2 2σ 4
Por lo tanto, la matriz de información de Fisher muestral es,
 2   1 0 
∂ ln[L(x; θ)] xx 0
In (θ) = −E = σ2 n
∂θ∂θ0 0 2σ 4

La inversa de la matriz de información de Fisher es,


 2 0 −1 
−1 σ (x x) 0
In (θ) = 2σ 4
0 n

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 25 / 85


Máxima Verosimilitud: MCC

Propiedades de los Estimadores

E (β̂) = β, Var (β̂) = σ 2 (x 0 x)−1 = In (θ)−1


11

y el estimador de MV de β es completamente eficiente.

nσ̂ 2 2 nσ̂ 2 n−k 2


2
∼ χ (n − k) =⇒ E ( 2
) = (n − k) =⇒ E (σ̂ 2 ) = σ 6= σ 2
σ σ n
n−k 2 k k
E (σ̂ 2 ) = σ = σ 2 − σ 2 =⇒ Bias(σ̂ 2 ) = − σ 2
n n n
Entonces,
nσ̂ 2 2(n − k) 4
Var ( 2
) = 2(n − k) =⇒ Var (σ̂ 2 ) = σ
σ n2

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 26 / 85


Máxima Verosimilitud: MCC

y el MSE es,

2(n − k) 4 k 2 2 2(n − k) + nk 2 4
MSE (σ̂ 2 ) = σ + (− σ ) = σ
n2 n n2
La cota de Cramer-Rao es,

∂Bias(θ) 2
   2 
∂ ln[L(x; θ)]
CRLB = 1+ /E −
∂θ ∂θ2
k 2(n − k)2 σ 4
= (1 − )2 /(n/2σ 4 ) =
n n3
El estimador de la varianza es sesgado y su MSE no alcanza la cota de Cramer-Rao.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 27 / 85


Máxima Verosimilitud: MCC

Es el estimador de la varianza de MCC es completamente eficiente?

(n − k)s 2 2 2 û 0 û
∼ χ (n − k); s =
σ2 (n − k)
Esperanza,
(n − k)s 2
E( ) = n − k =⇒ E (s 2 ) = σ 2
σ2
Varianza,

(n − k)s 2 2 2σ 4 −1 2σ 4
Var ( ) = 2(n − k) =⇒ Var (s ) = 6
= In (θ) 22 =
σ2 n−k n
El estimador es insesgado pero tampoco es completamente eficiente.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 28 / 85


Máxima Verosimilitud: MCC

Propiedades Asintóticas:
p p
β̂ −→ β, s 2 −→ σ 2
√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , s 2 )0
 1 
1 2Q 0 1
I (θ) = lim [ In (θ)] = σ
1 , Q = lim x 0 x
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(s 2 − σ 2 ) −→ N[0, 2σ 4 ]
Ambos estimadores son asintóticamente insesgados y eficientes.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 29 / 85


Máxima Verosimilitud: MCC
MCC con variables explicativas aleatorias.

y = xβ + u, u ∼ N(0, σ 2 In ) θ = (β 0 , σ 2 )0
Supuestos:
1. x aleatorias con densidad f (x).
2. f (x) no depende de θ.
3. x y u se distribuyen en forma independiente.

L(y , x; θ) = f (y |x)f (x) = f (u|x)f (x) = f (u)f (x)


El logaritmo de la función de verosimilitud queda,
Ln[L(y , x; θ)] = Ln[f (u)] + Ln[f (x)]
n n 1
= − ln(2π) − ln(σ 2 ) − 2 (y − xβ)0 (y − xβ)
2 2 2σ
+ Ln[f (x)]
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 30 / 85
Máxima Verosimilitud: MCC

Por lo tanto,

û 0 û E (x 0 x) 0
 1 
β̂ = (x 0 x)−1 x 0 y , σ̂ 2 =
, In (θ) = σ2 n
n 0 2σ 4
 1 
1 Q 0 1
I (θ) = lim [ In (θ)] = σ 2
1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n

Propiedades asintóticas,
p p
β̂ −→ β, σ̂ 2 −→ σ 2

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 31 / 85


Máxima Verosimilitud: MCC

√ d
n(θ̂ − θ) −→ N[0, I (θ)−1 ], θ̂ = (β̂ 0 , σ̂ 2 )0
 1 
1 Q 0 1
I (θ) = lim [ In (θ)] = σ2 1 , Q = lim E (x 0 x)
n→∞ n 0 2σ 4
n→∞ n
√ d √ d
n(β̂ − β) −→ N[0, σ 2 Q −1 ], n(σ̂ 2 − σ 2 ) −→ N[0, 2σ 4 ]
Todos estos resultados asumieron normalidad del término de error. Sin este supuesto no
hay garantı́as de que los estimadores de MV sean los de MCC o que el estimador de MCC
alcance la cota de Cramer-Rao.
Si el término de error no es normal, todo lo anterior implica que los estimadores de MV
maximizan una función de verosimilitud que está mal especificada.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 32 / 85


Cuasi (Pseudo) Máxima Verosimilitud: MCC

En este caso, el método se denomina de Cuasi-Máxima Verosimilitud y tiene las siguientes


propiedades.
Todos los resultados de muestra finita que vimos para MCC estimados por MV pueden
re-interpretarse como resultados de muestra finita del cuasi-MLE cuando el error es
incorrectamente especificado como teniendo distribución normal.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 33 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 34 / 85


Máxima Verosimilitud: Inferencia Estadı́stica

Sea L(x, θ) la función de densidad conjunta del vector de variables aleatorias


x = (x1 , . . . , xn )0 , caracterizadas por el vector de parámetros θ de dimensión (k × 1).
Queremos contrastar las siguientes hipótesis

H0 : φ(θ) = 0 vs. H1 : φ(θ) 6= 0

donde φ(·) es un vector de dimensión q × 1 de funciones diferenciables con q < k.


Definamos a θ̂ como el estimador MLE sin restricciones, i.e. resuelve argmaxθ Ln[L(x, θ)].
Definamos a θ̃ como el estimador MLE restringido, i.e. resuelve
argmaxθ Ln[L(x, θ)], s.t. φ(θ) = 0.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 35 / 85


Test de Wald
Haciendo una expansión de Taylor de primer orden de φ(θ̂) alrededor del verdadero vector
de parámetros θ, tenemos

φ(θ̂) = φ(θ) + F (θ)0 (θ̂ − θ) + op (1) =⇒


√ h i √
n φ(θ̂) − φ(θ) = F (θ)0 n(θ̂ − θ) + op (1) (8)
0
donde F (θ) = ∂φ(θ)
∂θ con rango [F (θ)] = q.
De las propiedades asintóticas de los estimadores de máxima verosimilitud sabemos que:

n(θ̂ − θ) ∼ N(0, I (θ)−1 ) (9)
De (8) y (9) tenemos:
√ h i
n φ(θ̂) − φ(θ) ∼ N[0, F (θ)0 I (θ)−1 F (θ)]

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 36 / 85


Test de Wald

Bajo la hipótesis nula φ(θ) = 0 por lo tanto,



nφ(θ̂) ∼ N[0, F (θ)0 I (θ)−1 F (θ)] (10)

Usando la forma cuadrática de variables aleatorias normales tenemos

nφ(θ̂)0 [F (θ)0 I (θ)−1 F (θ)]−1 φ(θ̂) ∼ χ2 (q) (11)

Podemos aproximar consistentemente los términos del corchete del estadı́stico anterior
evaluando en el estimador de máxima verosimilitud θ̂,

W = nφ(θ̂)0 [F (θ̂)0 I (θ̂)−1 F (θ̂)]−1 φ(θ̂) ∼ χ2 (q) (12)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 37 / 85


Test del Multiplicador de Lagrange (LM)

Se resuelve el siguiente problema:

maxθ Ln[L(x, θ)] s.t. φ(θ) = 0

L(θ, λ) = Ln[L(x, θ)] + λ0 φ(θ)


La solución satisface el siguiente conjunto de ecuaciones:

∂Ln[L(x, θ)]
|θ̃ + F (θ̃)λ̃ = 0 (13)
∂θ
φ(θ̃) = 0

donde θ̃ es la solución del problema de maximización condicionada.


El tests LM está basado en la idea de que λ̃ apropiadamente ponderado tiene distribución
asintótica normal.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 38 / 85


Test del Multiplicador de Lagrange (LM)

Tomemos una expansión de Taylor de primer orden de φ(θ̂) y φ(θ̃) alrededor del
verdadero vector de parámetros θ. Ignorando los términos op (1) tenemos,
√ √ √
nφ(θ̂) = nφ(θ) + F (θ)0 n(θ̂ − θ) (14)
√ √ √
nφ(θ̃) = nφ(θ) + F (θ)0 n(θ̃ − θ) (15)

De las condiciones de primer orden sabemos que φ(θ̃) = 0 de forma tal que restando (15)
de (14) obtenemos √ √
nφ(θ̂) = F (θ)0 n(θ̂ − θ̃) (16)
Por otro lado, tomando una expansión de Taylor de primer orden de ∂Ln[L(x, ∂θ
θ)]
|θ=θ̂ y
∂Ln[L(x, θ)]
∂θ |θ=θ̃ alrededor del verdadero vector de parámetros θ tenemos (ignorando los
términos op (1))

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 39 / 85


Test del Multiplicador de Lagrange (LM)

∂Ln[L(x, θ)] ∂Ln[L(x, θ)] ∂ 2 Ln[L(x, θ)]


|θ=θ̂ = + (θ̂ − θ) (17)
∂θ ∂θ ∂θ∂θ0
∂Ln[L(x, θ)] ∂Ln[L(x, θ)] ∂ 2 Ln[L(x, θ)]
|θ=θ̃ = + (θ̃ − θ) (18)
∂θ ∂θ ∂θ∂θ0

Note que,
∂Ln[L(x, θ)] ∂Ln[L(x, θ)] ∂ 2 Ln[L(x, θ)]
|θ=θ̂ = + (θ̂ − θ) =⇒
∂θ ∂θ ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] 1 ∂ 2 Ln[L(x, θ)] √
√ |θ=θ̂ = √ + n(θ̂ − θ) =⇒
n ∂θ n ∂θ n ∂θ∂θ0
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̂ = √ − I (θ) n(θ̂ − θ)
n ∂θ n ∂θ
(19)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 40 / 85


Test del Multiplicador de Lagrange (LM)

De la misma manera
1 ∂Ln[L(x, θ)] 1 ∂Ln[L(x, θ)] √
√ |θ=θ̃ = √ − I (θ) n(θ̃ − θ) (20)
n ∂θ n ∂θ

De las condiciones de primer orden de la maximización no restringida sabemos que


∂Ln[L(x, θ)]
∂θ |θ=θ̂ = 0. Restando (19) de (20) tenemos,

1 ∂Ln[L(x, θ)] √ √
√ |θ=θ̃ = −I (θ) n(θ̃ − θ̂) = I (θ) n(θ̂ − θ̃) (21)
n ∂θ

Por lo tanto
√ 1 ∂Ln[L(x, θ)]
n(θ̂ − θ̃) = I (θ)−1 √ |θ=θ̃ (22)
n ∂θ

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 41 / 85


Test del Multiplicador de Lagrange (LM)

De (16) y (22) tenemos


√ 1 ∂Ln[L(x, θ)]
nφ(θ̂) = F (θ)0 I (θ)−1 √ |θ=θ̃ (23)
n ∂θ

Usando (13) obtenemos

√ λ̃
nφ(θ̂) = −F (θ)0 I (θ)−1 F (θ̃) √
n
λ̃
=⇒ −F (θ)0 I (θ)−1 F (θ) √ (24)
n

Entonces,
λ̃ −1 √
√ = − F (θ)0 I (θ)−1 F (θ)

nφ(θ̂) (25)
n

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 42 / 85


Test del Multiplicador de Lagrange (LM)

De (10), bajo la hipótesis nula nφ(θ̂) ∼ N[0, F (θ)0 I (θ)−1 F (θ)], por lo tanto

λ̃ h −1 i
√ ∼ N 0, F (θ)0 I (θ)−1 F (θ) (26)
n

Nuevamente, usando la forma cuadrática de variables normales se obtiene


1 0 d
λ̃ [F (θ)0 I (θ)−1 F (θ)]λ̃ −→H0 χ2 (q) (27)
n
Usando (13) otra forma del estadı́stico LM es

1 ∂Ln[L(x, θ)] ∂Ln[L(x, θ)] d


0
|θ=θ̃ I (θ)−1 |θ=θ̃ −→H0 χ2 (q) (28)
n ∂θ ∂θ
Para que el test LM sea operativo en la práctica debemos evaluar la matriz de
información de Fisher en la estimación restringida consistente, θ̃.
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 43 / 85
Test del Multiplicador de Lagrange (LM)

Podemos aproximar I (θ) con:


n
1 X ∂ 2 Ln[L(xi , θ)]
− |θ=θ̃ (29)
n ∂θ∂θ0
i=1

O con
n
1 X ∂Ln[L(xi , θ)] ∂Ln[L(xi , θ)]
|θ=θ̃ |θ=θ̃ (30)
n ∂θ ∂θ0
i=1

Si elegimos la segunda aproximación el test LM queda,


" n #−1
1 ∂Ln[L(x, θ̃)] 1 X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] ∂Ln[L(x, θ̃)]
LM = (31)
n ∂θ0 n ∂θ ∂θ0 ∂θ
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 44 / 85


Test del Multiplicador de Lagrange (LM)

Note que,
n
∂Ln[L(x, θ̃)] X ∂Ln[L(xi , θ̃)]
=
∂θ0 ∂θ0
i=1

por lo que el test LM queda,


LM =
n n
" #−1 n
X ∂Ln[L(xi , θ̃)] X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] X ∂Ln[L(xi , θ̃)]
∂θ0 ∂θ ∂θ0 ∂θ
i=1 i=1 i=1

Recuerde la definición del R 2 no centrado para el modelo y = X β + u:

ŷ 0 ŷ (X β̂)0 X β̂ y 0 X (X 0 X )−1 X 0 X (X 0 X )−1 X 0 y y 0 X (X 0 X )−1 X 0 y


R2 = = = = (32)
y 0y y 0y y 0y y 0y

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 45 / 85


Test del Multiplicador de Lagrange (LM)

Defina y = 1 = (1 1 . . . 1)0 al vector de unos de dimensión n × 1 y


h i0
X = ∂Ln[L(x∂θ 0
1 , θ̃)] ∂Ln[L(x2 , θ̃)]
∂θ 0 . . . ∂Ln[L(xn , θ̃)]
∂θ 0 a la matriz n × k de valores de las variables
explicativas.
En la ecuación del R 2 no centrado tenemos:
n
X ∂Ln[L(xi , θ̃)]
y 0 X = 10 X =
∂θ0
i=1

y
n
X ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)]
X 0X =
∂θ ∂θ0
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 46 / 85


Test del Multiplicador de Lagrange (LM)

Entonces,
10 X (X 0 X )−1 X 0 1
R2 = =
10 1
hP i−1 P
Pn ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)] ∂Ln[L(xi , θ̃)] n ∂Ln[L(xi , θ̃)]
i=1 ∂θ0 i=1 ∂θ ∂θ0 i=1 ∂θ
n
=⇒ LM = nR 2 ∼ χ2 (q)
Este resultado sugiere que el test LM no es más que el R 2 no centrado de una regresión
auxiliar de un vector de unos sobre los scores, evaluados en la estimación de máxima
verosimilitud restringida, multiplicado por el número de observaciones.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 47 / 85


Máxima Verosimilitud: Inferencia Estadı́stica
Estadı́stico del cociente de verosimilitud (LR test)

L(x, θ̃)
µ = maxφ(θ)=0 L(x, θ)/maxθ L(x, θ) =
L(x, θ̂)
Entonces el estadı́stico de contraste es,
d
LR = −2Ln(µ) = 2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} −→H0 χ2 (q)

Note que, haciendo una expansión de Taylor de segundo orden

∂Ln[L(x, θ̂)]
Ln[L(x, θ̃)] ' Ln[L(x, θ̂)] + (θ̂ − θ̃)
∂ θ̂
1 ∂ 2 Ln[L(x, θ̂)]
+ (θ̂ − θ̃)0 (θ̂ − θ̃)
2 ∂ θ̂∂ θ̂0
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 48 / 85
Máxima Verosimilitud: Inferencia Estadı́stica

La ecuación anterior implica que,

∂ 2 Ln[L(x, θ̂)]
−2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = (θ̂ − θ̃)0 (θ̂ − θ̃) =⇒
∂ θ̂∂ θ̂0
0
2{Ln[L(x, θ̂)] − Ln[L(x, θ̃)]} = n(θ̂ − θ̃) I (θ)(θ̂ − θ̃)

Donde hicimos uso de,


∂Ln[L(x, θ̂)]
=0
∂ θ̂
1 ∂ 2 Ln[L(x, θ̂)]
I (θ) = −
n ∂ θ̂∂ θ̂0

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 49 / 85


Máxima Verosimilitud: Inferencia Estadı́stica

√ d
Por lo tanto, como n(θ̂ − θ) −→ N[0, I (θ)−1 ], se desprende que,
d
n(θ̂ − θ̃)0 I (θ)(θ̂ − θ̃) −→H0 χ2 (q)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 50 / 85


Agenda

1 Estimación por Máxima Verosimilitud


Introducción
Estimación
Propiedades
Máxima Verosimilitud: MCC
Máxima Verosimilitud: Inferencia Estadı́stica
La Motivación Económica

2 Costos Económicos de Nacer con Peso Bajo

3 Modelo de Variable Dependiente Binaria e Inferencia Causal

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 51 / 85


Sesgo de Selección por Truncamiento Incidental

En economı́a un caso emblemático de aplicación de máxima verosimilitud es el modelo de


oferta de trabajo de las mujeres (Gronau, 1974; Heckman, 1976). Este modelo consiste
de dos ecuaciones, una ecuación de salarios que representa la diferencia entre el salario de
mercado de una persona y su salario de reserva en función de caracterı́sticas tales como la
edad, educación, número de hijos etc.
La segunda ecuación es una ecuación de horas deseadas de trabajo que depende del
salario, de la presencia de hijos pequeños en el hogar, del estado civil, etc.
El problema del truncamiento es que en la segunda ecuación observamos las horas reales
solo si la persona está trabajando. Esto es, solo si el salario de mercado excede al salario
de reserva. En este caso se dice que la variable horas en la segunda ecuación está
incidentalmente truncada.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 52 / 85


Sesgo de Selección por Truncamiento Incidental

Definiciones: Suponga que y y z tienen una distribución bivariada con correlación ρ.


Nosotros estamos interesados en la distribución de y dado que z excede un determinado
valor. Esto es, la función de densidad conjunta de y y z es:

f (y , z)
f (y , z|z > a) =
Pr (z > a)

Teorema 20.4 (Greene, 1997, Cap. 20, página 975): Si y y z tienen una distribución
normal bivariada con medias µy y µz , desvı́os estándar σy y σz y correlación ρ, entonces:

E (y |z > a) = µy + ρσy λ(αz )

Var (y |z > a) = σy2 [1 − ρ2 δ(αz )],


donde, αz = (a − µz )/σz , λ(αz ) = φ(αz )/[1 − Φ(αz )] y δ(αz ) = λ(αz )[λ(αz ) − αz ].

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 53 / 85


Sesgo de Selección por Truncamiento Incidental

Para poner el ejemplo de la oferta de trabajo de las mujeres en un marco general de


análisis, digamos que la ecuación que determina la selección muestral es:

zi∗ = γ 0 wi + ui ,

donde zi∗ es la diferencia entre el salario de mercado y el salario de reserva de la persona i.


La ecuación de interés es,
yi = β 0 xi + i ,
donde yi es la oferta de trabajo (en horas) de la persona i.
La regla es que yi es observada solo cuando zi∗ es mayor a cero.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 54 / 85


Sesgo de Selección por Truncamiento Incidental
Asumamos que ui y i tienen distribución normal bivariada con medias cero y correlación
ρ. Aplicando el teorema 20.4 tenemos,

E (yi |yi es observada) = E (yi |zi∗ > 0)


= E (yi |ui > −γ 0 wi )
= β 0 xi + E (i |ui > −γ 0 wi )
= β 0 xi + ρσ λi (αu )
= β 0 xi + βλ λi (αu )

donde αu = −γ 0 wi /σu y λi (αu ) = φ(γ 0 wi /σu )/Φ(γ 0 wi /σu ).


Entonces, la ecuación de interés puede escribirse como,

yi |zi∗ > 0 = β 0 xi + βλ λi (αu ) + vi

donde vi es un término de error con media cero.


Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 55 / 85
Sesgo de Selección por Truncamiento Incidental

Como queda claro de este desarrollo, estimar por MCC la ecuación de interés usando solo
los datos observados, produce estimadores inconsistentes de β por el argumento estándar
de variables omitidas (i.e. estamos omitiendo λi (·)).
Cómo podemos obtener estimaciones consistentes de la ecuación de horas de trabajo
utilizando solo los datos observados.
En principio tenemos un problema similar al de la variable habilidad omitida en la
ecuación del salario. En este caso, la variable λi (·) no es observada.
Note que aún cuando observáramos λi (·), MCC no nos darı́a estimadores eficientes
porque los errores de la ecuación de interés, vi , son heterocedásticos (i.e.
Var (vi ) = σ2 (1 − ρ2 δi ) de acuerdo al teorema 20.4 de Greene).

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 56 / 85


Sesgo de Selección por Truncamiento Incidental

Una posible solución es estimar la ecuación de selección para obtener los γ̂ y construir la
variable omitida como λ̂i = φ(γ̂ 0 wi )/Φ(γ̂ 0 wi ). Luego en un segundo paso estimar la
ecuación de interés por MCC en una regresión de y sobre x y λ̂.
El único problema de esta solución es que la variable dependiente de la ecuación de
selección, zi∗ , no es observada. Lo que podemos observar es zi = 1 si zi∗ > 0, es decir si la
persona está trabajando; o zi = 0 si zi∗ < 0 si la persona no está trabajando.
Es decir que el modelo que podemos estimar es:

zi = γ 0 wi + ui , (33)

donde zi es una variable binaria.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 57 / 85


Modelo de Probabilidad Lineal

Una posibilidad es estimar la ecuación de selección por MCC. Para ver porque esta no es
la mejor solución considere la esperanza condicional de la variable dependiente.

E (zi |wi ) = γ 0 wi

Además desde la definición de esperanza matemática E (zi |wi ) = 0 ∗ (1 − Pi ) + 1 ∗ Pi = Pi


donde Pi es la probabilidad de que zi = 1. Entonces,

Pi = Pr [zi = 1|wi ] = E (zi |wi ) = γ 0 wi

de aquı́ el nombre de Modelo de Probabilidad Lineal.


El problema es que la estimación por MCC de z, ẑi = γ̂ 0 wi , es la estimación de la
probabilidad de que la persona i se encuentre trabajando. En la práctica, como MCC
estima una recta, los valores de ẑi pueden caer fuera del intervalo (0, 1).

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 58 / 85


Modelo de Probabilidad Lineal

Como zi solo adopta dos valores, zi = 1 ó zi = 0, los errores del modelo pueden ser
ui = 1 − γ 0 wi ó ui = −γ 0 wi con probabilidades Pi y 1 − Pi respectivamente. Entonces la
distribución de los errores es,
ui f (ui )
1 − γ 0 wi γ 0 wi
−γ 0 wi 1 − γ 0 wi

Una consecuencia de la distribución anterior es que

Var (ui ) = γ 0 wi (1 − γ 0 wi )2 + (1 − γ 0 wi )(γ 0 wi )2


= γ 0 wi (1 − γ 0 wi )
= E (zi |wi )[1 − E (zi |wi )].

y los errores son heterocedásticos.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 59 / 85


Modelo de Probabilidad Lineal

Golberger (1964) sugirió el siguiente procedimiento de estimación: Primero, estime (33)


por MCC. Segundo, calcule ẑi (1 − ẑi ) y use MCGE.
Los problemas del MPL son los siguientes
1. En la práctica ẑi (1 − ẑi ) puede ser cero o negativo y el método de MCGE no puede aplicarse.
2. Como la esperanza condicional de la variable dependiente E (zi |wi ) se interpreta como una
probabilidad, en la práctica su estimación por MCGE puede arrojar valores fuera del intervalo
(0, 1).
Una forma alternativa para formular el modelo que resuelve los problemas anteriores es
considerar que zi = 1 cuando zi∗ > 0 de forma tal que

Pi = Pr [zi = 1] = Pr [zi∗ > 0] = Pr [γ 0 wi + ui > 0]


= Pr [ui > −γ 0 wi ] = Pr [ui < γ 0 wi ]
= Φ(γ 0 wi )

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 60 / 85


Modelo Probit

A diferencia de lo que ocurrı́a con el MPL en este caso existe una relación no lineal con
los parámetros del modelo y por lo tanto no puede usarse el método de mı́nimos
cuadrados para la estimación.
Para realizar la estimación del modelo debemos recurrir al método de máxima
verosimilitud.
Como sabemos la función de probabilidad de los errores y tenemos una muestra aleatoria
(es decir, compuesta por variables aleatorias independientes) la función de verosimilitud es
simplemente la multiplicación de las funciones de probabilidad para todas las
observaciones que hay en la muestra.

n
Y
L(γ; w ) = Φ(γ 0 wi )zi [1 − Φ(γ 0 wi )](1−zi )
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 61 / 85


Modelo Probit: Estimación

El logaritmo natural de la función de verosimilitud es,


n
X
zi ln{Φ(γ̂ 0 wi )} + (1 − zi )ln{1 − Φ(γ̂ 0 wi )}
 
l(γ̂; wi ) =
i=1

Las condiciones de primer orden para la maximización de esta función son,

n 
zi − Φ(γ̂ 0 wi )

∂l(·) X
0
S(γ̂) = = φ(γ̂ wi ) wi = 0
∂γ̂ Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1

Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 62 / 85


Sesgo de Selección por Truncamiento Incidental

Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,

∂ 2 l(·)
 
I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(γ̂ 0 wi )]2
= wi wi0
Φ(γ̂ 0 wi )[1 − Φ(γ̂ 0 wi )]
i=1

Entonces la matriz de varianzas y covarianzas asintótica viene dada por [I (γ̂)]−1 .

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 63 / 85


Sesgo de Selección por Truncamiento Incidental

Adicionalmente, usando el algoritmo de Newton-Raphson, comenzando con un valor


inicial γ̂0 el nuevo valor de γ̂1 se obtiene,

γ̂1 = γ̂0 + [I (γ̂0 )]−1 S(γ̂0 )


este procedimiento iterativo se repite hasta converger.
Volviendo al ejemplo de la estimación de la oferta de trabajo de las mujeres, Heckman
(1979) sugirió utilizar el siguiente procedimiento en dos etapas.
1. Estimar la ecuación de selección usando un Probit para obtener estimaciones de γ. Luego
para cada observación de la muestra se construye,

φ(γ̂ 0 wi )
λ̂i =
Φ(γ̂ 0 wi )

También vamos a necesitar δ̂i = λ̂i (λ̂i + γ̂ 0 wi ).


2. Estime β y βλ por MCC en una regresión de y sobre x y λ̂.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 64 / 85


Sesgo de Selección por Truncamiento Incidental

Para poder hacer inferencia estadı́stica en la regresión del segundo paso hay que tener en
cuenta dos problemas: heterocedasticidad en vi y el hecho de que una de las variables
explicativas de la regresión está construı́da a partir de una estimación anterior.
Heckman (1979) deriva la verdadera matriz de varianzas y covarianzas de los estimadores
del segundo paso.
\ 2 2
Recuerde que Var (vi ) = σ̂  (1 − ρ̂ δ̂i ) usando el teorema (20.4) de Greene. Donde
2 e0e 2 1P
σ̂ = n + δ̄ β̂λ , y δ̄ = n i δ̂i .
Entonces la estimación correcta de la matriz de varianzas y covarianzas del segundo paso
es, " #
X 0 X 0
X 0
Var [β̂, β̂λ ] = σ̂2 ( xi∗ xi∗ )−1 (1 − ρ̂2 δ̂i )xi∗ xi∗ + Q ( xi∗ xi∗ )−1
i i i

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 65 / 85


Sesgo de Selección por Truncamiento Incidental

Donde,
0
Q = ρ̂2 (X ∗ ∆W )[Avar (γ̂)](W 0 ∆X ∗ )
y ∆ es una matriz diagonal con δ̂i en la diagonal principal.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 66 / 85


Costos Económicos de Nacer con Peso Bajo

Considere un caso hipotético como el de Almond et al. (2005).


La pregunta que se quiere responder es si fumar durante el embarazo afecta el peso de un
recién nacido.
Las unidades en este caso son mujeres embarazadas, algunas de las cuales fumaron
durante el embarazo.
La variable de resultado es el peso del bebé al nacer.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 67 / 85


Costos Económicos de Nacer con Peso Bajo
La figura muestra el peso del bebé al nacer para madres fumadoras y no fumadoras como
función de la edad de la madre.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 68 / 85


Costos Económicos de Nacer con Peso Bajo
La figura sugiere que las mujeres fumadoras tienden a tener mayor edad que las no
fumadoras.
Para las mujeres fumadoras de mayor edad y las no fumadoras más jóvenes no parece
haber un soporte común.
Supongamos que observamos los resultados potenciales de cada mujer embarazada:

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 69 / 85


Costos Económicos de Nacer con Peso Bajo
Lo que hace el método de regresión es estimar una regresión (con los datos observados,
cı́rculos sólidos) del peso del bebé sobre la edad de la madre para el grupo de madres
fumadoras y para el grupo de madres no fumadoras.
Luego se usa la linea de regresión muestral de las madres fumadoras como resultado
contrafáctico de las madres no fumadoras y viceversa.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 70 / 85


Estimación

La estimación del ATE condicional es directa a través del método de mı́nimos cuadrados
clásicos.
En la práctica estimamos E [y | w, sT = 1] con el plano de regresión muestral, m
b 1 (w, δ̂1 ),
con las observaciones del tratamiento y estimamos E [y | w, sT = 0] con el plano de
regresión muestral, m
b 0 (w, δ̂0 ), con las observaciones del control.
N
1 Xh i
τbw = b 1 (wi , δ̂1 ) − m
m b 0 (wi , δ̂0 )
N
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 71 / 85


Inversa del propensity score como ponderador
Una alternativa a esto es ponderar las esperanzas matemáticas por la inversa de la
probabilidad condicional de recibir el tratamiento (propensity score).
El método del propensity score ve a los resultados potenciales no observados (cı́rculos sin
relleno) como observaciones faltantes y usa ponderadores para corregir las estimaciones
de las esperanzas para las unidades tratadas y no tratadas.
El método aplica mayor ponderación a los cı́rculos verdes sólidos correspondientes a
madres de mayor edad y menor ponderación a los correspondientes a madres más jóvenes.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 72 / 85


Inversa del propensity score como ponderador
En términos formales, una forma de estimar el ATE es utilizando la inversa del propensity
score (π(x)) como ponderador.
Recordando que sy = sy1 tenemos
       
sy sy1 sy1
E x = E x =E E x, s x
π(x) π(x) π(x)
   
sE (y1 |x, s)
sE (y1 |x)
= E x =E x
π(x) π(x)
 
s
= E x E (y1 |x) = E (y1 |x)
π(x)
Haciendo uso de E (s|x) = π(x).
Usando un argumento similar se puede mostrar que:
 
(1 − s)y
E x = E (y0 |x)
1 − π(x)
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 73 / 85
Inversa del propensity score como ponderador

Usando álgebra se puede mostrar que,


 
[s − π(x)]y
E (y1 − y0 |x) = E x
π(x)[1 − π(x)]

Y usando expectativas iteradas,


 
[s − π(x)]y
τATE = E (y1 − y0 ) = E (34)
π(x)[1 − π(x)]

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 74 / 85


Inversa del propensity score como ponderador

Note que π(x) = Pr [s = 1|x] es la probabilidad de recibir el tratamiento y ex-ante no es


observable.
Lo único que observamos en la práctica es si la persona recibe el tratamiento (s = 1) o no
lo recibe (s = 0).
Supongamos que una persona se autoselecciona en el tratamiento dependiendo de la
utilidad que le brinda.
Denotemos por
UiT = xi γT + uiT (35)
a la utilidad que le brinda al individuo i autoseleccionarse en el tratamiento y de la misma
manera
UiC = xi γC + uiC (36)
a la utilidad de no recibir el tratamiento.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 75 / 85


Inversa del propensity score como ponderador

Entonces

π(x) = Pr [s = 1|x] = Pr [UiT > UiC ] = Pr [uiC − uiT ≤ xi (γT − γC )]


= Pr [ui ≤ xi γ] = Φ(xi γ)

Donde asumimos que el error ui tiene distribución normal estándar (modelo Probit).
En términos de nuestro ejemplo,
Z xi γ
1 t2
Φ(xi γ) = √ e − 2 dt
−∞ 2π
existe una relación nolineal entre la probabilidad de recibir el tratamiento y los parámetros
del modelo.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 76 / 85


Modelo Probit: estimación

Para realizar la estimación del modelo debemos recurrir al método de máxima


verosimilitud.
La función de verosimilitud es la multiplicación de la probabilidad de recibir el tratamiento
para todas las observaciones que hay en la muestra.

n
Y
L(γ; x) = Φ(xi γ)si [1 − Φ(xi γ)](1−si )
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 77 / 85


Modelo Probit: Estimación

El logaritmo natural de la función de verosimilitud es,


n
X
l(γ̂; xi ) = [si ln{Φ(xi γ̂)} + (1 − si )ln{1 − Φ(xi γ̂)}]
i=1

Las condiciones de primer orden para la maximización de esta función son,


n  
∂l(·) X si − Φ(xi γ̂)
S(γ̂) = = φ(xi γ̂) xi = 0
∂γ̂ Φ(xi γ̂)[1 − Φ(xi γ̂)]
i=1

Como se puede observar en las condiciones de primer orden las incógnitas, γ̂, entran en
forma no lineal y por lo tanto no pueden resolverse usando métodos lineales.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 78 / 85


Modelo Probit: Estimación

Para resolver las condiciones de primer orden hay que recurrir a algoritmos numéricos.
Amemiya (1985) demostró que la función de verosimilitud del modelo Probit es
globalmente cóncava por lo que las condiciones de segundo orden para un máximo se
cumplen y no es necesario chequearlas.
Sin embargo, necesitamos las condiciones de segundo orden para calcular la matriz de
información,

∂ 2 l(·)
 
I (γ̂) = E −
∂γ̂∂γ̂ 0
n
X [φ(xi γ̂)]2
= xi x 0
Φ(xi γ̂)[1 − Φ(xi γ̂)] i
i=1

Entonces la matriz de varianzas y covarianzas asintótica viene dada por [I (γ̂)]−1 .

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 79 / 85


Sesgo de Selección por Truncamiento Incidental

Adicionalmente, usando el algoritmo de Newton-Raphson, comenzando con un valor


inicial γ̂0 el nuevo valor de γ̂1 se obtiene,

γ̂1 = γ̂0 + [I (γ̂0 )]−1 S(γ̂0 )

este procedimiento iterativo se repite hasta converger.


Una vez estimado el propensity score usando un Probit estimamos el ATE,
N  
1 X [s − π̂(x)]y
τ̂ATE = (37)
N π̂(x)[1 − π̂(x)]
i=1

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 80 / 85


Variable Dependiente Binaria y Efectos Marginales
En los modelos lineales los coeficientes que acompañan a las variables explicativas tienen
la interpretación de ser directamente el efecto marginal de un cambio en la variable
explicativa sobre la variable dependiente.
En el caso de modelos no lineales como el Probit los coeficientes que acompañan a las
variables explicativas no tienen esta interpretación.
Para ver esto, considere el siguiente modelo:
Z α+βxi +zγ
1 t2
Φ(α + βxi + zγ) = √ e − 2 dt
−∞ 2π
donde z es un vector de variables explicativas adicionales a x y γ un vector de parámetros
poblacionales.
En este caso el efecto marginal viene dado por la derivada parcial de la probabilidad
ex-ante con respecto a alguna variable explicativa.
∂Pr [yi = 1|·]
= φ(α + βxi + zγ) × β
∂xi
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 81 / 85
Variable Dependiente Binaria y Efectos Marginales

La expresión anterior corresponde a una variable explicativa xi continua.


Si xi es una variable discreta (binaria) el efecto marginal viene dado por:

Pr [yi = 1|xi = 1] − Pr [yi = 1|xi = 0] = {Φ(α + β + zγ) − Φ(α + zγ)} (38)

Note que a diferencia de los modelos lineales, el efecto marginal es una función y no una
constante.
Para obtener un resultado numérico puntual, es estándar en la práctica calcular el
denominado efecto marginal promedio.
En términos matemáticos,

E {Pr [yi = 1|xi = 1] − Pr [yi = 1|xi = 0]} = E {Φ(α + β + zγ) − Φ(α + zγ)} (39)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 82 / 85


Variable Dependiente Binaria y Efectos Marginales
Supongamos ahora que queremos analizar la eficacia de una vacuna contra el COVID-19
en un experimento aleatorizado.
La “polı́tica” es la vacunación.
La variable de resultado es si el individuo se contagia o no de COVID.
Aquı́ el resultado potencial es una variable binaria y en un modelo lineal el ATE viene
dado por:
ATE = E (Ys (u)|sT = 1) − E (Ys (u)|sT = 0) = E (YT (u)) − E (YC (u))
= Pr (Ys = 1|sT = 1) − Pr (Ys = 1|sT = 0) (40)
donde u denota al individuo, Ys es una variable binaria que adopta el valor unitario si el
individuo se contagia de COVID-19 y vale cero si no se contagia y sT = 1 si el individuo
está vacunado.
La segunda igualdad viene dada por el hecho de que la esperanza matemática condicional
de un modelo de variable dependiente binaria es igual a la probabilidad de ocurrencia del
evento analizado.
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 83 / 85
Variable Dependiente Binaria y Efectos Marginales

Supongamos que estimamos las probabilidades utilizando un modelo Probit

E [Yi | Xi , Si ] = Φ X0i β0 + β1 Si
 
(41)

Ahora la “switching equation” es

E [Yi | Xi , Si ] = Φ X0i β0 + Φ X0i β0 + β1 − Φ X0i β0 × Si


      
(42)

y el ATE es

ATE = E {Pr (Yi = 1|Xi , Si = 1) − Pr (Yi = 1|Xi , Si = 0)}


= E Φ X0i β0 + β1 − Φ X0i β0
    
(43)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 84 / 85


Variable Dependiente Binaria y Efectos Marginales

El principal resultado de esta discusión es que estimar el efecto tratamiento promedio


usando un modelo Probit involucra calcular el efecto marginal promedio.
En la práctica no hay grandes diferencias entre el efecto marginal promedio y el coeficiente
sobre la variable de asignación del tratamiento en un modelo de regresión lineal.
Esta regularidad empı́rica más la complejidad adicional para hacer inferencia estadı́stica
(i.e. se necesitan errores estándar para los efectos marginales promedio) hace que muchos
investigadores cuando trabajan con evaluaciones de impacto prefieran aproximar la
estimación de las esperanzas matemáticas condicionales usando un modelo de
probabilidad lineal.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 85 / 85

You might also like