You are on page 1of 5

Capı́tol 2

Regressió amb variables


instrumentals

2.1 Concepte i estimació


A Econometria I es van veure diverses amenaces a la validesa interna d’un model. En general,
quan un regressor sigui endògen, és a dir, quan E(ε, X) ̸= 0, haurem d’utilitzar variables
instrumentals. Una variable instrumental Z és una variable exògena correlacionada amb el
regressor endògen X i que permet estimar sense biaix els coeficient de la variable X. La regressió
amb variables instrumentals o regressió VI separa la variable X en dues parts, la part exògena
i la part endògena.

El procés d’estimació de la regressió VI d’anomena mètode de mı́nims quadrats en dues


etapes (TSLS) i és el següent:

1. S’aı̈lla la part d’X que és endògena,


Xi = π0 + π1 Zi + νi

2. Substituı̈m Xi per π0 + π1 Zi en la regressió original:


Yi = β0 + β1 (π0 + π1 Zi ) + εi

Com que E(εi |π0 + π1 Zi ) = 0, podem fer servir el mètode OLS per trobar π̂0 i π̂0 per trobar els
valors ajustats d’X, denotats per X̂ i exògens. Amb això, podem estimar β0 i β1 . Denotarem
aquests estimadors amb β̂0T SLS i β̂1T SLS , per diferenciarlos dels estimadors tı́pics per OLS.

És important remarcar que per tal de que una variable instrumental sigui vàlida, és vital no
només que sigui exògena sinó que també sigui rellevant. En altres paraules, que estigui correla-
cionada amb X.

Pel que fa a la inferència, l’única diferència respecte dels estimadors per OLS és que en el cas
de l’estimació per TSLS els errors estàndards dels coeficients de la regressió de la segona etapa
no són correctes perquè no tenen en compte que la variable utilitzada és X̂i i no Xi .

8
2.2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS GENERAL 9

Concretament, venen donats per


1 var[(Zi − µZ )εi ]
σβ̂2 TSLS =
1 n [cov(Zi , Xi )]2

2.2 Regressió amb variables instrumentals general


El model de regressió amb variables instrumentals general es defineix com

Yi = β0 + β1 X1i + ... + βk Xki + βk+1 W1i + ... + βk+r Wri + εi ∀i = 1, ..., n

En aquest model, X1 , ..., Xk són regressors endògens i W1 , ..., Wr són regressors exògens, que
fan la funció de variables de control. Tot i que no es veuen en el model, també hi ha variables
Z1 , ..., Zm , que són els instruments per corregir el biaix que provoquen les variables endògenes.

En aquest punt, cal introduı̈r el concepte de identificació. Es diu que un paràmetere està
identificat si diferents valors del paràmetre produeixen diferents distribucions de les dades. En
el cas de la regressió VI això depèn de la relació entre el nombre de variables endògenes i el
nombre de variables instrumentals. Seguint la notació, per tant direm que els coeficients en el
vector β

ˆ Estan exactament identificats si m = k. És a dir, tenim la quantitat justa de variables


instrumentals.

ˆ Estan sobreidentificats si m > k. És a dir, tenim més variables instrumentals que
endògenes.

ˆ Estan infraidentificats si m < k. En altres paraules, tenim més variables endògenes que
instrumentals, i per tant necessitem trobar-ne més.

El procediment és semblant al del cas anterior. Per simplicitat, reduı̈m al model a

Yi = β0 + β1 X1i + βk+1 W1i + ... + βk+r Wri + εi ∀i = 1, ..., n

1. Es comença fent la regressió X1 ∼ Z1 , ..., Zm , W1 , ..., Wr , de manera que es calculen els


valors ajustats X̂1i .

2. Fem la regressió Y ∼ X̂1 , W1 , ..., Wr

Altra vegada, els errors estàndards dels coeficients de la segona regressió no seran correctes, tot
i que amb STATA el comando ivreg ja fa la correcció.

Per tal de ser vàlids, els instruments han de ser endògens i rellevants, només que en aquest cas
és suficient amb que un dels instruments estigui correlacionat amb X1 .

2.2.1 Supòsits de la regressió amb variables instrumentals


Com a tots els models, necessitem que certes propietats de les dades es compleixin:

ˆ El supòsit d’exogeneı̈tat en aquest cas només ens demana que les variables exògenes del
model realment ho siguin (bastant trivial):

E(ε|W1i , ..., Wri ) = 0


10 CAPÍTOL 2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS

ˆ Les observacions han de ser independents i idènticament distribuı̈des. Formalment,


(X1i , ..., Xki , W1i , ..., Wri , Z1i , ..., Zmi , Yi ) ∀i = 1, ..., n
han de ser variables i.i.d.

ˆ El quart moment de la distribució de les variables ha de ser finit:


4
E(Xki )<∞ E(Yi4 ) < ∞ E(Wri ) < ∞ E(Zmi ) < ∞

ˆ Els instruments han de ser vàlids.

Sota aquests supòsits, es compleix que


β̂kT SLS ∼ N (βk , σβ̂2 T SLS ) t ∼ N (0, 1)
k

2.2.2 El paper de les variables de control


En molts casos, necessitem utilitzar variables de control per tal de que les nostres variables
instrumentals siguin exògenes i per tant vàlides.

Tècnicament, per tal de que W1i , ..., Wri siguin variables de control vàlides, no nècessàriament
han de ser exògenes. És suficient amb que els instruments no afectin a l’esperança condicional
de l’error donades les variables de control,
E(εi |W1i , ..., Wri , Z1i , ..., Zmi ) = E(εi |W1i , ..., Wri )
Per demostrar-ho matemàticament, agafarem com a exemple un model amb una sola variable
explicativa X i una sola variable de control W ,
Yi = β0 + β1 Xi + β2 Wi + εi
i assumirem que E(εi |Wi ) és lineal en Wi :
E(εi |Wi , Zi ) = E(εi |Wi ) = α0 + α1 Wi
Llavors, podem expressar el model com
Yi =β0 + β1 Xi + β2 Wi + εi + E(εi |Wi , Zi ) − E(εi |Wi , Zi )
=β0 + β1 Xi + β2 Wi + εi + α0 + α1 Wi − E(εi |Wi , Zi )
ja que Z és exògen per definició. Simplifiquem:
Yi =β0 + β1 Xi + β2 Wi + α0 + α1 Wi + γi
=δ0 + β1 X1 + δ1 Wi + γi
Per tant, tenim que
Yi = δ0 + β1 X1 + δ1 Wi + γi ∀i = 1, ..., n
Podem expressar l’esperança condicionada de l’error d’aquesta regressió com
E(γi |Wi , Zi ) = E[εi − E(εi |Wi , Zi )|Wi , Zi ] = E(εi |Wi , Zi ) − E(εi |Wi , Zi ) = 0
que implica que Corr(Zi , γi ) = 0. Per tant, si canviem el primer supòsit de la regressió VI per
la independència de l’esperança condicionada, els supòsits originals se satisfan en la regressió
modificada.
2.2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS GENERAL 11

2.2.3 Diagnòstic de la validesa dels instruments


Quan fem servir instruments per una regressió amb variables instrumentals, necessitem compro-
var si realment són rellevants i exògenes.

Donat el model

Yi = β0 + β1 Xi + β2 W1i + ... + β1+r Wri + εi ∀i = 1, ..., n

On estimem la variable X amb

Xi = π0 + π1 Z1i + ... + πm Zmi + πm+1 W1i + ... + πm+r Wri + εi ∀i = 1, ..., n

Diagnòstic de la rellevància
Els instruments són rellevants si almenys un π1 , ..., πm és diferent de zero. Es diu que els
instruments són dèbils si tots els π1 , ..., πm no són significativament diferents de zero. Els
instruments dèbils expliquen una molt petita part de la variació d’X, més enllà de l’explicada
per les variables de control W .

Els instruments dèbils fan que la distribució de mostreig de β̂kT SLS i el seu estadı́stic-t no
segueixin una distribució del tot normal, fins i tot amb una mida mostral gran (n → ∞). Ho
podem veure directament, ja que sabem que
sY Z
β̂kT SLS =
sXZ

Si els coeficients π1 , ..., πm són propers a zero, voldrà dir que cov(X, Z) ≈ 0. Com que estarem
dividint per un nombre proper a zero a la fórmula de hatβkT SLS , l’estimador prendrà valors més
extrems i per tant no seguirà una distribució normal (tindrà una curtosi superior a la normal).

Això farà que els mètodes d’inferència usuals no seran confiables. Una millor aproximació serà
assumint que β̂kT SLS es distribueix com la raó entre dues variables normalment distribuides i
correlacionades (més detalls a Stock & Watson apèndix 12.4).

A la pràctica, per mesurar la fortalesa dels instruments es duu a terme un test-F sobre la regressió
Xi ∼ Z1i , ..., Zmi , W1i , ..., Wri , anomenada prova F de primera etapa. Es pot demostrar que
quan hi ha molts instruments, el biaix de l’estimador TSLS és aproximadament

βkOLS
E(β̂kT SLS ) − βk ≈
E(F ) − 1

on E(F ) és el valor esperat de l’estadı́stic-F sorgit de la prova-F que acabem de veure. Cal fixar-
se que si E(F ) = 10, el biaix serà una mica major que un 10% de βkOLS , que és suficientment
petit per ser acceptat en la majoria d’aplicacions. Per tant, rebutjarem la H0 quan F > 0 i per
tant els instruments no seran dèbils, i al revés.

Si es dona el cas que els instruments són dèbils, el més lògic és aconseguir-ne de millors. Si
tenim pocs instruments i són dèbils, hem d’anar en compte, ja que els estadı́stics-t i els intervals
de confiança que Stata reporta són incorrectes. Una alternativa és utilitzar les proves de ràtio
de versemblança condicionada o els intervals de confiança d’Anderson-Rubin o Moreira. També
podem utilitzar l’estimador de màxima versemblança amb informació limitada.
12 CAPÍTOL 2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS

Diagnòstic de l’exogeneı̈tat
Si l’instrument no és exògen, l’estimador TSLS és inconsistent:

β̂kT SLS ̸→ βk

Sabem que podem expressar l’estimador com


1
Pn
i=1 (Zi − Z̄)εi
β̂kT SLS = βk + 1
Pnn
n i=1 (Z i − Z̄)(Xi − X̄)

Si l’instrument és exògen, cov(Zi , εi ) = 0 i per tant el numerador de l’expressió anterior tendeix
a zero en probabilitat, de manera que l’estimador TSLS és consistent (β̂kT SLS → βk ).

Suposem que tenim dos instruments, Z1i i Z2i . En aquest cas podem calcular dos estimadors
per TSLS diferents, un utilitzant Z1i i l’altre utilitzant Z2i . Podem arribar a la conclusió de que
si aquests dos instruments donen estimadors molt diferents, algun dels dos (o els dos) poden
no ser vàlids. La prova J de restriccions sobreidentificades fa aquesta comparació d’una
manera estadı́sticament precisa. Tal com diu el nom, només es pot dur a terme si el model està
sobreidentificat, és a dir, si hi ha més variables instrumentals que variables endògenes.

La prova es defineix de la següent manera:

H0 : cov(Z1 , ε) = ... = cov(Zm , ε) = 0 vs H1 : cov(ZM , ε) ̸= 0 per alguna M = 1, ..., m

Sota H0 , l’estadı́stic-J té segueix una distribució χ2m−k . Per tant, la prova J rebutjarà H0 quan
almenys un instrument no sigui exògen, però no ens diu quin.

You might also like