Professional Documents
Culture Documents
Com que E(εi |π0 + π1 Zi ) = 0, podem fer servir el mètode OLS per trobar π̂0 i π̂0 per trobar els
valors ajustats d’X, denotats per X̂ i exògens. Amb això, podem estimar β0 i β1 . Denotarem
aquests estimadors amb β̂0T SLS i β̂1T SLS , per diferenciarlos dels estimadors tı́pics per OLS.
És important remarcar que per tal de que una variable instrumental sigui vàlida, és vital no
només que sigui exògena sinó que també sigui rellevant. En altres paraules, que estigui correla-
cionada amb X.
Pel que fa a la inferència, l’única diferència respecte dels estimadors per OLS és que en el cas
de l’estimació per TSLS els errors estàndards dels coeficients de la regressió de la segona etapa
no són correctes perquè no tenen en compte que la variable utilitzada és X̂i i no Xi .
8
2.2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS GENERAL 9
En aquest model, X1 , ..., Xk són regressors endògens i W1 , ..., Wr són regressors exògens, que
fan la funció de variables de control. Tot i que no es veuen en el model, també hi ha variables
Z1 , ..., Zm , que són els instruments per corregir el biaix que provoquen les variables endògenes.
En aquest punt, cal introduı̈r el concepte de identificació. Es diu que un paràmetere està
identificat si diferents valors del paràmetre produeixen diferents distribucions de les dades. En
el cas de la regressió VI això depèn de la relació entre el nombre de variables endògenes i el
nombre de variables instrumentals. Seguint la notació, per tant direm que els coeficients en el
vector β
Estan sobreidentificats si m > k. És a dir, tenim més variables instrumentals que
endògenes.
Estan infraidentificats si m < k. En altres paraules, tenim més variables endògenes que
instrumentals, i per tant necessitem trobar-ne més.
El procediment és semblant al del cas anterior. Per simplicitat, reduı̈m al model a
Altra vegada, els errors estàndards dels coeficients de la segona regressió no seran correctes, tot
i que amb STATA el comando ivreg ja fa la correcció.
Per tal de ser vàlids, els instruments han de ser endògens i rellevants, només que en aquest cas
és suficient amb que un dels instruments estigui correlacionat amb X1 .
El supòsit d’exogeneı̈tat en aquest cas només ens demana que les variables exògenes del
model realment ho siguin (bastant trivial):
Tècnicament, per tal de que W1i , ..., Wri siguin variables de control vàlides, no nècessàriament
han de ser exògenes. És suficient amb que els instruments no afectin a l’esperança condicional
de l’error donades les variables de control,
E(εi |W1i , ..., Wri , Z1i , ..., Zmi ) = E(εi |W1i , ..., Wri )
Per demostrar-ho matemàticament, agafarem com a exemple un model amb una sola variable
explicativa X i una sola variable de control W ,
Yi = β0 + β1 Xi + β2 Wi + εi
i assumirem que E(εi |Wi ) és lineal en Wi :
E(εi |Wi , Zi ) = E(εi |Wi ) = α0 + α1 Wi
Llavors, podem expressar el model com
Yi =β0 + β1 Xi + β2 Wi + εi + E(εi |Wi , Zi ) − E(εi |Wi , Zi )
=β0 + β1 Xi + β2 Wi + εi + α0 + α1 Wi − E(εi |Wi , Zi )
ja que Z és exògen per definició. Simplifiquem:
Yi =β0 + β1 Xi + β2 Wi + α0 + α1 Wi + γi
=δ0 + β1 X1 + δ1 Wi + γi
Per tant, tenim que
Yi = δ0 + β1 X1 + δ1 Wi + γi ∀i = 1, ..., n
Podem expressar l’esperança condicionada de l’error d’aquesta regressió com
E(γi |Wi , Zi ) = E[εi − E(εi |Wi , Zi )|Wi , Zi ] = E(εi |Wi , Zi ) − E(εi |Wi , Zi ) = 0
que implica que Corr(Zi , γi ) = 0. Per tant, si canviem el primer supòsit de la regressió VI per
la independència de l’esperança condicionada, els supòsits originals se satisfan en la regressió
modificada.
2.2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS GENERAL 11
Donat el model
Diagnòstic de la rellevància
Els instruments són rellevants si almenys un π1 , ..., πm és diferent de zero. Es diu que els
instruments són dèbils si tots els π1 , ..., πm no són significativament diferents de zero. Els
instruments dèbils expliquen una molt petita part de la variació d’X, més enllà de l’explicada
per les variables de control W .
Els instruments dèbils fan que la distribució de mostreig de β̂kT SLS i el seu estadı́stic-t no
segueixin una distribució del tot normal, fins i tot amb una mida mostral gran (n → ∞). Ho
podem veure directament, ja que sabem que
sY Z
β̂kT SLS =
sXZ
Si els coeficients π1 , ..., πm són propers a zero, voldrà dir que cov(X, Z) ≈ 0. Com que estarem
dividint per un nombre proper a zero a la fórmula de hatβkT SLS , l’estimador prendrà valors més
extrems i per tant no seguirà una distribució normal (tindrà una curtosi superior a la normal).
Això farà que els mètodes d’inferència usuals no seran confiables. Una millor aproximació serà
assumint que β̂kT SLS es distribueix com la raó entre dues variables normalment distribuides i
correlacionades (més detalls a Stock & Watson apèndix 12.4).
A la pràctica, per mesurar la fortalesa dels instruments es duu a terme un test-F sobre la regressió
Xi ∼ Z1i , ..., Zmi , W1i , ..., Wri , anomenada prova F de primera etapa. Es pot demostrar que
quan hi ha molts instruments, el biaix de l’estimador TSLS és aproximadament
βkOLS
E(β̂kT SLS ) − βk ≈
E(F ) − 1
on E(F ) és el valor esperat de l’estadı́stic-F sorgit de la prova-F que acabem de veure. Cal fixar-
se que si E(F ) = 10, el biaix serà una mica major que un 10% de βkOLS , que és suficientment
petit per ser acceptat en la majoria d’aplicacions. Per tant, rebutjarem la H0 quan F > 0 i per
tant els instruments no seran dèbils, i al revés.
Si es dona el cas que els instruments són dèbils, el més lògic és aconseguir-ne de millors. Si
tenim pocs instruments i són dèbils, hem d’anar en compte, ja que els estadı́stics-t i els intervals
de confiança que Stata reporta són incorrectes. Una alternativa és utilitzar les proves de ràtio
de versemblança condicionada o els intervals de confiança d’Anderson-Rubin o Moreira. També
podem utilitzar l’estimador de màxima versemblança amb informació limitada.
12 CAPÍTOL 2. REGRESSIÓ AMB VARIABLES INSTRUMENTALS
Diagnòstic de l’exogeneı̈tat
Si l’instrument no és exògen, l’estimador TSLS és inconsistent:
β̂kT SLS ̸→ βk
Si l’instrument és exògen, cov(Zi , εi ) = 0 i per tant el numerador de l’expressió anterior tendeix
a zero en probabilitat, de manera que l’estimador TSLS és consistent (β̂kT SLS → βk ).
Suposem que tenim dos instruments, Z1i i Z2i . En aquest cas podem calcular dos estimadors
per TSLS diferents, un utilitzant Z1i i l’altre utilitzant Z2i . Podem arribar a la conclusió de que
si aquests dos instruments donen estimadors molt diferents, algun dels dos (o els dos) poden
no ser vàlids. La prova J de restriccions sobreidentificades fa aquesta comparació d’una
manera estadı́sticament precisa. Tal com diu el nom, només es pot dur a terme si el model està
sobreidentificat, és a dir, si hi ha més variables instrumentals que variables endògenes.
Sota H0 , l’estadı́stic-J té segueix una distribució χ2m−k . Per tant, la prova J rebutjarà H0 quan
almenys un instrument no sigui exògen, però no ens diu quin.