You are on page 1of 34

Econometría I - Tema 4

Estimación por variables
instrumentales. Mínimos
cuadrados en 2 etapas

Jorge Pena Izquierdo

Departamento de Economía, Universidad Carlos III de Madrid

Outline

 Motivación: variables omitidas.

 Estimación VI del modelo de regresión múltiple.

 Mínimos cuadrados bietápicos.

 Soluciones VI para el problema de errores en las
variables.

 Contrastes de endogeneidad y contrastes de
restricciones de sobreidentificación.
2

Motivación: variables omitidas.

Ante un posible problema de variables omitidas,
tenemos tres opciones:

 Ignorar el problema y afrontar las consecuencias de
estimadores sesgados e inconsistentes.
 Podemos intentar encontrar y usar una variable proxy
adecuada para la variable no observada.
 Podemos asumir que la variable omitida no cambia en el
tiempo y usar métodos de datos de panel.

3

La nueva variable z es una Variable Instrumental para x si satisface:  VI.Modelo de variables instrumentales (VI).u ) ≠ 0 El método de VI funciona independientemente de si x y u están correlados o no. Para obtener estimadores consistentes de β0 y β1 cuando x y u están correlados. pero si no lo están es mejor usar MCO.2 C ov(z. C ov(x. Escribimos el modelo de regresión como: y = β 0 + β 1 x1 + u donde. necesitamos información adicional: una nueva variable z que satisfaga ciertas propiedades. x) ≠ 0 4 .1 C ov(z.u ) = 0  VI.

Modelo de variables instrumentales (VI).  En el caso de la ecuación de Mincer. ¿Qué podemos utilizar como instrumento?  ¿Última cifra del número de la Seguridad Social de un individuo?  ¿Educación de los padres?  ¿Número de Siblings? 5 .  ¿Podemos testear estos supuesto?  ¿Es una proxy un buen candidato de instrumento?.

Modelo: score = β 0 + β 1s k ip p e d + u  El problema es que el número de clases no atendidas. skipped. 6 .  Distancia entre el domicilio y el campus.Ejemplo: asistencia a clase. y a la vez. ya que mejores estudiantes normalmente faltan menos a clase. estar correlada con skipped.  Una buena VI debería no tener efecto directo sobre score y no estar correlada con la habilidad del estudiante. puede estar correlado con otros factores en u.

La identificación de un parámetro β1 implica que podemos escribir β1 en términos de momentos poblacionales que se pueden estimar usando una muestra. u ) = 0 y C o v ( z . y ) = β 1C o v ( z . x ) ≠ 0 .Identificación. u ) Los supuestos de validez de z como VI. y) β1 = Cov( z. por lo que Cov( z. x ) + C o v ( z .1-2 suponen que C o v ( z . Usando el modelo y = β 0 + β 1 x1 + u vemos que C o v ( z . VI. x) 7 .

Identificación.  El Estimador de Variables Instrumentales (EVI) es el análogo muestral. ∑ (z − z )( y i − y ) βˆ1 = i ∑ (z i − z )( xi − x )  El estimador de VI de β0 es simplemente ) β 0 = y − βˆ1 x  Si z = x. se puede usar como su propia VI. entonces EVI=EMCO. 8 . Si x es exógena.

Inferencia estadística con el EVI. en este caso sobre la VI: Var ( u / z ) = σ 2 = Var (u )  Entonces σ 2 AVar ( βˆ1 ) = nσ x2 ρ xz2 9 .  Similitud con el EMCO: asintóticamente normal en muestras grandes.  Para hacer inferencia se necesita un error estándar para computar estadísticos t e IC.  Típicamente necesitamos una condición de homoscedasticidad.

A V a r ( βˆ 1 ) puede estimarse consistentemente dada una muestra. σˆ 2 S S T x R x2z donde R x2z es el coef. Error estándar: raíz cuadrada de la estimación de A V ar ( βˆ1 ) . z ≤ 1 entonces A V a r ( βˆ1V I ) ≥ A V a r ( βˆ1M C O ) 10 . 1 σˆ 2 = ∑ uˆ i2 n− 2 Además se puede comparar las AVar de los EVI y de los EMCO: σ2 σ2 AVar ( βˆ VI ) = AVar ( β1 ) = ˆ MCO nσ x2 ρ xz2 nσ x2 1 Como ρ x2. z. de determinación de la regresión de x s.Errores estándar EVI.

z ) σ x  En este caso.  Los EVI tienen varianza alta si la correlación de la VI con x es pequeña. u ) σ u p lim ( βˆ1 ) = β 1 + C o rr ( x . . ¿qué debemos hacer? 11 . . si sólo atendemos a consistencia. u ) u σx  Entonces.VI pobres o débiles. ¿cuándo preferiremos VI sobre MCO?  Entonces. no está claro que es mejor usar EVI que EMCO: σ p lim ( βˆ1M C O ) = β 1 + C o rr ( x .  La correlación entre z y u puede tener incluso peores consecuencias en términos de sesgo: C o rr ( x . .

 En este caso R-cuadrado puede ser negativo ya que SSR puede ser mayor que SST. 12 . entonces EMCO es la solución.  Además cuando x y u están correlados.  La mayoría de paquetes econométricos calculan S S R R 2 = 1 − S S T donde SSR es la suma de cuadrados de los residuos de la estimación VI.  Si el objetivo es reportar el mayor R-cuadrado posible.R-cuadrado en la estimación por VI. no podemos descomponer la varianza de y en β 1 2 V a r ( x ) + V a r ( u ) . por lo que el R-cuadrado no tiene interpretación natural.

y1 = β 0 + β 1 y 2 + β 2 z1 + u1  Mide una relación causal. 13 . E[z/u] = 0.  El término de error u satisface E[u] = 0. y estamos interesados en los βj  Nueva notación para distinguir variables endógenas (y1.Estimación VI del modelo de regresión múltiple. y2) de las variables exógenas (z) .  Asumimos que z1 está incorrelada con el término de error.  Pero es posible que y2 esté correlada con u (por ejemplo porque hay factores omitidos en u).

 El supuesto clave es que z1 y z2 no estén correladas con u1 : E(u1) = 0. Cov(u1. 14 .  Hay que buscar otra variable z2 que no esté en la ecuación.  Aunque z1 está incorrelada con u. no podemos usarla como instrumento para y2: ya aparece en la ecuación y no se puede usar dos veces. y1 = β 0 + β 1 y 2 + β 2 z1 + u1  La idea es buscar un instrumento para y2. Cov(u1. z2) = 0.EVI para regresión múltiple. z1) = 0.

βˆ0 .  Y estas condiciones son equivalentes a βˆ βˆ 1 y βˆ n ∑ i = 1 ( y i1 − 0 − i 2 − 2 z i1 ) = 0 βˆ βˆ 1 y βˆ n ∑ i = 1 z i1 ( y i1 − 0 − i 2 − 2 z i1 ) = 0 βˆ βˆ 1 y βˆ n ∑ i = 1 z i 2 ( y i1 − 0 − i 2 − 2 z i1 ) = 0 que son un sistema de 3 ecuaciones con 3 incógnitas. 15 . βˆ1.  Estas condiciones son equivalentes a E(u1) = 0. E(u1z2) = 0. entonces tenemos que EVI=EMCO. β̂2 : los estimadores de Variables Instrumentales. E(u1z1) = 0.  Si y2=z2 porque creemos que es exógena.EVI para regresión múltiple (II).

 El contraste es fácil: se estima el modelo por MCO y se hace un contraste de la t.  La condición hace referencia a la correlación parcial: y 2 = π 0 + π 1 z1 + π 2 z 2 + v 2 donde E ( v 2 ) = 0 . z2 e y2 están correlados.  Necesitamos que z2 esté correlado con y2. z2) = 0.  La condición clave de identificación es π 2 ≠ 0  que dice que después de descontar el efecto de z1. z 2 ) = 0 y los π j son parámetros desconocidos. 16 .EVI: validez de instrumentos. z 1 ) = 0 . C o v ( v 2 .  Pero no se puede hacer un contraste para Cov(u1. C o v ( v 2 . pero hay que tener en cuenta también a z1.

Formas reducidas. 17 . z2) = 0. z1) = 0. Cov(v2. que miden relaciones causales.  Esta ecuación es una forma reducida: explica una variable endógena en función de variables exógenas.  Forma reducida de y2 y 2 = π 0 + π 1 z1 + π 2 z 2 + v 2 donde E(v2) = 0.  El nombre sirve para distinguirla de las ecuaciones estructurales. Cov(v2.

La forma reducida para y2 es y 2 = π 0 + π 1 z1 + ... Cov(u1. zj ) = 0. Asumimos que E(u1) = 0. . y 1 = β 0 + β 1 y 2 + β 2 z 1 + . + π k z k + v 2 El supuesto clave para que zk y y2 estén correladas parcialmente es π k ≠ 0 18 . k. . .. j = 1. Se dispone de una variable zk para hacer de instrumento de y2. + β k z k − 1 + u 1 y2 puede estar correlada con u1. ..EVI para regresión múltiple: más de dos variables.

 Consideramos los casos de una y múltiples variables explicativas endógenas.  Ambas variables están correladas con y2 y son posibles instrumentos válidos para y2.Mínimos cuadrados bietápicos.  En ocasiones disponemos de dos o más variables exógenas excluidas de la ecuación para servir de instrumentos para y2. 19 .

 Si las dos variables z2 y z3 están correladas con y2 entonces cada una de ellas se podría usar como VI para y2. z1 ) = 0 . z 3 ) = 0 20 . z 2 ) = 0 .  Entonces tendríamos dos VI y en general ninguna de las dos sería eficiente: como z1. cualquier combinación lineal también lo estará y será una VI válida.  Restricciones de exclusión: z2 y z3 no aparecen en la ecuación y están incorreladas con u1. y1 = β 0 + β 1 y 2 + β 2 z1 + u 1  Ahora disponemos de dos variables exógenas excluidas: z2 y z3. C o v ( v 2 . y 2 = π 0 + π 1 z1 + π 2 z 2 + π 3 z 3 + v 2 E ( v 2 ) = 0 . C o v ( v 2 .El caso de una sola variable explicativa endógena.  La VI óptima será la que tenga la correlación máxima con y2 : la forma reducida de y2. C o v ( v 2 . que están excluidas de la ecuación. z2 y z3 están incorrelados con u1.

y .  Para ello necesitamos que π 2 ≠ 0 ó π 3 ≠ 0  La ecuación no está identificada si π 2 = π 3 . π 3 = 0 21 . y 2* = π 0 + π 1 z1 + π 2 z2 + π 3 z3  Queremos que esta VI no esté perfectamente correlada con z1 (para que esté correlada parcialmente con y2 aparte del efecto de z1). = 0  La condición de identificación se puede contrastar con un test de la F para H 0 : π 2 = 0 .VI óptimas.

 En la práctica los πj deben estimarse por MCO y computar para cada i .  Con los datos sobre zj podemos calcular y2 para cada observación si se conocen los πj . En caso contario esta regresión no conduce a VI válidas.  La forma reducida de y2 y 2 = π 0 + π 1 z1 + π 2 z 2 + π 3 z 3 + v 2 divide a y2 en dos partes y2* = π 0 + π1z1 + π 2 z2 + π3 z3 que es la parte de y2 incorrelada con el error u.Interpretación de la primera etapa. yˆ i 2 : y 2* = πˆ 0 + πˆ1 z1 + πˆ 2 z 2 + πˆ 3 z3  En este momento debemos comprobar que z2 y z3 son conjuntamente significativos. 22 .  v2 : que es la parte posiblemente correlada con u.

 Esta basada en la utilización de ŷ2 como VI para y2 βˆ βˆ 1 y βˆ n ∑ i = 1 yˆ i 2 ( y i1 − 0 − i 2 − 2 z i1 ) = 0  Cuando hay múltiples instrumentos el EVI también se denomina Estimador de Mínimos Cuadrados Bietápicos o en 2 etapas (EMC2). z1 .  La razón del nombre es que el estimador VI se puede obtener por dos regresiones MCO. ya que la segunda etapa equivale a hacer una regresión MCO de y1 sobre ŷ2 . 23 .Interpretación de la segunda etapa.

 Sin embargo los errores estándar de esta segunda etapa no son los correctos para EMC2 24 . z2 y z3 : se obtiene ŷ2 .  Por tanto la regresión MCO sobre y2* es válida.  2ª etapa: regresión de y1 sobre ŷ2 y z1 . que está incorreladacon u1.  La diferencia con MCO entonces es usar ŷ2 en lugar de y2 .Variables Instrumentales: EMC2. por lo que EMC2 libera a y2 de su correlación con u1.  La idea es que ŷ2 es la versión estimada de y2* .  1ª etapa: regresión de y2 sobre z1 . ya que y 2 = y * 2 + v 2 y 1 = β 0 + β + β 2 z1 + u 1 + β 1v 2 1 y * 2 donde el nuevo error u1 + β1v2 está incorrelado con y2* y con z1 .

 Necesitamos al menos una variable exógena que esté correlada parcialmente con y2 (aparte de las zj . y1 = β 0 + β 1 y 2 + β 2 z1 + . .s. 25 .Condiciones para inferencia asintótica válida para EMC2. + β k z k −1 + u1  Cada zj está incorrelada con u1.. . j = 1. . y estadísticos t habituales sean válidos se necesita una condición de homoscedasticidad: la varianza de u1 no puede depender de ningún regresor exógeno.  Para que los e. .. k-1 ya presentes en la ecuación).

La varianza asintótica del EMC2 se puede aproximar por σ 2 S S T 2 (1 − R 22 ) 2 donde σ 2 = V ar ( u1 ) . El problema puede ser todavía más grave para MC2. 2 26 . SST2 es la varianza total de yŷ2 y R2 es el R2 de la regresión de ŷ2 sobre todas las otras variables exógenas que aparecen en la ecuación estructural. La multicolinealidad provoca que EMCO tenga grandes err.  Además la correlación de ŷ2 con el resto de variables exógenas es frecuentemente mucho mayor que la de y2 y esas variables. std. ŷ es una función de esas variables y 2 los otros instrumentos que evitan que la correlación sea perfecta y R2 =1 .Multicolinealidad y MC2. Hay dos razones por las que la varianza del EMC2 es mayor que la del EMCO:  Por construcción ŷ2 tiene menos variación que y2 (ya que ŷ2 es un residuo).

 El problema puede ser todavía más grave para MC2.  Para estimar esta ecuación por VI necesitamos al menos dos variables exógenas que no aparezcan en la ecuación y que estén correladas parcialmente con y2 y con y3. por ejemplo z4 y z5. u1 ) = 0  y2 e y3 son variables explicativas endógenas y pueden estar correladas con u1.  Condición necesaria: bien z4 ó z5 deben aparecer en las formas reducidas de y2 y de y3. y1 = β 0 + β1y2 + β 2 y 3 + β 3 z1 + β 4 z2 + β 5 z3 + u1 donde E (u1 ) = 0 . 27 .  Condición suficiente: cada variable z4 y z5 debe aparecer en al menos una de las dos formas reducidas. C o v ( z j .Múltiples variables endógenas.

Soluciones VI para problemas de errores en las variables.  Consideramos el modelo y 1 = β 0 + β 1 x 1* + β 2 x 2 + u donde y y x2 son observadas.  La correlación entre e1 y x1 hace que el EMCO.  Sea x1 una medida observada de x*1 : x1 = x 1* + e 1 donde e1 es el error de medida. pero no x*1. cuando se usa x1 en lugar de x*1. sea sesgado e inconsistente: y1 = β 0 + β 1 x1 + β 2 x 2 + (u − β 1e1 ) 28 .

y sin más información no podemos corregirlo.  En el caso CEV asumimos que e1 está incorrelado con x*1 y x2.  En la ecuación original asumimos que u está incorrelado con x*1 .  En ocasiones podemos usar un método de VI para solucionar el problema de error de medida. correlada con x1 pero incorrelada con u y con e1.  En este caso el sesgo en el EMCO es hacia cero.  Esto implica que x2 es exógena en la ecuación y1 = β 0 + β 1 x1 + β 2 x 2 + ( u − β 1e1 ) pero que x1 está correlado con e1 : necesitamos una VI para x1.Supuesto clásico de errores en variables (CEV). 29 . x1 y x2.

podemos pensar que están incorreladas con el error de medida en 30 . Por ejemplo si usamos motheduc y fatheduc como VIs.  Otra variable exógena.  Una segunda medida de x*1 : z1. Necesitamos que el error de medida a1 en z 1 = x 1* + a 1 esté incorrelado con e1 y que z1 esté incorrelado con u.  ¿Cómo conseguir la segunda medida? Generalmente es complicado.  Además z1 estará lógicamente correlado con x1 porque ambas son mediciones de x*1.Posibles IV para errores de medida.

 El EMC2 es menos eficiente que el EMCO cuando las variables explicativas son exógenas. Si difieren sustancialmente es porque EMCO es inconsistente: y2 es endógena. 31 .  ¿Cómo se hace este contraste?  Hausman (1978) sugirió comparar directamente los EMCO y EMC2 para ver si las diferencias eran significativas.  Se dispone de otras dos variables exógenas z3 y z4 que no aparecen en la ecuación estructural.  Modelo y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + u 1 donde z1 y z2 son exógenas.  Si y2 está incorrelada con u1 entonces deberíamos usar MCO.Contraste de endogeneidad.  Por esta razón es útil disponer de un contraste de endogeneidad de una variable explicativa para ver si es necesario MC2.

y 2 = π 0 + π 1 z1 + π 2 z 2 + π 3 z 3 + π 4 z 4 + v 2  Como zj están incorrelada con u1.  Para ello se emplea la forma reducida de y2.  Entonces u1 y v2 están incorrelados si y sólo si δ1 = 0 32 . y2 está incorrelada con u1 si y sólo si v2 está incorrelada con u1.  Para ver si la diferencia EMCO-EMC2 es significativa es mejor usar una regresión.Contraste de Hausman.  Podemos escribir u 1 = δ 1v 2 + e1 donde e1 está incorrelado con v2 y tiene media cero.

 Una VI tiene que satisfacer dos requerimientos: estar correlada con la variable explicativa endógena pero incorrelada con el error.Contrastes de restricciones de sobreidentificación.  El segundo requerimiento no se puede comprobar porque implica errores no observados.  Sin embargo. 33 . si tenemos más de una VI sí que podemos contrastar el supuesto.  El primer requerimiento se puede comprobar por medio de contrastes de la t y de la F.

Modelo y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + u 1 donde z1 y z2 son exógenas y se dispone de otras dos variables exógenas z3 y z4. û1 sobre z1. z2. Para llevar a cabo el contraste se hace la estimación MCO de û1 sobre todas las variables exógenas. Estimamos la ecuación por MC2 usando como VI sólo z3 (que asumimos es un buen instrumento) y obtenemos residuos uˆ 1 = y 1 − βˆ 0 + βˆ 1 y 2 + βˆ 2 z 1 + βˆ 3 z 2 Como z4 no se ha usado en la estimación se puede comprobar si z4 y û1 están correlados: si están correlados z4 no es una VI válida para la estimación. z3 y z4. Estadístico L M : n R 2 χ 1 2 34 .Contrastes de restricciones de sobreidentificación.