CAP´ ıTULO 5

Errores de especificaci´n o
Estrictamente hablando, un error de especificaci´n es el incumplimiento de cualquiera o de los supuestos b´sicos del modelo lineal general. En un sentido m´s laxo, esta exprea a si´n hace referencia al supuesto impl´ o ıcito de que la matriz de dise˜o X est´ correctan a mente especificada; dicho de otro modo, que las variables explicativas incluidas en la matriz X son las verdaderamente relevantes en la explicaci´n de y. En una aplicaci´n o o pr´ctica, al dise˜ar la matriz X podemos cometer dos tipos de errores especificaci´n: a n o omisi´n de variables relevantes (infraespecificaci´n) e inclusi´n de variables irrelevantes o o o (sobreespecificaci´n). En este cap´ o ıtulo, se estudian las consecuencias que se derivan de estos dos errores de especificaci´n sobre las propiedades estad´ o ısticas del estimador de m´ ınimos cuadrados ordinarios.

5.1.

Omisi´n de variables relevantes o

Supongamos que el modelo correcto para explicar la variable dependiente y es, en forma particionada, y (n×1) = Xr β r (n × r)(r × 1) + Xs β s (n × s)(s × 1) + u (n×1)

pero por error especificamos el modelo incorrecto y = Xr β r + � a en donde hemos omitido las variables Xs . Estas variables engrosar´n la lista de factores omitidos que recoge el nuevo t´rmino de error, � = Xs β s + u, cuya esperanza claramente e es distinta de un vector de ceros, E(�) = Xs β s . ˆ ´ Proposicion 51. El estimador de m´nimos cuadrados br de β r en el modelo incorı ˆ recto es, en general, un estimador sesgado, siendo el sesgo B(br ) = (X� Xr )−1 X� Xs β s . r r ´ Demostracion. El estimador de m´ ınimos cuadrados en el modelo incorrecto es ˆ br = (X� Xr )−1 Xr y r Para estudiar las propiedades estad´ ısticas de este estimador, reemplazamos y por su expresi´n en el modelo correcto. As´ o ı, ˆ br = (X� Xr )−1 Xr [Xr β r + Xs β s + u] = β r + (X� Xr )−1 X� Xs β s + (X� Xr )−1 X� u r r r r r Tomando esperanza matem´tica a ˆ E(br ) = β r + (X� Xr )−1 X� Xs β s r r
77

Las columnas de la matriz (X� Xr )−1 X� Xs de orden r×s contienen r r las pendientes estimadas en la regresi´n de cada variable explicativa omitida sobre las o variables explicativas incluidas. El sesgo causado por la omisi´n de variables relevantes se denomina o sesgo de especificaci´n. En el modelo incorrecto � ˆ ˆ ˆ ˆ ˆ V (br ) =E [br − E(br )][br − E(br )]� = E (X� Xr )−1 X� uu� Xr (X� Xr )−1 r r r 2 =(X� Xr )−1 X� E uu� Xr (X� Xr )−1 = σu (X� Xr )−1 r r r r 2 σu In mientras que en el modelo correcto 2 ˆ V (β r ) = σu (X� Ms Xr )−1 r En lugar de comparar estas dos matices. La suma de cuadrados de los residuos en el modelo incorrecto. ´ Demostracion. siendo el sesgo no negativo. Estas pendientes ser´n iguales a cero unicamente en el a ´ � X = 0. El estimador de β r en el modelo incorrecto es m´s “eficiente”que a el estimador de m´nimos cuadrados de β r en el modelo correcto. Omisi´n de variables relevantes o vemos que el estimador de β r en el modelo incorrecto es sesgado. comparamos las inversas −2 −2 −2 −2 ˆ ˆ V (br )−1 −V (β r )−1 = σu X� Xr −σu X� Ms Xr = σu X� [In −Ms ]Xr = σu X� [Xs (X� Xs )−1 X� ]Xr r r r r s s Definiendo C = Xs (X� Xs )−1 X� Xr . σ� = ˆ ´ Demostracion. puede escribirse como y� Mr y = [Xr β r + Xs β s + u]� Mr [Xr β r + Xs β s + u] Prof. El estimador de β r en el modelo incorrecto ser´ insesgado cuando las variables omitidas y las variables incluidas sean ortogonales.1. . ı ´ Demostracion. y recoge la influencia de Xs sobre y que estamos atribuyendo a o Xr . siendo el sesgo (bias. Curso 2008-2009. obtenemos la matriz semidefinida positiva s s −2 ˆ ˆ V (br )−1 − V (β r )−1 = σu C� C que ser´ una matriz nula cuando X� Xr = 0. ´ a Proposicion 52. Material publicado bajo licencia Creative Commons y� Mr y. Apuntes de Econometr´ LADE y LE. Xr s e a Observaci´n 31. El estimador de β r en el modelo incorrecto tambi´n ser´ insesgado o u o cuando β s = 0s . ´ Proposicion 53. Jos´ Luis Gallego G´mez e o Departamento de Econom´ Universidad de Cantabria ıa. es decir. a s 2 ´ Proposicion 54. ıa. Vamos a demostrar que la diferencia entre las matrices de varianzas y covarianzas de estos dos estimadores de β r es una matriz semidefinida negativa. en ingl´s) e ˆ B(br ) = (X� Xr )−1 X� Xs β s r r � ´ Definicion 43.78 5. Dr. El estimador de σu en el modelo incorrecto � ˆ� ˆ �� y� Mr y = n−r n−r es sesgado. � caso especial en que las matrices Xs y Xr sean ortogonales. cuando no se comete ning´n error de especificaci´n.

´ Proposicion 55. el o r 2 es β � X� X β /(n − r) siendo X� X una matriz semidefinida positiva. � matriz Xs r s r s E(ˆ� ) = σ2 Observaci´n 32. Como Mr Xr = 0.5. Si. Curso 2008-2009. con datos de series temporales. y no somos conscientes ıa o u de que nos estamos olvidando de ciertas variables. Por otra parte. o definida positiva. Los estimadores de m´ ınimos cuadrados de β r y β s son ˆ br = (X� Ms Xr )−1 X� Ms y r r Prof. 5. si no la hay. por ejemplo. E(y� Mr y) 1 2 = σu + β � X� Mr Xs β s n−r n−r s s El sesgo β � X� Mr Xs β s /(n − r) ≥ 0 es una forma cuadr´tica semidefinica porque la a s s � M X es del tipo C� C con C = M X . Para empeorar las cosas. o tenemos y� Mr y = [Xs β s + u]� Mr [Xs β s + u] = β � X� Mr Xs β s + u� Mr us + 2β � X� Mr u s s s s en donde hemos usado el resultado u� Mr Xs β s = β � X� Mr u. que el modelo correcto es y = Xr β r + u pero incluimos err´neamente un conjunto de variables explicativas irrelevantes o y = Xr β r + Xs β s + � Vamos a estudiar las propiedades estad´ ısticas de los estimadores de β r y β s en el modelo incorrecto o sobreespecificado. cuando especificamos un modelo econom´trico seguimos las e indicaciones de la teor´ econ´mica y de nuestro sentido com´n.2. Cuando las variables en Xr y Xs son ortogonales. Estudiaremos eso a o tos errores de especificaci´n en cap´ o ıtulos posteriores. mientras que los estimadores de los par´metros asociados a variables a irrelevantes tienen un valor esperado nulo. X� Xs = 0. la omisi´n o de variables relevantes puede confundirse con otras violaciones de los supuestos b´sicos. s s Tomando ahora esperanza matem´tica a 2 E(y� Mr y) = β � X� Mr Xs β s + E(u� Mr u) + 2E(β � X� Mr u) = β � X� Mr Xs β s + (n − r)σu s s s s s s De aqu´ ı. ıa. Errores de especificaci´n o 79 en donde se ha reemplazando y por su expresi´n en el modelo correcto. las variables omitidas est´n a correlacionadas con las incluidas. la perturbaci´n E(�) presentar´ autocorrelaci´n. Jos´ Luis Gallego G´mez e o Departamento de Econom´ Universidad de Cantabria ıa. ahora. Sin embargo. Dr. Material publicado bajo licencia Creative Commons . Inclusi´n de variables irrelevantes o Suponemos. La soluci´n al problema de la omisi´n de variable relevante parece simple: incluirlas o o en el modelo. Los estimadores de los par´metros asociados a variables relevantes a son insesgados. si hay sesgo de σ� ˆ s s s s s s multicolinealidad exacta entre las variables explicativas omitidas. y ˆ bs = (X� Mr Xs )−1 X� Mr y s s Apuntes de Econometr´ LADE y LE. ´ Demostracion. a que requieren tratamientos muy diferentes. entonces Xr y E(�) = Xs β s tambi´n est´n correlae a cionados y no podemos mantener el supuesto de regresores fijo.

El estimador de m´nimos cuadrados de la varianza del error σu ı en el modelo sobreespecificado es insesgado. o Prof. Inclusi´n de variables irrelevantes o y pueden escribirse. pero nunca aumentar. Como MX = o M[Xr |Xs ] = 0. Material publicado bajo licencia Creative Commons . ´ Demostracion. que depende de la relaci´n entre variables a o incluidas y omitidas. ıa. tenemos y� My = u� Mu Tomando esperanza matem´tica a 2 E(u� Mu) = (n − k)σu De aqu´ ı. Esta relaci´n no tiene porqu´ disminuir con el tama˜o muestral. Ya hemos demostrado que al a˜adir nuevas variables a un modelo n de regresi´n la eficiencia de los estimadores puede disminuir. En el caso del modelo infraespecificado la distorsi´n o adem´s proviene del sesgo del estimador. por n tanto. En el modelo sobreespecificado la a distorsi´n proviene de la sobreestimaci´n de las varianzas. razonable pensar que la distorsi´n en varianza ser´ mayor en muestras peque˜as o a n y menor en muestras muy grandes. si el tama˜o muestral es suficientemente grande. como o ˆ br =(X� Ms Xr )−1 X� Ms [Xr β r + u] = β r + (X� Ms Xr )−1 X� Ms u r r r r ˆ bs =(X� Mr Xs )−1 X� Mr [Xr β r + u] = (X� Mr Xs )−1 X� Mr u s s s s Tomando esperanza matem´tica a ˆ E(br ) =β r + (X� Ms Xr )−1 X� Ms E(u) = β r r r ˆ E(bs ) =(X� Mr Xs )−1 X� Mr E(u) = 0 s s � ´ Proposicion 56. El estimador de β r en el modelo sobreespecificado es menos eficiente que el estimador de β r en el modelo correcto. parece menos o n grave cometer errores de especificaci´n por exceso que por defecto. En el modelo incorrecto σ� = ˆ ˆ� ˆ y� My �� = n−k n−k La suma de cuadrados de los residuos y� My puede escribirse como y� My = [Xr β r + u]� M[Xr β r + u] en donde se ha reemplazando y por su expresi´n en el modelo correcto. ´ Demostracion. Jos´ Luis Gallego G´mez e o Departamento de Econom´ Universidad de Cantabria ıa. � o 2 ´ Proposicion 57. Parece. Si el estimador es consistente. Apuntes de Econometr´ LADE y LE. o e n A modo de conclusi´n. E(ˆ� ) = σ2 E(y� My) 2 = σu n−k � Comparando las dos tipos de errores de especificaci´n vemos que la consecuencia final o es la misma: los estad´ ısticos t y F est´n distorsionados. reemplazando y por su expresi´n en el modelo correcto.80 5. Curso 2008-2009. Dr.2. o o esta varianza tiende a cero cuando el tama˜o muestral tiende a infinito.

o el test RESET (del ingl´s. Jos´ Luis Gallego G´mez e o Departamento de Econom´ Universidad de Cantabria ıa. Apuntes de Econometr´ LADE y LE. o Prof. Yt2 . c) la varianza del error es insesgada. Estimar la regresi´n simple de Yt sobre Xt . b) la matriz de varianzas y covarianzas de estos estimadores es “menor”que la que se obtendr´ en el modelo correcto. El modelo est´ err´neamente especificado si F > c. Los pasos son los sigue ientes: 1. REgression Epecification Error Test). Errores de especificaci´n o 81 Forma funcional incorrecta 5. calcular el coeficiente de determio 2 ˆ naci´n.5. ıa.n−k−1 > c) = α. Material publicado bajo licencia Creative Commons . Xt . la omisi´n de las k − 1 variables relevantes puede interpretarse como un o error en la especificaci´n de la forma funci´n: estamos especificando una relaci´n lineal o o o entre Yt y Xt . b) la matriz de varianzas y covarianzas de los estimadores par´metros relea vantes en el modelo sobreespecificado es “mayor”que la correspondiente en el modelo verdadero. digamos R0 . en donde c es el valor cr´ a o ıtco tal que P rob(Fk−1. a La inclusi´n de variables irrelevantes tiene las siguientes consecuencias: o a) los estimadores de los par´metros asociados a las variables relevantes son a insesgados. . o 3. Estimar la regresi´n de Yt sobre 1...3. Curso 2008-2009. R1 . Las consecuencias de la omisi´n de variables relevantes son: o a) los estimadores de los par´metros asociados a las variables incluidas son a sesgados. Calcular el estad´ ıstico F F = 2 2 (R1 − R0 )/(k − 1) 2 (1 − R1 )/(n − k − 1) 4. Dr. Resumen 1. o ˆ 2. ıa c) la varianza de las perturbaciones est´ sobreestimada.. a d) los contrastes de hip´tesis basados en los estad´ o ısticos t y F no son v´lidos. mientras que los de las variables irrelevantes tienen un valor esperado nulo. cuando la relaci´n entre ambas es no lineal o Ramsey propuso un contraste muy simple para detectar este error de especificaci´n. y generar los valores ajustados Yt . d) los contrastes de hip´tesis basados en los estad´ o ısticos t y F est´n sesgados a hacia la no significaci´n. Ytr y calcular el coeficiente de o 2 determinaci´n. Imaginemos que la relaci´n estad´ o ıstica entre dos variables Yt y Xt viene dada por la regresi´n polinomial o 2 k Yt = β0 + β1 Xt + β2 Xt + · · · + βk Xt + ut pero por error especificamos la regresi´n lineal simple o Yt = β0 + β1 Xt + �t En este modelo.

Obtenga el sesgo del estimador de la varianza residual en un modelo de regresi´n o con omisi´n de variables relevantes. o entonces la esperanza matem´tica del estimador MCO del par´metro β es a a ˆ E(β) = β + γ N ˜˜ i=1 pi ri N ˜2 i=1 pi donde pi = pi − p y ri = ri − r . 2.82 Palabras clave Matriz de dise˜o n Error de especificaci´n o Omisi´n de variable relevante o Inclusi´n de variable irrelevante o Infraespecificaci´n o Ejercicios 5. o 3. Material publicado bajo licencia Creative Commons . Curso 2008-2009. Discuta la siguiente proposici´n: cuando el tama˜o muestral es muy grande. es o n menos grave la inclusi´n de variables irrelevantes que la omisi´n de variables o o relevantes. Apuntes de Econometr´ LADE y LE. . E(u2 ) = σ 2 . i E(ui uj ) = 0 ∀i �= j. . Dr.3. . i = 1. a) Demuestre que si esta ecuaci´n se estima sin la variable relevante renta. ˜ ¯ ˜ ¯ b) Demuestre que si esta ecuaci´n se estima con la variable relevante renta. . Prof. N a donde las variables explicativas precio pi y renta ri se consideran no estoc´sticas y el t´rmino de error ui cumple las propiedades siguientes e E(ui ) = 0. Jos´ Luis Gallego G´mez e o Departamento de Econom´ Universidad de Cantabria ıa. Ejercicios Sobreespecificaci´n o Sesgo de especificaci´n o Forma funcional incorrecta Test RESET 1. Sea la ecuaci´n de demanda o qi = α + βpi + γri + ui . o entonces σ2 ˆ V (β) = N 2 ˜2 i=1 pi (1 − ρpr ) o donde ρpr es el coeficiente de correlaci´n simple entre las variables precio y renta. ıa.