You are on page 1of 13

La lista de variables que el directivo de una empresa o el investigador de un centro de investigaciones decide incluir como explicativas puede ser

errnea por distintas razones: Omisin de variables relevantes: en algn caso puede omitirse una variable explicativa relevante por carecer de datos fiables acerca de la misma o por ignorar su relevancia. Inclusin de variables irrelevantes: ocurre cuando se incluyen, equivocadamente, como explicativas variables que no lo son. Forma funcional incorrecta: se da cuando la relacin especificada entre la variables endgena y las variables explicativas no es la adecuada.

Omisin de variables relevantes


Supongamos que el verdadero modelo que describe el comportamiento de la variable Y es, en forma matricial: Y = X.B + U; con E(U) = 0nx1, Var(U) = 2Inxn. El investigador, sin embargo, se propone a estimar el modelo:

que es, en general, distinto del vector B, y que el error cometido al escribir la lista de variables explicativas puede conducir a sesgos en el estimador MCO [8]. Por otra parte, si denotamos por e los residuos del modelo estimado, se tiene: e.e = Y.M0.Y = (X.B + U).M0.(X.B + U) = U.M0.U + B.X.M0.X.B, donde M0 = IN X0.(X0.X0)-1.X0. Tomando la esperanza matemtica de ambos miembros de esta expresin e explorando las propiedades de la traza, queda: E[e.e] = E[U.M0.U] + B.X.M0.X.B; E[U.M0.U] = E[tr(U.M0.U)] = E[tr(M0U.U)] = tr[E(M0U.U)]; E[e.e] = tr[M0E(U.U)] = tr[M02.IN] = 2trM0. Por tanto, E[e.e] = 2trM0 + B.X.M0.X.B.

ww w.

por lo que se tiene:

at

B0 = (X0.X0)-1.X0.Y = (X0.X0)-1.X0. (X.B + U) = (X0.X0)-1.X0.X.B + (X0.X0)-1.X0.U,

E(B0) = (X0.X0)-1.X0.X.B,

em

La estimacin MCO de los coeficientes de este ltimo modelo ser:

at

ic a

con X0 una matriz con dimensin n x r, siendo r < k. Estamos, pues, ante la omisin de las variables relevantes.

1.c

Y = X0.B0 + U0,

om

Es fcil comprobar que si no hubiese cometido ningn error de especificacin, la matriz M0 sera simplemente M, M = In X.(X.X)-1.X, y entonces E[e.e] = 2.trM = (n k).2. En todos los dems casos, la forma cuadrtica B.X.M0.X.B es positiva, por lo que E[e.e] exceder a 2.trM0, siendo e.e/(n r) un estimador de 2 con sesgo positivo [8]. Ahora bien, supongamos que la matriz X est formada por X = (X0; Z) donde X0 es una matriz n x r y Z es una matriz n x (k r), es decir, que el modelo que se estima excluye alguna de las variables explicativas del modelo verdadero. En tal caso: (X0.X0)-1.X0.X = (X0.X0)-1.X0. [X0 ; Z] = (X0.X0)-1[X0.X0; X0.Z] = [Ir; (X0.X0)-1.X0.Z]. En consecuencia, sustituyendo esta ltima expresin en la esperanza del estimador, se tiene E(B0) = [Ir; (X0.X0)-1.X0.Z].B = Br + (X0.X0)-1.X0.Z.Bk-r, siendo vector de dimensin r x 1, donde Br y Bk-r denotan, respectivamente, los verdaderos vectores de coeficientes asociados a las variables en X0 y Z. De este modo las estimaciones MCO de los coeficientes de las variables X0 resultan sesgadas. En conclusin, debido a la omisin de las variables explicativas las estimaciones MCO de los coeficientes de las variables en X0 resultan sesgadas e inconsistentes [1], [8].

at

Sea X0 = (X; Z) donde X es la matriz habitual n x k de observaciones de variables explicativas, y Z es una matriz n x s. En este caso, en lugar de especificar el modelo correcto

se contempla la siguiente especificacin: Y = X.B1 + Z.B2 + U. Parecera que podramos tener la misma clase de problemas que los considerados bajo la omisin de las variables relevantes. Sin embargo, en realidad no es as. Podemos interpretar la omisin de un conjunto de variables relevantes como un resultado de imponer una restriccin incorrecta. Alternativamente, la omisin de variables relevantes equivale a la incorporacin de informacin incorrecta a la estimacin del modelo. En concreto, la omisin de Z equivale a la estimacin incorrecta de la ltima ecuacin de regresin sujeta a la restriccin B2 = 0. El previo anlisis nos muestra que la imposicin de una restriccin incorrecta produce sesgos. No obstante, supongamos que nuestro error es, simplemente la omisin de informacin que es correcta. La inclusin de variable irrelevantes Z en la regresin equivale a no imponer la restriccin anterior en el ltimo modelo con las k+s variables explicativas [3]. Pero la especificacin anterior no es incorrecta; simplemente no incorpora a la restriccin. Razonando as, podemos afirmar que la estimacin de los componentes del vector B1 es insesgada incluso bajo la restriccin de exclusin de Z. Para verlo ms formalmente, estimamos el modelo errneo, obtenindose [8]: B0 = (B1; B2) = (X0.X0)-1.X0.Y = (X0.X0)-1.X0.(X.B1 + U) = (X0.X0)-1.X0.X.B1 + (X0.X0)-1.X0.U.

ww w.

em

at

Supongamos ahora que se comete error de incluir como explicativas variables que no pertenecen al modelo.

Y = X.B1 + U,

ic a

1.c

Inclusin de variables superfluas

om

Por otra parte, se tiene que (X0.X0)-1.X0.X0 = Ik+s = (X0.X0)-1.[X0.X; X0.Z]. Entonces, (X0.X0)-1.X0.X = (Ikxk 0sxk). En consecuencia, tomando la esperanza del estimador, queda: E(B0) = (Ikxk 0sxk).B1 = (Bkx1 0sx1) E(B2) = 0sx1, lo cual demuestra la afirmacin anterior. Es ms, si la variable explicativa no contribuye en explicar la variabilidad de la variable endgena, su efecto correspondiente ser cero. Por consiguiente, debera esperarse que, al estimar el modelo, los coeficientes de variables respectivas no resultasen significativas en trminos absolutos, ni tampoco en trminos estadsticos. Por otra parte, una vez estimado el modelo Y = X.B1 + Z.B2 + U, el investigador procedera a estimar 2, dividiendo la suma cuadrtica de los errores por el nmero de grados de libertad del modelo estimado, es decir: s2 = e.e/(n k s). Ahora bien, las propiedades de la matriz M0 implican M0.X = M0.Z = 0N, por lo que, tomando la esperanza, queda: E(e.e) = 2.trM0 = (n k s).2. As pues, la varianza del trmino de error tambin es insesgado [8]: E[e.e/(n k s)] = 2. En conclusin, el estimador de MCO de los coeficientes asociados las variables X es insesgado, mientras que el estimador de los parmetros que acompaan a las variables Z (incorrectamente incluidas) tiene esperanza cero. Entonces, no sera deseable, generalmente, sobreajustar el modelo? La inclusin de variables irrelevantes no sesga el estimador MCO, pero s que hace que aumente la varianza con que se estiman los coeficientes de las variables explicativas verdaderamente relevantes, sobre los que perdemos, por consiguiente, la precisin. Por ltimo, aumentar la varianza de los coeficientes podramos creer equivocadamente que dichas variables no son importantes en explicar la evolucin de la variable endgena cuando lo que sucede es que la incorporacin de variables irrelevantes nos lleva a perder la precisin en la estimacin de los coeficientes de todas ellas las variables.

Errores en forma funcional


Diremos que se comete un error en la forma funcional cuando se especifica una relacin (que puede ser lineal, cuadrtica, cbica, exponencial, logartmica, etc.) y la verdadera relacin es diferente de la especificada. Una especificacin incorrecta en la forma funcional del modelo puede considerarse, en algunos casos, como la omisin de variables relevantes. Entonces, las consecuencias son las mismas que las que provoca la omisin de variables relevantes, es decir, los estimadores sern sesgados e inconsistentes (ver ejemplo 1 de la parte prctica con software). En general, un error en la forma funcional nos puede llevar a obtener trmino de perturbacin no esfrico (i.e., con heteroscedasticidad y/o autocorrelacin), as como al hecho de que la distribucin se aleje de la distribucin del trmino de perturbacin del modelo correctamente especificado. En consecuencia, es importante disponer de algn mtodo para detectar un posible error en la especificacin de la forma funcional. Uno de los contrastes ms utilizados es el contraste Reset, propuesto por Anscombe y Ramsey en los aos sesenta [1].

ww w.

at

em

at

ic a

1.c

om

Contraste Reset: Para realizar el contraste, partimos del modelo de regresin especificado en forma lineal: Yi = 1 + 2.X2i + ... + k.Xki + ui, i = 1, , n. A fin de comprobar si la forma funcional lineal es la adecuada seguiremos las etapas siguientes: 1. Estimamos el modelo en la forma funcional lineal y obtenemos la variable endgena ajustada la cual elevamos al cuadrado. 2. A continuacin se especifica la regresin auxiliar siguiente: Yi = 1 + 2.X2i + ... + k.Xki +.i2 + ui, i = 1, , n; donde se aade un regresor adicional al modelo original, el valor al cuadrado correspondiente a la variable endgena estimada en la etapa anterior. 3. Finalmente, estimamos el modelo de regresin auxiliar y contrastamos si el coeficiente asociado a la variable adicional, i2, es significativamente diferente de cero, en cuyo caso rechazamos la linealidad de la relacin. Contraste de MWD

Por otro lado, el anlisis de especificacin cuenta con la notable contribucin por parte de por MacKinnon, White y Davidson [7]. En concreto, se trata de un contraste de seleccin entre los modelos no aadidos (non-nested models), segn el cual bajo la hiptesis nula se especifica el modelo lineal, mientras que bajo alternativa, el no lineal. El dilema de dicha seleccin ha sido la eterna pregunta en el anlisis emprico. La elaboracin de la prueba de MacKinnon, White y Davidson (lo cual denominaremos, por brevedad, la prueba de MWD), permiti comparar dos modelos cualquiera y proponer aquel que mejor se ajustaba al criterio. Consideremos la siguiente situacin. Deseamos contrastar la hiptesis nula de que la relacin entre la variable endgena Y, y las variables explicativas puede definirse por la siguiente especificacin (posiblemente lineal)

ww w.

Y la hiptesis alternativa que postula una relacin mediante una especificacin distinta HA: Yt = gt(Zt,B) + u2t, Siendo Xt y Zt las t-simas observaciones de los vectores de variables explicativas. Para realizar el contraste, se construye, de forma artificial el siguiente modelo: HC: Yt = (1 - ).ft(Xt,A) + .gt(Zt,B) + ut, o bien Yt = ft(Xt,A) + .[gt(Zt,B) - ft(Xt,A)] + ut. Pero el modelo en s no es vlido, ya que, en general, los parmetros A, B y no son identificables. Por tanto, los autores propusieron estimar los parmetros del modelo compuesto en dos etapas. En la primera etapa, se trata de estimar los dos modelos, segn la hiptesis nula y la alternativa, por separado. Posteriormente, en la segunda etapa, se sustituyen los parmetros de A y B, obtenidos en la primera etapa, en el modelo compuesto a fin de realizar la estimacin del parmetro . A

at

em

H0: Yt = ft(Xt,A) + u1t,

at

ic a

1.c

om

tales efectos, generamos los residuos 1t, as como la diferencia wt = gt(Zt,B) - ft(Xt,A). A continuacin, estimamos el modelo: 1t = .wt + t. Si la estimacin de resulta estadsticamente significativa, rechazamos la hiptesis nula de la validez del modelo lineal. En caso contrario, la aceptamos. El contraste se basa en la premisa de que si el modelo lineal es vlido, entonces no puede predecirse a partir de los trminos procedentes del modelo no lineal.

CASOS PRCTICOS CON SOFTWARE___________________________________


Errores en forma funcional
Ejemplo 1. Especificacin incorrecta de la forma funcional del modelo. Se sabe que en un determinado sector de la economa la funcin de costes totales depende, de forma cbica, del volumen de output que se produce en ese sector: Yi = 1 + 2.Xi + 3.Xi2 + 4.Xi3 + ui, i = 1, , n, donde Yi denote coste total y Xi es output de la empresa i. Sin embargo, un grupo de investigacin decide la relacin existente entre el coste y el output errneamente especificar en forma lineal:

Observacin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

at

A fin de detectar el error cometido por el grupo de investigacin a la hora de especificar la forma funcional del modelo, recurrimos al contraste Reset. Se dispone de la informacin sobre 28 empresas. Los datos se muestran en la siguiente tabla:

em

at

Yi = 1 + 2.Xi + ui i = 1, ..., N.

ic a

Coste 493 410 451 723 329 432 294 270 311 194 640 217 272 401 196 238 269 256 605 246 222 204 356 378

1.c

om

Output 8,20 7,39 7,68 9,88 5,65 7,10 5,17 3,34 5,63 1,39 9,30 2,21 2,88 6,94 3,17 2,36 2,33 2,76 8,97 2,77 3,14 2,47 6,77 7,00

ww w.

25 26 27 28

177 263 549 267

1,69 4,41 8,60 4,71

A continuacin pasaremos a realizar las siguientes operaciones en el entorno de Minitab. Para ello, seleccionamos Stat > Regression > Regression :

ww w.

at

A continuacin completamos los campos segn se indica en la siguiente imagen:

em

at

ic a

1.c

om

Para guardar la variable endgena ajustada en la ventana anterior seleccionamos la opcin > Storage: y marcamos > Fits tal y como se indica:

ww w.

at

em

Esta opcin nos permite guardar el vector de valores ajustados de la variable endgena en la columna C3 de la hoja de trabajo (Worksheet) con el nombre FITS1, lo cual por el motivo de comodidad, cambiaremos al Ygorrro. A continuacin, generaremos dos nuevas variables elevando Ygorro al cuadrado y al cubo. Para ello seleccionamos Calc > Calculator y completamos los campos de manera siguiente:

at

ic a

1.c

om

As, hemos generado la variable endgena al cuadrado y la hemos denotado por Ygorro2. Para generar el coste total ajustado al cubo, repetimos el mismo procedimiento. Una vez generadas nuevas variables, pasaremos a estimar la siguiente regresin auxiliaria por MCO: Yi = 1 + 2.Xi + 3.i2 + 4.i3 + vi, i = 1, , n, Los resultados de la estimacin se presentan en el cuadro siguiente:

Regression Analysis
* Ygorro is highly correlated with other X variables * Ygorro has been removed from the equation The regression equation is Y = 167 + 98,6 X - 0,00597 Ygorro2 +0,000008 Ygorro3 Predictor Constant X Ygorro2 Ygorro3 S = 21,93 Coef 166,98 98,64 -0,005974 0,00000813 StDev 31,19 49,26 0,002684 0,00000239 T 5,35 2,00 -2,23 3,40 P 0,000 0,057 0,036 0,002

Analysis of Variance Source Regression Residual Error Total DF 3 24 27 SS 564209 11537 575747

ic a

1.c
MS 188070 481 F 391,22

om

R-Sq = 98,0%

R-Sq(adj) = 97,7%

El contraste Reset consiste en estudiar si en la regresin auxiliaria los parmetros 3 y 4 son estadsticamente distintos de cero. Atendiendo los resultados obtenidos destacamos la significacin estadstica de las variables Ygorro2 y de Ygorro3; consecuentemente, podemos rechazar la hiptesis nula de la linealidad del modelo. Por tanto, el investigador ha cometido un error en especificar una forma lineal cuando la verdadera relacin es cbica. Ejemplo 1. Seleccin entre el modelo lineal y el modelo log-lineal. Se desea a estudiar la demanda de rosas en una determinada regin de Espaa. Para ello, se utilizan las siguientes variables: Yt la cantidad de rosas vendidas (en docenas), X2t el precio promedio al por mayor de las rosas (euros, por docena), X3t el precio promedio al por mayor de los claveles, (en euros, por docena), X4t la renta media disponible familiar semanal (en euros) y X5t la variable tendencia que toma valores 1, 2, y as sucesivamente, durante el perodo 1991:3T 1995:2T . Se dispone de 16 observaciones trimestrales correspondientes al mismo perodo 1991:3T 1995:2T. Los datos aparecen en el la siguiente tabla: Obs. (X5) 1 2 3 4 5 6 7 8 Ao Trimestre 1991 3 1991 4 1992 1 1992 2 1992 3 1992 4 1993 1 1993 2 Y 11484 9348 8429 10079 9240 8862 6216 8253 X2 2,26 2,54 3,07 2,91 2,73 2,77 3,59 3,23 X3 3,49 2,85 4,06 3,64 3,21 3,66 3,76 3,49 X4 158,11 173,36 165,26 172,92 178,46 198,62 186,28 188,98

ww w.

at

em

at

P 0,000

9 10 11 12 13 14 15 16

1993 1993 1994 1994 1994 1994 1995 1995

3 4 1 2 3 4 1 2

8038 7476 5911 7950 6134 5868 3160 5872

2,60 2,89 3,77 3,64 2,82 2,96 4,24 3,69

3,13 3,20 3,65 3,60 2,94 3,12 3,58 3,53

180,49 183,33 181,87 185,00 184,00 188,20 175,67 188,00

Se pide considerar las siguientes funciones de demanda: Yt = 1 + 2.X2t + 3.X3t + 4.X4t + 5.X5t + ut, t = 1, , T; Ln(Yt) = 1 + 2.ln(X2t) + 3.ln(X3t) + 4.ln(X4t) + 5.ln(X5t) + wt, t = 1, , T; El objetivo de este ejercicio es familiarizarse con el contraste de forma funcional de la regresin. En concreto, se trata de la seleccin entre los modelos de regresin lineal y loglineal. Utilizaremos la prueba de MWD para escoger entre los dos modelos. Para ilustrar esta prueba, especificamos la hiptesis nula y la alternativa: H0: Modelo lineal: Y es una funcin lineal de las variables explicativas, X HA: Modelo Log-lineal: log(Y) es una funcin lineal de los logaritmos de los regresores, los logaritmos de las X.

Paso IV: Calculamos ALYgorro = Antilog(Lygorro). Paso V: Generamos w = ALYgorro - Ygorro. Paso VI: Efectuamos la regresin de 1t sobre la variable wt obtenida en la etapa anterior. Rechazamos H0 si el la estimacin de es estadsticamente significativa mediante la prueba t usual. A continuacin procedemos a realizar las operaciones relativas mediante el software. Paso I. La primera etapa consiste, pues, en estimar el modelo lineal; la estimacin MCO va el Minitab nos proporciona los siguientes resultados:

ww w.

Paso II: Generamos los residuos 1t = Yt t. Paso III: Estimamos el modelo log-lineal y obtenemos los valores Log(Y) estimados; los denominamos LYgorro.

at

em

at

Paso I: Estimamos el modelo lineal y obtenemos los valores Y estimados. Llamarlos (es decir, Ygorro).

ic a

1.c

A efectos del presente contraste, prefijamos el nivel de significacin = 0,1. Ahora bien, la prueba MWD comprende los siguientes pasos:

om

Regression Analysis
The regression equation is Y = 10816 - 2228 X2 + 1251 X3 + 6,3 X4 - 197 X5 Predictor Constant X2 X3 X4 X5 S = 969,9 Coef 10816 -2227,7 1251 6,28 -197,4 StDev 5988 920,5 1157 30,62 101,6 T 1,81 -2,42 1,08 0,21 -1,94 P 0,098 0,034 0,303 0,841 0,078

R-Sq = 83,5%

R-Sq(adj) = 77,5%

Analysis of Variance Source Regression Residual Error Total DF 4 11 15 SS 52249136 10347220 62596356 MS 13062284 940656 F 13,89 P 0,000

De forma simultnea, generamos , en la hoja de clculo de Minitab, los valores ajustados de la variable endgena, denotando por Ygorro. Paso II: Generamos, mediante la opcin > Calc > Calculator los residuos 1t = Yt t (u1gorro = Y Ygorro):

ww w.

at

em

at

ic a

1.c

om

Paso III. Para estimar el modelo log-lineal, realizamos la transformacin logartmica del modelo lineal. A tales efectos, utilizamos la opcin Minitab > Calc > Calculator:

Regression Analysis
The regression equation is LogY = 0,27 - 1,27 LogX2 + 0,937 LogX3 + 1,71 LogX4 - 0,182 LogX5 Predictor Constant LogX2 LogX3 LogX4 LogX5 S = 0,07334 Coef 0,272 -1,2736 0,9373 1,713 -0,1816 StDev 2,670 0,5266 0,6592 1,201 0,1279 T 0,10 -2,42 1,42 1,43 -1,42 P 0,921 0,034 0,183 0,181 0,183

R-Sq = 77,8%

ww w.

As, obtenemos la variable endgena en trminos logartmicos. De forma anloga, se transforman el resto de las variables. A continuacin, se estima el modelo log-lineal, los resultados mostrndose en el cuadro siguiente:

at

em

Analysis of Variance Source Regression Residual Error Total DF 4 11 15 SS 0,207272 0,059161 0,266433 MS 0,051818 0,005378 F 9,63 P 0,001

Simultneamente generamos los valores ajustados de la variable endgena, denotando por LYgorro.

at
R-Sq(adj) = 69,7%

ic a

1.c

om

Paso IV. Generamos la variable ALYgorro como antilogaritmo de la variable obtenida en la etapa anterior, LYgorro, por medio de > Calc > Calculator:

Paso VI. Regresamos los residuos del modelo lineal sobre la variable w. La estimacin nos proporciona los siguientes resultados:

Regression Analysis
The regression equation is u1gorro = 0,118 w Predictor Noconstant w Coef 0,1183 StDev 0,3090 T 0,38 P 0,707

S = 826,5 Analysis of Variance Source Regression Residual Error Total DF 1 15 16 SS 100089 10247131 10347220 MS 100089 683142 F 0,15 P 0,707

ww w.

Paso V: Generamos wt = ALYgorrot - Ygorrot.

at

em

at

ic a

1.c

om

A fin de contrastar la validez del modelo bajo la hiptesis nula, pasamos a realizar el contraste de significacin individual del trmino w. El p-valor asociado al estadstico de contraste es de 0,707 lo cual es muy superior al nivel = 0,1; por lo que el trmino no es significativo individualmente. Consecuentemente, no podemos rechazar la validez del modelo lineal. En definitiva, la evidencia emprica parece indicar que el modelo lineal es el preferible a la hora de explicar el comportamiento de la demanda de rosas.

ww w.

at

em

at

ic a

1.c

om