You are on page 1of 22

DOCTORADO I.L.R.

KLEIN
INTRODUCCIÓN A LA ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS
CON DATOS DE PANEL
Ramón Mahía
Marzo de 2000
1.- CUESTIONES GENERALES

1.A.- DEFINICIÓNES EN TORNO A LOS MODELOS DE DATOS DE PANEL

• La técnica se encuadra en el análisis de regresión, incluida en el conjunto de herramientas


multivariantes destinadas al análisis de la dependencia entre variables, medidas todas ellas (endógena
y exógenas) preferentemente en una escala estrictamente cuantitativa.

• El término modelo de datos de panel se aplica en este contexto a aquel modelo de regresión que
utiliza, para la estimación de los parámetros de interés, la variabilidad temporal y transversal de los
datos.

• Ejemplos de modelos con datos de panel podrían ser:

1. Un análisis de la influencia de determinadas variables (renta, tamaño familiar, composición


familiar) en el consumo alimenticio en las familias españolas utilizando los datos de la Encuesta
de Presupuestos Familiares correspondientes a diferentes momentos del tiempo.

2. Un análisis del cumplimiento de la hipótesis de la paridad del poder adquisitivo en los países de
la OCDE tomando los datos de precios y tipos de cambio nominales correspondientes a los
últimos 40 años.

• Generalmente, los paneles de datos se distinguen unos de otros según su amplitud transversal y
profundidad temporal. Así, los paneles con un número muy amplio de observaciones transversales
(ejemplo 1 anterior) se denominan Paneles Micro, mientras que los paneles centrados en una amplia
dimensión temporal se suelen denominar Paneles Macro. En el caso, realmente extraordinario, de
contar con un panel con amplia dimensión tanto temporal como transversal hablaríamos de un
“Campo Aleatorio” o Random Field.

• Así mismo, resulta habitual hablar de paneles de datos equilibrados cuando el número de
observaciones transversales es el mismo para cada período del tiempo y de paneles completos
cuando el número de observaciones temporales es el mismo para cada elemento del panel.

• Es importante dejar claro que, en sentido estricto, no son datos de panel los paneles rotatorios o la
mera agregación de cortes transversales independientes1. Para construir un elemento verdaderamente
útil de cara a la inferencia, se trata de que la variabilidad temporal y transversal corresponda a una
misma muestra de individuos para todas las observaciones. En este sentido, en el caso del análisis
empresarial, la gran heterogeneidad dificulta la construcción de verdaderos paneles.

1.B.- QUÉ JUSTIFICA EL INTERÉS POR LOS DATOS DE PANEL

• La utilización de datos de panel en lugar de series temporales se justifica por aprovechar la


variabilidad transversal. La identificación y estimación de los parámetros de una función de
respuesta explota la variación de las variables incluidas. Si las variables no presenta presentan
excesiva variabilidad temporal pero sí transversal, la aproximación con datos de panel aportaría
capacidad extra para esa estimación. Por ejemplo, si estamos interesados en describir el
comportamiento del flujo internacional de turistas de unas zonas a otras, seguramente
encontraremos variables con suficiente variación temporal como los movimientos de los tipos de
cambio bilaterales o la renta de los turistas, sin embargo, la influencia de variables como el clima,
no podrá observarse si no es comparando unos países con otros.

• La utilización de datos de panel en lugar de series transversales se justifica por aprovechar la


variabilidad temporal para:

1
A este tipo de conjuntos de datos se los denomina pseudo - paneles existiendo algunas formas de
aprovechar eficientemente su información entre las que destacan las propuestas por Deaton (1985).
1.- De modo simétrico a lo expuesto en el punto anterior, algunas variables pueden presentar
variabilidad temporal pero no transversal de modo que su efecto sólo podría captarse con
dimensión temporal.

2.- Si disponemos de más de un corte temporal para los mismos individuos, la búsqueda de la
eficiencia sugeriría una estimación con todo el panel de datos. En este sentido, resulta práctico
tener en mente la siguiente relación sencilla:

V (U )
V (β ) =
V (X )

3.- Por otro lado, disponer de más de una observación temporal permitirá controlar (separar) la
heterogeneidad transversal inobservable utilizando transformaciones apoyadas precisamente en
disponer de más de una observación temporal (diferencias simples, diferencias ortogonales ...)

• En algunos casos específicos, la introducción de la variabilidad transversal en procedimientos


clásicos de análisis meramente temporal, favorece las propiedades estadísticas de los procedimientos
de inferencia tradicionales. Así, por ejemplo, la potencia y propiedades asintóticas de los test de
integración y cointegración se ven claramente favorecidas cuando se combinan datos de corte
temporal y transversal, lo que justifica el actual interés por las líneas metodológicas que combinan
análisis de series temporales y utilización de variabilidad transversal.

1.C.- PRESENTACIÓN MATEMÁTICO–ESTADÍSTICA DE UN MODELO CON DATOS DE


PANEL

• Expresión general

Un modelo de datos de panel podría formularse en términos plenamente genéricos como:

y it = η it + β 1i x1it + β 2i x 2it + ..... + β ki x kit + v it

i=1,2....N
t=1,2...........T

permitiendo la presencia de múltiples parámetros individuales y temporales y una definición sin


restricciones sobre la composición y propiedades del vector de perturbaciones aleatorias . Sin embargo,
tal representación no resulta viable por lo que, generalmente, se recurre a formulaciones más restrictivas
tanto en términos paramétricos como con relación a los supuestos sobre el vector de observaciones.
Siguiendo a Johnston (1992) podemos ordenar 7 tipos de especificaciones en una “taxonomía” sobre los
modelos de datos de panel:

Supuestos sobre:
Modelo Ordenada Coeficientes Vector de
η”
en el origen “η de pendiente “ββ” perturbaciones “v”
I(a) Común en “i” y “t” Común en “i” y “t” Matriz de varianzas y covarianzas escalar
I(b) Común en “i” y “t” Común en “i” y “t” Matriz de varianzas y covarianzas NO escalar
II(a) Variando en “i” Común en “i” y “t” Efectos fijos
II(b) Variando en “i” Común en “i” y “t” Efectos aleatorios
III(a) Variando en “i” y “t” Común en “i” y “t” Efectos fijos
III(b) Variando en “i” y “t” Común en “i” y “t” Efectos aleatorios
IV Variando en “i” Variando en “t” Matriz de varianzas y covarianzas escalar o NO

• Modelo de “efectos fijos” y modelo de “efectos aleatorios”

De entre todos los modelos presentados en la tabla anterior, dos de ellos son los más utilizados
tradicionalmente: los modelos II(a) y II(b). El modelo II(a) se denomina “Modelo de efectos fijos” y el
modelo II(b) “Modelo de efectos aleatorios” haciendo referencia al modo en que se considera la
heterogeneidad inobservable transversal en su relación con la perturbación aleatoria.

Contrariamente a lo que podría parecer tras una lectura rápida de un buen número de textos
econométricos, de lo anterior debe deducirse que la diferencia entre efectos fijos o aleatorios no radica en
la morfología del modelo, que es siempre la siguiente:

y it = βx it + η i + v it

donde ηi representa la heterogeneidad transversal inobservable, sino que lo trascendental radica


en si esa heterogeneidad se considera fija, determinista, o por el contrario se define como la composición
de una parte fija común, más una aleatoria específica para cada individuo.

2.- ESTIMACIÓN CON DATOS DE PANEL ESTÁTICOS


2.A.- ESTIMACIÓN DEL MODELO II(A) DE EFECTOS FIJOS

Suponemos en este caso que existe heterogeneidad transversal inobservable, constante en el


tiempo de carácter no aleatorio y permitiremos la presencia de términos independientes diferentes ηi para
cada individuo del panel. En este contexto, la estrategia para la estimación de parámetros podría ser:

1.- Utilizar el estimador MCO tradicional sobre el modelo en niveles utilizando variables ficticias de
grupo. El problema es la gran cantidad de parámetros a estimar dada la gran cantidad de variables ficticias
a utilizar (N-1). Una de las ventajas de esta estrategia de estimación radica en que se obtienen de forma
direca intervalos de confianza para los efectos fijos estimados.

2.- Transformar el modelo en diferencias temporales clásicas y aplicar MCO. El defecto de este
método es que la transformación en diferencias provocaría la aparición de autocorrelación en los residuos
de las ecuaciones en diferencias (salvo en el caso T=2):

∆v 2 = v 2 − v1 
 → Cov(∆v t ∆v t −1 ) = −σ y V (∆v t ) = 2σ
2 2
∆v 3 = v 3 − v 2 

lo que podría resolverse recurriendo a una estimación MCG calculando previamente la nueva matriz
no escalar de varianzas y covarianzas Ω para “v” (suponiendo que no existía previamente autocorrelación
en “v”):

 2 −1 0 0
∑ ∆X ' Ω i
−1
∆Yi 
 −1 2 −1 0

β̂ = i
con Ω=
∑ ∆X ' Ω −1
∆X i 0 −1 O M
i  
0 0 L 2 
i

3.- Utilizar MCO sobre el modelo en desviaciones ortogonales. Las desviaciones ortogonales
implican una transformación sobre los datos X e Y equivalente a la ponderación Ω del producto X’Y del
procedimiento anterior.

4.- Utilizar el estimador MCO sobre el modelo en diferencias respecto a las medias grupales,

( y it − y i ) = β ( x it − xi ) + (vit − vi )
esta transformación permitiría concentrar la estimación en un único conjunto de parámetros “β”
pudiendo calcularse posteriormente los parámetros ηi individuales simplemente como:

ηˆ i = y i − βˆ1 x1i − βˆ 2 x 2i − .... − βˆ k x ki


Esta estrategia resulta generalmente válida por lo que es en la práctica la forma más común de
resolver la estimación de un modelo de efectos fijos. El estimador anterior, recibe el nombre de
Estimador Intragrupos por considerarse para su aplicación la desviación intragrupal para X e Y.
También recibe el nombre de estimador de efectos fijos o de covarianzas.

2.B.- ESTIMACIÓN DEL MODELO II(B) DE EFECTOS ALEATORIOS

En el modelo de efectos aleatorios se supone una sola ordenada en el origen “α” y las N
ordenadas específicas correspondientes a cada individuo del panel se integran en la perturbación aleatoria
de modo que:
v it = η i + ε it

por esta razón a estos modelos se les llama también modelos con errores compuestos (error
components models).

La estimación de los parámetros de un modelo de efectos aleatorios no requiere, como en el caso


de efectos fijos, diferencias o desviaciones o cualquier otra transformación que elimine la presencia del
efecto fijo “ηi”. Muy al contrario, junto con la estimación de los parámetros “α” y “β” interesa la
estimación diferenciada de la varianza de los efectos aleatorios ση dentro de la estimación global de la
varianza de la perturbación aleatoria, por lo que no conviene que el efecto “ηi” sea obviado en el
procedimiento de estimación. Llegados a este punto, podría pensarse en utilizar el estimador simple MCO
sobre el modelo en niveles:

y it = α + βx it + (η i + ε it )

Sin embargo, esta estrategia de estimación no resulta válida ya que la presencia de un efecto
temporalmente constante en la perturbación aleatoria “ηi” provoca autocorreación residual y modifica la
expresión tradicional de la varianza de la perturbación aleatoria. Así, la matriz de varianzas y covarianzas
de la perturbación queda:

σ η2 + σ ε2 σ η2 σ η2 σ η2  1 ρ ρ
ρ
   
 σ η2 σ η2+ σ ε2 σ η2 σ η2  2ρ 1 ρ
ρ
Ω=  =σv 
 ση
2
σ η2 O M  ρ ρ O M
 
 σ2 σ η2 σ η2 + σ ε2  ρ ρ L 1 
 η L 

con:
σ η2
ρ=
σ v2

Por tanto, la estrategia correcta consiste en usar MCG sobre el modelo en niveles utilizando
una estimación adecuada de la anterior matriz Ω. A este estimador se le denomina estimador Balestra-
Nerlove ó Estimador Entre Grupos, nombre este último que proviene de la equivalencia entre estos
resultados y los que se obtendrían planteando la estimación MCO entre las medias grupales de “y” y “x”.
Como siempre, debemos recordar que existe una transformación previa sobre los datos que permite su
correcta estimación simple por MCO evitando la utilización del estimador MCG (aunque nunca
eludiendo la estimación de las varianzas σ2η y σ2v).

La estimación Balestra - Nerlove requerirá por tanto necesariamente dos etapas:

1.- Estimación de un modelo previo del que utilizar los residuos para aproximar σ2η y σ2v.
Normalmente suele utilizarse, o bien una estimación MCO simple del modelo, con término independiente
“α” común, o bien una estimación del modelo con efectos fijos.

2.- Estimación de las varianzas σ2η y σ2v y aplicación del estimador MCG. Para este paso,
partiendo de:
v it = η i + ε it

utilizaremos una aproximación por descomposición tradicional de la varianza del siguiente


modo:

∑ (v
i ,t
it −v )2 =∑ (vit − vi )2 +∑ (vi − v )2
i ,t i ,t

Para el primer término, la media cuadrática intragrupal, tenemos que:

∑ (v
i ,t
it − v i )2 = ∑ (ε
i ,t
it − ε i )2

Utilizando ahora el concepto de cuasivarianza muestral que, supuesta la distribución N(0,σ2x)


para una muestra x1, x2,....xT nos dice que:


 ∑ (x − x i )2 
it

E  = σ x2
 T −1 
 
 

y aplicándolo a la perturbación ε, (supuesta la normalidad de la misma), tenemos que:

 
E ∑ (ε it − ε i )2  = N (T − 1)σ ε2
 i ,t 

Para el segundo término, de modo similar, escribiremos que::

∑ (v i −v )2 = ∑ (η i − η )2 + ∑ (ε i − ε )2 + 2∑ (η i − η )(ε i − ε )
i ,t i ,t i ,t i ,t

teniendo ahora:

 N 

E  (η i − η )2  = ( N − 1)σ η2
 i =1  2

 N 2
∑( ) σ ε2
E εi −ε  = ( N − 1)
 i =1  T

de modo que:

∑ (v
i ,t
i −v )2 = ( N − 1)Tσ η2 ( N − 1)σ ε2

En términos operativos el cálculo no resultaría complejo en cuanto que implicaría tan sólo el
cálculo inicial de σ2ε:

2
En la segunda de las expresiones se entiende que cada una de las εi que entran en la media se han
extraído de una población N(0/T,σ2ε/T)
∑ (vˆ )
2
it − vˆi
i ,t
σˆ ε2 =
N (T − 1)
y a continuación el de σ2η como:

∑ (vˆ )
1  T N 
σˆ η2 =  − vˆ
2
− σˆ ε2 
T  N −1 i 
 i =1 

2.C.- LA ELECCIÓN ENTRE EFECTOS FIJOS Y EFECTOS ALEATORIOS

Frente a esta pregunta, lo más importante es recordar que la elección entre uno u otro modelo no
puede tomarse basándonos exclusivamente en el resultado de un contraste estadístico de especificación
sino que debe apoyarse en las peculiaridad de la realidad del fenómeno analizado. Como señalan Arellano
y Bover (1990): “....Una costumbre muy extendida en el trabajo aplicado consiste en estimar ambos
modelos para a continuación contrastar si los efectos son fijos o aleatorios. Este es quizá el
malentendido mas extendido en este campo.....”

Para valorar la adecuación de uno u otro modelo a la realidad “institucional” del escenario
analizado deben considerarse, no obstante, una serie de cuestiones de orden técnico que pueden pasar
desapercibidas.

1.- El problema de la correlación entre la heterogeneidad inobservable ηi y los regresores


xit. En la mayor parte de las ocasiones, la importancia de un modelo de efectos fijos vendrá determinada,
no tanto por la variabilidad transversal, por la existencia de efectos diferenciales ηi constantes en el
tiempo, sino por su correlación con los regresores xit. En este sentido, los efectos individuales se pueden
considerar siempre aleatorio sin pérdida de generalidad.

Efectivamente, si partimos de un modelo pensado para un único corte transversal:

y i = α + βx i + (η i + ε i )

y existiese correlación entre xit y vit , la estimación por aproximación tradicional de regresión
permitiría obtener un β que sería el predictor óptimo β pero no el parámetro de simulación de efectos, es
decir, el verdadero valor del parámetro que determina la respuesta de “y” ante variaciones de las “x”.
Efectivamente, conviene recordar aquí que la identificación de los parámetros de una función de
respuesta en el modelo de regresión se apoya en las propiedades asumidas para la perturbación “u”
con relación a los regresores:
Cov p (u , x) = 0
E [U | X ] = 0 → Cov p (u, f ( x)) = 0
X Ι U = 0 → Cov p ( f (u ), f ( x)) = 0

en la medida en que estas propiedades sean razonables, los parámetros representarán realmente
la dependencia de “y” sobre “x”:

Cov p (u , x) = 0 → Cov( y − α − βx, x) = 0


Cov( x, y )
→ Cov( y, x) − βV ( x ) = 0 → β =
V ( x)
y, suponiendo además E[u]=0:

E [u ] = 0 → E [ y − α − βx ] = 0 → α = E [ y ] − βE [x ] = E [ y ] − E [x ]
Cov( x, y )
V ( x)

En un contexto puramente transversal o puramente temporal podríamos optar por un enfoque de


variables instrumentales en el que se sustituye:
Cov p (u , x) ≠ 0 → Cov p ( z , u ) = 0

siendo: Cov p ( z , x) ≠ 0 . Sin embargo, una solución alternativa consistiría en acudir a los datos
de panel de modo que, al combinar la dimensión temporal y transversal, pudiésemos neutralizar el efecto
de la correlación (x,u ). Esto es precisamente lo que se logra cuando, suponiendo que la correlación entre
x y ηi es constante en el tiempo, utilizamos el estimador Intra – Grupos en el modelo de efectos fijos
utilizando el panel para separar la variación transversal permanente. El único requisito adicional consiste
en que los regresores X presenten variación temporal.

Ejemplo – Caso Práctico (1): Supongamos que disponemos de un corte transversal y queremos estudiar
la relación entre el logaritmo de los ingresos, el nivel de educación y la habilidad del trabajador.
Suponiendo inobservable la habilidad, ¿aportaría alguna ventaja la incorporación de la dimensión
temporal?. Griliches. 1977.

Solución: NO. Ya que el nivel de educación no presenta variación transversal lo que impedirá incorporar
el efecto de la habilidad mediante la aplicación de estimadores IG o EG.

Ejemplo – Caso Práctico (2): Supongamos que disponemos de un corte transversal y queremos
relacionar las horas trabajadas con el salario percibido. Reconociendo la importancia y el carácter
inobservable de las percepciones acerca del flujo de salarios futuros sobre las horas trabajadas,
¿aportaría alguna ventaja la incorporación de la dimensión temporal?. MaCurdy, 1981.

Solución: SI. En primer lugar, dado que en este caso las variables pueden presentar suficiente variación
temporal, cabe pensar en incorporar esta dimensión. El problema consiste en que, dada la más que
probable relación entre salario percibido y expectativas futuras de salario, deberemos utilizar un
estimador IG por lo que perdemos la posibilidad de estimar el efecto de esta variable de expectativas
sobre las horas trabajadas.

2.- Si el estimador IG permite controlar el efecto de la heterogeneidad inobservable sobre


los parámetros “β β ”, ¿qué puede motivar el uso de un estimador tipo Balestra Nerlove?.

Imaginemos un corte transversal con heterogeneidad “ηi”. Una estimación en ese corte
transversal ya valdría para estimar “β” adecuadamente salvo que sospecháramos que “ηi” y “xi” están
correlacionadas en cuyo caso utilizaríamos un enfoque de VI. Imaginemos ahora que interesa añadir la
dimensión temporal por cualquiera de las razones previamente apuntadas y que podemos hacerlo dado
que xi presenta suficiente variación temporal. En ese caso, para asegurar las posibles distorsiones de una
hipotética relación “ηi” y “xit” estimaríamos siempre por IG eligiendo la opción más robusta: es decir, en
el caso en que realmente no existiese relación “ηi” “xit”, haber usado IG nos habría supuesto una pequeña
pérdida de eficiencia pero en cualquier caso tendríamos siempre un estimador consistente. ¿Qué puede
movernos a utilizar un estimador BN que no eliminará la presencia de “ηi”?

2.a.- La primera parte de la respuesta es obvia: que interesase considerar la influencia de ese
aspecto transversal ηi con carácter temporal permanente, sobre la variable endógena, estando seguros de
que la correlación entre ηi y xit no existiese.

Ejemplo – Caso Práctico (3): Supongamos que disponemos de un corte transversal y queremos
relacionar el input de una explotación agrícola con el output de la misma. En la perturbación aleatoria
quedarían “shocks” incontrolables como el régimen de lluvias u otros cambios climáticos. Sin embargo,
es posible que en la perturbación quedase incluido también un factor trascendental: la calidad del suelo.
Si esa calidad del suelo fuese cuantificable se incorporaría como una variable más pero, si fuese
inobservable, podríamos controlar su efecto incorporando la dimensión temporal ya que, ese efecto sería
constante en el tiempo. Pero además, suponiendo la ausencia de correlación entre calidad e input,
podríamos usar un estimador EG que permitiese diferenciar los efectos de la variable de CALIDAD DEL
SUELO, efectos inobservables de naturaleza permanente, de otros “shocks” también de carácter
inobservable, pero cuyo efecto se diluye en el tiempo. Mundlak, (1978)
En este sentido, y en un plano más formal, conviene observar que al permitir la presencia de ηi
en vit tenemos:

Cov ( y it , y it −1 ) = σ η2
σ η2
Corr ( y it , y it −1 ) =
σ η2 + σ v2

de modo que resultaría posible distinguir de la dinámica de yt debida a aspectos


inobservables, la parte intertemporal (permanente) de la transitoria.

2.b.- Además de la anterior consideración, y tal y como se apuntaba en la introducción a este


punto (2) debe tener en cuenta que existe además una razón de índole estadística. Efectivamente, en caso
de que el efecto ηi esté incorrelacionado con “x”, el estimador BN es mejor alternativa que el IG dado que
es el estimador eficiente. Sin embargo, si existe correlación entre “ηi” y “x”, este estimador BN es
inconsistente para “β”. Por el contrario, el estimador IG es consistente en ambos casos (más robusto)
aunque en el caso en que no exista correlación entre “ηi” y “xij”, es menos eficiente que BN.

2.D.- USO DEL CONTRASTE DE ESPECIFICACIÓN DE HAUSMAN

Una vez admitido que la decisión EF Vs. EA debe ser responsabilidad del modelizador, ¿cuándo
cederemos esa responsabilidad a un contraste estadístico como el test de Hausman?. En principio el
contraste de se aplicará sobre todo en el caso de no estar seguros de la relación entre “η” y “x” el
contraste de HAUSMAN sería pertinente.

En este sentido, el test de Hausman es un contraste clásico de robustez frente a eficiencia. Este
tipo de contrastes plantean siempre dos estimadores para un mismo conjunto de parámetros, uno robusto
θR consistente tanto en la hipótesis nula H0 como en la alternativa H1 (cualesquiera que sean) y otro
eficiente θE pero sólo bajo la hipótesis nula H0. Si, una vez calculados ambos, la diferencia observada
entre los dos estimadores (θR -θE) es escasa, se toma evidencia a favor de la hipótesis nula

En nuestro contexto los estimadores son θR=Intra-Grupos y θE=Balestra –Nerlove y la hipótesis


nula será que el efecto ηi esté incorrelacionado con xit (H0). Una vez estimados, para analizar si existe o
no correlación entre “η η” y “x” puede verse si hay diferencias significativas entre IG y BN. Si
estamos en H0 (ausencia de correlación) BN será consistente y IG también (aunque algo menos eficiente)
por lo que su parecido será significativo. Si estamos en H1, BN no será consistente por lo que su valor
podrá distar del valor de IG.

Formalmente, el test de Hausman se presenta como una χ2 formada por la diferencia relativa
entre las dos estimaciones alternativas relativizadas por la varianza de esa diferencia. Valores de la χ2
superiores a la referencia de tabla indican la presencia de correlación entre ηi y xit.

2.E.- EL PROBLEMA DEL SESGO POR ERROR DE MEDIDA EN LOS DATOS DE PANEL

El sesgo que cometemos ignorando la correlación entre “ηi” y “xit”, al no aplicar el estimador IG
viene definido precisamente por el tamaño de la covarianza que mide esa relación con respecto a la
variación de la “x”:

Cov( x it , η i )
β SESGADO = β +
V ( x it )

Sin embargo, y por otro lado, el sesgo por error de medida se amplifica en el caso de estimar un
modelo en diferencias (Intragrupos en el caso de T=2) respecto al caso en niveles y lo mismo ocurre,
aunque en menor medida, con un modelo en desviaciones respecto a las medias o en desviaciones
ortogonales (Estimador Intragrupos). La razón proviene de la forma del sesgo por error de medida:
EN NIVELES EN DIFERENCIAS
β β β β
= =
1+ V (ε ) 1+ V ( ∆ε ) (Vε t + Vε t −1 − 2Covε t ε t −1 ) (2Vε − 2Covε t ε t −1 )
V (∆x*) 1 + ( 1+
V ( x*) Vx t + Vx t −1 − 2Covx t x t −1 ) (2Vx − 2Covxt x t −1 )
A poco que la Cov(xtxt-1) sea mayor que la Cov(utut-1), cosa muy lógica, el
sesgo crece con relación al caso en niveles.

donde:
x = x * +ε

Al usar desviaciones ortogonales o a la media, esas covarianzas se desvanecen ya que no se tiene


en cuenta la Cov (xtxt-1) sino Cov (xt,Media....) por lo que el sesgo tiende al mismo valor que el caso en
niveles.

Si combinamos los dos puntos anteriores puede plantearse un problema: si al pasar de una
estimación en niveles a otra con IG el resultado es muy diferente ¿cómo sabemos si se trata de una
reducción del sesgo de efectos fijos por usar IG o una amplificación de un sesgo de error de medida ya
presente en la ecuación en niveles que se ha amplificado mucho al usar IG?. La solución es sencilla y
pasa por comparar IG con 1as diferencias: la estimación por MCO en primeras diferencias no está
sesgada por efecto de la correlación entre ηi y xit, otra cosa es que tenga autocorrelación y por tanto no
sea eficiente, pero el valor del parámetro debe ser similar al IG. Si no es así, una posible razón puede ser
la existencia de un sesgo por error de medida ya que la “amplificación si es mucho mayor en 1as
diferencias que en IG

En realidad, la combinación de sesgos no siempre es “a la baja”, y esto es peor aún, ya que en la


medida en que la correlación entre “η” y “x” fuese positiva y β también, los sesgos tenderían a
compensarse. Así, :

- en una estimación en niveles, los sesgos podrían compensarse y esto es bueno, porque reduciria
el error de aplicar esta estimación cuando no se debe

- en una estimación en diferencias o, en menor medida IG, la corrección del sesgo por efectos
fijos podría compensarse por el aumento de un sesgo previo por error de medida sin que se
notaran diferencias entre una estimación MCO en niveles y una IG.

Error de
medida SI NO
Efectos Fijos

- La estimación en niveles podría compensar los sesgos si - La estimación en niveles estará sesgada
Cov(η,x)>0 y β>0. Pero si estos dos signos son diferentes el al alza (si Co(η,x)>0) o a la baja (si
sesgo seguiría existiendo al alza (para β<0) y a la baja para Co(η,x)<0).
SI (β>0).
- La estimación en diferencias o IG
- La estimación en diferencias o IG solucionará todo sesgo de solucionará todo sesgo.
efectos fijos pero muy probablemente exacerbaría el sesgo por
error de medida.
- La estimación en niveles presentaría el sesgo por error de - La estimación en niveles no presentaría
medida. ningún sesgo.
NO
- La estimación en diferencias o IG sólo serviría para - La estimación en diferencias o IG no
exacerbar el sesgo por error de medida. presentaría ningún sesgo si bien tampoco
mejoraría la estimación en niveles.
BIBLIOGRAFÍA BÁSICA

Arellano, M. y Bond, S. (1988ª). ” Some Test of Especification for Panel data: Monte Carlo Evidence and
and an Application to Employment Equiations”. Applied Economics Discussion Papers 55, Oxford.

Arellano,M. y Bover, O. (1990). “La Econometría de Datos de Panel”. Investigaciones Económicas. Vol.
14. Nº 1. pp. 3-45.

Deaton, A. (1985). “Panel data from Times Series of Cross Sections”. Journal of Econometrics, 30. pp.
109-126.

Chamberlain, G. (1984). “panel data”. Z. Griliches and M.D. Intrilligator (editores). Handbook of
Econometrics, Vol. II. Elsevier Science.

Griliches, Z. (1977). “Estimating the returns of Schooling: some econometric problems”. Econométrica,
45, pp. 1- 22.

Hausman, J. A. (1978). “Specification tests in Econometrics”. Econometrica, 46, pp. 1251-1272.

Johnston, J. (1992). “Métodos de Econometría”. Ed. Vicens Vivens.

MaCurdy, T.E. (1981). “An Empirical Model of Labor Supply in a Life-Cycle Setting”. Journal of
Political Economy, 89, pp.1059-1085.

Mundlak, Y. (1978). “On the pooling of time series and cross section data”. Econometrica, 46, pp. 69-85.
DOCTORADO I.L.R. KLEIN
INTRODUCCIÓN A LOS MODELOS DINÁMICOS DE EFECTOS FIJOS
CON DATOS DE PANEL
Ramón Mahía
Marzo de 2000
1.- CUESTIONES GENERALES

1.A.- DEFINICIÓN Y CUESTIONES BÁSICAS EN TORNO A LOS MODELOS DINÁMICOS


CON DATOS DE PANEL

• Desde los trabajos iniciales de Balestra y Nerlove (1966), los modelos dinámicos de datos de panel
han jugado un importante papel en el análisis empírico reciente con datos de panel en economía, la
razón radica en la aparición cada vez más frecuente de paneles o pseudo – paneles con un número
relativamente largo de observaciones temporales, lo que permite centrar los esfuerzos de análisis en
la dimensión temporal de los paneles y su tratamiento.

• La extensión natural de los procedimientos tradicionales de series temporales al caso del modelo
dinámico de datos de panel presenta importantes limitaciones derivadas de que en el análisis de datos
de panel convencional se asume que el tamaño de la dimensión temporal “T” es fijo (y reducido)
mientras que el número de observaciones transversales tiende a infinito mientras que en el análisis de
series temporales la aproximación asintótica se establece en el otro sentido.

• El análisis de la dinamicidad en los modelos de datos de panel se centra en dos tipos de situaciones:
la estimación de modelos dinámicos de efectos fijos y la estimación de modelos dinámicos con
componentes de error. En el primer caso, los problemas de inferencia se centran en la correcta
estimación de los parámetros en ausencia de exogeneidad estricta mientras que, en el segundo caso,
los problemas se centran en distinguir la dinámica genuina del sistema (proveniente de la inclusión
de retardos de la endógena) de la provocada por la presencia de la heterogeneidad inobservable en la
perturbación aleatoria.

2.- ESTIMACIÓN DE MODELOS DE EFECTOS FIJOS CON DATOS DE


PANEL DINÁMICOS
2.A.- ESTIMACIÓN INTRAGRUPOS TRADICIONAL DE MODELOS DINÁMICOS

• El sesgo de Nickell nos indica que la estimación tradicional IG no sirve dado el carácter
endógeno de yit-1

Los resultados derivados por Nickell (1981), indican que, si se trata un modelo de panel dinámico de
efectos fijos:
y it = η i + αy it −1 + vit

ignorando su dinamicidad, la estimación intragrupos habitual resultará altamente sesgada, en


especial para T pequeño. Observando el ejemplo siguiente con T=3, puede entenderse el origen del sesgo:

NIVELES (Con T=3) DIFERENCIAS (Con T=3)


yi2=αyi1+ηi+vi2
∆yi3=α∆yi2+∆vi3
yi3=αyi2+ηi+vi3

1. Estimar en niveles es una mala idea ya que yit-1, como explicativa, no es ni siquiera una variable
predeterminada (por estar relacionada con vit-1) sino endógena, al estar relacionadas con los
valores presentes de (vit+ηi).

2. Si intentamos estimar en diferencias para eliminar la presencia del efecto fijo ηi a la manera de la
estrategia IG tenemos también correlación, en este caso entre ∆yi2 y ∆vi3 lo que provocará un
sesgo a la baja (la correlación entre ∆yi2 y ∆vi3 será negativa ya que estamos hablando de yi2-yi1
con vi3-vi2 de modo que la relación yi2 con –vi2 será negativa).

3. El sesgo es algo menor si planteamos el modelo en desviaciones con respecto a las medias
transversales pero aún así sigue existiendo para T pequeño (es decir, como en el caso de series
temporales, sólo tiende a cero a medida que T tiende a ∞). Por tanto, la única posibilidad es que
T sea suficientemente grande como para diluir el efecto.
El sesgo estimado por Nickell no es, ni mucho menos, despreciable. Por ejemplo, para el caso en
que α=0.25 y T=10 (nótese que T=10 es un tamaño aceptablemente grande en un panel micro), el sesgo
alcanzaría un valor en torno a 0.21, esto es, más de un 80% del verdadero valor del parámetro.

Sesgos asintóticos del estimador IntraGrupos


en un modelo autorregresivo simple

α
T/α 0.05 0.50 0.95
3 -0.52 -0.75 -0.97
4 -0.35 -0.54 -0.73
11 -0.11 -0.16 -0.26
16 -0.07 -0.11 -0.17

Ejemplo de combinación de una explicativa predeterminada + efectos fijos : el uso del “stock” de hijos
como explicativa de la participación de la mujer en el mercado laboral. Está claro que los “shocks” de
vit pasados (cierre de las empresas, promociones inesperadas....) habrán condicionado las decisiones
pasadas de fecundidad por lo que el “stock” actual de hijos estará en relación con los “shocks” pasados
(de modo que el stock de hijos es predeterminada). Si estimásemos en niveles pensando que no hay
efectos ηi correlacionados con el stock de hijos no habría problemas, pero si pensamos que sí existen
esos efectos fijos relacionados con el stocks de hijos (por ejemplo la educación, las preferencias por el
trabajo o la familia o la renta) al plantear la ecuación en diferencias para corregir el problema,
habremos introducido el sesgo comentado por ausencia de exogeneidad estricta en el “stock” de hijos.

• Por último, como problema adicional al del sesgo simple, si se considera además la presencia de
variables exógenas Xijt estimándose el modelo en desviaciones a la media:

~ ~
yt = α~
yt −1 + X t b + ε t

los resultados señalan que el sesgo en valor absoluto en la estimación del parámetro
autorregresivo α será todavía mayor que en el caso en que las variables xijt se omitan. Así mismo, la
estimación del parámetro o vector de parámetros b será también sesgada, siendo ese sesgo tanto más
amplio cuanto mayor sea la relación entre las variables exógenas xijt y el retardo de la endógena yt-1.

2.B.- EL MÉTODO GENERALIZADO DE MOMENTOS COMO ALTERNATIVA PARA LA


ESTIMACIÓN DEL MODELO DINÁMICO DE EFCTOS FIJOS

• Uso de VI en el contexto de los modelos de datos de panel dinámicos

Suponiendo T=3, tenemos el sistema de 2 ecuaciones en niveles:

y i 2 = µ i + αy i1 + vi 2
y i 3 = µ i + αy i 2 + vi 3

Para el control de ηi, se plantea la forma en diferencias para la que, en este caso, disponemos de una
sola ecuación:

∆y i 3 = α∆y i 2 + ∆vi 3

Lógicamente, el problema básico para la estimación del parámetro “α” por el método tradicional de
regresión en esta ecuación, es la existencia de correlación entre ∆yi2 y ∆vi3 . La estimación de variables
instrumentales, exigirá encontrar un instrumento incorrelacionado con ∆vi3 y, sin embargo,
correlacionado con la variable a la que deberá sustituir ∆yi2. El instrumento seleccionado, en este caso,
será el valor del nivel yi1, o sea, el retardo en niveles de la variable predeterminada, ya que,
guardando relación por construcción con ∆yi2= yi2 - yi1 no estará correlacionado sin embargo con ∆vi3. En
este caso (para T=3) el modelo estaría exactamente identificado al contar con una variable instrumental
(una condición de ortogonalidad) para la estimación de un solo parámetro.

∑y
i =1
i1 [ yi3 − y i 2 ]
α̂ AH = N

∑y
i =1
i1 [ y i 2 − y i1 ]

Es decir, en este caso no se usan, como en el caso en que xit sea exógena estricta, los niveles de las
exógenas como variables instrumentales en la ecuación en diferencias, sino los retardos de esas variables
en niveles, y esto es consecuencia directa de la NO exogeneidad estricta de yit-1.

• Uso tradicional de MGM en el contexto de los modelos de datos de panel dinámicos

La estimación por variables instrumentales ofrece una interpretación intuitiva sencilla del Método
Generalizado de Momentos introducido básicamente en los trabajos de Arellano. Efectivamente, el
estimador GMM vendría a ser un caso especial de estimación por variables instrumentales en el
que el sistema de ecuaciones e instrumentos estuviese sobreidentificado. En ese caso, dado que para la
estimación de un parámetro contaríamos con más de una restricción de momentos (condiciones de
ortogonalidad), el estimador GMM puede entenderse como una combinación lineal de todos los
estimadores obtenidos con cada una de esas condiciones, debidamente ponderados por la precisión de
cada una de ellos. A su vez, esa precisión dependerá del grado de correlación existente entre el
instrumento y la exógena y el instrumento y la perturbación aleatoria.

Observemos la aplicación de la técnica en el caso anteriormente descrito pero para T>3, es decir,
veamos la estrategia MGM sobre ecuación en diferencias. Recordando el uso de las variables
instrumentales, podemos asociar a cada una de las ecuaciones en diferencias para cada valor de “t” los
correspondientes instrumentos:

Instrumentos para un modelo


en 1as diferencias

Ecuaciones Instrumentos
∆y i 3 = α∆y i 2 + ∆ε i 3 yi1
∆y i 4 = α∆y i 3 + ∆ε i 4 yi1, yi2
· ·
· ·
∆y iT = α∆y i (T −1) + ∆ε iT yi1, yi2...... yi(T-2)

Definidos así instrumentos y ecuaciones, pueden plantearse conjuntamente las condiciones de


ortogonalidad derivadas de todos los instrumentos disponibles mediante la expresión matricial:

|
 y i1 0 L 0   ∆ε i 3 
0 y i1 , y i 2 L 0   ∆ε 
E [Z t ' ε t ] = 0 →    i4  = 0
 M M O 0   M 
   
 0 0 L y i1 , y i 2 ,... y i (T − 2)  ∆ε iT 

derivando la correspondiente expresión del estimador óptimo de “α”. Para ello, debe
considerarse que, si εit es una perturbación “ruido blanco”, sus diferencias εvit presentarán la matriz de
varianzas y covarianzas simétrica σ2H siguiente:
 2 −1 0 L 0
 1 2 
− −1 L 0
E [ε it ε it '] = σ H = σ  0 − 1 2
2 2
L 0
 
M M M O M
0 0 0 L 2

con lo que la expresión MCG del estimador sería:

−1

∑ y' Zt  ∑ Z ' HZ  ∑ Z ' y



t t ( −1)  t t t t t t
α̂ AH = −1
∑ y' Zt  ∑ Z ' HZ  ∑ Z ' y

t t ( −1)  t t t t t t ( −1)

• Otras formas del estimador MGM en el contexto de los modelos de datos de panel dinámicos

Cabe añadir ahora, que la estimación en diferencias, no es la única transformación que permite la
aplicación del estimador GMM antes descrito. Una transformación muy útil resulta la propuesta por
Arellano (1988) que considera las variables expresadas en desviaciones ortogonales, esto es, cada valor
de la variable menos todos sus adelantos (diferencia debidamente corregida para evitar la
heterogeneidad en varianza). Puede demostrarse que la estimación MCO aplicada sobre los datos en
desviaciones ortogonales utilizando los mismos instrumentos que en el caso anterior, conduce al
mismo resultado que la estimación MCG del modelo en primeras diferencias expuesta más arriba.
Sólo en el caso en que algunos de los instrumentos sean suprimidos los estimadores no serán
equivalentes.

Siendo indiferente una u otra transformación según lo visto, las desviaciones ortogonales son muy
recomendables, ya que pueden servir para suavizar algunos problemas colaterales. Así, por ejemplo, es
bien conocido que el sesgo sobre el parámetro estimado derivado de un eventual error de medida en las
variables, puede quedar amplificado por la transformación del modelo y que este problema es mucho más
grave cuando se utilizan diferencias que cuando se utilizan desviaciones ortogonales.

En términos generales puede afirmarse que el método de variables instrumentales y GMM


resulta sorprendentemente flexible para eludir con relativa sencillez todo tipo de eventualidades que
aparezcan en un determinado ejercicio de especificación. La base del método consiste en la adecuada
selección de instrumentos conforme a las propiedades observadas en las variables con las que tratamos.
Esta selección no podrá realizarse de forma automática sino que, muy al contrario, requerirá la plena
implicación del investigador, que deberá definir detalladamente el modelo teórico considerado incluyendo
la posible existencia de errores de medida, autocorrelación residual, heterogeneidad observable,
variabilidad exclusivamente temporal, etc.... Sólo en ese caso, será posible una adecuada selección de
instrumentos para cada parámetro a estimar. Por ese motivo, el propio Arellano, prefiere referirse al
“Método” de Variables Instrumentales y no al “Estimador” de variables instrumentales.

• Algunas situaciones especiales de selección de variables instrumentales para el uso del MGM

1. Cuando la raíz “α” está muy cercana a la unidad, la relación entre diferencias e instrumentos en
niveles es muy escasa. Una de las soluciones que se propone es completar la anterior estimación
en diferencias con VI en niveles con una ecuación en niveles utilizando como VI las diferencias
de yit-1. Por ejemplo, para T=5 tenemos el siguiente conjunto de ecuaciones e instrumentos:

Instrumentos para un modelo


en 1as diferencias

Ecuaciones en diferencias Instrumentos


∆y i 3 = α∆y i 2 + ∆ε i 3 yi1
∆y i 4 = α∆y i 3 + ∆ε i 4 yi1, yi2
∆y i 5 = α∆yi 4 + ∆ε i 5 yi1, yi2, yi3
Ecuaciones en diferencias Instrumentos
y i 3 = αyi 2 + η i + ε i 3 ∆yi2=yi2- yi1
y i 4 = αyi 3 + η i + ε i 4 ∆yi3=yi3- yi2
y i 5 = αyi 4 + ηi + ε i 5 ∆yi4=yi4- yi3

Esta alternativa no se ha utilizado anteriormente porque, para ponerla en práctica, es necesario


suponer:

E [ y it ,η i ] = cte.

de modo que E [∆y it ,ηi ] = 0 pudiendo funcionar ∆yit-1 como instrumento. Este requisito
supone una restricción de estacionariedad en media del proceso sobre yit por lo que sólo resulta
interesante utilizarlo, bien cuando T sea excesivamente pequeño, bien cuando estemos seguros de
que el proceso yit presenta una raíz unitaria cercana a la unidad.

2. La presencia de autocorrelación en la perturbación aleatoria complica la selección de variables


instrumentales y debe ser tenida siempre en cuenta. Esto se debe al hecho simple de que la
autocorrelación alarga la correlación entre explicativas y perturbación aleatoria. Así, por ejemplo, si
suponemos que existe un proceso autoregresivo de orden 1 (AR(1)) en la perturbación aleatoria, los
instrumentos a considerar para la estimación de la ecuación en diferencias deben retardarse un
período adicional al inicialmente considerado.
Arellano, M. (1988). “An alternative Transformation for Fixed Effects Models with Predetermined
Variables”. Applied Economics Discussion Paper, 57. Oxford

Arellano, M. y Bover, O. (1990). “La Econometría de Datos de Panel”. Investigaciones Económicas. Vol.
14. Nº 1. pp. 3-45.

Nickell, S. (1981). “Biases in Dynamic Models with Fixed Effects”. Econometrica, 49, pp 1417-26.
DOCTORADO I.L.R. KLEIN
BREVE NOTA SOBRE LOS MODELOS DINÁMICOS DE EFECTOS
ALETORIOS CON DATOS DE PANEL
Ramón Mahía
Abril de 2000
pg. 1

1.- DINÁMICA Y EFECTOS ALEATORIOS

1.A.- FORMACIÓN DE LA DINÁMICA EN LOS MODELOS DE SERIES TEMPORALES CON


COMPONENTES DE ERROR

Como ya se apuntó al inicio del anterior documento de trabajo, el análisis de la dinamicidad en


los modelos de datos de panel con componentes de error se centra en distinguir la dinámica genuina del
sistema de la provocada por la presencia de la heterogeneidad inobservable en la perturbación aleatoria.

Efectivamente, el modelo de efectos aleatorios consideraba genéricamente un término de error


compuesto por un componente transversal ηi y una perturbación aleatoria esférica εi:

y it = α + βx it + (η i + ε it )

Esta composición del error provoca una forma particular de autocorrelación en yit; efectivamente
suponiendo el modelo simple:
y it = η i + ε it

con η i → iid (0, σ η2 ) y ε i → iid (0, σ ε2 ) , es fácil ver como:

Cov( y it , y it −1 ) = σ η2
σ η2 λ
Corr ( y it , y it −1 ) = =
σ +σ
2
η
2
ε λ +1
σ η2
con λ= .
σ ε2

Supongamos sin embargo ahora una determinada inercia en el proceso yit . Para representar esa
inercia, utilicemos el anterior modelo estático permitiendo autocorrelación en el error, esto es:

ε it = αε it −1 + ω it
α <1
ω it → iid (0, σ ω2 )

La dinámica inducida por esta perturbación autocorrelacionada puede observarse con una
sencilla sustitución recursiva:

y it = η i + ε it → y it = η i + αε it −1 + ω it →
y it = η i + α ( y it −1 − η i ) + ω it → y it = αy it −1 + η i (1 − α ) + ω it

Pues bien, el problema se deriva de que, en esta nueva situación, la autocorrelación de primer
orden para yit nos da la expresión:

(1 − α )λ
Corr ( y it , y it −1 ) = ρ = α +
λ + (1 − α ) (1 + α )

de modo que:

- si α=0 estamos en el caso de un modelo sin dinámica inducida por εit


- si α=1 estamos en el caso en el que toda la dinámica viene de la mano de εit
pg. 2

Para observar la dificultad de la distinción de una y otra fuente de dinamicidad, llamemos:

Modelo (1) Modelo (2)


y it = η i + ε it y it = ε it Modelo (3) = Modelo(1)+ Modelo(2)
εit Sin Autocorrelación εit Autocorrelacionado

Supongamos que tenemos un conjunto de datos de panel corto (t=2) y calculamos “ρ”, la
correlación entre yit e yit-1 y obtenemos el valor ρ=0.8. Si pensamos en términos de un modelo (2),
pensamos en α=0.8; si pensamos en términos de un modelo (1), pensamos en λ=4 (la varianza del efecto
fijo es cuatro veces más grande que la varianza del efecto temporal) ; pero, si pensamos en términos de
un modelo (3) ¿qué valor damos a λ y cuál a α?. La distinción, sin embargo, es fundamental en
términos de análisis ya que en el modelo (2) hablamos de “inercia” y en modelo (1) de heterogeneidad
inobservable.

Utilizando un panel sectorial se pretende ajustar una función de producción. Supuesta una determinada
inercia observada en la producción la podría ser: ¿los shocks producidos en períodos anteriores, por
ejemplo, por cambios tecnológicos, están influyendo todavía en la producción actual presente o esa
inercia proviene de cierta heterogeneidad sectorial inobservable incluida en la perturbación aleatoria?.

1.B.- CÓMO SE DISTINGUE LA AUTOCORRELACIÓN APARENTE DE LA GENUINA

En un contexto de series temporales, la autocorrelación de orden 1 proviene de un cálculo del


tipo:

y11 y12 + y12 y13 + L + y1T −1 y1T


T −1
mientras que en el modelo de panel, si tenemos T=2, lo que hacemos al calcular la correlación
entre y1 e y2 es:

y11 y12 + y 21 y 22 + L + y N 1 y N 2
N
razón por la que un cálculo de este tipo puede dificultar la percepción aislada de α y λ. El punto
clave consistirá, por tanto, en disponer de un número de observaciones temporales T lo
suficientemente grande como para aproximar el tipo de autocorrelación temporal para cada
individuo del panel.

Efectivamente, basta con que T=3 para que los modelos (1) y (2) definidos previamente no sean
observacionalmente equivalentes lo que permite distinguir si la autocorrelación es transversal o proviene
de la perturbación εit. Concretamente, para T=3, sabemos que en el caso del modelo (2) ρ=α y ρ2=α2
mientras que, en el caso del modelo (1) ρ=ρ2=λ/(1+λ) por lo que resultará fácil distinguir un caso de otro.

Lo anterior tiene una salvedad importante y es aquella situación en la que α está muy próximo a
la unidad (raíz unitaria). Efectivamente, en los paneles micro suele observarse que ρ está próximo a uno
lo que invita a pensar en una raíz unitaria y, sin embargo, tras descomponerse ρ se observa , por ejemplo,
α=0.8 y λ=4, que aleja la hipótesis de raíz unitaria.

1.B.- CÓMO SE AFRONTA LA ESTIMACIÓN DE UN MODELO DE EFECTOS ALEATORIOS


CON AUTOCORRELACIÓN

Ya escribimos antes que el modelo:

y it = η i + ε it

con:
pg. 3

ε it = αε it −1 + ω it

puede reescribirse como:

y it = αy it −1 + η i (1 − α ) + ω it ⇒ y it = αy it −1 + η i* + ω it

por lo tanto, todo lo que vimos sobre estimación con variables instrumentales en presencia de
variables predeterminadas sirve ahora de nuevo con la salvedad de que ahora nos interesa también la
estimación separada de la varianza de εit y ηi (o sea, el conocimiento del parámetro λ). En ese sentido, de
cara a aproximarnos correctamente a la estimación del verdadero parámetro ηi deberemos especificar
previamente la forma de autocorrelación supuesta para εit.

1.C.- BREVE NOTA SOBRE LA DIFERENCIA ENTRE UN MODELO CON INERCIA


DERIVADA DE LA AUTOCORRELACIÓN Y UN MODELO DINÁMICO EN SENTIDO
ESTRICTO.

Llegados a este punto, quizá convenga recordar la diferencia entre un modelo dinámico, de
retardos distribuidos o de ajuste parcial de un modelo de inercia por autocorrelación como el
considerado anteriormente.

En el primer caso, el modelo sería del tipo:

y it = αy it −1 + βxit + ω it
ω i → iid (0, σ ω2 )

Como puede observarse, los valores de X influyen en diversos momentos actuales y futuros del
tiempo (es decir xit-1 no sólo influyó “β” en yit-1 sino también “αβ” en yit ,”α2β” en yit+1).

En el segundo caso, el modelo es:

y it = γx it + ε it

con:
ε it = αε it −1 + ω it

de modo que puede escribirse como:

y it = γxit + αε it −1 + ω it ⇒ y it = γxit + α ( y it −1 − γxit −1 ) + ω it ⇒


y it = γx it + αy it −1 − αγx it −1 + ω it

Aparentemente el modelo es parecido, de hecho, el único término que diferencia al uno del otro
es la presencia de αγxit-1. Sin embargo, la implicación en términos de comportamiento si es muy
diferente. En el segundo modelo, el efecto dinámico viene dado por los cambios en εit pero respecto al
regresor xit se trata de un proceso estático. De hecho, la dinámica es sólo aparente ya que, si calculamos
el coeficiente a largo plazo de xit sobre yit observaremos que es sólo γ (supuesto α<1).

La confusión es importante cuando se traslada al plano conceptual: si estamos interesados en una


función de producción, pensar en una función dinámica es difícil dado el nivel de agregación de los datos
de inputs y outputs (si este año no hay inputs no habrá outputs por mucho que en t-1 los haya habido), el
marco natural parece estático. Sin embargo, si la perturbación está autocorrelacionada ¿debemos ignorar
la inercia que introduce?. En teoría, el ignorarla permite obtener una estimación consistente de “γ” para xit
(siempre y cuando xit y εit estén incorrelacionados). Si uno tiene pocos datos y la estimación de “γ” fuera
muy imprecisa, a lo mejor podemos mejorarla modelizando la autocorrelación aunque la estimación sea
menos robusta porque dependerá del modelo de autocorrelación asumido.