You are on page 1of 60

Captulo 1

Elementos de Predicci
on en Series
de Tiempo
En este captulo se revisa la teora de prediccion y se introduce la idea de
proyecci
on lineal en series de tiempo.1

1.1.

Predicciones basadas en Esperanzas Condicionales

Se requiere predecir el valor de Yt+1 (escalar) usando un conjunto de variables


Xt observadas en t.
Por ejemplo, podra interesarnos predecir Yt utilizando sus m valores mas recientes. En este caso, Xt podra contener una constante y Yt , Yt1 , ,Ytm+1 .

la prediccion de Yt+1 basada en Xt . Para evaluar la utilidad de esta


Sea Yt+1|t

:
prediccion usaremos el Error Cuadr
atico Medio (M SE) asociado a Yt+1|t

M SE(Yt+1|t
) E(Yt+1 Yt+1|t
)2

El M SE es una funcion de perdida cuadratica, que permite resumir cuanto nos


preocupa que la prediccion se aleje en un monto particular.

Proposition 1.1.1. (Prediccion Optima)


La prediccion con el MSE mas peque
no
es la esperanza condicional:

= E(Yt+1 |Xt )
Yt+1|t

Ver la demostracion en Hamilton (1994), p. 73.

El M SE de la prediccion optima Yt+1|t


= E(Yt+1 |Xt ) es:

)2
M SE(Yt+1|t
) E(Yt+1 Yt+1|t

= E[Yt+1 E(Yt+1 |Xt )]2


1

Estas notas de clase se basan en Hamilton (1994)

EN SERIES DE TIEMPO
CAPITULO 1. ELEMENTOS DE PREDICCION

1.2.

Predicciones basadas en Proyecciones Lineales

Una proyecci
on lineal es una prediccion formada a partir de una funcion
lineal de valores pasados.

Si la prediccion de Yt+1|t
es una funcion lineal de Xt , se puede escribir como:

Yt+1|t
= 0 Xt

La prediccion 0 Xt se denomina proyecci


on lineal de Yt+1 sobre Xt si es tal
que el error de prediccion (Yt+1 0 Xt ) no esta correlacionado con Xt :
0

E[(Yt+1 0 Xt )Xt ] = 0

(1.1)

Proposition 1.2.1. (Proyeccion Lineal Optima)


La proyeccion lineal genera el
menor MSE dentro del grupo de reglas de prediccion lineal.
Demostracion: Hamilton, p.74
La proyeccion lineal de Yt+1 sobre Xt se denota como:
P (Yt+1 |Xt ) = 0 Xt
donde satisface 1.1. Alternativamente, podemos escribir:
Yt+1|t = 0 Xt
Es importante notar que P (Yt+1 |Xt ) es la mejor prediccion dentro del grupo de
predicciones lineales, pero no necesariamente es la mejor prediccion general. La
mejor prediccion es la esperanza condicional, E(Yt+1 |Xt ). Por tanto:
M SE[P (Yt+1 |Xt )] M SE[E(Yt+1 |Xt )]
En la mayora de aplicaciones se incluira un termino constante en la proyeccion.
En este caso la notacion es:
t+1 |Xt )
P (Yt+1 |1, Xt ) E(Y

1.2.1.

Propiedades de las proyecciones lineales:

El coeficiente de proyeccion puede calcularse a partir de:


E[(Yt+1 0 Xt )Xt0 ] = 00
que es una condicion que tiene que satisfacer.

LINEAL
1.3. ACTUALIZANDO UNA PROYECCION

Operando esta expresion se obtiene:


E[(Yt+1 Xt0 0 Xt Xt0 ]
E(Yt+1 Xt0 ) 0 E(Xt Xt0 )
0 E(Xt Xt0 )
0

=
=
=
=

00
00
E(Yt+1 Xt0 )
E(Yt+1 Xt0 )[E(Xt Xt0 )]1

El MSE asociado a la proyeccion lineal 0 Xt es:


0

E(Yt+1 Xt )2 = E(Yt+1 )2 2E( Xt Yt+1 ) + E( Xt Xt )


Al reemplazar el vector de coeficientes de la proyeccion lineal se obtiene:
E(Yt+1 0 Xt )2 = E(Yt+1 )2 E(Yt+1 Xt0 )[E(Xt Xt0 )]1 E(Xt Yt+1 )

1.2.2.

Proyecci
on lineal y OLS

Las formulas de una regresion Mnimos Cuadrados Ordinarios (OLS) pueden


verse como caso especial de las formulas de una proyeccion lineal. 2
Resultado Importante: La regresion de Yt+1 sobre Xt genera un estimado
consistente del coeficiente de proyeccion lineal, solo si el proceso estocastico
{Xt , Yt+1 } es estacionario en covarianzas y ergodico para los segundos momentos. As,
1. La regresion OLS Yt = 0 Xt + ut es un resumen de una muestra particular
de observaciones (X1 , , Xt ) y (Y2 , Y3 , , Yt+1 ).
2. La proyeccion lineal 0 Xt es un resumen de las caractersticas poblacionales
del proceso estocastico {(Xt , Yt+1 )}
T =
En el caso de proyeccion lineal solo nos preocupa predecir. Por lo tanto, no
importa mucho si X causa a Y o Y causa a X. Solo se necesitan sus movimientos
historicos observados (resumidos en E(Xt Yt+1 )) para calcular una prediccion.

1.3.

Actualizando una Proyecci


on Lineal

Siguiendo a Hamilton(1994)3 , considere un vector aleatorio (n1) Y = (Y1 , Y2 , , Yn )0 ,


con una matriz de segundos momentos :
= E(Y Y 0 )
cuyo elemento tpico es ij .
2
3

Ver Hamilton, Apendice 4.A


P
aginas 92-95.

EN SERIES DE TIEMPO
CAPITULO 1. ELEMENTOS DE PREDICCION
La prediccion de Y3 usando solo informacion de Y1 y basada en una proyeccion
lineal es:
P (Y3 |Y1 ) = 31 1
11 Y1
La prediccion de Y2 usando solo informacion de Y1 y basada en una proyeccion
lineal es:
P (Y2 |Y1 ) = 21 1
11 Y1
Dada la prediccion P (Y3 |Y1 ), Y2 representa informacion nueva con la que se
puede actualizar P (Y3 |Y1 ). Como se muestra en Hamilton(1994), es posible actualizar optimamente la prediccion inicial P (Y3 |Y1 ) a
nadiendole un m
ultiplo del
componente no anticipado de la nueva informacion:
P (Y3 |Y2 , Y1 ) = P (Y3 |Y1 ) + [Y2 P (Y2 |Y1 )]
donde [Y2 P (Y2 |Y1 )] es el componente no anticipado de la nueva informacion,
y {E[Y3 P (Y3 |Y1 )].[Y2 P (Y2 |Y1 )]}{E[Y2 P (Y2 |Y1 )]2 }1 es el m
ultiplo
asociado.
El m
ultiplo puede interpretarse como el coeficiente de Y2 de una proyeccion
lineal de Y3 sobre Y2 e Y1 .
En el caso general, considere un conjunto de variables contenidas en el vector de
Y1 (n 1) y otro contenido en Y2 (n 1), con una matriz de segundos momentos
expresada en forma particionada:

 

E(Y1 Y10 ) E(Y1 Y20 )
11 12
=
=
E(Y2 Y10 ) E(Y2 Y20 )
21 22
donde 11 (n1 n1 ), 22 (n2 n2 ), 12 (n1 n2 ) y 21 = 012 .
La forma de actualizar un proyeccion lineal en este caso general es:
1
P (Y3 |Y2 , Y1 ) = P (Y3 |Y1 ) + H32 H22
[Y2 P (Y2 |Y1 )]

donde:
H22 = E{[Y2 P (Y2 |Y1 )][Y2 P (Y2 |Y1 )]0 }
H32 = E{[Y3 P (Y3 |Y1 )][Y2 P (Y2 |Y1 )]0 }
El M SE de esta prediccion es:
M SE[P (Y3 |Y2 , Y1 )] = E{[Y3 P (Y3 |Y2 , Y1 )][Y3 P (Y3 |Y2 , Y1 )]0 }
1
= H33 H32 H22
H23
donde:
H33 = E{[Y3 P (Y3 |Y1 )][Y3 P (Y3 |Y1 )]0 }

1.4. LEY DE PROYECCIONES ITERADAS

1.4.

Ley de Proyecciones Iteradas

Que pasa si la proyeccion P (Y3 |Y2 , Y1 ) se proyecta a su vez sobre Y1 ?


La Ley de Proyecciones Iteradas dice que esta proyeccion es igual a la
proyeccion simple de Y3 sobre Y1 :
P [P (Y3 |Y2 , Y1 )|Y1 ] = P (Y3 |Y1 )

EN SERIES DE TIEMPO
CAPITULO 1. ELEMENTOS DE PREDICCION

Captulo 2
Vectores Autoregresivos (VARs)
2.1.

Especificaci
on de un modelo VAR

Sea t un vector (n 1) que contiene errores ruido blanco:


E(t ) = 0

, para t =
0
E(t ) =
0, otro caso

(2.1)

donde es una matriz (n n) positivo definida.


Un vector autoregresivo de orden p o VAR(p) esta definido como:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t

(2.2)

donde yt es un vector (n 1), c un vector (n 1) de constantes y j matrices


(n n) de coeficientes autorregresivos, para j = 1, 2, , p.
(1)

Sea ci el iesimo elemento del vector c y ij el elemento ubicado en la fila i,


columna j de la matriz 1 . La primera fila del sistema vectorial 2.2 es:
(1)

(1)

(1)

y1,t = c1 + 11 y1,t1 + 12 y2,t1 + + 1n yn,t1


(2)

(2)

(2)

+11 y1,t2 + 12 y2,t2 + + 1n yn,t2 +


(p)

(p)

(p)

+11 y1,tp + 12 y2,tp + + 1n yn,tp + 1t


Un vector autorregresivo o VAR es un sistema en el que cada variable se regresiona sobre una constante, p de sus propios rezagos y p rezagos de cada una de
las variables restantes.
Usando el operador de rezagos:
[In 1 L 1 L2 1 Lp ]yt = c + t
(L)yt = c + t
7

(2.3)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

(L) es un polinomio matricial (nxn) en L. La fila i, columna j de (L) es un


polinomio escalar en L:
ij (L) = [ij 1ij L2 ij L2 pij Lp ]

(2.4)

donde ij = 1 si i = j y cero en otro caso.


Un proceso vectorial yt es estacionario en covarianzas si E(yt ) y E(yt ytj ) son
independientes del tiempo.
Si yt es estacionario, la media del proceso se obtiene:
= c + 1 + + p + E(t )
= [In 1 p ]1 c

(2.5)
(2.6)

Usando , el VAR puede escribirse como desviaciones respecto de su media:


(yt ) = 1 (yt1 ) + + p (ytp ) + t

2.1.1.

(2.7)

VAR(p) escrito como VAR(1)

un modelo VAR(p) puede ser escrito como un VAR(1). Para ello, se define:

yt
yt1

(np1) =
(2.8)

..

.
ytp+1

F(npnp)

1 2
In 0
0 In
..
..
.
.
0 0

p1 p

0
0

0
0

..
..

.
.
In
0

vt = ...
0

(2.9)

(2.10)

Entonces el modelo VAR(p) puede escribirse como el siguiente VAR(1):


t = t1 + vt
donde,
E(vt vt0 )


=

Q, para t =
0, otro caso

(2.11)

VMA()
2.2. REPRESENTACION

y donde:

Q(npnp)

0 0
0 0 0

..

.
0 0 0

(2.12)

Como se vera en el siguiente captulo, esta es la ecuacion de estado de la representacion estado-espacio de un VAR.

2.1.2.

Condiciones para la estacionariedad

La ecuacion 2.11 implica que:


t+s = vt+s + F vt+s1 + F 2 vt+s2 + + F s1 vt+1 + F s t

(2.13)

Proposici
on: Los valores propios de F definida en la ecuacion 2.9 satisfacen:
|In p 1 p1 2 p2 p | = 0

(2.14)

Un VAR(p) es estacionario en covarianzas (EC) si todos los que satisfacen la


ecuacion 16 son tales que || < 1.
Equivalentemente, un VAR(p) es EC si todos los valores z que satisfacen:
|In 1 z 2 z 2 p z p | = 0

(2.15)

estan fuera del crculo unitario.

2.2.

Representaci
on VMA()

Un vector autoregresivo puede expresarse como un vector de medias moviles


infinito, el cual sera denotado como VMA().
En general, es posible encontrar dos tipos generales de representaciones VMA(),
que se diferencian por el tipo de errores o perturbaciones que contienen, los
cuales pueden ser ortogonales o no.

2.2.1.

VMA() y errores no ortogonales

Las primeras n filas del sistema vectorial:


t+s = vt+s + F vt+s1 + F 2 vt+s2 + + F s1 vt+1 + F s t
estan dadas por:
yt+s = + t+s + 1 t+s1 + 2 t+s2 + + s1 t+1
(s)

(s)

(s)

+F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 )

(2.16)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

10

(j)

(j)

La matriz j = F11 , donde F11 denota el bloque superior izquierdo de F j de


orden (nxn). En general:

j
F

j
(j)
(j)
1 2 p1 p
F11 F12

..
In 0
0
0
..
.
.

0 In
0
0 .
..
.
..
..
..
..
.
.

.
.
.
.
..
..
.
.
0 0
In
0

(j)

(j)

F1,p1 F1,p
..
..

.
.
..
..

.
.
..
..

.
.

Si los valores propios de F estan dentro del crculo unitario, entonces:


lm F s = 0,

y por lo tanto:
yt = + t + 1 t1 + 2 t2 + + (L)t

(2.17)

que se denomina representacion M A() vectorial o VMA().


Notese que ytj es una funcion lineal de tj , tj1 , , los cuales no estan
correlacionados con t+1 para j = 0, 1, 2, . Dado esto, se sigue que t+1 no
esta correlacionado con ytj para cualquier j 0
Por lo tanto, la prediccion lineal de yt+1 sobre la base de yt , yt1 , , esta dada
por:
yt+1|t = + 1 (yt ) + 2 (yt1 ) + + p (ytp+1 )
y t+1 puede interpretarse como la innovacion fundamental de yt+1 ; es decir, el
error de predecir yt+1 en base a una funcion lineal de una constante, yt , yt1 ,....
De forma mas general, a partir de la ecuacion 2.18, la predicion de yt+s basada
en yt , yt1 , ... tomara la siguiente forma:
(s)

(s)

(s)

yt+s|t = + F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 )

(2.18)

(j)

Las matrices del componente MA, j F11 pueden calcularse de forma alternativa.
(i) Notese que (L) = (L)1
[In 1 L p Lp ]yt
(L)yt
yt
yt

= c + t
= c + t
= (L)1 c + (L)1 t
= + (L)t

(2.19)

VMA()
2.2. REPRESENTACION

11

(ii) Esto implica que:


[In 1 L p Lp ][In + 1 L + 2 L2 + ] = In
de donde:
1 1 = 0
2 = 1 1 + 2
..
.
s = 1 s1 + 2 s2 + + p sp ,

(2.20)

para s = 1, 2, donde: 0 = In y s = 0 para s < 0.

2.2.2.

VMA() y errores ortogonales

Notese que la innovacion en la representacion VMA() es t , la innovacion


fundamental de y. Sin embargo, existen representaciones de medias moviles
infinitas basadas en procesos ruido blanco diferentes a t .
Sea H una matriz no singular de orden (nxn), y defina: ut Ht . Evidentemente ut es ruido blanco. Mas a
un, es posible escribir:
yt = + t + 1 t1 + 2 t2 + + (L)t
como:
yt = + H 1 Ht + 1 H 1 Ht1 + 2 H 1 Ht2 +
= u + J0 ut + J1 ut1 + J2 ut2 +

(2.21)

donde: Js s H 1 .
Un ejemplo usual es una matriz H que diagonaliza , la matriz de varianza y
covarianzas de t :
HH 0 = D
En este caso, ut es tal que sus componentes no estan correlacionados:
E(ut u0t ) = E(Ht 0t H 0 )
= HE(t 0t )H 0
= HH 0
=D

(2.22)

As, siempre es posible escribir un proceso VAR(p) estacionario como un promedio movil infinito convergente de un vector ruido blanco ut cuyos elementos no
estan mutuamente correlacionados.

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

12

Existe una diferencia importante entre las representaciones VMA():


yt + (L)t = + t + 1 t1 + 2 t2 +

(2.23)

yt = + J0 ut + J1 ut1 + J2 ut2 +

(2.24)

y,

dado por el hecho que 0 = I 6= J0 . As, para obtener la representacion VMA


para las innovaciones fundamentales, se debe imponer la normalizacion J0 = In .

2.3.

Supuestos implcitos

Para un proceso estacionario en covarianzas, los parametros c, 1 , 2 , ,p


de:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
pueden ser definidos como los coeficientes de la proyeccion de yt sobre una
constante e yt1 , , ytp .
De esta forma, t no esta correlacionado con yt1 , , ytp por la definicion de
1 , ,p . Por ello, los parametros de un VAR pueden ser estimados consistentemente con n regresiones mnimos cuadrados (OLS).
El supuesto adicional implcito es que t definido por esta proyeccion no esta correlacionado con ytp1 , ytp2 ,
El supuesto que yt esta descrita por un proceso VAR significa que p rezagos son
suficientes para resumir todas las correlaciones dinamicas entre los elementos
de yt .

POR MAXIMA

2.4. ESTIMACION
VEROSIMILITUD

2.4.

13

Estimaci
on por M
axima Verosimilitud

Considere un vector yt de orden (n 1) que contiene los valores de n variables


en el instante t. Asuma que la dinamica del vector yt esta descrita por un vector
autrorregresivo Gausiano de orden p o VAR(p):
yt = c + 1 yt1 + 2 yt2 + + p ytp + t

(2.25)

donde t i.i.d.N (0, ), c es un vector (n 1) de constantes y j matrices


(n 1) de coeficientes autorregresivos, para j = 1, 2, , p. Ademas:

, para t =
0
E(t ) =
0, otro caso
donde es una matriz (n n) positivo definida.
Asuma se han observado estas n variables durante T +p perodos. La estimacion
por Maxima Verosimilitud (ML) puede basarse en las u
ltimas T observaciones
(y1 , y2 , , yT ) condicionando la informacion sobre las primeras p observaciones
(y0 , y1 , , yp+2 , yp+1 ).
El objetivo es formar la funcion de verosimilitud condicional:
fYt ,Yt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt , yt1 , , y1 |y0 , y1 , , yp+1 ; )

(2.26)

y maximizarla respecto del vector , el cual contiene los elementos de c, 1 , 2 , , p


y .
La estimacion de los VARs no utiliza la funcion de verosimilitud incondicional
de toda la muestra sino solo la funcion de verosimilitud condicional.
La funcion de verosimilitud se calcula de forma similar al caso escalar:
yt | yt1 , yt2 , , ytp+1 N [(c + 1 yt1 + 2 yt2
+ + p ytp ), ]

(2.27)

que puede escribirse como:


0

yt | yt1 , yt2 , , ytp+1 N [ xt , ]

(2.28)

donde xt contiene el termino constante y p rezagos de cada elemento de y:

1
yt1

yt2
xt

..
.
ytp [(np+1)1]
0

ademas es una matriz [n (np + 1)]:




0
c 1 2 p

(2.29)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

14

La densidad condicional de la t-esima observacion es:


fYt ,Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , ytp+1 ; )
n
1
1
=(2) 2 |1 | 2 exp[( )(yt 0 xt )0 1 (yt 0 xt )]
2

(2.30)

La densidad conjunta de las observaciones 1 hasta t condicionadas a y0 , yt1 , ,


yp+1 satisface:
fYt ,Yt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt , yt1 , , y1 |y0 , y1 , , yp+1 ; )
= fYt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt1 , , y1 |y0 , y1 , , yp+1 )
.fYt |Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , yp+1 )

(2.31)

Aplicando recursivamente esta formula, la verosimilitud para la muestra completa yt , yt1 , ,y1 condicionada a y0 , y1 , yp+1 es:
fYT ,YT 1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yT , yT 1 , , y1 |y0 , y1 , , yp+1 )
=

T
Y

fYt |Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , yp+1 ; )

(2.32)

t=1

La funcion de verosimilitud muestral en logaritmos (o log verosimilitud) es:


 

T 
X
1
1
n
1
0
0
1
0
L() =
log(2) 2 | | 2 exp
(yt xt ) (yt xt )
2
t=1
T

Tn
T
1X
L() = log(2) + log|1 |
(yt 0 xt )0 1 (yt 0 xt )]]
2
2
2 t=1
(2.33)

2.4.1.

Estimador ML de

M L es:
El estimador
0

[n(np+1)] =

T
X

!
yt x0t

t=1

T
X

!1
xt x0t

(2.34)

t=1

M L puede interpretarse como el analogo muestral de la proyeccion lineal pobla


cional de yt sobre una constante y xt .
0 es:
La fila j de

j0 =

T
X
t=1

!
yjt x0t

T
X

!1
xt x0t

(2.35)

t=1

que representa el vector de coeficientes estimados a traves de una regresion OLS


de yjt sobre xt .

POR MAXIMA

2.4. ESTIMACION
VEROSIMILITUD

15

De esta forma, los estimadores ML de los coeficientes de la j-esima ecuacion de


un VAR se encuentran estimando una regresion OLS de yjt contra una constante
y p rezagos de todas las variables del sistema.
Acontinuacion, se presenta una demostracion del resultado.
Demostraci
on:
0 = 0 minimiza el termino PT (yt 0 xt )0 1 (yt 0 xt )
Se demostrara que
t=1
y, por lo tanto, maximiza L().
P
Expandimos el termino Tt=1 (yt 0 xt )0 1 (yt 0 xt ).
=

T 
X
t=1
T 
X

0 xt +
0 x t 0 xt
yt
)0 xt
t + (

0

0



0 xt +
0 xt 0 xt
1 yt



)0 xt
1 t + (

(2.36)

t=1

0 xt representa el vector de residuos muestrales para la t-esima


donde t y
observacion de las regresiones OLS de yjt sobre xt para j = 1, 2, , n.
Expandiendo la suma se obtiene:
T h
i
X
0
)0 xt + x0 (
)1 (
)0 xt
)1 t + 0 1 (
=
t 1 t + x0t (
t
t
t=1

T
X

T
X

t t + 2

t=1

!
0

)0 xt
t (
1

T
X

t=1

)1 (
)0 xt
x0t (

t=1

(2.37)
El termino

PT

t
t=1
T
X

)0 xt es cero:
(

0
)0 xt = tr
t 1 (

t=1

T
X

!
0
)0 xt
t 1 (

t=1

T
X
t=1
T
X

 0

1
0
tr t ( ) xt


)0 xt 0t
tr 1 (

t=1

)0
= tr 1 (

T
X
t=1

!
0

xt t

(2.38)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

16

Los residuos muestrales de una regresion


POLS son ortogonales a las variables explicativas (por construccion); es decir, Tt=1 xt jt = 0 para todo j = 1, 2, , n
P
0
y por lo tanto Tt=1 xt t = 0.
As, dado que

t 1 (
t=1

PT

)0 xt = 0 se obtiene:

T
T
T
X
X

 X
0
1
0
0 1
0
)1 (
)0 xt
x0t (
(yt xt ) (yt xt ) =
t t +
t=1

t=1

t=1

(2.39)
0

) xt , el u
Si se define xt (
ltimo termino se puede expresar como:
T
X

)1 (
)0 xt =
xt (
0

T
X
0
(xt ) 1 xt

(2.40)

t=1

t=1

Dado que es positivo definida, 1Ptambien lo es. As, para cualquier secuencia
0
{xt }Tt=1 , no nula (xt ) 1 xt > 0 y Tt=1 (xt )1 xt > 0.
De esta forma, el valor mas peque
no que puede alcanzar (1.17) es cuando xt = 0,
= .
es decir,
es el estimador ML.
Por lo tanto, =

2.4.2.

Estimador ML de

Resultados importantes
Sea A una matriz no simetrica e irrestricta. Considere la forma cuadratica x0 Ax
para un vector x(n 1) y el determinante de A, |A|. Entonces,
x0 Ax
= xx0
A
log|A|
= (A0 )1
A

(2.41)
(2.42)

Ver Hamilton (1994, p 204-295) para una demostracion.


ML
Obtenci
on de
la funcion de verosimilitud es:
Cuando se evalua L() en ,
T

X
= T n log(2) + T log|1 | 1
L(, )
0 1 t
2
2
2 t=1 t

(2.43)

POR MAXIMA

2.4. ESTIMACION
VEROSIMILITUD

17

La primera derivada de la funcion respecto de 1 es:


T

L(, )
T log|1 | 1 X 0t 1 t
=

1
1
2 t=1 1
T

T
1X 0
t t
[(1 )0 ]1
2
2 t=1

(2.44)

Condicion de primer orden (FOC) para encontrar un irrestricto que maximice


se obtiene igualando a cero la derivada:
L(, )
T

T 0 1 X 0
t t
=
2
2 t=1
T
1X 0
0

t t
=
T t=1

(2.45)

El valor de optimo e irrestricto es una matriz simetrica y positivo definida:


0 = 1 (PT t 0 )0 = 1 PT t 0
Simetrica:
t
t
t=1
t=1
T
T
PT
PT
0
0
0
0
0
Positivo defina: t=1 t t = t=1 t t = zt zt , donde zt t t 6= 0.
esta dado por:
El elemento (i, i) de
T
1X 2
=

T t=1 it

(2.46)

T
1X
=
it jt
T t=1

(2.47)

ii2
es:
y el elemento (i, j) de

ij2

que es el producto promedio de los residuos OLS de la variable i y los residuos


OLS de la variable j.
ML y
M L son consistentes a pesar de que las innovaciones
Los estimadores
puede basarse en las
son no-Gausianas. Ademas, los errores estandar para
formulas convencionales OLS.
En las siguientes dos subsecciones se presentan dos proposiciones que establecen
y

la distribucion asintotica de

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

18

Distribuci
on Asint
otica de

2.4.3.

Proposition 2.4.1. (Distribucion Asintotica de )


Sea el siguiente vector autoregresivo:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
donde t es un vector (n 1) que se distribuye independiente e identicamente con
media 0, varianza y E(it jt lt mt ) < para todo i,j,l,m, y donde las races de
|In 1 z 2 z 2 p z p | = 0

(2.48)

estan fuera del crculo unitario. Sea k np + 1 y xt el siguiente vector (1 k)




0
0
0
0
xt 1 yt1 yt2 ytp
(2.49)
t ) el vector (nk 1) de coeficientes que se obtienen de regresiones OLS
Sea
T =vec(
de cada uno de los elementos de yt sobre xt para una muestra de tama
no T :

1,T

2,T

T ..
.

n,T
donde

i,T =

T
X

!1
xt x0t

t=1

T
X

!
xt yit

(2.50)

t=1

y denota el vector (nk 1) de los coeficientes poblacionales correspondientes. Finalmente, sea


T
1X 0

T =
t t
T t=1

(2.51)

donde


0
t = 1t 2t nt
0

it = yit xt
i,T
Entonces:
1.

P
1
xt x0 t
T

Q, donde Q = E(xt xt )

2.
T
P
T
3.


L
4. T (
T ) N 0, [ Q1 ]

(2.52)

POR MAXIMA

2.4. ESTIMACION
VEROSIMILITUD

2.4.4.

19

Distribuci
on Asint
otica de

Dado que es una matriz simetrica, algunos de sus elementos se repiten. Para
evitar la repeticion, se usa el operadorvech.
Dada un matriz (n n), el operador vec la transforma en un vector (n2 1)
que contiene las columnas originales apiladas. Por ejemplo:

11


21
11 12

vec
=
(2.53)
12
21 22
22
Por otro lado,
 vech transforma una matriz(n n) en un vec el operador
n(n+1)
tor columna [ 2 ] 1 apilando verticalmente los elementos de la diagonal
principal o debajo de ella. Por ejemplo:

11
21

11 12 13
31

=
vech 21 22 23
(2.54)

22

31 32 33
32
33

Proposition 2.4.2. (Distribucion Asintotica de )


Sea el siguiente vector autoregresivo:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
donde t es un vector (n 1) que se distribuye independiente e identicamente
con media 0, varianza y E(it , jt , lt , mt ) < para todo i,j,l,m, y donde
las races de
|In 1 z 2 z 2 p z p | = 0
T y Q iguales a la definicion de la
estan fuera del crculo unitario. Sean
T ,
Proposicion 2.4.1. Entonces:

  



1
T
[

]
0
(

Q
)
0
L
T

P
vech()] N
0
0
T [vech()
22
Sea ij el elemento (i,j) de ; por ejemplo, 11 es la varianza de it . Entonces,
el elemento de 22 que representa la covarianza entre
ij y
lm es (il jm im jl )
para todo i, j, l, m = 1, 2 , n, incluyendo i = j = l = m.
Por ejemplo para n = 2

2
2

11,T 11
0 211
211 12
212

L
2
12,T 12 N 0 211 12 11 22 + 12
212 22
T
2
2

22,T 22
0
12
212 22
222

(2.55)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

20

2.5.

Prueba de Hip
otesis en un modelo VAR

Para llevar a cabo pruebas de hipotesis en un modelo de vectores autorregresivos


es posible utilizar las pruebas convencionales t y F , as como tambien pruebas
asintoticas.

2.5.1.

Pruebas convencionales t y F



L
A partir de T (
T
)N 0, ( Q1 ) , se puede obtener la expresion para
los coeficientes de la i-esima regresion del VAR:

T (
i,T
i ) N [0, i2 Q1 ]

(2.56)

donde i2 = E(2it ).
Los terminos i2 y Q1 pueden ser estimados consistentemente usando:

i2

T
1 X 2
=

T t=1 it

1 =
Q
T

T
1X
xt x0t
T t=1

!1
(2.57)

Dado esto,
i puede ser tratado aproximadamente como:

i N i ,
i2

T
X

!1
xt x0t

(2.58)

t=1

Esta expresion es la formula convencional OLS de los terminos de la varianza, reemplanzando s2i por
i2 . Aunque ambos estimadores son asintoticamente
equivalentes, siguiendo el argumento de Sims(1980) -que se vera mas adelantees preferible usar los errores estandar OLS que son mas grandes.
As, la proposicion establece que los estadsticos OLS t y F aplicados a cualquier
ecuacion del VAR son asintoticamente validos.

2.5.2.

Prueba del Ratio de Verosimilitud

Primero necesitamos calcular el valor maximo de la funcion de verosimilitud:


T

X 0
Tn
T

1 | 1
1 t
L(,
) = (log2) + log|

2
2
2 t=1 t

(2.59)


2.5. PRUEBA DE HIPOTESIS
EN UN MODELO VAR
El termino

1
2

0
1 t
t
t=1

PT

es igual a

21

Tn
:
2

T
T
X
1 X 0 1
1
0
1 t
t t = tr
t
2 t=1
2
t=1

1 X  0 1 
tr t t
=
2 t=1
T

=
=
=
=
=

1 X  1 0 
tr t t
2 t=1
1  1 
tr T
2
1
tr(T In )
2
1
tr(In )
2
nT
2

(2.60)

Por lo tanto:
1 | T n
)
= nT log2 + T log|
L(,
2
2
2

(2.61)

Usualmente, se requiere determinar si un modelo VAR necesita p1 rezagos o


p0 < p rezagos.
En este caso, la estructura de la prueba de hipotesis sera:
Hipotesis Nula
: n2 (p1 p0 ) parametros son cero
Hipotesis Alternativa : al menos uno no es cero.

Estadstico de Prueba : LR 2(L


 1 Lo )

0 | log|
1 | 2 (n2 (p1 p0 ))
LR = T log|


Regla de Rechazo
: Si LR > 20,0,5 (n2 (p1 p0 )) ,
se rechaza la hipotesis nula al 5 % de significancia.
Notese que el calculo del estadstico de prueba LR requiere del uso de las
funciones de verosimilitud asociadas a los modelos irrectricto y restringido:
Tn
log(2) +
2
0 , 0 ) = L (
0 ) = T n log(2) +
L0 (
0
2
1 , 1 ) = L (
1) =
L1 (
1

y el hecho que |1 | =

1
.
||

T
1 |
log|
1
2
T
1 |
log|
0
2

Tn
2
Tn
2

(2.62)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

22

Sims(1980) sugiere una modificacion a la prueba LR para tomar en cuenta el


sesgo para muestra peque
na.

0 | log|
1 |} 2 n2 (p1 p0 )
(2.63)
LR (T ){log|
donde =(1 + np1 ) es el n
umero de parametros estimados por ecuacion. Este
estadstico modificado tiene menos probabilidades de rechazar la hipotesis nula
en muestras peque
nas en comparacion al original.

2.5.3.

Prueba de Wald

Es posible usar una generalizacion de la prueba de Wald basada en la estimacion


por OLS y el estadstico 2 para llevar a cabo pruebas hipotesis generales de la
forma R = r, lo cual involucra coeficientes entre diferentes ecuaciones.
La proposicion 2.4.1 establece que:


L
T (
T ) N 0, Q1

(2.64)

lo cual bajo la hipotesis nula se convierte en:

L
T (R
T r) N (0, R( Q1 )R0 )

(2.65)

Manipulando esta expresion se obtiene el siguiente estadstico con distribucion


2 :

!1 1
T
X
0
R0 (R
T r) 2 (m)
2 (m) = (R
T r)0 R T
xt xt
t=1

(2.66)
donde m es el n
umero de filas de R, el cual indica el n
umero de restricciones
evaluadas.
Demostraci
on
Si se incorpora la restriccion en la distribucion lmite de
T se obtiene:

L
T (R
T r) N (0, R( Q1 )R0 )
1
L
r)
N (0, In )
[R( Q1 )R0 ] 2 T (R)
L

T (R
T r)0 {R( Q1 )R0 }(R
T r) (m)

(2.67)

T = 1 PT t 0 y Q por
Si reemplazamos por un estimador consitente
t
t=1
T
PT
0
1
T
QT = T t=1 xt xt , la expresion resultante converge en probabilidad a T (R
0
0 0
1
r) {R( Q )R } (R
T r) y por lo tanto:
n
 0 o0
0
L
1
T (R
T r) R QT R (R
T r) 2( m)


2.5. PRUEBA DE HIPOTESIS
EN UN MODELO VAR

23

Al introducir T al termino Q1
T se cancela con T y por tanto:

!1 1
T
X
0
0
1
R0 (R
xt xt
T r)
(R
T r) R
T t=1

!1 1
T
X
0
0

R0 (R
= (R
T r) R
T r)
xt xt
t=1

Muchas veces es u
til escribir la matriz R como un producto Kronecker:
R = Rn Rk

(2.68)

donde Rn selecciona las ecuaciones involucradas y Rk selecciona los coeficientes.


Ejemplo 1
Se requiere analizar la hipotesis de que el termino constante en la primera
ecuacion del VAR es igual al termino constante en la segunda ecuacion, es decir
c1 = c2 .
R es un vector(1 nk) que contiene 1 en la primera posicion, y 1 en la (k + 1)esima posicion:


R = 1 0 0 1 0 0 0
En este ejemplo, R = Rn Rk requiere:


Rn = 1 1 0 0 0


Rk = 1 1 0 0 0
Luego se calcula la siguiente expresion:

!1
T
X
0

R0
R
xt xt
t=1

= (Rn Rk )

T
X

!1
0

xt xt

(Rn Rk )0

t=1

k0 ) Rk
= (Rn R

T
X

!1
0

xt xt

Rk

t=1

= (
12 2
12 +
22 ) ( 11 )
donde
12 es la covarianza entre 1t y 2t , y 11 es el elemento (1, 1) de

(2.69)
P

T
t=1

xt xt

1

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

24

Dado que 11 es una escalar, el operador se convierte en una multiplicacion


simple. De esta forma, el estadstico 2m para este ejemplo es:
21

(
c1 c2 )2
= 2
(1 212 + 22 ) 11

(2.70)

Ejemplo 2
para el caso n = 2:
Considere la distribucion asintotica de

2
2

11,T 11
211 12
212
0 211

L
2
212 22
12,T 12 N 0 211 12 11 22 + 12
T
2
2
0
12
212 22
222

22,T 22

(2.71)

Una prueba de Wald de la hipotesis nula que no existe covarianza entre 1t y


2t esta dada por:

T
12
N (0, 1)
(2.72)
2 12
(
11
22 +
12
)
Una prueba del Wald para la hipotesis nula que 1t y 2t tienen la misma varianza
es:
T (
11
22 )2
2(1)
2
2
2
2
11
4
12
+ 2
22

(2.73)

2.6. PRUEBA DE CAUSALIDAD A LA GRANGER

2.6.

25

Prueba de Causalidad a la Granger

Una de las preguntas clave que pueden ser analizadas utilizando vectores autoregresivos es que tan u
tiles son algunas variables para predecir otras.
Granger(1969) propone una forma de analizar la relacion entre dos variables en
terminos de prediccion, la cual fue popularizada por Sims(1972).

2.6.1.

Causalidad Bivariada a la Granger

El proposito es analizar si un escalar y puede ayudar a predecir otro escalar x.


Si no contribuye, se dice que y no causa en el sentido de Granger a x, frase
que denotaremos como y no GC x.
Formalmente, y no GC x si para todo s > 0:
M SE[E(xt+s |xt , xt1 , , yt , yt1 , )] = M SE(E[xt+s |xt , xt1 , ]) (2.74)
Si nos restringimos a funciones lineales, se dice que y no GC a x si:
h
i
t+s |xt , xt1 , )
M SE E(x
h
i
t+S |xt , xt1 , , yt , yt1 , )
= M SE E(x
(2.75)
Si y no GC x, entonces se puede decir que:
x es exogeno en el sentido de series de tiempo con respecto a y
y no es informativa linealmente sobre el futuro de x
La idea detras de la propuesta de Granger era que si un evento y es la causa de
otro evento x, entonces el evento y debe preceder al envento x. Sin embargo,
esto no necesariamente es cierto.

2.6.2.

Interpretaci
on de las pruebas de Causalidad a la Granger

Las pruebas de causalidad en el sentido de Granger pueden ser herramientas


u
tiles para evaluar hipotesis relacionadas a la predictibilidad de una serie
particular.
Sin embargo, se sugiere ser esceptico sobre la utilidad de estas pruebas para
determinar la direccion causal entre dos series arbitrarias.
As, las pruebas de causalidad a la Granger deberan describirse como pruebas
que permiten determinar si y ayuda a predecir x y no si y causa a x.

26

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)


En algunos casos, las pruebas de causalidad a la Granger permiten establecer
alg
un tipo de direccion causal cuando se consideran otros supuestos relacionados a las variables analizadas.
Ejemplo 1: Comportamiento forward-looking
De acuerdo a la hipotesis de mercado eficiente, el precio de un activo P es
funcion del valor presente esperado de los dividendos futuros D:
Pt = Et

X
j=1

1 j
) Dt+j
1+r

(2.76)

donde r es la tasa de interes o tasa de retorno ex-post del activo.


As, de acuerdo a esta teora, P incorpora la mejor prediccion del mercado sobre
el valor presente de los dividendos futuros.
Sin embargo, los dividendos no causan en el sentido de Granger a P a pesar
de que la percepccion de los inversionistas sobre los dividendos son el u
nico
determinante de P .
Mas a
un, P causa en el sentido de Granger a D a pesar de que la evaluacion del
activo por parte del mercado no tiene efectos sobre el proceso de los dividendos.
En general, las series de tiempo que reflejan un comportamiento forward-looking,
como los precios de activos y tasas de interes, son buenos predictores de muchas
series de tiempo economicas importantes como el PBI y la inflacion.
As, las pruebas de causalidad en el sentido de Granger para este tipo de series
son u
tiles para analizar eficiencia de los mercados o si los mercados se preocupan o son capaces de predecir el PBI o la inflacion, por ejemplo. Sin embargo,
no se puede inferir una direccion de causalidad necesariamente.
Ejemplo 2: Exogenidad Estricta
Todas las recesiones en Estados Unidos desde la Segunda Guerra Mundial han
sido precedidas por un aumento abrupto del precio del petroleo crudo. Dado
esto, es posible afirmar que los choques de precio del petroleo son la causa de
las recesiones?
Los datos rechazan la hipotesis nula de que los precios no causan en el sentido
de Granger al PBI.
Ademas, las principales subidas del precio del petroleo han estado asociadas a
eventos historicos claros como la crisis de Suez (1956-57), la guerra entre Arabia
e Israel (1973-74), la Revolucion Iran (1978-79), el inicio de la guerra Iran-Irak
(1980) y la invasion de Iraq a Kuwait en 1990.
Empricamente, muy pocas series macroeconomicas ayudan a predecir los choques
de petroleo.

2.6. PRUEBA DE CAUSALIDAD A LA GRANGER

2.6.3.

27

Implicancias de la Causalidad a la Granger

Implicancia 1
En un VAR bivariado entre x e y, y no causa en el sentido de Granger a x, y
no GC x, si cada una de las matrices de coeficientes j , es triangular inferior
para todo j:
!
!

 



(1)
(2)
xt
c1
11
0
xt1
11
0
xt2
=
+
+
+
(1)
(1)
(2)
(2)
yt
c2
yt1
yt2
21 21
21 21
!
 

(p)
11
0
xtp
1t
+
+
(p)
(p)
ytp
2t
21 21
(2.77)
Para verificar que en este sistema y no GC x, se analiza la prediccion optima
un perodo adelante de x:
t+1 |xt , xt1 , , yt , yt1 , )
E(x
(1)

(2)

(p)

= c1 + 11 xt + 11 xt1 + + 11 xtp+1
t+1 |xt , xt1 , , xtp+1 )
= E(x
(2.78)
la cual no depende de yt , yt1 , . Mas a
un, lo mismo sucede con la prediccion
optima dos perodos adelante de x:
t+2 |xt , xt1 , , yt , yt1 , )
E(x
(1)
(2)
(p)
= c1 + 11 Et xt+1 + 11 Et xt + + 11 xtp+2
(p)
t+1 |xt , xt1 , ) + (2)
= c1 + E(x
11 xt + + 11 xtp+2

t+2 |xt , xt1 , , xtp+1 )


= E(x

(2.79)

Por induccion, lo mismo se cumple para una prediccion s00 perodos adelante.
Implicancia 2
Dada la representacion VMA(),
yt = + t + 1 t1 + 2 t2 + 3 t3 + + (L)t

(2.80)

Se sabe que:
s = 1 s1 + 2 s2 + + p sp
donde: 0 = In y s = 0 para s < 0

, paras = 1, 2,

(2.81)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

28

Esta expresion implica que si j es triangular inferior para todo j, entonces


las matrices s de la representacion fundamental seran triangular inferior para
todo s.
Enctonces, si y no GC x, la representacion VMA() es:

 
 


xt
1
11 (L)
0
1t
=
+
yt
2
21 (L) 22 (L)
2t

(2.82)

donde:
(0)

(1)

(2)

(3)

ij (L) = ij + ij L1 + ij L2 + ij L3 +
(2.83)
(0)

(0)

(0)

tal que 11 = 22 = 1 y 21 = 0.
Implicancia 3
La tercera implicancia fue analizada por Sims(1972), y esta dada por la siguiente
proposicion.
Proposition 2.6.1. Considere una proyeccion lineal de y sobre los valores pasados, presente y futuros de x:
yt = c +

X
j=0

bj xtj +

dj xt+j + t

(2.84)

j=1

donde bj y dj se definen como los coeficientes de proyeccion poblacionales, es


decir, los valores para los cuales:
E(t xt ) = 0
para todo t, . Entonces, y no causa en el sentido de Granger a x si y solo si
dj = 0 para j = 1, 2,

2.6.4.

Pruebas Econom
etricas de Causalidad a la Granger

Estas pruebas se pueden basar en cualquiera de las tres implicancias analizadas.


Los resultados de cualquier prueba emprica de causalidad en el sentido de
Granger pueden ser muy sensibles a la eleccion del rezago(p) o de los metodos
de series de tiempo que se usan para enfrentar potenciales problemas de noestacionariedad.
Las pruebas econometricas para evaluar si una serie y GC x puede basarse en
cualquiera de las tres implicancias.
Enfoque 1

2.6. PRUEBA DE CAUSALIDAD A LA GRANGER

29

Se basa en la especificacion autoregresiva. Si se asumen p rezagos, la prueba se


basara en la estimacion de la siguiente ecuacion por OLS:
xt = c1 + 1 xt1 + 2 xt2 + + p xtp + 1 yt1 + 2 yt2 + + p ytp + ut
xt = c0 + 1 xt1 + 2 xt2 + + p xtp + et
(2.85)
La estructura de la prueba que permite evaluar la hipotesis nula y no GC x
es:
Hipotesis Nula
Hipotesis Alternativa
Estadstico de Prueba
s1
Regla de Rechazo

: 1 = 2 = = p = 0
: al menos un i 6= 0
:

(RSS0 RSS1 )/p


F (p, T 2p 1)
RSS1 /(T 2p 1)

(2.86)

: Si s1 > F0,05
(p, T 2p 1), entonces se rechaza la
h`potesis nula al 5 % de significancia.

El estadstico s1 tiene distribucion F exacta cuando la regresion contiene regresores fijos y perturbaciones Gausianas.
En las regresiones para analizar GC, la prueba es valida solo asintoticamente
debido a la presencia de variables dependientes rezagadas.
Una prueba asintoticamente equivalente esta dada por:
Hipotesis Nula
Hipotesis Alternativa
Estadstico de Prueba

: 1 = 2 = = p = 0
: al menos un i 6= 0
:

s2
Regla de Rechazo

T (RSS0 RSS1 )/p


20,05 (p)
RSS1

(2.87)

: Si s2 > [20,05 (p)] , entonces se rechaza la h`potesis


nula de ausencia de GC al 5 % de significancia.

Enfoque 2
Se basa en la estimacion de la especificacion propuesta por Sims(1972):
yt = c +

bj xtj +

j=0

y t = c0 +

dj xt+j + t

j=1
0

bj xtj + t

j=0

En este caso la estructura de la prueba es:

(2.88)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

30

Hipotesis Nula
: d1 = d2 = = dp = 0
Hipotesis Alternativa : di 6= 0 para alg
un i
Estadstico de Prueba :
(RSS0 RSS1 )/p
F (p, t 2p 1)
RSS1 /(T 2p 1)

s1
Regla de Rechazo

(2.89)

(p, T 2p 1) entonces se rechaza la hipotesis


: Si s1 > F0,05
nula al 5 % de significancia.

El problema con esta prueba es que en general t esta autocorrelacionado y por


tanto una prueba F convencional se distorsiona.
Para este caso, existen 3 posibles soluciones.
1. Estimar por OLS y usar errores estandar robustos (Newey-West)
2. Estimar por Mnimos Cuadrados Generalizados (GLS).
3. Incluir rezagos de la variable dependiente, como lo sugieren Geweke, Meese
y Dent(1983).
y t = c2

hj ytj +

j=1

bj xtj

j=0

dj xt+j + v2t

(2.90)

j=1

donde v2t es un ruido blanco no correlacionado con ning


un regresor. En este
caso, la prueba estadstica sera:
Hipotesis Nula
: d1 = d2 = = dp = 0
un i
Hipotesis Alternativa : di 6= 0, para alg
Estadstico de Prueba :
(RSS0 RSS1 )/p
F (p, t 2p 1)
RSS1 /(T 2p 1)

00

s1
Regla de Rechazo

(2.91)

00

: Si s1 > F0,05
(p, T 2p 1) entonces se rechaza la hipotesis
nula al 5 % de significancia.

Demostraci
on
Si se asume que tiene la siguiente representacion de Wold:
= (L)v2t
entonces:
22 (L)1 yt = 22 (L)1 [c +
1

22 (L) yt = 22 (L) c +

j=0

bj=0 xtj +

X
j=1

22 (L) bj xtj +

j=0

y t = c2

X
j=1

dj xt+j + t ]

hj ytj +

X
j=0

bj xtj +

j=1

22 (L)1 dj xt+j + 22 (L)1 t

dj xt+j + v2t

j=1

(2.92)

2.6. PRUEBA DE CAUSALIDAD A LA GRANGER

31

Geweke, Meese y Dent sugieren que el primer enfoque usando s2 es la mejor


forma de probar causadalidad a la Granger.

2.6.5.

Causalidad a la Granger en un contexto Multivariado

Supongamos que las variables de un VAR se clasifican en 2 grupos, representados


por el vector y1t de orden (n1 1) y el vector y2t de orden (n2 1).
Ademas, se puede definir el vector x1t de orden (n1 p1) que contiene los rezagos
de y1t y x2t el vector (n2 p 1) que contiene los rezagos de y2t :

y1,t1
y2,t1
y1,t2
y2,t2

x1t .. , x2t ..
(2.93)
.
.
y1,tp
y2,tp
En este caso, el VAR puede escribirse como:
0

y1t = c1 + A1 x1t + A2 x2t + 1t


y2t = c2 + B1 x1t + B2 x2t + 2t
0

(2.94)

donde las matrices A1 , A2 , B1 y B2 son de orden (n1 n1 p, (n1 n2 p, (n2


n1 py(n2 n2 p, respectivamente. Ademas, los vectores c1 de orden (n1 1) y c2
de orden (n2 1) contienen los terminos constantes del VAR.
Se dice que y1 es exogena por bloques en el sentido de series de tiempo con
respecto de y2 si A2 = 0
Para calcular la hipotesis nula de que n1 variables contenidas en y1 son exogenas
por bloques respecto de las y2 , se necesita estimar por OLS las ecuaciones:
0

y1t = c1 + A1 x1t + A2 x2t + 1t


0

y1t = c1 + (A1 ) x1t + 1t (0)

(2.95)

Cuyos vectores de residuos OLS son 1t y 1t (0) ambos de orden (n1 1) y las
correspondientes matrices de varianzas y covarianzas:
T
1X
0

11 =
1t 1t
T t=1
T
1X
0

11 (0) =
[
1t (0)][
1t (0)]
T t=1

As, la estructura de la prueba es la siguiente:

(2.96)

32

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)


0

Hipotesis Nula
: A2 = 0
0
Hipotesis Alternativa : A2 6= 0
Estadstico de Prueba :
11 (0)| log|
11 |} 2 (n1 n2 p)
LR T {log|
Regla de Rechazo

(2.97)

: Si LR > [20,05 (n1 n2 p)] entonces se rechaza la hipotesis


nula al 5 % de significancia.

Si se rechaza la hipotesis nula, se concluye que alguno de los elementos de y2


son u
tiles para predecir y1

IMPULSO RESPUESTA
2.7. LA FUNCION

2.7.

33

La Funci
on Impulso Respuesta

La representacion VMA() de un VAR en terminos de sus innovaciones fundamentales es:


yt = + t + 1 t1 + 2 t2 +

(2.98)

La matriz s puede interpretarse como:


yt+s
= s
0
t

(2.99)

Para ilustrar esta idea, considere el siguiente ejemplo:





11 12
1
yt =
21 12
2


11 1 + 12 2
yt =
21 1 + 12 2

 

yt 11 1 + 12 2
11 12
=
21 1 + 22 2
21 22
0
(2.100)
As, la fila i, columna j, de s identifica el efecto de un incremento unitario
en la innovacion de la jesima variable en t, jt , sobre el valor de la i-esima
variable en t + s,yi,t+s ), manteniendo todos las demas innovaciones constantes.
Si se sabe que el vector t cambia de acuerdo


1t
2t


t = .. =
.
nt
El efecto combinado de t es:
h
t+s
yt+s = y
1t

yt+s
2t

con:

1
2

.. =
.
n

yt+s
nt

(2.101)

yt+s = s t


yt+s
yt+s
yt+s
yt+s =
1 +
2 + +
n
1t
2t
nt

(2.102)

Una forma simple de encontrar estos multiplicadores dinamicos numericamente


es simulando el sistema
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
con t i.i.d.N (0, ).

(2.103)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

34

Para la simulacion, se hace yt1 = yt2 = = ytp = 0, jt = 1 y todos los


demas elementos de t cero. Con esto, se simula el sistema para t, t + 1, t + 2
con c, t+1 , t+2 , iguales a cero.
El valor del vector yt+s en la fecha t + s de esta simulacion corresponde a la
j-esima columna de s . En general, cada columna se puede estimar haciendo
simulaciones para cada innovacion j = 1, 2, , n.
La funci
on impulso respuesta (IRF) es el grafico del elemento (i,j) de la
matriz s como funcion de s:
yi,t+s
jt

(2.104)

As, la IRF describe la respuesta de yi,t+s ante un impulso de una vez con yit ,
manteniendo constantes las demas variables en la fecha t o antes.
La IRF no necesariamente permite medir el efecto causal de yj sobre yi . Lo
mas seguro es usar el resultado para hablar de predicciones.

2.7.1.

Ortogonalizaci
on de la IRF

Para interpretar la IRF , considere la siguiente pregunta. Sea


0

xt1 = (yt1 yt2 ytp )

(2.105)

la informacion recibida sobre el sistema en el momento t 1


Suponga que el valor de la primera variable del VAR en el perodo t, y1t , fue
mayor a lo esperado, tal que 1t es positivo.
Como cambia nuestra prediccion de yi,t+s dada esta informacion? es decir, cual
es:
i,t+s |y1t , xt1 ]
E[y
y1t

(2.106)
0

s (i, j) solo en el caso especial cuando E(t t ) = es


La respuesta es i,t+s
jt
una matriz diagonal.
0

En el caso mas general cuando E(t t ) = 6= D, si 1t es positivo entonces


proporciona informacion nueva y u
til sobre 2t , , nt . Esta informacion tiene
implicaciones para el valor de yi,t+s
Para resumir estas implicancias, necesitamos calcular el vector:
t |y1t , xt1 )
E(
y1t

(2.107)

IMPULSO RESPUESTA
2.7. LA FUNCION

35

y luego usar:
yt+s =

yt+s
yt+s
yt+s
1 +
2 + +
n
1t
2t
nt

(2.108)

para calcular el efecto de este cambio en todos los elementos de t sobre el valor
de yi,t+s
Otra magnitud que podra medirse es la revision de la prediccion que resulta,
por ejemplo, de nueva informacion sobre y2t mas alla de la informacion contenida
en y1t . As, podramos calular:
i,t+s |y2t , y1t , xt1 )
E(y
y2t

(2.109)

De igual forma, podramos calcular:


i,t+s |y3t , y2t , y1t , xt1 )
E(y
y3t
..
.&
i,t+s |ynt , yn1,t , yn2,t , , y1t , xt1 )
E(y
ynt

(2.110)

Esta u
ltima magnitud corresponde al efecto de nt con 1t , , n1,t constantes
y esta dado simplemente por la fila i, columna n de s .
El ordenamiento recursivo de informacion es usado muy frecuentemente. Para
este ordenamiento, los multiplicadores indicados pueden vincularse a partir de
s y usando un algoritmo simple.
t+s |y1t , xt1 )
E(y
= s a1
y1t
t+s |y2t , y1t , xt1 )
E(y
= s a2
y1t
..
.
t+s |yjt , yj1,t , , y1t , xt1 )
E(y
= s aj
yjt

(2.111)

donde aj denota la j-esima columna de la matriz A es triangular inferior con


10 s en la diagonal principal tal que:
= ADA

donde D es una matriz diagonal con entradas positivas.


Algoritmo

(2.112)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

36

Para cualquier matriz real simetrica positiva definida existe una matriz triangular inferior A con 10 s a lo largo de la diagonal principal y una matriz diagonal
u
nica D con entradas positivas tal que:
= ADA

(2.113)

Usando A se puede construir el vector ut de orden (n 1):


t = A1 t

(2.114)

El vector ut no esta correlacionado con sus propios rezagos o valores rezagados


de yt , dado que t tiene la misma propiedad. Mas a
un, los elementos de t no
estan correlacionados entre s, es decir, son ortogonales:
0

E(ut ut ) = A1 E(t t )(A1 )


0

= A1 (A )1
0

= A1 ADA (A )1
=D

(2.115)

La expresion ut = A1 t puede reescibrirse como:

1
0
0
a21 1
0
a31 a32 1
..
..
..
.
.
.
an1 an2 an3

..
.

0
0
0
..
.

Aut = t

u1t
u2t
..
.

unt

1t
2t
..
.

nt

Se puede demostrar (Ver Hamilton (1994), p. 320-322), que esta relacion implica
que:
t+s |y1t , xt1 )
E(y
= s a1
y1t
t+s |y2t , y1t , xt1 )
E(y
= s a2
y2t
..
.
t+s |yjt , yj1,t , , y1t , xt1 )
E(y
= s aj
yjt

(2.116)

donde aj es la j-esima columna de la matriz A.


Para estimar la expresion poblacional s aj usando una muestra de tama
no T ,
se sigue el siguiente procedimiento:

IMPULSO RESPUESTA
2.7. LA FUNCION

37

1. Se estiman 1 , , p usando OLS y se construyen las matrices s simulando el sistema.


= 1 PT t 0
2. Usando t OLS se obtiene
t
t=1
t
que satisfacen = AD
A0 se construyen a partir de
usando un
3. A y D
algoritmo de Factorizacion triangular (Hamilton, p. 87-92)
Notese que, por construccion, los elementos del vector ut = A1 t son mutuamente ortogonales:
T
T
1X
1 X 1
0
0
A1 )0 = D

ut ut =
A (
t t )(A1 ) = A1 (
T t=1
T t=1

(2.117)

Entonces, el estimado muestral de s aj es:


s a
j
El grafico de s a
j como funcion de s se denomina IRF ortogonalizado.
1. Se basa en descomponer las innovaciones originales del VAR (1t , , nt )
en un conjunto de componentes no correlacionados (u1t , , unt ) y calcular
las consecuencias sobre yt+s de un impulso unitario en ujt
2. Estos multiplicadores describen como la nueva informacion sobre yjt hace
que revisemos nuestra prediccion de yt+s aunque la definicion implcita de
nueva informacion es diferente para cada variable j.

2.7.2.

Ortogonalizaci
on Cholesky

Es una forma alternativa de implementar y reportar la ortogonalizacion recursiva.


0

D es la matriz que contiene las varianzas de ujt s, por lo que D 2 contiene las
0
desviaciones estandar de ujt s.
Entonces:
= ADA
1

0
1

= AD 2 D 2 A
= PP

(2.118)

La expresion = P P es la descomposicion de Cholesky de la matriz


1

Notese que P AD 2 es triangular inferior como A. La diferencia es que P


contiene las desviaciones estandar de ut en diagonal principal y no 10 s como A.

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

38

En vez de ut , se puede usar vt P 1 t :


1

vt P 1 t = D 2 A1 t
1

= D 2 ut

(2.119)

p
As, jt es jt entre su desvo estandar djj . As, un incremento unitario en jt
equivalente a un incremento de un desvo estandar de ujt
En vez del multiplicador dinamico

yi,t+s
ujt

se reporta

yi,t+s
,
vjt

cuya relacion es:

yt+s ujt
yt+s
=
.
vjt
ujt vjt
yt+s p
=
djj
ujt
p
= s aj djj

(2.120)

p
1
El termino aj djj es la j-esima columna de AD 2 , que es la je-sima columna
de la matrix factor Cholesky P, pj :
yt+s
= s pj
jt

(2.121)

As,
yt+s
= s pj
jt
p
= (s aj ). djj

(2.122)

Entonces:
1. El efecto de un incremento unitario en yjt , en unidades de medida de yjt
esta medido por:
t+s |yjt , yj1,t , , y1t , xt1 ]
yt+s
E[y
=
ujt
yjt
2. El efecto de un incremento de

p
V ar(jt ) unidades es medido por:
yt+s
= s pj
vjt

DE LA VARIANZA
2.8. DESCOMPOSICION

2.8.

39

Descomposici
on de la Varianza

El error de prediccion de un VAR s perodos en el futuro se obtiene de:


yt+s = + t+s + 1 t+s1 + 2 t+s2 + + s1 t+1
(s)

(s)

(s)

+ F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 )


(s)

(s)

(s)

yt+s|t = + F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 )

(2.123)

calculando yt+s yt+s|y


yt+s yt+s|t = t+s + 1 t+s1 + 2 t+s2 + + s1 t+1

(2.124)

El error cuadratico medio (MSE) de esta prediccion s00 perodos adelante es:
0

M SE(
yt+s|t ) = E[(yt+s yt+s|t )(yt+s yt+s|t ) ]
= E[(t+s + 1 t+s1 + 2 t+s2 + + s1 t+1 )
0

.(t+s + t+s1 1 + t+s2 2 + + t+1 s1 )]


0

= E[(t+s t+s + 1 t+s1 t+s1 1 + + s1 t+1 t+1 s1 + cruzados]


0

M SE(
yt+s|t ) = + 1 1 + + s1 s1

(2.125)

Nos interesa saber la contribucion de cada perturbacion ortogonalizada (u1t , , unt )


al MSE. Para ello, se reescribe Aut = t de la siguiente forma:
t = Aut
t = a1 u1t + a2 u2t + + an unt

(2.126)

Luego, se calcula = E(t t )


0

= E(t t )
0

= E[(a1 u1t + a2 u2t + + an unt )(a1 u1t + + an unt ) ]


0

= E[a1 u1t u1t a1 + + an unt unt an + cruzados]


0

= a1 E(u1t u1t )a1 + + an E(unt unt an )


0

= a1 a1 V ar(u1t ) + a2 a2 V ar(u2t ) + + an an V ar(unt )

(2.127)

donde Var(uit ) es el elemento (i, i) de la matriz D.


Reemplazando la expresion obtenida para en M SE(
yt+s|t ) se obtiene:
0

M SE(
yt+s|t ) = a1 a1 V ar(u1t ) + + an an V ar(unt )+
0

+ 1 [a1 a1 V ar(u1t ) + + an an V ar(unt )]1 +


+ +
0

+ s1 [a1 a1 V ar(u1t ) + + an an V ar(unt )]s1


0

= a1 a1 + 1 a1 a1 1 V ar(u1t ) + + s1 an an s1 V ar(unt )
n
X
0
0
0
M SE(
yt+s|t ) =
V ar(ujt )[aj aj + 1 aj aj 1 + +
j=1
0

+ s1 aj aj s1 ]

(2.128)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

40

A partir de esta expresion es posible calcular la contribucion de la j-esima


innovacion ortogonalizda al MSE de la prediccion s00 perodos adelante.
0

V ar(ujt ).[aj aj + 1 aj aj 1 + + s1 aj aj s1 ]

(2.129)

Nuevamente, esta magnitud depende del ordenamiento de las variables.


Si el VAR es estacionario en covarianzas, entonces se cumple que cuando s
el M SE converge a la matriz de varianzas y covarianzas incondicional del
vector yt , M SE(
yt+s|t ) 0 . As, para un s suficientemente grande, 2.128
permite calcular la porcion de la varianza total de yi debida a la perturbacion
uj .
p
Alternativamente, dado que aj V ar(ujt ) = pj , donde pj es la j-esima columna
del factor Cholesky P , 2.128 puede escribirse como:
n
X
0
0
0
0
0
0
0
M SE(
yt+s|t ) =
[pj pj + 1 pj pj 1 + + 2 pj pj 2 + + s1 pj pj s1 ]
j=1

(2.130)

2.9.

Modelos VAR y Modelos Econom


etricos Estructurales

El modelo VAR se ha presentado como una descripcion estadstica de las interrelaciones dinamicas entre n diferentes variables contenidas en el vector yt .
No se han usado ideas teoricas sobre la posible relacion entre las variables
involucradas, por lo cual no pueden interpretarse los resultados en terminos
economicos.
Suponga que se desea estimar una funcion de demanda por dinero:
Mt Pt = 0 + 1 Yt + 2 It + 3 (Mt1 Pt1 ) + vtD

(2.131)

donde Mt es el log de los saldos nominales de dinero, P el log del nivel de precios
agregado, Yt el log del PBIreal e It la tasa de interes nominal.
La practica comun era estimar la funcion usando un ajuste Cochrane-Orcutt
asumiendo autocorrelacion de orden 1:
D
vtD = vt1
+ uD
t

(2.132)

Bajo estos supuestos, la ecuacion podra escribirse como:


Mt Pt = (1 )0 + 1 Yt 1 Yt1 + 2 It 2 It1 + (3 + )(Mt1 Pt1 )
3 (Mt2 Pt2 ) + uD
t

(2.133)


2.9. MODELOS VAR Y MODELOS ECONOMETRICOS
ESTRUCTURALES 41
la cual es una version restringida de:
Mt Pt = 0 + 1 Yt + 2 Yt1 + 3 It + 4 It + 5 (Mt1 Pt1 )
+ 6 (Mt2 Pt2 ) + D
T

(2.134)

D
El supuesto vtD = vt1
+uD
t puede evaluarse usando 2.133 y 2.134. En particular
vtD representa factores que afectan la demanda por dinero para los cuales no se
cuenta con una teora explcita. Por ello sera importante evaluar vtD = vtD +uD
t
y no simplemente imponer el supuesto, pues podramos asumir:
D
D
vtD = vt1
+ vt2
+ uD
t

(2.135)

Otro supuesto del modelo es que el multiplicador dinamico del ingreso es proporcional al multiplicador de la tasa de interes:
(Mt+s Pt+s )
= 1 3s
Yt
(Mt+s Pt+s )
= 2 3s
It

(2.136)

Finalmente, la inflacion puede tener efectos sobre la demanda por dinero que
no son capturados por la tasa de interes.
As, este modelo implcitamente impone muchas restricciones sobre la dinamica
con poco o ning
un sustento emprico teorico. Por ello, parece mas convincente
evaluar el modelo usando una especificacion mas general:
(0)

(0)

(0)

Mt = 1 + 12 Pt + 13 Yt + 14 It
(1)

(1)

(1)

(1)

+ 11 Mt1 + 12 Pt1 + 13 Yt1 + 14 It1 +


(p)

(p)

(p)

(p)

+ 11 Mt + 12 Ptp + 13 Yt + 14 It1 + uD
t

(2.137)

La ecuacion 2.140 tambien se considera una ecuacion estructural. Mas a


un, esta
D
ecuacion generalizada la dinamica del termino de error vt , el proceso de ajuste
parcial, y la inflacion del nivel de precios sobre las tenencias deseables de dinero.
Sin embargo, no es posible estimar por OLS debido al problema de simultaneidad (sesgo de simultaneas). Por ejemplo:
(0)

(0)

(0)

It = 4 + 41 Mt + 42 Pt + 43 Yt
(1)

(1)

(1)

(1)

+ 41 Mt1 + 42 Pt1 + 43 Yt1 + 44 It1 +


(p)

(p)

(p)

(p)

+ 41 Mt + 42 Ptp + 43 Yt + 44 It1 + uD
t

(2.138)

Mas a
un, la ecuacion de demanda agregada estara dada por:
(0)

(0)

(0)

Yt = 3 + 31 Mt + 32 Pt + 34 It
(1)

(1)

(1)

(1)

+ 31 Mt1 + 32 Pt1 + 33 Yt1 + 34 It1 +


(p)

(p)

(p)

(p)

+ 31 Mt + 32 Ptp + 33 Yt + 34 It1 + uD
t

(2.139)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

42

y la ecuacion de precios:
(0)

(0)

(0)

Pt = 2 + 21 Mt + 22 Pt + 23 Yt
(1)

(1)

(1)

(1)

+ 21 Mt1 + 22 Pt1 + 23 Yt1 + 24 It1 +


(p)

(p)

(p)

(p)

+ 21 Mt + 22 Ptp + 23 Yt + 24 It1 + uD
t

2.9.1.

(2.140)

Relaci
on entre los Modelos Din
amicos Estructurales y
Vectores Autoregresivos

El modelo descrito puede escribirse como:


B0 yt = k + B1 yt1 + B2 yt2 + + Bp ytp + ut

(2.141)

donde:
0

yt = (Mt , Pt , Yt , It )

s
A c
ut = (uD
t , ut , Yt , It )

(0)
(0)
(0)
1
12 13 14

(0)
(0)
(0)
1
23 24
21
0 =
(0)
(0)
(0)
31
32
1
34
(0)
(0)
(0)
1
41 42 43
0

= (k1 , k2 , k3 , k4 )

(2.142)

Generalizando el argumento del modelo dinamico restringido, se asume un


n
umero suficiente de rezagos p y que las matrices Bs se definen de tal forma
que ut es un vector ruido blanco.
Si ut siguiera un proceso V AR de orden r:
ut = F1 ut1 + + Fr utr + et

(2.143)

entonces se multiplica 2.141 por (In F1 L1 F2 L2 Fr Lr ) y se obtiene


una forma similar a 2.141 reemplazando p por p + r y ut por et .
Premultiplicando por

B0 :

yt = B01 + B01 B1 yt1 + B01 B2 yt2 + + B01 Bp ytp + B01 ut


yt = c + 1 yt1 + 2 yt2 + + p ytp + t
(2.144)
Si se asume que el modelo 2.141 se ha parametrizado tal que ut es im vector
ruido blanco, entonces t tambien es un ruido blanco y 2.144 es la representacion
VAR del sistema estructural dinamico 2.141.
As, un VAR puede ser visto como la forma reducida de un modelo estructural
dinamico general.


2.9. MODELOS VAR Y MODELOS ECONOMETRICOS
ESTRUCTURALES 43

2.9.2.

Interpretando las funciones impulso respuesta

El efecto de una innovacion en la j-esima variable sobre el valor futuro de cada


variable en el sistema fue calculado como:
yt+s
jt

(2.145)

La expresion t = B01 ut implica que jt es una combinacion lineal de perturbaciones estructurales ut . Por ejemplo:
C
A
S
1t = 0,3uD
t 0,6ut + 0,1ut 0,5ut

As, parece no ser interesante la maginitud


capaces de calcular:

yt+s
.
jt

(2.146)

Por el contrario, si fueramos

yt+s
uC
t

(2.147)

Sera muy interesante, pues podramos saber las consecuencias de que el banco
central contraiga el credito mas de lo usual y sera una magnitud clave para
describir los efectos de la poltica monetaria sobre la economa.
Recordamos que para calcular las IRFs ortogonalizados, se usa la matriz A
triangular inferior y la matriz diagonal D tal que:
0

E(t t ) = = ADA

(2.148)

de tal forma que:


ut = A1 t

(2.149)

Por otro lado, el modelo VAR analizado es tal que:


ut = B0 t

(2.150)

Supongamos que la matriz de parametros estructurales es igual a A1 . Entonces,


las innovaciones ortogonales, coincidiran con las perturbaciones estructurales
verdaderas:
ut = B0 t = A1 t

(2.151)

y por lo tanto podramos usar las IRFs ortogonales para responder preguntas
como yut+s
C
t

Pero, existe alguna razon para esperar que B0 = A1 ? Dado que A1 es triangular inferior, B0 debera serlo.

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

44

En el modelo, si fuera posible imponer supuestos para que B0 sea triangular


inferior, entonces podramos dar respuesta a preguntas estructurales con las
IRFs ortogonalizadas.
En este caso:

Pt
Yt

Mt
It


0
1
(0)
2
21
=
+
(0)
3
31
(0)
4
41
(1) (1) (1)
11 12 13
(1) (1) (1)
22 23

+ 21
(1)
(1)
(1)
31 32
33
(1)
(1)
(1)
41 42 43
(p) (p) (p)
11 12 13
(p) (p) (p)
22 23

+ 21
(p)
(p)
(p)
31 32
33
(p)
(p)
(p)
41 42 43

0
0
0
0
(0)
32
0
(0)
(0)
42 43

(1)
14
(1)
24

(1)
34
(1)
44

(p)
14
(p)
24

(p)
34
(p)
44

0
0
0
0

Pt

Yt

Mt
It

Pt1
Yt1
+ +
Mt1
It1
S
Ptp
ut

Ytp uA
t
+
Mtp uD
t
Itp
uC
t

Supongamos que existe tal ordenamiento y por tanto B0 es triangular inferior.


Entonces el modelo estructural puede reescribirse como un VAR:
B0 yt = + B1 yt1 + + Bp ytp + ut
B0 yt = xt + ut

(2.152)

donde:


[nx(np+1)] = B1 B2 Bp

1
yt1

xt(np+1)x1 = ..
.
ytp
Ademas, asumamos que:
E(ut u0 )


=

D, para t =
0, otro caso

donde D es una matriz diagonal. El VAR es la forma reducida del modelo


estructural y se puede escribir:
B0 yt = xt + ut
yt = B01 xt + B01 ut
yt = xt + et

(2.153)


2.9. MODELOS VAR Y MODELOS ECONOMETRICOS
ESTRUCTURALES 45
0

Si = E(t t ), entonces t = B01 ut implica que:


0

= E(ut u0 ) = E[B01 ut u0t (B01 ) ]


= B01 E(ut u0 )(B01 )

= B01 D(B01 )

(2.154)

Notese que si las u


nicas restricciones son que :
1. B0 es triangular inferior con 10 s en la diagonal principal
2. D es una matriz diagonal
entonces el modelo estructural esta exactamente identificado.
Se puede verificar que el modelo esta exactamente identificado:
1. Dado que B0 es triangular inferior, B01 tambien lo es
2. Para cualquier simetrica y p.d, existe una u
nica matriz triangular inferior
A con 10 s en la diagonal principal un una matriz diagonal D con entradas
0
positivas tal que = ADA Entonces siempre se peuden encontrar valores
0
u
nicos de B01 Y D tales que satisfacen la forma = ADA
= E(t 0t ) = B01 DB01

(2.155)

3. Cualquier B0 de esta forma es no singular, por lo cual puede calcularse


de forma u
nica a partir de:
= B01

(2.156)

dado que se conoce .


Entonces dados los valores de la forma reducida ( y ) existen valores u
nicos
para los parametros estructurales (B0 , d, ) de la forma especificada. As, el
modelo estructural esta exactamente identificado.
Dado que el modelo esta exactamente identificado, se pueden obtener estimados
maxima verosimilitud con informacion completa (FIML) para B0 , yD
1. Maximizar la funcion de verosimilitud respecto a los parametros de la
forma reducida ( y )
2. Usando la relacion uno a uno entre los parametros de la forma estructural
y la reducida.
ML =
as que se obtienen regresionando los elementos de yt
Los estimadores
contra xt .
M L se obtiene de la matriz de varianzas y covarianzas de los
El estimador
residuos OLS.

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

46

se encuentran a partir de la factorizacion triangular de


(ver HamilB01 y D
ton, seccion 4.4)
El vector de residuos ortogonales ut = A1 t es el vector de perturbaciones
estructurales y las IRFs ortogonales proporcionan las consecuencias dinamicas
de eventos estructurales representados por ut , dado que el modelo estructural
es triangular inferior.

2.9.3.

VAR Estructural No Recursivo

Incluso si el modelo estructural no puede ser escrito de forma triangular inferior,


todava puede darse una interpretacion estructural al VAR usando una idea
similar a
0

= E(t t ) = B01 D(B01 )

(2.157)

Especficamente, un modelo estructural especifica un conjunto de restricciones


sobre B0 y D, y podemos tratar de encontrar los valores que satisfacen esta re0
striccion tals que B01 (B01 ) = . Esta idea fue desarrollada por Bernanke(1986),
Blanchard y Watson (1986) y Sims(1986).
Como ilustracion, considere el siguiente modelo que describe la dinamica de
cantidad (qt), precio(pt) y clima(wt):
(1)

(1)

(1)

qt = pt + 11 qt1 + 12 pt1 + 13 wt1


(1)

(2)

(2)

(p)

(p)

(p)

+ 11 qt2 + 12 pt2 + 13 wt2 +


+ 11 qtp + 12 ptp + 11 wtp + udt
(1)

(1)

(1)

qt = pt + hwt + 21 qt1 + 22 pt1 + 23 wt1 +


(p)

(p)

(p)

+ 21 qtp + 22 ptp + 23 wtp + uw


t
(1)

(2)

(p)

wt = 33 wt1 + 33 wt2 + + 33 wtp + uw


t

(2.158)

Asumimos que (udt , ust , uw


t ) es un vector ruido blanco con una matriz diagonal
D. As, este modelo es un ejemplo de:
B0 yt = xt + ut
donde:

1 0
B0 = 1 h
0 0
1
En este caso no es posible ordenar las variables y hacer B0 triangular inferior.
Sin embargo, t = B01 ut establece una relacion entre los residuos del VAR(t )
y las perturbaciones estructurales.


2.9. MODELOS VAR Y MODELOS ECONOMETRICOS
ESTRUCTURALES 47
As, si B0 se estima por ML, entonces las IRFs pueden calcularse reemplazando
A por B01 , y los resultados proporcionaran los efectos de cada perturbacion
estructural sobre los vaores subsiguientes de las variables del sistema.
En particular,
t
1
0 = B0
ut

(2.159)

es decir, el efecto de la j-esima perturbacion estructural yt sobre t esta dado


por bj , la j-esima columna de B01 . As, IRF estructural sera:
yt+s
yt+s t+s
=
= s bj
0
ujt
u
t
jt

(2.160)

donde s es la matriz (n n) de coeficientes de:


yt = + t + 1 t1 + 2 t2 +

2.9.4.

(2.161)

Estimaci
on FIML de un VAR Estructural con Din
amica Irrestricta

La estimacion FIML de los parametros del modelo estructural (y en particular


de la matriz B0 ) es simple si no se imponen restricciones a los coeficientes de
las variables rezagadas:
B0 yt = xt + ut
0

(2.162)
0

La funcion de verosimilitud, usando = E(t t ) = B01 D(B01 ) , para el sistema


B0 yt = xt + ut puede escribirse como:
Tn
T
0
log(2) + log|B01 D(B01 ) |
2
2
T
X
1
0
0
0
0
[yt xt ] [B01 D(B01 ) ]1 [yt xt ]

2 t=1

L(B0 , D, ) =

(2.163)

Si no hay restricciones en la dinamica, esta funcion se maximiza respecto de


OLS =
M L:
simplemente regresionando yt sobre xt . Sustituyendo
T
Tn
0
log(2) + log|B01 D(B01 ) |
2
2
T
X
1
0
0

t [B01 D(B01 ) ]
t
2 t=1

L(B0 , D, ) =

(2.164)

CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)

48

Analizando el u
ltimo termino:
T
X

0
t [B01 D(B01 ) ]1 t
0

T
X

n 0
o
0
tr t [B01 D(B01 ) ]1 t

t=1

t=1

T
X

o
n
0
0
tr [B01 D(B01 ) ]1 t t

t=1

n
o
0

= tr [B01 D(B01 ) ]1 T
o
n
0

= T tr [B01 D(B01 ) ]1
o
n 0

= T tr (B0 DB0 )

(2.165)

El segundo termino:
0

log|B01 D(B01 ) | = log[|B01 |.|D|.|(B01 ) |]


= log|B01 |.|B01 | + log|D|
= log|B0 |2 + log|D|

(2.166)

Usando estos resultados se obtiene:

= T n log(2) + T log|B0 |2 T log|D| T tr{(B 0 D1 B0 )}


L(B0 , D, )
0
2
2
2
2
(2.167)
M L , se puede mostrar
Usando calculos similares alos realizados para obtener
0
que si existen matrices u
nicas B0 Y D tales que B01 D(B01 ) = , entonces la
que satisface:
maximizacion de refu genera B0 y D
1 D(B
1 )0 =

B
0
0

(2.168)

Este es un sistema de acuaciones no lineales y la maxmimizacion numerica de


refu es un enfoque general de resolver este sistema.

Captulo 3
El Filtro de Kalman
Se basa en las contribuciones de Rudolf E. Kalman publicadas en los a
nos
1960s.1 La idea es representar un sistema dinamico en una forma particular
denominada representaci
on estado espacio.
Historicamente, el filtro de Kalman se uso desde los a
nos 1960s para mejorar
la navegacion de vehculos, incluyendo los aeroespaciales, proporcionando un
estimado optimizado del estado (por ejemplo, posicion y velocidad) del sistema
analizado.
EL filtro funciona recursivamente:
1. Usa informacion ruidosa y la filtra usando una curva ajustada por mnimos
cuadrados, la cual es optimizada con una prediccion matematica del estado
futuro generado a traves de la modelacion de las caractersticas fsicas del
sistema.
2. El estimado del modelo se compara con el punto observado y esta diferencia
es escala por un factor conocido como la Ganancia Kalman (Kalman
Gain o KG), la cual se usa como insumo para retroalimentar al modelo
y as mejorar las predicciones siguiente.
3. Ademas, la ganancia puede ser afinada para mejorar el desempe
no de
las predicciones. Con un KG grande el filtro sigue mas de cerca a las
observaciones, mientras que que con un KG peque
no el filtro sigue mas de
cerca las predicciones del modelo.
As, el Filtro de Kalman es un algoritmo para actualizar secuencialmente
la proyeccion lineal de un sistema. Entre los usos mas importantes de este
algoritmo en Econometra figuran:
1. Proporciona una alternativa para calcular predicciones finitas exactas y
calcula la funcion de verosimilitud exacta para un proceso ARMA Gausiano.
1

R. Kalman naci
o en Hungra, el 19 de mayo de 1930. Actualmente es residente de los Estados
Unidos y en el 2009 recibi
o la Medalla Nacional de Ciencias por sus contribuciones.

49

CAPITULO 3. EL FILTRO DE KALMAN

50

2. Permite factorizar funciones matriciales generadoras de autocovarianzas o


densidades espectrales.
3. Estimar vectores autoregresivos con coeficientes cambiantes en el tiempo.

3.1.

Representaci
on Estado-Espacio de un Sistema
Din
amico

La representacion Estado Espacio (SS) de un sistema dinamico permite analizarlo usando el Filtro de Kalman. A continuacion se presentan los supuestos y la
representacion SS.
Sea yt un vector (n 1) de variables observadas en el perodo t. Es posible
describir una clase importante de modelos dinamicos para yt en terminos de un
vector (r 1) posiblemente no observable y conocido como vector de estado,
t .
La representacion estado espacio (SS) de la dinamica de yt es:
t+1 = F t + vt+1
0

yt = A xt + H t + wt

(3.1)
(3.2)

donde F, A0 y H 0 son matrices de parametros con dimensiones (r r), (n k)


y (n r), respectivamente. Ademas, xt es un vector de variables exogenas o
predeterminadas.
La ecuacion (3.1) se denomina Ecuaci
on de Estado y la ecuacion (3.2) es la
Ecuaci
on de Observaci
on.
Los vectores vt (r 1) y wt (n 1) son vectores ruido blanco con media cero y:

0
, para t =
E(vt v ) =
(3.3)
0, otro caso

E(wt w ) =

R para t =
0 otro caso

(3.4)

donde Q y R son de dimension (r r) y (n n), respectivamente.


Las perturbaciones vt y wt no estan correlacionadas en ning
un perodo:
0

E(vt w ) = 0 , para todo t y

(3.5)

El vector de xt contiene variables exogenas o predeterminadas. Esto significa que


xt no proporciona informacion alguna sobre t , +1 , t+2 , o wt , wt+1 , wt+2 mas
alla de la informacion contenida en yt1 , yt2 , , yt .

ESTADO-ESPACIO DE UN SISTEMA DINAMICO

3.1. REPRESENTACION
51
Por ejemplo, xt podra incluir valores rezagados de y o variables no correlacionadas con y w para todo .
El sistema (3.1)-(3.4) tpicamente se usa para describir una serie finita de observaciones {y1 , y2 , yT }. Sin embargo, se requieren supuestos sobre el valor
inicial del vector de estados 1 .
Asumimos que 1 no esta correlacionado con ninguna realizacion de vt o wt :
0

E(vt 1 ) = 0 , para t = 1, 2, , T
0

E(wt 1 ) = 0 , para t = 1, 2, , T

(3.6)

(3.7)

La ecuacion de estado (3.1) implica que t puede escribirse como funcion lineal
de (1 , v2 , v3 , , vt ):
2 = F 1 + v2
3 = F 2 + v3 = F [F 1 + v2 ] + v3 = F 2 2 + v3
..
.
t = F t1 1 + F t2 v2 + + F vt1 + vt
t = vt + F vt1 + + F t2 v2 + F t1 1 , , para t = 2, 3, , T

(3.8)

Entonces, (3.6) y (3.3) implican que vt no esta correlacionado con valores pasados de :
0

E(vt ) = 0 , para = t 1, t 2, , 1

(3.9)

De igual forma:
0

E(wt ) = 0 , para = 1, 2, , T
0

(3.10)

E(wt y ) = E[wt (A x + H + w )]
= 0 , para = t 1, t 2, , 1
0

E(vt y ) = 0 , para = t 1, t 2, , 1
El sistema (3.1)- (3.7) es muy flexible:
1. vt y wt podran estar correlacionados
2. F, Q, A, H, R pueden ser funciones del tiempo.

(3.11)

(3.12)

CAPITULO 3. EL FILTRO DE KALMAN

52

3.2.

Ejemplos de Representaciones Estado-Espacio

Las representaciones estado espacio no son u


nicas. A continuacion se presentan
ejemplos ilustrativos.
Ejemplo 1: Proceso AR(p) univariado.
Considere el siguiente proceso AR(p) univariado:
yt+1 = 1 (yt ) + 2 (yt1 ) + + p (ytp+1 ) + t+1

E(t ) =

2
0

, para t =
, otro caso

(3.13)

La representacion SS de este proceso puede escribirse de la siguiente manera:


Ecuaci
on de Estado (r = p)

yt+1
yt
..
.
ytp+2

1 2
1 0
0 1
..
..
.
.
0 0

p1 p
yt

0
0
yt1

0
0

..
..
..
.

.
.
ytp+1

1
0

t+1
0
..
.

0
(3.14)

Ecuaci
on de observaci
on (n = 1)

yt = +

1 0 0

yt
yt1
..
.
ytp+1

con lo cual se obtiene la forma general:


t+1 = F t + vt
yt = A0 xt + H 0 t + wt
0

E(vt vt ) = Qrr
0

E(wt wt ) = Rnn

(3.15)

3.2. EJEMPLOS DE REPRESENTACIONES ESTADO-ESPACIO

53

donde:

yt
yt1

t =
..

.
ytp+1

t+1
0

vt+1 = ..
.
0

F =

1 2
1 0
0 1
..
..
.
.
0 0

Q=

yt = yt


0
H = 1 0 0

p1 p

0
0

0
0

..
..

.
.

1
0

2 0 0
0 0 0

.. ..
..
. . .
0 0 0

A =

xt = 1

wt = 0

R=0

En este caso, la ecuacion de observacion es una identidad trivial, mientras que


la ecuacion de estado es una ecuacion en diferencias vectorial de primer orden.
As, esta representacion SS es otra forma de describir el proceso AR(p), una
forma conveniente de resumir la dinamica del sistema.
El modelo V AR(p) tambien fue escrito usando una representacion SS similar.
Ejemplo 2:
Considere un proceso univariado MA(1):
yt = + t + t1

(3.16)

Una posible representacion SS es la siguiente:


Ecuaci
on de Estado (r = 2)

 

 

t+1
0 0
t
t+1
=
+
t
1 0
t1
0
Ecuaci
on de Observaci
on (n = 1)
yt = +

t
t1

Esto es:

t =

Q=
H0 =

t
t1

2 0
0 0

1


F =

0 0
1 0


vt+1 =

yt = yt

A0 =

wt = 0

R=0

t+1
0

xt = 1

(3.17)
(3.18)

CAPITULO 3. EL FILTRO DE KALMAN

54

Una representacion SS alternativa para este proceso M A(1) es la siguiente:


Ecuaci
on de Estado (r = 2)

 

 

t+1 + t
0 1
t + t1
t+1
=
+
t+1
0 0
t
t+1
Ecuaci
on de Observaci
on (n = 1)
yt = +

t + t1
t

Con cualquiera de estas tres representaciones se obtienen predicciones identicas


del proceso o el mismo valor de la funcion de verosimilitud.
Ejemplo 3: Porceso ARMA(p,q)
La representacion SS de un proceso univariado ARMA(p,q) puede obtenerse
definiendo r = max{p, q + 1}:
yt + = 1 (yt1 ) + 2 (yt2 ) + + r (ytr )
+ t + 1 t1 + 2 t2 + + r1 tr+1

(3.19)

donde j = 0 para j > p y j = 0 para j > q.


Una posible representacion SS de este proceso ARM A(p, q) es la siguiente:
Ecuaci
on de Estado (r = max{p, q + 1})

t+1

1 2
1 0
0 1
..
..
.
.
0

r1 r
t+1

0
0
0

0
0
t + ..
..
..

.
.
0
..

.
0

Ecuaci
on de Observaci
on (n = 1)


yt = + 1 1 2 r1 t

(3.20)

Demostracion.
Sea jt el j-esimo elemento de t . Entonces, la segunda ecuacion de la ecuacion
de estado dice que:
2,t+1 = 1,t

(3.21)

3.2. EJEMPLOS DE REPRESENTACIONES ESTADO-ESPACIO

55

y la tercera fila:
3,t+1 = 2,t = 1,t1

(3.22)

y en general la j-esima fila:


j,t+1 = j1,t = j2,t1 = = 1,t+2j
j,t+1 = Lj1 1,t+1

(3.23)

As, la primera fila de la ecuacion de estado implica que:


1,t+1 = (1 + 2 L + 3 L2 + + r Lr1 )1t + t+1
(1 1 L 2 L2 r Lr )1,t+1 = t+1

(3.24)

La ecuacion de observacion establece que:


yt = + (1 + 1 L + 2 L2 + + r1 Lr1 )1t

(3.25)

Multiplicando por (1 1 L r Lr )
(1 1 L r Lr )(yt ) = (1 1 L r Lr ).(1 1 L r1 Lr1 )1t
(1 1 L r Lr )(yt ) = (1 1 L r1 Lr1 )t
(3.26)
que es el proceso ARM A(p, q) inicial.
Aplicaci
on 1: La tasa de inter
es real
Fama y Gibbons(1982) estudian el comportamiento de la tasa de interes real
ex-ante, definida como la tasa de interes nominal it menos la inflacion esperada
te .
La tasa de interes real ex-ante es no observable debido a que no se cuenta con
informacion de la inflacion anticipada por el mercado.
As, la tasa de interes real ex-ante es la variable estado:
t = it te

(3.27)

donde es el promedio de la tasa de interes real ex-ante.


Fama y Gibbons asumen que t esta descrito por un proceso AR(1):
t+1 = t + vt+1

(3.28)

El econometrista observa la tasa ex-post, it t , la cual puede escribirse como:


it t = it te + te t
= t + + (te t )
= + t + wt

(3.29)

CAPITULO 3. EL FILTRO DE KALMAN

56

El termino wt te t el error que comete la gente al predecir la inflacion. Si


estas predicciones se forman optimamente, entonces:
Cov(wt , w ) = 0
Cov(wt , it te ) = 0, , para < t

(3.30)

As, el modelo estado espacio es:


t+1 = t + vt+1
yt = + t + wt

con (r = 1)
con (n = 1)

(3.31)

donde F = , yt = i t , A0 xt = , H = 1 y wt = te t .
Aplicaci
on 2: Ciclos Econ
omicos
Stock y Watson (1991) postulan la existencia de un escalar desconocido ct que
representa el estado del ciclo economico.
Se asume que n variables macro observables, (y1t , y2t , , ynt ) estan influenciadas por Ct , y tienen un componente idiosincratico (it ) no correlacionado con
los movimientos de yit , para i 6= j.
Si Ct y cada componente it pueden describirse como un proceso AR(1), entonces el vector de estados [(n + 1) 1] es:

Ct
1t

t = 2t
..
.
nt
donde la ecuacion de estado es:


c 0
Ct+1
1,t+1 0 1


2,t+1 0 0

..
..
..

.
.
.
n,t+1
0 0

0
0
2
..
.

..
.

0
0
0
..
.

Ct
1t
2t
..
.

nt

vc,t+1
v1,t+1
v2,t+1
..
.
vn,t+1

y la ecuacion de observacion:

y1t
y2t
..
.
ynt

1
2
..
.
n

1 1 0
2 0 1
.. .. .. ..
. . . .
n 0 0

0
0
..
.
1

Ct
1t
2t
..
.
nt

3.2. EJEMPLOS DE REPRESENTACIONES ESTADO-ESPACIO

57

As, i mide la sensibilidad de i-esima serie ante cambios en el ciclo economico.


Para permitir dinamica de orden p, Stock y Watson reemplazan Ct y it por
los vectores:

Ct
it
Ct1
i,t1

..
..

.
.
Ctp+1
i,tp
de tal forma que t es un vector de orden [(n + 1)p 1].
Los escalares i se reemplazan por matrices Fi de orden (pp) con la estructura
de la matriz F antes analizada.
Ademas, se a
naden bloques de ceros de orden [n (p 1)] entre las columnas
0
de H .

CAPITULO 3. EL FILTRO DE KALMAN

58

3.3.

Derivaci
on del Filtro de Kalman

Considere el siguiente sistema Estado Espacio o SS:


t+1
=
(n 1)
yt
=
(n 1)

F t
+
(n n)(n 1)
A 0 Xt
+
(n k)(k 1)
0

vt+1
(n 1)
H 0 t
+
t
(n n)(n 1)
(n 1)

E(vt v ) =

E(t ) =

E(vt 10 ) = 0
E(t 10 ) = 0
E(vt t0 ) = 0

Q(nn) , para t =
0,
otherwise

(3.32)

R(nn) , para t =
0,
otherwise

(3.33)

,t = 1, 2, , T
,t = 1, 2, , T
,t,
(3.34)

Se asume que el analista ha observado y1 , ,yT ,x1 , ,xT .


Uno de los objetivos puede ser estimar los parametros del sistema. Sin embargo,
por el momento se asume que los valores numericos de F, Q, A, H, R se conocen.
Hay muchos usos del filtro de Kalman. En esta seccion se motiva como un
algoritmo para calcular predicciones mnimo cuadraticas del vector de estado
usando la informacion observada hasta t:
t+1 |=t )
t+1|t E(
donde
0
, , y1 , x0t , x0t1 , , x01 )0
=t = (yt0 , yt1

(3.35)

t+1 |Yt ) denota la proyeccion lineal de t+1 sobre =t y una constante.


y E(
El filtro de Kalman calcula recursivamente estas predicciones, generando:
1|0 , 2|1 , 3|2 , , T |T 1
Cada una de las predicciones esta asociada a una matriz de M SE de orden
(n n):
Pt+1|t = E[(t+1 t+1|t )(t+1 t+1|t )0 ]

DEL FILTRO DE KALMAN


3.3. DERIVACION

59

Para obtener la secuencia 1|0 , 2|1 , , T |T 1 y P1|0 , P2|1 , , PT |T 1 , el filtro


de Kalman se basa en la media y varianza incondicionales de 1 como punto de
partida:
1|0 = E(1 )
P1|0 = E[1 E(1 )][1 E(1 )]0

(3.36)
(3.37)

cuyos valores tpicos son 1|0 = 0 y vec(P1|0 ) = [In2 (F F )]1 .vec(Q)


Luego, tomando como valores iniciales 1|0 y P1|0 , se iteran las siguientes expresiones para t = 1, 2, , T :
t+1|t = F t|t1 + F Pt|t1 H(H 0 Pt|t1 H + R)1 (yt A0 xt H 0 t|t1 )

(3.38)

Pt+1|t = F [Pt|t1 Pt|t1 H(H 0 Pt|t1 H + R)1 H 0 Pt|t1 ]F 0 + Q

(3.39)

t+1|t denota la mejor prediccion de t+1 basada en una constante y una funcion
lineal de (yt , yt1 , , xt , xt1 , , x1 ), y la matriz Pt+1|t proporciona el MSE
de esta prediccion.
Si se define el termino Kt como:
Kt F Pt|t1 H(H 0 Pt|t1 H + R)1

(3.40)

entonces la ecuacion(3.41) puede ser re-escrita como:


t+1|t = F t|t1 + Kt (yt A0 xt H 0 t|t1 )

(3.41)

El termino Kt se denomina la Matriz de Ganancia de Kalman o Ganancia de


Kalman (Kalman Gain o KG).

3.3.1.

Inicio de la recursi
on

La recursion empieza con 1|0 , la prediccion de 1 que no se basa en observacion


alguna de y o x. Esta prediccion es la media incondicional de 1 :
1|0 = E(1 )
con error cuadratico medio (MSE) igual a:
P1|0 = E{[1 E(1 )][1 E(1 ]0 }
Si los valores propios de F estan dentro del crculo unitario, entonces el proceso
t es estacionario en covarianzas, cuya media incondicional es cero:
E(t ) = 0
y una matriz de varianzas y covarianzas que satisface:
= F F 0 + Q
y cuya solucion puede expresarse como un vector columna:
vec() = [In2 (F F )]1 .vec(Q)

CAPITULO 3. EL FILTRO DE KALMAN

60

Demostraci
on E(i ) = 0. Para demostrar E(i ) = 0 hacemos lo siguiente:
t+1 = F t + vt+1
E(t+1 ) = F E(t ) + E(vt+1 )
(I F )E(t+1 ) = 0
E(t+1 ) = 0

Demostraci
on vec().
t+1 = F t + vt+1
0

t+1 t+1 = (F t + vt+1 )(F t + vt+1 )


0

= (F t + vt+1 )(t F + vt+1 )


0

= F t t F + F t vt+1 + vt+1 t F + vt+1 vt+1


0

E(t+1 t+1 ) = F E(t t )F + F E(t vt+1 ) + E(vt+1 t )F + E(vt+1 vt+1 )


0

= F F + Q

(3.42)

El operador vec(.) es tal que vec(ABC) = [C 0 A].vec(B). Entonces, usando


el operador vec(.):
vec() = vec(F F 0 ) + vec(Q)
= (F(nxn) F(nxn) ).vec() + vec(Q)
vec() (F F ).vec() = vec(Q)
vec() = [In2 (F F )]1 .vec(Q)

As, en general, si los valores propios de F estan dentro del crculo unitario,
las iteraciones del filtro de Kalman pueden iniciarse con 1|0 = 0 y P1|0 (n n)
cuyos elementos expresados como un vector columna estan dados por:
vec(P1|0 ) = [In2 (F F )]1 .vec(Q)
Si alguno de los valores propios de F estan sobre o fuera del crculo unitario,
o si el valor inicial de 1 no es considerado como una extraccion aleatoria del
proceso implcito en t+1 = F t + vt+1 , entonces:
1. 1|0 puede cuantificarse usando la mejor conjetura del investigador.
2. La matriz P1|0 es positivo definida y resume la confianza en esa conjetura;
as, valores grandes de los elementos de la diagnal de P1|0 indican mayor
incertidumbre sobre el verdadero valor de 1 .