Part III

Series de Tiempo
115
Chapter 7
Modelos Univariados
7.1 Martingalas y Caminos Aleatorios
Para comenzar esta sección hay que definir dos conceptos: Martingala y
Camino Aleatorio.
Una martingala es un proceso estocástico, supongamos {P
t
} que satisface
una propiedad fundamental:
E[P
t+1
| P
t
, P
t−1,...
] = P
t
o puesto de otro modo:
E[P
t+1
−P
t
| P
t
, P
t−1,...
] = 0
Es decir la mejor predicción del precio de un activo mañana es el precio
que este tiene hoy día, y no impone ningún condicionamiento al proceso que
representa el riesgo del activo.
Tampoco quiere decir que aquel activo que obedezca a esta condición
refleja cierta racionalidad de parte del mercado. Ha sido demostrado que la
propiedad de la martingala no es una condición necesaria ni suficiente para
que los precios de activos sean determinados racionalmente (Lucas, Robert
(1978), "Asset Prices in an Exchange Economy", ECONOMETRICA).
Para demostrar este punto repliquemos el argumento de Lucas. Si asum-
imos un activo y un agente representativo que optimiza sus decisiones de
consumo de manera de maximizar su nivel de bienestar, podemos represen-
117
118 CHAPTER 7 MODELOS UNIVARIADOS
tar este problema por:
MaxE
0

P
t=0
β
t
u(c
t
)
sujeto a :
a
t+1
= R
t
(y
t
+a
t
−c
t
)
donde a es la riqueza del individuo, c representa el nivel de consumo, y la
dotación de producción, R la tasa de retorno bruta de su ahorro, y β el factor
de descuento subjetivo.
Si asumimos una economía simple donde la riqueza financiera se define
con la dotación y retornos de acciones que se posee de una única firma,
es decir a = (p +d) s donde d es el dividendo y s es el número de ac-
ciones que se poseen, y además por simplicidad asumimos que y = 0, en-
tonces la restricción presupuestaria del agente se debiera reescribir como:
c
t
+ p
t
s
t+1
= (p
t
+d
t
) s
t
. Asumiendo además que el precio depende del
estado de dividendos d
t
y que este vector de dividendos sigue un proceso
markoviano de primer orden cuya función de transición se define por:
F (d
0
, d) =
d
0
R
0
f (s, d) ds = Pr [d
t+1
≤ d
0
| d
t
= d]
entonces podemos escribir la ecuación de Bellman como:
v (s (p (d) +d)) = Max
c,s
0
©
u(c) +β
R
v (s
0
(p (d
0
) +d
0
)) ∂F (d
0
, d)
ª
s.a.
c +ps
0
= (p +d) s
Sabemos que de la condición necesaria de primer orden y de la condición
(teorema) de Benveniste-Scheinkman se llega a que el proceso que deter-
mina la evolución de los precios corresponde a (imponiendo la condición de
equilibrio competitivo que c = d):
u
0
(d) p (d) = β
R
u
0
(d
0
) [p (d
0
) +d
0
] ∂F (d
0
, d)
lo cual indica que los precios están en equilibrio y reflejan toda la información
disponible. De esta última expresión es fácil verificar que la condición de
martingala no se presenta en los precios del activo bajo análisis. De existir
esta sería sobre la serie u
0
(d) p (d), pues al calcular el valor esperado de
7.1 MARTINGALAS Y CAMINOS ALEATORIOS 119
βu
0
(d
0
) (p (d
0
) +d
0
)−u
0
(d) p (d), esta sería cero, tal como predice la condición
de la martingala.
Cabe destacar que para que se dé la condición de martingala para el nivel
de precios (corregidos por dividendos), es decir que se verifique:
p (d) = β
R
[p (d
0
) +d
0
] ∂F (d
0
, d)
se requeriría que u
0
(d) no cambie mucho con el nivel de dividendos (i.e. neu-
tralidad al riesgo, lo cual implica u
0
(d) = u
0
(d
0
)), pero igualmente habría
que corregir por el factor de descuento β.
Una hipótesis más testeable empíricamente es la de camino aleatorio.
Esta característica impondrá cierta estructura sobre los residuos poblacionales
ε de la siguiente expresión, donde δ es lo que se conoce como drift:
P
t
= δ +P
t−1

t
ε
t
∼ IID
¡
0, σ
2
¢
Si analizamos recursivamente esta expresión entonces podemos encontrar
cuál es la relación intertemporal del precio del activo en relación al precio
inicial P
0
de este:
P
t
= δ +P
t−1

t
P
t
= δ + (δ +P
t−2

t−1
) +ε
t
= 2δ +P
t−2

t−1

t
P
t
= δ +δ + (δ +P
t−3

t−2
) +ε
t−1

t
= 3δ +P
t−3

t−2

t−1

t
...
P
t
= P
0
+δt +
j=t
P
j=1
ε
j
Si a esta última expresión calculamos su valor esperado y su varianza llegamos
a dos expresiones lineales al tiempo t:
E[P
t
| P
0
] = P
0
+δt
V [P
t
| P
0
] = σ
2
t
Con esta representación podemos decir que si el residuo ε se distribuye idén-
tica e independientemente como una normal, es decir ε
t
IID
∼ N (0, σ
2
), en-
tonces el proceso generador de datos para el precio del activo se denominará
Movimiento Browniano Aritmético:
P
t
= δ +P
t−1

t
120 CHAPTER 7 MODELOS UNIVARIADOS
El problema que surge al asumir una función de distribución normal, es
que los precios pueden tomar valores negativos con probabilidad mayor que
cero, es decir Pr [P < 0] > 0, lo cual ciertamente es no es factible u observable
empíricamente.
La corrección que se utiliza es asumir que este residuo posee una distribu-
ción lognormal, o lo que es lo mismo, asumir que este movimiento Browniano
se dá para el logaritmo del precio del activo en lugar del nivel absoluto de
este. Este solo hecho hace que ahora los retornos, calculados como por la
diferencia del logaritmo (aproximación), se distribuyan como una distribu-
ción normal, lo cual si puede ser factible empíriamente. Este proceso se
denominará Movimiento Browniano Geométrico:
lnP
t
= δ + lnP
t−1

t
r
t
≡ lnP
t
−ln P
t−1
r
t
= ln
µ
P
t
P
t−1

⇒ r
t
= δ +ε
t
ε
t
IID
∼ N
¡
0, σ
2
¢
Este capítulo evalúa las alternativas metodológicas para testear distintos
grados de eficiencia de mercado, es decir presenta tests de independencia y
aleatoriedad desde distintos puntos de vista econométrico.
7.2 Independencia y Caminos Aleatorios
7.2.1 Test de Independencia: BDS
El test de Brock, Dechert y Scheinkman (BDS) permite evaluar la depen-
dencia temporal de una serie, y sirve para testear hipótesis alternativas de
dependencia lineal, no-lineal, o dependencia caótica. Este test puede ser apli-
cado a series de residuos estimados para evaluar si estos son independientes
e idénticamente distribuidos (iid). Por ejemplo los residuos de un modelo de
series de tiempo ARIMA(p,d,q) pueden ser utilizados para evaluar si existe
alguna dependencia no lineal en la serie después de que el modelo ha sido
estimado.
Para generar el test se debe escoger una distancia > 0. Posteriormente
se consideran un par de puntos. Si las observaciones de la series son ver-
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 121
daderamente iid, entonces, para cualquier par de puntos la probabilidad de
que la distancia entre estos sea menor o igual a será constante. Definamos
a esta probabilidad c
1
().
Empíricamente se consideran múltiples pares de puntos, moviéndonos
consecutivamente a lo largo de las observaciones, de manera que dada una
observación s, y una observación t de una serie y, podamos construir un
conjunto de pares de la forma:
{{y
s
, y
t
} , {y
s+1
, y
t+1
} , {y
s+2
, y
t+2
} , {y
s+3
, y
t+3
} , ..., {y
s+m−1
, y
t+m−1
}}
donde m es el número de puntos consecutivos a ser utilizados en el conjunto
(embedding dimension). Denotamos la probabilidad conjunta de todos los
pares de puntos en el set satisfaciendo la condición de por la probabilidad
c
m
().
El test BDS procede considerando que bajo el supuesto de independencia,
esta probabilidad será la simple multiplicación de las probabilidades individ-
uales (marginales) de cada par de puntos, es decir que si las observaciones
son independientes se observará:
c
m
() = c
1
()
m
Empíricamente calculamos estimadores para estas probabilidades, verificán-
dose la existencia de un error de estimación, de manera que esta relación no
se observaría exactamente incluso de ser las series iid. Mientras más grande
es el error, menos probable es que el error sea causado por una variación
muestral aleatoria.
Para estimar la probabilidad de una dimensión particular, generamos
todos los posibles sets de este largo que puedan ser generados de la muestra
y se cuenta el número de conjuntos que satisfacen la condición de . La razón
entre el número de conjuntos que satisfacen la condición versus el total de
conjuntos considerados provee de una estimación de esta probabilidad.
Dada una muestra de T observaciones para una serie y, esta probabilidad
se puede calcular por (llamada también integrales de correlación):
c
m,T
() =
2
(T −m+ 1) (T −m)
T−m+1
X
s=1
T−m+1
X
t=s+1
Π
m−1
j=0
I

(y
s+j
, y
t+j
)
donde I

es una función indicadora:
I

(y
s+j
, y
t+j
) =

1 , |y
s+j
−y
t+j
| ≤
0 , en otro caso
¸
¸
122 CHAPTER 7 MODELOS UNIVARIADOS
Luego podemos utilizar estos estimadores muestrales para construir un test
de independencia:
b
m,T
() = c
m,T
() −c
1,T−m+1
()
m
Bajo el supuesto de independencia, se esperaría que este indicador sea cercano
a cero, de hecho BDS demuestran que:
³

T −m+ 1
´
b
m,T
()
σ
m,T
()
∼ N (0, 1)
donde:
σ
2
m,T
() = 4
Ã
k
m
+ 2
m−1
X
j=1
k
m−j
c
2j
1
+ (m−1)
2
c
2m
1
−m
2
kc
(2m−2)
1
!
donde c
1
puede ser estimado a partir de c
1,T
, y k es la probabilidad de que
cualquier tripleta de puntos pertenezca a la vecindad delimitada por , y
es estimada contando el número de conjuntos que satisfacen la condición
muestral:
k
T
() =
2
(T (T −1) (T −2))
T
X
t=1
T
X
s=t+1
T
X
r=s+1
(I

(y
t
, y
s
) I

(y
s
, y
r
) +
+I

(y
t
, y
r
) I

(y
r
, y
s
) +I

(y
s
, y
t
) I

(y
t
, y
r
))
Cabe mencionar que este estadístico es relativamente eficiente para muestras
superiores a 200 observaciones (ver Granger, C. W. J. y T. Terasvirta (1993),
Modelling Nonlinear Economic Relationships, sección 6.3.5, páginas 90 y 91).
En otro caso es mejor hacer un muestreo por bootstrapping y aumentar la
muestra artificialmente de manera de no perder poder del test al aplicar el
estadístico en muestras pequeñas.
Ejercicio. Una aplicación del test BDS a la serie de inflación para Chile
(1933:02-2001:06) entrega el siguiente resultado, denotando el rechazo de la
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 123
hipótesis nula de independencia de la serie:
Dimensión BDS Std.Error z −stat P −V alor
2 0.111196 0.004338 25.63572 0.0000
3 0.187459 0.006916 27.10598 0.0000
4 0.232728 0.008267 28.14973 0.0000
5 0.255301 0.008653 29.50290 0.0000
6 0.261486 0.008382 31.19535 0.0000
Ejercicio. Aplicando este test BDS a los retornos del índice de precios
selectivo de acciones de Chile IPSA los datos del test nos indican la presencia
de dependencia de la serie:
Dimensión BDS Std.Error z −stat P −V alor
2 0.192041 0.002680 71.66640 0.0000
3 0.325164 0.004257 76.38699 0.0000
4 0.416266 0.005068 82.14049 0.0000
5 0.477852 0.005281 90.48426 0.0000
6 0.518700 0.005092 101.8606 0.0000
Ejercicio. Generamos una variable aleatoria de una función de distribu-
ción estandarizada y al aplicar el test BDS se encuentra que la serie es abso-
lutamente independiente:
Dimensión BDS Std.Error z −stat P −V alor
2 0.001034 0.001730 0.597777 0.5500
3 0.001546 0.002740 0.564317 0.5725
4 0.001094 0.003250 0.336538 0.7365
5 0.000254 0.003373 0.075320 0.9400
6 −0.000116 0.003239 −0.035931 0.9713
124 CHAPTER 7 MODELOS UNIVARIADOS
7.2.2 Estadístico Cowles-Jones (1937)
Este estadístico compara la frecuencia de secuencias versus oposiciones de
signos de retornos consecutivos. Para esto se define una función indicadora
que toma valor 1 cuando los retornos son positivos y 0 cuando los retornos
son negativos o cero, es decir:
I
t
=

1 si r
t
> 0
0 si r
t
≤ 0

A partir de definior una función acumuladora A
t
como:
A
t
= I
t
I
t+1
+ (1 −I
t
) (1 −I
t+1
)
podemos definir como N
s
al número de pares de retornos consecutivos con el
mismo signo y N
o
al número de pares de signos opuestos:
N
s
=
T−1
P
t=1
A
t
N
o
= (T −1) −N
s
Con estos parámetros se construye en estadístico de Cowles-Jones (CJ)
el que se define como la razón entre la suma de secuencias de signos iguales
versus la suma de secuencias de signos contrarios:

CJ =
N
s
N
o
=
N
s
T−1
N
o
T−1
=
ˆ π
s
1 − ˆ π
s
donde π
s
define a la probabilidad de que ocurra una secuencia de signos
positivos.
Se demuestra que bajo absoluta aleatoriedad la distribución de este es-
tadístico converge asintóticamente a 1. Si se observa que CJ > 1 entonces
hay evidencia de que los precios tienen una estructura que difiere de la que
se desprende de un camino aleatorio.
De existir DRIFT, es decir una tendencia en la serie de precios, entonces
la probabilidad de que se de una secuencia es mayor a la probabilidad de que
no se dé. Esto nos indica que ahora con DRIFT la razón debiera converger
a un valor distinto (mayor) de 1.
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 125
Si a partir del proceso para el residuo ε
t
IID
∼ N (0, σ
2
) definimos la función
indicadora como:
I
t
=

1 con probabilidad π
0 con probabilidad 1 −π

donde π = Pr [r > 0] = Pr
£
δ
σ
¤
, con
ˆ
δ =
P
r
t
T
y ˆ σ =
r
P
(
r
t

ˆ
δ
)
2
T−1
entonces se
demuestra que:
CJ |
drift6=0
=
π
s
1 −π
s
=
π
2
+ (1 −π)
2
2π (1 −π)
≥ 1
CJ
a
∼ N
Ã
π
s
1 −π
s
,
π
s
(1 −π
s
) + 2
¡
π
3
+ (1 −π)
3
−π
2
s
¢
T (1 −π
s
)
4
!
Para un juego justo donde H
0
: CJ = 1 (es decir π =
1
2
) vemos que los
límites inferiores del estadístico CJ serán CJ = 1 con una varianza de cero,
es decir:
1 =
π
2
+ (1 −π)
2
2π (1 −π)
0 =
π
s
(1 −π
s
) + 2
¡
π
3
+ (1 −π)
3
−π
2
s
¢
T (1 −π
s
)
4
Ejercicio. Supongamos que generamos una secuencia de números aleato-
rios ε de dimensión T = 1000 que obedecen a la siguiente ley de movimiento
(sin drift):
r
t
= ε
t
A esta vector aplicamos las definiciones para la función indicadora I y la
función acumuladora de signos A. Una vez encontrados los valores para
estas funciones generamos N
s
y N
o
. El cálculo del test se efectúa sobre la
hipótesis nula H
0
: CJ = 1 lo cual nos entrega:

CJ =
ˆ π
2
+(1−ˆ π)
2
2ˆ π(1−ˆ π)
r
ˆ πs(1−ˆ πs)+2(ˆ π
3
+(1−ˆ π)
3
−ˆ π
2
s
)
T(1−ˆ πs)
4
= 0.038895
126 CHAPTER 7 MODELOS UNIVARIADOS
con lo cual no rechazamos la hipótesis nula H
0
: CJ = 1 pues el estadístico es
menor a 1.96 (5% de significancia). El siguiente recuadro muestra un código
GAUSS que permite replicar estos resultados.
Código
rndseed 1234;
r=rndn(1000,1);
i=zeros(rows(r),1);
j=1;
do while j le rows(r);
if r[j] gt 0;i[j]=1;endif;
j=j+1;
endo;
a=i[1:rows(i)-1].*i[2:rows(i)]+(1-i[1:rows(i)-1]).*(1-i[2:rows(i)]);
ns=sumc(a);
no=rows(a)-ns;
p=cdfn(meanc(r)/stdc(r));
ps=ns/rows(a);
cj_est=(p^2+(1-p)^2)/(2*p*(1-p));
cj_var=((ps*(1-ps)+2*(p^3+(1-p)^3-ps^2))/(rows(a)*(1-ps)^4));
cjtest=(cj_est-1)/sqrt(cj_var);cjtest;
7.2.3 Test de Fuller
Fuller testea la hipótesis nula de que los coeficientes de autocorrelación para
varios rezagos de una serie (por ejemplo los retornos de un activo) son cero.
Si definimos al coeficiente de covarianza como θ (s) = cov (r
t
, r
s
) entonces el
coeficiente de correlación se representa por:
γ (s) =
Cov (r
s
, r
t
)
V ar (r
t
)
=
θ (s)
θ (0)
La contraparte muestral de estos estadísticos será (la covarianza
ˆ
θ se
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 127
puede calcular dividiendo por T −1 o por T −s):
ˆ
θ (s) =
1
T
T−s
P
t=1
(r
t
− ¯ r) (r
t+s
− ¯ r)
ˆ γ (s) =
ˆ
θ (s)
ˆ
θ (0)
¯ r =
P
T
t=1
r
t
T
El test propuesto tiene la siguiente distribución asintótica:
T

T −s
˜ ρ (s) ∼ N (0, 1)
˜ ρ (s) = ˆ ρ (s) +
T −s
(T −1)
2
¡
1 −ˆ ρ
2
(s)
¢
Como es usual la hipótesis nula corresponde a no existencia de autocor-
relación de la serie y se contrasta con una distribución normal estandarizada.
Si el estadístico es superior a 1.96 (considerando un 5% de significancia) en-
tonces rechazamos la hipótesis nula existiendo evidencia de autocorrelación
de la serie en el tiempo.
7.2.4 Tests Q y Q’
Esta clase de tests permite analizar la dependencia temporal (autocorrelación)
existente entre las observaciones en el tiempo (por ejemplo los retornos).
Box-Pierce (1970) o test Q. Este test se basa en el análisis conjunto
de los coeficientes estimados de una ecuación de residuos intertemporales
para verificar si son o no estadísticamente ceros. Estos coeficientes son las
correlaciones de los residuos, de manera que se analizan los γ
r
s
r
t
definidos
por:
γ
r
s
r
t
=
Cov (r
s
, r
t
)
V ar (r
t
)
=
E(r
s
, r
t
)
E(r
2
t
)
Tal como sabemos este coeficiente γ
rsrt
es equivalente al parámetro de la
ecuación auxiliar inversa γ
s
:
r
t−s
= γ
s
r
t

t−s
∀s = 1, 2, ..., q
128 CHAPTER 7 MODELOS UNIVARIADOS
donde el ˆ γ se calcula como la razón entre las covarianzas y la varianza de la
variable dependiente. Estimando la expresión anterior utilizando los retornos
efectivos estimamos un vector ˆ γ de dimensión qx1. Los autores demuestran
que el estadístico relevante para evaluar la hipótesis nula de que no existe
autocorrelación de retornos se define por (expresiones equivalentes):
Q = T
q
P
s=1
γ
2
s
∼ χ
2
(q)
Q = Tˆ γ
0
ˆ γ ∼ χ
2
(q)
de manera que si este estadístico supera a su equivalente χ
2
α
(q) entonces
rechazamos la nula presentándose evidencia de autocorrelación de orden q de
los retornos.
Ljung-Box (1978) o test Q’. Una perfección de este test lo presentan Ljung
y Box. Utilizando una expresión similar a la presentada por Box-Pierce, los
autores definen el estadístico Q
0
como:
Q
0
= T (T + 2)
q
P
s=1
·
γ
2
s
(T −s)
¸
∼ χ
2
(q)
Si el estadístico Q
0
es mayor a su equivalente de tabla χ
2
α
(q), entonces rec-
hazamos la hipótesis nula H
0
: γ
1
= γ
2
= ... = γ
q
= 0. Típicamente q es un
número alto como 24 ó 36, dependiendo de la frecuencia de la serie.
7.2.5 Test de Razón de Varianzas
Este test surge del análisis de la representación geométrica de movimiento
Browniano definido en una sección anterior, y evalúa si la variable o serie
bajo análisis presenta evidencia de autocorrelación serial. Por ejemplo, si
sabemos que los retornos de un activo se pueden representar por la expresión
r
t
≡ ln P
t
− ln P
t−1
= ln
³
P
t
P
t−1
´
= δ + ε
t
, entonces sabemos que la varianza
de los retornos será V (r
t
) = σ
2
ε
. de aquí podemos decir que si:
V (r
t
) = σ
2
ε
V (r
t−1
) = σ
2
ε
entonces la agregación de ambas varianzas será:
V (r
t
) +V (r
t−1
) = 2σ
2
ε
= 2V (r
t
)
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 129
El test se contruye a partir de la siguiente razón, considerando que bajo
la hipótesis nula se esperaría que se aproximara a 1:
κ =
V (r
t
) +V (r
t−1
)
2V (r
t
)
−→1
Al operacionalizar este test con la contraparte muestral del estadístico
κ, podemos representar la relación entre ˆ κ y el coeficiente de correlación de
primer orden ˆ ρ (1):
ˆ κ(1) =
ˆ
V (r
t
+r
t−1
)
2
ˆ
V (r
t
)
ˆ κ(1) =
ˆ
V (r
t
) +
ˆ
V (r
t−1
) + 2Coˆ v (r
t
, r
t−1
)
2
ˆ
V (r
t
)
ˆ κ(1) = 1 +
2Coˆ v (r
t
, r
t−1
)
2
ˆ
V (r
t
)
ˆ κ(1) = 1 + ˆ ρ (1)
Esta expresión nos recuerda que cualquier serie estacionaria posee una razón
κ que se define como 1 más el coeficiente de correlación de primer orden. Si
encontramos que ˆ ρ (1) = 0 entonces podemos decir que ˆ κ = 1.
Existe la generalización de esta última expresión para lo cual la hipótesis
nula a considerar será:
H
0
: ρ (j) = 0 ∀j = 1, ..., s
y el estadístico estará representado por:
ˆ κ(s) =
ˆ
V
³
P
j=s
j=0
r
t−j
´
(s + 1)
ˆ
V (r
t
)
= 1 + 2
j=s
P
j=1
µ
1 −
j
s + 1

ˆ ρ (j)
por ejemplo para un s = 1, o s = 2 el estadístico sería:
ˆ κ(1) = 1 + 2
j=1
P
j=1
µ
1 −
j
2

ˆ ρ (j) = 1 + 2
µ
1 −
1
2

ˆ ρ (1) = 1 + ˆ ρ (1)
ˆ κ(2) = 1 + 2
j=2
P
j=1
µ
1 −
j
3

ˆ ρ (j) = 1 + 2
µ
1 −
1
3

ˆ ρ (1) + 2
µ
1 −
2
3

ˆ ρ (2)
130 CHAPTER 7 MODELOS UNIVARIADOS
Si la serie posee un largo de T observaciones (asumamos que T es par)
entonces el test para una razón de varianzas de dos períodos se formará de:
κ(1) =
σ
2
II
σ
2
I
=
1
T/2
P
j=T/2
j=1
(r
2j
−2¯ r)
2
1
T
P
j=T
j=1
(r
j
− ¯ r)
2
donde r
j
= lnp
j
−lnp
j−1
y r
2j
= lnp
2j
−ln p
2j−2
. Dado que la distribución
asintótica de este estadístico está definido por:
ˆ
ξ =
r
T
2
(ˆ κ(2) −1)
a
∼ N (0, 1)
entonces si
ˆ
ξ pertenece al intervalo [−1.96, 1.96] entonces no rechazamos la
hipótesis nula de que el coeficiente de correlación es nulo, no existiendo evi-
dencia de correlación de los retornos en el tiempo.
Ejercicio. Supongamos la serie del Indice de Precios de Acciones del IPSA
desde abril 1995 hasta abril del año 2000 (T = 1247). Calculamos los estadís-
ticos para verificar con el test anterior si κ(2) = 1, es decir si el coeficiente
de autocorrelación de primer orden es cero. Los valores conseguidos son:
¯ r = 0.011%
σ
2
I
= 2.724016031
σ
2
II
= 6.290088658
lo cual implica que el estadístico a contrastar es:
ˆ
ξ =
r
T
2
(ˆ κ(2) −1) =
r
1247
2
µ
6.290088658
2.724016031
−1

= 32. 689
siendo este muy superior al valor de referencia de una tabla normal es-
tandarizada de 1.96, rechazando la hipótesis de no autocorrelación de los
retornos.
Ejercicio. Generamos una serie aleatoria a partir de y
t
= 100 +ε
t
donde
ε
t
∼ N(0,

10) considerando una muestra de T = 1247 observaciones sim-
uladas. Calculamos los estadísticos para verificar si κ(2) = 1, es decir si el
coeficiente de autocorrelación de primer orden es cero. Los valores consegui-
dos son:
¯ y = 0.0015%
σ
2
I
= 1.751081639
σ
2
II
= 1.649981214
7.3 TESTS DE RAíCES UNITARIAS 131
lo cual implica que el estadístico a contrastar es:
ˆ
ξ =
r
T
2
(ˆ κ(2) −1) =
r
1247
2
µ
1.649981214
1.751081639
−1

= −1. 441 7
Podemos verificar que el estadístico es mayor a −1.96 (es decir es menor en
valor absoluto), de manera que no rechazamos la hipótesis nula de autocor-
relación cero de la serie.
7.3 Tests de Raíces Unitarias
7.3.1 Test t y F de Dickey-Fuller (RW-RWD-RWDT)
y
t
= γy
t−1

t
y
t
= µ +γy
t−1

t
y
t
= µ +βt +γy
t−1

t
Reordenando (restando y
t−1
a ambos lados):
∆y
t
= γ

y
t−1

t
∆y
t
= µ +γ

y
t−1

t
∆y
t
= µ +βt +γ

y
t−1

t
7.3.2 Tests t y F de DFA (Dickey-Fuller Ampliado)
∆y
t
= γ

y
t−1
+
p
X
j=1
θ
j
∆y
t−j

t
∆y
t
= µ +γ

y
t−1
+
p
X
j=1
θ
j
∆y
t−j

t
∆y
t
= µ +βt +γ

y
t−1
+
p
X
j=1
θ
j
∆y
t−j

t
donde en orden p se define minimizando los criterios de Akaike (AIC),
Schwarz (BIC) o el critero de Hannan—Quinn (HQ), es decir se basan en
132 CHAPTER 7 MODELOS UNIVARIADOS
−2 veces el valor de la función de log-likekihood promedio ajustado por una
función de castigo asociada a cada criterio:
AIC = −2
lk
T
+
k
T
2
BIC = −2
lk
T
+
k
T
ln(T)
HQ = −2
lk
T
+
k
T
2 ln (ln (T))
donde lk representa al log-likelihood, T el número de observaciones y k
el número de parámetros a estimar.
Los tests se presentan a continuación:
t
c
=
ˆ γ

q
ˆ
V (ˆ γ

)
˜ df
Hip´ otesis Tests

∆y
t
=
P
p
j=1
θ
j
∆y
t−j

t
∆y
t
= µ +γ

y
t−1
+
P
p
j=1
θ
j
∆y
t−j

t

Φ
1
: (µ, γ

) = (0, 0)

∆y
t
=
P
p
j=1
θ
j
∆y
t−j

t
∆y
t
= µ +βt +γ

y
t−1
+
P
p
j=1
θ
j
∆y
t−j

t

Φ
2
: (µ, β, γ

) = (0, 0, 0)

∆y
t
= µ +
P
p
j=1
θ
j
∆y
t−j

t
∆y
t
= µ +βt +γ

y
t−1
+
P
p
j=1
θ
j
∆y
t−j

t

Φ
3
: (µ, β, γ

) = (µ, 0, 0)
donde se contrasta con una tabla F de Fisher con sus respectivos grados
de libertad (típicamente J = 2, 3):
Φ
i
=
(SRC
R
−SRC
NR
) /J
SRC
NR
/ (T −k)
˜F (J, T −k)
7.3 TESTS DE RAíCES UNITARIAS 133
7.3.3 Test Said-Dickey
Said-Dickey (Biometrica, 1984), permite testear raíces unitarias cuando los
errores siguen un proceso ARMA(p,q). Recordemos que un MA(1) se puede
representar por un AR(∞), de aquí que ahora la sumatoria se aplique hasta
K →∞. En este caso el modelo es:
∆y
t
= (ρ −1) y
t−1
+
K→∞
X
j=1
θ
j
∆y
t−j

t
De esta manera un proceso generador de datos para y del tipo AR(k)
donde k →∞ permite especificar un proceso ARMA(p,q) para el residuo.
7.3.4 Tests de Phillips-Perron
En una serie de artículos, Phillips (Econometrica, 1987) y Phillips-Perron
(Biometrica, 1988) generan un test a partir del DF y DFA de manera de
controlar por correlación serial y heteroscedasticidad de los residuos al mismo
tiempo.
Consideremos el modelo a estimar:
y
t
= θ +ρy
t−1

t
sin embargo asumamos que el verdadero proceso generador de datos para
la serie es:
y
t
−y
t−1
= ε
t
= ψ (L) e
t
donde ψ (L) sigue un polinomio estacionario y e sigue un proceso Gaus-
siano. El método Phillips-Perron consiste en:
Paso 1. Estimar por OLS los parámetros θ, ρ, el error estándar de ρ
definido por ˆ σ
ˆ ρ
, y el error estándar de la regresión s
2
=
P
ˆε
2
t
T−k
.
Paso 2. Estimadores consistentes de la varianza de la media
¡
λ
2
¢
y la
autocovarianzas
¡
γ
j
¢
poblacionales se obtienen del término de error ˆε
t
.
ˆ γ
j
= T
−1
T
X
t=j+1
ˆε
t
ˆε
t−j
ˆ
λ
2
= ˆ γ
0
+ 2
q
X
j=1
·
1 −
j
(q + 1)
¸
ˆ γ
j
134 CHAPTER 7 MODELOS UNIVARIADOS
para las autocovarianzas y para la media (Newey-West) respectivamente.
Paso 3. Estas correcciones se utilizan para ajustar el test t de Dickey-
Fuller asociado al parámetro ρ:
z
t
=
µ
ˆ γ
0
ˆ
λ
2
¶1
2
t −

¸
1
2
³
ˆ
λ
2
− ˆ γ
0
´³
T
ˆ σ
ˆ ρ
s
´
ˆ
λ
¸

Ejercicio. A partir de la siguiente información generada de la estimación
por OLS del modelo para la inflación en Chile (1933:02-2001:06):
π
t
= ˆ α + ˆ ρπ
t−1
+ ˆε
t
= 0.825274 + 0.651348π
t−1
+ ˆε
t
(0.119979) (0.026534)
El test de DF para el estadístico (ρ − 1) es (0.651348 − 1)/0.026534 =
−13.14. Este es el test estadístico que debe ser corregido según PP. La
suma de los residuos al cuadrado es de 7001.243 con una muestra de 819
observaciones. Es decir que s
2
= 7001.243/(819 − 2) = 8.569453, es decir
una desviación estándar de 2.927363. Las autocovarianzas se estiman con:
ˆ γ
0
=
P
ˆε
2
t
T
= 8.54853
ˆ γ
1
=
P
ˆε
t
ˆε
t−1
T
= −1.68145
ˆ γ
2
=
P
ˆε
t
ˆε
t−2
T
= 0.381113
ˆ γ
3
=
P
ˆε
t
ˆε
t−3
T
= 0.989295
ˆ γ
4
=
P
ˆε
t
ˆε
t−4
T
= 1.810678
Con estos estimadores calculamos
ˆ
λ
2
:
ˆ
λ
2
= 8.548 + 2
µ
4
5

(−1.68) + 2
µ
3
5

(0.381) +
2
µ
2
5

(0.9893) + 2
µ
1
5

(1.8107)
ˆ
λ
2
= 7.83292
7.3 TESTS DE RAíCES UNITARIAS 135
Con esto calculamos el estadístico de Phillips-Perron:
z
t
=
µ
ˆ γ
0
ˆ
λ
2
¶1
2
t −

¸
1
2
³
ˆ
λ
2
− ˆ γ
0
´³
T
ˆ σ
ˆ ρ
s
´
ˆ
λ
¸

=
µ
8.5485
7.83292
¶1
2
(−13.14) −

¸
1
2
(7.83292 −8.54853)
³
819
(0.026534)

8.569453
´

7.83292
¸

= −12.78
De igual manera se rechaza la hipótesis nula de raíz unitaria ya sea uti-
lizando el DF o el PP test.
7.3.5 Test de Kwiatkowski et al.
Este es un test cuya nula es estacionariedad con raíz unitaria como alternativa
(a la inversa de los tests anteriores). Este test se conoce como KPSS en
honor a sus autores (Kwiatkowski, Phillips, Schmidt y Shin, 1992, Journal
of Econometrics).
Se formula a partir de la suma parcial de la serie:
ˆ
Γ
t
=
t
X
i=1
ˆε
i
donde ˆε
t
se obtienen de una ecuación auxiliar como:
y
t
= ˆ τ +
ˆ
δt + ˆε
t
El test estadístico de interés es:
η =
1
n
2
s
2
(l)
n
X
t=1
ˆ
Γ
2
t
donde s
2
(l) se denomina varianza de largo plazo de ˆε
t
la cual es estimada
por:
˜ s
2
(l) =
1
n
n
X
t=1
ˆε
2
t
+
2
n
l
X
j=1
w(j, l)
n
X
t=j+1
ˆε
t
ˆε
t−j
136 CHAPTER 7 MODELOS UNIVARIADOS
donde los pesos w(j, l) se determinan por (Newey-West, 1987):
w(j, l) = 1 −
j
(l + 1)
El valor de l se define gerenalmente por l = n
1
2
(Newey-West, 1994,
Review of Economic Studies). Finalmente el test KPSS para la nula de
estacionariedad es:
ˆ η =
1
n
2
˜ s
2
(l)
n
X
t=1
ˆ
Γ
2
t
La distribución asintótica es derivada en Kwiatkowski et al.
7.4 Teorema de Descomposición de Wold
Este teorema se debe a H. O. A. Wold (1938, A Study in the Analysis of
Stationary Time Series) y es fundamental en la teoría de series de tiempo.
Teorema. Todo proceso estocástico estacionario puede ser aproximado
tan cerca como se desee ya sea a través de un AR(p), un MA(q), o una
combinación de ambos, es decir un proceso ARMA(p,q).
Este teorema fundamental de representación es el que nos permite estimar
modelos de series de tiempo de cualquier tipo para representar series que son
estacionarias.
7.5 Estacionariedad
Sea la variable {y
t
}
T
t=1
un proceso estocástico. Existen dos formas de esta-
cionariedad: débil y fuerte (o estricta).
1. Estacionariedad Débil. Se dice que el proceso {y
t
}
T
t=1
es débilmente
estacionario si este cumple con tres condiciones:
E [y
t
] = µ, |µ| < ∞
E
£
(y
t
−µ)
2
¤
= σ
2
y
< ∞
E [(y
t
−µ) (y
t−s
−µ)] = γ (s) < ∞, ∀s
Que los dos primeros momentos sean finitos e independientes de t es
una condición necesaria para estacionariedad débil.
7.6 OPERADORES DE REZAGOS: L
K
137
2. Estacionariedad Fuerte o Estricta. Si el proceso {y
t
}
T
t=1
posee una
distribución de densidad f
y
que no es dependiente de s, k entonces se
dice que {y
t
}
T
t=1
posee estacionariedad fuerte:
f
y
(y
t
1
, y
t
2
, ..., y
t
k
) = f
y
(y
t
1
+s
, y
t
2
+s
, ..., y
t
k
+s
)
es decir que la función de densidad no cambia con le tamaño ni el
perídodo considerado en la muestra.
7.6 Operadores de Rezagos: L
k
Para simplificar la notación es necesario introducir el concepto de operador de
rezagos L (del inglés "lag") que se define como aquel operador que rezaga k
veces la variable a la cual se le aplica. Por ejemplo consideremos las siguientes
equivalencias notacionales:
Lx
t
= x
t−1
L
2
x
t
= x
t−2
¡
1 −2L + 3L
2
¢
x
t
= x
t
−2x
t−1
+ 3x
t−2
L
−1
x
t
= x
t+1
¡
1 + 3L
−1
−0.5L
2
¢
x
t
= x
t
+ 3x
t+1
−0.5x
t−2
Esta notación nos permite representar de una manera más simplificada
los modelos de series de tiempo que se revisan a continuación.
7.7 AR(p)
Un proceso autoregresivo de series de tiempo de orden p, AR(p), tiene la
siguiente estructura analítica:
y
t
= ρ
1
y
t−1

2
y
t−2
+... +ρ
p
y
t−p

t
ε
t
= y
t
−ρ
1
y
t−1
−ρ
2
y
t−2
−... −ρ
p
y
t−p
ε
t
=
¡
1 −ρ
1
L −ρ
2
L
2
−... −ρ
p
L
p
¢
y
t
donde típicamente la variable endógena se presenta en desviación de su media
(y
t
− ¯ y), el residuo ε es un "ruido blanco", es decir cumple con las condiciones
138 CHAPTER 7 MODELOS UNIVARIADOS
E (ε
t
) = 0, y V (ε
t
) = σ
2
ε
< ∞. Aquí la variable y
t
es una combinación lineal
de sus propios rezagos o valores pasados.
Considerando la última expresion que representó al modelo AR, se puede
demostrar que todo proceso AR se puede representar como un MA y vicev-
ersa.
Supongamos que tenemos un proceso AR(1):
ε
t
= (1 −ρL) y
t
Podemos despejar y
t
dividiendo la expresión por (1 −ρL), es decir:
ε
t
(1 −ρL)
= y
t
Dado que la serie es estacionaria el coeficiente ρ es menor que 1 de manera
que podemos extender la serie de residuos sabiendo que si b < 1 entonces
1
1−b
= 1 +b +b
2
+....:
y
t
=
ε
t
(1 −ρL)
y
t
= ε
t
¡
1 +ρL + (ρL)
2
+ (ρL)
3
+...
¢
y
t
= ε
t

t
ρL +ε
t
(ρL)
2

t
(ρL)
3
+...
y
t
= ε
t

1
ε
t−1

2
ε
t−2

3
ε
t−3
+...
y
t
=
¡
1 +θ
1
L +θ
2
L
2

3
L
3
+...
¢
ε
t
y
t
=
P

i=1
θ
i
L
i
ε
t

t
donde θ
i
= ρ
i
, ∀i = 1, 2, 3, .... Esta relación permite representar modelos
AR(p) en forma equivalentes a MA(∞), y como veremos en la siguiente
sección, también se dá la relación inversa (MA(q) = AR(∞)).
Algunos ejemplos de procesos autoregresivos son:
AR(1) :

y
t
= ρy
t−1

t
(1 −ρL) y
t
= ε
t

AR(2) :

y
t
= ρ
1
y
t−1

2
y
t−2

t
(1 −ρ
1
L −ρ
2
L
2
) y
t
= ε
t

7.8 MA(Q) 139
7.8 MA(q)
Un proceso de media móvil (moving average, MA) de orden q, MA(q), tiene
la siguiente representación analítica:
y
t
= ε
t

1
ε
t−1

2
ε
t−2
+... +θ
q
ε
t−q
y
t
= ε
t
¡
1 +θ
1
L +θ
2
L
2
+... +θ
q
L
q
¢
donde ε sigue siendo una variable aleatoria ruido blanco.Aquí la variable y
t
es una combinación lineal de residuos pasados.
Algunos ejemplos de procesos de medias móviles son:
MA(1) :

y
t
= θε
t−1

t
y
t
= (1 +θL) ε
t

MA(2) :

y
t
= ε
t

1
ε
t−1

2
ε
t−2
y
t
= (1 +θ
1
L +θ
2
L
2
) ε
t

7.9 Proceso Integrado I(d)
Un proceso estocástico {y
t
}

t=1
se dice integrado de orden ”d”, es decir es y
t

I (d), si es que y
t
requiere ser diferenciado d-veces para que sea estacionaria.
Ejercicio. Sea una variable aleatoria y
t
= µ+y
t−1

t
, donde por ejemplo
asumamos µ = 2, y
0
= 1, y ε
t
∼ N (0, 10), entonces la dinámica para una
140 CHAPTER 7 MODELOS UNIVARIADOS
realización de 200 observaciones será:
Serie Intergrada y ∼ I(1)
Al calcular su primera diferencia la podemos representar como:
Primera Diferencia: ∆y ∼ I(0)
De aquí es posible determinar que casi cualquier serie no estacionaria se
puede transformar a estacionaria a través de diferenciar la serie ya sea una
vez, lo que es usual, o diferenciándola dos o más veces, lo cual es poco usual
en series económicas.
7.10 ARMA(P,Q) 141
7.10 ARMA(p,q)
Un proceso autoregresivo de media móvil de orden (p, q) para una serie esta-
cionaria y se puede representar por:
y
t
= ρ
1
y
t−1

2
y
t−2
+... +ρ
p
y
t−p

1
ε
t−1

2
ε
t−2
+... +θ
q
ε
t−q

t
donde ε es u ruido blanco. Aquí la serie y es una combinación lineal de
residuos y valores rezagados de y.
La expresión analítica resumida de este modelo es:
¡
1 −ρ
1
L −ρ
2
L
2
−... −ρ
p
L
p
¢
y
t
=
¡
1 +θ
1
L +θ
2
L
2
+... +θ
q
L
q
¢
ε
t
Algunos ejemplos de modelos ARMA(p, q) son:
ARMA(1, 1) :

y
t
= ρy
t−1
+θε
t−1

t
(1 −ρL) y
t
= (1 +θL) ε
t

ARMA(2, 1) :

y
t
= ρ
1
y
t−1

2
y
t−2
+θε
t−1

t
(1 −ρ
1
L −ρ
2
L
2
) y
t
= (1 +θL) ε
t

ARMA(1, 2) :

y
t
= ρy
t−1

1
ε
t−1

2
ε
t−2

t
(1 −ρL) y
t
= (1 +θ
1
L +θ
2
L
2
) ε
t

7.11 ARIMA(p,d,q)
Tal como señala el teorema de Wold, todo proceso estacionario puede ser
representado a través de un modelo del tipo AR, MA, o ARMA. Si la serie
bajo análisis no es estacionaria (no es I(0)) entonces debe ser diferenciada
"d" veces para que lo sea. Esto hace que uno pueda representar un modelo de
series de tiempo utilizando la extensión de los modelos ARMA, agregándose
el componente "integrado" al medio de la expresión. De esta forma el modelo
extendido es una representación autoregresiva, integrada, de media móvil y
se denota por ARIMA.
Podemos representar modelos cuya serie original y es no estacionaria, de
la siguiente forma:

d
y
t
= ρ
1

d
y
t−1

2

d
y
t−2
+... +ρ
p

d
y
t−p

1
ε
t−1

2
ε
t−2
+... +θ
q
ε
t−q

t

d
y
t
=
P
p
i=1
ρ
i

d
y
t−i
+
P
q
i=1
θ
i
ε
t−i

t
142 CHAPTER 7 MODELOS UNIVARIADOS
cuya representación analítica resumida es:
¡
1 −ρ
1
L −ρ
2
L
2
−... −ρ
p
L
p
¢

d
y
t
=
¡
1 +θ
1
L +θ
2
L
2
+... +θ
q
L
q
¢
ε
t
Algunos ejemplos de modelos ARIMA son:
ARIMA(1, 1, 1) :

∆y
t
= ρ∆y
t−1
+θε
t−1

t
(1 −ρL) ∆y
t
= (1 +θL) ε
t

ARIMA(2, 1, 1) :

∆y
t
= ρ
1
∆y
t−1

2∆
y
t−2
+θε
t−1

t
(1 −ρ
1
L −ρ
2
L
2
) ∆y
t
= (1 +θL) ε
t

ARIMA(1, 2, 1) :


2
y
t
= ρ∆
2
y
t−1

1
ε
t−1

t
(1 −ρL) ∆
2
y
t
= (1 +θ
1
L) ε
t

7.12 Estacionalidad y Modelos SAR y SMA
Cuando una serie tiene una frecuencia que presenta estacionalidad (por ejem-
plo datos mensuales o trimestrales, o efectos día de la semana) se sugiere sacar
la estacionalidad ajustando la serie sacando la diferencia de ella considerando
la frecuencia que se quiere sacar. Es decir, la serie se ve transformada por el
factor (1 −L
s
) donde s indica la frecuencia estacional, por ejemplo: trimes-
tral (s = 4), mensual (s = 12), datos diarios con efecto semana (s = 5). Este
ajuste se denomina corrección de estacionalidad al factor autoregresivo y se
denota por SAR, es decir SAR(4), SAR(12), y SAR(5) , respectivamente
para el ejemplo anterior.
Si una serie y
t
, tiene frecuencia mensual y presenta estacionalidad, en-
tonces se debe transformar como SAR(12):
y
t
→ y
t
−φy
t−12
=
¡
1 −φL
12
¢
y
t
y si la frecuencia es trimestral el ajuste será SAR(4):
y
t
→ y
t
−φy
t−4
=
¡
1 −φL
4
¢
y
t
7.13 ESTIMACIÓN DE MODELOS ARIMA(P, D, Q) 143
Este ajuste modifica la dinámica de cualquier proceso autoregresivo incor-
porándose nuevos rezagos. Por ejemplo si tenemos inicialmente un proceso
AR(2), y le agregamos un SAR(4) el modelo se transformará a:
AR(2) : y
t
= ρ
1
y
t−1

2
y
t−2

t
AR(2), SAR(4) :
¡
1 −ρ
1
L −ρ
2
L
2
¢ ¡
1 −φL
4
¢
y
t
= ε
t

¡
1 −φL
4
¢
y
t
= ρ
1
¡
1 −φL
4
¢
y
t−1

2
¡
1 −φL
4
¢
y
t−2

t
⇒ y
t
= ρ
1
y
t−1

2
y
t−2
+φy
t−4
−ρ
1
φy
t−5
−ρ
2
φy
t−6

t
También (aunque más exótico) puede agregarse un componente estacional
al proceso de media móvil: SMA(s). Expresiones de este tipo son por ejem-
plo:
AR(1), SMA(4) : (1 −ρL) y
t
=
¡
1 −φL
4
¢
ε
t
⇒ y
t
= ρy
t−1

t
−φε
t−4
MA(1), SMA(4) : y
t
= (1 +θL)
¡
1 −φL
4
¢
ε
t
⇒ y
t
= ε
t
+θε
t−1
−φε
t−4
−φθε
t−5
Un modelo general ARMA con ajustes estacionales a las medias móviles
y al proceso autoregresivo tiene una dinámica más compleja. Por ejemplo, la
siguiente ecuación representa a un proceso ARMA(1, 1), SAR(4), SMA(4):
(1 −ρL)
¡
1 −φL
4
¢
y
t
= (1 +θL)
¡
1 −φL
4
¢
ε
t
y
t
= ρy
t−1
+φy
t−4
−ρφy
t−5

t
+θε
t−1
−φε
t−4
−θφε
t−5
7.13 Estimación de Modelos ARIMA(p, d, q)
Box y Jenkins desarrollaron una metodología para estimar modelos de series
de tiempo. Este procedimiento consistía en tres etapas:
1. Indentificación. Aquí el investigador determina estadísticamente el or-
den autoregresivo (p), el orden de media móvil (q), y el grado de inte-
gración (d) de la serie bajo estudio. Para identificar estos parámetros
usualmente se visualizan conjuntamente la función de autocorrelación
y la función de correlación parcial de la serie.
2. Estimación de Parámetros. Se puede utilizar mínimos cuadrados no
lineales o métodos de máximo verosimilitud.
144 CHAPTER 7 MODELOS UNIVARIADOS
3. Diagnóstico de los Residuos. Una vez se ha estimado el modelo hay que
verificar que los residuos del proceso ARIMA no presenten ningún tipo
de autocorrelación que el modelo no haya considerado. Para este diag-
nóstico podemos ver las autocorrelaciones y la función de correlación
parcial, o más formalmente podemos aplicar los siguientes tests (ver
secciones anteriores para una descripción en detalle de estos tests):
• Brock, Dechert y Scheinkman (BDS)
• Cowles y Jones (CJ)
• Fuller
• Box-Jenkins (Q)
• Ljung-Box (Q0)
• Razón de Varianzas (κ)
Esta etapa es crucial en todo proceso de estimación de un modelo de
series de tiempo.
Chapter 8
Modelos Heteroscedásticos
8.1 GARCH
El modelo que se utilizará como punto de partida en esta sección es el tradi-
cional modelo de autorregresivo generalizado de heteroscedasticidad condi-
cionada (GARCH), desarrollado por Bollerslev (1987), el cual se representa
analíticamente por el siguiente sistema aplicado y
t
y su volatilidad σ
2
t
:
y
t
= µ +
X
j∈J
ρ
j
y
t−j

t
ε
t
˜N
¡
0, σ
2
t
¢
σ
2
t
= β
0
+
i=q
X
i=1
γ
i
ε
2
t−i
+
i=p
X
i=1
β
i
σ
2
t−i
donde J, p, q se identifican utilizando procedimientos estándares de series de
tiempo.
Existe una extención que permite considerar la volatilidad de la variable
y
t
como variable explicativa de su propio nivel o media. En este caso la
ecuación GARCH debe incluir rezagos de σ
20
t
s como variables explicativas,
dando origen a los modelos GARCH-M, es decir con volatilidad en la media.
A su vez se puede requerir de evaluar si el nivel de la variable y
t
o alguno
de sus rezagos afecta a su propia volatilidad. Para considerar esta posibilidad
es necesario incorporar a y
t−j
directamente en la expresión de volatilidad, tal
145
146 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
como se representa en el siguiente sistema:
y
t
= µ +
X
j∈J
ρ
j
y
t−j
+
X
k∈K
θ
k
σ
2
t−k

t
ε
t
˜N
¡
0, σ
2
t
¢
σ
2
t
= β
0
+
i=q
X
i=1
γ
i
ε
2
t−i
+
i=p
X
i=1
β
i
σ
2
t−i
+
X
s∈S
ψ
s
y
t−s
donde al igual que en caso del GARCH J, K y S deben ser determinadas
empíricamente.
Estos modelos tienen la característica de que shocks inducen a compor-
tamientos simpétricos de la volatilidad, independientemente de si estos son
positivos o negativos. Para evaluar un eventual comportamiento asimétrico
existe una variedad de modelos conocidos como GARCH-Cuadrático (QGARCH),
Umbral-GARCH (TGARCH), Glosten-Jagannathan-Runkle GARCH (GJR-
GARCH) model, y finalmente el modelo asimétrico Box-Cox GARCH (Box-
Cox-AGARCH), el cual es capaz de incluir como casos especiales a la mayoría
de los modelos de volatilidad existentes.
8.2 QGARCH
El modelo QGARCH(1,1)
1
puede representarse por:
y
t
= µ +
X
j∈J
ρ
j
y
t−j
+
X
k∈K
θ
k
σ
2
t−k

t
ε
t
˜N
¡
0, σ
2
t
¢
σ
2
t
= β
0

1
ε
2
t−1

1
σ
2
t−1
+ϕε
t−1
+
X
s∈S
ψ
s
y
t−s
donde ϕ es el parámetro asimétrico que ayuda a diferenciar del efecto positivo
o negativo del impacto del shock sobre la volatilidad. Un shock positivo
de tamaño 1 tendrá un impacto equivakente a γ
1
+ ϕ sobre la volatilidad,
mientras que un shock de igual magnitud pero de orden negativo impactará
γ
1
−ϕ sobre la volatilidad de y
t
, en lugar de γ
1
y −γ
1
como predice el modelo
simétrico.
1
Por simplicidad se reportan la familia de modelos de orden p = 1 y q = 1, con y
t
como
variable dependiente.
8.3 T-GARCH 147
8.3 T-GARCH
La ecuación para la volatilidad del modelo de umbral o TGARCH(1,1) se
representa por:
σ
2
t
= β
0

1
ε
2
t−1

1
σ
2
t−1
+ϕτ
t−1
ε
2
t−1
+
X
s∈S
ψ
s
y
t−s
donde el parámetro τ opera como una función indicadora a partir de la
definición del umbral, tal como lo define la siguiente expresión:
τ
t−1
=
½
1 si ε
t−1
≤ 0
0 si ε
t−1
> 0
¾
Luego si existe un shock negativo sobre y
t
, el impacto sobre la volatilidad
será igual a γ
1
+ ϕ mientras que si el shock es positivo el impacto será
solamente γ
1
, dado que en este caso τ = 0.
8.4 GJR-GARCH
El modelo introducido por Glosten, Jagannathan and Runkle (1993) resuelve
el problema de la asimetría con un enfoque alternativo. La ecuación para la
volatilidad se representa por:
σ
2
t
= β
0
+ (1 −α
t−1
) γ
1
ε
2
t−1

1
σ
2
t−1
+ϕα
t−1
ε
2
t−1
+
X
s∈S
ψ
s
y
t−s
donde la función indicadora es ahora:
α
t−1
=
½
0 si ε
t−1
≤ 0
1 si ε
t−1
> 0
¾
Esto significa que si el shock sobre y
t
es positivo, el impacto sobre la volatil-
idad será ϕ, mientras que si es negativo el impacto es γ
1
. El modelo GJR-
GARCH entrega similares resultados al modelo TGARCH.
8.5 Modelo Asimétrico GARCH
Hentschel(1995) presenta un modelo generalizado que incluye como caso espe-
cial a la mayoría de los modelos GARCH
2
. Dependiendo del valor que toman
2
Excluye al QGARCH.
148 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
determinados parámetros del modelo, es posible representar a una amplia
variedad de representaciones de volatilidad, ya sea un GARCH, TGARCH,
o un GARCH exponencial, por ejemplo.
La representación asimétrica del modelo Box-Cox-AGARCH(1,1), está
dada por:
σ
λ
t
−1
λ
= β
0

1
σ
λ
t−1
f
ν
µ
ε
t−1
σ
t−1


1
σ
λ
t−1
−1
λ
+
X
s∈S
ψ
s
y
t−s
f
µ
ε
t−1
σ
t−1

=
¯
¯
¯
¯
ε
t−1
σ
t−1
−δ
0
¯
¯
¯
¯
−δ
1
µ
ε
t−1
σ
t−1
−δ
0

donde su comportamiento asimétrico se deriva de la existencian de la función
f
³
ε
t−1
σ
t−1
´
que posee dos parámetros (δ
0
y δ
1
) que representan la evolución no
simétrica de la volatilidad de y
t
dependiendo de si el shock es positivo o
negativo.
8.6 Curvas de Impacto de Noticias (News Im-
pact Curves)
8.6 CURVAS DEIMPACTODENOTICIAS (NEWS IMPACTCURVES)149
Figure 8.1: Curvas de Impacto para Modelos de Volatilidad
Figure 8.2: Curvas de Impacto para Modelos de Volatilidad Extendidos
150 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
Figure 8.3: Curva de Impacto de Noticias para Modelo Box-Cox-AGARCH
Chapter 9
Modelos de Volatilidad
Alternativos
9.1 Volatilidad con Distribución t-Student
Una altenativa muy utilizada teóricamente es la de trabajar con residuos que
tienen una distribución de densidad leptokúrtica del tipo t-Student o del tipo
Cauchy. La distribución Cauchy tiene la siguiente representación analítica
para una variable aleatoria ε:
f(ε
t
, α, β) =
1
π
α
α
2
+ (ε
t
−β)
2
5 2.5 0 -2.5 -5
0.3
0.25
0.2
0.15
0.1
0.05
x
y
x
y
Función Cauchy con α = 1 y β = −1, 0, 1
151
152CHAPTER9 MODELOS DEVOLATILIDADALTERNATIVOS
Para la función de distribución t-Student, consideremos una función con
λ grados de libertad:
f(ε
t
, λ) =
Γ
h
(λ+1)
2
i
[πλ]
1
2
Γ
£
λ
2
¤
·
1 +
ε
2
t
λ
¸
−(
λ+1
2
)
4 2 0 -2 -4
0.5
0.375
0.25
0.125
0
x
y
x
y
Función de Distribución N(0, 1) y t-Student con λ = 5 (azul)
donde la función Gamma se representaba por Γ(x) = (x −1)!.
Se sabe que asintóticamente (grados de libertad λ →∞) esta distribución
converge a una normal, incluso su cuarto momento (kurtosis) se aproxima
a lo que una distribución normal predice (3) reflejándose la leptokurtosis
requerida en muestras finitas, según lo que se observa en la data. Para una
variable aleatoria y estos dos momentos son:
E(ε
2
t
) =
λ
λ−2
λ→∞
→ 1
E(ε
4
t
) =

2
(λ−2)(λ−4)
λ→∞
→ 3
A continuación se presenta un código escrito en GAUSS que efectúa la op-
timización por máximo verosimilitud a partir de una distribución t-Student,
que supone tener en memoria la base de datos de la serie y. Para que el cuarto
momento esté definido se le restribge durante el proceso de optimización a
que el parámetro λ (representado por c[1] en el código) sean superior a 4.
Código GAUSS
@ Estimacion del Modelo t-Student por ML @
nobs=rows(y);
y=y[1:nobs];
9.2 MODELOS DE VOLATILIDAD ESTOCÁSTICA 153
proc (1) = lnlk(c,y);
local lnl, llk, nobs, t;
nobs=rows(y);
lnl=zeros(nobs,1);
t=1;
do while t le nobs;
lnl[t]=ln(gamma((c[1]+1)/2))-ln(gamma(c[1]/2))-0.5*ln(c[1]*pi)
-((c[1]+1)/2)*ln(1+y[t]^2/c[1]);
t=t+1;
endo;
llk=sumc(lnl);
retp(llk);
endp;
c1=70;
startv=c1;
__title="Modelo PDF t-Student";
_cml_MaxIters = 5000;
_cml_Algorithm = 1;
_max_LineSearch =2;
_cml_GradMethod=1;
_cml_covpar=1;
_cml_c=1;
_cml_d=4;
{b,f0,g,cov,retcode} = maxprt(cml(y,0,&lnlk,startv));
9.2 Modelos de Volatilidad Estocástica
Chapter 10
Modelos Multivariados
Una extensión natural a los modelos de series de tiempo univariados es aque-
lla que considera que existe una covariación entre un conjunto de variables
que se relacionan tanto contemporáneamente como intertemporalmente. Es
el caso por ejemplo de la tasa de interés de política de un banco central, la
inflación, y el nivel de actividad, o en el ámbito financiero la relación exis-
tente entre los índices accionarios en el mundo (FTSE, Dow Jones, Nikkey,
DAX, etc.) y los tipos de cambio (Yen, Euro, Libra, etc.), o en general los
precios de activos financieros.
Este grado de correlación es capturado por modelo sde series de tiempo
multivariados, es decir aquellos en los cuales el análisis se efectua por sobre
un conjunto de variables de interés como los arriba mencionados, en lugar de
una sola variable como era el caso de los modelos univariados.
Este capítulo extiende el análisis hacia aquellos modelos multivariados,
siempre preservando la característica de lineal, lo cual permite denominarlos
modelos de vectores autoregresivos (VAR). Se revisarán modelos VARsimples
y sus versiones estructurales, y se presenta un modelo VAR heteroscedástico
simétrico del tipo VAR-GARCHque analiza el impacto de contagio de volatil-
idades de retornos accionarios para un conjunto de activos internacionales.
10.1 Vectores Autoregresivos: VAR
La extensión más directa de los modelos univariados autorregresivos es la
de considerar un vector de variables que se correlacionan entre sí autorre-
gresivamente. Estos modelos VAR se pueden representar por un sistema de
155
156 CHAPTER 10 MODELOS MULTIVARIADOS
ecuaciones. Consideremos un modelo Bi-VAR(p), es decir un modelo de dos
variables (y
1
, y
2
) con un rezago (p = 1):
y
1t
= θ
11

12
y
1t−1

13
y
2t−1

1t
y
2t
= θ
21

22
y
1t−1

23
y
2t−1

2t
donde la estructura de residuos ε
1
, ε
2
tienen valor esperado cero y matriz de
varianzas y covarianzas contemporanea no singular y constante para todo t,
y además en donde estos residuos no covarían intertemporalmente.
La forma matricial del sistema anterior en conjunto con los supuestos se
pueden representar por:
y
t
= Θ
0

1
y
t−1

t
E(ε
t
) = 0
E (ε
t
ε
0
t
) = Σ
ε
Cov (ε
t
,
t+k
) = 0, ∀k 6= 0
donde podemos definir:
y
t
=

y
1t
y
2t
¸
¸
Θ
0
=

θ
11
θ
21
¸
¸
Θ
1
=

θ
12
θ
13
θ
22
θ
23
¸
¸
10.1.1 Estacionariedad del VAR
Al igual que en para el caso univariado se requiere que este sistema sea
estacionario. Estacionariedad estricta o fuerte impone la condición que la
función de distribución multivariada sea estable en el tiempo, mientras que
estacionariedad en su versión débil implica necesariamente que la media, la
varianza y las covarianzas intertemporales entre variables dependientes no
cambien en el tiempo y adicionalmente encontrar una dinámica convergente
10.1 VECTORES AUTOREGRESIVOS: VAR 157
del sistema a través de analizar las raíces del siguiente polinomio:
p (λ) = det
¯
¯
¯
¯
¯
¯

¸
1 0
0 1
¸

−λ

¸
θ
12
θ
13
θ
22
θ
23
¸

¯
¯
¯
¯
¯
¯
La última condición de estacionariedad consiste en que las raíces de este
polinomio deben estar fuera del círculo unitario, es decir deben ser mayores a
uno. Para nuestro vector autorregresivo de un rezago (VAR(1)) el polinomio
de segundo grado se representa por la resolución del siguiente determinante:
det
¯
¯
¯
¯
¯
¯
1 −λθ
12
−λθ
13
−λθ
22
1 −λθ
23
¯
¯
¯
¯
¯
¯
= 1 −(θ
12

23
) λ + (θ
12
θ
23
−θ
22
θ
23
) λ
2
donde se requiere que λ
1
> 1 y λ
2
> 1.
Una definición alternativa consiste en analizar la estacionariedad del VAR
calculando las raíces que definan que el siguiente polinomio característico:
p (φ) = det
¯
¯
¯
¯
¯
¯

¸
θ
12
θ
13
θ
22
θ
23
¸

−φ

¸
1 0
0 1
¸

¯
¯
¯
¯
¯
¯
donde si se resuelve la ecuación característica p (φ) = 0, entonces φ define al
vector propio (eigenvalue) de la matriz Θ
1
. Específicamente:
det
¯
¯
¯
¯
¯
¯

¸
θ
12
θ
13
θ
22
θ
23
¸

−φ

¸
1 0
0 1
¸

¯
¯
¯
¯
¯
¯
= 0
este determinante es un polinomio de grado n, equivalente al número de filas
(o columnas) de la matriz analizada Θ. Este polinomio permite obtener las
raíces de Θ
1
denominados valores propios o eigenvalues. Para que un sistema
sea estacionario estas raíces deben ser menores que 1 en valor absoluto.
Generalizando a un sistema o vector autorregresivo con k variables y
con p rezagos, la representación matricial con su respectiva condición de
estacionariedad será:
y
t
= Θ
0

1
y
t−1

2
y
t−2
+... +Θ
p
y
t−p

t
0 = det
¡
I −λΘ
1
−λ
2
Θ
2
−... −λ
p
Θ
p
¢
158 CHAPTER 10 MODELOS MULTIVARIADOS
Ejercicio. La estimación de un sistema de dos variables con un rezago
entregó el siguiente vector de parámetros estimados, representados en forma
matricial por:

0.08 0.61
0.32 0.27
¸
¸
El polinomio característico se representa por el determinante de
det
¯
¯
¯
¯
¯
¯

¸
0.08 0.61
0.32 0.27
¸

−φ

¸
1 0
0 1
¸

¯
¯
¯
¯
¯
¯
= φ
2
−0.35φ −0.173 6
cuyas raíces o valores propios al solucionar φ
2
−0.35φ −0.173 6 = 0 son:
φ
1
= −0.276 91
φ
2
= 0.626 91
ambos menores que 1 en valor absoluto de manera que el sistema es esta-
cionario.
Para determinar la condición de estacionariedad debemos calcular el sigu-
iente determinante:
det
¯
¯
¯
¯
¯
¯

¸
1 0
0 1
¸

−λ

¸
0.08 0.61
0.32 0.27
¸

¯
¯
¯
¯
¯
¯
= 0
1.0 −0.35λ −0.173 6λ
2
= 0
donde ahora la solución es:
λ
1
= −3. 611 2
λ
2
= 1. 595 1
que equivale al inverso de los valores encontrados para φ
1
y φ
2
.
φ
1
= −0.276 91 =
1
−3. 611 2
=
1
λ
1
φ
2
= 0.626 91 =
1
1. 595 1
=
1
λ
2
De quí se entiende por qué a veces cuando se habla de estacionariedad se
dice que las raíces deben estar fuera del círculo unitario, lo que se refiere a
10.1 VECTORES AUTOREGRESIVOS: VAR 159
que los valores de las raíces λ
0
s deben ser mayores que 1 en valor absoluto,
o lo que es lo mismo, que los valores de los φ
0
s sean menores que 1 en valor
absoluto.
Ejercicio. La estimación de un sistema de dos variables con dos rezagos
entregó el siguiente vector de parámetros estimados, representados en forma
matricial por:

−0.561594 −0.023580
0.071865 0.657941
¸
¸
,

0.0000734 −0.007503
0.396690 0.216838
¸
¸
El polinomio característico se representa por el determinante de
det
¯
¯
¯
¯
¯
¯

¸
1 0
0 1
¸

−λ

¸
−0.561594 −0.023580
0.071865 0.657941
¸

−λ
2

¸
0.0000734 −0.007503
0.396690 0.216838
¸

¯
¯
¯
¯
¯
¯
= 2. 992 3 × 10
−3
λ
4
−0.111 83λ
3
−0.584 71λ
2
−0.09 634 7λ + 1
La solución de este polinomio entrega los siguientes valores propios, todos
los cuales son mayores que 1 de manera que el sistema es estacionario:
λ
1
= 42. 035
λ
2
= 1. 123 4
λ
3
= −1. 756 2
λ
4
= −4. 029 6
10.1.2 Rezagos Optimos: VAR(p)
Al igual que en modelos univariados existen diversos criterios o funciones
a minimizar, y que permiten definir exactamente el número de rezagos (o
orden) que deben presentar los modelos de VAR. Entre los más utilizados
empíricamente se encuentran los criterio de información de Akaike (AIC),
criterio de información Bayesiana de Schwarz (BIC), y el criterio de Hannan
y Quinn (HQ).
Los tres criterios imponen una función de pérdida considerando el número
de parámetros a estimar en el modelo, lo cual determina un factor comun
160 CHAPTER 10 MODELOS MULTIVARIADOS
entre los tres criterios (AIC < HQ < BIC):
AIC = ln|
ˆ
Σ
e
| +
pd
2
T
[2]
BIC = ln|
ˆ
Σ
e
| +
pd
2
T
[ln(T)]
HQ = ln|
ˆ
Σ
e
| +
pd
2
T
[2 ln (ln (T))]
donde p define el número de rezagos del VAR, T el número de observaciones,
d el número de ecuaciones (o variables) del VAR, y ln |
ˆ
Σ
e
| define el logaritmo
del determinante de la matriz de varianzas y covarianzas estimada de los
residuos muestrales de cada ecuación del sistema VAR. Los elementos de
ˆ
Σ
e
son calculados considerando la estimación por máximo verosimilitud de las
varianzas de los residuos (es decir dividiendo por T en lugar de dividir por
T −(pd
2
+ 1)) llegando a definirse por:
ˆ
Σ
e
=
1
T

e
0
1
e
1
e
0
1
e
2
... e
0
1
e
d
e
0
2
e
1
e
0
2
e
2
... e
0
2
e
d
... ... ... ...
e
0
d
e
1
e
0
d
e
2
... e
0
d
e
d
¸
¸
¸
¸
¸
¸
¸
¸
dxd
10.2 Funciones de Impulso-Respuesta
10.3 Test de Causalidad de Granger
10.4 Vector Autoregresivo Estructural: SVAR
Esta metodología consiste en relacionar los residuos estructurales (ε
t
) con los
muestrales del vector autoregresivo (e
t
). El modelo estructural se represen-
taría por una media móvil MA(∞) de la forma:
∆y
t
= A
0
ε
t
+A
1
ε
t−1
+A
2
ε
t−2
+.... =
P

i=0
A
i
ε
t−i
= A(L) ε
t
donde A(L) representa a la matriz de polinomios de rezagos y ∆y representa
el vector de variables integradas de orden cero I(0) o estacionarias. Por
10.4 VECTOR AUTOREGRESIVO ESTRUCTURAL: SVAR 161
construcción se asume que la matriz de varianzas y covarianzas de los shocks
estructurales se representa por la matriz identidad, es decir:
E(εε
0
) = I
Para identificar los parámetros de este modelo estructural se estima su
forma autoregresiva reducida con p rezagos V AR(p):
∆y
t
=
ˆ
Θ
1
∆y
t−1
+
ˆ
Θ
2
∆y
t−2
+... +
ˆ
Θ
p
∆y
t−p
+e
t
donde
ˆ
Θ
i
representa la matriz de rezagos polinomiales estimada. La matriz
de varianzas y covarianzas estimada se denota por:
E(ee
0
) = Ψ
Dado que el proceso estocástico estimado anterior es estacionario, en-
tonces podemos representar al V AR(p) como un proceso de media móvil con
infinitos rezagos (Teorema de Descomposición de Wold), es decir un MA(∞):
∆y
t
= e
t
+C
1
e
t−1
+C
2
e
t−2
+.... =
P

i=0
C
i
e
t−i
= C (L) e
t
donde C
0
= 1, lo cual finalmente nos permite relacionar los residuos estruc-
turales con los muestrales o estimados a través de la siguiente expresión:
e
t
= A
0
ε
t
lo cual implica que:
E (ee
0
) = A
0
E (εε
0
) A
0
0
= A
0
A
0
0
= Ψ
Luego finalmente para identificar los shocks estructurales (ε) a partir de
la información contenida en la estimación del V AR(p), es decir a partir de
los residuos muestrales (e) y la matriz de varianzas y covarianzas estimada
Ψ, necesitamos identificar suficientes parámetros o restricciones de la matriz
A
0
. Para esto tomamos la matriz simétrica Ψ que nos entrega estimadores
n(n + 1) /2 de A
0
(n es el número de variables en el V AR), restando sola-
mente n(n −1) /2 restricciones que imponer para completar la matriz A
0
.
Una vez definida A
0
se procede a identificar la matriz de efectos de largo
plazo de los shocks del modelo reducido
1
, C(1), para relacionarla con su ma-
triz equivalente del modelo estructural A(1), a través de A(1) = C(1)A
0
. El
1
C(1) se obtiene de la estimación del V AR(p) y correspopnde al valor del polinomio
C(L) cuando L = 1.
162 CHAPTER 10 MODELOS MULTIVARIADOS
proceso final consiste en identificar e imponer restricciones de largo plazo,
es decir sobre A(1), considerando, la matriz de polinomios C(1) estimada a
partir del VAR, la parte conocida de A
0
, y finalmente restricciones de coin-
tegración y teoría macroeconómica sobre relaciones de largo plazo entre las
variables
2
.
10.5 Modelo VAR-GARCH(1,1)
El modelo a estimar se representa por:
y
t
= θ
11

12
y
t−1

13
π
t−1

yt
π
t
= θ
21

22
y
t−1

23
π
t−1

πt
ε =

ε
yt
ε
πt
¸
¸
˜N

¸

0
0
¸
¸
,

σ
2
yt
ρσ
yt
σ
πt
ρσ
yt
σ
πt
σ
2
πt
¸
¸
¸

σ
2
yt
= φ
1

2
ε
2
yt−1

3
σ
2
yt−1
σ
2
πt
= ω
1

2
ε
2
πt−1

3
σ
2
πt−1

4
σ
2
πt−2
Código GAUSS
proc lnlk(c,data);
local nobs,ey,ep,cova,sigma,dsigma,t,hy,hp,m,lnl,stt,in;
nobs=rows(data);
hy=zeros(nobs,1);hp=hy;dsigma=hy;cova=hy;m=hy;
hy[1]=sqrt(abs(c[7]/(1-c[8]-c[9])));
hp[1]=sqrt(abs(c[10]/(1-c[11]-c[12]-c[13])));
ey=zeros(nobs,1);ep=ey;
t=3;
do while t le nobs;
hy[t]=sqrt(abs(c[7]+c[8]*ey[t-1]^2+c[9]*hy[t-1]^2));
hp[t]=sqrt(abs(c[10]+c[11]*ep[t-1]^2+c[12]*
hp[t-1]^2+c[13]*hp[t-2]^2));
ey[t]=y[t]-x[t,.]*(c[1]|c[2]|c[3]);
ep[t]=p[t]-x[t,.]*(c[4]|c[5]|c[6]);
2
La restricción usual de largo plazo en modelos macroeconométricos es que shocks de
demanda no causan efectos permanentes sobre el producto, o que los shocks de oferta
producen efectos permanentes sobre el producto.
10.5 MODELO VAR-GARCH(1,1) 163
cova[t]=c[14]*hy[t]*hp[t];
sigma=(hy[t]^2~cova[t])|(cova[t]~hp[t]^2);
dsigma[t]=det(sigma);
in=inv(sigma);
m[t]=(ey[t]~ep[t])*in*(ey[t]|ep[t]);
t=t+1;
endo;
stt=3;
lnl=-.5*ln(2*pi)-.5*ln(dsigma[stt:rows(data)])
-.5*m[stt:rows(data)];
retp(lnl);
endp;
proc inevgarch(c);
retp((c[7]/(1-c[8]-c[9]))|(c[10]/(1-c[11]-c[12]-c[13])));
endp;
_cml_MaxIters = 200;
_cml_Algorithm = 3;
_cml_LineSearch = 2;
_cml_GradMethod=1;
_cml_covpar=2;
c7=0.4;
c8=0.2;
c9=0.7;
c10=0.4;
c11=0.2;
c12=0.7;
c13=0;
c14=0;
startv=inv(x’x)*x’y|inv(x’x)*x’p|c7|c8|c9|c10|c11|c12|c13|c14;
_cml_ineqproc = &inevgarch;
{b,f0,g,cov,retcode} = maxprt(cml(data,0,&lnlk,startv));
164 CHAPTER 10 MODELOS MULTIVARIADOS
10.6 Cointegración y MCE
10.6.1 Cointegración Uniecuacional
Supongamos que y
t
, x
t
son RW (i.e. no estacionarios). Dado lo anterior es de
esperar que una combinación lineal de x, y tambien sea RW. Sin embargo, las
dos series pueden tener la propiedad de que una combinación lineal particular
de ellas (y
t
−θx
t
) sea estacionaria. Si tal propiedad es válida, entonces se
dice que y, x cointegran.
Procedimiento de Dos Etapas de Engle y Granger (EG2)
La ideas de cointegración surge del artículo de Engle y Granger (EMA, 1987),
en el cual proponen un procedimiento de dos etapas para modelar variables
cointegradas. Sin embargo no está libre de problemas. Las etapas son dos:
Paso 1. Estimar la relación de cointegración por OLS:
y
t
= α +βx
t

t
(10.1)
y testear la existencia de cointegración analizando las propiedades de las
series ˆε
t
.
Para esto se utiliza el test de CRDW (cointegrating regression Durbin-
Watson), el cual evalua si ε
t
es I (1), es decir si el DW →0 (no cointegración).
Si DW es significativamente mayor a cero, entonces x, y cointegran. H
0
:
DW = 0 (No Cointegración), si DW
c
> DW
Tabla
rechazamos H
0.
Para esto
ver tabla de EG1987 para DW.
Otra alternativa es testear raíz unitaria para los residuos ˆε
t
con DFA u
otro test (Phillips-Perron, Said-Dickey, Kwiatkowski et al., etc...).
Si la hipótesis de no cointegración en rechazada, entonces la ecuación (1)
representa la relación de largo plazo entre y y x, y el vector de parámetros
estimados
³
ˆ α,
ˆ
β
´
se denomina vector de cointegración.
Paso 2. Definir el modelo de corrección de errores que incluye como
variable explicativa al rezago del error de la ecuación de cointegración ˆε
t−1
:
A(L) ∆y
t
= B(L) ∆x
t
+γˆε
t−1

t
10.6 COINTEGRACIÓN Y MCE 165
Modelo de Correción de Errores Uniecuacional
Consideremos un ecuación de demanda por dinero tradicional con una vari-
able de ajuste de stocks de corto plazo:
m
t
= α +βy
t
+γi
t
+δm
t−1

t
Asumiendo equilibrio de largo plazo m
t
= m
t−1
de manera que la relación
de largo plazo se representa por:
m =
α
1 −δ
+
β
1 −δ
y +
γ
1 −δ
i
Restando m
t−1
a ambos lados y sumando cero:
∆m
t
= α +βy
t
+γi
t
+ (δ −1) m
t−1
+βy
t−1
−βy
t−1
+γi
t−1
−γi
t−1

t
∆m
t
= α +β∆y
t
+γ∆i
t
+ (δ −1) m
t−1
+βy
t−1
+γi
t−1

t
∆m
t
= β∆y
t
+γ∆i
t
−(1 −δ)
·
m
t−1

α +βy
t−1
+γi
t−1
1 −δ
¸

t
Método de Tres Etapas de Engle-Yoo
Existen dos problemas con el método de EG2: (i) si los errores de la ecuación
estática están correlacionados, entonces los estimadores están sesgados y son
ineficientes, y, (ii) la distribución de los estimadores es generalmente no-
normal y por lo tanto no es posible efectuar inferencias a partir de los usuales
test-t en la regresión de cointegración.
La solución porpuesta por Engle-Yoo a este problema es:
Paso 1. Estimar la ecuación de largo plazo y
t
= α+βx
t

t
. Esto entrega
un vector de conintegración
¡
α
1
, β
1
¢
.
Paso 2. Estimar el modelo de correción de errores:
A(L) ∆y
t
= B(L) ∆x
t
+γˆε
t−1

t
Se guardan los residuos estimados de esta ecuación ˆ ν
t
, y el término de cor-
reción de errores ˆ γ.
Paso 3. Regresionar los residuos del modelo anterior (ECM) ˆ ν
t
con los
regresores de largo plazo del modelo (x
t
) ponderados por el inverso aditivo
del parámetro de correción de errores ˆ γ:
ˆ ν
t
= δ
0

1
(−ˆ γx
t
) +
t
166 CHAPTER 10 MODELOS MULTIVARIADOS
El vector original de parámetros estimados
¡
α
1
, β
1
¢
se ajustan por estos
nuevos estimadores:
α
3
= α
1

0
β
3
= β
1

1
Los errores estandar de los coeficientes de la regresión de largo plazo son sim-
plemente los errores estandar de los coeficientes δ
i
estimados en la regresión
del paso 3. Los estadísticos t computados utilizando estos errores estandar
tienen una distribución t que puede ser utilizada para hacer inferencia per-
fectamente.
Phillips-Hansen Fully Modified Estimator (PH)
Sea el DGP:
y
1t
= βx
1t
+u
1t
x
1t
= x
1t−1
+u
2t
donde se asume que y
1t
, x
1t
son I (1). Cuando los términos de errores u
it
están
auto e intercorrelacionados, y cuando la regresión estática y
1t
= βx
1t
+ u
1t
no utiliza ninguna de la información que permite generar x
1t
, los sesgos en
el estimador pueden ser grandes. HP propone la siguiente solución.
Asumamos que la estructura exacta de la estructura de var-covarianza
u
t
= [u
1t
, u
2t
]
0
es desconocido. Sin embargo sabemos que es débilmente esta-
cionario (i.e. covarianza estacionario), lo cual se describe por:
u
t
˜ [0, Ω]
donde Ω = {ω
ij
} , i, j = 1, 2.
Es conveniente descomponer la matriz de var-covarianza en:
Ω = V +Γ +Γ
0
donde V = E[u
0
, u
0
0
] es la matriz de covarianza contemporanea, y donde
Γ = Σ
k
E[u
0
, u
0
k
] captura el componente de correlación serial del vector de
error. Entonces si el proceso de error es no correlacionario y estacionario,
entonces la matriz de covarianza Ω = V . En presencia de correlación serial
entonces los términos de Γ no son cero.
10.7 SISTEMAS DE COINTEGRACIÓN 167
El ”fully modified least squares estimator” de β toma la forma:
β
+
=
¡
Σ
T
t=1
x
2
1t
¢
−1
h
¡
Σ
T
t=1
y
+
1t
x
1t
¢
−T
ˆ
δ
+
i
donde:
y
+
1t
= y
1t
− ˆ ω
12
(ˆ ω
22
)
−1
∆x
1t
ˆ
δ
+
=
ˆ
Λ

1
−(ˆ ω
22
)
−1
ˆ ω
12
¸
¸
ˆ
Λ = Σ

k=0
E[u
20
u
0
k
]
El estimador modificado envuelve dos correciones. Primero el término
ˆ
δ
+
corrige el sesgo en el estimador utilizando estimaciones de largo plazo de la
matriz de var-covarianza. Segundo, se utiliza una variable instrumental de
manera que el estimador está condicionado en y
+
1t
en lugar de y
1t
.
Finalmente, el error estándar modificado por PH se define por s
+
como:
¡
s
+
¢
2
= ˆ ω
11.2
¡
Σ
T
t=1
x
2
1t
¢
−1
donde:
ˆ ω
11.2
= ˆ ω
11
− ˆ ω
2
21
ˆ ω
−1
22
10.7 Sistemas de Cointegración
Dado un vector X˜I(1) de n elementos, puede haber a lo más n −1 combi-
naciones de cointegración. Sea el número de combinaciones de cointegración
r. Luego 0 ≤ r ≤ n −1, y los r vectores de cointegración se representan en
una matriz n × r definida por β = [β
1
, β
2
, ..., β
r
]. El número de vectores de
cointegración se conoce como el rango de cointegración de X
t
.
10.7.1 Identificación del Rango de Cointegración
Note que en el caso en que r = 0 entonces no habría ninguna relación de
cointegración, y por lo tanto el modelo puede estimarse en sus primeras
diferencias.
168 CHAPTER 10 MODELOS MULTIVARIADOS
El modelo de corrección de errores vectorial VECM se deriba de un VAR
general de la forma:
X
t
= Π
1
X
t−1

2
X
t−2
+...Π
k
X
t−k
+
t
donde los elementos de X
t
son I(1).
Puesto que queremos revisar relaciones de cointegración dentro de un
sistema estacionario, podemos reparametrizar el modelo de forma analoga
al proceso uniecuacional del caso bi-variado. Luego rezagando la ecuación
anterior y agregando y restando Π
i
X
t−i
para i = 1, 2, ..., k en el lado derecho,
permite representar el VECM como:
∆X
t
= ΠX
t−k

k−1
i=1
Γ
i
∆X
t−i
+
t
donde:
Γ
i
= −(I −Π
1
−... −Π
i
) , ∀i = 1, ..., k
Π = (I −Π
1
−... −Π
k
)
Los Γ
i
son los parámetros dinámicos del vector del modelo, y la matriz Π
contiene los parámetros de largo plazo del modelo.
El método de Maximum Likelihood de Johansen consiste en examinar el
rango de la matriz Π la cual contiene información sobre las relaciones de
largo plazo. Aquí tenemos tres casos:
(i) Π posee rango cero. En este caso no hay vectores de cointegración y
significa que las variables on individualmente I(1) y que no existe relaciones
de largo plazo de la data. La manera en que debe ser estimado el sistema es
a través de un VAR estándar con variables en primeras diferencias, i.e. ∆X
t
.
(ii) La matriz tiene rango completo, lo cual significa que las variables
no diferenciadas son de hecho I(0), y entonces el modelo es estacionario en
niveles.
(iii) La matriz tienen rango r, donde 0 < r < n, lo cual significa que
existen r vectores de cointegración entre las n variables.
Part IV
Modelos No Lineales
Univariados
169
Chapter 11
Estimación por Máxima
Verosimilitud
Ejercicio. Suponga que la distribución de densidad conjunta dos variables
aleatorias x, y está dada por:
f (x, y) =
θe
−(β+θ)y
(βy)
x
x!
β, θ > 0
y = 0
x = 0, 1, 2, ....
Obtenga los estimadores de máxima verosimilitud de los parámetros β y θ.
Para obtener los estimadores MVdebemos generar la función log-verosimilitud
y derivarla con respecto a los parámetros de interés:
$(β, θ) =
X
ln
µ
θe
−(β+θ)y
(βy)
x
x!

=
X
µ
ln
θ
x!
(yβ)
x
−yβ −yθ

= T ln θ −
X
lnx! +
X
xln(y) +
X
xln (β) −β
X
y −θ
X
y
entonces
∂$
∂β
=
P
x
β

X
y = 0
∂$
∂θ
=
T
θ

X
y = 0
171
172CHAPTER11 ESTIMACIÓNPORMÁXIMAVEROSIMILITUD
De donde se obtiene finalmente que:
ˆ
β
MV
=
P
x
P
y
=
¯ x
¯ y
¯
θ
MV
=
1
¯ y
Ejercicio. Para el modelo Y = Xβ + ε se dispone de la siguiente infor-
mación:
x
0
x =

20 11
11 25
¸
¸
x
0
y =

25
10
¸
¸
Calcule los estimadores mínimos cuadrados. Genere un intervalo de confi-
anza del 95% para el coeficiente de sensibilidad. Suponiendo que el error
se distribuye con media 0 y matriz de varianzas y covarianzas identidad (I)
testee la hipótesis nula H
0
: β
0
= β
1
= 0 utilizando el test de razón de
verosimilitud.
A partir de la información entregada en la prueba podemos calcular los
estimadores OLS:
ˆ
β = (x
0
x)
−1
x
0
y =

¸
20 11
11 25
¸

−1

¸
25
10
¸

=

¸
1. 358 8
−0.197 89
¸

(11.1)
Asumiendo que e
0
e = 36 la varianza estimada para el estimador
ˆ
β
1
será:
ˆ
V
³
ˆ
β
´
=
e
0
e
T −k
(x
0
x)
−1
=
36
20 −2

¸
20 11
11 25
¸

−1
ˆ
V
³
ˆ
β
´
=

¸
0.131 93 −5. 804 7 × 10
−2
−5. 804 7 × 10
−2
0.105 54
¸

lo cual indica que la desviación estándar estimada del parámetro estimado
ˆ
β
1
será ˆ σ
ˆ
β
1
=
2

0.105 54 = 0.324 87. Un intervalo de confianza para β
1
se
173
genera a partir del estadístico:
t
c
=
ˆ
β
1
−β
1
ˆ σ
ˆ
β
1
∼ t (T −k)
en nuestro caso al reemplazar y considerando un intervalo de confianza 95%,
para t
0.975
(18) = 2.101 el intervalo para el parámetro β
1
será:
ˆ
β
1
−t
0.975
(T −k) · ˆ σ
ˆ
β
1
< β
1
<
ˆ
β
1
+t
0.975
(T −k) · ˆ σ
ˆ
β
1
reemplazando con los resultados obtenidos anteriormente:
−0.197 89 −2.101 · 0.324 87 < β
1
< −0.197 89 + 2.101 · 0.324 87
−0.880 44 < β
1
< 0.484 66
Suponiendo que el error se distribuye normal con valor esperado cero y matriz
de varianzas y covarianzas identidad, entonces efectuemos el test de razón de
verosimilitud para testear la hipótesis nula H
0
: β
0
= β
1
= 0.
La función de log-verosimilitud para el modelo propuesto será:
$
NR
= −
T
2
ln (2π) −
T
2
ln σ
2

1
2
e
0
e
σ
2
Recordando que e
0
e = y
0
y − y
0
x
ˆ
β podemos reescribir la expresión anterior
como:
$
NR
= −
T
2
ln (2π) −
T
2
ln σ
2

1
2
y
0
y −y
0
x
ˆ
β
σ
2
Si ahora escribimos la misma expresión anterior pero para el modelo re-
stringido tenemos que dado una hipótesis nula de que β
0
= β
1
= 0, entonces:
$
R
= −
T
2
ln (2π) −
T
2
ln σ
2

1
2
y
0
y
σ
2
Considerando que σ
2
= 1 podemos resescribir esta expresión de la siguiente
forma, tanto para el modelo no restringido como para el modelo restringido
(ln(1) = 0):
$
NR
= −
T
2
ln(2π) −
1
2
³
y
0
y −y
0
x
ˆ
β
´
$
R
= −
T
2
ln(2π) −
1
2
y
0
y
174CHAPTER11 ESTIMACIÓNPORMÁXIMAVEROSIMILITUD
El test de LR se forma del doble de la diferencia entre estas dos expresiones,
es decir:
LR = 2
¡
$
NR
−$
R
¢
LR = 2
·µ

T
2
ln(2π) −
1
2
³
y
0
y −y
0
x
ˆ
β
´


µ

T
2
ln(2π) −
1
2
y
0
y
¶¸
LR = 2
·

1
2
³
y
0
y −y
0
x
ˆ
β
´
+
1
2
y
0
y
¸
= −y
0
y +y
0
x
ˆ
β +y
0
y = y
0
x
ˆ
β
LR =
³
25 10
´

¸
1. 358 8
−0.197 89
¸

= 31. 991
Para un test χ
2
95%
(2) = 5.99. Como LR > 5.99 entonces rechazamos la hipóte-
sis nula H
0
: β
0
= β
1
= 0.
Ejercicio. De la siguiente muestra de tamaño 10 para una variable aleato-
ria x generada de una distribución normal con media µ y varianza σ
2
, es decir
x ∼ N (µ, σ
2
):
{1.1, 2.4, 0.5, 2.2, 0.8, 0.1, 2.9, 3.3, 2.5, 1.9}
Testee la hipótesis de que la varianza es uno, es decir H
0
: σ
2
= 1. Genere
un intervalo de confianza del 95% para σ
2
, y utilizando un test de razón de
verosimilitud testee la hipótesis conjunta H
0
:

µ = 2
σ
2
= 1.5
¸
¸
.
Lo primero es calcular la varianza muestral:
s
2
=
P
(x
i
− ¯ x)
2
N −1
=
10.541
9
= 1. 171 2
ˆ σ
2
= s
2
N −1
N
= 1.1712 ·
9
10
= 1. 054 1
Para testear H
0
: σ
2
= 1 debemos recordar la expresión:
(N −1)
s
2
σ
2
∼ χ
2
(N −1)
Luego el test consisrte en:
χ
2
c
= (N −1)
s
2
σ
2
H
0
= (9)
1. 171 2
1
= 10. 541
175
Al comparar con un valor de tabla de χ
2
0.975
(9) = 19.02 vemos que no rec-
hazamos la hipótesis nula H
0
: σ
2
= 1
Para el cálculo del intervalo de confianza aplicamos una expresión similar:
(N −1)
s
2
χ
2
0.975
(N −1)
< σ
2
< (N −1)
s
2
χ
2
0.025
(N −1)
(9)
1.1712
19.02
< σ
2
< (9)
1.1712
2.7
0.554 20 < σ
2
< 3. 904
Los valores para el cálculo del test LR para H
0
:

µ = 2
σ
2
= 1.5
¸
¸
se obtienen
una vez evaluada la función de log-verosimilitud en los parámetros estimados
versus los restringidos:
$
NR
= −
n
2
ln (2π) −
n
2
ln σ
2

1
2
P
(x
i
−µ)
2
σ
2
Al reemplazar por los valores ya encontrados:
$
NR
= −
n
2
ln (2π) −
n
2
ln σ
2

1
2
P
(x
i
−µ)
2
σ
2
$
NR
= −
10
2
ln (2π) −
10
2
ln1. 054 1 −
1
2
10.541
1. 054 1
= −14. 453
$
R
= −
10
2
ln (2π) −
10
2
ln1.5 −
1
2
P
(x
i
−2)
2
1.5
$
R
= −
10
2
ln (2π) −
10
2
ln1.5 −
1
2
11.07
1.5
= −14. 907
Con este resultado aplicamos el test LR:
LR = 2
¡
$
NR
−$
R
¢
LR = 2 (−14. 453 −(−14. 907))
LR = 0.908
Comparando con un estadístico de tabla χ
2
0.95
(2) = 5.99 vemos que no es
posible rechazar la hipótesis nula H
0
:

µ = 2
σ
2
= 1.5
¸
¸
.
176CHAPTER11 ESTIMACIÓNPORMÁXIMAVEROSIMILITUD
Ejercicio. La variable aleatoria x posee la siguiente distribución:
f (x) =
e
−λ
λ
x
x!
, x = 0, 1, 2, 3, ....
Suponga que se obtiene la siguiente muestra aleatoria para x:
3, 5, 1, 2, 1, 0, 0, 1, 1, 4, 2, 0, 0, 3, 2
Utilice el test de Wald para evaluar la hipótesis H
0
: λ = 2.
Si la variable aleatoria tiene la distribución:
f (x) =
e
−λ
λ
x
x!
entonces la función de log-verosimilitud (log-likelihood) se representará por:
$(λ) =
X
ln
µ
e
−λ
λ
x
x!

=
X
µ
ln
1
x!
λ
x
−λ

=
X
ln
1
x!
+ ln λ
X
x −Tλ
Derivando con respecto a λ se obtiene:
∂$
∂λ
=
1
λ
X
x −T = 0

ˆ
λ
MV
=
P
x
T
= ¯ x
Dada la muestra este estimador equivale a
ˆ
λ
MV
=
25
15
= 1. 666 7.El test de
Wald a aplicar es equivalente a testear la hipótesis H
0
: g (λ) = 0 donde en
nuestro caso g (λ) = λ −2:
W =
³
g
³
ˆ
λ
MV
´´
2
ˆ
V
³
g
³
ˆ
λ
MV
´´ =
³
ˆ
λ
MV
−λ
H
0
´
2
ˆ
V
³
ˆ
λ
MV
´
dado que la varianza de g (λ) es equivalente en esta restricción lineal a la
varianza de λ. Es decir:
W =
(1.6667 −2)
2
ˆ
V
³
ˆ
λ
MV
´
177
La varianza del estimador maximo-verosimil se obtiene de derivar dos veces
la función de lok.likelihood pues sabemos que:
ˆ
V
³
ˆ
λ
MV
´
=
µ


2
$
∂λ
2

−1
=
µ
1
λ
2
X
x

−1
Al valorar en el estimador
ˆ
λ
MV
esta expresión tenemos:
ˆ
V
³
ˆ
λ
MV
´
=
Ã
1
ˆ
λ
2
MV
X
x
!
−1
=
µ
1
1.66666666
2
25

−1
= 0.11111111
luego el test de Wald es:
W =
(1.666666 −2)
2
0.1111111
= 1.0
Al 95% de una Chi-cuadrado con un grado de libertad se tiene un valor crítico
de tabla de 3.84 lo cual nos indica que no rechazamos la hipótesis nula de
que λ = 2.
Chapter 12
GMM
Para comenzar a explicar en qué consiste en Método Generalizado de Mo-
mentos hay que introducir el concepto a través de la estimación por el clásico
Método de los Momentos.
12.1 Método de Momentos
Sean una variable aleatoria y generada a partir de una función de distribución
t-student con λ grados de libertad:
f(y, λ) =
Γ
h
(λ+1)
2
i
[πλ]
1
2
Γ
£
λ
2
¤
·
1 +
y
2
λ
¸

(
λ+1
2
)
donde la función gamma se representaba por Γ(x) = (x −1)!.
Dado que la función de distribución posee solamente un parámetro rep-
resentativo (su grado de libertad λ), supongamos que tenemos una muestra
de observaciones de tamaño T.
Una forma de estimar este parámetro es a través del método de máxima
verosimilitud, calculando primero la función de logaritmo de verosimilitud
y segundo maximizando el valor de esta función de manera de encontrar el
estadístico
ˆ
λ
MV
.
El Método de los Momentos entrega una alternativa de estimación para
este parámetro. Sabemos que la media poblacional de una distribución t es
cero y que su varianza es igual a
λ
λ−2
. Si sabemos que:
σ
2
y
= E
¡
y
2
¢
−[E(y)]
2
= E
¡
y
2
¢
=
λ
λ −2
179
180 CHAPTER 12 GMM
entonces podemos encontrar la expresión muestral de σ
2
y
a partir de:
ˆ σ
2
y
=
ˆ
E
¡
y
2
¢
=
1
T
P
T
t=1
y
2
t
Dado que σ
2
y
=
λ
λ−2
entonces parece natural que el estimador de λ se obtenga
a partir de:
ˆ σ
2
y
=
1
T
P
T
t=1
y
2
t
=
ˆ
λ
ˆ
λ −2
con lo cual llegamos a que el estimador de método de los momentos para λ
será:
ˆ
λ
MM
=
2ˆ σ
2
y
ˆ σ
2
y
−1
Es decir el estimador
ˆ
λ
MM
del método de los momentos es el valor para el
cual los momentos poblacionales son igualados a los momentos observacios
muestrales.
Supongamos que además del segundo momento se requiere calcular el
parámetro λ utilizando otros momentos como por ejemplo el cuarto momento
de la distribución t que denotamos por (kurtosis):
E
¡
y
4
¢
=

2
(λ −2) (λ −4)
con su contraparte muestral igual a
1
T
P
y
4
t
.
Dado que ahora son más de una función a minimizar se requiere de alguna
forma de ponderación entre ellas de manera de evitar conflictos entre cada
ecuación a minimizar. El Método de los Momentos Generalizados (GMM)
permite escoger λ de manera de minimizar la siguiente función:
Q
T
(λ) = g
0
Wg
donde W es una matriz simétrica definida positiva de ponderación entre los
momentos y g (vector de orden 2x1) se denota por:
g =

1
T
P
y
2
t

λ
λ−2
1
T
P
y
4
t


2
(λ−2)(λ−4)
¸
¸
12.2 MÉTODO GMM DE HANSEN 181
12.2 Método GMM de Hansen
Definamos a ω
t
un vector de hx1 variables aleatorias observadas en t, ϑ un
vector de dimensión kx1. Sea h(ϑ, ω
t
) un vector de función real de dimensión
rx1, y sea ϑ
0
el verdadero valor de ϑ, que supongamos obedece a la propiedad:
E[h(ϑ
0
, ω
t
)] = 0
rx1
Si denotamos por g (ϑ) a la contraparte muestral de h(ϑ, ω
t
):
g (ϑ) =
1
T
T
P
t=1
h(ϑ, ω
t
)
La idea detrás de la metodología GMM es escoger ϑ de manera de hacer que
el momento muestral g (ϑ) sea lo más cercano posible al momento poblacional
de cero E[h(ϑ
0
, ω
t
)] = 0.
Definición. El estimador GMM
ˆ
λ
GMM
es el valor de ϑ que minimiza el
escalar:
Q
T
(ϑ) = g (ϑ)
0
W
T
g (ϑ)
donde {W
T
}

T=1
es una secuencia de matrices de ponderación definidas posi-
tivas de orden rxr que pueden ser función de las series observadas.
Así lo que podemos observar es que el estimador del método de momentos
clásico para
ˆ
λ
MM
=
2ˆ σ
2
y
ˆ σ
2
y
−1
es un caso especial de GMM:
ω
t
= y
t
ϑ = λ
W
T
= 1
h(ϑ, ω
t
) = y
2
t

λ
λ −2
g (ϑ) =
1
T
P
y
2
t

λ
λ −2
r = k = 1
Q
T
(ϑ) =
µ
1
T
P
y
2
t

λ
λ −2

2
La solución de este problema claramente se logra cuando
ˆ
λ
GMM
=
2ˆ σ
2
y
ˆ σ
2
y
−1
donde
ˆ σ
2
y
=
1
T
P
T
t=1
y
2
t
, que corresponde al estimador
ˆ
λ
MM
.
182 CHAPTER 12 GMM
12.3 W
T
Optima
Es necesario determinar cual es el valor óptimo de W
T
al momento de cal-
cular los estimadores GMM. Supongamos que cuando se evalúa en el vector
verdadero ϑ
0
, el proceso {h(ϑ
0
, ω
t
)}
t=∞
t=−∞
es estrictamente estacionario com
media cero y matriz de autocovarianza de orden ν dada por:
Γ
ν
= E
£
h(ϑ
0
, ω
t
) h(ϑ
0
, ω
t
)
0
¤
Asumiendo que estas autocovarianzas son sumables se define:
S =

P
ν=−∞
Γ
ν
Sabemos que S es la varianza asintótica de la media muestral de h(ϑ
0
, ω
t
):
S = lim
T→∞
T · E
£
g (ϑ
0
) g (ϑ
0
)
0
¤
entonces el valor óptimo de la matriz de ponderación de g (ϑ) para g (ϑ)
0
W
T
g (ϑ)
será S
−1
. De esta manera la mínima varianza asintótica del estimador GMM
ˆ
ϑ
T
se obtiene cuando
ˆ
ϑ
T
se escoge de manera de minimizar la función:
Q
T
(ϑ) = g (ϑ)
0
S
−1
g (ϑ)
Existen dos alternativas de presentación del vector que representa al pro-
ceso {h(ϑ
0
, ω
t
)}
t=∞
t=−∞
ya sea que esten serialmente no correlacionados o se-
rialmente correlacionado.
Si no existe correlación entonces la matriz S = lim
T→∞
T·E
£
g (ϑ
0
) g (ϑ
0
)
0
¤
puede ser estimada consistemente a través de su contraparte muestral:
S
T
=
1
T
T
P
t=1
h(ϑ
0
, ω
t
) h(ϑ
0
, ω
t
)
0
Calcular S
T
requiere de un estimador para ϑ
0
aunque puede demostrarse
que para cualquier estimador consistente de ϑ
0
, si h(ϑ
0
, ω
t
) no se correlaciona
serialmente, entonces:
ˆ
S
T
=
1
T
T
P
t=1
h
³
ˆ
ϑ
T
, ω
t
´
h
³
ˆ
ϑ
T
, ω
t
´
0
P
→S
Dado el carácter recursivo del método, pues para estimar ϑ requerimos
de un estimador de S, y para estimar S requerimos de un estimador de ϑ,
entonces se plantea un esquema iterativo con criterio de convergencia con el
siguiente algoritmo:
12.3 W
T
OPTIMA 183
1. Obtener un estimador inicial de
ˆ
ϑ
(0)
T
minimizando la expresión:
Q(ϑ) = g (ϑ)
0
W
T
g (ϑ)
utilizando la matriz W
T
= I
r
.
2. Con este estimador de ϑ (
ˆ
ϑ
(0)
T
) se procede a calcular la primera esti-
mación de S:
ˆ
S
(0)
T
=
1
T
T
P
t=1
h
³
ˆ
ϑ
(0)
T
, ω
t
´
h
³
ˆ
ϑ
(0)
T
, ω
t
´
0
3. Utilizamos W
T
=
h
ˆ
S
(0)
T
i
−1
en la expresión de Q(ϑ) para estimar un
nuevo vector de parámetros GMM
ˆ
ϑ
(1)
T
:
Q(ϑ) = g (ϑ)
0
h
ˆ
S
(0)
T
i
−1
g (ϑ)
4. Con este nuevo vector
ˆ
ϑ
(1)
T
se calcula una nueva matriz S,
ˆ
S
(1)
T
movién-
donos al paso 2.
Este proceso itera hasta que la regla de detensión (stopping rule) es válida,
es decir hasta que el vector de parámetros entre cada iteración sea equivalente
considerando algún criterio de distancia (euclidiana por ejemplo):
ˆ
ϑ
(j)
T

=
ˆ
ϑ
(j+1)
T
Si alternativamente se presume que el proceso vectorial de {h(ϑ
0
, ω
t
)}
t=∞
t=−∞
está serialmente correlacionado, entonces se puede utilizar el estimador de
Newey-West (1987) para S:
ˆ
S
T
=
ˆ
Γ
0,T
+
q
P
ν=1
·
κ
µ
ν
q + 1

³
ˆ
Γ
ν,T
+
ˆ
Γ
0
ν,T
´
¸
ˆ
S
T
=
ˆ
Γ
0,T
+
q
P
ν=1
·µ
1 −
ν
q + 1

³
ˆ
Γ
ν,T
+
ˆ
Γ
0
ν,T
´
¸
donde:
ˆ
Γ
ν,T
=
1
T
T
P
t=ν+1
h
³
ˆ
ϑ, ω
t
´
h
³
ˆ
ϑ, ω
t
´
0
184 CHAPTER 12 GMM
Hay que mencionar que existen variadas funciones kernels candidatos a
ponderar las matrices de autocovarianzas. A continuación se presentan los
kernels más conocidos entre los cuales se encuentra el propuesto por Newey-
West, que fue utilizado anteriormente:
1. Kernel Truncado (White):
k
TR
(x) =

1 para |x| ≤ 1
0 en otro caso

2 1 0 -1 -2
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Kernel Truncado
2. Kernel Bartlett (Newey-West):
k
B
(x) =

1 −|x| , para |x| ≤ 1
0, en otro caso

12.3 W
T
OPTIMA 185
2 1 0 -1 -2
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Kernel Bartlett (Newey-West)
3. Kernel Parzen (Gallant):
k
PR
(x) =

1 −6x
2
+ 6 |x|
3
, para 0 ≤ |x| ≤
1
2
2 (1 −|x|)
3
, para
1
2
≤ |x| ≤ 1
0 en otro caso

2 1 0 -1 -2
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Kernel Parzen
4. Tukey-Hanning:
k
TH
(x) =

(1+cos(πx))
2
, para |x| ≤ 1
0, en otro caso

186 CHAPTER 12 GMM
2 1 0 -1 -2
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Kernel Tukey-Hanning
5. Quadratic-Spectral (Andrews):
k
QS
(x) =
25
12π
2
x
2
Ã
sin
¡
6πx
5
¢
6πx
5
−cos
µ
6πx
5

!
2.5 1.25 0 -1.25 -2.5
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Kernel Quadratic Spectral (Andrews)
Otro punto de relevancia consiste en determinar el q óptimo, parámetro
conocido como bandwidth parameter. La literatura menciona criterios au-
tomáticos de selección para este parámetro (Andrews, 1991, "Heteroskedas-
ticity and Autocorrelation Consistent Covariance Matrix Estimation", ECONO-
METRICA 59(3), y Newey and West, 1994, "Automatic Lag Selection in
Covariance Matrix Estimation", Review of Economic Studies 61(4)).
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 187
Newey-West y Andrews determinan este parámetro según las siguiente
ecuaciones para los kernel tipo Barttlet (Newey-West) y Quadratic-Spectral
(Andrews):
q
B
= 1.1447 [ˆ ϕ(1) T]
1
3
q
QS
= 1.3221 [ˆ ϕ(2) T]
1
5
donde:
ˆ ϕ(1) =
P
k
a=1
4ˆ ρ
2
a
ˆ σ
4
a
(1−ˆ ρ
a
)
6
(1+ˆ ρ
a
)
2
P
k
a=1
ˆ σ
4
a
(1−ˆ ρ
a
)
4
ˆ ϕ(2) =
P
k
a=1
4ˆ ρ
2
a
ˆ σ
4
a
(1−ˆ ρ
a
)
8
P
k
a=1
ˆ σ
4
a
(1−ˆ ρ
a
)
4
Para determinar el par
¡
ˆ ρ
a
, ˆ σ
2
a
¢
Andrews y Monahan ("An Improved Het-
eroskedasticity and Autocorrelation Consistent Covariance Matrix Estima-
tor", ECONOMETRICA 60) proponen estimar un proceso AR(1) para el
componente a
´ esimo
de {h(ϑ
0
, ω
t
)} previamente "blanqueado" a través de un
V AR(1) o un V AR(2).
12.4 Distribución de los Estimadores GMM
Sea
ˆ
ϑ
T
el vector que minimiza la expresión:
Q(ϑ) = g (ϑ)
0
h
ˆ
S
T
i
−1
g (ϑ)
donde
ˆ
S
T
P
→S. Asumiendo un óptimo interior, esta minimización se consigue
haciendo que la derivada de la expresión anterior con respecto al vector de
parametros ϑ sea cero. Luego el vector
ˆ
ϑ
GMM
T
se obtiene de la solución del
siguiente sistema de ecuaciones no lineales:
∂Q(ϑ)
∂ϑ
=


µ
g (ϑ)
0
h
ˆ
S
T
i
−1
g (ϑ)

∂ϑ
¸
¸
¸
¸
=
µ
∂g (ϑ)
∂ϑ

0
ϑ=
ˆ
ϑ
T
h
ˆ
S
T
i
−1
g (ϑ) = 0
188 CHAPTER 12 GMM
donde
³
∂g(ϑ)
∂ϑ
´
0
ϑ=
ˆ
ϑ
T
es una matriz de orden kxr,
h
ˆ
S
T
i
−1
es de orden rxr, g (ϑ)
de orden rx1, y finalmente 0 es de orden kx1.
Utilizando la teoría central del límite se puede demostrar que la distribu-
ción asintótica del estimador
ˆ
ϑ
T
está dada por:

T
³
ˆ
ϑ
T
−ϑ
0
´
→N (0, V )
donde V = (DS
−1
D
0
)
−1
, de manera que podemos decir que la distribución
aproximada del estimador GMM será:
ˆ
ϑ
T
→N
Ã
ϑ
0
,
ˆ
V
T
T
!
donde:
ˆ
V
T
=
³
ˆ
D
T
ˆ
S
−1
T
ˆ
D
0
T
´
−1
ˆ
S
T
=

1
T
T
P
t=1
h
³
ˆ
ϑ
T
, ω
t
´
h
³
ˆ
ϑ
T
, ω
t
´
0
h no correlacionado
ˆ
Γ
0,T
+
q
P
ν=1

1 −
ν
q+1
´³
ˆ
Γ
ν,T
+
ˆ
Γ
0
ν,T
´i
h correlacionado

ˆ
D
T
=
µ
∂g (ϑ)
∂ϑ

0
ϑ=
ˆ
ϑ
T
con
ˆ
D
T
es de orden kxr.
Más formalmente las siguientes tres condiciones son las que permiten
llegar a la distribución asintótica del estimador para
ˆ
ϑ
T
:
1.

Tg (ϑ
0
)
CLT
→ N (0, S)
2.
ˆ
ϑ
T
P
→ϑ
0
3. p lim
·
³
∂g(ϑ)
∂ϑ
0
´
ϑ=
ˆ
ϑ
T
¸
= p lim
·
³
∂g(ϑ)
∂ϑ
0
´
ϑ=ϑ
0
¸
= D
0
Estas condiciones permiten decir entonces que:

T
³
ˆ
ϑ
T
−ϑ
0
´
CLT
→ N (0, V )
donde V = (DS
−1
D
0
)
−1
, de manera que entonces
ˆ
ϑ
T
→N
³
ϑ
0
,
ˆ
V
T
T
´
.
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 189
12.4.1 S Cuasi-Singular
Empiricamente es común encontar que la matriz S es casi singular, lo cual di-
ficulta el trabajar con su inversa S
−1
. Ete hecho se da especialmente cuando
se estima modelos con retornos de activos pues estos tienden a estar fuerte-
mente correlacionados unos a otros, fenómeno que se refuerza cuando además
se incluyen muchos activos en relación al número de observaciones (un nivel
de saturación parámetros/data muy alto).
Por ejemplo supongamos que:
S =

1 ρ
ρ 1
¸
¸
de manera que su inversa es:
S
−1
=


1
ρ
2
−1
ρ
ρ
2
−1
ρ
ρ
2
−1

1
ρ
2
−1
¸
¸
La descomposición matricial de Cholesky permite descomponer cualquier
matriz real cuadrada simétrica y definida positiva (como debiera ser S
−1
) en
dos matrices que cumplen con la condición que C
0
C = S
−1
. Para nuestro
ejemplo la descomposición de Cholesky se denota por la matriz C definida
por:
C =

q

1
ρ
2
−1
ρ

2
−1)
q

1
ρ
2
−1
0
q

1
ρ
2
−1

ρ
2

2
−1)
2
(−ρ
2
+ 1)
¸
¸
¸
Lo interesante de esta descomposición es que nos permite visualizar el
peso que se le está dando a cada momento dentro de la función objetivo.
Recordemos que la función a minimizar la definimos por:
Q(ϑ) = g (ϑ)
0
ˆ
S
−1
T
g (ϑ)
Si reemplazamos
ˆ
S
−1
T
por su descomposición de Cholesky respectiva se ob-
tiene:
Q(ϑ) =
£
g (ϑ)
0
C
0
¤
[Cg (ϑ)]
de manera que la expresión Cg (ϑ) nos señala la ponderación que cada mo-
mento tendrá en el proceso de minimización.
190 CHAPTER 12 GMM
Por ejemplo para el caso en que ρ = 0.9 la matriz C es:
C =

2. 294 2 −2. 064 7
0 1.0
¸
¸
indicando que el peso en la función objetivo del primer momento es más del
doble de lo que se pondera el segundo momento, y que además la diferen-
cia entre los dos momentos tienen una ponderación doble a la del segundo
momento.
El consejo práctico es evaluar la matriz S
−1
con su descomposición de
Cholesky de manera de visualizar cuál es la ponderación de los momentos
que está siendo utilizada en la función objetivo.
12.4.2 Inferencia
En relación a inferencia sobre el i
esimo
elemento del vector
ˆ
ϑ
T
³
ˆ
ϑ
i,T
´
podemos
utilizar la distribución asintótica anterior
ˆ
ϑ
T
→N
³
ϑ
0
,
ˆ
V
T
T
´
de manera que:
ˆ
ξ =
ˆ
ϑ
i,T
−ϑ
i,0
q
ˆ
V
ii,T
T
→N (0, 1)
de manera que si el estadístico
¯
¯
¯
ˆ
ξ
¯
¯
¯ es mayor a 1.96 entonces rechazamos la
hipótesis nula H
0
: ϑ
H
0
i,0
= ϑ
i,0
, donde
ˆ
ϑ
i,T
es el elemento i del vector
ˆ
ϑ
T
y
ˆ
V
ii,T
es el elemento i de la diagonal de la matriz
ˆ
V
T
.
Para el caso de hipótesis conjuntas o multivariadas consideremos una
función F : <
k
→0
J
, es decir de los reales-dimension k a un vector de ceros de
dimensión J donde J indica el numero de hipótesis conjuntas (restricciones).
Entonces F (ϑ
0
) = 0
J
representa las J hipótesis que potencialmente puede
incorporar a todo o parte del vector de parámetros ϑ
0
.
Para testear la hipótesis nula F (ϑ
0
) = 0
J
, se debe hacer uso del hecho
que si efectivamente F (ϑ
0
) = 0
J
, entonces asintóticamente como sabemos
que

T
³
ˆ
ϑ
T
−ϑ
0
´
→N (0, V ), entonces se cumple que:

TF
³
ˆ
ϑ
T
´
a
∼ N (0
J
, V
F
)
12.5 APLICACIONES 191
donde:
V
F
= f (ϑ
0
) V f (ϑ
0
)
0
f (ϑ
0
)
JxJ
=
·
∂F
∂ϑ
0
¸
ϑ=ϑ
0
La contraparte muestral de este test debe considerar estimadores para V
de manera que:
ˆ
V
F,T
= f
³
ˆ
ϑ
T
´
ˆ
V
T
f
³
ˆ
ϑ
T
´
0
Finalmente el test se efectúa con la expresión cuadrática de la distribu-
ción asintótica normal, es decir una chi-cuadrado con J grados de libertad,
equivalente al número de restricciones o subhipótesis consideradas:
TF
³
ˆ
ϑ
T
´
0
ˆ
V
−1
T
F
³
ˆ
ϑ
T
´
∼ χ
2
(J)
Test de Hansen
Usualmente denominado test de Hansen, este desarrolla una manera de testear
lo que se conoce como restricciones de sobreidentificación (J
T
− test) que
evalúa el ajuste completo del modelo estimado. Establece que el estadístico
formado por T veces el valor de la función objetivo minimizada en la segunda
etapa iterativa posee una distribución chi-cuadrado con grados de libertad
equivalentes a la diferencia entre momentos considerados (r) y parámetros
estimados (k):
TJ
T
= T min
ϑ
µ
g (ϑ)
0
h
ˆ
S
T
i
−1
g (ϑ)

∼ χ
2
(r −k)
12.5 Aplicaciones
Esta sección revisa las aplicaciones más conocidas de la metodología GMM.
192 CHAPTER 12 GMM
12.5.1 Mínimos Cuadrados
12.5.2 Modelos de Expectativas Racionales
Sea la función de bienestar del tipo de aversión relativa al riesgo contante
(CCRA), definida por:
u(c
t
) =

c
1−γ
t
1−γ
para γ > 0 y γ 6= 1
ln (c
t
) para γ = 1

donde c
t
es el consumo del agente en el momento t, γ representa al coeficiente
de aversión relativa al riesgo, y la función de utilidad es creciente al tasas
decrecientes: u
0
> 0 , u
00
< 0.
En esta economía el agente representativo maximiza su nivel de bienestar
descontado a una tasa β < 1 que es equivalente a
1
1+δ
donde δ > 0 representa
la tasa de descuento subjetivo del agente representativo.
El probela analíticamente a resolver es:
MaxE
0

P
t=0
β
t
u(c
t
|=
t
)
sujeto a la restricción de flujo que indica c
t
+p
it
s
it+1
= (p
it
+d
it
) s
it
, y al set
de información disponible por el agente y el econometrista en el período t,
el cual denotamos por =
t
. En cada momento del tiempo t el agente decide
cuánto comprar de cualquiera de los m activos disponibles a invertir, cada
uno de los cuales retorna una tasa bruta de retorno (1 +r
i,t+1
) en t + 1.
Si asumimos una solución interior, es decir que el inversionista toma una
posición en cada activo disponible, el portafolio óptimo del accionista deberá
satisfacer las condiciones de Euler (condiciones necesarias de primer orden
del problema de optimización dinámica) siguientes:
u
0
(c
t
) = βE[(1 +r
i,t+1
) u
0
(c
t+1
) |=
t
] ∀i = 1, 2, ..., m
Al incorporar el supuesto de una función de utilidad del tipo CRRA,
descrita anteriormente, la expresión de optimalidad de Euler se traducirá a:
c
−γ
t
= βE
£
(1 +r
i,t+1
) c
−γ
t+1
|=
t
¤
∀i = 1, 2, ..., m
Al simplificar esta expresión a:
1 = βE
"
(1 +r
i,t+1
)
µ
c
t+1
c
t

−γ
|=
t
#
12.5 APLICACIONES 193
queda claro que la variable aleatoria 1 − β
·
(1 +r
i,t+1
)
³
c
t+1
c
t
´
−γ
¸
no estará
correlacionado con el set de información =
t
disponible en el período t. Esta
última expresión se puede representar como una condición de ortogonalidad,
donde la variable aleatoria β
·
(1 +r
i,t+1
)
³
c
t+1
c
t
´
−γ
¸
−1 es ortogonal al set de
variables contenidas en =
t
, es decir:
E
"
β (1 +r
i,t+1
)
µ
c
t+1
c
t

−γ
−1|=
t
#
= 0
Utilizando la notación del modelo GMM definamos el vector de parámet-
ros θ y al vector de variables observadas por el econometrista ω
t
por:
θ = (β, γ)
0
ω
t
=
µ
r
1,t+1
, r
2,t+1
, ..., r
m,t+1
,
c
t+1
c
t
, =
0
t

0
Concatenando las condiciones de ortogonalidad para los mactivos disponibles
llegamos a representar la función h(θ, ω
t
) por (r = m):
h(θ, ω
t
) =

µ
β (1 +r
1,t+1
)
³
c
t+1
c
t
´
−γ
−1

|=
t
µ
β (1 +r
2,t+1
)
³
c
t+1
c
t
´
−γ
−1

|=
t
µ
β (1 +r
3,t+1
)
³
c
t+1
c
t
´
−γ
−1

|=
t
....
µ
β (1 +r
m,t+1
)
³
c
t+1
ct
´
−γ
−1

|=
t
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
mx1
donde la representación muestral de h(θ, ω
t
) estará definida por:
g (ϑ) =
1
T
T
P
t=1
h(ϑ, ω
t
)
y la función objetivo es:
Q(ϑ) = g (ϑ)
0
h
ˆ
S
T
i
−1
g (ϑ)
194 CHAPTER 12 GMM
Esta expresión debe ser minimizada numéricamente con respecto a ϑ.
De acuerdo a la teoría, la expresión 1 − β (1 +r
i,t+1
)
³
c
t+1
c
t
´
−γ
no de-
biera estra correlacionada con ninguna variable del set de información =
t
disponible en t, set que puede incluir incluso sus propios rezagos. Dada
esta caracerística, el vector h(θ, ω
t
) no debiera estar correlacionado con sus
propios rezagos, lo cual sugiere que la matriz S pueda ser consistentemente
estimada por
1
:
ˆ
S
T
=
1
T
T
P
t=1
·
h
³
ˆ
ϑ
T
, ω
t
´
rx1
h
³
ˆ
ϑ
T
, ω
t
´
0
1xr
¸
donde
ˆ
ϑ
T
es un estimador inicial consistente que puede derivarse minimizando
Q(ϑ) con
ˆ
S
T
= I.
12.5.3 Modelos de Descuento Estocástico
Tradicionalmente modelos de CAPM (Capital Asset Pricing Models) y APT
(Arbitrage Price Theory) consideran ciertos parámetros como exógenos en la
determinación de retornos, ya sea la tasa libre de riesgo o los factores que
se consideran en los modelos de multifactores como el APT. En su repre-
sentación estándar, en estos modelos las decisiones de portafolio no toman
en consideración períodos futuros siendo más bien modelos estáticos, que
además ignoran decisiones intertemporales de consumo.
Modelos de equilibrio intertemporal permiten establecer que existe un
factor de descuento estocástico tal, que la esperanza del producto de cualquier
retorno bruto de un activo con este factor es igual a uno.
En modelos de equilibrio general de precios de activos, que consideran
decisiones intertemporales de consumo del agente representativo, el factor
de descuento estocástico es la tasa marginal de sustitución intertemporal del
agente representativo.
Formalicemos el resultado del modelo presentado en secciones anteriores.
Si consideramos un agente representativo que maximiza el valor descontado a
1
Es usual suponer que los instrumentos o variables consideradas en el set de información
de este pronlemas sean:
=
t
=
µ
1,
c
t
c
t−1
,
c
t
c
t−1
, ...,
c
t
c
t−1
, r
1t
, r
1t−1
, ..., r
2t
, r
2t−1
, ...

0
12.5 APLICACIONES 195
una tasa β del flujo de utilidades futuras u(c
t
) podemos decir que el plan de
consumo y portfolio óptimo de este agente estará representado en las ecua-
ciones de Euler (condiciones de primer orden del problema de optimización)
definidas por:
u
0
(c
t
) = βE [(1 +r
i,t+1
) u
0
(c
t+1
) |=
t
] ∀i = 1, 2, ..., m
Dividiendo ambos lados de la ecuación por u
0
(c
t
), llegamos a definir el factor
de descuento estocastico a partir de:
E
·
β
u
0
(c
t+1
)
u
0
(c
t
)
(1 +r
i,t+1
) |=
t
¸
= 1
E[m
t+1
(1 +r
i,t+1
) |=
t
] = 1
donde el factor de descuento estocástico, o precio-kernel, se define por m
t+1
=
β
u
0
(c
t+1
)
u
0
(ct)
.
A partir de esta definición es posible verificar que el factor de descuento
estocástico es siempre positivo (o en rigor no negativo), pues las utilidades
marginales son positivas (la excepción es cuando teóricamente u
0
(∞) →0).
Si consideramos una función del tipo u(c) =
c
1−γ
1−γ
, entonces u
0
(c) = c
−γ
de manera que el factor de descuento estocástico será:
m
t+1
= β
u
0
(c
t+1
)
u
0
(c
t
)
= β
µ
c
t+1
c
t

−γ
Modelos más completos, que involucran hábitos de consumo y dinero
en forma de Cash In Advance (CIA) o Money in Utility Function (MUF),
generan descuentos estocásticos modificados, los cuales se presentan a con-
196 CHAPTER 12 GMM
tinuación:
Modelo Factor de Descuento
C-CAPM β
³
c
t+1
c
t
´
−γ
Hábito Consumo β
³
ct
c
t−1
´
η(γ−1)
³
c
t+1
ct
´
−γ
Dinero MUF β
³
c
t+1
c
t
´
ϕ(1−γ)−1
³
M
t+1
M
t
P
t
P
t+1
´
(1−ϕ)(1−γ)
Dinero CIA β
³
M
t+1
Mt
P
t+1
P
t+2
´
−γ
P
t+1
Pt
P
t+1
P
t+2
γ : CRRA
β : Factor Subjetivo de Descuento
η : Grado de Separabilidad en Hábitos de Consumo
ϕ : Ponderación de Consumo en Función de Utilidad
Ejercicio. Utilizando información de consumo privado para Chile y los
retornos de precios de acciones (IPSA) estimamos por GMM los coeficientes
β y γ para generar el factor de descuento estocástico m
t+1
.

Chapter 7 Modelos Univariados
7.1 Martingalas y Caminos Aleatorios

Para comenzar esta sección hay que definir dos conceptos: Martingala y Camino Aleatorio. Una martingala es un proceso estocástico, supongamos {Pt } que satisface una propiedad fundamental: E [Pt+1 | Pt , Pt−1,... ] = Pt o puesto de otro modo: E [Pt+1 − Pt | Pt , Pt−1,... ] = 0 Es decir la mejor predicción del precio de un activo mañana es el precio que este tiene hoy día, y no impone ningún condicionamiento al proceso que representa el riesgo del activo. Tampoco quiere decir que aquel activo que obedezca a esta condición refleja cierta racionalidad de parte del mercado. Ha sido demostrado que la propiedad de la martingala no es una condición necesaria ni suficiente para que los precios de activos sean determinados racionalmente (Lucas, Robert (1978), "Asset Prices in an Exchange Economy", ECONOMETRICA). Para demostrar este punto repliquemos el argumento de Lucas. Si asumimos un activo y un agente representativo que optimiza sus decisiones de consumo de manera de maximizar su nivel de bienestar, podemos represen117

118 tar este problema por:

CHAPTER 7 MODELOS UNIVARIADOS

MaxE0

t=0

sujeto a : at+1 = Rt (yt + at − ct ) donde a es la riqueza del individuo, c representa el nivel de consumo, y la dotación de producción, R la tasa de retorno bruta de su ahorro, y β el factor de descuento subjetivo. Si asumimos una economía simple donde la riqueza financiera se define con la dotación y retornos de acciones que se posee de una única firma, es decir a = (p + d) s donde d es el dividendo y s es el número de acciones que se poseen, y además por simplicidad asumimos que y = 0, entonces la restricción presupuestaria del agente se debiera reescribir como: ct + pt st+1 = (pt + dt ) st . Asumiendo además que el precio depende del estado de dividendos dt y que este vector de dividendos sigue un proceso markoviano de primer orden cuya función de transición se define por: F (d0 , d) =
d R0 0

∞ P

β t u (ct )

f (s, d) ds = Pr [dt+1 ≤ d0 | dt = d]

entonces podemos escribir la ecuación de Bellman como: ª © R v (s (p (d) + d)) = Max u (c) + β v (s0 (p (d0 ) + d0 )) ∂F (d0 , d) 0
c,s

s.a. 0 c + ps = (p + d) s

lo cual indica que los precios están en equilibrio y reflejan toda la información disponible. De esta última expresión es fácil verificar que la condición de martingala no se presenta en los precios del activo bajo análisis. De existir esta sería sobre la serie u0 (d) p (d), pues al calcular el valor esperado de

Sabemos que de la condición necesaria de primer orden y de la condición (teorema) de Benveniste-Scheinkman se llega a que el proceso que determina la evolución de los precios corresponde a (imponiendo la condición de equilibrio competitivo que c = d): R u0 (d) p (d) = β u0 (d0 ) [p (d0 ) + d0 ] ∂F (d0 , d)

Una hipótesis más testeable empíricamente es la de camino aleatorio. tal como predice la condición de la martingala. es decir que se verifique: R p (d) = β [p (d0 ) + d0 ] ∂F (d0 . pero igualmente habría que corregir por el factor de descuento β.. entonces el proceso generador de datos para el precio del activo se denominará Movimiento Browniano Aritmético: Pt = δ + Pt−1 + εt . es decir εt ∼ N (0..7. σ 2 ). j=t P Pt = P0 + δt + εj j=1 Si a esta última expresión calculamos su valor esperado y su varianza llegamos a dos expresiones lineales al tiempo t: E [Pt | P0 ] = P0 + δt V [Pt | P0 ] = σ 2 t Con esta representación podemos decir que si el residuo ε se distribuye idénIID tica e independientemente como una normal. Cabe destacar que para que se dé la condición de martingala para el nivel de precios (corregidos por dividendos). σ 2 βu0 (d0 ) (p (d0 ) + d0 )−u0 (d) p (d). donde δ es lo que se conoce como drift: Pt = δ + Pt−1 + εt ¡ ¢ εt ∼ IID 0. d) Si analizamos recursivamente esta expresión entonces podemos encontrar cuál es la relación intertemporal del precio del activo en relación al precio inicial P0 de este: Pt = δ + Pt−1 + εt Pt = δ + (δ + Pt−2 + εt−1 ) + εt = 2δ + Pt−2 + εt−1 + εt Pt = δ + δ + (δ + Pt−3 + εt−2 ) + εt−1 + εt = 3δ + Pt−3 + εt−2 + εt−1 + εt . esta sería cero.e.1 MARTINGALAS Y CAMINOS ALEATORIOS 119 se requeriría que u0 (d) no cambie mucho con el nivel de dividendos (i. neutralidad al riesgo. Esta característica impondrá cierta estructura sobre los residuos poblacionales ε de la siguiente expresión. lo cual implica u0 (d) = u0 (d0 )).

Este proceso se denominará Movimiento Browniano Geométrico: ln Pt = δ + ln Pt−1 + εt rt ≡ ln Pt − ln Pt−1 ¶ µ Pt rt = ln Pt−1 ⇒ rt = δ + εt ¡ ¢ IID εt ∼ N 0.1 Independencia y Caminos Aleatorios Test de Independencia: BDS El test de Brock. La corrección que se utiliza es asumir que este residuo posee una distribución lognormal. o lo que es lo mismo. Por ejemplo los residuos de un modelo de series de tiempo ARIMA(p. o dependencia caótica. σ 2 Este capítulo evalúa las alternativas metodológicas para testear distintos grados de eficiencia de mercado. se distribuyan como una distribución normal. asumir que este movimiento Browniano se dá para el logaritmo del precio del activo en lugar del nivel absoluto de este. Posteriormente se consideran un par de puntos.q) pueden ser utilizados para evaluar si existe alguna dependencia no lineal en la serie después de que el modelo ha sido estimado. 7.2 7.2.120 CHAPTER 7 MODELOS UNIVARIADOS El problema que surge al asumir una función de distribución normal. Dechert y Scheinkman (BDS) permite evaluar la dependencia temporal de una serie. no-lineal. y sirve para testear hipótesis alternativas de dependencia lineal. Si las observaciones de la series son ver- .d. lo cual si puede ser factible empíriamente. calculados como por la diferencia del logaritmo (aproximación). Para generar el test se debe escoger una distancia > 0. es decir Pr [P < 0] > 0. es que los precios pueden tomar valores negativos con probabilidad mayor que cero. Este test puede ser aplicado a series de residuos estimados para evaluar si estos son independientes e idénticamente distribuidos (iid). es decir presenta tests de independencia y aleatoriedad desde distintos puntos de vista econométrico. lo cual ciertamente es no es factible u observable empíricamente. Este solo hecho hace que ahora los retornos.

de manera que dada una observación s. yt+j ) =  0 . yt+j ) (T − m + 1) (T − m) s=1 t=s+1 j=0 {{ys . {ys+1 . yt } . Empíricamente se consideran múltiples pares de puntos. menos probable es que el error sea causado por una variación muestral aleatoria.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 121 daderamente iid. podamos construir un conjunto de pares de la forma: donde m es el número de puntos consecutivos a ser utilizados en el conjunto (embedding dimension). {ys+m−1 .. El test BDS procede considerando que bajo el supuesto de independencia. moviéndonos consecutivamente a lo largo de las observaciones. Definamos a esta probabilidad c1 ( ). en otro caso   . yt+2 } . Para estimar la probabilidad de una dimensión particular. entonces. esta probabilidad será la simple multiplicación de las probabilidades individuales (marginales) de cada par de puntos. para cualquier par de puntos la probabilidad de que la distancia entre estos sea menor o igual a será constante. y una observación t de una serie y. Denotamos la probabilidad conjunta de todos los pares de puntos en el set satisfaciendo la condición de por la probabilidad cm ( ). esta probabilidad se puede calcular por (llamada también integrales de correlación): cm. es decir que si las observaciones son independientes se observará: cm ( ) = c1 ( )m Empíricamente calculamos estimadores para estas probabilidades. {ys+2 .T T −m+1 T −m+1 X X 2 ( )= Πm−1 I (ys+j . . {ys+3 . verificándose la existencia de un error de estimación. Mientras más grande es el error. Dada una muestra de T observaciones para una serie y... |ys+j − yt+j | ≤ . yt+3 } . yt+m−1 }} donde I es una función indicadora:  1 I (ys+j . generamos todos los posibles sets de este largo que puedan ser generados de la muestra y se cuenta el número de conjuntos que satisfacen la condición de .7. de manera que esta relación no se observaría exactamente incluso de ser las series iid. yt+1 } . La razón entre el número de conjuntos que satisfacen la condición versus el total de conjuntos considerados provee de una estimación de esta probabilidad.

122

CHAPTER 7 MODELOS UNIVARIADOS

Luego podemos utilizar estos estimadores muestrales para construir un test de independencia: bm,T ( ) = cm,T ( ) − c1,T −m+1 ( )m Bajo el supuesto de independencia, se esperaría que este indicador sea cercano a cero, de hecho BDS demuestran que: ³√ ´b m,T ( ) ∼ N (0, 1) T −m+1 σ m,T ( ) donde: Ã
m−1 X j=1

σ2 ( ) = 4 km + 2 m,T

km−j c2j 1

+ (m −

1)2 c2m 1

(2m−2) m2 kc1

!

donde c1 puede ser estimado a partir de c1,T , y k es la probabilidad de que cualquier tripleta de puntos pertenezca a la vecindad delimitada por , y es estimada contando el número de conjuntos que satisfacen la condición muestral:
T T T X X X 2 kT ( ) = (I (yt , ys ) I (ys , yr ) + (T (T − 1) (T − 2)) t=1 s=t+1 r=s+1

+I (yt , yr ) I (yr , ys ) + I (ys , yt ) I (yt , yr ))

Cabe mencionar que este estadístico es relativamente eficiente para muestras superiores a 200 observaciones (ver Granger, C. W. J. y T. Terasvirta (1993), Modelling Nonlinear Economic Relationships, sección 6.3.5, páginas 90 y 91). En otro caso es mejor hacer un muestreo por bootstrapping y aumentar la muestra artificialmente de manera de no perder poder del test al aplicar el estadístico en muestras pequeñas. Ejercicio. Una aplicación del test BDS a la serie de inflación para Chile (1933:02-2001:06) entrega el siguiente resultado, denotando el rechazo de la

7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS hipótesis nula de independencia de la serie: Dimensión 2 3 4 5 6 BDS Std.Error z − stat P − V alor 0.0000 0.0000 0.0000 0.0000 0.0000

123

0.111196 0.004338 25.63572 0.187459 0.006916 27.10598 0.232728 0.008267 28.14973 0.255301 0.008653 29.50290 0.261486 0.008382 31.19535

Ejercicio. Aplicando este test BDS a los retornos del índice de precios selectivo de acciones de Chile IPSA los datos del test nos indican la presencia de dependencia de la serie: Dimensión 2 3 4 5 6 BDS Std.Error z − stat P − V alor 0.0000 0.0000 0.0000 0.0000 0.0000

0.192041 0.002680 71.66640 0.325164 0.004257 76.38699 0.416266 0.005068 82.14049 0.477852 0.005281 90.48426 0.518700 0.005092 101.8606

Ejercicio. Generamos una variable aleatoria de una función de distribución estandarizada y al aplicar el test BDS se encuentra que la serie es absolutamente independiente: Dimensión 2 3 4 5 6 BDS 0.001034 0.001546 0.001094 0.000254 Std.Error 0.001730 0.002740 0.003250 0.003373 z − stat P − V alor 0.597777 0.564317 0.336538 0.075320 0.5500 0.5725 0.7365 0.9400 0.9713

−0.000116 0.003239 −0.035931

124

CHAPTER 7 MODELOS UNIVARIADOS

7.2.2

Estadístico Cowles-Jones (1937)

Este estadístico compara la frecuencia de secuencias versus oposiciones de signos de retornos consecutivos. Para esto se define una función indicadora que toma valor 1 cuando los retornos son positivos y 0 cuando los retornos son negativos o cero, es decir:   1 si rt > 0  It = 0 si r ≤ 0 
t

A partir de definior una función acumuladora At como: At = It It+1 + (1 − It ) (1 − It+1 )

podemos definir como Ns al número de pares de retornos consecutivos con el mismo signo y No al número de pares de signos opuestos: Ns =
T −1 P t=1

At

No = (T − 1) − Ns Con estos parámetros se construye en estadístico de Cowles-Jones (CJ) el que se define como la razón entre la suma de secuencias de signos iguales versus la suma de secuencias de signos contrarios: CJ =

Ns = No

Ns T −1 No T −1

=

πs ˆ 1 − πs ˆ

donde πs define a la probabilidad de que ocurra una secuencia de signos positivos. Se demuestra que bajo absoluta aleatoriedad la distribución de este estadístico converge asintóticamente a 1. Si se observa que CJ > 1 entonces hay evidencia de que los precios tienen una estructura que difiere de la que se desprende de un camino aleatorio. De existir DRIFT, es decir una tendencia en la serie de precios, entonces la probabilidad de que se de una secuencia es mayor a la probabilidad de que no se dé. Esto nos indica que ahora con DRIFT la razón debiera converger a un valor distinto (mayor) de 1.

7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
IID

125

Si a partir del proceso para el residuo εt ∼ N (0, σ 2 ) definimos la función indicadora como:    1 con probabilidad π  It = 0 con probabilidad 1 − π  r P P 2 £δ¤ δ r (rt −ˆ) donde π = Pr [r > 0] = Pr σ , con ˆ = T t y σ = ˆ entonces se δ T −1 demuestra que: CJ | πs π2 + (1 − π)2 = ≥1 drif t6=0 1 − πs 2π (1 − π) Ã ¡ ¢! πs (1 − π s ) + 2 π 3 + (1 − π)3 − π 2 πs a s , CJ ∼ N 4 1 − πs T (1 − π s ) =

Para un juego justo donde H0 : CJ = 1 (es decir π = 1 ) vemos que los 2 límites inferiores del estadístico CJ serán CJ = 1 con una varianza de cero, es decir: 1 = 0 = π2 + (1 − π)2 2π (1 − π) ¡ ¢ πs (1 − π s ) + 2 π 3 + (1 − π)3 − π 2 s T (1 − π s )4

Ejercicio. Supongamos que generamos una secuencia de números aleatorios ε de dimensión T = 1000 que obedecen a la siguiente ley de movimiento (sin drift): rt = εt A esta vector aplicamos las definiciones para la función indicadora I y la función acumuladora de signos A. Una vez encontrados los valores para estas funciones generamos Ns y No . El cálculo del test se efectúa sobre la hipótesis nula H0 : CJ = 1 lo cual nos entrega: CJ = r
∧ π 2 +(1−ˆ )2 ˆ π 2ˆ (1−ˆ ) π π πs (1−ˆ s )+2(π3 +(1−ˆ )3 −ˆ 2 ) ˆ π ˆ π πs T (1−ˆ s )4 π

= 0.038895

Código rndseed 1234. a=i[1:rows(i)-1]. cj_var=((ps*(1-ps)+2*(p^3+(1-p)^3-ps^2))/(rows(a)*(1-ps)^4)). i=zeros(rows(r). cjtest=(cj_est-1)/sqrt(cj_var). p=cdfn(meanc(r)/stdc(r)). r=rndn(1000. rt ) = V ar (rt ) θ (0) La contraparte muestral de estos estadísticos será (la covarianza ˆ se θ . Si definimos al coeficiente de covarianza como θ (s) = cov (rt .*i[2:rows(i)]+(1-i[1:rows(i)-1]).1). cj_est=(p^2+(1-p)^2)/(2*p*(1-p)). j=j+1. no=rows(a)-ns. rs ) entonces el coeficiente de correlación se representa por: γ (s) = θ (s) Cov (rs . El siguiente recuadro muestra un código GAUSS que permite replicar estos resultados.*(1-i[2:rows(i)]).cjtest.126 CHAPTER 7 MODELOS UNIVARIADOS con lo cual no rechazamos la hipótesis nula H0 : CJ = 1 pues el estadístico es menor a 1. ns=sumc(a). j=1.3 Test de Fuller Fuller testea la hipótesis nula de que los coeficientes de autocorrelación para varios rezagos de una serie (por ejemplo los retornos de un activo) son cero. endo. ps=ns/rows(a).i[j]=1. if r[j] gt 0. do while j le rows(r). 7.1).96 (5% de significancia).2.endif.

Estos coeficientes son las correlaciones de los residuos. 2..2. . q .2 INDEPENDENCIA Y CAMINOS ALEATORIOS puede calcular dividiendo por T − 1 o por T − s): T −s ˆ (s) = 1 P (rt − r) (rt+s − r) θ ¯ ¯ T t=1 ˆ (s) θ γ (s) = ˆ ˆ (0) θ PT t=1 rt r = ¯ T 127 El test propuesto tiene la siguiente distribución asintótica: T √ ρ (s) ∼ N (0. rt ) γ rs rt = = 2 V ar (rt ) E (rt ) Tal como sabemos este coeficiente γ rs rt es equivalente al parámetro de la ecuación auxiliar inversa γ s : rt−s = γ s rt + ν t−s ∀s = 1.4 Tests Q y Q’ Esta clase de tests permite analizar la dependencia temporal (autocorrelación) existente entre las observaciones en el tiempo (por ejemplo los retornos).96 (considerando un 5% de significancia) entonces rechazamos la hipótesis nula existiendo evidencia de autocorrelación de la serie en el tiempo. Box-Pierce (1970) o test Q. Si el estadístico es superior a 1. rt ) Cov (rs . Este test se basa en el análisis conjunto de los coeficientes estimados de una ecuación de residuos intertemporales para verificar si son o no estadísticamente ceros.7. 7. 1) ˜ T −s ρ (s) = ρ (s) + ˜ ˆ ¢ T −s ¡ 1 − ρ2 (s) ˆ (T − 1)2 Como es usual la hipótesis nula corresponde a no existencia de autocorrelación de la serie y se contrasta con una distribución normal estandarizada.. de manera que se analizan los γ rs rt definidos por: E (rs ..

Estimando la expresión anterior utilizando los retornos efectivos estimamos un vector γ de dimensión qx1.. Ljung-Box (1978) o test Q’. Los autores demuestran ˆ que el estadístico relevante para evaluar la hipótesis nula de que no existe autocorrelación de retornos se define por (expresiones equivalentes): Q = T q P Q = T γ γ ∼ χ2 (q) ˆˆ de manera que si este estadístico supera a su equivalente χ2 (q) entonces α rechazamos la nula presentándose evidencia de autocorrelación de orden q de los retornos. = γ q = 0. 7. Típicamente q es un número alto como 24 ó 36. y evalúa si la variable o serie bajo análisis presenta evidencia de autocorrelación serial. entonces sabemos que la varianza t−1 de los retornos será V (rt ) = σ 2 . si sabemos que los retornos ³ un activo se pueden representar por la expresión de ´ rt ≡ ln Pt − ln Pt−1 = ln PPt = δ + εt .. de aquí podemos decir que si: ε V (rt ) = σ 2 ε V (rt−1 ) = σ 2 ε entonces la agregación de ambas varianzas será: V (rt ) + V (rt−1 ) = 2σ 2 = 2V (rt ) ε .2. entonces recα hazamos la hipótesis nula H0 : γ 1 = γ 2 = .5 Test de Razón de Varianzas Este test surge del análisis de la representación geométrica de movimiento Browniano definido en una sección anterior. Utilizando una expresión similar a la presentada por Box-Pierce.128 CHAPTER 7 MODELOS UNIVARIADOS donde el γ se calcula como la razón entre las covarianzas y la varianza de la ˆ variable dependiente. dependiendo de la frecuencia de la serie. Por ejemplo. Una perfección de este test lo presentan Ljung y Box. los autores definen el estadístico Q0 como: · ¸ q P γ2 s 0 Q = T (T + 2) ∼ χ2 (q) (T − s) s=1 s=1 0 γ 2 ∼ χ2 (q) s Si el estadístico Q0 es mayor a su equivalente de tabla χ2 (q).

o s = 2 el estadístico sería: µ ¶ µ ¶ j=1 P j 1 1− κ (1) = 1 + 2 ˆ ρ (j) = 1 + 2 1 − ˆ ρ (1) = 1 + ρ (1) ˆ ˆ 2 2 j=1 µ ¶ µ ¶ µ ¶ j=2 P j 1 2 1− ρ (j) = 1 + 2 1 − ˆ ρ (1) + 2 1 − ˆ ρ (2) ˆ κ (2) = 1 + 2 ˆ 3 3 3 j=1 y el estadístico estará representado por: ³ ´ µ ¶ ˆ Pj=s rt−j V j=s P j=0 j κ (s) = ˆ 1− ρ (j) ˆ =1+2 ˆ s+1 (s + 1) V (rt ) j=1 . ˆ ˆ Existe la generalización de esta última expresión para lo cual la hipótesis nula a considerar será: H0 : ρ (j) = 0 ∀j = 1. Si encontramos que ρ (1) = 0 entonces podemos decir que κ = 1.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 129 El test se contruye a partir de la siguiente razón.. s por ejemplo para un s = 1.. rt−1 ) ˆ 2V (rt ) 2Coˆ (rt . rt−1 ) v ˆ 2V (rt ) κ (1) = 1 + ˆ κ (1) = 1 + ρ (1) ˆ ˆ Esta expresión nos recuerda que cualquier serie estacionaria posee una razón κ que se define como 1 más el coeficiente de correlación de primer orden. .. considerando que bajo la hipótesis nula se esperaría que se aproximara a 1: κ= V (rt ) + V (rt−1 ) −→ 1 2V (rt ) Al operacionalizar este test con la contraparte muestral del estadístico κ. podemos representar la relación entre κ y el coeficiente de correlación de ˆ primer orden ρ (1): ˆ κ (1) = ˆ κ (1) = ˆ ˆ V (rt + rt−1 ) ˆ 2V (rt ) ˆ ˆ v V (rt ) + V (rt−1 ) + 2Coˆ (rt .7.

689 2 2 2.96.649981214 II Si la serie posee un largo de T observaciones (asumamos que T es par) entonces el test para una razón de varianzas de dos períodos se formará de: Pj=T /2 1 (r2j − 2¯)2 r σ2 j=1 T /2 II κ (1) = 2 = Pj=T 1 σI ¯2 j=1 (rj − r ) T .290088658 II lo cual implica que el estadístico a contrastar es: r r µ ¶ T 1247 6.290088658 ˆ= ξ (ˆ (2) − 1) = κ − 1 = 32.011% ¯ σ 2 = 2.96] entonces no rechazamos la ξ hipótesis nula de que el coeficiente de correlación es nulo. Los valores conseguidos son: r = 0. 10) considerando una muestra de T = 1247 observaciones simuladas.96. 1) ξ κ 2 entonces si ˆ pertenece al intervalo [−1. Los valores conseguidos son: y = 0.751081639 I σ 2 = 1. Ejercicio. 1. Generamos una serie aleatoria a partir de yt = 100 + εt donde √ εt ∼ N(0. Calculamos los estadísticos para verificar con el test anterior si κ (2) = 1.724016031 I σ 2 = 6. es decir si el coeficiente de autocorrelación de primer orden es cero.0015% ¯ σ2 = 1. rechazando la hipótesis de no autocorrelación de los retornos.130 CHAPTER 7 MODELOS UNIVARIADOS donde rj = ln pj − ln pj−1 y r2j = ln p2j − ln p2j−2 .724016031 siendo este muy superior al valor de referencia de una tabla normal estandarizada de 1. Calculamos los estadísticos para verificar si κ (2) = 1. no existiendo evidencia de correlación de los retornos en el tiempo. Dado que la distribución asintótica de este estadístico está definido por: r a ˆ = T (ˆ (2) − 1) ∼ N (0. Ejercicio. es decir si el coeficiente de autocorrelación de primer orden es cero. Supongamos la serie del Indice de Precios de Acciones del IPSA desde abril 1995 hasta abril del año 2000 (T = 1247).

96 (es decir es menor en valor absoluto).649981214 ˆ= (ˆ (2) − 1) = κ − 1 = −1. 441 7 ξ 2 2 1.2 Tests t y F de DFA (Dickey-Fuller Ampliado) ∆yt = γ yt−1 + ∗ ∗ p X j=1 θj ∆yt−j + εt p X j=1 ∆yt = µ + γ yt−1 + θj ∆yt−j + εt p X j=1 ∆yt = µ + βt + γ ∗ yt−1 + θj ∆yt−j + εt donde en orden p se define minimizando los criterios de Akaike (AIC).1 Tests de Raíces Unitarias Test t y F de Dickey-Fuller (RW-RWD-RWDT) yt = γyt−1 + εt yt = µ + γyt−1 + εt yt = µ + βt + γyt−1 + εt Reordenando (restando yt−1 a ambos lados): ∆yt = γ ∗ yt−1 + εt ∆yt = µ + γ ∗ yt−1 + εt ∆yt = µ + βt + γ ∗ yt−1 + εt 7.3 7.3.7.3. Schwarz (BIC) o el critero de Hannan—Quinn (HQ). de manera que no rechazamos la hipótesis nula de autocorrelación cero de la serie.3 TESTS DE RAíCES UNITARIAS lo cual implica que el estadístico a contrastar es: r r µ ¶ T 1247 1.751081639 131 Podemos verificar que el estadístico es mayor a −1. es decir se basan en . 7.

T − k) SRCNR / (T − k) . β. Los tests se presentan a continuación: γ∗ ˆ ˜ df tc = q ˆ (ˆ ∗ ) V γ Hip´tesis o T ests  P  ∆yt = p θj ∆yt−j + εt j=1 Φ1 : (µ. γ ∗ ) = (µ. β. 3): Φi = (SRCR − SRCNR ) /J ˜F (J. 0. γ ∗ ) = (0. 0. γ ∗ ) = (0. 0)  ∆y = µ + γ ∗ y + Pp θ ∆y + ε  t t−1 t−j t j=1 j   Pp   ∆yt = j=1 θj ∆yt−j + εt Φ : (µ. 0)  ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε  3   t t−1 j=1 j t−j t donde se contrasta con una tabla F de Fisher con sus respectivos grados de libertad (típicamente J = 2. 0)  ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε  2 t t−1 t−j t j=1 j   Pp   ∆yt = µ + j=1 θj ∆yt−j + εt Φ : (µ. T el número de observaciones y k el número de parámetros a estimar.132 CHAPTER 7 MODELOS UNIVARIADOS −2 veces el valor de la función de log-likekihood promedio ajustado por una función de castigo asociada a cada criterio: lk k + 2 T T k lk BIC = −2 + ln (T ) T T lk k HQ = −2 + 2 ln (ln (T )) T T AIC = −2 donde lk representa al log-likelihood.

ε γj = T ˆ 2 −1 X· ˆ 1− λ = γ0 + 2 ˆ j=1 t=j+1 q T X ˆtˆt−j εε ¸ j γ ˆ (q + 1) j . 1984).4 Tests de Phillips-Perron En una serie de artículos. Estimadores consistentes de la varianza de la media λ2 y la ¡ ¢ autocovarianzas γ j poblacionales se obtienen del término de error ˆt . Estimar por OLS los parámetros θ. el error estándar de ρ P 2 ˆt ε definido por σ ρ . 1988) generan un test a partir del DF y DFA de manera de controlar por correlación serial y heteroscedasticidad de los residuos al mismo tiempo. Recordemos que un MA(1) se puede representar por un AR(∞). 7.3 Test Said-Dickey Said-Dickey (Biometrica. ˆˆ ¡ ¢ Paso 2.q).q) para el residuo. y el error estándar de la regresión s2 = T −k . Consideremos el modelo a estimar: yt = θ + ρyt−1 + εt sin embargo asumamos que el verdadero proceso generador de datos para la serie es: yt − yt−1 = εt = ψ (L) et donde ψ (L) sigue un polinomio estacionario y e sigue un proceso Gaussiano. Phillips (Econometrica. El método Phillips-Perron consiste en: Paso 1.3 TESTS DE RAíCES UNITARIAS 133 7. ρ. permite testear raíces unitarias cuando los errores siguen un proceso ARMA(p. En este caso el modelo es: ∆yt = (ρ − 1) yt−1 + K→∞ X j=1 θj ∆yt−j + εt De esta manera un proceso generador de datos para y del tipo AR(k) donde k → ∞ permite especificar un proceso ARMA(p.3. 1987) y Phillips-Perron (Biometrica.7. de aquí que ahora la sumatoria se aplique hasta K → ∞.3.

83292 . Este es el test estadístico que debe ser corregido según PP.119979) (0. A partir de la siguiente información generada de la estimación por OLS del modelo para la inflación en Chile (1933:02-2001:06): ˆ ˆ ε π t = α + ρπ t−1 + ˆt = 0.548 + 2 (−1.927363.68145 γ1 = ˆ PT ˆtˆt−2 εε = 0.989295 γ3 = ˆ PT ˆtˆt−4 εε = 1.026534 = −13.243 con una muestra de 819 observaciones.810678 γ4 = ˆ T ˆ2 Con estos estimadores calculamos λ : 2 µ ¶ µ ¶ 4 3 ˆ λ = 8.381) + 5 5 µ ¶ µ ¶ 1 2 (0.14.68) + 2 (0.026534) El test de DF para el estadístico (ρ − 1) es (0.651348π t−1 + ˆt ε (0.243/(819 − 2) = 8.569453.9893) + 2 (1.381113 γ2 = ˆ PT ˆtˆt−3 εε = 0. Es decir que s2 = 7001. La suma de los residuos al cuadrado es de 7001.825274 + 0.8107) 2 5 5 ˆ2 λ = 7.651348 − 1)/0. Estas correcciones se utilizan para ajustar el test t de DickeyFuller asociado al parámetro ρ: ´³ ´  ³ 2 σˆ ˆ 1 ˆ µ ¶1 λ − γ 0 T sρ ˆ 2 2 γ0 ˆ  zt = t− 2 ˆ ˆ λ λ Ejercicio. es decir una desviación estándar de 2.54853 γ0 = ˆ T P ˆtˆt−1 εε = −1. Paso 3. Las autocovarianzas se estiman con: P 2 ˆt ε = 8.134 CHAPTER 7 MODELOS UNIVARIADOS para las autocovarianzas y para la media (Newey-West) respectivamente.

83292 µ ¶1 2 = −12.83292 7.3.83292 − 8.7. l) ˆtˆt−j εε n t=1 n j=1 t=j+1 . 1992.54853) 819 √8.78 De igual manera se rechaza la hipótesis nula de raíz unitaria ya sea utilizando el DF o el PP test.3 TESTS DE RAíCES UNITARIAS Con esto calculamos el estadístico de Phillips-Perron: 135 ´³ ´  ³ 2 σρ ˆˆ 1 ˆ λ − γ0 T s ˆ 2 γ0 ˆ  zt = t− ˆ ˆ2 λ λ ´ ³  (0. Este test se conoce como KPSS en honor a sus autores (Kwiatkowski. Schmidt y Shin.569453 2 2 8.14) −  = 7.5 Test de Kwiatkowski et al. Journal of Econometrics). Este es un test cuya nula es estacionariedad con raíz unitaria como alternativa (a la inversa de los tests anteriores). Se formula a partir de la suma parcial de la serie: ˆ Γt = t X i=1 ˆi ε donde ˆt se obtienen de una ecuación auxiliar como: ε ˆ δt ε yt = τ + ˆ + ˆt El test estadístico de interés es: X 1 ˆ η= 2 2 Γ2 n s (l) t=1 t n donde s2 (l) se denomina varianza de largo plazo de ˆt la cual es estimada ε por: n l n X 1X 2 2X s2 (l) = ˜ ˆt + ε w (j. 7. Phillips.026534) 1 ¶1 µ (7.5485  √ (−13.

. l) = 1 − j (l + 1) 1 La distribución asintótica es derivada en Kwiatkowski et al.4 Teorema de Descomposición de Wold Este teorema se debe a H. Teorema.136 CHAPTER 7 MODELOS UNIVARIADOS donde los pesos w(j. Todo proceso estocástico estacionario puede ser aproximado tan cerca como se desee ya sea a través de un AR(p). Que los dos primeros momentos sean finitos e independientes de t es una condición necesaria para estacionariedad débil. Estacionariedad Débil. 1994. |µ| < ∞ £ 2¤ 2 E (yt − µ) = σ y < ∞ ∀s E [(yt − µ) (yt−s − µ)] = γ (s) < ∞. Finalmente el test KPSS para la nula de estacionariedad es: n X 1 ˆ η= 2 2 ˆ Γ2 n s (l) t=1 t ˜ 7. Wold (1938. 7.5 Estacionariedad Sea la variable {yt }T un proceso estocástico. Este teorema fundamental de representación es el que nos permite estimar modelos de series de tiempo de cualquier tipo para representar series que son estacionarias. 1. l) se determinan por (Newey-West. O. Existen dos formas de estat=1 cionariedad: débil y fuerte (o estricta). es decir un proceso ARMA(p. A. Review of Economic Studies). A Study in the Analysis of Stationary Time Series) y es fundamental en la teoría de series de tiempo. Se dice que el proceso {yt }T es débilmente t=1 estacionario si este cumple con tres condiciones: E [yt ] = µ. 1987): w (j. El valor de l se define gerenalmente por l = n 2 (Newey-West. un MA(q).q). o una combinación de ambos.

7. ytk ) = fy (yt1 +s . + ρp yt−p + εt εt = yt − ρ1 yt−1 − ρ2 yt−2 − .7 AR(p) Un proceso autoregresivo de series de tiempo de orden p. el residuo ε es un "ruido blanco". yt2 +s ... yt2 ... Por ejemplo consideremos las siguientes equivalencias notacionales: Lxt L2 xt ¡ ¢ 1 − 2L + 3L2 xt L−1 xt ¡ ¢ 1 + 3L−1 − 0.5L2 xt = = = = = xt−1 xt−2 xt − 2xt−1 + 3xt−2 xt+1 xt + 3xt+1 − 0. AR(p). tiene la siguiente estructura analítica: yt = ρ1 yt−1 + ρ2 yt−2 + .6 OPERADORES DE REZAGOS: LK 137 2. .5xt−2 Esta notación nos permite representar de una manera más simplificada los modelos de series de tiempo que se revisan a continuación. Si el proceso {yt }T posee una t=1 distribución de densidad fy que no es dependiente de s.. es decir cumple con las condiciones ¯ . − ρp Lp yt donde típicamente la variable endógena se presenta en desviación de su media (yt − y ). 7.. ytk +s ) es decir que la función de densidad no cambia con le tamaño ni el perídodo considerado en la muestra.. . 7...6 Operadores de Rezagos: Lk Para simplificar la notación es necesario introducir el concepto de operador de rezagos L (del inglés "lag") que se define como aquel operador que rezaga k veces la variable a la cual se le aplica.. − ρp yt−p ¡ ¢ εt = 1 − ρ1 L − ρ2 L2 − . Estacionariedad Fuerte o Estricta... k entonces se dice que {yt }T posee estacionariedad fuerte: t=1 fy (yt1 .

se puede demostrar que todo proceso AR se puede representar como un MA y viceversa. ¡ ¢ 1 + θ1 L + θ2 L2 + θ3 L3 + . y como veremos en la siguiente sección. εt P∞ i i=1 θ i L εt + εt .. . también se dá la relación inversa (MA (q) = AR (∞)). = = = = yt yt yt yt donde θi = ρi . Supongamos que tenemos un proceso AR(1): εt = (1 − ρL) yt Podemos despejar yt dividiendo la expresión por (1 − ρL)..: 1−b yt = εt (1 − ρL) ¢ ¡ yt = εt 1 + ρL + (ρL)2 + (ρL)3 + ... Aquí la variable yt es una combinación lineal ε de sus propios rezagos o valores pasados.. εt + θ1 εt−1 + θ2 εt−2 + θ3 εt−3 + . Algunos ejemplos de procesos autoregresivos son:    y = ρy + ε  t t−1 t AR(1) :  (1 − ρL) y = ε  t t   y =ρ y +ρ y +ε  t t 1 t−1 2 t−2 AR(2) :  (1 − ρ L − ρ L2 ) y = ε  1 2 t t εt + εt ρL + εt (ρL)2 + εt (ρL)3 + .. 3.... Esta relación permite representar modelos AR(p) en forma equivalentes a MA(∞).... es decir: εt = yt (1 − ρL) Dado que la serie es estacionaria el coeficiente ρ es menor que 1 de manera que podemos extender la serie de residuos sabiendo que si b < 1 entonces 1 = 1 + b + b2 + . Considerando la última expresion que representó al modelo AR. ∀i = 1. y V (εt ) = σ 2 < ∞. 2...138 CHAPTER 7 MODELOS UNIVARIADOS E (εt ) = 0.

donde por ejemplo asumamos µ = 2.9 Proceso Integrado I(d) Un proceso estocástico {yt }∞ se dice integrado de orden ”d”.. + θq Lq donde ε sigue siendo una variable aleatoria ruido blanco. es decir es yt ∼ t=1 I (d). entonces la dinámica para una . Sea una variable aleatoria yt = µ+yt−1 +εt . MA(q).8 MA(Q) 139 7... 10). MA) de orden q. + θq εt−q ¡ ¢ yt = εt 1 + θ1 L + θ2 L2 + ..7. Ejercicio.Aquí la variable yt es una combinación lineal de residuos pasados.8 MA(q) Un proceso de media móvil (moving average. Algunos ejemplos de procesos de medias móviles son:    y = θε + ε  t t−1 t MA(1) :  y = (1 + θL) ε  t t   y =ε +θ ε +θ ε  t t 1 t−1 2 t−2 MA(2) :  y = (1 + θ L + θ L2 ) ε  t 1 2 t 7. tiene la siguiente representación analítica: yt = εt + θ1 εt−1 + θ2 εt−2 + . si es que yt requiere ser diferenciado d-veces para que sea estacionaria. y εt ∼ N (0. y0 = 1.

lo que es usual. lo cual es poco usual en series económicas. o diferenciándola dos o más veces.140 CHAPTER 7 MODELOS UNIVARIADOS realización de 200 observaciones será: Serie Intergrada y ∼ I(1) Al calcular su primera diferencia la podemos representar como: Primera Diferencia: ∆y ∼ I(0) De aquí es posible determinar que casi cualquier serie no estacionaria se puede transformar a estacionaria a través de diferenciar la serie ya sea una vez. .

q) Un proceso autoregresivo de media móvil de orden (p. + ρp ∆d yt−p + θ1 εt−1 + θ2 εt−2 + . La expresión analítica resumida de este modelo es: ¡ ¡ ¢ ¢ 1 − ρ1 L − ρ2 L2 − .. Podemos representar modelos cuya serie original y es no estacionaria.. Esto hace que uno pueda representar un modelo de series de tiempo utilizando la extensión de los modelos ARMA.d. De esta forma el modelo extendido es una representación autoregresiva..10 ARMA(P...Q) 141 7. + θq εt−q + εt Pp Pq d ∆d yt = i=1 ρi ∆ yt−i + i=1 θ i εt−i + εt . de media móvil y se denota por ARIMA. + θq Lq εt Algunos ejemplos de modelos ARMA(p. 1) :  (1 − ρ L − ρ L2 ) y = (1 + θL) ε  t t 1 2    y = ρy + θ ε + θ ε + ε  t t−1 1 t−1 2 t−2 t ARMA(1... MA. agregándose el componente "integrado" al medio de la expresión. 1) :  (1 − ρL) y = (1 + θL) ε  t t    y = ρ y + ρ y + θε + ε  t t−1 t 1 t−1 2 t−2 ARMA(2.q) Tal como señala el teorema de Wold. 2) :  (1 − ρL) y = (1 + θ L + θ L2 ) ε  t 1 2 t 7. de la siguiente forma: ∆d yt = ρ1 ∆d yt−1 + ρ2 ∆d yt−2 + . o ARMA. todo proceso estacionario puede ser representado a través de un modelo del tipo AR. + θq εt−q + εt donde ε es u ruido blanco.. + ρp yt−p + θ1 εt−1 + θ2 εt−2 + .11 ARIMA(p.7. − ρp Lp yt = 1 + θ1 L + θ2 L2 + . Si la serie bajo análisis no es estacionaria (no es I(0)) entonces debe ser diferenciada "d" veces para que lo sea. q) para una serie estacionaria y se puede representar por: yt = ρ1 yt−1 + ρ2 yt−2 + .. q) son:    y = ρy + θε + ε  t t−1 t−1 t ARMA(1. Aquí la serie y es una combinación lineal de residuos y valores rezagados de y....10 ARMA(p. integrada.

− ρp Lp ∆d yt = 1 + θ1 L + θ2 L2 + . mensual (s = 12). entonces se debe transformar como SAR(12): yt → yt − φyt−12 ¡ ¢ = 1 − φL12 yt yt → yt − φyt−4 ¡ ¢ = 1 − φL4 yt y si la frecuencia es trimestral el ajuste será SAR(4): . Es decir... por ejemplo: trimestral (s = 4).12 Estacionalidad y Modelos SAR y SMA Cuando una serie tiene una frecuencia que presenta estacionalidad (por ejemplo datos mensuales o trimestrales. la serie se ve transformada por el factor (1 − Ls ) donde s indica la frecuencia estacional. datos diarios con efecto semana (s = 5). 2. o efectos día de la semana) se sugiere sacar la estacionalidad ajustando la serie sacando la diferencia de ella considerando la frecuencia que se quiere sacar. + θq Lq εt Algunos ejemplos de modelos ARIMA son:    ∆y = ρ∆y + θε + ε  t t−1 t−1 t ARIMA(1. 1) :  (1 − ρ L − ρ L2 ) ∆y = (1 + θL) ε  t t 1 2    ∆2 y = ρ∆2 y + θ ε + ε  t t−1 1 t−1 t ARIMA(1.. Este ajuste se denomina corrección de estacionalidad al factor autoregresivo y se denota por SAR. y SAR(5) . 1. respectivamente para el ejemplo anterior. Si una serie yt . es decir SAR(4).142 CHAPTER 7 MODELOS UNIVARIADOS cuya representación analítica resumida es: ¡ ¡ ¢ ¢ 1 − ρ1 L − ρ2 L2 − . SAR(12). 1. 1) :  (1 − ρL) ∆y = (1 + θL) ε  t t    ∆y = ρ ∆y + ρ y + θε + ε  t t−1 t−1 t 1 2∆ t−2 ARIMA(2.. tiene frecuencia mensual y presenta estacionalidad. 1) :  (1 − ρL) ∆2 y = (1 + θ L) ε  t 1 t 7.

13 ESTIMACIÓN DE MODELOS ARIMA(P. 2. Expresiones de este tipo son por ejemplo: ¢ ¡ AR(1). SMA(4) : (1 − ρL) yt = 1 − φL4 εt ⇒ yt = ρyt−1 + εt − φεt−4 ¡ ¢ MA(1). Aquí el investigador determina estadísticamente el orden autoregresivo (p). D. q) Box y Jenkins desarrollaron una metodología para estimar modelos de series de tiempo. SAR(4) : 1 − ρ1 L − ρ2 L2 1 − φL4 yt = εt ¡ ¢ ¡ ¢ ¡ ¢ ⇒ 1 − φL4 yt = ρ1 1 − φL4 yt−1 + ρ2 1 − φL4 yt−2 + εt ⇒ yt = ρ1 yt−1 + ρ2 yt−2 + φyt−4 − ρ1 φyt−5 − ρ2 φyt−6 + εt También (aunque más exótico) puede agregarse un componente estacional al proceso de media móvil: SMA(s). Se puede utilizar mínimos cuadrados no lineales o métodos de máximo verosimilitud. Este procedimiento consistía en tres etapas: 1. y le agregamos un SAR(4) el modelo se transformará a: AR(2) : yt = ρ1 yt−1 + ρ2 yt−2 + εt ¡ ¢¡ ¢ AR(2). Por ejemplo. SMA(4): ¡ ¢ ¢ ¡ (1 − ρL) 1 − φL4 yt = (1 + θL) 1 − φL4 εt yt = ρyt−1 + φyt−4 − ρφyt−5 + εt + θεt−1 − φεt−4 − θφεt−5 7. la siguiente ecuación representa a un proceso ARMA(1. Estimación de Parámetros. 1). SMA(4) : yt = (1 + θL) 1 − φL4 εt ⇒ yt = εt + θεt−1 − φεt−4 − φθεt−5 Un modelo general ARMA con ajustes estacionales a las medias móviles y al proceso autoregresivo tiene una dinámica más compleja. Para identificar estos parámetros usualmente se visualizan conjuntamente la función de autocorrelación y la función de correlación parcial de la serie.13 Estimación de Modelos ARIMA(p. . y el grado de integración (d) de la serie bajo estudio. Q) 143 Este ajuste modifica la dinámica de cualquier proceso autoregresivo incorporándose nuevos rezagos. SAR(4).7. el orden de media móvil (q). d. Indentificación. Por ejemplo si tenemos inicialmente un proceso AR(2).

Para este diagnóstico podemos ver las autocorrelaciones y la función de correlación parcial. Diagnóstico de los Residuos.144 CHAPTER 7 MODELOS UNIVARIADOS 3. . Una vez se ha estimado el modelo hay que verificar que los residuos del proceso ARIMA no presenten ningún tipo de autocorrelación que el modelo no haya considerado. o más formalmente podemos aplicar los siguientes tests (ver secciones anteriores para una descripción en detalle de estos tests): • Brock. Dechert y Scheinkman (BDS) • Cowles y Jones (CJ) • Fuller • Box-Jenkins (Q) • Ljung-Box (Q0) • Razón de Varianzas (κ) Esta etapa es crucial en todo proceso de estimación de un modelo de series de tiempo.

es decir con volatilidad en la media. desarrollado por Bollerslev (1987). Existe una extención que permite considerar la volatilidad de la variable yt como variable explicativa de su propio nivel o media. σ 2 t i=q X i=1 γ i ε2 t−i + i=p X i=1 β iσ2 t−i donde J. t dando origen a los modelos GARCH-M.1 GARCH El modelo que se utilizará como punto de partida en esta sección es el tradicional modelo de autorregresivo generalizado de heteroscedasticidad condicionada (GARCH). q se identifican utilizando procedimientos estándares de series de tiempo. el cual se representa analíticamente por el siguiente sistema aplicado yt y su volatilidad σ 2 : t yt = µ + X j∈J ρj yt−j + εt σ2 t = β0 + ¡ ¢ εt ˜N 0. tal 145 . Para considerar esta posibilidad es necesario incorporar a yt−j directamente en la expresión de volatilidad. En este caso la ecuación GARCH debe incluir rezagos de σ 20 s como variables explicativas.Chapter 8 Modelos Heteroscedásticos 8. p. A su vez se puede requerir de evaluar si el nivel de la variable yt o alguno de sus rezagos afecta a su propia volatilidad.

Glosten-Jagannathan-Runkle GARCH (GJRGARCH) model. σ 2 t j∈J k∈K X s∈S ψs yt−s donde ϕ es el parámetro asimétrico que ayuda a diferenciar del efecto positivo o negativo del impacto del shock sobre la volatilidad. 8.2 QGARCH El modelo QGARCH(1. en lugar de γ 1 y −γ 1 como predice el modelo simétrico. con yt como variable dependiente. y finalmente el modelo asimétrico Box-Cox GARCH (BoxCox-AGARCH).146 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS como se representa en el siguiente sistema: X X yt = µ + ρj yt−j + θk σ 2 + εt t−k σ2 t = β0 + ¡ ¢ εt ˜N 0.1)1 puede representarse por: X X yt = µ + ρj yt−j + θk σ 2 + εt t−k σ 2 = β 0 + γ 1 ε2 + β 1 σ 2 + ϕεt−1 + t t−1 t−1 ¡ ¢ εt ˜N 0. 1 . K y S deben ser determinadas empíricamente. Estos modelos tienen la característica de que shocks inducen a comportamientos simpétricos de la volatilidad. Un shock positivo de tamaño 1 tendrá un impacto equivakente a γ 1 + ϕ sobre la volatilidad. Para evaluar un eventual comportamiento asimétrico existe una variedad de modelos conocidos como GARCH-Cuadrático (QGARCH). Por simplicidad se reportan la familia de modelos de orden p = 1 y q = 1. Umbral-GARCH (TGARCH). el cual es capaz de incluir como casos especiales a la mayoría de los modelos de volatilidad existentes. σ 2 t i=q X i=1 j∈J k∈K γ i ε2 t−i + i=p X i=1 β iσ2 + t−i X s∈S ψs yt−s donde al igual que en caso del GARCH J. mientras que un shock de igual magnitud pero de orden negativo impactará γ 1 −ϕ sobre la volatilidad de yt . independientemente de si estos son positivos o negativos.

dado que en este caso τ = 0.5 Modelo Asimétrico GARCH Hentschel(1995) presenta un modelo generalizado que incluye como caso especial a la mayoría de los modelos GARCH2 .3 T-GARCH 147 8. el impacto sobre la volatilidad será igual a γ 1 + ϕ mientras que si el shock es positivo el impacto será solamente γ 1 . mientras que si es negativo el impacto es γ 1 . el impacto sobre la volatilidad será ϕ. 8. Jagannathan and Runkle (1993) resuelve el problema de la asimetría con un enfoque alternativo. 8. Dependiendo del valor que toman 2 Excluye al QGARCH. El modelo GJRGARCH entrega similares resultados al modelo TGARCH.4 GJR-GARCH El modelo introducido por Glosten.8. .1) se representa por: X ψs yt−s σ 2 = β 0 + γ 1 ε2 + β 1 σ 2 + ϕτ t−1 ε2 + t t−1 t−1 t−1 s∈S donde el parámetro τ opera como una función indicadora a partir de la definición del umbral. La ecuación para la volatilidad se representa por: X ψs yt−s σ 2 = β 0 + (1 − αt−1 ) γ 1 ε2 + β 1 σ 2 + ϕαt−1 ε2 + t t−1 t−1 t−1 s∈S donde la función indicadora es ahora: ¾ ½ 0 si εt−1 ≤ 0 αt−1 = 1 si εt−1 > 0 Esto significa que si el shock sobre yt es positivo.3 T-GARCH La ecuación para la volatilidad del modelo de umbral o TGARCH(1. tal como lo define la siguiente expresión: ½ ¾ 1 si εt−1 ≤ 0 τ t−1 = 0 si εt−1 > 0 Luego si existe un shock negativo sobre yt .

1). es posible representar a una amplia variedad de representaciones de volatilidad.6 Curvas de Impacto de Noticias (News Impact Curves) . está dada por: µ ¶ σλ − 1 X σλ − 1 εt−1 t λ ν + β 1 t−1 ψs yt−s = β 0 + γ 1 σ t−1 f + λ σ t−1 λ s∈S ¯ ¯ ¶ µ ¶ µ ¯ ¯ εt−1 εt−1 εt−1 ¯ = ¯ f ¯ σ t−1 − δ 0 ¯ − δ1 σ t−1 − δ 0 σ t−1 8. por ejemplo. determinados parámetros del modelo. TGARCH.148 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS donde su comportamiento asimétrico se deriva de la existencian de la función ³ ´ ε f σt−1 que posee dos parámetros (δ 0 y δ 1 ) que representan la evolución no t−1 simétrica de la volatilidad de yt dependiendo de si el shock es positivo o negativo. o un GARCH exponencial. La representación asimétrica del modelo Box-Cox-AGARCH(1. ya sea un GARCH.

6 CURVAS DE IMPACTO DE NOTICIAS (NEWS IMPACT CURVES)149 Figure 8.8.2: Curvas de Impacto para Modelos de Volatilidad Extendidos .1: Curvas de Impacto para Modelos de Volatilidad Figure 8.

150 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS Figure 8.3: Curva de Impacto de Noticias para Modelo Box-Cox-AGARCH .

0.25 0.3 0.1 Volatilidad con Distribución t-Student Una altenativa muy utilizada teóricamente es la de trabajar con residuos que tienen una distribución de densidad leptokúrtica del tipo t-Student o del tipo Cauchy. La distribución Cauchy tiene la siguiente representación analítica para una variable aleatoria ε: f (εt . α. β) = α 1 π α2 + (εt − β)2 y 0.5 x 5 Función Cauchy con α = 1 y β = −1.1 0. 1 151 .Chapter 9 Modelos de Volatilidad Alternativos 9.05 -5 -2.15 0.2 0.5 0 2.

incluso su cuarto momento (kurtosis) se aproxima a lo que una distribución normal predice (3) reflejándose la leptokurtosis requerida en muestras finitas. Para una variable aleatoria y estos dos momentos son: E (ε2 ) = t E (ε4 ) = t λ λ→∞ → 1 λ−2 λ→∞ 3λ2 → (λ−2)(λ−4) 3 A continuación se presenta un código escrito en GAUSS que efectúa la optimización por máximo verosimilitud a partir de una distribución t-Student. Para que el cuarto momento esté definido se le restribge durante el proceso de optimización a que el parámetro λ (representado por c[1] en el código) sean superior a 4. Código GAUSS @ Estimacion del Modelo t-Student por ML @ nobs=rows(y). que supone tener en memoria la base de datos de la serie y. y=y[1:nobs]. según lo que se observa en la data.25 0. consideremos una función con λ grados de libertad: h i ¸− λ+1 Γ (λ+1) · 2 ε2 ( 2 ) t f (εt . λ) = £ ¤ 1+ 1 λ [πλ] 2 Γ λ 2 y 0.5 0. .375 0.125 0 -4 -2 0 2 x 4 Función de Distribución N(0. Se sabe que asintóticamente (grados de libertad λ → ∞) esta distribución converge a una normal. 1) y t-Student con λ = 5 (azul) donde la función Gamma se representaba por Γ (x) = (x − 1)!.152CHAPTER 9 MODELOS DE VOLATILIDAD ALTERNATIVOS Para la función de distribución t-Student.

0. lnl[t]=ln(gamma((c[1]+1)/2))-ln(gamma(c[1]/2))-0.5*ln(c[1]*pi) -((c[1]+1)/2)*ln(1+y[t]^2/c[1]).retcode} = maxprt(cml(y. local lnl. _cml_Algorithm = 1. _max_LineSearch =2.g.2 MODELOS DE VOLATILIDAD ESTOCÁSTICA 153 proc (1) = lnlk(c.f0. llk.y). t=t+1. llk=sumc(lnl). nobs=rows(y). _cml_covpar=1. startv=c1. _cml_GradMethod=1. retp(llk). lnl=zeros(nobs. nobs. c1=70.9. _cml_c=1.cov. _cml_MaxIters = 5000. endo. t.2 Modelos de Volatilidad Estocástica .startv)). {b. __title="Modelo PDF t-Student". endp. do while t le nobs. 9. t=1. _cml_d=4.1).&lnlk.

.

etc. Este grado de correlación es capturado por modelo sde series de tiempo multivariados.). Estos modelos VAR se pueden representar por un sistema de 155 . lo cual permite denominarlos modelos de vectores autoregresivos (VAR). y el nivel de actividad. o en el ámbito financiero la relación existente entre los índices accionarios en el mundo (FTSE. Dow Jones. Nikkey.Chapter 10 Modelos Multivariados Una extensión natural a los modelos de series de tiempo univariados es aquella que considera que existe una covariación entre un conjunto de variables que se relacionan tanto contemporáneamente como intertemporalmente.) y los tipos de cambio (Yen.1 Vectores Autoregresivos: VAR La extensión más directa de los modelos univariados autorregresivos es la de considerar un vector de variables que se correlacionan entre sí autorregresivamente. Este capítulo extiende el análisis hacia aquellos modelos multivariados. la inflación. DAX. Euro. etc. siempre preservando la característica de lineal. es decir aquellos en los cuales el análisis se efectua por sobre un conjunto de variables de interés como los arriba mencionados. Es el caso por ejemplo de la tasa de interés de política de un banco central. 10. Se revisarán modelos VAR simples y sus versiones estructurales. y se presenta un modelo VAR heteroscedástico simétrico del tipo VAR-GARCH que analiza el impacto de contagio de volatilidades de retornos accionarios para un conjunto de activos internacionales. o en general los precios de activos financieros. Libra. en lugar de una sola variable como era el caso de los modelos univariados.

∀k 6= 0 θ22 θ23 10.t+k ) donde podemos definir: yt =  Θ0 =  Θ1 =     y1t y2t θ11 θ21 θ12     θ13   = = = = Θ0 + Θ1 yt−1 + εt 0 Σε 0. y además en donde estos residuos no covarían intertemporalmente.1 Estacionariedad del VAR Al igual que en para el caso univariado se requiere que este sistema sea estacionario. la varianza y las covarianzas intertemporales entre variables dependientes no cambien en el tiempo y adicionalmente encontrar una dinámica convergente . Estacionariedad estricta o fuerte impone la condición que la función de distribución multivariada sea estable en el tiempo. Consideremos un modelo Bi-VAR(p). ε2 tienen valor esperado cero y matriz de varianzas y covarianzas contemporanea no singular y constante para todo t.1. es decir un modelo de dos variables (y1 . y2 ) con un rezago (p = 1): y1t = θ11 + θ12 y1t−1 + θ13 y2t−1 + ε1t y2t = θ21 + θ22 y1t−1 + θ23 y2t−1 + ε2t donde la estructura de residuos ε1 . mientras que estacionariedad en su versión débil implica necesariamente que la media. La forma matricial del sistema anterior en conjunto con los supuestos se pueden representar por: yt E (εt ) E (εt ε0t ) Cov (εt .156 CHAPTER 10 MODELOS MULTIVARIADOS ecuaciones.

Para que un sistema sea estacionario estas raíces deben ser menores que 1 en valor absoluto.10. Este polinomio permite obtener las raíces de Θ1 denominados valores propios o eigenvalues. − λp Θp .. la representación matricial con su respectiva condición de estacionariedad será: yt = Θ0 + Θ1 yt−1 + Θ2 yt−2 + ..1 VECTORES AUTOREGRESIVOS: VAR del sistema a través de analizar las raíces del siguiente polinomio: ¯   ¯ ¯ ¯ ¯ 1 0 θ12 θ13 ¯  − λ ¯ p (λ) = det ¯ ¯ ¯ ¯ 0 1 θ22 θ23 ¯ 157 La última condición de estacionariedad consiste en que las raíces de este polinomio deben estar fuera del círculo unitario. Una definición alternativa consiste en analizar la estacionariedad del VAR calculando las raíces que definan que el siguiente polinomio característico: ¯   ¯ ¯ ¯ ¯ θ12 θ13 1 0 ¯ ¯  − φ ¯ p (φ) = det ¯ ¯ ¯ θ22 θ23 0 1 ¯ donde si se resuelve la ecuación característica p (φ) = 0. es decir deben ser mayores a uno. + Θp yt−p + εt ¡ ¢ 0 = det I − λΘ1 − λ2 Θ2 − .. Para nuestro vector autorregresivo de un rezago (VAR(1)) el polinomio de segundo grado se representa por la resolución del siguiente determinante: ¯ ¯ ¯ ¯ ¯ 1 − λθ12 −λθ13 ¯ ¯ det ¯ ¯ ¯ ¯ −λθ22 1 − λθ23 ¯ = 1 − (θ12 + θ23 ) λ + (θ12 θ23 − θ22 θ23 ) λ2 donde se requiere que λ1 > 1 y λ2 > 1. Específicamente: ¯   ¯ ¯ ¯ ¯ θ12 θ13 1 0 ¯  − φ ¯ = 0 det ¯ ¯ ¯ ¯ θ22 θ23 0 1 ¯ este determinante es un polinomio de grado n.. equivalente al número de filas (o columnas) de la matriz analizada Θ. Generalizando a un sistema o vector autorregresivo con k variables y con p rezagos. entonces φ define al vector propio (eigenvalue) de la matriz Θ1 .

32 0.35λ − 0. 611 2 λ1 1 1 φ2 = 0.158 CHAPTER 10 MODELOS MULTIVARIADOS Ejercicio.61 0.32 0. 1 1 = −3.173 6 = 0 son: .08 0. 595 1 que equivale al inverso de los valores encontrados para φ1 y φ2 .08 0.32 0.276 91 φ2 = 0.61 1 0 ¯ − φ ¯ = φ2 − 0.173 6 det ¯ ¯ ¯ ¯ 0.0 − 0.626 91 = = 1. lo que se refiere a donde ahora la solución es:  0.27 ¯ 1.27  cuyas raíces o valores propios al solucionar φ2 − 0. La estimación de un sistema de dos variables con un rezago entregó el siguiente vector de parámetros estimados.626 91 ambos menores que 1 en valor absoluto de manera que el sistema es estacionario. 611 2 λ2 = 1.35φ − 0. representados en forma matricial por:   El polinomio característico se representa por el determinante de ¯   ¯ ¯ ¯ ¯ 0.27 0 1 ¯ φ1 = −0.35φ − 0.61 ¯ ¯  − λ ¯ = 0 det ¯ ¯ ¯ 0 1 0. 595 1 λ2 φ1 = −0.173 6λ2 = 0 λ1 = −3.08 0. Para determinar la condición de estacionariedad debemos calcular el siguiente determinante: ¯   ¯ ¯ ¯ ¯ 1 0 0.276 91 = De quí se entiende por qué a veces cuando se habla de estacionariedad se dice que las raíces deben estar fuera del círculo unitario.

071865 0.396690 0.111 83λ3 − 0.1. criterio de información Bayesiana de Schwarz (BIC). que los valores de los φ0 s sean menores que 1 en valor absoluto. Entre los más utilizados empíricamente se encuentran los criterio de información de Akaike (AIC).396690 0. 035 1. o lo que es lo mismo. lo cual determina un factor comun . y que permiten definir exactamente el número de rezagos (o orden) que deben presentar los modelos de VAR.09 634 7λ + 1 La solución de este polinomio entrega los siguientes valores propios.071865 0.023580 0. todos los cuales son mayores que 1 de manera que el sistema es estacionario: λ1 λ2 λ3 λ4 = = = = 42.657941 = 2.10.216838   El polinomio característico se representa por el determinante de ¯   ¯   ¯ ¯ ¯ 1 0 0. Ejercicio.561594 −0.1 VECTORES AUTOREGRESIVOS: VAR 159 que los valores de las raíces λ0 s deben ser mayores que 1 en valor absoluto.0000734 −0. 756 2 −4. 992 3 × 10−3 λ4 − 0.007503 0.584 71λ2 − 0.561594 −0.216838 ¯ 0. y el criterio de Hannan y Quinn (HQ). Los tres criterios imponen una función de pérdida considerando el número de parámetros a estimar en el modelo. La estimación de un sistema de dos variables con dos rezagos entregó el siguiente vector de parámetros estimados. 0.2 Rezagos Optimos: VAR(p) Al igual que en modelos univariados existen diversos criterios o funciones a minimizar. 123 4 −1.023580 2  − λ ¯ −λ det ¯ ¯ ¯ ¯ 0 1 0.0000734 −0.007503 ¯ −0.657941   . 029 6 10. representados en forma matricial por:   −0.

.2 10.. El modelo estructural se representaría por una media móvil MA(∞) de la forma: P ∆yt = A0 εt + A1 εt−1 + A2 εt−2 + . T el número de observaciones. Los elementos de Σe son calculados considerando la estimación por máximo verosimilitud de las varianzas de los residuos (es decir dividiendo por T en lugar de dividir por T − (pd2 + 1)) llegando a definirse por:   0 0 0 e e e e . ...      0 0 0 ed e1 ed e2 . y ln |Σe | define el logaritmo del determinante de la matriz de varianzas y covarianzas estimada de los ˆ residuos muestrales de cada ecuación del sistema VAR. ˆ d el número de ecuaciones (o variables) del VAR... ed ed dxd 10. e2 ed   ˆ Σe =  T  ..3 10.. Por . e1 ed   1 1 1 2   0 0 0 1  e2 e1 e2 e2 ...160 CHAPTER 10 MODELOS MULTIVARIADOS entre los tres criterios (AIC < HQ < BIC): pd2 ˆ AIC = ln |Σe | + [2] T pd2 ˆ [ln (T )] BIC = ln |Σe | + T pd2 ˆ [2 ln (ln (T ))] HQ = ln |Σe | + T donde p define el número de rezagos del VAR..... = ∞ Ai εt−i = A (L) εt i=0 donde A(L) representa a la matriz de polinomios de rezagos y ∆y representa el vector de variables integradas de orden cero I(0) o estacionarias... . .4 Funciones de Impulso-Respuesta Test de Causalidad de Granger Vector Autoregresivo Estructural: SVAR Esta metodología consiste en relacionar los residuos estructurales (εt ) con los muestrales del vector autoregresivo (et )..

restando solamente n (n − 1) /2 restricciones que imponer para completar la matriz A0 . lo cual finalmente nos permite relacionar los residuos estructurales con los muestrales o estimados a través de la siguiente expresión: .. es decir a partir de los residuos muestrales (e) y la matriz de varianzas y covarianzas estimada Ψ. C(1).. + Θp ∆yt−p + et ˆ donde Θi representa la matriz de rezagos polinomiales estimada. Para esto tomamos la matriz simétrica Ψ que nos entrega estimadores n (n + 1) /2 de A0 (n es el número de variables en el V AR).4 VECTOR AUTOREGRESIVO ESTRUCTURAL: SVAR 161 construcción se asume que la matriz de varianzas y covarianzas de los shocks estructurales se representa por la matriz identidad.. es decir: E (εε0 ) = I Para identificar los parámetros de este modelo estructural se estima su forma autoregresiva reducida con p rezagos V AR(p): ˆ ˆ ˆ ∆yt = Θ1 ∆yt−1 + Θ2 ∆yt−2 + . entonces podemos representar al V AR(p) como un proceso de media móvil con infinitos rezagos (Teorema de Descomposición de Wold). es decir un MA(∞): P ∆yt = et + C1 et−1 + C2 et−2 + . Una vez definida A0 se procede a identificar la matriz de efectos de largo plazo de los shocks del modelo reducido1 .10. = ∞ Ci et−i = C (L) et i=0 et = A0 εt lo cual implica que: E (ee0 ) = A0 E (εε0 ) A00 = A0 A00 = Ψ Luego finalmente para identificar los shocks estructurales (ε) a partir de la información contenida en la estimación del V AR(p).. a través de A(1) = C(1)A0 . La matriz de varianzas y covarianzas estimada se denota por: E (ee0 ) = Ψ Dado que el proceso estocástico estimado anterior es estacionario. El C(1) se obtiene de la estimación del V AR(p) y correspopnde al valor del polinomio C(L) cuando L = 1. para relacionarla con su matriz equivalente del modelo estructural A(1). necesitamos identificar suficientes parámetros o restricciones de la matriz A0 . 1 donde C0 = 1..

nobs=rows(data). hy=zeros(nobs. hp[t]=sqrt(abs(c[10]+c[11]*ep[t-1]^2+c[12]* hp[t-1]^2+c[13]*hp[t-2]^2)).t. local nobs.. hp[1]=sqrt(abs(c[10]/(1-c[11]-c[12]-c[13]))).162 CHAPTER 10 MODELOS MULTIVARIADOS proceso final consiste en identificar e imponer restricciones de largo plazo.ep.sigma. 2 .hp=hy.1).]*(c[4]|c[5]|c[6]). 10.1) yt = θ11 + θ12 yt−1 + θ13 π t−1 + εyt πt = θ21 + θ22 yt−1 + θ23 π t−1 + επt       2 εyt 0 σyt ρσ yt σ πt  ˜N   . o que los shocks de oferta producen efectos permanentes sobre el producto. la parte conocida de A0 . ey[t]=y[t]-x[t.5 Modelo VAR-GARCH(1. la matriz de polinomios C(1) estimada a partir del VAR. hy[1]=sqrt(abs(c[7]/(1-c[8]-c[9]))).ey. considerando.cova.m.m=hy. es decir sobre A(1).dsigma=hy. ey=zeros(nobs.cova=hy.data).lnl.in.hp.dsigma. La restricción usual de largo plazo en modelos macroeconométricos es que shocks de demanda no causan efectos permanentes sobre el producto.]*(c[1]|c[2]|c[3]). hy[t]=sqrt(abs(c[7]+c[8]*ey[t-1]^2+c[9]*hy[t-1]^2)).stt.   ε =  2 επt ρσ yt σ πt σ πt 0 El modelo a estimar se representa por: σ 2 = φ1 + φ2 ε2 + φ3 σ 2 yt yt−1 yt−1 σ 2 = ω 1 + ω 2 ε2 + ω3 σ 2 + ω 4 σ 2 πt πt−1 πt−1 πt−2 Código GAUSS proc lnlk(c..hy. ep[t]=p[t]-x[t.1). do while t le nobs. t=3. y finalmente restricciones de cointegración y teoría macroeconómica sobre relaciones de largo plazo entre las variables2 .ep=ey.

c14=0. c11=0. _cml_ineqproc = &inevgarch.retcode} = maxprt(cml(data.f0.5 MODELO VAR-GARCH(1.1) 163 cova[t]=c[14]*hy[t]*hp[t]. c10=0. c12=0. . sigma=(hy[t]^2~cova[t])|(cova[t]~hp[t]^2).&lnlk.7.7. _cml_LineSearch = 2. m[t]=(ey[t]~ep[t])*in*(ey[t]|ep[t]). {b. c7=0.0. startv=inv(x’x)*x’y|inv(x’x)*x’p|c7|c8|c9|c10|c11|c12|c13|c14. c9=0.cov. _cml_covpar=2.g. _cml_Algorithm = 3. endp. _cml_MaxIters = 200. in=inv(sigma). _cml_GradMethod=1. t=t+1. endo.2.2. c13=0. stt=3. lnl=-.4. dsigma[t]=det(sigma).4. endp. retp(lnl).5*m[stt:rows(data)]. c8=0. proc inevgarch(c).5*ln(2*pi)-.startv)).10.5*ln(dsigma[stt:rows(data)]) -. retp((c[7]/(1-c[8]-c[9]))|(c[10]/(1-c[11]-c[12]-c[13]))).

Las etapas son dos: Paso 1.164 CHAPTER 10 MODELOS MULTIVARIADOS 10. es decir si el DW → 0 (no cointegración). xt son RW (i. H0 : DW = 0 (No Cointegración). y tambien sea RW. Procedimiento de Dos Etapas de Engle y Granger (EG2) La ideas de cointegración surge del artículo de Engle y Granger (EMA.). no estacionarios).1 Cointegración y MCE Cointegración Uniecuacional Supongamos que yt . y cointegran. entonces x. Estimar la relación de cointegración por OLS: yt = α + βxt + εt (10. etc.6 10. en el cual proponen un procedimiento de dos etapas para modelar variables cointegradas. Otra alternativa es testear raíz unitaria para los residuos ˆt con DFA u ε otro test (Phillips-Perron. ˆ ˆ Paso 2. entonces la ecuación (1) representa ³ relación de largo plazo entre y y x. Definir el modelo de corrección de errores que incluye como variable explicativa al rezago del error de la ecuación de cointegración ˆt−1 : ε A (L) ∆yt = B (L) ∆xt + γˆt−1 + ν t ε . las dos series pueden tener la propiedad de que una combinación lineal particular de ellas (yt − θxt ) sea estacionaria.. Kwiatkowski et al.6. Said-Dickey. el cual evalua si εt es I (1). Sin embargo.1) y testear la existencia de cointegración analizando las propiedades de las series ˆt .e. entonces se dice que y. Si la hipótesis de no cointegración en rechazada. Sin embargo no está libre de problemas. Dado lo anterior es de esperar que una combinación lineal de x. x cointegran. ε Para esto se utiliza el test de CRDW (cointegrating regression DurbinWatson). Si tal propiedad es válida.. β se denomina vector de cointegración.. Si DW es significativamente mayor a cero. si DWc > DWT abla rechazamos H0. Para esto ver tabla de EG1987 para DW. y el vector de parámetros la ´ estimados α. 1987).

entonces los estimadores están sesgados y son ineficientes. y. ˆ Paso 3. Paso 2. Estimar la ecuación de largo plazo yt = α+βxt +εt .10. (ii) la distribución de los estimadores es generalmente nonormal y por lo tanto no es posible efectuar inferencias a partir de los usuales test-t en la regresión de cointegración. y el término de corˆ reción de errores γ . Esto entrega ¡ ¢ un vector de conintegración α1 . Regresionar los residuos del modelo anterior (ECM) ν t con los ˆ regresores de largo plazo del modelo (xt ) ponderados por el inverso aditivo del parámetro de correción de errores γ : ˆ γ ν t = δ 0 + δ 1 (−ˆ xt ) + ˆ t . β 1 . La solución porpuesta por Engle-Yoo a este problema es: Paso 1. Estimar el modelo de correción de errores: ε A (L) ∆yt = B (L) ∆xt + γˆt−1 + ν t Se guardan los residuos estimados de esta ecuación ν t .6 COINTEGRACIÓN Y MCE Modelo de Correción de Errores Uniecuacional 165 Consideremos un ecuación de demanda por dinero tradicional con una variable de ajuste de stocks de corto plazo: mt = α + βyt + γit + δmt−1 + εt Asumiendo equilibrio de largo plazo mt = mt−1 de manera que la relación de largo plazo se representa por: m= β γ α + y+ i 1−δ 1−δ 1−δ Restando mt−1 a ambos lados y sumando cero: ∆mt = α + βyt + γit + (δ − 1) mt−1 + βyt−1 − βyt−1 + γit−1 − γit−1 + εt ∆mt = α + β∆yt + γ∆it + (δ − 1) mt−1 + βyt−1 + γit−1 + εt · ¸ α + βyt−1 + γit−1 ∆mt = β∆yt + γ∆it − (1 − δ) mt−1 − + εt 1−δ Método de Tres Etapas de Engle-Yoo Existen dos problemas con el método de EG2: (i) si los errores de la ecuación estática están correlacionados.

covarianza estacionario).e. j = 1. Sin embargo sabemos que es débilmente estacionario (i. y cuando la regresión estática y1t = βx1t + u1t no utiliza ninguna de la información que permite generar x1t . En presencia de correlación serial entonces los términos de Γ no son cero. . u0k ] captura el componente de correlación serial del vector de error. i. x1t son I (1). y donde Γ = Σk E [u0 . los sesgos en el estimador pueden ser grandes.166 CHAPTER 10 MODELOS MULTIVARIADOS ¡ ¢ El vector original de parámetros estimados α1 . Cuando los términos de errores uit están auto e intercorrelacionados. Ω] donde Ω = {ωij } . Asumamos que la estructura exacta de la estructura de var-covarianza ut = [u1t . HP propone la siguiente solución. Entonces si el proceso de error es no correlacionario y estacionario. β 1 se ajustan por estos nuevos estimadores: α3 = α1 + δ 0 β 3 = β 1 + δ1 Los errores estandar de los coeficientes de la regresión de largo plazo son simplemente los errores estandar de los coeficientes δ i estimados en la regresión del paso 3. Es conveniente descomponer la matriz de var-covarianza en: Ω = V + Γ + Γ0 donde V = E [u0 . 2. entonces la matriz de covarianza Ω = V . Phillips-Hansen Fully Modified Estimator (PH) Sea el DGP: y1t = βx1t + u1t x1t = x1t−1 + u2t donde se asume que y1t . u00 ] es la matriz de covarianza contemporanea. u2t ]0 es desconocido. lo cual se describe por: ut ˜ [0. Los estadísticos t computados utilizando estos errores estandar tienen una distribución t que puede ser utilizada para hacer inferencia perfectamente.

. β r ]. Sea el número de combinaciones de cointegración r.10.2 = ω11 − ω 2 ω −1 ˆ 10..7 SISTEMAS DE COINTEGRACIÓN El ”fully modified least squares estimator” de β toma la forma: i ¡ ¢−1 h¡ T + ¢ + Σt=1 y1t x1t − T ˆ δ β + = ΣT x2 t=1 1t + y1t = y1t − ω 12 (ˆ 22 )−1 ∆x1t ˆ ω   1 + ˆ = Λ ˆ  δ −1 ˆ − (ˆ 22 ) ω 12 ω 167 donde: ˆ Λ = Σ∞ E [u20 u0k ] k=0 + El estimador modificado envuelve dos correciones. se utiliza una variable instrumental de + manera que el estimador está condicionado en y1t en lugar de y1t .2 ΣT x2 ˆ t=1 1t ˆ ˆ 21 ˆ 22 ω11. el error estándar modificado por PH se define por s+ como: donde: ¡ + ¢2 ¡ ¢−1 s = ω 11. Finalmente.7. puede haber a lo más n − 1 combinaciones de cointegración. β 2 .. Luego 0 ≤ r ≤ n − 1. .7 Sistemas de Cointegración Dado un vector X˜I(1) de n elementos. y por lo tanto el modelo puede estimarse en sus primeras diferencias. Segundo. Primero el término ˆ δ corrige el sesgo en el estimador utilizando estimaciones de largo plazo de la matriz de var-covarianza.1 Identificación del Rango de Cointegración Note que en el caso en que r = 0 entonces no habría ninguna relación de cointegración. y los r vectores de cointegración se representan en una matriz n × r definida por β = [β 1 . El número de vectores de cointegración se conoce como el rango de cointegración de Xt . 10..

∆Xt . donde 0 < r < n. El método de Maximum Likelihood de Johansen consiste en examinar el rango de la matriz Π la cual contiene información sobre las relaciones de largo plazo. lo cual significa que existen r vectores de cointegración entre las n variables.... En este caso no hay vectores de cointegración y significa que las variables on individualmente I(1) y que no existe relaciones de largo plazo de la data.. k t Los Γi son los parámetros dinámicos del vector del modelo.e. − Πi ) ... lo cual significa que las variables no diferenciadas son de hecho I(0).... (iii) La matriz tienen rango r. Aquí tenemos tres casos: (i) Π posee rango cero. k en el lado derecho. permite representar el VECM como: ∆Xt = ΠXt−k + Σk−1 Γi ∆Xt−i + i=1 donde: Γi = − (I − Π1 − . 2. i.168 CHAPTER 10 MODELOS MULTIVARIADOS El modelo de corrección de errores vectorial VECM se deriba de un VAR general de la forma: Xt = Π1 Xt−1 + Π2 Xt−2 + .. Puesto que queremos revisar relaciones de cointegración dentro de un sistema estacionario. podemos reparametrizar el modelo de forma analoga al proceso uniecuacional del caso bi-variado. Π = (I − Π1 − . − Πk ) ∀i = 1. (ii) La matriz tiene rango completo. La manera en que debe ser estimado el sistema es a través de un VAR estándar con variables en primeras diferencias.. Luego rezagando la ecuación anterior y agregando y restando Πi Xt−i para i = 1.Πk Xt−k + t donde los elementos de Xt son I(1). . . y la matriz Π contiene los parámetros de largo plazo del modelo. .. y entonces el modelo es estacionario en niveles.

Part IV Modelos No Lineales Univariados 169 .

.

Para obtener los estimadores MV debemos generar la función log-verosimilitud y derivarla con respecto a los parámetros de interés: X µ θe−(β+θ)y (βy)x ¶ $ (β. y está dada por: f (x.Chapter 11 Estimación por Máxima Verosimilitud Ejercicio. . Suponga que la distribución de densidad conjunta dos variables aleatorias x. 1. Obtenga los estimadores de máxima verosimilitud de los parámetros β y θ.. θ) = ln x! ¶ Xµ θ x = ln (yβ) − yβ − yθ x! X X X X X = T ln θ − ln x! + x ln (y) + x ln (β) − β y−θ y entonces P ∂$ x X = − y=0 ∂β β ∂$ T X = − y=0 ∂θ θ 171 . 2. y) = β. θ > y = x = θe−(β+θ)y (βy)x x! 0 0 0...

172CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD De donde se obtiene finalmente que: P ¯ ˆ MV = P x = x β y ¯ y ¯MV = 1 θ y ¯ Ejercicio. 358 8 −1 ˆ   =  β = (x0 x) x0 y =  (11.105 54 = 0. 804 7 × 10−2 ˆ ˆ  V β =  −2 −5. A partir de la información entregada en la prueba podemos calcular los estimadores OLS:  −1     25 20 11 1.324 87. Para el modelo Y = Xβ + ε se dispone de la siguiente información:   20 11  x0 x =  11 25   25 x0 y =   10 Calcule los estimadores mínimos cuadrados.131 93 −5. Genere un intervalo de confianza del 95% para el coeficiente de sensibilidad. Suponiendo que el error se distribuye con media 0 y matriz de varianzas y covarianzas identidad (I) testee la hipótesis nula H0 : β 0 = β 1 = 0 utilizando el test de razón de verosimilitud.105 54 lo cual indica que la desviación estándar estimada del parámetro estimado √ ˆ β 1 será σ β 1 = 2 0. 804 7 × 10 0.197 89 ˆ Asumiendo que e0 e = 36 la varianza estimada para el estimador β 1 será:  −1 ³ ´ 0 36  20 11  ee −1 ˆ ˆ V β = (x0 x) = T −k 20 − 2 11 25   ³ ´ 0. Un intervalo de confianza para β 1 se ˆˆ .1) 10 11 25 −0.

484 66 Suponiendo que el error se distribuye normal con valor esperado cero y matriz de varianzas y covarianzas identidad.324 87 < β 1 < −0. tanto para el modelo no restringido como para el modelo restringido (ln(1) = 0): ´ T 1³ 0 ˆ $NR = − ln (2π) − y y − y 0 xβ 2 2 T 1 $R = − ln (2π) − y 0 y 2 2 .975 (T − k) · σ β 1 ˆˆ ˆˆ reemplazando con los resultados obtenidos anteriormente: −0. La función de log-verosimilitud para el modelo propuesto será: $NR = − T 1 e0 e T ln (2π) − ln σ 2 − 2 2 2 σ2 ˆ Recordando que e0 e = y 0 y − y 0 xβ podemos reescribir la expresión anterior como: ˆ T 1 y 0 y − y 0 xβ T $NR = − ln (2π) − ln σ 2 − 2 2 2 σ2 Si ahora escribimos la misma expresión anterior pero para el modelo restringido tenemos que dado una hipótesis nula de que β 0 = β 1 = 0.173 genera a partir del estadístico: tc = ˆ β1 − β1 ∼ t (T − k) σβ1 ˆˆ en nuestro caso al reemplazar y considerando un intervalo de confianza 95%.101 · 0.101 el intervalo para el parámetro β 1 será: ˆ ˆ β 1 − t0.880 44 < β 1 < 0.975 (T − k) · σ β 1 < β 1 < β 1 + t0. para t0. entonces efectuemos el test de razón de verosimilitud para testear la hipótesis nula H0 : β 0 = β 1 = 0. entonces: $R = − T T 1 y0 y ln (2π) − ln σ 2 − 2 2 2 σ2 Considerando que σ 2 = 1 podemos resescribir esta expresión de la siguiente forma.975 (18) = 2.101 · 0.324 87 −0.197 89 + 2.197 89 − 2.

171 2 s = N −1 9 N −1 9 σ 2 = s2 ˆ = 1.99 entonces rechazamos la hipóte95% sis nula H0 : β 0 = β 1 = 0. 2.9.8. 2. 054 1 N 10 s2 ∼ χ2 (N − 1) σ2 .99.1.1712 · = 1. 0. 0. 0.4. 3.174CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD El test de LR se forma del doble de la diferencia entre estas dos expresiones. σ 2 ): {1. Genere un intervalo de confianza del 95% para σ 2 . 2.541 (xi − x)2 2 = = 1.2. Para testear H0 : σ 2 = 1 debemos recordar la expresión: (N − 1) Luego el test consisrte en: χ2 = (N − 1) c s2 1.5 Lo primero es calcular la varianza muestral: P ¯ 10. es decir: ¡ ¢ LR = 2 $NR − $R ¶¸ ·µ ´¶ µ T T 1³ 0 1 0 0 ˆ − − ln (2π) − y y LR = 2 − ln (2π) − y y − y xβ 2 2 2 2 · ´ 1 ¸ ³ 1 ˆ ˆ ˆ LR = 2 − y 0 y − y 0 xβ + y 0 y = −y 0 y + y 0 xβ + y 0 y = y 0 xβ 2 2   ³ ´ 1.1.3.9} Testee la hipótesis de que la varianza es uno. es decir x ∼ N (µ. Como LR > 5.5. y utilizando un test de razón de   verosimilitud testee la hipótesis conjunta H0 :  µ=2 σ 2 = 1. 358 8  = 31. 991 LR = 25 10  −0.5. De la siguiente muestra de tamaño 10 para una variable aleatoria x generada de una distribución normal con media µ y varianza σ 2 . Ejercicio. es decir H0 : σ 2 = 1. 1. 541 = (9) 2 σ H0 1 . 171 2 = 10. 2.197 89 Para un test χ2 (2) = 5.

1712 1.5 − = −14. 907 2 2 2 1.1712 < σ 2 < (9) (9) 19.175 Al comparar con un valor de tabla de χ2 (9) = 19.975 1. 907)) LR = 0.5 .99 vemos que no es 0.5 10 10 1 11.541 10 ln 1. 904   µ=2  se obtienen Los valores para el cálculo del test LR para H0 :  2 σ = 1. 453 $N R = − ln (2π) − 2 2 2 1. posible rechazar la hipótesis nula H0 :  2 σ = 1. 453 − (−14.7 2 0.025 (N − 1) 0.5 Con este resultado aplicamos el test LR: ¢ ¡ LR = 2 $NR − $R LR = 2 (−14.554 20 < σ < 3.975 hazamos la hipótesis nula H0 : σ 2 = 1 Para el cálculo del intervalo de confianza aplicamos una expresión similar: s2 s2 < σ 2 < (N − 1) 2 χ2 (N − 1) χ0.95   µ=2 .5 una vez evaluada la función de log-verosimilitud en los parámetros estimados versus los restringidos: P n 1 (xi − µ)2 n NR 2 $ = − ln (2π) − ln σ − 2 2 2 σ2 (N − 1) Al reemplazar por los valores ya encontrados: P n 1 (xi − µ)2 n NR 2 = − ln (2π) − ln σ − $ 2 2 2 σ2 10 1 10. 054 1 − = −14.02 2.02 vemos que no rec0. 054 1 P 10 1 (xi − 2)2 10 R $ = − ln (2π) − ln 1.07 R $ = − ln (2π) − ln 1.908 Comparando con un estadístico de tabla χ2 (2) = 5.5 − 2 2 2 1.

El test de 15 Wald a aplicar es equivalente a testear la hipótesis H0 : g (λ) = 0 donde en nuestro caso g (λ) = λ − 2: ³ ³ ³ ´´2 ´2 ˆ MV ˆ MV − λH g λ λ 0 ³ ´´ = ´ W = ³ ³ ˆ ˆ ˆ ˆ V g λMV V λMV dado que la varianza de g (λ) es equivalente en esta restricción lineal a la varianza de λ. 2 Utilice el test de Wald para evaluar la hipótesis H0 : λ = 2. 1.. Suponga que se obtiene la siguiente muestra aleatoria para x: 3. 0. x = 0. 1. 3. 1. 3. Es decir: (1.. 4. 1. 2. 0.. 0. . 5. Si la variable aleatoria tiene la distribución: f (x) = e−λ λx x! entonces la función de log-verosimilitud (log-likelihood) se representará por: ¶ X X µ e−λ λx ¶ X µ 1 X 1 x $ (λ) = ln = ln λ − λ = x − Tλ ln + ln λ x! x! x! Derivando con respecto a λ se obtiene: ∂$ 1X = x−T =0 ∂λ λ P x ˆ MV = =x ¯ ⇒ λ T ˆ Dada la muestra este estimador equivale a λMV = 25 = 1.176CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Ejercicio. 2.6667 − 2)2 ´ ³ W = ˆ ˆ λMV V . 0. 1. 666 7. 2. La variable aleatoria x posee la siguiente distribución: f (x) = e−λ λx x! .

177 La varianza del estimador maximo-verosimil se obtiene de derivar dos veces la función de lok. .666666662 ˆ2 λMV luego el test de Wald es: (1.0 W = 0.1111111 Al 95% de una Chi-cuadrado con un grado de libertad se tiene un valor crítico de tabla de 3.84 lo cual nos indica que no rechazamos la hipótesis nula de que λ = 2.11111111 V 1.likelihood pues sabemos que: ³ ´ µ 2 ¶−1 µ 1 X ¶−1 ˆ ˆ λMV = − ∂ $ V = x ∂λ2 λ2 ˆ Al valorar en el estimador λMV esta expresión tenemos: !−1 µ Ã ¶−1 ´ ³ 1 X 1 ˆ ˆ λMV = x = 25 = 0.666666 − 2)2 = 1.

.

Una forma de estimar este parámetro es a través del método de máxima verosimilitud. El Método de los Momentos entrega una alternativa de estimación para este parámetro. Dado que la función de distribución posee solamente un parámetro representativo (su grado de libertad λ). supongamos que tenemos una muestra de observaciones de tamaño T . calculando primero la función de logaritmo de verosimilitud y segundo maximizando el valor de esta función de manera de encontrar el ˆ estadístico λMV . Si sabemos que: ¡ ¢ ¡ ¢ σ 2 = E y 2 − [E (y)]2 = E y 2 = y 179 λ λ−2 Sean una variable aleatoria y generada a partir de una función de distribución t-student con λ grados de libertad: h i ¸− λ+1 Γ (λ+1) · 2 y2 ( 2 ) f (y.1 Método de Momentos donde la función gamma se representaba por Γ (x) = (x − 1)!. Sabemos que la media poblacional de una distribución t es λ cero y que su varianza es igual a λ−2 . 12.Chapter 12 GMM Para comenzar a explicar en qué consiste en Método Generalizado de Momentos hay que introducir el concepto a través de la estimación por el clásico Método de los Momentos. λ) = £ ¤ 1+ 1 λ [πλ] 2 Γ λ 2 .

Dado que ahora son más de una función a minimizar se requiere de alguna forma de ponderación entre ellas de manera de evitar conflictos entre cada ecuación a minimizar. Supongamos que además del segundo momento se requiere calcular el parámetro λ utilizando otros momentos como por ejemplo el cuarto momento de la distribución t que denotamos por (kurtosis): 3λ2 (λ − 2) (λ − 4) P 4 1 con su contraparte muestral igual a T yt .180 CHAPTER 12 GMM entonces podemos encontrar la expresión muestral de σ 2 a partir de: y ¡ ¢ 1 PT 2 ˆ y σ2 = E y2 = ˆy T t=1 t Dado que σ 2 = y a partir de: λ λ−2 entonces parece natural que el estimador de λ se obtenga σ2 = ˆy ˆ 1 PT 2 λ yt = ˆ T t=1 λ−2 con lo cual llegamos a que el estimador de método de los momentos para λ será: σ2 ˆ MM = 2ˆ y λ σ2 − 1 ˆy ˆ Es decir el estimador λMM del método de los momentos es el valor para el cual los momentos poblacionales son igualados a los momentos observacios muestrales. El Método de los Momentos Generalizados (GMM) permite escoger λ de manera de minimizar la siguiente función: QT (λ) = g0 W g donde W es una matriz simétrica definida positiva de ponderación entre los momentos y g (vector de orden 2x1) se denota por:   P 2 1 λ yt − λ−2 T  g= P 1 3λ2 4 yt − (λ−2)(λ−4) T ¡ ¢ E y4 = .

2 MÉTODO GMM DE HANSEN 181 12. que corresponde al estimador λMM . ˆ Definición. ω t ) = yt − 1P 2 λ yt − T λ−2 r = k=1 ¶2 µ 1P 2 λ QT (ϑ) = yt − T λ−2 g (ϑ) = λ λ−2 ˆ La solución de este problema claramente se logra cuando λGMM = P ˆ σ2 = 1 T y 2 . ω t )] = 0. y sea ϑ0 el verdadero valor de ϑ. ω t ) un vector de función real de dimensión rx1. que supongamos obedece a la propiedad: E [h (ϑ0 . ˆ y T t=1 t 2ˆ 2 σy σ 2 −1 ˆy donde . ϑ un vector de dimensión kx1. El estimador GMM λGMM es el valor de ϑ que minimiza el escalar: QT (ϑ) = g (ϑ)0 WT g (ϑ) donde {WT }∞ es una secuencia de matrices de ponderación definidas posiT =1 tivas de orden rxr que pueden ser función de las series observadas. Sea h (ϑ. ω t ): g (ϑ) = T 1 P h (ϑ.12. Así lo que podemos observar es que el estimador del método de momentos 2ˆ 2 σy ˆ clásico para λMM = σ2 −1 es un caso especial de GMM: ˆ y ω t = yt ϑ = λ WT = 1 2 h (ϑ. ω t ) T t=1 La idea detrás de la metodología GMM es escoger ϑ de manera de hacer que el momento muestral g (ϑ) sea lo más cercano posible al momento poblacional de cero E [h (ϑ0 . ω t )] = 0rx1 Si denotamos por g (ϑ) a la contraparte muestral de h (ϑ.2 Método GMM de Hansen Definamos a ωt un vector de hx1 variables aleatorias observadas en t.

ωt )}t=∞ ya sea que esten serialmente no correlacionados o set=−∞ rialmente correlacionado. ωt → S ST = T t=1 Dado el carácter recursivo del método. y para estimar S requerimos de un estimador de ϑ. ωt h ϑT . ω t ) no se correlaciona serialmente. ωt ) h (ϑ0 . Supongamos que cuando se evalúa en el vector verdadero ϑ0 . ω t )0 T t=1 Sabemos que S es la varianza asintótica de la media muestral de h (ϑ0 . ω t ) h (ϑ0 . pues para estimar ϑ requerimos de un estimador de S. si h (ϑ0 .182 CHAPTER 12 GMM 12.3 WT Optima Es necesario determinar cual es el valor óptimo de WT al momento de calcular los estimadores GMM. ω t )0 Asumiendo que estas autocovarianzas son sumables se define: ∞ P S= Γν ν=−∞ T →∞ entonces el valor óptimo de la matriz de ponderación de g (ϑ) para g (ϑ)0 WT g (ϑ) será S −1 . entonces: ´ ³ ´0 T 1 P ³ˆ P ˆ ˆ h ϑT . ω t )}t=∞ es estrictamente estacionario com t=−∞ media cero y matriz de autocovarianza de orden ν dada por: £ ¤ Γν = E h (ϑ0 . £ ¤ Si no existe correlación entonces la matriz S = limT →∞ T ·E g (ϑ0 ) g (ϑ0 )0 puede ser estimada consistemente a través de su contraparte muestral: ST = T 1 P h (ϑ0 . entonces se plantea un esquema iterativo con criterio de convergencia con el siguiente algoritmo: . ω t ): £ ¤ S = lim T · E g (ϑ0 ) g (ϑ0 )0 Calcular ST requiere de un estimador para ϑ0 aunque puede demostrarse que para cualquier estimador consistente de ϑ0 . el proceso {h (ϑ0 . De esta manera la mínima varianza asintótica del estimador GMM ˆ ˆ ϑT se obtiene cuando ϑT se escoge de manera de minimizar la función: QT (ϑ) = g (ϑ)0 S −1 g (ϑ) Existen dos alternativas de presentación del vector que representa al proceso {h (ϑ0 .

Este proceso itera hasta que la regla de detensión (stopping rule) es válida. es decir hasta que el vector de parámetros entre cada iteración sea equivalente considerando algún criterio de distancia (euclidiana por ejemplo): ˆ (j) = ˆ (j+1) ϑT ∼ ϑT Si alternativamente se presume que el proceso vectorial de {h (ϑ0 . Utilizamos WT = ST en la expresión de Q (ϑ) para estimar un ˆ ˆ 4. ωt ST = T t=1 ˆ (1) nuevo vector de parámetros GMM ϑT : h i−1 0 ˆ(0) Q (ϑ) = g (ϑ) ST g (ϑ) (1) (0) i−1 h ˆ(0) 3.T + Γν. entonces se puede utilizar el estimador de Newey-West (1987) para S: · µ ¶³ ´¸ q P ν 0 ˆ ˆ ˆ ˆ ST = Γ0.T + Γ0ν. ST moviéndonos al paso 2. Con este estimador de ϑ (ϑT ) se procede a calcular la primera estimación de S: T 1 P ³ ˆ (0) ´ ³ ˆ (0) ´0 ˆ(0) h ϑT .T + κ Γν.T ˆ ˆ ˆT = Γ0.T q+1 ν=1 ·µ ¶³ ´¸ q ν ˆ ν.12. ω t )}t=∞ t=−∞ está serialmente correlacionado.T = T t=ν+1 (1) donde: . Obtener un estimador inicial de ϑT minimizando la expresión: Q (ϑ) = g (ϑ)0 WT g (ϑ) utilizando la matriz WT = Ir . ω t h ϑT .T + P 1− Γ S q+1 ν=1 T 1 P ³ ˆ ´ ³ ˆ ´0 ˆ h ϑ. ωt h ϑ. 183 ˆ 2. ωt Γν. Con este nuevo vector ϑT se calcula una nueva matriz S.3 WT OPTIMA ˆ (0) 1.

A continuación se presentan los kernels más conocidos entre los cuales se encuentra el propuesto por NeweyWest.75 0. para |x| ≤ 1  kB (x) =  0.25 0 -2 -1 0 1 x 2 Kernel Truncado 2. en otro caso  .184 CHAPTER 12 GMM Hay que mencionar que existen variadas funciones kernels candidatos a ponderar las matrices de autocovarianzas.25 kT R (x) = 0 1 0.5 0. Kernel Truncado (White):  1  para |x| ≤ 1  en otro caso  y 1. que fue utilizado anteriormente: 1. Kernel Bartlett (Newey-West):    1 − |x| .

5 0.  para |x| ≤ 1  en otro caso  . Kernel Parzen (Gallant):    1 − 6x2 + 6 |x|3 .25 0 -2 -1 0 1 x 2 Kernel Parzen 4. para 1 ≤ |x| ≤ 1 2        0 en otro caso  y 1.75 0.25 1 0.5 0.12.75 0. Tukey-Hanning: kT H (x) =    (1+cos(πx)) .25 0 -2 -1 0 1 x 2 Kernel Bartlett (Newey-West) 3.25 1 0. para 0 ≤ |x| ≤ 1     2    kP R (x) = 2 (1 − |x|)3 .3 WT OPTIMA 185 y 1. 2 0.

5 0. Review of Economic Studies 61(4)). y Newey and West.25 1 0.75 0.5 -1. parámetro conocido como bandwidth parameter. "Automatic Lag Selection in Covariance Matrix Estimation". ECONOMETRICA 59(3).25 1 0. "Heteroskedasticity and Autocorrelation Consistent Covariance Matrix Estimation".25 0 -2.5 x Kernel Quadratic Spectral (Andrews) Otro punto de relevancia consiste en determinar el q óptimo. La literatura menciona criterios automáticos de selección para este parámetro (Andrews. .186 CHAPTER 12 GMM y 1.5 0.25 0 1. Quadratic-Spectral (Andrews): 25 kQS (x) = 12π 2 x2 Ã sin 5 6πx 5 ¡ 6πx ¢ 6πx − cos 5 µ ¶! y 1.75 0. 1994.25 0 -2 -1 0 1 x 2 Kernel Tukey-Hanning 5. 1991.25 2.

ω t )} previamente "blanqueado" a través de un V AR(1) o un V AR(2).3221 [ˆ (2) T ] 5 ϕ donde: ϕ (1) = ˆ Pk Pk 4ˆ2 σ4 ρa ˆ a a=1 (1−ˆa )6 (1+ˆa )2 ρ ρ 1 1 ¡ ¢ Para determinar el par ρa .12. σ 2 Andrews y Monahan ("An Improved Hetˆ ˆa eroskedasticity and Autocorrelation Consistent Covariance Matrix Estimator".4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 187 Newey-West y Andrews determinan este parámetro según las siguiente ecuaciones para los kernel tipo Barttlet (Newey-West) y Quadratic-Spectral (Andrews): qB = 1. Asumiendo un óptimo interior.1447 [ˆ (1) T ] 3 ϕ qQS = 1. Luego el vector ϑT siguiente sistema de ecuaciones no lineales: ¶  µ h i−1 0 ˆ g (ϑ)   ∂ g (ϑ) ST ∂Q (ϑ)   =   ∂ϑ ∂ϑ = µ ∂g (ϑ) ∂ϑ ¶0 ˆ ϑ=ϑT ˆ Sea ϑT el vector que minimiza la expresión: h i−1 ˆ g (ϑ) Q (ϑ) = g (ϑ)0 ST P h i−1 ˆ ST g (ϑ) = 0 . ECONOMETRICA 60) proponen estimar un proceso AR(1) para el ´ componente aesimo de {h (ϑ0 . ϕ (2) = Pk ˆ 4ˆ2 σ 4 ρa ˆ a a=1 (1−ˆa )8 ρ σ4 ˆa a=1 (1−ˆa )4 ρ Pk σ4 ˆa a=1 (1−ˆa )4 ρ 12.4 Distribución de los Estimadores GMM ˆ donde ST → S. esta minimización se consigue haciendo que la derivada de la expresión anterior con respecto al vector de ˆ GMM se obtiene de la solución del parametros ϑ sea cero.

T + 1 − q+1 Γν.188 donde ³ ∂g(ϑ) ∂ϑ CHAPTER 12 GMM ´0 h i−1 ˆ es una matriz de orden kxr. ω t h no correlacionado  T t=1 ˆ ST = ´³ ´i q P h³ ˆ  ν ˆ ˆ  Γ0. p lim ∂g(ϑ) 0 ∂ϑ ¸ ·³ ´ ¸ ˆ ϑ=ϑT = p lim ∂g(ϑ) ∂ϑ0 ϑ=ϑ0 = D0 ´ ³ ˆ ˆ T → N ϑ0 . ω t h ϑT . V ) −1 ˆ ϑ=ϑT donde V = (DS −1 D0 ) . Utilizando la teoría central del límite se puede demostrar que la distribuˆ ción asintótica del estimador ϑT está dada por: ³ ´ √ ˆ T ϑT − ϑ0 → N (0. ST es de orden rxr. g (ϑ) de orden rx1. T g (ϑ0 ) → N (0. ϑT → ϑ0 ·³ ´ 3.T h correlacionado    ν=1 ¶0 µ ∂g (ϑ) ˆ DT = ∂ϑ ˆ ϑ=ϑT ˆ VT = ˆ con DT es de orden kxr. VT . V ) . y finalmente 0 es de orden kx1. S) ˆ P 2. de manera que podemos decir que la distribución aproximada del estimador GMM será: à ! ˆ VT ˆ ϑT → N ϑ0 .T + Γ0ν. Más formalmente las siguientes tres condiciones son las que permiten ˆ llegar a la distribución asintótica del estimador para ϑT : √ CLT 1. de manera que entonces ϑ T −1 0 −1 Estas condiciones permiten decir entonces que: ´ √ ³ CLT ˆ T ϑT − ϑ0 → N (0. donde V = (DS D ) . T donde: ´−1 ³ ˆ ˆ−1 ˆ 0 DT ST DT   ´ ³ ´0 T P ³ˆ   1  ˆ   h ϑT .

Ete hecho se da especialmente cuando se estima modelos con retornos de activos pues estos tienden a estar fuertemente correlacionados unos a otros. Por ejemplo supongamos que:   1 ρ  S= ρ 1 de manera que su inversa es:  − ρ21 −1 ρ ρ2 −1 ρ ρ2 −1 La descomposición matricial de Cholesky permite descomponer cualquier matriz real cuadrada simétrica y definida positiva (como debiera ser S −1 ) en dos matrices que cumplen con la condición que C 0 C = S −1 . .12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 189 12. Recordemos que la función a minimizar la definimos por: ˆ−1 Q (ϑ) = g (ϑ)0 ST g (ϑ) ˆ−1 Si reemplazamos ST por su descomposición de Cholesky respectiva se obtiene: £ ¤ Q (ϑ) = g (ϑ)0 C 0 [Cg (ϑ)]  C= − ρ21 −1 0 q − ρ21 − −1 ρ q (ρ2 −1) − ρ2 1 ρ2 −1 S −1 =  − ρ21 −1   (ρ2 −1)2 (−ρ2 + 1)   de manera que la expresión Cg (ϑ) nos señala la ponderación que cada momento tendrá en el proceso de minimización.4.1 S Cuasi-Singular Empiricamente es común encontar que la matriz S es casi singular. fenómeno que se refuerza cuando además se incluyen muchos activos en relación al número de observaciones (un nivel de saturación parámetros/data muy alto). lo cual dificulta el trabajar con su inversa S −1 . Para nuestro ejemplo la descomposición de Cholesky se denota por la matriz C definida por: q  Lo interesante de esta descomposición es que nos permite visualizar el peso que se le está dando a cada momento dentro de la función objetivo.

T T .2 Inferencia ¯ ¯ ¯ ¯ ξ de manera que si el estadístico ¯ˆ¯ es mayor a 1.4. Para el caso de hipótesis conjuntas o multivariadas consideremos una función F : <k → 0J .0 ³ ´ ˆ ˆ T ϑi.9 la matriz C es:   2.0 → N (0. 1) q ξ ˆ Vii. donde ϑi.96 entonces rechazamos la H0 ˆ ˆ hipótesis nula H0 : ϑi. Entonces F (ϑ0 ) = 0J representa las J hipótesis que potencialmente puede incorporar a todo o parte del vector de parámetros ϑ0 . Para testear la hipótesis nula F (ϑ0 ) = 0J .T podemos En relación a inferencia sobre el i elemento del vector ϑ ´ ³ ˆ ˆ utilizar la distribución asintótica anterior ϑT → N ϑ0 . VT de manera que: T esimo 12. se debe hacer uso del hecho que si efectivamente F (ϑ0 ) = 0J . 064 7  C= 0 1. entonces asintóticamente como sabemos ´ √ ³ ˆ T − ϑ0 → N (0. y que además la diferencia entre los dos momentos tienen una ponderación doble a la del segundo momento. V ). VF ) ˆ ˆ = ϑi.190 CHAPTER 12 GMM indicando que el peso en la función objetivo del primer momento es más del doble de lo que se pondera el segundo momento. entonces se cumple que: que T ϑ ³ ´ √ a ˆ T F ϑT ∼ N (0J . 294 2 −2. Por ejemplo para el caso en que ρ = 0.0 = ϑi.T es el elemento i del vector ϑT y ˆ ˆ Vii.T es el elemento i de la diagonal de la matriz VT .T − ϑi. es decir de los reales-dimension k a un vector de ceros de dimensión J donde J indica el numero de hipótesis conjuntas (restricciones).0 . El consejo práctico es evaluar la matriz S −1 con su descomposición de Cholesky de manera de visualizar cuál es la ponderación de los momentos que está siendo utilizada en la función objetivo.

12. equivalente al número de restricciones o subhipótesis consideradas: ³ ´0 ³ ´ ˆ ˆ ˆ T F ϑT VT−1 F ϑT ∼ χ2 (J) Test de Hansen Usualmente denominado test de Hansen.5 Aplicaciones Esta sección revisa las aplicaciones más conocidas de la metodología GMM.5 APLICACIONES donde: VF = f (ϑ0 ) V f (ϑ0 )0 ¸ · ∂F f (ϑ0 )JxJ = ∂ϑ0 ϑ=ϑ0 191 La contraparte muestral de este test debe considerar estimadores para V de manera que: ³ ´ ³ ´0 ˆ ˆ ˆ ˆ VF.T = f ϑT VT f ϑT Finalmente el test se efectúa con la expresión cuadrática de la distribución asintótica normal. Establece que el estadístico formado por T veces el valor de la función objetivo minimizada en la segunda etapa iterativa posee una distribución chi-cuadrado con grados de libertad equivalentes a la diferencia entre momentos considerados (r) y parámetros estimados (k): µ ¶ h i−1 0 ˆ T JT = T min g (ϑ) ST g (ϑ) ∼ χ2 (r − k) ϑ 12. es decir una chi-cuadrado con J grados de libertad. . este desarrolla una manera de testear lo que se conoce como restricciones de sobreidentificación (JT − test) que evalúa el ajuste completo del modelo estimado.

2.192 CHAPTER 12 GMM 12. u00 < 0.5. 2. definida por:  1−γ   ct para γ > 0 y γ 6= 1  1−γ u (ct ) =  ln (c )  para γ = 1 t Al incorporar el supuesto de una función de utilidad del tipo CRRA.t+1 ) en t + 1. El probela analíticamente a resolver es: ∞ P t MaxE0 β u (ct |=t ) t=0 Sea la función de bienestar del tipo de aversión relativa al riesgo contante (CCRA). y al set de información disponible por el agente y el econometrista en el período t.. el cual denotamos por =t . γ representa al coeficiente de aversión relativa al riesgo. .. m donde ct es el consumo del agente en el momento t.. es decir que el inversionista toma una posición en cada activo disponible.t+1 ) c−γ |=t ∀i = 1. y la función de utilidad es creciente al tasas decrecientes: u0 > 0 ...t+1 ) u0 (ct+1 ) |=t ] ∀i = 1.2 Mínimos Cuadrados Modelos de Expectativas Racionales sujeto a la restricción de flujo que indica ct + pit sit+1 = (pit + dit ) sit . el portafolio óptimo del accionista deberá satisfacer las condiciones de Euler (condiciones necesarias de primer orden del problema de optimización dinámica) siguientes: u0 (ct ) = βE [(1 + ri. la expresión de optimalidad de Euler se traducirá a: £ ¤ c−γ = βE (1 + ri. En esta economía el agente representativo maximiza su nivel de bienestar 1 descontado a una tasa β < 1 que es equivalente a 1+δ donde δ > 0 representa la tasa de descuento subjetivo del agente representativo. Si asumimos una solución interior.5. descrita anteriormente. m t t+1 Al simplificar esta expresión a: " ct+1 1 = βE (1 + ri. cada uno de los cuales retorna una tasa bruta de retorno (1 + ri.t+1 ) ct µ ¶−γ |=t # . .1 12. En cada momento del tiempo t el agente decide cuánto comprar de cualquiera de los m activos disponibles a invertir..

es decir: " # ¶−γ µ ct+1 E β (1 + ri. .t+1 ) ct − 1 es ortogonal al set de variables contenidas en =t .t+1 ) ct+1 − 1 |=t  ct         . ω t ) estará definida por: g (ϑ) = y la función objetivo es: ˆ Q (ϑ) = g (ϑ) ST 0 h i−1 g (ϑ) .5 APLICACIONES 193 correlacionado con el set de información =t disponible en el período t. ω t ) por (r = m): ¶  µ ´−γ ³ ct+1 − 1 |=t   β (1 + r1...t+1 ) ct  µ ¶ ´−γ ³   ct+1  β (1 + r2.. ωt ) =  β (1 + r3. r2. γ)0 ¶0 µ ct+1 0 ωt = r1. rm..t+1 ) ct − 1 |=t mx1 T 1 P h (ϑ.t+1 . · ³ ´−γ ¸ ct+1 donde la variable aleatoria β (1 + ri.t+1 . ω t ) T t=1 donde la representación muestral de h (θ.  µ ¶ ´−γ ³   ct+1 β (1 + rm. Esta última expresión se puede representar como una condición de ortogonalidad.12.t+1 .t+1 ) − 1|=t = 0 ct · ´−γ ¸ ³ ct+1 no estará queda claro que la variable aleatoria 1 − β (1 + ri..t+1 ) ct Utilizando la notación del modelo GMM definamos el vector de parámetros θ y al vector de variables observadas por el econometrista ω t por: θ = (β. . =t ct Concatenando las condiciones de ortogonalidad para los m activos disponibles llegamos a representar la función h (θ.t+1 ) − 1 |=t  ct    µ ¶ ³ ´−γ   h (θ..

³ −γ De acuerdo a la teoría.5. ωt h ϑ S T t=1 rx1 1xr ˆ donde ϑT es un estimador inicial consistente que puede derivarse minimizando ˆ Q (ϑ) con ST = I. ... En modelos de equilibrio general de precios de activos. =t = 1.t+1 ) ct+1 no dect biera estra correlacionada con ninguna variable del set de información =t disponible en t. r1t−1 .. que consideran decisiones intertemporales de consumo del agente representativo. la expresión 1 − β (1 + ri.. ω t ) no debiera estar correlacionado con sus propios rezagos. Modelos de equilibrio intertemporal permiten establecer que existe un factor de descuento estocástico tal. lo cual sugiere que la matriz S pueda ser consistentemente estimada por1 : · ³ ´ ´0 ¸ ³ T ˆ ˆ T . r2t−1 . que además ignoran decisiones intertemporales de consumo. . ya sea la tasa libre de riesgo o los factores que se consideran en los modelos de multifactores como el APT. el vector h (θ. En su representación estándar. Dada esta caracerística. r2t .. el factor de descuento estocástico es la tasa marginal de sustitución intertemporal del agente representativo.. r1t . . Si consideramos un agente representativo que maximiza el valor descontado a Es usual suponer que los instrumentos o variables consideradas en el set de información de este pronlemas sean: µ ¶0 ct ct ct . ct−1 ct−1 ct−1 1 . . set que puede incluir incluso sus propios rezagos. Formalicemos el resultado del modelo presentado en secciones anteriores. 12.. ωt ˆT = 1 P h ϑT .. .3 Modelos de Descuento Estocástico Tradicionalmente modelos de CAPM (Capital Asset Pricing Models) y APT (Arbitrage Price Theory) consideran ciertos parámetros como exógenos en la determinación de retornos. en estos modelos las decisiones de portafolio no toman en consideración períodos futuros siendo más bien modelos estáticos. que la esperanza del producto de cualquier retorno bruto de un activo con este factor es igual a uno.194 CHAPTER 12 GMM Esta expresión debe ser minimizada numéricamente con respecto´a ϑ.

t+1 ) |=t ] = 1 donde el factor de descuento estocástico. que involucran hábitos de consumo y dinero en forma de Cash In Advance (CIA) o Money in Utility Function (MUF ). 0 A partir de esta definición es posible verificar que el factor de descuento estocástico es siempre positivo (o en rigor no negativo). pues las utilidades marginales son positivas (la excepción es cuando teóricamente u0 (∞) → 0). entonces u0 (c) = c−γ 1−γ de manera que el factor de descuento estocástico será: µ ¶−γ mt+1 u0 (ct+1 ) =β 0 =β u (ct ) ct+1 ct Modelos más completos. o precio-kernel. se define por mt+1 = 0 t+1 β uu(c(ct ) ) .. m Dividiendo ambos lados de la ecuación por u0 (ct ).t+1 ) |=t = 1 E β 0 u (ct ) E [mt+1 (1 + ri. 1−γ Si consideramos una función del tipo u (c) = c . . los cuales se presentan a con- . 2..12.t+1 ) u0 (ct+1 ) |=t ] ∀i = 1. generan descuentos estocásticos modificados..5 APLICACIONES 195 una tasa β del flujo de utilidades futuras u (ct ) podemos decir que el plan de consumo y portfolio óptimo de este agente estará representado en las ecuaciones de Euler (condiciones de primer orden del problema de optimización) definidas por: u0 (ct ) = βE [(1 + ri. llegamos a definir el factor de descuento estocastico a partir de: ¸ · 0 u (ct+1 ) (1 + ri.

.196 tinuación: CHAPTER 12 GMM γ β η ϕ : : : : CRRA Factor Subjetivo de Descuento Grado de Separabilidad en Hábitos de Consumo Ponderación de Consumo en Función de Utilidad Factor de Descuento ´−γ ³ ct+1 C-CAPM β ct ´η(γ−1) ³ ´−γ ³ ct+1 ct Hábito Consumo β ct−1 c ³ ´ϕ(1−γ)−1 ³t ´(1−ϕ)(1−γ) ct+1 Mt+1 Pt Dinero MUF β ct Mt Pt+1 ´−γ ³ Pt+1 Pt+1 Mt+1 Pt+1 Dinero CIA β Mt Pt+2 Pt Pt+2 Modelo Ejercicio. Utilizando información de consumo privado para Chile y los retornos de precios de acciones (IPSA) estimamos por GMM los coeficientes β y γ para generar el factor de descuento estocástico mt+1 .

Sign up to vote on this title
UsefulNot useful