Professional Documents
Culture Documents
MODELOS ARMA(p,q)
Hasta ahora hemos presentado los modelos clsicos de series de tiempo, los
procesos AR(p) y MA(q). En este captulo introduciremos una familia de series de tiempo
estacionarias conocida como procesos de promedio mvil autorregresivo o simplemente,
modelos ARMA.
En 1970, Box y Jenkins desarrollaron un cuerpo metodolgico destinado a
identificar, estimar y diagnosticar modelos dinmicos de series temporales en los que la
variable tiempo juega un papel fundamental. Una parte importante de esta metodologa
est pensada para liberar al investigador de la tarea de especificacin de los modelos
dejando que los propios datos temporales de la variable a estudiar nos indiquen las
caractersticas de la estructura probabilstica subyacente.
En ocasiones pretendemos predecir el comportamiento de una variable
t
y
en un
momento futuro t, a partir del comportamiento que la variable tuvo en un momento
pasado, por ejemplo, en el perodo anterior,
1 t
y
. Formalmente notaramos que
) (
1
t t
y f y
, es decir, que el valor de la variable y en el momento t es funcin del valor
tomado en el perodo t-1.
IV.1. DEFINICIN Y PROPIEDADES
En esta seccin extenderemos el concepto de causalidad, as como la existencia y
unicidad de soluciones estacionarias, discutidos en la seccin anterior, a los procesos
ARMA.
Los modelos ARMA integran a los modelos AR y a los modelos MA en una nica
expresin. Por tanto, la variable
t
y
queda explicada en funcin de los valores tomados
por la variable en perodos anteriores, y los errores incurridos en la estimacin. Una
expresin general de un modelo ARMA (p, q) viene dada por lo siguiente:
Definicin IV.1.1. [Modelo ARMA(p,q)].-
} {
t
X
es un proceso ARMA(p,q) si es
estacionario y tiene como expresin:
q t q t t p t p t t
Z Z Z X X X
+ + + ... ...
1 1 1 1
donde
} {
t
Z
~ ) , 0 (
2
WN .
Una solucin
} {
t
X
de la ecuacin anterior existe (y es la nica solucin
estacionaria) si y slo si:
1 todo para 0 ... 1 ) (
1
z z z z
p
p
Un proceso ARMA(p,q) es causal si existen constantes
j
tales que
0 j
j
0 j
j t j t
Z X
para todo t.
Obviamente, los modelos AR (p) corresponden al modelo ARMA (p,0), mientras
que los modelos MA (q) corresponden al modelo ARMA (0,q).
Para ejemplificar las propiedades de los modelos ARMA(p,q), en la siguiente
seccin estudiaremos el modelo ARMA(1,1).
IV.2. MODELO ARMA(1,1)
} {
t
X
es un proceso ARMA(1,1) estacionario si satisface la siguiente ecuacin:
1 1
+
t t t t
Z Z X X
donde
} {
t
Z
~ ) , 0 (
2
WN ,
1 <
y
1 <
.
Usando el operador B, el modelo ARMA(1,1) puede ser escrito como:
t t
Z B X B ) 1 ( ) 1 ( +
Para encontrar la funcin de autocovarianzas del proceso ARMA(1,1) haremos
uso del resultado sobre procesos lineales (resultado III.3) del captulo anterior. Para ello
debemos encontrar los trminos
j
de la ecuacin:
0 j
j t j t
Z X
.
Haciendo sustituciones recursivas de las
t
X
, tenemos:
1 2 1 2
2
1 2 1 2
1 1
] [
+ + + +
+ + + +
+ +
t t t t t
t t t t t
t t t t
Z Z Z Z X
Z Z Z Z X
Z Z X X
1 con ) (
0
1
1
+ +
j
j t
j
t t
Z Z X
Usando el resultado III.3, que establece
k
h k k x
h
2
) (
, tenemos:
Para h=0,
]
1
1
[ ) (
...] 1 [ ) (
...) ) ( ) ( ) ( 1 ( ) 0 (
2
2 2 2
4 2 2 2 2
2 4 2 2 2 2 2
+ +
+ + + + +
+ + + + + + +
Para h=1,
]}
1
) (
[ ) {(
...] 1 [ ) ( ) (
...) ) ( ) ( ) ( ) (( ) 1 (
2
2
2
4 2 2 2 2
2 5 2 3 2 2
+
+ +
+ + + + + +
+ + + + + + + +
En general,
) 1 ( ) (
1
h
h
) 1 (
) 0 (
) 1 (
) (
1
1
h
h
h
Antes de discutir ms detalles y propiedades de los modelos ARMA(p,q), daremos
las bases para llevar a cabo inferencia sobre
y
) (h
y consideraremos el proceso de
prediccin en procesos estacionarios.
IV.3. PROPIEDADES DE
Y
) ( h
Un proceso estacionario es caracterizado por su media, , y su funcin de
autocorrelacin, (h). La estimacin de y de la funcin de autocorrelacin de las
observaciones, digamos X
1
,,X
n
, juega un papel muy importante en problemas de
inferencia y en particular, en el problema de ajuste de un modelo apropiado para las
observaciones.
En esta parte del captulo se presenta la estrategia de estimacin del parmetro
y de
) (h
, cada una con sus propiedades distribucionales con el fin de llevar acabo
inferencias. Cabe destacar que el obtener la distribucin del estimador de
) (h
es muy
complicado, por lo que en la prctica se recurre a aproximaciones y o resultados
asintticos.
Con respecto a
y funcin
de auto-covarianzas
) (h
para
,..., 2 , 1 h
entonces, conforme
n
,
0 ) (
| |
1
1
) ( ) (
2
,
_
n
n j
n n
j
n
j
n
X E X Var
, si
0 ) ( n
,
y
h
n
h X nVar ) ( ) (
si
<
h
h | ) ( |
donde
n
t
t n
X
n
X
1
1
Demostracin.
La demostracin del resultado es, primeramente, una aplicacin de la varianza de una
suma de variables aleatorias. Como es sabido, la varianza de una suma de variables
aleatorias es la suma de las covarianzas:
n
i
i
n X Cov
n
X Var
1
2
) (
1
) (
n
i
j i
n
j
n
X X Cov
n
X Var
1 1
2
)] , ( [
1
) (
n
i
j i
n
j
n
X X Cov
n n
X Var
1 1
)] , (
1
[
1
) (
El detalle importante a tomar en cuenta en este caso, es que se refiere a un proceso
estacionario, lo que implica que las variables son, en general, correlacionadas. Para
facilitar el proceso podemos definir una matriz de covarianzas. Es decir,
1
X
2
X .
n
X
n
X
X
X
.
2
1
1
1
1
1
]
1
) 0 ( . )) 2 ( ( )) 1 ( (
. . . .
) 2 ( . ) 0 ( ) 1 (
) 1 ( . ) 1 ( ) 0 (
n n
n
n
Sumando todos los componentes de la matriz podemos notar que la suma va desde
1 ) 1 ( + n n h
hasta
) 1 ( n h
. Conforme se va avanzando en los valores de h , el
nmero de auto-covarianzas aumenta en uno hasta llegar a 0 h y despus disminuye en
1 hasta que llega a
) 1 ( n
. Bajo este comentario y considerando la divisin entre
n
de la
suma de covarianzas, la suma queda como:
+
0
1
1
1
] ) ( ) (
) (
[
1
) (
n h
n
h
n
h
n
h
h
n
h n
n
X Var
.
Finalmente, la expresin de la varianza queda como:
]. ) (
| |
1 [
1
) (
) 1 (
1
,
_
n
n h
n
h
n
h
n
X Var
Ahora, cuando
0 ) ( n
y
n
, el trmino de la derecha converge a cero; por lo
tanto, X converge en error cuadrado medio a y por lo tanto es un estimador consistente,
lo cual se quera demostrar.
///
Con respecto a
) (h
, el estimador
) ( h
est dado por
+
h n
t
n h t n t
X X X X
n
h
1
) )( (
1
) (
De aqu que, el estimador de la funcin de autocorrelacin sea:
) 0 (
) (
) (
h
h
Ambos estimadores son sesgados; y an con denominador
) ( h n
, los
estimadores siguen siendo sesgados. La razn fundamental de usar
n
es para evitar
estimaciones negativas de varianzas. Detalles sobre el tema se pueden consultar en
[Brockwell y Davis (1991)].
Como se mencion en prrafos anteriores, la inferencia sobre
) (h
se lleva a
cabo usando la distribucin asinttica del estimador. Barttlet (1966) fue el primero en
encontrar la distribucin asinttica del vector
)] ( ),..., 2 ( ), 1 ( [ h
h
, el cul se conoce
como frmula de Barttlet. A continuacin se enuncia el teorema de Barttlet (Frmula de
Barttlet).
RESULTADO IV.2.- (TEOREMA DE BARTTLET). Si
} {
t
X
es un proceso
estacionario tal que
j
j t j t
Z X
con ) , 0 ( ~ } {
2
IID Z
t
donde
<
j
j
| |
y
< ) (
t
Z E
. Entonces para
,...} 2 , 1 { h
el vector
)] ( ),..., 2 ( ), 1 ( [ h
h
se distribuye asintticamente ) , (
n
W
AN
h
, donde el
) , ( j i
-
simo elemento de W est dado por:
} ) ( ) ( 2 ) ( ) ( )}{ ( ) ( 2 ) ( ) ( {
1
+ + + +
k
ij
k j j k j k k i i k i k w
Demostracin.
La demostracin se puede consultar en el captulo VII de [Brockwell y Davis (1991)].
///
Ejemplo IV.3.1. Supongamos el proceso AR(1):
t t t
Z X X
1
con
} {
t
Z
~ ) , 0 (
2
WN
y
1
.
Sabemos, del captulo anterior, que
h
h ) ( . Aplicando el resultado anterior,
tenemos que:
2i 1 2 2 2i
1 1
2 2 2 2
2 ) )(1 )(1 - (1
) ( ) (
i
w
i
k i k
i i k k k i
ii
+
+
+
Ahora, si queremos establecer bandas de confianza para (h), basta aplicar la
siguiente ecuacin:
n
w
h
ii
96 . 1 ) ( t
donde w
ii
est dado por la expresin anterior.
IV.4. PREDICCIN EN PROCESOS ESTACIONARIOS (El mejor Predictor Lineal)
El problema es predecir los valores de
h n
X
+
, h>0, de una serie estacionaria con
media conocida y funcin de autocovarianzas
) (h
, en trminos de los valores {X
n
,,
X
1
}.
La idea central de la prediccin radica en dos puntos fundamentales:
La forma del predictor es lineal
El criterio bsico para definir el mejor predictor es el error cuadrado medio,
ECM.
El mejor predictor lineal lo denotaremos como
h n n
X P
+
, y tendr la forma:
1 1 2 1 0
... X a X a X a a X P
n n n h n n
+ + + +
+
De aqu, el ECM est dado por:
2
1 1 2 1 0
2
] ... [ ) ( X a X a X a a X E X P ECM
n n n h n h n n
+ +
Nuestro objetivo ser encontrar los valores de {a
0
, a
1,
a
2,,
a
n
} tales que
ECM(P
n
X
n+h
) sea mnimo. Por otro lado, tenemos que el ECM es una funcin cuadrtica
de a
0
, a
1,
a
2,,
a
n
, por tanto tendr al menos un valor de {a
0
, a
1,
a
2,,
a
n
} que la minimiza y
que satisface la ecuacin:
. ,..., 1 , 0 , 0
) (
n j
a
X P ECM
j
h n n
+
Derivando e igualando con cero, tenemos:
,
_
+
+
n
i
i
n
n n n h n
h n n
a a
a a a a
X a X a X a a X E
a
X P ECM
1
0
2 1 0
1 1 2 1 0
0
1
0 -
0 ] [ 2
) (
) 1 ( ) 1 ( ) 0 ( ) (
0 ) 1 ( ) 1 ( ) 0 ( - ) (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 2 1 0
1
+ + + + +
+
+
+
n a a a a h
n a a a a h
X X a X a X a a X E
a
X P ECM
n
n
n n n n h n
h n n
) 2 ( ) 0 ( ) 1 ( ) 1 (
0 ) 2 ( ) 0 ( ) 1 ( - ) 1 (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 1 2 1 0
2
+ + + + + +
+ +
+
+
n a a a a h
n a a a a h
X X a X a X a a X E
a
X P ECM
n
n
n n n n h n
h n n
) 0 ( ) 2 (n ) 1 ( ) 1 (
0 ) 0 ( ) 2 ( ) 1 ( - ) 1 (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 1 2 1 0
n
n
n n n h n
n
h n n
a a n a a n h
a n a n a a n h
X X a X a X a a X E
a
X P ECM
+ + + + +
+
+
+
Tales derivadas igualadas con cero dan origen al sistema de ecuaciones siguiente:
)]' 1 ( ),..., 1 ( ), ( [
:
1
1
0
+ +
,
_
n h h h
donde
a
a a
n
n
n n
n
i
i
'
2 1
1 ,
] ,..., , [
)] ( [
n
n
n
j i n
a a a a
j i
+
+
+
+
+
+
,
_
+
n
i
i n i
i n
n
i
i
n
i
i
n
n n
n
i
i
n n
h n n
X a
X a a
X a
X a a X P
1
1
1
1 1
1
1
'
0
) (
)' ( - 1
Es decir,
+
+ +
) (
1
i n i h n n
X a X P
A partir del predictor, podemos obtener el ECM:
+ +
,
_
+ + + + +
1
1
]
1
,
_
+ + + + +
1
]
1
+ +
1
]
1
+
+
+ +
+ + +
+ + + +
n
j i
j i
n
i
i
n
i
i n i
n
i
i n i
n
i
i
n
i
i n i
n
i
i n i
n
i
i
n
i
i n i h n
n
i
i n i h n h n
n
i
i n i h n h n n h n
a j i a i h a
X a E X E a i h a
X a X a E i h a
X a E X X a X E X E
X a X E X P X E
1 , 1
2
1
1
1
1
2
1
2 2
2
1
1
1
1
2
1
2 2
2
1
1
1
1
2
2
1
1
2
) ( ) 1 ( 2 - (0)
) ( ) ( 2 ) 1 ( 2 - 2 - (0)
) ( ) ( 2 ) 1 ( 2 - 2 - (0)
) ( ] ) [( 2 ] [
)] ) ( ( [ ] [
[ ]
n
n
h n n h n
a X P X E
' 2
) 0 (
+ +
donde
n
y
n
estn definidas como antes.
IV.4.1. Propiedades del operador Pn
A continuacin se enuncian las propiedades ms importantes del predictor lineal
1 + n n
X P
:
1.
0 ] [
1 1
+ + n n n
X P X E
2.
0 ] ) [(
1 1
+ + j n n n
X X P X E
3.
n n n
X X P
4.
0
0
n
X P
Note que las propiedades uno y dos son equivalentes al sistema de ecuaciones que
se obtienen al derivar el ECM, es decir las ecuaciones que se usan para encontrar la
solucin del vector
n
a .
Ejemplo IV.4.1. Considere el proceso estacionario AR(1) dado por:
t t t
Z X X
1
con
} {
t
Z
~ ) , 0 (
2
WN . Encontrar el predictor lineal de X
n+1
, es decir, encontrar P
n
X
n+1.
Solucin.
Dado que el proceso es un AR(1), del captulo anterior tenemos que :
2
2
1
) (
h
h
Por otro lado, de acuerdo al resultado anterior, tenemos por resolver el sistema
n
n n
a
. Explcitamente:
1
1
1
1
1
]
1
1
1
1
1
]
1
1
1
1
1
1
]
1
n
n
n n
n
n
a
a
a
2
2
2
2
1
2 1
2
1
2
2
1
1
1
1
1
Claramente, una solucin del sistema es:
'
) 0 ,..., 0 , (
n
a . Aplicando el resultado
anterior, el predictor lineal es:
) (
1
+
+ n n n
X X P
Dado que el proceso tiene media cero, se tiene:
n n n
X X P
+1
Para obtener el ECM, aplicamos el resultado del mejor predictor lineal.
Obteniendo:
2
2
2 2
2
2
'
1
1 1
) 1 ( ) 0 ( ) 0 ( ) (
+ n n n n
a X P ECM
Se puede mostrar que para un proceso AR(1) y para h1:
2
2 2
1
) 1 (
) (
+
+
h
h n n
n
h
h n n
X P ECM
X X P
Muchas veces se tiene inters en estimar datos perdidos o, simplemente, datos
intermedios. El procedimiento de prediccin de este tipo se desarrolla enseguida.
Supongamos las variables Y y
1
,...,W W
n
con
] [Y E
,
i i
W E ] [
, momentos
de segundo orden finitos y
) , ( ), , ( ), (
j i i
W W Cov W Y Cov Y Cov
conocidas.
Definamos los siguientes vectores y matriz de covarianzas:
[ ]
n
j i
j n i n
n
n W
n
W W Cov W W Cov
W Y Cov W Y Cov W Y Cov
W W W
1 ,
1 1
1
1
1
) , ( ) , (
)]' , ( ),..., , ( [ ) , (
)' ,..., (
)' ,..., (
+ +
Entonces, el mejor predictor lineal de Y en trminos de
} ,..., , 1 {
1
W W
n
est dado
por:
) ( ' ) | (
W
W a W Y P +
donde el vector a es una solucin del sistema
a
.
Y el correspondiente error cuadrado medio del predictor:
[ ] ' ) ( )) | ( (
2
a Y Var W Y P Y E
El predictor tiene las propiedades de un operador y otras que se enuncian aqu.
Supongamos dos variables U y V con momentos de segundo orden finitos, el
vector de variables independientes
)' ,..., (
1
W W W
n
+
+ + + +
n
i
i i
n
i
i i
W W W P
W V P W U P W V U P
W U Cov a U Var W U P U E
W W U P U E
1 1
2 1 2 1
2
| . 5
) | ( ) | ( | . 4
) , ( ' ) ( )] | ( [ 3.
0 )] W | P(U - E[U y 0 ] ) | ( [ . 2
Ejemplo IV.4.2. Considere el proceso estacionario AR(1) dado por:
t t t
Z X X
1
con
} {
t
Z
~ ) , 0 (
2
WN . Suponga que tenemos las observaciones 1 y 3,
)' , (
1 3
X X W
, y a
partir de ellas queremos estimar la observacin 2,
2
X Y .
Solucin.
El vector de coeficientes a que queremos encontrar es el que resuelve el sistema
dado por:
a
donde:
1
]
1
) 0 ( ) 2 (
) 2 ( ) 0 (
)] ( [
)) 1 ( ), 1 ( ( )]' , ( ), , ( [
3 , 1 ,
'
1 2 3 2
j i
j i
X X Cov X X Cov
Dado que el proceso es un AR(1), la funcin de autocovarianzas es la misma que
en el ejemplo anterior. Es decir, tenemos el sistema:
1
]
1
1
]
1
1
1
1 1
2
2
2
2
2
2
a
1
]
1
2
1
1
a
Aplicando el resultado de prediccin y usando la condicin de media cero, el
mejor estimador lineal de
2
X Y dado
)' , (
1 3
X X W
, est dado por:
) (
1
' ) / (
3 1
2
3
1
2
X X
X
X
a W X P +
+
1
]
1
a W X P X E
Como podemos ver, el procedimiento es el mismo que se sigue cuando se
predicen valores futuros en funcin de observaciones pasadas. Sin embargo, se debe tener
cuidado al momento de especificar el vector y matriz de autocovarianzas involucrados en
el sistema de ecuaciones.
IV.4.2. Algoritmo de Durbin-Levinson
En casos donde el proceso es definido por un sistema de ecuaciones lineales
(como el ejemplo anterior) hemos visto cmo la linealidad del operador P
n
puede usarse
como una gran ventaja. Para procesos estacionarios ms generales, esta ventaja nos
sirve para predecir en un paso, es decir, P
n
X
n+1
basado en n observaciones previas,
P
n+1
X
n+2
en funcin de n+1 observaciones previas y as sucesivamente. Los algoritmos de
prediccin que se basan esta idea son llamados recursivos. Dos algoritmos recursivos
importantes en series de tiempo son el algoritmo de Durbin-Levinson (discutido en esta
seccin) y el algoritmo de Innovaciones (se discutir en la siguiente seccin).
De acuerdo a Durbin-Levinson, el algoritmo dado por el resultado siguiente
resuelve el proceso de prediccin de X
n+1
en funcin de X
1
,,X
n
:
n
n nn n n n n n n
X X X X X P + + +
+ 1 1 2 1 1
...
Con su respectivo error cuadrado medio, definido por:
n n n n n n
X P X E
' 2
1 1
) 0 ( ] [
+ +
donde:
)' ,..., (
))' ( ),..., 2 ( ), 1 ( (
1 nn n n
n
n
RESULTADO IV.3.- (Algoritmo de Durbin-Levinson). Si
} {
n
X
es un proceso
estacionario con media cero y funcin de autocovarianzas igual a
) (h
. Entonces, los
coeficientes
nn n n
,..., ,
2 1
del predictor
h n n
X P
+
se pueden calcular recursivamente por
medio de:
) 0 ( y
) 0 (
) 1 (
] 1 [
...(iv.2) ..........
...(iv.1) .......... ) ( ) (
0 11
2
1
1,1 - n
1 - n 1, - n
1 - n 1, - n
1,1 - n
1 - n n,
n1
1
1
1
1
, 1
1
1
1
]
1
1
1
1
]
1
1
1
1
]
1
1
]
1
donde
con
j n n
nn n n
nn
n
n
j
j n nn
Demostracin.
La igualdad ) 0 ( / ) 1 (
11
garantiza que, para n=1, se cumple:
n n n
R
, donde R
n
es
la matriz de autocorrelaciones,
))' ( ),..., 2 ( ), 1 ( ( , )' ,..., , (
2 1
n
n nn n n n
.
La prueba consiste en probar que
n
Entonces, de acuerdo a (iv.2) y haciendo la particin adecuada de R
n
, tenemos:
1
1
]
1
1
1
]
1
1
1
1
1
1
1
]
1
1
1
]
1
1
1
1
1
]
1
1
1
]
1
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+
+
+ +
1 , 1
) (
1 , 1
) (
) (
1 , 1
1 1 , 1
1 , 1 , 1 2
1 , 1 1
) (
) (
1 , 1
2 , 1
1 , 1
) (
) (
1 1
1 '
1 ' 1 '
k k
r
k k k k
r
k
r
k k
k k
k k k kk
k k k k k
kk k k k
r
k
r
k k
k k
k
k
r
k
r
k k
k k
R
R R
R
+
+
1
]
1
1
1
]
1
+ + + +
+ + + +
+ +
+ +
+ +
1 , 1
) ( ) (
1 , 1
) (
) (
1 , 1
) (
1 , 1
1 , 1
) (
1 , 1
) (
) (
1 1
' ' 1 '
k k
r
k
r
k k k k
r
k
r
k k k
r
k k k k
k k
r
k k k k
r
k
r
k k
k k
R
R
1
1 , 1
) ( ) (
1 , 1
) ( 1 1
) 1 ( ' '
+
+ + + +
+ +
1
]
1
1
]
1
k
k
k k
r
k
r
k k k k
r
k
k
k k
k
R
) (
1 ) 0 (
donde
hh
'
p n
p n
h
hh
si 0
si
) (
h h h
X X X P X
y
) ,..., / (
1 1 0 0
h
X X X P X
. Es decir, entre Z
h
y Z
0
, y en
general, entre Z
t-h
y Z
t
. Para ms detalles ver [Box, Jenkins y Reinsel (1994)].
NOTA3: La expresin de la PACF de un modelo ARMA es demasiado extensa del hecho
de la expansin del polinomio de promedio mvil. Sin embargo, su grfica se comporta
como la de un modelo puro de promedio mvil, dominada por un exponente mixto que
depende de los parmetros y del orden del modelo. Para dejar clara la nota, consideremos
el modelo MA(1), con ) 1 /(
2
1 1 1
+ y
0
k
k
k
kk
Note que, el signo de la PACF depende del exponente, k, y del valor del coeficiente,
1
.
Veamos algunas consecuencias:
Si
1
>0, entonces
1
<0 y la PACF alterna el signo dependiendo de k.
Si
1
<0, entonces
1
>0 y la PACF es negativa para todo k.
Ejemplo IV.4.3. Consideremos el proceso AR(2) y apliquemos el algoritmo de Durbin-
Levinson para encontrar el mejor predictor.
Solucin.
El proceso est dado por:
t t t t
Z X X X
2 2 1 1
con
} {
t
Z
~
) , 0 (
2
WN
.
Nuestro objetivo es encontrar el mejor predictor lineal de X
t+1
para el proceso AR(2). Es
decir:
1 1 1
... X X X P
tt t t t t
+ +
+
Aplicando el algoritmo D-L, tenemos que:
) 1 ( ) 0 ( / ) 1 ( )] 1 ( [
, 1
1
0 11
1 11 2
X X
t
] ) 1 ( 1 )[ 0 ( ] 1 [
2 2
11 0 1
] 1 [
] ) 1 ( 1 )[ 0 (
) 1 ( ) 1 ( ) 2 (
1 ) 1 (
]] ) 1 ( 1 )[ 0 ( )][ 1 ( ) 1 ( ) 2 ( [
)] 1 ( ) 2 ( [
, 2
2
22 1 2
2
11 22 11 21
1 2
1
1 11 22
1 22 2 21 3
1
]
1
X X X
t
0
)] 1 ( ) 2 ( ) 1 ( ) 2 ( [
)] 1 ( ) 2 ( ) 3 ( [
, 3
1
2 22 21 22 21
1
2 22 21 33
1 33 2 32 3 31 4
+
+ +
X X X X
t
El resultado resulta de que para el proceso AR(2) y con t=3, se tiene la igualdad
) 1 ( ) 2 ( ) 3 (
2 1
+ .
] 1 [
2
22 2 3
21 22 33 21 31
22 21 33 22 32
En el mtodo de D-L, se cumple
n cuando
j nj
. Es decir,
. ,
1 1 2 2
n n
Y as sucesivamente para todo . 3 t
De este modo, el predictor para un AR(2) queda como:
.
1 2 1 1 +
+
t t t t t
X X X
Por ejemplo, si se tiene X
1
y X
2
y se desea predecir X
4
, se procede como sigue:
0 que dado
33 2 32 3 31
1 33 2 32 3 31 4
+
+ +
X X
X X X X
Note que antes de predecir X
4
, se debe predecir X
3
, pues X
4
depende de ella.
IV.4.3. Algoritmo de Innovaciones
El algoritmo de innovaciones se caracteriza por ser un algoritmo recursivo, al
igual que el algoritmo de Durbin- Levinson.
Este algoritmo es aplicable a todos los procesos con segundo momento finito, sin
importar si el proceso es estacionario o no.
Sea
} {
t
X
un proceso con media cero y segundo momento finito, <
2
) (
t
X E ,
defnase:
2
1 1
1
] [
2,3,... n si ,
1 n si , 0
) , ( ] [
+ +
'
n n n n
n n
n
j i
X P X E
X P
X
j i X X E
El proceso de innovaciones para un proceso estacionario, para toda n, procede
como sigue:
) ... (
) (
) (
1 1 2 2 1 1
2 2 1 1 3 3 3 3
1 1 2 2 2 2
1 1 1 1 1
+ + +
+
n n n n n n
X a X a X a X X X u
X a X a X X X u
X a X X X u
X X X X u
Matricialmente, tenemos:
1
1
1
1
1
1
]
1
1
1
1
1
1
1
]
1
1
1
1
1
1
1
]
1
n n n n n n
n n n
X
X
X
X
a a a
a a
a
u
u
u
u
X A U
3
2
1
3 , 1 2 , 1 1 , 1
21 22
11
3
2
1
1
0
0 1
0 0 1
0 0 0 1
Como se puede ver, la matriz A es no singular, por tanto existe su inversa. Sea C
n
la inversa de A:
1
1
1
1
1
1
]
1
1
0
0 1
0 0 1
0 0 0 1
3 , 1 2 , 1 1 , 1
21 22
11
n n n n n n
n
C
De esta forma,
n n n
U C X
Por otro lado, el vector de predictores en un paso est dado por:
'
1 2 1 1
) ,..., , (
n n n
X P X P X X
. Se puede ver que:
n
n n
n n n n n n
n n n
U
U C
U U C U X X
X X U
n
I) - (
donde
1
1
1
1
1
1
]
1
0
0
0 0
0 0 0
0 0 0 0
3 , 1 2 , 1 1 , 1
21 22
11
n n n n n n
n n
I C
y deducir que:
+ +
+
+
+ + +
n
j
j n j n nj
n
j
j n nj
n
j
j j n n
n n n n nn n
X X
u u
u u u X
1
1 1
1
1
1
1 ,
1 2 1 , 1 1
)
(
...
Lo anterior se resume en el siguiente resultado.
RESULTADO IV.4.- (Algoritmo de Innovaciones). Sea Sea
} {
t
X
un proceso con
media cero y segundo momento finito, <
2
) (
t
X E . Entonces, los coeficientes
nn n
,...,
1
del mejor predictor de
1
+ n
X , as como el error cuadrado medio, se pueden calcular
recursivamente de las ecuaciones siguientes:
2
1 1
1
0
2
,
1
0
, ,
1
,
0
] [
] [ j) (i,
) 1 , 1 (
n, k 0 , ) 1 , 1 (
) 1 , 1 (
+ +
+ +
,
_
+ +
n n n n
j i
n
j
j j n n n
k
j
j j n n j k k k k n n
X P X E
X X E
donde
n n
y
k n
Por estructura, el Algoritmo de Innovaciones es til para los procesos MA(q) y
ARMA(p,q). Esto lo veremos con el ejemplo siguiente.
Ejemplo IV.4.3. Considere el proceso MA(1):
t t t
Z Z X +
1
,donde
} {
t
Z
~ WN(0,
2
'
>
1 | | 0
1 | |
0 ) 1 (
) (
2
2 2
h si
h si
h si
h
'
>
1 | | 0
1 | |
) 1 (
0 1
) (
2
h si
h si
h si
h
Entonces, si
) 1 (
) 1 )( 0 ( ) 1 ( ) 2 , 2 (
) 1 (
) 0 ( / ) 1 ( ) 1 (
definida est no (.)(.) que ya ) 1 , 2 ( (.)(.) ) 1 , 2 ( , 0
, 1
2 2 1
0
2 2
2
11
2
11 0
0
0
j
2
1 , 1 1
1
0
1
0
1
0
1
0
1
0 11
,
_
j
j
j j
k
n
0
) 2 (
) 0 ( / ) 2 ( ) 2 (
) 1 , 3 ( (.)(.) ) 1 , 3 ( , 0
, 2
1
0
1
0
1
0
1
0 22
,
_
j
k
n
( ) ( )
( )
) 1 (
) 1 ( ) 0 ( ) 3 , 3 (
) 1 ( 0 ) 1 ( ) 1 (
) 2 , 3 ( , 1
2 2 1
1
2 2
2 4 2
1 1
2 2
1
2
21 1
2
21 0
2
22 0
1
0
j
2
2 , 2 2
2 1
1
1
1
1
1 0 22 11
1
1
0
0
2 , 2 1 , 1
1
1 21
+
+ +
,
_
j
j
j
j j j
k
0 , 1
0 , 0
, 3
32
33
k
k
n
( ) ( )
( )
) 1 (
) 1 ( ) 0 ( ) 3 , 3 (
) 1 ( 0 ) 1 ( ) ( ) 1 (
) 3 , 4 ( , 2
2 2 1
2
2 2
2 4 2
2 2
2 2
2
2
31 2
2
31 1
2
32 0
2
33 0
2
0
j
2
3 , 3 3
2 1
2
1
2
1
2 0 32 21 0 33 22
1
2
1
0
3 , 3 2 , 2
1
2 31
+
+ + +
,
_
j
j
j
j j j
k
En general, para el proceso MA(1), se tiene:
( )
2 2 1
1
2 2
2 1
1
,
1
2,3,..., , 0
'
n n
n
j n
n j
IV.5. PRONSTICO DE PROCESOS ARMA(p,q)
La manera de llevar a cabo el pronstico de los procesos ARMA(p,q) es a travs
del Algoritmo de Innovaciones. Para esto, el A.I se aplica a un modelo transformado el
cual hace que el clculo sea relativamente ms sencillo.
Sea
} {
t
X
el proceso ARMA(p,q) dado por:
t t
Z B X B ) ( ) (
con
} {
t
Z
~ ) , 0 (
2
WN
El proceso transformado (sugerido por Ansley-1979) es:
) , max(
si ) (
1,..., si
1
1
q p m
donde
m t X B
m t X
W
t
t
t
'
>
Las autocovarianzas
) ( ) , (
j i
W W E j i
se obtienen a partir de la siguiente
expresin:
'
>
<
1
]
1
modo. otro de 0
min
2 max min ) ( ) (
1 ) (
) , (
0
1
2
2
m (i,j)
m (i,j) m (i,j) j i r j i
m i, j j i
j i
q
r
j i r r
p
r
X r X
X
'
<
+ +
+ +
+
m n W W
m n W W
W
q
j
j n j n nj
n
j
j n j n nj
n
si )
(
1 si )
1
1 1
1
1 1
1
(
+ +
n n n
W W E r
se encuentran recursivamente del A.I visto en la seccin IV.4.2.
Por otra parte, observe que de la transformacin hecha, cada X
n
puede ser escrito
como un a combinacin lineal de W
j
j=1,,n, y viceversa. Esto significa que el mejor
predictor lineal de alguna variable Y en trminos de {1, X
1
,, X
n
} es el mismo para la
variable Y en trminos de {1, W
1
,, W
n
}. Denotemos a ese predictor como P
n
.
Usando la linealidad de P
n
podemos ver que:
[ ]
'
>
m t X X X
,...,m t X
W
p t p t t
t
t
si ...
1 si
1 1
1
1
+ n
X .
Entonces:
)
( )
- (
1 Si
1 1
1
1 1
1
1
1
1
1
1
+ +
+ +
+
+
+
<
n n n n
n n
n n
X X W W
X W
X W
m n
+ + +
+ +
+ + +
n
j
j n j n nj n
n
j
j n j n nj
n
j
j n j n nj n
X X W
X X W W W
1
1 1 1
1
1 1
1
1
1 1 1
)
( )
+ + +
n
j
j n j n nj n
X X X
1
1 1 1
)
[ ]
+ + + +
+ + + +
+ +
+ +
+ +
+
+ + +
q
j
j n j n nj p n p n n
q
j
j n j n nj p n p n n
q
j
j n j n nj
q
j
j n j n nj
p n p n n n
X X X X X
X X X X X
X X
W W
X X X W
m n
1
1 1 1 1 1
1
1 1 1 1 1
1
1 1
1
1
1 1
1 1 1
1
1
)
( ...
( ...
(
)
(
...
Si
En resumen:
( ) ( ) (p,q) m r W W E X X E
m n X X X X
m n X X
X
n n n n n
q
j
j n j n nj p n p n
n
j
j n j n nj
n
max ,
si )
( ...
1 si )
2
1 1
2
2
1 1
1
1 1 1 1
1
1 1
1
'
+ + +
<
+ + + +
+ + +
+ +
+
Los coeficientes
nj
(
+ +
n n n
W W E r se
encuentran recursivamente aplicando el A.I, visto en la seccin IV.4.2, al proceso {W
t
}.
Una vez calculados los valores
n
X X
,...,
1
, podemos calcular el predictor lineal a
distancia h>1 como sigue:
(p,q) m
m-n h X X X P
m-n h X X
X P
h n
h j
j h n j h n j h n
p
i
i h n j
h n
h j
j h n j h n j h n
h n n
max
si )
( ) (
1 si )
(
1
, 1
1
1
, 1
'
+
<
+ + +
+
+
+ + +
+
'
+ + +
+ +
q
h j
j h n j h n j h n
p
i
i h n i h n n
h X X X P X P 1 todo para )
( ) (
, 1
1
Para calcular el error cuadrado medio de prediccin utilizaremos una
aproximacin para muestras grandes, la cual usa como base la causalidad del modelo.
Supongamos que el modelo ARMA(p,q) es causal e invertible, entonces de acuerdo al
captulo III y especficamente a las definiciones de causalidad e invertibilidad, tenemos
que:
j h n
j
j h n
Z X
+
+
0
y
j h n
j
j h n h n j h n
j
j h n h n
X Z X X X Z
+
+ + +
+ +
+
1 1
Sea
Y P
n
~
la mejor aproximacin a Y. Aplicando este operador,
n
P
~
, a las expresiones
anteriores, obtenemos:
j h n
h j
j j h n n
j
j h n n
Z Z P X P
+
+
~ ~
0
y
j h n
j
n j j h n
j
n j h n n h n n
X P X P Z P X P
+
+ +
1 1
~ ~
) (
~ ~
De esta forma, el error cuadrado medio (aproximado) est dado por:
2
1
0
2
0
2 2
)
~
( ) (
~
,
_
,
_
+ +
j h n
h
j
j
j h n
h j
j j h n
j
j
h n n h n
Z E
Z Z E
X P X E h
De esta igualdad y del hecho de que {Z
t
} sigue un proceso de Ruido Blanco, se
tiene:
1
0
2 2 2
) (
~
h
j
j
h
CAPITULO V. MODELACIN CON MODELOS ARMA(p,q)
En captulos anteriores asumimos conocer tanto el modelo, como la forma del
proceso. A partir de ahora, lo nico que tenemos son datos y estamos interesados en saber
qu procesos son adecuados para explicarlos.
La determinacin de un modelo ARMA(p,q) apropiado involucra varios aspectos,
tales como el orden, es decir, los valores de p y q, los coeficientes
p i
i
,..., 1 ,
y
q j
j
,..., 1 ,
, y la varianza del ruido blanco. Tambin, la eleccin de un modelo depende
de la bondad de ajuste.
El proceso de ajuste de un modelo de series de tiempo consiste en, primeramente,
graficar y si es necesario, se transforman los datos a un proceso estacionario mediante
diferenciacin. Una vez que se tiene un proceso estacionario, debemos tener herramientas
para identificar posibles modelos. Por ejemplo:
Funcin de autocorrelacin: para modelos MA(q)
Funcin de autocorrelacin parcial : para modelos AR(p)
Criterio del AICC: todos los posibles modelos.
Como se mencion antes, si algn modelo cumple con ser un buen modelo,
debemos tener estrategias para decidir qu modelo es mejor que otros. Para ello se llevan
pruebas de bondad de ajuste, las cuales incluyen, fundamentalmente, pruebas sobre los
residuales. Algunas de las pruebas que se llevan a cabo son:
Probar que los residuales forman un proceso de Ruido Blanco mediante:
Grfica de autocorrelacin de los residuales.
Pruebas de hiptesis (basadas en autocorrelacin).
Probar que los residuales forman una muestra aleatoria mediante:
Prueba de Signo ordinario.
Prueba de Racha (Run test)
Prueba de puntos alternantes.
En este captulo, el objetivo principal es estimar los parmetros
)' ,..., (
1 p
,
)' ,..., (
1 q
y
2
cuando se asume que p y q que son conocidos. Tambin, se asume
que los datos han sido corregidos por la media, es decir, si el modelo ajustado es:
t t
Z B X B ) ( ) (
entonces el correspondiente modelo para la serie estacionaria original {Y
t
} se encuentra
reemplazando X
t
por
y Y
t
, donde y es la media muestral de los datos originales.
Cuando p y q son conocidos, buenos estimadores de
y pueden ser
encontrados tomando en cuenta los datos como observaciones de una serie de tiempo
estacionaria Gaussiana y maximizando la verosimilitud con respecto a los p+q+1
parmetros. Estos estimadores son conocidos como estimadores de mxima
verosimilitud. Estos estimadores se encuentran usando la opcin de ITSM Model>
Estimation>Autofit. S-PLUS ajusta modelos por Mxima Verosimilitud por default y las
instrucciones son Statistics> Time Series> ARIMA Models y elegir las opciones que se
deseen en el cuadro de dilogo.
Obviamente, para llegar a un modelo, debemos tener las herramientas necesarias
de estimacin. Dado que este proceso requiere mtodos numricos, primero debemos
tener valores iniciales (una estimacin previa) y despus llevar a cabo la optimizacin.
Dependiendo del proceso, podemos usar los algoritmos de Yule-Walker o de Burg para
modelos AR(p); y el Algoritmo de Innovaciones o de Hannan-Rissanen para modelos
MA(q) y ARMA(p,q).
En resumen, para llevar a cabo el ajuste de un proceso (datos) se tienen que seguir
los siguientes pasos:
1. Verificar si el proceso es estacionario. Si no lo es, entonces se deben trasformar
los datos para lograr estacionaridad (diferenciacin, logaritmos, etc.).
2. Identificar posibles modelos mediante la funcin de autocorrelacin, la funcin
de autocorrelacin parcial o el AICC.
3. Seleccionar p y q mediante la estimacin preliminar (Algoritmos de Yule-
Walker, Burg, Innovaciones o Hannan-Rissanen).
4. Llevar a cabo la prueba de bondad de ajuste.
5. Si el modelo elegido aprueba la prueba de bondad de ajuste, el proceso se termina.
En caso contrario, se regresa al paso 2.
Figura3. Ajuste de un proceso ARMA(p,q)
Es estacionaria la serie? No Diferenciar la serie
Si
Identificar posibles modelos
Estimacin preliminar
Realizar pruebas de bondad de ajuste
Se cumplen las pruebas de bondad de ajuste? No
Si
Fin
V.1. ESTIMACIN PRELIMINAR.
En esta seccin consideraremos las cuatro tcnicas de estimacin preliminar que
se mencionaron arriba.
V.1.1. Estimacin de Yule-Walker
Considere el proceso AR(p) causal. Dada esta propiedad, podemos escribir:
j
j t j t
Z X
(5.1)
En este momento, supondremos que a travs de alguna tcnica construimos el
valor de p. El mtodo de Yule-Walker consiste en encontrar los valores de las
s tales
que las ecuaciones de Yule-Walker cumplan con las autocovarianzas. Es decir,
multiplicando ambos lados de la ecuacin 5.1 por
j t
X
para j=0,1,,p y tomando valor
esperado, obtenemos las ecuaciones de Yule-Walker:
p
p p
y
' ) 0 (
2
donde
)]' ( ),..., 2 ( ), 1 ( [
)' ,...., , (
)] ( [
2 1
1 ,
p
j i
p
p
p
j i p
Por otra parte, si reemplazamos las covarianzas
) ( j
por las correspondientes
covarianzas muestrales
) ( j
, obtenemos:
p
p p
y
' ) 0 (
2
Note que, bajo los supuestos iniciales, en este momento el vector de incgnitas es
el vector
. Ahora, si
0 ) 0 ( >
, entonces
m
' 1 )[ 0 (
1 2
1 1
p p
p p p
p p p p
p
R
R
Segn Brockwell y Davis,
es un estimador consistente de
. Ver [Brockwell y
Davis (2002), pp. 140].
Si deseamos hacer inferencia sobre
1 2 1
p
n N
En la prctica no conocemos el verdadero orden del modelo generado por los
datos. De hecho, puede suceder que el modelo AR(p) no sea apropiado. Suponiendo que
el modelo AR(p) es adecuado, resta encontrar el orden de tal modelo, es decir, el valor de
p. Dos tcnicas que se usan en esta parte del proceso de modelacin son: aplicando
intervalos de confianza para los componentes del modelo y otra, minimizando el AICC.
El programa ITSM grafica la funcin de autocorrelacin muestral junto con las
bandas de confianza usando aproximacin Normal. De esta grfica es fcil encontrar el
valor de p. S-PLUS tambin grafica las bandas de confianza en cuestin siguiendo
Statistics> Time Series> Autocorrelations.
Si queremos aplicar el criterio del AICC, se considera el valor:
) 2 /( ) 1 ( 2 ) / ) ( , ( ln 2 + + p n n p n S L AICC
p p
donde L es la verosimilitud. Note que mientras ms grande sea L, ms pequeo ser el
valor del AICC, y por lo tanto el modelo es mejor. Para seleccionar p, se ajustan modelos
para diferentes valores de p
*
y aquella p
*
que minimice el AICC ser el estimador de p.
NOTA1: No todos los criterios de seleccin darn el mismo valor de p.
En resumen, tenemos que el modelo AR(p) ajustado por Yule-Walker es:
]
' 1 )[ 0 (
)'
,...,
), , 0 (
: donde
...
1
1
1
1 1
p p p p
p p pp p p
p t
t p t pp t p t
R
R
WN Z
Z X X X
Para n grande, los intervalos de confianza al 95% para los componentes de
son:
2 / 1 2 / 1
96 . 1
jj pj
n
t
Para probar la hiptesis
0 :
0
pj
H
, consideramos el intervalo anterior, si el
valor cero se encuentra en tal intervalo no se rechaza H
0
, de otro modo, se rechaza.
Ejemplo V.1.1. Consideremos los datos del ndice de Utilidad Dow Jones de Agosto 28 a
Diciembre 28 de 1972. El archivo es DOWJ.TXT.
Solucin.
Los datos presentan el siguiente comportamiento:
Nmero de observaciones = 78
Media muestral = .1157E+03
Grfica19. Serie ndice de utilidad Dow Jones Ago-28 a Dic-28 de 1972.
10 30 50 70
105
110
115
120
125
D
J
Note que es necesario diferenciar la serie para obtener un proceso estacionario. Es
decir, tendremos un nuevo modelo:
1
t t t
D D Y
. Por tanto, ajustaremos un proceso AR
a esta nueva serie mediante Yule-Walker. La serie diferenciada es:
Grfica20. Serie ndice de utilidad Dow Jones diferenciada a distancia 1.
10 30 50 70
-1.0
-0.5
0.0
0.5
1.0
1.5
D
J
Las instrucciones para llevar a cabo lo anterior en S-PLUS son las siguientes:
dif.DJ<-diff(DOWJ,1,1)
guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="DOWJ")
guiPlot(PlotType="Y Series Lines", Columns=1,
DataSet="dif.DJ")
donde DOWJ es el nombre del Dataset con los datos del ndice de utilidad Dow Jones.
Las autocorrelaciones muestrales de la serie diferenciada, as como la grfica de
estas, las obtenemos siguiendo Statistics > Time Series> Autocorrelations en el Dataset
dif.DJ, entonces aparecer un cuadro de dilogo en el que seleccionamos
Autocorrelation en la opcin Estimate Type. Los resultados se presentan enseguida:
Autocorrelation matrix:
lag dif.DJ
1 0 1.0000
2 1 0.4219
3 2 0.2715
4 3 0.1617
5 4 0.2270
6 5 0.1490
7 6 0.2006
8 7 0.1721
9 8 0.0262
10 9 0.0400
11 10 0.0545
12 11 0.1767
13 12 0.0142
14 13 0.1947
15 14 0.0578
16 15 -0.0758
17 16 -0.1796
18 17 0.0760
19 18 0.0159
Grfica21. ACF y PACF Serie del ndice de utilidad Dow Jones diferenciada
a distancia 1.
Lag
A
C
F
0 5 10 15
-
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Series : dif.DJ[,"difDJ"]
Lag
P
a
r
t
ia
l
A
C
F
0 5 10 15
-
0
.
2
-
0
.
1
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Series : dif.DJ[,"difDJ"]
La grfica de la PACF (derecha) sugiere ajustar un modelo AR(1), puesto que las
dems autocorrelaciones son estadsticamente iguales a cero. Para obtener la estimacin
preliminar por Yule-Walker y con mnimo AICC, agregamos las instrucciones siguientes
(en S-PLUS):
yw.dif.DJ<-ar.yw(dif.DJ, aic=T)
yw.dif.DJ
El modelo obtenido es:
$order:
[1] 1
[,1]
[1,] 0.4218786
$var.pred:
[,1]
[1,] 0.1518409
As, el correspondiente modelo para Y
t
, la serie original, es:
8) WN(0,0.151 } {Z , ) 1157 . 0 ( 4219 . 0 1157 . 0
t 1
+
t t t
Z Y Y
El intervalo de confianza para el coeficiente autorregresivo es:
) 6244 . 0 , 2194 . 0 (
77 ) 1799 . 0 (
) 1518 )(. 96 . 1 (
4219 . 0 t
Cabe notar que el intervalo de confianza no contiene al cero, por lo que se
concluye que 0
1
con 05 . 0 de significancia.
V.1.2. Algoritmo de Burg
El Algoritmo de Burg estima la funcin de autocorrelacin parcial ,...} , {
22 11
minimizando sucesivamente la suma de cuadrados de los predictores un paso adelante y
un paso atrs con respecto a los coeficientes
ii
.
Dadas las observaciones
} ,..., , {
2 1 n
x x x
de un proceso estacionario con media cero,
definiremos:
) 1 ( ) ( ) (
) ( ) 1 ( ) (
) ( ) (
1 1
1 1
1 0 0
+
t u t v t v
t v t u t u
x t v t u
i ii i i
i ii i i
t n
Entonces, el estimador de
11
usando el algoritmo de Burg,
) (
11
B
, se encuentra
minimizando la siguiente expresin:
n
t
t v t u
n
2
2
1
2
1
2
1
)] ( ) ( [
) 1 ( 2
1
con respecto a
11
. La solucin nos dar los valores de ) ( ), (
1 1
t v t u y
2
1
, que se usarn
para encontrar el estimador de
22
y los valores de ) ( ), (
2 2
t v t u y
2
2
. Esto sucede
minimizando la nueva expresin:
n
t
t v t u
n
3
2
2
2
2
2
2
)] ( ) ( [
) 2 ( 2
1
.
El clculo de los estimadores de
ii
y
2
i
descritos arriba es equivalente a resolver
las siguientes ecuaciones recursivas:
Algoritmo de burg
( )
( ) [ ] )] ( 2 /[ ) ( 1
) ( ) 1 ( ) ( 1 ) 1 (
)] 1 ( ) ( [
) (
2
)] ( ) 1 ( [ ) 1 (
2 ) ( 2 ) (
2 2 2 ) (
1
1 1
) (
2
2
0
2
0
i n i d
n u i v i d i d
t u t v
i d
t v t u d
B
ii
B
i
i i
B
ii
n
i t
i i
B
ii
n
t
+ +
+
+
, como de las
n
.
Para aplicar el mtodo es necesario tener un valor inicial de q. A continuacin se
enuncian algunas formas de obtener un valor preliminar de q:
1. Sabemos que para un proceso MA(q), las autocorrelaciones
) (m
son cero para
m > q. Por otro lado, sabemos de la frmula de Barttlet (Resultado IV.2) que
) ( m
se distribuye asintticamente Normal, ) / ) ( ) 1 ( 2 1 ( , 0 (
2 2
n q N + + + .
As, podemos usar la grfica de
) ( m
para obtener una estimacin preliminar del
orden q como el valor ms pequeo de m, tal que
) ( m
sea cero para m > q.
2. Se puede mostrar que si {X
t
} sigue un proceso MA(q) invertible
t t
Z B X ) (
donde ) IID(0, } {Z
2
t
con las condiciones 1 , ) (
0
4
<
t
Z E y
0
j
para j >
q, entonces los estimadores de Innovaciones tienen la propiedad: Si
n
, m(n)
una sucesin de enteros tal que
) (n m
, pero 0 / ) (
3
n n m , entonces para
cada entero positivo k, se tiene que:
) , 0 ( )
,...,
(
2 2 1 1
A NMV n
k mk m m
donde la matriz de covarianzas A tiene como componente (i,j) al elemento:
) , min(
1
j i
r
r j r i ij
a
Este resultado nos permite construir intervalos de confianza para los coeficientes y
decidir cuales de ellos son estadsticamente diferentes de cero y as decidir el
orden q.
3. Al igual que para los procesos AR(p), una aproximacin ms sistemtica para
seleccionar el orden de los modelos MA(q) es encontrar el valor de q y
)'
,...,
2 1 mq m m
q
que minimice el valor AICC, dado por:
) 2 /( ) 1 ( 2 ) / ) ( , ( ln 2 + + q n n q n S L AICC
q q
De esta forma, el modelo MA(m) ajustado por Innovaciones es:
m t mm t m t t
Z Z Z X
+ + +
...
1 1
con
) ( } {
m t
WN Z
Asintticamente (muestras grandes), un intervalo de confianza para
mj
al 95%
de confianza se puede obtener como sigue:
2 / 1
1
0
2 2 / 1
96 . 1
,
_
j
i
mi mj
n
Hasta ahora, en el desarrollo del Algoritmo de Innovaciones hemos supuesto que
p=0 y q>0. Pero el Algoritmo se puede llevar a casos ms generales, es decir, cuando p>0
y q>0.
Recordemos que la causalidad de un proceso ARMA(p,q) garantiza la expresin:
0 j
j t j t
Z X
donde los coeficientes
} {
j
p
k
k j k j j
1
j=0,1,
Con
1
0
y
0
j
para j > q.
Para estimar la secuencia
} {
j
,...,
, ya que el modelo se supone causal. As, sustituyendo las
mj
por
los
j
+ +
+ +
,...,
2 1 p
. Es decir, resolvemos:
1
1
1
1
1
]
1
1
1
1
1
1
]
1
1
1
1
1
1
]
1
+ +
+ +
+
+
+
+
p q m p q m p q m
p q m q m q m
p q m q m q m
p q m
q m
q m
2
1
, 2 , 1 ,
2 , , 1 ,
1 , 1 , ,
,
2 ,
1 ,
,...,
2 1 p
, podemos determinar la estimacin de
)' ,..., ,. (
2 1 q
mediante:
) , min(
1
,
p j
k
k j m k mj j
j=1,2,,q
El estimador de la varianza del proceso de Ruido Blanco est dado por:
n
t
t t
t
X X
nr
1
2
1
2
)
(
1
donde
t
X
(
+ +
n n n
W W E r como en la seccin IV.5.
Ejemplo V.1.3. Consideremos los datos del nivel del Lago Hurn (ver ejemplo anterior).
Solucin.
El paquete S-PLUS no trae la opcin de estimacin preliminar por Innovaciones,
por lo que usaremos ITSM-2000.
En el ejemplo V.1.2 ajustamos un modelo AR(2) a los datos corregidos por la
media usando el Algoritmo de Burg. Si ahora queremos ajustar un modelo ARMA(1,1)
usando el Algoritmo de Innovaciones, en ITSM tenemos que seguir los pasos: 1) Dar clic
en el botn superior de estimacin preliminar y seleccionar yes para corregir los datos
por la media; 2) Especificar 1 en el orden de AR y 1 en MA y estimacin por algoritmo
de Innovaciones; y 3) Clic en OK para obtener el modelo estimado:
ARMA Model:
X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)
WN Variance = .475680
AICC = .212894E+03
para los datos corregidos por la media,
0041 . 9
t t
Y X
.
Es interesante notar que el valor de AICC ajustando el modelo ARMA(1,1) es
212.89, el cual es ms pequeo al correspondiente valor de AICC (213.57) ajustando un
modelo AR(2) por cualquier mtodo. Esto sugiere que el modelo ARMA(1,1) es mejor
que el AR(2). Sin embargo, se deben llevar a cabo pruebas de bondad de ajuste de los
modelos para poder elegir a uno de ellos.
V.1.4. Algoritmo de Hannan-Rissanen
Recordemos que la secuencia de errores {Z
t
} es no-observable; no obstante,
podemos usar los residuales como una estimacin de ella.
El Algoritmo de Hannan-Rissanen consiste en realizar la regresin por mnimos
cuadrados de la serie {X
t
} sobre los residuales
q t t
Z Z
,...,
1
resultantes del ajuste de un
modelo autorregresivo. En seguida se describe el procedimiento.
1. Estimar un modelo AR(m) con m grande usando el Algoritmo de Yule-Walker de la
seccin V.1.1. Sea )'
,...,
1 mm m
el vector de coeficientes estimados. Entonces
calculamos los residuales como la diferencia entre el valor de la observacin y la
estimacin:
m t mm t m t t
X X X Z
1 1
, t=m+1,,n
2. Ahora, podemos llevar a cabo la regresin de X
t
sobre
q t t p t t
Z Z X X
,...,
, ,...,
1 1
y
encontrar el vector de parmetros
)'
,...,
,...,
(
1 1 q p
minimizando con respecto a
la cantidad (mnimos cuadrados):
( )
+ +
n
q m t
q t q t p t p t t
Z Z X X X S
1
1 1 1 1
) (
As, obtenemos el estimador de Hannan-Rissanen como:
n
X Z Z Z
' 1 '
) (
donde
)' ,..., (
1 n q m
n
X X X
+ +
+ + + + + + + +
+ + + + + + +
+ +
q n n n p n n n
m q m q m p q m q m q m
m q m q m p q m q m q m
n q m n
Z Z Z X X X
Z Z Z X X X
Z Z Z X X X
Z
X X X
) ,...., (
2 1 2 1
2 1 2 1
1 1 1 1
'
1
Claramente, si el modelo AR ajustado en el paso1 es de orden 0, la matriz Z slo
contendr las ltimas q columnas.
El estimador de la varianza del Ruido Blanco por este mtodo est dado por:
q m n
S
HR
donde
) ( S
est definida como la suma de errores de estimacin al cuadrado.
La estimacin preliminar en ITSM por el Algoritmo de Hannan-Rissanen consiste
en seleccionar Model>Estimation> Preliminary y seleccionar la opcin Hannan-
Rissanen del cuadro de dilogo. El programa restringe valores de q entre 0 y 27.
El algoritmo de Hannan-Rissanen incluye un tercer paso, que consiste en llevar a
cabo una regresin ms.
Definamos las variables:
'
>
(p,q) t Z X X
(p,q) t
Z
q
j
j t j
p
j
j t j t
t
max si ,
~
max si , 0
~
1 1
y para t=1,,n,
'
> +
(p,q) t Z V
(p,q) t
V
t
p
j
j t j
t
max si ,
~
max si , 0
1
'
> +
(p,q) t Z W
(p,q) t
W
j t
q
j
t j
t
max si ,
~
max si , 0
1
Minimizando la cantidad:
+ +
+
,
_
n
q p t
q
k
k t p k
p
j
j t j t
W V Z S
1 ) max(
2
1 1
* ~
) (
encontraremos el vector
*
. Entonces el estimador mejorado de
, dado por
*
~
+
, tiene la misma eficiencia (asinttica) que el estimador de mxima verosimilitud, que se
muestra enseguida.
V.2. ESTIMACIN POR MXIMA VEROSIMILITUD
Suponga un proceso {X
t
} estacionario ARMA(p,q) y deseamos estimar los
parmetros
,
y
2
(p y q conocidos).
Para aplicar el mtodo de mxima verosimilitud debemos suponer una
distribucin del proceso, digamos una distribucin Normal con media cero y funcin de
autocovarianzas
) (h
. Si disponemos de n observaciones de esta distribucin, podemos
plantear la funcin de distribucin conjunta de
)' ,..., (
1 n
n
X X X
como sigue:
}
2
1
exp{ ) 2 ( ) (
1 '
2 / 1
2 /
n n n n
n
n
X X L
donde
n
es la matriz de covarianzas, ) (
'
n n n
X X E .
Note que dada la estructura de
n
y
sus respectivas varianzas
1 j
(
n
n n n
X X C X
Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto
la matriz de covarianzas de las innovaciones es la matriz diagonal D
n
siguiente:
} ,..., , {
1 1 0
n n
diag D
Por la igualdad anterior y la matriz D, se tiene que:
'
n n n n
C D C
Usando las igualdades anteriores, podemos ver que la forma cuadrtica
n n n
X X
1 '
est dada por:
n
j
j j j
n n
n
n n
n n
n
X X X X D X X X X
1
1
2 1 1 '
/ )
( )
( )'
(
Recordemos, tambin, que C
n
es una matriz triangular con elementos en la
diagonal igual a uno, por lo tanto su determinante es uno. De donde:
1 1 0
2
'
...
n n n n n n n n
D D C C D C
Sustituyendo, la funcin de distribucin conjunta inicial se reduce a:
} / )
(
2
1
exp{
... ) 2 (
1
) (
1
1
2
1 1 0
n
j
j j j
n
n
n
X X L
Si
n
( )
(
, )
( ....
1 , )
'
+ + +
+ + + +
+ + +
+ +
+
donde
nj
y r
n
son determinados por el algoritmo de innovaciones y m=max(p,q). De esta
forma, la funcin de verosimilitud para el proceso ARMA(p,q) es:
}
)
(
2
1
exp{
... ) 2 (
1
) , , (
1 1
2
2
1 1 0
2
2
n
j j
j j
n
n
r
X X
r r r
L
Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido
blanco y teniendo que
j
X
y r
j
son independientes de
2
, encontramos los estimadores de
mxima verosimilitud.
n
j
j
n
j
j j j
r n S n l
y
r X X S
n
S
1
1
1 1
1
1
2
2
) ln( )) , ( ln( ) , (
minimizan que valores los son
/ )
( )
(
donde
)
El criterio de seleccin del orden del modelo es la minimizacin del AICC. Este
criterio consiste en escoger p, q,
p
y q
que minimicen la cantidad:
) 2 /( ) 1 ( 2 ) / ) , ( , , ln( 2 + + + q p n n q p n S AICC
q
p
q
p
Una de las opciones del programa ITSM es un autoajuste del modelo. Esto se
lleva a cabo seleccionando Model>Estimation>Autofit. La seleccin de esta opcin nos
permite especificar un rango de los valores de p y de q (el rango mximo es de 0 a 27 para
ambos, p y q). El modelo elegido es el que tenga mnimo AICC y una vez que el modelo
ha sido determinado, debe ser estimado por mxima verosimilitud. Ms adelante se
ejemplificar la teora. En S-PLUS la funcin de estimacin por mxima Verosimilitud
es: arima.mle(x, model, n.cond=<< >>, xreg=NULL, ...)
Para hacer inferencia sobre los parmetros se usan resultados asintticos, es decir,
se suponen muestras grandes. En este caso, consideremos el vector de parmetros
)'
1
V n N
1
1
]
1
1 ,
2
) (
) (
Por otro lado, para una muestra iid grande, puede mostrarse que:
) 1 , 0 ( N
T
T
T
T
p
Con esto, podemos llevar a cabo la prueba de hiptesis de que los residuales son
aleatorios, usando el criterio de decisin:
Rechazar H
0
: La muestra es aleatoria, al nivel de significancia si
2 / 1
> Z T
p
,
donde
2 / 1
Z
es el cuantil 1- /2 de la distribucin Normal estndar.
V.3.3. Prueba de signo (difference-sign)
En esta prueba se cuenta el nmero de observaciones i tales que
n i y y
i i
1,..., ,
1
>
. Definimos a S como el total de tales observaciones. Entonces, bajo
el supuesto de muestra aleatoria, se tiene que:
12 / ) 1 ( ) (
2 / ) 1 ( ) (
2
+
n S Var
y
n S E
S
S