Capitulos IV y V

CAPITULO IV.
MODELOS ARMA(p,q)
Hasta ahora hemos presentado los modelos clsicos de series de tiempo, los
procesos AR(p) y MA(q). En este captulo introduciremos una familia de series de tiempo
estacionarias conocida como procesos de promedio mvil autorregresivo o simplemente,
modelos ARMA.
En 1970, Box y Jenkins desarrollaron un cuerpo metodolgico destinado a
identificar, estimar y diagnosticar modelos dinmicos de series temporales en los que la
variable tiempo juega un papel fundamental. Una parte importante de esta metodologa
est pensada para liberar al investigador de la tarea de especificacin de los modelos
dejando que los propios datos temporales de la variable a estudiar nos indiquen las
caractersticas de la estructura probabilstica subyacente.
En ocasiones pretendemos predecir el comportamiento de una variable
t
y
en un
momento futuro t, a partir del comportamiento que la variable tuvo en un momento
pasado, por ejemplo, en el perodo anterior,
1 t
y
. Formalmente notaramos que
) (
1
t t
y f y
, es decir, que el valor de la variable y en el momento t es funcin del valor
tomado en el perodo t-1.
IV.1. DEFINICIN Y PROPIEDADES
En esta seccin extenderemos el concepto de causalidad, as como la existencia y
unicidad de soluciones estacionarias, discutidos en la seccin anterior, a los procesos
ARMA.
Los modelos ARMA integran a los modelos AR y a los modelos MA en una nica
expresin. Por tanto, la variable
t
y
queda explicada en funcin de los valores tomados
por la variable en perodos anteriores, y los errores incurridos en la estimacin. Una
expresin general de un modelo ARMA (p, q) viene dada por lo siguiente:
Definicin IV.1.1. [Modelo ARMA(p,q)].-
} {
t
X
es un proceso ARMA(p,q) si es
estacionario y tiene como expresin:
q t q t t p t p t t
Z Z Z X X X

+ + + ... ...
1 1 1 1
donde
} {
t
Z
~ ) , 0 (
2
WN .
Una solucin
} {
t
X
de la ecuacin anterior existe (y es la nica solucin
estacionaria) si y slo si:
1 todo para 0 ... 1 ) (
1
z z z z
p
p

Un proceso ARMA(p,q) es causal si existen constantes
j
tales que

0 j
j
0 j
j t j t
Z X
para todo t.
Obviamente, los modelos AR (p) corresponden al modelo ARMA (p,0), mientras
que los modelos MA (q) corresponden al modelo ARMA (0,q).
Para ejemplificar las propiedades de los modelos ARMA(p,q), en la siguiente
seccin estudiaremos el modelo ARMA(1,1).
IV.2. MODELO ARMA(1,1)
} {
t
X
es un proceso ARMA(1,1) estacionario si satisface la siguiente ecuacin:
1 1
+
t t t t
Z Z X X
donde
} {
t
Z
~ ) , 0 (
2
WN ,
1 <
y
1 <
.
Usando el operador B, el modelo ARMA(1,1) puede ser escrito como:
t t
Z B X B ) 1 ( ) 1 ( +
Para encontrar la funcin de autocovarianzas del proceso ARMA(1,1) haremos
uso del resultado sobre procesos lineales (resultado III.3) del captulo anterior. Para ello
debemos encontrar los trminos
j
de la ecuacin:
0 j
j t j t
Z X
.
Haciendo sustituciones recursivas de las
t
X
, tenemos:
1 2 1 2
2
1 2 1 2
1 1
] [

+ + + +
+ + + +
+ +
t t t t t
t t t t t
t t t t
Z Z Z Z X
Z Z Z Z X
Z Z X X

1 con ) (
0
1
1
+ +

j
j t
j
t t
Z Z X
Usando el resultado III.3, que establece
k
h k k x
h
2
) (
, tenemos:
Para h=0,
]
1
1
[ ) (
...] 1 [ ) (
...) ) ( ) ( ) ( 1 ( ) 0 (
2
2 2 2
4 2 2 2 2
2 4 2 2 2 2 2
+ +
+ + + + +
+ + + + + + +
Para h=1,
]}
1
) (
[ ) {(
...] 1 [ ) ( ) (
...) ) ( ) ( ) ( ) (( ) 1 (
2
2
2
4 2 2 2 2
2 5 2 3 2 2
+
+ +
+ + + + + +
+ + + + + + + +
En general,
) 1 ( ) (
1

h
h
) 1 (
) 0 (
) 1 (
) (
1
1

h
h
h
Antes de discutir ms detalles y propiedades de los modelos ARMA(p,q), daremos
las bases para llevar a cabo inferencia sobre
y
) (h
y consideraremos el proceso de
prediccin en procesos estacionarios.
IV.3. PROPIEDADES DE
Y
) ( h
Un proceso estacionario es caracterizado por su media, , y su funcin de
autocorrelacin, (h). La estimacin de y de la funcin de autocorrelacin de las
observaciones, digamos X
1
,,X
n
, juega un papel muy importante en problemas de
inferencia y en particular, en el problema de ajuste de un modelo apropiado para las
observaciones.
En esta parte del captulo se presenta la estrategia de estimacin del parmetro

y de
) (h
, cada una con sus propiedades distribucionales con el fin de llevar acabo
inferencias. Cabe destacar que el obtener la distribucin del estimador de
) (h
es muy
complicado, por lo que en la prctica se recurre a aproximaciones y o resultados
asintticos.

Con respecto a
, dado que es una medida de tendencia central, la media

muestral,
n
X , es un estimador insesgado de
. Lo que debe esperarse respecto a la

distribucin de
n
X es que, bajo la suposicin de que los datos provienen de un proceso
estacionario, debe tener sus diferencias respecto al caso de cuando se tiene una muestra
aleatoria (caso iid). El siguiente resultado da las propiedades de
n
X bajo las condiciones
de una muestra estacionaria.
RESULTADO IV.1.- Sea
} {
t
X
una serie de tiempo estacionaria con media
y funcin
de auto-covarianzas
) (h
para
,..., 2 , 1 h
entonces, conforme
n
,
0 ) (
| |
1
1
) ( ) (
2
,
_

n
n j
n n
j
n
j
n
X E X Var
, si
0 ) ( n
,
y
h
n
h X nVar ) ( ) (
si

<
h
h | ) ( |
donde
n
t
t n
X
n
X
1
1
Demostracin.
La demostracin del resultado es, primeramente, una aplicacin de la varianza de una
suma de variables aleatorias. Como es sabido, la varianza de una suma de variables
aleatorias es la suma de las covarianzas:
n
i
i
n X Cov
n
X Var
1
2
) (
1
) (
n
i
j i
n
j
n
X X Cov
n
X Var
1 1
2
)] , ( [
1
) (
n
i
j i
n
j
n
X X Cov
n n
X Var
1 1
)] , (
1
[
1
) (
El detalle importante a tomar en cuenta en este caso, es que se refiere a un proceso
estacionario, lo que implica que las variables son, en general, correlacionadas. Para
facilitar el proceso podemos definir una matriz de covarianzas. Es decir,

1
X
2
X .
n
X
n
X
X
X
.
2
1
1
1
1
1
]
1
) 0 ( . )) 2 ( ( )) 1 ( (
. . . .
) 2 ( . ) 0 ( ) 1 (
) 1 ( . ) 1 ( ) 0 (

n n
n
n
Sumando todos los componentes de la matriz podemos notar que la suma va desde
1 ) 1 ( + n n h
hasta
) 1 ( n h
. Conforme se va avanzando en los valores de h , el
nmero de auto-covarianzas aumenta en uno hasta llegar a 0 h y despus disminuye en
1 hasta que llega a
) 1 ( n
. Bajo este comentario y considerando la divisin entre
n
de la
suma de covarianzas, la suma queda como:

+
0
1
1
1
] ) ( ) (
) (
[
1
) (
n h
n
h
n
h
n
h
h
n
h n
n
X Var
.
Finalmente, la expresin de la varianza queda como:
]. ) (
| |
1 [
1
) (
) 1 (
1
,
_

n
n h
n
h
n
h
n
X Var
Ahora, cuando
0 ) ( n
y
n
, el trmino de la derecha converge a cero; por lo
tanto, X converge en error cuadrado medio a y por lo tanto es un estimador consistente,
lo cual se quera demostrar.
///
Con respecto a
) (h
, el estimador
) ( h
est dado por
+

h n
t
n h t n t
X X X X
n
h
1
) )( (
1
) (
De aqu que, el estimador de la funcin de autocorrelacin sea:
) 0 (
) (
) (
h
h
Ambos estimadores son sesgados; y an con denominador
) ( h n
, los
estimadores siguen siendo sesgados. La razn fundamental de usar
n
es para evitar
estimaciones negativas de varianzas. Detalles sobre el tema se pueden consultar en
[Brockwell y Davis (1991)].
Como se mencion en prrafos anteriores, la inferencia sobre
) (h
se lleva a
cabo usando la distribucin asinttica del estimador. Barttlet (1966) fue el primero en
encontrar la distribucin asinttica del vector
)] ( ),..., 2 ( ), 1 ( [ h
h

, el cul se conoce
como frmula de Barttlet. A continuacin se enuncia el teorema de Barttlet (Frmula de
Barttlet).
RESULTADO IV.2.- (TEOREMA DE BARTTLET). Si
} {
t
X
es un proceso
estacionario tal que

j
j t j t
Z X
con ) , 0 ( ~ } {
2
IID Z
t
donde

<
j
j
| |
y
< ) (
t
Z E
. Entonces para
,...} 2 , 1 { h
el vector
)] ( ),..., 2 ( ), 1 ( [ h
h

se distribuye asintticamente ) , (
n
W
AN
h
, donde el
) , ( j i
-
simo elemento de W est dado por:
} ) ( ) ( 2 ) ( ) ( )}{ ( ) ( 2 ) ( ) ( {
1
+ + + +
k
ij
k j j k j k k i i k i k w
Demostracin.
La demostracin se puede consultar en el captulo VII de [Brockwell y Davis (1991)].
///

Ejemplo IV.3.1. Supongamos el proceso AR(1):
t t t
Z X X
1
con
} {
t
Z
~ ) , 0 (
2
WN
y
1
.
Sabemos, del captulo anterior, que
h
h ) ( . Aplicando el resultado anterior,
tenemos que:
2i 1 2 2 2i
1 1
2 2 2 2
2 ) )(1 )(1 - (1
) ( ) (

i
w
i
k i k
i i k k k i
ii
+
+
+

Ahora, si queremos establecer bandas de confianza para (h), basta aplicar la
siguiente ecuacin:
n
w
h
ii
96 . 1 ) ( t
donde w
ii
est dado por la expresin anterior.
IV.4. PREDICCIN EN PROCESOS ESTACIONARIOS (El mejor Predictor Lineal)
El problema es predecir los valores de
h n
X
+
, h>0, de una serie estacionaria con
media conocida y funcin de autocovarianzas
) (h
, en trminos de los valores {X
n
,,
X
1
}.
La idea central de la prediccin radica en dos puntos fundamentales:
La forma del predictor es lineal
El criterio bsico para definir el mejor predictor es el error cuadrado medio,
ECM.
El mejor predictor lineal lo denotaremos como
h n n
X P
+
, y tendr la forma:
1 1 2 1 0
... X a X a X a a X P
n n n h n n
+ + + +
+
De aqu, el ECM est dado por:
2
1 1 2 1 0
2
] ... [ ) ( X a X a X a a X E X P ECM
n n n h n h n n

+ +
Nuestro objetivo ser encontrar los valores de {a
0
, a
1,
a
2,,
a
n
} tales que
ECM(P
n
X
n+h
) sea mnimo. Por otro lado, tenemos que el ECM es una funcin cuadrtica
de a
0
, a
1,
a
2,,
a
n
, por tanto tendr al menos un valor de {a
0
, a
1,
a
2,,
a
n
} que la minimiza y
que satisface la ecuacin:
. ,..., 1 , 0 , 0
) (
n j
a
X P ECM
j
h n n

+
Derivando e igualando con cero, tenemos:
,
_
+
+
n
i
i
n
n n n h n
h n n
a a
a a a a
X a X a X a a X E
a
X P ECM
1
0
2 1 0
1 1 2 1 0
0
1
0 -
0 ] [ 2
) (
) 1 ( ) 1 ( ) 0 ( ) (
0 ) 1 ( ) 1 ( ) 0 ( - ) (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 2 1 0
1
+ + + + +
+

+
+
n a a a a h
n a a a a h
X X a X a X a a X E
a
X P ECM
n
n
n n n n h n
h n n

) 2 ( ) 0 ( ) 1 ( ) 1 (
0 ) 2 ( ) 0 ( ) 1 ( - ) 1 (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 1 2 1 0
2
+ + + + + +
+ +

+
+
n a a a a h
n a a a a h
X X a X a X a a X E
a
X P ECM
n
n
n n n n h n
h n n

) 0 ( ) 2 (n ) 1 ( ) 1 (
0 ) 0 ( ) 2 ( ) 1 ( - ) 1 (
0 ] ) [( 2
) (
2 1 0
2 1 0
1 1 1 2 1 0

n
n
n n n h n
n
h n n
a a n a a n h
a n a n a a n h
X X a X a X a a X E
a
X P ECM
+ + + + +
+

+
+
Tales derivadas igualadas con cero dan origen al sistema de ecuaciones siguiente:
)]' 1 ( ),..., 1 ( ), ( [
:
1
1
0
+ +

,
_
n h h h
donde
a
a a
n
n
n n
n
i
i

'
2 1
1 ,
] ,..., , [
)] ( [
n
n
n
j i n
a a a a
j i
La solucin estar dada por

n n
n
a
1
.
Dependiendo de la estructura de la matriz
n
, podremos o no resolver el problema
de prediccin. Suponiendo que la solucin existe, el mejor predictor lineal est dado por:
+
+

+
+
+
+
,
_
+
n
i
i n i
i n
n
i
i
n
i
i
n
n n
n
i
i
n n
h n n
X a
X a a
X a
X a a X P
1
1
1
1 1
1
1
'
0
) (

)' ( - 1

Es decir,
+
+ +
) (
1

i n i h n n
X a X P
A partir del predictor, podemos obtener el ECM:
+ +
,
_
+ + + + +
1
1
]
1
,
_
+ + + + +
1
]
1
+ +
1
]
1
+
+

+ +
+ + +
+ + + +
n
j i
j i
n
i
i
n
i
i n i
n
i
i n i
n
i
i
n
i
i n i
n
i
i n i
n
i
i
n
i
i n i h n
n
i
i n i h n h n
n
i
i n i h n h n n h n
a j i a i h a
X a E X E a i h a
X a X a E i h a
X a E X X a X E X E
X a X E X P X E
1 , 1
2
1
1
1
1
2
1
2 2
2
1
1
1
1
2
1
2 2
2
1
1
1
1
2
2
1
1
2
) ( ) 1 ( 2 - (0)
) ( ) ( 2 ) 1 ( 2 - 2 - (0)
) ( ) ( 2 ) 1 ( 2 - 2 - (0)
) ( ] ) [( 2 ] [
)] ) ( ( [ ] [

[ ]
n
n
h n n h n
a X P X E
' 2
) 0 (
+ +
donde
n
y
n
estn definidas como antes.
IV.4.1. Propiedades del operador Pn
A continuacin se enuncian las propiedades ms importantes del predictor lineal
1 + n n
X P
:

1.
0 ] [
1 1

+ + n n n
X P X E
2.
0 ] ) [(
1 1

+ + j n n n
X X P X E
3.
n n n
X X P
4.
0
0

n
X P
Note que las propiedades uno y dos son equivalentes al sistema de ecuaciones que
se obtienen al derivar el ECM, es decir las ecuaciones que se usan para encontrar la
solucin del vector
n
a .
Ejemplo IV.4.1. Considere el proceso estacionario AR(1) dado por:
t t t
Z X X
1

con
} {
t
Z
~ ) , 0 (
2
WN . Encontrar el predictor lineal de X
n+1
, es decir, encontrar P
n
X
n+1.
Solucin.
Dado que el proceso es un AR(1), del captulo anterior tenemos que :
2
2
1
) (
h
h
Por otro lado, de acuerdo al resultado anterior, tenemos por resolver el sistema
n
n n
a
. Explcitamente:
1
1
1
1
1
]
1
1
1
1
1
]
1
1
1
1
1
1
]
1
n
n
n n
n
n
a
a
a
2
2
2
2
1
2 1
2
1
2
2
1
1

1
1
1
Claramente, una solucin del sistema es:
'
) 0 ,..., 0 , (
n
a . Aplicando el resultado
anterior, el predictor lineal es:
) (
1
+
+ n n n
X X P
Dado que el proceso tiene media cero, se tiene:
n n n
X X P
+1
Para obtener el ECM, aplicamos el resultado del mejor predictor lineal.
Obteniendo:
2
2
2 2
2
2
'
1
1 1
) 1 ( ) 0 ( ) 0 ( ) (

+ n n n n
a X P ECM
Se puede mostrar que para un proceso AR(1) y para h1:
2
2 2
1
) 1 (
) (
+
+
h
h n n
n
h
h n n
X P ECM
X X P
Muchas veces se tiene inters en estimar datos perdidos o, simplemente, datos
intermedios. El procedimiento de prediccin de este tipo se desarrolla enseguida.
Supongamos las variables Y y
1
,...,W W
n
con
] [Y E
,
i i
W E ] [
, momentos
de segundo orden finitos y
) , ( ), , ( ), (
j i i
W W Cov W Y Cov Y Cov
conocidas.
Definamos los siguientes vectores y matriz de covarianzas:
[ ]
n
j i
j n i n
n
n W
n
W W Cov W W Cov
W Y Cov W Y Cov W Y Cov
W W W
1 ,
1 1
1
1
1
) , ( ) , (
)]' , ( ),..., , ( [ ) , (
)' ,..., (
)' ,..., (
+ +

Entonces, el mejor predictor lineal de Y en trminos de
} ,..., , 1 {
1
W W
n
est dado
por:
) ( ' ) | (
W
W a W Y P +
donde el vector a es una solucin del sistema
a
.
Y el correspondiente error cuadrado medio del predictor:
[ ] ' ) ( )) | ( (
2
a Y Var W Y P Y E
El predictor tiene las propiedades de un operador y otras que se enuncian aqu.
Supongamos dos variables U y V con momentos de segundo orden finitos, el
vector de variables independientes
)' ,..., (
1
W W W
n
con matriz de covarianzas

) , ( W W Cov
W

y las constantes
n
,..., ,
1
. Entonces, se tienen las siguientes
propiedades:
)) ( ( ' ) ( ) | ( . 1 W E W a U E W U P + donde a es una solucin de ) , ( W U Cov a
[ ]
[ ]
( )

+
,
_
+
+ + + +

n
i
i i
n
i
i i
W W W P
W V P W U P W V U P
W U Cov a U Var W U P U E
W W U P U E
1 1
2 1 2 1
2
| . 5
) | ( ) | ( | . 4
) , ( ' ) ( )] | ( [ 3.
0 )] W | P(U - E[U y 0 ] ) | ( [ . 2

Ejemplo IV.4.2. Considere el proceso estacionario AR(1) dado por:
t t t
Z X X
1

con
} {
t
Z
~ ) , 0 (
2
WN . Suponga que tenemos las observaciones 1 y 3,
)' , (
1 3
X X W
, y a
partir de ellas queremos estimar la observacin 2,
2
X Y .
Solucin.
El vector de coeficientes a que queremos encontrar es el que resuelve el sistema
dado por:
a
donde:
1
]
1
) 0 ( ) 2 (
) 2 ( ) 0 (
)] ( [
)) 1 ( ), 1 ( ( )]' , ( ), , ( [
3 , 1 ,
'
1 2 3 2

j i
j i
X X Cov X X Cov
Dado que el proceso es un AR(1), la funcin de autocovarianzas es la misma que
en el ejemplo anterior. Es decir, tenemos el sistema:
1
]
1
1
]
1
1
1
1 1
2
2
2
2
2
2
a
1
]
1
2
1
1
a
Aplicando el resultado de prediccin y usando la condicin de media cero, el
mejor estimador lineal de
2
X Y dado
)' , (
1 3
X X W
, est dado por:
) (
1
' ) / (
3 1
2
3
1
2
X X
X
X
a W X P +
+
1
]
1
Con error cuadrado medio:

2
2
2
2
2
2
2
2
2
2 2
1

1
2
1 1
' ) 0 ( ] )) | ( [(
a W X P X E
Como podemos ver, el procedimiento es el mismo que se sigue cuando se
predicen valores futuros en funcin de observaciones pasadas. Sin embargo, se debe tener
cuidado al momento de especificar el vector y matriz de autocovarianzas involucrados en
el sistema de ecuaciones.
IV.4.2. Algoritmo de Durbin-Levinson
En casos donde el proceso es definido por un sistema de ecuaciones lineales
(como el ejemplo anterior) hemos visto cmo la linealidad del operador P
n
puede usarse
como una gran ventaja. Para procesos estacionarios ms generales, esta ventaja nos
sirve para predecir en un paso, es decir, P
n
X
n+1
basado en n observaciones previas,
P
n+1
X
n+2
en funcin de n+1 observaciones previas y as sucesivamente. Los algoritmos de
prediccin que se basan esta idea son llamados recursivos. Dos algoritmos recursivos
importantes en series de tiempo son el algoritmo de Durbin-Levinson (discutido en esta
seccin) y el algoritmo de Innovaciones (se discutir en la siguiente seccin).
De acuerdo a Durbin-Levinson, el algoritmo dado por el resultado siguiente
resuelve el proceso de prediccin de X
n+1
en funcin de X
1
,,X
n
:
n
n nn n n n n n n
X X X X X P + + +
+ 1 1 2 1 1
...
Con su respectivo error cuadrado medio, definido por:
n n n n n n
X P X E
' 2
1 1
) 0 ( ] [
+ +
donde:
)' ,..., (
))' ( ),..., 2 ( ), 1 ( (
1 nn n n
n
n

Recordemos que el sistema por resolver es:

n n n n n n

1
decir, es

RESULTADO IV.3.- (Algoritmo de Durbin-Levinson). Si
} {
n
X
es un proceso
estacionario con media cero y funcin de autocovarianzas igual a
) (h
. Entonces, los
coeficientes
nn n n
,..., ,
2 1
del predictor
h n n
X P
+
se pueden calcular recursivamente por
medio de:
) 0 ( y
) 0 (
) 1 (
] 1 [
...(iv.2) ..........
...(iv.1) .......... ) ( ) (
0 11
2
1
1,1 - n
1 - n 1, - n
1 - n 1, - n
1,1 - n
1 - n n,
n1
1
1
1
1
, 1

1
1
1
]
1
1
1
1
]
1
1
1
1
]
1
1
]
1

donde
con
j n n
nn n n
nn
n
n
j
j n nn

Demostracin.
La igualdad ) 0 ( / ) 1 (
11
garantiza que, para n=1, se cumple:
n n n
R
, donde R
n
es
la matriz de autocorrelaciones,
))' ( ),..., 2 ( ), 1 ( ( , )' ,..., , (
2 1
n
n nn n n n

.
La prueba consiste en probar que
n
, definido como en el algoritmo de D-L

(recursivamente), satisface la ecuacin
n n n
R
para toda n. La prueba se lleva a cabo
por el mtodo de induccin matemtica. Ya hemos visto que para n=1 se satisface;
Supongamos que se cumple para n=k y probaremos que se cumple para n=k+1.
Definamos:
]' ,..., , [ :
)]' 1 ( ),..., 1 ( ), ( [ :
1 1 ,
) (
) (
k k k kk
r
k
r
k
k k

Entonces, de acuerdo a (iv.2) y haciendo la particin adecuada de R
n
, tenemos:
1
1
]
1

1
1
]
1
1
1
1
1
1
1
]
1
1
1
]
1
1
1
1
1
]
1
1
1
]
1
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+
+
+ +
1 , 1
) (
1 , 1
) (
) (
1 , 1
1 1 , 1
1 , 1 , 1 2
1 , 1 1
) (
) (
1 , 1
2 , 1
1 , 1
) (
) (
1 1
1 '
1 ' 1 '
k k
r
k k k k
r
k
r
k k
k k
k k k kk
k k k k k
kk k k k
r
k
r
k k
k k
k
k
r
k
r
k k
k k
R
R R
R
Sabiendo que para n=k se cumple

n n n
R
, obtenemos:
1
1
]
1
+
+
1
]
1

1
1
]
1
+ + + +
+ + + +
+ +
+ +
+ +
1 , 1
) ( ) (
1 , 1
) (
) (
1 , 1
) (
1 , 1
1 , 1
) (
1 , 1
) (
) (
1 1
' ' 1 '
k k
r
k
r
k k k k
r
k
r
k k k
r
k k k k
k k
r
k k k k
r
k
r
k k
k k
R
R

1
1 , 1
) ( ) (
1 , 1
) ( 1 1
) 1 ( ' '
+
+ + + +
+ +

1
]
1
1
]
1
k
k
k k
r
k
r
k k k k
r
k
k
k k
k
R
La igualdad anterior significa que

n n n
R
se cumple para k+1. As, por el principio
de Induccin Matemtica, las ecuaciones recursivas de D-L se cumplen para todo n.
En cuanto al ECM, sabemos que el mejor predictor lineal satisface:
n n n
' ) 0 (
.
Ahora, por la ecuacin (iv.2), tenemos que:
) ( ' ' ) 0 ( ' ) 0 (
1
) (
1 1 1
n
nn n
r
n nn n n n n n
+

Aplicando, nuevamente, la ecuacin del ECM del mejor predictor lineal y agrupando
trminos, obtenemos:
] ' ) ( [ ) ( ' ] ' ) 0 ( [
1
) (
1 1 1
) (
1 1 1
+
n
r
n nn n nn n
r
n nn n n n
n n
Finalmente, por la ecuacin (iv.1), concluimos que:
] 1 [ ] ' ) 0 ( [
2
1 1
2
1 1
) (
1
2
1 nn n n nn n n
r
n nn n n

De esta forma, queda demostrado el Algoritmo de Durbin-Levinson.
///
Definicin IV.4.1. [Funcin de Autocorrelacin parcial (PACF)]. Bajo las
condiciones del resultado anterior, la funcin de autocorrelacin parcial se define como:
hh
h
) (
1 ) 0 (
donde
hh
es el ltimo componente del vector

h h h

1
,
'
)] ( ),..., 2 ( ), 1 ( [ h
h
y
h
j i h
j i
1 ,
)] ( [

La estimacin de la PACF se obtiene sustituyendo las estimaciones de las
autocovarianzas en la expresin
h h h

1
.
NOTA1: La funcin (h) tiene la propiedad de que en procesos AR(p) se trunca en el
valor de p, es decir:
'
p n
p n
h
hh
si 0
si
) (

NOTA2: Se puede mostrar que

hh
mide la correlacin entre los errores de prediccin

) ,..., / (
1 1
h h h
X X X P X
y
) ,..., / (
1 1 0 0
h
X X X P X
. Es decir, entre Z
h
y Z
0
, y en
general, entre Z
t-h
y Z
t
. Para ms detalles ver [Box, Jenkins y Reinsel (1994)].
NOTA3: La expresin de la PACF de un modelo ARMA es demasiado extensa del hecho
de la expansin del polinomio de promedio mvil. Sin embargo, su grfica se comporta
como la de un modelo puro de promedio mvil, dominada por un exponente mixto que
depende de los parmetros y del orden del modelo. Para dejar clara la nota, consideremos
el modelo MA(1), con ) 1 /(
2
1 1 1
+ y
0
k
para k>1 en la ecuacin

n n n
R
.
Haciendo un poco de lgebra se puede llegar a la expresin de la PACF:
) 1 ( 2
1
2
1 1
1
) 1 (
+
k
k
kk
Note que, el signo de la PACF depende del exponente, k, y del valor del coeficiente,
1
.
Veamos algunas consecuencias:
Si
1
>0, entonces
1
<0 y la PACF alterna el signo dependiendo de k.
Si
1
<0, entonces
1
>0 y la PACF es negativa para todo k.
Ejemplo IV.4.3. Consideremos el proceso AR(2) y apliquemos el algoritmo de Durbin-
Levinson para encontrar el mejor predictor.
Solucin.
El proceso est dado por:
t t t t
Z X X X
2 2 1 1

con
} {
t
Z
~
) , 0 (
2
WN
.
Nuestro objetivo es encontrar el mejor predictor lineal de X
t+1
para el proceso AR(2). Es
decir:
1 1 1
... X X X P
tt t t t t
+ +
+
Aplicando el algoritmo D-L, tenemos que:
) 1 ( ) 0 ( / ) 1 ( )] 1 ( [
, 1
1
0 11
1 11 2

X X
t
] ) 1 ( 1 )[ 0 ( ] 1 [
2 2
11 0 1

] 1 [
] ) 1 ( 1 )[ 0 (
) 1 ( ) 1 ( ) 2 (
1 ) 1 (
]] ) 1 ( 1 )[ 0 ( )][ 1 ( ) 1 ( ) 2 ( [
)] 1 ( ) 2 ( [
, 2
2
22 1 2
2
11 22 11 21
1 2
1
1 11 22
1 22 2 21 3

1
]
1
X X X
t
0
)] 1 ( ) 2 ( ) 1 ( ) 2 ( [
)] 1 ( ) 2 ( ) 3 ( [
, 3
1
2 22 21 22 21
1
2 22 21 33
1 33 2 32 3 31 4
+

+ +

X X X X
t
El resultado resulta de que para el proceso AR(2) y con t=3, se tiene la igualdad
) 1 ( ) 2 ( ) 3 (
2 1
+ .
] 1 [
2
22 2 3
21 22 33 21 31
22 21 33 22 32

En el mtodo de D-L, se cumple
n cuando
j nj

. Es decir,
. ,
1 1 2 2

n n
Y as sucesivamente para todo . 3 t
De este modo, el predictor para un AR(2) queda como:
.
1 2 1 1 +
+
t t t t t
X X X
Por ejemplo, si se tiene X
1
y X
2
y se desea predecir X
4
, se procede como sigue:
0 que dado
33 2 32 3 31
1 33 2 32 3 31 4
+
+ +

X X
X X X X
Note que antes de predecir X
4
, se debe predecir X
3
, pues X
4
depende de ella.
IV.4.3. Algoritmo de Innovaciones
El algoritmo de innovaciones se caracteriza por ser un algoritmo recursivo, al
igual que el algoritmo de Durbin- Levinson.
Este algoritmo es aplicable a todos los procesos con segundo momento finito, sin
importar si el proceso es estacionario o no.
Sea
} {
t
X
un proceso con media cero y segundo momento finito, <
2
) (
t
X E ,
defnase:
2
1 1
1
] [
2,3,... n si ,
1 n si , 0
) , ( ] [
+ +
'
n n n n
n n
n
j i
X P X E
X P
X
j i X X E
As mismo, se introduce el concepto de Innovacin, o prediccin en un paso,

como:
n n n
X X U

El proceso de innovaciones para un proceso estacionario, para toda n, procede
como sigue:
) ... (
) (
) (
1 1 2 2 1 1
2 2 1 1 3 3 3 3
1 1 2 2 2 2
1 1 1 1 1

+ + +
+

n n n n n n
X a X a X a X X X u
X a X a X X X u
X a X X X u
X X X X u
Matricialmente, tenemos:
1
1
1
1
1
1
]
1
1
1
1
1
1
1
]
1
1
1
1
1
1
1
]
1
n n n n n n
n n n
X
X
X
X
a a a
a a
a
u
u
u
u
X A U
3
2
1
3 , 1 2 , 1 1 , 1
21 22
11
3
2
1
1
0
0 1
0 0 1
0 0 0 1

Como se puede ver, la matriz A es no singular, por tanto existe su inversa. Sea C
n
la inversa de A:
1
1
1
1
1
1
]
1

1
0
0 1
0 0 1
0 0 0 1
3 , 1 2 , 1 1 , 1
21 22
11
n n n n n n
n
C

De esta forma,
n n n
U C X
Por otro lado, el vector de predictores en un paso est dado por:
'
1 2 1 1
) ,..., , (
n n n
X P X P X X

. Se puede ver que:
n
n n
n n n n n n
n n n
U
U C
U U C U X X
X X U
n

I) - (

donde
1
1
1
1
1
1
]
1

0
0
0 0
0 0 0
0 0 0 0
3 , 1 2 , 1 1 , 1
21 22
11
n n n n n n
n n
I C

Tal expresin nos da una representacin del mejor predictor lineal de X

n
en
funcin de las Innovaciones.
Si observamos el proceso de Innovaciones, podemos ver que estas son una
estimacin del proceso de Ruido Blanco {Z
t
}. Por lo tanto, las Innovaciones deben
satisfacer las condiciones de tal proceso. Es decir, tienen media cero y son no
correlacionadas. Esta caracterstica se toma como una ventaja del Algoritmo de
Innovaciones sobre el de Durbin-Levinson.
Por otro lado, podemos usar la ltima expresin de
n
X
y deducir que:
+ +
+
+

+ + +
n
j
j n j n nj
n
j
j n nj
n
j
j j n n
n n n n nn n
X X
u u
u u u X
1
1 1
1
1
1
1 ,
1 2 1 , 1 1
)
(

...

Lo anterior se resume en el siguiente resultado.
RESULTADO IV.4.- (Algoritmo de Innovaciones). Sea Sea
} {
t
X
un proceso con
media cero y segundo momento finito, <
2
) (
t
X E . Entonces, los coeficientes
nn n
,...,
1

del mejor predictor de
1
+ n
X , as como el error cuadrado medio, se pueden calcular
recursivamente de las ecuaciones siguientes:
2
1 1
1
0
2
,
1
0
, ,
1
,
0
] [
] [ j) (i,

) 1 , 1 (
n, k 0 , ) 1 , 1 (
) 1 , 1 (
+ +
+ +

,
_
+ +
n n n n
j i
n
j
j j n n n
k
j
j j n n j k k k k n n
X P X E
X X E
donde
n n
y
k n

Por estructura, el Algoritmo de Innovaciones es til para los procesos MA(q) y
ARMA(p,q). Esto lo veremos con el ejemplo siguiente.
Ejemplo IV.4.3. Considere el proceso MA(1):
t t t
Z Z X +
1
,donde
} {
t
Z
~ WN(0,
2
). Apliquemos el A.I para encontrar el mejor predictor de X

n+1
.
Solucin.
Antes, recordemos que para el proceso MA(1) se tiene que:
'
>
1 | | 0
1 | |
0 ) 1 (
) (
2
2 2
h si
h si
h si
h

'
>
1 | | 0
1 | |
) 1 (
0 1
) (
2
h si
h si
h si
h
Entonces, si
) 1 (
) 1 )( 0 ( ) 1 ( ) 2 , 2 (
) 1 (
) 0 ( / ) 1 ( ) 1 (
definida est no (.)(.) que ya ) 1 , 2 ( (.)(.) ) 1 , 2 ( , 0
, 1
2 2 1
0
2 2
2
11
2
11 0
0
0
j
2
1 , 1 1
1
0
1
0
1
0
1
0
1
0 11

,
_

j
j
j j
k
n
0
) 2 (
) 0 ( / ) 2 ( ) 2 (
) 1 , 3 ( (.)(.) ) 1 , 3 ( , 0
, 2
1
0
1
0
1
0
1
0 22
,
_

j
k
n
( ) ( )
( )
) 1 (
) 1 ( ) 0 ( ) 3 , 3 (

) 1 ( 0 ) 1 ( ) 1 (
) 2 , 3 ( , 1
2 2 1
1
2 2
2 4 2
1 1
2 2
1
2
21 1
2
21 0
2
22 0
1
0
j
2
2 , 2 2
2 1
1
1
1
1
1 0 22 11
1
1
0
0
2 , 2 1 , 1
1
1 21

+
+ +
,
_
j
j
j
j j j
k
0 , 1
0 , 0
, 3
32
33

k
k
n
( ) ( )
( )
) 1 (
) 1 ( ) 0 ( ) 3 , 3 (

) 1 ( 0 ) 1 ( ) ( ) 1 (
) 3 , 4 ( , 2
2 2 1
2
2 2
2 4 2
2 2
2 2
2
2
31 2
2
31 1
2
32 0
2
33 0
2
0
j
2
3 , 3 3
2 1
2
1
2
1
2 0 32 21 0 33 22
1
2
1
0
3 , 3 2 , 2
1
2 31

+
+ + +
,
_
j
j
j
j j j
k
En general, para el proceso MA(1), se tiene:
( )
2 2 1
1
2 2
2 1
1
,
1

2,3,..., , 0

'

n n
n
j n
n j
IV.5. PRONSTICO DE PROCESOS ARMA(p,q)
La manera de llevar a cabo el pronstico de los procesos ARMA(p,q) es a travs
del Algoritmo de Innovaciones. Para esto, el A.I se aplica a un modelo transformado el
cual hace que el clculo sea relativamente ms sencillo.
Sea
} {
t
X
el proceso ARMA(p,q) dado por:
t t
Z B X B ) ( ) (
con
} {
t
Z
~ ) , 0 (
2
WN
El proceso transformado (sugerido por Ansley-1979) es:
) , max(
si ) (
1,..., si
1
1
q p m
donde
m t X B
m t X
W
t
t
t
'
>
Las autocovarianzas
) ( ) , (
j i
W W E j i
se obtienen a partir de la siguiente
expresin:
'
>
<
1
]
1
modo. otro de 0
min
2 max min ) ( ) (
1 ) (
) , (
0
1
2
2
m (i,j)
m (i,j) m (i,j) j i r j i
m i, j j i
j i
q
r
j i r r
p
r
X r X
X

Aplicando el A.I al proceso

} {
t
W
se obtiene:
'

<
+ +
+ +
+
m n W W
m n W W
W
q
j
j n j n nj
n
j
j n j n nj
n
si )
(
1 si )
1
1 1
1
1 1
1
Donde los coeficientes

nj
y los errores cuadrados medios

2
1 1
)
(
+ +

n n n
W W E r
se encuentran recursivamente del A.I visto en la seccin IV.4.2.
Por otra parte, observe que de la transformacin hecha, cada X
n
puede ser escrito
como un a combinacin lineal de W
j
j=1,,n, y viceversa. Esto significa que el mejor
predictor lineal de alguna variable Y en trminos de {1, X
1
,, X
n
} es el mismo para la
variable Y en trminos de {1, W
1
,, W
n
}. Denotemos a ese predictor como P
n
.
Usando la linealidad de P
n
podemos ver que:
[ ]
'
>
m t X X X
,...,m t X
W
p t p t t
t
t
si ...
1 si
1 1
1
1

No olvidemos que nuestro objetivo es encontrar una expresin para calcular

1
+ n
X .
Entonces:
)
( )
- (

1 Si
1 1
1
1 1
1
1
1
1
1
1
+ +
+ +
+
+
+
<
n n n n
n n
n n
X X W W
X W
X W
m n
Sustituyendo, tenemos que:
+ + +
+ +
+ + +

n
j
j n j n nj n
n
j
j n j n nj
n
j
j n j n nj n
X X W
X X W W W
1
1 1 1
1
1 1
1
1
1 1 1
)
( )
+ + +

n
j
j n j n nj n
X X X
1
1 1 1
)
[ ]
+ + + +
+ + + +
+ +
+ +
+ +
+
+ + +

q
j
j n j n nj p n p n n
q
j
j n j n nj p n p n n
q
j
j n j n nj
q
j
j n j n nj
p n p n n n
X X X X X
X X X X X
X X
W W
X X X W
m n
1
1 1 1 1 1
1
1 1 1 1 1
1
1 1
1
1
1 1
1 1 1
1
1
)
( ...
( ...
(
)
(
...

Si

En resumen:
( ) ( ) (p,q) m r W W E X X E
m n X X X X
m n X X
X
n n n n n
q
j
j n j n nj p n p n
n
j
j n j n nj
n
max ,

si )
( ...
1 si )
2
1 1
2
2
1 1
1
1 1 1 1
1
1 1
1

'
+ + +
<
+ + + +
+ + +
+ +
+
Los coeficientes
nj
y los errores cuadrados medios

2
1 1
)
(
+ +

n n n
W W E r se
encuentran recursivamente aplicando el A.I, visto en la seccin IV.4.2, al proceso {W
t
}.
Una vez calculados los valores
n
X X
,...,
1
, podemos calcular el predictor lineal a
distancia h>1 como sigue:
(p,q) m
m-n h X X X P
m-n h X X
X P
h n
h j
j h n j h n j h n
p
i
i h n j
h n
h j
j h n j h n j h n
h n n
max
si )
( ) (
1 si )
(
1
, 1
1
1
, 1
'
+
<
+ + +
+
+
+ + +
+

En la prctica, generalmente, se tiene n>m; por lo que generalmente se usa la

expresin:
'
+ + +
+ +
q
h j
j h n j h n j h n
p
i
i h n i h n n
h X X X P X P 1 todo para )
( ) (
, 1
1

Para calcular el error cuadrado medio de prediccin utilizaremos una
aproximacin para muestras grandes, la cual usa como base la causalidad del modelo.
Supongamos que el modelo ARMA(p,q) es causal e invertible, entonces de acuerdo al
captulo III y especficamente a las definiciones de causalidad e invertibilidad, tenemos
que:
j h n
j
j h n
Z X
+
+

0
y
j h n
j
j h n h n j h n
j
j h n h n
X Z X X X Z
+
+ + +
+ +
+
1 1

Sea
Y P
n
~
la mejor aproximacin a Y. Aplicando este operador,
n
P
~
, a las expresiones
anteriores, obtenemos:
j h n
h j
j j h n n
j
j h n n
Z Z P X P
+
+

~ ~
0
y
j h n
j
n j j h n
j
n j h n n h n n
X P X P Z P X P
+
+ +

1 1
~ ~
) (
~ ~

De esta forma, el error cuadrado medio (aproximado) est dado por:
2
1
0
2
0
2 2

)
~
( ) (
~
,
_
,
_
+ +

j h n
h
j
j
j h n
h j
j j h n
j
j
h n n h n
Z E
Z Z E
X P X E h
De esta igualdad y del hecho de que {Z
t
} sigue un proceso de Ruido Blanco, se
tiene:

1
0
2 2 2
) (
~
h
j
j
h
CAPITULO V. MODELACIN CON MODELOS ARMA(p,q)
En captulos anteriores asumimos conocer tanto el modelo, como la forma del
proceso. A partir de ahora, lo nico que tenemos son datos y estamos interesados en saber
qu procesos son adecuados para explicarlos.
La determinacin de un modelo ARMA(p,q) apropiado involucra varios aspectos,
tales como el orden, es decir, los valores de p y q, los coeficientes
p i
i
,..., 1 ,
y
q j
j
,..., 1 ,
, y la varianza del ruido blanco. Tambin, la eleccin de un modelo depende
de la bondad de ajuste.
El proceso de ajuste de un modelo de series de tiempo consiste en, primeramente,
graficar y si es necesario, se transforman los datos a un proceso estacionario mediante
diferenciacin. Una vez que se tiene un proceso estacionario, debemos tener herramientas
para identificar posibles modelos. Por ejemplo:
Funcin de autocorrelacin: para modelos MA(q)
Funcin de autocorrelacin parcial : para modelos AR(p)
Criterio del AICC: todos los posibles modelos.
Como se mencion antes, si algn modelo cumple con ser un buen modelo,
debemos tener estrategias para decidir qu modelo es mejor que otros. Para ello se llevan
pruebas de bondad de ajuste, las cuales incluyen, fundamentalmente, pruebas sobre los
residuales. Algunas de las pruebas que se llevan a cabo son:
Probar que los residuales forman un proceso de Ruido Blanco mediante:
Grfica de autocorrelacin de los residuales.
Pruebas de hiptesis (basadas en autocorrelacin).
Probar que los residuales forman una muestra aleatoria mediante:
Prueba de Signo ordinario.
Prueba de Racha (Run test)
Prueba de puntos alternantes.
En este captulo, el objetivo principal es estimar los parmetros
)' ,..., (
1 p

,
)' ,..., (
1 q

y
2
cuando se asume que p y q que son conocidos. Tambin, se asume
que los datos han sido corregidos por la media, es decir, si el modelo ajustado es:
t t
Z B X B ) ( ) (
entonces el correspondiente modelo para la serie estacionaria original {Y
t
} se encuentra
reemplazando X
t
por
y Y
t

, donde y es la media muestral de los datos originales.
Cuando p y q son conocidos, buenos estimadores de
y pueden ser
encontrados tomando en cuenta los datos como observaciones de una serie de tiempo
estacionaria Gaussiana y maximizando la verosimilitud con respecto a los p+q+1
parmetros. Estos estimadores son conocidos como estimadores de mxima
verosimilitud. Estos estimadores se encuentran usando la opcin de ITSM Model>
Estimation>Autofit. S-PLUS ajusta modelos por Mxima Verosimilitud por default y las
instrucciones son Statistics> Time Series> ARIMA Models y elegir las opciones que se
deseen en el cuadro de dilogo.
Obviamente, para llegar a un modelo, debemos tener las herramientas necesarias
de estimacin. Dado que este proceso requiere mtodos numricos, primero debemos
tener valores iniciales (una estimacin previa) y despus llevar a cabo la optimizacin.
Dependiendo del proceso, podemos usar los algoritmos de Yule-Walker o de Burg para
modelos AR(p); y el Algoritmo de Innovaciones o de Hannan-Rissanen para modelos
MA(q) y ARMA(p,q).
En resumen, para llevar a cabo el ajuste de un proceso (datos) se tienen que seguir
los siguientes pasos:
1. Verificar si el proceso es estacionario. Si no lo es, entonces se deben trasformar
los datos para lograr estacionaridad (diferenciacin, logaritmos, etc.).
2. Identificar posibles modelos mediante la funcin de autocorrelacin, la funcin
de autocorrelacin parcial o el AICC.
3. Seleccionar p y q mediante la estimacin preliminar (Algoritmos de Yule-
Walker, Burg, Innovaciones o Hannan-Rissanen).
4. Llevar a cabo la prueba de bondad de ajuste.
5. Si el modelo elegido aprueba la prueba de bondad de ajuste, el proceso se termina.
En caso contrario, se regresa al paso 2.
Figura3. Ajuste de un proceso ARMA(p,q)
Es estacionaria la serie? No Diferenciar la serie
Si
Identificar posibles modelos
Estimacin preliminar
Realizar pruebas de bondad de ajuste
Se cumplen las pruebas de bondad de ajuste? No
Si
Fin
V.1. ESTIMACIN PRELIMINAR.
En esta seccin consideraremos las cuatro tcnicas de estimacin preliminar que
se mencionaron arriba.
V.1.1. Estimacin de Yule-Walker
Considere el proceso AR(p) causal. Dada esta propiedad, podemos escribir:
j
j t j t
Z X
(5.1)
En este momento, supondremos que a travs de alguna tcnica construimos el
valor de p. El mtodo de Yule-Walker consiste en encontrar los valores de las
s tales
que las ecuaciones de Yule-Walker cumplan con las autocovarianzas. Es decir,
multiplicando ambos lados de la ecuacin 5.1 por
j t
X

para j=0,1,,p y tomando valor
esperado, obtenemos las ecuaciones de Yule-Walker:
p
p p
y

' ) 0 (
2

donde
)]' ( ),..., 2 ( ), 1 ( [
)' ,...., , (
)] ( [
2 1
1 ,
p
j i
p
p
p
j i p

Por otra parte, si reemplazamos las covarianzas
) ( j
por las correspondientes
covarianzas muestrales
) ( j
, obtenemos:
p
p p
y

' ) 0 (
2

Note que, bajo los supuestos iniciales, en este momento el vector de incgnitas es
el vector
. Ahora, si
0 ) 0 ( >
, entonces
m
es no singular para m=1,2,. De esta

forma, podemos escribir las ecuaciones muestrales de Yule-Walker:
) 0 ( / )]' ( ),..., 2 ( ), 1 ( [
: donde
],
' 1 )[ 0 (

1 2
1 1

p p
p p p
p p p p
p
R
R

Segn Brockwell y Davis,
es un estimador consistente de
. Ver [Brockwell y
Davis (2002), pp. 140].
Si deseamos hacer inferencia sobre
podemos usar el hecho de que:

) , (
1 2 1

p
n N
En la prctica no conocemos el verdadero orden del modelo generado por los
datos. De hecho, puede suceder que el modelo AR(p) no sea apropiado. Suponiendo que
el modelo AR(p) es adecuado, resta encontrar el orden de tal modelo, es decir, el valor de
p. Dos tcnicas que se usan en esta parte del proceso de modelacin son: aplicando
intervalos de confianza para los componentes del modelo y otra, minimizando el AICC.
El programa ITSM grafica la funcin de autocorrelacin muestral junto con las
bandas de confianza usando aproximacin Normal. De esta grfica es fcil encontrar el
valor de p. S-PLUS tambin grafica las bandas de confianza en cuestin siguiendo
Statistics> Time Series> Autocorrelations.
Si queremos aplicar el criterio del AICC, se considera el valor:
) 2 /( ) 1 ( 2 ) / ) ( , ( ln 2 + + p n n p n S L AICC
p p

donde L es la verosimilitud. Note que mientras ms grande sea L, ms pequeo ser el
valor del AICC, y por lo tanto el modelo es mejor. Para seleccionar p, se ajustan modelos
para diferentes valores de p
*
y aquella p
*
que minimice el AICC ser el estimador de p.
NOTA1: No todos los criterios de seleccin darn el mismo valor de p.
En resumen, tenemos que el modelo AR(p) ajustado por Yule-Walker es:
]
' 1 )[ 0 (
)'
,...,
), , 0 (
: donde
...
1
1
1
1 1
p p p p
p p pp p p
p t
t p t pp t p t
R
R
WN Z
Z X X X

Para n grande, los intervalos de confianza al 95% para los componentes de
son:
2 / 1 2 / 1
96 . 1
jj pj
n

t
Para probar la hiptesis
0 :
0

pj
H
, consideramos el intervalo anterior, si el
valor cero se encuentra en tal intervalo no se rechaza H
0
, de otro modo, se rechaza.
Ejemplo V.1.1. Consideremos los datos del ndice de Utilidad Dow Jones de Agosto 28 a
Diciembre 28 de 1972. El archivo es DOWJ.TXT.
Solucin.
Los datos presentan el siguiente comportamiento:
Nmero de observaciones = 78
Media muestral = .1157E+03
Grfica19. Serie ndice de utilidad Dow Jones Ago-28 a Dic-28 de 1972.
10 30 50 70
105
110
115
120
125
D
J
Note que es necesario diferenciar la serie para obtener un proceso estacionario. Es
decir, tendremos un nuevo modelo:
1

t t t
D D Y
. Por tanto, ajustaremos un proceso AR
a esta nueva serie mediante Yule-Walker. La serie diferenciada es:
Grfica20. Serie ndice de utilidad Dow Jones diferenciada a distancia 1.
10 30 50 70
-1.0
-0.5
0.0
0.5
1.0
1.5
D
J
Las instrucciones para llevar a cabo lo anterior en S-PLUS son las siguientes:
dif.DJ<-diff(DOWJ,1,1)
guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="DOWJ")
guiPlot(PlotType="Y Series Lines", Columns=1,
DataSet="dif.DJ")
donde DOWJ es el nombre del Dataset con los datos del ndice de utilidad Dow Jones.
Las autocorrelaciones muestrales de la serie diferenciada, as como la grfica de
estas, las obtenemos siguiendo Statistics > Time Series> Autocorrelations en el Dataset
dif.DJ, entonces aparecer un cuadro de dilogo en el que seleccionamos
Autocorrelation en la opcin Estimate Type. Los resultados se presentan enseguida:
Autocorrelation matrix:
lag dif.DJ
1 0 1.0000
2 1 0.4219
3 2 0.2715
4 3 0.1617
5 4 0.2270
6 5 0.1490
7 6 0.2006
8 7 0.1721
9 8 0.0262
10 9 0.0400
11 10 0.0545
12 11 0.1767
13 12 0.0142
14 13 0.1947
15 14 0.0578
16 15 -0.0758
17 16 -0.1796
18 17 0.0760
19 18 0.0159
Grfica21. ACF y PACF Serie del ndice de utilidad Dow Jones diferenciada
a distancia 1.
Lag
A
C
F
0 5 10 15
-
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Series : dif.DJ[,"difDJ"]

Lag
P
a
r
t
ia
l
A
C
F
0 5 10 15
-
0
.
2
-
0
.
1
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Series : dif.DJ[,"difDJ"]
La grfica de la PACF (derecha) sugiere ajustar un modelo AR(1), puesto que las
dems autocorrelaciones son estadsticamente iguales a cero. Para obtener la estimacin
preliminar por Yule-Walker y con mnimo AICC, agregamos las instrucciones siguientes
(en S-PLUS):
yw.dif.DJ<-ar.yw(dif.DJ, aic=T)
yw.dif.DJ
El modelo obtenido es:
$order:
[1] 1
[,1]
[1,] 0.4218786
$var.pred:
[,1]
[1,] 0.1518409
As, el correspondiente modelo para Y
t
, la serie original, es:
8) WN(0,0.151 } {Z , ) 1157 . 0 ( 4219 . 0 1157 . 0
t 1
+
t t t
Z Y Y
El intervalo de confianza para el coeficiente autorregresivo es:
) 6244 . 0 , 2194 . 0 (
77 ) 1799 . 0 (
) 1518 )(. 96 . 1 (
4219 . 0 t
Cabe notar que el intervalo de confianza no contiene al cero, por lo que se
concluye que 0
1
con 05 . 0 de significancia.
V.1.2. Algoritmo de Burg
El Algoritmo de Burg estima la funcin de autocorrelacin parcial ,...} , {
22 11

minimizando sucesivamente la suma de cuadrados de los predictores un paso adelante y
un paso atrs con respecto a los coeficientes
ii
.
Dadas las observaciones
} ,..., , {
2 1 n
x x x
de un proceso estacionario con media cero,
definiremos:
) 1 ( ) ( ) (
) ( ) 1 ( ) (
) ( ) (
1 1
1 1
1 0 0

+
t u t v t v
t v t u t u
x t v t u
i ii i i
i ii i i
t n
Entonces, el estimador de
11
usando el algoritmo de Burg,
) (
11
B
, se encuentra
minimizando la siguiente expresin:
n
t
t v t u
n
2
2
1
2
1
2
1
)] ( ) ( [
) 1 ( 2
1
con respecto a
11
. La solucin nos dar los valores de ) ( ), (
1 1
t v t u y
2
1
, que se usarn
para encontrar el estimador de
22
y los valores de ) ( ), (
2 2
t v t u y
2
2
. Esto sucede
minimizando la nueva expresin:
n
t
t v t u
n
3
2
2
2
2
2
2
)] ( ) ( [
) 2 ( 2
1
El proceso de estimacin continua de la misma forma hasta obtener el estimador

) ( B
pp
y los correspondientes valores mnimos de

2 ) ( B
p
.
El clculo de los estimadores de
ii
y
2
i
descritos arriba es equivalente a resolver
las siguientes ecuaciones recursivas:
Algoritmo de burg
( )
( ) [ ] )] ( 2 /[ ) ( 1
) ( ) 1 ( ) ( 1 ) 1 (
)] 1 ( ) ( [
) (
2
)] ( ) 1 ( [ ) 1 (
2 ) ( 2 ) (
2 2 2 ) (
1
1 1
) (
2
2
0
2
0
i n i d
n u i v i d i d
t u t v
i d
t v t u d
B
ii
B
i
i i
B
ii
n
i t
i i
B
ii
n
t

+ +
+
+
La distribucin de los coeficientes estimados por el Algoritmo de Burg, para

muestras grandes, es la misma que la de los estimadores de Yule-Walker. Sin embargo,
no se asegura que las estimaciones (valores) sean iguales.
Ejemplo V.1.2. Consideremos los datos del nivel del Lago Hurn (en pies) en los aos
1875-1972. El archivo es LAKE.TXT.
Solucin.
Esta serie tiene 98 datos
} 98 ,..., 1 , { t Y
t
. Ajustaremos un modelo AR a los datos
sin eliminar algn componente de tendencia, es decir no se diferenciar la serie. Los
datos, las funciones de autocorrelacin y autocorrelacin parcial se muestran en las
grficas siguientes:
Grfica22. Serie nivel del lago Hurn aos 1875-1972.
10 30 50 70 90
5
7
9
11
l
a
k
e
Grfica23. ACF y PACF de la serie nivel del lago Hurn aos 1875-1972.
Lag
A
C
F
0 5 10 15
-
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Series : Lake$lake

Lag
P
a
r
t
ia
l
A
C
F
0 5 10 15
-
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Series : Lake$lake
Las grficas anteriores las obtenemos mediante las instrucciones:
guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="Lake")
acf(x = Lake$lake, type = "correlation")
acf(x = Lake$lake, type = "partial")
donde Lake es el nombre del Dataset con la serie en cuestin.
La grfica de la PACF (arriba a la derecha) sugiere ajustar un modelo AR de
orden p=2 a los datos corregidos por la media,
0041 . 9
t t
Y X
.
Para obtener la estimacin preliminar del modelo autorregresivo por el Algoritmo
de Burg en para los datos corregidos, agregamos las lneas siguientes en nuestro Script
File:
Lake.corr<-Lake-mean(t(Lake)) /corrige los datos por la
media/
burg.lake<-ar.burg(Lake.corr, aic=T)
burg.lake
La opcin aic=T asegura que se obtendr el modelo con mnimo AICC. Los
resultados son:
$order:
[1] 2
$ar:
[,1]
[1,] 1.0450438
[2,] -0.2457325
$var.pred:
[,1]
[1,] 0.4788279
As, nuestra estimacin preliminar queda como:
8) WN(0,0.478 } {Z , ) 0041 . 9 ( 2457 . 0 ) 0041 . 9 ( 0450 . 1 0041 . 9
t 2 1
+
t t t t
Z Y Y Y
V.1.3. Algoritmo de Innovaciones
Al igual que el mtodo de Yule-Walker, el Algoritmo de Innovaciones puede
usarse como mtodo de estimacin preliminar, pero en este caso, para modelos MA(q) y
ARMA(p,q).
La idea de aplicar este mtodo radica en que las ecuaciones del Algoritmo de
Innovaciones, tanto de las
k n n ,
, como de las
n
, se plantean con las autocovarianzas

muestrales, quedando como incgnitas las
k n n ,
.
Para aplicar el mtodo es necesario tener un valor inicial de q. A continuacin se
enuncian algunas formas de obtener un valor preliminar de q:
1. Sabemos que para un proceso MA(q), las autocorrelaciones
) (m
son cero para
m > q. Por otro lado, sabemos de la frmula de Barttlet (Resultado IV.2) que
) ( m
se distribuye asintticamente Normal, ) / ) ( ) 1 ( 2 1 ( , 0 (
2 2
n q N + + + .
As, podemos usar la grfica de
) ( m
para obtener una estimacin preliminar del
orden q como el valor ms pequeo de m, tal que
) ( m
sea cero para m > q.
2. Se puede mostrar que si {X
t
} sigue un proceso MA(q) invertible
t t
Z B X ) (

donde ) IID(0, } {Z
2
t
con las condiciones 1 , ) (
0
4
<
t
Z E y
0
j
para j >
q, entonces los estimadores de Innovaciones tienen la propiedad: Si
n
, m(n)
una sucesin de enteros tal que
) (n m
, pero 0 / ) (
3
n n m , entonces para
cada entero positivo k, se tiene que:
) , 0 ( )
,...,
(
2 2 1 1
A NMV n
k mk m m

donde la matriz de covarianzas A tiene como componente (i,j) al elemento:
) , min(
1
j i
r
r j r i ij
a
Este resultado nos permite construir intervalos de confianza para los coeficientes y
decidir cuales de ellos son estadsticamente diferentes de cero y as decidir el
orden q.
3. Al igual que para los procesos AR(p), una aproximacin ms sistemtica para
seleccionar el orden de los modelos MA(q) es encontrar el valor de q y
)'
,...,
2 1 mq m m
q

que minimice el valor AICC, dado por:
) 2 /( ) 1 ( 2 ) / ) ( , ( ln 2 + + q n n q n S L AICC
q q

De esta forma, el modelo MA(m) ajustado por Innovaciones es:
m t mm t m t t
Z Z Z X

+ + +
...
1 1
con
) ( } {
m t
WN Z
Asintticamente (muestras grandes), un intervalo de confianza para
mj
al 95%
de confianza se puede obtener como sigue:
2 / 1
1
0
2 2 / 1
96 . 1
,
_
j
i
mi mj
n
Hasta ahora, en el desarrollo del Algoritmo de Innovaciones hemos supuesto que
p=0 y q>0. Pero el Algoritmo se puede llevar a casos ms generales, es decir, cuando p>0
y q>0.
Recordemos que la causalidad de un proceso ARMA(p,q) garantiza la expresin:
0 j
j t j t
Z X
donde los coeficientes
} {
j
se encuentran de las ecuaciones:

p
k
k j k j j
1
j=0,1,
Con
1
0

y
0
j
para j > q.
Para estimar la secuencia
} {
j
, j=1,2,,p+q, se pueden usar los estimadores del

A.I
q p m m m + , 2 1
,...,

, ya que el modelo se supone causal. As, sustituyendo las
mj
por
los
j
, obtenemos el sistema de ecuaciones:

q m p p q m p q m
p q m p q m q m
p q m p q m q mq
m m
m
, 1 , 1 ,
1 , , 1 1 ,
, 1 , 1
1 1 2 2
1 1

+ +
+ +
+ + +
+
+ +
+ +

Empezamos por resolver las ltimas p ecuaciones para encontrar

)'
,...,
2 1 p

. Es decir, resolvemos:
1
1
1
1
1
]
1
1
1
1
1
1
]
1
1
1
1
1
1
]
1
+ +
+ +
+
+
+
+
p q m p q m p q m
p q m q m q m
p q m q m q m
p q m
q m
q m
2
1
, 2 , 1 ,
2 , , 1 ,
1 , 1 , ,
,
2 ,
1 ,

Una vez que tenemos

)'
,...,
2 1 p

, podemos determinar la estimacin de
)' ,..., ,. (
2 1 q

mediante:

) , min(
1
,

p j
k
k j m k mj j
j=1,2,,q
El estimador de la varianza del proceso de Ruido Blanco est dado por:

n
t
t t
t
X X
nr
1
2
1
2
)
(
1

donde
t
X
es el valor de la prediccin a un paso usando los coeficientes encontrados

anteriormente y
2
1 1
)
(
+ +

n n n
W W E r como en la seccin IV.5.
Ejemplo V.1.3. Consideremos los datos del nivel del Lago Hurn (ver ejemplo anterior).
Solucin.
El paquete S-PLUS no trae la opcin de estimacin preliminar por Innovaciones,
por lo que usaremos ITSM-2000.
En el ejemplo V.1.2 ajustamos un modelo AR(2) a los datos corregidos por la
media usando el Algoritmo de Burg. Si ahora queremos ajustar un modelo ARMA(1,1)
usando el Algoritmo de Innovaciones, en ITSM tenemos que seguir los pasos: 1) Dar clic
en el botn superior de estimacin preliminar y seleccionar yes para corregir los datos
por la media; 2) Especificar 1 en el orden de AR y 1 en MA y estimacin por algoritmo
de Innovaciones; y 3) Clic en OK para obtener el modelo estimado:
ARMA Model:
X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)
WN Variance = .475680
AICC = .212894E+03
para los datos corregidos por la media,
0041 . 9
t t
Y X
.
Es interesante notar que el valor de AICC ajustando el modelo ARMA(1,1) es
212.89, el cual es ms pequeo al correspondiente valor de AICC (213.57) ajustando un
modelo AR(2) por cualquier mtodo. Esto sugiere que el modelo ARMA(1,1) es mejor
que el AR(2). Sin embargo, se deben llevar a cabo pruebas de bondad de ajuste de los
modelos para poder elegir a uno de ellos.
V.1.4. Algoritmo de Hannan-Rissanen
Recordemos que la secuencia de errores {Z
t
} es no-observable; no obstante,
podemos usar los residuales como una estimacin de ella.
El Algoritmo de Hannan-Rissanen consiste en realizar la regresin por mnimos
cuadrados de la serie {X
t
} sobre los residuales
q t t
Z Z

,...,
1
resultantes del ajuste de un
modelo autorregresivo. En seguida se describe el procedimiento.
1. Estimar un modelo AR(m) con m grande usando el Algoritmo de Yule-Walker de la
seccin V.1.1. Sea )'
,...,
1 mm m
el vector de coeficientes estimados. Entonces
calculamos los residuales como la diferencia entre el valor de la observacin y la
estimacin:
m t mm t m t t
X X X Z

1 1
, t=m+1,,n
2. Ahora, podemos llevar a cabo la regresin de X
t
sobre
q t t p t t
Z Z X X

,...,
, ,...,
1 1
y
encontrar el vector de parmetros
)'
,...,
,...,
(
1 1 q p

minimizando con respecto a
la cantidad (mnimos cuadrados):
( )
+ +

n
q m t
q t q t p t p t t
Z Z X X X S
1
1 1 1 1

) (
As, obtenemos el estimador de Hannan-Rissanen como:
n
X Z Z Z
' 1 '
) (

donde
)' ,..., (
1 n q m
n
X X X
+ +
es un vector de orden n-m-q y la matriz Z es de orden (n-m-

q) x (p+q) dados por:
1
1
1
1
1
]
1

+ + + + + + + +
+ + + + + + +
+ +
q n n n p n n n
m q m q m p q m q m q m
m q m q m p q m q m q m
n q m n
Z Z Z X X X
Z Z Z X X X
Z Z Z X X X
Z
X X X

) ,...., (
2 1 2 1
2 1 2 1
1 1 1 1
'
1

Claramente, si el modelo AR ajustado en el paso1 es de orden 0, la matriz Z slo
contendr las ltimas q columnas.
El estimador de la varianza del Ruido Blanco por este mtodo est dado por:
q m n
S
HR

donde
) ( S
est definida como la suma de errores de estimacin al cuadrado.
La estimacin preliminar en ITSM por el Algoritmo de Hannan-Rissanen consiste
en seleccionar Model>Estimation> Preliminary y seleccionar la opcin Hannan-
Rissanen del cuadro de dilogo. El programa restringe valores de q entre 0 y 27.
El algoritmo de Hannan-Rissanen incluye un tercer paso, que consiste en llevar a
cabo una regresin ms.
Definamos las variables:
'
>
(p,q) t Z X X
(p,q) t
Z
q
j
j t j
p
j
j t j t
t
max si ,
~

max si , 0
~
1 1

y para t=1,,n,
'
> +
(p,q) t Z V
(p,q) t
V
t
p
j
j t j
t
max si ,
~
max si , 0
1
'
> +
(p,q) t Z W
(p,q) t
W
j t
q
j
t j
t
max si ,
~
max si , 0
1
Minimizando la cantidad:

+ +
+
,
_

n
q p t
q
k
k t p k
p
j
j t j t
W V Z S
1 ) max(
2
1 1
* ~
) (
encontraremos el vector
*
. Entonces el estimador mejorado de
, dado por
*
~
+
, tiene la misma eficiencia (asinttica) que el estimador de mxima verosimilitud, que se
muestra enseguida.
V.2. ESTIMACIN POR MXIMA VEROSIMILITUD
Suponga un proceso {X
t
} estacionario ARMA(p,q) y deseamos estimar los
parmetros
,
y
2
(p y q conocidos).
Para aplicar el mtodo de mxima verosimilitud debemos suponer una
distribucin del proceso, digamos una distribucin Normal con media cero y funcin de
autocovarianzas
) (h
. Si disponemos de n observaciones de esta distribucin, podemos
plantear la funcin de distribucin conjunta de
)' ,..., (
1 n
n
X X X
como sigue:
}
2
1
exp{ ) 2 ( ) (
1 '
2 / 1
2 /
n n n n
n
n
X X L

donde
n
es la matriz de covarianzas, ) (
'
n n n
X X E .
Note que dada la estructura de
n
, diferenciar la funcin de verosimilitud es muy

complicado y por tanto difcil de optimizar. En estos casos, se aplican mtodos numricos
con estimadores iniciales dados en la estimacin preliminar.
Podemos transformar la distribucin conjunta usando las innovaciones
j j
X X
y
sus respectivas varianzas
1 j
calculadas recursivamente por el algoritmo de

Innovaciones.
Recordemos que por el algoritmo de innovaciones, se tiene la igualdad:
)
(
n
n n n
X X C X
Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto
la matriz de covarianzas de las innovaciones es la matriz diagonal D
n
siguiente:
} ,..., , {
1 1 0
n n
diag D
Por la igualdad anterior y la matriz D, se tiene que:
'
n n n n
C D C
Usando las igualdades anteriores, podemos ver que la forma cuadrtica
n n n
X X
1 '

est dada por:

n
j
j j j
n n
n
n n
n n
n
X X X X D X X X X
1
1
2 1 1 '
/ )
( )
( )'
(
Recordemos, tambin, que C
n
es una matriz triangular con elementos en la
diagonal igual a uno, por lo tanto su determinante es uno. De donde:
1 1 0
2
'
...

n n n n n n n n
D D C C D C
Sustituyendo, la funcin de distribucin conjunta inicial se reduce a:
} / )
(
2
1
exp{
... ) 2 (
1
) (
1
1
2
1 1 0

n
j
j j j
n
n
n
X X L

Si
n
puede ser expresada en trminos de un nmero finito de parmetros

desconocidos, como es el caso de un proceso ARMA(p,q), entonces los estimadores de
Mxima Verosimilitud de los parmetros son los valores que maximizan la funcin L
para el conjunto de datos dado.
La verosimilitud para los datos de un proceso ARMA(p,q) puede ser calculada
recursivamente por el algoritmo de innovaciones.
As, el predictor de X
n+1
, como su error cuadrado medio estn dados por:
n n n j n j n
n
j
j n j n nj p n p n
n
j
j n j n nj
n
r W W E X X E
y
m n X X X X
m n X X
X
2 2
1 1
2 2
1 1
1
1 1 1 1
1
1 1
1
)
( )
(
, )
( ....
1 , )
'
+ + +

+ + + +
+ + +
+ +
+
donde
nj
y r
n
son determinados por el algoritmo de innovaciones y m=max(p,q). De esta
forma, la funcin de verosimilitud para el proceso ARMA(p,q) es:
}
)
(
2
1
exp{
... ) 2 (
1
) , , (
1 1
2
2
1 1 0
2
2

n
j j
j j
n
n
r
X X
r r r
L

Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido
blanco y teniendo que
j
X
y r
j
son independientes de
2
, encontramos los estimadores de
mxima verosimilitud.
n
j
j
n
j
j j j
r n S n l
y
r X X S
n
S
1
1
1 1
1
1
2
2
) ln( )) , ( ln( ) , (
minimizan que valores los son
/ )
( )
(
donde
)
El criterio de seleccin del orden del modelo es la minimizacin del AICC. Este
criterio consiste en escoger p, q,
p
y q
que minimicen la cantidad:
) 2 /( ) 1 ( 2 ) / ) , ( , , ln( 2 + + + q p n n q p n S AICC
q
p
q
p

Una de las opciones del programa ITSM es un autoajuste del modelo. Esto se
lleva a cabo seleccionando Model>Estimation>Autofit. La seleccin de esta opcin nos
permite especificar un rango de los valores de p y de q (el rango mximo es de 0 a 27 para
ambos, p y q). El modelo elegido es el que tenga mnimo AICC y una vez que el modelo
ha sido determinado, debe ser estimado por mxima verosimilitud. Ms adelante se
ejemplificar la teora. En S-PLUS la funcin de estimacin por mxima Verosimilitud
es: arima.mle(x, model, n.cond=<< >>, xreg=NULL, ...)
Para hacer inferencia sobre los parmetros se usan resultados asintticos, es decir,
se suponen muestras grandes. En este caso, consideremos el vector de parmetros
)'
, entonces para una muestra grande:

)) ( , (
1
V n N

donde ) ( V es la matriz Hessiana definida por:

q p
j i
j i
l
V
+
1
1
]
1
1 ,
2
) (
) (

Si se quiere probar la hiptesis H

0
: parmetro=0, la prueba se lleva a cabo
calculando el cociente:
) ( * 96 . 1 parmetro EE
parmetro
La regla de decisin es rechazar H
0
si el cociente anterior se encuentra fuera del
intervalo [-1,1].
Ejemplo V.2.1. Consideremos los datos del nivel del Lago Hurn (ver ejemplo V.1.2) y
ajustemos un modelo por mxima verosimilitud.
Solucin.
Recordemos que en la estimacin preliminar se encontr que el mejor modelo
ajustado (mnimo AICC) a los datos corregidos por la media fue el modelo ARMA(1,1):
X(t) = Y(t) - 9.0041
Method: Innovations
ARMA Model:
X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)
WN Variance = .475680
AICC = .212894E+03
El siguiente paso es ajustar el modelo por mxima verosimilitud usando como
estimacin preliminar el modelo ARMA(1,1). Usando la funcin arima.mle de S-PLUS
obtenemos:
Coefficients:
AR : 0.75544 MA : -0.30721
Variance-Covariance Matrix:
ar(1) ma(1)
ar(1) 0.005949613 0.004373168
ma(1) 0.004373168 0.012550728
Optimizer has converged
Convergence Type: relative function convergence
AIC: 207.81105

Los resultados anteriores se obtienen escribiendo las instrucciones:
Lake.corr<-Lake-mean(t(Lake))
mod<-list(ar=-0.7234,ma=0.3596)
arima.mle(Lake.corr, model=mod)
donde Lake es el nombre del Dataset con la serie del Lago Hurn.
En los resultados tambin se obtienen las varianzas de los parmetros, con lo cual
podemos establecer los siguientes intervalos de confianza al 95% como sigue:
) 0876 . 0 , 5268 . 0 ( 01255 . 0 * 96 . 1 3072 . 0 :
) 9066 . 0 , 6042 . 0 ( 0059 . 0 * 96 . 1 7554 . 0 :
t
t
V.3. PRUEBAS DE BONDAD DE AJUSTE

El paso final en el proceso de ajuste de modelos de series de tiempo es verificar
qu tan bueno es el modelo. Esto se consigue mediante las pruebas de bondad de ajuste.
Tales pruebas consisten en verificar que los supuestos de los residuales se cumplan, es
decir, que forman un proceso de Ruido Blanco.
Enseguida se mencionarn algunas de las pruebas que se utilizan para probar los
supuestos iniciales (de los residuales). Cabe mencionar que no son las nicas, algunas
otras se pueden consultar en [Brockwell y Davis (2002) pp. 35-38].
V.3.1. La funcin de autocorrelacin de residuales
Si {Z
t
} forma un proceso de Ruido Blanco, entonces las autocorrelaciones de las
innovaciones (errores) deben ser estadsticamente iguales con cero. Es decir, con el 95%
de confianza, se debe cumplir:
1,2,3,.... ) / 96 . 1 , / 96 . 1 ( ) ( h n n h
t
Z
Si calculamos las correlaciones muestrales para ms de 40 observaciones y

encontramos que ms de dos valores caen fuera del intervalo de confianza, entonces
rechazaremos la hiptesis de que los errores son independientes. Las bandas
n / 96 . 1 t son graficadas automticamente cuando se grafica la funcin de
autocorrelacin en el programa ITSM.
En la siguiente grfica se muestran las funciones de autocorrelacin y
autocorrelacin parcial de los residuales despus de haber ajustado un modelo
ARMA(1,1) a los datos del Lago Hurn. Podemos ver que ningn valor cae fuera de las
bandas de confianza, por lo que podemos concluir que los residuales, en efecto, son
independientes.
La grfica se logra de la siguiente forma: En el Dataset Lake, seguimos Data>
Transform y en el cuadro Expression escribimos Lake-mean(t(Lake)). Esto crear una
nueva columna de datos corregidos por la media. Enseguida, ajustamos el modelo
ARMA(1,1) siguiendo Statistics> Time Series> ARIMA Models y especificamos 1 en
Autorregresive (p) y 1 en Moving Avg. (q). Finalmente, en la pestaa Diagnostics
marcamos Autocorrelation of Residuals y Plot Diagnostics.
Grfica24. ACF y PACF de los residuales despus de ajustar un modelo
ARMA(1,1) a la serie nivel del lago Hurn.
ACFPlot of Residuals
A
C
F
0 5 10 15 20
-
1
.
0
-
0
.
5
0
.
0
0
.
5
1
.
0
PACFPlot of Residuals
P
A
C
F
5 10 15 20
-
0
.
2
-
0
.
1
0
.
0
0
.
1
0
.
2
ARIMAModel Diagnostics: Lake$V1
ARIMA(1,0,1) Model withMean0
V.3.2. Prueba de puntos cambiantes (turning points)
Esta prueba consiste en determinar si los residuales forman un patrn aleatorio.
Supongamos que tenemos una muestra aleatoria
n
y y ,...,
1
. Se dice que la i-sima
observacin es un punto cambiante si:
1 1 1 1
y o y
+ +
< > > <
i i i i i i i i
y y y y y y y y
Si definimos a T como el nmero de puntos cambiantes en una sucesin de
variables aleatorias iid de tamao n, entonces, dado que la probabilidad de que haya un
punto cambiante en el tiempo i es 2/3, el valor esperado de T es:
3 / ) 2 ( 2 ) ( n T E
T
Tambin, la varianza de T es:

90 / ) 29 16 ( ) (
2
n T Var
T
Por otro lado, para una muestra iid grande, puede mostrarse que:
) 1 , 0 ( N
T
T
T
T
p

Con esto, podemos llevar a cabo la prueba de hiptesis de que los residuales son
aleatorios, usando el criterio de decisin:
Rechazar H
0
: La muestra es aleatoria, al nivel de significancia si
2 / 1
> Z T
p
,
donde
2 / 1
Z
es el cuantil 1- /2 de la distribucin Normal estndar.
V.3.3. Prueba de signo (difference-sign)
En esta prueba se cuenta el nmero de observaciones i tales que
n i y y
i i
1,..., ,
1
>

. Definimos a S como el total de tales observaciones. Entonces, bajo
el supuesto de muestra aleatoria, se tiene que:
12 / ) 1 ( ) (
2 / ) 1 ( ) (
2
+

n S Var
y
n S E
S
S
De la misma forma que para T, para un valor grande de n, se tiene que:

) 1 , 0 ( N
S
S
S
S
p

Un valor grande, en valor absoluto, de

S
S
indicara la presencia de un
incremento (o decremento) en la tendencia de los datos. De aqu que, rechazaremos la
hiptesis de tendencia en los datos al nivel de significancia si
2 / 1
> Z S
p
, donde
2 / 1
Z
es el cuantil 1- /2 de la distribucin Normal estndar.
Las tres pruebas mencionadas, entre otras, son calculadas por el programa ITSM
usando la opcin Statistics>Residual Analysis>Test of Randomness. S-PLUS slo
ofrece la estadstica de Ljung-Box que se distribuye como Ji-Cuadrada. Para obtenerla,
en el cuadro de dilogo que aparece despus de Statistics> Time Series> ARIMA
Models, en la pestaa Diagnostics marcamos la opcin Portmanteau Statistics.
Es claro que, si no se ha ajustado algn modelo a los datos, los residuales son los
mismos que las observaciones. Esto significa que podemos llevar a cabo las pruebas para
las observaciones (cuando no se ha ajustado algn modelo), como para los residuales.
Ejemplo V.3.1. Consideremos los datos del archivo SIGNAL.TXT. Veremos las opciones
que ofrecen ambos programas, ITSM-2000 y S-PLUS, para llevara cabo las pruebas de
bondad de ajuste.
Grfica25. Valores simulados de la serie X(t)=cos(t) +N(t), t=0.1,0.2,,20,
donde N(t) es WN(0,0.25).
30 80 130 180
-3
-2
-1
0
1
2
3
s
i
g
n
a
l
En primer lugar, veremos la grfica de la funcin de autocorrelacin.
Grfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,,20, donde N(t) es
WN(0,0.25).
Lag
A
C
F
0 5 10 15 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Series: signal$signal
Las grficas 25 y 26 son resultado de las instrucciones:
guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="signal")
acf(x = signal$signal, type = "correlation")
donde signal es el Dataset con los datos de la serie simulada.
Note que algunas observaciones (ms de dos) salen de las bandas de confianza,
por tanto rechazaremos la hiptesis de que la serie es independiente. La estimacin
preliminar de Yule-Walker sugiere ajustar un modelo AR(7) a los datos corregidos por la
media. Ajustando este modelo, podemos verificar si los residuales cumplen con las
pruebas de bondad de ajuste.
En ITSM se obtienen mediante Statistics>Residual Analysis> Test of
Randomness. Los resultados son:
============================================
ITSM::(Tests of randomness on residuals)
============================================
Ljung - Box statistic = 16.780 Chi-Square ( 20 ), p-value = .66719
McLeod - Li statistic = 25.745 Chi-Square ( 27 ), p-value = .53278
# Turning points = .13600E+03~AN(.13200E+03,sd = 5.9358), p-value = .50039
# Diff sign points = .10300E+03~AN(99.500,sd = 4.0927), p-value = .39245
Rank test statistic = .10083E+05~AN(.99500E+04,sd = .47315E+03), p-value = .77864
Jarque-Bera test statistic (for normality) = 3.8175 Chi-Square (2), p-value = .14826
Order of Min AICC YW Model for Residuals = 0
El programa ITSM nos da el p-value. La regla es rechazar la hiptesis nula al
nivel de significancia si > p-value. Si establecemos un nivel de significancia del 5%,
podemos ver que, utilizando cualquier estadstica, no se rechaza la hiptesis nula de que
los residuales forman una serie iid.
En S-PLUS seleccionamos la opcin Statistics> Time Series> ARIMA Models,
especificamos 7 en Autorregresive (p), y marcamos las opcin Portmanteau Statistics y
Plot Diagnostics en la pestaa Diagnostics. Obteniendo:
P-valuesof Ljung-BoxChi-SquaredStatistics
Lag
p
-
v
a
lu
e
8.0 8.5 9.0 9.5 10.0
0
.
0
0
.
2
0
.
4
0
.
6
ARIMAModel Diagnostics: signal$V2
ARIMA(7,0,0) Model withMean0
En conclusin, el modelo propuesto para los datos corregidos por la media, AR(7),
resulta bueno, pues los residuales cumplen satisfactoriamente con las pruebas de
bondad de ajuste.

Capitulos IV y V

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Capitulos IV y V

Uploaded by

Copyright:

Available Formats

CAPITULO IV.

, dado que es una medida de tendencia central, la media

. Lo que debe esperarse respecto a la

La solucin estar dada por

con matriz de covarianzas

Con error cuadrado medio:

Recordemos que el sistema por resolver es:

, definido como en el algoritmo de D-L

Sabiendo que para n=k se cumple

La igualdad anterior significa que

es el ltimo componente del vector

NOTA2: Se puede mostrar que

mide la correlacin entre los errores de prediccin

para k>1 en la ecuacin

As mismo, se introduce el concepto de Innovacin, o prediccin en un paso,

Tal expresin nos da una representacin del mejor predictor lineal de X

). Apliquemos el A.I para encontrar el mejor predictor de X

Aplicando el A.I al proceso

Donde los coeficientes

y los errores cuadrados medios

No olvidemos que nuestro objetivo es encontrar una expresin para calcular

Sustituyendo, tenemos que:

y los errores cuadrados medios

En la prctica, generalmente, se tiene n>m; por lo que generalmente se usa la

es no singular para m=1,2,. De esta

podemos usar el hecho de que:

El proceso de estimacin continua de la misma forma hasta obtener el estimador

y los correspondientes valores mnimos de

La distribucin de los coeficientes estimados por el Algoritmo de Burg, para

, se plantean con las autocovarianzas

se encuentran de las ecuaciones:

, j=1,2,,p+q, se pueden usar los estimadores del

, obtenemos el sistema de ecuaciones:

Empezamos por resolver las ltimas p ecuaciones para encontrar

Una vez que tenemos

es el valor de la prediccin a un paso usando los coeficientes encontrados

es un vector de orden n-m-q y la matriz Z es de orden (n-m-

, diferenciar la funcin de verosimilitud es muy

calculadas recursivamente por el algoritmo de

puede ser expresada en trminos de un nmero finito de parmetros

, entonces para una muestra grande:

donde ) ( V es la matriz Hessiana definida por:

Si se quiere probar la hiptesis H

V.3. PRUEBAS DE BONDAD DE AJUSTE

Si calculamos las correlaciones muestrales para ms de 40 observaciones y

Tambin, la varianza de T es:

De la misma forma que para T, para un valor grande de n, se tiene que:

Un valor grande, en valor absoluto, de

You might also like