You are on page 1of 33

ESPECIALIZACIN EN ESTADSTICA

NOTAS DEL CURSO


SERIES DE TIEMPO

1. Anlisis de series de tiempo. Conceptos Bsicos.


Objetivo Particular: Al trmino de la unidad el alumno conocer los principales objetivo
s al analizar una serie de tiempo e identificar los
componentes de una serie de tiempo.
1.1
1.2
1.3
1.4
1.5

Introduccin.
Definicin.
Ejemplos de series de tiempo.
Objetivos.
Componentes de una serie de tiempo.
1.5.1 Tendencia.
1.5.2 Ciclo.
1.5.3 Variacin estacional.
1.5.4 Fluctuaciones irregulares.

2. Mtodos descriptivos de anlisis.


Objetivo Particular: Al trmino de la unidad el alumno ser capaz de trazar grficas de
tiempo, suavizar, eliminar tendencias y estacionalidad.
2.1
2.2
2.3
2.4
2.5
2.6
2.7

Grfica de tiempo.
Suavizamiento (promedios mviles y suavizamiento exponencial).
Diferenciacin.
Prediccin con promedios mviles y suavizamiento exponencial.
Funcin de autocovarianza y autocorrelacin.
Correlograma.
Variograma.

1. ANLISIS DE SERIES DE TIEMPO. CONCEPTOS BSICOS


1.1 INTRODUCCIN
En la prctica, la gran mayora de los fenmenos que se estudian poseen algn
elemento de incertidumbre, debido a que para que a su vez dichos fenmenos ocurren bajo
la presencia de una gran cantidad de factores no controlables. La Estadstica es la ciencia
que se encarga del estudio de tales fenmenos. Para abordar el estudio de los mtodos
estadsticos, es comn que primeramente se estudien los elementos de la Estadstica
Descriptiva, en la que se presentan elementos bsicos de la estadstica, tales como el
concepto de poblacin, muestra, variable aleatoria, medidas de tendencia central, medidas
de dispersin, as como los elementos para realizar un anlisis grfico.
Con ese curso se obtienen las bases para cursar elementos de Inferencia Estadstica,
en la que se obtienen las bases para realizar pruebas de hiptesis, construir intervalos de
confianza y verificacin de supuestos, entre otras cosas. En esos cursos un supuesto que
deben satisfacer los datos es que cada uno de los objetos bajo estudio sea independiente de
los dems objetos. En otras palabras, el supuesto de independencia implica que si se conoce
el valor de inters para un objeto particular, eso no proporciona informacin del valor
correspondiente a otro sujeto.
Aunque el estudio de las tcnicas bsicas para realizar inferencia estadstica con
datos independientes permite abordar una gran diversidad de problemas que surgen
comnmente en la prctica, existen fenmenos para los que el supuesto de independencia
no es sustentable. Por ejemplo, cuando el fenmeno a estudiar corresponde a variables que
se miden en intervalos regulares de tiempo tales que la medicin observada en el tiempo t,
depende de manera natural de lo observado en el tiempo anterior, es decir, en el tiempo t-1.
Ms an, el conocimiento del valor de inters en el tiempo t proporciona un punto de
partida para el valor que se observar en el siguiente intervalo de medicin, es decir, el
tiempo t+1.
En este curso se aborda la manera de describir y hacer inferencia estadstica con
variables cuyas observaciones, es decir los valores observados de la variable de inters,
poseen algn grado de asociacin con las observaciones de tiempos anteriores, y por lo
tanto, pueden usarte tambin para proporcionar una medida para observaciones en el futuro.
Este tipo de variables se conocen como series de tiempo.
Como todo anlisis estadstico, el primer paso es realizar un anlisis descriptivo de
la variable de inters. A manera de repaso en los siguientes prrafos se presentan conceptos
que sern tiles a lo largo del presente curso.
Estadstica descriptiva
La estadstica es una rama de las matemticas que se encarga de la recoleccin,
descripcin, anlisis e interpretacin de datos con el fin de llegar a conclusiones que

puedan sustentarse con un nivel de confianza. En seguida se presentan algunos conceptos


bsicos involucrados con la estadstica.
Poblacin: Se concibe como la coleccin o conjunto de individuos, objetos o eventos que
se van a analizar. Por ejemplo, si se desea estudiar la edad de los Yucatecos, la poblacin
sera el conjunto de todos los yucatecos. Aunque lo deseable sera poder estudiar a todos los
elementos de la poblacin, en la prctica pocas veces resulta eso posible. Esto se debe a
que, muchas veces, no es posible estudiar a todos los elementos por no disponerse de los
recursos necesarios. Por otro lado, puede ocurrir que no se tenga la lista de todos los
elementos de la poblacin. Por tal razn, en la mayora de los estudios no es posible
estudiar a toda la poblacin, por lo que se procede a estudiar a una parte de la poblacin,
denominada muestra.
Muestra: Una muestra se concibe como un subconjunto de la poblacin. Para que una
muestra sea til para describir el comportamiento de la poblacin debe contener los rasgos
de la poblacin. Si esto ocurre la muestra se define como muestra representativa. Para
obtener una muestra representativa se deben considerar diversos elementos, lo cual es
estudiado por la rama de la Estadstica que se conoce como Muestreo.
Muestra probabilstica: Cuando los elementos de la muestra que se seleccionan se obtienen
con base en herramientas de probabilidad, se dice que la muestra es probabilstica. Cada
elemento de la poblacin tiene cierta probabilidad de ser elegido como parte de la muestra.
El mtodo de muestreo ms utilizado es el muestreo aleatorio simple, en el que los N
elementos de la poblacin tienen la misma probabilidad de ser seleccionados en la muestra.
Variable: De manera intuitiva, una variable se define como una caracterstica de la
poblacin que se desea estudiar. Por ejemplo, en caso de estudiar el comportamiento del
peso frente al dlar a travs del tipo de cambio, la variable es precisamente el tipo de
cambio. De manera particular, una variable aleatoria se define como una variable que
asume un valor nico para cada elemento del espacio muestra.
Tipos de variables: Cualquier variable puede clasificarse en uno de dos tipos posibles: las
cualitativas (o de atributos) y las cuantitativas. Las variables cualitativas se clasifican en
nominales u ordinales, en tanto que las cuantitativas pueden clasificarse en discretas o
continuas. En seguida se definen cada uno de esos tipos.
Una variable cualitativa es aquella que puede asumir valores que representan etiquetas. Es
importante notar que por la naturaleza de esas variables, no tendra sentido realizar
operaciones numricas con los valores, o mejor dicho, etiquetas, que puede asumir. As,
aunque los elementos se etiqueten con valores numricos, no tendr sentido calcular la
media de estos. Las variables cualitativas se clasifican en variables nominales y ordinales.
a) variable nominal. Es aquella cuyos valores representan categoras. No es posible darles
algn orden a las categoras y son mutuamente excluyentes. Por ejemplo: religin, partido
poltico, colores, etc.

b) variable ordinal. Es aquella cuyos valores poseen un orden. Por ejemplo el grado de
satisfaccin puede asumir los siguientes valores: muy satisfecho, satisfecho, insatisfecho. O
bien.
Una variable cuantitativa es aqulla cuyos valores representan cantidades numricas de
alguna caracterstica de inters de la poblacin. Ejemplos de este tipo de variables son el
peso, la altura, salario mensual, tipo de cambio, etc. Para este tipo de variables si es posible
realizar operaciones aritmticas, por lo que el promedio si se puede calcular e interpretar.
Este tipo de variables pueden clasificarse como discretas o continuas.
a) Variable discreta. Es aquella que puede asumir un nmero contable de valores. Para una
variable medida en esta escala, entre dos valores consecutivos cualesquiera no existe otro
valor posible de la variable bajo estudio. Generalmente los conteos son variables discretas,
como el nmero de glbulos blancos en una gota de sangre, o el nmero de personas
inscritos al curso de estadstica.
b) Variable continua. Es aquella puede asumir una cantidad no contable de valores en su
rango de medicin. Entre cualesquiera dos valores consecutivos puede existir un valor que
es posible en la prctica.
Parmetro. Un parmetro es alguna cantidad de inters que se refiere a todos los elementos
de la poblacin. Por ejemplo, el salario promedio de los profesores de preparatoria, el
nmero total de veces que la lluvia sobrepasa un umbral, la proporcin de personas que
estn a favor de cierto partido poltico, el nmero total de usuarios de la internet en Mrida,
el tiempo promedio de interrupcin del servicio de luz por usuario, por citar algunos
ejemplos. En cada uno de los ejemplos anteriores se desea conocer una medida que resume
la variable de inters. La medida que resume todos los datos de una poblacin completa
recibe el nombre de parmetro.
Estadstico. Por su parte, el valor numrico que resume los datos de una muestra recibe el
nombre de estadstico. Por ejemplo si se toma una muestra de algunos individuos que
recibieron la dieta y se obtiene el peso promedio de este subconjunto, el valor promedio es
uno de los estadsticos de resumen de la muestra.

Medidas de tendencia central


Media aritmtica
La media se define como el promedio de todas las mediciones de la muestra. Si se cuenta
con Sea n datos, los cuales se denotan por x1 , x2 , xn , entonces la media aritmtica, la cual
se denota por el smbolo X se calcula por medio de la siguiente frmula:
n

x
i 1

x1 x2 ... xn
.
n

Mediana
Consideremos nuevamente una coleccin de n datos, es decir, x1 , x2 , xn . Suponga adems
que esos datos se encuentran ordenados de menor a mayor. Si n es impar, la mediana se
define como el valor central de esa lista. Si por el contrario n es par, la mediana se define
como el promedio de los dos datos centrales.
Moda
La moda de un conjunto de datos se define como el dato que tiene la mxima frecuencia.
En un conjunto de datos puede existir ms de una moda, y ms an, la moda puede no
existir.
Medidas de tendencia no central
Estas medidas se utilizan para describir la posicin que tiene el valor de una
observacin en relacin con el resto de observaciones de la muestra. Las medidas de
posicin no central que se utilizan con mayor frecuencia son los denominado cuartiles y
percentiles.
Cuartiles: Los cuartiles son tres valores que dividen a los elementos de la muestra en
conjuntos que poseen el 25% del total de los datos. Para obtenerlos se consideran todos los
datos de la muestra ordenados en orden creciente. Seguidamente se procede a encontrar la
mediana, que corresponde al segundo cuartil. Una vez que se ha calculado la mediana, el
primer cuartil ser la mediana de los datos menores que la mediana. De la misma manera,
el tercer cuartil ser la mediana de los datos que son mayores que la mediana.
As, el primer cuartil, denotado generalmente con Q1, cumple que el 25% de las
observaciones es menor que Q1. El segundo cuartil, denotado por Q2, es el valor que
cumple que el 50% de las observaciones es menor que Q2. As, el segundo cuartil coincide
con el valor de la mediana. El tercer cuartil, denotado por Q3, es el valor que cumple que el
75% de las observaciones es menor que Q3. En el siguiente diagrama se ilustran los
cuartiles.

25%
Mnimo

25%
Q1

25%
Q2
Mediana

25%
Q3

Mximo

Diagrama de Caja y Bigotes: Una vez que se han definido las medidas anteriores es
posible presentar una grfica que es muy utilizada en la prctica, que es el denominado
Diagrama de Caja y Bigotes, el cual presenta de manera grfica cinco elementos
importantes de una muestra, que son: el valor mnimo, los tres cuartiles y el valor mximo.
Un ejemplo de este tipo de grfica se presenta en seguida:

Diagrama de Caja y Bigotes


Variable: tasa de inters
7.0
6.0
5.0
4.0
3.0
2.0

Con respecto al eje Y, donde se observan los valores de la variable tasa de inters, la
caja representa la mitad central de los datos, que se encuentran entre el primer y el tercer
cuartil. Por su parte, los extremos de los bigotes representan los valores mnimo y mximo
de los datos. El primer segmento (con respecto a su posicin en el eje Y) representa la
primera cuarta parte de los datos, es decir, los datos ms pequeos de la muestra. El
segundo segmento representa los datos ms grandes de la muestra. La lnea horizontal
representa la mediana de los datos, en tanto que el signo + indica la media. De la grfica
anterior se tiene que el primer cuartil es 4.0, la mediana 4.85, el tercer cuartil 5.15, el
mnimo es 3.0 y el mximo es 7.0. Adems la lnea que se encuentra en la caja representa la
mediana (que en el ejemplo es 4.8) y el punto rojo representa la media de los datos (que en
el ejemplo es 4.7).

Percentiles: Los percentiles son 99 valores que dividen a un conjunto de observaciones de


una muestra en 100 subconjuntos de datos que contienen el mismo porcentaje de
observaciones. El k-simo percentil, denotado por Pk, es un valor tal que el k% de las
observaciones es menor que Pk y por lo tanto el (100-k)% de las observaciones es mayor
que Pk. De acuerdo con esta definicin es claro que se tiene que el primer cuartil coincide
con el percentil del 25% (es decir, Q1=P25), el tercer cuartil coincide con el percentil del
75% (es decir, Q3=P75) y el segundo cuartil coincide con el percentil del 50%, que a su vez
coincide con la mediana.

Medidas de Dispersin
Considere los siguientes conjuntos de datos:
Datos A: 10, 8, 12, 10, 10.
Datos B: 10, 10, 25, 2, 3.
Al calcular las medidas de tendencia central resulta que todas son iguales a 10. Sin
embargo, al observar los datos es claro que stos conforman dos conjuntos cualitativamente
diferentes. Este ejemplo ilustra que el uso de las medidas de tendencia central no es
suficiente para describir el comportamiento de los datos. Al observar los datos es claro que
la diferencia entre ellos es la dispersin de los mismos. Las medidas de dispersin, tambin
conocidas como medidas de variabilidad, se utilizan precisamente para medir la dispersin
de los datos.
Para medir la dispersin de los datos existen varias cantidades: el rango (o
amplitud), la desviacin media, la varianza y la desviacin estndar.
Rango o amplitud: Esta medida se define como la diferencia que hay entre el valor
mximo y el valor mnimo de los datos. Es una medida fcil de calcular.
Desviacin media: Considere el conjunto de datos x1 , x2 , xn . Suponga que se calcula la
media, X , y que se considera la diferencia que existe entre cada dato y la media, es decir,
xi X . Es un hecho que si se considera la suma de esas cantidades, el resultado es igual a
cero. As, la suma de estas diferencias no es una buena medida de la dispersin de los datos.
En lugar de considerar solamente la diferencia, se considera el valor absoluto de cada
diferencia y se promedian los resultados. La Desviacin Media se define como sigue:
n

D.M .

x X
i 1

Varianza: La medida de variabilidad que se utiliza muy frecuentemente es la conocida


como varianza, la cual se define como el promedio de los cuadrados de la desviacin
media. La frmula es la siguiente:
n

S2

(x X )
i 1

n 1

la cual es denominada varianza muestral. La varianza se encuentra medida en unidades al


cuadrado, por lo que su interpretacin no es directa. Por ejemplo, si la variable de inters
est medida en pesos, la varianza se encuentra medida en pesos cuadrados. Es evidente que
esta unidad no posee interpretacin directa. En lugar de eso, se recurre a calcular la
desviacin estndar, que se define a continuacin.
Desviacin estndar: Para contar con una medida de dispersin que se encuentre en las
mismas unidades que los datos, se procede a calcular la raz cuadrada de la varianza. Con
esta operacin se elimina el cuadrado de las unidades As, la desviacin estndar se define
sencillamente como la raz cuadrada de la varianza:
n

(x
i 1

X )2

n 1

Para poblaciones que siguen una distribucin normal se satisface la siguiente regla
emprica:
a) El intervalo [ X S , X S ] contiene aproximadamente el 68% de las observaciones.
b) El intervalo [ X 2S , X 2S ] contiene aproximadamente el 95% de las observaciones.
c) El intervalo [ X 3S , X 3S ] contiene aproximadamente el 99% de las observaciones.
Por ejemplo, si se sabe que la edad promedio de los nios de primer ao de primaria es
X 6.2 y la desviacin estndar es de 0.22, entonces se tendr que el 68% de los nios en
primero de primaria tienen edad entre 5.98 y 6.42 aos.
Ejercicio: usando la media y desviacin estndar anteriores, cules son los
intervalos de confianza del 95 y 99% respectivamente, suponiendo que se tiene
distribucin normal?
Esta regla emprica proporciona intervalos de confianza empricos. Una
interpretacin que poseen dichos intervalos es la siguiente: si se obtuvieran muchas
muestras de tamao n y se calcula el intervalo sealado para cada muestra, por ejemplo, el
del incisos a), el 68% de los intervalos calculados contendran a la media verdadera de la
poblacin. Se obtiene una interpretacin anloga para los intervalos del inciso b) y c),
usando el 95% y 99% de confianza, respectivamente.

Correlacin. Todas las medidas antes descritas se utilizan para una sola variable. En
muchos estudios se desea medir el grado de asociacin que poseen dos variables. Cuando
las dos variables se encuentran medidas en una escala numrica, la medida de asociacin
ms conocida es la correlacin. Esta medida permite responder a preguntas como las
siguientes: Se puede afirmar que las dos variables tienden a incrementarse conjuntamente?
O bien, Se puede afirmar que las dos variables tienden a interactuar de manera inversa? Si
se responde afirmativamente a la primera pregunta, se estar ante la presencia de una
relacin directa o positiva. Por otro lado, si se responde de manera positiva a la segunda
pregunta, se estar ante la presencia de una relacin inversa o negativa.
En otras palabras, cuando el aumento de una de las variables tiende a ocurrir con el
aumento de la segunda variables, se dice que dichas variables se encuentran relacionadas
positivamente. Por el contrario, si el aumento de una de las variables tiende a ocurrir con la
disminucin de la segunda variable, se dice que dichas variables se encuentran relacionadas
negativamente.
La medida de asociacin ms usada en la prctica es la denominada correlacin.
Esta medida permite responder a la siguiente pregunta: Qu tanta relacin lineal existe
entre las dos variables consideradas? Para estimar la correlacin se utiliza el denominado
coeficiente de correlacin y para responderla se vale de una medida llamada coeficiente de
correlacin. Suponga que se tiene dos conjuntos de datos denotados por x1 , x2 , xn y
y1 , y2 , yn .

Este coeficiente se denota generalmente con r y se calcula a travs de la siguiente


frmula:

( x X )( y

i 1

( xi X ) 2
i 1

Y)

(y
i 1

Y ) 2

Esta medida tiene las siguientes propiedades


a) Es adimensional.
b) Se encuentra entre -1 y 1.
Interpretacin intuitiva. De la frmula se observa que si dos variables interactan en el
mismo sentido (el aumento de una de ellas va acompaada del aumento de la otra), un valor
mayor que el promedio de X ir acompaado de un valor mayor que el promedio de Y. En
este caso, las dos diferencias sern positivas y por lo tanto el producto tambin ser
positivo. De la misma manera, un valor menor del promedio para X ir acompaado de un
valor menor que el promedio de Y. En este caso, ambas diferencias sern negativas, por lo
que el producto ser positivo. As, en relaciones positivas, se obtendr un valor positivo de

r. No es difcil deducir que en caso de relaciones negativas se obtendrn sumandos


negativos, por lo que el resultado de r ser negativo.
Esta medida se utiliza para medir la fuerza de la relacin lineal que existe entre las
dos variables. Si el valor de r se encuentra muy cercano a los valores 1 1, entonces se
podr interpretar que la asociacin entre las dos variables es muy fuerte. Sin embargo, en
caso de que el calor de la correlacin arroje un valor cercano a cero, no se puede concluir
que no existe relacin entre las variables. Lo nico que se puede concluir es que no existe
relacin lineal entre las variables.
As, en caso de obtener un valor de r = -1, se podr interpretar que los datos se
encuentran alineados perfectamente sobre una recta con pendiente negativa, es decir,
cuando la variable x crece, la variable y decrece). De la misma manera, si se obtiene un
valor de r = 1, entonces puede interpretarse que los datos se encuentran perfectamente
alineados sobre una recta de pendiente positiva (cuando la variable x crece, la variable y
decrece). Con estas ideas en mente, es posible ahora afirmar que si se obtienen valores de la
correlacin r cercanos a 1 1, entonces se interpreta que los datos se encuentran muy
cerca de una lnea recta. Adems, es posible afirmar que correlaciones cercanas a 0 indican
que la relacin entre las variables consideradas no es lineal. Esto, como tambin ya se
coment, no implica que las variables no se encuentren relacionadas. En las Figuras A y B
se presentan ejemplos de variables que se encuentras relacionadas positiva y
negativamente, respectivamente, con diferentes fuerzas de asociacin. Por su parte, en la
Figura C se observa un conjunto de datos para el que la correlacin es igual a cero. En este
caso, la interpretacin que debe darse es que la relacin entre las variables no es lineal, pero
si poseen una relacin que en este caso es no lineal.
130
120
110
100
90
80
70
60
50
40
30
140

100
90
80
70
60
50

150

160

170

180

r=0,4

40

190

30
140

200

100

100

90

90

80

80

70

70

60

60

150

160

170

180

190

200

50

50
40
30
140

r=0,8

150

160

170

180

r=0,9

40

190

30
140

200

r=1
150

160

170

180

190

200

Figura A: Ejemplos de correlaciones positivas para diferentes grados de asociacin.

90
80

80

70
60
50
40
30
20
10

60

70
50
40
30
20

r=-0,5
140

150

160

170

180

190

200

0
140

80

80

70

70

60

60

50

50

40

40

30

30

0
140

150

160

170

180

190

200

160

170

180

190

200

20

20
10

r=-0,7

10

r=-0,95
150

10
160

170

180

190

200

r=-0,999

0
140

150

Figura B: Ejemplos de correlaciones negativas para diferentes grados de asociacin.

Figura C: Ejemplo en el que dos variables poseen correlacin igual a cero, pero si se
encuentran relacionadas.
Al interpretar el coeficiente de correlacin debe tenerse en mente que aunque este
coeficiente mide la fuerza de la relacin lineal entre variables, este no proporciona
informacin alguna acerca de la relacin causal entre las variables. Por ejemplo, si se
encuentra que la correlacin entre la altura de los padres y de los hijos es de 0.83, puede
interpretarse que la altura es hereditaria? O si por ejemplo resulta que el coeficiente de
correlacin entre las capacidades matemticas las habilidades verbales es de 0.1, puede
interpretarse que las personas con habilidades matemticas no poseen habilidades verbales?
En la gran mayora de las ocasiones no es fcil explicar una relacin observada entre
dos variables. Es un hecho que obtener una correlacin alta (cercana a 1 a -1) no implica
que dicha relacin es de tipo causa-efecto. Considere el siguiente ejemplo:

Un estudio demostr que existe una relacin negativa entre el salario inicial de las
personas con grado en Economa y el nivel del grado. Ms precisamente, se observ que
personas con maestra ganaban en promedio menos que aquellos con licenciatura, y los que
tienen doctorado, en promedio ganan menos que los que tienen grado de maestra. Sin
embargo, se observ tambin que existe una correlacin positiva entre el salario inicial y el
nivel acadmico alcanzado por los economistas que se incorporaron a la fuerza laboral de la
industria privada. Tambin se encontr una correlacin positiva cuando se consideran a los
economistas que trabajan para el gobierno. Y si slo se est hablando de economistas que
trabajan en el rea acadmica, tambin hay una correlacin positiva entre salario y grado
acadmico. As que, en cualquier clase de trabajo, los poseedores de altos grados
acadmicos fueron tambin los mejor pagados. La correlacin inicialmente presentada se
debe a que los salarios de profesores fueron mucho menores que los de la industria y el
gobierno. Pocos trabajadores con nivel licenciatura escogieron trabajar en enseanza, pero
muchos con maestra y doctorado eligieron el trabajo acadmico. As que, en promedio,
grados avanzados estuvieron por abajo en los salarios, an cuando en cada tipo de empleo
les pagan mejor que a los otros; en realidad lo que aqu se est observando es el efecto de
otra variable (tipo de empleo) sobre los salarios. La relacin negativa entre salario y nivel
acadmico no significa que mayor educacin reduce el salario; sino ms bien que est
afectando una tercera variable (tipo de empleo) sobre los salarios. Esta tercera variable fue
confundida con el grado acadmico obtenido.
Considere ahora el siguiente conjunto de datos:
X
295
339
343
344
357
359
368
395
414
406
385
394
404
420
446

Y
73
78
85
91
100
109
119
125
129
135
142
139
140
147
156

Al calcular el coeficiente de correlacin se obtuvo un valor de r = 0.937, lo que indica una


fuerte relacin lineal entre dichas variables. Sin embargo, la variable X representa el
nmero de cigarros consumidos anualmente en los Estados Unidos (en millares de milln)
entre 1944 y 1958, mientras que la variable Y representa las cifras de ndice de produccin
por hora-hombre en cultivos de heno y forraje durante el mismo perodo. Es claro que no
existe una relacin entre esas variables. Lo que ocurri es que ambas variables mostraron
un incremento estable con el tiempo durante el mismo perodo.

De acuerdo con lo visto en los ejemplos anteriores, se deduce que el coeficiente de


correlacin mide la fuerza de la relacin lineal entre dos variables, pero no se puede deducir
nada acerca de si tal relacin es de tipo causal.
1.2 DEFINICIN
Entenderemos por serie de tiempo a una secuencia cronolgica de observaciones de
una variable de inters. Al estudiar una serie de tiempo, se pueden tener observaciones
medidas en diversos intervalos de tiempo. Por ejemplo se pueden tener observaciones
anuales, trimestrales, mensuales, semanales, diarias, e incluso por minuto o segundos. Un
comentario pertinente es que en una serie de tiempo las observaciones consecutivas no
necesariamente se encuentran igualmente espaciadas.
Para poder realizar una prediccin de una serie de tiempo se supone que una
observacin futura se puede predecir estudiando el comportamiento de dicha variable en los
tiempos anteriores. Por esta razn se puede definir una serie de tiempo como un conjunto
de datos ordenados con respecto al tiempo y tales que observaciones sucesivas son
dependientes.
Notacin: Para denotar las observaciones de una serie se utiliza la letra y y un subndice, en
general t, que denota la observacin obtenida en el t-simo tiempo. As, El orden de una
observacin ser denotada con el subndice t; as, denotaremos por yt a la t-sima
observacin de una serie de tiempo. Si se fija la observacin yt, la observacin anterior se
denotar por yt-1, en tanto que la prxima observacin se denota por yt+1.
Ms formalmente, una serie de tiempo es una coleccin de variables aleatorias
indexadas en el tiempo Yt ; t T . En este caso la serie de tiempo es un conjunto de valores
para estas variables aleatorias (realizaciones de las variables aleatorias o sucesin de
observaciones de las variables aleatorias).
1.3.- EJEMPLOS DE SERIES DE TIEMPO
Algunos ejemplos de series de tiempo son: la tasa de mortalidad de los ltimos 50
aos, la tasa de cambio diaria del peso frente al dlar en el ltimo ao, la lluvia promedio
mensual de los ltimos 10 aos, el pago de la factura de la luz en los ltimos 5 aos, etc.
Cuando se pretende realizar un anlisis de una serie de tiempo, lo primero que se
recomienda hacer es construir la grfica correspondiente. La grfica que se utiliza una
grfica de dispersin, en la que el eje X representa la escala de tiempo y el eje Y representa
la medicin de inters. As, se grafican las parejas (t, yt). Para mayor claridad del
comportamiento de los datos a lo largo del tiempo, se recomienda unir los puntos
consecutivos con una recta. En seguida de presentan algunas grficas de series de tiempo.

Grfica de nmero de partes por milln de un contaminante

Grfica del ingreso hotelero mensual de 1998 a 2007

Una regla prctica es que para poder construir una grfica en el tiempo que pueda
servir para detectar patrones, se deben considerar un mnimo de 24 observaciones. Con este
nmero de observaciones es posible con ms certidumbre detectar algn patrn de
comportamiento de la serie, identificar valores que pueden ser atpicos y tambin identificar
posibles lugares de discontinuidad de la serie. Otros ejemplos de series de tiempo son las
siguientes:
1. En Economa: Precios de un articulo, tasas de desempleo, tasa de inflacin, ndice de
precios, precio del dlar, precio del cobre, precios de acciones, ingreso nacional bruto, etc.
2. En Meteorologa: Cantidad de agua cada, temperatura mxima diaria, Velocidad del
viento (energa elica), energa solar, etc.
3. En Geofsica: Series sismolgicas.
4. En Qumica: Viscosidad de un proceso, temperatura de un proceso.
5. En Demografa: Tasas de natalidad, tasas de mortalidad.
6. En Medicina: Electrocardiograma, electroencefalograma.
7. En Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.
8. En Telecomunicaciones: Anlisis de seales.
9. En Transporte: Series de trfico.

1.4 OBJETIVOS
Al analizar una serie de tiempo se hace con el objetivo de a) describir y modelar las
observaciones observadas y b) pronosticar el valor de la variable de inters en el siguiente
tiempo. Existen diversos mtodos para pronosticar una serie de tiempo, algunos de los
cuales se estudian en el presente curso.

1.5 COMPONENTES DE UNA SERIE DE TIEMPO


Para un buen anlisis de una serie de tiempo se deben identificar los elementos que
la componen. Una serie de tiempo se puede concebir como una secuencia de valores
compuesta por alguno(s) de los siguientes elementos: tendencia, ciclos, variacin
estacional y fluctuaciones irregulares. En seguida se define cada uno de ellos.
1.5.1 Tendencia
En una serie de tiempo se conoce como tendencia al comportamiento global de la
serie en el que se observa que, a pesar de las fluctuaciones que pueden haber, los valores
tienden a incrementarse, o bien, tienden a decrecer conforme se avanza en el tiempo. As, la
tendencia se puede detectar observando la grfica de la serie de tiempo. La siguiente grfica
presenta un ejemplo de una serie de tiempo con tendencia creciente.
Figura 1: Ejemplo de una serie de tiempo con tendencia

En la Figura 1 se observa que, al considerar el comportamiento a lo largo del eje del


tiempo (eje X), la respuesta observada presenta un incremento gradual, adems de ciertas
fluctuaciones. En la Figura 2 se observa una serie de tiempo en la que no parece evidente
que existe tendencia alguna. Los valores oscilan a lo largo del tiempo, pero no hay un
incremento (o decremento) gradual conforme avanza el tiempo.

Figura 2: Ejemplo de serie de tiempo sin tendencia

Es importante comentar que cuando se dice que una serie de tiempo presenta una
tendencia, sta puede ser lineal o no lineal. Por ejemplo, en Figura 3 se observa una
tendencia lineal, en tanto que en la Figura 1, la tendencia parece ser del tipo no lineal.
Figura 3: Ejemplo de serie de tiempo con tendencia lineal

Otro ejemplo de una tendencia no lineal se observa en la Figura 4, en la que se


presenta el comportamiento habitual en el total de ventas de un producto desde que se
introduce al mercado hasta que se afianza en l.

Figura 4: Ejemplo de serie de tiempo con tendencia no lineal.

En muchas ocasiones no es sencillo identificar una tendencia directamente de la


grfica. Una forma emprica de determinar si una serie de tiempo presenta alguna tendencia
es considerar tres o cuatro grupos de observaciones sin perder el orden en el que se
observaron, y calcular los promedios correspondientes. Si resulta que los promedios
aumentan o disminuyen considerablemente, entonces se podr argumentar la presencia de
tendencia.
1.5.2. Ciclos
Una serie de tiempo puede estar conformada por los denominados Ciclos, los cuales
se presentan cuando la serie exhibe montes y valles que no son fijos en un perodo. Cuando
la media de observaciones sucesivas no aumentan ni disminuyen consistentemente sino que
oscilan, entonces se tienen los ciclos. Un ejemplo que se presenta tpicamente son los
denominados Ciclos econmicos, que se caracterizan por presentar un perodo de expansin
seguido de un perodo de contraccin econmica. Otro ejemplo son los denominados ciclos
comerciales, los cuales se caracterizan por fluctuaciones causadas por perodos recurrentes
de prosperidad alternando con recesin.
Para detectar un comportamiento cclico tambin se puede recurrir a calcular la
media de conjuntos sucesivos de los datos. Si se observa que los promedios no disminuyen
o aumentan de manera consistente, entonces se tendr evidencia de la presencia de ciclos.
Otra manera de detectar el comportamiento cclico es contando el nmero de corridas de
valores arriba y debajo de la media de la serie y comparar el nmero real de corridas con el
nmero que se esperara si se tratara de una serie de fluctuaciones irregulares o de ruido
aleatorio. El nmero de corridas esperadas para una serie de ruido aleatorio es 2p(n-p)/(n1), donde n es el nmero total de observaciones en la serie y p es el nmero de
observaciones ubicadas arriba de la media de la serie. Si el nmero de corridas es menor
que el esperado hay razn para creer que hay algn comportamiento cclico dentro de la
serie. La Figura 5 presenta una serie de tiempo con la presencia de ciclos.

Figura 5: Ejemplo de serie de tiempo con ciclos.

1.5.3. Variaciones estacionales


En muchas series de tiempo se presentan cambios regulares en perodos de un ao.
En general, una variacin estacional es un ciclo que se observa en duraciones similares en
el tiempo. Por ejemplo, la tasa de desempleo es alta en invierno y baja en verano,
comportamiento que se observa ao tras ao. La componente estacional de una serie de
tiempo puede usarse para representar un patrn que ocurre regularmente en perodos de
tiempo diferentes a un ao. Por ejemplo, la temperatura en un da siempre es mayor a
medio da y menor por las madrugadas. En este caso la unidad de tiempo es un da.
El nombre de variacin estacional se debe a que la variabilidad que se observa en
los datos se asocia con las influencias estacionales, debidas al clima, costumbres, o
comportamiento propio de la variable de inters. Por ejemplo, la temperatura media
mensual como reflejo de los cambios climticos, la contaminacin del manto fretico, que
en poca de secas es baja, alta en poca de lluvias y regular en la etapa de transicin. Un
ejemplo de grfica de tiempo con variaciones estacionales se presenta en la Figura 6.
Figura 6: Ejemplo de serie de tiempo con ciclos estacionales.

1.5.4. Fluctuaciones irregulares


Finalmente, una serie de tiempo puede contener las denominadas fluctuaciones
irregulares, que se pueden concebir como movimientos errticos que no siguen un patrn
regular reconocible. Estas fluctuaciones pueden pensarse como el elemento que queda en
una serie de tiempo despus de que una tendencia, ciclo o variacin estacionan han sido
identificados en la serie de tiempo. Estas fluctuaciones pueden deberse a eventos que no
pueden ser pronosticados, como por ejemplo, huracanes, epidemias, guerras, etc.
Los elementos antes descritos pueden resumirse a travs de la siguiente grfica

2. MTODOS DESCRIPTIVOS DE ANLISIS


En la primera seccin se presentaron elementos de estadstica descriptiva que se
deben realizar a las variables de inters antes de realizar en anlisis estadstico. En este
captulo se presentan las herramientas que se utilizan con mayor frecuencia para analizar
una serie de tiempo. Como ya se coment, una serie de tiempo supone que las
observaciones en el tiempo t estn relacionadas con las observaciones anteriores.
2.1.- GRFICA EN EL TIEMPO
El primer paso y quiz uno de los ms importantes al analizar una serie de tiempo es
precisamente observar la grfica de la variable con respecto al tiempo. Este paso debe
realizarse en todos los anlisis, independientemente del anlisis posterior que se vaya a
realizar. Al observar la grfica pueden detectarse los siguientes elementos:
a) Outliers: Se refiere a puntos de la serie que presentan un comportamiento diferente
al observado en los dems datos con que se cuenta. Si en la serie se presenta algn
outlier, entonces ser necesario reunir informacin adicional sobre posibles factores

que influyeron en esos datos. Por ejemplo, en un estudio de total de ventas (en miles
de pesos) se obtuvo la grfica de la Figura 6, en la que se sealan con un crculo
rojo dos posibles outliers.
Figura 6: Ejemplo de serie de tiempo con outliers.

b) Tendencias: Como ya se coment, la tendencia consiste en observar un


comportamiento creciente o decreciente en la serie de tiempo. La tendencia puede
pensarse como el componente que representa el comportamiento predominante de
la serie. La tendencia puede definirse, en otras palabras, como el cambio de la
media a lo largo de un extenso perodo de tiempo. En la siguiente grfica se
presenta un ejemplo en el que se observa una tendencia creciente.

c) Variaciones cclicas o estacionales: La variacin estacional se presenta cuando en la serie


se observa un movimiento peridico. La duracin del perodo puede ser de cualquier
longitud de tiempo, siendo los ms comunes un ao, un trimestre, un mes, un da, etc. En la
siguiente grfica se presenta un ejemplo de comportamiento cclico.

Las variaciones estacionarias se presentan en perodos que se pueden identificar,


como la estacionalidad del empleo, o de la venta de ciertos productos, cuyo perodo es un
ao. Por su parte, las variaciones cclicas se refieren a ciclos grandes, cuyo perodo no es
atribuible a alguna causa. Por ejemplo, fenmenos climticos, que tienen ciclos que duran
varios aos. En una serie pueden presentarse ambos elementos. En seguida se presenta una
serie con presencia de comportamiento estacional.

d) Variaciones aleatorias: Los movimientos irregulares (al azar) representan todos los tipos
de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y
fluctuaciones cclicas.
2.2.- SUAVIZAMIENTO
Al graficar una serie de tiempo no siempre resulta evidente la presencia de ciclos o
de una tendencia. En general esto se debe a la presencia de las variaciones aleatorias. Una
manera de resaltar los componentes de la serie es a travs de realizar el proceso que se
conoce como suavizamiento de la serie. La idea de este procedimiento es definir, a partir de
la serie observada, una nueva serie que filtra o suaviza los efectos ajenos a la tendencia
(estacionalidad, efectos aleatorios), de manera que podamos visualizar la tendencia.
Para suavizar una serie de tiempo existen dos mtodos generalmente utilizados: el
de promedios mviles y el de suavizamiento exponencial. En seguida se definen cada uno
de ellos.
Mtodo de Promedio Mvil.
Este mtodo de suavizamiento es uno de los ms usados para describir la tendencia.
Para proceder se considera un nmero fijo k, generalmente impar, y calcular los promedios
de todos los grupos de k trminos consecutivos de la serie. Con este proceso se obtiene la
denominada serie suavizada por promedios mviles de orden k. De este modo se tienden a
anular las variaciones aleatorias.
Si y1 , y2 , yT , donde T es el nmero de observaciones de la serie, representa los
elementos de la serie de tiempo, el promedio mvil de orden 3 para el tiempo t se define
como sigue:
y yt yt 1
y t PM (3) t 1
.
3
En forma de tabla quedara como sigue:

Serie Original
y1
y2
y3
y4
y5
y6
y7

Serie suavizada (orden 3)

y1 y 2 y3
y 2
3
y 2 y3 y 4
y 3
3
y3 y 4 y5
y 4
3
y 4 y5 y 6
y 5
3
y5 y 6 y 7
y 6
3

De esta tabla es de notar que para el suavizamiento de orden 3, no es posible


encontrar los valores suavizados correspondientes al primero y al ltimo tiempo registrado.
De la misma manera, si se procede a realizar un suavizamiento de orden 5, no se podrn
encontrar los valores suavizados para las primeros dos y las ltimas dos observaciones de la
serie original. En general, si se considera un suavizamiento de orden k, no se podrn
calcular los primeros y los ltimos k/2 elementos suavizados.
En la Figura 7 presentan las grficas en la que se puede observar el efecto que tiene
el proceso de suavizamiento en una serie de tiempo.
Figura 7: Efecto del promedio mvil al suavizar una serie
(a) Serie Original

(b) Suavizamiento de orden 3

(c) Suavizamiento de orden 5

(d) Suavizamiento de orden 11

En la figura (a) se observa la serie original. De las grficas (b), (c) y (d) es evidente
que mientras mayor sea el orden de suavizamiento, la serie suavizada posee un
comportamiento ms suave. Por otra parte, tambin es evidente que con un orden apropiado
de suavizamiento es posible resaltar comportamientos de la serie que no se aprecian de la
original. Por ejemplo, en las grficas (b) y (c) se observa que en el tiempo 20 ocurri algn
fenmeno que origin que la serie tenga un perodo de decrecimiento, despus de cual, la
serie retom su comportamiento creciente original, y aparentemente con la misma
pendiente. Este hecho no se observa en la grfica (d), debido a que se utilizaron tantos
elementos en el promedio que el comportamiento que se descubri en las grficas (b) y (c)
ya no se observ en la (d).
Se observa cmo a medida que aumenta el orden, el efecto del suavizado es mayor,
pero tambin se pierden ms datos en los extremos. Una ventaja del suavizamiento de
promedio mvil es muy fcil de aplicar y permite visualizar la tendencia de la serie. Sin
embargo, tambin posee dos inconvenientes. El primero consiste en que no es posible
obtener estimaciones de la tendencia en extremos. El segundo consiste en que no perimte,
tal como se aplic, proporcionar predicciones.
Si la serie bajo anlisis presenta un efecto estacional de perodo k, es conveniente
aplicar un suavizamiento de promedio mvil de orden k. Al hacer esto se elimina el efecto
estacional, junto con la variacin aleatoria, por lo que se podr observar solamente la
tendencia de la serie.
Mtodo de Suavizamiento Exponencial.
Este mtodo se basa en la idea de que una observacin suavizada en tiempo t, se
conforma por medio de un promedio ponderado del valor actual de la serie original y el
valor de la serie suavizada en el tiempo inmediatamente anterior. Si Zt representa la serie de
tiempo original y Yt la serie de tiempo suavizada, entonces la afirmacin anterior se expresa
como sigue:
y t yt (1 ) y t 1.

donde es un nmero que se encuentra entre 0 y 1. Si el valor de es cercano a 1, entonces


la serie suavizada pondera ms fuertemente el valor original, por lo que ambas sern muy
similares, y en consecuencia, se tendr que el suavizamiento tendr poco efecto. Si el valor
de se acerca a 1/2, entonces se ponderan moderadamente el valor de la serie original y el
valor de la serie suavizada, por lo que el suavizamiento ser moderado. Finalmente, si el
valor de es cercano a cero, entonces (1-) ser cercano a 1. En este caso la serie suavizada
pondera con ms fuerza el valor suavizado inmediatamente anterior, por lo que el suavizado
tendr un efecto fuerte.
El nombre de este mtodo proviene del hecho siguiente. Por sustitucin recursiva se
puede escribir la serie suavizada como sigue:

y t yt (1 ) yt 1 (1 ) 2 yt 2 (1 )3 yt 3 .

De la expresin anterior se observa que cada trmino suavizado es en realidad un


promedio ponderado de todas las observaciones de la serie de tiempo original, con las
ponderaciones , (1 ), (1 )2, (1 )3, (1 )4 , etc. Como el valor de se
encuentra entre 0 y 1, los coeficientes antes mencionados van disminuyendo conforme se
consideran observaciones ms alejadas en el tiempo del tiempo en el que se desea aplicar el
suavizamiento. En la Figura 7 se observan las diferentes ponderaciones que tendrn los
valores en el suavizamiento exponencial, dependiendo del valor de .
Figura 7: Ejemplos del comportamiento de los coeficientes del suavizamiento exponencial.
(a) =0.3

(b) =0.5

(c) =0.7

(d) =0.9

De acuerdo con lo que se observa en las grficas, a medida que el valor de es


menor, se asigna ms peso a observaciones mucho tiempo hacia atrs, en tanto que a
medida que se asigna un valor de mayor, se asigna ms peso a las observaciones
inmediatas anteriores y poco peso a las observaciones de mucho tiempo atrs. La rapidez
con que disminuye la influencia de observaciones pasadas es mayor mientras ms grande
(cercano a 1) es .
El mtodo de suavizamiento exponencial se puede utilizar para obtener una
prediccin, pero solamente del valor siguiente al ltimo valor observado. Mas
precisamente, si se tienen las observaciones yt, yt-1, yt-2, ... ,yt-k, entonces el valor que predice
en el tiempo t+1, es decir, yt+1 se obtiene por medio de la frmula antes presentada de
suavizamiento exponencial, esto es:
y t 1 yt (1 ) yt 1 ,

que representa una modificacin a la frmula original de suavizamiento exponencial. Si se


intenta utilizar la frmula anterior para realizar predicciones ms hacia adelante, el
resultado sera siempre el mismo valor. En la prctica, cada vez que aparece una nueva
observacin real, se puede actualizar la frmula anterior, para predecir la observacin
siguiente. As, cada vez que el tiempo avanza en una unidad, se predice un nuevo valor a
futuro.
2.3.- DIFERENCIACIN
Como se ver, los mtodos de pronsticos no probabilistas que se utilizan en la
prctica requieren que la serie de tiempo no tenga tendencia alguna. Ms an, los mtodos
probabilistas que se estudiarn requieren de identificar un elemento denominado ndice de
integracin de la serie, el cual se relaciona directamente con el proceso de diferenciacin.
En esta seccin se estudia la manera de eliminar la tendencia de la serie, no en el
sentido de desaparecerla por completo de los componentes de la serie de tiempo, sino con el
objetivo de pronosticar en una serie sin tendencia para posteriormente obtener la prediccin
en la escala con tendencia. En la columna Serie (que en este ejemplo representa el nmero
de accidentes semanales) se presentan los valores de la serie que se usar como ejemplo. La
columna Tiempo representa el orden en el que se tomaron las medidas.
Tabla 1: Nmero de accidentes semanales y primera diferencia.
Tiempo

Serie (# de
accidentes
semanales)

2.00

-1.00

2.00

1.00

-1.00

0.00

2.00

-2.00

10

2.00

11

1.00

12

-1.00

13

1.00

14

0.00

15

1.00

16

10

1.00

17

-2.00

18

-1.00

19

2.00

20

0.00

Diferencia

21

11

2.00

22

12

1.00

23

10

-2.00

24

12

2.00

25

13

1.00

26

12

-1.00

27

13

1.00

28

13

0.00

29

15

2.00

30

14

-1.00

La grfica correspondiente a Tiempo vs. Serie se presenta en la Figura 8, donde se


observa de manera inmediata que dicha serie presenta una tendencia creciente.
Figura 8: Grfica de la serie correspondiente a los datos de la Tabla 1.

Si se desea eliminar la tendencia se procede a construir una nueva serie a partir de la


original de la siguiente manera: la serie diferenciada, que denotaremos por Dt, se define por
Dt = yt - yt-1,
para valores de t que se encuentren entre 2 y T. En palabras, un valor de la serie
diferenciada en el tiempo t se define como la diferencia entre el dato original
correspondiente al tiempo t menos el valor original en el tiempo t-1. La diferencia calculada
para la serie se presenta en la columna Diferencia de la tabla anterior. La grfica de la serie
diferenciada se presenta en la Figura 9.

Figura 9: Grfica de la primera diferencia de los datos de la Tabla 1.

Como se observa en la Figura 9, al aplicar la primera diferencia a la serie original se


elimina la tendencia de la serie. Ahora, Por qu la primera diferencia elimina la tendencia?
Considere la tendencia lineal perfecta, es decir, una lnea recta. En el contexto de series de
tiempo, si una serie presenta un comportamiento lineal perfecto con respecto al tiempo, esto
querra decir que la serie se puede modelar por medio de la ecuacin de la recta:
yt 0 1t.

Si se aplica la primera diferencia, se obtiene lo siguiente:


yt yt 1 ( 0 1t ) ( 0 1 (t 1))
0 1t 0 1t 1
1 .

Ya que el tiempo t es arbitrario, se concluye la primera diferencia produce un valor


constante en la serie diferenciada. As, si una serie presenta un comportamiento lineal, la
primera diferencia tender a eliminar dicha tendencia.
Ahora considere la siguiente serie de tiempo dada por los datos de la Tabla 2.
Tabla 2: Ejemplo de serie de tiempo que requiere dos diferencias.
Tiempo
1
2
3
4
5

Serie
2
5
11
14
21

6
7
8
9
10

36
46
61
86
110

La serie correspondiente se presenta en la Figura 10, de la que se observa que la tendencia


en este caso no es lineal. La grfica de la primera diferencia se observa en la Figura 11, de
la que es claro que no se ha removido la tendencia. La grfica de la segunda diferencia se
observa en la Figura 12, en la que la serie ya no presenta tendencia alguna. As, cuando la
serie presenta un comportamiento no lineal de tipo cuadrtico, es necesario aplicar primera
y segunda diferencia a la serie para eliminar dicha tendencia.

Figura 10: Serie de tiempo de los datos de la Tabla 2, en donde se


observa una tendencia no lineal.

Figura 11: Grafica de la primera diferencia de los datos de la Tabla 2.

Figura 12: Grfica de la segunda diferencia de la serie de la Tabla 2.

El concepto de considerar la primera diferencia (o bien, la segunda) se relaciona con


el concepto de derivada de una funcin. La derivada corresponde a la pendiente de una
funcin en un punto especfico. En la serie de tiempo se tienen observaciones discretas, y si
se consideran dos elementos consecutivos, digamos (t, yt) y (t-1, yt-1), la pendiente de la
recta que pasa por esos dos puntos, denotada generalmente con la letra m, se calcula como
sigue:

yt yt 1
yt yt 1 , |
t (t 1)

que es precisamente la definicin de la primera diferencia de una serie en el tiempo t. De


acuerdo con lo anterior, al calcular la primera diferencia de una serie en realidad se est
calculando la pendiente que existe entre cada una de las parejas de puntos consecutivos.

2.5.- FUNCIN DE AUTOCOVARIANZA Y AUTOCORRELACIN


La serie de tiempo supone que cada valor de la serie est relacionado con
observaciones anteriores. As como la desviacin estndar se utiliza para conocer la
dispersin de una muestra y la correlacin se utiliza para medir la fuerza de la relacin
lineal entre dos variables, para saber el grado de asociacin de las observaciones de una
serie de tiempo con observaciones anteriores se cuenta con la conocida funcin de
autocovarianza. La funcin de autocorrelacin puede conceptualizarse como la correlacin
cruzada de la serie de tiempo consigo misma. Esta funcin es resulta de mucha utilidad para
encontrar patrones dentro de una serie. Por ejemplo, a travs de esta funcin se podra
detectar la periodicidad de una serie que se encuentre enmascarada por la presencia del
ruido.
Para investigar la estructura de autocovarianza, se procede a calcular la covarianza
que hay entre valores al tiempo t, yt, y valores de la misma serie que se encuentran k

unidades hacia atrs de la observacin al tiempo t, es decir, yt-k. El valor que se obtiene, que
se denota por k , se calcula como sigue:

k Cov( yt , yt k ) E( yt t )( yt k t k ) .
Sin embargo, si el proceso es estacionario entonces la media es constante en el tiempo, as
que se tendr:

k E( yt )( yt k )
La funcin de autocovarianza para una serie se estima a travs de la siguiente
frmula:

1 T
( yt y)( ytk y),
T t k 1

donde T es el nmero total de observaciones en la serie y y es el promedio de todos los


datos de la serie. De esta frmula se observa que si se considera k=0, se estar calculando la
varianza de la serie bajo estudio. A manera de ejemplo, se presenta la frmula para k=1, es
decir, la autocovarianza de cada valor con el valor inmediato anterior.

1 T
1
( yt y)( yt 1 y) ( y2 y)( y1 y) ( y3 y)( y2 y) ( yT y)( yT 1 y).

T t k 1
T

Para observar la estructura de autocovarianza se procede a calcular los valores


0 , 1 , 2 , K , para un valor de K que permita observar el comportamiento general. Sin
embargo, un problema que puede existir es que puede ocurrir que los valores de la serie no
permitan observar claramente la estructura de covarianza de la serie. Con base en esta
funcin se calcula la denominada funcin de autocorrelacin, denotara por el smbolo k la
cual se define por medio de la siguiente expresin

E[( yt )( yt k )] k
.

E ( yt ) 2
0

para valores k=0,1,,T.


Propiedades de las funciones de aucocovarianza y autocorrelacin:
Por la manera en la que estn definidas no es difcil deducir que:
a) 0 1.
b) Como k es un coeficiente de correlacin, entonces se cumple k 1.
c) k 0 .

d) k k .
e) k k .

2.6.- CORRELOGRAMA
Utilizando los elementos definidos en la seccin anterior, se obtiene una grfica que
se utiliza para describir el comportamiento de la serie, con respecto a su estructura de
autocovarianza. El correlograma ser la grfica de dispersin del tiempo, representado por
k, y los valores de autocorrelacin correspondientes.