You are on page 1of 196

Modèles de prévision

Séries temporelles
Arthur Charpentier

1

UQAM, ACT6420, Hiver 2011

15 mai 2012

1

charpentier.arthur@uqam.ca, url : http://freakonometrics.blog.free.fr/

1

Contents
1 Introduction générale et notations
1.1 Approches temps/fréquences : un peu d’histoire . . . . . . . . . . . . . .
1.1.1 Analyse harmonique . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Modèles autoregressifs et moyennes mobiles . . . . . . . . . . . .
1.1.3 L’approche temporelle : concept de corrélation sérielle . . . . . .
1.1.4 L’équivalence entre les deux approches temps/fréquence . . . . . .
1.2 Les développements récents . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Les modèles ARM A, ARIM A et SARIM A : modèles linéaires .
1.2.2 Modèles ARCH - volatilité stochastique . . . . . . . . . . . . . .
1.2.3 Les processus à mémoire longue . . . . . . . . . . . . . . . . . . .
1.2.4 Les processus multivariés . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Exemple : histoire de la prévision des modèles économiques
(macroéconomiques) . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.6 Remarque sur les données hautes fréquences . . . . . . . . . . . .
1.3 Théorie des processus à temps discret . . . . . . . . . . . . . . . . . . . .
1.3.1 Stationnarité des processus . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Propriété de Markov en temps discret . . . . . . . . . . . . . . . .
1.4 Objectifs de l’études des séries temporelles . . . . . . . . . . . . . . . . .
1.4.1 Description et modélisation . . . . . . . . . . . . . . . . . . . . .
1.4.2 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Conseils bibliographiques (en français, et en anglais) . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

7
7
8
9
10
11
11
11
13
13
14

.
.
.
.
.
.
.
.
.
.

15
16
17
17
18
19
19
20
20
20

2 Propriétés des processus univariés en temps discret
2.1 Rappels sur les martingales à temps discret . . . . . .
2.2 Rappels sur les Chaînes de Markov . . . . . . . . . .
2.3 Notions de ‘stationnairité’ . . . . . . . . . . . . . . .
2.4 Fonction d’autocovariance et densité spectrale . . . .
2.4.1 Autocovariance et autocorrélation . . . . . . .
2.4.2 Densité spectrale ? ? ? . . . . . . . . . . . . .
2.4.3 Estimation de la fonction d’autocorrélation . .
2.4.4 Estimation de la densité spectrale ? ? ? . . . .
2.5 Lien entre temps continu et temps discret ? ? ? . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

22
22
23
23
26
26
27
28
30
31

3 Désaisonnalisation par regression linéaire
3.1 Présentation des données . . . . . . . . . . . . .
3.2 Le modèle linéaire . . . . . . . . . . . . . . . . .
3.2.1 Hypothèses sur les erreurs . . . . . . . .
3.2.2 Composante saisonnière du modèles . . .
3.2.3 Composante tendancielle . . . . . . . . .
3.2.4 Modèle trimestriel de Buys-Ballot (1847)

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

37
37
38
38
38
38
39

2

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3.3

3.4

3.5
3.6
3.7

Estimateur des moindres carrés ordinaires (mco) . . . . . . . . . . . .
3.3.1 Solutions générales . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Cas particulier : le modèle trimestriel de Buys-Ballot . . . . .
3.3.3 Généralisation des formules de Buys-Ballot (tendance linéaire)
Application au trafic voyageur . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Série agrégée par trimestre . . . . . . . . . . . . . . . . . . . .
3.4.2 Analyse sur données mensuelles . . . . . . . . . . . . . . . . .
Propriétés statistiques des estimateurs . . . . . . . . . . . . . . . . .
Application au traffic sur l’autoroute A7 . . . . . . . . . . . . . . . .
Prévision à un horizon h . . . . . . . . . . . . . . . . . . . . . . . . .

4 Désaisonnalisation par moyennes mobiles
4.1 Généralités sur les moyennes mobiles . . . . . . . . . . . . . .
4.1.1 Notion d’opérateur retard L . . . . . . . . . . . . . . .
4.1.2 Les moyennes mobiles . . . . . . . . . . . . . . . . . .
4.1.3 L’espace des opérateurs moyenne-mobile . . . . . . . .
4.2 Vecteurs propres associés à une moyenne mobile . . . . . . . .
4.2.1 Les séries absorbées : λ = 0 . . . . . . . . . . . . . . .
4.2.2 Absorbtion de la composante saisonnière . . . . . . . .
4.2.3 Les séries invariantes : λ = 1 . . . . . . . . . . . . . . .
4.2.4 Transformation de suites géométriques (rt ) . . . . . . .
4.2.5 Moyenne mobile différence ∆p = (I − L)p . . . . . . . .
4.2.6 Moyenne mobile différence saisonnière ∆p,s = (I − Ls )p
4.2.7 Moyenne mobile impaire . . . . . . . . . . . . . . . . .
4.2.8 Moyenne mobile paire . . . . . . . . . . . . . . . . . .
4.3 Notions de ‘bruit blanc’ . . . . . . . . . . . . . . . . . . . . .
4.3.1 Transformation d’un bruit blanc . . . . . . . . . . . . .
4.4 Les procédures X11 et X12 ? ? ? . . . . . . . . . . . . . . . .
4.4.1 Un algorithme simple de désaisonnalisation . . . . . . .
4.4.2 L’algorithme de base de la méthode X11 . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5 La prévision par lissage exponentiel
5.1 Principe du lissage exponentiel simple . . . . . . . . . . . . . . .
5.1.1 Méthode adaptative de mise à jour (ordre 1) . . . . . . .
5.1.2 Choix de la constante de lissage . . . . . . . . . . . . . .
5.1.3 Lien entre robustesse de la prévision et choix de β . . . .
5.1.4 Exemple d’application . . . . . . . . . . . . . . . . . . .
5.2 Principe de lissage exponentiel double . . . . . . . . . . . . . . .
5.2.1 Méthode adaptative de mise à jour (ordre 1) . . . . . . .
5.2.2 Application de la méthode de lissage exponentiel double
5.3 Application au traffic sur l’autoroute A7 . . . . . . . . . . . . .
5.4 Lissage exponentiel multiple, ou généralisé . . . . . . . . . . . .
5.4.1 Méthode adaptative de mise à jour (ordre 1) . . . . . . .
3

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

41
41
42
42
43
43
47
48
49
50

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

52
52
52
53
57
57
58
58
59
59
60
61
62
62
63
63
64
64
64

.
.
.
.
.
.
.
.
.
.
.

67
67
67
68
69
70
72
73
73
75
77
79

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

. . . . . . . . . . . . . . . . . . . 6. . . . . . . . . 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de mise en pratique des méthodes 5. . . . . . . . . . . . . . . . . . . . . 6. . . . . . . . . . 6. . . . . . . .11 Théorème de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. . . . . . . 84 84 84 84 85 85 87 89 89 89 92 92 93 96 99 100 101 102 104 106 111 113 114 116 118 119 120 121 121 122 124 125 126 129 5. . . . . . . . . . . . .6 Les méthodes de Holt-Winters (1960) . . . . . . . . . . . . . 6. . . . . . 6. . . . . . . . 6.4. . . . . . .1 A quoi ressemblent les processus (S)ARIMA ? . . . . . . . . . . . . . . .1 Présentation des données . . . .3 Régression affine dans L2 . . . . . . . . . . . . . . . . . . 6.6. . . . . . . . . . . . . q) . . 6. . . . . . . . . .2 Rappels sur les espaces L2 . .2.5 . .4 Fonction et matrices autocorrélations . . . . . 6. . . . . . . . . . . . . .1 Processus ARIM A et formes AR ou M A . . .4. . . . . . . . . . . . . .9. . . . . . .6. .10 Les modèles SARIM A . . . . . 6. . . . 6. . . . . . . . . . . . . . . . . . . . . . 6. . . . . . . 6. 5. . . . . . . .8 Introduction aux modèles linéaires non-stationnaires . . . .1 Propriétés topologiques . . 6. . 6.4. . .4 Lissage exponentiel double . . . . . . . . . . .7. . .2 Rappel sur les vecteurs et processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1) . . .6. . . . . . . . . . . . . . . . . . . . . . . .3 Le processus M A (2) . . . . . .3 Les processus ARM A (1. . .3 Le processus AR (1) . . .5. . . . . . . .6. . . .9 Les processus ARIM A (p. . . 6. . .les équations de Yule-Walker 6. . . . . . . . . . .6. . . . . . . . . . . . . . . 6. . .2 Densité spectrale des processus ARM A (p. . . . . .2. . . . . . . .2. . . . . . . . . . . . q) . . .2 Inversibilité des polynômes P (L) ? ? ? .6. . . . . . . . . . . . . . 5. 6. . . . . 6.3 Polynômes d’opérateurs retard L et avance F . . . .3 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . .2 Propriétés des autocorrélations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Autocorrélations partielles . . . . . . . . . . . . 6.4 La notion d’innovation . . . . . . . . .1 Rappels sur les opérateurs retards . . . . .1 Méthode non saisonnière . . . . . . . . . . . . . . .7. .7. . . . . . .2.5 Complément : autocorrélogrammes de fonctions déterministes 6. . . .4 Le processus AR (2) . . .6. . . . . . . . . . . . . . . . . . . . . . . . 6. . .4. . . . . . 6. . . 4 . . . . . . . . . . . . .5 Les processus autorégressifs : AR (p) . . . . . . . . . . . . .5. . . . . . 6. . . . . . . . . . . . . . . . . . . .4 Autocorrélations inverses ? ? ? . . . . . . . . . . . . 6. . . . 5.7 Les processus ARM A (p. . .2 Lissage ”linéaire” . . . . . . . q) . . . . .5. . . 6. .2 Le processus M A (1) . 79 79 80 81 81 82 83 83 6 Introduction aux modèles linéaires ARIM A 6. . . d. . . . . . . . . . .3. . . . .1 Réécriture de la forme AR (p) .5. . . . . . . . 6. . . . . .6 Les processus moyenne-mobile : M A (q) . . . . . . . . 6. . . . . . . . . . . . . . . .4. . . de lissage .1 Propriétés des autocorrélations . . . . . .5. . . . . . . . 6. . . 6. . . . . . . . . . . . . 6.5. . . . . . . .1 Autocovariance et autocorrélation . . . . . .2 La méthode saisonnière additive . . . . . .1 Propriétés des autocorrélations . . . . .5. .3 Densité spectrale ? ? ? . .

. . . 7. . . . . 146 . . 7. . . 161 . . . 177 8. . . . . . . . . . . . . . . . 7. .1 Analyse des fonctions d’autocorrélation . . . . . . . . . . . . . . . . . .2 Estimation du modèle ARIM A . . . . . .4. . . . . . . . .3 Vérification .5 Cas d’un processus ARM A (p. . . . . . .3 Estimation de la densité spectrale d’un processus . . . . . 7. . . . . . 152 . . . .6 Tests statistiques de validation du modèle . . .2. . . . . . . . . . . . . . . . . . . . . .4. .3 Tests de racines unitaires saisonnières . . 6. . . .4. . . . . . . . . . .4 Complément : Test de rupture et de changement de tendance . . . . . . . 7. . . . . .6 Application . . . . 7. 7. 6. .1 Approche empirique par l’autocorrélogramme . . . . . . . . 7. .4 Estimation des paramètres d’un modèle ARM A (p. . q) .2 Critère d’information . . . 144 . . 148 . . .5 Choix d’un modèle . . .2. 7 Estimation des modèles ARIM A : Box-Jenkins 7. . . q) . . . . . 7. p et q . . . . . . . . . . . .1 Problèmes d’unicité de la représentation ARM A . . . . . . . . . . .5. . . . . . . . . . . . . . . . .2 Estimation des ordres p et q d’un modèle ARM A (p. . . . . . . 137 . . . . . . . . . . . . . . . . . . . . . . 7. . . . . . . . . . . . . ou test de ’‘portmanteau” . . . . . . . . . . 7. . .2 Le spectre d’un processus ARM A . . . . . . . . . . . . . . . . 7. . . . . . . . . . . . . . .3. . .1. . . . . . 7. . . . . . . . 7. . . .5 Comparaison des différentes méthodes d’inférence . . . . . . . 153 . . . .6 Propriété des estimateurs . .1.6. . . . . .2 Tests de racine unité . . . . . . . .2. . 7. . . . . . 156 . . . . .3 Méthode pratique d’estimation des ordres p et q . .1 Estimation du paramètre d’intégration d . . . .3. . .1 Théorie spectrale et notion de filtre . . . . 161 . . . . . . . . . . . . . . .2 Estimation pour les modèles AR (p) par la m éthode des moindres carrés . . . . . . . . . . . 7. . . . .1 Prévisions à l’aide d’un modèle AR (p) . . . . .12. . .1 Critère de pouvoir prédicitf .2. . . . . . 7. . .4. . . . . 144 . . . q) . . . . . . . . . . . . . . . .4 Résolution du programme d’optimisation . . . . . . . . .12. . .2. . . . . .4 Complément sur la notion de sur-différentiation . . 137 . . . . . . . . . . .1. . . . . 7. . . . . . . 164 165 167 172 173 174 174 174 175 175 176 176 8 Prévisions à l’aide des modèles ARIM A : Box-Jenkins 177 8. 144 . .2. . . . 7. 7.6. 178 5 . . .12. . . . . . . . . . .2 Statistique de Box-Pierce. . . 6. 7. . . 137 .1. 7. . . . . . . . . .6. .12 Théorie spectrale et processus ARIM A ? ? ? . . . 152 . . . . . 7. . 7.3.5. . . . . . . . . . .2 Prévisions à l’aide d’un modèle M A (q) .3. . . . . . . . . 178 8. . .3 Test de bruit blanc et de stationnarité . 155 . . . . . 7.3 Compléments : les tests de normalité . . 130 131 132 133 137 .1 Utilisation de l’écriture AR (∞) du processus M A (q) . . . .2 Comportement asymptotique des moments empiriques . . . 7. . . . . . . . . . . . . . . . . 7. . . . . . . . . . . . . . .6. . . . . . . . 7.1 Identification du modèle : recherche des paramètres d. . . . . .4 Cas d’un processus M A (q) . .1 Attention à la constante . . . . . . .2. 148 . . . .4. . q) . . . . . . . 152 . . . 147 .3 Vraissemblance d’un processus ARM A (p. . . . 142 . . . . . . . . . . . . 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. . . .4. . . .

7 Choix du modèle . . . . . . . . . . 1. Intervalle de confiance de la prévision . . .2 Utilisation de la formule de mise à jour des résultats . 8. . . . . .7. . . . . . . . . . . . . . . .4 8.3. . . . .2. . .4. . . .1. . . . . .4 Estimation des paramètres d’une modélisation ARIM A (4. . . 6 . . .1. . d. . . 1. . 8. . . . Prévisions dans le cas d’un processus ARIM A (p. . . . . . . . . . . . . 4) 9. . . . . . . . . . 194 . . . . . . .1. . . . 2) 9. . . .1. 1. . . . . . . 190 . . . . . .3 Prévision pour un processus ARIM A (1. . 9. . . Application . .6 Estimation des paramètres d’une modélisation ARIM A (8. . 1) 9. 195 . . 193 . .1 Prévision pour un processus AR (1) . .6. . . . . . . . 192 . . .1. . . . . 191 .5 8. 2) 9. . . . . .3. . . . 8. . 1. . .8.6 8. q) . . . . . . . . . . . . . .3 Estimation des paramètres d’une modélisation ARIM A (2. 9. . .2 Utilisation de la forme M A (∞) pu processus ARM A (p. . . . . . . .1. . . . . . . .7. 193 . . . . . 179 . . . . 8. . . q) . . . .2 Exemple d’application : cas pratique . . 1. . . . . .2 Estimation des paramètres d’une modélisation ARIM A (1. . . . . .4. . . . . . . .6. 0) . . . 9 Mise en oeuvre de la méthode de Box & Jenkins 9. . . . . .6.1. . . . . . . . 8. . . . 8. . . . . . . 179 . . .2 Modélisation du taux de croissance du P IB américain . . . . Prévisions à l’aide d’un modèle ARM A (p. .1 Example de prévision : cas d’école . . . q) . . . . . 9. .3 8. . . .1 Application de la série des taux d’intérêt à 3 mois . . . . . . . . . . . q) et formules de mise à jour . . . . . . . . . . . . . 179 . .5 Estimation des paramètres d’une modélisation ARIM A (8. .1 Utilisation de l’approximation AR . .2 Utilisation de l’approximation M A . . . . . . . . . .2 Prévision pour un processus M A (1) . . . . . . 1. . . . . 4) 9. . . . . . . . . 8. . . . . . . . 8. 194 . . . 194 . . . . . . . . . 8.1 Modélisation de la série . . . . . . .7 8. des . . . Prévision pour certains processus AR et M A . .1 Utilisation de la forme AR (∞) pu processus ARM A (p. . . . . 180 180 181 182 182 183 183 184 186 187 187 189 190 . . . .

1971). Elles ont été utilisées en astronomie (‘on the periodicity of sunspots’. où t ∈ Z. exports and other economic variables’. dont on peut définir un ensemble d’autocovariance γ (t. en météorologie (‘time-series regression of sea level on weather ’. s) = γ (t + h. en théorie du signal (‘Noise in FM receivers’. ou séries chronologiques. s + h) pour tout h ∈ Z (notion ‘faible’ de stationnarité).voire les deux (ARM A). 7 .1 Approches temps/fréquences : un peu d’histoire De façon générale. on a en tête une représentation de la forme Xt . s) de tendre vers 0 quand la différence entre t et s tend vers l’infini : la covariance entre des éléments très éloignés dans la série tend vers 0. 1. 1963). correspond à l’analyse statistique d’observations régulièrement espacées dans le temps. s) = E ([Xt − µ] [Xs − µ]) qui ne dépend que la distance entre t et s.Remarque 1. Les notes étaient alors basées sur des codes SAS. γ (t. basée sur l’utilisation des corrélations. Historiquement. en biologie (‘the autocorrelation curves of schizophrenic brain waves and the power spectrum’. L’idée est ici d’approximer une fonction analytique par une somme pondérée de fonctions sinus ou cosinus. 1 Introduction générale et notations L’étude des séries temporelles. 1968). 1960).. mais elles sont ajourd’hui en R. La reproduction ci-dessous est tiré d’un manuscrit du X e siècle. Ces méthodes sont généralement paramétriques de type moyenne-mobiles (moving average M A) ou autorégressives (AR) . quand on parle de séries stationnaires.. On demande généralement à cette autocovariance γ (t.etc. en économie (‘time-series analysis of imports. correspond à l’analyse de type ‘temporelle’ : elle consiste à étudier les corrélations croisées de fonctions de la série (Xt ). Cette approche. représentant l’inclinaison des orbites des planètes en fonction du temps. L’autre approche également utilisée est celle basée sur l’étude des fréquences’. Cette vision est une généralisation des méthodes utilisées en analyse de Fourier. utilisées à l’Université Paris 9 Dauphine. Ces notes de cours sont basées sur de vieilles notes de cours datant de 2005. Toutes ces méthodes consistants à estimer des paramètres peuvent généralement être vus comme des généralisations de la régression linéaire. 1906). C’est en particulier grâce à ce genre de données que Kepler a pu énoncer ses lois sur le mouvement des planètes. ce sont les astonomes qui les premiers ont travaillé sur des séries chronologiques. représentant les observations (potentielles) du processus.

en 1607 et en 1682 (cette comète avait été observée d’ailleurs depuis 240 avant J. dans Les changements périodiques de températures’ ont proposé des méthodes pour étudier la périodicité de données astronomiques. dite de Halley. 1. l’analyse harmonique. Buys et Ballot. parmi lesquelles.1 Analyse harmonique Les astronomes ont été les premiers à utiliser l’analyse de Fourier pour des séries chronologiques. en 1847. 2 En fait. puisque tous les 76 ans. de mettre en place les premières techniques d’étude des séries chronologiques2 .Ces visualisations graphiques ont permis. et il prévoit qu’on la reverra en 1758 (ce fut effectivement le cas. comme le note Bernstein dans Against the Gods (the remarkable story of risk).Y compris au XV IIIème siècle. Le facteur ρj (ou αj2 + βj2 ) correspond à l’amplitude de la j-ème composante périodique. qui constitue la base des méthodes spectrales d’analyse de séries chronologiques. Un demi-siècle plus tard.C. Toutefois. arrive en vue de la terre).). prévoir des phénomène futurs pouvait faire croire à une tentative de rivaliser avec les dieux : Halley remarqua que la même comète fut aperçue en 1531. la comète. Ainsi. et indique le poids de cette composante au sein de la somme. grâce aux différents outils mathématiques mis en place au XV III e et XIX e siècles. au grand émoi de toute l’Europe. mais ils n’ont jamais pensé à faire de la prévision. Lagrange a utilisé ces méthodes pour détecter de la périodicité cachée en 1772 et en 1778. 8 .1. les grecs ou les hébreux ont observés des phénomènes cycliques (par exemple). L’idée est la suivante : on recherche un modèle sous-jacent de la forme X X Yt = ρj cos [ωj t − θj ] + εt = [αj cos (ωj t) + βj sin (ωj t)] + εt . Il a fallu attendre la Renaissance pour que l’avenir ne soit plus qu’une question de chance ou un fruit du hasard. Leur but était de détecter des saisonalités cachées au sein de leurs données. où (εt ) est une suite de variables aléatoires indépendantes identiquement distribuées. qui correspondront à un ’bruit q blanc’ (cette notion serait longuement développée par la suite). il a fallu attendre 1889 pour que Sir Arthur Shuster introduise le périodogramme.

Si leur module est inférieur à 1. observée sur 600 jours. alors on observe un comportement sinusoïdal amorti. Le modèle autorégressif proposé par Yule est le suivant Yt = φ1 Yt−1 + φ2 Yt−2 + εt . cette suite présente un comportement saisonnier. c’est parce que des cycles parfaitement réguliers sont observés. et en considérant les fréquences ωj = 2πj/T . Si cette théorie a donné de très bons résultats en astronomie. de périodes respectives 24 et 29 jours. lorsque 0 < ρ < 1. et plus encore si l’on commençait à prendre en compte de facteurs économiques ou météorologiques.. En 1921 et 1922. et ont montré que la brillance pouvait être modélisée (presque parfaitement) à l’aide de 2 fonctions harmoniques. en considérant des modèles de la forme Yt = αYt−1 + βYt−2 . YT −1 . fonction des paramètres α et β. Whittaker et Robinson ont utilisé cette théorie sur la brillance de l’étoile TUrsa Major.. Toutefois.. Beveridge a utilisé cette théorie sur le prix du blé (wheat prices and rainfall in western europe’).2 Modèles autoregressifs et moyennes mobiles Deux articles en 1927 ont ouvert une autre voie : l’article de Yule (’on the method of investigating periodicities in disturbated series with sepcial reference to Wolfer’s sunspot numbers’) et celui de Slutsky (’the summation of random causes as the source of cyclical processes’). Etant données deux valeurs initiales. 1. et plus particulièrement de leur position par rapport au disque unité. son application en économie a conduit à des résultats nettement moins concluants. . Yule remarque qu’en fait. 9 (1) . cette méthode s’est révélée plus compliquée à mettre en oeuvre en sciences humaines.. le périodogramme est défini par  2 X 2  T  2 X I (ωj ) = Yt cos (ωj ) + a2 (ωj ) + b2 (ωj ) . la forme générale des solutions sera Yt = Aρt cos (ωt − θ) .1.A partir d’un échantillon Y0 . Si les phénomènes astronomiques permettent d’utiliser cette théorie. En 1924.. Yule a introduit dans la littérature les modèles autorégressifs. En fait. La série présentait tellement de pics qu’au moins 20 périodicités étaient possibles. le comportement dépend des racines (complexes) de l’équation z 2 − αz − β = 0. Cette convergence à été longuement étudiée par Yule en 1927. Yt sin (ωj ) = T 2 Il est alors possible de montrer que 2I (ωj ) /T est un estimateur consistant de ρ2j (au sens où cet estimateur converge en probabilité quand le nombre d’observations augmente).

e. Cramer. Pour cela. (Xt ) et (Yt ). de 1855 à 1877.. Y ) = cov (Xt . Les processus introduits par Yule deviendront les processus AR (p) et ceux introduits par Slutsky les processus M A (q). Wiener. écrit en 1927 en russe n’a été traduit qu’en 1937 en anglais.où (εt ) correspond à un ‘bruit blanc’ : un bruit blanc correspond à un processus ’indépendant’ (ou. Etant données deux séries temporelles. Le terme ‘bruit blanc’ vient de la théorie du signal. 1. mais surtout indépendantes du cycle économique. et on parle alors d’innovation du processus (Yt ) . non corrélé avec son passé). Poynting est le premier a introduire cette idée. Yt+k ) et la corrélation sérielle sera alors rk (X. La forme générale était la suivante. en considérant qu’une série chronologique est une réalisation d’un processus aléatoire... Y ) = ck (X. L’analogie entre les deux processus sera même poussée plus loin lorsqu’il sera montré que les processus AR (p) et M A (q) sont respectivement des processus M A (∞) et AR (∞).. Ce bruit ressemble à un souffle. Remarque 2. εt indépendant de Yt−h pour tout h ≥ 1. plus faiblement. l’approche temporelle repose sur l’autocorrélogramme. en étudiant la relation entre le mouvement du prix du blé. sous l’impulsion de Khintchine.. i. et a réussit à générer une série décrivant le cycle économique en Angleterre. Kolmogorov. sous certaines conditions. et les importations de coton et de soie. la covariance sérielle est définie par ck (X.etc. il a utilisé des nombres générés par la lotterie officielle.. 10 . dans une étude sur le taux de mariage en Angleterre. X). Comme pour la lumière blanche (qui est un mélange de toutes les couleurs). où la densité spectrale de puissance est la même pour toutes les fréquences.. Le coefficient d’autocorrélation est alors obtenu en considérant ρk = corr (Xt . Les années 30 ont alors vu l’éclosion des résultats de base dans le domaine des séries chronologiques. Néanmoins. le bruit blanc est composé de toutes les fréquences. à savoir φ0 Yt + φ1 Yt−1 + . Le coefficient de corrélation sérielle a été définit par Hooker en 1901. Slutsky a introduit les moyennes mobiles la même année que Yule a introduit les processus autorégressifs.. mais son article. Y ) /c0 (X. Xt+k ) = rk (X. + φp Yt−p = εt . Cette écriture a suggéré d’élargir la relation (1) sous une forme proche de (2). et l’indice du commerce. Y ). Yt = µ0 εt + µ1 εt−1 + . ou plus généralement sur l’utilisation de la corrélation sérielle.1. en 1884. correspondant à ces nombres générés par la lotterie officielle : on obtient des variables indépendantes entre elles (cf tables de nombres aléatoires). (2) où (εt ) est un bruit blanc. Wold. + µq εt−q . des hypothèses plus fortes doivent parfois être faites : on veut que ce bruit soit également indépendant du passé de la variable Yt . Ces auteurs ont développé une théorie des séries temporelles.3 L’approche temporelle : concept de corrélation sérielle Si l’approche spectrale repose sur l’utilisation du spectre (ou du périodogramme).

en 1970. Cet algorithme a permis de calculer rapidement des périodogrammes. il est possible de mettre en avant le même genre de relation entre les autocorrélations empiriques et le périodogramme empirique. 1930) et en Union Soviétique par Khintchine (’korrelationstheorie der stationaren stochastichen prozesse’. Box et Jenkins ont publié leur ouvrage ‘Time series analysis. present and future of macroeconomic forecasting’ de Francis Diebold (1997).1 Les modèles ARM A. en parallèle aux Etats-Unis par Norbert Wiener (‘generalised harmonic analysis’. forecasting and control ’. et pouvait être facilement implémentée informatiquement3 . 1934). Leur résultat est de mettre en avant une relation bijective entre la fonction d’autocovariance d’un processus stationnaire. où γ (h) = cov (Xt .2 Les développements récents L’étude des séries temporelles semble avoir atteint sa maturité au cours des années 70 où des développements significatifs sont apparus. 1.2. 0 Cette simple idée de lissage du périodogramme a permis de contourner les problèmes qu’avait pu observer Beveridge lorsqu’il cherchait des périodicités cachées dans des disciplines autres que l’astronomie. il peut être intéressant de se reporter à ‘The past. et sa densité spectrale : Z π +∞ 1 X γ (h) cos (ωh) ou γ (h) = cos (ωh) g (ω) dω.4 L’équivalence entre les deux approches temps/fréquence Dans un premier temps.1. En 1965. et la seconde travaillant sur le spectre de la série) a été faite dans les années 30. 1. ARIM A et SARIM A : modèles linéaires Les modèles ARM A sont un mélange des modèles (1) et (2) proposés par Yule et Slutsky. A la même époque. Xt−h ) . montrant que l’étude des séries temporelles à l’aide de processus de type ARM A (obtenus en associant les écritures (1) et (2) des processus AR et M A) pouvait s’appliquer à de nombreux domaines. g (ω) = 2π h=−∞ 0 Et si l’analogie entre autocorrélogramme et densité spectrale existe d’un point de vue théorique. l’analyse harmonique a été généralisée pour passer d’une somme de Fourier à une intégrale de Fourier Z π Yt = [cos (ωt) dA (ω) + sin (ωt) dB (ω)] . La synthèse entre ces deux branches (la première travaillant en temps.1. Un processus (Xt ) est un processus ARM A (p. introduisant la Fast Fourier Transform (FFT ). q) s’il existe un bruit blanc (εt ) (c’est à 3 Sur les méthodes de prévision en économie. Cooley et Tukey ont beaucoup aidé l’étude spectrale des séries grâce à leur article ‘an algorithm for the machine calculation of complex Fourier series’. avec des autocorrélations. 11 .

qui est alors le rendement ou le taux de croissance (“return” ). q) un processus (Xt ) pouvant se mettre sous la forme Π (L) Xt = Φ (L) (1 − L)d Xt = Θ (L) εt . d. on dira qu’un processus non-stationnaire est intégré d’ordre 1. si en le différenciant une fois. et (Zt ) où Zt = (1 − L)d Xt . + φp Xt−p + εt + θ1 εt−1 + .. CAC40 ou SP 500).. par exemple les séries d’indices boursiers. Parmi les transformations usuelles des variables. pour tout t.. Par généralisation. d’indice de production. 4 Ceci n’est qu’une notation : comme nous le verrons par la suite.. pour tout t) tel que Xt = φ1 Xt−1 + . Comme nous le verrons par la suite. + θq Lq . Cela signifie que (Yt ) définit comme différence d’ordre d du processus (Xt ). soit Lp Xt = Xt−p : la série (Yt ) telle que Yt = Lp Xt est alors la série (Xt ) retardée de p périodes. par extension. On dira. annuelle. la transformation par (1 − L) est parmi les plus utilisées : on ne considère alors plus la série brute (Xt ) mais la variation (brute) Yt = Xt − Xt−1 . que (Xt ) est intégré d’ordre d si (Xt ) est non-stationnaire. q)” 4 . Dans le cas où Xt est un prix (par exemple un indice boursier.. + θq εt−q . L représentant l’opérateur retard.. on considère également souvent la variable obtenue comme différence des logarithmes des prix Zt = log Xt − log Xt−1 . On parlera d’ailleurs de présence de racine unité : 1 est alors racine du polynôme autorégressif Π (z).. au sens où LXt = Xt−1 . Parallèlement. est non-stationnaire. on obtient un processus stationnaire : (Xt ) (non-stationnaire) sera dit intégré d’ordre 1 si le processus (Yt ) définit Yt = ∆Xt = Xt − Xt−1 = (1 − L) Xt est stationnaire. On dira alors que l’on est présence d’une racine unité saisonnière. on peut considérer le cas où exp (2iπ/s) est racine du polynôme autorégressif : c’est à dire que Π (L) = (1 − Ls ) Φ (L).. − φp Lp et Θ (L) = I + θ1 L + . Sous certaines conditions. On appelera alors processus ARIM A (p. ‘suit un processus ARM A (p. ces processus peuvent s’écrire sous la forme Φ (L) Xt = Θ (L) εt . q). Pour les données réelles... pour tout k...dire un processus stationnaire tel que εt et εt−k soient indépendants. (Yt ) où Yt = (1 − L)d−1 Xt . d’indice de prix. Les modèles SARIM A sont également très présents dès lors que les séries sont très saisonnières (avec une forte péridicité trimestrielle. 12 . est stationnaire..etc). ces processus sont stationnaires.. Remarque 3. et avec la convention Lp = L ◦ Lp−1 . soit Yt = (1 − L)d Xt . .. Les modèles intégrés sont très présents dans les séries économiques. on notera que d = 1. où (εt ) est un bruit blanc. où Φ (L) = I − φ1 L − . 2 ou 3 (au maximum). qui engendreront les modèles SARIM A.. les processus ARIM A sont un peu plus compliqués que les processus ARM A puisqu’il faut prendre en compte des conditions initiales : (Yt ) ne suit qu’asymptotiquement un processus ARM A (p.

où ht = α0 + α1 Xt−1 Cette classe de modèle. On retrouve dans cette classe les processus de Levy. Pour cela. j=1 générant ainsi les modèles GARCH. Xt = εt ht . un modèle économétrique est dit homoscédatique si la variance des erreurs (cen trées) E ε2t est constante . Plusieurs classes de processus appartiennent à cette série. Les processus stationnaires de type AR ont un autocorrélogramme qui converge vers 0 de façon exponentielle (γ (h) = αβ h ). En 1982. la distribution de Yct soit égale à celle de cH Yt .2.2. Cette forme pour ht a permis l’analogie entre les modèles AR et les modèles ARCH. Engle a introduit la classe des modèles ARCH (autorégressifs conditionnellement hétéroscédastiques5 ). p 2 2 Xt = εt ht . et sur leur modélisation.quelque soit la période d’étude. 13 .. 1. généralisation des modèles ARIM A décrits par Box et Jenkins. la variance conditionnelle de Xt sachant Xt−1 est constante : V (Xt |Xt−1 ) = σ 2 où V (εt ) = σ 2 (notion d’homoscédasticité).volatilité stochastique Dans les années 80. Les processus à mémoire longue seront caractérisés par une décroissance de leur autocorrélogramme suivant une fonction puissance (γ (h) = γhδ ). introduits par Kolmogorov en 1958 et développés par Mandelbrot (1965) : ces processus sont caractérisés par l’existence d’une constante H (dite de self-similarité) telle que. cette classe de modèles ARCH a été généralisée de la même façon que les ARM A généralisent les AR. Dans le cas contraire. des développements ont été apportés dans l’étude de la non-linéarité de certaines séries. Ces modèles ARIM A étaient obtenus en considérant que les différences premières 5 Pour rappel. V (Xt |Xt−1 ) = α + βXt−1 σ 2 .2 Modèles ARCH .. où ht = α0 + α1 Xt−1 + . et plus  2 particulièrement. (i) les processus self-similaires.3 Les processus à mémoire longue D’autres avancées ont été faites sur la mémoire longue de certaines séries. (ii) les processus F ARM A. pour tout constante c. en considérant des fonctions ht de la forme ht = α0 + p X 2 αi Xt−i i=1 + q X βj εt−j .1. il a considéré les modèles de la forme p 2 . Les modèles sont ici conditionnellement hétéroscédatistique car E ε2t |εt−1 dépend de t. Ces modèles ont été introduits pour palier à une observation empirique qui n’était pas prise en compte par les modèles : la volatilité conditionelle d’une série (Yt ) n’a aucune raison d’être constante. appelée ARCH (1) a été généralisée sous la forme ARCH (p). Dans les modèles AR (1). De plus. on parlera  d’hétéroscédasticité. + αp Xt−p . Engle a cherché un modèle dans lequel la variance conditionnelle de Xt sachant Xt−1 dépendrait de Xt−1 .

η t ) est un bruit blanc normal. L’idée est d’estimer récursivement Z t en fonction de Y 0 . Si l’on se place uniquement en dimension 2. repose sur la manipulation des séries d’opérateurs retard (L). et intégrées d’ordre d. Y t . compris entre −1/2 et 1/2. si le vecteur (Z t ) est intégré d’ordre d.etc) suivent un processus ARM A (p. Ztn sont cointégrées si et seulement s’il existe une relation linéaire non-nulle des composantes qui soient intégrées d’ordre strictement inférieur à d (iii) le modèle ’filtre de Kalman’.sont une généralisation des modèles AR en dimension n. d’autres développements ont été fait dans l’étude des processus multivariés. et Yt dépendant de Xt−1 . de la forme  Z t+1 = At Z t + εt Y t = Ct Z t + η t . on obtient un modèle de la forme        Xt φ1 α1 Xt−1 εt = + . on comprend que la généralisation des processus univariés à une dimension supérieur est relativement compliquée. formellement. ∆2 Xt = ∆ (∆Xt ). On considère des processus vérifiant. . et sur le développement en série entière de (1 − L)d . . (iii) l’aggrégation de processus AR (1) a également été proposée par Granger en 1980 et cette classe de processus a été étudiée par Gourieroux et Gonçalves en 1988.. Si l’on considère par exemple un couple Z t de deux variables (Xt . et (εt . Ce modèle est un cas particulier d’une classe plus large de modèles. satisfaisant une relation du type Xt = α + βYt + εt . Yt β1 ψ1 Yt−1 ηt où la matrice At est composée des coefficients autoregressifs ‘usuels’ (φ1 et ψ1 ) mais aussi des notions relatives à la notion de causalité.. . où (Y t ) est le vecteur que l’on étudie. 14 . Les processus F ARIM A ont été obtenus en considérant. (ii) la cointégration est une notion relative au comportement des plusieurs variables intégrées.t = Φi Xi. les cas où d n’est pas entier.. pour tout t ≥ 0.4 Les processus multivariés Enfin. et à la relation qui les unit à long terme : on considère (Xt ) et (Yt ) nonstationnaires. Cette généralisation. on dira que les séries Zt1 ..vecteurs autorégressifs .t−1 + Ci εt + ηi. proposée par Granger en 1980.. 1... (Z t ) est un vecteur aléatoire (=état) inconnu.∆d Xt (où ∆Xt = Xt − Xt−1 . At et Ct sont des matrices déterministes.t pour i = 1. 2. Yt ) que l’on souhaite expliquer par leur passé. soit Z t = A1 Z t−1 + Ut . (i) les modèles V AR .. q). Plus formellement. les modèles espace d’états. Zt2 . Xt dépendant de Yt−1 .. Xi.. On parle alors de processus ARM A intégré.2.

il convient d’effectuer une prévision ‘globale’ : la théorie des modèles V AR (modèles autorégressifs vectoriels) a été introduite en économie sous l’impulsion de Sims en 1980. Nelson et Plosser ont d’ailleurs noté. entrainant une inertie importante : Ct = αRt + β + γCt−1 . qui a travaillé sur des systèmes d’équations où toutes les variables sont alors endogènes (contrairement aux équations structurelles de Keynes). basés sur la notion de modèle autorégressif. qui avait travaillé sur la notion ‘simple’ de causalité entre variables. mais la différence (ou le spread ) X −Y peut être stationnaire. Cette théorie avait toutefois été étudiée dès les années 70 par Granger par exemple. dès 1978. Les prévisions non-structurelles ont alors pu prendre en compte les différents cycles observés en économie (1977 : ‘Business cycle modeling without pretending to have too much a priori theory’ de Sargent et Sims) : des prévisions de séries économiques peuvent se faire sans nécessairement avoir de modèle structurel derrière. En particulier.1. Brown avait proposé un modèle légèrement différent dès 1952. Les modèles utilisés sont toutefois relativement anciens puisqu’ils sont inspirés des modèles de Slutsky et Yule. en 1982 qu’un grand nombre de séries macroéconomiques étaient caractérisées par la présence d’une racine unitaire (c’est à dire une écriture de la forme Ct = Ct−1 + Xt ). le lacune de la théorie de Box et Jenkins est qu’elle ne prend pas en compte des effets croisés de dépendance entre variables. qui introduisi de la dynamique dans la 15 . sous la forme Ct = αRt + β : une prévision de Rt permettait de prévoir Ct . tous deux datant de 1927. Ces ‘prévisions structurelles’ ont toutefois cessé de faire référence à partir des années 70. permettant de travailler sur des systèmes d’équations où certaines variables sont cointégrées. dès 1936. Plus particulièrement. Toutefois. au sein de modèles structurels. ce qui conduirait à écrire Ct = Ct−1 + εt où εt est un aléa. la présence d’un certain nombre de variables non-stationnaires a posé un certain nombre de problèmes : Granger a alors introduit la notion de cointégration en 1981 : cette notion dit que deux variables X et Y peuvent suivre une tendance stochastique. Une autre piste qui a été explorée à la même époque est celle des modèles non-linéaires.5 Exemple : histoire de la prévision des modèles économiques (macroéconomiques) La théorie économique inspirée de Keynes reposait sur l’utilisation de ‘prévisions conditionnelles’ : sous certaines hypothèses. en intégrant le fait que les individus ont des habitudes de consommation. puis un modèle V AR intégrant dans chaque équation un modèle à correction d’erreur. les prévisions d’une ou plusieurs variables étaient faites conditionellement à des comportements. La publication de l’ouvrage de Box et Jenkins en 1970 permettra une avancée rapide avec l’utilisation des modèles ARM A. Hall se posait la question de savoir si la consommation par habitant n’était pas une martingale. Et c’est finallement en 1987 que Campbell a proposé un modèle V AR sur la consommation C et le revenu R. Pour effectuer de la prévision d’un ensemble de variables. Cette voie a été ouverte dès 1982 par Engle.2. Toutefois. a priori liées. Cette notion sera à l’origine des modèles à tendance commune. Keynes proposait par exemple de lier la consommation Ct au revenu disponible Rt .

puisque l’aspect temporel doit être pris en compte.années 60 : application en macroéconomie. On observera ainsi des prix. Dans le cas des données hautes fréquences. avec rupture de tendance. 16 . Les modèles que nous allons étudier dans ce cours sont basés sont basés sur l’étude de processus (Xt ) où les variables observées sur supposées à valeurs réelles : X1 . des taux. Xt .. Xt2 . Vi . à l’aide des modèles ARCH. Xt . Par exemple. . des montants.volatilité. mais aussi pour des modèles d’inflation... Pour résumer l’histoire des applications économiques des séries temporelles. à changement de régime.6 Remarque sur les données hautes fréquences Remarque 5. avec des modèles structurels : une vingtaine de variables.. codépendance). par exemple. Des nombres de voyageurs seront. de la théorie des panels en microéconomie : 3000 individus suivis sur 3 ou 4 périodes) . .. Des compléments peuvent se trouver dans l’article de Chris Chatfield (1997) intitulé ‘Forecasting in the 1990s’. Les modèles que nous allons étudier dans ce cours sont basés sont basés sur l’étude de processus (Xt ). considérés comme une variable réelle. Pi ). pour étudier la liquidité des marchés financiers.2.. non observées.... modèles multivariés (causalité. X2 . .années 70 : théorie de Box et Jenkins. cointégration. Ces modèles ont été très utilisés en finance.etc. a priori : • les processus de comptage (ex : nombre d’accident pour un conducteur l’année t) • les processus à valeurs dans un espace d’état fini 1. Début des modèles à temps continu..... Xtn .etc. La théorie des modèles à changement de régime repose sur l’idée que derrière les variables observées existent des variables cachées. Remarque 4. longs = Kondratieff ) .. on peut retenir le schéma suivant .... observés à des dates régulières : X1 .années 50 : début de la théorie des séries temporelles. où les dates ti sont telles que ti − ti−1 soit constante pour tout i. l’analyse est relativement différente. .. .années 80 : en marcroénomie. la prévision . mais deux cas seront exclus de notre étude.. s’appuyant sur un logiciel (modèle linéaire) : on considère les variables une à une. . de la version discrère d’un processus en temps continu : on observe Xt1 .années 20 : macroéconomie descriptive : description des cycles (courts = Slutsky. avec comme objectif principal. on peut noter les modèles avec cycles. a la rigueur. Il peut s’agir. à la même époque. et 200 observations (maximum) . Parmi des améliorations apportées dans les années 90. on considère les triplets de variables suivants : (Ti . X2 . 2000 observations.. des variations de prix.années 90 : données hautes fréquences sur les marchés financiers (de 4000 à plus de 2000000 observations).. Début de l’utilisation des modèles de séries temporelles sur données financières : beaucoup de variables. .∈ R. sur 200 observations (début.

i. . Dans ce cas. en particulier à cause de la présence de multiples cycles (un cycle d’une journée sera observée sur des données horaires par exemple. ou des observations ponctuelles : Pt sera le prix observé à la date t (par exemple tous les jours.la moyenne du processus est constante : E (Yt ) = m pour tout t ∈ Z . et τi la date écoulée entre la ième et la i − 1ème transaction : τi = Ti − Ti−1 ... Toutefois... l’étude peut s’avérer plus complexe que dans le cas où l’on considère des séries économiques observées à 200 dates. Ytn +h ) Cette définition toutefois peut être affaiblie : le processus est dit stationnaire au second ordre si .). il est à noter que même dans ce cas. Ytn ) = L (Yt1 +h . Vi le volume échangé lors de la transaction. 1.d. ou toutes les heures) et Vt le volume total échangé pendant la période (en une journée. rien n’empêche d’avoir des skewness et des kurtosis variables en fonction du temps. On considère (Ti ). La stationnarité du second ordre correspond uniquement à une stabilité des deux premiers moments : E (Yt ) = E (Ys ) et V (Yt ) = V (Ys ) pour t 6= s.3. 17 .. mais nous considèrerons plutôt des agrégations.. en statistique. ou encore annuels.où Ti est la date de la iéme transaction. Si l’on considère les lois marginales (à t fixé) du processus. et Pi le prix de cette transaction. Xs ) = γ (|t − s|) Cette dernière propriété implique en particulier que la variance de Yt est constante : V (Yt ) = σ 2 .. tn et h... la suite des dates de transaction. puis des cycles mensuels. Cette étude permet de changer l’échelle des temps : on ne considère plus le temps calendaire mais le temps des transactions. la stationnarité (forte) signifie une stabilité de la loi marginale : la loi de Yt et la loi de Ys sont identiques pour t 6= s. Toutefois. La notion de base pour étudier ce genre de données est la théorie des modèles de durées. t1 . dans ce cours. ou trimestriels (publication de comptes). car elle remplace (de façon naturelle) l’hypothèse d’observation i. La première notion de stationnarité peut se définir de façon forte par une stabilité en loi du processus : quels que soient n.1 Stationnarité des processus La stationnarité joue un rôle central dans la théorie des processus.3 Théorie des processus à temps discret Deux types de processus sont utilisés dans la théorie des séries stationnaires (i) les processus stationnaires (ii) les processus markoviens 1... . où les volumes de données sont très importants. . ou une heure).les autocovariances ne dépendent que de la différence entre les observations : cov (Xt . nous ne traiterons pas de ces aspects. Deux notions sont généralement considérées. Remarque 6. on a l’égalité entre les lois jointes L (Yt1 .

Y µY ρσX σY σY2 Un vecteur gaussien n’est pas uniquement un vecteur dont les lois marginales sont uniformes (cf cours de probabilité). Toutefois. σX et N µY . h  εt et εt−h sont indépendantes pour tout t. Xs+h ). la stationnarité du second ordre suppose uniquement une stabilité de la corrélation (moment d’ordre 2) : cov (Xt . si X et Y suivent des 2 lois normales N µX . On peut simuler un bruit blanc gaussien en utilisant > epsilon=rnrom(100) 1. La stationnarité au sens fort est beaucoup plus forte que cette condition sur le moment d’ordre 2. tels que cov (X1 . Y1 ) 6= L (X2 . Y1 ) = cov (X2 . Si l’on considère la dépendance temporelle. σY avec corr (X. alors on n’a pas nécessairement       2 X µX σX ρσX σY ∼N . i. de la même façon qu’il est possible de définir deux notions de stationnarité.la stabilité de la structure de dépendence entre Xt et Xt+h se résume à une stabilité du coefficient de corrélation (ou de covariance). 6 Rappel : soient X1 et X2 de même loi. L’exemple le plus simple de processus stationnaire est le bruit blanc. Xs+h ). suppose uniquement une stabilité des deux premiers moments : . qui sera utilisée dans la première partie de ce cours. 18 . Le processus (εt ) est un bruit blanc faible s’il existe σ 2 telle que   E (εt ) = 0 pour tout t V (εt ) = E (ε2t ) = σ 2 pour tout t  cov (εt . et pour tout h 6= 0.   E (εt ) = 0 et V (εt ) = E (ε2t ) = σ 2 (finie) pour tout t L (εt ) = L (εt−h ) pour tout t.la stationnarité au second ordre n’empêche pas une variation des moments d’ordres plus élevés (asymétrie de la loi ou épaisseur des queue fonctions du temps). comme nous le verrons dans la partie sur les modèles ARCH).Remarque 7. Xt+h ) et (Xs . Cette hypothèse d’indépendance permet toutefois de définir un bruit blanc fort. Les variables aux différentes dates sont uniquement non corrélées (ce qui fera une différence importante. Y ) = ρ. puisqu’elle suppose une stabilité de toutes les lois jointes6 : en particulier. . il existe deux sorte de bruit blanc. Y1 et Y2 de même loi.e. εt−h ) = E (εt εt−h ) = 0 pour tout t. Y2 ). Aucune hypothèse d’indépendance n’est faite dans cette définition.2 Propriété de Markov en temps discret La théorie sur les chaînes de Markov (en temps discret) est également un élément important. alors on n’a pas égalité des  lois jointes2 : L (X1 . Xt+h ) = cov (Xs .3. La notion de stationnarité au second ordre. En particulier. et pour tout h 6= 0. cette condition implique l’égalité en loi des couples (Xt . Y2 ).

. Xt−3 . c’est à dire que nous ne traiterons pas le cas des ”chaînes de Markov” (où Xt prend ces valeurs dans un espace d’état fini ou dénombrable) E = {i1 . Nous ne nous intéresserons. Cette fonction g étant a priori difficile à exhiber..4.. En économétrie... obtenir la série corrigée des variations saisonnières (méthodes de désaisonnalisation). Pour les séries stationnaires. Xt−k ) .. Remarque 8.. . 19 . de manière linéaire. où Xt vaut soit 0. .. in . Toutefois.4 1. visant à chercher une fonction f telle que Xt = f (Xt−1 . ... εt ) peut être difficile à implémenter. .. . on cherche une relation du type Y = g (X1 . et aux processus de diffusion obtenus à partir du mouvement brownien.. Xt−3 .. . εt ) ..) = (Xt |Xt−1 ) .} E=R t discret t continu Chaînes de Markov Processus de Poisson Séries Temporelles Calcul Stochastique (Brownien) Les chaînes de Markov correspondent par exemple au cas où Xt est à valeurs dans un ensemble fini ({i1 .1 Objectifs de l’études des séries temporelles Description et modélisation Le but est ici de déterminer les différentes composantes d’une série (Xt ).. en particulier. qui peut se réécrire. ε). .. Le cas où le temps est continu et où les variables sont à valeurs dans N (par exemple) correspond aux processus de comptage. où (εt ) est un bruit blanc. 1. on souhaite que les variables d’état soient des valeurs retardées du processus : toute l’information est contenue dans les k valeurs les plus récentes L (Xt |Xt−1 .. Xt−2 .Cette propriété correspond à l’idée que l’on souhaite résumer l’information contenue dans les variables passées du processus par un nombre fini de variables (les variables d’état). Xt−2 . Xn .. Dans le cas le plus simple. d (Xt |Xt−1 . . on peut aussi chercher à modéliser la série à l’aide d’un modèle ARM A. par exemple dans le but de faire de la prévision. à l’ordre 1. que dans le cas où l’espace d’état E est R. in . soit 1.etc.. cette théorie. De la même façon. la théorie des modèles ARIM A vise à expliquer Xt en fonction de son passé (et éventuellement d’un bruit). .. dans ce cours. Le calcul stochastique correspond au mouvement brownien. permant d’expliquer une variable Y à l’aide de variables exogènes X1 ..}) où dénombrable (N) : par exemple les variables dichotomiques. la méthode la plus simple est de considérer le cas linéaire.. aux processus de Poisson. à la théorie des files d’attente. Xn . Il est possible de montrer que cette relation est équivalente à Xt = g (Xt−1 ...) = L (Xt |Xt−1 ..

basé réalisation en T + h.. ‘Time series analysis’. P. Une première méthode est le lissage exponentiel. ‘Time Series analysis : forecasting and control ’. . (1995) ‘Séries temporelles et modèles dynamiques’. (1998). Economica • GOURIEROUX. & JENKINS. 1. ou du type mémoire longue.1. (1995) ‘Les Méthodes de prévision’ Presses Universitaires de France (Que sais-je ? 2157) • DACUNHA-CASTELLE.G. & MONFORT. Economica Des compléments d’informations sur différents points abordés peuvent être trouvés également dans • BOURBONNAIS.J. (1970).3 Filtrage Le lissage consiste à transformer une série de façon à détecter (pour éliminer ou au contraire conserver ) certaines caractérisques (composante saisonnière. XT le but est de faire une prévision.R.B. ‘Séries chronologiques . points abérants.4.A.J. & DUFLO. ‘Analyse des séries temporelles en économie’... est généralement choisi de façon à minimiser la somme des carrés des erreurs de prévision.4.J. & TERRAZA.M. 1. FICHET.. à la date T .J.P.).C.M.5 Conseils bibliographiques (en français.J.. avec un intervalle de confiance. ‘Probabilités et Statistiques Tome 2 : Problèmes à temps mobile’ Masson • HAMILTON. de nombreuses relations existent afin de faire de la prévision. et en anglais) Les principaux ouvrages servant de référence à ce cours sont les suivants. PUF • BOX.G. Princeton University Press 20 . • DROESBEKE. & TASSI. où α. Dans le cas des modèles ARM A. Cette méthode permet également de détecter des ruptures au sein d’une série. Holden-Day • BROCKWELL. notée X bT (1) = αXt + (1 − α) X bT −1 (h).théorie et pratique des modèles ARIMA’. B & DROESBEKE.J. (1985). de la bT (h). compris sur une formule de récurrence de la forme X entre 0 et 1. (1987) ‘Time series : theory and methods’ Springer-Verlag • COUTROT.D.. (1994). Nous verrons comment ces intervalles de confiance sont modifiés si une modélisation ARCH est retenue. (1995).2 Prévision Sur la base d’observation X1 ..

C.• HARVEY. (1993) ‘Time Series Models’ Cambridge: MIT Press • HYLLEBERG S. (1991).L. Ellipses • NERLOVE M. (1990) ‘Méthodes de prévision à court terme’.H. (1984) ‘Econometric models and economic forecasts’ McGraw-Hill 21 .S & RUBINFELD. ‘Analysis of Economic Time Series’ Academic Press.R. (1992). GRETHER D. G. CARVALHO J. (1995).D.A. ‘Introduction to multiple time series analysis’ SpringerVerlag • MELARD.M.L. • PINDYCK. ‘Modeling Seasonality’ Oxford University Press • LUTKEPOHL.

1 Rappels sur les martingales à temps discret Un processus (à temps discret) sur un espace (Ω. Xn ). ω). pour tout h≥0 h X  2 2 E [Xt+h − Xt ] = E ∆Xt+i . La filtration la plus usuelle est obtenue de la façon suivante : on observe une suite (Xt ) de variables aléatoires.. Xn suivant la probabilité P.. P). A.. Si pour tout t. c’est à dire de comprendre la liaison entre Xi et son passé Xi−1 . . On dira que (Xt ) est une martingale si et seulement si.. 2.... Xt est Ft−1 mesurable. qui est la plus petite tribu qui rende mesurable les variables (X0 . c’est à dire que se réalise un évènement ω tel que xi = Xi (ω) pour i = 1. En d’autres termes. . Xi−2 . n. . xn doit être obtenu comme tirage aléatoire de X1 .. t ∈ N} tel que pour tout t. Xt ). les accroissements sont orthogonaux : si ∆Xt = Xt − Xt−1 . c’est à dire une suite (Xn ) de variables aléatoires définies sur un espace de probabilité (Ω. Définition 9. si la martingale est de carré intégrable.. On dira que le processus (Xt ) est prévisible si pour tout t ≥ 1.. E (Xt+h |Ft ) = Xt . tel que l’on puisse penser que la série observée soit une réalisation du processus. A.. et on considère Ft = σ (X0 . xn par un processus aléatoire à temps discret. E (Xt+1 |Ft ) = Xt presque sûrement. pour s 6= t. . Une des conséquences est que. On posera F∞ = sup {Ft . E (∆Xt ∆Xs ) = 0. Xt est Ft -mesurable.. t ∈ N).. xn de reconstruire la dynamique du modèle sous-jacent. Le processus {Xt . Remarque 11. De plus.2 Propriétés des processus univariés en temps discret La pratique de l’analyse des séries temporelles vise à modéliser une série d’observations x1 . Définition 10.. Xt soit intégrable. et si pour tout t... t ∈ N} muni de la filtration {Ft . Si (Xt ) est une (Ft )-martingale.. défini sur l’espace produit Ω × N muni de la tribu produit. t ∈ N} est la donnée d’une suite croissante (au sens de l’inclusion) de sous-tribus de A. pour tout t. . à valeurs dans un espace mesuré (E.. On peut considérer le processus comme la variable aléatoire X (t.. on dira que (Xt ) est une sur-martingale. E (Xt+1 |Ft ) ≥ Xt presque sûrement. E) (dans le cas qui nous intéresse. Le but est alors. X1 . .. On dira que (Xt ) est adaptée à la filtration (Ft ) si pour tout t. La filtration naturelle est la plus petite filtration par rapport à laquelle le processus soit X adapté.. E = R).  X et on la notera Ft . E (Xt+1 |Ft ) ≤ Xt presque sûrement. alors pour tout h ≥ 0.. x1 . On appellera filtration naturelle cette filtration. P) est une suite de variables aléatoires (Xt .. Une filtration {Ft . . on dira que (Xt ) est une sous-martingale. étant donnée une trajectoire x1 . . t ∈ N} : il s’agit de la plus petit tribu qui contienne toutes les Ft .. i=1 22 .

Xt+h ) = E ([Xt − µ] [Xt+h − µ]) = γ (h)..) = L (Xt |Xt−1 . E (Xt ) = µ.0) comme nous l’appelerons ici.) d’un processus (Xt ). On notera que si l’on a parlé de chaîne d’ordre 1. . on obtient une discrétisation du mouvement brownien. la loi de XT à l’instant T est entièrement déterminée par le fait que la valeur en T − 1 soit xT −1 . Xt−3 . .2. c’est qu’il doit Ãłtre possible d’introduire une chaîne d’ordre supérieur. sont markoviens. εt ) avec (εt ) une suite de variables aléatoires.. t ∈ N} est une chaîne de Markov d’ordre p si et seulement si. Xt−p ) .1. indépendantes et de même loi. indépendante de t. compte tenu de la trajectoire (XT −1 = xT −1 . Définition 18. pour tout t. au sens où γ (h) = γ (−h) pour tout h 23 . 2.si εt suit une loi normale centrée.) mesurable et un processus εt tel que Xt = g (Xt−1 .) est une fonction paire. La fonction γ (. Le processus {Xt . Xt−2 .2 Rappels sur les Chaînes de Markov Définition 12.. les processus de la forme Xt = Xt−1 + εt correspond à une marche aléatoire : . Théorème 13. . E (Xt2 ) < +∞. on obtient la marche aléatoire symétrique sur Z (jeu du pile ou face). Définition 16. ou un processus ARIMA(0. (ii) pour tout t. Les processus AR (1) : Xt = α + βXt−1 + εt .. L (Xt |Xt−1 . L (Xt |Xt−1 . XT −2 = xT −2 . Le processus {Xt .) sera appelée fonction d’autocovariance On peut montrer aisément que γ (. Exemple 14. Un processus (Xt ) est stationnaire au second ordre si (i) pour tout t. En particulier.. pour tout t. ..) = L (Xt |Xt−1 ) .. . où (εt ) est un bruit blanc ind’ependant du passé du processus.si X0 ∈ Z et P (εt = −1) = P (εt = +1) = 1/2. Exemple 15.. t ∈ N} est une chaîne de Markov d’ordre 1 si et seulement si. (iii) pour tout t et pour tout h. cov (Xt . Lorsque l’application g ne dépend par de t. Xt−2 . Xt−3 . Le processus {Xt . la chaîne de Markov est dite homogène.3 Notions de ‘stationnairité’ Définition 17. Autrement dit.. t ∈ N} est une chaîne de Markov d’ordre 1 si et seulement s’il existe une fonction g (. constante indépendante de t.

Xi+2 . Xtn ) = (Xt1 +h .. Un processus stationnaire (Xt ) sera dit ergodique si pour tout p ∈ N∗ . i. Cette stationnarité est beaucoup plus forte que la stationnarité du second ordre.Remarque 19. 2 est stationnaire dès lors que (Xt ) est stationnaire. Proposition 20.e.) = 0 pour tout t. la suite Yt est stationnaire. Remarque 25. Xtn +h ) . si (ai . . i ∈ Z) est une P suite de réels absolument convergente.. Un processus (Xt ) est stationnaire au sens fort si pour tous t1 .. ou.. cela signifie que Xt+1 = Xt + εt avec E (εt+1 |εt . i∈Z est un processus stationnaire. pour tout t ∈ Z.. Xp )) . indépendante de t. E (Xt+1 |Xt . Si (Xt . Cette notion est plus contraignante que celle de “marche aléatoire” : en effet. Remarque 23. Xi+p ) → E (f (X1 .. Définition 24. Définition 22. la propriété de martingale implique l’indépendance des accroissements (εt ) alors que la définition de la marche aléatoire n’implique que la nullité des corrélations des accroissements. et si (ai . si a0 = a1 = 1/2.. 24 .. V (Xt ) = γ (0) . i∈Z |ai | < +∞. et pour tout fonction borélienne de Rp à valeurs dans R. Xt−1 . .. puisqu’on ne recherche pas la stabilité de la loi. de façon équivalente. . . et ai = 0 pour i ∈ / {0. Définition 26..) = Xt pour tout t.. quand N → ∞. Cette notion revient à dire que la loi temporelle est invariante en temps. tn et h on a l’égalité en loi L (Xt1 . 1} : Yt = 1 (Xt + Xt−1 ) . En particulier. Une des conséquences est que variance V (Xt ) est constante. mais seulement la stabilité des deux premiers moments. i ∈ Z) est une suite de réels finie... Corollaire 21.... on a N 1 X f (Xi+1 . pour tout t. Par exemple. De même pour Yt = Xt − Xt−1 ... . . X2 . N i=1 qui peut être vu simplement comme une généralisation de la loi de grand nombre. On appelle bruit blanc (parfois appelé bruit blanc faible) un processus (εt ) stationnaire dont les autocovariance sont toutes nulles : γ (h) = 0 pour h 6= 0. alors. le processus (Yt ) défini par X Yt = ai Xt−i ... Nous avons vu dans la partie précédante que (Xt ) est une martingale si et seulement si. t ∈ Z) est un processus stationnaire.. εt−1 .

3L4 ).si le processus obtenu après d différenciation est stationnaire : Zt = ∆d Xt = (1 − L)d Xt est stationnaire Comme nous le verrons par la suite. alors que les seconds correspondent à une non-stationnarité de type stochastique.-. et la variable rejoint alors sa dynamique de long-terme. Une des propriétés importantes de ce type de processus est qu’il n’y a pas persistance des chocs : l’influence d’un choc subit à un instant τ aura tendance à s’estomper au cours du temps.ylim=c(-2.4L2 − 0.7L − 0.-sqrt(1-u^2). si 1 est une racine du polynôme Φ.5))) [1] 0..pch=19. en 1982. et surtout hétérogène : il existe différentes sources de non-stationnarité.589454 Il est aussi possible de visualiser les racines unités dans C.-.sqrt(1-u^2).5L − 0.La notion de stationnarité (faible. par exemple pour Φ(L) = (1 + 0.7. dépend de t. L’exemple le plus simple est celui de la tendance linéaire bruitée : Xt = α + βt + εt . et (Zt ) est un processus stationnaire.3) plot(Re(polyroot(PM)).8779734 2. revient à chercher la présence de racines unité : si le processus Φ (L) Xt est stationnaire.3L4 ) ou Φ(L) = (1 + 0.5L2 ) ou Φ(L) = (1 + 0.089454 4.2779734 > Mod(polyroot(c(1.-.4L2 + 0.by=. et à chaque origine de non-stationnarité est associée une méthode propre de stationnarisation.. par exemple pour Φ(L) = (1 + 0.7.. et donc. le fait qu’il faille différencier d fois.Im(polyroot(PM)).4. (Xt ) est un processus non-stationnaire DS .col="blue".ou intégré d’ordre d. > > > > > PM=c(1. ou au second ordre) se définie par une invariance des moments d’ordre 1 et 2 au cours du temps. (Xt ) est un processus non-stationnaire TS s’il peut s’écrire sous la forme Xt = f (t) + Zt où f (t) est une fonction (déterministe) du temps. > library(polynom) > Mod(polyroot(c(1. Nelson et Plosser ont retenu. Ce processus est en effet non-stationnaire puisque son espérance vaut α + βt à la date t. deux classes de processus non-stationnaires : les processus T S (trend stationary) et les processus DS (difference stationary) Les premiers correspondent à une non-stationnarité de type déterministe. C’est pour cela que la plupart des tests de nonstationnarité sont des tests de détection de racine unité. Pour obtenir les racines d’un polynôme.5. alors (Xt ) sera non-stationnaire. Par opposition. On peut noter que la classe des processus non-stationnaire est alors relativement vaste.2).01) lines(u.0.7L − 0.2))) [1] 1. on peut utiliser la commande suivante.2)) u=seq(-1. on dira qu’une série est non-stationnaire si elle n’est pas stationnaire.1. polynôme de l’opérateur retard L. déterminée par f (t). Définition 28.-.col="red") lines(u. Définition 27. noté I (d) .xlim=c(-2.2L2 ).5L − 0.col="red") 25 . c’est à dire multplier par (1 − L)d .

) est à valeurs dans [−1. centré et non-autocorrélé : E (εt ) = 0. Définition 31.. On parlera de bruit blanc fort s’il est indépendant et identiquement distribué (i.-. V (εt ) = σ 2 et ρε (h) = 0 pour h 6= 0. Xt−h ) = E (Xt Xt−h ) − E (Xt ) . Xt−h ) = p = γX (0) V (Xt ) V (Xt−h ) Cette fonction ρX (. Exemple 32.3) plot(Re(polyroot(PM)). soit ρ (1) = et ρ (h) = 0 pour |h| ≥ 2.ylim=c(-2.0. +1]. Pour une série stationnaire (Xt ) . et ρX (0) = 1. Définition 30.) : la notion d’indépendance est plus forte que la nullité des autocorrélations. Xt−h ) γX (h) p .col="purple".d. par h 7→ γX (h) = cov (Xt .col="grey") abline(v=0.   γ (0) = [1 + θ2 ] σ 2 θ γ (1) = θσ 2 .  1 + θ2 γ (h) = 0 si |h| ≥ 2 26 .Im(polyroot(PM)). Pour une série stationnaire (Xt ) .2). Un processus (εt ) sera appelé bruit blanc (faible) s’il est stationnaire.4 2..4. par cov (Xt .4. h 7→ ρX (h) = corr (Xt . Processus M A (1) : Xt = εt + θεt−1 où (εt ) est un bruit blanc centré de variance σ 2 . pour tout t.i. pour tout t.xlim=c(-2. on définit la fonction d’autocorrélation.2)) 2. et le fait que le processus soit identiquement distribué est plus fort que la stabilité des deux premiers moments.E (Xt−h ) . on définit la fonction d’autocovariance.1 Fonction d’autocovariance et densité spectrale Autocovariance et autocorrélation Définition 29.5.> > > > abline(h=0.pch=19.col="grey") PM=c(1.

2π Proposition 36. la densité spectrale est alors définie comme la transformée de Fourier des coefficients d’autocovariance (dans le cas où la somme des |γX (h)| tend vers l’infini. fε (ω) = Proof. Kolmogorov. Cette représentation est appelée représentation de Cramér. fX (ω) = 2π h∈Z Proposition 34. −π Exemple 35. Définition 33. Réciproquement. si fX (. γX (h) = −π où FX (ω) /γX (0) est une fonction de répartition.2.). on les résultats suivants.) est la densité spectrale de (Xt ) alors Z +π γX (h) = fX (ω) exp (iωh) dω. Si la densité spectrale d’une série (Zt ) est constante. la somme est à prendre au sens de L2 ) : comme l’ont montré Cramér. Soit (Xt ) un processus stationnaire de fonction d’autocovariance γX (. complexe. appelée mesure spectrale du processus. à accroissements non corrélés. Dans le cas où la série des autocovariance est absolument convergente. ou encore Wiener. Un bruit blanc (εt ) est caractérisé par  γε (0) = V (εt ) = σ 2 γε (h) = 0. dite spectrale. (i) la suite des fonctions d’autocovariance γX (h) d’un processus stationnaire peut être écrit sous la forme Z +π exp (iωh) dFX (ω) . Il est possible de montrer que cette mesure spectrale admet une densité. Alors sa densité spectrale est donnée par σ2 (= constante).4. par rapport à la mesure de Lebesgue sur [−π. que nous noterons fX . π]. En effet Z +π γZ (h) = Z +π fZ (ω) exp (iωh) dω = K −π −π | 27 exp (iωh) dω {z } =0 sauf si h=0 . pour h 6= 0.2 Densité spectrale ? ? ? L’idée ici est que les coefficients d’autocovariance d’une série stationnaire correspondent aux coefficients de Fourier d’une mesure positive. R +π (ii) tout processus stationnaire peut se mettre sous la forme Xt = −π exp (iωt) dz (ω) où z (ω) est une fonction aléatoire. la densité spectrale de (Xt ) s’écrit 1 X γX (h) exp (iωh) . alors (Zt ) est un bruit blanc.

Si Xt est une moyenne mobile. où (εt ) est un bruit blanc BB 0. Proposition 37.Cette nullité de la fonction d’autocorrélation est donc une charactéristique du bruit blanc. Si on considère Yt = P βj Xt−j alors. σ 2 . on a la relation suivante . k∈Z avec P |aj | < +∞. X  Xt = ak εt−k .

.

2 .

X .

fY (ω) = fX (ω) .

βj eiωj .

. .

.

A titre indicatif.. XT . to obtain usefull estimate of the autocorrelation function.. 2. γ bT (h) → γ (h) et ρbT (h) → ρ (h) quand T → ∞. ”In pratice. j∈Z j∈Z 2 Exemple 38. and the estimated autocorrelations rk could be calculated for k = 1. Bien que ces fonctions soient définies pour tout h tel que −T < h < T . 28 .4.. say. nous avons même normalité asymptotique des moments empiriques. comme nous le verrons par la suite.. γ bT (0) Si ces estimateurs sont biaisés (à distance finie). we need at least 50 obsevations. K where K was not larger than. Les moments empiriques convergent vers les moments théoriques : X T → m. Proposition 39. ils sont malgré tout asymptotiquement sans biais. la fonction d’autocovariance empirique fournit un estimateur très pauvre de γ (h) pour des valeurs h proches de n.. Yt = Xt − φXt−1 où |φ| < 1. alors fY (ω) = fX (ω) |1 + φeiω | . T − h t=1 et la fonction d’autocorrélation empirique est donnée par ρbT (h) = γ bT (h) . XT = T t=1 La fonction d’autocovariance empirique est donnée par T −h γ bT (h) =   1 X Xt − X T Xt−h − X T . . La moyenne empirique est donnée par T 1X Xt . T /4”.. . Remarque 40. En fait.3 Estimation de la fonction d’autocorrélation Considérons un ensemble d’observations X1 . Box et Jenkins recommandent de n’utiliser ces quantités que si T > 50 et h ≤ T /4.

Si (Xt ) est un processus linéaire. lim T cov (b γT (h) . Si (Xt ) est un processus linéaire. et où les φj définissent une série absolument convergente. et où η est une constante positive. en théorie.      γ bT (0) γ (0) √   . alors. > X=rnorm(100) > as.k=0. telle que E (εt ) = ηE (εt ) < +∞. de faire de la selection de modèles. alors. Ce théorème n’est.179 0. Il est alors possible d’utiliser le résultat suivant Proposition 41. où les φj définissent une série absolument convergente. et εt ∼ N (0. il est important de pouvoir dire si les autocovariances empiriques sont significativement non nulles. on a la formule dite de Bartlett.. i=−∞ Proof.169 0. ..244 > plot(acf(X)) 29 . centrées. on a.166 -0.vector(acf(X)) Autocorrelations of series ‘X’. γ bT (p) γ (p) où V est la matrice de variance-covariance définie par " # +∞ X V = ηγ (h) γ (k) + γ (i) γ (i + k − h) + γ (i + k) γ (i − h) i=−∞ .016 0.  .000 -0.. telle que E (εt ) = ηE (εt ) < +∞. Proposition 42. et où η est une constante positive. V  .i.d. valable que pour un bruit blanc fort. h. au sens où il satisfait Xt = P 2 2 4 j∈Z φj εt−j où (εt ) est une suite de variables i. On peut également montrer que ces autocorrélation vérifient une propriété encore plus forte.. centrées. Brockwell et Davis (1991) page 226. by lag 0 1 2 3 4 5 6 7 8 9 1.054 0. n  → N  .008 0.i.    .p Proof.063 0. pour tout p ≥ 0.Afin.089 0. σ 2 ).. Brockwell et Davis (1991) page 227.d. γ bT (k)) = ηγ (h) γ (k) + T →∞ +∞ X γ (i) γ (i + k − h) + γ (i + k) γ (i − h) . par exemple. au sens où il satisfait Xt = P 2 2 4 j∈Z φj εt−j où (εt ) est une suite de variables i..

4. .4 Estimation de la densité spectrale ? ? ? Le périodogramme est observations est défini comme le module au carré de la transformé de Fourier discrète des observations.e. i.2.

.

2 T .

1

X
1 X

IT (x) = Xt exp (itx).

= γ bT (h) exp (iωx) . .

.

2πT .

σ = 2π exp 2π 0 7 Cette notion sera définie en détails par la suite. Les valeurs du périodogramme sont asymptotiquement biaisées. Mais il n’est pas consistant (on ne peut estimer que les T premier γ (h) intervenant dans la définition du périodogramme à partir de T observations). le périodogramme est un estimateur asymptotiquement sans biais de la densité spectrale. 30 . xk = 2kπ/T pour k = 1. Pour les processus dit à mémoire longue. 2π t=1 h∈Z Le plus souvent. π[ forme une suite de variables indépendantes. il est possible d’estimer directement la variance du processus d’innovation7 . noté IT. en utilisant la formule dite de Kolmogorov. et identiquement distribuées. Exemple 43.d.. Dans le cas d’un processus i. Cette densité spectrale permet d’obtenir un grand nombre de résultat. Sous des hypothèses de régularité de la densité spectrale. on estime le périodogramme aux fréquences de Fourier. Le fait que cette fonction ait un pôle (ici en 0) est d’ailleurs une caractérisation de la mémoire longue. évalué aux fréquences de Fourierde ]0.. . et asymptotiquement corrélées. la densité spectrale s’exprime sous la forme f (x) = |1 − exp (ix)|−2d f∗ (x) .   Z 2π 1 2 log fX (x) dx . Exemple 44.k .i. i. T . à deux degrés de liberté. Par exemple. où f∗ est une fonction positive. suivant une loi du χ2 .. gaussien.e. centré.

< tk . Pour visualiser un mouvement browien il suffit de considérer une 31 . . quelles que soient les dates t1 < t2 < .5 Lien entre temps continu et temps discret ? ? ? Définition 45. tel que W0 = 0 et tel que. Un mouvement brownien Wt est un processus stochastique..n .k . Wt est continu en t. σ 2 (ti − tj )). sans être dérivable : bien que le processus soit continu.. définit pour t ∈ R+ .. les variations du processus entre deux dates ti et tj (telles que ti < tj ) sont normalement distribuées Wti − Wtj ∼ N (0.k = −2 log |xk | + mT j=1 k=1 k=0 et où mT est une suite d’entiers positifs telle que mT → 0 = ∞ et mT /T → 0 quand T → ∞. d= LT. Dans le cas où σ 2 = 1..pgram(X) 2. la densité spectrale est de la forme fX (x) ∼ Cx−2d . Wtk − Wtk−1 sont indépendantes.. De plus. Un estimateur non paramétrique de d peut être obtenu en régressant localement le log-périodogramme dans un voisinage de la fréquence nulle. avec E Wti − Wtj = 0 et V Wti − Wtj = σ 2 (ti − tj ). les variations ne sont pas bornées. De plus. T t=1 2 Dans le cas des processus à mémoire longue. on parlera de mouvement brownien standard.j .k où LT. Wt3 − Wt2 . les variations du processus Wt2 − Wt1 .k LT. > spec.Un estimateur de cette variance est alors T 1X σ b = log IT. log LT. On appelle alors estimateur GPH !−1 m mT mT T X X 2 X 2 b log IT.

[rT ]  1 X L p Xt → N 0. avec la convention (r) X0 = 0.) L et d’après le théorème central limite fonctionnel. 1)). On obtient alors le résultat suivant Z 1 T X T →∞ −3/2 T Xt−1 → σ Ws ds. r) ou encore → N (0. σ Ce type de résultat est alors très utile pour obtenir des résultats analytiques sur les processus intégrés.. soit Xt = ε1 + ε2 + . + εi ) . Notons X T la variable construite à partir des [rT ] premières observations par (r) XT [rT ] 1X = Xt .] la partie entière au sens où [x] ≤ x < [x] + 1 et [x] ∈ Z.. alors pour tout 0 < r < 1. Proposition 46. Considérons par exemple. centré. au sens où √ (.X T /σ est asymptotiquement distribuée comme un mouvement brownien. Soit [.) pour r1 < r2 .. Ceci permet de montrer que la suite des T . Notons X T la variable construite à partir des [rT ] premières observations par (r) XT [rT ] 1X 1 i−1 i == Xt = (ε1 + ε2 + . 0 t=1 32 . σ σ √ (. XT un échantillon i. où ≤r< . . une marche aléatoire définie par Xt = Xt−1 + εt où εt est un bruit blanc de variance σ 2 . σ 2 [rT ] t=1 (r) Ce résultat est parfois appelé “Théorème Centrale Limite Fonctionnel ”. X2 . pour laquelle on diminue les intervalles temporels entre deux dates consécutives. T . T t=1 du résultat précédant. t=1 √ (. Soit X1 .i.X T → σW. T t=1 T T T on a alors √ Z T 1 (r) X T dr = T −3/2 0 T X xt−1 ..) T XT L → W. de variance σ 2 . ...d.marche aléatoire continue : on considère une marche aléatoire discrète (Xt = Xt−1 + εt où εt ∼ N (0. il en découle que  √  (r2 ) (r1 ) √ (r) T XT − XT T XT L L → N (0. + εt pour tout t. r2 − r1 ) ...

T . Considérons ici Xτs . on peut montrer que T −2 T X 2 T →∞ (Xt−1 ) → σ 2 1 Z (Ws )2 ds. Mais si les modèles en temps continu sont autant utilisés. s’étend aux processus en temps continu. T . . un processus défini pour t = 0. Considérons ici (Xst ).. puis par passage à la limite. Aussi..... 1.. 0 t=1 Ces résultats seront utilisés en particulier pour la détermination des propriétés asymptotiques des estimateurs obtenus à partir de séries intégrées... T j=1 La variation quadratique du mouvement bronwien standard (Wt ) est obtenu comme passage à la limite t X < W >t = lim [Wj − Wj−1 ]2 = t T →∞ j=1 De la même façon. 1] : soit τs = s/T pour s = 0. . 1] : soit st = t/T pour t = 0. l’intégrale stochastique se définit en temps discret par Z t Xs dWs = Zt = 0 t X Xi [Wj − Wj−1 ] i=1 où (Xs ) est un processus discret : Xs = Xi pour (i − 1) /T ≤ s < i/T .. Un processus suivant l’équation stochastique Z t Z t dYt = f (t. et considérons un découpage en T subdivisions de l’intervalle de temps [0. 1. c’est principalement parce que le calcul stochastique et la formule d’Ito permet d’analyser les problèmes de façon élégante et relativement rapide. le processus défini pour s = 0. 1. Yt ) dWt ou Yt = Y0 + f (s. On appelera variation quadratique de la série chronologique (Y ) la série chronologique définie par < Y >t = t X [Yj − Yj−1 ]2 pour t = 0.. l’intégrale d’une fonction aléatoire par rapport à une mesure déterministe de définie déjà comme une limite : soit At un processus en temps continu. Considérons un découpage en T subdivisions de l’intervalle de temps [0. . . 1.. par Ys = At I (T t ≤ s < T (t + 1)). Ys ) dWs 0 8 0 De façon plus simple. Ys ) ds + g (s. Yt ) dt + g (t. T . T . alors Z 0 t s 1X As ds = lim Ys T →∞ T j=1 33 .. noté Ys .De façon analogue. 1.. tous les modèles financiers en temps continu ont un analogue en temps discret. . noté (Yt ).. La construction de l’intégrale stochastique s’obtient d’ailleurs comme passage à la limite sur des processus à temps discret8 ..

Yt ) + g (t. Yt ) εt où (εt ) est un bruit blanc gaussien. Yt ) [Wt+1 − Wt ] = f (t. réduits et indépendants. un modèle à temps discret de type GARCH (1. 34 . Réciproquement. en reprenant un exemple de Nelson (1990). de variance 1. est l’analogue en temps discret de l’équation de diffusion  dYt = f (σt2 ) dt + σt dWt1 dσt2 = (ω − θσt2 ) dt + ασt2 dWt2 où (Wt1 ) et (Wt2 ) sont deux mouvements browniens centrés.peut être assimilé à un processus en temps discret vérifiant l’équation (approximation d’Euler ) Yt+1 − Yt = f (t. défini par  Yt = Yt−1 + f (σt2 ) + σt εt 2 = ω + σt2 (β + αεt ) σt+1 où (εt ) est un bruit blanc gaussien. Yt ) + g (t. 1) − M (multivarié). Remarque 47.

si elle est très utilisée en pratique. comme nous le verrons par la suite. par exemple linéaires. + Yt+m ) 2m + 1 (3) Ce type de filre. cette décomposition. alors que le cycle correspond à la dynamique de court terme.. Xt = Tt + Ct = a + bt + Ct (4) Ces modèles apparaissent parfois dans la littérature sous le terme T S (trend stationary).les points extrêmes de la série ne peuvent être traités de la même façon que les autres points (effet de bord ) . conserve les tendances linéaires. par exemple en utilisant la méthode P AT (phase average trend ) ou le filtre de Hodrick-Prescott (1980). Il est alors souvent admis que la tendance correspond à l’équilibre de long terme. Les méthodes traditionelles reposent sur deux techniques : l’estimation d’une tendance déterministe et le lissage. et filtre (ou annule) les séries périodiques de période 2m + 1. Toutefois. deux problèmes apparaissent dans l’utilisation des filtres moyennes-mobiles . Des méthodes plus récentes se basent sur la notion de tendance stochastique. L’estimation d’un trend déterministe repose sur l’utilisation de fonctions simples. nous pouvons dès à présent noter que cette neutralité est difficile à mettre en oeuvre : il existe une infinité de façon de construire la tendance moyenne.les séries lissées sont souvent autocorrélées. Cette tendance 35 . Nous allons nous concentrer ici sur des décompositions additives de la forme (Xt ) = (Tt )+(Ct ). Toutefois. Parmi les méthodes de lissage. par exemple. qui conserve la tendance et élimine le cycle. mais il s’agit d’une conséquence du processus de lissage (effet Slutsky-Yule). Deux approches sont alors générallement utilisées : la première consiste à utiliser une théorie économique (c’est à dire un modèle structurel dont les composantes auront des interprétations économiques). D’autre méthodes de lissage existent. Il existe alors de nombreuses méthodes pour évaluer la croissance tendancielle. Nous allons nous intéresser ici à cette seconde approche. Un modèle multiplicatif peut en effet se ramener à un modèle additif en passant au logarithme. l’approche la plus simple consiste à utiliser des moyennes mobiles on utilise alors une moyenne (pondérée) de la série (Xt ) dont la durée correspond au cycle.. + Yt−1 + Yt + Yt+1 + . et le cycle (supposé stationnaire) apparaît alors comme l’écart à la tendance. alors que la seconde tend à utiliser des outils statistiques ’‘neutres”. La moyenne symétrique arithmétique est l’exemple le plus simple : on considère alors la série (Yt ) définie par Yt = M (Xt ) = 1 (Xt−m + Xt−m+1 + . Mais cette distinction ne suffit pas pour identifier clairement les deux composantes. et des hypothèses supplémentaires sont alors nécessaires. avec en particulier la méthode de Beveridge et Nelson. et les modèles à composantes inobservables.La décomposition tendance-cycle L’analyse des séries temporelles (économiques par exemple) repose le plus souvent sur une décomposition tendance-cycle de la série.. non pas à cause de la structure de la série initiale.. ne repose pas sur une construction théorique unique. Néanmoins.

fr/public/data/autoroute. Les modèles à composantes inobservables repose surl’utilisation de modèles espace-état (e.sep=".csv". et il convient d’intégrer une composante stochastique dans la tendance. Des modèles avec rupture de tendance ont ainsi été introduits. 9). même si elle a été fortement critiquée : la croissance à long terme est alors fixée de façon mécanique.free. frequency = 12) > plot(decompose(X)) Il convient toutefois de noter que cette décomposition tendance-cycle ne sont pas adaptées pour les séries non-stationnaires.") > a7=autoroute$a007 > X=ts(a7.blog.start = c(1989. 36 . > autoroute=read. Ces deux méthodes sont présentées dans l’article de Doz. Rabault et Sobczack Décomposition tendance-cycle : estimations par des méthodes statistiques univariées (1995).g.table( + "http://freakonometrics. Le modèle de Beveridge et Nelson propose d’exprimer les composantes à l’aide d’une représentation ARIM A de la série. + header=TRUE. filtre de Kalman). Cette méthode sera celle developpée dans la première partie.est alors estimée par régression.

2:13]))). mensuelle. 1).matrix(sncf[.table( "http://freakonometrics.") SNCF=ts(as.start = c(1963. comportant une forte saisonalité.1 Présentation des données Nous considérons ici une série chronologique.sep=". 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 > + + > + > JAN F EB M AR 1750 1560 1820 1710 1600 1800 1670 1640 1770 1810 1640 1860 1850 1590 1880 1834 1792 1860 1798 1850 1981 1854 1823 2005 2008 1835 2120 2084 2034 2152 2081 2112 2279 2223 2248 2421 2481 2428 2596 2667 2668 2804 2706 2586 2796 2820 2857 3306 3313 2644 2872 2848 2913 3248 AP R M AY 2090 1910 2120 2100 2190 2020 1990 2110 2210 2110 2138 2115 2085 2120 2418 2219 2304 2264 2522 2318 2661 2281 2710 2505 2923 2795 2806 2976 2978 3053 3333 3141 3267 3391 3250 3375 JU N 2410 2460 2610 2500 2480 2485 2491 2722 2175 2684 2929 3021 3287 3430 3463 3512 3682 3640 JU L 3140 3200 3190 3030 2880 2581 2834 2912 2928 2971 3089 3327 3598 3705 3649 3744 3937 3771 AU G 2850 2960 2860 2900 2670 2639 2725 2771 2738 2759 2803 3044 3118 3053 3095 3179 3284 3259 sncf=read.lwd=2. le trafic voyageur de la SNCF en France ( Gouriéroux & Monfort (1995)).vector(t(as. frequency = 12) plot(SNCF. .fr/public/data/sncf.col="purple") 37 SEP OCT N OV 2090 1850 1630 2190 1870 1770 2140 1870 1760 2160 1940 1750 2100 1920 1670 2038 1936 1784 1932 2085 1856 2153 2136 1910 2178 2137 2009 2267 2152 1978 2296 2210 2135 2607 2525 2160 2875 2754 2588 2764 2802 2707 2839 2966 2863 2984 2950 2896 2849 3085 3043 3206 3269 3181 DEC 2420 2270 2360 2330 2520 2391 2553 2537 2546 2723 2862 2876 3266 3307 3375 3611 3541 4008 .csv". header=TRUE.blog.3 Désaisonnalisation par regression linéaire 3.free.

Exemple 49.. Zti et Stj . On suppose que Zt et St sont des combinaisons linéaires de fonctions connues dans le temps. Plusieurs types de composantes tendancielles existent : (i) linéaire : Zt = β0 + β1 t.2. −1 (v) logistique Zt = [αβ t − γ] .   0 si t = mois i 0 si t = 0 [modulo i] i i St = ou St = 1 si t 6= mois i 1 si t 6= 0 [modulo i] .. (iii) quadratique Zt = β0 + β1 t + β2 t2 . Le but est d’estimer les β1 . i.  Zt = Zt1 β1 + Zt2 β2 + . + Stn γn . Pour des données trimestrielles. à savoir que les erreurs sont centrées : E (εt ) = 0. Exemple 48.3.. de même variance V (εt ) = σ 2 et non-corrélées cov (εt .3 Composante tendancielle Cette composante a généralement une forme simple. (iv) de Gompertz Zt = exp (αβ t + γ) . εt−h ) = 0 pour tout h > 0. 3. + Ztm βm St = St1 γ1 + St2 γ2 + .. ou Zt = α (1 + r)t ou encore Zt = α exp (rt) ..2 Composante saisonnière du modèles La forme de St dépend du type de données. Xt = m X Zti βi + i=1 3. T.1 n X Stj γj + εt pour t = 1. 38 . On considèrera ici des fonctions Sti indicatrices. 3. Pour une tendance linéaire... . (ii) exponentielle : Zt = αβ t .. on a St = St1 γ1 + St2 γ2 + St3 γ3 + St4 γ4 où Stj est la fonction indicatrice du trimestre j.e...2. . βm et γ1 . j=1 Hypothèses sur les erreurs On supposera l’hypothèse suivante vérifiée. et de la forme de la saisonnalité..2 Le modèle linéaire La série Xt est la somme de 2 composantes déterministes : une tendance Zt .. Zt = β1 + β2 t on pose Zt1 = 1 et Zt2 = t. d’une saisonnalité St et d’une composante aléatoire εt Xt = Zt + St + εt .2. γn à partir des T observations.. . reflétant la croissance moyenne.

dans le cas où la tendance est supposée linéaire.. .   1 2 3 Xt 1 t St St St St4 qui peut se réécrire..   . εt            soit X = Y θ + ε         ε1 ε2 ε3 ε4 ε5 ε6 ε7 ε8 ε9 . . 1 0 0 0 1 0 0 0 1 .  0 0 0 1 0 0 0 1 0 ..   . Il est également possible d’utiliser des modèles avec des ruptures :  α0 + α1 t pour t ≤ t0 Zt = β0 + β1 t pour t > t0 . . 0 1 0 0 0 1 0 0 0 . pour l’exemple du traffic SNCF                5130 1 1 1 0 0 0  6410   1   2   0   1   0   0                   8080   1   3   0   0   1   0                   5900   1   4   0   0   0   1                   5110   1   5   1   0   0   0                   6680   1   6   0   1   0   0   = α +β +γ +γ +γ +γ       1       +  8350   1   7   0  2 0  3 1  4 0                   5910   1   8   0   0   0   1                   5080   1   9   1   0   0   0                   .   . Le modèle s’écrit alors. équivaut à tester le modèle linaire Xt = a + βt + γ1 St1 + γ2 St2 + γ3 St3 + γ4 St4 + εt .   .   ...   .   .  . Xt 1 façon matricielle. | {z } | {z } Zt St où Zt est la tendance (linéaire) et où St est la composante saisonnière. Cette tendance est une des composante les plus compliquée à modéliser car il n’existe pas vraiment de méthode 3. .   . Supposons que les données commencent au 1er trimestre. t St1 St2 St3 St4                   39  α β γ1 γ2 γ3 γ4             +             ε1 ε2 ε3 ε4 ε5 ε6 ε7 ε8 ε9 .   ....4 Modèle trimestriel de Buys-Ballot (1847) La désaisonnalisation par régression linéaire.   .   .   .   . . 0 0 1 0 0 0 1 0 0 . 1 2 3 4 5 6 7 8 9 .Le cas (i) se traite par régression simple (cf partie suivante)..... εt           ..2.. et le cas (iii) se traite par régression multiple. .. .         . de    5130 1  6410   1     8080   1     5900   1     5110   1     6680   1  =  8350   1     5910   1     5080   1     . le cas (ii) se ramène au cas (i) par transformation logarithmique.   ..    . et les données sont trimestrielles.

Le graphique des données trimestrielles est le suivant 40 . Toutefos. mais correspond à une interprétation bien précise. • ne pas tenir compte de la constante. Deux méthodes sont alors possibles pour faire malgré tout l’identification du modèle. + start = c(1963.numeric(SNCF).L’écriture de l’estimateur des moindres carrés ordinaires s’écrit θb = (Y 0 Y )−1 Y 0 X.length(SNCF)/3). cette écriture n’est possible que si Y 0 Y est inversible. Considérons la série représentée ci dessous. 1). et identifier le modèle  Xt = α + βt + γ1 St1 + γ2 St2 + γ3 St3 + γ4 St4 + εt sous contrainte γ1 + γ2 + γ3 + γ4 = 0.3.2. ce qui n’est pas le cas ici car la première colonne (correspondant à la constante) est égale à la somme des 4 dernières (les composantes trimestrielles). frequency = 4) > plot(SNCFQ. avec une saisonnalité d’ordre 4 (données trimestrielles) > SNCFQ= ts(apply(matrix(as. rajouter une contrainte...sum).col="red") > SNCFQ Qtr1 Qtr2 Qtr3 Qtr4 1963 5130 6410 8080 5900 1964 5110 6680 8350 5910 1965 5080 6820 8190 5990 1966 5310 6600 8090 6020 . etc. et identifier le modèle Xt = βt + δ1 St1 + δ2 St2 + δ3 St3 + δ4 St4 + εt . (5) (6) Cette dernière contrainte est arbitraire.

.. avec pour estimateur mco βb = [Z 0 Z]−1 Z 0 X. S’il n’y a pas d’effet saisonnier. S n  = Stj j=1.. ce qui donne les coefficients (  −1  0  βb = Z 0 Z − Z 0 S (S 0 S)−1 S 0 Z Z X − Z 0 S (S 0 S)−1 S 0 X  −1  0  γ b = S 0 S − S 0 Z (Z 0 Z)−1 Z 0 S S X − S 0 Z (Z 0 Z)−1 Z 0 X .. b vérifie alors l’équation 0  0 Y Y bb = Y X soit [Z S] et donc  βb γ b   = Z 0Z Z 0S S 0Z S 0S Z0 S0   bb = −1  Z 0X S 0X Z0 S0  X...T t=1.. γ = (γ1 ... γn )0 .n t=1..     | | | |     Z =  Z 1 .3.. γ  0 bγ et bb = β...1 Solutions générales On considère un modèle de la forme Xt = m X Zti βi + i=1 n X Stj γj + εt pour t = 1..n et S =  S 1 .  ....T | | | | Le modèle s’écrit   β X = Zβ + Sγ + ε = [Z|S] + ε = Y b + ε.. X = Zβ + ε. Z m  = Zti i=1... . et on retrouve le modèle linéaire usuel.3 Estimateur des moindres carrés ordinaires (mco) 3. . βm )0 .. 41 ...  j=1 Notations : β = (β1 . . j=1 La méthode des mco consiste à choisir les βi et γj de façon à minimiser le carré des erreurs ( )   X 2 βbi . T... γ bj = arg min ε t t=1 = arg min  " X Xt −  t=1 m X Zti βi + i=1 n X Stj γj #2   ....3.. Remarque 50.

L modèle s’écrit alors Xt = β1 + β2 t + St1 γ1 + St2 γ2 + St3 γ3 + . + Stm γm + εt . peut se réécrire  " #2  T 4  X X β1 = [δ1 + δ2 + δ3 + δ4 ] /4 j min Xt − β2 t − St δj où γj = δj − β1 .2 Cas particulier : le modèle trimestriel de Buys-Ballot Pour le modèle Xt = β1 + β2 t + St1 γ1 + St2 γ2 + St3 γ3 + St4 γ4 + εt . et en notant (de la même façon que précédemment) N le nombre d’années entuères.3. admet alors pour solution. L’équation ( i2 P h P j minβ. 4 d’où finallement 3.3. en notant 12 βb2 = m PN ne xn − N (N2+1) x N (N 2 − 1) n=1 42 . il est possible d’expliciter les différents coefficients.γ t=1 j=1 En notant N le nombre d’années entières (N = T /4).. + γm = 0.γ Tt=1 Xt − β1 − β2 t − m S γ j=1 t j sous contrainte (∗) γ1 + γ2 + γ3 + . 2..3 ( i h βb1 = δb1 + δb2 + δb3 + δb4 /4 γ bj = δbj − βb1 (7) (8) (9) Généralisation des formules de Buys-Ballot (tendance linéaire) Les relations obtenues dans le cas précédant peuvent en fait être généralisées dans le cas d’une périodicité m. on pose x en : moyenne des Xt relatives à l’année n xj : moyenne des Xt relatives au trimestre j x : moyenne de toutes les observations Xt On a alors les estimateurs suivant PN ne xn − N (N2+1) x βb2 = 3 n=1 N (N 2 − 1) δbj = xj − [j + 2 (N − 1)] βb2 pour j = 1..3.γ Tt=1 Xt − β1 − β2 t − 4j=1 Stj γj sous contrainte (∗) γ1 + γ2 + γ3 + γ4 = 0. L’équation ( i2 P P h minβ.  β.. 3.

1 Application au trafic voyageur Série agrégée par trimestre Consiédérons la série du trafiic SNCF agrégée par trimestre. et une tendance supposée linéaire (Zt = β1 + β2 t). avec une saisonnalité en 4 composantes (les données étant trimestrielles : chaque composante correspondant à un trimestre). c’est à dire sans contrainte. représentée ci-dessous.Nm + 1 βb1 = x − βb2 2   m+1 b γ bj = x ej − x − β2 j − 2 3. n\j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 xj 1 2 3 4 5130 6410 8080 5900 5110 6680 8350 5910 5080 6820 8190 5990 5310 6600 8090 6020 5320 6800 7650 6110 5486 6738 7258 6111 5629 6696 7491 6494 5682 7359 7836 6583 5963 6743 7844 6692 6270 7524 7997 6853 6472 7871 8188 7207 6892 8236 8978 7561 7505 9005 9591 8608 8139 9212 9522 8816 8088 9494 9583 9204 8983 9986 9907 9457 8829 10340 10070 9669 9009 10265 10236 10458 6605 7932 8603 7425 x en 6380 6513 6520 6505 6470 6398 6578 6865 6811 7161 7435 7917 8677 8922 9092 9583 9727 9992 7641 Considérons alors un modèle de la forme suivante. on rajoute la contrainte que la somme des γj soit nulle (c’est à dire que la composante saionnière soit centrée : E (St ) = 0). Xt = β1 + β2 t + St1 γ1 + St2 γ2 + St3 γ3 + St4 γ4 + εt . 43 . Compte tenu de la sur-identification de ce modèle.4.4 3. et sans constante β1 (ii) et on se ramène au modèle (6) en utilisant les relations. On peut alors faire l’estimation de la façon suivante : (i) on estime le modèle (5). avec en ligne les années. et en colonne les trimestres.

00 13 025.00 165 359.25 9 092.50 95 001.00 38 389.00 81 779.25 9 583.00 6 398.25 6 577. et de 8603 pour le troisième. pour ces 72 observations.97 ≈ 5845 δbj = xj − [j + 2 (N − 1)] βb2 et donc b2  δ3 = 8603 − 37 × 57.00 179 856.50 46 042.25 9 727.50 7 161. La moyenne totale est alors de 7641. la moyenne pour le premier trimestre est de 6605. N = 18 (on a 18 années d’observations).50 71 610.75 8 677.00 7641.00 Pour chacune des années et chacun des trimestre.00 19 560. et par année.00 9 992. soit en effectuant la régression sous EViews • Calcul direct des estimateurs 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 n\j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 xj 5 5 5 5 5 5 5 5 5 6 6 6 7 8 8 8 8 9 6 T1 T2 T3 T4 130 6 410 8 080 5 900 110 6 680 8 350 5 910 080 6 820 8 190 5 990 310 6 600 8 090 6 020 320 6 800 7 650 6 110 486 6 738 7 258 6 111 629 6 696 7 491 6 494 682 7 359 7 836 6 583 963 6 743 7 844 6 692 270 7 524 7 997 6 853 472 7 871 8 188 7 207 892 8 236 8 978 7 561 505 9 005 9 591 8 608 139 9 212 9 522 8 816 088 9 494 9 583 9 204 983 9 986 9 907 9 457 829 10 340 10 070 9 669 009 10 265 10 236 10 458 605 7 932 8 603 7 425 x en 6 380. et   δb1 = 6605 − 35 × 57.50 7 916.25 8 922.00 26 020.25 124 911. et de façon analogue.00 6 810. et la pente de la droite de la tendance est donnée par βb2 = 3 N (N 2 − 1) " N X n=1 # ne xn − N (N + 1) 3 x = [1 419 019-1 306 678] ≈ 57.00 112 804.97 ≈ 6459    b δ4 = 7425 − 38 × 57.00 61 294.50 54 920.50 6 520.50 136 383. Aussi.00 6 470.97 2 18 (182 − 1) en utilisant les moyennes par trimestre.00 7 434. et de 7435 pour 1973.00 6 505.97 ≈ 4577    b δ = 7932 − 36 × 57.00 32 350.50 6 865. 39 n×x en 6 380.00 6 512.75 153 332.97 ≈ 5222 44 . la moyenne pour 1963 était de 6380.Pour l’étape (i) deux méthodes analogues sont possibles : soit en utilisant les expressions des estimateurs. données dans le tableau ci-dessus. il est possible de calculer des moyennes : aussi.

05 ‘.19 24758.75.12 <2e-16 *** as.’ 0.67 -18.6 Coefficients: Estimate Std.20 <2e-16 *** as.44 24755.d’où finallement h i ( b b b b b β1 = δ1 + δ2 + δ3 + δ4 /4 ≈ 5526 γ bj = δbj − βb1   δb1 = 4577 − 5526 ≈ −949    b δ2 = 5845 − 5526 ≈ +320 soit  δb3 = 6459 − 5526 ≈ +933    b δ4 = 5222 − 5526 ≈ −304 Aussi.2e-16 > plot(T.87 12.1 ‘ ’ 1 Residual standard error: 552.4 Max 1485.factor(Q)3 -448644.39 -18. > > > > T = seq(from=1963.47 <2e-16 *** as.25) Q = rep(1:4.factor(Q)2 -449257. le modèle s’écrit bt = 5526 + 58t − 949S 1 + 320S 2 + 933S 3 − 304S 4 . codes: 0 ‘***’ 0.26 24752.001 ‘**’ 0.55 18.995 F-statistic: 2846 on 5 and 67 DF.type="l") 45 .5 Median -106. X t t t t La régression se fait sur le modèle non-contraint.residuals(reg). Error t value Pr(>|t|) T 231.18) reg=lm(SNCFQ~0+T+as.factor(Q)) summary(reg) Call: lm(formula = SNCFQ ~ 0 + T + as.factor(Q)4 -449880.7 on 67 degrees of freedom Multiple R-squared: 0. p-value: < 2.8 3Q 404.53 -18.factor(Q)) Residuals: Min 1Q -1073. en ne prenant pas en compte la constante.15 <2e-16 *** as.2 -425.01 ‘*’ 0. Adjusted R-squared: 0.9953.to=1980.94 24761.81 -18.by=.factor(Q)1 -450526.17 <2e-16 *** --Signif.

en moyenne.d. i=1 P Remarque 51. Cette propriété n’est pas vérifiée dans le modèle sans constante. La série ajustée (ci-dessous à gauche) correspond à la série b t = X t − εt = X m X Zti βi i=1 + n X Stj γj . des résidus pouvait être devinée à la lecture des sorties de la régression. et X de faire de la prévision. grâce au test de Durbin Watson. beaucoup trop importante au début. La composante saisonnière St correspond à nj=1 Stj γj . qui valide le caractère AR (1) des résidus. La série corrigée des corrections saisonnières (CVS -ci-dessous à droite) correspond à la série Ybt = Xt − Sbt = m X Zti βi + εt . mais l’erreur se faisant ici dans l’autre sens (sur-estimation versus sous-estimation). telle qu’elle apparaît dans le modèle contraint. Cette série pourra être prolongée afin avec (Zt ) en trait plein. ainsi qu’au milieu (début des annéees 70). Le caractère non-i. Elle vérifie alors E (St ) = 0.i. j=1   bt en pointillés.L’erreur de modélisation (les résidus) est. 46 .

82 1038 943 1156 1380 1293 1667 1938 1517 1135 1123 975 1618 Ce qui donne la série ajustée (à gauche) et la série corrigée des variations saisonnières (à droite) > > > > T = seq(from=1963.18)) reg=lm(SNCF~0+T+M) summary(reg) Call: lm(formula = SNCF ~ 0 + T + M) Residuals: Min 1Q -674.2 Analyse sur données mensuelles La méthode décrite ci-dessus donne les résultats suivants 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 xj JAN F EB M AR 1750 1560 1820 1710 1600 1800 1670 1640 1770 1810 1640 1860 1850 1590 1880 1834 1792 1860 1798 1850 1981 1854 1823 2005 2008 1835 2120 2084 2034 2152 2081 2112 2279 2223 2248 2421 2481 2428 2596 2667 2668 2804 2706 2586 2796 2820 2857 3306 3313 2644 2872 2848 2913 3248 2195 2101 2309 AP R M AY 2090 1910 2120 2100 2190 2020 1990 2110 2210 2110 2138 2115 2085 2120 2418 2219 2304 2264 2522 2318 2661 2281 2710 2505 2923 2795 2806 2976 2978 3053 3333 3141 3267 3391 3250 3375 2555 2489 JU N 2410 2460 2610 2500 2480 2485 2491 2722 2175 2684 2929 3021 3287 3430 3463 3512 3682 3640 2888 JU L 3140 3200 3190 3030 2880 2581 2834 2912 2928 2971 3089 3327 3598 3705 3649 3744 3937 3771 3249 AU G 2850 2960 2860 2900 2670 2639 2725 2771 2738 2759 2803 3044 3118 3053 3095 3179 3284 3259 2928 SEP OCT N OV 2090 1850 1630 2190 1870 1770 2140 1870 1760 2160 1940 1750 2100 1920 1670 2038 1936 1784 1932 2085 1856 2153 2136 1910 2178 2137 2009 2267 2152 1978 2296 2210 2135 2607 2525 2160 2875 2754 2588 2764 2802 2707 2839 2966 2863 2984 2950 2896 2849 3085 3043 3206 3269 3181 2426 2359 2205 qui donne les coefficients suivants βb2 δb1 δb2 δb3 δb4 δb5 δb6 δb7 δb8 δb9 δb10 δb11 δb12 9. Error t value Pr(>|t|) 47 DEC 2420 2270 2360 2330 2520 2391 2553 2537 2546 2723 2862 2876 3266 3307 3375 3611 3541 4008 2861 x en 2127 2171 2173 2168 2157 2133 2192 2288 2270 2387 2478 2639 2892 2974 3031 3194 3242 3331 2547 .3.by=1/12) M = as.74 Max 611.16 3Q 125.factor(rep(1:12.53 Median -12.19 -154.4.51 Coefficients: Estimate Std.to=1980+11/12.

54 M3 -150080.2e-16 3.29 M1 -150182.84 -28.30 -28.62 M12 -149587.13 5283.02 5284.05 ‘.92 M6 -149521.46 M11 -150236.35 5283.38 M2 -150282.001 ‘**’ 0.T 77.9939 F-statistic: 2693 on 13 and 203 DF.43 -28.40 -28.59 28. La variance des estimateurs peut être estimée par " #   T −1 0 0 X b 1 ZZ ZS β 2 = s2 .74 M10 -150076.36 -28.5 Propriétés statistiques des estimateurs Sous l’hypothèse E (εt ) = 0 les estimateurs mco sont sans biais :   E βbi = βi et E (b γj ) = γj .58 5283.41 -28.38 -28.01 ‘*’ 0.65 M4 -149841. codes: 2. 48 .30 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 *** *** *** *** *** *** *** *** *** *** *** *** *** 0 ‘***’ 0.9942.69 5284.43 -28.68 5283. p-value: < 2.36 5285.80 5284.3 on 203 degrees of freedom Multiple R-squared: 0.29 -28.23 -28.13 M9 -150002.14 5285. Vb S 0Z S 0S γ b T − n − m t=1 t ce qui permet d’obtenir des intervalles de confiance sur les estimateurs.37 -28.’ 0.26 M5 -149913.92 5285.58 M7 -149166.64 M8 -149494. Adjusted R-squared: 0.17 --Signif.1 ‘ ’ 1 Residual standard error: 204.45 -28.25 5284.47 5284. où s = εb2 .

free.3 1.859 0. codes: 0 ’***’ 0.7 775.data=B) plot(X) abline(regT. frequency = 12) T=time(X) S=cycle(X) B=data.05 ’.start = c(1989.001 ’**’ 0.01 ’*’ 0.blog.884 0.55 on 1 and 83 DF.fr/public/data/autoroute.0666 .06306 49 .04101.sep=".7 1545258. 9). on obtient la décomposition suivante > + + > > > > > > > > > autoroute=read.6 Application au traffic sur l’autoroute A7 Sur les données de traffic sur l’autoroute A7.S=as.csv".table( "http://freakonometrics. p-value: 0.T=as.lwd=2) summary(regT) Call: lm(formula = x ~ T.4 -1. Error t value Pr(>|t|) (Intercept) -2872401. T 1460.vector(X).frame(x=as.’ 0.vector(T).") a7=autoroute$a007 X=ts(a7.02946 F-statistic: 3.col="red".0631 .3. Adjusted R-squared: 0. --Signif.1 ’ ’ 1 Residual standard error: 14610 on 83 degrees of freedom Multiple R-squared: 0. header=TRUE. data = B) Residuals: Min 1Q Median -20161 -10568 -2615 3Q 4390 Max 35017 Coefficients: Estimate Std.vector(S)) regT=lm(x~T.

. j=1 Cette prévision est la meilleur (au sens de l’erreur quadratique moyenne) prévision.. XT et sans biais. . X 50 .. V (εT +h ) = σ 2 et cov (εt .. La variable XT +h peut être approchée par bT (h) = X m X ZTi +h βbi i=1 + n X STj +h γ bj ... On suppose que le modèle reste valide en T + h c’est à dire que XT +h = m X ZTi +h βi + i=1 n X STj +h γj + εT +h .xlab="saisonnalitÃľ") 3. . linéaire en X1 .factor(S). j=1 avec E (εT +h ) = 0.7 Prévision à un horizon h Soit h ≥ 1. X bT (h) + φ1−α/2 ebh .> > > > B$res1=X-X1 regS=lm(res1~0+as. Un intervalle de confiance de cette prévision est de la forme h p p i bT (h) − φ1−α/2 ebh . T . εT +h ) = 0 pour t = 1.data=B) B$X2=predict(regS) plot(B$S.B$res1.

où φ1−α/2 est le quantile d’ordre α de la loi de Student à T − m − n degrés de liberté. = βb0 |b γ 0 Vb γ b γ b 51 j=1 . et où ! h m n i2  X X j b X bT (h) − XT +h ebh = E = Vb ZTi +h βbi + ST +h γ bj − εT +h i=1 " # h i   b  βb β + s2 .

Les régressions locales consistent à ajuster des polynômes. Dans les années 50.1 4. à cette date. Macauley a introduit une méthode pour désaisonnaliser les séries au sein de la Réserve Fédérale américaine. suite au développement des modèles ARIM A (consécutif à la publication des travaux de Box et Jenkins dans les années 70). l’informatique a facilité l’utilisation de régressions visant à corriger les effets de jours ouvrables (nombre de jours travaillés dans le mois).4 Désaisonnalisation par moyennes mobiles On considère une série temporelle (Xt ) admettant une décomposition Xt = Zt + St + εt pour t = 1. En 1975. De plus. ou B =backward) l’opérateur linéaire défini par L : Xt 7−→ L (Xt ) = LXt = Xt−1 . L ◦ F = F ◦ L = I (opérateur identité) et on notera par la suite F = L−1 et L = F −1 . 52 . en général par les moindres carrés. Remarque 53. . du polynôme ajusté. modèles qui ont abouti à la méthode X11 en 1965. le bureau du Census aux Etats Unis a commencé à developper des modèles basés sur l’utilisation de moyennes mobiles..1 Généralités sur les moyennes mobiles Notion d’opérateur retard L Définition 52. Ces régressions locales reviennent à appliquer des moyennes mobiles. et opérateur avance F (=forward) F : Xt 7−→ F (Xt ) = F Xt = Xt+1 . ont pu être en grande partie automatisées. On appelera opérateur retard L (=lag. les premiers. basée sur l’utilisation de moyennes mobiles centrées d’ordre 12. Nous allons présenter dans cette partie les méthodes basées sur des régressions locales. basé sur une regression globale du modèle a été présenté dans la partie précédante. la donnée lissée est la valeur. le modèle X11 a pu évoluer vers le modèle dit X11-ARIMA. ont tenté d’oter (et de distinguer ) la tendance et la composante cyclique pour des séries de prix en considérant des moyennes glissantes. faisant habituellement appel au jugement de l’utilisateur. pour obtenir une estimation de la tendance.1. Au ”centre” de cette intervalle. 4. En 1930.. La méthode de Buys-Ballot. Une des implications est que des décisions. Cette méthode a pu être développée grâce aux développements informatiques importants qui ont eu lieu à cette époque. L’utilisation des moyennes mobiles est relativement ancienne puisqu’elle remonte à Poynting (1884) puis Hooker (1901) qui.. T Le but est de trouver une transformation du processus Xt qui annule la composante saisonnière St : on cherche un ”filtre” φ tel que Yt = φ (Xt ) = Zt + εt . sur des intervalles glissants (se décallant à chaque fois d’un point).

(ii) Soit A le polynôme. alors   A (L) + B (L) = (A + B) (L) α ∈ R. k=0 4. m2 ∈ N.+ap z p ..) est un polynôme appelé polynôme caractéristique de M . on peut aussi définir des séries formelles A (z) = ∞ X ak z k et A (L) = ∞ X ak Lk . On notera A (L) l’opérateur 2 p A (L) = a0 I + a1 L + a2 L + . combinaison linéaire d’opérateurs retard m2 X M= θi L−i .1. On notera que Lp (Xt ) = Xt−p . Pour toutes moyennes mobiles A et B. La série (Yt ) définie par Yt = A (L) Xt vérifie Yt = A (L) Xt = p X ak Xt−k . A (z) = a0 +a1 z +a2 z 2 +. 53 . Lp = L ◦ . ◦ L} où p ∈ N | ◦ L {z p fois avec la convention L0 = I. αA (L) = (αA) (L)  A (L) ◦ B (L) = (AB) (L) = B (L) ◦ A (L) . k=0 Soit (Xt ) une série temporelle. k=0 Par passage à la limite. (10) i=0 où Θ (. Une moyenne mobile est un opérateur linéaire. où m1 .2 i=0 k=0 k=0 Les moyennes mobiles Définition 55. La moyenne mobile C = AB = BA vérifie alors ! ! ! ∞ ∞ ∞ i X X X X k k i ak L ◦ bk L = ci L où ci = ak bi−k .... et m1 + m2 + 1 sera appelé ordre de M (correspondant au nombre (théorique) de terme de M ). + ap L = p X ak Lk . et plus générallement.(i) Il est possible de composer les opérateurs : L2 = L ◦ L. i=−m1 qui peut s’écrire m1 M =L mX 1 +m2 θi−m1 L −i m1 =L i=0 mX 1 +m2 θi−m1 F i = Lm1 Θ (F ) . k=0 k=0 Proposition 54.. de degré m1 + m2 ..

. 3 Exemple 60..2*p+1)) Par exemple.Définition 56.filter=rep(1/p.lwd=2) p=6 Y=filter(X. θi = θ−i alors la moyenne mobile est dite symétrique.. le filtre M9 (Xt ) = M2p+1 (Xt ) = 1 [Xt−p + Xt−p+1 + .. 1/9. d’ordre 2 et n’est pas centrée (ni symétrique).fr/public/data/autoroute.. + Xt + . soit M2 = (L−1 + 2I + L) /4 = L [I + 2F + F 2 ] /4 est de degré 2. 9 De manière générale.col="blue". La moyenne mobile M1 (Xt ) = (Xt + Xt−1 ) /2. sont nécessairement d’ordre impair (pour être centrées). m Exemple 59. Exemple 57.. De plus.p)) lines(Y. on considèrera les moyennes mobiles d’ordre m = 2p + 1 définie par 1 [Xt−p + Xt−p+1 + . Mm (Xt ) = 1 [Xt−4 + Xt−3 + .") a7=autoroute$a007 X=ts(a7. . La moyenne mobile d’ordre 3 .p)) lines(Y. + Xt−1 + Xt + Xt+1 + .csv".Cette moyenne mobile a pour coefficients 1/3.sep=".. 9). Exemple 58..start = c(1989. On peut déjà noter. pour p = 3 > library(ts) > Y=filter(X. soit M1 = (L + I) /2 = L [I + F ] /2 est de degré 1. pour les moyennes centrées symétriques.blog.col="red".lwd=2) 54 . d’ordre 3. et que pour tout i.col="green". La moyenne mobile M2 (Xt ) = (Xt+1 + 2Xt + Xt−1 ) /4.table( "http://freakonometrics. frequency = 12) plot(X) p=3 Y=filter(X.... est centrée et symétrique. Pour m impair. 1/3. 2p + 1 s’écrit. 1 M3 (Xt ) = [Xt−1 + Xt + Xt+1 ] .filter=rep(1/p.Cette moyenne mobile a pour coefficients 1/9..filter=rep(1/(2*p+1).. + Xt+4 ] .filter=rep(1/p.lwd=2) p=12 Y=filter(X. 1/3. La moyenne mobile d’ordre 9 . si M est centrée. 1/9.free. sur la série a7 > + + > > > > > > > > > > > > autoroute=read.. + Xt+p−1 + Xt+p ] . header=TRUE. + Xt+p−1 + Xt+p ] . + Xt−1 + Xt + Xt+1 + . la moyenne mobile sera dite centrée. Si m1 = m2 = m.p)) lines(Y..

m où Xt−1/2 est obtenue comme valeur intermédiaire entre Xt−1 et Xt . Pour cela. + (Xt+p−1 + Xt+p ) Mm (Xt ) = m 2 2 2 2   1 1 1 = Xt−p + Xt−p+1 + . La moyenne mobile 2 × 4 ... . elle est d’ordre 5 et de coefficients 1/8.. il est possible de construire des moyennes mobiles centrées et symétriques d’ordre pair.. Cette moyenne mobile peut donc se réécrire   1 1 1 1 1 (Xt−p + Xt−p+1 ) + ..Cette moyenne mobile permet permet d’estimer des tendances dans le cas de données trimestrielles. + 2Xt+p−1 + Xt+p ] .. de façon artificielle. et elle réduit de 75% la variance d’un bruit blanc...Toutefois... La moyenne mobile 2×12 . elle est d’ordre 13 et de coefficients 1/24. définie par 1 [Xt−p + 2Xt−p+1 + .. + Xt−1 + Xt + Xt+1 + ... + Xt+p−1 + Xt+p . + 2Xt+5 + Xt+6 ] . elle conserve les tendances linéaires. + Xt+p−1/2 ... 2m Exemple 61. M2×4 (Xt ) = Exemple 62. que l’on notera M2×p . + 2Xt−1 + 2Xt + 2Xt+1 + .. 1/4. 1/12. + Xt−1/2 + Xt+1/2 + . 1/12. 1/24 M2×4 (Xt ) = 1 [Xt−6 + 2Xt−5 + 2Xt−4 + ... + (Xt−1 + Xt ) + (Xt + Xt+1 ) + .. elle élimine les saisonnalités trimestrielles des séries trimestrielles.Cette moyenne mobile permet permet d’estimer des tendances dans le cas de données mensuelles.. 1/12.. 1/8 M2×p (Xt ) = 1 [Xt−2 + 2Xt−1 + 2Xt + 2Xt+1 + Xt+2 ] . pour m = 2p on considèrera les moyennes mobiles définies par  1  Xt−p+1/2 + . m 2 2 Mm (Xt ) = Cette moyenne mobile d’ordre pair est en fait une moyenne mobile d’ordre impair. 1/4. 24 55 . 8 Comme nous le verrons par la suite. 1/4.

Comme nous le verrons par la suite, elle élimine les saisonnalités annuelles des séries
mensuelles, elle conserve les tendances linéaires, et elle réduit de plus de 90% la variance
d’un bruit blanc.
Là encore, sur la série a7
>
+
+
>
>
>
>
>
>
>
>
>
>
>
>

autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
plot(X)
p=3
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="red",lwd=2)
p=6
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="blue",lwd=2)
p=12
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="green",lwd=2)

Exemple 63. La moyenne mobile 3 × 3 - Cette moyenne mobile est d’ordre 5 et de
coefficients 1/9, 2/9, 3/9, 2/9, 1/9
M3×3 (Xt ) =

1
[Xt−2 + 2Xt−1 + 3Xt + 2Xt+1 + Xt+2 ] .
9

Exemple 64. La moyenne mobile 3 × 9 - Cette moyenne mobile est d’ordre 11 et de
coefficients 1/27, 2/27, 3/27, 3/27, ..., 3/27, 2/27, 1/27
M3×9 (Xt ) =

1
[Xt−5 + 2Xt−4 + 3Xt−3 + 3Xt−2 + 3Xt−1 + ... + 3Xt+4 + 2Xt+4 + Xt+5 ] .
27

Ces deux moyennes mobiles conservent les droites, et réduisent respectivement de 75% et
de 90% la variance d’un bruit blanc.
56

Exemple 65. Les moyennes mobiles d’Henderson - Ces moyennes mobiles sont utilisées dans la méthode X11 pour extraire la tendance d’une estimation de la série corrigée
des variations saisonnières
P 3 2 (partie (4.4.2)). Ces moyennes reposent sur l’utilisation de
l’opérateur H = [∆ θi ] où ∆ est l’opérateur ”différence première” (∆Xt = Xt − Xt−1 ).
Cette quantité est nulle dans le cas où les θi se retrouvent sur une parabole : H mesure la
distance entre la forme parabolique et la forme de la fonction définissant les θi . Hendersen a cherché les moyennes mobiles centrées, d’ordre impair, conservant les polynômes de
degré 2, et minimisant la fonction H :
min
θ

X

3

∆ θi 

2

sous constraintes

+p
X
i=−p

θi = 1,

+p
X

iθi = 0 et

i=−p

+p
X

i2 θi = 0,

i=−p

ce qui donne les expressions explicites de θi , en posant n = p + 2    

315 (n − 1)2 − i2 [n2 − i2 ] (n + 1)2 − i2 [3n2 − 16 − 11i2 ]
.
θi =
8n (n2 − 1) (4n2 − 1) (4n2 − 9) (4n2 − 25)
Cette relation permet d’obtenir un certain nombre de moyennes mobiles
5 termes : M5 (Xt ) =
7 termes : M7 (Xt ) =
4.1.3

1
[−21Xt−2 + 84Xt−1 + 160Xt + 84Xt+1 − 21Xt+2 ] ,
286

1
[−42Xt−3 + 42Xt−2 + 210Xt−1 + 295Xt + 210Xt+1 + 42Xt+2 − 42Xt+3 ] .
715

L’espace des opérateurs moyenne-mobile

Définition 66. Soient M1 et M2 deux moyennes mobiles. Le produit de M1 et M2 est
obtenu par composition des moyennes mobiles
M1 M2 (Xt ) = M1 ◦ M2 (Xt ) .
Proposition 67. Ce produit est commutatif et associatif
M1 M2 = M2 M1 et M1 (M2 M3 ) = (M1 M2 ) M3 .
De plus, le produit est distributif par rapport à l’addition.
Proposition 68. L’ensemble des moyennes mobiles constitue un espace vectoriel.
Proposition 69. La composée de deux moyennes mobiles symétriques est symétrique.

4.2

Vecteurs propres associés à une moyenne mobile

Définition 70. Soit M une moyenne mobile. S’il existe λ et (Xt ) non nul tels que
M (Xt ) = λXt , (Xt ) sera vecteur propre associé à la valeur propre λ.
57

4.2.1

Les séries absorbées : λ = 0

Définition 71. Une suite (Xt ) est dite absorbée par M si et seulement si M (Xt ) = 0
pour tout t.
Exemple 72. Soit M la moyenne mobile définie par M (Xt ) = Xt + Xt−1 + Xt−2 . La
série chronologique définie récursivement par Yt = − [Yt−1 + Yt−2 ] est absorbée par M .
Proposition 73. Les vecteurs propres associés à la valeur propre λ = 0 forment un
espace vectoriel de dimension m1 + m2 , dont une base est constituée des Ztk = (αk rt ) pour
k = 0, 1, ..., p − 1, où r est racine non nulle du polynôme Θ.
Exemple 74. Dans l’exemple (72), on peut chercher à construire une base de la forme
Zt = rt , qui devra satisfaire
rt + rt−1 + rt−2 = 0 pour tout t
c’est à dire r2 + r + 1 = 0. Aussi, r est une racine du polynôme caractéristique de M si
et seulement si
√    

2iπ
2iπ
−1 ± i 3
soient r1 = exp
et r2 = exp −
r=
2
3
3
Aussi, les suites absorbées sont nécessairement de la forme
Xt = λr1t + µr2t , pour tout t.
Or 

r1t = cos (2tπ/3) + i sin (2tπ/3)
r2t = cos (2tπ/3) − i sin (2tπ/3) .
Et donc, l’espace vectoriel des suites absorbées par M admet pour base réelle 
π o
n  π
, sin 2t
,
B = cos 2t
3
3
ce qui correspond à des séries chronologiques de la forme 
π 
π
Xt = λ cos 2t
+ µ sin 2t
pour tout t.
3
3
4.2.2

Absorbtion de la composante saisonnière

Théorème 75. Une moyenne mobile M absorbe la composante saisonnière de période T
si et seulement si son polynôme caractéristique est divisible par 1 + z + ... + z T −1 .
Proof. Par définition de la périodicité des composantes saisonnières, si T est la période,
les St sont les suites solutions de
St+1 + ... + St+T = 0 pour tout t ∈ Z
L’espace vectoriel des solutions est engendré par les suites (rt ) où r satisfait 

π
2
T −1
1 + r + r + ... + r
= 0, c’est à dire r = exp 2ik
où k = 1, ..., T − 1
T

58

(iii) Si M est symétrique et conserve les constantes. (i) Les suites constantes sont invariantes par M si et seulement si la somme de ses coefficients vaut 1. Les propriétés (i) et (iii) montrent dans quel cas la tendance de la série reste invariante : ces séries peuvent servir à enlever la composante saisonnière. on peut écrire M r t  = m2 X i=−m1 θi r t+i =r t−m1 m2 X θi ri+m1 = rt × r−m1 Θ (r) . Alors M Xt = θ−m1 (t − m1 ) + .4. donc la somme des coefficients vaut 1. où M = Lm1 Θ (F ) . pour récupérer la tendance linéaire. Alors toute suite (rt ) est vecteur propre de M associé à la valeur propre λ = r−m1 Θ (r) . i=−m1 (i) Si xt = k 6= 0 pour tout t. on peut écrire M= m2 X θi L−i = Lm1 Θ (F ) . Une suite (Xt ) est dite invariante par M si et seulement si M (Xt ) = 0 pour tout t Une suite (Xt ) est dite invariante par M si elle est absorbée par (M − I) . Proof. Soit M = Lm1 Θ (F ) une moyenne mobile de polynôme caractéristique Θ. En reprenant (10) . alors M conserve les polynômes de degré 1. soit M Xt = t. (ii) Les polynômes de degré k sont invariantes par M si et seulement si 1 est racine d’ordre au moins k + 1 de Φ = Θ (z) − z m1 .2. 4. 59 .. (iii) Soit Xt la suite telle que Xt = t.. De (10) . i=−m1 avec k non nul. + 1.2.3 Les séries invariantes : λ = 1 Définition 76.θ0 .. ce qui correspond à la définition d’éléments propres. alors M xt = xt (suite invariante) se réécrit m2 X θi−i k = k.. Proposition 77.4 Transformation de suites géométriques (rt ) Proposition 78. (−θ−1 + θ1 ) + 0. + θm1 ) + m1 (−θ−m1 + θm1 ) + (m1 − 1) (−θ−m1 +1 + θm1 −1 ) + . i=−m1 et donc M (rt ) = r−m1 Θ (r) × rt pour tout t.1 + 0 = t = Xt par symétrie (θ−k = θk ).. + θm1 (t + m1 ) = t (θ−m1 + ... Proof.

2 sin . P iωk est Proof. Cette moyenne mobile transforme un polynôme de degré k ≤ p en une constante.  t r = ρt eiωt M rt = ρt eiωt Γ (ω) eiφ(ω) = [Γ (ω) ρt ] ei[ωt+φ(ω)] . Si M est symétrique. • Cas p ≥ 1  p  X j ∆p = (I − L) = (−1)j Lj p p j=0 60 . Exemple 79. Nous allons étudier ici son effet sur une suite de la forme (eiωt ). 4. appliquer ∆p = ∆p1 revient à abaisser le degré du polynôme de p. ce qui correspond à un effet d’échelle (le module faisant intervenir le coefficient Γ (ω)) comme dans le cas réel.ei[π−ω]/2 2 soit Γ (ω) = Γ1 (ω) = 2 sin (ω/2) et φ (ω) = φ1 (ω) = [π − ω] /2. Une telle moyenne mobile permet d’éliminer une tendance qui serait un pôlynome de bas degré. Une suite de la forme ρt sin ωt sera transformée par M [Γ (ω) ρt ] sin [ωt + φ (ω)]. Suites géométriques complexes Si r = ρeiω alors appliquer M revient à multiplier rt par le nombre complexe r−m1 Θ (r) = Γ (ω) eiφ(ω) .5 Moyenne mobile différence ∆p = (I − L)p Considérons comme moyenne mobile l’opérateur différence ∆p = (I − L)p pour p > 0. mais aussi un effet de phase puisque l’argument se voit ajouter un élément φ (ω). alors φ = 0 et s’il est négatif φ = π. Ce résultat ne marche que pour la suite géométrique (eiωt ) et devient faux pour ρ 6= 1. même pour une moyenne mobile symétrique. • Cas p = 1    ω (I − L) eiωt = eiωt − eiω(t−1) = eiωt 1 − eiω = eiω . En effet. car ∆1 tk = tk − (t − 1)k . polynôme de degré k − 1. xxx en Proposition 80.Suites géometriques réelles Si r est réel alors l’application d’une moyenne mobile à la suite géométrique (rt ) revient à faire une homothétie de rapport r−m1 Θ (r). Remarque 81. Ce résultat se montre en explicitant M (eiωt ) et en notant que m k=−m θ|j| e réel. alors l’effet de phase sur la suite géométrique (eiωt ) est soit φ = 0 soit φ = π.  appliquer ∆1 revient à abaisser le degré du polynôme de 1. Si ce réel est positif.2. et recursivement.

s (ω) = 2p [sin ωs/2]p φp.2. Exemple 83. 61 . elle est juste déphasée. π] Exemple 82. On retrouve ainsi le fait que cette moyenne mobile ∆p. Considérons la série de cycle π/2 Xt ∆1 Xt ∆2 Xt ∆3 Xt ∆4 Xt ∆5 Xt 1 0 −1 0 1 0 −1 0 1 0 −1 0 1 −1 −1 1 1 −1 −1 1 1 −1 −1 1 0 −2 0 2 0 −2 0 2 0 −2 0 2 −2 −2 2 2 −2 −2 2 2 −2 −2 2 2 −4 0 4 0 −4 0 4 0 −4 0 4 0 −4 4 4 −4 −4 4 4 −4 −4 4 4 −4 On retrouve là aussi un déphage.s eiωt = eiωt 1 − e−iωsp . avec un déphasage puisque les valeurs positives deviennent négatives. alors Γp.2p sin = eip[π−ω]/2 p 2 j=0 soit Γ (ω) = Γp (ω) = [2 sin (ω/2)]p et φ (ω) = φp (ω) = p [π − ω] /2 où ω ∈ [0.donc ∆p e iωt   p  h ω ip X p  j (−1)j e−iωj = eiωt 1 − e−iω = eiωt . les saisonnalités de périodes 8 mois. 4. et une composante saisonnière annuelle (période 12) et s = 12. En considérant des données mensuelles.s (ω) = p [π − ωs] /2. Considérons la série de cycle π/3 Xt ∆1 Xt ∆2 Xt ∆3 Xt ∆4 Xt ∆5 Xt 2 1 −1 −2 −1 1 2 1 −1 −2 −1 1 1 −1 −2 −1 1 2 1 −1 −2 −1 1 2 −1 −2 −1 1 2 1 −1 −2 −1 1 2 1 −2 −1 1 2 1 −1 −2 −1 1 2 1 −1 −1 1 2 1 −1 −2 −1 1 2 1 −1 −2 1 2 1 −1 −2 −1 1 2 1 −1 −2 −1 Comme on peut le noter. alors  Γp. Toutefois.6 Moyenne mobile différence saisonnière ∆p. avec un coefficient d’amplitude qui augmente avec p. suite ne change pas d’amplitude. et inversement. On peut ainsi noter que ∆4 Xt correspond à 4 fois la série initiale Xt .s = (I − Ls )p Cette moyenne mobile permet d’absorber les composantes saisonnières de période s.12 (2π/12) = 0.    ∆p.12 élimine une composante saisonnière de période 12. ou 24 mois sont amplifiées.

2. (2q + 1) sin [ω/2] (démonstration en exercice) d’où .7 Moyenne mobile impaire Une moyenne mobile d’ordre impair peut s’écrire M= q X θj L−j où q ∈ N\{0} et θj = j=−q 1 .4. 2q + 1 On peut montrer que  sin [(q + 1/2) ω] M eiωt = eiωt .

.

.

sin [(q + 1/2) ω] .

.

.

. Γ (ω) = .

(2q + 1) sin [ω/2] .

On peut montrer que ω   sin [qω] M eiωt = eiωt cotan . 2q 2 (démonstration en exercice) d’où . 4.2. La moyenne mobile étant symétrique. le déphasage est 0 ou π (selon les valeurs de ω).8 Moyenne mobile paire Une moyenne mobile dite d’ordre impair peut s’écrire M= q X −j θj L  où q ∈ N\{0} et θj = j=−q 1/2q pour |j| = 6 q 1/4q sinon.

 ω .

.

.

sin [qω] .

. .

Γ (ω) = .

cotan 2q 2 .

Pour des données mensuelles. et . on prend q = 6. par example.

 ω .

.

.

sin [6ω] .

.

Γ (ω) = ..

cotan 12 2 .

62 .2) sur la méthode X11.. 3π/6..4. Remarque 84. Cette moyenne mobile est appelée M2×12 dans la partie (4. 5π/6. qui s’annule en π/6. tout en conservant les basses fréquences (correspondant à la tendance). 2π/6... 6. correspondant à des périodes 12. .. La moyenne mobile d’ordre pair avec q = 6 absorbe les composantes saisonnières périodiques de périodes 12 (et les harmoniques). 4π/6.

Le caractère centré découle de l’écriture Xt = m2 X θj εt+j . On notera par la suite (εt ) ∼ BB (0.i. 4. Xt Xt+h = θj εt+j j=−∞ k=−∞ et donc E (Xt Xt+h ) = σ j.1 Transformation d’un bruit blanc Proposition 88. centré (E (Xt ) = 0).4. Définition 85. Définition 86. On appelera bruit blanc ‘faible’ toute suite (εt . γX (h) z = σ M (z) M z i=−m h 1 Proof. εt+h ) qui ne dépend que de h. Le processus Xt = M (εt ) est stationnaire. t ∈ Z) telle que (εt ) soit i. σ 2 ) pour bruit blanc faible. il existe deux façon de définir le bruit blanc.3 Notions de ‘bruit blanc’ De la même façon que pour la notion de stabilité. j=−∞ k+h=j Ainsi E (Xt Xt+h ) = cov (εt . On peut alors écrire X γX (h) z h = σ 2 +∞ X +∞ X θj θj−h z h = σ 2 h=−∞ j=−∞ h = σ 2 +∞ X j=−∞ θj z j +∞ X +∞ X θj θj−h z j z h−j h=−∞ j=−∞ +∞ X θj−h z h=−∞ en effectuant le changement d’indice i = j − h. On appelera bruit blanc ‘fort’ toute suite (εt .3. j=−m1 Il est possible de prolonger cette somme sur Z en posant θj = 0 pour j < −m1 ou j > m2 . t ∈ Z) telle que E (εt ) = 0 et V (εt ) = σ 2 pour tout t ∈ Z et tel que γ (h) = cov (εt . zi . tel que   m2 X X 1 h 2 où M (z) = θi z −i pour z 6= 0. σ 2 ) pour t ∈ Z. εt−h ) = 0 pour h 6= 0. 63 h−j =σ 2 +∞ X j=−∞ θj z j +∞ X i=−∞ θi 1 . Soit M la moyenne mobile définie par (10) et (εt ) ∼ BB (0.d. Remarque 87. où (εt ) est centré. Aussi +∞ +∞ +∞ X X X 2 θk εt+h+k = σ θj θk εt+j εt+h+k .k=−∞ +∞ X 2 θj θk = σ +∞ X 2 θj θj − h.

La difficulté ici est donc de bien choisir les deux moyennes mobiles à utiliser M et M 0 . avec q = 6. .2 L’algorithme de base de la méthode X11 Cette méthode propose deux moyennes mobiles dans le cas de données mensuelles.   (1) (1) (3) Estimation de la composante saisonnière par moyenne mobile St = M 0 Σt et (1) (1) (1) εt = Σt − St .A retenir 89. La moyenne mobile M 0 utilisée ici devra reproduire la composante saisonnière de chaque mois en réduisant au maximum la composante irrégulière. alors τ = 1/2. Il s’agit ici de lisser les valeurs de la composante Σt de chaque mois pour extraire l’évolution du coefficient saisonnier du mois concerné.. Aussi. Une contrainte de normalisation des coefficients devra être imposée (somme nulle). 4.4 4. tout en éliminant la composante saisonnière.4.4. élimine les saisonnalités d’ordre 12 et minimise la variance de la perturbation. Définition 90. (ii) de réduire la variance des perturbations. E (Xt2 ) j Exemple 91. d’un cycle saisonnier St .L’algorithme suivant.1 Les procédures X11 et X12 ? ? ? Un algorithme simple de désaisonnalisation Considérons une série mensuelle Xt composée d’une tendance Zt . L’indice de réduction de la moyenne mobile M est donné par E (M Xt2 ) X 2 τ= = θj . Dans le cas d’une moyenne mobile définie par M (Xt ) = [Xt + Xt−1 ] /2.où la moyenne mobile M est choisie de façon à reproduire au mieux la tendance. 1/24. Le but des moyennes mobiles est (i) d’absorber les composantes saisonnières en laissant invariantes les tendances. les 13 coefficients sont 1/24. et en réduisant la perturbation au maximum (2) Estimation de la composante saisonnière et de la perturbation Σt = St + εt : (1) (1) Σt = Xt − Zt . 1/12.. Cette moyenne mobile est paire. 4. 1/12.   bt = Zt(1) + ε(1) (4) Estimation de la série corrigée des variations saisonnières X = t (1) Xt − S t . de façon additive Xt = Zt + St + εt . L’algorithme devient (1) Estimation de la tendance-par moyenne mobile 2 × 12 (1) Zt = M2×12 (Xt ) .. 64 . Cette moyenne mobile conserve les tendances linéaires. permet de désaisonnaliser la série Xt (1) (1) Estimation de la tendance par moyenne mobile Zt = M (Xt ) . 1/12. en 4 étapes. et d’une perturbation εt .

3/15. 3/9.   (2) (2) (2) b St = St − M2×12 St . 2/9.   (1) (1) (1) Sbt = St − M2×12 St .(2) Estimation de la composante saisonnière et de la perturbation Σt = St + εt (1) (1) Σt = Xt − Zt . sur toute une période de 12 mois. Zt = M13 X Si les moyennes mobiles d’Henderson n’ont pas de propriétés spéciales quant à l’élimination de la saisonnalité. (4) Estimation de la série corrigée des variations saisonnières bt(1) = Xt − Sbt(1) . Les coefficients sont alors normalisés de telle sorte que leur somme. (5) Estimation de la tendance par moyenne mobile de Henderson sur 13 termes   (2) bt . La moyenne mobile utilisée ici est une moyenne mobile sur 5 termes. 1/15. tout en conservant (localement) les polynômes d’ordre 2. qui conserve les composantes linéaires. dite 3 × 5. sur toute une période de 12 mois. dont les coefficients sont 1/9. X Cette première estimation de la série corrigée des variations saisonnières doit. (6) Estimation de la composante saisonnière et de la perturbation Σt (2) (2) Σt = Xt − Zt . 2/15. 3/15. Les coefficients sont alors normalisés de telle sorte que leur somme. dite 3 × 3. 3/15. (7) Estimation de la composante saisonnière par moyenne mobile 3 × 5 sur chaque mois   (2) (2) (2) (2) (2) St = M3×5 Σt et εt = Σt − St . La moyenne mobile utilisée ici est une moyenne mobile sur 7 termes. contenir moins de saisonnalité. soit nulle. (8) Estimation de la série corrigée des variations saisonnières bt(2) = Xt − Sbt(2) . qui conserve les composantes linéaires. 2/15. 2/9. par construction. X 65 . 1/9. mais elles lissent relativement bien. (3) Estimation de la composante saisonnière par moyenne mobile 3 × 3 sur chaque mois   (1) (1) (1) (1) (1) St = M3×3 Σt et εt = Σt − St . dont les coefficients sont 1/15. soit nulle.

. 0... 0. 0. 0. Cette méthode permet de repérer les points abérants d’une série. 2/9.. 2/27. .. ... 0. 3/9} et M(5) est la moyenne mobile définie sur 73 mois. dont les coefficients sont {1/27.. 0. 0.. dont les coefficients sont {1/9.. . c’est à dire qu’en toute rigueur. 0. 66 . Comme l’ont montré Gouriéroux et Monfort (1990). 0. . portant sur 28 trimestres de part et d’autre (7 ans là aussi). qui peut là aussi s’écrire sous la forme d’une seule moyenne mobile. 3/27} La moyenne mobile ainsi définie est d’ordre 169. il faudrait 84 observations. Un algorithme similaire existe pour des données trimestrielles. cet algorithme peut se résumer à l’application d’un unique moyenne mobile qui peut être explicitée matriciellement. 3/27. Remarque 93. .Remarque 92. soit 7 ans de part et d’autre pour pouvoir estimer ce filtre...... 0.. Les 8 points de l’algorithme s’écrivent (1) (1) Zt = M2×12 (Xt ) (1) (1) (2) Σt = Xt − Z  t = (I − M2×12 ) (Xt ) (1) (3) St (4) (5) (6) (7) (8) (1) = M3×3 Σt = M(3) (I − M2×12 ) (Xt )   (1) (1) (1) Sbt = St − M2×12 St = M(3) (I − M2×12 )2 (Xt )  bt(1) = Xt − Sbt(1) = I − M(3) (I − M2×12 )2 (Xt ) X    (2) bt = M13 I − M(3) (I − M2×12 )2 (Xt ) Zt = M13 X  (2) (2) Σt = Xt − Zt = I − I − M(3) (I − M2×12 )2 (Xt )  (2) (2) (2) = (I − M2×12 ) M(5) I − M(3) (I − M2×12 )2 (Xt ) Sbt = St − M2×12 St  bt(2) = Xt − Sbt(2) = I− (I − M2×12 ) M(5) I − M(3) (I − M2×12 )2 (Xt ) X où M(3) est la moyenne mobile définie sur 49 mois. 0.. 0. 0.

.. moyen. La prévision X avec la constante de lissage β. Définition 94. Méthode adaptative de mise à jour (ordre 1)   b b b XT = XT −1 + [1 − β] XT − XT −1 (11) bT −1 = αXT + [1 − α] X bT −1 = [1 − β] XT + β X Cette relation s’écrit également FT +1 = αXT + (1 − α) FT bT peut être vu comme une régression sur une constante. avec des Proposition 98. XN . avec une décroissance exponentielle : . N .1 Principe du lissage exponentiel simple On dispose de N observations X1 .. Si β ne dépend pas de h. On souhaite prévoir. 5. ou à un horizon quelconque h. dont X bT (h) = X bT . ou long terme Ces trois méthodes diffèrent suivant le poids que l’on accorde aux observations passées. à la date T = 1. bT (h) fournie par la méthode de lissage exponentiel simple. Remarque 95.5 La prévision par lissage exponentiel Les méthodes de lissages consistent à extrapoler une série en vue de faire de la prévision. Or comme on le voit sur l’exemple ci-dessous.β proche de 0 : prise en compte d’avantage des valeurs récentes (plus sensible aux fluctuations) bT (h) ne dépend pas de h. Remarque 96. X pondérations exponentielles 67 . la valeur à un horizon 1.. . 0 < β < 1 est bT (h) = (1 − β) X T −1 X β j XT −j j=0 On donne un poids d’autant moins important que les observations sont loins (dans le passé). une extrapolation simple (linéaire en l’occurence) dépend fortement du type de résultats que l’on cherche à avoir : prévision à court. Pour certains logiciels permettant de faire du lissage exponentiel.. .1 Méthode adaptative de mise à jour (ordre 1) Proposition 97..1. X bT est la prévision faite en T de la valeur en T + 1. la constante de lissage n’est pas β mais α = 1 − β. Nous appelerons cette Cette valeur X b série XT (série lissée à la date t) ou FT +1 (valeur prédite pour la date T + 1). 5.β proche de 1 : prise en compte de tout le passé .

5))$minimum Par exemple.ylim=c(min(Ax).5))$minimum [1] 0..246581 > A=seq(0.05)) 68 . Le programme de minimisation (T −1 ) X min β j (Xt−j − c)2 c (12) j=0 admet pour solution T −1 1−β X j β XT −j b c= 1 − β T j=0 (13) bT = b et pour T assez grand X c. il est possible d’utiliser des méthodes de type ’minimisation de la somme des carrés des erreurs de prévison’ :  " #2  T t−1 X  X j b β = arg min Xt+1 − (1 − β) β Xt−j  t=1  j=0 Numŕiquement. sur la série Nile on aurait > optimize(V.c(0. il est possible de calculer cette quantité en utilisant > + + + + + + + + + > V=function(a){ T=length(X) L=erreur=rep(NA.02) > Ax=Vectorize(V)(A) > plot(A.T) erreur[1]=0 L[1]=X[1] for(t in 2:T){ L[t]=a*X[t]+(1-a)*L[t-1] erreur[t]=X[t]-L[t-1] } return(sum(erreur^2)) } optimize(V.by=.1..Ax.Proof. 5.1.2 Choix de la constante de lissage Au delà des méthodes qualitative de rigidité ou de souplesse du modèle aux fluctuations conjoncturelles.c(0.min(Ax)*1.

Soit (Xt ) un processus AR (1) de corrélation ρ. l’erreur de prévision décroit avec β. β. Exemple 99. β. Call: HoltWinters(x = X.beta=FALSE.gamma=FALSE.1] a 805.Vectorize(Lissage)(. h) = E XT +h − X avec X β j XT −j j=0 On peut montrer que 2 (1 − β) βρ − ρh − βρh 2 ∆ (ρ.2465579 beta : FALSE gamma: FALSE Coefficients: [. et pour ρ > 1/3.l.0389 > plot(hw) > points(2:(length(X)+1).3 Lien entre robustesse de la prévision et choix de β Il n’existe pas de relation a priori entre l’erreur de prévision et le paramètre β. h) = + 1+β (1 + β) (1 − βρ)  L’erreur de prévision varie de la façon suivante en fonction de β xx pour ρ < 1/3.> hw=HoltWinters(X. 69 . de variance 1.start=X[1]) > hw Holt-Winters exponential smoothing without trend an seasonal comp. l’erreur croît avec β.2465). L’erreur de prévision à horizon h est h T −1 i2  X bT (h) bT (h) = (1 − β) ∆ (ρ. gamma = FALSE.start = X[1]) Smoothing parameters: alpha: 0. Xt = ρXt−1 + εt . beta = FALSE. l.col="blue") 5.1.

Nous noterons ici yb1 . on considère comme valeur initiale une moyenne des premières valeurs observées. on obtient F2 = yb1 = αy1 + (1 − α) F1 = 0.00 1257.3 ∗ 1293 + 0. on utilise la relation de mise à jour F1 = yb0 = ybj = αyj + (1 − α) ybj−1 ou Fj+1 = αyj + (1 − α) Fj Avec comme constante de lissage α = 0.47 1243. pour la date 3. à savoir 1209. Les méthodes de lissage permettent d’efectuer de la prévision en intégrant ce genre de rupture..93 .81 Comme on peut le voir.5. Mise en place de l’algorithme (α fixé) Pour la première valeur (T = 0). la prévision sera une correction de ce 1257..00 1257. notée y) conduirait à sousestimer les valeurs futures : il est alors naturel d’introduire des poids plus importants pour les valeurs récentes. Une moyenne arithmétique (non-pondérée. 1 (1293 + .3 = 1242.3 ∗ 1209 + 0. 98 C.1.81 1231.30 1242. Or la vraie valeur était plus faible. La prévision à horizon 1 est alors T −1 T −1 T −1 X X 1X i y T (1) = yT −i et ybT (1) = α [1 − α] yT −i = [1 − β] β i yT −i pour α.81 1231. 99 JAN F EB M AR AP R M AY 1293 1209 1205 1273 1220 1364 1330 1377 1332 JU N JU L AU G SEP OCT N OV 1290 1243 1203 1390 1360 1353 DEC 1343 En septembre. Aussi..A. F3 sera plus faible que F2 (la différence étant α [F2 − y2 ]) 1 2 3 4 5 yj−1 1293 1209 1205 1273 1220 Fj−1 1242.3. . et F1 . .. 1[ et β = 1−α T i=0 i=0 i=0 cette dernière valeur étant obtenue par lissage exponentiel (simple). FT la série des valeurs prédites.A.7 ∗ 1257. ybT la série lissée.4 Exemple d’application Considérons ici une série de ventes d’une entreprise. β ∈ ]0.. une modification structurelle (nouvelle unité de production) a provoqué un saut des ventes.47 70 Fj 1242...30 1242.7 ∗ 1242 = 1257. nous estimation pour la date 2 était de 1257.3 en prenant en compte (avec un poids correspondant à la valeur α) l’erreur qui avait été faite : en l’occurence..3. sur 18 mois C. EViews considère une moyenne sur les 8 premiers mois. à α fixé.3 puis F3 = αy2 + (1 − α) F2 = 0. + 1203) = 1242 8 Pour construire la série lissée.

Il convient de faire attention : dans la littérature. F1 = (y1 + y2 ) /2 (moyenne des deux premières valeurs . une faible pondération aurait permis de ne pas le prendre en compte). L’algorithme (13) donne ici un paramètre α = 0. la prévision faite avec un coefficient de 0. on s’aperçoit que la courbe observée et les courbes lissée sont quasiment confondues au bout de 10 mois (cette valeur dépendant de α : la convergence est d’autant plus rapide que α est grand ). Un coefficient de lissage plus faible (par exemple α = 0.(puisque Fj = αyj−1 +(1 − α) Fj−1 ) d’où finallement la série lissée exponentiellement pour 1998 yj ybj (α = 0.3) ybj (α = 0.. Certains auteurs décallent ainsi (dans les tableaux ou les graphiques) la courbe lissée. comme on peut le voir sur le graphique ci-dessous : dès octobre 1998. . cette adaptation se fait d’autant plus lentement que α est faible : les prévisions sont alors biaisées (sous-estimation dans cet exemple) pendant la période d’adaptation. Le graphique ci-dessous correspond à plusieurs initialisations : F1 = y1 (prévision parfaite ..3 est plus lente (ce qui rend la prévision moins sensible à un choc exogène : si cette variation en septembre n’avait été qu’un choc.(2)). La formule itérative pour construire la série lissée de Xt pour t = 1. Toutefois. + yn ) /n (moyenne de l’échantillon .7 avait atteint un niveau ”correct”. la prévision Fj+1 sera la dernière valeur observée (yj )..(4)) Remarque 100.7) JAN 1293 1242 1242 F EB 1209 1257 1278 M AR 1205 1243 1230 AP R 1273 1231 1212 M AY 1220 1244 1255 JU N 1290 1237 1230 JU L 1243 1253 1272 AU G 1203 1250 1252 SEP 1390 1236 1218 OCT 1360 1282 1338 On peut noter que plus α est proche de 1. Toutefois..(1)).. qui correspond à une somme des erreurs de prévision de 48178. c’est à dire un écart type de l’erreur valant 54. La série lissée s’adapte également au changement de niveau observé en septembre.874. 71 N OV 1353 1305 1353 DEC 1343 1320 1353 . une des méthodes les plus utilisée est la minisation des moindres carrés des erreurs (prévision/réalisation) à un horizon h = 1. + Xp ] /p Ft+1 = αXt + (1 − α) Ft pour 0 ≤ t ≤ N  Ft = FN +1 pour t ≥ N + 1 Choix de la constante de lissage Ce choix peut relever de considérations empiriques : des fortes pondérations pour les valeurs récentes (α élevé) donne de meilleures prévisions à court terme qu’à long terme. A retenir 101. On peut noter que le lissage dépend non seulement de α mais aussi de la valeur initale choisie.. En choissant une valeur intiale proche des premières valeurs de la série (b y0 = y1 ou yb0 moyenne des 2 ou 3 premières observations). soit ybt−1 . F1 = (y1 + y2 + y3 ) /2 (moyenne des trois premières valeurs (3)) et F1 = (y1 + . plus la courbe lissée colle aux données (b yj est proche de yj ) : pour α = 1. on observe une convergence (asymptotique). alors que la prévision avec une pondération de 0.418. Comme le montre le graphique de gauche. N est la suivante   F0 = X1 ou [X1 + .3) permet en revanche de bien lisser les aléas importants de la série.. avec des valeurs très proches pour T proche de 16. les courbes lissées sont soit Ft .

L’intervalle de confiance de la prévision est alors de la forme   2 2 2 bT (h)±1. à savoir approcher Xt par Yt où Yt = A + (t − T ) B La prévision à horizon h s’écrit bT (h) = A b (T ) + hB b (T ) FT +h = X De même que pour (12) le programme d’optimisation pour estimer A et B s’écrit (T −1 ) X min β j (XT −j − [A + (T − j) B])2 A. Gouriéroux et Monfort (1995) pages 110-111 72 .2 Principe de lissage exponentiel double Le lissage exponentiel simple est adapté à des séries pouvant être ajustée par une constante au voisnage de T . La solution de (14) est donnée par b (T ) = 2S1 (T ) − S2 (T ) et B b (T ) = 1 − β [S1 (T ) − S2 (T )] A β en posant S1 (t) = (1 − β) t−1 X β k Xt−k = (1 − β) Xt + βS1 (t − 1) (série lissée) k=0 S2 (t) = (1 − β) t−1 X β k S1 (t − k) = (1 − β) S1 (t) + βS2 (t − 1) (série lissée 2 fois) k=0 t−1 t−k−1 X X 2 = (1 − β) k=0 β i+k Xt−(k+i) i=0 Proof. Le principe de lissage exponentiel double permet de faire un ajustement par une droite.96σX Ch où C 2 = 1+ 1 − β + 2h (1 − β) (1 + 3β) + 2h (1 − β) 1 + 4β + 5β X h (1 + β)3 5.Remarque 102.B (14) j=0 Théorème 103.

2. XT +1 = X b (T ) + B b (T ) et B b (T + 1) = B b (T ) A Dans ce cas.2. i. on peut utiliser le résultat suivant bT (1) = A b (T ) + B b (T ). en T + 1 Proposition 104. et la pente. L’intervalle de confiance de la prévision est alors de la forme s 2β bT (h) ± 1. la série (correspondant à un indice) est une série ”croissante” : l’ajustement par lissage exponentiel simple sous-estimerait les valeurs réalisées (graphique page ??) . Gouriéroux et Monfort (1995) pages 112-113 bT (1).1 Méthode adaptative de mise à jour (ordre 1) Pour obtenir la formule de mise à jour (à l’ordre 1) permettant de passer de T à T + 1.B j=0 73 . mais par une droite. on aurait A b (T + 1) = Dans le cas d’une prévision parfaite. FT +1 = X  h i b (T + 1) = (1 − β 2 ) XT +1 − X bT (1) + A b (T ) + B b (T )  A h i (15) b (T + 1) = B b (T ) + (1 − β 2 ) XT +1 − X bT (1)  B Proof. Le programme de minimisation s’écrit ici (T −1 ) X min αj (Xt−j − [AT + BT (T − j)])2 A.2 Application de la méthode de lissage exponentiel double Considérons la série suivante. alors. est inchangée (B Remarque 105. correspondant à un indice d’activité 1982 1983 1984 1985 1986 1987 1988 Trim 1 Trim 2 Trim 3 Trim 4 − 9050 9380 9378 9680 10100 10160 10469 10738 10910 11058 11016 10869 11034 11135 10845 11108 11115 11424 10895 11437 11352 11381 11401 11507 11453 11561 − Le lissage exponentiel double est très proche du lissage exponentiel simple.96σX X 2β − 1 5. En fait. particulier. en b (T + 1) = B b (T )). les droites de prévision en T et en T + 1 sont les mêmes. sauf que l’on fait un ajustement au voisinage de T non plus par une constante.e.5. Si à la date T .

30 9253.93 159. l’initialisation de l’algorithme est important.56 142.  α Aj = λyj + (1 − λ) [Aj−1 + Bj−1 ] où λ = 1 − (1 − α)2 et µ = (16) Bj = µ [Aj − Aj−1 ] + (1 − µ) Bj−1 2−α Remarque 106.30 140. prévision à horizon 1 faite à la date j. Aj et Bj sont unitilisés pour calculer ybj .66 9491.Les coefficients Aj et Bj sont donnés par Aj = 2b yj1 − ybj2 et Bj =  α  1 ybj − ybj2 1−α où les ybj1 et ybj2 sont obtenus récursivement par deux lissages consécutifs.00 9112. et λ = 0.6205 et µ = 0. sauf que l’on remplace l’erreur de prévision par la dernière observation yj . soit Fj+1 . Trois formulations sont possibles pour écrire la série lissée Formulation classique .La prévision à horizon h est alors ybT (h) = AT + BT h.73 9332.61 9563. telle que B1 = [yt0 − y1 ] /t0 . Une méthode possible est de considérer comme valeur initiale pour A1 la première valeur y1 .l’erreur de lissage ej est donnée par ej = yj − ybj = yj − [Aj−1 + Bj−1 ]. en prenant comme constante de lissage α = 0.2376 1982 − 2 1982 − 3 1982 − 4 1983 − 1 yj 9050 9380 9378 9680 Aj 9050. Encore une fois.cette expression est en fait la même que la précédente. et donc    Aj = Aj−1 + Bj−1 + 1 − (1 − α)2 ej Bj = Bj−1 + α2 ej ce qui donne une relation permettant d’obtenir récursivement les Ai et les Bi .92 .81 Fj+1 9215. Formules de mise à jour .  1 : lissage exponentiel simple de yi ybj1 = αyj + (1 − α) ybj−1 2 1 2 ybj = αb yj + (1 − α) ybj−1 : lissage exponentiel simple de ybi1 Formules de lissage direct .05 9421.11 74 Bj 165. Dans le cas qui nous intéresse on obtient la série lissée suivante. La pente B1 peut alors être choisie comme la pente moyenne entre la date 1 et une date t0 .384.à l’aide de la relation (16) . et comme valeurs initiales de A0 = y1 et B0 la pente sur une période de 10 observations (soient 9050 et 177) .

vector(X).") a7=autoroute$a007 X=ts(a7.data=B) plot(X) abline(regT.1982 1983 1984 1985 1986 1987 1988 Série observée Trim 1 Trim 2 Trim 3 Trim 4 − 9050 9380 9378 9680 10100 10160 10469 10738 10910 11058 11016 10869 11034 11135 10845 11108 11115 11424 10895 11437 11352 11381 11401 11507 11453 11561 − 1982 1983 1984 1985 1986 1987 1988 Série lissée Trim 1 Trim 2 Trim 3 Trim 4 − 9215 9254 9492 9564 9796 10189 10372 10646 10932 11143 11303 11295 11138 11166 11234 11023 11118 11159 11405 11095 11364 11412 11443 11461 11541 11524 − A titre de comparaison.3 > + + > > > > > > > > > réalisation 11401 11507 11453 11561 prévision (double) prévision (simple) 11459 11352 11506 11352 11553 11352 11600 11352 Application au traffic sur l’autoroute A7 autoroute=read.lwd=2) summary(regT) Call: lm(formula = x ~ T.table( "http://freakonometrics. et les prévisions pour les trimestres suivant aurait été obtenus en utilisant A = A1987−3 = 11412. B = B1987−3 = 47.csv".col="red".frame(x=as.blog.fr/public/data/autoroute. header=TRUE.sep=". frequency = 12) T=time(X) S=cycle(X) B=data. data = B) Residuals: Min 1Q Median -20161 -10568 -2615 3Q 4390 Max 35017 Coefficients: Estimate Std. Error t value Pr(>|t|) 75 .T=as.start = c(1989. Supposons que la série ait été observée jusqu’au troisième trimestre de 1987. La série lissée jusqu’à cette date reste la même. nous avons ajouté à droite le lissage exponentiel simple optimal qui aurait été obtenu sur les mêmes données. Ce lissage simple est relativement mal adapaté à ce type de données (croissantes) puisque nous allons continuellement sousévaluer la vraie valeur en période de croissance forte.free.vector(T). et ybT (h) = A + Bh 1987-4 1988-1 1988-2 1988-3 5.S=as.02. 9).vector(S)) regT=lm(x~T.

001 ’**’ 0.data=B) B$X2=predict(regS) plot(B$S.1 ’ ’ 1 Residual standard error: 14610 on 83 degrees of freedom Multiple R-squared: 0. --Signif.05 ’. Adjusted R-squared: 0.4 -1.xlab="saisonnalitÃľ") 76 .04101.’ 0.3 1.55 on 1 and 83 DF.01 ’*’ 0. codes: 0 ’***’ 0.B$res1.7 1545258. T 1460.7 775.859 0.factor(S).0631 .0666 .06306 > > > > B$res1=X-X1 regS=lm(res1~0+as. p-value: 0.884 0.02946 F-statistic: 3.(Intercept) -2872401.

.Cette famille est obtenue en prenant comme base une base de Rp (X) (espace des polynômes de degré inférieur ou égal à p). La formule itérative pour construire la série lissée de Xt pour t = 1. En particulier. (t − k + 1) ..) comprend la plupart des fonctions usuelles. obtenues avec f (t) = [1.φ (t) = c.. on peut choisir la base   1 Bp = Pk (t) = t (t − 1) . et définie par récurence par Pk (t) = Pk−1 (t − 1) + Pk (t − 1) pour k > 1 77 . (1) Les fonctions constantes . k = 1. (2) Les fonctions linéaires .. .) est à matrice de transition fixe i=1 Cette classe de fonction φ (.. on retrouve le principe de lissage exponentiel double. Le vecteur f (t) = [f1 (t) . p + 1 k! obtenue à l’aide du triangle de Pascal. on retrouve le principe de lissage exponentiel simple. N est la suivante  1   S02 = X1 ou [X1 + . ou généralisé Cette généralisation a été proposée par Brown en 1962. (3) Les fonctions polynômiales de degré p . Définition 108.4 Lissage exponentiel multiple... La résolution de ce problème repose sur la notion de vecteurs de fonctions à matrice de transition fixe..A retenir 107.. permettant d’ajuster au voisinage de T une fonction plus complexe qu’une fonction affine. Dans ce cas. t]0 de matrice de transition        1 0 1 1 0 1 A= puisque = 1 1 t−1 1 1 t Dans ce cas. + Xp ] /p   S0 = 0     S 1 = αXt + (1 − α) St1 pour 0 ≤ t ≤ N    t+1 2 St+1 = αSt1 + (1 − α) St2 pour 0 ≤ t ≤ N 1 2 At+1 = 2St+1 − St+1 pour    0≤t≤N  2 1  − S B = α S  t+1 t+1 / (1 − α) t+1    F = At+1 + Bt+1 pour 0 ≤ t ≤ N    t+1 Ft = AN +1 + (t − N − 1) BN +1 pour t ≥ N + 1 5. . ...φ (t) = α + βt. obtenues avec f (t) = 1 et A = 1. fn (t)]0 .. où t ∈ Z est dit à matrice de transition fixe s’il existe une matrice A régulière telle que f (t) = Af (t − 1) pour tout t ∈ Z La méthode du lissage exponentiel généralisé consiste à ajuster au voisinage de T de la série Xt une fonction φ (t − T ) de la forme φ (t) = n X αi fi (t) où f (..

cos ωt]0 . le programme d’optimisation s’écrit (T −1 ) X 2 min β j (Xt−j − f 0 (−j) a) (17) a j=0 où la notation f 0 désigne la transposée de f . ... . et dans ce cas   cos ω sin ω A= − sin ω cos ω (6) Les fonctions exponentielles . . associée à la matrice de covariance Ω. . F =  =  et Ω = diag 1. .. On en déduit que la solution à (17) est unique. Posons       XT f1 (0) fn (0) f 0 (0)        .. . De la même façon que (14).... X1 f1 (−T + 1) fn (−T + 1) f 0 (−T + 1) Le programme (17) correspond à la regression (linéaire) de x sur les colonnes de F .Le vecteur f (t) = [P1 (t) .. 1/β . et est donnée par −1 0 b a (T ) = F 0 Ω−1 F F Ωy = [M (T )]−1 Z (T ) où 0 −1 M (T ) = F Ω F = T −1 X j 0 0 β f (−j) f (−j) et Z (T ) = F Ωy = j=0 T −1 X β j f (−j) XT −j j=0 La matrice M (T ) converge vers une matrice finie M quand T → +∞ : on peut estimer b a (T ) en utilisant cette matrice limite... ..Les fonctions φ (t) = α sin ωt+β sin ωt sont obtenues en prenant f (t) = [sin ωt. 1 0   0 0 0 0 0 0 1 1 (4) Les fonctions sinusoïdales .  . T −1 x =  ..  .. b a (T ) = M −1 Z (T ) avec M (T ) = ∞ X j=0 Et la prévision à horizon h faite à la date T est bT (h) = f 0 (h) b X a (T ) 78 β j f (−j) f 0 (−j) . Pp+1 (t)] est alors de matrice de transition (fixe)   1 0 0 0 0  1 1 0 0 0     0 1 1  0 0   A= . .Les fonctions φ (t) = α exp (βt) sont obtenues en prenant f (t) = exp (βt) et dans ce cas A = exp (α).     .. 1/β. . Cette méthode de lissage se met en place de la façon suivante.

proche de (11). La seconde relation s’interprête comme une moyenne pondérée de deux (A informations sur B (T ).1 Les méthodes de Holt-Winters (1960) Méthode non saisonnière Cette méthode est une généralisation de la méthode de lissage exponentiel mais avec un point de vue différent de celui introduit dans le lissage exponentiel généralisé. différentes de (15) :  h i b (T + 1) = (1 − λ) XT +1 + λ A b (T ) + B b (T ) où 0 < λ < 1  A h i (18) b (T + 1) = (1 − µ) A b (T + 1) − A b (T ) + µB b (T ) où 0 < µ < 1  B La première relation est une moyenne pondérée de deux informations sur A (T ).5. correspondant à la pente de la série à la date T : la différence entre les niveaux estimés en T et T + 1.5. la nuance se faisant au niveau de formules de mise à jour.5 5.4. Toutefois. ces deux relations ne peuvent être utilisée qu’après initialisation. notons que Z (T + 1) = XT +1 f (0) + βA−1 Z (T ) et on peut alors écrire b a (T + 1) = XT +1 M −1 f (0) + βM −1 A−1 Mb a (T ) que l’on peut encore noter  b a (T + 1) = λXT +1 + µb a (T ) où λ = M −1 f (0) µ = βM −1 A−1 M où les matrices λ et µ sont indépendantes de T . La prévision à fera généralement de la façon suivante : A horizon h faite à la date T est donnée par bT (h) = A b (T ) + hB b (T ) X 79 .1 Méthode adaptative de mise à jour (ordre 1) Pour cela. l’ajustement se fait de façon linéaire au voinage de T . Cette relation peut se mettre sous la forme suivante. De la même façon que pour le lissage exponentiel double. h i bT (1) b a (T + 1) = A0b a (T ) + λ XT +1 − X 5. et la pente estimée en T . correspondant au niveau de la série à la date T : l’observation XT +1 et la prévision faite en T b (T ) + B b (T )). que l’on b (2) = X2 et B b (2) = X2 − X1 .

prediction.c(P[.2]. Cette dernière méthode correspond au cas particulier (1 − β)2 2β 2 λ = β et µ = 1 − = 2 1−β 1+β Sur l’exemple précédant.1].2. col="yellow".3])).xlim=range(c(time(X). β (ou α).alpha=. où s est le facteur de saisonnalisation (ou le nombre de saisons : s = 4 pour des données trimestrielles ou s = 12 pour des données mensuelles)  h i b (T + 1) = (1 − λ) [XT +1 − ST +1−s ] + λ A b (T ) + B b (T ) où 0 < λ < 1 (lissage de la moyenne)  A    h i b b b b (T ) où 0 < µ < 1 B (T + 1) = (1 − µ) A (T + 1) − A (T ) + µB (lissage de la tedance)  h i   b (T + 1) + νST +1−s où 0 < ν < 1  SbT +1 = (1 − ν) XT +1 − A (lissage de la saisonnalité) et la prévision à horizon h (1 ≤ h ≤ s) s’écrit bT (h) = A b (T ) + hB b (T ) + SbT +k+s X 80 .2 La méthode saisonnière additive On suppose ici que la série (Xt ) peut être approchée au voisinage de T par la série Yt = A + (t − T ) B + St où St est un facteur saisonnier.col="red".interval=TRUE) plot(HW.lwd=3) 5.Cette méthode peut être vue comme une généralisation du lissage exponentiel double.time(P)))) polygon(c(time(P).5.24.border=NA) lines(P[. Les formules de mise à jour s’écrire de la façon suivante.beta=0) P=predict(HW. qui ne faisait intervenir qu’un coefficient. on obtient > > > > + > HW=HoltWinters(X.rev(P[.rev(time(P))).

.. + Xt+4 + Xt+5 + Xt+6 M Xt = 12 2 2 et ainsi. 92 401 = 3 047 187 − 2 954 786 On considère alors la différence moyenne pour chaque mois : JAN ∆1 = 21 [(XJAN 00 − M XJAN 00 ) + (XJAN 01 − M XJAN 01 )] FEV ∆2 = 12 [(XF EV 00 − M XF EV 00 ) + (XF EV 01 − M XF EV 01 )] Par exemple. + 3 032 833 + 3 075 696 + 12 2 La composante saisonnière est alors obtenue comme différence entre la série brute Xt et la série désaisonnalisée M Xt ..La encore. Xs+1 ) b (s + 1) = A b (s + 1) − A b (s)  B    b b (i) Si = Xi − A 5. et on peut prendre  b (s) = Ms (X1 . + 2 795 698 + .. 5. peuvent très facilement être mises en oeuvre. le problème d’initialisation va se poser.. à l’aide des méthodes de lissage exponentiel. on peut noter que  1 2 797 469 3 2 864 431 = + 2 773 701 + 2 735 895 + . Nous allons voir comment faire de la prévision sur des données comportant de la saisonnalité. Cette série correspond dans le tableau ci-dessus à la variable DIFFERENCE.. la différence moyenne pour Septembre est ∆9 = 1 (69 692 + 71 120) = 70 406 2 On peut noter que la somme de ces différences moyennes ∆i ne vaut pas 0 : on va alors normaliser les ∆i de façon à ce que leur somme soit nulle.1 Présentation des données Les données sont mensuelles. Xs ) où Ms est une moyenne pondérée  A    b A (s + 1) = Ms (X2 . Par exemple.. . en particulier sur des tableurs (Excel par exemple). + Xt + .... Pour lisser cette série.. nous avons utilisé une moyenne mobile permettant d’annuler une saisonnalité annuelle (période 12) : M2×12 ..6 Exemple de mise en pratique des méthodes de lissage Comme nous allons le voir ici. et comportent une saisonnalité annuelle. .. afin de faire de la prévision. les méthodes de lissage..6. sur l’exemple ci-dessus. En particulier   1 1 1 Xt−6 + Xt−5 + Xt−4 + . On considère alors 12 1 X j δ =∆ − ∆ 12 j=1 i i 81 .

En particulier  2 858 914 = −4 772 213 + 209. On pourra ainsi obtenir  2 940 601 = 2 871 933 + 68 668 = (−4 772 213 + 209. en nombre de jours par rapport au 1er janvier 1900. 82 .2 Lissage ”linéaire” La méthode la plus simple pour faire de la prévision sur une série désaisonnalisée est d’utiliser une régression linéaire. Les séries sur la gauche donne l’approximation linéaire. Pour cela. on construit la série corrigée des variations saisonnières (CV S) comme différence entre (Xt ) et la composante saisonnière du mois correspondant. on régresse la série Zt sur les séries I (c’est à dire la constante) et t (la série ”temps”). on va définir δ i = ∆i −20 865/12. et la prévision de Xt devient X (colonne PREVISION (constante)).98 × 36 342 (t = 36 342correspond au 1er juillet 1999) 38 382 = 2 929 423 − 2 891 041 La composante saisonnière (COMPOSANTE SAISONNIERE) est alors la série obtenue dans la partie précédante. la somme des ∆i valait 20 865 : aussi. C’est à partir de cette série corrigée des variations saisonnières que l’on va faire de la prévision. Une la première prévision de Xt : X méthode encore plus simple est de considérer comme ajustement de Zt non pas une droite bt = C + Σt .98. B = −4772213 et où εt est la séries des erreurs (ERREUR)9 . (colonne PREVISION (droite)). Pour cela. Cette série δ i va alors constituer la composante saisonnière de la série (Xt ). et on rajoute ensuite la composante saisonnière. la saisonnalité pour le mois de mars est −62 580. Et à partir de là. et l’on obtient APPROX.6. 5. Par exemple. et combinée à la série Zbt = A + Bt : on obtient bt = A + Bt + Σt . LINEAIRE : Zt = A + Bt + εt avec A = 209. La méthodologie est alors la suivante. quelconque mais une constante.98 × 36 404) + 68 668 2 870 061 = 2 932 641 − 62 580 9 Le temps t est exprimé. Zt = C + ηt . on part des séries de base Xt (série brute) et Zt (série corrigée des variations saisonnières).Dans l’exemple considérée. On sépare la série initiale (Xt ) de la façon suivante : Xt = Zt + Σt = série CV S + composante saisonnière et la prévision sera alors faite en considérant bt = Zbt + Σt X On extrapole la série corrigée des variations saisonnières (par lissage). comme sous Excel.

par  P Xt = At + Bt pour t = 2. n + 1 St0 = λSt−1 + (1 − λ) St−1 Les coefficients A et B sont définie par At = 2St − St0 et Bt = λ [St − St0 ] 1−λ soit sur l’exemple ci-dessous At = 2 × 2 771 987 − 2 746 504 = 2 797 469 et Bt = 0.7.6.7 La série ’‘lissage brut” est donnée par At + Bt = 2 877 040 + 18 480 = 2 895 520 La série de la prévision est alors donnée.. soit dans l’exemple ci-dessous X 3 051 423 = 2 925 143 + 126 280 5..Bn+1 pour h ≥ 1 83 . lorsqu’il y a n observations.. on se fixe au préalable une constante de lissage.. n + 1 0 pour t = 2..4 Lissage exponentiel double Les séries (S) et (S 0 ) sont définies récursivement de la façon suivante  St = λXt−1 + (1 − λ) St−1 pour t = 2. .. appliqué à la série corrigée des variations saisonnières.7) × 2 953 724 = 2 969 139 pour t > F eb99  St = ST pour t > T = Dec01 L’erreur saisonnière est alors toujours la série (Σt ) et la prévision est alors donnée par bt = St + Σt .5.7 (2 882 758 − 2 842 769) 1 − 0.6. n + 1 P Xn+h = An+1 + h.. ... par exemple λ = 0.7 × 3 005 108 + (1 − 0. .3 Lissage exponentiel simple Le lissage exponentiel simple est présenté ci dessous. Pour cela. La série lissée est alors définie parde la façon suivante   St = Zt−1 = 2 726 843 pour t = F eb99 St = λZt−1 + (1 − λ) St−1 = 0.

c’est à dire lim V (Xn − X) = 0 n→∞ P On peut alors définir la variable aléatoire Y = n∈Z an Xn comme limite. on peut noter que. L2 est un espace de Hilbert. A. dans L2 de Yp. On notera aussi ΠH (Y ). Y ).q = p. si X et Y sont centrée. H∈H caractérisé par Yb ∈ H et Y − Yb ∈ H⊥ .q→+∞ 84 X n∈Z an X n . Xn converge vers X au sens de L2 si  lim EXn = EX lim kXn − Xk = 0. Remarque 112. Y i = E (XY ) = cov (X.q = q X n=−p an Xn et Y = lim Yp. hX. Définition 109. De façon plus générale (et plus formelle). Xi = E (X 2 ) = V (X) + E (X)2 . à valeurs dans R.q Yp.1 Propriétés topologiques On considère le processus (Xt ) définit sur l’espace de probabilité (Ω. Théorème de projection Si H est un sous espace fermé de L2 . Par définition de la covariance.1 A quoi ressemblent les processus (S)ARIMA ? 6. P) est l’espace des variables de carré intégrable (variances-covariances finies). . kf kp = Ω |f |p dP Proposition 110.6 Introduction aux modèles linéaires ARIM A 6.2 Rappels sur les espaces L2 6. ·i et la norme associéek·k  hX.2. il existe une unique variable aléatoire Yb ∈ H tel que b Y − Y = min kY − Hk . Y i = E (XY ) kXk2 = hX. on désigne par Lp l’espace de Banach des classes d’équivalence (pour l’égalité P-presque sûre) des fonctions mesurables telles que 1/p R soit finie. P). muni du produit scalaire h·. L’espaceL2 (Ω. pour toute variable Y ∈ L2 . A. Théorème 111.

E (Zd ))0 et sa matrice de variance-covariance (si elles existent) par V (Z) =  E (Z − E (Z)) (Z − E (Z))0 . aX est une variable gaussienne.6.. tn . .e.) désigne l’espérance linéaire. .. P) de X sur H∗ = V ect(X1 . Xn . X  D E b I =0  X − X.. P) de Y sur H = V ect(I. X1 . E (X) = µ et V (X) = Σ.. De plus. ... A. Définition 113. i..... on définit son espérance par E (Z) = (E (Z1 ) ..3 Régression affine dans L2 Régression sur un nombre fini de variables La régression linéaire théorique de Y sur X1 ... pour tout a ∈ Rd . Zd )0 . . Soit γ [cov (Xi . . X1 . Si X est un vecteur gaussien. si A est la matrice d’un application linéaire de Rd dans Rp ... Xn ) = ΠH (Y ) où EL (. Cette matrice est hermitienne positive. Alors le vecteur [cov (X. .2 Rappel sur les vecteurs et processus gaussiens Pour un vecteur aléatoire Z = (Z1 . Cette variable est la meilleure approximation (au sens de L2 ) de Y par une combinaison linéaire de I. Le processus (Xt ) est un processus gaussien si tout système fini extrait est un vecteur aléatoire gaussien.e..1.. an ) vérifie a = Σ−1 γ.n .. Xn ).. + αn Xn car X b ∈ H.. Sa densité s’écrit alors   1 1 0 −1 exp − (x − µ) Σ (x − µ) . (Xt1 .. Définition 114. Xtn ) est un vecteur gaussien.. pour tout t1 .. On note alors Yb = EL (Y |I... Xn est la projection orthogonale dans 2 L (Ω. f (x) = √ 2 (2π)d/2 det Σ où µ ∈ Rd et Σ est une matrice hermitienne positive d × d. .j=0.. pour tout n.. .. Xn ).. .2. X où a = (a0 . le vecteur AZ admet pour espérance AE (Z) et pour matrice de variance-covariance AV (Z) A0 ... Proposition 115.. ... X1 . b peut s’écrire α0 + α1 X1 + ..n et b = EL (X|I.. . A.... Le vecteur X = (X1 . a1 . Xd ) est un vecteur gaussien si toute combinaison des Xi est une variable gaussienne. D E b Xi = 0 pour i = 1. Xj )]i.. i..1.. son moment à l’ordre p existe et de plus.. ... 85 Σ la matrice .. X1 ..  X − X.|. .. 6.. ... Xn est la projection orthogonale dans L2 (Ω.. Xi )]i=0. et la régression affine théorique de Y sur X1 .. n. et vérifie Proof.2. + an Xn . Xn ) = a0 + a1 X1 + ..

.. ...... . X1 . . .. Soit H l’adhérance de l’espace engendré par les combinaisons linéaires des Xi : H =L (I. On peut noter que EL (X|I. + αn E (Xn )  E (X) = E X (1)   b i = α0 E (Xi ) + α1 E (X1 Xi ) + . Remarque 116.. n.. La projection sur H est alors la limite On considère alors X bn (dans L2 ) des variables X b = lim EL (X|I. Xn )...    cov (XXn ) = α1 cov (X1 Xn ) + . . ... bn = EL (X|I. X1 .... + αn E (Xn )) E (Xi ) +α1 E (X1 Xi ) + . ... pour i = 1.... c’est à dire car X − X      b = 0 soit E (X) = E X b  E X −X h i  b Xi = 0 pour i = 1.. + αn cov (Xn Xi ) . et X0 = I ∈ L2 .. . − αn E (Xn ) et par substitution dans (2).). X1 .... X1 .. + αn E (Xn Xi ) (2)  E (XXi ) = E XX (1) donne α0 = E (X) − α1 E (X1 ) − .. 2.. + αn cov (Xn X2 ) ..b ∈ H⊥ . n. des variables de L2 . Régression sur un nombre infini de variables ? ? ? On considère cette fois ci X1 . n cov (XXi ) = α1 cov (X1 Xi ) + . Xn ) = EL (X|X1 . + αn cov (Xn Xn ) . ..... Xn ) . + αn cov (Xn X1 )    cov (XX2 ) = α1 cov (X1 X2 ) + . .. E (XXi ) = E (X) E (Xi ) − (α1 E (X1 ) + ... .... X n→∞ 86 . ce qui donne le système  cov (XX1 ) = α1 cov (X1 X1 ) + . qui s’écrit sous forme matricielle γ = Σα.. + αn E (Xn Xi ) donc..... Xn ) si et seulement si E (X) = 0 et E (Xj ) = 0 pour j = 1.  E X −X D’où    b = α0 + α1 E (X1 ) + .. Xn .. Xn ....

6.2.4

La notion d’innovation

Opérateur de projection linéaire
Etant données une variable aléatoire Y et une famille de variables aléatoires
{X1 , ..., Xn }, on définit l’opérateur de projection linéaire Π de la façon suivante :
Π (Y | {X1 , ..., Xn }) = α1 X1 + ... + αn Xn ,
où les αi sont les solutions du programme d’optimisation
(α1 , ..., αn ) = arg min {V ar [Y − (a1 X1 + ... + an Xn )]} .
a1 ,...,an

En d’autres termes, Π (Y | {X1 , ..., Xn }) est la meilleure prévision linéaire de Y basée sur
{X1 , ..., Xn }, au sens où la variance de l’erreur sera minimale. On peut noter que cet
opérateur est linéaire, au sens où
Π (λ.Y + µ.Z| {X1 , ..., Xn }) = λ.Π (Y | {X1 , ..., Xn }) + µ.Π (Z| {X1 , ..., Xn }) .
De plus, l’erreur de prévision Y − Π (Y | {X1 , ..., Xn }) est non corrélée avec toute fonction
linéaire des X1 , ..., Xn . Enfin, si cov (X1 , X2 ) = 0, alors Π (Y | {X1 , X2 }) = Π (Y | {X1 }) +
Π (Y | {X2 }).
Il est possible de projeter sur une suite infinie de variables aléatoires {X1 , ..., Xn , ...},
en notant
Π (Y | {X1 , ..., Xn , ...}) = lim Π (Y | {X1 , ..., Xk }) .
k→∞

Cette limite existant pour toute suite de variables aléatoires | {X1 , ..., Xn , ...} .
Prévision linéaire
Définition 117. Soit (Xt )t∈Z un processus de L2 . On appelle meilleur prévision
linéaire de Xt sachant son passé la regression linéaire (théorique) de Xt sur son passé
H =V ect (I, Xt−1 , Xt−2 , ...), et sera notée EL (Xt |I, Xt−1 , Xt−2 , ...).
Définition 118. Le processus d’innovation du processus (Xt ) est le processus (εt ) défini
par
εt = Xt − EL (Xt |I, Xt−1 , Xt−2 , ...) .
Proposition 119. Soit (Yt ) un bruit blanc BB (0, σ 2 ), le processus stationnaire (Xt )
définit par10
Xt = Yt − ρYt−1 pour |ρ| < 1,
alors
EL (Xt |I, Xt−1 , Xt−2 , ...) = −


X

ρi Xt−i

i=1

et le processus d’innovation est (Yt ) .
10

Ceci correspond à un processus M A (1), dont la racine est à l’intérieur du cercle unité.

87

Proof. Le processus (Xt ) est stationnaire en tant que moyenne mobile de bruit blanc.
Définissons alors
n
X
St,n = −
ρi Xt−i .
i=1

A t fixé, la suite (St,n ) est une suite de Cauchy dans L2 puisque

n
n

X
X

i

i .

ρ .

De façon rigoureuse. . . i=1 puisque kρn+1 Yt−n−1 k ≤ σ 2 |ρ|n+1 → 0 quand n → ∞.t = Yt + ρn+1 Yt−n−1 et donc Xt + ∞ X ρi Xt−i = Yt . En fait. hI. Remarque 120. Xt−2 . = E (εt+k Xt−h ) = . σ 2 ). Il est possible de montrer (en utilisant la densité spectrale) que le processus εt définit par εt = Xt − ρ−1 Xt−1 est effectivement un bruit blanc. (St. E (εt+k Xt−1 ) = E (εt+k Xt−2 ) = .. Xt−1 .... alors elle est orthogonale au passé de Xt c’est à dire que  E (εt Xt−1 ) = E (εt Xt−2 ) = .. pour tout t ∈ Z. .). donc Xt + Sn..n − St.) et Hεt = V ect (I.. Xt−2 . De plus. Du fait de cette définition. Xt−2 .) coïncident : HX = Hεt .n ) converge donc dans L2 vers P∞ vers St = i=1 ρi Xt−i . est régulier s’il existe un bruit blanc (εt ) tel que. si εt est l’innovation. . Xt−2 . = 0 mais E (εt Xt ) 6= 0.) et (εt ) est le processus d’innovation.. il conviendrait d’introduite la notion de processus régulier : on dira que le processus stationnaire (Xt ). Xt−1 . = 0. l’adhérance des passés (linéaires) t t HX = V ect (I.. Or hXs . Xt−1 . . élément de V ect (I.). pour k ≥ 0. d’où Xt = St + Yt .. centré. Soit (Yt ) un bruit blanc BB (0. Or Xt = Yt − ρYt−1 . Yt i = 0 et St ∈ V ect (I. on aura également que εt+k sera également orthonogonale au passé de Xt . avec |ρ| > 1. Comme nous le verrons par la suite (propriété (??)) le processus Yt ainsi défini ne correspond pas à l’innovation du processus Xt . Yt i = 0 pour tout s < t. ... εt−1 . l’innovation possède un certain nombre de propriétés Comme on peut le voir sur le schéma ci-dessus... (εt ) correspond au processus d’innovation associé au processus (Xt ). = E (εt Xt−h ) = . εt−2 . On 88 ... le processus stationnaire (Xt ) satisfaisant Xt − ρXt−1 = Yt .. Xt−1 .m k = i=m+1 i=m+1 qui tend 0 quand m et n tendent vers l’infini. donc St = EL (Xt |I. Remarque 121. ρ Xt−i ≤ kXt k kSt..

pour tout t..) = EL (XT +h |εT . Ce processus est alors une suite orthogonale (pour le produit scalaire h·. . Le fait que les deux espaces coïncident implique. et on a l’inclusion Ht−1 (ε) ⊂ Ht−1 (X). ... dans L2 . p fois 0 avec la convention L = I et L 6.. HX où ⊕ désigne une somme directe orthogonale. ·i). 6. on notera H (X) le sous-espace de Hilbert de L2 correspondant à l’adhérance. Et de façon analogue. L−p = F p pour p ∈ N. Compléments à l’aide des espaces H Etant donné un processus (Xt ).3. k=0 (ii) Si |λ| > 1 alors 1 − λL est inversible.3 6. −1 (1 − λL) ∞ X 1 k = F . alors on a la décomposition t−1 t = HX ⊕ Rεt . de l’espace des combinaisons linéaires finies d’éléments de (Xt ). On notera HT (X) le sous-espace de Hilbert de L2 correspondant à l’adhérance. on cherche B (·) tel que A (·) ◦ B (·) = B (·) ◦ A (·) = 1. Inversibilité des polynômes P (L) ? ? ? Soit A (·) un polynôme. et le processus bruit blanc est alors unique : il est appelé innovation du processus (Xt ) . dans L2 .. et de plus..) .2 −1 = F .1 Polynômes d’opérateurs retard L et avance F Rappels sur les opérateurs retards Nous avions défini précédemment l’opérateur retard L par L : Xt 7−→ L (Xt ) = LXt = Xt−1 et l’opérateur avance F par F : Xt 7−→ F (Xt ) = F Xt = Xt+1 . alors 1 − λL n’est pas inversible.. de l’espace des combinaisons linéaires finies d’éléments de (Xt ) avec t ≤ T . On appelle processus d’innovation la suite εt = Xt − ΠHt−1 (X) (Xt ). −1 (1 − λL) = ∞ X λk Lk . ◦ L} où p ∈ N. Définition 122. XT −1 .peut alors montrer si (Xt ) est un processus stationnaire régulier. εT −1 . à chaque date t les passés coïncident. (i) Si |λ| < 1 alors 1 − λL est inversible. inversibilité de P (L) = 1 − λL Proposition 123. que si (εt ) est l’innovation du processus (Xt ) alors EL (XT +k |XT . 89 . en particulier. et de plus. On notera alors Lp = |L ◦ L {z ◦ .3. λk k=1 (iii) Si |λ| = 1. et si (εt ) est un bruit blanc tel que.

(i) Si |λ| < 1 alors −1 (1 − λ) = +∞ X λk = k=0 donc A(L) = P+∞ k=0 1 < +∞. On a alors : .Proof. si |λ| > 1 alors 1 − λL = −λ L − λ1 = −λL 1 − Fλ . De plus: (1 − λL)A(L) = lim (1 − λL) k→+∞ k X j=0 ! j λL j = lim 1 − λk+1 Lk+1 = 1. k→+∞ ce qui signifie que A est le polynôme inverse associé à (1 − λL).   (ii) De façon analogue. 1−λ λk Lk est bien défini.

.

 −1 X +∞ .

1.

1 F 1 k −1 .

.

<1 car F = (λL) = F et 1 − .

λ.

Dans le cas où λ = 1 (racine unité) on se retrouve en prsénce d’une marche aléatoire Yt = Xt − Xt−1 (non stationnaire).. k λ λ λ k=0 En combinant ces deux résultats : (1 − λL)−1 −1  F 1 −1 =− F = (−λL) 1− λ λ +∞ X 1 k F k λ k=0 ! +∞ −1 X X 1 k = − λk Lk . Soit (Xt ) et (Yt ) deux processus stationnaires tels que Yt = Xt − λXt−1 = (1 − λL) Xt . On peut écrire n Y 1 (1 − λi L) où λi = A (L) = zi i=1 90 . où λ < 1.. inversibilité des polynômes en L Tout polynôme A (L) = 1+a1 L+.+an Ln (normalisé tel que A (0) = 1). F =− k λ k=1 k=−∞ ce qui correspond au résultat souhaité. (1 − L)A(L) = 1 ⇒ |ak | = |ak−1 | 9 0 quand k → ∞. + λk Yt−k + . Cette relation s’inverse en Xt = (1 − λL)−1 Yt = Yt + λYt−1 + .. Exemple 124. peut s’écrire A (z) = an (z − z1 ) (z − z2 ) ... et donc P k∈Z |ak | = +∞. il n’existe par de polynôme A(L) = k∈Z ak Lk . k∈Z |ak | < +∞ tel que (1 − L)A(L) = 1. (z − zn ) ... Exemple 125. correspondant à la décomposition en éléments simples (zi = racines du polynôme). En effet. P P (iii) En effet.. s un tel polynôme existait.

En effet. λi |λi |<1 |λi |>1 |λi |>1 | {z }| {z }| {z } A1 (L) A2 (L) A3 (L) puisque (1 − λi L) = −λi L (1 − F/λi ). A(L) peut contenir des termes en i=1 (1 − λi L) k L . supposons qu’il s’écrive A(L) = pj=1 (1 − λj L).k L et A(L) Qp −1 −1 est donc aussi défini. Pour cela. PourQ déterminer. |ak | < +∞. k > 0 qui sont des termes concernant le futur P k k Si |λi | < 1 pour tout i alors (1 − λi L)−1 = +∞ k=0 λi L et : −1 A(L) p +∞ Y X −1 = ak L k (1 − λi L) = i=1 où +∞ X |ak | < +∞. |λi | = 6 1. |λi | > 1}. Y A (L)−1 = (1 − λi L)−1 |λi |<1 | Y  1− |λi |>1 P {z αk Lk }| P 1 F λi −1 {z   Y λi  F n . alors A (L) est inversible. en pratique. Si des racines sont inférieures à 1 (en module). l’inverse de A (L) est donné par A (L)−1 Y A (L)−1 = (1 − λi L)−1 = A1 (L)−1 A2 (L)−1 A3 (L)−1 i. de telle sorte que ! p +∞ Y X A(L)−1 = λkj Lk j=1 91 k=0 .e. et alors. cette décomposition fait intervenir le futur de la variable. notons Y Y Y Y  1 A (L) = (1 − λi L) = (1 − λi L) 1− F (−λi L).  |λi |>1 } βk F k où n = card {i. k=0 k=0 Par ailleurs. P k −1 −1 = Proof. k=0 k=0 k=0 k=0 Remarque 127. (1 − λ L) est bien défini. p Y A(z) = (1 − λi z) et A(z)A(z)−1 p +∞ Y X =1⇔ (1 − λi z) ak z k i=1 i=1 ! = 1. l’inverse d’un polynôme A (L). S’il existe i tel que λi ∈ C\R alors A(L) = (1 − λi )(1 − λi )P (L) et ! +∞ ! +∞ +∞ +∞ X X X X −1 −1 k k k k k ¯ (1−λi ) (1−λi ) = λi L λi L = αk L αk ∈ R. k=0 de telle sorte que A(0)A(0)−1 = 1 × a0 = 1 ⇒ a0 = 1. de la forme i k∈Z ai. Toutefois. ∀i. Si pour tout i. α0 = 1.Proposition 126.

. Xt+h ) = γ (h). 2) mais elle s’avère fastidieuse en général. et on défini la fonction d’autocorrélation h 7→ ρX (h) = γX (h) /γX (0) pour tout t.. Xt−h ) p = ρX (h) = corr (Xt .     .   . ! ! +∞ +∞ X X A(L) ak Lk = (1 + ϕ1 L + · · · + ϕp Lp ) ak Lk = 1 k=0 k=0 Les ak sont obtenus par récurrence puis identification..1 Autocovariance et autocorrélation Pour une série stationnaire (Xt ). .. .e. . constante indépendante de t et.. E (Xt ) = µ.   ρ (1)   ρ (h − 1) · · · ρ (1) 1 92 .  1 ρ (1)  ρ (h − 1) ρ (h − 2) ρ (h − 3) ρ (1) 1 i. un processus (Xt ) est stationnaire (au second ordre) si pour tout t. 6. cov (Xt .. 1 = φ(z)Qr (z) + z r+1 Rr (z) avec limr→+∞ Qr (z) = A−1 (z).4. . pour tout t et pour tout h. 6.. indépendante de t.  ρ (2) ρ (1) 1 ρ (h − 3)   R (h) =  . soit γX (h) cov (Xt . On appelera matrice d’autocorrélation du vecteur (Xt . on défini la fonction d’autocovariance h 7→ γX (h) = cov (Xt Xt−h ) pour tout t..On peut utiliser directement cette méthode de calcul pour p petit (p = 1. E (Xt2 ) < +∞.    R (h) =      ρ (h − 1)    . Xt−h+1 )   1 ρ (1) ρ (2) ρ (h − 1)  ρ (1) 1 ρ (1) ρ (h − 2)      ..4 Fonction et matrices autocorrélations Pour rappels. R (h − 1)    .. φ(L)−1 = p Y 1 1 − λj L j=1 On décompose alors cette fraction rationnelle en éléments simples. On note.. pour tout t. Xt−1 . Xt−h ) = p γX (0) V (Xt ) V (Xt−h ) Définition 128..

. ce qui fait qu’il ne peut √ y avoir de chute brutale de ρ (1) à ρ (2) : il est impossible d’avoir ρ (2) = 0 si ρ (1) ≥ 1/ 2. Définition 129.093 -0.. . la relation det R (2) ≥ 0 implique la contrainte suivante sur le couple (ρ (1) . et en projetant ainsi sur Ξt−1 h . XT .2 7 0..000 -0. . Xt−h ) = a1 (h) Xt−1 + a2 (h) Xt−2 + . il faut considérer (Xt − µ) (Xt−h − µ)).043 9 0..004 -0. Xt−h . de la façon suivante : T −h 1 X γ b (h) γ b (h) = Xt Xt−h et ρb (h) = . by lag 0 1 2 3 4 5 6 1..113 -0. (19) 93 . . Cette propriété implique un certain nombre de contraintes sur les ρX (i).125 6.107 -0. + ah−1 (h − 1) Xt−h+1 ... Xt−h+1 ) .vector(acf(X)) Autocorrelations of series ’X’.. dans le cas de Xt EL (Xt |Xt−1 . Nous allons introduire ici une notion faisant intervenir les variables intermédiaires. > X=rnrom(100) > as. Xt−h+1 ) = a1 (h − 1) Xt−1 + a2 (h − 1) Xt−2 + .. où ( bt−h = Xt−h − EL (Xt−h |Xt−1 . EL (Xt |Xt−1 ..027 -0. on défini la fonction d’autocorrélation partielle h 7→ ψX (h) par   b b ψX (h) = corr Xt ... T − h t=1 γ b (0) (quand le processus est centré.. ρ (2)) :   [1 − ρ (2)] 1 + ρ (2) − 2ρ (1)2 ≥ 0.. X On regarde ici la projection (ou l’espérance linéaire) les deux valeurs extrêmes Xt et Xt−h sur l’ensemble des valeurs intermédiaires Ξt−1 h−1 = {Xt−1 .. Par example. Nous supposerons.. Pour une série stationnaire (Xt ). . Xt−h+1 }.On peut noter que det R (h) ≥ 0 pour tout h ∈ N\ {0}. sans perte de généralité que le processus (Xt ) est centré : E (Xt ) = 0 pour tout t.026 Autocorrélations partielles Les deux précédentes mesures de dépendence entre Xt et Xt+h ne faisaient intervenir que les variables Xt et Xt+h . pour un échantillon X1 .. Xt−h+1 ) X bt = Xt − EL (Xt |Xt−1 . sinon. en rajoutant Xt−h .065 8 0. Ces fonctions sont estimées..... Cette projection peut s’écrire. .. On peut aussi écrire.. + ah−1 (h) Xt−h+1 + ah (h) Xt−h .4.

... On a alors h−1 X ai (h − 1) Xt−i = i=1 h−1 X ai (h) Xt−i + ah (h) i=1 h−1 X ah−i (h − 1) Xt−i . + ρ (1) ah−1 (h)] = ρ (h) − h−1 X ρ (h − i) ai (h) . h − 1 aj (h) = aj (h − 1) − ah (h) + ah−j (h − 1) (20) Toutefois.. on peut utiliser le résultat suivant. ... cette méthode récursive n’est possible qu’à condition de connaître ah (h)...  a (h) =   = R (h)  .. ah (h) ρ (h) 94 . Pour cela.. puisque ρ (0) = 0. . Xt−h+1 ) . De (19). ρ (i) ai (h − 1) . Pour j = 1.. . i=1 i=1 On peut d’ailleurs noter que l’on a la relation suivante     a1 (h) ρ (1)   −1  .. +ah−1 (h − 1) EL (Xt−h |Xt−1 . ρi = corr (Xt . c’est à dire ah (h) = ρ (h) − [ρ (h − 1) a1 (h) + ..  . + ρ (1) ah−1 (h) + ah (h) . on a le résultat suivant.. . Lemme 131. Xt−h+1 ) = a1 (h − 1) Xt−1 + a2 (h − 1) Xt−2 + . on peut déduire ρ (h) = ρ (h − 1) a1 (h) + .Il est alors possible de montrer que EL (Xt |Xt−1 .. i=1 En utilisant (20). on peut écrire " h−1 # h−1 X X ah (h) = ρ (h) − ρ (h − i) ai (h − 1) − ah (h) . Xt−i ).. En notant ρi le coefficient d’autocorrélation.. (21) Proof. alors ah (h) = ρ (h) − 1− Ph−1 Pi=1 h−1 i=1 ρ (h − i) ai (h − 1) ρ (i) ai (h − 1) .. i=1 Aussi. permettant d’obtenir les coefficients de façon récursive Proposition 130.

Xt−h . .. (21) et la condition initiale a1 (1) = ρ (1) est appelé algorithme de Durbin.Définition 132... Xt−h+1 .. 1 − ρ (1) a1 (h − 1) Ces deux équation permettent d’obtenir récursivement les deux coefficients extrêmes a1 (h) et ah (h) pour tout h. . L’algorithme récursif basé sur (20). Il est équivalent de connaître la fonction d’autocorrélation (ρX (h)) ou la fonction d’autocorrélation partielle (ψX (h)). ah (h) = −ρ (1) ah−1 (h − 1) .. (i) L’algorithme de Durbin a montré que la connaissance des ρX (h) permet de construire de façon récursive les fonctions ψX (h). Proposition 133.. et que       a1 (h) ρ (h − 1) ρ (1)       ... pour h ≥ 1. Soit (Xt ) un processus stationnaire. ψX (h) est le coefficient relatif à Xt−h dans la projection de Xt sur Xt−1 .. Xt−h+1 ) = ah (h) [Xt−h − EL (Xt−h |Xt−1 . la relation inverse s’obtient par récurence. soit ah (h). De (20) on peut en déduire en particulier que a1 (h) = a1 (h − 1) + ah (h) ah−1 (h − 1) . R (h − 1)  +  ah (h) =  . . Proof..... que pour h ≥ 2. on peut noter que   ρX (2) − ρX (1)2  ψX (1) = ρX (1) et ψX (2) =  1 − ρX (1)2 95 .. Cette propriété s’obtient en notant que EL (Xt |Xt−1 . ah−1 (h) Exemple 135. Proof.. Théorème 134. ρ (h − 1) · · · ρ (1)   + ah (h) = ρ (h) . . . . En particulier. ah−1 (h) ρ (1) ρ (h − 1) et   a1 (h)    . . . Xt−h+1 )] . en notant que a1 (1) = ψX (1) = ρX (1). Xt−h )−EL (Xt |Xt−1 . et. alors ψX (0) = 1. . . et de (21) .. (ii) Réciproquement.

.. .vector(pacf(X)) Partial autocorrelations of series ’X’. alors h∈Z |γX (h)| < +∞.023 -0. R (h) =  . ...004 -0.108 -0..  1 ρ (1) ρ (2) ρ (h − 3)  ρ (1) 1 ρ (1) ρ (h − 4)   . . Soit (Xt ) un processus la forme Xt = m + P+∞ P+∞ stationnaire de P j=0 aj εt−j où (εt ) est un bruit blanc et j=0 |aj | < +∞. .   ρ (h − 3) ρ (h − 4) ρ (h − 5) . . ρ (h)]0 . En reprenant les notations de la partie précédante.. 1 ρ (1) ρ (2)     ρ (h − 2) ρ (h − 3) ρ (h − 4) ρ (1) 1 ρ (1)  ρ (h − 1) ρ (h − 2) ρ (h − 3) ρ (2) ρ (1) 1 et on introduit de façon analogue la matrice R∗ (h) obtenue colonne de R (h) par le vecteur [ρ (1) .. 1   ρ (h − 2) ρ (h − 3) ρ (h − 4) ρ (1) ρ (h − 1) ρ (h − 2) ρ (h − 3) ρ (2) en remplaçant la dernière ρ (h − 2) ρ (h − 3) ρ (1) ρ (2)     ρ (h − 4) ρ (3)      ρ (1) ρ (h − 2)   1 ρ (h − 1)  ρ (1) ρ (h) Il est alors possible de montrer simplement que ψX (h) = |R∗ (h)| pour tout h... . .002 -0.   1 ρ (1) ρ (2) ρ (h − 3) ρ (h − 2) ρ (h − 1)  ρ (1) 1 ρ (1) ρ (h − 4) ρ (h − 3) ρ (h − 2)      .105 -0. .025 Densité spectrale ? ? ? Comme nous l’avon déjà mentionné.3 7 8 9 0.027 -0..  ρ (h − 3) ρ (h − 4) ρ (h − 5) . 96 ..116 -0. .  . ρ (h − 5) ρ (h − 4) ρ (h − 3)   ρ (2) ρ (1) 1   .153 6..  R (h) =      .4. il est équivalent de connaître la fonction d’autocorrélation et la densité spectrale du processus.. Proposition 136.  ρ (2) ρ (1) 1 ρ (h − 5)  ∗ .. by lag 1 2 3 4 5 6 -0.Une autre formulation consiste à dire que la fonction d’autocorrélation partielle mesure la corrélation entre Xt et Xt−h une fois retirée l’influence des variables antérieures à Xt−h . |R (h)| > X=rnorm(100) > as...

X h∈Z .Proof.

.

.

X .

.

X .

|γX (h)| = aj ak γε (h + j − k).

. .

.

.

k Or. comme (εt ) est un bruit blanc. et donc. h∈Z j. X h∈Z .  γε (h + j − k) = 0 si h + j − k 6= 0 σε2 si h + j − k = 0.

.

!2 .

X .

.

X X X .

|γX (h)| = aj ah+j .

≤ σε2 |aj | |ah+j | = σε2 aj < +∞. .

σε2 .

.

on a alors (εt ) ∼ BB(0. 2π Proposition 138. 2π h∈Z 2π h∈Z Proof.j Proposition 137. on a le théorème d’injectivité suivant. Avec les notations précédentes. En effet. Z Z −iωh ∀h ∈ Z. # " X X 1 γX (−h)eiωh fX (ω) = γX (h)eiωh + γX (0) + 2π h<0 h>0   X X 1   = γX (h)eiωh + γX (−h) e−iωh  γX (0) + | {z } 2π h>0 h>0  =γX (h)  # " X X 1 1   γX (h) (eiωh + e−iωh ) = γX (h) cos(ωh) γX (0) + = γX (0) + | {z } 2π 2π h>0 h6=0 =2 cos(ωh) 1 X = γX (h) cos(ωh). [−π. γX (h) = fX (ω)e dω = fX (ω) cos(ωh)dω.π] [−π. La densité spectrale du processus (Xt ) est définie par fX (ω) = 1 X 1 X γX (h) exp(iωh) = γX (h) cos(ωh). σ 2 ) ⇒ fε (ω) = σε . h∈Z j j h. 2π h∈Z On peut d’ailleurs noter que si (εt ) est un bruit blanc de variance σ 2 .π] 97 .

π] e−iωh dω γX (k)eiωk k∈Z Z  1 X iω(k−h) = γX (k) e dω (d’après Fubini) 2π k∈Z [−π. En effet.π] ! Z X [−π. aj εt−j et Yt = Xt = j∈Z alors Yt = P j k∈Z k∈Z ck εt−k .Proof. Soient (εt ) un bruit blanc. Z fX (ω)e−iωh dω = 1 2π [−π. |bj | < +∞. . Proposition 139.π] {z } |   0 si k 6= h =  2π si k = h = γX (h). j et de plus. et considérons les processus (Xt ) et (Yt ) définis par X X X X bk Xt−k où |aj | .

.

2 .

X .

.

iωk .

fY (ω) = fX (ω) .

bk e .

. .

.

Il suffit de noter que ! Yt = X bk Xt−k = k∈Z X bk k∈Z X aj εt−k−j = j∈Z X aj bk εt−(k+j) j. j∈Z h∈Z | {z =ck } et de plus. la densité spectrale s’écrit ! X X 1 X 1 fY (ω) = γY (h)eiωh = bj bk γX (h + j − k) eiωh 2π h∈Z 2π h∈Z j. k∈Z Proof.h∈Z X X aj bh−j εt−h .k∈Z ! ! ! X X 1 X = γX (l)eiωl bj eiωj bk e−iωk 2π l∈Z j∈Z k∈Z .k∈Z ! = X aj bh−j εt−h = j.j.k∈Z 1 X = bj bk γX (h + j − k)eiω(h+j−k) e−iωj eiωk 2π h.

.

2 .

X .

.

.

= fX (ω) .

bk eiωk .

. .

.

k∈Z 98 .

Définition 140.. et Chatfield en a précisé les principales charactéristiques en 1979. + γ (−1) L 2 + γ (0) I + γ (1) L + γ (2) L + . La fonction d’autocorrélation inverse ρiX est définie par. = +∞ X γi (k) Lk = Γ (L)−1 k=−∞ Exemple 142.. notée Γi (L) est défini par Γi (L) Γ (L) = I et est telle que −1 Γi (L) = . La fonction d’autocovariance inverse γiX est la fonction d’autocovariance associée au spectre inverse 1/f . On définit alors la ’‘fonction génératrice d’autocovariance” comme le polynôme (d’opérateurs retards) suivant −1 Γ (L) = .. il se peut que 1/fX soit interprétable comme une densité spectrale (par exemple dès lors que 1/fX est continue).7)). k=−∞ et de façon similaire.. = +∞ X γ (k) Lk .on peut alors en déduire simplement que l’autocovariance inverse est donnée par Pp−h j=0 φj φj+h γi (h) = Pp pour h ≤ p et γi (h) = 0 pour h ≥ p 2 j=0 φj 99 . Etant donné un processus (Xt ) stationnaire.. et où Φ et Θ sont respectivement des polynômes de degré p et q.6. fX (ω) 2π h∈Z −π fX (ω) De la même façon que précédement. ρi (h) = γiX (h) . où σ 2 est la variance du bruit blanc εt Θ (L) Θ (L−1 ) σ 2 Dans le cas où la composante moyenne mobile n’existe pas (Θ = I. Z +π 1 1 1 X γiX (h) = exp (iωh) dω ou = γiX (h) exp (−iωh) .4 Autocorrélations inverses ? ? ? Cette notion a été introduite en 1972 par Cleveland.. La fonction génératrice d’autocovariance inverse. q) (voir partie (6. + γi (−1) L 2 + γi (0) I + γi (1) L + γi (2) L + . La fonction génératrice d’autocovariance inverse est donnée par Γi (L) = Φ (L) Φ (L−1 ) 1 . on peut définir la fonction génératrice d’autocorrélation. on parle alors de processus AR (p)). définit par une relation de la forme Φ (L) Xt = Θ (L) εt où εt est un bruit blanc.. γiX (0) Considérons une série (Xt ) stationnaire. on peut alors définir une autocorrélation inverse. Dans le cas d’un processus dit ARM A (p. Définition 141. de fonction d’autocovariance γX et de densité spectrale fX .. de processus d’autocovariance γ (h) pour h ∈ Z.4.

Les autocorrélations ρ et les autocorrélations inverses ρi sont identiques si et seulement si X est un bruit blanc 6. et déterministes. On peut noter la ”correspondance” suivante autocorrélations l autocorrélations partielles inverses autocorrélations partielles l autocorrélations inverses En fait.96/ n. en la comparant avec 1.avec la convention φ0 = 1. les autocorrélations permettent de détecter (entre autres) si une série est intégrée. au seuil de 5%. sur l’identification des modèles ARM A. les autocorrélations partielles inverses peuvent être obtenus à l’aide de méthodes récursives (proches de celle de Durbin). la significativité des coefficients √ d’autocorrélation inverse peut être testée. Exemple 144. Remarque 143. et des autocorrélogrammes partiels de séries non-stationnaires. en remplaçant les ρ par les ρi). Aussi. alors que les autocorrélations partielles permettent de vérifier que la série n’a pas été surdifférenciée.4. les autocorrélations inverses empiriques suivent un bruit blanc de loi normale de moyenne nulle et de variance 1/n. pour les processus AR (p). Fonction puissance Xt = (1 + r)t 100 . Bhansali a montré en 1980 que pour un bruit blanc. comme nous le verrons par la suite. Il est également possible de définir les autocorrélations partielles inverses (en utilisant une construction analogue à celle développée dans la partie précédante. Ainsi. Fonction linéaire Xt = a + bt Exemple 145. et s’il faut la différencier.5 Complément : autocorrélogrammes de fonctions déterministes Nous allons rappeler ici les formes des autocorrélogrammes. les autocorrélations inverses s’annulent au delà du retard p (de la même façon que les autocorrélations partielles). Comme l’a montré Bhansali (1980 − 1983) et Cleveland et Parzen.

un processus stationnaire (Xt ) vérifiant une relation du type Xt − p X φi Xt−i = εt pour tout t ∈ Z. certains ouvrages ou logiciels considérant des polynômes de la forme I + φ1 L + .Exemple 146. On appelle processus autoregressif d’ordre p. (22) est équivalent à l’écriture Φ (L) Xt = εt où Φ (L) = I − φ1 L − ... (22) i=1 où les φi sont des réels et (εt ) est un bruit blanc de variance σ 2 . Fonction logarithmique Xt = log (t) Exemple 147. noté AR (p). 101 . + φp Lp . − φp Lp Il convient de faire toutefois attention aux signes.5 Les processus autorégressifs : AR (p) Définition 148... Fonction sinusoïdale Xt = sin (πt/12) 6.

par définition.5. lorsque les racines de Φ sont de module différent de 1. en particulier leur position par rapport à 1 (en module). . . . . . quitte à changer la forme du bruit blanc. in obtient l’inclusion réciproque et finalement L(Xt ) = L(εt ). . . . Xt . il convient de regarder les racines du polynôme Φ. Xt−1 . . m correspond ici à l’espérance de (Xt ). où L(Xt ) = Proposition 150. Xt−k . bt . . il est possible. εt−k . . un processus AR (p) vérifie une relation de la forme Φ (L) Xt = µ + εt où µ est un terme constant. Xt−1 . . . donc Xt − m = Φ(L) (εt ). | {z } ∈L(Xt−1 ) Comme L(Xt−1 ) = L(εt−1 ). . .2). (Xt ) admet une représentation M A(∞) i. k=0 +∞ X |ak | < +∞. présenter Xt comme une fonction des εt ). . En effet. . εt−1 . . Comme nous allons le voir dans cette partie. D’après les résultats énoncés dans la partie sur les polynômes d’opérateurs retards. . . . ) ⊂ L(εt ) et donc L(Xt ) ⊂ L(εt ).Remarque 149. Xt = m + +∞ X ak εt−k où a0 = 1. εt . . Donc ∀k ≥ 0. εt−p . . Xt−1 . 102 . on en déduit que L(Xt ) ⊂ L(εt ). Xt−p . et de plus (εt ) est l’innovation de (Xt ) . . . ). ) et L(εt ) = L(1. . . ). il est possible de se ramener à (22) par une simple translation : il suffit de consider non pas Xt mais Yt = Xt − m où m = µ/Φ (1). Xt−k . Xt . Xt−k ⊂ L(εt−k ) ⊂ L(εt ) On en déduit que L(1. . Le second espace étant fermé. ak ∈ R. Xt − X bt = EL(Xt |Xt−1 ) = EL(Xt |1. où (ii) L’innovation de (Xt ) vaut. εt . Finalement X l’innovation de (Xt ). Φ (L) (Yt + m) = µ + εt peut se réécire Φ (L) Yt + Φ (1) m = µ + εt c’est à dire Φ (L) Yt = εt . En toute généralité. . . De la même façon et comme εt = Xt −(µ+ϕ1 Xt−1 +· · ·+ϕp Xt−p ). 6. . Sous ces hypothèses.1 Réécriture de la forme AR (p) Comme nous l’avons vu dans la partie (6. P Proof. (i) Xt = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p + εt . si l’on souhaite inverser un polynôme (en l’occurence. . L(Xt ) L(1. .e. De cette forme générale. = L(εt ). ) X = EL(µ + ϕ1 Xt−1 + · · · + ϕp Xt−p + εt |Xt−1 ) = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p + EL(εt |Xt−1 ). εt−1 . .3. on a EL(εt |Xt−1 ) = EL(εt |εt−1 ) = 0 car (εt ) est un bruit bt = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p et Xt − X bt = εt : (εt ) est bien blanc. . k=0 −1 On sait que Φ(L)(Xt − m) = εt . qu’il est toujours possible de supposer les racines de module supérieur à 1. Ecriture sous la forme M A(∞) quand les racines de Φ sont de module strictement supérieur à 1 On suppose Φ(L)Xt = µ + εt où Φ(L) = 1 − (ϕ1 L + · · · + ϕp L) et aussi que |z| ≤ 1 ⇒ φ(z) 6= 0 (de telle sorte que les racines de Φ sont de module strictement supérieur à 1 ). qui peut se réécrire Xt = η + +∞ k=0 at εt−k donc Xt ∈ L(εt ) = L(1.

En effet. on dit que la représentation Φ(L)Xt = µ + εt est la représentation canonique de (Xt ). On pose    Y Y z Φ∗ (z) =  (1 − λj z)  (1 − ) λj j/ |λj |<1 j/ |λj |>1 ∗ de telle sorte que Φ a toutes ses racines de module strictement supérieur à 1. et donc (εt ) n’est pas l’innovation. la densité spectrale de (ηt ) est fη (ω) = fX (ω) |Φ∗ (eiω )| . Soit (ηt ) le processus tel que ηt = Φ∗ (L)Xt . Proposition 151. Ecriture sous la forme M A(∞) quand certaines racines de Φ sont de module strictement inférieur à 1 On suppose que le processus (Xt ) s’écrit Φ(L)Xt = µ + εt avec    p Y Y Y (1 − λj L) =  (1 − λj L)  (1 − λj L) Φ(L) = j=1 j/ |λj |<1 j/ |λj |>1 On peut alors montrer que l’on n’aura pas L(Xt ) = L(εt ). Alors (ηt ) est un bruit blanc.Si (Xt ) est un processus AR (p). Et comme Φ(L)Xt = εt . on a aussi : . Φ(L)Xt = µ + εt où les racines de Φ sont à l’extérieur du disque unité. 2 Proof. Pour obtenir la représentation canonique il faut changer le polynôme Φ et le bruit blanc.

.

2 σ2 fX (ω) .

Φ(eiω ).

= fε (ω) = ε 2π On peut alors écrire hQ 2 .

∗ iω .

2 σε2 1 .

φ (e ).

= σε h fη (ω) = 2π |φ(eiω )|2 2π Q = σε2 2π iω 2 j/ |λj |<1 |1 − λj e | iω 2 j/ |λj |<1 |1 − λj e | 2 σε2 1 |λj − eiω | = 2π |λj |2 |1 − λj eiω |2 j. |λj |>1 | {z } Y i Q i hQ .

.

j/ |λj |>1 .

1 − .

2  eiω .

λj .

|λj =1 On a donc fη (ω) = Y ση2 σε2 α 1 = avec α = 2 < 1 2π 2π |λ | j j. iω 2 j/ |λj |>1 |1 − λj e | i 1 |λj |2 |>1 Y j. |λ |>1 j et finalement (ηt ) est un bruit blanc. 103 . La représentation Φ∗ (L)Xt = ηt est alors la représentation canonique de (Xt ) et (ηt ) est l’innovation de (Xt ).

.5. Le polynôme caractéristique de cette relation de récurrence est :  ϕ1 ϕp−1 ϕp  1 z p − ϕ1 z p−1 − · · · − ϕp−1 z − ϕp = z p 1 − − · · · − p−1 − p = z p Φ( )..... . .6.. Soit (Xt ) un processus AR (p) d’autocorrélation ρ (h). + φp Xt−p Xt + εt Xt = φ1 Xt−1 Xt + φ2 Xt−2 Xt + ... . La forme générale de la solution est. . si z1 . . ... . en prenant l’espérance et en divisant par γ (0)..  1 ρ (1) ρ (p) ρ (p − 1) ρ (p − 2) ρ (p − 3) ρ (1) 1 Alors   φ1    φ2    φ3    .... . + φp Xt−p + εt ) = φ1 Xt−1 Xt + φ2 Xt−2 Xt + . . . Xt−2 . + φp γ (p) + σ 2 + 0..    ρ (2) . En effet..  . .  . en prenant l’espérance γ (0) = φ1 γ (1) + φ2 γ (2) + . {Xt−1 . z z z z p avec Φ(L)Xt = εt etΦ(L) = 1 − ϕ1 L − · · · ϕp L ... . Les racines du polynôme caractéristique sont les λi = z1i (les zi étant les racines de Φ) avec |λi | < 1.    φp−1  φp          De plus les ρ(h) décroissent exponentiellement vers 0. zn sont des racines distinctes de Φ de multiplicités respectives m1 . 104 .. i=1 Cette suite d’équations définit le système d’équation dit de Yule-Walker : Proposition 152.. en multipliant (23) par Xt−h .    .   .. ∀h > 0.     ρ (p − 1)   . . Proof.les équations de Yule-Walker Le processus (Xt ) s’écrit Xt = φ1 Xt−1 + φ2 Xt−2 + . on obtient ρ (h) − p X φi ρ (h − i) = 0 pour tout h > 0.}... . .. De plus. ... + φp Xt−p Xt + εt (φ1 Xt−1 + φ2 Xt−2 + . Xt−p . . le dernière terme étant nul car εt est supposé indépendant du passé de Xt . ρ (p − 2)  ρ (2)   ρ (1) 1 ρ (1)     ρ (3)   . ρ (p − 1) 1 ρ (1) ρ (2) ρ (1)  .2 Propriétés des autocorrélations . . (23) En multipliant par Xt . mn n m i −1 X X ρ(h) = αik λki hk i=1 k=0 c’est à dire que ρ(h) décroit vers 0 exponentiellement avec h. on obtient Xt2 = φ1 Xt−1 Xt + φ2 Xt−2 Xt + . + φp Xt−p + εt . d’où. .. + φp Xt−p ] εt ... + φp Xt−p Xt + ε2t + [φ1 Xt−1 + φ2 Xt−2 + ... . . ρ(h) − ϕ1 ρ(h − 1) − · · · − ϕp ρ(h − p) = 0. ρ (p − 3) ρ (1) 1  = .

Xt−h ) = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p + 0 Aussi.. ρi (h) = 0 pour h > p.2) permet d’obtenir les autocorrélations partielles ψ (h).Xt−p )⊂L(1. en notant ψ(h) le coefficient de Xt−h dans EL(Xt |Xt−1 . γi (h) = −π fX (ω) Si Φ(L)Xt = εt la densité spectrale de (Xt ) vérifie . . . ψ (h) = 0 pour h > p. . Il est possible de montrer le résultat suivant Proposition 153. .Par inversion.Xt . . Proof. Xt−h ) alors. . ... (i) Si (Xt ) est un processusAR(p) et si Φ(L)Xt = µ + εt est sa représentation canonique. (ii) Les autocorrélation inverses sont définies par ρi (h) = γi (h)/γi (0) où Z π 1 eiωh dω. (ii) Pour un processus AR (p) les autocorrélations inverses sont nulles au delà de rang p. Xt−h ) = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p + EL(εt |Xt−1 ..4. La méthodologie développée dans la partie (6. . et si h = p.Xt−h ) de telle sorte que EL(Xt |Xt−1 . le coefficient de Xt−h est 0. Xt = µ + ϕ1 Xt−1 + · · · + ϕp Xt−p | {z } + εt ∈L(1. . . . il est possible d’exprimer les φi en fonction des ρ (h).Xt . (i) Pour un processus AR (p) les autocorrélations partielles sont nulles au delà de rang p. . le coefficient de Xt−p est ϕp 6= 0.. si h > p....

.

2 σ2 1 σ2 . fX (ω) .

Φ(eiω ).

. = fε (ω) = ε donc fX (ω) = ε 2π 2π |Φ(eiω )|2 Par conséquent.

2 1 2π .

= 2 .

Φ(eiω ).

0 p σε2 σε2 Cette méthode pourra être utilisée pour identifier les processus AR (p) . 105 . les autocovariances inverses sont définies par Z π 2π X γi (h) = 2 ψk ψl eiω(k−l+h) dω . fX (ω) σε p Aussi. + ψp z (i. p] donc si h > p.l≤p | −π {z } =0 sauf si k−l+h=0 Or k − l ∈ [−p. γi (p) = 4π 2 4π 2 ψ ψ = − ϕp 6= 0. γi (h) = 0. En revanche si h = p. fX (ω) σε k=0 σ ε 0≤k. σε 0≤k..l≤p k=0ψk et donc. si Φ (z) = 1 + ψz + . ψ0 = 1 et ψk = −φk ).e. ! ! p p X 2π X 1 2π X = 2 ψk eiωk e−iωk = 2 ψk ψl eiω(k−l) ..

pour φ = 1. Or pour un processus stationnaire.5. (i) si φ = ±1. (Xt−2 . il existe un unique processus stationnaire tel que Xt − φXt−1 = εt pour tout t ∈ Z. + εt−h+1 . (ii) si |φ| < 1 alors on peut inverser le polynôme. Xt = Xt−1 + εt peut s’écrire Xt − Xt−h = εt + εt−1 + . i=0 Proposition 154. etc. Xt ). φ où ηt = (1 − φF ) (1 − φL) −1 2 εt = −φεt+1 + 1 − φ ∞ X φi εt−i . pour un processus AR(1) avec φ > 0 106 . Si |φ| 6= 1. On peut visualiser cette autocorrélation sur les nuages de points (Xt−1 . ou en notant que ρ (h) = φρ (h − 1). Proof. et −1 Xt = (1 − φL) εt = ∞ X φi εt−i (en fonction du passé de (εt ) ). La fonction d’autocorrélation est donnée par ρ (h) = φh . Par exemple. et 1 Xt = − F φ  1 1− F φ −1 εt = − ∞ X φ−i εt+i (en fonction du futur de (εt ) ). le processus (Xt ) n’est pas stationnaire.3 Le processus AR (1) La forme général des processus de type AR (1) est Xt − φXt−1 = εt pour tout t ∈ Z. et donc E (Xt − Xt−h )2 = hσ 2 . Cette expression s’obtient à partir des relations du type (24) .6. Xt ). i=1 La représentation canonique est alors Xt − 1 Xt−1 = ηt . il est possible de montrer que E (Xt − Xt−h )2 ≤ 4V (Xt ). où (εt ) est un bruit blanc de variance σ 2 . Puisqu’il est impossible que pour tout h.. ou (1 − φL) Xt = εt . le processus n’est pas stationnaire. (24) i=0 (iii) si |φ| > 1 alors on peut inverser le polynôme. hσ 2 ≤ 4V (Xt )..

8).8).> > > > > > X=arima. h=1 plot(X[1:(n-h)]. type = ’l’.col="red") ou un processus AR(1) avec φ < 0 > X=arima.X[(1+h):n]) library(ellipse) lines(ellipse(0.sim(n = 240.sd = 1) plot(X) n=240. list(ar = -0. list(ar = 0.8^h).sd = 1) 107 .sim(n = 240.

2π 1 + φ2 − 2φ cos ω qui correspond au graphique ci-dessous. avec φ > 0 (les courbes sont ici présentées dans la même base 1 : f (0) = 1).La densité spectrale d’un processus AR (1) est de la forme f (ω) = σ2 1 . les fonctions 108 . Les valeurs les plus importantes sont obtenues aux basses fréquences.

lwd=5.sim(n = 2400. Si φ = +1.6). et on obtient un modèle qui explosera (à moyen terme).sim(n = 2400. et autocorrélé négativement si −1 < φ < 0.6. les εt seront pris gaussiens. Dans les trois exemples ci-dessous. > X=arima. list(ar = -0. Cette série va osciller autour de 0.   φ > 0 décroissance exponentielle    Fonction d’autocorrélation φ  < 0 sinusoïde amortie AR (1) : première non nulle (signe = signe de ρ)    Fonction d’autocorrélation partielle toutes nulles après Considérons un processus AR(1) stationnaire avec φ1 = 0. list(ar = 0. 1) A retenir 155. Xt−1 ). en s’en écartant suivant la valeur εt du processus d’innovation (si −1 < φ < +1).lwd=5. Un processus AR (1) : Xt = φXt−1 + εt sera auto-corrélé positivement si 0 < φ < 1. La valeur φ.6). on obtient une marche aléatoire.φ étant décroissantes sur [0. π]. > X=arima. et si φ > +1 ou φ < −1 le processus n’est par stationnaire. dans le cas où le processus est stationnaire. εt ∼ N (0.col="red") Considérons un processus AR(1) stationnaire avec φ1 = −0.sd = 1) > plot(X) 109 .6. est la corrélation entre deux dates consécutives φ = corr (Xt .col="red") > plot(pacf(X).sd = 1) > plot(X) > plot(acf(X).

lwd=5.999).lwd=5.lwd=5.999.col="red") > plot(pacf(X).col="red") 110 .col="red") Considérons un processus AR(1) presque plus stationnaire avec φ1 = 0. > X=arima.col="red") > plot(pacf(X). list(ar = 0.lwd=5.sd = 1) > plot(X) > plot(acf(X).sim(n = 2400.> plot(acf(X).

c’est à dire que le comportement de cette suite peut être décrit en étudiant le polynôme caractéristique associé.  On −1 obtient alors des cycles stochastiques. −0. φ2 ) doit se trouver dans une des 4 parties ci-dessous. Cette condition s’écrit   1 − φ1 + φ2 > 0 1 + φ1 − φ2 > 0  2 φ1 + 4φ2 > 0. Processus AR (0. ρ (h) = φ1 ρ (h − 1) + φ2 ρ (h − 2) pour h ≥ 2. Processus AR (−0.cas 1 Exemple 157. L’autocorrélogramme présente une décroissante suivant un mélange d’exponentielles. dont la forme générale est  1 − φ1 L − φ2 L2 Xt = εt .7) .cas 2 Exemple 158.5. alors les ρ (h) présentent une évolution sinusoïdale √ amortie.  ρ (0) = 1 et ρ (1) = φ1 / (1 − φ2 ) . 0.4 Le processus AR (2) Ces processus sont également appelés modèles de Yule. de longueur moyenne 2π/ cos φ1 /2 −φ2 . Processus AR (0. 0. Quand les racines sont complexes (conjuguées).3) .7) .3) .5.5. Processus AR (−0.5. nous avions noté que la fonction d’autocorrélation vérifiait la relation de récurence suivante. c’est à dire que le couple (φ1 . alors le polynôme autorégressif peut s’écrire (1 − φ1 L − φ2 L2 ) = (1 − ω1 L) (1 − ω2 L) : le modèle AR (1) peut être vu alors comme un modèle AR (1) appliqué à un processus AR (1). Exemple 156. ω1 et ω2 où ω = φ1 ± φ21 + 4φ2 /2.6. −0.cas 3 Exemple 159. de la forme (1 − φ1 L − φ2 L2 ) Xt = φ0 + εt on peut alors noter que l’espérance de Xt est E (Xt ) = φ0 dès lors que φ1 + φ2 6= 1. Dansle cas où le polynôme admet deux p racines réelles. La fonction d’autocorrélation satisfait l’équation de récurence ρ (h) = φ1 ρ (h − 1) + φ2 ρ (h − 2) pour h ≥ 2.5. x2 − φ1 x  − φ2 = 0. 1 − φ1 − φ2 En utilisant les équations de Yule Walker. où les racines du polynôme caractéristique Φ (z) = 1 − φ1 z − φ2 z 2 sont supposées à l’extérieur du disque unité (de telle sorte que le processus εt corresponde à l’innovation).cas 4 Dans le cas d’un modèle AR (2) avec constante. 111 . et la fonction d’autocorrélation partielle vérifie   ρ  (1) pour h 2= 1  a (h) = ρ (2) − ρ (1) / 1 − ρ (1)2 pour h = 2  0 pour h ≥ 3.

z − φ2 .6. Le comportement d’un processus AR (2) : Xt = φ1 Xt−1 + φ2 Xt−2 + εt dépendra fortement des racines de son équation charactéristique 1 − φ1 .col="red") > X=arima.lwd=5.4)). avec un bruit aléatoire.lwd=5.z 2 = 0.lwd=5. Le cas le plus intéressant est celui où l’équation charactéristique a deux racines complexes conjuguées r exp (±iθ) pour r < 1 : le processus est alors stationnaire (et oscille alors autour de 0. de la même façon que les processus AR (1) dans le cas où |φ| < 1).6. Jenkins & Reinsel (1994)) A retenir 160.sd = 1) > plot(acf(X).sd = 1) > plot(acf(X).col="red") > plot(pacf(X). Le processus est alors quasi-cyclique.sim(n = 2400.(tiré de Box. list(ar = c(0. de fréquence θ.4)).sim(n = 2400.col="red") 112 .-0.col="red") > plot(pacf(X).0.lwd=5. list(ar = c(0. sans exploser.  décroissance exponentielle ou sinusoïde amortie  Fonction d’autocorrélation  deux premières non nulles AR (2) :  Fonction d’autocorrélation partielle toutes nulles après > X=arima.

col="red") > X=arima. il est possible d’inverser le polynôme Θ dans le cas où ses racines sont de module différent de 1 (quitte à changer des bruit blanc.. comme pour les processus AR). nous allons utiliser dans cette partie des modèles de la forme (25).col="red") > plot(pacf(X). list(ar = c(-0. + θq Lq . Les processus M A (∞) sont stationnaires si et seulement si ∞ i=1 θi est finie.lwd=5. Pour rappel. toutefois. un processus stationnaire (Xt ) vérifiant une relation du type X t = εt + q X θi εt−i pour tout t ∈ Z. On appelle processus moyenne mobile (’moving average’) d’ordre q. les processus M A (q) sont toujours P des 2processus stationnaires. En particulier pour les logiciels d’économétrie.sd = 1) > plot(acf(X).4)). (25) est équivalent à l’écriture Xt = Θ (L) εt où Θ (L) = I + θ1 L + . list(ar = c(-0.6 Les processus moyenne-mobile : M A (q) Définition 161.sd = 1) > plot(acf(X). Supposons que Θ n’ait pas de racines de module égal à 1. De la même façon que pour les AR (p). noté M A (q). − θq Lq .lwd=5. Encore une fois.> X=arima.lwd=5. Contrairement aux processus AR (p).6. Remarque 162. il convient de vérifier le signe attribué aux coefficients de la forme M A (cf exercice 15 de l’examen de 2002/2003). la convention est d’écrire ces modèles sous la forme Θ (L) = I − θ1 L − .lwd=5.6....sim(n = 2400. et 113 .-0.4)).col="red") > plot(pacf(X).col="red") 6. un processus AR (p) est stationnaire si les racines du polynôme retard sont à l’extérieur du cercle unité. (25) i=1 où les θi sont des réels et (εt ) est un bruit blanc de variance σ 2 . dans certains ouvrages.0.sim(n = 2400.

..sd=0 for(i in 1:(q-h)) sn=sn+theta[i]*theta[i+h] for(i in 1:(q)) sd=sd+theta[i]^2 ACF=sn/sd} 114 . + θq εt−h−q ])  [θh + θh+1 θ1 + . la relation   γ (0) = 1 + θ12 + θ22 + . la variance de (ηt ) est ici supérieure à celle de (εt ). + θq εt−q ] [εt−h + θ1 εt−h−1 + .6.. + θq θq−h ] σ 2 si 1 ≤ h ≤ q = 0 si h > q.. Cette propriété sera relativement pratique pour faire l’estimation de l’ordre de processus M A. pour h = 0. avec. on supposera que le processus M A est sous forme canonique.... Cette dernière relation peut se réécrire γ (k) = σ 2 q X θj θj+k avec la convention θ0 = 1.. j=0 D’où la fonction d’autocovariance. On peut calculer les autocorrélations à la main > + + + + + + rho=function(h..considérons le polynôme Θ∗ obtenu en remplaçant les racines de Θ de module inférieur à 1 par leur inverse. Le processus (ηt ) défini par la relation Xt = Θ∗ (L) ηt est là aussi un bruit blanc..theta){ theta=c(1. c’est à dire que toutes les racines de Θ sont de module supérieur à 1. Par le suite. + θq2 σ 2 . alors que γ (q + 1) = 0.. 6.1 Propriétés des autocorrélations La fonction d’autocovarariance est donnée par γ (h) = E (Xt Xt−h ) = E ([εt + θ1 εt−1 + . 1 + θ12 + θ22 + . ρ (h) = θh + θh+1 θ1 + .theta) q=length(theta) if(h>=q) ACF=0 else{sn=0. + θq θq−h si 1 ≤ h ≤ q. + θq2 et ρ (h) = 0 pour h > q. dont la variance Σ2 est définie par " p #−1 Y Σ2 = σ 2 |αi |2 . On peut noter en particulier que γ (q) = σ 2 θq 6= 0.. Aussi. i=r+1 où αi sont les racines de module inférieur à 1.

−π fX (ω) . q. de variance 1.THETA) points(1:24. avec un bruit blanc gaussien. En particulier. Proof.+ > > > > > > > return(ACF)} THETA=c(-. alors les autocorrélations inverves ρi (h) satisfont les équations de Yule-Walker inverse. On peut noter que s’il n’y a pas de résultat particulier pour les autocorrélations partielles.8εt−2 + 0..4.1εt−4 + 0. pour Xt = εt − 0.n=240) acf(X. si Xt = Θ(L)εt fX (ω) = Rπ 1 eiωh dω. Le graphique ci-dessous montre l’évolution d’un processus M A (5).pch=19..7εt−5 . mais ils ne sont inversibles que si les racines du polynôme charactéristiques sont à l’extérieur du disque unité. ρi(h) décroit exponentiellement avec h. Xt = Θ(L)εt = εt + θ1 εt−1 + . 2. ρi (h) + θ1 ρi (h − 1) + ..0.cex=2.6. On retrouve bien sur cette simulation de processus M A (5) le fait que les autocorrélations s’annulent pour h > 5.col="blue") Exemple 163.-. Par définition ρi(h) = γi (h)/γi (0) avec γi (h) = écrire.... + θq εt−q .3εt−3 − 0.. l’autocorrélogramme associé.9) X=arima.col="red".lwd=5) R=function(h) rho(h.7εt−1 + 0.7.sim(list(ma = THETA). Si (Xt ) suit un processus M A (q). avec à droite. + θq ρi (h − q) = 0 pour h = 1. . on a malgré tout le résultat suivant Proposition 165. A retenir 164.Vectorize(R)(1:24).. Les processus M A sont toujours stationnaire..

2 σε2 .

.

1 2π Θ(eiω ).

et donc = . 2π fX (ω) σε2 |Θ(eiω )|2 115 On peut alors .

(Yt ) suit un processus AR (q).e. et .Soit (Yt )t∈Z un processus tel que Θ(L)Yt = ηt i.

.

2 ση2 = fY (ω) .

Θ(eiω ).

h=1 plot(X[1:(n-h)].sim(n = 240. fX (ω) σε 2π σε 6. Les autocorrélations sont données par ρ (1) = θ . Xt ).X[(1+h):n]) library(ellipse) lines(ellipse(. L’autocorrélation partielle à l’ordre h est donnée par (−1)h θh (θ2 − 1) .sd = 1) plot(X) n=240. pour h ≥ 2.col="red") 116 . et ρ (h) = 0. les coefficients de régression sont donnés par ai (h) = − (−1)i θi (−1)i θ2h+2−i + . Xt ). (Xt−2 .8^2)). où (εt ) est un bruit blanc de variance σ 2 . On peut visualiser cette autocorrélation sur les nuages de points (Xt−1 . ψ (h) = 1 − θ2(h+1) et plus générallement.6. pour un processus MA(1) avec θ > 0 > > > > > > X=arima. pour tout t ∈ Z. 2π Donc : fY (ω) = ση2 1 .8/(1+. 1 − θ2h+2 1 − θ2h+2 dans le cas où θ 6= 1. type = ’l’. 2π |Θ(eiω )|2 de telle sorte que ση2 1 2π 4π 2 2 fY (ω) = ⇐⇒ 2 = ⇐⇒ ση = 2 . . list(ma = 0. etc. 1 + θ2 On peut noter que −1/2 ≤ ρ (1) ≤ 1/2 : les modèles M A (1) ne peuvent avoir de fortes autocorrélations à l’ordre 1.8).2 Le processus M A (1) La forme générale des processus de type M A (1) est Xt = εt + θεt−1 .

De cette dernière expression.La densité spectrale d’un processus M A (1) est de la forme   σ2  fX (ω) = 1 + θ2 + 2θ cos ω . dans 117 . 2π correspondant à un trend déterministe. on peut en déduire aisément que les autocorrélations inverses. auquel vient s’ajouter une constante.

5. 118 . Les graphiques ci-dessous représentent des simulations de processus M A (1). repectivement.   première non nulle (signe = signe de θ)   Fonction d’autocorrélation   toutes nulles après M A (1) : θ > 0 décroissance exponentielle    Fonction d’autocorrélation partielle θ < 0 sinusoïde amortie 6.3 Le processus M A (2) La forme générale de (Xt ) suivant un processus M A (2) est Xt = εt + θ1 εt−1 + θ2 εt−2 . 2.−1 et −2 Comme on peut le voir.le cas d’un processus M A (1) vérifient  h θ ρi (h) = pour tout h ≥ 1. ces processus sont toujours stationnaires.7). A retenir 167.col="red") > plot(pacf(X). list(ma = -0. 1 + θ2 > X=arima. de gauche à droite 0.sd = 1) > plot(acf(X). list(ma = .lwd=5.lwd=5.lwd=5. La fonction d’autocorrélation est donnée par l’expression suivante   θ1 [1 + θ2 ] / [1 + θ12 + θ22 ] pour h = 1 θ2 / [1 + θ12 + θ22 ] pour h = 2 ρ (h) =  0 pour h ≥ 3.7).lwd=5.6.sim(n = 2400. 1.col="red") > X=arima.sim(n = 2400. quel que soit θ.col="red") Remarque 166. avec différents coefficients θ.col="red") > plot(pacf(X).sd = 1) > plot(acf(X).

et la densité spectrale est donnée par .

.

2 fX (ω) = .

1 + θ1 eiω + θ2 e2iω .

. q) Cette classe de processus généralise les processus AR (p) et M A (q) .7.-0.lwd=5.7.sd = 1) > plot(acf(X).col="red") > X=arima.9)).7 Les processus ARM A (p. list(ma = c(0.9)).-0. Définition 168.sd = 1) > plot(acf(X). q).7.col="red") > X=arima. (26) .lwd=5.0. On appelle processus ARM A (p.lwd=5. Les configurations possibles sont données dans les 2 exemples ci-dessous > X=arima.9)). list(ma = c(0.col="red") > plot(pacf(X).sim(n = 2400. list(ma = c(0.col="red") 6.sd = 1) > plot(acf(X).sim(n = 2400.lwd=5.col="red") > plot(pacf(X). un processus stationnaire (Xt ) vérifiant une relation du type Xt − p X i=1 φi Xt−i = εt + q X j=1 119 θi εt−i pour tout t ∈ Z.lwd=5.sim(n = 2400.col="red") > plot(pacf(X).lwd=5.

si toutes les racines de Θ sont à l’extérieur du disque unité. alors les autocovariances γ (h) satisfont p X γ (h) − φi γ (h − i) = 0 pour h ≥ q + 1. q) peuvent donc se mettre (i) sous la forme M A (∞) en écrivant Xt = Φ (L)−1 Θ (L) εt .. Xt = +∞ X hj εt−j . et n’ont pas de racine commune. q). q) de (Xt ) est Xt − p X φj Xt−j = εt + j=1 q X θj εt−j j=1 En multipliant par Xt−h .. on obtient (27).. + θq Lq Φ (L) Xt = Θ (L) εt où Φ (L) = I − φ1 L − . q) .. si toutes les racines de Φ sont à l’extérieur du disque unité. On supposera de plus que les degrés de Θ et Φ sont respectivement q et p. 0) et un processus M A (q) est un processus ARM A (0. on a la relation suivante Proposition 171. 6. (22) est équivalent à l’écriture  Θ (L) = I + θ1 L + . Un processus AR (p) est un processus ARM A (p.7.1 Propriétés des autocorrélations Proposition 170. (27) i=1 Proof. Soit (Xt ) un processus ARM A (p. j=0 120 (28) .où les θi sont des réels et (εt ) est un bruit blanc de variance σ 2 . (ii) ou sous forme AR (∞) en écrivant Φ (L) Θ (L)−1 Xt = εt . De plus. Soit (Xt ) un processus ARM A (p. Les processus ARM A (p.. On dira dans ce cas que cette écriture est la forme minimale. et en prenant l’espérance. La forme ARM A (p. au sens où θq 6= 0 et φp 6= 0. − φp Lp On supposera de plus de les polyômes Φ et Θ n’ont pas de racines en module strictement supérieures à 1 (écriture sous forme canonique). alors les autocorrélations γ (h) satisfont γ (h) − p X φi γ (h − i) = σ 2 [θh + h1 θh+1 + . + hq−h θq ] pour 0 ≤ h ≤ q. où h ≥ q + 1.. i=1 où les hi correspondent aux coefficients de la forme M A (∞) de (Xt ). q). Remarque 169.

où φ 6= 0. 1 − φ21 − . 2π |Φ (exp [iω])|2 6.. deux cas sont à envisager. 1). ARM A (1.. 2) et ARM A (2. avec comme valeur initiale a (1) ρ (1)..3 Les processus ARM A (1.. le q −p+1 premières valeurs de l’autocorrélogramme ont un comportement propre. Ce processus peut de mettre sous forme AR (∞). Remarque 173.. 1) défini par Xt − φXt−1 = εt + θεt−1 . 2) respectivement de gauche à droite Pour établir une règle quant au comportement de la fonction d’autocorrélation. l’autocorrélogramme tend vers 0. aussi Π (L) = +∞ X i=0 i πi L où  π0 = 1 πi = (−1)i [φ + θ] θi−1 pour i ≥ 1. pour tout t. Des propriétés symétriques existent pour l’autocorrélogramme partiel. 1) 121 . La sortie ci-dessous montre l’évolution de l’autocorrélogramme dans le cas d’un ARM A (1. La fonction d’autocorrélation s’écrit  ρ (1) = (1 + φθ) (φ + θ) / [1 + θ2 + 2φθ] ρ (h) = φh ρ (1) pour h ≥ 2. la fonction d’autocorrélation se comporte comme un mélange de fonctions exponentielles/sinusoïdales amorties • Si q ≥ p. La densité spectrale du processus ARM A (Xt ) stationnaire est une fraction rationnelle en exp (iω). |φ| < 1 et |θ| < 1.7.7. et pour k ≥ q − p + 1. Les sorties ci-dessous correspondent aux autocorrélogrammes de processus ARM A (2. puisque (1 − φL) (1 + θL)−1 Xt = Π (L) Xt = εt ... où h i h h h 2 2 Π (L) = (1 − φL) 1 − θL + θ L + . + φh θh 2 σ où h = min (p. • Si p > q. .. et est donnée par σ 2 |Θ (exp [iω])|2 fX (ω) = . q) . Avec les notations (26). q) Proposition 174. − φ2p Densité spectrale des processus ARM A (p.2 1 + θ12 + . 1) Soit (Xt ) un processus ARM A (1. + (−1) θ L + . la variance de Xt est donnée par V (Xt ) = γ (0) = 6. θ 6= 0. et la fonction d’autocorrélations partielles a le même comportement qu’une moyenne mobile..Exemple 172. + θq2 + 2φ1 θ1 + .

. .7). C’est le cas par exemple de la loi des grands nombres telle qu’elle est formulée dans le théorème ergodique. En fait. Yt ) = σ 2 (s ∧ t) et corr (Ys .d.col="red") > plot(pacf(X). Une marche aléatoire Yt vérifie Yt = Yt−1 + εt .. E Y n = 0 mais V Y n = O (n) . le processus (Yt ). . Yt . et on supposera que εt ademet une variance finie. Yt }. est une martingale. pour tout t. avec la convention Y0 = 0.. 2 V (Yt ) = σ t st En notant Ft la filtration générée par les Y0 . de façon triviale. ma = 0..6. c’est à dire Ft = σ {Y0 . 6n2 122 .. t ≥ 0. Yt ) = √ pour s.. sont non-stationnaires. muni de sa filtration naturelle. la plupart des résultats obtenus dans les parties précédantes reposent sur l’hypothèse (très forte) de stationnarité.. Plus précisément.lwd=5. On peut noter que Yt = Y0 + Y1 + . On peut toutefois noter qu’un certain nombre de processus.8 Fonction d’autocorrélation décroissance après le premier retard Fonction d’autocorrélation partielle décroissance exponentielle ou sinusoïde amorti Introduction aux modèles linéaires non-stationnaires Tous les processus décrits dans les parties précédantes sont des processus stationnaires (Xt ). 1) : 6. Exemple 176.i. On a alors  s∧t E (Yt ) = 0 .sd = 1) > plot(acf(X). εt .lwd=5. On supposera également les εt centrés. la variance de cette moyenne est  n (n + 1) (2n + 1) V Y n = σ2 . list(ar=0. La non stationnarité de cette série pose de gros problème statistique : considérons par exemple la moyenne définie sur les n premières observations. soit n 1X Yn = Yt .col="red") A retenir 175. une suite de variables i. on peut montrer que E (Ys |Ft ) = Yt pour tout s ≥ t ≥ 0. cov (Ys . ..sim(n = 2400. Aussi.. mais pas en variance. n t=1   alors. + Yt−1 .La marche aléatoire est définie de la façon suivante : soit ε1 .  ARM A (1.. Marche aléatoire ... notée σ 2 . très simples...> X=arima. La marche aléatoire est ”stationnaire en moyenne”.

. Yt = αt + Xt = [α + ε1 ] + [α + ε2 ] + . alors Yt . 2 V (Yt ) = σ t st et E (Ys |Ft ) = αs + Xt = α [s − t] + Yt pour tout s ≥ t ≥ 0. Une tendance linéaire Yt vérifie Yt = αt + εt pour tout t.Soit Yt ..la moyenne des n premières observations. on a   σ2 n+1 E Yn =α et V Y n = → 0 quand n → ∞. et E (Ys |Ft ) = αs pour tout s ≥ t ≥ 0. notée σ 2 . Yt = Yt−1 + εt . 123 . où α ∈ R = [α + ε1 ] + [α + ε2 ] + . La méthode la plus courament utilisée est de prendre des différences : Exemple 179. εt . Exemple 180. est défini par Yt = αt + Xt pour tout t. alors Zt = Yt − Yt−1 = α + εt − εt−1 : il s’agit d’un processus M A (1) (non inversible.. mais stationnaire comme tout processus M A). + [α + εt ] . marche aléatoire avec drift. Marché aléatoire avec drift . Yt ) = σ 2 (s ∧ t) et corr (Ys . .i. Ce processus vérifie  E (Yt ) = αt V (Yt ) = σ 2 cov (Ys .d. Tendance linéaire . pour tout t. soit Xt = Xt−1 + εt . Marche aléatoire . une suite de variables i. Yt ) = 0 pour s. Tendance linéaire -Un processus ”tendance linéaire” est défini de la façon suivante : soit ε1 . . Yt ) = corr (Ys .. t ≥ 0.. On supposera également les εt centrés.Exemple 177. C’est cette importance de la différenciation (dont l’intégration est l’opération duale) qui a permis de passer des modèles ARM A aux modèles ARIM A. On a alors les propriétés suivantes  s∧t E (Yt ) = αt cov (Ys . pour tout t. C’est à dire que ce processus n’est pas une martingale. 2 n Exemple 178. alors Zt = Yt − Yt−1 = α + Xt − Xt−1 = α + εt est stationnaire. + [α + εt ] .Une tendance linéaire Yt vérifie Yt = αt + εt . et les variables du processus sont indépendantes (au sens non-corrélées). Exemple 181.. Marché aléatoire avec drift .Ce processus est défini comme mélange des deux précédants : soit Xt une marche aléatoire..Soit (Yt ) une marche aléatoire. marche aléatoire avec drift.. Yt ) = √ pour s. il peut apparaitre intéressant de trouver une transformation ’‘simple” du processus non-stationnaire que le rendrait stationnaire. et on supposera que εt ademet une variance finie. où α ∈ R. t ≥ 0. alors Zt = Yt − Yt−1 est stationnaire (et Zt = εt ). En notant comme précédemment Y n . Les processus stationnaires ayant beaucoup de propriétés.. où α ∈ R.

X−p ... . et où le processus (εt ) est un bruit blanc de variance σ2. ont sensiblement des lois différentes à la date t. si l’on considère un processus Xt . q) . Cette importance de l’initialisation peut se comprendre sur les graphique ci-dessous : considérer un processus AR (1) simulé (ou un processus ARM A de façon plus générale).. 0) .6. ARIM A(0.. 0) (= marche aléatoire). pour un processus ARIM A (1... quelle que soit la valeur initiale (i. En effet. il n’en est pas de même pour les processus ARIM A qui doivent commencer à une certaine date (t = 0 par convention).autorégressif moyenne mobile intégré . Les deux processus intégrés. Remarque 183. Un processus (Xt ) est un processus ARIM A (p.dans les modèles ARM A..c’est à dire un processus AR (1) intégré.. En revanche. d. et où les conditions initiales Z−1 = {X−1 .. q) L’hypothèse de stationnarité. avec des valeurs initiales (q valeurs pour les εt .. 124 .. . d. ou des différences à des ordres plus élevés  ∆Xt = Xt − Xt−1 = (1 − L) Xt ∆d Xt = (1 − L)d Xt Définition 182. . présente .9 Les processus ARIM A (p.. à partir de la date t = 0 : on peut noter qu’à relativement court terme les processus (Xt ) et (Yt ) simulés respectivement à partir de x et y sont indentiques : L (Xt ) = L (Yt ). On peut écrire Xt = X0 + t X εk mais pas Xt = k=1 t X εk k=−∞ car cette somme ne converge pas dans L2 . ε−1 . 1. la valeur initiale est très importante : pour deux valeurs initiales différentes. ε−q } sont non-corrélées avec ε0 . et p + d pour Xt ). − φp Lp où φp 6= 0 Θ (L) = I + θ1 L + θ2 L2 + ... 1. une loi normale dans le cas d’un bruit blanc gaussien). . soit (1 − L) Xt = εt . εt .sous certaines conditions . on peut considérer les différences premières ∆Xt = Xt − Xt−1 . les deux processus n’ont pas la même loi L (Xt ) 6= L (Yt ). + θq Lq où θq 6= 0 sont des polynômes dont les racines sont de module supérieur à 1.e. n’est que rarement vériée pour des séries économiques. Si les processus ARM A peuvent être définis sur Z. à droite. En revanche..s’il vérifie une équation du type Φ (L) (1 − L)d Xt = Θ (L) εt pour tout t ≥ 0 où  Φ (L) = I − φ1 L − φ2 L2 + . les deux processus ont la même loi.

j=0 {z | q−1 X } . q) stationnaire. Soit (Xt ) un processus ARIM A (p. Xt = t X hj εt−j + h∗ (t) Z−1 . j=0 j=0 c’est à dire. Soit (Xt ) un processus ARIM A (p. en coupant la première somme.1 Processus ARIM A et formes AR ou M A Proposition 186. Soit Yt un processus intégré d’ordre d. (Yt ) est asymptotiquement équivalent à un processus stationnaire ARM A. 6. à l’ordre t. soit p+d+t q−1 X X πj Xt−j = εt − rj ε−1−j . Proof. Alors l’équation Ψ (L) Xt = Θ (L) εt peut s’écrire. En fait. (Yt ) n’est pas un processus ARM A car il ne commence pas en −∞.Remarque 184. d. t X j=0 t+p+d πj Xt−j = εt − X πj Xt−j − j=t+1 h0 (t)Z−1 125 rj ε−1−j . en multipliant par Qt (Z).   Qt (Z) Ψ (L) Xt = Qt (Z) Θ (L) εt = I−Lt+1 Rt (L) εt = εt − Rt (L) ε−1 . q) de valeurs initiales Z−1 . au sens où il existe (Xt ) stationnaire tel que Yt = (1 − L)d Xt satisfaisant Φ (L) Yt = µ + Θ (L) εt Alors. En posant Πt (L) = Qt (Z) Ψ (L) (de degré p + d + t fini) on peut écrire Πt (L) Xt = εt − Rt (L) ε−1 . q) alors le processus ∆d Xt converge vers un processus ARM A (p. et h (t) est un vecteur (ligne) de fonctions de t quand tend vers 0 quand t → ∞. d. j=1 où les πj sont les coefficients (pour j ≥ 1) de la division selon les puissances croissantes ∗ de Φ par Θ. fonction du passé du bruit. j=1 où les hj sont les coefficients de la division selon les puissances croissantes de Θ par Φ.  Proposition 185. fonction du passé de Xt Xt = t X ∗ πj Xt−j + h (t) Z−1 + εt . (ii) La division selon les puissances croissantes de I par Θ s’écrit. et h∗ (t) est un vecteur (ligne) de fonctions de t (ii) (Xt ) peut s’écrire sous la forme suivante. Posons Ψ (L) = (1 − L)d ◦ Φ (L). I =Qt (Z) Θ (Z) + Z t+1 Rt (Z) où deg (Qt ) = t et deg (Rt ) ≤ q − 1. alors (i) (Xt ) peut s’écrire sous la forme suivante.9.

les deux formes les plus utilisées sont les suivantes.. Définition 187. puis la fonction est significative en S − 1... et où le processus (εt ) est un bruit blanc de variance σ2.. . 2 2 (1 + α ) (1 + β ) 1 + α2 ρ (S − 1) = αβ (1 + α2 ) (1 + β 2) . q) . Le graphique suivant montre l’autocorrélogramme (empirique) d’un tel processus simulé Pour les autocorrélations partielles. De façon générale. sn n entiers. soient s1 ..... On peut noter que ρ (S − 1) = ρ (S + 1) = ρ (1)×ρ (S) . ρ (S) = 126 . = sn = 1. contenant une partie saisonnière.. .. et considérons le processus défini par  Xt = (1 − αL) 1 − βLS εt = εt − αεt−1 − βεt−S + αβεt−S−1 . ε−q } sont non-corrélées avec ε0 . ε−1 . d. Exemple 188. S et S + 1.. soit appliqué à un processus ARIM A dans le second cas.... soit appliqué à un processus ARM A dans le premier cas. Toutefois. εt ... (1 + α2 ) (1 + β 2 ) 1 + β2 αβ ρ (S + 1) = . jusqu’en S − 2 (inclus). Soit S ∈ N\{0} correspondant à la saisonnalité.. Φ (L) (1 − Ls ) Xt = Θ (L) εt pour tout t ≥ 0 Φ (L) (1 − Ls ) (1 − L)d Xt = Θ (L) εt pour tout t ≥ 0 où un seul facteur saisonnier s intervient.. ... (1 − Lsn ) Xt = Θ (L) εt pour tout t ≥ 0 où Φ (L) = I − φ1 L − φ2 L2 + . alors un processus (Xt ) est un processus SARIM A (p.autorégressif moyenne mobile intégré saisonnier s’il vérifie une équation du type Φ (L) (1 − Ls1 ) . − φp Lp où φp 6= 0 et Θ (L) = I + θ1 L + θ2 L2 + . la fonction d’autocorrélation partielle est celle d’un M A (1) de paramètre α. .6.10 Les modèles SARIM A Les modèles SARIM A peuvent vus comme une généralisation des modèles ARIM A.. Cette forme inclue les modèles ARIM A puisqu’il suffit de prendre n = d et s1 = . X−p . Les autocorrélations sont données par ρ (1) = −α (1 + β 2 ) −α = . 2 (1 + α ) (1 + β 2 ) et ρ (h) = 0 ailleurs. + θq Lq où θq 6= 0. et où les conditions initiales Z−1 = {X−1 . ..sont des polynômes dont les racines sont de module supérieur à 1. −β (1 + α2 ) −β = .

puis ρ (S + 1) = ρ (S − 1) et ρ (h) = φρ (h − S) pour h ≥ S + 2. S et S + 1. Soit S ∈ N\{0} correspondant à la saisonnalité. De plus la fonction d’autocorrélation vérifie l’équation de récurence ρ (h) − αρ (h − 1) − βρ (h − S) + αβρ (h − S − 1) = 0. On se retrouve dans un cadre assez proche de celui développé dans l’exemple (188). Soit S ∈ N\{0} correspondant à la saisonnalité. ρ (S − 1) = et ρ (S) = . Les autocorrélations sont données par −α (1 + β 2 ) −α = . 2 2 2 2 1+α +β 1+α +β 1 + α2 + β 2 Le graphique suivant montre l’autocorrélogramme (empirique) d’un tel processus simulé 127 . Les autocorrélations partielles sont non nulles en 1. ρ (S − 1) = (1 + α2 ) 1 + (β − φ)2 / (1 − φ2 ) ρ (1) = − (1 + α2 ) ρS−1 . Le graphique suivant montre l’autocorrélogramme (empirique) d’un tel processus simulé ρ (S) = Exemple 190. qui a pour racines α et les racines S-ièmes de β. 2 2 (1 + α ) (1 + β ) 1 + α2   α β − φ − φ (β − φ)2 / (1 − φ2 )  . Le graphique suivant montre l’autocorrélogramme (empirique) d’un tel processus simulé Exemple 191. En particulier ρ (kS) = φk−1 ρ (S) .Exemple 189. et considérons le processus défini par   Xt = 1 − αL − βLS εt = εt − αεt−1 − βεt−S .  qui a pour polynôme caractéristique (z − α) z S − β . Soit S ∈ N\{0} correspondant à la saisonnalité. et considérons le processus défini par   1 − φLS Xt = (1 − αL) 1 − βLS εt ou Xt − φXt−1 = εt − αεt−1 − βεt−S + αβεt−S−1 . et l’on obtient la fonction d’autocorrélation suivante ρ (1) = αβ −β −α . et considérons le processus défini par  (1 − αL) 1 − βLS Xt = εt ou Xt − αXt−1 − βXt−S + αβXt−S−1 = εt . α avec ρ (h) = 0 pour 2 ≤ h ≤ S − 2.

il peut être intéressant de modéliser non pas X. de type Box-Cox. > library(Ecdat) > data(electricity) > plot(electricity) Compte tenu de l’hétéroscédasticité de la série > plot(log(electricity)) 128 . la non-stationnarité de la série était vu en supposant que la série était intégré. et l’on obtient la fonction d’autocorrélation suivante ρ (1) = ρ (S) = −α + βγ αβ . et considérons le processus défini par   Xt = 1 − αL − βLS − γLS+1 εt = εt − αεt−1 − βεt−S . il est légitime d’essayer des transformations puissances. Comme pour les modèles de régression sur données individuelles. mais une transformation de cette variable. Soit S ∈ N\{0} correspondant à la saisonnalité. ou saisonnière. log X. Et là encore. par mois. aux Etats-Unis. Mais il est possible d’avoir une variance qui augemente sans pour autant avoir à supposer la série comme étant intégrée. 2 2 2 2 1+α +β +γ 1 + α + β2 + γ2 Le graphique suivant montre l’autocorrélogramme (empirique) d’un tel processus simulé Hétérsoscédasticité et transformation de la variable Xt Pour l’instant. e. ρ (S − 1) = . On se retrouve dans un cadre assez proche de celui développé dans l’exemple précédant. 2 2 2 2 1+α +β +γ 1 + α + β2 + γ2 αγ − β −γ et ρ (S + 1) = . Considérons la série de production d’électicité.Exemple 192.g.

Xt−2 . et stationnaire au second ordre.11 Théorème de Wold Théorème 193. au sens où εt = Xt − EL (Xt |Xt−1 . centré.Considérons de manière plus générale une transformation de type Box-Cox gλ (x) = xλ − 1 avec le cas limite g0 (x) = log(x). .. λ > BoxCox..) . Tout processus (Xt ).ar(electricity) 6. peut être représenté sous une forme proche de la forme M A Xt = ∞ X θj εt−j + ηt . j=0 où (1) (εt ) est l’innovation. 129 .

Xt−2 . et de variance 1. La propriété (2) dit que EL (εt |Xt−1 ...) = 0.) = 0. Remarque 197. où g n’est pas nécessairement linéaire... . est stationnaire. en particulier (1) et (3). La propriété (1) signifie que (εt ) est l’estimation de Xt comme combinaison linéaire des valeurs passées. α1 Xt−1 + α2 Xt−2 + . il est toujours possible de réécrire un processus M A ou AR de façon inversible.).. (6) (ηt ) vérifie ηt = EL (ηt |Xt−1 . à condition de changer la variance du bruit). j=0 6. Remarque 195...d. Cette représentation n’est unique que parce que l’on a les différentes conditions.) est elle la meilleure approximation de Y comme fonction du passé de Xt . Xt−2 . La propriété (4) est une conséquence de la stationnarité du processus Ce théorème se démontre avec les différentes propriétés des espaces de Hilbert. Ce théorème dit juste que (Xt ) peut être écrit comme une somme des erreurs de prévision. Xt−2 .. g (Xt−1 . Cette représentation est alors la répresentation de Wold.. Ce théorème peut s’écrire de façon plus simple si l’on n’est pas intéressé par l’unicité de l’écriture : tout processus (Xt ) stationnaire peut se mettre sous forme M A (∞). . (3) toutes les racines de Θ (L) sont à l’extérieur du cercle unité : le polynome Θ est inversible.. Par exemple.. P 2 (4) ∞ j=0 θj < ∞ et θ0 = 1. E (εt Xt−j ) = 0. Ce théorème ne dit pas que les εt suivent une loi normale. (ils ont la même variance et sont non-corrélés). 130 . . ou que les εt sont i.12 Théorie spectrale et processus ARIM A ? ? ? Comme le rappelle Bourbonnais (1998). E (ε2t ) = σ 2 (indépendant de t) et E (εt εs ) = 0 pour t 6= s. . l’analyse des séries temporelles dans le dommaine des fréquences (ou analyse spectrale) ”est souvent plus riche en terme d’interprétation.. et (2) est simplement l’écriture des conditions d’orthogonalité de la projection. . . et le polynôme M A est alors inversible (comme nous l’avons vu précédement.. Le cas θ = 2 et V (εt ) = 1 correspond à l’écriture initiale. Xt−2 . ce qui ne signifie pas que E (εt |Xt−1 .) = 0. Remarque 196.. .. Xt−2 . Pour trouver la représentation de Wold de ce processus. Mais sous cette forme. soit égal à 1/2. Xt−2 . Xt−h . On peut alors montrer que V (εt ) = 2/θ et que θ est nécessairement soit égal à 2. ∞ X Xt = µ + θj εt−j . Xt−2 . E (εt ) = 0. on va chercher θ et εt tels que Xt = εt + θεt−1 . ..) signifie que l’on recherche la meilleure approximation de Y comme combinaison linéaire du passé de Xt . L’écriture EL (Y |Xt−1 .i.(2) EL (εt |Xt−1 . Mais θ = 1/2 et V (εt ) = 4 marche également... + αh Xt−h + .d. L’espérance conditionnelle E (Y |Xt−1 . (5) les coefficients θj et le processus (εt ) sont uniques.) . Remarque 194... un processus de la forme Xt = ηt +2ηt−1 où (ηt ) est i. le polynôme M A n’est pas inversible.i..

Le principe de base de l’analyse de Fourier est que toute fonction analytique définie sur un intervalle (fini ) de R peut s’écrire comme somme pondérée de fonctions sinus et cosinus. alors φ admet une transformée de Fourier. on dira qu’un filtre est linéaire si F (λXt1 + µXt2 ) = λF (Xt1 ) + µF (Xt2 ). ou analyse harmonique. est une généralisation au cas aléatoire de l’analyse de Fourier. Le premier présente la décomposition harmonique de (Xt ) sous la forme Z +∞ exp (i2πλt) dUZ (λ) . 2π h=−∞ 0 avec fX (ω) densité spectrale du processus (Xt ). 131 . un filtre est une transformation qui associe au processus (Xt ) un autre processus Yt = F (Xt ). Z +∞  exp (i2πλh) E |dUZ (λ)|2 . γ (h) = −∞ Théorème 198. Par exemple. alors que le second est équivalent au précédant. appartenant à l’espace des fonctions de carré intégrable sur R. (de Khintchine) La densité spectrale de puissance d’un processus aléatoire stationnaire est égale à la transformée de Fourier de sa fonction d’autocorrélation On a alors l’écriture suivante Z π +∞ 1 X −iωh fX (ω) = γ (h) e ou γ (h) = e−iωh fX (ω) dω. Filtre et processus strochastiques Etant donné un processus (Xt ). 2π −∞ −∞ On appelera gain du filtre le carré de la norme de la fonction de réponse. De façon générale.1 Théorie spectrale et notion de filtre Théorie spectrale L’analyse spectrale. c’est à dire des filtres moyennes mobiles.12. i∈Z où les φ (i) sont les coefficients de pondération. où γ (h) = cov (Xt . T (ω) = |A (ω)|2 . Xt−h ) . on pourra considérer les filtres linéaires de la forme suivante X F (Xt ) = φ (i) Xt+i . 6. Considérons ainsi φ une fonction définie sur Z et à valeurs dans R (ou C). Xt = −∞ dans laquelle les dUZ (λ) sont des variables aléatoires (complexes).mais nécessite un recours à des techniques mathématiques plus complexes”. Cette analyse s’appuie sur deux résultats de base : le théorème de Loeve et le théorème de Khintchine. mais porte sur la fonction d’autocovariance de (Xt ). notée A (ω) appelée fonction de réponse en fréquence du filtre : Z +∞ Z +∞ 1 −iωt A (ω) = φ (t) e dt ou φ (t) = A (ω) eiωt dω.

La fonction de gain du filtre s’écrit . Les θi sont alors la fonction de réponse impulsionnelle du filtre.2 Le spectre d’un processus ARM A D’après le théorème de Wold. bruit blanc (la stabilité étant assurée par la convergence de la somme des carrés de θi ).12.6. un processus stationnaire est une combinaison linéaire infinie des valeurs passées d’un bruit blanc. k=0 C’est à dire que (Xt ) est la réponse à un filtre d’un processus (εt ). c’est à dire qu’il peut s’écrire comme un processus M A (∞) : +∞ X Xt = Θ (L) εt = θk εt−k où θ0 = 1.

.

2 +∞ .

X .

.

2 −iωk .

T (ω) = |A (ω)| = .

θi e .

. .

.

Or. et donc . fX (ω) = T (ω) fε (ω) . le spectre du bruit blanc vérifie fε (ω) = σε2 /2π. k=0 avec A (ω) correspondant à la fonction de réponse en fréquence au filtre. On a alors la relation suivante entre les spectres des deux processus.

.

2 +∞ .

X .

.

2 σε2 .

.

2.

−iωk .

Θ e−iωk .

. fX (ω) = σε .

θk e .

= .

.

vérifiant Φ (L) Xt = Θ (L) εt . Soit (Xt ) un processus ARM A (p. on a le résultat suivant pour les processus ARM A. avec les racines de Θ et de Φ à l’extérieur du disque unité alors . sous forme canonique minimal. q). 2π k=0 De façon générale et analogue. Proposition 199.

.

2 Θ (L) σε2 .

Θ e−iωk .

les autocovariances sont données par γ (0) = (1 + θ2 ) σ 2 . − φp e−qiω |2 Compte tenu du lien entre la densité spectrale et la fonction d’autocorrélation. Pour mémoire. + θq e−qiω | . Considérons le processus M A (1) suivant : Xt = εt + θεt−1 où (εt ) suit un bruit blanc de variance σ 2 . il est possible d’obtenir la densité spectrale dans plusieurs cas simples.. γ (1) = θσ 2 et γ (h) = 0 pour h ≥ 2. Ainsi. 2π |1 − φ1 e−iω − φ2 e−2iω − .. . Exemple 200. π π k=1 132 . Xt = εt et fX (ω) = Φ (L) 2π |Φ (e−iωk )|2 Cette écriture peut s’écrire sous la forme expensée suivante 2 fX (ω) = σε2 |1 + θ1 e−iω + θ2 e−2iω + .. " # +∞ X 1 σ 2 (1 + 2θ cos (ω) + θ2 ) f (ω) = γ (0) + 2 γ (k) cos (kω) = ..

5 à droite. les autocovariances sont données par γ (0) = σ 2 / [1 − φ2 ]. Pour mémoire. Exemple 202.52 cos ω + 0.12. avec des courbes décroissantes quand φ ≥ 0 et croissantes quand φ ≤ 0.4Xt−2 + εt avec σ 2 = 1.. Ainsi. Considérons alors le modèle de régression Yt = α0 + m X αj cos (ωj t) + j=1 m X j=1 133 βj sin (ωj t) . On défini les fréquences (dites parfois ”de Fourier”) ωj = 2πj/T pour j = 1. fX (ω) = 1 1 . Les graphiques ci-dessous correspondent à des processus AR (1). .97 − 2. 2π 1. avec φ = 0. et γ (h) = φγ (h − 1) pour h ≥ 1.. 6. γ (h) = φh γ (0) pour h ≥ 1. Cette écriture permet d’obtenir la relation suivante " " # # +∞ +∞ X X  iωk  1 γ (0) k −iωk f (ω) = γ (0) + 2 1+ γ (k) cos (kω) = φ e +e π π k=1 k=1   φeiωk σ2 φe−iωk γ (0) 1+ = . puis φ = ±0. Le polynôme AR s’écrit Φ (L) = 1−λL−µL2 dont il faut s’assurer que les racines sont à l’extérieur du disque unité.Exemple 201.9Xt−1 − 0. soit T = 2m + 1. Le spectre du processus (Xt ) s’écrit alors fX (ω) = σ2 1 .2 et ±0. Considérons le processus AR (1) suivant : Xt = φXt−1 +εt où (εt ) suit un bruit blanc de variance σ 2 . . 2π 1 + λ2 + µ2 − 2λ (1 − µ) cos ω − 2µ cos 2ω Considérons le cas particulier où Xt = 0.212 1 0 + 0 − 8 % 11. avec T impair. Considérons le processus AR (2) suivant : Xt = λXt−1 + µXt−2 + εt où (εt ) suit un bruit blanc de variance σ 2 . m. + = π 1 − φeiωk 1 − φe−iωk π [1 − 2φ cos (ω) + φ2 ] ce qui donne une fonction décroissante pour φ > 0 et croissante pour φ < 0.8 à gauche.8 cos 2ω dont le tableau de variation est ω/2π f0 f 0 0.38 Les graphiques suivants donnent les évolutions de densités spéctrales pour différents processus ARM A..3 Estimation de la densité spectrale d’un processus Supposons que nous ayons T observations d’une série temporelle.25 & 0.

avec  α0 α1 β1 . θ =   . P .....  . t=1 T X 2 cos (ωj t) = t=1 T X sin2 (ωj t) = t=1 T pour tout j.  =  . sin (ωm t) Yt et la variance empirique des observations (Yt ) est donnée (à un facteur 1/T près) par  !2 !2  T m T T X X X 2 X 2 Yt − Y = cos (ωj t) Yt + sin (ωj t) Yt  .. cos (ω1 t) Yt . X =  .    α bm  0 0 · · · T /2 βbm −1          P Yt P cos (ω1 t) Yt . . Compte tenu des propriétés suivantes T X t=1 cos (ωj t) = T X sin (ωj t) = 0. .      Y1 1 cos (ω1 ) sin (ω1 ) · · · cos (ωm ) sin (ωm )       .  .  . . . ... Yt P 2/T.. P sin (ωm t) Yt       =   P Y = 1/T.. πT t=1 t=1 Dans cette expression.. donnée par T  1X Yt − Y . (29) 2 et T X t=1 cos (ωj t) sin (ωk t) = T X cos (ωj t) cos (ωk t) = t=1 T X sin (ωj t) sin (ωk t) = 0 pour j 6= k.. Y =  .   .qui peut être écrit sous forme de modèle linéaire Y = Xθ + ε. . . γ b (0) = T t=1 134    ... . . un facteur ”1/2π” a été introduit de telle sorte que la variance empirique.   YT 1 cos (ω1 T ) sin (ω1 T ) · · · cos (ωm T ) sin (ωm T )  αm βm          et ε =     L’estimation de θ par la méthode des moindres carrés donne θb = (X 0 X)−1 X 0 Y . t=1 (30) on peut montrer aisément que   α b0   α  T 0 ··· 0  b1   βb1   0 T /2 · · · 0    θb =  . T t=1 t=1 t=1 j=1 Tout ceci permet de définir le périodogramme I (ω) de la façon suivante  !2 !2  T T X X 1  I (ω) = cos (ωt) Yt + sin (ωt) Yt  . . 2/T. ... . .

T T i X X 1 hb 2 2 b b b Yt sin (ωt) . Si le processus est stationnaire. quand T → ∞ .. Proposition 204.soit égale à la somme des aires des m rectangles. de spectre f (ω) Soit I (. YT sont i. En utilisant (29) et (30) on peut écrire T −1 1 2X I (ωj ) = γ b (0) + γ b (k) cos (ωj k) . π π k=1 Cette fonction I (ω) est alors la version discrète et empirique de la densité spectrale f (ω). ω = 2πj/T . Supposons que (Yt ) soit un bruit blanc gaussien. I (ω) ∼ (σ 2 /π) χ2 (2) /2. (i) I (ωj ) ∼ f (ωj ) . c’est à dire Y1 .χ2 (2) /2 (ii) I (ωj ) et I (ωk ) sont indépendant pour j 6= k.on a les résultats suivants. YT . posons ωj les fréquences de Fourier. 2 2 t=1 t=1 et dont la covariance est nulle   b (ω) . . Soit (Yt ) un processus gaussien ... t=1 √ √ b (ω) / 2T σ 2 et B b (ω) / 2T σ 2 sont indépendant. 135 . Yt cos (ωt) et B (ω) = A (ω) + B (ω) où A (ω) = I (ω) = πT t=1 t=1 b (ω) et B b (ω) sont centrés..i.. et de base 2π/T . au sens où ωj = 2πj/T pour j < T /2. Proposition 203. Pour toute fréquence de Fourier. Dans ce cas. A distribués suivanti une la même loi. alors I (ω) est un estimateur sans biais de f (ω) . et asymptotiquement De plus.. . Aussi.. σ 2 ). B b (ω) = E cov A T X ! Ys Yt cos (ωs) sin (ωt) s. centrée et réduite.t=1 = σ2 T X ! cos (ωt) sin (ωt) = 0.. ce qui montre bien que I (ω) est un estimateur sans biais de f (ω) = σ 2 /π. et dont les variance sont données Il est facile de montrer que A par T T     X X σ2 σ2 b (ω) = σ 2 b (ω) = σ 2 V A cos2 (ωt) = T et V B sin2 (ωt) = T .) le périodogramme obtenu à partir de l’échantillon Y1 . et distribués suivant une loi N (0. de hauteur I (ω1 ) . normale. .d.. h 2 2 2 b b 2 A (ω) + B (ω) /T σ est asyptotiquement distribué suivant une loi du chi-deux. à 2 degrés de liberté. et si la densité spectrale existe. La somme des aires de ces rectangles approxime l’aire sous la courbe I (ω) pour 0 ≤ ω ≤ π. mais il n’est pas consistant puisque V (I (ω)) = σ 4 /π 2 9 0 quand T → ∞. Et donc. I (ωm ).

aux périodes 110 et 35 (correspondants aux paramètres 1/36 et 1/12). Considérons la série (Xt ) définie par Xt = 5 cos (t/36) + 7 sin (t/12) + εt où εt ∼ N (0.. Remarque 206. La Fast Fourier Transform permet d’augmenter les temps de calcul puisque ”seulement” T log2 T opérations sont nécessaires (le gain en temps est alors en T / log2 T : pour 100 observations. I (ωm ) présenté dans cette partie nécessite de l’ordre de T 2 opérations. . 1). 136 . Sa densité spectrale est représentée cidessous On note deux maximums locaux. les calculs sont alors 15 fois plus rapides).Remarque 205.. représentée ci-dessous à gauche. La méthode de calcul des I (ω1 ) ..

forecasting and control ’.4. tests statistiques. On peut égallement penser à différencier si les premiers ρ (h) sont proches les uns des autres. le modèle le plus parcimonieux. 7. on a toujours des séries stationnaires 7. et le processus n’est pas stationnaire. de ∆Xt et de ∆2 Xt On peut d’ailleurs noter que si l’on continue à différencier. En pratique.1. Le test de Dickey & Fuller simple Ce test permet de tester l’hypothèse H0 : le processus suit une marche aléatoire contre l’hypothèse alternative Ha : le processus suit un modèle AR (1).1. Les étapes pour l’estimation des coefficients d’un processus ARIM A sont les suivantes (1) identification (i) choix de d : combien de fois faut-il différencier pour obtenir une série stationnaire (autocorrélogrammes.1 7. les moments empiriques convergent. il est assez rare d’avoir d ≥ 3.7 Estimation des modèles ARIM A : Box-Jenkins L’ouvrage de Box et Jenkins ‘Time series analysis. avec en plus normalité asymptotique (sous certaines conditions). on a une racine unité.. publié en 1970 a proposé une démarche de prévision pour les séries univariées.1 Estimation du paramètre d’intégration d Approche empirique par l’autocorrélogramme Comme nous l’avons vu dans la partie (2. Exemple 208. Il convient de retenir. utilisant le moins de paramètres. même si ρ (1) semble assez différent de 1.3). si ρb (h) est proche de 1 (pour un grand nombre de retards).. fondée sur l’utilisation de processus ARIM A. comme en économétrie. et ayant le meilleur comportement en prévision. Ces tests peuvent être regroupés en 4 cas : (1) Yt = ρYt−1 + εt : on teste H0 : ρ = 1 (marche aléatoire sans dérive) (2) Yt = α + ρYt−1 + εt : on teste H0 : α = 0 et ρ = 1 (marche aléatoire sans dérive) (3) Yt = α + ρYt−1 + εt : on teste H0 : α 6= 0 et ρ = 1 (marche aléatoire avec dérive) 137 . Les graphiques ci-dessous représentent les séries (en haut) et les autocorrélogrammes (en bas) de Xt . Il est à noter que pour des séries économiques.) (ii) choix de p et q : ordres respectifs des composantes AR et M A (2) estimation des paramètres estimation des φi et des θj : paramètres respectifs des composantes AR et M A (3) vérification a posteriori (i) significativité des paramètres (ii) validation de l’hypothèse de bruit blanc des résidus Remarque 207.2 Tests de racine unité La présentation sera ici inspirée de celle de Hamilton ‘Time Series Analysis’ (1994).

Si tφb est supérieur au t tabulé. on accepte H0 .df(y=. Dans le cas ’simple’.. ou plutôt ρ − 1 = 0. hypothèse d’existence d’une racine unité. analogue à la statistique de Student dans les modèles linéaires (rapport du coefficient sur son écart-type). Mise en place pratique des tests > library(urca) > summary(ur. on peut réécrire les 4 cas en (1) Yt = ρYt−1 + αP i ∆yt−i + εt : on teste H0 : ρ = 1 (2) Yt = α + ρYt−1 + P αi ∆yt−i + εt : on teste H0 : α = 0 et ρ = 1 (3) Yt = α + ρYt−1 + αi ∆y P t−i + εt : on teste H0 : α 6= 0 et ρ = 1 (4) Yt = α + βt + ρYt−1 + αi ∆yt−i + εt : on teste H0 : α = 0. on écrira (1) ∆Yt = φYt−1 + αi ∆yt−i P + εt . Ces tests peuvent être regroupés en 4 cas : (1) Φ (L) Yt = εt : on teste H0 : Φ (1) = 0 (2) Φ (L) Yt = α + εt : on teste H0 : α = 0 et Φ (1) = 0 (3) Φ (L) Yt = α + εt : on teste H0 : α 6= 0 et Φ (1) = 0 (4) Φ (L) Yt = α + βt + εt : on teste H0 : α = 0. le paramètre ρ (ou φ) est estimé par la méthode des moindres carrés ordinaires..type="trend")) 138 . Etant donné l’estimateur naturel de ρ. En P posant ρ = 1 − Φ (1). p. on accepte l’hypothèse H0 . L’estimation des coefficients et des écart-types du modèle fournit un tφ . et sont analogues aux tables du t de Student. " p−1 #  X α0 = Φ (1) − 1 ∗ i Φ (L) = Φ (1)+(1 − L) Φ (L) = Φ (1)− αi L (1 − L) où αi = αi−1 − φi = φi+1 + .(4) Yt = α + βt + ρYt−1 + εt : on teste H0 : α = 0. β = 0 et ρ = 1 Les statistiques de tests P et leurs lois Pour simplifier. où φbn est l’estimateur de φ obtenu à partir de n observations. . Si cette valeur (empirique) est supérieure à celle tabulée (et donnée dans la deuxième table). + φp i=0 pour i = 1.. on peut noter que P εt Yt−1 ρb − 1 = P Yt−1 Le test de Dickey & Fuller augmenté Ce test permet de tester l’hypothèse H0 : est intégré d’ordre au moins 1 Ha : le processus suit un modèle AR (p). dans le cas (1).. se construit comme un test de Sutdent de l’hypothèse ρ = 1.lag=1. Il est aussi possible d’effectuer ce test en utilisant nφbn . β = 0 et ρ = 1 (marche aléatoire sans dérive) Le test de Dickey & Fuller. ont été tabulées par Dickey & Fuller (1979). et le processus n’est alors pas stationnaire. β = 0 et Φ (1) = 0 Ces 4 cas peuvent être réécrits en introduisant les notations suivantes. avec φ = ρ − 1 appelé ’Modèle [1]’ (2 − 3) ∆Yt = α + φYt−1 + Pαi ∆yt−i + εt appelé ’Modèle [2]’ (4) ∆Yt = α + βt + φYt−1 + αi ∆yt−i + εt appelé ’Modèle [3]’ Les tables ci-après..

0000244) (0.selectlags="BIC".035561) (0. et donc la série ∆Xt possède elle aussi une racine unitaire et n’est donc pas stationnaire Le test de Dickey & Fuller appliqué cette fois-ci à ∆2 Xt donne les résultats suivants.048502 + 0. 139 . e.lag=6. compte tenu des sorties obtenues ci-dessous. Cette fois-ci. On choisit alors parmi les cas proposés suivant que le graphique de la série présente. Ce test valide les résultats graphiques de l’exemple (208) : la série Xt est intégrée d’ordre 2 : d = 2. Les valeurs du test de Dickey & Fuller sont données par En répettant ce test en changeant la forme du modèle (ici sans trend α + βt.000083Xt−1 − 1. Considérons la série décrit précédement. on confirme ce rejet de H0 : la série Xt possède une racine unitaire et n’est pas stationnaire : la statistique de test ADF Test Statistic est toujours supérieure aux valeurs critiques : En faisant le test sur la série différenciée une fois (∆Xt ).000466) (0. avec p = 2   Xt − Xt−1 = ρXt−1 − [φ2 ∆Xt−1 + φ3 ∆Xt−2 ] Xt − Xt−1 = α + ρXt−1 − [φ2 ∆Xt−1 + φ3 ∆Xt−2 ]  Xt − Xt−1 = α + βt + ρXt−1 − [φ2 ∆Xt−1 + φ3 ∆Xt−2 ] Le troisème modèle s’écrit.) > library(urca) > summary(ur.   ∆Xt = −0. Exemple 209.type="trend")) On choisit tout d’abord un p suffisement grand pour que Φ (L) Xt suive à peu près un bruit blanc. une tendance linéaire. et en changeant l’ordre p).   Xt − Xt−1 = φXt−1 Xt − Xt−1 = α + φXt−1  Xt − Xt−1 = α + βt + φXt−1 et dans le cas du test aumgenté.00919t − 0.092874) (0. ou pas.Il est aussi possible de laisser le logiciel choisir le nombre optimal de retard à considérer (à l’aide du BIC.on observe là aussi que l’ADF Test Statistic est toujours supérieure aux valeurs critiques : H0 est encore acceptée. et la série ∆2 Xt est donc stationnaire.df(y=.g. Le test (simple) de Dickey & Fuller revient à estimer les 3 modèles suivants.035629) avec n = 794. le test de Dickey & Fuller permet de rejeter H0 : ∆2 Xt n’a pas de racine unitaire.01516∆Xt−1 − 0.022332∆Xt−2 (0.

il est possible il est possible H0 soit rejetée. et que l’on tente un test de Dickey Fuller sans constante. avec les racines de Φ∗ à l’extérieur du disque unité. bien que stationnaires. 1 2 σ b φb Wt dt 0 Cette distribution n’est pas gaussienne.  L’hypothèse à tester est (H0 ) : il existe θ tel que Φ eiθ = 0. 11 Le lien entre les processus intégrés et le mouvement brownien est donné page 31. Dans le cas de séries financières (par exemple). semblent avoir une racine unité. Compléments sur les tests de racine unité Considérons une écriture de la forme Φ (L) Xt = Θ (L) εt . et sa distribution est donnée par R1 b− 1 L Wt dWt φ b tφ=1 =   → hR 0 i1/2 6= N (0.Remarque 210. Alors ∆Xt = Φ∗ (L)−1 Θ (L) εt = Ψ∗ (L) εt = ηt ou Xt = Xt−1 + ηt . il convient de faire attention lors de la lecture des résultats des tests de Dickey & Fuller : les processus à mémoire longue. tφ=1 =   où φb − 1 = P 2 . s2 = Xt−1 T −1 Xt−1 σ b φb   avec σ b φb écart type (par moindre carrés) de l’estimateur de φ . trois (ou quatre) alternatives sont proposées : avec ou sans tendance et constante. et des tabulations (obtenues par des méthodes de type Monte-Carlo) sont nécessaire pour tabuler la distribution limite11 . non pas parce qu’il n’y a pas de racine unité. Il vaut mieux choisir l’alternative permettant de mieux décrire la série : si la série (Xt ) n’est pas centrée. A retenir 211.  L’hypothèse alternative (H1 ) s’écrit alors Φ eiθ 6= 0 pour tout θ : Φ n’a pas de racine unité. Xt = φXt−1 + ηt dont l’estimation est Xt = φX Il est alors possible de montrer que sous l’hypothèse (H0 ) : φ = 1 . 1] . Dans les tests de Dickey Fuller augmenté. où (εt ) est un bruit blanc. c’est à dire qu’une racine est sur le disque unité (racine unité) le reste des racines étant à l’extérieur du risque unité : Φ (L) = (1 − L) Φ∗ (L) où Φ∗ (1) 6= 0. Avant de différencier afin d’obtenir une série stationnaire. la statistique de test s’écrit P i  2 b− 1 Xt−1 ηt 1 Xh s2 φ b t−1 et σ b Xt − φX b φb = P 2 . Les tests de Dickey-Fuller permet de tester cette hypothèse : le test de régression s’écrit alors b t−1 + ηbt . 1) où (Wt ) est un brownien standard sur [0. il peut être intéressant de tester l’hypothèse de mémoire longue du processus. mais parce que le modèle testé est mal spécifié (cf exercice 16 de l’examen 2002/2003). 140 . et on suppose de plus que toutes les racines sont à l’extérieur du disque unité : Xt = Φ (L)−1 Θ (L) εt = Ψ (L) εt = ηt .

il possible de montrer (cd partie précédante) que XT (r) converge faiblement (noté =⇒) vers un mouvement brownien (cf. Si (Xt ) est un processus stationnaire alors les statistiques calculées sur ce processus vérifiront le FCLT. La généralisation de ces tests au cas hétéroscédastique a été proposée par Phillips et Perron. . i=1 On prendra comme valeur initiale de (St ). La distribution théorique à la base des tests de Dickey & Fuller repose sur l’hypothèse d’hétéroscédasticité du bruit.. Billigsley (1968)). En supposons H0 vérifiée. Phillips avait suggéré la seconde possibilité. n o β+η Proposition 212. Considérons par exemple le cas AR (1). quand T → ∞. (ii) X0 admet une distribution spécifiée a priori. T . où (Dt ) est une tendance déterministe. les valeurs critiques correspondant à celles des tests ADF .Tests de Phillips et Perron Ces tests non paramétriques ont été introduits en 1988. Si (εt ) vérifie l’hypothèse () et si sup |εt | < ∞ pour η > 0 et β > 0 alors. L’utilisation du FCLT pour des tests de racines unité a été proposé dès 1958 par White.. et considérons la somme partielle du processus d’innovation. Ces tests reposent sur des résultats de la théorie de la convergence faible fonctionelle (théorème central limite fonctionel (FCLT) par exemple). S0 = 0. a été proposé par Hotelling. (iii) X0 = XT . dite hypothèse de cicularité.. St = Xt − X0 = t X εi . √ En notant XT (r) = S[T r] / T . Xt = ρXt−1 + εt pour t = 1. La généralisation des tests DF aux tests ADF se fait en considérant X Yt = Dt + ρYt−1 + εt → Yt = Dt + ρYt−1 + αi ∆yt−i + εt . et à autoriser que ce processus soit autocorrélée. Cette dernière condition. sous l’hypothèse H0 : ρ = 1 dans le modèle Xt = ρXt−1 + εt on a les résultats suivants Z 1 T 1 X 2 2 X =⇒ σ Ws2 ds (i) 2 T t=1 t−1 0   T 1X σ2 σε2 2 (ii) Xt−1 (Xt − Xt−1 ) =⇒ W1 − 2 T t=1 2 σ 1 W12 − σε2 /σ 2 (iii) T (b ρ − 1) =⇒ R1 2 Ws2 ds 0 P (iv) ρb → 1 141 . La généralisation des tests DF proposée par Phillips et Perron consiste à ne plus supposer que (εt ) est un bruit blanc. mais pour le choix de X0 trois possibilités sont généralement envisagées : (i) X0 = c (constante). et cherchons à tester ρ = 1 (hypothèse H0 ).

1. Exemple 213. Nelson et Plosser (1992) ont montré que les racines unitaires caractérisent un grand nombre de séries macroéconomiques. il peut être intéressant de tester l’ordre s. avec une saisonnalité d’ordre s.l’interprétation des paramètre n’est pas la même : considérons le modèle Yt = α + βt + ρYt−1 + εt et l’hypothèse H0 : β = 0 et ρ = 1. dans le cas de la série différenciée deux fois.avec tendance linéaire . En revanche. sous Ha . Phillips (1987). Le point (iv) montre que les moindres carrés ordinaires conservent la propriété de convergence quand il y a une racine unité. sans constante ni tendance (à gauche). avec les mêmes conclusions pour la série différenciée une fois. 142 . que l’on teste un modèle simple. On a alors    Yt = α + βt + Xt H0 ρ = 1 2 où |ρ| ≤ 1 et (εt ) ∼ BB 0. avec pour tendance α. tous les tests valident l’hypothèse d’absence de racine unité Remarques complémentaires Un certains nombres d’études sur des données simulées ont montré que ces tests rejettent difficilement l’hypothèse H0 dans le cas de séries désaisonnalisée. Le test de Schmidt-Philipps repose sur l’idée que dans le cas du test ADF de type 4 . en particulier pour tester de la saisonnalité à l’ordre 4 et à l’ordre 12. Schmidt et Philipps ont proposé de modéliser (Yt ) sous la forme Yt = α + βt + Xt où (Xt ) est non stationnaire sous H0 et (Xt ) est stationnaire sous Ha . (Yt ) est stationnaire autour d’une tendance déterministe dont la pente est β (1 − ρ). (Yt ) est non stationnaire. σ et on teste . En reprenant la série de l’exemple (208). on retrouve que la série (Xt ) admet une racine unité.3 Tests de racines unitaires saisonnières Dans le cas d’une modélisation SARIM A.v u T X ρb − 1 u σ W12 − σε2 /σ 2 t qR (v) tρb = (Xt − Xt−1 )2 =⇒ 1 σ b 2σ ε t=1 Ws2 ds 0 Proof. Aussi. on a respectivement H0 : Yt = Y0 + αt + t X εt−k  et Ha : Yt = βρ + k=0  ∞ X α ρk εt−k . ou avec tendance et constante (à droite). et de tester si la série annuelle présente une racine unité. Il est alors parfois intéressant d’agréger des données mensuelles en données annuelles. Testing for a unit root in a time series regression. alors que sous H0 . + β (1 − ρ) + 1−ρ k=0 Autrement dit. Xt = ρXt−1 + εt Ha ρ < 1 7. Un certain nombre de tests on été mis en oeuvre dans les années 80 et 90. Sous H0 et l’hypothèse alternative Ha .

Engle. l’ordre s n’est pas nécessairement celui indiqué par l’autocorrélogramme : une série saionnière d’ordre 4 peut avoir un autocorrélogramme proche de celui de gauche. P8 (L) = (1 − L12 ) . Chui. 1988) Hasza et Fuller ont considéré le modèle Yt = φ1 Yt−1 + φs Yt−s + φs+1 Yt−s−1 + εt où (εt ) est un bruit blanc. Chui.Tests de Hasza et Fuller (1982) et de Osborn. proche de 1. avec respectivement 4 et 12 racines unités : dans le cas d’une saisonnalité à l’ordre s = 12. 4 P4 (L) = (1 − L ) 1 − 3L + L2 (1 + L2 + L4 P6 (L) = (1 − L4 ) (1 − L2 + L4 ) (1 − L + L2 ) . 143 . alors le filtre (1 − L) (1 − Ls ) est nécessaire. Toutefois. Test de Franses ( 1990) Ce test a été mis en place pour tester une saisonnalité à l’ordre 12. si ce genre de comportement laisse à penser qu’il y a une racine unitaire saisonnière. Granger et Yoo (HEGY . π8 ) . en considérant la série partielle des autocorrélogrammes rs (h) = |ρ (sh)| . (Xt ). (i) Les variables Zt = Pi (L) Yt sont alors associées aux différentes racines du polynôme. (π9 . la différence à l’ordre s est appropriée. ainsi que les F de Fisher associés aux couples. Osborn. (π5 . π6 ) . on considère une écriture de la forme Θ (L) P8 (L) Yt = µt + π1 P1 (L) Yt−1 + π2 P2 (L) Yt−2 + π3 P3 (L) Yt−1 + π4 P3 (L) Yt−2 + π5 P4 (L) Yt−1 + +π7 P5 (L) Yt−1 + π8 P5 (L) Yt−2 + π9 P6 (L) Yt−1 + π10 P6 (L) Yt−2 + π11 P7 (L) Yt−1 + π où les polynômes retards Pi sont définis par  P1 (L) = − (1 + L) (1 + L2 ) (1 + L4 + L8 )    4 P3 (L) = (1 − L2 ) (1 + L + L8 )  √  P (L) = (1 − L4 ) 1 + 3L + L2 (1 + L2 + L4 )   5 P7 (L) = (1 − L4 ) (1 − L2 + L4 ) (1 + L + L2 ) et et et et 2 P2 (L) = (1 − L) (1 + L√ ) (1 + L4 + L8 ) . L’hypothèse H0 s’écrit ici H0 : φ1 = φs = −φs+1 = 1. on obtient une série ’constante’. 4 et 12. et si λ = µ = 0. Smith & Birchenhall (OCSB. π12 ). (π7 . Test de Hylleberg. Sur ces trois graphiques. (Yt ) et (Zt ) comportant respectivement une racine unitaire saisonnière d’ordre 2. On peut alors considérer les t de Student pour les variables π1 et π2 . 1990) Ce test utilise la décomposition des polynômes (1 − L4 ) et (1 − L12 ). Smith et Birchenhall ont alors étendu cette approche sous la forme s Θ (L) (1 − L) (1 − L ) Yt = s X δs Ds.t + λ (1 − Ls ) Yt−1 + µ (1 − L) Yt−s + εt i=1 Si l’on accepte l’hypothèse µ = 0. Détection graphique d’une racine unitaire saisonnière Considérons les séries suivantes. π4 ) .(π3 . de même que l’autocorrélogramme d’une série en présence de racine unitaire. π10 ) et (π11 .

l’idée est d’aplliquer la règle suivante : si (Xt ) ∼ ARIM A (p. + φp Lp . On supposera de plus que les polyômes Φ et Θ n’ont pas de racines en module strictement supérieures à 1 (écriture sous forme canonique).2. q). + θq Lq (32) Φ (L) Xt = Θ (L) εt où Φ (L) = I + φ1 L + . il suffit de multiplier à gauche et à droite de (32) par un même polynôme en L. On notera alors Yt = (1 − L) Xt et Zt = (1 − L) Yt . On représentera respectivement les autocorrélations et les autocorrélation inverses. et n’ont pas de racine commune. q). correspondant à une marche aléatoire (Xt ). En effet. Alors. Soit Φ un polynôme dont les racines z ∈ C soient toutes à l’extérieur du disque unité. (22) est équivalent à l’écriture  Θ (L) = I + θ1 L + .a priori .1 Problèmes d’unicité de la représentation ARM A On peut noter que l’écriture ARM A (32) n’est pas unique. au centre et à droite.2 Estimation des ordres p et q d’un modèle ARM A (p.4 Complément sur la notion de sur-différentiation Considérons la série suivante. le même genre de comportement.7. q) Pour l’estimation des paramètres p et q. d. on différencie respectivement une fois et deux fois la marche aléatoire. Γ (L). d. correspondant à un bruit blanc.. (31) i=1 j=1 où les θi sont des réels et (εt ) est un bruit blanc de variance σ 2 .. au sens où θq 6= 0 et φp 6= 0. q). on utilise le fait que si (Xt ) suit un ARIM A (p. autrement dit. que les autocorrélations et les autocorrélations inverses sont identiques (ce qui est une caractérisation des bruits blancs). q) alors (1 − L)d Xt ∼ ARM A (p. Proposition 214. 7. Comme nous l’avons déjà évoqué. on peut noter que Φ (L)∗ Xt = Θ (L)∗ εt . On supposera de plus que les degrés de Θ et Φ sont respectivement q et p. On peut noter également sur les autocorrélogrammes de (Yt ). l’autocorrélogramme de la série (Xt ) permet .1. Le comportement de l’autocorrélogramme inverse de la série (Zt ) présente.de conclure à la présence d’une racine unité. alors (1 − L)d Xt suit asymptotiquement un processus ARM A (p. 144 . [A COMPLETER] 7. Alors l’équation Φ (L) Xt = Θ (L) εt admet une solution stationnaire (Xt ) et celle-ci est unique. q). On appelle processus ARM A (p. En pratique.. de façon moins nette certes. en posant Φ∗ (L) = Γ (L) ◦ Φ (L) et Θ∗ (L) = Γ (L) ◦ Θ (L).. un processus stationnaire (Xt ) vérifiant une relation du type p q X X Xt + φi Xt−i = εt + θi εt−i pour tout t ∈ Z.

(iii) ∆ (i. . . 1) ∆ (q + 1. j). 2) ∆ (q + 2. p+1 p+2 ··· ∆ (1. p + 1) ∆ (1. 1) ∆ (q + 2.. soit 1 ∆ (1. Le processus (Xt ) est un ARM A (p. q) minimal.. q q+1 q+2 . . j) = 0 pour i ≥ q + 1 et j ≥ p + 1. p) . p) 0 0 ··· ∆ (q + 2..j =  ..    ρ (i + j − 2) ρ (i + j − 3) ρ (i + j − 4) . . j) 6= 0 pour j ≥ p. et où Φ et Θ n’ont pas de racines communes. Dq et Dp sont non-nuls. p) ∆ (2. . p + 2) · · · ∆ (q + 1. ρ (i) ρ (i + j − 1) ρ (i + j − 2) ρ (i + j − 3) ρ (i + 1) du processus sta ρ (i − j + 1) ρ (i − j + 2)    ρ (i − j + 3)      ρ (i − 1)  ρ (i) et soit ∆ (i. p + 2) · · · ∆ (2. le tableau des ∆ (i. p + 1) ∆ (q. .. Définition 215. . . p + 1) ∆ (2. 1) ... 1) ∆ (q.. ∆ (q. ··· ··· ··· 2 ∆ (1. et il aura la forme suivante pour un processus ARM A (p. ρ (i − j + 4)  ρ (i + 2) ρ (i + 1) ρ (i)  Ωi. . . .  Dp.. 2) .q .. q) minimal si Φ (L) Xt = Θ (L) εt où (εt ) est un bruit blanc et où Φ et Θ sont de degré respectif p et q (avec φp = 6 0 et θq 6= 0) dont les racines sont de module supérieur à 1. à partir des autocorrélations ρ (h) tionnaire (Xt )  ρ (i) ρ (i − 1) ρ (i − 2) ρ (i − j + 2)  ρ (i + 1) ρ (i) ρ (i − 1) ρ (i − j + 3)   .. 2) ··· ∆ (q. 2) ∆ (2. Proposition 216. i\j 1 2 . .. q) minimal si et seulement si (i) ∆ (i. Dans le cas d’un processus M A (q). j) son déterminant.. . . Un processus (Xt ) est un ARM A (p. p) 0 0 ··· . . p + 2) · · · .... (ii) ∆ (i. j) a la forme 145 . j) 6= 0 pour i ≥ q. p ∆ (1. . 1) ∆ (2. .q Dq Dp 0  où les termes Dp. 2) · · · ∆ (q + 1. on peut construire le tableau des ∆ (i. ..Définissons la matrice suivante. p) ∆ (q. Autrement dit.. Remarque 217. . .

Sous l’hypothèse où (Xt ) ∼ M A (q). . 1) ∆ (q. . alors √ ρbT (h) − ρ (h) L Tp → N (0.. et que (εt ) est stationnaire à l’ordre 4. p) 0 0 ··· . L’autocorrélogramme partiel s’écrit a (h) = (−1)j−1 ∆ (1. Sous l’hypothèse où (Xt ) ∼ AR (p). . 2) · · · ∆ (1. 1) ∆ (1. ρi (h) . . . 1 2 ··· p p + 1 p + 2 ··· ∆ (1. 1 2 ∆ (1. ··· ··· ··· ··· ··· ··· Remarque 218.3) que les moments empiriques (γ (h) ..suivante  Dq 0  = i\j 1 2 . Cette proposition permet en particulier d’avoir l’intervalle de confiance à 95% des autocorrélations partielles. ∆ (q. Dans le cas d’un processus AR (p). alors √ L T [b aT (h) − a (h)] → N (0.. 2) 0 0 0 0 .. . .   1 b aT (h) ± 1. j) où ∆ (0. 1) ∆ (2. . le tableau des ∆ (i. q q+1 q+2 . ρ (h) . 1) pour h > q.. (33) T Proposition 220. Pq 2 1 + 2 k=1 ρ (k) Cette proposition permet en particulier d’avoir l’intervalle de confiance à 95% des autocorrélations. " # r Pq 2 1 + 2 k=1 ρ (k) ρbT (h) ± 1. T 146 .. 1) ∆ (1..4.. .96 √ . j) a la forme suivante  Dp i\j  1 0 = 2 . 7. . 1) ∆ (2. 2) · · · ∆ (2.) convergeaient vers les vraies moments.. . Proposition 219.. . et que (εt ) est stationnaire à l’ordre 4. . . . . .. 1) pour h > q.2 Comportement asymptotique des moments empiriques Nous avions vu dans la partie (2.2. j) /∆ (0. 2) ∆ (2.. .96 . 2) . j) est strictement positif (comme déterminant d’une matrice de corrélation) pour un AR (p).. et donc a (h) = 0 pour h ≥ p + 1. p) 0 0 ··· ∆ (2..

type="ma") 7. S’il reste de la saisonnalité.col="red".0.8).3 Méthode pratique d’estimation des ordres p et q Pour estimer les ordres p ou q.lwd=5) mais il est possible d’avoir la version MA de l’intervalle de confiance > acf(X.ma=.sim(list(order=c(0.(résultat de Quenouille.n=240) > acf(X.1). En particulier (i) pour les processus AR (p) l’autocorrélogramme partiel s’annule à partir de p (à gauche) (ii) pour les processus M A (q) l’autocorrélogramme s’annule à partir de q (à droite) Remarque 221. ci. celle-ci apparaîtra également dans les autocorrélogrammes 147 .2. on utilise les propriétés vues précédemment sur les formes des autocorrélogrammes (ρ (h)) ou des autocorrélogrammes partiels (a (h)). Sur un processus MA(1) simulé. par défaut. 1949 ). l’intervalle de confiance est le suivant > X=arima.col="red".lwd=5.

∆ 148 .  ρ (i + j − 2) ρ (i + j − 3) ρ (i + j − 4) . On pose alors ∆ (i.96 pour un seuil de 5%.. Elle est basée sur la propriété (216) . dite ‘méthode du coin’ permet d’estimer conjointement p et q lorsque les deux sont non-nuls. ...5 Cas d’un processus ARM A (p. avec une de ∆ loi normale asymptotique. ρ (i) ρ (i − 1)  ρ (i + j − 1) ρ (i + j − 2) ρ (i + j − 3) ρ (i + 1) ρ (i) sont inconnues mais peuvent être estimée par les ρb (h). Les coefficients p et q sont alors les valeurs pour lesquels s’observent une rupture.. j) sont alors des qui sera.2. j) = det Ω b ij . 7. estimé par ∆ estimateurs convergents des ∆ (i. j) (par continuité du déterminant). Les valeurs de Ωij où   ρ (i) ρ (i − 1) ρ (i − 2) ρ (i − j + 2) ρ (i − j + 1)  ρ (i + 1) ρ (i) ρ (i − 1) ρ (i − j + 3) ρ (i − j + 2)      . j) .. La variance asymptotique b (i. pour h > q.. Un test est basé sur l’utilisation de la statistique de Student r de nullité  b (i. de la même façon..2.7. ordre d’un processus M A (q) comme la première valeur à partir de laquelle les ρ (h) sont dans l’intervalle dont les extrémités sont délimitées par 1/2 1. + ρ2 (q − 1) pour h > q. Les ∆ b (i.96  ± √ 1 + 2 ρb2 (1) + ρb2 (2) + . . j) = det Ωij .      . 1 + 2 ρ2 (1) + . . i=1 et donc. b (i. 1+2 T i=1 En pratique. on peut noter que la variance des autocorrélations empiriques est donnée par la relation V (b ρ (h)) ≈ 1 + 2 q X ρ2 (i) . on identifie q. j)est une fonction différentiable du vecteur des autocorrélations ρb (h). .  ρ (i + 2) ρ (i − j + 4) ρ (i − j + 3)  ρ (i + 1) ρ (i)   Ωi.4 Cas d’un processus M A (q) Si (Xt ) suit un processus M A (q)... Monfort) La méthode suivante. qui doit être comparée à 1.j =  . on peut prendre comme estimation de l’écart-type v u q X 1 u t σ b (b ρ (h)) = √ ρb2 (i). q) La méthode du coin (Beguin. T puisque sous l’hypothèse où le processus est effectivment un M A (q) √  L T ρb (h) → N 0.. + ρb2 (h − 1) . j) / Vb ∆ b (i.. Gourieroux.

067 0.199 −0.1L − 0.001 4 0.000 5 En effet.006 2 ≈ 0.7L2 ) εt où (εt ) est un bruit blanc gaussien de variance 1 Le tableau des ∆ij est donné par i\j 1 2 3 4 5 1 0.001 −0.095 −0.006 0.021 0.316 −0. le terme ∆1.352 −0.010 0.Exemple 222.003 3 0.179 −0.2 est donné par .5L) Xt = (1 + 0.420 0.296 −0.000 −0.036 2 3 4 5 i\j 0.001 0.006 0.022 −0. Considérons le processus simulé (sur 250 valeurs) (1 − 0.003 1 0.001 0.047 0. par exemple.002 0.

.

.

.

ρ (1) ρ (0) .

.

352 1 . 0.

=.

2 = . ∆1.

.

.

.

003 0.296 0.352 −0.021 0.352 1 0.047 0.067 0.179 −0.022 −0.000 0.316 −0.006 0.199 −0.036 2 3 4 5 0.000 0.296 −0.000 0.000 0.000 0.010 0.000 0.095 −0.000 .420 0.006 0. ρ (2) ρ (1) −0.000 0.000 0.

.

.

.3522 + 0.296 = 0.420. = 0.

{z Forme autorégressive } Ce modèle est estimé par les mco. L’approximation indiquée ci-dessous semble valider l’hypothèse de modélisation ARM A (1.k t .k les résidus t de la régression. on utilise une régression linéaire pour obtenir des estimateurs (par moindres carrés) des paramètres autorégressifs de la composante AR. i=0 j=0 où les ηtj. de façon itérative pour calculer les paramètres AR d’un ARM A (stationnaire ou pas). on choisit m 149 .k Xt = φi Xt−i + θjm.1 p. Cette intuition est confirmée en étudiant le tableau des ’Student’. On définit alors la k-ème régression itérative d’un AR (m) quelconque m k X X m. Comme on ignore l’ordre p de la partie autorégressive.0 φp. et les um.k j. & Ciao) Cette méthode est appelée EACF (Extended Autocorrelation Function). à partir de cette estimation.1 p.k ηt−j + um. on effectue des regressions linéaires. suivant le modèle Φ (L) Xt = (1 − L)d φ (L) Xt = Θ (L) εt où (εt ) suit un bruit blanc de variance σ 2 .k sont les erreurs du processus AR de la k-ième régression.1 i Xt−i + θi ηt−1 + ut . Pour cela. Soit (Xt ) un processus ARM A (p. Ensuite. q) dont on observe n réalisations. la série observée est modélisée sous forme M A. 2). Utilisation de la fonction d’autocorrélation étendue (Tsay. On définit alors la première regression Xt = p X |i=0 p. Sur la partie autorégressive du processus.

i i i−1 φbm.4] [.034 0.140 0.j−1 φm+1 φbm.231 0.154 0.440 0.551 0.10] -0.020 0.045 -0.-.544 -0.058 0.201 -0.519 0.631 -0.206 0.066 0.160 0.0.n=240) [.049 0.] 0.186 0.102 0.007 0.205 0. 2.002 -0. c’est à dire  rj (p + d) ≈ 0 pour j > q (34) rj (p + q) 6= 0 pour j = q.207 0.074 0.6)).185 -0.060 0.035 [5. La√nullité théorique de (??) est interprétée statistiquement par une valeur inférieur à 1.054 -0.494 [3.302 0.sim(list(ar=c(.291 -0.130 0.] 0.125 -0.199 0.500 0. i=1 Si le processus suit un ARM A (p + d.042 [7.] 0.172 0.155 0.092 -0.] 0.4.576 0.078 -0.638 -0.6] [.034 [6..020 -0.022 -0..022 [4. On appelle fonction d’autocorrélation étendue la fonction rj (m). Définition 223.027 0.035 0.96/ n.749 0.8] [.variant de 1 à p0 .163 -0.496 -0.j−1 bm+1.8.7] [.5).215 0.358 0.134 0.495 [2. q) la série ωjm suit un processus M A (q) pour j ≥ q.114 -0.139 -0.j = φ .245 -0.006 0. .] -0.5] [1.427 0.2] [.652 0. fonction d’autocorrélation étendue. > library(TSA) > X=arima. et on effectue q 0 régressions itératives : on choisira a priori p0 et q 0 suffisamment grands.] -0. telle que l’a définie Tsay et Tia (1984).180 0.j−1 − φbm.ma = > extacf=eacf(X) AR/MA 0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 x x x x x x x x x o o x x o 1 x x x x x x x x x o x x x o 2 x x x x o o x x x x x o o o 3 x x x x o o o o o o x o o o 4 x x x x o x o o x o o o o o 5 x x x x o x o o x o o o o o 6 x o x o x o o o x x o o o o 7 o o x o x o o o o x o o o o > extacf$eacf [.245 0.j i Xt−i pour j = 1.198 0.049 0.361 0.404 -0. fonction d’autocorrélation du processus ωjm = Xt − m X φbm.3] [.] 0.270 -0.9] [.1] [. Les paramètres peuvent alors être estimés récursivement par bm+1.058 -0.j−1 m Ces paramètres sont alors utilisés pour définir la ESACF .264 [8.078 -0.228 -0.274 -0.188 On peut visualiser ces valeurs sur la figure suivante 150 .190 0.035 0.] 0.341 0.163 c(.301 0.182 -0..

21 0.11 -0. les tables ESACF et SCAN théoriques seront de la forme Table ESACF AR-MA 0 1 2 3 0 ∗ ∗ ∗ ∗ 1 ∗ ∗ ∗ ∗ 2 ∗ 0 0 0 3 ∗ ∗ 0 0 4 ∗ ∗ ∗ 0 4 ∗ ∗ 0 0 0 5 ∗ ∗ 0 0 0 6 ∗ ∗ 0 0 0 AR-MA 0 1 2 3 4 Table SCAN 0 1 2 3 ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ 0 0 0 ∗ 0 0 0 ∗ 0 0 0 4 ∗ ∗ 0 0 0 5 ∗ ∗ 0 0 0 6 ∗ ∗ 0 0 0 où l’ordre de l’AR se lit à gauche.00 0.00 Comme on peut le noter.06 0.02 −0.00 0. et l’ordre du M A se lit en haut.10 0.14 0.03 -0.51 −0. [A COMPLETER] Exemple 224. suivant un processus ARIM A (p.01 -0.10 -0.28 0. 151 .00 0.05 -0. d.16 −0.25 −0. q).02 0.00 0.03 −0.52 0. Dans le cas d’un processus ARM A (2.00 -0. dont on observe n réalisations.00 0. nous avons simulé 1500 réalisations d’un tel processus. Les sorties ESACF .40 0.03 Table SCAN 1 2 3 4 0.01 0.44 -0.08 -0.01 −0.00 0. la méthode SCAN donne de très bon résultats.17 0.04 0. Considérons une série Xt que nous allons centrer.32 −0.02 0.14 0. 1).06 0.41 −0.13 0.02 0.02 AR-MA 0 1 2 3 4 0 0.50 −0.53 0.00 0.16 −0.12 0.00 0.00 0. Cette méthode analyse les valeurs propres de la matrice de corrélation du processus.00 0.et SCAN peuvent se réécrire AR-MA 0 1 2 3 4 Table ESACF 0 1 2 3 4 5 0. et permet d’identifier les ordres 2 et 1.36 −0. Dans l’exemple ci-dessous.48 0.00 0.17 −0. Zt = Xt − µ.Méthode ’SCAN ’ Cette méthode vise à utiliser la plus petite corrélation canonique (smallest canonical correlation) pour identifier les ordres p et q.02 −0.00 0.

 √      T (b ω − ω) 0 Ω 0 L T √ →N . . Une fois estimés les paramères d. 152 .3 Test de bruit blanc et de stationnarité L’hypothèse (Xt ) ∼ ARIM A (p..7. on obtient des polynômes b (L) et Φ b (L). ρb (h) = γ b (0) n − h t=1 n t=1 L’intervalle de confiance de ρb (h) est. q et l’ensemble des φi et θj . Exemple 226.96 pour α = 5%)..3.. dans le cas d’un bruit blanc gaussien h √ i √ −tα/2 / T .. 7.. θq )0 . d. il convient de vérifier que les résidus estimés suivent bien un bruit blanc H0 : (εt ) ∼ BB. 0 0 a T (b σT − σ) Cette propriété permet de mettre en place des tests sur les paramètres. Pour avoir un bruit blanc.2. p. et asymptotiquement normal. Pour la série (1) à gauche. en particulier pour h = 8 ou h = 16. certaines le sont. εbt = Θ Pour que les modèles obtenus précédamment soient valides. . ou encore εt = Θ (L)−1 (1 − L)d Φ (L) Xt . L’estimateur du maximum de vraissemblance est convergent. aucune valeur n’est significativement nonnulle alors que pour la série (2). estimés Θ b (L)−1 (1 − L)d Φ b (L) Xt . θ1 . à droite.6 Propriété des estimateurs En notant ω = (φ1 . tα/2 / T où tα/2 est le quantile d’ordre α/2 de la loi de Student (1. il est nécessaire qu’aucune valeur de l’autocorrélogramme ne soit significativement non-nulle. on a le résultat suivant Proposition 225. q) peut s’écrire (1 − L)d Φ (L) Xt = Θ (L) εt .. 7. φp . qui permettent d’obtenir les résidus estimés. .1 Analyse des fonctions d’autocorrélation L’autocorrélation peut être estimée par n−k n   1 X 1X γ b (h) où γ b (h) = Xt − X Xt−h − X et X = Xt .

236 10.388 19.779 9.341 7.017 9.281 15.2646 8.819 4.991 3 0. avec cette valeur ρ (8) significativement non nulle). > library(forecast) > (modele=auto. Cette statistique est généralement fournie avec l’autocorrélogramme (Q-stat).684 16. Qh suit un χ2 à h degrés de liberté.310 19. k=1 où h est le nombre de retards.362 15. ou test de ’‘portmanteau” Le test de Box-Pierce permet d’identifier les processus de bruit blanc (i.706 3.488 11. sous H0 une loi du χ2 à h degrés de liberté.000 2. il ne semble pas en être de même pour la seconde série.507 9 11. εt−h ) = 0 pour tout h.095 4..307 Si la série (1) est statistiquement un bruit blanc.102 2.088 2.476 6.841 2 0.645 12.067 8 10.ce qui était confirmé par l’analyse graphique des autocorrélogrammes. pour laquelle Qh est parfois trop elevée (en particulier à partir de h = 8 . Ces tests sont appelés par les anglo-saxons ’portmanteau tests’.206 4.e. on utilise la statistique de Box et Pierce (1970) Q.0. soit littéralement tests ‘fourre-tout’. Cette statistique permet de tester cov (εt . nous obtenons le tableau suivant h Série (1) Série (2) χ10% (h) χ5% (h) 1 0. Ce test s’écrit  H0 : ρ (1) = ρ (2) = . = ρ (h) = 0 Ha : il existe i tel que ρ (i) 6= 0.. Pour effectuer ce test.852 9.0)[12] with drift 153 . Les deux sorties ci-dessous correspondent aux valeurs pour 2 séries de résidus La table du χ2 est donnée ci-dessous. T −k qui suit asymptotiquement.673 7. de variance constante et non autocorrélés).605 5. Nous rejetons l’hypothèse de bruit blanc au seuil h si Q est supérieure au quantile d’ordre (1 − α) de la loi du χ2 à h degrés de liberté. soit ρ (h) = 0 pour tout h.919 10 11.643 10.arima(X)) Series: X ARIMA(1.251 7.281 14.234 13.070 12.059 6. T est le nombre d’observations et ρbk l’autocorrélation empirique. sous H0 .087 4.592 14.987 18. les processus aléatoires de moyenne nulle.815 4 5 6 7 4.7. A titre comparatif.676 19.1)(2.1. donnée par Qh = T h X ρb2k . Une statistique ayant de meilleurs propriétés asymptotiques peut être utilisée : Q0h = T (T + 2) h X k=1 ρbk . Asymptotiquement. Exemple 227.3.2 Statistique de Box-Pierce.

444 NaN sar2 -0.type="Box-Pierce") Box-Pierce test data: modele$residuals X-squared = 1.test(modele$residuals.lag=6.lag=6.lwd=3.8304.test(modele$residuals.0344 s.e.0686 NaN sar1 -0.type="Ljung-Box") Box-Ljung test data: modele$residuals X-squared = 1.Coefficients: ar1 -0.9346 > Box.4048 0.col="red") Il est possible d’utiliser les tests de Box-Pierce ou Ljung-Box > Box.9562 sigma^2 estimated as 9819923: log likelihood=-692.0010 drift 69. df = 6. NaN ma1 -0.24 AIC=1396.22 > plot(modele$residuals) > acf(modele$residuals.75 BIC=1410. p-value = 0. df = 6.9189.48 AICc=1397.1618 16.927 que l’on peut aussi visualiser graphiquement 154 . p-value = 0.

col="blue") points(1:24. "Ljung-Box"). si la distribution suit une loi normale.2e-16 On peut aussi faire des tests graphiques.   k En notant µk le moment d’ordre k de la distribution. 6/T et k → N 3. alors la quantité T T BJ = s2 + [k − 3]2 . Le test de Bera & Jarque repose sur le fait que.1).05.lag=h. Aussi. 24/T quand T → ∞.lty=2) legend(20.value plot(1:24.bera. ou lors des tests de Student sur les paramètres.value LB=function(h) Box.1).test(residuals(modele)) Jarque Bera Test data: residuals(modele) X-squared = 81.pch=2) abline(h=.2)) 7. il convient de vérifier la normalité des résidus.type="Ljung-Box")$p.3 Compléments : les tests de normalité Dans le cadre de la prévision.type="b".type="Box-Pierce")$p.type="b". c("Box-Pierce".lag=h.> > > > > > + BP=function(h) Box. Un test possible est celui de Bera & Jarque (1984)."red").lty=1.test(modele$residuals.col="red". basé sur le skewness (coefficient d’asymétrie de la distribution) et la kurtosis (aplatissement épaisseur des queues).pch=c(1.ylim=c(0. Sous des hypothèses de normalité. on 3/2 appelle skewness le coefficient s = µ3 /µ2 et kurtosis k = µ4 /µ22 . p-value < 2. on a normalité des estimateurs du skewness et de la kurtosis.Vectorize(LB)(1:24).ylim=c(0.col=c("blue".test(modele$residuals.2819.4. 6 24 2 suit asymptotiquement une loi du χ à 2 degrés de liberté. comme des QQ-plots 155 .3.  p   p  L L s → N 0.Vectorize(BP)(1:24). si BJ ≥ χ21−α (2) on rejette l’hypothèse H0 de normalité des résidus au seuil α. µk = E [X − E (X)] . df = 2. > jarque..

test(residuals(modele)) Shapiro-Wilk normality test data: residuals(modele) W = 0. . > shapiro. . dès 1989.> library(car) > qqPlot(modele$residuals) Parmi les autres tests. . dans la régression de Dickey & Fuller une variable indicatrice spécifiant l’existence d’une rupture. . p-value = 3. La date de rupture peut d’ailleurs être 156 . il y a la statistique de test proposée par Shapiro & Wilk. .4 Complément : Test de rupture et de changement de tendance Perron a proposé d’introduire. .3. mn )0 sont les espérances des statistiques d’ordre d’un échantillon de variables indépendantes et identiquement distribuée suivant une loi normale. et où a = (a1 .8659. . P 2 ( ni=1 ai Xi:n ) W = Pn 2 i=1 (Xi − X) où Xi:n désigne la ième statistique d’ordre. . an ) = m0 V −1 (m0 V −1 V −1 m)1/2 où m = (m1 . et V est la matrice de variance-covariance de ces statistiques d’ordre.023e-07 7.

formula(formula = Nile ~ 1.breaks=1) Optimal 2-segment partition: Call: breakpoints. changement du coefficient de tendance linéaire. Ce lien entre les tests de racine unité et les changements de structure ont donné lieu à de nombreuses publications depuis une dizaine d’années. Différentes formes de changement de structure ont d’ailleurs été étudiées : changement de niveau. avec une rupture au temps τ où 1 < τ < T .effet instantanné 157 . etc.breaks=1)$breakpoints]. > library("strucchange") > library(datasets) > plot(Nile) > breakpoints(Nile~1.’‘additive outliers” .png Les tests de racine unité Plusieurs tests ont été implémentés afin de tester l’hypothèse nulle que la série stationnaire (Yt ) possède une racine unité et une constante. contre l’hypothèse alternative que la série soit stationnaire autour d’une tendance linéaire avec rupture en τ sur cette tendance... éventuellement nulle. breaks = 1) Breakpoints at observation number: 28 Corresponding to breakdates: 1898 > abline(v=time(Nile)[breakpoints(Nile~1. changement sur les coefficients des variables de la modélisation.connue ou inconnue. Dans le cas où elle est inconnue.col="red") breakpoint-Nile. Une distinction est alors généralement apportée entre deux cas : • AO . une procédure séquentielle permet de la localiser.

. (i) estimation (par une méthode de type moindre carrés) de la tendance avec les modèles de régression (1). 0 sinon (DTt∗ (τ ) = [t − τ ] . ainsi que le paramètre k. où (Yt ) est la série (Xt ) à laquelle on a retiré la tendance déterministe. et calcul de la série résiduelle obtenue en retranchant à la série observée la tendance estimée (ii) pour les modèles (1) et (3).I (t > τ )). La mise en oeuvre du test se fait en deux étapes . . T.• IO . ... Le test de Zivot et Andrews (1992) considère seulement les modèles de type IO. Cette méthode consiste à estimer les modèles de régressions (A).effet avec transition Pour chacun des effets. sans introduire l’indicatrice DT Bt−j (τ ) (la ”justification” étant que ce coefficient est asymptotiquement négligeable)12 . encore une fois. q) par un processus AR (k + 1). SAS ou Gauss.. Dans la version IO. Toutefois. DT Bt (τ ) = I (t = τ + 1). la date de rupture τ est inconnue. dans le cas général.. T. en EV iews. Différentes méthodes pour sélectionner k ont été proposée par Perron (1989et 1993) pour les trois modèles et les deux types d’effets.’‘innovational outliser ” .. 12 Ce test est évoqué ici car il existe des codes téléchargeables sur internet. (2) et (3). la seconde étape consiste à effectuer la régression ∆Yt = αYt−1 + k X αi ∆Yt−i + εt . noté tαb (τ ) et correspond au test de racine unité dans la régression ADF ∆Yt = αYt−1 + k X j=0 dj DT Bt−j (τ ) + k X αi ∆Yt−i + εt où DT Bt−j (τ ) = I (t = τ + 1) . Les procédures séquentielles d’identification de Zivot et Andrews (1992) et de Perron (1993) permettent de déterminer τ . i=1 Pour le modèle (2). AO et IO.  (1) Xt = µ + βt + γDUt (τ ) + Yt pour t = 1. le test est basé sur la valeur de la t-statistique relative à α = 0. (2) Xt = µ + βt + θDTt∗ (τ ) + Yt  ∗ (3) Xt = µ + βt + γDUt (τ ) + θDTt (τ ) + Yt pour t = 1. 158 . T. i=1 et à utiliser la t-statistique tαb (τ ) pour effectuer les tests classiques ADF . trois modèles sont alors considérés : dans la version AO  pour t = 1... les équations de régression s’écrivent  i h Pk  c ∆X + ε pour t = 1 (1) ∆X = µ + βt + θDU (τ ) + δDT B (τ ) + αX +  t−i t t t t t−1 i=1 i   i h P pour t = 1 (2) ∆Xt = µ + βt + γDTt∗ (τ ) + αXt−1 + ki=1 ci ∆Xt−i + εt  h i  P   (3) ∆Xt = µ + βt + θDUt (τ ) + δDT Bt (τ ) + γDTt∗ (τ ) + αXt−1 + k ci ∆Xt−i + εt pour t = 1 i=1 où. avec DUt (τ ) = 1 si t > τ et 0 sinon (DUt (τ ) = I (t > τ )) et DTt∗ (τ ) = (t − τ ) si t > τ . . permettant d’approcher le processus ARM A (p. ou plutôt λ = τ /T ..

λ ∈ Λ} est plus petit que le fractile correspondant à une probabilité fixée de la distribution asymptotique de inf {tαb (λ) . 17/20] dans l’étude de Zivot et Andrews.type="b". +C . Les auteurs ont étudié la disctribution asymptotique de inf tαb (λ) quand λ appartient à un intervalle fermé de ]0. Les statistiques St du CU SU M et St0 du CU SU M SQ sont définies par Pt εei St = (T − k) Pti=k+1 2 pour t = k + 1. T −k T −k où C est la constante du Durbin. . et on note k le nombre de paramètres à estimer dans le modèles.850 suivant que le seuil est 1%. l’espérance de St0 est E (St0 ) = (t − T ) / (T − k) allant de 0 à 1 quand t varie entre k et T .cusum$process[-1]. Les tests du ”CU SU M ” Ce test permet d’étudier la stabilité d’un modèle économétrique estimé au cours du temps.. En fait. On rejette alors l’hypothèse nulle de présence de racine unité si inf {tαb (λ) . Λ = [3/20. Les tests de Gregory et Hansen (1996) Ces tests sont une généralisation des tests de Zivot et Andrews dans le cas mutlivarié. et à retenir le cas où tαb (τ ) = tαb (λ) est minimal.918 ou 0. ei i=k+1 ε et St0 Pt = Pi=k+1 T εe2i e2i i=k+1 ε pour t = k + 1. 0. Pour cela. où Xt = (Xt1 . et le CU SU M SQ (SQ pour ’square’ ) fondé sur la somme cumulée des carrés des résidus rérursifs..+ .col="red") 159 . les résidus St0 doivent appartenir à l’intervalle   t−T t−T 0 St ∈ − C. T −k T −k où α = 1. on peut montrer que sous l’hypothèse de stabilité.type="OLS-CUSUM") > plot(time(Nile).. la variable St0 suit une loi Bêta. on note (e εt ) le résidu normalisé par rapport à l’écart-type.. 5% ou 10%. Plus précisément. . Xt2 ).143. Il existe deux versions de ce test : le CU SU M fondé sur la somme cumulée des résidus récursifs. De la même façon. 1[. Si les coefficients sont variables au cours du temps. T. > cusum=efp(Nile~1. alors les résidus récursifs St doivent rester dans l’intervalle défini par   α (2t + T − 3k) α (2t + T − 3k) √ √ St ∈ − .. λ ∈ Λ}. T..(B) et (C) dans les deux cas AO et IO. c’est à dire εet = εbt /b σε .

le test de Chow. ce test est un test de Fisher : on considère un premier modèle Y = Xβm + εm obtenu sur m observations. ainsi que V (εm ) = V (εn ) .boundary = TRUE) Le test de Chow ou test d’homoscédasticité Puisque les bruits blancs doivent être homoscédastiques. > library("strucchange") > plot(Fstats(Nile~1)$Fstats. Pour mémoire.> plot(cusum. peuvent être utilisés13 . 160 . et un second modèle Y = Xβn + εn obtenu sur n observations. visant à comparer les variances des résidus sur des sous-périodes. Le test de Chow permet de test l’égalité des coefficient : βm = βn .col="blue") 13 Ce test n’est pas détaillé ici puisqu’il se trouve dans tous les cours d’économétrie.alt.

les modèles ARMA ne sont pas nécessairement centrés. ainsi que la volatilité σ 2 du bruit blanc. Simulons un processus AR(1) de moyenne 2. Comme nous l’avons noté.4.0.03397 161 . > X=arima. d. q) A cette étape. p et q ont été fixés. Sous l’hypothèse εt ∼ N (0. on peut utiliser des méthodes du type maximum de vraissemblance. les coefficients d.1010) > X[1]=0 > for(t in 2:1010){X[t]=4/3+X[t-1]/3+rnorm(1)} > X=X[-(1:10)] > mean(X) [1] 2. µ = a ou a = (1 − φ)µ.1 Attention à la constante Par défaut. On supposera ici que le processus (Xt ) est centré.4 Estimation des paramètres d’un modèle ARM A (p. en utilisant une boucle récursive > X=rep(NA. q). i. de moyenne µ. 1−φ Si on considère un modèle ARM A plus général Φ(L)Xt = a + Θ(L)εt .ar=1/3).931767 ou plus simplement.7.0). la forme générale serait (pour un AR(1) par exemple) Xt = a + φXt−1 + εt Si la série est stationnaire. Il convient alors d’estimer les paramètres φi et θj du processus ARIM A (p. σ 2 ). 7.sim(list(order=c(1. alors µ devrait être solution de µ = a + µ. alors a = Φ(1)µ.n=1000)+2 > mean(X) [1] 1.e.

0) sans constante.1010) U[1]=0 for(t in 2:1010){U[t]=4/3+U[t-1]/3+rnorm(1)} U=U[-(1:10)] X=cumsum(U) 162 .68 Autrement dit.e. une tendance linéaire apparaîtra. 0)) Call: arima(x = X. Xt − a(1 − φ)−1 t sera un processus ARIM A(1. order = c(1. 0.9318: log likelihood = -1383. Le modéle estimé est alors (Xt − µ) = φ(Xt−1 − µ) + εt . on est tenté d’écrire (1 − L)(1 − φL)Xt = a + εt ou (1 − L)Xt = a + φ(1 − L)Xt−1 εt . mais la moyenne µ. Ces deux formes sont (bien entendu) équivalentes.0334 s. Si on regarde maintenant la version intégrée. un processus ARIM A(1..0294 0. Alors (1 − L)[Yt + βt] = a + φ(1 − L)[Yt−1 + β(t − 1)] + εt qui peut se réécrire (1 − L)Yt = a + (φ − 1)β + φ(1 − L)Yt−1 + εt i. i.3738 2. avec une constante. 1. précisément pour enlever la tendance. 1.e. > > > > > U=rep(NA.L’estimation avec R donne ici > arima(X. Supposons ici que l’on inègre le processus 1 Ut = 2 + Ut−1 + εt i.e. Posons alors Yt = Xt − βt.. 0)) Coefficients: ar1 intercept 0. 3 avec X0 = 0. Cette écriture laisse à penser qu’en intégrant. Mais les coefficients estimés ne sont pas tout Ãă fait ce que l’on attendait.e. Xt = Xt−1 + Ut . le coefficient appelé intercept n’est pas la constante a dans le modÃĺle AR(1). 0.0487 sigma^2 estimated as 0. order = c(1. 0. 0).

on obtient dans le premier cas 163 . order = c(1. order = c(1.9787: log likelihood = -1406. 1.3564 2.0200 s. 0.9782: log likelihood = -1406.La simulation (brute) donne ici > arima(X. order = c(1. 0).e.0296 0. 0. 0). On peut tenter un processus AR(1) (avec constante) sur la série différenciée.0487 sigma^2 estimated as 0. même si ce n’est pas la constante du modèle ARIMA. on a un interprétation.e. 0. > arima(diff(X). order = c(1. order = c(1. 0)) Call: arima(x = X. Mais cette fois.343:log likelihood = -1565.3566 2.0486 sigma^2 estimated as 0. xreg = 1:length(X)) Coefficients: ar1 1:length(X) 0.82 Si on fait de la prévision (détaillée plus loin dans ces notes de cours). 1. xreg=1:length(X)) Call: arima(x = X.63 Mais cet estimation n’a rien à voir avec ce qui a été simulé. 1.0160 sigma^2 estimated as1. 1.0519 s.e. mais la moyenne du processus différencié. 0)) Call: arima(x = diff(X). > arima(X.0295 0. c’est que la constante est la pente de la tendance ! Si on estime la pente associée a . 0. 0)) Coefficients: ar1 0.6 Les estimateurs proposés évoquent des choses que l’on a pu voir. on écupère la même valeur. 0. order = c(1.8616 s. 0)) Coefficients: ar1 intercept 0.

φp ) ..2 Estimation pour les modèles AR (p) par la m éthode des moindres carrés Un modèle AR (p) s’écrit Xt = c + φ1 Xt−1 + .rev(Xp1$pred-2*Xp1$se)).type="l") polygon(c(1001:1020...1020). 0)) ARIMA2=arima(X..col="blue".4..20.newxreg= (length(X)+1):(length(X)+20)) plot(960:1000.Xp1$pred. . φ1 . c(Xp1$pred+2*Xp1$se.20) Xp2=predict(ARIMA2. L’estimation des paramètres du modèle X = Z 0 β + ε par la méthode des moindres carrés donne 2 X 1 −1 βb = (ZZ 0 ) ZX et σ b2 = Xt − Zt0 βb . Xt−2 .lwd=2) alors qu’avec le modèle prenant en compte la constante > lines(1001:1020.. xreg=1:length(X)) Xp1=predict(ARIMA1. . 0). φ2 .col="red". + φp Xt−p + εt où (εt ) est un bruit blanc.xlim=c(960. Xt−1 . 1.X[960:1000].lwd=2) 7. = Zt0 β + εt où Zt0 = (1. Xt−p ) et β 0 = (c.. T − (p + 1) 164 .rev(1001:1020)). order = c(1. col=CL[3].border=NA) lines(1001:1020.. 1. order = c(1.Xp2$pred.> > > > + > > + + > ARIMA1=arima(X.

4.. Les erreurs étant normalement distribuées et indépendantes (le processus (εt ) est. et de plus  √   1 L T βb − β → N 0. 2 2 2 2σ   n n n 1/n 0 1/n 0 = − log 2π − log (e e) − log |det H| = − log |det H| e e |det H| . Soit H la matrice triangulaire inférieure. . à éléments positifs sur la diagonale telle que HH 0 = Ω (décomposition de Cholesky). 7.. Soit alors e le vecteur tel que e = H −1 X.. Une autre écriture. Newbold a proposé une autre expression de cette vraissemblance. q) Pour déterminer la vraissemblance.. . et du déterminant. ε0 )0 .. . Si la méthode des moindres carrés peut être utilisée pour estimer les paramètres d’un modèle AR (p). plus facile à calculer. Xn ) . L X = (X1 . 2 2 2 La  méthode du maximum  de vraissemlance revient alors à chercher le minimum de ` = 1/n 0 1/n |det H| e e |det H| . (X1 ... de Ω.  Toutefois. elle ne marche plus dès lors que l’on a des termes autorégressifs sur les résidus... φ. εn ) est un vecteur gaussien. relativement proche est possible dans le cas des processus M A (q).. Xn )0 .. surtout lorsque n devenait relativement grand. σ = 2σ (2πσ 2 )n/2 [det Ω]1/2 où σ 2 Ω est la matrice (n × n) des covariances du vecteur X = (X1 . ... σ 2 V où V = p lim ZZ 0 . 165 . en particulier à cause du calcul de l’inverse Ω−1 .. Proposition 228.3 Vraissemblance d’un processus ARM A (p. Il est toutefois possible de montrer le résultat suivant. La log-vraissemblance du modèle s’écrit alors 1 1 1 n log L = − log 2π − log σ 2 − log |det Ω| − 2 X 0 Ω−1 X. il est nécessaire de supposer connue la loi des erreurs : nous supposerons les erreurs normalement distribuées. . et même le calcul de cette vraissemblance étaient relativement difficile il y a quelques années. εn )... . La maximisation. θ. ε∗ = (ε1−q .. les résultats usuels d’économétries ne sont pas vérifiés ici. par hypothèse un bruit blanc). ε−1 .. Xn ) étant obtenues par combinaisons linéaires des composantes du vecteur (ε1 ... le vecteur (ε1 .. en particulier E βb = 6 β. Xn ) sera un vecteur gaussien :    1 1 0 −1 1 0 2 exp − 2 X Ω X . Les composantes du vecteur (X1 . . T →∞ T Remarque 229. Si les racines du polynôme charactérisque (racines de Φ (z) = 0) sont à l’extérieur du disque unité alors P P βb → β et σ b2 → σ 2 . Soit ε∗ le vecteur d’innitialisation des erreurs.

Dans le cas d’un modèle AR (1). XT ) = − (Xt − c − φXt−1 )2 .permettant d’engendrer la série x1 . V (Xt )) soit Xt ∼ N c σ2 . 2 2 2 2σ 2 Et finallement. avec |φ| < 1. puisqu’on peut écrire σ 2 = S (θ) /n. xn .. la vraissemblance conditionelle du modèle est alors donnée par L (β|X1 .. . En posant β = (c. On peut alors écrire = ε = N X + M ε∗ . L’initialisation des erreurs s’estimant par εb∗ = − (M 0 M )−1 M 0 N X.. la loi conditionnelle de Xt est donnée par f xt |xt−1 . σ 2 )... ε0 . X1 ) = exp − X1 − . ε1 .. et en notant S (θ) = (N X + M εb∗ )0 (N X + M εb∗ ) . =√ 2σ 2πσ 2 1 c’est à dire que  Xt ∼ N (E (Xt ) . . φ. c. XT ) = T Y t=2   1 2 √ exp − 2 (Xt − c − φXt−1 ) . εn )0 et X. 1 − φ 1 − φ2  . θ. on peut alors montrer que la log-vraissemblance peut s’écrire n 1 S (θ) n log L = − log 2π − log σ 2 − log (det (M 0 M )) − .d.. σ 2 .. .. 2σ 2πσ 2 1 T T −1 T −1 1 X 2 log L (β|X1 . Aussi. . et distribué suivant une loi N (0. la fonction à minimiser s’écrit `∗ = n log S (θ) + log (det (M 0 M )) . . où M est une matrice (n + q) × q et N (n + q) × n... alors  Xt |Xt−1 ∼ N c + φXt−1 . Considérons alors les vecteurs ε (ε1−q . de la forme Xt = c + φXt−1 + εt où εt est i... 2πσ 2 2σ 2 1−φ 166 . ε−1 . σ 2    1 2 exp − 2 (xt − c − φxt−1 ) . σ 2 ). Exemple 230..i.. ln (2π) − ln σ + 2 2 2 2σ t=2 La vraissemblance marginale s’écrivant " r  2 # 1 − φ2 (1 − φ2 ) c L (β.

Xt = εt − θεt−1 . Dans le cas général. et de maximisation de la vraissemblance (exacte). Alors.on en déduit la forme de la log-vraissemblance (exacte. X1 . visant à minimiser la fonction S (θ) dans le cas M A. le second terme dans log Ln devenant négligeable quand n augmente (méthode utilisée sous EViews). = xp sont fixés et connus. alors que dans le cas où des racines du polynôme charactéristique sont sur le cercle unité. L’explication heuristique est que pour les modèles stationnaires.    2 1 1 σ2 (1 − φ2 ) c log L (β. − 2 2 2σ t=2 On peut noter que la maximisation de la vraissemblance exacte est un problème d’optimisation non-linéaire. εt = t−1 X θi xt−i .. et non plus conditionelle). q). . l’effet des valeurs initiales devient asymptotiquement négligeable.4 Résolution du programme d’optimisation Une fois écrite la vraissemblance. . de façon numérique (2) des méthodes de type moindres carrés. la somme des carrés. on suppose que x1 = . pour un processus ARM A (p. Pour les modèles ARM A stationnaires. en supposant ε0 = 0.. les méthodes de maximisation de la vraissemblance conditionnelle. conditionnelle à ε0 = 0 s’écrit " t−1 #2 T T X X X S (θ|ε0 = 0) = ε2t = θi xt−i . les valeurs initiales influencent les échantillons finis..εp+q = 0.4. et donc. sont asymptotiquement équivalentes. 7.. par récurence εt = x t − p X φi xt−i + i=1 q X j=1 167 θj εt−j .. Considérons ici un modèle de la forme M A (1). Critère des moindres carrés conditionnel (M CC) Exemple 231. XT ) = − ln (2π) − ln − X1 − 2 2 1 − φ2 2σ 2 1−φ T  1 X T −1 T −1 ln (2π) − ln σ 2 − 2 (Xt − c − φXt−1 )2 .. visant à mininimiser effectivement la log-vraissemblance log L. pour t ≥ 2. et que εp = εp+1 = . t=1 t=1 i=0 L’équation permettant d’estimer θ n’est pas linéaire. (35) i=0 et donc. Cette équation peut s’écrire εt = xt + θεt−1 . deux méthodes sont alors possibles (1) des méthodes exactes..

. . que l’on notera. De façon anologue à (35). εt−q . i=1 Là encore... Critère du maximum de vraissemblance conditionelle (M V ) Pour utiliser la méthode du maximumum de vraissemblance. εT )0 est donnée par ! T X 1 1 exp − 2 ε2t .. en considérant les innovations en temps inversé εt . l’équation permettant d’estimer θ n’est pas linéaire. f (ε1 .La somme des carrés conditionnelle aux valeurs initiales s’écrit #2 " q p T T X X X X 2 θj εt−j . xt−j−p et des εt−j−1 . en −∞. σ 2 ). La vraissemblance conditionnelle est obtenue de la façon suivante : La densité de ε = (ε1 . Xt = εt − θεt−1 . les valeurs initiales doivent être obtenues.. on peut obtenir les εt en utilisant (35).. On supposant εT +1 = 0.. on peut écrire x b0 = − T X θ t xT . φi xt−i + S (θ|ε0 = 0) = εt = xt − t=1 t=1 j=1 i=1 où les εt−j peuvent être écrits en fonction des xt−j . On obtient alors une expression (non conditionelle) de la somme des carrés des résidus S (θ) = T X t=1 ε2t == " t−1 T X X t=1 i=0 θi xt−i − θt T X #2 θ i xi . 168 .. il est nécessaire de faire des hypothèses sur la loi des εt : ce sont des variables indépendantes. théoriquement. t=1 En posant alors ε0 = x b0 .εT −1 = xT + θεT . De façon rétrospective. εT ) = T /2 2 2σ t=1 (2πσ ) On supposera connues les valeurs initiales x∗ et ε∗ ..etc. Critère des moindres carrés non conditionnel (M CN ) Exemple 232. Un des problèmes de cette méthode est que. on peut ainsi défiir x b0 = −θε1 . . La densité de x peut s’exprimer conditionellement à ε∗ et x∗ .. Ceci impose de faire une approximantion sur la base d’un critère d’arrêt portant sur la convergence numérique de la récurrence. Xt = εt − θεt+1 . . dans le cas de processus comprenant une part autorégressive. et de même loi N (0. on détermine récurviement εT = xT . Considérons ici un modèle de la forme M A (1).... ..

avec un critère de type M CC. d’un modèle M A (1).Programme d’optimisation Nous allons ici nous limiter à un cas simple. on estime θi+1 en fonction de θi en utilisant . et on va mettre en place un algorithme convergent vers la vraie valeur θ. On part d’une valeur initiale θ0 . A la i + 1-ème étape.

∂S (θ) .

.

∗ ∗ S (θi+1 ) = S (θi ) + [θi+1 − θi ] g (θ ) où g (θ ) = . ∂θ .

s’il est difficile à évaluer peut être remplacé par une différence de la forme [S (θi + µ) − S (θi )] /µ avec µ petit.050 4.616 1.001 et µ = 0. on minimise la fonction S (θ) en choisant θi+1 de telle sorte que θi soit de signe opposé au gradient de S (θ) en θ∗ . on choisit θi+1 = θi − λg (θi ) avec λ > 0 et ainsi.031 1.575 5 7.524 θi + µ −0.303 0.000 2.636 4 2.823 1.000 5.322 6.070 4.01 = 6.001 1.271 1.516 0.706 θi −0.23 −0.514 θi −0. D’où la somme S (θ0 + µ) = 161. Alors X1 = 5.913 2.223 6.225.582 1.06.478 2. Dans le cas des modèles moyennes mobiles (M A).00 161.44 72.606 1.229 1.654 0.05 × 0.696 θi −0.000 5.000 6.214 6.821 59. Cet algorithme se répète à l’étape suivante.114 1.880 19.06 −0.651 2.000 5.601 3 3.16 76.000 3.700 1.861 0.880 θi −0.000 θi + µ 0.458 d’où finallement θ1 = −0.222 302..05.01 −0.888 4.575 1.521 4.572 1.331 6.900 4.378 3.061 1.473 6.279 S (θi ) 159. S (θi+1 ) < S (θi ). (i) θ0 = 0 et θ0 + µ = 0.451 6. Ces deux constantes λ et µ.742 0.996 1.312 6.22 119.000 5.000 5.870 θi −0.000 7. 7.900 θi −0.649 1. + 72 + 62 = 159.905 En allant jusqu’à l’étape 10.592 1. l’algorithme du filtre de Kalman peut être utilisé. 2.945 0. 6.020 6.07 72. Mais comme θ∗ est inconnu.73 −0. propres à l’algorithme.000 5. 6).61 88.905.442 1..457 0. on obtient θ = −0. par exemple λ = 0.896 1.811 θi −0.988 3..000 2 6. Aussi.000 5.256 1.212 θi −0. peuvent être fixée initialement. en considérant que εt (ou εt−1 ) est inobservable.97 73.289 6.000 5.66 72.000 5.815 0. on obtient g (θ0 ) = 222. .600 1.679 6.010 θi −0.472 2. Alors S (θ0 ) = 52 + 62 + .119 0.etc.000 5. 3.02 −0.31 72..356 1.01.271 1.650 6. Aussi.890 1 5.46 −0.70 86. Considérons un cas relativement simple avec 6 observations (5.501 1.821 θi −0. Le gradient. et les résultats sont alors itération i 0 1 2 3 4 5 6 θi θi 0.000 5.804 0.64 72.377 1. La méthode d’estimation 169 .444 1.509 6 6.68 122. X3 = X3 + (θ0 + µ) × X2 = 3 + 6.000 5. Exemple 233.θ=θ∗ où θ∗ est compris entre θi et θi+1 .524 181.42 75.706 115.01 = 3.702 2.222.536 6. et cherchons θ tel que Xt = εt + θεt−1 .32 −0. (i) (i) (i) (i) X2 = X2 + (θ0 + µ) × X1 = 6 + 5 × 0.01 g (θi ) θi+1 222.01.146 0.222 θi + µ −0.000 5.599 0.000 6.

Le raisonnement est alors le suivant : .d. Les variables peuvent ici être de dimension supérieure à 1. La fonction de vraissemblance conditionnelle est Yt |εt−1 ∼ N (µ + θεt−1 . ηt ) V (ηt ) On dira alors  (Zt ) : état du système à la date t : inobservable     (Yt ) : observations du système à la date t : observable      (εt ) : innovations du système à la date t : inobservable (ηt ) : erreurs de mesure (ou bruit) en t : inobservable   (A  t ) : matrice de transition    (C ) : matrice de mesure    t (Ct Zt ) : signal à la date t 170 . La matrice de variance-covariance     εt V (εt ) cov (εt .. p) est indépendant des (εt .on suppose que ε0 = 0. σ = √ exp − [Yt − µ − θεt−1 ] 2 2πσ 2 Le problème est que εt−1 est ”inobservable”. et suit une loi N (0... où Z0 ∼ N (m. θ.Y1 = µ + ε1 + θε0 = µ + ε1 donc ε1 = Y1 − µ . ηt )0 . σ 2 ). ηt )0 est un bruit blanc normal Yt = Ct Zt + ηt : équation de mesure où At et Ct sont déterministes.Y2 = µ + ε2 + θε1 donc ε2 = Y2 − µ − θ (Y1 − µ) .i. ηt ) V =Ω= ηt cov (εt . µ.. σ 2 ) ..est alors la suivante : (Yt ) suit un modèle de la forme Yt = µ + εt + θεt−1 où εt est i. . σ 2 ) et    1 1 2 2 f yt |εt−1 .Yt = µ + εt + θεt−1 et donc εt = (Yt − µ) − θ (Yt−1 − µ) + . + (−θ)t−1 (Y1 − µ) (36) (on peut reconnaître la version tronquée de la représentation AR (∞) du processus M A (1)) La log vraissemblance conditionelle est T  T T 1 X 2 2 ε où εt est donnée par (36) − ln (2π) − ln σ − 2 2 2 2σ t=1 t Compléments : introduction au filtre de Kalman Un modèle espace-état est défini par le système d’équation  Zt+1 = At Zt + εt : équation d’état où (εt . alors Y1 |ε0 ∼ N (µ. avec |θ| < 1.

on introduit une seconde itération : on cherche    (  t Mt+h = V t Ybt+h − Yt+h b t Yt+h = E (Yt+h |Y0 ..t Σt+1 . Pour une prévision à l’ordre h. ainsi que de (c) et (c ).. On notera    0    Zt −t Zbt Zt −t Zbt : erreur quadratique du filtre sur Zt en t  t Σt = E   b t−1 Zt = E (Z t |Y0 .Le filtre de Kalman permet de calculer t Zbt = E (Zt |Y0 ... Dans le cas où cov (εt . on peut alors calculer les t Zbt à l’aide de (a) et (a0 ) . . ..A0t + Q (b) t Zbt+1 = At .t Zbt+1 0 t Mt+1 = Ct+1 .t Zbt où −1 Kt =t−1 Σt . puis 0 0 b t Σt et t Yt+1 à l’aide de (b) et (b ).t Σt+h . Yt ) la prévision de Zt .. des méthodes similaires peuvent être utilisées. . alors. . pour tout t ≥ 0. h i (  0 (a) t Zbt =t−1 Zbt + Kt Yt − Ct . De façon récursive....Ct0 + R) : matrice de gain du filtre à la date t On peut alors en déduire directement les formules de calcul de prévisions de la variable  observée : soit t−1 Ybt = E (Yt |Y0 .t Σt .t Zt+h−1 171 .t Zt+h t Mt+h = Ct+h . Yt )   et b  t Σt+h = V t Zbt+h − Zt+h t Zt+h = E (Zt+h |Y0 . en introduisant le résidu de la régression de (εt ) sur (ηt ).Ct+1 + R Dans le cas dit ”stationnaire”.. ηt ) = 0. Yt−1) : prévisionde  Zt faite en t − 1   0    t−1 Σt = E Zt −t−1 Zbt Zt −t−1 Zbt : erreur quadratique moyenne de prévision Dans le cas où cov (εt . et on prend généralement −1 Zb0 = E (Z0 ) = m et −1 Σ0 = V (Z0 ) = P ..t Σt+h−1 .. Dans le cas où les bruits sont corrélés. on a les formules de récurrence (  0 b b t Yt+h = Ct+h .Ct0 (Ct . c’est à dire quand At = A et Ct = C alors le modèle se réécrit  Zt+1 = AZt + εt Yt = CZt + ηt Le filtre doit être initialisé. Yt−1 ) et t−1 Mt = V Yt −t−1 Ybt alors (c) (c0 ) t Yt+1 b = Ct+1 . .At+h−1 + Q t Zt+h = At+h−1 . Remarque 234.Ct+h + R et b b t Σt+h = At+h+1 . le filtre de covariance. Yt ) (pour h = 1 on retrouve le filtre de covariance). ηt ) = 0...t−1 Σt ..t−1 Zbt (a ) t Σt = [I − Kt Ct ]t−1 Σt et (b0 ) t Σt+1 = At .

et (c) et (c0 ) (iv) si h < H (horizon de prévision). 0.max=3.t Zt+1 .k]). et par maximum de vraisemblance est en mauve. Comparaison des différentes méthodes d’inférence Commençons par étudier (sur des simulations) l’estimation des paramêtres φ = (φ1 . De façon analogue.t Σt .col="purple") i.8.col="blue") lines(density(CFMLE[.t Ut −1 où Mt = Nt (Nt + Q−1 ) 7.-. par moindre carrés en bleu. alors h = h + 1 et (iii) . la distribution de ϕ bk par Yule-Walker est en rouge.5000.lwd=2.]=ar(X.n=240) CFYL[s. observation de Yt+1 .main="Composante 1 AR") lines(density(CFOLS[.method="ols")$ar[1:3] CFMLE[s.8.]=ar(X.3) for(s in 1:5000){ X=arima.k]).e.sim(list(ar=c(. sinon fin Remarque 235.lwd=2.k]). et on alors les relations (  0 −1 0 −1 bt =t−1 U bt + C 0 R−1 Yt (α) t U (α ) t Σ−1 t =t−1 Σt + Ct R Ct t et −1 bt+1 = [I − Mt ] A0−1 b (β 0 ) t Σt+1 = [I − Mt ] Nt (β) t U t .La procédure itératif prend alors la forme suivante : (i) initialisation : t = 0.t Zt et t Ut+1 =t Σt+1 .lwd=2.order.5).At . −0. h = 1.method="mle")$ar } plot(density(CFYL[.max=3. φ = (φ1 . φ3 ) pour un modèle AR(3).4.5 −1 −1 et Nt = A0−1 t .max=3. on pose −1 Zb0 = E (Z0 ) = m et −1 Σ0 = V (Z0 ) = P (ii) formules (a) et (a0 ) (iii) formules (b) et (b0 ). Xt = 0. > > + + + + + > > > CFYL= CFOLS= CFMLE=matrix(NA.e.8Xt−1 − 0.order.order. φ3 ) = (0. φ2 .5Xt−3 + εt . 172 .method="yw")$ar CFOLS[s. basé sur −1 b −1 b b b t Ut =t Σt . sinon (v) (v) si t < T alors t = t + 1 et h = 1. i. on peut utiliser le filtre d’information. et (ii). φ2 .]=ar(X.5)).0.col="red".

Si le bruit n’est plus un bruit blanc..order.]=ar(X.max=3. Il convient ensuite de vérifier que le processus εt est effectivement un bruit blanc.8. ce qui peut conduire à des erreurs lors des prévisions.8Xt−1 − 0.. la distribution des coefficients AR est alors biaisée > > + + + + + CFYL= CFOLS= CFMLE=matrix(NA.ma = c(. il est possible d’utiliser la statistique de Box & Pierce (Q) ou la statistique de Ljung & Box (Q0 ) définies par Q (k) = n k X i=1 ri2 k X ri2 et Q (k) = n (n + 2) . il y a redondance. Comme lors d’une regression linéaire. Par exemple.4. = ρ (h) = 0).method="yw")$ar CFOLS[s.n=240) CFYL[s.6)).order.5000.2) Xt = 0..max=3.method="mle")$ar } 7.4εt−1 + 0.order.6 Tests statistiques de validation du modèle Après avoir estimé les paramètres p et q d’un modèle ARM A. n−i i=1 0 qui sont à comparer aux quantiles du chi-deux à k − (p + q) degrés de liberté (l’hypothèse H0 testée étant ρ (1) = .0. 173 . Par exemple le test de Student des paramètres permet de vérifier que les paramètres sont bien significatifs.sim(list(ar=c(. il convient de vérifier que les polynômes AR et M A ne possèdent pas de racine commune. Lorsque c’est le cas.3) for(s in 1:5000){ X=arima.max=3.5Xt−3 + εt + 0. Pour tester l’absence d’autocorrélation de εt . Il convient alors d’estimer les paramètres processus ARM A avec moins de retards (ou d’autres types de retards).-.]=ar(X. mais que le vrai processus simulé est un processus ARMA(3.4. pour vérifier que la moyenne est nulle. on compare la moyenne ε à √ tα/2 σ b/ n − p − q dans le cas d’un processus p+q. un certain nombre d’indicateurs sont intéressants.method="ols")$ar[1:3] CFMLE[s.5).]=ar(X.6εt−2 .

correspondant à une normalisation de la variance 2 (iii) le coeffivient de détermination modifié R (iv) la statistique de Fisher (comme dans le cas du modèle linéaire) Le but est alors de minimiser (i). 174 . les trois autres indicateurs sont plus élevés dans le premier cas que dans le second. ou un modèle AR (4).014) (0.3722 Le modèle [1] semble meilleur que le modèle [2] : la variance du résidu est plus faible.18287 1119. I. l’erreur de prévision à horizon 1 dépend de la variance du résidu. mais de plus.162 Xt−1 + 0.116Xt−1 (0.767Xt−1 + εt − 0.019) (0. L’écart entre la vraie loi et le modèle est donné par Z f0 (x) I (f0 .579 1. 1) à gauche.02751 0. f ∈ F} la famille des densités parmi lesquelles ont fait l’estimation. à droite soit   [1] : Xt = 0. à partir de T observations.2 Critère d’information Cette approche a été introduite par Akaïke en 1969.5.18304 0.463εt−1 (0.7.1 Choix d’un modèle Critère de pouvoir prédicitf Comme nous le verrons par la suite.5. Cette mesure étant inconnue puisque f0 est inconnue. modèles ARM A (p. Dans l’exemple ci-dessous. considérons les 2 modèles suivants : un modèle ARM A (1. Cette mesure de l’écart entre le modèle proposé et la vraie loie peut être obtenue à l’aide de la quantité d’information de Kullback. F) = min log . on essaiera de minimiser un estimateur b Plusieurs estimateur de la quantité d’information ont été proposé.) . et ne s’annule que si f0 appartient à F. Exemple 236.303Xt−1 + 0.f0 (x) dx f ∈F f (x) Cette quantité est toujours positive. Soit f0 la densité inconnue d’observations.01737 0. ou de maximiser (ii) .026)  [2] : Xt = 0. ou la somme des carrés des résidus SCR (ii) le coefficient de détermination R2 .226Xt−1 +0. Plusieurs indicateurs sont alors possibles : (i) la variance du résidu σ 2 .014) Nous obtenons les indicateurs suivants 2 [1] [2] σ2 R2 R F -stat 1. Définition 237.17455 353.014) (0. On peut alors choisir le modèle conduisant à la plus petite erreur de prévision. et {f (. 7.014) (0. (iii) ou (iv). dans le cas de de I. q).17505 0. dans un modèle ARM A.5 7.

157. avec un écart-type empirique valant 169. q) = log σ b2 + [p + q] log T T (iii) Hanna-Quinn (1979) : φ (p.6 Application Nous allons essayer ici de modéliser la série mensuelle du nombre de voyageurs SNCF. q) = log σ b2 + 2 p+q T (ii) Schwarz (1977) : BIC (p. Néanmois. 175 . 7. la moyenne mobile Θ (L) = (1 − θ1 L) (1 − θ2 L12 ) s’écrit Θ (L) εt = εt − θ1 εt−1 − θ2 εt−12 + θ1 θ2 εt−13 admettant des autocorrélations ρ (h) non nulles pour h = 1. De plus. La série Yt = (1 − L) Xt présente alors de fortes corrélations pour les retards multiples de 12 (nous retrouvons ici la saisonnalité annuelle longuement développée dans les premières parties) La série Zt = (1 − L12 ) Yt = (1 − L) (1 − L12 ) Xt semble cette fois-ci stationnaire. Ce type de représentation est confirmé par la forme de l’autocorrélogramme partiel : une modèlisation de type AR nécessiterait d’introduire un trop grand nombre de termes (les 5 premières valeurs de l’autocorrélogramme partiel étant significativement non-nulles). 11.027968 pour le modèle AR (4) .(i) Aikaïke (1969) : AIC (p.1 Identification du modèle : recherche des paramètres d. la présence de fortes valeurs pour ρ (1) et ρ (12) suggère d’introduire une moyenne mobile de la forme (1 − θ1 L) (1 − θ2 L12 ). le modèle ARM A est préféré au modèle AR. Ici encore. composée de 204 observations peut être représentée par Compte tenu de la significativité des premières autocorrélations (ou tout du moins le fait qu’elles sont significativement non-nulles pour les 40 premiers retards) suggère de différencier au moins un fois la série. p et q La série. En effet. Enfin. q) = log σ b2 + [p + q] c log (log T ) avec c > 2 T Exemple 238. l’hypothèse de processus centré (ne nécessitant pas d’introduire .de constance ou de tendance linéaire) semble également validée. 13 (ce qui est confirmé par le graphique des autocorrélations). 7. 1) contre 0. la moyenne des Zt vaut −0.a priori . En reprenant l’exemple précédant un critère d’Akaïke (AIC sous EViews) de 0. 12.6.017628 pour le modèle ARM A (1.

    12 12 εt 1 − 0. En particulier.0402) (0. ou SARIM A.4926εt−12 + 0.8344L (0. D’où finallement le modèle.2 Estimation du modèle ARIM A Le modèle retenu est un modèle ARIM A.8344εt−1 − 0.6.0687) Xt = Xt−1 + Xt−12 − Xt−13 + εt − 0. sous EViews) ne permet pas d’intégrer la contrainte ν = λµ. 176 .96) : ce deux coefficients sont significatifs.6. Toutefois. il serait bien sûr possible d’améliorer le modèle. de la forme   (1 − L) 1 − L12 Xt = (1 − θ1 L) 1 − θ2 L12 εt où E (εt ) = 0 et V (εt ) = σ 2 Les trois paramètres à estimer sont θ1 .3 Vérification On peut tout d’abord noter que les rapports de Student des 2 paramètres θ1 et θ2 sont respectivment 21 et 7 (≥ 1. cette estimation (à gauche. Une méthode basée sur les moindres carrés permet d’estimer les 3 paramètres de εt − λεt−1 − µεt−12 + νεt−13 : Toutefois.7.4926L (1 − L) 1 − L Xt = 1 − 0. on peut noter que les résidus présentent des pics au niveau de l’autocorrélogramme pour les h multiples de 6.4110εt−13 7. θ2 et σ 2 .

+ φ Exemple 240.. . (iii) T XT∗ +3 = µ + φ. faite à la date T est EL (XT +1 |XT .. + φp XT +h−p + εT +h . Aussi. on peut écrire   µ 1 − φh µ h ∗ + φ XT − =µ + φh XT . observée entre 1 et T ..+φh−1 177 . Alors de façon récursive T YT∗+h = φ. toutes les racines des polynômes autorégressifs Φ et des polynômes moyennes-mobiles Θ auront leurs racines à l’extérieur du disque unité. alors Yt = φYt−1 + εt .T YT∗−1 +h .. on cherche à faire de la prévision à horizon h. et donc T XT∗ +h = EL (XT +h |XT .. + φp Xt−p + εt ou Φ (L) Xt = εt La prévision optimale à la date T + 1. Une méthode alternative est de considérer le processus centré Yt = Xt − ∗ µ/φ... XT +h = φ1 XT +h−1 + . de façon récursive par  φ1 .8 Prévisions à l’aide des modèles ARIM A : Jenkins Box- Etant donnée une série stationnaire (Xt ). T XT +h = µ + φ.. . + φh−1 .T XT∗ +1 + φh XT + . Tous les processus AR. XT −1 . ∗ T XT +1 ∗ T XT +1 = = φ1 XT + . et donc à prévoir XT +1 . 8.1 Prévisions à l’aide d’un modèle AR (p) Le modèle s’écrit..T XT∗ +h−1 + . Xt = φ1 Xt−1 + . + φp ..T XT∗ +h−1 + .).T XT∗ +h−p pour h > p Exemple 239. + φp XT −p car (εt ) est l’innovation.... + φp XT +h−p pour h ≤ p ∗ X = T T +h φ1 .. (ii) T XT∗ +2 = µ + φ.T XT∗ +1 = µ + φ [µ + φXT ] = µ [1 + φ] + φ2 XT .. Aussi..T XT +h−1 = µ 1 + φ + φ + .. M A et ARM A seront supposés mis sous forme canonique. . on peut obtenir T XT∗ +h de la forme   ∗ ∗ 2 h−1 + φh XT . et donc T YT +h = h φ YT . pour tous les processus Xt tels que Φ (L) Xt = Θ (L) εt . εt sera l’innovation du processus Xt . XT +h .. Dans le cas d’un processus AR (1) tel que Xt = µ + φXt−1 + εt alors (i) T XT∗ +1 = µ + φXT ..T XT∗ +2 = µ + φ [µ + φ [µ + φXT ]] = µ [1 + φ + φ2 ] + φ3 XT .. quite à recentrer le processus... et récursivement. De façon analogue.) est donné. Ainsi. T XT +h = φ φ 1−φ | {z } 1+φ+φ2 +. Aussi.. XT −1 . et n’avoir aucune racine unité.

faite à la date T est T XT∗ +1 = EL (XT +1 |XT .) b∗ et on approxime T XT∗ +h par T X T +h b∗ T XT +h = h−1 X b∗ ak .. T X T +h−k + k=1 T +h X k=h 178 ak XT +h−k .) car (εt ) est le processus d’innovation. La prévision optimale à la date T + 1. . On utilise alors l’écriture suivante ∞ h−1 ∞ X X X ak XT +h−k + εT +h . + θq εT +h−q pour h ≤ q ∗ (37) T XT +h = 0 pour h > q....) = EL (XT +1 |εT . 8.8.. en pratique. k=T +h+1 | {z Négligeable (hyp. a priori non observables. .. Toutefois. XT −1 ...2.T XT∗ +h−k + k=1 ∞ X ak Xt+h−k k=h Toutefois. et donc  θh εT + .) = EL (XT +h |εT .. On peut alors considérer. . XT +h est estimé par T XT∗ +h = EL (XT +h |XT .. et non pas du passé de la variable. satisfaisant Xt = εt + θ1 εt−1 + .. un des problèmes est que les (Xt ) ne sont pas observés. εT −1 . εT −1 . } .T XT∗ +h−k k=1 + T +h X ∞ X ak XT +h−k + k=h ak XT +h−k .. soit ∞ ∞ X X ak Xt+h−k + εt+h pour tout h ≥ 0 ak Xt−k + εt et donc Xt+h = Xt = Aussi.). + θq εT +1−q De façon analogue.1 Utilisation de l’écriture AR (∞) du processus M A (q) L’équation Xt = Θ (L) εt peut se réécrire Θ−1 (L) Xt = εt . quand T est suffisement grand que ∗ T XT +h = h−1 X ak .2 Prévisions à l’aide d’un modèle M A (q) On supposera là aussi que l’on s’est ramené à un processus centré (Xt ). k=1 ∗ T XT +h peut k=1 être écrit de façon itérative ∗ T XT +h = h−1 X ak . Aussi. .. ∗ T XT +1 = 0 + θ1 εT + . XT +h = ak XT +h−k + εt+h = ak XT +h−k + |k=h k=1 k=1 {z } Reste d’une série ACV où le reste de la série absolument convergente tend (au sens de L2 ) vers 0 quand T → ∞. pour t < 0.. cette méthode présente le désavantage d’estimer XT +h à partir des résidus passés. + θq εt−q = Θ (L) εt . XT −1 .

Xt = ∞ X k=1 ak Xt−k + εt et donc Xt+h = ∞ X k=1 179 ak Xt+h−k + εt+h pour tout h ≥ 0. Dans le cas d’un processus non centré.) = EL (XT +h |εT . de se ramener à un processus centré (pour des processus ARM A seulement).T XT∗ +h−1 + . on peut noter que T +1 XT∗ +h =T +1 X(T +1)+(h−1) et donc  θh−1 εT +1 +T XT∗ +h pour h ≤ q + 1 ∗ = X T +1 T +h 0 pour h > q + 1. T XT∗ +1 avec la vraie valeur : XT +1 −T XT∗ +1 = εT +1 . En se plaçant à ∗ la date T + 1. .. on peut noter que EXt = µ/Φ (1) = m. 8. . La forme générale des solutions est connue (comme dans le cas des AR (p)). . On peut noter que pour h > q  φ1 . εT −1 . et donc. Toutefois. comme dans le cas des processus M A (q).3.. Il est donc toujours possible. Sous cette forme ARM A. j=1 On a alors T XT∗ +h = EL (XT +h |XT . il y a ici un problème d’initialisation des calculs.3   =T XT∗ +h + θh−1 XT +1 −T XT∗ +1 : Formule de mise à jour Prévisions à l’aide d’un modèle ARM A (p. + φp .) car εt est le processus d’innovation. q) L’équation Φ (L) Xt = Θ (L) εt peut se réécrire Θ−1 (L) Φ (L) Xt = εt ..2 Utilisation de la formule de mise à jour des résultats L’idée est ici de comparer l’estimation faite en T de XT +1 .. q) On supposera là aussi que l’on s’est ramené à un processus centré (Xt ).T XT∗ +h−p pour h > p.1 Utilisation de la forme AR (∞) pu processus ARM A (p.T XT∗ +h−1 + . + φp XT +h−p pour h ≤ p ∗ T +1 XT +h = φ1 . en translatant le processus. pour h ≤ q + 1 ∗ T +1 XT +h 8. Φ (L) Xt = µ + Θ (L) εt . La relation (37) permet d’obtenir une estimation.. + φh−1 .. satisfaisant Φ (L) Xt = Θ (L) εt Remarque 241. XT −1 .2.8. à la date T de XT +h .T XT∗ +1 + φh XT + . et que Φ (L) (Xt − m) = Θ (L) εt .... c’est à dire.. alors Xt = p X φi Xt−i + εt + i=1 q X θj εt−j et donc Xt+h = j=1 p X φi Xt+h−i + εt+h + i=1 q X θj εt+h−j .

.. en ne tenant pas compte du second terme. |k=h {z } négligeable dans L2 d’où la forme itérative. q) et des formules de mise à jour 8..) est une caractérisation du fait que εt est l’innovation du processus Xt ..).. 180 . j=1 = L2 (εt ....4 ∗ =T +1 X(T +1)+(h−1) .. = εt + ∞ X bj εt−j . ε−1 . ..et de la même façon que pour la modélisation AR (∞) des processus M A (q)..2 L’équation Φ (L) Xt = Θ (L) εt peut se réécrire Xt = Φ (L)−1 Θ (L) εt soit encore Xt = εt + θ1 εt−1 + . d..... .) EL (XT +h |XT .. . . . q) peut s’écrire Xt = p+d X i=1 ψi Xt−i + εt + q X θj εt−j et donc Xt+h = j=1 p+d X i=1 14 ψi Xt+h−i + εt+h + q X θj εt+h−j . d. La forme ARIM A (p. εt−1 .).) = EL (XT +h |εT . Xt−1 . on peut réécrire XT +h = ∞ X ak XT +h−k + εt+h = k=1 h−1 X ak XT +h−k + k=1 ∞ X ak XT +h−k + εT +h . j=1 Cette propriété L2 (Xt . ε−q )0 . soit ∗ T XT +h = ∞ X peut écrire ∗ T XT +h = bj εt+h−j . . Xt−1 .) = L2 (εt . Prévisions dans le cas d’un processus ARIM A (p. εT −1 . obtenue par approximation. q) On considérons ici (Xt ) satisfaisant une équation de la forme Φ (L) (1 − L)d Xt = Θ (L) εt avec les conditions initiales Z = (X−1 . εt−1 .. j=h De plus.. b∗ T XT +h = h−1 X b∗ ak . k=h Utilisation de la forme M A (∞) pu processus ARM A (p. X−p−d . XT −1 . . on peut écrire   =T XT∗ +h + bh−1 XT +1 −T XT∗ +1 : Formule de mise à jour.3.. puisque ∗ T +1 XT +h ∗ T +1 XT +h 8... on Puisque14 L2 (Xt . T X T +h−k + k=1 T +h X ak XT +h−k . + θq εt−q + . négligeable dans L2 . Posons alors Ψ (L) = Φ (L) (1 − L)d ..

T XT∗ +h−i + 0 + T XT +h =  T ε∗T +h−j = j=1 i=1 εT +h−j pour j ≥ h En particulier. Alors  q p+d  T XT∗ +h−i =XT +h−i pour i ≥ h X X ∗ 0 pour j < h θj . i=1 Utilisation de l’approximation AR 8. Soit (Xt ) un processus ARIM A (p. Xt = t X aj Xt−j + f ∗ (t) Z + εt . On peut alors écrire Xt+h = t+h X aj Xt+h−j + f 0 (t + h) Z + εt+h . . . ∗ T XT +h = EL (Xt+h |XT .T XT∗ +h−j + f 0 (T + h) Z + 0.. j=1 et ainsi. pour h ≥ q.. d’où l’approximation b∗ T XT +h = h−1 X b∗ ak . Or la limite de f (t) est 0 quand t → ∞. j=1 où les aj sont les coefficients (pour j ≥ 1) de la division selon les puissances croissantes de Φ par Θ. XT −1 .4.. . on obtient une relation de récurence de la forme ∗ T XT +h = p+d X ψi . q) de valeurs initiales Z..T XT∗ +h−i .. X0 . d. Z). Proposition 242. alors (Xt ) peut s’écrire sous la forme AR. X0 .1 Cette approximation est basée sur la propriété (186). et f ∗ (t) est un vecteur (ligne) de fonctions de t qui tend vers 0 quand t → ∞.. rappelée ci-dessous. XT −1 . T XT∗ +h = EL (XT +h |XT .T ε∗T +h−j où ψi . Z) = t+h X aj .Notons T XT∗ +h la prévision faite à la date T . j=1 avec la convention T XT∗ +h−j = XT +h−j pour j ≥ h.T X T +h−k + k=1 T +h X k=h 181 ak XT +h−k .

compte tenu de la limite de g (. . La relation (38) permet alors d’écrire Xt+h = t+h X bj εt+h−j + g 0 (t + h) Z avec lim g (u) = 0. X0 . Xt = t X bj εt−j + g 0 (t) Z..4. i=T +h+1 h X i=0 182 ∞ X bi εT +h−i . b∗ T XT +h = T +h X bj εT +h−j bT∗ +h = et T +1 X j=h T +h X bj εT +h−j .) = L2 (εt .5 Intervalle de confiance de la prévision Cet intervalle est obtenu à partir de la forme M A (∞) dans le cas où (Xt ) est stationnaire. .). εt−1 . ou de son approximation M A dans le cas non-stationnaire (ARIM A). . Z).. j=h d’où les approximations. (38) j=1 où les hj sont les coefficients de la division selon les puissances croissantes de Θ par Φ. εT −1 . Xt−1 ... alors (Xt ) peut s’écrire sous la forme M A.. .. Z) = EL (XT +h |εT .. on peut écrire EL (XT +h |XT . .. soit ∗ T XT +h = T +h X ∗ T XT +h = bj εT +h−j + g 0 (T + h) Z. et g 0 (t) est un vecteur (ligne) de fonctions de t. un processus ARIM A peut être approximé par un processus M A.Utilisation de l’approximation M A 8.2 De la même façon. XT +h = ∞ X i=0 bi εT +h−i = T +h X bi εT +h−i + i=0 et donc b∗ T ∆h = Xt+h −T XT +h ≈ bi εT +h−i . ε0 . Soit (Xt ) un processus ARIM A (p. Proposition 243. XT −1 .. (i) dans le cas stationnaire.. u→∞ j=1 Puisque L2 (Xt .). d. q) de valeurs initiales Z. j=h−1 D’où la relation h i ∗ ∗ ∗ b b b : Formule de mise à jour T +1 XT +h =T XT +h + bh−1 XT +1 −T XT +1 8.

i=0 Sous l’hypothèse de normalité des résidus (εt ). la moyenne du processus Xt . + φ1 + 1 µ + εT +h + φ1 εT +h−1 + .6..d.. sous la forme générale Xt = φ1 Xt−1 + µ + εt ..i. XT −1 . bT∗ +h ± u1−α/2 . 8. fait à la date T .. T XT∗ +h tend vers δ/ (1 − φ1 ). et s est un estimateur de la variance du résidu.La prévision à horizon 1. alors ! h X b ∗ ∼ N 0. De façon plus générale. σ 2 ). s’écrit ∗ T XT +1 = E (XT +1 |XT .1 Prévision pour certains processus AR et M A Prévision pour un processus AR (1) Considérons le processus stationnaire (Xt ). on obtient récursivement la prévision à horizon h.st T X i i=0 où les bbi sont des estimateurs des coefficients de la forme moyenne mobile. H0 : εt i. εt ∼ N (0.6 8. XT +h = ∞ X 0 bi εT +h−i + g (T + h) Z = i=0 T +h X bi εT +h−i + i=0 et donc b∗ T ∆h = Xt+h −T XT +h ≈ ∞ X bi εT +h−i + g 0 (T + h) Z. σ 2 b2 . =T XT∗ +h − φh1 XT + φh−1 + . 1 1 183 .. T ∆h = Xt+h −T X i T +h i=0 d’où l’intervalle de confiance pour XT +h au niveau 1 − α v  u h  uX bb2  . T XT +h = φ1 XT + φ1 (39) On peut noter que quand h → ∞. + φh−1 εT +1 ..(i) dans le cas non-stationnaire (ARIM A)..  h−1  ∗ h + . + φ1 + 1 µ.. . et de façon similaire ∗ T XT +2 = φ1T XT∗ +1 + µ = φ21 XT + [φ1 + 1] µ. i=T +h+1 h X bi εT +h−i .. L’erreur de prévision à horizon h est donnée par T ∆h = T XT∗ +h − XT +h =T XT∗ +h − [φ1 XT +h−1 + µ + εT +h ]    = . X1 ) = φ1 XT + µ....

369 10. .748.391. 8.285 et 10..225 8. où V (εt ) = σ 2 .184.d’où.. en substituant (39).925 11. XT −1 .738 = 10..000 1. Exemple 244. + φh−1 εT +1 .T XT∗ +1 + µ ∗ X = = 10.. .7% ±17.904 11.. 12.332 1.2 Prévision pour un processus M A (1) Considérons le processus stationnaire (Xt ).XT D’où finallement les prévisions suivantes. avec la variance. .888 ±15.739 8.6.333 1. 9. on obtient T ∆h = εT +h + φ1 εT +h−1 + .006 1. X1 ) = E (µ + εT +h + θ1 εT +h−1 ) = µ 184 (40) .168 8.184 10.250 1. XT −1 .738. on obtient à gauche les prévisions suivantes (avec la ”vraie” valeur de Xt ). l’intervalle de confiance. ∗ T XT +h = E (XT +h |XT .7% ±18.738 1 2 3 4 5 6 7 10.313 1.8% ±18. dont les dernières observations ont été 11. X1 ) = µ + θ1 εT où εT est l’erreur de la dernière observation. 1) . fait à la date T . Considérons le processus suivant. et la taille relative de l’intervalle de confiance horizon ∗ T XT +h Vb 90% Binf 90% Bsup IC 90% 0 10.893 11.999 12.8% ±18.007 11.023 10.092 10.328 1..5 ∗ 10. Xt = 5 + 0.012 10. 1 La variance de la prévision croit avec l’horizon.... 10.362 8.369  φ1 . XT −1 .... De façon plus générale. + φ2h−2 σ .046 10.5% ±18.124 11.9% ±18.. on obtient récursivement la prévision à horizon h. à la date T . s’écrit ∗ T XT +1 = E (XT +1 |XT .960 11.333 8. X1 ) = φ1 XT + µ = 5 + 0.5Xt−1 + εt où εt ∼ N (0.8% Graphiquement. La prévision pour la date T + 1 est alors ∗ T XT +1 = E (XT +1 |XT .142 8. T T +2 µ (1 + φ1 ) + φ1 . et à droite la variation relative de l’intervalle de confiance.653.130 8. 1 qui possède la variance   2 Vb = 1 + φ21 + φ41 + . sous la forme générale Xt = µ + εt + θ1 εt−1 La prévision à horizon 1.

ou de Yt = Xt − 5.686 et 5.5 [Yt−2 + 0. processus centré εt = Yt + 0. 185 .822 6.250 1. la constante du modèle. ∞ ∞ X X i = (0.822 6..4% ±36. 5. Xt = 5 + εt − 0.4% ±36.178 3.5 × 0.4% ±36.5) Yt−i = (0. avec la variance.247.000 5. 1) dont les dernières observations ont été 4.178 3.250 1.965.178 3.5εt−1 où εt ∼ N (0.654.5εt−2 ] = Yt + 0.4% ±36. on obtient à gauche les prévisions suivantes (avec la ”vraie” valeur de Xt ).C’est à dire qu’à partir d’un horizon 2.250 1. ∗ T XT +2 =µ=5 D’où finallement les prévisions suivantes.822 6.822 ±24.000 5.7% ±36. Sinon. 4.250 1. Exemple 245. et la taille relative de l’intervalle de confiance horizon ∗ T XT +h Vb 90% Binf 90% Bsup IC 90% 0 5.000 0.5 [Yt−1 + 0. Pour faire de la prévision. X1 ) = µ + θ1 εt = 5 − 0.606 = 3. soit on cherche uniquement à exprimer (εt ) en fonction du passé de (Xt )...3049 et la prévision à un horizon h ≥ 2 est alors µ. l’intervalle de confiance.822 6..654 1 2 3 4 5 6 7 3.000 5.5εt−1 = Yt + 0.000 5. la meilleure prévision est la moyenne du processus.178 3. XT −1 .000 5.304 5..178 3. . L’erreur de prévision à horizon h est donnée par T ∆h =T XT∗ +h − XT +h = εT +h + θ1 εT +h−1 dont la variance est  Vb = 1 + θ12 σ 2 où V (εt ) = σ 2 pour h ≥ 2.4% ±36.489 3.250 1.5εt−3 ]] = .822 6.250 2. la variance est Vb = θ12 σ 2 . et à droite la variation relative de l’intervalle de confiance.4% Graphiquement.178 4. soit on considère la forme AR (∞) du processus. Considérons le processus suivant.5 [Yt−1 + 0.5)i [Xt−i − 5] i=0 i=0 La prévision pour la date T + 1 est alors ∗ T XT +1 = E (XT +1 |XT .250 1. pour h = 1.119 6.

l’erreur de prévision est T ∆2 =T XT∗ +2 − XT +2 = ∗ T YT +1  − YT +1 + ∗ T YT +2  − YT +2 = (1 + θ1 ) εT +1 + εT +2 .. + φ1 + 1 µ T YT +h = φ1 YT + φ1 ∗ ∗ ∗ T XT +h =T XT +1 + φ1 . + φh−2 εT +2 + φh−1 εT +1 1 1  εT +1 . ∗ T XT +2   = 1 + φ1 + φ21 XT − φ1 + φ21 XT −1 + (φ1 + 1) µ + µ. +T YT∗+h . Aussi.. i=1 j=0 L’erreur de prévision sur XT +h est alors l’accumulation des erreurs de prévision de YT +1 ...6.T YT +h−1 + µ.. L’expression générale de la prévision à la date h s’obtient récursivement à l’aide de   h−1  ∗ h + . 0) Il s’agit ici d’un modèle AR (1) pour la variable intégrée Yt = Xt − Xt−1 . En substituant aux T YT∗+i ce qui a été trouvé précédemment pour les processus AR... l’erreur de prévision à horizion h est     ∗ ∗ ∗ ∗ T ∆h = T YT +1 − YT +1 + T YT +2 − YT +2 + T YT +1 − YT +1 + . pour un horizon h = 2. A horizon 2. L’erreur faite sur la prévision à horizon 1 est donnée par T ∆1 =T XT∗ +1 − XT +1 =T YT∗+1 − YT +1 = εT +1 . + T YT +h − YT +h  = εT +1 + (εT +2 + φ1 εT +1 ) + . la prévision à horizon h = 1 est donnée par ∗ T XT +1 = XT +T YT∗+1 .3 Prévision pour un processus ARIM A (1. .8. on obtient ∗ T XT +1 = (1 + φ1 ) XT − φ1 XT −1 + µ. + 1 + φ1 + ... 186 .. De façon plus générale. et. et de façon plus générale ∗ T XT +h = XT +T YT∗+1 +T YT∗+2 + ..... = εT +h + (1 + φ1 ) εT +h−1 + .. de variance σ 2 ... + εT +h + φ1 εT +h−1 + . + φh−1 1 d’où la variance  !2  h i−1 X X Vb =  φj1  σ 2 .   dont la variance est Vb = 1 + (1 + φ1 )2 σ 2 . 1. YT +h . Yt = φ1 Yt−1 + µ + εt .

5.793 106.747 103. Considérons le processus (Xt ) tel que Xt − Xt−1 = Yt où (Yt ) vérifie.500 96.074 86.30 ±5. 1) .7.535 92.838 97. et donc T XT∗ +1 = 89.0% 5 2.035 81.589 2. 1.878 109. Yt = 2 + 0.589 5.7 8.088 1.788 73.5005 D’où finallement les prévisions suivantes. Le processus (Yt ) sousjacent peut être obtenu comme différence entre Xt et Xt−1 .500 94.818 1.512 2.0% Graphiquement.39 ±4.42 ±4.606 74.097 94. 1) donné par (1 − L) (1 − 0. où XT = {X1 .000 87.586 ∗ 2. centré. On cherche alors les prévisions de (Yt ) et les prévisions de (Xt ) correspondent à la somme des (Yt ) prévus (processus intégré). XT .. Lla prévision à un horizon h ≥ 2 est alors µ  ∗ T YT +1 = µ + φ1 YT = 2.098 3.500 91.937 78.135 ±2.089 7. 8.4% 6 2.502. et la taille relative de l’intervalle de confiance horizon ∗ T YT +h ∗ T XT +h Vb 90% Binf 90% Bsup IC 90% 0 1 2.440 89. l’intervalle de confiance.036.001 3.5% 4 2. La prévision à horizon h faite en T est T X T +h 187 .089 3.5024 ∗ ∗ ∗ T XT +2 = XT +T YT +1 +T YT +2 où ∗ ∗ T YT +2 = µ + φ1 .754 100.Exemple 246. 84.586.8% 2 2.500 99.043 94.340 ±3. et à droite la variation relative de l’intervalle de confiance.5L) Xt = (1 − 0.2Yt−1 + εt où εt ∼ N (0.037 2.331 3.8% 3 2.074 et 86.T YT +1 = 2.718 ±1.659 96.8L) εt .09 10.502 86. avec XT = 12 et ∗ b T XT +1 = EL XT +1 |XT = 10..088. 2 où l’on suppose que εt est  gaussien. (Xt ) (Yt ) 70.512 La prévision pour la date T + 1 est alors ∗ T XT +1 = XT +T YT∗+1 où T YT∗+1 = µ + φ1 YT = 2. de variance connue σ = 0.43 ±4.7% 7 2.586 89. avec la variance. .1 Application Example de prévision : cas d’école Considérons le modèle ARIM A (1. dont les dernières observations ont été 81..500 104.978 90.458 90.036 84.22 98.500 101.59 8.  b ∗ = E XT +h |XT . on obtient à gauche les prévisions suivantes (avec la ”vraie” valeur de Xt ). Z}.

Dans le cas où P admet une racine double (r). et surtout indépendant). dans le cas où les racines sont distinctes. Dans le cas où la suite est entièrement déterminée par les valeurs initiales u1 et u2 .T XT +h−2 = 0. de variance σ 2 .5L + 0..5...} 2k (ii) expression de l’intervalle de confiance : L’intervalle de confiance à 95% de la prévision est de la forme # " r  r    b∗ b∗ b∗ b∗ .... (1/2) . on peut écrire h h b b∗ T XT +k = λ.. l’expression de XT +h − XT et en considérant la variance (puique les εt sont identiquement distribués. .96 V T XT +h Cette variance s’obtient en approximant la forme ARIM A par une forme M A (∞). la forme générale est un = (λ + µr) rn . alors λ et µ sont entièrement déterminés par la résolution du système  u1 = λr1 + µr2 u2 = λr12 + µr22 188 .. par sommation.T XT +h + 1.. 10. 8.    XT +2 − XT +1 = εT +2 + b1 εT +1 + b2 εT + . .3L − 0. XT +1 − XT = εT + b1 εT −1 + b2 εT −2 + .96 V T XT +h . pour h ≥ 2.52 L2 + . on se ramène au problème suivant : ”recherche des suites un telle que un = αun−1 + βun−2 ” 15 . d’où .     ∗ b V T XT +h = σ 2 1 + (1 + b1 )2 + (1 + b1 + b2 )2 + . Aussi b∗ T XT +h =8+ 4 d’où les premières valeurs {12.8L) 1 + 0. 8..25.1 + µ. avec une racine unité...3 2 − .5L)−1 = Θ (L) Φ−1 (L) =  L3 L2 B (L) = (1 − 0.. on peut écrire T X T +h T +h−1 − φ2 ...    XT +h − XT +h−1 = εT +h + b1 εT +h−1 + b2 εT +h−2 + ..3 − 0. On note alors que  XT +1 − XT = εT +1 + b1 εT + b2 εT −1 + . = 1 − 0. T XT +h − 1. + (1 + b1 + .b ∗ : Cette forme ARIM A s’écrit (i) estimation de T X T +h Xt − φ1 Xt−1 − φ2 Xt−2 = εt + θ1 εt−1 . + bh )2 .. Pour expliciter les solutions. Compte tenu du fait que XT = 12 et T XT +1 = 10 on en déduit λ = 8 et µ = 4. Les racines du polynôme caractéristique étant 1 et 1/2..125.8L) (1 − 0. 8. la forme générale des solutions est un = λr1n + µr2n où r1 et r2 sont les racines du polynôme P (x) = x2 − αx − β.. 2 2 15 Rappel : Pour une relation récurente un = αun−1 + βun−2 . b ∗ − φ1 . 9. Or l’expression des bi est donnée par la relation B (L) (1 − 0..T X b∗ b∗ Aussi.

957 11.444 5.250 8. l’évolution relative de l’intervalle de confiance en fonction de l’horizon de prévision 8.4926L εt .116 3.3% ±53. et la modélisation ARIM A que nous avions pu faire.485 11.138 10. à gauche. même ici à court terme (un exemple analogue sera repris plus en détails dans la partie suivante).6 1 − j = 0. (41) (0. + j−1 = 1 − 0..959 4. Aussi     1 1 1 1 0.4% ±34. la prévision suivante (avec les intervalles de confiance à 90% et 95%).6% ±39.6 On notera bien sur cet exemple que les prévisions à l’aide à dun modèle ARIM A à moyen terme sont déjà relativement incertaines.     12 12 (1 − L) 1 − L Xt = 1 − 0.016 8.0687) La série Zt peut alors être utilisée pour faire de la prévision.0402) (0.960 10. Comme nous le voyons sur cet exemple.4 + j .8344L 1 − 0. 189 .360 6. on obtient.4 + j .125 8.3/2i−1 .41 12.639 4.bj = 1 − 0.9% ±46. la prévision à l’aide d’un modéliation ARM A reste relativement floue.00 11.543 5.063 8.862 6. à l’aide de sa modélisation M A.611 11.6 ∗ 2 b 0.577 4.031 8..71 8.500 8.et donc b0 = 1 et bi = −0.166 11.040 5. et à droite.040 6.7.2% ±42.209 4.125 12.60 11.0% ±48.6 1 + b1 + .960 11.2 Exemple d’application : cas pratique Considérons ici la série du nombre de voyageurs SNCF. V T XT +h = σ 2 j=0  D’où finalement les prévisions et les premiers intervalles de confiance suivant : h 95% Binf 90% Binf b∗ T XT +h 90% Bsup 95% Bsup IC95% 0 1 2 3 4 5 6 7 8 9 8. Graphiquement. 2 4 2 2 2 et donc 2 h−1   X 0.560 5.755 4.041 11.30 ±19.454 11.307 11.440 11..000 10.000 9.556 11..7% ±51.000 8.6% ±28.3 1 + + + .015 4.640 11.772 11.906 3.947 12.353 4.

907 3.967 3.717 2. > acf(Y.header=TRUE) Y=base[.497 Qtr4 2.360 2.960 3.873 2.020 3.723 2.303 2..col="red") > pacf(Y. données mensuelles.25)] Y=ts(Y. start = c(1960.737 4.683 2.lwd=5. 1993 1994 1995 1996 L’autocorrélogramme de la série bute des taux (Xt ) permet de se rendre compte rapidement que la série n’est pas stationnaire.813 3.840 3.060 5.txt".477 Qtr3 2.367 3.497 3.987 5.table("http://freakonometrics. > > > > > > base=read."R"] Y=Y[(base$yr>=1960)&(base$yr<=1996.530 Qtr2 2.477 5.fr/basedata.993 2.940 3.307 2.460 2..col="red") 190 .597 5.350 2. de Janvier 1960 à Mars 1996.free.003 4.930 2.1 Application de la série des taux d’intérêt à 3 mois Nous allons considérér ici les taux à 3 mois du trésor américain (comme le propose Pindyck et Rubinfeld (1998)).frequency = 4.243 5.303 2.280 5.293 3.260 . 1)) Y 1960 1961 1962 1963 1964 Qtr1 3.lwd=5.9 Mise en oeuvre de la méthode de Box & Jenkins 9.

1 Modélisation de la série Compte tenu de l’allure des autocorrélogrammes de Yt .La série différenciée Yt = Xt − Xt−1 a l’allure suivante. la série Zt obtenue en différenciant 2 fois donne des résultats ne semblant pas significativement différents Aussi. nous pouvons penser modéliser la série Xt par un processus ARM A (p.col="red") La série ainsi formée semble stationnaire. donne 191 .lwd=5.1. q). A titre comparatif. différencier 1 fois suffit pour obtenir un modèle stationnaire. > plot(diff(Y)) > acf(diff(Y). décrite auparavant. 9.lwd=5.col="red") > pacf(diff(Y). La méthode du coin.

0616 sigma^2 estimated as 0.003 0.1. 1.le tableau Ω suivant i\j 1 2 3 4 5 6 9.041 0.001 −0.1066 ma1 0.2 1 2 3 4 5 6 0.006 0.88.148 −0.003 0.040 −0. 0.001 −0. L’étape suivante est donc d’augmenter le nombre de paramètres. 192 . aic = 349. order = c(1.001 0.89.1)) Call: arima(x = diff(X).7403L εt (0.116 0.e.0850 sigma^2 estimated as 0. 1.6168: log likelihood = -170.007 0.011 −0.002 0.0076 0.order=c(1.77 Si les estimations semblent significative. sur la série différenciée > arima(diff(X).0616) arima(X.002 0. le résidu ne semble pas être un bruit blanc.1.180 0. 0.005 0. 1)) Coefficients: ar1 -0. order = c(1.007 −0.041 −0.006 0. 1)) Coefficients: ar1 -0.6168: log likelihood = -170.003 0.1)) Call: arima(x = X.1066) > (0.1066 ma1 0. aic = 347.e.001 0.055 −0.024 0.189 −0.0616 intercept 0.002 −0.78 sur la série brute.0.102 0.000 Estimation des paramètres d’une modélisation ARIM A (1.3342 s.     1 + 0.004 −0. ou encore.043 −0. 0.272 0.7403 0.001 0.001 0.3341 s.7403 0.order=c(1.003 0.3341L Yt = 1 + 0. 1) L’estimation donne les résultats suivants (la constante était clairement non significative).012 0.042 0.003 −0.

order=c(4.3592 ar2 0.74 BIC=361.095) (0.0409 0.5435: ma2 0.4341 sigma^2 estimated as 0.2658 s.2173 ar4 -0.2 AIC=334.2400 ma4 0.4) Coefficients: ar1 -0.0953 ar2 -0.08 BIC=352.1736 ma1 0.3536 0.4945 0.1916 .7671 0.1562 0.1.0952 ar2 -0.26 L + 0.054) > arima(X.2)) Call: arima(x = X.0072 0. 1.095) (0.19 193 ma3 0.49 L Yt = 1 + 1.08) > arima(X. 2) L’estimation donne les résultats suivants (la constante étant là aussi non significative).088) (0.007 (0.8779 0.0884 ma1 1.e.4 Estimation des paramètres d’une modélisation ARIM A (4.8778L εt + 0. 0.1.33 Encore une fois.0676 ma2 0.0807 sigma^2 estimated as 0.067) (0.order=c(2.49 L Yt = 1 + 1.0675 sigma^2 estimated as 0.1. l’hypothèse de bruit blanc des résidus est rejetée.1.order=c(2. 2)) Coefficients: ar1 -1. order = c(2.4950 0.1.0547 xreg 0.3406 ma2 -0.4)) Series: X ARIMA(4.9.24.088) (0.8778L εt où Yt = (1 − L)Xt (0.47 AICc=335.767L − 0.2655 s. 0.e.3360 s.4 AICc=335. aic = 334.7672 0. 1.2) Coefficients: ar1 -1.     2 2 1 + 1.5205: log likelihood=-159.48 A titre d’information.767L − 0.067) (0.24 AIC=334.6052 0.7713 0.3459 ar3 -0. 0. 9.5434: log likelihood=-162.1.1. le modèle avec constante s’écrit     2 2 1 + 1.0546 log likelihood = -162. 4) L’estimation donne les résultats suivants > arima(X.e.26 L + 0. de part la présence d’autocorrélations significativement non nulles.3 Estimation des paramètres d’une modélisation ARIM A (2. 1.2380 0.3508 0.2).xreg=1:length(Y)) Series: X ARIMA(2.0884 ma1 1.054) (0.8778 0.

0920 ar5 -0.3146 ar3 0.4166 0.arima814$sigma2.5434549 334.4037 331.36 BIC=362.4826461 331.arima812$loglik.8877 −162. 4) ARIM A (8.] 0. > arima(Y.0672 0. 0.4845 194 -0.2872 ar4 0.1] [.2197 s.arima212$aic. 1.1653 0.4324 0.3783 -154. 1. 2) ARIM A (4.4826: log likelihood=-154.4816530 AIC 347. 1.4)) Series: Y ARIMA(8.97 AICc=335.order=c(8.3147 s.5309 0.0821 ar8 0.2421 [3.6892 [5. > arima(Y.9.1449 0.arima812$aic.1847 0.2019 [4. 4) σ2 0.1132 ar8 0.arima814$loglik).12 9.2] [.5434549 0.1482 0.8809 0.0721 sigma^2 estimated as 0.4816530 334. 4) L’estimation donne les résultats suivants.67 9.38 AICc=331.4826461 0.1.arima414$sigma2. .1.order=c(8.] 0.7753 334.2908 0. + arima111$loglik. 1) ARIM A (2.3788 sigma^2 estimated as 0.3] [1. 1.1.1076 ar3 0.5204500 336.0931 ar4 0.4843 -162. + arima111$aic.1.2019 −154.5 Estimation des paramètres d’une modélisation ARIM A (8.48 AIC=332.9689 -154.9689 log L −170.69 AIC=329.7 Choix du modèle Les différents critères sont ARIM A (1.4817: log likelihood=-154.e.4762 0. 2) L’estimation donne les résultats suivants.arima812$sigma2.6885 0.1205 ar6 0.4843 336.1134 0.1227 ar7 -0.3106 0.0871 ar6 0.1.1191 0.] 0. 0.2575 0.2)) Series: Y ARIMA(8.1353 ma1 -0.1.0818 ma1 -0.2922 ar5 -0.8877 [2. 2) ARIM A (8.2421 −159.] 0. 0.7753 -170.arima212$loglik.4678 ma3 0.0983 0.8308 0.1619 0.1.3) [.6892 −154.3783 334.4037 -159.75 BIC=371. 1.arima212$sigma2.4) Coefficients: ar1 ar2 0.4845 > matrix(c(arima111$sigma2.5204500 0.0737 ma2 -0.arima414$loglik.6168190 0.arima814$aic.6168190 347.4125 ma2 -0. 1.0859 ar7 -0.6 Estimation des paramètres d’une modélisation ARIM A (8.2) Coefficients: ar1 ar2 0.] 0.e.arima414$aic. 1.1454 0.5.1282 0.

Aucun modèle ne semble vraiment bien modéliser la série. aucun modèle de type ARM A ne pourra prendre en compte le pic de volatilité au début des années 80. depuis 1947 > base=read.") > > Y=rev(base[. + header=TRUE. Les modèles ARCH pourraient être une alternative intéressantes.sep=".2 Modélisation du taux de croissance du P IB américain La série suivante correspond au P IB américain. mais au delà de l’objectif du cours.table("http://freakonometrics.3]) Y=ts(Y.frequency = 4.free.csv".fr/GDP_United_States2. 9. 1)) > plot(Y) Il est parfois plus simple de travailler sur le taux de croissance trimestriel > Z=diff(Y)/Y > plot(Z) 195 . En fait. start = c(1947.

635739+1.e.0) with non-zero mean Coefficients: ar1 ar2 0. c’est à dire entre 2 ans et demi et 3 ans. > library(polynom) > polyroot(c(1.0. i.11Xt−3 = 0.> acf(Y.1152 0.35L − 0.000000i 1.0618 0.35Xt−1 − 0.27L2 où le second terme a des racines complexes conjuguées.11L3 = (1 + 0.13L2 + 0.00000 -10.0078 0.e.18e-05: log likelihood=847.007 + εt > (modele=arima(Z.19964 On peut alors noter que la longueur moyenne du cycle stochastique est alors de 10.635739-1.5 BIC=-1669.-modele$coef[1:3])) [1] 1.46L) 1 − 0.0009 sigma^2 estimated as 8.2 trimestres.lwd=5. 0.0618 intercept 0.0651 ar3 -0.157969i > 2*pi/Arg(polyroot(c(1.lwd=5. Nous obtenons le modèle suivant Xt − 0.161224-0.col="red") Compte tenu de la forme des autocorrélations.19964 -2.0))) Series: Z ARIMA(3.0.73 AICc=-1687. 196 .col="red") > pacf(Y. il est possible de tester un modèle AR (3).18Xt−2 + 0.3518 0.97 On peut noter que le polynôme autorégressif s’écrit   1 − 0.order=c(3.87L + 0.-modele$coef[1:3]))) [1] 10.157969i -2.87 AIC=-1687.1279 s.