Professional Documents
Culture Documents
Eviews Cours PDF
Eviews Cours PDF
LOGICIEL EVIEWS
Cours d’Informatique (Initiation au logiciel EVIEWS), Licence 2 Economie 2019-2020
Objectif du cours
Ce cours est une initiation au logiciel EVIEWS utilisé fréquemment par les économistes dans
le traitement des données statistiques. Il a pour objectif de permettre à l’étudiant de se
familiariser avec le logiciel économétrique EVIEWS dans l’analyse, la prévision et la
modélisation des données. Il aidera également l’étudiant dans le traitement et l’interprétation
des données statistiques.
Objectifs spécifiques
Pré requis
Savoir utiliser, voire manipuler un ordinateur, avoir des connaissances de base en économie et
en statistique mathématique.
Contenu du cours
Matériels pédagogiques
Aide du logiciel
Méthode d’enseignement
Modalités d’évaluation
Le logiciel choisit pour les applications pratiques est EViews. Le choix de ce logiciel se
justifie surtout par la convivialité qu’elle offre à l’utilisateur dans la mise en œuvre des tâches.
L’utilisateur familier à l’environnement Windows n’éprouvera pas de difficultés à naviguer
dans les menus du logiciel pour chercher ce dont il a besoin. Dans ce chapitre introductif,
nous donnons premièrement une présentation générale du logiciel EViews. Secundo, une
description des différents modes de fonctionnement du logiciel, ses champs d’applications, les
différents types d’objets sur lesquels est basé le fonctionnement du logiciel et enfin les
opérateurs et fonctions de référence couramment utilisées par le logiciel. Bien entendu, cette
présentation n’épuise pas l’ensemble des potentialités du logiciel. Le lecteur pourra consulter
le guide d’utilisation du logiciel (dans le Menu help) pour approfondir certains points.
EViews est un logiciel qui permet de faire l’analyse, la prévision et la modélisation des
données. C’est un outil performant d’analyse de données. Il représente la version nouvelle
d’un ensemble d’outils de traitement des séries temporelles initialement fait par TSP (Time
Series Processor) développé initialement par les économistes. Aujourd’hui, EViews connaît
une large application dans beaucoup de domaines. Il offre la possibilité d’entrer des données à
partir du clavier ou de fichiers d’une disquette, de créer de nouvelles séries à partir de séries
existantes, de faire des analyses statistiques des relations entre plusieurs grandeurs. EViews
utilise les caractéristiques visuelles des logiciels sous Windows. L’utilisateur peut utiliser sa
souris pour faire des opérations à l’aide des menus et boites de dialogue standard de
Windows. Les résultats apparaissent en Windows et peuvent être manipulés par les techniques
standards. Ils peuvent être copiés puis collés dans Word ou Excel lors du processus de
rédaction du rapport d’analyse. Alternativement, EViews dispose d’un langage de
programmation et de commandes assez variées que pourrait utiliser l’utilisateur. De plus, le
logiciel contient un menu d’aide en ligne bien documenté sur la mise en œuvre des procédures
d’analyse, des commandes et des opérations qu’il permet de faire.
EViews peut fonctionner aussi bien en mode interactif qu’en mode batch (se dit d’un
traitement informatique effectué par lots). En mode interactif, l’utilisateur choisit, à partir des
différentes fenêtres, ce qu’il veut faire. Il tape la commande dans une fenêtre de commande et
clique sur un bouton pour obtenir le résultat. Il fait en quelque sorte de l’économétrie presse-
bouton. Le mode interactif est utilisé lorsque certaines étapes du traitement exigent un
examen des résultats et des prises de décision de l'utilisateur. Le mode interactif présente
l'avantage d'être simple, mais montre rapidement ses limites pour réaliser certaines tâches plus
élaborées. Il est alors préférable d'utiliser le mode batch : les instructions sont écrites sous
forme d’un programme à l’aide d’une succession d’instructions utilisant des commandes. Le
mode batch nécessite donc la construction d’un fichier texte contenant une série d’instructions
pour aboutir aux résultats que l’on souhaite. L’utilisateur a la possibilité d’exécuter une partie
de ce programme dans différentes circonstances. L’un des avantages des programmes est
qu’ils permettent de documenter l’analyse. On peut savoir comment on est arrivé aux
résultats. Notons cependant que le mode batch est plus complémentaire qu'incompatible avec
le mode interactif. Dans ce cours d’initiation, nous allons volontairement utiliser le mode de
fonctionnement interactif du logiciel EViews et l’illustrer à partir d’exemples pratiques. Le
lancement du logiciel se fait comme tout autre logiciel à partir du bureau ou du menu
démarrer.
La prévision macroéconomique :
Prévision de l’inflation ;
Prévision du taux de croissance ;
Prévision du taux d’investissement ;
Prévision des recettes budgétaires etc. ;
La prévision en entreprise
Prévision des ventes ;
Prévision de la demande ;
Prévision des prix, etc.;
L’analyse financière
Caractéristiques des séries financières
Hétéroscédacticité et volatilité
Les modèles à effets ARCH, ARCH en moyenne, ARCH généralisé ;
L’analyse des séries à haute fréquence et les techniques de prévision avancées (modélisation
ARIMA, ARCH, GARCH …) ne seront pas abordées dans le présent cours qui se présente
comme une introduction à la pratique économétrique.
EViews est basé sur la notion d’objets. Les objets sont des blocs d’éléments liés par une
notion commune et qui sont mis ensemble pour être utilisés plus aisément. De façon virtuelle,
tout le travail dans EViews impliquera l’utilisation et la manipulation d’objets. L’objet le plus
important dans EViews est le workfile (espace de travail) et la première chose à faire sera de
créer un workfile ou d’ouvrir un workfile existant. Chaque objet est un ensemble
d’information se rapportant à un domaine particulier de l’analyse. Les objets peuvent recevoir
également des noms. Les objets les plus importants après le workfile sont les séries et les
équations. Il existe cependant un certain nombre d’autres objets qui jouent des fonctions
différentes. Il s’agit par exemple des vecteurs de coefficients, des bases de données, des
graphes, des groupes, des modèles, etc. Tous ces objets, à l’exception des workfile et des
bases de données, possèdent leurs propres icônes qui apparaissent dans le workfile. Lorsqu’un
nouvel espace de travail (workfile) est créé, deux objets apparaissent automatiquement : le
vecteur des coefficients et la série des résidus. Le vecteur des coefficients sert à stocker les
coefficients des équations estimées. Par défaut, ce vecteur est nommé par la lettre c et ses
coefficients sont c(1), c(2), …, c(k). Toutefois, on peut définir d’autres vecteurs pour recevoir
les coefficients, par exemple a ou b. Voici l’aperçu des icônes associés à certains objets :
Pour créer un nouvel objet, il suffit de sélectionner Object/New Object, à partir du menu
principal ou du menu du workfile, de choisir ensuite le type d’objet, de le nommer et de
cliquer sur OK pour valider.
EViews dispose d’un éventail d’opérateurs et de fonctions qui permet de faire des calculs
mathématiques (additions, soustraction, multiplication, division, puissance ...). Il dispose
également de certaines fonctions spécialisées utilisées couramment dans l’analyse des séries
temporelles (logarithmes, exponentielles, différences premières, différences secondes). Nous
présentons ci-dessous quelques opérateurs de base et des fonctions fréquemment utilisés.
+ Addition
- Soustraction
* Multiplication
/ Division
^ Exposant
> Supérieur strictement
< Inférieur strictement
= Egalité
<= Inférieur ou égal
>= Supérieur ou égal
Les fonctions suivantes effectuent les opérations mathématiques de base. Le tableau ci-
dessous donne quelques fonctions mathématiques couramment utilisées.
La première action à faire sous EViews est de créer un espace de travail (Workfile). L’espace
de travail organise et enregistre tous les objets qui vont être générés lors du traitement des
données. La création de l’espace de travail définit le nombre d’observations, leur fréquence
(données annuelles, trimestrielles, mensuelles, journalière…ou irrégulière), le nombre et les
noms des variables. Il est nécessaire de relever ces caractéristiques dans le cas d’une
importation de données.
Pour la création d’un Workfile, sélectionner File/New/Workfile comme indiqué ci- dessous :
Au niveau du workfile structure type : le type de données (pour les séries chronologiques,
données de panels et non datée pour les coupes instantanées) ;
Date specification : indique la fréquence des données (annuelle ou mensuelle pour les séries
chronologiques, nombre d’observations pour les séries en coupes instantanées).
Start date et End date : pour la période d’étude c'est à dire le début et fin des observations.
Workfile names (optional) : pour indiquer dans la première case le nom du Workfile
(optionnel) et le nom de la plage (optionnel).
Dans notre exemple, les données sont annuelles et commencent en 1972 pour finir en 2004. Si
les données étaient trimestrielles, on aurait indiqué le trimestre après l’année en tapant 1972:1
et 2004:4. Après avoir cliqué sur Ok, l’écran suivant s’affiche :
Nous venons à présent de créer un espace de travail ou Workfile. Ce Workfile ne contient pas
encore de variables. Il convient à présent de procéder à la saisie ou à l’importation des
données du fichier du tableau 1.
EViews donne la possibilité d’entrer directement des données dans un workfile. Pour cela, on
peut le faire de deux manières :
Après avoir validé, la variable Y apparaît dans le workfile. Répétez ces opérations autant de
fois que vous voulez créer de variables. Pour visualiser la variable créée, faites un double-clic
sur l’icône de la série dans le workfile. Toutes les valeurs apparaissent en NA. Ce symbole
indique qu’aucune valeur numérique n’est encore saisie pour la variable. Cliquez sur Edit +/-
pour activer l’édition des données. Vous pouvez maintenant entrer les observations de la série
Y. Appuyez la touche Entrée (sur votre clavier) après chaque nouvelle saisie. Avant de fermer
la fenêtre de saisie, cliquez à nouveau sur Edit +/-.
Dans la pratique, les données sont déjà saisies sous un autre logiciel. Généralement, il s’agit
de fichiers de format Excel. Dans ce cas, EVIEWS offre la possibilité d’importer ces données
sans avoir à la saisir à nouveau. Dans notre cours, les données existantes sont au format Excel
et nous allons utiliser la procédure d’importation dans EVIEWS.
Nous pouvons utiliser deux manières :
Vous allez chercher le fichier cible (comportant les données). On a les fenêtres suivantes :
Et enfin en cliquant sur « Finish » on a les données importées (voir fenêtre ci-dessous)
Précisez ensuite le nom du fichier de données et cliquez sur ouvrir. Vous obtenez l’écran
suivant :
Les données commencent à la
colonne B, ligne 2 (voir note*)
Note * : La colonne A du fichier Excel contient les années. Le fait d’avoir déjà précisé que les
données vont de 1972 à 2004 génère automatiquement la variable « année ». Les séries
commencent donc à partir de la colonne B, ligne 2 dans le fichier Excel. La ligne 1 étant
réservée aux noms des séries.
En cliquant sur OK, nous obtenons la fenêtre suivante:
Nous venons par les deux méthodes d’importer les données du fichier Excel contenant notre
base de données. Les trois (03) séries Inv, Pib et Tx_int apparaissent bien dans le workfile. Il
faut noter que Range indique la période couverte par les séries. Sample indique la période qui
va être considérée dans les calculs. Nous pouvons maintenant procéder à l’analyse des
données.
Pour visualiser les observations d’une série, double-cliquer sur la série. Pour visualiser un
groupe de variables, sélectionnez-les et faire Show puis Ok. On peut également faire un clic
droit et sélectionner Open/As Group.
Nb : Il est important d’enregistrer ou sauvegarder le workfile. Cliquer pour ce faire sur Save
et choisir un nom de fichier.
Méthode 1 : Sélectionner Quick/Generate Series, ou cliquer sur l’onglet Genr situé dans le
menu du Workfile, puis taper la formule de calcul dans la boîte de dialogue.
Pour générer la variable linv qui égale au logarithme de la variable inv, la formule à inscrire
est indiquée dans l’écran suivant :
On peut également générer de la même façon les logarithmes des autres variables. Les
nouvelles séries apparaissent dans le workfile.
On peut aussi calculer des taux de croissance des variables. Par exemple la variable Pib. On a
la formule suivante :
Pour créer un groupe comprenant les nouvelles séries, sélectionnez-les variables et choisissez
Show dans le menu puis nommez le groupe.
Méthode 2 : Taper directement dans la ligne de commande, Genr suivi de la série à créer.
Par exemple, on veut créer un terme aléatoire qui suit une loi normale centrée et de variance
20000. Dans <Quick> <Generate series> taper : EPS = NRND * SQR(20000) ou bien
rentrer dans la zone de commande : GENR EPS = NRND * SQR(20000).
Pour obtenir la représentation d’une série, il faut d’abord la visualiser en faisant un double-
clic sur la série. Ensuite cliquer sur View/Graph/line. Pour afficher plusieurs séries sur le
même graphique, sélectionner les séries en utilisant la touche CRTL, ensuite cliquer sur le
bouton droit de la souris et choir Open/As group. Dans la nouvelle fenêtre qui s’affiche,
cliquer sur View/Graph/line.
Pour afficher les séries séparément, même démarche mais cliquer sur View/Multiple
Graph/line.
INV PIB
1,000 7,000
900
6,000
800
700 5,000
600
4,000
500
400 3,000
300
2,000
200
100 1,000
1975 1980 1985 1990 1995 2000 1975 1980 1985 1990 1995 2000
TX_INT
14
12
10
2
1975 1980 1985 1990 1995 2000
- Graphiques simultanés
7,000
6,000
5,000
4,000
3,000
2,000
1,000
0
1975 1980 1985 1990 1995 2000
INV PIB
On peut également représenter le nuage de points entre deux variables. Ouvrez les deux
variables et sélectionnez View/Graph/Scatter. Pour le couple (INV, PIB), on obtient le nuage
de points suivant :
7,000
6,000
5,000
PIB
4,000
3,000
2,000
1,000
100 200 300 400 500 600 700 800 900 1,000
INV
On peut sauvegarder le graphique en cliquant sur Name dans la boîte de dialogue et entrer le
nom du graphique. Après fermeture de la fenêtre graphique, le graphique figurera dans le
workfile comme un objet aux côtés des objets déjà présents.
Nous calculons à l’aide de EViews quelques statistiques élémentaires sur les variables Linv,
Lpib et Tx_int. Pour ce faire, on sélectionne les trois variables, puis faire Show. Une fois le
Tableau 2.1 : Statistiques descriptives sur les séries Linv, Lpib et Tx_int
LINV LPIB TX_INT
Mean 6.146406 8.072259 8.583333
Median 6.183866 8.216630 8.250000
Maximum 6.829794 8.704005 12.50000
Minimum 5.062595 6.993933 3.500000
Std. Dev. 0.533203 0.478332 2.286894
Skewness -0.171407 -0.608692 -0.162739
Kurtosis 1.656809 2.333363 2.189163
Observations 30 30 30
La statistique de Jarque Bera (JB) montre que les séries linv, lpib et tx_int suivent toutes une
loi lognormale et normale sur la période d’étude c'est à dire de 1972 à 2001. Pour retourner
aux données, cliquer sur Sheet. Nous reviendrons sur cette statistique (JB).
Pour obtenir la matrice des corrélations empiriques entre les variables, sélectionner
Views/Covariance Analysis…/correlation.
Les coefficients de corrélation permettent d’évaluer les relations linéaires entre les variables.
Le coefficient de corrélation entre les variables Lpib et Linv est élevé contrairement à celui
des variables Linv et Tx_int ; et Tx_int et Lpib : les trois variables sont donc positivement
corrélées entre elles. Cela signifie qu’elles évoluent dans le même sens. Lorsque la variable
Lpib prend des valeurs élevées, Linv prend également des valeurs élevées. L’analyse des
corrélations est une étape importante dans le processus de modélisation. D’une part, elle
permet d’évaluer la pertinence d’une relation linéaire entre les variables, et d’autre part, de
détecter l’existence d’une multicolinéarité entre les variables explicatives.
Pour suspecter la multicolinéarité des variables indépendantes, on compare le coefficient de
La grandeur Revenu ( Rev ) de l’individu i est la variable explicative. C’est sa valeur pour i
donné qui permet de déterminer la consommation ( Cons ) à l’aléatoire près i .
Nous nous intéressons à l’estimation d’une fonction de consommation sous la forme linéaire
suivante :
Dans cette spécification, la variable endogène (ou dépendante) et exogène (ou indépendante)
sont respectivement LCONS et LPIB, LIPC puis LGT. e t est un terme d’erreur qui capte
être trop « grandes », sinon le modèle n’expliquerait pas grande chose des variations de la
consommation.
Une fois le modèle spécifié, il faut fournir des estimations des paramètres structurels 0 , 1
l’élasticité de la consommation privée par rapport au niveau général des prix. Ces paramètres
structurels sont importants pour la formulation des politiques économiques.
Pour « gérer » les termes d’erreurs e t ainsi que les propriétés du modèle, on pose les
hypothèses suivantes:
- Les erreurs e t sont de moyenne nulle : les erreurs se compensent sur toute la période;
- Les erreurs e t sont indépendantes (l’erreur au temps t n’est pas influencée par l’erreur
aux temps t-1, t-2, ou plus généralement la corrélation entre deux observations
distinctes est nulle donc on parle d’absence d’autocorrélation des erreurs) ;
- Les erreurs e t suivent une distribution normale.
On résume ces quatre hypothèses en posant que les termes d’erreurs sont normalement
identiquement et indépendamment distribuées et on note et ~ iid 0, 2 . La pertinence des
tests que nous allons faire sur le modèle dépendra de la validité de ces hypothèses.
L’hypothèse de normalité n’est pas indispensable pour garantir l’absence de biais dans
l’estimation des coefficients, mais elle s’avère cruciale pour réaliser les tests statistiques sur le
modèle.
En plus des hypothèses précédentes sur les termes d’erreurs, on pose également un certain
nombre d’hypothèses sur les variables explicatives. Ainsi une des hypothèses importantes
dans les modèles structurels est l’exogénéïté des variables explicatives. Cette hypothèse
signifie que les variables explicatives sont indépendantes du terme d’erreur et
Pour estimer l’équation (3.1), on peut procéder de deux façons. La première consiste à
sélectionner, dans le menu principal, Quick/Estimate Equation…. Dans la fenêtre qui
s’affiche, on tape l’équation en commençant par la variable endogène suivie d’une constante
et des variables explicatives.
La deuxième façon de procéder (et la plus simple) consiste à sélectionner les variables qui
interviennent dans l’équation en commençant par la variable endogène (LCONS), à faire
ensuite un clic droit et à sélectionner Open as Equation. Quand vous cliquez sur as
Equation, vous obtenez la même fenêtre que précédemment : la première variable
sélectionnée occupe la première position suivie des autres variables. Cette variable est
interprétée par EViews comme étant la variable endogène de l’équation et les autres variables
les explicatives. Faites attention à la position de la variable endogène dans la succession des
variables qui s’affichent dans la fenêtre de spécification.
Une troisième méthode consiste à taper directement dans la ligne de commande :
ls lcons c lpibr lipc lgt
indique les écart-types des coefficients estimés. Le rapport entre le coefficient estimé et son
écart-type donne le ratio de Student appelé plus couramment le t de Student. Cette statistique
est donnée dans la quatrième colonne du tableau. Enfin, la dernière colonne indique les
probabilités attachées aux différentes valeurs de la statistique de Student.
On peut nommer l’équation en tant qu’objet. Pour cela, cliquez sur Name et tapez le nom
(Equation1 par exemple). Pour documenter les résultats (dans un document Word par
exemple), cliquez sur View/Representations. L’on obtient trois lignes de textes qui indiquent
la commande utilisée, l’équation estimée et les valeurs des coefficients de l’équation. Pour
revenir aux résultats de la régression, cliquez sur l’onglet Stats.
Nous allons maintenant procéder aux différents tests de spécification sur le modèle. Il s’agit
des tests sur les termes d’erreurs, du test d’erreur de spécification et des tests sur les
coefficients.
Les propriétés des estimateurs des MCO reposent sur un certain nombre d’hypothèses
formulées a priori sur les termes d’erreur. Il s’agit plus précisément de la nullité de la
moyenne, de l’absence d’autocorrélation, de l’homocédasticité et de la normalité des erreurs.
Ces hypothèses économétriques sont importantes pour garantir de bonnes propriétés aux
estimateurs (BLUE) de la MCO. Les tests d’hypothèses économiques n’auront un sens que si
la spécification économétrique du modèle n’a pas été préalablement rejetée. Ne commentez
pas les coefficients sans avoir vérifié au préalable les hypothèses économétriques. En effet, le
rejet, par exemple, des hypothèses d’absence d’autocorrélation et d’homocédasticité des
erreurs rend l’estimateur des moindres carrés ordinaires inefficace, et toute décision
économique basée sur cet estimateur est risquée. En corrigeant les estimations de
l’autocorrélation ou de l’hétéroscédasticité, la significativité de certains coefficients peut s’en
trouver modifiée.
Dans les lignes qui suivent, nous présenterons les tests d’hypothèses économétriques
permettant d’évaluer la spécification économétrique retenue.
Mean -8.92e-16
6 Median -0.009997
Maximum 0.114133
Minimum -0.072786
4 Std. Dev. 0.042825
Skewness 0.687527
Kurtosis 3.013219
2
Jarque-Bera 2.994003
Probability 0.223800
0
-0.05 0.00 0.05 0.10
e e
2
t
T 1
s (3.2)
T 1
où T est le nombre d’observations et e la moyenne de la série des résidus.
En plus de ces statistiques, EViews reporte des indicateurs de forme qui permettent
d’apprécier la normalité de la série. Le Skewness mesure l’asymétrie de la distribution autour
de sa moyenne. Elle est calculée par la formule:
3
1 T
et e
S
T
t 1 ˆ
(3.3)
T 1
où ˆ s est l’écart type des observations résiduelles.
T
Le Skewness d’une distribution symétrique, comme la distribution normale, est nulle. Ainsi
un Skewness positif signifie que la distribution est décalée vers la droite et une valeur
négative signifie que la distribution a une longue queue vers la gauche. Dans notre cas, le
Skewness n’est pas trop éloigné de zéro.
Le Kurtosis d’une distribution normale est égal à 3. Si le Kurtosis reporte une valeur
supérieure à 3, alors la distribution est plus pointue par rapport à la normale (elle est dite
leptokurtique) ; si la valeur du Kurtosis est inférieure à 3, la distribution est plus aplatie que
la normale (elle est dite platikurtique). Dans notre cas, le Kurtosis approche la valeur 3.
S 2 ( K 3)2
JB n (3.5)
6 4
Sous l’hypothèse de normalité, la statistique de Jarque-Bera est distribuée suivant une loi du
2 à 2 degrés de liberté.
On lit dans la table du Khi-Deux à 2 degrés de liberté, au seuil de 5% : A = 5,99.
On accepte l’hypothèse de normalité si la statistique de Jarque-Bera est inférieure à
5,99.
On rejette l’hypothèse de normalité si la statistique de Jarque-Bera est supérieure ou
égale à 5,99.
Sur le logiciel Eviews, la règle de décision est la suivante :
Au seuil de 5%, on accepte l’hypothèse de normalité (H0) dès que la valeur de la
probabilité est supérieure à 0,05.
Une probabilité inférieure à 0,05 conduit à rejeter l’hypothèse nulle d’une distribution
normale au seuil de 5%.
tests statistiques puisque les écarts-types estimés des coefficients ne sont pas adéquats. Le
problème de l’hétéroscédasticité se rencontre plus fréquemment sur des données en coupe
instantanée ou bien sur des données groupées. Elle prend souvent une forme particulière sur
des données temporelles. Néanmoins, il est important dans tous les cas de savoir la détecter et
la corriger.
Plusieurs tests existent pour détecter l’hétéroscédasticité. Il s’agit en particulier du test de
Goldfeld et Quandt (1965), du test de Breusch et Pagan (1979), du test de Glesjer (1969) et du
test de White (1980). L’idée générale de ces tests est de vérifier si le carré des résidus peut
être expliqué par les variables du modèle. Si c’est le cas, il y a hétéroscédasticité. Dans le
contexte du test d’hétéroscédasticité de White, l’hypothèse nulle est que tous les coefficients
de la régression des carrés des résidus sont nuls, c’est-à-dire les variables du modèle
n’expliquent pas la variance des termes d’erreurs. Nous mettrons l’accent sur le test de White.
Nous allons tester l’hypothèse d’hétéroscédasticité à l’aide du test de White. Nous
l’appliquons ici dans sa forme complète, c’est-à-dire en introduisant dans l’équation non
seulement les variables explicatives et leurs carrés mais également les doubles produits. Pour
ce faire, il faut sélectionner View/Residual Diagnostics/White Heteroskedasticity (cross
terms). Le tableau qui s’affiche donne la régression de White. Les statistiques sur lesquelles
est basé le test de White figurent dans le haut du tableau. Il s’agit des tests de Fisher (F-
statistic) et du Chi-deux. La statistique du test de White est égale au produit du nombre
d’observations et du coefficient de détermination de la régression de test (Obs*R-squared). Le
résultat du test figure dans le tableau suivant:
L’autocorrélation des erreurs signifie que le terme d’erreur correspondant à une période est
corrélé avec le terme d’erreur d’une autre période. Si cette corrélation joue entre deux termes
consécutifs ( et et et 1 ), on parle d’autocorrélation d’ordre un. La plupart des applications sur
des données annuelles impliquent des autocorrélations d’ordre un. Dans les séries temporelles,
l’autocorrélation des erreurs peut avoir plusieurs origines. Elle peut provenir de phénomènes
de mémoire dans la fonction de comportement des agents. Elle peut également être liée à une
erreur de spécification de la forme fonctionnelle ou à une erreur de mesure ou encore à
l’omission d’une variable explicative pertinente corrélée dans le temps. Dans le cas des
données transversales, il est possible d’observer une autocorrélation spatiale si les
observations ont été préalablement rangées selon un certain ordre, par exemple géographique.
Il existe plusieurs tests de l’autocorrélation des erreurs. Les plus couramment utilisés sont le
test de Durbin et Watson (1950 et 1951), le test de Ljung et Box (1979) et le test de Breusch
et Godfrey (1978).
( t t 1 ) 2
DW t 2
n
2(1 ˆ ) (3.6)
t 1
t
2
dinf<DW<dsup ou 4-dsup<DW<4-dinf : nous sommes dans la zone de doute et on ne peut pas conclure
dans un sens comme dans l’autre. Mais dans la pratique, on supposera qu’il y a absence de corrélation
des erreurs.
Par ailleurs, la formule ci-dessus à savoir DW 2(1 ˆ ) s’avère utile en pratique car elle
permet dans certains cas d’avoir très rapidement une idée sur l’autocorrélation des erreurs.
Une valeur proche de 2 indique une absence d’autoccorélation des erreurs tandis qu’une
valeur proche de 0 ou de 4 est revélatrice d’une autocorrélation des erreurs (autocorrélation
positive ou négative). Pour des valeurs s’éloignant de ces deux valeurs, il faut consulter les
valeurs critiques tabulées par Durbin et Watson pour pouvoir décider avec précision (voir
schema ci-dessus).
1
Sur la table de Durbin-Watson, k correspond au nombre de variable explicatives constantes exclues.
2
On peut également mentionner l’instabilité des coefficients et la présence de points aberrants.
modèle en tant que variable retardée. Si c’est le cas, on peut utiliser par exemple le
test h de Durbin ou le test de Breusch-Godfrey.
Dans le cas de notre exercice, la statistique de Durbin-Watson donne une valeur de 1,302 qui
n’est ni proche de zéro ni proche de 2.
Le recours à la table de Durbin et Watson s’avère nécessaire pour conclure. On lit dans la
table de Durbin et Watson à n = 38 ; k = 3 et dinf = 1,32; dsup = 1,66. La valeur de Durbin-
Watson (DW = 1,302) se situe 0 < DW < dinf , il y a alors une autocorrélation positive des résidus,
donc une présomption de dépendance des erreurs.
Contrairement au test de Durbin et Watson, le test de Breusch et Godfrey permet de tester une
autocorrélation d’ordre supérieur à 1 et reste valable en présence de la variable endogène
retardée parmi les variables explicatives. Pour réaliser ce test, sélectionnez View/Residual
Diagnostics/ Serial Correlation LM Test…. Précisez l’ordre de l’autocorrélation et cliquez
sur OK. Pour un nombre de retards égal à un, on obtient le tableau suivant:
La statistique de test de Breusch-Godfrey nous donne une valeur de 4, 142 et une probabilité
de 0,042. Ces valeurs nous conduisent à rejeter l’hypothèse nulle d’absence d’autocorrélation
d’ordre d’un des erreurs.
On retient finalement l’hypothèse d’une autocorrélation des erreurs à l’ordre un. L’équation
de consommation doit donc être re-spécifiée et re-estimée avant d’être utilisée à des fins de
prévision ou pour la prise de décision. N’oublions pas que l’autocorrélation des erreurs d’un
modèle peut provenir d’une mauvaise spécification ou d’un oubli de variables explicatives
pertinentes. Avant d’appliquer une méthode de correction, nous allons effectuer le test
d’erreur de spécification de Ramsey (1969).
Selon Ramsey, la plupart des erreurs de spécification dans les modèles est due au fait que le
vecteur-erreur est non nul. Pour tester l’erreur de spécification, Ramsey considère le modèle
suivant :
Y X Z
Le test d’hypothèse est le suivant :
H 0 : 0 (modèle est bien spécifié) vs H1 : 0 (modèle est malspécifié)
On accepte H0 si la valeur de la probabilité est supérieure à 5%. On rejette H0 si la valeur de la
probabilité est inférieure à 5%.
On note que le test de Ramsey (1969) teste les trois types d’erreurs de spécification
suivantes :
- Omission de variables explicatives pertinentes ;
Value df Probability
t-statistic 1.171018 33 0.2500
F-statistic 1.371282 (1, 33) 0.2500
Likelihood ratio 1.547126 1 0.2136
La probabilité critique de la statistique de test indique qu’il n’y a pas d’erreur de spécification
dans l’équation estimée.
Les coefficients estimés, les écart-types et les statistiques s’interprètent de la façon habituelle.
Le coefficient estimé du terme AR(1) est le coefficient de l’autocorrélation sérielle des résidus
inconditionnels. On constate que ce coefficient est significatif au seuil de 10% et est inférieur
à l’unité.
Les tests de restrictions linéaires sur les coefficients sont de trois types : le test de
significativité globale des coefficients, le test de significativité des coefficients pris
individuellement et le test de stabilité. Le test de significativité globale et le test de
significativité individuelle des coefficients sont réalisés à partir respectivement de la
statistique de Fisher et de la statistique de Student. Ces statistiques reposent sur l’hypothèse
de normalité des erreurs.
Le test de significativité globale des coefficients cherche à savoir s’il existe au moins un
coefficient parmi tous les coefficients, à l’exception de la constante, qui soit significativement
T 1
R2 1 (1 R 2 ) (3.8)
T k 1
On dit qu’un coefficient est significatif signifie que la variable explicative correspondante
contribue de façon significative à l’explication de la variable endogène. La significativité d’un
coefficient est testée à partir du t de Student. On teste l’hypothèse d’un coefficient nul contre
l’hypothèse alternative d’un coefficient différent de zéro (positif ou négatif, le test étant
bilatéral). Un coefficient sera significatif si la probabilité est inférieure au seuil de 5%. Cette
probabilité apparaît dans la dernière colonne du tableau des estimations (cf. tableau 3.1).
Rappelons que cette probabilité est calculée sur la base de l’hypothèse de normalité des
termes d’erreurs.
Pour la variable LPIBR, la probabilité est presque nulle. Par conséquent, quel que soit le seuil
retenu, cette variable contribue significativement à expliquer le niveau de la consommation.
L’élasticité-revenu de la consommation est égale à 0,94, ce qui signifie que, toutes choses
égales par ailleurs, une augmentation du revenu de 10% entraîne un accroissement de la
consommation de 9,4%. On constate également que le coefficient de la variable de prix est
significatif au seuil de 5%. En revanche, l’utilisation des probabilités permet de rejeter, sans
ambiguïté, le caractère significatif des dépenses publiques. En effet, si on rejetait l’hypothèse
3
L’ajout d’une variable à l’équation entraîne une augmentation du R 2 si et seulement si le t de Student de cette variable est, en valeur
2 2
absolue, supérieure à 1 (Greene, 1997). Le R est inférieur au R . Les deux statistiques sont asymptotiquement équivalentes.
nulle cela équivaudrait à une probabilité d’erreur de 47%. On peut cependant continuer à
interpréter les résultats de l’estimation dans la mesure où le maintien d’une variable
explicative non significative ne biaise pas les estimations sous les hypothèses économétriques
initiales. Toutefois, si le modèle doit être utilisé à des fins de prévision, on peut être amené à
éliminer cette variable conformément au principe de parcimonie.
La non significativité de la variable LGT peut apparaître surprenante dans la mesure où cette
variable présente une très forte corrélation avec la consommation (voir la matrice de
corrélation présentée dans le tableau ci-dessous).
En fait, il existe une très forte corrélation entre les trois variables explicatives, qui fait peser
un risque de multicolinéarité. Or la multicolinéarité entre les variables explicatives d’un
modèle linéaire conduit à des écarts-types des coefficients élevés, donc à des statistiques de
Student faibles, conduisant à la non significativité des coefficients alors que le coefficient de
détermination R 2 reporte une valeur élevée. En outre, en présence de multicolinéarité
approchée, il est difficile, sinon impossible, d’isoler l’effet intrinsèque de chacune des
variables explicatives sur l’endogène (il y a confusion des effets), car toute variation de l’une
des variables explicatives implique une variation des autres variables. En supprimant tour à
tour chacune des variables, on constate que les autres variables présentent des coefficients
bien significatifs. Mais la forte colinéarité entre les variables génère un coefficient non
significatif pour la dernière variable. On rencontre très souvent ce genre de problème
d’adéquation entre la théorie économique et la pratique économétrique : en théorie on peut
supposer que des variables sont orthogonales mais lors de la modélisation on se rend compte
qu’elles sont liées entre elles. On peut obtenir des coefficients non significatifs ou affectés
d’un signe erroné.
Il existe plusieurs techniques pour détecter la multicolinéarité entre les variables explicatives,
dont le test de Klein et le test de Farrar-Glauber4. La procédure du test de Klein (1962)
4
Une présentation théorique et une application de ces tests sont faites dans Bourbonnais (1998) pages 100-103.
Il est donc important après la série des tests économétriques, de faire les tests de stabilité. Ces
tests s’intéressent plus généralement à des questions du genre : peut-on considérer qu’il y a eu
un changement dans le comportement de consommation des ménages après telle date? La
propension marginale à consommer est-elle restée constante sur toute la période d’estimation?
Les sources de la croissance sont-elle restées les mêmes avant et après la crise des années
1980? Le comportement de consommation des hommes est-il identique à celui des femmes?
Lorsqu’on travaille sur des données temporelles, les tests de stabilité prennent la forme de
tests de stabilité temporelle ou structurelle. Sur des données en coupe instantanée, il s’agit de
tests d’homogénéité de comportements (hommes/femmes ; riches/pauvres etc.).
Il existe plusieurs tests de stabilité dont les plus utilisés sont le test de Chow, l’analyse des
résidus et des coefficients récursifs et les tests CUSUM et CUSUMQ de Brown, Durbin et
Evans (1975). Le test de Chow effectue un test de Fisher en comparant les estimations des
coefficients sur deux ou plusieurs sous périodes. Il nécessite d’indiquer une ou plusieurs dates
de rupture dans les séries, ce qui requiert une analyse exploratoire plus précise des séries. Les
tests CUSUM et CUSUMQ dispensent de cette connaissance préalable.
Nous allons réaliser le test de Chow en considérant les deux sous périodes 1975-2003 et 2004-
2012. A partir du menu de l’équation, sélectionnez View/Stability Tests/Chow Breakpoint
Test…
Entrez 2004 dans la boîte de dialogue qui apparaît. Cette date correspond à la date supposée
de rupture. Cliquez sur OK pour obtenir le tableau suivant :
La statistique de Fisher reporte une probabilité supérieure à 5% : on ne peut donc pas rejeter
au seuil de 5% l’hypothèse de stabilité des coefficients. En d’autres termes, l’année 2004
n’introduit pas un changement structurel significatif dans le comportement de consommation
des ménages. Notons que le test de Chow n’est pas pertinent si la date choisie ne correspond
pas à la véritable date de rupture.
Une autre procédure de test de stabilité des coefficients et de faire les tests CUSUM et
CUSUMSQ basés sur les résidus récursifs. Le CUSUM utilise la somme cumulée des résidus
récursifs tandis que le CUSUMSQ utilise le carré des résidus récursifs. Ces statistiques de test
offrent l’avantage par rapport au test de Chow de ne pas connaître a priori la date de rupture.
Pour mettre en œuvre ces tests, sélectionnez, à partir du menu de l’équation, View/Stability
Tests/Recursive Estimates…
Il suffit de cocher la case correspondante au test que l’on veut faire (CUSUM ou CUSUMQ).
Les résultats pour les tests CUSUM et CUSUMQ sont représentés dans les graphiques
suivants :
Ce test permet de détecter les instabilités ponctuelles. Après estimation des paramètres par la
MCO, taper : View/Stability Tests/Recursive Estimates/Cusum of squares Test
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
1980 1985 1990 1995 2000 2005 2010
Ce test permet de détecter les instabilités structurelles. Après estimation des paramètres par la
MCO, taper : View/Stability Tests/Recursive Estimates/Cusum Test
20
15
10
-5
-10
-15
-20
1980 1985 1990 1995 2000 2005 2010
CUSUM 5% Significance
Si les courbes sortent du corridor stylisé par les droites en pointillés, on conclut qu’il y a
instabilité du modèle. Sinon, le modèle peut être considéré comme stable sur toute la période.
Ici, aucune des statistiques CUSUM et CUSUMQ ne franchit les droites: nous pouvons donc
conclure que le comportement de consommation des ménages est resté stable sur toute la
période.
Nous avons estimé une équation de consommation sur la période 1975-2012. Nous allons
maintenant utiliser cette équation pour réaliser des prévisions sur la période 2013-2020. Il
s’agira de déterminer les valeurs de la consommation pour des valeurs attribuées au revenu et
au prix. La variable LGT sera éliminée parmi les variables explicatives. Avant de se livrer à
l’exercice, nous allons évaluer la capacité prédictive du modèle en réalisant une simulation
historique.
La simulation historique consiste à appliquer le modèle pour générer les valeurs passées de la
consommation. Cette simulation par resubstitution permet d’évaluer la capacité prédictive du
modèle, c’est-à-dire son aptitude à reproduire les données historiques. Pour réaliser la
simulation, sélectionnez Procs/Forecast ou cliquez simplement sur le bouton Forecast dans
la barre de menu de la fenêtre des estimations. Vous obtenez la fenêtre suivante :
EViews offre la possibilité de prévoir directement les valeurs de la série pour l’horizon
temporelle défini. La série simulée est nommée en ajoutant la lettre F (pour Forecast) au nom
de la variable endogène. Ici cette série prend le nom LN_CONSF. Toutefois, il est possible de
la renommer autrement. La variable LN_CONSF apparaît dans le workfile.
Dans le champ Forecast sample, indiquez la période de prévision et cliquez sur OK pour
valider. Vous obtenez le graphique donnant l’évolution de la variable LN_CONSF sur toute la
période historique 1975-2012. Les courbes en pointillés matérialisent les bornes inférieure et
supérieure de l’intervalle de confiance à 5% des valeurs prévisionnelles. Une bonne
adéquation se traduit par un resserrement de ces deux courbes.
6.8
1975 1980 1985 1990 1995 2000 2005 2010
LN_CONSF ± 2 S.E.
On peut représenter simultanément les évolutions des séries LN_CONS et LN_CONSF afin
d’évaluer graphiquement l’écart entre les valeurs réelles et les valeurs simulées. On constate
(cf figure ci-dessous) que globalement les simulations historiques ne s’écartent pas trop des
valeurs réelles.
8.4
8.2
8.0
7.8
7.6
7.4
7.2
7.0
1975 1980 1985 1990 1995 2000 2005 2010
LN_CONSF LN_CONS
Notons que EViews n’affiche ces différentes statistiques que lorsque les valeurs de la variable
endogène sont renseignées sur la période de simulation. Il s’agit en effet de comparer les
valeurs prédites avec les valeurs réellement observées de la variable endogène. En pratique,
on utilise ces statistiques pour évaluer l’adéquation des prévisions avec les réalisations. Si
cette adéquation est bonne alors on peut procéder à la prévision proprement dite de la variable
endogène. Dans notre exemple, MAPE = 0,42% et Theil = 0,0026 (proche de 0). La
performance prévisionnelle du modèle est donc bonne.
Cette méthode d’évaluation présente cependant un biais : elle fournit le plus souvent une
mesure optimiste de la capacité prédictive du modèle car elle applique le modèle à des
données qui ont servi à le construire. Une autre façon d’apprécier plus objectivement la
capacité prédictive d’un modèle consiste à utiliser le modèle pour prédire les valeurs de la
variable endogène pour une période non comprise dans l’échantillon d’estimation et à vérifier
si les valeurs prédites sont suffisamment proches des valeurs effectivement observées durant
cette période. Cette approche repose sur l’hypothèse de stabilité structurelle du modèle.
Retournez à l’équation et cliquez sur Forecast. Précisez la période de prévision qui est
2013-2020. Cochez l’option Static.
Quatre types d’erreurs entachent la qualité des prévisions : l’incertitude sur l’évolution future
des termes d’erreur; l’incertitude sur les coefficients structurels; l’incertitude sur les valeurs
futures des variables explicatives et l’erreur sur la spécification du modèle5.
5
L’incertitude sur les termes d’erreur provient du fait que ces termes ne sont pas connus sur la période de prévision, ils sont remplacés par
leur valeur moyenne. Or si cette moyenne est nulle sur une période, les valeurs individuelles peuvent cependant être non nulles. Plus l’erreur
individuelle sera importante, plus l’erreur de la prévision sera grande. L’erreur-type fournit une mesure statistique de la variation des erreurs
individuelles.
L’incertitude sur les coefficients structurels provient du fait que ces derniers sont estimés. Il se peut donc que ces estimations dévient des
valeurs vraies des coefficients. Les écart-types des coefficients donnent une idée sur la précision avec laquelle ces coefficients sont estimés.
L’effet de ces incertitudes sur la prévision dépend de la trajectoire prévisionnelle des variables exogènes. Plus ces variables dévieront
fortement de leurs tendances moyennes, plus grande sera l’imprécision des prévisions. La connaissance imprécise des valeurs futures des
variables exogènes introduit un élément supplémentaire d’incertitude dans la prévision de la variable endogène. La qualité des prévisions
dépend également du choix de la spécification du modèle. Par exemple, si l’on adopte une spécification linéaire de façon « mécanique » alors
qu’en réalité la relation véritable est non linéaire, les prévisions seront mauvaises. C’est pour ces diverses raisons que la prévision
conditionnelle ne doit pas être utilisée sur un horizon temporel assez long.
ln Qt 0 1 ln Pt ut avec 0 ln A
Taf :
1) Estimer le modèle linéaire (1.1b) par les MCO (voir base 2 pour les données en
Annexe);
2) Calculer l’élasticité prix de la demande (élasticité de la demande par rapport au prix).
log(Qt ) Qt Pt
Q/ P * 0,55 . En effet si le prix P du bien augmente de 10% alors la
log( Pt ) Pt Qt
demande Q du bien augmente de 5,5%.
2) Calculer « Y0 » et « r » ;
DSt 0 1 ln( RM t ) avec DSt : Dépenses en soins de santé (DS) et RM t : Niveau de salaire
payé aux chefs de ménages. Soit le modèle défini par : DSt 0 1 ln( RM t ) ut
Taf :
1) Estimer le modèle par les MCO (voir la base de données 4 en Annexe).
2) Représenter graphiquement DS et ln_RM
Dependent Variable: DS
Method: Least Squares
Date: 11/12/18 Time: 13:57
Sample: 1979 2017
Included observations: 39
250
200
150
100
50
0
1980 1985 1990 1995 2000 2005 2010 2015
LN_RM
6.6
6.4
6.2
6.0
5.8
5.6
5.4
1980 1985 1990 1995 2000 2005 2010 2015
4.3.1. Modèles ANOVA (Régression variable quantitative sur une ou plusieurs variables
binaires)
Le Modèle (2.1a)
Yi 0 1 Di i Avec Yi : le salaire payé et
Taf :
1) Estimer le modèle linéaire par la MCO (voir base 5 en Annexe) ;
2) Interpréter les résultats
2) Interprétation
Le Modèle (2.1b)
Taf :
1) Estimer le modèle linéaire par la MCO (voir base 6 en Annexe);
2) Interpréter les résultats
Dependent Variable: YI
Method: Least Squares
Date: 11/11/18 Time: 15:20
Sample: 1 39
Included observations: 39
2) Interprétation
Les deux variables explicatives binaires (D1i et D2i) ne sont pas significatives. D’où, pas de
discrimination d’après la nationalité, ni d’après le sexe, dans la distribution de salaires. En
effet les 1 et 2 sont non significatifs ( Prob > 5% ou encore t-stat calculé 1,96 ).
Le Modèle (2.2a)
Yi 0 1 X i 2 Di i Avec Yi : le salaire moyen des salariés ; X i : le nombre
d’années d’expérience ;
Taf :
1) Estimer le modèle linéaire par la MCO (voir base 7 en Annexe);
2) Interpréter les résultats
Dependent Variable: YI
Method: Least Squares
Date: 11/11/18 Time: 15:55
Sample: 1 39
Included observations: 39
2) Interprétation
La nationalité n’est pas décisive dans la distribution des salaires ( 2 est non significatif ( Prob >
5% ou encore t-stat calculé 1,96 ). En revanche, le nombre d’années d’expérience est une
variable clé dans la distribution des salaires. La répartition des salaires est donc fonction du
4.3.3. Régression variable quantitative sur une variable quantitative et deux variables
binaires)
Le Modèle :
Yi 0 1 D1i 2 D2i 3 X i i Avec Yi : le salaire moyen des salariés ; X i : le nombre
d’années d’expérience ;
Taf :
1) Estimer le modèle linéaire par la MCO (voir base 8 en Annexe);
2) Interpréter les résultats
Dependent Variable: YI
Method: Least Squares
Date: 11/11/18 Time: 16:27
Sample: 1 39
Included observations: 39
L’anciennété est le seul facteur qui influence la distribution des salaires (au seuil de 5%).
Taf :
1) Estimer le modèle linéaire par la MCO (voir Base 9 en Annexe);
2) Interpréter les résultats (quel est l’impact du choc pétrolier en 2000)
ANNEXES
Date Qt Pt
1979 311 50
1980 309,1 55
1981 301 81,8
1982 321,6 84,7
1983 308,8 86,9
1984 323,3 85,4
1985 304,1 91,4
1986 276,2 85,5
1987 307,8 95,7
1988 298,1 94,3
1989 297,8 98,3
1990 295,7 98,4
1991 301,4 96,4
1992 336,7 104,3
1993 375,5 113,1
1994 434 110,6
1995 356,2 106
1996 390,9 113,2
1997 402 109,8
1998 407,3 109,9
1999 404,3 125
2000 401,1 127,1
2001 432,5 125
2002 407,8 127,3
2003 433,6 133,3
2004 438,2 138,3
2005 440,3 145,4
2006 450,5 143,2
2007 464,2 149,7
2008 469,2 150,8
2009 477,3 154,7
2010 476,2 153,9
2011 452,6 152,7
2012 468,2 159,4
2013 462,8 160
2014 162,9
2015 164,7
2016 167,6
2017 169,5
Date Yt t
1979 201 1
1980 209,1 2
1981 210 3
1982 221,6 4
1983 208,8 5
1984 223,3 6
1985 204,1 7
1986 276,2 8
1987 207,8 9
1988 298,1 10
1989 277,8 11
1990 295,7 12
1991 201,4 13
1992 236,7 14
1993 275,5 15
1994 234 16
1995 256,2 17
1996 290,9 18
1997 302 19
1998 307,3 20
1999 208,5 21
2000 301,1 22
2001 232,5 23
2002 207,8 24
2003 233,6 25
2004 238,2 26
2005 240,3 27
2006 250,5 28
2007 264,2 29
2008 269,2 30
2009 277,3 31
2010 276,2 32
2011 252,6 33
2012 268,2 34
2013 257,7 35
2014 280,7 36
2015 252 37
2016 246,6 38
2017 341,2 39
Date DS RM
1979 50 375,0
1980 150 369,2
1981 125 339,5
1982 129 348,3
1983 130 378,7
1984 155 364,0
1985 170 411,3
1986 145 432,6
1987 200 457,2
1988 125 432,4
1989 180 439,3
1990 105 412,6
1991 98 489,6
1992 102 445,9
1993 137 450,5
1994 85 255,7
1995 175 267,2
1996 185 224,9
1997 177 235,5
1998 179 260,7
1999 136 332,2
2000 145 371,2
2001 135 407,0
2002 120 422,8
2003 155 474,6
2004 205 469,6
2005 160 453,0
2006 165 392,6
2007 200 449,9
2008 185 451,7
2009 190 528,1
2010 195 494,6
2011 255 545,8
2012 250 542,2
2013 270 588,9
2014 275 612,4
2015 225 603,0
2016 285 640,8
2017 295 583,3
Yi Di
375,0 0
369,2 1
339,5 0
348,3 0
378,7 0
364,0 1
411,3 1
432,6 0
457,2 1
432,4 0
439,3 0
412,6 1
489,6 1
445,9 1
450,5 0
255,7 0
267,2 1
224,9 1
235,5 1
260,7 0
332,2 0
371,2 1
407,0 0
422,8 1
474,6 0
469,6 1
453,0 0
392,6 1
449,9 1
451,7 0
528,1 1
494,6 0
545,8 0
542,2 1
588,9 1
612,4 0
603,0 0
640,8 0
583,3 1
Yi D1i D2i
375,0 0 1
369,2 1 0
339,5 0 1
348,3 0 0
378,7 0 1
364,0 1 0
411,3 1 0
432,6 0 0
457,2 1 1
432,4 0 1
439,3 0 1
412,6 1 0
489,6 1 1
445,9 1 0
450,5 0 1
255,7 0 1
267,2 1 0
224,9 1 0
235,5 1 0
260,7 0 1
332,2 0 1
371,2 1 1
407,0 0 1
422,8 1 0
474,6 0 0
469,6 1 1
453,0 0 1
392,6 1 0
449,9 1 0
451,7 0 1
528,1 1 1
494,6 0 1
545,8 0 1
542,2 1 0
588,9 1 1
612,4 0 0
603,0 0 0
640,8 0 0
583,3 1 0
Yi Di Xi
375,0 0 3,8
369,2 1 3,7
339,5 0 3
348,3 0 3,4
378,7 0 3,5
364,0 1 3
411,3 1 4
432,6 0 4,25
457,2 1 4,5
432,4 0 4
439,3 0 4
412,6 1 4
489,6 1 5
445,9 1 4,25
450,5 0 4,25
255,7 0 2,4
267,2 1 2,5
224,9 1 2
235,5 1 2
260,7 0 2
332,2 0 3
371,2 1 3,5
407,0 0 4
422,8 1 4,25
474,6 0 4,7
469,6 1 4,5
453,0 0 4
392,6 1 3,5
449,9 1 4
451,7 0 4,5
528,1 1 5
494,6 0 4,5
545,8 0 5
542,2 1 5,5
588,9 1 5
612,4 0 7
603,0 0 6
640,8 0 10
583,3 1 5
Base 8 : Répartition des salaires en fonction de la nationalité, le sexe et les années d’expérience
Yi D1i D2i Xi
375,0 0 1 3,8
369,2 1 0 3,7
339,5 0 1 3
348,3 0 0 3,4
378,7 0 1 3,5
364,0 1 0 3
411,3 1 0 4
432,6 0 0 4,25
457,2 1 1 4,5
432,4 0 1 4
439,3 0 1 4
412,6 1 0 4
489,6 1 1 5
445,9 1 0 4,25
450,5 0 1 4,25
255,7 0 1 2,4
267,2 1 0 2,5
224,9 1 0 2
235,5 1 0 2
260,7 0 1 2
332,2 0 1 3
371,2 1 1 3,5
407,0 0 1 4
422,8 1 0 4,25
474,6 0 0 4,7
469,6 1 1 4,5
453,0 0 1 4
392,6 1 0 3,5
449,9 1 0 4
451,7 0 1 4,5
528,1 1 1 5
494,6 0 1 4,5
545,8 0 1 5
542,2 1 0 5,5
588,9 1 1 5
612,4 0 0 7
603,0 0 0 6
640,8 0 0 10
583,3 1 0 5