You are on page 1of 89

ANALYSE DE LA REGRESSION

Royaume du Maroc
Haut Commissariat au Plan
Institut National de Statistique
et d’Economie Appliquée
CHAPITRE 1
RÉGRESSION LINÉAIRE SIMPLE

MUSTAPHA BERROUYNE
INGÉNIEUR EN CHEF PRINCIPAL
ENSEIGNANT À L’INSEA

ANNEE UNIVERSITAIRE 2023-2024


1. LA CORRELATION

 La notion de corrélation a été inventée par PEARSON.


 La corrélation est un indice de la force d'une
relation linéaire ou linéarisée (après
transformation) entre deux ou plusieurs facteurs.
 Lorsque deux facteurs ont une évolution
commune, nous disons qu’ils sont « corrélés».
 La corrélation simple mesure le degré de liaison
existant entre ces deux facteurs représentés par des
variables.

Mustapha BERROUYNE 2 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


1. LA CORRELATION

Nous pouvons distinguer :


 la corrélation linéaire, lorsque tous les points du
couple de valeurs (Xi,Yi) semblent alignés sur une
droite.
 la corrélation non linéaire lorsque le couple de
valeurs se trouve sur une même courbe d’allure
quelconque.
Mustapha BERROUYNE 3 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
1. LA CORRELATION

Deux variables peuvent être :


 en corrélation positive ; on constate alors une
augmentation (ou diminution, ou constance)
simultanée des valeurs des deux variables.

Relation non linéaire


Relation linéaire

Mustapha BERROUYNE 4 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


1. LA CORRELATION
Deux variables peuvent être :
 en corrélation négative, lorsque les valeurs de
l’une augmentent, les valeurs de l’autre diminuent.

Relation linéaire Relation non linéaire

Mustapha BERROUYNE 5 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


1. LA CORRELATION
Deux variables peuvent être :
 non corrélées, il n’y a aucune relation entre les
variations des valeurs de l’une des variables et les
valeurs de l’autre.

Absence de corrélation
Mustapha BERROUYNE 6 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
La représentation graphique ne donne qu’une
«impression» de la corrélation entre deux variables
sans donner une idée précise de l’intensité de la liaison,
c’est pourquoi nous calculons une statistique appelée
coefficient de corrélation linéaire simple, noté 𝐗𝐘 .
𝐍
𝐢=𝟏 𝐗 𝐢 − 𝐗 (𝐘𝐢 − 𝐘) 𝐂𝐨𝐯(𝐗, 𝐘)
𝐗𝐘 = =
 𝐗 𝐘
𝐍
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐍
𝐢=𝟏 𝐘𝐢 − 𝐘 ²

Cov(X,Y) = covariance entre X et Y.


σX et σY = écart type de X et écart type de Y.
N = nombre d’observations.
Mustapha BERROUYNE 7 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
𝐍
𝐢=𝟏 𝐗 𝐢 − 𝐗 (𝐘𝐢 − 𝐘) 𝐂𝐨𝐯(𝐗, 𝐘)
𝐗𝐘 = =
 𝐗 𝐘
𝐍
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐍
𝐢=𝟏 𝐘𝐢 − 𝐘 ²

Ce coefficient est inconnu dans la mesure où il faudra


observer toute la population de taille N individus.
Dans la pratique, une partie de la population (n << N)
est observée : on parle d'un échantillon n.
On appelle 𝐫𝐗𝐘 ce coefficient empirique qui est une
estimation du coefficient vrai 𝐗𝐘 .
𝐧
𝐢=𝟏 𝐗 𝐢 − 𝐗 (𝐘𝐢 − 𝐘) 𝐂𝐨𝐯(𝐗, 𝐘)
𝐫𝐗𝐘 = =
 𝐗 𝐘
𝐧
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐧
𝐢=𝟏 𝐘𝐢 − 𝐘 ²

Mustapha BERROUYNE 8 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
PROPRIETES
 On peut démontrer que, par construction, ce
coefficient reste compris entre −1 et 1 :
✓ proche de 1, les variables sont corrélées
positivement ;
✓ proche de −1, les variables sont corrélées
négativement ;
✓ proche de 0, les variables ne sont pas corrélées.
𝒓𝑿𝒀 = 𝟏 𝒓𝑿𝒀 = −𝟏 𝒓𝑿𝒀 = 𝟎 𝒓𝑿𝒀 > 𝟎 𝒓𝑿𝒀 < 𝟎 𝒓𝑿𝒀 = 𝟎

Mustapha BERROUYNE 9 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
PROPRIETES
 Il est de même signe que la covariance, avec les
mêmes interprétations.
 X et Y sont indépendants, alors 𝐫𝑿𝒀 = 𝟎. La
réciproque est fausse, sauf cas particulier que nous
précisons maintenant.
 Lorsque (X,Y) suit une loi normale bi-variée, et
uniquement dans ce cas, nous avons l'équivalence
𝐫𝑿𝒀 = 𝟎 ⇔ X et Y sont indépendants.
 Le coefficient de corrélation constitue une mesure
de l'intensité de liaison linéaire entre 2 variables. Il
peut être égal à zéro alors qu'il existe une liaison
fonctionnelle entre les variables (liaison non
monotone).
Mustapha BERROUYNE 10 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson

PROPRIETES

 La corrélation d'une variable avec elle même est 𝒓𝑿𝑿= 1.


 Dans la pratique, ce coefficient est rarement très
proche de l’une de ces trois bornes et il est donc
difficile de proposer une interprétation fiable à la
simple lecture de ce coefficient.
 La théorie des tests statistiques nous permet de
lever cette indétermination.
Mustapha BERROUYNE 11 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
AVEC TABLEUR EXCEL
- Nous formons les quantités (XiYi), 𝑿𝟐𝒊 et 𝒀𝟐𝒊 .
-Nous calculons leurs sommes respectives :
4 446 719, 101 961 684 et 197 200.
- A partir de la formule du coefficient de
corrélation de Pearson, nous obtenons le
numérateur =18 320.62 et le dénominateur
= 19 355.86
-Reste à former le rapport, la corrélation
entre la cylindrée et la puissance est 0.9465.
-La fonction prédéfinie
"COEFFICIENT.CORRELATION(...)"
du tableur EXCEL propose la même valeur.
Mustapha BERROUYNE 12 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
AVEC LOGICIEL R AVEC LOGICIEL STATA

library(readxl) . import excel "D:\C-VEHICULES_28.xlsx", sheet("Données") firstrow


CVEHICULES = read_excel("D:/C-VEHICULES_28.xlsx") . cor Cylindree Puissance
(obs=28)
View(CVEHICULES)
attach(CVEHICULES) Cylind~e Puissa~e

cor(Cylindree,Puissance) Cylindree 1.0000


[1] 0.9465153
Mustapha BERROUYNE 13
Puissance 0.9465 1.0000
CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
NUAGE DE POINTS
AVEC TABLEUR EXCEL AVEC LOGICIEL R
plot(Cylindree,Puissance)

Mustapha BERROUYNE 14 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
NUAGE DE POINTS
AVEC LOGICIEL STATA
twoway (scatter Puissance Cylindree)  La "Lancia K 3.0 LS" est une
grosse cylindrée, très puissante.
Elle s'écarte du nuage certes,
mais elle est dans la lignée de la
liaison entre les deux variables.
 La "Hyundai Sonata 3000"
est aussi une grosse cylindrée,
mais elle est relativement
anémique. Le point est un peu
à l'écart des autres.
Mustapha BERROUYNE 15 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
Toutefois, les boites à moustaches pour ces deux
variables montrent que les 2 points en question ne
sont considérés comme "points aberrants".
AVEC LOGICIEL R AVEC LOGICIEL STATA
boxplot(Cylindree,horizontal=TRUE,col="blue", graph hbox Cylindree
+ main="Boite à moustaches: Cylindree") graph hbox Puissance
boxplot(Puissance,horizontal=TRUE,col=" brown",
+ main="Boite à moustaches: Puissance")

500 1,000 1,500 2,000 2,500 3,000 0 50 100 150


Cylindree Puissance

Mustapha BERROUYNE 16 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

Le test d'hypothèses consiste a énoncer deux hypothèses sur un paramètre


, dont une seule est vraie.
Par exemple, on peut tester
- l'hypothèse nulle H0 que  = 𝟎,
- l'hypothèse alternative H1 que  = 𝟏.

L'objectif est de prendre une décision sur H0 qui consistera à rejeter H0


(RH0) ou à ne pas rejeter H0 (𝐑H0).
Mustapha BERROUYNE 17 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

La décision est prise sur base des données observées, et peut donc conduire
à deux types d'erreurs :
- Rejeter H0 alors que H0 est vraie, cette erreur est appelée erreur de
première espèce.
- Ne pas rejeter H0 alors que H0 est fausse, cette erreur est appelée erreur
de deuxième espèce.
Mustapha BERROUYNE 18 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

Erreur de première et seconde espèce


H0 est vraie H0 est fausse
RH0 Erreur de 1ère espèce Décision correcte
𝐑H0 Décision correcte Erreur de 2ème espèce

La probabilité de commettre une erreur de première espèce est notée ; et


la probabilité de commettre une erreur de deuxième espèce est notée .
Dans la théorie des tests d'hypothèses, on fixe  petit.
Mustapha BERROUYNE 19 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

La décision prise sur base des données observées ne peut pas être exacte,
on calcule donc les probabilités de commettre les erreurs.
Probabilité de commetre les erreurs
H0 est vraie H0 est fausse
RH0 Pr(RH0| H0 vraie)=  Pr(𝐑H0| H0 vraie)= 1-
𝐑H0 Pr(𝐑H0| H0 vraie)= 1- Pr(𝐑H0| H0 fausse)= 
Mustapha BERROUYNE 20 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

En pratique, on ne teste pas des hypothèses simples, mais des hypothèses


composites.
En effet, les questions que l'on se pose sur le paramètre sont du type "Le
paramètre  est-il strictement plus grand qu'une certaine valeur 0 ?"
Mustapha BERROUYNE 21 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
RAPPEL SUR LES TESTS D’HYPOTHESES

Ce type d'hypothèse composite amène  à la construction de test du type :


𝐇𝟎 ∶  = 𝟎 𝐇𝟎 ∶  ≥ 𝟎 𝐇𝟎 ∶  ≤ 𝟎
1) 2) 3)
𝐇𝟏 ∶  ≠ 𝟎 𝐇𝟏 ∶  < 𝟎 𝐇𝟏 ∶  > 𝟎

Mustapha BERROUYNE 22 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
❖ Spécification du test
H0 : 𝐫𝑪,𝑷 = 𝟎
H1 : 𝐫𝑪,𝑷 ≠ 𝟎

Il s'agit d'un test bilatéral et donc répartir α en deux.


Le seuil α est libre (souvent α = 5%).
Le test étudié ainsi est paramétrique. On suppose a
priori que le couple (C,P) suit une loi normale bivariée.
Statistique du test 𝒕=
𝐫𝑪,𝑷
𝟐
(𝟏 − 𝐫𝐂,𝐏 )
𝐧−𝟐

suit sous H0 une loi de Student à n-2 degrés de libertés.


Mustapha BERROUYNE 23 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
Région critique : La région critique (rejet de H0) du test au risque  s'écrit :

R.C : |t0| > 𝐭 𝟏− (n-2); où 𝐭 𝟏− (n-2) est le quantile d'ordre 𝟏 − de la loi de
𝟐 𝟐 𝟐
Student à (n - 2) degrés de liberté. Il s'agit d'un test bilatéral.
Probabilité critique (p-value): Plutôt que de comparer la statistique
calculée avec la seuil théorique fournie par la loi de Student, les logiciels
proposent souvent la probabilité critique ( p-value) que l'on doit comparer
au risque  que l'on s'est fixé. Si la p-value est plus petite, alors nous
rejetons l'hypothèse nulle.

Mustapha BERROUYNE 24 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
On peut construire la table du t de Student (test
bilatéral) avec la fonction prédéfinie
LOI.STUDENT.INVERSE(alpha;ddl) du tableur Excel.

Mustapha BERROUYNE 25 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
𝟎,𝟗𝟒𝟔𝟓
La statistique du test 𝐭 = = 𝟏𝟒, 𝟗𝟔 >> au seuil
(𝟏−𝟎,𝟗𝟒𝟔𝟓²)
𝟐𝟖−𝟐

théorique au risque α =5% [t0.975(28−2) = 2.0555] (en


consultant la table de Student, figure ci-dessus).
Avec Excel, la fonction prédéfinie suivante permet de
trouver la valeur de t.
LOI.STUDENT.INVERSE(26,0.05)=2.0555 (voir figure ci-dessus).

On peut aussi utiliser la fonction suivante pour


trouver la p-value du Test.
LOI.STUDENT(14,96;26;2) = 2.74331E-14= 0.000000000000027 < < 5%.
Mustapha BERROUYNE 26 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
Nous concluons donc au rejet de l'hypothèse nulle
c'est-à-dire les résultats que nous obtenons à partir
des données ne sont pas compatibles avec une
absence de corrélation.

Mustapha BERROUYNE 27 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
On peut retrouver ces résultats en utilisant les
logiciels R et Stata :
AVEC R
# Tracé de la loi de Student
# Taille de notre échantillon n
n =28
# Calcul du coefficient de corrélation de Pearson
r = cor(Cylindree, Puissance)
r # 0.9465153
# Le t de Student de l'échantillon
techant = r/sqrt((1-r^2)/(n-2))
techant # 14.95791
# Tracé de la loi T de Student avec 26 ddl
t=seq(from =-2.5 ,to =2.5, by =0.1)
plot(x=t,y=dt(x=t,df=26),main="Loi de Student\nddl=26",type="l")
# On détermine le quantile t à 2.5% à l'aide de la fonction qt()
t2.5=qt(p=0.025,df=26, lower.tail=F)
t2.5 # 2.055529
# Affichage des quantiles sur le graphique
abline(v=c(-t2.5,t2.5),col=2) # Verticales en rouge
Mustapha BERROUYNE 28 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
TEST DE SIGNIFICATIVITE
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)

AVEC STATA

Mustapha BERROUYNE 29 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE
On cherche à expliquer les variations d’une variable
quantitative Y (Consom: la consommation du
véhicule) par une variable explicative X également
quantitative (Poids : son poids).
Les différentes variables :
- Variables observées à un moment donné (modèle en coupe
instantané) : 𝒀𝒊 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒊 + 𝜺𝒊
- Variables observées au cours du temps en série temporel
(modèle en série temporel) : 𝒀𝒕 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒕 + 𝜺𝒕
- Variables peuvent être observé pour des échantillons au
cours du temps (modèle de Panel) : 𝒀𝒊𝒕 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒊𝒕 + 𝜺𝒊𝒕
L’objectif de la régression linéaire simple est de
modéliser la variable aléatoire Y par une certaine
fonction de X, f(X), qui soit la meilleure possible au
sens de l’erreur quadratique moyenne.
Mustapha BERROUYNE 30 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE
14
12
Consom
10
8
6

500 1000 1500 2000


Poids

Chaque point du graphique représente, pour chaque


véhicule, une mesure de la consommation et de son poids.
Pour analyser la relation entre les xi et les yi, nous allons
chercher une fonction f telle que : yi ≈ f(xi)
Mustapha BERROUYNE 31 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE
Pour définir ≈, il faut donner un critère quantifiant la
qualité de l’ajustement de la fonction f aux données.
Le problème mathématique peut s’écrire de la façon
𝒂𝒓𝒈𝒎𝒊𝒏 𝐧𝐢=𝟏 𝒍 𝐲𝐢 − 𝐟 𝐱𝐢
suivante : où n représente le
𝒇∈𝑮
nombre de données à analyser et l(.) est appelée
fonction de coût ou fonction de perte.
CHOIX DU CRITERE DE QUALITE
Deux fonctions sont classiquement utilisées :
- le coût absolu l(u) = |u| ;

- le coût quadratique l(u) = u .


2

Mustapha BERROUYNE 32 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


3. SPECIFICATION DU MODELE DE LA RLS
CHOIX DU CRITERE DE QUALITE

Ces fonctions sont positives, symétriques, elles


donnent donc la même valeur lorsque l’erreur est
positive ou négative et s’annulent lorsque u vaut zéro.
On privilégiera dans la suite la fonction de coût
quadratique. On parle alors de méthode d’estimation
par moindres carrés.
Mustapha BERROUYNE 33 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE

Mustapha BERROUYNE 34 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE

Toutefois, le modèle (1) suppose que les deux variables sont


significativement corrélées ente elles.
Ce résultat peut être vérifié en :
- l’examen du diagramme du nuage des points ;
- réalisation du test d’hypothèse relatif au coefficient de corrélation
linéaire de Pearson "𝐫𝐱𝐲".
Dans ce modèle, 2 paramètres sont à estimer, à savoir : 𝐚𝟏, la pente de la
droite (variation de Y due à une variation unitaire de X) et 𝐚𝟎, l’ordonnée à
l’origine.
Mustapha BERROUYNE 35 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
4. ESTIMATION DU MODELE DE LA RLS

DEFINITION
On appelle estimateurs des moindres carrés ordinaires
(mco) 𝐚0 et 𝐚1 les valeurs minimisant la quantité :
𝐧
𝐒 𝐚𝟎 , 𝐚𝟏 = 𝐢=𝟏(𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱𝐢 )𝟐

Les estimateurs peuvent également s’écrire sous la


forme suivante : 𝐚𝟎 , 𝐚𝟏 = 𝐚𝐫𝐠𝐦𝐢𝐧 𝐒 𝐚𝟎 , 𝐚𝟏
La fonction 𝐒 𝐚𝟎 , 𝐚𝟏 est strictement convexe, donc elle
admet un minimum en un unique point (𝐚0 et 𝐚1), lequel
est déterminé en annulant les dérivées partielles de S.
Mustapha BERROUYNE 36 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
4. ESTIMATION DU MODELE DE LA RLS
𝐧
𝝏𝑺
= −𝟐 (𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱 𝐢 ) = 𝟎 (𝟏)
𝝏𝒂𝟎
𝐢=𝟏
𝐧
𝝏𝑺
= −𝟐 𝐱 𝐢 (𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱 𝐢 ) = 𝟎 (𝟐)
𝝏𝒂𝟏
𝐢=𝟏
𝐧 𝐧
(1) donne : 𝐚𝟎 𝐧 + 𝐚𝟏 𝐢=𝟏 𝐱 𝐢 = 𝐢=𝟏 𝐲𝐢

 𝐚𝟎 = 𝐲 − 𝐚𝟏𝐱
(𝟑)
où 𝐱 et 𝐲 sont les moyennes des xi et des yi.
(3) montre que la droite passe par le point (𝐱, 𝐲).

Mustapha BERROUYNE 37 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


4. ESTIMATION DU MODELE DE LA RLS
𝐧 𝐧 𝟐 𝐧
(2) donne : 𝐚𝟎 𝐢=𝟏 𝐱 𝐢 + 𝐚𝟏 𝐱
𝐢=𝟏 𝐢 = 𝐢=𝟏 𝐱 𝐢 𝐲𝐢

(3)  (𝐲 − 𝐚𝟏 𝐱) 𝐧𝐢=𝟏 𝐱𝐢 + 𝐚𝟏 𝐧𝐢=𝟏 𝐱𝐢𝟐 = 𝐧𝐢=𝟏 𝐱𝐢 𝐲𝐢


𝐧 𝐧 𝐧 𝟐 𝐧
𝐱
𝐢=𝟏 𝐢 𝐲 − 𝐚𝟏 𝐢=𝟏 𝐢𝐱 𝐱 + 𝐚 𝟏 𝐢=𝟏 𝐢𝐱 = 𝐢=𝟏 𝐱 𝐢 𝐲𝐢
𝐚𝟏 𝐧𝐢=𝟏 𝐱𝐢𝟐 − 𝐧𝐢=𝟏 𝐱𝐢 𝐱 = 𝐧𝐢=𝟏 𝐱𝐢 𝐲𝐢 − 𝐧𝐢=𝟏 𝐱𝐢 𝐲
𝐧 𝐧
𝐢=𝟏 𝐱 𝐢 𝐲𝐢 − 𝐢=𝟏 𝐱 𝐢 𝐲
𝐚𝟏 = 𝐧 𝟐 𝐧
𝐱
𝐢=𝟏 𝐢 − 𝐢=𝟏 𝐱 𝐢 𝐱
𝐧
En utilisant astucieusement la nullité de 𝐢=𝟏(𝐱𝐢 − 𝐱)

 𝐚𝟏 =
𝐧 𝐧
𝐢=𝟏 𝐱𝐢 (𝐲𝐢 −𝐲) 𝐢=𝟏(𝐱𝐢 −𝐱)(𝐲𝐢 −𝐲) 𝐂𝐎𝐕(𝐗,𝐘)
𝐧 𝐱 (𝐱 −𝐱) = 𝐧 (𝐱 −𝐱)(𝐱 −𝐱) =
𝐢=𝟏 𝐢 𝐢 𝐢=𝟏 𝐢 𝐢 𝐕(𝐗)
Mustapha BERROUYNE 38 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
4. ESTIMATION DU MODELE DE LA RLS
Pour vérifier qu’il s’agit bien d’un minimum, on doit montrer que la matrice
Hessienne (H) des dérivées secondes est définie positive.
𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏 𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏
𝛛𝐚𝟎 𝟐 𝛛𝐚𝟎 𝛛𝐚𝟏
𝐇 =
𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏 𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏
𝛛𝐚𝟎 𝛛𝐚𝟏 𝛛𝐚𝟏 𝟐
𝛛𝟐 𝐒 𝐚𝟎 ,𝐚𝟏
= 𝟐𝐧
𝛛𝐚𝟎 𝟐
𝐧
𝛛𝟐 𝐒𝐚𝟎 ,𝐚𝟏 𝐧 𝟐 𝐧 𝐢=𝟏 𝐱 𝐢
=𝟐 𝐱
𝐢=𝟏 𝐢  𝐇=𝟐 𝐧 𝐧 𝟐
𝛛𝐚𝟏 𝟐
𝐢=𝟏 𝐱 𝐢 𝐱
𝐢=𝟏 𝐢
𝛛𝟐 𝐒 𝐚𝟎 ,𝐚𝟏 𝐧
=𝟐 𝐢=𝟏 𝐱 𝐢
𝛛𝐚𝟎 𝛛𝐚𝟏
Mustapha BERROUYNE 39 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
5. HYPOTHESES DE LA RLS
Les hypothèses suivantes permettent de déterminer les estimateurs des
coefficients du modèle ayant de bonnes propriétés et de construire des tests
statistiques (tests et intervalles de confiance).
H1 : le modèle est linéaire en xt ou f(xt) ;
On suppose l’existence d’une relation linéaire liant X et Y.
La vérification se fait par l’analyse de la corrélation linéaire (nuage de
points, intensité et test statistique

Mustapha BERROUYNE 40 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


5. HYPOTHESES DE LA RLS
H1 : le modèle est linéaire en xt ou f(xt) ;
On peut ramener un modèle non linéaire à un modèle linéaire via des
transformations.
Les principaux modèles utilisés en économétrie

Mustapha BERROUYNE 41 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


5. HYPOTHESES DE LA RLS
H2 : les valeurs de xt sont observées sans erreur (xt non aléatoire) ;
𝐱𝐭 est certaine et connue sans erreur
𝐱𝐭 mesurée = 𝐱𝐭 vraie
H3 : E(t) = 0, en moyenne le modèle est bien spécifié et donc l’erreur
moyenne est nulle ;
H4 : E(𝟐𝐭 ) =𝟐 = 𝐜𝐬𝐭𝐞, la variance de l’erreur est constante ;

La variance de l’erreur est constante : le risque de l’amplitude de l’erreur


est le même quelle que soit la période.
Mustapha BERROUYNE 42 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
5. HYPOTHESES DE LA RLS

H5 : 𝐄(𝐭 𝐭′ ) = 0 si t  𝐭 , les erreurs sont non corrélées (ou indépendantes) ;


Les erreurs sont non corrélées. Une erreur à l’instant t n’a pas d’influence
sur les erreurs suivantes.
H6 : COV(xt,t)=0, l’erreur est indépendante de la variable explicative ;
H7 : t  N(0,  ), hypothèse utilisée pour les inférences.
𝟐

Mustapha BERROUYNE 43 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS

1. Les estimateurs des MCO sont linéaires et s’expriment comme


combinaisons linéaires des observations yt :
𝐧 𝐧
𝐭=𝟏 𝐱𝐭 𝐲𝐭 −𝐧 𝐱 𝐲 𝐭=𝟏(𝐱𝐭 −𝐱) 𝐲𝐭 𝐧 (𝐱𝐭−𝐱)
𝐚𝟏 = 𝐧 𝐱𝟐 −𝐧 𝐱𝟐 = 𝐧 (𝐱 −𝐱)𝟐 = 𝐭=𝟏 𝐧 (𝐱 −𝐱)𝟐 𝐲𝐭
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭

𝐧 𝐧 𝐧
𝟏 (𝐱𝐭 − 𝐱) 𝟏 (𝐱𝐭 − 𝐱) 𝐱
𝐚𝟎 = 𝐲 − 𝐚𝟏𝐱 = 𝐲𝐭 − 𝐱 𝐧 𝟐 𝐲𝐭 = − 𝐧 𝐲
𝟐 𝐭
𝐧 𝐭=𝟏(𝐱𝐭 − 𝐱) 𝐧 𝐭=𝟏(𝐱𝐭 − 𝐱)
𝐭=𝟏 𝐭=𝟏 𝐭=𝟏
Mustapha BERROUYNE 44 CHAPITRE 1. MODELE LINEAIRE SIMPLE
6. PROPRIÉTÉS DES ESTIMATEURS

2. Les estimateurs des MCO sont non-biaisés si les observations xt sont non
aléatoires (H2) et l’espérance mathématique de l’erreur est nulle (H3).
Pour la pente 𝐚𝟏 : 𝐄(𝐚𝟏) = 𝐚𝟏
𝐲𝐭 = 𝐚𝟎 + 𝐚𝟏 𝐱𝐭 + 𝐭 (𝟕)
; (7) – (8) ➔ 𝐲𝐭 − 𝐲 = 𝐚𝟏 𝐱𝐭 − 𝐱 + (𝐭 − )
𝐲 = 𝐚𝟎 + 𝐚𝟏𝐱 +  (𝟖)
𝐧
𝐧
𝐭=𝟏(𝐱𝐭−𝐱) (𝐲𝐭−𝐲) 𝐭=𝟏
(𝐱 𝐭 −𝐱 ) 𝐚 𝟏 𝐱 𝐭 −𝐱 +( −) 𝐭=𝟏 𝐱𝐭−𝐱 𝐭
𝐧
➔ 𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 = 𝐧 (𝐱 −𝐱)𝟐
𝐭
= 𝐚𝟏 + 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
Mustapha BERROUYNE 45 CHAPITRE 1. MODELE LINEAIRE SIMPLE
6. PROPRIÉTÉS DES ESTIMATEURS

𝐭=𝟏 𝐱𝐭−𝐱 𝐭 𝐭=𝟏 𝐱𝐭−𝐱 𝐄( 𝐭)


𝐧 𝐧
➔ 𝐄 𝐚 𝟏 = 𝐄 𝐚𝟏 + 𝐧 (𝐱 −𝐱)𝟐 = 𝐄(𝐚𝟏) + 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭

𝐭=𝟏 𝐱𝐭 − 𝐱 𝐄( 𝐭 )
𝐧
= 𝐚𝟏 + 𝐧 𝟐
𝐭=𝟏(𝐱𝐭 − 𝐱)

Mustapha BERROUYNE 46 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS

2. Les estimateurs des MCO sont non-biaisés si les observations xt sont non
aléatoires (H2) et l’espérance mathématique de l’erreur est nulle (H3).

Mustapha BERROUYNE 47 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS

➔ 𝐄 𝐚𝟎 =𝐄 𝐚𝟎 −𝐱( 𝐄 𝐚𝟏)−𝐚𝟏 )+𝐄()


Sous les mêmes hypothèses (H2 et H3) et du fait que 𝐄 𝐚𝟏 =𝐚𝟏
➔ 𝐄 𝐚𝟎 =𝐚𝟎
Mustapha BERROUYNE 48 CHAPITRE 1. MODELE LINEAIRE SIMPLE
6. PROPRIÉTÉS DES ESTIMATEURS
3. Les estimateurs sont convergents (théorème de GAUSS-MARKOV).
Les deux estimateurs des MCO sans biais sont convergents si :
𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎 et 𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎

𝟐
𝐭=𝟏 𝐱 𝐭 − 𝐱 𝐭
𝐧
2
𝐕𝐚𝐫 𝐚𝟏 = 𝐄 𝐚𝟏 − 𝐚𝟏 =𝐄 𝐧 𝟐
𝐭=𝟏(𝐱𝐭 − 𝐱)
𝟐
𝐧
𝐭=𝟏 𝐱 𝐭 − 𝐱  𝐭 𝐄 𝐧
𝐭=𝟏 𝐱𝐭 − 𝐱 ²𝟐𝐭 + 𝟐 𝐧
𝐱𝐭 − 𝐱 𝐱𝐭′ − 𝐱 𝐭 𝐭 ′
𝐭<𝐭′
=𝐄 𝐧 𝟐 2
= 𝐧 𝟐 2
𝐭=𝟏(𝐱 𝐭 − 𝐱) 𝐭=𝟏(𝐱 𝐭 − 𝐱)

𝐧
𝐭=𝟏 𝐱 𝐭 −𝐱 2 𝐄 𝟐 𝐧
𝐭 +𝟐 𝐭<𝐭′ 𝐱 𝐭 −𝐱 𝐱 𝐭′ −𝐱 𝐄( 𝐭 𝐭 ′ )
= 𝐧 (𝐱 −𝐱)𝟐 2
𝐭=𝟏 𝐭

𝐕𝐚𝐫( 𝐭 ) 𝟐
= 𝐧 (𝐱 −𝐱)𝟐 = 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭

Mustapha BERROUYNE 49 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS
3. Les estimateurs sont convergents (théorème de GAUSS-MARKOV).
Les deux estimateurs des MCO sans biais sont convergents si :
𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎 et 𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎
𝐕𝐚𝐫( 𝐭 ) 
𝟐
𝐕𝐚𝐫 𝐚𝟏 = 𝐧 𝟐
= 𝐧 𝟐
𝐭=𝟏(𝐱 𝐭 − 𝐱) (𝐱
𝐭=𝟏 𝐭 − 𝐱 )
Lorsque le nombre d’observations est important n assez grand), les valeurs
de la variable explicative sont très dispersées autour de la moyenne :
𝐧
➔ 𝐭=𝟏(𝐱𝐭 −𝐱) est assez grand ➔ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎
𝟐
Mustapha BERROUYNE 50 CHAPITRE 1. MODELE LINEAIRE SIMPLE
6. PROPRIÉTÉS DES ESTIMATEURS
3. Les estimateurs sont convergents (théorème de GAUSS-MARKOV).
Les deux estimateurs des MCO sans biais sont convergents si :
𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎 et 𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎
𝐚𝟎 = 𝐚𝟎 − 𝐚𝟏 − 𝐚𝟏 𝐱 + 

𝐕𝐚𝐫 𝐚𝟎 = 𝐄 𝐚𝟎 − 𝐚𝟎 2 = 𝐄 (− 𝐚𝟏 − 𝐚𝟏 𝐱 + )²
=𝐄 𝐚𝟏 − 𝐚𝟏 𝐱 𝟐 + 𝐄 2 − 𝟐 𝐄[( 𝐚𝟏 − 𝐚𝟏 𝐱 ]
𝟏
𝐭=𝟏 𝐭
𝐧
= 𝐱²𝐄 𝐚𝟏 − 𝐚𝟏 2
+𝐄 ²
𝐧
𝟏
= 𝐱²𝟐𝐚𝟏 + 𝐧² 𝐄 𝐭=𝟏 𝐭 𝐭 𝐭 ′]
𝐧 𝟐 n
+𝟐 𝐭<𝐭′
𝟏
= 𝐱 2 𝟐𝐚𝟏 + 𝐧2 n𝐄 𝟐𝐭 + 2 n
𝐭<𝐭 ′ E[𝐭 𝐭 ′]
𝟐 𝟏 𝟏 𝐱²
= 𝐱² 
𝐧 (𝐱 −𝐱)𝟐 + 
𝐧 
𝟐 = 𝟐
 𝐧+ 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝟏 𝐱²
𝐕𝐚𝐫 𝐚𝟎 = 𝟐
𝐧
+ 𝐧 𝟐 Pour n assez grand ➔ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎
𝐭=𝟏(𝐱 𝐭 − 𝐱)

Mustapha BERROUYNE 51 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS
𝟒. 𝐂𝐨𝐯 𝐚𝟎 , 𝐚𝟏 = −𝐱 𝐕𝐚𝐫( 𝐚𝟏 )

𝐂𝐨𝐯 𝐚𝟎 , 𝐚𝟏 = 𝐄 𝐚𝟎 − 𝐚𝟎 𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 𝐱 +  𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 ² 𝐱 +  𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 2 𝐱 +  𝐄 𝐚𝟏 − 𝐚𝟏
𝐄 𝐚𝟏 − 𝐚𝟏 ² = −𝐱 𝐕𝐚𝐫( 𝐚𝟏 )
= 𝟐𝐚𝟏 =0

Mustapha BERROUYNE 52 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS

5. Matrice de variances-covariances

Mustapha BERROUYNE 53 CHAPITRE 1. MODELE LINEAIRE SIMPLE


6. PROPRIÉTÉS DES ESTIMATEURS

EN SOMME

Les estimateurs des Moindres Carrés Ordinaires sont des estimateurs


linéaires, non biaisés, convergents et à variance minimale c’est-à-dire
efficaces (Best Lineair Unbiased Estimators)

Mustapha BERROUYNE 54 CHAPITRE 1. MODELE LINEAIRE SIMPLE


7. EXEMPLE D’APPLICATION
Avec STATA t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
 𝐚𝟏  𝐚𝟎 2001 4800 6000
2002 5840 7300
𝐚𝟏 2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
consommation Coef. Std. Err. t P>|t| [95% Conf. Interval] 2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
𝐚𝟎 revenu 1.118187 .0357759 31.26 0.000 1.042346 1.194029 2012 11250 12500
2013 12303 12950
_cons -2520.105 399.5378 -6.31 0.000 -3367.087 -1673.123 2014
2015
12350
12825
13000
13500
2016 12968 13650
2017 13300 14000

✓ CODE STATA
Regress consommation revenu

Mustapha BERROUYNE 55 CHAPITRE 1. MODELE LINEAIRE SIMPLE


8. DECOMPOSITION DE LA VARIANCE
1. EQUATION FONDAMENTALE DE L’ANALYSE DE LA VARIANCE
Ce que le modèle explique et ce qu’il n’explique pas
Nous avons
Nous avons :: 𝒚𝐲𝒕𝐭 =
=𝒂 + 𝐚𝒂𝟏𝟏𝐱𝐭𝐱 𝒕==𝐲 𝒚−−𝟐𝒂𝐱𝟏+𝐱+
𝐚𝟎𝟎 + 𝐱 avec 𝐚𝟎 =𝒂𝐲𝟎 −
𝟐 𝐢𝒂𝟏 𝐱 𝒕 , avec = 𝐚𝒚𝟏−
𝐱 𝒂𝟏 𝐱

➔ 𝐲𝐭 − 𝐲 = 𝐚𝟏 (𝐱𝐭 − 𝐱) (A). (𝐲𝐭 − 𝐲𝐭 ) = (𝐲𝐭 − 𝐲) − (𝐲𝐭 − 𝐲)


𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐭(𝐲𝐭 − 𝐲)² + 𝐭(𝐲𝐭 − 𝐲)² − 𝟐 𝐭(𝐲𝐭 − 𝐲) (𝐲𝐭 − 𝐲)
(A) ➔ 𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐭(𝐲𝐭 − 𝐲)² + 𝐭(𝐲𝐭 − 𝐲)² − 𝟐 𝐚𝟏 𝐭(𝐲𝐭 − 𝐲) (𝐱𝐭 − 𝐱) (B)
𝐂𝐨𝐯(𝐗,𝐘) t(𝐲𝐭 −𝐲)(𝐱𝐭 −𝐱)
Or 𝐚𝟏 = = 𝟐
𝐕𝐚𝐫(𝐗) 𝐭 𝐱𝐭 −𝐱

(B) ➔ 𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐢(𝐲𝐢 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 𝟐 − 𝟐 𝐚𝟐𝟏 𝐭 𝐱𝐭 − 𝐱 𝟐

𝟐
= 𝐭(𝐲𝐭 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 −𝟐 𝐭 𝐚𝟏 𝐱𝐭 − 𝐱 ²
𝟐 𝟐
= 𝐭(𝐲𝐭 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 −𝟐 𝐭 𝐲𝐭 − 𝐲
𝟐
= 𝐢(𝐲𝐢 − 𝐲)² − 𝐭 𝐲𝐭 − 𝐲
Soit 𝐭(𝐲𝐭 − 𝐲)² = 𝐭 𝐲𝐭 − 𝐲 𝟐
+ 𝐭(𝐲𝐭 − 𝐲𝐭 )²
Mustapha BERROUYNE 56 CHAPITRE 1. MODELE LINEAIRE SIMPLE
8. DECOMPOSITION DE LA VARIANCE
1. EQUATION FONDAMENTALE DE L’ANALYSE DE LA VARIANCE
Ce que le modèle explique et ce qu’il n’explique pas

𝐧 𝐧 𝟐 𝐧
𝐭=𝟏(𝐲𝐭 − 𝐲)² = 𝐭=𝟏 𝐲𝐭 − 𝐲 + 𝐭=𝟏(𝐲𝐭 − 𝐲𝐭 )²
SCT = SCE + SCR
SOMME DES CARRES TOTAUX SOMME DES CARRES EXPLIQUES SOMME DES CARRES RESIDUELS
TOTAL SUM OF SQUARES REGRESSION SUM OF SQUARES ERROR SUM OF SQUARES
(TSS) (RSS) (ESS)

- SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y
c.-à-d. l'information disponible dans les données.
- SCE est la somme des carrés expliqués. Elle indique la variabilité
expliquée par le modèle c'est-à-dire la variation de Y expliquée par X.
- SCR est somme des carrés résiduels. Elle indique la variabilité non
expliquée (résiduelle) par le modèle c’est à dire l'écart entre les valeurs
observées de Y et celles prédites par le modèle.

Mustapha BERROUYNE 57 CHAPITRE 1. MODELE LINEAIRE SIMPLE


8. DECOMPOSITION DE LA VARIANCE
1. EQUATION FONDAMENTALE DE L’ANALYSE DE LA VARIANCE

Deux situations extrêmes peuvent survenir :


- Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont
complètement expliquées par celles de X.
➔ modèle parfait, la droite de régression passe exactement par tous les
points du nuage (𝐲𝐭 = yt).
- Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y. Ainsi,
𝐲𝐢 = 𝐲, la meilleure prédiction de Y est sa propre moyenne.
Mustapha BERROUYNE 58 CHAPITRE 1. MODELE LINEAIRE SIMPLE
8. DECOMPOSITION DE LA VARIANCE
2. TABLEAU DE L’ANALYSE DE LA VARIANCE

Nous pouvons produire le tableau suivant d'analyse de la variance


(ANOVA : ANalys Of VAriance).
Somme Moyenne
Modèle ddl F Sig.
des carrés des carrés
Régression SCE 1 MCE=SCE/1
MCE/MCR
Résidu SCR n-2 MCR=SCR/n-2
Total SCT n-1
Abréviations :
- Moyenne des carrés : rapport somme des carrés (SC/ddl), relatif soit au
modèle soit à l’erreur ;
- F : rapport des MCE et MCR ;
- Sig. : Signification du test.
- ddl : degrés de liberté. Ils vérifient : ddltotal = ddlmodèle + ddlerreur ;
Mustapha BERROUYNE 59 CHAPITRE 1. MODELE LINEAIRE SIMPLE
8. DECOMPOSITION DE LA VARIANCE
2. TABLEAU DE L’ANALYSE DE LA VARIANCE
DEGRES DE LIBERTE

Les degrés de liberté peuvent être vu de différentes manières.


La définition la plus accessible est de les comprendre comme le nombre de
termes impliqués dans les sommes (le nombre d'observations) moins le
nombre de paramètres estimés dans cette somme.
Ainsi :
- Nous avons besoin de l'estimation de la moyenne 𝐲 pour calculer la somme
SCT (ddl = n-1).
- Nous avons besoin des coefficients estimés 𝐚𝟎 𝐞𝐭 𝐚𝟏 pour obtenir la
projection 𝐲𝐭 et former la SCR (ddl = n-2).
- Concernant la SCE, le plus simple est de l'obtenir par déduction, c’est à
dire (n − 1) − (n − 2) = 1.

Mustapha BERROUYNE 60 CHAPITRE 1. MODELE LINEAIRE SIMPLE


8. DECOMPOSITION DE LA VARIANCE
3. QUALITE DE L’AJUSTEMENT DE LA REGRESSION

Plus la variance expliquée SCE est proche de la variance totale SCT


(respectivement, plus la variance résiduelle est petite) meilleur est
l’ajustement du nuage de points par la droite des Moindres Carrés.

L’équation fondamentale de l’analyse de la variance permet de juger la


qualité de l’ajustement du modèle de la RLS. Comment ?
𝐒𝐂𝐄 𝐒𝐂𝐑
Par le calcul du coefficient de détermination R2. 𝐑² = =𝟏−
𝐒𝐂𝐓 𝐒𝐂𝐓

Mustapha BERROUYNE 61 CHAPITRE 1. MODELE LINEAIRE SIMPLE


8. DECOMPOSITION DE LA VARIANCE
3. QUALITE DE L’AJUSTEMENT DE LA REGRESSION

𝟎 ≤ 𝐑² ≤ 𝟏 Il indique la proportion de variance de Y expliquée par le modèle.


- Plus il sera proche de la valeur 1, meilleur sera le modèle, la connaissance
des valeurs de X permet de deviner avec précision celle de Y.
- Lorsque R² est proche de 0, cela veut dire que X n'apporte pas
d'informations utiles (intéressantes) sur Y, la connaissance des valeurs de X
ne nous dit rien sur celles de Y.

- On démontre que R2 représente aussi le carré du coefficient de corrélation


linéaire entre Y et 𝐘 estimé : 𝐑² = 𝐂𝐨𝐫𝐫²(𝐲, 𝐲)
Mustapha BERROUYNE 62 CHAPITRE 1. MODELE LINEAIRE SIMPLE
8. DECOMPOSITION DE LA VARIANCE
4. EXEMPLE D’APPLICATION Avec STATA
t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
Mustapha BERROUYNE 63 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : ESTIMATION

Les variances et covariance des estimateurs 𝐚𝟎 et 𝐚𝟏 établies précédemment


ne sont pas pratiques car elles font intervenir la variance inconnue 𝛔𝟐𝛆 des
erreurs.
Néanmoins, on peut en donner un estimateur sans biais grâce aux résidus.

Mustapha BERROUYNE 64 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : ESTIMATION
Estimateur "𝟐 " de la variance de l’erreur "𝟐 ".

Mustapha BERROUYNE 65 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : ESTIMATION

Estimateur "𝟐 " de la variance de l’erreur "𝟐 ".

Mustapha BERROUYNE 66 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : ESTIMATION

CONSEQUENCES

𝟐

𝐕𝐚𝐫 𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭

𝟐 𝟏 𝐱²
𝐕𝐚𝐫 𝐚𝟎 =  + 𝐧 𝟐
𝐧 (𝐱
𝐭=𝟏 𝐭 − 𝐱 )
𝟐 𝟐
Un estimateur sans biais " " de la variance de l’erreur " " est donné
l’expression suivante :
𝐧 𝐧
𝟐 𝐭=𝟏 𝐞𝐭 ² 𝐭=𝟏 𝐲𝐭 − 𝐲𝐭 ²
 = =
𝐧−𝟐 𝐧−𝟐
Mustapha BERROUYNE 67 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : DISTRIBUTION
RAPPEL SUR LA VARIABLE KHI-CARRE
Soit z une variable aléatoire normale, centrée réduite (c'est-à-dire de
moyenne nulle et de variance égale à 1), alors la variable aléatoire :
Q1= z² suit la loi de Khi-deux à 1 seul degré de liberté notée 𝟐𝟏

Mustapha BERROUYNE 68 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : DISTRIBUTION
RAPPEL SUR LA VARIABLE KHI-CARRE

Soit une suite de variables aléatoires indépendantes, normales, centrées


réduites, z1, …, zp ; (c'est-à-dire de moyenne nulle et de variance égale à 1),
𝟐 𝐩 𝟐
alors la variable aléatoire alors la variable aléatoire : 𝐩 = 𝐢=𝟏 𝐳𝐢
est appelée variable aléatoire khi-carré à p degrés de liberté.
Mustapha BERROUYNE 69 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : DISTRIBUTION
RAPPEL SUR LA VARIABLE KHI-CARRE Exemple : P(Q2=2,41) ?

Mustapha BERROUYNE 70 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : DISTRIBUTION
𝛆𝐭
Par hypothèse H7 : 𝛆𝐭  𝑵(𝟎, 𝛔𝟐𝛆 )  ~ 𝐍(𝟎, 𝟏)
𝛔𝛆
𝐞𝐭
Comme 𝐞𝐭 = 𝛆𝐭 est une réalisation de 𝛆𝐭  ~ 𝐍(𝟎,𝟏)
𝛔𝛆 (n-2) degrés de libertés
car on a 2 paramètres
En passant au carré, nous avons un ²(1). estimés a0 et a1

𝐞𝐭 𝟐 𝐧 𝟐
𝐭=𝟏 𝐞𝐭
En sommant les termes, nous obtenons : 𝐧
𝐭=𝟏 𝛔 = ~ ²(𝐧 − 𝟐)
𝛆 𝛔𝟐𝛆
En se référant à l’estimateur de la variance de l’erreur, on a :
𝛔𝟐𝛆 ²(𝐧 − 𝟐)
𝟐

𝛔𝛆 𝐧−𝟐
Mustapha BERROUYNE 71 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
2. DISTRIBUTION DES ESTIMATEURS « MCO »
RAPPEL SUR LA VARIABLE DE STUDENT

Soit une variable aléatoire Z normale centrée réduite, et une variable


aléatoire khi-carré 𝐩 à p degrés de liberté, indépendante de Z, alors la
𝟐

𝐙
variable aléatoire : 𝐭𝐩 = est appelée variable aléatoire de Student à p
𝟐𝐩 𝐩

degrés de liberté.
Mustapha BERROUYNE 72 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
2. DISTRIBUTION DES ESTIMATEURS « MCO »
✓ Cas de la pente
𝛆𝐭  𝑵(𝟎, 𝛔𝟐𝛆 )  𝐲𝐭 = 𝐚𝟎 + 𝐚𝟏 𝐱 𝐭 + 𝐭 suit aussi une loi normale.
𝐚𝟏 −𝐚𝟏
𝐚𝟏 étant une combinaison linéaire en 𝐲𝐭 𝛔𝐚𝟏
 𝑵(𝟎, 𝟏) ;
𝛔𝟐𝛆 𝛔𝟐𝛆
𝐕𝐚𝐫 𝐚𝟏 = 𝛔𝟐𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 (1) 𝐕𝐚𝐫 𝐚𝟏 = 𝛔𝟐𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 (2)
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭

(𝟐) 𝛔𝟐
𝐚 𝛔𝟐 𝛔𝟐 𝛔𝟐 2 𝐧−𝟐
= 𝟏
= 𝛆

𝐚𝟏
= 𝛆

(𝟏) 𝛔𝟐
𝐚𝟏 𝛔𝟐
𝛆 𝛔𝟐
𝐚𝟏 𝛔𝟐
𝛆 𝐧−𝟐

𝐚 𝟏 − 𝐚𝟏
𝐚𝟏 − 𝐚𝟏 𝛔𝐚 𝟏 ~ 𝐍(𝟎, 𝟏)
= ~~ 𝐭
𝐭 (𝐧−𝟐)
𝛔𝐚 𝟏 𝛔𝐚 𝟏 2 𝐧 − 𝟐 (𝐧−𝟐)
𝛔𝐚 𝟏 𝐧−𝟐
Mustapha BERROUYNE 73 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
2. DISTRIBUTION DES ESTIMATEURS « MCO »
✓ Cas de la constante

De manière analogue, pour la constante estimée 𝐚𝟎 , on a :


𝐚𝟎 − 𝐚𝟎
𝐚𝟎 − 𝐚𝟎 𝛔𝐚 𝟎 𝐍(𝟎, 𝟏)
= ~ ~ 𝐭 (𝐧−𝟐)
𝛔𝐚 𝟎 𝛔𝐚 𝟎 2 𝐧 − 𝟐
𝛔𝐚 𝟎 𝐧−𝟐

Mustapha BERROUYNE 74 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Test de significativité de la pente

Le test de significativité de la pente, à un seuil  = 5%, consiste à vérifier


l'influence réelle de l'exogène X sur l'endogène Y.
𝐇𝟎 ∶ 𝐚𝟏 = 𝟎
Les hypothèses à confronter s'écrivent :
𝐇𝟏 ∶ 𝐚𝟏 ≠ 𝟎
𝐚𝟏 −𝐚𝟏
Nous savons que : = ~ 𝐭 (𝐧−𝟐)
𝛔𝐚𝟏

𝐚𝟏−𝟎
Sous 𝐇𝟎 ( 𝐚𝟏 = 𝟎), le ratio de Student 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é = suit donc une loi de
𝛔𝐚𝟏

Student à n–2 degrés de libertés (ddl).


Mustapha BERROUYNE 75 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Test de significativité de la pente

Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student


𝐚𝟏
empirique 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é = 𝐭𝐚𝟏 = à la valeur du t1− de Student lue dans la table à
𝛔𝐚𝟏 2
(n – 2) degrés de liberté et pour un seuil de probabilité = 5%, soit si (n –2)
=𝟎,𝟎𝟓
> 30, 𝐭∞ = 𝟏,𝟗𝟔 .
=𝟎,𝟎𝟓
Si 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é > 𝐭∞ (= 1,96), nous rejetons l’hypothèse H0, le coefficient
théorique et inconnu 𝐚𝟏 est significativement différent de 0.
Mustapha BERROUYNE 76 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Test de significativité de la pente
La région critique du rejet de H0 au risque  s’écrit :
R.C. : 𝐭 𝐚𝟏 > 𝐭 𝟏− Ou bien ′ < 
𝟐

Où ′ est la probabilité critique (p-value) qui correspond à la probabilité


que la loi de Student dépasse la statistique calculée t.
et 𝐭 𝟏− est le quantile d’ordre (1- /2) de la loi de Student.
𝟐

Mustapha BERROUYNE 77 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Test de significativité de la constante

Le test de significativité
Ledetest
la constante
de se présente comme suit :
significativité
𝐇𝟎 ∶ 𝐚𝟎 = 𝟎 𝐇 ∶ 𝐚 = 𝟎
𝟎
𝐇 ∶ 𝐚 ≠ 𝟎
𝟏
𝟎
𝟎

La𝐇𝟏statistique
∶ 𝐚𝟎 ≠ 𝟎 du test suit une loi de Student à (n-2) de grés de liberté :
𝐚𝟎
𝐭 𝐚𝟎 =
𝛔𝐚 𝟎

𝐑. 𝐂. : 𝐭𝐚𝟎 > 𝐭𝟏− ; où 𝐭𝟏− est le quantile d’ordre (1- /2) de la loi de
𝟐 𝟐
Student. Il s’agit aussi d’un test bilatéral.
Mustapha BERROUYNE 78 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Exemple d’application t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
✓ Test de significativité de la constante 2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
Mustapha BERROUYNE 79 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher
RAPPEL SUR LA VARIABLE DE FISHER

Soient deux variables aléatoires khi-carrés indépendantes  𝐩 , 𝐪 ,


𝟐 𝟐

respectivement à p et q degrés de liberté, alors la variable :


𝐩 𝐩
𝟐
𝐅𝐩,𝐪 = 𝟐
𝐪 𝐪
est appelée variable aléatoire de Fisher à p et q degrés de liberté.
Mustapha BERROUYNE 80 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher

Le R2 indiquait dans quelle proportion la variabilité de Y pouvait être


expliquée par X.
En revanche, il ne répond pas à la question : est-ce que la régression est
globalement significative ?
En d'autres termes, est-ce que X emmène significativement de l'information
sur Y, représentative d'une relation linéaire réelle dans la population, et qui
va au-delà des simples fluctuations d'échantillonnage ?
Mustapha BERROUYNE 81 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher

Un autre point de vue est de considérer le test d'évaluation globale comme


un test de significativité du R2 : dans quelle mesure s'écarte-t-il réellement
de la valeur 0 ?
Pour tester la significativité globale de la régression, nous nous basons sur
la statistique F :
𝐒𝐂𝐄
𝐌𝐂𝐄 𝟏
𝐅= = 𝐒𝐂𝐑
𝐌𝐂𝐑
𝐧−𝟐
Mustapha BERROUYNE 82 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher

Le test de Fisher permet d’intégrer la taille de l’échantillon n dans


l’appréciation de la qualité de la représentation.
Le test de Fisher se présente comme suit :
𝐇𝟎 : 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 = 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐫é𝐬𝐢𝐝𝐮𝐞𝐥𝐥𝐞
𝐇𝟏 : 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 > 𝑽𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒓é𝒔𝒊𝒅𝒖𝒆𝒍𝒍𝒆

Le test de F est considéré comme un test de significativité du coefficient de


détermination dans la mesure où il peut s’écrire en fonction du R².
𝐒𝐂𝐄 𝐒𝐂𝐄 𝐑²
En effet, 𝐅 = 𝟏
𝐒𝐂𝐑 = 𝟏∗𝐒𝐂𝐓
(𝐒𝐂𝐓−𝐒𝐂𝐄) = 𝟏
(𝟏−𝐑𝟐 )
𝐧−𝟐 𝐧−𝟐 ∗𝐒𝐂𝐓 𝐧−𝟐
Mustapha BERROUYNE 83 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher

Sous H0, SCE est distribué selon ²(1) et SCR selon ²(n-2).
²(𝟏)
➔ 𝐅  𝟏
²(𝐧−𝟐)
 𝓕(𝟏, 𝐧 − 𝟐)
𝐧−𝟐

Sous H0, F est donc distribué selon une loi de Fisher à (1, n-2) degrés de liberté.
La région critique (R.C.) du test, correspondant au rejet de H0, au risque α
est définie pour les valeurs anormalement élevées de F c'est-à-dire :
𝐑.𝐂. : 𝐅𝐜𝐚𝐥𝐜𝐮𝐥é > 𝓕𝟏−𝛂(𝟏,𝐧 − 𝟐)
Mustapha BERROUYNE 84 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher

Dans la plupart des logiciels de statistique, on fournit directement la


probabilité critique (p-value) 𝛂 , qui correspond à la probabilité que la loi

de Fisher dépasse la statistique calculée F.


Ainsi, la règle de décision au risque α devient :
𝐑. 𝐂. : ′ < 

Mustapha BERROUYNE 85 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher : Exemple d’application t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
Mustapha BERROUYNE 86 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
5. ÉQUIVALENCE DES TESTS DANS UN MODÈLE DE RLS
𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎
𝐫𝐱𝐲
𝟏
Sous H0 et au risque , on a :  𝐭 (𝐧−𝟐)
𝟐 )
(𝟏−𝐫𝐱𝐲
𝐧−𝟐
𝐂𝐨𝐯(𝐱, 𝐲)
𝐫𝐱𝐲 =
𝐱 𝐲
𝐂𝐨𝐯(𝐱, 𝐲)
𝐚𝟏 =
𝟐𝐱

𝐫𝐱𝐲 𝟐
 
𝟏
𝐫𝐱𝐲 𝐚𝟏  𝐱 𝐚𝟏 𝐱
𝐱 𝐲 𝐲
= 𝐧−𝟐 = 𝐧−𝟐 = 𝐧−𝟐
𝟐 )
(𝟏−𝐫𝐱𝐲 𝟐
𝟏−𝐫𝐱𝐲 𝟐 
𝟏− 𝐚𝟏  𝐱 ² 𝟏− 𝐚𝟏 𝐱 ²
𝐧−𝟐 𝐱 𝐲 𝐲

𝐧 (𝐱 −𝐱)² 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝐚𝟏 𝐚𝟏
𝐧 (𝐲 −𝐲)² 𝐧 (𝐲 −𝐲)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
= 𝐧−𝟐 = 𝐧−𝟐
𝐚𝟐 𝐧 (𝐱 −𝐱)²
𝐭
𝐧 (𝐲 −𝐲)²−𝐚𝟐 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝟏 𝐭=𝟏 𝐭
𝟏− 𝐧 𝐭=𝟏
𝟏
𝐧 (𝐲 −𝐲)²
𝐭=𝟏(𝐲𝐭 −𝐲)² 𝐭=𝟏 𝐭
Mustapha BERROUYNE 87 CHAPITRE 1. MODELE LINEAIRE SIMPLE
9. INFERENCE STATISTIQUE
5. ÉQUIVALENCE DES TESTS DANS UN MODÈLE DE RLS
✓ Test de signification de rxy 𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎

𝐚𝟏 𝐱𝐭 − 𝐱 = 𝐲𝐭 − 𝐲

𝐚𝟏 𝐧 (𝐱 −𝐱)² 𝐚𝟏 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
= 𝐧−𝟐 = Equation fondamentale
𝐧 (𝐲 −𝐲)²− 𝐧 [𝐚 𝐱 −𝐱 𝐧 (𝐲 −𝐲)²− 𝐧 (𝐲 −𝐲)² de l’analyse de la
𝐭=𝟏 𝐭 𝐭=𝟏 𝟏 𝐭 ]² 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 variance

𝐚𝟏
𝐧 (𝐱 −𝐱)² 𝐚𝟏
𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐚𝟏 𝐚𝟏 𝐚𝟏
= = = = = ~𝐭 (𝐧−𝟐)
𝟐 𝐚𝟏
𝐧 𝐞𝟐
𝐭=𝟏 𝐭 𝟐 𝟐 𝐚𝟏
(𝐧−𝟐)
𝐧−𝟐 (𝐧−𝟐) 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝟐𝐚𝟏

Mustapha BERROUYNE 88 CHAPITRE 1. MODELE LINEAIRE SIMPLE


9. INFERENCE STATISTIQUE
5. ÉQUIVALENCE DES TESTS DANS UN MODÈLE DE RLS
✓ Test de signification de rxy 𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎
AVEC LOGICIEL STATA

AVEC STATA
. import excel "D:\C-VEHICULES_28.xlsx", twoway (scatter Puissance Cylindree)
sheet("Données") firstrow

. cor Cylindree Puissance


(obs=28)

Cylind~e Puissa~e

Cylindree 1.0000
Puissance 0.9465 1.0000
Mustapha BERROUYNE 89 CHAPITRE 1. MODELE LINEAIRE SIMPLE

You might also like