Chapitre1 Mrls

ANALYSE DE LA REGRESSION
Royaume du Maroc
Haut Commissariat au Plan
Institut National de Statistique
et d’Economie Appliquée
CHAPITRE 1
RÉGRESSION LINÉAIRE SIMPLE
MUSTAPHA BERROUYNE
INGÉNIEUR EN CHEF PRINCIPAL
ENSEIGNANT À L’INSEA
ANNEE UNIVERSITAIRE 2023-2024

1. LA CORRELATION
 La notion de corrélation a été inventée par PEARSON.

 La corrélation est un indice de la force d'une
relation linéaire ou linéarisée (après
transformation) entre deux ou plusieurs facteurs.
 Lorsque deux facteurs ont une évolution
commune, nous disons qu’ils sont « corrélés».
 La corrélation simple mesure le degré de liaison
existant entre ces deux facteurs représentés par des
variables.
Mustapha BERROUYNE 2 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

1. LA CORRELATION
Nous pouvons distinguer :

 la corrélation linéaire, lorsque tous les points du
couple de valeurs (Xi,Yi) semblent alignés sur une
droite.
 la corrélation non linéaire lorsque le couple de
valeurs se trouve sur une même courbe d’allure
quelconque.
1. LA CORRELATION
Deux variables peuvent être :

 en corrélation positive ; on constate alors une
augmentation (ou diminution, ou constance)
simultanée des valeurs des deux variables.
Relation non linéaire

Relation linéaire

1. LA CORRELATION
 en corrélation négative, lorsque les valeurs de
l’une augmentent, les valeurs de l’autre diminuent.
Relation linéaire Relation non linéaire

1. LA CORRELATION
 non corrélées, il n’y a aucune relation entre les
variations des valeurs de l’une des variables et les
valeurs de l’autre.
Absence de corrélation
2. LA FORCE DE LA CORRELATION
Coefficient de Pearson
La représentation graphique ne donne qu’une
«impression» de la corrélation entre deux variables
sans donner une idée précise de l’intensité de la liaison,
c’est pourquoi nous calculons une statistique appelée
coefficient de corrélation linéaire simple, noté 𝐗𝐘 .
𝐍
𝐢=𝟏 𝐗 𝐢 − 𝐗 (𝐘𝐢 − 𝐘) 𝐂𝐨𝐯(𝐗, 𝐘)
𝐗𝐘 = =
 𝐗 𝐘
𝐍
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐍
𝐢=𝟏 𝐘𝐢 − 𝐘 ²
Cov(X,Y) = covariance entre X et Y.

σX et σY = écart type de X et écart type de Y.
N = nombre d’observations.
𝐍
𝐗𝐘 = =
 𝐗 𝐘
𝐍
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐍
𝐢=𝟏 𝐘𝐢 − 𝐘 ²
Ce coefficient est inconnu dans la mesure où il faudra

observer toute la population de taille N individus.
Dans la pratique, une partie de la population (n << N)
est observée : on parle d'un échantillon n.
On appelle 𝐫𝐗𝐘 ce coefficient empirique qui est une
estimation du coefficient vrai 𝐗𝐘 .
𝐧
𝐫𝐗𝐘 = =
 𝐗 𝐘
𝐧
𝐢=𝟏 𝐗𝐢 − 𝐗 ² 𝐧
𝐢=𝟏 𝐘𝐢 − 𝐘 ²

PROPRIETES
 On peut démontrer que, par construction, ce
coefficient reste compris entre −1 et 1 :
✓ proche de 1, les variables sont corrélées
positivement ;
✓ proche de −1, les variables sont corrélées
négativement ;
✓ proche de 0, les variables ne sont pas corrélées.
𝒓𝑿𝒀 = 𝟏 𝒓𝑿𝒀 = −𝟏 𝒓𝑿𝒀 = 𝟎 𝒓𝑿𝒀 > 𝟎 𝒓𝑿𝒀 < 𝟎 𝒓𝑿𝒀 = 𝟎

PROPRIETES
 Il est de même signe que la covariance, avec les
mêmes interprétations.
 X et Y sont indépendants, alors 𝐫𝑿𝒀 = 𝟎. La
réciproque est fausse, sauf cas particulier que nous
précisons maintenant.
 Lorsque (X,Y) suit une loi normale bi-variée, et
uniquement dans ce cas, nous avons l'équivalence
𝐫𝑿𝒀 = 𝟎 ⇔ X et Y sont indépendants.
 Le coefficient de corrélation constitue une mesure
de l'intensité de liaison linéaire entre 2 variables. Il
peut être égal à zéro alors qu'il existe une liaison
fonctionnelle entre les variables (liaison non
monotone).
PROPRIETES
 La corrélation d'une variable avec elle même est 𝒓𝑿𝑿= 1.

 Dans la pratique, ce coefficient est rarement très
proche de l’une de ces trois bornes et il est donc
difficile de proposer une interprétation fiable à la
simple lecture de ce coefficient.
 La théorie des tests statistiques nous permet de
lever cette indétermination.
EXEMPLE NUMERIQUE (CONSOMMATION DES VEHICULES)
AVEC TABLEUR EXCEL
- Nous formons les quantités (XiYi), 𝑿𝟐𝒊 et 𝒀𝟐𝒊 .
-Nous calculons leurs sommes respectives :
4 446 719, 101 961 684 et 197 200.
- A partir de la formule du coefficient de
corrélation de Pearson, nous obtenons le
numérateur =18 320.62 et le dénominateur
= 19 355.86
-Reste à former le rapport, la corrélation
entre la cylindrée et la puissance est 0.9465.
-La fonction prédéfinie
"COEFFICIENT.CORRELATION(...)"
du tableur EXCEL propose la même valeur.
AVEC LOGICIEL R AVEC LOGICIEL STATA
library(readxl) . import excel "D:\C-VEHICULES_28.xlsx", sheet("Données") firstrow

CVEHICULES = read_excel("D:/C-VEHICULES_28.xlsx") . cor Cylindree Puissance
(obs=28)
View(CVEHICULES)
attach(CVEHICULES) Cylind~e Puissa~e
cor(Cylindree,Puissance) Cylindree 1.0000

[1] 0.9465153
Mustapha BERROUYNE 13
Puissance 0.9465 1.0000
CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE
NUAGE DE POINTS
AVEC TABLEUR EXCEL AVEC LOGICIEL R
plot(Cylindree,Puissance)

NUAGE DE POINTS
AVEC LOGICIEL STATA
twoway (scatter Puissance Cylindree)  La "Lancia K 3.0 LS" est une
grosse cylindrée, très puissante.
Elle s'écarte du nuage certes,
mais elle est dans la lignée de la
liaison entre les deux variables.
 La "Hyundai Sonata 3000"
est aussi une grosse cylindrée,
mais elle est relativement
anémique. Le point est un peu
à l'écart des autres.
Toutefois, les boites à moustaches pour ces deux
variables montrent que les 2 points en question ne
sont considérés comme "points aberrants".
AVEC LOGICIEL R AVEC LOGICIEL STATA
boxplot(Cylindree,horizontal=TRUE,col="blue", graph hbox Cylindree
+ main="Boite à moustaches: Cylindree") graph hbox Puissance
boxplot(Puissance,horizontal=TRUE,col=" brown",
+ main="Boite à moustaches: Puissance")
500 1,000 1,500 2,000 2,500 3,000 0 50 100 150

Cylindree Puissance

RAPPEL SUR LES TESTS D’HYPOTHESES
Le test d'hypothèses consiste a énoncer deux hypothèses sur un paramètre

, dont une seule est vraie.
Par exemple, on peut tester
- l'hypothèse nulle H0 que  = 𝟎,
- l'hypothèse alternative H1 que  = 𝟏.
L'objectif est de prendre une décision sur H0 qui consistera à rejeter H0

(RH0) ou à ne pas rejeter H0 (𝐑H0).
La décision est prise sur base des données observées, et peut donc conduire
à deux types d'erreurs :
- Rejeter H0 alors que H0 est vraie, cette erreur est appelée erreur de
première espèce.
- Ne pas rejeter H0 alors que H0 est fausse, cette erreur est appelée erreur
de deuxième espèce.
Erreur de première et seconde espèce

H0 est vraie H0 est fausse
RH0 Erreur de 1ère espèce Décision correcte
𝐑H0 Décision correcte Erreur de 2ème espèce
La probabilité de commettre une erreur de première espèce est notée ; et

la probabilité de commettre une erreur de deuxième espèce est notée .
Dans la théorie des tests d'hypothèses, on fixe  petit.
La décision prise sur base des données observées ne peut pas être exacte,
on calcule donc les probabilités de commettre les erreurs.
Probabilité de commetre les erreurs
H0 est vraie H0 est fausse
RH0 Pr(RH0| H0 vraie)=  Pr(𝐑H0| H0 vraie)= 1-
𝐑H0 Pr(𝐑H0| H0 vraie)= 1- Pr(𝐑H0| H0 fausse)= 
En pratique, on ne teste pas des hypothèses simples, mais des hypothèses

composites.
En effet, les questions que l'on se pose sur le paramètre sont du type "Le
paramètre  est-il strictement plus grand qu'une certaine valeur 0 ?"
Ce type d'hypothèse composite amène  à la construction de test du type :

𝐇𝟎 ∶  = 𝟎 𝐇𝟎 ∶  ≥ 𝟎 𝐇𝟎 ∶  ≤ 𝟎
1) 2) 3)
𝐇𝟏 ∶  ≠ 𝟎 𝐇𝟏 ∶  < 𝟎 𝐇𝟏 ∶  > 𝟎

TEST DE SIGNIFICATIVITE
❖ Spécification du test
H0 : 𝐫𝑪,𝑷 = 𝟎
H1 : 𝐫𝑪,𝑷 ≠ 𝟎
Il s'agit d'un test bilatéral et donc répartir α en deux.

Le seuil α est libre (souvent α = 5%).
Le test étudié ainsi est paramétrique. On suppose a
priori que le couple (C,P) suit une loi normale bivariée.
Statistique du test 𝒕=
𝐫𝑪,𝑷
𝟐
(𝟏 − 𝐫𝐂,𝐏 )
𝐧−𝟐
suit sous H0 une loi de Student à n-2 degrés de libertés.

Région critique : La région critique (rejet de H0) du test au risque  s'écrit :

R.C : |t0| > 𝐭 𝟏− (n-2); où 𝐭 𝟏− (n-2) est le quantile d'ordre 𝟏 − de la loi de
𝟐 𝟐 𝟐
Student à (n - 2) degrés de liberté. Il s'agit d'un test bilatéral.
Probabilité critique (p-value): Plutôt que de comparer la statistique
calculée avec la seuil théorique fournie par la loi de Student, les logiciels
proposent souvent la probabilité critique ( p-value) que l'on doit comparer
au risque  que l'on s'est fixé. Si la p-value est plus petite, alors nous
rejetons l'hypothèse nulle.

On peut construire la table du t de Student (test
bilatéral) avec la fonction prédéfinie
LOI.STUDENT.INVERSE(alpha;ddl) du tableur Excel.

𝟎,𝟗𝟒𝟔𝟓
La statistique du test 𝐭 = = 𝟏𝟒, 𝟗𝟔 >> au seuil
(𝟏−𝟎,𝟗𝟒𝟔𝟓²)
𝟐𝟖−𝟐
théorique au risque α =5% [t0.975(28−2) = 2.0555] (en

consultant la table de Student, figure ci-dessus).
Avec Excel, la fonction prédéfinie suivante permet de
trouver la valeur de t.
LOI.STUDENT.INVERSE(26,0.05)=2.0555 (voir figure ci-dessus).
On peut aussi utiliser la fonction suivante pour

trouver la p-value du Test.
LOI.STUDENT(14,96;26;2) = 2.74331E-14= 0.000000000000027 < < 5%.
Nous concluons donc au rejet de l'hypothèse nulle
c'est-à-dire les résultats que nous obtenons à partir
des données ne sont pas compatibles avec une
absence de corrélation.

On peut retrouver ces résultats en utilisant les
logiciels R et Stata :
AVEC R
# Tracé de la loi de Student
# Taille de notre échantillon n
n =28
# Calcul du coefficient de corrélation de Pearson
r = cor(Cylindree, Puissance)
r # 0.9465153
# Le t de Student de l'échantillon
techant = r/sqrt((1-r^2)/(n-2))
techant # 14.95791
# Tracé de la loi T de Student avec 26 ddl
t=seq(from =-2.5 ,to =2.5, by =0.1)
plot(x=t,y=dt(x=t,df=26),main="Loi de Student\nddl=26",type="l")
# On détermine le quantile t à 2.5% à l'aide de la fonction qt()
t2.5=qt(p=0.025,df=26, lower.tail=F)
t2.5 # 2.055529
# Affichage des quantiles sur le graphique
abline(v=c(-t2.5,t2.5),col=2) # Verticales en rouge
AVEC STATA

3. SPECIFICATION DU MODELE DE LA RLS
OBJECTIFS ET MODELE
On cherche à expliquer les variations d’une variable
quantitative Y (Consom: la consommation du
véhicule) par une variable explicative X également
quantitative (Poids : son poids).
Les différentes variables :
- Variables observées à un moment donné (modèle en coupe
instantané) : 𝒀𝒊 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒊 + 𝜺𝒊
- Variables observées au cours du temps en série temporel
(modèle en série temporel) : 𝒀𝒕 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒕 + 𝜺𝒕
- Variables peuvent être observé pour des échantillons au
cours du temps (modèle de Panel) : 𝒀𝒊𝒕 = 𝒂𝟎 + 𝒂𝟏 𝑿𝒊𝒕 + 𝜺𝒊𝒕
L’objectif de la régression linéaire simple est de
modéliser la variable aléatoire Y par une certaine
fonction de X, f(X), qui soit la meilleure possible au
sens de l’erreur quadratique moyenne.
OBJECTIFS ET MODELE
14
12
Consom
10
8
6
500 1000 1500 2000

Poids
Chaque point du graphique représente, pour chaque

véhicule, une mesure de la consommation et de son poids.
Pour analyser la relation entre les xi et les yi, nous allons
chercher une fonction f telle que : yi ≈ f(xi)
OBJECTIFS ET MODELE
Pour définir ≈, il faut donner un critère quantifiant la
qualité de l’ajustement de la fonction f aux données.
Le problème mathématique peut s’écrire de la façon
𝒂𝒓𝒈𝒎𝒊𝒏 𝐧𝐢=𝟏 𝒍 𝐲𝐢 − 𝐟 𝐱𝐢
suivante : où n représente le
𝒇∈𝑮
nombre de données à analyser et l(.) est appelée
fonction de coût ou fonction de perte.
CHOIX DU CRITERE DE QUALITE
Deux fonctions sont classiquement utilisées :
- le coût absolu l(u) = |u| ;
- le coût quadratique l(u) = u .

2

CHOIX DU CRITERE DE QUALITE
Ces fonctions sont positives, symétriques, elles

donnent donc la même valeur lorsque l’erreur est
positive ou négative et s’annulent lorsque u vaut zéro.
On privilégiera dans la suite la fonction de coût
quadratique. On parle alors de méthode d’estimation
par moindres carrés.
OBJECTIFS ET MODELE

OBJECTIFS ET MODELE
Toutefois, le modèle (1) suppose que les deux variables sont

significativement corrélées ente elles.
Ce résultat peut être vérifié en :
- l’examen du diagramme du nuage des points ;
- réalisation du test d’hypothèse relatif au coefficient de corrélation
linéaire de Pearson "𝐫𝐱𝐲".
Dans ce modèle, 2 paramètres sont à estimer, à savoir : 𝐚𝟏, la pente de la
droite (variation de Y due à une variation unitaire de X) et 𝐚𝟎, l’ordonnée à
l’origine.
4. ESTIMATION DU MODELE DE LA RLS
DEFINITION
On appelle estimateurs des moindres carrés ordinaires
(mco) 𝐚0 et 𝐚1 les valeurs minimisant la quantité :
𝐧
𝐒 𝐚𝟎 , 𝐚𝟏 = 𝐢=𝟏(𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱𝐢 )𝟐
Les estimateurs peuvent également s’écrire sous la

forme suivante : 𝐚𝟎 , 𝐚𝟏 = 𝐚𝐫𝐠𝐦𝐢𝐧 𝐒 𝐚𝟎 , 𝐚𝟏
La fonction 𝐒 𝐚𝟎 , 𝐚𝟏 est strictement convexe, donc elle
admet un minimum en un unique point (𝐚0 et 𝐚1), lequel
est déterminé en annulant les dérivées partielles de S.
𝐧
𝝏𝑺
= −𝟐 (𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱 𝐢 ) = 𝟎 (𝟏)
𝝏𝒂𝟎
𝐢=𝟏
𝐧
𝝏𝑺
= −𝟐 𝐱 𝐢 (𝐲𝐢 − 𝐚𝟎 − 𝐚𝟏 𝐱 𝐢 ) = 𝟎 (𝟐)
𝝏𝒂𝟏
𝐢=𝟏
𝐧 𝐧
(1) donne : 𝐚𝟎 𝐧 + 𝐚𝟏 𝐢=𝟏 𝐱 𝐢 = 𝐢=𝟏 𝐲𝐢
 𝐚𝟎 = 𝐲 − 𝐚𝟏𝐱
(𝟑)
où 𝐱 et 𝐲 sont les moyennes des xi et des yi.
(3) montre que la droite passe par le point (𝐱, 𝐲).

𝐧 𝐧 𝟐 𝐧
(2) donne : 𝐚𝟎 𝐢=𝟏 𝐱 𝐢 + 𝐚𝟏 𝐱
𝐢=𝟏 𝐢 = 𝐢=𝟏 𝐱 𝐢 𝐲𝐢
(3)  (𝐲 − 𝐚𝟏 𝐱) 𝐧𝐢=𝟏 𝐱𝐢 + 𝐚𝟏 𝐧𝐢=𝟏 𝐱𝐢𝟐 = 𝐧𝐢=𝟏 𝐱𝐢 𝐲𝐢

𝐧 𝐧 𝐧 𝟐 𝐧
𝐱
𝐢=𝟏 𝐢 𝐲 − 𝐚𝟏 𝐢=𝟏 𝐢𝐱 𝐱 + 𝐚 𝟏 𝐢=𝟏 𝐢𝐱 = 𝐢=𝟏 𝐱 𝐢 𝐲𝐢
𝐚𝟏 𝐧𝐢=𝟏 𝐱𝐢𝟐 − 𝐧𝐢=𝟏 𝐱𝐢 𝐱 = 𝐧𝐢=𝟏 𝐱𝐢 𝐲𝐢 − 𝐧𝐢=𝟏 𝐱𝐢 𝐲
𝐧 𝐧
𝐢=𝟏 𝐱 𝐢 𝐲𝐢 − 𝐢=𝟏 𝐱 𝐢 𝐲
𝐚𝟏 = 𝐧 𝟐 𝐧
𝐱
𝐢=𝟏 𝐢 − 𝐢=𝟏 𝐱 𝐢 𝐱
𝐧
En utilisant astucieusement la nullité de 𝐢=𝟏(𝐱𝐢 − 𝐱)
 𝐚𝟏 =
𝐧 𝐧
𝐢=𝟏 𝐱𝐢 (𝐲𝐢 −𝐲) 𝐢=𝟏(𝐱𝐢 −𝐱)(𝐲𝐢 −𝐲) 𝐂𝐎𝐕(𝐗,𝐘)
𝐧 𝐱 (𝐱 −𝐱) = 𝐧 (𝐱 −𝐱)(𝐱 −𝐱) =
𝐢=𝟏 𝐢 𝐢 𝐢=𝟏 𝐢 𝐢 𝐕(𝐗)
Pour vérifier qu’il s’agit bien d’un minimum, on doit montrer que la matrice
Hessienne (H) des dérivées secondes est définie positive.
𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏 𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏
𝛛𝐚𝟎 𝟐 𝛛𝐚𝟎 𝛛𝐚𝟏
𝐇 =
𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏 𝛛𝟐 𝐒 𝐚 𝟎 , 𝐚 𝟏
𝛛𝐚𝟎 𝛛𝐚𝟏 𝛛𝐚𝟏 𝟐
𝛛𝟐 𝐒 𝐚𝟎 ,𝐚𝟏
= 𝟐𝐧
𝛛𝐚𝟎 𝟐
𝐧
𝛛𝟐 𝐒𝐚𝟎 ,𝐚𝟏 𝐧 𝟐 𝐧 𝐢=𝟏 𝐱 𝐢
=𝟐 𝐱
𝐢=𝟏 𝐢  𝐇=𝟐 𝐧 𝐧 𝟐
𝛛𝐚𝟏 𝟐
𝐢=𝟏 𝐱 𝐢 𝐱
𝐢=𝟏 𝐢
𝛛𝟐 𝐒 𝐚𝟎 ,𝐚𝟏 𝐧
=𝟐 𝐢=𝟏 𝐱 𝐢
𝛛𝐚𝟎 𝛛𝐚𝟏
5. HYPOTHESES DE LA RLS
Les hypothèses suivantes permettent de déterminer les estimateurs des
coefficients du modèle ayant de bonnes propriétés et de construire des tests
statistiques (tests et intervalles de confiance).
H1 : le modèle est linéaire en xt ou f(xt) ;
On suppose l’existence d’une relation linéaire liant X et Y.
La vérification se fait par l’analyse de la corrélation linéaire (nuage de
points, intensité et test statistique

H1 : le modèle est linéaire en xt ou f(xt) ;
On peut ramener un modèle non linéaire à un modèle linéaire via des
transformations.
Les principaux modèles utilisés en économétrie

H2 : les valeurs de xt sont observées sans erreur (xt non aléatoire) ;
𝐱𝐭 est certaine et connue sans erreur
𝐱𝐭 mesurée = 𝐱𝐭 vraie
H3 : E(t) = 0, en moyenne le modèle est bien spécifié et donc l’erreur
moyenne est nulle ;
H4 : E(𝟐𝐭 ) =𝟐 = 𝐜𝐬𝐭𝐞, la variance de l’erreur est constante ;
La variance de l’erreur est constante : le risque de l’amplitude de l’erreur

est le même quelle que soit la période.
H5 : 𝐄(𝐭 𝐭′ ) = 0 si t  𝐭 , les erreurs sont non corrélées (ou indépendantes) ;

′
Les erreurs sont non corrélées. Une erreur à l’instant t n’a pas d’influence
sur les erreurs suivantes.
H6 : COV(xt,t)=0, l’erreur est indépendante de la variable explicative ;
H7 : t  N(0,  ), hypothèse utilisée pour les inférences.
𝟐

6. PROPRIÉTÉS DES ESTIMATEURS
1. Les estimateurs des MCO sont linéaires et s’expriment comme

combinaisons linéaires des observations yt :
𝐧 𝐧
𝐭=𝟏 𝐱𝐭 𝐲𝐭 −𝐧 𝐱 𝐲 𝐭=𝟏(𝐱𝐭 −𝐱) 𝐲𝐭 𝐧 (𝐱𝐭−𝐱)
𝐚𝟏 = 𝐧 𝐱𝟐 −𝐧 𝐱𝟐 = 𝐧 (𝐱 −𝐱)𝟐 = 𝐭=𝟏 𝐧 (𝐱 −𝐱)𝟐 𝐲𝐭
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝐧 𝐧 𝐧
𝟏 (𝐱𝐭 − 𝐱) 𝟏 (𝐱𝐭 − 𝐱) 𝐱
𝐚𝟎 = 𝐲 − 𝐚𝟏𝐱 = 𝐲𝐭 − 𝐱 𝐧 𝟐 𝐲𝐭 = − 𝐧 𝐲
𝟐 𝐭
𝐧 𝐭=𝟏(𝐱𝐭 − 𝐱) 𝐧 𝐭=𝟏(𝐱𝐭 − 𝐱)
𝐭=𝟏 𝐭=𝟏 𝐭=𝟏
Mustapha BERROUYNE 44 CHAPITRE 1. MODELE LINEAIRE SIMPLE
2. Les estimateurs des MCO sont non-biaisés si les observations xt sont non
aléatoires (H2) et l’espérance mathématique de l’erreur est nulle (H3).
Pour la pente 𝐚𝟏 : 𝐄(𝐚𝟏) = 𝐚𝟏
𝐲𝐭 = 𝐚𝟎 + 𝐚𝟏 𝐱𝐭 + 𝐭 (𝟕)
; (7) – (8) ➔ 𝐲𝐭 − 𝐲 = 𝐚𝟏 𝐱𝐭 − 𝐱 + (𝐭 − )
𝐲 = 𝐚𝟎 + 𝐚𝟏𝐱 +  (𝟖)
𝐧
𝐧
𝐭=𝟏(𝐱𝐭−𝐱) (𝐲𝐭−𝐲) 𝐭=𝟏
(𝐱 𝐭 −𝐱 ) 𝐚 𝟏 𝐱 𝐭 −𝐱 +( −) 𝐭=𝟏 𝐱𝐭−𝐱 𝐭
𝐧
➔ 𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 = 𝐧 (𝐱 −𝐱)𝟐
𝐭
= 𝐚𝟏 + 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝐭=𝟏 𝐱𝐭−𝐱 𝐭 𝐭=𝟏 𝐱𝐭−𝐱 𝐄( 𝐭)

𝐧 𝐧
➔ 𝐄 𝐚 𝟏 = 𝐄 𝐚𝟏 + 𝐧 (𝐱 −𝐱)𝟐 = 𝐄(𝐚𝟏) + 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝐭=𝟏 𝐱𝐭 − 𝐱 𝐄( 𝐭 )
𝐧
= 𝐚𝟏 + 𝐧 𝟐
𝐭=𝟏(𝐱𝐭 − 𝐱)

2. Les estimateurs des MCO sont non-biaisés si les observations xt sont non
aléatoires (H2) et l’espérance mathématique de l’erreur est nulle (H3).

➔ 𝐄 𝐚𝟎 =𝐄 𝐚𝟎 −𝐱( 𝐄 𝐚𝟏)−𝐚𝟏 )+𝐄()

Sous les mêmes hypothèses (H2 et H3) et du fait que 𝐄 𝐚𝟏 =𝐚𝟏
➔ 𝐄 𝐚𝟎 =𝐚𝟎
3. Les estimateurs sont convergents (théorème de GAUSS-MARKOV).
Les deux estimateurs des MCO sans biais sont convergents si :
𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎 et 𝐥𝐢𝐦𝐧→∞ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎
𝟐
𝐭=𝟏 𝐱 𝐭 − 𝐱 𝐭
𝐧
2
𝐕𝐚𝐫 𝐚𝟏 = 𝐄 𝐚𝟏 − 𝐚𝟏 =𝐄 𝐧 𝟐
𝐭=𝟏(𝐱𝐭 − 𝐱)
𝟐
𝐧
𝐭=𝟏 𝐱 𝐭 − 𝐱  𝐭 𝐄 𝐧
𝐭=𝟏 𝐱𝐭 − 𝐱 ²𝟐𝐭 + 𝟐 𝐧
𝐱𝐭 − 𝐱 𝐱𝐭′ − 𝐱 𝐭 𝐭 ′
𝐭<𝐭′
=𝐄 𝐧 𝟐 2
= 𝐧 𝟐 2
𝐭=𝟏(𝐱 𝐭 − 𝐱) 𝐭=𝟏(𝐱 𝐭 − 𝐱)
𝐧
𝐭=𝟏 𝐱 𝐭 −𝐱 2 𝐄 𝟐 𝐧
𝐭 +𝟐 𝐭<𝐭′ 𝐱 𝐭 −𝐱 𝐱 𝐭′ −𝐱 𝐄( 𝐭 𝐭 ′ )
= 𝐧 (𝐱 −𝐱)𝟐 2
𝐭=𝟏 𝐭
𝐕𝐚𝐫( 𝐭 ) 𝟐
= 𝐧 (𝐱 −𝐱)𝟐 = 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭

𝐕𝐚𝐫( 𝐭 ) 
𝟐
𝐕𝐚𝐫 𝐚𝟏 = 𝐧 𝟐
= 𝐧 𝟐
𝐭=𝟏(𝐱 𝐭 − 𝐱) (𝐱
𝐭=𝟏 𝐭 − 𝐱 )
Lorsque le nombre d’observations est important n assez grand), les valeurs
de la variable explicative sont très dispersées autour de la moyenne :
𝐧
➔ 𝐭=𝟏(𝐱𝐭 −𝐱) est assez grand ➔ 𝐕𝐚𝐫 𝐚𝟏 = 𝟎
𝟐
𝐚𝟎 = 𝐚𝟎 − 𝐚𝟏 − 𝐚𝟏 𝐱 + 
𝐕𝐚𝐫 𝐚𝟎 = 𝐄 𝐚𝟎 − 𝐚𝟎 2 = 𝐄 (− 𝐚𝟏 − 𝐚𝟏 𝐱 + )²
=𝐄 𝐚𝟏 − 𝐚𝟏 𝐱 𝟐 + 𝐄 2 − 𝟐 𝐄[( 𝐚𝟏 − 𝐚𝟏 𝐱 ]
𝟏
𝐭=𝟏 𝐭
𝐧
= 𝐱²𝐄 𝐚𝟏 − 𝐚𝟏 2
+𝐄 ²
𝐧
𝟏
= 𝐱²𝟐𝐚𝟏 + 𝐧² 𝐄 𝐭=𝟏 𝐭 𝐭 𝐭 ′]
𝐧 𝟐 n
+𝟐 𝐭<𝐭′
𝟏
= 𝐱 2 𝟐𝐚𝟏 + 𝐧2 n𝐄 𝟐𝐭 + 2 n
𝐭<𝐭 ′ E[𝐭 𝐭 ′]
𝟐 𝟏 𝟏 𝐱²
= 𝐱² 
𝐧 (𝐱 −𝐱)𝟐 + 
𝐧 
𝟐 = 𝟐
 𝐧+ 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝟏 𝐱²
𝐕𝐚𝐫 𝐚𝟎 = 𝟐
𝐧
+ 𝐧 𝟐 Pour n assez grand ➔ 𝐕𝐚𝐫 𝐚𝟎 = 𝟎
𝐭=𝟏(𝐱 𝐭 − 𝐱)

𝟒. 𝐂𝐨𝐯 𝐚𝟎 , 𝐚𝟏 = −𝐱 𝐕𝐚𝐫( 𝐚𝟏 )
𝐂𝐨𝐯 𝐚𝟎 , 𝐚𝟏 = 𝐄 𝐚𝟎 − 𝐚𝟎 𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 𝐱 +  𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 ² 𝐱 +  𝐚𝟏 − 𝐚𝟏
= 𝐄 − 𝐚𝟏 − 𝐚𝟏 2 𝐱 +  𝐄 𝐚𝟏 − 𝐚𝟏
𝐄 𝐚𝟏 − 𝐚𝟏 ² = −𝐱 𝐕𝐚𝐫( 𝐚𝟏 )
= 𝟐𝐚𝟏 =0

5. Matrice de variances-covariances

EN SOMME
Les estimateurs des Moindres Carrés Ordinaires sont des estimateurs

linéaires, non biaisés, convergents et à variance minimale c’est-à-dire
efficaces (Best Lineair Unbiased Estimators)

7. EXEMPLE D’APPLICATION
Avec STATA t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
 𝐚𝟏  𝐚𝟎 2001 4800 6000
2002 5840 7300
𝐚𝟏 2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
consommation Coef. Std. Err. t P>|t| [95% Conf. Interval] 2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
𝐚𝟎 revenu 1.118187 .0357759 31.26 0.000 1.042346 1.194029 2012 11250 12500
2013 12303 12950
_cons -2520.105 399.5378 -6.31 0.000 -3367.087 -1673.123 2014
2015
12350
12825
13000
13500
2016 12968 13650
2017 13300 14000
✓ CODE STATA
Regress consommation revenu

8. DECOMPOSITION DE LA VARIANCE
1. EQUATION FONDAMENTALE DE L’ANALYSE DE LA VARIANCE
Ce que le modèle explique et ce qu’il n’explique pas
Nous avons
Nous avons :: 𝒚𝐲𝒕𝐭 =
=𝒂 + 𝐚𝒂𝟏𝟏𝐱𝐭𝐱 𝒕==𝐲 𝒚−−𝟐𝒂𝐱𝟏+𝐱+
𝐚𝟎𝟎 + 𝐱 avec 𝐚𝟎 =𝒂𝐲𝟎 −
𝟐 𝐢𝒂𝟏 𝐱 𝒕 , avec = 𝐚𝒚𝟏−
𝐱 𝒂𝟏 𝐱
➔ 𝐲𝐭 − 𝐲 = 𝐚𝟏 (𝐱𝐭 − 𝐱) (A). (𝐲𝐭 − 𝐲𝐭 ) = (𝐲𝐭 − 𝐲) − (𝐲𝐭 − 𝐲)

𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐭(𝐲𝐭 − 𝐲)² + 𝐭(𝐲𝐭 − 𝐲)² − 𝟐 𝐭(𝐲𝐭 − 𝐲) (𝐲𝐭 − 𝐲)
(A) ➔ 𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐭(𝐲𝐭 − 𝐲)² + 𝐭(𝐲𝐭 − 𝐲)² − 𝟐 𝐚𝟏 𝐭(𝐲𝐭 − 𝐲) (𝐱𝐭 − 𝐱) (B)
𝐂𝐨𝐯(𝐗,𝐘) t(𝐲𝐭 −𝐲)(𝐱𝐭 −𝐱)
Or 𝐚𝟏 = = 𝟐
𝐕𝐚𝐫(𝐗) 𝐭 𝐱𝐭 −𝐱
(B) ➔ 𝐭(𝐲𝐭 − 𝐲𝐭 )² = 𝐢(𝐲𝐢 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 𝟐 − 𝟐 𝐚𝟐𝟏 𝐭 𝐱𝐭 − 𝐱 𝟐
𝟐
= 𝐭(𝐲𝐭 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 −𝟐 𝐭 𝐚𝟏 𝐱𝐭 − 𝐱 ²
𝟐 𝟐
= 𝐭(𝐲𝐭 − 𝐲)² + 𝐭 𝐲𝐭 − 𝐲 −𝟐 𝐭 𝐲𝐭 − 𝐲
𝟐
= 𝐢(𝐲𝐢 − 𝐲)² − 𝐭 𝐲𝐭 − 𝐲
Soit 𝐭(𝐲𝐭 − 𝐲)² = 𝐭 𝐲𝐭 − 𝐲 𝟐
+ 𝐭(𝐲𝐭 − 𝐲𝐭 )²
Ce que le modèle explique et ce qu’il n’explique pas
𝐧 𝐧 𝟐 𝐧
𝐭=𝟏(𝐲𝐭 − 𝐲)² = 𝐭=𝟏 𝐲𝐭 − 𝐲 + 𝐭=𝟏(𝐲𝐭 − 𝐲𝐭 )²
SCT = SCE + SCR
SOMME DES CARRES TOTAUX SOMME DES CARRES EXPLIQUES SOMME DES CARRES RESIDUELS
TOTAL SUM OF SQUARES REGRESSION SUM OF SQUARES ERROR SUM OF SQUARES
(TSS) (RSS) (ESS)
- SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y
c.-à-d. l'information disponible dans les données.
- SCE est la somme des carrés expliqués. Elle indique la variabilité
expliquée par le modèle c'est-à-dire la variation de Y expliquée par X.
- SCR est somme des carrés résiduels. Elle indique la variabilité non
expliquée (résiduelle) par le modèle c’est à dire l'écart entre les valeurs
observées de Y et celles prédites par le modèle.

Deux situations extrêmes peuvent survenir :

- Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont
complètement expliquées par celles de X.
➔ modèle parfait, la droite de régression passe exactement par tous les
points du nuage (𝐲𝐭 = yt).
- Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y. Ainsi,
𝐲𝐢 = 𝐲, la meilleure prédiction de Y est sa propre moyenne.
2. TABLEAU DE L’ANALYSE DE LA VARIANCE
Nous pouvons produire le tableau suivant d'analyse de la variance

(ANOVA : ANalys Of VAriance).
Somme Moyenne
Modèle ddl F Sig.
des carrés des carrés
Régression SCE 1 MCE=SCE/1
MCE/MCR
Résidu SCR n-2 MCR=SCR/n-2
Total SCT n-1
Abréviations :
- Moyenne des carrés : rapport somme des carrés (SC/ddl), relatif soit au
modèle soit à l’erreur ;
- F : rapport des MCE et MCR ;
- Sig. : Signification du test.
- ddl : degrés de liberté. Ils vérifient : ddltotal = ddlmodèle + ddlerreur ;
2. TABLEAU DE L’ANALYSE DE LA VARIANCE
DEGRES DE LIBERTE
Les degrés de liberté peuvent être vu de différentes manières.

La définition la plus accessible est de les comprendre comme le nombre de
termes impliqués dans les sommes (le nombre d'observations) moins le
nombre de paramètres estimés dans cette somme.
Ainsi :
- Nous avons besoin de l'estimation de la moyenne 𝐲 pour calculer la somme
SCT (ddl = n-1).
- Nous avons besoin des coefficients estimés 𝐚𝟎 𝐞𝐭 𝐚𝟏 pour obtenir la
projection 𝐲𝐭 et former la SCR (ddl = n-2).
- Concernant la SCE, le plus simple est de l'obtenir par déduction, c’est à
dire (n − 1) − (n − 2) = 1.

3. QUALITE DE L’AJUSTEMENT DE LA REGRESSION
Plus la variance expliquée SCE est proche de la variance totale SCT

(respectivement, plus la variance résiduelle est petite) meilleur est
l’ajustement du nuage de points par la droite des Moindres Carrés.
L’équation fondamentale de l’analyse de la variance permet de juger la

qualité de l’ajustement du modèle de la RLS. Comment ?
𝐒𝐂𝐄 𝐒𝐂𝐑
Par le calcul du coefficient de détermination R2. 𝐑² = =𝟏−
𝐒𝐂𝐓 𝐒𝐂𝐓

3. QUALITE DE L’AJUSTEMENT DE LA REGRESSION
𝟎 ≤ 𝐑² ≤ 𝟏 Il indique la proportion de variance de Y expliquée par le modèle.

- Plus il sera proche de la valeur 1, meilleur sera le modèle, la connaissance
des valeurs de X permet de deviner avec précision celle de Y.
- Lorsque R² est proche de 0, cela veut dire que X n'apporte pas
d'informations utiles (intéressantes) sur Y, la connaissance des valeurs de X
ne nous dit rien sur celles de Y.
- On démontre que R2 représente aussi le carré du coefficient de corrélation

linéaire entre Y et 𝐘 estimé : 𝐑² = 𝐂𝐨𝐫𝐫²(𝐲, 𝐲)
4. EXEMPLE D’APPLICATION Avec STATA
t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
9. INFERENCE STATISTIQUE
1. LA VARIANCE DE L’ERREUR : ESTIMATION
Les variances et covariance des estimateurs 𝐚𝟎 et 𝐚𝟏 établies précédemment

ne sont pas pratiques car elles font intervenir la variance inconnue 𝛔𝟐𝛆 des
erreurs.
Néanmoins, on peut en donner un estimateur sans biais grâce aux résidus.

Estimateur "𝟐 " de la variance de l’erreur "𝟐 ".

Estimateur "𝟐 " de la variance de l’erreur "𝟐 ".

CONSEQUENCES
𝟐

𝐕𝐚𝐫 𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐
𝐭=𝟏 𝐭
𝟐 𝟏 𝐱²
𝐕𝐚𝐫 𝐚𝟎 =  + 𝐧 𝟐
𝐧 (𝐱
𝐭=𝟏 𝐭 − 𝐱 )
𝟐 𝟐
Un estimateur sans biais " " de la variance de l’erreur " " est donné
l’expression suivante :
𝐧 𝐧
𝟐 𝐭=𝟏 𝐞𝐭 ² 𝐭=𝟏 𝐲𝐭 − 𝐲𝐭 ²
 = =
𝐧−𝟐 𝐧−𝟐
1. LA VARIANCE DE L’ERREUR : DISTRIBUTION
RAPPEL SUR LA VARIABLE KHI-CARRE
Soit z une variable aléatoire normale, centrée réduite (c'est-à-dire de
moyenne nulle et de variance égale à 1), alors la variable aléatoire :
Q1= z² suit la loi de Khi-deux à 1 seul degré de liberté notée 𝟐𝟏

RAPPEL SUR LA VARIABLE KHI-CARRE
Soit une suite de variables aléatoires indépendantes, normales, centrées

réduites, z1, …, zp ; (c'est-à-dire de moyenne nulle et de variance égale à 1),
𝟐 𝐩 𝟐
alors la variable aléatoire alors la variable aléatoire : 𝐩 = 𝐢=𝟏 𝐳𝐢
est appelée variable aléatoire khi-carré à p degrés de liberté.
RAPPEL SUR LA VARIABLE KHI-CARRE Exemple : P(Q2=2,41) ?

𝛆𝐭
Par hypothèse H7 : 𝛆𝐭  𝑵(𝟎, 𝛔𝟐𝛆 )  ~ 𝐍(𝟎, 𝟏)
𝛔𝛆
𝐞𝐭
Comme 𝐞𝐭 = 𝛆𝐭 est une réalisation de 𝛆𝐭  ~ 𝐍(𝟎,𝟏)
𝛔𝛆 (n-2) degrés de libertés
car on a 2 paramètres
En passant au carré, nous avons un ²(1). estimés a0 et a1
𝐞𝐭 𝟐 𝐧 𝟐
𝐭=𝟏 𝐞𝐭
En sommant les termes, nous obtenons : 𝐧
𝐭=𝟏 𝛔 = ~ ²(𝐧 − 𝟐)
𝛆 𝛔𝟐𝛆
En se référant à l’estimateur de la variance de l’erreur, on a :
𝛔𝟐𝛆 ²(𝐧 − 𝟐)
𝟐

𝛔𝛆 𝐧−𝟐
2. DISTRIBUTION DES ESTIMATEURS « MCO »
RAPPEL SUR LA VARIABLE DE STUDENT
Soit une variable aléatoire Z normale centrée réduite, et une variable

aléatoire khi-carré 𝐩 à p degrés de liberté, indépendante de Z, alors la
𝟐
𝐙
variable aléatoire : 𝐭𝐩 = est appelée variable aléatoire de Student à p
𝟐𝐩 𝐩
degrés de liberté.
✓ Cas de la pente
𝛆𝐭  𝑵(𝟎, 𝛔𝟐𝛆 )  𝐲𝐭 = 𝐚𝟎 + 𝐚𝟏 𝐱 𝐭 + 𝐭 suit aussi une loi normale.
𝐚𝟏 −𝐚𝟏
𝐚𝟏 étant une combinaison linéaire en 𝐲𝐭 𝛔𝐚𝟏
 𝑵(𝟎, 𝟏) ;
𝛔𝟐𝛆 𝛔𝟐𝛆
𝐕𝐚𝐫 𝐚𝟏 = 𝛔𝟐𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 (1) 𝐕𝐚𝐫 𝐚𝟏 = 𝛔𝟐𝐚𝟏 = 𝐧 (𝐱 −𝐱)𝟐 (2)
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
(𝟐) 𝛔𝟐
𝐚 𝛔𝟐 𝛔𝟐 𝛔𝟐 2 𝐧−𝟐
= 𝟏
= 𝛆

𝐚𝟏
= 𝛆

(𝟏) 𝛔𝟐
𝐚𝟏 𝛔𝟐
𝛆 𝛔𝟐
𝐚𝟏 𝛔𝟐
𝛆 𝐧−𝟐
𝐚 𝟏 − 𝐚𝟏
𝐚𝟏 − 𝐚𝟏 𝛔𝐚 𝟏 ~ 𝐍(𝟎, 𝟏)
= ~~ 𝐭
𝐭 (𝐧−𝟐)
𝛔𝐚 𝟏 𝛔𝐚 𝟏 2 𝐧 − 𝟐 (𝐧−𝟐)
𝛔𝐚 𝟏 𝐧−𝟐
✓ Cas de la constante
De manière analogue, pour la constante estimée 𝐚𝟎 , on a :

𝐚𝟎 − 𝐚𝟎
𝐚𝟎 − 𝐚𝟎 𝛔𝐚 𝟎 𝐍(𝟎, 𝟏)
= ~ ~ 𝐭 (𝐧−𝟐)
𝛔𝐚 𝟎 𝛔𝐚 𝟎 2 𝐧 − 𝟐
𝛔𝐚 𝟎 𝐧−𝟐

3. TESTS D’HYPOTHÈSES SUR LES PARAMÈTRES
✓ Test de significativité de la pente
Le test de significativité de la pente, à un seuil  = 5%, consiste à vérifier

l'influence réelle de l'exogène X sur l'endogène Y.
𝐇𝟎 ∶ 𝐚𝟏 = 𝟎
Les hypothèses à confronter s'écrivent :
𝐇𝟏 ∶ 𝐚𝟏 ≠ 𝟎
𝐚𝟏 −𝐚𝟏
Nous savons que : = ~ 𝐭 (𝐧−𝟐)
𝛔𝐚𝟏
𝐚𝟏−𝟎
Sous 𝐇𝟎 ( 𝐚𝟏 = 𝟎), le ratio de Student 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é = suit donc une loi de
𝛔𝐚𝟏
Student à n–2 degrés de libertés (ddl).

Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student

𝐚𝟏
empirique 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é = 𝐭𝐚𝟏 = à la valeur du t1− de Student lue dans la table à
𝛔𝐚𝟏 2
(n – 2) degrés de liberté et pour un seuil de probabilité = 5%, soit si (n –2)
=𝟎,𝟎𝟓
> 30, 𝐭∞ = 𝟏,𝟗𝟔 .
=𝟎,𝟎𝟓
Si 𝐭𝐜𝐚𝐥𝐜𝐮𝐥é > 𝐭∞ (= 1,96), nous rejetons l’hypothèse H0, le coefficient
théorique et inconnu 𝐚𝟏 est significativement différent de 0.
La région critique du rejet de H0 au risque  s’écrit :
R.C. : 𝐭 𝐚𝟏 > 𝐭 𝟏− Ou bien ′ < 
𝟐
Où ′ est la probabilité critique (p-value) qui correspond à la probabilité

que la loi de Student dépasse la statistique calculée t.
et 𝐭 𝟏− est le quantile d’ordre (1- /2) de la loi de Student.
𝟐

✓ Test de significativité de la constante
Le test de significativité
Ledetest
la constante
de se présente comme suit :
significativité
𝐇𝟎 ∶ 𝐚𝟎 = 𝟎 𝐇 ∶ 𝐚 = 𝟎
𝟎
𝐇 ∶ 𝐚 ≠ 𝟎
𝟏
𝟎
𝟎
La𝐇𝟏statistique
∶ 𝐚𝟎 ≠ 𝟎 du test suit une loi de Student à (n-2) de grés de liberté :
𝐚𝟎
𝐭 𝐚𝟎 =
𝛔𝐚 𝟎
𝐑. 𝐂. : 𝐭𝐚𝟎 > 𝐭𝟏− ; où 𝐭𝟏− est le quantile d’ordre (1- /2) de la loi de
𝟐 𝟐
Student. Il s’agit aussi d’un test bilatéral.
✓ Exemple d’application t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
✓ Test de significativité de la constante 2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
4. EVALUATION GLOBALE DE LA RÉGRESSION
✓ Test de Fisher
RAPPEL SUR LA VARIABLE DE FISHER
Soient deux variables aléatoires khi-carrés indépendantes  𝐩 , 𝐪 ,

𝟐 𝟐
respectivement à p et q degrés de liberté, alors la variable :

𝐩 𝐩
𝟐
𝐅𝐩,𝐪 = 𝟐
𝐪 𝐪
est appelée variable aléatoire de Fisher à p et q degrés de liberté.
✓ Test de Fisher
Le R2 indiquait dans quelle proportion la variabilité de Y pouvait être

expliquée par X.
En revanche, il ne répond pas à la question : est-ce que la régression est
globalement significative ?
En d'autres termes, est-ce que X emmène significativement de l'information
sur Y, représentative d'une relation linéaire réelle dans la population, et qui
va au-delà des simples fluctuations d'échantillonnage ?
✓ Test de Fisher
Un autre point de vue est de considérer le test d'évaluation globale comme

un test de significativité du R2 : dans quelle mesure s'écarte-t-il réellement
de la valeur 0 ?
Pour tester la significativité globale de la régression, nous nous basons sur
la statistique F :
𝐒𝐂𝐄
𝐌𝐂𝐄 𝟏
𝐅= = 𝐒𝐂𝐑
𝐌𝐂𝐑
𝐧−𝟐
✓ Test de Fisher
Le test de Fisher permet d’intégrer la taille de l’échantillon n dans

l’appréciation de la qualité de la représentation.
Le test de Fisher se présente comme suit :
𝐇𝟎 : 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 = 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐫é𝐬𝐢𝐝𝐮𝐞𝐥𝐥𝐞
𝐇𝟏 : 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐞𝐱𝐩𝐥𝐢𝐪𝐮é𝐞 > 𝑽𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒓é𝒔𝒊𝒅𝒖𝒆𝒍𝒍𝒆
Le test de F est considéré comme un test de significativité du coefficient de

détermination dans la mesure où il peut s’écrire en fonction du R².
𝐒𝐂𝐄 𝐒𝐂𝐄 𝐑²
En effet, 𝐅 = 𝟏
𝐒𝐂𝐑 = 𝟏∗𝐒𝐂𝐓
(𝐒𝐂𝐓−𝐒𝐂𝐄) = 𝟏
(𝟏−𝐑𝟐 )
𝐧−𝟐 𝐧−𝟐 ∗𝐒𝐂𝐓 𝐧−𝟐
✓ Test de Fisher
Sous H0, SCE est distribué selon ²(1) et SCR selon ²(n-2).
²(𝟏)
➔ 𝐅  𝟏
²(𝐧−𝟐)
 𝓕(𝟏, 𝐧 − 𝟐)
𝐧−𝟐
Sous H0, F est donc distribué selon une loi de Fisher à (1, n-2) degrés de liberté.
La région critique (R.C.) du test, correspondant au rejet de H0, au risque α
est définie pour les valeurs anormalement élevées de F c'est-à-dire :
𝐑.𝐂. : 𝐅𝐜𝐚𝐥𝐜𝐮𝐥é > 𝓕𝟏−𝛂(𝟏,𝐧 − 𝟐)
✓ Test de Fisher
Dans la plupart des logiciels de statistique, on fournit directement la

probabilité critique (p-value) 𝛂 , qui correspond à la probabilité que la loi
′
de Fisher dépasse la statistique calculée F.

Ainsi, la règle de décision au risque α devient :
𝐑. 𝐂. : ′ < 

✓ Test de Fisher : Exemple d’application t (Année) yt (Consommation) xt (Revenu)
2000 6000 7500
2001 4800 6000
2002 5840 7300
2003 7840 9800
2004 7960 9950
2005 8600 10000
2006 9030 10500
2007 9030 10500
2008 9460 11000
2009 9945 11050
2010 10620 11800
2011 10800 12000
2012 11250 12500
2013 12303 12950
2014 12350 13000
2015 12825 13500
2016 12968 13650
2017 13300 14000
5. ÉQUIVALENCE DES TESTS DANS UN MODÈLE DE RLS
𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎
𝐫𝐱𝐲
𝟏
Sous H0 et au risque , on a :  𝐭 (𝐧−𝟐)
𝟐 )
(𝟏−𝐫𝐱𝐲
𝐧−𝟐
𝐂𝐨𝐯(𝐱, 𝐲)
𝐫𝐱𝐲 =
𝐱 𝐲
𝐂𝐨𝐯(𝐱, 𝐲)
𝐚𝟏 =
𝟐𝐱
𝐫𝐱𝐲 𝟐
 
𝟏
𝐫𝐱𝐲 𝐚𝟏  𝐱 𝐚𝟏 𝐱
𝐱 𝐲 𝐲
= 𝐧−𝟐 = 𝐧−𝟐 = 𝐧−𝟐
𝟐 )
(𝟏−𝐫𝐱𝐲 𝟐
𝟏−𝐫𝐱𝐲 𝟐 
𝟏− 𝐚𝟏  𝐱 ² 𝟏− 𝐚𝟏 𝐱 ²
𝐧−𝟐 𝐱 𝐲 𝐲
𝐧 (𝐱 −𝐱)² 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
𝐚𝟏 𝐚𝟏
𝐧 (𝐲 −𝐲)² 𝐧 (𝐲 −𝐲)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
= 𝐧−𝟐 = 𝐧−𝟐
𝐚𝟐 𝐧 (𝐱 −𝐱)²
𝐭
𝐧 (𝐲 −𝐲)²−𝐚𝟐 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝟏 𝐭=𝟏 𝐭
𝟏− 𝐧 𝐭=𝟏
𝟏
𝐧 (𝐲 −𝐲)²
𝐭=𝟏(𝐲𝐭 −𝐲)² 𝐭=𝟏 𝐭
✓ Test de signification de rxy 𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎
𝐚𝟏 𝐱𝐭 − 𝐱 = 𝐲𝐭 − 𝐲
𝐚𝟏 𝐧 (𝐱 −𝐱)² 𝐚𝟏 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭
= 𝐧−𝟐 = Equation fondamentale
𝐧 (𝐲 −𝐲)²− 𝐧 [𝐚 𝐱 −𝐱 𝐧 (𝐲 −𝐲)²− 𝐧 (𝐲 −𝐲)² de l’analyse de la
𝐭=𝟏 𝐭 𝐭=𝟏 𝟏 𝐭 ]² 𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 variance
𝐚𝟏
𝐧 (𝐱 −𝐱)² 𝐚𝟏
𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝐭=𝟏 𝐭 𝐚𝟏 𝐚𝟏 𝐚𝟏
= = = = = ~𝐭 (𝐧−𝟐)
𝟐 𝐚𝟏
𝐧 𝐞𝟐
𝐭=𝟏 𝐭 𝟐 𝟐 𝐚𝟏
(𝐧−𝟐)
𝐧−𝟐 (𝐧−𝟐) 𝐧 (𝐱 −𝐱)²
𝐭=𝟏 𝐭 𝟐𝐚𝟏

✓ Test de signification de rxy 𝐇𝟎 : 𝐫𝐱𝐲 = 𝟎
𝐇𝟎 : 𝐫𝐱𝐲 ≠ 𝟎
AVEC LOGICIEL STATA
AVEC STATA
. import excel "D:\C-VEHICULES_28.xlsx", twoway (scatter Puissance Cylindree)
sheet("Données") firstrow
. cor Cylindree Puissance

(obs=28)
Cylind~e Puissa~e
Cylindree 1.0000
Puissance 0.9465 1.0000

Chapitre1 Mrls

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapitre1 Mrls

Uploaded by

Copyright:

Available Formats

ANALYSE DE LA REGRESSION

ANNEE UNIVERSITAIRE 2023-2024

 La notion de corrélation a été inventée par PEARSON.

Mustapha BERROUYNE 2 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Nous pouvons distinguer :

Deux variables peuvent être :

Relation non linéaire

Mustapha BERROUYNE 4 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Relation linéaire Relation non linéaire

Mustapha BERROUYNE 5 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Cov(X,Y) = covariance entre X et Y.

Ce coefficient est inconnu dans la mesure où il faudra

Mustapha BERROUYNE 8 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Mustapha BERROUYNE 9 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

 La corrélation d'une variable avec elle même est 𝒓𝑿𝑿= 1.

library(readxl) . import excel "D:\C-VEHICULES_28.xlsx", sheet("Données") firstrow

cor(Cylindree,Puissance) Cylindree 1.0000

Mustapha BERROUYNE 14 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

500 1,000 1,500 2,000 2,500 3,000 0 50 100 150

Mustapha BERROUYNE 16 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Le test d'hypothèses consiste a énoncer deux hypothèses sur un paramètre

L'objectif est de prendre une décision sur H0 qui consistera à rejeter H0

Erreur de première et seconde espèce

La probabilité de commettre une erreur de première espèce est notée ; et

En pratique, on ne teste pas des hypothèses simples, mais des hypothèses

Ce type d'hypothèse composite amène  à la construction de test du type :

Mustapha BERROUYNE 22 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Il s'agit d'un test bilatéral et donc répartir α en deux.

suit sous H0 une loi de Student à n-2 degrés de libertés.

Mustapha BERROUYNE 24 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Mustapha BERROUYNE 25 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

théorique au risque α =5% [t0.975(28−2) = 2.0555] (en

On peut aussi utiliser la fonction suivante pour

Mustapha BERROUYNE 27 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Mustapha BERROUYNE 29 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

500 1000 1500 2000

Chaque point du graphique représente, pour chaque

- le coût quadratique l(u) = u .

Mustapha BERROUYNE 32 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Ces fonctions sont positives, symétriques, elles

Mustapha BERROUYNE 34 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Toutefois, le modèle (1) suppose que les deux variables sont

Les estimateurs peuvent également s’écrire sous la

Mustapha BERROUYNE 37 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

(3)  (𝐲 − 𝐚𝟏 𝐱) 𝐧𝐢=𝟏 𝐱𝐢 + 𝐚𝟏 𝐧𝐢=𝟏 𝐱𝐢𝟐 = 𝐧𝐢=𝟏 𝐱𝐢 𝐲𝐢

Mustapha BERROUYNE 40 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

Mustapha BERROUYNE 41 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

La variance de l’erreur est constante : le risque de l’amplitude de l’erreur

H5 : 𝐄(𝐭 𝐭′ ) = 0 si t  𝐭 , les erreurs sont non corrélées (ou indépendantes) ;

Mustapha BERROUYNE 43 CHAPITRE 1. RÉGRESSION LINÉAIRE SIMPLE

1. Les estimateurs des MCO sont linéaires et s’expriment comme

𝐭=𝟏 𝐱𝐭−𝐱 𝐭 𝐭=𝟏 𝐱𝐭−𝐱 𝐄( 𝐭)

Mustapha BERROUYNE 46 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Mustapha BERROUYNE 47 CHAPITRE 1. MODELE LINEAIRE SIMPLE

➔ 𝐄 𝐚𝟎 =𝐄 𝐚𝟎 −𝐱( 𝐄 𝐚𝟏)−𝐚𝟏 )+𝐄()

Mustapha BERROUYNE 49 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Mustapha BERROUYNE 51 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Mustapha BERROUYNE 52 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Mustapha BERROUYNE 53 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Les estimateurs des Moindres Carrés Ordinaires sont des estimateurs

Mustapha BERROUYNE 54 CHAPITRE 1. MODELE LINEAIRE SIMPLE

Mustapha BERROUYNE 55 CHAPITRE 1. MODELE LINEAIRE SIMPLE

➔ 𝐲𝐭 − 𝐲 = 𝐚𝟏 (𝐱𝐭 − 𝐱) (A). (𝐲𝐭 − 𝐲𝐭 ) = (𝐲𝐭 − 𝐲) − (𝐲𝐭 − 𝐲)