You are on page 1of 6

Formules utiles pour la régression linéaire simple et la

corrélation de Pearson
Daniel Borcard
Département de sciences biologiques
Université de Montréal

Juin 2004 - révision novembre 2008

Ce document regroupe quelques variantes des formules de calcul de la corrélation linéaire de Pearson
et de la régression linéaire simple et de leurs test de signification. Ces variantes, qui illustrent les
équivalences entre plusieurs quantités impliquées dans les calculs, peuvent s'avérer d'utiles raccourcis
suivant les données dont on dispose pour réaliser les calculs.

Le symbolisme utilisé est celui de Scherrer (2007). Dans ce document:

x moyenne de la variable x
y moyenne de la variable y
sx écart type de la variable x
sy écart type de la variable y
s2x variance de la variable x
s2y variance de la variable y
sxy covariance des variables x et y
r coefficient de corrélation linéaire de Pearson
b1 coefficient de régression (= pente) d'une régression linéaire simple
b0 ordonnée à l'origine d'une régression linéaire simple
yˆ valeur estimée de y dans une régression linéaire simple
somme des carrés d'écarts totaux de y par rapport à y , soit SCT = ∑ (yi − y )
2
SCT
somme des carrés d'écarts expliqués par la régression, soit SCR = ∑ ( yˆi − y )
2
SCR
somme des carrés d'écarts non expliqués par la régression, soit SCE = ∑ (yi − yˆi )
2
SCE
var(b1 ) variance de la pente b1
var b1 erreur type de la pente b1
var b0 erreur type de l'ordonnée à l'origine b0
CME variance de l'erreur d'une régression = SCE/(n–2)
n nombre d'observations dans l'échantillon
Daniel Borcard Régression et corrélation 2

Coefficient de corrélation linéaire de Pearson r:

sxy s
r= mais aussi r = b1 x
sx sy sy

Régression linéaire simple de modèle I, régression de y (dépendante) en x


(indépendante ou explicative):

yˆ = b0 + b1x

sxy sy
b1 = 2 mais aussi b1 = r
sx sx

b0 = y − b1 x Remarque: si x et y sont centrés-réduits alors b1 = r et b0 = 0

Régression linéaire simple de modèle I, régression de x (dépendante) en y


(indépendante ou explicative):

xˆ = cy + d

sxy s s s sx s2
c= 2 mais aussi c = r x Attention, c ≠ 1/b1 , mais c = r x = b1 x = b1 x2
sy sy sy sy sy sy

d = x − cy

Cette manière de faire (intervertir x et y) n'est pas usuelle et en principe pas admise en régression de
modèle I!

Les deux droites yˆ = b0 + b1x et xˆ = cy + d forment un angle α qui est en relation avec r de la manière
suivante:

  s   sy  
= 90° −  tan −1 r x  + tan −1 r   (Legendre et Legendre 1998, équ. 10.5 p.503)
  sy   sx  

Comme les parenthèses sont des expressions des pentes a et c, on peut écrire:

[
= 90° − tan−1 (c ) + tan−1(b1) ]
Remarque: les formules de Scherrer (1984) p.631, et la figure 18.7 (Scherrer 2007), basées sur le
cosinus, sont fausses.

Département de sciences biologiques Université de Montréal


Daniel Borcard Régression et corrélation 3
Test de signification du coefficient de corrélation linéaire de Pearson

Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire

r n−2
t= suit une loi de Student à ν = n–2 degrés de liberté
1− r 2

r2 (n − 2)
Remarque: on peut aussi utiliser la variable auxiliaire F = , qui obéit sous les mêmes
1 − r2
conditions à une loi de F à ν1 = 1 et ν = n–2 degrés de liberté. Emploi déconseillé pour les tests
unilatéraux, pour lesquels il faut chercher les valeurs critiques de F pour 2×α après avoir vérifié le
signe de la corrélation r de l'échantillon (qui doit être celui allégué dans l'hypothèse H1 ).

Test de signification de la pente b 1 d'une régression linéaire simple

Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire

b1
tcalc = suit une loi de Student à ν = n–2 degrés de liberté.
var(b1 )

r n−2
tcalc peut aussi être défini comme tcalc = (démonstration en annexe), ce qui montre que le test
1− r 2
de la pente b1 est équivalent au test du coefficient de corrélation r.

Coefficient de détermination d'un modèle de régression linéaire simple

s2xy
R2 = 2 2 = r2
sx sy

Intervalle de confiance de la pente d'une droite de régression de y en x

Cet intervalle est défini comme:

Pr[b1 − t / 2 var(b1) < 1 < b1 + t / 2 var(b1) ] = 1 − où 1 est la pente dans la population


statistique.

Le calcul de var b1 , l'erreur type de la pente b1 , est laborieux si on le fait avec les formules courantes
qui font appel à des sommes de carrés. Mais grâce au développement présenté en annexe, on peut
calculer var b1 à l'aide des écarts types de x et y et de la corrélation entre les deux variables, ce qui
simplifie grandement les calculs.

Département de sciences biologiques Université de Montréal


Daniel Borcard Régression et corrélation 4
En effet, on voit dans l'annexe que

sy 1− r 2
var(b1) =
sx n − 2

et donc qu'on peut exprimer l'intervalle de confiance de la pente α de la population statistique comme:

 sy 1 − r2 sy 1− r 2 
Pr  b1 − t / 2 < 1 < b1 + t / 2  = 1−
sx n − 2 sx n − 2
 

Test sur l'ordonnée à l'origine b 0 d'une droite de régression de y en x

Ce test sert par exemple à vérifier si la pente β 0 de la population statistique diffère d'une valeur
fournie par la théorie, comme par exemple 0. Dans ce cas (test pour savoir si b0 diffère de 0), on
calcule la variable auxiliaire

b0 − 0 b −0
tb0 calc = = 0
var(b0 ) var(b0 )

qui, lorsque les conditions d'application sont réunies et si H0 est vraie, suit une loi de Student à ν = n–
2 degrés de liberté.

Scherrer donne pour var(b0 ) la formule suivante:

CME ∑ xi2
var(b0 ) =
n ∑(x i − x )2

Cette formule présente l'inconvénient d'impliquer le calcul de CME et de tous les carrés d'écart à la
moyenne. Un peu d'algèbre permet de se débarrasser de ces quantités difficiles à obtenir. En effet:

SCE (n − 1)sy (1− r )


2 2
CME = = (l'équivalence algébrique de SCE est présentée dans l'annexe)
n−2 n−2

et ∑ (xi − x )2 = (n − 1)s2x

Donc:

CME ∑ xi2 (n − 1)s2y (1− r2 )∑ xi2 s2y (1− r 2 )∑ xi2


var(b0 ) = = =
n ∑(x i − x )2 n(n − 1)(n − 2)s2x s2x n(n − 2)

Département de sciences biologiques Université de Montréal


Daniel Borcard Régression et corrélation 5

et

sy (1− r2 )∑ x i2
var(b 0 ) =
sx n(n − 2)

Je suis ouvert à toute suggestion pour se débarrasser aussi de la somme des x i2 !

Références

Legendre, P. & L. Legendre. 1998. Numerical ecology. 3rd English Edition. Elsevier, Amsterdam,
xv + 853 p.
Scherrer, B. 1984. Biostatistique. Gaëtan Morin Ed., Boucherville. xix + 850 p.

Département de sciences biologiques Université de Montréal


Daniel Borcard Régression et corrélation 6
Annexe

Équivalence des formules du test t du coefficient de régression (pente) a et du test t du coefficient de


corrélation de Pearson r entre deux variables x et y

b1
tcalc =
var(b1 )

CME SCE
où var(b1) = 2 =
(n − 1)sx (n − 2)(n − 1)s2x

Par ailleurs, SCE = SCT – SCR et SCR = r2 ×SCT

Donc:

SCE = SCT – r2 ×SCT = SCT (1 – r2 )

SCT
SCT = s2y (n − 1) puisque s2y =
n −1

Par conséquent:

SCE = (n − 1)s2y (1− r 2 )

Donc:

s2y (1− r2 ) s2y (1− r2 ) sy 1 − r2


var(b1) = 2 et var(b1) = =
sx (n − 2) s2x (n − 2) sx n − 2

Reprenons la formule du tcalc en y remplaçant l'erreur type de b1 par la formule ci-dessus:

b1 b s n−2
tcalc = = 1x
var(b1 ) sy 1 − r2

bs r n−2
Comme 1 x = r , il s'ensuit que tcalc =
sy 1− r 2

CQFD.

Département de sciences biologiques Université de Montréal

You might also like