Professional Documents
Culture Documents
corrélation de Pearson
Daniel Borcard
Département de sciences biologiques
Université de Montréal
Ce document regroupe quelques variantes des formules de calcul de la corrélation linéaire de Pearson
et de la régression linéaire simple et de leurs test de signification. Ces variantes, qui illustrent les
équivalences entre plusieurs quantités impliquées dans les calculs, peuvent s'avérer d'utiles raccourcis
suivant les données dont on dispose pour réaliser les calculs.
x moyenne de la variable x
y moyenne de la variable y
sx écart type de la variable x
sy écart type de la variable y
s2x variance de la variable x
s2y variance de la variable y
sxy covariance des variables x et y
r coefficient de corrélation linéaire de Pearson
b1 coefficient de régression (= pente) d'une régression linéaire simple
b0 ordonnée à l'origine d'une régression linéaire simple
yˆ valeur estimée de y dans une régression linéaire simple
somme des carrés d'écarts totaux de y par rapport à y , soit SCT = ∑ (yi − y )
2
SCT
somme des carrés d'écarts expliqués par la régression, soit SCR = ∑ ( yˆi − y )
2
SCR
somme des carrés d'écarts non expliqués par la régression, soit SCE = ∑ (yi − yˆi )
2
SCE
var(b1 ) variance de la pente b1
var b1 erreur type de la pente b1
var b0 erreur type de l'ordonnée à l'origine b0
CME variance de l'erreur d'une régression = SCE/(n–2)
n nombre d'observations dans l'échantillon
Daniel Borcard Régression et corrélation 2
sxy s
r= mais aussi r = b1 x
sx sy sy
yˆ = b0 + b1x
sxy sy
b1 = 2 mais aussi b1 = r
sx sx
xˆ = cy + d
sxy s s s sx s2
c= 2 mais aussi c = r x Attention, c ≠ 1/b1 , mais c = r x = b1 x = b1 x2
sy sy sy sy sy sy
d = x − cy
Cette manière de faire (intervertir x et y) n'est pas usuelle et en principe pas admise en régression de
modèle I!
Les deux droites yˆ = b0 + b1x et xˆ = cy + d forment un angle α qui est en relation avec r de la manière
suivante:
s sy
= 90° − tan −1 r x + tan −1 r (Legendre et Legendre 1998, équ. 10.5 p.503)
sy sx
Comme les parenthèses sont des expressions des pentes a et c, on peut écrire:
[
= 90° − tan−1 (c ) + tan−1(b1) ]
Remarque: les formules de Scherrer (1984) p.631, et la figure 18.7 (Scherrer 2007), basées sur le
cosinus, sont fausses.
Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire
r n−2
t= suit une loi de Student à ν = n–2 degrés de liberté
1− r 2
r2 (n − 2)
Remarque: on peut aussi utiliser la variable auxiliaire F = , qui obéit sous les mêmes
1 − r2
conditions à une loi de F à ν1 = 1 et ν = n–2 degrés de liberté. Emploi déconseillé pour les tests
unilatéraux, pour lesquels il faut chercher les valeurs critiques de F pour 2×α après avoir vérifié le
signe de la corrélation r de l'échantillon (qui doit être celui allégué dans l'hypothèse H1 ).
Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire
b1
tcalc = suit une loi de Student à ν = n–2 degrés de liberté.
var(b1 )
r n−2
tcalc peut aussi être défini comme tcalc = (démonstration en annexe), ce qui montre que le test
1− r 2
de la pente b1 est équivalent au test du coefficient de corrélation r.
s2xy
R2 = 2 2 = r2
sx sy
Le calcul de var b1 , l'erreur type de la pente b1 , est laborieux si on le fait avec les formules courantes
qui font appel à des sommes de carrés. Mais grâce au développement présenté en annexe, on peut
calculer var b1 à l'aide des écarts types de x et y et de la corrélation entre les deux variables, ce qui
simplifie grandement les calculs.
sy 1− r 2
var(b1) =
sx n − 2
et donc qu'on peut exprimer l'intervalle de confiance de la pente α de la population statistique comme:
sy 1 − r2 sy 1− r 2
Pr b1 − t / 2 < 1 < b1 + t / 2 = 1−
sx n − 2 sx n − 2
Ce test sert par exemple à vérifier si la pente β 0 de la population statistique diffère d'une valeur
fournie par la théorie, comme par exemple 0. Dans ce cas (test pour savoir si b0 diffère de 0), on
calcule la variable auxiliaire
b0 − 0 b −0
tb0 calc = = 0
var(b0 ) var(b0 )
qui, lorsque les conditions d'application sont réunies et si H0 est vraie, suit une loi de Student à ν = n–
2 degrés de liberté.
CME ∑ xi2
var(b0 ) =
n ∑(x i − x )2
Cette formule présente l'inconvénient d'impliquer le calcul de CME et de tous les carrés d'écart à la
moyenne. Un peu d'algèbre permet de se débarrasser de ces quantités difficiles à obtenir. En effet:
et ∑ (xi − x )2 = (n − 1)s2x
Donc:
et
sy (1− r2 )∑ x i2
var(b 0 ) =
sx n(n − 2)
Références
Legendre, P. & L. Legendre. 1998. Numerical ecology. 3rd English Edition. Elsevier, Amsterdam,
xv + 853 p.
Scherrer, B. 1984. Biostatistique. Gaëtan Morin Ed., Boucherville. xix + 850 p.
b1
tcalc =
var(b1 )
CME SCE
où var(b1) = 2 =
(n − 1)sx (n − 2)(n − 1)s2x
Donc:
SCT
SCT = s2y (n − 1) puisque s2y =
n −1
Par conséquent:
Donc:
b1 b s n−2
tcalc = = 1x
var(b1 ) sy 1 − r2
bs r n−2
Comme 1 x = r , il s'ensuit que tcalc =
sy 1− r 2
CQFD.