Formules Regression PDF

Formules utiles pour la régression linéaire simple et la
corrélation de Pearson
Daniel Borcard
Département de sciences biologiques
Université de Montréal
Juin 2004 - révision novembre 2008
Ce document regroupe quelques variantes des formules de calcul de la corrélation linéaire de Pearson
et de la régression linéaire simple et de leurs test de signification. Ces variantes, qui illustrent les
équivalences entre plusieurs quantités impliquées dans les calculs, peuvent s'avérer d'utiles raccourcis
suivant les données dont on dispose pour réaliser les calculs.
Le symbolisme utilisé est celui de Scherrer (2007). Dans ce document:
x moyenne de la variable x
y moyenne de la variable y
sx écart type de la variable x
sy écart type de la variable y
s2x variance de la variable x
s2y variance de la variable y
sxy covariance des variables x et y
r coefficient de corrélation linéaire de Pearson
b1 coefficient de régression (= pente) d'une régression linéaire simple
b0 ordonnée à l'origine d'une régression linéaire simple
yˆ valeur estimée de y dans une régression linéaire simple
somme des carrés d'écarts totaux de y par rapport à y , soit SCT = ∑ (yi − y )
2
SCT
somme des carrés d'écarts expliqués par la régression, soit SCR = ∑ ( yˆi − y )
2
SCR
somme des carrés d'écarts non expliqués par la régression, soit SCE = ∑ (yi − yˆi )
2
SCE
var(b1 ) variance de la pente b1
var b1 erreur type de la pente b1
var b0 erreur type de l'ordonnée à l'origine b0
CME variance de l'erreur d'une régression = SCE/(n–2)
n nombre d'observations dans l'échantillon
Daniel Borcard Régression et corrélation 2
Coefficient de corrélation linéaire de Pearson r:
sxy s
r= mais aussi r = b1 x
sx sy sy
Régression linéaire simple de modèle I, régression de y (dépendante) en x

(indépendante ou explicative):
yˆ = b0 + b1x
sxy sy
b1 = 2 mais aussi b1 = r
sx sx
b0 = y − b1 x Remarque: si x et y sont centrés-réduits alors b1 = r et b0 = 0
Régression linéaire simple de modèle I, régression de x (dépendante) en y

(indépendante ou explicative):
xˆ = cy + d
sxy s s s sx s2
c= 2 mais aussi c = r x Attention, c ≠ 1/b1 , mais c = r x = b1 x = b1 x2
sy sy sy sy sy sy
d = x − cy
Cette manière de faire (intervertir x et y) n'est pas usuelle et en principe pas admise en régression de
modèle I!
Les deux droites yˆ = b0 + b1x et xˆ = cy + d forment un angle α qui est en relation avec r de la manière
suivante:
  s   sy  
= 90° −  tan −1 r x  + tan −1 r   (Legendre et Legendre 1998, équ. 10.5 p.503)
  sy   sx  
Comme les parenthèses sont des expressions des pentes a et c, on peut écrire:
[
= 90° − tan−1 (c ) + tan−1(b1) ]
Remarque: les formules de Scherrer (1984) p.631, et la figure 18.7 (Scherrer 2007), basées sur le
cosinus, sont fausses.
Département de sciences biologiques Université de Montréal

Test de signification du coefficient de corrélation linéaire de Pearson
Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire
r n−2
t= suit une loi de Student à ν = n–2 degrés de liberté
1− r 2
r2 (n − 2)
Remarque: on peut aussi utiliser la variable auxiliaire F = , qui obéit sous les mêmes
1 − r2
conditions à une loi de F à ν1 = 1 et ν = n–2 degrés de liberté. Emploi déconseillé pour les tests
unilatéraux, pour lesquels il faut chercher les valeurs critiques de F pour 2×α après avoir vérifié le
signe de la corrélation r de l'échantillon (qui doit être celui allégué dans l'hypothèse H1 ).
Test de signification de la pente b 1 d'une régression linéaire simple
Lorsque les conditions d'application sont réunies et si H0 est vraie, alors la variable auxiliaire
b1
tcalc = suit une loi de Student à ν = n–2 degrés de liberté.
var(b1 )
r n−2
tcalc peut aussi être défini comme tcalc = (démonstration en annexe), ce qui montre que le test
1− r 2
de la pente b1 est équivalent au test du coefficient de corrélation r.
Coefficient de détermination d'un modèle de régression linéaire simple
s2xy
R2 = 2 2 = r2
sx sy
Intervalle de confiance de la pente d'une droite de régression de y en x
Cet intervalle est défini comme:
Pr[b1 − t / 2 var(b1) < 1 < b1 + t / 2 var(b1) ] = 1 − où 1 est la pente dans la population

statistique.
Le calcul de var b1 , l'erreur type de la pente b1 , est laborieux si on le fait avec les formules courantes
qui font appel à des sommes de carrés. Mais grâce au développement présenté en annexe, on peut
calculer var b1 à l'aide des écarts types de x et y et de la corrélation entre les deux variables, ce qui
simplifie grandement les calculs.

En effet, on voit dans l'annexe que
sy 1− r 2
var(b1) =
sx n − 2
et donc qu'on peut exprimer l'intervalle de confiance de la pente α de la population statistique comme:
 sy 1 − r2 sy 1− r 2 
Pr  b1 − t / 2 < 1 < b1 + t / 2  = 1−
sx n − 2 sx n − 2
 
Test sur l'ordonnée à l'origine b 0 d'une droite de régression de y en x
Ce test sert par exemple à vérifier si la pente β 0 de la population statistique diffère d'une valeur
fournie par la théorie, comme par exemple 0. Dans ce cas (test pour savoir si b0 diffère de 0), on
calcule la variable auxiliaire
b0 − 0 b −0
tb0 calc = = 0
var(b0 ) var(b0 )
qui, lorsque les conditions d'application sont réunies et si H0 est vraie, suit une loi de Student à ν = n–
2 degrés de liberté.
Scherrer donne pour var(b0 ) la formule suivante:
CME ∑ xi2
var(b0 ) =
n ∑(x i − x )2
Cette formule présente l'inconvénient d'impliquer le calcul de CME et de tous les carrés d'écart à la
moyenne. Un peu d'algèbre permet de se débarrasser de ces quantités difficiles à obtenir. En effet:
SCE (n − 1)sy (1− r )

2 2
CME = = (l'équivalence algébrique de SCE est présentée dans l'annexe)
n−2 n−2
et ∑ (xi − x )2 = (n − 1)s2x
Donc:
CME ∑ xi2 (n − 1)s2y (1− r2 )∑ xi2 s2y (1− r 2 )∑ xi2

var(b0 ) = = =
n ∑(x i − x )2 n(n − 1)(n − 2)s2x s2x n(n − 2)

et
sy (1− r2 )∑ x i2
var(b 0 ) =
sx n(n − 2)
Je suis ouvert à toute suggestion pour se débarrasser aussi de la somme des x i2 !
Références
Legendre, P. & L. Legendre. 1998. Numerical ecology. 3rd English Edition. Elsevier, Amsterdam,
xv + 853 p.
Scherrer, B. 1984. Biostatistique. Gaëtan Morin Ed., Boucherville. xix + 850 p.

Annexe
Équivalence des formules du test t du coefficient de régression (pente) a et du test t du coefficient de

corrélation de Pearson r entre deux variables x et y
b1
tcalc =
var(b1 )
CME SCE
où var(b1) = 2 =
(n − 1)sx (n − 2)(n − 1)s2x
Par ailleurs, SCE = SCT – SCR et SCR = r2 ×SCT
Donc:
SCE = SCT – r2 ×SCT = SCT (1 – r2 )
SCT
SCT = s2y (n − 1) puisque s2y =
n −1
Par conséquent:
SCE = (n − 1)s2y (1− r 2 )
Donc:
s2y (1− r2 ) s2y (1− r2 ) sy 1 − r2

var(b1) = 2 et var(b1) = =
sx (n − 2) s2x (n − 2) sx n − 2
Reprenons la formule du tcalc en y remplaçant l'erreur type de b1 par la formule ci-dessus:
b1 b s n−2
tcalc = = 1x
var(b1 ) sy 1 − r2
bs r n−2
Comme 1 x = r , il s'ensuit que tcalc =
sy 1− r 2
CQFD.

Formules Regression PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Formules Regression PDF

Uploaded by

Copyright:

Available Formats

Formules utiles pour la régression linéaire simple et la

Juin 2004 - révision novembre 2008

Le symbolisme utilisé est celui de Scherrer (2007). Dans ce document:

Coefficient de corrélation linéaire de Pearson r:

Régression linéaire simple de modèle I, régression de y (dépendante) en x

b0 = y − b1 x Remarque: si x et y sont centrés-réduits alors b1 = r et b0 = 0

Régression linéaire simple de modèle I, régression de x (dépendante) en y

Département de sciences biologiques Université de Montréal

Test de signification de la pente b 1 d'une régression linéaire simple

Coefficient de détermination d'un modèle de régression linéaire simple

Intervalle de confiance de la pente d'une droite de régression de y en x

Cet intervalle est défini comme:

Pr[b1 − t / 2 var(b1) < 1 < b1 + t / 2 var(b1) ] = 1 − où 1 est la pente dans la population

Département de sciences biologiques Université de Montréal

Test sur l'ordonnée à l'origine b 0 d'une droite de régression de y en x

Scherrer donne pour var(b0 ) la formule suivante:

SCE (n − 1)sy (1− r )

CME ∑ xi2 (n − 1)s2y (1− r2 )∑ xi2 s2y (1− r 2 )∑ xi2

Département de sciences biologiques Université de Montréal

Je suis ouvert à toute suggestion pour se débarrasser aussi de la somme des x i2 !

Département de sciences biologiques Université de Montréal

Équivalence des formules du test t du coefficient de régression (pente) a et du test t du coefficient de

Par ailleurs, SCE = SCT – SCR et SCR = r2 ×SCT

SCE = SCT – r2 ×SCT = SCT (1 – r2 )

SCE = (n − 1)s2y (1− r 2 )

s2y (1− r2 ) s2y (1− r2 ) sy 1 − r2

Reprenons la formule du tcalc en y remplaçant l'erreur type de b1 par la formule ci-dessus:

Département de sciences biologiques Université de Montréal

You might also like