Chapitre 2: Les moindres carr´s ordinaires e

9 janvier 2007

1

Introduction
Soit le mod`le de r´gression lin´aire e e e yi = β1 + β2 xi2 + β3 xi3 + ... + βK xiK +
i

= xT β + i

i

(1)

Notez que le vecteur des coefficients, β, et les termes d’erreurs, i , sont les quantit´s de la population e et sont inconnus. Soit b0 un estimateur de β. Cette estimateur implique yi (b0 ) = xT b0 ˆ i comme estimateur de E[yi |xi ] et implique ei (b0 ) = yi − xT b0 i comme estimateur de
i.

(2)

(3)

Nous appellons y les valeurs pr´dits de la r´gression et e les r´sidus. ˆ e e e Notez yi = xT β + i = xT b0 + ei (b0 ) i

i

(4)

1

sauf si tous les ´l´ments de v sont nuls. on a q = c X Xc = v v = n i=1 2 vi . u (10) q est positive. alors X X est d´finie positive : e Soit q = c X Xc pour c un vecteur non nul. e Notez que si X est de plein rang. 2 . ceci peut se ee produit si une combinaison lin´aire de X est ´gale ` z´ro. o` v = Xc. Cette fonction objectif peut ˆtre r´´crite a e ee (y − Xb0 ) (y − Xb0 ) = y y − b0 X y − y Xb0 + b0 X Xb0 = y y − 2y Xb0 + b0 X Xb0 La condition n´cessaire est e ∂S(b0 ) = −X y + (X X)b = 0 ∂b0 D’o` l’estimateur des MCO : u b = (X X)−1 X y (9) (8) (7) La condition suffisante pour un minimum globale (ce qui implique que b est unique) est que la matrice ∂ 2 S(b0 ) = 2X X ∂b0 ∂b0 soit d´finie positive. ce qui contradit l’hypoth`se de plein rang de e e a e e X. (5) En terme matricielle : S(b0 ) = e(b0 ) e(b0 ) = (y − Xb0 ) (y − Xb0 ) (6) L’estimation par MCO est donc un probl`me de minimisation.1. On veut minimiser la fonction objectif e (6) par rapport ` b0 .1 Le vecteur des coefficients des moindres carr´s e Le principe des moindres carr´s ordinaires (MCO) consiste ` choisir un estimateur b qui e a minimise la somme des carr´s des r´sidus : e e n n S(b0 ) = i=1 ei (b0 )2 = i=1 (yi − xi b0 ). Mais (comme c est non nul. toute matrice de plein rang pr´multipli´e par sa transpos´e donne une matrice d´finie e e e e e e positive. En g´n´rale.

 i=1 i i=1   1 xn   y    1     n y 1 1 . . . x n  .    1 xn   1 x1        n n 1 1 . 1  1 x2  i=1 xi     . n . e e . X T X =  . De mˆme. x n  . la matrice X T y =  e . . .  = n n x2 xi . . . . x1 x2 . . soit le mod`le e e e y i = β 0 + β 1 xi + L’estimateur des MCO minimise la fonction objectif n i S(b0 ) = i=1 (yi − b01 − b02 xi )2 (11) Cette fonction peut ˆtre r´´crite. pour plus de simplicit´ e ee e n n 2 yi + nb2 + b2 01 02 i=1 i=1 n n n S(b0 ) = x2 − 2b01 i i=1 yi − 2b02 i=1 xi yi + 2b01 b02 i=1 xi (12) Les conditions n´cessaire pour un minimum sont : e ∂S(b0 ) = nb01 − ∂b01 ∂S(b0 ) = b02 ∂b02 ou. . . . .  . .1. considerons le cas de la r´gression bivari´e. Ainsi. la matrice X =  .2 Le cas de la r´gression bivari´e e e Comme point de comparaison. . 1  y2     =  i=1 i . x1 x2 . sous forme matricielle :   n n i=1 n i=1 n n n yi + b02 i=1 n i=1 xi = 0 n (13) x2 i i=1 − i=1 xi yi + b01 i=1 xi = 0  yi  (14)  xi x2 i  b01 b02   xi n i=1 =  n i=1 n i=1 xi y i (15)  1 x1      1 x2  Dans le cas de la r´gression bivari´e. .  i=1 xi yi   yn 3 .

(18) implique : e = 0. e ee e Le vecteur de coefficient estim´ des MCO doit satisfaire le condition n´cessaire pour minimiser la e e somme des carr´s r´sidus. u (16) 2 Propri´t´s num´riques des MCO e e e Il existe deux types de propri´t´s des MCO : les propri´t´s num´riques et statistiques. (18) Notez que pour quelconque colonne xk de X. 4 . e e Les propri´t´s num´riques des MCO provienent de ces ´quations normales. c e Ici on consi`re les propri´t´s num´riques. Cela signifie par ailleurs. donn´ par (8).L’´quation (15) est alors ´quivalente ` e e a (X T X)b = X T y D’o` b = (X T X)−1 X T y. Si le mod`le contient un constant (la premi`re colonne de X est le vecteur unitaire). ee e e 1. ee ee e Les propri´t´s statistiques d´pendent de la mani`ere dont les donn´es sont g´n´r´s et sont concern´es ee e ı e e e e e par l’esperances et la variance de l’estimateur. e e Si le mod`le contient un constant. Les propri´t´s num´riques ne d´pendent pas de la fa¸on dont les donn´es sont g´n´r´s. L’espace engendr´ par les variables explicatives (les colonnes de la matrice X) est orthogonal aux e r´sidus des MCO. que e n i=1 xki ei = 0. n i=1 ei 2. en effectuant k l’op´ration sur les deux vecteurs. Ils ne d´pendent ee e e c e e ee e que de la fa¸on dont l’estimateur est calcul´. e (17) Xe=0 Ce resultat suit directement de la substitution de e = y − Xb dans (17). C’est ` dire e e e a (X T X)b − X T y = X T (Xb − y) = 0 On appelle ces ´quations les ´quations normales. xT e = 0.

Si la r´gression contient un constant. . . Si le r´gression contient un constant. .  .. 1 y + 1 1 . 1 y = 1 1 . n i=1 xik (21) En divisant les deux termes par n.. ˆ En multipliant chaque cˆt´ par le vecteur unitaire oe ˆ 1 1 . e Rappellez que y = y + e. 1 (y − Xb) = 0   b  0   b1   =0 . 1 e = 0.    n 0 i=1 xki ei n i=1 ei  (19) Le premier ´l´ment de ce vecteur indique que la somme des r´sidus des MCO est nulle.. 1 e = 1 1 .. ¯ ¯ (22) e e e a 4. . le plan de la r´gression passe par le point des moyennes : e e Le premier ´l´ment de (19) est ee 1 1 . .    X e=      0       n  0 i=1 x1i ei     = . n n yi = ˆ i=1 i=1 yi (23) 5 . . .. . .   bk (20) n yi − i=1 n i=1 xi1 n i=1 xi2 . 1 y ˆ car 1 1 .. on obtient.. . ee e 3. y − xb = 0. alors. . . On obtient.. la moyenne des valeurs pr´dites est ´gale ` la moyenne des valeurs observ´es.

on a utilis´ les propri´t´s des matrices suivant : e ee 6 (29) . Propri´t´s de M ee 1. M est sym´trique : M = M e (28) M = (I − X(X X)−1 X ) = I − X(X X)−1 X = M Ici. on a e = (I − X(X X)−1 X )y = M y (27) o` M = (I − X(X X)−1 X ) est une matrice de dimension n × n qui g´n`re le vecteur des r´sidus u e e e des MCO dans la r´gression de y sur X. Comme le vecteur y est commun aux deux termes. on obtient te 1 n QED. e Il s’agit d’une matrice de projection. Elle projette le vecteur y sur le sous-espace orthogonal ` celui a engendr´ par les colonnes de X : e M y = (I − X(X X)−1 X )y = y − Xb = e (Rappellez que les residus des MCO sont orthogonal aux variables explicatives X).En divisant par n des deux coˆ´s. n i=1 1 yi = ˆ n n ˆ yi = yi = yi ¯ ¯ i=1 (24) 3 Les projections Rappellez que le vecteur de paramˆtres estim´s par MCO est donn´e par e e e b = (X X)−1 X y Le vecteur des r´sidus des MCO est donn´e par e e e = y − Xb = y − X(X X)−1 X y (25) (26) en substituant pour b.

M M = (I − X(X X)−1 X )(I − X(X X)−1 X ) = II − IX(X X)−1 X − X(X X)−1 X I + X(X X)−1 X X(X X)−1 X = I − X(X X)−1 X − X(X X)−1 X + X(X X)−1 X = I − X(X X)−1 X = M Une autre matrice de projection. (30) (31) gen`re les valeurs pr´dits de la r´gression. P = I − M = X(X X)−1 X . P est idempotente : P P = P . on sait que la matrice M . e X = 0 (les residus sont orthogonaux ` X). e X = (M y) X = y M X = 0 7 (34) . Elle projette le vecteur y dans le sous-espace engendr´ e e e e par les colonnes de la matrice X. M est idempotente : M M = M . P y = X(X X)−1 X y = Xb = y ˆ Propri´t´s de P : ee 1.(a) (A + B) = A + B (b) (ABC) = C B A (c) (X X)−1 est symm´trique e 2. g´n`re les r´sidus de la r´gression des MCO. Il s’ensuit que : 1. Ici. P est sym´trique : P = P e 2. M X = 0. e e e a 2. les e e e e r´sidus d’une r´gression de X sur X seraient ´videmment nuls. (32) M X = (I − X(X X)−1 X )X = X − X(X X)−1 X X = X − X = 0 (33) Intuitivement.

l’estimateur des MCO de β2 ? Notez que (X X) = X1 X2  X1 X2 =  X1 X2   X1 X2   X1 X1 X1 X2  = X2 X1 X2 X2 (37) (38) Ainsi. le vecteur de param`tres devra r´soudre e e      X y b X X X1 X2   1 =  1   1 1 X2 y b2 X2 X1 X2 X2 Cette ´quation. (36) A cet ´gard. P X = X P X = X(X X)−1 X X = X (35) Intuitivement. β2 . on partitionne la matrice des variables explicatives tels que et que e X = X1 X2 et on re´crit notre mod`le de r´gression e e e y = X1 β1 + X2 β2 + Quel est la solution pour b2 . sous la forme matricielle. β =  β1 β2  . a  Ainsi. peut ˆtre r´´crite en deux ´quations : e e ee e X 1 X1 b 1 + X1 X2 b 2 = X1 y 8 (39) (40) .3. la projection de X sur le sous-espace engendr´ par les colonnes de X (le projection e de X sur elle-mˆme !) est ´gale ` X : e e a 4 Le th´or`me Frisch-Waugh-Lovell (FWL) e e Considerons le mod`le de r´gression e e y = Xβ + Supposons que l’on s’interesse ` un sous ensemble des coefficients β.

En effet.X 2 X1 b 1 + X2 X2 b 2 = X2 y L’´quation (40) est ´quivalente ` e e a X1 X1 b1 = X1 y − X1 X2 b2 d’o` u b1 = (X1 X1 )−1 X1 y − (X1 X1 )−1 X1 X2 b2 En subsituant (43) dans (41). u e En r´arrangeant les termes. b2 = (X2 M1 X2 )−1 X2 M1 y (41) (42) (43) (44) (45) (46) (47) (48) (49) (50) (51) De mani`re plus simple. on obtient le mˆme r´sultat si on effectuait la r´gression des r´sidus d’un e e e e e r´gression de y sur X1 sur les r´sidus d’un r´gression de X2 sur X1 . on obtient X2 X1 [(X1 X1 )−1 X1 y − (X1 X1 )−1 X1 X2 b2 ] + X2 X2 b2 = X2 y ou X2 X1 (X1 X1 )−1 X1 y − X2 X1 (X1 X1 )−1 X1 X2 b2 + X2 X2 b2 = X2 y d’o´ u X2 P1 y − X2 P1 X2 b2 + X2 X2 b2 = X2 y o` P1 = X1 (X1 X1 )−1 X1 la matrice qui projette sur l’espace engendr´ par les colonnes de X1 . on obtient e X2 X2 b2 − X2 P1 X2 b2 = X2 y − X2 P1 y [X2 In X2 − X2 P1 X2 ]b2 = X2 In y − X2 P1 y ou [X2 (In − P1 )X2 ]b2 = X2 [In − P1 ]y X2 M1 X2 b2 = X2 M1 y Alors. e e e M1 y = M1 X1 β1 + M1 X2 β2 + M1 Mais puisque M1 X1 = 0. on obtient M1 y = M1 X2 β2 + 9 (53) (52) .

en tennant X1 comme fixe. Ceci repr´sent la partie de e e la variabilit´ en X2 qui n’est pas expliqu´e par X1 : c’est la partie de X2 qui est orthogonale ` X1 .   1 M0 est une matrice qui prends des ´carts autour de la moyenne. (56) On peut.    x 1 0 0 1 1 1  1   1        M0 x = (0 1 0 − 1 1 1) x2   3     x3 0 0 1 1 1 1        x x + x 2 + x3  1 1  1      =  x2  −  x1 + x 2 + x3    3  x3 x1 + x 2 + x3 10 1 n ιι (57) (58) (59) . e e a Autrement dit. 5 La coefficient de d´termination e On introduit une nouvelle matrice de projection M0 = In − ι(ι ι)−1 ι (55) o´ ι (prononcez ”iota”) est une colonne n × 1 de 1 : u   1     1  ι = . e e La th´orem de FWL d´montre que la coefficient b2 et calcul´ en variant X2 tout en tennant X1 e e e comme fixe. (ι ι)−1 = n .d’ou ⇒ b2 = (X2 M1 X2 )−1 X2 M1 y (54) Notez que M1 X2 est le vecteur residuel d’un r´gression de X2 sur X1 . donc re´crire M0 comme e M 0 = In − Par exemple. si n = 3. . . e 1 Notez que. c’est la variabilit´ en X2 dans l’´chantillon.

M0 e = e − e = e car e = 0. ¯ ¯ M0 y = M0 Xb + e (61) (62) (63) De plus. on re´crit e y M0 y = b X M0 Xb + e e Ce r´sultat est ´quivalent ` e e a SCT = SCR + SCE (67) (66) (64) (65) o` SCT d´note la somme des carr´s totale (”total sum of squares”). on multiple chaque cˆt´ par M0 et on obtient oe M0 y = M0 Xb + M0 e Toutefois. M0 est sym´trique et idempotente. est e R2 = b X M0 Xb ee SCR SCE = =1− =1− SCT SCT y M0 y y M0 y (69) (68) Le R2 d’une r´gression donne la proportion de la variabilit´ dans la variable d´pendante qui est expliqu´e e e e e par la variabilit´ des variables ind´pendantes. sachant que y = Xb + e. e e = (y − Xb) (y − Xb). e ee on ´crit y M0 M0 y = y M0 y. SCR signifie la somme des carr´s u e e e de la r´gression (”regression sum of squares”) et SCE ´voque la somme des carr´s des erreurs (”sum of e e e squared errors”). R2 . e e 11 . on a la matrice de projection e e P0 = In − M0 qui projette ce qu’elle multiple sur une constante. Maintenant. e ⇒ y M0 y = (M0 Xb + e) (M0 Xb + e) = b X M0 Xb + b X M0 e + e M0 Xb + e e Puisque M0 e = e. ie. La coefficient de d´termination. En utilisant ces deux propri´t´s. comme pour la matrice M . Ainsi. Notez que SCE est la valeur minimale de notre fonction objectif des MCO .  (60) x −x ¯  1    =  x2 − x ¯   x3 − x ¯ De mani`re ´quivalente. X e = 0 et e X = 0.

) Par substitution – voir l’´quation (43) – on trouve e e b∗ = (X1 X1 )−1 X1 y − (X1 X1 )−1 X1 X2 b∗ 1 2 = b1 − (X1 X1 ) −1 X1 X2 b ∗ 2 (76) 12 . SCE1 = e1 e1 = (y − X1 b1 )(y − X1 b1 ) Supposons que l’on ajoute une variable explicative au mod`le. On a maintenant e y = X1 β1 + X2 β2 + 2   β1 = X1 X2   + β1 (73) (72) (71) 1 (70) (74) Soit b∗ le vecteur qui estime les param`tres du mod`le contenant une variable explicative de plus. On e e se souvient que ce vecteur doit r´soudre l’´quation e e      ∗ X X X1 X2 b X y  1 1   1 =  1  X2 X1 X2 X2 b∗ X2 y 2 (75) (Note : On utilisera la notation b∗ pour diff´rencier cet estimateur de b1 .1 Variation du R2 lorsqu’on ajout une variable explicative ` la r´gression a e Supposons qu’on estime le mod`le e y = X1 β1 + par MCO. qui est la somme des carr´s des r´sidus e e S1 (b0 ) = e1 (b0 ) e1 (b0 ) = (y − X1 b0 )(y − X1 b0 ) Soit SCE1 le valeur minimal de cet fonction .. ie. L’estimateur de β1 est b1 = (X1 X1 )−1 X1 y.5. Cet estimateur minimise la fonction objectif. l’estimateur des MCO dans e 1 le mod`le ne contenant pas la variable X2 .

La fonction objectif est e e une fonction non-croissante du nombre de variables explicatives. sera r´´crit ainsi ee 2b∗ X2 M1 e1 = 2b∗ X2 M1 M1 y 2 2 = 2b∗ X2 M1 y 2 = 2b∗ X2 M1 (X1 b∗ + X2 b∗ + e2 ) 2 1 2 = 2b∗ X2 M1 X2 b∗ 2 2 Ici on utilise le fait que M1 e2 = e2 car e2 est ⊥ X = X1 . 13 . X2 et X2 M1 e2 = X2 e2 = 0 On a donc : SSE2 = e1 e1 − 2b∗ X2 M1 e1 + b∗ 2 X2 M1 X2 2 2 = e1 e1 − 2b∗ X2 M1 y + b∗ 2 X2 M1 X2 2 2 = e1 e1 − 2b∗ 2 X2 M1 X2 b∗ + b∗ 2 X2 M1 X2 2 2 2 = e1 e1 − b∗ 2 X2 M1 X2 2 ≤ e1 e1 Donc. avouons-le – est la diminution de la somme e des carr´s des r´sidus avec l’ajout d’une ou de plusieurs variables explicatives.On peut alors ´crire la somme des carr´s du mod`le (74) : e e e SSE2 = e2 e2 = (y − X1 b∗ − X2 b∗ ) (y − X1 b∗ − X2 b∗ ) 1 2 1 2 = [y − X1 (b1 − (X1 X1 )−1 X1 X2 b∗ ) − X2 b∗ ] [y − X1 (b1 − (X1 X1 )−1 X1 X2 b∗ ) − X2 b∗ ] 2 2 2 2 = [y − X1 b1 + X1 (X1 X1 )−1 X1 X2 b∗ − X2 b∗ ] [y − X1 b1 + X1 (X1 X1 )−1 X1 X2 b∗ − X2 b∗ ] 2 2 2 2 = [y − X1 b1 + P1 X2 b∗ − X2 b∗ ] [y − X1 b1 + P1 X2 b∗ − X2 b∗ ] 2 2 2 2 = [y − X1 b1 − (In − P1 )X2 b∗ ] [y − X1 b1 − (In − P1 )X2 b∗ ] 2 2 = [y − X1 b1 − M1 X2 b∗ ] [y − X1 b1 − M1 X2 b∗ ] 2 2 = (e1 − M1 X2 b∗ ) (e1 − M1 X2 b∗ ) 2 2 = e1 e1 − e1 M1 X2 b∗ − b∗ X2 M1 e1 + b∗ X2 M1 X2 b∗ 2 2 2 2 = e1 e1 − 2b∗ X2 M1 e1 + b∗ X2 M1 X2 b∗ 2 2 2 = e1 e1 − 2b∗ X2 M1 e1 + b∗ 2 X2 M1 X2 2 2 (77) Le terme du milieu. SSE2 ≤ SSE1 (79) (78) La conclusion de cette d´monstration – un peu fastidieuse.

De ce fait. 3. elles d´pendent des hypoth`ses du mod`le : e e ee a e e e 1.L’´quivalent de cette conclusion en ce qui concerne le R2 est l’augmentation de celui-ci avec l’ajout de e variables explicatives. |X ∼ N (0. 2. E( |X) = σ 2 In 4. Une autre mesure du e e e e coefficient de d´termination devrait alors ˆtre utilis´e : le R2 ajust´ pour les degr´s de libert´ : e e e e e e ¯ R2 = 1 − SSE n−k SST n−1 (82) 6 Propri´t´s statistiques des MCO e e Soit le mod`le de r´gression e e y = Xβ + L’estimateur MCO de β est b = (X X)−1 X y (83) (84) Les propri´t´s statistiques b– par opposition aux propri´t´s num´riques – d´pendent de la mani`re ee ee e e e dont les donn´es sont g´n`r´s . σ 2 In ) 14 . c’est-`-dire. toute diminution de SSE fera augmenter R2 . La matrice X est de plein rang. le R2 ne doit e pas ˆtre utilis´ afin de comparer des mod`les et ensuite choisir le plus appropri´. En utilisant SST SSE2 = e1 e1 − b∗ 2 X2 M1 X2 2 on trouve que 2 R2 (80) e1 e1 b∗ 2 X2 M1 X2 2 =1− + 2 ≥ R1 y M0 y y M0 y (81) Le probl`me avec cette propri´t´ est qu’il est possible de faire tendre le R2 vers 1 en ajoutant une e ee foule de variables n’ayant que plus ou moins de valeur dans notre mod`le. Puisque R2 = 1 − SSE . E( |X) = 0.

V ar(b|X) = E[(X X)−1 X = (X X)−1 X E( X(X X)−1 |X] |X)X(X X)−1 (88) (87) = (X X)−1 X σ 2 In X(X X)−1 = σ 2 (X X)−1 X X(X X)−1 = σ 2 (X X)−1 Cette matrice est donc la matrice de variance covariance des estimateurs des MCO. Variance V ar(b|X) = E[(b − E(b))(b − E(b)) |X] = E[(b − β)(b − β) |X] = E[((X X)−1 X )((X X)−1 X ) |X] Note : on utilise ici les propri´t´s suivantes : ee (a) (AB) = B A e e e e e (b) L’inverse d’une matrice sym´trique et d´finie positive est ´galement sym´trique et d´finie positive. Ici. 15 . b = (X X)−1 X y = (X X)−1 X (Xβ + ) = β + (X X)−1 X E[b|X] = E[β + (X X)−1 X |X] = β + E[(X X)−1 X |X] = β + (X X) −1 (85) (86) X E[ |X] =β+0=β 2.1. e e On poursuit avec la variance. L’estimateur MCO est sans biais. (X X)−1 est donc sym´trique et d´finie positive.

7 Le th´or`me Gauss-Markov e e Soit b∗ un estimateur lin´aire et sans biais de β qui diff`re de l’estimateur des MCO. b∗ = β + C . car. D = C − (X X)−1 X C = D + (X X)−1 X Dy = Cy − (X X)−1 X y = b∗ − b On r´´crit la variance de b∗ en termes de D. Soit D un (k×n) matrice qui repr´sente la diff´rence entre les matrices de ponderation de l’estimateur e e des MCO et b∗ . comme CX = In . e e e u – b∗ est lin´aire : b∗ = Cy. ee V ar(b∗ |X) = σ 2 CC = σ 2 (D + (X X)−1 X )(D + (X X)−1 X ) = σ 2 [DD + (X X)−1 X X(X X)−1 + DX(X X)−1 + (X X)−1 X D ] Mais puisque b∗ est sans biais. DX = 0. CX = DX + (X X)−1 X X = In 16 (93) (92) (91) . En effet. E[C |X] = 0 Consid´rons la variance de b∗ . o` C est une matrice de dimension k × n. – b∗ est sans biais : E(b∗ |X) = β Ceci implique que E(b∗ |X) = E(Cy|X) = E(C(Xβ + )|X) = E(CXβ + C |X) =β Il nous faut deux conditions pourque (89) soit satisfait : 1. CX = In 2. e V ar(b∗ |X) = E[(b∗ − β)(b∗ − β) |X] = E[(C )(C ) |X] = E[C C |X] (90) (89) = σ 2 CC .

e a e De ce fait.⇒ DX + In = In ⇒ DX = 0 Donc.e. Mais nous ne connaissons pas σ 2 – il nous faudra donc l’estimer.1 L’estimation de σ 2 Nous savons maintenant que V ar(b|X) = σ 2 (X X)−1 . Proposons tout d’abord e e comme estimateur de σ 2 . Ceci est dˆ au fait que la trace d’une matrice carr´ est la somme des ´l´ments sur le diagonal u e ee de la matrice. e V ar(b|X) ≤ V ar(b∗ |X) (97) Si les hypoth`ses du mod`le sont respect´es et que le mod`le est correctement sp´cifi´. l’estimateur e e e e e e des MCO est le meilleur estimateur lin´aire et sans biais. La trace d’une matrice 1 × 1. car il est le plus efficace – i. On vient donc de d´montrer que pour tout estimateur u e e b∗ lin´aire et sans biais de β. il poss`de la e e plus petite variance. 7. V ar(b∗ |X) = σ 2 DD + σ 2 (X X)−1 = σ 2 DD + V ar(b|X) (94) (95) (96) o` DD sera une matrice semi-d´finie positive. E[ M |X] = E[tr( M )|X] (100) Puisque la trace d’une matrice est un op´rateur lin´aire (une somme). est donc ´gale ` la matrice elle-mˆme. E(e e) = E( M ) Puisque (tout comme e e) (99) (98) M est de dimension 1 × 1 et donc son esp´rance est ´gale ` l’esp´rance de e e a e sa trace. On sait que e = y − Xb = M y = M (Xβ + ) =M ⇒ee= M . Ainsi. on peut la faire passer ` travers e e a l’op´rateur esp´rance et on peut faire la permutation cyclique des termes dont on calcule la trace : e e E[tr(M |X)] = tr[M E( 2 2 |X)] (101) = tr(M σ In ) = σ tr(M ) 17 .

tr(A + B) = tr(A) + tr(B) 2. bk . L’´cart-type d’un coefficient estim´. E(e e|X) = σ 2 (n − k) Cet estimateur est biais´. est e e s2 (X X)−1 kk o` (X X)−1 est le kieme ´lement du diagonal de la matrice (X X)−1 . u e kk (107) (106) 18 . on utilise le fait que 1. tr(ABC) = tr(BCA = tr(CAB) (permutations cycliques) Donc.et tr(M ) = tr(In − X(X X)−1 X ) = n − K Ici. L’estimateur sans biais de σ 2 est e s2 = 2 (102) (103) (104) ee n−k 2 (105) E(s |X) = σ Nous pouvons maintenant calculer la variance estim´e des estimateurs de b ` l’aide de s2 : e a V ar(b|X) = s2 (X X)−1 . tr(In − X(X X)−1 X ) = tr(In ) − tr((X X)(X X)−1 ) = tr(In ) − tr(Ik ) Donc.