Regression

Rgression
Cours de deuxime anne de master

Bernard Delyon
21 mai 2013
1. IRMAR, Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex.
2
Table des matires
I Introduction 7
I.1 But de la rgression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
I.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.2.1 Rgression linaire multiple : Production, travail et capital . . . . . . . . . . . . . 8
I.2.2 Vers des modles non-linaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.2.3 Modle logistique : Credit scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.2.4 Donnes longitudinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.3 Mthode gnrale et objectifs de la rgression. . . . . . . . . . . . . . . . . . . . . . . . . . 10
I.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
II Rgression linaire multiple 11
II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
II.1.1 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
II.1.2 Lhypothse de rang plein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
II.1.3 Le rgresseur constant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
II.2 Moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.2.1 Modle statistique et interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.2.2 Estimation de
et
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.2.3 Proprits gomtriques lmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 13
II.2.4 Le coecient de corrlation multiple R . . . . . . . . . . . . . . . . . . . . . . . . . 14
II.2.5 Eet de la suppression dun individu. Eet levier . . . . . . . . . . . . . . . . . . . 15
II.2.6 Eet de lajout dun rgresseur et coecient de corrlation partielle . . . . . . . . 16
II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires . . . . . . . . . . . . . 16
II.2.8 Traitement des variables symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . 19
II.2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
II.3 Modles htroscdastiques (Moindres carrs gnraliss) . . . . . . . . . . . . . . . . . . . 23
II.3.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
II.3.2 Rduction au cas
= I. Estimation de
et
2
. . . . . . . . . . . . . . . . . . . 23
II.3.3 Dtection de lhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
II.3.5 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
II.3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
II.4 Moindres carrs totaux (Errors in variables, total least squares) . . . . . . . . . . . . . . . 29
II.5 Rgression non-paramtrique et moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . 30
II.5.1 Premire approche : la rgression polynmiale . . . . . . . . . . . . . . . . . . . . . 31
II.5.2 Approche par estimation des coecients de Fourier . . . . . . . . . . . . . . . . . . 32
II.5.3 Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
II.6 Rgression sur des classes. Segmentation des donnes . . . . . . . . . . . . . . . . . . . . . 34
II.7 Mlange de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.8 Surparamtrisation, rduction de modle et rponses multiples . . . . . . . . . . . . . . . 34
II.8.1 Analyse en composantes principales (acp) . . . . . . . . . . . . . . . . . . . . . . . 35
II.8.2 Moindres carrs partiels (pls) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
II.8.3 Ridge regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
II.8.4 Rgression rang rduit. Curds and whey . . . . . . . . . . . . . . . . . . . . . . . 38
3
II.9 Rgression robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
IIIRgression linaire gaussienne, diagnostic et tests 39
III.1 Proprits statistiques fondamentales des estimateurs . . . . . . . . . . . . . . . . . . . . . 39
III.1.1 Modle statistique et estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.1.2 Proprits de base des variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . 39
III.1.3 Loi de probabilit des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.1.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2 Analyse de lestimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
III.2.1 Dtermination dintervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . 41
III.2.2 Rappels sur les tests dans le cadre paramtrique gnral . . . . . . . . . . . . . . . 42
III.2.3 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III.2.4 Slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
III.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.3 Analyse des rsidus. Mesures dinuence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
III.4 Analyse de la variance. Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
III.4.1 Analyse de la variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
III.4.2 Analyse de la variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . 52
III.4.3 Interprtation des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
III.4.4 Un exemple trois facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
III.4.5 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
III.4.6 Modles hirarchiques (nested) en analyse de variance . . . . . . . . . . . . . . . . 59
III.4.7 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
III.4.8 Rduction des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
III.4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
III.5 Un exemple de conclusion dtude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
IVRgression linaire gnralise 65
IV.1 Modle linaire gnralis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.1 Pourquoi les modles linaires gnraliss ? . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.2 Les familles exponentielles scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.3 Les familles exponentielles un paramtre de nuisance . . . . . . . . . . . . . . . . 66
IV.1.4 Les exemples classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.1.5 Dnition des modles linaires gnraliss . . . . . . . . . . . . . . . . . . . . . . 67
IV.1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
IV.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
IV.2.1 Variable de Bernoulli : le modle logistique . . . . . . . . . . . . . . . . . . . . . . 70
IV.2.2 Modle poissonnien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
IV.2.3 Modle variable polytomique ordonne ; la variable latente . . . . . . . . . . . . . 73
IV.2.4 Modle variable polytomique non-ordonne. . . . . . . . . . . . . . . . . . . . . . 73
IV.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
IV.3 Estimation de
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
IV.3.1 Lestimateur du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 74
IV.3.2 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
IV.3.3 Estimation de
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
IV.4 Tests et analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.1 Dviance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.3 Analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.5 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4
V Rgression non-linaire avec bruit additif 81
V.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
V.2 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.3 Utilisation du bootstrap et du Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 83
V.4 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
V.5 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.5.1 Rgions thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.5.2 Ajustement du niveau par simulation ou bootstrap . . . . . . . . . . . . . . . . . . 84
V.5.3 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.6 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.7 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A Asymptotique du maximum de vraisemblance 87
A.1 Thormes-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.2 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.3.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.2 Test des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.4 Aspects pratiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
B Slection de modles 91
5
6
I
Introduction
I.1 But de la rgression.
Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lors
dune expdition en 1849 la pression atmosphrique p
i
et la temprature dbullition de leau y
i
en
divers endroits de lHimalaya
1
. Selon les lois de la physique, y
i
devrait tre (en premire approximation)
proportionnel au logarithme de p
i
. On pose donc le modle
y
i
=
1
+
2
x
i
+u
i
, x
i
= log(p
i
). (I.1)
u
i
reprsente lerreur de mesure, et explique que les points de la gure I.1 ne sont pas exactement
aligns. Cette gure montre galement la droite estime par moindres carrs. On voit une trs bonne
adquation. Lquation ci-dessus donne un modle, qui si u
i
est suppos gaussien centr devient le
modle paramtrique y
i
N(
1
+
2
x
i
,
2
), dont on verra lintrt plus tard. Le paramtre
2
reprsente
la variance de lcart des points la droite (mesur verticalement) et lestimation de donne ici 0,04.
2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
82
84
86
88
90
92
94
96
98
100
Figure I.1 Temprature dbulition de leau mesure en divers endroits de lHimalaya en fonction
du logarithme de la pression.
Cet exemple illustre comment le modle de rgression tente dexpliquer au mieux une grandeur y (la
rponse) en fonction dautres grandeurs x (vecteur des variables explicatives, ou rgresseurs, ou
facteurs, un seul dans lexemple) en dmlant ce qui est dterministe de ce qui est alatoire et
en quantiant ces deux aspects (par les
i
dune part et
2
dautre part).
1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouver
la pression atmosphrique partir de la seule mesure de la temprature dbulition de leau (les baromtres tant fragiles
et donc diciles transporter lors dune expdition), ce qui permet ensuite den dduire laltitude au travers dune relation
connue ; il rapporte dans un article ce double ensemble de donnes dont nous nutilisons ici que la partie Himalayenne (elles
sont dcrites dans : S. Weisberg, Applied Linear Regression, Wiley, 1985.)
7
I.2 Exemples
I.2.1 Rgression linaire multiple : Production, travail et capital
On considre les variables, chacune concernant la totalit des tats-Unis (i tant lindice dune anne) :
P
i
: production
K
i
: capital (valeur des usines, etc.)
T
i
: travail fourni (bas sur un calcul du nombre total de travailleurs)
On cherche expliquer P
i
laide des variables (K
i
, T
i
). Le modle de Cobb et Douglas
2
est
P =
1
K
2
T
3
ce qui suggre le modle statistique
log(P
i
) = log(
1
) +
2
log(K
i
) +
3
log(T
i
) +u
i
, E[u
i
] = 0, E[u
2
i
] =
2
.
Les rgresseurs sont donc ici x
i
= (1, log(K
i
), log(T
i
)), la rponse est y
i
= log(P
i
) et les paramtres
du modle = (log(
1
),
2
,
3
). Le logarithme et les changements de variables ont permis de rendre le
modle linaire (par rapport ), ce qui, on le verra, est trs avantageux pour lanalyse :
y
i
=
1
+
2
log(K
i
) +
3
log(T
i
) +u
i
.
Cobb et Douglas disposaient du tableau suivant
3
sur n = 24 annes et trouvent
2
= 1/4 et
3
= 3/4 :
Anne P K T Anne P K T Anne P K T
1899 100 100 100 1907 151 176 138 1915 189 266 154
1900 101 107 105 1908 126 185 121 1916 225 298 182
1901 112 114 110 1909 155 198 140 1917 227 335 196
1902 122 122 118 1910 159 208 144 1918 223 366 200
1903 124 131 123 1911 153 216 145 1919 218 387 193
1904 122 138 116 1912 177 226 152 1920 231 407 193
1905 143 149 125 1913 184 236 154 1921 179 417 147
1906 152 163 133 1914 169 244 149 1922 240 431 161
I.2.2 Vers des modles non-linaires.
On observe des paires (x
i
, y
i
)
1in
o x
i
o y
i
est la concentration de produit actif dans un mdica-
ment au temps x
i
aprs fabrication. Le modle linaire y
i
=
1
+
2
x
i
+u
i
est certainement inadquat
Plusieurs modlisations peuvent tre envisages :
(a) Rgression non-linaire paramtrique : On part dun modle spcique considr comme raliste
y
i
=
1
e
2
x
i
+u
i
.
Cest lanalogue du prcdent dans une situation non-linaire.
(b) Rgression polynmiale : On part cette fois-ci dun modle paramtrique abstrait
y
i
=
J
j=0
j
x
j
i
+u
i
.
o J est suppos connu. La linarit en de cette quation fait, on le verra, quon estime facilement
les
j
par moindres carrs ; noter que ceci revient exactement trouver le polynme de degr J qui
passe au plus prs des points (x
i
, y
i
). On peut remplacer lhypothse u
i
N(0,
2
) par lhypothse
plus faible E[u
i
] = 0 mais on entre alors dans un cadre semi-paramtrique.
(c) Rgression non-paramtrique :
y
i
= f(x
i
) +u
i
, u
i
= N(0,
2
).
Il sagit destimer la fonction f et
2
.
2. A theory of production, American Economic Review, 18, 139-165, 1928.
3. En ralit, la construction de ce tableau partir des direntes donnes dont ils pouvaient disposer est en soi un
travail norme. Voir larticle.
8
Un autre exemple. La gure suivante
4
reprsente la consommation dlectricit moyenne en France,
2h du matin, en fonction de la temprature extrieure (moyenne sur les 24h prcdentes). Les donnes
sont sur 3 ans (1095 points). On pourrait tre tent de considrer ici un modle linaire par morceaux.
0 5 10 15 20 25
3
5
4
0
4
5
5
0
5
5
6
0
6
5
o
o
o
o
o
o o o
o
o
o
o
o
o
o
o
o
o
o o o o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o o
o
o
o
o o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o o o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o
o o
o
o
o o
o o
o
o
o
o
o
o o
o o
o
o
o
o o o
o
o
o
o
oo
oo
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o o o
o
o
o
o
o o
o
o o
o
o
o o
oo
o
o
o
o o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o o
o
o
o
o
o oo
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o o
o o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o o
o
o o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o o
o
oo
o o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o o
o
o
o
o
o
o
o
o o
o
o o
o o o
o
o
o
o
o
o o o
o
o o
o o
o
o
o
o o
o
o o o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
I.2.3 Modle logistique : Credit scoring
Il sagit pour une banque de mesurer le risque quelle prend attribuer un crdit un client.
La banque dispose de donnes sur ses anciens clients. Chaque client ayant demand un crdit dans
le pass est un individu et la rponse y 0, 1 est une variable indiquant sil y a eu un problme de
remboursement. Le rgresseur x est vecteur ligne contenant :
des variables quantitatives : revenu, ge, dpts, etc.
des variables qualitatives : sexe, etc.
Le modle logistique : y est une variable de Bernoulli B(1, p
x
) (c--d y = 1 avec probabilit p
x
) et p
x
est
de la forme
p
x
=
1
1 +e
x
o est un vecteur colonne de paramtres caractrisant linuence de chaque rgresseur sur la rponse
(de sorte que x est un produit scalaire). p
x
reprsente le risque pris par la banque autoriser un crdit
au client ayant les rgresseurs x.
I.2.4 Donnes longitudinales
On observe des variables
y
i
(t
j
) = F(t
j
) +u
ij
.
Par exemple y
i
(t
j
) est la taille de lenfant i au mois t
j
. On se donne en gnral un modle paramtrique
particulier pour F, par exemple
F(t) = a +b exp (exp (c dt)) .
Souvent un paramtre, disons b, dpendra des individus. Une mthode simple pour prendre cette d-
pendance en compte sera de rassembler les caractristiques dintrt de lindividu i (vgtarien/non-
vgtarien, taille des parents, etc.) dans un vecteur (ligne) x
i
et prsupposer une relation linaire, ce qui
donne nalement le modle
y
i
(t
j
) = a + (x
i
) exp (exp (c dt
j
)) +u
ij
(x
i
est un produit scalaire) dont les paramtres sont (a, c, d, ).
4. Courtoisie de Vincent Leeux, RTE.
9
I.3 Mthode gnrale et objectifs de la rgression.
On peut voir la rgression comme le cadre le plus simple pour la modlisation paramtrique des suites
de variables alatoires indpendantes non-stationnaires
5
. En pratique, les applications essentielles sont
les suivantes (on illustre ici par lexemple rudimentaire o y est le taux de frquentation du mdecin et
x contient lge et le sexe de lindividu) :
Dtermination des facteurs signicatifs : lge a-t-il une inuence signicative sur le taux de
frquentation du mdecin ? (c.--d. : le coecient
i
de lge est-il nul ?)
Prdiction/simulation (des rponses connaissant les rgresseurs et ) : combien de mdecins
faut-il pour une ville de pyramide des ges donne ?
Dtection de changement (du paramtre ) : le ticket modrateur a-t-il provoqu un chan-
gement signicatif dans le comportement des patients ? Ce changement est-il le mme chez les
hommes et chez les femmes ?
La mthode passe, comme on vient de le voir, par la mise en place dun modle plus ou moins raliste sur
lequel il est bon davoir du recul : on peut le considrer comme un (ple) reet de la ralit mais il est
gnralement plus prudent dy voir simplement un instrument de mesure qui permettra de quantier
certains phnomnes tout en restant matre de ce que lon calcule.
I.4 Exercices
Exercice I.4.1 On dispose de deux qualits de papier. Le papier de type 1 a un poids
1
et le papier
de type 2 a un poids
2
(grammes par feuille). On reoit n paquets. Le i
paquet contient p
i
feuilles
du type 1 et q
i
feuilles du type 2. On pse successivement les paquets sur une balance ; le poids mesur
du i
paquet est m
i
. On admet que les erreurs de la balance sont N(0,
2
). crire le modle linaire
correspondant ces donnes.
Exercice I.4.2 (Modle gravitaire) On suppose que le nombre de personnes de la ville i allant travailler
la ville j suit en gros le modle idal suivant
N
ij
= k
P
i
A
j
d
ij
o P
i
est a population de la ville i, A
i
sa capacit daccueil et d
ij
la distance entre les villes. k et sont
des paramtres inconnus. Proposer un modle de rgression linaire pour des donnes bases sur I villes
d
ij
, N
ij
, P
i
, A
i
, 1 i, j I.
Exercice I.4.3 Un individu pris au hasard a un temps de raction un certain stimulus qui suit la loi
N(,
2
), et
2
sont connus. Aprs absorption dune quantit x dalcool, ce temps se trouve multipli
par 1 +x. On sintresse lestimation de partir de donnes (x
i
, t
i
), o t
i
est le temps de raction.
Expliciter la loi de t
i
. Peut-on poser ce problme comme un problme de rgression linaire simple ?
Quen est-il si maintenant est connu et est le paramtre ? Proposer un estimateur de dans ce
dernier cas.
5. Certains modles de rgression, comme les modles mixtes, prennent toutefois en compte des phnomnes de dpen-
dance.
10
II
Rgression linaire multiple
II.1 Introduction
II.1.1 Les donnes
Les donnes consistent en des variables observes y
i
(rponses) et des variables explicatives (ou
rgresseurs) x
i
, i = 1, . . . n, chaque paire (y
i
, x
i
) reprsentant une exprience (un individu). On les
arrange dans un tableau de la faon suivante :
y =
_
_
_
y
1
.
.
.
y
n
_
_
_, X =
_
_
_
x
1
.
.
.
x
n
_
_
_ =
_
_
_
1 x
12
. . . x
1p
.
.
.
.
.
.
.
.
.
1 x
n2
. . . x
np
_
_
_.
x
i
est donc un vecteur ligne contenant les p variables explicatives. On convient gnralement de mettre
le rgresseur constant, sil est prsent, dans la premire colonne.
On prsuppose lexistence dune relation du type y
i
x
i
,
= x
i
pour un certain vecteur

(colonne)
, soit y X
, ce qui conduit au modle de rgression linaire

y = X
+u
o u = (u
1
, . . . u
n
) est un vecteur de bruit (variables alatoires) modlisant linadquation des mesures
au modle.
Le but de la rgression linaire est lestimation de
et la validation du modle. La valeur de

lestime obtenue sera note

. Ceci se fera en minimisant en une certaine norme (dpendant du
modle particulier choisi) du vecteur y X.
II.1.2 Lhypothse de rang plein
Il est clair que si X nest pas de rang colonnes plein cest--dire sil existe v tel que Xv = 0 (une
combinaison linaire des colonnes est nulle) alors pour tout
X = X( +v).
Ceci implique que pour tout estimateur

, lestimateur

+v explique aussi bien les donnes. Par cons-
quent on ne pourra pas estimer
moins de faire des hypothses supplmentaires. Une autre faon de

le voir est de remarquer que comme Xv = 0 une de colonne de X (et sans doute chacune) est fonction
linaire des autres, et par consquent une des variables tant fonction linaire des autres est inutile.
Pour cette raison X sera gnralement suppose rang colonnes plein (ce qui signie aussi que X
T
X
est inversible, puisque Xv = 0 est sans solution).
II.1.3 Le rgresseur constant
Il est gnralement prsent mais pas toujours. Toutefois, lessentiel des rsultats noncs dans la suite
(tests de Fisher) reste valide sans cette hypothse.
11
II.2 Moindres carrs ordinaires
II.2.1 Modle statistique et interprtation
Modle. On suppose lexistence dun vecteur
, de
> 0 et de variables alatoires u

i
tels que
y = X
+u,
E[u] = 0,
E[uu
T
] =
2
I.
En dautres termes, pour chaque i :
y
i
= x
i
+u
i
E[u
i
] = 0
V ar(u
i
) =
2
(homoscedasticit)
E[u
i
u
j
] = 0, j ,= i (dcorrlation des bruits).
Noter que ce modle nest pas compltement spci puisque les lois des u
i
ne sont pas prcises. On est
pour linstant dans une situation semi-paramtrique.
et
2
1 - Dfinition
Soit SS() (Sum of Squares) la somme des carrs des erreurs de prdiction
SS() = |y X|
2
=
i
(y
i
x
i
)
2
.
Lestimateur de
aux moindres carrs ordinaires (Ordinary Least Squares, OLS) est
= arg min
SS().
Cest lestimateur de
au maximum de vraisemblance sous lhypothse de normalit de u.

Ceci correspond, dans la gure I.1, minimiser la somme des carrs des distances des points la
droite mesures verticalement ; il pourrait sembler plus logique de minimiser la somme des carrs des
vraies distances, mais cet autre estimateur

(X, y) est plus compliqu calculer et nest pas invariant
par changement dchelle au sens o

(X, ty) ,= t
(X, y) (car une homothtie en y modie compltement

le calcul des distances ; cf. II.4).
2 - Proposition
On a les proprits :

= (X
T
X)
1
X
T
y
+ (X
T
X)
1
X
T
u

est sans biais : E[
] =
V ar(
) =
2
(X
T
X)
1
La dmonstration est laisse en exercice.
Il est intressant de noter que si la variable j est dcorrle des autres, alors

j
est insensible au
retrait dautres variables.
12
3 - Proposition
Soit
RSS = SS(
) = |y X
|
2
(Residual Sum of Squares) ; alors lestimateur suivant de
2
est sans biais :

2
= RSS/(n p).
La dmonstration la plus simple exploite un rsultat venir : la relation u = Ku de la proposition 5.
4 - Dfinition
Vecteur des valeurs ajustes : y = X
Vecteur des rsidus : u = y y

Erreur standard de

j
est (
j
) dni par : (
j
)
2
=
2
[(X
T
X)
1
]
jj
.
Exemple. Reprenons le modle de Cobb-Douglass du paragraphe I.2.1 avec les donnes de leur tude
de 1928. On trouve

2
= 0, 23 et

3
= 0, 81. Lcart entre

2
+

3
et 1, nest en fait pas signicatif, ce
quon peut vrier en utilisant les rsultats du chapitre suivant. Lerreur standard de

2
+

3
est 0, 09.
II.2.3 Proprits gomtriques lmentaires
Dans toute la suite, pour tout vecteur z, z dsignera la moyenne de ses coordonnes
z =
1
n
n
i=1
z
i
.
5 - Proposition
Soit H = X(X
T
X)
1
X
T
, K = I H, et X le sous-espace vectoriel de R
n
engendr par les
colonnes de X ; alors
H est le projecteur orthogonal sur X; K est le projecteur orthogonal sur X
.
y = Hy, u = Ky = Ku, y u.
Et sil y a une colonne constante dans la matrice X :

u = 0 car u1
|y y1|
2
= |y y|
2
+ | y y1|
2
i
(y
i
y)
2
=
i
u
2
i
+
i
( y
i
y)
2
TSS = RSS + ESS
Var. Totale = Var. Rsiduelle + Var. Explique
La dmonstration est laisse en exercice. Cette dcomposition de la variance correspond lide prsente
dans lintroduction de sparer le dterministe de lalatoire.
Pour la dmonstration de la proposition 3, on a :
2
= | u|
2
/(n p) = u
T
Ku/(n p) do,
E[
2
] =
2
Tr(K)/(n p) =
2
.
13
II.2.4 Le coecient de corrlation multiple R
On introduit ici le coecient R
2
qui mesure ladquation gomtrique du modle aux donnes. On
suppose ici que X contient une colonne constante.
6 - Dfinition
R est la corrlation empirique entre les donnes et les valeurs prdites
R =
i
(y
i
y)( y
i
y)
(
i
(y
i
y)
2
)
1/2
(
i
( y
i
y)
2
)
1/2
.
R
2
est appel coecient de dtermination, ou encore la proportion de variance explique.
Linterprtation la plus simple est de voir R comme une mesure de corrlation entre les variables expli-
catives (globalement) et les rponses. Plus R est proche de 1, plus le modle reprsente bien les donnes.
Par exemple sur la gure I.1 on a R
2
= 0, 998.
7 - Proposition
On a
0 R 1, R
2
=
ESS
TSS
= 1
RSS
TSS
,
R = 1 y = y
R = 0

= ( y, 0, . . . , 0).
Dmonstration:
R =
y y1, y y1
| y y1| |y y1|
=
y y1, y y + y y1
| y y1| |y y1|
=
| y y1|
|y y1|
=
ESS
TSS
.
Si R = 1 alors RSS = 0, y = y. Si R = 0 alors y = y1 et donc X
= X( y, 0, . . . , 0)
T
do

=
( y, 0, . . . , 0)
T
car X est de rang plein.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure II.1 Points (x

i
, y
i
) et la droite de rgression. Deux exemples de mme R
2
.
Attention, le R
2
ne dit pas tout sur la qualit du modle ; par exemple, les gures II.1 ont mme
valeur de R. R
2
doit tre considr comme une donne descriptive, intressante en soi, et pratique pour
comparer des modles sur les mmes donnes, mais il ne peut tre considr comme une note absolue :
mme si le modle est valide, R
2
est une variable alatoire dont la distribution (de mme que celle de

)
peut dpendre fortement de la rpartition des rgresseurs ( moins que
j
= 0, j > 1). Noter galement
que lajout dun rgresseur fera toujours augmenter R
2
, mme si le
j
correspondant est nul.
Le R
2
sera utlis plus tard dans le cadre bien prcis du test de Fisher de nullit de
, p.45.
Le R
2
ajust vaut R
2
aj
= 1
2
/(TSS/(n1)) ; cest un rapport destimes non-biaises de variances,
sauf que TSS/(n 1) nest un estimateur non biais de la variance des y
i
que si
i
= 0, i 2.
14
Exemple. Dans le cas du modle de Cobb-Douglas, on trouve TSS = 2, 3, ESS = 1, 6 et RSS = 0, 7.
On a donc R
2
= 0, 7. On dit que le travail et le capital investi expliquent 70% de la variabilit de la
production (en fait le logarithme).
Pourquoi raisonner sur les carrs pour juger des contributions et non pas sur les valeurs absolues ?
Voici un dessin qui peut le justier :
t
e
r
A
C
H
B
Le ct AC a pour longueur e =
ESS, et de mme avec r =
RSS et t =
TSS. Il est raisonnable

de juger que la contribution des variables explicatives est donne par AH/AB et celle des rsidus par
BH/AB. On a bien
AH
AB
=
AH
AC
AC
AB
= cos()
2
=
e
2
t
2
.
Le rapport de carrs est donc en fait galement un rapport de deux longueurs.
II.2.5 Eet de la suppression dun individu. Eet levier
Le coecient h
i
= H
ii
= x
i
(X
T
X)
1
x
T
i
(leverage) mesure lloignement du i
individu x
i
des autres ;
plus prcisment (cf exercice II.2.9.14) :
8 - Proposition
On a
0 < h
i
1
h
i
= 1 span(x
j
, j ,= i) est de dimension p 1
lim
x
i
h
i
= 1
Une valeur leve de h
i
indique que le vecteur x
i
est isol soit parce que sa norme est leve, soit parce
quil est le seul prsent dans une direction donne. Il sera donc inuent dans lestimation de

(eet
levier), et on dit que h
i
est un indice dinuence du rgresseur x
i
. Tout ceci sera prcis au III.3.
Si les donnes sont bien rparties, les h
i
sont peu prs gaux p/n (on sait que
h
i
= trace(H) =
rang(H) = p).
Soit X
(i)
la matrice X dont on a retir la i
ligne x
i
et y
(i)
le vecteur y dont on a retir le i
coecient. Soient

(i)
et
(i)
les estimes aux moindres carrs de
et
bases sur X
(i)
et y
(i)
. Alors
(cf exercice II.2.9.14) :
9 - Thorme
Aprs suppression de la i
observation, les estimateurs aux moindres carrs des paramtres

deviennent
(i)
=

(X
T
X)
1
x
T
i
u
i
1 h
i
(II.1)
(n p 1)
2
(i)
= (n p)
2
u
2
i
1 h
i
(II.2)
15
II.2.6 Eet de lajout dun rgresseur et coecient de corrlation partielle
On part du modle prcdent
= (X
T
X)
1
X
T
y
puis on rajoute un rgresseur, cest--dire une colonne X
X
= (X, ).
On se propose de trouver une formule permettant de passer directement de y y
, pour pouvoir ensuite

calculer lvolution du coecient de dtermination. On a besoin du lemme suivant :
10 - Lemme
Soient A et B deux sous-espaces vectoriels orthogonaux de R
n
, alors en notant P
A
, P
B
et P
A,B
les projecteurs orthogonaux sur A, B et sur AB, on a
P
A,B
= P
A
+P
B
.
Dmonstration:Soit x un vecteur montrons que P
A
x + P
B
x est bien P
A,B
x. Le vecteur P
A
x + P
B
x
appartient bien A B et de plus x P
A
x P
B
x est orthogonal A (car x P
A
x et P
B
x le sont) et
de la mme faon B; donc P
A
x +P
B
x concide avec P
A,B
x.
Notons
= ( P
X
)/| P
X
| la composante de orthogonale X normalise.
y
= H
y = P
X,
y = P
X,
y = P
X
y +P
y = y +
, y
= y +
, u
car y
; notons que le dernier terme est la prdiction du rsidu par
. Le nouveau vecteur de rsidus

est
u
= u
, u
et par application du thorme de Pythagore, comme u
, on a
| u|
2
= | u
|
2
+
, u
2
.
Donc nalement, le nouveau coecient R
satisfait
1 R
2
=
| u
|
2
|y y1
n
|
2
=
| u|
2
|y y1
n
|
2
| u
|
2
| u|
2
= (1 R
2
)(1
2
)
avec
2
=
| u|
2
| u
|
2
| u|
2
=

, u
2
| u|
2
. (II.3)
= cos(
, u) est appel coecient de corrlation partielle de y et sachant x, car cest la corrlation des
variables dont on a retranch la projection sur X (alors que dhabitude on se contente de les recentrer).
Cest lanalogue du coecient R o cette fois on cherche prdire au mieux u laide du rgresseur
.
Sa valeur absolue mesure lapport du nouveau rgresseur pour la qualit de la prdiction.
II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires
Histogramme des rsidus. Droite de Henri (QQ-plot). Il sagit de vrier lhypothse de normalit.
La droite de Henri sapproxime raisonnablement de la faon suivante : ordonner les rsidus standardiss
u
i
/ puis les tracer en fonction de Q(i/(n + 1)) (quantile de la loi suppose, ici la gaussienne) ; si la
distribution des u
i
est normale, on doit trouver des points approximativement aligns.
Ne pas oublier toutefois que la distribution des u
i
/ nest pas exactement N(0, 1) (surtout pour
n petit, cf III.3). On reprsente ici le QQ-plot correspondant aux donnes de la gure II.2, avec le
deuxime modle ; la concidence est assez bonne sauf pour trois individus
16
2 1 0 1 2
2
0
2
Quantiles
R
e
s
i
d
u
s

s
t
a
n
d
a
r
d
i
s
e
s
64
113
61
Reprsentation rsidus/valeurs ajustes. Cest une reprsentation des u
i
en fonction des y
i
. Lesti-
mation fait que ces deux variables sont empiriquement dcorrles ; toutefois la reprsentation peut faire
apparatre une dpendance vidente. Elle peut provenir par exemple dune non-linarit de la relation
liant y
i
x
i
, ou plus souvent dune variance non-constante des u
i
.
8e3 4e3 0 4e3 8e3 12e3 16e3 20e3 24e3
9e3
5e3
1e3
3e3
7e3
11e3
15e3
19e3
23e3
6.7 7.1 7.5 7.9 8.3 8.7 9.1 9.5 9.9 10.3
1.7
1.3
0.9
0.5
0.1
0.3
0.7
1.1
1.5
Figure II.2 Prix de voitures doccasion (rponse) en fonction de lge (rgresseur) (Source :
OzDASL). Le modle est p
i
=
1
+
2
a
i
+u
i
. Sur la premire gure est trac le rsidu en fonction
du prix prdit. La seconde est similaire mais avec les nouvelles variables log(p) et log(a).
Reprsentation rponses/rgresseurs. On trace y
i
en fonction de x
ij
j x. Cest une mthode
rustique pour dtecter une dpendance non-linaire entre un rgresseur donn et la rponse. Ceci peut
conduire ajouter aux rgresseurs des fonctions de ces derniers (par exemple x
2
i2
, voir aussi lintro-
duction du temps dans lexemple du II.5.3), quitte les liminer plus tard lors des tests.
Si cette mthode est trs simple, la suivante donnera souvent des rsultats plus prcis.
Reprsentation des rsidus partiels. Ce trac sert illustrer linuence du jme rgresseur x
j
(j
vecteur colonne de X), pour vrier par exemple lhypothse de linarit. Il nexiste pas de mthode
idale mais la suivante ralise un bon compromis. Lide est de tracer le rsidu obtenu sans x
j
z = y X
+x
j

j
17
10e4 11e4 12e4 13e4 14e4 15e4
71
73
75
77
79
81
83
85
87
89
91
57.4 57.8 58.2 58.6 59.0 59.4 59.8 60.2 60.6 61.0 61.4
4.26
4.30
4.34
4.38
4.42
4.46
4.50
4.54
Figure II.3 Mmes donnes que la gure II.2. On trace les rsidus partiels, y

1
, en fonction
du prix pour les deux modles. Le gure rponse/rgresseur est ici la mme un dcalage vertical
prs.
en fonction de x
j
. Ce trac tente dillustrer la dpendance de y en x
j
, la contribution des autres variables
ayant t rduite au maximum; lapparition dune structure particulire (autre quune droite) peut
remettre en cause lhypothse de linarit.
On les obtient sous R par la commande residuals(...,type="partial").
Attention. Sil y a de fortes corrlations entre variables, ou si le modle est trop inexact, ce trac peut
donner des rsultats trs mauvais, bien pires que la reprsentation rponses/rgresseurs.
tude thorique. Si lon note e
j
le j
vecteur de la base canonique de R

p
, alors
z = y X(I e
j
e
T
j
)
= (I XP
j
(X
T
X)
1
X
T
)y = Qy
o P
j
= I e
j
e
T
j
est le projecteur orthogonal sur lorthogonal de e
j
. On vrie sans peine que
Qx
j
= x
j
Qx
k
= 0, k ,= j
Qv = v, vX (c--d X
T
v = 0).
Q est donc le projecteur oblique de noyau x
k
, k ,= j, sur lespace contenant x
j
et les vecteurs orthogonaux
aux colonnes de X. Leet de Q est donc de nettoyer la contribution linaire des autres rgresseurs
en conservant celle de x
j
.
Alternatives. Noter que cette mthode est tout--fait dirente du choix z = y X
(j)
(j)
o lexposant
j signale la suppression du j
rgresseur, car ici la matrice Q ne prserve pas x

j
. Une troisime faon de
faire serait de choisir pour Q la projection orthogonale sur x
j
; cette mthode nest pas trs bonne car
linuence des autres rgresseurs na pas t limine (Qx
k
,= 0 si x
k
nest pas orthogonal x
j
).
tude des rgresseurs. On pourra faire une analyse de X (corrlations en variables, prsence de sous-
groupes dindividus, acp de X, etc. Cf p.ex. [7]). On verra au chapitre suivant quune forte dpendance
entre certains rgresseurs peut troubler lanalyse.
chelles. Il est souvent utile de remettre les donnes sur une chelle correcte. Voir lexemple de la
gure II.2.
Une situation classique quand y est positif est dobserver graphiquement que la variance est en gros
proportionnelle y
2
, ce qui indique que cest plutt log y qui suit un modle homoscdastique ; en eet
on voit facilement que si log y = x + u et
u
1, alors y e
x
(1 + u), ce qui fait une variance en
y
2
. Cette transformation est souvent utilise lorsque la variance augmente avec y, et y > 0. On appelle
parfois cela la stabilisation de variance.
Plus gnralement on utilise les transformations de Box et Cox :
y
avec 0 1. On choisit
alors traditionnellement en maximisant le R
2
.
18
II.2.8 Traitement des variables symboliques
En pratique on a souvent aaire des variables qualitatives (symboliques). La mthode la plus
courante pour prendre en compte une telle variable dans une tude statistique est de la convertir en
plusieurs variables valeurs 0 ou 1 ; par exemple si la classe dge dun individu a trois modalits, J, A, V ,
on remplacera la variable explicative x J, A, V par un vecteur x
= (1
x=A
, 1
x=J
, 1
x=V
), ce qui permet
ensuite demployer des mthodes numriques. Malheureusement, on voit que toute composante de x
est
fonction des deux autres ce qui fait que cette mthode est en gnral mathmatiquement inutilisable
telle quelle, aussi bien en analyse de donnes quen rgression (on va voir plus bas quelle conduit une
matrice X de rang dcient) ; le procd habituel consiste ter arbitrairement une modalit, si bien
que x
devient x
= (1
x=A
, 1
x=J
). Ceci conduit une situation particulirement embrouillante que lon
dtaille ici (mme si les logiciels habituels font automatiquement ces transformations).
Si lon cherche expliquer y
i
(p.ex. la productivit lhectare) laide dune variable symbolique z
i
prennant disons 3 valeurs a, b, c (p.ex. pas dengrais , engrais1 , engrais2 ), on peut tre tent de
fabriquer les variables
x
i1
= 1, x
i2
= 1
z
i
=a
, x
i3
= 1
z
i
=b
, x
i4
= 1
z
i
=c
et dutiliser le formalisme prcdent. Toutefois, si lon fait cela, le tableau X ne sera pas de rang plein
car on a pour tout i x
i1
x
i2
x
i3
x
i4
= 0, ou encore
X
_
_
_
_
1
1
1
1
_
_
_
_
= 0.
Ceci signie simplement la prsence dune variable en trop. Pour rsoudre ce problme il sut dliminer
une des 4 variables. Ainsi on considrera le modle
y
i
=
1
1
z
i
=a
+
2
1
z
i
=b
+
3
1
z
i
=c
+u
i
. (II.4)
ou bien
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+u
i
(II.5)
Ces deux paramtrisations sont quivalentes (
1
=
3
,
2
=
1

3
,
3
=
2

3
) et donnent, si les
donnes sont bien ranges, une matrice X de la forme
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0
0 1 0
.
.
.
.
.
.
.
.
.
0 1 0
0 0 1
.
.
.
.
.
.
.
.
.
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
et X
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0
.
.
.
.
.
.
.
.
.
1 1 0
1 0 1
.
.
.
.
.
.
.
.
.
1 0 1
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
.
Sil ny a quune variable symbolique, la reprsentation (II.4) est la plus naturelle ; en revanche, sil y en
a plusieurs il est plus simple de se contenter de retrancher chaque fois une modalit :
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
1
t
i
=n
+u
i
, z
i
a, b, c, t
i
n, s (II.6)
Ces complications viennent du fait que ce dernier modle (modle additif) nest en ralit pas naturel du
tout (le bon modle tant donn par (II.8)). On verra que lavantage du modle sans interaction (II.6)
est davoir moins de paramtres ; il a ici 1 + (3 1) + (2 1) = 4 paramtres.
Si des variables quantitatives sont prsentes, il sut bien entendu de les ajouter au tableau X ; on
peut soit considrer que leur infuence est indpendante de la (ou des) variable symbolique :
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
x
i
+u
i
19
soit quelle en dpend (modle avec interactions)
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
x
i
+
5
1
z
i
=a
x
i
+
6
1
z
i
=b
x
i
+u
i
. (II.7)
P.ex. x est la pluviosit et dans ce dernier modle laugmentation de productivit en prsence de pluie
peut dpendre de lengrais utilis ; cette dpendance est rete par la valeur de
5
ou
6
en comparaison
de
4
.
On a donc ici 6 rgresseurs, ce qui correspond aux contributions de la constante (1), de x (1), de z
(3 1 = 2) et de linteraction ((3 1) 1 = 2). De mme, pour un modle deux variables symboliques
avec p et q modalits, le modle sans interaction aura 1 + (p 1) + (q 1) rgresseurs, et le modle
avec interactions en aura pq = 1 + (p 1) + (q 1) + (p 1) (q 1), avec des interactions du type
1
z=a
1
z
=a
, 1
z=b
1
z
=a
. . . Ce mode de calcul stend un nombre arbitraire de variables. Noter que
comme dans le cas des quations (II.4,II.5), on a les modlisations quivalentes
y =
1
1
z=a,t=n
+
2
1
z=b,t=n
+
3
1
z=c,t=n
+
4
1
z=a,t=s
+
5
1
z=b,t=s
+
6
1
z=c,t=s
+u (II.8)
y =
1
+
2
1
z=a
+
3
1
z=b
+
4
1
t=n
+
5
1
z=a,t=n
+
6
1
z=b,t=n
+u.
Il faut bien voir que dans le cas dun modle complet avec toutes les interactions entre variables symbo-
liques, comme ci-dessus, le dcompte des paramtres ne pose aucun problme, il sut de calculer toutes
les possibilits, sans le rgresseur constant (formulation (II.8)), ceci est galement valide dans le cas o
se mlent variables qualitatives et quantitatives, par exemple le modle (II.7) se rcrit plus simplement
y
i
=
1
1
z
i
=a
+
2
1
z
i
=b
+
3
1
z
i
=c
+
4
1
z
i
=a
x
i
+
5
1
z
i
=b
x
i
+
6
1
z
i
=c
x
i
+u
i
avec 3 + 3 = 6 paramtres ; si lon ajoute t, on a alors 12 paramtres. La gymnastique de dcompte
propose plus haut na par consquent dintrt que si lon considre des modles o toutes les interactions
ne sont pas prises en compte comme (II.6).
Exemple. On observe la prise de poids de rats nourris avec quatre rgimes dirents correspondants
deux sources de protines possibles (buf ou crales) en deux doses possibles (faible ou leve)
1
.
Chacune des combinaisons des deux facteurs est teste sur 10 individus tous dirents ; il y a donc 40
observations de prise de poids en tout.
Le modle avec interactions estim se rcrit
poids = 100 20, 8 1
D=f
14, 1 1
P=c
+ 18, 8 1
D=f,P=c
+ 15 N(0, 1)
La prise de poids conscutive un rgime de buf dose faible est de moyenne 79,2 avec un ecart-type
de 15.
II.2.9 Exercices
Exercice II.2.9.1 Prciser la matrice X de lexercice I.4.1. quoi correspondrait lajout du rgresseur
constant ?
Exercice II.2.9.2 Dmontrer les propositions 2 et 5.
Exercice II.2.9.3 On est dans la situation de lexercice I.4.1 avec (p
1
, p
2
, p
3
) = (50, 40, 60) et q
i
=
100 p
i
. Expliciter sa valeur de lestimateur OLS de si y
1
= y
2
= 1, et y
3
= 2 ; quobserve-t-on?
Peut-on ajouter le rgresseur constant ?
Exercice II.2.9.4 Dmontrer que sil ny a quun rgresseur en dehors de la constante (i.e. p = 2), alors
R est la corrlation empirique entre x et y.
Exercice II.2.9.5 On considre le modle
y
i
= bx
i
+u
i
, E[u
i
] = 0, E[u
2
i
] =
2
, E[u
i
u
j
] = 0
o x
i
est scalaire. Expliciter lestimateur des moindres carrs

b. Soit lestimateur

b =
y
i
/
x
i
. Com-
parer ces deux estimateurs en calculant leur biais et leur variance (On vriera que la proprit blue
1. Snedecor & Cochran Statistical Methods, Iowa State University Press, 1967. Voir aussi Hand, Daly, Lunn, McConway
and Ostrowski, A Handbook of Small Data Sets, Chapman and Hall, 1994.
20
(exercice II.2.9.13) sapplique bien : la variance de

b est infrieure celle de

b). Sous quelle condition les
variances sont-elles gales ?
Exercice II.2.9.6 Calculer la covariance entre u et

(on pourra utiliser la relation u = Ku).
Exercice II.2.9.7 On fait une rgression de y sur deux variables explicatives x et z, c--d X = (1, x, z) ;
il y a en tout n individus. On a obtenu le rsultat suivant :
X
T
X =
_
_
5 3 0
3 3 1
0 1 1
_
_
1. Que vaut n? Que vaut le coecient de corrlation linaire empirique entre x et z ? (Indication :
penser linterprtation de chaque entre de X
T
X en fonction des colonnes de X).
La rgression linaire fournit les rsultats :
y = 1 + 3x + 4z + u, RSS = 3.
2. Que vaut la moyenne empirique y (on utilisera la matrice X
T
X) ?
3. Calculer | y|
2
; justier que | y y1|
2
= | y|
2
| y1|
2
; en dduire ESS, TSS et le coecient de
dtermination R
2
.
On sintresse au modle priv du rgresseur z :
y = X
0
0
+u
0
, X
0
= (1
n
, x).
4. Calculer numriquement X
T
0
y (commencer par calculer X
T
y) ; en dduire

0
.
5. Calculer | y
0
|
2
. Dmonter que | u
0
|
2
+| y
0
|
2
= | u|
2
+| y|
2
. En dduire la norme de u
0
.
6. Calculer le coecient de corrlation partielle entre z et y sachant x.
Exercice II.2.9.8 Vrier les proprits de la matrice Q du II.2.7.
Exercice II.2.9.9 Erreur en prdiction.
1. Vrier que E[ u
2
i
] =
2
(1 h
i
). On pourra utiliser la relation u = Ku.
En dduire que est sans biais.
2. Soit un nouvel individu (y
, x
) satisfaisant les hypothses du modle, vrier que

E[(y
)
2
] =
2
(1 +x
(X
T
X)
1
x
T
).
Exercice II.2.9.10 (Validation croise). On considre lestimateur de la variance par validation
croise :

2
CV
=
1
n
i
(y
i
x
i
(i)
)
2
.
1. Montrer, en utilisant la formule pour

(i)
, que

2
CV
=
1
n
i
u
2
i
(1 h
i
)
2
(II.9)
2. Utiliser lexercice II.2.9.9 pour calculer son esprance. Comparer
2
CV
et
2
dans le cas o les h
i
sont gaux.
Exercice II.2.9.11 Soit le modle habituel y A(X
,
2
I). Soit un nouvel chantillon y
A(x
,
2
).
On suppose que x
a t tir uniformment sur x

1
, ...x
n
.
Quelle est la variance de x
? Quelle est la variance de y
? (Tenir compte de la loi de

x
dans le calcul des variances).

Exercice II.2.9.12 Modle contraint.
1. Soit

lestimateur OLS habituel. Vrier que lestimateur OLS sous la contrainte L = l est
0
=

+ (X
T
X)
1
L
T
[L(X
T
X)
1
L
T
]
1
(l L
).
21
2. En dduire que y
0
= X
0
satisfait :
| y y
0
|
2
= (L
l)
T
_
L(X
T
X)
1
L
T
_
1
(L
l).
3. Montrer que
| y y
0
|
2
= | y
0
y|
2
| y y|
2
.
Exercice II.2.9.13 (Proprit BLUE). Les estimateurs linaires de
sont ceux de la forme
= (X)y + (X)
o et sont des fonctions de X. Bien entendu

en est un. On a alors la proprit Blue (Best Linear
Unbiased Estimator) :
est de variance minimale dans la classe des estimateurs de linaires sans biais.
Dmontrer ce rsultat de la faon suivante :
1. Montrer que si

est sans biais, ncessairement (X)X = I, et (X) = 0.
2. Exprimer alors

et

en fonction de X et u.
3. En dduire que Cov(

,

) = 0, puis que V ar(
) V ar(
).
Exercice II.2.9.14 On dmontre ici des formules de suppression dun individu.
1. Prouver le lemme dinversion matricielle : Soient A, B, C, D quatre matrices, respectivement de
taille n n, n m, mm, mn, alors, si les inverses existent on a
(A+BCD)
1
= A
1
A
1
B(DA
1
B +C
1
)
1
DA
1
.
2. Vrier la formule X
T
X =
i
x
T
i
x
i
. On peut le faire soit par calcul explicite de chaque coecient,
soit en faisant le produit de matrices X
T
X par blocs.
3. En utilisant les deux points prcdents, dmontrer la formule (X
(i)
est la matrice dduite de X par
suppression de la i
ligne)
(X
T
(i)
X
(i)
)
1
= (X
T
X)
1
+
(X
T
X)
1
x
T
i
x
i
(X
T
X)
1
1 h
i
, h
i
= x
i
(X
T
X)
1
x
T
i
4. En dduire que :
(1 h
i
)
1
= 1 +x
i
(X
T
(i)
X
(i)
)
1
x
T
i
.
En dduire les trois points de la proposition 8.
5. Exprimer X
T
y en fonction de X
T
(i)
y
(i)
et x
T
i
y
i
, puis dmontrer les formules pour les estimes en
labsence du i
individu (thorme 9).

Exercice II.2.9.15 On considre le modle deux rgresseurs x et z :
y = a
1
x +a
2
z +u.
1. Calculer la matrice de covariance des coecients estims et lexprimer en fonction de |x|, |z| et
cos( x, z).
2. Que vaut la corrlation de a
1
et a
2
? Que se passe-t-il si x et z sont orthogonaux ?
Exercice II.2.9.16 Un goteur teste des chocolats fabriqus base de cacao de trois provenances
direntes : Cte dIvoire, Venezuela, Brsil. Il donne une note pour chaque chocolat quil gote. Les
chocolats sont prpars avec des doses de vanilline direntes. Proposer pour cette exprience un modle
de rgression avec interaction et un sans interaction. Combien ont-ils de paramtres ? Interprter leur
dirence.
Exercice II.2.9.17 On teste des doses direntes dengrais dans un champ divis en parcelles similaires
de mme taille (une dose par parcelle). On mesure le poids de bl produit chaque fois et lon prsuppose
le gain de production est proportionnel la quantit dengrais utilis.
22
1. Combien y a-t-il de paramtres estimer ? Montrer que lon peut mettre cette exprience sous la
forme dun problme de rgression. Combien de colonnes a la matrice X ?
2. On fait maintenant la mme exprience mais dans trois champs dirents. On suppose de plus
que leet de lengrais dpend du champ. crire lquation de rgression. Combien de colonnes a la
matrice X ?
3. On suppose que lengrais a le mme eet dans les trois champs, mais que leur productivit en
absence dengrais est toujours dirente. Que devient lquation de rgression? Combien de colonnes
a la matrice X ?
4. On a maintenant deux engrais et un seul champ. Combien de colonnes a la matrice X ?
Vrier que la somme des solutions fait 15.
II.3 Modles htroscdastiques (Moindres carrs gnraliss)
II.3.1 Modle
La dirence avec le modle prcdent est que la matrice de covariance des bruits est maintenant
dirente dun multiple de lidentit. Il est souvent dsign sous le terme GLS (Generalised Least Squares).
, de
> 0, de
> 0 et de variables alatoires u

i
tels
que
y = X
+u,
E[u] = 0,
E[uu
T
] =
2
.
En dautres termes, pour chaque i :
y
i
= x
i
+u
i
E[u
i
] = 0
Cov(u
i
, u
j
) =
2
ij
(htroscdasticit et corrlation des erreurs).
Le paramtre
2
, a priori redondant, est introduit traditionnellement avec lide que
est connu
lavance et
2
estimer, ce qui, on va le voir, nous ramne par une transformation simple au problme
prcdent, ce qui est intressant du point de vue de lanalyse thorique. Souvent cependant
reprsente
directement la matrice de covariance de u (si bien que
= 1), elle est inconnue, et est paramtre par

un vecteur de taille raisonnable (cf. les deux exemples du II.3.4).
II.3.2 Rduction au cas
= I. Estimation de
et
2
Soit R une racine carre de

1
, c--d R
T
R =
1
; si lon pose :
y
= Ry, X
= RX, u
= Ru
on obtient
y
= X
+u
, E[u
T
] =
2
I.
On a donc dcorrl et normalis les observations. On est ramen au problme du II.2.
Une autre approche qui, on va le voir, conduit aux mmes conclusions, est de passer par le modle
gaussien y N(X
,
2
). La matrice
1
dnit une nouvelle mtrique sur R

n
qui intervient dans la
vraisemblance :
|z|
2
= z
T
z =
ij
z
i
(
1
)
ij
z
j
.
23
11 - Dfinition
Lestimateur des moindres carrs gnraliss de
est lestimateur du maximum de vraisem-

blance sous lhypothse de normalit de u (c.--d. y N(X
,
2
)) :
G
= arg min
|y X|
= (X
T
X)
1
X
T
y.
On a bien :

G
(y, X,
) =

OLS
(y
, X
) = (X
T
X
)
1
X
T
y
. En consquence les rsultats du II.2

sappliquent :
12 - Proposition

2
= (n p)
1
|y y|
2
est un estimateur sans biais de

2
.
On peut aussi relier ces rsultats au II.2 en remarquant que seule la mtrique a chang :
y
G
= H
G
y, H
G
= X(X
T
X)
1
X
T
et H
G
est le projecteur orthogonal sur X pour le produit scalaire z, t
= z
T
t.
Attention, la formule de prdiction pour un nouvel individu dont la covariance avec les autres individus
est connue et non-nulle dire de y
0
= x
0
, du moins si lon dsire prdire le bruit avec, c.--d. y

0
et non
E[y
0
] ; cest la formule (II.12) que lon verra plus loin, qui fait intervenir les corrlation de u
0
avec les u
i
(vecteur not ).
Donnons lexemple des expriences rptes (ou donnes groupes) : On fait n
i
fois la mme
exprience avec le rgresseur x
i
; en notant la rponse moyenne y
i
, on a
y
i
=
x
i
+ u
i
, V ar( u
i
) =
2
/n
i
. (II.10)
est diagonale. Lestimation GLS de partir des y

i
donnera le mme rsultat que lestimation OLS
sur les donnes non-moyennes. En revanche lestimation de
sera moins bonne que si lon possdait

les donnes non moyennes.
II.3.3 Dtection de lhtroscdasticit
Lhomoscdasicit ne peut tre teste en toute gnralit car il sagit de tester tous les ccients de
avec seulement n observations ! On peut imaginer une multitude de tests. La meilleure mthode reste
de proposer des modles htroscdastiques plus spciques (mixtes, etc.) en fonction de lide que lon
se fait des donnes, et de les tester.
Un test graphique simple est la reprsentation rsidus/valeurs ajustes du II.2.7 ; on verra souvent
une volution de lamplitude des u
i
quand y
i
varie.
On peut aussi utiliser le test de Breusch et Pagan
2
qui cherche dtecter si la variance de u
i
dpend
de x
i
. Il fait la rgression de
2
u
2
i
sur des variables explicatives z
i
(en gnral, z
i
= x
i
) et teste la nullit
des coecients obtenus (procdure ncv.test de R)
3
.
Si i reprsente un indice de temps, on utilise parfois le test de Durbin-Watson
4
pour dtecter la
prsence dune corrlation non-modlise entre les donnes ; cest un test de corrlation entre les rsidus
dont la statistique est S =
n
2
( u
i
u
i1
)
2
/
n
1
u
2
i
. Si S est trop grande (resp. petite) il y a alors une
corrlation signicativement ngative (positive) entre les rsidus.
2. T.S. Breusch, A.R. Pagan, (1979) A simple test for heteroscedasticity and random coecient variation, Econometrica
47, 12871294
3. Dans un mme esprit le test de White compare S = n
1
i
(
2
u
2
i
)(x
T
i
x
i
n
1
X
T
X) 0. Cest un test de corrla-
tion entre les carrs des rsidus et les rgresseurs. Concrtement, la matrice S vectorise scrit n
1
v
i
, o v
i
R
p(p+1)/2
contient donc les termes (
2
u
2
i
)(x
ij
x
ik
n
1
(X
T
X)
jk
), j et k variant. Le test compare (
v
i
)
T
(
v
i
v
T
i
)
1
(
v
i
)
un
2
p(p+1)/2
.
H. White, A heteroskedasticity-consitent covariance matrix estimator and a direct test for heteroscedasticity, Econome-
trica, vol.48, No 4, May 1980.
4. J. Durbin, G.S. Watson, Testing for Serial Correlation in Least Squares Regression. III, Biometrika, Vol. 58, No. 1.
(Apr., 1971), pp. 1-19. Le test apparat pour la premire fois dans un article de 1951 des mmes auteurs ; cet article revisite
le sujet.
24
Il est totalement dsespr destimer
sans contrainte supplmentaire car cette matrice contient

plus de coecients que de donnes dont on dispose. On postulera donc toujours pour
une forme trs

particulire avec peu de paramtres (cf (II.10), les exemples de ce paragraphe et le II.3.5).
Une mthode gnrale. Si lon dispose dun estimateur (, y, X) de
en fonction des donnes et

de
et
peuvent tre alors estims en rptant les deux oprations suivantes :

pour une valeur estime

de
calculer :

= (X
T

1
X)
1
X
T

1
y
puis ensuite estimer
laide de

:

= (
, y, X).
La convergence de la mthode dpend de chaque situation particulire.
Exemple : Seemingly unrelated regression. Soit le modle
_
y
y
_
=
_
X 0
0 X
__

_
+
_
u
u
_
, V ar
_
u
u
_
=
_
v
11
Id v
12
Id
v
12
Id v
22
Id
_
.
Par exemple y
i
et y
i
sont deux mesures direntes, ou dires, de lactivit commerciale du pays i. Une
estime de et
permet alors den dduire une des v

ij
partir u et u
, ce qui conduit donc un

.
Exemple : Variance dpendant dune modalit et proportionnelle une variable. On ense-
mence des pots avec les mmes graines mais des terreaux dirents, variable t, et en clairant constam-
ment chaque plante avec une intensit lumineuse a dirente pour chacune ; on mesure la hauteur y de
la plante au bout dun mois
y
tik
=
t
+a
i
+u
tik
, V ar(u
tik
)
1/2
= (
t
+a
i
).
La variance dpend donc du type de terreau et du niveau dclairage. La commande R correspondante
sera (bibliothque nlme) :
gls(yt+a,weights=varConstPower(form=a|t)))
Si la variance ne dpend que de t, faire weights=varIdent(form=1|t).
Exemple : Donnes longitudinales. On sintresse savoir si le labour a une inuence sur la prsence
de carbone dans le sol
5
. On prlve des carottes dans divers champs et la mesure y
ij
est le taux de carbone
labscisse (profondeur) t
j
de la i
carotte. Les variables explicatives sont le taux dhumidit et lanne.

En raison de la corrlation prsente le long de la carotte on postule le modle suivant (en fait il y a deux
modles : un avec labour et un sans labour)
y
ij
= x
i
+
K
k=1
k
t
k
j
+v
ij
+u
ij
E[uu
T
] =
2
u
Id, E[v
ij
v
ik
] =
2
v
exp[t
j
t
k
[, E[v
ij
v
i
k
] = 0, i
,= i.
Le terme polynomial (p.ex. K = 1) explique une tendance rgulire de variation du taux de carbone en
fonction de la profondeur et le terme suivant exprime une corrlation additionnelle entre prlvements
proches pour le mme individu.
Chaque estime

, de
conduit une estime des u

ij
et des v
ij
, qui fournissent leur tour
une estime de
u
,
v
et . On a donc ainsi fabriqu une fonction

(, y, X).
Filtrage par krigeage. Soit le modle de rgression habituel o les y
i
sont typiquement des mesures
prises chacune en un point
i
du plan, c.--d. un champ spatial (intensit lumineuse en un point dune
image, mesure de pollution en un endroit, etc.) [5]. On se propose dexprimer la corrlation comme
fonction une paramtre des localisations, par exemple
y
i
= x
i
+u
i
, i = 1, . . . n,
E[u
i
u
j
] = c exp(b|
i
j
|
a
) +
2
0
ij
. (II.11)
5. F.J. Breidt,Ecological Modeling with Soils Data : Semiparametric Stochastic Mixed Models for Increment Averages,
Journes Statistiques de Rennes, 2006. Nous simplions ici beaucoup : En ralit F.J. Breidt utilise des fonctions splines et
les termes correspondant aux
k
dpendent galement des variables explicatives, le tout dans un cadre de modles mixtes.
25
Nous sommes encore dans le cadre prcdent ; les quatre paramtres a, b, c,
2
0
devront tre estims.
Souvent dans les applications seul le rgresseur constant est considr mais ce nest pas toujours le
cas. Le but du krigeage est de prdire la rponse y
0
en un nouveau point
0
en prenant en compte les
variables explicatives x
0
et en exploitant les corrlations existant avec les y
i
. Ici
= 1 et on note
y = (y
i
)
1in
, u = (u
i
)
1in
, = E[uu
T
], = E[uu
0
].
On suppose dans la suite que le rgresseur constant est pris en compte dans x. Si
et taient
connus, lestimateur naturel de y
0
serait, sous lhypothse gaussienne
6
son esprance sachant les y
i
soit
y
0
= E[y
0
] + E[u
0
[u] = x
0
+
T
1
u. Comme
et sont inconnus on choisit de les estimer et il

vient
y
0
= x
0
+
T

1
(y X
). (II.12)
Il ne reste donc plus qu trouver

et

, c.--d. dans lexemple (II.11) estimer , a, b, c et
2
0
.
Parenthse. Rappelons que le rgresseur constant est pris en compte. Il est dusage, dans la littrature de krigeage,
de remarquer que y
0
=
p
i
y
i
o le vecteur p est solution dune de ces deux quations suivantes en (p, q) au choix
7
X
X
T
0
p
q

x
T
0
ou
X
X
T
0
p
q

x
T
0
ij
= E[(u
i
u
j
)
2
],
i
= E[(u
i
u
0
)
2
].
La matrice est appel le variogramme. Dans le domaine des processus spatiaux, il apparat souvent plus naturel
de travailler avec cette matrice plutt quavec pour des raisons de modlisation.
Noter que
i
p
i
= 1 puisque X
T
p = x
T
0
(cette proprit est perdue si le rgresseur constant nest pas pris en compte,
et la deuxime quation matricielle galement ; les p
i
ne sont pas ncessairement 0). Noter que la partie q de la
solution dire selon lquation choisie (p est galement solution de ces quations modies en remplaant u par y
dans les dnitions de , , et ).
La mthode consiste estimer ( ou ) par le biais dun modle du type
ij
= (
i
,
j
) o
i
est un
vecteur de variables explicatives ; en dehors de (II.11) voici un autre exemple
8
ij
= c exp(
k
c
k
[x
ik
x
jk
[
) +
2
ij
ou encore
ij
= (|
i
j
|) o la fonction est estime par un estimateur non paramtrique p.ex.
(h) =
1
N(h, )
h<|
i
j
|<h+
u
i
u
j
et N(h, ) est le nombre de termes dans la somme, un paramtre choisir. Le problme est dobtenir
une matrice positive la n.
On peut aussi utiliser un modle pour , par exemple le modle sphrique
9
ij
= g(|
i
j
|/)
g(x) =
_
3x x
3
, x < 1
2, x > 1
(la fonction g est drive continue) ou le modle exponentiel g(x) = 1 e
x
.
6. Si (X, Y ) est un vecteur gaussien centr dans R
n+p
, on a E[Y |X] = R
Y X
R
1
XX
X.
7. Utiliser la proprit suivante : Soit A, B, C, D quatre matrices de dimensions adquates, si les inverses existent
A B
C D
1
=
E A
1
BF
FCA
1
F
, F = (D CA
1
B)
1
, E = A
1
+A
1
BFCA
1
.
8. De tels modles sont utiliss dans larticle de J. Sacks, W.J. Welch, T.J. Mitchel et H.P. Wynn, Design and analysis
of computer experiments, Stat. Sci., 1989, vol.4, No.4, 409-435.
9. Sur les modles et leur estimation, consulter par exemple larticile de M.L. Stein : Minimum Norm Quadratic Esti-
mation of Spatial Variograms, J. Am. Stat. Ass., Vol 82, No 399, pp 765-772, 1987.
26
II.3.5 Modles mixtes
Cest le modle de rgression
y = X +Z +u, N(0, G), u N(0,
2
Id) (II.13)
o X et Z sont des matrices connues (rgresseurs), est le paramtre et est un bruit vectoriel ind-
pendant de u. G est typiquement une matrice diagonale. On peut remplacer
2
Id par une matrice plus
gnrale. Noter que Z a un nombre a priori faible de colonnes, et donc le bruit (Z)
i
engendr par est
trs corrl dune donne lautre, contrairement u
i
. On a
y N(X, V ), V =
2
Id +ZGZ
T
.
On peut voir linverse cette modlisation comme y N(X + Z,
2
Id) avec lintroduction dune
information Baysienne sur une partie des coecients (les
j
).
Un point de vue plus pragmatique est dy voir une possibilit destimer dun modle linaire quand la
matrice de rgression, ici (X[Z), a beaucoup de colonnes, voire plus de colonnes que de lignes. Mme si
G est inconnu, il pourra en pratique tre estim via une modlisation paramtrique dont la plus simple
est G =
2
Id.
En rsum : Le modle mixte est une formulation particulire de modle htroscdastique ; elle per-
met en particulier de proposer un modle de complexit intermdiaire entre le modle complet y
N((X[Z), I) (qui a trop de paramtres) et le modle y N(X, I) qui est trop simple.
Lintrt principal des modles mixtes est de permettre de juger de limportance des rgresseurs Z
dans des situations o lon ne peut pas estimer le modle complet : si le modle mixte est signicativement
meilleur que le modle eets xes simple, alors les rgresseurs Z jouent un rle signicatif.
On verra au III.4.7 quune application typique est de tester les interactions compliques en analyse
de la variance.
Pour les dtails concernant lestimation nous renvoyons [2] ou [16].
Exemple : donnes groupes (random block eects). Supposons que lon a rassembl p groupes de
donnes obtenues dans des conditions direntes. Par exemple chaque groupe peut reprsenter une srie
dexpriences (test de cocktails, traitements mdicaux, etc.) faites sur un sujet (dirent dun groupe
lautre). lintrieur de chaque groupe on ne peut pas considrer les mesures comme indpendantes car
elles ont en commun des conditions exprimentales spciques (le goteur, le cobaye, etc.). En dsignant
par x
e
, e = 1, . . . n
e
, les rgresseurs de lexprience numro e (composition du cocktail, teneur en sucre,
etc.) et s, s = 1, . . . n
s
le sujet, on pourra choisir le modle :
y
se
= x
e
+
s
+u
se
,
s
= N(0,
2
).
On voit que leet alatoire se traduit ici par un biais variant alatoirement dun sujet lautre (certains
goteurs sont plus svres, etc.) ; en reprenant les notations prcdentes, et en supposant que chaque
sujet fait toutes les expriences, Z est (n
e
n
s
) n
s
:
Z =
_
_
_
_
_
_
1 0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 1
_
_
_
_
_
_
, = N(0,
2
I
n
s
)
o 0 et 1 sont des vecteurs de 0 et de 1. Dans ce cas,
mesure la variabilit de la rponse due au

changement de conditions exprimentales (uctuations de la svrit dun goteur lautre). Dans le
cas des cocktails, il est clair le modle complet nest pas beaucoup plus intressant dun point de vue
pratique que le modle mixte, puisquon ne sintresse pas aux sujets individuellement.
Noter que dans cet exemple (X[Z) est de rang dcient, cause de la colonne de 1 dans X ; en eet,
en raison du caractre alatoire des
i
dans la modlisation, il est important de prserver la symtrie :
leet du retrait dune colonne redondante dpendrait ici de la colonne choisie. Si lon cherche estimer
les
i
dans le modle y N((X[Z)
_
_
, I), il est naturel dajouter la condition
i
= 0, lie au fait que
les
i
du modle mixte sont centrs, et la solution redevient unique.
27
Exemple : uctuations sur les paramtres dun modle longitudinal
10
. Les auteurs cherchent
proposer un modle de croissance pour des enfants de 12 14 ans. Il y a 26 enfants. On mesure
la taille y
ij
de lenfant i lge t
ij
, j = 1, . . . J = 9 (les mesures sont prises tous les trois mois).
11.0 11.2 11.4 11.6 11.8 12.0 12.2 12.4 12.6 12.8 13.0
125
130
135
140
145
150
155
160
165
170
175
Les auteurs postulent le modle polynomial (le choix des ordres 4 et 2 est de nature exprimentale)
y
ij
=
4
k=0
k
t
k
ij
+
2
k=0
ik
t
k
ij
+u
ij
, (
.0
,
.1
,
.2
) N(0, G). (II.14)
Si J est petit, il est hors de question destimer un polynme dordre 4 par enfant, et cela prsente peut
dintrt car linterprtation du paquet de paramtres obtenus exigera une nouvelle analyse statistique.
Les auteurs choisissent donc le modle (II.14). Les
k
reprsentent le polynme moyen tandis que les
ik
servent modliser la variabilit dun individu lautre. Lestimateur de G quantie cette variabilit.
Lanalyse avec la commande
mod=lme(taille1+t+I(t
2
)+I(t
3
)+I(t
4
),random=1+t+I(t
2
)|sujet),
(bibliothque nlme
11
) donne les estimes (eets, xes, variances, corrlations, avec la convention G
ij
=
j
r
ij
pour i ,= j)
0

1

2

3

4

0

1

2

u
r
01
r
02
r
12
149 6, 2 1, 1 0, 47 0, 34 8 1, 7 0, 8 0, 47 0, 61 0, 22 0, 66
Notons les fortes corrlations, et la cohrence de r
01
> 0 avec la gure. Les intervalles de conance pour
ces quantits sobtiennent avec intervals(mod). Lestimation du modle y
ij
=
4
k=0
k
t
k
ij
+u
ij
, donne
bien les mmes estimes de la partie xe.
On peut voir ce modle comme un modle hirarchique car le coecient de t
k
pour lenfant i est
k
+
ik
, ce qui revient postuler un modle de rgression pour ce coecient.
Pour additionner plusieurs eet alatoires indpendants il faut faire une liste, par exemple
mod=lme(taille1+t+I(t
2
)+I(t
3
)+I(t
4
),random=list((1+t|sujet),(I(t
2
)-1|sujet)))
revient imposer r
02
= r
12
= 0.
On peut galement utiliser la bibliothque lme4 qui donne de bons rsultats en estimation; la com-
mande sera mod=lmer(taille1+t+I(t
2
)+I(t
3
)+I(t
4
)+((1+t+I(t
2
))|sujet)). Pour un modle avec
uniquement des eets alatoires du type y
ijk
= +
i
+
j
+
ij
+u
ijk
o les trois eets sont indpendants
(les paramtres sont (,
u
,
)) on fera lmer(y1+(1|A)+(1|B)+(1|A : B)).

Pour les cocktails, on fera lmer(yx+(1|sujet)) ou lme(yx,random=1|sujet).
De manire gnrale, un eet alatoire cherche reprsenter les uctuations de leet moyen dun
facteur A (ici le vecteur des trois premiers coecients du polynme) quand B varie (ici le sujet) et lon
crit (A|B) ; ceci correspondra un terme
ab
dans le modle. Le terme moyen A apparatra galement
(sauf si lon sait quil est nul).
10. J. C. Pinheiro, and D. M. Bates, Mixed-Eects Models in S and S-PLUS, Springer, 2000.
11. Pour la programmation des modles mixtes sous R nous renvoyons par exemple au document dintroduction de
D. Concordet : www.biostat.envt.fr/master/IMG/pdf/Commandes_nlmetex.pdf.
28
II.3.6 Exercices
Exercice II.3.6.1 On considre le modle de rgression
y
i
= ax
i
+u
i
, i = 1, . . . N
avec : E[u
i
] = 0, V ar(u
i
) =
2
i
, Cov(u
i
, u
j
) = 0, i ,= j. x
i
et a sont scalaires.
Donner lexpression des estimateur OLS et GLS de a et comparer leur variance.
Exercice II.3.6.2 On recueille J sries de mesures de modle
y
ij
= +u
ij
, Var(u
ij
) =
2
j
, i = 1, . . . n, j = 1, . . . J.
Les bruits sont donc dcorrls mais de variance dirente connue. Mettre sous forme homoscdastique
par un changement de variable adquat puis en dduire lexpression de lestimateur de .
Lese variance sont inconnues. Ecrire la commande R faisant lestimation.
Exercice II.3.6.3
12
Des vaches donnent naissance des veaux, issus de 4 taureaux. Les vaches pro-
viennent de deux troupeaux. Chaque exprience est un accouchement. Les rgresseurs sont lge de la
vache, le sexe du veau, le taureau (variable symbolique), et le troupeau. La rponse est la dicult que
la vache a eue vler (note donne par un technicien). Le but principal de ltude est de faire de la
slection sur les vaches. Il y a 28 individus.
1. Calculer le nombre de paramtres du modle additif complet
2. Proposer un modle eets alatoires et donner son nombre de paramtres. Justier le choix de
ce modle en termes dinterprtations de la rgression et de son utilisation.
3. Ecrire la commande lme4 correspondant cette analyse.
4. On sintresse galement la variabilit de leet taureau pour chaque troupeau sparment.
Ecrire le modle correspondant.
La commande est lme(yTr+A+S,random=list(Ta=pdDiag(0+Tr))), qui indique que Ta est un
eet alatoire avec une matrice de covariance diagonale dont les coecients ne dpendent que de
Tr. Par exemple, la syntaxe lme(y0+Tr,random=(1|Ta)) quivaut
lme(y0+Tr,random=list(Ta=pdIdent(1))).
Exercice II.3.6.4 On reprend lexemple des goteurs. On suppose que lon dispose en outre dune
variable Age du goteur deux modalits.
1. Comment modier le modle pour voir si les jeunes sont plus svres que les vieux ?
2. Comment modier le modle pour voir sil y a une plus grande disparit de svrit chez les jeunes
que chez les plus gs ?
3. Ecrire la commande lme4 pour raliser lanalyse.
II.4 Moindres carrs totaux (Errors in variables, total least squares)
Modle. Il a pour but de prendre en compte du bruit sur les rgresseurs :
y
i
= x
i
+u
i
z
i
= x
i
+v
i
o lon observe les (y
i
, z
i
) mais pas x
i
. Les u
i
et v
i
sont des bruits indpendants de variance
2
u
et
2
v
. Par exemple dans (I.1), la mesure de log p
i
est sans doute autant entache derreur que celle de la
temprature. Lestimateur OLS de
et X sobtient par minimisation en X et de
2
u
(y
i
x
i
)
2
+ (z
i
x
i
)
T
2
v
(z
i
x
i
). (II.15)
12. Daprs C. Lavergne et C. Trottier, Sur lestimation dans les modles linaires gnraliss eets alatoires, Revue
de Statistique Applique, 48 no. 1 (2000), p. 49-67 .
29
Si
u
= 1,
v
= Id, cest la somme des carrs des distances des points dobservation (z
i
, y
i
) aux points de
la droite (de lhyperplan) de rgression (x
i
, x
i
), et le minimum sur les x
i
est donc la somme des carrs
des distances la droite. Il nexiste malheureusement pas destimateur satisfaisant de
v
; si lon esssaye
par exemple le maximum de vraisemblance, on trouve au nal
v
= 0 avec X = Z, une vraisemblance
innie et

=

OLS
.
Rsolution numrique. Ce paragraphe ncessite de se familiariser avec la svd
13
. On notera matricielle-
ment
y = X
+u, Z = X +V.
Posons =
1
v

u
, alors lestimateur (II.15) de
et X correspond la minimisation de la norme de

Frobenius (somme des carrs des coecients) de la matrice des rsidus (Z|y) (X|X). Ceci revient
trouver une matrice M de rang p + 1 qui minimise la norme de Frobenius de (Z|y) M puis rsoudre
en X et lquation M = X(|). La solution du premier problme consiste faire la svd de (Z|y) que
lon partitionne de manire adquate :
(Z|y) = UDV
T
= (U
1
|U
2
)
D
1
0
0 d
2
V
11
V
12
V
21
V
22
T
(II.16)
(D est diagonale dcroissante et d
2
est sa plus petite entre) puis
M = U
1
D
1
(V
T
11
|V
T
21
)
ce qui revient faire d
2
= 0 dans (II.16). Do ensuite

X = U
1
D
1
V
T
11
1
et

= V
T
11
V
T
21
.
Pour la situation plus gnrale o une partie des rgresseurs est observe sans bruit (p.ex. si lon veut
mettre le rgresseur constant) :
y = X
+X
0
0
+u, Z = X +V,
on commence par projeter tout orthogonalement aux colonnes de X
0
(pour toute matrice M, on pose
M
= (I X
0
(X
T
0
X
0
)
1
X
T
0
)M) :
y
= X
+u
, Z
= X
+V
Puis on calcule les estimes

X
et

sur ce nouveau modle comme prcdemment (sans oublier de

corriger les variances), puis

X =

X
+Z Z
et

0
sobtient par rgression de y

X
sur X
0
.
Exercice II.4.1 Montrer que lannulation des drives de (II.15) en X et conduit ( =
1
v

u
) :
X = (y
T
+Z)(
T
+ )
1
,

= (

X
T

X)
1

X
T
y.
En dduire un algorithme de point xe pour calculer la solution (on ne discutera pas de la convergence).
II.5 Rgression non-paramtrique et moindres carrs
Nous ne traitons pas ici de ce problme dans toute sa gnralit ; on ne fera pas non plus une
prsentation rigoureuse de la thorie ; voir [10] et [17] pour de bons livres introductifs.
Le modle est le suivant o le paramtre estimer est la fonction f inconnue :
y
i
= f(
i
) +u
i
, u
i
= N(0,
2
),
i
[0, 1]. (II.17)
Il sagit dun problme non paramtrique car lensemble des fonctions candidates nest pas un espace de
dimension nie.
13. La svd dune martice M, n p, est une reprsentation sous la forme
M = UDV
T
=
d
i
u
i
v
T
i
o U est n m, colonnes u
i
orthonormes (i.e. U
T
U = I), V est p m, colonnes v
i
orthonormes, D est m m
diagonale et m est le rang de M. On montre que cette dcomposition permet dapprocher M optimalement pour la norme
de Frobenius par des matrices de rang infrieur en annulant les plus petits d
i
dans cette expression.
Cette dcomposition sobtient en diagonalisant MM
T
= UD
2
U
T
(U est rectangulaire car on ne conserve que les vecteurs
propres associs des valeurs propres non nulles) et en posant V = M
T
UD
1
; on vrie immdiatement, en substituant
V par sa valeur, que UDV
T
= M et V
T
V = I. Si les valeurs singulires sont distinctes, elle est unique.
30
II.5.1 Premire approche : la rgression polynmiale
Faisons apparatre sur un exemple simul simple les problmes rencontrs. On dispose des 20 paires
(
i
, y
i
) reprsentes sur la gure par des cibles. Elles suivent le modle (II.17) sauf que lintervalle de
variation de est plus grand. La fonction f est un polynme dordre 3, f(x) = (5x 1)
2
(x 1),
reprsent en trait plein ; on a pris = 1. Si lordre est eectivement connu, lestimation peut se faire
par une rgression habituelle avec le modle
y
i
=
1
+
2
i
+
3
2
i
+
4
3
i
+u
i
.
En gnral lordre nest pas connu (et mme lhypothse f polynmiale nest quune approximation)
et la question de lordre utiliser se pose. La gure montre les estimes pour des ordres 3 et 6 (courbes
en pointills). On voit que lestime avec lordre 6 est trs mauvaise ; ceci vient du fait que les coecients
supplmentaires ont t utiliss pour approcher davantage les donnes (bruites) ce qui a induit un cart
important la vrit aux endroits o les observations se font rares ; si lon augmente lordre, le polynme
estim va sapprocher de plus en plus des points dobservation en ayant un comportement trs chaotique
entre ces derniers. La dicult est donc de trouver un ordre (taille du modle) raisonnable.
0 0.2 0.4 0.6 0.8 1.0 1.2
4
3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2

4
3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2
4
3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2
4
3
2
1
0
1
2
3
4
Estimation du degr par validation croise. Lide est dessayer de choisir la valeur du degr d
qui minimisera lerreur de prdiction. Pour estimer cette erreur on utilisera lestimateur CV : pour tout
i, calculer le modle

(i)
(cf II.2.5) puis
CV (d) = n
1
i
(y
i
x
i
(i)
)
2
o la dpendance en d est implicite via la dimension du rgresseur (p = d + 1). Il est essentiel dter
lindividu i chaque fois car sinon on aurait une fonction dcroissante de d et il serait nalement choisi
trop grand (typiquement gal n). En utilisant lexercice II.2.9.10, le critre minimiser devient
CV (d) = n
1
i
u
2
i
(1 h
i
)
2
Le deux gures suivantes illustrent la mthode. La premire montre lvolution de
_
CV (d) en fonction
de d ainsi que celle de et de lestimateur au maximum de vraisemblance
MV
=
_
RSS/n.
MV
est
une fonction dcroissante de d car cest la norme de la projection sur des espaces embots. nest
visiblement pas non plus une mesure trs satisfaisante. En pratique CV (d) avoisine son minimum sur un
plateau de largeur rduite o les estimes dirent assez peu.
La seconde gure montre les polynmes estims pour d = 3 et d = 4, qui semblent tre les deux seules
valeurs acceptables.
31
1 0 1 2 3 4 5 6
0.9
1.3
1.7
2.1
2.5
2.9
3.3
3.7
4.1
4.5
.
.
1 0 1 2 3 4 5 6
0.9
1.3
1.7
2.1
2.5
2.9
3.3
3.7
4.1
4.5
+ +
+
+ +
+
+
sch
smv
cv
0 0.2 0.4 0.6 0.8 1.0 1.2
3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2

3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2
3
2
1
0
1
2
3
4
0 0.2 0.4 0.6 0.8 1.0 1.2
3
2
1
0
1
2
3
4
verite
deg=3
deg=4
Le paragraphe suivant dcrit une approche classique qui utilise la base de Fourier plutt que les
polynmes. Dautres choix sont encore possibles comme on le verra plus loin.
II.5.2 Approche par estimation des coecients de Fourier
Revenons au modle (II.17). Le paramtre est ici la fonction f ; on est donc en dimension innie. Une
faon de le visualiser plus clairement est de passer par la transforme de Fourier de f
j
=
_
1
0
e
2ij
f() d, f() =
jZ
j
e
2ij
. (II.18)
Remarque : on prend ici, pour simplier lexpos, la notation complexe, qui nest pas trs adapte en rgression si
f est relle, car on a alors la contrainte
k
=

k
. Il faudrait mieux dnir
j
=
1
0
e
j
()f() d, f() =
ge0
j
e
j
()
e
2j
() = cos 2j, e
2j+1
() = sin 2(j + 1), j = 0, 1, . . .
On a alors
y = X +u, X
ij
= e
2ij
i
(II.19)
qui est la forme habituelle (vu labsence dambiguit, on a supprim dans ce paragraphe ltoile qui
dsignait prcdemment le vrai paramtre par opposition au paramtre gnrique). Noter que la matrice
X
T
ne peut tre de rang plein car elle a n colonnes et une innit de lignes ; toute estime OLS sera une
fonction qui vaut y
i
en
i
, donnant ainsi un rsidu nul, ce quon pouvait deviner tout de suite au vu de
(II.17). Cette estime sera toujours mauvaise, sauf si = 0, car la fonction obtenue sera trs irrgulire.
Le but sera ici de construire une estime qui sera bonne si f est rgulire (la situation tant dsespre
sans hypothse supplmentaire sur f).
On va construire un estimateur biais, mais dont les performances seront trs suprieures OLS dans
le cas o beaucoup de
j
sont petits (ce qui correspond f rgulire) et trs lgrement dgrades sinon.
Rappelons que des intgrations par parties dans (II.18) montrent que si f admet q drives intgrables,
[
j
[ < Cj
q
.
Mthode de projection On se restreint aux estimateurs (biaiss) satisfaisant :
j
= 0, [j[ > j
0
pour un certain j
0
infrieur n. Une fois j
0
choisi, le problme est alors un problme de rgression
purement paramtrique puisquil reste estimer par moindres carrs les
j
pour [j[ j
0
.
Ceci correspond lintroduction dune hypothse supplmentaire : la suite des
j
tend rapidement
vers 0. Cest une hypothse de rgularit de f.
Lestimation de j
0
par validation croise se fait comme prcdemment.
Des calculs ont montr que si CV est asymptotiquement trs bon, il est trs bruit, ce qui fait que j
0
est gnralement
surestim. Une amlioration consiste utiliser la validation croise rgularise
14
: CV R(j
0
) = n
1
i
(

f
0
(x
i
)
14. P. Hall, H. Marron & B.U. Park, Smoothed cross-validation, Probab. Th. Relat. Fields, 92,1-20, 1992. Springer, 1992.
32
x
i
(i)
)
2
o

f
0
(x
i
) = x
i
0
est une premire estime obtenue avec un j
0
sensiblement plus grand que la valeur
optimale. Cette mthode se justie par le fait que CV R est un intermdiaire entre CV et le critre totalement
dbruit idal

i
(f(x
i
) x
i
(i)
)
2
; choisir j
0
trop grand garantit que lon reste bien dans la zone intermdiaire,
sans ajouter de biais signicatif dans

f
0
.
Validation croise gnralise. Si lon utilise une hypothse duniforme rpartition des
i
, il vient
(X
T
X)
jk
=
X
ij
X
ik
=
i
e
2ij
i
e
2ik
i
n
_
1
0
e
2i(kj)
d = n
jk
do h
i
p/n (p = 2j
0
+1) ; on a alors CV (j
0
)
1
1p/n

2
o
2
dsigne comme dhabitude lestimateur
non-biais. La minimisation du membre de droite correspond lestimateur classique de validation croise.
La validit thorique de cette approche a t dmontre par Polyak et Tsybakov
15
. Si les donnes sont
mal rparties, mieux vaut sen tenir au vrai CV.
II.5.3 Aspects pratiques
Au problme du choix du nombre de fonctions de base (c.--d. du degr, ou de j
0
) sajoute celui
de la base elle-mme. En particulier il pourra tre plus judicieux dutiliser une base de fonctions non-
priodiques si lon sait que f est non-priodique, par exemple (ici x [0, 1])
16
:
f
k
(x) = cos kx, k = 0, 1, . . .
g
k
(x) = x
k
, k = 0, 1, . . .
h
0
(x) = 1, h
1
(x) = x, h
k
(x) = sin kx, k = 2, 3, ..
Mentionnons galement la possibilit dutiliser les fonctions splines (polynmes par morceaux adquate-
ment raccords). Nous renvoyons [15].
Prenons un exemple : On sintresse lauence dans des magasins (rponse y) en fonction du temps
quil fait x (note combinant temprature et pluviosit). Le modle le plus simple est
y
i
=
1
+
2
x
i
+e
i
.
Si les mesures sont prises des heures direntes de la journe, il sera trs important dintgrer cela au
modle, par exemple par lintermdiaire dune variable t
i
variant entre disons 9h et 19h :
y
i
=
1
+
2
x
i
+
3
f
0
(
t
i
) + +
3+k
f
k
(
t
i
) +e
i
,

t
i
= (t
i
9)/10.
On a maintenant un modle de rgression habituel avec k + 3 rgresseurs (donnes longitudinales). On
aurait pu galement dcouper la journe en parties et introduire un rgresseur symbolique, ce qui revient
au mme que de prendre pour f
0
, ..f
k
des fonctions indicatrices dintervalle, et introduit des discontinuits
assez peu naturelles.
Une autre faon de procder pour fabriquer une base adquate peut tre de partir des donnes elles-
mmes (ou dautres mesures), si elles sy prtent : si lon dispose de mesures dauence prises dans
dirents magasins tout au long de la journe, y
m
(t
j
), o m = 1, . . . M est lindice de magasin et t
j
est
une suite dinstants donns de lintervalle [9, 19], on peut faire une ACP de ces M vecteurs pour en extraire
les composantes principales f
i
(t
j
) dont les premires fourniront une base adapte. Le fait dutiliser les
rponses pour fabriquer les variables explicatives va malheureusement compltement perturber les tests
qui suivront.
15. B.T. Polyak, A.B. Tsybakov, A family of asymptotically optimal methods for selecting the order of a projection
estimator for a regression, Theory Probab. Appl., 37, No 3, pp 471-481, 1992.
16. Comme pour les g
k
, les combinaisons linaires des f
k
fonctions forment un ensemble dense dans lespace des fonctions
continues sur [0, 1] par application du thorme de Stone-Weierstrass ; les h
k
tant essentiellement les primitives des f
k
, on
montre galement la densit.
On peut prfrer aux g
k
des polynmes orthogonaux, ce qui thoriquement ne change rien mais pratiquement donne
typiquement un meilleur conditionnement de X
T
X.
33
II.6 Rgression sur des classes. Segmentation des donnes
Si lhypothse de linarit nest pas satisfaite, on a vu quune solution peut consister ajouter de
nouvelles variables explicatives bases sur les premires (logarithme, etc.)
Loption propose ici est de faire une classication des donnes base sur certaines variables expli-
catives puis faire une rgression dirente sur chaque classe. Cest une pratique assez courante sur les
grands ensembles.
Ceci revient bien entendu faire une rgression globale avec de nouvelles variables explicatives tenant
compte des classes, mais est en pratique plus simple grer.
II.7 Mlange de rgressions
Ce modle
17
consiste considrer que la loi de y est un mlange de gaussiennes gouvern par dirents
paramtres :
y
R
r=1
p
r
N(x
r
,
2
r
).
Ce qui peut galement sinterprter comme un mlange de plusieurs types de donnes, chacun suivant le
modle habituel ; chaque type r a la probabilit p
r
dtre choisi ; par exemple r peut tre la nationalit
dun individu pris au hasard en Europe et p
r
la population relative du pays. Si pour chaque individu r
est observ on peut sparer les donnes en R paquets et lon a simplement R problmes de rgression
habituelle ; on considre ici que r est inconnu, on peut le voir comme une donne manquante.
Ce modle avec R = 2,
1
=
2
et
1
,=
2
a t utilis pour modliser des individus aberrants. Dans
le cas o le rgresseur x ne contient que la constante, x
i
= 1, on retrouve le mlange de gaussiennes.
Mentionnons sans dmonstration que lestimation du modle peut se faire itrativement par la m-
thode EM, ce qui conduit aux quations de restimation :
q
ir

p
r
G(y
i
; x
T
i

r
,
r
)
s
p
s
G(y
i
; x
T
i

s
,
s
)
p
r

1
n
n
i=1
q
ir
r
(X
T
r
X)
1
X
r
y,
r
= Diag(q
1r
. . . q
nr
)
2
r

i
q
ir
(y
i
x
i
r
)
2
i
q
ir
o G(y; ) dsigne la densit gaussienne. Dans cet algorithme, q
ir
reprsente la probabilit a posteriori
(c--d aprs observation des rponses) que la donne i soit du type r. Il faut bien entendu fournir des
valeurs initiales.
II.8 Surparamtrisation, rduction de modle et rponses mul-
tiples
On est dans la situation o il y a un trs (trop) grand nombre de rgresseurs, voire mme plus que
dindividus : par exemple dans [9] lindividu est un certain produit compos (un vin, etc.), le rgresseur
j est la mesure dabsorption de la lumire mise une certaine frquence
j
et la rponse est la fraction
dun produit spcique dans le compos. Deux mesures correspondant deux frquences proches sont
trs corrles. On sintresse en ralit la prsence de plusieurs produits ce qui fait donc plusieurs
rponses.
On considrera ici comme exemple un tableau X 251 individus (des hydrocarbures) et 401 variables
(un spectre)
18
. La gure II.4 montre les spectres pour 4 individus pris au hasard ; la rponse est la
17. K. Viele, B. Tong, Mixtures of Linear Regressions, Technical report, Univ. of Kentucky, 1999,
www.ms.uky.edu/statinfo.
18. Mis librement disposition par Eigenvector Research, Inc., software.eigenvector.com/Data/index.html.
34
temprature de gel. Dans les expriences qui vont suivre, on a recentr les variables et les rponses.
Noter que lon voit bien la corrlation des rgresseurs en raison des frquences proches.
0 40 80 120 160 200 240 280 320 360 400
0.04
0.03
0.02
0.01
0
0.01
0.02
0.03
0.04
0.05
0.06
0 40 80 120 160 200 240 280 320 360 400
7e3
5e3
3e3
1e3
1e3
3e3
5e3
Figure II.4 Spectres NIR de 4 chantillons dhydrocarbure avant et aprs recentrage.
Aiji, Tavolaro, Lantz et Faraj prsentent
19
un travail sur des donnes du mme type avec 69 individus
et 2232 variables explicatives (longueurs donde). P. Bastien
20
travaille sur 40 individus (sujets) et 1800
variables (taux dexpression de 1800 gnes).
Donnons un autre exemple de situation plusieurs rponses cit dans [4] : les rponses sont 6 ca-
ractristiques dun polymre en sortie dun racteur et les rgresseurs sont 21 tempratures en divers
endroits du racteur et la vitesse de production ; il y a 26 individus.
Autre exemple : les rgresseurs sont des variables cologiques (activit humaine, caractrisations du
milieu, etc.) et les rponses sont des mesures de densit despces.
Une rgression OLS prenant tous les rgresseurs en compte aura un trs petit et des performances
trs mauvaises sur dautres donnes (surparamtrisation, cf II.5). Il y a essentiellement deux appoches :
Chercher des modles possdant moins de paramtres. Ils seront obtenus en remplaant les r-
gresseurs par un petit nombre de combinaisons linaires de ces derniers, de prfrence
assez dcorrles (empiriquement). Le choix entre les dirents modles possibles peut se faire
ensuite avec des mthodes utilisant par exemple la validation croise.
On observe quun petit sacrice sur le RSS augmente considrablement le choix des possibles :
lensemble : RSS() (1 +)RSS(
) est trs gros ; lide est alors dimposer des contraintes

sur de sorte diminuer fortement sa norme sans modier sensiblement le RSS.
Il faut bien voir que les mthodes qui suivent nont pour but que de proposer dautres modles (comme le
fait par exemple la mthode descendante) mais nont pas toujours de justication thorique particulire.
Pour des exemples dutilisation pratique, voir [6, 9, 4].
II.8.1 Analyse en composantes principales (acp)
Une acp de X transforme cette matrice en une matrice X
= XW dont les colonnes sont orthonormes

(composantes principales). Elle est parfois complte par une rotation supplmentaire an daugmenter
le contraste entre les variables (mthode varimax).
Bref rappel. La matrice W = [w
1
. . . w
n
] est orthogonale et sa j
colonne (axe principal) est :

w
j
= arg max{Xw : w = 1, Xw, Xw
i
= 0, i = 1, . . . j 1}.
Les w
i
sont les vecteurs propres de X
T
X et la mthode numrique recommande pour faire lacp est la
svd qui permet dcrire X = UDV
T
(cf la note page 30), puis X
= UD, W = V .
Les colonnes de X sont gnralement recentres (les composantes principales Xw
i
sont alors dcorrles),
et trs souvent normes 1.
Posons X
a
= XW
a
= X[w
1
. . . w
a
]. Les modles proposs utilisent les a premires composantes :
y = X
a
+u, X
a
= (x
ij
)
1in,1ja
.
19. Apport du boostrap la rgression PLS Oil & Gaz Science Technology Rev. IFP, Vol.58 (2003), No 5, pp. 599-608
20. Modle Cox-PLS : application en transcriptonique, LOral Recherche
35
II.8.2 Moindres carrs partiels (pls)
Vu lobjectif nal, on peut trouver injuste que le calcul des composantes principales soit fait indpen-
damment des rponses ; do la mthode pls, essentiellement utilise dans le cas de plusieurs rponses,
surtout des ns de prdiction. Lide est de choisir dabord les combinaisons linaires des rgresseurs
les plus corrles aux rponses. La rfrence [18] dcrit la mthode et ses variantes. Breiman et Friedman
proposent dans [4] une discussion approfondie des direntes mthodes utilises dans le cas de plusieurs
rponses ; leurs conclusions sur le pls sont plus que mitiges.
De mme que pour lacp, les colonnes de X seront gnralement centres ce qui fait que les produits
scalaires apparaissant dans la suite sont des covariances empiriques, mais ce nest pas ncessaire.
Dans le cas de rponses multiples, chaque y
i
est un vecteur ligne, si bien quon a une matrice Y et un
espace vectoriel Y engendr par les colonnes de Y . La mthode de rgression linaire fonctionne comme
avant avec

= (X
T
X)
1
X
T
Y,

Y = X
, et

est la matrice qui contient les rsultats des rgressions
linaires faites sparment pour chaque colonne de Y .
Notons que si Y a plus de colonnes que X (penser un trs grand nombre de mesures), ou tout du
moins plus de colonnes que le nombre nal de rgresseurs, le vecteur (ligne) y appartiendra un sous-
espace de dimension infrieure sa longueur, do lide quon aura extrait au passage des composantes
principales sur les rponses galement.
La mthode pls (cf [18] p.141) consiste calculer la paire de vecteurs de X et Y de plus grande
covariance (sous une contrainte particulire) puis orthogonaliser X ce vecteur (on retire donc chaque
colonne de X sa prdiction par ce rgresseur, cette matrice sera note X
a
dans la suite, X
0
= X) et
recommencer (noter que si au lieu de la covariance on maximise la corrlation, la premire composante
que lon rcupre est le y de la rgression linaire habituelle et lalgorithme sarrte) ; lalgorithme est,
avec X
0
= X, a = 1, 2, . . . :
(w
a
, u
a
) = arg max
u,w
X
a1
w, Y u : |u| = 1, |w| = 1
t
a
= X
a1
w
a
/|X
a1
w
a
| (nouvelle composante orthogonale)
X
a
= X
a1
t
a
(t
T
a
X
a1
) (orthogonalisation des colonnes t
a
)
noter que lorthogonalisation des colonnes de X peut se faire pas pas car les t
a
sont orthogonaux.
La rsolution en (w, u) donne pour w le vecteur propre de X
T
a1
Y Y
T
X
a1
associ la valeur propre
maximale (vecteur singulier maximal droite de Y
T
X
a1
; si Y est un vecteur cest X
T
a1
Y )
21
.
Comme t
1
, . . . t
a
et Xw
1
, . . . Xw
a
engendrent le mme espace (vrier !), on choisira ces derniers
comme nouveaux rgresseurs, soit en posant W
a
= [w
1
, . . . w
a
] :
X
a
= XW
a
a
= (X
a
T
X
a
)
1
X
a
T
Y
Y
a
= X
a
ce qui permet de faire la prdiction partant dun nouvel individu :
y
a
= xW
a
a
.
Autre point de vue. On peut trs bien rcrire le problme doptimisation de manire quivalente :
(w
a
, u
a
) = arg max
u,w
Xw, Y
a1
u : |u| = 1, |w| = 1
o Y
a
= (1 T
a
T
T
a
)Y et T
a
= [t
1
, . . . t
a
], car X
a
= (1 T
a
T
T
a
)X. On cherche chaque tape le vecteur
Xw de X de plus grande covariance avec les rsidus de prdiction des rponses base sur les composantes
prcdentes, sous la contrainte |w| = 1.
Axes principaux en rponse. Si lon retient moins de composantes que la dimension de Y, y
a
sera
combinaison linaire des lignes de

a
, les axes principaux en rponse .
Attention, la validation croise est ici lourde mettre en uvre du fait que les rgresseurs sont calculs
partir des rponses. Il faut donc retirer lindividu avant davoir commenc le pls, puis faire le pls, la
21. Noter au passage lorthogonalit des w
a
: Pour le vrier, remarquer que X
a
w
a
= 0, en dduire par rcurrence que
X
b
W
a
= 0, b a ; par consquent, si b > a, w
a
est dans le noyau de X
T
b1
Y Y
T
X
b1
et donc orthogonal X
b
.
36
rgression et calculer lerreur de prdiction, ceci pour tous choix de nombre de composantes gardes et
tous les individus. En sommant sur les individus on obtient un score de validation croise pour chaque
choix de nombre de composantes. Cest ce qui est fait dans la gure II.5 (gure de gauche) ; dans la gure
de droite on a retir non pas un individu mais 10% pris alatoirement, ceci 60 fois, puis moyenn les
erreurs obtenues. On compare avec lacp, lacp et la rgression tant faite sur lensemble dapprentissage.
Notons galement que fait dutiliser les rponses pour fabriquer les variables explicatives perturbe les
tests de signicativit que lon pourrait faire ensuite, ce qui pousse utiliser la validation croise.
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
PLS
ACP
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
PLS
ACP
Figure II.5 Critres de validation croise sur les donnes dhydrocarbure. Par leave-one-out (
gauche) et par extraction dun paquet alatoire de 10% dindividus test ( droite). En abscisse le
nombre de rgresseurs introduits, colonne de 1 non compte (
_
TSS/n = 4, 27).
II.8.3 Ridge regression
Il ne sagit plus ici de rduire le nombre de rgresseurs mais de faire directement lestimation en
prenant en compte le grand nombre de rgresseurs ; comme au II.5, cette mthode a pour eet de
rduire les coecients de

OLS
( shrinkage ). La mthode de ridge regression propose lestimateur
suivant o le paramtre doit tre estim par validation croise :
R
= (X
T
X +I)
1
X
T
Y.
Cest le qui minimise le SS() sous la contrainte que || pour un certain (dpendant de ).
On peut vouloir prserver certaines colonnes de X (disons les premires) de leet dattnuation, il
sut pour cela dorthogonaliser les autres (aux premires) et de remplacer I par une matrice diagonale
ayant des 1 au dbut et des la n. Ainsi, lorsque tend vers linni on ne fait plus quune rgression
sur les premires colonnes. Sur les donnes dhydrocarbure le meilleur choisi par validation croise
conduit une valeur du critre de 2.39. Le quon trouve est appoximativement la mdiane des termes
diagonaux de X
T
X, qui est galement un centime de la moyenne de ces termes.
Une variante : Mthode Lasso. Il sagit de lestimateur
22
= arg min
|y X|
2
, ||
1
=
p
j=1
[
j
[
o est un paramtre choisir, par exemple par validation croise. On observe que lorsque diminue,
a de plus en plus de coecients nuls. On peut donc voir cette mthode comme un intermdaire entre
la mthode descendante et la rgression ridge. Cet estimateur apparat comme un cas particulier dun
estimateur plus gnral, lestimateur lars
23
pour lequel un algorithme de calcul ecace a t mis au
point. Sur les donnes dhydrocarbures, en utilisant le programme lars disponible sous R et en choisissant
par validation croise, on trouve une valeur du critre de 2,5 avec 25 coecients non nuls ; attention,
ce chire est dicilement comparable aux 11 (en gros) variables choisies par le pls ou lacp car ici il
sagit des variables originales.
22. R. Tibshirani, Regression, shrinkage and selection via the lasso, J. Roy. Statis. Soc. B, 58, 267-288, 1996.
23. B. Efron, T. Hastie, I. Johnstone and R. Tibshirani Least angle regression, Ann. Statist. 32, no. 2, 407-499, 2004.
37
Exercice II.8.3.1 (Validation croise) Vrier que la formule (II.1) reste valide pour

R
si lon remplace
X
T
X par X
T
X+Id (cf lexercice II.2.9.14) puis que lerreur par validation croise est donne par (II.9)
avec h
i
= x
i
(X
T
X +Id)
1
x
T
i
.
Craven et Wahba
24
proposent le critre de validation croise gnralise GCV () = RSS/trace((Id
A
)
1
)
2
o A
= X(X
T
X + Id)
1
X
T
est la matrice telle que A
y = y. Vrier que GCV concide

avec CV si les h
i
sont gaux.
Exercice II.8.3.2 On considre le modle habituel mais avec lhypothse baysienne
N(0, R).
On suppose
connu. La loi lie de y et est gaussienne, et il sensuit que lestimateur baysien avec
risque quadratique (i.e. E[[y]) est aussi lestimateur MAP, c--d celui qui maximise en la quantit
p([y) = p()p(y[)/p(y). Calculer cet estimateur et le comparer lestimateur ridge.
II.8.4 Rgression rang rduit. Curds and whey
Ces mthodes sont surtout intressantes lorsquil y a de nombreuses rponses.
La rgression rang rduit se propose de minimiser |Y X| (norme de Frobenius) sous la contrainte
que a son rang infrieur r donn. On obtient les tapes de calcul suivantes
Y = X
OLS
Q =

Y
T

Y (Y
T
Y )
1
= Y
T
X(X
T
X)
1
X
T
Y (Y
T
Y )
1
Q = T
1
DT (diagonalisation)
OLS
T
1
I
r
T (II.20)
(c--d T est la matrice de passage de la diagonalisation de Q), et I
r
est la matrice o les r plus grands
coecients de D sont mis 1 et les autres 0. r sestime par validation croise.
Breiman et Friedman [4] proposent une mthode ( curds and whey ) base sur un modle o X a
une structure alatoire de vecteurs indpendants. Sans entrer dans les dtails, mentionnons quil obtient
les nouvelles estimes comme combinaisons linaires des estimes OLS pour chaque composante avec la
formule
OLS
((1 )I +Q
1
)
1
=

OLS
T
1
((1 )I +D
1
)
1
T
(La dernire formule permet de faire apparatre lanalogie avec (II.20) par comparaison des fonctions
1
x>
et (1 +x
1
)
1
, 0 x 1, ). Le paramtre doit tre estim par validation croise.
Si lobservation est scalaire,

OLS
est simplement multipli par un facteur infrieur 1.
II.9 Rgression robuste
Il sagit de rsister aux individus aberrants. On estime
par
= argmin
(y
i
x
i
)
o est maintenant une certaine fonction dirente du carr. Pour donner moins de poids aux individus
aberrants, on choisit une fonction croissance moins rapide que x
2
. Typiquement
(u) = u
2
1
|u|
+ (2[u[
2
)1
|u|>
.
Cette fonction vaut u
2
pour [u[ petit, et est dordre [u[ ensuite. Ce choix est justi par des arguments
thoriques prcis ds Huber
25
. Quand = + on retrouve la mthode habituelle, et quand tend
vers 0, (u)/ tend vers 2[u[, et lon retrouve la rgression l
1
:
= argmin
[y
i
x
i
[.
Exercice. Montrer que lestimation de
en rgression robuste peut sinterprter commme le maximum

de vraisemblance sous le modle habituel, mais en modiant la distribution de u.
24. P. Craven, G. Wahba, Smoothing noisy data with spline functions. Estimating the correct degree of smoothing by
the method of generalized cross-validation, Numer. Math. 31 (1978/79), no. 4, 377403.
25. P.J. Huber,Robust Statistics, Wiley, 1981.
38
III
Rgression linaire gaussienne,
diagnostic et tests
III.1 Proprits statistiques fondamentales des estimateurs
III.1.1 Modle statistique et estimateurs
Cest le mme que celui de la section II.2 sauf que les u
i
sont supposs gaussiens :
, de
> 0 tels que

y N(X
,
2
I).
En dautres termes, y
i
= x
i
+ u
i
et les u
i
sont indpendants gaussiens centrs de variance
2
. En
pratique on pourra conforter cette hypothse en faisant un test de normalit sur les u
i
.
= (
,
2
) est un estimateur sans biais de (
,
2
), cf II.2.2. On va voir que la variance de

2
est
2
4
/(n p). Il est facile de vrier que lestimateur au maximum de vraisemblance de
est

MV
=
(
,
np
n

2
).
III.1.2 Proprits de base des variables gaussiennes
Ce paragraphe a pour but de rappeler des proprits lmentaires des vecteurs gaussiens. On ne
dtaillera pas les dmonstrations.
13 - Dfinition
U est un vecteur alatoire gaussien sur R
n
ssi pour tout vecteur a R
n
, la variable alatoire
a, U est gaussienne.
On peut montrer que si la matrice de covariance R de U est dnie positive, U a une densit (par rapport
la mesure de Lebesgue) qui sexprime en fonction de la moyenne et de R comme suit :
p(u) =
1
_
(2)
n
det(R)
exp
_
1
2
(u )
T
R
1
(u )
_
.
Une des proprits fondamentales des vecteurs gaussiens est lquivalence entre indpendance et non-
corrlation (elle est fausse pour les vecteurs de variables gaussiennes, cf lexercice III.1.4.2) :
14 - Thorme
Soient V et W deux vecteurs alatoires tels que U =
_
V
W
_
forme un vecteur gaussien. Si
V et W sont dcorrls, alors ils sont indpendants.
39
Ce rsultat est simple vrier si R > 0 car lhypothse sur U implique que R est bloc-diagonale avec
un bloc correspondant V et un bloc correspondant W ; il sensuit que la densit de U se factorise en
p(u) = p
1
(v)p
2
(w), ce qui implique lindpendance.
Il est bon de voir que les vecteurs gaussiens sexpriment toujours comme combinaisons de v.a. gaus-
siennes indpendantes :
15 - Proposition
Soit U N(, R) de dimension n, alors il existe un vecteur gaussien centr rduit V N(0, I)
de dimension m =rang(R) et une matrice de dimension n m, tels que
U = V +,
T
= R.
Si R est inversible prendre par exemple V = R
1/2
(U ) ; sinon crire R = PDP
T
o P est n m
avec P
T
P = I et D diagonale positive, puis poser V = D
1/2
P
T
(U ), = PD
1/2
(remarquer que
V ar((I PP
T
)U) = 0).
On utilisera fortement dans la suite la proposition suivante dont la dmonstration est lapplication
des rsultats prcdents (cf exercice III.1.4.3) :
16 - Proposition
Soit U N(, Id). Soient A
i
, i = 1, . . . q, des matrices de projection orthogonale de dimension
n. Alors
Si A
i
A
j
= 0 pour tous i ,= j, alors les variables A
i
U sont indpendantes et donc galement
les U
T
A
i
U.
Si = 0, alors U
T
A
i
U suit une loi de
2
r =rang(A
i
) =trace(A
i
) degrs de libert.
En particulier si U N(,
2
Id), alors deux projections de U sur deux espaces orthogonaux sont ind-
pendantes.
III.1.3 Loi de probabilit des estimateurs
On peut passer maintenant aux consquences pour les estimateurs :
17 - Thorme
Sous lhypothse y N(X
,
2
I) :

N(
,
2
(X
T
X)
1
)
(n p)

2

2
np
.

et
2
sont indpendants.
Dmonstration. En eet

= (X
T
X)
1
X
T
u et
2
= (np)
1
|Ku|
2
(notations de la proposition 5).
Lindpendance vient donc de la dcorrlation de X
T
u et Ku.
On montre galement que

= (
,
2
) est un estimateur de variance minimale dans la classe des
estimateurs sans biais.
III.1.4 Exercices
Exercice III.1.4.1 Vrier que la vraisemblance de lchantillon aprs estimation au maximum de vrai-
semblance, i.e. la densit de la gaussienne de moyenne X
et de variance
2
MV
I applique (y
1
, . . . y
n
),
est
p(y
1
, . . . y
n
) = (2e
2
MV
)
n/2
.
40
Exercice III.1.4.2 Soit U une variable N(0, 1) et X un jeu de pile ou face quiprobable (P(X = 1) =
P(X = 1) = 1/2) indpendant de u. Montrer que V = XU est N(0, 1) et que U et V sont dcorrls
mais pas indpendants (pour ce dernier point on pourra calculer E[U
2
V
2
]).
Exercice III.1.4.3 Le but de cet exercice est la dmonstration de la proposition 16. On rappelle que
les matrices de projection orthogonale sont exactement les matrices symtriques P telles que P
2
= P.
1. Dmontrer le premier point.
2. (a) Montrer que si U N(0, Id) est Q est une matrice orthogonale, alors QU N(0, Id).
(b) En dduire le dernier point en diagonalisant A.
Exercice III.1.4.4 On se donne le modle y = X
+ u o les u
i
sont i.i.d de loi de densit
e
|u|/
du/(2
). Exprimer la vraisemblance des observations pour une paire donne (, ), et donner

lexpression de lestimateur au maximum de vraisemblance de quand
est connu.
III.2 Analyse de lestimateur
III.2.1 Dtermination dintervalles de conance
Rappelons que la loi de Student de paramtre k est celle de X/
_
Y/k o X est une gaussienne centre
rduite et Y un
2
k
indpendant. La loi de Fisher-Snedecor (k, l) est celle de (X/k)/(Y/l) o X
2
k
et
Y
2
l
sont indpendants.
On dsignera par t
k
(.) et f
kl
(.) les fonctions quantile de ces distributions.
Comme consquence immdiate du thorme 17 et de la proposition 16, on a les proprits suivantes
18 - Proposition
Sous lhypothse y N(X
,
2
I) :
Pour tout j = 1, . . . p, la variable alatoire
T
j
=
j
(
j
)
suit une loi de Student de paramtre n p ( (
j
) est lerreur standard de

j
, cf II.2.2).
Pour tout vecteur u, la variable alatoire
T
u
=
u
T

u
T
(u
T
)
, (u
T

)
2
=
2
u
T
(X
T
X)
1
u
suit une loi de Student de paramtre n p.
Soit q < p et L une matrice q p de rang q, la v.a
F =
1
q
2
(
)
T
L
T
_
L(X
T
X)
1
L
T
_
1
L(
)
suit une loi de Fisher-Snedecor de paramtres (q, n p)
Les deux premiers points sont une consquence du thorme 17 ; pour le troisime, noter que la variable
_
L(X
T
X)
1
L
T
_
1/2
L(
) suit la loi N(0,

2
Id
q
), ce qui fait que le numrateur est un
2
fois un
2
q
.
Un intervalle de conance. En raison de la symtrie de la loi de Student on a P([T
j
[ < t
np
(1/2)) =
1 . On obtient donc un intervalle de conance de probabilit de conance 1 pour le coecient
j
_
j
,

j
+
_
, = (
j
) t
np
(1 /2) (III.1)
Une rgion de conance. De la mme faon la relation P(F < f
q,np
(1 )) = 1 se rcrit
P(L
) = 1 o
R
=
_
R
q
: |L
|
2
[L(X
T
X)
1
L
T
]
1 q
2
f
q,np
(1 )
_
(on note |x|
S
= x
T
Sx) qui est donc une rgion de conance de probabilit de conance 1 pour le
vecteur L
.
On obtient une rgion de conance pour (
j
1
, . . .
j
q
) si L est la matrice de selection q p telle que
L = (
j
1
, . . .
j
q
).
41
III.2.2 Rappels sur les tests dans le cadre paramtrique gnral
On supposera que lon a un modle paramtrique P
, , pour un ensemble de donnes Y =

(y
1
, . . . y
n
), et que lon cherche dcider entre H
0
:

0
et H
1
:

1
, avec
0

1
=
(dans le cas gnral non paramtrique H
0
et H
1
sont deux ensembles de lois de probabilit candidates
pour Y ).
On sintressera en particulier au cas o H
1
=non-H
0
, i.e.
0

1
= ; si H
0
=
=
0
(
0
rduit un singleton) on dit que H
0
est simple. Lide est que celui qui met le test en uvre cherche
convaincre de la vracit de H
1
.
Un test = (Y ) 0, 1 dcidant entre les hypothses H
0
et H
1
est de niveau (petit) ssi :
toujours sous H
0
, P( = 1) .
La probabilit derreur de premire espce (choisir H
1
tort) est au plus gale . Un faible niveau
est donc seulement une garantie que H
1
sera accepte bon escient. Par exemple le test qui choisit
systmatiquement H
0
a un niveau gal zro (mais aucun intrt). Limportance du niveau sillustre par
lexemple type o H
0
est Ce mdicament est sans eet et H
1
: Ce mdicament a un eet positif ;
il est clairement important de ne pas dcider H
1
si H
0
est vraie (mise sur le march dun mdicament
sans eet) ; do le terme de test de signicativit. Mme remarque pour H
0
: Le diesel et le sans
plomb sont aussi polluants et son contraire.
Si en revanche le test dcide H
0
, cest sa puissance qui permet de conclure : On dit que le test est de puissance
1 (proche de 1) ssi la probabilit derreur de deuxime espce est infrieure :
toujours sous H
1
, P( = 0) .
Ce concept nest pas dune grande aide pour les tests dune hypothse contre son contraire, car la puissance vaut
alors typiquement : lensemble H
1
contient des distributions arbitrairement proches de H
0
; sous ces distributions,
le test dcidera H
0
avec probabilit au moins 1 , ce qui implique puissance infrieure . On dit que le test
est plus puissant que
si :
toujours sous H
1
, P( = 1) P(
= 1).
On dit que le test est UPP (universellement plus puissant) sil est plus puissant que tout autre test de mme
niveau. Cest ce type de test qui est recherch quand H
0
et H
1
contiennent des hypothses arbitrairement proches.
Pour revenir lexemple du mdicament, lorganisme payeur (Scurit Sociale) veut un niveau faible garanti tan-
dis que le laboratoire veut un test puissant. Ces deux exigences ne peuvent tre concilies quavec un minimum
dchantillons.
Mise au point dun test dhypothses. La mthode usuelle consiste utiliser une statistique S(Y )
dont la valeur est plutt faible sous H
0
et grande sous H
1
(p.ex. S(Y ) = |
| si H
1
:
,= 0 , S(Y ) =

si H
1
:
0 ) et rejeter H
0
si S(Y ) est trop grand :
1. Choisir une statistique S(Y ) dont la loi est toujours la mme sous H
0
(statistique pivotale ) ; la
puissance sera dautant meilleure que S(Y ) sera grande sous H
1
.
2. Se donner un niveau .
3. Rejetter lhypothse si la valeur de S est draisonnablement grande :
Rejeter H
0
si S(Y ) > Q
S
(1 )
o Q
S
est la fonction quantile de S sous H
0
.
Rejet : la valeur de la statistique carte H
0
(au niveau ) ; choisir H
1
.
Acceptation : rien ne permet dinvalider H
0
. Ex. : on na pas pu prouver lecacit du
mdicament. Si la la puissance est faible (ce qui est souvent le cas), H
0
peut trs bien tre fausse ;
ceci se produit si lon manque de donnes, ou si le test est peu performant, ou si la vraie loi est
proche de H
0
.
Si H
0
est simple, toute statistique est pivotale. Souvent cependant H
0
est multiple et lon ne dispose
pas de statistique pivotale ; pour garantir un niveau , on sera contraint de faire un test de la forme :
Rejeter H
0
si S(Y ) > max Q
S
(1 ) o le maximum est pris sur toutes les distributions de H
0
.
Dans de nombreuses situations pratiques la loi de S sous H
0
nest connue quasymptotiquement
(innit dobservations). Dans ce cas on pourra avoir avantage estimer Q
S
(1 ) sous H
0
par des
simulations ; si le modle est paramtrique, et H
0
est simple H
0
:
=
0
:
1. Simuler N jeux de donnes Y
1
, . . . Y
N
sous
0
(choisir N 1/)
42
2. On estime alors Q
S
(1 ) par un rel sparant les N plus grandes valeurs de S(Y
i
) des
(1 )N plus petites.
Si maintenant H
0
nest pas simple, on peut reprendre cette mthode en utilisant cette fois-ci

0
, lestime
de
sous H
0
pour faire les simulations ( . . . au lieu de faire le max sur tous les de H
0
comme il
faudrait en toute rigueur). Cette mthode peut se justier mathmatiquement si la statistique S est
asymptotiquement pivotale.
Dualit tests/intervalles de conance. On estime un paramtre vectoriel caractrisant la loi des
donnes. Si lon dispose dun domaine alatoire I (typiquement de la forme I = : [
[ ) tel que
pour tout , P
( I) 1 , alors le test
I
qui accepte lhypothse
=
0
ssi
0
I a un niveau
infrieur (vrication immdiate). Notons que son niveau et sa puissance sont fonction croissante de
I (car
I

I
si I I
).
Rciproquement si lon dispose pour tout
0
dun test (
0
) de niveau au plus entre H
0
:
=
0

et H
1
:
,=
0
, alors lensemble alatoire
I =
0
: H
0
est accepte
est dit rgion de conance de probabilit de conance 1 et
P
0
(
0
I) = P
H
0
( = 0) 1 .
Exemple : Test de nullit dun coecient
j
. En vertu de la proposition 18, la statisique T =
[
j
[/ (
j
) est pivotale pour H
0
:
j
= 0 (la loi de T sous H
0
est indpendante de
et des autres
k
), et lon a le test de niveau pour dcider que
j
est signicativement dirent de zro (cf III.1) :
[
j
[
(
j
)
t
np
(1 /2).
On prsente souvent les rsultats dune rgression avec un tableau contenant les niveaux de signication
de ces hypothses (test de type III, procdure summary de R ou S+). Donnons par exemple le cas de la
prdiction de la consommation des voitures
1
en fonction des variables Volume, Puissance et Poids
(un trac rponses/rgresseurs fait prfrer la variable P2 qui est le carr du poids)
Estime (
j
) cart-type ( (
j
)) t-stat Pr(>|t|)
Volume -7,2 e-6 1,7 e-5 -0,42 0,67
P2 1,5 e-5 1,26 e-6 12 < 2 e-16
Puissance 4,6 e-5 1,13 e-5 4,1 0,0001
Table III.1 Table danalyse des coecients (82 individus). La colonne t-stat contient la statis-
tique de student, rapport des deux premire colonnes.
o la dernire colonne contient
j
solution de
[
j
[ = (
j
) t
np
(1
j
/2)
qui sinterprte comme la probabilit sous H
0
:
j
= 0 dobserver une valeur de T au moins aussi
grande. Lhypothse H
0
est refuse si
j
est infrieur au niveau (par exemple = 5%), c--d si [
j
[
appartient un intervalle de [x, +[ de probabilit 5% sous H
0
. Dans ce cas
j
est signicativement
non-nul. Ici le volume na pas dinuence signicative sur la consommation lorsquon connat les deux
autres variables.
Interprtation : On va voir au paragraphe suivant que
j
est directement li la dirence de RSS
entre le modle original et le modle sans la j
variable explicative.
j
sinterprte donc galement comme
une mesure de lamlioration de la prdiction due lintroduction du j
rgresseur aprs tous les autres.

Un grand
j
ne signie cependant pas que les rponses sont (presque) indpendantes du j
rgresseur,
car ce dernier peut tre fortement corrl aux autres, cest le problme des facteurs proches (ou encore
de la colinarit) : Si dans lexemple on rajoute comme rgresseur la vitesse maximale de la voiture, la
puissance semble alors non signicative :
1. Heavenrich, Murrell, and Hellman, Light Duty AutomotiveTechnology and Fuel Economy Trends Through 1991,
U.S., Environmental Protection Agency, 1991 (EPA/AA/CTAB/91-02). Disponible par Internet sur DASL.
43
Pr
Volume 0,63
P2 < 0,0001
Puissance 0,83
Vitesse 0,7
Mme si sur certaines donnes on doute de la validit du modle (rsidus gaussiens . . .) et que lon ne
dsire pas interprter les p-values
j
au pied de la lettre, ces dernires peuvent toujours tre considres
comme des instruments de mesure qui rsument au mieux linformation dintrt, au sens leur calcul
respecte toutes les rgles de normalisation fondamentales dduites du modle gaussien.
III.2.3 Test de Fisher
On vient de voir comment le test de nullit dun coecient permet dtudier la signicativit dune
variable explicative. Malheureusement, si cette variable est symbolique (qualitative) elle interviendra dans
plusieurs coecients ; il faut donc tre capable de tester la nullit simultane de plusieurs coecients.
On est donc conduit tester H
0
: L
= l o l = 0 et L est ici une matrice dont chaque ligne contient

exactement un 1 et p 1 zros. Cest ce que font les tests de type 1 et 3 des logiciels par opposition
aux tables danalyse des coecients qui considrent chaque modalit sparment (nous y reviendrons au
III.4.3).
Test de Fisher. Soit L R
qp
, l R
q
, le test de Fisher de niveau pour H
0
: L
= l est l R
,
soit
|L
l|
2
[L(X
T
X)
1
L
T
]
1 q
2
f
q,np
(1 )
Il existe une rcriture du membre de gauche qui savre trs utile (encadr ci-dessous) ; elle est base
sur le lemme suivant dmontr lexercice II.2.9.12 :
19 - Lemme
Soit

0
lestimateur de
aux moindres carrs sous la contrainte L = l, et y

0
= X
0
. On a
(L
l)
T
_
L(X
T
X)
1
L
T
_
1
(L
l) = | y y
0
|
2
= | y
0
y|
2
| y y|
2
= RSS
0
RSS.
Le test de Fisher prsent plus haut quivaut donc
Rejeter H
0
si
(RSS
0
RSS)/(p p
0
)
RSS/(n p)
> f
q,np
(1 )
o RSS
0
est le rsidu calcul sous H
0
, et p
0
= p q le nombre de paramtres du modle sous H
0
. Ce
test gnralise les tests de Student du paragraphe prcdent (et les crit dune faon dirente).
Sous H
0
, les statistiques
RSS
0
RSS
et
RSS
sont des
2
q
et
2
np
indpendants
en vertu du thorme de Cochran. Le numrateur de la statistique de Fisher vaut galement ESSESS
0
et peut sinterprter comme un terme d lcart entre H
0
et H
1
dans la dcomposition de la variance
TSS = (ESS ESS
0
) +ESS
0
+RSS
la statistique ne faisant que mesurer limportance relative de cette partie de variance explique. Sous H
0
ces trois termes sont indpendants, nous en laissons la vrication en exercice.
Un lien avec le rapport de vraisemblance est dtaill lexercice III.2.5.8.
Ce test possde des proprits doptimalit et dinvariance que nous ne dtaillerons pas ici
2
.
2. Voir par exemple la page 46 du livre de H. Sche :The Analysis of Variance,Wiley, 1970.
44
Le test de Fisher peut tre ralis sous R avec la commande lht de la bibliothque car.
Interprtation : Soit F =
(RSS
0
RSS)/(pp
0
)
RSS/(np)
la statistique de Fisher. On prsente le rsultat du test en
donnant la valeur critique du seuil = 1 F
pp
0
,np
(F), o F
pp
0
,np
est la fonction de rpartion de la
loi de Fisher-Snedecor de paramtres pp
0
et np (comme la table III.1). Lhypothse H
0
: L
= l
est refuse si est infrieur au niveau
0
(par exemple
0
= 5%), c--d si F appartient un intervalle
de [f
, +[ de probabilit 5% sous H
0
, c--d, est anormalement grande sous H
0
(RSS petit).
Test de nullit de
. On teste la nullit des coecients dindice suprieur ou gal 2 :

(n p)ESS
(p 1)RSS
f
p1,np
(1 ).
La table danalyse de variance (ANOVA) rsume la situation sous un format traditionnel o est
donne la valeur critique de :
SS d.l. F-stat Pr
Modle ESS p 1 F =
(np)ESS
(p1)RSS
1 F
p1,np
(F)
Rsidu RSS n p
Total TSS n 1
Table III.2 Table danalyse de la variance. F
p1,np
est la fonction de rpartion de la loi de
Fisher-Snedecor de paramtres p 1 et n p. Lhypothse H
0
:
i
= 0, i 2 est refuse si Pr
est infrieur au niveau (par exemple = 5%). La colonne d.l. contient les degrs de libert des
statistiques (SS) qui sont des
2
sous H
0
.
Test de nullit partielle de niveau pour dcider si (
j
1
, . . .
j
q
) est signicativement non-nul :
(RSS
q
RSS)/q
RSS/(n p)
f
q,np
(1 ). (III.2)
o RSS
q
est lerreur rsiduelle du modle estim sous la contrainte que les
j
i
sont nuls. L est ici la
matrice de slection des composantes. Ce test est utilis dans le cas dune variable qualitative plus de
deux modalits.
On peut vrier que ce test peut galement sinterprter comme un test de corrlation partielle
entre les rponses et les variables ajoutes sachant les rgresseurs du modle sous H
0
. En particulier si
lon na quun rgresseur que lon teste contre la constante seule, p = 2, q = 1, la statistique de Fisher ne
fait intervenir que la corrlation empirique entre x et y (cf la formule II.3).
Non-monotonicit des tests. Dans lexemple prcdent, si lon teste H
0
: Volume=0 contre le
modle complet on trouve une p-value de 0,63 (cest le rsultat du test de Student dj vu), si lon
teste H
0
: Vitesse=0 contre le modle complet on trouve une p-value de 0,67 et si lon teste H
0
:
Volume=Vitesse=0 on trouve une p-value de 0,85. Cest--dire quon accepte plus facilement Vo-
lume=Vitesse=0 que Volume=0 ou que Vitesse=0!
Ceci vient du fait quimposer Vitesse=0 (ou Volume=0) change trs peu RSS tandis que le
changement dans le nombre de degrs de liberts va du coup favoriser lhypothse plus complique.
III.2.4 Slection des variables
Il sagit de choisir les variables les plus signicatives, lide tant dliminer les rgresseurs dont la
contribution la prdiction, sur de nouvelles donnes, sera probablement nulle. Une mthode serait
de tester, au vu de

j
et de (
j
) si
j
est signicativement nul ou non, et dliminer le rgresseur
correspondant. Cette mthode ne convient cependant pas car si par exemple deux rgresseurs sont trs
proches (la puissance de la vitesse de la page 43), un seul sut :
y
i

1
+
2
x
2
+
3
x
3

1
+ (
2
+
3
)x
2
mais cet algorithme liminera probablement les deux car (
2
) et (
3
) sont trs grands. Les hypothses
2
= 0 et
3
= 0 peuvent tre acceptes sparment sans que
2
=
3
= 0 le soit.
45
On prfre gnralement La mthode descendante part du modle qui ajuste y
i
avec tous les
rgresseurs et lon obtient une certaine erreur quadratique RSS. Pour chacun des rgresseurs on calcule
la valeur du RSS
correspondant son retrait du modle et lon choisit celui, disons k

1
, pour lequel le
rsidu est le plus petit. Ceci revient liminer celui dont le
j
est le moins signicativement non-nul
dans la table danalyse des coecients. On a alors un ajustement de la forme
y
i

k=k
1
k
x
k
.
Noter que les

k
ont tous chang depuis le premier modle. On choisit ensuite la variable retirer parmi
les p 2 restantes en minimisant nouveau le rsidu obtenu, etc.
On sarrte quand la dtrioration est juge statistiquement signicative ; ceci se fait simplement avec
le test de Fisher (quation (III.2)) :
Sarrter si (n k)
RSS
k1
RSS
k
RSS
k
f
1,nk
(1 )
o RSS
k
est le rsidu obtenu par le modle k variables explicatives. Cest--dire lorsque les coecients
sont tous signicatifs au niveau . Lorsquil y a des variables qualitatives, leur retrait correspond au
retrait de plusieurs colonnes et lon compare donc en ralit un RSS
kq
un RSS
k
laune dun
f
q,nk
(1 ).
On met parfois cette mthode en uvre en vriant aprs chaque tape que les rgresseurs limins
sont encore inutiles en faisant k 1 tests de Fisher.
La mthode ascendante raisonne de manire similaire mais en introduisant les rgresseurs un un.
Elle est plus risque car lhypothse H
1
est fausse depuis le dbut, ce qui peut conduire un arrt prcoce
mme dans une situation o les tests sont puissants, et rend plus hasardeuse la slection des rgresseurs
ajouts.
Facteurs proches, colinarit. Il est essentiel de bien comprendre que si deux colonnes de X sont
proches mais utiles pour la prdiction, la mthode descendante en rejetera une assez vite (car elle est
redondante) pour garder lautre longtemps. Une conclusion htive est de dire que le premier facteur nest
pas signicatif tandis que le second lest. Cest videmment inexact.
Par exemple si lon veut tudier le taux de frquentation du mdecin en fonction des deux variables
ge et sexe et que les individus sont des jeunes femmes et des hommes vieux, il est clair que le
plan dexprience est mauvais, et lon ne pourra pas dmler linuence de lge de celle du sexe.
Cest pour cela quil est trs avantageux davoir une matrice X la plus orthogonale (en colonnes)
possible (valeurs propres de X
T
X presque toutes gales), cest--dire un bon plan dexprience.
Utilisation de critres. Une autre direction qui est utilise pour choisir son modle consiste minimiser
un RSS pnalis (puisque minimiser le RSS conduit automatiquement au modle le plus compliqu). On
a dj vu le critre de validation croise
CV
, II.2.9.10. Il en existe deux autres trs classiques
AIC = nlog(RSS) + 2p
BIC = nlog(RSS) +p log(n)
o n est le nombre dindividus et p le nombre de variables. AIC est le rsultat de lestimation de lerreur
de prdiction qui serait faite sur un nouvel chantillon (cest donc essentiellement un concurrent
CV
).
On peut dire que la tendance globale est que BIC aura tendance choisir un modle trop parcimonieux
tandis que AIC aura la tendance inverse. Il nest pas rare de voir AIC ajouter des variables juges non
signicatives 5% par le test de Fischer.
Ceci permet en thorie de comparer les 2
p
modles possibles ; cest malheureusement un principe gn-
ralement trop dicile mettre en uvre, pour des raisons techniques
3
et aussi pour des raisons thoriques
car essayer un trop grand nombre de modles peut conduire encore un phenomne dovertting.
Lutilisation de ces critres, plutt que des statistiques de Fisher, nest pas particulirement recom-
mande car les mesures de signicativit ont disparu : on travaille laveugle. Ils sont en revanche
pratiques pour comparer des modles non embots, voir les dtails dans lappendice B.
3. Lalgorithme de Furnival et Wilson (1974) est une mthode astucieuse pour faire la comparaison exhaustive moindre
cot. Il est par exemple dcrit dans le rapport de Ni et Huo Regressions by enhanced leaps and bounds via optimality
tests, http://www2.isye.gatech.edu/statistics/papers/06-05.pdf
46
III.2.5 Exercices
Exercice III.2.5.1 Test de Chow. Le modle est
y
t
= a
k
+b
k
x
t
+u
t
, t = 1, . . . 2T
avec k = 1 pour t T, et k = 2 aprs. Cette quation modlise par exemple un changement de rgime
dans des donnes mesures au cours du temps.
1. Mettre ce modle sous la forme y = X +u pour un X bien choisi.
2. En dduire un test de H
0
: (a
1
, b
1
) = (a
2
, b
2
) contre son contraire (on donnera L et l).
Exercice III.2.5.2 On est dans le cadre linaire gaussien habituel. Soit
0
une valeur nominale donne.
Proposer un test pour H
0
:
=
0
contre H
1
:
>
0
(on pourra, si lon prfre, choisir dabord
la forme du test au vu des hypothses tester puis dterminer ensuite le seuil).
Exercice III.2.5.3 On mesure le taux de cholesterol dindividus de trois groupes de taille n
1
, n
2
et n
3
,
de sorte que lon a en tout n = n
1
+n
2
+n
3
individus. Proposer une mthode pour tester si lorigine des
individus (c--d leur groupe) inue sur leur taux de cholestrol.
Exercice III.2.5.4 On considre le modle
y = X +u, =
_
_
3
_
_
.
On considre les hypothses H
0
:
2
=
3
= 0 et H
1
:
3
= 0 . On note RSS
0
, RSS
1
et RSS
2
les
rsidus calculs respectivement sous les hypothses H
0
, H
1
et le modle complet, et

et les estimes
sous le modle complet. Trouver la loi sous H
0
de la statistique
(RSS
0
RSS
1
)/q
RSS
2
/(n p)
o p est la dimension de et q celle de
2
. On commencera par remarquer que RSS
0
RSS
1
est fonction
de

(cf lemme 19), et que RSS
2
est fonction de .
En dduire un test de H
0
contre H
1
.
Exercice III.2.5.5 Une estimation OLS 40 individus donne les rsultats suivants (
1
est le coecient
du rgresseur constant) :
=(32 8 4 1)
T
RSS =18
TSS =80
(X
T
X)
1
=
_
_
_
_
20
1 1
2 1
4
_
_
_
_
.
Tous les test seront faits avec un seuil de conance de 95%. On pourra utiliser les valeurs suivantes des
quantiles de la loi de Fisher-Snedecor
f
2,36
(0, 95) 3, 27, f
3,36
(0, 95) 2, 87, f
4,32
(0, 95) 2, 67
et ceux de la loi de Student
t
36
(0, 975) 2, 03, t
36
(0, 95) 1, 69.
1. Calculer un estimateur sans biais de
2
.
2. Faire pour chaque rgresseur le test de nullit du coecient.
3. Faire le test de nullit simultane de tous les coecients, sauf
1
.
4. Faire le test H
0
:
2
+
3
= 7 contre H
1
:
2
+
3
< 7 .
On basera le test sur la statistique S = (7

3
)/ , = (7

3
).
47
5. Faire le test H
0
:
2
+
3
= 7 contre son contraire en utilisant S. Quobserve-t-on ?
6. Faire le test H
0
:
3
=
4
= 0 contre son contraire.
7. Sur les 20 premires observations on a obtenu
y
i
= 35 + 6x
i1
2x
i2
2x
i3
, RSS = 7
et sur les 20 dernires
y
i
= 29 + 9x
i1
5x
i2
3x
i3
, RSS = 6.
Peut-on considrer que na pas chang ? On pourra sinspirer de lide dveloppe dans lexer-
cice III.2.5.1.
Exercice III.2.5.6 (IC en prdiction). On considre le modle habituel sur lequel on a obtenu
une estime

de
. On cherche un intervalle de conance pour x
et y
o (x
, y
) est une paire

rgresseur/rponse satisfaisant le modle.
1. Soit h = x
(X
T
X)
1
x
T
. Quelle est la loi de (x
)/ h
1/2
?
En dduire un intervalle de conance I(x) centr en x
et de niveau pour x
.
2. Quelle est la loi de (x
)/
1 +h ?
En dduire un intervalle de conance centr en x
et de niveau pour y
.
Exercice III.2.5.7 (IC simultans en prdiction). Lintervalle de conance de lexercice prc-
dent satisfait P(x
I(x
)) 1 , mais si lon veut des prdicteurs pour plusieurs rgresseurs

simultanment, par exemple x
et x
, et sans faire baisser le niveau, il faudrait pouvoir assurer

P(x
I(x
) et x
I(x
)) 1
qui nest pas satisfait. La suite de lexercice propose une solution ce problme.
1. Soit Q une matrice carre telle que QQ
T
= (X
T
X)
1
. Montrer quil existe une variable normale
standard indpendante de telle que

Q.
2. Montrer que |xQ|
2
(x
)
2
est major un facteur prs par un
2
p
indpendant de x.
3. Montrer que
J(x) = [x
(x), x
+(x)],
2
= p
2
(x(X
T
X)
1
x
T
)f
p,np
(1 )
est un intervalle de conance uniforme en x de niveau , c--d que pour toute valeur de
P(x, x
J(x)) 1 .
Exercice III.2.5.8 (Lien avec le rapport de vraisemblance) Vrier que la statistique du test de
Fisher vaut
n p
p p
0
(
2/n
1) (III.3)
o est le rapport de vraisemblance P(y)/P
0
(y), calcul avec les estimateurs au maximum de vraisem-
blance.
On pourra comparer cette statistique avec celles prsentes lannexe A (faire n grand).
III.3 Analyse des rsidus. Mesures dinuence
Lapproche la plus simple est le trac de lhistogramme des rsidus, qui permet de conrmer lhypo-
thse gaussienne et galement de dtecter des individus qui ne suivent pas le modle (rsidus anormale-
ment grands). On peut toutefois faire une tude plus prcise. Rappelons que la loi de u
i
est N(0, (1h
i
)
2
)
(car u = Ku, cf lexercice II.2.9.9).
48
20 - Dfinition
On appelle rsidus studentiss les estimateurs centrs rduits des erreurs
r
i
=
y
i
y
i

1 h
i
On appelle rsidus studentiss par validation croise
r
i
=
y
i
y
i

(i)
1 h
i
= r
i
n p 1
n p r
2
i
. (III.4)
Les notations sont celles du II.2.5, et la dernire galit est laisse en exercice.
21 - Proposition
Si y N(X
I), r
i
suit une loi de Student de paramtre n p 1.
La dmonstration est immdiate au vu des rsultats du paragraphe III.2 et de la formule u
i
= (1h
i
)(y
i
(i)
) consquence de (II.1), qui asure lindpendance des deux termes de la fraction. La statistique r
i
est en pratique prfre r
i
.
22 - Dfinition
Une donne aberrante au niveau est un individu i pour lequel r
i
dpasse le seuil donn par
la loi de Student pour un risque derreur .
Un niveau raisonnable est 1/n, soit un seuil t
np1
(1 1/(2n)). Si n est grand, on peut tre tent
de choisir plus grand, par exemple 0, 05 mais ce que lon dtecte alors devrait plutt tre appel des
individus extrmes, puisque statistiquement de tels individus seront toujours prsents en proportion de
5%. Pour la motivation de la dnition suivante, on rfre au II.2.5 p.15 :
23 - Dfinition
Une donne isole au niveau est un individu i pour lequel nh
i
/p dpasse le seuil (souvent
choisi 3). Une donne atypique est une donne soit isole soit aberrante.
Interprtation. Une donne aberrante est donc une donne dont la rponse y est peu conforme au
modle estim sur les autres donnes. Une donne isole est une donne dont le rgresseur x est isol
dans lespace ; son retrait augmenterait donc sensiblement la matrice de covariance de

; de plus

est
trs sensible la valeur de y correspondante (eet levier). Les donnes inuentes sont celles qui inuent
sur lestimation de
. La mesure dinuence la plus utilise est la distance de Cook qui vaut

C
i
=
(
(i)
)
T
X
T
X(
(i)
)

2
p
=
h
i
p(1 h
i
)
r
2
i
(III.5)
(la dernire identit est laisse en exercice). Comme une grande valeur de cette statistique peut aussi
bien venir dun fort rsidu que de lisolement dans lespace de lindividu, le meilleur trac est a priori
celui des (r
i
, nh
i
/p), comme gure III.1.
Bilan. Mme si le modle gaussien semble douteux, les rsidus studentiss sont intressants car ils sont
normaliss, et lon peut faire le graphique de la gure III.1, quitte rester prudent dans linterprtation
quon lui donne.
Il faut se garder dliminer de but en blanc des individus aberrants dune analyse pour la recommencer
ensuite ; un tiers pourrait y voir juste titre une manipulation grossire pour biaiser ltude. Lanalyse
des rsidus se contente de jeter la suspicion sur certains individus et cest ensuite lanalyste dessayer de
49
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
A
I
-1 0 1 2 3 4 5 6 7
0
1
2
3
4
5
6

A
I
Figure III.1 Sur la premire gure x
i
est en abscisse et y
i
est en ordonne. Le point A est
aberrant et I est isol. La seconde gure reprsente les nh
i
/p en fonction des rsidus studentiss.
On aurait pu remplacer les rsidus par leurs p-values, i.e. les solutions
i
de r
i
= t
np1
(1
i
/2).
savoir sils contiennent des erreurs (de mesure, etc.), et si ce nest pas le cas, ils peuvent tre au contraire
importants pour lestimation ou la remise en cause du modle (linarit, etc.).
Cest une grave erreur que dliminer a priori les individus isols, qui au contraire peuvent tre
porteurs de beaucoup dinformation. On peut cependant tre amen le faire pour amliorer la linarit
du modle, considrant que le modle linaire nest gnralement quune approximation raisonnable,
valide sur un domaine pas trop grand.
Exercices. Il pourra tre utile de se servir du thorme 9 p.15.
Exercice III.3.1 Pourquoi r
i
ne suit-il pas une loi de Student ?
Exercice III.3.2 Montrer que C
i
=
[x
i
(
(i)

)[
2
ph
i

2
.
Exercice III.3.3 Dmontrer la deuxime galit de (III.4). Dmontrer la deuxime galit de (III.5).
III.4 Analyse de la variance. Aspects pratiques
III.4.1 Analyse de la variance un facteur
Lanalyse de variance proprement dite sintresse la situation o les rgresseurs sont purement
qualitatifs. Dans ce paragraphe il ny en a quun.
On dispose de n = n
1
+.. +n
p
observations y
ik
, i = 1, . . . p, k = 1, . . . n
i
. i est lindice de groupe et
n
i
la taille du groupe i. Par exemple, supposons que lon veuille tester p dirents engrais ; pour chaque
engrais i, on fera n
i
expriences (plantations) et y
ik
dsignera la production du k
champ test utilis

pour le i
type dengrais. Le modle de rgression correspondant est

y
ik
=
i
+u
ik
(III.6)
o
i
est la productivit du i
engrais. On met cette rgression sous la forme y = X +u :

y =
_
_
_
_
_
_
1 0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 1
_
_
_
_
_
_
+u
o 0 et 1 sont des vecteurs de 0 et de 1. Le vecteur ligne x
i
indique quel engrais a t utilis. La matrice
X
T
X est la diagonale des n
i
et

i
= y
i.
= n
1
i
k
y
ik
.
50
On sintresse savoir si les
i
sont signicativement dirents, cest--dire tester H
0
:
1
= =
p
,
cest--dire si le facteur engrais a un eet visible. Les quantits intervenant dans le test de Fisher sont
i
(y
i
y)
2
=
i
n
i
( y
i.
y)
2
+
ik
(y
ik
y
i.
)
2
TSS = ESS + RSS
avec ici RSS
0
= TSS. Chacune des trois statistiques est un
2
sous H
0
, cf III.2.3.
Il faut bien voir que ESS et RSS sinterprtent comme les variances interclasse et intraclasse, et la
statistique de Fisher est proportionnelle leur rapport.
La deuxime forme. Le mme modle peut se rcrire
y
ik
= +
i
+u
ik
,
i
= 0. (III.7)
Il y a un paramtre supplmentaire mais la contrainte de somme nulle fait que le nombre de paramtres
libres est toujours p. On a bien entendu =
1
I
i
et
i
=
i
.
Autre paramtrisation. Le mme modle peut se rcrire
y
ik
= +
i
+u
ik
,
I
= 0.
Le nombre de paramtres libres est toujours p. Cette paramtrisation est celle gnralement employe
par les logiciels. Le coecient est quali dintercept.
Exemple. On sintresse la composition des hotdogs
4
. La rponse est la teneur en calories et la variable
explicative Viande a trois modalits : Volaille, Boeuf, Divers (essentiellement porc et boeuf). Il y a 54
individus. La table danalyse de variance du modle (commande anova de R) montre bien que le type
de viande inue signicativement sur les calories, expliquant plus dun tiers (39%) de la variabilit des
donnes :
dl Sum Sq Pr(>F)
Viande 2 17700 3,8e-06
Residuals 51 28000
Lanalyse des coecients du modle (summary de R) donne
Estimate Std. Error Pr(>|t|)
(Intercept) 157 5,2 < 2e-16
Divers 2 7,7 0,8
Volaille - 38 7,7 9,4e-06
Attention, linterprtation du 0,8 est que les viandes diverses nont pas dapport calorique signicati-
vement dirent du boeuf (associ lui-mme un coecient nul : lanalyse est dissymtrique). Si lon
sarrange pour que ce soit la variable Volaille qui ait son coecient nul, on obtient la table suivante
(Intercept) 119 5,7 < 2e-16
Boeuf 38 7,7 9e-6
Divers 40 8 8e-06
o lon voit que les coecients de Boeuf et Divers sont signicativement dirents de 0 (donc de Volaille)
mais sans doute indistinguables entre eux vu lecart-type. Cette analyse se conrme par une reprsenta-
tion en botes moustaches :
4. The Data and Story Library. lib.stat.cmu.edu/DASL. Hot dogs story.
51
Boeuf Divers Volaille
1
0
0
1
4
0
1
8
0
Si lon regroupe ces deux classes on obtient aprs une analyse supplmentaire le modle :
Calories=157, 7 37 1
Volaille
+bruit, = 23, R
2
= 0, 39.
Ce regroupement peut se justier plus prcisment en testant le modle aggrg contre le modle original.
III.4.2 Analyse de la variance deux facteurs
Supposons que lon veuille maintenant tester dirents engrais dans direntes rgions et voir si
certains engrais sont plus adapts certaines rgions. Les observations seront maintenant y
ijk
o i =
1, . . . I est lindice dengrais (premier facteur, not A dans la suite), j = 1, . . . J est lindice de rgion
(facteur B), et k lindice dexprience, qui varie entre 1 et n
ij
. Le plan dexprience est dit complet si
tous les n
ij
sont strictement positifs, et quilibr sil sont gaux. On notera n
i.
=
j
n
ij
et de mme
pour n
.j
. On supposera dabord que n
ij
> 0 pour tous i, j.
Modle complet avec interactions. Cest le modle :
AB : y
ijk
=
ij
+u
ijk
(III.8)
Modle additif. Cest le modle pour lequel
ij
est somme de deux termes,
ij
=
i
+
j
:
A+B : y
ijk
=
i
+
j
+u
ijk
. (III.9)
Cest un modle I + J 1 paramtres libres car les
i
et
j
ne sont dnis qu une constante prs.
Pour dnir les paramtres de manire unique, on impose une contrainte, par exemple
J
= 0.
Ce modle correspond au prcdent sous les contraintes
ij

i
j

ij
+
i
j
= 0.
Modles un facteur. Ce sont les modles :
A : y
ijk
=
i
+u
ijk
B : y
ijk
=
j
+u
ijk
.
Ceci correspond aux contraintes
ij
=
ij
(
ij
=
i
j
pour le second).
Exemple. Reprenons les donnes du II.2.8 : On observe la prise de poids de rats nourris avec quatre
rgimes dirents correspondants deux sources de protines possibles (boeuf ou crales) en deux doses
possibles (faible ou leve). Chacune des combinaisons des deux facteurs est teste sur 10 individus tous
dirents ; il y a donc 40 observations de prise de poids en tout. Le plan est quilibr. On obtient la table
danalyse de variance suivante (procdure anova de R) qui indique un eet signicatif 5% de la dose
seulement :
d.l. Sum Sq F-stat Pr
Dose 1 1300 5,81 0,021
Protine 1 221 0,99 0,33
Dose : Protine 1 884 3,95 0,054
Rsidus 36 8050
52
Chaque ligne correspond en premire approche au test dun modle avec le facteur considr contre le
mme modle sans ce facteur (les dtails de linterprtation seront donns plus bas). Seule la dose semble
avoir un eet rellement signicatif. Si leet de la protine dans le modle additif nest pas signicatif,
le niveau 0,054 pour linteraction plaide pour un eet possible de la protine fortement dpendant de la
dose.
Autres paramtrisations. On prfre souvent utiliser une autre paramtrisation, qui met mieux en
valeur la contribution des dirents facteurs et de linteraction :
ij
= +
i
+
j
+
ij
(III.10)
soit le modle
y
ijk
= +
i
+
j
+
ij
+u
ijk
. (III.11)
Le terme
ij
est nul dans le cas du modle additif. Pour avoir unicit de la dcomposition, il faut
introduire des contraintes. Donnons deux exemples de telles contraintes, dune part celles utilises par
lees logiciels habituels, et ensuite un autre jeu commode pour ltude des plans quilibrs :
I
=
J
=
Ij
=
iJ
= 0, i = 1, . . . I, j = 1, . . . J (III.12)
i
=
j
=
ij
=
ij
= 0. (III.13)
Les contraintes sur nengendrent que I + J 1 contraintes indpendantes car elles possdent une
contrainte en commun (
IJ
= 0 ou

ij

ij
= 0). Do la table de dcompte des paramtres libres
Facteur
.

.

..
total
Param. libres 1 I 1 J 1 (I 1)(J 1) IJ
Cest la convention (III.12) qui est gnralement utilise ; voici la table danalyse des coecients (proc-
dure summary de R, option /solution dans la procdure glm de sas) pour lexemple prcdent :
estime cart-type Pr
Constante 100 4,7 2e-16
DoseFaible -20,8 6,7 0,0036
ProtineCrale -14,1 6,7 0,042
DoseFaible.ProtineCrale 18,8 9,5 0,054
= 15
Attention PRUDENCE. Il faut bien voir que les ,
i
,
j
et les
ij
dpendent de la convention utilise
(i.e. la contrainte choisie), et nont pas de signication pris sparment, ce qui fait que ces paramtres
prsentent peu dintrt pour lutilisateur ; par exemple, sous la convention (III.12), on a
=
IJ
,
i
=
iJ

tandis que sous la convention (III.13), on a
=
1
IJ
ij
ij
,
i
=
1
J
ij
.
On se gardera donc bien de les interprter htivement. Par exemple dans un modle avec interaction,
= 0 ne signie rien de particulier.
Les valeurs prises par les ,
i
,
j
,
ij
nont donc quun intrt purement indicatif, par
exemple pour comparer certains
i
au vu de leur valeur et des
i
en vu de fusionner des facteurs. On
seorcera toujours en n de compte de tester des modles (ou bien des combinaisons linaires des
ij
).
Considrons par exemple le modle additif, le test
i
= 0 dpend de la convention, par exemple
dans le cas de (III.12) il signie en ralit que i et J ont mme eet. Cest pourquoi les logiciel refuserons
toujours de faire ce genre de test (cest la thorie des testable functions). En revanche le logiciel
acceptera de tester
i

j
= 0, qui a le mme sens indpendamment de la convention utilise et qui
sinterprte comme i et j ont mme eet. En pratique, il faudra mieux directement tester le modle
o les deux classes ont t fusionnes contre loriginal.
53
Cas du plan incomplet. Si n
ij
nest pas toujours positif, mais que

j
n
ij
et

i
n
ij
sont non-nuls, le
nombre de paramtres du modle complet nest plus IJ mais le nombre de n
ij
non-nuls : cest le nombre
de
ij
en jeu, les cellules vides tant considres comme inexistantes. Pour calculer les termes p et p
0
intervenant dans la statistique de Fisher, une mthode qui marche toujours (indpendamment du nombre
de facteurs) de prendre le rang des matrices X correspondant aux deux modles en comptition : p = r,
p
0
= r
0
.
Plan dexprience quilibr et sommes de carrs. Cette situation a lavantage de faciliter lin-
terprtation des analyses car il ny a pas de facteurs proches. De plus elle prsente des formules simples
pour les estimes.
Soit K la valeur commune des n
ij
. Alors n = IJK. On vrie que les estimes pour le modle complet
sous la contrainte (III.13) sont
= y

i
= y
i..
y =
1
JK
jk
y
ijk
y,

j
= y
.j.
y =
1
IK
ik
y
ijk
y

ij
= y
ij.
y
i..
y
.j.
+ y
et ces estimes valent aussi pour les modles additifs (
ij
= +
i
+

j
) et un facteur (
ij
= +
i
,
et
ij
= +

j
). Les variances expliques par chaque facteur sont dnies et calcules comme suit (RSS
M
dsigne le RSS du modle M) :
SS
= TSS RSS
A
= JK
i

2
i
, SS
= TSS RSS
B
= IK
2
j
,
SS
= RSS
A+B
RSS
AB
= K
ij

2
ij
(vrication aise). Notons que la dcomposition y
ijk
= +
i
+

j
+
ij
+ u
ijk
est orthogonale (5 vecteurs
orthogonaux de dimension IJK) en raison des contraintes, ce qui revient dire quon a dcompos
lespace X en quatre sous-espaces orthogonaux dnis par les contraintes inposes (cf (III.10) et (III.13)),
correspondant chacun au facteur, constante , A, B ou interaction ; SS
x
est le carr de la norme de
la projection de y sur le sous-espace correspondant et le thorme de Pythagore implique la formule de
sommation :
SS : TSS = SS
+ SS
+ SS
+ RSS
AB
d.l. : n 1 = I 1 + J 1 + (I 1)(J 1) + n IJ
(III.14)
o d.l. est le nombre de degrs de libert de SS
x
sous x = 0. La variance totale est dcompose en un
terme de bruit RSS et trois termes distincts ds respectivement la variabilit en fonction de la premire
variable, de la seconde, et de linteraction des deux. Chaque terme est interprt comme la contribution
de chaque facteur (cf lexplication de la page 15 pour la justication de lusage des carrs). Cest la
colonne Sum Sq de la table de la page 52. Sous lhypothse nulle que
.
=
.
=
..
= 0, ces quatre
termes sont, aprs division par
2
, des
2
indpendants avec les degrs de libert correspondants. Ces
termes sont ceux qui servent construire les statistiques de Fisher. La simplicit de cette dcomposition
et de son interprtation sont caractristiques du plan quilibr, et des plans o X est orthogonale (ici,
les espaces associes A, B et A.B au travers de la paramtrisation (III.13) sont orthogonaux).
Plan dexprience quilibr incomplet. Soit trois facteurs deux modalits et les 4 expriences
suivantes (au lieu de 8 pour avoir un plan complet) rptes K fois chacune :
A B C
Exp1 0 0 0
Exp2 0 1 1
Exp3 1 0 1
Exp4 1 1 0
Ici n = 4K et la matrice X est le tableau ci-dessus o les lignes sont rptes K fois et une colonne
de 1 ajoute. Lquilibre se voit la symtrie du plan par rapport aux facteurs ; noter que les colonnes
54
recentres sont orthogonales. On a encore la dcomposition en sommes de carrs
TSS = SS
A
+SS
B
+SS
C
+RSS
A+B+C
o chaque terme est interprt comme la contribution de chaque facteur.
Modle de base additif. Dans lexemple prcdent seules 4 combinaisons de facteurs ont t considres
sur les 8 possibles, on ne peut donc pas estimer plus de 4 paramtres (en fait 3 car, si p = 4, RSS= 0 et
le modle est refus par tout test de Fisher). On part alors du modle additif.
De mme, si dans un modle deux facteurs n
ij
= 1 pour tous i et j, le modle (III.8) ne prsente
pas dintrt et les tests seront impossibles car RSS= 0 et n = IJ.
On peut aussi faire ce choix si le test = 0 donne une rponse que lon considre dnitive.
III.4.3 Interprtation des tables
Nous avons discut, p.ex. au III.4.1, des tables danalyse des coecients. Nous nous intressons ici
aux tables qui tudient les facteurs globalement.
Les tests de modles sont souvent interprts comme des tests de signicativit des dirents facteurs.
On les illustre ici dans le cas de trois facteurs qui peuvent tre soit qualitatifs soit quantitatifs. Voici les
types de tests comments plus bas :
(I) Facteur tester H
1
H
0
A A cst
B A+B A
interaction AB A+B
C AB +C AB
(III) Facteur tester H
1
H
0
A AB +C B +C +A.B
B AB +C A+C +A.B
C AB +C AB
interaction AB +C A+B +C
Table III.3 Deux tests de type I et de type III pour le modle AB+C. ( gauche) Tests embots :
ce quajoute chaque facteur aux prcdents. ( droite) Test contre H
1
= complet : ce quajoute
un facteur quand les autres sont prsents. La partie A.B dsigne les termes dinteraction seuls
(voir le texte).
La notation A.B correspond au facteur obtenu par orthogonalisation des colonnes de AB celles corres-
pondant A et B; ce sont des termes dinteraction pure dinterprtation obscure, qui sont les
..
du
III.4.2 pour une paramtrisation particulire.
Test dhypothses embotes : Il a le mrite considrable de la simplicit dinterprtation. Le
statisticien dnit une suite croissante de modles par ajout des facteurs un un. On teste chaque
modle contre le prcdent. Typiquement la mthode descendante dictera lordre choisir (cf III.2.4).
Le test dit de type I (procdure anova de R ou S+) est embot, mais le dnominateur de la
statistique de Fisher est en fait remplac par le RSS du modle complet avec la modication correspon-
dante du seuil, cf lexercice III.2.5.4. En consquence, pour un plan quilibr, lordre dintroduction des
facteurs nintervient pas, cf lexercice III.4.9.10.
Dans le cas de facteurs proches le premier sera choisi et lautre rejet, cf III.2.4.
Exemple : Reprenons lexemple de la prdiction de la consommation en fonction du volume, du poids,
de la puissance et de la vitesse maximale (table III.1 page 43). On obtient les analyses de type I suivantes
Type I Pr
Volume < 0.0001
P2 < 0.0001
Puissance <0.0001
Vitesse 0.7
Type I Pr
Volume < 0.0001
P2 < 0.0001
Vitesse <0.0001
Puissance 0.83
Type I Pr
P2 < 0.0001
Vitesse <0.0001
Volume 0.6
Puissance 0.83
On voit bien sur les deux premiers tableaux leet de la colinarit de la vitesse et de la puissance.
Le troisime indique que le volume najoute rien au poids et la vitesse. Pour les donnes du II.5.1 on
obtient les rsultats suivants
55
Type I Pr
x 0.084
x
2
0.0014
x
3
0.0064
x
4
0.68
et les rsultats sont similaires pour des degrs plus levs. Le test de type I donne de bons rsultats car
ici la situation est trs dirente. Le plan dexprience est encore trs dsquilibr, mais le fait que le test
de type I dpende de lordre des facteurs nest pas ici un inconvnient car on a ici un ordre des facteurs
bien dtermin, et donc une suite croissante de modle clairement dnie.
Tests contre H
1
=complet . Cest le test de H
1
contre H
0
du tableau III.3 (Type III de sas. Avec
R utiliser la commande options(contrasts = c("contr.sum","contr.poly")) puis faire lanalyse
avec model=lm( ...) puis faire drop1(model, .., test="F")). Il est fortement remis en question par
la communaut scientique [20], en raison de la prsence dinteraction sans les facteurs pricipaux dans
H
0
. Ce type ne conduit pas une decomposition exacte de la variance en somme de carrs. En absence
dinteraction, il correspond au test de nullit de la page 43, transform en test de Fischer pour les facteurs
plus de deux modalits.
Dans le cas dinteractions le test de AB contre B+A.B (on oublie C pour simplier) pour le facteur
A est une extension au cas dsquilibr du test de = 0 dans le plan quilibr de la page 54. On teste
donc les facteurs simples contre le modle complet en gardant les interactions, ce qui est trs discutable
car on peut dicilement imaginer une interaction AB sans que A soit signicatif ! Dun point de vue
assez approximatif, A sera rejet si son eet est totalement imprvisible si lon ne connat pas B
5
.
Les rsultats ne dpendent pas de lordre dans lequel sont prsents les facteurs.
La structure du test fait quil a clairement tendance rejetter les facteurs proches.
Il faut donc lutiliser pour illustrer la contribution additionnelle de chaque facteur et leur signi-
cativit. Ses conclusions de signicativit sont ables : dans les exemples prcdents lanalyse limine
les facteurs :
Type III Pr
Volume 0.63
P2 < 0.0001
Puissance 0.83
Vitesse 0.7
Type III Pr
x 0.35
x
2
0.32
x
3
0.45
x
4
0.68
La prsentation habituelle de ces rsultats danalyse de variance consiste en gnral donner
sur chaque ligne du tableau le facteur tester puis le RSS
0
RSS correspondant au test, les degrs
de libert, la statistique de Fisher, et enn le niveau de signication obtenu. La somme des SS ainsi
prsents fait, au moins dans le cas du test de type I, le TSS, illustrant la contribution de chaque facteur
la variance totale (cf la colonne SS du III.4.4, et lexercice III.4.9.10) ; ces nombres nont toutefois pas
grand intrt puisque les niveaux rsument au mieux lensemble.
Type I et Type III. Le but originel des tests est de montrer la signicativit de certains facteurs ;
dans cette optique il convient de sarranger lavance pour avoir un plan dexprience correct, et le
mieux est de tester entre des hypothses claires ; comme alternative, le test de type III peut se justier
(car le plus svre et donc le plus convaincant), bien quil soit trs remis en cause [20]. En revanche,
lutilisation des tests pour faire de la slection de modle ne doit tre vue que comme une application
supplmentaire, avec une mise en pratique assez informelle, mais qui rclame une bonne comprhension
5. Dans le test de signicativit de A, lhypothse H
0
(B + C + A.B dans le tableau) consiste supposer que leet
moyen de A au sens o lon fait la moyenne des eets quand B varie, est indpendant de la valeur choisie pour A. Sur le
modle suivant o A possde 3 modalits et B en possde 2 (on oublie C pour simplier)
y =
1
+
2
1
A=1
+
3
1
A=2
+
4
1
B=1
+
5
1
A=1,B=1
+
6
1
A=2,B=1
+u
lhypothse pour tester linuence de A sera
2
2
+
5
= 0
2
3
+
6
= 0
De mme celle pour tester B : 3
4
+
5
+
6
= 0.
56
de la situation ; ici les tests de type I sont pratiques et permettent dillustrer graphiquement par les
dirents SS la contribution de chaque facteur, avec prudence car lordre de leur introduction importe.
Bilan 1 : facteurs simples et interactions. Si linteraction AB est considre comme signicative
alors A et B le sont (les deux premires lignes du tableau III.3 ne sont plus des tests de signicativit).
Dans le cas contraire on peut prfrer lliminer du modle et reprendre lanalyse ; on peut galement
tester A directement par le modle complet contre le modle sans A (B +C contre AB +C).
Bilan 2 : facteurs proches, colinarit. La dicult vient des facteurs signicatifs proches ; pour
les faire apparatre dans les tests, lide est que llimination de lun rendra lautre signicatif dans le
modle ; on peut par exemple comparer les rsultats de dirents tests simples (p.ex. modles additifs
faisant intervenir un des facteurs, lautre ou les deux, ou bien tests embots en changeant lordre des
facteurs (on peut les faire sous R avec anova(H
1
,H
0
))). Une acp des rgresseurs ou une analyse des
correspondances conrmera les doutes.
En rgle gnrale, sil ny a pas de facteurs proches, les conclusions seront faciles tirer. Sil y en a,
il faut analyser cette proximit ; elle peut avoir deux origines :
Corrlation eective (dans le monde rel) entre direntes variables (on postule donc lexistence
dune distribution pour les rgresseurs) ; par exemple la cylindre et la puissance.
Plan dexprience dsquilibr : les sujets gs sont massivement des femmes. Cest une corrlation
articielle (entre sexe et ge) introduite par le choix des individus.
Dans le premier cas la conclusion est simple puisquen gros le facteur limin a une inuence au
travers de sa corrlation avec le facteur conserv .
Dans le deuxime cas il est dicile de conclure puisque les donnes sont intrinsquement mauvaises :
si lon veut tudier le taux de frquentation du mdecin en fonction de lge et du sexe et que les individus
de lchantillon sont des femmes ges et des hommes jeunes, il est clair que le plan dexprience est
mauvais, et lon ne pourra pas dmler linuence de lge de celle du sexe ; on conclura alors leet
globalement signicatif des deux facteurs sans pouvoir distinguer lequel a vraiment de leet.
Variable signicative dcorrle. Il peut arriver quune des variables explicatives ait une corrlation
quasi-nulle avec les rponses (et soit mme rejete dans lanalyse de type I) mais quelle soit signicative
dans lanalyse de type III : ceci vient du fait quelle est implicitement prsente dans dautres rgresseurs
importants. Cest le cas si le vrai modle est y
i
= z
i
+u
i
et que lon estime le modle y
i
=
1
x
i
+
2
x
i
+u
i
bas sur les rgresseurs x
i
= t
i
+z
i
, x
i
= t
i
, o t
i
est une variable quelconque de variance assez grande.
III.4.4 Un exemple trois facteurs
Des tudiants essayent des avions en papier avec deux types de pliage (facteur T), deux types de
papier (facteur P) et deux types dangle de lancer (facteur A)
6
. La rponse est la distance D parcourue.
Il y a deux individus pour chaque combinaison de facteurs soit 16 en tout.
Les rsultats de lanalyse de type I sont prsentes dans la table qui suit ; le plan tant quilibr,
lordre dintroduction des variables nintervient pas. On garde ici le modle P*T, langle napparaissant
pas signicatif. La qualit du papier na donc pas la mme inuence selon le type de pliage.
D P A T
2160 1511 1 1 1
4596 3706 1 1 2
3854 1690 1 2 1
5088 4255 1 2 2
6520 4091 2 1 1
2130 3150 2 1 2
6348 4550 2 2 1
2730 2585 2 2 2
Df SS F value Pr(>F)
P 1 1718721 1.63 0.24
T 1 385641 0.367 0.56
A 1 654481 0.623 0.45
P : T 1 23386896 22.2 0.001
P : A 1 419904 0.4 0.54
T : A 1 73441 0.07 0.8
P : T : A 1 21025 0.02 0.89
Residuals 8 8392178
Table III.4 Donnes et analyse de type I sur le modle D=P*A*T avec le logiciel R
(anova(lm(DP*T*A))). P=papier, T=type de pliage, A=angle de lancer, D=distance parcourue.
6. M.S. Mackisack, What is the use of experiments conducted by statistics students ? J. of Stat. Educ., 2, No 1, 1994.
Donnes et texte disponibles sur internet : Australasian Data and Story Library, www.statsci.org/data/oz/planes.html.
57
La contribution des facteurs (et non pas leur signicativit) peut sillustrer par un camembert bas sur
les SS, aprs une analyse liminant les interactions trop faibles (ce genre de gure est prendre avec
prcautions puisquelle dpend a priori de lordre dans lequel sont rentrs les facteurs ; ce nest pas le cas
ici o le plan est quilibr. Pour le choix des SS plutt que

SS, voir par exemple largumentation de la
n du II.2.4) :
Papier
Avion
Angle
Papier:Avion
Papier:Angle
Residuals
III.4.5 Analyse de covariance
On est cette fois dans la situation o lon a un rgresseur discret et lautre quantitatif. Le modle de
rgression est
y
ij
=
i
+a
i
z
ij
+u
ij
.
Soit encore, sous forme vectorise, y = X +u avec
y =
_
_
_
y
1.
.
.
.
y
I.
_
_
_, X =
_
_
_
_
_
1 0 . . . 0 z
1.
0 . . . 0
0 1 . . . 0 0 z
2.
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 1 0 0 . . . z
I.
_
_
_
_
_
, =
_

a
_
.
o 0 et 1 sont des vecteurs de 0 et de 1, et u
i.
est le vecteur des u
ij
. Le principe des tests est inchang.
Exemple 1. Reprenons lexemple de la page 51. On observe une variable explicative supplmentaire :
Sodium. Lanalyse du type I du modle avec interaction puis lanalyse des coecients du modle additif
donnent
Df Sum Sq Pr(>F)
Viande 2 17692 7.1e-12
Sodium 1 18614 4.4e-13
Viande : Sodium 2 212 0.58
Residuals 48 9242
(Intercept) 75,74 8,7 1,6e-11
Divers -1,66 4,5 0,717
Volaille -49,8 4,7 2e-14
Sodium 0,2 0,02 2e-13
Linterprtation du 0,717 est que les viandes diverses nont pas dapport calorique signicativement
dirent du buf (le coecient du buf est 0). Linterprtation du 0,58 est que leet calorique du
sodium ne dpend pas de la viande. Si lon regroupe ces deux classes on obtient aprs une analyse
supplmentaire le modle
Calories=75, 2 49 1
Volaille
+ 0, 2 Sodium+ bruit, = 13, 6 R
2
= 0, 8.
Sur lchantillon, la variable Sodium a une moyenne de 425 et un cart-type de 95.
Exemple 2. On sintresse la relation entre lactivit sexuelle et la longvit
7
. Ltude se base sur une
exprience faite sur 5 groupes de 25 mouches mles. Aux mouches du premier groupe, on a fourni une
femelle vierge par jour, et celle du deuxime groupe huit par jour ; les groupes 3 et 4 correspondent
la mme exprience mais avec des femelles rcemment insmines (ce qui rend le rapport impossible) ;
les mles du groupe 5 sont seuls. Les variables sont
L : longvit en jours (rponse)
N : nombre de partenaires (0, 1 ou 8)
7. L. Partridge, M. Farquhar, "Sexual Activity and the Lifespan of Male Fruities" Nature, 294, 580-581, 1981.
J.A. Hanley & S.H. Shapiro, "Sexual Activity and the Lifespan of Male Fruities : A Dataset That Gets Attention", Journal
of Statistics Education, Vol.2, No 1 (1994). Donnes : www-unix.oit.umass.edu/statdata.
58
V : vierge (1), insmine (0), aucun (-1, si nombre=0)
T : longueur du thorax du mle en mm.
Sur les 9 combinaisons possibles pour N et V, seules 5 ont un sens. Pour viter ce problme on peut
retirer le 5e groupe de ltude, ce qui fait un plan plus simple 4 possibilits qui permet de tester un
modle additif. Le modle additif sera refus et on pourra passer 5 groupes sans perturber le modle.
Les rsultats (logiciel R, tests de type I) de lanalyse de covariance pour le modle nal L = NV +T
obtenu aprs limination progressive des interactions non signicatives sont (le 5e groupe a t limin) :
Df Sum Sq F value Pr(>F)
N 2 3542 16 6,8e-07
V 1 6675 60,4 3e-12
T 1 13633 123 < 2,2e-16
N : V 1 1259 11,4 0,001
Residuals 119 13145
V = 1 V = 0
N = 8 41 65
N = 1 54 63,7
N = 0 61
Le tableau ci-dessus exprime leet relatif en jours de la partie NV du modle, par les prdictions
obtenues T xe (valeur moyenne sur lchantillon : 0, 817 mm) dans les cinq groupes : cest un exemple
typique de lutilisation des coecients pour linterprtation. La contribution des facteurs peut sillustrer
par un camembert bas sur les Sum Sq :
Nombre
Vierge
Thorax
Nombre*Vierge
Residus
III.4.6 Modles hirarchiques (nested) en analyse de variance
Il se peut que la modalit prise par un des facteurs dtermine celle prise par un autre, par exemple
si les facteurs sont ville dorigine et rgion dorigine . Dans ce cas il nest pas question dintroduire
dinteraction mais on testera le modle ne dpendant que de la rgion contre celui dpendant de la ville
y =
r
+u ou y =
v
+u.
Aspect pratique : Dans les donnes, les villes seront souvent numrotes partir de 1 dans chaque
rgion, cest pour cela que les logiciels permettent de prciser que les facteurs ville et rgion sont
hirarchiss, ce qui permet de ne pas confondre des villes de mme indice appartenant des rgions
direntes. Lquation ci-dessus scrit alors y
rvk
=
rv
+u
rvk
et un modle paramtr sous contraintes
est
y
rvk
= +
r
+
rv
+u
rvk
,
R
=
rV
= 0
un coecient
v
nayant aucun sens.
III.4.7 Modles mixtes
Ces modles ont t introduits dans le cadre de la rgression au II.3.5. Commenons par le modle
eets alatoires un facteur :
y
ik
= +
i
+u
ik
, u N(0,
2
I), N(0,
2
I)
59
et u et sont indpendants. Les paramtres estimer sont maintenant simplement , et
. Ce modle
signie que les y
ik
forment un vecteur gaussien de moyenne et de covariance dirente dun multiple
de lidentit, des corrlations apparaissant entre observations ayant mme facteur i.
Par exemple, si lon teste dirents engrais (indice i) sur direntes cultures (indice j), lutilisation
du modle mixte se justie si lon ne sintresse pas la valeur explicite de linteraction culture/engrais ;
il pourra scrire
y
ijk
=
i
+
j
+
ij
+u
ijk
, u N(0,
2
I), N(0,
2
I). (III.15)
Une faible valeur de
indiquera que leet de lengrais dpend peu des cultures.

Si lon fait la correspondance avec lquation (II.13), les vecteurs , contiennent respectivement les
(
i
,
j
), et les
ij
, tandis que X et Z sont des matrices de 0 et de 1.
Voir galement lexercice III.4.9.5 pour un autre exemple.
Bilan : Mixte contre xe. Remarquons que le modle mixte avec interaction alatoires peut tre iden-
ti mme si le modle eets xes correspondant nest pas identiable (par manque dobservations, i.e.
X dciente) ; il est donc surtout intressant pour tenir compte des interactions lorsquon na pas assez de
donnes pour pouvoir les estimer explicitement. Son usage typique est de tester la prsence dinteractions
(ou plutt de corrlations) dans un tel contexte : H
1
= mixte et H
0
= xe sans interaction.
III.4.8 Rduction des interactions
Certains auteurs se dfont des termes dinteraction en considrant des modles :
y
ijk
=
i
+
j
+
Q
q=1
q
x
q
ij
+u
ijk
o Q est petit et les x
q
ij
sont des variables explicatives choisies lavance censes reprsenter elles seules
les eets dinteraction. Par exemple i (resp. j) dsigne la catgorie professionnelle (17 modalits) du pre
(resp. du ls), x
1
ij
= S
i
S
j
o S
i
est lindice socioconomique de la profession et x
2
ij
= 1
i=j
S
2
i
(voir les
dtails au paragraphe IV.2.2 o cette rduction est utilise pour un modle linaire gnralis). On a
ici I +J +Q1 paramtres au lieu de I J pour le modle avec interactions.
Introduction de termes danalyse de covariance. Il peut tre avantageux dassocier chaque
modalit i dun facteur un nombre rel x
i
et de considrer cette nouvelle variable comme une variable
de rgression habituelle dans les termes dinteraction, ce qui revient nalement estimer un modle de
la forme
y
ijk
=
j
+
j
x
i
+u
ijk
o labsence dinteraction se reprsente par
1
=
2
= . . .
J
. moins de disposer dun algorithme spcial,
ou dide prconues, il faut connatre les x
i
avant de procder lestimation des
j
et
j
. Une mthode
simple est destimer un modle additif puis de prendre x
i
=
i
. Attention, ceci fausse les tests futurs.
III.4.9 Exercices
Exercice III.4.9.1 Deux analyses de variance de sur les mmes donnes vous fournissent les rsultats
suivants. Que pouvez-vous en dire ?
H
1
H
0
Pr
AB A+B 0.4
A+B A 0.4
A cst 0.001
H
1
H
0
Pr
AB A+B 0.4
A+B B 0.4
B cst 0.001
Exercice III.4.9.2 Une analyse de variance donne les rsultats suivants. Choisissez-vous le modle
A,B,A+B, le modle complet, ou un autre ?
60
H
1
H
0
Pr
AB A+B 0.001
A+B B 0.4
B cst 0.001
Exercice III.4.9.3 On teste un engrais (facteur A). Malheureusement les champs engraisss sont
principalement tous dans une rgion tandis que les champs tmoins sont dans une autre. Il y a donc un
facteur rgion B proche de A.
1. Quelle sera probablement la conclusion du test de signicativit de A : H
0
= B contre H
1
= A+B?
2. On oublie dintroduire le facteur de rgion. Comment teste-t-on le facteur A? Quelle sera la conclu-
sion si lengrais a une inuence signicative ?
3. Quelle sera le rsultat des tests prcdents si la rgion a une inuence signicative et lengrais est
sans inuence ?
Exercice III.4.9.4 (Modle mixte) On teste leet de deux mdicaments m = 1, 2 sur dirents sujets ;
chaque sujet nessaye quun mdicament. La rponse est une variable mesurant lamlioration de ltat
de sant du sujet. Les sujets sont regroups en G groupes (p.ex. selon lge) et lon considre le modle :
y
mgk
=
m
+
mg
+u
mgk
,
mg
N(0,
2
m
), u
mgk
N(0,
2
)
o y
mgk
est la rponse du k
sujet du groupe g ayant pris le mdicament m, et k va de 1 K

mg
. Il y a
donc 3 paramtres de variance. Interprter lhypothse
1
=
2
,
1
<
2
.
Exercice III.4.9.5 (Modle mixte) Sur chacun des I sujets, on fait un prlvement sanguin que lon
divise en n
i
chantillons, envoys n
i
des J laboratoires (plan incomplet). Chaque laboratoire divise
lchantillon en K et fait K mesures. On considre le modle suivant pour les rsultats
y
ijk
= +
i
+
j
+
ij
+u
ijk
,
avec
i
N(0,
2
),
j
N(0,
2
),
ij
N(0,
2
), u
ijk
N(0,
2
).
Combien ce modle a-t-il de paramtres ? Lhypothse
= 0 est accepte. Interprter les deux

variances restantes.
Exercice III.4.9.6 Soit le modle linaire avec expriences rptes :
y
ij
= a +bx
i
+u
ij
, i = 1, . . . I, j = 1, . . . k
i
.
On notera R lerreur rsiduelle obtenue aprs estimation de ce modle aux moindres carrs.
Pour tester ladquation du modle linaire, on considre en parallle le modle danalyse de la
variance un facteur I modalits (comme si la variable x tait qualitative ).
1. crire le modle danalyse de la variance un facteur et expliciter la somme des carrs des erreurs
rsiduelles R
1
.
2. On propose la statistique de test : F = n
1
(R R
1
)/(n
2
R
1
).
Donner n
1
et n
2
. Quelle est lhypothse H
0
? Quelle est la loi de F sous cette hypothse ?
3. Expliciter le test 5%.
Exercice III.4.9.7 On considre le modle deux facteurs avec interaction sous les deux formes
quivalentes (III.8) et (III.11) avec la convention (III.13)
1. Quelle est la particularit de la matrice
ij
si I = J = 2 ?
2. Toujours si I = J = 2, donner 4 quations quatre inconnues exprimant (
11
,
21
,
12
,
22
) en
fonction de ,
1
,
1
,
11
. Si (
11
,
21
,
12
,
22
) = (0, 1, 3, 1), que valent ,
i
,
j
,
ij
?
Exercice III.4.9.8 On considre lanalyse de la variance un facteur avec le modle sous les deux
formes quivalentes (III.6) et (III.7).
1. Exprimer et
i
en fonction des
i
. Exprimer
i
en fonction des observations.
61
2. Donner la matrice de covariance de (
1
, . . .
p
) ; en dduire Var( ) puis Var(
i
). Simplier ces
expressions dans le cas o n
i
ne dpend pas de i.
Exercice III.4.9.9 On considre lanalyse de la variance un facteur avec le modle sous la forme
y
ik
=
i
+u
ik
, i = 1, . . . p, k = 1, . . . n
i
.
1. Quelle est la variance de
i

j
/2 ? Donner un intervalle de conance de niveau =5% pour
j
/2, centr en
i

j
/2, en fonction des n
k
, de p et de . Vrier que pour (p, n
1
, n
2
, , ) =
(2, 35, 3, 0.15, 0.05) la largeur de lintervalle pour
1
2
/2 est 0,2 (cf lexercice III.2.5.5).
2. Montrer quon a lintervalle de conance de niveau (
2
np
(.) dsigne le quantile du
2
np
) :
(n p)
2
/
2
np
(1 /2)
2
(n p)
2
/
2
np
(/2).
3. En dduire un intervalle de conance de mme niveau pour la variance de
i

j
/2. Vrier que
pour les valeurs considres plus haut on obtient

1

2
/2
[0.054, 0.087] avec = 5%.
Exercice III.4.9.10 (Tests de type I) Rcrivons le modle complet danalyse de variance AB+C
comme
AB +C = c +A+B +C +A.B,
n
A
n
B
+n
C
1 = 1 + (n
A
1) + (n
B
1) + (n
C
1) + (n
A
1)(n
B
1)
criture qui ne fait que dterminer cinq groupes dans les colonnes de X. On considre le nouveau modle
quivalent obtenu par orthogonalisation de chaque facteur aux prcdents dans lordre donn par la
syntaxe, le modle AB +C devenant :
AB +C = c +A+B
c,A
+A.B
c,A,B
+C
c,AB
.
On peut ensuite tester chaque facteur (A, B, A.B, C) en testant le modle complet contre le modle ci-
dessus priv des colonnes correspondant au facteur. Montrer, en exploitant le lemme 10, que le numrateur
de chaque statistique de Fisher est la norme de la projection de y sur lespace correspondant, que ce test
correspond au test de type I et que la somme des 4 numrateurs vaut TSS RSS (dcomposition de la
variance).
III.5 Un exemple de conclusion dtude
Il sagit des donnes CPS_85_Wages disponibles sur http://lib.stat.cmu.edu/datasets/. On
notera le travail danalyse des rgresseurs et des rsidus. Voici la liste des variables et les conclusions de
Therese Stukel (la rponse est le salaire horaire) :
WAGE (dollars per hour).
EDUCATION : Number of years of education.
SOUTH : 1=Person lives in South, 0=Person lives elsewhere.
SEX :1=Female, 0=Male.
EXPERIENCE : Number of years of work experience.
UNION : 1=Union member, 0=Not union member.
AGE (years).
RACE : 1=Other, 2=Hispanic, 3=White.
OCCUPATION : 0=Other, 1=Management, 2=Sales, 3=Clerical, 4=Service, 5=Professional.
SECTOR : 0=Other, 1=Manufacturing, 2=Construction.
MARIT : 0=Unmarried, 1=Married.
The Current Population Survey (CPS) is used to supplement census information between census
years. These data consist of a random sample of 534 persons from the CPS, with information on wages
and other characteristics of the workers, including sex, number of years of education, years of work
experience, occupational status, region of residence and union membership. We wish to determine (i)
whether wages are related to these characteristics and (ii) whether there is a gender gap in wages. Based
on residual plots, wages were log-transformed to stabilize the variance. Age and work experience were
62
almost perfectly correlated (r=.98). Multiple regression of log wages against sex, age, years of education,
work experience, union membership, southern residence, and occupational status showed that these
covariates were related to wages (pooled F test, p < .0001). The eect of age was not signicant after
controlling for experience. Standardized residual plots showed no patterns, except for one large outlier
with lower wages than expected. This was a male, with 22 years of experience and 12 years of education,
in a management position, who lived in the north and was not a union member. Removing this person
from the analysis did not substantially change the results, so that the nal model included the entire
sample. Adjusting for all other variables in the model, females earned 81% (75%, 88%) the wages of males
(p < .0001). Wages increased 41% (28%, 56%) for every 5 additional years of education (p < .0001). They
increased by 11% (7%, 14%) for every additional 10 years of experience (p < .0001). Union members were
paid 23% (12%, 36%) more than non-union members (p < .0001). Northerns were paid 11% (2%, 20%)
more than southerns (p = .016). Management and professional positions were paid most, and service and
clerical positions were paid least (pooled F-test, p < .0001). Overall variance explained was R
2
= .35.
In summary, many factors describe the variations in wages : occupational status, years of experience,
years of education, sex, union membership and region of residence. However, despite adjustment for all
factors that were available, there still appeared to be a gender gap in wages. There is no readily available
explanation for this gender gap.
63
64
IV
Rgression linaire gnralise
IV.1 Modle linaire gnralis
IV.1.1 Pourquoi les modles linaires gnraliss ?
Dans bien des applications, les variables expliquer ne varient pas dans tout R mais dans R
+
, N ou
encore un intervalle dentiers (cf le credit scoring I.2.3). Il est clair que le modle gaussien est mal
adapt a cette situation. Le modle linaire gnralis spcie que y
i
est une variable alatoire dont la
loi est paramtre par une combinaison linaire des rgresseurs x
i
, par exemple y
i
P(x
i
).
En pratique la situation typique est la suivante : on dispose de donnes y et X (rponses et variables
explicatives) ; il faut alors spcier une famille de distributions de probabilit un paramtre rel
(binomiale B(k, ), ou Poisson P(), ou exponentielle E(), etc.) ainsi quune fonction relle r(),
dite fonction de lien (les logiciels proposent une famille nie de telles distributions et de fonctions de lien
et il reste choisir). Tout est ensuite bas sur lestimation de dans le modle
y
i
P
r(x
i
)
, i = 1, . . . n.
Le modle linaire gaussien en est un cas particulier avec la famille N(,
2
) et r() = .
Nous ne traitons pas ici des modles linaires gnraliss mixtes except lexercice IV.2.5.3.
IV.1.2 Les familles exponentielles scalaires
24 - Dfinition
Soit (dx) une mesure sur R, dirente dune masse de Dirac, et soit
D
= : b() = log
_
e
y
(dy) < +
alors la famille de mesures de probabilit
P
(dy) = e
yb()
(dy)
est la famille exponentielle associe et D
est son domaine. Elle est dite rgulire si D
est
un intervalle ouvert.
D
est bien un intervalle. On a, si est intrieur D
() = E
[y]
b
() = Var
(y)
65
o lon a mis en indice pour souligner que les lois sont paramtres par . La fonction b() est strictement
convexe lintrieur de D
.
La paramtrisation par la moyenne. Le caractre strictement convexe de b fait que b
() est en
bijection avec . On peut donc galement considrer = E
[y] comme paramtre pour la famille.

Estimateur au maximum de vraisemblance. Soit (y
1
, . . . y
n
) une suite dobservations indpendantes
de loi P
pour un certain
inconnu, alors lestimateur de
au maximum de vraisemblance est donn

par y = b
) soit y = .
Exemples. Dans tous ces exemples D
= R. et m sont des constantes xes.

P
b()
Binomiale B(m, p)
m
k=0
C
k
m
{k}
log
_
p
1p
_
mp mlog(1 +e
)
Poisson P()
m
k=0
1
k!
{k}
log e
Gauss N(,
2
) N(0,
2
)
2

2
2
/2
IV.1.3 Les familles exponentielles un paramtre de nuisance
La mthode prcdente se prte visiblement assez mal au traitement de la variable gaussienne lorsque
la variance est inconnue ; le mme problme apparat pour dautres distributions. Cest pourquoi on
introduit la gnralisation suivante ad hoc :
25 - Dfinition
Soit (dy) une mesure sur R, dirente dune masse de Dirac. On appelle famille exponentielle
paramtre de nuisance une famille de densits de la forme
f(y; , ) = exp
_
y b()
+c(y, )
_
telles que f(y; , )(dy) forme une distribution de probabilit pour tout variant dans un
certain domaine de R
+
et tout dans :
_
exp(y/ +c(y, ))(dy) < .
Le terme c(y, ) contient toute la partie non-linaire en y non dj prsente dans (dy) ; ceci permet
dans la pratique de dnir la variable de la paramtrisation, puis ensuite .
x, on a donc une famille exponentielle. Cette fois :
E[y] = b
()
Var(y) = b
().
26 - Proprit
Soit y
1
, . . . y
n
une suite de tirages indpendants de loi f(y;
), alors indpendamment de
la valeur de
, lestimateur de
au maximum de vraisemblance est donn par

b
) = y
o y dsigne la moyenne empirique des y
i
.
Soit encore = y. Lestimation de
est bien plus dicile.

Terminologie. La fonction V () = b
() est appele fonction variance. La variance de y est V ().

66
Loi Support loi
2
D
B(m, p) 0, . . . m p
y
(1 p)
my
. C
y
m
m
k=0
{k}
mp mp(1 p) [0, m]
P() N
y
e
k0
1
k!
{k}
R
+
N(,
2
) R exp
_
(y)
2
2
2
_
. dy
2
R
Gamma(, p) R
+
(y/)
p
e
y/
/(p) . y
1
dy p
2
p R
+
IG(, ) R
+
exp
_
(y)
2
2
2
y
_
.
dy
2y
3

3
/ R
+
Table IV.1 Les familles classiques pour d = 1. D
est le domaine de variation de . Attention,

la loi binmiale est normalise (pour simplier le tableau suivant). Pour chaque loi, on a spar
f(.) et (dy) par un point. IG est linverse Gaussienne.
Loi b() = b
() V ()
B(m, p) 1 log
_
p
1p
_
mlog(1 +e
) (1 +e
)
1
(1 /m)
P() 1 log e
N(,
2
)
2

2
/2 1
Gamma(, p) p
1
1/ log() 1/
2
IG(, ) 2/ 1/
2
2
1/

3
/2
Table IV.2 Les paramtres naturels.
IV.1.4 Les exemples classiques
Pour chacune des familles classiques, rappelons les proprits essentielles des distributions [13] :
1. Normale : Une somme de Gaussiennes indpendantes est Gaussienne.
Ex. : Bruit rsultant de la somme deets indpendants centrs (Thorme-limite central).
2. Poisson : Une somme de variables de Poisson indpendantes est encore de Poisson.
Ex. : Nombres dvnements (p.ex. pannes) arrivant sur une dure donn. Comptes dans une table
de contingence.
3. Binmiale : la variable binmiale B(m, p) est la somme de m Bernoullis B(1, p) indpendants.
Ex. : Taille dun sous-chantillon dans un chantillon de taille donne (nombre de sujets ragissant
favorablement).
4. Gamma : Si p est entier Gamma(1, p) est la somme de p v.a. E(1). Gamma(, p) Gamma(1, p).
La somme de v.a. indpendantes de loi gamma avec mme est encore une v.a. de loi gamma de
mme et les p sadditionnent. On a galement
2
n
Gamma(2, n/2).
Ex. : Dispersion, dures de vie, tout ce qui sapparente des sommes de v.a. positives.
5. Inverse gaussienne : La somme dinverses gaussiennes indpendantes de paramtres arbitraires est
encore une inverse gaussienne.
Ex. : Temps mis par une marche alatoire pour atteindre une valeur donne.
IV.1.5 Dnition des modles linaires gnraliss
On considre des donnes (x
i
, y
i
), i = 1, . . . n, o x
i
est la variable explicative et y
i
est rel.
67
27 - Dfinition
Un modle linaire gnralis pour (x
i
, y
i
)
i=1, ...n
est une distribution pour la suite (y
i
) dter-
mine par la donne de
une famille exponentielle un paramtre de nuisance f(., , )
une fonction r (dont la rciproque est appele fonction de lien)
une valeur
et un vecteur de rgression
avec les proprits suivantes (les rgresseurs x

i
sont dterministes) :
indpendance des y
i
y
i
f(y,
i
,
)(dy)
b
(
i
) = r(x
i
).
La dernire relation dtermine
i
en fonction de x
i
.
La fonction b
est bien inversible, en raison de la stricte convexit de b. Ceci se rsume un peu rapidement
par les proprits suivantes
La loi de y
i
est issue de la famille
E[y
i
] = r(x
i
)
(IV.1)
quoi on doit ajouter la caractrisation de
: Var(y
i
) =
V (r(x
i
)).
Notons en particulier que, dans le cas dune seule variable explicative, la fonction de lien fait que
la droite de rgression devient une courbe de rgression et que pour tous ces modles, part le modle
gaussien, la variance augmente avec la moyenne (plus y
i
est grand, moins les points sont attirs par la
courbe de rgression).
La quantit
joue le rle quavait prcdemment

2
. La log-vraisemblance vaut
/(, ) =
1
n
i=1
y
i
i
b(
i
) +
n
i=1
c(y
i
, ), b
(
i
) = r(x
i
). (IV.2)
Aspects pratiques. Il y a priori beaucoup de choix faire pour dterminer le modle puisquil faut
choisir la famille et la fonction de lien ; la table IV.3 dcrit les fonctions de lien g usuelles. Voici quelques
indications utiles pour le choix du modle, elles se rsument dire que lencadr (IV.1) doit avoir
un sens et privilgier le lien canonique (propos par dfaut par les logiciels) :
Le choix de la famille exponentielle : Dans lcrasante majorit des cas le choix parmi les cinq
familles prsentes prcdemment est quasiment dtermin par les valeurs prises par y (support de
).
Si plusieurs choix sont possibles les tracs de rsidus normaliss permettront souvent de dcider du
plus adquat car les modles proposent un comportement dirent de la variance comme fonction
de = r(x).
La fonction de lien sera quant elle guide par les considrations suivantes
1. Le lien canonique r = b
est un choix naturel et numriquement avantageux car beaucoup de

formules se simplient considrablement du fait que
i
= x
i
. Il est trs gnralement prfr si
rien ne sy oppose.
Ce choix peut introduire des distorsions (p.ex. E[y
i
] = e
x
i
au lieu de E[y
i
] = x
i
) qui peuvent
tre corriges par des changements de variables sur x (p.ex. en passant au logarithme).
2. Interprtation de E[y] = r(x
) : Si r a un domaine de dnition restreint (p.ex. R

+
si r(u) =
1/u), il faut que ce domaine soit raliste pour x
i
.
De plus quand x
i
varie, r(x
i
) doit prendre des valeurs raisonnables pour E[y
i
] : rester born si
lon a choisi une loi binmiale, rester positif si lon a choisi une loi gamma, etc.
Exemple. On dispose de kn blattes spares en n lots de k individus ; le i
lot est soumis une dose x

i
,
i = 1, . . . n dinsecticide. On observe le nombre de morts y
i
. Partons du modle naf :
y
i
B(k,
1
+
2
x
i
).
68
Lien = g() = r() loi can. D
r
r(D
r
)
identit N R R
logarithme log() e
P R R
+
logit log(/(1 )) 1/(1 +e
) B(1, p) R [0, 1]
loglog complmentaire log(log(1 )) 1 exp(e
) R [0, 1]
probit
1
() () R [0, 1]
puissance
()
1/
Gamma, IG R
R
+
Table IV.3 Les fonctions de lien usuelles. dsigne la fonction de rpartition de la Gaussienne.
Une colonne indique la loi pour laquelle le lien est canonique. Le lien logit est galement canonique
avec la distribution B(m, p) condition de remplacer g() par g(/m) et r() par mr().
En particulier, le lien est lidentit et
_
E[y
i
] = k(
1
+
2
x
i
)
V (y
i
) = k(
1
+
2
x
i
)(1
1
2
x
i
).
On voit tout de suite un problme : un tel modle ne peut expliquer ce qui se passe pour des doses
grandes. Lintroduction du lien canonique rsoud ici ce problme :
y
i
B(k, r(
1
+
2
x
i
)), r() =
1
1 +e
, r
1
() = log

1
.
Sur ce modle on voit que si
2
> 0 (ce qui est logique), alors r() sera toujours suprieur r(
1
). Si
lon pense que r doit pouvoir balayer toutes les valeurs (tout le monde survit dose nulle et personne
dose innie) alors on pourra, par exemple, prfrer mesurer le dosage sur une chelle logarithmique :
y
i
B(k, r(
1
+
2
log(x
i
))), r() =
1
1 +e
.
IV.1.6 Exercices
On pourra prfrer lire la partie suivante avant de faire ces exercices.
Exercice IV.1.6.1 Montrer que les modles suivants sont des modles linaires gnraliss :
1. y
i
=
_
1 si x
i
+az
i
+b
3
log(x
i
) +e
i
0
0 sinon
2. y
i
N(
0
x
1
i
z
2
i
,
2
)
3. y
i
=
_
B(1, p) si x
i
= 0
B(1, q) si x
i
= 1.
La paire (x
i
, z
i
) est le rgresseur pour lindividu i et les e
i
sont i.i.d de fonction de rpartition 1/(1+e
t
).
On explicitera , , les fonctions r et b ainsi que les rgresseurs considrer.
Exercice IV.1.6.2 On considre le modle poissonnien y P(e
x
). crire lquation satisfaite pour
lestimateur au maximum de vraisemblance pour .
Exercice IV.1.6.3 La loi binmiale ngative B
(, ) sur N donne lentier n la probabilit

p
,
(n) =
( +n)
n!()
( +)
n+
.
Sa moyenne est et sa variance +
2
/. Pour entier, son interprtation est la suivante : soit T
linstant du
succs dans un Bernouilli de probabilit p = /(+) ; alors T suit une loi B
(, ).
1. Montrer que pour tout n, p
,
(n) tend vers une limite (que lon identiera) quand .
2. est x. Donner , b(), et b
() comme dans le tableau IV.2. Plusieurs choix sont possibles pour

; on fera celui qui conduit au paramtre de la loi de Poisson quand .
69
IV.2 Exemples
Le but de cette partie est dillustrer ce qui prcde et de montrer comment on tend les modles
exposs plus haut. Pour plus de dtails concernant les problmes destimation, voir [14] ou [8].
IV.2.1 Variable de Bernoulli : le modle logistique
Reprenons lexemple du test de linsecticide :
y =
_
1 si la blatte meurt
0 sinon
x = (dose, produit, souche) = (z, j, s)
avec
dose : variable quantitative
produit : variable qualitative 3 modalits
souche : variable qualitative 4 modalits.
Le modle linaire gnralis sans interaction naturel est
y B(1, r(x)) R
7
.
Le lien sera en pratique choisi parmi logit (modle logistique, lien canonique) ou probit ce qui
donne
P(y = 1) =
1
1 +e
x
ou P(y = 1) = (x).
Certains logiciels proposent galement de mettre un seuil :
r(z) = c + (1 c)r
0
(z)
o r
0
(.) est logit ou probit . Ce seuil permet dautoriser la contrainte P(y = 1) c quel que soit x.
Expriences de Bernoulli rptes. Reprenons lexemple prcdent mais supposons quon ait fait
des lots de blattes o toutes les blattes du mme lot ont les mmes conditions dexprience (mme x
i
).
Il est naturel de rassembler les rsultats lot par lot, sans distinguer les blattes.
Pour chaque lot, dsignons par m le nombre de blattes, X la valeur commune du rgresseur et Y le
nombre de mort. On peut considrer que lon observe les variables (Y
l
, X
l
, m
l
)
1lL
o L est le nombre
de lots (
l
m
l
= n) et la distribution de Y
l
est :
Y
l
B(m
l
, r(X
l
))
Exemple. On fait tester 7 marques de corn akes par 100 personnes. Les tests sont faits par paires :
chacun fait 21 expriences consistant goter deux marques direntes et dire laquelle il trouve plus
croustillante
1
. Dans le tableau suivant la case (i, j) indique combien de testeurs ont trouv i plus crous-
tillante que j :
1 2 3 4 5 6 7
1 0 39 64 40 61 76 46
2 61 0 65 59 55 85 60
3 36 35 0 31 25 41 35
4 60 41 69 0 41 80 28
5 39 45 75 59 0 71 37
6 24 15 59 20 29 0 18
7 54 40 65 72 63 82 0
1. D. Causeur et F. Husson, A 2-dimensional extension of the Bradley-Terry model for paired comparisons, Journal of
Statistical Planning and Inference, 2005.
70
On peut proposer le modle y
ij
B(100, r(
i
j
)) o
i
est la croustillance de la i
varit, et r doit
satisfaire r(0) = 0, 5 ce qui est bien le cas du lien canonique. Comme seules les dirences interviennent,
on peut poser
7
= 0 et il ny a que 6 paramtres, x
ij
1, 0, 1
6
. Les intervalles de conance
obtenus pour les
i
conduisent un regroupement en 3 classes o les
i
ne sont pas signicativement
distincts :
2
,
7
,
1
,
4
,
5
,
3
,
6
(par ordre de croustillance dcroissante ; on peut faire le test
sous R avec la commande lht de la bibliothque car). Notons que lon retrouve dans cet exemple un
cas de non-monotonicit des tests au sens o la p-value de H
0
:
3
=
6
est infrieure celle de
H
0
:
2
=
7
,
1
=
4
=
5
,
3
=
6
.
Mentionnons galement la possibilit de faire des modles mixtes, voir lexercice IV.2.5.3. Sous R,
ils sont traits par la fonction glmer de la bibliothque lme4
Il a t remarqu depuis longtemps que la rgression logistique et lanalyse discriminante poursuivent
essentiellement le mme but. Il est gnralement admis que lhypothse de distribution gaussienne pour
les variables explicatives est importante pour que lanalyse discriminante donne de bon rsultats ; en
particulier, en prsence de variables qualitatives la rgression logistique devrait tre meilleure
2
.
IV.2.2 Modle poissonnien
Premier exemple : On compte sur plusieurs annes, en chaque saison, le nombre daccidents sur
certaines routes
y
i
= nombre daccidents
x
i
= (nombre de voies sur la route, saison, investissement annuel en entretien de la route)
Le premier rgresseur a 2 modalits et le deuxime rgresseur en a 4. Le modle naturel est Poissonnien,
ce qui donne avec lien canonique :
y P(), log() = x
(avec ici R
6
), soit encore E[y] = e
x
. Cest un modle log-linaire. Il se peut que le lien identit soit
mieux adapt que le lien log-linaire qui implique un eet mutliplicatif des facteurs.
Si lon doit introduire une variable de normalisation p
i
(p.ex. : si les y
i
on t mesurs dans des
dpartements dirents, il est naturel de prendre en compte la population, ou la longueur totale des
routes du dpartement . . .), la rponse naturelle serait y
i
/p
i
. La faon usuelle de prendre p en compte est
dintroduire log(p) en oset (prdicteur pour lequel est connu) : E[y] = e
log(p)+x
.
Tables de contingence. Le modle poissonnien avec lien logarithmique est galement utilis pour
lanalyse des tables de contingence (n
ijk
), o n
ijk
est la rponse, les rgresseurs sont qualitatifs, et les
modles sont fabriqus avec certaines interactions, par exemple
n
ijk
P(e
+
i
+
j
+
k
+
ij
)
avec indpendance des n
ijk
(par exemple le nombre daccidents un carrefour, i = jour/nuit , j = conduc-
teur jeune/g , etc.). La probabilit pour un individu de tomber dans la case i, j, k est la proportion
dindividus quon trouvera dans cette case si lon rpte lexprience un grand nombre de fois, soit
E[n
ijk
]/E[n], dont le logarithme vaut donc
log p
ijk
= c +
i
+
j
+
k
+
ij
, c = log
p,q,r
e
p
+
q
+
r
+
pq
ce qui est une rcriture du modle. On a donc linterprtation :
p
ijk
reprsente la distribution des variables i, j, k dans lchantillon
(dans lchantillon signie ici parmi les fauteurs daccident) de mme que lestimateur habituel
p
ijk
= n
ijk
/n, qui correspond ici au modle avec toutes les interactions.
2. S.J. Press, S. Wilson, Choosing Between Logistic Regression and Discriminant Analysis, Journal of the American
Statistical Association, Vol. 73, No. 364. (Dec., 1978), pp. 699-705.
71
Le lien logarithmique permet donc de reprsenter lindpendance comme la nullit de certains coe-
cients dinteraction, ici
ij
= 0. En eet dans ce cas la probabilit dobserver (i, j, k) est proportionnelle
e
i
e
j
e
k
exprimant ainsi lindpendance des trois facteurs. Dans le cas contraire on concluerait par
exemple une surreprsentation des jeunes dans les accidents nocturnes. Les coecients
i
,
j
,
k
ne
font que reter la proportion de chaque modalit dans lchantillon ; linformation relle se trouve dans
les interactions.
La cohrence du modle poissonnien alors que le vecteur des n
ijk
suit une loi multinomiale, provient
du rsultat suivant :
Soient n
1
, . . . n
K
des v.a. indpendantes de loi de P(
k
), alors, conditionnellement

n
k
= n, la loi
de n
1
, . . . n
K
est multinomiale M(n; p
1
, . . . p
K
), p
k
=
k
/, =
k

k
. Cest immdiat en utilisant que
n P()a
P(n
1
, . . . n
K
[n) =

n
1
1
e
1
n
1
!
. . .

n
K
K
e
K
n
K
!
/
n
e
n!
=
n!
n
1
! . . . n
K
!
p
n
1
1
. . . p
n
K
K
Notons que rciproquement : Si conditionnellement leur somme n les v.a. n
1
, . . . n
K
suivent une loi
multinomiale M(n; p
1
, . . . p
K
) et si n suit une loi P(), alors, les v.a. n
k
sont indpendantes de loi
P(p
k
). Le calcul est le mme.
Exemple. Pour tudier la mobilit sociale, M. Hout
3
considre une table de contingence (p
ij
) o i (resp.
j) dsigne la catgorie professionnelle (17 modalits) du pre (resp. du ls). Il exploite lide prsente au
III.4.8 : Q = 5 avec x
1
ij
= S
i
S
j
o S
i
est lindice socioconomique de la profession (li au prestige, au
salaire, etc.), x
2
ij
= 1
i=j
S
2
i
, et les trois autres sont fabriqus dans le mme esprit avec dautres indices :
log p
ij
= c +
i
+
j
+
Q
q=1
q
x
q
ij
.
En absence dinteraction signicative, on concluera labsence de lien signicatif entre la profession du
pre et celle du ls.
Exemple.
4
On fait faire le test suivant 124 tudiants :
Le point z se trouve dans le quatrime quadrant (i.e. /2 < arg z < 0) du plan complexe. D-
montrer ou rfuter les propositions suivantes
(A) arg(z + z) = 0 (B) arg(z z) = /2
(C) z
2
est dans le troisime quadrant (D) < arg(z/ z) < 0
On sintresse aux variables Rsultat, Sexe et Question et lon rsume les donnes dans le
tableau suivant :
Hommes Femmes
A B C D A B C D
Correct 77 58 65 47 21 17 19 10
Incorrect 10 28 17 24 5 9 5 9
Non-rponse 7 8 12 23 4 4 6 11
Total 94 94 94 94 30 30 30 30
Df P(>|Chi|)
Resultat 2 3e-42
Question 3 1.00
Sexe 1 5e-32
Res : Ques 6 4.5e-07
Le tableau de droite est la table danalyse de variance ascendante donne par R. Aprs limination
des facteurs non-signicatifs, on a gard le modle R Q + S. Il ny a pas de dirence signicative de
rsultat entre les sexes, mais il existe une corrlation entre la question et le rsultat : les questions nont
pas mme dicult. Ceci se conrme bien sur les donnes.
Comme il sagit dune analyse ascendante, les chires 3e-42, 1.00 et 5e-32 correspondent au modle
additif (indpendance des facteur). Le 1.00 signie simplement quil y a autant de question de chaque
type dans lchantillon tandis que 3e-42, et 5e-32 signient quil ny a pas le mme nombre dhommes que
de femmes et que les rsultats ne sont pas uniformment distribues (il y a beaucoup plus de rponses
correctes). La nature du plan fait quil ne peut pas y avoir dinteraction signicative Sexe : Question (la
variable Sexe ne donne aucune information sur la question pose).
3. M. Hout, "Status, Autonomy and Training in Occupational Mobility." American J. of Sociology, 89 (6), 1379-1409,
1984.
4. J. Anderson, Gender-related dierences on open and closed assessment tasks, International Journal of Mathematics
Education in Science and Technology, 33(4), 495-503, 2002.
72
IV.2.3 Modle variable polytomique ordonne ; la variable latente
Exemple :
y =
_
_
_
3 si lindividu pratique du sport tous les jours
2 si lindividu pratique du sport au moins toutes les semaines
1 sinon
x = (ge, type dtudes suivies, . . .)
Introduisons la variable z
i
qui reprsente lenvie de lindividu de faire du sport et postulons le modle :
z = x +u
y = k si a
k1
< z a
k
, a
0
= , a
K
= +.
Soit P(y k) = F(x +a
k
)
o F(.) est la fonction de rpartition de u. Le lien logit revient prendre F(x) = (1 +e
x
)
1
. Si K = 2
et u est gaussienne, on retrouve le modle logistique avec lien probit (quitte changer r en 1 r, ce qui
revient changer y en 1y). Il faudra estimer mais aussi les a
k
. En pratique F sera la fonction inverse
du lien logit ou probit.
Noter que ce modle ne rentre pas rigoureusement dans le formalisme des modles linaires gnraliss.
Lanalyse peut tre ralise sous R avec la fonction polr() de la bibliothqque MASS et les tests avec
la fonction Anova() de la bibliothque car.
IV.2.4 Modle variable polytomique non-ordonne.
Soit un sondage donnant les variables suivantes :
y
i
= Distraction prfre du samedi soir
_
_
1 = spectacle
2 = tlvision
3 = visite damis
4 = autres
x
i
= (ge, sexe, . . .)
On pourra utiliser le modle avec ici K = 4 :
P(y = j) =
exp(x
j
)
K
k=1
exp(x
k
)
,
K
= 0
On peut toujours se ramener
K
= 0 quitte remplacer les
j
par
j
K
, ce qui ne change rien par
ailleurs. La condition
K
= 0 vite donc la surparamtrisation. Ce modle ne rentre pas tout--fait dans
le cadre thorique mais gnralise le modle binmial logistique. Il est trait par la fonction vglm du
package vgam de R, et par la fonction catmod de sas. Il y a ici aussi une interprtation en termes de
variable latente (exercice IV.2.5.5).
IV.2.5 Exercices
Exercice IV.2.5.1 On reprend lexemple du IV.2.1 (blattes). Quelle est la dimension de si lon
suppose une interaction entre la dose et la souche ? entre le produit et la souche ?
Exercice IV.2.5.2 On veut savoir si la prsence dun agent un certain carrefour amliore la circulation.
Pour cela on compte plusieurs fois le nombre de voitures qui attendent au carrefour en prsence et en
absence dagent. On recueille alors un tableau de donnes (n
i
, a
i
, s
i
) o n
i
est le nombre de voitures et
a
i
vaut 0 sil ny a pas dagent et 1 sinon. A t ajoute la variable s
i
qui est le sexe de lagent pour voir
si cette variable a de linuence sur lecacit.
Proposer un modle linaire gnralis pour ces donnes. Quelle est la dimension de ? Comment
tiendriez-vous compte de lheure si on lavait mise dans les donnes ?
73
Exercice IV.2.5.3 (Modle logistique mixte
5
) On a suivi les accouchements dun certain nombre
de femmes an de mesurer limportance dun risque gntique (prsence dun certain gne) sur les fausses
couches. On a le tableau suivant : On dispose en ralit des variables suivantes, o i est lindice de la
< 35 ans 35 ans
vivant fausse couche vivant fausse couche
sans risque 144 18 7 1
avec risque 121 57 8 5
femme et j le numro daccouchement pour cette femme :
y
ij
=
_
0 fausse couche
1 sinon
z
ij
=
_
0 ge < 35 ans
1 sinon
h
i
=
_
0 risque absent
1 sinon.
1. Proposer partir du tableau un test classique pour voir, pour chaque classe dges, si les chances
de fausse couche en absence ou en prsence de risque sont les mmes.
2. Soit le modle pour la probabilit p
ij
dune fausse couche au j
accouchement de la i
femme :
log
_
p
ij
1 p
ij
_
= +az
ij
+bh
i
.
De quel type de modle sagit-il ? crire la vraisemblance des rponses y
ij
.
3. On propose le modle mixte suivant :
log
_
p
ij
1 p
ij
_
= +
i
+az
ij
+bh
i
.
o les
i
sont des v.a. normales i.i.d N(0,
2
). Pourquoi nest-il pas raisonnable de considrer le
modle (non-mixte) o les
i
sont des paramtres ? Interprter ce modle, en particulier concernant
la prsence ventuelle dautres facteurs inconnus. Interprter les tests a = 0 , b = 0 , et
= 0 .
Exercice IV.2.5.4 On reprend lexercice II.3.6.3. La dicult est en fait mesure par une note entre 1
et 3. Proposer un modle linaire gnralis mixte (sinspirer de lexercice prcdent).
Exercice IV.2.5.5 Vrier que le modle variable polytomique non-ordonne correspond au un modle
variable latente suivant : on tire K variables i.i.d. de loi de densit exp(x exp(x)) sur R (c.--d.
que u
k
suit une loi de Gumbel), puis on pose z
k
= x
k
+u
k
et enn y = k si = z
k
z
j
pour tout j.
IV.3 Estimation de
et
IV.3.1 Lestimateur du maximum de vraisemblance

Dans tout ce paragraphe on suppose connu. En vertu de (IV.2), pour estimer
au maximum de
vraisemblance, il faut maximiser en
/() =
1
n
i=1
y
i
i
b(
i
), b
(
i
) = r(x
i
). (IV.3)
On a abusivement oubli les termes c(y
i
, ) qui ne jouent aucun rle. Prcisons tout de suite que pour
des fonctions r arbitraires, il peut trs bien y avoir des maximums locaux. La drive est
/
() =
1
n
i=1
(y
i
b
(
i
))
5. H.H. Hundborg, M. Hjbjerre, O.B. Christiansen & S.L. Lauritzen, Familial Tendency to Fetal Loss . . ., Statistics in
Medicine, 19, 2147-2168, 2000.
74
et la relation liant
i
donne b
(
i
)
= r
(x
i
)x
i
. En substituant, et en introduisant la fonction
variance V () = b
(), on trouve
/
() =
1
n
i=1
y
i
i
V (
i
)
r
(x
i
)x
i
,
i
= r(x
i
).
On voit que lannulation de cette fonction de est un problme a priori assez compliqu. Si lon introduit
les variables
x
i
= r
(x
i
) x
i
D = diag(V (x
1
), . . . V (x
n
))
1
on a
/
() =

X
T
D(y ). (IV.4)
Divers algorithmes bien tablis existent pour annuler cette fonction complique de ; on verra le plus
utilis au IV.3.3.
Cas du lien canonique. Si r = b
, lquation devient X
T
(y ) = 0. La rsolution de (IV.3) ne pose
aucun problme fondamental car la fonction maximiser est concave en .
IV.3.2 Proprits asymptotiques
On sintresse lasymptotique quand le nombre n dobservations (x
i
, y
i
) tend vers linni.
Lestimateur

n
de
est lestimateur au maximum de vraisemblance. Il est impossible de montrer

que les hypothses ncessaires lapplication des thormes concernant les proprits asymptotiques du
maximum de vraisemblance sont vrifes en toute gnralit. Supposons-les satisfaites et appliquons les
rsultats de lannexe A. On a alors la convergence presque sre de

n
vers
. Si lon pose (matrice

dinformation de Fisher)
J
n
= E
_
/
n
(
)/
n
(
)
T
=
1

X
T
D

X (IV.5)
(cf formule (IV.4)) on a alors normalit asymptotique
J
1/2
n
(
) N(0, Id).
Dans ces rsultats, on peut remplacer J
n
par

J
n
, matrice calcule comme dans la formule (IV.5) sauf
que les normalisations sont faites avec les paramtres estims.
IV.3.3 Estimation de
et
La consistance de

implique (sous certaines hypothses) que
=
1
n
i
V (
i
)
1
(y
i

i
)
2
(IV.6)
est un estimateur consistant de
. Pour avoir une formule analogue au cas linaire, on pourra prfrer

remplacer n par n p au dnominateur. On vrie cependant facilement sur des simulations que cet
estimateur est frquemment assez mauvais ; il est meilleur de faire une estimation au maximum de
vraisemblance (ce qui est facile car il sagit de maximiser une fonction dune seule variable).
Un algorithme destimation de
. Lalgorithme de Newton pour la maximisation de /() est :
new
= /
()
1
/
().
Malheureusement la matrice de drive seconde est gnralement dicile calculer. On prfre la
remplacer par lapproximation
J
n
(cf. A.1), do lalgorithme
new
= +
_
X
T

DX
_
1
X
T
D( y )
o tout est calcul avec la valeur courante de .
75
IV.4 Tests et analyse de dviance
IV.4.1 Dviance.
La dviance est utilise comme mesure dadquation du modle aux donnes. Elle vaut
D(
) = 2(/
s
/(
))
o /
s
est la vraisemblance du modle satur, c--d du modle avec un paramtre dirent pour chaque
donne. Pour ce modle,
i
= y
i
et donc :
/
s
=
1
n
i=1
y
i
i
b(
i
), b
(
i
) = y
i
.
Noter que D(
) ne dpend pas de ; dans le cas du modle normal, elle nest autre que le RSS. Cette
quantit dicile interprter na dintrt que purement indicatif. La dviance normalise,
1
D(
),
est plus troitement lie la vraisemblance et donc intervient naturellement dans les tests.
IV.4.2 Tests
On utilise les mthodes gnrales proposes lappendice A en exploitant les expressions obtenues
pour la vraisemblance et la matrice dinformation de Fisher (IV.5). En particulier, comme la dirence
de dviance normalise entre deux modles de mme nest autre que le logarithme du rapport de
vraisemblance, on a asymptotiquement sous H
0
: (D
0
D
1
)/
2
p
1
p
0
(cf A.3.1), do le test
D
0
D
1

2
p
1
p
0
(1 ).
Pour les modles pour lesquels nest pas connu, il sera en pratique estim sur le modle le plus compliqu
(suppos valide), et par analogie avec le cas linaire, on fait le test :
D
0
D
1
(p
1
p
0
)
f
p
1
p
0
,np
1
(1 ).
Ces tests tant bass sur les rsultats asymptotiques, il est plus prudent, si n est petit, destimer direc-
tement (par simulation dchantillons sous H
0
) les quantiles dsirs de la loi sous H
0
de la statistique
considre (cf A.3.4).
Noter que lorsque est connu (modle binomial ou poissonnien) le test du
2
reste valide mme si
H
1
donne un residu nul (p.ex. n = p), contrairement au test de Fisher. Ceci permet de faire des tests de
H
0
contre le modle complet dans le cas des tables de contingence du IV.2.2.
Mentionnons galement la statistique de Pearson, utilise au mme titre que la dviance et qui vaut
i
(y
i
i
)
2
/V (
i
). Elle vaut galement RSS dans le cas Gaussien. Cette statistique permet de faire un
test dajustement (goodness of t test) en comparant .
IV.4.3 Analyse de dviance
La dviance va jouer un rle analogue au RSS de lanalyse de variance. Un exemple de table danalyse
de dviance sera
Il sagit ici de tests embots. La premire colonne contient p p
0
, la deuxime est la diminution de
dviance D
0
D entre deux modles successifs, la troisime est la dviance, et la dernire le niveau (pour
un
2
pp
0
sur D
0
D, car = 1).
Pour les modles binomiaux ou poissonniens, on calcule souvent une estime de , avec par exemple
la formule (IV.6), pour vrier la justesse du modle. Comme est le rsidu de Pearson, on utilise un
test du
2
pour comparer sa valeur thorique (cest un test trs approximatif).
Courbe ROC pour le modle logistique. Le but du modle logistique tant souvent de faire de
la prdiction (cf lexemple du Credit Scoring page 9) on sintresse la performance de la mthode
de classication y = 1
x
>
o est un seuil choisir. Lide est de calculer pour chaque valeur de
la probabilit de fausse alarme (dcider tort y = 1) et la probabilit de bonne dtection (dcider
76
Df Dev. Resid. D Pr(> )
NULL 1025.57
Sexe 1 228.93 796.64 0.00
Classe 2 73.05 723.59 0.00
Age 1 28.45 695.14 0.00
Sexe*Classe 2 30.30 664.84 0.00
Sexe*Age 1 14.89 649.95 1e-04
Classe*Age 2 8.58 641.37 0.01
Sexe*Classe*Age 2 1.73 639.64 0.42
Table IV.4 Analyse de dviance. Les individus sont 756 passagers du Titanic pour lesquels on
possde lge, le sexe et la classe (1re, 2me ou 3me) ; source : OzDASL. La rponse est 1 ou 0
selon que le passager a survcu ou non. On a mis un modle binmial avec lien logit. La sortie est
celle de R.
correctement y = 1). Elles sont estimes, de prfrence sur un ensemble de donnes nayant pas servi
lestimation de (ou par une mthode de type validiition croise), par les formules
PFA =
i
1
y
i
=1,y
i
=0
/
i
1
y
i
=0
, PD =
i
1
y
i
=1,y
i
=1
/
i
1
y
i
=1
.
La courbe contenant les points de coordonnes (PFA, PD) est la courbe ROC (Receiver Operating
Characteristic curve). Le modle est dautant meilleur que la courbe longe les axes x = 0 puis y = 1.
Dans notre exemple, si lon considre lvnement y = 1 comme tant la mort du passager, on trouve la
courbe suivante (M=mort, S=Survie) :
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
P(M|S)
P
(
M
|
M
)
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
seuil
P(M|S) P(S|M)
On voit sur la gure de gauche (courbe ROC) lexistence dun seuil permettant de prdire 80% des
morts en ne faisant mourir tort que 20% des survivants ; la bissectrice correspond la performance
de lalgorithme consistant choisir au hasard 0 ou 1. La gure de droite reprsente lvolution des deux
risques en fonction du seuil ; on y voit que le seuil mentionn est un peu suprieur 0,4.
Laire sous la courbe ROC. Il est facile de vrier quelle vaut
A =
i,j
1
x
i

>x
j

1
y
i
=0,y
j
=1
i,j
1
y
i
=0,y
j
=1
=

P(x
< x
[ y = 0, y
= 1)
la probabilit empirique que pour deux individus de rponses distinctes pris au hasard, lordre obtenu
sur les x
soit conforme aux rponses. Cest pourquoi S est souvent pris comme mesure de qualit du
modle.
Odds ratio (rapport des cotes). Considrons le modle additif. Soit p
f
la probabilit de survie pour
77
une femme x
f
et p
h
la probabilit de survie pour un homme x
h
. On a en raison du lien logistique
p
f
1 p
f
=
1
1+e
x
f
1
1
1+e
x
f
= e
x
f
et par consquent le rapport avec la mme expression pour un homme donne

p
f
1 p
f
1 p
h
p
h
= e
(x
f
x
h
)
et donc si la femme et lhomme ont mme ge et mme classe, cette quantit ne changera pas, quel que
soit lge ou la classe quils partagent car le modle est additif. Ce rapport est appel odds ratio (OR)
ou rapport des cotes. Notons que le rapport plus naturel considrer p
f
/p
h
(appel risque relatif
RR) dpend lui des autres variables ; il est donc ici inadquat. Il faut noter que si lOR est malais
interprter, il est frquent que les probabilits p
h
et p
f
soient petites (particulirement quand lOR est
trs petit ou trs grand), auquel cas OR et RR concident presque.
On trouve sur les donnes Titanic partir du modle Sexe+Classe*Age
p
f
1 p
f
1 p
h
p
h
= 14, 7
Il valait mieux tre une femme. Si lon fait le modle Age*Classe+Sexe*Classe, on trouve un odds ratio
par classe :
OR(1) = 39, 9 OR(2) = 76, 8 OR(3) = 4, 43.
Cest en deuxime classe que la dirence entre sexes est la plus criante. Pour comparer les classes, on
peut faire le modle Age*Sexe+Classe et comparer les paires 1 et 2, puis 2 et 3 :
OR(1/2) = 69, 7 OR(2/3) = 3, 04.
Si une variable explicative est quantitative, par exemple lge, il arrive quon calcule lOR associ une
variation de la variable entre deux individus (p.ex. =10 ans) :
log
_
p
a+
1 p
a+
.
1 p
a
p
a
_
=
a
.
Parenthse : OR et RR en biostatistiques. Oublions ici les autres variables et considrons la
table de contingence quatre cases correspondant au croisement des variables h/f et s/d (survie/dcs).
Lobjet est de proposer une mesure de linuence de la premire variable sur la ralisation de la seconde.
De manire gnrale lOR est souvent prfr pour les raisons suivantes (en dehors de lavantage dj
mentionn li limpossibilit destimer RR en prsence dautres variables ; rappelons aussi quil est
frquent que les probabilits p
h
et p
f
soient petites auquel cas OR et RR concident presque) :
Si lon remplace lvnement survie par lvnement dcs pour le calcul du RR, on obtient
1p
h
1p
f
qui nest pas fonction du RR de dpart, tandis que lOR est simplement remplac par son
inverse car, avec des notations videntes on a OR=
N
hs
N
fd
N
hd
N
fs
. Il y a donc en fait deux RR mais un
seul OR.
Lors des tudes de cas tmoins (case-control studies) on tire dabord au hasard un nombre
quivalent de personnes guries (ayant survcu. . .) et dautres malades (dcdes . . .) an davoir
susament dindividus dans les deux situations et ensuite on spare chaque groupe en deux
(traitement/non-traitement, classe1/classe2 . . .). Lexemple suivant
6
concerne les accidents veineux
thrombo-emboliques en Europe selon lutilisation ou non de contraceptifs oraux o lon a tir au
hasard 433 personnes ayant eu un accident veineux et 1044 nen ayant pas eu
Contraceptifs Pas de contraceptifs Total
Cas daccident 265 168 433
Contrles 356 688 1044
Total 621 856 1477
6. Table 3 de larticle : Venous thromboembolic disease and combined oral contraceptives, The Lancet, pp. 1575-1582,
1995
78
Cette proportion de 433/1044 ne rete ici aucune la ralit ; on ne peut pas estimer la probabilit
dun accident pour un individu utilisant un contraceptif, qui na rien voir avec 265/621, et pas da-
vantage RR. En revanche 265/433 est bien une estimation de la probabilit dutiliser un contraceptif
sachant que lon a eu un accident veineux, et de mme pour les trois autres rapports analogues ; par
consquent si lon remarque que par la formule de Bayes (A=accident, C=contraceptif,

A=non-A),
on obtient
OR =
P(A[C)P(

A[
C)
P(

A[C)P(A[
C)
=
P(A, C)P(

A,

C)
P(

A, C)P(A,

C)
=
P(C[A)P(

C[
A)
P(C[
A)P(

C[A)
=
265 688
168 356
3.
La probabilit daccident tant sans doute trs faible, 3 est proche du RR = P(A[C)/P(A[
C).
IV.5 Analyse des rsidus
Les rsidus standardiss sont
r
i
=
t(y
i
) t(
i
)
t
(
i
)
_
V (
i
)
1 h
i
, h
i
= D
ii
[

X(

X
T

X)
1

X
T
]
ii
= D
ii
x
i
(

X
T
D

X)
1
x
T
i
o t(.) est une certaine fonction. Si t(x) = x, on retrouve une formule trs analogue celle des modles
linaires, sauf quil faut prendre garde utiliser les rgresseurs normaliss. Les rsidus de Pearson sont
simplement (y
i

i
)/
_
V (
i
).
Le but de lintroduction de t est davoir pour r
i
une loi aussi proche que possible de la loi normale
standard. Dans [3], il est propos
t(x) =
_
x
0
V ()
1/3
d.
En pratique, on peut soit utiliser cette formule quand on peut la calculer, soit utiliser une approximation,
soit prendre t(x) = x et estimer les quantiles de r
i
par simulation.
Les donnes aberrantes seront donc dtectes par les valeurs anormalement grandes des [r
i
[. Les
donnes isoles pourront tre repres avec les h
i
. Pour le reprage des donnes inuentes, on peut
utiliser la distance de Cook
D
i
=
(y
i

i
)
2
V (
i
)
h
i
(1 h
i
)
2
.
On trace souvent les rsidus en fonction de la rponse pour conforter lhypothse dhomoscdaticit, et
reprer les individus aberrants. Il est dicile en pratique de faire une analyse plus ne.
79
80
V
Rgression non-linaire avec bruit
additif
V.1 Modle
On se donne le modle pour les donnes :
y
i
= f(
, x
i
) +u
i
, u N(0,
2
Id).
On suppose le vecteur u gaussien pour simplier lexpos. est le paramtre estimer. Il arrive que
la variance du bruit soit galement modlise comme une fonction des variables explicatives, E[u
2
i
] =
(
, x
i
)
2
, avec souvent une forme qui suggre quelle augmente avec la moyenne, typiquement
2
=
a + b[f(, x
i
)[
q
. En ralit les x
i
ne jouent aucun rle et il est bien plus simple de considrer le modle
gnral
y
i
= f
i
(
) +u
i
, u N(0,
2
Id).
o les f
i
sont des fonctions direntes connues.
On conseille les rfrences [11, 12] pour ce qui concerne les exemples et les liens avec la pratique, et
[1] pour les aspects plus thoriques
1
.
Exemple 1 : Modle pharmaceutique monoexponentiel. On mesure lvolution de lecacit dun
mdicament (concentration en produit actif) au cours du temps (x
i
reprsente le temps) :
y
i
=
1
e
2
x
i
+u
i
.
Lquation physique est y =
1
e
2
x
et lon peut tout aussi bien prendre le modle log y
i
= log
1

2
x
i
+ u
i
qui est linaire, mais si u
i
est i.i.d. dans un cas, il ne peut ltre dans lautre ; il y a donc un
choix faire.
Exemple 2 : Modles de microbiologie prvisionelle. Il sagit de modliser le dveloppement de
bactries (Listeria, etc.) au cours du temps. Soit y le nombre de bactries et x le temps, les deux modles
classiques suivants sont le modle de Baranyi et Roberts et le modle de Rosso :
f
BR
(, x) =
0
+

1
2
+e
3
x
, f
R
(, x) =
_

0
, x <
2
+e
3
x
, x
Le deuxime modle na que 4 paramtres en raison de la condition de continuit en x = .
Exemple 3 : Cintique chimique. On considre une raction enzymatique
E + S
k
1
k
0
ES
k
2
E + P (E = Enzyme, S = Substrat, P = Produit)
Le substrat [S] est converti en produit [P].
1. ou encore : R. Jenrich, Asymptotic Properties of Non-linear Least Squares Estimators, Ann. Math. Stat, 40, 633-643,
1963.
81
Si [S] [E] et k
0
k
2
on a la relation de Michealis-Menten qui fait intervenir la concentration
initiale [E
0
] en E
2
d[P]
dt
= V
m
[S]
K
s
+ [S]
, V
m
= k
2
[E
0
], K
s
=
k
0
+ k
2
k
1
.
Si lon prend des mesures (x
i
, y
i
) o y
i
= d[P]/dt et x
i
= [S] on est conduit au modle de rgression
y
i
=

1
x
i
x
i
+
2
+u
i
.
Exemple 4 : Evolution dune tumeur
3
. On postule le modle gnral suivant pour lvolution du
diamtre dune tumeur en traitement :
x(t) = x
0
_
1 +k
1
t k
2
T(1 e
(t)
+
/T
) k
3
(t )
+
_
.
On suppose que le traitement a dbut t = 0. Parmi les quatre termes, les deux derniers nont deet
que pour t > , et les deux premiers indiquent une vitesse dvolution linaire. Le paramtre reprsente
linstant initial dune nouvelle phase au cours de laquelle la vitesse dvolution chute dabord k
1
k
2
k
3
pour passer progressivement k
1
k
3
. On pose = (k
1
, k
2
, k
3
, T, ) et lon postule le modle suivant
pour les observations y
ij
du diamtre de la tumeur du patient i au j
e
instant de mesure t
ij
y
ij
= x(t
ij
,
i
) +e
ij
o lon a ajout
i
pour indiquer que le paramtre dpend du patient. Le modle propos pour cette
dpendance est
i
= X
i
o X
i
est un vecteur ligne contenant les variables explicatives et est une matrice dont la k
e
colonne
permet la prdiction de la la k
e
composante de
i
. En ralit, les auteurs dsirent prendre en compte le
fait que la relation ci-dessus est incomplte, et quil reste une partie non-explique, alatoire, dans les
paramtres, si bien que le modle nalement considr pour
i
est
i
= X
i
+
i
,
i
N(0, ).
Il sagit dun modle de donnes longitudinales eets alatoires. La matrice donne lordre de grandeur
de lincertitude sur les paramtres prdits, et donne galement de possibles corrlations entre eux.
V.2 Estimation des paramtres
La log-vraisemblance (du modle variance xe) est
1
2
2
n
i=1
(y
i
f
i
())
2
nlog() si bien que
la mthode du maximum de vraisemblance conduit
n
= arg min
Q(), Q() =
n
i=1
(y
i
f
i
())
2
.
La solution de ce problme peut tre numriquement assez dicile trouver et ce point ne sera pas
discut ici. On peut ensuite estimer
, au maximum de vraisemblance ou par validation croise :

2
MV
=
1
n
Q(
),
2
CV
=
1
n
n
i=1
(y
i
f
i
(
(i)
))
2
o
(i)
est obtenu sans utiliser la i
donne.
2. On atteint rapidement un quilibre o
d[ES]
dt
= 0, ce qui conduit k
1
[S][E] k
0
[ES] k
2
[ES] = 0. Il ne reste plus
qu liminer [E] laide de [E
0
] = [E] + [ES], puis remplacer [ES] par son expression en fonction de [E
0
] et [S] dans
d[P]
dt
= k
2
[ES].
3. Bastogne & al., Phenomenological modeling of tumor diameter growth based on a mixed eects model. Journal of
Theoretical Biology. 2010 ;262 :544552.
82
V.3 Utilisation du bootstrap et du Monte-Carlo
On dmontre mathmatiquement des proprits de convergence, mais elles sont de nature asympto-
tique, et leur validit pour n ni peut dpendre trs fortement de chaque cas particulier. Il conviendra
de vrier le bon fonctionnement des algorithmes utiliss par des simulations (
) connus ; elles per-

mettront de
1. Vrier les proprits de convergence et la validit des algorithmes
2. Estimer la matrice de covariance de

et fournir des intervalles de conance.
On peut faire ces simulations de direntes faons :
1. Simulation (ou bootstrap paramtrique). Gnrer des donnes avec des (, ) dirents,
et ventuellement les x
i
de lexprience, ceci S fois (p.ex. S = 10000) :
y
s
i
= f
i
() +u
s
i
, u
s
N(0,
2
Id), i = 1, . . . n, s = 1, . . . S.
Les estimes

s
permettent de vrier le bon comportement de lalgorithme, et mme dobtenir,
par exemple, une estimation de la variance destimation de

sous la loi (, ) :
V ar(, )
1
S
S
s=1
(
s
)(
s
)
T
.
Le choix =

et = dans cette exprience conduit une estime de V ar(
, ) qui est (on peut

lesprer) un bon estimateur de V ar(
), variance de

.
De mme, soit (a prioiri proche de
) et un (,
) tel que lintervalle I = [ , +
] contienne
95% des

s
; alors [
s
+ ] pour 95% des valeurs de s, et [
s
+ ] est donc un
intervalle de conance de niveau approximativement gal 5%. Ce qui conduit utiliser [
,

+]
comme intervalle de conance ; cette dmarche prsuppose que la statistique

est (localement)
pivotale car la paire (,
) na pas t calcule avec
(inconnu) mais avec un autre suppos

proche (en pratique

). Sinon il faut en toute rigueur prendre une paire (,
) qui convienne pour

toute valeur de .
2. Bootstrap sur les rsidus. Pour estimer la loi de

, on simulait ci-dessus de nouvelles obser-
vations avec la loi donne par (
, ). On se propose ici de modier la simulation des rsidus : on

gnre de nouveaux y
i
avec les x
i
de lexprience et

y
b
i
= f
i
(
) +u
b
i
, b = 1, . . . B
o chaque u
b
i
sera tir indpendamment partir dune loi uniforme sur lensemble u
1
, . . . u
n
, la
suite u tant forme des u
i
= y
i
f
i
(
) (ou mieux y
i
f
i
(
(i)
)) empiriquement recentrs
4
.
On dispose donc maintenant de B suites de donnes et B estimateurs

b
, dont la variance empirique
donne une estime de la variance de

.
Variante : Le wild bootstrap est recommand si les rsidus ne sont pas i.i.d. Il vite de mlanger
des rsidus entre individus. Il sagit de prendre u
b
i
= z
i
u
i
o les z
i
sont tirs avec la loi suivante
5
z
i
=
_
(1
5)/2 avec probabilit (1 +
5)/(2
5)
(1 +
5)/2 avec probabilit (1 +
5)/(2
5).
Cette variable satisfait E[z] = 0, E[z
2
] = E[z
3
] = 1 (noter que z
i
est racine de x
2
x 1 = 0). On
a donc prserv les moments jusqu lordre trois.
V.4 Proprits asymptotiques
Pour les dmonstration et dtails techniques concernant cette partie, nous renvoyons [1]. On sin-
tresse au comportement de lestimateur quand le nombre de donnes n augmente. Sous les hypothses
4. D. A. Freedman, "Bootstrapping Regression Models", Ann. Stat. Vol. 9, No. 6 (Nov., 1981), pp. 1218-1228.
5. R.Y. Liu, Bootstrap procedures under some non-i.i.d. models, Ann. Stati. 16 (1988), 4, 1696-1708.
E. Mammen, Bootstrap and wild bootstrap for high dimensionnal linear models, Ann. Stat. (1993) 21, 255-285
83
habituelles dans le cadre du maximum de vraisemblance, on aura la convergence presque sre de

n
vers
avec la normalit asymptotique quand n
1/2
n
(
) N(0,
2
Id)
n
=

X
T

X,

X =
_
_
_
x
1
.
.
.
x
n
_
_
_, x
i
=
f
i
(
f
i
(
) est ici un vecteur ligne. On peut remplacer
par

n
dans la calcul de
n
, auquel cas on notera
cette matrice

n
.
V.5 Rgions de conance
V.5.1 Rgions thoriques
Des rsultats de lannexe A, on dduit les rgions de conance (asymptotiques) de niveau aprs
remplacement the
par
R
(Y ) =
_
:
Q() Q(
)

2

2
p
(1 )
_
ou
_
:
1

2
(
)
2
p
(1 )
_
.
o Y dsigne lensemble des donnes.
V.5.2 Ajustement du niveau par simulation ou bootstrap
La rgion de conance R
(Y ) a un niveau rel
dirent de . On peut lestimer partir des donnes

bootstrappes (sous

) Y
b
:
sera donn par la proportion de b tels que

/ R
(Y
b
).
V.5.3 Intervalles de conance
En appliquant les mmes rsultats du A.2 avec g() =
j
, on obtient lintervalle de conance
I
(Y ) = [
nj
,

nj
+], = [(
n
)
1
]
1/2
jj
t
n1
(1 /2)
o lon a remplac la racine dun
2
par un Student pour avoir une formule analogue au cas linaire, cf
III.2.1, ce qui ne change rien dans le cadre asymptotique n .
V.6 Tests
De la mme faon, on a les tests classiques de lannexe A. Par exemple, le test du maximum de
vraisemblance pour g() = 0 scrit nlog
Q(
0
n
)
Q(
n
)

2
q
(1 ) o

0
n
est lestime au maximum de
vraisemblance sous la contrainte g() = 0, et q est la dimension de g.
Aspects pratiques. Pour n petit, le seuil
2
q
(1 ) est une mauvaise approximation du seuil rel. Il
sera bon de rvaluer le quantile en faisant des simulations du membre de gauche sous H
0
. Notons pour
un ensemble de donnes Y , T(Y ) = log
Q(
0
n
)
Q(
n
)
, alors on pourra employer la mthode suivante valide pour
toute statistique de test T(Y ) :
1. Estimer

0
n
(Y )
2. Simuler des ensembles des donnes Y
s
(ou Y
b
) comme au V.3 sous la loi associe

0
n
(Y )
3. Calculer les T(Y
s
)
4. le seuil sera la valeur telle quune proportion seulement des T(Y
s
), s = 1, . . . S dpassent cette
valeur.
5. la p-value associe T(Y ) sera la proportion de s tels que T(Y
s
) > T(Y ).
84
V.7 Analyse des rsidus
En linarisant le modle au voisinage de
, on obtient par des procds standard lapproximation du

residu standardis
r
i
=
y
i
f
i
(
1 h
i
h
i
=
_
X(

X
T

X)
1

X
T
ii
.
Pour la dtection de donnes inuentes, on a la statistique de - :
C
i
=
h
i
p(1 h
i
)
r
2
i
.
Ces statistiques sont des indicateurs qui permettent de dtecter des individus particuliers ; ils sont bass
sur une linarisation qui peut tre trs approximative pour des n petits.
85
86
A
Asymptotique du maximum de
vraisemblance
A.1 Thormes-limite
On se donne une famille de lois P
,x
dpendant dun paramtre R
d
et dun rgresseur x; elles
possdent une densit p
,x
(y) par rapport une mesure commune
x
(dy). On observe une suite de
variables alatoires (y
i
)
i=1, ...n
indpendantes de loi P
,x
i
.
Lestimateur au maximum de vraisemblance de
, la vraisemblance est
n
= max
/
n
()
/
n
() =
i
log p
,x
i
(y
i
).
On dsignera par /
et /
les drivs premires (vecteur) et seconde (matrice) de la fonction /(). Les

rsultats qui suivent sobtiennent heuristiquement sans dicult, les preuves rigoureuses sont en revanche
dlicates. La matrice dinformation de Fisher est dnie par
I
n
() = E
[/
n
()] = E
_
/
n
()/
n
()
T
.
Sous certaines hypothses que nous ne dtaillerons pas, et qui ont essentiellement trait dune part la
rgularit en de la fonction p
,x
(y) et dautre part au fait que la suite

n
reste borne, et en supposant
de plus que
Hypothse : I
n
(
)
1
0
(typiquement I
n
(
) est dordre n) on obtient la convergence presque sre de

n
vers
quand n
tend vers linni. Lhypothse est en dfaut lorsque la loi des donnes ne dpend pas (ou pas assez) de
, ce qui implique bien entendu que
ne peut pas tre estime partir de ces dernires.

La proprit de loi des grands nombres suivante (somme de variables indpendantes)
I
n
()
1
/
n
() Id.
permet davoir aussi les estimateurs simples suivants de I
n
(
) :
I
n
(
) /
n
(
n
) I
n
(
n
)
valides sous des hypothses de rgularit raisonnables et couramment utiliss ; dans la suite, I
n
dsignera
I
n
(
) ou un estimateur consistant cette matrice.

On montre ensuite la normalit asymptotique des scores
I
1/2
n
/
n
(
) N(0, Id)
87
Cest une simple consquence du thorme-limite central. En crivant la drive de la log-vraisemblance
au voisinage de
il vient
0 = /
n
(
n
) /
n
(
) + (
)/
n
(
)
soit
/
n
(
)(
) /
n
(
)
et lon montre alors la normalit asymptotique de lestimateur
I
1/2
n
(
) N(0, Id)
On en dduit galement, en dveloppant /
n
au voisinage de

n
, la convergence en loi de la dviance
vers un
2
p
2(/
n
(
) /
n
(
n
))
2
p
.
Normalit des fonctions de lestimateur. Supposons que I
n
/n converge vers une matrice I. Soit g
une fonction valeurs dans R
q
, en dveloppant au voisinage de

n
:
g(
n
) g(
) = g(
n
)(
)
do
n(g(
n
) g(
)) N(0, G
T
I
1
G), G = g(
).
Dans la suite on supposera que q p, que la drive de g est de rang plein au voisinage de
et lon
notera :
I
g
n
=
_
G
T
n
I
1
n
G
n
1
, G
n
= g(
n
).
A.2 Rgions de conance
Des rsultats prcdents, on dduit aussitt les rgions de conance asymptotiques de niveau
R
= : 2(/
n
() /
n
(
n
))
2
p
(1 )
et
R
= : /
n
()I
n
/
n
()
2
p
(1 )
et pour les fonctions (en particulier g() = )
R
= v : (g(
n
) v)
T
I
g
n
(g(
n
) v)
2
q
(1 )
A.3 Tests
On veut tester lhypothse gnrale
H
0
: g(
) = 0
pour une certaine fonction g valeurs dans R
q
et un niveau 1 .
88
A.3.1 Test du rapport de vraisemblance
Soit

0n
lestimateur au maximum de vraisemblance de sous la contrainte g() = 0. On peut vrier
que si g(
) = 0
I
1/2
n
(
0n
) = PI
1/2
n
(
) +O(|
|
2
)
o P = Id I
1/2
n
g
n
I
g
n
g
n
I
1/2
n
est un projecteur orthogonal de rang q. On montre alors facilement que
sous H
0
2(/
n
(
n
) /
n
(
0n
))
2
q
.
Do le test : Rejeter H
0
si 2(/
n
(
n
) /
n
(
0n
))
2
q
(1 )
o
2
q
(.) dsigne la fonction quantile du
2
q
.
A.3.2 Test des scores
On montre de manire analogue que sous H
0
/
n
(
0n
)I
n
/
n
(
0n
)
2
q
.
Do le test : Rejeter H
0
si /
n
(
0n
)I
n
/
n
(
0n
)
2
q
(1 ).
Le plus simple sera ici de prendre I
n
= /
n
(
0n
).
A.3.3 Test de Wald
Il se dduit de la normalit de g(
n
) :
Rejeter H
0
si g(
n
)
T
I
g
n
g(
n
)
2
q
(1 ).
En particulier, pour tester H
0
: R
= l, on a :
Rejeter H
0
si (R
l)
T
(RJ
1
n
R
T
)
1
(R
l) >
2
q
(1 ).
A.3.4 Aspects pratiques.
Pour n petit, le seuil
2
q
(1 ) est une mauvaise approximation du seuil rel. Il sera bon de rvaluer
le quantile en faisant des simulations du membre de gauche (ou en utilisant le bootstrap, cf chapitre V).
Notons pour un ensemble de donnes Y , T(Y ) = 2(/
n
(
n
(Y )) /
n
(
0n
(Y ))), alors on pourra :
1. Estimer

0n
(Y )
2. Simuler des ensembles de donnes Y
s
comme au V.3 sous la loi associe

0n
(Y )
3. Calculer les T(Y
s
)
4. sera la proportion de s tels que T(Y
s
) > T(Y ).
89
90
B
Slection de modles
La situation est la suivante : on se donne plusieurs modles quon identie et lon veut choisir le
meilleur, et par exemple savoir si un modle compliqu est justi. Si ce choix est motiv par un besoin
de faire de la prdiction, les solutions que lon va voir dans la suite sont gnralement bonnes. Si au
contraire il sagit de faire de linterprtation (p.ex. savoir si telle ou telle variable importe, savoir si
le modle est linaire ou pas), cest beaucoup plus dicile, particulirement si lon a choisir parmi
un nombre inni de modles. Par exemple, un modle non-linaire identi peut avoir des perfomances
statistiquement tout--fait raisonnables mme si le vrai modle est linaire ; en ce cas le modle non-
linaire sera bon en prdiction mais linterprtation juste est la linarit. De mme on peut se permettre,
en prdiction, de prendre trop de rgresseurs en compte, du moment que le modle estim leur donne un
poids susament faible. Cette marge de manuvre rend le problme de la slection pour la prdiction
plus simple.
On a dj vu une mthode de slection pour linterprtation permettant de dcider entre deux modles
embots, cest le test de Fisher. Il se gnralise en (cf A.3.1) :
Rejeter H
0
si 2(/
1
(y) /
0
(y))
2
q
(1 )
o /
i
(y) est la log-vraisemblance de y = (y
1
, ..y
n
) sous H
i
et q = p
1
p
0
est la dirence entre le nombre
de paramtres sous chaque hypothse. Le principe du test de Fisher est de ne refuser lhypothse simple
H
0
quen cas de valeur extrme de la statistique, et il est paramtr par .
On prsente ici des mthodes plus gnrales qui conviennent pour des modles non-embots, dans
un cadre non-linaire, et qui nutilisent pas de seuil.
Appelons p le nombre de paramtres ; il est clair que le modle le plus compliqu (p grand) aura
gnralement lerreur de prdiction la plus faible. Plusieurs critres ont ts proposs pour les modles
de rgression, ils pnalisent les p grands erreur de prdiction

u
2
i
constante :
Validation croise : CV =
1
n
n
i=1
u
2
i
/(1 h
i
)
2
(cf exercice II.2.9.10)
Critre dAkaike
1
: AIC = nlog(
2
) +p.
Critre de Wallace-Boulton-Schwarz
2
: BIC = nlog(
2
) +p log(n)
Extension des modles gnraux. Utilisation pratique. Ces critres sutilisent pour des modles
paramtriques gnraux, condition de les exprimer en fonction de la log-vraisemblance des observations
y = (y
1
, . . . y
n
) (cf exercice III.1.4.1 : /(y) =
n
2
log(2e
2
MV
)) :
CV = 2
i
/(y
i
/y
(i)
)
AIC = 2/(y) + 2p
BIC = 2/(y) +p log(n)
1. Attention, le critre dAkaike sexprime de manire lgrement dirente en fonction de lestimateur au maximum de
vraisemblance de la variance
2
MV
= RSS/n; on obtient un terme o(p/n) prs : AIC = nlog(
2
MV
) + 2p.
2. G. Schwarz, Estimating the Dimension of a Model", Ann. of Stat., vol.6, No 2, 461-464, 1978.
C.S. Wallace, D.M. Boulton, An information measure for classication", Computer Journal., 11(2) : 185-194, 1968. (On y
voit exposes les ides essentielles du MDL).
C.S. Wallace, P.R. Freeman, Estimation and Inference by Compact Coding", J. Royal Stat. Soc., B, vol.49, No 3, 240-265,
1987.
91
o, dans CV , chaque terme est la log-vraisemblance du i
chantillon quand lestimation a t faite en

utilisant les autres. On cherchera le modle qui minimise la valeur du critre considr.
Lutilisation des critres CV ou AIC peut conduire une lgre surestimation de p ; ils donnent
toutefois de relativement bons rsultats en prediction. Si en revanche on veut faire de linterprtation,
BIC sera souvent meilleur car il a plutt tendance sous-estimer p.
CV est souvent lourd calculer (mais pas toujours, cf lexercice II.8.3.1). On peut prfrer couper
lchantillon y en deux parties gales y
et y
et considrer 2
i
/(y
i
/y
) ; cette dmarche est gale-

ment valide dans des circonstances gnrales. Une fois le modle choisi, on peut ensuite le restimer sur
lchantillon complet.
Interprtation de CV et AIC. Ce sont deux estimateurs dirents de lerreur de prdiction qui serait
commise en utilisant lestimateur courant sur dautres donnes (indpendantes). CV est sans doute plus
prcis : noter quen rgresssion linraire exp(AIC/n) =
2
e
p/n

2
(1 p/n)
1
qui nest autre que CV
dans le cas o les h
i
sont constants gaux p/n.
Interprtation de BIC (MDL). Si lon cherche coder les rponses pour les transmettre quelquun
qui possde dj les rgresseurs, la mthode la plus conomique consiste transmettre le paramtre
du modle estim et les erreurs de prdiction du modle, avec une certaine prcision correspondant
celle requise pour les rponses (pour une prcision requise infrieure , on ne transmet donc que le
paramtre). Wallace et Boulton (op. cit. note 2) ont remarqu que le nombre de bits ncessaires cette
opration est en premire approximation :
BIC
2
nlog()
o est la prcision requise sur les rponses. Le terme p log(n)/2 est le cot de la transmission des
paramtres avec une prcision adquate (elle est dordre 1/
n). On voit donc que minimiser BIC consiste

choisir le modle le plus conomique pour la transmission des rponses. Ce critre est appel aussi MDL
(minimum description length).
BIC peut aussi se justier par une approche baysienne gnrale due Gideon Schwarz, op. cit.
note 2.
Comparaison de modles avec changements de variables sur la rponse. Soit y une variable
alatoire, la vraisemblance V de y et celle V
f
de f(y) sont lies par V = V
f
[f
(y)[ car si p(z) est la densit

de z = f(y), alors q(y) = p(f(y))[f
(y)[ est celle de y (si y est de dimension suprieure 1, remplacer [f
[
par [det(f
)[). On a donc la formule permettant de retrouver le critre sur la variable originale partir
dun modle sur f(y)
AIC(y) = AIC(f(y)) 2
i
log([f
(y
i
)[)
De mme pour BIC. Si par exemple on veut utiliser AIC pour comparer les modles
y
i
= x
i
1
+e
i
et log(y
i
) = x
i
2
+e
i
via deux identications OLS, la vraisemblance obtenue aprs identication pour z
i
= log(y
i
) sera celle
de y
i
un facteur 1/y
i
prs, do le calcul dAIC pour le deuxime modle :
AIC(y) = AIC(z) + 2
i
log(y
i
).
92
Bibliographie
[1] A. Antioniadis, J. Berruyer, R. Carmona, Rgression non-linaire et applications, Economica,
Paris, 1992.
[2] J.-M. Azas, J.-M. Bardet, Le modle linaire par lexemple, Dunod, 2005.
Un expos gnral que nous recommandons chaudrement.
[3] O. Barndorff-Nielsen, Information and exponential families in statistical theory, Wiley, 1978.
[4] L. Breiman, J.H. Friedman, Predicting multivariate responses in multiple linear regression, J.
R. Stat. Soc., Ser. B 59, No 1, 3-54 (1997).
[5] P.J. Diggle and P.J. Ribeiro, Model-Based Geostatistics, Springer, 2006.
[6] I.R. Dohoo, C. Ducrot, C. Fourichon, A. Donald & D. Hurnik, An overview of techniques
for dealing with large numbers of independent variables in epidemiologic studies, Preventive Vete-
rinary Medicine, 29, 221-239, 1996.
[7] B. Escofier, J. Pags, Initiation aux traitements statistiques. Mthodes, mthodologie, Presses
universitaires de Rennes, 1997.
[8] X. Guyon, Statistique et conomtrie, Ellipses, 1991.
[9] D.M. Haaland, E.V. Thomas, "Partial least-squares methods for spectral analyses. 1. Relation
to other quantitative calibration methods and the extraction of qualitative information", Analytical
Chemistry, Vol 60, 1988, 1193-1202.
[10] W. Hrdle, Applied nonparametric regression, Cambridge University Press , 1990.
[11] S. Huet, E. Jolivet, A. Messan, La rgression non-linaire, mthodes et applications en biologie,
Inra, Paris, 1992.
[12] S. Huet, A. Bouvier, M.-A. Gruet & E. Jolivet, Statistical Tools for Nonlinear Regression,
Springer, 1996.
[13] N.L. Jonhson, S. Kotz et N. Balakrishnan Continuous Univariate Distributions, Vol.1, Wiley,
1994.
[14] P. McCullagh, J.A. Nelder, Generalized Linear Models, Chapman & Hall, 1983.
[15] J.O. Ramsay, B.W. Silverman, Functional data analysis, Springer, 2005.
[16] S.R. Searle, G. Casella, C.E. McCulloch, Variance Components, Wiley, 1992.
[17] W. Silverman, Density estimation for statistics and data analysis, Chapman & Hall, 1986.
[18] M. Tenenhaus, La rgression PLS, thorie et pratique, Technip, 1998.
[19] S. Van Huffel, J. Vanderwalle, The Total Least Squares Problem, SIAM, 1991.
[20] V.N. Venables, Exegeses on Linear Models, S-PLUS Users Conference, 1998.
93
Index
ACP, 35
additif (modle), 52
AIC, 91
analyse de covariance, 58
analyse de la variance, 50
ANOVA, 45, 56, 76
Bernoulli (modle), 70
Bernoulli rpt, 70
BIC, 91
bin. ngative (loi), 69
binomiale (loi), 67
BLUE, 22
bootstrap, 83, 84
Box-Cox, 18
Chow, 47
colinarit, 43, 46, 55
complet (modle), 52
contraint (modle), 21, 44
corrlation partielle, 16
curds and whey, 38
CV, 21, 3133, 38, 91
CVR, 32
dviance, 76, 88
donne aberrante, 49
donne inuente, 49
donne isole, 49
donnes groupes, 24, 27
droite de Henri, 16
Durbin-Watson (test), 24
erreur standard, 13
error in variables, 29
ESS, 13
facteurs proches, 43, 46, 55
facteurs signicatifs, 55
famille exponentielle, 65
Fisher, 44
fonction variance, 66
gamma (loi), 67
GLS, 23
graphique (reprsentation), 16
hirarchique (modle), 28, 59
indice dinuence, 15, 49
inuence, 49
intervalles de conance, 41, 48, 84
inverse gaussienne (loi), 67
inversion matricielle, 22
krigeage, 26
leverage, 15
lien canonique, 68
log-linaire, 71
logistique (modle), 70
logistique mixte (modle), 74
longitudinales (donnes), 9, 28, 33, 82
mlange de rgressions, 34
maximum de vraisemblance, 87
MDL, 92
mthode ascendante, 45
mthode descendante, 45
mixte (modle logistique), 74
mixte (modle), 27, 59, 61
modle
interactions rduites, 60, 72
de Cobb-Douglas, 8
de mlange de rgressions, 34
de rgression sur donnes segmentes, 34
de seemingly unrelated regression, 25
logistique mixte, 74
longitudinal htroscdastique, 25
longitudinal mixte, 28
modle linaire gnralis, 65
moindres carrs totaux, 29
nested, 59
non-linaire (modle), 81
non-paramtrique, 10
odds ratio, 78
OLS, 12
plan quilibr, 52, 54
plan incomplet, 52, 54
PLS, 36
Poisson (loi), 67
poissonnien (modle), 71
polytomique (modle), 73
prdiction, 48
94
R
2
ajust, 14
rang rduit (rgression), 38
rponses multiples, 36
rsidus, 13, 48
rsidus partiels, 17
ridge regression, 37
robuste (rgression), 38
ROC (courbe), 76
RSS, 13
slection de modle, 91
semi-paramtrique, 10
shrinkage, 37
stabilisation de variance, 18
suppression dun individu, 15
table dANOVA, 45, 56, 76
table de contingence, 71
transformations des rponses, 18
TSS, 13
type I (test), 55, 56, 62
type III (test), 56
valeur ajuste, 13
validation croise, 21, 3133, 38, 46, 49, 82, 91
validation croise gnralise, 33, 38
variable latente, 73
White (test), 24
95

Regression

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regression

Uploaded by

Copyright:

Available Formats

Rgression

Cours de deuxime anne de master

pour un certain vecteur

, ce qui conduit au modle de rgression linaire

et la validation du modle. La valeur de

moins de faire des hypothses supplmentaires. Une autre faon de

> 0 et de variables alatoires u

aux moindres carrs ordinaires (Ordinary Least Squares, OLS) est

au maximum de vraisemblance sous lhypothse de normalit de u.

(X, y) (car une homothtie en y modie compltement

est sans biais :

Vecteur des rsidus : u = y y

Figure II.1 Points (x

ESS, et de mme avec r =

TSS. Il est raisonnable

observation, les estimateurs aux moindres carrs des paramtres

, pour pouvoir ensuite

; notons que le dernier terme est la prdiction du rsidu par

. Le nouveau vecteur de rsidus

et par application du thorme de Pythagore, comme u

vecteur de la base canonique de R

rgresseur, car ici la matrice Q ne prserve pas x

) satisfaisant les hypothses du modle, vrier que

I). Soit un nouvel chantillon y

a t tir uniformment sur x

? Quelle est la variance de y

? (Tenir compte de la loi de

dans le calcul des variances).

sont ceux de la forme

individu (thorme 9).

> 0 et de variables alatoires u

, a priori redondant, est introduit traditionnellement avec lide que

= 1), elle est inconnue, et est paramtre par

Soit R une racine carre de

dnit une nouvelle mtrique sur R

est lestimateur du maximum de vraisem-

. En consquence les rsultats du II.2

est un estimateur sans biais de

, du moins si lon dsire prdire le bruit avec, c.--d. y

est diagonale. Lestimation GLS de partir des y

sera moins bonne que si lon possdait

Il est totalement dsespr destimer

sans contrainte supplmentaire car cette matrice contient

une forme trs

en fonction des donnes et

peuvent tre alors estims en rptant les deux oprations suivantes :

permet alors den dduire une des v

, ce qui conduit donc un

carotte. Les variables explicatives sont le taux dhumidit et lanne.

conduit une estime des u

et sont inconnus on choisit de les estimer et il

mesure la variabilit de la rponse due au

)) on fera lmer(y1+(1|A)+(1|B)+(1|A : B)).

et X sobtient par minimisation en X et de

et X correspond la minimisation de la norme de

Puis on calcule les estimes

sur ce nouveau modle comme prcdemment (sans oublier de

0 0.2 0.4 0.6 0.8 1.0 1.2

0 0.2 0.4 0.6 0.8 1.0 1.2

) est trs gros ; lide est alors dimposer des contraintes

= XW dont les colonnes sont orthonormes

colonne (axe principal) est :

y = y. Vrier que GCV concide

en rgression robuste peut sinterprter commme le maximum