Professional Documents
Culture Documents
et
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.2.3 Proprits gomtriques lmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 13
II.2.4 Le coecient de corrlation multiple R . . . . . . . . . . . . . . . . . . . . . . . . . 14
II.2.5 Eet de la suppression dun individu. Eet levier . . . . . . . . . . . . . . . . . . . 15
II.2.6 Eet de lajout dun rgresseur et coecient de corrlation partielle . . . . . . . . 16
II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires . . . . . . . . . . . . . 16
II.2.8 Traitement des variables symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . 19
II.2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
II.3 Modles htroscdastiques (Moindres carrs gnraliss) . . . . . . . . . . . . . . . . . . . 23
II.3.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
II.3.2 Rduction au cas
= I. Estimation de
et
2
. . . . . . . . . . . . . . . . . . . 23
II.3.3 Dtection de lhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
II.3.4 Estimation de
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
II.3.5 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
II.3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
II.4 Moindres carrs totaux (Errors in variables, total least squares) . . . . . . . . . . . . . . . 29
II.5 Rgression non-paramtrique et moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . 30
II.5.1 Premire approche : la rgression polynmiale . . . . . . . . . . . . . . . . . . . . . 31
II.5.2 Approche par estimation des coecients de Fourier . . . . . . . . . . . . . . . . . . 32
II.5.3 Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
II.6 Rgression sur des classes. Segmentation des donnes . . . . . . . . . . . . . . . . . . . . . 34
II.7 Mlange de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.8 Surparamtrisation, rduction de modle et rponses multiples . . . . . . . . . . . . . . . 34
II.8.1 Analyse en composantes principales (acp) . . . . . . . . . . . . . . . . . . . . . . . 35
II.8.2 Moindres carrs partiels (pls) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
II.8.3 Ridge regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
II.8.4 Rgression rang rduit. Curds and whey . . . . . . . . . . . . . . . . . . . . . . . 38
3
II.9 Rgression robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
IIIRgression linaire gaussienne, diagnostic et tests 39
III.1 Proprits statistiques fondamentales des estimateurs . . . . . . . . . . . . . . . . . . . . . 39
III.1.1 Modle statistique et estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.1.2 Proprits de base des variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . 39
III.1.3 Loi de probabilit des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.1.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2 Analyse de lestimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
III.2.1 Dtermination dintervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . 41
III.2.2 Rappels sur les tests dans le cadre paramtrique gnral . . . . . . . . . . . . . . . 42
III.2.3 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III.2.4 Slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
III.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.3 Analyse des rsidus. Mesures dinuence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
III.4 Analyse de la variance. Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
III.4.1 Analyse de la variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
III.4.2 Analyse de la variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . 52
III.4.3 Interprtation des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
III.4.4 Un exemple trois facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
III.4.5 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
III.4.6 Modles hirarchiques (nested) en analyse de variance . . . . . . . . . . . . . . . . 59
III.4.7 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
III.4.8 Rduction des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
III.4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
III.5 Un exemple de conclusion dtude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
IVRgression linaire gnralise 65
IV.1 Modle linaire gnralis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.1 Pourquoi les modles linaires gnraliss ? . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.2 Les familles exponentielles scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.1.3 Les familles exponentielles un paramtre de nuisance . . . . . . . . . . . . . . . . 66
IV.1.4 Les exemples classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.1.5 Dnition des modles linaires gnraliss . . . . . . . . . . . . . . . . . . . . . . 67
IV.1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
IV.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
IV.2.1 Variable de Bernoulli : le modle logistique . . . . . . . . . . . . . . . . . . . . . . 70
IV.2.2 Modle poissonnien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
IV.2.3 Modle variable polytomique ordonne ; la variable latente . . . . . . . . . . . . . 73
IV.2.4 Modle variable polytomique non-ordonne. . . . . . . . . . . . . . . . . . . . . . 73
IV.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
IV.3 Estimation de
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
IV.3.1 Lestimateur du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 74
IV.3.2 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
IV.3.3 Estimation de
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
IV.4 Tests et analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.1 Dviance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.4.3 Analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
IV.5 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4
V Rgression non-linaire avec bruit additif 81
V.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
V.2 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.3 Utilisation du bootstrap et du Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 83
V.4 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
V.5 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.5.1 Rgions thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.5.2 Ajustement du niveau par simulation ou bootstrap . . . . . . . . . . . . . . . . . . 84
V.5.3 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.6 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.7 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A Asymptotique du maximum de vraisemblance 87
A.1 Thormes-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.2 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.3.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.2 Test des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.4 Aspects pratiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
B Slection de modles 91
5
6
I
Introduction
I.1 But de la rgression.
Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lors
dune expdition en 1849 la pression atmosphrique p
i
et la temprature dbullition de leau y
i
en
divers endroits de lHimalaya
1
. Selon les lois de la physique, y
i
devrait tre (en premire approximation)
proportionnel au logarithme de p
i
. On pose donc le modle
y
i
=
1
+
2
x
i
+u
i
, x
i
= log(p
i
). (I.1)
u
i
reprsente lerreur de mesure, et explique que les points de la gure I.1 ne sont pas exactement
aligns. Cette gure montre galement la droite estime par moindres carrs. On voit une trs bonne
adquation. Lquation ci-dessus donne un modle, qui si u
i
est suppos gaussien centr devient le
modle paramtrique y
i
N(
1
+
2
x
i
,
2
), dont on verra lintrt plus tard. Le paramtre
2
reprsente
la variance de lcart des points la droite (mesur verticalement) et lestimation de donne ici 0,04.
2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
82
84
86
88
90
92
94
96
98
100
Figure I.1 Temprature dbulition de leau mesure en divers endroits de lHimalaya en fonction
du logarithme de la pression.
Cet exemple illustre comment le modle de rgression tente dexpliquer au mieux une grandeur y (la
rponse) en fonction dautres grandeurs x (vecteur des variables explicatives, ou rgresseurs, ou
facteurs, un seul dans lexemple) en dmlant ce qui est dterministe de ce qui est alatoire et
en quantiant ces deux aspects (par les
i
dune part et
2
dautre part).
1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouver
la pression atmosphrique partir de la seule mesure de la temprature dbulition de leau (les baromtres tant fragiles
et donc diciles transporter lors dune expdition), ce qui permet ensuite den dduire laltitude au travers dune relation
connue ; il rapporte dans un article ce double ensemble de donnes dont nous nutilisons ici que la partie Himalayenne (elles
sont dcrites dans : S. Weisberg, Applied Linear Regression, Wiley, 1985.)
7
I.2 Exemples
I.2.1 Rgression linaire multiple : Production, travail et capital
On considre les variables, chacune concernant la totalit des tats-Unis (i tant lindice dune anne) :
P
i
: production
K
i
: capital (valeur des usines, etc.)
T
i
: travail fourni (bas sur un calcul du nombre total de travailleurs)
On cherche expliquer P
i
laide des variables (K
i
, T
i
). Le modle de Cobb et Douglas
2
est
P =
1
K
2
T
3
ce qui suggre le modle statistique
log(P
i
) = log(
1
) +
2
log(K
i
) +
3
log(T
i
) +u
i
, E[u
i
] = 0, E[u
2
i
] =
2
.
Les rgresseurs sont donc ici x
i
= (1, log(K
i
), log(T
i
)), la rponse est y
i
= log(P
i
) et les paramtres
du modle = (log(
1
),
2
,
3
). Le logarithme et les changements de variables ont permis de rendre le
modle linaire (par rapport ), ce qui, on le verra, est trs avantageux pour lanalyse :
y
i
=
1
+
2
log(K
i
) +
3
log(T
i
) +u
i
.
Cobb et Douglas disposaient du tableau suivant
3
sur n = 24 annes et trouvent
2
= 1/4 et
3
= 3/4 :
Anne P K T Anne P K T Anne P K T
1899 100 100 100 1907 151 176 138 1915 189 266 154
1900 101 107 105 1908 126 185 121 1916 225 298 182
1901 112 114 110 1909 155 198 140 1917 227 335 196
1902 122 122 118 1910 159 208 144 1918 223 366 200
1903 124 131 123 1911 153 216 145 1919 218 387 193
1904 122 138 116 1912 177 226 152 1920 231 407 193
1905 143 149 125 1913 184 236 154 1921 179 417 147
1906 152 163 133 1914 169 244 149 1922 240 431 161
I.2.2 Vers des modles non-linaires.
On observe des paires (x
i
, y
i
)
1in
o x
i
o y
i
est la concentration de produit actif dans un mdica-
ment au temps x
i
aprs fabrication. Le modle linaire y
i
=
1
+
2
x
i
+u
i
est certainement inadquat
Plusieurs modlisations peuvent tre envisages :
(a) Rgression non-linaire paramtrique : On part dun modle spcique considr comme raliste
y
i
=
1
e
2
x
i
+u
i
.
Cest lanalogue du prcdent dans une situation non-linaire.
(b) Rgression polynmiale : On part cette fois-ci dun modle paramtrique abstrait
y
i
=
J
j=0
j
x
j
i
+u
i
.
o J est suppos connu. La linarit en de cette quation fait, on le verra, quon estime facilement
les
j
par moindres carrs ; noter que ceci revient exactement trouver le polynme de degr J qui
passe au plus prs des points (x
i
, y
i
). On peut remplacer lhypothse u
i
N(0,
2
) par lhypothse
plus faible E[u
i
] = 0 mais on entre alors dans un cadre semi-paramtrique.
(c) Rgression non-paramtrique :
y
i
= f(x
i
) +u
i
, u
i
= N(0,
2
).
Il sagit destimer la fonction f et
2
.
2. A theory of production, American Economic Review, 18, 139-165, 1928.
3. En ralit, la construction de ce tableau partir des direntes donnes dont ils pouvaient disposer est en soi un
travail norme. Voir larticle.
8
Un autre exemple. La gure suivante
4
reprsente la consommation dlectricit moyenne en France,
2h du matin, en fonction de la temprature extrieure (moyenne sur les 24h prcdentes). Les donnes
sont sur 3 ans (1095 points). On pourrait tre tent de considrer ici un modle linaire par morceaux.
0 5 10 15 20 25
3
5
4
0
4
5
5
0
5
5
6
0
6
5
o
o
o
o
o
o o o
o
o
o
o
o
o
o
o
o
o
o o o o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o o
o
o
o
o o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o o o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o
o o
o
o
o o
o o
o
o
o
o
o
o o
o o
o
o
o
o o o
o
o
o
o
oo
oo
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o o o
o
o
o
o
o o
o
o o
o
o
o o
oo
o
o
o
o o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o o
o
o
o
o
o oo
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o o
o o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o o
o
o o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o o
o
oo
o o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o o
o o
o
o
o
o
o
o
o
o o
o
o
o o
o
o
o
o o
o
o
o
o
o
o
o
o o
o
o o
o o o
o
o
o
o
o
o o o
o
o o
o o
o
o
o
o o
o
o o o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o o
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
I.2.3 Modle logistique : Credit scoring
Il sagit pour une banque de mesurer le risque quelle prend attribuer un crdit un client.
La banque dispose de donnes sur ses anciens clients. Chaque client ayant demand un crdit dans
le pass est un individu et la rponse y 0, 1 est une variable indiquant sil y a eu un problme de
remboursement. Le rgresseur x est vecteur ligne contenant :
des variables quantitatives : revenu, ge, dpts, etc.
des variables qualitatives : sexe, etc.
Le modle logistique : y est une variable de Bernoulli B(1, p
x
) (c--d y = 1 avec probabilit p
x
) et p
x
est
de la forme
p
x
=
1
1 +e
x
o est un vecteur colonne de paramtres caractrisant linuence de chaque rgresseur sur la rponse
(de sorte que x est un produit scalaire). p
x
reprsente le risque pris par la banque autoriser un crdit
au client ayant les rgresseurs x.
I.2.4 Donnes longitudinales
On observe des variables
y
i
(t
j
) = F(t
j
) +u
ij
.
Par exemple y
i
(t
j
) est la taille de lenfant i au mois t
j
. On se donne en gnral un modle paramtrique
particulier pour F, par exemple
F(t) = a +b exp (exp (c dt)) .
Souvent un paramtre, disons b, dpendra des individus. Une mthode simple pour prendre cette d-
pendance en compte sera de rassembler les caractristiques dintrt de lindividu i (vgtarien/non-
vgtarien, taille des parents, etc.) dans un vecteur (ligne) x
i
et prsupposer une relation linaire, ce qui
donne nalement le modle
y
i
(t
j
) = a + (x
i
) exp (exp (c dt
j
)) +u
ij
(x
i
est un produit scalaire) dont les paramtres sont (a, c, d, ).
4. Courtoisie de Vincent Leeux, RTE.
9
I.3 Mthode gnrale et objectifs de la rgression.
On peut voir la rgression comme le cadre le plus simple pour la modlisation paramtrique des suites
de variables alatoires indpendantes non-stationnaires
5
. En pratique, les applications essentielles sont
les suivantes (on illustre ici par lexemple rudimentaire o y est le taux de frquentation du mdecin et
x contient lge et le sexe de lindividu) :
Dtermination des facteurs signicatifs : lge a-t-il une inuence signicative sur le taux de
frquentation du mdecin ? (c.--d. : le coecient
i
de lge est-il nul ?)
Prdiction/simulation (des rponses connaissant les rgresseurs et ) : combien de mdecins
faut-il pour une ville de pyramide des ges donne ?
Dtection de changement (du paramtre ) : le ticket modrateur a-t-il provoqu un chan-
gement signicatif dans le comportement des patients ? Ce changement est-il le mme chez les
hommes et chez les femmes ?
La mthode passe, comme on vient de le voir, par la mise en place dun modle plus ou moins raliste sur
lequel il est bon davoir du recul : on peut le considrer comme un (ple) reet de la ralit mais il est
gnralement plus prudent dy voir simplement un instrument de mesure qui permettra de quantier
certains phnomnes tout en restant matre de ce que lon calcule.
I.4 Exercices
Exercice I.4.1 On dispose de deux qualits de papier. Le papier de type 1 a un poids
1
et le papier
de type 2 a un poids
2
(grammes par feuille). On reoit n paquets. Le i
paquet contient p
i
feuilles
du type 1 et q
i
feuilles du type 2. On pse successivement les paquets sur une balance ; le poids mesur
du i
paquet est m
i
. On admet que les erreurs de la balance sont N(0,
2
). crire le modle linaire
correspondant ces donnes.
Exercice I.4.2 (Modle gravitaire) On suppose que le nombre de personnes de la ville i allant travailler
la ville j suit en gros le modle idal suivant
N
ij
= k
P
i
A
j
d
ij
o P
i
est a population de la ville i, A
i
sa capacit daccueil et d
ij
la distance entre les villes. k et sont
des paramtres inconnus. Proposer un modle de rgression linaire pour des donnes bases sur I villes
d
ij
, N
ij
, P
i
, A
i
, 1 i, j I.
Exercice I.4.3 Un individu pris au hasard a un temps de raction un certain stimulus qui suit la loi
N(,
2
), et
2
sont connus. Aprs absorption dune quantit x dalcool, ce temps se trouve multipli
par 1 +x. On sintresse lestimation de partir de donnes (x
i
, t
i
), o t
i
est le temps de raction.
Expliciter la loi de t
i
. Peut-on poser ce problme comme un problme de rgression linaire simple ?
Quen est-il si maintenant est connu et est le paramtre ? Proposer un estimateur de dans ce
dernier cas.
5. Certains modles de rgression, comme les modles mixtes, prennent toutefois en compte des phnomnes de dpen-
dance.
10
II
Rgression linaire multiple
II.1 Introduction
II.1.1 Les donnes
Les donnes consistent en des variables observes y
i
(rponses) et des variables explicatives (ou
rgresseurs) x
i
, i = 1, . . . n, chaque paire (y
i
, x
i
) reprsentant une exprience (un individu). On les
arrange dans un tableau de la faon suivante :
y =
_
_
_
y
1
.
.
.
y
n
_
_
_, X =
_
_
_
x
1
.
.
.
x
n
_
_
_ =
_
_
_
1 x
12
. . . x
1p
.
.
.
.
.
.
.
.
.
1 x
n2
. . . x
np
_
_
_.
x
i
est donc un vecteur ligne contenant les p variables explicatives. On convient gnralement de mettre
le rgresseur constant, sil est prsent, dans la premire colonne.
On prsuppose lexistence dune relation du type y
i
x
i
,
= x
i
, soit y X
+u
o u = (u
1
, . . . u
n
) est un vecteur de bruit (variables alatoires) modlisant linadquation des mesures
au modle.
Le but de la rgression linaire est lestimation de
, de
+u,
E[u] = 0,
E[uu
T
] =
2
I.
En dautres termes, pour chaque i :
y
i
= x
i
+u
i
E[u
i
] = 0
V ar(u
i
) =
2
(homoscedasticit)
E[u
i
u
j
] = 0, j ,= i (dcorrlation des bruits).
Noter que ce modle nest pas compltement spci puisque les lois des u
i
ne sont pas prcises. On est
pour linstant dans une situation semi-paramtrique.
II.2.2 Estimation de
et
2
1 - Dfinition
Soit SS() (Sum of Squares) la somme des carrs des erreurs de prdiction
SS() = |y X|
2
=
i
(y
i
x
i
)
2
.
Lestimateur de
= arg min
SS().
Cest lestimateur de
= (X
T
X)
1
X
T
y
+ (X
T
X)
1
X
T
u
est sans biais : E[
] =
V ar(
) =
2
(X
T
X)
1
La dmonstration est laisse en exercice.
Il est intressant de noter que si la variable j est dcorrle des autres, alors
j
est insensible au
retrait dautres variables.
12
3 - Proposition
Soit
RSS = SS(
) = |y X
|
2
(Residual Sum of Squares) ; alors lestimateur suivant de
2
j
est (
j
) dni par : (
j
)
2
=
2
[(X
T
X)
1
]
jj
.
Exemple. Reprenons le modle de Cobb-Douglass du paragraphe I.2.1 avec les donnes de leur tude
de 1928. On trouve
2
= 0, 23 et
3
= 0, 81. Lcart entre
2
+
3
et 1, nest en fait pas signicatif, ce
quon peut vrier en utilisant les rsultats du chapitre suivant. Lerreur standard de
2
+
3
est 0, 09.
II.2.3 Proprits gomtriques lmentaires
Dans toute la suite, pour tout vecteur z, z dsignera la moyenne de ses coordonnes
z =
1
n
n
i=1
z
i
.
5 - Proposition
Soit H = X(X
T
X)
1
X
T
, K = I H, et X le sous-espace vectoriel de R
n
engendr par les
colonnes de X ; alors
H est le projecteur orthogonal sur X; K est le projecteur orthogonal sur X
.
y = Hy, u = Ky = Ku, y u.
Et sil y a une colonne constante dans la matrice X :
u = 0 car u1
|y y1|
2
= |y y|
2
+ | y y1|
2
i
(y
i
y)
2
=
i
u
2
i
+
i
( y
i
y)
2
TSS = RSS + ESS
Var. Totale = Var. Rsiduelle + Var. Explique
La dmonstration est laisse en exercice. Cette dcomposition de la variance correspond lide prsente
dans lintroduction de sparer le dterministe de lalatoire.
Pour la dmonstration de la proposition 3, on a :
2
= | u|
2
/(n p) = u
T
Ku/(n p) do,
E[
2
] =
2
Tr(K)/(n p) =
2
.
13
II.2.4 Le coecient de corrlation multiple R
On introduit ici le coecient R
2
qui mesure ladquation gomtrique du modle aux donnes. On
suppose ici que X contient une colonne constante.
6 - Dfinition
R est la corrlation empirique entre les donnes et les valeurs prdites
R =
i
(y
i
y)( y
i
y)
(
i
(y
i
y)
2
)
1/2
(
i
( y
i
y)
2
)
1/2
.
R
2
est appel coecient de dtermination, ou encore la proportion de variance explique.
Linterprtation la plus simple est de voir R comme une mesure de corrlation entre les variables expli-
catives (globalement) et les rponses. Plus R est proche de 1, plus le modle reprsente bien les donnes.
Par exemple sur la gure I.1 on a R
2
= 0, 998.
7 - Proposition
On a
0 R 1, R
2
=
ESS
TSS
= 1
RSS
TSS
,
R = 1 y = y
R = 0
= ( y, 0, . . . , 0).
Dmonstration:
R =
y y1, y y1
| y y1| |y y1|
=
y y1, y y + y y1
| y y1| |y y1|
=
| y y1|
|y y1|
=
ESS
TSS
.
Si R = 1 alors RSS = 0, y = y. Si R = 0 alors y = y1 et donc X
= X( y, 0, . . . , 0)
T
do
=
( y, 0, . . . , 0)
T
car X est de rang plein.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
j
= 0, j > 1). Noter galement
que lajout dun rgresseur fera toujours augmenter R
2
, mme si le
j
correspondant est nul.
Le R
2
sera utlis plus tard dans le cadre bien prcis du test de Fisher de nullit de
, p.45.
Le R
2
ajust vaut R
2
aj
= 1
2
/(TSS/(n1)) ; cest un rapport destimes non-biaises de variances,
sauf que TSS/(n 1) nest un estimateur non biais de la variance des y
i
que si
i
= 0, i 2.
14
Exemple. Dans le cas du modle de Cobb-Douglas, on trouve TSS = 2, 3, ESS = 1, 6 et RSS = 0, 7.
On a donc R
2
= 0, 7. On dit que le travail et le capital investi expliquent 70% de la variabilit de la
production (en fait le logarithme).
Pourquoi raisonner sur les carrs pour juger des contributions et non pas sur les valeurs absolues ?
Voici un dessin qui peut le justier :
t
e
r
A
C
H
B
Le ct AC a pour longueur e =
RSS et t =
individu x
i
des autres ;
plus prcisment (cf exercice II.2.9.14) :
8 - Proposition
On a
0 < h
i
1
h
i
= 1 span(x
j
, j ,= i) est de dimension p 1
lim
x
i
h
i
= 1
Une valeur leve de h
i
indique que le vecteur x
i
est isol soit parce que sa norme est leve, soit parce
quil est le seul prsent dans une direction donne. Il sera donc inuent dans lestimation de
(eet
levier), et on dit que h
i
est un indice dinuence du rgresseur x
i
. Tout ceci sera prcis au III.3.
Si les donnes sont bien rparties, les h
i
sont peu prs gaux p/n (on sait que
h
i
= trace(H) =
rang(H) = p).
Soit X
(i)
la matrice X dont on a retir la i
ligne x
i
et y
(i)
le vecteur y dont on a retir le i
coecient. Soient
(i)
et
(i)
les estimes aux moindres carrs de
et
bases sur X
(i)
et y
(i)
. Alors
(cf exercice II.2.9.14) :
9 - Thorme
Aprs suppression de la i
(i)
=
(X
T
X)
1
x
T
i
u
i
1 h
i
(II.1)
(n p 1)
2
(i)
= (n p)
2
u
2
i
1 h
i
(II.2)
15
II.2.6 Eet de lajout dun rgresseur et coecient de corrlation partielle
On part du modle prcdent
= (X
T
X)
1
X
T
y
puis on rajoute un rgresseur, cest--dire une colonne X
X
= (X, ).
On se propose de trouver une formule permettant de passer directement de y y
= ( P
X
)/| P
X
| la composante de orthogonale X normalise.
y
= H
y = P
X,
y = P
X,
y = P
X
y +P
y = y +
, y
= y +
, u
car y
= u
, u
, on a
| u|
2
= | u
|
2
+
, u
2
.
Donc nalement, le nouveau coecient R
satisfait
1 R
2
=
| u
|
2
|y y1
n
|
2
=
| u|
2
|y y1
n
|
2
| u
|
2
| u|
2
= (1 R
2
)(1
2
)
avec
2
=
| u|
2
| u
|
2
| u|
2
=
, u
2
| u|
2
. (II.3)
= cos(
, u) est appel coecient de corrlation partielle de y et sachant x, car cest la corrlation des
variables dont on a retranch la projection sur X (alors que dhabitude on se contente de les recentrer).
Cest lanalogue du coecient R o cette fois on cherche prdire au mieux u laide du rgresseur
.
Sa valeur absolue mesure lapport du nouveau rgresseur pour la qualit de la prdiction.
II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires
Histogramme des rsidus. Droite de Henri (QQ-plot). Il sagit de vrier lhypothse de normalit.
La droite de Henri sapproxime raisonnablement de la faon suivante : ordonner les rsidus standardiss
u
i
/ puis les tracer en fonction de Q(i/(n + 1)) (quantile de la loi suppose, ici la gaussienne) ; si la
distribution des u
i
est normale, on doit trouver des points approximativement aligns.
Ne pas oublier toutefois que la distribution des u
i
/ nest pas exactement N(0, 1) (surtout pour
n petit, cf III.3). On reprsente ici le QQ-plot correspondant aux donnes de la gure II.2, avec le
deuxime modle ; la concidence est assez bonne sauf pour trois individus
16
2 1 0 1 2
2
0
2
Quantiles
R
e
s
i
d
u
s
s
t
a
n
d
a
r
d
i
s
e
s
64
113
61
Reprsentation rsidus/valeurs ajustes. Cest une reprsentation des u
i
en fonction des y
i
. Lesti-
mation fait que ces deux variables sont empiriquement dcorrles ; toutefois la reprsentation peut faire
apparatre une dpendance vidente. Elle peut provenir par exemple dune non-linarit de la relation
liant y
i
x
i
, ou plus souvent dune variance non-constante des u
i
.
8e3 4e3 0 4e3 8e3 12e3 16e3 20e3 24e3
9e3
5e3
1e3
3e3
7e3
11e3
15e3
19e3
23e3
6.7 7.1 7.5 7.9 8.3 8.7 9.1 9.5 9.9 10.3
1.7
1.3
0.9
0.5
0.1
0.3
0.7
1.1
1.5
Figure II.2 Prix de voitures doccasion (rponse) en fonction de lge (rgresseur) (Source :
OzDASL). Le modle est p
i
=
1
+
2
a
i
+u
i
. Sur la premire gure est trac le rsidu en fonction
du prix prdit. La seconde est similaire mais avec les nouvelles variables log(p) et log(a).
Reprsentation rponses/rgresseurs. On trace y
i
en fonction de x
ij
j x. Cest une mthode
rustique pour dtecter une dpendance non-linaire entre un rgresseur donn et la rponse. Ceci peut
conduire ajouter aux rgresseurs des fonctions de ces derniers (par exemple x
2
i2
, voir aussi lintro-
duction du temps dans lexemple du II.5.3), quitte les liminer plus tard lors des tests.
Si cette mthode est trs simple, la suivante donnera souvent des rsultats plus prcis.
Reprsentation des rsidus partiels. Ce trac sert illustrer linuence du jme rgresseur x
j
(j
vecteur colonne de X), pour vrier par exemple lhypothse de linarit. Il nexiste pas de mthode
idale mais la suivante ralise un bon compromis. Lide est de tracer le rsidu obtenu sans x
j
z = y X
+x
j
j
17
10e4 11e4 12e4 13e4 14e4 15e4
71
73
75
77
79
81
83
85
87
89
91
57.4 57.8 58.2 58.6 59.0 59.4 59.8 60.2 60.6 61.0 61.4
4.26
4.30
4.34
4.38
4.42
4.46
4.50
4.54
Figure II.3 Mmes donnes que la gure II.2. On trace les rsidus partiels, y
1
, en fonction
du prix pour les deux modles. Le gure rponse/rgresseur est ici la mme un dcalage vertical
prs.
en fonction de x
j
. Ce trac tente dillustrer la dpendance de y en x
j
, la contribution des autres variables
ayant t rduite au maximum; lapparition dune structure particulire (autre quune droite) peut
remettre en cause lhypothse de linarit.
On les obtient sous R par la commande residuals(...,type="partial").
Attention. Sil y a de fortes corrlations entre variables, ou si le modle est trop inexact, ce trac peut
donner des rsultats trs mauvais, bien pires que la reprsentation rponses/rgresseurs.
tude thorique. Si lon note e
j
le j
= (I XP
j
(X
T
X)
1
X
T
)y = Qy
o P
j
= I e
j
e
T
j
est le projecteur orthogonal sur lorthogonal de e
j
. On vrie sans peine que
Qx
j
= x
j
Qx
k
= 0, k ,= j
Qv = v, vX (c--d X
T
v = 0).
Q est donc le projecteur oblique de noyau x
k
, k ,= j, sur lespace contenant x
j
et les vecteurs orthogonaux
aux colonnes de X. Leet de Q est donc de nettoyer la contribution linaire des autres rgresseurs
en conservant celle de x
j
.
Alternatives. Noter que cette mthode est tout--fait dirente du choix z = y X
(j)
(j)
o lexposant
j signale la suppression du j
avec 0 1. On choisit
alors traditionnellement en maximisant le R
2
.
18
II.2.8 Traitement des variables symboliques
En pratique on a souvent aaire des variables qualitatives (symboliques). La mthode la plus
courante pour prendre en compte une telle variable dans une tude statistique est de la convertir en
plusieurs variables valeurs 0 ou 1 ; par exemple si la classe dge dun individu a trois modalits, J, A, V ,
on remplacera la variable explicative x J, A, V par un vecteur x
= (1
x=A
, 1
x=J
, 1
x=V
), ce qui permet
ensuite demployer des mthodes numriques. Malheureusement, on voit que toute composante de x
est
fonction des deux autres ce qui fait que cette mthode est en gnral mathmatiquement inutilisable
telle quelle, aussi bien en analyse de donnes quen rgression (on va voir plus bas quelle conduit une
matrice X de rang dcient) ; le procd habituel consiste ter arbitrairement une modalit, si bien
que x
devient x
= (1
x=A
, 1
x=J
). Ceci conduit une situation particulirement embrouillante que lon
dtaille ici (mme si les logiciels habituels font automatiquement ces transformations).
Si lon cherche expliquer y
i
(p.ex. la productivit lhectare) laide dune variable symbolique z
i
prennant disons 3 valeurs a, b, c (p.ex. pas dengrais , engrais1 , engrais2 ), on peut tre tent de
fabriquer les variables
x
i1
= 1, x
i2
= 1
z
i
=a
, x
i3
= 1
z
i
=b
, x
i4
= 1
z
i
=c
et dutiliser le formalisme prcdent. Toutefois, si lon fait cela, le tableau X ne sera pas de rang plein
car on a pour tout i x
i1
x
i2
x
i3
x
i4
= 0, ou encore
X
_
_
_
_
1
1
1
1
_
_
_
_
= 0.
Ceci signie simplement la prsence dune variable en trop. Pour rsoudre ce problme il sut dliminer
une des 4 variables. Ainsi on considrera le modle
y
i
=
1
1
z
i
=a
+
2
1
z
i
=b
+
3
1
z
i
=c
+u
i
. (II.4)
ou bien
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+u
i
(II.5)
Ces deux paramtrisations sont quivalentes (
1
=
3
,
2
=
1
3
,
3
=
2
3
) et donnent, si les
donnes sont bien ranges, une matrice X de la forme
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0
0 1 0
.
.
.
.
.
.
.
.
.
0 1 0
0 0 1
.
.
.
.
.
.
.
.
.
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
et X
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0
.
.
.
.
.
.
.
.
.
1 1 0
1 0 1
.
.
.
.
.
.
.
.
.
1 0 1
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
.
Sil ny a quune variable symbolique, la reprsentation (II.4) est la plus naturelle ; en revanche, sil y en
a plusieurs il est plus simple de se contenter de retrancher chaque fois une modalit :
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
1
t
i
=n
+u
i
, z
i
a, b, c, t
i
n, s (II.6)
Ces complications viennent du fait que ce dernier modle (modle additif) nest en ralit pas naturel du
tout (le bon modle tant donn par (II.8)). On verra que lavantage du modle sans interaction (II.6)
est davoir moins de paramtres ; il a ici 1 + (3 1) + (2 1) = 4 paramtres.
Si des variables quantitatives sont prsentes, il sut bien entendu de les ajouter au tableau X ; on
peut soit considrer que leur infuence est indpendante de la (ou des) variable symbolique :
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
x
i
+u
i
19
soit quelle en dpend (modle avec interactions)
y
i
=
1
+
2
1
z
i
=a
+
3
1
z
i
=b
+
4
x
i
+
5
1
z
i
=a
x
i
+
6
1
z
i
=b
x
i
+u
i
. (II.7)
P.ex. x est la pluviosit et dans ce dernier modle laugmentation de productivit en prsence de pluie
peut dpendre de lengrais utilis ; cette dpendance est rete par la valeur de
5
ou
6
en comparaison
de
4
.
On a donc ici 6 rgresseurs, ce qui correspond aux contributions de la constante (1), de x (1), de z
(3 1 = 2) et de linteraction ((3 1) 1 = 2). De mme, pour un modle deux variables symboliques
avec p et q modalits, le modle sans interaction aura 1 + (p 1) + (q 1) rgresseurs, et le modle
avec interactions en aura pq = 1 + (p 1) + (q 1) + (p 1) (q 1), avec des interactions du type
1
z=a
1
z
=a
, 1
z=b
1
z
=a
. . . Ce mode de calcul stend un nombre arbitraire de variables. Noter que
comme dans le cas des quations (II.4,II.5), on a les modlisations quivalentes
y =
1
1
z=a,t=n
+
2
1
z=b,t=n
+
3
1
z=c,t=n
+
4
1
z=a,t=s
+
5
1
z=b,t=s
+
6
1
z=c,t=s
+u (II.8)
y =
1
+
2
1
z=a
+
3
1
z=b
+
4
1
t=n
+
5
1
z=a,t=n
+
6
1
z=b,t=n
+u.
Il faut bien voir que dans le cas dun modle complet avec toutes les interactions entre variables symbo-
liques, comme ci-dessus, le dcompte des paramtres ne pose aucun problme, il sut de calculer toutes
les possibilits, sans le rgresseur constant (formulation (II.8)), ceci est galement valide dans le cas o
se mlent variables qualitatives et quantitatives, par exemple le modle (II.7) se rcrit plus simplement
y
i
=
1
1
z
i
=a
+
2
1
z
i
=b
+
3
1
z
i
=c
+
4
1
z
i
=a
x
i
+
5
1
z
i
=b
x
i
+
6
1
z
i
=c
x
i
+u
i
avec 3 + 3 = 6 paramtres ; si lon ajoute t, on a alors 12 paramtres. La gymnastique de dcompte
propose plus haut na par consquent dintrt que si lon considre des modles o toutes les interactions
ne sont pas prises en compte comme (II.6).
Exemple. On observe la prise de poids de rats nourris avec quatre rgimes dirents correspondants
deux sources de protines possibles (buf ou crales) en deux doses possibles (faible ou leve)
1
.
Chacune des combinaisons des deux facteurs est teste sur 10 individus tous dirents ; il y a donc 40
observations de prise de poids en tout.
Le modle avec interactions estim se rcrit
poids = 100 20, 8 1
D=f
14, 1 1
P=c
+ 18, 8 1
D=f,P=c
+ 15 N(0, 1)
La prise de poids conscutive un rgime de buf dose faible est de moyenne 79,2 avec un ecart-type
de 15.
II.2.9 Exercices
Exercice II.2.9.1 Prciser la matrice X de lexercice I.4.1. quoi correspondrait lajout du rgresseur
constant ?
Exercice II.2.9.2 Dmontrer les propositions 2 et 5.
Exercice II.2.9.3 On est dans la situation de lexercice I.4.1 avec (p
1
, p
2
, p
3
) = (50, 40, 60) et q
i
=
100 p
i
. Expliciter sa valeur de lestimateur OLS de si y
1
= y
2
= 1, et y
3
= 2 ; quobserve-t-on?
Peut-on ajouter le rgresseur constant ?
Exercice II.2.9.4 Dmontrer que sil ny a quun rgresseur en dehors de la constante (i.e. p = 2), alors
R est la corrlation empirique entre x et y.
Exercice II.2.9.5 On considre le modle
y
i
= bx
i
+u
i
, E[u
i
] = 0, E[u
2
i
] =
2
, E[u
i
u
j
] = 0
o x
i
est scalaire. Expliciter lestimateur des moindres carrs
b. Soit lestimateur
b =
y
i
/
x
i
. Com-
parer ces deux estimateurs en calculant leur biais et leur variance (On vriera que la proprit blue
1. Snedecor & Cochran Statistical Methods, Iowa State University Press, 1967. Voir aussi Hand, Daly, Lunn, McConway
and Ostrowski, A Handbook of Small Data Sets, Chapman and Hall, 1994.
20
(exercice II.2.9.13) sapplique bien : la variance de
b est infrieure celle de
b). Sous quelle condition les
variances sont-elles gales ?
Exercice II.2.9.6 Calculer la covariance entre u et
(on pourra utiliser la relation u = Ku).
Exercice II.2.9.7 On fait une rgression de y sur deux variables explicatives x et z, c--d X = (1, x, z) ;
il y a en tout n individus. On a obtenu le rsultat suivant :
X
T
X =
_
_
5 3 0
3 3 1
0 1 1
_
_
1. Que vaut n? Que vaut le coecient de corrlation linaire empirique entre x et z ? (Indication :
penser linterprtation de chaque entre de X
T
X en fonction des colonnes de X).
La rgression linaire fournit les rsultats :
y = 1 + 3x + 4z + u, RSS = 3.
2. Que vaut la moyenne empirique y (on utilisera la matrice X
T
X) ?
3. Calculer | y|
2
; justier que | y y1|
2
= | y|
2
| y1|
2
; en dduire ESS, TSS et le coecient de
dtermination R
2
.
On sintresse au modle priv du rgresseur z :
y = X
0
0
+u
0
, X
0
= (1
n
, x).
4. Calculer numriquement X
T
0
y (commencer par calculer X
T
y) ; en dduire
0
.
5. Calculer | y
0
|
2
. Dmonter que | u
0
|
2
+| y
0
|
2
= | u|
2
+| y|
2
. En dduire la norme de u
0
.
6. Calculer le coecient de corrlation partielle entre z et y sachant x.
Exercice II.2.9.8 Vrier les proprits de la matrice Q du II.2.7.
Exercice II.2.9.9 Erreur en prdiction.
1. Vrier que E[ u
2
i
] =
2
(1 h
i
). On pourra utiliser la relation u = Ku.
En dduire que est sans biais.
2. Soit un nouvel individu (y
, x
)
2
] =
2
(1 +x
(X
T
X)
1
x
T
).
Exercice II.2.9.10 (Validation croise). On considre lestimateur de la variance par validation
croise :
2
CV
=
1
n
i
(y
i
x
i
(i)
)
2
.
1. Montrer, en utilisant la formule pour
(i)
, que
2
CV
=
1
n
i
u
2
i
(1 h
i
)
2
(II.9)
2. Utiliser lexercice II.2.9.9 pour calculer son esprance. Comparer
2
CV
et
2
dans le cas o les h
i
sont gaux.
Exercice II.2.9.11 Soit le modle habituel y A(X
,
2
A(x
,
2
).
On suppose que x
0
=
+ (X
T
X)
1
L
T
[L(X
T
X)
1
L
T
]
1
(l L
).
21
2. En dduire que y
0
= X
0
satisfait :
| y y
0
|
2
= (L
l)
T
_
L(X
T
X)
1
L
T
_
1
(L
l).
3. Montrer que
| y y
0
|
2
= | y
0
y|
2
| y y|
2
.
Exercice II.2.9.13 (Proprit BLUE). Les estimateurs linaires de
= (X)y + (X)
o et sont des fonctions de X. Bien entendu
en est un. On a alors la proprit Blue (Best Linear
Unbiased Estimator) :
est de variance minimale dans la classe des estimateurs de linaires sans biais.
Dmontrer ce rsultat de la faon suivante :
1. Montrer que si
est sans biais, ncessairement (X)X = I, et (X) = 0.
2. Exprimer alors
et
en fonction de X et u.
3. En dduire que Cov(
,
) = 0, puis que V ar(
) V ar(
).
Exercice II.2.9.14 On dmontre ici des formules de suppression dun individu.
1. Prouver le lemme dinversion matricielle : Soient A, B, C, D quatre matrices, respectivement de
taille n n, n m, mm, mn, alors, si les inverses existent on a
(A+BCD)
1
= A
1
A
1
B(DA
1
B +C
1
)
1
DA
1
.
2. Vrier la formule X
T
X =
i
x
T
i
x
i
. On peut le faire soit par calcul explicite de chaque coecient,
soit en faisant le produit de matrices X
T
X par blocs.
3. En utilisant les deux points prcdents, dmontrer la formule (X
(i)
est la matrice dduite de X par
suppression de la i
ligne)
(X
T
(i)
X
(i)
)
1
= (X
T
X)
1
+
(X
T
X)
1
x
T
i
x
i
(X
T
X)
1
1 h
i
, h
i
= x
i
(X
T
X)
1
x
T
i
4. En dduire que :
(1 h
i
)
1
= 1 +x
i
(X
T
(i)
X
(i)
)
1
x
T
i
.
En dduire les trois points de la proposition 8.
5. Exprimer X
T
y en fonction de X
T
(i)
y
(i)
et x
T
i
y
i
, puis dmontrer les formules pour les estimes en
labsence du i
1
x +a
2
z +u.
1. Calculer la matrice de covariance des coecients estims et lexprimer en fonction de |x|, |z| et
cos( x, z).
2. Que vaut la corrlation de a
1
et a
2
? Que se passe-t-il si x et z sont orthogonaux ?
Exercice II.2.9.16 Un goteur teste des chocolats fabriqus base de cacao de trois provenances
direntes : Cte dIvoire, Venezuela, Brsil. Il donne une note pour chaque chocolat quil gote. Les
chocolats sont prpars avec des doses de vanilline direntes. Proposer pour cette exprience un modle
de rgression avec interaction et un sans interaction. Combien ont-ils de paramtres ? Interprter leur
dirence.
Exercice II.2.9.17 On teste des doses direntes dengrais dans un champ divis en parcelles similaires
de mme taille (une dose par parcelle). On mesure le poids de bl produit chaque fois et lon prsuppose
le gain de production est proportionnel la quantit dengrais utilis.
22
1. Combien y a-t-il de paramtres estimer ? Montrer que lon peut mettre cette exprience sous la
forme dun problme de rgression. Combien de colonnes a la matrice X ?
2. On fait maintenant la mme exprience mais dans trois champs dirents. On suppose de plus
que leet de lengrais dpend du champ. crire lquation de rgression. Combien de colonnes a la
matrice X ?
3. On suppose que lengrais a le mme eet dans les trois champs, mais que leur productivit en
absence dengrais est toujours dirente. Que devient lquation de rgression? Combien de colonnes
a la matrice X ?
4. On a maintenant deux engrais et un seul champ. Combien de colonnes a la matrice X ?
Vrier que la somme des solutions fait 15.
II.3 Modles htroscdastiques (Moindres carrs gnraliss)
II.3.1 Modle
La dirence avec le modle prcdent est que la matrice de covariance des bruits est maintenant
dirente dun multiple de lidentit. Il est souvent dsign sous le terme GLS (Generalised Least Squares).
Modle. On suppose lexistence dun vecteur
, de
> 0, de
+u,
E[u] = 0,
E[uu
T
] =
2
.
En dautres termes, pour chaque i :
y
i
= x
i
+u
i
E[u
i
] = 0
Cov(u
i
, u
j
) =
2
ij
(htroscdasticit et corrlation des erreurs).
Le paramtre
2
est connu
lavance et
2
estimer, ce qui, on va le voir, nous ramne par une transformation simple au problme
prcdent, ce qui est intressant du point de vue de lanalyse thorique. Souvent cependant
reprsente
directement la matrice de covariance de u (si bien que
= I. Estimation de
et
2
, c--d R
T
R =
1
; si lon pose :
y
= Ry, X
= RX, u
= Ru
on obtient
y
= X
+u
, E[u
T
] =
2
I.
On a donc dcorrl et normalis les observations. On est ramen au problme du II.2.
Une autre approche qui, on va le voir, conduit aux mmes conclusions, est de passer par le modle
gaussien y N(X
,
2
). La matrice
1
= z
T
z =
ij
z
i
(
1
)
ij
z
j
.
23
11 - Dfinition
Lestimateur des moindres carrs gnraliss de
,
2
)) :
G
= arg min
|y X|
= (X
T
X)
1
X
T
y.
On a bien :
G
(y, X,
) =
OLS
(y
, X
) = (X
T
X
)
1
X
T
y
.
On peut aussi relier ces rsultats au II.2 en remarquant que seule la mtrique a chang :
y
G
= H
G
y, H
G
= X(X
T
X)
1
X
T
et H
G
est le projecteur orthogonal sur X pour le produit scalaire z, t
= z
T
t.
Attention, la formule de prdiction pour un nouvel individu dont la covariance avec les autres individus
est connue et non-nulle dire de y
0
= x
0
x
i
+ u
i
, V ar( u
i
) =
2
/n
i
. (II.10)
n
2
( u
i
u
i1
)
2
/
n
1
u
2
i
. Si S est trop grande (resp. petite) il y a alors une
corrlation signicativement ngative (positive) entre les rsidus.
2. T.S. Breusch, A.R. Pagan, (1979) A simple test for heteroscedasticity and random coecient variation, Econometrica
47, 12871294
3. Dans un mme esprit le test de White compare S = n
1
i
(
2
u
2
i
)(x
T
i
x
i
n
1
X
T
X) 0. Cest un test de corrla-
tion entre les carrs des rsidus et les rgresseurs. Concrtement, la matrice S vectorise scrit n
1
v
i
, o v
i
R
p(p+1)/2
contient donc les termes (
2
u
2
i
)(x
ij
x
ik
n
1
(X
T
X)
jk
), j et k variant. Le test compare (
v
i
)
T
(
v
i
v
T
i
)
1
(
v
i
)
un
2
p(p+1)/2
.
H. White, A heteroskedasticity-consitent covariance matrix estimator and a direct test for heteroscedasticity, Econome-
trica, vol.48, No 4, May 1980.
4. J. Durbin, G.S. Watson, Testing for Serial Correlation in Least Squares Regression. III, Biometrika, Vol. 58, No. 1.
(Apr., 1971), pp. 1-19. Le test apparat pour la premire fois dans un article de 1951 des mmes auteurs ; cet article revisite
le sujet.
24
II.3.4 Estimation de
et
calculer :
= (X
T
1
X)
1
X
T
1
y
puis ensuite estimer
laide de
:
= (
, y, X).
La convergence de la mthode dpend de chaque situation particulire.
Exemple : Seemingly unrelated regression. Soit le modle
_
y
y
_
=
_
X 0
0 X
__
_
+
_
u
u
_
, V ar
_
u
u
_
=
_
v
11
Id v
12
Id
v
12
Id v
22
Id
_
.
Par exemple y
i
et y
i
sont deux mesures direntes, ou dires, de lactivit commerciale du pays i. Une
estime de et
i
).
La variance dpend donc du type de terreau et du niveau dclairage. La commande R correspondante
sera (bibliothque nlme) :
gls(yt+a,weights=varConstPower(form=a|t)))
Si la variance ne dpend que de t, faire weights=varIdent(form=1|t).
Exemple : Donnes longitudinales. On sintresse savoir si le labour a une inuence sur la prsence
de carbone dans le sol
5
. On prlve des carottes dans divers champs et la mesure y
ij
est le taux de carbone
labscisse (profondeur) t
j
de la i
k=1
k
t
k
j
+v
ij
+u
ij
E[uu
T
] =
2
u
Id, E[v
ij
v
ik
] =
2
v
exp[t
j
t
k
[, E[v
ij
v
i
k
] = 0, i
,= i.
Le terme polynomial (p.ex. K = 1) explique une tendance rgulire de variation du taux de carbone en
fonction de la profondeur et le terme suivant exprime une corrlation additionnelle entre prlvements
proches pour le mme individu.
Chaque estime
, de
j
|
a
) +
2
0
ij
. (II.11)
5. F.J. Breidt,Ecological Modeling with Soils Data : Semiparametric Stochastic Mixed Models for Increment Averages,
Journes Statistiques de Rennes, 2006. Nous simplions ici beaucoup : En ralit F.J. Breidt utilise des fonctions splines et
les termes correspondant aux
k
dpendent galement des variables explicatives, le tout dans un cadre de modles mixtes.
25
Nous sommes encore dans le cadre prcdent ; les quatre paramtres a, b, c,
2
0
devront tre estims.
Souvent dans les applications seul le rgresseur constant est considr mais ce nest pas toujours le
cas. Le but du krigeage est de prdire la rponse y
0
en un nouveau point
0
en prenant en compte les
variables explicatives x
0
et en exploitant les corrlations existant avec les y
i
. Ici
= 1 et on note
y = (y
i
)
1in
, u = (u
i
)
1in
, = E[uu
T
], = E[uu
0
].
On suppose dans la suite que le rgresseur constant est pris en compte dans x. Si
et taient
connus, lestimateur naturel de y
0
serait, sous lhypothse gaussienne
6
son esprance sachant les y
i
soit
y
0
= E[y
0
] + E[u
0
[u] = x
0
+
T
1
u. Comme
+
T
1
(y X
). (II.12)
Il ne reste donc plus qu trouver
et
, c.--d. dans lexemple (II.11) estimer , a, b, c et
2
0
.
Parenthse. Rappelons que le rgresseur constant est pris en compte. Il est dusage, dans la littrature de krigeage,
de remarquer que y
0
=
p
i
y
i
o le vecteur p est solution dune de ces deux quations suivantes en (p, q) au choix
7
X
X
T
0
p
q
x
T
0
ou
X
X
T
0
p
q
x
T
0
ij
= E[(u
i
u
j
)
2
],
i
= E[(u
i
u
0
)
2
].
La matrice est appel le variogramme. Dans le domaine des processus spatiaux, il apparat souvent plus naturel
de travailler avec cette matrice plutt quavec pour des raisons de modlisation.
Noter que
i
p
i
= 1 puisque X
T
p = x
T
0
(cette proprit est perdue si le rgresseur constant nest pas pris en compte,
et la deuxime quation matricielle galement ; les p
i
ne sont pas ncessairement 0). Noter que la partie q de la
solution dire selon lquation choisie (p est galement solution de ces quations modies en remplaant u par y
dans les dnitions de , , et ).
La mthode consiste estimer ( ou ) par le biais dun modle du type
ij
= (
i
,
j
) o
i
est un
vecteur de variables explicatives ; en dehors de (II.11) voici un autre exemple
8
ij
= c exp(
k
c
k
[x
ik
x
jk
[
) +
2
ij
ou encore
ij
= (|
i
j
|) o la fonction est estime par un estimateur non paramtrique p.ex.
(h) =
1
N(h, )
h<|
i
j
|<h+
u
i
u
j
et N(h, ) est le nombre de termes dans la somme, un paramtre choisir. Le problme est dobtenir
une matrice positive la n.
On peut aussi utiliser un modle pour , par exemple le modle sphrique
9
ij
= g(|
i
j
|/)
g(x) =
_
3x x
3
, x < 1
2, x > 1
(la fonction g est drive continue) ou le modle exponentiel g(x) = 1 e
x
.
6. Si (X, Y ) est un vecteur gaussien centr dans R
n+p
, on a E[Y |X] = R
Y X
R
1
XX
X.
7. Utiliser la proprit suivante : Soit A, B, C, D quatre matrices de dimensions adquates, si les inverses existent
A B
C D
1
=
E A
1
BF
FCA
1
F
, F = (D CA
1
B)
1
, E = A
1
+A
1
BFCA
1
.
8. De tels modles sont utiliss dans larticle de J. Sacks, W.J. Welch, T.J. Mitchel et H.P. Wynn, Design and analysis
of computer experiments, Stat. Sci., 1989, vol.4, No.4, 409-435.
9. Sur les modles et leur estimation, consulter par exemple larticile de M.L. Stein : Minimum Norm Quadratic Esti-
mation of Spatial Variograms, J. Am. Stat. Ass., Vol 82, No 399, pp 765-772, 1987.
26
II.3.5 Modles mixtes
Cest le modle de rgression
y = X +Z +u, N(0, G), u N(0,
2
Id) (II.13)
o X et Z sont des matrices connues (rgresseurs), est le paramtre et est un bruit vectoriel ind-
pendant de u. G est typiquement une matrice diagonale. On peut remplacer
2
Id par une matrice plus
gnrale. Noter que Z a un nombre a priori faible de colonnes, et donc le bruit (Z)
i
engendr par est
trs corrl dune donne lautre, contrairement u
i
. On a
y N(X, V ), V =
2
Id +ZGZ
T
.
On peut voir linverse cette modlisation comme y N(X + Z,
2
Id) avec lintroduction dune
information Baysienne sur une partie des coecients (les
j
).
Un point de vue plus pragmatique est dy voir une possibilit destimer dun modle linaire quand la
matrice de rgression, ici (X[Z), a beaucoup de colonnes, voire plus de colonnes que de lignes. Mme si
G est inconnu, il pourra en pratique tre estim via une modlisation paramtrique dont la plus simple
est G =
2
Id.
En rsum : Le modle mixte est une formulation particulire de modle htroscdastique ; elle per-
met en particulier de proposer un modle de complexit intermdiaire entre le modle complet y
N((X[Z), I) (qui a trop de paramtres) et le modle y N(X, I) qui est trop simple.
Lintrt principal des modles mixtes est de permettre de juger de limportance des rgresseurs Z
dans des situations o lon ne peut pas estimer le modle complet : si le modle mixte est signicativement
meilleur que le modle eets xes simple, alors les rgresseurs Z jouent un rle signicatif.
On verra au III.4.7 quune application typique est de tester les interactions compliques en analyse
de la variance.
Pour les dtails concernant lestimation nous renvoyons [2] ou [16].
Exemple : donnes groupes (random block eects). Supposons que lon a rassembl p groupes de
donnes obtenues dans des conditions direntes. Par exemple chaque groupe peut reprsenter une srie
dexpriences (test de cocktails, traitements mdicaux, etc.) faites sur un sujet (dirent dun groupe
lautre). lintrieur de chaque groupe on ne peut pas considrer les mesures comme indpendantes car
elles ont en commun des conditions exprimentales spciques (le goteur, le cobaye, etc.). En dsignant
par x
e
, e = 1, . . . n
e
, les rgresseurs de lexprience numro e (composition du cocktail, teneur en sucre,
etc.) et s, s = 1, . . . n
s
le sujet, on pourra choisir le modle :
y
se
= x
e
+
s
+u
se
,
s
= N(0,
2
).
On voit que leet alatoire se traduit ici par un biais variant alatoirement dun sujet lautre (certains
goteurs sont plus svres, etc.) ; en reprenant les notations prcdentes, et en supposant que chaque
sujet fait toutes les expriences, Z est (n
e
n
s
) n
s
:
Z =
_
_
_
_
_
_
1 0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 1
_
_
_
_
_
_
, = N(0,
2
I
n
s
)
o 0 et 1 sont des vecteurs de 0 et de 1. Dans ce cas,
_
, I), il est naturel dajouter la condition
i
= 0, lie au fait que
les
i
du modle mixte sont centrs, et la solution redevient unique.
27
Exemple : uctuations sur les paramtres dun modle longitudinal
10
. Les auteurs cherchent
proposer un modle de croissance pour des enfants de 12 14 ans. Il y a 26 enfants. On mesure
la taille y
ij
de lenfant i lge t
ij
, j = 1, . . . J = 9 (les mesures sont prises tous les trois mois).
11.0 11.2 11.4 11.6 11.8 12.0 12.2 12.4 12.6 12.8 13.0
125
130
135
140
145
150
155
160
165
170
175
Les auteurs postulent le modle polynomial (le choix des ordres 4 et 2 est de nature exprimentale)
y
ij
=
4
k=0
k
t
k
ij
+
2
k=0
ik
t
k
ij
+u
ij
, (
.0
,
.1
,
.2
) N(0, G). (II.14)
Si J est petit, il est hors de question destimer un polynme dordre 4 par enfant, et cela prsente peut
dintrt car linterprtation du paquet de paramtres obtenus exigera une nouvelle analyse statistique.
Les auteurs choisissent donc le modle (II.14). Les
k
reprsentent le polynme moyen tandis que les
ik
servent modliser la variabilit dun individu lautre. Lestimateur de G quantie cette variabilit.
Lanalyse avec la commande
mod=lme(taille1+t+I(t
2
)+I(t
3
)+I(t
4
),random=1+t+I(t
2
)|sujet),
(bibliothque nlme
11
) donne les estimes (eets, xes, variances, corrlations, avec la convention G
ij
=
j
r
ij
pour i ,= j)
0
1
2
3
4
0
1
2
u
r
01
r
02
r
12
149 6, 2 1, 1 0, 47 0, 34 8 1, 7 0, 8 0, 47 0, 61 0, 22 0, 66
Notons les fortes corrlations, et la cohrence de r
01
> 0 avec la gure. Les intervalles de conance pour
ces quantits sobtiennent avec intervals(mod). Lestimation du modle y
ij
=
4
k=0
k
t
k
ij
+u
ij
, donne
bien les mmes estimes de la partie xe.
On peut voir ce modle comme un modle hirarchique car le coecient de t
k
pour lenfant i est
k
+
ik
, ce qui revient postuler un modle de rgression pour ce coecient.
Pour additionner plusieurs eet alatoires indpendants il faut faire une liste, par exemple
mod=lme(taille1+t+I(t
2
)+I(t
3
)+I(t
4
),random=list((1+t|sujet),(I(t
2
)-1|sujet)))
revient imposer r
02
= r
12
= 0.
On peut galement utiliser la bibliothque lme4 qui donne de bons rsultats en estimation; la com-
mande sera mod=lmer(taille1+t+I(t
2
)+I(t
3
)+I(t
4
)+((1+t+I(t
2
))|sujet)). Pour un modle avec
uniquement des eets alatoires du type y
ijk
= +
i
+
j
+
ij
+u
ijk
o les trois eets sont indpendants
(les paramtres sont (,
u
,
+u
i
z
i
= x
i
+v
i
o lon observe les (y
i
, z
i
) mais pas x
i
. Les u
i
et v
i
sont des bruits indpendants de variance
2
u
et
2
v
. Par exemple dans (I.1), la mesure de log p
i
est sans doute autant entache derreur que celle de la
temprature. Lestimateur OLS de
2
u
(y
i
x
i
)
2
+ (z
i
x
i
)
T
2
v
(z
i
x
i
). (II.15)
12. Daprs C. Lavergne et C. Trottier, Sur lestimation dans les modles linaires gnraliss eets alatoires, Revue
de Statistique Applique, 48 no. 1 (2000), p. 49-67 .
29
Si
u
= 1,
v
= Id, cest la somme des carrs des distances des points dobservation (z
i
, y
i
) aux points de
la droite (de lhyperplan) de rgression (x
i
, x
i
), et le minimum sur les x
i
est donc la somme des carrs
des distances la droite. Il nexiste malheureusement pas destimateur satisfaisant de
v
; si lon esssaye
par exemple le maximum de vraisemblance, on trouve au nal
v
= 0 avec X = Z, une vraisemblance
innie et
=
OLS
.
Rsolution numrique. Ce paragraphe ncessite de se familiariser avec la svd
13
. On notera matricielle-
ment
y = X
+u, Z = X +V.
Posons =
1
v
u
, alors lestimateur (II.15) de
D
1
0
0 d
2
V
11
V
12
V
21
V
22
T
(II.16)
(D est diagonale dcroissante et d
2
est sa plus petite entre) puis
M = U
1
D
1
(V
T
11
|V
T
21
)
ce qui revient faire d
2
= 0 dans (II.16). Do ensuite
X = U
1
D
1
V
T
11
1
et
= V
T
11
V
T
21
.
Pour la situation plus gnrale o une partie des rgresseurs est observe sans bruit (p.ex. si lon veut
mettre le rgresseur constant) :
y = X
+X
0
0
+u, Z = X +V,
on commence par projeter tout orthogonalement aux colonnes de X
0
(pour toute matrice M, on pose
M
= (I X
0
(X
T
0
X
0
)
1
X
T
0
)M) :
y
= X
+u
, Z
= X
+V
et
+Z Z
et
0
sobtient par rgression de y
X
sur X
0
.
Exercice II.4.1 Montrer que lannulation des drives de (II.15) en X et conduit ( =
1
v
u
) :
X = (y
T
+Z)(
T
+ )
1
,
= (
X
T
X)
1
X
T
y.
En dduire un algorithme de point xe pour calculer la solution (on ne discutera pas de la convergence).
II.5 Rgression non-paramtrique et moindres carrs
Nous ne traitons pas ici de ce problme dans toute sa gnralit ; on ne fera pas non plus une
prsentation rigoureuse de la thorie ; voir [10] et [17] pour de bons livres introductifs.
Le modle est le suivant o le paramtre estimer est la fonction f inconnue :
y
i
= f(
i
) +u
i
, u
i
= N(0,
2
),
i
[0, 1]. (II.17)
Il sagit dun problme non paramtrique car lensemble des fonctions candidates nest pas un espace de
dimension nie.
13. La svd dune martice M, n p, est une reprsentation sous la forme
M = UDV
T
=
d
i
u
i
v
T
i
o U est n m, colonnes u
i
orthonormes (i.e. U
T
U = I), V est p m, colonnes v
i
orthonormes, D est m m
diagonale et m est le rang de M. On montre que cette dcomposition permet dapprocher M optimalement pour la norme
de Frobenius par des matrices de rang infrieur en annulant les plus petits d
i
dans cette expression.
Cette dcomposition sobtient en diagonalisant MM
T
= UD
2
U
T
(U est rectangulaire car on ne conserve que les vecteurs
propres associs des valeurs propres non nulles) et en posant V = M
T
UD
1
; on vrie immdiatement, en substituant
V par sa valeur, que UDV
T
= M et V
T
V = I. Si les valeurs singulires sont distinctes, elle est unique.
30
II.5.1 Premire approche : la rgression polynmiale
Faisons apparatre sur un exemple simul simple les problmes rencontrs. On dispose des 20 paires
(
i
, y
i
) reprsentes sur la gure par des cibles. Elles suivent le modle (II.17) sauf que lintervalle de
variation de est plus grand. La fonction f est un polynme dordre 3, f(x) = (5x 1)
2
(x 1),
reprsent en trait plein ; on a pris = 1. Si lordre est eectivement connu, lestimation peut se faire
par une rgression habituelle avec le modle
y
i
=
1
+
2
i
+
3
2
i
+
4
3
i
+u
i
.
En gnral lordre nest pas connu (et mme lhypothse f polynmiale nest quune approximation)
et la question de lordre utiliser se pose. La gure montre les estimes pour des ordres 3 et 6 (courbes
en pointills). On voit que lestime avec lordre 6 est trs mauvaise ; ceci vient du fait que les coecients
supplmentaires ont t utiliss pour approcher davantage les donnes (bruites) ce qui a induit un cart
important la vrit aux endroits o les observations se font rares ; si lon augmente lordre, le polynme
estim va sapprocher de plus en plus des points dobservation en ayant un comportement trs chaotique
entre ces derniers. La dicult est donc de trouver un ordre (taille du modle) raisonnable.
0 0.2 0.4 0.6 0.8 1.0 1.2
4
3
2
1
0
1
2
3
4
(i)
(cf II.2.5) puis
CV (d) = n
1
i
(y
i
x
i
(i)
)
2
o la dpendance en d est implicite via la dimension du rgresseur (p = d + 1). Il est essentiel dter
lindividu i chaque fois car sinon on aurait une fonction dcroissante de d et il serait nalement choisi
trop grand (typiquement gal n). En utilisant lexercice II.2.9.10, le critre minimiser devient
CV (d) = n
1
i
u
2
i
(1 h
i
)
2
Le deux gures suivantes illustrent la mthode. La premire montre lvolution de
_
CV (d) en fonction
de d ainsi que celle de et de lestimateur au maximum de vraisemblance
MV
=
_
RSS/n.
MV
est
une fonction dcroissante de d car cest la norme de la projection sur des espaces embots. nest
visiblement pas non plus une mesure trs satisfaisante. En pratique CV (d) avoisine son minimum sur un
plateau de largeur rduite o les estimes dirent assez peu.
La seconde gure montre les polynmes estims pour d = 3 et d = 4, qui semblent tre les deux seules
valeurs acceptables.
31
1 0 1 2 3 4 5 6
0.9
1.3
1.7
2.1
2.5
2.9
3.3
3.7
4.1
4.5
.
.
1 0 1 2 3 4 5 6
0.9
1.3
1.7
2.1
2.5
2.9
3.3
3.7
4.1
4.5
+ +
+
+ +
+
+
sch
smv
cv
0 0.2 0.4 0.6 0.8 1.0 1.2
3
2
1
0
1
2
3
4
j
=
_
1
0
e
2ij
f() d, f() =
jZ
j
e
2ij
. (II.18)
Remarque : on prend ici, pour simplier lexpos, la notation complexe, qui nest pas trs adapte en rgression si
f est relle, car on a alors la contrainte
k
=
k
. Il faudrait mieux dnir
j
=
1
0
e
j
()f() d, f() =
ge0
j
e
j
()
e
2j
() = cos 2j, e
2j+1
() = sin 2(j + 1), j = 0, 1, . . .
On a alors
y = X +u, X
ij
= e
2ij
i
(II.19)
qui est la forme habituelle (vu labsence dambiguit, on a supprim dans ce paragraphe ltoile qui
dsignait prcdemment le vrai paramtre par opposition au paramtre gnrique). Noter que la matrice
X
T
ne peut tre de rang plein car elle a n colonnes et une innit de lignes ; toute estime OLS sera une
fonction qui vaut y
i
en
i
, donnant ainsi un rsidu nul, ce quon pouvait deviner tout de suite au vu de
(II.17). Cette estime sera toujours mauvaise, sauf si = 0, car la fonction obtenue sera trs irrgulire.
Le but sera ici de construire une estime qui sera bonne si f est rgulire (la situation tant dsespre
sans hypothse supplmentaire sur f).
On va construire un estimateur biais, mais dont les performances seront trs suprieures OLS dans
le cas o beaucoup de
j
sont petits (ce qui correspond f rgulire) et trs lgrement dgrades sinon.
Rappelons que des intgrations par parties dans (II.18) montrent que si f admet q drives intgrables,
[
j
[ < Cj
q
.
Mthode de projection On se restreint aux estimateurs (biaiss) satisfaisant :
j
= 0, [j[ > j
0
pour un certain j
0
infrieur n. Une fois j
0
choisi, le problme est alors un problme de rgression
purement paramtrique puisquil reste estimer par moindres carrs les
j
pour [j[ j
0
.
Ceci correspond lintroduction dune hypothse supplmentaire : la suite des
j
tend rapidement
vers 0. Cest une hypothse de rgularit de f.
Lestimation de j
0
par validation croise se fait comme prcdemment.
Des calculs ont montr que si CV est asymptotiquement trs bon, il est trs bruit, ce qui fait que j
0
est gnralement
surestim. Une amlioration consiste utiliser la validation croise rgularise
14
: CV R(j
0
) = n
1
i
(
f
0
(x
i
)
14. P. Hall, H. Marron & B.U. Park, Smoothed cross-validation, Probab. Th. Relat. Fields, 92,1-20, 1992. Springer, 1992.
32
x
i
(i)
)
2
o
f
0
(x
i
) = x
i
0
est une premire estime obtenue avec un j
0
sensiblement plus grand que la valeur
optimale. Cette mthode se justie par le fait que CV R est un intermdiaire entre CV et le critre totalement
dbruit idal
i
(f(x
i
) x
i
(i)
)
2
; choisir j
0
trop grand garantit que lon reste bien dans la zone intermdiaire,
sans ajouter de biais signicatif dans
f
0
.
Validation croise gnralise. Si lon utilise une hypothse duniforme rpartition des
i
, il vient
(X
T
X)
jk
=
X
ij
X
ik
=
i
e
2ij
i
e
2ik
i
n
_
1
0
e
2i(kj)
d = n
jk
do h
i
p/n (p = 2j
0
+1) ; on a alors CV (j
0
)
1
1p/n
2
o
2
dsigne comme dhabitude lestimateur
non-biais. La minimisation du membre de droite correspond lestimateur classique de validation croise.
La validit thorique de cette approche a t dmontre par Polyak et Tsybakov
15
. Si les donnes sont
mal rparties, mieux vaut sen tenir au vrai CV.
II.5.3 Aspects pratiques
Au problme du choix du nombre de fonctions de base (c.--d. du degr, ou de j
0
) sajoute celui
de la base elle-mme. En particulier il pourra tre plus judicieux dutiliser une base de fonctions non-
priodiques si lon sait que f est non-priodique, par exemple (ici x [0, 1])
16
:
f
k
(x) = cos kx, k = 0, 1, . . .
g
k
(x) = x
k
, k = 0, 1, . . .
h
0
(x) = 1, h
1
(x) = x, h
k
(x) = sin kx, k = 2, 3, ..
Mentionnons galement la possibilit dutiliser les fonctions splines (polynmes par morceaux adquate-
ment raccords). Nous renvoyons [15].
Prenons un exemple : On sintresse lauence dans des magasins (rponse y) en fonction du temps
quil fait x (note combinant temprature et pluviosit). Le modle le plus simple est
y
i
=
1
+
2
x
i
+e
i
.
Si les mesures sont prises des heures direntes de la journe, il sera trs important dintgrer cela au
modle, par exemple par lintermdiaire dune variable t
i
variant entre disons 9h et 19h :
y
i
=
1
+
2
x
i
+
3
f
0
(
t
i
) + +
3+k
f
k
(
t
i
) +e
i
,
t
i
= (t
i
9)/10.
On a maintenant un modle de rgression habituel avec k + 3 rgresseurs (donnes longitudinales). On
aurait pu galement dcouper la journe en parties et introduire un rgresseur symbolique, ce qui revient
au mme que de prendre pour f
0
, ..f
k
des fonctions indicatrices dintervalle, et introduit des discontinuits
assez peu naturelles.
Une autre faon de procder pour fabriquer une base adquate peut tre de partir des donnes elles-
mmes (ou dautres mesures), si elles sy prtent : si lon dispose de mesures dauence prises dans
dirents magasins tout au long de la journe, y
m
(t
j
), o m = 1, . . . M est lindice de magasin et t
j
est
une suite dinstants donns de lintervalle [9, 19], on peut faire une ACP de ces M vecteurs pour en extraire
les composantes principales f
i
(t
j
) dont les premires fourniront une base adapte. Le fait dutiliser les
rponses pour fabriquer les variables explicatives va malheureusement compltement perturber les tests
qui suivront.
15. B.T. Polyak, A.B. Tsybakov, A family of asymptotically optimal methods for selecting the order of a projection
estimator for a regression, Theory Probab. Appl., 37, No 3, pp 471-481, 1992.
16. Comme pour les g
k
, les combinaisons linaires des f
k
fonctions forment un ensemble dense dans lespace des fonctions
continues sur [0, 1] par application du thorme de Stone-Weierstrass ; les h
k
tant essentiellement les primitives des f
k
, on
montre galement la densit.
On peut prfrer aux g
k
des polynmes orthogonaux, ce qui thoriquement ne change rien mais pratiquement donne
typiquement un meilleur conditionnement de X
T
X.
33
II.6 Rgression sur des classes. Segmentation des donnes
Si lhypothse de linarit nest pas satisfaite, on a vu quune solution peut consister ajouter de
nouvelles variables explicatives bases sur les premires (logarithme, etc.)
Loption propose ici est de faire une classication des donnes base sur certaines variables expli-
catives puis faire une rgression dirente sur chaque classe. Cest une pratique assez courante sur les
grands ensembles.
Ceci revient bien entendu faire une rgression globale avec de nouvelles variables explicatives tenant
compte des classes, mais est en pratique plus simple grer.
II.7 Mlange de rgressions
Ce modle
17
consiste considrer que la loi de y est un mlange de gaussiennes gouvern par dirents
paramtres :
y
R
r=1
p
r
N(x
r
,
2
r
).
Ce qui peut galement sinterprter comme un mlange de plusieurs types de donnes, chacun suivant le
modle habituel ; chaque type r a la probabilit p
r
dtre choisi ; par exemple r peut tre la nationalit
dun individu pris au hasard en Europe et p
r
la population relative du pays. Si pour chaque individu r
est observ on peut sparer les donnes en R paquets et lon a simplement R problmes de rgression
habituelle ; on considre ici que r est inconnu, on peut le voir comme une donne manquante.
Ce modle avec R = 2,
1
=
2
et
1
,=
2
a t utilis pour modliser des individus aberrants. Dans
le cas o le rgresseur x ne contient que la constante, x
i
= 1, on retrouve le mlange de gaussiennes.
Mentionnons sans dmonstration que lestimation du modle peut se faire itrativement par la m-
thode EM, ce qui conduit aux quations de restimation :
q
ir
p
r
G(y
i
; x
T
i
r
,
r
)
s
p
s
G(y
i
; x
T
i
s
,
s
)
p
r
1
n
n
i=1
q
ir
r
(X
T
r
X)
1
X
r
y,
r
= Diag(q
1r
. . . q
nr
)
2
r
i
q
ir
(y
i
x
i
r
)
2
i
q
ir
o G(y; ) dsigne la densit gaussienne. Dans cet algorithme, q
ir
reprsente la probabilit a posteriori
(c--d aprs observation des rponses) que la donne i soit du type r. Il faut bien entendu fournir des
valeurs initiales.
II.8 Surparamtrisation, rduction de modle et rponses mul-
tiples
On est dans la situation o il y a un trs (trop) grand nombre de rgresseurs, voire mme plus que
dindividus : par exemple dans [9] lindividu est un certain produit compos (un vin, etc.), le rgresseur
j est la mesure dabsorption de la lumire mise une certaine frquence
j
et la rponse est la fraction
dun produit spcique dans le compos. Deux mesures correspondant deux frquences proches sont
trs corrles. On sintresse en ralit la prsence de plusieurs produits ce qui fait donc plusieurs
rponses.
On considrera ici comme exemple un tableau X 251 individus (des hydrocarbures) et 401 variables
(un spectre)
18
. La gure II.4 montre les spectres pour 4 individus pris au hasard ; la rponse est la
17. K. Viele, B. Tong, Mixtures of Linear Regressions, Technical report, Univ. of Kentucky, 1999,
www.ms.uky.edu/statinfo.
18. Mis librement disposition par Eigenvector Research, Inc., software.eigenvector.com/Data/index.html.
34
temprature de gel. Dans les expriences qui vont suivre, on a recentr les variables et les rponses.
Noter que lon voit bien la corrlation des rgresseurs en raison des frquences proches.
0 40 80 120 160 200 240 280 320 360 400
0.04
0.03
0.02
0.01
0
0.01
0.02
0.03
0.04
0.05
0.06
0 40 80 120 160 200 240 280 320 360 400
7e3
5e3
3e3
1e3
1e3
3e3
5e3
Figure II.4 Spectres NIR de 4 chantillons dhydrocarbure avant et aprs recentrage.
Aiji, Tavolaro, Lantz et Faraj prsentent
19
un travail sur des donnes du mme type avec 69 individus
et 2232 variables explicatives (longueurs donde). P. Bastien
20
travaille sur 40 individus (sujets) et 1800
variables (taux dexpression de 1800 gnes).
Donnons un autre exemple de situation plusieurs rponses cit dans [4] : les rponses sont 6 ca-
ractristiques dun polymre en sortie dun racteur et les rgresseurs sont 21 tempratures en divers
endroits du racteur et la vitesse de production ; il y a 26 individus.
Autre exemple : les rgresseurs sont des variables cologiques (activit humaine, caractrisations du
milieu, etc.) et les rponses sont des mesures de densit despces.
Une rgression OLS prenant tous les rgresseurs en compte aura un trs petit et des performances
trs mauvaises sur dautres donnes (surparamtrisation, cf II.5). Il y a essentiellement deux appoches :
Chercher des modles possdant moins de paramtres. Ils seront obtenus en remplaant les r-
gresseurs par un petit nombre de combinaisons linaires de ces derniers, de prfrence
assez dcorrles (empiriquement). Le choix entre les dirents modles possibles peut se faire
ensuite avec des mthodes utilisant par exemple la validation croise.
On observe quun petit sacrice sur le RSS augmente considrablement le choix des possibles :
lensemble : RSS() (1 +)RSS(
= UD, W = V .
Les colonnes de X sont gnralement recentres (les composantes principales Xw
i
sont alors dcorrles),
et trs souvent normes 1.
Posons X
a
= XW
a
= X[w
1
. . . w
a
]. Les modles proposs utilisent les a premires composantes :
y = X
a
+u, X
a
= (x
ij
)
1in,1ja
.
19. Apport du boostrap la rgression PLS Oil & Gaz Science Technology Rev. IFP, Vol.58 (2003), No 5, pp. 599-608
20. Modle Cox-PLS : application en transcriptonique, LOral Recherche
35
II.8.2 Moindres carrs partiels (pls)
Vu lobjectif nal, on peut trouver injuste que le calcul des composantes principales soit fait indpen-
damment des rponses ; do la mthode pls, essentiellement utilise dans le cas de plusieurs rponses,
surtout des ns de prdiction. Lide est de choisir dabord les combinaisons linaires des rgresseurs
les plus corrles aux rponses. La rfrence [18] dcrit la mthode et ses variantes. Breiman et Friedman
proposent dans [4] une discussion approfondie des direntes mthodes utilises dans le cas de plusieurs
rponses ; leurs conclusions sur le pls sont plus que mitiges.
De mme que pour lacp, les colonnes de X seront gnralement centres ce qui fait que les produits
scalaires apparaissant dans la suite sont des covariances empiriques, mais ce nest pas ncessaire.
Dans le cas de rponses multiples, chaque y
i
est un vecteur ligne, si bien quon a une matrice Y et un
espace vectoriel Y engendr par les colonnes de Y . La mthode de rgression linaire fonctionne comme
avant avec
= (X
T
X)
1
X
T
Y,
Y = X
, et
est la matrice qui contient les rsultats des rgressions
linaires faites sparment pour chaque colonne de Y .
Notons que si Y a plus de colonnes que X (penser un trs grand nombre de mesures), ou tout du
moins plus de colonnes que le nombre nal de rgresseurs, le vecteur (ligne) y appartiendra un sous-
espace de dimension infrieure sa longueur, do lide quon aura extrait au passage des composantes
principales sur les rponses galement.
La mthode pls (cf [18] p.141) consiste calculer la paire de vecteurs de X et Y de plus grande
covariance (sous une contrainte particulire) puis orthogonaliser X ce vecteur (on retire donc chaque
colonne de X sa prdiction par ce rgresseur, cette matrice sera note X
a
dans la suite, X
0
= X) et
recommencer (noter que si au lieu de la covariance on maximise la corrlation, la premire composante
que lon rcupre est le y de la rgression linaire habituelle et lalgorithme sarrte) ; lalgorithme est,
avec X
0
= X, a = 1, 2, . . . :
(w
a
, u
a
) = arg max
u,w
X
a1
w, Y u : |u| = 1, |w| = 1
t
a
= X
a1
w
a
/|X
a1
w
a
| (nouvelle composante orthogonale)
X
a
= X
a1
t
a
(t
T
a
X
a1
) (orthogonalisation des colonnes t
a
)
noter que lorthogonalisation des colonnes de X peut se faire pas pas car les t
a
sont orthogonaux.
La rsolution en (w, u) donne pour w le vecteur propre de X
T
a1
Y Y
T
X
a1
associ la valeur propre
maximale (vecteur singulier maximal droite de Y
T
X
a1
; si Y est un vecteur cest X
T
a1
Y )
21
.
Comme t
1
, . . . t
a
et Xw
1
, . . . Xw
a
engendrent le mme espace (vrier !), on choisira ces derniers
comme nouveaux rgresseurs, soit en posant W
a
= [w
1
, . . . w
a
] :
X
a
= XW
a
a
= (X
a
T
X
a
)
1
X
a
T
Y
Y
a
= X
a
ce qui permet de faire la prdiction partant dun nouvel individu :
y
a
= xW
a
a
.
Autre point de vue. On peut trs bien rcrire le problme doptimisation de manire quivalente :
(w
a
, u
a
) = arg max
u,w
Xw, Y
a1
u : |u| = 1, |w| = 1
o Y
a
= (1 T
a
T
T
a
)Y et T
a
= [t
1
, . . . t
a
], car X
a
= (1 T
a
T
T
a
)X. On cherche chaque tape le vecteur
Xw de X de plus grande covariance avec les rsidus de prdiction des rponses base sur les composantes
prcdentes, sous la contrainte |w| = 1.
Axes principaux en rponse. Si lon retient moins de composantes que la dimension de Y, y
a
sera
combinaison linaire des lignes de
a
, les axes principaux en rponse .
Attention, la validation croise est ici lourde mettre en uvre du fait que les rgresseurs sont calculs
partir des rponses. Il faut donc retirer lindividu avant davoir commenc le pls, puis faire le pls, la
21. Noter au passage lorthogonalit des w
a
: Pour le vrier, remarquer que X
a
w
a
= 0, en dduire par rcurrence que
X
b
W
a
= 0, b a ; par consquent, si b > a, w
a
est dans le noyau de X
T
b1
Y Y
T
X
b1
et donc orthogonal X
b
.
36
rgression et calculer lerreur de prdiction, ceci pour tous choix de nombre de composantes gardes et
tous les individus. En sommant sur les individus on obtient un score de validation croise pour chaque
choix de nombre de composantes. Cest ce qui est fait dans la gure II.5 (gure de gauche) ; dans la gure
de droite on a retir non pas un individu mais 10% pris alatoirement, ceci 60 fois, puis moyenn les
erreurs obtenues. On compare avec lacp, lacp et la rgression tant faite sur lensemble dapprentissage.
Notons galement que fait dutiliser les rponses pour fabriquer les variables explicatives perturbe les
tests de signicativit que lon pourrait faire ensuite, ce qui pousse utiliser la validation croise.
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
PLS
ACP
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
0 2 4 6 8 10 12 14 16 18
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
3.9
4.1
4.3
PLS
ACP
Figure II.5 Critres de validation croise sur les donnes dhydrocarbure. Par leave-one-out (
gauche) et par extraction dun paquet alatoire de 10% dindividus test ( droite). En abscisse le
nombre de rgresseurs introduits, colonne de 1 non compte (
_
TSS/n = 4, 27).
II.8.3 Ridge regression
Il ne sagit plus ici de rduire le nombre de rgresseurs mais de faire directement lestimation en
prenant en compte le grand nombre de rgresseurs ; comme au II.5, cette mthode a pour eet de
rduire les coecients de
OLS
( shrinkage ). La mthode de ridge regression propose lestimateur
suivant o le paramtre doit tre estim par validation croise :
R
= (X
T
X +I)
1
X
T
Y.
Cest le qui minimise le SS() sous la contrainte que || pour un certain (dpendant de ).
On peut vouloir prserver certaines colonnes de X (disons les premires) de leet dattnuation, il
sut pour cela dorthogonaliser les autres (aux premires) et de remplacer I par une matrice diagonale
ayant des 1 au dbut et des la n. Ainsi, lorsque tend vers linni on ne fait plus quune rgression
sur les premires colonnes. Sur les donnes dhydrocarbure le meilleur choisi par validation croise
conduit une valeur du critre de 2.39. Le quon trouve est appoximativement la mdiane des termes
diagonaux de X
T
X, qui est galement un centime de la moyenne de ces termes.
Une variante : Mthode Lasso. Il sagit de lestimateur
22
= arg min
|y X|
2
, ||
1
=
p
j=1
[
j
[
o est un paramtre choisir, par exemple par validation croise. On observe que lorsque diminue,
a de plus en plus de coecients nuls. On peut donc voir cette mthode comme un intermdaire entre
la mthode descendante et la rgression ridge. Cet estimateur apparat comme un cas particulier dun
estimateur plus gnral, lestimateur lars
23
pour lequel un algorithme de calcul ecace a t mis au
point. Sur les donnes dhydrocarbures, en utilisant le programme lars disponible sous R et en choisissant
par validation croise, on trouve une valeur du critre de 2,5 avec 25 coecients non nuls ; attention,
ce chire est dicilement comparable aux 11 (en gros) variables choisies par le pls ou lacp car ici il
sagit des variables originales.
22. R. Tibshirani, Regression, shrinkage and selection via the lasso, J. Roy. Statis. Soc. B, 58, 267-288, 1996.
23. B. Efron, T. Hastie, I. Johnstone and R. Tibshirani Least angle regression, Ann. Statist. 32, no. 2, 407-499, 2004.
37
Exercice II.8.3.1 (Validation croise) Vrier que la formule (II.1) reste valide pour
R
si lon remplace
X
T
X par X
T
X+Id (cf lexercice II.2.9.14) puis que lerreur par validation croise est donne par (II.9)
avec h
i
= x
i
(X
T
X +Id)
1
x
T
i
.
Craven et Wahba
24
proposent le critre de validation croise gnralise GCV () = RSS/trace((Id
A
)
1
)
2
o A
= X(X
T
X + Id)
1
X
T
est la matrice telle que A
N(0, R).
On suppose
connu. La loi lie de y et est gaussienne, et il sensuit que lestimateur baysien avec
risque quadratique (i.e. E[[y]) est aussi lestimateur MAP, c--d celui qui maximise en la quantit
p([y) = p()p(y[)/p(y). Calculer cet estimateur et le comparer lestimateur ridge.
II.8.4 Rgression rang rduit. Curds and whey
Ces mthodes sont surtout intressantes lorsquil y a de nombreuses rponses.
La rgression rang rduit se propose de minimiser |Y X| (norme de Frobenius) sous la contrainte
que a son rang infrieur r donn. On obtient les tapes de calcul suivantes
Y = X
OLS
Q =
Y
T
Y (Y
T
Y )
1
= Y
T
X(X
T
X)
1
X
T
Y (Y
T
Y )
1
Q = T
1
DT (diagonalisation)
OLS
T
1
I
r
T (II.20)
(c--d T est la matrice de passage de la diagonalisation de Q), et I
r
est la matrice o les r plus grands
coecients de D sont mis 1 et les autres 0. r sestime par validation croise.
Breiman et Friedman [4] proposent une mthode ( curds and whey ) base sur un modle o X a
une structure alatoire de vecteurs indpendants. Sans entrer dans les dtails, mentionnons quil obtient
les nouvelles estimes comme combinaisons linaires des estimes OLS pour chaque composante avec la
formule
OLS
((1 )I +Q
1
)
1
=
OLS
T
1
((1 )I +D
1
)
1
T
(La dernire formule permet de faire apparatre lanalogie avec (II.20) par comparaison des fonctions
1
x>
et (1 +x
1
)
1
, 0 x 1, ). Le paramtre doit tre estim par validation croise.
Si lobservation est scalaire,
OLS
est simplement multipli par un facteur infrieur 1.
II.9 Rgression robuste
Il sagit de rsister aux individus aberrants. On estime
par
= argmin
(y
i
x
i
)
o est maintenant une certaine fonction dirente du carr. Pour donner moins de poids aux individus
aberrants, on choisit une fonction croissance moins rapide que x
2
. Typiquement
(u) = u
2
1
|u|
+ (2[u[
2
)1
|u|>
.
Cette fonction vaut u
2
pour [u[ petit, et est dordre [u[ ensuite. Ce choix est justi par des arguments
thoriques prcis ds Huber
25
. Quand = + on retrouve la mthode habituelle, et quand tend
vers 0, (u)/ tend vers 2[u[, et lon retrouve la rgression l
1
:
= argmin
[y
i
x
i
[.
Exercice. Montrer que lestimation de
, de
,
2
I).
En dautres termes, y
i
= x
i
+ u
i
et les u
i
sont indpendants gaussiens centrs de variance
2
. En
pratique on pourra conforter cette hypothse en faisant un test de normalit sur les u
i
.
= (
,
2
) est un estimateur sans biais de (
,
2
est
MV
=
(
,
np
n
2
).
III.1.2 Proprits de base des variables gaussiennes
Ce paragraphe a pour but de rappeler des proprits lmentaires des vecteurs gaussiens. On ne
dtaillera pas les dmonstrations.
13 - Dfinition
U est un vecteur alatoire gaussien sur R
n
ssi pour tout vecteur a R
n
, la variable alatoire
a, U est gaussienne.
On peut montrer que si la matrice de covariance R de U est dnie positive, U a une densit (par rapport
la mesure de Lebesgue) qui sexprime en fonction de la moyenne et de R comme suit :
p(u) =
1
_
(2)
n
det(R)
exp
_
1
2
(u )
T
R
1
(u )
_
.
Une des proprits fondamentales des vecteurs gaussiens est lquivalence entre indpendance et non-
corrlation (elle est fausse pour les vecteurs de variables gaussiennes, cf lexercice III.1.4.2) :
14 - Thorme
Soient V et W deux vecteurs alatoires tels que U =
_
V
W
_
forme un vecteur gaussien. Si
V et W sont dcorrls, alors ils sont indpendants.
39
Ce rsultat est simple vrier si R > 0 car lhypothse sur U implique que R est bloc-diagonale avec
un bloc correspondant V et un bloc correspondant W ; il sensuit que la densit de U se factorise en
p(u) = p
1
(v)p
2
(w), ce qui implique lindpendance.
Il est bon de voir que les vecteurs gaussiens sexpriment toujours comme combinaisons de v.a. gaus-
siennes indpendantes :
15 - Proposition
Soit U N(, R) de dimension n, alors il existe un vecteur gaussien centr rduit V N(0, I)
de dimension m =rang(R) et une matrice de dimension n m, tels que
U = V +,
T
= R.
Si R est inversible prendre par exemple V = R
1/2
(U ) ; sinon crire R = PDP
T
o P est n m
avec P
T
P = I et D diagonale positive, puis poser V = D
1/2
P
T
(U ), = PD
1/2
(remarquer que
V ar((I PP
T
)U) = 0).
On utilisera fortement dans la suite la proposition suivante dont la dmonstration est lapplication
des rsultats prcdents (cf exercice III.1.4.3) :
16 - Proposition
Soit U N(, Id). Soient A
i
, i = 1, . . . q, des matrices de projection orthogonale de dimension
n. Alors
Si A
i
A
j
= 0 pour tous i ,= j, alors les variables A
i
U sont indpendantes et donc galement
les U
T
A
i
U.
Si = 0, alors U
T
A
i
U suit une loi de
2
r =rang(A
i
) =trace(A
i
) degrs de libert.
En particulier si U N(,
2
Id), alors deux projections de U sur deux espaces orthogonaux sont ind-
pendantes.
III.1.3 Loi de probabilit des estimateurs
On peut passer maintenant aux consquences pour les estimateurs :
17 - Thorme
Sous lhypothse y N(X
,
2
I) :
N(
,
2
(X
T
X)
1
)
(n p)
2
2
np
.
et
2
sont indpendants.
Dmonstration. En eet
= (X
T
X)
1
X
T
u et
2
= (np)
1
|Ku|
2
(notations de la proposition 5).
Lindpendance vient donc de la dcorrlation de X
T
u et Ku.
On montre galement que
= (
,
2
) est un estimateur de variance minimale dans la classe des
estimateurs sans biais.
III.1.4 Exercices
Exercice III.1.4.1 Vrier que la vraisemblance de lchantillon aprs estimation au maximum de vrai-
semblance, i.e. la densit de la gaussienne de moyenne X
et de variance
2
MV
I applique (y
1
, . . . y
n
),
est
p(y
1
, . . . y
n
) = (2e
2
MV
)
n/2
.
40
Exercice III.1.4.2 Soit U une variable N(0, 1) et X un jeu de pile ou face quiprobable (P(X = 1) =
P(X = 1) = 1/2) indpendant de u. Montrer que V = XU est N(0, 1) et que U et V sont dcorrls
mais pas indpendants (pour ce dernier point on pourra calculer E[U
2
V
2
]).
Exercice III.1.4.3 Le but de cet exercice est la dmonstration de la proposition 16. On rappelle que
les matrices de projection orthogonale sont exactement les matrices symtriques P telles que P
2
= P.
1. Dmontrer le premier point.
2. (a) Montrer que si U N(0, Id) est Q est une matrice orthogonale, alors QU N(0, Id).
(b) En dduire le dernier point en diagonalisant A.
Exercice III.1.4.4 On se donne le modle y = X
+ u o les u
i
sont i.i.d de loi de densit
e
|u|/
du/(2
est connu.
III.2 Analyse de lestimateur
III.2.1 Dtermination dintervalles de conance
Rappelons que la loi de Student de paramtre k est celle de X/
_
Y/k o X est une gaussienne centre
rduite et Y un
2
k
indpendant. La loi de Fisher-Snedecor (k, l) est celle de (X/k)/(Y/l) o X
2
k
et
Y
2
l
sont indpendants.
On dsignera par t
k
(.) et f
kl
(.) les fonctions quantile de ces distributions.
Comme consquence immdiate du thorme 17 et de la proposition 16, on a les proprits suivantes
18 - Proposition
Sous lhypothse y N(X
,
2
I) :
Pour tout j = 1, . . . p, la variable alatoire
T
j
=
j
(
j
)
suit une loi de Student de paramtre n p ( (
j
) est lerreur standard de
j
, cf II.2.2).
Pour tout vecteur u, la variable alatoire
T
u
=
u
T
u
T
(u
T
)
, (u
T
)
2
=
2
u
T
(X
T
X)
1
u
suit une loi de Student de paramtre n p.
Soit q < p et L une matrice q p de rang q, la v.a
F =
1
q
2
(
)
T
L
T
_
L(X
T
X)
1
L
T
_
1
L(
)
suit une loi de Fisher-Snedecor de paramtres (q, n p)
Les deux premiers points sont une consquence du thorme 17 ; pour le troisime, noter que la variable
_
L(X
T
X)
1
L
T
_
1/2
L(
Id
q
), ce qui fait que le numrateur est un
2
fois un
2
q
.
Un intervalle de conance. En raison de la symtrie de la loi de Student on a P([T
j
[ < t
np
(1/2)) =
1 . On obtient donc un intervalle de conance de probabilit de conance 1 pour le coecient
j
_
j
,
j
+
_
, = (
j
) t
np
(1 /2) (III.1)
Une rgion de conance. De la mme faon la relation P(F < f
q,np
(1 )) = 1 se rcrit
P(L
) = 1 o
R
=
_
R
q
: |L
|
2
[L(X
T
X)
1
L
T
]
1 q
2
f
q,np
(1 )
_
(on note |x|
S
= x
T
Sx) qui est donc une rgion de conance de probabilit de conance 1 pour le
vecteur L
.
On obtient une rgion de conance pour (
j
1
, . . .
j
q
) si L est la matrice de selection q p telle que
L = (
j
1
, . . .
j
q
).
41
III.2.2 Rappels sur les tests dans le cadre paramtrique gnral
On supposera que lon a un modle paramtrique P
0
et H
1
:
1
, avec
0
1
=
(dans le cas gnral non paramtrique H
0
et H
1
sont deux ensembles de lois de probabilit candidates
pour Y ).
On sintressera en particulier au cas o H
1
=non-H
0
, i.e.
0
1
= ; si H
0
=
=
0
(
0
rduit un singleton) on dit que H
0
est simple. Lide est que celui qui met le test en uvre cherche
convaincre de la vracit de H
1
.
Un test = (Y ) 0, 1 dcidant entre les hypothses H
0
et H
1
est de niveau (petit) ssi :
toujours sous H
0
, P( = 1) .
La probabilit derreur de premire espce (choisir H
1
tort) est au plus gale . Un faible niveau
est donc seulement une garantie que H
1
sera accepte bon escient. Par exemple le test qui choisit
systmatiquement H
0
a un niveau gal zro (mais aucun intrt). Limportance du niveau sillustre par
lexemple type o H
0
est Ce mdicament est sans eet et H
1
: Ce mdicament a un eet positif ;
il est clairement important de ne pas dcider H
1
si H
0
est vraie (mise sur le march dun mdicament
sans eet) ; do le terme de test de signicativit. Mme remarque pour H
0
: Le diesel et le sans
plomb sont aussi polluants et son contraire.
Si en revanche le test dcide H
0
, cest sa puissance qui permet de conclure : On dit que le test est de puissance
1 (proche de 1) ssi la probabilit derreur de deuxime espce est infrieure :
toujours sous H
1
, P( = 0) .
Ce concept nest pas dune grande aide pour les tests dune hypothse contre son contraire, car la puissance vaut
alors typiquement : lensemble H
1
contient des distributions arbitrairement proches de H
0
; sous ces distributions,
le test dcidera H
0
avec probabilit au moins 1 , ce qui implique puissance infrieure . On dit que le test
est plus puissant que
si :
toujours sous H
1
, P( = 1) P(
= 1).
On dit que le test est UPP (universellement plus puissant) sil est plus puissant que tout autre test de mme
niveau. Cest ce type de test qui est recherch quand H
0
et H
1
contiennent des hypothses arbitrairement proches.
Pour revenir lexemple du mdicament, lorganisme payeur (Scurit Sociale) veut un niveau faible garanti tan-
dis que le laboratoire veut un test puissant. Ces deux exigences ne peuvent tre concilies quavec un minimum
dchantillons.
Mise au point dun test dhypothses. La mthode usuelle consiste utiliser une statistique S(Y )
dont la valeur est plutt faible sous H
0
et grande sous H
1
(p.ex. S(Y ) = |
| si H
1
:
,= 0 , S(Y ) =
si H
1
:
0 ) et rejeter H
0
si S(Y ) est trop grand :
1. Choisir une statistique S(Y ) dont la loi est toujours la mme sous H
0
(statistique pivotale ) ; la
puissance sera dautant meilleure que S(Y ) sera grande sous H
1
.
2. Se donner un niveau .
3. Rejetter lhypothse si la valeur de S est draisonnablement grande :
Rejeter H
0
si S(Y ) > Q
S
(1 )
o Q
S
est la fonction quantile de S sous H
0
.
Rejet : la valeur de la statistique carte H
0
(au niveau ) ; choisir H
1
.
Acceptation : rien ne permet dinvalider H
0
. Ex. : on na pas pu prouver lecacit du
mdicament. Si la la puissance est faible (ce qui est souvent le cas), H
0
peut trs bien tre fausse ;
ceci se produit si lon manque de donnes, ou si le test est peu performant, ou si la vraie loi est
proche de H
0
.
Si H
0
est simple, toute statistique est pivotale. Souvent cependant H
0
est multiple et lon ne dispose
pas de statistique pivotale ; pour garantir un niveau , on sera contraint de faire un test de la forme :
Rejeter H
0
si S(Y ) > max Q
S
(1 ) o le maximum est pris sur toutes les distributions de H
0
.
Dans de nombreuses situations pratiques la loi de S sous H
0
nest connue quasymptotiquement
(innit dobservations). Dans ce cas on pourra avoir avantage estimer Q
S
(1 ) sous H
0
par des
simulations ; si le modle est paramtrique, et H
0
est simple H
0
:
=
0
:
1. Simuler N jeux de donnes Y
1
, . . . Y
N
sous
0
(choisir N 1/)
42
2. On estime alors Q
S
(1 ) par un rel sparant les N plus grandes valeurs de S(Y
i
) des
(1 )N plus petites.
Si maintenant H
0
nest pas simple, on peut reprendre cette mthode en utilisant cette fois-ci
0
, lestime
de
sous H
0
pour faire les simulations ( . . . au lieu de faire le max sur tous les de H
0
comme il
faudrait en toute rigueur). Cette mthode peut se justier mathmatiquement si la statistique S est
asymptotiquement pivotale.
Dualit tests/intervalles de conance. On estime un paramtre vectoriel caractrisant la loi des
donnes. Si lon dispose dun domaine alatoire I (typiquement de la forme I = : [
[ ) tel que
pour tout , P
( I) 1 , alors le test
I
qui accepte lhypothse
=
0
ssi
0
I a un niveau
infrieur (vrication immdiate). Notons que son niveau et sa puissance sont fonction croissante de
I (car
I
I
si I I
).
Rciproquement si lon dispose pour tout
0
dun test (
0
) de niveau au plus entre H
0
:
=
0
et H
1
:
,=
0
, alors lensemble alatoire
I =
0
: H
0
est accepte
est dit rgion de conance de probabilit de conance 1 et
P
0
(
0
I) = P
H
0
( = 0) 1 .
Exemple : Test de nullit dun coecient
j
. En vertu de la proposition 18, la statisique T =
[
j
[/ (
j
) est pivotale pour H
0
:
j
= 0 (la loi de T sous H
0
est indpendante de
et des autres
k
), et lon a le test de niveau pour dcider que
j
est signicativement dirent de zro (cf III.1) :
[
j
[
(
j
)
t
np
(1 /2).
On prsente souvent les rsultats dune rgression avec un tableau contenant les niveaux de signication
de ces hypothses (test de type III, procdure summary de R ou S+). Donnons par exemple le cas de la
prdiction de la consommation des voitures
1
en fonction des variables Volume, Puissance et Poids
(un trac rponses/rgresseurs fait prfrer la variable P2 qui est le carr du poids)
Estime (
j
) cart-type ( (
j
)) t-stat Pr(>|t|)
Volume -7,2 e-6 1,7 e-5 -0,42 0,67
P2 1,5 e-5 1,26 e-6 12 < 2 e-16
Puissance 4,6 e-5 1,13 e-5 4,1 0,0001
Table III.1 Table danalyse des coecients (82 individus). La colonne t-stat contient la statis-
tique de student, rapport des deux premire colonnes.
o la dernire colonne contient
j
solution de
[
j
[ = (
j
) t
np
(1
j
/2)
qui sinterprte comme la probabilit sous H
0
:
j
= 0 dobserver une valeur de T au moins aussi
grande. Lhypothse H
0
est refuse si
j
est infrieur au niveau (par exemple = 5%), c--d si [
j
[
appartient un intervalle de [x, +[ de probabilit 5% sous H
0
. Dans ce cas
j
est signicativement
non-nul. Ici le volume na pas dinuence signicative sur la consommation lorsquon connat les deux
autres variables.
Interprtation : On va voir au paragraphe suivant que
j
est directement li la dirence de RSS
entre le modle original et le modle sans la j
variable explicative.
j
sinterprte donc galement comme
une mesure de lamlioration de la prdiction due lintroduction du j
rgresseur,
car ce dernier peut tre fortement corrl aux autres, cest le problme des facteurs proches (ou encore
de la colinarit) : Si dans lexemple on rajoute comme rgresseur la vitesse maximale de la voiture, la
puissance semble alors non signicative :
1. Heavenrich, Murrell, and Hellman, Light Duty AutomotiveTechnology and Fuel Economy Trends Through 1991,
U.S., Environmental Protection Agency, 1991 (EPA/AA/CTAB/91-02). Disponible par Internet sur DASL.
43
Pr
Volume 0,63
P2 < 0,0001
Puissance 0,83
Vitesse 0,7
Mme si sur certaines donnes on doute de la validit du modle (rsidus gaussiens . . .) et que lon ne
dsire pas interprter les p-values
j
au pied de la lettre, ces dernires peuvent toujours tre considres
comme des instruments de mesure qui rsument au mieux linformation dintrt, au sens leur calcul
respecte toutes les rgles de normalisation fondamentales dduites du modle gaussien.
III.2.3 Test de Fisher
On vient de voir comment le test de nullit dun coecient permet dtudier la signicativit dune
variable explicative. Malheureusement, si cette variable est symbolique (qualitative) elle interviendra dans
plusieurs coecients ; il faut donc tre capable de tester la nullit simultane de plusieurs coecients.
On est donc conduit tester H
0
: L
= l est l R
,
soit
|L
l|
2
[L(X
T
X)
1
L
T
]
1 q
2
f
q,np
(1 )
Il existe une rcriture du membre de gauche qui savre trs utile (encadr ci-dessous) ; elle est base
sur le lemme suivant dmontr lexercice II.2.9.12 :
19 - Lemme
Soit
0
lestimateur de
0
. On a
(L
l)
T
_
L(X
T
X)
1
L
T
_
1
(L
l) = | y y
0
|
2
= | y
0
y|
2
| y y|
2
= RSS
0
RSS.
Le test de Fisher prsent plus haut quivaut donc
Rejeter H
0
si
(RSS
0
RSS)/(p p
0
)
RSS/(n p)
> f
q,np
(1 )
o RSS
0
est le rsidu calcul sous H
0
, et p
0
= p q le nombre de paramtres du modle sous H
0
. Ce
test gnralise les tests de Student du paragraphe prcdent (et les crit dune faon dirente).
Sous H
0
, les statistiques
RSS
0
RSS
et
RSS
sont des
2
q
et
2
np
indpendants
en vertu du thorme de Cochran. Le numrateur de la statistique de Fisher vaut galement ESSESS
0
et peut sinterprter comme un terme d lcart entre H
0
et H
1
dans la dcomposition de la variance
TSS = (ESS ESS
0
) +ESS
0
+RSS
la statistique ne faisant que mesurer limportance relative de cette partie de variance explique. Sous H
0
ces trois termes sont indpendants, nous en laissons la vrication en exercice.
Un lien avec le rapport de vraisemblance est dtaill lexercice III.2.5.8.
Ce test possde des proprits doptimalit et dinvariance que nous ne dtaillerons pas ici
2
.
2. Voir par exemple la page 46 du livre de H. Sche :The Analysis of Variance,Wiley, 1970.
44
Le test de Fisher peut tre ralis sous R avec la commande lht de la bibliothque car.
Interprtation : Soit F =
(RSS
0
RSS)/(pp
0
)
RSS/(np)
la statistique de Fisher. On prsente le rsultat du test en
donnant la valeur critique du seuil = 1 F
pp
0
,np
(F), o F
pp
0
,np
est la fonction de rpartion de la
loi de Fisher-Snedecor de paramtres pp
0
et np (comme la table III.1). Lhypothse H
0
: L
= l
est refuse si est infrieur au niveau
0
(par exemple
0
= 5%), c--d si F appartient un intervalle
de [f
, +[ de probabilit 5% sous H
0
, c--d, est anormalement grande sous H
0
(RSS petit).
Test de nullit de
j
1
, . . .
j
q
) est signicativement non-nul :
(RSS
q
RSS)/q
RSS/(n p)
f
q,np
(1 ). (III.2)
o RSS
q
est lerreur rsiduelle du modle estim sous la contrainte que les
j
i
sont nuls. L est ici la
matrice de slection des composantes. Ce test est utilis dans le cas dune variable qualitative plus de
deux modalits.
On peut vrier que ce test peut galement sinterprter comme un test de corrlation partielle
entre les rponses et les variables ajoutes sachant les rgresseurs du modle sous H
0
. En particulier si
lon na quun rgresseur que lon teste contre la constante seule, p = 2, q = 1, la statistique de Fisher ne
fait intervenir que la corrlation empirique entre x et y (cf la formule II.3).
Non-monotonicit des tests. Dans lexemple prcdent, si lon teste H
0
: Volume=0 contre le
modle complet on trouve une p-value de 0,63 (cest le rsultat du test de Student dj vu), si lon
teste H
0
: Vitesse=0 contre le modle complet on trouve une p-value de 0,67 et si lon teste H
0
:
Volume=Vitesse=0 on trouve une p-value de 0,85. Cest--dire quon accepte plus facilement Vo-
lume=Vitesse=0 que Volume=0 ou que Vitesse=0!
Ceci vient du fait quimposer Vitesse=0 (ou Volume=0) change trs peu RSS tandis que le
changement dans le nombre de degrs de liberts va du coup favoriser lhypothse plus complique.
III.2.4 Slection des variables
Il sagit de choisir les variables les plus signicatives, lide tant dliminer les rgresseurs dont la
contribution la prdiction, sur de nouvelles donnes, sera probablement nulle. Une mthode serait
de tester, au vu de
j
et de (
j
) si
j
est signicativement nul ou non, et dliminer le rgresseur
correspondant. Cette mthode ne convient cependant pas car si par exemple deux rgresseurs sont trs
proches (la puissance de la vitesse de la page 43), un seul sut :
y
i
1
+
2
x
2
+
3
x
3
1
+ (
2
+
3
)x
2
mais cet algorithme liminera probablement les deux car (
2
) et (
3
) sont trs grands. Les hypothses
2
= 0 et
3
= 0 peuvent tre acceptes sparment sans que
2
=
3
= 0 le soit.
45
On prfre gnralement La mthode descendante part du modle qui ajuste y
i
avec tous les
rgresseurs et lon obtient une certaine erreur quadratique RSS. Pour chacun des rgresseurs on calcule
la valeur du RSS
k=k
1
k
x
k
.
Noter que les
k
ont tous chang depuis le premier modle. On choisit ensuite la variable retirer parmi
les p 2 restantes en minimisant nouveau le rsidu obtenu, etc.
On sarrte quand la dtrioration est juge statistiquement signicative ; ceci se fait simplement avec
le test de Fisher (quation (III.2)) :
Sarrter si (n k)
RSS
k1
RSS
k
RSS
k
f
1,nk
(1 )
o RSS
k
est le rsidu obtenu par le modle k variables explicatives. Cest--dire lorsque les coecients
sont tous signicatifs au niveau . Lorsquil y a des variables qualitatives, leur retrait correspond au
retrait de plusieurs colonnes et lon compare donc en ralit un RSS
kq
un RSS
k
laune dun
f
q,nk
(1 ).
On met parfois cette mthode en uvre en vriant aprs chaque tape que les rgresseurs limins
sont encore inutiles en faisant k 1 tests de Fisher.
La mthode ascendante raisonne de manire similaire mais en introduisant les rgresseurs un un.
Elle est plus risque car lhypothse H
1
est fausse depuis le dbut, ce qui peut conduire un arrt prcoce
mme dans une situation o les tests sont puissants, et rend plus hasardeuse la slection des rgresseurs
ajouts.
Facteurs proches, colinarit. Il est essentiel de bien comprendre que si deux colonnes de X sont
proches mais utiles pour la prdiction, la mthode descendante en rejetera une assez vite (car elle est
redondante) pour garder lautre longtemps. Une conclusion htive est de dire que le premier facteur nest
pas signicatif tandis que le second lest. Cest videmment inexact.
Par exemple si lon veut tudier le taux de frquentation du mdecin en fonction des deux variables
ge et sexe et que les individus sont des jeunes femmes et des hommes vieux, il est clair que le
plan dexprience est mauvais, et lon ne pourra pas dmler linuence de lge de celle du sexe.
Cest pour cela quil est trs avantageux davoir une matrice X la plus orthogonale (en colonnes)
possible (valeurs propres de X
T
X presque toutes gales), cest--dire un bon plan dexprience.
Utilisation de critres. Une autre direction qui est utilise pour choisir son modle consiste minimiser
un RSS pnalis (puisque minimiser le RSS conduit automatiquement au modle le plus compliqu). On
a dj vu le critre de validation croise
CV
, II.2.9.10. Il en existe deux autres trs classiques
AIC = nlog(RSS) + 2p
BIC = nlog(RSS) +p log(n)
o n est le nombre dindividus et p le nombre de variables. AIC est le rsultat de lestimation de lerreur
de prdiction qui serait faite sur un nouvel chantillon (cest donc essentiellement un concurrent
CV
).
On peut dire que la tendance globale est que BIC aura tendance choisir un modle trop parcimonieux
tandis que AIC aura la tendance inverse. Il nest pas rare de voir AIC ajouter des variables juges non
signicatives 5% par le test de Fischer.
Ceci permet en thorie de comparer les 2
p
modles possibles ; cest malheureusement un principe gn-
ralement trop dicile mettre en uvre, pour des raisons techniques
3
et aussi pour des raisons thoriques
car essayer un trop grand nombre de modles peut conduire encore un phenomne dovertting.
Lutilisation de ces critres, plutt que des statistiques de Fisher, nest pas particulirement recom-
mande car les mesures de signicativit ont disparu : on travaille laveugle. Ils sont en revanche
pratiques pour comparer des modles non embots, voir les dtails dans lappendice B.
3. Lalgorithme de Furnival et Wilson (1974) est une mthode astucieuse pour faire la comparaison exhaustive moindre
cot. Il est par exemple dcrit dans le rapport de Ni et Huo Regressions by enhanced leaps and bounds via optimality
tests, http://www2.isye.gatech.edu/statistics/papers/06-05.pdf
46
III.2.5 Exercices
Exercice III.2.5.1 Test de Chow. Le modle est
y
t
= a
k
+b
k
x
t
+u
t
, t = 1, . . . 2T
avec k = 1 pour t T, et k = 2 aprs. Cette quation modlise par exemple un changement de rgime
dans des donnes mesures au cours du temps.
1. Mettre ce modle sous la forme y = X +u pour un X bien choisi.
2. En dduire un test de H
0
: (a
1
, b
1
) = (a
2
, b
2
) contre son contraire (on donnera L et l).
Exercice III.2.5.2 On est dans le cadre linaire gaussien habituel. Soit
0
une valeur nominale donne.
Proposer un test pour H
0
:
=
0
contre H
1
:
>
0
(on pourra, si lon prfre, choisir dabord
la forme du test au vu des hypothses tester puis dterminer ensuite le seuil).
Exercice III.2.5.3 On mesure le taux de cholesterol dindividus de trois groupes de taille n
1
, n
2
et n
3
,
de sorte que lon a en tout n = n
1
+n
2
+n
3
individus. Proposer une mthode pour tester si lorigine des
individus (c--d leur groupe) inue sur leur taux de cholestrol.
Exercice III.2.5.4 On considre le modle
y = X +u, =
_
_
3
_
_
.
On considre les hypothses H
0
:
2
=
3
= 0 et H
1
:
3
= 0 . On note RSS
0
, RSS
1
et RSS
2
les
rsidus calculs respectivement sous les hypothses H
0
, H
1
et le modle complet, et
et les estimes
sous le modle complet. Trouver la loi sous H
0
de la statistique
(RSS
0
RSS
1
)/q
RSS
2
/(n p)
o p est la dimension de et q celle de
2
. On commencera par remarquer que RSS
0
RSS
1
est fonction
de
(cf lemme 19), et que RSS
2
est fonction de .
En dduire un test de H
0
contre H
1
.
Exercice III.2.5.5 Une estimation OLS 40 individus donne les rsultats suivants (
1
est le coecient
du rgresseur constant) :
=(32 8 4 1)
T
RSS =18
TSS =80
(X
T
X)
1
=
_
_
_
_
20
1 1
2 1
4
_
_
_
_
.
Tous les test seront faits avec un seuil de conance de 95%. On pourra utiliser les valeurs suivantes des
quantiles de la loi de Fisher-Snedecor
f
2,36
(0, 95) 3, 27, f
3,36
(0, 95) 2, 87, f
4,32
(0, 95) 2, 67
et ceux de la loi de Student
t
36
(0, 975) 2, 03, t
36
(0, 95) 1, 69.
1. Calculer un estimateur sans biais de
2
.
2. Faire pour chaque rgresseur le test de nullit du coecient.
3. Faire le test de nullit simultane de tous les coecients, sauf
1
.
4. Faire le test H
0
:
2
+
3
= 7 contre H
1
:
2
+
3
< 7 .
On basera le test sur la statistique S = (7
3
)/ , = (7
3
).
47
5. Faire le test H
0
:
2
+
3
= 7 contre son contraire en utilisant S. Quobserve-t-on ?
6. Faire le test H
0
:
3
=
4
= 0 contre son contraire.
7. Sur les 20 premires observations on a obtenu
y
i
= 35 + 6x
i1
2x
i2
2x
i3
, RSS = 7
et sur les 20 dernires
y
i
= 29 + 9x
i1
5x
i2
3x
i3
, RSS = 6.
Peut-on considrer que na pas chang ? On pourra sinspirer de lide dveloppe dans lexer-
cice III.2.5.1.
Exercice III.2.5.6 (IC en prdiction). On considre le modle habituel sur lequel on a obtenu
une estime
de
et y
o (x
, y
(X
T
X)
1
x
T
. Quelle est la loi de (x
)/ h
1/2
?
En dduire un intervalle de conance I(x) centr en x
et de niveau pour x
.
2. Quelle est la loi de (x
)/
1 +h ?
En dduire un intervalle de conance centr en x
et de niveau pour y
.
Exercice III.2.5.7 (IC simultans en prdiction). Lintervalle de conance de lexercice prc-
dent satisfait P(x
I(x
et x
I(x
) et x
I(x
)) 1
qui nest pas satisfait. La suite de lexercice propose une solution ce problme.
1. Soit Q une matrice carre telle que QQ
T
= (X
T
X)
1
. Montrer quil existe une variable normale
standard indpendante de telle que
Q.
2. Montrer que |xQ|
2
(x
)
2
est major un facteur prs par un
2
p
indpendant de x.
3. Montrer que
J(x) = [x
(x), x
+(x)],
2
= p
2
(x(X
T
X)
1
x
T
)f
p,np
(1 )
est un intervalle de conance uniforme en x de niveau , c--d que pour toute valeur de
P(x, x
J(x)) 1 .
Exercice III.2.5.8 (Lien avec le rapport de vraisemblance) Vrier que la statistique du test de
Fisher vaut
n p
p p
0
(
2/n
1) (III.3)
o est le rapport de vraisemblance P(y)/P
0
(y), calcul avec les estimateurs au maximum de vraisem-
blance.
On pourra comparer cette statistique avec celles prsentes lannexe A (faire n grand).
III.3 Analyse des rsidus. Mesures dinuence
Lapproche la plus simple est le trac de lhistogramme des rsidus, qui permet de conrmer lhypo-
thse gaussienne et galement de dtecter des individus qui ne suivent pas le modle (rsidus anormale-
ment grands). On peut toutefois faire une tude plus prcise. Rappelons que la loi de u
i
est N(0, (1h
i
)
2
)
(car u = Ku, cf lexercice II.2.9.9).
48
20 - Dfinition
On appelle rsidus studentiss les estimateurs centrs rduits des erreurs
r
i
=
y
i
y
i
1 h
i
On appelle rsidus studentiss par validation croise
r
i
=
y
i
y
i
(i)
1 h
i
= r
i
n p 1
n p r
2
i
. (III.4)
Les notations sont celles du II.2.5, et la dernire galit est laisse en exercice.
21 - Proposition
Si y N(X
I), r
i
suit une loi de Student de paramtre n p 1.
La dmonstration est immdiate au vu des rsultats du paragraphe III.2 et de la formule u
i
= (1h
i
)(y
i
(i)
) consquence de (II.1), qui asure lindpendance des deux termes de la fraction. La statistique r
i
est en pratique prfre r
i
.
22 - Dfinition
Une donne aberrante au niveau est un individu i pour lequel r
i
dpasse le seuil donn par
la loi de Student pour un risque derreur .
Un niveau raisonnable est 1/n, soit un seuil t
np1
(1 1/(2n)). Si n est grand, on peut tre tent
de choisir plus grand, par exemple 0, 05 mais ce que lon dtecte alors devrait plutt tre appel des
individus extrmes, puisque statistiquement de tels individus seront toujours prsents en proportion de
5%. Pour la motivation de la dnition suivante, on rfre au II.2.5 p.15 :
23 - Dfinition
Une donne isole au niveau est un individu i pour lequel nh
i
/p dpasse le seuil (souvent
choisi 3). Une donne atypique est une donne soit isole soit aberrante.
Interprtation. Une donne aberrante est donc une donne dont la rponse y est peu conforme au
modle estim sur les autres donnes. Une donne isole est une donne dont le rgresseur x est isol
dans lespace ; son retrait augmenterait donc sensiblement la matrice de covariance de
; de plus
est
trs sensible la valeur de y correspondante (eet levier). Les donnes inuentes sont celles qui inuent
sur lestimation de
(i)
)
T
X
T
X(
(i)
)
2
p
=
h
i
p(1 h
i
)
r
2
i
(III.5)
(la dernire identit est laisse en exercice). Comme une grande valeur de cette statistique peut aussi
bien venir dun fort rsidu que de lisolement dans lespace de lindividu, le meilleur trac est a priori
celui des (r
i
, nh
i
/p), comme gure III.1.
Bilan. Mme si le modle gaussien semble douteux, les rsidus studentiss sont intressants car ils sont
normaliss, et lon peut faire le graphique de la gure III.1, quitte rester prudent dans linterprtation
quon lui donne.
Il faut se garder dliminer de but en blanc des individus aberrants dune analyse pour la recommencer
ensuite ; un tiers pourrait y voir juste titre une manipulation grossire pour biaiser ltude. Lanalyse
des rsidus se contente de jeter la suspicion sur certains individus et cest ensuite lanalyste dessayer de
49
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
A
I
-1 0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
A
I
Figure III.1 Sur la premire gure x
i
est en abscisse et y
i
est en ordonne. Le point A est
aberrant et I est isol. La seconde gure reprsente les nh
i
/p en fonction des rsidus studentiss.
On aurait pu remplacer les rsidus par leurs p-values, i.e. les solutions
i
de r
i
= t
np1
(1
i
/2).
savoir sils contiennent des erreurs (de mesure, etc.), et si ce nest pas le cas, ils peuvent tre au contraire
importants pour lestimation ou la remise en cause du modle (linarit, etc.).
Cest une grave erreur que dliminer a priori les individus isols, qui au contraire peuvent tre
porteurs de beaucoup dinformation. On peut cependant tre amen le faire pour amliorer la linarit
du modle, considrant que le modle linaire nest gnralement quune approximation raisonnable,
valide sur un domaine pas trop grand.
Exercices. Il pourra tre utile de se servir du thorme 9 p.15.
Exercice III.3.1 Pourquoi r
i
ne suit-il pas une loi de Student ?
Exercice III.3.2 Montrer que C
i
=
[x
i
(
(i)
)[
2
ph
i
2
.
Exercice III.3.3 Dmontrer la deuxime galit de (III.4). Dmontrer la deuxime galit de (III.5).
III.4 Analyse de la variance. Aspects pratiques
III.4.1 Analyse de la variance un facteur
Lanalyse de variance proprement dite sintresse la situation o les rgresseurs sont purement
qualitatifs. Dans ce paragraphe il ny en a quun.
On dispose de n = n
1
+.. +n
p
observations y
ik
, i = 1, . . . p, k = 1, . . . n
i
. i est lindice de groupe et
n
i
la taille du groupe i. Par exemple, supposons que lon veuille tester p dirents engrais ; pour chaque
engrais i, on fera n
i
expriences (plantations) et y
ik
dsignera la production du k
k
y
ik
.
50
On sintresse savoir si les
i
sont signicativement dirents, cest--dire tester H
0
:
1
= =
p
,
cest--dire si le facteur engrais a un eet visible. Les quantits intervenant dans le test de Fisher sont
i
(y
i
y)
2
=
i
n
i
( y
i.
y)
2
+
ik
(y
ik
y
i.
)
2
TSS = ESS + RSS
avec ici RSS
0
= TSS. Chacune des trois statistiques est un
2
sous H
0
, cf III.2.3.
Il faut bien voir que ESS et RSS sinterprtent comme les variances interclasse et intraclasse, et la
statistique de Fisher est proportionnelle leur rapport.
La deuxime forme. Le mme modle peut se rcrire
y
ik
= +
i
+u
ik
,
i
= 0. (III.7)
Il y a un paramtre supplmentaire mais la contrainte de somme nulle fait que le nombre de paramtres
libres est toujours p. On a bien entendu =
1
I
i
et
i
=
i
.
Autre paramtrisation. Le mme modle peut se rcrire
y
ik
= +
i
+u
ik
,
I
= 0.
Le nombre de paramtres libres est toujours p. Cette paramtrisation est celle gnralement employe
par les logiciels. Le coecient est quali dintercept.
Exemple. On sintresse la composition des hotdogs
4
. La rponse est la teneur en calories et la variable
explicative Viande a trois modalits : Volaille, Boeuf, Divers (essentiellement porc et boeuf). Il y a 54
individus. La table danalyse de variance du modle (commande anova de R) montre bien que le type
de viande inue signicativement sur les calories, expliquant plus dun tiers (39%) de la variabilit des
donnes :
dl Sum Sq Pr(>F)
Viande 2 17700 3,8e-06
Residuals 51 28000
Lanalyse des coecients du modle (summary de R) donne
Estimate Std. Error Pr(>|t|)
(Intercept) 157 5,2 < 2e-16
Divers 2 7,7 0,8
Volaille - 38 7,7 9,4e-06
Attention, linterprtation du 0,8 est que les viandes diverses nont pas dapport calorique signicati-
vement dirent du boeuf (associ lui-mme un coecient nul : lanalyse est dissymtrique). Si lon
sarrange pour que ce soit la variable Volaille qui ait son coecient nul, on obtient la table suivante
Estimate Std. Error Pr(>|t|)
(Intercept) 119 5,7 < 2e-16
Boeuf 38 7,7 9e-6
Divers 40 8 8e-06
o lon voit que les coecients de Boeuf et Divers sont signicativement dirents de 0 (donc de Volaille)
mais sans doute indistinguables entre eux vu lecart-type. Cette analyse se conrme par une reprsenta-
tion en botes moustaches :
4. The Data and Story Library. lib.stat.cmu.edu/DASL. Hot dogs story.
51
Boeuf Divers Volaille
1
0
0
1
4
0
1
8
0
Si lon regroupe ces deux classes on obtient aprs une analyse supplmentaire le modle :
Calories=157, 7 37 1
Volaille
+bruit, = 23, R
2
= 0, 39.
Ce regroupement peut se justier plus prcisment en testant le modle aggrg contre le modle original.
III.4.2 Analyse de la variance deux facteurs
Supposons que lon veuille maintenant tester dirents engrais dans direntes rgions et voir si
certains engrais sont plus adapts certaines rgions. Les observations seront maintenant y
ijk
o i =
1, . . . I est lindice dengrais (premier facteur, not A dans la suite), j = 1, . . . J est lindice de rgion
(facteur B), et k lindice dexprience, qui varie entre 1 et n
ij
. Le plan dexprience est dit complet si
tous les n
ij
sont strictement positifs, et quilibr sil sont gaux. On notera n
i.
=
j
n
ij
et de mme
pour n
.j
. On supposera dabord que n
ij
> 0 pour tous i, j.
Modle complet avec interactions. Cest le modle :
AB : y
ijk
=
ij
+u
ijk
(III.8)
Modle additif. Cest le modle pour lequel
ij
est somme de deux termes,
ij
=
i
+
j
:
A+B : y
ijk
=
i
+
j
+u
ijk
. (III.9)
Cest un modle I + J 1 paramtres libres car les
i
et
j
ne sont dnis qu une constante prs.
Pour dnir les paramtres de manire unique, on impose une contrainte, par exemple
J
= 0.
Ce modle correspond au prcdent sous les contraintes
ij
i
j
ij
+
i
j
= 0.
Modles un facteur. Ce sont les modles :
A : y
ijk
=
i
+u
ijk
B : y
ijk
=
j
+u
ijk
.
Ceci correspond aux contraintes
ij
=
ij
(
ij
=
i
j
pour le second).
Exemple. Reprenons les donnes du II.2.8 : On observe la prise de poids de rats nourris avec quatre
rgimes dirents correspondants deux sources de protines possibles (boeuf ou crales) en deux doses
possibles (faible ou leve). Chacune des combinaisons des deux facteurs est teste sur 10 individus tous
dirents ; il y a donc 40 observations de prise de poids en tout. Le plan est quilibr. On obtient la table
danalyse de variance suivante (procdure anova de R) qui indique un eet signicatif 5% de la dose
seulement :
d.l. Sum Sq F-stat Pr
Dose 1 1300 5,81 0,021
Protine 1 221 0,99 0,33
Dose : Protine 1 884 3,95 0,054
Rsidus 36 8050
52
Chaque ligne correspond en premire approche au test dun modle avec le facteur considr contre le
mme modle sans ce facteur (les dtails de linterprtation seront donns plus bas). Seule la dose semble
avoir un eet rellement signicatif. Si leet de la protine dans le modle additif nest pas signicatif,
le niveau 0,054 pour linteraction plaide pour un eet possible de la protine fortement dpendant de la
dose.
Autres paramtrisations. On prfre souvent utiliser une autre paramtrisation, qui met mieux en
valeur la contribution des dirents facteurs et de linteraction :
ij
= +
i
+
j
+
ij
(III.10)
soit le modle
y
ijk
= +
i
+
j
+
ij
+u
ijk
. (III.11)
Le terme
ij
est nul dans le cas du modle additif. Pour avoir unicit de la dcomposition, il faut
introduire des contraintes. Donnons deux exemples de telles contraintes, dune part celles utilises par
lees logiciels habituels, et ensuite un autre jeu commode pour ltude des plans quilibrs :
I
=
J
=
Ij
=
iJ
= 0, i = 1, . . . I, j = 1, . . . J (III.12)
i
=
j
=
ij
=
ij
= 0. (III.13)
Les contraintes sur nengendrent que I + J 1 contraintes indpendantes car elles possdent une
contrainte en commun (
IJ
= 0 ou
ij
ij
= 0). Do la table de dcompte des paramtres libres
Facteur
.
.
..
total
Param. libres 1 I 1 J 1 (I 1)(J 1) IJ
Cest la convention (III.12) qui est gnralement utilise ; voici la table danalyse des coecients (proc-
dure summary de R, option /solution dans la procdure glm de sas) pour lexemple prcdent :
estime cart-type Pr
Constante 100 4,7 2e-16
DoseFaible -20,8 6,7 0,0036
ProtineCrale -14,1 6,7 0,042
DoseFaible.ProtineCrale 18,8 9,5 0,054
= 15
Attention PRUDENCE. Il faut bien voir que les ,
i
,
j
et les
ij
dpendent de la convention utilise
(i.e. la contrainte choisie), et nont pas de signication pris sparment, ce qui fait que ces paramtres
prsentent peu dintrt pour lutilisateur ; par exemple, sous la convention (III.12), on a
=
IJ
,
i
=
iJ
tandis que sous la convention (III.13), on a
=
1
IJ
ij
ij
,
i
=
1
J
ij
.
On se gardera donc bien de les interprter htivement. Par exemple dans un modle avec interaction,
= 0 ne signie rien de particulier.
Les valeurs prises par les ,
i
,
j
,
ij
nont donc quun intrt purement indicatif, par
exemple pour comparer certains
i
au vu de leur valeur et des
i
en vu de fusionner des facteurs. On
seorcera toujours en n de compte de tester des modles (ou bien des combinaisons linaires des
ij
).
Considrons par exemple le modle additif, le test
i
= 0 dpend de la convention, par exemple
dans le cas de (III.12) il signie en ralit que i et J ont mme eet. Cest pourquoi les logiciel refuserons
toujours de faire ce genre de test (cest la thorie des testable functions). En revanche le logiciel
acceptera de tester
i
j
= 0, qui a le mme sens indpendamment de la convention utilise et qui
sinterprte comme i et j ont mme eet. En pratique, il faudra mieux directement tester le modle
o les deux classes ont t fusionnes contre loriginal.
53
Cas du plan incomplet. Si n
ij
nest pas toujours positif, mais que
j
n
ij
et
i
n
ij
sont non-nuls, le
nombre de paramtres du modle complet nest plus IJ mais le nombre de n
ij
non-nuls : cest le nombre
de
ij
en jeu, les cellules vides tant considres comme inexistantes. Pour calculer les termes p et p
0
intervenant dans la statistique de Fisher, une mthode qui marche toujours (indpendamment du nombre
de facteurs) de prendre le rang des matrices X correspondant aux deux modles en comptition : p = r,
p
0
= r
0
.
Plan dexprience quilibr et sommes de carrs. Cette situation a lavantage de faciliter lin-
terprtation des analyses car il ny a pas de facteurs proches. De plus elle prsente des formules simples
pour les estimes.
Soit K la valeur commune des n
ij
. Alors n = IJK. On vrie que les estimes pour le modle complet
sous la contrainte (III.13) sont
= y
i
= y
i..
y =
1
JK
jk
y
ijk
y,
j
= y
.j.
y =
1
IK
ik
y
ijk
y
ij
= y
ij.
y
i..
y
.j.
+ y
et ces estimes valent aussi pour les modles additifs (
ij
= +
i
+
j
) et un facteur (
ij
= +
i
,
et
ij
= +
j
). Les variances expliques par chaque facteur sont dnies et calcules comme suit (RSS
M
dsigne le RSS du modle M) :
SS
= TSS RSS
A
= JK
i
2
i
, SS
= TSS RSS
B
= IK
2
j
,
SS
= RSS
A+B
RSS
AB
= K
ij
2
ij
(vrication aise). Notons que la dcomposition y
ijk
= +
i
+
j
+
ij
+ u
ijk
est orthogonale (5 vecteurs
orthogonaux de dimension IJK) en raison des contraintes, ce qui revient dire quon a dcompos
lespace X en quatre sous-espaces orthogonaux dnis par les contraintes inposes (cf (III.10) et (III.13)),
correspondant chacun au facteur, constante , A, B ou interaction ; SS
x
est le carr de la norme de
la projection de y sur le sous-espace correspondant et le thorme de Pythagore implique la formule de
sommation :
SS : TSS = SS
+ SS
+ SS
+ RSS
AB
d.l. : n 1 = I 1 + J 1 + (I 1)(J 1) + n IJ
(III.14)
o d.l. est le nombre de degrs de libert de SS
x
sous x = 0. La variance totale est dcompose en un
terme de bruit RSS et trois termes distincts ds respectivement la variabilit en fonction de la premire
variable, de la seconde, et de linteraction des deux. Chaque terme est interprt comme la contribution
de chaque facteur (cf lexplication de la page 15 pour la justication de lusage des carrs). Cest la
colonne Sum Sq de la table de la page 52. Sous lhypothse nulle que
.
=
.
=
..
= 0, ces quatre
termes sont, aprs division par
2
, des
2
indpendants avec les degrs de libert correspondants. Ces
termes sont ceux qui servent construire les statistiques de Fisher. La simplicit de cette dcomposition
et de son interprtation sont caractristiques du plan quilibr, et des plans o X est orthogonale (ici,
les espaces associes A, B et A.B au travers de la paramtrisation (III.13) sont orthogonaux).
Plan dexprience quilibr incomplet. Soit trois facteurs deux modalits et les 4 expriences
suivantes (au lieu de 8 pour avoir un plan complet) rptes K fois chacune :
A B C
Exp1 0 0 0
Exp2 0 1 1
Exp3 1 0 1
Exp4 1 1 0
Ici n = 4K et la matrice X est le tableau ci-dessus o les lignes sont rptes K fois et une colonne
de 1 ajoute. Lquilibre se voit la symtrie du plan par rapport aux facteurs ; noter que les colonnes
54
recentres sont orthogonales. On a encore la dcomposition en sommes de carrs
TSS = SS
A
+SS
B
+SS
C
+RSS
A+B+C
o chaque terme est interprt comme la contribution de chaque facteur.
Modle de base additif. Dans lexemple prcdent seules 4 combinaisons de facteurs ont t considres
sur les 8 possibles, on ne peut donc pas estimer plus de 4 paramtres (en fait 3 car, si p = 4, RSS= 0 et
le modle est refus par tout test de Fisher). On part alors du modle additif.
De mme, si dans un modle deux facteurs n
ij
= 1 pour tous i et j, le modle (III.8) ne prsente
pas dintrt et les tests seront impossibles car RSS= 0 et n = IJ.
On peut aussi faire ce choix si le test = 0 donne une rponse que lon considre dnitive.
III.4.3 Interprtation des tables
Nous avons discut, p.ex. au III.4.1, des tables danalyse des coecients. Nous nous intressons ici
aux tables qui tudient les facteurs globalement.
Les tests de modles sont souvent interprts comme des tests de signicativit des dirents facteurs.
On les illustre ici dans le cas de trois facteurs qui peuvent tre soit qualitatifs soit quantitatifs. Voici les
types de tests comments plus bas :
(I) Facteur tester H
1
H
0
A A cst
B A+B A
interaction AB A+B
C AB +C AB
(III) Facteur tester H
1
H
0
A AB +C B +C +A.B
B AB +C A+C +A.B
C AB +C AB
interaction AB +C A+B +C
Table III.3 Deux tests de type I et de type III pour le modle AB+C. ( gauche) Tests embots :
ce quajoute chaque facteur aux prcdents. ( droite) Test contre H
1
= complet : ce quajoute
un facteur quand les autres sont prsents. La partie A.B dsigne les termes dinteraction seuls
(voir le texte).
La notation A.B correspond au facteur obtenu par orthogonalisation des colonnes de AB celles corres-
pondant A et B; ce sont des termes dinteraction pure dinterprtation obscure, qui sont les
..
du
III.4.2 pour une paramtrisation particulire.
Test dhypothses embotes : Il a le mrite considrable de la simplicit dinterprtation. Le
statisticien dnit une suite croissante de modles par ajout des facteurs un un. On teste chaque
modle contre le prcdent. Typiquement la mthode descendante dictera lordre choisir (cf III.2.4).
Le test dit de type I (procdure anova de R ou S+) est embot, mais le dnominateur de la
statistique de Fisher est en fait remplac par le RSS du modle complet avec la modication correspon-
dante du seuil, cf lexercice III.2.5.4. En consquence, pour un plan quilibr, lordre dintroduction des
facteurs nintervient pas, cf lexercice III.4.9.10.
Dans le cas de facteurs proches le premier sera choisi et lautre rejet, cf III.2.4.
Exemple : Reprenons lexemple de la prdiction de la consommation en fonction du volume, du poids,
de la puissance et de la vitesse maximale (table III.1 page 43). On obtient les analyses de type I suivantes
Type I Pr
Volume < 0.0001
P2 < 0.0001
Puissance <0.0001
Vitesse 0.7
Type I Pr
Volume < 0.0001
P2 < 0.0001
Vitesse <0.0001
Puissance 0.83
Type I Pr
P2 < 0.0001
Vitesse <0.0001
Volume 0.6
Puissance 0.83
On voit bien sur les deux premiers tableaux leet de la colinarit de la vitesse et de la puissance.
Le troisime indique que le volume najoute rien au poids et la vitesse. Pour les donnes du II.5.1 on
obtient les rsultats suivants
55
Type I Pr
x 0.084
x
2
0.0014
x
3
0.0064
x
4
0.68
et les rsultats sont similaires pour des degrs plus levs. Le test de type I donne de bons rsultats car
ici la situation est trs dirente. Le plan dexprience est encore trs dsquilibr, mais le fait que le test
de type I dpende de lordre des facteurs nest pas ici un inconvnient car on a ici un ordre des facteurs
bien dtermin, et donc une suite croissante de modle clairement dnie.
Tests contre H
1
=complet . Cest le test de H
1
contre H
0
du tableau III.3 (Type III de sas. Avec
R utiliser la commande options(contrasts = c("contr.sum","contr.poly")) puis faire lanalyse
avec model=lm( ...) puis faire drop1(model, .., test="F")). Il est fortement remis en question par
la communaut scientique [20], en raison de la prsence dinteraction sans les facteurs pricipaux dans
H
0
. Ce type ne conduit pas une decomposition exacte de la variance en somme de carrs. En absence
dinteraction, il correspond au test de nullit de la page 43, transform en test de Fischer pour les facteurs
plus de deux modalits.
Dans le cas dinteractions le test de AB contre B+A.B (on oublie C pour simplier) pour le facteur
A est une extension au cas dsquilibr du test de = 0 dans le plan quilibr de la page 54. On teste
donc les facteurs simples contre le modle complet en gardant les interactions, ce qui est trs discutable
car on peut dicilement imaginer une interaction AB sans que A soit signicatif ! Dun point de vue
assez approximatif, A sera rejet si son eet est totalement imprvisible si lon ne connat pas B
5
.
Les rsultats ne dpendent pas de lordre dans lequel sont prsents les facteurs.
La structure du test fait quil a clairement tendance rejetter les facteurs proches.
Il faut donc lutiliser pour illustrer la contribution additionnelle de chaque facteur et leur signi-
cativit. Ses conclusions de signicativit sont ables : dans les exemples prcdents lanalyse limine
les facteurs :
Type III Pr
Volume 0.63
P2 < 0.0001
Puissance 0.83
Vitesse 0.7
Type III Pr
x 0.35
x
2
0.32
x
3
0.45
x
4
0.68
La prsentation habituelle de ces rsultats danalyse de variance consiste en gnral donner
sur chaque ligne du tableau le facteur tester puis le RSS
0
RSS correspondant au test, les degrs
de libert, la statistique de Fisher, et enn le niveau de signication obtenu. La somme des SS ainsi
prsents fait, au moins dans le cas du test de type I, le TSS, illustrant la contribution de chaque facteur
la variance totale (cf la colonne SS du III.4.4, et lexercice III.4.9.10) ; ces nombres nont toutefois pas
grand intrt puisque les niveaux rsument au mieux lensemble.
Type I et Type III. Le but originel des tests est de montrer la signicativit de certains facteurs ;
dans cette optique il convient de sarranger lavance pour avoir un plan dexprience correct, et le
mieux est de tester entre des hypothses claires ; comme alternative, le test de type III peut se justier
(car le plus svre et donc le plus convaincant), bien quil soit trs remis en cause [20]. En revanche,
lutilisation des tests pour faire de la slection de modle ne doit tre vue que comme une application
supplmentaire, avec une mise en pratique assez informelle, mais qui rclame une bonne comprhension
5. Dans le test de signicativit de A, lhypothse H
0
(B + C + A.B dans le tableau) consiste supposer que leet
moyen de A au sens o lon fait la moyenne des eets quand B varie, est indpendant de la valeur choisie pour A. Sur le
modle suivant o A possde 3 modalits et B en possde 2 (on oublie C pour simplier)
y =
1
+
2
1
A=1
+
3
1
A=2
+
4
1
B=1
+
5
1
A=1,B=1
+
6
1
A=2,B=1
+u
lhypothse pour tester linuence de A sera
2
2
+
5
= 0
2
3
+
6
= 0
De mme celle pour tester B : 3
4
+
5
+
6
= 0.
56
de la situation ; ici les tests de type I sont pratiques et permettent dillustrer graphiquement par les
dirents SS la contribution de chaque facteur, avec prudence car lordre de leur introduction importe.
Bilan 1 : facteurs simples et interactions. Si linteraction AB est considre comme signicative
alors A et B le sont (les deux premires lignes du tableau III.3 ne sont plus des tests de signicativit).
Dans le cas contraire on peut prfrer lliminer du modle et reprendre lanalyse ; on peut galement
tester A directement par le modle complet contre le modle sans A (B +C contre AB +C).
Bilan 2 : facteurs proches, colinarit. La dicult vient des facteurs signicatifs proches ; pour
les faire apparatre dans les tests, lide est que llimination de lun rendra lautre signicatif dans le
modle ; on peut par exemple comparer les rsultats de dirents tests simples (p.ex. modles additifs
faisant intervenir un des facteurs, lautre ou les deux, ou bien tests embots en changeant lordre des
facteurs (on peut les faire sous R avec anova(H
1
,H
0
))). Une acp des rgresseurs ou une analyse des
correspondances conrmera les doutes.
En rgle gnrale, sil ny a pas de facteurs proches, les conclusions seront faciles tirer. Sil y en a,
il faut analyser cette proximit ; elle peut avoir deux origines :
Corrlation eective (dans le monde rel) entre direntes variables (on postule donc lexistence
dune distribution pour les rgresseurs) ; par exemple la cylindre et la puissance.
Plan dexprience dsquilibr : les sujets gs sont massivement des femmes. Cest une corrlation
articielle (entre sexe et ge) introduite par le choix des individus.
Dans le premier cas la conclusion est simple puisquen gros le facteur limin a une inuence au
travers de sa corrlation avec le facteur conserv .
Dans le deuxime cas il est dicile de conclure puisque les donnes sont intrinsquement mauvaises :
si lon veut tudier le taux de frquentation du mdecin en fonction de lge et du sexe et que les individus
de lchantillon sont des femmes ges et des hommes jeunes, il est clair que le plan dexprience est
mauvais, et lon ne pourra pas dmler linuence de lge de celle du sexe ; on conclura alors leet
globalement signicatif des deux facteurs sans pouvoir distinguer lequel a vraiment de leet.
Variable signicative dcorrle. Il peut arriver quune des variables explicatives ait une corrlation
quasi-nulle avec les rponses (et soit mme rejete dans lanalyse de type I) mais quelle soit signicative
dans lanalyse de type III : ceci vient du fait quelle est implicitement prsente dans dautres rgresseurs
importants. Cest le cas si le vrai modle est y
i
= z
i
+u
i
et que lon estime le modle y
i
=
1
x
i
+
2
x
i
+u
i
bas sur les rgresseurs x
i
= t
i
+z
i
, x
i
= t
i
, o t
i
est une variable quelconque de variance assez grande.
III.4.4 Un exemple trois facteurs
Des tudiants essayent des avions en papier avec deux types de pliage (facteur T), deux types de
papier (facteur P) et deux types dangle de lancer (facteur A)
6
. La rponse est la distance D parcourue.
Il y a deux individus pour chaque combinaison de facteurs soit 16 en tout.
Les rsultats de lanalyse de type I sont prsentes dans la table qui suit ; le plan tant quilibr,
lordre dintroduction des variables nintervient pas. On garde ici le modle P*T, langle napparaissant
pas signicatif. La qualit du papier na donc pas la mme inuence selon le type de pliage.
D P A T
2160 1511 1 1 1
4596 3706 1 1 2
3854 1690 1 2 1
5088 4255 1 2 2
6520 4091 2 1 1
2130 3150 2 1 2
6348 4550 2 2 1
2730 2585 2 2 2
Df SS F value Pr(>F)
P 1 1718721 1.63 0.24
T 1 385641 0.367 0.56
A 1 654481 0.623 0.45
P : T 1 23386896 22.2 0.001
P : A 1 419904 0.4 0.54
T : A 1 73441 0.07 0.8
P : T : A 1 21025 0.02 0.89
Residuals 8 8392178
Table III.4 Donnes et analyse de type I sur le modle D=P*A*T avec le logiciel R
(anova(lm(DP*T*A))). P=papier, T=type de pliage, A=angle de lancer, D=distance parcourue.
6. M.S. Mackisack, What is the use of experiments conducted by statistics students ? J. of Stat. Educ., 2, No 1, 1994.
Donnes et texte disponibles sur internet : Australasian Data and Story Library, www.statsci.org/data/oz/planes.html.
57
La contribution des facteurs (et non pas leur signicativit) peut sillustrer par un camembert bas sur
les SS, aprs une analyse liminant les interactions trop faibles (ce genre de gure est prendre avec
prcautions puisquelle dpend a priori de lordre dans lequel sont rentrs les facteurs ; ce nest pas le cas
ici o le plan est quilibr. Pour le choix des SS plutt que
SS, voir par exemple largumentation de la
n du II.2.4) :
Papier
Avion
Angle
Papier:Avion
Papier:Angle
Residuals
III.4.5 Analyse de covariance
On est cette fois dans la situation o lon a un rgresseur discret et lautre quantitatif. Le modle de
rgression est
y
ij
=
i
+a
i
z
ij
+u
ij
.
Soit encore, sous forme vectorise, y = X +u avec
y =
_
_
_
y
1.
.
.
.
y
I.
_
_
_, X =
_
_
_
_
_
1 0 . . . 0 z
1.
0 . . . 0
0 1 . . . 0 0 z
2.
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . 1 0 0 . . . z
I.
_
_
_
_
_
, =
_
a
_
.
o 0 et 1 sont des vecteurs de 0 et de 1, et u
i.
est le vecteur des u
ij
. Le principe des tests est inchang.
Exemple 1. Reprenons lexemple de la page 51. On observe une variable explicative supplmentaire :
Sodium. Lanalyse du type I du modle avec interaction puis lanalyse des coecients du modle additif
donnent
Df Sum Sq Pr(>F)
Viande 2 17692 7.1e-12
Sodium 1 18614 4.4e-13
Viande : Sodium 2 212 0.58
Residuals 48 9242
Estimate Std. Error Pr(>|t|)
(Intercept) 75,74 8,7 1,6e-11
Divers -1,66 4,5 0,717
Volaille -49,8 4,7 2e-14
Sodium 0,2 0,02 2e-13
Linterprtation du 0,717 est que les viandes diverses nont pas dapport calorique signicativement
dirent du buf (le coecient du buf est 0). Linterprtation du 0,58 est que leet calorique du
sodium ne dpend pas de la viande. Si lon regroupe ces deux classes on obtient aprs une analyse
supplmentaire le modle
Calories=75, 2 49 1
Volaille
+ 0, 2 Sodium+ bruit, = 13, 6 R
2
= 0, 8.
Sur lchantillon, la variable Sodium a une moyenne de 425 et un cart-type de 95.
Exemple 2. On sintresse la relation entre lactivit sexuelle et la longvit
7
. Ltude se base sur une
exprience faite sur 5 groupes de 25 mouches mles. Aux mouches du premier groupe, on a fourni une
femelle vierge par jour, et celle du deuxime groupe huit par jour ; les groupes 3 et 4 correspondent
la mme exprience mais avec des femelles rcemment insmines (ce qui rend le rapport impossible) ;
les mles du groupe 5 sont seuls. Les variables sont
L : longvit en jours (rponse)
N : nombre de partenaires (0, 1 ou 8)
7. L. Partridge, M. Farquhar, "Sexual Activity and the Lifespan of Male Fruities" Nature, 294, 580-581, 1981.
J.A. Hanley & S.H. Shapiro, "Sexual Activity and the Lifespan of Male Fruities : A Dataset That Gets Attention", Journal
of Statistics Education, Vol.2, No 1 (1994). Donnes : www-unix.oit.umass.edu/statdata.
58
V : vierge (1), insmine (0), aucun (-1, si nombre=0)
T : longueur du thorax du mle en mm.
Sur les 9 combinaisons possibles pour N et V, seules 5 ont un sens. Pour viter ce problme on peut
retirer le 5e groupe de ltude, ce qui fait un plan plus simple 4 possibilits qui permet de tester un
modle additif. Le modle additif sera refus et on pourra passer 5 groupes sans perturber le modle.
Les rsultats (logiciel R, tests de type I) de lanalyse de covariance pour le modle nal L = NV +T
obtenu aprs limination progressive des interactions non signicatives sont (le 5e groupe a t limin) :
Df Sum Sq F value Pr(>F)
N 2 3542 16 6,8e-07
V 1 6675 60,4 3e-12
T 1 13633 123 < 2,2e-16
N : V 1 1259 11,4 0,001
Residuals 119 13145
V = 1 V = 0
N = 8 41 65
N = 1 54 63,7
N = 0 61
Le tableau ci-dessus exprime leet relatif en jours de la partie NV du modle, par les prdictions
obtenues T xe (valeur moyenne sur lchantillon : 0, 817 mm) dans les cinq groupes : cest un exemple
typique de lutilisation des coecients pour linterprtation. La contribution des facteurs peut sillustrer
par un camembert bas sur les Sum Sq :
Nombre
Vierge
Thorax
Nombre*Vierge
Residus
III.4.6 Modles hirarchiques (nested) en analyse de variance
Il se peut que la modalit prise par un des facteurs dtermine celle prise par un autre, par exemple
si les facteurs sont ville dorigine et rgion dorigine . Dans ce cas il nest pas question dintroduire
dinteraction mais on testera le modle ne dpendant que de la rgion contre celui dpendant de la ville
y =
r
+u ou y =
v
+u.
Aspect pratique : Dans les donnes, les villes seront souvent numrotes partir de 1 dans chaque
rgion, cest pour cela que les logiciels permettent de prciser que les facteurs ville et rgion sont
hirarchiss, ce qui permet de ne pas confondre des villes de mme indice appartenant des rgions
direntes. Lquation ci-dessus scrit alors y
rvk
=
rv
+u
rvk
et un modle paramtr sous contraintes
est
y
rvk
= +
r
+
rv
+u
rvk
,
R
=
rV
= 0
un coecient
v
nayant aucun sens.
III.4.7 Modles mixtes
Ces modles ont t introduits dans le cadre de la rgression au II.3.5. Commenons par le modle
eets alatoires un facteur :
y
ik
= +
i
+u
ik
, u N(0,
2
I), N(0,
2
I)
59
et u et sont indpendants. Les paramtres estimer sont maintenant simplement , et
. Ce modle
signie que les y
ik
forment un vecteur gaussien de moyenne et de covariance dirente dun multiple
de lidentit, des corrlations apparaissant entre observations ayant mme facteur i.
Par exemple, si lon teste dirents engrais (indice i) sur direntes cultures (indice j), lutilisation
du modle mixte se justie si lon ne sintresse pas la valeur explicite de linteraction culture/engrais ;
il pourra scrire
y
ijk
=
i
+
j
+
ij
+u
ijk
, u N(0,
2
I), N(0,
2
I). (III.15)
Une faible valeur de
q=1
q
x
q
ij
+u
ijk
o Q est petit et les x
q
ij
sont des variables explicatives choisies lavance censes reprsenter elles seules
les eets dinteraction. Par exemple i (resp. j) dsigne la catgorie professionnelle (17 modalits) du pre
(resp. du ls), x
1
ij
= S
i
S
j
o S
i
est lindice socioconomique de la profession et x
2
ij
= 1
i=j
S
2
i
(voir les
dtails au paragraphe IV.2.2 o cette rduction est utilise pour un modle linaire gnralis). On a
ici I +J +Q1 paramtres au lieu de I J pour le modle avec interactions.
Introduction de termes danalyse de covariance. Il peut tre avantageux dassocier chaque
modalit i dun facteur un nombre rel x
i
et de considrer cette nouvelle variable comme une variable
de rgression habituelle dans les termes dinteraction, ce qui revient nalement estimer un modle de
la forme
y
ijk
=
j
+
j
x
i
+u
ijk
o labsence dinteraction se reprsente par
1
=
2
= . . .
J
. moins de disposer dun algorithme spcial,
ou dide prconues, il faut connatre les x
i
avant de procder lestimation des
j
et
j
. Une mthode
simple est destimer un modle additif puis de prendre x
i
=
i
. Attention, ceci fausse les tests futurs.
III.4.9 Exercices
Exercice III.4.9.1 Deux analyses de variance de sur les mmes donnes vous fournissent les rsultats
suivants. Que pouvez-vous en dire ?
H
1
H
0
Pr
AB A+B 0.4
A+B A 0.4
A cst 0.001
H
1
H
0
Pr
AB A+B 0.4
A+B B 0.4
B cst 0.001
Exercice III.4.9.2 Une analyse de variance donne les rsultats suivants. Choisissez-vous le modle
A,B,A+B, le modle complet, ou un autre ?
60
H
1
H
0
Pr
AB A+B 0.001
A+B B 0.4
B cst 0.001
Exercice III.4.9.3 On teste un engrais (facteur A). Malheureusement les champs engraisss sont
principalement tous dans une rgion tandis que les champs tmoins sont dans une autre. Il y a donc un
facteur rgion B proche de A.
1. Quelle sera probablement la conclusion du test de signicativit de A : H
0
= B contre H
1
= A+B?
2. On oublie dintroduire le facteur de rgion. Comment teste-t-on le facteur A? Quelle sera la conclu-
sion si lengrais a une inuence signicative ?
3. Quelle sera le rsultat des tests prcdents si la rgion a une inuence signicative et lengrais est
sans inuence ?
Exercice III.4.9.4 (Modle mixte) On teste leet de deux mdicaments m = 1, 2 sur dirents sujets ;
chaque sujet nessaye quun mdicament. La rponse est une variable mesurant lamlioration de ltat
de sant du sujet. Les sujets sont regroups en G groupes (p.ex. selon lge) et lon considre le modle :
y
mgk
=
m
+
mg
+u
mgk
,
mg
N(0,
2
m
), u
mgk
N(0,
2
)
o y
mgk
est la rponse du k
i
N(0,
2
),
j
N(0,
2
),
ij
N(0,
2
), u
ijk
N(0,
2
).
Combien ce modle a-t-il de paramtres ? Lhypothse
j
/2, centr en
i
j
/2, en fonction des n
k
, de p et de . Vrier que pour (p, n
1
, n
2
, , ) =
(2, 35, 3, 0.15, 0.05) la largeur de lintervalle pour
1
2
/2 est 0,2 (cf lexercice III.2.5.5).
2. Montrer quon a lintervalle de conance de niveau (
2
np
(.) dsigne le quantile du
2
np
) :
(n p)
2
/
2
np
(1 /2)
2
(n p)
2
/
2
np
(/2).
3. En dduire un intervalle de conance de mme niveau pour la variance de
i
j
/2. Vrier que
pour les valeurs considres plus haut on obtient
1
2
/2
[0.054, 0.087] avec = 5%.
Exercice III.4.9.10 (Tests de type I) Rcrivons le modle complet danalyse de variance AB+C
comme
AB +C = c +A+B +C +A.B,
n
A
n
B
+n
C
1 = 1 + (n
A
1) + (n
B
1) + (n
C
1) + (n
A
1)(n
B
1)
criture qui ne fait que dterminer cinq groupes dans les colonnes de X. On considre le nouveau modle
quivalent obtenu par orthogonalisation de chaque facteur aux prcdents dans lordre donn par la
syntaxe, le modle AB +C devenant :
AB +C = c +A+B
c,A
+A.B
c,A,B
+C
c,AB
.
On peut ensuite tester chaque facteur (A, B, A.B, C) en testant le modle complet contre le modle ci-
dessus priv des colonnes correspondant au facteur. Montrer, en exploitant le lemme 10, que le numrateur
de chaque statistique de Fisher est la norme de la projection de y sur lespace correspondant, que ce test
correspond au test de type I et que la somme des 4 numrateurs vaut TSS RSS (dcomposition de la
variance).
III.5 Un exemple de conclusion dtude
Il sagit des donnes CPS_85_Wages disponibles sur http://lib.stat.cmu.edu/datasets/. On
notera le travail danalyse des rgresseurs et des rsidus. Voici la liste des variables et les conclusions de
Therese Stukel (la rponse est le salaire horaire) :
WAGE (dollars per hour).
EDUCATION : Number of years of education.
SOUTH : 1=Person lives in South, 0=Person lives elsewhere.
SEX :1=Female, 0=Male.
EXPERIENCE : Number of years of work experience.
UNION : 1=Union member, 0=Not union member.
AGE (years).
RACE : 1=Other, 2=Hispanic, 3=White.
OCCUPATION : 0=Other, 1=Management, 2=Sales, 3=Clerical, 4=Service, 5=Professional.
SECTOR : 0=Other, 1=Manufacturing, 2=Construction.
MARIT : 0=Unmarried, 1=Married.
The Current Population Survey (CPS) is used to supplement census information between census
years. These data consist of a random sample of 534 persons from the CPS, with information on wages
and other characteristics of the workers, including sex, number of years of education, years of work
experience, occupational status, region of residence and union membership. We wish to determine (i)
whether wages are related to these characteristics and (ii) whether there is a gender gap in wages. Based
on residual plots, wages were log-transformed to stabilize the variance. Age and work experience were
62
almost perfectly correlated (r=.98). Multiple regression of log wages against sex, age, years of education,
work experience, union membership, southern residence, and occupational status showed that these
covariates were related to wages (pooled F test, p < .0001). The eect of age was not signicant after
controlling for experience. Standardized residual plots showed no patterns, except for one large outlier
with lower wages than expected. This was a male, with 22 years of experience and 12 years of education,
in a management position, who lived in the north and was not a union member. Removing this person
from the analysis did not substantially change the results, so that the nal model included the entire
sample. Adjusting for all other variables in the model, females earned 81% (75%, 88%) the wages of males
(p < .0001). Wages increased 41% (28%, 56%) for every 5 additional years of education (p < .0001). They
increased by 11% (7%, 14%) for every additional 10 years of experience (p < .0001). Union members were
paid 23% (12%, 36%) more than non-union members (p < .0001). Northerns were paid 11% (2%, 20%)
more than southerns (p = .016). Management and professional positions were paid most, and service and
clerical positions were paid least (pooled F-test, p < .0001). Overall variance explained was R
2
= .35.
In summary, many factors describe the variations in wages : occupational status, years of experience,
years of education, sex, union membership and region of residence. However, despite adjustment for all
factors that were available, there still appeared to be a gender gap in wages. There is no readily available
explanation for this gender gap.
63
64
IV
Rgression linaire gnralise
IV.1 Modle linaire gnralis
IV.1.1 Pourquoi les modles linaires gnraliss ?
Dans bien des applications, les variables expliquer ne varient pas dans tout R mais dans R
+
, N ou
encore un intervalle dentiers (cf le credit scoring I.2.3). Il est clair que le modle gaussien est mal
adapt a cette situation. Le modle linaire gnralis spcie que y
i
est une variable alatoire dont la
loi est paramtre par une combinaison linaire des rgresseurs x
i
, par exemple y
i
P(x
i
).
En pratique la situation typique est la suivante : on dispose de donnes y et X (rponses et variables
explicatives) ; il faut alors spcier une famille de distributions de probabilit un paramtre rel
(binomiale B(k, ), ou Poisson P(), ou exponentielle E(), etc.) ainsi quune fonction relle r(),
dite fonction de lien (les logiciels proposent une famille nie de telles distributions et de fonctions de lien
et il reste choisir). Tout est ensuite bas sur lestimation de dans le modle
y
i
P
r(x
i
)
, i = 1, . . . n.
Le modle linaire gaussien en est un cas particulier avec la famille N(,
2
) et r() = .
Nous ne traitons pas ici des modles linaires gnraliss mixtes except lexercice IV.2.5.3.
IV.1.2 Les familles exponentielles scalaires
24 - Dfinition
Soit (dx) une mesure sur R, dirente dune masse de Dirac, et soit
D
= : b() = log
_
e
y
(dy) < +
alors la famille de mesures de probabilit
P
(dy) = e
yb()
(dy)
est la famille exponentielle associe et D
est
un intervalle ouvert.
D
() = E
[y]
b
() = Var
(y)
65
o lon a mis en indice pour souligner que les lois sont paramtres par . La fonction b() est strictement
convexe lintrieur de D
.
La paramtrisation par la moyenne. Le caractre strictement convexe de b fait que b
() est en
bijection avec . On peut donc galement considrer = E
pour un certain
) soit y = .
Exemples. Dans tous ces exemples D
b()
Binomiale B(m, p)
m
k=0
C
k
m
{k}
log
_
p
1p
_
mp mlog(1 +e
)
Poisson P()
m
k=0
1
k!
{k}
log e
Gauss N(,
2
) N(0,
2
)
2
2
2
/2
IV.1.3 Les familles exponentielles un paramtre de nuisance
La mthode prcdente se prte visiblement assez mal au traitement de la variable gaussienne lorsque
la variance est inconnue ; le mme problme apparat pour dautres distributions. Cest pourquoi on
introduit la gnralisation suivante ad hoc :
25 - Dfinition
Soit (dy) une mesure sur R, dirente dune masse de Dirac. On appelle famille exponentielle
paramtre de nuisance une famille de densits de la forme
f(y; , ) = exp
_
y b()
+c(y, )
_
telles que f(y; , )(dy) forme une distribution de probabilit pour tout variant dans un
certain domaine de R
+
et tout dans :
_
exp(y/ +c(y, ))(dy) < .
Le terme c(y, ) contient toute la partie non-linaire en y non dj prsente dans (dy) ; ceci permet
dans la pratique de dnir la variable de la paramtrisation, puis ensuite .
x, on a donc une famille exponentielle. Cette fois :
E[y] = b
()
Var(y) = b
().
26 - Proprit
Soit y
1
, . . . y
n
une suite de tirages indpendants de loi f(y;
), alors indpendamment de
la valeur de
, lestimateur de
) = y
o y dsigne la moyenne empirique des y
i
.
Soit encore = y. Lestimation de
B(m, p) 0, . . . m p
y
(1 p)
my
. C
y
m
m
k=0
{k}
mp mp(1 p) [0, m]
P() N
y
e
k0
1
k!
{k}
R
+
N(,
2
) R exp
_
(y)
2
2
2
_
. dy
2
R
Gamma(, p) R
+
(y/)
p
e
y/
/(p) . y
1
dy p
2
p R
+
IG(, ) R
+
exp
_
(y)
2
2
2
y
_
.
dy
2y
3
3
/ R
+
Table IV.1 Les familles classiques pour d = 1. D
() V ()
B(m, p) 1 log
_
p
1p
_
mlog(1 +e
) (1 +e
)
1
(1 /m)
P() 1 log e
N(,
2
)
2
2
/2 1
Gamma(, p) p
1
1/ log() 1/
2
IG(, ) 2/ 1/
2
2
1/
3
/2
Table IV.2 Les paramtres naturels.
IV.1.4 Les exemples classiques
Pour chacune des familles classiques, rappelons les proprits essentielles des distributions [13] :
1. Normale : Une somme de Gaussiennes indpendantes est Gaussienne.
Ex. : Bruit rsultant de la somme deets indpendants centrs (Thorme-limite central).
2. Poisson : Une somme de variables de Poisson indpendantes est encore de Poisson.
Ex. : Nombres dvnements (p.ex. pannes) arrivant sur une dure donn. Comptes dans une table
de contingence.
3. Binmiale : la variable binmiale B(m, p) est la somme de m Bernoullis B(1, p) indpendants.
Ex. : Taille dun sous-chantillon dans un chantillon de taille donne (nombre de sujets ragissant
favorablement).
4. Gamma : Si p est entier Gamma(1, p) est la somme de p v.a. E(1). Gamma(, p) Gamma(1, p).
La somme de v.a. indpendantes de loi gamma avec mme est encore une v.a. de loi gamma de
mme et les p sadditionnent. On a galement
2
n
Gamma(2, n/2).
Ex. : Dispersion, dures de vie, tout ce qui sapparente des sommes de v.a. positives.
5. Inverse gaussienne : La somme dinverses gaussiennes indpendantes de paramtres arbitraires est
encore une inverse gaussienne.
Ex. : Temps mis par une marche alatoire pour atteindre une valeur donne.
IV.1.5 Dnition des modles linaires gnraliss
On considre des donnes (x
i
, y
i
), i = 1, . . . n, o x
i
est la variable explicative et y
i
est rel.
67
27 - Dfinition
Un modle linaire gnralis pour (x
i
, y
i
)
i=1, ...n
est une distribution pour la suite (y
i
) dter-
mine par la donne de
une famille exponentielle un paramtre de nuisance f(., , )
une fonction r (dont la rciproque est appele fonction de lien)
une valeur
et un vecteur de rgression
)(dy)
b
(
i
) = r(x
i
).
La dernire relation dtermine
i
en fonction de x
i
.
La fonction b
est bien inversible, en raison de la stricte convexit de b. Ceci se rsume un peu rapidement
par les proprits suivantes
La loi de y
i
est issue de la famille
E[y
i
] = r(x
i
)
(IV.1)
quoi on doit ajouter la caractrisation de
: Var(y
i
) =
V (r(x
i
)).
Notons en particulier que, dans le cas dune seule variable explicative, la fonction de lien fait que
la droite de rgression devient une courbe de rgression et que pour tous ces modles, part le modle
gaussien, la variance augmente avec la moyenne (plus y
i
est grand, moins les points sont attirs par la
courbe de rgression).
La quantit
. La log-vraisemblance vaut
/(, ) =
1
n
i=1
y
i
i
b(
i
) +
n
i=1
c(y
i
, ), b
(
i
) = r(x
i
). (IV.2)
Aspects pratiques. Il y a priori beaucoup de choix faire pour dterminer le modle puisquil faut
choisir la famille et la fonction de lien ; la table IV.3 dcrit les fonctions de lien g usuelles. Voici quelques
indications utiles pour le choix du modle, elles se rsument dire que lencadr (IV.1) doit avoir
un sens et privilgier le lien canonique (propos par dfaut par les logiciels) :
Le choix de la famille exponentielle : Dans lcrasante majorit des cas le choix parmi les cinq
familles prsentes prcdemment est quasiment dtermin par les valeurs prises par y (support de
).
Si plusieurs choix sont possibles les tracs de rsidus normaliss permettront souvent de dcider du
plus adquat car les modles proposent un comportement dirent de la variance comme fonction
de = r(x).
La fonction de lien sera quant elle guide par les considrations suivantes
1. Le lien canonique r = b
au lieu de E[y
i
] = x
i
) qui peuvent
tre corriges par des changements de variables sur x (p.ex. en passant au logarithme).
2. Interprtation de E[y] = r(x
P R R
+
logit log(/(1 )) 1/(1 +e
) B(1, p) R [0, 1]
loglog complmentaire log(log(1 )) 1 exp(e
) R [0, 1]
probit
1
() () R [0, 1]
puissance
()
1/
Gamma, IG R
R
+
Table IV.3 Les fonctions de lien usuelles. dsigne la fonction de rpartition de la Gaussienne.
Une colonne indique la loi pour laquelle le lien est canonique. Le lien logit est galement canonique
avec la distribution B(m, p) condition de remplacer g() par g(/m) et r() par mr().
En particulier, le lien est lidentit et
_
E[y
i
] = k(
1
+
2
x
i
)
V (y
i
) = k(
1
+
2
x
i
)(1
1
2
x
i
).
On voit tout de suite un problme : un tel modle ne peut expliquer ce qui se passe pour des doses
grandes. Lintroduction du lien canonique rsoud ici ce problme :
y
i
B(k, r(
1
+
2
x
i
)), r() =
1
1 +e
, r
1
() = log
1
.
Sur ce modle on voit que si
2
> 0 (ce qui est logique), alors r() sera toujours suprieur r(
1
). Si
lon pense que r doit pouvoir balayer toutes les valeurs (tout le monde survit dose nulle et personne
dose innie) alors on pourra, par exemple, prfrer mesurer le dosage sur une chelle logarithmique :
y
i
B(k, r(
1
+
2
log(x
i
))), r() =
1
1 +e
.
IV.1.6 Exercices
On pourra prfrer lire la partie suivante avant de faire ces exercices.
Exercice IV.1.6.1 Montrer que les modles suivants sont des modles linaires gnraliss :
1. y
i
=
_
1 si x
i
+az
i
+b
3
log(x
i
) +e
i
0
0 sinon
2. y
i
N(
0
x
1
i
z
2
i
,
2
)
3. y
i
=
_
B(1, p) si x
i
= 0
B(1, q) si x
i
= 1.
La paire (x
i
, z
i
) est le rgresseur pour lindividu i et les e
i
sont i.i.d de fonction de rpartition 1/(1+e
t
).
On explicitera , , les fonctions r et b ainsi que les rgresseurs considrer.
Exercice IV.1.6.2 On considre le modle poissonnien y P(e
x
). crire lquation satisfaite pour
lestimateur au maximum de vraisemblance pour .
Exercice IV.1.6.3 La loi binmiale ngative B
( +)
n+
.
Sa moyenne est et sa variance +
2
/. Pour entier, son interprtation est la suivante : soit T
linstant du
(, ).
1. Montrer que pour tout n, p
,
(n) tend vers une limite (que lon identiera) quand .
2. est x. Donner , b(), et b
l
m
l
= n) et la distribution de Y
l
est :
Y
l
B(m
l
, r(X
l
))
Exemple. On fait tester 7 marques de corn akes par 100 personnes. Les tests sont faits par paires :
chacun fait 21 expriences consistant goter deux marques direntes et dire laquelle il trouve plus
croustillante
1
. Dans le tableau suivant la case (i, j) indique combien de testeurs ont trouv i plus crous-
tillante que j :
1 2 3 4 5 6 7
1 0 39 64 40 61 76 46
2 61 0 65 59 55 85 60
3 36 35 0 31 25 41 35
4 60 41 69 0 41 80 28
5 39 45 75 59 0 71 37
6 24 15 59 20 29 0 18
7 54 40 65 72 63 82 0
1. D. Causeur et F. Husson, A 2-dimensional extension of the Bradley-Terry model for paired comparisons, Journal of
Statistical Planning and Inference, 2005.
70
On peut proposer le modle y
ij
B(100, r(
i
j
)) o
i
est la croustillance de la i
varit, et r doit
satisfaire r(0) = 0, 5 ce qui est bien le cas du lien canonique. Comme seules les dirences interviennent,
on peut poser
7
= 0 et il ny a que 6 paramtres, x
ij
1, 0, 1
6
. Les intervalles de conance
obtenus pour les
i
conduisent un regroupement en 3 classes o les
i
ne sont pas signicativement
distincts :
2
,
7
,
1
,
4
,
5
,
3
,
6
(par ordre de croustillance dcroissante ; on peut faire le test
sous R avec la commande lht de la bibliothque car). Notons que lon retrouve dans cet exemple un
cas de non-monotonicit des tests au sens o la p-value de H
0
:
3
=
6
est infrieure celle de
H
0
:
2
=
7
,
1
=
4
=
5
,
3
=
6
.
Mentionnons galement la possibilit de faire des modles mixtes, voir lexercice IV.2.5.3. Sous R,
ils sont traits par la fonction glmer de la bibliothque lme4
Il a t remarqu depuis longtemps que la rgression logistique et lanalyse discriminante poursuivent
essentiellement le mme but. Il est gnralement admis que lhypothse de distribution gaussienne pour
les variables explicatives est importante pour que lanalyse discriminante donne de bon rsultats ; en
particulier, en prsence de variables qualitatives la rgression logistique devrait tre meilleure
2
.
IV.2.2 Modle poissonnien
Premier exemple : On compte sur plusieurs annes, en chaque saison, le nombre daccidents sur
certaines routes
y
i
= nombre daccidents
x
i
= (nombre de voies sur la route, saison, investissement annuel en entretien de la route)
Le premier rgresseur a 2 modalits et le deuxime rgresseur en a 4. Le modle naturel est Poissonnien,
ce qui donne avec lien canonique :
y P(), log() = x
(avec ici R
6
), soit encore E[y] = e
x
. Cest un modle log-linaire. Il se peut que le lien identit soit
mieux adapt que le lien log-linaire qui implique un eet mutliplicatif des facteurs.
Si lon doit introduire une variable de normalisation p
i
(p.ex. : si les y
i
on t mesurs dans des
dpartements dirents, il est naturel de prendre en compte la population, ou la longueur totale des
routes du dpartement . . .), la rponse naturelle serait y
i
/p
i
. La faon usuelle de prendre p en compte est
dintroduire log(p) en oset (prdicteur pour lequel est connu) : E[y] = e
log(p)+x
.
Tables de contingence. Le modle poissonnien avec lien logarithmique est galement utilis pour
lanalyse des tables de contingence (n
ijk
), o n
ijk
est la rponse, les rgresseurs sont qualitatifs, et les
modles sont fabriqus avec certaines interactions, par exemple
n
ijk
P(e
+
i
+
j
+
k
+
ij
)
avec indpendance des n
ijk
(par exemple le nombre daccidents un carrefour, i = jour/nuit , j = conduc-
teur jeune/g , etc.). La probabilit pour un individu de tomber dans la case i, j, k est la proportion
dindividus quon trouvera dans cette case si lon rpte lexprience un grand nombre de fois, soit
E[n
ijk
]/E[n], dont le logarithme vaut donc
log p
ijk
= c +
i
+
j
+
k
+
ij
, c = log
p,q,r
e
p
+
q
+
r
+
pq
ce qui est une rcriture du modle. On a donc linterprtation :
p
ijk
reprsente la distribution des variables i, j, k dans lchantillon
(dans lchantillon signie ici parmi les fauteurs daccident) de mme que lestimateur habituel
p
ijk
= n
ijk
/n, qui correspond ici au modle avec toutes les interactions.
2. S.J. Press, S. Wilson, Choosing Between Logistic Regression and Discriminant Analysis, Journal of the American
Statistical Association, Vol. 73, No. 364. (Dec., 1978), pp. 699-705.
71
Le lien logarithmique permet donc de reprsenter lindpendance comme la nullit de certains coe-
cients dinteraction, ici
ij
= 0. En eet dans ce cas la probabilit dobserver (i, j, k) est proportionnelle
e
i
e
j
e
k
exprimant ainsi lindpendance des trois facteurs. Dans le cas contraire on concluerait par
exemple une surreprsentation des jeunes dans les accidents nocturnes. Les coecients
i
,
j
,
k
ne
font que reter la proportion de chaque modalit dans lchantillon ; linformation relle se trouve dans
les interactions.
La cohrence du modle poissonnien alors que le vecteur des n
ijk
suit une loi multinomiale, provient
du rsultat suivant :
Soient n
1
, . . . n
K
des v.a. indpendantes de loi de P(
k
), alors, conditionnellement
n
k
= n, la loi
de n
1
, . . . n
K
est multinomiale M(n; p
1
, . . . p
K
), p
k
=
k
/, =
k
k
. Cest immdiat en utilisant que
n P()a
P(n
1
, . . . n
K
[n) =
n
1
1
e
1
n
1
!
. . .
n
K
K
e
K
n
K
!
/
n
e
n!
=
n!
n
1
! . . . n
K
!
p
n
1
1
. . . p
n
K
K
Notons que rciproquement : Si conditionnellement leur somme n les v.a. n
1
, . . . n
K
suivent une loi
multinomiale M(n; p
1
, . . . p
K
) et si n suit une loi P(), alors, les v.a. n
k
sont indpendantes de loi
P(p
k
). Le calcul est le mme.
Exemple. Pour tudier la mobilit sociale, M. Hout
3
considre une table de contingence (p
ij
) o i (resp.
j) dsigne la catgorie professionnelle (17 modalits) du pre (resp. du ls). Il exploite lide prsente au
III.4.8 : Q = 5 avec x
1
ij
= S
i
S
j
o S
i
est lindice socioconomique de la profession (li au prestige, au
salaire, etc.), x
2
ij
= 1
i=j
S
2
i
, et les trois autres sont fabriqus dans le mme esprit avec dautres indices :
log p
ij
= c +
i
+
j
+
Q
q=1
q
x
q
ij
.
En absence dinteraction signicative, on concluera labsence de lien signicatif entre la profession du
pre et celle du ls.
Exemple.
4
On fait faire le test suivant 124 tudiants :
Le point z se trouve dans le quatrime quadrant (i.e. /2 < arg z < 0) du plan complexe. D-
montrer ou rfuter les propositions suivantes
(A) arg(z + z) = 0 (B) arg(z z) = /2
(C) z
2
est dans le troisime quadrant (D) < arg(z/ z) < 0
On sintresse aux variables Rsultat, Sexe et Question et lon rsume les donnes dans le
tableau suivant :
Hommes Femmes
A B C D A B C D
Correct 77 58 65 47 21 17 19 10
Incorrect 10 28 17 24 5 9 5 9
Non-rponse 7 8 12 23 4 4 6 11
Total 94 94 94 94 30 30 30 30
Df P(>|Chi|)
Resultat 2 3e-42
Question 3 1.00
Sexe 1 5e-32
Res : Ques 6 4.5e-07
Le tableau de droite est la table danalyse de variance ascendante donne par R. Aprs limination
des facteurs non-signicatifs, on a gard le modle R Q + S. Il ny a pas de dirence signicative de
rsultat entre les sexes, mais il existe une corrlation entre la question et le rsultat : les questions nont
pas mme dicult. Ceci se conrme bien sur les donnes.
Comme il sagit dune analyse ascendante, les chires 3e-42, 1.00 et 5e-32 correspondent au modle
additif (indpendance des facteur). Le 1.00 signie simplement quil y a autant de question de chaque
type dans lchantillon tandis que 3e-42, et 5e-32 signient quil ny a pas le mme nombre dhommes que
de femmes et que les rsultats ne sont pas uniformment distribues (il y a beaucoup plus de rponses
correctes). La nature du plan fait quil ne peut pas y avoir dinteraction signicative Sexe : Question (la
variable Sexe ne donne aucune information sur la question pose).
3. M. Hout, "Status, Autonomy and Training in Occupational Mobility." American J. of Sociology, 89 (6), 1379-1409,
1984.
4. J. Anderson, Gender-related dierences on open and closed assessment tasks, International Journal of Mathematics
Education in Science and Technology, 33(4), 495-503, 2002.
72
IV.2.3 Modle variable polytomique ordonne ; la variable latente
Exemple :
y =
_
_
_
3 si lindividu pratique du sport tous les jours
2 si lindividu pratique du sport au moins toutes les semaines
1 sinon
x = (ge, type dtudes suivies, . . .)
Introduisons la variable z
i
qui reprsente lenvie de lindividu de faire du sport et postulons le modle :
z = x +u
y = k si a
k1
< z a
k
, a
0
= , a
K
= +.
Soit P(y k) = F(x +a
k
)
o F(.) est la fonction de rpartition de u. Le lien logit revient prendre F(x) = (1 +e
x
)
1
. Si K = 2
et u est gaussienne, on retrouve le modle logistique avec lien probit (quitte changer r en 1 r, ce qui
revient changer y en 1y). Il faudra estimer mais aussi les a
k
. En pratique F sera la fonction inverse
du lien logit ou probit.
Noter que ce modle ne rentre pas rigoureusement dans le formalisme des modles linaires gnraliss.
Lanalyse peut tre ralise sous R avec la fonction polr() de la bibliothqque MASS et les tests avec
la fonction Anova() de la bibliothque car.
IV.2.4 Modle variable polytomique non-ordonne.
Soit un sondage donnant les variables suivantes :
y
i
= Distraction prfre du samedi soir
_
_
1 = spectacle
2 = tlvision
3 = visite damis
4 = autres
x
i
= (ge, sexe, . . .)
On pourra utiliser le modle avec ici K = 4 :
P(y = j) =
exp(x
j
)
K
k=1
exp(x
k
)
,
K
= 0
On peut toujours se ramener
K
= 0 quitte remplacer les
j
par
j
K
, ce qui ne change rien par
ailleurs. La condition
K
= 0 vite donc la surparamtrisation. Ce modle ne rentre pas tout--fait dans
le cadre thorique mais gnralise le modle binmial logistique. Il est trait par la fonction vglm du
package vgam de R, et par la fonction catmod de sas. Il y a ici aussi une interprtation en termes de
variable latente (exercice IV.2.5.5).
IV.2.5 Exercices
Exercice IV.2.5.1 On reprend lexemple du IV.2.1 (blattes). Quelle est la dimension de si lon
suppose une interaction entre la dose et la souche ? entre le produit et la souche ?
Exercice IV.2.5.2 On veut savoir si la prsence dun agent un certain carrefour amliore la circulation.
Pour cela on compte plusieurs fois le nombre de voitures qui attendent au carrefour en prsence et en
absence dagent. On recueille alors un tableau de donnes (n
i
, a
i
, s
i
) o n
i
est le nombre de voitures et
a
i
vaut 0 sil ny a pas dagent et 1 sinon. A t ajoute la variable s
i
qui est le sexe de lagent pour voir
si cette variable a de linuence sur lecacit.
Proposer un modle linaire gnralis pour ces donnes. Quelle est la dimension de ? Comment
tiendriez-vous compte de lheure si on lavait mise dans les donnes ?
73
Exercice IV.2.5.3 (Modle logistique mixte
5
) On a suivi les accouchements dun certain nombre
de femmes an de mesurer limportance dun risque gntique (prsence dun certain gne) sur les fausses
couches. On a le tableau suivant : On dispose en ralit des variables suivantes, o i est lindice de la
< 35 ans 35 ans
vivant fausse couche vivant fausse couche
sans risque 144 18 7 1
avec risque 121 57 8 5
femme et j le numro daccouchement pour cette femme :
y
ij
=
_
0 fausse couche
1 sinon
z
ij
=
_
0 ge < 35 ans
1 sinon
h
i
=
_
0 risque absent
1 sinon.
1. Proposer partir du tableau un test classique pour voir, pour chaque classe dges, si les chances
de fausse couche en absence ou en prsence de risque sont les mmes.
2. Soit le modle pour la probabilit p
ij
dune fausse couche au j
accouchement de la i
femme :
log
_
p
ij
1 p
ij
_
= +az
ij
+bh
i
.
De quel type de modle sagit-il ? crire la vraisemblance des rponses y
ij
.
3. On propose le modle mixte suivant :
log
_
p
ij
1 p
ij
_
= +
i
+az
ij
+bh
i
.
o les
i
sont des v.a. normales i.i.d N(0,
2
). Pourquoi nest-il pas raisonnable de considrer le
modle (non-mixte) o les
i
sont des paramtres ? Interprter ce modle, en particulier concernant
la prsence ventuelle dautres facteurs inconnus. Interprter les tests a = 0 , b = 0 , et
= 0 .
Exercice IV.2.5.4 On reprend lexercice II.3.6.3. La dicult est en fait mesure par une note entre 1
et 3. Proposer un modle linaire gnralis mixte (sinspirer de lexercice prcdent).
Exercice IV.2.5.5 Vrier que le modle variable polytomique non-ordonne correspond au un modle
variable latente suivant : on tire K variables i.i.d. de loi de densit exp(x exp(x)) sur R (c.--d.
que u
k
suit une loi de Gumbel), puis on pose z
k
= x
k
+u
k
et enn y = k si = z
k
z
j
pour tout j.
IV.3 Estimation de
et
au maximum de
vraisemblance, il faut maximiser en
/() =
1
n
i=1
y
i
i
b(
i
), b
(
i
) = r(x
i
). (IV.3)
On a abusivement oubli les termes c(y
i
, ) qui ne jouent aucun rle. Prcisons tout de suite que pour
des fonctions r arbitraires, il peut trs bien y avoir des maximums locaux. La drive est
/
() =
1
n
i=1
(y
i
b
(
i
))
5. H.H. Hundborg, M. Hjbjerre, O.B. Christiansen & S.L. Lauritzen, Familial Tendency to Fetal Loss . . ., Statistics in
Medicine, 19, 2147-2168, 2000.
74
et la relation liant
i
donne b
(
i
)
= r
(x
i
)x
i
. En substituant, et en introduisant la fonction
variance V () = b
(), on trouve
/
() =
1
n
i=1
y
i
i
V (
i
)
r
(x
i
)x
i
,
i
= r(x
i
).
On voit que lannulation de cette fonction de est un problme a priori assez compliqu. Si lon introduit
les variables
x
i
= r
(x
i
) x
i
D = diag(V (x
1
), . . . V (x
n
))
1
on a
/
() =
X
T
D(y ). (IV.4)
Divers algorithmes bien tablis existent pour annuler cette fonction complique de ; on verra le plus
utilis au IV.3.3.
Cas du lien canonique. Si r = b
, lquation devient X
T
(y ) = 0. La rsolution de (IV.3) ne pose
aucun problme fondamental car la fonction maximiser est concave en .
IV.3.2 Proprits asymptotiques
On sintresse lasymptotique quand le nombre n dobservations (x
i
, y
i
) tend vers linni.
Lestimateur
n
de
n
vers
n
(
)/
n
(
)
T
=
1
X
T
D
X (IV.5)
(cf formule (IV.4)) on a alors normalit asymptotique
J
1/2
n
(
) N(0, Id).
Dans ces rsultats, on peut remplacer J
n
par
J
n
, matrice calcule comme dans la formule (IV.5) sauf
que les normalisations sont faites avec les paramtres estims.
IV.3.3 Estimation de
et
La consistance de
implique (sous certaines hypothses) que
=
1
n
i
V (
i
)
1
(y
i
i
)
2
(IV.6)
est un estimateur consistant de
new
= /
()
1
/
().
Malheureusement la matrice de drive seconde est gnralement dicile calculer. On prfre la
remplacer par lapproximation
J
n
(cf. A.1), do lalgorithme
new
= +
_
X
T
DX
_
1
X
T
D( y )
o tout est calcul avec la valeur courante de .
75
IV.4 Tests et analyse de dviance
IV.4.1 Dviance.
La dviance est utilise comme mesure dadquation du modle aux donnes. Elle vaut
D(
) = 2(/
s
/(
))
o /
s
est la vraisemblance du modle satur, c--d du modle avec un paramtre dirent pour chaque
donne. Pour ce modle,
i
= y
i
et donc :
/
s
=
1
n
i=1
y
i
i
b(
i
), b
(
i
) = y
i
.
Noter que D(
) ne dpend pas de ; dans le cas du modle normal, elle nest autre que le RSS. Cette
quantit dicile interprter na dintrt que purement indicatif. La dviance normalise,
1
D(
),
est plus troitement lie la vraisemblance et donc intervient naturellement dans les tests.
IV.4.2 Tests
On utilise les mthodes gnrales proposes lappendice A en exploitant les expressions obtenues
pour la vraisemblance et la matrice dinformation de Fisher (IV.5). En particulier, comme la dirence
de dviance normalise entre deux modles de mme nest autre que le logarithme du rapport de
vraisemblance, on a asymptotiquement sous H
0
: (D
0
D
1
)/
2
p
1
p
0
(cf A.3.1), do le test
D
0
D
1
2
p
1
p
0
(1 ).
Pour les modles pour lesquels nest pas connu, il sera en pratique estim sur le modle le plus compliqu
(suppos valide), et par analogie avec le cas linaire, on fait le test :
D
0
D
1
(p
1
p
0
)
f
p
1
p
0
,np
1
(1 ).
Ces tests tant bass sur les rsultats asymptotiques, il est plus prudent, si n est petit, destimer direc-
tement (par simulation dchantillons sous H
0
) les quantiles dsirs de la loi sous H
0
de la statistique
considre (cf A.3.4).
Noter que lorsque est connu (modle binomial ou poissonnien) le test du
2
reste valide mme si
H
1
donne un residu nul (p.ex. n = p), contrairement au test de Fisher. Ceci permet de faire des tests de
H
0
contre le modle complet dans le cas des tables de contingence du IV.2.2.
Mentionnons galement la statistique de Pearson, utilise au mme titre que la dviance et qui vaut
i
(y
i
i
)
2
/V (
i
). Elle vaut galement RSS dans le cas Gaussien. Cette statistique permet de faire un
test dajustement (goodness of t test) en comparant .
IV.4.3 Analyse de dviance
La dviance va jouer un rle analogue au RSS de lanalyse de variance. Un exemple de table danalyse
de dviance sera
Il sagit ici de tests embots. La premire colonne contient p p
0
, la deuxime est la diminution de
dviance D
0
D entre deux modles successifs, la troisime est la dviance, et la dernire le niveau (pour
un
2
pp
0
sur D
0
D, car = 1).
Pour les modles binomiaux ou poissonniens, on calcule souvent une estime de , avec par exemple
la formule (IV.6), pour vrier la justesse du modle. Comme est le rsidu de Pearson, on utilise un
test du
2
pour comparer sa valeur thorique (cest un test trs approximatif).
Courbe ROC pour le modle logistique. Le but du modle logistique tant souvent de faire de
la prdiction (cf lexemple du Credit Scoring page 9) on sintresse la performance de la mthode
de classication y = 1
x
>
o est un seuil choisir. Lide est de calculer pour chaque valeur de
la probabilit de fausse alarme (dcider tort y = 1) et la probabilit de bonne dtection (dcider
76
Df Dev. Resid. D Pr(> )
NULL 1025.57
Sexe 1 228.93 796.64 0.00
Classe 2 73.05 723.59 0.00
Age 1 28.45 695.14 0.00
Sexe*Classe 2 30.30 664.84 0.00
Sexe*Age 1 14.89 649.95 1e-04
Classe*Age 2 8.58 641.37 0.01
Sexe*Classe*Age 2 1.73 639.64 0.42
Table IV.4 Analyse de dviance. Les individus sont 756 passagers du Titanic pour lesquels on
possde lge, le sexe et la classe (1re, 2me ou 3me) ; source : OzDASL. La rponse est 1 ou 0
selon que le passager a survcu ou non. On a mis un modle binmial avec lien logit. La sortie est
celle de R.
correctement y = 1). Elles sont estimes, de prfrence sur un ensemble de donnes nayant pas servi
lestimation de (ou par une mthode de type validiition croise), par les formules
PFA =
i
1
y
i
=1,y
i
=0
/
i
1
y
i
=0
, PD =
i
1
y
i
=1,y
i
=1
/
i
1
y
i
=1
.
La courbe contenant les points de coordonnes (PFA, PD) est la courbe ROC (Receiver Operating
Characteristic curve). Le modle est dautant meilleur que la courbe longe les axes x = 0 puis y = 1.
Dans notre exemple, si lon considre lvnement y = 1 comme tant la mort du passager, on trouve la
courbe suivante (M=mort, S=Survie) :
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
P(M|S)
P
(
M
|
M
)
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
seuil
P(M|S) P(S|M)
On voit sur la gure de gauche (courbe ROC) lexistence dun seuil permettant de prdire 80% des
morts en ne faisant mourir tort que 20% des survivants ; la bissectrice correspond la performance
de lalgorithme consistant choisir au hasard 0 ou 1. La gure de droite reprsente lvolution des deux
risques en fonction du seuil ; on y voit que le seuil mentionn est un peu suprieur 0,4.
Laire sous la courbe ROC. Il est facile de vrier quelle vaut
A =
i,j
1
x
i
>x
j
1
y
i
=0,y
j
=1
i,j
1
y
i
=0,y
j
=1
=
P(x
< x
[ y = 0, y
= 1)
la probabilit empirique que pour deux individus de rponses distinctes pris au hasard, lordre obtenu
sur les x
soit conforme aux rponses. Cest pourquoi S est souvent pris comme mesure de qualit du
modle.
Odds ratio (rapport des cotes). Considrons le modle additif. Soit p
f
la probabilit de survie pour
77
une femme x
f
et p
h
la probabilit de survie pour un homme x
h
. On a en raison du lien logistique
p
f
1 p
f
=
1
1+e
x
f
1
1
1+e
x
f
= e
x
f
C)
P(
A[C)P(A[
C)
=
P(A, C)P(
A,
C)
P(
A, C)P(A,
C)
=
P(C[A)P(
C[
A)
P(C[
A)P(
C[A)
=
265 688
168 356
3.
La probabilit daccident tant sans doute trs faible, 3 est proche du RR = P(A[C)/P(A[
C).
IV.5 Analyse des rsidus
Les rsidus standardiss sont
r
i
=
t(y
i
) t(
i
)
t
(
i
)
_
V (
i
)
1 h
i
, h
i
= D
ii
[
X(
X
T
X)
1
X
T
]
ii
= D
ii
x
i
(
X
T
D
X)
1
x
T
i
o t(.) est une certaine fonction. Si t(x) = x, on retrouve une formule trs analogue celle des modles
linaires, sauf quil faut prendre garde utiliser les rgresseurs normaliss. Les rsidus de Pearson sont
simplement (y
i
i
)/
_
V (
i
).
Le but de lintroduction de t est davoir pour r
i
une loi aussi proche que possible de la loi normale
standard. Dans [3], il est propos
t(x) =
_
x
0
V ()
1/3
d.
En pratique, on peut soit utiliser cette formule quand on peut la calculer, soit utiliser une approximation,
soit prendre t(x) = x et estimer les quantiles de r
i
par simulation.
Les donnes aberrantes seront donc dtectes par les valeurs anormalement grandes des [r
i
[. Les
donnes isoles pourront tre repres avec les h
i
. Pour le reprage des donnes inuentes, on peut
utiliser la distance de Cook
D
i
=
(y
i
i
)
2
V (
i
)
h
i
(1 h
i
)
2
.
On trace souvent les rsidus en fonction de la rponse pour conforter lhypothse dhomoscdaticit, et
reprer les individus aberrants. Il est dicile en pratique de faire une analyse plus ne.
79
80
V
Rgression non-linaire avec bruit
additif
V.1 Modle
On se donne le modle pour les donnes :
y
i
= f(
, x
i
) +u
i
, u N(0,
2
Id).
On suppose le vecteur u gaussien pour simplier lexpos. est le paramtre estimer. Il arrive que
la variance du bruit soit galement modlise comme une fonction des variables explicatives, E[u
2
i
] =
(
, x
i
)
2
, avec souvent une forme qui suggre quelle augmente avec la moyenne, typiquement
2
=
a + b[f(, x
i
)[
q
. En ralit les x
i
ne jouent aucun rle et il est bien plus simple de considrer le modle
gnral
y
i
= f
i
(
) +u
i
, u N(0,
2
Id).
o les f
i
sont des fonctions direntes connues.
On conseille les rfrences [11, 12] pour ce qui concerne les exemples et les liens avec la pratique, et
[1] pour les aspects plus thoriques
1
.
Exemple 1 : Modle pharmaceutique monoexponentiel. On mesure lvolution de lecacit dun
mdicament (concentration en produit actif) au cours du temps (x
i
reprsente le temps) :
y
i
=
1
e
2
x
i
+u
i
.
Lquation physique est y =
1
e
2
x
et lon peut tout aussi bien prendre le modle log y
i
= log
1
2
x
i
+ u
i
qui est linaire, mais si u
i
est i.i.d. dans un cas, il ne peut ltre dans lautre ; il y a donc un
choix faire.
Exemple 2 : Modles de microbiologie prvisionelle. Il sagit de modliser le dveloppement de
bactries (Listeria, etc.) au cours du temps. Soit y le nombre de bactries et x le temps, les deux modles
classiques suivants sont le modle de Baranyi et Roberts et le modle de Rosso :
f
BR
(, x) =
0
+
1
2
+e
3
x
, f
R
(, x) =
_
0
, x <
2
+e
3
x
, x
Le deuxime modle na que 4 paramtres en raison de la condition de continuit en x = .
Exemple 3 : Cintique chimique. On considre une raction enzymatique
E + S
k
1
k
0
ES
k
2
E + P (E = Enzyme, S = Substrat, P = Produit)
Le substrat [S] est converti en produit [P].
1. ou encore : R. Jenrich, Asymptotic Properties of Non-linear Least Squares Estimators, Ann. Math. Stat, 40, 633-643,
1963.
81
Si [S] [E] et k
0
k
2
on a la relation de Michealis-Menten qui fait intervenir la concentration
initiale [E
0
] en E
2
d[P]
dt
= V
m
[S]
K
s
+ [S]
, V
m
= k
2
[E
0
], K
s
=
k
0
+ k
2
k
1
.
Si lon prend des mesures (x
i
, y
i
) o y
i
= d[P]/dt et x
i
= [S] on est conduit au modle de rgression
y
i
=
1
x
i
x
i
+
2
+u
i
.
Exemple 4 : Evolution dune tumeur
3
. On postule le modle gnral suivant pour lvolution du
diamtre dune tumeur en traitement :
x(t) = x
0
_
1 +k
1
t k
2
T(1 e
(t)
+
/T
) k
3
(t )
+
_
.
On suppose que le traitement a dbut t = 0. Parmi les quatre termes, les deux derniers nont deet
que pour t > , et les deux premiers indiquent une vitesse dvolution linaire. Le paramtre reprsente
linstant initial dune nouvelle phase au cours de laquelle la vitesse dvolution chute dabord k
1
k
2
k
3
pour passer progressivement k
1
k
3
. On pose = (k
1
, k
2
, k
3
, T, ) et lon postule le modle suivant
pour les observations y
ij
du diamtre de la tumeur du patient i au j
e
instant de mesure t
ij
y
ij
= x(t
ij
,
i
) +e
ij
o lon a ajout
i
pour indiquer que le paramtre dpend du patient. Le modle propos pour cette
dpendance est
i
= X
i
o X
i
est un vecteur ligne contenant les variables explicatives et est une matrice dont la k
e
colonne
permet la prdiction de la la k
e
composante de
i
. En ralit, les auteurs dsirent prendre en compte le
fait que la relation ci-dessus est incomplte, et quil reste une partie non-explique, alatoire, dans les
paramtres, si bien que le modle nalement considr pour
i
est
i
= X
i
+
i
,
i
N(0, ).
Il sagit dun modle de donnes longitudinales eets alatoires. La matrice donne lordre de grandeur
de lincertitude sur les paramtres prdits, et donne galement de possibles corrlations entre eux.
V.2 Estimation des paramtres
La log-vraisemblance (du modle variance xe) est
1
2
2
n
i=1
(y
i
f
i
())
2
nlog() si bien que
la mthode du maximum de vraisemblance conduit
n
= arg min
Q(), Q() =
n
i=1
(y
i
f
i
())
2
.
La solution de ce problme peut tre numriquement assez dicile trouver et ce point ne sera pas
discut ici. On peut ensuite estimer
),
2
CV
=
1
n
n
i=1
(y
i
f
i
(
(i)
))
2
o
(i)
est obtenu sans utiliser la i
donne.
2. On atteint rapidement un quilibre o
d[ES]
dt
= 0, ce qui conduit k
1
[S][E] k
0
[ES] k
2
[ES] = 0. Il ne reste plus
qu liminer [E] laide de [E
0
] = [E] + [ES], puis remplacer [ES] par son expression en fonction de [E
0
] et [S] dans
d[P]
dt
= k
2
[ES].
3. Bastogne & al., Phenomenological modeling of tumor diameter growth based on a mixed eects model. Journal of
Theoretical Biology. 2010 ;262 :544552.
82
V.3 Utilisation du bootstrap et du Monte-Carlo
On dmontre mathmatiquement des proprits de convergence, mais elles sont de nature asympto-
tique, et leur validit pour n ni peut dpendre trs fortement de chaque cas particulier. Il conviendra
de vrier le bon fonctionnement des algorithmes utiliss par des simulations (
s
permettent de vrier le bon comportement de lalgorithme, et mme dobtenir,
par exemple, une estimation de la variance destimation de
sous la loi (, ) :
V ar(, )
1
S
S
s=1
(
s
)(
s
)
T
.
Le choix =
et = dans cette exprience conduit une estime de V ar(
), variance de
.
De mme, soit (a prioiri proche de
) et un (,
] contienne
95% des
s
; alors [
s
+ ] pour 95% des valeurs de s, et [
s
+ ] est donc un
intervalle de conance de niveau approximativement gal 5%. Ce qui conduit utiliser [
,
+]
comme intervalle de conance ; cette dmarche prsuppose que la statistique
est (localement)
pivotale car la paire (,
y
b
i
= f
i
(
) +u
b
i
, b = 1, . . . B
o chaque u
b
i
sera tir indpendamment partir dune loi uniforme sur lensemble u
1
, . . . u
n
, la
suite u tant forme des u
i
= y
i
f
i
(
) (ou mieux y
i
f
i
(
(i)
)) empiriquement recentrs
4
.
On dispose donc maintenant de B suites de donnes et B estimateurs
b
, dont la variance empirique
donne une estime de la variance de
.
Variante : Le wild bootstrap est recommand si les rsidus ne sont pas i.i.d. Il vite de mlanger
des rsidus entre individus. Il sagit de prendre u
b
i
= z
i
u
i
o les z
i
sont tirs avec la loi suivante
5
z
i
=
_
(1
5)/(2
5)
(1 +
5)/(2
5).
Cette variable satisfait E[z] = 0, E[z
2
] = E[z
3
] = 1 (noter que z
i
est racine de x
2
x 1 = 0). On
a donc prserv les moments jusqu lordre trois.
V.4 Proprits asymptotiques
Pour les dmonstration et dtails techniques concernant cette partie, nous renvoyons [1]. On sin-
tresse au comportement de lestimateur quand le nombre de donnes n augmente. Sous les hypothses
4. D. A. Freedman, "Bootstrapping Regression Models", Ann. Stat. Vol. 9, No. 6 (Nov., 1981), pp. 1218-1228.
5. R.Y. Liu, Bootstrap procedures under some non-i.i.d. models, Ann. Stati. 16 (1988), 4, 1696-1708.
E. Mammen, Bootstrap and wild bootstrap for high dimensionnal linear models, Ann. Stat. (1993) 21, 255-285
83
habituelles dans le cadre du maximum de vraisemblance, on aura la convergence presque sre de
n
vers
1/2
n
(
) N(0,
2
Id)
n
=
X
T
X,
X =
_
_
_
x
1
.
.
.
x
n
_
_
_, x
i
=
f
i
(
f
i
(
par
n
dans la calcul de
n
, auquel cas on notera
cette matrice
n
.
V.5 Rgions de conance
V.5.1 Rgions thoriques
Des rsultats de lannexe A, on dduit les rgions de conance (asymptotiques) de niveau aprs
remplacement the
par
R
(Y ) =
_
:
Q() Q(
)
2
2
p
(1 )
_
ou
_
:
1
2
(
)
2
p
(1 )
_
.
o Y dsigne lensemble des donnes.
V.5.2 Ajustement du niveau par simulation ou bootstrap
La rgion de conance R
(Y ) a un niveau rel
(Y
b
).
V.5.3 Intervalles de conance
En appliquant les mmes rsultats du A.2 avec g() =
j
, on obtient lintervalle de conance
I
(Y ) = [
nj
,
nj
+], = [(
n
)
1
]
1/2
jj
t
n1
(1 /2)
o lon a remplac la racine dun
2
par un Student pour avoir une formule analogue au cas linaire, cf
III.2.1, ce qui ne change rien dans le cadre asymptotique n .
V.6 Tests
De la mme faon, on a les tests classiques de lannexe A. Par exemple, le test du maximum de
vraisemblance pour g() = 0 scrit nlog
Q(
0
n
)
Q(
n
)
2
q
(1 ) o
0
n
est lestime au maximum de
vraisemblance sous la contrainte g() = 0, et q est la dimension de g.
Aspects pratiques. Pour n petit, le seuil
2
q
(1 ) est une mauvaise approximation du seuil rel. Il
sera bon de rvaluer le quantile en faisant des simulations du membre de gauche sous H
0
. Notons pour
un ensemble de donnes Y , T(Y ) = log
Q(
0
n
)
Q(
n
)
, alors on pourra employer la mthode suivante valide pour
toute statistique de test T(Y ) :
1. Estimer
0
n
(Y )
2. Simuler des ensembles des donnes Y
s
(ou Y
b
) comme au V.3 sous la loi associe
0
n
(Y )
3. Calculer les T(Y
s
)
4. le seuil sera la valeur telle quune proportion seulement des T(Y
s
), s = 1, . . . S dpassent cette
valeur.
5. la p-value associe T(Y ) sera la proportion de s tels que T(Y
s
) > T(Y ).
84
V.7 Analyse des rsidus
En linarisant le modle au voisinage de
1 h
i
h
i
=
_
X(
X
T
X)
1
X
T
ii
.
Pour la dtection de donnes inuentes, on a la statistique de - :
C
i
=
h
i
p(1 h
i
)
r
2
i
.
Ces statistiques sont des indicateurs qui permettent de dtecter des individus particuliers ; ils sont bass
sur une linarisation qui peut tre trs approximative pour des n petits.
85
86
A
Asymptotique du maximum de
vraisemblance
A.1 Thormes-limite
On se donne une famille de lois P
,x
dpendant dun paramtre R
d
et dun rgresseur x; elles
possdent une densit p
,x
(y) par rapport une mesure commune
x
(dy). On observe une suite de
variables alatoires (y
i
)
i=1, ...n
indpendantes de loi P
,x
i
.
Lestimateur au maximum de vraisemblance de
, la vraisemblance est
n
= max
/
n
()
/
n
() =
i
log p
,x
i
(y
i
).
On dsignera par /
et /
[/
n
()] = E
_
/
n
()/
n
()
T
.
Sous certaines hypothses que nous ne dtaillerons pas, et qui ont essentiellement trait dune part la
rgularit en de la fonction p
,x
(y) et dautre part au fait que la suite
n
reste borne, et en supposant
de plus que
Hypothse : I
n
(
)
1
0
(typiquement I
n
(
n
vers
quand n
tend vers linni. Lhypothse est en dfaut lorsque la loi des donnes ne dpend pas (ou pas assez) de
, ce qui implique bien entendu que
n
() Id.
permet davoir aussi les estimateurs simples suivants de I
n
(
) :
I
n
(
) /
n
(
n
) I
n
(
n
)
valides sous des hypothses de rgularit raisonnables et couramment utiliss ; dans la suite, I
n
dsignera
I
n
(
n
(
) N(0, Id)
87
Cest une simple consquence du thorme-limite central. En crivant la drive de la log-vraisemblance
au voisinage de
il vient
0 = /
n
(
n
) /
n
(
) + (
)/
n
(
)
soit
/
n
(
)(
) /
n
(
)
et lon montre alors la normalit asymptotique de lestimateur
I
1/2
n
(
) N(0, Id)
On en dduit galement, en dveloppant /
n
au voisinage de
n
, la convergence en loi de la dviance
vers un
2
p
2(/
n
(
) /
n
(
n
))
2
p
.
Normalit des fonctions de lestimateur. Supposons que I
n
/n converge vers une matrice I. Soit g
une fonction valeurs dans R
q
, en dveloppant au voisinage de
n
:
g(
n
) g(
) = g(
n
)(
)
do
n(g(
n
) g(
)) N(0, G
T
I
1
G), G = g(
).
Dans la suite on supposera que q p, que la drive de g est de rang plein au voisinage de
et lon
notera :
I
g
n
=
_
G
T
n
I
1
n
G
n
1
, G
n
= g(
n
).
A.2 Rgions de conance
Des rsultats prcdents, on dduit aussitt les rgions de conance asymptotiques de niveau
R
= : 2(/
n
() /
n
(
n
))
2
p
(1 )
et
R
= : /
n
()I
n
/
n
()
2
p
(1 )
et pour les fonctions (en particulier g() = )
R
= v : (g(
n
) v)
T
I
g
n
(g(
n
) v)
2
q
(1 )
A.3 Tests
On veut tester lhypothse gnrale
H
0
: g(
) = 0
pour une certaine fonction g valeurs dans R
q
et un niveau 1 .
88
A.3.1 Test du rapport de vraisemblance
Soit
0n
lestimateur au maximum de vraisemblance de sous la contrainte g() = 0. On peut vrier
que si g(
) = 0
I
1/2
n
(
0n
) = PI
1/2
n
(
) +O(|
|
2
)
o P = Id I
1/2
n
g
n
I
g
n
g
n
I
1/2
n
est un projecteur orthogonal de rang q. On montre alors facilement que
sous H
0
2(/
n
(
n
) /
n
(
0n
))
2
q
.
Do le test : Rejeter H
0
si 2(/
n
(
n
) /
n
(
0n
))
2
q
(1 )
o
2
q
(.) dsigne la fonction quantile du
2
q
.
A.3.2 Test des scores
On montre de manire analogue que sous H
0
/
n
(
0n
)I
n
/
n
(
0n
)
2
q
.
Do le test : Rejeter H
0
si /
n
(
0n
)I
n
/
n
(
0n
)
2
q
(1 ).
Le plus simple sera ici de prendre I
n
= /
n
(
0n
).
A.3.3 Test de Wald
Il se dduit de la normalit de g(
n
) :
Rejeter H
0
si g(
n
)
T
I
g
n
g(
n
)
2
q
(1 ).
En particulier, pour tester H
0
: R
= l, on a :
Rejeter H
0
si (R
l)
T
(RJ
1
n
R
T
)
1
(R
l) >
2
q
(1 ).
A.3.4 Aspects pratiques.
Pour n petit, le seuil
2
q
(1 ) est une mauvaise approximation du seuil rel. Il sera bon de rvaluer
le quantile en faisant des simulations du membre de gauche (ou en utilisant le bootstrap, cf chapitre V).
Notons pour un ensemble de donnes Y , T(Y ) = 2(/
n
(
n
(Y )) /
n
(
0n
(Y ))), alors on pourra :
1. Estimer
0n
(Y )
2. Simuler des ensembles de donnes Y
s
comme au V.3 sous la loi associe
0n
(Y )
3. Calculer les T(Y
s
)
4. sera la proportion de s tels que T(Y
s
) > T(Y ).
89
90
B
Slection de modles
La situation est la suivante : on se donne plusieurs modles quon identie et lon veut choisir le
meilleur, et par exemple savoir si un modle compliqu est justi. Si ce choix est motiv par un besoin
de faire de la prdiction, les solutions que lon va voir dans la suite sont gnralement bonnes. Si au
contraire il sagit de faire de linterprtation (p.ex. savoir si telle ou telle variable importe, savoir si
le modle est linaire ou pas), cest beaucoup plus dicile, particulirement si lon a choisir parmi
un nombre inni de modles. Par exemple, un modle non-linaire identi peut avoir des perfomances
statistiquement tout--fait raisonnables mme si le vrai modle est linaire ; en ce cas le modle non-
linaire sera bon en prdiction mais linterprtation juste est la linarit. De mme on peut se permettre,
en prdiction, de prendre trop de rgresseurs en compte, du moment que le modle estim leur donne un
poids susament faible. Cette marge de manuvre rend le problme de la slection pour la prdiction
plus simple.
On a dj vu une mthode de slection pour linterprtation permettant de dcider entre deux modles
embots, cest le test de Fisher. Il se gnralise en (cf A.3.1) :
Rejeter H
0
si 2(/
1
(y) /
0
(y))
2
q
(1 )
o /
i
(y) est la log-vraisemblance de y = (y
1
, ..y
n
) sous H
i
et q = p
1
p
0
est la dirence entre le nombre
de paramtres sous chaque hypothse. Le principe du test de Fisher est de ne refuser lhypothse simple
H
0
quen cas de valeur extrme de la statistique, et il est paramtr par .
On prsente ici des mthodes plus gnrales qui conviennent pour des modles non-embots, dans
un cadre non-linaire, et qui nutilisent pas de seuil.
Appelons p le nombre de paramtres ; il est clair que le modle le plus compliqu (p grand) aura
gnralement lerreur de prdiction la plus faible. Plusieurs critres ont ts proposs pour les modles
de rgression, ils pnalisent les p grands erreur de prdiction
u
2
i
constante :
Validation croise : CV =
1
n
n
i=1
u
2
i
/(1 h
i
)
2
(cf exercice II.2.9.10)
Critre dAkaike
1
: AIC = nlog(
2
) +p.
Critre de Wallace-Boulton-Schwarz
2
: BIC = nlog(
2
) +p log(n)
Extension des modles gnraux. Utilisation pratique. Ces critres sutilisent pour des modles
paramtriques gnraux, condition de les exprimer en fonction de la log-vraisemblance des observations
y = (y
1
, . . . y
n
) (cf exercice III.1.4.1 : /(y) =
n
2
log(2e
2
MV
)) :
CV = 2
i
/(y
i
/y
(i)
)
AIC = 2/(y) + 2p
BIC = 2/(y) +p log(n)
1. Attention, le critre dAkaike sexprime de manire lgrement dirente en fonction de lestimateur au maximum de
vraisemblance de la variance
2
MV
= RSS/n; on obtient un terme o(p/n) prs : AIC = nlog(
2
MV
) + 2p.
2. G. Schwarz, Estimating the Dimension of a Model", Ann. of Stat., vol.6, No 2, 461-464, 1978.
C.S. Wallace, D.M. Boulton, An information measure for classication", Computer Journal., 11(2) : 185-194, 1968. (On y
voit exposes les ides essentielles du MDL).
C.S. Wallace, P.R. Freeman, Estimation and Inference by Compact Coding", J. Royal Stat. Soc., B, vol.49, No 3, 240-265,
1987.
91
o, dans CV , chaque terme est la log-vraisemblance du i
et y
et considrer 2
i
/(y
i
/y
[
par [det(f
)[). On a donc la formule permettant de retrouver le critre sur la variable originale partir
dun modle sur f(y)
AIC(y) = AIC(f(y)) 2
i
log([f
(y
i
)[)
De mme pour BIC. Si par exemple on veut utiliser AIC pour comparer les modles
y
i
= x
i
1
+e
i
et log(y
i
) = x
i
2
+e
i
via deux identications OLS, la vraisemblance obtenue aprs identication pour z
i
= log(y
i
) sera celle
de y
i
un facteur 1/y
i
prs, do le calcul dAIC pour le deuxime modle :
AIC(y) = AIC(z) + 2
i
log(y
i
).
92
Bibliographie
[1] A. Antioniadis, J. Berruyer, R. Carmona, Rgression non-linaire et applications, Economica,
Paris, 1992.
[2] J.-M. Azas, J.-M. Bardet, Le modle linaire par lexemple, Dunod, 2005.
Un expos gnral que nous recommandons chaudrement.
[3] O. Barndorff-Nielsen, Information and exponential families in statistical theory, Wiley, 1978.
[4] L. Breiman, J.H. Friedman, Predicting multivariate responses in multiple linear regression, J.
R. Stat. Soc., Ser. B 59, No 1, 3-54 (1997).
[5] P.J. Diggle and P.J. Ribeiro, Model-Based Geostatistics, Springer, 2006.
[6] I.R. Dohoo, C. Ducrot, C. Fourichon, A. Donald & D. Hurnik, An overview of techniques
for dealing with large numbers of independent variables in epidemiologic studies, Preventive Vete-
rinary Medicine, 29, 221-239, 1996.
[7] B. Escofier, J. Pags, Initiation aux traitements statistiques. Mthodes, mthodologie, Presses
universitaires de Rennes, 1997.
[8] X. Guyon, Statistique et conomtrie, Ellipses, 1991.
[9] D.M. Haaland, E.V. Thomas, "Partial least-squares methods for spectral analyses. 1. Relation
to other quantitative calibration methods and the extraction of qualitative information", Analytical
Chemistry, Vol 60, 1988, 1193-1202.
[10] W. Hrdle, Applied nonparametric regression, Cambridge University Press , 1990.
[11] S. Huet, E. Jolivet, A. Messan, La rgression non-linaire, mthodes et applications en biologie,
Inra, Paris, 1992.
[12] S. Huet, A. Bouvier, M.-A. Gruet & E. Jolivet, Statistical Tools for Nonlinear Regression,
Springer, 1996.
[13] N.L. Jonhson, S. Kotz et N. Balakrishnan Continuous Univariate Distributions, Vol.1, Wiley,
1994.
[14] P. McCullagh, J.A. Nelder, Generalized Linear Models, Chapman & Hall, 1983.
[15] J.O. Ramsay, B.W. Silverman, Functional data analysis, Springer, 2005.
[16] S.R. Searle, G. Casella, C.E. McCulloch, Variance Components, Wiley, 1992.
[17] W. Silverman, Density estimation for statistics and data analysis, Chapman & Hall, 1986.
[18] M. Tenenhaus, La rgression PLS, thorie et pratique, Technip, 1998.
[19] S. Van Huffel, J. Vanderwalle, The Total Least Squares Problem, SIAM, 1991.
[20] V.N. Venables, Exegeses on Linear Models, S-PLUS Users Conference, 1998.
93
Index
ACP, 35
additif (modle), 52
AIC, 91
analyse de covariance, 58
analyse de la variance, 50
ANOVA, 45, 56, 76
Bernoulli (modle), 70
Bernoulli rpt, 70
BIC, 91
bin. ngative (loi), 69
binomiale (loi), 67
BLUE, 22
bootstrap, 83, 84
Box-Cox, 18
Chow, 47
colinarit, 43, 46, 55
complet (modle), 52
contraint (modle), 21, 44
corrlation partielle, 16
curds and whey, 38
CV, 21, 3133, 38, 91
CVR, 32
dviance, 76, 88
donne aberrante, 49
donne inuente, 49
donne isole, 49
donnes groupes, 24, 27
droite de Henri, 16
Durbin-Watson (test), 24
erreur standard, 13
error in variables, 29
ESS, 13
facteurs proches, 43, 46, 55
facteurs signicatifs, 55
famille exponentielle, 65
Fisher, 44
fonction variance, 66
gamma (loi), 67
GLS, 23
graphique (reprsentation), 16
hirarchique (modle), 28, 59
indice dinuence, 15, 49
inuence, 49
intervalles de conance, 41, 48, 84
inverse gaussienne (loi), 67
inversion matricielle, 22
krigeage, 26
leverage, 15
lien canonique, 68
log-linaire, 71
logistique (modle), 70
logistique mixte (modle), 74
longitudinales (donnes), 9, 28, 33, 82
mlange de rgressions, 34
maximum de vraisemblance, 87
MDL, 92
mthode ascendante, 45
mthode descendante, 45
mixte (modle logistique), 74
mixte (modle), 27, 59, 61
modle
interactions rduites, 60, 72
de Cobb-Douglas, 8
de mlange de rgressions, 34
de rgression sur donnes segmentes, 34
de seemingly unrelated regression, 25
logistique mixte, 74
longitudinal htroscdastique, 25
longitudinal mixte, 28
modle linaire gnralis, 65
moindres carrs totaux, 29
nested, 59
non-linaire (modle), 81
non-paramtrique, 10
odds ratio, 78
OLS, 12
plan quilibr, 52, 54
plan incomplet, 52, 54
PLS, 36
Poisson (loi), 67
poissonnien (modle), 71
polytomique (modle), 73
prdiction, 48
94
R
2
ajust, 14
rang rduit (rgression), 38
rponses multiples, 36
rsidus, 13, 48
rsidus partiels, 17
ridge regression, 37
robuste (rgression), 38
ROC (courbe), 76
RSS, 13
slection de modle, 91
semi-paramtrique, 10
shrinkage, 37
stabilisation de variance, 18
suppression dun individu, 15
table dANOVA, 45, 56, 76
table de contingence, 71
transformations des rponses, 18
TSS, 13
type I (test), 55, 56, 62
type III (test), 56
valeur ajuste, 13
validation croise, 21, 3133, 38, 46, 49, 82, 91
validation croise gnralise, 33, 38
variable latente, 73
White (test), 24
95