You are on page 1of 128

Universit des Sciences et Technologies de Lille

U.F.R. de Mathmatiques Pures et Appliques


Bt. M2, F-59655 Villeneuve dAscq Cedex
Initiation la
Statistique
IS-Math314
Chapitres 14
Charles SUQUET
Licence de Mathmatiques L3 20092010
Table des matires
1 Thorme limite central 5
1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Sommes de variables alatoires i.i.d. . . . . . . . . . . . . . . . . . 10
1.2.2 Vitesse de convergence dans le TLC . . . . . . . . . . . . . . . . . 12
1.2.3 Intervalle de conance pour une probabilit inconnue . . . . . . . 14
1.2.4 Gnralisation du TLC . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Thorme limite central vectoriel . . . . . . . . . . . . . . . . . . . . . . 18
1.3.1 Esprance et covariance dun vecteur alatoire . . . . . . . . . . . 18
1.3.2 Vecteurs alatoires gaussiens . . . . . . . . . . . . . . . . . . . . . 21
1.3.3 TLC vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4 Complments sur la convergence en loi et le TLC . . . . . . . . . . . . . 27
1.4.1 Outillage pour la convergence en loi . . . . . . . . . . . . . . . . . 27
1.4.2 Dmonstration du TLC . . . . . . . . . . . . . . . . . . . . . . . . 34
2 Simulation de variables et vecteurs alatoires 41
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Mthode thorique pour simuler une v.a.r. . . . . . . . . . . . . . . . . . 42
2.3 Mthodes particulires pour lois usuelles . . . . . . . . . . . . . . . . . . 46
2.3.1 Lois discrtes support ni . . . . . . . . . . . . . . . . . . . . . 46
2.3.2 Lois binomiales et multinomiales . . . . . . . . . . . . . . . . . . 48
2.3.3 Lois de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.4 Lois gomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.5 Lois gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.4 Algorithmes de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4.1 Simulation de lois uniformes par rejet . . . . . . . . . . . . . . . . 55
2.4.2 Simulation de lois densit par rejet . . . . . . . . . . . . . . . . 59
2.4.3 Simulation dune loi discrte par rejet . . . . . . . . . . . . . . . . 63
2.5 Simulation de vecteurs alatoires par transformation . . . . . . . . . . . . 65
2.5.1 Loi uniforme par transformation ane . . . . . . . . . . . . . . . 65
2.5.2 Vecteur gaussien de covariance donne . . . . . . . . . . . . . . . 71
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3
3 chantillons et statistiques 75
3.1 Modlisation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2 Mesure empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.2.1 Une loi construite partir des observations . . . . . . . . . . . . . 80
3.2.2 Convergence de la f.d.r. empirique vers la f.d.r. thorique . . . . . 83
3.2.3 Application au test de Kolmogorov-Smirnov . . . . . . . . . . . . 90
3.3 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3.1 Moments observs et moments empiriques . . . . . . . . . . . . . 92
3.3.2 Esprance et variance des moments empiriques . . . . . . . . . . . 93
3.4 Lois des moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . 95
3.4.1 chantillon de grande taille . . . . . . . . . . . . . . . . . . . . . 95
3.4.2 chantillon gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 99
4 Estimation 105
4.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.1.2 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.1.3 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . 108
4.2 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.1 Exercice introductif . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2.3 Cas densit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A Tables statistiques 121
A.1 Loi normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.2 Lois du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
A.3 Lois de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
A.4 Test de Kolmogorov Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 127
4 Ch. Suquet, Cours I.S. 2010
Chapitre 1
Thorme limite central
Le thorme limite central nous dit quune somme dun grand nombre de variables
alatoires indpendantes, de carr intgrable, convenablement normalise, se comporte
asymptotiquement en loi comme une v.a. gaussienne. Il explique limportance centrale
des lois gaussiennes dans la thorie des probabilits et la statistique. Il complte la loi des
grands nombres en donnant une sorte de vitesse de convergence, permettant notamment
de construire des intervalles de conance pour lestimation dun paramtre.
Pour donner un sens mathmatique prcis cette notion de comportement asymp-
totique en loi , il nous faut dabord introduire la convergence en loi.
1.1 Convergence en loi
Nous admettrons lquivalence des deux dnitions suivantes de la convergence en
loi.
Dnition 1.1 (convergence en loi). Notons F
n
et F les fonctions de rpartition re-
spectives des variables alatoires relles Y
n
(n 1) et Y . On dit que la suite (Y
n
)
n1
converge en loi vers Y si
x point de continuit de F, F
n
(x)
n+
F(x). (1.1)
Rappelons que x est point de continuit de la f.d.r. F si et seulement si F(x) = F(x)
ou encore P(Y = x) = 0.
Dnition 1.2 (convergence en loi). On dit que la suite (Y
n
)
n1
de variables alatoires
relles converge en loi vers la variable alatoire rel le Y si
h continue borne R R, Eh(Y
n
)
n+
Eh(Y ). (1.2)
Remarquons que si h est continue borne, les h(Y
n
) et h(Y ) sont des v.a. bornes,
donc intgrables. Nous noterons la convergence en loi de Y
n
vers Y par
Y
n
loi

n+
Y.
5
Chapitre 1. Thorme limite central
La dnition 1.1 est la plus concrte, surtout lorsque F est continue sur tout R, cas
souvent rencontr en pratique. En eet dans ce cas, la convergence en loi quivaut
la convergence simple sur R des fonctions de rpartition et nous donne, pour tous rels
a < b, la convergence des P(Y
n
I(a, b)) vers les P(Y I(a, b)), o I(a, b) dsigne
nimporte lequel des 4 intervalles dextrmits a et b.
La dnition 1.2 est souvent plus commode pour tablir les proprits de la con-
vergence en loi et a lintrt dune gnralisation immdiate aux vecteurs alatoires de
R
d
.
Dnition 1.3 (convergence en loi de vecteurs alatoires). On dit que la suite (Y
n
)
n1
de vecteurs alatoires de R
d
converge en loi vers le vecteur alatoire Y de R
d
si
h continue borne R
d
R, Eh(Y
n
)
n+
Eh(Y ). (1.3)
Remarques 1.4 (les piges de la convergence en loi). Pointons demble des dirences
importantes entre la convergence en loi et les autres modes de convergence vus jusquici.
1. Il nest pas ncessaire, pour la convergence en loi de Y
n
vers Y , que ces variables
alatoires soient dnies sur le mme (, F, P).
2. Il ny a pas unicit de la v.a. limite en loi. Si (Y
n
)
n1
converge en loi vers Y , elle
converge aussi en loi vers nimporte quel le variable alatoire Z ayant mme loi que
Y (ventuellement dnie sur un autre espace probabilis). Ceci se voit facilement
sur chacune des deux dnitions de la convergence en loi
1
. Rciproquement si
Y
n
converge en loi vers Y et aussi vers Z, alors Y et Z ont mme loi. En eet
en utilisant la dnition 1.2 et lunicit de la limite dune suite convergente de
rels, on voit que Eh(Y ) = Eh(Z) pour toute h : R R continue borne. Par la
caractrisation des lois par leurs h-moments, cf. cours dI.P.., on en dduit que
Y et Z ont mme loi. En rsum, sil ny a pas unicit de la v.a. limite en loi, il y
a unicit de sa loi, que lon appelera loi limite
2
.
3. La convergence en loi nest pas compatible avec laddition. Si X
n
converge en loi
vers X et si Y
n
converge en loi vers Y , il est faux en gnral que X
n
+Y
n
converge en
loi vers X +Y . En eet si ctait le cas, comme X
n
converge en loi vers nimporte
quel X

ayant mme loi que X, X


n
+Y
n
devrait converger aussi en loi vers X

+Y .
Le hic cest que X +Y na pas forcment mme loi que X

+Y .
Aprs ces mises en garde, voyons un exemple assez typique o la convergence en
loi est le concept pertinent pour dcrire le comportement asymptotique dune suite de
variables alatoires.
1. Cette non-unicit de la limite est bien plus gnrale que pour les autres modes de convergence
vus jusquici o lon avait convergence vers nimporte quelle Z gale p.s. Y . Bien sr, si Y et Z sont
dnies sur le mme espace et sont gales p.s., elles ont mme loi, mais la rciproque est grossirement
fausse. Quand on lance deux ds, on nest pas sr dobtenir un double !
2. Ceci incite voir la convergence en loi de Y
n
vers Y comme la convergence de la loi P
Y
n
vers
la loi P
Y
. On pourrait dailleurs, en sortant nettement du programme de ce cours, donner un sens
mathmatique prcis cette convergence, appele convergence troite des mesures de probabilit en
notant que Eh(Y
n
) ne dpend que de h et de P
Y
n
.
6 Ch. Suquet, Cours I.S. 2010
1.1. Convergence en loi
Exemple 1.5 (une loi limite de records). Soit (X
k
)
k1
une suite de variables alatoires
indpendantes et de mme loi avec fonction de rpartition commune F. Dnissons la
suite de variables alatoires records (M
n
)
n1
par :
M
n
:= max
1kn
X
k
, n N

. (1.4)
Connaissant F, il est facile dobtenir la fonction de rpartition G
n
de M
n
:
G
n
(x) = P(M
n
x) = P
_
k 1, . . . , n, X
k
x
_
= P
_
n

k=1
X
k
x
_
.
En utilisant lindpendance des X
k
, puis le fait quelles ont mme loi, on en dduit :
G
n
(x) =
n

k=1
P(X
k
x) =
_
F(x)
_
n
. (1.5)
Supposons dsormais que les X
k
ont pour loi commune la loi exponentielle de paramtre
a, alors
F(x) = 1 e
ax
si x 0, F(x) = 0 si x < 0 ;
G
n
(x) =
_
1 e
ax
_
n
si x 0, G
n
(x) = 0 si x < 0.
Donc pour x rel x, on a lim
n+
G
n
(x) = 0. La signication intuitive de ce rsultat
est que le record M
n
nira par dpasser nimporte quel niveau x x pour n assez
grand
3
. An de prciser cette ide, on cherche une suite non alatoire tendant vers +
la mme vitesse que M
n
. On peut vrier que EM
n
=
1
a
_
1 +
1
2
+
1
3
+ +
1
n
_
, donc
EM
n
a
1
ln n, cf. par exemple le corrig de lexamen dI.P.. de janvier 2006. Ceci
nous amne tudier le comportement asymptotique de P(M
n
a
1
ln n x) :
P
_
M
n

ln n
a
x
_
= G
n
_
x +
ln n
a
_
=
_
1 e
axln n
_
n
=
_
1
e
ax
n
_
n
. (1.6)
On en dduit que :
lim
n+
P
_
M
n

ln n
a
x
_
= exp
_
e
ax
_
. (1.7)
Le calcul (1.6) est valable pour ln n ax, donc pour tout n N

et tout x 0. Pour
x < 0 x, on aura ln n ax pour n n
0
(x) donc (1.7) est valable pour tout x rel.
On peut donc dire quasymptotiquement, M
n
est de lordre de grandeur de a
1
ln n et
que la dispersion alatoire de M
n
autour de cette valeur est donne par la loi de fonction
de rpartition :
H(x) = exp
_
e
ax
_
, x R. (1.8)
3. Nappliquez pas cette remarque au sport, mme avec dopage. Cette convergence en probabilit
vers linni de M
n
nest possible que parce que chaque X
k
peut elle mme prendre une valeur suprieure
x avec une probabilit non nulle. Si on prend pour X
k
des variables de loi uniforme sur [0, 1], la suite
des records restera borne par 1.
Ch. Suquet, Cours I.S. 2010 7
Chapitre 1. Thorme limite central
On vrie immdiatement que H est continue sur R, croissante (comme compose de
deux fonctions dcroissantes) avec pour limites 0 en et 1 en +. Cest donc bien
une fonction de rpartition. La loi de f.d.r. H est une loi de Gumbel.
Daprs la dnition 1.1, on peut reformuler la conclusion en disant que la suite de
variables alatoires M
n
a
1
ln n converge en loi vers une v.a. suivant la loi de Gumbel
de f.d.r. H donne par (1.8).
Une proprit bien commode de la convergence en loi est sa conservation par image
continue.
Proposition 1.6 (convergence en loi par image continue). Si Y
n
converge en loi vers
Y , alors pour toute f continue R R, f(Y
n
) converge en loi vers f(Y ).
Noter que lon ne suppose pas f borne sur R.
Preuve. Daprs la dnition 1.2, il nous faut vrier que pour toute fonction continue
borne g : R R, Eg(f(Y
n
)) tend vers Eg(f(Y )) quand n tend vers +. Or la fonction
g f est continue sur R par composition et borne sur R par sup
tR
[g(t)[. On sait par
hypothse que Eh(Y
n
) converge vers Eh(Y ) pour toute h continue borne sur R. En
appliquant ceci avec h = g f, on obtient la conclusion souhaite.
La preuve ci-dessus se gnralise immdiatement aux vecteurs alatoires.
Proposition 1.7 (convergence en loi de vecteurs par image continue). Si les Y
n
et Y
sont des vecteurs alatoires de R
d
tels que Y
n
converge en loi vers Y , alors pour toute f
continue R
d
R
j
, f(Y
n
) converge en loi vers f(Y ) dans R
j
.
Le diagramme des convergences de la gure 1.1 indique que la convergence en loi
est la plus faible des convergences de suites de variables alatoires. Cette armation se
justie par le rsultat suivant.
Proposition 1.8. La convergence en probabilit implique la convergence en loi : si les Y
n
(n 1) et Y sont des variables alatoires rel les dnies sur le mme espace probabilis
(, F, P) telles que Y
n
converge en probabilit vers Y , alors Y
n
converge aussi en loi
vers Y .
Nous allons prouver la proposition en utilisant la dnition 1.2, cette mthode ayant
lavantage de se gnraliser immdiatement au cas des vecteurs alatoires
4
de R
d
. Nous
aurons besoin du lemme lmentaire danalyse suivant.
Lemme 1.9 (convergence par sous-sous-suites). La suite de rels (u
n
)
n1
converge vers
le rel si de toute sous-suite de (u
n
)
n1
on peut extraire une nouvelle sous-suite con-
vergeant vers .
4. La convergence en probabilit de Y
n
vers Y dans R
d
se dnit comme en dimension 1, mais en
remplaant [Y
n
Y [ par |Y
n
Y | aprs le choix dune norme dans R
d
. Peu importe laquelle, puisquen
dimension nie elles sont toutes quivalentes.
8 Ch. Suquet, Cours I.S. 2010
1.1. Convergence en loi
p.s. Pr. en loi
L
p
(1 p < r < +)
L
r
- -
?
?

Figure 1.1 Diagramme des convergences des suites de v.a.


Preuve. Par confort typographique, nous noterons une sous-suite de (u
n
)
nN
comme
une suite (u
n
)
nA
, o A est une partie innie de N

. Une sous-suite de (u
n
)
nA
scrira
alors (u
n
)
nB
, pour une partie innie B de A. La convergence de cette sous-suite sera
note :
u
n

nB, n+
.
Lhypothse du lemme scrit donc
A inni N

, B inni A, u
n

nB, n+
. (1.9)
Supposons que (u
n
)
nN
ne converge pas vers . Il existe alors un > 0 tel que
j N

, n j, [u
n
[ . (1.10)
Autrement dit, il existe une innit dentiers n tels que [u
n
[ . Notons A lensemble
de ces entiers. Par lhypothse (1.9), il existe une partie innie B de cet ensemble A telle
que la sous-suite (u
n
)
nB
converge vers . On peut alors trouver n B assez grand pour
que [u
n
[ < . Mais comme cet n est aussi dans A, on aboutit une contradiction.
On peut donc conclure la convergence de (u
n
)
nN
vers .
Preuve de la proposition 1.8. Par hypothse, Y
n
converge en probabilit vers Y . Soit
h : R R continue borne quelconque, il sagit de prouver que Eh(Y
n
) converge vers
Eh(Y ). Nous allons utiliser pour cela le lemme 1.9 avec u
n
= Eh(Y
n
) et = Eh(Y ).
Comme h est borne, il existe un rel b > 0 tel que h(x) [b, b] pour tout x R. On
en dduit lingalit entre variables alatoires b h(Y
n
) b. Soit A une partie innie
quelconque de N

. Puisque (Y
n
)
nA
converge en probabilit vers Y , on peut en extraire
une sous-suite (Y
n
)
nB
qui converge p.s. vers Y . Par continuit de h, on en dduit que
h(Y
n
)
p.s.

nB, n+
h(Y ).
Ch. Suquet, Cours I.S. 2010 9
Chapitre 1. Thorme limite central
Comme [h(Y
n
)[ b, on en dduit par le thorme de convergence domine, la v.a.
constante b tant videmment intgrable, que
Eh(Y
n
)
nB, n+
Eh(Y ).
Comme Atait quelconque, on conclut par le lemme 1.9 que cest toute la suite (Eh(Y
n
))
nN

qui converge vers Eh(Y ). Ceci tant vrai pour toute fonction continue borne h, la propo-
sition 1.8 est dmontre.
1.2 Normalit asymptotique
1.2.1 Sommes de variables alatoires i.i.d.
Thorme 1.10 (thorme limite central, cas i.i.d.). Soit (X
k
)
k1
une suite de variables
alatoires dnies sur le mme espace probabilis (, F, P), indpendantes, de mme loi
et de carr intgrable (et non p.s. constantes). Notons := EX
1
,
2
:= Var X
1
avec
> 0 et S
n
=

n
k=1
X
k
. Alors
S

n
:=
S
n
ES
n

Var S
n
=
S
n
n

n
loi

n+
Z, (1.11)
o Z est une variable de loi gaussienne N(0, 1).
Il est possible dnoncer ce thorme de manire plus lmentaire, sans parler de
convergence en loi, ni mme de loi gaussienne. En exploitant la continuit sur R de la
f.d.r. de la loi N(0, 1) et la dnition 1.1 de la convergence en loi, on voit en eet
quune formulation quivalente de la conclusion (1.11) du thorme est :
x R, P(S

n
x)
n+
(x) :=
1

2
_
x

exp
_
t
2
2
_
dt. (1.12)
Une consquence pratique de (1.12) est
a < b R, P
_
S

n
I(a, b)
_

n+
(b) (a) =
1

2
_
b
a
exp
_
t
2
2
_
dt, (1.13)
o I(a, b) est nimporte lequel des quatre intervalles dextrmits a et b. Noter que sous
cette forme on pourrait noncer une version du thorme limite central comprhensible
par un public ne connaissant que la notion dintgrale de Riemann ordinaire
5
.
Corollaire 1.11 (thorme de de Moivre-Laplace). Si S
n
est une variable alatoire de
loi binomiale de paramtres n et p ]0, 1[, on a avec q := 1 p,
S

n
:=
S
n
np

npq
=

n
pq
_
S
n
n
p
_
loi

n+
Z,
o Z est une variable de loi gaussienne N(0, 1).
5. Typiquement un lve de terminale. On peut mme laisser tomber la forme intgrale de la limite
dans (1.13) en se contentant de dire que est une fonction croissante continue que lon a tabule.
10 Ch. Suquet, Cours I.S. 2010
1.2. Normalit asymptotique
Preuve. Cest une consquence immdiate du thorme 1.10 en remarquant que S
n
a
mme loi
6
que X
1
+ + X
n
, o les X
k
sont des variables alatoires de Bernoulli
indpendantes et de mme paramtre p et en rappelant que lesprance et la variance
de la loi Bin(n, p) sont respectivement np et npq.
La dmonstration historique du thorme de de Moivre-Laplace repose sur un bon
contrle des coecients binomiaux via la formule de Stirling. Lintrt de cette approche
lmentaire est de donner une ide de la vitesse de convergence qui est en O(n
1/2
),
voir ICP
7
chapitre 7.
Nous admettrons le thorme 1.10 dont la dmonstration nest pas au programme
(les lecteurs curieux ou avancs pourront consulter la section 1.4). Ce thorme a
de multiples applications, notamment en statistique. ce stade, on peut souligner deux
ides.
Dabord, on peut noter que le comportement asymptotique en loi de S

n
ne dpend
pas de la loi de X
1
. La seule condition pour que la loi de S

n
soit approximativement
gaussienne pour les grandes valeurs de n est que X
1
soit de carr intgrable. Ceci donne
un caractre universel aux lois gaussiennes et explique la frquence de lutilisation de
ces lois en modlisation
8
. On peut dire que le comportement asymptotique en loi de
sommes S

n
et donc aussi de S
n
oublie tout de la loi des X
i
, sauf le paramtre de
localisation = EX
1
et le paramtre de dispersion
2
= Var X
1
. Cest lune des raisons
de limportance donne ces deux paramtres en thorie des probabilits.
La deuxime ide importante est que le thorme limite central donne une ide de la
vitesse de convergence dans la loi des grands nombres. Grosso modo, on peut dire que
dans le bon cas o EX
2
1
< +, cette vitesse est en O(n
1/2
). Prcisons le sens de cette
armation. Par (1.13) appliqu avec a = t, b = t, t > 0, on obtient :
lim
n+
P
_
S

n
[t, t]
_
= (t) (t) = 2(t) 1, (1.14)
en utilisant la relation (t) = 1 (t) due la parit de la densit de N(0, 1). En
remarquant maintenant que
S

n
=
S
n
nEX
1

n
=

_
S
n
n
EX
1
_
, (1.15)
on peut rcrire (1.14) sous la forme
P
_

S
n
n
EX
1

n
_
= 2(t) 1 +
n
, (1.16)
6. Il est clair daprs la dnition de la convergence en loi que si Y
n
converge en loi vers Y et si pour
chaque n, Y

n
a mme loi que Y
n
, Y

n
converge aussi en loi vers Y .
7. Nous dsignons par ICP le document Introduction au Calcul des Probabilits, Ch. Suquet,
polycopi de deuxime anne, Universit des Sciences et Technologies de Lille.
http://math.univ-lille1.fr/~ipeis/cours_ipeis.html
8. Dautant plus quil existe de nombreuses gnralisations du thorme limite central, avec des
v.a. indpendantes mais de lois direntes, avec des vecteurs alatoires, avec des v.a. faiblement
dpendantes . . .
Ch. Suquet, Cours I.S. 2010 11
Chapitre 1. Thorme limite central
o
n
est une suite de rels (pas forcment positifs), convergente vers 0. Pour tout > 0,
on peut choisir un t = t() assez grand pour que 2(t) 1 > 1 /2 car 2(t) 1 tend
vers 1 quand t tend vers +. Ensuite pour n n
0
(), on aura [
n
[ < /2 et nalement
> 0, t(), n(), n n(), P
_

S
n
n
EX
1


t()

n
_
> 1 . (1.17)
Cest au sens de (1.17) que lon peut dire que S
n
/n converge vers EX
1
avec une vitesse
en O(n
1/2
). On peut rsumer (1.17) par lcriture [n
1
S
n
EX
1
[ = O
P
(n
1/2
), dont le
deuxime membre se lit grand O en probabilit de n
1/2
.
Dans lutilisation pratique du thorme 1.10, on travaille souvent avec n grand x
et on approxime la loi de S

n
par la loi N(0, 1), ou ce qui revient au mme, on approxime
la loi de S
n
par la loi gaussienne N(nEX
1
,

n) de mme esprance et mme variance


que S
n
. Plus prcisment, en notant que g
n
: x
xnEX
1

n
est une bijection croissante de
R sur R et en posant pour a < b rels,
a
n
= g
n
(a) =
a nEX
1

n
, b
n
= g
n
(b) =
b nEX
1

n
,
on a
P(a S
n
b) = P(a
n
S

n
b
n
) = (b
n
) (a
n
) +
n
. (1.18)
On nglige alors le terme derreur
n
et on termine le calcul en utilisant la table des
valeurs de .
1.2.2 Vitesse de convergence dans le TLC
La question qui se pose dans le calcul prcdent est que signie n grand ? , ou
encore comment peut-on contrler lerreur
n
? , autrement dit, quelle est la vitesse
de convergence vers 0 de
n
? La rponse est que dans le bon cas o X
1
a un moment
dordre 3, la vitesse de convergence dans le thorme limite central est en O(n
1/2
).
Thorme 1.12 (Berry-Essen, 194142). Soit (X
i
)
i1
une suite de variables alatoires
i.i.d. telle que E[X
i
[
3
< +. On note
2
:= Var X
1
,
3
:= E[X
1
EX
1
[
3
, avec > 0 et
> 0. Il existe alors une constante universel le C > 0 telle que pour tout n 1,

n
:= sup
xR

P(S

n
x) (x)

3
1

n
.
Lobtention de la meilleure constante C a t lobjet dune longue qute. La valeur
initiale de Essen tait C = 7, 59. Une valeur plus moderne et proche de loptimale est
C = 0, 7975 (Van Beek (1972)).
Il est intressant de regarder ce que donne le thorme de Berry-Essen pour le cas
de de Moivre-Laplace, donc avec des X
i
suivant la loi de Bernoulli de paramtre p. On
trouve alors (vriez !)

n
C
p
2
+q
2

pq
1

n
, q := 1 p.
12 Ch. Suquet, Cours I.S. 2010
1.2. Normalit asymptotique
On a en fait des rsultats plus prcis de Uspensky concernant ce cas particulier, cf. [ICP,
Chap. 7].
Voici un exemple tout fait lmentaire permettant de comprendre quil ny a pas
lieu desprer une vitesse de convergence meilleure que O(n
1/2
) pour
n
. Prenons X
1
de loi de Bernoulli de paramtre 1/2. On a alors
S
2n
Bin(2n,
1
2
), ES
2n
= 2n
1
2
= n.
On cherche un quivalent de P(S

2n
0) (0). Remarquons dabord que
S

2n
< 0 = 0 S
2n
< n et S

2n
> 0 = n < S
2n
2n.
En raison de la symtrie des coecients binomiaux (C
k
2n
= C
2nk
2n
),
P(S

2n
< 0) =
n1

k=0
C
k
2n
2
2n
=
2n

j=n+1
C
j
2n
2
2n
= P(S

2n
> 0).
On a ainsi 2P(S

2n
< 0) + P(S

2n
= 0) = 1 do lon tire P(S

2n
< 0) =
1
2

1
2
P(S

2n
= 0)
et P(S

2n
0) =
1
2
+
1
2
P(S

2n
= 0). En rappelant que (0) =
1
2
, on aboutit
P(S

2n
0) (0) =
1
2
P(S

2n
= 0) =
1
2
P(S
2n
= n) = C
n
2n
2
2n1
.
Par la formule de Stirling (n!

2n
n+1/2
e
n
), on obtient lquivalent
P(S

2n
0) (0)
1

2
1

2n
.
Comme (2)
1/2
> 0, 3989, on a pour n n
0
, [P(S

2n
0) (0)[ 0, 398(2n)
1/2
,
minorant comparer avec le majorant uniforme
2n
0, 798(2n)
1/2
fourni dans ce cas
par le thorme de Berry-Essen
9
.
Revenons la situation gnrale du thorme 1.12. Que se passe-t-il dans la zone
intermdiaire o le thorme limite central est vri parce que X
1
a un moment dordre
2, mais X
1
na pas de moment dordre 3 ? On a toujours une vitesse de convergence,
pourvu que lintgrabilit de X
1
soit un peu plus forte que la seule existence dun moment
dordre 2. Le rsultat prcis est le suivant.
Thorme 1.13 (Katz 1963, Petrov 1965). Soit (X
i
)
i1
une suite de variables alatoires
i.i.d. telle que EX
1
= 0, E
_
X
2
1
g(X
1
)
_
< +, o g est une fonction positive, paire,
croissante sur ]0, +[ et telle que x/g(x) soit croissante sur ]0, +[. Il existe alors une
constante universelle A > 0 telle que pour tout n 1,

n
:= sup
xR

P(S

n
x) (x)

A
E
_
X
2
1
g(X
1
)
_

2
g(

n)
.
9. Signalons cependant que dans le cas de la loi de Bernoulli de paramtre p = 1/2, il est possi-
ble dobtenir une vitesse de convergence en O(n
1
) pour une variante de la distance
n
obtenue en
appliquant la correction de continuit, voir [ICP, chap. 7].
Ch. Suquet, Cours I.S. 2010 13
Chapitre 1. Thorme limite central
En particulier si E[X
1
[
2+
< + pour un ]0, 1],

n
A
E[X
1
[
2+

2+
1
n
/2
.
1.2.3 Intervalle de conance pour une probabilit inconnue
Voyons maintenant une premire application statistique du thorme limite central
lestimation dune probabilit inconnue p partir de lobservation dun chantil lon
de n variables de Bernoulli indpendantes de paramtre p. Par exemple on se trouve
en prsence dune urne dont on sait seulement quelle contient des boules rouges et
des vertes, la proportion de chaque couleur tant inconnue. On cherche estimer la
proportion p de boules rouges en eectuant n tirages avec remise et en notant chaque
tirage si la couleur de la boule est rouge ou non. On pose alors X
i
= 1 si le i
e
tirage
donne une boule rouge et X
i
= 0 sinon. S
n
= X
1
+ + X
n
est le nombre alatoire de
boules rouges sorties en n tirages et S
n
/n la frquence observe de sortie dune boule
rouge. Cette situation est comparable un sondage avant le deuxime tour dune lection
opposant deux candidats A et B. On interroge n personnes et on pose X
i
= 1 si la i
e
personne interroge annonce son intention de voter pour A. Ici S
n
/n est la frquence
des intentions de votes pour A dans lchantillon des sonds. La proportion p dlecteurs
ayant lintention de voter A dans la population totale est inconnue avant llection et
cest elle que lon cherche estimer
10
.
Nous allons voir comment le thorme de de Moivre-Laplace permet de construire
des intervalles de conance pour p (ce que les medias appellent la fourchette des
instituts de sondage). Considrons pour t > 0 lvnement
A
n,t
:=
_
; t

n
pq
_
S
n
()
n
p
_
t
_
.
Le thorme de de Moivre-Laplace nous dit que pour n assez grand, on peut utiliser
lapproximation :
P
_
A
n,t
_
(t) (t) = 2(t) 1.
Ceci peut se rcrire
P
_
S
n
n
t
_
pq
n
p
S
n
n
+t
_
pq
n
_
= 2(t) 1 +
n
.
On ignore la valeur de p, donc a fortiori celle de

pq. Heureusement, il est possible de
la majorer car p(1 p) est maximal pour p = 1/2. Do

pq

1
4
=
1
2
, (1.19)
10. En toute rigueur, les 2 modles ne sont pas quivalents car dans lchantillon des sonds, on
ninterroge jamais deux fois la mme personne tandis que lors des tirages avec remise, la mme boule peut
sortir plus dune fois. Nanmoins en raison du thorme de convergence de la loi hypergomtrique vers
la loi binomiale, on considre gnralement que le modle durne ci-dessus est une bonne reprsentation
du sondage.
14 Ch. Suquet, Cours I.S. 2010
1.2. Normalit asymptotique
de sorte quen notant
B
n,t
:=
_
;
S
n
()
n

t
2

n
p
S
n
()
n
+
t
2

n
_
,
linclusion A
n,t
B
n,t
nous donne :
P
_
B
n,t
_
2(t) 1 +
n
. (1.20)
En pratique, n est x et on a observ des valeurs numriques explicites x
1
, . . . , x
n
que lon interprte comme les valeurs de X
1
(), . . . , X
n
() pour un mme tir au
sort (suivant P). On est donc en prsence dune valeur numrique explicite, S
n
()/n =
(x
1
+ +x
n
)/n, disons pour xer les ides S
n
()/n = 0, 53. Proposer pour le paramtre
inconnu p lintervalle de conance
I
n,t
=
_
0, 53
t
2

n
; 0, 53 +
t
2

n
_
,
cest faire le pari que le observ est bien dans B
n,t
. La probabilit de gagner ce pari
est minore par 2(t) 1 +
n
. On dit que I
n,t
est un intervalle de conance pour p
avec un niveau
11
dau moins 2(t) 1 +
n
. En pratique, on laisse tomber le
n
et on
dtermine t de faon approche grce la tabulation de . Par exemple pour un niveau
de conance de 95%, on est ramen la rsolution de lquation (t) = 1, 95/2 = 0, 975
do t 1, 96, ce qui nous donne lintervalle
I
n
=
_
S
n
()
n

1, 96
2

n
;
S
n
()
n
+
1, 96
2

n
_
, au niveau de conance 95%.
En fait les statisticiens prfrent une variante de cette mthode pour obtenir des
intervalles de conance plus troits, notamment quand p nest pas trop proche de 1/2.
Lide est de remplacer la variance inconnue pq de X
1
par un estimateur au lieu de la
majorer de faon certaine par (1.19). Ainsi en estimant pq par M
n
(1 M
n
) o M
n
:=
S
n
/n, on obtient au niveau de conance 95% lintervalle
J
n
=
_
M
n
() 1, 96

M
n
()(1 M
n
())
n
; M
n
() + 1, 96

M
n
()(1 M
n
())
n
_
.
Cette deuxime mthode sera justie ultrieurement (voir lexemple 3.20, p. 99).
11. Il y a ici un pige smantique : supposons quon ait trouv I
n,t
= [0, 51; 0, 55] avec un niveau de
conance de 95%. Il est tout fait incorrect dcrire P(p [0, 51; 0, 55]) 0, 95 . En eet, p na
rien dalatoire, cest une constante. Lalatoire concerne notre ignorance sur sa valeur. Mme si on
considre p comme une variable alatoire constante, la probabilit de son appartenance [0, 51; 0, 55]
vaut 0 ou 1, et comme on ne peut pas exclure le premier cas, on ne peut pas minorer cette probabilit
par 0, 95.
Ch. Suquet, Cours I.S. 2010 15
Chapitre 1. Thorme limite central
1.2.4 Gnralisation du TLC
Le thorme limite central a un domaine de validit bien plus vaste que celui des
suites de variables i.i.d. de carr intgrable. Nous allons en voir deux gnralisations.
Mais auparavant signalons que dans le cas des v.a. i.i.d., le thorme 1.10 est optimal :
la convergence en loi de S

n
quivaut la condition EX
2
1
< + (noter lanalogie avec la
LFGN dans le cas i.i.d. o la convergence presque-sre de S
n
/n quivaut la condition
E[X
1
[ < +). On peut en eet dmontrer le rsultat suivant.
Thorme 1.14. Soit (X
i
)
i1
une suite de variables alatoires i.i.d. dnies sur le mme
espace probabilis et telle que S
n
/

n converge en loi vers N(0, 1). Alors X


1
est de carr
intgrable, EX
2
1
= 1 et EX
1
= 0.
Ce thorme contient essentiellement la rciproque du thorme 1.10. Plus prcis-
ment on en dduit que sil existe R et > 0 constantes
12
telles que n
1/2
(S
n
n)
converge en loi vers
13
une v.a. Z de loi N(0, 1), alors EX
2
1
< +, EX
1
= et
Var X
1
=
2
. En eet, il sut dappliquer le thorme 1.14 aux variables alatoires
X

i
= (X
i
)/.
Passons aux gnralisations du TLC. Au vu du thorme 1.14, on pressent
14
que
si on laisse tomber lhypothse dquidistribution des X
i
(i.e. lhypothse quelles ont
mme loi), on risque fort de le payer plus cher en termes dintgrabilit des X
i
, donc de
devoir supposer que les X
i
ont des moments dordre suprieur 2. Cest exactement ce
qui se passe avec la premire gnralisation du cas i.i.d., le thorme de Liapounov.
Thorme 1.15 (Liapounov). Soit (X
k
)
k1
une suite de variables alatoires dnies sur
le mme espace probabilis, indpendantes (mais pas forcment de mme loi), centres,
ayant toutes un moment dordre 2+ (pour une certaine constante > 0). On note s
2
n
:=
Var(S
n
) et on suppose s
n
> 0. On suppose de plus vrie la condition de Liapounov :
1
s
2+
n
n

k=1
E[X
k
[
2+

n+
0. (1.21)
Alors S
n
/s
n
converge en loi vers Z de loi N(0, 1).
Bien entendu, ce thorme nest nonc avec des variables centres que pour allger
les notations. Si les X
k
ne sont pas centres, on se ramne des variables centres en
appliquant le thorme aux X

k
:= X
k
EX
k
, ce qui donne la convergence en loi vers Z
de (S
n
ES
n
)/s
n
.
En fait, on peut se passer de lhypothse dexistence de moments dordre stricte-
ment suprieur 2, mais au prix dune hypothse qui peut sembler de prime abord
un peu articielle, la condition de Lindeberg. Les courageux et les curieux dsireux de
12. Bien sr sans supposer a priori que ces constantes ont un lien avec dventuels moments de X
1
!
13. En fait, on peut mme se passer de lhypothse que la loi limite est gaussienne.
14. O.K., l jexagre un peu et cette remarque a lair un peu trop subjective. Mais si vous avez la
curiosit daller regarder la preuve du thorme 1.14, vous verrez que lhypothse dquidistribution des
X
i
y joue un rle important.
16 Ch. Suquet, Cours I.S. 2010
1.2. Normalit asymptotique
comprendre sa provenance sont invits lire la section 1.4. Le rsultat suivant peut tre
considr comme la gnralisation optimale du TLC dans le cas de variables alatoires
indpendantes non quidistribues.
Thorme 1.16 (Lindeberg). Considrons le tableau triangulaire de variables ala-
toires de ligne numro n (n N

) :
X
n,1
, . . . , X
n,i
, . . . , X
n,k
n
,
o ces k
n
variables sont dnies sur le mme (
n
, T
n
, P
n
), indpendantes, centres, de
carr intgrable. On note
S
n
:=
k
n

i=1
X
n,i
,
2
n,i
:= Var X
n,i
, s
2
n
:= Var S
n
=
k
n

i=1

2
n,i
.
On suppose s
n
> 0 pour tout n. Si de plus le tableau vrie la condition de Lindeberg :
> 0,
1
s
2
n
k
n

i=1
E
_
X
2
n,i
1
{|X
n,i
|>s
n
}
_

n+
0, (1.22)
alors S
n
/s
n
converge en loi vers une v.a. Z de loi N(0, 1).
On peut montrer que la condition de Lindeberg implique que lim
n+
k
n
= +,
ce qui explique que lon sabstienne de mentionner que k
n
tend vers linni dans les
hypothses. Lappelation tableau triangulaire est un abus de langage commode, la
forme triangulaire napparaissant rellement que dans le cas particulier o k
n
= cn.
Remarquons quavec un tableau triangulaire, toutes les v.a. termes de la somme S
n
peuvent changer quand on passe de S
n
S
n+1
, cest pour cela quil nest pas ncessaire
de supposer que des variables situes sur des lignes direntes du tableau sont dnies
sur le mme espace probabilis. Lesprance utilise dans la formule (1.22) est dnie
relativement la mesure de probabilit P
n
, il serait plus correct de la noter E
n
au lieu
de E. Pour toute v.a. Y positive dnie sur (
n
, T
n
, P
n
), E
n
Y :=
_
+
0
P
n
(Y > t) dt, etc.
Nous allons vrier titre dexercice que le thorme de Lindeberg contient la fois
le TLC cas i.i.d. (th. 1.10) et le thorme de Liapounov.
Commenons par le cas dune suite (X
i
)
i1
, de variables alatoires i.i.d. de carr
intgrable. Considrons le tableau triangulaire dont la ligne n est forme des k
n
= n
variables alatoires X
1
, X
2
, . . . , X
n
(i.e. X
n,i
= X
i
) dnies sur (
n
, F
n
, P
n
) = (, F, P).
Ces variables tant indpendantes et de mme loi, s
2
n
= n
2
et les X
2
n,i
1
{|X
n,i
|>s
n
}
ont
mme loi. Par consquent, la quantit cense tendre vers 0 dans la condition de Lindeberg
scrit pour tout > 0,
1
s
2
n
k
n

i=1
E
_
X
2
n,i
1
{|X
n,i
|>s
n
}
_
=
1
n
2
nE
_
X
2
1
1
{|X
1
|>n
1/2
}
_
=
1

2
E
_
X
2
1
1
{|X
1
|>n
1/2
}
_
.
La convergence vers 0 de cette dernire expression quand n tend vers + dcoule de
lhypothse E(X
2
1
) < + via le thorme de convergence domine (exercice). De faon
Ch. Suquet, Cours I.S. 2010 17
Chapitre 1. Thorme limite central
plus lmentaire, on peut aussi remarquer que si u
n
est une suite de rels positifs tendant
vers + et Y une v.a. positive
E
_
Y 1
{Y >u
n
}
_
=
_
+
0
P(Y 1
{Y >u
n
}
> t) dt

= u
n
P(Y > u
n
) +
_
+
u
n
P(Y > t) dt.
Si Y est intgrable, cette dernire expression
15
tend vers 0 quand n tend vers + en
raison de la convergence de lintgrale gnralise
_
+
0
P(Y > t) dt et par application
de lingalit de Markov rane Y , cf. cours dI.P.. Ensuite on prend Y = X
2
1
et
u
n
= n
2

2
en notant que X
2
1
> u
n
= [X
1
[ > u
1/2
n
. Nous avons donc bien vri que
le thorme de Lindeberg implique le thorme 1.10.
Considrons maintenant le cas dune suite (X
i
)
i1
, de variables alatoires indpen-
dantes, desprance nulle et vrifant pour une certaine constante > 0, E[X
i
[
2+
< +
pour tout i 1. Supposons de plus vrie la condition de Liapounov (1.21). Nous allons
voir que lon peut alors appliquer le thorme de Lindeberg au tableau triangulaire o
k
n
= n, la ligne n tant forme des variables alatoires X
1
, X
2
, . . . , X
n
(i.e. X
n,i
= X
i
)
dnies sur (
n
, F
n
, P
n
) = (, F, P). En notant que sur lvnement [X
i
[ s
n
on a
[X
i
[

/(s
n
)

1, la majoration
E
_
X
2
i
1
{|X
i
|s
n
}
_
E
_
X
2
i
_
[X
i
[
s
n
_

1
{|X
i
|s
n
}
_

1

n
E[X
k
[
2+
,
nous montre que la condition de Lindeberg est vrie via lingalit
1
s
2
n
n

i=1
E
_
X
2
i
1
{|X
i
|>s
n
}
_

1

s
2+
n
n

k=1
E[X
k
[
2+
.
En conclusion, S
n
/s
n
converge en loi vers N(0, 1) et nous avons ainsi vri que le
thorme de Lindeberg implique celui de Liapounov.
1.3 Thorme limite central vectoriel
Il est courant en statistique dobserver des donnes de nature vectorielle. On a souvent
recours dans ce contexte des approximations gaussiennes dont la justication math-
matique repose sur un thorme limite central vectoriel. Avant de prsenter la version
du TLC pour des suites i.i.d. de vecteurs alatoires, il convient dapporter quelques pr-
cisions sur les vecteurs alatoires de carr intgrable et les vecteurs alatoires gaussiens.
1.3.1 Esprance et covariance dun vecteur alatoire
En dimension 1, lesprance et la variance dune variable alatoire, lorsquelles exis-
tent, permettent de se faire une ide de la localisation de la loi et de sa dispersion. Elles
jouent un rle important notamment dans le thorme limite central, cf. page 11. Nous
allons tendre ces notions au cas des vecteurs alatoires.
15. vous de justier soigneusement lgalit toile.
18 Ch. Suquet, Cours I.S. 2010
1.3. Thorme limite central vectoriel
Dnition 1.17 (esprance dun vecteur alatoire). Soit X = (X
1
, . . . , X
d
) un vecteur
alatoire de R
d
. On dit quil est intgrable si la variable alatoire positive |X| est in-
tgrable (E|X| < +), ce qui quivaut lintgrabilit de chacune des composantes
(i = 1, . . . , d, E[X
i
[ < +). Dans ce cas on appel le esprance de X ou vecteur de-
sprances de X le vecteur
EX := (EX
1
, . . . , EX
d
). (1.23)
Cest dlibrment que nous navons pas prcis le choix de la norme dans cette
dnition. En eet toutes les normes sur R
d
sont quivalentes. Si donc | | est une norme
sur R
d
elle est quivalente en particulier la norme | |
1
dnie par |x|
1
:= [x
1
[+ +[x
d
[.
On en dduit lexistence de deux constantes a et b strictement positives telles que
a
_
[X
1
[ + +[X
d
[
_
|X| b
_
[X
1
[ + +[X
d
[
_
. (1.24)
De la premire ingalit on tire [X
i
[ a
1
|X|, ce qui montre que lintgrabilit de |X|
implique celle de chaque X
i
. De la seconde ingalit on dduit que si les v.a. X
i
sont
toutes intgrables, les [X
i
[ le sont aussi, ainsi que leur somme nie indexe par i, do
lintgrabilit de |X|. Nous venons de vrier que lintgrabilit de |X| quivaut celle
de toutes les X
i
, ce qui montre aussi que lintgrabilit de X ne dpend pas du choix de
la norme.
Une proprit importante de lesprance des v.a. est la linarit. Sa gnralisation
aux vecteurs alatoires est immdiate : si X et Y sont des vecteurs alatoires intgrables
de R
d
, a et b des scalaires quelconques, le vecteur alatoire aX + bY est intgrable
et E(aX + bY ) = aEX + bEY . Pour le vrier, il sut dappliquer composante par
composante, la linarit de lesprance des variables alatoires relles.
Le rsultat suivant nous dit grosso modo que lesprance commute avec les applica-
tions linaires.
Proposition 1.18 (esprance et applications linaires). Soit X = (X
1
, . . . , X
d
) un
vecteur alatoire intgrable de R
d
.
a) Pour toute forme linaire u : R
d
R, la v.a. rel le u(X) est intgrable et
Eu(X) = u(EX). (1.25)
b) EX est le seul vecteur z de R
d
vriant Eu(X) = u(z) pour toute forme linaire u
sur R
d
.
c) Si A : R
d
R
j
, x A(x) est une application linaire, le vecteur alatoire AX de
R
j
est intgrable et
EA(X) = A(EX). (1.26)
Preuve. Soit u : R
d
R, x a
1
x
1
+ + a
d
x
d
une forme linaire quelconque. Lin-
tgrabilit de la v.a. u(X) rsulte immdiatement
16
de lintgrabilit des X
i
puisque
[u(X)[ [a
1
[[X
1
[ + +[a
d
[[X
d
[. Par linarit de lesprance des v.a. relles, on a
Eu(X) = E(a
1
X
1
+ +a
d
X
d
) = a
1
EX
1
+ +a
d
EX
d
= u(EX),
16. On pourrait aussi remarquer que [u(X)[ |u| |X|, do E[u(X)[ |u|E|X| < +.
Ch. Suquet, Cours I.S. 2010 19
Chapitre 1. Thorme limite central
ce qui justie (1.25).
Daprs le a), il existe au moins un vecteur (non alatoire) z de R
d
tel que pour
toute u, Eu(X) = u(z), cest z = EX. Si z

R
d
a la mme proprit, ncessairement
u(z) = u(z

) pour toute forme linaire u sur R


d
. Ceci scrit encore u(z z

) = 0 pour
toute u, donc en particulier pour les d formes coordonnes (x
1
, . . . , x
d
) x
i
. Le vecteur
z z

a ainsi toutes ses coordonnes nulles, donc z z

= 0 et z = z

.
Soit A : R
d
R
j
, x A(x) une application linaire. On sait que
x R
d
, |A(x)| |A| |x|,
o |A| dsigne la norme oprateur de lapplication linaire A, dnie par
|A| := sup
x=1
|A(x)|
|x|
.
On en dduit immdiatement que si X est un vecteur alatoire intgrable de R
d
, le
vecteur alatoire Y = A(x) de R
j
est intgrable puisque
E|Y | = E|A(X)| E(|A| |X|) = |A| E|X| < +.
Ceci justie lexistence de EY . Soit maintenant v une forme linaire quelconque sur R
j
.
Daprs le a) appliqu avec R
j
et son dual, on a
v(EY ) = Ev(Y ) = Ev
_
A(x)
_
= Eu(X) avec u := v A.
Il est clair que u est une forme linaire sur R
d
, donc daprs le a) appliqu cette fois avec
R
d
Eu(X) = u(EX) = (v A)(EX) = v
_
A(EX)
_
.
Nous venons ainsi de vrier que pour toute forme linaire v sur R
j
, v(EY ) = v
_
A(EX)
_
.
On en dduit que EY = A(EX), ce qui tablit (1.26).
Dnition 1.19 (matrice de covariance). Soit X = (X
1
, . . . , X
d
) un vecteur alatoire
de carr intgrable, c..d. E|X|
2
< +. On appelle matrice de covariance de X la
matrice carre K de terme gnral
K
i,j
:= Cov(X
i
, X
j
), i, j = 1, . . . , d.
En utilisant (1.24) comme ci-dessus on a [X
i
[ a
1
|X| ce qui montre que les
composantes X
i
dun vecteur de carr intgrable sont des v.a. de carr intgrable. Ceci
justie lexistence des Cov(X
i
, X
j
). La connaissance de la matrice de covariance K de
X permet le calcul de Var u(X) pour toute forme linaire u sur R
d
.
Proposition 1.20. Soit X = (X
1
, . . . , X
d
) un vecteur alatoire de carr intgrable et
u : x = (x
1
, . . . , x
d
) a
1
x
1
+ + a
d
x
d
une forme linaire sur R
d
. Alors la v.a. rel le
u(X) est de carr intgrable et
Var u(X) =
d

i,j=1
a
i
a
j
Cov(X
i
, X
j
). (1.27)
20 Ch. Suquet, Cours I.S. 2010
1.3. Thorme limite central vectoriel
Preuve. Lingalit [u(X)[ |u| |X| nous donne E[u(X)[
2
|u|
2
E|X|
2
< +, donc
u(X) est de carr intgrable et sa variance est dnie. En appliquant la formule gnrale
pour la variance dune somme et la bilinarit de la covariance, cf. cours dI.P.., on
obtient :
Var u(X) = Var
_
d

i=1
a
i
X
i
_
=
d

i,j=1
Cov(a
i
X
i
, a
j
X
j
) =
d

i,j=1
a
i
a
j
Cov(X
i
, X
j
).
Pour ltude des vecteurs alatoires et de leur convergence en loi, les formes linaires
sur R
d
sont un outil trs pratique car elles permettent de se ramener la dimension 1.
Nous admettrons le rsultat suivant.
Proposition 1.21. Soient X et Y deux vecteurs alatoires de R
d
tels que pour toute
forme linaire u : R
d
R, les variables alatoires rel les u(X) et u(Y ) aient mme loi.
Alors les vecteurs alatoires X et Y ont mme loi.
Remarque 1.22. Attention lhypothse pour toute u , on ne peut pas laaiblir en
la remplaant par pour toute u dune base du dual de R
d
. Sinon en prenant les formes
coordonnes u : x = (x
1
, . . . , x
d
) x
i
, on en dduirait que si pour tout i = 1, . . . , d, X
i
a mme loi que Y
i
, alors les vecteurs X = (X
1
, . . . , X
d
) et Y = (Y
1
, . . . , Y
d
) ont mme
loi. Or on sait, cf. cours dI.P.., que ceci est faux.
1.3.2 Vecteurs alatoires gaussiens
Il est commode dlargir la famille des lois gaussiennes sur R en considrant quune
variable alatoire constante X = c, ou X = c p.s., suit la loi gaussienne de paramtres
m = c et = 0. Bien sr, cette loi est la mesure de Dirac au point c et na donc pas
de densit par rapport
1
. Avec cette convention, nous pouvons donner la dnition
suivante.
Dnition 1.23 (vecteur alatoire gaussien). On dit que le vecteur alatoire X =
(X
1
, . . . , X
d
) de R
d
est gaussien si pour toute forme linaire u sur R
d
, la variable ala-
toire rel le u(X) suit une loi gaussienne sur R, autrement dit si
(a
1
, . . . , a
d
) R
d
, a
1
X
1
+ +a
d
X
d
est une v.a. gaussienne. (1.28)
Remarque 1.24. En prenant pour formes linaires u les formes coordonnes x x
i
,
i = 1, . . . , d, on voit immdiatement que si X est un vecteur gaussien, ses composantes
X
1
, . . . , X
d
sont des variables alatoires gaussiennes
17
. La rciproque est fausse. Pour sen
convaincre, on pourra tudier en exercice lexemple suivant. On dnit X = (X
1
, X
2
) en
prenant X
1
gaussienne N(0, 1) et en posant X
2
:= X
1
1
{|X
1
|1}
X
1
1
{|X
1
|>1}
. On peut
alors vrier que
17. Au sens largi donn ci-dessus, certaines pouvant tre constantes p.s.
Ch. Suquet, Cours I.S. 2010 21
Chapitre 1. Thorme limite central
a) X
2
suit la loi N(0, 1) ( en distinguant les trois cas x < 1, 1 x 1 et x > 1,
vriez que P(X
2
x) = (x) = P(X
1
x)) ;
b) X
1
+X
2
ne suit pas une loi gaussienne, donc le vecteur (X
1
, X
2
) ne peut pas tre
gaussien.
Proposition 1.25 (paramtres dun vecteur gaussien). La loi dun vecteur alatoire
gaussien X = (X
1
, . . . , X
d
) est caractrise par son vecteur desprances
m = EX :=
_
EX
1
, . . . , EX
d
_
(1.29)
et sa matrice de covariance
K =
_
Cov(X
i
, X
j
)
_
1i,jd
. (1.30)
La loi de X sera note N(m, K).
Preuve. Soient deux vecteurs alatoires gaussiens X = (X
1
, . . . , X
d
) et Y = (Y
1
, . . . , Y
d
)
ayant mme vecteur desprances et mme matrice de covariance. Daprs (1.25) et
(1.27), pour toute forme linaire u sur R
d
, Eu(X) = u(EX) = u(EY ) = Eu(Y ) et
Var u(X) = Var u(Y ). Les deux variables alatoires rel les gaussiennes u(X) et u(Y )
ont donc mmes paramtres, donc mme loi N
_
Eu(X), Var
1/2
u(X)
_
. Ceci tant vrai
pour toute forme linaire u, on en dduit grce la proposition 1.21, que les vecteurs
alatoires X et Y ont mme loi. La loi dun vecteur gaussien X est donc bien caractrise
par les seuls paramtres EX et K.
Proposition 1.26 (famille des vecteurs gaussiens). La famil le des vecteurs alatoires
gaussiens de R
d
est stable par addition de vecteur constant, multiplication par un scalaire
constant et addition de vecteurs alatoires gaussiens indpendants. Limage dun vecteur
alatoire gaussien de R
d
par une application linaire R
d
R
j
est un vecteur gaussien
de R
j
.
Preuve. On vrie facilement que la famille des variables alatoires gaussiennes est stable
par transformations anes : si Z est gaussienne de loi N(m, ), aZ +b est gaussienne
18
de loi N(am +b, [a[).
Soit z = (z
1
, . . . , z
d
) un vecteur (non alatoire) de R
d
et X un vecteur alatoire
gaussien. Pour vrier que le vecteur alatoire Y := X + z est gaussien, on prend une
forme linaire quelconque u et on note que u(Y ) = u(X) + u(z) est la somme de la
variable alatoire gaussienne u(X) et de la constante relle u(z), cest donc une v.a.
gaussienne ayant mme variance que u(X) et desprance Eu(X) +u(z). Ainsi u(Y ) est
une v.a. gaussienne pour toute forme linaire u, donc Y est un vecteur gaussien. De
mme si c est une constante relle, cX est gaussien car u(cX) = cu(X) est une v.a.
gaussienne de loi N
_
cEu(X), c Var
1/2
u(X)
_
.
18. Dmontrez le en exercice de rvision du cours dI.P.., en cherchant une relation entre la f.d.r. de
Z et celle de aZ +b laide dun changement de variable dans lintgrale de la densit (cas a ,= 0 et Z
non constante). . .
22 Ch. Suquet, Cours I.S. 2010
1.3. Thorme limite central vectoriel
Soient X et Y deux vecteurs alatoires gaussiens de R
d
indpendants. Pour toute
forme linaire u sur R
d
, u(X + Y ) = u(X) + u(Y ) est la somme de deux variables
alatoires gaussiennes u(X) et u(Y ) qui ont hrit de lindpendance de X et Y . Or
on peut vrier, cf. lemme 1.28 ci-dessous, que la somme de deux variables alatoires
gaussiennes indpendantes est encore une v.a. gaussienne. Ainsi u(X + Y ) est une v.a.
gaussienne pour toute u, donc le vecteur X +Y est gaussien.
Enn si X est un vecteur gaussien de R
d
et F : R
d
R
j
est une application linaire,
Y = F(X) est un vecteur gaussien de R
j
car pour toute forme linaire v : R
j
R,
v(Y ) = (v F)(X) = u(X) avec u := v F forme linaire sur R
d
.
Corollaire 1.27. Si les variables alatoires rel les X
1
, . . . , X
d
sont indpendantes et
gaussiennes, alors le vecteur alatoire X = (X
1
, . . . , X
d
) est gaussien dans R
d
.
Preuve. On raisonne par rcurrence sur la dimension d de lespace. Dabord pour d = 2,
si X
1
et X
2
sont deux variables alatoires gaussiennes
19
indpendantes, elles engendrent
par tranformation linaire les vecteurs gaussiens (X
1
, 0) et (0, X
2
) de R
2
qui hritent de
leur indpendance. Par consquent leur somme ((X
1
, 0) + (0, X
2
) = (X
1
, X
2
) est encore
un vecteur gaussien de R
2
. Supposons maintenant le corollaire vrai pour R
j
pour tout
j = 2, . . . , d et montrons quil est encore vrai pour j = d + 1. En eet par transfor-
mations linaires, (X
1
, . . . , X
d
, 0) et (0, . . . , 0, X
d+1
) sont des vecteurs gaussiens de R
d+1
qui hritent de lindpendance de (X
1
, . . . , X
d
) et X
d+1
, par hrdit de lindpendance
pour des fonctions mesurables de blocs disjoints, cf. cours dI.P.. Donc leur somme
(X
1
, . . . , X
d
, X
d+1
) est un vecteur gaussien de R
d+1
.
Lemme 1.28. La somme de deux variables alatoires gaussiennes indpendantes est
encore une variable alatoire gaussienne.
Preuve. Soient Y
1
et Y
2
deux v.a. gaussiennes indpendantes de paramtres respectifs
(m
1
,
1
) et (m
2
,
2
). Si ces deux v.a. sont constantes,
1
=
2
= 0, leur somme est la
constante m
1
+m
2
donc est encore gaussienne. Si une seule des deux est constante, disons
Y
2
, on sait que Y
1
+ Y
2
= Y
1
+ m
2
est gaussienne de paramtres m
1
+ m
2
et
1
. Il nous
reste traiter le cas o
1
> 0 et
2
> 0. En posant X
1
:= Y
1
m
1
et X
2
:= Y
2
m
2
,
on obtient deux nouvelles v.a. gaussiennes indpendantes de loi respective N(0,
1
) et
N(0,
2
). Il sut de vrier que X
1
+X
2
est une v.a. gaussienne N(0, ) et on en dduira
que Y
1
+Y
2
a pour loi N(m
1
+m
2
, ).
Puisque
1
et
2
sont non nuls, X
1
et X
2
ont chacune une densit donne par :
f
i
(t) =
1

2
exp
_

t
2
2
2
i
_
, i = 1, 2.
On sait alors quen raison de lindpendance de X
1
et X
2
, la v.a. X
1
+ X
2
admet elle
aussi une densit g qui est la convolue f
1
f
2
dnie par g(t) =
_
+

f
1
(s)f
2
(t s) ds,
soit ici :
t R, g(t) =
1
2
1

2
_
+

exp
_

s
2
2
2
1

(t s)
2
2
2
2
_
ds. (1.31)
19. Une variable alatoire gaussienne peut tre vue comme un vecteur alatoire gaussien de dimen-
sion 1. Justiez cette armation.
Ch. Suquet, Cours I.S. 2010 23
Chapitre 1. Thorme limite central
Pour vrier que g est bien une densit gaussienne, nous allons transformer la forme
quadratique en s, t lintrieur de lexponentielle pour la mettre sous la forme
s
2
2
2
1
+
(t s)
2
2
2
2
= c
_
(s at)
2
+bt
2
_
.
Ensuite le changement de variable x = s at dans lintgrale (on intgre relativement
s, donc at joue le rle dune constante) nous permettra de sortir tout ce qui dpend
de t de lintgrale pour aboutir g(t) = c

exp(b

t
2
), lintgrale devenant alors une
constante absorbe dans le c

.
Passons aux dtails du calcul. Il est commode de poser
2
:=
2
1
+
2
2
et
i
:=
2
i
/
2
.
s
2
2
2
1
+
(t s)
2
2
2
2
=

2
2
s
2
+
2
1
(t s)
2
2
2
1

2
2
=

2
s
2
2
2
1
st +
2
1
t
2
2
2
1

2
2
=

2
2
2
1

2
2
_
s
2
2
1
st +
1
t
2
_
=

2
2
2
1

2
2
_
(s
1
t)
2
+ (
1

2
1
)t
2
_
=

2
2
2
1

2
2
(s
1
t)
2
+
t
2
2
2
,
en notant que
1
+
2
= 1, do
1

2
1
=
1

2
=
2
1

2
2

4
. En reportant ce calcul dans
(1.31), on a donc
g(t) =
1
2
1

2
exp
_

t
2
2
2
_
_
+

exp
_


2
2
2
1

2
2
(s
1
t)
2
_
ds.
Le changement de variable x = (
1

2
)
1
(s
1
t) dans cette intgrale gnralise nous
permet de nous ramener aprs simplications lintgrale de la densit gaussienne stan-
dard :
g(t) =
1

2
exp
_

t
2
2
2
_
_
+

2
exp
_

x
2
2
_
dx =
1

2
exp
_

t
2
2
2
_
.
On en dduit que X
1
+X
2
suit la loi gaussienne N(0, ) avec = (
2
1
+
2
2
)
1/2
.
Remarque 1.29. Jusqu prsent nous navions pas donn dexemple de vecteur gaussien
en dimension d > 1. Le corollaire 1.27 nous donne une premire famille dexemples, les
vecteurs gaussiens construits en prenant leurs composantes gaussiennes indpendantes.
En combinant ceci avec la proposition 1.26, on obtient une classe dexemples bien plus
large, celle des vecteurs alatoires Y qui peuvent scrire
Y = A(X) +b (1.32)
o X = (X
1
, . . . , X
d
) est gaussien composantes indpendantes, A est une application
linaire quelconque de R
d
dans R
d
et b = (b
1
, . . . , b
d
) un vecteur constant.
En fait tout vecteur gaussien de R
d
admet une reprsentation de la forme (1.32). Pour
une preuve, allez voir la mthode de simulation dun vecteur gaussien dans le chapitre 2
et compltez les dtails.
24 Ch. Suquet, Cours I.S. 2010
1.3. Thorme limite central vectoriel
1.3.3 TLC vectoriel
Nous admettons le rsultat suivant qui permet de ramener la convergence en loi
en dimension d de la convergence en loi en dimension 1. Dans la littrature anglo-
amricaine, ce rsultat est connu sous le sobriquet de Cramr-Wold device, ce que lon
pourrait traduire par truc de Cramr-Wold ou de faon moins irrvrencieuse, par
astuce de Cramr-Wold .
Lemme 1.30 (Cramr-Wold). La suite (Y
n
)
n1
de vecteurs alatoires dans R
d
converge
en loi dans R
d
vers le vecteur alatoire Y si et seulement si pour toute forme linaire
u : R
d
R, la suite de variables alatoires rel les
_
u(Y
n
)
_
n1
converge en loi dans R
vers u(Y ).
Thorme 1.31. Soit (X
k
) une suite de vecteurs alatoires de R
d
, indpendants, de
mme loi et de carr intgrable (i.e. E|X
1
|
2
< +) et S
n
:=

n
k=1
X
k
. Alors
S
n
ES
n

n
loi

n+
Z, (1.33)
o Z est gaussien de loi N(0, K), K tant la matrice de covariance de X
1
.
Malgr la ressemblance formelle de cet nonc avec celui du thorme 1.10, il nest
pas possible ici de modier la normalisation

n par

n pour avoir toujours la mme


loi limite N(0, I), o I est la matrice identit par rapport la base canonique de R
d
.
Preuve. Par le lemme de Cramr-Wold, il sut de vrier que pour toute forme linaire
u sur R
d
, u
_
n
1/2
(S
n
ES
n
)
_
converge en loi vers u(Z) o Z dsigne un vecteur alatoire
gaussien de loi N(0, K). Notons demble que Eu(Z) = u(EZ) = u(0) = 0 et Var u(Z) =
Var u(X
1
) puisque Z et X
1
ont mme matrice de covariance, cf. proposition 1.20.
Par linarit de u,
u
_
S
n
ES
n

n
_
=
1

n
n

k=1
_
u(X
k
) Eu(X
k
)
_
.
Les u(X
k
) sont des variables alatoires relles indpendantes, de mme loi, de carr
intgrable (E[u(X
1
)[
2
|u|
2
E|X
1
|
2
), on peut donc appliquer le thorme 1.10 qui
donne ici
u
_
S
n
ES
n

n
_
loi

n+
W,
o W dsigne nimporte quelle v.a. gaussienne de loi N
_
0, Var u(X
1
)
_
. Cette loi est celle
de u(Z), donc u
_
n
1/2
(S
n
ES
n
)
_
converge en loi vers u(Z).
Une application importante du thorme 1.31 est la convergence dune loi multino-
miale vers une loi gaussienne, ce qui en un certain sens, gnralise le thorme de de
Moivre Laplace.
Ch. Suquet, Cours I.S. 2010 25
Chapitre 1. Thorme limite central
Rappelons que la loi multinomiale sert modliser le total des rsultats observs pour
chaque type dans une suite dpreuves rptes indpendantes ayant chacune d types
de rsultats possibles. Par exemple si on lance 200 fois un d, on obtient un vecteur
de dimension 6 dont la i-me composante est le nombre total dapparitions de la face
numro i au cours des 200 lancers. Ce vecteur suit la loi multinomiale de paramtres 200
et (p
1
, p
2
, p
3
, p
4
, p
5
, p
6
), o les p
i
valent tous 1/6 si le d est quilibr. Plus formellement,
le vecteur alatoire N suit la loi multinomiale de paramtres n et p = (p
1
, . . . , p
d
) o
n N

et les p
i
sont strictement positifs et de somme 1, si pour tout d-uple (j
1
, j
2
, . . . , j
d
)
dentiers tels que j
1
+j
2
+ +j
d
= n,
P
_
N = (j
1
, j
2
, . . . , j
d
)
_
=
n!
j
1
!j
2
! . . . j
d
!
p
j
1
1
p
j
2
2
. . . p
j
d
d
et P
_
N = (j
1
, j
2
, . . . , j
d
)
_
= 0 si j
1
+j
2
+ +j
d
,= n.
Thorme 1.32. Si (N
n
)
n1
est une suite de vecteurs alatoires de R
d
de loi multino-
miale de paramtres n et p = (p
1
, . . . , p
d
),
1

n
(N
n
np)
loi

n+
Z de loi N(0, K), (1.34)
o K est la matrice de covariance de terme gnral
K
i,j
= p
i

i,j
p
i
p
j
, 1 i, j d.
Preuve. Le vecteur alatoire N
n
a mme loi que S
n
:=

n
k=1
X
k
, o les X
k
sont des
vecteurs alatoires de R
d
, indpendants et de mme loi donne par
P
_
X
k
= (0, . . . , 0, 1,

i
0, . . . , 0)
_
= p
i
, 1 i d.
Autrement dit, on se ramne un modle dpreuves rptes indpendantes et le vecteur
alatoire X
k
est un codage binaire du rsultat de la k
e
preuve. En notant X
k,i
la i
e
com-
posante de X
k
, on voit que cette variable alatoire suit la loi de Bernoulli de paramtre
p
i
et que

d
i=1
X
k,i
= 1. Lesprance de X
k
est clairement le vecteur p. Le vecteur X
k
tant born est clairement de carr intgrable. On est ainsi dans les conditions de validit
du thorme 1.31 qui nous donne
T
n
:=
1

n
n

k=1
(X
k
p)
loi

n+
Z de loi N(0, K), (1.35)
o le terme gnral de la matrice de K par rapport la base canonique de R
d
est
K
i,j
= Cov(X
1,i
, X
1,j
) = E(X
1,i
X
1,j
) p
i
p
j
.
Si i ,= j, X
1,i
X
1,j
= 0 comme produit dindicatrices dvnements disjoints. Pour i = j,
X
2
1,i
= X
1,i
car X
1,i
ne peut prendre que la valeur 0 ou 1. On a donc bien dans les deux
cas K
i,j
= p
i

i,j
p
i
p
j
et on conclut en remarquant que T
n
et n
1/2
(N
n
np) ont mme
loi.
26 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
Remarque 1.33. La loi limite dans ce thorme est un exemple naturel de loi gaussienne
sur R
d
sans densit par rapport
d
, la mesure de Lebesgue sur R
d
. On montre en eet
que
P(Z
1
+Z
2
+ +Z
d
= 0) = 1 o Z = (Z
1
, . . . , Z
d
) N(0, K). (1.36)
Pour cela, considrons la forme linaire
u(x) := x
1
+x
2
+ +x
d
, x = (x
1
, x
2
, . . . , x
d
) R
d
.
La continuit de u et (1.35) entranent la convergence en loi de u(T
n
) vers u(Z). Dautre
part, u(T
n
) = n
1/2

n
k=1
_
u(X
k
) u(p)
_
par linarit de u. Comme u(X
k
) = 1 = u(p),
u(T
n
) est la variable alatoire nulle, sa loi est la masse de Dirac en 0 et il en est de
mme pour la loi limite quand n tend vers +. Mais dire que u(Z) a pour loi
0
revient
exactement (1.36). Ainsi toute la masse de la loi de Z est porte par lhyperplan
x
1
+x
2
+ +x
d
= 0 qui est de
d
-mesure nulle et la loi de Z ne peut avoir de densit
par rapport
d
.
1.4 Complments sur la convergence en loi et le TLC
Cette section dveloppe les aspects techniques de la convergence en loi dans le but
de fournir autant que possible des preuves de rsultats admis au cours de ce chapitre.
En premire lecture on pourra se contenter de jeter un coup doeil aux noncs, quitte
y revenir plus tard en cas de besoin.
1.4.1 Outillage pour la convergence en loi
Avant de nous focaliser sur ltude de la convergence en loi par les moments fonction-
nels donc au sens de la dnition 1.2, nous montrons que celle ci implique la convergence
en loi au sens de la dnition 1.1. La rciproque est vraie mais plus dicile dmontrer
et nest de toutes faons quasiment pas utilise dans ce cours. On sen dispensera donc
20
.
Proposition 1.34. Notons F
n
et F les fonctions de rpartition respectives des variables
alatoires relles Y
n
(n 1) et Y . On suppose que
h continue borne R R, Eh(Y
n
)
n+
Eh(Y ). (1.37)
Alors
x point de continuit de F, F
n
(x)
n+
F(x). (1.38)
Preuve. Fixons x R et remarquons que F
n
(x) = P(Y
n
x) = E1
],x]
(Y
n
) et F(x) =
E1
],x]
(Y ). La fonction f : t 1
],x]
(t) est borne sur R mais malheureusement,
cause de son unique discontinuit au point x, on ne peut pas appliquer directement (1.37)
pour conclure.
Nous allons approximer f en lencadrant par deux fonctions continues bornes, anes
par morceaux, cf. gure 1.2. De faon plus formelle, si avec un paramtre > 0, on dnit
20. Les curieux peuvent aller voir la preuve du thorme 9.32 dans le cours dIFP 2004
http://math.univ-lille1.fr/~suquet/ens/IFP/indexIFP.html
Ch. Suquet, Cours I.S. 2010 27
Chapitre 1. Thorme limite central
0 t
y
x x x +
1
Figure 1.2 Encadrement de f = 1
],x]
par 2 fonctions continues
la fonction g par
g(t) =
_

_
1 si t ] , x]
1 (t x)/ si t ]x, x +]
0 si t ]x +, +[,
on a pour tout t R, g(t +) f(t) g(t), do
t R, f(t +) g(t +) f(t) g(t) f(t ). (1.39)
Grce ces encadrements nous pouvons contrler pour Z v.a. quelconque, la dirence
[P(Z x) P(Y x)[ laide des moments fonctionnels des v.a. Y et Z. En eet
P(Z x) P(Y x) = Ef(Z) Ef(Y )
Eg(Z) Ef(Y )
= Eg(Z) Eg(Y ) +Eg(Y ) Ef(Y )
Eg(Z) Eg(Y ) +Ef(Y ) Ef(Y )
= Eg(Z) Eg(Y ) +F(x +) F(x),
en rappelant que F est la f.d.r. de Y . De mme
P(Y x) P(Z x) = Ef(Y ) Ef(Z)
Ef(Y ) Eg(Z +)
= Ef(Y ) Eg(Y +) +Eg(Y +) Eg(Z +)
Ef(Y ) Ef(Y +) +Eg(Y +) Eg(Z +)
= F(x) F(x ) +Eg(Y +) Eg(Z +).
On en dduit la majoration
[P(Z x) P(Y x)[ max
_
[Eg(Z) Eg(Y )[; [Eg(Y +) Eg(Z+)[
_
+(F, x, ),
(1.40)
avec
(F, x, ) := max
_
F(x) F(x ); F(x +) F(x)
_
. (1.41)
28 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
Cette ingalit est valable pour tout x rel, tout > 0, toute v.a. Z, avec la fonction g
dpendant de x et . Si x est un point de continuit de F, (F, x, ) tend vers 0 quand
tend vers 0. Fixons > 0 quelconque. On peut alors trouver un assez petit pour que
(F, x, ) < . Une fois choisi ce , les fonctions continues bornes g et g( . + ) sont
xes. En prenant alors Z = Y
n
dans (1.40), lhypothse (1.37) applique avec h = g et
h = g( . +) nous donne lexistence dun entier n
0
tel que
n n
0
, max
_
[Eg(Y
n
) Eg(Y )[; [Eg(Y +) Eg(Y
n
+)[
_
< .
Ainsi pour tout n n
0
, [P(Y
n
x) P(Y x)[ < 2. Comme > 0 tait arbitraire, la
convergence de F
n
(x) vers F(x) est tablie.
La dnition 1.2 de la convergence en loi par les moments fonctionnels Eh(Y
n
) pour
toute fonction h continue borne est bien commode pour dmontrer des proprits de
cette convergence, cf. la preuve de la proposition 1.6. Par contre, quand on veut vrier
pratiquement quune suite donne Y
n
de v.a. ou de vecteurs alatoires converge en loi
vers Y , on a tout intrt pouvoir rduire la classe des fonctions h considre. Nous
dbutons ltude de ce type de rduction par limportante notion dquitension.
Dnition 1.35 (quitension). Une famil le P
i
, i I de mesures de probabilit sur
R
d
est dite quitendue si
> 0, K compact de R
d
tel que i I, P
i
(R
d
K) < . (1.42)
Une suite (X
n
)
n1
de vecteurs alatoires de R
d
est dite quitendue si la suite des lois
(P
X
n
)
n1
est quitendue au sens prcdent. Ceci se traduit par
> 0, K compact de R
d
tel que n 1, P(X
n
/ K) < , (1.43)
ou de manire quivalente par
> 0, K compact de R
d
tel que n 1, P(X
n
K) > 1 . (1.44)
Remarque 1.36. On sait que tout compact est born et quen dimension nie, la ferme-
ture de tout ensemble born est compacte. On pourrait donc sans dommage remplacer
dans la dnition ci-dessus K compact par K born et mme plus simplement remplacer
K par [a, a]
d
pour a > 0. Limportance de prendre vraiment K compact au lieu de
born napparat que lorsquon tudie les vecteurs alatoires en dimension innie. En
pratique, une condition ncessaire et susante dquitension de (X
n
)
n1
dans R
d
est
donc
> 0, a > 0, n 1, P(|X
n
| > a) < . (1.45)
Bien entendu, le choix de la norme na ici aucune importance, autre que de confort,
puisque toutes les normes sur R
d
sont quivalentes.
Ch. Suquet, Cours I.S. 2010 29
Chapitre 1. Thorme limite central
Remarque 1.37. Une famille nie P
i
, i I de mesures de probabilit sur R
d
est
toujours quitendue. Vrions le dabord dans le cas o la famille est rduite une
seule mesure
21
P
0
. Posons C
k
:= [k, k]
d
. Les C
k
sont des compacts de R
d
et la suite
(C
k
)
k1
est croissante de runion R
d
. Donc P
0
(C
k
) 1 quand k tend vers linni, par
continuit squentielle croissante de P
0
. Pour tout > 0, on a alors un k
0
= k
0
() tel que
P
0
(C
k
0
) > 1, ce qui quivaut P
0
(R
d
C
k
0
) < . Maintenant si I est un ensemble ni
quelconque dindices, on peut construire comme ci-dessus pour chaque i I un k
i
= k
i
()
tel que P
i
(C
k
i
) > 1 . En prenant le plus grand lment de cet ensemble ni dentiers
k
i
, appelons le m, tous les C
k
i
sont inclus dans le compact C
m
et on a P
i
(C
m
) > 1
pour tout i I, la famille est donc quitendue. videmment ce raisonnement scroule
si I est inni, car alors rien ne garantit que m, dni maintenant comme le sup des k
i
(),
soit ni. Or si m vaut +, C
m
= R
d
nest plus compact.
Remarque 1.38. La runion de deux familles quitendues P
i
, i I et Q
j
, j J
de mesures de probabilit sur R
d
est encore quitendue. En eet si K et K

sont des
compacts tels que pour tout i, P
i
(K) > 1 et pour tout j, Q
j
(K

) > 1 , alors
K K

est un compact vriant P


i
(K K

) > 1 et Q
j
(K K

) > 1 pour tout


i I et tout j J. En particulier, compte-tenu de la remarque 1.37, si (X
n
)
n1
est une
suite quitendue de vecteurs alatoires de R
d
et X un vecteur alatoire quelconque de
R
d
, la famille X
n
, n 1 X est quitendue.
Voici maintenant une premire utilisation de lquitension pour tablir un rsultat
intermdiaire.
Lemme 1.39. Soient Z
n
(n 1) et Z des variables alatoires rel les vriant
i) (Z
n
)
n1
est quitendue,
ii) pour toute fonction g : R R continue support compact
22
, Eg(Z
n
) converge vers
Eg(Z) quand n tend vers linni.
Alors Z
n
converge en loi vers Z.
Preuve. Lhypothse ii) est a priori plus faible que la convergence en loi. En eet toute
fonction continue support compact est videmment continue borne mais la rciproque
est fausse. Il nous faut montrer que pour toute fonction continue borne h : R R,
Eh(Z
n
) converge vers Eh(Z) quand n tend vers linni. Soit donc h une telle fonction
et notons |h|

:= sup
xR
[h(x)[. Fixons un > 0 arbitraire. Par lhypothse i) et la
remarque 1.38, la famille P
Z
n
, n 1 P
Z
est quitendue. On dispose donc dun
rel a > 0 tel que
n 1, P([Z
n
[ > a) < et P([Z[ > a) < . (1.46)
Notons f
a
la fonction trapze dnie
23
par la gure 1.3 et posons g := hf
a
. Alors g
est continue comme produit de deux fonctions continues et nulle en dehors du compact
30 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
0
x
y
a 1 a
a
a + 1
1
Figure 1.3 Fonction trapze f
a
[a 1, a + 1]. Lerreur commise en approximant Eh(Z
n
) par Eg(Z
n
) est gale par
linarit de lesprance E(h g)(Z
n
). Pour majorer cette quantit, on remarque que
[h g[(Z
n
) |h|

1
{|Z
n
|>a}
, car 0 [h g[ = [h[(1 f
a
) [h[ et h g est nulle sur
[a, a]. Par consquent, compte-tenu de (1.46),
[E(h g)(Z
n
)[ |h|

E1
{|Z
n
|>a}
= |h|

P([Z
n
[ > a) < |h|

. (1.47)
Il est clair que la mme ingalit est vrie avec Z la place de Z
n
.
Dautre part grce lhypothse ii), il existe un n
0
dpendant seulement de g et de
tel que
n n
0
, [Eg(Z
n
) Eg(Z)[ < . (1.48)
Finalement en utilisant (1.47) applique Z
n
et Z et (1.48), on voit que pour tout
n n
0
,
[Eh(Z
n
) Eh(Z)[ [E(h g)(Z
n
)[ +[E(h g)(Z)[ +

Eg(Z
n
) Eg(Z)

(2|h|

+ 1).
Comme tait arbitraire, la convergence de Eh(Z
n
) vers Eh(Z) est tablie.
Proposition 1.40. Soient Z
n
(n 1) et Z des variables alatoires rel les tel les que
pour toute fonction g : R R continue support compact, Eg(Z
n
) converge vers
Eg(Z) quand n tend vers linni. Alors Z
n
converge en loi vers Z.
Preuve. Daprs le lemme 1.39, il sut de prouver lquitension de (Z
n
)
n1
. Fixons > 0
arbitraire. La variable alatoire Z tant tendue (remarque 1.37), il existe un rel a > 0
tel que P([Z[ a) > 1. La f.d.r. de [Z[ nayant quun ensemble au plus dnombrable
de points de discontinuit, a au moins un point de continuit c dans lensemble non
dnombrable [a, +[. On a alors
P([Z[ c) > 1 et lim
xc
P([Z[ x) = P([Z[ c). (1.49)
Pour 0 < < c, soit g

la fonction trapze nulle en dehors de [c, c], valant 1 sur


[c + , c ], cf. gure 1.4, donc vriant lencadrement 1
[c+,c]
g

1
[c,c]
. De
21. On dit alors que cette mesure est tendue , le prxe qui sous-entendant quil y a plusieurs
mesures dans la famille. De mme on parle de fonction continue et de famille quicontinue de fonctions.
22. Donc continue sur R et nulle en dehors dun certain compact de R.
23. Pour ceux qui pensent quune gure ne dnit pas une fonction et qui prfrent les formules
obscures, disons f
a
(x) := 1
[0,a]
([x[) + (a + 1 [x[)1
]a,a+1]
([x[).
Ch. Suquet, Cours I.S. 2010 31
Chapitre 1. Thorme limite central
0
x
y
c
c + c
c
1
Figure 1.4 Fonction trapze g

vriant 1
[c+,c]
g

1
[c,c]
cet encadrement on dduit que
P([Z[ c ) = E1
[c+,c]
(Z) Eg

(Z) E1
[c,c]
(Z) = P([Z[ c).
Daprs (1.49) on en dduit quen prenant susamment petit,
Eg

(Z) P([Z[ c ) > P([Z[ c) > 1 2. (1.50)


Fixons dsormais vriant (1.50). Comme g

est continue support compact, lhy-


pothse nous donne un n
0
tel que
n n
0
, Eg

(Z
n
) > Eg

(Z) . (1.51)
Comme g

1
[c,c]
, P([Z
n
[ c) = E1
[c,c]
(Z
n
) Eg

(Z
n
), do en combinant cette
minoration avec (1.50) et (1.51),
n n
0
, P([Z
n
[ c) > 1 3. (1.52)
Dautre part la famille nie P
X
n
, n < n
0
est quitendue, cf. remarque 1.37, on peut
donc trouver un rel c

> 0 tel que


n < n
0
, P([Z
n
[ c

) > 1 3. (1.53)
Finalement en posant c

:= max(c, c

), nous dduisons de (1.52) et (1.53) que


n N

, P([Z
n
[ c

) > 1 3.
Comme tait arbitraire, ceci tablit lquitension de (X
n
)
n1
et termine la preuve.
Corollaire 1.41. Soient Z
n
(n 1) et Z des variables alatoires rel les tel les que pour
toute fonction g : R R continue tendant vers 0 linni, Eg(Z
n
) converge vers Eg(Z)
quand n tend vers linni. Alors Z
n
converge en loi vers Z.
Preuve. Lespace C
c
(R) des fonctions continues support compact est inclus dans les-
pace C
0
(R) des fonctions continues tendant vers 0 linni.
Corollaire 1.42. Si Eh(Z
n
) converge quand n tend vers + vers Eh(Z) pour toute
h H, o H est une famille dense dans C
0
(R) pour la norme | |

, alors Z
n
converge
en loi vers Z.
32 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
Preuve. On utilise le corollaire 1.41 en montrant que pour toute g C
0
(R), Eg(Z
n
)
converge vers Eg(Z). Soit donc g quelconque dans C
0
(R). Par densit de H dans C
0
(R),
il existe pour tout > 0, une fonction h H telle que |h g|

< . Cette ingalit


scrit encore sup
xR
[(g h)(x)[ < , ce qui nous permet de voir que pour toute v.a.
relle Y ,
[E(g h)(Y )[ E[(g h)(Y )[ . (1.54)
En crivant maintenant Eg(Z
n
) = Eh(Z
n
) + E(g h)(Z
n
) et de mme avec Z au lieu
de Z
n
, en appliquant (1.54) avec Y = Z
n
, puis avec Y = Z, on obtient
n N

, [Eg(Z
n
) Eg(Z)[ [Eh(Z
n
) Eh(Z)[ + 2.
Par hypothse Eh(Z
n
) converge vers Eh(Z), donc pour n n
0
, [Eh(Z
n
) Eh(Z)[ < .
Finalement
n n
0
, [Eg(Z
n
) Eg(Z)[ < 3.
Comme tait arbitraire, on a bien vri la convergence de Eg(Z
n
) vers Eg(Z). La
fonction g C
0
(R) tait elle aussi arbitraire, on conclut donc par le corollaire 1.41 que
Z
n
converge en loi vers Z.
Corollaire 1.43. Si Ef(Z
n
) converge quand n tend vers + vers Ef(Z) pour toute
f H

, o H

est une famille totale dans C


0
(R) pour la norme | |

, alors Z
n
converge
en loi vers Z.
Preuve. Dire que H

est totale dans C


0
(R) signie que la famille H des combinaisons
linaires de fonctions de H

est dense dans C


0
(R). Il sut donc daprs le corollaire 1.42
de vrier que Eh(Z
n
) converge vers Eh(Z) pour toute h de la forme
h =

iI
a
i
f
i
, I ni, les a
i
R, les f
i
H

.
Comme H

est incluse dans C


0
(R), les f
i
sont bornes donc les v.a. f
i
(Z
n
) et f
i
(Z) sont
intgrables. Par linarit de lesprance on a donc
Eh(Z
n
) =

iI
a
i
Ef
i
(Z
n
), Eh(Z) =

iI
a
i
Ef
i
(Z).
Par hypothse Ef
i
(Z
n
) converge vers Ef
i
(Z) pour chaque i I. Comme I est ni, on
en dduit que Eh(Z
n
) converge vers Eh(Z).
Corollaire 1.44. Si Ef(Z
n
) converge quand n tend vers + vers Ef(Z) pour toute f
C

tendant vers 0 linni, Z


n
converge en loi vers Z.
Preuve. Lespace C

0
(R) des fonctions indniment drivables sur R et tendant vers 0
linni est dense dans C
0
(R), cf. cours danalyse
24
. On peut donc appliquer le corol-
laire 1.42.
24. On peut le dmontrer soit en faisant de la rgularisation par convolution, soit en utilisant le
thorme de Stone-Weierstrass aprs compactication de R par lajout dun seul point linni.
Ch. Suquet, Cours I.S. 2010 33
Chapitre 1. Thorme limite central
1.4.2 Dmonstration du TLC
Dans toutes les versions du TLC dans R exposes ci-dessus, on a une somme de
variables alatoires indpendantes que lon centre et divise par lcart type de la somme
et cest cette somme normalise qui converge en loi vers une gaussienne N(0, 1). Daprs le
corollaire 1.44, il sut de montrer la convergence des f-moments pour toute f C

0
(R).
Nous allons tudier lerreur commise en remplaant ces f-moments dune somme par les
f-moments de gaussiennes ayant mme esprance et mme variance que la somme
25
.
Dans cette approche le lemme suivant nous sera trs utile.
Lemme 1.45. Soit f C
3
0
(R) et Y une v.a. rel le. Soient U, V des variables alatoires
relles indpendantes de Y telles que E[U[
3
< +, E[V [
3
< +, EU = EV et EU
2
=
EV
2
. Alors
[Ef(Y +U) Ef(Y +V )[ c(E[U[
3
+E[V [
3
), (1.55)
o c est une constante ne dpendant que de f.
Preuve. La formule de Taylor au point y pour un accroissement t scrit
f(y +t) = f(y) +tf

(y) +
t
2
2
f

(y) +r(y, t), (1.56)


o le reste r(y, t) est de la forme
r(y, t) =
t
3
6
f
(3)
(y +t), = (f, y, t) [0, 1].
On a donc la majoration
[r(y, t)[
1
6
|f
(3)
|

[t[
3
. (1.57)
En prenant y = Y (), t = U() pour quelconque dans , ces galits et cette majo-
ration passent aux variables alatoires :
f(Y +U) = f(Y ) +Uf

(Y ) +
U
2
2
f

(Y ) +r(Y, U), (1.58)


[r(Y, U)[
1
6
|f
(3)
|

[U[
3
. (1.59)
Les variables alatoires f(Y + U), f(Y ), f

(Y ), f

(Y ) sont bornes et U est de cube


intgrable, de plus U et Y sont indpendantes. On a donc E[Uf

(Y )[ = E[U[E[f

(Y )[ <
+, E[U
2
f

(Y )[ = EU
2
E[f

(Y )[ < +. On peut donc prendre lesprance des deux


membres dans (1.58) et dans (1.59) pour obtenir
Ef(Y +U) = Ef(Y ) +EUEf

(Y ) +
1
2
EU
2
Ef

(Y ) +Er(Y, U), (1.60)


25. La technique de preuve du TLC expose dans cette section nest pas la plus rpandue dans la
littrature o on utilise souvent les fonctions caractristiques. Nous suivons dassez prs lexpos donn
dans le livre de D. Pollard, Convergence of stochastic processes, Springer 1984.
34 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
avec
E[r(Y, U)[
1
6
|f
(3)
|

E[U[
3
. (1.61)
videmment (1.60) et (1.61) restent vries avec V la place de U. On en dduit que
Ef(Y +U)Ef(Y +V ) = (EUEV )Ef

(Y )+
1
2
(EU
2
EV
2
)Ef

(Y )+Er(Y, U)Er(Y, V ),
do compte tenu des galits de moments EU = EV et EU
2
= EV
2
,
[Ef(Y +U) Ef(Y +V )[ = [Er(Y, U) Er(Y, V )[
1
6
|f
(3)
|

(E[U[
3
+E[V [
3
),
ce qui nous donne (1.55) avec c =
1
6
|f
(3)
|

.
Le lemme 1.45 nous permet de majorer lerreur commise en approximant le f-moment
dune somme centre normalise de v.a. indpendantes par le f-moment de la loi gaussi-
enne N(0, 1).
Lemme 1.46. Soient X
1
, . . . , X
n
des v.a. indpendantes vriant E[X
i
[
3
< +, EX
i
=
0,

n
i=1

2
i
= 1 avec
2
i
:= EX
2
i
. On note S

n
:=

n
i=1
X
i
. Soient Z
1
, . . . , Z
n
des v.a. tel les
que Z
i
ait pour loi N(0,
i
) et que la suite X
1
, . . . , X
n
, Z
1
, . . . , Z
n
soit indpendante. Soit
Z de loi N(0, 1). Alors pour toute f C
3
0
(R),
[Ef(S

n
) Ef(Z)[ c
n

i=1
_
E[X
i
[
3
+E[Z
i
[
3
_
, (1.62)
avec c =
1
6
|f
(3)
|

.
Preuve. Notons dabord que Z a mme loi que W
n
:= Z
1
+ + Z
n
. En eet par
indpendance des Z
i
, le vecteur (Z
1
, . . . , Z
n
) est gaussien, cf. corollaire 1.27. Donc la
combinaison linaire W
n
= Z
1
+ + Z
n
est une v.a. gaussienne. Sa loi est dtermine
par son esprance qui vaut 0 puisque les Z
i
sont centres et sa variance
2
= Var W
n
=

n
i=1

2
i
= 1 cause de lindpendance des Z
i
. Donc W
n
suit comme Z, la loi N(0, 1).
Par consquent, pour toute f C
3
0
(R), Ef(Z) = Ef(W
n
).
Lide de la preuve est de faire du chanage pour passer progressivement de Ef(S

n
)
Ef(W
n
) en remplaant chaque pas un X
i
par un Z
i
. Le lemme 1.46 permet de majorer
lerreur dapproximation commise chaque pas. Dnissons les sommes troues T
j
(T
j
troue au rang j) en posant :
T
j
:= X
1
+ +X
j1
+Z
j+1
+ +Z
n
, 1 j n.
Pour bien comprendre le mcanisme de chanage que nous allons utiliser, voyons le
loeuvre dans le cas n = 3. On a alors T
1
= Z
2
+Z
3
, T
2
= X
1
+Z
3
et T
3
= X
1
+X
2
. On
part de la somme tlscopique
f(X
1
+X
2
+X
3
) f(Z
1
+Z
2
+Z
3
) = f(X
1
+X
2
+X
3
) f(X
1
+X
2
+Z
3
)
+f(X
1
+X
2
+Z
3
) f(X
1
+Z
2
+Z
3
)
+f(X
1
+Z
2
+Z
3
) f(Z
1
+Z
2
+Z
3
),
Ch. Suquet, Cours I.S. 2010 35
Chapitre 1. Thorme limite central
que lon rcrit sous la forme
f(X
1
+X
2
+X
3
) f(Z
1
+Z
2
+Z
3
) = f(T
3
+X
3
) f(T
3
+Z
3
)
+f(T
2
+X
2
) f(T
2
+Z
2
)
+f(T
1
+X
1
) f(T
1
+Z
1
),
en utilisant les galits T
2
+X
2
= T
3
+Z
3
et T
1
+X
1
= T
2
+Z
2
.
Pour le cas gnral, il est commode de poser T
0
:= W
n
et X
0
:= 0. On note alors que
j = 1, . . . , n, T
j
+Z
j
= T
j1
+X
j1
. (1.63)
On peut alors crire la somme tlscopique
f(S

n
) f(W
n
) = f(T
n
+X
n
) f(T
0
+X
0
) =
n

j=1
_
f(T
j
+X
j
) f(T
j1
+X
j1
)
_
En prenant lesprance et en utilisant (1.63), il vient
Ef(S

n
) Ef(W
n
) =
n

j=1
_
Ef(T
j
+X
j
) Ef(T
j
+Z
j
)
_
.
Pour tout j, X
j
et Z
j
sont indpendantes de T
j
, sont de cube intgrable et ont mmes
moments dordre 1 et 2. On peut donc appliquer le lemme 1.45 avec Y = T
j
, U = X
j
et
V = Z
j
chacun des termes de la somme ci-dessus, ce qui donne
[Ef(S

n
) Ef(W
n
)[
n

j=1

Ef(T
j
+X
j
) Ef(T
j
+Z
j
)

c
n

j=1
(E[X
j
[
3
+E[Z
j
[
3
),
avec c =
1
6
|f
(3)
|

.
Le lemme 1.46 permet de dmontrer une version du thorme de Liapounov pour
des v.a. de cube intgrable et dexpliciter dans le cas i.i.d. une vitesse de convergence en
O(n
1/2
) pour les f-moments.
Thorme 1.47 (Liapounov). Soit (X
k
)
k1
une suite de variables alatoires dnies sur
le mme espace probabilis, indpendantes (mais pas forcment de mme loi), centres,
ayant toutes un moment dordre 3 (E[X
k
[
3
< +). On note S
n
:= X
1
+ + X
n
,

2
k
:= Var X
k
, s
2
n
:= Var(S
n
) =
2
1
+ +
2
n
et on suppose s
n
> 0. Si de plus la
condition de Liapounov :
1
s
3
n
n

k=1
E[X
k
[
3

n+
0 (1.64)
est vrie, alors S
n
/s
n
converge en loi vers Z de loi N(0, 1).
Dans le cas o les X
k
sont de plus i.i.d., on a pour toute f C
3
0
(R),
[Ef(S
n
/s
n
) Ef(Z)[ Cn
1/2
, (1.65)
o la constante C vaut
C =
1
6
_
E[X
1
[
3

3
1
+
4

2
_
|f
(3)
|

. (1.66)
36 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
Preuve. Daprs le corollaire 1.44 et linclusion C

0
(R) C
3
0
(R), il sut de montrer la
convergence des f-moments de S
n
/s
n
vers ceux de Z pour toute f C
3
0
(R) pour obtenir
la convergence en loi de S
n
/s
n
vers Z. Posons X
n,k
:= s
1
n
X
k
,
2
n,k
:= Var X
n,k
= s
2
n
EX
2
k
.
En appliquant le lemme 1.46 aux X
n,k
, notons qualors S

n
= S
n
/s
n
, on obtient
f C
3
0
(R), [Ef(S
n
/s
n
) Ef(Z)[ c
n

k=1
_
E[X
k
[
3
s
3
n
+
_

k
s
n
_
3
E[Z[
3
_
. (1.67)
En eet la gaussienne centre Z
n,k
de variance
2
n,k
a mme loi que
n,k
Z, donc mme
moment absolu dordre 3, do E[Z
n,k
[
3
=
3
n,k
E[Z[
3
=
3
k
s
3
n
E[Z[
3
. Compte-tenu de
la condition de Liapounov (1.64) et de (1.67), il ne nous reste plus pour obtenir la
convergence en loi qu vrier la convergence :
1
s
3
n
n

k=1

3
k

n+
0. (1.68)
Pour pouvoir exploiter la condition de Liapounov, on souhaite disposer dune majoration
du type
3
k
aE[X
k
[
3
, avec a constante, qui ferait immdiatement dcouler (1.68) de
(1.64). Lingalit de Jensen, non tudie en cours dI.P.., nous dit que si est une
fonction convexe sur un intervalle I de R et Y une v.a. intgrable telle que P(Y I) = 1
et E[(Y )[ < +, (EY ) E(Y ). En appliquant ceci la v.a. Y = X
2
et avec la
fonction convexe : [0, +[ R
+
, y y
3/2
, on obtient pour toute v.a. de cube
intgrable :
_
E(X
2
)
_
3/2
E
_
(X
2
)
3/2
_
= E
_
[X[
3
_
.
On en dduit pour chaque X
k
la majoration annonce avec a = 1 puisque
k
=
(E(X
2
k
))
1/2
.
Voici une variante manuelle vitant le recours lingalit de Jensen au prix dune
moins bonne constante a. On commence par vrier que pour tout t > 0, on a
EX
2
= E
_
X
2
1
{|X|t}
_
+E
_
X
2
1
{|X|>t}
_
t
2
+
E[X[
3
t
. (1.69)
En eet E
_
X
2
1
{|X|t}
_
se majore naturellement par t
2
P([X[ t) t
2
. Pour le deuxime
terme, on remarque que sur lvnement [X[ > t, on a [X[
3
> t[X[
2
, do [X[
2
<
t
1
[X[
3
. Cette ingalit vraie seulement sur [X[ > t implique lingalit entre variables
alatoires, vraie sur tout :
X
2
1
{|X|>t}

1
t
[X[
3
1
{|X|>t}

1
t
[X[
3
,
puis en prenant les esprances, E
_
X
2
1
{|X|>t}
_
t
1
E[X[
3
. Puisque (1.69) est ainsi
vrie pour tout t > 0, on a intrt choisir la valeur de t qui minimise le majorant
obtenu. Un simple calcul de drive nous montre que la fonction g : t t
2
+
E|X|
3
t
atteint
son minimum sur ]0, +[ au point t = 2
1/3
_
E[X[
3
_
1/3
et donc que la valeur minimale
Ch. Suquet, Cours I.S. 2010 37
Chapitre 1. Thorme limite central
de g est 3 2
2/3
_
E[X[
3
_
2/3
. On en dduit lingalit
3
k
3
3/2
2
1
E[X[
3
, ce qui est
moins bon que lingalit de Jensen puisque ici a = 3
3/2
2
1
2, 599.
Enn dans le cas i.i.d., on a s
n
= n
1/2

1
. En revenant (1.67) et en notant que
E[Z[
3
= 4(2)
1/2
(vriez !), on obtient :
[Ef(S
n
/s
n
) Ef(Z)[
c

3
1
n
3/2
_
nE[X
1
[
3
+n
3
1
E[Z[
2
_
=
c
n
1/2
_
E[X
1
[
3

3
1
+
4

2
_
,
do (1.65) et (1.66).
Jusquici nous navons prouv le TLC quen supposant lexistence de moments dor-
dre 3. Nous allons maintenant nous aranchir de cette hypothse en revenant la formule
de Taylor (1.56) et en notant que le reste r(y, t) scrit aussi :
r(y, t) =
_
f(y +t) f(y) tf

(y)
_

t
2
2
f

(y) =
t
2
2
_
f

(y +t) f

(y)
_
,
pour un certain = (f, y, t) [0, 1]. Par consquent,
y, t R, [r(y, t)[ t
2
|f

. (1.70)
Cette nouvelle majoration de [r(y, t)[ est meilleure que (1.57) lorsque [t[ tend vers linni,
par contre elle est moins bonne lorsque t tend vers 0. Pour garder le meilleur des deux
majorations, on fait un compromis en utilisant (1.57) pour [t[ < et (1.70) pour [t[ ,
ce qui donne pour tout > 0,
y, t R, [r(y, t)[ C[t[
3
1
{|t|<}
+Ct
2
1
{|t|}
Ct
2
1
{|t|<}
+Ct
2
1
{|t|}
, (1.71)
avec
C = max
_
|f

,
1
6
|f
(3)
|

_
. (1.72)
Par consquent, pour toute v.a. Y et toute v.a. U de carr intgrable,
E[r(Y, U)[ CEU
2
1
{|U|<}
+CE
_
U
2
1
{|U|}
_
CEU
2
+CE
_
U
2
1
{|U|}
_
.
Reprenant la preuve des lemmes (1.45) et (1.46) avec cette nouvelle majoration de
E[r(Y, U)[, on obtient la cl de la preuve du thorme de Lindeberg.
Lemme 1.48. Soient X
1
, . . . , X
n
des v.a. indpendantes vriant EX
2
i
< +, EX
i
= 0,

n
i=1

2
i
= 1 avec
2
i
:= EX
2
i
. On note S

n
:=

n
i=1
X
i
. Soient Z
1
, . . . , Z
n
des v.a. tel les
que Z
i
ait pour loi N(0,
i
) et que la suite X
1
, . . . , X
n
, Z
1
, . . . , Z
n
soit indpendante. Soit
Z de loi N(0, 1). Alors pour toute f C
3
0
(R) et tout > 0,
[Ef(S

n
) Ef(Z)[ C
n

i=1
_

2
i
+E
_
X
2
i
1
{|X
i
|}
_
+E[Z
i
[
3
_
, (1.73)
avec C donne par (1.72).
38 Ch. Suquet, Cours I.S. 2010
1.4. Complments sur la convergence en loi et le TLC
Notez le traitement dissymtrique des X
i
et des Z
i
, d au fait que les Z
i
tant
gaussiennes ont des moments dordre 3. Il est alors plus commode de leur appliquer
(1.57) pour contrler [r(Y, Z
i
)[, tandis que pour les X
i
, on tient nutiliser que des
majorations valables mme si ces variables sont seulement de carr intgrable.
Preuve du thorme de Lindeberg. Avec les notations et les hypothses du thorme 1.16,
il sut de montrer la convergence de Ef(S
n
/s
n
) vers Ef(Z) pour toute f C
3
0
(R). En
appliquant le lemme (1.48) aux k
n
variables X
i
= X
n,i
/s
n
, on dispose de la majoration
suivante valable pour tout > 0 :
[Ef(S
n
/s
n
) Ef(Z)[ C
k
n

i=1
_

2
n,i
s
2
n
+
1
s
2
n
E
_
X
2
n,i
1
{|X
n,i
|>s
n
}
_
+
1
s
3
n
E[Z
n,i
[
3
_
= C +
C
s
2
n
k
n

i=1
E
_
X
2
n,i
1
{|X
n,i
|>s
n
}
_
+
1
s
3
n
k
n

i=1
E[Z
n,i
[
3
. (1.74)
Dans ce majorant, le deuxime terme tend vers 0 quand n tend vers linni par la
condition de Lindeberg, cf. hypothse (1.22). Il peut donc tre rendu infrieur pour
tout n n
1
. Pour le troisime terme, on rappelle que la v.a. gaussienne Z
n,i
a mme loi
que
n,i
Z, do
1
s
3
n
k
n

i=1
E[Z
n,i
[
3
=
E[Z[
3
s
3
n
k
n

i=1

3
n,i

E[Z[
3
s
3
n
_
max
1ik
n

n,i
_
k
n

i=1

2
n,i
=
4

2
1
s
n
max
1ik
n

n,i
.
Il nous reste montrer la convergence vers 0 de s
1
n
max
1ik
n

n,i
, ce qui quivaut
celle de s
2
n
max
1ik
n

2
n,i
. On se rapelle opportunment que
2
n,i
= EX
2
n,i
, ce qui va
nous permettre de rexploiter la condition de Lindeberg. En eet
EX
2
n,i
= E
_
X
2
n,i
1
{|X
n,i
|<s
n
}
_
+E
_
X
2
n,i
1
{|X
n,i
|s
n
}
_

2
s
2
n
+E
_
X
2
n,i
1
{|X
n,i
|s
n
}
_
.
Do
1
s
2
n
max
1ik
n

2
n,i

2
+
1
s
2
n
max
1ik
n
E
_
X
2
n,i
1
{|X
n,i
|s
n
}
_

2
+
1
s
2
n
k
n

i=1
E
_
X
2
n,i
1
{|X
n,i
|s
n
}
_
.
Le deuxime terme de ce majorant tend vers 0 quand n tend vers +par la condition
de Lindeberg. Il est donc infrieur
2
pour tout n n
2
. Par consquent,
n n
2
,
1
s
n
max
1ik
n

n,i

2.
En prenant n
0
:= max(n
1
, n
2
) et en revenant (1.74), on obtient nalement
n n
0
, [Ef(S
n
/s
n
) Ef(Z)[
_
C + 1 +
4

_
.
Comme > 0 tait arbitraire, on a bien tabli la convergence de Ef(S
n
/s
n
) vers Ef(Z).
Ceci tant vri pour toute f C
3
0
(R), S
n
/s
n
converge en loi vers Z.
Ch. Suquet, Cours I.S. 2010 39
Chapitre 1. Thorme limite central
40 Ch. Suquet, Cours I.S. 2010
Chapitre 2
Simulation de variables et vecteurs
alatoires
2.1 Introduction
La simulation informatique du hasard a de multiples applications : simulation de
phnomnes physiques, mthodes de Monte-Carlo pour le calcul dintgrales, tude de
tests statistiques ou destimateurs, simulation de fonctionnements de rseaux ou de sys-
tmes complexes, cryptographie, imagerie, algorithmes probabilistes,. . .
Thoriquement, la gnration de nombres alatoires suivant une loi donne se ramne
la gnration de suites de variables alatoires indpendantes de loi uniforme sur [0, 1].
On peut montrer en eet que si les X
i
sont des variables de Bernoulli indpendantes de
mme paramtre p = 1/2, la v.a. U :=

+
k=1
X
k
2
k
suit la loi uniforme sur [0, 1]. Le
problme se ramne donc la gnration dune suite de bits alatoires indpendants
pouvant prendre chacun la valeur 0 ou la valeur 1 avec mme probabilit 1/2. En dautre
termes, il surait de raliser un jeu de pile ou face inni avec une pice parfaitement
quilibre
1
. Cette mthode nest videmment pas raliste et en pratique on a recours
linformatique pour simuler une telle suite. Pourquoi employer ici le mot simuler ?
Parce quune suite de nombres gnre par un algorithme nest pas vraiment alatoire. Si
on connat les valeurs dinitialisation et lalgorithme, on peut calculer (et donc prvoir)
les termes de la suite. Nanmoins on considrera que lon a un bon gnrateur de nom-
bres alatoires si on ne parvient pas distinguer la suite de nombres pseudo alatoires
produite dune suite vritablement alatoire. La signication prcise de cette phrase de-
manderait tout un dveloppement amenant sinterroger sur la notion mme de hasard.
On pourra utilement consulter ce sujet [2]. Pour lutilisation en statistique, nous nous
contenterons de dire quun gnrateur est acceptable sil passe avec succs une batterie
de tests statistiques courants.
Les fonctions random des principaux langages de programmation ou logiciels sont
bties sur des algorithmes arithmtiques dont le plus simple correspond au gnrateur
1. Si p ,= 1/2, la loi de U est une loi singulire fonction de rpartition continue mais nayant pas
de densit par rapport la mesure de Lebesgue.
41
Chapitre 2. Simulation de variables et vecteurs alatoires
congruentiel linaire. Il sagit de gnrer une suite de nombres (X
n
)
n1
vriant une
relation de rcurrence
X
n+1
= aX
n
+c mod M (2.1)
et den dduire une suite (U
n
)
n1
valeurs dans [0, 1[ en prenant U
n
= X
n
/M. Par
exemple la fonction rand de Scilab utilise (2.1) avec M = 2
31
, a = 843314861 et
c = 453816693. La suite (U
n
) ainsi construite est compltement dterministe, car pri-
odique. Cependant sa priode est tellement grande quon peut en pratique la consid-
rer comme une suite alatoire, du moins pour des besoins statistique courants (son
usage est dconseill en cryptographie). Remarquons dailleurs que mme si U
n
tait
ici alatoire, ses valeurs seraient de la forme k2
31
et on obtiendrait la loi uniforme
discrte sur D
31
= k2
31
; 0 k < 2
31
au lieu de la loi uniforme sur [0, 1[. Ceci
nest pas trop gnant pour les deux raisons suivantes. Dune part la loi uniforme
n
sur
D
n
= k2
n
; 0 k < 2
n
converge troitement vers la loi uniforme sur [0, 1[ quand n
tend vers linni
2
et dautre part les nombres rels sont reprsents en machine par des
rationnels dyadiques de la forme k2
j
, de sorte que tous les rels de [k2
j
, (k + 1)2
j
[
sont confondus.
Dans ce document, nous nous situons en aval du problme de la construction dun
gnrateur de nombres alatoires. On suppose que lon sait gnrer une suite i.i.d. (U
n
)
de variables alatoires de loi uniforme sur [0, 1]. On se propose de construire et de justier
mathmatiquement des algorithmes permettant partir de l de simuler une variable
alatoire ou un vecteur alatoire de loi donne. On donnera une traduction de certains
de ces algorithmes en Scilab titre dillustration. Scilab est un logiciel libre dvelopp
par lINRIA. Il existe en version Linux et Windows. On peut le tlcharger depuis le site
de lINRIA lURL :
http://scilabsoft.inria.fr/
2.2 Mthode thorique pour simuler une v.a.r.
Soit X une variable alatoire relle de fonction de rpartition F, dnie par
F(x) := P(X x). (2.2)
Rappelons que F est croissante, continue droite et limite gauche en tout point
de R, que lensemble de ses discontinuits est au plus dnombrable et que F a pour
limite 0 en et 1 en +. Dans le cas particulier o F est continue et strictement
croissante sur tout R, elle ralise une bijection de R sur ]0, 1[ et admet donc un inverse
F
1
:]0, 1[R au sens classique. Si U est une variable alatoire de loi uniforme sur ]0, 1[,
alors Y := F
1
(U) a mme loi que X. On le vrie facilement en calculant la fonction
de rpartition de Y :
x R, P(Y x) = P(F
1
(U) x) = P(U F(x)) = F(x). (2.3)
2. Ce qui signie que U
n
converge en loi vers U de loi uniforme sur [0, 1[, cf. la note 2 page 6. Lerreur
commise sur la f.d.r. de
n
en la remplaant par la f.d.r. de la loi uniforme sur [0, 1] est majore par
2
n
et 2
31
4, 7 10
10
est susamment petit pour un usage courant de cette approximation.
42 Ch. Suquet, Cours I.S. 2010
2.2. Mthode thorique pour simuler une v.a.r.
Dans cette suite dgalits, la deuxime repose sur la croissance de F et de F
1
qui
lgitiment lquivalence F
1
(U) x U F(x). La dernire galit est due au calcul
de la fonction de rpartition de la loi uniforme sur ]0, 1[ (qui concide sur [0, 1] avec
lidentit) et au fait que F(x) [0, 1].
Cette proprit permet donc, partir dun gnrateur alatoire fournissant des ral-
isations dune v.a. uniforme, de simuler une v.a. de mme loi que X, pourvu que F
1
existe et soit calculable simplement. Cest le cas par exemple pour la loi de Cauchy, cf.
exemple 2.4. Mais il arrive souvent mme pour des lois usuelles que la f.d.r. ne soit pas
strictement croissante sur tout R, ou ne soit pas continue en tout point de R. Dans un
but de gnralisation, ceci nous conduit poser la dnition suivante.
Dnition 2.1 (fonction quantile). Si F est la fonction de rpartition dune variable
alatoire, son inverse gnralise, appele aussi fonction quantile, est dnie par
F
1
:]0, 1[R, u ]0, 1[, F
1
(u) := infx R; F(x) u. (2.4)
Lquation F(x) = u peut avoir soit une solution unique, soit aucune solution, soit
une innit de solutions. La dtermination graphique de F
1
(u) dans chacune de ces
congurations est illustre gure 2.1. On vous laisse en exercice le soin de vrier que
pour F continue strictement croissante son inverse au sens classique (bijection inverse
de ]0, 1[R) et son inverse gnralise concident.
Thorme 2.2. Soient X une variable alatoire rel le de fonction de rpartition F et
U une variable alatoire de loi uniforme sur ]0, 1[. Alors X et F
1
(U) ont mme loi.
Preuve. Pour viter davoir liminer un ensemble de probabilit nulle sur lequel F
1
(U)
ne serait pas dni, nous considrerons que U est non seulement de loi uniforme sur ]0, 1[,
mais que pour tout , U() ]0, 1[. La fonction de rpartition de U est donne par
P(U t) =
_

_
0 si t < 0,
t si 0 t 1,
1 si t > 1.
(2.5)
Or pour tout x R, F(x) [0, 1], do en prenant t = F(x) dans (2.5),
x R, P
_
U F(x)
_
= F(x). (2.6)
Admettons pour un instant que lon sache trouver une fonction g :]0, 1[R vriant :
u ]0, 1[, x R,
_
u F(x)
_

_
g(u) x
_
. (2.7)
Alors le problme de la simulation dune variable alatoire Y ayant mme loi que X
serait rsolu. En eet en posant Y := g(U), on aurait :
x R, P(Y x) = P
_
g(U) x
_
= P
_
U F(x)
_
grce (2.7),
= F(x) par (2.6).
Ch. Suquet, Cours I.S. 2010 43
Chapitre 2. Simulation de variables et vecteurs alatoires
x
y
0
u
F
1
(u)
x
y
0
u
F
1
(u)
x
y
0
u
F
1
(u)
Figure 2.1 Dtermination graphique de linverse gnralis
Ainsi Y aurait mme f.d.r. F que X, donc mme loi.
Recherche dune fonction g vriant (2.7). Dnissons les ensembles de rels I
u
par :
u ]0, 1[, I
u
:= x R; u F(x).
Comme u est strictement infrieur 1 et F(t) tend vers 1 quand t tend vers +, on voit
que F(t) > u pour t assez grand, donc I
u
nest pas vide. Si x est un lment quelconque
de I
u
, on a
x

> x, F(x

) F(x) u, donc x

I
u
,
44 Ch. Suquet, Cours I.S. 2010
2.2. Mthode thorique pour simuler une v.a.r.
la premire ingalit venant de la croissance de F et la deuxime de lappartenance de
x I
u
. Nous venons ainsi de vrier que
x I
u
, [x, +[ I
u
.
Ceci nous montre que I
u
est un intervalle de la forme [b, +[ ou ]b, +[. Notons que
la borne infrieure b de cet intervalle I
u
ne peut pas tre . En eet si b = , alors
I
u
= R. Or u est strictement positif et F(t) tend vers 0 quand t tend vers , donc
pour t t
0
, on a F(t) < u do t / I
u
, do I
u
,= R.
Vrions maintenant que I
u
est toujours de la forme [b, +[ avec b R. On vient
de voir que b est forcment un rel. Tout x strictement suprieur la borne infrieure b
de lintervalle I
u
est dans cet intervalle, donc x I
u
et F(x) u. Lingalit large
x > b, F(x) u,
se conserve par passage la limite droite de F au point b. Or la f.d.r. F est continue
droite en b donc
F(b) = lim
xb
+
F(x) u,
ce qui tablit lappartenance de b I
u
. Finalement, I
u
= [b, +[ et on a montr lexis-
tance dun rel b tel que
I
u
:= x R; u F(x) = [b, +[.
Ceci lgitime les quivalences
_
F(x) u
_

_
x I
u
_

_
x b
_
En posant g(u) := b = inf I
u
= F
1
(u), au sens de (2.4), la fonction g :]0, 1[ R ainsi
dnie vrie (2.7), ce qui achve la preuve
3
.
Remarque 2.3. Il tait commode dans la dmonstration de considrer la loi uniforme
sur lintervalle ouvert ]0, 1[. Comme 0 et 1 sont de mesure de Lebesgue nulle, cette loi
est la mme que la loi uniforme sur [0, 1[ ou ]0, 1] ou [0, 1]. Du point de vue informatique,
il y a cependant une nuance car la loi uniforme simule par la machine est la loi uniforme
discrte sur k2
d
; 0 k < 2
d
ou sur k2
d
; 0 < k 2
d
.
Voici des exemples simples dutilisation de F
1
pour la simulation.
Exemple 2.4 (loi de Cauchy). La loi de Cauchy Cau(0, 1) de densit t
1
(1+t
2
)
a pour
f.d.r.
F : x
1

2
+ arctan x
_
.
Cette fonction de rpartition est continue strictement croissante sur R, donc ralise une
bijection de R sur ]0, 1[. Il est facile de linverser. On en dduit que si U suit la loi
uniforme sur ]0, 1[, Y := tan
_
(U 1/2)
_
suit la loi de Cauchy Cau(0, 1).
3. En toute rigueur, il nous reste vrier la mesurabilit de lapplication g U : R pour
pouvoir parler de la variable alatoire Y := g(U) . Cette mesurabilit sobtient par composition en
notant que g est croissante, donc borlienne.
Ch. Suquet, Cours I.S. 2010 45
Chapitre 2. Simulation de variables et vecteurs alatoires
Exemple 2.5 (lois exponentielles). Si U suit la loi uniforme sur ]0, 1[, Y :=
ln U
a
suit la loi exponentielle de paramtre a. En fait ici F(x) = 1 exp(ax) sinverse en
F
1
(u) =
ln(1u)
a
, mais on exploite le fait que 1 U a mme loi que U.
Exemple 2.6 (lois de Weibull). Les lois de Weibull sont trs utilises en abilit. La
loi Weib(a, b, c) de paramtres a > 0, b 0 et c > 0 est caractrise par sa fonction de
survie G(x) = 1 F(x) donne par
G
a,b,c
(x) = exp
_

_
x b
c
_
a
_
, pour x b.
Clairement b est un paramtre de localisation et c un paramtre dchelle de sorte
que Weib(a, b, c) se dduit par translation et changement dchelle de la loi Weib(a) =
Weib(a, 0, 1) de fonction de survie
G
a
(x) = exp(x
a
), pour x 0.
La simulation de la loi Weib(a, b, c) se ramne ainsi celle de Weib(a). En exploitant
nouveau le fait que U et 1U ont mme loi, on voit immdiatement que Y := (ln U)
1/a
suit la loi Weib(a).
2.3 Mthodes particulires pour lois usuelles
2.3.1 Lois discrtes support ni
Soit X une variable alatoire discrte dont lensemble des valeurs possibles est ni :
X() = x
1
, . . . , x
d
.
Notons
p
k
:= P(X = x
k
), s
0
:= 0, s
k
:=

ik
p
i
, 1 k d.
Les points s
0
, s
1
, . . . , s
d
induisent une partition en intervalles conscutifs de [0, 1] et si
U est une variable de loi uniforme sur [0, 1[, P(U [s
k1
, s
k
[) = s
k
s
k1
= p
k
. On en
dduit que
Y :=
d

k=1
x
k
1
[s
k1
,s
k
[
(U) (2.8)
a mme loi que X. Lcriture (2.8) est commode pour un mathmaticien, mais il serait
maladroit de la programmer telle quelle, car les d multiplications x
k
1
[s
k1
,s
k
]
(U) et la
somme de leurs d rsultats sont inutiles. En pratique, il sut de trouver pour U()
donn, lunique indice k = k() tel que s
k1
U() < s
k
et de dcider alors que
Y () = x
k
. Cest exactement ce que fait la fonction Scilab discr1.sci dont voici le
code.
46 Ch. Suquet, Cours I.S. 2010
2.3. Mthodes particulires pour lois usuelles
function [y]=discr1(x,p)
//
// simule une variable alatoire discrte
// densemble de valeurs possibles x_1,....,x_d
// avec probabilits respectives p_1,...,p_d
// x=( x_1,....,x_d), p=(p_1,...,p_d)
//
if sum(p) ~= 1 then
error(La somme des probabilits doit valoir 1);
end
rand(uniform);
d=length(p);
pp=[0 p(1:(d-1))];
cpp=cumsum(pp); cp=cumsum(p);
U=rand(1,1);
k=find((cpp<= U)&(U<cp));
y=x(k)
endfunction
Si X() est inni dnombrable, la formule (2.8) reste valable avec une srie au lieu
dune somme nie. On ne peut videmment pas la programmer sous cette forme ! Une
possibilit serait de rindexer les p
k
(et donc aussi les x
k
) de faon obtenir une suite
dcroissante. Ensuite on testerait lappartenance de U() [s
k1
, s
k
[ en sarrtant ds
que lon obtient une rponse positive. Ainsi lalgorithme fournira une valeur x
k()
pour
Y () en un temps ni. Cette ide de commencer par les plus grosses valeurs des p
k
peut
dailleurs tre utilise pour optimiser la simulation de X dans le cas ni, particulirement
lorsque d est grand. Par exemple si d = 1001 et p
1001
= 1/2, les autres p
k
valant 1/2000,
il serait maladroit dutiliser la fonction discr1 telle quelle est programme. Voici un
deuxime code o lon a essay de minimiser le nombre de tests utiliss pour produire
Y ().
function [y]=discr2(x,p)
//
// simule une variable alatoire discrte
// densemble de valeurs possibles x_1,....,x_d
// avec probabilits respectives p_1,...,p_d
// x=( x_1,....,x_d), p=(p_1,...,p_d)
// on optimise le nombre de tests en rarrangeant p
// par ordre dcroissant et en quittant ds que la bonne valeur de
// k est trouve
//
if sum(p) ~= 1 then
error(La somme des probabilits doit valoir 1);
end
Ch. Suquet, Cours I.S. 2010 47
Chapitre 2. Simulation de variables et vecteurs alatoires
rand(uniform);
d=length(p);
[pr,i]=sort(p); //rarrangement de p
xr=x(i(:)); // rindexation correspondante pour x
cpr=cumsum(pr);
U=rand(1,1);
k=1;
while U>=cpr(k), k=k+1; end
y=xr(k)
endfunction
2.3.2 Lois binomiales et multinomiales
Pour simuler une variable alatoire X de loi binomiale Bin(n, p), plutt que dutiliser
lalgorithme prcdent, il est prfrable de remarquer que la somme S
n
de n variables
de Bernoulli indpendantes et de mme paramtre p suit la loi Bin(n, p). Pour gnrer
ces variables de Bernoulli, il sut de les prendre gales 1
{U
i
p}
o les U
i
sont i.i.d. de
loi uniforme sur [0, 1]. Ainsi X a mme loi que
S
n
:=
n

k=1
1
{U
i
p}
.
On vite ainsi linconvnient du calcul des valeurs de la f.d.r. de X qui font intervenir
des coecients binomiaux et des puissances de p et 1 p.
En Scilab, un moyen commode de programmer une indicatrice est dutiliser la fonc-
tion bool2s (dont le nom signie Boolean to string). Elle prend en argument un boolen
(vrai %T ou faux %F ) et retourne la valeur 1 pour vrai et 0 pour faux. Do le code trs
simple suivant :
function [Y] = simbin1(n,p)
//
// simule une v.a. de loi Bin(n,p)
//
rand(uniform);U=rand(1,n);
Y=sum(bool2s(U<=p))
endfunction
Pour les dbutants en Scilab, noter que dans ce code, U est un vecteur de longueur
n, il reprsente une ralisation (U
1
(), . . . , U
n
()) du vecteur alatoire (U
1
, . . . , U
n
). De
mme U<=p est un vecteur boolen contenant les rsultats des tests U
1
p, . . . , U
n
p.
Cette mthode pour simuler une variable alatoire de loi binomiale se gnralise la
simulation dun vecteur alatoire de loi multinomiale. Rappelons que le vecteur alatoire
N suit la loi multinomiale de paramtres n et (p
1
, . . . , p
d
) o n N

et les p
i
sont
48 Ch. Suquet, Cours I.S. 2010
2.3. Mthodes particulires pour lois usuelles
strictement positifs et de somme 1, si pour tout d-uple (j
1
, j
2
, . . . , j
d
) dentiers tels que
j
1
+j
2
+ +j
d
= n,
P
_
N = (j
1
, j
2
, . . . , j
d
)
_
=
n!
j
1
!j
2
! . . . j
d
!
p
j
1
1
p
j
2
2
. . . p
j
d
d
.
Un coup doeil sur cette formule devrait vous convaincre de lintrt dviter le calcul de
ces probabilits. On remarque alors opportunment que le vecteur alatoire N a mme
loi que

n
k=1
X
k
, o les X
k
sont des vecteurs alatoires discrets de R
d
, indpendants et
de mme loi donne par
P
_
X
k
= v
i
_
= p
i
, 1 i d,
o lon a pos
v
i
:= (0, . . . , 0, 1,

i
0, . . . , 0).
Autrement dit, on se ramne un modle dpreuves rptes indpendantes et le vecteur
alatoire X
k
est un codage binaire du rsultat de la k
e
preuve. Pour simuler les X
k
,
on adapte de manire vidente (2.8) au cas dun vecteur alatoire discret. Notons donc
s
0
:= 0 et s
i
= p
1
+ + p
i
pour i = 1, . . . d. Les U
k
dsignant toujours des variables
i.i.d. de loi uniforme sur [0, 1], on voit nalement que N a mme loi que
S
n
:=
n

k=1
d

i=1
v
i
1
{s
i1
U
k
<s
i
}
.
Voici un code Scilab inspir de cette formule (notez la permutation des sommations qui
permet de construire le vecteur alatoire Y = S
n
composante par composante, vitant
lutilisation de v
i
).
function [Y]=simultin1(n,p)
//
// simulation dun vecteur alatoire de loi multinomiale de paramtres
// n (nombre dpreuves) et p vecteur des probabilits de rsultats
// lmentaires pour une preuve.
// Retourne un vecteur colonne.
//
d=length(p);
s=[0 cumsum(p)];// graduation de [0,1] en d intervalles de longueur p(i)
rand("uniform");U=rand(1:n);
Y=zeros(d,1); // initialisation
for i=1:d,
Y(i,1)=sum(bool2s((s(i)<=U)&(U<s(i+1)))); // attention s(1)=0, s(d+1)=1
end
endfunction
Ch. Suquet, Cours I.S. 2010 49
Chapitre 2. Simulation de variables et vecteurs alatoires
2.3.3 Lois de Poisson
La variable alatoire discrte X suit la loi de Poisson de paramtre ( R

+
) si
X() = N et k N, P(X = k) =
e

k
k!
.
Lalgorithme de simulation que nous allons proposer pour cette loi repose sur le lemme
suivant.
Lemme 2.7. Soit (E
i
)
i1
une suite de variables alatoires indpendantes et de mme
loi exponentielle de paramtre . Notons S
1
:= E
1
et pour n 2, S
n
:= E
1
+ + E
n
.
On a alors
n 1, P(S
n
1 < S
n+1
) =
e

n
n!
. (2.9)
Preuve. Le vecteur alatoire V
n+1
:= (E
1
, . . . , E
n
, E
n+1
) a pour densit :
f
n+1
: (x
1
, . . . , x
n+1
)
n+1
exp
_
(x
1
+ +x
n+1
)
_
1
R
n+1
+
(x
1
, . . . , x
n+1
),
parce que ses composantes sont indpendantes et de mme densit f
1
. Pour exprimer
P(S
n
1 < S
n+1
) laide de la loi de V
n+1
, on introduit le borlien
A
n+1
:=
_
x R
n+1
; x
1
+ +x
n
1 < x
1
+ +x
n
+x
n+1
_
et on remarque que
P(S
n
1 < S
n+1
) = P(V
n+1
A
n+1
) =
_
A
n+1
R
n+1
+
f
n+1
(x
1
, . . . , x
n+1
) dx
1
. . . dx
n+1
.
Pour calculer cette intgrale, il est commode dutiliser le changement de variable linaire
bijectif
: (x
1
, . . . , x
n+1
) (s
1
, . . . , s
n+1
), o s
k
:=

ik
x
i
, k = 1, . . . , n + 1.
On voit immdiatement que lapplication
1
est donne par x
1
= s
1
et x
k
= s
k
s
k1
pour k 2 et que son dterminant vaut 1. En notant pour allger A
+
n+1
:= A
n+1
R
n+1
+
,
la formule de changement de variable pour les bijections linaires scrit donc
P(S
n
1 < S
n+1
) =
_
(A
+
n+1
)

n+1
exp(s
n+1
) ds
1
. . . ds
n+1
.
Pour dterminer (A
+
n+1
), on note que A
+
n+1
est caractris par les inquations :
i = 1, . . . n + 1, x
i
0 et x
1
+ +x
n
1 < x
1
+ +x
n
+x
n+1
.
En remplaant x par
1
(s) dans ces inquations, on obtient la caractrisation de
(A
+
n+1
), savoir : s
1
0, i = 2, . . . , n + 1, s
i
s
i1
0 et s
n
1 < s
n+1
. On
voit ainsi que
(A
+
n+1
) =
_
s R
n+1
; 0 s
1
s
2
s
n
1 < s
n+1
_
= B
n
]1, +[,
50 Ch. Suquet, Cours I.S. 2010
2.3. Mthodes particulires pour lois usuelles
o lon a not B
n
le simplexe
B
n
:=
_
s R
n
; 0 s
1
s
2
s
n
1
_
.
Cette criture de (A
+
n+1
) en produit cartsien nous permet dappliquer le thorme de
Fubini Tonelli pour obtenir
P(S
n
1 < S
n+1
) =
n
__
B
n
ds
1
. . . ds
n
_
_
_
]1,+[
exp(s
n+1
) ds
n+1
_
=
n

n
(B
n
)
_
+
1
exp(t) dt
=
n

n
(B
n
)e

.
Il ne reste plus qu vrier que
n
(B
n
) = 1/n! pour achever la preuve de (2.9). On peut
le voir de manire gomtrique en notant C
n
:= [0, 1]
n
et C

n
le sous-ensemble de C obtenu
en supprimant dans C tous les points ayant au moins deux coordonnes gales. Comme
C
n
C

n
est inclus dans une runion nie dhyperplans (dquation s
i
= s
j
) tous de
n
-
mesure nulle,
n
(C
n
) =
n
(C

n
). On partitionne alors C

n
en n! simplexes se dduisant de
B

n
:= s R
n
; 0 s
1
< s
2
< < s
n
1 par une permutation de coordonnes. La
mesure de Lebesgue
n
tant invariante par permutation de coordonnes, on en dduit

n
(C

n
) = n!
n
(B

n
), puis 1 =
n
(C
n
) = n!
n
(B
n
).
Pour complter le lemme 2.7, remarquons que lon peut tendre (2.9) au cas partic-
ulier n = 0. En posant S
0
:= 0, (2.9) rsulte dans ce cas de lgalit
P(1 < S
1
) = P(E
1
]1, +[) =
_
+
1
exp(t) dt = e

.
Il rsulte immdiatement du lemme 2.7 que la variable alatoire
Y :=
+

k=1
k1
{S
k
1<S
k+1
}
suit la loi de Poisson de paramtre . Pour dduire de cette formule un algorithme eectif,
on simule les E
i
par la mthode de lexemple 2.5, ce qui revient poser E
i
=
1
ln U
i
,
les U
i
tant i.i.d. de loi uniforme sur [0, 1]. On dispose alors des quivalences
S
k
1 < S
k+1

1

i=1
ln U
i
1 <
1

k+1

i=1
ln U
i

k+1

i=1
U
i
< e

i=1
U
i
. (2.10)
Lalgorithme est donc le suivant. On gnre lune aprs lautre les variables U
i
et on
compare leur produit e

, en sarrtant lorsque (2.10) est vrie. On attribue alors


Y la valeur correspondante de k. Voici une traduction en Scilab de cet algorithme.
Ch. Suquet, Cours I.S. 2010 51
Chapitre 2. Simulation de variables et vecteurs alatoires
function [Y]=simpois1(alpha)
//
// simule une variable alatoire suivant
// la loi de Poisson de paramtre alpha
//
rand(uniform);
a=exp(-alpha);
k=0; // initialisation
M=rand(1,1);
while (M>=a) do
M=M*rand(1,1); k=k+1;
end
Y=k;
endfunction
Comme la suite de terme gnral M
n
:= U
1
. . . U
n
converge presque srement vers 0
(exercice !), on est sr daboutir en un nombre ni de pas. De faon plus quantitative, on
peut dire aussi que le nombre moyen de variables U
i
gnrer pour que lalgorithme
aboutisse est gal 1+ puisque EY = (si lalgorithme rpond Y () = k, cest quil a
calcul k +1 variables U
i
pour arriver (2.10)). Notons N
n
le nombre total de variables
alatoires U
i
gnrer pour simuler un chantillon de taille n de variables alatoires
indpendantes et de mme loi que Y . En remarquant que Var(1 + Y ) = Var Y = , on
a par lingalit de Tchebyche
P
_
[N
n
n(1 +)[ t

n
_

1
t
2
.
Par exemple, la simulation de 400 v.a. de Poisson de paramtre = 4 consomme un
nombre de variables uniformes compris avec une probabilit dau moins 99% entre 1600
et 2400 .
2.3.4 Lois gomtriques
Rappelons que X suit la loi gomtrique de paramtre p ]0, 1[ si
X() = N

et k N

, P(X = k) = (1 p)
k1
p.
Cest la loi du temps dattente dun premier succs dans une suite dpreuve rptes
indpendantes ayant chacune mme probabilit de succs p. Par consquent si (U
i
)
i1
est une suite i.i.d. de variables suivant la loi uniforme sur [0, 1], la variable alatoire
Y := mink N

; U
k
< p (2.11)
suit la loi gomtrique
4
de paramtre p. Lalgorithme correspondant (2.11) consiste
donc gnrer une v.a. U
k
de loi uniforme tant que la valeur obtenue est suprieure ou
4. En toute rigueur, il faudrait adopter la convention min = + et considrer Y comme variable
alatoire discrte (, F) N

+. Pour en faire une variable discrte classique, il faut la dnir sur

:= Y = + muni de la tribu trace F

de F. Comme P(Y = +) = P(k N

, U
k
p) = 0
(exercice !), cela ne change pas la loi de Y . . .
52 Ch. Suquet, Cours I.S. 2010
2.3. Mthodes particulires pour lois usuelles
gale p et sarrter la premire valeur de U
k
strictement infrieure p en retournant
son indice.
function [Y]=simgeom1(p)
//
// simule une v.a. suivant la loi gomtrique de paramtre p
// comme temps dattente du premier succs dans un schma de Bernoulli
//
rand(uniform);
k=1; // initialisation
U=rand(1,1);
while (U>=p) do
U=rand(1,1); k=k+1;
end
Y=k;
endfunction
Cet algorithme sarrte en un temps ni car p > 0 et min
in
U
i
converge p.s. vers 0
(exercice). Le nombre moyen de variables alatoires uniformes utilises est EY = 1/p,
ce qui peut tre coteux pour les petites valeurs de p. De ce point de vue, le deuxime
algorithme propos ci-dessous, quoique moins naturel, est plus conomique puisquil
nutilise quune seule variable alatoire uniforme. Il repose sur le lemme suivant dont la
vrication est immdiate.
Lemme 2.8. Si E est une v.a. de loi exponentielle de paramtre a, alors
n 1, P(n 1 < E n) =
_
e
a
_
n1
_
1 e
a
_
. (2.12)
Comme 0 < a < +, e
a
et 1 e
a
sont dans ]0, 1[. Choisissant alors a dans (2.12)
tel que 1 e
a
= p, c.--d. a := ln(1 p), on voit que la partie entire suprieure de
E suit la loi gomtrique de paramtre p.
En simulant E par la mthode de lexemple 2.5, on aboutit au code Scilab suivant
(ceil est la fonction partie entire suprieure) :
function [Y]=simgeom2(p)
//
// simule une v. a. suivant la loi gomtrique de paramtre p
// comme partie entire suprieure dune v.a. de loi
// exponentielle de paramtre a=-ln(1-p)
//
Y=ceil(log(rand(1,1,uniform))./log(1-p));
endfunction
2.3.5 Lois gaussiennes
La plupart des logiciels utilisant un gnrateur de nombres alatoires ont une option
gaussiennes permettant de simuler des variables gaussiennes. Par exemple en Scilab
Ch. Suquet, Cours I.S. 2010 53
Chapitre 2. Simulation de variables et vecteurs alatoires
linstruction rand(normal) est un commutateur qui fait passer le gnrateur en mode
gaussien. Aprs cette instruction, rand(m,n) gnre une matrice mn dont les termes
sont considrs comme des X
i,j
(), les X
i,j
tant des variables alatoires de mme loi
N(0, 1) et indpendantes
5
. Cette fonctionnalit du gnrateur ne devrait pas nous dis-
penser de rchir un instant la faon dont on peut programmer la simulation dune
variable alatoire gaussienne partir de la gnration de variables uniformes.
En notant la fonction de rpartition de N(0, 1), qui est continue et strictement
croissante sur R, la mthode gnrale expose la section 2.2 nous propose de prendre

1
(U). Lennui cest quon ne connat pas dexpression analytique pour ni pour

1
et que linversion numrique de serait assez coteuse. Le lemme suivant fournit
immdiatement un algorithme bien plus simple, connu sous le nom de mthode de Box
Muller.
Lemme 2.9. Si U
1
et U
2
sont indpendantes et de loi uniforme sur ]0, 1[, les variables
alatoires
X := (2 ln U
1
)
1/2
cos(2U
2
) et Y := (2 ln U
1
)
1/2
sin(2U
2
)
sont indpendantes et de mme loi N(0, 1).
Preuve. Le vecteur alatoire (U
1
, U
2
) suit la loi uniforme sur ]0, 1[
2
, de densit f
U
1
,U
2
=
1
]0,1[
2. Le changement de variable
g : (u
1
, u
2
) (x, y) avec
_
_
_
x = (2 ln u
1
)
1/2
cos(2u
2
)
y = (2 ln u
1
)
1/2
sin(2u
2
)
ralise un C
1
-diomorphisme de louvert D =]0, 1[
2
sur louvert D

= R
2
(0, 0). On
sait alors, cf. cours dI.P.. chapitre 5, que le vecteur alatoire (X, Y ) = g(U
1
, U
2
) a une
densit f
X,Y
donne par
f
X,Y
(x, y) = f
U
1
,U
2
_
g
1
(x, y)
_

Jac(g
1
)(x, y)

1
D
(x, y).
Pour tout (x, y) R
2
(0, 0), g
1
(x, y) appartient ]0, 1[
2
et comme f
U
1
,U
2
vaut 1 sur
]0, 1[
2
, le premier facteur dans la formule ci-dessus scrit f
U
1
,U
2
_
g
1
(x, y)
_
= 1. Pour
calculer Jac(g
1
)(x, y), on calcule Jac(g)(u
1
, u
2
) et on utilise la formule
Jac(g
1
)(x, y) =
1
Jac(g)
_
g
1
(x, y)
_
.
En notant g = (g
1
, g
2
), les drives partielles de g sont
g
1
u
1
= u
1
1
(2 ln u
1
)
1/2
cos(2u
2
),
g
1
u
2
= 2(2 ln u
1
)
1/2
sin(2u
2
),
g
2
u
1
= u
1
1
(2 ln u
1
)
1/2
sin(2u
2
),
g
2
u
2
= 2(2 ln u
1
)
1/2
cos(2u
2
).
5. Au risque denfoncer une porte ouverte, rappelons ce propos que si X a pour loi N(0, 1), X+m
a pour loi N(m, ) (pour tous R
+
et m R). Ainsi pour simuler nimporte quelle loi gaussienne
(en dimension 1), il sut de savoir simuler N(0, 1).
54 Ch. Suquet, Cours I.S. 2010
2.4. Algorithmes de rejet
On en dduit que
Jac(g)(u
1
, u
2
) =
g
1
u
1
g
1
u
2
g
2
u
1
g
2
u
2
=
2
u
1
cos
2
(2u
2
) +
2
u
1
sin
2
(2u
2
) =
2
u
1
.
Pour exprimer u
1
en fonction de (x, y), on remarque que x
2
+ y
2
= 2 ln u
1
, do u
1
=
exp
_
(x
2
+y
2
)/2
_
et

Jac(g
1
)(x, y)

=
1
2
exp
_

x
2
+y
2
2
_
.
Finalement la densit du couple (X, Y ) est donne par
f
X,Y
(x, y) =
1
2
exp
_

x
2
+y
2
2
_
1
D
(x, y).
Comme 1
D
et 1
R
2 ne dirent que sur le singleton (0, 0) qui est un ensemble de mesure
nulle, (X, Y ) admet aussi pour densit
6

f
X,Y
(x, y) = (2)
1
exp
_
(x
2
+y
2
)/2
_
qui est
la forme classique de la densit dun couple de v.a. i.i.d. N(0, 1). Donc X et Y sont
gaussiennes N(0, 1) indpendantes.
2.4 Algorithmes de rejet
La mthode du rejet (appele aussi dacceptation-rejet) peut tre dcrite abstraite-
ment comme suit. On suppose que lon sait gnrer un vecteur alatoire M
1
de R
d
suivant une certaine loi . On gnre alors lun aprs lautre, les vecteurs de la suite
i.i.d. M
1
, . . . , M
n
, . . . en sarrtant au premier dentre eux qui vrie une certaine con-
dition (]
0
). Soit T lindice (alatoire) correspondant. On a ainsi fabriqu un vecteur
(doublement) alatoire M
T
. Comme T est alatoire, la loi de ce vecteur nest pas celle
de M
1
, cest une nouvelle loi . Si la simulation de M
1
et le test de (]
0
) sont facilement
programmables, on dispose ainsi dune mthode pour gnrer un vecteur alatoire de
loi . Nous allons voir comment fonctionne ce principe gnral dabord pour la simula-
tion dun vecteur alatoire de loi uniforme sur un borlien de R
d
, puis pour celle dun
vecteur alatoire de densit connue et enn pour simuler certaines lois discrtes.
2.4.1 Simulation de lois uniformes par rejet
Commenons par rappeler la dnition de la loi uniforme sur un borlien.
Dnition 2.10. Soient (, F, P) un espace probabilis et B un borlien de R
d
tel que
0 <
d
(B) < +,
d
dsignant la mesure de Lebesgue sur R
d
. Le vecteur alatoire
M : R
d
suit la loi uniforme sur B si sa loi P
M
est la probabilit uniforme sur B,
c.--d.
A Bor(R
d
), P
M
(A) = P(M A) =

d
(A B)

d
(B)
. (2.13)
6. On peut remplacer f
X,Y
par

f
X,Y
dans les intgrales sans changer la valeur de ces intgrales.
Ch. Suquet, Cours I.S. 2010 55
Chapitre 2. Simulation de variables et vecteurs alatoires
Rappelons aussi que si le vecteur alatoire M de R
d
suit la loi uniforme sur B, il
admet pour densit
f
M
=
1

d
(B)
1
B
.
partir dune variable U de loi uniforme sur [0, 1], on fabrique facilement V de loi
uniforme sur [a, b] en prenant V := a + (b a)U. On en dduit la construction dun
vecteur alatoire M = (V
1
, . . . , V
d
) de loi uniforme sur le pav B = [a
1
, b
1
] [a
d
, b
d
],
en prenant V
i
:= a
i
+(b
i
a
i
)U
i
, les U
i
tant i.i.d. de loi uniforme sur [0, 1]. En eet la loi
P
V
i
de V
i
a pour densit c
i
1
[a
i
,b
i
]
avec c
i
= (b
i
a
i
)
1
. Les V
i
hritent de lindpendance
des U
i
puisque V
i
= h
i
(U
i
) avec h
i
mesurable. On en dduit que P
M
a pour densit la
fonction f donne par
f(x
1
, . . . , x
d
) = c
1
1
[a
1
,b
1
]
(x
1
) . . . c
d
1
[a
d
,b
d
]
(x
d
) = (c
1
. . . c
d
)1
[a
1
,b
1
][a
d
,b
d
]
(x
1
, . . . , x
d
)
=
d
(B)
1
1
B
(x
1
, . . . , x
d
),
autrement dit que P
M
est la loi uniforme sur B.
En dehors de ce cas particulier o B est un pav et de ceux qui sy ramnent par
transformation ane, par exemple loi uniforme sur un paralllogramme, la simulation
dun vecteur alatoire de loi uniforme sur un borlien demande un peu plus de travail.
Lalgorithme du rejet est souvent une bonne solution ce problme. On suppose que
B
M
1
M
2
M
T
Figure 2.2 Simulation par rejet de la loi uniforme sur B, ici T() = 3
lon sait gnrer un vecteur alatoire M
1
de loi uniforme sur un borlien C contenant B
(cest le cas notamment lorsque B est born en prenant pour C un pav assez grand). On
gnre alors squentiellement les vecteurs i.i.d. M
1
, . . . , M
n
, . . . en sarrtant au premier
dentre eux qui vrie la condition M
i
B. Soit T lindice (alatoire) correspondant. T
est donc le numro du premier point tomb dans B. Alors le vecteur alatoire M
T
suit la loi uniforme sur B.
La justication de cet algorithme repose sur le rsultat suivant, quil est commode
dnoncer dans un cadre un peu plus gnral.
Proposition 2.11. Soit (M
n
)
nN
une suite de vecteurs alatoires R
d
, indpendants
et de mme loi . Soit B un borlien de R
d
tel que (B) > 0. Pour tout , on pose
T() := infi N

; M
i
() B,
56 Ch. Suquet, Cours I.S. 2010
2.4. Algorithmes de rejet
avec la convention inf = +. On dnit M
T
: R
d
par
M
T
() :=
_
_
_
M
T()
() si T() < +,
0 si T() = +.
Dans ces conditions,
a) P(T < +) = 1 et T

:= T1
{T<+}
est une variable alatoire suivant la loi
gomtrique de paramtre p = (B).
b) M
T
est un vecteur alatoire de loi donne par
A Bor(R
d
), (A) = P(M
T
A) =
(A B)
(B)
.
Autrement dit, est la probabilit conditionnel le ( . [ B).
En particulier lorsque est la loi uniforme sur un borlien C contenant B et tel que
0 <
d
(B) <
d
(C), est la loi uniforme sur B.
Preuve du a). Lintroduction de T

a pour seul but dviter de travailler avec une v.a.


valeurs dans N. Nous verrons dans un instant que de toutes faons T et T

sont p.s.
gales . Commenons par justier la mesurabilit de lapplication T

: N. En raison
de la dnombrabilit de N, il sut de vrier
7
que
k N, T
1
(k) F. (2.14)
Si k N

, on a T

= k = T = k do
T

= k = i < k, M
i
/ B et M
k
B =
_

1i<k
M
1
i
(B
c
)
_
M
1
k
(B), (2.15)
tandis que dans le cas particulier k = 0,
T

= 0 = T = + = i N

, M
i
/ B =
iN

M
1
i
(B
c
). (2.16)
Les M
i
tant des vecteurs alatoires dans R
d
, donc mesurables F-Bor(R
d
), limage r-
ciproque par M
i
dun borlien quelconque de R
d
est un lment de F. Il rsulte alors
de (2.15) et de (2.16) que T
1
(k) est intersection nie ou dnombrable dlments de
F, ce qui tablit (2.14). Ainsi T

est bien une variable alatoire discrte valeurs dans


N.
Sa loi est caractrise par les P(T

= k). Posons p = (B) = P(M


i
B). Si k N

,
la dcomposition (2.15) et lindpendance des M
i
nous donnent
k N

, P(T = k) = (1 p)
k1
p. (2.17)
Calculons P(T

= 0) = P(T = +). Par hypothse (B) > 0, donc 1 p = (B


c
) =
P
_
M
1
i
(B
c
)
_
est strictement infrieur 1. En remarquant que pour tout n N

on
7. Voir la dnition dune v.a. discrte dans le cours dI.P..
Ch. Suquet, Cours I.S. 2010 57
Chapitre 2. Simulation de variables et vecteurs alatoires
a linclusion
iN
M
1
i
(B
c
)
in
M
1
i
(B
c
), on a par indpendance P(T = +)
(1 p)
n
, do en faisant tendre n vers linni,
P(T

= 0) = P(T = +) = 0. (2.18)
Daprs (2.17), T

suit la loi gomtrique de paramtre p = (B).


Preuve du b). Commenons par vrier que M
T
est un vecteur alatoire, cest--dire une
application F-Bor(R
d
) mesurable, en montrant que M
1
T
(A) F pour tout A Bor(R
d
).
En partitionnant suivant les vnements T = k, on a la dcomposition :
M
1
T
(A) = ; M
T()
() A =
kN

_
M
T
A T = k
_
.
Cette union tant dnombrable, il sut de vrier que chacun de ses termes est un
lment de F. Si k N

, ceci rsulte de la mesurabilit des M


i
via la dcomposition
M
T
A T = k = ; T() = k et M
k
() A
=
i<k
M
i
/ B M
k
B M
k
A
=
i<k
M
1
i
(B
c
) M
1
k
(A B). (2.19)
Dans le cas particulier k = +,
M
T
A T = + =
iN

M
1
i
(B
c
) M

A.
M

tant le vecteur alatoire constant 0, M

A vaut ou selon que 0 appartient


ou non A. On a donc une intersection dnombrable dlments de F.
Maintenant que nous voil rassurs sur la mesurabilit de M
T
, on peut sintresser
sa loi que lon dtermine en calculant (A) = P(M
T
A) pour A Bor(R
d
). En
partitionnant par les T = k et compte-tenu de (2.18), on obtient :
(A) =

kN

P(M
T
A et T = k). (2.20)
La dcomposition (2.19) et lindpendance des M
i
nous donnent
P(M
T
A et T = k) = (1 p)
k1
(A B),
do en reportant dans (2.20) et en notant que 0 < 1 p < 1,
(A) = (A B)

kN

(1 p)
k1
= (A B)
1
1 (1 p)
=
(A B)
(B)
.
On a donc bien = ( . [ B). Dans le cas particulier o est la loi uniforme sur un
borlien C contenant B et tel que 0 <
d
(B) <
d
(C), on obtient grce (2.13),
A Bor(R
d
), (A) =

d
(ABC)

d
(C)

d
(BC)

d
(C)
=

d
(A B)

d
(B)
,
ce qui montre que est la loi uniforme sur B.
58 Ch. Suquet, Cours I.S. 2010
2.4. Algorithmes de rejet
2.4.2 Simulation de lois densit par rejet
La mthode du rejet permet aussi de simuler des variables ou des vecteurs alatoires
dont la loi est densit par rapport la mesure de Lebesgue, en saidant dune autre
densit dont on sait simuler la loi. Commenons par la description de lalgorithme.
On voudrait simuler une variable alatoire Z, de densit f. On suppose que lon sait
simuler une v.a. X de densit g et trouver une constante c telle que f cg (ncessaire-
ment c 1, pourquoi ?). Les X
i
sont des v.a. indpendantes de mme loi ayant pour den-
sit g, les U
i
des variables alatoires indpendantes de mme loi uniforme sur [0, 1] et les
suites (X
i
)
i1
et (U
i
)
i1
sont indpendantes. On gnre la suite des M
i
:=
_
X
i
, cg(X
i
)U
i
_
en sarrtant au premier indice i
0
(alatoire) tel que cg(X
i
0
)U
i
0
f(X
i
0
). On pose alors
Z =: X
i
0
et Z a pour densit f.
La justication de cet algorithme repose sur la proposition 2.11 combine avec les
deux propositions suivantes dont nous dirons lgrement la preuve.
Proposition 2.12. Soit f une densit de probabilit sur R et G son hypographe :
G :=
_
(x, y) R R; 0 y f(x)
_
.
Soit M = (Z, Y ) un vecteur alatoire de RR de loi uniforme sur G. Alors la loi de la
variable alatoire Z a pour densit f.
Proposition 2.13. Soit X une variable alatoire rel le de densit g. Posons
M :=
_
X, cg(X)U
_
,
o U est une variable alatoire de loi uniforme sur [0, 1], indpendante de X et c > 0
une constante. On note H lhypographe de cg :
H :=
_
(x, y) R R; 0 y cg(x)
_
.
Alors M suit la loi uniforme sur H.
Avant de les dmontrer, voyons dabord comment on utilise les propositions 2.12 et
2.13.
Justication de lalgorithme. On conserve les notations des propositions 2.12 et 2.13.
Les fonctions f et g sont des densits donc
_
+

f(t) dt =
_
+

g(t) dt = 1. Dautre part


f cg, donc G est inclus dans H.
En utilisant linterprtation de lintgrale gnralise dune fonction positive comme
aire de son hypographe, cf. cours I.P.. Annexe B, on a
1 =
_
+

f(t) dt =
2
(G)
2
(H) =
_
+

cg(t) dt = c,
ce qui montre que c 1 et que
2
(H G) = c 1. Donc en imposant la constante
c de vrier la fois f cg et c > 1, on est sr que 0 <
2
(G) <
2
(H) < +. Par
Ch. Suquet, Cours I.S. 2010 59
Chapitre 2. Simulation de variables et vecteurs alatoires
hypothse, on sait simuler les suites indpendantes (X
i
)
i1
et (U
i
)
i1
, la premire tant
i.i.d. avec les X
i
de densit g et la seconde i.i.d. avec les U
i
de loi uniforme sur [0, 1]. En
raison de toutes ces indpendances, la suite des vecteurs M
i
:=
_
X
i
, cg(X
i
)U
i
_
est i.i.d.
et par la proposition 2.13, les M
i
suivent la loi uniforme sur H.
Posons maintenant
T() := infi N

; M
i
() G
et
M
T
() :=
_
_
_
M
T()
() si T() < +,
0 si T() = +.
Par la proposition 2.11, M
T
est un vecteur alatoire de R
2
, de loi uniforme sur G. La
proposition 2.12 nous permet alors de conclure que sa premire composante Z = X
T
a
pour densit f.
Signalons pour les curieux que les propositions 2.12 et 2.13 et donc lalgorithme de
simulation par rejet dune loi densit donne se gnralisent
8
la dimension d en
remplaant partout RR par R
d
R, Z et X devenant alors des vecteurs alatoires de
R
d
.
Preuve de la proposition 2.12. Pour identier la loi de Z lorsque M = (Z, Y ) suit la loi
uniforme sur G, nous allons calculer P(Z [a, b]) pour tout intervalle [a, b] R. Notons
G
a,b
lintersection de lhypographe G avec la bande verticale [a, b] R, cf. gure 2.3.
On peut aussi voir G
a,b
comme lhypographe de la restriction de f [a, b]. On sappuie
G
a,b
y
=
f
(
t
)
t
y
0
a
b
Figure 2.3 Ensemble G
a,b
sur notre connaissance de la loi de M en notant que
P(Z [a, b]) = P
_
(Z, Y ) [a, b] R
_
=

2
_
G ([a, b] R)
_

2
(G)
=
2
(G
a,b
), (2.21)
car
2
(G) =
_
+

f(t) dt = 1. Laire de lhypographe dune fonction positive sur [a, b]


tant gale lintgrale de Riemann (ventuellement gnralise) de cette fonction sur
8. Voir http://math.univ-lille1.fr/~suquet/ens/Agr/simul06.pdf
60 Ch. Suquet, Cours I.S. 2010
2.4. Algorithmes de rejet
[a, b], on a
P(Z [a, b]) =
2
(G
a,b
) =
_
b
a
f(t) dt.
Cette formule tant valable pour tous rels a et b tels que a < b, on en dduit que Z a
pour densit f.
Preuve de la proposition 2.13. Pour identier la loi de M :=
_
X, cg(X)U
_
, nous allons
calculer Eh(M) pour h : R
2
R
+
continue support compact
9
quelconque. M tant
une fonction du couple (X, U), il est commode dexprimer Eh(M) laide de la densit
de ce couple. Par indpendance de X et U, cette densit scrit (x, u) g(x)1
[0,1]
(u).
Ainsi
Eh(M) =
_
R
2
h
_
x, cg(x)u
_
g(x)1
[0,1]
(u) dx du
=
_
+

1
c
__
1
0
h
_
x, cg(x)u
_
cg(x) du
_
dx. (2.22)
Notons I(x) lintgrale entre accolades. Si g(x) > 0, le changement de variable y = cg(x)u
x x nous donne
I(x) =
_
cg(x)
0
h(x, y) dy =
_
+

h(x, y)1
[0,cg(x)]
(y) dy =
_
+

h(x, y)1
H
(x, y) dy. (2.23)
Remarquons que si g(x) = 0, [0, cg(x)] = 0 et
_
+

h(x, y)1
[0,cg(x)]
(y) dy = 0. On peut
donc retenir la formule (2.23) comme lexpression gnrale de I(x), y compris lorsque
g(x) = 0. Par report de cette expression dans (2.22), on obtient
Eh(M) =
_
R
2
h(x, y)
1
c
1
H
(x, y) dx dy =
_
R
2
h(x, y)
1

2
(H)
1
H
(x, y) dx dy.
Cette formule tant vraie pour toute h : R
2
R
+
continue borne, on en dduit que le
vecteur alatoire M suit la loi de densit
2
(H)
1
1
H
, autrement dit que M suit la loi
uniforme sur H.
Exemple 2.14 (lois Gamma). La loi Gamma de paramtre a > 0 est dnie par sa
densit
f(t) =
1
(a)
t
a1
e
t
1
]0,+[
(t).
Nous examinons le cas 0 < a < 1. Le cas a = 1 est celui de la loi exponentielle et pour
a 1, nous renvoyons [3] o plusieurs algorithmes sont proposs. Lintrt de ce cas
est de fournir un exemple o les densits f et g ne sont pas bornes. Pour contrler
lexplosion de f en zro, il nous faut utiliser une densit g tendant vers + au moins
aussi vite. Une bonne candidate est la densit g de la loi de Weibull de paramtre a,
9. Il est facile de voir que la loi dun vecteur alatoire de R
2
est caractrise par la famille de ces
moments fonctionnels, par exemple en montrant que lindicatrice dun pav ouvert ]a, b[]c, d[ est limite
dune suite croissante de telles fonctions (exercice).
Ch. Suquet, Cours I.S. 2010 61
Chapitre 2. Simulation de variables et vecteurs alatoires
quil est facile de simuler, cf. exemple 2.6. En eet en drivant la f.d.r. F = 1 G
a
, on
trouve
g(t) = at
a1
exp(t
a
)1
]0,+[
(t).
On vrie par un simple calcul de maximum que pour tout t > 0,
f(t)
g(t)
=
exp(t
a
t)
a(a)
c :=
exp(b(1 a))
(a + 1)
, o b = a
a/(1a)
.
Voici une implmentation en Scilab de lalgorithme du rejet pour simuler une loi Gamma
de paramtre a ]0, 1[. Pour des raisons de lisibilit, le code a t scind en trois fonctions
regroupes dans le mme chier.
function [y]=gamdns(a,t)
//
// densit de la loi Gamma(a)
//
y=exp(-t).*t.^(a-1)./gamma(a);
endfunction
function [y]=weibdns(a,t)
//
// densit de la loi de Weibull de paramtre a
//
y=a.*t.^(a-1).*exp(-t.^a);
endfunction
function [Z]=simgamm(a)
//
// simule une variable de loi Gamma(a) pour 0<a<1
// par la mthode du rejet en utilisant la densit de Weib(a)
//
if a>1 then error("erreur, le paramtre doit tre <1"); end
// Calcul de la constante de rejet
b=a.^(a./(1-a)); c=exp(b.*(1-a))./gamma(1+a);
test = %T;
rand(uniform);
while test do
U=rand();V= rand();
X = (-log(V)).^(1/a) ; // simulation dune v.a. de loi Weib(a)
test =( c.*U.*weibdns(a,X) > gamdns(a,X) );
end
Z = X;
endfunction
62 Ch. Suquet, Cours I.S. 2010
2.4. Algorithmes de rejet
2.4.3 Simulation dune loi discrte par rejet
La porte de la mthode du rejet ne se limite pas aux lois densit. On peut aussi
appliquer les ides exposes ci-dessus la simulation de lois discrtes. Pour ne pas
alourdir les notations, nous nous limiterons au cas de lois discrtes dont lensemble des
valeurs possibles est inclus dans N.
On se propose de simuler une variable alatoire discrte Z dont la loi est donne par
lensemble Z() N et la fonction f : N [0, 1], k f(k) = p
k
= P(Z = k). On
suppose pour cela que lon sait simuler une variable alatoire discrte X de loi donne
par X() N et g : N [0, 1], k g(k) = q
k
= P(X = k) et que lon connat une
constante c > 1 telle que f cg (ceci suppose que Z() X()).
Proposition 2.15. Avec les notations ci-dessus, soit (X
i
)
i1
une suite de variables ala-
toires discrtes indpendantes de mme loi que X et (U
i
)
i1
une suite i.i.d. de variables
alatoires uniformes sur [0, 1], les deux suites tant indpendantes. On note (M
i
)
i1
la
suite de vecteurs alatoires
M
i
:= (X
i
, cg(X
i
)U
i
), i N

et on dnit T par
T() := infi N

; cg(X
i
)U
i
f(X
i
),
avec la convention inf = +. On dnit X
T
: R
d
par
X
T
() :=
_
_
_
X
T()
() si T() < +,
0 si T() = +.
Alors X
T
est une v.a. discrte de mme loi que Z : P(X
T
= k) = f(k) pour tout k N.
Preuve. Notons M := (X, cg(X)U) avec U uniforme sur [0, 1] et indpendante de X et
dnissons M
T
sur le mme modle que X
T
ci-dessus. Avant de chercher la loi de M
T
,
intressons nous la loi de M. Pour la caractriser, il sut de connatre
10
(k[0, y])
pour tout k N et tout y R
+
. Cette connaissance va dcouler du calcul suivant o lon
suppose g(k) > 0, le cas g(k) = 0 tant trivial puisque (k [0, y]) (k R
+
) =
P(X = k) = g(k).
P(M k [0, y]) = P(X = k et cg(X)U y)
= P
_
X = k et U
y
cg(k)
_
= P(X = k)P
_
U
y
cg(k)
_
(X et U indpendantes)
= g(k) min
_
y
cg(k)
, 1
_
. (2.24)
10. Vriez le en montrant par exemple, que pour tout pav C =]a, b]]a

, b

], la connaissance des
(k [0, y]) dtermine la valeur de (C).
Ch. Suquet, Cours I.S. 2010 63
Chapitre 2. Simulation de variables et vecteurs alatoires
Considrons le borlien B := (k, y) N R
+
; 0 y f(k). Il est facile de voir
que (B) nest pas nul. En eet grce (2.24) et en rappelant que f cg et c > 1, on
obtient
(B) = P(M B) =

kN
g(k) min
_
f(k)
cg(k)
, 1
_
=

kN
f(k)
c
=
1
c
. (2.25)
Ainsi les conditions dapplication de la proposition 2.11 sont satisfaites
11
. On sait alors
que M
T
a pour loi ( . [ B). Ceci nous permet de calculer la loi de X
T
.
P(X
T
= k) = P(M
T
k R
+
) = P(M k R
+
[ M B)
=
P
_
M (k R
+
) B
_
(B)
= cP(M k [0, f(k)])
= cg(k) min
_
f(k)
cg(k)
, 1
_
= f(k).
La variable alatoire discrte X
T
a donc mme loi que Z.
Exemple 2.16 (lois de Zipf). Ces lois utilises en linguistique et en sciences sociales
sont construites partir de la function de Riemann (a) =

k1
k
a
en posant
p
k
=
1
(a)k
a
, k N

.
Examinons dabord le cas o a = 2. La valeur de (2) tant bien connue, nous avons
donc ici
p
k
= f(k) =
6

2
k
2
, k N

et nous proposons de prendre


q
k
= g(k) =
1
k(k + 1)
, k N

.
La raison de ce choix est que la loi correspondante est facile simuler puisque cest celle
de X := [U
1
] o U est uniforme sur [0, 1] : en eet
P(X = k) = P(k U
1
< k + 1) = P
_
1
k + 1
< U
1
k
_
=
1
k

1
k + 1
= q
k
.
La meilleure constante c possible est
c = sup
k1
p
k
q
k
=
6

2
sup
k1
k + 1
k
=
12

2
.
Dans le cas gnral o le paramtre a est un rel quelconque de ]1, +[, on sinspire de
la mme ide en prenant X = [U
1/(a1)
], voir [3, pp. 550552] pour les dtails.
11. Mme si cette proposition na t applique jusquici quavec loi uniforme sur un borlien, elle
est valide pour nimporte quelle loi de probabilit , revoyez la preuve si vous en doutez.
64 Ch. Suquet, Cours I.S. 2010
2.5. Simulation de vecteurs alatoires par transformation
Exemple 2.17 (loi du nombre de concidences ou matching distribution). Soit Z le
nombre de points xes dune permutation alatoire sur 1, . . . , n, choisie selon la loi
uniforme sur lensemble de toutes les permutations de 1, . . . , n (voir par exemple
lexercice 1.12 Le problme des appariements dans [6]). On peut vrier que la loi
n
de
Z est donne par
P(Z = k) =
1
k!
nk

j=0
(1)
j
j!
, 0 k n.
On voit immdiatement que P(Z = k) 1/k!, on peut alors prendre pour loi de X la
loi de Poisson de paramtre 1 et pour constante c = e. Le nombre ditrations T suit
la loi gomtrique de paramtre
n
(B
n
) donc desprance 1/
n
(B
n
) et daprs (2.25),

n
(B
n
) = 1/c = e
1
. En moyenne on gnre e variables de loi Pois(1) pour simuler Z
et ce quelle que soit la valeur de n. Le cot global de lalgorithme du rejet est donc ici
en O(n) puisque pour chacune des variables de Poisson gnre, on doit calculer f(k)
(addition de n k + 1 termes
12
).
Ceci explique que lalgorithme du rejet soit concurrentiel avec lalgorithme plus simple
qui consiste gnrer un n-chantillon de la loi uniforme sur [0, 1], le trier par ordre
croissant et compter le nombre de valeurs dont lindice aprs le tri est rest le mme.
Comme le cot des tris les plus performants est en O(nln n), on voit que la mthode du
rejet est plus conomique, au moins pour les grandes valeurs de n.
2.5 Simulation de vecteurs alatoires par transfor-
mation
Supposons que lon sache simuler un vecteur alatoire M de R
d
ayant une certaine
loi = P
M
. Si h est une transformation mesurable, on a ispso facto un moyen de simuler
un vecteur de loi = h
1
, il sut de prendre le vecteur h(M). Bien sr, en pratique,
cest le problme inverse qui se pose : tant donne , trouver simulable et h telles que
= h
1
. Nous allons examiner plusieurs situations o cette mthode est pertinente,
en commenant par le cas important des lois uniformes.
2.5.1 Loi uniforme par transformation ane
Principe
La simulation de lois uniformes par transformation ane repose sur le rsultat suiv-
ant.
Lemme 2.18. Soient h une application ane bijective R
d
R
d
et M un vecteur
alatoire de loi uniforme sur un borlien B de R
d
. Alors h(M) suit la loi uniforme sur
h(B).
12. En programmant de manire conomique le calcul des factorielles, i.e. en utilisant une seule
multiplication pour passer de j! (j + 1)!
Ch. Suquet, Cours I.S. 2010 65
Chapitre 2. Simulation de variables et vecteurs alatoires
Preuve. Commenons par chercher la mesure image de
d
par h. On peut crire h = ,
o est une translation et une bijection linaire de R
d
R
d
. On peut montrer
13
que

d

1
= [ det(
1
)[
d
.
Ceci est li la formule de changement de variable linaire bijectif que nous avons admise
en cours dI.P.. La mesure de Lebesgue tant invariante par translations, on en dduit
que

d
h
1
= (
d

1
)
1
=
d

1
= [ det(
1
)[
d
= c
d
,
la constante c ne dpendant que de h.
Soit A

un borlien quelconque de R
d
. Puisque M suit la loi uniforme sur B, on a :
P
_
h(M) A

_
= P
_
M h
1
(A

)
_
=

d
_
h
1
(A

) B
_

d
(B)
(2.26)
Posons B

:= h(B). Comme h est bijective, on a B = h


1
(B

) (vriez !). On peut alors


crire h
1
(A

) B = h
1
(A

) h
1
(B

) = h
1
(A

). En reportant dans (2.26), on


obtient
P
_
h(M) A

_
=
(
d
h
1
)(A

)
(
d
h
1
)(B

)
=
c
d
(A

)
c
d
(B

)
=

d
(A

d
(B

)
,
ce qui montre que h(M) suit la loi uniforme sur B

, puisque A

tait quelconque.
Loi uniforme sur un paralllogramme
Pour simuler une loi uniforme sur un paralllogramme ABCD (

AC =

AB +

AD),
on part dun vecteur M = (U
1
, U
2
) de loi uniforme sur [0, 1]
2
. On dtermine lapplication
linaire par (1, 0) =

AB et (0, 1) =

AD. On prend pour la translation de vecteur

OA. Limage du carr [0, 1]


2
par la transformation ane h = est le paralllogramme
ABCD (gure 2.4) et le vecteur alatoire M

= h(M) suit la loi uniforme sur ABCD.


On dtermine les coordonnes V
1
, V
2
de M

matriciellement par :
_
V
1
V
2
_
=
_
x
B
x
A
x
D
x
A
y
B
y
A
y
D
y
A
_ _
U
1
U
2
_
+
_
x
A
y
A
_
.
Loi uniforme sur un triangle ou un polygone
Pour simuler un vecteur alatoire de loi uniforme sur un triangle donn T = ABC, on
part dun vecteur de loi uniforme sur un triangle T
0
construit sur les vecteurs unitaires de
la base canonique de R
2
et on dtermine une transformation ane h qui transforme T
0
en T. Notons O = (0, 0), I = (1, 0), J = (0, 1) et K = (1, 1). Soit U
1
et U
2
deux variables
13. Voir par exemple le cours dI.F.P. 2004, chapitre 5
http://math.univ-lille1.fr/~suquet/ens/IFP/Cours/cours04/Chap5ifp04.pdf
66 Ch. Suquet, Cours I.S. 2010
2.5. Simulation de vecteurs alatoires par transformation
0 1
1
A
B
C
D
Q
h(Q)
h
Figure 2.4 Paralllogramme image du carr unit par transformation ane
alatoires indpendantes et de mme loi uniforme sur [0, 1]. Dnissons les statistiques
dordre du vecteur (U
1
, U
2
) par
U
2:1
= min(U
1
, U
2
), U
2:2
= max(U
1
, U
2
).
Selon un exercice classique auquel vous navez probablement pas chapp, (U
2:1
, U
2:2
)
suit la loi uniforme sur le triangle OKJ et (U
2:2
, U
2:1
) la loi uniforme sur OIK. On
peut donc choisir lun de ces deux triangles pour T
0
. Si on prend OKJ, on dtermine
alors h en crivant que h(O) = A, h(J) = B et h(K) = C (ceci dtermine lune des 6
applications anes transformant OKJ en ABC).
En fait pour simplier la dtermination de h (et mme pour lviter), il est prfrable
de choisir pour T
0
le triangle OIJ. Lastuce est dcrire T
0
comme lenveloppe convexe
de ses sommets :
T
0
= OIJ = M = p
1
O +p
2
I +p
3
J; p
1
, p
2
, p
3
0, p
1
+p
2
+p
3
= 1.
En raison de la conservation du barycentre par transformation ane, si M T
0
a
pour coordonnes barycentriques (p
1
, p
2
, p
3
) relativement OIJ et si h est lunique
transformation ane telle que h(0) = A, h(I) = B et h(J) = C, le point h(M) a mmes
coordonnes barycentriques (p
1
, p
2
, p
3
), mais relativement ABC. Il sut donc de savoir
choisir (p
1
, p
2
, p
3
) alatoires de telle sorte que M suive la loi uniforme sur T
0
. Pour cela
on prend les espacements associs au vecteur (U
1
, U
2
), cest dire les longueurs des trois
segments de la subdivision de [0, 1] gnre par U
1
et U
2
:
p
1
() = U
2:1
(), p
2
() = U
2:2
() U
2:1
(), p
3
() = 1 U
2:2
().
On laisse en exercice
14
la vrication du fait que la loi de
M = p
1
O +p
2
I +p
3
J =
_
U
2:2
U
2:1
, 1 U
2:2
_
14. La proposition 2.19 ci-aprs donne une solution dans un cadre plus gnral.
Ch. Suquet, Cours I.S. 2010 67
Chapitre 2. Simulation de variables et vecteurs alatoires
est bien la loi uniforme sur OIJ. Nous pouvons maintenant proposer lalgorithme suivant
pour la simulation dun vecteur alatoire h(M) de loi uniforme sur ABC.
1. Gnration de U
1
et U
2
indpendants de loi uniforme sur [0, 1].
2. Tri de (U
1
, U
2
) et calcul des espacements U
2:1
, U
2:2
U
2:1
et 1 U
2:2
.
3. Calcul de h(M) = U
2:1
A + (U
2:2
U
2:1
)B + (1 U
2:2
)C.
On peut immdiatement rinvestir cette technique pour la simulation dun vecteur
alatoire M de loi uniforme sur un polygone Q du plan (pas forcment convexe). On
commence par trianguler Q, autrement dit le dcouper en un nombre ni de triangles
T
1
, . . . , T
n
(on a donc Q =
1in
T
i
et si i ,= j,
2
(T
i
T
j
) = 0). Une fois cette
triangulation faite
15
, on utilise lalgorithme suivant.
1. Calculer pour i = 1, . . . , n les a
i
:=
2
(T
i
) et a :=
2
(Q) = a
1
+ +a
n
.
2. Gnrer une variable discrte X de loi sur 1, . . . , n donne par P(X = k) = a
k
/a.
3. Pour k = X() ainsi obtenu, gnrer indpendamment de X un vecteur alatoire
M de loi uniforme sur le triangle T
k
.
La justication de cet algorithme est laisse en exercice et sa traduction en Scilab est
un bon sujet de T.P. Un rappel peut-tre pas superu : laire dun triangle ABC peut
se calculer par la formule

2
(ABC) =
1
2

det(

AB,

AC )

.
Loi uniforme sur un simplexe de R
d
La simulation par transformation ane de la loi uniforme sur un triangle se gnralise
la dimension d au cas du simplexe. Un simplexe de R
d
est lenveloppe convexe de
d + 1 points A
0
, A
1
. . . , A
d
en position gnrale , i.e. si d = 2 les trois points ne
sont pas aligns, si d = 3 les quatre points ne sont pas coplanaires et pour d quelconque
A
1
, . . . , A
d+1
nappartiennent pas un mme hyperplan de R
d
. Un simplexe de R
3
est un
ttradre. Soit donc T un simplexe de sommets A
0
, . . . , A
d
et T
0
le simplexe de sommets
I
0
, I
1
, . . . , I
d
, o I
0
= O et pour j = 1, . . . , d, I
j
est le point dni par

OI
j
= e
j
, j
e
vecteur de la base canonique de R
d
. On voit immdiatement que si (p
0
, p
1
, . . . , p
d
) sont
les coordonnes barycentriques de M dans le simplexe T
0
, ses coordonnes cartsiennes
usuelles sont (p
1
, . . . , p
d
).
T
0
=
_
M =
d

j=0
p
j
I
j
; j, p
j
0,
d

j=0
p
j
= 1
_
=
_
(p
1
, . . . , p
d
) R
d
+
;
d

j=1
p
j
1
_
.
Dautre part, si h est lunique application ane telle que H(I
j
) = A
j
pour j =
0, 1, . . . , d, alors h(T
0
) = T et les coordonnes barycentriques de h(M) dans T sont les
15. Il semble plus facile de la faire la main que de la programmer dans le cas le plus gnral.
68 Ch. Suquet, Cours I.S. 2010
2.5. Simulation de vecteurs alatoires par transformation
mmes que celles de M dans T
0
. Il sut donc de savoir choisir p
1
, . . . , p
d
alatoires de
telle sorte que M = (p
1
, . . . , p
d
) suive la loi uniforme sur T
0
pour que
h(M) = p
0
A
0
+p
1
A
1
+ +p
d
A
d
suive la loi uniforme sur T = h(T
0
). Bien sr dans cette formule, p
0
est donn par
p
0
+ (p
1
+ +p
d
) = 1.
Comme en dimension 2, nous aurons recours aux espacements dun d-chantillon
uniforme sur [0, 1] pour choisir les p
j
. Soit (U
1
, . . . , U
d
) un chantillon de variables ala-
toires indpendantes de mme loi uniforme sur [0, 1]. Notons (U
d:1
, . . . , U
d:d
) le vecteur
des statistiques dordre obtenu par rarrangement croissant de lchantillon :
U
1
, . . . , U
d
= U
d:1
, . . . , U
d:d
et U
d:1
U
d:2
U
d:d
.
Posons U
d:0
= 0 et U
d:d+1
= 1. Dnissons les espacements S
j
associs par
S
j
= U
d:j+1
U
d:j
, j = 0, . . . , d.
Dit autrement et sans formules, les espacements S
0
, S
1
, . . . , S
d
sont les longueurs des d+1
intervalles dcoups dans [0, 1] par les nombres U
1
, . . . , U
d
, ces segments tant numrots
de gauche droite.
0 U
3
() U
1
() U
4
() U
2
() 1
-
S
0
()
-
S
1
()
-
S
2
()
-
S
3
()
-
S
4
()
Figure 2.5 Espacements dun 4-chantillon
Proposition 2.19. Soit T un simplexe de R
d
de sommets A
0
, . . . , A
d
. Soit (U
1
, . . . , U
d
)
un chantillon de variables alatoires indpendantes de mme loi uniforme sur [0, 1] et
S
j
, j = 0, 1, . . . , d les espacements associs. Alors le point alatoire
d

j=0
S
j
A
j
suit la loi uniforme sur T.
Preuve. Compte tenu des explications donnes ci-dessus, la seule chose vrier est que
le vecteur alatoire S = (S
1
, . . . , S
d
) suit la loi uniforme sur T
0
. Pour cela notons g une
application continue support compact R
d
R
+
arbitraire et calculons Eg(S). Avec
des notations similaires celles des statistiques dordre,
Eg(S) =
_
[0,1]
d
g(u
d:2
u
d:1
, . . . , u
d:d+1
u
d:d
) du
1
. . . du
d
.
Ch. Suquet, Cours I.S. 2010 69
Chapitre 2. Simulation de variables et vecteurs alatoires
Dcoupons [0, 1]
d
en les d! simplexes qui se dduisent par permutation de coordonnes
de
:= (u
1
, . . . , u
d
) [0, 1]
d
; 0 u
1
u
2
u
d
1,
Les frontires de ces simplexes sont incluses dans une runion nie dhyperplans dqua-
tion x
i
= x
j
, donc de mesure nulle. Des changements de variables par permutation sur les
coordonnes envoient tous ces simplexes sur et sont linaires bijectifs de dterminant
1 en valeur absolue. On en dduit que
Eg(S) = d!
_

g(u
2
u
1
, u
3
u
2
, . . . , u
d
u
d1
, 1 u
d
) du
1
. . . du
d
.
Eectuons maintenant le changement de variable : R
d
R
d
, (u
1
, . . . , u
d
) (t
1
, . . . , t
d
)
donn par
t
1
= u
2
u
1
, t
2
= u
3
u
2
, . . . , t
d1
= u
d
u
d1
, t
d
= 1 u
d
.
On vrie facilement que est une bijection ane dinverse donn par les galits
u
j
= 1
d

i=j
t
i
, j = 1, . . . , d.
Pour dterminer (), on remarque en remplaant les u
j
par leur expression en fonction
des t
i
dans les ingalits dnissant , que (t
1
, . . . , t
d
) () si et seulement si
0 1 (t
1
+ +t
d
) 1 (t
2
+ +t
d
) 1 t
d
1.
Ceci quivaut
t
1
+ +t
d
1 et j = 1, . . . , d, t
j
0.
Ainsi () = T
0
. Dautre part il est clair que le dterminant de lapplication linaire
associe la transformation ane vaut 1 en valeur absolue. Le changement de variable
dans lintgrale
_

donne nalement
Eg(S) = d!
_
T
0
g(t
1
, . . . , t
d
) dt
1
, . . . , dt
d
=
_
R
d
g(t
1
, . . . , t
d
)d!1
T
0
(t
1
, . . . , t
d
) dt
1
, . . . , dt
d
. (2.27)
Soit maintenant S

un vecteur alatoire de loi uniforme sur T


0
. Sa densit est d!1
T
0
.
En eet on peut vrier que

d
(T
0
) =
_
T
0
dt
1
, . . . , dt
d
=
_

[ det
1
[ dt
1
, . . . , dt
d
=
_

dt
1
, . . . , dt
d
=
d
()
et
d
() = 1/d!, voir la justication de lgalit
n
(B
n
) = 1/n! dans la preuve du
lemme 2.7. On a alors
Eg(S

) =
_
R
d
g(t
1
, . . . , t
d
)d!1
T
0
(t
1
, . . . , t
d
) dt
1
, . . . , dt
d
= Eg(S)
et ceci tant vrai pour toute g positive continue support compact, on en dduit que S
et S

ont mme loi, donc que S suit la loi uniforme sur T


0
.
70 Ch. Suquet, Cours I.S. 2010
2.5. Simulation de vecteurs alatoires par transformation
Loi uniforme sur un ellipsode
Un ellipsode E de R
d
peut toujours tre vu comme image par une transformation
ane bijective h de la boule unit euclidienne
B
d
:= (x
1
, . . . , x
d
) R
d
; x
2
1
+ +x
2
d
1.
Supposons rsolu le problme de la simulation de la loi uniforme sur B
d
, on sait dj
le faire au moins par rejet partir de la loi uniforme sur lhypercube [1, 1]
d
, mme si
cette mthode nest pas trs performante en dimension leve
16
. La simulation de la loi
uniforme sur E se rduit alors la dtermination de h ane telle que h(B
d
) = E.
Supposons dabord que lon connaisse le centre C de E et ses demi-axes

CA
1
, . . . ,

CA
d
(vecteurs orthogonaux). Il sut de gnrer un vecteur colonne X de loi uniforme sur B
d
et de calculer matriciellement Y = C + HX, o H est la matrice ayant pour colonnes
les vecteurs

CA
i
crits dans la base canonique de R
d
. Le vecteur colonne Y ainsi obtenu
suit la loi uniforme sur E.
Lellipsode E peut aussi tre donn par son inquation cartsienne qui aprs rduc-
tion peut scrire sous la forme matricielle, en notant la transposition par un prime :
E = Y R
d
; (Y C)

Q(Y C) 1,
o Y et C sont des vecteurs colonnes (non alatoires !), C dsignant les coordonnes
du centre de E et Q est une matrice symtrique dnie positive. On cherche alors une
matrice rgulire H (det H ,= 0) telle que lapplication X C +HX transforme B
d
en
E. Ceci se produit si linquation (Y C)

Q(Y C) 1 est quivalente X

X 1
(inquation de B
d
). Or
(Y C)

Q(Y C) = X

QHX,
il sut donc de trouver H telle que H

QH = I, matrice identit. Ceci revient trouver


H telle que Q = H
1
H
1
ou encore Q = R

R, en posant R = H
1
. Lalgorithme de
Cholesky [5, p. 95] permet de trouver une matrice triangulaire suprieure R ayant cette
proprit. Il est implment en Scilab (fonction chol).
2.5.2 Vecteur gaussien de covariance donne
Nous savons dj simuler une suite de variables alatoires gaussiennes indpendantes
(cf. lemme 2.9). Ceci rsout le problme de la simulation dun vecteur alatoire gaussien
composantes indpendantes (donc matrice de covariance diagonale). Il nous reste
tudier le cas gnral du vecteur gaussien ayant une matrice de covariance Q quelconque,
cest--dire dans ce contexte, symtrique semi-dnie positive. La mthode utilise repose
sur le rsultat suivant (voir par exemple [4, Th. 16.2, p. 135]).
16. Voir http://math.univ-lille1.fr/~suquet/ens/Agr/simul06.pdf
Ch. Suquet, Cours I.S. 2010 71
Chapitre 2. Simulation de variables et vecteurs alatoires
Proposition 2.20. Soit X un vecteur (colonne) gaussien de R
d
, de vecteur moyenne
. Il existe des variables alatoires relles indpendantes Y
1
, . . . , Y
d
, chaque Y
j
ayant une
loi N(0,
j
) avec
j
0 et une matrice d d orthogonale A tel les que X = +AY , en
notant Y = (Y
1
, . . . , Y
d
)

.
Notons que certains des
j
peuvent tre nuls et rappelons que si = 0, la loi gaussi-
enne N(m, ) est la masse de Dirac au point m, autrement dit, la loi de la v.a. constante
m. La dmonstration de la proposition 2.20 va nous indiquer lalgorithme pour simuler
X.
Preuve. La matrice de covariance Q tant symtrique semi-dnie positive, on sait quon
peut lcrire
Q = ASA

, (2.28)
o S est une matrice diagonale termes diagonaux
j
positifs et A une matrice orthogo-
nale (donc vriant A

= A
1
). On pose alors Y = A

(X). Toute combinaison linaire


des composantes de Y peut scrire comme une combinaison linaire des composantes de
X plus une constante, donc est une v.a. gaussienne, puisque X est un vecteur gaussien
par hypothse. Ainsi Y est gaussien. De plus comme A

= A
1
, X = + AY . Il nous
reste vrier que la matrice de covariance de Y est S (ce qui entrane lindpendance
des Y
j
). Ceci rsulte du calcul suivant :
E(Y Y

) = E
_
A

(X )(X )

A
_
= A

E
_
(X )(X )

_
A (2.29)
= A

QA
= A
1
(ASA
1
)A (2.30)
= S.
Lgalit (2.29) repose sur la proprit suivante. Soit Z une matrice alatoire d d dont
toutes les composantes ont une esprance et B une matrice d d non alatoire. Alors
E(BZ) = BEZ et E(ZB) = (EZ)B. La vrication est immdiate en crivant le produit
des matrices et en utilisant la linarit de lesprance. Lgalit (2.30) exploite (2.28) et
lgalit entre la transpose de A et son inverse, due lorthogonalit de A.
Ce qui prcde suggre lalgorithme suivant pour simuler le vecteur gaussien X de
vecteur moyenne et de matrice de covariance Q.
1. Calculer la dcomposition (2.28) pour Q.
2. Gnrer le vecteur colonne Y en simulant des gaussiennes N(0,
j
) pour les indices
j tels que
j
> 0 et complter les autres composantes de Y par des zros.
3. Calculer X = +AY .
Pour raliser pratiquement la premire tape, Scilab nous fournit la fonction svd
(singular value decomposition). Voici un extrait de la documentation en ligne (les noms
des paramtres ont t modis pour viter la confusion avec les notations ci-dessus) :
72 Ch. Suquet, Cours I.S. 2010
Bibliographie
[A,S,B]=svd(Q)
DESCRIPTION
produces a diagonal matrix S , of the same dimension as Q and with
nonnegative diagonal elements in decreasing order, and unitary matrices
A and B so that X = A*S*B.
En appliquant svd une matrice Q symtrique semi-dnie positive, on obtient A = B
matrice orthogonale et la diagonale de S est constitue de rels positifs rangs par ordre
dcroissant. Si d
0
est lindice du dernier dentre eux non nul, on gnre les Y
1
, . . . , Y
d
0
indpendantes de lois N(0,
j
) et on prend Y = (Y
1
, . . . , Y
d
0
, 0, . . . , 0)

(si d
0
< d).
Bibliographie
[1] N. Bouleau. Probabilits de lIngnieur, variables alatoires et simulation, Her-
mann, 2002.
[2] J.-P. Delahaye. Alas du hasard informatique. Revue Pour la Science, n
o
245, mars
1998, pp. 9297.
[3] L. Devroye. Non-Uniform Random Variate Generation. Springer, 1986.
[4] J. Jacod et P. Protter. Lessentiel en thorie des probabilits. Cassini, 2003.
[5] D. Serre. Les matrices, thorie et pratique. Dunod, 2001.
[6] Ch. Suquet. Introduction au Calcul des Probabilits, polycopi de Deug MIAS et
MASS, Universit des Sciences et Technologies de Lille.
http://math.univ-lille1.fr/~ipeis/Cours/ICP0106.pdf
Ch. Suquet, Cours I.S. 2010 73
Chapitre 2. Simulation de variables et vecteurs alatoires
74 Ch. Suquet, Cours I.S. 2010
Chapitre 3
chantillons et statistiques
Nous abordons maintenant la problmatique statistique. En deux mots, il sagit
partir de lobservation dun chantillon provenant dune loi inconnue, de deviner quelle
est cette loi (problme destimation) ou plus gnralement de prendre une dcision en
contrlant au mieux le risque derreur (problme de test). Le but de ce chapitre est
dintroduire un modle permettant de mathmatiser ces questions et de mettre en
place un outillage basique autour de la notion dchantillon. Le rsultat important est
le thorme de Glivenko-Cantelli, appel quelquefois thorme fondamental de la statis-
tique. Ce thorme permet de justier lide intuitive que lon peut reconstruire une loi
inconnue partir dobservations, avec une approximation dautant meilleure que le nom-
bre dobservations est plus grand. Lestimation et les tests font lobjet des deux chapitres
suivants.
3.1 Modlisation statistique
En guise dexemple introductif, considrons le problme durne suivant.
Exemple 3.1. On se trouve en prsence dune urne dont on sait seulement quelle
contient des boules vertes en proportion inconnue p [0, 1] et des boules rouges en
proportion 1 p. On eectue n tirages dune boule avec remise, en notant sa couleur.
Que peut-on dire de p au vu de ces observations
1
?
Dnition 3.2 (modle statistique). On appel le modle statistique la donne dun es-
pace mesurable (, F) et dune famille
_
P

, ) de mesures de probabilit sur (, F).


est appel ensemble des paramtres.
1. Bien sr cet exemple a surtout un intrt mtaphorique. Si on veut vraiment connatre avec
exactitude la proportion de boules vertes, le plus simple est sans doute de renverser lurne sur la table
et de les compter ! Dans lenseignement des probabilits les problmes durnes sont en fait dj une
premire forme de modlisation. Imaginez quau lieu dune urne on ait ici un tang peupl par deux
espces de poissons. Un tirage sans remise correspond alors la pche non destructive dun poisson
remis leau aprs observation. La solution qui consisterait asscher ltang pour compter les poissons
nest en gnral pas acceptable. . .
75
Chapitre 3. chantillons et statistiques
Cette dnition situe demble la statistique mathmatique dans le prolongement
de la thorie des probabilits, mais il convient de noter une dirence fondamentale.
En thorie des probabilits, on travaille gnralement avec un seul espace probabilis
(, F, P) de rfrence, rput modliser correctement une exprience alatoire. est
lensemble des vnements lmentaires , F est une tribu de parties de appeles par
commodit vnements et P est une mesure de probabilit sur (, F). Les notions
importantes de loi dune v.a., desprance, dindpendance sont toujours relatives cette
mesure P, mme si on omet gnralement de le prciser. Dans le modle statistique, on
dispose de plusieurs espaces probabiliss (, F, P

), ventuellement une innit, on ignore


lequel est le bon , et on les met en concurrence au vu des observations. Voici une
question de probabilits avec une urne du type de lexemple 3.1 : je sais quil y a 17%
de boules vertes dans lurne, jen tire 20 avec remise, quelle probabilit ai-je dobtenir
5 fois la couleur verte ? Voici maintenant une question de statistique : ayant eectu 20
tirages avec remise, jai observ la sortie de 5 boules vertes, en quoi cette information
modie-t-elle mon degr dignorance sur la proportion inconnue de boules vertes dans
lurne ?
Regardons comment associer un modle statistique lexemple 3.1. Ici le paramtre
est gal p, proportion de boules vertes dans lurne. Si lon connat le nombre total N de
boules dans lurne, lensemble des paramtres est videmment lensemble ni = k/N;
0 k N. Si lon ne connat pas N, on sait seulement que p = k/N, avec N N

et 0 k N, est un nombre rationnel compris entre 0 et 1 et on a un ensemble de


paramtres inni = [0, 1] Q. Quel peut-on prendre ? Supposons dabord que lon
soit dcid ne faire que n tirages. Comme on ne sintresse qu la couleur de la boule
obtenue chaque tirage, on peut prendre pour vnements lmentaires les n-uplets
= (u
1
, . . . , u
n
) avec u
i
valant r ou v, pour 1 i n. On choisit alors =
n
et
F = F
n
donn par

n
:= r, v
n
, F
n
:= P(
n
). (3.1)
Pour toute valeur de la proportion de boules vertes, on choisit la probabilit P

= P
,n
sur (
n
, F
n
) telle que les tirages soient P

mutuellement indpendants et que pour tout


i la probabilit dobtenir une boule verte au i
e
tirage soit . Comme
n
est ni, il sut
de donner la valeur P

() pour chaque vnement lmentaire = (u


1
, . . . , u
n
)
n
.
Au vu des conditions nonces ci-dessus, il est clair que la seule solution est de prendre
P
,n
_
) = P
,n
_
(u
1
, . . . , u
n
)
_
=
j
(1 )
nj
, j = card
_
i n; u
i
= v
_
. (3.2)
On peut alors dnir sur (
n
, F
n
) la suite nie de variables alatoires (X
i
)
1in
par
i = 1, . . . , n, X
i
() = X
i
(u
1
, . . . , u
n
) =
_
_
_
1 si u
i
= v,
0 si u
i
= r.
(3.3)
Remarquons que cette dnition des X
i
ne fait intervenir aucune des mesures de proba-
bilit
2
P

. Maintenant, il est facile de voir que pour chaque valeur de la proportion de


2. Ceci correspond au fait que lon na pas besoin de connatre la proportion de boules vertes pour
eectuer les n tirages sans remise et noter les observations.
76 Ch. Suquet, Cours I.S. 2010
3.1. Modlisation statistique
boules vertes, les v.a. X
i
sont P

-indpendantes et de mme loi sous P

, savoir la loi de
Bernoulli de paramtre . La variable alatoire S
n
:= X
1
+ +X
n
compte le nombre de
boules vertes observes en n tirages. Sa loi sous P

est binomiale de paramtres (n, ). La


frquence observe de sortie des boules vertes est M
n
:= n
1
S
n
. Elle suit sous P

une loi
qui a les mmes masses que Bin(n, ), mais localises sur les rationnels 0, 1/n, 2/n, . . . 1,
au lieu des entiers 0, 1, 2, . . . , n. En notant cette loi P
,M
n
, on a
P
,M
n
=
n

i=0
C
i
n

i
(1 )
ni

i/n
.
Lesprance sous P

de cette loi est n


1
E

(S
n
) = n
1
n = . Quand n est grand, cette
loi est bien concentre dans un petit voisinage de , voir les diagrammes en btons
3
de
la gure 3.1 pour une illustration. Supposons que lon ait ralis 100 tirages et obtenu 13
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
0.02
0.04
0.06
0.08
0.10
0.12
Figure 3.1 Loi de M
100
sous P
0,15
et sous P
0,7
3. Pour reprsenter graphiquement la loi discrte =

p
i

x
i
, on trace partir de chaque point
(x
i
, 0) un segment vertical de hauteur proportionnelle p
i
. La gure 3.1 ache thoriquement 101
btons pour chacune des deux lois de M
100
, sous P
0,15
et sous P
0,7
. En pratique seuls sont visibles ceux
dont la hauteur est suprieure lpaisseur dun trait dimprimante.
Ch. Suquet, Cours I.S. 2010 77
Chapitre 3. chantillons et statistiques
boules vertes. La valeur observe M
100
() est donc ici 0, 13. Si on met en concurrence les
lois P
0,15
et P
0,7
, la gure 3.1 nous incite clairement donner la prfrence P
0,15
. Par
contre, si on met en concurrence P
0,12
et P
0,14
, le choix est beaucoup moins clair et on
se dit quil faudrait peut-tre davantage de tirages pour les dpartager. Intuitivement,
plus
0
et
1
sont proches, plus il faudra dobservations pour les sparer. On peut tayer
cette armation en rappelant que les intervalles de conance obtenus par le TLC ou par
lingalit de Tchebyche ont une longueur en O(n
1/2
).
Ceci nous amne proposer un autre modle, ne dpendant plus du nombre de tirages
n et permettant denvisager une suite innie de tirages avec remise
4
. On pose alors
:= r, v
N

. (3.4)
Les vnements lmentaires sont donc les suites innies = (u
i
)
i1
de terme
gnral u
i
valant r ou v. On munit de la tribu F engendre par la famille C des
vnements dont la ralisation ne dpend que dun nombre ni dpreuves
5
. Cette tribu
est plus petite que P(). Notons pour tout n N, N
n
:= j N; j > n. Avec
n
dni
par (3.1), les lments de C admettent la reprsentation suivante :
C C n N

, A
n
, C = A r, v
N
n
. (3.5)
On dnit ensuite pour chaque la probabilit P

sur C en posant :
P

_
A r, v
N
n
_
:= P
,n
(A), (3.6)
o P
,n
est la probabilit sur
n
donne par (3.2). Comme la reprsentation (3.5) nest
pas unique, cela pose un problme de compatibilit quil nest pas dicile de rsoudre,
voir le chapitre 2 du cours dI.P.. On admet ensuite que P

ainsi dnie sur C se


prolonge de manire unique en une probabilit sur la tribu F = (C).
On dnit sur (, F) la suite innie de variables alatoires (X
i
)
i1
par
i N

, X
i
() = X
i
_
(u
j
)
j1
_
=
_
_
_
1 si u
i
= v,
0 si u
i
= r.
(3.7)
Pour toute valeur de , cette suite est i.i.d. sous P

, chaque X
i
suivant la loi Bern().
En posant nouveau S
n
:= X
1
+ + X
n
, on peut appliquer la loi forte des grands
nombres sur chacun des espaces probabiliss (, F, P

), ce qui scrit ici :


,
S
n
n
P

p.s.

n+
E

X
1
= . (3.8)
On pourrait de mme appliquer pour chaque le TLC, cest dailleurs ce que lon a
fait implicitement dans la construction des intervalles de conance par le TLC vue au
chapitre 1.
Pour complter notre prsentation du modle statistique, il nous reste dnir les
notions dchantillon et de statistique. Nous avons dj utilis le mot chantillon au
chapitre 2 au sens de suite nie de variables alatoires indpendantes et de mme loi. Il
convient maintenant dtre plus prcis.
4. Seulement par la pense bien sr !
5. Voir la discussion sur une question de ds , cours dI.P.. chap. 2.
78 Ch. Suquet, Cours I.S. 2010
3.1. Modlisation statistique
Dnition 3.3 (chantillon dune loi). Soit (, F, P) un espace probabilis et Q une
mesure de probabilit sur R muni de sa tribu borlienne. Pour n 2, on appel le n-
chantil lon de la loi Q, associ (, F, P), toute suite nie X
1
, . . . , X
n
de variables
alatoires dnies sur (, F, P), P-indpendantes et de mme loi Q, c.--d. i = 1, . . . , n,
P
X
i
= P X
1
i
= Q.
Quand il napparat pas utile de prciser lespace (, F, P) concern, on parle plus
simplement dchantillon de la loi Q. Cest ce que nous avons fait au chapitre 2. Notons
dailleurs qutant donn une loi quelconque Q, autrement dit une mesure de probabil-
it sur R muni de sa tribu borlienne, il est toujours possible de construire un espace
probabilis (, F, P) et une suite X
1
, . . . , X
n
de v.a. dnies sur cet espace qui con-
stituent un n-chantillon de la loi Q. Il sut de prendre = R
n
, muni de sa tribu
borlienne et de la probabilit produit Q
n
dnie partir des probabilits des pavs
C =]a
1
, b
1
] ]a
n
, b
n
] en posant Q
n
(C) := Q(]a
1
, b
1
]) . . . Q(]a
n
, b
n
]. En dnissant
pour i = 1, . . . , n, X
i
comme la projection R
n
R sur la i
e
coordonne, on vrie
facilement que X
1
, . . . , X
n
est un n-chantillon de la loi Q (pourquoi ?).
Dnition 3.4 (chantillon associ un modle statistique). Soit
_
, F, (P

_
un
modle statistique. On appelle n-chantillon associ ce modle toute suite X
1
, . . . , X
n
de variables alatoires dnies sur (, F) qui sont pour tout , P

-indpendantes et
de mme loi Q

sous P

:
, i = 1, . . . , n, P
,X
i
:= P

X
1
i
= Q

.
Avec les deux modles statistiques proposs ci-dessus pour les tirages avec remise de
lexemple 3.1, les variables alatoires X
1
, . . . , X
n
dnies par (3.3) ou (3.7) constituent
un n-chantillon associ au modle. Pour chaque valeur de , elle sont P

-indpendantes
et de mme loi Bern().
Dnition 3.5 (statistique). Soit X
1
, . . . , X
n
un n-chantillon associ un modle
statistique
_
, F, (P

_
. On appelle statistique associe cette chantil lon, toute v.a.
Y
n
de la forme
Y
n
= f(X
1
, . . . , X
n
)
o f : R
n
R, (t
1
, . . . , t
n
) f(t
1
, . . . , t
n
) est une application borlienne ne dpendant
pas de .
Au risque dinsister lourdement, notons que le point important dans cette dnition
est la possibilit de calculer Y
n
partir des X
i
sans avoir besoin de connatre la valeur
de . Bien sr la loi de Y
n
(sous P

) dpend en gnral de , mais la fonction f qui elle,


na rien voir avec le modle ni avec les X
i
, ne doit pas dpendre de . Voici quatre
exemples simples de statistiques.
1. La moyenne empirique X :=
X
1
+ +X
n
n
=
S
n
n
.
2. La variance empirique
1
n
n

i=1
_
X
i

S
n
n
_
2
.
Ch. Suquet, Cours I.S. 2010 79
Chapitre 3. chantillons et statistiques
3. min
1in
X
i
.
4. max
1in
X
i
.
Par contre Y
n
:= n
1

n
i=1
(X
i
EX
i
)
2
nest pas une statistique en gnral car EX
i
doit en fait scrire E

X
i
et la fonction f correspondante donne par f(t
1
, . . . , t
n
) =
n
1

n
i=1
(t
i
E

X
i
)
2
nest pas calculable sans la connaissance de E

X
1
, donc du paramtre
6
.
3.2 Mesure empirique
3.2.1 Une loi construite partir des observations
Un outil fondamental en statistique est la mesure empirique que lon peut dcrire
de manire informelle comme suit. On a des observations x
1
, . . . , x
n
, que lon interprte
comme les X
1
(), . . . , X
n
(), o les v.a. X
i
suivent la loi inconnue . Faute dinformation
supplmentaire, on dcide de ne pas faire de jalouses parmi les observations en
attribuant chacune la probabilit 1/n. On construit ainsi une nouvelle mesure de
probabilit
n
, dpendant des observations et on se sert de
n
pour estimer la mesure
de probabilit inconnue .
Dnition 3.6 (mesure empirique). Soit X
1
, . . . , X
n
un chantil lon
7
. On appel le mesure
empirique associe cet chantil lon, la mesure alatoire

n
:
n
() :=
1
n
n

i=1

X
i
()
.
Rappelons que la mesure de Dirac
x
au point x est dnie par
B Bor(R),
x
(B) :=
_
_
_
0 si x / B
1 si x B
= 1
B
(x).
On en dduit que
, B Bor(R),
n
()(B) =:
n
(, B)
=
1
n
n

i=1
1
B
_
X
i
()
_
=
1
n
card
_
X
i
(); X
i
() B
_
. (3.9)
Autrement dit,
n
(, B) est la proportion de valeurs de lchantillon appartenant B
ou frquence des observations dans B.
6. Sauf dans le cas particulier o E

X
i
est constante par rapport , par exemple si =]0, +[ et
si pour tout , les X
i
suivent sous P

la loi gaussienne N(3, ).


7. que ce soit au sens de la dnition 3.3 ou de la dnition 3.4.
80 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
Pour B borlien x, lapplication
n
(B) :=
n
( . , B) :
n
(, B) est une
variable alatoire discrte. La loi de la v.a. n
n
(B) est la binomiale de paramtres
n et p = P
X
1
(B) = (B). Elle dpend donc de la loi des X
i
.
Pour x, lapplication
n
() =
n
(, .) : B
n
(, B) est une mesure de
probabilit sur R muni de sa tribu borlienne. Si x
1
= X
1
(), . . . , x
n
= X
n
() sont
les observations,
n
() est la loi discrte qui attribue une masse 1/n chacune de
ces observations. Sil ny a pas dex-quo parmi les observations,
n
() est donc
la loi uniforme discrte sur lensemble ni x
1
, . . . , x
n
.
Remarque 3.7 (esprance et variance de la mesure empirique). Rappelons que si I est
un ensemble ni, lesprance de la loi discrte

iI
p
i

x
i
est m =

iI
p
i
x
i
. En appli-
quant ceci la loi discrte
n
(), on voit que celle-ci a pour esprance n
1

n
i=1
X
i
() =
S
n
()/n. Autrement dit : lesprance de la mesure empirique est la moyenne arithm-
tique des valeurs de lchantillon ou moyenne empirique. De mme la variance de la loi
discrte

iI
p
i

x
i
est s
2
=

iI
p
i
(x
i
m)
2
. En appliquant ceci
n
(), on voit quelle
a pour variance n
1

n
i=1
_
X
i
() S
n
()/n
_
2
. Ainsi la variance de la mesure empirique
est la variance empirique de lchantillon.
Puisque
n
() est une mesure de probabilit sur R, elle est caractrise par sa fonction
de rpartition.
1
5
2
5
3
5
4
5
1
1 0
chantillon
X
1
() = 0, 560849
X
2
() = 0, 662357
X
3
() = 0, 726351
X
4
() = 0, 198514
X
5
() = 0, 544257
Figure 3.2 F.d.r. empirique dun 5-chantillon de la loi uniforme sur [0, 1]
Ch. Suquet, Cours I.S. 2010 81
Chapitre 3. chantillons et statistiques
1
5
2
5
3
5
4
5
1
1 0
chantillon
X
1
() = 0, 292227
X
2
() = 0, 566425
X
3
() = 0, 482647
X
4
() = 0, 332172
X
5
() = 0, 593510
Figure 3.3 F.d.r. empirique dun autre 5-chantillon de la loi uniforme sur [0, 1]
Dnition 3.8 (fonction de rpartition empirique). Soit X
1
, . . . , X
n
un chantil lon et
n
la mesure empirique associe. On appel le fonction de rpartition empirique de lchan-
tillon, la fonction de rpartition F
n
de
n
. Plus formel lement on pose :
, x R, F
n
(, x) :=
n
(, ] , x]). (3.10)
En reprenant (3.9) avec un borlien B de la forme B =] , x], on voit que :
, x R, F
n
(, x) =
1
n
n

i=1
1
],x]
_
X
i
()
_
=
1
n
n

i=1
1
{X
i
()x}
=
1
n
card
_
X
i
(); X
i
() x
_
. (3.11)
Pour x, F
n
() := F
n
(, . ) : x F
n
(, x) est la fonction de rpartition
de la loi de probabilit discrte
n
() = n
1

n
i=1

X
i
()
.
Pour x x, F
n
(x) := F
n
( ., x) : F
n
(, x) est la variable alatoire discrte
F
n
(x) =
1
n
n

i=1
1
{X
i
x}
(3.12)
82 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
autrement dit la v.a. proportion de valeurs infrieures ou gales x dans lchan-
tillon . Si F dsigne la f.d.r. commune aux X
i
, la loi de cette v.a. F
n
(x) est donne
par
k = 0, 1, . . . , n, P
_
F
n
(x) =
k
n
_
= C
k
n
F(x)
k
_
1 F(x)
_
nk
. (3.13)
3.2.2 Convergence de la f.d.r. empirique vers la f.d.r. thorique
3 1 1 3 5 7 9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
3 1 1 3 5 7 9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 3.4 Approximation de la f.d.r. de N(3, 2) par une f.d.r. empirique, n = 100
Le thorme suivant nous dit que presque-srement, F
n
converge uniformment vers
F sur R. Cest en quelque sorte une loi forte des grands nombres fonctionnelle pour la
suite des f.d.r. empiriques vues comme des fonctions alatoires. La signication pratique
est que si lon a observ un chantillon de grande taille dune loi inconnue de f.d.r.
F, la fonction de rpartition empirique peut tre prise comme approximation de F.
titre dillustration, les gures 3.4 et 3.5 montrent la f.d.r. de la loi N(3, 2) et des f.d.r.
empiriques construites sur un n-chantillon de la loi N(3, 2) pour n = 100 et n = 400,
Ch. Suquet, Cours I.S. 2010 83
Chapitre 3. chantillons et statistiques
simulation ralise avec Scilab. Les sauts des f.d.r. empiriques sont reprsents ici par
des segments verticaux en trait plein.
4 2 0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
4 2 0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 3.5 Approximation de la f.d.r. de N(3, 2) par une f.d.r. empirique, n = 400
Thorme 3.9 (Glivenko-Cantelli). Soit F
n
la f.d.r. empirique dun chantil lon X
1
, . . . , X
n
,
o les X
i
ont pour f.d.r. F. Alors
a) x R, F
n
(x)
p.s.

n+
F(x);
b) |F
n
F|

= sup
xR
[F
n
(x) F(x)[
p.s.

n+
0.
Preuve du a). Fixons x R et posons Y
i
:= 1
{X
i
x}
. En rappelant que si A est un
vnement, 1
A
est une v.a. de Bernoulli de paramtre p = P(A) et desprance p = P(A),
on voit que les Y
i
sont des v.a. i.i.d. de Bernoulli de paramtre
p = P(X
1
x) = F(x).
En appliquant la loi forte des grands nombres la suite i.i.d. de v.a. bornes (donc
84 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
intgrables) Y
i
, on obtient
1
n
n

i=1
Y
i
p.s.

n+
EY
1
= p = F(x),
ce qui tablit le a).
Avant dattaquer la preuve du b), il convient de se demander si |F
n
F|

est bien
une variable alatoire, cest dire une application mesurable (, F) (R, Bor(R)).
En eet pour x x, [F
n
(x) F(x)[ est une variable alatoire, mais |F
n
F|

est un
supremum index par lensemble non dnombrable R de v.a. [F
n
(x)F(x)[. Il nest donc
pas vident que ce supremum hrite de la mesurabilit des v.a. [F
n
(x)F(x)[. Le lemme
suivant apporte une rponse positive.
Lemme 3.10. La f.d.r. empirique F
n
dun chantillon X
1
, . . . , X
n
, o les X
i
ont pour
f.d.r. F vrie
, sup
xR
[F
n
(, x) F(x)[ = sup
xQ
[F
n
(, x) F(x)[. (3.14)
En consquence, |F
n
F|

est une variable alatoire relle.


Preuve du lemme 3.10. Fixons quelconque dans et notons pour allger
:= |F
n
(, .) F|

= sup
xR
[F
n
(, x) F(x)[.
Comme F
n
(, x) et F(x) sont toujours deux rels de [0, 1], ce supremum est ni. Alors
pour tout > 0, il existe un x

tel que
< [F
n
(, x

) F(x

)[ .
Les f.d.r. F
n
(, .) et F tant continues droite au point x

, la valeur absolue de leur


dirence lest aussi. Il existe donc un > 0 tel que
t ]x

, x

+[, [F
n
(, t) F(t)[ > [F
n
(, x

) F(x

)[
Dans lintervalle ]x

, x

+[, il y a au moins un nombre rationnel t. Ce rationnel vriant


lingalit ci-dessus, on en dduit
sup
rQ
[F
n
(, r) F(r)[ > 2.
Le premier membre ne dpendant pas de et > 0 tant arbitraire, on en dduit :
sup
rQ
[F
n
(, r) F(r)[ = sup
rR
[F
n
(, r) F(r)[.
Puisque tait quelconque, ceci vaut pour tout . Lingalit dans lautre sens
est vidente, donc lgalit (3.14) est dmontre pour tout . Elle permet de voir
lapplication |F
n
F|

: R, |F
n
(, .) F|

comme le sup dune famille


dnombrable de variables alatoires relles. Cette application |F
n
F|

hrite ainsi de
la mesurabilit de ces v.a., cest donc elle-mme une variable alatoire.
Ch. Suquet, Cours I.S. 2010 85
Chapitre 3. chantillons et statistiques
Preuve du b) dans le cas de v.a. uniformes sur ]0, 1[. Nous verrons ci-dessous comment
on peut rduire la preuve du b) au cas particulier o les X
i
sont des v.a. U
i
de loi uniforme
sur ]0, 1[, cette rduction ayant son intrt propre. Notons G
n
la f.d.r. empirique btie
sur lchantillon U
1
, . . . , U
n
et G la f.d.r. de la loi uniforme sur ]0, 1[. Ces deux f.d.r.
valent 0 sur ] , 0[ et 1 sur ]1, +[, donc leur dirence est nulle sur ces intervalles.
De plus sur ]0, 1[, G(t) = t. On a donc
sup
tR
[G
n
(t) G(t)[ = sup
t[0,1]
[G
n
(t) t[. (3.15)
Commenons par xer un entier M arbitraire et par vrier que
max
0kM

G
n
_
k
M
_

k
M

p.s.

n+
0. (3.16)
En eet en appliquant le a) avec t = k/M, on obtient :
k = 0, 1, . . . , M,
M,k
F, P(
M,k
) = 1,
M,k
,

G
n
_
,
k
M
_

k
M


n+
0.
En posant
M
:=
0kM

M,k
, on a encore P(
M
) = 1. Comme le max de M +1 suites
convergentes vers 0 est encore une suite convergente vers 0, on a

M
, max
0kM

G
n
_
,
k
M
_

k
M


n+
0, (3.17)
ce qui tablit (3.16) puisque P(
M
) = 1.
Ensuite par croissance de la f.d.r. G
n
on a
t
_
k 1
M
,
k
M
_
, G
n
_
k 1
M
_

k
M
G
n
(t) t G
n
_
k
M
_

k 1
M
,
ce qui scrit encore
t
_
k 1
M
,
k
M
_
, G
n
_
k 1
M
_

k 1
M

1
M
G
n
(t) t G
n
_
k
M
_

k
M
+
1
M
.
On en dduit que
t
_
k 1
M
,
k
M
_
, [G
n
(t) t[ max
0jM

G
n
_
j
M
_

j
M

+
1
M
.
Comme ce majorant ne dpend pas de t ni de k, on en dduit
sup
t[0,1]
[G
n
(t) t[ max
0jM

G
n
_
j
M
_

j
M

+
1
M
. (3.18)
Notons que (3.18) est vraie sur tout . Elle est donc vraie en particulier sur lvnement

M
de probabilit 1. Compte-tenu de (3.17), on en dduit :

M
, limsup
n+
sup
t[0,1]
[G
n
(, t) t[ 0 +
1
M
. (3.19)
86 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
Nous utilisons ici la limite sup et pas la limite car sil est clair par (3.17) que le second
membre de (3.18) a une limite gale 1/M quand n tend vers +, nous ne savons
aucunement ce stade si son premier membre a une limite. On contourne cette dicult
en utilisant la limite sup qui a lavantage de toujours exister
8
.
Pour nir, il est temps de se souvenir que lentier M tait arbitraire, donc (3.19)
est vraie pour tout M N

. Lvnement

:=
M1

M
est de probabilit 1 comme
intersection dnombrable dvnements de probabilit 1. On a donc

, M 1, 0 limsup
n+
sup
t[0,1]
[G
n
(, t) t[
1
M
.
En faisant maintenant tendre M vers +, on en dduit que

, 0 limsup
n+
sup
t[0,1]
[G
n
(, t) t[ 0.
On en dduit que pour tout

, donc presque-srement, la limite quand n tend vers


+ de sup
t[0,1]
[G
n
(, t) t[ existe et vaut 0. En rappelant (3.15), on conclut que le
thorme de Glivenko-Cantelli est dmontr pour la f.d.r. empirique G
n
.
Pour complter la preuve du thorme de Glivenko-Cantelli, il nous reste justier
la rduction au cas dun chantillon de la loi Unif]0, 1[. Cest lobjet du lemme suivant.
Lemme 3.11. Soit (X
i
)
i1
une suite i.i.d. de f.d.r. F et (U
i
)
i1
une suite i.i.d. de
variables alatoires valeurs dans ]0, 1[ et de loi uniforme sur ]0, 1[. On note F
n
la f.d.r.
empirique construite sur X
1
, . . . , X
n
et F
1
linverse gnralis de F dni sur ]0, 1[ par
F
1
(u) := infx R; F(x) u. On pose pour tout i 1, Y
i
:= F
1
(U
i
) et on note
H
n
la f.d.r. empirique construite sur Y
1
, . . . , Y
n
. Alors
1. pour tout n 1 et tout > 0, P(|F
n
F|

> ) = P(|H
n
F|

> ) ;
2. P
_
|F
n
F|


n+
0
_
= P
_
|H
n
F|


n+
0
_
;
3. pour tout ,
|H
n
(, .) F|

sup
t[0,1]

1
n
n

i=1
1
{U
i
()t}
t

, (3.20)
avec galit si F(R) ]0, 1[, autrement dit si F est continue sur R.
En premire lecture, on pourra admettre les points 1 et 2 et se contenter de regarder
la preuve du point 3.
Preuve du point 1. Par le thorme 2.2, pour tout i 1, X
i
et Y
i
= F
1
(U
i
) ont mme
loi. Par indpendance de leurs composantes, on en dduit que pour tout n 1, les
8. Et qui, comme la limite, conserve les ingalits larges.
Ch. Suquet, Cours I.S. 2010 87
Chapitre 3. chantillons et statistiques
vecteurs alatoires (X
1
, . . . , X
n
) et (Y
1
, . . . , Y
n
) ont mme loi. Daprs (3.14), on a pour
tout ,
|F
n
(, .) F|

= sup
xQ
[F
n
(, x) F(x)[, (3.21)
|H
n
(, .) F|

= sup
xQ
[H
n
(, x) F(x)[, (3.22)
relisez la preuve de (3.14) si vous doutez de la deuxime galit. Fixons une numrotation
j r
j
de Q par les entiers de sorte que Q = r
j
, j N. Introduisons pour tout k 1
les variables alatoires
T
k
:= max
0jk
[F
n
(r
j
) F(r
j
)[, T

k
:= max
0jk
[H
n
(r
j
) F(r
j
)[.
T
k
est une fonction mesurable du vecteur (X
1
, . . . , X
n
) et T

k
est la mme fonction
mesurable du vecteur (Y
1
, . . . , Y
n
). Par consquent les v.a. T
k
et T

k
ont mme loi. En
particulier,
k 1, > 0, P(T
k
> ) = P(T

k
> ). (3.23)
La suite de v.a. positives (T
k
)
k1
est croissante de limite sup
xQ
|F
n
(x) F(x)|. Il en
rsulte que la suite dvnements (T
k
> )
k1
est croissante de runion lvnement
sup
xQ
|F
n
(x) F(x)| > . De mme T
k
> sup
xQ
|H
n
(x) F(x)| > . Par
continuit squentielle croissante de P, en passant la limite dans (3.23) et en tenant
compte de (3.21) et (3.22), on obtient P(|F
n
F|

> ) = P(|H
n
F|

> ), ce qui
tablit le point 1 du lemme.
Preuve du point 2. Posons
A :=
_
|F
n
F|


n+
0
_
, A

:=
_
|H
n
F|


n+
0
_
.
Choisissons une suite (
i
)
i0
dcroissante vers 0, par exemple
i
:= 2
i
. En discrtisant
la dnition de la limite laide de cette suite (
i
)
i0
, revoyez si ncessaire le chapitre 6
du cours dI.P.., on obtient :
A =
i0

j1

kj
_
|F
k
F|


i
_
, A

=
i0

j1

kj
_
|H
k
F|


i
_
.
Posons pour i N et l j,
A
i,j,l
:=
k=l

k=j
_
|F
k
F|


i
_
, A

i,j,l
:=
k=l

k=j
_
|H
k
F|


i
_
.
Par le mme raisonnement quau point 1, on voit que
i 0, j 1, l j, P(A
i,j,l
) = P(A

i,j,l
), (3.24)
puisque la ralisation de A
i,j,l
, resp. A

i,j,l
, ne dpend que des valeurs prises par lchantil-
lon (X
1
, . . . , X
l
), resp. (Y
1
, . . . , Y
l
) et ces deux vecteurs alatoires ont mme loi. Ensuite
88 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
en utilisant 3 fois la continuit squentielle de P, on en dduit que P(A) = P(A

) ce qui
tablit le point 2. Essayez dabord dcrire la justication par vous mme avant de lire
ventuellement les dtails que voici.
Dans ce qui suit nous dnirons les notations A
i,j
puis A
i
. Pour allger les critures,
convenons que A

i,j
et A

i
seront dnies de la mme faon en remplaant F
k
par H
k
.
Pour tout couple (i, j) x, la suite (A
i,j,l
)
lj
est dcroissante pour linclusion, do par
continuit squentielle dcroissante de P :
A
i,j,l
A
i,j
:=
kj
_
|F
k
F|


i
_
P(A
i,j,l
) P(A
i,j
), (l +).
Il en va de mme avec A

i,j,l
et A

i,j
. En passant la limite dans (3.24) quand l tend vers
linni, i et j restant xs, on obtient :
i 0, j 1, P(A
i,j
) = P(A

i,j
). (3.25)
Pour i x, la suite (A
i,m
)
m1
est croissante pour linclusion, donc par continuit
squentielle croissante de P :
A
i,m
A
i
:=
j1
A
i,j
=
j1

kj
_
|F
k
F|


i
_
P(A
i,m
) P(A
i
), (m +).
De mme P(A

i,m
) P(A

i
). Rcrivons (3.25) avec m la place de j et passons la
limite quand m tend vers linni, i restant x, pour obtenir :
i 0, P(A
i
) = P(A

i
). (3.26)
Pour tout n N,
n+1

n
donc A
n+1
A
n
. La suite (A
n
)
n0
est ainsi dcroissante
pour linclusion et par continuit squentielle dcroissante de P :
A
n

i0
A
i
= A P(A
n
) P(A), (n +).
De mme P(A

n
) P(A

) et on dduit de (3.26) que P(A) = P(A

).
Preuve du point 3. On rappelle, voir (2.7) et la n de la preuve du thorme 2.2, que
u ]0, 1[, x R,
_
u F(x)
_

_
F
1
(u) x
_
.
De cette quivalence, on tire immdiatement lgalit suivante vraie sur tout :
|H
n
(, .) F|

= sup
xR

1
n
n

i=1
1
{F
1
(U
i
)x}
F(x)

= sup
xR

1
n
n

i=1
1
{U
i
F(x)}
F(x)

.
Comme F est une f.d.r., on a linclusion F(R) [0, 1], de sorte quen posant t = F(x)
dans le dernier supremum ci-dessus on obtient :
sup
xR

1
n
n

i=1
1
{U
i
F(x)}
F(x)

sup
t[0,1]

1
n
n

i=1
1
{U
i
t}
t

. (3.27)
Ch. Suquet, Cours I.S. 2010 89
Chapitre 3. chantillons et statistiques
Ceci tablit lingalit (3.20).
Pour touver une condition susante dgalit dans (3.20), on remarque quen notant
G
n
la f.d.r. empirique btie sur U
1
, . . . , U
n
, G
n
(t) t sannule en t = 0 et en t = 1. En
eet on a pour tout , U
i
() ]0, 1[, do G
n
(0) = 0 et G
n
(1) = 1. Par consquent
sup
t[0,1]
[G
n
(t) t[ = sup
t]0,1[
[G
n
(t) t[. Pour avoir lgalit dans (3.27), il sut donc
que F(R) ]0, 1[, ce qui quivaut la continuit de F sur R car F est une f.d.r. Plus
prcisment, si F a une discontinuit en un point a, alors 0 F(a) < F(a) 1 et par
croissance de F, aucun y ]F(a), F(a)[ ne peut tre limage dun rel x par F. Ceci
empche clairement que F(R) contienne tout lintervalle ]0, 1[. Si F est continue, comme
elle tend vers 0 en et vers 1 en +, le thorme des valeurs intermdiaires nous
donne linclusion ]0, 1[ F(R).
Fin de la preuve du thorme de Glivenko-Cantel li. En combinant les points 2 et 3 du
lemme 3.11, on obtient :
1 P
_
|F
n
F|


n+
0
_
P
_
sup
t[0,1]

1
n
n

i=1
1
{U
i
t}
t


n+
0
_
.
La preuve du b) dans le cas de v.a. uniformes sur ]0, 1[ nous a montr que cette dernire
probabilit vaut 1, ce qui nous permet de conclure dnitivement la convergence p.s.
de |F
n
F|

vers zro.
3.2.3 Application au test de Kolmogorov-Smirnov
On peut utiliser la distance uniforme entre la f.d.r. empirique F
n
et F, pour tester
lhypothse que les observations X
1
(), . . . , X
n
() proviennent ou non dun chantillon
de la loi de f.d.r. F continue et connue. Lide du test est la suivante. Posons
D
n
:= |F
n
F|

.
Nous avons vu ci-dessus que D
n
est bien une variable alatoire positive. On se xe un
seuil , disons = 0, 05, et on dtermine un rel t

tel que si les X


i
ont vraiment pour
f.d.r. F, P(D
n
> t

) = . On calcule ensuite la valeur D


n
() partir des observations
X
1
(), . . . , X
n
(). Si on trouve une valeur suprieure t

, on rejette lhypothse que la


loi commune des X
i
a pour f.d.r. F. Si D
n
() t

, on laccepte. Les trois points cl sont


ici les suivants.
1. Si les X
i
ont vraiment pour f.d.r. F et si F est continue, la loi de D
n
ne dpend
pas de F.
2. On sait calculer la f.d.r. de D
n
, de manire exacte pour les petites valeurs de n (cf.
tables p. 127) ou via un thorme de convergence en loi quand n tend vers linni
pour les grandes valeurs de n.
3. Il est possible de calculer exactement la valeur de D
n
(), de manire simple et
conomique partir des observations X
1
(), . . . , X
n
().
90 Ch. Suquet, Cours I.S. 2010
3.2. Mesure empirique
Le point 1 dcoule clairement du lemme 3.11, en notant que si F est continue, on a
galit dans (3.20).
Pour le point 2, voici ce que lon peut dire et que nous admettrons. On peut montrer
que la fonction de rpartition de D
n
se calcule par la formule suivante :
t > 0, P(D
n
t) = n! det
_
c
i,j
_
,
o [c
i,j
] est la matrice n n dont les termes sont dnis par :
c
i,j
=
_
_
_
0 si j + 1 < i n,
(b
i
a
j
)
ji+1
+
(ji+1)!
si 1 i j + 1,
o (b
i
a
j
)
+
dsigne la partie positive de b
j
a
j
et
a
j
= max
_
t +
j
n
; 0
_
, b
i
= min
_
t +
i 1
n
; 1
_
.
En pratique, on utilise une table donnant pour les valeurs de les plus couramment
utilises, les valeurs de t

telles que P(D


n
> t

) = . Pour les grandes valeurs de n, on


a plutt recours au rsultat suivant qui exprime la convergence en loi de

nD
n
.
Thorme 3.12 (Kolmogorov Smirnov). Soit (X
i
)
i1
une suite de variables alatoires
indpendantes et de mme loi de fonction de rpartition continue F. Soit F
n
la fonction
de rpartition empirique construite sur X
1
, . . . , X
n
et D
n
= |F
n
F|

. On a alors
x > 0, lim
n+
P(n
1/2
D
n
x) = K(x) := 1 + 2
+

j=1
(1)
j
exp(2j
2
x
2
). (3.28)
Lorsque x nest pas trop proche de 0, la srie dnissant K converge trs rapidement
et il sut de calculer un petit nombre de termes pour avoir une excellente prcision
9
.
Voyons maintenant le calcul pratique de D
n
(). Notons (X
n:1
, . . . , X
n:n
) le vecteur
alatoire des statistiques dordre, obtenu par rarrangement croissant
10
de lchantillon :
X
1
, . . . , X
n
= X
n:1
, . . . , X
n:n
et X
n:1
X
n:2
X
n:n
.
En particulier, X
n:1
= min
1in
X
i
et X
n:n
= max
1in
X
i
. Il est commode de poser
aussi, compte-tenu des limites des f.d.r. en :
X
n:0
:= , F(X
n:0
) = F
n
(X
n:0
) = 0, X
n:n+1
:= +, F(X
n:n+1
) = F
n
(X
n:n+1
) = 1.
La fonction de rpartition empirique F
n
est une fonction en escaliers, constante sur
chaque intervalle [X
n:i
, X
n:i+1
[, 0 i n et valant i/n sur cet intervalle.
9. Il ne saute pas aux yeux que K est bien une fonction de rpartition. La vrication de cette
proprit de K est un bon exercice danalyse.
10. Lordre de rarrangement dpend de .
Ch. Suquet, Cours I.S. 2010 91
Chapitre 3. chantillons et statistiques
Proposition 3.13. Avec les notations ci-dessus, lorsque la f.d.r. F est continue, la
statistique D
n
= |F
n
F|

se calcule par la formule :


D
n
= max
0in
max
_
i
n
F(X
n:i
) ; F(X
n:i+1
)
i
n
_
. (3.29)
Preuve. Comme F() = F
n
() = 0, le supremum de [F
n
F[ sur R est le mme que
sur [, +[. Cet intervalle tant la runion disjointe des [X
n:i
, X
n:i+1
[ pour 0 i n,
on en dduit que
D
n
= sup
R
[F
n
F[ = max
0in
Z
i
, o Z
i
:= sup
[X
n:i
,X
n:i+1
[
[F
n
F[.
Le problme se rduit donc vrier que
i 0, 1, . . . , n, Z
i
= max
_
i
n
F(X
n:i
) ; F(X
n:i+1
)
i
n
_
. (3.30)
Traitons dabord le cas gnral 1 i < n, o lintervalle I
i
:= [X
n:i
, X
n:i+1
[ est
born. Il y a trois congurations possibles selon la position de la restriction I
i
du graphe
de F relativement au segment horizontal dquation y = i/n (graphe de la restriction
de F
n
I
i
). La vrication ci-dessous utilise la croissance de F et dans les cas 2 et 3, sa
continuit gauche au point X
n:i+1
.
1. Si F(X
n:i+1
) i/n, le supremum de [F
n
F[ sur I
i
est atteint en X
n:i
, borne gauche
de I
i
et vaut F
n
(X
n:i
) F(X
n:i
) = i/n F(X
n:i
). Dautre part, F(X
n:i+1
) i/n
est ngatif. Ainsi lgalit dans (3.30) est vrie dans ce cas.
2. Si F(X
n:i
) i/n F(X
n:i+1
), le supremum de [F
n
F[ sur I
i
est atteint en lune
des bornes de cet intervalle, soit X
n:i
soit X
n:i+1
et (3.30) est encore vrie.
3. Si i/n < F(X
n:i
), le supremum de [F
n
F[ sur I
i
est atteint en X
n:i+1
, borne droite
de I
i
et vaut F(X
n:i+1
)i/n. Dautre part i/nF(X
n:i
) est ngatif. Lgalit (3.30)
est encore vrie dans ce cas.
Dans le cas particulier i = 0, I
0
= [, X
n:1
[ et Z
0
= F(X
n:1
) par croissance de F et
continuit gauche en X
n:1
. L encore (3.30) est vrie. Pour i = n, I
n
= [X
n:n
, +[ et
Z
n
= 1 F(X
n:n
), ce qui vrie aussi (3.30) puisque F(X
n:n+1
) n/n = 1 1 = 0.
3.3 Moments empiriques
3.3.1 Moments observs et moments empiriques
Nous avons dj vu, cf. remarque 3.7, que si lon a des observations x
1
, . . . , x
n
, inter-
prtes comme des ralisations X
1
(), . . . , X
n
(), les statistiques x := n
1
(x
1
+ +x
n
)
et s
2
:= n
1

n
i=1
(x
i
x)
2
appeles moyenne observe et variance observe peuvent
tre interprtes comme lesprance et la variance de la mesure de probabilit
n
() =
n
1

n
i=1

x
i
, c.--d. de la mesure empirique. Quand on laisse varier , on obtient ainsi
des variables alatoires X = n
1
(X
1
+ + X
n
) et S
2
= n
1

n
i=1
(X
i
X)
2
appeles
respectivement moyenne empirique et variance empirique. Ces notions se gnralisent
aux moments dordre k.
92 Ch. Suquet, Cours I.S. 2010
3.3. Moments empiriques
Dnition 3.14 (moments empiriques). Soit k N

. On appelle moment empirique


dordre k associ lchantillon X
1
, . . . , X
n
le moment dordre k de la mesure empirique

n
, c.--d. la variable alatoire
M
k
:=
1
n
n

i=1
X
k
i
.
Pour x, on a des observations numriques x
1
= X
1
(), . . . , x
n
= X
n
(), le moment
observ dordre k est alors M
k
() = n
1

n
i=1
x
k
i
.
On vous propose de montrer en exercice les convergences suivantes.
Si E[X
1
[ < +, X
p.s.

n+
EX
1
. (3.31)
Si EX
2
1
< +, S
2
p.s.

n+
Var X
1
. (3.32)
Ceci montre que pour des chantillons de grande taille, la moyenne empirique et la
variance empirique peuvent tre prises comme approximations respectives de lesprance
thorique EX
1
et de la variance thorique Var X
1
. Attention aux notations trompeuses,
X et S
2
dpendent de n. Pour prouver (3.32), la formule de Koenig pour la variance
empirique, qui a aussi son intrt propre, peut tre utile :
S
2
=
1
n
n

i=1
(X
i
X)
2
=
1
n
n

i=1
X
2
i
X
2
= M
2
M
2
1
. (3.33)
Pour la vrier, il sut de noter que pour tout x, S
2
() est la variance de la
loi de probabilit
n
(), M
1
() = X() est son esprance et M
2
() est lesprance du
carr dune v.a. de loi
n
(). Donc en appliquant la formule de Koenig pour la variance
de la loi
n
(), il vient S
2
() = M
2
() M
1
()
2
. Ceci tant vrai pour tout , on
en dduit (3.33). Si cette mthode ne vous a pas plu, libre vous de retrouver (3.33)
par un calcul algbrique.
3.3.2 Esprance et variance des moments empiriques
Les moments empiriques tant des variables alatoires peuvent avoir des. . .moments !
Nous allons examiner les deux exemples les plus importants, la moyenne empirique et la
variance empirique. Insistons encore une fois : moyenne empirique et variance empirique
sont des moments relatifs la mesure de probabilit alatoire
n
, donc sont des variables
alatoires. Ce qui nous nous intresse maintenant, ce sont les moments de ces variables
alatoires, en particulier esprance et variance, relativement la mesure de probabilit P.
Proposition 3.15. Soient X et S
2
la moyenne et la variance empiriques de lchantil lon
X
1
, . . . , X
n
.
a) Si E[X
1
[ < +,
EX = EX
1
. (3.34)
Ch. Suquet, Cours I.S. 2010 93
Chapitre 3. chantillons et statistiques
b) Si EX
2
1
< +,
Var(X) =
1
n
Var X
1
. (3.35)
E(S
2
) =
_
1
1
n
_
Var X
1
. (3.36)
c) Si E(X
4
1
) < +, en notant
2
:= Var X
1
, := E(X
1
EX
1
)
4
et si ,=
4
,
Var(S
2
)
1
n
(
4
), quand n +. (3.37)
Preuve. Si E[X
1
[ < +, EX
1
existe et comme les X
i
ont mme loi, les EX
i
existent et
sont toutes gales EX
1
. Par linarit de lesprance, on en dduit que E(X) existe et
se calcule comme suit :
EX = E
_
1
n
n

i=1
X
i
_
=
1
n
n

i=1
EX
i
=
1
n
nEX
1
= EX
1
.
Supposons maintenant que EX
2
1
< +, alors tous les X
i
ont des moments dordre 2,
ce qui lgitime lexistence de ES
2
et de Var X. Par quidistribution
11
des X
i
, on a pour
tout i, EX
2
i
= EX
2
1
et Var X
i
= Var X
1
. En utilisant la formule de calcul de la variance
dune somme de v.a. indpendantes, on obtient :
Var
_
1
n
n

i=1
X
i
_
=
1
n
2
Var
_
n

i=1
X
i
_
=
1
n
2
n

i=1
Var X
i
=
1
n
2
nVar X
1
=
1
n
Var X
1
,
ce qui tablit (3.35). Pour calculer E(S
2
), on prend lesprance des deux membres dans
(3.33), ce qui donne
E(S
2
) = EM
2
E(M
2
1
) = E
_
1
n
n

i=1
X
2
i
_
E(X
2
) = E(X
2
1
) E(X
2
),
par quidistribution des X
i
. On applique ensuite la formule de Koenig lenvers ,
c.--d. E(Y
2
) = Var Y + (EY )
2
avec la v.a. Y = X pour obtenir :
E(S
2
) = E(X
2
1
) Var X
_
EX
_
2
= E(X
2
1
)
1
n
Var X
1
(EX
1
)
2
(voir (3.35) et (3.34))
=
_
1
1
n
_
Var X
1
,
ce qui tablit (3.36).
Pour vrier (3.37), on peut montrer aprs un calcul assez pnible que
Var(S
2
) =
1
n
(
4
) +
2
n
2
(2
4
) +
1
n
3
( 3
4
).
11. Rappellons quune suite de v.a. est dite quidistribue lorsque ses termes ont mme loi.
94 Ch. Suquet, Cours I.S. 2010
3.4. Lois des moments empiriques
3.4 Lois des moments empiriques
Quand on veut approximer les moments dune loi par ses moments empiriques, il
est utile davoir des informations sur lerreur commise. La proposition 3.15 nous donne
une premire information. Nous allons maintenant essayer den savoir plus dans deux
situations typiques. Si on a un grand chantillon, on utilise la convergence en loi de
lerreur commise (aprs normalisation). Pour un chantillon de petite taille, le calcul
exact de la loi de lerreur est le plus souvent impossible, sauf dans le cas important dun
chantillon gaussien.
3.4.1 chantillon de grande taille
Par (3.31), on sait dj que X converge p.s. vers EX
1
lorsque n tend vers linni.
Pour le comportement en loi de lerreur dapproximation XEX
1
, on sattend pouvoir
utiliser un thorme limite central. Supposons donc que EX
2
1
< +. Par le TLC version
i.i.d., en posant comme dhabitude S
n
:= X
1
+ + X
n
et en notant que S
n
= nX, la
somme centre rduite S

n
scrit
S

n
=
S
n
ES
n

Var S
n
=
nX nEX
1

n
2
=

(X EX
1
).
Le TLC appliqu X scrit donc comme suit.
Thorme 3.16 (TLC pour la moyenne empirique). Si X est la moyenne empirique
dun chantillon X
1
, . . . , X
n
tel que EX
2
1
< + et
2
:= Var X
1
> 0,

( X EX
1
)
loi

n+
Z, (3.38)
o Z suit la loi gaussienne standard N(0, 1).
Linterprtation pratique de cet nonc est que pour les grandes valeurs de n, la loi de
X est approximativement gaussienne N(EX
1
, n
1/2
). Si on connat , on peut utiliser
ceci pour proposer des intervalles de conance pour le paramtre inconnu = EX
1
. Par
exemple le thorme 3.16 lgitime pour n grand lapproximation :
P
_

[X EX
1
[ 2
_
2(2) 1 0, 9544,
ce qui peut aussi scrire
P
_
X 2n
1/2
X + 2n
1/2
_
0, 9544.
On en dduit lintervalle de conance suivant pour au niveau 95, 4% :
_
X 2n
1/2
, X + 2n
1/2
_
.
En gnral, on ne connat pas et on le remplace par S :=

S
2
. La lgitimation
thorique de cette recette est fournie par le thorme suivant.
Ch. Suquet, Cours I.S. 2010 95
Chapitre 3. chantillons et statistiques
Thorme 3.17 (TLC avec autonormalisation). Si X et S
2
sont respectivement la
moyenne et la variance empiriques dun chantil lon X
1
, . . . , X
n
tel que EX
2
1
< + et

2
:= Var X
1
> 0,
T
n
:=

n
X EX
1

S
2
loi

n+
Y, (3.39)
o Y suit la loi gaussienne standard N(0, 1).
Preuve. En toute rigueur, cet nonc est incorrect car il est possible que S
2
prenne la
valeur 0 avec probabilit non-nulle et alors T
n
nest pas dnie. Pour simplier, nous
supposerons dans un premier temps quil existe un rang n
0
2 (pourquoi 2 ?) partir
duquel S
2
= 0 = , en sorte que pour tout n n
0
, T
n
est bien dnie sur tout et
est une variable alatoire
12
.
Lide est de traiter sparment X et S
2
, le premier grce au thorme 3.16, le
deuxime grce la LFGN. Pour cela on commence par crire :

n
X EX
1

S
2
=

(X EX
1
)

2
S
2
= S

2
S
2
.
Par le thorme 3.16, S

n
converge en loi vers Y gaussienne N(0, 1).
Par (3.32) qui nest quune simple application de la LFGN la suite i.i.d. et intgrable
(X
2
i
)
i1
, S
2
converge presque-srement vers
2
. On utilise alors la remarque suivante. Si
(V
n
)
n1
est une suite de variables alatoires qui converge p.s. vers une constante c et f
une fonction dnie sur un voisinage de c et continue au point c, alors f(V
n
) converge
presque srement vers f(c). La justication est laisse en exercice. En appliquant ceci
la fonction f : x x
1/2
qui est continue sur R

, donc en particulier continue au point


c =
2
> 0, on obtient :

2
S
2
p.s.

n+
1. (3.40)
Arrivs l, nous avons besoin dun lemme qui est un outil important dans les problmes
de convergence en loi. Nous dirons lgrement sa preuve.
Lemme 3.18 (Slutsky). Soient (Y
n
)
n1
et (Z
n
)
n1
deux suites de v.a. dnies sur le
mme espace probabilis et telles que
Y
n
loi

n+
Y et Z
n
Pr

n+
c,
o c est une constante. Alors
(Y
n
, Z
n
)
loi

n+
(Y, c). (3.41)
12. Par la loi forte des grands nombres, S
2
converge p.s. vers
2
, donc presque srement partir dun
certain rang alatoire n
1
= n
1
(), on a S
2
>
2
/2 > 0. Malheureusement, comme ce n
1
est alatoire,
on ne peut pas utiliser cet argument pour dire que T
n
est bien dnie comme variable alatoire (sauf
peut-tre sur un vnement de probabilit nulle) partir dun certain rang.
96 Ch. Suquet, Cours I.S. 2010
3.4. Lois des moments empiriques
Nous appliquons le lemme de Slutsky la convergence en loi dun produit. En eet la
convergence en loi des vecteurs alatoires tant conserve par image continue, cf. propo-
sition 1.7, g(Y
n
, Z
n
) converge en loi vers g(Y, c) pour toute fonction continue g : R
2
R.
En appliquant ceci avec Y
n
= S

n
, Z
n
= S
1
, c = 1, g : (y, z) yz et en rappelant que
la convergence p.s. implique la convergence en probabilit, on obtient (3.39).
Pour complter la preuve, il nous reste dnir proprement T
n
sans utiliser lhy-
pothse S
2
= 0 = pour n n
0
et vrier la convergence en loi de ce nouveau
T
n
vers Y . Posons donc pour tout ,
T
n
() :=
_

n
X()EX
1

S
2
()
si S
2
() ,= 0,
0 si S
2
() = 0.
Avec la convention habituelle sur les indicatrices dans les variables alatoires la valeur
nulle dun indicatrice simpose toujours lorsquelle est facteur dune quantit innie ou
non dnie, en clair :

2
S
2
1
{S
2
=0}
=
_
_
_
_

2
S
2
sur S
2
,= 0,
0 sur S
2
= 0.
avec cette convention, le T
n
redni proprement ci-dessus peut scrire :
T
n
=

(X EX
1
)
_
_

2
S
2
1
{S
2
=0}
_
_
.
Il est alors immdiat dadapter la dmonstration donne dans le cas o S
2
= 0 est
vide en notant que 1
{S
2
=0}
converge p.s. vers 1 en raison de la loi forte des grands
nombres.
Dans la preuve du lemme de Slutsky, nous aurons besoin du rsultat suivant qui peut
tre vu comme un cas particulier de convergence domine en probabilit .
Lemme 3.19. Soit (W
n
)
n1
une suite de variables alatoires rel les vriant
a) il existe une constante M R
+
telle que
, n N

, [W
n
()[ M;
b) W
n
converge en probabilit vers 0 quand n tend vers +.
Alors E[W
n
[ tend vers 0 quand n tend vers +.
Preuve. Le a) nous assure que P([W
n
[ > t) = 0 pour tout t > M. En crivant la
dnition de lesprance de la v.a. positive [W
n
[, on en dduit que
E[W
n
[ =
_
+
0
P([W
n
[ > t) dt =
_
M
0
P([W
n
[ > t) dt.
Ch. Suquet, Cours I.S. 2010 97
Chapitre 3. chantillons et statistiques
Fixant arbitraire dans ]0, M[, nous avons donc
E[W
n
[ =
_

0
P([W
n
[ > t) dt +
_
M

P([W
n
[ > t) dt.
Majorons la probabilit dans
_

0
par 1 et majorons la dans
_
M

par P([W
n
[ > ) puisquil
sagit dune fonction dcroissante de t. Il vient ainsi
E[W
n
[
_

0
dt +
_
M

P([W
n
[ > ) dt = + (M )P([W
n
[ > ).
Lhypothse b) de convergence en probabilit nous donne pour tout > 0 un entier
N = N() tel que pour tout n N, P([W
n
[ > ) < . Ceci est vrai en particulier avec
= , do
n N(), E[W
n
[ < +M = (M + 1).
Comme ceci est vrai pour tout ]0, M[, on conclut la convergence vers 0 de E[W
n
[.
titre dexercice, vous pouvez dmontrer la version plus gnrale du lemme 3.19
obtenue en remplaant lhypothse a) par pour tout n 1, [W
n
[ M presque-
srement .
Preuve du lemme de Slutsky. En revenant la dnition de la convergence en loi des
vecteurs alatoires, il sagit de montrer que si
Y
n
loi

n+
Y et Z
n
Pr

n+
c, (c constante)
alors
h C
b
(R
2
), Eh(Y
n
, Z
n
)
n+
Eh(Y, c), (3.42)
o C
b
(R
2
) dsigne lespace des fonctions continues bornes sur R
2
. En fait il sut de
vrier (3.42) pour des fonctions h de la forme particulire h(y, z) = f(y)g(z) avec
f, g C
b
(R). Nous admettrons ce point qui pourrait se dmontrer en utilisant lide de la
preuve du corollaire 1.43 combine avec un corollaire du thorme de Stone Weierstrass,
aprs compactication de R
2
par lajout dun seul point linni. On rduit ainsi la
preuve du lemme de Slutsky celle de la convergence suivante :
f C
b
(R), g C
b
(R) E
_
f(Y
n
)g(Z
n
)
_

n+
E
_
f(Y )g(c)
_
. (3.43)
Comme f et g sont bornes, les v.a. f(Y
n
), f(Y ), g(Z
n
) ainsi que leurs produits et
leurs dirences le sont aussi. Ceci lgitime lexistence de toutes les esprances gurant
dans les calculs ci-dessous. En utilisant la linarit de lesprance et la constance de g(c),
on peut crire :
E
_
f(Y
n
)g(Z
n
)
_
E
_
f(Y )g(c)
_
= E
_
f(Y
n
)
_
g(Z
n
) g(c)
_
+g(c)
_
f(Y
n
) f(Y )
_
_
= E
_
f(Y
n
)
_
g(Z
n
) g(c)
_
_
+g(c)
_
Ef(Y
n
) Ef(Y )
_
.
98 Ch. Suquet, Cours I.S. 2010
3.4. Lois des moments empiriques
On en dduit la majoration

E
_
f(Y
n
)g(Z
n
)
_
E
_
f(Y )g(c)
_

|f|

E[g(Z
n
) g(c)[ +[g(c)[

Ef(Y
n
) Ef(Y )

.
Comme g est continue, la convergence en probabilit de Z
n
vers c implique celle de g(Z
n
)
vers g(c), daprs un exercice vu en travaux dirigs
13
. Cette convergence en probabilit
quivaut celle de W
n
:= g(Z
n
) g(c) vers 0 et comme g est borne, on peut appliquer
le lemme 3.19 avec M = 2|g|

pour obtenir :
|f|

E[g(Z
n
) g(c)[
n+
0. (3.44)
Dautre part il rsulte immdiatement de la dnition de la convergence en loi de Y
n
vers Y que
[g(c)[

Ef(Y
n
) Ef(Y )


n+
0. (3.45)
De (3.44) et (3.45) on dduit la convergence (3.43), ce qui achve la preuve.
Exemple 3.20. Revenons sur la question de lintervalle de conance pour une proba-
bilit inconnue p. Dans ce cas, lintervalle de conance au niveau 95% pour p rsultant
de lapplication du TLC avec autonormalisation est
J
n
=
_
X 1, 96Sn
1/2
, X + 1, 96Sn
1/2
_
,
o S est la racine carre positive de la variance empirique de lchantillon de taille n de
v.a. de Bernoulli X
i
(de paramtre inconnu p). Comme chaque X
i
ne peut prendre que
les valeurs 0 ou 1, X
i
= X
2
i
, do
S
2
=
1
n
n

i=1
X
2
i
(X)
2
=
1
n
n

i=1
X
i
(X)
2
= X (X)
2
= X(1 X).
On retrouve bien lintervalle de conance J
n
propos la page 15, puisque M
n
= X.
3.4.2 chantillon gaussien
Dans le cas dun chantillon gaussien, les lois de X et de S
2
sont calculables, de
mme que celle du vecteur (X, S
2
).
Thorme 3.21 (Student, 1908). Soit X
1
, . . . , X
n
un n-chantil lon de la loi N(m, ).
Alors
a) La moyenne empirique X et la variance empirique S
2
sont indpendantes.
b) X suit la loi gaussienne N(m, n
1/2
).
c)
nS
2

2
suit la loi du khi-deux (
2
) de Pearson n1 degrs de libert, note
2
(n1).
Cette loi est tabule.
13. Sinon essayez de le dmontrer tout seuls avant de demander vos enseignant(e)s.
Ch. Suquet, Cours I.S. 2010 99
Chapitre 3. chantillons et statistiques
Nous admettrons le a) et le c).
Preuve du b). Puisque X
1
, . . . , X
n
sont indpendantes et gaussiennes, le vecteur ala-
toire (X
1
, . . . , X
n
) est gaussien, cf. corollaire 1.27. Il en rsulte daprs la dnition des
vecteurs gaussiens que la combinaison linaire
X =
1
n
n

i=1
X
i
de ses composantes est une v.a. gaussienne, cf. dnition 1.23. Les paramtres de sa loi
sont alors lesprance et lcart type de X, donnes par (3.34) et (3.35) :
EX = EX
1
= m,
_
Var X
_
1/2
=
_
Var X
1
n
_
1/2
= n
1/2
.
La loi de X est donc bien N(m, n
1/2
).
Corollaire 3.22. Soit X
1
, . . . , X
n
un chantil lon de la loi N(m, ). Posons
U :=

n 1
S
_
X m
_
.
Alors U suit la loi de Student n 1 degrs de libert. Cette loi est tabule.
Do sort cette v.a. U ? Lide de dpart est de trouver une variable alatoire de
la forme V = f
n
(X
1
, . . . , X
n
), permettant de construire des intervalles de conance
pour le paramtre inconnu m. Pour cela il est ncessaire que la loi de cette variable
ne dpende pas du ou des paramtres inconnus. Lorsque lon connat la valeur de ,
la candidature de V :=
_
n/
2
(X m) est assez naturelle. En eet V est gaussienne
comme combinaison linaire des composantes X
i
du vecteur gaussien (X
1
, . . . , X
n
). Son
esprance est
_
n/
2
E(X m) = 0. Sa variance est n
2
Var(X m) = n
2
Var X =
n
2
n
2
n
2
= 1. Ainsi V suit la loi N(0, 1). Notons dailleurs que V est exactement le
S

n
du thorme 3.16. La dirence est que dans ce thorme, S

n
nest gnralement pas
gaussienne, cest seulement sa limite en loi qui lest. Ici V est gaussienne pour tout n 1.
Lintrt de V est le mme que celui de S

n
: permettre la construction dintervalles de
conance pour m inconnue lorsque est connu. Lavantage du cas gaussien est que cette
construction est pertinente mme avec de petits chantillons. Le cas o
2
est inconnu
nous amne nouveau le remplacer par un estimateur de la variance. Dans le thorme
limite central avec autonormalisation, nous avons remplac
2
par la variance empirique
S
2
. Nous avons vu que S
2
converge p.s. vers
2
et que ES
2
= (1 1/n)
2
. Ici on
travaille avec n x, ventuellement petit et on prfre remplacer S
2
par (1 1/n)
1
S
2
.
Lestimateur de
2
ainsi obtenu est considr comme meilleur que le prcdent parce
que son esprance est exactement
2
. On parle destimateur sans biais, cf. le chapitre
sur lestimation. Ceci nous amne choisir
f
n
(X
1
, . . . , X
n
) =

n
n
n1
S
2
_
X m
_
=

n 1
S
_
X m
_
= U.
Voici une application du thorme de Student et de son corollaire la construction
dintervalles de conance pour les paramtres inconnus dune loi gaussienne.
100 Ch. Suquet, Cours I.S. 2010
3.4. Lois des moments empiriques
Exemple 3.23 (intervalle de conance pour m avec inconnu, cas gaussien). Pour
construire un tel intervalle de conance au niveau 1 , par exemple au niveau 95%, on
commence par chercher en utilisant la table de la loi de Student, un intervalle [a, b] le
plus court possible tel que
P(U [a, b]) 1 . (3.46)
En revenant la dnition de U dans le corollaire 3.22, on voit que lon a
a U b
aS

n 1
X m
bS

n 1
,
do
P
_
aS

n 1
X m
bS

n 1
_
1 .
On en dduit quun intervalle de conance au niveau 1 pour m est
_
X
bS

n 1
, X
aS

n 1
_
.
Cet intervalle peut se calculer partir des seules observations X
1
(), . . . , X
n
(), sans
avoir besoin de connatre lautre paramtre inconnu . On voit bien sur cette formule
lintrt de choisir lintervalle [a, b] de longueur minimale parmi tous les intervalles vri-
ant (3.46). En eet la longueur de lintervalle de conance est proportionnelle (b a).
Nous verrons ci-dessous que toute loi de Student a une densit paire, maximale en zro.
On en dduit facilement que lintervalle [a, b] de longueur minimale vriant (3.46) est
symtrique autour de 0, donc de la forme [c, c]. Le meilleur intervalle de conance au
niveau 1 pour m obtenu par cette mthode est donc
_
X
cS

n 1
, X +
cS

n 1
_
, avec P([U[ c) = 2P(U c) 1 = 1 .
Exemple 3.24 (intervalle de conance pour avec m inconnu, cas gaussien). Cette fois
nous utilisons le c) du thorme de Student. Notons Z une v.a. de loi
2
(n 1). Avec la
table de la loi
2
(n1), on cherche un intervalle [, ] R

+
tel que P(Z [, ]) 1.
En prenant grce au c), Z = nS
2

2
, on en dduit que
P
_
nS
2

2
[, ]
_
1 . (3.47)
Il sut ensuite de rsoudre lencadrement nS
2

2
en un encadrement de

2
pour rcrire (3.47) sous la forme
P
_
nS
2

nS
2

_
1 .
Ceci nous permet de proposer pour lintervalle de conance
_
Sn
1/2

1/2
, Sn
1/2

1/2
_
Ch. Suquet, Cours I.S. 2010 101
Chapitre 3. chantillons et statistiques
au niveau 1 . Pour obtenir le meilleur intervalle de conance au niveau 1 , il
faudrait donc trouver le couple (, ) de rels positifs qui minimise
1/2

1/2
parmi
ceux vriant P(Z [, ]) 1 . Ce problme est beaucoup moins simple que son
analogue de lexemple 3.23. On peut le rsoudre numriquement. En pratique on se
contente du choix sous-optimal de , tels que
P(Z ) =

2
, P(Z > ) =

2
.
Il est temps de faire plus ample connaissance avec les lois du
2
et de Student.
Dnition 3.25 (lois de
2
). On appel le loi du khi-deux d degrs de libert et on note

2
(d) la loi de la v.a.
Z = Y
2
1
+ +Y
2
d
,
o les d variables alatoires Y
i
sont i.i.d. N(0, 1).
Sans en savoir plus, on peut dj voir que
si Z a pour loi
2
(d), EZ = d. (3.48)
En eet, EY
2
1
= Var Y
1
= 1 car Y
1
est centre et de variance 1, do par linarit de
lesprance et quidistribution des Y
2
i
, EZ = dEY
2
1
= d.
On peut montrer que la loi
2
(d) admet pour densit
f : t
1
2
d/2
(d/2)
t
d/21
e
t/2
1
R
+
(t), (3.49)
avec
() :=
_
+
0
t
1
e
t
dt, ]0, +[. (3.50)
Dnition 3.26 (lois de Student). La loi de Student d degrs de liberts est la loi de
la v.a.
T :=
Y
0
_
1
d
(Y
2
1
+ +Y
2
d
)
,
o les Y
0
, Y
1
, . . . , Y
d
sont i.i.d. gaussiennes N(0, 1).
L encore, il est possible de calculer simplement lesprance de T partir de cette
dnition. Pour cel nous admettrons que
d 2, E
_
(Y
2
1
+ +Y
2
d
)
1/2
_
< +.
Par indpendance de Y
0
et (Y
1
, . . . , Y
d
) et nullit de lesprance de la gaussienne standard
Y
0
, on en dduit :
d 2, ET = EY
0
E
_
d
1/2
(Y
2
1
+ +Y
2
d
)
1/2
_
= 0. (3.51)
102 Ch. Suquet, Cours I.S. 2010
3.4. Lois des moments empiriques
4 8 12 16 20 0
0, 02
0, 14
Figure 3.6 Densit de la loi
2
(6)
On peut montrer que pour tout d N

, la loi de Student d degrs de libert admet


pour densit
g : t
1

_
d+1
2
_

_
d
2
_
_
1 +
t
2
d
_

d+1
2
, (3.52)
o est dnie en (3.50). Rappelons que (1/2) =

, do
k N

,
_
k +
1
2
_
=
_
k
1
2
__
k
3
2
_
. . .
1
2

, (3.53)
en utilisant la relation bien connue () = (1)(1) vrie pour tout rel > 1.
Ceci permet dexpliciter le calcul de la constante ((d + 1)/2)/(d/2) dans (3.52). On
distingue pour cela les cas d pair et d impair.
Si d = 2k, k N

,

_
d+1
2
_

_
d
2
_
=

_
k +
1
2
_
(k)
=
_
k
1
2
__
k
3
2
_
. . .
1
2

(k 1)!
. (3.54)
Si d = 2k + 1, k N

,

_
d+1
2
_

_
d
2
_
=
(k + 1)

_
k +
1
2
_
=
k!
_
k
1
2
__
k
3
2
_
. . .
1
2

. (3.55)
Pour d = 1, on a directement ((d + 1)/2)/(d/2) = (1)/(1/2) = 0!/

=
1/2
.
Ainsi la loi de Student 1 degr de libert nest autre que la loi de Cauchy Cau(0, 1).
Cette loi na pas desprance. Dans tous les cas la loi de T est symtrique, ce qui signie
que T et T ont mme loi. Cest clair sur la dnition 3.26 ou par parit de g.
Ch. Suquet, Cours I.S. 2010 103
Chapitre 3. chantillons et statistiques
104 Ch. Suquet, Cours I.S. 2010
Chapitre 4
Estimation
Nous revenons maintenant la question pose en introduction au chapitre 3 :
partir de lobservation dun chantillon X
1
, . . . , X
n
associ un modle statistique
_
, F, (P

_
, comment deviner quel est le bon ? Plus prcisment on sintresse
gnralement un objet = g() qui peut tre de nature fonctionnelle (densit de
la loi des X
i
, f.d.r. des X
i
, fonction de survie, . . .) ou numrique (esprance, variance,
mdiane, . . .) ou vectorielle ni-dimensionnelle (couple (m, ) dans un modle gaussien,
bornes dun intervalle de support dune loi, triplet des paramtres dune loi de Weibull,
. . .). Dans le premier cas on parle destimation fonctionnel le. Nous en avons vu un exem-
ple important avec la f.d.r. empirique qui est un estimateur fonctionnel de la f.d.r. F des
X
i
. Par le thorme de Glivenko Cantelli, cet estimateur fonctionnel converge p.s. unifor-
mment vers F. Nous nous occupons dans ce chapitre du cas o est ni-dimensionnel
et pour simplier, nous nous limitons dans les noncs au cas o g est lidentit et =
est un rel. En cas de besoin, par exemple si dans un modle gaussien paramtr par
= (m, ), on sintresse la variance g() =
2
, il sera facile dadapter les noncs.
Nous avons dj vu sur des exemples une technique destimation, celle des intervalles
de conance o, plutt que de tenter de deviner la vraie valeur du paramtre inconnu
, on essaie de lencadrer avec une grande probabilit de succs entre des bornes calcules
partir de lchantillon. On parle alors destimation par interval le de conance. Dans ce
chapitre, nous tudions lestimation ponctuel le. Il sagit cette fois non plus de parier
sur un intervalle cens contenir la bonne valeur , mais de proposer directement une
valeur calcule partir de lchantillon pour reprsenter (plus ou moins bien) la valeur
inconnue de .
4.1 Estimateurs
4.1.1 Exemples
Avant de donner les dnitions relatives lestimation, il est utile de passer en revue
quelques exemples introductifs. Pour chacun de ces exemples, on suppose que lon a
un modle statistique
_
, F, (P

_
et on note X
1
, . . . , X
n
un chantillon associ ce
105
Chapitre 4. Estimation
modle.
Exemple 4.1 (estimation de lesprance). Dans le cas o le paramtre inconnu est
lesprance de lchantillon (E

X
i
= ), un estimateur usuel de est la moyenne em-
pirique
X =
1
n
n

i=1
X
i
.
Une des raisons de ce choix est que X converge presque srement quand n tend vers
linni vers E

X
1
= par la loi forte des grands nombres. On dit que X est un estimateur
fortement consistant de . Notons aussi que pour tout n, E

X = . On dit que X est


un estimateur sans biais de .
Exemple 4.2 (estimation de la variance). Lorsque le paramtre inconnu est la variance

2
, on peut lestimer par la variance empirique :
S
2
=
1
n
n

i=1
(X
i
X)
2
=
1
n
n

i=1
X
2
i
X
2
.
Nous avons vu que S
2
converge p.s. vers
2
, donc l encore cet estimateur est fortement
consistant. Par contre, cf. proposition 3.15,
, E

(S
2
) =
_
1
1
n
_
Var

X
1
,= Var

X
1
.
Ici lesprance de lestimateur nest pas gale au paramtre estimer, on dit que lesti-
mateur est biais.
Exemple 4.3 (estimation du support dune loi uniforme). Soit X
1
, . . . , X
n
un chantil-
lon de la loi uniforme sur [0, ], o ]0, +[ est inconnu. Voici un premier estimateur
T
n
de dni par
T
n
:= max
1in
X
i
.
Il est facile de vrier que T
n
est un estimateur fortement consistant et biais
1
. Voici un
deuxime estimateur T

n
fortement consistant et sans biais :
T

n
= 2X =
2
n
n

i=1
X
i
.
En eet si X
i
suit la loi uniforme sur [0, ] son esprance vaut /2.
1. Il est assez probable que vous ayiez dj vu en exercice que T
n
converge p.s. vers et que E

T
n
< .
Sinon dpchez vous de combler cette lacune.
106 Ch. Suquet, Cours I.S. 2010
4.1. Estimateurs
4.1.2 Gnralits
Dans les exemples vus ci-dessus, lestimateur propos est chaque fois, une fonction
des observations proche , au moins pour les grandes valeurs de n, du paramtre
quil est cens estimer. Cette ide de proximit est nanmoins trop imprcise pour tre
incorpore la dnition mathmatique dun estimateur, laquelle doit tre valable pour
toute valeur de n. On y renonce donc et il ne reste plus que la notion de fonction des
observations, autrement dit de statistique au sens de la dnition 3.5.
Dnition 4.4 (estimateur). Soit X
1
, . . . , X
n
un n-chantil lon associ un modle
statistique
_
, F, (P

_
, o est une partie de R. On appel le estimateur de associ
cet chantillon, toute v.a. T
n
de la forme
T
n
= f
n
(X
1
, . . . , X
n
)
o f
n
: R
n
R, (t
1
, . . . , t
n
) f
n
(t
1
, . . . , t
n
) est une application borlienne ne dpendant
pas de .
Dun point de vue formel, les dnitions 3.5 et 4.4 sont quivalentes. La seule dif-
frence, non mathmatique, est le contexte dutilisation. Lexpression statistique est plus
gnrale car elle recouvre aussi bien les estimateurs que les statistiques de test.
Il faut bien avouer qu son niveau de gnralit, la dnition 4.4 a quelque chose
de choquant car il semble nalement que T
n
puisse navoir aucun rapport avec . y
regarder de plus prs, on voit que le seul rapport de T
n
avec , cest que sa loi dpend de
via la loi du vecteur alatoire (X
1
, . . . , X
n
). Cest nanmoins bien peu et on se dpche
de complter la dnition 4.4 en dnissant des proprits qui permettent de dire que
certains estimateurs sont moins mauvais que dautres.
Dnition 4.5 (estimateur faiblement consistant). Soit T
n
un estimateur de . On
dit quil est faiblement consistant sil converge en probabilit vers quand n tend vers
linni.
Bien sr, cette dnition contient un grossier abus de langage. Il faudrait dire la
suite destimateurs (T
n
)
n1
est faiblement consistante si. . . . Dautre part, rappelons que
nous travaillons avec un modle statistique
_
, F, (P

_
. Dans ce cadre, la convergence
en probabilit de T
n
vers signie trs prcisment :
, > 0, P

_
[T
n
[
_

n+
0.
Avec le mme abus de langage que ci-dessus, on dnit la consistance forte.
Dnition 4.6 (estimateur fortement consistant). Soit T
n
un estimateur de . On dit
quil est fortement consistant sil converge presque-srement vers quand n tend vers
linni.
Ch. Suquet, Cours I.S. 2010 107
Chapitre 4. Estimation
Ici la convergence presque-sre de T
n
vers signie :
, P

_
lim
n+
T
n
=
_
= 1.
Fixons pour un moment n et notons T = T
n
. Lerreur destimation est la v.a. T .
On suppose ici que E

[T[ < + pour tout , ce qui entrane lexistence de E

T.
On peut alors dcomposer lerreur destimation comme suit :
T = (T E

T) + (E

T ). (4.1)
Le premier terme derreur T E

T est alatoire et provient invitablement des uc-


tuations de la v.a. T autour de son esprance. Le deuxime terme (E

T ) est
dterministe et reprsente une erreur systmatique, dont on pourrait se dbarrasser en
ajoutant une constante convenable
2
T.
Dnition 4.7 (biais). Soit T un estimateur de . Si E

T existe pour tout , on


appel le biais de lestimateur T la quantit (E

T ). De plus
si pour tout , E

T = , on dit que T est un estimateur sans biais de ;


si E

T ,= pour au moins un , on dit que T est un estimateur biais de ;


si (T
n
)
n1
est une suite destimateurs tel le que pour tout , E

T
n
converge
vers quand n tend vers linni, on dit que T
n
est asymptotiquement sans biais.
Cette dnition du biais contient encore un abus de langage, puisquon considre le
biais comme un nombre rel, alors quil sagit en fait de la fonction :
b : R, b() = E

T .
Dans lexemple 4.2, la variance empirique S
2
est un estimateur biais mais asympto-
tiquement sans biais de
2
. Il en va de mme pour lestimateur T
n
de la borne dans
lexemple 4.3.
4.1.3 Erreur quadratique moyenne
Pour mesurer la proximit de lestimateur T au paramtre , on utilise une fonction
de perte, le plus souvent de la forme g(|T |), o g est une fonction croissante et
| | une norme sur lespace des variables alatoires. Lune des fonctions de perte les plus
courantes est lerreur quadratique moyenne.
Dnition 4.8 (erreur quadratique moyenne EQM). On suppose que lestimateur T
du paramtre vrie E

T
2
< + pour tout . On appel le erreur quadratique
moyenne de T, en abrg EQM, la quantit
EQM(T) := E

(T )
2
.
2. condition dtre capable de calculer E

T , ce qui nest pas toujours le cas en pratique !


108 Ch. Suquet, Cours I.S. 2010
4.1. Estimateurs
L encore, il serait plus correct de parler de la fonction :
EQM : R
+
, E

(T )
2
.
Dans la littrature anglo-amricaine, lEQM est note MSE (mean square error).
Proposition 4.9 (dcomposition de lEQM). LEQM dun estimateur est gale la
somme de sa variance et du carr du biais :
, EQM(T) = E

(T )
2
= Var

T + (E

T )
2
. (4.2)
En consquence, parmi tous les estimateurs sans biais de , les plus prcis au sens
de lEQM sont ceux de variance minimale.
Preuve. En utilisant la dcomposition 4.1 de lerreur destimation et en notant le biais
b(), on obtient pour tout :
E

(T )
2
= E

_
(T E

T) +b()
_
2
= E

_
(T E

T)
2
+b()
2
+ 2b()(T E

T)
_
= E

_
(T E

T)
2
) +b()
2
+ 2b()E

(T E

T)
= Var

(T) +b()
2
,
en rappelant que b() nest pas alatoire et en notant que T E

T a une E

-esprance
nulle par linarit de E

.
Puisque lEQM est une mesure de la prcision dun estimateur, il est naturel de
chercher la minimiser. Nous allons donner sous certaines hypothses une borne in-
frieure pour lEQM, qui sera en quelque sorte le prix plancher payer (en monnaie
EQM) pour notre ignorance de la vraie valeur de . Nous allons voir que dans les bons
cas cette borne infrieure est de la forme c()n
1
pour des estimateurs sans biais. Cest
lingalit de Cramr-Rao. Pour tablir ce rsultat, il nous faut introduire quelques no-
tations et faire des hypothses techniques. Nous allons dabord travailler avec un vecteur
alatoire (X
1
, . . . , X
n
) dni sur un modle statistique pour minorer la variance dune
v.a. T = h(X
1
, . . . , X
n
), cf. lemme 4.11. Ensuite nous appliquerons ce rsultat au cas o
(X
1
, . . . , X
n
) est un chantillon, autrement dit les X
i
sont P

-i.i.d. pour tout , an den


dduire lingalit de Cramr-Rao proprement dite. Les lecteurs presss peuvent sauter
directement lnonc du thorme 4.12.
Nous supposons ici que
_
, F, (P

_
est un modle statistique ayant pour espace
de paramtres un ouvert de R. Nous limiterons notre tude aux deux cas suivants.
Cas 1. Pour tout , (X
1
, . . . , X
n
) a une loi discrte sous P

.
Cas 2. Pour tout , (X
1
, . . . , X
n
) a une loi densit
3
p

sous P

.
3. Parmi toutes les densits possibles, qui dirent entre elles dun ensemble de mesure nulle, on en
choisit dnitivement une, de prfrence la plus lisse possible.
Ch. Suquet, Cours I.S. 2010 109
Chapitre 4. Estimation
Pour unier les notations relatives ces deux cas, on dnit f
n
: R
n
R
+
par
x = (x
1
, . . . , x
n
) R
n
, , f
n
(x, ) :=
_
_
_
P

_
X
1
= x
1
, . . . , X
n
= x
n
) (cas 1)
p

(x
1
, . . . , x
n
) (cas 2).
Voici les 4 hypothses dont nous aurons besoin.
(H1) Lensemble A
n
:= x R
n
; f
n
(x, ) > 0 ne dpend pas de .
(H2) Pour tout x A
n
, f
n
(x, .) est drivable par rapport sur louvert .
(H3) Dnissons pour tout , la fonction u

: R
n
R et la v.a. U

par
u

(x) :=
_
_
_

ln f
n
(x, ) si x A
n
0 si x / A
n
U

:= u

(X
1
, . . . , X
n
).
On suppose alors que 0 < E

(U
2

) < + et que
, E

(U

) = 0. (4.3)
(H4) On suppose que T = h(X
1
, . . . , X
n
) est une v.a. telle que E

T
2
< + pour tout
, que g : g() := E

T est drivable sur et que


, g

() = E

(TU

). (4.4)
Remarque 4.10. Les conditions (4.3) et (4.4) peuvent sembler assez exigeantes pre-
mire vue. En fait elles sont automatiquement vries chaque fois que lon a le droit
dintervertir drive / et srie multiple (cas 1) ou intgrale sur R
n
(cas 2). Pour sen
convaincre, examinons le cas 2, laissant le 1 en exercice. Dans ce cas, (X
1
, . . . , X
n
) a
pour densit p

nulle en dehors de A
n
et lesprance de T = h(X
1
, . . . , X
n
) sexprime
par une intgrale multiple :
g() = E

T =
_
R
n
h(x)p

(x) dx =
_
R
n
h(x)f
n
(x, ) dx =
_
A
n
h(x)f
n
(x, ) dx.
En admettant que linterversion entre lintgrale et la drivation par rapport est
lgitime, on a donc :
g

() =

_
A
n
h(x)f
n
(x, ) dx =
_
A
n
h(x)

f
n
(x, ) dx
=
_
A
n
h(x)

f
n
(x, )
f
n
(x, )
f
n
(x, ) dx
=
_
A
n
h(x)

_
ln f
n
(x, )
_
f
n
(x, ) dx
=
_
A
n
h(x)u

(x)f
n
(x, ) dx = E

(TU

),
ce qui nous donne (4.4). Dans le cas particulier o h est la fonction constante 1 et donc
T est la v.a. constante 1, on a g() = E

(1) = 1, do g

() = 0 et on obtient (4.3).
110 Ch. Suquet, Cours I.S. 2010
4.1. Estimateurs
Lemme 4.11. Sous les hypothses (H1), (H2), (H3) et (H4), on a lingalit
Var

(T)
g

()
2
I()
, o I() := E

(U
2

). (4.5)
Preuve. Puisque T et U

sont de carr intgrable, leur covariance existe et peut scrire


par la formule de Koenig
Cov

(T, U

) = E

(TU

) E

(T)E

(U

) = E

(TU

), (4.6)
cause de (4.3). En utilisant successivement (4.4), (4.6), lingalit de Cauchy-Schwarz
pour les covariances et (4.3), on obtient
g

()
2
=
_
Cov

(T, U

)
_
2
Var

(T) Var

(U

) = Var

(T)E

(U
2

),
ce qui nous donne la minoration (4.5) aprs division par E

(U
2

) > 0.
Voyons maintenant ce que donne le lemme 4.11 dans le cas o le vecteur alatoire
(X
1
, . . . , X
n
) est un chantillon associ au modle statistique
_
, F, (P

_
.
Dans le cas 2, notons provisoirement p
,1
la densit de X
1
sous P

. Pour donner une


expression de f
n
(x, ) uniant les cas 1 et 2, notons f la fonction
f : R , (t, ) f(t, ) :=
_
_
_
P

(X
1
= t) (cas 1)
p
,1
(t) (cas 2).
(4.7)
Alors par indpendance et quidistribution (sous chaque P

) des X
i
, on a
x = (x
1
, . . . , x
n
) R
n
, , f
n
(x, ) = f(x
1
, ) f(x
n
, ). (4.8)
Cette factorisation de f
n
va nous permettre de simplier les hypothses (H1)(H4).
Posons
A := t R; f(t, ) > 0.
Il rsulte alors immdiatement de la factorisation de f
n
(x, ) que
A
n
= A A = A
n
.
Ainsi lhypothse (H1) se rduit A ne dpend pas de .
En raison de la rgle de drivation dun produit de fonctions, lhypothse (H2) se
rduit la drivabilit par rapport de f(t, ).
Pour simplier (H3), commenons par noter que par (4.8),
x A
n
, u

(x) =
n

i=1

_
ln f(x
i
, )
_
,
do U

=

n
i=1
Y
,i
avec Y
,i
:=

_
ln f(X
i
, )
_
1
A
(X
i
). Par quidistribution des Y
,i
,
pour que (H3) soit vrie, il sut que 0 < E

(Y
2
,1
) < + et que E

Y
,1
= 0. Pour
Ch. Suquet, Cours I.S. 2010 111
Chapitre 4. Estimation
cette dernire condition, il sut de pouvoir intervertir drivation par rapport et
sommation sur A (cas 1) ou intgration sur A (cas 2). Vrions le dans le cas 2 :
E

(Y
,1
) =
_
A

_
ln f(t, )
_
f(t, ) dt =
_
A
_
f(t, )

_
1
f(t, )
f(t, ) dt
=
_
A
_
f(t, )

_
dt
=

_
A
f(t, ) dt
=

_
R
f(t, ) dt
=

(1) = 0.
Notons au passage que si E

(Y
2
,1
) < + et si linterversion ci-dessus est lgitime, alors
E

(U
2

) = Var

, do par indpendance et quidistribution des Y


,i
,
E

(U
2

) = nVar

(Y
,1
) = nE

_
ln f(X
1
, )
_

2
. (4.9)
Dans cette formule, nous avons dlibrment omis de recopier 1
A
(X
1
) en explicitant
Y
,1
. Cet abus nest pas bien grave car P

(X
1
A) = 1 pour tout . Nous ferons
systmatiquement cet abus dcriture dans la suite pour toutes les v.a. construites
laide dune drive logarithmique. Cel revient considrer que ces v.a. sont dnies
sur priv dun vnement de probabilit nulle pour P

, cet vnement ne dpendant


pas de . On peut dailleurs convenir que lon complte leur dnition en les prenant
gales zro sur cet vnement de probabilit nulle.
Enn, concernant (H4), la factorisation (4.8) napporte pas de simplication spec-
taculaire et nous nous contentons de reprendre la remarque 4.10.
Tout ceci aboutit lingalit de Cramr-Rao suivante. Nous reprenons dans lnonc
toutes les notations et hypothses dveloppes ci-dessus lintention des lecteurs ayant
saut la marche dapproche.
Thorme 4.12 (ingalit de Cramr-Rao). Soit
_
, F, (P

_
un modle statistique
ayant pour espace de paramtres un ouvert de R. Soit (X
1
, . . . , X
n
) un chantil lon
associ ce modle et relevant de lun des deux cas suivants.
Cas 1. Pour tout , X
1
a une loi discrte sous P

.
Cas 2. Pour tout , X
1
a une loi densit p
,1
sous P

.
On note f la fonction
f : R , (t, ) f(t, ) :=
_
_
_
P

(X
1
= t) (cas 1)
p
,1
(t) (cas 2).
On suppose vries les hypothses suivantes.
112 Ch. Suquet, Cours I.S. 2010
4.1. Estimateurs
(H1) Lensemble A := t R; f(t, ) > 0 ne dpend pas de .
(H2) Pour tout t A, la fonction f(t, .) est drivable sur .
(H3) Pour tout , 0 < E

ln f(X
1
, )

2
< + et
E

ln f(X
1
, )
_
= 0. (4.10)
Pour que (4.10) soit vrie, il sut que lon puisse intervertir
dans le cas 1 :

tA
et

dans

tA
f(t,)

;
dans le cas 2 :
_
A
et

dans
_
A
f(t,)

dt.
(H4) T = h(X
1
, . . . , X
n
) est un estimateur sans biais de g() tel que E

T
2
< + pour
tout , avec g drivable sur . De plus,
g

() =
n

i=1
E

_
T

ln f(X
i
, )
_
. (4.11)
Pour que (4.11) soit vrie, il sut que lon puisse intervertir :
dans le cas 1 :

xA
n et

dans

xA
n h(x
1
, . . . , x
n
)

_
f(x
1
, ) . . . f(x
n
, )
_
;
dans le cas 2 :
_
A
et

dans
_
A
n h(x
1
, . . . , x
n
)

_
f(x
1
, ) . . . f(x
n
, )
_
dx
1
. . . dx
n
.
Sous ces conditions, on a
Var

(T)
g

()
2
nE

_
ln f(X
1
, )
_

2
.
En particulier, si T est un estimateur sans biais de , on a
EQM(T)
c()
n
, avec
1
c()
:= E

_
ln f(X
1
, )
_

2
.
La quantit c()/n est appele borne de Cramr-Rao associe au modle statistique
_
, F, (P

_
et lchantillon (X
1
, . . . , X
n
).
Dnition 4.13 (estimateur ecace). Un estimateur sans biais est dit ecace si son
EQM atteint la borne de Cramr-Rao pour tout .
Les hypothses (H1)(H4) sont appeles conditions de rgularit pour lingalit de
Cramr-Rao. En pratique pour vrier (H3) et (H4), on a parfois besoin dun thorme
dinterversion entre drivation et sommation
4
. Nous en proposons un ci-dessous, issu du
thorme de convergence domine de Lebesgue. Sa dmonstration sortirait du cadre de
ce cours
5
.
4. Essayez dabord une vrication directe de (4.10) et (4.11), comme dans lexemple 4.15.
5. Voir par exemple le cours dI.F.P. 2004, chapitre 4
http://math.univ-lille1.fr/~suquet/ens/IFP/Cours/cours04/Chap4ifp04.pdf
Ch. Suquet, Cours I.S. 2010 113
Chapitre 4. Estimation
Thorme 4.14 (drivation sous le signe somme). Soient D R
n
, n 1, un ouvert
de R, et F : D R D, (t, ) F(t, ). On suppose que pour tout t D, F(t, .)
est drivable sur .
Cas 1. D est dnombrable et pour tout , la famil le F(t, ); t D est sommable.
On suppose de plus que pour tout
0
, il existe un voisinage V
0
de
0
dans
et une fonction M
0
: D R
+
tel le que
V
0
, t D,

F(t, )

M
0
(t) (4.12)
et

tD
M
0
(t) < +. (4.13)
Alors
_
F(t,)

; t D
_
est sommable pour tout , sa somme est drivable
comme fonction de et on a linterversion
,

tD
F(t, )

tD
F(t, ). (4.14)
Cas 2. D est un borlien
6
de R
n
et pour tout , lintgrale
_
D
F(t, ) dt est absolu-
ment convergente. On suppose de plus que pour tout
0
, il existe un voisinage
V
0
de
0
dans , un borlien D
0
D tel que
n
(D D
0
) = 0 et une fonction
M
0
: D
0
R
+
telle que
V
0
, t D
0
,

F(t, )

M
0
(t) (4.15)
et _
D
0
M
0
(t) dt < +. (4.16)
Alors lintgrale
_
D
F(t,)

dt est absolument convergente, est drivable comme fonc-


tion de et on a linterversion
,
_
D
F(t, )

dt =

_
D
F(t, ) dt. (4.17)
Exemple 4.15 (estimation du paramtre dune loi de Poisson). Dans cet exemple,
=]0, +[ et chaque X
i
suit, sous P

, la loi de Poisson de paramtre . On se propose


destimer . Comme E

X
i
= , la moyenne empirique X est un estimateur sans biais de
. Nous allons vrier les conditions de rgularit pour lingalit de Cramr-Rao avec
ce modle et T = X =
1
n
(X
1
+ + X
n
). Dabord il est clair que lon est dans le cas 1
et que
]0, +[, f(t, ) =
_

t
e

t!
si t N,
0 si t (R N).
6. En pratique, on utilisera ceci avec D produit cartsien dintervalles de R ou union nie densembles
de ce type.
114 Ch. Suquet, Cours I.S. 2010
4.1. Estimateurs
On voit immdiatement que A = t R; f(t, ) > 0 = N ne dpend pas de , ce
qui satisfait (H1). Clairement f(t, .) est drivable sur ]0, +[ pour tout t N, ce qui
satisfait (H2). La drive par rapport scrit :
t N, ]0, +[,
f(t, )

=
e

t!
(t
t1

t
) =

t1
e

t!
(t ).
La drive logarithmique a une expression particulirement simple :
t N, ]0, +[,
ln f(t, )

=
t

. (4.18)
On en dduit que pour tout ]0, +[,
E

ln f(X
1
, )

2
= E

(X
1
)
2

2
=
2
Var

(X
1
) =
1

< +,
en utilisant le fait que lesprance et la variance dune loi Pois() valent . Ainsi la
condition dintgrabilit dans (H3) est vrie. La vrication de (4.10) est immdiate
grce (4.18) :
E

ln f(X
1
, )
_
= E

_
X
1

_
=
1

(E

X
1
) = 0.
Pour (H4), on commence par remarquer que E

(T
2
) = E

(X
2
) < +, parce que la
v.a. X
1
de loi Pois() est de carr intgrable quel que soit > 0. Vrions (4.11). Ici
g() = E

X = , donc g

() = 1. En utilisant nouveau (4.18), on obtient


n

i=1
E

_
T

ln f(X
i
, )
_
=
n

i=1
E

1
(X
i
)X
_
=
1
n
n

i=1
E

_
_
(X
i
)
n

j=1
X
j
_
_
=
1
n
n

i,j=1
E

_
(X
i
)X
j
_
. (4.19)
Si i ,= j, par P

-indpendance de X
i
et X
j
, on a E

_
(X
i
)X
j
_
= E

(X
i
)E

X
j
=
0, car E

X
i
= . Si j = i, E

_
(X
i
)X
i
_
= E

(X
2
i
) E

X
i
= E

(X
2
i
) (E

X
i
)
2
=
Var

X
i
= . En reportant ces rsultats dans (4.19), il vient
n

i=1
E

_
T

ln f(X
i
, )
_
=
1
n
n

i=1
=
1
n
n = 1,
ce qui tablit (4.11). Ainsi toutes les conditions de rgularit pour lingalit de Cramr-
Rao sont vries.
Puisque E

[
ln f(X
1
,)

[
2
=
1
, la constante c() est simplement et la borne de
Cramr-Rao vaut ici n
1
. Dautre part, puisque X est un estimateur sans biais de , son
EQM est gale sa variance. Or nous savons que Var

(X) = n
1
Var

(X
1
) = n
1
. Ainsi
lEQM de X est gale la borne de Cramr-Rao, pour tout ]0, +[. Lestimateur
T = X est donc un estimateur ecace du paramtre .
Ch. Suquet, Cours I.S. 2010 115
Chapitre 4. Estimation
4.2 Maximum de vraisemblance
4.2.1 Exercice introductif
La mthode destimation par maximum de vraisemblance repose sur une ide assez
naturelle. Lexercice suivant devrait vous en convaincre. Il est librement adapt dun sujet
de baccalaurat, donn dans les annes 70 (acadmie de Rennes). Essayez den rdiger
la solution de manire dtaille, avant de regarder les rponses succinctes ci-dessous.
Un tang contient un nombre N, inconnu mais dni de poissons. Lobjet du problme
est de proposer une valuation de N base sur des hypothses bien dnies.
1) On pche dans dirents endroits de ltang ; on en sort 20 poissons que lon
marque et que lon remet vivants dans ltang aprs avoir t marqus.
Quelques jours plus tard, on eectue une nouvelle pche dans des endroits varis du
mme tang, en pchant les poissons un par un, en notant pour chaque poisson pris sil
est marqu ou non et en le rejetant leau avant de pcher le suivant. On prend ainsi
50 poissons dont 4 sont marqus.
On suppose quentre les deux pches, la population de ltang na pas vari et que lors
de la seconde pche chaque coup, il y a quiprobabilit de sortie pour chacun des N
poissons de ltang.
Avant la seconde pche, on pouvait se poser le problme : quel le est la probabilit de
sortir k poissons marqus sur les 50 pchs ? Cette probabilit dpendant de N sera note
P
N
(S
50
= k) o S
50
dsigne la variable alatoire nombre de poissons marqus parmi
les 50 poissons pchs . Donner lexpression gnrale de P
N
(S
50
= k).
2) Soit f, la fonction qui x rel suprieur 20 associe le nombre rel
_
20
x
_
4
_
1
20
x
_
46
.
Montrer que f a un maximum. Pour quel le valeur a de x ce maximum est-il atteint ?
3) Quelle valeur doit on attribuer N pour maximiser la probabilit P
N
(S
50
= 4) ?
Cette faon destimer le nombre inconnu N conduit la mme valeur quune autre
mthode trs simple que lon aurait pu utiliser pour valuer N. Laquel le ?
Voici les rponses. La proportion inconnue de poissons marqus dans le lac est p
N
=
20/N et S
50
suit, sous P
N
, la loi binomiale de paramtres 50 et p
N
, do
P
N
(S
50
= k) = C
k
50
_
20
N
_
k
_
1
20
N
_
50k
, k = 0, 1, . . . , 50.
Pour voir que f a un maximum, il y a au moins 3 mthodes : driver brutalement f et
tudier le signe de f

, poser t = 20/x et tudier les variations de la fonction g(t) ainsi


obtenue, calculer la drive logarithmique de f qui a mme signe que f

. On vrie ainsi
que f a un unique maximum, atteint en a = 250. Comme P
N
(S
50
= 4) = C
4
50
f(N), la
valeur de N qui maximise P
N
(S
50
= 4) est la mme que celle qui maximise f(N), soit
116 Ch. Suquet, Cours I.S. 2010
4.2. Maximum de vraisemblance
N = 250. On aurait pu arriver la mme valeur estime pour N en considrant que la
proportion de poissons marqus parmi les 50 pchs est la mme que dans tout ltang,
4
50
=
20
N
, soit N =
2050
4
= 250. Cela revient dailleurs estimer p
N
= 20/N = E
N
X
i
par
la moyenne empirique X = S
50
/50, o lon a not X
i
la v.a. de Bernoulli valant 1 si le
i
e
poisson pch est marqu et 0 sinon.
4.2.2 Cas discret
Soit (, F, (P

) un modle statistique avec R


d
et (X
1
, . . . , X
n
) un chantillon
associ ce modle. On suppose que la loi de X
i
sous chaque P

est discrte et on pose


t R, f(t, ) = P

(X
1
= t).
Par indpendance et quidistribution des X
i
, on a
x = (x
1
, . . . , x
n
) R
n
, L(x, ) := P

(X
1
= x
1
, . . . , X
n
= x
n
) = f(x
1
, ) . . . f(x
n
, ).
La fonction L est appele fonction de vraisemblance (L cause de likelihood , vraisem-
blance en anglais). Lorsque la fonction L(x, ) a un unique maximum atteint en

= g
n
(x
1
, . . . , x
n
), on peut utiliser cette valeur

pour estimer . On dit alors que
T := g
n
(X
1
, . . . , X
n
)
est lestimateur par maximum de vraisemblance de . En pratique, la recherche de ce
maximum se fait par drivation de L relativement et en raison de la factorisation
ci-dessus, il est souvent plus commode dutiliser au lieu de L la fonction ln L, appele
log-vraisemblance, qui est maximale pour le mme

que L.
Exemple 4.16 (estimation du paramtre dune loi de Bernoulli). Ici =]0, 1[ et les X
i
suivant sous P

la loi Bern(). On a
f(t, ) = P

(X
1
= t) =
_

_
si t = 1,
1 si t = 0,
0 si t ,= 0 et t ,= 1.
Posons pour x = (x
1
, . . . , x
n
) 0, 1
n
, s
n
:= x
1
+ + x
n
. Ainsi s
n
est le nombre de
1 dans lchantillon observ (x
1
, . . . , x
n
) et le nombre de zros dans cet chantillon est
n s
n
. La vraisemblance et la log-vraisemblance scrivent alors pour tout x 0, 1
n
sous la forme :
L(x, ) =
s
n
(1 )
ns
n
, ln L(x, ) = s
n
ln + (n s
n
) ln(1 ).
Pour tout ]0, 1[,
ln L(x, )

=
s
n


n s
n
1
=
s
n
(1 ) (n s
n
)
(1 )
=
s
n
n
(1 )
,
Ch. Suquet, Cours I.S. 2010 117
Chapitre 4. Estimation
donc
ln L(x,)

a mme signe que s


n
n. La log vraisemblance et donc aussi la vraisem-
blance ont ainsi un unique maximum atteint en =

= n
1
s
n
= n
1
(x
1
+ +x
n
). En
revenant aux v.a. X
i
, on en dduit que lestimateur de par maximum de vraisemblance
est
T =
1
n
n

i=1
X
i
= X.
On retrouve l un estimateur bien connu du paramtre de la loi Bern().
4.2.3 Cas densit
Soit (, F, (P

) un modle statistique avec R


d
et (X
1
, . . . , X
n
) un chantillon
associ ce modle. On suppose que la loi de X
i
sous chaque P

admet une densit


continue f(., ). Si on veut dnir comme prcdemment la vraisemblance comme la
quantit P

(X
1
= x
1
, . . . , X
n
= x
n
), cela na plus grand sens car cette probabilit est
toujours nulle. Voici une heuristique pour lgitimer la dnition alternative ci-dessous.
Au lieu de P

(X
1
= x
1
, . . . , X
n
= x
n
), on cherche maximiser
P

(D

) := P

(X
1
[x
1
, x
1
+], . . . , X
n
[x
n
, x
n
+])
pour petit . Cette probabilit scrit
P

(D

) =
_
x
1
+
x
1


_
x
n
+
x
n

f(t
1
, ) f(t
n
, ) dt
1
. . . dt
n
.
En raison de la continuit de f(., ), on en dduit :
P

(D

) (2)
n
f(x
1
, ) f(x
n
, ) ( 0).
Donc pour petit , maximiser P

(D

) revient
7
maximiser f(x
1
, ) f(x
n
, ). Ceci
nous conduit prendre pour fonction vraisemblance
L(x, ) := f(x
1
, ) f(x
n
, ).
Nous utiliserons cette dnition de la vraisemblance mme quand la densit f(., )
prsente un nombre ni de points de discontinuit (ce qui est le cas par exemple de
la densit dune loi uniforme sur un segment ou dune loi exponentielle). Une fois dnie
la vraisemblance, la mthode destimation par maximum de vraisemblance fonctionne
exactement comme dans le cas discret. Nous lillustrons ci-dessous par des exemples
destimation des paramtres dune gaussienne.
Exemple 4.17 (loi gaussienne desprance inconnue et dcart-type connu). Ici la loi
de X
i
sous P

est N(, ), avec connu et inconnu, = R. La densit de X


i
sous
P

scrit
f(t, ) =
1

2
exp
_
(t )
2
2
2
_
,
7. Ceci ne prtend pas tre une justication rigoureuse, cest juste une heuristique.
118 Ch. Suquet, Cours I.S. 2010
4.2. Maximum de vraisemblance
do
L(x
1
, . . . , x
n
, ) = (2)
n/2

n
exp
_
1
2
2
n

i=1
(x
i
)
2
_
.
Il est clair que maximiser cette quantit quivaut minimiser

n
i=1
(x
i
)
2
. En consid-
rant les x
i
comme des points de la droite relle, il est bien connu que le point ralisant
le minimum de la somme des carrs des distances aux x
i
est lisobarycentre des x
i
, soit
n
1
(x
1
+ +x
n
). Pour ceux qui ne sont pas convaincus par cet argument gomtrique,
il sut de calculer la drive :

i=1
(x
i
)
2
= 2
n

i=1
(x
i
) = 2n 2
n

i=1
x
i
,
pour arriver la mme conclusion. Lestimateur de par maximum de vraisemblance
est donc ici :
T =
1
n
n

i=1
X
i
= X.
Exemple 4.18 (loi gaussienne desprance connue et dcart-type inconnu). Ici la loi
de X
i
sous P

est N(m, ), avec m connu et inconnu, =]0, +[. La densit de


X
i
sous P

scrit
f(t, ) =
1

2
exp
_
(t m)
2
2
2
_
,
do
L(x
1
, . . . , x
n
, ) = (2)
n/2

n
exp
_
1
2
2
n

i=1
(x
i
m)
2
_
.
Ici il est plus commode dutiliser la log-vraisembloance et de poser pour allger les
critures v
2
n
:= n
1

n
i=1
(x
i
m)
2
, v
n
0, en notant que v
n
ne dpend pas de :
ln L(x
1
, . . . , x
n
, ) =
n
2
ln(2) nln
nv
2
n
2
2
.
Drivons par rapport :

ln L(x
1
, . . . , x
n
, ) =
n


nv
2
n
2
(2)

3
=
n

_
v
2
n

2
1
_
.
Ainsi la drive logarithmique est positive pour < v
n
et ngative pour > v
n
. La
fonction L(x, ) a donc un unique maximum atteint en

= v
n
. Lestimateur par
maximum de vraisemblance de lcart-type inconnu est donc ici
T =
_
1
n
n

i=1
(X
i
m)
2
_
1/2
.
Ch. Suquet, Cours I.S. 2010 119
Chapitre 4. Estimation
120 Ch. Suquet, Cours I.S. 2010
Annexe A
Tables statistiques
A.1 Loi normale standard
La table de la page 122 donne les valeurs de la fonction de rpartition de la loi
normale N(0, 1). Rappelons que
x R, (x) =
1

2
_
x

exp
_
t
2
2
_
dt.
Il ny a pas dexpression analytique pour les primitives de la densit gaussienne et on ne
sait calculer cette intgrale que numriquement. Pour en dduire les valeurs de la f.d.r
dune v.a. Y de loi gaussienne quelconque N(m, ), on utilise le fait que (Y m)/ suit
la loi N(0, 1), do
P(Y y) = P
_

1
(Y m)
1
(y m)
_
=
_

1
(y m)
_
.
La table donne les valeurs de (x) pour x
positif. Lorsque x est ngatif, on utilise la
relation
(x) = 1 (x)
qui rsulte de la parit de la densit gaussi-
enne N(0, 1).
Exemple : pour x = 1, 8, on trouve :
(x) = 1 0, 9641 = 0, 0359.
t
y
x
x
Pour les trs grandes valeurs de x , (i.e. [x[ 4), on dispose du rsultat suivant
qui donne une valuation de la queue de la loi normale.
Pour tout x > 0, on a lencadrement :
_
1
x

1
x
3
_
1

2
exp
_

x
2
2
_
< 1 (x) <
1
x
1

2
exp
_

x
2
2
_
.
121
Annexe A. Tables statistiques
Table des valeurs de , f.d.r. de la loi normale standard N(0, 1)
t
y
x
(x)
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5754
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7356 0.7389 0.7421 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7793 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8079 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8414 0.8438 0.8461 0,8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8622
1.1 0.8643 0.8665 0.8687 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0,8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9083 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9193 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9485 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9648 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9874 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9895 0.9898 0.9901 0.9903 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9944 0.9946 0.9948 0.9949 0,9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9958 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
Table pour les grandes valeurs de x
x 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.8 4.0 4.5
(x) 0.99865 0.99904 0.99931 0.99952 0.99966 0.99976 0.999841 0.999928 0.999968 0.999997
122 Ch. Suquet, Cours I.S. 2010
A.2. Lois du khi2
A.2 Lois du khi2
La table de la page 124 donne pour X de loi
2
(d) et certaines valeurs courantes de
la probabilit q, la valeur du rel x
q
tel que
P(X > x
q
) = q.
Cest donc une table de quantiles de la loi du
2
. Pour d = 1, les trois premires valeurs
donnes par la table sont infrieures 10
3
. Des valeurs plus prcises sont x
0,999
=
16.10
7
, x
0,995
= 393.10
7
, x
0,99
= 1571.10
7
.
titre dexemple, voici comment utiliser cette table pour dterminer deux rels
et tels que P( < X ) = 0, 95, pour X suivant la loi
2
(7). On cherche tel que
P(X ) = (1 0, 95)/2 = 0, 025 et tel que P(X > ) = (1 0, 95)/2 = 0, 025. On
trouve donc que = x
0,025
et il sut de lire sa valeur lintersection de la ligne 7 et de la
colonne 0, 025, do = 16, 013. Pour , on remarque que P(X ) = 1 P(X > ),
do P(X > ) = 1 0, 025 = 0, 975. Donc = x
0,975
que lon trouve dans la table
lintersection de la ligne 7 et de la colonne 0, 975, soit = 1, 690.
Ch. Suquet, Cours I.S. 2010 123
Annexe A. Tables statistiques
T
a
b
l
e
d
e
s
v
a
l
e
u
r
s
d
u
r

e
l
x
q
t
e
l
q
u
e
P
(
X
>
x
q
)
=
q
,
p
o
u
r
X
d
e
l
o
i

2
(
d
)
H
H
H
H
H
d
q
0
,
9
9
9
0
,
9
9
5
0
,
9
9
0
0
,
9
7
5
0
,
9
5
0
,
9
0
0
,
5
0
0
,
1
0
0
,
0
5
0
,
0
2
5
0
,
0
1
0
,
0
0
5
0
,
0
0
1
1
0
,
0
0
0
0
,
0
0
0
0
,
0
0
0
0
,
0
0
1
0
,
0
0
4
0
,
0
1
6
0
,
4
5
5
2
,
7
0
6
3
,
8
4
1
5
,
0
2
4
6
,
6
3
5
7
,
8
7
9
1
0
,
8
2
8
2
0
,
0
0
2
0
,
0
1
0
0
,
0
2
0
0
,
0
5
1
0
,
1
0
3
0
,
2
1
1
1
,
3
8
6
4
,
6
0
5
5
,
9
9
1
7
,
3
7
8
9
,
2
1
0
1
0
,
5
9
7
1
3
,
8
1
6
3
0
,
0
2
4
0
,
0
7
2
0
,
1
1
5
0
,
2
1
6
0
,
3
5
2
0
,
5
8
4
2
,
3
6
6
6
,
2
5
1
7
,
8
1
5
9
,
3
4
8
1
1
,
3
4
5
1
2
,
8
3
8
1
6
,
2
6
6
4
0
,
0
9
1
0
,
2
0
7
0
,
2
9
7
0
,
4
8
4
0
,
7
1
1
1
,
0
6
4
3
,
3
5
7
7
,
7
7
9
9
,
4
8
8
1
1
,
1
4
3
1
3
,
2
7
7
1
4
,
8
6
0
1
8
,
4
6
7
5
0
,
2
1
0
0
,
4
1
2
0
,
5
5
4
0
,
8
3
1
1
,
1
4
5
1
,
6
1
0
4
,
3
5
1
9
,
2
3
6
1
1
,
0
7
0
1
2
,
8
3
3
1
5
,
0
8
6
1
6
,
7
5
0
2
0
,
5
1
5
6
0
,
3
8
1
0
,
6
7
6
0
,
8
7
2
1
,
2
3
7
1
,
6
3
5
2
,
2
0
4
5
,
3
4
8
1
0
,
6
4
5
1
2
,
5
9
2
1
4
,
4
4
9
1
6
,
8
1
2
1
8
,
5
4
8
2
2
,
4
5
8
7
0
,
5
9
8
0
,
9
8
9
1
,
2
3
9
1
,
6
9
0
2
,
1
6
7
2
,
8
3
3
6
,
3
4
6
1
2
,
0
1
7
1
4
,
0
6
7
1
6
,
0
1
3
1
8
,
4
7
5
2
0
,
2
7
8
2
4
,
3
2
2
8
0
,
8
5
7
1
,
3
4
4
1
,
6
4
6
2
,
1
8
0
2
,
7
3
3
3
,
4
9
0
7
,
3
4
4
1
3
,
3
6
2
1
5
,
5
0
7
1
7
,
5
3
5
2
0
,
0
9
0
2
1
,
9
5
5
2
6
,
1
2
4
9
1
,
1
5
2
1
,
7
3
5
2
,
0
8
8
2
,
7
0
0
3
,
3
2
5
4
,
1
6
8
8
,
3
4
3
1
4
,
6
8
4
1
6
,
9
1
9
1
9
,
0
2
3
2
1
,
6
6
6
2
3
,
5
8
9
2
7
,
8
7
7
1
0
1
,
4
7
9
2
,
1
5
6
2
,
5
5
8
3
,
2
4
7
3
,
9
4
0
4
,
8
6
5
9
,
3
4
2
1
5
,
9
8
7
1
8
,
3
0
7
2
0
,
4
8
3
2
3
,
2
0
9
2
5
,
1
8
8
2
9
,
5
8
8
1
1
1
,
8
3
4
2
,
6
0
3
3
,
0
5
3
3
,
8
1
6
4
,
5
7
5
5
,
5
7
8
1
0
,
3
4
1
1
7
,
2
7
5
1
9
,
6
7
5
2
1
,
9
2
0
2
4
,
7
2
5
2
6
,
7
5
7
3
1
,
2
6
4
1
2
2
,
2
1
4
3
,
0
7
4
3
,
5
7
1
4
,
4
0
4
5
,
2
2
6
6
,
3
0
4
1
1
,
3
4
0
1
8
,
5
4
9
2
1
,
0
2
6
2
3
,
3
3
7
2
6
,
2
1
7
2
8
,
3
0
0
3
2
,
9
0
9
1
3
2
,
6
1
7
3
,
5
6
5
4
,
1
0
7
5
,
0
0
9
5
,
8
9
2
7
,
0
4
2
1
2
,
3
4
0
1
9
,
8
1
2
2
2
,
3
6
2
2
4
,
7
3
6
2
7
,
6
8
8
2
9
,
8
1
9
3
4
,
5
2
8
1
4
3
,
0
4
1
4
,
0
7
5
4
,
6
6
0
5
,
6
2
9
6
,
5
7
1
7
,
7
9
0
1
3
,
3
3
9
2
1
,
0
6
4
2
3
,
6
8
5
2
6
,
1
1
9
2
9
,
1
4
1
3
1
,
3
1
9
3
6
,
1
2
3
1
5
3
,
4
8
3
4
,
6
0
1
5
,
2
2
9
6
,
2
6
2
7
,
2
6
1
8
,
5
4
7
1
4
,
3
3
9
2
2
,
3
0
7
2
4
,
9
9
6
2
7
,
4
8
8
3
0
,
5
7
8
3
2
,
8
0
1
3
7
,
6
9
7
1
6
3
,
9
4
2
5
,
1
4
2
5
,
8
1
2
6
,
9
0
8
7
,
9
6
2
9
,
3
1
2
1
5
,
3
3
8
2
3
,
5
4
2
2
6
,
2
9
6
2
8
,
8
4
5
3
2
,
0
0
0
3
4
,
2
6
7
3
9
,
2
5
2
1
7
4
,
4
1
6
5
,
6
9
7
6
,
4
0
8
7
,
5
6
4
8
,
6
7
2
1
0
,
0
8
5
1
6
,
3
3
8
2
4
,
7
6
9
2
7
,
5
8
7
3
0
,
1
9
1
3
3
,
4
0
9
3
5
,
7
1
8
4
0
,
7
9
0
1
8
4
,
9
0
5
6
,
2
6
5
7
,
0
1
5
8
,
2
3
1
9
,
3
9
0
1
0
,
8
6
5
1
7
,
3
3
8
2
5
,
9
8
9
2
8
,
8
6
9
3
1
,
5
2
6
3
4
,
8
0
5
3
7
,
1
5
6
4
2
,
3
1
2
1
9
5
,
4
0
7
6
,
8
4
4
7
,
6
3
3
8
,
9
0
7
1
0
,
1
1
7
1
1
,
6
5
1
1
8
,
3
3
8
2
7
,
2
0
4
3
0
,
1
4
4
3
2
,
8
5
2
3
6
,
1
9
1
3
8
,
5
8
2
4
3
,
8
2
0
2
0
5
,
9
2
1
7
,
4
3
4
8
,
2
6
0
9
,
5
9
1
1
0
,
8
5
1
1
2
,
4
4
3
1
9
,
3
3
7
2
8
,
4
1
2
3
1
,
4
1
0
3
4
,
1
7
0
3
7
,
5
6
6
3
9
,
9
9
7
4
5
,
3
1
5
2
1
6
,
4
4
7
8
,
0
3
4
8
,
8
9
7
1
0
,
2
8
3
1
1
,
5
9
1
1
3
,
2
4
0
2
0
,
3
3
7
2
9
,
6
1
5
3
2
,
6
7
1
3
5
,
4
7
9
3
8
,
9
3
2
4
1
,
4
0
1
4
6
,
7
9
7
2
2
6
,
9
8
3
8
,
6
4
3
9
,
5
4
2
1
0
,
9
8
2
1
2
,
3
3
8
1
4
,
0
4
1
2
1
,
3
3
7
3
0
,
8
1
3
3
3
,
9
2
4
3
6
,
7
8
1
4
0
,
2
8
9
4
2
,
7
9
6
4
8
,
2
6
8
2
3
7
,
5
2
9
9
,
2
6
0
1
0
,
1
9
6
1
1
,
6
8
9
1
3
,
0
9
1
1
4
,
8
4
8
2
2
,
3
3
7
3
2
,
0
0
7
3
5
,
1
7
2
3
8
,
0
7
6
4
1
,
6
3
8
4
4
,
1
8
1
4
9
,
7
2
8
2
4
8
,
0
8
5
9
,
8
8
6
1
0
,
8
5
6
1
2
,
4
0
1
1
3
,
8
4
8
1
5
,
6
5
9
2
3
,
3
3
7
3
3
,
1
9
6
3
6
,
4
1
5
3
9
,
3
6
4
4
2
,
9
8
0
4
5
,
5
5
9
5
1
,
1
7
9
2
5
8
,
6
4
9
1
0
,
5
2
0
1
1
,
5
2
4
1
3
,
1
2
0
1
4
,
6
1
1
1
6
,
4
7
3
2
4
,
3
3
7
3
4
,
3
8
2
3
7
,
6
5
2
4
0
,
6
4
6
4
4
,
3
1
4
4
6
,
9
2
8
5
2
,
6
2
0
2
6
9
,
2
2
2
1
1
,
1
6
0
1
2
,
1
9
8
1
3
,
8
4
4
1
5
,
3
7
9
1
7
,
2
9
2
2
5
,
3
3
6
3
5
,
5
6
3
3
8
,
8
8
5
4
1
,
9
2
3
4
5
,
6
4
2
4
8
,
2
9
0
5
4
,
0
5
2
2
7
9
,
8
0
3
1
1
,
8
0
8
1
2
,
8
7
9
1
4
,
5
7
3
1
6
,
1
5
1
1
8
,
1
1
4
2
6
,
3
3
6
3
6
,
7
4
1
4
0
,
1
1
3
4
3
,
1
9
5
4
6
,
9
6
3
4
9
,
6
4
5
5
5
,
4
7
6
2
8
1
0
,
3
9
1
1
2
,
4
6
1
1
3
,
5
6
5
1
5
,
3
0
8
1
6
,
9
2
8
1
8
,
9
3
9
2
7
,
3
3
6
3
7
,
9
1
6
4
1
,
3
3
7
4
4
,
4
6
1
4
8
,
2
7
8
5
0
,
9
9
3
5
6
,
8
9
2
2
9
1
0
,
9
8
6
1
3
,
1
2
1
1
4
,
2
5
6
1
6
,
0
4
7
1
7
,
7
0
8
1
9
,
7
6
8
2
8
,
3
3
6
3
9
,
0
8
7
4
2
,
5
5
7
4
5
,
7
2
2
4
9
,
5
8
8
5
2
,
3
3
6
5
8
,
3
0
1
3
0
1
1
,
5
8
8
1
3
,
7
8
7
1
4
,
9
5
3
1
6
,
7
9
1
1
8
,
4
9
3
2
0
,
5
9
9
2
9
,
3
3
6
4
0
,
2
5
6
4
3
,
7
7
3
4
6
,
9
7
9
5
0
,
8
9
2
5
3
,
6
7
2
5
9
,
7
0
3
124 Ch. Suquet, Cours I.S. 2010
A.3. Lois de Student
A.3 Lois de Student
La table de quantiles de la loi de Student page 126 donne pour un choix de probabilits
q usuelles les valeurs des rels x
q
tels que
P(U > x
q
) = q,
o U suit la loi de Student d degrs de libert.
Ch. Suquet, Cours I.S. 2010 125
Annexe A. Tables statistiques
T
a
b
l
e
d
e
s
v
a
l
e
u
r
s
x
q
t
e
l
l
e
s
q
u
e
P
(
U
>
x
q
)
=
q
,
p
o
u
r
U
d
e
l
o
i
d
e
S
t
u
d
e
n
t

d
d
e
g
r

s
d
e
l
i
b
e
r
t

H
H
H
H
H
d
q
0
,
4
5
0
,
4
0
,
3
5
0
,
3
0
,
2
5
0
,
2
0
,
1
5
0
,
1
0
,
0
5
0
,
0
2
5
0
,
0
1
0
,
0
0
5
1
0
,
1
5
8
0
,
3
2
5
0
,
5
1
0
0
,
7
2
7
1
,
0
0
0
1
,
3
7
6
1
,
9
6
3
3
,
0
7
8
6
,
3
1
4
1
2
,
7
0
6
3
1
,
8
2
1
6
3
,
6
5
7
2
0
,
1
4
2
0
,
2
8
9
0
,
4
4
5
0
,
6
1
7
0
,
8
1
6
1
,
0
6
1
1
,
3
8
6
1
,
8
8
6
2
,
9
2
0
4
,
3
0
3
6
,
9
6
5
9
,
9
2
5
3
0
,
1
3
7
0
,
2
7
7
0
,
4
2
4
0
,
5
8
4
0
,
7
6
5
0
,
9
7
8
1
,
2
5
0
1
,
6
3
8
2
,
3
5
3
3
,
1
8
2
4
,
5
4
1
5
,
8
4
1
4
0
,
1
3
4
0
,
2
7
1
0
,
4
1
4
0
,
5
6
9
0
,
7
4
1
0
,
9
4
1
1
,
1
9
0
1
,
5
3
3
2
,
1
3
2
2
,
7
7
6
3
,
7
4
7
4
,
6
0
4
5
0
,
1
3
2
0
,
2
6
7
0
,
4
0
8
0
,
5
5
9
0
,
7
2
7
0
,
9
2
0
1
,
1
5
6
1
,
4
7
6
2
,
0
1
5
2
,
5
7
1
3
,
3
6
5
4
,
0
3
2
6
0
,
1
3
1
0
,
2
6
5
0
,
4
0
4
0
,
5
5
3
0
,
7
1
8
0
,
9
0
6
1
,
1
3
4
1
,
4
4
0
1
,
9
4
3
2
,
4
4
7
3
,
1
4
3
3
,
7
0
7
7
0
,
1
3
0
0
,
2
6
3
0
,
4
0
2
0
,
5
4
9
0
,
7
1
1
0
,
8
9
6
1
,
1
1
9
1
,
4
1
5
1
,
8
9
5
2
,
3
6
5
2
,
9
9
8
3
,
4
9
9
8
0
,
1
3
0
0
,
2
6
2
0
,
3
9
9
0
,
5
4
6
0
,
7
0
6
0
,
8
8
9
1
,
1
0
8
1
,
3
9
7
1
,
8
6
0
2
,
3
0
6
2
,
8
9
6
3
,
3
5
5
9
0
,
1
2
9
0
,
2
6
1
0
,
3
9
8
0
,
5
4
3
0
,
7
0
3
0
,
8
8
3
1
,
1
0
0
1
,
3
8
3
1
,
8
3
3
2
,
2
6
2
2
,
8
2
1
3
,
2
5
0
1
0
0
,
1
2
9
0
,
2
6
0
0
,
3
9
7
0
,
5
4
2
0
,
7
0
0
0
,
8
7
9
1
,
0
9
3
1
,
3
7
2
1
,
8
1
2
2
,
2
2
8
2
,
7
6
4
3
,
1
6
9
1
1
0
,
1
2
9
0
,
2
6
0
0
,
3
9
6
0
,
5
4
0
0
,
6
9
7
0
,
8
7
6
1
,
0
8
8
1
,
3
6
3
1
,
7
9
6
2
,
2
0
1
2
,
7
1
8
3
,
1
0
6
1
2
0
,
1
2
8
0
,
2
5
9
0
,
3
9
5
0
,
5
3
9
0
,
6
9
5
0
,
8
7
3
1
,
0
8
3
1
,
3
5
6
1
,
7
8
2
2
,
1
7
9
2
,
6
8
1
3
,
0
5
5
1
3
0
,
1
2
8
0
,
2
5
9
0
,
3
9
4
0
,
5
3
8
0
,
6
9
4
0
,
8
7
0
1
,
0
7
9
1
,
3
5
0
1
,
7
7
1
2
,
1
6
0
2
,
6
5
0
3
,
0
1
2
1
4
0
,
1
2
8
0
,
2
5
8
0
,
3
9
3
0
,
5
3
7
0
,
6
9
2
0
,
8
6
8
1
,
0
7
6
1
,
3
4
5
1
,
7
6
1
2
,
1
4
5
2
,
6
2
4
2
,
9
7
7
1
5
0
,
1
2
8
0
,
2
5
8
0
,
3
9
3
0
,
5
3
6
0
,
6
9
1
0
,
8
6
6
1
,
0
7
4
1
,
3
4
1
1
,
7
5
3
2
,
1
3
1
2
,
6
0
2
2
,
9
4
7
1
6
0
,
1
2
8
0
,
2
5
8
0
,
3
9
2
0
,
5
3
5
0
,
6
9
0
0
,
8
6
5
1
,
0
7
1
1
,
3
3
7
1
,
7
4
6
2
,
1
2
0
2
,
5
8
3
2
,
9
2
1
1
7
0
,
1
2
8
0
,
2
5
7
0
,
3
9
2
0
,
5
3
4
0
,
6
8
9
0
,
8
6
3
1
,
0
6
9
1
,
3
3
3
1
,
7
4
0
2
,
1
1
0
2
,
5
6
7
2
,
8
9
8
1
8
0
,
1
2
7
0
,
2
5
7
0
,
3
9
2
0
,
5
3
4
0
,
6
8
8
0
,
8
6
2
1
,
0
6
7
1
,
3
3
0
1
,
7
3
4
2
,
1
0
1
2
,
5
5
2
2
,
8
7
8
1
9
0
,
1
2
7
0
,
2
5
7
0
,
3
9
1
0
,
5
3
3
0
,
6
8
8
0
,
8
6
1
1
,
0
6
6
1
,
3
2
8
1
,
7
2
9
2
,
0
9
3
2
,
5
3
9
2
,
8
6
1
2
0
0
,
1
2
7
0
,
2
5
7
0
,
3
9
1
0
,
5
3
3
0
,
6
8
7
0
,
8
6
0
1
,
0
6
4
1
,
3
2
5
1
,
7
2
5
2
,
0
8
6
2
,
5
2
8
2
,
8
4
5
2
1
0
,
1
2
7
0
,
2
5
7
0
,
3
9
1
0
,
5
3
2
0
,
6
8
6
0
,
8
5
9
1
,
0
6
3
1
,
3
2
3
1
,
7
2
1
2
,
0
8
0
2
,
5
1
8
2
,
8
3
1
2
2
0
,
1
2
7
0
,
2
5
6
0
,
3
9
0
0
,
5
3
2
0
,
6
8
6
0
,
8
5
8
1
,
0
6
1
1
,
3
2
1
1
,
7
1
7
2
,
0
7
4
2
,
5
0
8
2
,
8
1
9
2
3
0
,
1
2
7
0
,
2
5
6
0
,
3
9
0
0
,
5
3
2
0
,
6
8
5
0
,
8
5
8
1
,
0
6
0
1
,
3
1
9
1
,
7
1
4
2
,
0
6
9
2
,
5
0
0
2
,
8
0
7
2
4
0
,
1
2
7
0
,
2
5
6
0
,
3
9
0
0
,
5
3
1
0
,
6
8
5
0
,
8
5
7
1
,
0
5
9
1
,
3
1
8
1
,
7
1
1
2
,
0
6
4
2
,
4
9
2
2
,
7
9
7
2
5
0
,
1
2
7
0
,
2
5
6
0
,
3
9
0
0
,
5
3
1
0
,
6
8
4
0
,
8
5
6
1
,
0
5
8
1
,
3
1
6
1
,
7
0
8
2
,
0
6
0
2
,
4
8
5
2
,
7
8
7
2
6
0
,
1
2
7
0
,
2
5
6
0
,
3
9
0
0
,
5
3
1
0
,
6
8
4
0
,
8
5
6
1
,
0
5
8
1
,
3
1
5
1
,
7
0
6
2
,
0
5
6
2
,
4
7
9
2
,
7
7
9
2
7
0
,
1
2
7
0
,
2
5
6
0
,
3
8
9
0
,
5
3
1
0
,
6
8
4
0
,
8
5
5
1
,
0
5
7
1
,
3
1
4
1
,
7
0
3
2
,
0
5
2
2
,
4
7
3
2
,
7
7
1
2
8
0
,
1
2
7
0
,
2
5
6
0
,
3
8
9
0
,
5
3
0
0
,
6
8
3
0
,
8
5
5
1
,
0
5
6
1
,
3
1
3
1
,
7
0
1
2
,
0
4
8
2
,
4
6
7
2
,
7
6
3
2
9
0
,
1
2
7
0
,
2
5
6
0
,
3
8
9
0
,
5
3
0
0
,
6
8
3
0
,
8
5
4
1
,
0
5
5
1
,
3
1
1
1
,
6
9
9
2
,
0
4
5
2
,
4
6
2
2
,
7
5
6
3
0
0
,
1
2
7
0
,
2
5
6
0
,
3
8
9
0
,
5
3
0
0
,
6
8
3
0
,
8
5
4
1
,
0
5
5
1
,
3
1
0
1
,
6
9
7
2
,
0
4
2
2
,
4
5
7
2
,
7
5
0
4
0
0
,
1
2
6
0
,
2
5
5
0
,
3
8
8
0
,
5
2
9
0
,
6
8
1
0
,
8
5
1
1
,
0
5
0
1
,
3
0
3
1
,
6
8
4
2
,
0
2
1
2
,
4
2
3
2
,
7
0
4
5
0
0
,
1
2
6
0
,
2
5
5
0
,
3
8
8
0
,
5
2
8
0
,
6
7
9
0
,
8
4
9
1
,
0
4
7
1
,
2
9
9
1
,
6
7
6
2
,
0
0
9
2
,
4
0
3
2
,
6
7
8
1
0
0
0
,
1
2
6
0
,
2
5
4
0
,
3
8
6
0
,
5
2
6
0
,
6
7
7
0
,
8
4
5
1
,
0
4
2
1
,
2
9
0
1
,
6
6
0
1
,
9
8
4
2
,
3
6
4
2
,
6
2
6
126 Ch. Suquet, Cours I.S. 2010
A.4. Test de Kolmogorov Smirnov
A.4 Test de Kolmogorov Smirnov
La table ci-dessous donne la valeur critique t

telle que P(D


n
> t

) = pour le test
de Kolmogorov Smirnov, avec D
n
:= |F
n
F|

, F
n
tant la fonction de rpartition
empirique.
H
H
H
H
H
H
n

0,2 0,1 0,05 0,02 0,01


4 0,4926 0,5652 0,6239 0,6889 0,7342
5 0,4470 0,5094 0,5633 0,6272 0,6685
6 0,4104 0,4680 0,5193 0,5774 0,6166
7 0,3815 0,4361 0,4834 0,5384 0,5758
8 0,3583 0,4096 0,4543 0,5065 0,5418
9 0,3391 0,3875 0,4300 0,4796 0,5133
10 0,3226 0,3687 0,4093 0,4566 0,4889
11 0,3083 0,3524 0,3912 0,4367 0,4677
12 0,2958 0,3382 0,3754 0,4192 0,4491
13 0,2847 0,3255 0,3614 0,4036 0,4325
14 0,2748 0,3142 0,3489 0,3897 0,4176
15 0,2659 0,3040 0,3376 0,3771 0,4042
16 0,2578 0,2947 0,3273 0,3657 0,3920
17 0,2504 0,2863 0,3180 0,3553 0,3809
18 0,2436 0,2785 0,3094 0,3457 0,3706
19 0,2374 0,2714 0,3014 0,3368 0,3612
20 0,2316 0,2647 0,2941 0,3287 0,3524
21 0,2262 0,2586 0,2872 0,3210 0,3443
22 0,2212 0,2528 0,2809 0,3139 0,3367
23 0,2165 0,2475 0,2749 0,3073 0,3295
24 0,2120 0,2424 0,2693 0,3010 0,3229
25 0,2079 0,2377 0,2640 0,2952 0,3166
26 0,2040 0,2332 0,2591 0,2896 0,3106
27 0,2003 0,2290 0,2544 0,2844 0,3050
28 0,1968 0,2250 0,2499 0,2794 0,2997
29 0,1935 0,2212 0,2457 0,2747 0,2947
30 0,1903 0,2176 0,2417 0,2702 0,2899
31 0,1873 0,2141 0,2379 0,2660 0,2853
32 0,1845 0,2109 0,2342 0,2619 0,2809
33 0,1817 0,2077 0,2308 0,2580 0,2768
34 0,1791 0,2047 0,2274 0,2543 0,2728
35 0,1766 0,2019 0,2243 0,2507 0,2690
36 0,1742 0,1991 0,2212 0,2473 0,2653
37 0,1719 0,1965 0,2183 0,2440 0,2618
38 0,1697 0,1939 0,2154 0,2409 0,2584
39 0,1675 0,1915 0,2127 0,2379 0,2552
Ch. Suquet, Cours I.S. 2010 127
Annexe A. Tables statistiques
H
H
H
H
H
H
n

0,2 0,1 0,05 0,02 0,01


40 0,1655 0,1891 0,2101 0,2349 0,2520
41 0,1635 0,1869 0,2076 0,2321 0,2490
42 0,1616 0,1847 0,2052 0,2294 0,2461
43 0,1597 0,1826 0,2028 0,2268 0,2433
44 0,1580 0,1805 0,2006 0,2243 0,2406
45 0,1562 0,1786 0,1984 0,2218 0,2380
46 0,1546 0,1767 0,1963 0,2194 0,2354
47 0,1530 0,1748 0,1942 0,2172 0,2330
48 0,1514 0,1730 0,1922 0,2149 0,2306
49 0,1499 0,1713 0,1903 0,2128 0,2283
50 0,1484 0,1696 0,1884 0,2107 0,2260
51 0,1470 0,1680 0,1866 0,2086 0,2239
52 0,1456 0,1664 0,1848 0,2067 0,2217
53 0,1442 0,1648 0,1831 0,2047 0,2197
54 0,1429 0,1633 0,1814 0,2029 0,2177
55 0,1416 0,1619 0,1798 0,2011 0,2157
56 0,1404 0,1604 0,1782 0,1993 0,2138
57 0,1392 0,1591 0,1767 0,1976 0,2120
58 0,1380 0,1577 0,1752 0,1959 0,2102
59 0,1369 0,1564 0,1737 0,1943 0,2084
60 0,1357 0,1551 0,1723 0,1927 0,2067
65 0,1305 0,1491 0,1657 0,1852 0,1988
70 0,1259 0,1438 0,1598 0,1786 0,1917
75 0,1217 0,1390 0,1544 0,1727 0,1853
80 0,1179 0,1347 0,1496 0,1673 0,1795
85 0,1144 0,1307 0,1452 0,1624 0,1742
90 0,1113 0,1271 0,1412 0,1579 0,1694
95 0,1083 0,1237 0,1375 0,1537 0,1649
100 0,1056 0,1207 0,1340 0,1499 0,1608
128 Ch. Suquet, Cours I.S. 2010

You might also like