You are on page 1of 238

Probabilits et Statistique

Y. Velenik
Version du 24 mai 2012
Dernire version tlchargeable ladresse
http://www.unige.ch/math/folks/velenik/cours.html
2011-2012
2
Table des matires
Table des matires 3
1 Introduction 7
1.1 Modlisation des phnomnes alatoires . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Univers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2 vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.3 Mesure de probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Rsum du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Probabilit, indpendance 15
2.1 Axiomatique de la thorie des probabilits . . . . . . . . . . . . . . . . . . . 15
2.2 Construction despaces probabiliss . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Univers ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Univers dnombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3 Univers non-dnombrable . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Probabilit conditionnelle, formule de Bayes . . . . . . . . . . . . . . . . . . 27
2.4 Indpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5 Expriences rptes, espace produit . . . . . . . . . . . . . . . . . . . . . . 35
2.6 Rsum du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Variables alatoires 39
3.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.1 Variables alatoires et leurs lois . . . . . . . . . . . . . . . . . . . . . 39
3.1.2 Variables alatoires dfectives . . . . . . . . . . . . . . . . . . . . . . 41
3.1.3 Fonction de rpartition dune variable alatoire . . . . . . . . . . . . 42
3.2 Variables alatoires discrtes . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.1 Exemples importants de variables alatoires discrtes . . . . . . . . . 45
3.3 Variables alatoires densit . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Exemples importants de variables alatoires densit . . . . . . . . . 52
3.4 Indpendance de variables alatoires . . . . . . . . . . . . . . . . . . . . . . 57
3
TABLE DES MATIRES
3.5 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.1 Loi conjointe et fonction de rpartition conjointe . . . . . . . . . . . 59
3.5.2 Vecteurs alatoires discrets . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.3 Vecteurs alatoires densit . . . . . . . . . . . . . . . . . . . . . . . 62
3.6 Esprance, variance, covariance et moments . . . . . . . . . . . . . . . . . . 66
3.6.1 Esprance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6.2 Variance, moments dordre suprieurs . . . . . . . . . . . . . . . . . 74
3.6.3 Covariance et corrlation . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.4 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6.5 Absence de corrlation et indpendance . . . . . . . . . . . . . . . . 79
3.6.6 Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.7 Dtermination de la loi dune variable alatoire . . . . . . . . . . . . . . . . 84
3.8 Variables alatoires gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.8.1 Intgration au sens de Lebesgue . . . . . . . . . . . . . . . . . . . . . 85
3.8.2 Esprance dune variable alatoire quelconque . . . . . . . . . . . . . 89
3.8.3 Intgrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4 Fonctions gnratrices et caractristiques 91
4.1 Fonctions gnratrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.1 Dnition, proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.2 Application aux processus de branchement . . . . . . . . . . . . . . . 95
4.1.3 Fonction gnratrice conjointe . . . . . . . . . . . . . . . . . . . . . . 98
4.2 Fonctions caractristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.2.1 Dnition et proprits lmentaires . . . . . . . . . . . . . . . . . . 100
4.2.2 Quelques exemples classiques . . . . . . . . . . . . . . . . . . . . . . 104
5 Thormes limites 107
5.1 Un point technique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.2.1 Les lemmes de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 108
5.2.2 Quelques ingalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.3 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.4 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4.1 La loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . 113
5.4.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . 117
5.5 Le Thorme Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6 La loi 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6 Introduction la statistique 123
6.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.1.1 Dnition, consistance, biais . . . . . . . . . . . . . . . . . . . . . . . 123
6.1.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.1.3 Construction destimateurs . . . . . . . . . . . . . . . . . . . . . . . 126
6.1.4 Comparaison destimateurs . . . . . . . . . . . . . . . . . . . . . . . 129
4
TABLE DES MATIRES
6.2 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.2.1 Dnition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.2.2 Intervalles de conance par excs et asymptotiques . . . . . . . . . . 131
6.2.3 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3.2 Procdure de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3.3 Cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.3.4 Tests dhypothses simples . . . . . . . . . . . . . . . . . . . . . . . . 137
6.3.5 Tests du
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7 Marches alatoires 143
7.1 Quelques gnralits sur les processus stochastiques . . . . . . . . . . . . . . 143
7.2 Marche alatoire simple unidimensionnelle . . . . . . . . . . . . . . . . . . . 144
7.2.1 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.2.2 Proprits trajectorielles : approche combinatoire . . . . . . . . . . . 147
7.2.3 Proprits trajectorielles : fonctions gnratrices . . . . . . . . . . . . 156
7.3 Marche alatoire simple sur Z
d
. . . . . . . . . . . . . . . . . . . . . . . . . 159
7.3.1 Probabilits de sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.3.2 Rcurrence et transience des marches alatoires sur Z
d
. . . . . . . . 162
7.3.3 Convergence vers le mouvement brownien . . . . . . . . . . . . . . . 164
8 Les chanes de Markov 167
8.1 Dnition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.2 Chanes de Markov absorbantes . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.3 Chanes de Markov irrductibles . . . . . . . . . . . . . . . . . . . . . . . . . 177
8.3.1 Distribution stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . 180
8.3.2 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.3.3 Rversibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9 Modle de percolation 189
9.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.2 Transition de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
10 Le processus de Poisson 195
10.1 Dnition et proprits lmentaires . . . . . . . . . . . . . . . . . . . . . . 195
10.2 Autres proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
10.2.1 Le paradoxe de lautobus . . . . . . . . . . . . . . . . . . . . . . . . 202
10.2.2 Processus de Poisson et statistiques dordre . . . . . . . . . . . . . . 203
10.2.3 Superposition et amincissement . . . . . . . . . . . . . . . . . . . . . 204
10.2.4 Processus de Poisson non homogne . . . . . . . . . . . . . . . . . . 207
10.2.5 Processus de Poisson compos . . . . . . . . . . . . . . . . . . . . . . 208
10.2.6 Processus de Poisson spatial . . . . . . . . . . . . . . . . . . . . . . . 209
10.2.7 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . 212
5
TABLE DES MATIRES
11 lments de thorie de linformation 215
11.1 Sources, codages et entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
11.1.1 Codes binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
11.1.2 Longueur de code, entropie . . . . . . . . . . . . . . . . . . . . . . . 217
11.2 Taux optimal de compression . . . . . . . . . . . . . . . . . . . . . . . . . . 219
11.3 Transmission travers un canal bruit . . . . . . . . . . . . . . . . . . . . . 221
12 La mthode probabiliste 227
12.1 Combinatoire : le thorme dErds-Ko-Rado . . . . . . . . . . . . . . . . . 227
12.2 Thorie des nombres : facteurs premiers . . . . . . . . . . . . . . . . . . . . 228
12.3 Thorie des graphes : nombre chromatique . . . . . . . . . . . . . . . . . . . 230
12.4 Gomtrie : triangles vides . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Index 235
6
Chapitre 1
Introduction
Si la thorie des probabilits a t originellement motive par lanalyse des jeux de ha-
sard, elle a pris aujourdhui une place centrale dans la plupart des sciences. Tout dabord,
de par ses applications pratiques : en tant que base des statistiques, elle permet lana-
lyse des donnes recueillies lors dune exprience, lors dun sondage, etc. ; elle a galement
conduit au dveloppement de puissants algorithmes stochastiques pour rsoudre des pro-
blmes inabordables par une approche dterministe ; elle a aussi de nombreuses applications
directes, par exemple en abilit, ou dans les assurances et dans la nance. Dun ct plus
thorique, elle permet la modlisation de nombreux phnomnes, aussi bien en sciences
naturelles (physique, chimie, biologie, etc.) quen sciences humaines (conomie, sociologie,
par exemple) et dans dautres disciplines (mdecine, climatologie, informatique, rseaux
de communication, traitement du signal, etc.). Elle sest mme rvle utile dans de nom-
breux domaines de mathmatiques pures (algbre, thorie des nombres, combinatoire, etc.)
et appliques (EDP, par exemple). Finalement, elle a acquis une place importante en ma-
thmatiques de par son intrt intrinsque, et, de par sa versatilit, possde un des spectres
les plus larges en mathmatiques, allant des problmes les plus appliqus aux questions les
plus abstraites.
Le concept de probabilit est aujourdhui familier tout un chacun. Nous sommes
constamment confronts des vnements dpendant dun grand nombre de facteurs hors
de notre contrle ; puisquil nous est impossible dans ces conditions de prdire exactement
quel en sera le rsultat, on parle de phnomnes alatoires. Ceci ne signie pas ncessai-
rement quil y ait quelque chose dintrinsquement alatoire loeuvre, mais simplement
que linformation notre disposition nest que partielle. Quelques exemples : le rsultat
dun jeu de hasard (pile ou face, jet de d, roulette, loterie, etc.) ; la dure de vie dun
atome radioactif, dun individu ou dune ampoule lectrique ; le nombre de gauchers dans
un chantillon de personnes tires au hasard ; le bruit dans un systme de communication;
la frquence daccidents de la route ; le nombre de SMS envoys la nuit du 31 dcembre ;
le nombre dtoiles doubles dans une rgion du ciel ; la position dun grain de pollen en
suspension dans leau ; lvolution du cours de la bourse ; etc.
7
1.1. MODLISATION DES PHNOMNES ALATOIRES
Le dveloppement dune thorie mathmatiques permettant de modliser de tels ph-
nomnes alatoires a occup les scientiques depuis plusieurs sicles. Motivs initialement
par ltude des jeux de hasard, puis par des problmes dassurances, le domaine dapplica-
tion de la thorie sest ensuite immensment largi. Les premires publications sur le sujet
remontent G. Cardano
1
avec son livre Liber De Ludo Ale (publi en 1663, mais proba-
blement achev en 1563), ainsi qu Kepler
2
et Galile footnoteGalile ou Galileo Galilei
(1564, Pise - 1642, Arcetri), physicien et astronome italien.. Toutefois, il est gnralement
admis que la thorie des probabilits dbute rellement avec les travaux de Pascal
3
et de
Fermat
4
. La thorie fut ensuite dveloppe par de nombreuses personnes, dont Huygens
5
,
J. Bernoulli
6
, de Moivre
7
, D. Bernoulli
8
, Euler
9
, Gauss
10
et Laplace
11
. La thorie mo-
derne des probabilits est fonde sur lapproche axiomatique de Kolmogorov
12
, base sur
la thorie de la mesure de Borel
13
et Lebesgue
14
. Grce cette approche, la thorie a alors
connu un dveloppement trs rapide tout au long du XX
me
sicle.
1.1 Modlisation des phnomnes alatoires
Le but de la thorie des probabilits est de fournir un modle mathmatique pour
dcrire les phnomnes alatoires. Sous sa forme moderne, la formulation de cette thorie
contient trois ingrdients : lunivers, les vnements, et la mesure de probabilit.
1. Girolamo Cardano (1501, Pavie - 1576, Rome), parfois connu sous le nom de Jrme Cardan, ma-
thmaticien, philosophe et mdecin italien. Fru dastrologie, on dit quil avait prvu le jour de sa mort,
mais que celle-ci ne semblant pas vouloir se produire delle-mme, il se suicida an de rendre sa prdiction
correcte.
2. Johannes Kepler (1571, Weil der Stadt - 1630, Ratisbonne), mathmaticien, astronome et astrologue
allemand.
3. Blaise Pascal (1623, Clermont - 1662, Paris), mathmaticien, physicien, philosophe, moraliste et
thologien franais. Auteur de nombreuses contributions majeures en mathmatiques et en physique, il
dlaisse ces dernires la n de 1654, la suite dune exprience mystique, et se consacre la rexion
philosophique et religieuse.
4. Pierre de Fermat (1601, Beaumont-de-Lomagne - 1665, Castres), juriste et mathmaticien franais.
5. Christiaan Huygens (1629, La Haye 1695, La Haye), mathmaticien, astronome et physicien
nerlandais.
6. Jacques ou Jakob Bernoulli ( 1654, Ble - 1705, Ble), mathmaticien et physicien suisse.
7. Abraham de Moivre (1667, Vitry-le-Franois - 1754, Londres), mathmaticien franais.
8. Daniel Bernoulli (1700, Groningen - 1782, Ble), mdecin, physicien et mathmaticien suisse.
9. Leonhard Euler (1707, Ble - 1783, Saint-Ptersbourg), mathmaticien et physicien suisse. Il est
considr comme le mathmaticien le plus prolique de tous les temps. Compltement aveugle pendant les
dix-sept dernires annes de sa vie, il produit presque la moiti de la totalit de son travail durant cette
priode.
10. Johann Carl Friedrich Gauss (1777, Brunswick - 1855, Gttingen), mathmaticien, astronome et
physicien allemand.
11. Pierre-Simon Laplace (1749, Beaumont-en-Auge - 1827, Paris), mathmaticien, astronome et physi-
cien franais.
12. Andre Nikolaevich Kolmogorov (1903, Tambov - 1987, Moscou), mathmaticien russe.
13. Flix douard Justin mile Borel (1871, Saint-Arique - 1956, Paris), mathmaticien et homme
politique franais.
14. Henri Lon Lebesgue (1875, Beauvais - 1941, Paris), mathmaticien franais.
8
CHAPITRE 1. INTRODUCTION
1.1.1 Univers.
Il sagit dun ensemble, not habituellement , dont les lments correspondent tous
les rsultats possibles de lexprience alatoire que lon cherche modliser. On lappelle
galement lespace des observables, ou encore lespace chantillon.
Exemple 1.1.1.
1. Un tirage pile ou face : = P,F.
2. Deux tirages pile ou face : = PP,PF,FP,FF.
3. Une suite de tirages pile ou face se terminant la premire apparition dun pile :
= P,FP,FFP,FFFP, . . ..
4. Taille dune personne : = R
+
.
5. Dure de vie dune ampoule : = R
+
.
6. Le cours dune action sur un intervalle de temps [s,t] : = (([s,t],R
+
), o lon a
not ((A,B) lensemble des fonctions continues de A vers B.
7. La trajectoire dun grain de pollen en suspension dans un uide : = ((R
+
,R
3
).
Dans chaque cas, il ne sagit que dune modlisation de lexprience correspondante : il
y a donc videmment de nombreuses faons de choisir et dencoder les dirents rsultats
possibles dune exprience alatoire dans un ensemble . Par exemple, dans le troisime
exemple, on pourrait tout aussi bien prendre = N

, en ne retenant que la dure de la


partie ; dans le quatrime, on pourrait limiter, par exemple, [0,3] (mtres), voire
1,2, . . . ,3000 (millimtres), sans perte de gnralit.
1.1.2 vnements
Un vnement est une proprit dont on peut dire si elle est vrie ou non une fois
le rsultat de lexprience connu. Mathmatiquement, un vnement est caractris par
lensemble des rsultats dans lesquels il est ralis (un tel rsultat est alors appel une
ralisation de lvnement).
Exemple 1.1.2. On lance successivement deux ds, = (m,n) 1,2,3,4,5,61,2,3,4,5,6.
1. Lvnement le second lancer est un 6 : (m,6) : m 1,2,3,4,5,6.
2. Lvnement le premier lancer est suprieur au second : (m,n) : m > n.
3. Lvnement la somme des deux lancers est paire : (m,n) : 2[(m+n).
Lensemble des vnements associs une exprience alatoire est donc un sous-ensemble
T des parties de , T P(). Il pourrait paratre raisonnable de prendre T = P(),
mais nous verrons par la suite quil est alors en gnral impossible dassocier chaque
vnement une probabilit de faon cohrente. Il est donc ncessaire en gnral de se res-
treindre un sous-ensemble strict de P(), contenant les vnements intressants .
Quelle que soit la notion d intressant que lon choisisse, il est naturel dexiger que
T possde un certain nombre de proprits : si A est un vnement intressant, alors son
9
1.1. MODLISATION DES PHNOMNES ALATOIRES
complmentaire A
c
est galement intressant, puisque demander si A
c
est ralis est qui-
valent demander si A ne lest pas ; de mme, si A et B sont des vnements intressants,
leur conjonction A B est galement intressante, puisque demander si A B est ralis
revient demander si A est ralis et si B est ralis.
Dnition 1.1.1. Un ensemble T de parties dun ensemble est une algbre sur sil
satisfait aux trois conditions suivantes :
1. T ;
2. A T = A
c
T ;
3. A,B T = A B T.
Exemple 1.1.3.
P() est une algbre sur , lalgbre triviale sur .
, est une algbre sur , lalgbre grossire sur .
Si A , ,A,A
c
, est une algbre sur .
Lensemble form de R, , et des unions nies dintervalles de la forme
[a,b], (a,b), (a,b], [a,b), (,a], (,a), [a, +), (a, +),
avec a b R, forme une algbre sur R.
Dnition 1.1.2. Introduisons un peu de terminologie. Un singleton (cest--dire un v-
nement rduit un unique lment de ) est appel vnement lmentaire. Sinon on parle
dvnement composite. On appelle lvnement certain et lvnement impossible. Si
A T, on appelle A
c
lvnement contraire de A. Si A,B T, on appelle AB lvnement
A et B , et A B lvnement A ou B . Finalement, si A B = , A et B sont
dits disjoints, ou incompatibles.
videmment il suit de la dnition que si T est une algbre sur , alors T
(combiner les conditions 1. et 2.), et que si A,B T, alors A B T (combiner les trois
conditions).
En itrant la proprit 3., il suit que lintersection de toute famille nie A
1
, . . . ,A
n
T
est galement dans T,
A
1
, . . . ,A
n
T = A
1
A
n
T,
et donc galement
A
1
, . . . ,A
n
T = A
1
A
n
T.
Par contre, le fait que T soit une algbre nimplique pas que lunion ou lintersection
dune collection innie A
1
,A
2
, . . . dvnements soient galement dans T. De nombreux
vnements importants sexpriment toutefois comme union ou intersection dun nombre
inni dvnements.
10
CHAPITRE 1. INTRODUCTION
Exemple 1.1.4. On considre une exprience consistant jeter une innit de fois une
pice de monnaie. On a donc comme univers = a
1
a
2
a
3
. . . : a
i
0,1, lensemble des
suites innies de 0 et de 1, o lon a dcid de reprsenter par 0, resp. 1, un pile, resp.
face. On considre lensemble / compos des sous-ensembles de de la forme
: (a
1
, . . . ,a
n
) A ,
avec n 1 un entier arbitraire et A 0,1
n
. On vrie facilement que / contient (en
prenant n = 1 et A = ) et (en prenant n = 1 et A = 0,1), et que / est une algbre.
Un vnement intressant
15
est
1
n

n
i=1
a
i
converge vers
1
2
, qui arme que si lon
lance un grand nombre de fois une pice de monnaie, pile est sorti en moyenne une fois sur
deux. Or cet vnement ne fait pas partie de / : on voit en eet immdiatement quil ne
dpend pas des premiers termes a
1
, . . . ,a
n
, quel que soit n x, alors quun vnement de
/ doit toujours pouvoir, par dnition, sexprimer en fonction du dbut de la suite innie
de lancers.
Pour cette raison on remplace habituellement la contrainte que T est une algbre par
la contrainte plus forte que T est une -algbre, ou tribu, sur .
Dnition 1.1.3. Une algbre sur est une -algbre, ou tribu, sur si
3. A
1
,A
2
, . . . T =

i=1
A
i
T.
Comme prcdemment, si T est une tribu sur , il suit que
A
1
,A
2
, . . . T =

_
i=1
A
i
T.
Une tribu est toujours une algbre, mais la rciproque nest pas vraie.
Exemple 1.1.5. 1. Les trois premiers exemples de lExemple 1.1.3 sont des tribus
(mais pas le quatrime).
2. Revenons lExemple 1.1.4. Soit T une tribu contenant /, nous allons vrier que
lvnement A =
1
n

n
i=1
a
i
converge vers
1
2
appartient bien T. Soit N N

et
> 0 ; lvnement
A
N,
=

1
n
n

i=1
a
i

1
2

pour tout n N
15. Pour un mathmaticien du moins. Dun point de vue pratique, cela est moins clair. Toutefois, le fait
dautoriser ce type dvnements enrichit substantiellement la thorie mathmatique. De plus, il y a une
raison importante de sintresser des vnements asymptotiques : ce nest que pour ceux-ci que la
thorie des probabilits est falsiable ! En eet, larmation la probabilit que, lors du prochain lancer,
cette pice tombe sur pile est gale 1/2 nest pas falsiable. Les seules armations falsiables sont
celles correspondant des vnements dont la probabilit est 0 ou 1 (ou ventuellement trs proche de 0
ou 1). Par exemple, armer que si on lance une pice 1000000 fois, le nombre de pile sera compris
entre 497500 et 502500 peut tre considr comme falsiable, car la thorie prdit que la probabilit que
cet vnement nait pas lieu est ngligeable en pratique (de lordre de 6 cdot10
7
).
11
1.1. MODLISATION DES PHNOMNES ALATOIRES
peut scrire
A
N,
=

nN
_
:

1
n
n

i=1
a
i

1
2


_
,
et par consquent A
N,
T, pour tout N N

et > 0, puisquil scrit comme une


intersection dvnements dans /. Ceci implique que lvnement
A

1
n
n

i=1
a
i

1
2

pour tout n susamment grand ,


qui peut scrire
A

=
_
N1
A
N,
appartient aussi T, pour tout > 0 (cest une union dnombrable dlments de
T). Or lvnement A qui nous intresse peut scrire quant lui
A =

M1
A
1/M
,
et appartient donc bien T.
La construction dcrite dans ce dernier exemple, dans laquelle on part dune algbre
facile dcrire, que lon complte ensuite en une tribu, est trs courant. Lobservation
essentielle (simple) est la suivante.
Lemme 1.1.1. Soit (T
i
,i I) une famille quelconque de tribus sur . Alors

iI
T
i
est
galement une tribu sur .
Dmonstration. Exercice.
Dnition 1.1.4. Soit ( P(). On appelle tribu engendre par (, note ((), la plus
petite tribu contenant (,
(() =

iI
T
i
,
o (T
i
, i I) est la famille de toutes les tribus sur contenant ( (cette famille tant
non-vide puisquelle contient toujours P()).
Dnition 1.1.5. Soit = R. La tribu borlienne est la tribu B sur engendre par la
classe des ouverts. Une partie de R appartenant B est appele un borlien.
On peut vrier assez facilement que B concide avec la tribu engendre par les inter-
valles de la forme (,a], avec a Q.
12
CHAPITRE 1. INTRODUCTION
1.1.3 Mesure de probabilit
tant en possession dune tribu dvnements, on cherche ensuite attribuer chacun
de ces derniers une probabilit, qui reprsente le degr de conance que lon a en sa ralisa-
tion. Les probabilits sont encodes sous forme de nombres rels compris dans lintervalle
[0,1], avec linterprtation que plus la probabilit est proche de 1, plus notre conance dans
la ralisation de lvnement est grande.
Il est important de remarquer ce point que la dtermination de la probabilit asso-
cier un vnement donn ne fait pas partie du modle que nous cherchons construire
(on pourra cependant parfois la dterminer si lon nous donne la probabilit dautres v-
nements). Notre but est dobtenir un cadre mathmatique permettant de dcrire des ph-
nomnes alatoires, mais dterminer les paramtres permettant doptimiser ladquation
entre notre modle et des expriences relles nest pas du ressort de la thorie (cest une
tche dvolue aux statistiques). En particulier, nous ne nous intresserons pas aux di-
rentes interprtations de la notion de probabilit. Contentons-nous den mentionner une,
utile pour motiver certaines contraintes que nous imposerons notre modle plus tard :
lapproche frquentiste. Dans cette approche, on naccepte dassocier de probabilit qu
des vnements correspondant des expriences pouvant tre reproduites linni, de faon
indpendante. On identie alors la probabilit dun vnement avec la frquence asympto-
tique de ralisation de cet vnement lorsque lexprience est rpte inniment souvent.
Cette notion a lavantage dtre trs intuitive et de donner, en principe, un algorithme
permettant de dterminer empiriquement avec une prcision arbitraire la probabilit dun
vnement. Elle soure cependant de plusieurs dfauts : dune part, une analyse un peu
plus approfondie montre quil est fort dicile (si tant est que ce soit possible) dviter que
cette dnition ne soit circulaire, et dautre part, elle est beaucoup trop restrictive, et ne
permet par exemple pas de donner de sens une armation du type il y a 15% de chance
quil y ait un tremblement de terre dau moins 7 sur lchelle de Richter en Californie dans
les 20 annes venir . Dans de telles armations, lvnement en question ne correspond
pas une exprience renouvelable, et la notion de probabilit na plus dinterprtation en
termes de frquence, mais en termes de quantication de notre degr de certitude subjectif
quant la ralisation de lvnement en question. En rsum, il existe de nombreuses inter-
prtations du concept de probabilit, dont certaines sont beaucoup moins contraignantes
que linterprtation frquentiste, mais il sagit dun problme pistmologique que nous ne
discuterons pas ici
Dsirant modliser les phnomnes alatoires, il est important que les proprits que
lon impose la fonction attribuant chaque vnement sa probabilit soient naturelles.
Une faon de dterminer un ensemble de bonnes conditions est de considrer linterprta-
tion frquentiste mentionne plus haut. Rptons N fois une exprience, dans les mmes
conditions, et notons f
N
(A) la frquence de ralisation de lvnement A (cest--dire le
nombre de fois N
A
o il a t ralis divis par N). On a alors, au moins heuristiquement,
P(A) = lim
N
f
N
(A).
On peut ainsi dduire un certain nombre de proprits naturelles de P partir de celles des
frquences. En particulier f
N
() = 1, 0 f
N
(A) 1, et, si A et B sont deux vnements
13
1.2. RSUM DU CHAPITRE
disjoints, N
AB
= N
A
+N
B
, et donc f
N
(AB) = f
N
(A) +f
N
(B). Il est donc raisonnable
dexiger quune mesure de probabilit possde les proprits correspondantes,
1. 0 P(A) 1 ;
2. P() = 1 ;
3. Si A B = , alors P(A B) = P(A) +P(B).
Ces conditions sont tout fait naturelles, et susent presque construire la thorie des
probabilits : pour la mme raison quil est utile de passer de la structure dalgbre
celle de tribu, il est utile de remplacer la condition dadditivit de P (3. ci-dessus) par la
proprit plus forte de -additivit,
3. Si A
1
,A
2
, . . . sont des vnements deux--deux disjoints, alors
P(

_
i=1
A
i
) =

i=1
P(A
i
).
Exemple 1.1.6. On jette deux ds non pips. Il est alors naturel de prendre = (n,m)
1,2,3,4,5,6
2
et T = P(). Les ds tant supposs bien quilibrs, la symtrie du pro-
blme fait quil ny a aucune raison de penser un rsultat plus vraisemblable quun autre.
On associe donc chaque vnement lmentaire (n,m) la mme probabilit 1/36, ce qui
conduit, par les proprits ci-dessus, dnir la probabilit dun vnement A par P(A) =
[A[/36, o [A[ reprsente la cardinalit de A. On a ainsi, par exemple, que la probabilit
que la somme des ds soit gale 10 est donne par P((6,4),(5,5),(4,6)) = 3/36 = 1/12.
1.2 Rsum du chapitre
Lobjet de base de la thorie des probabilits, lespace probabilis, est un triplet (,T,P)
compos dun univers arbitraire, dune tribu T sur , et dune application P : T R
satisfaisant les conditions 1., 2. et 3. ci-dessus.
14
Chapitre 2
Probabilit, probabilit conditionnelle et
indpendance
2.1 Axiomatique de la thorie des probabilits
Comme discut dans lintroduction, la structure mathmatique de base de la thorie
des probabilits est un espace probabilis
1
, cest--dire un triplet (,T,P), o lunivers
est un ensemble quelconque, lensemble des vnements T est une tribu sur , et P est une
probabilit sur T, comme dnie ci-dessous.
Dnition 2.1.1. Une mesure de probabilit, ou plus simplement une probabilit, sur T
est une application P : T [0,1] possdant les deux proprits suivantes :
1. P() = 1.
2. (-additivit) Pour toute famille A
1
,A
2
, . . . T dvnements deux--deux disjoints,
P
_

_
i=1
A
i
_
=

i=1
P(A
i
).
Les proprits suivantes dune probabilit sont des consquences immdiates de la d-
nition prcdente.
Lemme 2.1.1. 1. P() = 0.
2. Pour tout A T, P(A
c
) = 1 P(A).
3. (Additivit) Pour tout A,B T tels que A B = ,
P(A B) = P(A) +P(B).
4. Pour tout A B T,
P(B) = P(A) +P(B A) P(A).
1. La paire (,F) seule forme un espace probabilisable.
15
2.1. AXIOMATIQUE DE LA THORIE DES PROBABILITS






A
1
A
2
A
3
B
1
B
2
B
3
Figure 2.1: Trois ensembles A
1
,A
2
,A
3
(dlimits par des cercles) gauche, et les ensembles
B
1
,B
2
,B
3
correspondant droite (reprsents par les rgions colories en bleu, vert et rouge,
respectivement.)
5. Pour tout A,B T,
P(A B) = P(A) +P(B) P(A B).
6. Plus gnralement, A
1
,A
2
, . . . ,A
n
T,
P(
n
_
i=1
A
i
) =
n

i=1
P(A
i
)

1i<jn
P(A
i
A
j
) +

1i<j<kn
P(A
i
A
j
A
k
)
+ (1)
n+1
P(A
1
A
2
A
n
).
7. (Sous--additivit) Pour toute collection A
1
,A
2
, . . . T,
P
_

_
i=1
A
i
_

i=1
P(A
i
).
Dmonstration. 1. Suit de la proprit de -additivit avec A
k
= , pour tout k 1.
2. Puisque A A
c
= et A A
c
= , cela suit du point suivant.
3. Suit de la proprit de -additivit avec A
1
= A, A
2
= B, et A
k
= , k 3.
4. Suit de ladditivit, puisque B = A (B A) et A (B A) = .
5. Puisque A B = A (B A), et A (B A) = , on a, par additivit,
P(A B) = P(A) +P(B A) = P(A) +P(B (A B)) = P(A) +P(B) P(A B),
puisque P(B) = P(B (A B)) +P(A B).
6. La dmonstration, par rcurrence, est laisse en exercice.
7. Il sut dobserver que les vnements B
1
= A
1
et, pour k 1, B
k+1
= A
k+1

k
i=1
A
i
sont deux--deux disjoints et satisfont

i=1
B
i
=

i=1
A
i
(cf. Fig. 2.1).
16
CHAPITRE 2. PROBABILIT, INDPENDANCE
Nous allons prsent noncer une proprit plus abstraite, qui nous sera utile plusieurs
reprises dans le cours.
Lemme 2.1.2. Soit (A
i
)
i1
une suite croissante dvnements, cest--dire telle que A
1

A
2
A
3
, et soit A leur limite,
A =

_
i=1
A
i
lim
i
A
i
.
Alors
P(A) = lim
i
P(A
i
).
Soit (B
i
)
i1
une suite dcroissante dvnements, cest--dire telle que B
1
B
2
B
3

, et soit B leur limite,
B =

i=1
B
i
lim
i
B
i
.
Alors
P(B) = lim
i
P(B
i
).
Dmonstration. A = A
1
(A
2
A
1
) (A
3
A
2
) est lunion dune famille dvnements
deux--deux disjoints. Par consquent,
P(A) = P(A
1
) +

i=1
P(A
i+1
A
i
)
= P(A
1
) + lim
n
n

i=1
_
P(A
i+1
) P(A
i
)
_
= P(A
1
) + lim
n
_
P(A
n+1
) P(A
1
)
_
= lim
n
P(A
n
).
La seconde armation suit facilement, puisque la suite des complmentaires (B
c
i
)
i1
est
croissante. On peut donc appliquer la premire partie pour obtenir
P(B) = P(

i=1
B
i
) = 1 P(

_
i=1
B
c
i
) = 1 lim
i
P(B
c
i
) = lim
i
P(B
i
).
Notation. Nous emploierons trs frquemment dans la suite la notation suivante : si A,B
sont deux vnements, alors on pose
P(A,B) = P(A B).
17
2.2. CONSTRUCTION DESPACES PROBABILISS
2.2 Construction despaces probabiliss
Il convient prsent de montrer quil est possible de construire de tels espaces proba-
biliss assez riches pour pouvoir dcrire les phnomnes alatoires. Nous le ferons pour des
univers de plus en plus gnraux.
2.2.1 Univers ni
Commenons par la situation la plus simple, dans laquelle lunivers est ni. Dans ce
cas, la construction dun espace probabilis est particulirement lmentaire. La tribu des
vnements est simplement T = P(). On se donne une fonction f : [0,1] telle que

f() = 1.
On associe tout dabord chaque vnement lmentaire la probabilit P() =
f(). On tend ensuite P T par additivit :
P(A) = P(
_
A
) =

A
f().
Lemme 2.2.1. Lapplication P : T [0,1] construite ci-dessus est une mesure de proba-
bilit sur T().
Dmonstration. Il est clair que P() =

f() = 1. La seule chose vrier est donc


la condition dadditivit. Soient A,B T, avec A B = . On a
P(A B) =

AB
f() =

A
f() +

B
f() = P(A) +P(B).
Remarque 2.2.1. Observez galement que toute mesure de probabilit sur T() avec
ni est de cette forme : tant donn P, il sut de poser f() = P(). Ladditivit de P
implique bien que la fonction f satisfait

f() = 1, et P(A) =

A
f().
On voit donc quune mesure de probabilit sur un univers ni est entirement caract-
rise par les probabilits associes aux vnements lmentaires.
Exemple 2.2.1. Pour un d non pip, on prend = 1,2,3,4,5,6 et f(i) =
1
6
,
i = 1, . . . , 6.
Pour un d pip, on pourra avoir par exemple f(1) =
1
6
, f(2) = f(3) = f(4) =
f(5) =
1
8
et f(6) =
1
3
.
Pour 5 lancers dune pices bien quilibre, on prendra f() = 2
5
, pour tout
= P,F
5
.
Un cas particulirement important est celui o la mme probabilit est associe chaque
vnement lmentaire, comme dans le premier et le troisime exemples ci-dessus.
18
CHAPITRE 2. PROBABILIT, INDPENDANCE
Figure 2.2: Une ralisation du graphe alatoire ((8,4) (les artes prsentes sont indiques en
rouge).
Dnition 2.2.1. On appelle distribution de probabilit uniforme sur un univers ni, la
mesure de probabilit dnie par f() = 1/[[, pour tout . On dit dans ce cas quil
y a quiprobabilit.
Manifestement, lorsquil y a quiprobabilit, la probabilit dun vnement A est sim-
plement donne par P(A) = [A[/[[.
Exemple 2.2.2. Nous allons prsent introduire un exemple non-trivial despace proba-
bilis ni : le graphe alatoire dErdsRnyi
2 3
. Soient m 0 et n 1 deux entiers. Le
graphe alatoire ((n,m) est lespace probabilis sur lensemble des graphes G = (S,A) n
sommets et m artes : S = 1, . . . , n, et A
_
i,j : 1 i < j n
_
avec [A[ = m. La
mesure de probabilit sur cet ensemble est la mesure uniforme.
Quelques rsultats combinatoires
Nous allons prsent rappeler certains rsultats de combinatoire lmentaires qui sont
rgulirement utiliss. On utilisera la notation suivante : pour n r 1, le symbole de
Pochhammer
4
(n)
r
est dni par
(n)
r
= n(n 1)(n 2) (n r + 1).
On posera galement (n)
0
= 1.
chantillons ordonns. Considrons un ensemble de n lments a
1
, . . . ,a
n
. Un chantil-
lon ordonn de taille r est une suite ordonne de r lments de lensemble. Deux procdures
sont possibles : le tirage avec remise, durant lequel chaque lment de lensemble peut
tre choisi plusieurs reprises, et le tirage sans remise, durant lequel chaque lment de
lensemble ne peut tre choisi quau plus une fois (dans ce cas, on doit videmment avoir
r n).
2. Pl Erds (1913, Budapest 1996, Varsovie), galement ortographi Paul Erds, Paul Erds ou Paul
Erdos, mathmaticien hongrois.
3. Alfrd Rnyi (1921, Budapest 1970, Budapest), mathmaticien hongrois.
4. Leo August Pochhammer (1841, Stendal 1920, Kiel), mathmaticien prusse.
19
2.2. CONSTRUCTION DESPACES PROBABILISS
Lemme 2.2.2. On considre un ensemble n 1 lments, et r N.
1. Le nombre dchantillons de taille r dirents avec remise est gal n
r
.
2. Pour r n, le nombre dchantillons de taille r dirents sans remise est gal (n)
r
.
3. Le nombre de faons dordonner lensemble est gal n!.
Dmonstration. 1. Dans le cas du tirage avec remise, chacun des r lments peut tre choisi
de n faons direntes. Par consquent, le nombre total dchantillons possibles est gal
n
r
.
2. Dans le cas sans remise, le premier lment est choisi parmi n, le second parmi n1
(celui choisi pour le premier lment ne peut plus tre choisi nouveau), le troisime parmi
n 2, etc. On a donc un nombre total dchantillons possibles gal (n)
r
.
3. Suit de 2. puisque cela revient faire n tirages sans remise.
Jusqu prsent, il na pas t fait mention de probabilit. Lorsque nous parlerons
dchantillon alatoire de taille r, ladjectif alatoire signiera que lon a muni lensemble
de tous les chantillons possibles dune distribution de probabilit. Sauf mention explicite
du contraire, on considrera la distribution uniforme.
Considrons prsent un chantillon alatoire avec remise de taille r. On sintresse
lvnement aucun lment na t choisi plus dune fois . Le thorme montre que parmi
les n
r
chantillons possibles, (n)
r
satisfont cette contrainte. Par consquent, la probabilit
que notre chantillon ne contienne pas de rptition est donne par (n)
r
/n
r
. Ce rsultat a
des consquences qui peuvent sembler surprenantes.
Exemple 2.2.3. Supposons que dans une ville donne il y a 7 accidents par semaine. Alors
durant la quasi-totalit des semaines, certains jours verront plusieurs accidents. En posant
n = r = 7, on voit en eet que la probabilit davoir exactement un accident chaque jour
de la semaine est seulement de 0,00612 . . . ; cela signie quun tel vnement naura lieu
en moyenne quenviron une fois tous les trois ans !
Exemple 2.2.4. Supposons que 23 personnes se trouvent dans la mme salle. Quelle est
la probabilit quau moins deux dentre elles aient leur anniversaire le mme jour ? On
peut modliser cette situation, en premire approximation, par un tirage alatoire avec
remise de lensemble 1, . . . ,365, avec la mesure uniforme ; un modle plus raliste devrait
prendre en compte les annes bissextiles, ainsi que les variations saisonnires du taux de
natalit (sous nos latitudes, le nombre de naissances est plus lev en t quen hiver
5
, par
exemple), etc. Pour le modle prcdent, il suit de la discussion ci-dessus que la probabilit
quau moins deux des 23 personnes aient leur anniversaire le mme jour est donne par
1 (365)
23
/365
23
= 0,507 . . . : il y a plus dune chance sur deux que a ait lieu !
Cette probabilit est de 97% sil y a 50 personnes, et de 99,99996% pour 100 personnes.
5. Ceci dit, considrer une rpartition inhomogne des naissances ne peut quaugmenter la probabilit
davoir plusieurs personnes avec la mme date danniversaire...
20
CHAPITRE 2. PROBABILIT, INDPENDANCE
chantillons non ordonns. Considrons prsent le problme dextraire un chan-
tillon de taille r dune population de taille n sans tenir compte de lordre. En dautres
termes, tant donn une population de taille n, nous cherchons dterminer le nombre de
sous-populations de taille r.
Lemme 2.2.3. Une population de taille n possde
_
n
r
_
direntes sous-populations de taille
r n.
Dmonstration. Chaque sous-population de taille r peut tre ordonne de r! faons diff-
rentes. Puisque le nombre total dchantillons ordonns sans remise de taille r est gal
(n)
r
, on en dduit que le nombre dchantillons non-ordonns de taille r doit tre gal
(n)
r
/r! =
_
n
r
_
.
Exemple 2.2.5. Au poker, chaque joueur reoit 5 cartes parmi 52. Le nombre de mains
possibles est donc de
_
52
5
_
= 2598960. Calculons alors la probabilit davoir 5 cartes de
valeurs direntes. On peut choisir ces valeurs de
_
13
5
_
faons direntes. Il faut ensuite
associer chacune une couleur, ce qui donne un facteur additionnel 4
5
. Par consquent,
la probabilit en question est donne par 4
5

_
13
5
_
/
_
52
5
_
= 0,5071 . . ..
Exemple 2.2.6. Considrons la distribution alatoire de r balles dans n urnes. Quelle est
la probabilit quune urne donne contienne exactement k balles ? On peut choisir les k
balles de
_
r
k
_
faons. Les autres r k balles doivent tre rparties parmi les n 1 urnes
restantes, ce qui peut se faire de (n1)
rk
faons. Il sensuit que la probabilit en question
est donne par
1
n
r

_
r
k
_
(n 1)
rk
=
_
r
k
_

1
n
k

_
1
1
n
_
rk
.
Il sagit dun cas particulier de la distribution binomiale, que nous reverrons plus tard.
Exemple 2.2.7. Retournons au graphe alatoire de lExemple 2.2.2. On a clairement

_
i,j : 1 i < j n
_

=
_
n
2
_
N.
Par consquent, le nombre total de graphes dans ((n,m) est donn par
_
N
m
_
, et donc la
probabilit de chaque graphe est donne par
P(G) =
_
N
m
_
1
, G ((n,m).
(On fait ici un lger abus de notation en utilisant la mme criture pour lespace probabilis
et pour lunivers.)
Partitionnement. Finalement, considrons le nombre de faons de partitionner une po-
pulation en k sous-populations de tailles donnes.
21
2.2. CONSTRUCTION DESPACES PROBABILISS
Lemme 2.2.4. Soit r
1
, . . . ,r
k
des entiers positifs (ventuellement nuls) tels que r
1
+ +
r
k
= n. Le nombre de faons de rpartir n objets dans k familles, de sorte ce que la i
me
famille contienne r
i
lments est gal
n!
r
1
!r
2
! r
k
!
.
Dmonstration. Pour remplir la premire famille, il faut choisir r
1
objets parmi n, ce qui
peut se faire de
_
n
r
1
_
faons. Pour remplir la seconde famille, il faut choisir r
2
objets parmi
n r
1
, soit
_
nr
1
r
2
_
possibilits. En continuant ainsi, on obtient que le nombre de telles
rpartitions est de
_
n
r
1
__
n r
1
r
2
__
n r
1
r
2
r
3
_

_
n r
1
r
k1
r
k
_
=
n!
r
1
!r
2
! r
k
!
.
Exemple 2.2.8. une table de bridge, les 52 cartes sont distribues 4 joueurs. Quelle
est la probabilit que chacun reoive un as ? Le nombre total de direntes rpartitions
est de 52!/(13!)
4
. Les 4 as peuvent tre ordonns de 4! faons direntes, et chaque ordre
correspond une faon de les rpartir parmi les 4 joueurs. Les 48 cartes restantes peuvent
ensuite tre rparties de 48!/(12!)
4
faons. Par consquent, la probabilit en question est
de
4!
48!
(12!)
4
_
52!
(13!)
4
= 0,105 . . .
Formule du binme gnralise Soit R et k N. Le coecient binomial
_

k
_
est
dni par
_

k
_
=
( 1) ( k + 1)
k!
.
On a alors la gnralisation suivante du Thorme du binme de Newton.
Lemme 2.2.5. Soient x,y, R. Alors,
(x +y)

k=0
_

k
_
x
k
y
k
,
si lune des conditions suivantes est vrie
1. [y/x[ < 1 et R;
2. [y/x[ = 1 et 0 ;
3. y/x = 1 et > 1.
Dmonstration. En crivant (x +y)

= x

(1 +
y
x
)

, on voit quil sut de considrer le cas


x = 1. Il sut alors de dvelopper (1+y)

en srie de Taylor autour de y = 0, et de vrier


que chacune des conditions donnes ci-dessus assurent la convergence de la srie.
22
CHAPITRE 2. PROBABILIT, INDPENDANCE
Formule de Stirling Lquivalence asymptotique suivante pour n!, de Stirling
6
, est
trs utile dans de nombreux problmes de nature combinatoire.
Lemme 2.2.6. Lorsque n , on a
n! = n
n
e
n

2n(1 +o(1)).
Dmonstration. Sera faite en exercice.
2.2.2 Univers dnombrable
On peut procder la construction despaces probabiliss avec un univers dnom-
brable exactement de la mme faon que dans le cas ni : on prend T = P(), et on
associe chaque vnement lmentaire sa probabilit, P() f() [0,1], avec

f() = 1.
Remarque 2.2.2. La somme ci-dessus est dnie de la manire suivante. tant dnom-
brable, il est possible de numroter ses lments, disons =
1
,
2
, . . .. On pose alors,
pour tout A ,

A
f() =

i=1
f(
i
) 1
A
(
i
).
Il est important dobserver que cette dnition ne dpend pas de lordre choisi pour les
lments de : toutes les sries intervenant sont termes positifs, et ceux-ci peuvent donc
tre rorganiss notre guise.
On pose ensuite, pour A T, P(A) =

A
f(). On vrie alors de la mme faon
que dans le cas ni que P est bien une mesure de probabilit et que toute mesure de
probabilit sur un univers dnombrable est ncessairement de cette forme.
Exemple 2.2.9. On jette une pice de monnaie jusqu lobtention du premier pile. On
peut choisir = N

o le dernier vnement reprsente la possibilit que pile ne


sorte jamais. Si la pice est quilibre, on aura
f(k) = 2
k
, k = 1,2, . . .
En particulier, la probabilit que pile ne sorte jamais est donne par
f() = 1

k=1
2
k
= 0,
comme le veut lintuition.
En particulier, la probabilit que le premier pile sorte aprs un nombre pair de lancers
est de
P(2,4,6, . . .) =

k=1
f(2k) =

k=1
2
2k
= 1/3.
6. James Stirling (1692, Garden 1770, Leadhills), mathmaticien britannique.
23
2.2. CONSTRUCTION DESPACES PROBABILISS



a
b
2x
Figure 2.3: Laiguille de lExemple 2.2.10. La position de laiguille (en bleu) est reprsente par
le nombre x [0,1). La direction de laiguille tombe dans un intervalle [a,b) quelconque avec
probabilit b a.
2.2.3 Univers non-dnombrable
Nous allons prsent brivement discuter le cas despaces probabiliss construits
partir dun univers inni non dnombrable. Cette situation est substantiellement plus
subtile que les cas tudis prcdemment. Commenons par considrer un exemple.
Exemple 2.2.10. On dsire modliser lexprience suivante : on considre une aiguille
dont une extrmit est xe un axe autour duquel elle peut tourner (cf. Fig. 2.3). On peut
encoder la position de laiguille par langle quelle fait avec une direction xe. On peut donc
prendre, dans des units appropries, = [0,1). On suppose quune fois lance, laiguille
peut sarrter en pointant dans nimporte quelle direction, avec la mme probabilit. Plus
prcisment, on va demander ce que la probabilit que laiguille sarrte dans un intervalle
[a,b) (a ,= b [0,1]) le long du cercle, ne dpende que de sa longueur, P([a,b)) = b a.
Manifestement, on ne peut plus construire une telle probabilit comme prcdemment,
en spciant les probabilits des vnements lmentaires, puis en dnissant les probabi-
lits dvnements gnraux partir de celles-ci. En eet, la probabilit de nimporte quel
vnement lmentaire doit tre nulle : si x [0,1), P(x) P([x,x + )) = , pour tout
> 0. Les seuls vnements dont il est possible dvaluer la probabilit partir de celles des
vnements lmentaires sont les unions dnombrables de points (et leurs complments),
et les probabilits de celles-ci sont toutes nulles (ou gales 1).
La question est de savoir sil est possible de construire une tribu sur [0,1), contenant
tous les intervalles, sur laquelle on puisse dnir une mesure de probabilit P associant
chaque intervalle sa longueur. La rponse est positive, mais la construction nest pas
triviale. Elle sera faite en dtail dans le cours de thorie de la mesure (Analyse III). La
tribu correspondante est celle des borliens de [0,1) (la tribu engendre par les ouverts de
[0,1)). Elle ne contient pas toutes les parties de [0,1) : il nest pas possible dattribuer une
longueur (on dit mesurer) tous les sous ensembles de [0,1) de faon cohrente.
Pour tre un peu plus prcis, larmation toute partie de [0,1) est mesurable est
24
CHAPITRE 2. PROBABILIT, INDPENDANCE
indpendante du systme daxiomes de Zermelo-Fraenkel
7 8
: il nest pas possible de la
prouver, ni de prouver son contraire. En fait, si lon accepte laxiome du choix (non d-
nombrable), alors il est possible de montrer lexistence de sous-ensembles de [0,1) qui ne
sont pas mesurables
9
. Ceci dit, mme dans ces conditions, lexistence de tels ensembles
auxquels on ne peut associer de probabilit ne limite en rien lapplicabilit de la thorie
des probabilits, puisque ces ensembles sont pathologiques (il est impossible de les dcrire
explicitement, puisque leur existence repose de faon essentielle sur laxiome du choix), et
ne correspondent donc pas des vnements intressants dans la pratique.
Comme expliqu dans lexemple prcdent, il est ncessaire en gnral de restreindre la
classe des vnements, an de pouvoir construire un espace probabilis. La procdure est
la suivante :
1. On commence par dterminer une algbre dvnements intressants, sur laquelle on
dnit une probabilit. Dans lexemple, on part des intervalles, dont on connat la
probabilit. On considre ensuite lalgbre engendre par les intervalles. On dnit
sur cette algbre une mesure de probabilit niment additive, la probabilit de chaque
lment tant dtermine partir de celle des intervalles et des rgles dadditivit.
On montre ensuite que cette mesure est en fait -additive.
2. On fait appel un rsultat fondamental de thorie de la mesure, le Thorme dexten-
sion de Carathodory, qui arme quune mesure de probabilit sur une algbre stend
de faon unique en une mesure de probabilit sur la tribu engendre par lalgbre.
Exemple 2.2.11. Revenons un problme dj discut dans les Exemples 1.1.4 et 1.1.5 :
une innit de jets dune pice de monnaie. On a vu que les ensembles
: (a
1
, . . . , a
n
) A ,
avec n 1 un entier arbitraire et A 0,1
n
, forment une algbre sur . Or, chaque
lment de cette algbre ne fait intervenir quun nombre ni de lancers, et par consquent,
on peut aisment leur associer une probabilit (nous reviendrons sur la faon de le faire une
7. Ernst Friedrich Ferdinand Zermelo (1871, Berlin - 1953, Fribourg-en-Brisgau), mathmaticien alle-
mand.
8. Abraham Adolf Halevi Fraenkel (1891, Mnich - 1965, Jrusalem), mathmaticien dabord allemand
puis isralien.
9. Esquissons brivement une construction due Vitali. On note S
1
le cercle unit. Nous allons montrer,
en utilisant laxiome du choix, quil est possible dcrire S
1
=

nZ
A
n
, o les ensembles A
n
sont disjoints
et peuvent tous tre obtenus partir de A
0
par rotation. Si A
0
possdait une longueur (A), alors la
-additivit impliquerait que 2 = (A), ce qui est impossible. Pour construire A
n
, on procde comme
suit. On identie S
1
lensemble
_
e
i
: R
_
dans C. On introduit une relation dquivalence sur S
1
en
posant x y sil existe , R tels que x = e
i
, y = e
i
, avec Z. On utilise laxiome du choix
pour construire lensemble A
0
compos dexactement un reprsentant de chaque classe dquivalence. On
pose alors, pour n Z

, A
n
= e
in
A
0
=
_
e
in
x : x A
0
_
. La famille ainsi construite possde les proprits
dsires. En eet, si y A
n
alors il existe x A
0
tel que y = e
in
x, et donc y x; comme A
0
ne contient
quun seul reprsentant de chaque classe dquivalence, on en dduit que y A
0
. Ceci montre que les
ensembles A
n
sont disjoints. De plus, si y S
1
, sa classe dquivalence est donne par
_
e
ik
y : k Z
_
, et il
existe donc n Z tel que e
in
y A
0
, puisque A
0
contient un reprsentant de chaque classe dquivalence ;
on en dduit que y A
n
, et donc que les A
n
forment une partition de S
1
.
25
2.2. CONSTRUCTION DESPACES PROBABILISS
fois le concept dindpendance introduit), et vrier que celle-ci est -additive. On obtient
alors notre espace probabilis, sur la tribu engendre par cette algbre, par une application
du Thorme dextension de Carathodory.
Le cas de R
Le cas de R est particulirement important. Donnons donc brivement quelques dni-
tions et rsultats dans ce contexte. Ceux-ci seront tudis de faon dtaille dans le cours
de thorie de la mesure (Analyse III).
Dnition 2.2.2. La tribu borlienne sur R, B(), est la tribu sur engendre par
les ouverts de . Ses lments sont appels les borliens.
Dans la suite, lorsque nous considrerons R comme espace probabilis, nous le suppo-
serons toujours muni de sa tribu borlienne, sauf mention du contraire.
Lemme 2.2.7. La tribu borlienne est engendre par les intervalles (,a], a Q.
Une mesure de probabilit P sur R peut tre caractrise par les valeurs quelle
attribue aux intervalles de cette forme. Ceci motive lintroduction dune fonction F
P
: R
[0,1], F
P
(x) = P((,x]).
Dnition 2.2.3. Une fonction de rpartition est une fonction F : R [0,1] possdant les
proprits suivantes :
1. F est croissante ;
2. lim
x
F(x) = 0 ;
3. lim
x+
F(x) = 1 ;
4. F est continue droite.
Lemme 2.2.8. F
P
est une fonction de rpartition.
Dmonstration. Laisse en exercice. Pour la continuit droite, utiliser le Lemme 2.1.2.
On peut donc associer chaque mesure de probabilit une fonction de rpartition. Le
rsultat suivant montre que la rciproque est galement vraie.
Thorme 2.2.1. Soit F : R R. Alors il existe une mesure de probabilit P sur (R,B(R))
telle que F = F
P
si et seulement si F est une fonction de rpartition.
Ce rsultat montre que les mesures de probabilit sur R sont en bijection avec les
fonctions de rpartition sur R.
26
CHAPITRE 2. PROBABILIT, INDPENDANCE
2.3 Probabilit conditionnelle, formule de Bayes
De nombreuses armations prennent la forme si B a lieu, alors la probabilit de A
est p , o B et A sont des vnements (tels il pleut demain , et le bus sera lheure ,
respectivement).
An de motiver la dnition de la probabilit conditionnelle dun vnement A tant
connue la ralisation dun vnement B, revenons linterprtation frquentiste des pro-
babilits. On considre deux vnements A et B. On dsire dterminer la frquence de
ralisation de lvnement A lorsque lvnement B a lieu. La faon de procder est la
suivante : on rpte lexprience un grand nombre de fois N. On note le nombre N
B
de
tentatives lors desquelles B est ralis, et le nombre N
AB
de ces dernires tentatives lors
desquelles A est galement ralis. La frquence de ralisation de A parmi les tentatives
ayant donn lieu B est alors donne par
N
AB
N
B
=
N
AB
N
N
N
B
.
Lorsque N devient grand, on sattend ce que le terme de gauche converge vers la pro-
babilit de A conditionnellement la ralisation de lvnement B, alors que le terme de
droite devrait converger vers P(A B)/P(B). Ceci motive la dnition suivante.
Dnition 2.3.1. Soit B T un vnement tel que P(B) > 0. Pour tout A T, la
probabilit conditionnelle de A sachant B est la quantit
P(A[ B) =
P(A B)
P(B)
.
Lemme 2.3.1. Soit B T un vnement tel que P(B) > 0. Alors la probabilit condi-
tionnelle P( [ B) : T R est une mesure de probabilit, et (,T,P( [ B)) est un espace
probabilis. De plus, T
B
= A B : A T est une tribu et (B,T
B
,P( [ B)) est galement
un espace probabilis.
Dmonstration. On a manifestement P(A B)/P(B) [0,1], pour tout A T. Comme
B = B, on a galement P([ B) = 1. Finalement, si A
1
,A
2
, . . . sont des vnements
deux--deux disjoints, la -additivit de P implique que
P
_
_

_
i=1
A
i
_
B
_
= P
_

_
i=1
_
A
i
B
_
_
=

i=1
P(A
i
B),
et donc que
P
_
_

_
i=1
A
i
_

B
_
=

i=1
P(A
i
B)
P(B)
=

i=1
P(A
i
[ B).
La preuve de la seconde armation est laisse en exercice.
27
2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES
Exemple 2.3.1. On jette deux ds non pips. Sachant que le premier jet nous donne 3,
quelle est la probabilit que la somme soit suprieure 6 ? Ici, B = (3,k) : k = 1, . . . , 6,
A = (a,b) 1, . . . ,6
2
: a +b > 6, et A B = (3,4),(3,5),(3,6). On a alors
P(A[ B) =
P(A B)
P(B)
=
[A B[
[B[
=
3
6
=
1
2
.
Exemple 2.3.2. On choisit une famille au hasard parmi toutes les familles ayant deux
enfants et dont au moins un est un garon. Quelle est la probabilit que les deux enfants
soient des garons ? Introduisant les vnements B = (G, G), (F, G), (G, F) et A = A
B = (G, G), on voit que
P(A[ B) =
P((G, G))
P((G, G), (F, G), (G, F))
=
1
3
.
On choisit une famille au hasard parmi toutes les familles ayant deux enfants et dont lan
est un garon. Quelle est la probabilit que les deux enfants soient des garons ? prsent,
B = (G, G), (G, F), A = A B = (G, G). Donc
P(A[ B) =
P((G, G))
P((G, G), (G, F))
=
1
2
.
Dnition 2.3.2. Une famille (B
i
)
iI
, I dnombrable, est une partition de si
B
i
B
j
= , ds que i ,= j, et
_
iI
B
i
= .
En dpit de sa simplicit, le thorme suivant est crucialement important en thorie
des probabilits.
Thorme 2.3.1. Soit (B
i
)
iI
une partition de telle que P(B
i
) > 0, pour tout i I, et
soit A T.
1. (Loi de la probabilit totale)
P(A) =

iI
P(A[ B
i
)P(B
i
).
2. (Formule de Bayes)
P(B
i
[ A) =
P(A[ B
i
)P(B
i
)

jI
P(A[ B
j
)P(B
j
)
.
Dmonstration. Par -additivit,

iI
P(A[ B
i
)P(B
i
) =

iI
P(A B
i
) = P
_
_
iI
(A B
i
)
_
= P
_
A (
_
iI
B
i
)
_
= P(A).
La seconde relation suit de lobservation que
P(B
i
[ A) =
P(B
i
A)
P(A)
=
P(B
i
A)
P(B
i
)
P(B
i
)
P(A)
= P(A[ B
i
)
P(B
i
)
P(A)
et lapplication de la loi de la probabilit totale.
28
CHAPITRE 2. PROBABILIT, INDPENDANCE
B
c
A
c
B
A B
c
A
c
B
c
A B
B
3/5
2/5
5/8
3/8
1/2
1/2
Figure 2.4: Larbre reprsentant le processus dcrit dans lExemple 2.3.3
Remarque 2.3.1. Dans la terminologie statistique, on appelle P(B
i
) la probabilit priori
de B
i
et P(B
i
[ A) la probabilit posteriori de B
i
(sachant A). La formule de Bayes donne
donc un moyen de transformer les probabilits priori en probabilits posteriori.
Exemple 2.3.3. On se donne deux urnes. La premire contient deux balles rouges et trois
balles bleues ; la seconde trois rouges et quatre bleues. Une balle est tire au hasard de la
premire urne et place dans la seconde. On tire ensuite au hasard une balle de la seconde
urne : quelle est la probabilit quelle soit bleue ?
Soit A lvnement la balle tire de la seconde urne est bleue , et B lvnement la
balle dplace de la premire urne la seconde est bleue . Puisque B et B
c
forment une
partition de , une application de la loi de la probabilit totale donne
P(A) = P(A[ B)P(B) +P(A[ B
c
)P(B
c
).
prsent,
P(A[ B) = P(A[ la 2
me
urne contient trois balles rouges et cinq bleues) =
5
8
;
P(A[ B
c
) = P(A[ la 2
me
urne contient quatre balles rouges et quatre bleues) =
1
2
.
Puisque P(B) =
3
5
et P(B
c
) =
2
5
, on obtient P(A) =
23
40
.
On reprsente souvent des situations de ce type comme sur la Fig. 2.4.
Exemple 2.3.4 (Problme du ballot). Lors dune lection opposant deux candidats A
et B, le premier reoit n voix et le second m < n voix. En supposant quiprobables les
dirents ordres dapparition des bulletins (et en ignorant les bulletins blancs ou non-
valides), montrer que la probabilit P(n,m) que le candidat A soit toujours en tte lors du
dpouillement est gale (n m)/(n +m).
En conditionnant sur le rsultat du dernier bulletin, il suit de la loi de la probabilit
totale et de lhypothse dquiprobabilit que
P(n,m) = P(A toujours en tte [ dernier vote en faveur de A)
n
n +m
+P(A toujours en tte [ dernier vote en faveur de B)
m
m+n
.
29
2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES
Un instant de rexion montre que P(A toujours en tte [ dernier vote en faveur de A) =
P(n1,m) et P(A toujours en tte [ dernier vote en faveur de B) = P(n,m1). Par cons-
quent, le problme se rduit vrier que P(n,m) = (n m)/(n +m) est bien la solution
du systme
P(n,m) =
n
n +m
P(n 1,m) +
m
m+n
P(n,m1), n > m 1,
avec les conditions au bord P(n,n) = 0 (A ne peut avoir t toujours en tte sil est
galit avec B la n) et P(n,0) = 1 (A a forcment toujours t en tte si personne na
vot pour B). Les conditions au bord sont clairement vries. Pour dmontrer le rsultat,
on procde par rcurrence sur n+m. Supposons le rsultat valide pour n+m k (n m,
k 1), ainsi que pour n = m arbitraires. Considrons prsent n + m = k + 1, n > m.
On a alors, par hypothse de rcurrence,
P(n,m) =
n
n +m
n 1 m
n 1 +m
+
m
m+n
n (m1)
n + (m1)
=
n m
n +m
,
et le rsultat est tabli.
Exemple 2.3.5. Le test de dpistage dun certain virus nest pas infaillible :
1 fois sur 100, il est positif, alors que lindividu nest pas contamin ;
2 fois sur 100, il est ngatif, alors que lindividu est contamin.
Il est donc important de rpondre aux questions suivantes :
1. tant donn que son test est positif, quelle est la probabilit quun individu ne soit
pas porteur du virus ?
2. tant donn que son test est ngatif, quelle est la probabilit quun individu soit
porteur du virus ?
La formule de Bayes est parfaitement adapte ce type de calculs. An de pouvoir lappli-
quer, il nous faut une information supplmentaire : dans la population totale, la fraction
de porteurs est approximativement de 1/1000.
Formalisons tout cela. On introduit les vnements suivants :
T = le test est positif,
V = lindividu est contamin.
On a donc les informations suivantes :
P(T [ V
c
) =
1
100
, P(T
c
[ V ) =
2
100
, P(V ) =
1
1000
,
et on veut calculer
1. P(V
c
[ T), 2. P(V [ T
c
).
La formule de Bayes nous dit que
P(V
c
[ T) =
P(T [ V
c
)P(V
c
)
P(T [ V
c
)P(V
c
) +P(T [ V )P(V )
.
30
CHAPITRE 2. PROBABILIT, INDPENDANCE
Nous connaissons toutes les valeurs correspondant aux quantits du membre de droite (ob-
servez que P(T [ V ) = 1 P(T
c
[ V ) = 98/100). On obtient donc
P(V
c
[ T) =
1
100

999
1000
1
100

999
1000
+
98
100

1
1000
= 0,91 . . .
Mme si son test est positif, un individu a plus de 90% de chances de ne pas tre porteur
du virus !
Un calcul similaire montre par contre que
P(V [ T
c
) = 0,00002...
ce qui montre que cest bien l que se trouve lutilit de ce test, puisque la probabilit de
dclarer non porteur un individu contamin est de lordre de 2/100000.
Observez que le calcul ci-dessus ne sapplique qu un individu normal . Dans le cas
dun individu appartenant une population risques, la probabilit priori dtre porteur,
P(V ), peut devenir proche de 1 et non pas trs petite comme prcdemment. Cela change
compltement les conclusions : dans ce cas, la probabilit dtre non porteur alors que le
test est positif est minuscule, tandis que la probabilit dtre porteur alors que le test est
ngatif est trs importante.
Lusage des probabilits conditionnelles peut se rvler trs dlicat, et lintuition peut
parfois jouer des tours, comme le montrent les exemples suivants.
Exemple 2.3.6. Un bienfaiteur vous propose le jeu suivant. Il va vous prsenter 3 en-
veloppes fermes ; 2 dentre elles contiennent du papier journal, la dernire un chque de
1000000 CHF. Vous devrez choisir une enveloppe, sans louvrir. Il ouvrira ensuite une des
deux enveloppes restantes et vous montrera quelle contient du papier journal. Vous aurez
alors le choix entre conserver lenveloppe choisie initialement, ou bien changer pour celle
qui reste. Quelle est la meilleure stratgie ? (Rponse : vous avez deux fois plus de chances
de gagner si vous changez ; pourquoi ?)
Exemple 2.3.7. (Paradoxe du prisonnier) Trois hommes se sont faits arrter dans une
sombre dictature. Ils apprennent de leur garde que le dictateur a dcid arbitrairement que
lun dentre eux va tre libr, et les 2 autres excuts ; le garde nest pas autoris annoncer
un prisonnier quel sera son sort. Le prisonnier A sait donc, que la probabilit quil soit
pargn est de 1/3. An dobtenir davantage dinformations, il dcide dinterroger le garde.
Il lui demande de lui donner en secret le nom dun de ses camarades qui sera excut. Le
garde nomme le prisonnier B. Le prisonnier A sait donc quentre lui-mme et C, lun va
tre libr, et lautre excut. Quelle est la probabilit que A soit excut ?
Remarque 2.3.2. Dans les 2 exemples prcdents, le problme est partiellement mal pos,
car la stratgie employe par votre bienfaiteur, ou par le garde, lorsquils ont prendre une
dcision nest pas indique. Dans une telle situation, supposez quil prend sa dcision de
faon uniforme (aprs tout, vous navez aucune information sur le sujet, et tout autre choix
serait dicile justier).
31
2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES
Si les exemples prcdents sont trs articiels et se rglent facilement en appliquant avec
soin les rgles de la thorie des probabilits, lexemple suivant montre que des dicults
relles, subtiles et diciles traiter apparaissent galement dans des applications pratiques.
Exemple 2.3.8. (Paradoxe de Simpson
10
) Un scientique a eectu des expriences cli-
niques an de dterminer les ecacits relatives de deux traitements. Il a obtenu les rsul-
tats suivants :
Traitement A Traitement B
Succs 219 1010
chec 1801 1190
Le traitement A ayant t administr 2020 personnes, et 219 dentre elles ayant t
guries, son taux de succs est donc de 219/2020, ce qui est trs infrieur au taux corres-
pondant pour le traitement B qui est de 1010/2200. Par consquent, le traitement B est
plus ecace que le traitement A.
Aprs avoir annonc ce rsultat, un de ses assistants vient vers lui. Il est en dsaccord
avec linterprtation des rsultats. Il lui prsente le tableau suivant, dans lequel les rsultats
prcdents sont donns en tenant compte du sexe des patients :
Femmes Hommes
Traitement A Traitement B Traitement A Traitement B
Succs 200 10 19 1000
chec 1800 190 1 1000
Chez les femmes, les taux de succs des traitements sont de 1/10 et 1/20 respectivement,
et chez les hommes de 19/20 et 1/2. Le traitement A est donc plus ecace dans les 2 cas.
Par consquent, le traitement A est plus ecace que le traitement B.
Bien entendu, cest lassistant qui a raison : quel que soit le sexe du patient, ses chances
de gurir sont suprieures avec le traitement A.
Ce paradoxe apparat rgulirement dans des tudes statistiques. Observez aussi la dif-
cult suivante : si lon navait pas relev le sexe des patients, on aurait t oblig de
baser notre analyse sur le premier raisonnement, et on serait arriv une conclusion erro-
ne. En particulier, comment tre certain quil nexiste pas dautres paramtres que le sexe
(lge, le poids, . . . ) dont on naurait pas tenu compte et qui modierait une fois de plus la
conclusion ?
Un cas rel clbre sest produit lorsque luniversit de Berkeley a t poursuivie pour
discrimination sexuelle : les chires des admissions montraient que les hommes ayant pos
leur candidature avaient plus de chance dtre admis que les femmes, et la dirence tait si
importante quelle ne pouvait raisonnablement tre attribue au hasard. Cependant, aprs
avoir analys sparment les dirents dpartements, on a dcouvert quaucun dpartement
ntait signicativement biais en faveur des hommes ; en fait, la plupart des dpartements
avaient un petit (et pas trs signicatif ) biais en faveur des femmes ! Lexplication se trouve
10. Edward Hugh Simpson. Ce paradoxe, discut par ce dernier en 1951, lavait dj t en 1899 par
Karl Pearson et ses coauteurs, puis en 1903 par George Udny Yule.
32
CHAPITRE 2. PROBABILIT, INDPENDANCE
tre que les femmes avaient tendance porter leur choix sur des dpartements dont les taux
dadmission sont faibles, tandis que les hommes avaient tendance candidater dans des
dpartements avec forts taux dadmission.
2.4 Indpendance
En gnral, linformation quun vnement B est ralis modie la probabilit quun
autre vnement A soit ralis : la probabilit priori de A, P(A), est remplace par
la probabilit posteriori, P(A[ B), en gnral dirente. Lorsque linformation que B est
ralis ne modie pas la probabilit doccurrence de A, cest--dire lorsque P(A[ B) = P(A),
on dit que les vnements A et B sont indpendants. Il y a au moins deux bonnes raisons
pour ne pas utiliser cette proprit comme dnition de lindpendance : dune part, elle
na de sens que lorsque P(B) > 0, et dautre part, les deux vnements ne jouent pas
un rle symtrique. La notion de probabilit conditionnelle conduit donc la dnition
suivante.
Dnition 2.4.1. Deux vnements A et B sont indpendants sous P si
P(A B) = P(A)P(B).
Plus gnralement, une famille dvnements (A
i
)
iI
est indpendante sous P si
P(

iJ
A
i
) =

iJ
P(A
i
),
pour tous les sous-ensembles nis J de I.
Proposition 2.4.1. Soient A,B deux vnements indpendants. Alors A et B
c
sont ind-
pendants, et A
c
et B
c
sont indpendants.
Plus gnralement, si A
1
, . . . ,A
n
sont indpendants, alors
B
1
, . . . ,B
n
,
o B
i
A
i
,A
c
i
, sont aussi indpendants.
Dmonstration. Laisse en exercice.
Remarque 2.4.1. Si une famille dvnements (A
i
)
iI
satisfait P(A
i
A
j
) = P(A
i
)P(A
j
),
pour toute paire i ,= j, on dit que la famille est 2 2 indpendante, ou indpendante par
paires. Lindpendance par paires nimplique pas lindpendance. Un exemple : considrez
= 1,2,3,4, avec la distribution uniforme, et les vnements A = 1,2, B = 2,3
et C = 1,3 ; on vrie aisment que A,B,C sont indpendants par paires, et pourtant
P(A B C) = 0 ,= P(A)P(B)P(C).
33
2.4. INDPENDANCE
Exemple 2.4.1. Retournons au graphe alatoire ((n,m). La probabilit que deux sommets
distincts i et j donns soient relis par une arte (not i j) est donne par (rappelez-vous
que N =
_
n
2
_
)
P(i j) =
_
N1
m1
_
_
N
m
_ =
m
N
.
En eet, le numrateur correspond au nombre total de faon de choisir les m 1 artes
restantes parmi les N 1 artes encore disponibles.
Dautre part, soient i,j,k, quatre sommets tels que i,j , = k,. La probabilit quon
ait la fois i j et k est donne par
P(i j, k ) =
_
N2
m2
_
_
N
m
_ =
m(m1)
N(N 1)
.
On voit donc que les vnements i j et k ne sont pas indpendants.
Il convient dtre attentif lorsque lon utilise la notion dindpendance. En particulier,
lide intuitive dindpendance peut tre parfois mise en dfaut, comme le montre les deux
exemples suivants.
Exemple 2.4.2. Un vnement peut tre indpendant de lui-mme. En eet, ceci a lieu
si et seulement sil a probabilit 0 ou 1, car dans ce cas, on a bien
P(A) = P(A A) = P(A)P(A) P(A) 0,1.
Exemple 2.4.3. Considrons des familles avec 3 enfants et intressons-nous au sexe des
enfants ; on suppose que chacune des 8 possibilits a la mme probabilit 1/8. Soit A lv-
nement la famille a des enfants des 2 sexes , et B lvnement la famille a au plus
une lle . On a
P(A) =
3
4
, P(B) =
1
2
, P(A B) =
3
8
,
et donc A et B sont indpendants.
Faisons la mme chose avec des familles de 4 enfants. Dans ce cas,
P(A) =
7
8
, P(B) =
5
16
, P(A B) =
1
4
,
et donc A et B ne sont pas indpendants.
Dnition 2.4.2. Soit C un vnement avec P(C) > 0. Deux vnements A et B sont
indpendants conditionnellement C sous P si
P(A B[ C) = P(A[ C)P(B[ C).
Plus gnralement, une famille dvnements (A
i
)
iI
est indpendante conditionnellement
C sous P si
P(

iJ
A
i
[ C) =

iJ
P(A
i
[ C),
pour tous les sous-ensembles nis J de I.
34
CHAPITRE 2. PROBABILIT, INDPENDANCE
2.5 Expriences rptes, espace produit
Dans cette section, nous allons nous intresser la description mathmatique dune
exprience alatoire rpte dans les mmes conditions, de faon indpendante, un nombre
ni ou inni de fois. An de rester concret, nous illustrerons la construction avec le cas
particulier du lancer rpt dune pice de monnaie, un exemple dj discut plusieurs
reprises prcdemment.
Lespace probabilis correspondant une instance de lexprience est not (
1
,T
1
,P
1
).
Exemple 2.5.1. Dans le cas dun jet dune pice de monnaie,
1
= P,F, et la tribu
correspondante est T = P(
1
).
1
tant ni, il est susant, pour dterminer la mesure
de probabilit, de donner ses valeurs sur les vnements lmentaires : on posera donc
P
1
(P) = p, P
1
(F) = 1 p q, o p [0,1] est la probabilit que la pice tombe sur
pile. p =
1
2
dans le cas dune pice quilibre.
Nous allons prsent construire lespace probabilis correspondant 2 rptitions de
lexprience. Lunivers correspondant est donn par le produit cartsien de 2 copies de
1
:

2
=
1

1
= (a
1
, a
2
) : a
i

1
.
En ce qui concerne la construction de la tribu sur
2
, nous voulons garantir que celle-ci
contienne tous les vnements du type lvnement A sest produit lors de la premire
exprience, et lvnement B sest produit lors de la seconde . Ceci conduit la dnition
suivante.
Dnition 2.5.1. Si T et T
t
sont deux tribus sur des univers et
t
, la tribu produit
T T
t
sur
t
est la tribu engendre par les rectangles, cest--dire les ensembles de la
forme AB avec A T et B T
t
.
Exemple 2.5.2. La tribu borlienne sur R
n
est la tribu produit B(R) B(R) (n
fois). On la notera B(R
n
). On peut montrer quelle concide avec la tribu engendre par
les ouverts de R
n
, et quelle est en fait galement engendre par les ensembles de la forme
(,x
1
] (,x
n
], avec x
1
, . . . ,x
n
Q.
Nous dsirons prsent dnir la mesure de probabilit P
2
sur (
2
,T
2
). Nous voulons
modliser lindpendance des expriences successives, par consquent deux vnements
A et B portant lun sur la premire exprience, et lautre sur la seconde doivent tre
indpendants. Cela implique que
P
2
(A B) = P
2
(A)P
2
(B),
pour tout A de la forme

A
1
, et B de la forme
1


B, avec

A,

B T
1
. De plus la
ralisation de lvnement A ne dpendant que de la ralisation de

A lors de la premire
exprience, on doit avoir P
2
(A) = P
1
(

A) ; similairement P
2
(B) = P
1
(

B). Observant que
A B =

A

B, ceci conduit chercher dnir P
2
par
P
2
(AB) = P
1
(A)P
1
(B), A,B T
1
.
Lexistence dune telle mesure de probabilit est un rsultat classique de thorie de la
mesure (cf. Analyse III).
35
2.5. EXPRIENCES RPTES, ESPACE PRODUIT
Thorme 2.5.1. Soient (,T,P) et (
t
,T
t
,P
t
) deux espaces probabiliss. Il existe une
unique mesure de probabilit P P
t
sur lespace probabilisable (
t
,T T
t
) telle que
P P
t
(AB) = P(A)P
t
(B), A T, B T
t
.
P P
t
est appel mesure produit de P et P
t
.
Dnition 2.5.2. Soient (,T,P) et (
t
,T
t
,P
t
) deux espaces probabiliss. Lespace proba-
bilis (
t
,T T
t
,P P
t
) est leur espace probabilis produit.
Exemple 2.5.3. Pour deux jets de pices de monnaie, on obtient

2
= PP,PF,FP,FF, T
2
= P(
2
),
et P
2
est dtermine par P
2
(PP) = p
2
, P
2
(PF) = P
2
(FP) = pq et P
2
(FF) = q
2
.
En itrant la construction ci-dessus, on construit lespace probabilis (
n
,T
n
,P
n
) cor-
respondant la rptition dun nombre ni quelconque dexpriences indpendantes :

n
=
1

1
(n fois), T
n
= T
1
T
1
(n fois) et P
n
= P
1
P
1
(n
fois).
Pour diverses raisons, en particulier la discussion de la loi forte des grands nombres,
il est important de pouvoir discuter de la rptition dun nombre inni dexpriences
indpendantes. La faon de procder est la suivante (dj esquisse dans lExemple 1.1.4).
On dnit videmment lunivers comme le produit cartsien dune innit de copies de
1
,

=
1

1
. La tribu correspondante T

est la tribu engendre par les vnements


ne dpendant que des rsultats dun nombre ni dexpriences, cest--dire les vnements
de la forme
_
(a
1
,a
2
, . . .)

: (a
1
, . . . , a
n
)

A
_
,
avec n 1 un entier arbitraire et

A T
n
. Ces ensembles formant une algbre (cf.
lExemple 1.1.4), il sut de construire la mesure de probabilit P

pour ces ensembles,


le Thorme dextension de Carathodory permettant de ltendre automatiquement la
tribu T

. Mais, si A est un tel vnement, A =



A
1

1
,

A T
n
, n 1, on doit
avoir P

(A) = P
n
(

A).
En particulier, pour dterminer la probabilit de lvnement
A = (a
1
,a
2
, . . .)

: a
1
B
1
, . . . , a
n
B
n
,
o B
i
T
1
(i = 1, . . . ,n), il sut de ne considrer que les n premires expriences, et on
doit donc avoir
P

(A) = P
n
(

A) = P
1
(B
1
) P
1
(B
n
),
o

A = B
1
B
n
.
36
CHAPITRE 2. PROBABILIT, INDPENDANCE
2.6 Rsum du chapitre
Continuit des mesures de probabilit. Si (A
i
)
i1
est une suite croissante dvne-
ments, A
1
A
2
, alors leur limite lim
i
A
i
=

i1
A
i
satisfait
P( lim
i
A
i
) = lim
i
P(A
i
).
Un rsultat analogue est galement vri pour une suite dcroissante dvnements.
Construction despaces probabiliss : cas ni et dnombrable. Dans ce cas il
est possible de choisir T = P(), et une mesure de probabilit P est caractrise par les
valeurs quelle associe aux vnements lmentaires , P() = f(). La probabilit
dun vnement A quelconque est alors donne par P(A) =

A
f().
Construction despaces probabiliss : cas non dnombrable. Dans ce cas il nest
en gnral pas possible de prendre T = P(). La construction se fait alors par tapes :
choix dune algbre naturelle dvnements, dont la probabilit peut tre aisment dnie ;
extension de cette mesure de probabilit sur lalgbre en une mesure de probabilit sur la
tribu quelle engendre, laide du Thorme dextension de Carathodory.
Probabilit conditionnelle. tant donn un vnement B tel que P(B) > 0, la pro-
babilit conditionnelle sachant B est la mesure de probabilit dnie par P(A[ B) =
P(A B)/P(B).
Loi de la probabilit totale : P(A) =

iI
P(A[ B
i
)P(B
i
), pour toute partition
(B
i
)
iI
de ;
Formule de Bayes : P(B
i
[ A) = P(A[ B
i
)P(B
i
)/

jI
P(A[ B
j
)P(B
j
).
Indpendance. Une famille (A
i
)
iI
dvnements est indpendante (sous P) si, pour
tout J I ni, P(

iJ
A
i
) =

iJ
P(A
i
). En particulier, si A et B sont indpendants et
P(B) > 0, alors P(A[ B) = P(A).
Expriences rptes. Si (,T,P) est lespace probabilis associ une exprience
alatoire, lespace probabilis associ n rptitions indpendantes de lexprience est
donn par lespace produit, ( , T T,P P) (tous les produits tant
pris n fois), o est le produit cartsien des ensembles, T T est la tribu engendre
par les ensembles de la forme AB, A,B T, et PP est lunique de mesure de probabilit
sur T T telle que P P(AB) = P(A)P(B).
Lespace probabilis correspondant une innit de rptitions indpendantes de lex-
prience est (

,T

,P

), o

est le produit cartsien dune innit de copies de


, T

est la tribu engendre par les vnements ne dpendant que des n premires
expriences, n arbitraire, et P

est lunique mesure de probabilit sur T

telle que
P(A
1
A
n
) = P(A
1
) P(A
n
), pour tout n.
37
2.6. RSUM DU CHAPITRE
38
Chapitre 3
Variables alatoires
3.1 Dnitions
3.1.1 Variables alatoires et leurs lois
Il est souvent plus pratique dassocier une valeur numrique au rsultat dune exprien-
ce alatoire, plutt que de travailler directement avec une ralisation. Par exemple, lorsque
n et m sont grands, une ralisation du graphe alatoire ((n,m) de lExemple 2.2.2 est un
objet trop complexe pour tre directement intressant (voir la Fig. 3.1). Il sera alors plus
utile de se concentrer sur certaines proprits numriques de cette ralisation, comme, par
exemple, le nombre dartes incidentes en un sommet, le nombre de composantes connexes,
ou la taille de la plus grande composante connexe. Mathmatiquement, de telles valeurs
numriques sont des fonctions X : R associant un rsultat de lexprience une valeur
dans R. Une telle fonction est appele variable alatoire.
Exemple 3.1.1. On considre le graphe alatoire ((n,m). Pour chaque k N, la fonction
N
k
donnant le nombre de sommets ayant k artes incidentes est une variable alatoire.
Dans la ralisation de ((8,4) reprsente dans la gure 2.2, on a N
0
= 1, N
1
= 6, N
2
= 1,
et N
k
= 0 pour les autres valeurs de k.
Soit (,T,P) un espace probabilis. Les questions que lon va se poser concernant une
variable alatoire X : R prennent la forme
P( : X() A) = P(X
1
(A)) P(X A),
pour certains sous-ensembles A R. Or, P(X
1
(A)) nest bien dnie que si X
1
(A) T.
De plus, la distribution de probabilit P sur et la variable alatoire X induisent une
mesure de probabilit P
X
sur R en posant, pour A R,
P
X
(A) = P(X A).
On a vu que ceci ne peut pas tre fait de manire cohrente pour toutes les parties de R, et
quil faudra donc se restreindre aux ensembles A B. On est donc conduit la dnition
suivante.
39
3.1. DFINITIONS
Figure 3.1: Une ralisation du graphe alatoire ((100,200).
Dnition 3.1.1. Une application X : R entre les deux espaces probabilisables (,T)
et (R,B) est une variable alatoire si et seulement si
X
1
(A) T, A B.
La mesure de probabilit P
X
sur R dnie par
P
X
(A) = P(X A), A B
est appele la loi de X.
Remarque 3.1.1. On peut montrer quil sut de vrier que X
1
_
(,x]
_
T, pour
tout x R.
Exemple 3.1.2. Considrons le lancer de deux ds non pips, et notons X la variable
alatoire correspondant la somme des valeurs obtenues. Alors, la probabilit que la somme
vaille 3 est donne par
P
X
(3) = P(X = 3) = P((1,2),(2,1)) =
2
36
=
1
18
.
Remarque 3.1.2. Une fonction : R R est dite mesurable si
1
(A) B, pour tout
A B. Dans ce cas, on vrie immdiatement que si X : R est une variable alatoire,
alors (X) est galement une variable alatoire. Dans ce cours, chaque fois que lon crit
(X), X une variable alatoire, la fonction sera suppose mesurable. Similairement, on
dira quune fonction : R
n
R est mesurable si
1
(A) B(R
n
), pour tout A B(R).
40
CHAPITRE 3. VARIABLES ALATOIRES
La mesure de probabilit P
X
contient toute linformation ncessaire pour tudier les
proprits statistiques de la variable alatoire X ; en particulier, si lon nest intress que
par cette variable alatoire, lespace probabilis de dpart (,T,P) peut tre compltement
ignor, et souvent nest mme pas spci, lespace probabilis pertinent tant (R,B,P
X
).
3.1.2 Variables alatoires dfectives
Il est parfois naturel dautoriser des variables alatoires prendre des valeurs innies.
Bien sr, ceci na dinuence que si la probabilit dobtenir une valeur innie est strictement
positive.
Dnition 3.1.2. Une variable alatoire X telle que P(X = ) > 0 est dite dfective.
Exemple 3.1.3. On jette une pice de monnaie jusqu ce que le nombre de pile et
de face obtenus soient gaux. On suppose que face sort avec probabilit p, indpen-
damment chaque lancer. On note le nombre de lancers eectus. est priori une
variable alatoire valeurs dans R+, = + correspondant une suite de lancers
o lgalit des pile et des face na jamais lieu.
La loi de peut facilement tre dduite du problme du ballot de lExemple 2.3.4. Bien
entendu, on ne peut avoir galit entre le nombre de face et de pile quaux temps
pairs. valuons donc la probabilit de lvnement = 2n. Une faon de procder est de
conditionner sur le nombre de face obtenus lors des premiers 2n essais :
P( = 2n) = P( = 2n[ n face lors des 2n premiers lancers)
_
2n
n
_
p
n
(1 p)
n
.
On vrie immdiatement que, conditionnellement au fait davoir n face lors des 2n
premiers lancers, toutes les sries de 2n lancers compatibles sont quiprobables. La probabi-
lit conditionnelle est donc gale la probabilit quau cours du dpouillement des bulletins
dune lection lors de laquelle chacun des deux candidats reoit n votes, un des deux can-
didats ait toujours t en avance avant que le dernier bulletin ne soit lu (et mette les deux
candidats galit). En conditionnant sur le rsultat du dernier bulletin, on voit facilement
que la probabilit conditionnelle recherche est gale P(n,n 1) (dans les notations de
lExemple 2.3.4). Par consquent, la loi de est donne par
P( = 2n) =
_
2n
n
_
p
n
(1 p)
n
P(n,n 1) =
_
2n
n
_
p
n
(1 p)
n
2n 1
.
videmment P( < ) =

n1
P( = 2n) 1. On vrie facilement partir de la
formule ci-dessus que le maximum de cette probabilit est atteinte si et seulement si p =
1
2
,
ce qui implique que est dfective pour tout p ,=
1
2
.
Il nest pas immdiat de calculer P( < ) laide de la formule ci-dessus lorsque
p = 1/2. On verra cependant au Chapitre 7 que P( < ) = 1 lorsque p = 1/2, et que
nest donc pas dfective.
Sauf mention explicite du contraire, nous supposerons toujours les variables alatoires
non dfectives.
41
3.1. DFINITIONS
F
X
1
3
4
4
x
Figure 3.2: La fonction de rpartition de la variable alatoire X de lExemple 3.1.4.
3.1.3 Fonction de rpartition dune variable alatoire
La loi P
X
dune variable alatoire est une mesure de probabilit sur R, et nous avons
vu que ces dernires sont caractrises par leur fonction de rpartition. Il est donc naturel
dassocier toute variable alatoire sa fonction de rpartition.
Dnition 3.1.3. La fonction de rpartition dune variable alatoire X est la fonction de
rpartition associe sa loi, cest--dire la fonction F
X
: R [0,1] dnie par
F
X
(x) = P
X
_
(,x]
_
= P(X x).
Exemple 3.1.4. On jette successivement 2 pices ; = PP,PF,FP,FF. Supposons quun
joueur mise sa fortune de 1 CHF au jeu suivant bas sur cette exprience alatoire :
chaque fois que face sort, sa fortune double, mais si pile sort, il perd tout. La variable
alatoire X donnant sa fortune la n du jeu est donne par
X(PP) = X(PF) = X(FP) = 0, X(FF) = 4.
La fonction de rpartition de cette variable alatoire est donne par (cf. Fig. 3.2)
F
X
(x) =
_

_
0 si x < 0,
3
4
si 0 x < 4,
1 si x 4.
Lemme 3.1.1. Soit X une variable alatoire de fonction de rpartition F
X
. Alors,
1. P(X > x) = 1 F
X
(x),
2. P(x < X y) = F
X
(y) F
X
(x),
3. P(X = x) = F
X
(x) lim
yx
F
X
(y).
Dmonstration. Les deux premires armations sont immdiates. Pour la troisime, on
considre les vnements A
n
= x
1
n
< X x. Puisque lim
n
A
n
= X = x, il suit
du Lemme 2.1.2 que
P(X = x) = lim
n
P(A
n
) = lim
n
_
F
X
(x) F
X
(x
1
n
)
_
,
par le point 2. (la limite existe par monotonicit de F
X
).
42
CHAPITRE 3. VARIABLES ALATOIRES
Dvelopper la thorie pour des variables alatoires gnrales requiert des outils de
thorie de la mesure, que lon ne dveloppera pas dans ce cours ; nous nous contenterons
den donner un aperu dans la Section 3.8. Dans la suite, nous allons principalement nous
concentrer sur deux types particulirement importants de variables alatoires : les variables
alatoires discrtes, et les variables alatoires densit.
3.2 Variables alatoires discrtes
Dnition 3.2.1. Une variable alatoire discrte est une variable alatoire prenant une
quantit dnombrable
1
de valeurs direntes.
Soit X : R une variable alatoire discrte, et notons X() lensemble dnombrable
des valeurs prises par X. Dans ce cas, la loi P
X
est caractrise par les valeurs P
X
(x),
x X(), comme cela a t discut dans la Section 2.2.2.
Dnition 3.2.2. La fonction de masse dune variable alatoire discrte X est la fonction
f
X
: R [0,1] donne par f
X
(x) = P(X = x).
La fonction de masse satisfait donc f
X
(x) = 0 pour tout x , X().
Lemme 3.2.1. Soit X une variable alatoire discrte. Alors,
1. F
X
(x) =

yX():yx
f
X
(y) ;
2. si x et y sont deux points conscutifs de X(), alors F
X
est constante sur [x,y) ;
3. la hauteur du saut en x X() est donne par f
X
(x).
Dmonstration. 1. F
X
(x) = P
X
_
(,x]
_
= P
X
_
y X() : y x
_
.
2. Soient x < y deux points conscutifs de X(). Alors, pour tout x z < y, il suit
du point 1. que
F
X
(z) F
X
(x) =

uX():x<uz
f
X
(u) = 0,
puisque X() (x,y) = .
3. Soit x X(). Il suit du Lemme 3.1.1 que la hauteur du saut en x est donne par
F
X
(x) lim
yx
F
X
(y) = P(X = x) = f
X
(x).
Exemple 3.2.1. On veut modliser un jeu de chettes. La cible est donne par le disque
de rayon 1, not D
1
. On suppose pour simplier que le joueur est assur de toucher la
cible quelque part. De plus, on suppose que la probabilit que la chette se retrouve dans
une rgion A D
1
est proportionelle la surface [A[ de A ( nouveau, il est impossible
1. Ici et dans la suite, nous emploierons le qualicatif dnombrable pour tout ensemble dont les lments
peuvent tre numrots (cest--dire tel quil existe une injection de lensemble dans N), que lensemble
soit ni ou inni.
43
3.2. VARIABLES ALATOIRES DISCRTES
1
9
4
9
1
1
F
X
1
2 3
Figure 3.3: La fonction de rpartition de la variable alatoire X
1
de lExemple 3.2.1
.
de dnir une surface pour tous les sous-ensembles de D
1
; on le fait pour une algbre de
bons sous-ensembles, par exemple celle obtenue partir des rectangles, puis on ltend par
Carathodory la tribu B(D
1
) engendre par cette algbre). On a donc
= D
1
=
_
(x,y) R
2
: x
2
+y
2
< 1
_
,
muni de sa tribu borlienne B(D
1
), et, pour pour A B(D
1
), on a
P(A) =
[A[
[D
1
[
=
1

[A[.
Supposons prsent que la cible soit dcompose en trois anneaux concentriques, A
1
,A
2
et
A
3
, de rayons
1
3
,
2
3
et 1,
A
k
=
_
(x,y) D
1
:
k 1
3

_
x
2
+y
2
<
k
3
_
.
Le joueur reoit k points si la chette tombe dans lanneau A
k
, ce qui correspond la
variable alatoire
X
1
() = k, si = (x,y) A
k
.
La probabilit que la chette sarrte dans lanneau A
k
est donne par [A
k
[/ = (2k1)/9.
La fonction de rpartition de X
1
est donc donne par (cf. Fig. 3.3)
F
X
1
(x) = P(X
1
x) =
_

_
0 si x < 1,
1
9
si 1 x < 2,
4
9
si 2 x < 3,
1 si 3 x.
44
CHAPITRE 3. VARIABLES ALATOIRES
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
Figure 3.4: Loi binomiale pour n = 20, p = 0,5 (gauche) et n = 20, p = 0,1 (droite).
3.2.1 Exemples importants de variables alatoires discrtes
On prsente ici quelques-unes des lois discrtes les plus importantes. Elles sont intro-
duites partir de leur fonction de masse, et il est laiss en exercice de vrier que celles-ci
sont proprement normalises (cest--dire de somme 1).
Variable alatoire constante
Une variable alatoire X est dite constante sil existe c tel que P(X = c) = 1.
Loi de Bernoulli
La loi dune variable alatoire X : 0,1, avec f
X
(1) = p, f
X
(0) = 1 p, p [0,1],
est appele loi de Bernoulli de paramtre p. On crit X bernoulli(p).
On parle souvent dpreuve de Bernoulli, et les vnements X = 1 et X = 0 sont
respectivement appels succs et chec.
Exemple 3.2.2. 1. Un lancer pile ou face est une preuve de Bernoulli.
2. Si A T, la fonction indicatrice de A, 1
A
: 0,1, dnie par
1
A
() =
_
1 si A,
0 si , A,
est une variable alatoire discrte suivant une loi de Bernoulli de paramtre P(A).
Loi binomiale
Rptons n fois de manire indpendante une preuve de Bernoulli de paramtre p, et
notons X la variable alatoire reprsentant le nombre de succs obtenus lissue des n
preuves. La loi de X est appele loi binomiale de paramtres n et p ; X binom(n, p).
45
3.2. VARIABLES ALATOIRES DISCRTES
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
Figure 3.5: Loi de Poisson pour = 1 (gauche) et = 5 (droite).
Puisquil y a
_
n
k
_
faons dobtenir k succs sur n preuves, on voit que la fonction de masse
associe cette loi est donne par
f
X
(k) =
_
n
k
_
p
k
(1 p)
nk
, k 0, . . . ,n.
Loi de Poisson
Une variable alatoire X suit une loi de Poisson
2
de paramtre > 0, X poisson(),
si elle prend ses valeurs dans N, et la fonction de masse associe est donne par
f
X
(k) =

k
k!
e

, k = 0,1,2, . . .
Considrons une variable alatoire X suivant une loi binomiale de paramtres n et p, avec
n trs grand et p trs petit (modlisant par exemple la transmission dun gros chier via
internet : n est la taille en bits du chier, et p la probabilit quun bit donn soit modi
pendant la transmission). Alors X suit approximativement une loi de Poisson de paramtre
= np (cest ce quon appelle parfois la loi des petits nombres). Plus prcisment,
f
X
(k) =
_
n
k
_
p
k
(1 p)
nk
=
1
k!
n
n
n 1
n
n 2
n

n k + 1
n
(np)
k
(1 p)
nk
.
prsent, en prenant, k x, les limites n ,p 0 de telle sorte que np , on voit
que chacun des rapports converge vers 1, que (np)
k
converge vers
k
, que (1p)
n
converge
vers e

, et que (1 p)
k
tend vers 1. Par consquent,
lim
n
p0
np
f
X
(k) =

k
k!
e

,
pour chaque k = 0,1,2, . . .
2. Simon Denis Poisson (1781, Pithiviers 1840, Sceaux), mathmaticien, gomtre et physicien fran-
ais.
46
CHAPITRE 3. VARIABLES ALATOIRES
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
Figure 3.6: Loi gomtrique pour p = 0,2 (gauche) et p = 0,5 (droite).
Loi gomtrique
Rptons de faon indpendante une preuve de Bernoulli de paramtre p jusqu ce
que le premier succs ait lieu. La variable alatoire X correspondant au temps du premier
succs suit la loi gomtrique de paramtre p ; X geom(p). La fonction de masse associe
est donc donne par
f
X
(k) = p(1 p)
k1
, k = 1,2, . . .
Une proprit remarquable de la loi gomtrique est sa perte de mmoire.
Lemme 3.2.2. Soit X une variable alatoire suivant une loi gomtrique. Alors, pour tout
k 1,
P(X = n +k [ X > n) = P(X = k) n.
Dmonstration. On a
P(X = n +k [ X > n) =
P(X = n +k)
P(X > n)
=
p(1 p)
n+k1

m>n
p(1 p)
m1
,
et le dnominateur est gal (1 p)
n

m>0
p(1 p)
m1
= (1 p)
n
.
Cette proprit dit par exemple que mme si le numro 6 nest pas sorti pendant 50
semaines conscutives la loterie, cela ne rend pas sa prochaine apparition plus probable.
Loi hypergomtrique
Une urne contient N balles, dont b sont bleues et r = N b sont rouges. Un chan-
tillon de n balles est tir de lurne, sans remise. On vrie facilement que le nombre B
de balles bleues dans lchantillon suit la loi hypergomtrique de paramtres N, b et n,
B hypergeom(N, b, n), dont la fonction de masse est
3
f
B
(k) =
_
b
k
__
N b
n k
___
N
n
_
, k (n r) 0, . . . ,b n.
3. On utilise les notations usuelles : a b = max(a,b) et a b = min(a,b).
47
3.2. VARIABLES ALATOIRES DISCRTES
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
0
0.005
0.01
0.015
0.02
0.025
0.03
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
Figure 3.7: Loi de Pascal dans le cas k +r = 20 pour p = 0,5 (gauche) et p = 0,1 (droite).
Lemme 3.2.3. Pour tout 0 k n,
lim
N,b
b/Np
f
B
(k) =
_
n
k
_
p
k
(1 p)
nk
.
Dmonstration. Exercice.
Ce lemme montre quil est possible de remplacer la loi hypergomtrique de paramtres
N,b et n par une loi binomiale de paramtres n et p = b/N ds que la taille n de lchan-
tillon est susamment petite par rapport la taille N de la population. Ceci est intuitif,
puisque si lon eectue un tirage avec remise dun petit chantillon partir dune grande
population, il y a trs peu de chances de tirer le mme individu deux fois... Dans la pratique,
on remplace la loi hypergomtrique ds que 10n < N. Un exemple classique concerne le
sondage. On considre frquemment le sondage de n personnes comme n sondages indpen-
dants alors quen ralit le sondage est exhaustif (on ninterroge jamais deux fois la mme
personne). Comme n (nombre de personnes interroges) < N(population sonde)/10, cette
approximation est lgitime.
Loi de Pascal
Si X reprsente le nombre dchecs avant le r
me
succs dune suite dpreuves de
Bernoulli, alors X suit la loi de Pascal de paramtres r et p, X pascal(r, p), dont la
fonction de masse est
f
X
(k) =
_
k +r 1
k
_
p
r
(1 p)
k
, k = 0,1, . . .
Dans certaines applications, il est utile dautoriser le paramtre r prendre des valeurs
relles positives pas ncessairement entires. Dans ce cas, on parle de loi binomiale ngative
de paramtre r et p.
48
CHAPITRE 3. VARIABLES ALATOIRES
3.3 Variables alatoires densit
Dans ce cours, toutes les intgrales
_
A
f(x) dx,
seront prises au sens de Lebesgue, avec A B(R) et f une fonction Lebesgue-intgrable.
Nous dcrirons brivement ce concept dans la Section 3.8. Pour le moment, il sut dinter-
prter les formules au sens de lintgrale de Riemann
4
, et la notion de Lebesgue-intgrabilit
comme la condition minimale pour pouvoir dnir lintgrale de Lebesgue. Lorsquelles
existent toutes deux, les intgrales de Lebesgue et Riemann concident, et comme nous le
verrons plus loin, la classe des fonctions Lebesgue-intgrables est beaucoup, beaucoup plus
grande que celle des fonctions Riemann-intgrables (et contient toutes les fonctions dont
la valeur absolue est Riemann intgrable).
Nous nous permettrons galement dinterchanger sans discussion lordre dintgration
lorsque nous aurons faire des intgrales multiples. Le Thorme de Fubini, justiant
nos calculs, est galement nonc dans la Section 3.8 (Thorme 3.8.3).
Finalement, nous emploierons la terminologie suivante, explique elle aussi dans la
Section 3.8 : une proprit est vrie presque partout (p.p.) si lensemble des points o
elle nest pas vrie est de mesure de Lebesgue nulle ; ceci signie quil est possible de
recouvrir ce dernier par une union dnombrable dintervalles disjoints de longueur totale
arbitrairement petite.
Dnition 3.3.1. Une variable alatoire X est densit sil existe une fonction Lebesgue-
intgrable positive f
X
telle que
P(X A) =
_
A
f
X
(x) dx,
pour tout A B. f
X
est la densit (de probabilit) de X.
Remarque 3.3.1. 1. Insistons sur le fait que la valeur f
X
(x) nest pas une probabilit
(en particulier, f
X
(x) peut tre plus grande que 1). Par contre, il peut tre utile de
penser f
X
(x)dx comme la probabilit que X [x,x + dx].
2. Lorsquelle existe, la densit dune variable alatoire nest pas unique : par exemple,
changer la valeur dune densit f sur un ensemble de mesure de Lebesgue nulle ne
change pas la valeur de lintgrale. Toutefois, deux densits direntes f
1
,f
2
de X
concident presque partout.
Lemme 3.3.1. Soit X une variable alatoire de densit f
X
et de fonction de rpartition
F
X
. Alors
1.
_
R
f(x) dx = 1 ;
2. F
X
(x) =
_
(,x]
f
X
(y) dy ;
4. Georg Friedrich Bernhard Riemann (1826, Breselenz - 1866, Selasca), mathmaticien allemand.
49
3.3. VARIABLES ALATOIRES DENSIT
3. P(X = x) = 0, pour tout x R.
Dmonstration. 1. On a, par dnition,
1 = P(X R) =
_
R
f(x) dx.
2. F
X
(x) = P(X x) = P
_
X (,x]
_
=
_
(,x]
f
X
(y) dy.
3. Cela suit du Lemme 3.1.1, puisque 2. implique que F
X
est continue
5
.
Dnition 3.3.2. Une fonction de rpartition F est dite absolument continue sil existe
une fonction positive Lebesgue-intgrable f telle que
F(y) =
_
(,y]
f(x) dx,
pour tout y R. f est la densit associe F.
Remarque 3.3.2. La continuit absolue dune fonction de rpartition est strictement plus
forte que sa continuit. On peut fabriquer des fonctions F (assez pathologiques) qui sont
continues, mais pas absolument continues. Les variables alatoires correspondantes sont
dites singulires.
Remarque 3.3.3. Comme mentionn prcdemment, il ny a pas unicit de la densit
associe une fonction de rpartition F (ou une variable alatoire). Cependant, on choisira
une densit f telle que f(x) = F
t
(x) en tout point o F est direntiable. En fait, il est
possible de montrer quune fonction de rpartition absolument continue F est direntiable
presque partout. Comme la valeur de lintgrale ne dpend pas de changements eectus sur
un ensemble de mesure nulle, on peut choisir un reprsentant canonique pour la densit,
en prenant f(x) = F
t
(x) en tout point o F est direntiable, et f(x) = 0 (par exemple)
ailleurs.
Exemple 3.3.1. Revenons lExemple 3.2.1 du jeu de chettes. On suppose prsent
que le score du joueur est donn par la distance entre le centre de la cible et la position de
la chette. Ceci correspond la variable alatoire
X
2
() =
_
x
2
+y
2
, si = (x,y).
5. Cela nest pas compltement vident si f
X
nest pas borne. Une faon de procder est la suivante.
On xe > 0. Pour n 1, on introduit f
n
= min(f
X
,n). On a alors f
n
f lorsque n . Par le
Thorme de convergence monotone (Thorme 3.8.2), on a que
_
R
f
n
(x)dx
_
R
f
X
(x)dx. On peut donc
trouver n assez grand pour que
_
R
(f
X
(x) f
n
(x)) < . On a alors, en notant la mesure de Lebesgue (cf.
Sous-section 3.8.1),
_
A
f
X
(x)dx =
_
A
(f
X
(x) f
n
(x))dx +
_
A
f
n
(x)dx
_
R
(f
X
(x) f
n
(x))dx + n(A) + n(A) 2,
pour tout A B tel que (A) = /n. La continuit suit, puisque ([x,x + ]) .
50
CHAPITRE 3. VARIABLES ALATOIRES
1
F
X
2
1
Figure 3.8: La fonction de rpartition de la variable alatoire X
2
de lExemple 3.3.1
.
Clairement, pour 0 x < 1, P(X
2
x) = [D
x
[/[D
1
[ = x
2
, o D
x
est le disque de rayon
x. Par consquent, la fonction de rpartition de X
2
est donne par (cf. Fig. 3.8)
F
X
2
(x) = P(X
2
x) =
_

_
0 si x < 0,
x
2
si 0 x < 1,
1 si 1 x.
Exemple 3.3.2. On continue avec le jeu de chettes. On va supposer prsent que le
joueur touche la cible avec probabilit p [0,1]. Son score est alors calcul comme suit :
sil touche la cible, son score est gal la distance entre le centre de la cible et la position
de la chette, cest--dire est donn par la variable alatoire X
2
de lExemple 3.3.1. Sil
rate la cible, son score est de 2. Notons X
3
cette variable alatoire. On a alors, par la loi
de la probabilit totale,
P(X
3
x) = P(X
3
x[ cible touche)P(cible touche)
+P(X
3
x[ cible rate)P(cible rate)
= pF
X
2
(x) + (1 p)1
x2
.
Par consquent, la fonction de rpartition de X
3
est (cf. Fig. 3.9)
F
X
3
(x) =
_

_
0 si x < 0,
p x
2
si 0 x < 1,
p si 1 x < 2,
1 si 2 x.
On voit que X
3
est un mlange de variables alatoires discrtes et densit. En gnral, une
variable alatoire sera le mlange dune variable alatoire discrte, dune variable alatoire
densit et dune variable alatoire singulire.
51
3.3. VARIABLES ALATOIRES DENSIT
1
F
X
3
1 2
p
Figure 3.9: La fonction de rpartition de la variable alatoire X
3
de lExemple 3.3.2
.
3.3.1 Exemples importants de variables alatoires densit
On prsente ici quelques-unes des lois densit les plus importantes. Elles sont intro-
duites partir de leur densit, et il est laiss en exercice de vrier que ses densits sont
proprement normalises (cest--dire dintgrale 1).
Loi uniforme
X est uniforme sur [a,b], not X U(a, b), si elle a densit
f
X
(x) =
1
[b a[
1
[a,b]
(x).
Ceci correspond grossirement dire que X prend nimporte quelle valeur entre a et b avec
la mme probabilit.
Loi exponentielle
X est exponentielle de paramtre > 0, X exp() si elle admet pour densit
f
X
(x) = e
x
1
[0,)
(x).
Cette loi joue aussi un rle central dans la thorie des processus markoviens temps
continu. Elle peut tre vue comme limite de la distribution gomtrique, et apparat dans
la pratique pour la description du temps dattente entre deux vnements imprdictibles
(appels tlphoniques, tremblements de terre, mission de particules par dsintgration
radioactive, etc.). Considrons une suite dpreuves de Bernoulli eectues aux temps
, 2,3, . . ., et soit W le temps du premier succs. Alors
P(W > k) = (1 p)
k
.
Fixons prsent un temps t > 0. Jusquau temps t, il y aura eu approximativement k = t/
preuves. On veut laisser tendre vers 0. Pour que le rsultat ne soit pas trivial, il faut
52
CHAPITRE 3. VARIABLES ALATOIRES
5 4 3 2 1 0 1 2 3 4 5
0
0,05
0,1
0,15
0,2
0,25
0,3
Figure 3.10: Loi uniforme sur [2,2].
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
1,2
Figure 3.11: Loi exponentielle pour = 1.
53
3.3. VARIABLES ALATOIRES DENSIT
5 4 3 2 1 0 1 2 3 4 5
0
0,1
0,2
0,3
0,4
Figure 3.12: Loi normale : = 0,
2
= 1 (bleu), = 0,
2
= 2 (magenta) et = 1,
2
= 1 (vert).
galement que p tende vers 0 de faon ce que p/ tende vers une constante > 0. Dans
ce cas,
P(W > t) = P(W >
t

) (1 )
t/
e
t
.
Il est aussi ais de voir (exercice) que la loi exponentielle possde la mme proprit de
perte de mmoire que la loi gomtrique, cf. Lemme 3.2.2.
Loi normale
Il sagit sans doute de la loi la plus importante, de par son ubiquit ( cause du thorme
central limite, que lon tudiera plus tard). X suit une loi normale (ou gaussienne) de
paramtres et
2
, X A(,
2
), si elle a densit
f
X
(x) (x) =
1

2
2
exp
_

(x )
2
2
2
_
,
pour tout x R. Lorsque = 0 et
2
= 1, on parle de loi normale standard. La fonction de
rpartition de la loi normale standard est habituellement note .
Loi gamma
X suit la loi gamma de paramtres ,t > 0, X gamma(, t), si elle a densit
f
X
(x) =
1
(t)

t
x
t1
e
x
1
[0,)
(x),
54
CHAPITRE 3. VARIABLES ALATOIRES
0 1 2 3 4 5
0
0,5
1
1,5
2
2,5
1
2
3
4
5
Figure 3.13: Loi Gamma pour = 0.5 et diverses valeurs de t.
o est la fonction gamma,
(t) =
_

0
x
t1
e
x
dx.
Lorsque =
1
2
, et t =
1
2
d, d entier, on dit que X suit la loi du
2
d degrs de libert.
Cette distribution joue un rle important en statistiques.
Loi de Cauchy
X suit la loi de Cauchy
6
, X cauchy, si elle a densit
f
X
(x) =
1
(1 +x
2
)
,
pour tout x R.
Cette loi a un certain nombre de proprits pathologiques , et apparat souvent dans
des contre-exemples.
Loi bta
X suit une loi beta de paramtres a,b > 0, X beta(a, b), si elle a densit
f
X
(x) =
1
B(a,b)
x
a1
(1 x)
b1
1
[0,1]
(x),
6. Augustin Louis, baron Cauchy (1789, Paris 1857, Sceaux), mathmaticien franais.
55
3.3. VARIABLES ALATOIRES DENSIT
5 4 3 2 1 0 1 2 3 4 5
0
0,1
0,2
0,3
0,4
Figure 3.14: Loi de Cauchy.
Figure 3.15: Loi bta pour diverses valeurs de a et b.
56
CHAPITRE 3. VARIABLES ALATOIRES
o B(a,b) est la constante de normalisation. On peut montrer que
B(a,b) =
(a)(b)
(a +b)
.
Si a = b = 1, X est uniforme sur [0,1].
La distribution bta est trs utilise en statistiques bayesiennes.
Loi de Student
X suit une loi de Student
7
ou loi t degrs de libert, X student(), si elle a densit
f
X
(x) =
(( + 1)/2)

(/2)
(1 +
x
2

)
(+1)/2
,
pour x R.
Cette distribution apparat dans le problme de lestimation de la moyenne dune po-
pulation normalement distribue lorsque lchantillon est petit. Cest la base des clbres
tests de Student en statistiques.
Loi de Weibull
X suit une loi de Weibull
8
de paramtres , > 0 si elle a densit
f
X
(x) = x
1
e
x

1
[0,)
(x).
Lorsque = 1, on retrouve la distribution exponentielle.
La loi de Weibull est trs populaire dans les modles statistiques en abilit. Elle est
galement utilise, par exemple, pour analyser les signaux reus par les radars, ou dans
les rseaux de communication sans l. Dun point de vue plus thorique, elle joue un rle
important dans lanalyse des valeurs extrmes lors dexpriences alatoires.
3.4 Indpendance de variables alatoires
Rappelons que deux vnements A et B sont indpendants si loccurrence de A na pas
dinuence sur la probabilit de ralisation de B; mathmatiquement, nous avons traduit
cela par la proprit P(A B) = P(A)P(B). Nous aimerions prsent dnir une notion
similaire dindpendance entre deux variables alatoires, correspondant lide intuitive
que la connaissance de la valeur prise par une variable alatoire na pas dinuence sur la
distribution de lautre variable alatoire.
7. William Sealy Gosset (1876, Canterbury 1937, Beaconseld), connu sous le pseudonyme Student,
chimiste et statisticien irlandais. Employ de la brasserie Guinness pour stabiliser le got de la bire, il a
ainsi invent le clbre test de Student.
8. Ernst Hjalmar Waloddi Weibull (1887, ? ? ? 1979, Annecy), ingnieur et mathmaticien sudois.
57
3.4. INDPENDANCE DE VARIABLES ALATOIRES
Dnition 3.4.1. Deux variables alatoires X et Y sur un espace probabilis (,T,P) sont
indpendantes si et seulement si les vnements
X A et Y B
sont indpendants pour tout A,B B. Plus gnralement, une famille de variables alatoi-
res (X
i
)
iI
est indpendante si les vnements
X
i
A
i
, i J,
sont indpendants pour tout A
i
B, i J, et tout J I ni.
Le rsultat suivant montre quil est susant de vrier lindpendance pour des en-
sembles de la forme (,x], x R.
Lemme 3.4.1. La famille (X
i
)
iI
de variables alatoires est indpendante si et seulement
si les vnements
X
i
x
i
, i J,
sont indpendants pour tout x
i
R, i J, et tout J I ni.
Dmonstration. Le cas discret sera fait en exercice. On admettra le cas gnral.
Intuitivement, si linformation procure par une variable alatoire X ne nous renseigne
pas sur une autre variable alatoire Y , alors il doit en tre de mme pour des fonctions de
X et Y . Cest ce que montre le lemme suivant.
Lemme 3.4.2. Soient (X
i
)
iI
une famille de variables alatoires indpendantes, et (
i
)
iI
une famille de fonctions mesurables de R R. Alors la famille
(
i
(X
i
))
iI
est galement indpendante.
Dmonstration.
i
tant mesurable,
1
i
(A) B pour tout A B. Par consquent, il suit
de lindpendance de la famille (X
i
)
iI
que
P(
i
(X
i
) A
i
, i J) = P(X
i

1
i
(A
i
), i J) =

iJ
P(X
i

1
i
(A
i
))
=

iJ
P(
i
(X
i
) A
i
).
Dnition 3.4.2. Une famille de variables alatoires (X
i
)
iI
est dite i.i.d. ( indpen-
dantes et identiquement distribues) si elle est indpendante et tous les X
i
ont la mme
loi.
58
CHAPITRE 3. VARIABLES ALATOIRES
3.5 Vecteurs alatoires
Soient X et Y deux variables alatoires sur un mme espace probabilis (,T,P). Leurs
fonctions de rpartition F
X
et F
Y
encodent toute linformation ncessaire une tude
statistique de chacune des variables. Par contre, elles ne fournissent aucune information
sur les proprits relativement lune lautre.
Exemple 3.5.1. On demande deux lves de faire deux jets pile ou face chacun, et de
relever les rsultats. Llve appliqu jette deux fois la pice, obtenant une paire (X
1
,X
2
).
Llve paresseux ne jette la pice quune fois et crit le rsultat deux fois, obtenant une
paire (Y
1
,Y
2
) avec Y
1
= Y
2
. Il est clair que X
1
, X
2
, Y
1
, Y
2
sont toutes des variables alatoires
de mme loi, et en particulier F
X
1
= F
X
2
= F
Y
1
= F
Y
2
. Or ces couples ont des proprits
satistiques trs direntes : P(X
1
= X
2
) =
1
2
, P(Y
1
= Y
2
) = 1.
Une faon de rsoudre ce problme est de considrer X et Y non pas comme deux
variables alatoires, mais comme les composantes dun vecteur alatoire (X,Y ) prenant ses
valeurs dans R
2
.
Exemple 3.5.2. Si lon considre lvolution dun grain de pollen dans un liquide, la
position au temps t du grain de Pollen est donn par un vecteur alatoire (X,Y,Z), dont
les composantes sont les variables alatoires correspondant aux trois coordonnes.
Exemple 3.5.3. On eectue n lancers pile ou face. On peut reprsenter les rsultats
obtenus laide dun vecteur alatoire (X
1
, . . . ,X
n
), o X
i
est la variable alatoire prenant
la valeur 1 ou 0 selon quun pile ou un face a t obtenu au i
me
jet. Le nombre de pile
sexprime alors comme la variable alatoire X
1
+ +X
n
.
3.5.1 Loi conjointe et fonction de rpartition conjointe
Comme pour les variables alatoires, un vecteur alatoire induit naturellement une
mesure de probabilit sur (R
n
,B(R
n
)).
Dnition 3.5.1. On appelle loi conjointe du vecteur alatoire X = (X
1
, . . . ,X
n
) la mesure
de probabilit sur (R
n
,B(R
n
)) dnie par
P
X
(A) = P(X A), A B(R
n
).
Tout comme sa fonction de rpartition encode toute linformation sur une variable
alatoire, la fonction de rpartition conjointe encode celle dun vecteur alatoire. An de
simplier les notations, si x = (x
1
, . . . ,x
n
) et y = (y
1
, . . . ,y
n
), on crira x y lorsque
x
i
y
i
, i = 1, . . . ,n.
Dnition 3.5.2. Soient X = (X
1
, . . . ,X
n
) un vecteur alatoire sur un espace probabilis
(,T,P). On appelle fonction de rpartition conjointe de X la fonction F
X
: R
n
[0,1]
dnie par
F
X
(x) = P(X x), x R
n
.
59
3.5. VECTEURS ALATOIRES
Remarque 3.5.1. La fonction de rpartition conjointe F
X
caractrise la loi de X. Consid-
rons pour simplier X = (X
1
,X
2
). Alors la probabilit P
X
([a,b][c,d]) = P(X
1
[a,b], X
2

[c,d]) = P(X
1
b, X
2
d) P(X
1
b, X
2
c) P(X
1
a, X
2
d) +P(X
1
a, X
2
c),
et par consquent F
(X
1
,X
2
)
permet de dterminer la probabilit des produits dintervalles ;
un rsultat de thorie de la mesure montre que cela caractrise de faon unique la mesure
P
(X
1
,X
2
)
.
Les fonctions de rpartition conjointes possdent des proprits tout fait analogues
celles des fonctions de rpartition.
Lemme 3.5.1. La fonction de rpartition conjointe F
X
dun vecteur alatoire X satisfait
1. lim
x
i
,i=1,...,n
F
X
(x) = 0, lim
x
i
+,i=1,...,n
F
X
(x) = 1 ;
2. lim
x
k
+
F
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
) = F
(X
1
,...,X
k1
,X
k+1
,...,X
n
)
(x
1
, . . . ,x
k1
,x
k+1
, . . . ,x
n
) ;
3. si x
1
x
2
, alors F
X
(x
1
) F
X
(x
2
) ;
4. F
X
est continue par au-dessus, dans le sens que
lim
u0
F
X
(x +u) = F
X
(x).
Dmonstration. Laisse en exercice.
La seconde armation du lemme montre quil est possible de rcuprer la fonction de
rpartition de nimporte quelle composante dun vecteur alatoire : on a par exemple
F
X
1
(x
1
) = lim
x
2
,...,x
n
+
F
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
).
Dnition 3.5.3. Soit X = (X
1
, . . . ,X
n
) un vecteur alatoire. Alors, les fonctions de
rpartition F
X
i
, i = 1, . . . ,n, sont appeles fonctions de rpartition marginales de F
X
.
Il est possible de caractriser simplement lindpendance de variables alatoires en
termes de leur fonction de rpartition conjointe.
Lemme 3.5.2. La famille X
1
, . . . ,X
n
de variables alatoires est indpendante si et seule-
ment si
F
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
) = F
X
1
(x
1
) F
X
n
(x
n
), (x
1
, . . . ,x
n
) R
n
.
Dmonstration. Larmation suit du Lemme 3.4.1, puisque X x = X
1
x
1

X
n
x
n
.
Comme pour les variables alatoires, deux classes de vecteurs alatoires sont particu-
lirement intressantes : les vecteurs alatoires discrets, et les vecteurs alatoires densit.
60
CHAPITRE 3. VARIABLES ALATOIRES
3.5.2 Vecteurs alatoires discrets
Dnition 3.5.4. Un vecteur alatoire (X
1
, . . . ,X
n
) est discret sil prend ses valeurs dans
un sous-ensemble dnombrable de R
n
.
Comme pour les variables alatoires discrtes, la loi conjointe dun vecteur alatoire X
est caractrise par la fonction de masse conjointe.
Dnition 3.5.5. La fonction de masse conjointe dun vecteur alatoire discret X =
(X
1
, . . . ,X
n
) est la fonction f
X
: R
n
[0,1] dnie par
f
X
(x) = P(X = x), x R
n
.
Lindpendance de la famille X
1
, . . . ,X
n
se formule aisment en termes de la fonction
de masse conjointe du vecteur correspondant.
Lemme 3.5.3. La famille X
1
, . . . ,X
n
de variables alatoires discrtes est indpendante si
et seulement si
f
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
) = f
X
1
(x
1
) f
X
n
(x
n
), (x
1
, . . . ,x
n
) R
n
.
Dmonstration. Supposons X
1
, . . . ,X
n
indpendantes. Alors, on a
f
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
) = P(X
1
= x
1
, . . . , X
n
= x
n
)
= P(X
1
= x
1
) P(X
n
= x
n
)
= f
X
1
(x
1
) f
X
n
(x
n
).
Rciproquement, si la fonction de masse se factorise,
P(X
1
= x
1
, . . . , X
n
= x
n
) = f
X
1
,...,X
n
(x
1
, . . . ,x
n
) = f
X
1
(x
1
) f
X
n
(x
n
)
= P(X
1
= x
1
) P(X
n
= x
n
).
Dnition 3.5.6. tant donn une fonction de masse conjointe f
X
1
,...,X
n
, on appelle fonc-
tions de masse marginales les fonctions de masse f
X
i
.
Le lemme suivant montre comment on peut rcuprer les fonctions de masse marginales
partir de la fonction de masse conjointe.
Lemme 3.5.4.
f
X
i
(x
i
) =

x
1
,...,x
i1
,x
i+1
,...,x
n
f
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
).
Dmonstration. Laisse en exercice.
61
3.5. VECTEURS ALATOIRES
3.5.3 Vecteurs alatoires densit
Dnition 3.5.7. Un vecteur alatoire X = (X
1
, . . . ,X
n
) est densit sil existe une
fonction positive Lebesgue-intgrable f
X
: R
n
R telle que
P(X A) =
_
A
f
X
(x
1
, . . . ,x
n
) dx
1
dx
n
, A B(R
n
).
f
X
est la densit conjointe du vecteur alatoire X.
Remarque 3.5.2. 1. On peut montrer quil sut de vrier la condition pour des en-
sembles A de la forme (,x
1
] (,x
n
], x
1
, . . . ,x
n
R. En dautres termes,
il sut de vrier que
F
X
(x
1
, . . . ,x
n
) =
_
x
1


_
x
n

f
X
(y
1
, . . . ,y
n
) dy
1
dy
n
, x
1
, . . . ,x
n
R.
2. nouveau, il ny a pas unicit de la densit conjointe, et on choisira toujours une
version de f
X
satisfaisant f
(X
1
,...,X
n
)
(x
1
, . . . ,x
n
) =

n
x
1
x
n
F
X
(x
1
, . . . ,x
n
), en chaque
point o la fonction de rpartition conjointe est susamment direntiable.
3. Il peut nouveau tre utile dinterprter f
X
(x
1
, . . . ,x
n
) dx
1
dx
n
comme la proba-
bilit P(X
1
[x
1
,x
1
+ dx
1
], . . . , X
n
[x
n
,x
n
+ dx
n
]).
Les densits des composantes dun vecteur alatoire X peuvent aisment tre extraites
de la densit conjointe.
Lemme 3.5.5. Soit X = (X
1
, . . . ,X
n
) un vecteur alatoire densit. Alors, pour tout
1 k n,
f
X
k
(x
k
) =
_

dx
1

_

dx
k1
_

dx
k+1

_

dx
n
f
X
(x
1
, . . . ,x
n
).
Dnition 3.5.8. Les densits f
X
k
, 1 k n, dun vecteur alatoire X = (X
1
, . . . ,X
n
)
sont appeles ses densits marginales.
Lindpendance de variables alatoires peut se caractriser simplement en termes de
leur densit conjointe.
Lemme 3.5.6. Soit X = (X
1
, . . . ,X
n
) un vecteur alatoire densit. Les variables ala-
toires X
1
, . . . ,X
n
sont indpendantes si et seulement si
f
X
(x
1
, . . . ,x
n
) = f
X
1
(x
1
) f
X
n
(x
n
),
pour presque tout (x
1
, . . . ,x
n
).
Dmonstration. Pour tout x
1
, . . . ,x
n
R, il suit du Lemme 3.5.2 que
F
X
(x
1
, . . . ,x
n
) = P(X
1
x
1
, . . . ,X
n
x
n
) = P(X
1
x
1
) P(X
n
x
n
)
=
_
x
1


_
x
n

f
X
1
(y
1
) f
X
n
(y
n
) dy
1
dy
n
,
et par consquent f
X
1
(x
1
) f
X
n
(x
n
) est une densit de P
X
.
62
CHAPITRE 3. VARIABLES ALATOIRES
Exemple 3.5.4. Retournons une fois de plus lexemple du jeu de chettes ; =
D
1
=
_
(x,y) R
2
: x
2
+y
2
< 1
_
. On considre les quatre variables alatoires suivantes :
X() = x, Y () = y, R() =
_
x
2
+y
2
et () = atan(y/x). Ainsi les vecteurs alatoires
(X,Y ) et (R,) correspondent la position de la chette en coordonnes cartsiennes et
polaires, respectivement. Dterminons leurs lois conjointes, ainsi que les lois de ces quatre
variables alatoires.
Pour le couple (X,Y ), on a
P((X,Y ) A) = [A D
1
[/ =
_

1
x
2
+y
2
<1
1
A
dxdy,
et donc f
X,Y
(x,y) =
1

1
x
2
+y
2
<1
. La loi de X est obtenue en prenant la marginale corres-
pondante,
f
X
(x) =
_
1
1
1

1
x
2
+y
2
<1
dy =
1

_

1x
2

1x
2
dy =
2

_
1 x
2
,
pour 1 < x < 1 et 0 sinon. De la mme faon, f
Y
(y) =
2

_
1 y
2
. En particulier, on
voit que f
(X,Y )
(x,y) ,= f
X
(x)f
Y
(y), et donc X et Y ne sont pas indpendantes.
Pour le couple (R,), on a
P((R,) A) = [A D
1
[/ =
_

1
0r<1,0<2
1
A
rdrd,
do lon tire la densit conjointe f
R,
(r,) =
r

1
0r<1,0<2
. La densit de R est donc
donne par
f
R
(r) =
r

_
2
0
d = 2r,
si 0 r < 1 et 0 sinon. Pour ,
f

() =
1

_
1
0
rdr =
1
2
,
si 0 < 2 et 0 sinon. On a donc f
(R,)
(r,) = f
R
(r)f

(), et R et sont indpendan-


tes.
Finalement, si X = (X
1
, . . . ,X
n
) est un vecteur alatoire densit, et : R
n
R
n
possde de bonnes proprits, le thorme suivant permet de dterminer la loi conjointe
du vecteur alatoire (X) en termes de f
X
.
Soient U R
n
un ouvert, et : U R
n
, (x) = (
1
(x), . . . ,
n
(x)). On dit que
est continuement direntiable si les drives partielles
i
/x
j
existent et sont continues
sur U. On note D

(x) = (
i
(x)/x
j
)
1i,jn
la matrice Jacobienne, J

(x) = det D

(x)
le Jacobien, et V = (U).
Thorme 3.5.1. Soient U R
n
un ouvert, et : U V une application continuement
direntiable et bijective, telle que J

(x) ,= 0, pour tout x U. Alors, pour toute fonction


Lebesgue-intgrable f : V R, on a
_
U
f((x)) [J

(x)[ dx
1
dx
n
=
_
V
f(y) dy
1
dy
n
.
63
3.5. VECTEURS ALATOIRES
Dmonstration. Dans le cas o f est susamment rgulire, il sagit simplement du rsultat
classique sur les changements de variables. La preuve lorsque f est une fonction Lebesgue-
intgrable quelconque repose sur la construction de lintgrale de Lebesgue, et nous ne la
ferons pas ici.
Corollaire 3.5.1. On considre un vecteur alatoire X = (X
1
, . . . ,X
n
) valeurs dans un
ouvert U R
n
, et une application : R
n
R
n
comme dans le thorme prcdent. Alors
la densit conjointe du vecteur alatoire Y = (X) est donne par
f
Y
(y) = f
X
(
1
(y)) [J

1(y)[.
Dmonstration. Soit A V . On a
P(Y A) = P((X) A) = P(X
1
(A)) =
_

1
(A)
f
X
(x) dx
1
dx
n
.
Une application du thorme lintgrale du membre de droite (attention, on lapplique
la transformation inverse
1
) donne donc
P(Y A) =
_
A
f
X
(
1
(y)) [J

1(y)[ dy
1
dy
n
,
do le rsultat suit.
On en dduit immdiatement le rsultat suivant, trs important, sur la loi dune somme
de variables alatoires.
Lemme 3.5.7. Soient X,Y deux variables alatoires densit. Alors la loi de leur somme
est donne par
f
X+Y
(u) =
_

f
(X,Y )
(x,u x) dx.
En particulier, si X et Y sont indpendantes, la densit de X + Y est donne par la
convolution des densits de X et Y ,
f
X+Y
(u) =
_

f
X
(x)f
Y
(u x) dx.
Dmonstration. On considre lapplication : R
2
R
2
donne par (x,y) = (x,x + y).
Elle satisfait toutes les hypothses du Corollaire prcdent. On a donc
f
(X,X+Y )
(u,v) = f
(X,Y )
(u,v u),
puisque le Jacobien vaut 1. Par consquent la premire armation suit en prenant la
seconde marginale,
f
X+Y
(v) =
_

f
(X,Y )
(u, v u) du.
Si X et Y sont indpendantes, leur densit conjointe se factorise et la seconde armation
suit.
64
CHAPITRE 3. VARIABLES ALATOIRES
Une autre consquence utile (et immdiate) du Corollaire prcdent est le rsultat
suivant.
Lemme 3.5.8. Soit X une variable alatoire densit et a,b R, a ,= 0. La densit de la
variable alatoire aX +b est donne par
f
aX+b
(y) =
1
[a[
f
X
_
(y b)/a
_
.
Dmonstration. Laisse en exercice.
On dduit immdiatement des deux lemmes prcdents limportant rsultat suivant.
Lemme 3.5.9. Soient X
1
et X
2
deux variables alatoires indpendantes de loi A(
1
,
2
1
)
et A(
2
,
2
2
) respectivement. La variable alatoire X
1
+X
2
suit une loi A(
1
+
2
,
2
1
+
2
2
).
Dmonstration. Soient Y
1
= X
1

1
et Y
2
= X
2

2
; par le lemme 3.5.8, ces variables
suivent respectivement les lois A(0,
2
1
) et A(0,
2
2
). Une application du Lemme 3.5.7 montre
que la densit de la variable alatoire Y
1
+Y
2
est donne par
1
2
_

2
1

2
2
_
R
exp
x
2
2
2
1

(z x)
2
2
2
2
dx.
Puisque

2
2
x
2
+
2
1
(z x)
2
= (
_

2
1
+
2
2
x

2
1
z
_

2
1
+
2
2
)
2
+

2
1

2
2

2
1
+
2
2
z
2
,
lintgration sur x montre que cette densit est bien celle dune variable alatoire de loi
A(0,
2
1
+
2
2
), et donc X
1
+X
2
suit bien une loi A(
1
+
2
,
2
1
+
2
2
).
Vecteurs alatoires gaussiens
Nous allons voir prsent un exemple particulirement important de vecteur alatoire.
Si x,y R
n
, on note leur produit scalaire x,y.
Dnition 3.5.9. Un vecteur alatoire X = (X
1
, . . . , X
n
) : R
n
est un vecteur alatoire
gaussien si les variables alatoires a, X suivent des lois normales, pour tout a R
n
.
Lemme 3.5.10. Les proprits suivantes sont vries pour tout vecteur gaussien X =
(X
1
, . . . , X
n
) : R
n
.
1. X
i
est une variable alatoire gaussienne pour chaque i = 1, . . . , n.
2. Si A : R
n
R
n
est une application linaire, le vecteur AX : R
n
est un vecteur
gaussien.
Dmonstration. La premire armation suit en prenant a = e
i
dans la Dnition 3.5.9.
Pour la seconde armation, il sut dobserver que, pour tout a R
n
,
a, AX = A
t
a, X
est bien gaussien.
65
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Remarque 3.5.3. La rciproque de la premire armation est fausse : un vecteur ala-
toire dont chaque composante est gaussienne nest pas ncessairement gaussien. Nous le
verrons sur un exemple plus tard (Exemple 3.6.8).
Exemple 3.5.5. Un exemple de vecteur alatoire gaussien est le vecteur (X
1
, . . . ,X
n
)
compos de n variables alatoires indpendantes suivant des lois normales. En eet, a
1
X
1
+
+a
n
X
n
est une somme de variables alatoires normales, et donc, par le Lemme 3.5.9,
suit galement une loi normale.
Il suit de lexemple prcdent et du Lemme 3.5.10 que limage dun vecteur (X
1
, . . . ,X
n
)
compos de n variables alatoires indpendantes suivant des lois normales sous laction
dune transformation linaire A est galement un vecteur gaussien. En particulier, on ob-
tient la classe suivante de vecteur alatoires gaussiens.
Lemme 3.5.11. Soient = (
1
, . . . ,
n
) R
n
et C = (C
ij
) une matrice nn symtrique
dnie positive. Le vecteur alatoire X = (X
1
, . . . , X
n
) de densit conjointe
f
X
(x) =
1
_
(2)
n
det C
exp
_

1
2
x , C
1
(x )
_
, (3.1)
est un vecteur gaussien. On dira quun tel vecteur suit une loi A(,C).
Dmonstration. Puisque C
1
est symtrique, on peut trouver une matrice orthogonale O
et une matrice diagonale D telles que C
1
= O
t
DO. Par consquent, en posant Y =
O(X), on voit que les variables alatoires Y
1
, . . . ,Y
n
sont indpendantes, et suivent des
lois normales. Par lexemple prcdent, le vecteur Y est donc gaussien. Par consquent, il
suit du point 2. du Lemme 3.5.10 que X est gaussien.
3.6 Esprance, variance, covariance et moments
3.6.1 Esprance
On rpte N fois une exprience, obtenant ainsi les rsultats numriques x
1
, . . . , x
N
.
La moyenne de ces rsultats est donne par
m =
1
N
N

i=1
x
i
=

xE
N(x)
N
x,
o lon a not E lensemble des valeurs possibles (suppos discret) et N(x) le nombre
dexpriences ayant donn le nombre x. Supposons quon modlise cette exprience par
une famille X
1
, . . . ,X
n
de variables alatoires discrtes de mme fonction de masse f.
On sattend alors ce que, pour chaque valeur x E, la fraction N(x)/N soit proche
de la probabilit f(x). Par consquent,

xE
xf(x) devrait fournir une approximation
asymptotiquement correcte de m; on appelle la quantit correspondante esprance.
66
CHAPITRE 3. VARIABLES ALATOIRES
Dnition 3.6.1. Soit X une variable alatoire discrte et soit f
X
sa fonction de masse.
On dit que X admet une esprance si

xX()
[x[f
X
(x) < .
Dans ce cas on dnit lesprance de X par
E(X) =

xX()
xf
X
(x).
Soit X une variable alatoire avec densit f
X
. On dit que X admet une esprance si
_
R
[x[f
X
(x) dx < .
Dans ce cas on dnit lesprance de X par
E(X) =
_
R
xf
X
(x) dx.
Remarque 3.6.1. Les conditions dabsolue sommabilit sont importantes : dans le cas
discret, elle assure que lesprance ne dpend pas de lordre dans lequel les termes sont
somms. Dans le cas densit, elle est ncessaire la dnition mme de lintgrale au
sens de Lebesgue (cf. Section 3.8).
La seule exception est lorsque la variable alatoire possde un signe bien dni. Dans
ce cas, si cette dernire nest pas absolument sommable, on dnit lesprance comme tant
gale +, resp. , pour une variable alatoire positive, resp. ngative.
Exemple 3.6.1. videmment, les variables alatoires dfectives ont toujours une esprance
innie, ou indnie. Cependant, des variables alatoires nies trs naturelles possdent une
esprance innie. Cest le cas, par exemple, de la variable alatoire de lExemple 3.1.3
dans le cas dune pice quilibre, p =
1
2
. On a vu que, pour ce choix de p, est presque
srement nie.
Par la formule de Stirling et le calcul de la loi de eectu prcdemment, on voit
que f

(2n) cn
3/2
, pour une constante c > 0 et tout n 1. Par consquent, E() =

n1
2nf

(2n) 2c

n1
n
1/2
= .
Ainsi, lors dune srie de lancers dune pice quilibre, le nombre moyen de lancers
ncessaires avant que le nombre de face et de pile obtenus ne concident est inni !
Nous navons dni ici lesprance que pour des variable alatoire discrtes et densit.
La dnition gnrale sera donne dans la Section 3.8. Les proprits et dnitions donnes
ci-dessous restent vraies dans le contexte gnral.
On voit que ces deux dnitions sont formellement les mmes si on interprte f
X
(x)dx
comme P(X [x,x + dx]).
Le rsultat lmentaire suivant est extrmement utile.
67
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Lemme 3.6.1. Soit A,B T. Alors, P(A) = E(1
A
) et P(A B) = E(1
A
1
B
).
Dmonstration. Laisse en exercice.
Remarque 3.6.2. On utilise souvent lesprance pour dterminer si un jeu est quitable :
si X reprsente le gain la n du jeu (donc une perte sil est ngatif ), alors lesprance
donne le gain moyen. En particulier, on pourrait tre tent de dire quun jeu vaut la peine
dtre jou si E(X) > 0 puisquen moyenne on gagne plus quon ne perd. Il faut cependant
se mer de cette intuition. Supposons que je cache une pice de 2 francs dans une de mes
mains et vous invite payer un droit de participation au jeu suivant : vous choisissez une
de mes mains, et si celle-ci contient la pice, elle est vous, sinon je garde votre mise.
Quelle devrait tre la mise pour que le jeu soit quitable ? Il semble quune mise de 1 franc
soit un bon compromis : aprs tout, cela correspond au gain moyen. Mais considrez
prsent la situation suivante : si au lieu de cacher 2 francs, je cache 1000 francs, quelle
serait une mise quitable ? Il semble peu probable que des personnes aux revenus modestes
soient prtes risquer 500 francs pour pouvoir jouer !
Une autre faon de se convaincre de cela est de considrer le jeu suivant (trs discut au
dbut du XVIII
me
sicle) : on jette une pice de monnaie jusqu lapparition du premier
face ; si cela a lieu au T
me
lancer, votre gain sera de 2
T
francs. Quelle serait une
mise quitable ? Vous pouvez vrier que lesprance est innie ! Cest le clbre paradoxe
de Saint-Ptersbourg.
Dmontrons prsent quelques proprits lmentaires de lesprance.
Lemme 3.6.2. 1. (Linarit) E(X +Y ) = E(X) +E(Y ).
2. X 0 = E(X) 0.
3. Si P(X = c) = 1 pour un c R, alors E(X) = c.
4. E([X[) [E(X)[.
Dmonstration. 1. On commence par le cas o X et Y sont des variables alatoires dis-
crtes. On crit, avec E = X(), F = Y (), et U = u = x +y : x E,y F,
E(X +Y ) =

uU
uP(X +Y = u)
=

uU
u

xE,yF
x+y=u
P(X = x,Y = y)
=

xE,yF
(x +y)P(X = x,Y = y)
=

xE
x

yF
P(X = x, Y = y) +

yF
y

xE
P(X = x, Y = y)
=

xE
xP(X = x) +

yF
yP(Y = y).
68
CHAPITRE 3. VARIABLES ALATOIRES
Dans le cas de variables alatoires densit, on a
E(X +Y ) =
_

uf
X+Y
(u) du
=
_

duu
_

dxf
X,Y
(x, u x) (Lemme 3.5.7)
=
_

dx
_

duuf
X,Y
(x, u x)
=
_

dx
_

dy (y +x)f
X,Y
(x, y) (y = u x)
=
_

dxxf
X
(x) +
_

dy yf
Y
(y) (Lemme 3.5.5)
=
1

dxxf
X
(x/) +
1

dy yf
Y
(y/) (Lemme 3.5.8)
= E(X) +E(Y ).
2. et 3. sont immdiats. 4. suit de lingalit triangulaire : Par exemple, dans le cas
densit,

xf
X
(x) dx

_
0

xf
X
(x) dx +
_

0
xf
X
(x) dx


_
0

xf
X
(x) dx +
_

0
xf
X
(x) dx
=
_

0
x
_
f
X
(x) +f
X
(x)
_
dx
=
_

0
xf
[X[
(x) dx,
puisque f
[X[
(x) = f
X
(x) +f
X
(x) pour x > 0 (en eet, P([X[ A) = P(X A) +P(X
A), pour tout A B(R
+
)) et 0 sinon.
Exemple 3.6.2. Soit X une variable alatoire. On dsire trouver le nombre a R qui
approxime le mieux X dans le sens quil rend la quantit E((X a)
2
) minimale. On a
E((X a)
2
) = E(X
2
) 2aE(X) +a
2
.
En drivant, on voit que la valeur de a ralisant le minimum satisfait 2E(X) + 2a = 0,
ce qui implique que a = E(X).
Exemple 3.6.3. On appelle triangle dun graphe, un triplet de sommets x,y,z tels que
x y, y z et z x. Quel est lesprance du nombre de triangles K
.
dans le graphe
alatoire ((n,m) ? Il suit de la linarit et du Lemme 3.6.1 que
E(K
.
) = E
_

x,y,z
distincts
1
xy,yz,zx
_
=

x,y,z
distincts
P(x y, y z, z x).
69
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Loi Esprance Variance
Bernoulli (p) p p(1 p)
Binomiale (n,p) np np(1 p)
Poisson ()
Gomtrique (p) 1/p (1 p)/p
2
Hypergomtrique (N,b,n) bn/N nb(N b)(N n)/(N
3
N
2
)
Pascal (r,p) r(1 p)/p. r(1 p)/p
2
Uniforme (a,b) (a +b)/2 (b a)
2
/12
Exponentielle () 1/ 1/
2
Normale (,
2
)
2
Gamma (,t) t/ t/
2
Cauchy Pas dnie Pas dnie
Beta (a,b) a/(a +b) ab/[(a +b)
2
(a +b + 1))]
Table 3.1: Lesprance et la variance de quelques lois importantes, en fonction de leurs paramtres.
Comme P(x y, y z, z x) =
_
N3
m3
_
/
_
N
m
_
et que le nombre de termes dans la somme
est
_
n
3
_
, on en conclut que
E(K
.
) =
_
n
3
_
m(m1)(m2)
N(N 1)(N 2)
.
Donnons prsent lesprance pour les lois introduites plus tt dans ce chapitre.
Lemme 3.6.3. La table 3.1 donne la valeur de lesprance pour diverses lois, en fonction
de leurs paramtres.
Dmonstration. 1. Loi de Bernoulli. Lesprance dune variable alatoire X suivant une
loi de Bernoulli de paramtre p sur 0,1 est immdiate calculer :
E(X) = 1 p + 0 (1 p) = p.
2. Loi binomiale. La faon la plus simple de calculer lesprance dune variable alatoire
X suivant une loi binomiale de paramtres n et p est dutiliser le Lemme 3.6.2, point
1. On peut en eet crire X = X
1
+. . .+X
n
, o les X
i
sont des variables de Bernoulli.
En dautres termes, on exprime X comme le nombre total de succs aprs n preuves
de Bernoulli. On a alors
E(X) =
n

i=1
E(X
i
) = np.
3. Loi de Poisson. Lesprance dune variable alatoire X suivant une loi de Poisson est
donne par
E(X) =

k=0
k

k
k!
e

= e

k=1

k1
(k 1)!
= .
70
CHAPITRE 3. VARIABLES ALATOIRES
4. Loi gomtrique. Lesprance dune variable alatoire X de loi gomtrique est donne
par la srie
E(X) =

k=1
kp(1 p)
k1
.
Pour en calculer la somme, introduisons la fonction
G(x) =

k=1
x
k
=
x
1 x
.
Cette srie converge absolument lorsque [x[ < 1, et, dans ce cas, il est possible
dinterchanger sommation et drivation. Par consquent,
G
t
(x) =
1
(1 x)
2
=

k=1
kx
k1
.
On a donc
E(X) = p G
t
(1 p) = p
1
p
2
=
1
p
.
5. Loi hypergomtrique. Nous calculerons lesprance dune variable hypergomtrique
dans lExemple 4.1.1.
6. Loi de Pascal. Si X suit une loi de Pascal de paramtres r et p, on peut la dcomposer
en X+r = X
1
+ +X
r
, o les X
i
suivent chacun une loi gomtrique de paramtre
p (la vrication est laisse en exercice). On a alors
E(X) = r +
r

i=1
E(X
i
) =
r
p
r.
7. Loi uniforme. Si X suit une loi U(a, b), alors E(X) =
1
ba
_
b
a
xdx =
a+b
2
.
8. Loi exponentielle. Dans ce cas, E(X) =
_

0
xe
x
dx =
_

0
e
x
dx =
1
.
9. Loi normale. Soit X de loi A(,
2
). La variable alatoire X suit une loi A(0,
2
),
et, par linarit et symtrie, E(X) = E(X ) + = .
10. Loi gamma. Il sut dobserver que
E(X) =

t
(t)
_

0
xx
t1
e
x
dx =
(t + 1)
(t)


t+1
(t + 1)
_

0
x
t+11
e
x
dx
=
(t + 1)
(t)
=
t

.
11. Loi de Cauchy. Pour x grand, xf
X
(x) = O(1/x). [x[f
X
nest donc pas intgrable, et
lesprance nexiste pas.
71
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
12. Loi bta. nouveau,
E(X) =
1
B(a,b)
_
1
0
xx
a1
(1 x)
b1
dx
=
B(a + 1,b)
B(a,b)

1
B(a + 1,b)
_
1
0
x
a+11
(1 x)
b1
dx
=
B(a + 1,b)
B(a,b)
=
a
a +b
.
Exemple 3.6.4. 1. On vous propose le jeu suivant : on vous tend deux enveloppes en
vous informant que le montant contenu dans lune est le double du montant contenu
dans lautre, et vous devez en choisir une. Expliquez en quoi le raisonnement suivant
est faux : soit X le montant contenu dans lenveloppe que vous avez dcid de tirer ;
lesprance de vos gains si vous changez davis est de
1
2
X/2 +
1
2
2X =
5
4
X > X, et
donc vous feriez mieux de choisir lautre enveloppe (et bien sr, on peut alors rpter
cet argument une fois que vous avez choisi lautre enveloppe).
2. Je place dans chacune de deux enveloppes un papier sur lequel est crit un nombre
entier (positif ou ngatif ) arbitraire, mais dirent dans chaque enveloppe. Vous ga-
gnez si vous parvenez tirer le nombre le plus grand. Vous pouvez choisir une des
enveloppes et louvrir, et ensuite dcider si vous prfrez garder lenveloppe choisie,
ou prendre plutt lautre. Montrez quil existe un algorithme de dcision (changer ou
non denveloppe en fonction du nombre dcouvert) qui vous permet de choisir le plus
grand nombre strictement plus dune fois sur deux (dans le sens que si une innit
de personnes appliquaient toutes cette stratgie pour les mmes deux nombres, alors
la fraction de bonnes rponses serait strictement suprieure 1/2).
Lorsque X = (X
1
, . . . ,X
n
) est un vecteur alatoire, et : R
n
R est une fonction me-
surable, nous avons vu que (X) dnit une variable alatoire. Son esprance est aisment
calcule.
Lemme 3.6.4. Soit X = (X
1
, . . . ,X
n
) un vecteur alatoire et : R
n
R une fonction
mesurable. Alors on a
1. pour un vecteur alatoire discret,
E((X)) =

xX()
(x)f
X
(x),
ds que cette somme est absolument convergente ;
2. pour un vecteur alatoire densit,
E((X)) =
_
R
n
(x)f
X
(x) dx
1
. . . dx
n
,
72
CHAPITRE 3. VARIABLES ALATOIRES
Figure 3.16: En chaque point du graphe dune fonction convexe, il passe au moins une droite
restant toujours sous le graphe de la fonction.
ds que cette intgrale est absolument convergente.
Dmonstration. 1. Notons E = X(), F = (E) et Y = (X). On a
E(Y ) =

yF
y P(Y = y) =

yF
y P((X) = y)
=

yF
y P(X
1
(y)) =

yF
y

x
1
(y)
P(X = x)
=

yF,xE
(x)=y
y P(X = x) =

xE
(x) P(X = x).
Observez que la convergence absolue de la srie est cruciale pour pouvoir rorganiser les
termes comme on la fait.
2. La preuve dans le cas dune variable alatoire densit est plus complexe, largument
le plus naturel reposant sur la dnition gnrale de lesprance donne dans la Section 3.8.
Nous nous contenterons daccepter ce rsultat.
Dnition 3.6.2. Une fonction : R R est convexe si et seulement si : x R, a
R : y R, (y) (x)+a(y x) (cf. Fig. 3.16). Si lingalit est toujours stricte lorsque
y ,= x, alors on dit que est strictement convexe .
Thorme 3.6.1 (Ingalit de Jensen
9
). Soient X une variable alatoire admettant une
esprance et : R R une fonction convexe. Alors
E((X)) (E(X)),
avec galit si et seulement si P(X = E(X)) = 1, lorsque est strictement convexe.
9. Johan Ludwig William Valdemar Jensen (1859, Naksov 1925, Copenhague), mathmaticien et
ingnieur danois.
73
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Dmonstration. On utilise la dnition de la convexit de , avec y = X et x = E(X). On
a alors, pour un certain a R,
(X) (E(X)) +a(X E(X)).
En prenant lesprance de chacun des membres, on obtient bien
E((X)) (E(X)) +a(E(X) E(X)) = (E(X)).
3.6.2 Variance, moments dordre suprieurs
Dnition 3.6.3. On appelle E(X
n
) le moment dordre n de la variable alatoire X, pourvu
que cette esprance soit bien dnie.
Remarque 3.6.3. Si une variable alatoire possde un moment dordre n, alors elle possde
galement tous les moments dordre 1 k < n. En eet, lingalit de Jensen implique que
> E([X[
n
) = E
_
([X[
k
)
n/k
_
E([X[
k
)
n/k
,
puisque n/k > 1.
Remarque 3.6.4. En gnral, mme la donne de tous les moments dune variable ala-
toire ne sut pas pour dterminer sa loi. Cest le cas si cette variable alatoire possde
certaines bonnes proprits, que nous ne discuterons pas ici. Mentionnons simplement la
condition susante suivante : deux variables alatoires X,Y satisfaisant E(e
X
) < et
E(e
Y
) < , R, et telles que E(X
n
) = E(Y
n
), pour tout n N, ont la mme loi.
Une quantit particulirement importante est la variance. Si lesprance donne la valeur
moyenne de la variable alatoire, la variance (ou plutt sa racine carre, lcart-type) mesure
sa dispersion.
Dnition 3.6.4. Soit X une variable alatoire dont lesprance existe. On appelle variance
de X la quantit
Var(X) = E
_
_
X E(X)
_
2
_
(la variance de X peut tre innie). On appelle cart-type de X la quantit (X) =
_
Var(X).
Lemme 3.6.5. 1. Var(X) 0, et Var(X) = 0 si et seulement si P(X = E(X)) = 1.
2. Var(X) < si et seulement si E(X
2
) < .
3. Si Var(X) < , alors Var(X) = E(X
2
) (E(X))
2
.
4. Pour a,b R, Var(a +bX) = b
2
Var(X).
5. Si Var(X) < et Var(Y ) < , alors Var(X +Y ) < .
74
CHAPITRE 3. VARIABLES ALATOIRES
Dmonstration. 1. 4. sont vidents. Pour 5., on peut utiliser lobservation triviale que
(X +Y )
2
2X
2
+ 2Y
2
.
Lemme 3.6.6. La table 3.1 donne les variances des principales lois introduites prcdem-
ment.
Dmonstration. 1. Loi de Bernoulli. La variance dune variable alatoire X suivant une
loi de Bernoulli de paramtre p sur 0,1 est immdiate calculer :
Var(X) = E(X
2
) E(X)
2
= 1 p + 0 (1 p) p
2
= p(1 p).
2. Loi binomiale. Voir lExemple 3.6.6.
3. Loi de Poisson. Une faon de calculer la variance dune variable alatoire X suivant
une loi de Poisson est la suivante.
E
_
X(X 1)
_
=

k=0
k(k 1)

k
k!
e

= e

k=2

k2
(k 2)!
=
2
.
Par consquent, E(X
2
) E(X)
2
= E
_
X(X 1)
_
E(X)
2
+E(X) = .
4. Loi gomtrique. Le second moment dune variable alatoire X de loi gomtrique
est donn par la srie
E(X
2
) =

k=1
k
2
p(1 p)
k1
.
Pour en calculer la somme, on procde comme pour lesprance, en introduisant la
fonction
G(x) =

k=1
x
k
=
x
1 x
,
et en utilisant le fait que G (x) =
2
(1x)
3
=

k=1
k(k 1) x
k2
. Par consquent,
Var(X) = p(1 p)G (1 p) +
1
p

1
p
2
=
1 p
p
2
.
5. Loi hypergomtrique. Voir lExemple 4.1.1.
6. Loi de Pascal. Voir lExemple 3.6.6.
7. Loi uniforme. E(X
2
) =
1
ba
_
b
a
x
2
dx =
1
3
(a
2
+ ab + b
2
) ; le rsultat suit puisque
E(X) = (a +b)/2.
8. Loi exponentielle. E(X
2
) =
_

0
x
2
e
x
dx = 2/
2
; le rsultat suit puisque E(X) =
1/.
9. Loi normale. On peut supposer que X suit une loi A(0,1) (car Y = +X suit alors
une loi A(,
2
), et Var(Y ) =
2
Var(X)). On a Var(X) =
1

2
_

x
2
e
x
2
/2
dx =
1

2
_

x xe
x
2
/2
dx =
1

2
_

e
x
2
/2
dx = 1, par intgration par partie.
75
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
10. Loi gamma. En procdant comme pour lesprance,
E(X
2
) =
(t + 2)
(t)
2
=
t(t + 1)

2
.
Par consquent, Var(X) = t(t + 1)/
2
(t/)
2
= t/
2
.
11. Loi de Cauchy. Lesprance nexiste pas, et donc on ne peut pas dnir la variance
(observez, cependant, que le second moment existe, E(X
2
) = ).
12. Loi bta. En procdant comme pour lesprance,
E(X
2
) =
B(a + 2,b)
B(a,b)
=
a(a + 1)
(a +b)(a +b + 1)
,
et donc Var(X) = a(a +1)/(a +b)(a +b +1) a
2
/(a +b)
2
= ab/(a +b)
2
(a +b +1).
3.6.3 Covariance et corrlation
En gnral, Var(X +Y ) ,= Var(X) + Var(Y ) : en eet, un bref calcul montre que
Var(X +Y ) = Var(X) + Var(Y ) + 2E
_
(X E(X))(Y E(Y ))
_
.
Ceci motive la dnition suivante.
Dnition 3.6.5. On appelle covariance de deux variables alatoires X et Y la quantit
Cov(X,Y ) = E
_
(X E(X))(Y E(Y ))
_
= E(XY ) E(X)E(Y ).
En particulier,
Var(X +Y ) = Var(X) + Var(Y ) + 2Cov(X,Y ).
Deux variables alatoires X et Y sont non-corrles si Cov(X,Y ) = 0 ; dans ce cas, on a
Var(X +Y ) = Var(X) + Var(Y ).
Attention : la variance nest pas un oprateur linaire, mme restreint aux variables
alatoires non-corrles (se souvenir que Var(aX) = a
2
Var(X)).
Lemme 3.6.7. 1. Cov(X,Y ) = Cov(Y,X).
2. La covariance est une forme bilinaire : pour a,b R,
Cov(aX,bY ) = a b Cov(X,Y ),
Cov(X
1
+X
2
,Y ) = Cov(X
1
,Y ) + Cov(X
2
,Y ).
3. Pour des variables X
1
, . . . ,X
n
, on a
Var(
n

i=1
X
i
) =
n

i=1
Var(X
i
) +

i,=j
Cov(X
i
,X
j
).
76
CHAPITRE 3. VARIABLES ALATOIRES
Dmonstration. Laisse en exercice.
En statistiques, une autre quantit est souvent utilise pour mesurer la corrlation entre
deux variables alatoires.
Dnition 3.6.6. On appelle coecient de corrlation de deux variables alatoires X et Y
de variances non-nulles la quantit
(X,Y ) =
Cov(X,Y )
_
Var(X)Var(Y )
.
Thorme 3.6.2 (Ingalit de Cauchy-Schwarz).
E(XY )
2
E(X
2
)E(Y
2
),
avec galit si et seulement si P(aX = bY ) = 1 pour des rels a et b dont au moins un est
non nul.
Dmonstration. On peut supposer que E(X
2
) ,= 0 et E(Y
2
) ,= 0 (sinon la variable alatoire
correspondante est gale 0 avec probabilit 1, et le thorme est trivial). Dans ce cas, on
a, pour a,b R,
a
2
E(X
2
) 2abE(XY ) +b
2
E(Y
2
) = E((aX bY )
2
) 0.
Par consquent, le membre de gauche est une fonction quadratique de la variable a san-
nulant en au plus un point. Ceci implique que son discriminant doit tre ngatif ou nul,
cest--dire
E(XY )
2
E(X
2
)E(Y
2
) 0.
Le discriminant est nul si et seulement si il y a un unique zro, ce qui ne peut avoir lieu
que sil existe a,b R tels que
E((aX bY )
2
) = 0.
Il suit de ce thorme que la valeur absolue du coecient de corrlation est gal 1 si
et seulement si il existe une relation linaire entre les variables alatoires.
Corollaire 3.6.1.
[(X,Y )[ 1,
avec galit si et seulement si P(Y = aX +b) = 1 pour des rels a et b.
Dmonstration. Il sut dappliquer lingalit de Cauchy-Schwarz aux variables alatoires
X E(X) et Y E(Y ).
77
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Considrons deux quantits alatoires (par exemple des rsultats de mesures), et sup-
posons que lon cherche rsumer la relation qui existe entre ces dernires laide dune
droite. On parle alors dajustement linaire. Comment calculer les caractristiques de cette
droite ? En faisant en sorte que lerreur que lon commet en reprsentant la liaison entre nos
variables par une droite soit la plus petite possible. Le critre formel le plus souvent utilis,
mais pas le seul possible, est de minimiser la somme de toutes les erreurs eectivement
commises au carr. On parle alors dajustement selon la mthode des moindres carrs. La
droite rsultant de cet ajustement sappelle une droite de rgression. Le rsultat suivant
montre que le coecient de corrlation mesure la qualit de la reprsentation de la relation
entre nos variables par cette droite.
Lemme 3.6.8. Pour toute paire de variables alatoires X et Y , on a
min
a,bR
E
_
(Y aX b)
2
_
= (1 (X,Y )
2
) Var(Y ),
et le minimum est atteint pour a = Cov(X,Y )/Var(X) et b = E(Y aX).
Dmonstration. Puisque
E
_
(Y aX b)
2
_
= E
_
(Y E(Y ) aX E(X) b +aE(X) E(Y ))
2
_
,
on peut supposer sans perte de gnralit que E(X) = E(Y ) = 0. On obtient alors
E
_
(Y aX b)
2
_
= a
2
Var(X) 2aCov(X,Y ) + Var(Y ) +b
2
,
et le membre de droite est minimum lorsque b = 0 et
a =
Cov(X,Y )
Var(X)
.
Exemple 3.6.5. En physiologie, la loi de Kleiber
10
arme que le mtabolisme M dun
animal et son poids P satisfont la relation
M P

,
avec souvent proche de 3/4 (alors que des arguments simples de dimensionalit sugg-
reraient plutt 2/3). An de vrier quune telle relation est valide pour une population
donne, on peut procder comme suit : puisque
M aP

log M log a +log P,


on se ramne, en posant X = log M et Y = log P, vrier quil y a une relation linaire
entre X et Y . Ceci peut se faire en calculant, partir dun chantillon, le coecient de
corrlation (X,Y ) . Lestimation des paramtres a et partir dun chantillon est du
ressort de la Statistique. Nous tudierons ce type de problmes dans le Chapitre 6.
10. Max Kleiber (1893, Zrich 1976, Davis), biologiste suisse.
78
CHAPITRE 3. VARIABLES ALATOIRES
3.6.4 Vecteurs alatoires
Les notions desprance et de covariance ont une extension naturelle aux vecteurs ala-
toires.
Dnition 3.6.7. Lesprance du vecteur alatoire X = (X
1
, . . . ,X
n
) est le vecteur E(X) =
(E(X
1
), . . . ,E(X
n
)), condition que chacune de ces esprances existe.
Dnition 3.6.8. Soient X = (X
1
, . . . ,X
n
) et Y = (Y
1
, . . . ,Y
n
) deux vecteurs alatoires.
Leur matrice de covariance est la matrice nn Cov(X,Y) dont llment i,j est donn par
Cov(X
i
,Y
j
),
pour 1 i,j n.
Le lemme suivant justie la notation A(,C) du Lemme 3.5.11.
Lemme 3.6.9. Soit X un vecteur gaussien de loi A(,C). Alors
E(X) = , Cov(X,X) = C.
Dmonstration. Elle se fait soit par simple intgration (exercice), soit, de faon plus l-
gante, laide des fonctions caractristiques, comme expliqu dans la Sous-section 4.2.2.
3.6.5 Absence de corrlation et indpendance
Voyons prsent quel est le lien entre indpendance et absence de corrlation.
Lemme 3.6.10. Deux variables alatoires indpendantes dont lesprance existe sont non-
corrles.
Dmonstration. On applique le Lemme 3.6.4 avec la fonction : R
2
R, (x,y) = xy.
Cela donne, dans le cas densit,
E(XY ) = E((X,Y )) =
_

(x,y)f
(X,Y )
(x,y) dxdy
=
_

(x,y)f
X
(x)f
Y
(y) dxdy
=
_

xyf
X
(x)f
Y
(y) dxdy = E(X)E(Y ).
La preuve est compltement similaire dans le cas discret.
Il suit que si X
1
, . . . ,X
n
sont indpendantes, alors la variance de leur somme est gale
la somme de leurs variances.
Exemple 3.6.6. 1. Loi binomiale. On a vu quune variable alatoire X suivant une loi
binomiale de paramtres n et p pouvait scrire X = X
1
+ +X
n
, o les X
i
sont des
variables de Bernoulli indpendantes de paramtre p. On obtient donc immdiatement
que
Var(X) = np(1 p).
79
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
2. Loi de Pascal. On a galement vu quune variable alatoire X suivant une loi de Pascal
de paramtres r et p pouvait scrire X+r = X
1
+ +X
r
, o les X
i
sont des variables
gomtriques indpendantes de paramtre p. On obtient donc immdiatement que
Var(X) = Var(X +r) = r
1 p
p
2
.
Nous avons vu que deux variables alatoires indpendantes sont toujours non-corrles.
La rciproque est fausse en gnral, comme le montre lexemple suivant.
Exemple 3.6.7. Considrons = 1,0,1 avec la distribution uniforme. Soient X() =
et Y () = [[ deux variables alatoires. Alors, E(X) = 0, E(Y ) = 2/3 et E(XY ) = 0.
Par consquent X et Y sont non-corrles. Elles ne sont par contre manifestement pas
indpendantes.
Il existe toutefois une classe importante de variables alatoires pour lesquelles il y a
quivalence entre ces deux notions.
Thorme 3.6.3. Les composantes dun vecteur alatoire gaussien X sont indpendantes
si et seulement si elles sont non-corrles.
Dmonstration. Nous dmontrerons ce thorme une fois la notion de fonction caractris-
tique introduite (cf. n de la Sous-section 4.2.2)
Exemple 3.6.8. Nous pouvons prsent donner un exemple de vecteur alatoire dont
chaque composante suit une loi normale, mais qui nest pas gaussien. Soit X une variable
alatoire de loi A(0,1), et une variable alatoire discrte, indpendante de X et telle que
P( = 1) = P( = 1) =
1
2
. On considre la variable alatoire Y = X. On vrie aisment
(exercice) que Y suit une loi A(0,1). X et Y ne sont manifestement pas indpendants ; par
contre,
E(XY ) = E(X
2
) = E()E(X
2
) = 0,
ce qui montre que X et Y sont non-corrles. Par consquent, le vecteur alatoire (X,Y )
nest pas gaussien.
Dire que X et Y sont indpendants est donc strictement plus fort en gnral que de
demander ce que E(XY ) = E(X)E(Y ). Le rsultat suivant montre comment il faut
renforcer cette dernire proprit pour obtenir lindpendance.
Lemme 3.6.11. Soit (X
i
)
iI
une famille de variables alatoires. Les propositions suivantes
sont quivalentes :
1. (X
i
)
iI
est indpendante ;
2.
i
: R R mesurable,
E
_

iJ

i
(X
i
)
_
=

iJ
E(
i
(X
i
)),
pour tout J I ni.
80
CHAPITRE 3. VARIABLES ALATOIRES
Dmonstration. Nous ne traitons que du cas continu. Le cas discret est analogue.
1. = 2. Cela suit immdiatement du Lemme 3.6.4 et de la factorisation de la densit
conjointe : pour tout J = i
1
, . . . , i
n
I,
E
_

iJ

i
(X
i
)
_
=
_
R
n

i
1
(x
1
)
i
n
(x
n
)f
(X
i
1
,...,X
i
n
)
(x
1
, . . . ,x
n
) dx
1
dx
n
=
_
R
n

i
1
(x
1
)
i
n
(x
n
)f
X
i
1
(x
1
) f
X
i
n
(x
n
) dx
1
dx
n
=

iJ
E(
i
(X
i
)).
2. = 1. En appliquant 2.
i
(y) = 1
yA
i

, on obtient
P(X
i
A
i
, i J) = E
_

iJ
1
X
i
A
i

_
=

iJ
E(1
X
i
A
i

) =

iJ
P(X
i
A
i
).
3.6.6 Esprance conditionnelle
Soient X et Y deux variables alatoires discrtes sur (,T,P). La notion de probabilit
conditionnelle P(A[ B), o A et B sont deux vnements, peut tre tendue la situation
o lon dsire dterminer la loi de Y tant donne la valeur prise par X.
Dnition 3.6.9. Soient X,Y deux variables alatoires discrtes. La fonction de masse
conditionnelle de Y sachant que X = x est la fonction f
Y [X
( [ x) : R [0,1] dnie par
f
Y [X
(y [ x) = P(Y = y [ X = x) =
f
(X,Y )
(x,y)
f
X
(x)
,
pour tout x tel que f
X
(x) > 0. La loi correspondante sappelle la loi conditionnelle de Y
sachant que X = x.
Soient X et Y deux variables alatoires possdant la densit conjointe f
(X,Y )
. On ai-
merait donner un sens la loi conditionnelle de Y sachant que X prend la valeur x. Le
problme est que la probabilit P(Y y [ X = x) nest pas dnie puisque lvnement
X = x a probabilit nulle. An de dterminer la gnralisation approprie, nous pouvons
procder comme suit. Soit x tel que f
X
(x) > 0 ; alors,
P(Y y [ x X x + dx) =
P(Y y, x X x + dx)
P(x X x + dx)

dx
_
y

f
(X,Y )
(x,v)dv
f
X
(x) dx
=
_
y

f
(X,Y )
(x,v)
f
X
(x)
dv.
En laissant dx 0, le membre de gauche converge vers ce que lon aimerait dnir comme
P(Y y [ X = x), et le membre de droite conduit donc la dnition suivante.
81
3.6. ESPRANCE, VARIANCE, COVARIANCE ET MOMENTS
Dnition 3.6.10. Soient X,Y deux variables alatoires avec densit conjointe f
(X,Y )
. La
densit conditionnelle de Y sachant que X = x est dnie par
f
Y [X
(y [ x) =
f
(X,Y )
(x,y)
f
X
(x)
,
pour tout x tel que f
X
(x) > 0. La loi correspondante sappelle la loi conditionnelle de Y
sachant que X = x.
Remarque 3.6.5. Soient X
1
et X
2
deux variables alatoires indpendantes de loi exp(1).
Quelle est la densit conditionnelle de X
1
+X
2
tant donn que X
1
= X
2
?
Premire solution : Soit Y
1
= X
1
+X
2
et Y
2
= X
1
/X
2
. Manifestement, X
1
= X
2
si et
seulement si Y
2
= 1. On vrie facilement (exercice) que la densit conditionnelle de Y
1
tant donn que Y
2
= 1 est donne par
f
Y
1
[Y
2
(y
1
[ 1) =
2
y
1
e
y
1
, y
1
0.
Deuxime solution : Soit Y
1
= X
1
+X
2
et Y
3
= X
1
X
2
. Manifestement, X
1
= X
2
si
et seulement si Y
3
= 0. On vrie facilement (exercice) que la densit conditionnelle de Y
1
tant donn que Y
3
= 0 est donne par
f
Y
1
[Y
3
(y
1
[ 0) = e
y
1
, y
1
0.
Il y a clairement un problme : les deux rponses obtenues sont direntes ! Lerreur
trouve sa source dans la question elle-mme : quentend-on par la condition X
1
= X
2
? Ce
dernier est un vnement de probabilit nulle, et il est crucial de dcrire prcisment de
quelle suite dvnements de probabilit positive il est la limite. Dans la premire solution,
on interprte essentiellement cet vnement comme X
1
X
2
(1 + )X
1
( petit),
alors que dans la seconde, on linterprte comme X
1
X
2
X
1
+ . Il convient donc
de dterminer au pralable quelle est linterprtation dsire, et cela dpend du problme
considr.
tant en possession dune notion de loi conditionnelle, on peut dnir lesprance condi-
tionnelle, comme tant lesprance sous la loi conditionnelle.
Dnition 3.6.11. Soient X,Y deux variables alatoires discrtes. On appelle esprance
conditionnelle de Y tant donn X la variable alatoire
E(Y [ X)() E(Y [ X = ) =

yY ()
y f
Y [X
(y [ ),
pourvu que

yY ()
[y[ f
Y [X
(y [ ) < .
Soient X et Y deux variables alatoires de densit conjointe f
(X,Y )
. Lesprance condi-
tionnelle de Y sachant X est la variable alatoire
E(Y [ X)() E(Y [ X = ) =
_
R
y f
Y [X
(y [ ) dy,
pourvu que
_
R
[y[ f
Y [X
(y [ ) dy < .
82
CHAPITRE 3. VARIABLES ALATOIRES
Insistons bien sur le fait que lesprance conditionnelle E(Y [ X) nest pas un nombre,
mais une variable alatoire ; il sagit, en fait, dune fonction de la variable alatoire X. Elle
possde limportante proprit suivante.
Lemme 3.6.12. Lesprance conditionnelle E(Y [ X) satisfait
E
_
E(Y [ X)
_
= E(Y ).
Plus gnralement, pour toute fonction mesurable telle que les esprances existent,
E(E(Y [ X)(X)) = E(Y (X)).
Dmonstration. La premire armation est un cas particulier de la seconde : il sut de
choisir 1. Dmontrons donc la seconde armation. Dans le cas discret, il suit du
Lemme 3.6.4 que
E
_
E(Y [ X) (X)
_
=

x,y
y f
Y [X
(y [ x) (x) f
X
(x)
=

x,y
y (x) f
(X,Y )
(x,y) = E(Y (X)).
Dans le cas densit, la preuve est formellement identique,
E(E(Y [ X)(X)) =
_
R
_
R
yf
Y [ X
(y [ x)dy (x)f
X
(x)dx
=
_
R
_
R
y(x)f
(X,Y )
(x,y)dxdy = E(Y (X)).
En dehors de ses applications immdiates, lintrt de ce rsultat est quon peut prendre
cette proprit comme dnition de lesprance conditionnelle, cette dernire tant la seule
fonction de X satisfaisant cette relation pour toutes les fonctions admissibles. Ceci permet
de dnir cette notion dans des situations beaucoup plus gnrales quici.
Exemple 3.6.9. Soient X
1
,X
2
, . . . des variables alatoires discrtes indpendantes desp-
rance , et N une variable alatoire prenant ses valeurs dans N

et indpendante des X
i
.
Alors, si S = X
1
+ +X
N
(somme dun nombre alatoire de termes), on a
E(S [ N)(n) =

s
s f
S[N
(s [ n) =

s
s
P(S = s,N = n)
P(N = n)
=

s
s
P(X
1
+ +X
n
= s,N = n)
P(N = n)
=

s
s
P(X
1
+ +X
n
= s)P(N = n)
P(N = n)
=

s
s P(X
1
+ +X
n
= s)
= E(X
1
+ +X
n
) = n.
83
3.7. DTERMINATION DE LA LOI DUNE VARIABLE ALATOIRE
Figure 3.17: La construction des intgrales de Riemann et Lebesgue.
Par consquent, E(S [ N) = N, et donc
E(S) = E(N).
3.7 Dtermination de la loi dune variable alatoire
Il existe plusieurs faons de dterminer la loi dune variable alatoire. : via le Corol-
laire 3.5.1, travers sa fonction de rpartition, ou encore par sa fonction caractristique
(voir Chapitre 4).
Comme exemple de lemploi de la fonction de rpartition, considrons une famille
X
1
, . . . ,X
n
de variables alatoires i.i.d. de loi exponentielle de paramtre . On dsire
dterminer les lois de max
i=1,...,n
X
i
et de min
i=1,...,n
X
i
. Manifestement, si y 0,
P( max
i=1,...,n
X
i
y) = P(X
1
y, . . . ,X
n
y) = P(X
1
y)
n
= (1 e
y
)
n
.
La densit du maximum de n variables exponentielles de paramtre indpendantes est
donc donne par
n(1 e
y
)
n1
e
y
1
y0
.
De faon similaire,
P( min
i=1,...,n
X
i
y) = 1 P(X
1
y, . . . ,X
n
y) = 1 e
ny
,
et donc la loi du minimum de n variables exponentielles de paramtre indpendantes est
une loi exponentielle de paramtre n.
3.8 Variables alatoires gnrales
Le but de cette section est de dcrire brivement lintgrale de Lebesgue, outil indispen-
sable pour la formulation gnrale de la thorie des probabilits. Nous nen ferons quun
survol, car son tude fait partie du cours de thorie de la mesure (Analyse III).
84
CHAPITRE 3. VARIABLES ALATOIRES
3.8.1 Intgration au sens de Lebesgue
Considrons le cas dune fonction f continue, positive, support compact. Lintgrale
de Riemann de f correspond prcisment laire comprise entre le graphe de f et laxe
des abscisses. La faon dont Riemann procde pour dnir son intgrale est de partitionner
le support de f en intervalles et de calculer les aires des sommes de Darboux correspon-
dantes, obtenant ainsi une minoration et une majoration de laire (cf. Fig. 3.17). Lorsque
la partition devient inniment ne, on montre que les sommes de Darboux
11
suprieure
et infrieure convergent vers une mme limite, que lon dnit comme tant lintgrale de
Riemann de f.
Lide de Lebesgue est de remplacer le dcoupage du support de f par un dcoupage
de son image (cf. Fig. 3.17). chaque intervalle [
i
,
i+1
] de limage, on associe lensemble
A
i
= x : f(x)
i+1
. La contribution associe lintervalle [
i
,
i+1
] est alors prise
comme tant (
i+1

i
)(A
i
), o (A
i
) est la mesure de Lebesgue de A
i
, quil convient
dinterprter comme tant sa longueur . Dans la limite dune partition inniment ne,
on obtient nouveau laire sous la courbe.
On voit donc quun premier problme avec cette approche est de donner un sens la
notion de longueur dun sous-ensemble de R, un problme tout fait analogue celui dj
rencontr dassocier une probabilit aux sous-ensembles de R.
Mesures
Nous voulons pouvoir associer tout sous-ensemble de R une longueur . Comme pour
le problme analogue de la construction dune probabilit, ceci nest possible en gnral
que pour un sous-ensemble strict des parties de R, les borliens de R, B(R).
Dnition 3.8.1. Une mesure sur une tribu T est une application : T

R
+
satisfaisant
1. () = 0 ;
2. (-additivit) pour toute famille A
1
,A
2
, . . . dlments de T deux--deux disjoints, on
a (

i=1
A
i
) =

i=1
(A
i
).
Exemple 3.8.1. 1. La mesure de Lebesgue est lunique mesure sur B(R) telle que
([a,b]) = b a, < a b < .
2. La masse de Dirac en a R est la mesure sur B(R) dnie par

a
(A) = 1
aA
.
Dnition 3.8.2. On dit quune proprit est vrie -presque partout si lensemble A
des points o elle nest pas vrie est de mesure nulle, (A) = 0. Si = , on dira
simplement presque partout au lieu de -presque partout .
Dnition 3.8.3. tant donn deux mesures
1
et
2
, on dnit la mesure
1
+
2
par
(
1
+
2
)(A) =
1
(A) +
2
(A), pour tout A B(R).
11. Jean Gaston Darboux (1842, Nmes - 1917, Paris), mathmaticien franais.
85
3.8. VARIABLES ALATOIRES GNRALES
Fonctions mesurables
Comme dj mentionn prcdemment, une fonction mesurable f : R dun espace
probabilisable (dans le contexte gnral, on dit plutt mesurable) (,T) vers (R,B(R)) est
une fonction telle que f
1
(A) T, pour tout borlien A. En fait, on peut montrer quil
sut que f
1
_
(, x]
_
T, pour tout x R. La classe des fonctions mesurables est trs
robuste.
Thorme 3.8.1. 1. Si f,g : (,T) (R,B(R)) sont mesurables et R, alors f,
f +g, et fg sont galement mesurables.
2. Si f
n
: (,T) (R,B(R)), n N, sont mesurables, alors sup
nN
f
n
, inf
nN
f
n
,
limsup
n
f
n
, liminf
n
f
n
sont galement mesurables, pourvu quelles prennent
leurs valeurs dans R.
3. Si f
n
: (,T) (R,B(R)), n N, sont mesurables et convergent ponctuellement vers
une fonction f valeurs dans R, alors f est mesurable.
4. Si f : (,T) (R,B(R)) et g : (R,B(R)) (R,B(R)) sont mesurables, alors g f
est mesurable.
Construction de lintgrale
Voyons prsent comment on construit rellement lintgrale de Lebesgue. La construc-
tion se fait pour des classes de fonctions de plus en plus gnrales. Soit une mesure sur
B(R).
Indicatrices. Soit A B(R). Lintgrale de la fonction indicatrice 1
A
est dnie par
_
R
1
A
(x) d(x) = (A).
Fonctions tages. On appelle fonction tage une fonction qui scrit comme combinai-
son linaire nie de fonctions indicatrices, f(x) =

n
i=1
a
i
1
A
i
(x), avec A
i
B(R), a
i
R,
i = 1, . . . ,n. Bien entendu, une fonction tage admet de multiples reprsentations (on na
pas exig que les a
i
soient tous distincts).
On montre facilement que toute fonction mesurable peut tre obtenue comme limite
croissante de fonctions tages.
Lintgrale de la fonction tage

n
i=1
a
i
1
A
i
(x) est dnie par
_
R
_
n

i=1
a
i
1
A
i
(x)
_
d(x) =
n

i=1
a
i
(A
i
).
On montre facilement que cette dnition ne dpend pas de la reprsentation choisie pour
la fonction tage.
86
CHAPITRE 3. VARIABLES ALATOIRES
Fonctions mesurables positives. Soit f : R

R une fonction mesurable positive. On
dnit
_
R
f(x)d(x) = sup
__
R
g(x) d(x) : g f, g tage
_
.
Observez que cette intgrale peut prendre la valeur . Manifestement, cette dnition
concide avec la prcdente si f est tage.
Exemple 3.8.2. 1. On vrie facilement que lorsque = et f est continue par mor-
ceaux, lintgrale ainsi dnie concide avec lintgrale de Riemann (elles donnent
toutes deux laire entre le graphe et laxe des abscisses) (exercice).
2. Considrons le cas de la masse de Dirac en y, =
y
. On vrie facilement (exercice)
que
_
R
f(x) d
y
(x) = f(y).
Fonctions mesurables. Pour tendre cette construction une fonction mesurable quel-
conque f, on la dcompose en sa partie positive et sa partie ngative : f = f
+
f

, avec
f
+
= max(f,0) et f

= max(f,0). Observez que f


+
et f

sont toutes deux positives,


et que [f[ = f
+
+ f

. Si
_
R
[f(x)[ d(x) < , alors on dit que f est Lebesgue-intgrable.
Dans ce cas, on a
_
R
f
+
(x) d(x) < , et
_
R
f

(x) d(x) < ,


et on peut donc dnir
_
R
f(x) d(x) =
_
R
f
+
(x) d(x)
_
R
f

(x) d(x).
Fonctions valeurs complexes. Les fonctions valeurs complexes sont dnis de la
mme faon, en traitant sparment leurs parties relle et imaginaire,
_
R
f(x) d(x) =
_
R
1f(x) d(x) + i
_
R
f(x) d(x).
Notations. Nous emploierons les notations suivantes.

_
R
f(x) d(x) =
_
R
fd.
Si A T,
_
A
f d =
_
R
1
A
f d.
Si = , on crit
_
A
fdx au lieu de
_
A
fd.
Proprits de lintgrale
Thorme 3.8.2. Lintgrale de Lebesgue possde les proprits suivantes.
1. (Linarit) Soit f,g deux fonctions Lebesgue-intgrables, et a,b deux nombres rels.
Alors,
_
R
(af +bg) d = a
_
R
f d +b
_
R
g d.
87
3.8. VARIABLES ALATOIRES GNRALES
2. (Monotonicit) Si f g sont deux fonctions Lebesgue-intgrables, alors
_
R
f d
_
R
g d.
3. (Linarit en ) Soient
1
,
2
deux mesures. Pour tout a,b R
+
et toute fonction f
Lebesgue-intgrable par rapport
1
et
2
,
_
R
f d(a
1
+b
2
) = a
_
R
f d
1
+b
_
R
f d
2
.
4. Si f et g sont deux fonctions Lebesgue-intgrables gales -presque-partout, cest--
dire telles que (x R : f(x) ,= g(x)) = 0, alors
_
R
f d =
_
R
g d.
5. (Thorme de la convergence monotone) Soit (f
k
)
kN
une suite de fonctions mesu-
rables positives telles que f
k
(x) f
k+1
(x), pour tout k N et x R. Alors,
lim
k
_
R
f
k
d =
_
sup
k
f
k
d.
(La valeur de ces intgrales peut tre innie).
6. (Thorme de la convergence domine) Soit (f
k
)
kN
une suite de fonctions mesu-
rables convergeant ponctuellement vers une fonction f, et telles quil existe une fonc-
tion Lebesgue-intgrable g satisfaisant [f
k
[ g, pour tout k. Alors f est Lebesgue-
intgrable et
lim
k
_
R
f
k
d =
_
f d.
7. (Lemme de Fatou) Soit (f
k
)
kN
une suite de fonctions mesurables positives. Alors
_
R
liminf
k
f
k
d liminf
k
_
f
k
d.
Comparaison avec lintgrale de Riemann
Discutons brivement des avantages de lintgrale de Lebesgue par rapport lintgrale
de Riemann.
1. Lintgrale de Lebesgue permet dintgrer beaucoup plus de fonctions que lintgrale
de Riemann. En eet, la classe des fonctions Lebesgue-intgrables contient toutes les
fonctions dont la valeur absolue est Riemann-intgrable, mais permet aussi dint-
grer des fonctions beaucoup plus irrgulires. Par exemple, la fonction de Dirichlet
f(x) = 1
xQ[0,1]
nest pas Riemann-intgrable, car ses sommes de Darboux sup-
rieure et infrieure sont gale 1 et 0 respectivement, quelle que soit la nesse de la
partition (les rationnels tant denses dans les rels), mais elle est Lebesgue-intgrable,
dintgrale donne par (Q [0,1]) = 0.
2. Lintgrale de Riemann se prte mal linterchange de limites et dintgrales, opra-
tions trs frquentes en mathmatiques. Lintgrale de Lebesgue est beaucoup plus
souple de ce point de vue, comme le montrent les Thormes de convergence mono-
tone et domine noncs ci-dessus.
88
CHAPITRE 3. VARIABLES ALATOIRES
3.8.2 Esprance dune variable alatoire quelconque
Soit X : R une variable alatoire sur un espace probabilis (,T,P). Alors, on
dnit lintgrale
_

X() dP =
_
R
xdP
X
,
o P
X
est la loi de X, cest--dire la mesure (de probabilit) induite par P et X sur
(R,B(R)). Cette dernire intgrale est bien de la forme tudie plus haut.
Dnition 3.8.4. Soit X : R une variable alatoire sur un espace probabilis (,T,P).
Lesprance de X est dnie par
E(X) =
_
R
xdP
X
.
Il suit des proprits de lintgrale de Lebesgue que cette esprance possde toutes les
proprits discutes prcdemment pour les variables alatoires discrtes et densit.
Exemple 3.8.3. Voyons comment on peut retrouver les dnitions antrieures donnes
pour les variables alatoires discrtes et densit.
Variables alatoires discrtes. Une variable alatoire discrte X est de la forme
X =

i
a
i
1
A
i
,
o lon peut supposer les a
i
tous distincts et les A
i
disjoints deux--deux. La loi P
X
est caractrise par les valeurs prises sur X() = a
i
, f
X
(a
i
) = P(A
i
). Avec les
notations de cette section, on peut donc crire
P
X
(B) =

yX()
f
X
(y)1
yB
=

yX()
f
X
(y)
y
(B),
ce qui signie que
P
X
=

yX()
f
X
(y)
y
.
Par consquent,
E(X) =
_

xdP
X
=

yX()
f
X
(y)
_

xd
y
=

yX()
yf
X
(y).
Variables alatoires densit. Pour une variable alatoire X avec densit f
X
, on a
_
A
dP
X
= P
X
(A) =
_
A
f
X
dx,
et, par consquent, dP
X
(x) = f
X
(x)dx. On a donc bien
E(X) =
_
R
xdP
X
(x) =
_
R
xf
X
(x) dx.
89
3.8. VARIABLES ALATOIRES GNRALES
3.8.3 Intgrales multiples
Exactement comme dans le cas des probabilits, tant donns deux espaces (E
1
,c
1
,
1
)
et (E
2
,c
2
,
2
), on peut construire leur produit (E
1
E
2
, c
1
c
2
,
1

2
). Un rsultat trs
utile dans ce contexte est le Thorme de Fubini, qui montre que lordre dintgration
dune fonction relle de plusieurs variables ne joue aucun rle tant que toutes les quantits
concernes existent.
Thorme 3.8.3 (Thorme de Fubini). Soit (E
1
,c
1
,
1
) et (E
2
,c
2
,
2
) deux espaces me-
surs, et (E,c,) lespace produit correspondant. Une fonction mesurable f(x) = f(x
1
,x
2
)
mesurable sur (E,c) peut tre considre comme une fonction g
x
1
(x
2
) de x
2
pour chaque
x
1
x, ou comme une fonction h
x
2
(x
1
) de x
1
pour chaque x
2
x. Ces fonctions sont me-
surables pour chaque x
1
et x
2
. Si f est intgrable, alors ces deux fonctions sont galement
intgrables pour
1
-presque tout x
1
et
2
-presque tout x
2
, respectivement. Leurs intgrales
G(x
1
) =
_
E
2
g
x
1
(x
2
) d
2
(x
2
) et H(x
2
) =
_
E
1
h
x
2
(x
1
) d
1
(x
1
)
sont mesurables, presque partout nies, et intgrables par rapport
1
et
2
, respectivement.
Finalement,
_
E
f(x
1
,x
2
) d =
_
E
1
G(x
1
) d
1
(x
1
) =
_
E
2
H(x
2
) d
2
(x
2
).
Inversement, si f est mesurable et positive, et si soit G, soit H, qui sont toujours mesu-
rables, a une intgrale nie, alors cest galement le cas de lautre, et f est intgrable, et
son intgrale est gale aux intgrales doubles correspondantes.
Ce thorme permet aisment de justier tous les changes dintgrales eectus dans
les sections prcdentes (exercice).
90
Chapitre 4
Fonctions gnratrices et fonctions
caractristiques
4.1 Fonctions gnratrices
4.1.1 Dnition, proprits
Soit a = (a
i
)

i=0
une suite de nombres rels. On appelle fonction gnratrice de la suite
a la fonction dnie par
G
a
(s) =

i=0
a
i
s
i
pour les s C tels que la srie converge.
Rappelons quelques proprits de base.
Convergence. Il existe un rayon de convergence 0 R tel que la srie converge
absolument si [s[ < R et diverge si [s[ > R. La srie est uniformment convergente
sur les ensembles de la forme s : [s[ R
t
, quel que soit R
t
< R.
Direntiation. G
a
(s) peut tre direntie ou intgre terme terme un nombre
arbitraire de fois, tant que [s[ < R.
Unicit Sil existe 0 < R
t
R tel que G
a
(s) = G
b
(s) pour tout [s[ < R
t
, alors a
n
= b
n
pour tout n. De plus,
a
n
=
1
n!
G
(n)
a
(0).
Continuit. (Thorme dAbel) Si a
i
0 pour tout i, et G
a
(s) est nie pour [s[ < 1,
alors lim
s1
G
a
(s) =

i=0
a
i
, que cette somme soit nie ou gale +. Ce rsultat
est particulirement utile lorsque le rayon de convergence R est gal 1.
tant donne une variable alatoire X valeurs dans N, la fonction de masse de X
donne lieu la suite (f
X
(k))

k=0
; on va sintresser la fonction gnratrice qui lui est
associe.
91
4.1. FONCTIONS GNRATRICES
Dnition 4.1.1. Soit X une variable alatoire valeurs dans N. On appelle fonction
gnratrice de X la fonction G
X
: C C donne par la srie entire
G
X
(s) = E(s
X
) =

k=0
s
k
f
X
(k).
Exemple 4.1.1. 1. Variable alatoire constante. Si P(X = c) = 1, alors G
X
(s) = s
c
.
2. Loi de Bernoulli. Si P(X = 1) = p et P(X = 0) = 1 p, on a
G
X
(s) = (1 p) +ps.
3. Loi binomiale. Pour une loi binomiale de paramtres n et p, la formule du binme
implique que
G
X
(s) =
n

k=0
_
n
k
_
p
k
(1 p)
nk
s
k
= ((1 p) +ps)
n
.
4. Loi de Poisson. Pour X suivant une loi de Poisson de paramtre , on obtient
G
X
(s) =

k=0

k
k!
e

s
k
= e
(s1)
.
5. Loi gomtrique. Pour X suivant une loi gomtrique de paramtre p, on a

k=1
p(1 p)
k1
s
k
=
ps
1 (1 p)s
.
6. Loi hypergomtrique. La formule du binme montre que la fonction gnratrice
dune variable hypergomtrique X de paramtres N, n et b,
G
X
(s) =
bn

k=(nr)0
s
k
_
b
k
__
N b
n k
_
_
_
N
n
_
,
est prcisment le coecient de x
n
du polynme
Q(x,s) = (1 +sx)
b
(1 +x)
Nb
_
_
N
n
_
.
Il suit que la moyenne de X concide avec le coecient de x
n
de
Q
s
(x,1) = xb(1 +x)
N1
_
_
N
n
_
,
et est donc donne par G
t
X
(1) = bn/N. Similairement, on trouve que la variance de
X est gale nb(N b)(N n)/(N
3
N
2
).
92
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
Puisque G
X
(1) = E(1) = 1, il suit que le rayon de convergence R de G
X
est suprieur
ou gal 1. Le thorme dAbel fournit une technique ecace pour calculer les moments
de X ; par exemple (G
(k)
X
(1) tant un raccourci pour lim
s1
G
(k)
X
(s) lorsque R = 1)
G
t
X
(s) =

k=0
ks
k1
f
X
(k) = G
t
X
(1) = E(X),
G
tt
X
(s) =

k=0
k(k 1)s
k2
f
X
(k) = G
tt
X
(1) = E(X(X 1)),
G
()
X
(s) =

k=0
k (k + 1)s
k
f
X
(k) = G
()
X
(1) = E(X (X + 1)).
On a donc en particulier le rsultat suivant.
Proposition 4.1.1. Si G
X
(s) est la fonction gnratrice de X, alors
E(X) = G
t
X
(1), Var(X) = G
tt
X
(1) +G
t
X
(1) G
t
X
(1)
2
,
o les membres de droite doivent tre compris comme des limites s 1 lorsque le rayon de
convergence de G
X
est gal 1.
Remarque 4.1.1. En gnral, si lon dsire calculer les moments dune variable alatoire
X, il se rvle avantageux de travailler avec la fonction gnratrice des moments de X, qui
est dnie par
M
X
(t) = G
X
(e
t
),
pourvu que e
t
< R, le rayon de convergence de G
X
. En eet, on a alors
M
X
(t) =

k=0
e
tk
P(X = k) =

k=0

n=0
(tk)
n
n!
P(X = k)
=

n=0
t
n
n!
_

k=0
k
n
P(X = k)
_
=

n=0
t
n
n!
E(X
n
).
Les moments de X peuvent donc tre aisment obtenus en direntiant M
X
(t).
Un type de question o les fonctions gnratrices se rvlent particulirement utiles est
ltude de sommes de variables alatoires.
Proposition 4.1.2. Soient X
1
, . . . ,X
n
des variables alatoires indpendantes valeurs
dans N. Alors la fonction gnratrice de S
n
= X
1
+ +X
n
est donne par
G
S
n
(s) = G
X
1
(s) G
X
n
(s).
Dmonstration. En utilisant le Lemme 3.6.11, on a
G
S
n
(s) = E(s
X
1
++X
n
) = E(s
X
1
s
X
n
) = E(s
X
1
) E(s
X
n
).
93
4.1. FONCTIONS GNRATRICES
Exemple 4.1.2. 1. Loi de Pascal. On peut prsent calculer aisment la fonction g-
nratrice dune variable de Pascal X de paramtres r et p. En eet, celle-ci peut se
dcomposer en X +r = X
1
+ +X
r
, o les X
i
sont des variables gomtriques de
paramtre p indpendantes, et on a donc
G
X
(s) = s
r
G
X+r
(s) = s
r
_
G
X
1
(s)
_
r
=
_
p
1 (1 p)s
_
r
.
Exemple 4.1.3. 1. Soient X et Y deux variables alatoires indpendantes, suivant des
lois binomiales de paramtres m et p, et n et p, respectivement. Alors
G
X+Y
(s) = G
X
(s)G
Y
(s) = ((1 p) +ps)
m
((1 p) +ps)
n
= ((1 p) +ps)
m+n
= binom(m+n, p),
et donc X +Y suit une loi binomiale de paramtres m+n et p.
Similairement, si X et Y sont deux variables alatoires indpendantes suivant des
lois de Poisson de paramtre et , respectivement, alors X + Y suit une loi de
Poisson de paramtre + :
G
X+Y
(s) = e
(s1)
e
(s1)
= e
(+)(s1)
= poisson( +).
De mme, on vrie facilement que si X et Y sont des variables alatoires indpen-
dantes suivant des lois de Pascal de paramtres r
1
et p, et r
2
et p, alors X +Y suit
une loi de Pascal de paramtres r
1
+r
2
et p.
En fait, on peut mme aller plus loin, et considrer la somme dun nombre alatoire de
variables alatoires. Ceci a de nombreuses applications.
Proposition 4.1.3. Soient X
1
,X
2
, . . . une suite de variables alatoires i.i.d. valeurs dans
N, G
X
leur fonction gnratrice commune, et N une variable alatoire valeurs dans N

,
indpendante des X
i
et dont la fonction gnratrice est G
N
. Alors la fonction gnratrice
de S = X
1
+ +X
N
est donne par
G
S
(s) = G
N
_
G
X
(s)
_
.
Dmonstration. En utilisant le Lemme 3.6.12,
G
S
(s) = E(s
S
) = E
_
E(s
S
[ N)
_
=

n
E(s
S
[ N)(n) P(N = n)
=

n
E(s
X
1
++X
n
) P(N = n) =

n
E(s
X
1
) E(s
X
n
) P(N = n)
=

n
_
G
X
(s)
_
n
P(N = n) = G
N
_
G
X
(s)
_
.
Exemple 4.1.4. En prenant la drive de G
S
en 1, on retrouve immdiatement le rsultat
de lExemple 3.6.9.
94
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
Exemple 4.1.5. Une poule pond N oeufs, o N suit une loi de Poisson de paramtre
. Chaque oeuf clt avec probabilit p indpendamment des autres. Soit K le nombre de
poussins. On a K = X
1
+ +X
N
, o les X
i
sont des variables alatoires de Bernoulli de
paramtre p indpendantes. Quelle est la distribution de K ? Manifestement,
G
N
(s) = exp
_
(s 1)
_
, G
X
(s) = (1 p) +ps.
Par consquent,
G
K
(s) = G
N
_
G
X
(s)
_
= exp
_
p (s 1)
_
,
ce qui est la fonction gnratrice dune variable de Poisson de paramtre p.
Le thorme de continuit suivant, que lon ne dmontrera pas, montre que les fonctions
gnratrices permettent ltude de la convergence de suites de variables alatoires.
Thorme 4.1.1. Soient X, X
1
, X
2
, . . . une suite de variables alatoires valeurs dans N.
Les deux propositions suivantes sont quivalentes :
1. lim
n
G
X
n
(s) = G
X
(s), pour tout [s[ 1 ;
2. la suite (X
n
)
n1
converge en loi vers X, cest--dire
lim
n
P(X
n
= k) = P(X = k),
pour tout k N.
Exemple 4.1.6. Soit (X
n
)
n0
une suite de variables alatoires de loi binom(n, p
n
), avec
lim
n
np
n
= > 0. On a
lim
n
G
X
n
(s) = lim
n
(1 + (s 1)p
n
)
n
= e
(s1)
.
Cette dernire expression tant la fonction gnratrice associe la loi poisson(), on
retrouve la loi des petits nombres.
4.1.2 Application aux processus de branchement
Dans cette sous-section, nous allons illustrer la puissance des fonctions gnratrices
dans ltude dune classe intressante de processus stochastiques (cest--dire une suite de
variables alatoires, en gnral dpendantes, indexes par un paramtre que lon identie
au temps) : les processus de branchement.
lpoque victorienne, certaines personnes ont craint la disparition des noms des fa-
milles aristocratiques. Sir Francis Galton
1
posa originellement la question de dterminer la
probabilit dun tel vnement dans le Educational Times de 1873, et le Rvrend Henry
1. Sir Francis Galton (1822, Sparkbrook 1911, Haslemere), homme de science britannique. Lun des
fondateurs de la psychologie direntielle ou compare. On lui doit le terme anticyclone, ainsi que linven-
tion du sac de couchage. partir de 1865, il se consacre la statistique avec lobjectif de quantier les
caractristiques physiques, psychiques et comportementales de lhomme, ainsi que leur volution.
95
4.1. FONCTIONS GNRATRICES





4
3
2
1
0
Figure 4.1: Une reprsentation du processus de branchement.
William Watson
2
rpondit avec une solution. Ensemble, ils crivirent alors, en 1874, un
article intitul On the probability of extinction of families . Leur modle suppose (cela
tant considr comme allant de soi lpoque de Galton, et tant encore le cas le plus
courant dans la plupart des pays) que le nom de famille est transmis tous les enfants
mles par leur pre. Il suppose galement que le nombre de ls dun individu est une va-
riable alatoire valeurs dans N, et que le nombre de ls dhommes dirents sont des
variables alatoires indpendantes de mme loi.
Plus gnralement, supposons quune population volue par gnrations, et notons Z
n
le nombre dindividus de la n
me
gnration. Chaque membre de la n
me
gnration donne
naissance une famille, ventuellement vide, de la gnration suivante ; la taille de la
famille est une variable alatoire. On fait les hypothses suivantes :
les tailles de chaque famille forment une collection de variable alatoires indpendan-
tes ;
toutes les familles suivent la mme loi, de fonction gnratrice G.
Sous ces hypothses, le processus est bien dni ds que la taille de la population initiale
Z
0
est donne ; on supposera ici que Z
0
= 1. Ce modle peut galement reprsenter la
croissance dune population de cellules, celle de neutrons dans un racteur, la propagation
dune maladie dans une population, etc.
On sintresse la suite alatoire Z
0
,Z
1
,Z
2
, . . . des tailles des gnrations successives.
Soit G
n
(s) = E(s
Z
n
) la fonction gnratrice de Z
n
.
Thorme 4.1.2. G
m+n
(s) = G
m
(G
n
(s)), et par consquent, G
n
(s) = G(G(. . . G(s))) est
litr n fois de G.
Dmonstration. Chacun des membres de la (m + n)
me
gnration possdant un unique
anctre dans la gnration m. On a donc
Z
m+n
= X
1
+X
2
+ +X
Z
m
o X
i
reprsente le nombre de membres de la gnration m+n descendants du i
me
individu
de la gnration m. Il sagit donc dune somme dun nombre alatoire de variables alatoires
2. Henry William Watson (1827 1903), mathmaticien britanique.
96
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
indpendantes, identiquement distribues. Il suit donc de la Proposition 4.1.3 que
G
m+n
(s) = G
m
(G
X
1
(s)) = G
m
(G
n
(s)),
puisque G
X
1
(s) = G
n
(s). La seconde armation se dmontre en itrant la premire :
G
n
(s) = G
1
(G
n1
(s)) = G
1
(G
1
(G
n2
(s))) = = G
1
(G
1
(. . . G
1
(s))),
or G
1
est prcisment ce que lon avait appel G.
Les moments de la variable alatoire Z
n
peuvent facilement sexprimer en termes des
moments de la variable alatoire Z
1
dcrivant la taille dune famille typique.
Lemme 4.1.1. Soit = E(Z
1
) et
2
= Var(Z
1
). Alors
E(Z
n
) =
n
,
Var(Z
n
) =
_
n
2
si = 1

2
(
n
1)
n1
( 1)
1
si ,= 1.
Dmonstration. En direntiant G
n
(s) = G(G
n1
(s)) en s = 1, on obtient
E(Z
n
) = E(Z
n1
),
ce qui donne, aprs itration, E(Z
n
) =
n
. Similairement, en direntiant deux fois la
relation G
n
(s) = G(G
n1
(s)) en s = 1, on voit que
G
tt
n
(1) = G
tt
(1)(G
t
n1
(1))
2
+G
t
(1)G
tt
n1
(1).
Par consquent, la Proposition 4.1.1 implique que
Var(Z
n
) =
2

2n2
+Var(Z
n1
),
et la conclusion suit.
Une question particulirement intressante concerne le destin de la population : va-t-
elle steindre aprs un temps ni, ou au contraire, toutes les gnrations auront-elles une
taille strictement positive ? Lvnement la population steint aprs un temps ni est
donn par
extinction =
_
n1
Z
n
= 0.
On observe que Z
n
= 0 Z
n+1
= 0 ; par consquent, le Lemme 2.1.2 montre que la
probabilit dextinction est donne par la limite lim
n
P(Z
n
= 0). Le thorme suivant
montre que le destin de la population est troitement li la taille moyenne des familles.
97
4.1. FONCTIONS GNRATRICES
Thorme 4.1.3. Soit = E(Z
1
), la taille moyenne dune famille. La probabilit dex-
tinction
= lim
n
P(Z
n
= 0)
est donne par la plus petite racine positive de lquation s = G(s). En particulier, = 1
si < 1 et < 1 si > 1. Lorsque = 1, on a = 1 ds que la loi de Z
1
possde une
variance positive.
Dmonstration. Notons
n
= P(Z
n
= 0). On a

n
= G
n
(0) = G(G
n1
(0)) = G(
n1
).
Par continuit de G, on peut passer la limite (n ), ce qui montre que la probabilit
dextinction satisfait
= G().
Vrions prsent que si a est une racine positive de cette quation, alors a. En eet,
puisque G est croissante sur R
+
,

1
= G(0) G(a) = a.
Similairement,

2
= G(
1
) G(a) = a.
Il suit, par induction, que
n
a, pour tout n, et donc que a. Par consquent, est
bien la plus petite racine positive de lquation s = G(s).
Pour dmontrer la seconde armation, on utilise le fait que G est convexe sur R
+
; ceci
est vrai, car
G
tt
(s) = E
_
Z
1
(Z
1
1)s
Z
1
2
_
=

k2
k(k 1)s
k2
P(Z
1
= k) 0, si s 0.
G est donc convexe (en fait, strictement convexe si P(Z
1
2) > 0) et croissante sur [0,1],
avec G(1) = 1. Un coup doeil sur la Figure 4.2 (et un argument plus analytique laiss
en exercice), montre que les courbes y = G(s) et y = s ont gnralement deux points
dintersection : en et en 1. Lorsque < 1, on a que G
t
(1) = < 1, et donc les deux
points dintersection concident : = 1. Lorsque > 1, les deux points dintersection
sont distincts, et par consquent < 1 ( est toujours positif, et = 0 si et seulement si
P(Z
1
= 0) = 0). Finalement, dans le cas = 1, il faut considrer sparment le cas trivial
o toutes les familles sont de taille 1, et donc videmment = 0, et celui o Z
1
possde
une variance positive. Dans ce dernier cas, G est strictement convexe, ce qui implique que
G(s) > s pour tout 0 s < 1, et donc que = 1.
4.1.3 Fonction gnratrice conjointe
Tout comme la loi dune variable alatoire valeurs dans N peut tre encode par sa
fonction gnratrice, la loi conjointe dune famille de variables alatoires valeurs dans N
peut tre encode par leur fonction gnratrice conjointe.
98
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
1
y = s
1 =
y = G(s)
1
y = s
1 =
y = G(s)
1
y = s

1
y = G(s)
Figure 4.2: Solutions de lquation G(s) = s. Gauche : < 1. Milieu : = 1 et Var(Z
1
) > 0.
Droite : > 1.
Dnition 4.1.2. La fonction gnratrice conjointe du vecteur alatoire X = (X
1
, . . . ,X
n
)
prenant valeurs dans N
n
est dnie par
G
(X
1
,...,X
n
)
(s
1
, . . . ,s
n
) = E(s
X
1
1
s
X
n
n
).
La fonction gnratrice conjointe peut tre utilise pour caractriser lindpendance de
variables alatoires.
Proposition 4.1.4. X
1
, . . . ,X
n
, valeurs dans N, sont indpendantes si et seulement si
G
(X
1
,...,X
n
)
(s
1
, . . . ,s
n
) = G
X
1
(s
1
) G
X
n
(s
n
),
pour tout s
1
, . . . ,s
n
.
Dmonstration. Les X
i
tant indpendantes, cest aussi le cas des s
X
i
i
. Par consquent,
G
(X
1
,...,X
n
)
(s
1
, . . . ,s
n
) = E(s
X
1
1
s
X
n
n
) = E(s
X
1
1
) E(s
X
n
n
)
= G
X
1
(s
1
) G
X
n
(s
n
).
Pour dmontrer lautre direction, on procde comme suit :
G
(X
1
,...,X
n
)
(s
1
, . . . ,s
n
) G
X
1
(s
1
) G
X
n
(s
n
) =

x
1
,...,x
n
s
x
1
1
s
x
n
n
_
P(X
1
= x
1
, . . . ,X
n
= x
n
) P(X
1
= x
1
) P(X
n
= x
n
)
_
.
Comme, par hypothse, cette fonction est identiquement nulle sur son domaine de dni-
tion, on en conclut que
P(X
1
= x
1
, . . . ,X
n
= x
n
) P(X
1
= x
1
) P(X
n
= x
n
) = 0,
pour tout x
1
, . . . ,x
n
(observez quon peut obtenir les coecients dune telle srie entire
en la drivant par rapport ses variables en s
1
= = s
n
= 0, et ici toutes les drives
sont nulles). Les X
i
sont donc indpendants.
99
4.2. FONCTIONS CARACTRISTIQUES
Remarque 4.1.2. Dans ce qui prcde, on a toujours suppos que les variables alatoires
prenaient valeurs dans N. Il est parfois aussi utile de considrer le cas de variables alatoires
dfectives prenant valeurs dans N+. Pour une telle variable alatoire X, on voit que
G
X
(s) = E(s
X
) converge tant que [s[ < 1, et que
lim
s1
G
X
(s) =

k=0
P(X = k) = 1 P(X = ).
Il nest bien sr plus possible dobtenir les moments de X partir de G
X
: ceux-ci sont
tous innis !
4.2 Fonctions caractristiques
Dans cette section, nous allons trs brivement introduire la notion de fonction carac-
tristique associe une variable alatoire. Celle-ci fournit un outil similaire aux fonctions
gnratrices, mais applicable des variables alatoires arbitraires.
4.2.1 Dnition et proprits lmentaires
Dnition 4.2.1. La fonction caractristique associe une variable alatoire X est la
fonction
X
: R C dnie par

X
(t) = E(e
itX
).
Remarque 4.2.1. Nous avons principalement travaill avec des fonctions relles jusqu
prsent. Toutefois tout ce qui a t dit reste vrai dans le cas complexe : il sut de dcom-
poser lintgrant en sa partie relle et sa partie imaginaire,

X
(t) = E(cos(tX)) + iE(sin(tX)).
Thorme 4.2.1. est une fonction caractristique si et seulement si elle possde les
proprits suivantes.
1. (0) = 1, et [(t)[ 1 pour tout t.
2. est uniformment continue sur R.
3. est dnie positive, cest--dire

j,k
(t
j
t
k
)z
j
z
k
0,
pour tout t
1
, . . . ,t
n
rels, et tout z
1
, . . . ,z
n
complexes.
Dmonstration. Soit une fonction caractristique. Alors (0) = E(1) = 1, et [(t)[
E([e
itX
[) = 1.
On a galement
[(t +s) (t)[ = [E(e
i(t+s)X
e
itX
)[ E([e
itX
(e
isX
1)[) = E([e
isX
1[).
100
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
Soit Y (s) = [e
isX
1[ ; manifestement 0 Y 2 et lim
s0
Y (s) = 0. Par consquent, le
Thorme de convergence domine (Thorme 3.8.2) implique que lim
s0
E(Y (s)) = 0, et
la continuit uniforme est tablie.
Pour la positivit, il sut dobserver que

j,k
(t
j
t
k
)z
j
z
k
= E
_

j,k
z
j
e
it
j
X
z
k
e
it
k
X
_
= E
_

j
z
j
e
it
j
X

2
_
0.
Nous ne dmontrerons pas la rciproque (Thorme de Bochner) ici.
La fonction caractristique permet de calculer les moments de la variable alatoire
associe.
Lemme 4.2.1. Si X possde un moment dordre k, alors

X
(t) =
k

j=0
E(X
j
)
j!
(it)
j
+o(t
k
),
lorsque t 0, et donc, en particulier,
(k)
X
(0) = i
k
E(X
k
).
Dmonstration. Cela suit du thorme de Taylor. La seule chose vrier est que si X
admet un moment dordre n, alors
X
est de classe (
n
et
(n)
X
(t) = i
n
E(X
n
e
itX
).
On procde par rcurrence. Soit k n, et supposons le rsultat vri pour 1, . . . , k
1. On pose F(t) = (iX)
k1
e
itX
. On a alors F
t
(t) = (iX)
k
e
itX
, et [F
t
(t)[ = [X[
k
. Par
consquent, il suit du Thorme de convergence domine que

(k)
X
(t) = lim
0

(k1)
X
(t +)
(k1)
X
(t)

= lim
0
E
_
F(t +) F(t)

_
= E
_
lim
0
F(t +) F(t)

_
= E(F
t
(t)).
De plus, lapplication x x
k
e
itx
tant continue et de module born par [x[
k
, il suit
galement du Thorme de convergence domine que
lim
tt
0
E(X
k
e
itX
) = E( lim
tt
0
X
k
e
itX
) = E(X
k
e
it
0
X
),
ce qui montre que
(k)
X
est continue.
Remarque 4.2.2. Attention : lexistence de
t
X
(0) nimplique pas que E(X) =
t
X
(0).
On peut en eet construire des variables alatoires sans esprance, mais telles que
t
X
(0)
existe.
Un des nombreux intrts des fonctions caractristiques est quelles fournissent un outil
trs ecace pour tudier les sommes de variables alatoires indpendantes.
101
4.2. FONCTIONS CARACTRISTIQUES
Proposition 4.2.1. Soient X et Y deux variables alatoires indpendantes. Alors

X+Y
(t) =
X
(t)
Y
(t).
Dmonstration.

X+Y
(t) = E(e
itX
e
itY
) = E(e
itX
)E(e
itY
) =
X
(t)
Y
(t).
La seconde identit suit de lindpendance, aprs avoir dcompos chacune des exponen-
tielles en sinus et cosinus, eectu la multiplication, et regroup les termes.
Le rsultat suivant est galement trs utile.
Lemme 4.2.2. Si a,b R et Y = aX +b, alors

Y
(t) = e
itb

X
(at).
Dmonstration.

Y
(t) = E(e
it(aX+b)
) = e
itb
E(e
i(at)X
) = e
itb

X
(at).
On peut galement dnir une notion de fonction caractristique conjointe pour une
famille de variables alatoires.
Dnition 4.2.2. La fonction caractristique conjointe du vecteur alatoire X = (X
1
, . . . ,X
n
)
est dnie par

X
(t) = E(e
it,X)
),
pour tout t = (t
1
, . . . ,t
n
) R
n
.
Il est utile dobserver que
(X
1
,...,X
n
)
(t
1
, . . . ,t
n
) =
t
1
X
1
++t
n
X
n
(1).
La fonction caractristique conjointe fournit une nouvelle caractrisation de lindpen-
dance.
Thorme 4.2.2. Les variables alatoires X
1
, . . . ,X
n
sont indpendantes si et seulement
si

(X
1
,...,X
n
)
(t
1
, . . . ,t
n
) =
n

j=1

X
j
(t
j
).
Dmonstration. Si X
1
, . . . ,X
n
sont indpendantes, alors le rsultat suit de la Proposi-
tion 4.2.1. La rciproque suit (de la version n variables) du Thorme dinversion nonc
plus bas.
Le rsultat fondamental suivant montre quune variable alatoire est compltement
caractrise par sa fonction caractristique : deux variables alatoires possdant la mme
fonction caractristique ont la mme loi.
102
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
Thorme 4.2.3 (Thorme dinversion). Soit X une variable alatoire de fonction de
rpartition F
X
et de fonction caractristique
X
. Alors,
F
X
(b) F
X
(a) = lim
T
_
T
T
e
iat
e
ibt
2it

X
(t) dt.
en chaque point de continuit de F
X
.
Dmonstration. On crit simplement F et . On a
lim
T
1
2
_
T
T
dt
e
iat
e
ibt
it
_
e
itx
dP
X
= lim
T
1
2
_
dP
X
_
T
T
e
it(xa)
e
it(xb)
it
dt
= lim
T
1
2
_
dP
X
_
T
T
sin (t(x a)) sin (t(x b))
t
dt
=
1
2
_
signe(x a) signe(x b) dP
X
= F(b) F(a),
pourvu que a et b soient des points de continuit de F. On a utilis le Thorme de Fubini,
et le Thorme de la convergence domine pour prendre la limite T . En eet, la
fonction de Dirichlet
u(T,z) =
_
T
0
sin tz
t
dt
satisfait sup
T,z
[u(T,z)[ C et
3
lim
T
u(T,z) =
_

_
/2 si z > 0
/2 si z < 0
0 si z = 0.
Corollaire 4.2.1. Deux variables alatoires X et Y ont la mme fonction caractristique
si et seulement si elles ont la mme loi.
Dmonstration. Si
X
=
Y
, alors le Thorme dinversion implique que
F
X
(b) F
X
(a) = F
Y
(b) F
Y
(a),
3. Poser, pour n 1, u
n
=
_
/2
0
sin
_
(2n 1)x
_
/ sin(x) dx et v
n
=
_
/2
0
sin(2nx)/xdx. Montrer que :
(i) u
n+1
= u
n
, n 1 (observez que sin
_
(2n + 1)x
_
sin
_
(2n 1)x
_
= 2 cos(2nx) sin(x)) ; (ii) u
1
= /2 ;
(iii) lim
n
(u
n
v
n
) = 0 (intgration par parties en observant que 1/x 1/ sin(x) est continment
direntiable sur [0,/2]) ; (iv) lim
T
u(T,1) = lim
n
v
n
= /2.
103
4.2. FONCTIONS CARACTRISTIQUES
en toute paire de points de continuit a et b de F
X
et F
Y
. En laissant a (se
rappeler que lensemble des points de discontinuit dune fonction de rpartition est au
plus dnombrable), on obtient
F
X
(b) = F
Y
(b),
en tout point de continuit de F
X
et F
Y
, et donc F
X
= F
Y
, par continuit droite des
fonctions de rpartition.
Des rsultats analogues sont galement vrais pour les fonctions caractristiques con-
jointes. Nous ne les noncerons pas explicitement.
Les fonctions caractristiques sont aussi trs utiles pour tudier la convergence de va-
riables alatoires (nous reviendrons sur les dirents modes de convergence au chapitre 5).
Dnition 4.2.3. On dit quune suite de fonction de rpartition F
n
converge vers une
fonction de rpartition F, F
n
F, si F(x) = lim
n
F
n
(x), en chaque point x o F est
continue.
Thorme 4.2.4 (Thorme de continuit de Lvy
4
). Soient F
1
,F
2
, . . . une suite de
fonctions de rpartition, et
1
,
2
, . . . les fonctions caractristiques associes.
1. Si F
n
F, pour une certaine fonction de rpartition F de fonction caractristique
, alors
n
(t) (t) pour tout t.
2. Si (t) = lim
n

n
(t) existe et est continue en t = 0, alors est la fonction
caractristique associe une fonction de rpartition F, et F
n
F.
Dmonstration. Nous ne la ferons pas ici.
4.2.2 Quelques exemples classiques
Loi de Bernoulli
Si X suit une loi de Bernoulli de paramtre p, alors

X
(t) = e
it0
(1 p) +e
it1
p = 1 p +pe
it
.
Loi binomiale
Puisquune variable alatoire X de loi binomiale de paramtres n et p possde la mme
distribution que la somme de n v.a. de Bernoulli de paramtre p, on a

X
(t) = (1 p +pe
it
)
n
.
Loi exponentielle
Si X suit une loi exponentielle de paramtre , alors le changement de variable y =
( it)x donne

X
(t) =
_

0
e
x+itx
dx =

+ it
_

0
e
y
dy =

it
.
4. Paul Pierre Lvy (1886, Paris 1971, Paris), mathmaticien franais.
104
CHAPITRE 4. FONCTIONS GNRATRICES ET CARACTRISTIQUES
Loi de Cauchy
Si X suit une loi de Cauchy,

X
(t) =
1

e
itx
1 +x
2
dx.
Pour la calculer, on peut utiliser la mthode des rsidus. Si t > 0, on vrie facilement
(exercice) que
lim
R
_
C
R
e
itx
1 +x
2
dx = 0,
o C
R
est le demi cercle de diamtre [R,R] dans le demi-plan suprieur. Par consquent,

X
(t) =
1

2i
e
t
2i
= e
t
,
puisque le rsidu en i est gal lim
xi
(x i)e
itx
/(1 + x
2
) = e
t
/2i. En procdant de
faon similaire lorsque t < 0 (il faut prendre le demi-cercle dans le demi-plan infrieur), on
obtient nalement que

X
(t) = e
[t[
, pour tout t R.
Loi normale
On sait par le Lemme 4.2.2 quil est susant de considrer le cas o X est une variable
alatoire normale standard. Dans ce cas,

X
(t) =
1

2
_

1
2
x
2
+itx
dx.
En compltant le carr, x
2
2itx = (x it)
2
+t
2
, et en dplaant le chemin dintgration
de la droite relle la droite Im(z) = t (exercice : justiez cela), on voit que

X
(t) = e

1
2
t
2
.
On a vu quune variable alatoire Y de loi A(,
2
) peut scrire Y = X+. On en dduit
que sa fonction caractristique est donne par

Y
(t) = e

1
2

2
t
2
+it
.
Vecteurs alatoires gaussiens
Observons tout dabord que si X = (X
1
, . . . ,X
n
) est un vecteur alatoire gaussien dont
les composantes sont des variables alatoires indpendantes de loi A(0,
2
i
), alors

X
(t) =
n

i=1

X
i
(t
i
) = e

1
2
t,Dt)
,
105
4.2. FONCTIONS CARACTRISTIQUES
o D
ii
=
2
i
et D
ij
= 0 si i ,= j.
Considrons prsent un vecteur alatoire gaussien X de loi A(,C). Pour t R
n
,
Y = t,X est une variable alatoire normale, et un calcul lmentaire montre que son
esprance est donne par
E(Y ) = t,E(X),
et sa variance par
Var(Y ) = t, Cov(X,X)t.
Par consquent, la fonction caractristique conjointe du vecteur X est donne par

X
(t) = E(e
it,X)
) =
Y
(1) = e

1
2
t,Cov(X,X)t)+it,E(X))
.
Dterminons prsent la fonction caractristique conjointe de X dune autre manire.
La matrice de covariance C tant symtrique, on peut trouver une matrice orthogonale U
et une matrice diagonale D telles que C = U
t
DU. On a donc, en posant Z = U(X),

X
(t) = E(e
it,X)
) = E(e
iUt,Z)
) e
it,)
=
Z
(Ut) e
it,)
.
Or, le vecteur alatoire Z est un vecteur gaussien de loi A(0,D), et ses composantes sont
donc indpendantes. Lobservation ci-dessus implique ainsi que

Z
(Ut) = e

1
2
Ut,DUt)
= e

1
2
t,U
t
DUt)
= e

1
2
t,Ct)
.
On a donc

X
(t) = e

1
2
t,Ct)+it,)
.
On dduit de ces deux calculs que E(X) = et que Cov(X,X) = C.
De plus, nous avons vu que X
1
, . . . ,X
n
sont indpendants si et seulement si la matrice
de covariance C est diagonale. Mais, puisque C = Cov(X,X), ceci a lieu si et seulement si
X
1
, . . . ,X
n
sont non corrles. Ceci dmontre le Thorme 3.6.3.
106
Chapitre 5
Thormes limites
Le but de ce chapitre est dtudier un certain nombres de rsultats classiques de thorie
des probabilits : les lois des grands nombres (faible et forte), le thorme central limite,
et la loi 0-1 de Kolmogorov. Nous verrons aussi plusieurs rsultats techniques trs utiles,
en particulier les ingalit de Markov/Tchebychev, et les Lemmes de Borel-Cantelli.
Les thormes limites sont omniprsents en thorie des probabilits. Une raison de leur
importance est le fait que, en un certain sens, ils permettent de transformer des vnements
de probabilit p [0,1] en des vnements de probabilit proche de 0 ou 1, et ce nest que
pour de tels vnements quun nonc probabiliste devient falsiable.
5.1 Un point technique
Les rsultats de ce chapitre portent sur des suites innies de variables alatoires X
1
,X
2
,X
3
, . . .
de loi conjointe donne. Lexistence dun espace de probabilit sur lequel une telle famille de
variables alatoire puisse tre dnie nest pas vidente, et nous allons brivement discuter
cette question prsent.
Soit (,T,P) un espace probabilis, et X = X
t

tT
une famille de variables alatoires
sur . Nous avons vu qu tout vecteur t = (t
1
, . . . ,t
n
) dlments de T de longueur nie,
on peut associer la fonction de rpartition conjointe F
t
du vecteur alatoire (X
t
k
)
k=1,...,n
.
Lensemble de toutes ces fonctions de rpartition conjointes (pour tous les vecteurs t de
longueur nie) forme ce que lon appelle le systme des lois ni-dimensionnelles de X. Il
est vident que ces fonctions de rpartition conjointes satisfont aux deux conditions de
consistance de Kolmogorov :
lim
x
n+1

F
(t
1
,...,t
n
,t
n+1
)
(x
1
, . . . ,x
n
,x
n+1
) = F
(t
1
,...,t
n
)
(x
1
, . . . ,x
n
), (5.1)
F
t
(x) = F
t
(x), (5.2)
o est une permutation de (1,2, . . . ,n) et, pour tout n-vecteur y = (y
1
, . . . ,y
n
), y =
(y
(1)
, . . . ,y
(n)
).
107
5.2. QUELQUES OUTILS
Le rsultat suivant montre que ces deux proprits caractrisent les systmes de lois
ni-dimensionnelles.
Thorme 5.1.1 (Thorme de consistance de Kolmogorov). Soit T un ensemble arbi-
traire, et supposons qu chaque vecteur t = (t
1
, . . . ,t
n
) dlments de T de longueur nie il
corresponde une fonction de rpartition jointe F
t
. Si la collection F
t
satisfait aux condi-
tions de consistance de Kolmogorov, alors il existe un espace de probabilit (,T,P) et une
collection X = X
t
,t T de variables alatoires sur cet espace telle que F
t
soit le
systme des lois ni-dimensionnelles de X
Dmonstration. Il sagit dun rsultat classique de thorie de la mesure, qui sera dmontr
en Analyse III. En voici une esquisse. Observez que la procdure est fortement rminiscente
de celle employe dans la Section 2.5 pour construire un espace probabilis sur lequel dcrire
la rptition dune innit dexpriences identiques indpendantes.
Soit = R
T
; les points de sont les collections y = (y
t
)
tT
de nombres rels. Soit
T = B
T
la tribu engendre par les ensembles de la forme
tT
B
t
, avec B
t
= R pour tout
t T sauf un nombre ni. Un rsultat fondamental de thorie de la mesure arme quil
existe une mesure de probabilit P sur (,T) telle que
P(y : y
t
1
x
1
,y
t
2
x
2
, . . . , y
t
n
x
n
) = F
t
(x),
pour tout t et x. Lespace (,T,P) est lespace recherch. Il sut de dnir X
t
: R
par
X
t
(y) = y
t
pour obtenir la famille dsire (X
t
)
tT
.
5.2 Quelques outils
5.2.1 Les lemmes de Borel-Cantelli
Soit A
1
,A
2
. . . , une suite innie dvnements sur un espace probabilis (,T,P). Lv-
nement une innit des A
k
sont raliss peut scrire

n=1

_
m=n
A
m
= limsup
n
A
n
.
Il est souvent important de savoir quand cet vnement est ralis.
Thorme 5.2.1 (Lemmes de Borel-Cantelli). Soit A
1
,A
2
. . . , une suite innie dvne-
ments sur un espace probabilis (,T,P), et A = limsup
n
A
n
lvnement une innit
des A
n
sont raliss . Alors
1. P(A) = 0 si

n=1
P(A
n
) < .
2. P(A) = 1 si

n=1
P(A
n
) = et que A
1
,A
2
, . . . sont des vnements indpendants.
108
CHAPITRE 5. THORMES LIMITES
Dmonstration. 1. Pour tout n,
A

_
m=n
A
m
,
et par consquent
P(A)

m=n
P(A
m
),
et le membre de droite tend vers 0 lorsque n tend vers linni.
2. On vrie aisment que
A
c
=

_
n=1

m=n
A
c
m
.
Cependant,
P
_

m=n
A
c
m
_
= lim
N
P
_
N

m=n
A
c
m
_
(Lemme 2.1.2)
= lim
N
N

m=n
(1 P(A
m
)) (indpendance)
lim
N
N

m=n
exp
_
P(A
m
)
_
(1 x e
x
)
= lim
N
exp
_

m=n
P(A
m
)
_
= 0
ds que

n=1
P(A
n
) = . Manifestement (

m=n
A
c
m
)
n1
est une suite croissante dv-
nements ; il suit donc du Lemme 2.1.2 que
P(A
c
) = lim
n
P
_

m=n
A
c
m
_
= 0.
Remarque 5.2.1. Sans lhypothse dindpendance, la seconde partie peut tre fausse :
il sut de considrer la suite dvnements A
k
= B, pour tout k 1. Dans ce cas,
P(A) = P(B). On peut toutefois remplacer cette condition par lindpendance 2 2 (mais
la preuve est alors moins simple).
5.2.2 Quelques ingalits
Supposons que X
1
, . . . ,X
n
soient des variables alatoires obtenues en rptant n fois
la mme exprience de faon indpendante. Si E(X
i
) = pour chaque i, on a vu que
lesprance de (X
1
+ + X
n
)/n vaut galement . Mais est-il possible darmer que la
109
5.2. QUELQUES OUTILS
moyenne des X
i
a de fortes chances dtre proche de ? Cest prcisment le contenu de la
loi faible des grands nombres. Avant de lnoncer, dmontrons une ingalit extrmement
utile.
Thorme 5.2.2. Soit : R [0,). Alors
P((X) a)
E((X))
a
, a > 0.
Dmonstration. Soit A = (X) a. Trivialement,
(X) a1
A
,
et donc, en prenant lesprance,
E((X)) aE(1
A
) = aP(A).
Corollaire 5.2.1. Soit X une variable alatoire.
1. (Ingalit de Markov
1
) Si E([X[) est bien dni, alors
P([X[ a)
E([X[)
a
, a > 0 ;
2. (Ingalit de Bienaym
2
-Tchebychev
3
) Si X possde une variance, alors
P
_

X E(X)

a
_

Var(X)
a
2
, a > 0 ;
3. (Ingalit de Cherno
4
) Soit
H(t) =
_
log E(e
tX
) si E(e
tX
) < ,
sinon.
Alors, pour tout a R,
P(X a) exp
_
sup
t0
ta H(t)
_
.
1. Andrei Andreevitch Markov (1856, Riazan - 1922, Petrograd), mathmaticien russe.
2. Irne-Jules Bienaym (1796, Paris - 1878, Paris), probabiliste et statisticien franais.
3. Pafnouti Lvovitch Tchebychev (1821, Okatovo - 1894, Saint-Petersbourg), mathmaticien russe. Son
nom est aussi translittr comme Chebyshov, Chebyshev, ou Tschebysche.
4. Herman Cherno (1923, New York - ), mathmaticien et statisticien amricain.
110
CHAPITRE 5. THORMES LIMITES
Dmonstration. 1. Il sut de prendre (x) = [x[ dans le Thorme 5.2.2.
2. Par le Thorme 5.2.2, avec (x) = x
2
, appliqu la variable alatoire Y = XE(X),
on a
P
_
[X E(X)[ a
_
= P
_
Y
2
a
2
_

E
_
Y
2
_
a
2
=
Var(X)
a
2
.
3. En appliquant le Thorme 5.2.2 avec (x) = e
tx
, on obtient
P(X a) = P(e
tX
e
ta
) e
ta
E(e
tX
) = e
(taH(t))
,
pour tout t 0.
Remarque 5.2.2. Soit Y une variable alatoire possdant une variance nie. Lingalit
de Bienaym-Tchebychev montre que la probabilit quune variable alatoire sloigne de
son esprance dune distance grande par rapport son cart-type est trs faible. En dautres
termes, la variable alatoire Y est concentre dans un intervalle dordre (Y ) autour de
son esprance . Nous verrons des formes plus fortes et plus prcises de cette observation
plus tard.
5.3 Modes de convergence
Le but de ce chapitre est dtudier le comportement asymptotiques de certaines va-
riables alatoires. Pour ce faire, nous allons avoir besoin dune notion de convergence dune
suite de variables alatoires. Il se trouve quil existe plusieurs notions de convergence na-
turelles, que nous allons brivement dcrire dans cette section.
Dnition 5.3.1. Soient X
1
,X
2
, . . . et X des variables alatoires sur un espace probabilis
(,T,P). On dit que
1. X
n
X presque srement, not X
n
p.s.
X, si
P
__
: lim
n
X
n
() = X()
__
= 1.
2. X
n
X en moyenne r (r 1), not X
n
r
X, si E([X
r
n
[) < , pour tout n, et
lim
n
E([X
n
X[
r
) = 0.
3. X
n
X en probabilit, not X
n
P
X, si
lim
n
P([X
n
X[ > ) = 0, > 0.
4. X
n
X en loi, not X
n
/
P
X, si
lim
n
P(X
n
x) = P(X x),
en chaque point x en lesquels F
X
(x) = P(X x) est continue.
111
5.3. MODES DE CONVERGENCE
Remarque 5.3.1. Lorsque X
n
1
X, on parle de convergence en moyenne.
Lorsque X
n
2
X, on parle de convergence en moyenne quadratique.
Notons le rsultat suivant, qui montre quelles sont les implications entre ces dirents
modes de convergence.
Thorme 5.3.1. Les implications suivantes sont vries :
(X
n
p.s.
X)

(X
n
P
X) (X
n
/
P
X)

(X
n
s
X)

(X
n
r
X)
pour tout r > s 1. Aucune autre implication nest vraie en gnral.
Dmonstration. Sera faite en exercices.
Certaines implications dans lautre sens deviennent possibles si lon ajoute des condi-
tions supplmentaires. Le thorme suivant contient quelques rsultats de ce type qui se
rvlent particulirement utiles.
Thorme 5.3.2. 1. Si X
n
/
P
c, avec c une constante, alors X
n
P
c.
2. Si X
n
P
X et k tel que P([X
n
[ k) = 1, pour tout n, alors X
n
r
X, pour tout
r 1.
3. Si

n
P([X
n
X[ > ) < , pour tout > 0, alors X
n
p.s.
X.
Dmonstration. 1. P([X
n
c[ > ) = P(X
n
< c ) +P(X
n
> c +) 0, si X
n
/
P
c.
2. Montrons tout dabord que si X
n
P
X et P([X
n
[ k) = 1, alors P([X[ k) = 1.
En eet, cela implique que X
n
/
P
X et donc que P([X[ k) = lim
n
P([X
n
[ k) = 1.
Posons prsent A
n
() = [X
n
X[ > . Alors
[X
n
X[
r

r
1
A
n
()
c + (2k)
r
1
A
n
()
, P-p.s.
En prenant lesprance, on obtient
E
_
[X
n
X[
r
_

r
+ (2k)
r
P(A
n
())
r
,
lorsque n . La conclusion suit puisque tait arbitraire.
3. Larmation est une consquence du lemme suivant.
Lemme 5.3.1. Soit A
n
() = [X
n
X[ > et B
m
() =

nm
A
n
(). Alors X
n
p.s.
X si
et seulement si lim
m
P(B
m
()) = 0, > 0.
112
CHAPITRE 5. THORMES LIMITES
Dmontration du Lemme 5.3.1. Soit C = : lim
n
X
n
() = X(), et
A() = : A
n
() pour une innit de valeurs de n .
Manifestement, X
n
() X() si et seulement si , A(), pour tout > 0. Par cons-
quent, P(C) = 1 implique que P(A()) = 0, pour tout > 0. Dautre part, si P(A()) = 0
pour tout > 0, alors
P(C
c
) = P(
_
>0
A()) = P(
_
m1
A(1/m))

m1
P(A(1/m)) = 0,
puisque
t
= A() A(
t
). Ceci montre que P(C) = 1 si et seulement si P(A()) = 0
pour tout > 0.
La premire armation suit puisque A() =

m
B
m
() et donc P(A()) = 0 si et
seulement si lim
m
P(B
m
()) = 0.
Pour dmontrer 3., il sut alors dobserver que
P(B
m
())

n=m
P(A
n
()),
et donc lim
m
P(B
m
()) = 0 ds que

n
P(A
n
()) < , par le premier lemme de Borel-
Cantelli, cf. Thorme 5.2.1.
5.4 La loi des grands nombres
5.4.1 Loi faible des grands nombres
Dnition 5.4.1. Soient X
1
,X
2
, . . . , X
n
une famille de variables alatoires. Leur moyenne
empirique est la variable alatoire
S
n
=
1
n
n

i=1
X
i
.
La Figure 5.1 montre le comportement dune ralisation de la moyenne empirique dune
famille de variables alatoires de loi U(1, 1) (pour n allant de 1 10000). On voit que
la moyenne empirique semble converger vers son esprance (nulle dans ce cas). Que cela a
bien lieu est le contenu de la loi des grands nombres.
Thorme 5.4.1 (Loi faible des grands nombres). Pour tout entier n 1, on se donne
des variables X
1
, . . . ,X
n
, non-corrles, de mme esprance et de mme variance
2
.
Alors la moyenne empirique S
n
converge en moyenne quadratique vers , lorsque n :
E
_
[S
n
[
2
_
=

2
n
.
En particulier,
P([S
n
[ )

2

2
n
0, n
pour tout > 0.
113
5.4. LA LOI DES GRANDS NOMBRES
Figure 5.1: La moyenne empirique dune famille de variables alatoires de loi U(1, 1) (n allant
de 1 10000).
Dmonstration. On a
E
_
[S
n
[
2
_
= E
_
(S
n
E(S
n
))
2
_
= Var(S
n
) =

2
n
.
La seconde armation suit alors de lingalit de Bienaym-Tchebychev,
P([S
n
[ )
Var(S
n
)

2
.
Exemple 5.4.1. On eectue 10000 lancers dune pice de monnaie quilibre. An de
travailler avec des variables centres, on encode le rsultat du k
me
jet par une variable
X
k
telle que P(X
1
= 1) = P(X
1
= 1) =
1
2
(au lieu de 0 et 1). La loi faible des grands
nombres nonce ci-dessus arme que S
n
[, ] avec grande probabilit lorsque n est
susamment grand. Lestime dans la preuve du thorme nous donne
P
_
[S
n
[
_

1
n
2
.
Par exemple, pour 10000 jets et = 0,1, on a
P([S
10000
[ 0,1)
1
100
.
Notez que ce nest quune borne suprieure sur cette probabilit. On verra plus bas quelle
est en fait trs mauvaise dans le cas prsent.
114
CHAPITRE 5. THORMES LIMITES
Dans le cas o les variables alatoires sont indpendantes, et pas seulement non-
corrles, la version suivante de la loi des grands nombres montre quil sut davoir une
esprance nie.
Thorme 5.4.2 (Loi faible des grands nombres). Soient X
1
,X
2
, . . . des variables alatoi-
res indpendantes de mme esprance . Alors S
n
/
P
:
lim
n
F
S
n
(x) =
_
1 si x > ,
0 si x < .
Dmonstration. Il suit du Lemme 4.2.1 que

X
(t) = 1 + it +o(t).
Par consquent, la Proposition 4.2.1 et le Lemme 4.2.2 impliquent que la fonction caract-
ristique de la variable alatoire S
n
=
1
n

n
i=1
X
i
satisfait

S
n
(t) =
_

X
(t/n)
_
n
=
_
1 +
it
n
+o(
t
n
)
_
n
e
it
,
lorsque n . Comme e
it
est la fonction caractristique de la variable alatoire constante
, le rsultat suit du Thorme de continuit 4.2.4.
Remarque 5.4.1. On ne peut pas aaiblir davantage les hypothses : une suite de variables
alatoires indpendantes dont lesprance nexiste pas ne satisfait pas la loi des grands
nombres. Un exemple simple est donn par une suite de variables alatoires i.i.d. suivant
une loi de Cauchy. En eet, la fonction caractristique de la somme de n variables alatoires
i.i.d. suivant une loi de Cauchy est donne par

S
n
(t) =
_

X
(t/n)
_
n
= e
[t[
,
ce qui montre que S
n
suit galement une loi de Cauchy, et ne peut donc pas converger vers
une constante ! La Figure 5.2 montre le comportement dune ralisation de S
n
pour n allant
de 1 10000.
Ce quarme la loi faible des grands nombres, cest que pour une prcision donne,
la probabilit que lesprance et la moyenne empirique dire de plus de peut tre ren-
due aussi petite que lon dsire en considrant un chantillon susamment grand. En ce
sens, elle justie posteriori laxiomatique de la thorie de probabilits, en faisant le lien
avec la notion intuitive de frquence de ralisation dun vnement. En eet, considrons
une exprience alatoire dcrite par un triplet (,T,P), que lon rpte N fois, de faon
indpendante, obtenant une suite de rsultats (
1
,
2
, . . . ,
N
). Alors, pour tout vnement
A T, les variables alatoires Y
k
(
1
, . . . ,
N
) = 1
A
(
k
) sont i.i.d., avec E(Y
k
) = P(A).
Par consquent, si lon note N(A) = #1 k N :
k
A le nombre dexpriences lors
desquelles lvnement A est ralis, on a
N(A)
N
=
1
N
N

k=1
Y
k
/
P
P(A),
115
5.4. LA LOI DES GRANDS NOMBRES
Figure 5.2: La moyenne empirique dune famille de variables alatoires suivant une loi de Cauchy
(n allant de 1 10000).
ce qui est parfaitement en accord avec linterprtation frquentiste des probabilits.
Pour tre utile en pratique (en particulier, pour dterminer quelle doit tre la taille
minimale dun chantillon si lon dsire obtenir un degr de certitude donn pour une
prcision donne), il est important dobtenir des estimations plus prcises de la vitesse de
convergence.
Exemple 5.4.2. Pour illustrer ce point, reprenons lexemple des 10000 jets dune pice
quilibre. An de travailler avec des variables centres, on encode le rsultat du k
me
jet
par une variable X
k
telle que P(X
1
= 1) = P(X
1
= 1) =
1
2
(au lieu de 0 et 1).
On applique lingalit de Cherno. Il sut de dterminer la fonction H correspon-
dante : e
H(t)
= E(e
tS
n
) = E(

n
k=1
e
tX
k
/n
) =

n
k=1
E(e
tX
k
/n
) = cosh(t/n)
n
. On a donc
P
_
S
n
x
_
inf
t0
e
(nlog cosh(t/n)tx)
.
Un petit calcul
5
montre que la fonction f(t) = log cosh(t/n) xt/n atteint son minimum
en t

=
n
2
log[(1 +x)/(1 x)]. En introduisant
I(x) = f(t

) =
1
2
_
(1 +x) log(1 +x) + (1 x) log(1 x)
_
,
et en utilisant la symtrie pour estimer P(S
n
x
_
, on a nalement
P
_
[S
n
[ x
_
2 e
nI(x)
. (5.3)
5. Se rappeler que cosh(u) = 1/
_
1 tanh
2
(u) et que argtanh(u) =
1
2
log{(1 + x)/(1 x)}.
116
CHAPITRE 5. THORMES LIMITES
En posant n = 10000 et = 0,1, on trouve I(0,1) 0,005, et par consquent
P(S
10000
, [0,1,0,1]) 3,5 10
22
.
Comparez ce rsultat avec lestime de lExemple 5.4.1.
Un rsultat du type (5.3) est ce quon appelle une estime de grande dviation. La thorie
des grandes dviations est un domaine important de la thorie des probabilits, et a t
rcemment rcompense du prix Abel par lintermdiaire de lun de ses principaux artisans,
S.R.S. Varadhan
6
.
5.4.2 La loi forte des grands nombres
Si la loi faible des grands nombres montre que pour tout grand n x, S
n
est typi-
quement proche de , elle narme pas que S
n
reste forcment proche de lorsque n
augmente : elle laisse ouverte la possibilit quil existe > 0 et une sous-suite (n
k
)
k1
,
n
k
, telle que [S
n
k
[ > , pour tout k 1. La loi forte des grands nombres montre
que ceci a probabilit nulle : pour tout > 0, avec probabilit 1, seul un nombre ni des
vnements

S
n

>
sont raliss.
Thorme 5.4.3. Soit X
1
,X
2
, . . . une suite de variables alatoires i.i.d. Alors, lorsque
n ,
1
n
n

i=1
X
i
p.s.

pour une certaine constante , si et seulement si E([X
1
[) < . Dans ce cas, = E(X
1
).
Dmonstration. Nous nous contenterons de dmontrer la convergence sous lhypothse que
E([X
1
E(X
1
)[
4
) < . Comme toujours, on peut supposer sans perte de gnralit que
E(X
1
) = 0. Dans ce cas, le Thorme 5.2.2 implique que S
n
=
1
n

n
i=1
X
i
satisfait
P([S
n
[ > )
E(S
4
n
)

4
.
Puisque E(X
1
) = 0, on a
E(S
4
n
) = n
3
E(X
4
1
) + 12n
3
(n 1)E(X
2
1
)E(X
2
2
),
et il existe donc une constante C telle que

n1
P([S
n
[ > )

n1
C
n
2
< .
6. Sathamangalam Ranga Iyengar Srinivasa Varadhan (1940, Chennai - ), probabiliste amricain dori-
gine indienne. Laurat du prix Abel en 2007.
117
5.5. LE THORME CENTRAL LIMITE
Figure 5.3: Convergence vers une loi normale pour une suite de variables alatoires X
i
de loi exp(1).
Les courbes correspondent aux densits des variables
1

n
i=1
(X
i
1), pour n = 2,8,32,128. La
densit de la loi A(0,1) est aussi trace.
Ceci implique, via le Lemme de Borel-Cantelli
7
(Thorme 5.2.1), que, P-presque srement,
[S
n
[ pour tout n susamment grand. La convergence presque-sre suit alors du point
3. du Thorme 5.3.2.
prsent que lon sait que la moyenne empirique dune suite de variables alatoirs in-
dpendantes se concentre autour de son esprance, la question suivante est naturelle : que
peut-on dire des uctuations de la moyenne empirique autour de lesprance, cest--dire
de la distribution de S
n
? La rponse cette question, le Thorme Central Limite,
est un des rsultats majeurs de la thorie des probabilits, et est assez extraordinaire : il
arme que
1. S
n
est de lordre de 1/

n.
2. La distribution de (S
n
)
_
n/
2
approche la mme distribution, lorsque n devient
grand, quelle que soit la distribution des X
i
, tant que ceux-ci ont une variance
2
nie !
118
CHAPITRE 5. THORMES LIMITES



t + t
f

1
Figure 5.4: La fonction f

(en rouge) et lindicatrice quelle approxime (traitill).


5.5 Le Thorme Central Limite
Thorme 5.5.1 (Thorme Central Limite). Soit X
1
,X
2
, . . . une suite de variables ala-
toires i.i.d. telles que E(X
1
) = et 0 < Var(X
1
) =
2
< . Alors
lim
n
sup
xR

P
_
1

n
2
n

k=1
(X
k
) x
_
(x)

= 0.
Si, de plus, E([X
1
E(X
1
)[
3
) < , alors
sup
xR

P
_
1

n
2
n

k=1
(X
k
) x
_
(x)

C
E([X
1
E(X
1
)[
3
)

n
,
pour une certaine constante universelle C 0,7655.
Remarque 5.5.1. Lestime explicite de lerreur dans le thorme central limite donne
ci-dessus est appele ingalit de Berry
8
Essen
9
. Elle joue un rle trs important lorsque
lon veut appliquer le thorme central limite dans la pratique.
Dmonstration. Mthode directe. On ne dmontre que la seconde partie, et avec une
estimation moins bonne de lerreur. On peut supposer, sans perte de gnralit, que = 0
et
2
= 1 (sinon il sut de considrer les variables alatoires
1
(X
i
)). Soit Z
1
,Z
2
, . . .
une suite de variables alatoires i.i.d. de loi A(0,1), indpendantes des variables alatoires
X
k
. On pose

S
n
=
1

n
n

i=1
X
i
, T
n
=
1

n
n

i=1
Z
i
.
7. Francesco Paolo Cantelli (1875, Palerme - 1966, Rome), mathmaticien italien.
8. Andrew C. Berry (1 ? ? ?, - ? ? ? ?, ), mathmaticien...
9. Carl-Gustav Essen (1918, ? ? ? - 2001, ? ? ?), mathmaticien sudois.
119
5.5. LE THORME CENTRAL LIMITE
(Observez que T
n
suit une loi A(0,1).) Soit h : R [0,1] une fonction de classe (
3
, telle
que h(s) = 1 si s 0, et h(s) = 0 si s 1. tant donn t R et 0 < 1, on dnit une
nouvelle fonction f

: R [0,1] par (voir Fig. 5.4)


f

(x) = h(
1
(x t)).
Par construction, 1
(,t]
(x) f

(x), pour tout x R, et donc


P(

S
n
t) = E(1
(,t]
(

S
n
)) E(f

S
n
)).
Puisque (t) = E(1
(,t]
(T
n
)), on obtient donc
P(

S
n
t) (t) E(f

S
n
)) E(f

(T
n
)) +E(f

(T
n
)) E(1
(,t]
(T
n
)).
Manifestement, T
n
suivant une loi A(0,1),
E(f

(T
n
)) E(1
(,t]
(T
n
)) =
1

2
_
t+
t
h(
1
(x t))e
x
2
/2
dx

2
.
Il reste donc estimer E(f

S
n
)) E(f

(T
n
)). On le fait en rcrivant cette quantit sous
la forme dune somme tlescopique, dans laquelle on remplace successivement une variable
alatoire X
i
par une variable alatoire Z
i
:
E(f

S
n
)) E(f

(T
n
)) =
n

k=1
_
E(f

(U
k
+
X
k

n
)) E(f

(U
k
+
Z
k

n
))
_
,
o U
k
= (Z
1
+ Z
2
+ + Z
k1
+ X
k+1
+ X
k+2
+ + X
n
)/

n. Les variables alatoires


U
k
, X
k
et Z
k
sont indpendantes. Par un dveloppement de Taylor de f

autour de U
k
, on
peut crire
f

(U
k
+ (X
k
/

n)) = f

(U
k
) +
X
k

n
f
t

(U
k
) +
X
2
k
2n
f
tt

(U
k
) +
X
3
k
6n
3/2
f
ttt

(Y ),
avec U
k
Y U
k
+ (X
k
/

n). On traite de la mme faon le terme f

(U
k
+ (Z
k
/

n)).
On obtient ainsi
E(f

(U
k
+
X
k

n
)) E(f

(U
k
+
Z
k

n
))
A

3
n
3/2
_
E([X
k
[
3
) +E([Z
k
[
3
)
_
,
o A = sup
yR
[h
ttt
(y)[ =
3
sup
yR
[f
ttt

(y)[. En choisissant = n
1/8
, on obtient donc
P(

S
n
t) (t) Cn
1/8
.
La borne infrieure est prouve de faon similaire, en remplaant la fonction f

par la
fonction g

(x) = h(
1
(x t +)) ; observez que g

(x) 1
(,t]
(x) pour tout x.
Mthode utilisant la fonction caractristique. On ne dmontre que la premire af-
rmation. La preuve est presque identique celle du Thorme 5.4.2. On peut nouveau
120
CHAPITRE 5. THORMES LIMITES
supposer, sans perte de gnralit, que = 0 et
2
= 1. Dans ce cas, il suit du Lemme 4.2.1
que

X
(t) = 1
1
2
t
2
+o(t
2
).
Dautre part, la Proposition 4.2.1 et le Lemme 4.2.2 impliquent que la fonction caractris-
tique de la variable alatoire

S
n
=
1

n
i=1
X
i
satisfait

S
n
(t) =
X
(t/

n)
n
=
_
1
t
2
2n
+o(
t
2
n
)
_
n
,
or cette dernire quantit converge vers e
t
2
/2
, lorsque n tend vers linni. On reconnat
l la fonction caractristique dune variable alatoire de loi A(0,1), et le rsultat suit par
consquent du Thorme de continuit 4.2.4.
Le Thorme Central Limite montre que, pour n grand, on a
P
_

n
i=1
X
i
n

n
2
[a,b]
_
(b) (a),
ou encore
P
_
n

i=1
X
i
[a,

b]
_
(

b n

n
2
) (
a n

n
2
).
Exemple 5.5.1. Une chane de montage produit des pices dfectueuses avec un taux de
10%. Quelle est la probabilit dobtenir au moins 50 pices dfectueuses parmi 400 ?
Modlisons cette situation par une preuve de Bernoulli de paramtre p = 0,1. Avec
n = 400, n = np = 40 et n
2
= np(1 p) = 36, et en notant N le nombre de pices
dfectueuses, on obtient
P(N 50) = P(N [50, 400]) ()
_
50 40

36
_
0,05.
Il y a environ 5% de chances dobtenir au moins 50 pices dfectueuses.
titre de comparaison, N suivant une loi binom(400, 0,1), un calcul exact donne
P(N 50) =
400

k=50
_
400
k
_
(0,1)
k
(0,9)
400k
0,06,
ce qui est assez proche de lapproximation prcdente.
5.6 La loi 0-1 de Kolmogorov
Lnonc prcis de ce rsultat ncessite un peu de terminologie.
Dnition 5.6.1. Soit X
1
,X
2
, . . . une suite de variables alatoires sur un espace de pro-
babilit (,T,P). Pour toute sous-collection X
i
,i I, on note (X
i
,i I) la plus petite
tribu telle que chaque X
i
, i I, soit mesurable. (X
i
,i I) est appele tribu engendre par
les variables alatoires X
i
,i I.
121
5.6. LA LOI 0-1 DE KOLMOGOROV
(X
i
,i I) contient les vnements que lon peut dnir laide des X
i
, i I.
Dnition 5.6.2. Soit T
n
= (X
n+1
,X
n+2
, . . .). Alors, T
n
T
n+1
. . .. La tribu T

df
=

n
T
n
est appele tribu asymptotique. Les lments de cette tribu sont appels vnements
asymptotiques.
La tribu asymptotique contient des vnements comme
(
n

i=1
X
i
)
n
converge, lim
n
X
n
existe, lim
n
1
n
(X
1
+ +X
n
) = 0, . . .
Ceux-ci sont indpendants des valeurs prises par les X
i
, i I, pour tout ensemble ni I.
Thorme 5.6.1 (loi 0-1 de Kolmogorov). Si X
1
,X
2
, . . . sont des variables alatoires
indpendantes, alors tout vnement A T

satisfait P(A) 0,1.


Dnition 5.6.3. Une tribu dont tous les lments sont de probabilit 0 ou 1 est dite
triviale.
Dmonstration. Soit A T

. Puisque A T
n
, pour tout n, et que T
n
est indpendant de
(X
1
,X
2
, . . . ,X
n
), on en dduit que A est indpendant de

n
(X
1
,X
2
, . . . ,X
n
). Il suit
10
que A est indpendant de (X
1
,X
2
, . . .). Or, A (X
1
,X
2
, . . .). On en dduit donc que A
est indpendant de lui-mme. Ceci implique que
P(A) = P(A A) = P(A)
2
,
et donc P(A) 0,1.
Dnition 5.6.4. Une variable alatoire mesurable par rapport la tribu asymptotique
T

est dite asymptotique.


Corollaire 5.6.1. Soient X
1
,X
2
, . . . des variables alatoires indpendantes, et Y une va-
riable alatoire asymptotique. Alors il existe y R tel que
P(Y = y) = 1.
Dmonstration. Y est asymptotique si et seulement si
: Y () x T

,
pour tout x R. La loi 0-1 de Kolmogorov implique la trivialit de T

. Par consquent,
la fonction de rpartition de Y satisfait
F
Y
(x) = P(Y x) 0,1.
Soit y = inf x : P(Y x) = 1 (avec la convention que inf = ). On a donc F
Y
(x) =
1
[y,)
(x), ce qui implique que Y = y presque srement.
10. Ceci requiert en fait un argument classique de thorie de la mesure. On observe que la classe
des vnements indpendants de A forme une classe monotone. Puisque cette classe contient lalgbre

n
(X
1
,X
2
, . . . ,X
n
), il suit du Thorme des classes monotones quelle contient galement la tribu en-
gendre (X
1
,X
2
, . . .).
122
Chapitre 6
Introduction la statistique
Dans ce chapitre, nous prsentons une brve introduction aux mthodes statistiques. Il
est important dobserver que le point de vue de ce chapitre est trs dirent de celui des
autres chapitres, dont la nature est plus probabiliste. Plutt que de se donner priori un
espace de probabilit (ou une collection de variables alatoires de lois donnes) et dtudier
ses proprits, ici on considre le problme suivant : on se donne une collection x
1
, . . . ,x
n
dobservations rsultant de la rptition dune srie dexpriences alatoires indpendantes,
et on cherche dterminer la loi des variables alatoires correspondantes.
6.1 Estimateurs
6.1.1 Dnition, consistance, biais
Soit P une mesure de probabilit sur R
d
.
Dnition 6.1.1. Un chantillon de taille n (ou n-chantillon) de loi P est une famille
X
1
, . . . ,X
n
de variables alatoires i.i.d. de loi P.
Une ralisation dun n-chantillon est le rsultat de n tirages indpendants selon la loi
P; cest une collection x
1
, . . . ,x
n
de points de R
d
.
Exemple 6.1.1. Sondage de n individus sur une question binaire. Dans ce cas, on
modlise lchantillon par une collection de n variables alatoires indpendantes sui-
vant toutes une loi de Bernoulli de paramtre p [0,1].
Dure de vie de composants lectroniques. Dans ce cas, on modlise les dures de vie
par une famille de variables alatoires i.i.d. de loi exponentielle de paramtre > 0.
Rpartition de la taille des individus dans une population homogne. On peut mod-
liser cette situation par une collection de variables alatoires i.i.d. de loi A(,
2
).
Dans chaque cas, les variables alatoires formant le n-chantillon suivent une loi P
connue, dpendant dun ou plusieurs paramtres, en gnral inconnus ; on notera la
collection de paramtres, lensemble des valeur que peut prendre, et P

la loi corres-
pondante. Pour les exemples prcdents :
123
6.1. ESTIMATEURS
= p = [0,1].
= = R

+
.
= (,
2
) = R

+
R

+
.
Le problme fondamental est de prdire (une valeur approche de) partir des donnes
(cest--dire du n-chantillon). On parle alors destimation paramtrique.
Dnition 6.1.2. Soit X
1
, . . . ,X
n
un n-chantillon.
On appelle statistique toute fonction mesurable F(X
1
, . . . ,X
n
).
On appelle estimateur de f() toute statistique valeurs dans f(), utilise pour estimer
f().
Insistons sur le fait quun estimateur est une fonction de lchantillon, et ne dpend
pas de .
La raison pour laquelle on doit se contenter destimer les paramtres de la loi est que
lon ne dispose que dchantillons nis. Une proprit essentielle que lon demande un
estimateur est de donner, dans la limite o la taille de lchantillon tend vers linni, la
valeur exacte que lon cherche estimer.
Dnition 6.1.3. Un estimateur T
n
de f() est consistant (ou convergent) sil converge
en probabilit vers f(),
lim
n
P

([T
n
f()[ ) = 0, > 0, .
Exemple 6.1.2. La moyenne empirique

X
n
=
1
n
(X
1
+ +X
n
)
est un estimateur de f() = E

(X). La loi des grands nombres implique que cet estimateur


est consistant.
Une caractristique classique dun estimateur est son biais.
Dnition 6.1.4. Le biais dun estimateur T de f() est dni par E

(T f()) = E

(T)
f(). On dit que T est un estimateur sans biais de f() si E

(T) = f(), , sinon on


dit quil est biais.
Insister sur labsence de biais est utile lorsquon veut dmontrer loptimalit de certains
estimateurs dans une certaine classe ; dans la pratique, ce nest pas une condition toujours
dsirable : il est tout fait possible quun estimateur biais soit meilleur quun estimateur
sans biais. Nous reviendrons sur ce point plus tard.
Dnition 6.1.5. Une famille destimateurs (T
n
)
n1
est appele estimateur asymptotique-
ment sans biais de f() si
lim
n
(E

(T
n
) f()) = 0, .
124
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Proposition 6.1.1. Si T
n
est un estimateur de f() asymptotiquement sans biais, et tel
que sa variance tende vers 0 lorsque n , alors T
n
est un estimateur consistant de f().
Dmonstration. Soit > 0. Par le Thorme 5.2.2,
P

([T
n
f()[ ) = P

((T
n
f())
2

2
)
2
E

_
(T
n
f())
2
_
,
pour tout . Puisque E

_
(T
n
f())
2
_
= Var

(T
n
) +
_
E

(T
n
f())
_
2
, et que chacun
de ces deux termes tend vers 0 par hypothse, la conclusion suit.
6.1.2 Quelques exemples
Moyenne empirique
Soit X
1
, . . . ,X
n
un n-chantillon de loi P

. On cherche estimer f() = E

(X
1
). Un
estimateur naturel est la moyenne de lchantillon :

X
n
=
1
n
(X
1
+ +X
n
)
Comme mentionn plus haut, sa consistance suit de la loi des grands nombres. Dautre
part,
E

(

X
n
) =
1
n
(E

(X
1
) + +E

(X
n
)) = E

(X
1
) = f(),
et il sagit donc dun estimateur sans biais de f().
Variance empirique
On dsire prsent estimer la variance
2
de X
1
. Un estimateur naturel est

2
n
=
1
n
_
X
2
1
+ +X
2
n
_

_
1
n
(X
1
+ +X
n
)
_
2
.
La loi des grands nombres implique sa consistance, puisque le premier terme converge vers
E

(X
2
1
) et le second vers E

(X
1
)
2
. Calculons le biais de cet estimateur. On a
E

_
1
n
_
X
2
1
+ +X
2
n
_
_
= E

(X
2
1
),
E

_
_
1
n
(X
1
+ +X
n
)
_
2
_
=
1
n
E

(X
2
1
) +
n 1
n
E

(X
1
)
2
,
et donc
E

(
2
n
) =
n 1
n
_
E

(X
2
1
) E

(X
1
)
2
_
=
n 1
n

2
.
Cet estimateur est donc biais. On voit quun estimateur non biais de la variance est
donn par
S
2
n
=
n
n 1

2
n
.
125
6.1. ESTIMATEURS
Covariance empirique
On considre un n-chantillon (X
1
,Y
1
), . . . ,(X
n
,Y
n
), et on cherche estimer la cova-
riance de X et Y . Des considrations tout fait similaires celles faites ci-dessus pour la
variance montrent que lestimateur naturel

n
=
1
n
_
X
1
Y
1
+ +X
n
Y
n
_

_
1
n
(X
1
+ +X
n
)
__
1
n
(Y
1
+ +Y
n
)
_
est consistant et biais, mais que lestimateur

n
=
n
n 1

n
est consistant et sans biais.
Mthode de Monte-Carlo.
On cherche estimer numriquement
I =
_
b
a
h(x) dx,
avec h : [a,b] R. Une approche consiste interprter I comme une esprance :
I = (b a)
_
R
h(x)
1
[a,b]
(x)
b a
dx = (b a) E(h(X)),
o X suit une loi uniforme sur [a,b]. On va estimer I laide de lestimateur

I = (b a)
1
n
_
h(U
1
) + +h(U
n
)
_
,
o U
1
, . . . ,U
n
est un n-chantillon de loi uniforme sur [a,b].

I est un estimateur sans biais
et consistant de I.
6.1.3 Construction destimateurs
Un problme important est de trouver une faon de construire des estimateurs de f().
Nous verrons deux mthodes : la mthode des moments, et le maximum de vraisemblance.
Mthode des moments
Soit X
1
, . . . ,X
n
un n-chantillon de loi P

. Supposons que = E

(g(X
1
)). Alors, on
peut estimer laide de lestimateur naturel

=
1
n
(g(X
1
) + +g(X
n
)),
126
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
et on vrie immdiatement que ce dernier est consistant et sans biais. Par exemple, si
X
1
, . . . ,X
n
est un n-chantillon de loi uniforme sur [0,], > 0, alors
E

(X
1
) =
1
2
,
et on peut utiliser

= 2

X
n
pour estimer, sans biais, .
Un choix classique, qui donne son nom la mthode, correspond considrer g(x) = x
r
,
ce qui permet destimer lorsque ce dernier peut sexprimer en termes des moments E

(X
r
),
= h(E

(X
r
)) : on considre alors lestimateur, en gnral biais,

= h(
1
n
(X
r
1
+ +X
r
n
)).
Exemple 6.1.3. Si X
1
, . . . ,X
n
est un n-chantillon de loi exponentielle de paramtre ,
alors puisque
E

(X
1
) = 1/,
on peut utiliser

= 1/

X
n
pour estimer .
Estimateur du maximum de vraisemblance
On considre un n-chantillon X
1
, . . . ,X
n
de loi P

. tant en possession dune ralisa-


tion x
1
, . . . ,x
n
dun n-chantillon, une approche naturelle au problme de lestimation est
la suivante : on cherche, parmi toutes les valeurs possibles de , celle sous laquelle il tait
le plus probable davoir observ les valeurs x
1
, . . . ,x
n
; en dautres termes, on cherche la
valeur de qui explique le mieux les valeurs obtenues. Nous allons prsent construire
un estimateur bas sur cette ide. On suppose, pour commencer les variables alatoires
X
1
, . . . ,X
n
discrtes.
Dnition 6.1.6. La vraisemblance (ou fonction de vraisemblance), note L(; x
1
, . . . ,x
n
),
dun modle en x
1
, . . . , x
n
est la probabilit dobserver X
1
= x
1
, . . . ,X
n
= x
n
lorsque le
paramtre est .
Remarque 6.1.1. Insistons sur le fait que la variable est ; x
1
, . . . ,x
n
sont des paramtres.
Par indpendance des observations, on peut crire
L(; x
1
, . . . ,x
n
) =
n

i=1
P

(X
i
= x
i
).
La dnition ci-dessus na de sens que pour des variables alatoires discrtes. Dans le cas
continu, on travaille avec les densits :
L(; x
1
, . . . ,x
n
) =
n

i=1
f

(x
i
),
o f

est la densit associe la loi P

.
127
6.1. ESTIMATEURS
Dnition 6.1.7. On appelle estimateur du maximum de vraisemblance de la variable
alatoire correspondant la valeur

(X
1
, . . . ,X
n
) en laquelle la fonction de vraisemblance
atteint son maximum.
Proposition 6.1.2. Si

est lestimateur du maximum de vraisemblance de et f est
injective, alors f(

) est lestimateur du maximum de vraisemblance de f().


Dmonstration. vident.
Exemples
Loi exponentielle de paramtre . La fonction de vraisemblance est (x
i
> 0, i =
1, . . . , n)
L(; x
1
, . . . ,x
n
) =
n

i=1
e
x
i
=
n
e
(x
1
++x
n
)
.
Pour trouver le maximum, on considre la log-vraisemblance,
log L(; x
1
, . . . ,x
n
) = nlog (x
1
+ +x
n
).
La drive de cette dernire sannule en = n/(x
1
+ +x
n
), et on vrie quil sagit dun
maximum. Lestimateur du maximum de vraisemblance de est donc

=
n
X
1
+ +X
n
.
Loi normale A(,1), R. Un calcul similaire au prcdent (exercice) montre que
lestimateur du maximum de vraisemblance est donn par
=
X
1
+ +X
n
n
.
Loi normale A(0,
2
). Le mme type de calcul (exercice) montre que lestimateur du
maximum de vraisemblance est donn par

2
=
X
2
1
+ +X
2
n
n
.
Loi normale A(,
2
). On veut estimer les deux paramtres prsent, cest--dire =
(,
2
). Le calcul est similaire (mais on travaille avec une fonction de 2 variables prsent),
et est laiss en exercice. On trouve que lestimateur du maximum de vraisemblance est

= ( ,
2
) o
=
1
n
n

i=1
X
i
,
2
=
1
n
n

i=1
(X
i
)
2
.
128
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Loi uniforme sur [0,], > 0. La fonction de vraisemblance prend la forme
L(; x
1
, . . . ,x
n
) =
1

n
n

i=1
1
x
i

=
1

n
1
max
i
x
i

.
La fonction de vraisemblance est nulle si < max
i
x
i
. Supposons donc que max
i
x
i
.
Dans ce cas, L(; x
1
, . . . ,x
n
) =
n
, qui est une fonction dcroissante de . Le maximum
est donc atteint en = max
i
x
i
. Lestimateur du maximum de vraisemblance est donc
donn par

= maxX
1
, . . . ,X
n
.
6.1.4 Comparaison destimateurs
tant donn quil est possible de dnir une multitude destimateurs dirents pour la
mme quantit, il est important davoir un moyen de les comparer. Une faon de le faire
est de considrer la dispersion de la loi de lestimateur, puisque celle-ci reprsente lerreur
typique que lon fait lors dune application.
Dnition 6.1.8. Le risque quadratique de lestimateur

de est dni par
1

() = E

_
(

)
2
_
.
Dnition 6.1.9. Si

et

sont deux estimateurs de , on dira que

est meilleur que

si 1

() < 1

(), .
Similairement, si on veut estimer f() avec un estimateur T, alors le risque quadratique
de T est dni par
1
T
() = E

_
(T f())
2
_
.
Lemme 6.1.1. Soit

un estimateur de . Alors
1

() = Var

) +
_
E

)
_
2
.
En particulier, si

est sans biais, alors
1

() = Var

).
Dmonstration. Exercice lmentaire.
Observez que cette dcomposition montre quan de minimiser le risque, il peut tre
favorable davoir un biais, si cela permet de faire dcroitre la variance.
Exemple 6.1.4. On considre un n-chantillon distribu uniformment sur [0,], > 0.
Le risque associ lestimateur

=
2
n
(X
1
+ +X
n
)
129
6.2. INTERVALLES DE CONFIANCE
vaut
1

=
4
n
Var

(X
1
) =

2
3n
.
Considrons prsent lestimateur du maximum de vraisemblance,

= maxX
1
, . . . ,X
n
.
Manifestement, cet estimateur est biais, puisquon a toujours E(

) < . Commenons par


dterminer la loi de

:
P

x) = P

(X
1
x, . . . ,X
n
x) =
_
P

(X
1
x)
_
n
= (
x

)
n
,
et donc la densit de

est donne par
f

(x) =
n

n
x
n1
1
[0,]
(x).
Par consquent,
E

) =
n
n + 1
,
et

est asymptotiquement sans biais. On peut maintenant calculer son risque quadratique,
1

() =
2
2
(n + 1)(n + 2)
.
On peut prsent comparer les 2 estimateurs ci-dessus : on voit que 1

() 1

(), pour
tout > 0, et tout n 1, lingalit tant stricte ds que n 3. Lestimateur

est donc
plus performant, malgr son biais. Remarquons quon peut facilement corriger le biais en
considrant lestimateur
n + 1
n

.
6.2 Intervalles de conance
6.2.1 Dnition et exemples
Lorsque lon cherche estimer un paramtre, il est souvent plus utile de donner un
renseignement du type a b, avec une estimation de la conance que lon peut avoir
en cette armation, plutt quune valeur prcise. On dit alors quon fournit une estimation
par intervalle de .
On considre comme toujours un n-chantillon de loi P

.
Dnition 6.2.1. Soit (0,1). Un intervalle I = I(X
1
, . . . ,X
n
) (alatoire, ne dpendant
pas de ) est appel intervalle de conance pour au niveau 1 si
P

(I ) = 1 , .
1 est appel niveau de conance de lestimation.
130
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Exemple 6.2.1. On considre un n-chantillon avec loi A(,1). On a vu que la moyenne
empirique

X
n
est un estimateur sans biais de . On veut construire un intervalle [T
1
,T
2
],
avec T
1
=

X
n
a et T
2
=

X
n
+a (intervalle symtrique autour de la moyenne empirique).
Puisque

X
n
est une combinaison linaire de variables alatoires normales indpendantes,
on trouve quil suit une loi A(,
1
n
). Par consquent Z =

n(

X
n
) suit une loi A(0,1).
On a donc
P

(I ) = 1 P

([

X
n
[ a) = P([Z[ a

n) = 1 .
Pour = 10%, on trouve que cette dernire identit est satisfaite si a

n 1,64. Par
consquent, lintervalle
I = [

X
n

1,64

n
,

X
n
+
1,64

n
]
est un intervalle de conance 90% pour .
Exemple 6.2.2. On considre un n-chantillon distribu uniformment sur [0,], > 0.
Manifestement, lestimateur du maximum de vraisemblance

= maxX
1
, . . . ,X
n
satisfait
toujours

. On peut donc prendre T
1
=

. On cherche T
2
de la forme C

avec P

(C


) = 1 . Dans ce cas,
I = [

,C

]
sera un intervalle de conance au niveau 1 . On a dj vu que
P

x) = (
x

)
n
.
On a donc
P

(C

) = 1 P

(C

< ) = 1 (
1
C
)
n
.
Lintervalle recherch est donc
I = [

,
1/n

].
6.2.2 Intervalles de conance par excs et asymptotiques
En gnral, il est susant de borner infrieurement la conance que lon a dans lesti-
mation.
Dnition 6.2.2. Un intervalle I = I(X
1
, . . . ,X
n
) (indpendant de ) est un intervalle
de conance pour au niveau 1 par excs si
P

(I ) 1 , .
Exemple 6.2.3. Soit X
1
, . . . ,X
n
un n-chantillon. On suppose la variance Var(X
1
) =
2
connue, et on cherche estimer par intervalle f() = E

(X
1
). Notant

X
n
la moyenne
empirique, on a par le Thorme 5.2.2 que
P

([

X
n
f()[ < ) 1

2
n
2
.
131
6.2. INTERVALLES DE CONFIANCE
On en conclut que
I = [

X
n

n
,

X
n
+

n
]
est un intervalle de conance par excs au niveau 1 .
nouveau, il ny a pas en gnral unicit de lintervalle de conance un niveau
donn. Dans ce cas, niveaux de conance gaux, lintervalle le plus petit sera considr
le meilleur, puisquil donne lestimation la plus prcise.
Une faon ecace de dterminer des intervalles de conance valables asymptotiquement
est dapproximer, via le Thorme central limite, la loi de la moyenne empirique par une
loi normale.
Dnition 6.2.3. Pour un n-chantillon X
1
, . . . ,X
n
, un intervalle de conance asympto-
tique pour au niveau 1 est un intervalle I
n
= I
n
(X
1
, . . . ,X
n
) tel que
lim
n
P

(I
n
) = 1 , .
Un intervalle de conance asymptotique par excs pour au niveau 1 est un intervalle
I
n
= I
n
(X
1
, . . . ,X
n
) tel que
lim
n
P

(I
n
) 1 , .
Exemple 6.2.4. On considre un n-chantillon, dont la variance
2
= Var

(X
1
) est
connue. On dsire estimer la moyenne = E

(X
1
). On considre la moyenne empirique.
Par le Thorme central limite,
P

(

X
n
[
a

n
, +
a

n
])
n
P(Z [a,a]),
o Z suit une loi A(0,1). Si lon choisit a tel que P(Z [a,a]) = 1 , lintervalle
I
n
= [

X
n

a

n
,

X
n
+
a

n
]
est un intervalle de conance asymptotique pour au niveau 1 .
Comme application, considrons la situation suivante : on mesure une grandeur .
Lincertitude moyenne vaut 0,73. Combien faut-il de mesures pour dterminer avec une
prcision de 10
1
? Lchantillon est form de n mesures X
1
, . . . , X
n
. On a pour lesprance
E

(X
i
) = et pour lcart-type = 0,73. En prenant comme estimateur la moyenne
empirique, et un niveau de conance de 99%, on trouve a 2,58, et donc lintervalle
I
n
= [

X
n

1,88

n
,

X
n
+
1,88

n
].
On choisit prsent le plus petit n tel que 1,88/

n 0,1, cest--dire n 355.


132
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Exemple 6.2.5. Considrons maintenant le cas dun n-chantillon, dont on dsire esti-
mer la moyenne = E

(X
1
), sans connatre la variance. On part de lintervalle obtenu
prcdemment,
I
n
= [

X
n

a

n
,

X
n
+
a

n
].
Ce nest pas un intervalle de conance, puisque est inconnu. On considre donc linter-
valle
J
n
= [

X
n

aS
n

n
,

X
n
+
aS
n

n
],
o S
2
n
est lestimateur sans biais de la variance dni par
S
2
n
=
1
n 1
n

i=1
(X
i


X
n
)
2
.
On a vu que S
2
n
est un estimateur consistant de
2
. On a donc
lim
n
P

(I
n
) = P(Z [a,a]), a > 0,
S
2
n
P


2
.
On va voir que cela implique que
lim
n
P

(J
n
) = P(Z [a,a]), a > 0,
et donc que J
n
est un intervalle de conance asymptotique pour au niveau P(Z
[a,a]) = 1 . Pour vrier cela, il sut dobserver que
P

(J
n
) = P

(J
n
, [S
n
[ ) +P

(J
n
, [S
n
[ > ).
Le second terme du membre de droite tend vers 0, puisquil est born suprieurement par
P

([S
n
[ > ), qui tend vers 0 pour tout > 0. Le premier terme du membre de droite
peut, lui, tre born suprieurement par
P

([

X
n

a( +)

n
,

X
n
+
a( +)

n
] )
qui converge vers P(Z [a(1 +/),a(1 +/)]). Comme cette borne est valide pour tout
> 0, on obtient
limsup
n
P

(J
n
) P(Z [a,a]).
Pour la borne infrieure, on procde similairement
P

(J
n
, [S
n
[ )
P

([

X
n

a( )

n
,

X
n
+
a( )

n
] , [S
n
[ )
P

([

X
n

a( )

n
,

X
n
+
a( )

n
] ) P

([S
n
[ > ).
133
6.3. TESTS DHYPOTHSES
Le second terme du membre de droite tend vers 0, pour tout > 0, et le premier terme
tend vers P(Z [a(1 /),a(1 /)]). Par consquent,
liminf
n
P

(J
n
) P(Z [a,a]),
et larmation est dmontre.
6.2.3 Normalit asymptotique
On a vu dans les exemples prcdents que la convergence de lestimateur vers une loi
normale est particulirement pratique pour construire des intervalles de conance.
Dnition 6.2.4. Une suite destimateurs T
n
de f() est asymptotiquement normale sil
existe () > 0 tels que

n
()
(T
n
f()) converge en loi P

vers A(0,1), pour tout .


Proposition 6.2.1. Un estimateur de asymptotiquement normal est ncessairement
consistant.
Dmonstration. Soit > 0. On a
P

([T
n
[ ) = P

n(T
n
) , [

n,

n]) P

n(T
n
) , [A,A]),
pour tout n A
2

2
. Par normalit asymptotique, cette dernire probabilit converge vers
P(Z , [A,A]),
o Z suit une loi A(0,
2
()), , ce qui tend vers 0 lorsque A .
Il y a une faon naturelle de comparer deux estimateurs asymptotiquement normaux.
Dnition 6.2.5. Si T
n
et T
t
n
sont deux estimateurs asymptotiquement normaux de f(),
cest--dire tels que, pour tout , il existe () et
t
() tels que

n(T
n
f()) converge
en loi P

vers A(0,
2
()) et

n(T
t
n
f()) converge en loi P

vers A(0,
t
2
()), alors on
dit que T
n
est meilleur que T
t
n
si
2
() <
t
2
(), .
On interprte
2
/n comme le risque quadratique asymptotique de T
n
.
6.3 Tests dhypothses
6.3.1 Un exemple
La garantie dun constructeur pour ses composants lectroniques est de 2 ans. Il peut
accepter au plus un taux de 10% de pices tombant en panne pendant cette priode, et
dsire donc sassurer que P

(T 2) 0,9, o T est le temps de vie de ces composants, de loi


suppose exponentielle de paramtre 1/. Ceci revient sassurer que 2/ log(0,9) =

19. On veut donc dterminer si lhypothse <

est raliste, auquel cas il sera


ncessaire de revoir la chane de fabrication.
134
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
partir dun n-chantillon, on obtient une estimation

n
de . En se basant sur cette
estimation, le constructeur doit prendre sa dcision : soit accepter le taux de dfaillance
actuel, soit remplacer la chane de fabrication. Supposons quun taux de dfaillance su-
prieur 10% mette lentreprise en pril, alors le constructeur acceptera dinvestir dans
une nouvelle chane de fabrication au moindre soupon que <

. Il convient donc de
minimiser le risque de prdire, partir de lchantillon, que

, alors quen ralit


<

. Ceci introduit une asymtrie entre lhypothse <

et son complmentaire. Dans


une telle situation, on appelle lhypothse cruciale <

, lhypothse nulle.
Lerreur de 1
re
espce consiste rejeter lhypothse nulle alors quelle est vraie.
Lerreur de 2
nde
espce consiste ne pas rejeter lhypothse nulle alors quelle est
fausse.
Idalement, on aimerait minimiser ces deux erreurs, mais ceci nest pas possible, car elles
sont antagonistes : diminuer lune fait augmenter lautre.
Lerreur de premire espce est le risque que le constructeur cherche avant tout
minimiser (elle peut mettre son entreprise en danger). Il se xe donc une probabilit derreur
, appele le seuil, correspondant au risque maximal quil est prt prendre ; on choisit
par exemple = 5%. Supposons quil existe z
0
tel que
P

n
z
0
) 5%, (0,

].
Dans ce cas, si lon observe

n
z
0
, il ne sera pas raisonnable de supposer que (0,

],
puisque cela arrive dans seulement 5% des cas. Le fabricant rejettera donc lhypothse
<

, et aura raison dans 95% des cas. Il estimera donc, avec une conance de 95%, que
le pourcentage de pices qui tomberont en panne avant deux ans est infrieur 10%.
En revanche, si lon trouve

n
< z
0
, alors il existe un risque que <

. Dans ce cas,
le constructeur ne peut pas rejeter lhypothse <

, et doit donc dcider dinvestir dans


une nouvelle chane de fabrication plus sre.
6.3.2 Procdure de test
On se place dans le cadre dun n-chantillon X
1
, . . . ,X
n
de loi P

de paramtre
inconnu. tant donn
0
, ,=
0
,= , il sagit de dterminer si appartient
0
ou si appartient son complmentaire
1
=
0
. On dit que lon teste lhypothse
nulle H
0
:
0
contre lhypothse alternative H
1
:
1
.
Dnition 6.3.1. Une rgion de rejet est un vnement D = D(X
1
, . . . ,X
n
).
Dnition 6.3.2. Soit D une rgion de rejet, H
0
et H
1
deux hypothses que lon teste
lune contre lautre. Une procdure de test consiste
1. rejeter H
0
si D se produit ;
2. ne pas rejeter H
0
si D ne se produit pas.
Dnition 6.3.3. On dit que le test est au niveau de risque , ou niveau de conance 1,
si
sup

0
P

(D) = .
135
6.3. TESTS DHYPOTHSES
Dnition 6.3.4. On appelle puissance dun test la valeur
inf

1
P

(D) = 1 .
un niveau de conance donn 1 , on cherche donc maximiser la puissance, ce
qui revient minimiser lerreur de seconde espce . Ce critre permet de comparer des
tests.
Dnition 6.3.5. Une hypothse H est dite simple si lensemble correspondant est rduit
un seul lment, sinon elle est dite composite.
Exemple 6.3.1. Supposons que I = I(X
1
, . . . ,X
n
) soit un intervalle de conance pour
au niveau de conance 1 . On considre lhypothse nulle (simple) H
0
: =
0
et
lhypothse alternative (composite) H
1
: ,=
0
. Alors D = I ,
0
fournit un test de
H
0
contre H
1
au niveau de risque , puisque
P

0
(I ,
0
) = .
6.3.3 Cas gaussien
On considre un n-chantillon de loi A(,
2
).
Test de moyenne variance connue
Test de =
0
contre ,=
0
. Soit

X
n
la moyenne empirique (de loi
A(,
2
/n)) ; on prend pour rgion de rejet
D =
_
[

X
n

0
[ C
_
.
On veut un niveau de risque de 5%, cest--dire
P

0
([

X
n

0
[ C) = 0,05,
et donc C 1,96/

n.
Test de
0
contre >
0
. Cette fois, on prend pour rgion de rejet
D =
_

X
n
> C
_
.
On veut un niveau de risque de 5%, cest--dire
sup

0
P

(D) = sup

0
P
_

n
Z > C
_
= 0,05,
o Z est normale standard. La borne suprieure est atteinte pour =
0
, et on obtient
donc C
0
+ 1,64/

n.
136
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Test dgalit de moyenne de 2 chantillons de variance connue
On considre un n-chantillon X
1
, . . . ,X
n
de loi A(,
2
), et un m-chantillon (ind-
pendant du premier) Y
1
, . . . ,Y
m
de loi A(,
2
), avec
2
,
2
connus. On veut tester =
contre ,= .
Ce problme se ramne au prcdent : on estime par

X
n


Y
m
, qui est de loi
A( ,

2
n
+

2
m
), et on teste = 0 contre ,= 0 .
Test de moyenne variance inconnue
On veut tester =
0
contre ,=
0
, dans le cas o la variance
2
nest pas
connue.
On considre comme estimateurs la moyenne empirique

X
n
et la variance empirique
dbiaise S
2
n
. Un calcul montre que la variable alatoire
T
n1
=

n
S
n
(

X
n
)
suit la loi de Student n 1 degrs de libert.
Prenons n = 20,
0
= 0 et un risque = 5%. On choisit comme rgion de rejet
D =
_
[

X
n

0
[
S
n
C
_
,
avec C dtermine par la relation
P

0
(D) = P([T
n1
[ C

n) = 0,05.
La loi de Student tant tabule, on trouve, pour 19 degrs de libert, C

n 2,093, et
donc
D =
_
[

X
n
[
S
n

2,093

20
_
.
6.3.4 Tests dhypothses simples
On considre un n-chantillon de loi P

. On va tester H
0
: =
0
contre H
1
:
=
1
. Nous allons faire cela laide des fonctions de vraisemblance, cest--dire en
comparant L(
0
; x
1
, . . . ,x
n
) et L(
1
; x
1
, . . . ,x
n
). Cest ce quon appelle le test de Neyman
1
-
Pearson
2
. Lobjet central est le rapport de vraisemblance,
R(
0
,
1
; x
1
, . . . ,x
n
) =
L(
1
; x
1
, . . . ,x
n
)
L(
0
; x
1
, . . . ,x
n
)
.
1. Jerzy Neyman (1894, Bendery - 1981, Berkeley), statisticien polonais ; un des grands fondateurs de
la statistique moderne.
2. Egon Sharpe Pearson (1895, Hampstead - 1980, London), statisticien anglais. Fils du clbre statis-
ticien Karl Pearson.
137
6.3. TESTS DHYPOTHSES
Puissance 91%
Risque = 5%
2 0 2 4 6
H
0
: = 0 H
1
: = 3
Figure 6.1: Test de deux hypothses simples.
On prend pour rgion de rejet
D = R(
0
,
1
; X
1
, . . . ,X
n
) > C,
o C est une constante dterminer en fonction du risque choisi. Pour un test avec un
risque de 5%, on xe C de sorte que
P

0
(D) = 5%.
Exemple 6.3.2. Une personne possde deux pices : lune est quilibre, lautre donne
face une probabilit double de celle de pile . Elle choisit une de ces deux pices, et
on eectue 100 lancers. Elle obtient F = 60 face . Comment dterminer quelle pice a
t utilise ?
Le modle est clair : on a un n = 100-chantillon suivant une loi de Bernoulli de
paramtre p, avec p
1
2
,
2
3
. On dsire tester H
0
: p =
1
2
contre H
1
: p =
2
3
, qui sont
deux hypothses simples.
La fonction de vraisemblance associe une ralisation de ces n variables alatoires de
Bernoulli avec f succs est
p
f
(1 p)
nf
= (1 p)
n
_
p
1 p
_
f
.
Le rapport de vraisemblance est donc donn, dans la situation tudie ici, par
R =
_
1
2
3
1
1
2
_
n
_
2
3
/(1
2
3
)
1
2
/(1
1
2
)
_
f
=
_
2
3
_
n
2
f
.
Il sagit dune fonction monotone de f, donc prendre une rgion de rejet de la forme
D = R > C
138
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
revient prendre une rgion
D
t
= F > C
t
,
avec C
t
tel que
P1
2
(F > C
t
) = 10%,
pour un niveau de risque de 10%. On peut prsent dterminer C
t
par simple calcul. Plutt
que den dterminer la valeur exacte, nous allons utiliser le thorme central limite an
dapproximer (F 50)/5 par une variable alatoire Z A(0,1). On obtient ainsi
P1
2
(F > C
t
) P(Z > (C
t
50)/5).
Par consquent, on trouve que C
t
56,4.
Puisque, pour notre chantillon, F = 60, on est conduit rejeter H
0
.
(Remarquons que ce test, de par sa nature, privilgie H
0
par rapport H
1
.)
On peut montrer que lorsque celui-ci est bien dni, aucun test un niveau de conance
donn nest plus puissant que le test ci-dessus.
Lemme 6.3.1 (Lemme de Neyman-Pearson). On considre deux hypothses simples H
0
:
=
0
contre H
1
: =
1
, et on suppose que les lois P

0
et P

1
du n-chantillon
sous ces deux hypothses possdent les densits f

0
et f

1
. Soient (0,1) et
D =
_
(x
1
, . . . ,x
n
) :
n

i=1
f

1
(x
i
) > C
n

i=1
f

0
(x
i
)
_
,
o C est choisie de sorte que P

0
(D) = . Alors, pour toute autre rgion de rejet B telle
que P

0
(B) = , on a
P

1
(B) P

1
(D),
avec lingalit stricte si P

1
(D B) > 0.
Dmonstration. Notons x = (x
1
, . . . ,x
n
), dx = dx
1
dx
n
, et f(x) = f(x
1
) f(x
n
). On
a
_
D\B
f

0
(x)dx =
_
DB
f

0
(x)dx =
_
B\D
f

0
(x)dx.
Dautre part, puisque D B D et B D D
c
, on dduit de lidentit prcdente que
_
D\B
f

1
(x)dx C
_
D\B
f

0
(x)dx = C
_
B\D
f

0
(x)dx
_
B\D
f

1
(x)dx.
(La premire ingalit est stricte si P

1
(D B) > 0.) On a donc bien
P

1
(D) = P

1
(D B) +P

1
(D B) P

1
(B D) +P

1
(D B) = P

1
(B).
139
6.3. TESTS DHYPOTHSES
Remarque 6.3.1. Dans le cas de lois discrtes, un rsultat similaire est encore vri. Il y
a toutefois deux choses observer : dune part, il nest pas toujours possible de trouver C de
faon obtenir un niveau donn, puisque la fonction de rpartition fait des sauts ; dautre
part, lensemble (x
1
, . . . ,x
n
) : p

1
(x
1
) p

1
(x
n
) = Cp

0
(x
1
) p

0
(x
n
) na plus nces-
sairement probabilit nulle. Une manire de rsoudre simultanment ces deux problmes
est dutiliser la procdure suivante. Soit R(
0
,
1
; x
1
, . . . ,x
n
) le rapport de vraisemblance.
Alors : si R > C on rejette H
0
; si R < C, on ne rejette pas H
0
; si R = C, on rejette H
0
avec probabilit . Ici et C sont choisis de faon ce que P

0
(D > C)+P

0
(D = C) = .
6.3.5 Tests du
2
Jusqu prsent, on a toujours suppos connue la loi de lchantillon, et le problme se
rduisait donc estimer ses paramtres. Cest ce quon appelle faire un test paramtrique.
Nous allons prsent considrer une exprience alatoire dont la loi nest pas connue. On
parle alors de test non paramtrique.
Le test dadquation du
2
Les tests dadquation, ou tests dajustement, ont pour objet de dterminer partir
dun chantillon si une variable alatoire suit ou non une certaine loi. Parmi ces tests,
ncessairement non paramtriques, lun des plus connus et des plus utiliss est le test du

2
(Khi-deux).
Considrons donc une exprience alatoire dont les rsultats peuvent tre rpartis en
k classes, avec les probabilits p
1
, . . . ,p
k
(p
1
+ + p
k
= 1). Ayant ralis n fois cette
exprience, on obtient un vecteur alatoire (N
n
(1), . . . ,N
n
(k)), o N
n
(j) =

n
i=1
1
X
i
=j
est le nombre doccurrence de la classe j. Par dnition, ce vecteur suit une loi multinomiale
de paramtres (p
1
, . . . ,p
k
,n), cest--dire
P(N
n
(1) = n
1
, . . . ,N
n
(k) = n
k
) =
n!
n
1
! n
k
!
p
n
1
1
p
n
k
k
.
Soit q
1
, . . . , q
k
[0,1] tels que

k
i=1
q
i
= 1.
On veut tester H
0
: p
i
= q
i
, i = 1, . . . , k, contre H
1
: j : q
j
,= p
j
.
q nous donne donc les probabilits de chacune des classes sous lhypothse nulle, et on
est donc amen comparer ces dernires avec les frquences empiriques N
n
(j)/n. On a ainsi
transform un test non-paramtrique en un test paramtrique portant sur les paramtres
dune loi multinomiale.
An de construire notre rgion de rejet, on introduit la statistique
Z
n
=
k

j=1
(N
n
(j) nq
j
)
2
nq
j
= n
k

j=1
_
N
n
(j)
n
q
j
_
2
q
j
.
Z
n
mesure donc les carts entre les frquences empiriques et les frquences thoriques,
proprement normaliss. Le test repose sur le rsultat suivant, que nous admettrons.
140
CHAPITRE 6. INTRODUCTION LA STATISTIQUE
Proposition 6.3.1. Soit (N
1
, . . . ,N
k
) un vecteur alatoire suivant une loi multinomiale
de paramtres (p
1
, . . . ,p
k
,n). Alors la variable alatoire
k

i=1
(N
i
np
i
)
2
np
i
suit asymptotiquement la loi du
2
k 1 degrs de libert,
2
k1
, dont nous rappelons que
la densit est
1
2
k/2
(k/2)
x
k/21
e
x/2
.
Remarque 6.3.2. La raison pour laquelle on a k 1 degrs de libert et non k est que
seuls k 1 des N
i
sont indpendants puisque N
1
+ +N
k
= n.
Ainsi, sous H
0
, Z
n
suit asymptotiquement une loi
2
k1
.
Dautre part, sous H
1
, il existe j 1, . . . ,k tel que
lim
n
_
N
n
(j)
n
q
j
_
2
= (p
j
q
j
)
2
> 0,
ce qui implique que Z
n
diverge.
On peut donc prendre une rgion de rejet de la forme
D = Z
n
> C,
en choisissant C de sorte que
lim
n
P
q
(Z
n
> C) = P(
2
k1
> C) = .
Remarque 6.3.3. Il est important de raliser quil sagit dune approximation asympto-
tique. Pour quelle soit applicable en pratique, il faut que les eectifs thoriques nq
k
soient
suprieurs 5.
Exemple 6.3.3. Le 8 fvrier 1865, le moine autrichien Gregor Mendel
3
publie ses Ex-
priences sur les plantes hybrides o il expose les lois de lhrdit qui portent aujourdhui
son nom. Ces lois, il les a dcouvertes en tudiant la transmission des caractres biologiques
chez les petits pois. En particulier, il sest intress aux caractres couleur et forme .
Ces caractres sont tous deux cods par un gne avec deux allles. Le caractre couleur
est soit C (jaune), dominant, soit c (vert), rcessif. Le caractre forme est soit R (rond),
dominant, soit r (rid), rcessif. En croisant deux individus de gnotype CcRr, il y a 16
gnotypes quiprobables pour les descendants, et les phnotypes devraient tre distribus de
la faon suivante : pois jaune et ronds avec une frquence 9/16, jaune et rid avec une
frquence 3/16, vert et rond avec une frquence 3/16, et vert et rid avec une frquence
1/16. Le tableau suivant contient les rsultats de Mendel :
3. Johann Gregor Mendel (1822, Heinzendorf 1884, Brnn), moine et botaniste Autrichien. Il est
communment reconnu comme le pre fondateur de la gntique.
141
6.3. TESTS DHYPOTHSES
Jaune, rond Jaune, rid Vert, rond Vert, rid
Eectifs 315 101 108 32
Frquence empirique 315/556 101/556 108/556 32/556
Frquence thorique 9/16 3/16 3/16 1/16
On dsire alors tester lhypothse H
0
: les frquences dapparition des dirents caractres
sont bien donnes par les prdictions de Mendel, contre lhypothse alternative. Cest un
exemple typique de lusage du test dadquation du
2
. On obtient,
Z
556
=
_
315 556
9
16
_
2
556
9
16
+
_
101 556
3
16
_
2
556
3
16
+
_
108 556
3
16
_
2
556
3
16
+
_
32 556
1
16
_
2
556
1
16
0,47.
Pour un seuil de 5%, on obtient que P
H
0
(
2
3
> C) = 0,05 pour C 7,82. Puisque 0,47 <
7,82, les observations sont compatibles avec lhypothse nulle.
En fait, les rsultats sont trop bons, et il est gnralement admis aujourdhui que Mendel
a d amliorer ses donnes pour les faire mieux coller aux prdictions.
Le test dindpendance du
2
Nous allons prsent brivement dcrire comment des ides analogues peuvent tre
utilises an de dterminer si deux proprits sont indpendantes ou lies. Nous nous
contenterons de le faire sur un exemple.
On dsire dterminer si la couleur des cheveux et celle des yeux sont indpendantes ou
lies. Nous nous baserons sur les donnes suivantes.
ch. blonds ch. bruns ch. roux ch. noirs total frquence
y. bleus 25 9 7 3 44 44/124
y. gris 13 17 7 10 47 47/124
y. marrons 7 13 5 8 33 33/124
total 45 39 19 21 124
frquence 45/124 39/124 19/124 21/124
On veut donc tester lhypothse nulle H
0
: ces deux caractres sont indpendants contre
lhypothse alternative.
Sous H
0
, les frquences dobservations dune paire donne de caractres devraient tre
donnes par le produit des frquences de chacun des caractres. Bien entendu, on ne connait
pas ces frquences, donc on utilise les frquences empiriques. Par exemple, la frquence
thorique pour cheveux bruns, yeux bleus est de (44/124)(39/124), et doit tre compare
avec la frquence empirique 9/124. Ce problme est donc tout fait similaire au prcdent.
La seule subtilit est quil faut observer que sur les 4 3 = 12 frquences empiriques, seules
3 2 = 6 sont indpendantes. On doit donc considrer une variable de loi
2
6
.
En procdant comme prcdemment, on arrive la conclusion quavec un seuil de 5%,
lhypothse nulle (dindpendance) doit tre rejete.
142
Chapitre 7
Marches alatoires
Les marches alatoires forment une classe trs importante de processus stochastiques,
avec de multiples connexions avec dautres sujets en thorie des probabilits, mais gale-
ment en analyse, en algbre, etc. Dans ce chapitre, nous discuterons quelques proprits
lmentaires des marches alatoires sur Z
d
, en nous concentrant principalement sur le cas
des marches alatoires simples.
7.1 Quelques gnralits sur les processus stochastiques
Un processus stochastique est une collection (Y
t
)
tT
de variables alatoires valeurs
dans un ensemble E et indexe par les lments dun ensemble T R. Dans cette section,
nous allons brivement dcrire comment un tel processus est construit, dans le cas o
T = N (processus en temps discret) et E est un ensemble au plus dnombrable.
On suppose donnes les lois ni-dimensionnelles du processus, cest--dire les fonctions
de masse conjointes f
n
des variables alatoires Y
0
, . . . ,Y
n
, pour tout n 0. videmment,
ces fonctions doivent tre consistantes, dans le sens que

yE
f
n+1
(y
0
, . . . ,y
n
,y) = f
n
(y
0
, . . . ,y
n
). (7.1)
Notre but est de construire un espace probabilis (,T,P) et une collection de variables
alatoires (Y
n
)
n0
sur cet espace, valeurs dans E et telle que P(Y
0
= y
0
, . . . ,Y
n
= y
n
) =
f
n
(y
0
, . . . ,y
n
) pour tout n 0.
Univers. Lunivers = E
N
est form de toutes les trajectoires possibles = (y
0
,y
1
,y
2
, . . .)
du processus.
Variables alatoires. Les variables alatoires Y
n
: E, n N, sont dnies par
= (y
0
,y
1
,y
2
, . . .) Y
n
() = y
n
.
Tribu. On introduit la tribu T
n
des vnements antrieurs au temps n : celle-ci est engen-
dre par les ensembles
[y
0
,y
1
, . . . ,y
n
] : Y
0
() = y
0
,Y
1
() = y
1
, . . . ,Y
n
() = y
n

143
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
dcrivant les n premiers pas de la trajectoires. On appelle cylindres les lments de T
n
de
la forme
: Y
0
() A
0
,Y
1
() A
1
, . . . ,Y
n
() A
n
=
_
y
0
A
0
.
.
.
y
n
A
n
[y
0
, . . . ,y
n
],
o A
0
,A
1
, . . . ,A
n
E.
Manifestement, T
n
T
n+1
(on dit que (T
n
)
n0
est une ltration), ce qui permet de
conclure que

n0
T
n
est une algbre. La tribu associe au processus stochastique est alors
dnie par
T = (
_
n0
T
n
).
Mesure de probabilit. On introduit prsent une mesure de probabilit sur T
n
en
posant
P
n
([y
0
, . . . ,y
n
]) = f
n
(y
0
, . . . ,y
n
).
Les mesures P
n
induisent une mesure de probabilit P sur lalgbre

n0
T
n
: si A

n0
T
n
, il existe m N tel que A T
m
, et on peut donc poser
P(A) = P
m
(A).
On vrie grce (7.1) que cette dnition ne dpend pas du m choisi. ce stade, le
Thorme dextension de Carathodory implique que P peut tre tendue de faon unique
en une mesure de probabilit sur T.
7.2 Marche alatoire simple unidimensionnelle
Soit X
1
,X
2
, . . . une suite de variables alatoires i.i.d. telles que
P(X
1
= 1) = p et P(X
1
= 1) = 1 p q,
pour un certain p [0,1]. On appelle marche alatoire simple
1
partant de a Z la suite de
variables alatoires (S
n
)
n1
dnie par
S
n
= a +
n

i=1
X
i
.
On notera P
a
la loi de la marche alatoire simple partant de a. Cette marche alatoire est
dite symtrique lorsque p(= q) =
1
2
.
1. Le qualicatif simple fait rfrence au fait que la marche ne peut se dplacer que dun point de Z
vers lun des deux points voisins.
144
CHAPITRE 7. MARCHES ALATOIRES



S
k
()
k
a
Figure 7.1: Le dbut de la trajectoire associe une ralisation dune marche alatoire simple
partant de a.
Remarque 7.2.1. On a dni la marche alatoire directement partir dune suite de
variables alatoires i.i.d. (X
k
)
k1
. Alternativement, on aurait pu la construire comme es-
quiss dans la section prcdente, en spciant ses lois ni-dimensionnelles : pour tout
n 0 et toute suite s
0
, . . . ,s
n
telle que [s
k
s
k1
[ = 1, 1 k n,
P
a
(S
0
= s
0
,S
1
= s
1
, . . . ,S
n
= s
n
) = 1
s
0
=a
p
n
+
q
nn
+
,
o n
+
= #1 k n : s
k
s
k1
= 1 est le nombre de pas vers la droite dans la
portion de trajectoire s
0
, . . . ,s
n
.
Une ralisation de la trajectoire de la marche est donne par la suite des couples
_
(k,S
k
())
_
k0
,
avec la convention que S
0
= a (voir Figure 7.1). Le paramtre k est souvent interprt
comme le temps, et la ligne polygonale passant par chacun des points (k,S
k
()) est ap-
pele la trajectoire de la marche. Le processus (S
n
)
n0
possde les importantes proprits
suivantes.
Lemme 7.2.1. 1. (Homognit spatiale) P
a
(S
n
= s) = P
a+b
(S
n
= s +b), a,b Z.
2. (Proprit de Markov) Soit B (S
0
, . . . ,S
n
) un vnement ne dpendant que des n
premiers pas de la marche. Alors, pour tout s Z tel que P
a
(S
n
= s,B) > 0, on a
P
a
_
(S
n
,S
n+1
,S
n+2
, . . .) A

S
n
= s, B
_
= P
s
_
(S
0
,S
1
,S
2
, . . .) A
_
,
pour tout ensemble de trajectoires A T.
Ce quarme la proprit de Markov, cest que conditionnellement S
n
= s, ce qui a
pu arriver la marche jusquau temps n na pas dinuence sur son comportement partir
du temps n.
Dmonstration. Pour la premire armation,
P
a
(S
n
= s) = P(
n

i=1
X
i
= s a) = P(
n

i=1
X
i
= s +b (a +b)) = P
a+b
(S
n
= s +b).
145
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
Pour la seconde proprit, on observe que
P
a
_
(S
n
,S
n+1
,S
n+2
, . . .) A

S
n
= s, B
_
= P
a
_
(s,s +X
n+1
,s +X
n+1
+X
n+2
, . . .) A

S
n
= s, B
_
= P
_
(s,s +X
n+1
,s +X
n+1
+X
n+2
, . . .) A
_
= P
s
_
(S
0
,S
1
,S
2
, . . .) A
_
,
o lon a utilis le fait que S
n
= s B (X
1
, . . . ,X
n
) est indpendant de (X
n+k
)
k1
pour la deuxime galit, et le fait que (s,s +X
n+1
,s +X
n+1
+X
n+2
, . . .) et (s,s +X
1
,s +
X
1
+X
2
, . . .) ont mme loi, puisque les (X
i
)
i1
sont i.i.d..
7.2.1 Ruine du joueur
Parmi les nombreuses interprtations de ce processus, une des plus classiques est la
suivante : a reprsente la fortune initiale dun joueur jouant un jeu lors duquel, chaque
tape, il fait une mise gale 1 (pourvu que sa fortune soit strictement positive), et la
double avec probabilit 0 < p < 1 (sa fortune augmentant donc dune unit), ou la perd
avec probabilit q = 1 p (sa fortune diminuant ainsi dune unit).
Sous cette interprtation, le problme suivant est naturel. Le joueur ne peut continuer
jouer quaussi longtemps que sa fortune reste strictement positive. Supposons quil dcide
quil arrtera de jouer lorsquil aura atteint son objectif darriver une fortune gale N > a.
Quelle est la probabilit quil soit ruin avant de raliser son objectif ?
En notant A lvnement correspondant, on dduit de la proprit de Markov que
P
a
(A) = P
a
(A[ S
1
= a + 1) P
a
(S
1
= a + 1) +P
a
(A[ S
1
= a 1) P
a
(S
1
= a 1)
= p P
a+1
(A) +q P
a1
(A).
Par consquent, la fonction a P
a
(A) est solution de lquation aux dirences nies
suivante
_
f(a) = p f(a + 1) +q f(a 1), 1 a N 1
f(0) = 1, f(N) = 0.
(7.2)
Lemme 7.2.2. Lquation (7.2) possde une unique solution.
Dmonstration. Si f et g sont solutions de (7.2), alors h = f g est solution de
_
h(x) = p h(x + 1) +q h(x 1),
h(0) = h(N) = 0.
Soit x 1, . . . ,N 1 tel que [h( x)[ soit maximum; on suppose sans perte de gnralit
que h( x) 0 (sinon il sut de considrer g f). On a alors
h( x + 1) =
1
p
_
h( x) q h( x 1)
_

1
p
_
h( x) q h( x)
_
= h( x),
puisque h( x) est maximum. En itrant cette procdure, on obtient que h(N) = h( x).
Comme h(N) = 0, ceci implique que h 0, et donc que f = g.
146
CHAPITRE 7. MARCHES ALATOIRES
Pour un jeu quitable, p = q =
1
2
. Dans ce cas, on vrie que lunique solution (7.2)
est donne par
2
P
a
(A) = 1
a
N
.
Lorsque p ,= q, on vrie aisment quelle est donne par
3
P
a
(A) =
(q/p)
a
(q/p)
N
1 (q/p)
N
.
7.2.2 Proprits trajectorielles : approche combinatoire
La mthode utilise dans la section prcdente peut tre tendue des situations beau-
coup plus gnrales, comme nous le verrons plus tard. Dans cette section, nous allons
utiliser une autre approche, de nature combinatoire. De cette manire, nous tablirons un
certain nombre de proprits trajectorielles pour la marche alatoire simple unidimension-
nelle, dont certaines peuvent sembler surprenantes au premier abord.
Lemme 7.2.3. Pour tout n 1,
P
a
(S
n
= s) =
_
n
n+sa
2
_
p
(n+sa)/2
q
(ns+a)/2
,
si s a n + 2k : 0 k n, et P
a
(S
n
= s) = 0 sinon.
En particulier, il suit de la formule de Stirling que, lorsque p = q =
1
2
et n ,
P
0
(S
2n
= 0) =
1 +o(1)

n
. (7.4)
2. Une faon de trouver cette solution est dobserver que (7.2) peut tre crite, lorsque p = q =
1
2
,
sous la forme f(a + 1) f(a) = f(a) f(a 1) = , 1 a N 1, pour une certaine valeur de . Par
consquent, f(a) = f(0)+(f(1)f(0))+ +(f(a)f(a1)) = 1+a. En particulier, 0 = f(N) = 1+N,
do lon tire = 1/N et f(a) = 1 a/N.
3. Trouver la solution lorsque p = q conduit des calculs plus pnibles, mais est conceptuellement trs
simple. On peut dans ce cas crire (7.2) sous la forme suivante : pour tout 1 a N 1,
_
f(a + 1)
f(a)
_
=
_
1/p q/p
1 0
__
f(a)
f(a 1)
_
=
_
1/p q/p
1 0
_
a
_
f(1)
f(0)
_
. (7.3)
Un calcul (diagonalisez la matrice !) montre que
_
1/p q/p
1 0
_
a
=
1
p q
_
p (q/p)
a
q(q/p)
a
q
p p(q/p)
a
p(q/p)
a
q
_
.
En particulier, comme f(N) = 0 et f(0) = 1, on tire de (7.3) avec a = N 1 que
f(1) =
(q/p) (q/p)
N
1 (q/p)
N
,
et donc, en appliquant nouveau (7.3),
f(a) =
(q/p)
a
(q/p)
N
1 (q/p)
N
.
147
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE

0
b
n

0
b
n
Figure 7.2: Le principe de rexion.
Dmonstration. Par homognit spatiale, il sut de considrer le cas a = 0. Soit n

=
#1 i n : X
i
= 1. On a manifestement n
+
+ n

= n et n
+
n

= s. Par cons-
quent, pour que la marche atteigne s au temps n, il faut quelle ait fait n
+
=
n+s
2
pas vers
le haut, et n

=
ns
2
pas vers le bas, ce qui nest possible que si n+s est pair, et si [s[ n.
Chaque portion de trajectoire contribuant cet vnement a donc probabilit p
n
+
q
n

, et
le nombre de telles portions de trajectoires est donn par
_
n
n
+
_
.
Nous allons prsent tudier le temps mis par la marche pour retourner son point
de dpart. Nous noterons
0
= min n 1 : S
n
= 0 la variable alatoire correspondante,
avec la convention habituelle que min = +.
Lemme 7.2.4. Pour tout n 1,
P
0
(
0
> n, S
n
= b) =
[b[
n
P
0
(S
n
= b).
et donc
P
0
(
0
> n) =
1
n
E
0
([S
n
[).
Dmonstration. Chacune des portions de trajectoire joignant (0,0) (n,b) a probabilit
p
(n+b)/2
q
(nb)/2
. Il ne reste donc plus qu dterminer le nombre de ces portions de trajec-
toires ne revisitant pas 0.
On suppose, sans perte de gnralit, que b > 0. Dans ce cas, toutes les trajectoires
contribuant lvnement
0
> n,S
n
= b satisfont S
1
= 1. Introduisons donc les en-
sembles suivants :
T
+
[(1,1),(n,b)] : ensemble de toutes les portions de trajectoires joignant (1,1) (n,b)
sans intersecter laxe des abscisses.
T

[(1,1),(n,b)] : ensemble de toutes les portions de trajectoires joignant (1,1) (n,b)


intersectant laxe des abscisses.
T [(1,1),(n,b)] : ensemble de toutes les portions de trajectoires joignant (1,1) (n,b).
Manifestement,
#T
+
[(1,1),(n,b)] = #T [(1,1),(n,b)] #T

[(1,1),(n,b)].
148
CHAPITRE 7. MARCHES ALATOIRES
On a vu que #T [(1,1),(n,b)] =
_
n1
n+b
2
1
_
. Il nous faut donc dterminer #T

[(1,1),(n,b)].
Lobservation essentielle, appele principe de rexion, est la suivante (cf. Fig. 7.2) : len-
semble T

[(1,1),(n,b)] est en bijection avec lensemble T [(1, 1),(n,b)] des portions de


trajectoires joignant (1, 1) (n,b) : il sut de rchir les
0
premiers pas de la tra-
jectoire travers laxe des abscisses, tout en conservant intacte la seconde partie de la
trajectoire. Or, #T [(1, 1),(n,b)] =
_
n1
n+b
2
_
, do lon dduit que
#T

[(1,1),(n,b)] =
_
n 1
n+b
2
1
_

_
n 1
n+b
2
_
=
b
n
_
n
n+b
2
_
. (7.5)
Par consquent,
P
0
(
0
> n, S
n
= b) =
b
n
_
n
n+b
2
_
p
(n+b)/2
q
(nb)/2
=
b
n
P
0
(S
n
= b),
par le Lemme 7.2.3.
On peut facilement dduire du rsultat prcdent une relation trs simple dans le cas
symtrique.
Lemme 7.2.5. Dans le cas symtrique,
P
0
(
0
> 2n) = P
0
(S
2n
= 0).
Dmonstration. En appliquant le rsultat du lemme prcdent, on obtient
P
0
(
0
> 2n) = 2
n

k=1
2k
2n
P
0
(S
2n
= 2k)
= 2
n

k=1
k
n
_
2n
n +k
_
2
2n
= 2
2n+1
n

k=1
_
_
2n 1
n +k 1
_

_
2n 1
n +k
_
_
= 2
2n+1
_
2n 1
n
_
= 2
2n
_
2n
n
_
= P
0
(S
2n
= 0),
la troisime ligne suivant de (7.5).
Le rsultat prcdent montre que, dans le cas symtrique, P
0
(
0
> 2n) tend vers 0
plutt lentement (P
0
(
0
> 2n) = (1 + o(1))/

n, par Stirling). Bien entendu, puisque


P
0
(
0
= ) = P
0
(

n1

0
> n) = lim
n
P
0
(
0
> n) = 0, la marche retourne
lorigine presque srement. Intuitivement, il semble clair que cela devrait impliquer quelle
y retourne inniment souvent, ce que conrme le lemme suivant.
149
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
Lemme 7.2.6. Soit N le nombre de retours de la marche alatoire lorigine. Alors, dans
le cas symtrique,
P
0
(N = ) = 1.
Dmonstration. Soit
(n)
0
le temps du n
me
retour en 0 (avec
(n)
0
= si N < n). Pour
tout k N,
P
0
(N = k) =

k
P
0
(
(k)
0
= 2)P
0
(N = k [
(k)
0
= 2).
La proprit de Markov implique donc, puisque
(k)
0
= 2 ne dpend que des 2 premiers
pas de la trajectoire et implique que S
2
= 0,
P
0
(N = k [
(k)
0
= 2) = P
0
(S
j
,= 0,j > 2 [
(k)
0
= 2)
= P
0
(S
j
,= 0,j > 2 [ S
2
= 0,
(k)
0
= 2)
= P
0
(S
j
,= 0,j > 0) = P
0
(N = 0) = 0,
et donc P
0
(N = k) = 0, pour tout k N. La conclusion suit donc, puisque
P
0
(N < ) =

k1
P
0
(N = k) = 0.
Une autre conclusion intressante du Lemme 7.2.5 est que lesprance du temps
0
du
premier retour lorigine est innie :
E
0
(
0
/2) =

n0
P
0
(
0
> 2n) =

n0
P
0
(S
2n
= 0) = ,
la dernire identit suivant de (7.4). Ainsi, sil est certain que la marche symtrique passera
par lorigine inniment souvent, elle le fera trs rarement. Une autre faon de voir cela est
de raliser que lesprance du nombre de retours en 0 jusquau temps n est donne par
E
0
(
n

k=1
1
S
k
=0
) =
n

k=1
P
0
(S
k
= 0) = O(

n),
et la frquence des retours tend donc vers 0 comme n
1/2
.
Nous allons prsent obtenir une formule explicite pour le temps de premier retour en
0.
Lemme 7.2.7. Pour tout n > 0 pair,
P
0
(
0
= n) =
q
n 1
P
0
(S
n1
= 1) +
p
n 1
P
0
(S
n1
= 1).
(La probabilit de cet vnement est nulle si n est impair.)
150
CHAPITRE 7. MARCHES ALATOIRES
Dmonstration. Puisque
0
= n =
0
n S
n
= 0, on dduit de la proprit de
Markov que
P
0
(
0
= n) = P
0
(
0
= n, S
n1
= 1) +P
0
(
0
= n, S
n1
= 1)
= P
0
(S
n
= 0 [
0
n, S
n1
= 1)P
0
(
0
n, S
n1
= 1)
+P
0
(S
n
= 0 [
0
n, S
n1
= 1)P
0
(
0
n, S
n1
= 1)
= q
1
n 1
P
0
(S
n1
= 1) +p
1
n 1
P
0
(S
n1
= 1),
o lon a utilis le rsultat du Lemme 7.2.4.
Dans le cas de la marche alatoire simple symtrique, on obtient donc
P
0
(
0
= n) =
1
2n 2
P
0
([S
n1
[ = 1) =
1
n 1
P
0
(S
n
= 0),
puisque P
0
(S
n
= 0 [ [S
n1
[ = 1) =
1
2
. (On aurait videmment galement pu tirer ce rsultat
directement du Lemme 7.2.5.)
On peut galement sintresser au moment de la dernire visite en 0 au cours des 2n
premiers pas,
0
(2n) = max 0 k 2n : S
k
= 0.
Lemme 7.2.8 (Loi de larcsinus pour la dernire visite en 0). On suppose que p = 1/2.
Pour tout 0 k n,
P
0
(
0
(2n) = 2k) = P
0
(S
2k
= 0)P
0
(S
2n2k
= 0).
En particulier, pour tout 0 < < 1,
lim
n
P
0
(
0
(2n) 2n) =
2

arcsin

.
Dmonstration. La premire armation suit de lobservation suivante :
P
0
(
0
(2n) = 2k) = P
0
(S
2k
= 0,S
2k+1
,= 0, . . . ,S
2n
,= 0)
= P
0
(S
2k
= 0) P
0
(S
2k+1
,= 0, . . . ,S
2n
,= 0 [ S
2k
= 0)
= P
0
(S
2k
= 0) P
0
(S
1
,= 0, . . . ,S
2n2k
,= 0)
= P
0
(S
2k
= 0) P
0
(S
2n2k
= 0) ,
la dernire identit rsultant du Lemme 7.2.5.
Pour la seconde armation, observons tout dabord quune application de la formule
de Stirling donne
P
0
(S
2k
= 0)P
0
(S
2n2k
= 0) =
_
2k
k
__
2n 2k
n k
_
2
2n
=
1 +o(1)

_
k(n k)
, (7.6)
lorsque k et n k tendent vers linni.
151
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
Dautre part, il suit de la premire armation que, pour tout 0 m n,
m

k=0
P
0
(
0
(2n) = 2k) =
m

k=0
P
0
(S
2k
= 0)P
0
(S
2n2k
= 0)
=
n

k=nm
P
0
(S
2n2k
= 0)P
0
(S
2k
= 0) =
n

k=nm
P
0
(
0
(2n) = 2k).
Ceci implique que, pour tout 0 <
1
2
,
lim
n
P
0
(
0
(2n) 2n) = lim
n
P
0
(
0
(2n) 2(1 )n) = 1 lim
n
P
0
(
0
(2n) 2(1 )n),
(7.7)
puisque lim
n
sup
0m2n
P
0
(
0
(2n) = m) = 0. On en dduit en particulier que
lim
n
P
0
(
0
(2n)/2n [0,
1
2
]) =
1
2
.
Supposons prsent que (
1
2
,1). Dans ce cas, on peut appliquer (7.6) pour obtenir
lim
n
P
0
(

0
(2n)
2n
(
1
2
,]) = lim
n
1
n

n>k>n/2
_
k
n
(1
k
n
)
_
1/2
=
1

_

1
2
_
x(1 x)
_
1/2
dx
=
2

arcsin


1
2
,
et donc lim
n
P
0
(

0
(2n)
2n
) =
2

arcsin

.
Le cas (0,
1
2
) suit facilement du prcdent, en utilisant (7.7) et lidentit
arcsin

1 =

2
+ arcsin

.
Le lemme prcdent a des consquences peut-tre assez surprenantes au premier abord :
si lon procde un grand nombre de lancers pile ou face, la dernire fois que le nombre
de pile et le nombre de face obtenus ont concid est proche du dbut ou de la
n de la srie avec une probabilit substantielle : on a, par exemple (voir galement la
Figure 7.3),
P
0
((10000) 100)

=
2

arcsin
_
0,01

= 6,4%,
P
0
((10000) 9900)

=
2

arcsin
_
0,01

= 6,4%,
P
0
((10000) 1000)

=
2

arcsin
_
0,1

= 20,5%.
Nous allons prsent nous intresser au temps de premire visite en un sommet b ,= 0,

b
= min n 1 : S
n
= b.
152
CHAPITRE 7. MARCHES ALATOIRES
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
2
a
r
c
s
i
n

0
1
2
3
4
5
6
7
8
9
10
0 0.2 0.4 0.6 0.8 1
1

(
1

Figure 7.3: La fonction de rpartition (gauche) et la densit (droite) de la loi de larcsinus.


n n
S
k
() R
k
()
Figure 7.4: Une trajectoire et la trajectoire retourne.
Lemme 7.2.9. Pour tout b ,= 0,
P
0
(
b
= n) = P
0
(
0
> n, S
n
= b) =
[b[
n
P
0
(S
n
= b).
Dmonstration. Cette preuve repose sur une autre ide : le renversement du temps. On
associe une portion de trajectoire
(0, S
1
, S
2
, . . . , S
n
) = (0, X
1
, X
1
+X
2
, . . . , X
1
+ +X
n
),
la portion de trajectoire renverse (voir Fig. 7.4)
(0, R
1
, R
2
, . . . , R
n
) = (0, X
n
, X
n
+X
n1
, . . . , X
n
+ +X
1
).
Manifestement, ces deux marches alatoires ont mme loi. Observez prsent que la pre-
mire de ces marches satisfait S
n
= b > 0 et
0
> n si et seulement si la marche renverse
153
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
satisfait R
n
= b et R
n
R
i
= X
1
+ +X
ni
> 0 pour tout 1 i < n, ce qui signie que
la premire visite de la marche renverse au point b a lieu au temps n. On a donc dmontr
le rsultat suivant :
P
0
(S
n
= b,
0
> n) = P
0
(R
n
= b, max
0i<n
R
i
< b) = P
0
(S
n
= b, max
0i<n
S
i
< b) = P
0
(
b
= n).
La conclusion suit donc du Lemme 7.2.4.
Il suit du lemme prcdent que le nombre moyen de visites au site b ,= 0 avant le
premier retour en 0 est gal
E
0
(

n1
1

0
>n,S
n
=b
) =

n1
P
0
(
0
> n, S
n
= b) =

n1
P
0
(
b
= n) = P
0
(n 0 : S
n
= b).
Ce rsultat a une consquence assez surprenante.
Lemme 7.2.10. Dans le cas symtrique, le nombre moyen de visites de la marche (partant
de 0) en un site b ,= 0 quelconque avant de retourner lorigine est gal 1.
Dmonstration. Par symtrie, on peut supposer b > 0. En conditionnant sur X
1
, on voit
que la fonction b P
0
(n 0 : S
n
= b) est solution de lquation aux dirences nies
suivante :
_
f(x) =
1
2
(f(x + 1) +f(x 1)), x > 0
f(0) = 1.
videmment, les solutions de cette quation sont donnes par les fonctions de la forme
f(x) = 1 +x, R. Par consquent, lunique solution borne est donne par f 1. On
en conclut donc que, par symtrie,
P
0
(n 0 : S
n
= b) = 1, b Z.
On considre le jeu suivant : on jette successivement une pice bien quilibre et le
joueur gagne un franc chaque fois que le nombre de pile excde le nombre de face
par exactement m lancers ; le jeu sinterrompt ds que les nombres de pile et de face
sont gaux. Quelle est la mise initiale quitable pour le joueur ? Le lemme ci-dessus montre
que celle-ci est de 1 franc, quelle que soit la valeur de m!
Nous allons prsent tablir un autre rsultat classique, galement contre-intuitif lors-
quon le rencontre pour la premire fois.
Lemme 7.2.11 (loi de larcsinus pour les temps de sjour). On suppose que p = 1/2.
Soit (cf. Fig. 7.5)
t
+
2n
= #0 i < 2n : max(S
i
, S
i+1
) > 0
le temps pendant lequel la marche est positive. Alors,
P
0
(t
+
2n
= 2k) = P
0
(S
2k
= 0)P
0
(S
2n2k
= 0).
154
CHAPITRE 7. MARCHES ALATOIRES
Figure 7.5: Sur cette ralisation, le temps total pass au-dessus de 0 pendant les 14 premiers pas
est t
+
14
= 8.
(Observez que t
+
2n
est ncessairement pair.) En particulier, pour tout 0 < < 1,
lim
n
P
0
(
t
+
2n
2n
) =
2

arcsin

.
Dmonstration. Pour simplier les notations, on introduit f
2n
(2k) = P
0
(t
+
2n
= 2k), et
g
2k
= P
0
(S
2k
= 0). Nous voulons montrer que
f
2n
(2k) = g
2k
g
2n2k
. (7.8)
La premire observation est que, par le Lemme 7.2.5,
g
2n
= P
0
(S
2n
= 0)
= P
0
(
0
> 2n)
= 2P
0
(S
1
= 1, S
2
1, . . . , S
2n
1)
= P
0
(S
2
1, . . . , S
2n
1 [ S
1
= 1)
= P
0
(S
1
0, . . . , S
2n1
0)
= P
0
(S
1
0, . . . , S
2n1
0, S
2n
0)
= f
2n
(2n).
Lavant-dernire identit suit du fait que, S
2n1
tant impair, S
2n1
0 implique que
S
2n
0. Ceci tablit (7.8) lorsque k = n. Lidentit pour k = 0 suit alors par symtrie.
Soit k 1, . . . , n 1. Dans ce cas, lorsque lvnement t
+
2n
= 2k est ralis, le temps

0
du premier retour lorigine satisfait
0
= 2r, avec 1 r < n. Pour 1 k <
0
, la
marche reste toujours strictement positive ou strictement ngative, chacune de ces deux
possibilits ayant probabilit 1/2. Par consquent,
f
2n
(2k) =
k

r=1
1
2
P
0
(
0
= 2r)f
2n2r
(2k 2r) +
nk

r=1
1
2
P
0
(
0
= 2r)f
2n2r
(2k),
o la premire somme prend en compte la contribution des trajectoires restant positives
jusquen
0
, et la seconde celle des trajectoires ngatives jusquen
0
.
155
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
Pour conclure la preuve, on fait une rcurrence. On a dj vri la validit de (7.8) pour
tous les 0 k n lorsque n = 1. Supposons donc (7.8) vrie pour tous les 0 k n
lorsque n < m. Alors, notant h
2r
= P
0
(
0
= 2r), il suit de la prcdente identit et de
lhypothse dinduction que
f
2m
(2k) =
1
2
k

r=1
h
2r
g
2k2r
g
2m2k
+
1
2
mk

r=1
h
2r
g
2k
g
2m2r2k
= g
2k
g
2m2k
,
ce qui conclut la preuve de (7.8). La dernire identit suit de lobservation que, pour tout
1,
P
0
(S
2
= 0) =

r=1
P
0
(S
2
= 0 [
0
= 2r)P
0
(
0
= 2r)
=

r=1
P
0
(S
22r
= 0)P
0
(
0
= 2r),
cest--dire g
2
=

r=1
g
22r
h
2r
.
La seconde armation a dj t dmontre dans la preuve du Lemme 7.2.8.
Discutons prsent quelques consquences de la loi de larcsinus. Lintuition (ainsi
quune mauvaise comprhension de ce quarme la loi des grands nombres) pourrait laisser
penser quaprs un grand temps n, la fraction du temps pass de chaque ct de lorigine
devrait tre de lordre de 1/2. Or ce nest pas du tout ce qui a lieu (voir Fig. 7.3) : avec
probabilit 1/5, la marche passera prs de 97,6% de son temps du mme ct de lorigine ;
avec probabilit 1/10, elle le fera pendant 99,4% de son temps. La gure 7.6 montre cinq
trajectoires typiques dune marche alatoire simple symtrique sur Z.
De faon plus image, supposons que deux joueurs jouent pile ou face. On suppose
que la pice est jete une fois par seconde pendant 365 jours. La loi de larcsinus montre
alors que dans une partie sur 20, le joueur le plus chanceux pendant la partie dominera
lautre joueur pendant plus de 364 jours et 10 heures !
7.2.3 Proprits trajectorielles : fonctions gnratrices
Nous allons prsent donner une illustration de lutilisation des fonctions gnratrices
dans ce contexte.
Nous nous intressons nouveau la loi des temps de retour lorigine. videmment
il sut de considrer la loi du temps de premier retour
0
, puisque les intervalles entre
retours conscutifs suivent la mme loi. On note g
n
= P
0
(S
n
= 0) et h
n
= P
0
(
0
= n). Les
fonctions gnratrices correspondantes sont
G(s) =

n=0
g
n
s
n
, H(s) =

n=1
h
n
s
n
.
Il convient de remarquer que
0
peut tre dfective (cest--dire que P
0
(
0
= ) > 0), et
dans ce cas H(1) = P
0
(
0
< ) < 1.
156
CHAPITRE 7. MARCHES ALATOIRES
Figure 7.6: Cinq trajectoires de la marche alatoire simple symtrique sur Z (seuls les 200 premiers
pas sont achs). Observez la prsence de trs longues excursions (morceaux de trajectoires compris
entre deux zros successifs). Lesprance de la longueur de ces dernires est innie.
Lemme 7.2.12. 1. G(s) = 1 +G(s)H(s).
2. G(s) = (1 4pqs
2
)
1/2
.
3. H(s) = 1 (1 4pqs
2
)
1/2
.
Dmonstration. 1. Comme on la dj vu, on a, pour n 1,
g
2n
= P
0
(S
2n
= 0) =
n

k=1
P
0
(
0
= 2k)P
0
(S
2n
= 0 [
0
= 2k)
=
n

k=1
P
0
(
0
= 2k)P
0
(S
2n2k
= 0) =
n

k=1
h
2k
g
2n2k
.
Par consquent
G(s) =

n=0
g
2n
s
2n
= 1 +

n=1
g
2n
s
2n
= 1 +

n=1
n

k=1
h
2k
g
2n2k
s
2n
.
157
7.2. MARCHE ALATOIRE SIMPLE UNIDIMENSIONNELLE
La conclusion suit donc, puisque

n=1
n

k=1
h
2k
g
2n2k
s
2n
=

k=1

n=k
h
2k
g
2n2k
s
2n
=

k=1
h
2k
s
2k

n=k
g
2n2k
s
2n2k
= H(s)G(s).
2. On doit calculer la fonction gnratrice associe la suite
g
n
=
_
_
n
n/2
_
(pq)
n/2
, n pair,
0 n impair,
cest--dire G(s) =

n0
_
2n
n
_
(pqs
2
)
n
. Pour ce faire, on vrie tout dabord que
_
2n
n
_
=
(2n)!
(n!)
2
= 2
n
(2n 1)!!
n!
= (4)
n
(
1
2
)(
3
2
) (
2n1
2
)
n!
= (4)
n
_

1
2
n
_
,
o lon a employ les notations standards
(2n 1)!! = (2n 1)(2n 3)(2n 5) 3 =
(2n)!
(2n)(2n 2)(2n 4) 2
=
(2n)!
2
n
n!
,
et, pour a R et n N,
_
a
n
_
=
a(a 1)(a 2) (a n + 1)
n!
.
On a vu (Lemme 2.2.5) que, pour tout a R et tout x tel que [x[ < 1,
(1 +x)
a
=

n0
_
a
n
_
x
n
.
Par consquent, on a que, pour [4pqs
2
[ < 1 (cest--dire [s[ < 1, puisque pq
1
4
),
G(s) =

n0
_

1
2
n
_
(4pqs
2
)
n
= (1 4pqs
2
)
1/2
.
3. suit immdiatement de 1 et 2.
Corollaire 7.2.1. La probabilit que la marche retourne au moins une fois lorigine est
gale
P
0
(
0
< ) =

n=1
h(n) = H(1) = 1 [p q[.
Dans le cas o cela est certain, cest--dire lorsque p = q =
1
2
, lesprance du temps de
premier retour est innie,
E
0
(
0
) =

n=1
nh(n) = H
t
(1) = .
158
CHAPITRE 7. MARCHES ALATOIRES
Dmonstration. La premire armation suit aprs avoir pris la limite s 1 dans lexpres-
sion pour H(s) donne dans le Lemme 7.2.12 (observez que 1 4pq = (p q)
2
).
Lorsque p =
1
2
, la fonction gnratrice du temps de premier retour devient simplement
H(s) = 1 (1 s
2
)
1/2
. Par consquent,
E
0
(
0
) = lim
s1
H
t
(s) = .
Dnition 7.2.1. La marche alatoire est dite rcurrente si le retour son point de dpart
est (presque) certain ; sinon elle est dite transiente. On dit quelle est rcurrente-nulle si elle
est rcurrente et que lesprance de temps de retour est innie, et rcurrente-positive si cette
esprance est nie.
Le corollaire prcdent montre que la marche alatoire simple unidimensionnelle est
rcurrente(-nulle) si et seulement si p =
1
2
.
7.3 Marche alatoire simple sur Z
d
Nous allons prsent brivement dcrire la gnralisation du processus tudi dans
la section prcdente de Z Z
d
. Le type de processus ainsi obtenu (et leurs gnralisa-
tions) jouent un rle central en thorie des probabilits. Une interprtation naturelle est la
description de la diusion dune particule (un tel modle a par exemple t employ par
Einstein
4
en 1905 an dexpliquer le mouvement erratique des particules de pollen dans
leau observ en 1827 par Brown
5
, et de cette faon conrmer la thorie atomiste alors en-
core controverse en permettant Perrin
6
de dterminer exprimentalement la constante
dAvogadro
7
).
Soit X
1
, X
2
, . . . une suite de variables alatoires i.i.d. prenant valeurs dans lensemble
e
i
, i = 1, . . . , d et de loi uniforme ; ici, e
i
= (
ik
)
k=1,...,d
est le vecteur unit de R
d
dans
la direction i. On appelle marche alatoire simple symtrique sur Z
d
partant de a Z
d
le
processus
S
n
= a +
n

i=1
X
i
.
Comme prcdemment, on note P
a
la loi de la marche partant de a.
Ce processus dcrit donc une particule se dplaant alatoirement de proche en proche
sur le rseau Z
d
. Ce type de processus a t normment tudi, et nous nous contenterons
ici dillustrer simplement quelques rsultats lmentaires.
4. Albert Einstein (1879, Ulm 1955, Princeton), physicien allemand, puis apatride (1896), suisse
(1899), et enn suisse-amricain (1940). Prix Nobel de physique en 1921.
5. Robert Brown (1773, Montrose 1858, Londres), botaniste britannique.
6. Jean Baptiste Perrin (1870, Lille 1942, New York), physicien franais. Prix Nobel de Physique en
1926.
7. Lorenzo Romano Amedeo Carlo Avogadro, Comte de Quaregna et Cerreto (1776, Turin 1856,
Turin). Physicien et chimiste italien.
159
7.3. MARCHE ALATOIRE SIMPLE SUR Z
D
Figure 7.7: Les 1000 premiers pas dune marche alatoire simple symtrique sur Z
2
partant du
point rouge.
On vrie aisment que les proprits nonces dans le Lemme 7.2.1 sont galement
vries ici (la structure tant identique).
7.3.1 Probabilits de sortie
Le but de cette sous-section est de montrer que lapproche utilise dans le cas unidi-
mensionnel dans la Sous-section 7.2.1 stend sans autre cette situation plus gnrale
(Figure 7.8)).
Lemme 7.3.1. Soit ,= D
1
D
2
Z
d
. On note T = min n 0 : S
n
, D
2
et =
min n 0 : S
n
D
1
. Alors la probabilit P
x
( < T) que la marche visite D
1
avant de
quitter D
2
est donne par lunique solution de
_

d
f(x) = 0 x D
2
D
1
,
f(x) = 1 x D
1
,
f(x) = 0 x , D
2
,
o
d
est le Laplacien discret sur Z
d
, dni par

d
f(x) =
1
2d

yZ
d
[xy[=1
f(y) f(x).
160
CHAPITRE 7. MARCHES ALATOIRES
Figure 7.8: Probabilits de pntrer dans un des deux trous avant de sortir du domaine : la couleur
passe du bleu au rouge lorsque la probabilit passe de 0 1.
Dmonstration. Par la proprit de Markov, on a, pour x D
2
D
1
,
P
x
( < T) =

yZ
d
[yx[=1
P
x
( < T [ S
1
= y)P(S
1
= y)
=
1
2d

yZ
d
[yx[=1
P
y
( < T),
et donc P
x
( < T) est bien solution de lquation aux dirences nies annonce. Pour
montrer que cette dernire possde une unique solution, on procde comme dans le cas
unidimensionnel. Si f, g sont deux solutions de (7.3.1), alors h = f g est solution de
la mme quation, mais avec condition au bord h(x) = 0 pour tout x , D
2
D
1
. Soit
z D
2
D
1
un sommet o [h[ atteint son maximum. On a

y: [yz[=1
(h(y) h(z)) = 0.
Tous les termes de la somme ayant le mme signe, ceci implique que h(y) = h(z), pour tout
y voisin de z, et donc, en itrant, que h const. La condition au bord force alors h 0, ce
qui est quivalent f g.
161
7.3. MARCHE ALATOIRE SIMPLE SUR Z
D
7.3.2 Rcurrence et transience des marches alatoires sur Z
d
Finalement, nous allons nous intresser un problme classique : dterminer si la
marche alatoire simple est rcurrente ou transiente. Nous avons dj vu que dans le cas
d = 1, la marche symtrique est rcurrente-nulle. Le rsultat suivant a t dmontr par
Plya
8
en 1921 ; il montre que la dimension du rseau aecte crucialement le comportement
de la marche alatoire.
Thorme 7.3.1. La marche alatoire simple symtrique sur Z
d
est rcurrente si et seule-
ment si d 2.
Dmonstration. Il existe de nombreuses preuves de ce rsultat. Une faon assez lmentaire
de le dmontrer est de dterminer exactement la probabilit de retour lorigine et dutiliser
la formule de Stirling et des bornes appropries.
Nous allons passer par les fonctions caractristiques, car cet argument est beaucoup
plus robuste. La premire observation est le lemme suivant.
Lemme 7.3.2. Soit N le nombre de retours de la marche alatoire simple lorigine. Alors
S
n
est rcurrente E
0
(N) =

n1
P
0
(S
n
= 0) = .
Dmonstration. Soit r = P
0
(N 1) la probabilit de retour lorigine, et soit
(n)
0
le
temps du n
me
retour en 0 (avec
(n)
0
= si N < n). Il suit de la proprit de Markov
que, pour tout n 1,
P
0
(N n[ N n 1) =

k2n2
P
0
(N n[
(n1)
0
= k) P
0
(
(n1)
0
= k [ N n 1)
= r

k2n2
P
0
(
(n1)
0
= k [ N n 1) = r.
Il suit donc que P
0
(N n) = r P
0
(N n 1) = r
2
P
0
(N n 2) = . . . = r
n
. Par
consquent,
E
0
(N) =

n1
P
0
(N n) =
_
r/(1 r) si r < 1
si r = 1
ce qui dmontre la premire quivalence. Puisque
E
0
(N) = E
0
(

n1
1
S
n
=0
) =

n1
P
0
(S
n
= 0),
le lemme est dmontr.
8. George Plya (1887, Budapest 1985, Palo Alto), mathmaticien hongrois.
162
CHAPITRE 7. MARCHES ALATOIRES
En utilisant lidentit
_
[,]
d
dp
(2)
d
e
ip,x)
= 1
x=0
, x Z
d
on obtient
P
0
(S
n
= 0) =
_
[,]
d
dp
(2)
d
E
0
(e
ip,S
n
)
),
et E
0
(e
ip,S
n
)
) = (E(e
ip,X
1
)
))
n
= (
X
1
(p))
n
. Un calcul lmentaire montre que la fonction
caractristique de X
1
satisfait
X
1
(p) =
1
d

d
i=1
cos(p
i
), pour tout p = (p
1
, . . . , p
d
). Par
consquent, le thorme de Fubini permet dcrire, pour tout 0 < < 1,

n1

n
P
0
(S
n
= 0) =
_
[,]
d
dp
(2)
d

n1
(
X
1
(p))
n
=
_
[,]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
.
On aimerait prendre la limite 1 prsent, mais cela ncessite quelques prcautions.
Pour le membre de gauche, cest facile :

n1

n
1
S
n
=0
est clairement une suite croissante
de fonctions intgrables positives, et donc on peut permuter la limite et la somme en
utilisant le Thorme de la convergence monotone. En ce qui concerne le terme de droite,
on commence par observer que
X
1
(p) est relle et positive pour tout p [1, 1]
d
. Par
consquent, il suit du Thorme de la convergence monotone que
lim
1
_
[1,1]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
=
_
[1,1]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
.
Pour traiter le reste, on observe que la suite de fonctions
X
1
(p)/(1
X
1
(p)) converge
ponctuellement et est uniformment borne sur [, ]
d
[1, 1]
d
. Par consquent, il suit
du Thorme de convergence domine que
lim
1
_
[,]
d
\[1,1]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
=
_
[,]
d
\[1,1]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
.
On a donc nalement bien

n1
P
0
(S
n
= 0) =
_
[,]
d
dp
(2)
d

X
1
(p)
1
X
1
(p)
.
Le problme se rduit donc lanalyse de la divergence de lintgrande du membre de
droite en p = 0. Par un dveloppement de Taylor, on a que
cos(x) = 1
1
2
x
2
+
1
24
x
4
0
,
avec 0 x
0
x. Par consquent, pour tout x [1, 1],
1
1
2
x
2
cos(x) 1
11
24
x
2
.
On en dduit que
1
2d
|p|
2
1
X
1
(p)
11
24d
|p|
2
au voisinage de 0. On voit donc que
lintgrande se comporte comme |p|
2
au voisinage de 0. Par consquent, lintgrale con-
verge si et seulement si d > 2.
163
7.3. MARCHE ALATOIRE SIMPLE SUR Z
D
Figure 7.9: Partie dune trajectoire du mouvement brownien en dimension 1.
Remarque 7.3.1. Le rsultat prcdent montre que lorsque d 3, la probabilit
d
de
retour au point de dpart est infrieure 1. Il est en fait possible de la dterminer. On
peut montrer que
d
= 1 1/u(d), o
u(d) =
d
(2)
d
_
+

. . .
_
+

dx
1
dx
d
d cos x
1
cos x
d
.
On obtient ainsi, par exemple :
3
0,340,
4
0,193,
5
0,135, etc.
Lemme 7.3.3. La marche alatoire simple symtrique bidimensionnelle est rcurrente-
nulle.
Dmonstration. Notons S
n
= (S
n
(1), S
n
(2)) la marche alatoire simple symtrique bidi-
mensionnelle, et X
k
= (X
k
(1), X
k
(2)), k 1, les incrments correspondants. On a dj vu
que S
n
est rcurrente, il sut donc de montrer que E
0
(
0
) = .
On vrie trs facilement que le processus

S
n
= S
n
(1) +S
n
(2) est une marche alatoire
simple symtrique unidimensionnelle (il sut de voir que X
n
(1) +X
n
(2) est une variable
alatoire uniforme sur 1, 1). Par consquent, si on note
0
le temps de premier retour
de

S
n
, on a
E
0
(
0
) = E
0
_
inf n 1 : S
n
(1) = S
n
(2) = 0
_
E
0
_
infn 1 :

S
n
= 0
_
= E
0
(
0
) = ,
puisque la marche alatoire simple symtrique unidimensionnelle est rcurrente-nulle.
7.3.3 Convergence vers le mouvement brownien
On considre une marche alatoire simple symtrique (S
n
)
n0
sur Z. Le thorme cen-
tral limite implique que, pour tout t R
+
,
1

N
S
[tN]
/
P
0
A(0, t), N .
Il est en fait possible de dmontrer (un rsultat appel principe dinvariance) quune conver-
gence de ce type a lieu pour la loi des trajectoires du processus. On obtient ainsi, dans
164
CHAPITRE 7. MARCHES ALATOIRES
Figure 7.10: Partie dune trajectoire du mouvement brownien en dimension 2 (tous les temps
considrs sont superposs).
la limite, un processus (B
t
)
tR
+
, dont chaque ralisation est presque srement une fonc-
tion continue, mais nulle-part direntiable. Ce processus est appel mouvement brownien
ou processus de Wiener
9
. Une partie dune trajectoire de ce processus est donne sur la
Figure 7.9.
Similairement, on peut montrer la convergence en loi de la marche alatoire simple
sur Z
d
vers un processus limite (B
t
)
tR
+ valeurs dans R
d
, dont les trajectoires sont,
presque srement, continues mais nulle part direntiables. Sur la gure 7.10, on a trac
une portion de trajectoire dans le cas bidimensionnel.
9. Norbert Wiener (1894, Columbia 1964, Stockholm), mathmaticien amricain.
165
7.3. MARCHE ALATOIRE SIMPLE SUR Z
D
166
Chapitre 8
Les chanes de Markov
Dans ce chapitre, nous allons introduire une classe trs importante de processus sto-
chastiques : les chanes de Markov. De manire informelle, une chane de Markov dcrit un
systme dont lvolution alatoire est telle que la loi du systme dans le futur ne dpend
que de son tat prsent et pas de son histoire.
8.1 Dnition et exemples
Soit X
0
, X
1
, X
2
, . . . un suite de variables alatoires prenant valeur dans un ensemble S
dnombrable. Nous noterons X le processus stochastique correspondant et P sa loi.
Dnition 8.1.1. Le processus X est une chane de Markov sil possde la proprit de
Markov,
P(X
n
= s
n
[ X
0
= s
0
, X
1
= s
1
, . . . , X
n1
= s
n1
) = P(X
n
= s
n
[ X
n1
= s
n1
),
pour tout n 1 et tout s
0
, s
1
, . . . , s
n
S.
S est appel espace des tats de la chane.
Les marches alatoires du chapitre 7 fournissent un exemple de chane de Markov,
avec S = Z
d
. La taille de la population dans le processus de branchement tudi dans la
Sous-section 4.1.2 est un autre exemple de processus de Markov, cette fois avec S = N.
Dnition 8.1.2. Une chane de Markov X est homogne si
P(X
n
= j [ X
n1
= i) = P(X
1
= j [ X
0
= i),
pour tout n, i, j.
Dornavant, par souci de simplicit, nous allons supposer que S est un ensemble ni et
que la chane de Markov est homogne. Dans ce cas, on voit que lvolution de la chane
est caractrise par la matrice P = (p(i, j))
i,jS
dnie par
p(i, j) = P(X
1
= j [ X
0
= i).
167
8.1. DFINITION ET EXEMPLES




0,8 0,6
B M
0,2
0,4
Figure 8.1: La reprsentation graphique de la chane de lexemple 8.1.1.
Dnition 8.1.3. La matrice P est appele matrice de transition de la chane, et les pro-
babilits p(i, j) sont appeles probabilits de transition (de i j).
Lemme 8.1.1. Une matrice de transition est caractrise par les deux proprits sui-
vantes :
1. p(i, j) 0, i, j S ;
2.

jS
p(i, j) = 1, i S.
Une matrice possdant ces deux proprits est appele une matrice stochastique.
Dmonstration. Exercice lmentaire.
Dnition 8.1.4. Soit = ((i))
iS
une mesure de probabilit sur S et P une matrice
stochastique. La chane de Markov (P, ) est la chane de Markov (homogne dans le temps)
de matrice de transition P et de loi initiale , cest--dire telle que P(X
0
= i) = (i), pour
tout i S. On crira simplement X (P, ).
Dans la suite, nous utiliserons les notations suivantes : la loi de la chane de Markov
(P, ) sera note P

, et lesprance correspondante E

. En particulier, lorsque la loi initiale


est concentre sur un tat i S, cest--dire lorsque =
i
(
i,j
)
jS
, nous crirons
simplement P
i
et E
i
.
Remarque 8.1.1. nouveau, la construction du processus peut se faire comme esquiss
dans la section 7.1, les moments ni-dimensionnels associs la chane de Markov (P, )
tant donns par
P

(X
0
= s
0
, X
1
= s
1
, . . . , X
n
= s
n
) = (s
0
)p(s
0
, s
1
) p(s
n1
, s
n
),
pour toute suite s
0
, . . . , s
n
S.
Exemple 8.1.1. Aprs une longue collecte de donnes, Robinson a conu le modle suivant
pour dcrire approximativement le temps quil fera sur son le :
S = beau temps, mauvais temps, et P =
_
0, 8 0, 2
0, 4 0, 6
_
.
168
CHAPITRE 8. LES CHANES DE MARKOV
La matrice P est stochastique et encode donc bien les probabilits de transition dune chane
de Markov sur S. Il est usuel de reprsenter de telles chanes par un graphe comme sur la
Figure 8.1.
Vendredi, quant lui, a labor un modle plus complexe, prdisant le temps du lende-
main partir du temps du jour et de celui de la veille. Le processus X quil obtient nest
plus une chane de Markov sur S, puisque la proprit de Markov nest plus vrie. Il
est cependant possible den dduire une chane de Markov sur un espace dtats tendu,
en loccurrence S S, en considrant les variables alatoires Y
n
= (X
n
, X
n1
). En eet,
la connaissance du couple Y
n
= (X
n
, X
n1
) dtermine X
n
, et donc il ne reste plus qu
prdire X
n+1
, dont la probabilit est fonction uniquement de X
n
et X
n1
.
La matrice P contient toute linformation sur les probabilits de transition dun tat s
au temps n vers un tat s
t
au temps n + 1. On peut facilement lutiliser pour dterminer
galement les probabilits de transition dun tat s au temps m vers un tat s
t
en un temps
ultrieur m+n quelconque. Notons
p
n
(i, j) = P
i
(X
n
= j).
Alors, pour tout n 1,
p
n
(i, j) = P
i
(X
n
= j)
=

kS
P
i
(X
n
= j, X
n1
= k)
=

kS
P
i
(X
n
= j [ X
n1
= k) P
i
(X
n1
= k)
=

kS
P
k
(X
1
= j) P
i
(X
n1
= k)
=

kS
p(k, j)p
n1
(i, k).
Cette relation est connue sous le nom dquation de Chapman-Kolmogorov. On en dduit
facilement le rsultat fondamental suivant.
Thorme 8.1.1. La matrice de transition en n pas, P
n
= (p
n
(i, j))
i,jS
, est donne par
la n
me
puissance de la matrice de transition P,
P
n
= P
n
.
Dmonstration. On peut rcrire lquation de Chapman-Kolmogorov sous la forme
(P
n
)
ij
=

kS
(P
n1
)
ik
(P)
kj
= (P
n1
P)
ij
.
En particulier, P
n
= P
n1
P = P
n2
P
2
= = P
n
.
Il suit que lon peut facilement exprimer la loi de la chane au temps n partir de la
loi de la chane au temps 0.
169
8.1. DFINITION ET EXEMPLES
Thorme 8.1.2. Soit X (P,
0
). Alors, la loi de la chane au temps n,
n
(i) =
P

0
(X
n
= i), i S, est donne par

n
=
0
P
n
.
Dmonstration.

n
(i) = P

0
(X
n
= i) =

jS
P

0
(X
n
= i [ X
0
= j)P

0
(X
0
= j)
=

jS
p
n
(j, i)
0
(j) = (
0
P
n
)
i
.
Nous nous intresserons principalement deux classes particulires, mais trs impor-
tantes, de chanes de Markov.
Dnition 8.1.5. Soit P une matrice stochastique sur un ensemble S.
Un tat j S est atteignable depuis ltat i S, not i j, sil existe n 0 tel que
p
n
(i, j) > 0.
Un tat i S est absorbant si p(i, i) = 1.
P est irrductible si, pour tout i, j S, on a i j.
P est absorbante si, pour tout i S, il existe j S absorbant avec i j.
Si X est une chane de Markov de matrice de transition P, on dira que X est irrductible,
resp. absorbante, lorsque P est irrductible, resp. absorbante.
Par la suite, on notera n(i, j) = inf n 1 : p
n
(i, j) > 0 le nombre minimal de pas
permettant de passer de i j avec probabilit positive ; en particulier, n(i, j) < si et
seulement si i j.
Exemple 8.1.2. On positionne un cavalier sur une des cases dun chiquier (Fig. 8.2).
chaque pas, on dplace le cavalier alatoirement sur une des cases accessibles depuis sa
position actuelle (en respectant les rgles de dplacement de cette pice). Combien de pas
en moyenne faudra-t-il pour que le cavalier retourne son point de dpart ? On a ici un
exemple de chane de Markov irrductible, et on dveloppera (Thorme 8.3.2 et exercices)
des mthodes permettant de rpondre trs facilement ce type de question.
Exemple 8.1.3. Le modle des urnes dEhrenfest. Ce modle a t introduit par Paul
et Tatiana Ehrenfest
1, 2
en 1907 an dillustrer certains paradoxes lis lirrversibilit
dans les fondements de la mcanique statistique, encore toute jeune. Le but est de modliser
lvolution des molcules dun gaz lintrieur dun rcipient. Plus particulirement, on est
intress au nombre de molcules se trouvant dans la moiti gauche et dans la moiti droite
du rcipient (voir Fig. 8.3). Leur modle, trs simpli, de cette situation peut tre formul
1. Paul Ehrenfest (1880, Vienne 1933, Amsterdam), physicien thoricien autrichien.
2. Tatiana Alexeyevna Afanaseva (1876, Kiev 1964, Leiden), mathmaticienne russe et danoise.
170
CHAPITRE 8. LES CHANES DE MARKOV
Figure 8.2: Quel est le nombre moyen de pas ncessaires pour que le cavalier se dplaant au
hasard sur lchiquier se retrouve son point de dpart ?
comme suit. On considre 2 urnes A et B, et N boules numrotes de 1 N. Initialement,
toutes les boules se trouvent dans lurne A. Ensuite, aux temps 1, 2, 3, . . ., un numro entre
1 et N est tir au hasard (uniformment) et la boule correspondante est dplace de lurne
quelle occupe en ce moment vers lautre. On note X
n
le nombre de boules prsentes dans
lurne A au temps n. La suite X
0
, X
1
, . . . est une chane de Markov sur S = 0, . . . , N.
Le graphe correspondant, pour N = 5 est reprsent dans la Figure 8.4. X est clairement
irrductible.
Exemple 8.1.4 (Modle du votant). Le type de modle que nous allons considrer
prsent a t utilis entre autres en gntique. Il possde plusieurs noms, dont celui de
modle du votant. On considre une grille n n, dont chaque case est initialement peinte
avec une couleur choisie parmi k. On suppose que cette grille est enroule sur elle mme de
faon former un tore. De cette manire, chaque case possde prcisment 8 cases voisines
(Fig. 8.5). La dynamique est la suivante : chaque pas,
1. on tire une case x au hasard (uniformment) ;
2. on choisit une de ses 8 voisines, y, au hasard (uniformment) ;
3. on repeint x de la couleur de y.
On vrie aisment que la chane de Markov ainsi dnie est absorbante, avec k tats
absorbants (les k congurations o toutes les cases sont de la mme couleur).
La terminologie modle du votant provient de linterprtation suivante : chaque
case reprsente un individu, et chaque couleur une opinion possible sur un certain sujet.
chaque itration du processus, un des individus discute avec lun de ses voisins, se laisse
convaincre par ce dernier et prend la mme opinion. Les tats absorbants correspondent
alors au consensus.
171
8.2. CHANES DE MARKOV ABSORBANTES
Figure 8.3: Au dbut de lexprience, toutes les molcules du gaz sont connes dans le rcipient
de gauche. Lorsque lon retire la paroi sparant les deux rcipients, les molcules se rpartissent
uniformment dans tout le volume disponible. Comment une telle irrversibilit peut-elle tre
compatible avec la rversibilit des quations dvolution microscopiques ?







0
0,2 0,4 0,6 0,8
0,8 0,4 0,6
2 3 4 5
0,2 1
1
1
Figure 8.4: La reprsentation graphique du modle des urnes dEhrenfest.
La gure 8.6 montre ltat initial de la chane, et deux tats ultrieurs. Nous dmontre-
rons plus tard qu chaque instant, la probabilit que la chane soit absorbe dans un tat
dune certaine couleur est donne par la fraction de cases de cette couleur, indpendamment
de leur rpartition gomtrique.
Dans la suite de ce chapitre, nous allons tudier plus en dtails les chanes absorbantes
et irrductibles.
8.2 Chanes de Markov absorbantes
Lanalyse des chanes de Markov absorbantes est simplie si lon crit la matrice de
transition sous sa forme canonique, cest--dire en plaant les tats absorbants en dernier,
P =
_
Q R
0 1
_
.
Si [S[ = m et il y a r tats absorbants, Q est donc une matrice (mr) (mr), R une
matrice (mr) r, et 1 la matrice identit r r.
Lemme 8.2.1. Soit P une matrice de transition sous sa forme canonique. Alors, pour
172
CHAPITRE 8. LES CHANES DE MARKOV
Figure 8.5: Une grille 30 30 enroule en un tore. Chaque case possde 8 voisines.
Figure 8.6: Le modle du votant (Exemple 8.1.4), pour k = 2, sur une grille 50 50 (reprsente
plat ). Gauche : tat initial ; milieu : aprs 1000000 de pas ; droite : aprs 10000000 de pas.
tout n 1,
P
n
=
_
Q
n
(1 +Q+ +Q
n1
)R
0 1
_
.
Dmonstration. On procde par rcurrence.
P
n
= PP
n1
=
_
Q R
0 1
__
Q
n1
(1 +Q+ +Q
n2
)R
0 1
_
=
_
Q
n
(1 +Q+ +Q
n1
)R
0 1
_
.
Le rsultat suivant montre quune chane de Markov absorbante nit toujours par se
retrouver dans un tat absorbant.
Proposition 8.2.1. Soit P une matrice de transition mise sous forme canonique. Alors,
lim
n
Q
n
= 0.
173
8.2. CHANES DE MARKOV ABSORBANTES
Dmonstration. Soit / lensemble des tats absorbants, et i, j , /. On a
(Q
n
)
ij
= P
i
(X
n
= j) P
i
(X
n
, /).
Soient M = max
iS
min k : P
i
(X
k
/) > 0 et
p = min
iS
P
i
(X
M
/)(> 0).
On a alors,
max
iS
P
i
(X
M
, /) = 1 p,
et par consquent, on dduit de la proprit de Markov que
max
iS
P
i
(X
n
, /)
_
max
iS
P
i
(X
M
, /)
_
]
n
M
|
= (1 p)
]
n
M
|
,
et le rsultat suit en prenant la limite n .
Corollaire 8.2.1. Soit P la matrice de transition dune chane de Markov absorbante,
sous forme canonique. Alors la matrice 1 Q est inversible et son inverse est donn par
N = (1 Q)
1
= 1 +Q+Q
2
+ .
Dmonstration. Soit v un vecteur tel que (1 Q)v = 0. Alors,
Q
n
v = Q
n1
Qv = Q
n1
v,
et donc Q
n
v = v, pour tout n 1. On en dduit de la Proposition 8.2.1 que
v = lim
n
Q
n
v = 0,
ce qui montre que la matrice 1 Q nadmet pas 0 comme valeur propre et est donc
inversible. prsent, il sut dobserver que
(1 Q)(1 +Q+Q
2
+ +Q
n
) = 1 Q
n+1
,
et donc
1 +Q+Q
2
+ +Q
n
= N(1 Q
n+1
),
ce qui implique que
N = lim
n
n

i=0
Q
i
.
Dnition 8.2.1. La matrice N est appele matrice fondamentale de la chane.
174
CHAPITRE 8. LES CHANES DE MARKOV
La matrice fondamentale dune chane de Markov absorbante permet dextraire de
nombreuses proprits de celle-ci. En particulier, elle permet de dterminer simplement le
nombre moyen de visites en un tat donn avant absorption, lesprance du temps jusqu
absorption partant dun tat donn, ainsi que les probabilits dtre absorb dans un tat
donn k, tant parti dun tat i.
Thorme 8.2.1. Soit N la matrice fondamentale de la chane, / lensemble des tats
absorbants, et = min n 0 : X
n
/. Alors,
1. E
i
(

k0
1
X
k
=j
) = N
ij
, pour tout i, j , /;
2. E
i
() =

j,,
N
ij
, pour tout i , /;
3. P
i
(X

= j) = (NR)
ij
, pour tout i , /, j /.
Dmonstration. 1. Soient i, j deux tats non-absorbants. Alors,
E
i
(

n0
1
X
n
=j
) =

n0
P
i
(X
n
= j) =

n0
(P
n
)
ij
=

n0
(Q
n
)
ij
= N
ij
.
2. Il sut dobserver que, par le point prcdent,
E
i
() = E
i
(

n0
1
X
n
,,
) =

j,,
E
i
(

n0
1
X
n
=j
) =

j,,
N
ij
.
3. On a, pour tout i , / et j /,
P
i
(X

= j) =

n1
P
i
(X
n
= j, X
n1
, /)
=

n1

k,,
P
i
(X
n
= j, X
n1
= k)
=

n1

k,,
P(X
n
= j [ X
n1
= k)P
i
(X
n1
= k)
=

n1

k,,
R
kj
(Q
n1
)
ik
=

n1
(Q
n1
R)
ij
= (NR)
ij
.
Le thorme prcdent permet en principe de calculer plusieurs quantits importantes.
Dans la pratique cependant, le calcul peut se rvler laborieux, voire infaisable, en particu-
lier lorsque la matrice de transition devient trs grande. On doit alors recourir dautres
outils...
175
8.2. CHANES DE MARKOV ABSORBANTES
Dnition 8.2.2. Soit f une fonction dnie sur S et P = (p(i, j))
i,jS
une matrice
stochastique. On dit que f est une fonction P-harmonique si
f(i) =

jS
p(i, j)f(j), i S,
cest dire, sous forme vectorielle, f = Pf , o f = (f(i))
iS
.
Thorme 8.2.2. Soient (X
n
)
n0
une chane de Markov absorbante de matrice de tran-
sition P, le temps dabsorption, et / lensemble des tats absorbants. Alors, pour toute
fonction f P-harmonique, et tout i S,
f(i) =

j,
f(j)P
i
(X

= j).
Dmonstration. Puisque f est P-harmonique,
f = P
n
f , n 1,
et, par consquent,
f = lim
n
P
n
f =
_
0 NR
0 1
_
f ,
et on conclut laide du Thorme 8.2.1.
Ce thorme peut se rvler particulirement utile, dans certaines circonstances.
Exemple 8.2.1. Retournons au modle introduit dans lExemple 8.1.4. On considre une
grille n n, et k couleurs, notes 1, . . . , k. On note P la matrice de transition asso-
cie. La fonction f donnant la fraction de cases de couleur 1 dans la conguration est
P-harmonique. En eet, la dynamique revient tirer au hasard (uniformment, donc avec
une probabilit 1/(8n
2
)) une paire ordonne (x, y) de cases voisines et recolorier la case
x avec la couleur de la case y. Le nombre de cases de couleur 1 va donc
augmenter de 1 si la paire de sommets est telle que y soit de couleur 1, mais pas x;
diminuer de 1 si la paire de sommets est telle que x soit de couleur 1, mais pas y ;
demeurer inchang dans les autres cas.
On a donc, en notant N
1
(i) le nombre de 1 dans la conguration i,

jS
p(i, j)
_
N
1
(j) N
1
(i)
_
=

(x,y)
voisins
1
8n
2
_
1
i(x),=1,i(y)=1
1
i(x)=1,i(y),=1
_
,
o i(x) est la couleur de la case x dans la conguration i. La dernire somme est nulle,
puisque chaque contribution positive de une paire (x, y) est compense par la contribution
ngative de la paire (y, x). La fonction f = N
1
/n
2
est donc bien P-harmonique.
Soit le temps dabsorption de la chane, et notons a
1
, . . . , a
k
les k tats absorbants, a

reprsentant ltat o toutes les cases sont de couleur . Supposons prsent que la fraction
176
CHAPITRE 8. LES CHANES DE MARKOV
1
1
Figure 8.7: Une fois la chane entre dans un des tats reprsents en vert, elle ne peut plus
retourner vers les tats reprsents en rouge (gauche). Ce type de chane peut tre tudi de la
mme faon que les chanes absorbantes, en rendant les points dentre de la sous-chane absorbant
(droite).
de cases de couleur 1 dans ltat initial i
0
soit gale . Le thorme prcdent implique
donc que
= f(i
0
) =
k

=1
f(a

)P
i
0
(X

= a

).
Or, f(a
1
) = 1 (puisque toutes les cases de a
1
sont de couleur 1), et f(a

) = 0 pour
= 2, . . . , k. On a donc
= P
i
0
(X

= a
1
).
En dautres termes, chaque instant, la probabilit que la chane nisse absorbe dans
ltat absorbant de couleur est prcisment donne par la fraction de cases de couleur ,
un rsultat qui serait dicile obtenir directement partir du point 3 du Thorme 8.2.1.
Une remarque simpose avant de conclure cette section. Considrons la chane de Mar-
kov de la Figure 8.7 (gauche). Cette chane nest pas absorbante, puisquaucun tat nest
absorbant. Cependant, elle contient une sous-chane de laquelle il est impossible de schap-
per (les tats reprsents en vert). Lanalyse eectue dans cette section permet dobtenir
trs simplement des informations sur cette chane (par exemple, sur le temps moyen, ou
le nombre de visites en un tat donn, avant dentrer dans cette sous-chane, ainsi que le
point dentre) : il sut de rendre absorbant chacun des tats par lesquels on peut entrer
dans la sous-chane ; on obtient ainsi la chane reprsente sur la Figure 8.7 (droite), et
celle-ci est absorbante.
8.3 Chanes de Markov irrductibles
Dans cette section, nous allons nous intresser au cas des chanes de Markov irrducti-
bles. La terminologie suivante va se rvler utile.
Dnition 8.3.1.
Un tat i S est rcurrent si P
i
(n 1, X
n
= i) = 1. Sinon i est transient.
177
8.3. CHANES DE MARKOV IRRDUCTIBLES
X est rcurrente si tous les tats sont rcurrents.
Le rsultat suivant donne une condition ncessaire et susante pour la rcurrence dun
tat (il ne suppose pas lirrductibilit).
Lemme 8.3.1. Un tat j est rcurrent si et seulement si

n
p
n
(j, j) = . Dans ce cas,

n
p
n
(i, j) = pour tous les tats i tels que j est accessible depuis i. Si j est transient,
alors

n
p
n
(i, j) < , i S.
Dmonstration. De faon similaire ce que lon a fait dans le cas des marches alatoires,
on introduit les fonctions gnratrices
G
ij
(s) =

n
s
n
p
n
(i, j), H
ij
(s) =

n
s
n
h
n
(i, j),
o h
n
(i, j) = P
i
(X
1
,= j, X
2
,= j, . . . , X
n1
,= j, X
n
= j). Notons que H
ij
(1) = P
i
(n
1, X
n
= j). En procdant exactement comme dans le Lemme 7.2.12, on obtient que, pour
i ,= j S,
G
ii
(s) = 1 +H
ii
(s)G
ii
(s), G
ij
(s) = H
ij
(s)G
jj
(s).
Le lemme suit alors aisment. En eet,

n
p
n
(j, j) = lim
s1
G
jj
(s) = lim
s1
(1 H
jj
(s))
1
,
et cette dernire quantit est innie si et seulement si H
jj
(1) = 1, ce qui est quivalent
dire que j est rcurrent.
Pour les deux autres armations, on utilise

n
p
n
(i, j) = G
ij
(1) = H
ij
(1)G
jj
(1).
Lorsque j est rcurrent et accessible depuis i, G
jj
(1) = et H
ij
(1) > 0. Lorsque j est
transient, G
jj
(1) < et H
ij
(1) 1.
Dans le cas dune chane irrductible, on sattend intuitivement ce que tous les tats
soient visits inniment souvent, et donc que la chane soit rcurrente.
Lemme 8.3.2. Une chane X irrductible sur un espace dtats S ni est toujours rcur-
rente. De plus, le temps moyen de rcurrence dans ltat i,
i
= E
i
(T
i
) avec
T
i
= min n 1 : X
n
= i ,
est ni pour tout i S. On dit que la chane est rcurrente-positive.
Dmonstration. Observons tout dabord quune telle chane possde toujours au moins un
tat rcurrent. Si ce ntait pas le cas, on aurait, par le Lemme 8.3.1
1 = lim
n

jS
p
n
(i, j) =

jS
lim
n
p
n
(i, j) = 0,
puisque lim
n
p
n
(i, j) = 0 ds que j est transient.
178
CHAPITRE 8. LES CHANES DE MARKOV
On se souvient que n(i, j) = min n 1 : p
n
(i, j) > 0. Montrons prsent que si
i j et j i, et que i est rcurrent, alors j est galement rcurrent. Puisque n(i, j) <
et n(j, i) < , on a

n1
p
n
(j, j)

nn(j,i)+n(i,j)+1
p
n(j,i)
(j, i)p
nn(j,i)n(i,j)
(i, i)p
n(i,j)
(i, j)
= p
n(j,i)
(j, i)p
n(i,j)
(i, j)

n1
p
n
(i, i) = ,
et la premire armation est dmontre.
Pour montrer la seconde, on note que lirrductibilit de la chane et la nitude de S
impliquent que n(i) = max
jS
n(j, i) < , et p = min
jS
p
n(j,i)
(j, i) > 0. On a alors, avec
les notations M = n/n(i)| et k
0
= i,
P
i
(T
i
n)

k
1
,=i,...,k
M
,=i
M

=1
P
k
1
(X
n(k
1
,i)
= k

)
=

k
1
,=i,...,k
M1
,=i
M1

=1
P
k
1
(X
n(k
1
,i)
= k

)
P
k
M1
(X
n(k
M1
,i)
,= i)
(1 p)

k
1
,=i,...,k
M1
,=i
M1

=1
P
k
1
(X
n(k
1
,i)
= k

)
(1 p)
M
.
Par consquent, on a bien
i
= E
i
(T
i
) =

n1
P
i
(T
i
n) < .
Lemme 8.3.3. Soit X une chane de Markov irrductible sur un espace dtats S ni.
Alors, pour tout i, j S,
P
j
(n 1, X
n
= i) = 1.
Dmonstration. Soient i ,= j deux tats. Manifestement, si X
0
= i et X
n(i,j)
= j, alors,
X
k
,= i, pour tout 1 k n(i, j) (sinon n(i, j) ne serait pas minimal). On a donc
P
i
(X
n
,= i, n 1) P
i
(X
n
,= i, n 1, X
n(i,j)
= j)
= P
i
(X
n
,= i, n > m, X
n(i,j)
= j)
= p
n(i,j)
(i, j) P
j
(X
n
,= i, n 1).
On sait du Lemme 8.3.2 que X est rcurrente, et par consquent, le membre de gauche est
nul. Puisque p
n(i,j)
(i, j) > 0 par construction, on conclut que P
j
(X
n
,= i, n > 1) = 0.
179
8.3. CHANES DE MARKOV IRRDUCTIBLES
8.3.1 Distribution stationnaire
Pour une chane de Markov irrductible X, le processus ne va pas sarrter dans un
certain tat, mais va continuer voluer ternellement. Une question fondamentale est alors
de dterminer son comportement asymptotique : si lon observe une telle chane aprs un
temps trs long, quelle est la probabilit quelle se trouve dans un tat donn ? Avec quelle
frquence visite-t-elle chaque tat ? La rponse ces questions est troitement lie la
notion de distribution stationnaire.
Supposons pour un instant quune telle convergence ait lieu, cest--dire que, pour un
certain i S, il existe un vecteur tel que lim
n
p
n
(i, j) = (j) pour tout j S. Alors,
on devrait ncessairement avoir, dune part,

jS
(j) = lim
n

jS
p
n
(i, j) = 1 et,
dautre part, pour tout k S,

jS
(j)p(j, k) = lim
n

jS
p
n
(i, j)p(j, k) = lim
n
p
n+1
(i, k) = (k).
Ceci motive la dnition suivante.
Dnition 8.3.2. Un vecteur =
_
(i)
_
iS
est appel distribution stationnaire associ
la matrice de transition X si
1. (j) 0 pour tout j S, et

jS
(j) = 1 ;
2. = P.
La raison derrire cette terminologie est la suivante : si X (P, ), alors il suit du
Thorme 8.1.2 que les probabilits doccupation au temps n sont donnes par
P
n
= (P)P
n1
= P
n1
= = .
On voit donc que la distribution est stationnaire : elle ne change pas lorsque le temps
passe.
Nous allons prsent montrer que toute chane de Markov irrductible sur un espace
des tats ni possde une et une seule distribution stationnaire. Pour ce faire, introduisons,
pour chaque k S, le vecteur
k
= (
k
(i))
iS
dni par

k
(i) = E
k
_
T
k
1

n=0
1
X
n
=i
_
.
En dautre termes,
k
(i) est le nombre moyen de visites en i, partant de k, avant le premier
retour en k. Le thorme suivant montre quune distribution stationnaire existe toujours,
lorsque la chane est irrductible et lespace des tats ni.
Thorme 8.3.1. Soit P irrductible sur S ni. Alors, pour tout k S,
(i)
k
(k) = 1 ;
(ii)
k
P =
k
;
180
CHAPITRE 8. LES CHANES DE MARKOV
(iii)

iS

k
(i) =
k
;
(iv) 0 <
k
(i) < , pour tout i S.
En particulier, pour tout k S, le vecteur =
k
/

iS

k
(i) =
k
/
k
est une distribution
stationnaire.
Dmonstration. (i) suit immdiatement de la dnition.
(ii) Dune part, il suit du Lemme 8.3.2 quavec probabilit 1, T
k
< et donc X
0
=
X
T
k
= k. Dautre part, lvnement T
k
n = X
1
,= k, X
2
,= k, . . . , X
n1
,= k ne
dpendant que de X
1
, . . . , X
n1
, la proprit de Markov au temps n 1 (et le fait que les
deux membres sont nuls lorsque i = k) donne
P
k
(X
n1
= i, X
n
= j, T
k
n) = P
k
(X
n1
= i, T
k
n) p(i, j), i, j S.
On peut donc crire

k
(j) = E
k
_
T
k
1

n=0
1
X
n
=j
_
= E
k
_
T
k

n=1
1
X
n
=j
_
= E
k
_

n=1
1
X
n
=j,T
k
n
_
=

n=1
P
k
(X
n
= j, T
k
n)
=

iS

n=1
P
k
(X
n1
= i, X
n
= j, T
k
n)
=

iS
p(i, j)

n=1
P
k
(X
n1
= i, T
k
n)
=

iS
p(i, j) E
k
_

n=1
1
X
n1
=i,T
k
n
_
=

iS
p(i, j) E
k
_

n=0
1
X
n
=i,T
k
1n
_
=

iS
p(i, j) E
k
_
T
k
1

n=0
1
X
n
=i
_
=

iS
p(i, j)
k
(i) .
(iii) suit directement de la dnition :

iS

k
(i) =

iS
E
k
_
T
k
1

n=0
1
X
n
=i
_
= E
k
_
T
k
1

n=0

iS
1
X
n
=i
_
= E
k
_
T
k
_
=
k
.
(iv) Dune part, il suit du point prcdent que
k
(i)

jS

k
(j) =
k
< . Dautre part,
il suit de lirrductibilit de la chane que, pour tout i S, n(k, i) < . Par consquent,
on a

k
(i) =

jS

k
(j) p
n(k,i)
(j, i)
k
(k) p
n(k,i)
(k, i) = p
n(k,i)
(k, i) > 0. (8.1)
181
8.3. CHANES DE MARKOV IRRDUCTIBLES
Le rsultat suivant montre lunicit de la distribution stationnaire dune chane irr-
ductible sur un espace des tats nis, et fournit une formule alternative, utile, pour cette
distribution.
Thorme 8.3.2. Soit P une matrice stochastique irrductible sur un espace des tats S
ni. Alors, P possde une unique distribution stationnaire . De plus,
(i) =
1

i
, i S,
o
i
= E
i
(T
i
) < est le temps moyen de rcurrence dans ltat i.
Dmonstration. On commence par dmontrer lunicit. Soit un vecteur non-nul satis-
faisant (i) 0 pour tout i S et = P. Largument utilis en (8.1) implique que
(i) > 0, pour tout i S ; on peut donc supposer sans perte de gnralit que (k) = 1.
Alors, pour tout j S,
(j) =

i
1
S
(i
1
)p(i
1
, j) =

i
1
S\k
(i
1
)p(i
1
, j) +(k)p(k, j)
=

i
1
,i
2
S\k
(i
2
)p(i
2
, i
1
)p(i
1
, j) +
_
p(k, j) +

i
1
S\k
p(k, i
1
)p(i
1
, j)
_
= . . .
=

i
1
,...,i
n
S\k
(i
n
)p(i
n
, i
n1
) p(i
1
, j)
+
_
p(k, j) +

i
1
S\k
p(k, i
1
)p(i
1
, j) + +

i
1
,...,i
n1
S\k
p(k, i
n1
) p(i
2
, i
1
)p(i
1
, j)
_
P
k
(X
1
= j, T
k
1) +P
k
(X
2
= j, T
k
2) + +P
k
(X
n
= j, T
k
n).
Cette dernire expression convergeant vers
k
(j) lorsque n , on en dduit que (j)

k
(j), pour tout j S. Par consquent, le vecteur =
k
satisfait (i) 0 pour tout
i S.
Par irrductibilit, pour chaque i S, n(i, k) < . Comme P = P
k
P =

k
= , on en conclut que
0 = (k) =

jS
(j)p
n(i,k)
(j, k) (i)p
n
(i, k),
ce qui implique (i) = 0.
Passons la seconde armation. La premire partie et le thorme 8.3.1 impliquent
que (k) =
k
(k)/

iS

k
(i) = 1/
k
. La conclusion suit, puisque le choix de ltat k est
arbitraire.
182
CHAPITRE 8. LES CHANES DE MARKOV
8.3.2 Convergence
On a vu que si la loi de X
n
converge, ce ne peut tre que vers son unique distribution
stationnaire. Il nest cependant pas garanti que la loi de X
n
converge, comme on peut le
voir simplement en considrant la matrice de transition P = (
0 1
1 0
), qui donne lieu une
chane de Markov irrductible de distribution stationnaire (
1
2
,
1
2
), et pour laquelle la loi de
X
n
ne converge pas. Le problme ici est que la chane de Markov X a un comportement
priodique.
Dnition 8.3.3.
Le nombre d(i) = pgcd n : p
n
(i, i) > 0 est la priode de ltat i S.
Un tat i est apriodique si d(i) = 1, et priodique sinon.
X est apriodique si tous ses tats sont apriodiques.
X est dite ergodique si elle est rcurrente-positive, irrductible et apriodique.
Lorsque S est ni, comme on le suppose dans ce chapitre, le Thorme 8.3.2 montre
quune chane de Markov X sur S est ergodique si et seulement si elle est irrductible et
apriodique.
Lemme 8.3.4. Soit X une chane de Markov irrductible et apriodique. Alors, il existe
N < tel que, pour tout i, j S,
p
n
(i, j) > 0, n N.
Dmonstration. Soit j S. Par apriodicit, il existe une suite de temps t
1
, t
2
, . . . , t

ayant
1 pour plus grand diviseur commun, et tels que p
t
k
(j, j) > 0, pour tout 1 k . On peut
alors montrer quil suit du Thorme de Bzout
3
quil existe un entier M = M(j) tel que
tout nombre entier m M(j) peut se dcomposer comme m =

k=1
a
k
t
k
, pour une suite
a
1
, . . . , a

dentiers positifs. Par consquent, on a


p
m
(j, j)

k=1
(p
t
k
(j, j))
a
k
> 0, m M(j).
Soit i S, i ,= j. Par irrductibilit, n(i, j) < , et donc
p
m
(i, j) p
n(i,j)
(i, j)p
mn(i,j)
(j, j) > 0, m M(j) +n(i, j) M
t
(i, j).
Comme il y a un nombre ni de paires (i, j) SS, on peut prendre N = max
i,jS
M
t
(i, j).
Le thorme suivant montre que la priodicit est la seule entrave possible la conver-
gence.
3. Thorme de Bzout : si x
1
, . . . , x
m
N

sont tels que pgcd(x


1
, . . . , x
m
) = d, alors, pour tout n 0,
a
1
, . . . , a
m
Z tels que a
1
x
1
+ +a
m
x
m
= nd. De plus, si n x
1
x
m
, a
1
, . . . , a
m
peuvent tre choisis
tous positifs.
183
8.3. CHANES DE MARKOV IRRDUCTIBLES
Thorme 8.3.3. Soit P irrductible et apriodique sur un espace dtats S ni et une
mesure de probabilit sur S. Alors,
lim
n
P
n
= ,
o est lunique distribution stationnaire associe P.
En particulier, si X (P, ), avec P comme ci-dessus, les Thormes 8.3.2 et 8.3.3
impliquent que lim
n
P

(X
n
= i) = 1/
i
, pour tout i S.
Remarque 8.3.1. On peut vrier (exercice) que pour une chane irrductible, tous les
tats ont mme priode d. Il suit alors que, si X est une chane irrductible de priode d,
alors les chanes Y
(r)
, 0 r < d, dnies par Y
(r)
n
= X
nd+r
sont apriodiques, et quon
peut donc leur appliquer le thorme.
Dmonstration. Soient X
n
et Y
n
deux copies indpendantes de la chane de Markov, et
posons Z
n
= (X
n
, Y
n
). La chane de Markov Z sur S S est irrductible. En eet, pour
tout i, j, k, l S, il suit de lindpendance de X et Y que
p
n
((i, j), (k, l)) = P(Z
n
= (k, l) [ Z
0
= (i, j))
= P(X
n
= k [ X
0
= i)P(Y
n
= l [ Y
0
= j) = p
n
(i, k)p
n
(j, l),
et, les chanes X et Y tant irrductibles et apriodiques, il existe N tel que
p
n
(i, k)p
n
(j, l) > 0,
pour tout n N (voir le Lemme 8.3.4).
Notons P
(i,j)
la loi de la chane Z partant de Z
0
= (i, j). Fixons s S, et introduisons
T = min n 1 : Z
n
= (s, s). Z tant irrductible, P
(i,j)
(T < ) = 1, pour tout i, j S.
Lobservation cruciale est que, pour tout m 0, les lois de X
T+m
et Y
T+m
sont identiques,
puisquelles ne dpendent que de s et m, et de la matrice de transition commune de X et
Y . On peut donc crire
p
n
(i, k) = P
(i,j)
(X
n
= k)
= P
(i,j)
(X
n
= k, T n) +P
(i,j)
(X
n
= k, T > n)
= P
(i,j)
(Y
n
= k, T n) +P
(i,j)
(X
n
= k, T > n)
P
(i,j)
(Y
n
= k) +P
(i,j)
(T > n)
= p
n
(j, k) +P
(i,j)
(T > n).
On obtient donc
[p
n
(i, k) p
n
(j, k)[ P
(i,j)
(T > n)
n
0,
pour tout i, j, k S. On en dduit que

k
p
n
(j, k) =

iS

i
(p
n
(i, k) p
n
(j, k))
n
0,
184
CHAPITRE 8. LES CHANES DE MARKOV
et donc
lim
n

jS
(j)p
n
(j, i) (i)

= lim
n

jS
(j)(p
n
(j, i) (i))

jS
(j) lim
n
[p
n
(j, i) (i)[ = 0.
8.3.3 Rversibilit
Dans de nombreux cas, en particulier pour les chanes de Markov provenant de la
modlisation de phnomnes physiques, la chane possde la proprit remarquable dtre
invariante sous le renversement du temps (dans ltat stationnaire), dans le sens que si lon
lme son volution et que lon passe le lm, il est impossible de dterminer si le lm est
pass lendroit ou lenvers. Bien entendu, ceci nest possible que si la chane se trouve
dans le rgime stationnaire (sinon la relaxation vers lquilibre permet de dterminer le
sens dcoulement du temps).
Soit X
n
, < n < , une chane de Markov irrductible, telle que la loi de X
n
soit
donne par pour tout n Z. On dnit la chane renverse Y par
Y
n
= X
n
, n Z.
Dnition 8.3.4. La chane X est rversible ( lquilibre) si les matrices de transition de
X et Y sont identiques.
Thorme 8.3.4. X est rversible si et seulement si la condition dquilibre local est sa-
tisfaite :
(i) p(i, j) = (j) p(j, i), i, j S.
Dmonstration.
P(Y
n+1
= j [ Y
n
= i) = P(X
n1
= j [ X
n
= i)
= P(X
n
= i [ X
n1
= j)
P(X
n1
= j)
P(X
n
= i)
= p(j, i)
(j)
(i)
.
Une faon dinterprter cette formule est comme suit. Imaginons que lon rpartisse un
volume total deau gal 1 entre les dirents sommets du graphe associ la chane de
Markov. chaque instant, une fraction p(i, j) de leau se trouvant au sommet i est dplace
vers le sommet j (pour tous les sommets i, j simultanment). La distribution dquilibre
correspond la rpartition de leau sur les sommets telle que la quantit deau en chaque
sommet est prserve : toute leau qui en sort est compense exactement par leau qui
185
8.3. CHANES DE MARKOV IRRDUCTIBLES
y entre ((i) =

j

j
p(j, i)). La condition dquilibre local est beaucoup plus forte : on
demande ce que, pour toute paire de sommets i, j, la quantit deau passant du sommet
i au sommet j soit compense exactement par la quantit deau passant du sommet j au
sommet i ((i) p(i, j) = (j) p(j, i)).
Thorme 8.3.5. Soit X une chane irrductible. Sil existe tel que
0 (i) 1,

iS
(i) = 1, (i) p(i, j) = (j) p(j, i) pour tout i, j S,
alors la chane est rversible ( lquilibre) et de distribution stationnaire .
Dmonstration. Par la proprit dquilibre local,

jS
(j) p(j, i) =

jS
(i) p(i, j) = (i),
ce qui montre que est la distribution stationnaire de la chane.
Ce dernier thorme permet, dans certaines situations, de dterminer beaucoup plus
simplement la distribution stationnaire : si lon parvient trouver une distribution de
probabilit sur S satisfaisant la condition dquilibre local pour une chane irrductible, on
est assur que cette solution est bien la mesure stationnaire de la chane.
Exemple 8.3.1. Il est intuitivement clair que la chane de Markov du modle dEhrenfest
devrait tre rversible lquilibre. Il est donc naturel dessayer de trouver une distribution
sur S satisfaisant la condition dquilibre local. Dans le cas prsent, cela revient trouver
un vecteur m= (m(0), . . . , m(N)) tel que, pour tout 0 i N 1,
m(i + 1)
m(i)
=
p(i, i + 1)
p(i + 1, i)
=
(N i)/N
(i + 1)/N
=
N i
i + 1
,
et

i
m(i) = 1. La mesure stationnaire est donc donne par
m(k) = 2
N
_
N
k
_
.
En particulier, on peut prsent aisment utiliser le Thorme 8.3.3 an de dterminer
les temps moyens de rcurrence des divers tats. Si, pour xer les ides, on suppose quil y
a une transition toutes les 10
10
secondes et N = 10
23
boules, on voit que le temps moyen
ncessaire pour retourner dans ltat o toutes les boules sont dans lurne A est donn par
E
N
(T
N
) =
1
m(N)
=
2
N
_
N
N
_ = 2
N
2
10
23
secondes 2
10
23
ge de lunivers.
Dun autre ct, le temps moyen de rcurrence de ltat dans lequel chacune des deux urnes
contient la moiti des boules est de
E
N/2
(T
N/2
) =
1
m(N/2)
=
2
N
_
N
N/2
_
_
1
2
N 40 secondes.
186
CHAPITRE 8. LES CHANES DE MARKOV
Ceci rsout de manire particulirement frappante le paradoxe entre la rversibilit
microscopique et lapparente irrversibilit macroscopique : si les molcules de gaz, toutes
initialement contenues dans le rcipient de gauche, se rpartissent trs rapidement de faon
homogne entre les deux rcipients, elles vont bien se retrouver dans ltat initial si lon
attend susamment longtemps, mais le temps ncessaire est tellement astronomique (bien
plus grand que lge de lunivers !), que cela naura jamais lieu en pratique.
187
8.3. CHANES DE MARKOV IRRDUCTIBLES
188
Chapitre 9
Modle de percolation
Dans ce chapitre, nous allons introduire un autre processus trs important en thorie des
probabilits : le modle de percolation. Contrairement la marche alatoire et aux chanes
de Markov, il ne sagit plus dune famille de variables alatoires indices par un paramtre
que lon peut interprter comme le temps, mais dune famille de variables alatoires indices
par un paramtre spatial ; on parle dans ce cas de champ alatoire. Ce modle peut tre
dni en dimension quelconque (et en fait, sur un graphe quelconque), mais nous nous
contenterons de discuter le cas de Z
2
.
9.1 Dnition
Soit p [0, 1], et soit (X
i
)
iZ
2 une famille de variables alatoires indpendantes suivant
une loi de Bernoulli de paramtre p, indices par les sommets de Z
2
. On note P
p
la loi de
ce champ.
Un sommet i est dit occup si X
i
= 1 et vide si X
i
= 0. On centre en chaque som-
met occup un disque de diamtre 1 < <

2. Deux sommets sont dits connects sils


appartiennent la mme composante de lunion de ces disques. Les composantes connexes
maximales de sommets de Z
2
sont appeles amas. tant donn un sommet x Z
2
, on
note C(x) lamas contenant x. On a reprsent sur la Figure 9.1 trois ralisations de ce
processus pour des valeurs diverses de p.
Linterprtation originelle de ce processus est comme modle dun matriau poreux. Un
tel matriau contient un grand nombre de trous microscopiques. La question de base que
lon se pose alors est si cette porosit locale induit une porosit globale : si lon plonge une
pierre poreuse dans de leau, quelle est la probabilit que le centre de la pierre soit mouill ?
Dans le modle de percolation, les trous correspondent aux disques placs sur les sommets
occups. La question de base peut alors se reformuler dans les termes suivants : existe-t-il
un amas inni (leau pourrait alors se propager inniment loin travers ce dernier) ? Il y a
de nombreuses autres interprtations bien entendu : comme modle dpidmie, de feu de
fort, etc. Ce modle est devenu lexemple classique pour modliser des milieux alatoires.
189
9.2. TRANSITION DE PHASE
p = 0, 4
p = 0, 6
p = 0, 8
Figure 9.1: Trois ralisations du processus de percolation.
190
CHAPITRE 9. MODLE DE PERCOLATION
9.2 Transition de phase
Soit (p) = P
p
([C(0)[ = ), o [A[ reprsente la cardinalit de lensemble A Z
2
.
(p) est donc la probabilit que de leau injecte linni parvienne jusqu lorigine. Le
rsultat suivant est fondamental.
Thorme 9.2.1. 1. Il existe 0 < p
c
< 1 tel que
(p) = 0 p < p
c
,
(p) > 0 p > p
c
.
2. La probabilit quil existe (au moins) un amas inni est gale 1 si (p) > 0, et 0
sinon.
Remarque 9.2.1. 1. Un argument de thorie ergodique permet de montrer quavec pro-
babilit 1, il ny a jamais plus dun amas inni. Nous ne le ferons pas ici.
2. La valeur exacte de p
c
est inconnue, mais des simulations numriques montrent que
p
c
0, 5928.
Dmonstration. On dmontre dabord la seconde armation. Clairement, lexistence dau
moins un amas inni est un vnement asymptotique, puisque le fait de changer ltat dun
nombre ni de sommets na pas dinuence sur sa ralisation. Par consquent, il suit de la
loi 0-1 de Kolmogorov que la probabilit quil existe au moins un amas inni a probabilit
0 ou 1. Or,
P
p
_
_
iZ
2
[C(i)[ =
_
P
p
([C(0)[ = ) > 0,
si (p) > 0, et donc P
p
(

iZ
2[C(i)[ = ) = 1. Rciproquement,
P
p
_
_
iZ
2
[C(i)[ =
_

iZ
2
P
p
([C(i)[ = ),
et donc P
p
(

iZ
2[C(i)[ = ) = 0 ds que P
p
([C(i)[ = ) = P
p
([C(0)[ = ) =
(p) = 0.
Passons prsent la premire partie du thorme. Celle-ci suit clairement des trois
armations suivantes : (i) (p) = 0 pour tout p susamment petit ; (ii) (p) > 0 pour
tout p susamment proche de 1 ; (iii) (p) est une fonction croissante de p.
(i) On appelle chemin de longueur n dans Z
2
une suite = (i
1
, i
2
, . . . , i
n
) de sommets
tous distincts et tels que |i
k
i
k1
|
2
= 1, k = 2, . . . , n. Soit A(n) lensemble des chemins
de longueur n commenant en i
1
= 0, et N(n) la cardinalit de cet ensemble. On vrie
facilement que N(n) 4
n
. En eet, lorsque lon construit un tel chemin sommet par
sommet, on a au plus 4 choix chaque tape.
Soit prsent N
o
(n) le nombre de chemins de longueur n composs uniquement de
sommets occups (chemins occups). tant donn A(n), la probabilit que les sommets
191
9.2. TRANSITION DE PHASE
Figure 9.2: Lorsque X
0
= 1 mais que lamas contenant lorigine est ni, il y a toujours un -circuit
vide entourant lorigine (le point rouge). On a reprsent par des cercles verts les sommets qui sont
ncessairement vides si C(0) est lamas reprsent en bleu.
le constituant soient tous occups est exactement donne par

i
P
p
(X
i
= 1) = p
n
. Par
consquent,
E
p
(N
o
(n)) = E
p
(

A(n)
1
occup
) =

A(n)
P
p
( occup) = p
n
N(n) (4p)
n
.
Lorsque lvnement [C(0)[ = est ralis, il existe de tels chemins occups de toutes
les longueurs. On obtient donc, pour tout n 1,
P
p
([C(0)[ = ) P
p
(N
o
(n) 1) E
p
(N
o
(n)) (4p)
n
,
En laissant n , on voit que P
p
([C(0)[ = ) = 0 ds que p <
1
4
.
(ii) On va utiliser un argument d Peierls
1
, introduit en 1936 dans ltude dun
autre champ alatoire trs clbre : le modle dIsing
2
. On appelle -circuit de longueur n
une suite de sommets i
1
, . . . , i
n
tous distincts tels que |i
k
i
k1
|
2

2, k = 2, . . . , n, et
|i
1
i
n
|
2

2. Lobservation cruciale est que lorsque lorigine est occupe, mais que lamas
contenant lorigine est ni, il existe un -circuit compos entirement de sommets vides
(-circuit vide) et entourant lorigine (cf. Figure 9.2). Notons N

(n) le nombre de -circuits


de longueur n entourant lorigine. On peut nouveau facilement borner leur nombre. En
eet, le nombre de -circuits de longueur n contenant un sommet donn est infrieur 8
n
,
puisquil y a exactement 8 sommets distance au plus

2 dun sommet donn. Dautre
part, un -circuit de longueur n entourant lorigine intersecte ncessairement lensemble
des sommets de coordonnes (0, y) avec 0 < y <
1
2
n. On obtient donc que N

(n)
1
2
n8
n
.
Soit N

v
(n) le nombre de tels -circuits entirement composs de sommets vides. En
procdant de la mme faon quauparavant, la probabilit que tous les sommets dun -
circuit de longueur n donn soient vides est (1 p)
n
. Par consquent,
E
p
(N

v
(n)) = (1 p)
n
N

(n) <
1
2
n(8(1 p))
n
.
1. Sir Rudolf Ernst Peierls (1907, Berlin 1995, Oxford), physicien thoricien allemand. Il sinstalla en
Angleterre en 1933, et fut anobli en 1968.
2. Ernst Ising (1900, Cologne 1998, Peoria), physicien allemand.
192
CHAPITRE 9. MODLE DE PERCOLATION
Comme on la vu, lorsque X
0
= 1 et [C(0)[ < , il exite un entier n tel que N

v
(n) 1.
prsent,
P
p
(X
0
= 1, [C(0)[ < ) P
p
_
_
n4
N

v
(n) 1)

n4
P
p
_
N

v
(n) 1)

n4
E
p
(N

v
(n))

n4
1
2
n(8(1 p))
n
,
et cette dernire quantit tend vers 0 lorsque p 1. Par consquent, P
p
([C(0)[ = ) =
1 (1 p) P
p
(X
0
= 1, [C(0)[ < ) > 0 pour tout p susamment proche de 1.
(iii) Il reste montrer que (p) est une fonction croissante de p. Soit (Y
i
)
iZ
2 une famille
de variables alatoires i.i.d. de loi uniforme sur [0, 1] ; on note

P la loi de ce processus. Pour


p [0, 1], on dnit les variables alatoires (X
p
i
)
iZ
2 par
X
p
i
=
_
1 si Y
i
p,
0 si Y
i
> p.
Un peu de rexion montre que la loi de la famille (X
p
i
)
iZ
2 est prcisment P
p
. Lintrt
de cette construction est que lon peut dnir simultanment tous les processus (X
p
i
)
iZ
2
pour p [0, 1] sur cet espace de probabilit, ce qui permet de les comparer ralisation par
ralisation. Cest ce que lon appelle faire un couplage de ces processus. En particulier, on
voit que la prsence dun amas inni contenant lorigine pour X
p
implique lexistence dun
amas inni pour tous les processus X
p

avec p
t
p, puisque Y
i
p = Y
i
p
t
, pour
tout p
t
p, et donc chaque sommet occup dans X
p
est ncessairement galement occup
dans X
p

. On a donc, pour 0 p p
t
1,
(p) = P
p
([C(0)[ = ) =

P([C(0)[ = dans X
p
)

P([C(0)[ = dans X
p

) = P
p
([C(0)[ = ) = (p
t
).
193
9.2. TRANSITION DE PHASE
194
Chapitre 10
Le processus de Poisson
Nous allons prsent introduire un processus de nature dirente, dont le domaine
dapplicabilit est trs important : le processus de Poisson. Dans le cadre qui va nous
intresser ici, celui-ci dcrit la rpartition alatoire et uniforme de points sur la droite
relle positive. Il peut servir modliser par exemple : les appels tlphoniques arrivant
dans une centrale, larrive de particules sur un compteur Geiger, les temps darrive de
clients une caisse, les temps doccurrence de sinistres ddommager par une compagnie
dassurance, etc.
10.1 Dnition et proprits lmentaires
Il y a trois faons naturelles de dcrire un tel processus (cf. Fig 10.1) :
On peut, tout dabord, encoder une ralisation dun tel processus par une collection
0 < T
1
() < T
2
() < de nombres rels positifs, correspondant la position des
points sur R
+
. Il est pratique de poser galement T
0
= 0.
Une seconde faon de coder une ralisation revient donner, pour chaque intervalle
de la forme I = (t, t + s], le nombre de points N
I
() contenus dans lintervalle. Si
lon utilise la notation simplie N
t
= N
(0,t]
, on aura alors N
(t,t+s]
= N
t+s
N
t
. La
relation entre les variables alatoires T
n
et N
t
est donc simplement
N
t
() = sup n 0 : T
n
() t , T
n
() = inf t 0 : N
t
() n .
Une troisime faon naturelle dencoder cette information est de considrer la suite
X
1
(), X
2
(), X
3
(), . . . de nombres rels positifs correspondant aux distances suc-
cessives entre deux points. La relation entre ces variables et les T
n
est donne par
X
k
= T
k
T
k1
, T
k
=
k

i=1
X
i
.
Dnition 10.1.1. Soient X
1
, X
2
, . . . une suite de variables alatoires satisfaisant P(X
k
>
0) = 1 pour tout k 1. Soit T
0
= 0 et T
n
=

n
i=1
X
i
. Finalement, posons N
t
=
sup n 0 : T
n
t. Le processus (N
t
)
t0
est appel processus de comptage.
195
10.1. DFINITION ET PROPRITS LMENTAIRES









T
1
T
2
T
4
T
3
2
3
4
5
1
X
1
X
2
X
3
X
4
N
t
t
Figure 10.1: Une ralisation dun processus de Poisson.
Remarque 10.1.1. On supposera toujours par la suite quun processus de comptage sa-
tisfait presque-srement T
n
lorsque n .
On appelle souvent les variables alatoires X
n
les temps dattente ou dures de vie du
processus (N
t
)
t1
.
Le cas le plus simple, mais trs important, est celui o les temps dattente forment un
processus i.i.d. : prenons lexemple dune lampe dont lampoule est change instantanment
ds quelle est dfaillante. Dans ce cas, les dures de vie correspondent prcisment
la dure pendant laquelle lampoule fonctionne. chaque fois quune ampoule cesse de
fonctionner et quelle est remplace par une ampoule neuve, le systme se retrouve dans le
mme tat. On dit quil y a renouvellement.
Dnition 10.1.2. Un processus de comptage pour lequel les temps dattente sont i.i.d.
est appel processus de renouvellement.
Le processus de Poisson est lexemple le plus important de processus de renouvellement.
Dnition 10.1.3. Un processus de Poisson dintensit est un processus de renouvel-
lement dont les dures de vie suivent une loi exp(). On note P

la loi du processus de
Poisson dintensit .
Vrions prsent deux proprits tout fait remarquables du processus de Poisson.
Thorme 10.1.1. Soit (N
t
)
t0
un processus de Poisson dintensit . Alors, pour tout
t, s 0,
1. N
t+s
N
t
suit la mme loi que N
s
.
2. 0 < t
1
< t
2
< < t
n
, les variables alatoires (N
t
i+1
N
t
i
)
i=1,...,n1
sont indpen-
dantes.
196
CHAPITRE 10. LE PROCESSUS DE POISSON






T
n
T
n+1
t
X
t
1
X
n+1
T
n+2
X
n+2
X
t
2
Figure 10.2: Dnition des variables alatoires X
t
k
(lorsque N
t
= n).
Dmonstration. Soit t > 0 x. Notons X
t
1
= T
N
t
+1
t le temps restant aprs t jusquau
point suivant du processus, X
t
k
= X
N
t
+k
, k 2, et T
t
k
= X
t
1
+ +X
t
k
, k 1. videmment,
N
t+s
N
t
= n T
t
n
s < T
t
n+1
.
Observons prsent que lindpendance de X
n+1
et de T
n
implique que, pour tout x > 0,
P

(X
t
1
> x[ N
t
= n)P

(N
t
= n) = P

(X
t
1
> x, T
n
t < T
n+1
)
= P

(T
n
t, X
n+1
> t +x T
n
)
=
_
t
0
dy
_

t+xy
dz f
(T
n
,X
n+1
)
(y, z)
=
_
t
0
dy f
T
n
(y)
_

t+xy
dz f
X
n+1
(z)
=
_
t
0
P

(X
n+1
> t +x y)f
T
n
(y)dy
= e
x
_
t
0
P

(X
n+1
> t y)f
T
n
(y)dy
= e
x
P

(T
n
t, X
n+1
> t T
n
)
= e
x
P

(N
t
= n). (10.1)
En procdant de la mme faon, on voit que
P

(X
t
1
> x
1
,X
t
2
> x
2
, . . . , X
t
k
> x
k
[ N
t
= n)
= P

(T
n
t, X
n+1
> t +x
1
T
n
, X
n+2
> x
2
, . . . , X
n+k
> x
k
)/P

(N
t
= n)
=
k

=2
P

(X
n+
> x

) P

(T
n
t, X
n+1
> t +x
1
T
n
)/P

(N
t
= n)
= e
(x
1
++x
k
)
,
la seconde identit suivant de lindpendance de T
n
, X
n+1
, . . . , X
n+k
, et la dernire identit
de (10.1). On en dduit que, conditionnellement N
t
= n, les variables alatoires X
t
k
,
k 1, sont des variables alatoires i.i.d. de loi exp(). Par consquent, la loi conjointe
197
10.1. DFINITION ET PROPRITS LMENTAIRES
des variables alatoires T
t
k
, k 1, sous P

( [ N
t
= n) concide avec celle des variables
alatoires T
k
, k 1, sous P

. On a donc
P

(N
t+s
N
t
= k) =

n0
P

(N
t+s
= n +k [ N
t
= n)P

(N
t
= n)
=

n0
P

(T
t
k
s < T
t
k+1
[ N
t
= n)P

(N
t
= n)
=

n0
P

(T
k
s < T
k+1
)P

(N
t
= n)
= P

(T
k
s < T
k+1
)
= P

(N
s
= k).
Passons la seconde armation. Les arguments ci-dessus montrent que la loi conjointe
des variables alatoires N
s
N
t
= max
_
n 0 : T
t
n
s t
_
sous P

( [ N
t
= ) concide
avec celle des variables alatoires N
st
= max n 0 : T
n
s t sous P

. Posons m
i
=
k
1
+ +k
i
, i 1. On a alors
P

(N
t
i+1
N
t
i
= k
i
, i = 1, . . . , n 1)
=

0
P

(N
t
i+1
N
t
i
= k
i
, i = 1, . . . , n 1 [ N
t
1
= ) P

(N
t
1
= )
=

0
P

(N
t
i+1
N
t
1
= m
i
, i = 1, . . . , n 1 [ N
t
1
= ) P

(N
t
1
= )
=

0
P

(N
t
i+1
t
1
= m
i
, i = 1, . . . , n 1) P

(N
t
1
= )
= P

(N
t
i+1
t
1
= m
i
, i = 1, . . . , n 1)
= P

(N
t
2
t
1
= k
1
, N
t
i+1
t
1
N
t
2
t
1
= m
i
m
1
, i = 2, . . . , n 1).
De la mme faon, puisque t
i+1
t
1
(t
2
t
1
) = t
i+1
t
2
,
P

(N
t
2
t
1
= k
1
,N
t
i+1
t
1
N
t
2
t
1
= m
i
m
1
, i = 2, . . . , n 1)
= P

(N
t
i+1
t
1
N
t
2
t
1
= m
i
m
1
, i = 2, . . . , n 1 [ N
t
2
t
1
= k
1
)
P

(N
t
2
t
1
= k
1
)
= P

(N
t
i+1
t
2
= m
i
m
1
, i = 2, . . . , n 1) P

(N
t
2
t
1
= k
1
). (10.2)
Mais
P

(N
t
i+1
t
2
= m
i
m
1
, i = 2, . . . , n 1)
= P

(N
t
3
t
2
= k
2
, N
t
i+1
t
2
N
t
3
t
2
= m
i
m
2
, i = 3, . . . , n 1),
et lon peut donc rpter la procdure (10.2), pour obtenir nalement
P

(N
t
i+1
N
t
i
= k
i
, i = 1, . . . , n 1) =
n1

i=1
P

(N
t
i+1
t
i
= k
i
) =
n1

i=1
P

(N
t
i+1
N
t
i
= k
i
),
la dernire identit rsultant de la premire partie du thorme.
198
CHAPITRE 10. LE PROCESSUS DE POISSON
Lemme 10.1.1. Soit (N
t
)
t0
un processus de Poisson dintensit . Alors, T
n
suit une loi
gamma(, n),
f
T
n
(x) =
1
(n 1)!

n
x
n1
e
x
1
[0,)
(x).
Dmonstration. T
n
est une somme de n variables alatoires i.i.d. de loi exp(). Manifeste-
ment, T
1
suit une loi exp(), et celle-ci concide avec la loi gamma(, 1). On procde par
rcurrence. Supposons lnonc vrai pour T
n
. On a alors,
f
T
n+1
(x) = f
T
n
+X
n+1
(x) =
_

f
T
n
(u)f
X
n+1
(x u)du
=
_
x
0
1
(n 1)!

n
u
n1
e
u
e
(xu)
du
=

n+1
(n 1)!
e
x
_
x
0
u
n1
du
=

n+1
n!
e
x
x
n
,
et le lemme est dmontr.
Thorme 10.1.2. Soit (N
t
)
t0
un processus de Poisson dintensit . Alors, pour tout
t s 0, N
t
N
s
suit une loi poisson((t s)).
Dmonstration. Il suit du Thorme 10.1.1 quil sut de considrer le cas s = 0. Puisque
N
t
= n T
n
t < T
n+1
, on a immdiatement
P

(N
t
= n) = P

(T
n
t < T
n+1
) = P

(T
n+1
> t) P

(T
n
> t)
=

n
n!
_

t
_
x
n
e
x
nx
n1
e
x
_
dx
=

n
n!
_

t
d
dx
_
x
n
e
x
_
dx
=

n
n!
t
n
e
t
.
Dnition 10.1.4. On appelle accroissements dun processus stochastique (Z
t
)
t0
les dif-
frences Z
t
Z
s
entre les valeurs prises par le processus en deux temps 0 s < t.
Un processus (Z
t
)
t0
est accroissements stationnaires si, pour tout s, t 0, Z
t+s
Z
t
a mme loi que Z
s
Z
0
.
Un processus (Z
t
)
t0
est accroissements indpendants si, pour tout choix de 0 = t
0

t
1
t
2
t
n
< , les variables alatoires Z
t
k
Z
t
k1
sont indpendantes.
Les Thormes 10.1.1 et 10.1.2 montrent que les accroissements N
t+s
N
t
dun proces-
sus de Poisson dintensit sont stationnaires, indpendants et suivent une loi de Poisson
de paramtre s. Nous allons montrer que ces proprits caractrisent ce processus. Ceci
fournit donc une dnition alternative du processus de Poisson.
199
10.1. DFINITION ET PROPRITS LMENTAIRES
Thorme 10.1.3. Un processus de comptage (N
t
)
t0
est un processus de Poisson din-
tensit si et seulement si ses accroissements N
t+s
N
t
sont stationnaires et indpendants,
et suivent une loi poisson(s).
Remarque 10.1.2. En fait, on peut montrer assez facilement quun processus de comptage
(N
t
)
t0
est un processus de Poisson (dintensit non spcie) si et seulement si ses ac-
croissements N
t+s
N
t
sont stationnaires et indpendants. Cela montre que ce processus va
correctement modliser toutes les situations o ces deux hypothses sont approximativement
vries.
Dmonstration. On a dj montr que le processus de Poisson possde les proprits non-
ces. Montrons donc que ces proprits caractrisent ce processus.
Fixons 0 s
1
< t
1
s
2
< t
2
s
n
< t
n
. En observant que T
1
(s
1
, t
1
], . . . , T
n

(s
n
, t
n
] si et seulement si
N
s
i
N
t
i1
= 0, 1 i n, (avec t
0
= 0),
N
t
i
N
s
i
= 1, 1 i < n,
N
t
n
N
s
n
1,
et en utilisant les hypothses sur les accroissements, on obtient
P(T
1
(s
1
, t
1
], . . . , T
n
(s
n
, t
n
])
=
n

i=1
P(N
s
i
N
t
i1
= 0)
n1

i=1
P(N
t
i
N
s
i
= 1)P(N
t
n
N
s
n
1)
=
n

i=1
e
(s
i
t
i1
)
n1

i=1
(t
i
s
i
)e
(t
i
s
i
)
(1 e
(t
n
s
n
)
)
=
n1
(e
s
n
e
t
n
)
n1

i=1
(t
i
s
i
)
=
_
t
1
s
1

_
t
n
s
n

n
e
u
n
du
n
du
1
.
La loi conjointe de (T
1
, . . . , T
n
) possde donc la densit
f
(T
1
,...,T
n
)
(u
1
, . . . , u
n
) =
_

n
e
u
n
si 0 < u
1
< < u
n
,
0 sinon.
Dterminons prsent la densit de la loi conjointe de (X
1
, . . . , X
n
). La fonction de rpar-
tition conjointe est donne par
P(X
1
x
1
, . . . , X
n
x
n
) = P(T
1
x
1
, T
2
T
1
x
2
, . . . , T
n
T
n1
x
n
)
=
_
x
1
0
_
u
1
+x
2
u
1

_
u
n1
+x
n
u
n1
f
(T
1
,...,T
n
)
(u
1
, . . . , u
n
)du
n
du
1
,
200
CHAPITRE 10. LE PROCESSUS DE POISSON
et la densit conjointe est donc donne par

n
x
1
x
n
P(X
1
x
1
, . . . , X
n
x
n
) = f
(T
1
,...,T
n
)
(x
1
, x
1
+x
2
, . . . , x
1
+ +x
n
)
=
n
e
(x
1
++x
n
)
.
On reconnat la densit conjointe de n variables alatoires i.i.d. de loi exp().
Nous allons voir prsent une troisime dnition du processus, de nature plus dyna-
mique.
Lemme 10.1.2. Soit (N
t
)
t0
un processus de Poisson dintensit , et 0 < t
1
< < t
k
.
Alors, pour 0 n
1
n
k
des entiers, on a, lorsque 0,
P

(N
t
k
+
N
t
k
= 0 [ N
t
j
= n
j
, 1 j k) = 1 +o(),
P

(N
t
k
+
N
t
k
= 1 [ N
t
j
= n
j
, 1 j k) = +o(), (10.3)
P

(N
t
k
+
N
t
k
2 [ N
t
j
= n
j
, 1 j k) = o().
Dmonstration. Posons n
0
= 0. Puisque N
t
j
= n
j
, 1 j k = N
t
j
N
t
j1
= n
j

n
j1
, 1 j k, il suit de lindpendance et de la stationnarit des accroissements quil
sut de montrer que
P

(N

= 0) = 1 +o() et P

(N

= 1) = +o().
Or, ceci est une consquence immdiate du fait que N

suit une loi poisson() : on a, par


exemple,
P

(N

= 1) = e

()
1
1!
= (1 +o()) = +o().
Nous allons voir maintenant que cette proprit caractrise le processus de Poisson
dintensit . Ceci fournit une troisime dnition du processus.
Thorme 10.1.4. Un processus de comptage est un processus de Poisson dintensit
si et seulement sil satisfait (10.3).
Dmonstration. On a dj montr que le processus de Poisson dintensit possde les
proprits nonces. Montrons donc que ces proprits caractrisent ce processus.
Notons A = N
t
j
= n
j
, 1 j k, et posons, pour t 0, p
n
(t) = P(N
t
k
+t
N
t
k
=
n[ A). Il sut de montrer que
p
n
(t) = e
t
(t)
n
n!
, n = 0, 1, . . . ,
puisque le rsultat suivra alors du Thorme 10.1.3. En utilisant lingalit [P(B)P(C)[
P(BC), on obtient que
1
[p
n
(t) p
n
(s)[ P(N
t
k
+s
,= N
t
k
+t
)/P(A),
1. En eet, {N
t
k
+s
= n, A} = {N
t
k
+s
= n, N
t
k
+t
= n, A} {N
t
k
+s
= n, N
t
k
+t
= n, A} et par
consquent {N
t
k
+s
= n, A} \ {N
t
k
+t
= n, A} = {N
t
k
+s
= n, N
t
k
+t
= n, A}, et de mme avec s et t
interchangs.
201
10.2. AUTRES PROPRITS
ce qui montre que p
n
(t) est une fonction continue de t, puisque lim
st
P(N
s
,= N
t
) = 0.
Pour simplier les notations, posons D
t
= N
t
k
+t
N
t
k
. Observons que D
t+
= n =
D
t
= m, pour un m n. On a donc
p
n
(t +) = p
n
(t) P(D
t+
D
t
= 0 [ A, D
t
= n)
+1
n1
p
n1
(t) P(D
t+
D
t
= 1 [ A, D
t
= n 1)
+1
n2
n2

m=0
p
m
(t) P(D
t+
D
t
= n m[ A, D
t
= m).
Par (10.3), on obtient
p
n
(t +) = p
n
(t)(1 ) +1
n1
p
n1
(t) +o().
En divisant par et en prenant la limite 0, on obtient
2
p
t
n
(t) = p
n
(t) +1
n1
p
n1
(t), (10.4)
avec condition au bord p
n
(0) =
n0
.
Il reste intgrer (10.4). Pour n = 0, on a
p
t
0
(t) = p
0
(t),
et donc p
0
(t) = e
t
. En insrant cette solution dans lquation pour p
1
(t), on trouve
p
t
1
(t) = p
1
(t) +e
t
,
et donc p
1
(t) = te
t
. Par induction, on obtient donc bien
p
n
(t) = e
t
(t)
n
n!
,
pour chaque n 0.
10.2 Autres proprits
10.2.1 Le paradoxe de lautobus
Nous avons dj rencontr ce paradoxe dans les rsultats de la section prcdente, mais
navons pas encore explicit son caractre surprenant (au premier abord). On considre une
2. Il y a une petite subtilit ici : a priori, la drive dans le membre de gauche de (10.4) nest quune
drive droite. An de montrer quil sagit rellement dune drive, il sut dobserver que le membre
de droite est continu. En eet, pour montrer quune fonction continue f(t) avec drive droite f
+
(t)
continue pour tout t 0, est ncessairement drivable pour chaque t > 0, il sut de prouver que F(t) =
f(t) f(0)
_
t
0
f
+
(s)ds 0. Supposons que ce ne soit pas le cas, et que (disons) F(t
0
) < 0. Alors
G(t) = F(t) tF(t
0
)/t
0
satisfait G(0) = G(t
0
) = 0 et, puisque F
+
0, G
+
(t) > 0, ce qui implique que G
doit possder un maximum strictement positif en un point s
0
(0, t
0
). Mais G
+
(s
0
) 0, puisque s
0
est
un maximum, ce qui est une contradiction.
202
CHAPITRE 10. LE PROCESSUS DE POISSON
lampe dont on change immdiatement lampoule lorsque celle-ci est dfaillante ; la dure de
vie dune ampoule est suppose suivre une loi exp(). Si lon considre un temps arbitraire
t > 0, cet instant se trouvera presque-srement entre deux pannes. On a vu que la variable
alatoire X
t
1
reprsentant le temps sparant t de la prochaine panne suit une loi exp() ; en
particulier, le temps moyen jusqu la prochaine panne est donn par 1/. On peut de la
mme faon dterminer la loi du temps coul entre la panne prcdente et t, S
t
= t T
N
t
.
Bien sr, si s > t, P

(S
t
> s) = 0, puisque T
0
= 0. Pour s t, on trouve
P

(S
t
s) = P

(N
t
N
ts
= 0) = P

(N
s
= 0) = e
s
.
Par consquent, S
t
a mme loi que min(X, t), o X est une variable de loi exp(). Si lon
sintresse au comportement de la lampe aprs un temps long, la loi de S
t
est bien entendu
trs bien approxime par une loi exp().
En particulier, on voit que, pour t grand, le temps moyen entre les deux pannes est
trs proche de 2/, alors que la dure de vie moyenne dune ampoule est de 1/. Cest le
paradoxe de lautobus. Celui-ci est traditionnellement prsent comme suit : les dirences
entre les temps de passage successifs dun autobus passant par un arrt donn suivent une
loi exponentielle, de moyenne 5 minutes. Un individu arrive larrt pour prendre le bus.
Le temps moyen qui scoule entre le passage du bus prcdent son arrive et le passage du
bus suivant est (approximativement) de 10 minutes, bien que les bus passent en moyenne
toutes les 5 minutes !
Lexplication de ce paradoxe est la suivante : la distribution des longueurs din-
tervalle nest pas triviale, certains seront beaucoup plus longs que la moyenne, dautres
beaucoup plus courts. En faisant une observation au hasard , on a donc davantage de
chance de tomber dans un long intervalle plutt que dans un court. On biaise ainsi la loi
de la taille de lintervalle observ vers les plus grandes tailles.
10.2.2 Processus de Poisson et statistiques dordre
Soit t > 0. Nous allons tudier la loi de T
1
conditionnellement N
t
= 1. Dans ce cas,
on a bien entendu T
1
t, et donc, pour s (0, t],
P

(T
1
< s [ N
t
= 1) =
P

(T
1
< s, N
t
= 1)
P

(N
t
= 1)
=
P

(N
s
= 1, N
t
N
s
= 0)
P

(N
t
= 1)
=
(se
s
)(e
(ts)
)
te
t
=
s
t
.
T
1
suit donc une loi uniforme sur (0, t], conditionnellement N
t
= 1. Ainsi, savoir quun
vnement a eu lieu avant le temps t ne nous fournit aucune information sur linstant
auquel il a t ralis. De plus, la loi conditionnelle est indpendante de lintensit du
processus.
Nous allons prsent gnraliser ce rsultat, en dterminant la loi de T
1
, . . . , T
n
, condi-
tionnellement N
t
= n. Soient 0 < t
1
< < t
n
< t. On a, pour tout > 0 susamment
203
10.2. AUTRES PROPRITS
petit,
P

(T
k
(t
k
, t
k
+), 1 k n[ N
t
= n)
=
P

(T
k
(t
k
, t
k
+), 1 k n, N
t
= n)
P

(N
t
= n)
=
e
(t
1
)
2e
2
e
(t
2
t
1
2)
2e
2
e
(tt
n
)
(
n
t
n
/n!)e
t
= (2/t)
n
n!,
puisque lvnement T
k
(t
k
, t
k
+ ), 1 k n, N
t
= n est ralis si et seulement
si N
t
1

= 0, N
t
k
+
N
t
k

= 1, k = 1, . . . , n, N
t
k+1

N
t
k
+
= 0, k = 1, . . . , n 1, et
N
t
N
t
n
+
= 0. Par consquent, la densit conjointe de T
1
, . . . , T
n
, conditionnellement
N
t
= n est donne par
lim
0
1
(2)
n
P

(T
k
(t
k
, t
k
+), 1 k n[ N
t
= n) = n! t
n
,
si 0 < t
1
< < t
n
< t, et 0 sinon. Cest ce quon appelle la loi conjointe des statistiques
dordre de n variables alatoires indpendantes de loi uniforme sur (0, t]. Elle revient
tirer au hasard, indpendamment, n points uniformment sur lintervalle (0, t], puis les
ordonner du plus petit au plus grand.
10.2.3 Superposition et amincissement
Le processus de Poisson possde deux autres proprits remarquables : (i) la su-
perposition de deux processus de Poisson indpendants donne nouveau un processus
de Poisson, dont lintensit est la somme de celles des deux processus originaux, et (ii)
tout processus de Poisson dintensit peut tre dcompos en deux processus de Poisson
indpendants dintensits
1
et
1
.
Thorme 10.2.1. Soient
1
,
2
> 0, et =
1
+
2
. Soient (N
(1)
t
)
t0
et (N
(2)
t
)
t0
deux
processus de Poisson indpendants dintensits
1
et
2
. Alors, le processus dni par
N
t
= N
(1)
t
+N
(2)
t
est un processus de Poisson dintensit .
Dmonstration. On utilise la caractrisation du processus de Poisson du Thorme 10.1.3.
204
CHAPITRE 10. LE PROCESSUS DE POISSON
Pour tout 0 < s < t et n 0, lindpendance des processus N
(1)
t
et N
(2)
t
implique que
P(N
t
N
s
= n) = P(N
(1)
t
+N
(2)
t
N
(1)
s
N
(2)
s
= n)
=
n

k=0
P(N
(1)
t
N
(1)
s
= n k)P(N
(2)
t
N
(2)
s
= k)
=
n

k=0
(
1
(t s))
nk
(n k)!
e

1
(ts)
(
2
(t s))
k
k!
e

2
(ts)
=
(t s)
n
n!
e
(ts)
n

k=0
_
n
k
_

nk
1

k
2
=
(t s)
n
n!

n
e
(ts)
,
ce qui montre que les accroissements de N
t
sont stationnaires et suivent une loi de Poisson
de paramtre . Il reste vrier quils sont indpendants. Nous ne le ferons que pour deux
intervalles, le cas gnral se traitant de la mme manire. Soient donc 0 < s t < u, et
n, m 0. crivons
(i)
= N
(i)
u
N
(i)
t
, i = 1, 2 et = N
u
N
t
. On a
P( = n, N
s
= m)
= P(
(1)
+
(2)
= n, N
(1)
s
+N
(2)
s
= m)
=
n

k=0
m

=0
P(
(1)
= n k, N
(1)
s
= m)P(
(2)
= k, N
(2)
s
= )
=
n

k=0
m

=0
P(
(1)
= n k)P(N
(1)
s
= m)P(
(2)
= k)P(N
(2)
s
= )
=
n

k=0
m

=0
P(
(1)
= n k,
(2)
= k)P(N
(1)
s
= m, N
(2)
s
= )
= P( = n)P(N
s
= m).
Dnition 10.2.1. On dit que le processus (N
t
)
t0
ci-dessus est la superposition des pro-
cessus (N
(1)
t
)
t0
et (N
(2)
t
)
t0
.
Thorme 10.2.2. Soit (N
t
)
t0
un processus de Poisson dintensit , et soit p (0, 1).
On peint chaque point du processus en rouge ou en bleu, de faon indpendante, avec
probabilit p et 1 p respectivement. Alors, les points rouges et bleus dnissent deux
processus de Poisson indpendants dintensits p et (1 p) respectivement.
205
10.2. AUTRES PROPRITS
Dmonstration. Soit 0 < s < t et k 0. On a
P(N
(1)
t
N
(1)
s
= k) =

n=k
P(N
t
N
s
= n)
_
n
k
_
p
k
(1 p)
nk
=

n=k

n
(t s)
n
n!
e
(ts)
_
n
k
_
p
k
(1 p)
nk
=
(p (t s))
k
k!
e
(ts)

nk
((t s)(1 p))
nk
(n k)!
=
(p (t s))
k
k!
e
p (ts)
.
On montre de la mme faon que N
(2)
t
N
(2)
s
est poisson((1 p)).
Soient 0 s
1
< t
1
s
2
< t
2
s
n
< t
n
. Alors, en notant
i
= N
t
i
N
s
i
et

(j)
i
= N
(j)
t
i
N
(j)
s
i
(j = 1, 2), on a
P(
(1)
i
= n
i
,
(2)
i
= m
i
, 1 i n)
= P(
(1)
i
= n
i
, 1 i n[
i
= m
i
+n
i
, 1 i n)P(
i
= m
i
+n
i
, 1 i n)
=
n

i=1
_
n
i
+m
i
n
i
_
p
n
i
(1 p)
m
i
n

i=1
P(
i
= m
i
+n
i
)
=
n

i=1
_
n
i
+m
i
n
i
_
p
n
i
(1 p)
m
i
n

i=1
((t
i
s
i
))
n
i
+m
i
(n
i
+m
i
)!
e
(t
i
s
i
)
=
n

i=1
(p (t
i
s
i
))
n
i
n
i
!
e
p(t
i
s
i
)
((1 p) (t
i
s
i
))
m
i
m
i
!
e
(1p)(t
i
s
i
)
=
n

i=1
P(
(1)
i
= n
i
) P(
(2)
i
= m
i
),
et les processus (N
(1)
t
)
t0
et (N
(2)
t
)
t0
sont donc accroissements indpendants, et sont
indpendants lun de lautre.
Dnition 10.2.2. On dit que les processus (N
(1)
t
)
t0
et (N
(2)
t
)
t0
ci-dessus sont des
amincissements du processus (N
t
)
t0
.
Remarque 10.2.1. Bien entendu, on peut itrer les procdures de superposition et damin-
cissement. Les rsultats ci-dessus restent donc valides pour un nombre ni arbitraire de
processus (N
(i)
t
)
t0
.
Exemple 10.2.1. On considre deux caissires, servant chacune une innit de clients.
On suppose que les temps de service de chaque caissire sont i.i.d. de loi exp(
1
) et exp(
2
)
respectivement. On dsire dterminer la probabilit que la premire caissire ait ni de
206
CHAPITRE 10. LE PROCESSUS DE POISSON
soccuper de son n
me
client avant que la seconde ait ni de soccuper de son m
me
client,
cest--dire
P(T
(1)
n
< T
(2)
m
).
Une approche revient utiliser le fait que ces deux variables alatoires sont indpendantes
et de lois gamma(
1
, n) et gamma(
2
, m) respectivement, et faire un calcul laborieux. Nous
allons la place utiliser les rsultats de cette section. Soit (N
t
)
t0
un processus de Poisson
de paramtre =
1
+
2
. On a vu que les processus (N
(1)
t
)
t0
et (N
(2)
t
)
t0
peuvent
tre obtenus en coloriant les points de (N
t
)
t0
indpendamment en rouge et en bleu, avec
probabilit
1
/ et
2
/ respectivement. Par consquent, T
(1)
n
< T
(2)
m
si et seulement si au
moins n points parmi les n + m 1 premiers points de N
t
sont coloris en rouge. On a
donc
P(T
(1)
n
< T
(2)
m
) =
n+m1

k=n
_
n +m1
k
_
_

1

1
+
2
_
k
_

2

1
+
2
_
n+m1k
.
10.2.4 Processus de Poisson non homogne
Il est souvent peu raliste de supposer que la frquence dapparition des points est
constante. Par exemple, si on veut modliser les arrives de clients dans un supermarch,
ou de voitures sur une autoroute, ou de requtes sur un serveur web, il est clair que la
frquence de ces vnements va dpendre de lheure de la journe, du jour de la semaine,
de la saison, etc. An de modliser ce type de situations, on va permettre lintensit (t)
du processus de Poisson de varier au cours du temps. Il est possible de dnir ce processus
pour des fonctions (t) trs gnrales (il sut que (t) soit intgrable) ; nous supposerons
ici pour simplier que (t) est continue par morceaux.
Dnition 10.2.3. Un processus de comptage accroissements indpendants (N
t
)
t0
est
un processus de Poisson non homogne de fonction de densit (t) 0, t 0, si
1. P(N
t+
N
t
= 1) = (t) +o() ;
2. P(N
t+
N
t
2) = o().
Manifestement, un tel processus nest pas accroissements stationnaires (sauf lorsque
(t) est constante, auquel cas il se rduit un processus de Poisson dintensit ).
Thorme 10.2.3. Soit (N
t
)
t0
un processus de Poisson non homogne de fonction de
densit (t). Alors, pour tout t s 0, N
t
N
s
suit une loi poisson(m(t) m(s)), o
m(u) =
_
u
0
(v)dv.
Dnition 10.2.4. La fonction m(t) dans le Thorme 10.2.3 est appele fonction de valeur
moyenne du processus.
Dmonstration. La preuve est semblable celle du Thorme 10.1.4, et nous ne ferons que
lesquisser. Notons
p
n
(s, t) = P(N
t
N
s
= n), n = 0, 1, 2, . . .
207
10.2. AUTRES PROPRITS
Par indpendance des accroissements, on peut crire
p
n
(s, t +) = P(N
t
N
s
= n, N
t+
N
t
= 0)
+1
n1
P(N
t
N
s
= n 1, N
t+
N
t
= 1) +o()
= p
n
(s, t)(1 (t) +o()) +1
n1
p
n1
(s, t)((t) +o()) +o().
Il suit que

t
p
n
(s, t) = (t)
_
1
n1
p
n1
(s, t) p
n
(s, t)
_
,
avec condition au bord p
n
(s, s) =
n0
, pour tout s 0, n N.
Lorsque n = 0, cette quation est simplement

t
p
0
(s, t) = (t)p
0
(s, t),
dont la solution est
p
0
(s, t) = exp(
_
t
s
(u)du) = e
(m(t)m(s))
, s, t 0.
En substituant ce rsultat dans lquation pour n = 1, on obtient

t
p
1
(s, t) = (t)
_
e
(m(t)m(s))
p
1
(s, t)
_
,
qui peut tre rcrit comme

t
p
1
(s, t) =
_
e
(m(t)m(s))
p
1
(s, t)
_

t
_
m(t) m(s)
_
.
On voit alors facilement que la solution est donne par
p
1
(s, t) = e
(m(t)m(s))
_
m(t) m(s)
_
, s, t 0.
Par rcurrence, on montre ensuite que
p
n
(s, t) = e
(m(t)m(s))
1
n!
_
m(t) m(s)
_
n
, s, t 0, n N.
10.2.5 Processus de Poisson compos
Le processus de Poisson est utilis comme base pour construire de nombreux autres
processus. Nous allons en voir un exemple dans cette sous-section : le processus de Poisson
compos.
208
CHAPITRE 10. LE PROCESSUS DE POISSON
U
2
Z
t
Z
0
T
2
t
Figure 10.3: volution des rserves dune compagnie dassurance.
Dnition 10.2.5. Soient (N
t
)
t0
un processus de Poisson dintensit , et U
1
, U
2
, . . . des
variables alatoires i.i.d. indpendantes du processus de Poisson. Le processus stochastique
Y
t
=
N
t

k=1
U
k
, t 0
(avec la convention que Y
t
= 0 si N
t
= 0) est appel processus de Poisson compos.
Exemple 10.2.2. Voici un modle trs simple pour les rserves dune compagnie dassu-
rances.
On considre que des sinistres se produisent aux instants T
n
dun processus de Poisson
homogne et que le n
me
sinistre cote la compagnie dassurance une somme U
n
. Si c
est le taux des primes par unit de temps, le bilan de la compagnie linstant t est donc
Z
t
= Z
0
+ ct Y
t
, o Z
0
est son capital initial. Soit W = inf t 0 : Z
t
< 0 le premier
instant o les rserves de la compagnie deviennent ngatives. Le problme est alors de
trouver la probabilit de ruine, cest dire P(W < [ Z
0
= x).
Diverses proprits du processus de Poisson compos seront tudies en exercices.
10.2.6 Processus de Poisson spatial
Le processus de Poisson introduit prcdemment tait restreint [0, ). Il est en fait
possible de ltendre des espaces beaucoup plus gnraux. Nous esquissons prsent le
cas de R
d
.
Une ralisation dun processus de Poisson sur R
d
est un sous-ensemble alatoire d-
nombrable de R
d
. La loi de sera caractrise via la collection de variables alatoires
209
10.2. AUTRES PROPRITS
(N(B))
BB(R
d
)
indices par les borliens de R
d
, la variable N(B) correspondant au nombre
de points de se trouvant dans B.
On note [A[ le volume (cest--dire la mesure de Lebesgue) dun borlien A.
Dnition 10.2.6. Le sous-ensemble alatoire dnombrable de R
d
est un processus de
Poisson dintensit si
N(B) suit une loi de Poisson de paramtre [B[, pour tout B B(R
d
) ;
N(B
1
), . . . , N(B
n
) sont indpendantes lorsque B
1
, . . . , B
n
sont disjoints.
On peut galement considrer des processus de Poisson inhomognes (cest--dire, din-
tensit variable), mais nous ne le ferons pas ici.
Un grand nombre des rsultats tablis plus haut pour le processus de Poisson sur [0, )
stendent ce cadre-ci : en particulier, les proprits damincissement et de superposition
admettent des gnralisations naturelles. Dans ce bref aperu, nous nous contenterons
de dmontrer une proprit importante, qui montre que le processus de Poisson sur R
d
modlise bien une distribution alatoire uniforme de points dans R
d
. Elle est galement
trs utile pour la simulation de tels processus.
Thorme 10.2.4. Soit un processus de Poisson dintensit sur R
d
, et soit A un
ouvert de R
d
de volume ni. Alors, conditionnellement N(A) = n, les n points de se
trouvant dans A suivent la mme loi que n points choisis indpendamment avec la mesure
uniforme sur A.
Dmonstration. Notons B

(x) = y A : |y x|

< /2. Soient x


1
, . . . , x
n
des points
distincts de A. tant donne une ralisation du processus de Poisson avec N(A) = n, on
numrote au hasard de faon uniforme les n points dans A : X
1
, . . . , X
n
. Alors, pour > 0
susamment petit,
P
_
X
i
B

(x
i
), i = 1, . . . , n

N(A) = n
_
=
1
n!
P
_
N(B

(x
i
)) = 1, i = 1, . . . , n

N(A) = n
_
=
1
n!
P(N(A

n
j=1
B

(x
j
)) = 0)

n
i=1
P(N(B

(x
i
)) = 1)
P(N(A) = n)
=
1
n!
e
([A[n
d
)

n
i=1

d
e

d
([A[)
n
e
[A[
/n!
=
nd
[A[
n
.
Par consquent, conditionnellement N(A) = n, la densit conjointe de (X
1
, . . . , X
n
) en
(x
1
, . . . , x
n
) est donne par
lim
0
1

nd
P(X
i
B

(x
i
), i = 1, . . . n[ N(A) = n) = [A[
n
,
et concide donc bien avec la densit conjointe de n points tirs indpendamment unifor-
mment dans A.
210
CHAPITRE 10. LE PROCESSUS DE POISSON
Figure 10.4: Trois ralisations du processus boolen de lExemple 10.2.3 pour des intensits crois-
santes du processus de Poisson sous-jacent.
Exemple 10.2.3 (Modle boolen). Nous allons prsent dcrire un cas particulier du
modle boolen. Dans ce modle, on associe chaque ralisation dun processus de Pois-
son dintensit dans R
2
le sous-ensemble de R
2
donn par lunion des disques de rayon
r > 0 centrs sur les points de ,
=
_
x
D
r
(x),
o D
r
(x) =
_
y R
2
: |y x|
2
r
_
; c.f. Fig. 10.4. (Dans une version plus gnrale du
modle boolen, on remplace les disques par des compacts eux-mmes alatoires.) On peut
voir ce modle comme une version continue du modle de percolation du chapitre 9.
Soit A un borlien de R
2
tel que 0 < [A[ < . On dsire dterminer la fraction moyenne
de A couverte par les disques. On a
E([A [) = E
__
A
1

(x)dx
_
=
_
A
P(x )dx.
Or, par dnition du processus,
P(x , ) = P(Aucun point de ne se trouve distance au plus r de x)
= P( D
r
(x) = )
= P
_
N
_
D
r
(x)
_
= 0
_
= exp(r
2
).
Par consquent, la fraction de A couverte par les disques est donne par
E([A [)
[A[
= 1 e
r
2
.
211
10.2. AUTRES PROPRITS
10.2.7 Processus de renouvellement
Fonction de renouvellement, quation de renouvellement
Avant de clore ce chapitre, nous allons brivement discuter des processus de renouvelle-
ment gnraux. Il sagit dun sujet de grande importance, que nous ne ferons queeurer.
Soit (N
t
)
t0
un processus de renouvellement, cest--dire un processus de comptage
pour lequel les temps dattente sont i.i.d., et supposons pour simplier
3
que la loi com-
mune des temps dattente possde la densit f. On notera F la fonction de rpartition
correspondante.
Il est ais dexprimer la loi des temps de renouvellement T
k
partir de celle des temps
dattente.
Lemme 10.2.1. f
T
1
(t) = f(t), et f
T
k+1
(t) =
_
f
T
k
(t s)f(s)ds, pour k 1.
Dmonstration. Cela suit immdiatement de la relation T
k+1
= T
k
+X
k+1
et de lindpen-
dance des variables alatoires T
k
et X
k+1
.
Lemme 10.2.2. P(N
t
= k) = F
T
k
(t) F
T
k+1
(t).
Dmonstration. Il sut dobserver que N
t
= k = N
t
k N
t
k + 1, et dutiliser
le fait que N
t
n T
n
t.
Il est en gnral impossible de dterminer explicitement la loi de N
t
, et il faudra souvent
se satisfaire dinformations sur E(N
t
).
Dnition 10.2.7. La fonction de renouvellement est dnie par m(t) = E(N
t
).
Lemme 10.2.3. m(t) =

k=1
F
T
k
(t).
Dmonstration. Manifestement, N
t
=

k1
1
T
k
t
. Par consquent,
m(t) = E(

k1
1
T
k
t
) =

k1
P(T
k
t).
Le rsultat prcdent nest que de peu dutilit en gnral. Une approche alternative
pour dterminer m est la suivante.
Lemme 10.2.4. La fonction de renouvellement satisfait lquation de renouvellement,
m(t) = F(t) +
_
t
0
m(t s)f(s) ds, t 0.
3. Mais tout ce que nous dirons ici stend des lois quelconques.
212
CHAPITRE 10. LE PROCESSUS DE POISSON
Dmonstration. En conditionnant sur X
1
, on a
m(t) = E(E(N
t
[ X
1
)).
prsent, E(N
t
[ X
1
= x) = 0 si t < x. Dun autre ct,
E(N
t
[ X
1
= x) = 1 +E(N
tx
), si t x.
On en dduit que
m(t) =
_

0
E(N
t
[ X
1
= x)f(x) dx =
_
t
0
_
1 +m(t x)
_
f(x) dx.
Remarque 10.2.2. videmment, m(t) =

k=1
P(T
k
t) est une solution de lquation
de renouvellement. En fait, on peut montrer quil sagit de lunique solution borne sur tout
intervalle ni.
Remarque 10.2.3. On peut montrer quil y a bijection entre les lois des temps dattente et
la fonction de renouvellement. En particulier, le processus de Poisson est le seul processus
de renouvellement dont la fonction de renouvellement est linaire.
Thormes limites
Nous allons prsent nous intresser au comportement asymptotique de N
t
et m(t),
lorsque t est grand.
Soit = E(X
1
). Dans cette sous-section, nous supposerons que < .
Thorme 10.2.5.
1
t
N
t
p.s.

, lorsque t .
Dmonstration. Puisque T
N
t
t < T
N
t
+1
, on a, lorsque N
t
> 0,
T
N
t
N
t

t
N
t

T
N
t
+1
N
t
+ 1
_
1 +
1
N
t
_
.
Dune part, N
t
p.s.
lorsque t . Dautre part, par la loi forte des grands nombres,
1
N

N
i=1
X
i
p.s.
, lorsque N . Par consquent,
T
N
t
N
t
=
1
N
t
N
t

i=1
X
i
p.s.
,
et donc
lim
t
t
N
t
,
presque srement.
213
10.2. AUTRES PROPRITS
Thorme 10.2.6. Supposons que 0 <
2
= Var(X
1
) < . Alors la variable alatoire
N
t
(t/)
_
t
2
/
3
converge en loi vers une variable alatoire A(0, 1), lorsque t .
Dmonstration. Fixons x R. Alors
P
_
N
t
(t/)
_
t
2
/
3
x
_
= P
_
N
t
(t/) +x
_
t
2
/
3
_
= P
_
T
a(t)
t
_
,
o a(t) = ,(t/) +x
_
t
2
/
3
|. prsent,
P
_
T
a(t)
t
_
= P
_T
a(t)
a(t)

_
a(t)

t a(t)

_
a(t)
_
.
Dune part,
lim
t
t a(t)

_
a(t)
= x.
Dautre part, on vrie aisment que le Thorme central limite implique la convergence
en loi de (T
a(t)
a(t))/(
_
a(t)) vers une variable alatoire A(0, 1), lorsque t . Par
consquent,
lim
t
P
_
N
t
(t/)
_
t
2
/
3
x
_
= (x).
Remarque 10.2.4. On peut tablir des rsultats analogues sur le comportement asympto-
tique de la fonction de renouvellement m(t). Nous ne le ferons pas ici, car les preuves sont
plus dlicates. On peut montrer en particulier que
lim
t
m(t)
t
=
1

,
et, pour tout h > 0,
lim
t
_
m(t +h) m(t)
_
=
h

.
214
Chapitre 11
lments de thorie de linformation
Ce chapitre est consacr un bref aperu dun autre domaine dans lequel les probabilits
jouent un rle prpondrant : la thorie de linformation. Ne dun article classique de
Claude Shannon
1
en 1948, cette thorie porte sur les systmes dinformation, les systmes
de communication et leur ecacit. Si elle sest initialement intresse tablir les limites
fondamentales de la compression de donnes et de leur transmission sans perte, son domaine
sest depuis trs fortement largi, et ses applications pratiques sont trs nombreuses.
Dans ce chapitre nous ne ferons que survoler ce sujet, en introduisant quelques concepts
fondamentaux, et en dmontrant des versions simples de deux rsultats clbres (les tho-
rmes de Shannon).
11.1 Sources, codages et entropie
On sintresse au problme de transmettre une information dune source vers un desti-
nataire travers un canal. La source peut tre de nature trs varie : voix, images, texte,
etc. Le canal peut tre une ligne tlphonique, une bre optique, une pellicule photogra-
phique, un CD, etc. En gnral, le canal peut tre bruit, produisant des erreurs lors de
la transmission de linformation. An de limiter la quantit dinformation transmettre
(taille dune photographie numrique, par exemple), ou an dintroduire une redondance
permettant de rparer le message larrive (dans le cas o celui-ci aurait t endommag
lors de sa transmission), on recourt un codage de linformation. Ce dernier peut ga-
lement tre utile an dadapter le format de la source au canal utilis, par exemple en
transformant un signal analogique en un signal digital.
11.1.1 Codes binaires
On dsignera par A lalphabet avec lequel sont construit les messages, et on notera
0, 1

k1
0, 1
k
lensemble des mots binaires de longueur nie arbitraire. Commen-
1. Claude Elwood Shannon (1916, Gaylord 2001, Medford), ingnieur lectricien et mathmaticien
amricain.
215
11.1. SOURCES, CODAGES ET ENTROPIE
ons par quelques dnitions.
Un code binaire est une application c : A 0, 1

, associant chaque symbole a A


de lalphabet un mot binaire c(a) de longueur nie, appel son mot de code.
Un code binaire non-singulier est un code binaire injectif. En dautres termes, des
symboles dirents reoivent des mots de code dirents, et ainsi un mot de code
donn est dcodable de faon unique.
Un code prxe est un code c non-singulier tel quaucun mot de code c(a) ne soit le
prxe dun autre mot de code c(a
t
), o a, a
t
A, a
t
,= a.
Soit A

L1
A
L
. Lextension c

: A

0, 1

dun code binaire c est lapplication


associant un message de n symboles (a
1
, . . . , a
n
) A
n
le mot de code
c

(a
1
, . . . , a
n
) = c(a
1
) c(a
n
),
o x y est la concatnation des mots x et y.
Un code binaire uniquement dcodable est un code c dont lextension c

est non-
singulire. Observez que cette proprit est toujours satisfaite lorsque c est un code
prxe.
Un code prxe possde la proprit dsirable dtre instantanment dcodable : lors de la
rception du message cod, celui-ci peut-tre dcod au fur et mesure de la rception des
bits, sans avoir connatre la suite du message (ds que la suite de bits correspondant
un mot de code apparat, le symbole correspondant du message initial est retrouv). On
vrie aisment que cette proprit est quivalente celle dtre un code prxe.
Dans la suite, nous nous restreindrons toujours des codes prxes.
Exemple 11.1.1. Un exemple de code bien connu, mais dsuet, est le code morse, dans
lequel les lettres de lalphabet sont encodes selon une succession de signaux courts ( )
ou longs ( ). Dans ce code, les lettres les plus utilises en anglais sont reprsentes par
des mots de code courts, par exemple le mot de code associ la lettre E est , celui
de la lettre A est , alors que celui de la lettre Q est donn par . Il
ne sagit pas dun code prxe, le mot de code de la lettre E tant le prxe de celui de
la lettre A . An de pouvoir sparer les direntes lettres, et ainsi dcoder le message,
il est ncessaire dutiliser la longueur des silences sparant deux signaux successifs (par
exemple, deux lettres sont spares par un silence correspondant trois , les mots par
des silences correspondant cinq ).
Exemple 11.1.2. Supposons quon ait transmettre par fax une page contenant du texte
manuscrit. Si le texte nest pas trop dense, une fois la page numrise, lessentiel, disons
99%, des pixels de limage obtenue seront blancs (correspondant la feuille), et une faible
fraction noirs (correspondant au texte).
On peut modliser une telle situation en supposant que chaque pixel est soit blanc, soit
noir, indpendamment avec probabilits 0, 99 et 0, 01 respectivement.
On considre lalgorithme de codage suivant : on dcompose limage en paquets de 10
pixels conscutifs. Si tous les pixels sont blancs, on envoie un 0, sinon on envoie un 1 suivi
dune chane de 10 bits correspondant aux valeurs des 10 pixels. On a donc A = 0, 1
10
,
216
CHAPITRE 11. LMENTS DE THORIE DE LINFORMATION
c(0000000000) = 0 et, pour x A, x ,= 0000000000, c(x) = 1 x. Il sagit clairement dun
code uniquement dcodable.
La longueur moyenne de la chane transmise pour un bloc est donc donne par
0, 99
10
1 + (1 0, 99
10
) 11 1, 96.
Ce codage rduit donc la taille du message original moins de 20% de sa taille initiale.
Est-il possible de faire mieux, et si oui : quel est le taux de compression maximal pos-
sible ?
11.1.2 Longueur de code, entropie
An de simplier lexposition au maximum, nous nous restreindrons la discussion
de sources discrtes sans mmoire. Nous supposerons lalphabet A ni. Chaque symbole
a A composant le message coder est tir au hasard, indpendamment des autres, avec
une probabilit p(a) > 0. Les probabilits associes aux dirents symboles modlisent
leur frquence dapparition; bien entendu, on peut considrer des modles plus ralistes,
dans lesquels la frquence dapparition dun symbole dpend des lettres prcdentes (par
exemple, selon un schma markovien), mais nous ne le ferons pas ici. Nous nous restrein-
drons galement au cas particulirement important o le message est encod sous forme
binaire. Une source discrte sans mmoire est donc la donne dun espace probabilis ni
A = (A, P).
Nous aurons besoin des dnitions suivantes.
La longueur (a) du mot de code c(a) est gal la longueur du mot c(a), cest--dire
(a) = k si et seulement si c(a) 0, 1
k
.
La longueur de code L[c] dun code binaire c est la longueur moyenne de ses mots de
code : L[c] = E() =

aA
p(a)(a).
Linformation propre dun symbole a A est dnie par I(a) = log
2
p(a).
Lentropie H(P) dune source A = (A, P) est la valeur moyenne de linformation
propre de ses symboles,
H(P) = E(I) =

aA
I(a)p(a) =

aA
p(a) log
2
p(a).
Exemple 11.1.3. Lentropie dune source compose dun alphabet de n symboles tirs selon
la loi uniforme est gale log
2
n.
La signication de la longueur de code est la suivante : supposons que lon code un message
x de longueur k 1 (ou une collection de messages de longueur totale k), alors le nombre
(x)/k de bits par symbole ncessaire pour pouvoir coder ce message converge vers L[c].
En eet, la loi des grands nombres implique que si x = (x
1
, . . . , x
k
) A
k
est un message
de longueur k, alors
(x)
k
=
1
k
k

i=1
(x
i
)
P
E() = L[c].
217
11.1. SOURCES, CODAGES ET ENTROPIE
gnration 1
gnration 3
gnration 2
000 001 010 011 100 101 110 111
11 10 01 00
0 1
0 1
Figure 11.1: Le dbut de larbre binaire de la preuve du Thorme 11.1.1. Si un nud du graphe
est associ un mot binaire x 0, 1
n
, alors les mots associs ses deux enfants sont x 0 pour
le descendant gauche, et x 1 pour le descendant droite. Le mot associ la racine est vide.
Thorme 11.1.1 (Ingalit de Kraft). Soit A un alphabet. Pour tout code prxe c, on
a

aA
2
(a)
1. (11.1)
Remarque 11.1.1. En fait, on peut montrer que tout code uniquement dcodable satisfait
lingalit de Kraft (ce sera fait en exercices).
Dmonstration. La preuve est base sur la reprsentation des lments de 0, 1

comme
nuds dun arbre (voir la Fig. 11.1). Manifestement, la gnration n 1 de larbre,
les mots binaires associs aux nuds correspondent (de gauche droite) la suite des
reprsentations binaires des nombres 0, 1, . . . , 2
n
1.
On ordonne les mots de code selon leur longueur :
1

2

n
. On note A
i
lensemble des nuds de gnration
n
qui sont des descendants du i
me
mot de code (de
longueur
i
) ; voir la Fig. 11.2. Le code tant prxe, on doit avoir A
i
A
j
= , si i ,= j.
De plus, [A
i
[ = 2

i
. Comme il y a en tout 2

n
nuds la gnration
n
, on en dduit
que
2

n
_
i=1
A
i

=
n

i=1
[A
i
[ =
n

i=1
2

i
,
et le rsultat suit.
Le thorme prcdent admet une rciproque.
Thorme 11.1.2. Soit (a)
aA
une famille dentiers positifs satisfaisant lingalit de
Kraft (11.1). Alors, il existe un code prxe c possdant les (a) comme longueurs des mots
de code.
Dmonstration. On construit le code prxe explicitement laide de lalgorithme suivant :
On ordonne les (a) :
1

2

3
. . ..
218
CHAPITRE 11. LMENTS DE THORIE DE LINFORMATION

n
A
1
A
2
A
3
A
4
A
5
Figure 11.2: Dans cet exemple, on a n = 5 mots de code, de longueurs
1
=
2
= 2,
3
=
4
= 3,
et
5
= 4. Les nuds correspondant aux mots de code sont indiqus en rouge, et leurs descendants
sont marqus. Observez que lensemble des descendants de deux nuds correspondant des mots
de code dirents sont disjoints, car le code est prxe.
On choisit pour le premier mot de code c
1
le nud de gnration
1
le plus gauche ;
en loccurence, c
1
= 0 0 (compos de
1
0 ). On marque ce nud, ainsi que tous
ses descendants.
On choisit pour c
k+1
le mot correspondant au nud non marqu de la gnration

k+1
se trouvant le plus gauche. On marque le nud, ainsi que tous ses descendants.
Cette construction ne peut chouer que si on doit attribuer le k
me
mot de code alors
que tous les nuds de gnration
k
sont dj marqus. Or, le nombre de nuds de la
gnration
k
qui ont t marqus lors des k 1 tapes prcdentes de la construction est
donn par
k1

j=1
2

j
.
Par consquent, si les 2

k
nuds de la gnration
k
taient marqus, on aurait

k1
j=1
2

j
=
1, et lingalit de Kraft serait viole.
11.2 Taux optimal de compression
Dans cette section, nous allons dmontrer le premier thorme de Shannon. Celui-ci
tablit la limite absolue du taux de compression pour des messages issus dune source
discrte sans mmoire A = (A, P) : le nombre de bits par symbole ncessaires pour coder
de faon rversible un message est compris entre H(P) et H(P) + 1.
Thorme 11.2.1 (Premier thorme de Shannon). 1. Soit A = (A, P) une source discrte
sans mmoire, et c un code associ satisfaisant lingalit de Kraft. Alors,
L[c] H(P),
219
11.2. TAUX OPTIMAL DE COMPRESSION
avec galit si et seulement si (a) = I(a), pour tout a A.
2. Pour toute source discrte sans mmoire A = (A, P), il existe un code prxe c tel
que
L[c] < H(P) + 1.
Dmonstration. On montre tout dabord la premire armation.
L[c] H[P] = E
_
(a) + log
2
(p(a))
_
= E
_
log
2
(2
(a)
/p(a))
_
log
2
_
E(2
(a)
/p(a))
_
= log
2
_

aA
2
(a)
_
0,
o la premire ingalit suit dune application de lingalit de Jensen, et la seconde de
lingalit de Kraft. Lgalit na lieu que si les deux ingalits ci-dessus sont satures. Or,
lingalit de Jensen est sature si et seulement si 2
(a)
/p(a) est constante, cest--dire
si p(a) = 2
(a)
pour un > 0. Lingalit de Kraft est elle sature si et seulement si

aA
2
(a)
= 1. On en conclut que = 1, ce qui prouve la premire armation.
La seconde armation suit dune construction explicite. Il est clair de largument ci-
dessus que les codes les plus ecaces sont ceux qui vont satisfaire au mieux la relation
(a) = I(a). Comme les longueurs doivent tre entires, on choisit
(a) = ,I(a)|,
o, pour x R, ,x| = min n N : n x. Ces longueurs satisfont lingalit de Kraft,
car

aA
2
(a)
=

aA
2
I(a)|

aA
2
I(a)
=

aA
2
log
2
(p(a))
=

aA
p(a) = 1.
Il suit donc du Thorme 11.1.2 quil existe un code prxe dont les longueurs des mots
de code sont donnes par (a) = ,I(a)|. Ce code a par consquent la longueur de code
suivante :
L[c] = E(,I|) < E(I + 1) = H(P) + 1.
Remarque 11.2.1. On peut en fait virtuellement se dbarrasser du bit supplmentaire
de la borne suprieure. Il sut pour cela de considrer des messages sur lalphabet A
k
,
cest--dire de coder les mots par blocs de longueurs k. Notons A
k
= (A
k
, P
k
) la source
correspondante. Il suit alors du Thorme prcdent que le code optimal c
k
satisfait
H(P
k
) L[c
k
] < H(P
k
) + 1,
et donc
H(P)
1
k
L[c
k
] < H(P) +
1
k
,
puisque H(P
k
) =

xA
k p(x) log
2
p(x) = k

aA
p(a) log
2
p(a) = kH(P). On peut
donc sapprocher arbitrairement prs du taux optimal de compression, en regroupant conve-
nablement les messages.
220
CHAPITRE 11. LMENTS DE THORIE DE LINFORMATION
Exemple 11.2.1. On conclut de ce thorme, et de la remarque qui suit, que le taux de
compression optimal de limage envoyer par fax de lExemple 11.1.2 est asymptotiquement
de H(P) = 0, 99 log
2
(0, 99) + 0, 01 log
2
(0, 01) 8%.
11.3 Transmission travers un canal bruit
Nous allons prsent nous intresser la transmission dun message dans un canal
bruit. Le but est de coder ce message de faon minimiser le risque de ne plus pouvoir
le dcoder larrive. Il faudra pour cela introduire de la redondance dans linformation
transmise, et on cherche minimiser la taille du code ainsi produit. Le second thorme
de Shannon donne la taille optimale du code.
Le second thorme de Shannon sapplique des canaux trs gnraux, mais par souci
de simplicit, nous nous restreindrons un type particulier de canal bruit : le canal
binaire symtrique, dni comme suit. On suppose que lon transmet un message binaire
de longueur n. Le bruit est modlis par une chane binaire alatoire Y = (Y
1
, . . . , Y
n
),
dont les n composantes sont i.i.d. et suivent une loi bernoulli(q), 0 q 1/2 ; notons Q
la loi de Y . Notons galement, pour x = (x
1
, . . . , x
n
), y = (y
1
, . . . , y
n
) 0, 1
n
, x y la
chane z 0, 1
n
avec z
i
= (x
i
+ y
i
) mod 2. Ayant introduit un message x 0, 1
n

lentre du canal, on obtient la sortie le message alatoire x Y 0, 1


n
. En dautres
termes, chacun des bits du message x a une probabilit q dtre modi, indpendamment
des autres.
Le problme peut prsent tre formul prcisment. On part dune source gnrant
un message x 0, 1
k
. On code ce message laide dune application c : 0, 1
k

0, 1
n
, avec n > k. On transmet ensuite le message cod c(x) travers le canal bruit,
obtenant larrive une version bruite c(x) Y , o Y est de loi Q. On applique alors un
algorithme de dcodage d : 0, 1
n
0, 1
k
. La question est de dterminer la probabilit
que d(c(x) Y ) = x.
On appelle taux dun code binaire le rapport k/n; le taux mesure la redondance intro-
duite par le code.
On appelle distance de Hamming entre deux chanes binaires x et y de mmes longueurs
la distance d
H
(x, y) = #i : x
i
,= y
i
. Pour y 0, 1
m
et r 0, notons
B
H
(y, r) = x 0, 1
m
: d
H
(x, y) r ,
la boule de rayon r centre en y (pour la distance de Hamming), et
Vol(r, m) = [B
H
(y, r)[ =
]r|

i=0
_
m
i
_
,
son volume (manifestement indpendant du choix de y).
Soit H(q) = q log
2
(q) (1 q) log
2
(1 q) ; observez que H(q) < 1 lorsque q <
1
2
.
Pour de telles valeurs de q, on a alors, lorsque m .
Vol(qm, m) = 2
(H(q)+o(1))m
. (11.2)
221
11.3. TRANSMISSION TRAVERS UN CANAL BRUIT
En eet, cela suit facilement des bornes
_
m
]qm|
_
Vol(qm, m) qm
_
m
]qm|
_
, et de la formule
de Stirling.
Le second thorme de Shannon arme quil est possible de transmettre un message
travers un canal binaire symtrique de paramtre q <
1
2
nimporte quel taux infrieur
1 H(q), avec une probabilit de succs arbitrairement proche de 1. Nous verrons plus
tard que cette borne est optimale.
Il est possible de comprendre heuristiquement pourquoi une telle borne apparat. Soit
m 0, 1
k
le message original. On le code en un message c(m) 0, 1
n
, avec n > k. Lors
de la transmission de c(m) travers le canal bruit de paramtre q < 1/2, une proportion
approximativement q (par la loi des grands nombres applique au bruit Y ) des bits de c(m)
vont tre modis. Par consquent, si z 0, 1
n
est le message reu la sortie du canal, on
aura d
H
(c(m), z) qn. Supposons que le codage ait la proprit que les boules B
H
(c(m), qn)
soient disjointes. Alors le message original m peut tre retrouv : ce sera lunique message
tel que z B
H
(c(m), qn). Mais le volume total de ces boules est de lordre de 2
k
2
H(q)n
,
par (11.2). Lexistence dun tel codage ne sera donc a priori possible que si le volume de
lespace des codes satisfait 2
n
2
k
2
H(q)n
, cest--dire si k/n < 1 H(q). Les preuves
ci-dessous suivent de prs cet argument heuristique.
Dans le thorme suivant, et encore davantage dans sa preuve, nous aurons besoin de
considrer des esprances et des probabilits portant simultanment sur plusieurs variables
alatoires (indpendantes). An de rendre les notations aussi explicites que possible, nous
indicerons les symboles E et P par les variables alatoires correspondantes. Par exemple,
lesprance par rapport deux variables alatoires X et Y (indpendantes, et dont les lois
sont dtermines par le contexte), scrira E
X,Y
.
Thorme 11.3.1 (Deuxime thorme de Shannon). Soit q <
1
2
, et , > 0. Il existe
n
0
< tel que, pour tout n n
0
et k (1 H(q) )n, il existe deux fonctions
c : 0, 1
k
0, 1
n
et d : 0, 1
n
0, 1
k
telles que
P
M,Y
_
d(c(M) Y ) = M
_
1 ,
o M, de loi uniforme sur 0, 1
k
, et Y , de loi Q, sont indpendantes.
Dmonstration. La preuve est non constructive. Soient n > k comme dans lnonc. La
fonction de codage C : 0, 1
k
0, 1
n
est choisie au hasard : chaque m 0, 1
k
,
on associe un code C(m) tir au hasard uniformment sur 0, 1
n
, indpendamment pour
chaque m (le code obtenu peut ne pas tre injectif).
La fonction de dcodage (alatoire, car dpendant du choix de C), D : 0, 1
n
0, 1
k
est dnie de la faon suivante. tant donn une chane z 0, 1
n
, on cherche le message
m 0, 1
k
minimisant d
H
(z, C(m)). On pose alors D(z) = m. (En cas de dgnrescence,
on choisit le premier tel message m, selon lordre lexicographique)
Nous allons montrer que ces fonctions ont les bonnes proprits, avec grande probabilit
(par rapport au choix alatoire de C).
On commence par considrer le problme de dcoder un message particulier, mais
quelconque, m
0
0, 1
k
. Soit y la ralisation du bruit dans le canal. Le message bruit
est alors donn par z = C(m
0
) y.
222
CHAPITRE 11. LMENTS DE THORIE DE LINFORMATION
On xe > 0 (petit). Soit r = (q + )n. Pour que le dcodage choue, il faut quau
moins une des conditions suivantes soit vrie :
1. Trop derreurs de transmission : z , B
H
(C(m
0
), r).
2. Le mot reu est trop proche dautres mots : m
t
,= m
0
tel que C(m
t
) B
H
(z, r).
En eet, si ces deux conditions sont violes, alors m
0
est le seul message m tel que C(m)
B
H
(z, r), et on a bien D(C(m
0
) y) = m
0
.
Nous allons prsent montrer que les deux conditions ci-dessus ne sont vries quavec
faible probabilit (par rapport aux choix alatoires de C et y).
Pour que la premire ait lieu, il faut que la fraction de 1 dans y soit suprieure
q +. Or, comme E(Y
i
) = q, il suit de la loi des grands nombres (ou dune application des
ingalits de Bienaym-Tchebychev ou, mieux, de Cherno) que cela a lieu avec probabilit
Q
_
n

i=1
Y
i
(q +)n
_
Q
_

i=1
(Y
i
q)

n
_
0,
lorsque n , pour tout > 0.
Analysons prsent le second vnement. Fixons z 0, 1
n
et un message m
t
,= m
0
,
et considrons lvnement C(m
t
) B
H
(z, r). La probabilit de cet vnement, par rapport
au choix alatoire de la fonction C est donne par
P
C
(C(m
t
) B
H
(z, r)) = Vol(r, n)/2
n
= 2
(H(q+)1+o(1))n
.
Cette probabilit est videmment indpendante du choix de m
t
. Par consquent,
P
C
(m
t
,= m
0
, C(m
t
) B
H
(z, r)) 2
k
2
(H(q+)1+o(1))n
= 2
(k/n1+H(q+)+o(1))n
2
(1H(q)1+H(q+)+o(1))n
2

1
2
n
,
en prenant susamment petit et n susamment grand. Cette probabilit est donc ga-
lement ngligeable.
Soit la probabilit totale des deux vnements ci-dessus (on a donc 0, lorsque
n ). Nous avons dmontr que pour nimporte quel message m
0
0, 1
k
donn, la
probabilit davoir une erreur au dcodage satisfait
P
Y,C
(D(C(m
0
) Y ) ,= m
0
) .
On a alors, en moyennant sur le message initial M (tir au hasard uniformment sur
0, 1
k
),
E
M,Y,C
(1
D(C(M)Y ),=M
) = E
M
(E
Y,C
(1
D(C(M)Y ),=M
))
= E
M
(P
Y,C
(D(C(M) Y ) ,= M)) E
M
() = .
223
11.3. TRANSMISSION TRAVERS UN CANAL BRUIT
Mais cette ingalit implique quil doit exister une ralisation c de C (et donc d de D) telle
que
E
M,Y
(1
d(c(M)Y ),=M
) ,
et donc
P
M,Y
(d(c(M) Y ) ,= M) = E
M,Y
(1
d(c(M)Y ),=M
) ,
ce qui conclut la preuve.
Le thorme suivant montre que la borne du thorme prcdent est optimale.
Thorme 11.3.2. Soit q <
1
2
, et , > 0. Il existe n
0
< tel que, pour tout n n
0
et
k (1 H(q) +)n, et pour toutes fonctions c : 0, 1
k
0, 1
n
et d : 0, 1
n
0, 1
k
,
on a
P
M,Y
_
d(c(M) Y ) ,= M
_
1 ,
o M, de loi uniforme sur 0, 1
k
, et Y , de loi Q, sont indpendantes.
Ce rsultat montre que si lon essaie dobtenir un taux suprieur 1 H(q) + , le
message ne pourra pas tre rcupr larrive, avec probabilit proche de 1, quelles que
soient les procdures de codage/dcodage choisies.
Dmonstration. La preuve repose sur les deux observations suivantes. Soit
t
> 0 et notons
A
H
(c(m),
t
) = B
H
(c(m), (q +
t
)n) B
H
(c(m), (q
t
)n).
Par la loi des grands nombres (ou une application des ingalits de Bienaym-
Tchebychev ou Cherno), on a que, pour tout
t
> 0,
Q
_

i=1
Y
i
nq


t
n
_
0, n .
Par consquent, uniformment en m 0, 1
k
et en la fonction de codage c,
Q
_
c(m) Y A
H
(c(m),
t
)
_
1, n , (11.3)
pour tout
t
> 0. Ceci signie que le nombre derreurs de transmissions ne peut tre
(avec grande probabilit) ni trop grand, ni trop petit (il doit tre dordre qn).
Pour tout
t
> 0 susamment petit, m 0, 1
k
, c, et z A
H
(c(m),
t
),
Q(c(m) Y = z) 2
(H(q

)o(1))n
. (11.4)
En eet, R = d
H
(z, c(m)) [(q
t
)n, (q +
t
)n]. Soit N
R
=
_
n
R
_
le nombre de
vecteurs binaires avec R 1 et n R 0 . Toutes les ralisations de Y avec le
mme nombre derreurs tant quiprobables, la probabilit ci-dessus ne peut tre
quau plus de 1/N
R
. Mais la formule de Stirling implique que, pour
t
susamment
petit, N
R
2
(H(q

)o(1))n
.
224
CHAPITRE 11. LMENTS DE THORIE DE LINFORMATION
Voyons prsent comment utiliser ces observations pour montrer que tout dcodage a
probabilit proche de 1 dchouer.
Soit c : 0, 1
k
0, 1
n
et d : 0, 1
n
0, 1
k
des applications de codage et dcodage
arbitraires, et soit S
m
= z 0, 1
n
: d(z) = m. Notons la probabilit que le dcodage
soit un succs,
= P
M,Y
(d(c(M) Y ) = M) = P
M,Y
(c(M) Y S
M
)
=

m0,1
k
P(M = m) Q(c(m) Y S
m
).
M tant distribu uniformment sur 0, 1
k
, on a P(M = m) = 2
k
. Il reste estimer le
second facteur. On a, en crivant S
m
= (S
m
A
H
(c(m),
t
)) (S
m
A
H
(c(m),
t
)),
Q(c(m) Y S
m
) Q(c(m) Y S
m
A
H
(c(m),
t
)) +Q(c(m) Y , A
H
(c(m),
t
))
[S
m
[ sup
zA
H
(c(m),

)
Q(c(m) Y = z) +Q(c(m) Y , A
H
(c(m),
t
)).
Observons prsent que

m0,1
k [S
m
[ = 2
n
. Comme n k H(q)n n, il suit donc
de (11.3) et (11.4) que
2
(H(q

)o(1))n
2
k

m0,1
k
[S
m
[ + sup
m0,1
k
Q(c(m) Y , A
H
(c(m),
t
))
2
(H(q

)H(q)+o(1))n
+o(1),
ce qui tend vers 0 lorsque n , pour tout > 0, pourvu que
t
soit choisi assez petit.
225
11.3. TRANSMISSION TRAVERS UN CANAL BRUIT
226
Chapitre 12
La mthode probabiliste
Dans ce chapitre, nous allons voir quelques exemples dapplication de mthodes et
intuition dorigine probabiliste dans divers domaines de mathmatiques o elles pourraient
tre inattendues. Cette mthode probabiliste, initie par P. Erds est devenue une technique
centrale en combinatoire. Nous nous contenterons ici den donner quelques illustrations
simples.
12.1 Combinatoire : le thorme dErds-Ko-Rado
Une famille densembles T est dite intersectante si A B ,= , pour tout A, B T.
Soit n 2k et T une famille intersectante de sous-ensembles de k lments dun ensemble
de n lments, disons 0, . . . , n 1.
Thorme 12.1.1 (Erds-Ko
1
-Rado
2
). [T[
_
n1
k1
_
.
Remarque 12.1.1. La borne est facilement sature : il sut de considrer la famille des
sous-ensembles k lments contenant un lment donn.
Dmonstration. La preuve repose sur le rsultat suivant.
Lemme 12.1.1. Pour 0 s n 1, on pose A
s
= s, s + 1, . . . , s + k 1, laddition
tant modulo n. Alors T ne peut contenir plus de k ensembles A
s
.
Preuve du lemme. Supposons que A

T. part A

lui-mme, exactement 2k 2 des


ensembles A
s
intersectent A

. Ceux-ci peuvent tre rpartis en k 1 paires densembles


disjoints. Puisque T ne peut contenir quau plus un membre de chacune de ces paires, le
lemme est dmontr.
Revenons la preuve du thorme. On tire au hasard une permutation de 0, . . . , n
1 et un lment i 0, . . . , n1, tous deux de faon uniforme, et indpendamment lun
1. Ke Zhao ou Chao Ko (1910, Taizhou 2002, ? ? ?), mathmaticien chinois.
2. Richard Rado (1906, Berlin 1989, Henley-on-Thames), mathmaticien allemand.
227
12.2. THORIE DES NOMBRES : FACTEURS PREMIERS
de lautre. Soit A = (i), (i +1), . . . , (i +k1) (la somme tant toujours prise modulo
n). Il est clair (et facilement dmontr) que la loi de A est uniforme sur lensemble des
sous-ensembles k lments de 0, . . . , n 1. En particulier, P(A T) = [T[/
_
n
k
_
. Dun
autre ct,
P(A T) =

P(A T [ )P().
Conditionnellement , A suit la loi uniforme sur les n sous-ensembles de k lments
conscutifs de lensemble ordonn (0), (1), . . . , (n 1) (conscutifs au sens du Lem-
me). Par consquent, le lemme (appliqu lensemble (0), . . . , (n 1)) implique que
P(A T [ ) k/n, pour chaque permutation , et donc P(A T) k/n. On doit donc
avoir
[T[
_
n
k
_
k
n
,
et le thorme est dmontr.
12.2 Thorie des nombres : facteurs premiers
Soit n N

, et (n) le nombre de nombres premiers p divisant n (sans multiplicit). Le


rsultat suivant a t dmontr tout dabord par Hardy
3
et Rmnujan
4
en 1920, par un
argument plutt complexe. La preuve ci-dessous est due Paul Turn
5
(1934) et a jou
un rle cl dans le dveloppement des mthodes probabilistes en thorie des nombres.
Thorme 12.2.1. Soit > 0. Lorsque N , on a
1
N
#
_
n 1, . . . , N : [(n) log log N[ > (log log N)
1/2+
_
= o(1).
Dmonstration. Soit (n) le nombre de nombres premiers infrieurs ou gaux n. Le
rsultat suivant, d Mertens
6
, est classique ; sa preuve, simple, peut tre trouve dans
la plupart des livres de thorie analytique des nombres.
Thorme 12.2.2.

pN, premier
1
p
= log log N +O(1).
Passons prsent la preuve du Thorme 12.2.1. On tire n au hasard uniformment
dans 1, . . . , N. Pour p 1, . . . , N, on dnit les variables alatoires
X
p
(n) =
_
1 si p[n,
0 sinon,
3. Godfrey Harold Hardy (1877, Cranleigh 1947, Cambridge), mathmaticien britannique.
4. Srinivsa Aiyangr Rmnujan (1887, Erode 1920, Kumbakonam), mathmaticien indien.
5. Paul, ou Pl, Turn (1910, Budapest 1976, Budapest), mathmaticien hongrois.
6. Franz Mertens (1840, roda Wielkopolska 1927, Vienne), mathmaticien allemand.
228
CHAPITRE 12. LA MTHODE PROBABILISTE
et X =

pN,premier
X
p
. Clairement X(n) = (n). On a
E(X
p
) =

1nN
1
N
X
p
(n) =
1
N
#kp : 1 kp N =
N/p|
N
=
1
p
+O(
1
N
),
et donc
E(X) =

pN,premier
_
1
p
+O(
1
N
)
_
= log log N +O(1), (12.1)
o la dernire identit suit du Thorme 12.2.2. Bornons prsent la variance de X.
Dune part, E(X)
2
= (log log N)
2
+O(log log N). Dautre part, puisque pour deux nombres
premiers distincts p, q, on a que p[n et q[n si et seulement si pq[n, et donc X
p
X
q
= X
pq
, il
suit que
E(X
2
) = E(X) +E
_

p,=qN
premiers
X
p
X
q
_
= E(X) +

p,=qN
premiers
E(X
pq
)
E(X) +

p,=qN
premiers
1
pq
(log log N)
2
+O(log log N),
la dernire identit suivant de (12.1) et du Thorme 12.2.2. Par consquent, Var(X) =
O(log log N). Il sut prsent dappliquer lingalit de Tchebytchev (Thorme 5.2.2) :
P([(n) log log N[ > (log log N)
1/2+
) = P([X E(X)[ > (log log N)
1/2+
(1 +o(1)))

Var(X)
(log log N)
1+2
(1 +o(1)) = O(log log N)
2
.
La mthode utilise dans la preuve ci-dessus, consistant montrer quune variable
alatoire est proche de son esprance lorsque Var(X) E(X)
2
est appele mthode du
second moment.
Le rsultat prcdent prend la forme dune loi des grands nombres. On peut en fait aller
beaucoup plus loin et montrer le rsultat classique suivant, qui correspond au Thorme
central limite. Nous ne le dmontrerons pas ici, car la preuve est plus dicile, mais nous
contenterons de remarquer que ce qui permet dappliquer des approches probabilistes (et
ctait dj le cas dans la preuve prcdente) est le fait que les variables alatoires X
p
sont
presque indpendantes, lorsque N est grand.
Thorme 12.2.3 (Erds-Kac
7
). Soit R x. Alors,
lim
N
1
N
#
_
n 1, . . . , N : (n) log log N +
_
log log N
_
=
_

2
e
t
2
/2
dt.
7. Mark, ou Marek, Kac (1914, Krzemieniec 1984, Californie), mathmaticien amricain dorigine
polonaise.
229
12.3. THORIE DES GRAPHES : NOMBRE CHROMATIQUE
12.3 Thorie des graphes : nombre chromatique
Soit G = (V, E) un graphe et k N

. Un k-coloriage de G est une application c : V


1, . . . , k telle que c(i) ,= c(j), pour tout i, j E. En dautres mots, on colorie chaque
sommet du graphe de sorte ce que deux sommets voisins (cest--dire lis par une arte)
soient de couleurs direntes. On appelle nombre chromatique du graphe G, not (G),
la plus petite valeur de k pour laquelle un k-coloriage de G existe. On appelle cycle de
longueur k dans G une famille ordonne de k sommets distincts v
1
, . . . , v
k
V telle que
v
i
, v
i+1
E, i = 1, . . . , k 1, v
k
, v
1
E, et chaque arte est utilise au plus une fois ;
on ne distinguera pas deux cycles correspondant la mme famille de sommets et dartes,
mais avec un point de dpart dirent ou un sens de parcours dirent (il y a donc 2k
versions dun mme cycle). On appelle maille du graphe G, note g(G), la longueur du
plus petit de ses cycles ; la maille est innie si G est sans cycle. Un ensemble de sommets
de G est stable si aucune paire de sommets de lensemble nest relie par une arte. On
note (G) la taille du plus grand ensemble stable de G.
On pourrait penser quune condition susante pour pouvoir colorier un graphe avec un
petit nombre de couleurs est que sa maille soit assez grande. Il se trouve que cest faux : le
thorme suivant montre quil existe des graphes dont la maille et le nombre chromatique
sont arbitrairement grands.
Thorme 12.3.1. Pour tout k, > 0, il existe un graphe G tel que (G) > k et g(G) > .
Dmonstration. Soit < 1/(2), n N

et p = n
1
. On considre un graphe alatoire dont
lensemble des sommets est V
n
= 1, . . . , n, et avec une arte entre i et j avec probabilit
p, indpendamment pour chaque couple i ,= j V
n
.
On commence par estimer le nombre X de cycles de longueur au plus . Le nombre de
cycles potentiels de longueur i est donn par
1
2i
(n)
i
n
i
(on tire sans remise i lments
parmi n et on identie les 2i cycles ne dirant que par leur point de dpart ou leur
orientation). Chaque arte tant prsente avec probabilit p, on a
E(X) =

i=3
1
2i
(n)
i

i=3
n
i
p
i
=

i=3
n
i/(2)
n
1/2
,
puisque i/(2) 1/2 pour tout 3 i . On dduit donc du Thorme 5.2.2 que
P
_
X
n
2
_

E(X)
n/2
2n
1/2
.
Nous allons prsent contrler (G). Soit a = ,(3/p) log n|. Observant que (G) a
implique lexistence dun ensemble de a sommets qui soit stable, on obtient
P((G) a)
_
n
a
_
(1 p)
a(a1)/2

_
ne
p(a1)/2
_
a

_
ne
3 log n/2
_
a
= n
a/2
,
puisque ,x| 1 < x, pour tout x. On choisit prsent n susamment grand pour que
max(2n
1/2
, n
a/2
) < 1/2. On en dduit alors que
P(X <
n
2
, (G) < a) > 0,
230
CHAPITRE 12. LA MTHODE PROBABILISTE
ce qui montre quil existe un graphe G
0
possdant moins de n/2 cycles de longueur au plus
, et avec (G
0
) < 3n
1
log n (si ce ntait pas le cas, la probabilit ci-dessus serait nulle).
On enlve prsent un sommet de chacun des cycles de G
0
de longueur au plus ,
obtenant ainsi un graphe G

0
possdant au moins n/2 sommets, une maille suprieure ,
et (G

0
) (G
0
). Puisque dans chaque coloriage de G, les sommets dune mme couleur
forment un ensemble stable et sont donc de taille au plus a 1, on en dduit que
(G

0
)
n/2
a 1

pn
6 log n
=
n

6 log n
.
La conclusion suit en choisissant n susamment grand pour que le membre de droite soit
strictement suprieur k.
12.4 Gomtrie : triangles vides
Soit X un ensemble ni de points dans le plan en position gnrique (cest--dire sans
triplets de points aligns). Notons f(X) le nombre de triangles vides dtermins par les
triplets de points dans X, cest--dire le nombre de triangle dont les sommets sont des
points de X et dont lintrieur ne contient aucun point de X. Plusieurs personnes se sont
intresses estimer la valeur minimale que peut prendre f(X) lorsque X contient n points.
On introduit f(n) = min f(X), o le minimum est pris sur tous les ensembles gnriques
de n points dans le plan. Brny et Fredi ont montr en 1987 que, lorsque n crot,
(1 +o(1))n
2
f(n) (1 +o(1))2n
2
.
Nous allons dmontrer la borne suprieure.
Thorme 12.4.1. Soient
I
k
=
_
(x, y) R
2
: x = k, 0 y 1
_
, 1 k n.
Pour chaque k, on choisit indpendamment un point p
k
au hasard, uniformment sur I
k
.
Soit X lensemble constitu de ces n points. Alors E(f(X)) 2n
2
+O(nlog n).
Observez que ceci dmontre bien la borne suprieure. En eet, presque toute ralisation
de lensemble de points alatoire X est gnrique, et le fait que E(f(X)) 2n
2
+O(nlog n)
implique lexistence dun ensemble de probabilit positive de telles congurations de points
pour lesquelles f(X) < 2n
2
+O(nlog n).
Dmonstration. On commence par estimer la probabilit que le triangle dtermin par les
trois points p
i
, p
i+a
, p
i+k
soit vide, pour des i, a xs et k = a + b 3. Notons A = (i, x),
B = (i + a, y) et C = (i + k, z) les points p
i
, p
i+a
, p
i+k
. Soit m la distance sparant B du
point dintersection des segments AC et I
i+a
. La probabilit que le triangle ABC est vide
231
12.4. GOMTRIE : TRIANGLES VIDES







i
i + a
i + a + b
A
B
C
m
Figure 12.1: Pour que le triangle ABC soit vide, il faut quaucun point ne soit choisi sur les
segments en rouge.
est donne par (cf. 12.1)
_
1
m
a
__
1 2
m
a
_

_
1 (a 1)
m
a
__
1 (b 1)
m
b
_

_
1
m
b
_
exp
_

m
a
2
m
a
(a 1)
m
a
(b 1)
m
b

m
b
_
= exp
_

a(a 1)
2
m
a

b(b 1)
2
m
b
_
= exp
_
(k 2)
m
2
_
.
Il suit que la probabilit que le triangle ABC soit vide est borne suprieurement par (on
xe A et C et on intgre sur m)
2
_

0
exp
_
(k 2)
m
2
_
dm =
4
k 2
,
uniformment en i, a, b tels que a + b = k. On peut prsent aisment borner lesprance
de f(X). On observe tout dabord que
f(X) =
n1

k=2
nk

i=1
k1

a=1
1
ABC vide
= (n 2) +
n1

k=3
nk

i=1
k1

a=1
1
ABC vide
,
la seconde identit suivant du fait quun triangle dont les sommets se trouvent sur 3 lignes
232
CHAPITRE 12. LA MTHODE PROBABILISTE
conscutives (k = 2) est ncessairement vide. On obtient donc la borne
E(f(X)) n 2 +
n1

k=3
(n k)(k 1)P(ABC vide)
= n 2 +
n1

k=3
(n k)
4(k 1)
k 2
= n 2 + 4
n1

k=3
(n k)
1
k 2
+ 4
n1

k=3
(n k)
= 2n
2
+O(nlog n).
233
12.4. GOMTRIE : TRIANGLES VIDES
234
Index
accroissement, 199
indpendant, 199
stationnaire, 199
algbre, 10
amas, 189
Avogadro, Lorenzo Romano Amedeo Carlo,
159
Bernoulli
Daniel, 8
Jacques, 8
Berry, Andrew C., 119
BerryEssen (ingalit de), 119
biais, 124
Bienaym, Irne-Jules, 110
Borel, Flix douard Justin mile, 8
Borel-Cantelli (lemmes de), 108
borlien, 26
Brown, Robert, 159
canal
binaire symtrique, 221
Cantelli, Francesco Paolo, 118
Cardano, Girolamo, 8
Cauchy, Augustin Louis, 55
chane de Markov, 167
absorbante, 170
apriodique, 183
ergodique, 183
irrductible, 170
rcurrente, 178
rcurrente-positive, 178
renverse, 185
rversible, 185
Cherno, Herman, 110
code
code prxe, 216
instantanement dcodable, 216
taux, 221
uniquement dcodable, 216
code binaire, 216
longueur, 217
longueur de code, 217
non-singulier, 216
coecient de corrlation, 77
condition dquilibre local, 185
conditions de consistance de Kolmogorov, 107
conance, 135
convergence
en loi, 95, 111
en moyenne, 111
en probabilit, 111
presque sre, 111
convexit, 73
stricte, 73
couplage, 193
covariance, 76
cylindre, 144
Darboux, Jean Gaston, 85
densit
conditionnelle, 82
conjointe, 62
235
INDEX
dune fonction de rpartition, 50
dune v.a., 49
marginale, 62
distance de Hamming, 221
distribution stationnaire, 180
distribution uniforme, 19
cart-type, 74
chantillon, 123
chantillon alatoire, 20
Ehrenfest
Paul, 170
Tatiana Alexeyevna Afanaseva, 170
Einstein, Albert, 159
entropie, 217
preuve de Bernoulli, 45
quation de renouvellement, 212
quiprobabilit, 19
Erds, Pl, 19
erreur
premire espce, 135
seconde espce, 135
espace des tats, 167
espace des observables, 9
espace chantillon, 9
espace mesurable, 86
espace probabilisable, 15
espace probabilis, 15
espace probabilis produit, 36
esprance
variables alatoires densit, 67
variables alatoires discrtes, 67
vecteur alatoire, 79
esprance conditionnelle, 82
Essen, Carl-Gustav, 119
estimateur
maximum de vraisemblance, 128
normalit asymptotique, 134
estimation paramtrique, 124
tat
absorbant, 170
apriodique, 183
atteignable, 170
priode, 183
priodique, 183
rcurrent, 177
Euler, Leonhard, 8
vnement, 15
asymptotique, 122
composite, 10
disjoints, 10
lmentaire, 10
incompatibles, 10
Fermat, Pierre de, 8
ltration, 144
fonction caractristique, 100
conjointe, 102
fonction de densit, 207
fonction de masse, 43
conditionnelle, 81
conjointe, 61
marginale, 61
fonction de renouvellement, 212
fonction de rpartition, 26, 42
absolument continue, 50
conjointe, 59
marginale, 60
fonction tage, 86
fonction gamma, 55
fonction gnratrice, 92
fonction gnratrice conjointe, 99
fonction gnratrice des moments, 93
fonction harmonique, 176
fonction indicatrice, 45
formule de Bayes, 28
Fraenkel, Abraham Adolf Halevi, 25
Galile, 8
Gauss, Johann Carl Friedrich, 8
Gosset, William Sealy, 57
grande dviation, 117
graphe alatoire, 19
Hardy, Godfrey Harold, 228
Huygens, Christiaan, 8
hypothse
alternative, 135
236
INDEX
composite, 136
nulle, 135
simple, 136
indpendance
v. deux--deux indp., 33
v. indp. par paires, 33
vnements indpendants, 33
indpendance conditionnelle, 34
variables alatoires, 58
ingalit de Cauchy-Schwarz, 77
ingalit de Jensen, 73
information propre, 217
intervalle de conance, 130
asymptotique, 132
asymptotique par excs, 132
par excs, 131
Ising, Ernst, 192
Kac, Mark, 229
Kepler, Johannes, 8
Ko, Chao, 227
Kolmogorov, Andre Nikolaevich, 8
Laplace, Pierre-Simon, 8
Lebesgue, Henri Lon, 8
Lebesgue-intgrabilit, 87
Lvy, Paul Pierre, 104
loi, 40

2
, 55
beta, 55
binomiale, 45
binomiale ngative, 48
de Bernoulli, 45
de Cauchy, 55
de Pascal, 48
de Poisson, 46
de Student, 57
de Weibull, 57
gamma, 54
gaussienne, 54
gomtrique, 47
hypergomtrique, 47
multinomiale, 140
normale, 54
normale standard, 54
t, 57
uniforme, 52
Loi 0-1 de Kolmogorov, 122
loi conjointe, 59
loi de la probabilit totale, 28
loi des petits nombres, 46
loi faible des grands nombres, 113, 115
loi forte des grands nombres, 117
lois ni-dimensionnelle, 107
lois ni-dimensionnelles, 143
marche alatoire, 144, 159
simple, 144
symtrique, 144
trajectoire, 145
Markov, Andrei Andreevitch Markov, 110
matrice de covariance, 79
matrice de transition, 168
matrice fondamentale, 174
matrice stochastique, 168
Mertens, Franz, 228
mesure, 85
de Lebesgue, 85
masse de Dirac, 85
mesure de probabilit, 15
modle boolen, 211
de Moivre, Abraham, 8
moment, 74
mot de code, 216
mouvement brownien, 165
moyenne empirique, 113
Neyman, Jerzy, 137
paradoxe de Simpson, 32
partition, 28
Pascal, Blaise, 8
Pearson, Egon Sharpe, 137
Peierls, Rudolf Ernst, 192
percolation, 189
Perrin, Jean Baptiste, 159
perte de mmoire, 47
237
INDEX
Poisson, Simon Denis, 46
Plya, George, 162
presque partout, 85
principe dinvariance, 164
principe de rexion, 149
probabilit conditionnelle, 27
probabilits de transition, 168
processus de branchement, 95
processus de comptage, 195
processus de Poisson, 196
amincissement, 206
fonction de valeur moyenne, 207
intensit, 196
non homogne, 207
processus de Poisson compos, 209
spatial, 210
superposition, 205
processus de renouvellement, 196
processus de Wiener, 165
proprit de Markov, 167
puissance, 136
Rado, Richard, 227
Rmnujan, Srinivsa Aiyangr, 228
ralisation, 9, 123
rcurrence, 159
nulle, 159
positive, 159
rgion de rejet, 135
Rnyi, Alfrd, 19
Riemann, Georg Friedrich Bernhard, 49
risque, 135
risque quadratique, 129
seuil, 135
statistique, 124
statistiques dordre, 204
Stirling, James, 23
symbole de Pochhammer, 19
Tchebychev, Pafnouti Lvovitch, 110
temps de rcurrence, 178
test, 135
dadquation, 140
dajustement, 140
de Neyman-Pearson, 137
non paramtrique, 140
paramtrique, 140
thorme central limite, 119
tirage
tirage avec remise, 19
tirage sans remise, 19
transience, 159
tribu
asymptotique, 122
borlienne, 26
engendre par des v.a., 121
produit, 35
triviale, 122
Turn, Pl, 228
univers, 8, 15
Varadhan, S. R. S., 117
variable alatoire, 40, 43
densit, 49
asymptotique, 122
dfective, 41
i.i.d., 58
v.a. non-corrles, 76
variance, 74
vecteur alatoire, 59
densit, 62
discret, 61
gaussien, 65
vraisemblance, 127
Weibull, Ernst Hjalmar Waloddi, 57
Wiener, Norbert, 165
Zermelo, Ernst Friedrich Ferdinand, 25
238