FIMFA

Int´egration, Probabilit´es
et Processus Al´eatoires
Jean-Fran¸ cois Le Gall
Septembre 2006
D´epartement Math´ematiques et Applications
Ecole normale sup´erieure de Paris
2
Sommaire
I Int´egration 7
1 Espaces mesur´es 9
1.1 Ensembles mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Classe monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Int´egration par rapport `a une mesure 17
2.1 Int´egration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonctions int´egrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Int´egrales d´ependant d’un param`etre . . . . . . . . . . . . . . . . . . . . . . 26
3 Construction de mesures 29
3.1 Mesures ext´erieures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Liens avec l’int´egrale de Riemann . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Un exemple d’ensemble non mesurable . . . . . . . . . . . . . . . . . . . . . 39
3.5 Int´egrale de Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Le th´eor`eme de repr´esentation de Riesz . . . . . . . . . . . . . . . . . . . . . 41
4 Espaces L
p
43
4.1 D´efinition et in´egalit´e de H¨older . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 L’espace de Banach L
p
(E, /, µ) . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Th´eor`emes de densit´e dans les espaces L
p
. . . . . . . . . . . . . . . . . . . . 49
4.4 Le th´eor`eme de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Mesures produits 57
5.1 G´en´eralit´es sur les espaces produits . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Construction de la mesure-produit . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Le th´eor`eme de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Int´egration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4.3 Calcul du volume de la boule unit´e . . . . . . . . . . . . . . . . . . . 67
3
6 Mesures sign´ees 69
6.1 D´efinition et variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 La d´ecomposition de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 La dualit´e L
p
−L
q
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4 Le th´eor`eme de repr´esentation de Riesz . . . . . . . . . . . . . . . . . . . . . 79
7 Formule de changement de variables
et compl´ements 81
7.1 La formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 81
7.2 Mesure de Lebesgue sur la sph`ere unit´e . . . . . . . . . . . . . . . . . . . . . 85
II Probabilit´es 89
8 Fondements de la th´eorie des probabilit´es 91
8.1 D´efinitions g´en´erales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.1 Espaces de probabilit´e . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.2 Variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1.3 Esp´erance math´ematique . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . 96
8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.1.6 Fonction de r´epartition d’une variable al´eatoire r´eelle . . . . . . . . . 99
8.1.7 Tribu engendr´ee par une variable al´eatoire . . . . . . . . . . . . . . . 100
8.2 Moments de variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2.1 Moments d’ordre p et variance . . . . . . . . . . . . . . . . . . . . . . 101
8.2.2 La r´egression lin´eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2.3 Fonctions caract´eristiques . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2.4 Fonction g´en´eratrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9 Ind´ependance 109
9.1 Ev´enements ind´ependants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Variables al´eatoires et tribus ind´ependantes . . . . . . . . . . . . . . . . . . 111
9.3 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.4 Sommes de variables al´eatoires ind´ependantes. . . . . . . . . . . . . . . . . . 119
10 Convergence de variables al´eatoires 125
10.1 Les diff´erentes notions de convergence . . . . . . . . . . . . . . . . . . . . . . 125
10.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.3 La convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.4 Deux applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.4.1 La convergence des mesures empiriques . . . . . . . . . . . . . . . . . 137
10.4.2 Le th´eor`eme central limite . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.3 Extension au cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . 140
4
11 Conditionnement 143
11.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.2 La d´efinition de l’esp´erance conditionnelle . . . . . . . . . . . . . . . . . . . 145
11.2.1 Cas des variables int´egrables . . . . . . . . . . . . . . . . . . . . . . . 145
11.2.2 Cas des variables positives . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Le cas particulier des variables de carr´e int´egrable . . . . . . . . . . . 150
11.3 Propri´et´es sp´ecifiques de l’esp´erance conditionnelle . . . . . . . . . . . . . . . 150
11.4 Calculs d’esp´erance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.2 Cas des variables `a densit´e . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.3 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . 154
11.5 Probabilit´es de transition et lois conditionnelles . . . . . . . . . . . . . . . . 157
III Processus al´eatoires 161
12 Th´eorie des martingales
`a temps discret 163
12.1 D´efinitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Temps d’arrˆet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.3 Convergence presque sˆ ure des martingales . . . . . . . . . . . . . . . . . . . 169
12.4 La convergence dans L
p
pour p > 1 . . . . . . . . . . . . . . . . . . . . . . . 176
12.5 Uniforme int´egrabilit´e et martingales . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Martingales r´etrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
13 Chaˆınes de Markov 191
13.1 D´efinition et premi`eres propri´et´es . . . . . . . . . . . . . . . . . . . . . . . . 191
13.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
13.2.1 Variables al´eatoires ind´ependantes . . . . . . . . . . . . . . . . . . . . 193
13.2.2 Marches al´eatoires sur Z
d
. . . . . . . . . . . . . . . . . . . . . . . . 194
13.2.3 Marche al´eatoire simple sur un graphe . . . . . . . . . . . . . . . . . 194
13.2.4 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . 194
13.3 La chaˆıne de Markov canonique . . . . . . . . . . . . . . . . . . . . . . . . . 195
13.4 La classification des ´etats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.5 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
13.6 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.7 Martingales et chaˆınes de Markov . . . . . . . . . . . . . . . . . . . . . . . . 215
14 Introduction au mouvement brownien 219
14.1 Le mouvement brownien comme limite de marches al´eatoires . . . . . . . . . 219
14.2 La construction du mouvement brownien . . . . . . . . . . . . . . . . . . . . 222
14.3 La mesure de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.4 Premi`eres propri´et´es du mouvement brownien . . . . . . . . . . . . . . . . . 227
14.5 La propri´et´e de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
14.6 Fonctions harmoniques et probl`eme de Dirichlet . . . . . . . . . . . . . . . . 233
5
14.7 Fonctions harmoniques et mouvement brownien . . . . . . . . . . . . . . . . 241
6
Partie I
Int´egration
7
Chapitre 1
Espaces mesur´es
L’id´ee de d´epart de la th´eorie de la mesure est d’assigner un nombre r´eel positif (la mesure
de ce sous-ensemble) `a chaque sous-ensemble d’un ensemble donn´e, de mani`ere `a satisfaire
certaines propri´et´es naturelles d’additivit´e (la mesure d’une r´eunion disjointe doit ˆetre la
somme des mesures). Pour des raisons profondes, il n’est pas possible en g´en´eral de d´efinir
la mesure de n’importe quel sous-ensemble, et on doit se restreindre `a une certaine classe
(tribu) de sous-ensembles, appel´es les sous-ensembles mesurables : un ensemble muni d’une
tribu est appel´e espace mesurable. Ce chapitre introduit les notions fondamentales de tribu
(= famille des ensembles mesurables), de mesure sur un espace mesurable, et de fonctions
mesurables, qui sont les fonctions dont on saura plus tard d´efinir l’int´egrale. Le dernier
paragraphe ´enonce une forme du lemme de classe monotone, qui joue un rˆole tr`es important
`a la fois en th´eorie de la mesure et en th´eorie des probabilit´es.
1.1 Ensembles mesurables
D´efinition 1.1.1 Soit E un ensemble quelconque. Une tribu (ou σ-alg`ebre) sur E est une
famille / de parties de E telle que:
(i) E ∈ / ;
(ii) A ∈ / ⇒ A
c
∈ / ;
(iii) Si A
n
∈ / pour tout n ∈ N, on a aussi
¸
n∈N
A
n
∈ /.
Les ´el´ements de / sont appel´es parties mesurables, ou parfois /-mesurables s’il y a ambiguˆıt´e.
On dit que (E, /) est un espace mesurable.
Enon¸ cons quelques cons´equences de la d´efinition :
(1) ∅ ∈ /
(2) Si A
n
∈ / pour tout n ∈ N, on a aussi
¸
n∈N
A
n
∈ /.
9
(3) Puisqu’on peut toujours prendre A
n
= ∅ pour n assez grand, la propri´et´e (iii) entraˆıne
que / est stable par r´eunions finies (et de mˆeme par intersection finies).
Exemples.
• / = {(E) ;
• / = ¦∅, E¦ est la tribu triviale ;
• l’ensemble des parties de E qui sont (au plus) d´enombrables ou dont le compl´ementaire
est (au plus) d´enombrable forme une tribu sur E.
Pour donner des exemples plus int´eressants, on remarque qu’une intersection quelconque
de tribus est encore une tribu. Ceci conduit `a la d´efinition suivante.
D´efinition 1.1.2 Soit ( un sous-ensemble de {(E). Il existe alors une plus petite tribu sur
E qui contienne (. Cette tribu not´ee σ(() peut ˆetre d´efinie par
σ(() =
¸
A tribu,C⊂A
/.
σ(() est appel´ee la tribu engendr´ee par (.
Tribu bor´elienne. Pour donner un premier exemple de l’int´erˆet de la notion de tribu
engendr´ee, consid´erons le cas o` u E est un espace topologique.
D´efinition 1.1.3 Supposons que E est un espace topologique, et soit O la classe des ouverts
de E. La tribu σ(O) est appel´ee tribu bor´elienne et not´ee B(E).
La tribu bor´elienne est donc la plus petite tribu qui contienne tous les ouverts de E. Les
´el´ements de B(E) sont appel´es bor´eliens de E.
Dans la suite, `a chaque fois que l’on consid´erera un espace topologique, par exemple R
ou R
d
, on supposera sauf indication du contraire qu’il est muni de sa tribu bor´elienne.
Exercice. V´erifier que la tribu B(R) est aussi engendr´ee par les intervalles ]a, b[, a, b ∈ R,
a < b, ou par les intervalles ] − ∞, a[, a ∈ R, ou encore les intervalles ] − ∞, a[, a ∈ Q (on
peut aussi remplacer intervalles ouverts par intervalles ferm´es).
Tribu-produit. Un deuxi`eme exemple important de la notion de tribu engendr´ee est la
tribu-produit.
D´efinition 1.1.4 Soient (E
1
, /
1
) et (E
2
, /
2
) deux espaces mesurables. La tribu-produit est
la tribu sur E
1
E
2
d´efinie par
/
1
⊗/
2
= σ(A
1
A
2
; A
1
∈ /
1
, A
2
∈ /
2
¦.
Exercice. V´erifier que
B(R
2
) = B(R) ⊗B(R).
10
1.2 Mesures positives
Soit (E, /) un espace mesurable.
D´efinition 1.2.1 Une mesure positive sur (E, /) est une application µ : / −→ [0, ∞] qui
v´erifie les propri´et´es suivantes:
(i) µ(∅) = 0 ;
(ii) Pour toute famille (A
n
)
n∈N
de parties mesurables disjointes,
µ

¸
n∈N
A
n

=
¸
n∈N
µ(A
n
).
Remarquons qu’il est important d’autoriser la valeur +∞. La propri´et´e (ii) est appel´ee
σ-additivit´e. Elle contient ´evidemment le cas particulier o` u les A
n
sont vides `a partir d’un
certain rang, ce qui donne la propri´et´e d’additivit´e finie.
Propri´et´es.
(1) Si A ⊂ B, µ(A) ≤ µ(B) et si de plus µ(A) < ∞,
µ(B`A) = µ(B) −µ(A) ;
(2) Si A, B ∈ /,
µ(A) + µ(B) = µ(A∪ B) + µ(A∩ B) ;
(3) Si A
n
∈ / et A
n
⊂ A
n+1
,
µ(
¸
n∈N
A
n
) = lim
n→∞
↑ µ(A
n
) ;
(4) Si B
n
∈ / et B
n+1
⊂ B
n
, et si µ(B
0
) < ∞,
µ(
¸
n∈N
B
n
) = lim
n→∞
↓ µ(B
n
) ;
(5) Si A
n
∈ /,
µ(
¸
n∈N
A
n
) ≤
¸
n∈N
µ(A
n
).
D´emontrons seulement (3),(4) et (5). Pour (3), on pose C
0
= A
0
et pour tout n ≥ 1,
C
n
= A
n
`A
n−1
de sorte que ∪A
n
= ∪C
n
. Puisque les C
n
sont disjoints,
µ(
¸
n∈N
A
n
) = µ(
¸
n∈N
C
n
) =
¸
n∈N
µ(C
n
) = lim
N→∞

N
¸
n=0
µ(C
n
) = lim
N→∞
↑ µ(A
N
).
11
Pour (4), on pose A
n
= B
0
`B
n
pour tout n, de sorte que la suite (A
n
) est croissante.
Alors
µ(B
0
) −µ(
¸
n∈N
B
n
) = µ(B
0
`
¸
n∈N
B
n
) = µ(
¸
n∈N
A
n
) = lim
n→∞
↑ µ(A
n
) = lim
n→∞
↑ (µ(B
0
) −µ(B
n
)).
La condition µ(B
0
) < ∞ est utilis´ee notamment pour ´ecrire µ(A
n
) = µ(B
0
) −µ(B
n
).
Enfin, pour (5), on pose C
0
= A
0
puis pour tout n ≥ 1,
C
n
= A
n
`
n−1
¸
k=0
A
k
.
Les ensembles C
n
sont disjoints et donc
µ(
¸
n∈N
A
n
) = µ(
¸
n∈N
C
n
) =
¸
n∈N
µ(C
n
) ≤
¸
n∈N
µ(A
n
).
Exemples.
(1) Si E = N, et / = {(N), la mesure de comptage est d´efinie par
µ(A) = Card(A).
(On peut d´efinir plus g´en´eralement la mesure de comptage sur (E, {(E)) lorsque E est
quelconque.) Cet exemple permet de voir que la condition µ(B
0
) < ∞ est n´ecessaire dans
la propri´et´e (4) ci-dessus : en prenant
B
n
= ¦n, n + 1, n + 2, . . .¦
on a µ(B
n
) = ∞ alors que ∩B
n
= ∅ et donc µ(∩B
n
) = 0.
(2) Soit (E, /) quelconque et soit x ∈ E. La mesure δ
x
d´efinie par
δ
x
(A) = 1
A
(x) =

1 si x ∈ A
0 si x / ∈ A
est appel´ee mesure de Dirac au point x. Plus g´en´eralement, si x
n
, n ∈ N sont des points de
E et α
n
∈ [0, ∞] on peut consid´erer la mesure
¸
α
n
δ
xn
d´efinie par
(
¸
α
n
δ
xn
)(A) =
¸
α
n
δ
xn
(A) =
¸
α
n
1
A
(x
n
).
(3) Mesure de Lebesgue. Il existe une unique mesure positive sur (R, B(R)), not´ee λ, telle
que pour tout intervalle ouvert ]a, b[ de R on ait λ(]a, b[) = b −a. L’existence et l’unicit´e de
cette mesure seront ´etablies plus loin.
D´efinitions.
• µ est dite finie si µ(E) < ∞ (la quantit´e µ(E) est la masse totale de µ).
• µ est une mesure de probabilit´e si µ(E) = 1.
• µ est dite σ-finie s’il existe une suite croissante de parties mesurables E
n
telles que
E =
¸
n∈N
E
n
et µ(E
n
) < ∞ pour tout n.
• x ∈ E est un atome de µ si µ(¦x¦) > 0 (on suppose que ¦x¦ ∈ /).
• La mesure µ est dite diffuse si elle n’a pas d’atomes.
12
1.3 Fonctions mesurables
D´efinition 1.3.1 Soient (E, /) et (F, B) deux espaces mesurables. Une application f :
E −→ F est dite mesurable si
∀B ∈ B , f
−1
(B) ∈ /.
Lorsque E et F sont des espaces topologiques munis de leurs tribus bor´eliennes, on dit aussi
que f est bor´elienne.
Proposition 1.3.1 La composition de deux applications mesurables est encore mesurable.
C’est imm´ediat en ´ecrivant (g ◦ f)
−1
(C) = f
−1
(g
−1
(C)).
Proposition 1.3.2 Pour que f soit mesurable, il suffit qu’il existe une sous-classe ( de B
telle que σ(() = B et telle que la propri´et´e f
−1
(B) ∈ / soit vraie pour tout B ∈ (.
Preuve. Soit
( = ¦B ∈ B : f
−1
(B) ∈ /¦.
Alors il est facile de v´erifier que ( est une tribu. Par hypoth`ese ( ⊂ (. Il en d´ecoule que (
contient σ(() = B, d’o` u le r´esultat recherch´e.
Exemples. (1) Dans le cas o` u (F, B) = (R, B(R)), il suffit pour montrer que f est mesurable
d’´etablir que les ensembles f
−1
(]a, b[), ou mˆeme les f
−1
(] −∞, a[) sont mesurables.
(2) Dans le cas o` u E et F sont des espaces topologiques munis de leurs tribus bor´eliennes,
toute application continue est aussi mesurable (prendre pour ( la classe des ouverts de F).
Op´erations sur les fonctions mesurables.
Lemme 1.3.3 Soient f
1
: (E, /) −→ (F
1
, B
1
) et f
2
: (E, /) −→ (F
2
, B
2
) deux applications
mesurables. Alors l’application produit f : (E, /) −→ (F
1
F
2
, B
1
⊗B
2
) d´efinie par f(x) =
(f
1
(x), f
2
(x)) est aussi mesurable.
Preuve. On applique la derni`ere proposition en prenant
( = ¦B
1
B
2
; B
1
∈ B
1
, B
2
∈ B
2
¦.
Puisque f
−1
(B
1
B
2
) = f
−1
1
(B
1
) ∩ f
−1
2
(B
2
) ∈ / on obtient imm´ediatement le r´esultat.
Remarque. La r´eciproque de la proposition (si f est mesurable, f
1
et f
2
le sont aussi) est
vraie et aussi facile.
Corollaire 1.3.4 Si f, g : (E, /) −→ (R, B(R)) sont mesurables, alors les fonctions f + g,
fg, inf(f, g), f
+
= sup(f, 0), f

= sup(−f, 0) sont mesurables.
13
La d´emonstration est facile : par exemple f + g est la compos´ee des deux applications
x −→ (f(x), g(x)) et (a, b) −→ a + b qui sont mesurables, la seconde parce que continue.
Rappelons que si (a
n
) est une suite d’´el´ements de
¯
R = R ∪ ¦−∞, +∞¦, on d´efinit
limsup a
n
= lim
n→∞

sup
k≥n
a
k

, liminf a
n
= lim
n→∞

inf
k≥n
a
k

,
les limites existant dans
¯
R. Alors, limsup a
n
et liminf a
n
sont respectivement la plus grande
et la plus petite valeur d’adh´erence de la suite (a
n
).
Proposition 1.3.5 Si f
n
est une suite de fonctions mesurables de E dans
¯
R, alors
sup
n
f
n
, inf
n
f
n
, limsup f
n
, liminf f
n
sont aussi mesurables. En particulier si la suite f
n
converge simplement, sa limite limf
n
est
mesurable. En g´en´eral, l’ensemble ¦x ∈ E : limf
n
(x) existe¦ est mesurable.
Preuve. Soit f(x) = inf f
n
(x). Il suffit de montrer que pour tout a ∈ R, f
−1
([−∞, a[) ∈ /.
Or
f
−1
([−∞, a[) = ¦x : inf f
n
(x) < a¦ =
¸
n
¦x : f
n
(x) < a¦
d’o` u le r´esultat. On traite de mˆeme le cas de sup f
n
.
Il en d´ecoule que
liminf f
n
= sup
n≥0

inf
k≥n
f
k

est mesurable.
Pour la derni`ere assertion, on ´ecrit
¦x ∈ E : limf
n
(x) existe¦ = ¦x ∈ E : liminf f
n
(x) = limsup f
n
(x)¦ = G
−1
(∆)
si Gest l’application mesurable G(x) = (liminf f
n
(x), limsup f
n
(x)) et ∆ d´esigne la diagonale
de
¯
R
2
, qui est mesurable parce que ferm´ee.
Notion de mesure-image.
D´efinition 1.3.2 Soit f : (E, /) −→ (F, B) une application mesurable, et soit µ une mesure
positive sur (E, /). La mesure-image de µ par f, not´ee f(µ) est la mesure positive sur (F, B)
d´efinie par
f(µ)(B) = µ(f
−1
(B)).
Il est facile de voir que la derni`ere formule d´efinit bien une mesure sur (F, B). Les mesures
µ et f(µ) ont mˆeme masse totale, mais il peut arriver que µ soit σ-finie sans que f(µ) le soit.
14
1.4 Classe monotone
D´efinition 1.4.1 Un sous-ensemble ´ de {(E) est appel´e classe monotone si
(i) E ∈ ´ ;
(ii) Si A, B ∈ ´ et A ⊂ B, alors B`A ∈ ´ ;
(iii) Si A
n
∈ ´ et A
n
⊂ A
n+1
, alors
¸
n
A
n
∈ ´.
Toute tribu est aussi une classe monotone. Comme dans le cas des tribus, on voit
imm´ediatement que toute intersection de classes monotones est encore une classe monotone.
Si ( est une partie quelconque de {(E), on peut donc d´efinir la classe monotone engendr´ee
par (, not´ee ´((), en posant
´(() =
¸
M classe monotone, C⊂M
´.
Th´eor`eme 1.4.1 (Lemme de classe monotone) Si ( ⊂ {(E) est stable par intersec-
tions finies, alors ´(() = σ(().
Preuve. Puisque toute tribu est une classe monotone, il est clair qu’on a ´(() ⊂ σ(().
Pour ´etablir l’inclusion inverse, il suffit de montrer que ´(() est une tribu. Or une classe
monotone est une tribu si et seulement si elle est stable par intersections finies (en effet,
par passage au compl´ementaire, elle sera alors stable par r´eunion finies, puis par passage
`a la limite croissant par r´eunion d´enombrable). Montrons donc que ´(() est stable par
intersections finies.
Soit A ∈ ( fix´e. Posons
´
1
= ¦B ∈ ´(() : A ∩ B ∈ ´(()¦.
Puisque ( est stable par intersections finies, il est clair que ( ⊂ ´
1
. V´erifions ensuite que
´
1
est une classe monotone:
• E ∈ ´
1
est imm´ediat.
• Si B, B

∈ ´
1
et B ⊂ B

, on a A ∩ (B

`B) = (A ∩ B

)`(A ∩ B) ∈ ´(() et donc
B

`B ∈ ´
1
.
• Si B
n
∈ ´
1
pour tout n et la suite B
n
croˆıt, on a A ∩ (∪B
n
) = ∪(A ∩ B
n
) ∈ ´(() et
donc ∪B
n
∈ ´
1
.
Puisque ´
1
est une classe monotone qui contient (, ´
1
contient aussi ´((). On a donc
montr´e
∀A ∈ (, ∀B ∈ ´((), A∩ B ∈ ´(().
15
Ce n’est pas encore le r´esultat recherch´e, mais on peut appliquer la mˆeme id´ee une seconde
fois. Pr´ecis´ement, on fixe maintenant B ∈ ´((), et on pose
´
2
= ¦A ∈ ´(() : A ∩ B ∈ ´(()¦.
D’apr`es la premi`ere ´etape de la preuve, ( ⊂ ´
2
. En reprenant exactement les mˆemes
arguments que dans la premi`ere ´etape, on montre que ´
2
est une classe monotone. Il en
d´ecoule que ´(() ⊂ ´
2
, ce qui montre bien que ´(() est stable par intersections finies et
termine la preuve.
Corollaire 1.4.2 Soient µ et ν deux mesures sur (E, /). Supposons qu’il existe une classe
( ⊂ / stable par intersections finies, telle que σ(() = / et µ(A) = ν(A) pour tout A ∈ (.
(1) Si µ(E) = ν(E) < ∞, on a µ = ν.
(2) S’il existe une suite croissante de parties E
n
∈ ( telles que E = ∪E
n
et µ(E
n
) =
ν(E
n
) < ∞, on a µ = ν.
Preuve. (1) Soit ( = ¦A ∈ / : µ(A) = ν(A)¦. Par hypoth`ese, ( ⊂ (. Par ailleurs, on
v´erifie ais´ement que ( est une classe monotone : par exemple, si A, B ∈ ( et A ⊂ B, on a
µ(B`A) = µ(B) −µ(A) = ν(B) −ν(A) = ν(B`A), et donc B`A ∈ E (noter qu’on utilise ici
le fait que µ et ν sont finies).
On conclut que ( contient ´(() = σ(() = / (la premi`ere ´egalit´e d’apr`es le th´eor`eme
de classe monotone, la seconde par hypoth`ese). Donc ( = /, c’est-`a-dire µ = ν.
(2) Notons, pour tout n, µ
n
la restriction de µ `a E
n
et ν
n
la restriction de ν `a E
n
:
∀A ∈ / , µ
n
(A) = µ(A∩ E
n
), ν
n
(A) = ν(A ∩ E
n
).
On peut appliquer la partie (1) `a µ
n
et ν
n
, et on trouve µ
n
= ν
n
. Finalement, en utilisant
les propri´et´es de limite croissante des mesures, pour tout A ∈ /,
µ(A) = lim ↑ µ(A∩ E
n
) = lim ↑ ν(A ∩ E
n
) = ν(A).
Cons´equence. Unicit´e de la mesure de Lebesgue. Il existe au plus une mesure λ sur
(R, B(R)) telle que pour tout intervalle ouvert non vide ]a, b[, on ait λ(]a, b[) = b − a. En
effet, si λ

est une seconde mesure ayant la mˆeme propri´et´e, on peut appliquer `a λ et λ

la
partie (2) du corollaire pr´ec´edent, en prenant pour ( la classe des intervalles ouverts (dont
on sait qu’elle engendre la tribu bor´elienne) et E
n
=] −n, n[ pour tout n.
De la mˆeme fa¸ con, on d´eduit du corollaire pr´ec´edent qu’une mesure finie µ sur R est
caract´eris´ee par les valeurs de µ(] −∞, a]) pour tout a ∈ R.
16
Chapitre 2
Int´egration par rapport `a une mesure
Le premier objectif de ce chapitre est de construire l’int´egrale de fonctions mesurables. La
d´efinition est facile pour les fonctions dites ´etag´ees, qui ne prennent qu’un nombre fini de
valeurs. Ensuite l’int´egrale d’une fonction mesurable positive est d´efinie comme le supremum
des int´egrales des fonctions ´etag´ees qui la minorent. Pour les fonctions de signe quelconque,
on raisonne par lin´earit´e en se limitant aux fonctions dites int´egrables, dont la valeur absolue
est d’int´egrale finie. Une fois construite l’int´egrale, on ´etablit les trois grands th´eor`emes de
convergence de la th´eorie, `a savoir le th´eor`eme de convergence monotone, le lemme de Fatou
et le th´eor`eme de convergence domin´ee. Ces trois ´enonc´es visent `a donner des conditions
assurant que l’int´egrale de la limite d’une suite de fonctions est la limite des int´egrales de
ces fonctions. Le dernier paragraphe donne des applications importantes `a la continuit´e ou
la d´erivabilit´e d’int´egrales d´ependant d’un param`etre.
2.1 Int´egration de fonctions positives
On se donne un espace mesur´e, c’est-`a-dire un espace mesurable (E, /) muni d’une mesure
µ.
Fonctions ´etag´ees. Une fonction mesurable f `a valeurs dans R est dite ´etag´ee si elle ne
prend qu’un nombre fini de valeurs. Si α
1
, α
2
, . . . , α
n
sont les valeurs prises par f, qu’on
peut supposer rang´ees par ordre croissant α
1
< α
2
< < α
n
, on a alors
f(x) =
n
¸
i=1
α
i
1
A
i
(x)
o` u, pour chaque i ∈ ¦1, . . . , n¦, A
i
= f
−1
(¦α
i
¦) ∈ /. L’´ecriture pr´ec´edente sera appel´ee
l’´ecriture canonique de f.
D´efinition 2.1.1 Supposons f `a valeurs dans R
+
. L’int´egrale de f par rapport `a µ est alors
d´efinie par

f dµ =
n
¸
i=1
α
i
µ(A
i
)
avec la convention 0.∞ = 0 dans le cas o` u α
i
= 0 et µ(A
i
) = ∞.
17
On a a priori

fdµ ∈ [0, ∞].
Supposons qu’on ait une autre ´ecriture de f sous la forme
f =
m
¸
j=1
β
j
1
B
j
les ensembles mesurables B
j
formant toujours une partition de E mais les nombres β
j
n’´etant
plus n´ecessairement distincts. Alors il est facile de v´erifier qu’on a aussi

f dµ =
m
¸
j=1
β
j
µ(B
j
).
En effet, pour chaque i ∈ ¦1, . . . , n¦, A
i
doit ˆetre la r´eunion disjointe des ensembles B
j
pour
les indices j tels que β
j
= α
i
. Il suffit alors d’utiliser la propri´et´e d’additivit´e de la mesure
pour ´ecrire
µ(A
i
) =
¸
{j:β
j

i
}
µ(B
j
)
ce qui conduit au r´esultat annonc´e.
Propri´et´es. Soient f et g deux fonctions ´etag´ees positives.
(1) Pour tous a, b ≥ 0,

(af + bg)dµ = a

fdµ + b

gdµ.
(2) Si f ≤ g,

fdµ ≤

gdµ.
Preuve. (1) Soient
f =
n
¸
i=1
α
i
1
A
i
, g =
m
¸
k=1
α

k
1
A

k
les ´ecritures canoniques de f et g. En ´ecrivant chaque A
i
comme la r´eunion disjointe des
ensembles A
i
∩ A

k
, k ∈ ¦1, . . . , m¦, et de mˆeme pour chaque A

k
, on voit qu’on peut ´ecrire
f =
p
¸
j=1
β
j
1
B
j
, g =
p
¸
j=1
γ
j
1
B
j
avec les mˆemes ensembles mesurables disjoints B
j
(mais les nombres β
j
, resp. γ
j
, non
n´ecessairement distincts). D’apr`es la remarque suivant la d´efinition, on a

f dµ =
p
¸
j=1
β
j
µ(B
j
) ,

g dµ =
p
¸
j=1
γ
j
µ(B
j
).
et de mˆeme

(af + bg)dµ =
¸
p
j=1
(aβ
j
+ bγ
j
) µ(B
j
), d’o` u le r´esultat voulu.
18
(2) On applique (1) en ´ecrivant

gdµ =

fdµ +

(g −f)dµ ≥

f dµ.

Notons c
+
l’espace des fonctions ´etag´ees positives.
D´efinition 2.1.2 Soit f : E −→ [0, ∞] une fonction mesurable. On pose

f dµ = sup
h∈E
+
,h≤f

h dµ.
La propri´et´e (2) ci-dessus montre que cette d´efinition est coh´erente avec la pr´ec´edente
quand f est ´etag´ee.
On notera indiff´eremment

fdµ =

f(x)dµ(x) =

f(x)µ(dx)
et on trouve parfois la notation 'µ, f` ou mˆeme µ(f).
Propri´et´es.
(1) Si f ≤ g,

fdµ ≤

gdµ (´evident sur la d´efinition)
(2) Si µ(¦x ∈ E : f(x) > 0¦) = 0, alors

fdµ = 0. (en effet il suffit de le v´erifier lorsque
f est ´etag´ee, mais alors c’est ´evident sur la d´efinition)
Th´eor`eme 2.1.1 (Th´eor`eme de convergence monotone) Soit (f
n
) une suite croissante
de fonctions mesurables positives (`a valeurs dans [0, ∞]), et soit f = lim ↑ f
n
. Alors

fdµ = lim
n→∞

f
n
dµ.
Preuve. D’apr`es la propri´et´e (1) ci-dessus, on a

fdµ ≥ lim
n→∞

f
n

et il suffit donc d’´etablir l’autre in´egalit´e. Pour cela, choisissons une fonction ´etag´ee positive
h =
m
¸
i=1
α
i
1
A
i
avec h ≤ f. Soit a ∈ [0, 1[, et
E
n
= ¦x ∈ E : ah(x) ≤ f
n
(x)¦.
Alors E
n
est mesurable. De plus en utilisant le fait que f
n
croˆıt vers f, et la condition a < 1,
on voit que E est la r´eunion croissante des ensembles E
n
.
19
Ensuite on remarque qu’on a l’in´egalit´e f
n
≥ a1
En
h, d’o` u

f
n
dµ ≥

a1
En
h dµ = a
m
¸
i=1
α
i
µ(A
i
∩ E
n
).
Puisque E
n
↑ E on a A
i
∩E
n
↑ A
i
et µ(A
i
∩E
n
) ↑ µ(A
i
) quand n → ∞, d’apr`es les propri´et´es
´el´ementaires des mesures. En passant `a la limite croissante il vient
lim
n→∞

f
n
dµ ≥ a
m
¸
i=1
α
i
µ(A
i
) = a

hdµ.
En faisant tendre a vers 1, on trouve
lim
n→∞

f
n
dµ ≥

hdµ.
Comme

fdµ est d´efinie par le supremum des quantit´es de droite lorsque h d´ecrit l’ensemble
des fonctions ´etag´ees positives major´ees par f, on obtient bien l’in´egalit´e recherch´ee.
Dans toute la suite “fonction mesurable positive” signifie fonction mesurable `a valeurs
dans [0, ∞].
Proposition 2.1.2 (1) Soit f une fonction mesurable positive. Il existe une suite croissante
(f
n
) de fonctions ´etag´ees positives telle que f
n
↑ f.
(2) Si f et g sont mesurables positives et a, b ∈ R
+
,

(af + bg)dµ = a

fdµ + b

gdµ.
(3) Si (f
n
) est une suite quelconque de fonctions mesurables positives,

¸
n
f
n
dµ =
¸
n

f
n
dµ.
Preuve. (1) Pour tout n ≥ 1 et tout i ∈ ¦0, 1, . . . , n2
n
−1¦, posons
A
n
= ¦x ∈ E : f(x) ≥ n¦
B
n,i
= ¦x ∈ E : i2
−n
≤ f(x) < (i + 1)2
−n
¦.
Soit ensuite f
n
la fonction ´etag´ee
f
n
=
n2
n
−1
¸
i=0
i
2
n
1
B
n,i
+ n1
An
.
On v´erifie ais´ement que f
n
(x) ↑ f(x) pour tout x ∈ E.
20
(2) On construit deux suites de fonctions ´etag´ees positives (f
n
), (g
n
) avec f
n
↑ f, g
n
↑ g.
Alors on a aussi af
n
+ bg
n
↑ af + bg, et en utilisant le th´eor`eme de convergence monotone
et les propri´et´es de l’int´egrale des fonctions ´etag´ees,

(af +bg)dµ = lim ↑

(af
n
+bg
n
)dµ = lim ↑ (a

f
n
dµ+b

g
n
dµ) = a

fdµ+b

gdµ.
(3) Cette assertion d´ecoule de (2) (cas d’une somme finie) et du th´eor`eme de convergence
monotone.
Remarque. Consid´erons le cas particulier o` u E = N et µ est la mesure de comptage. Alors
il est facile de voir que

f dµ =
¸
k∈N
f(k)
et (3) redonne la propri´et´e bien connue ´enon¸ cant que pour toute suite double (a
n,k
) de r´eels
positifs,
¸
k∈N

¸
n∈N
a
n,k

=
¸
n∈N

¸
k∈N
a
n,k

.
Corollaire 2.1.3 Soit f mesurable positive, et pour tout A ∈ /, soit
ν(A) =

1
A
f dµ
(not.)
=

A
f dµ.
Alors ν est une mesure positive sur (E, /), appel´ee mesure de densit´e f par rapport `a µ, et
not´ee ν = f µ.
Preuve. Il est imm´ediat que ν(∅) = 0. Par ailleurs, si (A
n
) est une suite d’ensembles
mesurables disjoints,
ν

¸
n∈N
A
n

=

¸
n∈N
1
An
f dµ =
¸
n∈N

1
An
fdµ =
¸
n∈N
ν(A
n
)
en utilisant la propri´et´e (3) ci-dessus.
Remarque. On a µ(A) = 0 ⇒ ν(A) =

1
A
f dµ = 0.
On dit qu’une propri´et´e est vraie µ presque partout, ou µ p.p. ou mˆeme simplement
p.p. s’il n’y a pas ambigu¨ıt´e, si elle est vraie en dehors d’un ensemble de mesure nulle. Par
exemple si f et g sont deux fonctions mesurables, f = g p.p. signifie
µ(¦x ∈ E : f(x) = g(x)¦) = 0.
Proposition 2.1.4 Soit f une fonction mesurable positive.
(1) Pour tout a > 0,
µ(¦x ∈ E : f(x) ≥ a¦) ≤
1
a

fdµ.
21
(2) On a

fdµ < ∞ ⇒ f < ∞ p.p.
(3) On a

fdµ = 0 ⇔ f = 0 p.p.
(4) Si g est une autre fonction mesurable positive,
f = g p.p. ⇒

fdµ =

gdµ.
Preuve. (1) Posons A
a
= ¦x ∈ E : f(x) ≥ a¦. Alors f ≥ a1
Aa
et donc

fdµ ≥

a1
Aa
dµ = aµ(A
a
).
(2) Pour tout n ≥ 1, soit A
n
= ¦x ∈ E : f(x) ≥ n¦ et soit A

= ¦x ∈ E : f(x) = ∞¦.
Alors, en utilisant (1),
µ(A

) = µ

¸
n≥1
A
n

= lim
n→∞
↓ µ(A
n
) ≤ lim
n→∞
1
n

fdµ = 0.
(3) L’implication ⇐ a d´ej`a ´et´e vue. Pour ⇒, soit, pour tout n ≥ 1, B
n
= ¦x ∈ E :
f(x) ≥ n
−1
¦. Alors, d’apr`es (1),
µ(B
n
) ≤ n

fdµ = 0
et donc µ(B
n
) = 0 ce qui entraˆıne µ(¦x : f(x) > 0¦) = µ

¸
n≥1
B
n

= 0.
(4) Utilisons la notation f ∨ g = sup(f, g) et f ∧ g = inf(f, g). Alors f ∨ g = f ∧ g p.p.,
d’o` u

(f ∨ g)dµ =

(f ∧ g)dµ +

(f ∨ g −f ∧ g)dµ =

(f ∧ g)dµ,
puisque f ∨ g −f ∧ g = 0 p.p. Puisque f ∧ g ≤ f ≤ f ∨g, et de mˆeme pour g, il en d´ecoule
que

fdµ =

(f ∨ g)dµ =

gdµ.
Th´eor`eme 2.1.5 (Lemme de Fatou) Soit (f
n
) une suite quelconque de fonctions mesura-
bles positives. Alors,

(liminf f
n
)dµ ≤ liminf

f
n
dµ.
22
Preuve. On a
liminf f
n
= lim
k→∞

inf
n≥k
f
n

et donc d’apr`es le th´eor`eme de convergence monotone,

(liminf f
n
)dµ = lim
k→∞

inf
n≥k
f
n

dµ.
Par ailleurs, pour tout entier p ≥ k,
inf
n≥k
f
n
≤ f
p
ce qui entraˆıne

inf
n≥k
f
n

dµ ≤ inf
p≥k

f
p
dµ.
En passant `a la limite croissante quand k ↑ ∞, il vient
lim
k→∞

inf
n≥k
f
n

dµ ≤ lim
k→∞
↑ inf
p≥k

f
p
dµ = liminf

f
n
dµ,
ce qui termine la preuve.
2.2 Fonctions int´egrables
D´efinition 2.2.1 Soit f : E −→R une fonction mesurable. On dit que f est int´egrable par
rapport `a µ (ou µ-int´egrable) si

[f[ dµ < ∞.
Dans ce cas on pose

f dµ =

f
+
dµ −

f


o` u f
+
= sup(f, 0), resp. f

= sup(−f, 0) est la partie positive, resp. n´egative, de f. (Noter
que f
+
et f

sont mesurables et que f = f
+
−f

et [f[ = f
+
+ f

.)
Remarque. On a

f
+
dµ ≤

[f[dµ < ∞ et de mˆeme

f

dµ < ∞, ce qui montre que la
d´efinition de

fdµ a bien un sens. Dans le cas o` u f est positive, cette d´efinition co¨ıncide
bien sˆ ur avec la pr´ec´edente.
On note L
1
(E, /, µ) l’espace des fonctions µ-int´egrables. On utilisera parfois la notation
L
1
+
(E, /, µ) pour les fonctions µ-int´egrables `a valeurs positives.
Propri´et´es.
(a) [

fdµ[ ≤

[f[dµ pour f ∈ L
1
(E, /, µ).
(b) L
1
(E, /, µ) est un espace vectoriel et l’application f →

fdµ est une forme lin´eaire
sur cet espace vectoriel.
(c) Si f, g ∈ L
1
(E, /, µ) et f ≤ g, alors

fdµ ≤

gdµ.
23
(d) Si f, g ∈ L
1
(E, /, µ) et f = g µ p.p., alors

fdµ =

gdµ.
Preuve. (a) On ´ecrit
[

fdµ[ = [

f
+
dµ −

f

dµ[ ≤ [

f
+
dµ[ +[

f

dµ[ =

[f[dµ.
(b) Soit f ∈ L
1
(E, /, µ). Pour a ∈ R,

[af[dµ = [a[

[f[dµ < ∞.
Si a ≥ 0,

(af)dµ =

(af)
+
dµ −

(af)

dµ = a

fdµ
et si a < 0,

(af)dµ =

(af)
+
dµ −

(af)

dµ = (−a)

f

dµ + a

f
+
dµ = a

fdµ.
De plus, si f, g ∈ L
1
(E, /, µ), l’in´egalit´e [f + g[ ≤ [f[ + [g[ entraˆıne que f + g ∈ L
1
. En
outre,
(f + g)
+
−(f + g)

= f + g = f
+
−f

+ g
+
−g

entraˆıne
(f + g)
+
+ f

+ g

= (f + g)

+ f
+
+ g
+
.
En utilisant l’additivit´e de l’int´egrale pour les fonctions positives,

(f + g)
+
dµ +

f

dµ +

g

dµ =

(f + g)

dµ +

f
+
dµ +

g
+
dµ,
d’o` u, puisque toutes les int´egrales sont finies,

(f + g)
+
dµ −

(f + g)

dµ =

f
+
dµ −

f

dµ +

g
+
dµ −

g

dµ,
ce qui donne bien

(f + g)dµ =

fdµ +

gdµ.
(c) Il suffit d’´ecrire

gdµ =

fdµ +

(g −f)dµ.
(d) L’´egalit´e f = g p.p. entraˆıne f
+
= g
+
et f

= g

p.p. Il suffit alors d’utiliser les
r´esultats vus dans le cas des fonctions positives.
Remarque. On combine facilement (c) et (d) pour obtenir que, si f, g ∈ L
1
(E, /, µ) et
f ≤ g p.p., alors

fdµ ≤

gdµ.
Extension au cas complexe. Soit f : E −→ C une fonction mesurable (cela ´equivaut `a
dire que Re(f) et Im(f) sont toutes deux mesurables). On dit que f est int´egrable et on
note f ∈ L
1
C
(E, /, µ) si

[f[dµ < ∞.
24
On pose alors

f dµ =

Re(f)dµ + i

Im(f)dµ.
Les propri´et´es (a),(b) et (d) ci-dessus restent vraies si L
1
(E, /, µ) est remplac´e par L
1
C
(E, /, µ)
(pour montrer (a), remarquer que
[

f dµ[ = sup
a∈C,|a|=1
a

fdµ
o` u a z d´esigne le produit scalaire dans C identifi´e `a R
2
).
Th´eor`eme 2.2.1 (Th´eor`eme de convergence domin´ee) Soit (f
n
) une suite de fonc-
tions dans L
1
(E, /, µ) (resp. dans L
1
C
(E, /, µ)). On suppose:
(1) Il existe une fonction f mesurable `a valeurs dans R (resp. dans C) telle que
f
n
(x) −→ f(x) µ p.p.
(2) Il existe une fonction g : E −→R
+
mesurable telle que

gdµ < ∞ et pour tout n,
[f
n
[ ≤ g µ p.p.
Alors f ∈ L
1
(E, /, µ) (resp. f ∈ L
1
C
(E, /, µ)), et on a
lim
n→∞

f
n
dµ =

fdµ
et
lim
n→∞

[f
n
−f[dµ = 0.
Preuve. On suppose d’abord que les hypoth`eses suivantes plus fortes sont v´erifi´ees:
(1)’ Pour tout x ∈ E,
f
n
(x) −→ f(x)
(2)’ Il existe une fonction g : E −→ R
+
mesurable telle que

gdµ < ∞ et pour tout n
et tout x ∈ E
[f
n
(x)[ ≤ g(x).
La propri´et´e f ∈ L
1
est alors claire puisque [f[ ≤ g et

gdµ < ∞. Ensuite, puisque
[f −f
n
[ ≤ 2g et [f −f
n
[ −→ 0, on peut appliquer le lemme de Fatou pour trouver
liminf

(2g −[f −f
n
[) dµ ≥

liminf(2g −[f −f
n
[) dµ = 2

gdµ.
Par lin´earit´e de l’int´egrale, il vient
2

gdµ −limsup

[f −f
n
[dµ ≥ 2

gdµ,
25
d’o` u
limsup

[f −f
n
[dµ = 0,
et donc

[f −f
n
[dµ −→ 0. Finalement il suffit d’´ecrire

fdµ −

f
n

[f −f
n
[dµ.
Dans le cas g´en´eral o` u on suppose seulement (1) et (2), on pose
A = ¦x ∈ E : f
n
(x) −→ f(x) et pour tout n, [f
n
(x)[ ≤ g(x)¦.
Alors µ(A
c
) = 0, et on peut appliquer la premi`ere partie de la preuve aux fonctions
˜
f
n
(x) = 1
A
(x)f
n
(x) ,
˜
f(x) = 1
A
(x)f(x).
On a f =
˜
f p.p., f
n
=
˜
f
n
p.p. et donc

f
n
dµ =

˜
f
n
dµ,

fdµ =

˜
fdµ et

[f
n
− f[dµ =

[
˜
f
n

˜
f[dµ. Les r´esultats recherch´es d´ecoulent du cas o` u (1)’ et (2)’ sont v´erifi´es.
2.3 Int´egrales d´ependant d’un param`etre
On se donne un espace m´etrique (U, d) qui correspond `a l’espace des param`etres. Soit une
application f : U E −→R (ou C).
Th´eor`eme 2.3.1 Soit u
0
∈ E. Supposons
(i) pour tout u ∈ U, l’application x −→ f(u, x) est mesurable;
(ii) µ(dx) p.p. l’application u −→ f(u, x) est continue en u
0
;
(iii) il existe une fonction g ∈ L
1
+
(E, /, µ) telle que pour tout u ∈ U,
[f(u, x)[ ≤ g(x) µ(dx) p.p.
Alors la fonction F(u) =

f(u, x)µ(dx) est bien d´efinie en tout point u ∈ U et elle est
continue en u
0
.
Preuve. L’hypoth`ese (iii) entraˆıne que la fonction x −→ f(u, x) est int´egrable et donc F(u)
est bien d´efinie. Ensuite, soit (u
n
)
n≥1
une suite convergeant vers u
0
. L’hypoth`ese (ii) assure
que
f(u
n
, x) −→
n→∞
f(u
0
, x) , µ p.p.
Grˆace `a l’hypoth`ese de domination (iii), on peut appliquer le th´eor`eme de convergence
domin´ee, qui donne
lim
n→∞

f(u
n
, x) µ(dx) =

f(u
0
, x) µ(dx).

26
Exemples. (a) Soit µ une mesure diffuse sur (R, B(R)). Si ϕ ∈ L
1
(R, B(R), µ), la fonction
F(u) =

]−∞,u]
ϕ(x) µ(dx) =

1
]−∞,u]
(x)ϕ(x) µ(dx)
est continue. Pour le voir, il suffit d’appliquer le th´eor`eme `a f(u, x) = 1
]−∞,u]
(x)ϕ(x), en
prenant g = [ϕ[ et en observant que pour u
0
∈ R fix´e, la fonction u −→ f(u, x) est continue
en u
0
pour tout x ∈ R`¦u
0
¦.
(b) Transform´ee de Fourier. Si ϕ ∈ L
1
(R, B(R), λ), la fonction
ˆ ϕ(u) =

e
iux
ϕ(x) λ(dx)
est continue sur R.
(c) Convolution. Soit ϕ ∈ L
1
(R, B(R), λ), et soit h une fonction continue born´ee de R
dans R. Alors la fonction h ∗ ϕ d´efinie sur R par
h ∗ ϕ(u) =

h(u −x) ϕ(x) λ(dx)
est continue (et born´ee).
Nous passons maintenant `a un th´eor`eme de d´erivabilit´e sous le signe int´egrale, et pour
cela nous supposons que U = I est un intervalle ouvert de R. Soit `a nouveau une application
f : U E −→R (ou C).
Th´eor`eme 2.3.2 Soit u
0
∈ I. Supposons que
(i) pour tout u ∈ I, l’application x −→ f(u, x) est dans L
1
(E, /, µ);
(ii) µ(dx) p.p. l’application u −→ f(u, x) est d´erivable en u
0
de d´eriv´ee not´ee
∂f
∂u
(u
0
, x) ;
(iii) il existe une fonction g ∈ L
1
+
(E, /, µ) telle que pour tout u ∈ I,
[f(u, x) −f(u
0
, x)[ ≤ g(x)[u −u
0
[ µ(dx) p.p.
Alors la fonction F(u) =

f(u, x)µ(dx) est d´erivable en u
0
, de d´eriv´ee
F

(u
0
) =

∂f
∂u
(u
0
, x) µ(dx).
Remarque. A priori la d´eriv´ee
∂f
∂u
(u
0
, x) n’est d´efinie (par (ii)) que pour x appartenant
au compl´ementaire d’un ensemble de mesure nulle. On peut la prolonger `a E tout entier
de mani`ere arbitraire (par exemple par la valeur 0), de fa¸ con `a d´efinir l’int´egrale qui donne
F

(u
0
).
27
Preuve. Soit (u
n
)
n≥1
une suite dans I`¦u
0
¦ convergeant vers u
0
, et soit
ϕ
n
(x) =
f(u
n
, x) −f(u
0
, x)
u
n
−u
0
.
Grˆace `a (ii), ϕ
n
(x) converge vers
∂f
∂u
(u
0
, x), µ(dx) p.p. De plus l’hypoth`ese (iii) permet
d’appliquer le th´eor`eme de convergence domin´ee et d’obtenir
lim
n→∞
F(u
n
) −F(u
0
)
u
n
−u
0
= lim
n→∞

ϕ
n
(x) µ(dx) =

∂f
∂u
(u
0
, x) µ(dx).

Remarque. Dans de nombreuses applications, les hypoth`eses (ii) et (iii) sont remplac´ees
par les hypoth`eses plus fortes
(ii)’ µ(dx) p.p. l’application u −→ f(u, x) est d´erivable sur I;
(iii)’ il existe une fonction g ∈ L
1
+
(E, /, µ) telle que µ(dx) p.p.,
∀u ∈ I ,

∂f
∂u
(u, x)

≤ g(x).
(Noter que (iii)’⇒(iii) grˆace au th´eor`eme des accroissements finis.) Sous ces hypoth`eses, la
fonction F est d´erivable sur I. L’exercice ci-dessous montre cependant que la forme plus
pr´ecise de l’´enonc´e du th´eor`eme est parfois n´ecessaire.
Exemples. (a) Soit ϕ ∈ L
1
(R, B(R), λ) telle que

[xϕ(x)[ λ(dx) < ∞.
Alors la transform´ee de Fourier ˆ ϕ(u) est d´erivable sur R, et
ˆ ϕ

(u) = i

xe
iux
ϕ(x) λ(dx).
(b) Soit ϕ ∈ L
1
(R, B(R), λ), et soit h une fonction de R −→R une fonction de classe C
1
,
born´ee ainsi que sa d´eriv´ee. Alors la convolution h ∗ ϕ est d´erivable sur R, et
(h ∗ ϕ)

= h

∗ ϕ.
On peut bien sˆ ur it´erer. Par exemple si h est de classe C

`a support compact, h ∗ ϕ est
aussi de classe C

.
Exercice. Soit µ une mesure diffuse sur (R, B(R)) et soit ϕ ∈ L
1
(R, B(R), µ) telle que

[xϕ(x)[ µ(dx) < ∞.
Pour tout u ∈ R, on pose
F(u) =

R
(u −x)
+
ϕ(x) µ(dx).
Montrer que F est d´erivable sur R, de d´eriv´ee
F

(u) =

]−∞,u]
ϕ(x) µ(dx).
28
Chapitre 3
Construction de mesures
Le chapitre pr´ec´edent partait de la donn´ee d’une mesure sur un espace mesurable. Nous
montrons maintenant comment on construit des mesures int´eressantes, et particuli`erement
la mesure de Lebesgue. Le premier paragraphe introduit la notion de mesure ext´erieure,
v´erifiant des propri´et´es des propri´et´es plus faibles que celles d’une mesure, et montre com-
ment `a partir d’une mesure ext´erieure on peut construire une (vraie) mesure sur une tribu
convenable. Cette approche, qui est celle qu’avait utilis´ee Lebesgue, permet assez facilement
de construire la mesure de Lebesgue sur R ou sur R
d
. Nous discutons aussi diverses pro-
pri´et´es de la mesure de Lebesgue, ainsi que ses liens avec l’int´egrale de Riemann. Une autre
application est l’int´egrale de Stieltjes, qui correspond `a l’int´egrale par rapport `a une mesure
finie arbitraire sur la droite r´eelle.
3.1 Mesures ext´erieures
D´efinition 3.1.1 Soit E un ensemble quelconque. Une application µ

: {(E) −→ [0, ∞] est
appel´ee mesure ext´erieure si
(i) µ

(∅) = 0;
(ii) µ

est croissante : A ⊂ B ⇒ µ

(A) ≤ µ

(B);
(iii) µ

est σ-sous-additive : pour toute suite A
k
, k ∈ N d’´el´ements de {(E),
µ

(
¸
k∈N
A
k
) ≤
¸
k∈N
µ

(A
k
).
Les propri´et´es d’une mesure ext´erieure sont moins contraignantes que celles d’une mesure.
Remarquons cependant qu’une mesure ext´erieure est d´efinie sur l’ensemble de toutes les
parties de E et non pas seulement sur une tribu.
Nous verrons plus loin sur des exemples comment on construit des mesures ext´erieures.
Notre objectif dans ce paragraphe est de montrer comment `a partir d’une mesure ext´erieure
µ

on construit une mesure sur une tribu ´(µ

) qui d´epend de µ

. Dans la suite de cette
partie, on fixe une mesure ext´erieure µ

.
29
D´efinition 3.1.2 Une partie B de E est dite µ

-mesurable si pour toute partie A de E,
µ

(A) = µ

(A∩ B) + µ

(A∩ B
c
).
On note ´(µ

) l’ensemble des parties µ

-mesurables.
Remarque. L’in´egalit´e µ

(A) ≤ µ

(A ∩ B) + µ

(A ∩ B
c
) est toujours v´erifi´ee par σ-sous-
additivit´e. Pour v´erifier que B est µ

-mesurable, c’est donc l’in´egalit´e inverse qu’il importe
de v´erifier.
Th´eor`eme 3.1.1 (1) ´(µ

) est une tribu, qui contient toutes les parties B de E telles que
µ

(B) = 0.
(2) La restriction de µ

`a ´(µ

) est une mesure.
Preuve. (1) Notons ´ = ´(µ

) pour simplifier. Si µ

(B) = 0, l’in´egalit´e
µ

(A) ≥ µ

(A∩ B
c
) = µ

(A ∩ B) + µ

(A∩ B
c
)
montre aussitˆot que B ∈ ´.
Ensuite on voit imm´ediatement que ∅ ∈ ´ et que ´ est stable par passage au compl´e-
mentaire. Pour terminer la preuve de la partie (1), il reste ` a montrer que ´ est stable par
r´eunion d´enombrable. On commence par ´etablir que ´ est stable par r´eunion finie. Soient
B
1
, B
2
∈ ´. Alors, pour toute A ∈ {(E), l’hypoth`ese B
1
∈ ´ montre que
µ

(A∩(B
1
∪B
2
)) = µ

(A∩(B
1
∪B
2
)∩B
1
)+µ

(A∩(B
1
∪B
2
)∩B
c
1
) = µ

(A∩B
1
)+µ

(A∩B
2
∩B
c
1
).
Donc en utilisant successivement les propri´et´es B
2
∈ ´ et B
1
∈ ´,
µ

(A∩ (B
1
∪ B
2
)) +µ

(A∩ (B
1
∪ B
2
)
c
)
= µ

(A∩ B
1
) + µ

(A ∩ B
c
1
∩ B
2
) + µ

(A ∩ B
c
1
∩ B
c
2
) = µ

(A∩ B
1
) + µ

(A ∩ B
c
1
) = µ

(A),
ce qui montre bien que B
1
∪ B
2
∈ ´. Etant stable par passage au compl´ementaire et
par r´eunion finie, ´ est stable par intersection finie. En cons´equence, si B, B

∈ ´,
B`B = B

∩ B
c
∈ ´.
Compte-tenu de cette derni`ere remarque, il suffit pour compl´eter la preuve de montrer
que si les ensembles B
k
∈ ´, k ∈ N sont deux `a deux disjoints on a
¸
B
k
∈ ´. Pour cela
on montre par r´ecurrence que pour tout entier m ∈ N et toute partie A de E,
µ

(A) =
m
¸
k=0
µ

(A∩ B
k
) + µ

(A∩

m
¸
k=0
B
c
k

). (3.1)
Pour m = 0, c’est la d´efinition de B
0
∈ ´. Pour passer de l’´etape m `a l’´etape m + 1, il
suffit d’´ecrire
µ

(A ∩

m
¸
k=0
B
c
k

) = µ

(A∩

m
¸
k=0
B
c
k

∩ B
m+1
) + µ

(A∩

m+1
¸
k=0
B
c
k

)
= µ

(A∩ B
m+1
) + µ

(A∩

m+1
¸
k=0
B
c
k

)
30
en utilisant le fait que les B
k
sont disjoints. On d´eduit de (3.1) que
µ

(A) ≥
m
¸
k=0
µ

(A∩ B
k
) + µ

(A ∩


¸
k=0
B
c
k

)
et en faisant tendre m vers ∞,
µ

(A) ≥

¸
k=0
µ

(A∩ B
k
) + µ

(A∩


¸
k=0
B
c
k

)
≥ µ

(A∩


¸
k=0
B
k

) + µ

(A ∩


¸
k=0
B
c
k

),
par σ-sous-additivit´e. Cela suffit pour conclure que

¸
k=0
B
k
∈ ´.
(2) Notons µ la restriction de µ

`a ´. On sait d´ej`a que µ(∅) = 0. Soient B
k
, k ∈ ´
des ´elements disjoints de ´. La preuve de (1) montre que pour toute partie A de E,
µ

(A) ≥

¸
k=0
µ

(A∩ B
k
) + µ

(A ∩


¸
k=0
B
c
k

)
et donc en prenant A =

¸
k=0
B
k
,
µ

(

¸
k=0
B
k
) ≥

¸
k=0
µ

(B
k
).
Comme l’in´egalit´e inverse est aussi vraie par σ-sous-additivit´e, cela termine la preuve.
3.2 La mesure de Lebesgue
Pour toute partie A de R, on d´efinit
λ

(A) = inf¦
¸
i∈N
(b
i
−a
i
) : A ⊂
¸
i∈N
]a
i
, b
i
[¦.
L’infimum porte sur tous les recouvrements d´enombrables de A par des intervalles ouverts
]a
i
, b
i
[, a
i
≤ b
i
(´evidemment il existe toujours de tels recouvrements).
Th´eor`eme 3.2.1 (i) λ

est une mesure ext´erieure sur R.
(ii) La tribu ´(λ

) contient B(R).
(iii) Pour tous a ≤ b, λ

([a, b]) = λ

(]a, b[) = b −a.
31
La restriction de λ

`a B(R) (ou `a ´(λ

)) est la mesure de Lebesgue sur R, et sera
not´ee simplement λ. En cons´equence des r´esultats de la fin du Chapitre 1, c’est l’unique
mesure sur B(R) qui v´erifie la propri´et´e λ(]a, b[) = b −a pour tout intervalle ]a, b[.
Preuve. (i) Il est imm´ediat que λ

(∅) = 0 et que λ

est croissante. Il reste `a ´etablir la
sous-additivit´e. Pour cela, on se donne une suite (A
n
)
n∈N
de parties de N. On peut supposer
λ

(A
n
) < ∞ pour tout n (sinon il n’y a rien `a montrer). Soit ε > 0. Pour tout n ∈ N, on
peut trouver une suite d’intervalles ]a
(n)
i
, b
(n)
i
[, i ∈ N tels que
A
n

¸
i∈N
]a
(n)
i
, b
(n)
i
[
et
¸
i∈N
(b
(n)
i
−a
(n)
i
) ≤ λ

(A
n
) +
ε
2
i
.
Il suffit alors de remarquer que les intervalles ]a
(n)
i
, b
(n)
i
[, n ∈ N, i ∈ N forment un recouvre-
ment d´enombrable de la r´eunion des A
n
, et donc
λ

(
¸
n∈N
A
n
) ≤
¸
n∈N
¸
i∈N
(b
(n)
i
−a
(n)
i
) ≤
¸
n∈N
λ

(A
n
) + 2ε,
d’o` u le r´esultat puisque ε est arbitraire.
(ii) Puisque ´(λ

) est une tribu, il suffit de montrer qu’elle contient une famille qui
engendre la tribu bor´elienne, par exemple la famille des intervalles ] − ∞, α], α ∈ R. On
se donne donc α ∈ R et on pose B =] − ∞, α]. Le probl`eme est de v´erifier que pour toute
partie A de R,
λ

(A) ≥ λ

(A∩ B) + λ

(A∩ B
c
).
Soit (]a
i
, b
i
[)
i∈N
un recouvrement de A, et ε > 0. Les intervalles ]a
i
∧ α, (b
i
∧ α) + ε2
−i
[
recouvrent A∩ B, et les intervalles ]a
i
∨ α, b
i
∨ α[ recouvrent A ∩ B
c
. Donc
λ

(A∩ B) ≤
¸
i∈N
((b
i
∧ α) −(a
i
∧ α)) + 2ε,
λ

(A∩ B
c
) ≤
¸
i∈N
((b
i
∨ α) −(a
i
∨ α)).
En faisant la somme on trouve
λ

(A∩ B) + λ

(A∩ B
c
) ≤
¸
i∈N
(b
i
−a
i
) + 2ε.
Puisque ε ´etait arbitraire, on a
λ

(A∩ B) + λ

(A∩ B
c
) ≤
¸
i∈N
(b
i
−a
i
),
et comme λ

(A) est par d´efinition l’infimum des sommes de droite sur tous les recouvrements
de A, l’in´egalit´e recherch´ee en d´ecoule.
32
(iii) Il est imm´ediat par d´efinition que
λ

([a, b]) ≤ b −a.
Pour l’in´egalit´e inverse, supposons que
[a, b] ⊂
¸
i∈N
]a
i
, b
i
[.
Par compacit´e, on peut trouver un entier N assez grand tel que
[a, b] ⊂
N
¸
i=0
]a
i
, b
i
[.
Un raisonnement ´el´ementaire montre alors que
b −a ≤
N
¸
i=0
(b
i
−a
i
) ≤

¸
i=0
(b
i
−a
i
).
Cela donne l’autre in´egalit´e b − a ≤ λ

([a, b]). Il est facile de voir enfin que λ

(]a, b[) =
λ

([a, b]) (par exemple en observant que λ

(¦a¦) = λ

(¦b¦) = 0).
Extension en dimension d.
On appelle pav´e ouvert (resp. ferm´e) un sous-ensemble P de R
d
de la forme
P =
d
¸
j=1
]a
j
, b
j
[ , (resp. P =
d
¸
j=1
[a
j
, b
j
]).
Le volume de P est par d´efinition
vol (P) =
d
¸
j=1
(b
j
−a
j
).
On d´efinit alors pour toute partie A de R
d
λ

(A) = inf¦
¸
i∈N
vol (P
i
) : A ⊂
¸
i∈N
P
i
¦.
o` u l’infimum porte sur tous les recouvrements d´enombrables de A par des pav´es ouverts.
On a alors l’analogue suivant du th´eor`eme pr´ec´edent.
Th´eor`eme 3.2.2 (i) λ

est une mesure ext´erieure sur R
d
.
(ii) La tribu ´(λ

) contient B(R
d
).
(iii) Pour tous pav´e (ouvert ou ferm´e) P, λ

(P) = vol (P).
33
La restriction de λ

`a B(R
d
) (ou `a ´(λ

)) est la mesure de Lebesgue sur R
d
, et sera
not´ee simplement λ.
Preuve. La preuve de (i) est exactement la mˆeme que dans le cas d = 1. Pour (ii), il suffit
de montrer que si A est un ensemble de la forme
A = R R] −∞, a] R R,
on a A ∈ ´(λ

) (il est facile de voir que les ensembles de cette forme engendrent la tribu
B(R
d
)). La d´emonstration est alors tout `a fait semblable `a celle du cas d = 1. Enfin pour
(iii), on se ram`ene `a montrer que si P est un pav´e ferm´e et si
P ⊂
n
¸
i=1
P
i
o` u les P
i
sont des pav´es ouverts, on a
vol (P) ≤
n
¸
i=1
vol (P
i
).
Cette assertion est laiss´ee en exercice.
Remarque. On verra plus tard (dans le Chapitre 5) une autre fa¸ con de construire la mesure
de Lebesgue en dimension d `a partir du cas de la dimension un.
On peut se demander si la tribu ´(λ

) est beaucoup plus grande que la tribu B(R).
Nous allons voir qu’en un certain sens ces deux tribus ne sont pas tr`es diff´erentes. Nous
´enon¸ cons d’abord une proposition pr´eliminaire.
Proposition 3.2.3 Soit (E, /, µ) un espace mesur´e. La classe des parties n´egligeables est
par d´efinition
^ = ¦A ∈ {(E) : ∃B ∈ /, A ⊂ B et µ(B) = 0¦.
La tribu compl´et´ee de / (par rapport `a µ) est
¯
/ = σ(/ ∪ ^). Il existe alors une unique
mesure sur (E,
¯
/) qui prolonge µ.
Preuve. On remarque d’abord que la tribu
¯
/ peut ˆetre obtenue de la mani`ere suivante : si
B = ¦A ∈ {(E) : ∃B, B

∈ /, B ⊂ A ⊂ B

et µ(B

`B) = 0¦
on a
¯
/ = B. En effet on v´erifie facilement que B est une tribu. Il est clair que / ⊂ B et
^ ⊂ B, ce qui entraˆıne que
¯
/ ⊂ B. Enfin, si A ∈ B, on choisit B et B

comme dans la
d´efinition et on remarque que A = B∪(A`B), avec B ∈ / et A`B ∈ ^. L’inclusion B ⊂
¯
/
en d´ecoule.
Une fois acquise l’´egalit´e
¯
/ = B, on construit le prolongement de µ `a
¯
/ de la mani`ere
suivante. Si A ∈
¯
/ = B, et si B et B

sont comme dans la d´efinition de B ci-dessus,
on pose µ(A) = µ(B) = µ(B

). Cela ne d´epend pas du choix de B et B

: si
˜
B,
˜
B

est
un autre choix, on a `a la fois µ(
˜
B) ≤ µ(B

) et µ(
˜
B

) ≥ µ(B) ce qui force les ´egalit´es
34
µ(B) = µ(B

) = µ(
˜
B) = µ(
˜
B

). Enfin, il est facile de v´erifier que le prolongement de µ `a
¯
/ est une mesure : si A
n
, n ∈ N sont des ´el´ements disjoints de
¯
/, on peut pour chaque n
choisir B
n
∈ /, B
n
⊂ A
n
de mani`ere que A
n
`B
n
soit n´egligeable, et on a
¸
n
µ(A
n
) =
¸
n
µ(B
n
) = µ(
¸
n
B
n
) = µ(
¸
n
A
n
),
la derni`ere ´egalit´e parce que
¸
n
A
n
`
¸
n
B
n

¸
n
(A
n
`B
n
) est n´egligeable.
Proposition 3.2.4 La tribu ´(λ

) co¨ıncide avec la compl´et´ee
¯
B(R
d
) de B(R
d
) par rapport
` a la mesure de Lebesgue λ.
Preuve. L’inclusion
¯
B(R
d
) ⊂ ´(λ

) est imm´ediate : si A ∈ {(R
d
) est tel que A ⊂ B,
o` u B ∈ B(R
d
) et λ(B) = 0, alors λ

(A) ≤ λ

(B) = λ(B) = 0, et d’apr`es le th´eor`eme du
paragraphe 1, on sait que cela entraˆıne A ∈ ´(λ

).
Inversement, soit A ∈ ´(λ

). On veut montrer que A ∈
¯
B(R
d
). Sans perte de g´en´eralit´e,
on peut supposer A ⊂] −K, K[
d
(sinon on ´ecrit A comme la r´eunion croissante des ensembles
A∩] −n, n[
d
). On a alors λ

(A) < ∞, et donc pour chaque n ≥ 1 on peut trouver une famille
d´enombrable (P
n
i
, i ∈ N) de pav´es ouverts contenus dans ] −K, K[
d
tels que
A ⊂
¸
i
P
n
i
,
¸
i
vol (P
n
i
) ≤ λ

(A) +
1
n
.
Posons
B
n
=
¸
i
P
n
i
, B =
¸
n
B
n
.
Alors B ∈ B(R
d
), A ⊂ B, et d’autre part pour chaque n,
λ

(B) ≤
¸
i
vol (P
n
i
) ≤ λ

(A) +
1
n
ce qui implique λ

(B) = λ

(A). En rempla¸ cant A par ] − K, K[
d
`A, on construit de mˆeme
˜
B ∈ B(R
d
),
˜
B ⊂] − K, K[
d
telle que ] − K, K[
d
`A ⊂
˜
B et λ

(] − K, K[
d
`A) = λ

(
˜
B). Si
B

=] − K, K[
d
`
˜
B, on doit alors avoir B

⊂ A et λ

(B

) = λ

(A). Finalement on a bien
trouv´e deux bor´eliens B et B

avec B

⊂ A ⊂ B et λ(B`B

) = 0.
Th´eor`eme 3.2.5 La mesure de Lebesgue sur R
d
est invariante par translation, au sens o` u
pour tout A ∈ B(R
d
) et tout x ∈ R
d
, on a λ(x + A) = λ(A).
Inversement, si µ est une mesure sur (R
d
, B(R
d
)) finie sur les parties born´ees et invari-
ante par translation, il existe une constante c ≥ 0 telle que µ = cλ.
Preuve. Notons σ
x
la translation σ
x
(y) = y −x pour tout y ∈ R
d
. La mesure-image σ
x
(λ)
est d´efinie par
∀A ∈ B(R
d
), σ
x
(λ)(A) = λ(σ
−1
x
(A)) = λ(x + A).
35
L’´egalit´e σ
x
(λ)(A) = λ(A) est vraie pour tout pav´e A (puisque A et x+A sont deux pav´es de
mˆeme volume). A l’aide du lemme de classe monotone du Chapitre 1, il en d´ecoule aussitˆot
que σ
x
(λ) = λ, ce qui est la premi`ere assertion du th´eor`eme.
Inversement, soit µ une mesure sur B(R
d
) invariante par translation. Soit
c = µ([0, 1[
d
).
Comme [0, 1[
d
est la r´eunion disjointe de n
d
pav´es qui sont des translat´es de [0,
1
n
[
d
, il en
r´esulte que pour tout entier n ≥ 1,
µ([0,
1
n
[
d
) =
c
n
d
.
Soient ensuite a
1
, . . . , a
d
≥ 0. En ´ecrivant
d
¸
j=1
[0,
[na
j
]
n
[⊂
d
¸
j=1
[0, a
j
[⊂
d
¸
j=1
[0,
[na
j
] + 1
n
[
(o` u [x] d´esigne la partie enti`ere de x), on trouve
(
d
¸
j=1
[na
j
])
c
n
d
= µ(
d
¸
j=1
[0,
[na
j
]
n
[) ≤ µ(
d
¸
j=1
[0, a
j
[) ≤ µ(
d
¸
j=1
[0,
[na
j
] + 1
n
[) = (
d
¸
j=1
[na
j
] + 1)
c
n
d
.
En faisant tendre n vers ∞, il vient
µ(
d
¸
j=1
[0, a
j
[) = c
n
¸
j=1
a
j
= cλ(
d
¸
j=1
[0, a
j
[)
et en utilisant l’invariance par translation de µ on trouve que les mesures µ et cλ co¨ıncident
sur tous les pav´es de la forme
d
¸
j=1
[a
j
, b
j
[.
Comme dans la premi`ere partie de la preuve, cela suffit pour conclure que µ = cλ.
Proposition 3.2.6 La mesure de Lebesgue sur R
d
est r´eguli`ere au sens o` u pour tout A ∈
¯
B(R
d
), on a
λ(A) = inf¦λ(U) : U ouvert , A ⊂ U¦
= sup¦λ(F) : F compact , F ⊂ A¦.
Preuve. La quantit´e inf¦λ(U) : U ouvert , A ⊂ U¦ est toujours plus grande que λ(A). Pour
l’autre in´egalit´e, on peut supposer λ(A) < ∞. Ensuite, par d´efinition de λ(A) = λ

(A), on
peut pour chaque ε > 0 trouver un recouvrement de A par des pav´es ouverts P
i
tels que
¸
λ(P
i
) ≤ λ(A) + ε. Mais alors l’ouvert U d´efini comme la r´eunion des P
i
contient A et on
a λ(U) ≤
¸
λ(P
i
) ≤ λ(A) + ε, ce qui conduit `a l’in´egalit´e voulue.
36
Pour la deuxi`eme ´egalit´e de la proposition, on peut supposer A contenu dans un compact
C (sinon on ´ecrit λ(A) = lim ↑ λ(A ∩ [−n, n]
d
)). Pour chaque ε > 0 on peut grˆace `a la
premi`ere partie de la preuve trouver un ouvert U contenant C`A, tel que λ(U) < λ(C`A)+ε.
Mais alors F = C`U est un compact contenu dans A, et
λ(F) ≥ λ(C) −λ(U) ≥ λ(C) −(λ(C`A) + ε) = λ(A) −ε,
ce qui donne la deuxi`eme ´egalit´e.
La proposition pr´ec´edente peut ˆetre ´etendue `a un cadre beaucoup plus g´en´eral. Nous
nous limitons au cas des mesures finies.
Proposition 3.2.7 Soit (E, d) un espace m´etrique, et soit µ une mesure finie sur (E, B(E)).
Alors, pour tout A ∈ B(E),
µ(A) = inf¦µ(U) : U ouvert , A ⊂ U¦
= sup¦µ(F) : F ferm´e , F ⊂ A¦.
Preuve. Notons O la classe des ouverts de E, et soit ( la classe des ensembles A ∈ B(E)
qui v´erifient la propri´et´e de la proposition. Puisque la tribu bor´elienne est par d´efinition
engendr´ee par O, il suffit de montrer que O ⊂ ( et que ( est une tribu.
Si A ∈ O, la premi`ere ´egalit´e est triviale. Pour la seconde, on remarque que pour tout
n ≥ 1, l’ensemble
F
n
= ¦x ∈ E : d(x, A
c
) ≥
1
n
¦
est ferm´e. Par ailleurs A = lim ↑ F
n
, ce qui entraˆıne
µ(A) = lim ↑ µ(F
n
),
ce qui donne bien la seconde ´egalit´e et prouve que O ⊂ (.
Il reste `a montrer que ( est une tribu. On a ∅ ∈ ( et `a cause de la sym´etrie entre ouverts
et ferm´es, on voit imm´ediatement que ( est stable par passage au compl´ementaire. Soit
ensuite (A
n
)
n∈N
une suite dans ( et soit ε > 0. Pour chaque n, on peut trouver un ouvert
U
n
contenant A
n
tel que µ(U
n
) ≤ µ(A
n
) + ε2
−n
, d’o` u
µ

¸
n∈N
U
n
`
¸
n∈N
A
n


¸
n∈N
µ(U
n
−A
n
) ≤ 2ε.
Puisque
¸
U
n
est ouvert cela donne la premi`ere des deux ´egalit´es recherch´ees pour
¸
A
n
.
Ensuite, soit N un entier assez grand pour que
µ(
N
¸
n=0
A
n
) ≥ µ(
¸
n∈N
A
n
) −ε.
Pour chaque n ∈ ¦0, 1, . . . , N¦ on peut trouver un ferm´e F
n
⊂ A
n
tel que µ(A
n
`F
n
) ≤ ε2
−n
.
Alors
F =
N
¸
n=0
F
n
37
est ferm´e et
µ((
N
¸
n=0
A
n
)`F) ≤
N
¸
n=0
µ(A
n
−F
n
) < 2ε
d’o` u
µ((

¸
n=0
A
n
)`F) ≤ 3ε.
On conclut que
¸
A
n
∈ (, ce qui termine la preuve.
3.3 Liens avec l’int´egrale de Riemann
Fixons un intervalle [a, b] non trivial de R. Une fonction h : [a, b] −→R est dite en escalier,
et on note h ∈ Esc, s’il existe une subdivision a = x
0
< x
1
< < x
N
= b et des r´eels
y
1
, . . . , y
N
tels que
∀i ∈ ¦1, . . . , N¦, ∀x ∈]x
i−1
, x
i
[, f(x) = y
i
.
On pose alors
I(h) =
N
¸
i=1
y
i
(x
i
−x
i−1
).
Il est imm´ediat que I(h) =

[a,b]
h dλ.
Une fonction born´ee f : [a, b] −→R est dite Riemann-int´egrable si
sup
h∈Esc, h≤f
I(h) = inf
h∈Esc, h≥f
I(h)
et cette valeur commune est not´ee I(f).
Proposition 3.3.1 Soit f une fonction Riemann-int´egrable sur [a, b]. Alors f est mesurable
pour la tribu compl´et´ee
¯
B([a, b]), et
I(f) =

[a,b]
f dλ.
Preuve. On peut trouver une suite (h
n
) de fonctions en escalier sur [a, b] telles que h
n
≥ f
et I(h
n
) ↓ I(f). Quitte `a remplacer h
n
par h
1
∧h
2
∧ ∧h
n
, on peut supposer la suite (h
n
)
d´ecroissante, ce qui permet de poser
h

= lim ↓ h
n
≥ f.
De mˆeme, on peut trouver une suite croissante (
˜
h
n
) de fonctions en escalier avec
˜
h
n
≤ f et
I(
˜
h
n
) ↑ I(f), et poser
˜
h

= lim ↑
˜
h
n
≤ f.
38
Les fonctions h

et
˜
h

sont bor´eliennes born´ees. Par convergence domin´ee,

[a,b]
h

dλ = lim ↓

[a,b]
h
n
dλ = lim ↓ I(h
n
) = I(f),

[a,b]
˜
h

dλ = lim ↑

[a,b]
˜
h
n
dλ = lim ↑ I(
˜
h
n
) = I(f).
Donc,

[a,b]
(h


˜
h

)dλ = 0.
Puisque h


˜
h

, cela entraˆıne h

=
˜
h

, λ p.p. Comme h

≥ f ≥
˜
h

, f co¨ıncide p.p.
avec une fonction bor´elienne, et il est facile d’en d´eduire que f est
¯
B([a, b])-mesurable. Enfin
puisque f = h

p.p. on a

[a,b]
f dλ =

[a,b]
h

dλ = I(f).
3.4 Un exemple d’ensemble non mesurable
Consid´erons l’espace R/Q des classes d’´equivalence des r´eels modulo les rationnels. Pour
chaque a ∈ R/Q, soit x
a
un repr´esentant de a dans l’intervalle [0, 1]. On pose
F = ¦x
a
; a ∈ R/Q¦ ⊂ [0, 1].
Alors F n’est pas bor´elien, ni mˆeme mesurable par rapport `a la tribu compl´et´ee
¯
B(R).
Pour le v´erifier, supposons F mesurable et montrons que cela conduit `a une contradiction.
D’abord, on a par construction
R ⊂
¸
q∈Q
(q + F)
et donc λ(F) > 0, car sinon R serait contenu dans une r´eunion d´enombrable d’ensembles de
mesure nulle.
Par ailleurs, les ensembles q +F, q ∈ Q sont disjoints (si q +x
a
= q

+x
a
′ on a x
a
−x
a
′ =
q

−q ∈ Q et donc a = a

puis q = q

). De l’inclusion
¸
q∈Q∩[0,1]
(q + F) ⊂ [0, 2]
on d´eduit donc
¸
q∈Q∩[0,1]
λ(q + F) ≤ 2
d’o` u λ(F) = 0 ce qui est la contradiction recherch´ee.
3.5 Int´egrale de Stieltjes
Le th´eor`eme suivant donne une description de toutes les mesures finies sur (R, B(R)). Le
r´esultat peut ˆetre facilement ´etendu aux mesures de Radon.
39
Th´eor`eme 3.5.1 (i) Soit µ une mesure finie sur (R, B(R)). Pour tout x ∈ R, soit
F
µ
(x) = µ(] −∞, x]).
La fonction F
µ
est croissante, born´ee, continue `a droite et F
µ
(−∞) = 0.
(ii) Inversement, soit F : R −→ R
+
une fonction est croissante, born´ee, continue `a droite
et telle que F(−∞) = 0. Il existe alors une unique mesure finie µ sur (R, B(R)) telle que
F = F
µ
.
Remarque. Lorsque F = F
µ
, on note souvent

f(x) µ(dx) =

f(x) dF(x).
C’est l’int´egrale de Stieltjes de f par rapport `a F. On a en particulier

]a,b]
dF(x) = F(b) −F(a),
et
[a,b]
dF(x) = lim
n→∞

]a−n
−1
,b]
dF(x) = F(b) −F(a−),
o` u F(a−) d´esigne la limite `a gauche de F en a.
Preuve. (i) La v´erification des propri´et´es de F
µ
est facile. Par exemple si x
n
↓ x, les
intervalles ] −∞, x
n
] d´ecroissent vers ] −∞, x], et donc
F
µ
(x
n
) = µ(] −∞, x
n
]) ↓ µ(] −∞, x]) = F(x).
De mˆeme, si x
n
↓ −∞, les intervalles ] −∞, x
n
] d´ecroissent vers ∅ et donc F
µ
(x
n
) ↓ 0.
(ii) L’unicit´e de µ est une cons´equence du lemme de classe monotone (cf Chapitre 1) : la
classe ( = ¦] −∞, x]; x ∈ R¦ est stable par intersection finie et engendre la tribu B(R).
Pour montrer l’existence, on pose pour tout A ⊂ R:
µ

(A) = inf¦
¸
i∈N
(F(b
i
) −F(a
i
)) : A ⊂
¸
i∈N
]a
i
, b
i
]¦.
(Noter qu’on recouvre A par des intervalles ouverts `a droite et ferm´es `a gauche, et non plus
des intervalles ouverts comme pour la mesure de Lebesgue.) Les mˆemes arguments que dans
le cas de la mesure de Lebesgue montrent que µ

est une mesure ext´erieure. On v´erifie par
la mˆeme m´ethode que dans le cas de la mesure de Lebesgue que les intervalles ] −∞, α] sont
dans ´(λ

) (en fait c’est mˆeme plus facile ici). Il en d´ecoule que la tribu ´(µ

) contient la
tribu bor´elienne, et que la restriction, not´ee µ, de µ

`a ´(µ

) est une mesure sur (R, B(R)).
Pour terminer, il reste `a montrer que µ(] −∞, x]) = F(x) pour tout x ∈ R. Il suffit pour
cela d’´etablir que µ(]a, b]) = F(b) −F(a) pour tous a < b (ensuite faire tendre a vers −∞).
L’in´egalit´e
µ(]a, b]) ≤ F(b) −F(a)
40
est imm´ediate par construction de µ

.
Dans l’autre sens, soit (]x
i
, y
i
])
i∈N
un recouvrement d´enombrable de ]a, b]. Soit ε ∈
]0, b −a[. Pour chaque i ∈ N, on peut trouver y

i
> y
i
tel que F(y

i
) ≤ F(y
i
) +ε2
−i
. Ensuite,
on remarque qu’on peut recouvrir l’intervalle compact [a + ε, b] par une sous-famille finie
(]x
i
, y

i
[)
i∈{0,1,...,Nε}
de la famille des intervalles ouverts (]x
i
, y

i
[)
i∈N
. Un raisonnement simple
montre qu’alors
F(b) −F(a + ε) ≤

¸
i=0
(F(y

i
) −F(x
i
)) ≤

¸
i=0
(F(y

i
) −F(x
i
)) ≤

¸
i=0
(F(y
i
) −F(x
i
)) + 2ε.
En faisant tendre ε vers 0 on trouve
F(b) −F(a) ≤

¸
i=0
(F(y
i
) −F(x
i
))
ce qui par d´efinition de µ

donne bien la minoration µ(]a, b]) ≥ F(b) −F(a).
Cas des mesures de Radon. La formule
F(x) =

µ(]0, x]) si x ≥ 0,
−µ(]x, 0]) si x < 0,
donne une correspondance bijective entre mesures de Radon µ sur R et fonctions F : R −→R
croissantes continues `a droite et nulles en 0. Ce r´esultat d´ecoule facilement du cas des mesures
finies. On a encore l’´egalit´e µ(]a, b]) = F(b) − F(a). Dans le cas particulier F(x) = x la
mesure µ est la mesure de Lebesgue.
3.6 Le th´eor`eme de repr´esentation de Riesz
Soit X un espace m´etrique. On note C
c
(X) l’espace des fonctions continues `a support
compact sur X. Une forme lin´eaire J sur C
c
(X) est dite positive si J(f) ≥ 0 d`es que f ≥ 0.
Si µ est une mesure de Radon sur X, on d´efinit une forme lin´eaire J sur C
c
(X) en posant
J(f) =

f dµ.
Noter que l’int´egrale est bien d´efinie puisque [f[ ≤ C 1
K
, o` u K est un compact de X, et µ
est finie sur les compacts. De plus J est positive.
Le th´eor`eme de repr´esentation de Riesz montre que sous des hypoth`eses convenables
toute forme lin´eaire positive sur C
c
(X) est de ce type.
Th´eor`eme 3.6.1 Soit X un espace m´etrique localement compact s´eparable, et soit J une
forme lin´eaire positive sur C
c
(X). Il existe alors une unique mesure de Radon µ sur
(X, B(X)) telle que
∀f ∈ C
c
(X), J(f) =

f dµ.
41
La mesure µ est r´eguli`ere au sens o` u pour tout A ∈ B(X),
λ(A) = inf¦λ(U) : U ouvert , A ⊂ U¦
= sup¦λ(F) : F compact , F ⊂ A¦.
De plus, pour tout ouvert U de X,
µ(U) = sup¦J(f) : f ∈ C
c
(X), 0 ≤ f ≤ 1
U
¦.
Exemple. Si X = R, on peut prendre J(f) = I(f), o` u I(f) est comme ci-dessus l’int´egrale
de Riemann de la fonction f. On v´erifie ais´ement que J est une forme lin´eaire positive sur
C
c
(R). La mesure associ´ee est (bien sˆ ur) la mesure de Lebesgue. Cela fournit donc une autre
construction de la mesure de Lebesgue (en supposant construite l’int´egrale de Riemann des
fonctions continues).
Nous ne donnons pas ici la preuve du Th´eor`eme 3.6.1 : voir le Th´eor`eme 10.1 de Briane
et Pag`es [2] ou le chapitre 2 de Rudin [7], qui donne un ´enonc´e un peu plus pr´ecis.
42
Chapitre 4
Espaces L
p
Ce chapitre est consacr´e principalement `a l’´etude de l’espace L
p
des fonctions dont la valeur
absolue est de puissance p-i`eme int´egrable. Les in´egalit´es fondamentales de H¨older, de
Minkowski et de Jensen constituent un outil important pour cette ´etude. On ´etudie no-
tamment la structure d’espace de Banach de l’espace L
p
, et dans le cas particulier p = 2
la structure d’espace de Hilbert de L
2
. Les th´eor`emes de densit´e montrant qu’on peut ap-
procher n’importe quelle fonction de L
p
par des fonctions plus “r´eguli`eres” jouent un rˆole
important dans beaucoup d’applications en analyse. En application de la structure hilber-
tienne de L
2
, on ´etablit le th´eor`eme de Radon-Nikodym, qui ´etant donn´e une mesure de
r´ef´erence permet de d´ecomposer n’importe quelle autre mesure en la somme d’une mesure `a
densit´e par rapport `a la mesure de r´ef´erence et d’une mesure “´etrang`ere”.
4.1 D´efinition et in´egalit´e de H¨older
Dans tout ce chapitre on consid`ere un espace mesur´e (E, /, µ). Pour tout r´eel p ≥ 1 on pose
L
p
(E, /, µ) = ¦f : E −→R mesurable;

[f[
p
dµ < ∞¦
et on d´efinit aussi
L

(E, /, µ) = ¦f : E −→R mesurable; ∃C ∈ R
+
: [f[ ≤ C, µ p.p.¦.
On pourrait aussi consid´erer les espaces L
p
C
et L

C
obtenus en consid´erant des fonctions `a
valeurs complexes, mais dans ce chapitre nous nous int´eresserons surtout au cas r´eel.
Pour chaque p ∈ [1, ∞], on d´efinit une relation d’´equivalence sur L
p
en posant
f ∼ g si et seulement si f = g, µ p.p.
Cela conduit `a d´efinir l’espace quotient
L
p
(E, /, µ) = L
p
(E, /, µ)/ ∼ .
Un ´el´ement de L
p
(E, /, µ) est donc une classe d’´equivalence de fonctions ´egales µ p.p. Dans
la suite on fera presque syst´ematiquement l’abus d’´ecriture consistant `a identifier un ´element
de L
p
(E, /, µ) `a l’un de ses repr´esentants.
43
Pour toute fonction f : E −→R mesurable, on note pour p ∈ [1, ∞[,
|f|
p
=

[f[
p

1/p
(avec la convention ∞
1/p
= ∞) et
|f|

= inf¦C ∈ [0, ∞] : [f[ ≤ C, µ p.p.¦
de fa¸ con que |f| ≤ |f|

, µ p.p. et que |f|

est le plus petit nombre dans [0, ∞] avec
cette propri´et´e.
Soient p, q ∈ [1, ∞]. On dit que p et q sont des exposants conjugu´es si
1
p
+
1
q
= 1.
En particulier, p = 1 et q = ∞ sont conjugu´es.
Th´eor`eme 4.1.1 (In´egalit´e de H¨older) Soient p et q des exposants conjugu´es. Alors, si
f et g sont deux fonctions mesurables de E dans R,

[fg[ dµ ≤ |f|
p
|g|
q
.
En particulier, fg ∈ L
1
(E, /, µ) d`es que f ∈ L
p
(E, /, µ) et g ∈ L
q
(E, /, µ).
Preuve. Si |f|
p
= 0, on a f = 0, µ p.p., ce qui entraˆıne

[fg[dµ = 0, et l’in´egalit´e est
triviale. On peut donc supposer |f|
p
> 0 et |g|
q
> 0. Sans perte de g´en´eralit´e on peut
aussi supposer f ∈ L
p
(E, /, µ) et g ∈ L
q
(E, /, µ).
Le cas p = 1, q = ∞ est facile : on a [fg[ ≤ |g|

[f[, µ p.p., d’o` u

[fg[ dµ ≤ |g|

[f[dµ = |g|

|f|
1
.
Supposons 1 < p < ∞ (et donc 1 < q < ∞).
Soit α ∈]0, 1[. On a pour tout x ∈ R
+
x
α
−αx ≤ 1 −α.
En effet la fonction ϕ
α
(x) = x
α
− αx a pour d´eriv´ee sur ]0, ∞[, ϕ

α
(x) = α(x
α−1
− 1) qui
est positive sur ]0, 1[ et n´egative sur ]1, ∞[. Donc ϕ
α
est maximale en x = 1, ce qui donne
l’in´egalit´e recherch´ee. En appliquant cette in´egalit´e `a x =
u
v
, o` u u ≥ 0 et v > 0, on trouve
u
α
v
1−α
≤ αu + (1 −α)v,
in´egalit´e qui reste vraie si v = 0. On prend alors α =
1
p
(donc 1 −α =
1
q
) puis
u =
[f(x)[
p
|f|
p
p
, v =
[g(x)[
q
|g|
q
q
44
pour aboutir `a
[f(x)g(x)[
|f|
p
|g|
q

1
p
[f(x)[
p
|f|
p
p
+
1
q
[g(x)[
q
|g|
q
q
.
En int´egrant cette derni`ere in´egalit´e par rapport `a µ, il vient
1
|f|
p
|g|
q

[fg[dµ ≤
1
p
+
1
q
= 1.

Exercice. Lorsque 1 < p < ∞, montrer qu’il y a ´egalit´e dans l’in´egalit´e de H¨older ssi il
existe deux r´eels positifs α, β non tous deux nuls, tels que α[f[
p
= β[g[
q
µ p.p.
Le cas particulier p = q = 2 de l’in´egalit´e de H¨older est l’in´egalit´e de Cauchy-Schwarz

[fg[ dµ ≤

[f[
2

1/2

[g[
2

1/2
.
Consid´erons le cas particulier o` u µ est finie. En prenant g = 1, on trouve

[f[ dµ ≤ µ(E)
1/q
|f|
p
ce qui montre que L
p
⊂ L
1
pour tout p ∈]1, ∞]. En rempla¸ cant [f[ par [f[
r
(r ≥ 1) et en
posant r

= pr, on trouve pour tous 1 ≤ r ≤ r

≤ ∞
|f|
r
≤ µ(E)
1
r

1
r

|f|
r
′ ,
et donc L
r

⊂ L
r
(toujours dans le cas o` u µ est finie). Lorsque µ est une mesure de probabilit´e
on a |f|
r
≤ |f|
r
′ pour tous 1 ≤ r ≤ r

≤ ∞.
Cette derni`ere in´egalit´e peut ˆetre vue comme un cas particulier de l’in´egalit´e de Jensen.
Th´eor`eme 4.1.2 (In´egalit´e de Jensen) Supposons que µ est une mesure de probabilit´e,
et soit ϕ : R −→R
+
une fonction convexe. Alors, pour f ∈ L
1
(E, /, µ),

ϕ ◦ f dµ ≥ ϕ

f dµ

.
Remarque. L’int´egrale

ϕ◦f dµ est bien d´efinie comme int´egrale d’une fonction mesurable
positive.
Preuve. Soit
c
ϕ
= ¦(a, b) ∈ R
2
: ∀x ∈ R, ϕ(x) ≥ ax + b¦.
Les propri´et´es bien connues des fonctions convexes assurent que
∀x ∈ R , ϕ(x) = sup
(a,b)∈Eϕ
(ax + b).
45
En cons´equence,

ϕ ◦ f dµ ≥ sup
(a,b)∈Eϕ

(af + b)dµ
= sup
(a,b)∈Eϕ

a

fdµ + b

= ϕ

f dµ

Exercice. Montrer que si µ(E) < ∞ on a
|f|

= lim
p→∞
|f|
p
.
4.2 L’espace de Banach L
p
(E, /, µ)
Th´eor`eme 4.2.1 (In´egalit´e de Minkowski) Soit p ∈ [1, ∞], et soient f, g ∈ L
p
(E, /, µ).
Alors, f + g ∈ L
p
(E, /, µ) et
|f + g|
p
≤ |f|
p
+|g|
p
.
Preuve. Les cas p = 1 et p = ∞ sont faciles en utilisant simplement l’in´egalit´e [f + g[ ≤
[f[ +[g[. Supposons donc 1 < p < ∞. En ´ecrivant
[f + g[
p
≤ 2
p
([f[
p
+[g[
p
)
on voit que

[f + g[
p
dµ < ∞ et donc f + g ∈ L
p
. Ensuite, en int´egrant par rapport `a µ
l’in´egalit´e
[f + g[
p
≤ [f[ [f + g[
p−1
+[g[ [f + g[
p−1
on trouve

[f + g[
p
dµ ≤

[f[ [f + g[
p−1
dµ +

[g[ [f + g[
p−1
dµ.
En appliquant l’in´egalit´e de H¨older aux r´eels conjugu´es p et q = p/(p −1), il vient

[f + g[
p
dµ ≤ |f|
p

[f + g[
p

p−1
p
+|g|
p

[f + g[
p

p−1
p
.
Si

[f + g[
p
dµ = 0, l’in´egalit´e du th´eor`eme est triviale. Sinon on peut diviser chacun des
deux membres de l’in´egalit´e pr´ec´edente par (

[f + g[
p
dµ)
(p−1)/p
et on trouve le r´esultat
recherch´e.
Th´eor`eme 4.2.2 (Riesz) Pour tout p ∈ [1, ∞], l’espace L
p
(E, /, µ) muni de la norme
f → |f|
p
est un espace de Banach (i.e. un espace vectoriel norm´e complet).
46
Preuve. On se limite au cas 1 ≤ p < ∞ (le cas p = ∞ est plus facile). V´erifions d’abord
que f → |f|
p
est une norme sur L
p
. On a
|f|
p
= 0 ⇒

[f[
p
dµ = 0 ⇒ f = 0 µ p.p.
ce qui signifie que f = 0 dans L
p
(f appartient `a la classe d’´equivalence de 0). La propri´et´e
|λf|
p
= [λ[|f|
p
pour λ ∈ R est imm´ediate, et l’in´egalit´e de Minkowski donne l’in´egalit´e
triangulaire.
Il reste `a montrer que L
p
muni de cette norme est complet. Soit (f
n
)
n≥1
une suite de
Cauchy dans L
p
. Alors on peut choisir une suite d’entiers (k
n
) strictement croissante de
fa¸ con que pour tout n ≥ 1,
|f
k
n+1
−f
kn
|
p
≤ 2
−n
.
Posons g
n
= f
kn
et remarquons en utilisant le th´eor`eme de convergence monotone puis
l’in´egalit´e de Minkowski que


¸
n=1
[g
n+1
−g
n
[

p
dµ = lim
N↑∞

N
¸
n=1
[g
n+1
−g
n
[

p

≤ lim
N↑∞

N
¸
n=1
|g
n+1
−g
n
|
p

p
=


¸
n=1
|g
n+1
−g
n
|
p

p
< ∞.
On a donc

¸
n=1
[g
n+1
−g
n
[ < ∞ , µ p.p.
et cela permet de poser
h = g
1
+

¸
n=1
(g
n+1
−g
n
)
la s´erie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut
prendre une d´efinition arbitraire de h (par exemple h = 0). La fonction h est alors mesurable.
Puisque g
N
converge vers h, µ p.p., on a [h[ = liminf [g
N
[, µ p.p. et le lemme de Fatou montre
imm´ediatement que

[h[
p
dµ ≤ liminf

[g
N
[
p
dµ ≤ sup
N≥1

[g
N
[
p
dµ < ∞,
puisque la suite f
n
´etant de Cauchy est born´ee dans L
p
. Enfin, `a nouveau grˆace au lemme
de Fatou, on a
|h −g
n
|
p
p
=

[h −g
n
[
p
dµ ≤ liminf
N→∞

[g
N
−g
n
[
p
dµ = liminf
N→∞
|g
N
−g
n
|
p
p
≤ (2
−n+1
)
p
47
en majorant pour N > n, |g
N
−g
n
|
p
≤ |g
n+1
−g
n
|
p
+ +|g
N
−g
N−1
|
p
≤ 2
−n+1
. L’in´egalit´e
pr´ec´edente montre que g
n
converge vers h dans L
p
. Cela entraˆıne que f
n
converge vers h et
termine la preuve.
Exemple. Si E = N et µ est la mesure de comptage, pour tout p ∈ [1, ∞[, l’espace L
p
est
l’espace des suites a = (a
n
)
n∈N
de r´eels tels que

¸
n=0
[a
n
[
p
< ∞
muni de la norme
|a|
p
=


¸
n=0
[a
n
[
p

1/p
.
L’espace L

est simplement l’espace des suites (a
n
)
n∈N
qui sont born´ees, muni de la norme
|a|

= sup(a
n
). Remarquons que dans ce cas il n’y a pas d’ensemble non vide de mesure
nulle et donc L
p
co¨ıncide avec L
p
. Cet espace est en g´en´eral not´e ℓ
p
= ℓ
p
(N). Il joue un rˆole
important dans la th´eorie des espaces de Banach.
La derni`ere preuve fait apparaˆıtre un r´esultat interm´ediaire qui m´erite d’ˆetre ´enonc´e.
Proposition 4.2.3 Soit p ∈ [1, ∞[ et soit (f
n
) une suite qui converge vers f dans L
p
(E, /, µ).
Il existe alors une sous-suite (f
kn
) qui converge µ p.p. vers f.
Remarque. Le r´esultat est aussi vrai pour p = ∞, mais dans ce cas l’extraction d’une sous-
suite n’est pas n´ecessaire puisque la convergence L

´equivaut `a une convergence uniforme
sauf sur un ensemble de mesure nulle.
On peut se demander si inversement la convergence µ p.p. entraˆıne la convergence L
p
.
Cela n’est pas vrai, mais le th´eor`eme de convergence domin´ee montre que si :
(i) f
n
−→ f, µ p.p.
(ii) Il existe une fonction g ≥ 0 telle que

[f[
p
dµ < ∞ et ∀n, [f
n
[ ≤ g, µ p.p.
alors f
n
−→ f dans L
p
.
Exercice. On suppose µ(E) < ∞. Soit p ∈ [1, ∞[. Montrer que les conditions
(i) f
n
−→ f, µ p.p.
(ii) Il existe r > p tel que sup
n

[f
n
[
r
dµ < ∞
entraˆınent f
n
−→ f dans L
p
.
Le cas p = 2 du th´eor`eme de Riesz est particuli`erement important puisque l’espace L
2
a
une structure d’espace de Hilbert.
48
Th´eor`eme 4.2.4 L’espace L
2
(E, /, µ) muni du produit scalaire
'f, g` =

fg dµ
est un espace de Hilbert (r´eel).
Preuve. L’in´egalit´e de Cauchy-Schwarz montre que si f, g ∈ L
2
, fg est int´egrable et donc
'f, g` est bien d´efini. Ensuite il est clair que (f, g) −→ 'f, g` d´efinit une forme bilin´eaire
sym´etrique d´efinie positive, et que la norme associ´ee est la norme |f|
2
. Le caract`ere complet
d´ecoule du th´eor`eme de Riesz.
On peut donc appliquer `a L
2
(E, /, µ) les r´esultats classiques sur les espaces de Hilbert.
En particulier, si Φ : L
2
(E, /, µ) −→R est une forme lin´eaire continue, il existe un (unique)
´el´ement g de L
2
(E, /, µ) tel que ∀f ∈ L
2
, Φ(f) = 'f, g`. Ce r´esultat nous sera utile dans la
suite de ce chapitre.
Remarque. Comme les r´esultats pr´ec´edents, le th´eor`eme ci-dessus s’´etend au cas complexe.
L’espace L
2
C
(E, /, µ) est un espace de Hilbert complexe pour le produit scalaire
'f, g` =

f¯ g dµ.
4.3 Th´eor`emes de densit´e dans les espaces L
p
Si (E, d) est un espace m´etrique, une mesure µ sur (E, B(E)) est dite ext´erieurement r´eguli`ere
si
∀A ∈ B(E) , µ(A) = inf¦µ(U) : U ouvert, A ⊂ U¦.
Une fonction f : E −→R est dite lipschitzienne s’il existe une constante K telle que
∀x, y ∈ E , [f(x) −f(y)[ ≤ K d(x, y).
Th´eor`eme 4.3.1 Soit p ∈ [1, ∞[.
(1) L’espace des fonctions ´etag´ees int´egrables est dense dans L
p
(E, /, µ).
(2) Si (E, d) est un espace m´etrique, et µ une mesure ext´erieurement r´eguli`ere sur
(E, B(E)), l’espace des fonctions lipschitziennes born´ees qui sont dans L
p
est dense dans
L
p
(E, B(E), µ).
(3) Si (E, d) est un espace m´etrique localement compact s´eparable, et µ une mesure de
Radon sur E, alors l’espace des fonctions lipschitziennes `a support compact est dense dans
L
p
(E, B(E), µ).
Preuve. (1) En d´ecomposant f = f
+
− f

, il suffit de montrer que si f ∈ L
p
est positive,
alors f est limite dans L
p
d’une suite de fonctions ´etag´ees. On sait que
f = lim
n→∞
↑ ϕ
n
49
o` u pour chaque n, 0 ≤ ϕ
n
≤ f et ϕ
n
est ´etag´ee. Alors,


n
[
p
dµ ≤

[f[
p
dµ < ∞ et donc
ϕ
n
∈ L
p
(ce qui pour une fonction ´etag´ee ´equivaut `a ϕ
n
∈ L
1
). Puisque [f − ϕ
n
[
p
≤ f
p
, le
th´eor`eme de convergence domin´ee donne
lim
n→∞

[f −ϕ
n
[
p
dµ = 0.
(2) Il suffit de montrer que toute fonction ´etag´ee int´egrable est limite dans L
p
de fonctions
lipschitziennes born´ees. On se ram`ene ais´ement au cas f = 1
A
, A ∈ B(E), µ(A) < ∞. Soit
alors ε > 0. On peut trouver un ouvert O contenant A tel que µ(O`A) < (ε/2)
p
, et donc
|1
O
−1
A
|
p
<
ε
2
.
Ensuite, pour tout k ≥ 1, on pose ϕ
k
(x) = (k d(x, O
c
)) ∧1. La fonction ϕ
k
est lipschitzienne
et ϕ
k
↑ 1
O
quand k → ∞. Par convergence domin´ee,

[1
O
− ϕ
k
[
p
dµ −→ 0 quand k → ∞,
et donc on peut choisir k assez grand pour que
|1
O
−ϕ
k
|
p
<
ε
2
.
Finalement,
|1
A
−ϕ
k
|
p
≤ |1
A
−1
O
|
p
+|1
O
−ϕ
k
|
p
< ε.
(3) On utilise le lemme suivant, dont la preuve est repouss´ee `a la fin de la d´emonstration.
Rappelons que si A est un sous-ensemble de E,

A d´esigne l’int´erieur de A.
Lemme 4.3.2 Soit E un espace m´etrique localement compact s´eparable. Alors il existe une
suite croissante de compacts (L
n
)
n≥1
tels que, pour tout n, L
n


L
n+1
et E =
¸
n≥1
L
n
=
¸
n≥1

L
n
.
Il est facile de d´eduire du lemme que toute mesure de Radon µ sur E est ext´erieurement
r´eguli`ere (ce qui a d´ej`a ´et´e vu, sans d´emonstration, dans l’´enonc´e du th´eor`eme de repr´esenta-
tion de Riesz). En effet, si A est un bor´elien de E, on peut en consid´erant la restriction de
µ `a

L
n
(qui est une mesure finie) appliquer un r´esultat de r´egularit´e ext´erieure du chapitre
pr´ec´edent et trouver pour chaque n un ouvert O
n


L
n
tel que A∩

L
n
⊂ O
n
et
µ(O
n
`(A∩

L
n
)) ≤ ε 2
−n
.
Alors la r´eunion O des O
n
est un ouvert de E et
µ(O`A) ≤
¸
n≥1
µ(O
n
`(A∩

L
n
)) ≤ ε.
Ensuite, puisque µ est ext´erieurement r´eguli`ere, on peut appliquer la partie (2) du
th´eor`eme. On est ainsi ramen´e `a montrer que toute fonction f lipschitzienne born´ee telle
50
que

[f[
p
dµ < ∞ est limite dans L
p
de fonctions lipschitziennes `a support compact (noter
que celles-ci sont automatiquement dans L
p
). Par convergence domin´ee, on a
lim
n→∞

(

Ln)
c
[f[
p
dµ = 0,
et donc |f −f1◦
L
n
|
p
−→ 0. D’autre part, pour chaque n fix´e, et pour tout k ≥ 1, soit
ϕ
n,k
(x) = k d(x, (

L
n
)
c
) ∧ 1.
Alors ϕ
n,k
∈ L
p
puisque ϕ
n,k
≤ 1◦
L
n
. De plus, par convergence domin´ee `a nouveau, on voit
que pour chaque n fix´e, ϕ
n,k
converge vers 1◦
L
n
dans L
p
quand k → ∞. Finalement, en
´ecrivant
|f −fϕ
n,k
|
p
≤ |f −f1◦
Ln
|
p
+|f1◦
Ln
−fϕ
n,k
|
p
≤ |f −f1◦
Ln
|
p
+|f|

|1◦
Ln
−ϕ
n,k
|
p
et en choisissant n puis k assez grands, on approche f dans L
p
par la fonction fϕ
n,k
qui est
lipschitzienne `a support compact.
Preuve du lemme. On montre d’abord que E est r´eunion d’une suite croissante de com-
pacts (K
n
)
n≥1
. Pour cela, soit (x
p
)
p≥0
une suite dense dans E. Introduisons l’ensemble I de
couples d’entiers d´efini par
I = ¦(p, k) ∈ N
2
:
¯
B(x
p
, 2
−k
) est compact¦,
o` u
¯
B(x, r) d´esigne la boule ferm´ee de centre x et de rayon r. En utilisant le fait que E est
localement compact et la densit´e de la suite (x
p
) il est facile de voir que
E =
¸
(p,k)∈I
¯
B(x
p
, 2
−k
).
Par ailleurs, I ´etant d´enombrable, on peut trouver une suite croissante de sous-ensembles
finis I
n
, n ≥ 1 de I tels que I soit la r´eunion des I
n
. Alors il suffit de poser
K
n
=
¸
(p,k)∈In
¯
B(x
p
, 2
−k
)
pour avoir les propri´et´es recherch´ees.
Ensuite, on construit la suite (L
n
) par r´ecurrence sur n. On prend L
1
= K
1
. Si on a
construit L
n
, on recouvre le compact K
n+1
∪ L
n
par une r´eunion finie V
1
∪ V
2
∪ . . . ∪ V
p
de voisinages ouverts d’adh´erence compacte de points de K
n+1
∪ L
n
, et on prend L
n+1
=
¯
V
1

¯
V
2
∪ . . . ∪
¯
V
p
.
Cons´equences. Pour p ∈ [1, ∞[, on a :
(i) L’espace C
c
(R
d
) des fonctions continues `a support compact sur R
d
est dense dans
L
p
(R
d
, B(R
d
), λ). On peut remplacer λ par n’importe quelle mesure de Radon sur (R
d
, B(R
d
)).
51
(ii) L’ensemble des fonctions en escalier (`a support compact) est dense dans L
p
(R, B(R), λ).
En effet il sufit de v´erifier que toute fonction f ∈ C
c
(R) est limite dans L
p
de fonctions en
escalier. Cela se voit en ´ecrivant
f = lim
n→∞

¸
k∈Z
f(
k
n
) 1
[
k
n
,
k+1
n
[

.
Application. Si f ∈ L
1
(R, B(R), λ),
ˆ
f(ξ) −→
|ξ|→∞
0.
On se ram`ene par densit´e au cas o` u f est une fonction en escalier : si f est limite dans L
1
d’une suite (ϕ
n
) de fonctions en escalier,
sup
ξ∈R
[
ˆ
f(ξ) − ˆ ϕ
n
(ξ)[ = sup
ξ∈R

f(x)e
ixξ
dx −

ϕ
n
(x)e
ixξ
dx

≤ |f −ϕ
n
|
1
qui tend vers 0 quand n → ∞. Ensuite, si f est en escalier, f =
p
¸
j=1
λ
j
1
]x
j
,x
j+1
[
, on a
ˆ
f(ξ) =
p
¸
j=1
λ
j

e
iξx
j+1
−e
iξx
j

−→
|ξ|→∞
0,
d’o` u le r´esultat voulu.
4.4 Le th´eor`eme de Radon-Nikodym
D´efinition 4.4.1 Soient µ et ν deux mesures sur (E, /). On dit que:
(i) ν est absolument continue par rapport `a µ (notation ν ≪ µ) si
∀A ∈ /, µ(A) = 0 ⇒ ν(A) = 0.
(ii) ν est ´etrang`ere `a µ (notation ν ⊥ µ) s’il existe N ∈ / tel que µ(N) = 0 et ν(N
c
) = 0.
Exemple. Si f est mesurable positive , la mesure ν = f µ d´efinie par
ν(A) =

A
f dµ
est absolument continue par rapport `a µ.
Th´eor`eme 4.4.1 (Radon-Nikodym) Soient µ et ν deux mesures σ-finies sur (E, /). Il
existe alors un unique couple (ν
a
, ν
s
) de mesures σ-finies sur (E, /) telles que
52
(1) ν = ν
a
+ ν
s
.
(2) ν
a
≪ µ et ν
s
⊥ µ.
De plus, il existe une fonction mesurable g : E −→R
+
telle que
∀A ∈ /, ν
a
(A) =

A
g dµ
et la fonction g est unique `a un ensemble de µ-mesure nulle pr`es.
Preuve. On traite d’abord en d´etail le cas o` u les deux mesures µ et ν sont finies. L’extension
au cas σ-fini ne pr´esentera pas de difficult´e.
Cas o` u µ ≥ ν. Dans un premier temps, on suppose ν ≤ µ, c’est-`a-dire

g dν ≤

g dµ
pour toute fonction mesurable positive g. Consid´erons alors l’application Φ : L
2
(E, /, µ) −→
R d´efinie par
Φ(f) =

f dν.
Remarquons que l’int´egrale a bien un sens puisque

[f[dν ≤

[f[dµ
et on sait que pour une mesure finie L
2
(µ) ⊂ L
1
(µ). De plus, Φ(f) ne d´epend pas du
repr´esentant de f choisi pour calculer

fdν :
f =
˜
f, µ p.p. ⇒ f =
˜
f, ν p.p. ⇒

fdν =

fd˜ ν.
L’in´egalit´e de Cauchy-Schwarz montre que
[Φ(f)[ ≤

f
2

1/2
ν(E)
1/2

f
2

1/2
ν(E)
1/2
= ν(E)
1/2
|f|
L
2
(µ)
.
Donc Φ est une forme lin´eaire continue sur L
2
(E, /, µ) et on sait alors qu’il existe une
fonction h ∈ L
2
(E, /, µ) telle que
∀f ∈ L
2
(E, /, µ), Φ(f) = 'f, h` =

fh dµ.
En particulier, en prenant f = 1
A
,
∀A ∈ /, ν(A) =

A
h dµ.
On peut aussi remarquer que 0 ≤ h ≤ 1, µ p.p. En effet, pour tout ε > 0,
µ(¦x : h(x) ≥ 1+ε¦) ≥ ν(¦x : h(x) ≥ 1+ε¦) =

{x:h(x)≥1+ε}
hdµ ≥ (1+ε)µ(¦x : h(x) ≥ 1+ε¦)
53
ce qui implique µ(¦x : h(x) ≥ 1+ε¦) = 0. On montre de mˆeme que h ≥ 0 µ p.p. Remarquons
que quitte `a remplacer h par (h ∨ 0) ∧ 1, on peut supposer 0 ≤ h(x) ≤ 1 pour tout x ∈ E.
Cas g´en´eral. On applique la premi`ere partie de la preuve aux mesures ν et µ+ν. Il existe
donc une fonction mesurable h telle que 0 ≤ h ≤ 1 et, pour toute fonction f ∈ L
2
(µ + ν),

f dν =

fh d(µ + ν).
En particulier, pour toute fonction f mesurable born´ee,

f dν =

fh dµ +

fh dν
d’o` u
f(1 −h) dν =

fh dµ.
En utilisant le th´eor`eme de convergence monotone, on voit que cette derni`ere ´egalit´e est
vraie pour toute fonction f mesurable positive.
Posons N = ¦x ∈ E : h(x) = 1¦. Alors en prenant f = 1
N
, on voit que µ(N) = 0. La
mesure
ν
s
= 1
N
ν (∀A ∈ /, ν
s
(A) = ν(A ∩ N))
est donc ´etrang`ere `a µ. D’autre part, en rempla¸ cant f par 1
N
c(1 − h)
−1
f dans l’´egalit´e
ci-dessus, on trouve que pour toute fonction f mesurable positive,

N
c
f dν =

N
c
f
h
1 −h
dµ =

fg dµ,
o` u g = 1
N
c
h
1−h
. En posant
ν
a
= 1
N
c ν = g µ
on a bien les propri´et´es (1) et (2) du th´eor`eme, et la repr´esentation annonc´ee pour ν
a
.
L’unicit´e du couple (ν
a
, ν
s
) est facile. Si (˜ ν
a
, ˜ ν
s
) est un autre couple avec les propri´et´es
(1) et (2), on a
∀A ∈ /, ν
a
(A) − ˜ ν
a
(A) = ν
s
(A) − ˜ ν
s
(A).
Mais comme ν
s
et ˜ ν
s
sont port´ees respectivement par des ensembles N et
˜
N de µ-mesure
nulle, on a
ν
s
(A) −˜ ν
s
(A) = ν
s
(A∩(N ∪
˜
N)) −˜ ν
s
(A∩(N∪
˜
N)) = ν
a
(A∩(N ∪
˜
N)) −˜ ν
a
(A∩(N∪
˜
N)) = 0
`a cause de la propri´et´e ν
a
≪ µ, ˜ ν
a
≪ µ. Enfin, pour obtenir l’unicit´e de g, on se donne une
autre fonction ˜ g avec la mˆeme propri´et´e, et on observe que

{˜ g>g}
˜ g dµ = ν
a
(¦˜ g > g¦) =

{˜ g>g}
g dµ,
d’o` u
{˜ g>g}
(˜ g −g) dµ = 0
54
ce qui force ˜ g ≤ g, µ p.p. et par sym´etrie g = ˜ g, µ p.p.
Il reste `a s’affranchir de l’hypoth`ese suppl´ementaire que µ et ν sont finies. Si µ et ν sont
seulement σ-finies, on peut construire une partition mesurable d´enombrable (E
n
)
n∈N
de E
de mani`ere que µ(E
n
) < ∞ et ν(E
n
) < ∞ pour tout n. Notons µ
n
la restriction de µ `a E
n
et ν
n
la restriction de ν `a E
n
. En appliquant le d´ebut de la preuve on peut ´ecrire pour tout
n ∈ N,
ν
n
= ν
n
a
+ ν
n
s
o` u ν
n
s
⊥ µ
n
, et ν
n
a
= g
n
µ
n
, la fonction mesurable g
n
´etant nulle sur E
c
n
(puisque µ
n
(E
c
n
) = 0,
il est clair qu’on peut imposer cette derni`ere condition). On obtient le r´esultat du th´eor`eme
en posant
ν
a
=
¸
n∈N
ν
n
a
, ν
s
=
¸
n∈N
ν
n
s
, g =
¸
n∈N
g
n
.
(Dans la derni`ere somme, remarquer que pour chaque x ∈ E il y a au plus une valeur de n
pour laquelle g
n
(x) > 0.) La v´erification des propri´et´es d’unicit´e ne pr´esente pas de difficult´e.

55
56
Chapitre 5
Mesures produits
Etant donn´e deux espaces mesurables munis chacun d’une mesure, on peut construire sur
leur produit cart´esien une mesure appel´ee la mesure produit. De plus l’int´egrale d’une
fonction d´efinie sur l’espace produit peut ˆetre calcul´ee en int´egrant d’abord par rapport `a la
mesure sur le premier espace puis par rapport `a la mesure sur le second, ou bien dans l’ordre
inverse : c’est le fameux th´eor`eme de Fubini. Outre ses applications importantes en analyse
(int´egration par parties, convolution, etc.) ou en th´eorie des probabilit´es, le th´eor`eme de
Fubini est un outil essentiel pour le calcul effectif des int´egrales.
5.1 G´en´eralit´es sur les espaces produits
Soient (E, /) et (F, B) deux espaces mesurables. On peut alors munir le produit E F de
la tribu-produit
/⊗B = σ(AB; A ∈ /, B ∈ B).
Les ensembles de la forme AB sont appel´es pav´es mesurables. Il est facile de v´erifier que
/⊗B est la plus petite tribu sur EF qui rende mesurables les deux projections canoniques
π
1
: E F −→ E et π
2
: E F −→ F.
Soit (G, () un troisi`eme espace mesurable, et soit f : G −→ E F. Notons f(x) =
(f
1
(x), f
2
(x)). On a vu dans le Chapitre 1 que f est mesurable (E F ´etant muni de la
tribu produit) ssi les deux applications f
1
et f
2
le sont.
On ´etend facilement la d´efinition de la tribu produit au cas d’un nombre fini quelconque
d’espaces mesurables (E
1
, /
1
), . . . , (E
n
, /
n
) :
/
1
⊗/
2
⊗ ⊗/
n
= σ(A
1
A
n
; A
i
∈ /
i
)
et on a les propri´et´es d’“associativit´e” attendues, `a savoir par exemple pour n = 3,
(/
1
⊗/
2
) ⊗/
3
= /
1
⊗(/
2
⊗/
3
) = /
1
⊗/
2
⊗/
3
.
Proposition 5.1.1 Si E et F sont deux espaces m´etriques s´eparables, on a
B(E F) = B(E) ⊗B(F).
57
Preuve. L’inclusion B(E F) ⊃ B(E) ⊗ B(F) est vraie sans hypoth`ese de s´eparabilit´e :
elle d´ecoule de ce que les projections π
1
et π
2
sont continues donc mesurables pour la tribu
B(E F).
Dans l’autre sens, on observe qu’on peut trouver un ensemble d´enombrable d’ouverts
| = ¦U
n
, n ≥ 1¦ de E tels que tout ouvert de E soit r´eunion d’une sous-famille de | (si
(x
k
) est une suite dense dans E, il suffit de prendre pour | les boules ouvertes de rayon
rationnel centr´ees en l’un des x
k
). Soit 1 = ¦V
n
, n ≥ 1¦ une famille analogue pour F. Pour
tout ouvert O de E F et tout z = (x, y) ∈ O, on sait que O contient un ouvert de la
forme U V , o` u U, resp. V , est un ouvert de E, resp. de F, contenant x, resp. y. Il
en d´ecoule que O doit ˆetre r´eunion (au plus d´enombrable) d’une sous-famille de la famille
¦U
n
V
m
; n, m ≥ 1¦. Donc tout ouvert de E F est mesurable pour B(E) ⊗ B(F) et cela
entraˆıne B(E F) ⊂ B(E) ⊗B(F).
On revient au cas o` u (E, /) et (F, B) sont deux espaces mesurables quelconques. Si
C ⊂ E F, on pose pour x ∈ E
C
x
= ¦y ∈ F : (x, y) ∈ C¦
et pour y ∈ F,
C
y
= ¦x ∈ E : (x, y) ∈ C¦.
Si f est une fonction d´efinie sur E F, on note pour x ∈ E, f
x
(y) = f(x, y) et pour y ∈ F,
f
y
(x) = f(x, y).
Th´eor`eme 5.1.2 (i) Soit C ∈ /⊗B. Alors, pour tout x ∈ E, C
x
∈ B et pour tout y ∈ F,
C
y
∈ /.
(ii) Soit f : EF −→ G une application mesurable pour la tribu produit /⊗B. Alors, pour
tout x ∈ E, f
x
est B-mesurable, et pour tout y ∈ F, f
y
est /-mesurable.
Preuve. (i) Fixons x ∈ E et posons
( = ¦C ∈ /⊗B : C
x
∈ B¦.
Alors ( contient les pav´es mesurables (si C = A B, C
x
= B ou C
x
= ∅ selon que x ∈ A
ou x / ∈ A). Par ailleurs il est facile de v´erifier que ( est une tribu, et donc ( = /⊗B.
(ii) Pour toute partie mesurable D de G,
f
−1
x
(D) = ¦y ∈ F : (x, y) ∈ f
−1
(D)¦ = (f
−1
(D))
x
qui est dans B d’apr`es (i).
5.2 Construction de la mesure-produit
Th´eor`eme 5.2.1 Soient µ et ν deux mesures σ-finies respectivement sur (E, /) et sur
(F, B).
58
(i) Il existe une unique mesure m sur (E F, /⊗B) telle que
∀A ∈ /, ∀B ∈ B, m(AB) = µ(A)ν(B)
(avec la convention usuelle 0 ∞ = 0). Cette mesure est σ-finie, et est not´ee m = µ ⊗ν.
(ii) Pour tout C ∈ /⊗B,
µ ⊗ν(C) =

E
ν(C
x
) µ(dx) =

F
µ(C
y
) ν(dy).
Preuve. Unicit´e. Il existe une suite croissante A
n
∈ /, resp. B
n
∈ B, telle que µ(A
n
) < ∞,
resp. µ(B
n
) < ∞, pour tout n, et E = ∪A
n
, resp. F = ∪B
n
. Alors, si C
n
= A
n
B
n
, on a
aussi
E F =
¸
n
C
n
.
Soient m et m

deux mesures sur / ⊗ B v´erifiant la propri´et´e ´enonc´ee en (i) du th´eor`eme.
Alors,
• m et m

co¨ıncident sur la classe des pav´es mesurables, qui est stable par intersection finie
et engendre la tribu /⊗B;
• pour tout n, m(C
n
) = µ(A
n
)ν(B
n
) = m

(C
n
) < ∞.
D’apr`es une cons´equence du lemme de classe monotone vue dans le Chapitre 1, cela suffit
pour dire que m = m

.
Existence. On pose pour tout C ∈ /⊗B,
m(C) =

E
ν(C
x
) µ(dx). (5.1)
Remarquons que ν(C
x
) est bien d´efinie pour tout x ∈ E d’apr`es le th´eor`eme pr´ec´edent. Pour
v´erifier que la formule (5.1) a bien un sens il faut aussi montrer que l’application x −→ ν(C
x
)
est /-mesurable.
Supposons d’abord ν finie et posons
( = ¦C ∈ /⊗B : x −→ ν(C
x
) est /-mesurable¦.
Alors
• ( contient les pav´es mesurables : si C = AB, ν(C
x
) = 1
A
(x)ν(B).
• ( est une classe monotone : si C ⊂ C

, on a ν((C`C

)
x
) = ν(C
x
) − ν(C

x
) (parce que ν
est finie !) et si C
n
est une suite croissante, ν((∪C
n
)
x
) = lim ↑ ν((C
n
)
x
).
D’apr`es le lemme de classe monotone, on a donc ( = / ⊗ B, ce qui donne la mesurabilit´e
recherch´ee pour l’application x −→ ν(C
x
).
Dans le cas g´en´eral o` u ν n’est pas finie mais seulement σ-finie, on choisit la suite (B
n
)
comme ci-dessus et on peut remplacer ν par ν
n
(B) = ν(B ∩ B
n
), pour obtenir que x −→
ν(C
x
) = lim ↑ ν
n
(C
x
) est mesurable pour tout C ∈ /⊗B.
59
Il est ensuite facile de montrer que m est une mesure sur /⊗B : si (C
n
) est une famille
de parties disjointes dans /⊗B, les (C
n
)
x
sont aussi disjoints pour tout x ∈ E, et donc
m

¸
n
C
n

=

E
ν

¸
n
(C
n
)
x

µ(dx)
=

E
¸
n
ν((C
n
)
x
) µ(dx)
=
¸
n

E
ν((C
n
)
x
) µ(dx)
=
¸
n
m(C
n
)
l’interversion entre somme et int´egrale ´etant justifi´ee par un r´esultat du Chapitre 2.
Il est imm´ediat que m v´erifie la propri´et´e
m(AB) = µ(A)ν(B).
Par ailleurs, si on d´efinit m

par
m

(C) =

F
µ(C
y
) ν(dy),
les mˆemes arguments montrent que m

est une mesure sur /⊗B qui v´erifie la mˆeme propri´et´e,
ce qui d’apr`es l’unicit´e entraˆıne m = m

. On en d´eduit l’assertion (ii) du th´eor`eme, ce qui
compl`ete la preuve.
Remarques. (i) L’hypoth`ese de σ-finitude est essentielle au moins pour la partie (ii). En
effet, si on prend (E, /) = (F, B) = (R, B(R)), µ = λ et ν la mesure de comptage, on
remarque que pour C = ¦(x, x) : x ∈ R¦,
∞ =

ν(C
x
) λ(dx) =

λ(C
y
) ν(dy) = 0.
(ii) Si on a maintenant n mesures σ-finies µ
1
, . . . , µ
n
, on peut d´efinir le produit µ
1
⊗ ⊗µ
n
en posant
µ
1
⊗ ⊗µ
n
= µ
1
⊗(µ
2
⊗( ⊗µ
n
)).
L’ordre des parenth`eses n’a en fait pas d’importance car la mesure µ
1
⊗ ⊗µ
n
est caract´eris´ee
par ses valeurs sur les pav´es
µ
1
⊗ ⊗µ
n
(A
1
A
n
) = µ
1
(A
1
) . . . µ
n
(A
n
).
Exemple. Si (E, /) = (F, B) = (R, B(R)), et µ = ν = λ, on v´erifie facilement que λ⊗λ est
la mesure de Lebesgue sur R
2
(observer que la mesure de Lebesgue sur R
2
est caract´eris´ee
par ses valeurs sur les rectangles [a, b] [c, d], toujours d’apr`es le lemme de classe monotone).
Ceci se g´en´eralise en dimension sup´erieure et montre qu’il aurait suffi de construire la mesure
de Lebesgue en dimension un.
60
5.3 Le th´eor`eme de Fubini
On commence par donner l’´enonc´e qui concerne les fonctions positives. Comme dans le
paragraphe pr´ec´edent, on consid`ere deux espaces mesurables (E, /) et (F, B), et le produit
E F est muni de la tribu /⊗B.
Th´eor`eme 5.3.1 (Fubini-Tonnelli) Soient µ et ν deux mesures σ-finies respectivement
sur (E, /) et sur (F, B), et soit f : E F −→ [0, ∞] une fonction mesurable.
(i) Les fonctions
x −→

f(x, y) ν(dy)
y −→

f(x, y) µ(dx)
sont respectivement /-mesurable et B-mesurable.
(ii) On a

E×F
f dµ ⊗ν =

E

F
f(x, y) ν(dy)

µ(dx) =

F

E
f(x, y) µ(dx)

ν(dy).
Preuve. (i) Soit C ∈ /⊗B. Si f = 1
C
, on a d´ej`a vu que la fonction x −→

f(x, y)ν(dy) =
ν(C
x
) est /-mesurable, et de mˆeme y −→

f(x, y)µ(dx) = µ(C
y
) est B-mesurable. Par
lin´earit´e, on en d´eduit que le r´esultat de (i) est vrai pour toute fonction ´etag´ee positive.
Enfin, si f est quelconque, on peut ´ecrire f = lim ↑ f
n
, o` u les fonctions f
n
sont ´etag´ees
positives, et on utilise le fait qu’alors

f(x, y) ν(dy) = lim ↑

f
n
(x, y) ν(dy)
et de mˆeme pour

f(x, y) µ(dx).
(ii) Pour f = 1
C
, l’´egalit´e annonc´ee est
µ ⊗ν(C) =

E
ν(C
x
) µ(dx) =

F
µ(C
x
) ν(dy)
et a d´ej`a ´et´e vue dans le paragraphe pr´ec´edent. On en d´eduit par lin´earit´e le r´esultat voulu
quand f est ´etag´ee positive, puis par limite croissante pour f quelconque : on remarque par
exemple que si f = lim ↑ f
n
,

E

F
f(x, y) ν(dy)

µ(dx) = lim ↑

E

F
f
n
(x, y) ν(dy)

µ(dx)
par une double application du th´eor`eme de convergence monotone.
Nous passons maintenant au cas de fonctions de signe quelconque. On conserve les
hypoth`eses du th´eor`eme pr´ec´edent.
61
Th´eor`eme 5.3.2 (Fubini-Lebesgue) Soit f ∈ L
1
(E F, /⊗ B, µ ⊗ν) (ou f ∈ L
1
C
(E
F, /⊗B, µ ⊗ν)). Alors
(a) µ(dx) p.p. la fonction y −→ f(x, y) est dans L
1
(F, B, ν),
ν(dy) p.p. la fonction x −→ f(x, y) est dans L
1
(E, /, µ).
(b) Les fonctions x −→

f(x, y) ν(dy) et y −→

f(x, y) µ(dx), bien d´efinies sauf sur un
ensemble mesurable de mesure nulle, sont respectivement dans L
1
(E, /, µ) et L
1
(F, B, ν).
(c) On a

E×F
f dµ ⊗ν =

E

F
f(x, y) ν(dy)

µ(dx) =

F

E
f(x, y) µ(dx)

ν(dy).
Preuve. (a) En appliquant le th´eor`eme pr´ec´edent `a [f[,

E

F
[f(x, y)[ ν(dy)

µ(dx) =

[f[ dµ ⊗ν < ∞.
cela entraˆıne que µ(dx) p.p.

F
[f(x, y)[ ν(dy) < ∞
et donc la fonction y −→ f(x, y), dont on sait d´ej`a qu’elle est mesurable, est dans L
1
(F, B, ν).
(b) En ´ecrivant f = f
+
−f

et en utilisant le th´eor`eme pr´ec´edent, on voit que
x −→

f(x, y) ν(dy) =

f
+
(x, y) ν(dy) −

f

(x, y) ν(dy)
est mesurable (pour ˆetre pr´ecis, il faudrait donner une valeur arbitraire, par exemple 0, `a
l’int´egrale

f(x, y) ν(dy) pour les x tels que

[f(x, y)[ ν(dy) = ∞, qui forment un ensemble
de mesure nulle). De plus,

E

F
f(x, y) ν(dy)

µ(dx) ≤

E

F
[f(x, y)[ ν(dy)

µ(dx) =

[f[ dµ ⊗ν < ∞.
(c) Il suffit de faire la diff´erence terme `a terme dans les ´egalit´es

E

F
f
+
(x, y) ν(dy)

µ(dx) =

E×F
f
+
dµ ⊗ν

E

F
f

(x, y) ν(dy)

µ(dx) =

E×F
f

dµ ⊗ν.

Remarque. L’hypoth`ese f ∈ L
1
(µ⊗ν) est cruciale. Il peut arriver en effet que les propri´et´es
(a) et (b) soient toutes les deux satisfaites, et donc que les quantit´es

E

F
f(x, y) ν(dy)

µ(dx) et

F

E
f(x, y) µ(dx)

ν(dy)
62
soient bien d´efinies, sans que ces quantit´es soient ´egales. Pour donner un exemple, con-
sid´erons la fonction
f(x, y) = 2e
−2xy
−e
−xy
d´efinie pour (x, y) ∈]0, ∞[]0, 1]. Alors, pour tout y ∈]0, 1],

]0,∞[
f(x, y) dx = 2


0
e
−2xy
dx −


0
e
−xy
dx = 0
et pour tout x > 0,

]0,1]
f(x, y)dy = 2

1
0
e
−2xy
dy −

1
0
e
−xy
dy =
e
−x
−e
−2x
x
.
On voit alors que

]0,1]

]0,∞[
f(x, y) dx

dy = 0
alors que

]0,∞[

]0,1]
f(x, y)dy

dx =


0
e
−x
−e
−2x
x
dx > 0.
Evidemment dans cet exemple on a

]0,∞[×]0,1[
[f(x, y)[ dxdy = ∞.
En pratique, il faut se souvenir que l’application du th´eor`eme de Fubini est toujours
justifi´ee pour des fonctions mesurables positives, et que dans le cas de fonctions de signe
quelconque, il faut s’assurer que

[f[ dµ ⊗ν < ∞
ce qui se fait le plus souvent en appliquant le cas des fonctions positives.
Notation. Lorsque l’application du th´eor`eme de Fubini est justifi´ee (et seulement dans ce
cas), on omet souvent les parenth`eses et on ´ecrit

f dµ ⊗ν =

E

F
f(x, y) µ(dx)ν(dy).
5.4 Applications
5.4.1 Int´egration par parties
Soient f et g deux fonctions mesurables de R dans R localement int´egrables (i.e. int´egrables
sur tout compact pour la mesure de Lebesgue). On pose pour x ∈ R,
F(x) =

x
0
f(t) dt

=

[0,x]
f(t) dt si x ≥ 0

[x,0]
f(t) dt si x < 0

G(x) =

x
0
g(t) dt.
63
Alors, pour tous a < b,
F(b)G(b) = F(a)G(a) +

b
a
f(t)G(t)dt +

b
a
F(t)g(t)dt.
On voit facilement que cette ´egalit´e ´equivaut `a

b
a
f(t)(G(t) −G(a)) dt =

b
a
(F(b) −F(t))g(t) dt.
Pour ´etablir cette derni`ere ´egalit´e, on ´ecrit

b
a
f(t)(G(t) −G(a)) dt =

b
a
f(t)

t
a
g(s)ds

dt
=

b
a

b
a
1
{s≤t}
f(t)g(s)ds

dt
=

b
a

b
a
1
{s≤t}
f(t)g(s)dt

ds
=

b
a
g(s)

b
s
f(t)dt

ds
=

b
a
g(s)(F(b) −F(s))ds.
Dans la troisi`eme ´egalit´e on a appliqu´e le th´eor`eme de Fubini-Lebesgue `a la fonction
ϕ(s, t) = 1
{s≤t}
f(t)g(s)
en observant que, grˆace au th´eor`eme de Fubini-Tonnelli,

[a,b]
2
[ϕ(s, t)[dsdt ≤

[a,b]
2
[f(t)[[g(s)[dsdt =

[a,b]
[f(t)[dt

[a,b]
[g(s)[ds

< ∞.
5.4.2 Convolution
Si f et g sont deux fonctions mesurables sur R
d
, la convolution
f ∗ g(x) =

R
d
f(x −y)g(y) dy
est bien d´efinie `a condition que

R
d
[f(x −y)g(y)[ dy < ∞.
Dans ce cas, l’invariance de la mesure de Lebesgue par translation et par la sym´etrie y → −y
entraˆıne aussitˆot que g ∗ f(x) est bien d´efinie et g ∗ f(x) = f ∗ g(x).
64
Proposition 5.4.1 Soient f, g ∈ L
1
(R
d
, B(R
d
), λ). Alors, pour λ presque tout x ∈ R
d
, la
convolution f ∗ g(x) est bien d´efinie. De plus, f ∗ g ∈ L
1
(λ) et |f ∗ g|
1
≤ |f|
1
|g|
1
.
Remarque. Cela a bien un sens de dire qu’une fonction d´efinie λ presque partout est dans
L
1
(λ) : on peut choisir de mani`ere arbitraire le prolongement sur l’ensemble o` u la fonction
n’est pas d´efinie.
Preuve. D’apr`es le th´eor`eme de Fubini-Tonnelli,

R
d

R
d
[f(x −t)[[g(t)[dt

dx =

R
d

R
d
[f(x −t)[[g(t)[dx

dt
=

R
d
[g(t)[

R
d
[f(x −t)[dx

dt
=

R
d
[g(t)[dt

R
d
[f(x)[dx

< ∞
ce qui montre que

R
d
[f(x −t)[[g(t)[dt < ∞ dx p.p.
et donne la premi`ere assertion. Pour la seconde, on utilise encore le calcul pr´ec´edent pour
´ecrire

R
d
[f ∗ g(x)[dx ≤

R
d

R
d
[f(x −t)[[g(t)[dt

dx = |f|
1
|g|
1
< ∞.

La proposition suivante donne un autre cadre dans lequel on peut consid´erer la convolu-
tion de f et g.
Proposition 5.4.2 Soit p ∈ [1, ∞[, et soit q ∈]1, ∞] tels que
1
p
+
1
q
= 1. Soient f ∈
L
p
((R
d
, B(R
d
), λ) et g ∈ L
q
(R
d
, B(R
d
), λ). Alors, pour tout x ∈ R
d
, la convolution f ∗ g(x)
est bien d´efinie et f ∗ g est uniform´ement continue et born´ee sur R
d
.
Preuve. L’in´egalit´e de H¨older donne

R
d
[f(x −y)g(y)[ dy ≤

[f(x −y)[
p
dy

1/p
|g|
q
= |f|
p
|g|
q
.
Cela donne la premi`ere assertion et montre aussi que f ∗ g est born´ee par |f|
p
|g|
q
. Pour
l’uniforme continuit´e, on utilise le lemme suivant.
Lemme 5.4.3 Notons σ
x
(y) = y − x. Pour f ∈ L
p
(R
d
, B(R
d
), λ), p ∈ [1, ∞[, l’application
x −→ f ◦ σ
x
est uniform´ement continue de R
d
dans L
p
(R
d
, B(R
d
), λ).
65
Si on admet le lemme, il est facile de compl´eter la preuve de la proposition : pour
x, x

∈ R
d
,
[f ∗ g(x) −f ∗ g(x

)[ ≤

[f(x −y) −f(x

−y)[[g(y)[ dy
≤ |g|
q

[f(x −y) −f(x

−y)[
p
dy

1/p
= |g|
q
|f ◦ σ
−x
−f ◦ σ
−x
′ |
p
et on utilise le lemme pour dire que |f ◦ σ
−x
−f ◦ σ
−x
′ |
p
tend vers 0 quand x −x

tend vers
0.
Preuve du lemme. Supposons d’abord f ∈ C
c
(R
d
). Alors,

[f ◦ σ
x
−f ◦ σ
y
[
p
dλ =

[f(z −x) −f(z −y)[
p
dz =

[f(z) −f(z −(y −x))[
p
dz
qui tend vers 0 quand y − x → 0 par convergence domin´ee. Dans le cas g´en´eral, on peut
trouver une suite f
n
∈ C
c
(R
d
) qui converge vers f dans L
p
(λ) (cf Chapitre 4). Alors
|f ◦ σ
x
−f ◦ σ
y
|
p
≤ |f ◦ σ
x
−f
n
◦ σ
x
|
p
+|f
n
◦ σ
x
−f
n
◦ σ
y
|
p
+|f
n
◦ σ
y
−f ◦ σ
y
|
p
= 2|f −f
n
|
p
+|f
n
◦ σ
x
−f
n
◦ σ
y
|
p
.
Pour ε > 0, on choisit d’abord n tel que |f −f
n
|
p
< ε/4, puis δ > 0 tel que |f
n
◦ σ
x
−f
n

σ
y
|
p
≤ ε/2 si [x−y[ < δ. Les in´egalit´es pr´ec´edentes montrent alors que |f ◦σ
x
−f ◦σ
y
|
p
≤ ε
si [x −y[ < δ.
Approximations de la mesure de Dirac. On dit qu’une suite ϕ
n
dans C
c
(R
d
) est une
approximation de δ
0
si :
• Il existe un compact K tel que supp(ϕ
n
) ⊂ K pour tout n.
• Pour tout n, ϕ
n
≥ 0 et

R
d
ϕ
n
(x) dx = 1.
• Pour tout δ > 0,
lim
n→∞

{|x|>δ}
ϕ
n
(x) dx = 0.
Il est facile de construire des approximations de δ
0
. Si ϕ : R
d
−→ R
+
est une fonction
continue `a support compact telle que

ϕ(x)dx = 1, il suffit de poser
ϕ
n
(x) = n
d
ϕ(nx) , x ∈ R
d
.
On peut mˆeme s’arranger pour que les fonctions ϕ
n
soient de classe C

: prendre par
exemple
ϕ(x) = c exp


1
1 −[x[
2

1
{|x|<1}
,
la constante c > 0 ´etant choisie pour que la condition

ϕ(x)dx = 1 soit satisfaite.
66
Proposition 5.4.4 Soit (ϕ
n
) une approximation de δ
0
.
(i) Si f : R
d
−→ R est continue, on a ϕ
n
∗ f −→ f quand n → ∞, uniform´ement sur tout
compact.
(ii) Si f ∈ L
p
(R
d
, B(R
d
), λ), avec p ∈ [1, ∞[, on a ϕ
n
∗ f −→ f dans L
p
.
Preuve. La partie (i) est facile `a ´etablir, en ´ecrivant
ϕ
n
∗ f(x) =

|y|≤δ
f(x −y)ϕ
n
(y)dy +

|y|>δ
f(x −y)ϕ
n
(y)dy
et en utilisant la continuit´e de f. Pour la partie (ii), on observe que si f, g ∈ L
p
(R
d
, λ),


n
∗ f(x) −ϕ
n
∗ g(x)[
p
dx ≤

ϕ
n
(x −y)[f(y) −g(y)[dy

p
dx

ϕ
n
(x −y)[f(y) −g(y)[
p
dy

dx
=

[f(y) −g(y)[
p

ϕ
n
(x −y)dx

dy
=

[f(y) −g(y)[
p
dy
o` u la deuxi`eme in´egalit´e est une cons´equence de l’in´egalit´e de Jensen (observer que ϕ
n
(x −
y)dy est une mesure de probabilit´e). Cette majoration permet de se ramener au cas o` u
f ∈ C
c
(R
d
), et alors le r´esultat d´ecoule de (i) et du th´eor`eme de convergence domin´ee.
Application. En dimension d = 1, on peut prendre
ϕ
n
(x) = c
n
(1 −x
2
)
n
1
{|x|≤1}
o` u la constante c
n
est choisie pour que

ϕ
n
(x)dx = 1. Soit alors [a, b] un intervalle contenu
dans ]0, 1[, et soit f une fonction continue sur [a, b]. On peut facilement prolonger f en une
fonction continue sur R et `a support compact contenu dans [0, 1] (prendre par exemple f
affine sur les intervalles [0, a] et [b, 1]. Alors,
ϕ
n
∗ f(x) = c
n

(1 −(x −y)
2
)
n
1
{|x−y|≤1}
f(y)dy −→ f(x)
uniform´ement sur [a, b]. Pour x ∈ [a, b], on peut clairement enlever l’indicatrice 1
{|x−y|≤1}
, et
on voit que f est limite uniforme sur [a, b] de polynˆomes (th´eor`eme de Stone-Weierstrass).
5.4.3 Calcul du volume de la boule unit´e
On note ici B
d
la boule unit´e ferm´ee de R
d
, et λ
d
la mesure de Lebesgue sur R
d
. En vue de
calculer γ
d
= λ
d
(B
d
) on observe d’abord que pour tout a > 0, l’image de λ
d
par l’application
x −→ ax est a
−d
λ
d
: pour tout A ∈ B(R
d
),
λ
d
(a
−1
A) = a
−d
λ
d
(A)
67
(il suffit de le v´erifier lorsque A est un pav´e, et alors c’est ´evident). En particulier,
λ
d
(aB
d
) = a
d
λ
d
(B
d
).
Ensuite on ´ecrit en utilisant le th´eor`eme de Fubini, si d ≥ 2,
γ
d
=

R
d
1
B
d
(x)dx =

R
d
1
{x
2
1
+···+x
2
d
≤1}
dx
1
. . . dx
d
=

1
−1

R
d−1
1
{x
2
1
+···+x
2
d−1
≤1−x
2
d
}
dx
1
. . . dx
d−1

dx
d
=

1
−1
λ
d−1

1 −x
2
d
B
d−1

dx
d
= γ
d−1

1
−1
(1 −x
2
d
)
(d−1)/2
dx
d
= γ
d−1
I
d−1
`a condition de poser pour tout entier n ≥ 0,
I
n
=

1
−1
(1 −x
2
)
n/2
dx.
Une int´egration par parties simple montre que pour n ≥ 2,
I
n
=
n
n + 1
I
n−2
.
En utilisant les cas particuliers I
0
= 2, I
1
= π/2, on en d´eduit par r´ecurrence que pour tout
d ≥ 2,
I
d−1
I
d−2
=

d
.
En cons´equence, pour d ≥ 3,
γ
d
= I
d−1
I
d−2
γ
d−2
=

d
γ
d−2
.
A partir des cas particuliers γ
1
= 2, γ
2
= γ
1
I
1
= π, on en d´eduit
γ
2k
=
π
k
k!
, γ
2k+1
=
π
k
(k +
1
2
)(k −
1
2
)
3
2

1
2
ce qu’on peut regrouper dans la formule
γ
d
=
π
d/2
Γ(
d
2
+ 1)
.
68
Chapitre 6
Mesures sign´ees
A la diff´erence des chapitres pr´ec´edents, on consid`ere ici des mesures sign´ees, pouvant prendre
aussi bien des valeurs n´egatives que des valeurs positives. Le r´esultat principal de ce chapitre
est la d´ecomposition de Jordan, qui fournit une ´ecriture minimale d’une telle mesure sign´ee
comme la diff´erence de deux mesures positives port´ees par des ensembles mesurables disjoints.
A titre d’application, on ´etablit un th´eor`eme important d’analyse fonctionnelle, qui affirme
que pour deux exposants p et q conjugu´es (
1
p
+
1
q
= 1) l’espace L
q
est le dual topologique de
L
p
.
6.1 D´efinition et variation totale
D´efinition 6.1.1 Soit (E, /) un espace mesurable. Une mesure sign´ee µ sur (E, /) est une
application µ : / −→ R telle que µ(∅) = 0 et que pour toute famille (A
n
)
n∈N
d’´el´ements
disjoints de /, la s´erie
¸
n∈N
µ(A
n
)
converge absolument, et
µ

¸
n∈N
A
n

=
¸
n∈N
µ(A
n
).
Th´eor`eme 6.1.1 Soit µ une mesure sign´ee sur (E, /). Pour tout A ∈ /, posons
[µ[(A) = sup

¸
n∈N
[µ(A
n
)[ : A =
¸
n∈N
A
n
, A
n
disjoints

o` u le supremum porte sur toutes les ´ecritures de A comme r´eunion d’une famille d´enombrable
(A
n
)
n∈N
de parties mesurables disjointes. Alors [µ[ est une mesure positive finie sur (E, /),
et pour tout A ∈ /, [µ(A)[ ≤ [µ[(A).
Preuve. On montre d’abord que [µ[ est une mesure positive. Soit (B
i
)
i∈N
une famille de
parties mesurables disjointes, et B =
¸
i∈N
B
i
. Par d´efinition, si t
i
∈ [0, [µ[(B
i
)[ (ou t
i
= 0
69
dans le cas [µ[(B
i
) = 0), on peut trouver une partition
1
mesurable B
i
=
¸
n∈N
A
n,i
, de fa¸ con
que
¸
n∈N
[µ(A
n,i
)[ ≥ t
i
.
Alors (A
n,i
)
n,i∈N
est une partition d´enombrable de B, et donc
[µ[(B) ≥
¸
i∈N
¸
n∈N
[µ(A
n,i
[ ≥
¸
i∈N
t
i
.
Puisque les t
i
peuvent ˆetre choisis arbitrairement proches des [µ[(B
i
), il en d´ecoule que
[µ[(B) ≥
¸
i∈N
[µ[(B
i
).
Pour obtenir l’in´egalit´e inverse, soit (A
n
)
n∈N
une partition de B. Alors
¸
n∈N
[µ(A
n
)[ =
¸
n∈N
[
¸
i∈N
µ(A
n
∩ B
i
)[

¸
n∈N
¸
i∈N
[µ(A
n
∩ B
i
)[
=
¸
i∈N
¸
n∈N
[µ(A
n
∩ B
i
)[

¸
i∈N
[µ[(B
i
),
la derni`ere in´egalit´e d´ecoulant du fait que les A
n
∩ B
i
, n ∈ N forment une partition de B
i
,
et de la d´efinition de [µ[(B
i
). En prenant le supremum sur les partitions (A
n
)
n∈N
de B, on
trouve
[µ[(B) ≤
¸
i∈N
[µ[(B
i
)
ce qui ach`eve de montrer que [µ[ est une mesure positive.
Comme l’in´egalit´e [µ(A)[ ≤ [µ[(A) est imm´ediate, il reste `a ´etablir que [µ[ est une mesure
finie.
Lemme 6.1.2 Si A ∈ / est tel que [µ[(A) = ∞, alors il existe deux parties mesurables
disjointes B et C telles que A = B ∪ C et [µ(B)[ > 1, [µ[(C) = ∞.
Preuve du lemme. Puisque [µ[(A) = ∞, on peut trouver une partition mesurable A =
¸
n∈N
A
n
de A de fa¸ con que
¸
n∈N
[µ(A
n
)[ > 2(1 +[µ(A)[).
1
On fait un abus de langage puisque dans la d´efinition usuelle d’une partition les ´el´ements de la partition
sont tous non vides, ce qui n’est pas forc´ement le cas ici.
70
On a alors par exemple
¸
n∈N
µ(A
n
)
+
> 1 +[µ(A)[
(le cas sym´etrique
¸
n∈N
µ(A
n
)

> 1 +[µ(A)[ se traite de la mˆeme mani`ere). On pose alors
B =
¸
{n:µ(An)>0}
A
n
de fa¸ con que
µ(B) =
¸
n∈N
µ(A
n
)
+
> 1 +[µ(A)[.
De plus, si C = A`B,
[µ(C)[ = [µ(A) −µ(B)[ ≥ [µ(B)[ −[µ(A)[ > 1.
Par ailleurs, puisque A = B ∪ C et que [µ[ est une mesure on doit avoir [µ[(B) = ∞ ou
[µ(C)[ = ∞, ce qui donne le r´esultat du lemme quitte `a ´echanger les rˆ oles de B et C si
n´ecessaire.
Nous pouvons maintenant compl´eter la preuve du th´eor`eme. On suppose que [µ[(E) =
∞. Alors, on peut trouver des parties mesurables disjointes B
0
et C
0
avec [µ(B
0
)[ > 1 et
[µ[(C
0
) = ∞. En appliquant de mˆeme le lemme `a C
0
on trouve B
1
et C
1
disjoints tels que
C
0
= B
1
∪ C
1
, [µ(B
1
)[ > 1 et [µ[(C
1
) = ∞. Par r´ecurrence, on construit ainsi une suite de
parties mesurables disjointes (B
n
)
n∈N
, telle que [µ(B
n
)[ > 1 pour tout n. Cela contredit le
fait que la s´erie
¸
n∈N
µ(B
n
)
doit converger absolument, d’apr`es la d´efinition d’une mesure sign´ee. On conclut que
[µ[(E) < ∞.
Exemple. Soit ν une mesure positive sur (E, /), et soit g ∈ L
1
(E, /, ν). Alors la formule
ν(A) =

A
g dν
d´efinit une mesure sign´ee. En effet, si A est la r´eunion disjointe d’une suite (A
n
) de parties
mesurables, l’´egalit´e
µ(A) =
¸
n∈N
µ(A
n
)
est obtenue en observant que
g 1
A
= lim
k→∞
g 1

n≤k
An
dans L
1
,
d’apr`es le th´eor`eme de convergence domin´ee. Nous verrons plus loin que dans ce cas [µ[ =
[g[ ν.
71
6.2 La d´ecomposition de Jordan
Soit µ une mesure sign´ee sur (E, /). Alors, on v´erifie imm´ediatement que les formules
µ
+
=
1
2
(µ +[µ[),
µ

=
1
2
([µ[ −µ),
d´efinissent deux mesures positives finies sur (E, /). De plus, µ = µ
+
−µ

et [µ[ = µ
+


.
Th´eor`eme 6.2.1 Soit µ une mesure sign´ee sur (E, /). Il existe une partie mesurable B de
E, unique `a un ensemble de [µ[-mesure nulle pr`es, telle que µ
+
= 1
B
[µ[ et µ

= 1
B
c [µ[
(de mani`ere ´equivalente, µ
+
, resp. µ

, est la restriction de [µ[ `a B, resp. `a B
c
). De plus,
on a pour tout A ∈ /,
µ
+
(A) = µ
+
(A∩ B) = µ(A∩ B) , µ

(A) = µ

(A∩ B
c
) = −µ(A∩ B
c
).
En cons´equence,
µ(A) = µ
+
(A ∩ B) −µ

(A∩ B
c
),
[µ[(A) = µ
+
(A∩ B) + µ

(A ∩ B
c
).
Preuve. On v´erifie imm´ediatement que µ
+
≤ [µ[ et µ

≤ [µ[, et donc les mesures µ
+
et
µ

sont absolument continues par rapport `a [µ[. D’apr`es le th´eor`eme de Radon-Nikodym,
il existe deux fonctions mesurables positives (finies) h
1
et h
2
telles que µ
+
= h
1
[µ[ et
µ

= h
2
[µ[. Puisque µ
+
≤ [µ[ et µ

≤ [µ[, on sait que 0 ≤ h
1
≤ 1 et 0 ≤ h
2
≤ 1.
Si h = h
1
−h
2
, on a alors, pour tout A ∈ /,
µ(A) = µ
+
(A) −µ

(A) =

A
(h
1
−h
2
) d[µ[.
Il est facile de d´eduire de cette ´egalit´e que [h
1
−h
2
[ = 1, [µ[ p.p. En effet, soit r < 1, et soit
(A
n
)
n∈N
une partition mesurable de E
r
= ¦x ∈ E : [h
1
(x) −h
2
(x)[ ≤ r¦. Alors
¸
n∈N
[µ(A
n
)[ =
¸
n∈N

An
(h
1
−h
2
)d[µ[


¸
n∈N

An
[h
1
−h
2
[d[µ[

¸
n∈N
r [µ[(A
n
)
= r [µ[(E
r
).
De la d´efinition de [µ[, il d´ecoule alors que [µ[(E
r
) ≤ r [µ[(E
r
), et donc [µ[(E
r
) = 0. Comme
cela est vrai pour tout r < 1, on a [h
1
−h
2
[ ≥ 1 µ p.p. et l’in´egalit´e inverse est triviale.
72
Les propri´et´es 0 ≤ h
1
≤ 1, 0 ≤ h
2
≤ 1 et [h
1
−h
2
[ = 1 [µ[ p.p. entraˆınent que
[µ[(dx) p.p. ou bien h
1
(x) = 1 et h
2
(x) = 0,
ou bien h
1
(x) = 0 et h
1
(x) = 0.
On pose alors B = ¦x ∈ E : h
1
(x) = 1¦. D’apr`es ce qui pr´ec`ede on a h
1
= 1
B
et
h
2
= 1
B
c, [µ[ p.p. Cela donne les ´egalit´es µ
+
= 1
B
[µ[ et µ

= 1
B
c [µ[. L’unicit´e de B est
une cons´equence de l’unicit´e de la densit´e dans le th´eor`eme de Radon-Nikodym. Les autres
propri´et´es de l’´enonc´e sont ensuite facilement ´etablies.
Remarque. Si µ = µ
1
− µ
2
est une autre d´ecomposition de µ comme diff´erence de deux
mesures positives finies, on a n´ecessairement µ
1
≥ µ
+
et µ
2
≥ µ

. En effet,
µ
1
(A) ≥ µ
1
(A ∩ B) ≥ µ(A∩ B) = µ
+
(A∩ B) = µ
+
(A).
Int´egration par rapport `a une mesure sign´ee.
Si f ∈ L
1
(E, /, [µ[), on d´efinit

f dµ :=

fdµ
+

fdµ

=

f(1
B
−1
B
c )d[µ[.
Il est alors imm´ediat que

f dµ

[f[dµ.
Proposition 6.2.2 Soit ν une mesure positive sur (E, /), soit g ∈ L
1
(E, /, ν), et soit µ la
mesure sign´ee d´efinie par
µ(A) =

A
gdν.
Alors [µ[ = [g[ ν. De plus, pour toute fonction f ∈ L
1
(E, /, [µ[), on a fg ∈ L
1
(E, /, ν)),
et
f dµ =

fg dν.
Preuve. Avec les notations du th´eor`eme pr´ec´edent, on a pour tout A ∈ / :
[µ[(A) = µ(A∩ B) −µ(A∩ B
c
) =

A∩B
gdν −

A∩B
gdν =

A
gh dν,
en posant h = 1
B
− 1
B
c. En prenant A = ¦x ∈ E : g(x)h(x) < 0¦, on d´eduit facilement de
cette ´egalit´e que gh ≥ 0, ν p.p. Donc gh = [gh[ = [g[, ν p.p., d’o` u
[µ[(A) =

A
[g[dν.
Ensuite, on a

[f[d[µ[ =

[f[ [g[dν
73
et donc f ∈ L
1
([µ[) ⇒ fg ∈ L
1
(ν). L’´egalit´e

fdµ =

fg dν
est vraie par d´efinition si f est ´etag´ee. Dans le cas, g´en´eral, on utilise le fait qu’on peut
´ecrire f = limf
n
, o` u les fonctions f
n
sont ´etag´ees et domin´ees en valeur absolue par [f[. Le
th´eor`eme de convergence domin´ee appliqu´e `a µ
+
, µ

et ν donne le r´esultat voulu.
Le th´eor`eme de Radon-Nikodym pour les mesures sign´ees.
Soit ν une mesure positive, et soit µ une mesure sign´ee. On dit que µ est absolument
continue par rapport `a ν (notation : µ ≪ ν) si
∀A ∈ /, ν(A) = 0 ⇒ µ(A) = 0.
Th´eor`eme 6.2.3 Soit µ une mesure sign´ee et soit ν une mesure positive σ-finie. Les trois
propri´et´es suivantes sont ´equivalentes :
(i) µ ≪ ν .
(ii) Pour tout ε > 0, il existe δ > 0 tel que
∀A ∈ /, ν(A) ≤ δ ⇒ [µ[(A) ≤ ε.
(iii) Il existe g ∈ L
1
(E, /, ν) telle que :
∀A ∈ /, µ(A) =

A
gdν.
Preuve. (ii)⇒(i) est ´evident. Montrons (i)⇒(iii). Si µ ≪ ν, on aussi µ
+
≪ ν et µ

≪ ν, et
donc le th´eor`eme de Radon-Nikodym pour les mesures positives permet d’´ecrire µ
+
= g
1
ν
et µ

= g
2
ν avec g
1
, g
2
≥ 0,

g
1
dν = µ
+
(E) < ∞ et

g
2
dν = µ

(E) < ∞. On obtient
ainsi (iii) avec g = g
1
−g
2
.
Il reste `a montrer (iii)⇒(ii). D’apr`es la proposition pr´ec´edente, on a [µ[ = [g[ ν. De
plus, le th´eor`eme de convergence domin´ee entraˆıne que
lim
n→∞

{|g|≥n}
[g[ dν = 0.
Donc, si ε > 0 est fix´e, on peut choisir N assez grand de fa¸ con que

{|g|≥N}
[g[ dν <
ε
2
.
Alors, en prenant δ = ε/(2N), on a, pour tout A ∈ / tel que ν(A) < δ,
[µ[(A) =

A
[g[dν ≤

{|g|≥N}
[g[ dν +

A∩{|g|<N}
[g[ dν ≤
ε
2
+ N
ε
2N
= ε.

74
6.3 La dualit´e L
p
−L
q
Soit ν une mesure positive sur (E, /). Soit p ∈ [1, ∞] et soit q l’exposant conjugu´e de p.
Alors, si on fixe g ∈ L
q
(E, /, ν), la formule
Φ
g
(f) =

fg dν
d´efinit une forme lin´eaire continue sur L
p
(E, /, ν). En effet, l’in´egalit´e de H¨older montre
d’une part que Φ
g
(f) est bien d´efinie, d’autre part que

g
(f)[ ≤ C
g
|f|
p
avec C
g
= |g|
q
. On voit aussi que la norme op´erateur de Φ
g
, d´efinie par

g
| = sup
fp≤1

g
(f)[,
v´erifie |Φ
g
| ≤ |g|
q
.
La question est alors de savoir si l’on obtient ainsi toutes les formes lin´eaires continues
sur L
p
(E, /, ν) (dans le cas p = q = 2, la th´eorie des espaces de Hilbert nous dit d´ej`a que la
r´eponse est oui). Le th´eor`eme suivant donne la r´eponse lorsque p < ∞.
Th´eor`eme 6.3.1 Soit ν une mesure σ-finie sur (E, /), soit p ∈ [1, ∞[ et soit q l’exposant
conjugu´e de p. Alors, si Φ est une forme lin´eaire continue sur L
p
(E, /, ν), il existe une
unique g ∈ L
q
(E, /, ν) tel que, pour toute f ∈ L
p
(E, /, ν),
Φ(f) =

fg dν.
De plus la norme op´erateur de Φ est
|Φ| = |g|
q
.
Aves les notations pr´ec´edant le th´eor`eme, on voit que l’application g −→ Φ
g
permet
d’identifier L
q
(ν) au dual topologique de L
p
(ν) (c’est `a-dire `a l’espace vectoriel des formes
lin´eaires continues sur L
p
(ν), muni de la norme op´erateur). Nous verrons en remarque que
cette propri´et´e ne subsiste pas dans le cas p = ∞.
Preuve. Supposons d’abord ν(E) < ∞. Alors, pour tout A ∈ /, posons
µ(A) = Φ(1
A
),
ce qui a bien un sens puisque 1
A
∈ L
p
(ν). On commence par v´erifier que µ est une mesure
sign´ee sur (E, /). Soit (A
n
)
n∈N
une famille d´enombrable de parties mesurables disjointes.
Si A d´esigne la r´eunion des A
n
, on a
1
A
= lim
k→∞
¸
n≤k
1
An
75
dans L
p
(ν) (par convergence domin´ee, facilement justifi´ee puisque la fonction 1 est dans
L
p
(ν)). En utilisant la continuit´e de Φ, on obtient ainsi
µ(A) = lim
k→∞
Φ

¸
n≤k
1
An

= lim
k→∞
¸
n≤k
µ(A
n
).
La convergence absolue de la s´erie
¸
µ(A
n
) est une cons´equence : en notant A

n
= A
n
si
µ(A
n
) > 0 et A

n
= ∅ sinon, et A

la r´eunion des A

n
, on a
¸
n
µ(A
n
)
+
=
¸
n
µ(A

n
) = lim
k→∞
¸
n≤k
µ(A

n
) = µ(A

) < ∞,
et de mˆeme pour les termes n´egatifs de la suite (µ(A
n
)). Une fois acquise la convergence
absolue de la s´erie, l’´egalit´e µ(A) =
¸
n
µ(A
n
) d´ecoule de ce qui pr´ec`ede.
Si A ∈ / et ν(A) = 0, on a 1
A
= 0 dans L
p
(E, /, ν) et donc µ(A) = Φ(1
A
) = 0. Donc
µ ≪ ν et le th´eor`eme pr´ec´edent montre qu’il existe une fonction g ∈ L
1
(E, /, ν) telle que
∀A ∈ / , Φ(1
A
) = µ(A) =

A
g dν.
L’´egalit´e
Φ(f) =

fg dν
est vraie par lin´earit´e lorsque f est ´etag´ee, puis lorsque f est seulement mesurable born´ee
puisqu’une telle fonction est limite uniforme (donc dans L
p
(ν) parce que ν est finie) de
fonctions ´etag´ees.
Montrons maintenant que g ∈ L
q
(ν).
• Si p = 1, alors pour tout A ∈ /,

A
gdν

= [Φ(1
A
)[ ≤ |Φ| |1
A
|
1
= |Φ| ν(A)
ce qui entraˆıne facilement que [g[ ≤ |Φ|, ν p.p. (pour le voir consid´erer A = ¦g >
|Φ| + ε¦ ou A = ¦g < −|Φ| −ε¦), et donc |g|

≤ |Φ|.
• Si p ∈]1, ∞[, on pose E
n
= ¦x ∈ E : [g(x)[ ≤ n¦, puis f
n
= 1
En
[g[
q−1
signe(g). Comme f
n
est born´ee, on a

En
[g[
q
dν =

f
n
g dν = Φ(f
n
) ≤ |Φ| |f
n
|
p
= |Φ|

En
[g[
q

1/p
,
d’o` u

En
[g[
q
dν ≤ |Φ|
q
.
En faisant tendre n vers ∞, on trouve par convergence monotone que |g|
q
≤ |Φ|.
76
Dans les deux cas, on a obtenu que g ∈ L
q
(ν) et |g|
q
≤ |Φ|. Vus comme fonctions de
f ∈ L
p
(ν), les deux membres de l’´egalit´e
Φ(f) =

fg dν
sont des fonctions continues sur L
p
(ν) qui co¨ıncident lorsque f appartient au sous-ensemble
dense des fonctions mesurables born´ees. Elles co¨ıncident donc partout.
Par ailleurs, comme expliqu´e avant l’´enonc´e de th´eor`eme, l’in´egalit´e de H¨older entraˆıne
que |Φ| ≤ |g|
q
, et comme l’in´egalit´e inverse a ´et´e obtenue ci-dessus, on a |Φ| = |g|
q
.
Enfin, l’application qui `a g ∈ L
q
(ν) associe la forme lin´eaire f −→

fg dν est une
isom´etrie de L
q
(ν) sur le dual topologique de L
p
(ν) (i.e. l’espace des formes lin´eaires contin-
ues sur L
p
(ν)) et est donc n´ecessairement injective. Cela donne l’unicit´e de g dans l’´enonc´e
du th´eor`eme.
Il reste `a traiter le cas ν(E) = ∞. Dans ce cas, on peut ´ecrire E comme la r´eunion d’une
famille d´enombrable disjointe (E
n
)
n∈N
de parties mesurables telles que ν(E
n
) < ∞pour tout
n. Notons ν
n
la restriction de ν `a E
n
. Alors l’application f −→ f1
En
induit une isom´etrie
de L
p

n
) sur un sous-espace de L
p
(ν). En rempla¸ cant ν par ν
n
on peut donc appliquer la
premi`ere partie de la preuve `a la forme lin´eaire continue Φ
n
d´efinie sur L
p

n
) par
Φ
n
(f) = Φ(f1
En
).
Il existe donc une fonction g
n
∈ L
q

n
) telle que, pour toute fonction f ∈ L
p

n
),
Φ(f1
En
) =

fg
n

n
.
Quitte `a remplacer g
n
par g
n
1
En
on peut supposer que g
n
= 0 sur E
c
n
, et r´e´ecrire le r´esultat
pr´ec´edent sous la forme
Φ(f1
En
) =

fg
n
dν,
pour toute fonction f ∈ L
p
(ν).
Si f ∈ L
p
(ν), on a
f = lim
k→∞
¸
n≤k
f 1
En
dans L
p
(ν),
ce qui entraˆıne
Φ(f) = lim
k→∞

f

¸
n≤k
g
n

dν.
Par ailleurs, de l’in´egalit´e

f

¸
n≤k
g
n

dν = Φ(f
¸
n≤k
1
En
) ≤ |Φ| |f|
p
on d´eduit grˆace aux mˆemes arguments que dans le cas o` u ν(E) < ∞ que, pour tout entier
k ≥ 1,
|
¸
n≤k
g
n
|
q
≤ |Φ|.
77
Posons maintenant pour tout x ∈ E,
g(x) =
¸
n∈N
g
n
(x)
(il y a eu plus un terme non nul dans la somme pour chaque x). Si q = ∞, l’in´egalit´e
pr´ec´edente montre que |g|

≤ |Φ|. Si q < ∞, la mˆeme in´egalit´e donne

[g[
q
dν =
¸
n∈N

[g
n
[
q
dν = lim
k→∞
¸
n≤k

[g
n
[
q
dν ≤ |Φ|
q
.
Dans les deux cas on a g ∈ L
q
(ν). Enfin,
Φ(f) = lim
k→∞

f

¸
n≤k
g
n

dν =

fg dν,
o` u dans la deuxi`eme ´egalit´e l’application du th´eor`eme de convergence domin´ee est justifi´ee
par la majoration [
¸
n≤k
g
n
[ ≤ [g[.
L’´egalit´e |Φ| = |g|
q
et l’unicit´e de g sont maintenant obtenues par les mˆemes arguments
que dans le cas o` u ν(E) < ∞.
Remarque. Lorsque p = ∞, le r´esultat du th´eor`eme est faux en g´en´eral : il existe des
formes lin´eaires continues sur L

(E, /, ν) qui ne peuvent pas se repr´esenter sous la forme
Φ(f) =

fg dν avec une fonction g ∈ L
1
(E, /, ν). Consid´erons le cas de ℓ

, qui est l’espace
des suites born´ees a = (a
k
)
k∈N
de r´eels, muni de la norme |a|

= sup a
k
. Soit H le sous-
espace (ferm´e) de ℓ

d´efini par
H = ¦a ∈ ℓ

: lim
k→∞
a
k
existe¦,
et d´efinissons Φ : H −→R par
Φ(a) = lim
k→∞
a
k
.
Evidemment [Φ(a)[ ≤ |a|

. Le th´eor`eme de Hahn-Banach permet alors de prolonger Φ `a
une forme lin´eaire sur ℓ

, de fa¸ con que la propri´et´e [Φ(a)[ ≤ |a|

reste vraie pour tout
a ∈ ℓ

. Il est facile de voir qu’on ne peut pas repr´esenter Φ sous la forme
Φ(a) =
¸
k∈N
a
k
b
k
avec un ´el´ement b = (b
k
)
k∈N
de ℓ
1
. En effet, si tel ´etait le cas, en consid´erant pour tout
n ∈ N l’´el´ement a
(n)
de ℓ

d´efini par a
(n)
k
= 1
{k=n}
, on trouverait, pour tout n ∈ N,
b
n
= Φ(a
(n)
) = 0,
ce qui est absurde.
78
6.4 Le th´eor`eme de repr´esentation de Riesz
Dans tout ce paragraphe, nous supposons que E est un espace m´etrique localement compact
s´eparable. On note C
0
(E) l’espace des fonctions continues sur E qui tendent vers 0 `a l’infini :
f ∈ C
0
(E) si et seulement si f est continue et si pour tout ε > 0 il existe un compact K de
E tel que [f(x)[ < ε pour tout x ∈ E`K. L’espace C
0
(E) est un espace de Banach pour la
norme
|f| = sup
x∈E
[f(x)[.
Si µ est une mesure sign´ee sur (E, B(E)), l’application
Φ(f) =

E
fdµ , f ∈ C
0
(E),
d´efinit une forme lin´eaire continue sur C
0
(E). De plus, cette forme lin´eaire est continue
puisque
[Φ(f)[ ≤

E
[f[ d[µ[ ≤ [µ[(E) |f|.
Cette in´egalit´e montre mˆeme que |Φ| ≤ [µ[(E).
Th´eor`eme 6.4.1 Soit Φ une forme lin´eaire continue sur C
0
(E). Il existe alors une unique
mesure sign´ee µ sur (E, B(E)) telle que
∀f ∈ C
0
(E) , Φ(f) =

E
f dµ.
Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre
complexe plus g´en´eral.
Remarque. L’espace ´(E) des mesures sign´ees sur E est un espace vectoriel, et il est facile
de v´erifier que l’application µ −→ [µ[(E) d´efinit une norme sur cet espace vectoriel. De plus,
´(E) est complet pour cette norme. Le th´eor`eme pr´ec´edent peut ˆetre alors reformul´e en
disant que ´(E) est le dual topologique de C
0
(E).
Lorsque E est compact, l’espace C
0
(E) co¨ıncide avec l’espace C
b
(E) des fonctions con-
tinues born´ees sur E, et donc ´(E) est le dual de C
b
(E). Cette assertion devient fausse
lorsque E n’est pas compact, par exemple lorsque E = R. Dans ce cas, il existe des formes
lin´eaires continues sur C
b
(E) qui ne se repr´esentent pas par des mesures sign´ees (on peut en
construire en adaptant l’exemple de la fin de la partie pr´ec´edente).
79
80
Chapitre 7
Formule de changement de variables
et compl´ements
La formule de changement de variables identifie l’image par un diff´eomorphisme de la mesure
de Lebesgue sur un ouvert de R
d
. Apr`es le th´eor`eme de Fubini, c’est le deuxi`eme outil
fondamental de calcul des int´egrales. Comme application particuli`erement importante, on
donne ici la formule d’int´egration en coordonn´ees polaires dans R
d
, ce qui conduit aussi `a
introduire la mesure de Lebesgue sur la sph`ere unit´e.
7.1 La formule de changement de variables
Nous commen¸ cons par traiter le cas particulier important d’une application affine.
Proposition 7.1.1 Soit b ∈ R
d
et soit M une matrice d d `a coefficients r´eels inversible.
D´efinissons f : R
d
−→R
d
par f(x) = Mx + b. Alors, pour tout bor´elien A de R
d
,
λ(f(A)) = [det(M)[ λ(A).
Remarque. Si M n’est pas inversible, f(A) ⊂ f(R
d
) est contenu dans un hyperplan, qui
est de mesure de Lebesgue nulle (exercice !).
Preuve. Remarquons d’abord que f(A) = (f
−1
)
−1
(A) ∈ B(R
d
) si A ∈ B(R
d
). Grˆace `a
l’invariance par translation de la mesure de Lebesgue, on se ram`ene au cas b = 0. Dans ce
cas, on a pour tous a ∈ R
d
et A ∈ B(R
d
),
λ(f(a + A)) = λ(f(a) + f(A)) = λ(f(A)),
ce qui montre que la mesure A −→ λ(f(A)) (mesure-image de λ par f
−1
) est invariante par
translation. Donc il existe une constante c telle que, pour tout A ∈ B(R
d
),
λ(f(A)) = c λ(A).
Il reste `a montrer que c = [det(M)[.
81
Si M est une matrice orthogonale, et B
d
d´esigne la boule unit´e ferm´ee de R
d
, on a
f(B
d
) = B
d
, d’o` u il d´ecoule aussitˆot que c = 1 = [det(M)[ dans ce cas.
Si M est une matrice sym´etrique d´efinie positive, alors on peut trouver une matrice or-
thogonale P telle que
t
PMP soit diagonale avec coefficients diagonaux α
i
> 0, i ∈ ¦1, . . . , d¦.
Alors,
f(P([0, 1]
d
)) = ¦MPx : x ∈ [0, 1]
d
¦ = ¦Py : y ∈
d
¸
i=1
[0, α
i
]¦,
et donc, en utilisant le cas orthogonal,
c = c λ(P([0, 1]
d
)) = λ(f(P([0, 1]
d
))) = λ

¦Py : y ∈
d
¸
i=1
[0, α
i

= λ

d
¸
i=1
[0, α
i
]

=
d
¸
i=1
α
i
.
Dans ce cas on trouve encore c = [det(M)[.
Enfin, dans le cas g´en´eral, on remarque qu’on peut ´ecrire M = PS, o` u P est orthogonale
et S est sym´etrique d´efinie positive (prendre S =

t
MM et P = MS
−1
). En utilisant les
deux cas particuliers ci-dessus, on trouve aussitˆot :
c = [det(P)[ [det(S)[ = [det(M)[.

Soient U et D deux ouverts de R
d
. On dit qu’une application ϕ : U −→ D est un
diff´eomorphisme de classe C
1
si ϕ est bijective et de classe C
1
sur U et si ϕ
−1
est aussi de
classe C
1
sur D. On sait qu’alors la d´eriv´ee ϕ

(u) est inversible, pour tout u ∈ U.
Th´eor`eme 7.1.2 Soit ϕ : U −→ D un diff´eomorphisme de classe C
1
. Alors pour toute
fonction bor´elienne f : D −→R
+
,

D
f(x) dx =

U
f(ϕ(u)) [J
ϕ
(u)[ du ,
o` u J
ϕ
(u) = det(ϕ

(u)) est le Jacobien de ϕ en u.
Preuve. Par les arguments habituels (passage `a la limite croissant) on se ram`ene au cas o` u
f est ´etag´ee positive, puis au cas f = 1
A
, A ´etant un bor´elien de D. Dans ce cas, l’´egalit´e
du th´eor`eme s’´ecrit :
λ(A) =

ϕ
−1
(A)
[J
ϕ
(u)[ du.
Quitte `a remplacer A par ϕ
−1
(A), il suffit de montrer que, pour tout bor´elien A de U,
λ(ϕ(A)) =

A
[J
ϕ
(u)[ du. (7.1)
(Remarquer que ϕ(A) = (ϕ
−1
)
−1
(A) est bor´elien.)
82
Lemme 7.1.3 Soit K un compact de U et soit ε > 0. Alors on peut choisir δ > 0 assez
petit de mani`ere que, pour tout cube C de faces parall`eles aux axes, de centre u
0
∈ K et de
cot´e de longueur inf´erieure `a δ,
(1 −ε)[J
ϕ
(u
0
)[ λ(C) ≤ λ(ϕ(C)) ≤ (1 +ε)[J
ϕ
(u
0
)[ λ(C).
Preuve du lemme. En utilisant la continuit´e de ϕ

, on voit qu’on peut choisir δ > 0 assez
petit pour que d’une part δ <
1
d
dist(K, U
c
) et d’autre part, pour tout u
0
∈ K et tout u ∈ R
d
tel que [u −u
0
[ < dδ,
[ϕ(u) −ϕ(u
0
) −ϕ

(u
0
) (u −u
0
)[ ≤ ε[u −u
0
[.
Notons f(v) = ϕ(u
0
) + ϕ

(u
0
) v pour v ∈ R
d
. On voit que, si [u −u
0
[ < dδ,
ϕ(u) = f(u −u
0
) + h(u, u
0
),
avec [h(u, u
0
)[ ≤ ε[u −u
0
[. En prenant g(u, u
0
) = ϕ

(u
0
)
−1
h(u, u
0
), on trouve que
ϕ(u) = f(u −u
0
+ g(u, u
0
)),
o` u [g(u, u
0
)[ ≤ aε[u −u
0
[, avec a := sup¦|ϕ

(v)
−1
|; v ∈ K¦ < ∞.
Soit maintenant C un cube centr´e en u
0
et de cot´e r ≤ δ. Il d´ecoule de ce qui pr´ec`ede
que
ϕ(C) ⊂ f((1 +daε)
¯
C),
o` u
¯
C est le cube translat´e de C centr´e en 0. Grˆace `a la proposition ci-dessus, il vient alors
λ(ϕ(C)) ≤ λ(f((1 +daε)
¯
C)) = [det ϕ

(u
0
)[ λ((1 +daε)
¯
C) = (1 +daε)
d
[J
ϕ
(u
0
)[ λ(C),
ce qui donne la majoration souhait´ee. La preuve de la minoration est analogue : on montre
que pour une constante c

bien choisie, on a
ϕ
−1
(f((1 −c

ε)
¯
C)) ⊂ C ,
d’o` u
f((1 −c

ε)
¯
C) ⊂ ϕ(C)
et on conclut de la mˆeme mani`ere.
On revient `a la preuve du th´eor`eme. Soit n ≥ 1 un entier. On appelle cube ´el´ementaire
d’ordre n tout cube de la forme
C =
d
¸
j=1
]k
j
2
−n
, (k
j
+ 1)2
−n
] , k
j
∈ Z.
On note (
n
l’ensemble des cubes ´el´ementaires d’ordre n.
Soit C
0
un cube ´el´ementaire d’ordre n
0
fix´e, tel que
¯
C
0
⊂ U, et soit ε > 0. Fixons n ≥ n
0
assez grand pour que d’une part la conclusion du lemme soit vraie pour K =
¯
C
0
et δ = 2
−n
,
et d’autre part, pour tous u, v ∈ K tels que [u −v[ ≤ dδ,
(1 −ε)[J
ϕ
(u)[ ≤ [J
ϕ
(v)[ ≤ (1 +ε)[J
ϕ
(u)[. (7.2)
83
Alors, en notant x
C
le centre d’un cube C,
λ(ϕ(C
0
)) =
¸
C∈Cn
C⊂C
0
λ(ϕ(C))
≤ (1 +ε)
¸
C∈Cn
C⊂C
0
[J
ϕ
(x
C
)[ λ(C)
≤ (1 +ε)
2
¸
C∈Cn
C⊂C
0

C
[J
ϕ
(u)[ du
= (1 +ε)
2

C
0
[J
ϕ
(u)[ du.
On a utilis´e le lemme dans la premi`ere in´egalit´e, et (7.2) dans la seconde. On obtient de
mˆeme la minoration
λ(ϕ(C
0
)) ≥ (1 −ε)
2

C
0
[J
ϕ
(u)[ du.
Comme ε ´etait arbitraire, on conclut que
λ(ϕ(C
0
)) =

C
0
[J
ϕ
(u)[ du.
On a donc obtenu (7.1) lorsque A est un cube ´el´ementaire d’adh´erence contenue dans A.
Le cas g´en´eral d´ecoule maintenant d’arguments de classe monotone. Notons µ la mesure-
image de la mesure de Lebesgue sur D par ϕ
−1
:
µ(A) = λ(ϕ(A))
pour tout bor´elien A de U. Soit aussi
¯ µ(A) =

A
[J
ϕ
(u)[ du.
On a obtenu que µ(C) = ¯ µ(C) pour tout cube ´el´ementaire C d’adh´erence contenue dans U.
D’autre part, si U
n
d´esigne la r´eunion (disjointe) des cubes ´el´ementaires d’ordre n d’adh´erence
contenue dans U ∩ ¦u : [u[ ≤ n¦, on a U
n
↑ U quand n → ∞ et µ(U
n
) = ¯ µ(U
n
) < ∞ pour
tout n. Comme la classe des cubes ´el´ementaires d’adh´erence contenue dans U est stable par
intersection finie et engendre la tribu bor´elienne B(U), on peut appliquer le dernier corollaire
du Chapitre 1 pour conclure que µ = ¯ µ, ce qui ´etait le r´esultat recherch´e.
Application `a l’int´egrale en coordonn´ees polaires.
On prend d = 2, U =]0, ∞[] −π, π[ et D = R
2
`¦(x, 0); x ≤ 0¦. Alors l’application
ϕ(r, θ) = (r cos θ, r sin θ) , (r, θ) ∈ U
84
est un diff´eomorphisme de classe C
1
de U sur D. On calcule facilement
ϕ

(r, θ) =

cos θ −r sin θ
sin θ r cos θ

et donc J
ϕ
(r, θ) = r.
Il d´ecoule du th´eor`eme que, pour toute fonction bor´elienne f : R
2
−→R
+
,

D
f(x, y) dxdy =

U
f(r cos θ, r sin θ) r drdθ =


0

π
−π
f(r cos θ, r sin θ) r drdθ.
Comme la demi-droite n´egative est de mesure de Lebesgue nulle dans R
2
, on a aussi

R
2
f(x, y) dxdy =


0

π
−π
f(r cos θ, r sin θ) r drdθ.
Exemple. Pour f(x, y) = exp(−x
2
−y
2
), le th´eor`eme de Fubini-Tonnelli donne d’une part

R
2
e
−x
2
−y
2
dxdy =

+∞
−∞
e
−x
2
dx

2
et d’autre part


0

π
−π
f(r cos θ, r sin θ) r drdθ = 2π


0
e
−r
2
r dr = π,
ce qui donne la valeur

+∞
−∞
e
−x
2
dx =

π.
7.2 Mesure de Lebesgue sur la sph`ere unit´e
Dans cette partie on note λ
d
la mesure de Lebesgue sur R
d
. Soit S
d−1
la sph`ere unit´e de R
d
:
S
d−1
= ¦x ∈ R
d
: [x[ = 1¦.
Si A ∈ B(S
d−1
), on note Γ(A) le bor´elien de R
d
d´efini par
Γ(A) = ¦rx; r ∈ [0, 1] et x ∈ A¦.
Th´eor`eme 7.2.1 Pour tout A ∈ B(S
d−1
), on pose
ω
d
(A) = d λ
d
(Γ(A)).
Alors ω
d
est une mesure positive finie sur S
d−1
, qui est invariante par les isom´etries vecto-
rielles. De plus, pour toute fonction bor´elienne f : R
d
−→R
+
,

R
d
f(x) dx =


0

S
d−1
f(rz) r
d−1
dr ω
d
(dz). (7.3)
Enfin la masse totale de ω
d
(volume de la sph`ere unit´e) est
ω
d
(S
d−1
) =

d/2
Γ(d/2)
.
85
Remarque. On peut aussi montrer que toute mesure finie sur S
d−1
invariante par les
isom´etries vectorielles est proportionnelle `a ω
d
.
Preuve. Il est imm´ediat que ω
d
est une mesure positive finie sur S
d−1
: on peut la voir
comme l’image de la restriction de d λ
d
`a la boule unit´e B
d
par l’application x −→
x
|x|
. Le
fait que λ
d
soit invariante par les isom´etries vectorielles de R
d
(proposition de la partie 1)
entraˆıne facilement que ω
d
l’est aussi. En effet, si ϕ est une telle isom´etrie,
λ
d
(Γ(ϕ
−1
(A))) = λ
d

−1
(Γ(A))) = λ
d
(Γ(A)).
La masse totale de ω
d
est
ω
d
(S
d−1
) = d λ
d
(B
d
) = d
π
d/2
Γ(
d
2
+ 1)
=

d/2
Γ(
d
2
)
.
Il reste `a ´etablir (7.3). Il suffit de traiter le cas f = 1
B
, o` u B est un bor´elien de R
d
`¦0¦.
La formule
µ(B) =


0

S
d−1
1
B
(rz) r
d−1
dr ω
d
(dz)
d´efinit une mesure µ sur R
d
`¦0¦ et le probl`eme est de montrer que µ = λ
d
. Consid´erons
d’abord le cas o` u B est de la forme
B = ¦x ∈ R
d
`¦0¦; a < [x[ ≤ b et
x
[x[
∈ A¦,
o` u A est un bor´elien de S
d−1
, et 0 < a ≤ b. Alors,
µ(B) = ω
d
(A)

b
a
r
d−1
dr =
b
d
−a
d
d
ω
d
(A).
Pour calculer λ
d
(B), notons α =
a
b
∈]0, 1[, et pour tout entier n ≥ 0 posons
Γ
n
(A) = ¦y = rx; α
n+1
< r ≤ α
n
et x ∈ A¦.
Alors, λ
d

n
(A)) = α
nd
λ
d

0
(A)) et par ailleurs
λ
d
(Γ(A)) =

¸
n=0
λ
d

n
(A)).
Il en d´ecoule aussitˆot que
λ
d

0
(A)) = (1 −α
d
) λ
d
(Γ(A)) =
1 −α
d
d
ω
d
(A),
et puisque B = b Γ
0
(A),
λ
d
(B) = b
d
λ
d

0
(A)) =
b
d
−a
d
d
ω
d
(A) = µ(B).
86
Finalement, la classe des ensembles B de la forme ci-dessus est stable par intersections
finies, et on voit facilement qu’elle engendre la tribu bor´elienne sur R
d
`¦0¦. Les arguments
de classe monotone habituels montrent alors que µ = λ
d
.
Si f : R
d
−→ R
+
est une fonction radiale, au sens o` u f(x) = f([x[), le th´eor`eme montre
que

R
d
f(x) dx = c
d


0
f(r) r
d−1
dr,
avec c
d
= ω
d
(S
d−1
).
87
88
Partie II
Probabilit´es
89
Chapitre 8
Fondements de la th´eorie des
probabilit´es
Ce chapitre introduit les notions fondamentales de la th´eorie des probabilit´es : variables
al´eatoires, esp´erance, loi, moments de variables al´eatoires, fonctions caract´eristiques, etc.
Puisque un espace de probabilit´e n’est rien d’autre qu’un espace mesurable muni d’une
mesure de masse totale 1, beaucoup de ces notions correspondent `a ce qui a d´ej`a ´et´e vu dans
le cadre de la th´eorie de l’int´egration. Par exemple une variable al´eatoire n’est rien d’autre
qu’une fonction mesurable, et la notion d’esp´erance co¨ıncide avec l’int´egrale. Cependant, le
point de vue de la th´eorie des probabilit´es, qui est expliqu´e ci-dessous, est bien diff´erent,
et une difficult´e importante est de comprendre ce point de vue. Ainsi, la notion de loi, qui
est un cas particulier de la notion de mesure-image, devient-elle maintenant fondamentale
car elle permet d’´evaluer la probabilit´e qu’une variable al´eatoire “tombe” dans un ensemble
donn´e.
8.1 D´efinitions g´en´erales
8.1.1 Espaces de probabilit´e
Soit (Ω, /) un espace mesurable, et soit P une mesure de probabilit´e sur (Ω, /). On dit
alors que (Ω, /) est un espace de probabilit´e.
Un espace de probabilit´e est donc un cas particulier d’espace mesur´e, pour lequel la masse
totale de la mesure est ´egale `a 1. En fait, le point de vue diff`ere de la th´eorie de l’int´egration :
dans le cadre de la th´eorie des probabilit´es, on cherche `a fournir un mod`ele math´ematique
pour une “exp´erience al´eatoire”.
• Ω repr´esente l’ensemble de toutes les ´eventualit´es possibles, toutes les d´eterminations du
hasard dans l’exp´erience consid´er´ee.
• / est l’ensemble des “´ev´enements”, qui sont les parties de Ω dont on peut ´evaluer la
probabilit´e. Il faut voir un ´ev´enement A ∈ / comme un sous-ensemble de Ω contenant
toutes les ´eventualit´es ω pour lesquelles une certaine propri´et´e est v´erifi´ee.
91
• Pour A ∈ /, P(A) repr´esente la probabilit´e d’occurrence de l’´ev´enement A. Dans les
premiers trait´es de th´eorie des probabilit´es, longtemps avant l’introduction de la th´eorie
de la mesure, la probabilit´e P(A) ´etait d´efinie de la mani`ere suivante : on imagine
qu’on r´ep`ete l’exp´erience al´eatoire un nombre N de fois, et on note N
A
le nombre
de r´ep´etitions pour lesquelles l’´ev´enement A est r´ealis´e; alors, la proportion N
A
/N
converge quand N → ∞ vers la probabilit´e P(A). Nous verrons plus loin le lien entre
cette d´efinition “historique” et l’approche moderne.
Exemples. (1) On lance un d´e deux fois :
Ω = ¦1, 2, . . . , 6¦
2
, / = {(Ω) , P(A) =
Card(A)
36
.
Le choix de la probabilit´e correspond `a l’id´ee que tous les r´esultats possibles pour les deux
tirages sont ´equiprobables.
(2) On lance le d´e jusqu’`a obtenir un 6. Ici le choix de Ω est d´ej`a moins ´evident. Comme
le nombre de lancers n´ecessaires n’est a priori pas born´e, le bon choix est d’imaginer qu’on
fait une infinit´e de lancers :
Ω = ¦1, 2, . . . , 6¦
N

de sorte qu’un ´el´ement de Ω est une suite ω = (ω
1
, ω
2
, . . .) qui donne les r´esultats des tirages
successifs. La tribu / sur Ω est la tribu-produit d´efinie comme la plus petite tribu rendant
mesurables tous les ensembles de la forme
¦ω : ω
1
= i
1
, ω
2
= i
2
, . . . , ω
n
= i
n
¦
o` u n ≥ 1 et i
1
, . . . , i
n
∈ ¦1, 2, . . . , 6¦ (/ co¨ıncide aussi avec la tribu bor´elienne pour la
topologie produit sur Ω). Enfin P est l’unique mesure de probabilit´e sur Ω telle que, pour
tout choix de n et de i
1
, . . . , i
n
,
P(¦ω : ω
1
= i
1
, ω
2
= i
2
, . . . , ω
n
= i
n
¦) = (
1
6
)
n
.
L’unicit´e de P est une cons´equence simple du lemme de classe monotone. L’existence est
un cas particulier de la construction de mesures sur des produits infinis. On peut aussi
construire P facilement partir de la mesure de Lebesgue sur [0, 1] : si `a tout r´eel x ∈ [0, 1]
on associe la suite (ε
k
)
k∈N
∗ ∈ Ω telle que x =
¸

k=1

k
−1) 6
−k
(cette suite est unique pour
presque tout x), la probabilit´e P est obtenue comme mesure-image de la mesure de Lebesgue
sur [0, 1] par l’application x −→ (ε
k
)
k∈N
∗.
(3) On s’int´eresse au d´eplacement dans l’espace d’une particule ponctuelle soumise `a des
perturbations al´eatoires. Si on se limite `a l’intervalle de temps [0, 1], l’espace de probabilit´e
naturel est C([0, 1], R
3
) : un ´el´ement de Ω, une trajectoire possible, est une fonction continue
ω : [0, 1] −→ R
3
. La tribu sur Ω est alors la plus petite tribu qui rende mesurables toutes
les applications coordonn´ees ω −→ ω(t) pour t ∈ R
+
. Cette tribu co¨ıncide avec la tribu
bor´elienne pour la topologie de la convergence uniforme sur Ω. Il resterait `a construire la
probabilit´e P, pour laquelle de multiples choix sont possibles. L’exemple le plus important,
92
`a la fois du point de vue th´eorique et pour les applications, est la mesure de Wiener, qui est
la loi du mouvement brownien.
Remarque importante. Tr`es souvent dans la suite, on ne sp´ecifiera pas le choix de l’espace
de probabilit´e. Les donn´ees importantes seront les propri´et´es des fonctions d´efinies sur cet
espace, les variables al´eatoires.
8.1.2 Variables al´eatoires
D´efinition 8.1.1 Soit (E, c) un espace mesurable. Une application mesurable X : Ω −→ E
est appel´ee variable al´eatoire (v.a. en abr´eg´e) `a valeurs dans E.
Exemples. En reprenant les trois exemples ci-dessus :
(1) X((i, j)) = i + j d´efinit une variable al´eatoire `a valeurs dans ¦1, 2, . . . , 12¦.
(2) X(ω) = inf¦j : ω
j
= 6¦, avec la convention inf ∅ = ∞, d´efinit une v.a. `a valeurs dans
¯
N = N ∪ ¦∞¦. Pour v´erifier la mesurabilit´e, on observe que, pour tout k ≥ 1,
X
−1
(¦k¦) = ¦ω ∈ Ω : ω
1
= 6, ω
2
= 6, . . . , ω
k−1
= 6, ω
k
= 6¦.
(3) Pour t ∈ [0, 1] fix´e, X(ω) = ω(t) est une v.a. `a valeurs dans R
3
. (Remarquons que nous
n’avons pas construit P dans cet exemple, mais cela n’intervient pas pour les questions de
mesurabilit´e.)
D´efinition 8.1.2 La loi de la variable al´eatoire X est la mesure-image de P par X. C’est
donc la mesure de probabilit´e sur (E, c), not´ee P
X
, d´efinie par
P
X
(B) = P(X
−1
(B)) , ∀B ∈ c.
En pratique on ´ecrit plutˆot :
P
X
(B) = P(X ∈ B) (= P(¦ω ∈ Ω : X(ω) ∈ B¦) ).
La loi P
X
permet de calculer la probabilit´e des ´ev´enements qui “d´ependent” de la v.a. X. Il
faut comprendre qu’`a chaque ω ∈ Ω on a associ´e un “point al´eatoire” X(ω) dans E, et que
P
X
(B) est la probabilit´e que ce point al´eatoire tombe dans B.
Remarque. Si µ est une mesure de probabilit´e sur R
d
, ou sur un espace plus g´en´eral, il
existe une mani`ere canonique de construire une variable al´eatoire dont la loi est µ. Il suffit
de prendre Ω = R
d
, / = B(R
d
), P = µ, puis de poser X(ω) = ω. La loi de X est µ, de
mani`ere ´evidente.
Cas particuliers.
• Variables al´eatoires discr`etes. C’est le cas o` u E est d´enombrable (et c est l’ensemble
des parties de E). La loi de X est alors
P
X
=
¸
x∈E
p
x
δ
x
93
o` u p
x
= P(X = x) et δ
x
d´esigne la la mesure de Dirac en x. En effet,
P
X
(B) = P(X ∈ B) = P(

¸
x∈B
¦X = x¦

=
¸
x∈B
P(X = x) =
¸
x∈E
p
x
δ
x
(B).
En pratique, trouver la loi d’une v.a. discr`ete, c’est donc calculer toutes les probabilit´es
P(X = x) pour x ∈ E.
Exemple. Revenons `a l’exemple (2) ci-dessus, avec X(ω) = inf¦j : ω
j
= 6¦. Alors, pour
tout k ≥ 1,
P(X = k) = P

¸
i
1
,...,i
k−1
=6
¦ω
1
= i
1
, . . . , ω
k−1
= i
k−1
, ω
k
= 6¦

= 5
k−1
(
1
6
)
k
=
1
6
(
5
6
)
k−1
.
Remarquons que
¸

k=1
P(X = k) = 1 et donc P(X = ∞) = 1 −P(X ∈ N) = 0. Observons
que l’ensemble ¦X = ∞¦ est loin d’ˆetre vide puisqu’il contient toutes les suites (i
1
, i
2
, . . .)
qui ne prennent pas la valeur 6.
• Variables al´eatoires `a densit´e. Une variable al´eatoire X `a valeurs dans (R
d
, B(R
d
)) est
dite `a densit´e si P
X
est absolument continue par rapport `a la mesure de Lebesgue λ.
Dans ce cas, le th´eor`eme de Radon-Nikodym montre qu’il existe une fonction bor´elienne
p : R
d
−→R
+
telle que
P
X
(B) =

B
p(x) dx.
On a en particulier

R
d
p(x)dx = P(X ∈ R
d
) = 1. La fonction p, qui est unique `a en ensemble
de mesure de Lebesgue nulle pr`es, est appel´ee la densit´e de (la loi de) X.
Si d = 1, on a en particulier, pour tous α ≤ β,
P(α ≤ X ≤ β) =

β
α
p(x) dx.
8.1.3 Esp´erance math´ematique
D´efinition 8.1.3 Soit X une variable al´eatoire r´eelle (i.e. `a valeurs dans R). On note
alors
E[X] =


X(ω) P(dω),
qui est bien d´efinie dans les deux cas suivants :
si X ≥ 0 (alors E[X] ∈ [0, ∞]),
si X est de signe quelconque et E[[X[] =

[X[dP < ∞.
On ´etend cette d´efinition au cas o` u X = (X
1
, . . . , X
d
) est une variable al´eatoire `a valeurs
dans R
d
en prenant alors E[X] = (E[X
1
], . . . , E[X
d
]), pourvu bien sˆ ur que chacune des
esp´erances E[X
i
] soit bien d´efinie.
Remarque. Si X = 1
B
, E[X] = P(B). En g´en´eral, E[X] s’interpr`ete comme la moyenne
de la v.a. X. Dans le cas particulier o` u Ω est fini et P attribue la mˆeme valeur `a chaque
singleton, E[X] est bien la moyenne au sens usuel des valeurs prises par X.
94
Proposition 8.1.1 Soit X une variable al´eatoire `a valeurs dans (E, c). Pour toute fonction
mesurable f : E −→ [0, ∞], on a
E[f(X)] =

E
f(x) P
X
(dx).
Preuve. C’est ´evidemment une propri´et´e g´en´erale des mesures-images d´ej`a rencontr´ee dans
le cours d’int´egration. On remarque que le r´esultat est vrai par d´efinition pour f = 1
B
puis
par lin´earit´e pour toute fonction ´etag´ee positive. Dans le cas g´en´eral, on utilise le th´eor`eme
de convergence monotone et le fait que toute fonction mesurable positive est limite croissante
d’une suite de fonctions ´etag´ees positives.
Si f est de signe quelconque, la formule de la proposition reste vraie `a condition que les
int´egrales soient bien d´efinies, ce qui revient `a E[[f(X)[] < ∞.
La donn´ee de P
X
permet donc de calculer la valeur moyenne de variables al´eatoires de
la forme f(X). Inversement, on utilise souvent la proposition pour calculer la loi d’une v.a.
X : si on arrive `a ´ecrire
E[f(X)] =

f dν
pour toute fonction f “suffisamment” g´en´erale, alors on peut identifier ν `a la loi de X.
Donnons un exemple simple de ce principe.
Proposition 8.1.2 Soit X = (X
1
, . . . , X
d
) une v.a. `a valeurs dans R
d
. Supposons que la
loi de X a une densit´e p(x
1
, . . . , x
d
). Alors, pour tout j ∈ ¦1, . . . , d¦, la loi de X
j
a une
densit´e donn´ee par
p
j
(x) =

R
d−1
p(x
1
, . . . , x
j−1
, x, x
j+1
, . . . , x
d
) dx
1
. . . dx
j−1
dx
j+1
. . . dx
d
(par exemple, si d = 2,
p
1
(x) =

R
p(x, y) dy , p
2
(y) =

R
p(x, y) dx).
Preuve. Soit π
j
la projection π
j
(x
1
, . . . , x
d
) = x
j
. En utilisant le th´eor`eme de Fubini, on
´ecrit, pour toute fonction bor´elienne f : R −→R
+
,
E[f(X
j
)] = E[f(π
j
(X))] =

R
d
f(x
j
)p(x
1
, . . . , x
d
) dx
1
. . . dx
d
=

R
d
f(x
j
)

R
d−1
p(x
1
, . . . , x
d
) dx
1
. . . dx
j−1
dx
j+1
. . . dx
d

dx
j
=

R
f(x
j
)p
j
(x
j
) dx
j
,
ce qui donne le r´esultat voulu.
95
Remarque. Si X = (X
1
, . . . , X
d
) est une v.a. `a valeurs dans R
d
, les lois P
X
j
, qu’on appelle
souvent les lois marginales de X, sont d´etermin´ees par la loi de X, simplement parce que
P
X
j
= π
j
(P
X
), avec la notation ci-dessous. Il est important d’observer que :
la r´eciproque est fausse !
Pour un exemple, consid´erons une densit´e de probabilit´e q sur R, et observons que la fonction
p(x
1
, x
2
) = q(x
1
)q(x
2
) est alors aussi une densit´e de probabilit´e sur R
2
. D’apr`es une remarque
ci-dessus on peut construire une v.a. X = (X
1
, X
2
) `a valeurs dans R
2
dont la loi est la
mesure de densit´e p par rapport `a la mesure de Lebesgue. Mais alors les deux v.a. X et
X

= (X
1
, X
1
) ont mˆemes lois marginales (la proposition ci-dessus montre que P
X
1
(dx) =
P
X
2
(dx) = q(x)dx) alors que les lois P
X
et P
X
′ sont tr`es diff´erentes, simplement parce que
P
X
′ est port´ee par la diagonale de R
2
, qui est de mesure de Lebesgue nulle.
8.1.4 Exemple : le paradoxe de Bertrand
Pour illustrer les notions introduites dans les paragraphes pr´ec´edents, consid´erons le probl`eme
suivant. On s’int´eresse `a la probabilit´e qu’une corde choisie au hasard sur un cercle ait une
longueur plus grande que le cot´e du triangle ´equilat´eral inscrit. Sans perte de g´en´eralit´e on
peut supposer que le cercle est le cercle unit´e. Bertrand proposait deux m´ethodes de calcul :
(a) On choisit les deux extr´emit´es de la corde au hasard sur le cercle. La premi`ere ´etant
choisie, la longueur de la corde sera plus grande que le cot´e du triangle ´equilat´eral inscrit
si et seulement si la seconde extr´emit´e est dans un secteur angulaire d’ouverture 2π/3.
La probabilit´e est donc
2π/3

=
1
3
.
(b) On choisit le centre de la corde au hasard sur le disque unit´e. La probabilit´e d´esir´ee
est la probabilit´e que le centre tombe dans le disque de rayon 1/2 centr´e `a l’origine.
Comme l’aire de ce disque est un quart de l’aire du disque unit´e, on trouve comme
probabilit´e
1
4
.
On obtient donc un r´esultat diff´erent dans les deux cas. L’explication tient dans le fait
que les deux m´ethodes correspondent `a des exp´eriences al´eatoires diff´erentes, repr´esent´ees
par des choix diff´erents de l’espace de probabilit´e. Il n’y a donc aucune raison pour que la
loi de la variable al´eatoire que l’on consid`ere (la longueur de la corde) soit la mˆeme dans les
deux cas. Pour nous en convaincre, explicitons les choix des espaces de probabilit´e.
(a) Dans ce cas,
Ω = [0, 2π[
2
, / = B([0, 2π[
2
) , P(dω) =
1

2
dθ dθ

,
o` u on note ω = (θ, θ

) pour ω ∈ Ω. La longueur de la corde est
X(ω) = 2[ sin(
θ −θ

2
)[.
96
On calcule facilement la loi de X :
E[f(X)] =


f(X(ω)) P(dω)
=
1

2


0


0
f(2[ sin(
θ −θ

2
)[) dθdθ

=
1
π

π
0
f(2 sin(
u
2
)) du
=
1
π

2
0
f(x)
1

1 −
x
2
4
dx.
Donc X est une v.a. r´eelle `a densit´e : P
X
(dx) = p(x)dx, avec
p(x) =
1
π
1

1 −
x
2
4
1
[0,2]
(x).
En particulier, la probabilit´e recherch´ee est
P(X ≥

3) =

2

3
p(x) dx =
1
3
.
(b) Maintenant,
Ω = ¦ω = (y, z) ∈ R
2
: y
2
+ z
2
< 1¦ , / = B(Ω) , P(dω) =
1
π
1

(y, z) dy dz.
La longueur de la corde est
X(ω) = 2

1 −y
2
−z
2
et pour calculer sa loi on ´ecrit
E[f(X)] =
1
π

R
2
f(2

1 −y
2
−z
2
) 1
{y
2
+z
2
<1}
dydz
= 2

1
0
f(2

1 −r
2
) r dr
=
1
2

2
0
f(x) xdx.
Donc P
X
(dx) = p(x)dx, avec
p(x) =
1
2
1
[0,2]
(x) xdx.
On peut remarquer que la densit´e obtenue est tr`es diff´erente de celle du cas (a). En parti-
culier,
P(X ≥

3) =

2

3
p(x) dx =
1
4
.
Exercice. Traiter le cas de la troisi`eme m´ethode propos´ee par Bertrand : on choisit au
hasard la direction du rayon orthogonal `a la corde, puis le centre de la corde uniform´ement
sur ce rayon.
97
8.1.5 Lois classiques
On donne dans ce paragraphe quelques exemples importants de lois.
Lois discr`etes.
(a) Loi uniforme. Si E est un ensemble fini, Card(E) = n, une v.a. X est de loi uniforme
sur E si
P(X = x) =
1
n
, ∀x ∈ E.
(b) Loi de Bernoulli de param`etre p ∈ [0, 1]. C’est la loi d’une v.a. X `a valeurs dans ¦0, 1¦
telle que
P(X = 1) = p , P(X = 0) = 1 −p.
On interpr`ete X comme le r´esultat du lancer d’une pi`ece truqu´ee qui tombe sur pile
avec probabilit´e p.
(c) Loi binˆomiale B(n, p) (n ∈ N

, p ∈ [0, 1]). C’est la loi d’une v.a. X `a valeurs dans
¦1, . . . , n¦ telle que
P(X = k) = C
k
n
p
k
(1 −p)
n−k
.
On interpr`ete X comme le nombre de piles obtenus en n lancers avec la pi`ece pr´ec´edente.
(d) Loi g´eom´etrique de param`etre p ∈]0, 1[. C’est la loi d’une v.a. X `a valeurs dans N, telle
que
P(X = k) = (1 −p) p
k
.
X est le nombre de piles obtenus avant le premier face.
(e) Loi de Poisson de param`etre λ > 0. X est une v.a. `a valeurs dans N, et
P(X = k) =
λ
k
k!
e
−λ
, ∀k ∈ N.
On calcule facilement E[X] = λ. La loi de Poisson est tr`es importante aussi bien
du point de vue th´eorique que dans les applications. Intuitivement, elle correspond
au nombre d’´ev´enements rares qui se sont produits durant une p´eriode longue. La
traduction math´ematique de cette intuition est l’approximation binˆomiale de la loi de
Poisson : si pour tout n ≥ 1, X
n
suit une loi binˆomiale B(n, p
n
) et si np
n
−→ λ quand
n → ∞, alors pour tout entier k ∈ N,
lim
n→∞
P(X
n
= k) =
λ
k
k!
e
−λ
.
Lois continues. Dans les trois exemples qui suivent, X est une v.a. `a valeurs dans R, `a
densit´e p(x).
(a) Loi uniforme sur [a, b] (a < b).
p(x) =
1
b −a
1
[a,b]
(x).
98
(b) Loi exponentielle de param`etre λ > 0.
p(x) = λ e
−λx
1
R
+
(x).
Les lois exponentielles poss`edent la propri´et´e caract´eristique suivante : si a, b > 0,
P(X > a + b) = P(X > a) P(X > b),
ce qu’on interpr`ete en disant que la probabilit´e que X − a > b sachant que X > a
co¨ıncide avec la probabilit´e que X > b. C’est la propri´et´e d’absence de m´emoire de
la loi exponentielle, qui explique qu’elle soit utilis´ee par exemple pour mod´eliser les
temps de vie de machine sans usure.
(c) Loi gaussienne, ou normale, ^(m, σ
2
) (m ∈ R, σ > 0).
p(x) =
1
σ


exp


(x −m)
2

2

.
Avec la loi de Poisson, c’est la loi la plus importante en th´eorie des probabilit´es. Sa
densit´e est la fameuse courbe en cloche. Les param`etres m et σ s’interpr`etent comme
m = E[X] , σ
2
= E[(X −m)
2
].
On remarque aussi que X − m suit la loi ^(0, σ
2
). La loi gaussienne jouera un rˆole
important dans le Chapitre 10.
Par convention on dira qu’une v.a. constante ´egale `a m suit la loi gaussienne ^(m, 0).
Si X suit la loi ^(m, σ
2
), pour tous λ, µ ∈ R, λX + µ suit la loi ^(λm+ µ, λ
2
σ
2
).
8.1.6 Fonction de r´epartition d’une variable al´eatoire r´eelle
Si X est une v.a. r´eelle, la fonction de r´epartition de X est la fonction F
X
: R −→ [0, 1]
d´efinie par
F
X
(t) = P(X ≤ t) = P
X
(] −∞, t]) , ∀t ∈ R.
La fonction F
X
est croissante, continue `a droite et a pour limite 0 en −∞ et 1 en +∞.
Inversement, si on se donne une fonction F ayant ces propri´et´es, on a vu dans le cours
d’int´egration qu’il existe une (unique) mesure de probabilit´e µ telle que µ(] −∞, t]) = F(t)
pour tout t ∈ R. Cela montre qu’on peut interpr´eter F comme la fonction de r´epartition
d’une v.a. r´eelle.
Il d´ecoule des r´esultats du cours d’int´egration que F
X
caract´erise la loi P
X
de X. On a
en particulier
P(a ≤ X ≤ b) = F
X
(b) −F
X
(a−) si a ≤ b,
P(a < X < b) = F
X
(b−) −F
X
(a) si a < b,
et les sauts de F
X
correspondent aux atomes de P
X
.
99
8.1.7 Tribu engendr´ee par une variable al´eatoire
Soit X une v.a. `a valeurs dans un espace mesurable quelconque (E, c). La tribu engendr´ee
par X, not´ee σ(X), est par d´efinition la plus petite tribu sur Ω qui rende X mesurable :
σ(X) = ¦A = X
−1
(B) : B ∈ c¦.
Remarque. On peut g´en´eraliser cette d´efinition `a une famille quelconque (X
i
)
i∈I
de v.a.,
X
i
´etant `a valeurs dans (E
i
, c
i
). Dans ce cas,
σ(X) = σ(X
−1
i
(B
i
) : B
i
∈ c
i
, i ∈ I).
Proposition 8.1.3 Soit X une variable al´eatoire `a valeurs dans (E, c), et soit Y une v.a.
r´eelle. Il y a ´equivalence entre :
(i) Y est σ(X)-mesurable.
(ii) Il existe une fonction mesurable f de (E, c) dans (R, B(R)) telle que Y = f(X).
Preuve. L’implication (ii)⇒(i) est facile puisqu’une compos´ee de fonctions mesurables est
mesurable.
Dans l’autre sens, supposons que Y est σ(X)-mesurable. Traitons d’abord le cas o` u Y
est ´etag´ee :
Y =
n
¸
i=1
λ
i
1
A
i
o` u λ
i
∈ R et A
i
∈ σ(X), pour tout i ∈ ¦1, . . . , n¦. Alors, pour chaque i ∈ ¦1, . . . , n¦, on
peut trouver B
i
∈ c tel que A
i
= X
−1
(B
i
), et on a
Y =
n
¸
i=1
λ
i
1
A
i
=
n
¸
i=1
λ
i
1
B
i
◦ X = f ◦ X,
o` u f =
¸
n
i=1
λ
i
1
B
i
est c-mesurable.
Dans le cas g´en´eral, on sait que Y est limite simple d’une suite de v.a. Y
n
´etag´ees et
σ(X)-mesurables. D’apr`es la premi`ere ´etape, on peut ´ecrire, pour tout n, Y
n
= f
n
(X), o` u la
fonction f
n
: E −→R est mesurable. On pose alors pour tout x ∈ E :
f(x) =

lim
n→∞
f
n
(x) si la limite existe,
0 sinon.
On sait que la fonction f ainsi d´efinie est mesurable. Par ailleurs, pour tout ω ∈ Ω,
X(ω) appartient `a l’ensemble des x pour lesquels limf
n
(x) existe (puisque limf
n
(X(ω)) =
limY
n
(ω) = Y (ω)), et de plus
f(X(ω)) = limf
n
(X(ω)) = Y (ω)
ce qui donne la repr´esentation recherch´ee Y = f(X).
100
8.2 Moments de variables al´eatoires
8.2.1 Moments d’ordre p et variance
Soit X une v.a. r´eelle et soit p ≥ 1 un entier. Le moment d’ordre p de X est par d´efinition
la quantit´e E[X
p
], qui n’est d´efinie que si E[[X[
p
] < ∞, ou si X ≥ 0. La quantit´e E[[X[
p
]
est appel´ee moment absolu d’ordre p. En particulier le moment d’ordre 1 est simplement
l’esp´erance de X. On dit que la v.a. r´eelle X est centr´ee si elle est int´egrable et si E[X] = 0.
L’esp´erance math´ematique est un cas particulier d’int´egrale par rapport `a une mesure
positive, et on peut donc lui appliquer les th´eor`emes g´en´eraux vus dans ce cadre. En parti-
culier, les th´eor`emes de convergence sont d’un usage fr´equent :
Convergence monotone : X
n
≥ 0, X
n
↑ X ⇒ E[X
n
] ↑ E[X].
Lemme de Fatou : X
n
≥ 0, ⇒ E[liminf X
n
] ≤ liminf E[X
n
].
Convergence domin´ee : [X
n
[ ≤ Z E[Z] < ∞, X
n
−→ X p.p. ⇒ E[X
n
] −→ E[X].
En th´eorie des probabilit´es on utilise l’expression presque sˆ urement (p.s. en abr´eg´e) plutˆot
que le presque partout (p.p.) de la th´eorie de la mesure.
Les espaces L
p
(Ω, /, P) sont d´efinis pour tout p ∈ [1, ∞] comme dans le cours d’int´egration.
L’in´egalit´e de H¨older s’´ecrit
E[[XY [] ≤ E[[X[
p
]
1/p
E[[Y [
q
]
1/q
,
pourvu que
1
p
+
1
q
= 1. En prenant Y = 1 on trouve |X|
1
≤ |X|
p
, ce qui se g´en´eralise
aussitˆot `a |X|
r
≤ |X|
p
si r ≤ p. En particulier L
p
(Ω, /, P) ⊂ L
r
(Ω, /, P) si r ≤ p.
L’in´egalit´e de Cauchy-Schwarz s’´ecrit
E[[XY [] ≤ E[X
2
]
1/2
E[Y
2
]
1/2
et le cas particulier o` u Y = 1
E[[X[]
2
≤ E[X
2
]
est tr`es souvent utile.
D´efinition 8.2.1 Soit X ∈ L
2
(Ω, /, P). La variance de X est
var(X) = E[(X −E[X])
2
]
et l’´ecart-type de X est
σ
X
=

var(X).
De mani`ere informelle, var(X) mesure la dispersion de X autour de sa moyenne E[X].
Remarquons que var(X) = 0 si et seulement si X est constante p.s.
101
Proposition 8.2.1 On a aussi var(X) = E[X
2
] −(E[X])
2
, et pour tout a ∈ R,
E[(X −a)
2
] = var(X) + (E[X] −a)
2
.
En cons´equence,
var(X) = inf
a∈R
E[(X −a)
2
].
Preuve. On a
E[(X −a)
2
] = E[X
2
] −2a E[X] + a
2
= E[X
2
] −(E[X])
2
+ (E[X] −a)
2
.
Les deux premi`eres assertions en d´ecoulent aussitˆot, en prenant a = E[X] pour la premi`ere.

In´egalit´e de Markov. (cf cours d’int´egration) Si X ≥ 0 et a > 0,
P(X ≥ a) ≤
1
a
E[X].
In´egalit´e de Bienaym´e-Tchebicheff. Si X ∈ L
2
(Ω, /, P) et a > 0,
P([X −E[X][ ≥ a) ≤
1
a
2
var(X).
Cette in´egalit´e d´ecoule de l’in´egalit´e de Markov appliqu´ee `a la variable positive (X−E[X])
2
.
D´efinition 8.2.2 Soient X, Y ∈ L
2
(Ω, /, P). La covariance de X et Y est
cov(X, Y ) = E[(X −E[X])(Y −E[Y ])] = E[X(Y −E[Y ])] = E[XY ] −E[X]E[Y ].
Si X = (X
1
, . . . , X
d
) est une variable al´eatoire `a valeurs dans R
d
dont toutes les composantes
sont dans L
2
(Ω, /, P) (ce qui ´equivaut `a E[[X[
2
] < ∞), la matrice de covariance de X est
K
X
=

cov(X
i
, X
j
)

1≤i≤d,1≤j≤d
.
De mani`ere informelle, la covariance de X et Y mesure la corr´elation existant entre X
et Y . Remarquons que cov(X, X) = var(X) et que, d’apr`es l’in´egalit´e de Cauchy-Schwarz,
[cov(X, Y )[ ≤

var(X)

var(Y ).
L’application (X, Y ) −→ cov(X, Y ) est une forme bilin´eaire sur L
2
(Ω, /, P).
Dans le cas vectoriel X = (X
1
, . . . , X
d
), la matrice K
X
est sym´etrique positive : pour
tous λ
1
, . . . , λ
d
∈ R
d
,
d
¸
i,j=1
λ
i
λ
j
K
X
(i, j) = var

d
¸
i=1
λ
i
X
i

≥ 0.
Exercice. Si A est une matrice (d´eterministe) nd et Y = AX, v´erifier que K
Y
= AK
X
t
A.
102
8.2.2 La r´egression lin´eaire
Soient X, Y
1
, . . . , Y
n
des variables al´eatoires dans L
2
(Ω, /, P). On cherche `a trouver la
meilleure approximation de X comme fonction affine de Y
1
, . . . , Y
n
. Pr´ecis´ement, on cherche
`a minimiser
E[(X −(β
0
+ β
1
Y
1
+ + β
n
Y
n
))
2
]
sur tous les choix possibles du (n + 1)-uplet de r´eels (β
0
, . . . , β
n
).
Proposition 8.2.2 On a
inf
β
0
,...,βn∈R
E[(X −(β
0
+ β
1
Y
1
+ + β
n
Y
n
))
2
] = E[(X −Z)
2
],
o` u
Z = E[X] +
n
¸
j=1
α
j
(Y
j
−E[Y
j
]), (1)
les coefficients α
j
´etant (n’importe quelle) solution du syst`eme
n
¸
j=1
α
j
cov(Y
j
, Y
k
) = cov(X, Y
k
) , 1 ≤ k ≤ n.
En particulier, si K
Y
est non-d´eg´en´er´ee, on a α = cov(X, Y ) K
−1
Y
en notation matricielle.
Preuve. Soit H le sous-espace vectoriel de L
2
(Ω, /, P) engendr´e par 1, Y
1
, . . . , Y
n
. Alors,
on sait que la variable al´eatoire Z qui minimise |X − U|
2
pour U ∈ H est la projection
orthogonale de X sur H. On peut ´ecrire Z sous la forme
Z = α
0
+
n
¸
j=1
α
j
(Y
j
−E[Y
j
]).
Par d´efinition de la projection orthogonale, X −Z est orthogonal `a H. On doit donc avoir
E[(X −Z) 1] = 0,
d’o` u α
0
= E[X]. De mˆeme, pour tout k ∈ ¦1, . . . , n¦,
E[(X −Z) (Y
k
−E[Y
k
])] = 0,
ce qui ´equivaut `a cov(Z, Y
k
) = cov(X, Y
k
), ou encore `a
n
¸
j=1
α
j
cov(Y
j
, Y
k
) = cov(X, Y
k
).
Inversement, si les coefficients α
j
v´erifient ce syst`eme d’´equations, il est imm´ediat que la
variable Z d´efinie par le membre de droite de (1) est un ´el´ement de H tel que X − Z soit
orthogonal `a H, donc doit co¨ıncider avec la projection orthogonale de X sur H.
Remarque. Si n = 1 et si on suppose que Y n’est pas constante p.s., on trouve que la
meilleure (au sens L
2
) approximation de X par une fonction affine de Y est
Z = E[X] +
cov(X, Y )
var(Y )
(Y −E[Y ]).
C’est ce qu’on appelle parfois la droite de r´egression de X en Y .
103
8.2.3 Fonctions caract´eristiques
D´efinition 8.2.3 Si X est une variable al´eatoire `a valeurs dans R
d
, la fonction caract´eristique
de X est la fonction Φ
X
: R
d
−→C d´efinie par
Φ
X
(ξ) = E[exp(iξ X)] , ξ ∈ R
d
.
On peut aussi ´ecrire
Φ
X
(ξ) =

e
iξ·x
P
X
(dx)
ce qui permet de voir Φ
X
comme la transform´ee de Fourier de la loi de X. On ´ecrit parfois
Φ
X
(ξ) =
´
P
X
(ξ). Le th´eor`eme de convergence domin´ee montre que Φ
X
est continue (et
born´ee) sur R
d
.
Notre objectif est de montrer que la fonction caract´eristique caract´erise la loi de X. Nous
commen¸ cons par un calcul important dans un cas particulier.
Lemme 8.2.3 Soit X une variable al´eatoire de loi gaussienne ^(0, σ
2
). Alors,
Φ
X
(ξ) = exp(−
σ
2
ξ
2
2
) , ξ ∈ R.
Preuve. On a
Φ
X
(ξ) =

R
1
σ


e
−x
2
/(2σ
2
)
e
iξx
dx.
On se ram`ene facilement au cas σ = 1. Ensuite, un argument de parit´e montre que la partie
imaginaire de Φ
X
(ξ) est nulle. Il reste `a calculer
f(ξ) =

R
1


e
−x
2
/2
cos(ξx) dx.
En d´erivant sous le signe int´egrale, on a
f

(ξ) = −

R
1


xe
−x
2
/2
sin(ξx) dx
(la justification est facile puisque [x sin(ξx) e
−x
2
/2
[ ≤ [x[ e
−x
2
/2
qui est int´egrable). En
int´egrant par parties, il vient
f

(ξ) = −

R
1


e
−x
2
/2
ξ cos(ξx) dx = −ξ f(ξ).
La fonction f est donc solution de l’´equation diff´erentielle f

(ξ) = −ξf(ξ), avec condition
initiale f(0) = 1. Il en d´ecoule que f(ξ) = exp(−ξ
2
/2).
Th´eor`eme 8.2.4 La fonction caract´eristique d’une variable al´eatoire X `a valeurs dans R
d
caract´erise la loi de cette variable al´eatoire. Autrement dit, la transform´ee de Fourier d´efinie
sur l’espace des mesures de probabilit´e sur R
d
est injective.
104
Preuve. On traite d’abord le cas d = 1. Pour tout σ > 0, soit g
σ
la densit´e de la loi
gaussienne ^(0, σ
2
) :
g
σ
(x) =
1
σ


exp(−
x
2

2
) , x ∈ R.
Si µ est une mesure de probabilit´e sur R, on pose
f
σ
(x) =

R
g
σ
(x −y) µ(dy)
(def)
= g
σ
∗ µ(x),
µ
σ
(dx) = f
σ
(x) dx.
Pour montrer le r´esultat du th´eor`eme, il suffit d’´etablir que
1. µ
σ
est d´etermin´ee par ´ µ.
2. Pour toute fonction ϕ ∈ C
b
(R),

ϕ(x)µ
σ
(dx) −→

ϕ(x)µ(dx) quand σ → 0.
Pour ´etablir le point 1, on utilise le lemme pour ´ecrire, pour tout x ∈ R,
σ

2π g
σ
(x) = exp(−
x
2

2
) =

R
e
iξx
g
1/σ
(ξ) dξ.
Il vient alors
f
σ
(x) =

R
g
σ
(x −y) µ(dy) = (σ

2π)
−1

R

R
e
iξ(x−y)
g
1/σ
(ξ) dξ

µ(dy)
= (σ

2π)
−1

R
e
iξx
g
1/σ
(ξ)

R
e
−iξy
µ(dy)


= (σ

2π)
−1

R
e
iξx
g
1/σ
(ξ) ´ µ(−ξ)dξ.
Dans l’avant-derni`ere ´egalit´e, on a utilis´e le th´eor`eme de Fubini-Lebesgue, dont la justifica-
tion est facile puisque µ est une mesure de probabilit´e et que la fonction g
1/σ
est int´egrable
pour la mesure de Lebesgue.
Pour le point 2, on ´ecrit d’abord, pour toute fonction ϕ continue et born´ee sur R,

ϕ(x)µ
σ
(dx) =

ϕ(x)

g
σ
(y −x)µ(dy)

dx =

g
σ
∗ ϕ(y)µ(dy),
avec la mˆeme justification pour appliquer le th´eor`eme de Fubini-Lebesgue. Ensuite, on utilise
les propri´et´es

g
σ
(x) dx = 1 ,
lim
σ→0

{|x|>ε}
g
σ
(x) dx = 0 , ∀ε > 0,
pour obtenir que, pour tout y ∈ R,
lim
ε→0
g
σ
∗ ϕ(y) = ϕ(y)
105
(cf les r´esultats du cours d’int´egration concernant les approximations de la mesure de Dirac
δ
0
). Par convergence domin´ee, facile `a justifier puisque [g
σ
∗ ϕ[ ≤ sup [ϕ[, on obtient
lim
σ→0

ϕ(x)µ
σ
(dx) =

ϕ(x)µ(dx),
ce qui termine la preuve dans le cas d = 1.
La preuve dans le cas d quelconque est similaire. On utilise les fonctions
g
(d)
σ
(x
1
, . . . , x
d
) =
d
¸
j=1
g
σ
(x
j
)
en remarquant que pour ξ ∈ R
d
,

R
d
g
(d)
σ
(x) e
iξ·x
dx =
d
¸
j=1

g
σ
(x
j
) e

j
·x
j
dx
j
= (2πσ)
d/2
g
(d)
1/σ
(ξ).

Proposition 8.2.5 Soit X = (X
1
, . . . , X
d
) une v.a. `a valeurs dans R
d
et de carr´e int´egrable.
Alors Φ
X
est de classe C
2
et
Φ
X
(ξ) = 1 +i
d
¸
j=1
ξ
j
E[X
j
] −
1
2
d
¸
j=1
d
¸
k=1
ξ
j
ξ
k
E[X
j
X
k
] + o([ξ[
2
)
quand ξ = (ξ
1
, . . . , ξ
d
) tend vers 0.
Preuve. En d´erivant sous le signe int´egrale, on trouve
∂Φ
X
∂ξ
j
(ξ) = i E[X
j
e
iξ·X
],
la justification ´etant facile puisque [iX
j
e
iξ·X
[ = [X
j
[ et X
j
∈ L
2
⊂ L
1
. De mˆeme, puisque
E[[X
j
X
k
[] ≤ E[X
2
j
]
1/2
E[X
2
k
]
1/2
< ∞, on peut d´eriver une seconde fois et trouver que

2
Φ
X
∂ξ
j
∂ξ
k
(ξ) = −E[X
j
X
k
e
iξ·X
].
De plus le th´eor`eme de continuit´e sous le signe int´egrale assure que

2
Φ
X
∂ξ
j
∂ξ
k
(ξ) est fonction
continue de ξ.
Enfin la derni`ere assertion est simplement le d´eveloppement de Taylor de Φ
X
`a l’ordre 2
`a l’origine.
Remarque. Si on suppose que X est de puissance p-i`eme int´egrable (p ≥ 1 entier) le mˆeme
raisonnement montre que Φ
X
est de classe C
p
. C’est cependant le cas p = 2 qui sera le plus
utile dans la suite.
106
8.2.4 Fonction g´en´eratrice
Dans le cas de variables al´eatoires `a valeurs dans N, on utilise les fonctions g´en´eratrices
plutˆot que les fonctions caract´eristiques.
D´efinition 8.2.4 Soit X une v.a. `a valeurs dans N. La fonction g´en´eratrice de X est la
fonction g
X
d´efinie sur l’intervalle [0, 1] par
g
X
(r) = E[r
X
] =

¸
n=0
P(X = n) r
n
.
La fonction g
X
est continue sur [0, 1] (cela d´ecoule par exemple du th´eor`eme de conver-
gence domin´ee), et on a g
X
(0) = P(X = 0) et g
X
(1) = 1. Le rayon de convergence de la s´erie
enti`ere qui apparaˆıt dans la d´efinition est donc sup´erieur ou ´egal `a un. Cela montre que la
fonction g´en´eratrice g
X
caract´erise la loi de X, puisque les nombres P(X = n) apparaissent
comme les coefficients du d´eveloppement de Taylor de g
X
en 0.
On voit facilement que g
X
a toujours une d´eriv´ee `a gauche en 1, ´eventuellement infinie,
et que
g

X
(1) = E[X].
Plus g´en´eralement, pour tout entier p ≥ 1,
lim
r↑1
g
(p)
X
(r) = E[X(X −1) (X −p + 1)]
ce qui montre comment retrouver tous les moments de X `a partir de la connaissance de la
fonction g´en´eratrice.
107
108
Chapitre 9
Ind´ependance
Le concept d’ind´ependance est sans doute la premi`ere notion importante o` u la th´eorie
des probabilit´es se diff´erencie nettement de l’int´egration. S’il est plus facile de compren-
dre intuitivement la d´efinition de l’ind´ependance de deux ´ev´enements ou de deux variables
al´eatoires, la notion la plus fondamentale est celle de l’ind´ependance de deux (ou plusieurs)
sous-tribus. Un r´esultat-cl´e de ce chapitre relie l’ind´ependance de deux variables al´eatoires au
fait que la loi du couple form´e par ces deux variables est la mesure-produit des lois individu-
elles. Avec le th´eor`eme de Fubini, cela permet des reformulations souvent utiles de la notion
d’ind´ependance. A titre d’application, on ´etablit le c´el`ebre lemme de Borel-Cantelli (dont
une application amusante donne des propri´et´es surprenantes du d´eveloppement dyadique
d’un nombre r´eel choisi au hasard) et une premi`ere forme de la loi des grands nombres, qui
suffit `a ´etablir le lien entre notre approche axiomatique des probabilit´es et la d´efinition “his-
torique” (probabilit´e d’un ´ev´enement = fr´equence d’apparition de cet ´ev´enement lorsqu’on
r´ep`ete un grand nombre de fois la mˆeme exp´erience al´eatoire).
9.1 Ev´enements ind´ependants
Dans tout ce chapitre on se place sur un espace de probabilit´e (Ω, /, P). Si A, B ∈ / sont
deux ´ev´enements, on dit que A et B sont ind´ependants si
P(A∩ B) = P(A)P(B).
Au moins lorsque P(B) > 0, on peut interpr`eter cette d´efinition en disant que la probabilit´e
conditionnelle
P(A [ B)
(def)
=
P(A∩ B)
P(B)
co¨ıncide avec P(A) : le fait de savoir que B est r´ealis´e ne donne pas d’information sur la
r´ealisation ou non de l’´ev´enement A (et on peut intervertir les rˆoles de A et B).
Exemples. (i) Lancer de deux d´es : Ω = ¦1, 2, . . . , 6¦
2
, P(¦ω¦) = 1/36 pour tout ω ∈ Ω.
Les ´ev´enements A = ¦6¦ ¦1, 2, . . . , 6¦ et B = ¦1, 2, . . . , 6¦ ¦6¦ sont ind´ependants. En
fait la probabilit´e P a ´et´e construite pr´ecis´ement pour qu’un ´ev´enement relatif au r´esultat
du premier lancer soit ind´ependant d’un ´ev´enement relatif au r´esultat du second.
109
(ii) Lancer d’un seul d´e : Ω = ¦1, 2, . . . , 6¦, P(¦ω¦) = 1/6 pour tout ω ∈ Ω. Les ´ev´enements
A = ¦1, 2¦ et B = ¦1, 3, 5¦ sont ind´ependants.
D´efinition 9.1.1 On dit que n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si, pour tout sous-
ensemble non vide ¦j
1
, . . . , j
p
¦ de ¦1, . . . , n¦, on a
P(A
j
1
∩ A
j
2
∩ . . . ∩ A
jp
) = P(A
j
1
) P(A
j
2
) . . . P(A
jp
).
Remarques. Il ne suffit pas que l’on ait
P(A
1
∩ A
2
∩ . . . ∩ A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Il ne suffit pas non plus que, pour chaque paire ¦i, j¦ ⊂ ¦1, . . . , n¦, les ´ev´enements A
i
et A
j
soient ind´ependants. Pour donner un exemple, consid´erons l’espace correspondant `a deux
lancers de pile ou face (pi`ece non truqu´ee) et prenons
A = ¦pile au premier lancer¦
B = ¦pile au second lancer¦
C = ¦mˆeme r´esultat aux deux lancers¦.
Les ´ev´enements A, B, C sont ind´ependants deux `a deux mais non ind´ependants.
Proposition 9.1.1 Les n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si et seulement si on a
P(B
1
∩ . . . ∩ B
n
) = P(B
1
) . . . P(B
n
)
d`es que B
i
∈ σ(A
i
) = ¦∅, A
i
, A
c
i
, Ω¦ pour tout i ∈ ¦1, . . . , n¦.
Preuve. Il est clair que la condition donn´ee est plus forte que celle de la d´efinition : prendre
B
i
= A
i
si i ∈ ¦j
1
, . . . , j
p
¦ et B
i
= Ω sinon. Inversement, supposons que A
1
, . . . , A
n
sont
ind´ependants. Pour v´erifier la propri´et´e de la proposition, on peut supposer B
i
= ∅ pour
tout i ∈ ¦1, . . . , n¦. Ensuite, si ¦j
1
, . . . , j
p
¦ = ¦i : B
i
= Ω¦, on est ramen´e `a montrer que
P(B
j
1
∩ B
j
2
∩ . . . ∩ B
jp
) = P(B
j
1
) P(B
j
2
) . . . P(B
jp
),
d`es que B
j
k
= A
j
k
ou A
c
j
k
. Finalement, il suffit de montrer que si C
1
, C
2
, . . . , C
p
sont
ind´ependants, C
c
1
, C
2
, . . . , C
p
le sont aussi. Mais cela est facile puisque, pour tout sous-
ensemble ¦i
1
, . . . , i
q
¦ de ¦2, . . . , p¦,
P(C
c
1
∩ C
i
1
∩ ∩ C
iq
) = P(C
i
1
∩ ∩ C
iq
) −P(C
1
∩ C
i
1
∩ ∩ C
iq
)
= P(C
i
1
) . . . P(C
iq
) −P(C
1
)P(C
i
1
) . . . P(C
iq
)
= P(C
c
1
)P(C
i
1
) . . . P(C
iq
)

110
9.2 Variables al´eatoires et tribus ind´ependantes
La notion la plus g´en´erale est celle de tribus ind´ependantes.
D´efinition 9.2.1 Soient B
1
, . . . , B
n
n sous-tribus de /. On dit que B
1
, . . . , B
n
sont ind´epen-
dantes si et seulement si
∀A
1
∈ B
1
, . . . , ∀A
n
∈ B
n
, P(A
1
∩ A
2
∩ . . . ∩ A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Soient X
1
, . . . , X
n
n variables al´eatoires `a valeurs respectivement dans (E
1
, c
1
), . . . , (E
n
, c
n
).
On dit que les variables X
1
, . . . , X
n
sont ind´ependantes si les tribus σ(X
1
), . . . , σ(X
n
) le sont.
Cela ´equivaut encore `a dire que
∀F
1
∈ c
1
, . . . , ∀F
n
∈ c
n
, P(¦X
1
∈ F
1
¦ ∩ . . . ∩ ¦X
n
∈ F
n
¦) = P(X
1
∈ F
1
) . . . P(X
n
∈ F
n
)
(9.1)
(en effet on sait que σ(X
i
) = ¦X
−1
i
(F) : F ∈ c
i
¦).
De mani`ere intuitive, les v.a. X
1
, . . . , X
n
sont ind´ependantes si la connaissance de cer-
taines d’entre elles ne donne pas d’information sur les autres.
Remarques. (i) Si B
1
, . . . , B
n
sont n sous-tribus ind´ependantes, et si, pour tout i ∈
¦1, . . . , n¦, X
i
est une v.a. B
i
-mesurable, alors X
1
, . . . , X
n
sont ind´ependantes.
(ii) Les n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si et seulement si les tribus σ(A
1
), . . . ,
σ(A
n
) le sont (cf proposition pr´ec´edente).
Si X
1
, . . . , X
n
sont des variables al´eatoires `a valeurs dans (E
1
, c
1
), . . . , (E
n
, c
n
) respec-
tivement, le n-uplet (X
1
, . . . , X
n
) est une v.a. `a valeurs dans l’espace E
1
E
n
muni de
la tribu produit c
1
⊗ ⊗c
n
.
Th´eor`eme 9.2.1 Les n variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes si et seulement
si la loi du n-uplet (X
1
, . . . , X
n
) est le produit des lois de X
1
, . . . , X
n
:
P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
.
De plus, on a alors
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)]
d`es que f
i
est une fonction mesurable positive sur (E
i
, c
i
), pour tout i ∈ ¦1, . . . , n¦.
Preuve. Soit F
i
∈ c
i
, pour tout i ∈ ¦1, . . . , n¦. On a d’une part
P
(X
1
,...,Xn)
(F
1
F
n
) = P(¦X
1
∈ F
1
¦ ∩ . . . ∩ ¦X
n
∈ F
n
¦)
et d’autre part
P
X
1
⊗ ⊗P
Xn
(F
1
F
n
) =
n
¸
i=1
P
X
i
(F
i
) =
n
¸
i=1
P(X
i
∈ F
i
).
111
En comparant avec (9.1), on voit que X
1
, . . . , X
n
sont ind´ependantes si et seulement si les
deux mesures de probabilit´e P
(X
1
,...,Xn)
et P
X
1
⊗ ⊗ P
Xn
prennent les mˆemes valeurs sur
les pav´es F
1
F
n
. Mais comme on sait (lemme de classe monotone) qu’une mesure de
probabilit´e sur un espace-produit est caract´eris´ee par ses valeurs sur les pav´es, cela ´equivaut
encore `a dire que P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
.
La deuxi`eme assertion est ensuite une cons´equence du th´eor`eme de Fubini-Tonnelli :
E

n
¸
i=1
f
i
(X
i
)

=

E
1
×···×En
n
¸
i=1
f
i
(x
i
) P
X
1
(dx
1
) . . . P
Xn
(dx
n
)
=
n
¸
i=1

E
i
f
i
(x
i
) P
X
i
(dx
i
)
=
n
¸
i=1
E[f
i
(X
i
)].

Le th´eor`eme ci-dessus montre aussi comment construire des v.a. ind´ependantes. Con-
sid´erons le cas de v.a. r´eelles, et soient µ
1
, . . . , µ
n
des mesures de probabilit´e sur R
n
. Alors,
comme on l’a observ´e dans le Chapitre 8, on peut construire une v.a. Y = (Y
1
, . . . , Y
n
) `a
valeurs dans R
n
dont la loi est µ
1
⊗ ⊗µ
n
. D’apr`es le th´eor`eme pr´ec´edent, les composantes
Y
1
, . . . Y
n
de Y sont des v.a. r´eelles ind´ependantes de lois respectives µ
1
, . . . , µ
n
.
Remarques. Si les fonctions f
i
sont de signe quelconque, l’´egalit´e
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)]
reste vraie `a condition que E[[f
i
(X
i
)[] < ∞ pour tout i ∈ ¦1, . . . , n¦, et on a alors aussi
E

n
¸
i=1
[f
i
(X
i
)[

=
n
¸
i=1
E[[f
i
(X
i
)[] < ∞
ce qui justifie l’existence du terme de gauche dans la formule pr´ec´edente.
En particulier, si X
1
, . . . , X
n
sont n v.a. r´eelles ind´ependantes et dans L
1
, on a aussi
X
1
X
n
∈ L
1
, et
E[X
1
X
n
] =
n
¸
i=1
E[X
i
].
Remarquons qu’en g´en´eral le produit de v.a. dans L
1
n’est pas dans L
1
(l’ind´ependance est
une propri´et´e tr`es particuli`ere).
Corollaire 9.2.2 Si X
1
, X
2
sont deux variables al´eatoires r´eelles ind´ependantes et dans L
2
,
on a cov(X
1
, X
2
) = 0.
Cela d´ecoule de ce qui pr´ec`ede puisque cov(X
1
, X
2
) = E[X
1
X
2
] −E[X
1
]E[X
2
].
112
La r´eciproque du corollaire est fausse. La propri´et´e de covariance nulle (pour deux v.a.
dans L
2
) est beaucoup plus faible que l’ind´ependance. Pour donner un exemple, partons
d’une v.a. r´eelle X
1
dont la loi a une densit´e not´ee p(x) sym´etrique (p(x) = p(−x)) et telle
que

x
2
p(x)dx < ∞ (de sorte que X
1
∈ L
2
). On peut par exemple choisir pour X
1
une v.a.
de loi ^(0, σ
2
). Soit ensuite ε une deuxi`eme v.a. `a valeurs dans ¦−1, 1¦, ind´ependante de
X
1
et telle que P(ε = 1) = P(ε = −1) =
1
2
. Alors, si X
2
= εX
1
, on voit imm´ediatement
que cov(X
1
, X
2
) = 0 alors que X
1
et X
2
ne sont pas ind´ependantes. En effet, si X
1
et X
2
l’´etaient, [X
1
[ serait ind´ependante de [X
2
[ = [X
1
[. Or si une v.a. r´eelle est ind´ependante
d’elle-mˆeme, elle doit ˆetre constante p.s. (exercice !) et donc sa loi est une mesure de Dirac.
C’est une contradiction puisque la loi de [X
1
[ a une densit´e donn´ee par 2 p(x)1
R
+
(x).
Corollaire 9.2.3 Soient X
1
, . . . , X
n
n variables al´eatoires r´eelles.
(i) Supposons d’abord que, pour tout i ∈ ¦1, . . . , n¦, la loi de X
i
a une densit´e not´ee p
i
, et
que les variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes. Alors, la loi de (X
1
, . . . , X
n
) a
une densit´e donn´ee par
p(x
1
, . . . , x
n
) =
n
¸
i=1
p
i
(x
i
).
(ii) Inversement, supposons que la loi de (X
1
, . . . , X
n
) a une densit´e de la forme
p(x
1
, . . . , x
n
) =
n
¸
i=1
q
i
(x
i
),
o` u les fonctions q
i
sont bor´eliennes positives sur R. Alors les variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes et pour chaque i ∈ ¦1, . . . , n¦, la loi de X
i
a une densit´e p
i
qui s’´ecrit
p
i
= C
i
q
i
, o` u C
i
> 0 est une constante.
Preuve. La premi`ere partie est une cons´equence imm´ediate du th´eor`eme ci-dessus, puisque
si P
X
i
(dx
i
) = p
i
(x
i
)dx
i
, le th´eor`eme de Fubini-Tonnelli montre que
P
X
1
⊗ ⊗P
Xn
(dx
1
. . . dx
n
) =

n
¸
i=1
p
i
(x
i
)

dx
1
. . . dx
n
.
Pour la partie (ii), on remarque d’abord que, toujours `a l’aide du th´eor`eme de Fubini-
Tonnelli, on a
n
¸
i=1

q
i
(x)dx

=

R
n
p(x
1
, . . . , x
n
)dx
1
. . . dx
n
= 1,
et en particulier K
i
:=

q
i
(x)dx) ∈]0, ∞[ pour tout i ∈ ¦1, . . . , n¦. Ensuite, d’apr`es un
r´esultat du Chapitre 8, la densit´e de X
i
est
p
i
(x
i
) =

R
n−1
p(x
1
, . . . , x
n
)dx
1
. . . dx
i−1
dx
i+1
. . . , dx
n
=

¸
j=i
K
j

q
i
(x
i
) =
1
K
i
q
i
(x
i
).
Cela permet de r´e´ecrire la densit´e de (X
1
, . . . , X
n
) sous la forme
p(x
1
, . . . , x
n
) =
n
¸
i=1
q
i
(x
i
) =
n
¸
i=1
p
i
(x
i
)
113
et on voit que P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
d’o` u l’ind´ependance.
Exemple. Soit U une variable de loi exponentielle de param`etre 1 et soit V une variable
uniforme sur l’intervalle [0, 1]. On suppose que U et V sont ind´ependantes. Alors, si on
d´efinit
X =

U cos(2πV ) , Y =

U sin(2πV ),
les deux variables al´eatoires X et Y sont ind´ependantes. Pour le voir calculons la loi du
couple (X, Y ). Pour toute fonction ϕ mesurable positive sur R
2
,
E[ϕ(X, Y )] =


0

1
0
ϕ(

ucos(2πv),

usin(2πv)) e
−u
dudv
=
1
π


0


0
ϕ(r cos θ, r sin θ) re
−r
2
drdθ
=
1
π

R
2
ϕ(x, y) e
−x
2
−y
2
dxdy.
On obtient que la loi du couple (X, Y ) a pour densit´e π
−1
exp(−x
2
− y
2
) qui a une forme
produit comme dans la partie (ii) de la proposition. Donc X et Y sont ind´ependantes (on
voit aussi que X et Y ont la mˆeme densit´e
p(x) =
1

π
exp(−x
2
)
et donc X et Y suivent chacune la loi ^(0, 1/2)).
Remarque. Si X
1
, . . . , X
n
sont n variables al´eatoires r´eelles, il y a ´equivalence entre :
(i) X
1
, . . . , X
n
sont ind´ependantes.
(ii) Pour tous a
1
, . . . , a
n
∈ R, P(X
1
≤ a
1
, . . . , X
n
≤ a
n
) =
¸
n
i=1
P(X
i
≤ a
i
).
(iii) Si f
1
, . . . , f
n
sont continues `a support compact de R dans R
+
,
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)].
(iv) La fonction caract´eristique de X est
Φ
X

1
, . . . , ξ
n
) =
n
¸
i=1
Φ
X
i

i
)
(pour montrer (iv)⇒(i), utiliser l’injectivit´e de la transform´ee de Fourier, cf Chapitre 8).
Nous passons maintenant `a un r´esultat technique tr`es utile.
114
Proposition 9.2.4 Soient B
1
, . . . , B
n
des sous-tribus de /. Pour tout i ∈ ¦1, . . . , n¦, soit
(
i
⊂ B
i
une classe stable par intersections finies, contenant Ω et telle que σ((
i
) = B
i
.
Supposons que
∀C
1
∈ (
1
, . . . , ∀C
n
∈ (
n
, P(C
1
∩ C
2
∩ . . . ∩ C
n
) = P(C
1
) P(C
2
) . . . P(C
n
).
Alors, les tribus B
1
, . . . , B
n
sont ind´ependantes.
Preuve. Fixons d’abord C
2
∈ (
2
, . . . , C
n
∈ (
n
, et posons
´
1
= ¦B
1
∈ B
1
: P(B
1
∩ C
2
∩ . . . ∩ C
n
) = P(B
1
) P(C
2
) . . . P(C
n
)¦.
Alors (
1
⊂ ´
1
par hypoth`ese, et d’autre part on voit facilement que ´
1
est une classe
monotone. Le lemme de classe monotone entraˆıne que ´
1
contient σ((
1
) = B
1
, et on a
montr´e
∀B
1
∈ B
1
, ∀C
2
∈ (
2
, . . . , ∀C
n
∈ (
n
, P(B
1
∩ C
2
∩ . . . ∩ C
n
) = P(B
1
) P(C
2
) . . . P(C
n
).
Pour continuer, on fixe B
1
∈ B
1
, C
3
∈ (
3
, . . . , C
n
∈ (
n
et on pose
´
1
= ¦B
2
∈ B
2
: P(B
1
∩ B
2
∩ C
3
∩ . . . ∩ C
n
) = P(B
1
) P(B
2
) P(C
3
) . . . P(C
n
)¦.
A nouveau, ´
2
est une classe monotone qui contient (
2
et donc aussi σ((
2
) = B
2
. En
raisonnant par r´ecurrence, on arrive facilement au r´esultat voulu.
Cons´equence. Regroupement par paquets. Soient B
1
, . . . , B
n
des tribus ind´ependantes,
et soient n
0
= 0 < n
1
< < n
p
= n. Alors les tribus
T
1
= B
1
∨ ∨ B
n
1
(not)
= σ(B
1
, . . . , B
n
1
)
T
2
= B
n
1
+1
∨ ∨ B
n
2

T
p
= B
n
p−1
+1
∨ ∨ B
np
sont ind´ependantes. Pour le voir, il suffit d’appliquer la proposition ci-dessus en prenant
pour (
j
la classe des parties de la forme
B
n
j−1
+1
∩ ∩ B
n
j
o` u B
i
∈ B
i
pour tout i ∈ ¦n
j−1
+ 1, . . . , n
j
¦.
En particulier, si X
1
, . . . , X
n
sont ind´ependantes, les v.a.
Y
1
= (X
1
, . . . , X
n
1
), . . . , Y
p
= (X
n
p−1
+1
, . . . , X
np
)
sont ind´ependantes.
Exemple. Si X
1
, . . . , X
4
sont des v.a. r´eelles ind´ependantes, les v.a.
Z
1
= X
1
X
3
, Z
2
= X
3
2
+ X
4
115
sont ind´ependantes.
Ind´ependance d’une famille infinie. Soit (B
i
)
i∈I
une famille quelconque de sous-tribus
de /. On dit que cette famille est ind´ependante si pour tout sous-ensemble fini ¦i
1
, . . . , i
p
¦
de I, les tribus B
i
1
, . . . , B
ip
sont ind´ependantes.
Si (X
i
)
i∈I
est une famille quelconque de variables al´eatoires, cette famille est dite ind´epen-
dante si la famille de tribus (σ(X
i
))
i∈I
l’est.
Proposition 9.2.5 Soit (X
n
)
n∈N
une suite de variables al´eatoires ind´ependantes. Alors,
pour tout entier p ∈ N, les deux tribus
B
1
= σ(X
0
, . . . , X
p
) , B
2
= σ(X
p+1
, X
p+2
, . . .)
sont ind´ependantes.
Preuve. Il suffit d’appliquer la proposition pr´ec´edente en prenant
(
1
= σ(X
0
, . . . , X
p
) = B
1
(
2
=

¸
k=p+1
σ(X
p+1
, X
p+2
, . . . , X
k
) ⊂ B
2
et en remarquant que l’hypoth`ese est satisfaite grˆace au principe du regroupement par pa-
quets.
9.3 Le lemme de Borel-Cantelli
Si (A
n
)
n∈N
est une suite d’´ev´enements on note
limsup A
n
=

¸
n=0


¸
k=n
A
k

et
liminf A
n
=

¸
n=0


¸
k=n
A
k

Lemme 9.3.1 Soit (A
n
)
n∈N
une suite d’´ev´enements.
(i) Si
¸
n∈N
P(A
n
) < ∞, alors
P(limsup A
n
) = 0
ou de mani`ere ´equivalente,
p.s. ¦n ∈ N : ω ∈ A
n
¦ est fini.
116
(ii) Si
¸
n∈N
P(A
n
) = ∞ et si les ´ev´enements A
n
sont ind´ependants, alors
P(limsup A
n
) = 1
ou de mani`ere ´equivalente,
p.s. ¦n ∈ N : ω ∈ A
n
¦ est infini.
Remarque. L’hypoth`ese d’ind´ependance (ou une autre hypoth`ese convenable) est n´ecessaire
dans (ii), comme le montre l’exemple trivial o` u A
n
= A pour tout n ∈ N, avec 0 < P(A) < 1.
Preuve. (i) Si
¸
n∈N
P(A
n
) < ∞, alors
E

¸
n∈N
1
An

=
¸
n∈N
P(A
n
) < ∞
et donc
¸
n∈N
1
An
< ∞ p.s.
(ii) Fixons d’abord n
0
∈ N, et observons que si n ≥ n
0
,
P

n
¸
k=n
0
A
c
k

=
n
¸
k=n
0
P(A
c
k
) =
n
¸
k=n
0
(1 −P(A
k
)).
La divergence de la s´erie
¸
P(A
k
) entraˆıne alors que
P


¸
k=n
0
A
c
k

= 0.
Comme cela est vrai pour tout n
0
∈ N, on a aussi
P


¸
n
0
=0


¸
k=n
0
A
c
k

= 0
et, en passant au compl´ementaire,
P


¸
n
0
=0


¸
k=n
0
A
k

= 1,
ce qui est le r´esultat voulu.
Deux applications. (1) Il n’existe pas de mesure de probabilit´e sur N telle que la probabilit´e
de l’ensemble des multiples de n soit ´egale `a 1/n pour tout entier n ≥ 1. En effet, supposons
qu’il existe une telle probabilit´e, not´ee P. Soit { l’ensemble des nombres premiers et pour
tout p ∈ {, notons A
p
= pN l’ensemble des multiples de p. Alors, il est facile de voir que les
A
p
, p ∈ {, sont ind´ependants. En effet, si p
1
, . . . , p
k
sont des nombres premiers distincts,
P(A
p
1
∩ . . . ∩ A
p
k
) = P(p
1
N ∩ . . . ∩ p
k
N) = P((p
1
. . . p
k
)N) =
1
p
1
. . . p
k
=
k
¸
j=1
P(A
p
j
).
117
Par ailleurs, on sait que
¸
p∈P
P(A
p
) =
¸
p∈P
1
p
= ∞.
On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque
tout (au sens de la probabilit´e P) entier n appartient `a une infinit´e d’ensembles A
p
, et donc
est multiple d’une infinit´e de nombres premiers distincts. C’est ´evidemment absurde.
(2) Consid´erons le cas o` u
(Ω, /, P) = ([0, 1[, B([0, 1[), λ).
Pour tout n ≥ 1, on pose
∀ω ∈ [0, 1[, X
n
(ω) = [2
n
ω] −2[2
n−1
ω],
o` u [x] d´esigne la partie enti`ere d’un nombre r´eel x. Alors X
n
(ω) ∈ ¦0, 1¦ et on v´erifie
ais´ement par r´ecurrence sur n que, pour tout ω ∈ [0, 1[,
0 ≤ ω −
n
¸
k=1
X
k
(ω)2
−k
< 2
−n
,
ce qui montre que
ω =

¸
k=1
X
k
(ω) 2
−k
.
Les nombres X
k
(ω) sont donc les coefficients du d´eveloppement dyadique (propre) de ω. En
explicitant l’ensemble ¦X
n
= 1¦ on montre facilement que pour tout n ≥ 1,
P(X
n
= 0) = P(X
n
= 1) =
1
2
.
Enfin, on observe que la suite (X
n
)
n≥1
est ind´ependante. En effet, il suffit ici de v´erifier que,
pour tous i
1
, . . . , i
p
∈ ¦0, 1¦, on a
P(X
1
= i
1
, . . . , X
p
= i
p
) =
1
2
p
=
p
¸
j=1
P(X
j
= i
j
).
Or, on voit imm´ediatement que
¦X
1
= i
1
, . . . , X
p
= i
p
¦ = [
p
¸
j=1
i
j
2
−j
,
p
¸
j=1
i
j
2
−j
+ 2
−p
[,
d’o` u le r´esultat voulu.
Soit p ≥ 1 un entier quelconque, et soient i
1
, . . . , i
p
∈ ¦0, 1¦. Alors, le lemme de Borel-
Cantelli permet de voir que
p.s. Card¦k ≥ 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
¦ = ∞. (9.2)
118
Cela montre qu’une suite finie donn´ee de 0 et de 1 apparaˆıt une infinit´e de fois dans
le d´eveloppement dyadique de presque tout (au sens de la mesure de Lebesgue) r´eel de
l’intervalle [0, 1[. Pour ´etablir (9.2), il suffit de poser, pour tout entier n ∈ N,
Y
n
= (X
np+1
, X
np+2
, . . . , X
np+p
).
Le principe du regroupement par paquets montre que la suite (Y
n
)
n∈N
est ind´ependante, et
le r´esultat recherch´e d´ecoule d’une application du lemme de Borel-Cantelli `a la suite des
´ev´enements
A
n
= ¦Y
n
= (i
1
, . . . , i
p

qui sont ind´ependants et tous de probabilit´e 2
−p
.
Puisqu’une r´eunion d´enombrable d’ensembles de probabilit´e nulle est encore de proba-
bilit´e nulle, on peut renforcer (9.2) sous la forme
p.s. ∀p ≥ 1, ∀i
1
, . . . , i
p
∈ ¦0, 1¦, Card¦k ≥ 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
¦ = ∞.
Autrement dit, pour presque tout r´eel x de [0, 1[, n’importe quelle suite finie de 0 et de 1
apparaˆıt une infinit´e de fois dans le d´eveloppement dyadique de x.
9.4 Sommes de variables al´eatoires ind´ependantes.
Les sommes de variables al´eatoires ind´ependantes jouent un rˆole important en th´eorie des
probabilit´es, et seront ´etudi´ees dans le chapitre suivant. Nous regroupons d’abord quelques
propri´et´es importantes sous la forme d’une proposition. Si µ et ν sont deux mesures de
probabilit´e sur R
d
, on note µ∗ν la mesure-image de µ⊗ν par l’application (x, y) −→ x+y :
pour toute fonction mesurable positive ϕ sur R
d
,

R
d
ϕ(z) µ ∗ ν(dz) =

R
d

R
d
ϕ(x + y) µ(dx)ν(dy).
Proposition 9.4.1 Soient X et Y deux variables al´eatoires ind´ependantes `a valeurs dans
R
d
.
(i) La loi de X + Y est P
X
∗ P
Y
. En particulier, si X a une densit´e not´ee p
X
et Y a une
densit´e not´ee p
Y
, X + Y a pour densit´e p
X
∗ p
Y
.
(ii) La fonction caract´eristique de X+Y est Φ
X+Y
(ξ) = Φ
X
(ξ)Φ
Y
(ξ). (De mani`ere ´equivalente,
si µ et ν sont deux mesures de probabilit´e sur R
d
, µ ∗ ν = ˆ µ ˆ ν.)
(iii) Si X et Y sont de carr´e int´egrable, K
X+Y
= K
X
+ K
Y
; En particulier, si d = 1,
var(X + Y ) = var(X) + var(Y ).
Preuve. (i) Si X et Y sont ind´ependantes, on sait que P
(X,Y )
= P
X
⊗ P
Y
, et donc, pour
toute fonction mesurable positive ϕ sur R
d
,
E[ϕ(X+Y )] =

ϕ(x+y) P
(X,Y )
(dxdy) =

ϕ(x+y) P
X
(dx)P
Y
(dy) =

ϕ(z) P
X
∗P
Y
(dz)
119
par d´efinition de P
X
∗ P
Y
. Si de plus X et Y ont une densit´e,
E[ϕ(X + Y )] =

ϕ(x + y) p
X
(x)p
Y
(y)dxdy =

ϕ(z)

p
X
(x)p
Y
(z −x)dx

dz,
ce qui montre bien que X + Y a pour densit´e p
X
∗ p
Y
(remarquer que p
X
∗ p
Y
est ici bien
d´efinie presque partout comme convolution de deux fonctions de L
1
(R
d
, λ)).
(ii) Il suffit d’´ecrire
Φ
X+Y
(ξ) = E[e
iξX
e
iξY
] = E[e
iξX
] E[e
iξY
] = Φ
X
(ξ)Φ
Y
(ξ).
(iii) Si X = (X
1
, . . . , X
d
) et Y = (Y
1
, . . . , Y
d
), l’ind´ependance de X et Y entraˆıne que
cov(X
i
, Y
j
) = 0 pour tous i, j ∈ ¦1, . . . , d¦. En cons´equence, par bilin´earit´e,
cov(X
i
+ Y
i
, X
j
+ Y
j
) = cov(X
i
, X
j
) + cov(Y
i
, Y
j
)
ce qui donne bien K
X+Y
= K
X
+ K
Y
.
Th´eor`eme 9.4.2 (Loi faible des grands nombres) Soit (X
n
)
n≥1
une suite de variables
al´eatoires r´eelles ind´ependantes et de mˆeme loi. Si E[X
2
1
] < ∞, on a
1
n
(X
1
+ + X
n
)
L
2
−→
n→∞
E[X
1
].
Preuve. Par lin´earit´e,
E

1
n
(X
1
+ + X
n
)

= E[X
1
].
En cons´equence,
E

1
n
(X
1
+ + X
n
) −E[X
1
]

2

=
1
n
2
var(X
1
+ + X
n
) =
1
n
2
n
¸
j=1
var(X
j
) =
1
n
var(X
1
)
qui tend vers 0 quand n → ∞.
Remarque. La preuve montre que le r´esultat reste vrai sous des hypoth`eses bien plus faibles.
Au lieu de supposer que les v.a. X
n
ont mˆeme loi, il suffit de demander que E[X
n
] = E[X
1
]
pour tout n et que la suite E[X
2
n
] soit born´ee. Au lieu de l’ind´ependance, il suffit qu’on ait
cov(X
n
, X
m
) = 0 d`es que n = m, ce qui est beaucoup plus faible.
Le mot “faible” dans la loi faible des grands nombres renvoie au fait que la convergence
du th´eor`eme a lieu dans L
2
, alors que d’un point de vue probabiliste il est plus significatif
d’avoir une convergence presque sˆ ure, c’est-`a-dire une convergence simple en dehors d’un
ensemble de probabilit´e nulle (on parle alors de loi forte). Nous donnons un premier ´enonc´e
allant dans ce sens, qui sera consid´erablement am´elior´e dans le chapitre suivant.
Proposition 9.4.3 Reprenons les hypoth`eses du th´eor`eme pr´ec´edent, et supposons de plus
que E[X
4
1
] < ∞. Alors on a presque sˆ urement
1
n
(X
1
+ + X
n
) −→
n→∞
E[X
1
].
120
Preuve. Quitte `a remplacer X
n
par X
n
−E[X
n
], on peut supposer que E[X
n
] = 0. Alors,
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4
¸
i
1
,...,i
4
∈{1,...,n}
E[X
i
1
X
i
2
X
i
3
X
i
4
].
En utilisantl’ind´ependance et la propri´et´e E[X
k
] = 0, on voit que les seuls termes non nuls
de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet
(i
1
, i
2
, i
3
, i
4
) apparaˆıt au moins deux fois dans ce quadruplet. En utilisant le fait que les X
k
ont mˆeme loi, on trouve
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4

nE[X
4
1
] + 3n(n −1)E[X
2
1
X
2
2
]


C
n
2
pour une certaine constante C < ∞. Il en d´ecoule que

¸
n=1
E[(
1
n
(X
1
+ + X
n
))
4
] < ∞.
En intervertissant somme et esp´erance, on obtient
E


¸
n=1
(
1
n
(X
1
+ + X
n
))
4

< ∞,
d’o` u

¸
n=1
(
1
n
(X
1
+ + X
n
))
4
< ∞ , p.s.
ce qui entraˆıne l’assertion de la proposition.
Corollaire 9.4.4 Si (A
n
)
n≥1
est une suite d’´ev´enements ind´ependants de mˆeme probabilit´e,
on a
1
n
n
¸
i=1
1
A
i
p.s.
−→
n→∞
P(A
1
).
Ce corollaire fait le lien entre notre approche axiomatique moderne et la d´efinition his-
torique de la probabilit´e comme fr´equence d’apparition d’un ´ev´enement quand on r´ep`ete un
grand nombre de fois une exp´erience al´eatoire.
Revenons `a la deuxi`eme application du lemme de Borel-Cantelli donn´ee ci-dessus, qui
concernait le d´eveloppement dyadique
ω =

¸
k=1
X
k
(ω) 2
−k
d’un r´eel ω ∈ [0, 1[. Si p ≥ 1 est fix´e, on a vu que les v.a. Y
1
= (X
1
, . . . , X
p
), Y
2
=
(X
p+1
, . . . , X
2p
), . . . sont ind´ependantes et de mˆeme loi. On d´eduit alors du corollaire que,
pour tous i
1
, . . . , i
p
∈ ¦0, 1¦,
dω p.s.
1
n
Card¦j ≤ n : Y
j
(ω) = (i
1
, . . . , i
p
)¦ −→
n→∞
1
2
p
.
121
Pour chaque ℓ ∈ ¦1, . . . , p¦, le mˆeme argument appliqu´e aux v.a. (X

, X
ℓ+1
, . . . , X
p+ℓ−1
),
(X
p+ℓ
, X
p+ℓ+1
, . . . , X
2p+ℓ−1
), . . . conduit `a
dω p.s.
1
n
Card¦j ≤ n : X
jp+ℓ
(ω) = i
1
, . . . , X
(j+1)p+ℓ−1
(ω) = i
p
¦ −→
n→∞
1
2
p
.
En combinant ces r´esultats on trouve
dω p.s.
1
n
Card¦k ≤ n : X
k+1
(ω) = i
1
, . . . , X
k+p
(ω) = i
p
¦ −→
n→∞
1
2
p
.
Comme une r´eunion d´enombrable d’ensembles de probabilit´e nulle est encore de probabilit´e
nulle, on a aussi, pour tout ω ∈ [0, 1[ sauf sur un ensemble de mesure nulle :
∀p ≥ 1, ∀i
1
, . . . , i
p
∈ ¦0, 1¦,
1
n
Card¦k ≤ n : X
k+1
(ω) = i
1
, . . . , X
k+p
(ω) = i
p
¦ −→
n→∞
1
2
p
.
(9.3)
Autrement dit, pour presque tout r´eel ω de [0, 1[, la fr´equence d’apparition de n’importe
quel bloc de longueur finie de 0 et de 1 dans le d´eveloppement dyadique de ω existe et est
´egale `a 2
−p
si p est la longueur du bloc. Remarquons qu’il n’est pas facile d’exhiber un r´eel
ω pour lequel la propri´et´e (9.3) soit vraie. En fait, le moyen le plus rapide pour prouver
que de tels r´eels existent est tr`es certainement le raisonnement qui pr´ec`ede. Ceci est typique
de l’application des probabilit´es `a des probl`emes d’existence : pour ´etablir l’existence d’un
objet ayant certaines propri´et´es, on montre qu’un objet pris au hasard (selon une loi de
probabilit´e bien choisie) v´erifie les propri´et´es en question.
Semigroupes de convolution
Soit I = N ou I = R
+
.
D´efinition 9.4.1 Soit (µ
t
)
t∈I
une famille de mesures de probabilit´e sur R (ou sur R
d
). On
dit que (µ
t
)
t∈I
est un semigroupe de convolution si µ
0
= δ
0
et si
µ
t
∗ µ
t
′ = µ
t+t
′ , ∀t, t

∈ I.
L’interpr´etation probabiliste est que si X a pour loi µ
t
, Y a pour loi µ
t
′ et si X et Y sont
ind´ependantes, alors X + Y a pour loi µ
t+t
′ (cf la premi`ere proposition de cette partie).
Lemme 9.4.5 Pour que (µ
t
)
t∈I
soit un semigroupe de convolution, il suffit qu’il existe une
fonction ϕ : R −→C telle que :
• si I = N, ˆ µ
t
(ξ) = ϕ(ξ)
t
, ∀t ∈ I;
• si I = R, ˆ µ
t
(ξ) = exp(−tϕ(ξ)), ∀t ∈ I.
La preuve est imm´ediate puisque si ˆ µ
t
a la forme donn´ee, on a imm´ediatement
ˆ µ
t+t
′ = ˆ µ
t
ˆ µ
t
′ = µ
t
∗ µ
t

et l’injectivit´e de la transform´ee de Fourier donne µ
t+t
′ = µ
t
∗ µ
t
′ .
122
Exemples.
(1) I = N et, pour tout n ∈ N

, µ
n
est la loi binˆomiale B(n, p) (on a fix´e p ∈ [0, 1]).
La propri´et´e µ
n+m
= µ
n
∗ µ
m
est imm´ediate `a partir de l’interpr´etation probabiliste de
la loi binˆomiale. Alternativement on peut utiliser le lemme en remarquant que ˆ µ
n
(ξ) =
(pe

+ 1 −p)
n
.
(2) I = R
+
et, pour tout t ∈ R
+
, µ
t
est la loi de Poisson de param`etre t. Dans ce cas,
ˆ µ
t
(ξ) =

¸
k=0
t
k
k!
e
ikξ
e
−t
= exp(−t(1 −e

)).
(3) I = R
+
et, pour tout t > 0, µ
t
est la loi Gaussienne ^(0, t). On a d´ej`a calcul´e dans
le Chapitre 8
ˆ µ
t
(ξ) = exp(−

2
2
).
Cons´equence importante. Si X et Y sont deux v.a. r´eelles ind´ependantes et
• si X suit la loi de Poisson de param`etre λ et X

la loi de Poisson de param`etre λ

, alors
X + X

suit la loi de Poisson de param`etre λ + λ

;
• si X suit la loi gaussienne ^(m, σ
2
) et X

suit la loi gaussienne ^(m

, σ
′2
), alors X +X

suit la loi gaussienne ^(m + m

, σ
2
+ σ
′2
). (On se ram`ene au cas m = m

= 0 en
consid´erant X −m et X

−m

.)
Plus g´en´eralement toute combinaison lin´eaire de variables al´eatoires gaussiennes ind´epen-
dantes est encore gaussienne.
123
124
Chapitre 10
Convergence de variables al´eatoires
La premi`ere partie de ce chapitre pr´esente les diff´erentes notions de convergence de variables
al´eatoires, et les liens existant entre ces notions. On ´etablit ensuite la loi forte des grands
nombres, qui est l’un des deux th´eor`emes limites fondamentaux de la th´eorie des probabilit´es.
Le troisi`eme paragraphe pr´esente la convergence en loi des variables al´eatoires : ce type de
convergence est sans doute le plus d´elicat `a comprendre, en partie parce qu’il s’agit d’une
convergence de mesures (ce sont les lois des variables al´eatoires qui convergent et non les
variables elle-mˆemes). La notion de convergence en loi, et le th´eor`eme important reliant
cette convergence `a celle des fonctions caract´eristiques, permettent d’arriver au deuxi`eme
th´eor`eme limite fondamental qui est le th´eor`eme central limite.
10.1 Les diff´erentes notions de convergence
Soient (X
n
)
n≥1
, X des variables al´eatoires `a valeurs dans R
d
, d´efinies sur un espace de
probabilit´e (Ω, /, P). On a d´ej`a rencontr´e plusieurs notions de convergence de la suite (X
n
)
vers X. En particulier
X
n
p.s.
−→
n→∞
X si P(¦ω ∈ Ω : X(ω) = lim
n→∞
X
n
(ω)¦) = 1,
et, pour p ∈ [1, ∞[,
X
n
L
p
−→
n→∞
X si lim
n→∞
E[[X
n
−X[
p
] = 0.
D´efinition 10.1.1 On dit que la suite (X
n
) converge en probabilit´e vers X, et on note
X
n
(P)
−→
n→∞
X
si pour tout ε > 0,
lim
n→∞
P([X
n
−X[ > ε) = 0.
Proposition 10.1.1 Soit L
0
R
d
(Ω, /, P) l’espace de toutes les variables al´eatoires `a valeurs
dans R
d
, et soit L
0
R
d
(Ω, /, P) son quotient par la relation d’´equivalence X ∼ Y ssi X = Y
p.s. Alors, la formule
d(X, Y ) = E[[X −Y [ ∧ 1]
125
d´efinit une distance sur L
0
R
d
(Ω, /, P) qui est compatible avec la convergence en probabilit´e,
au sens o` u une suite (X
n
) converge en probabilit´e vers X ssi d(X
n
, X) tend vers 0. De plus,
l’espace L
0
R
d
(Ω, /, P) est complet pour la distance d.
Preuve. Il est facile de v´erifier que d est une distance. De plus, si la suite (X
n
) converge
en probabilit´e vers X, on a pour tout ε > 0,
E[[X
n
−X[∧1] ≤ E[[X
n
−X[1
{|Xn−X|≤ε}
]+E[([X
n
−X[∧1)1
{|Xn−X|>ε}
] ≤ ε+P([X
n
−X[ > ε).
D’apr`es la d´efinition de la convergence en probabilit´e, cela entraˆıne limsup d(X
n
, X) ≤ ε, et
puisque ε ´etait arbitraire on a d(X
n
, X) −→ 0. Inversement, si d(X
n
, X) −→ 0, alors, pour
tout ε ∈]0, 1],
P([X
n
−X[ > ε) ≤ ε
−1
E[[X
n
−X[ ∧ 1] = ε
−1
d(X
n
, X) −→
n→∞
0.
Il reste `a voir que L
0
est complet pour la distance d. Soit donc (X
n
) une suite de Cauchy
pour la distance d. On peut trouver une sous-suite Y
k
= X
n
k
telle que, pour tout k ≥ 1,
d(Y
k
, Y
k+1
) ≤ 2
−k
.
Alors
E[

¸
k=1
([Y
k+1
−Y
k
[ ∧ 1)] =

¸
k=1
d(Y
k
, Y
k+1
) < ∞,
ce qui entraˆıne
¸

k=1
([Y
k+1
− Y
k
[ ∧ 1) < ∞ p.s., et donc aussi
¸

k=1
[Y
k+1
− Y
k
[ < ∞ p.s.
(p.s. il ne peut y avoir qu’un nombre fini de valeurs de k pour lesquelles [Y
k+1
− Y
k
[ ≥ 1).
On d´efinit ensuite une v.a. X dans L
0
en posant
X = Y
1
+

¸
k=1
(Y
k+1
−Y
k
).
Par construction, la suite (Y
k
) converge p.s. vers X, et cela entraˆıne
d(Y
k
, X) = E[[Y
k
−X[ ∧ 1] −→
k→∞
0,
par convergence domin´ee. Donc la suite (Y
k
) converge en probabilit´e vers X, et cela est aussi
vrai pour la suite de d´epart (X
n
).
La preuve pr´ec´edente montre en particulier que de toute suite qui converge en probabilit´e
on peut extraire une sous-suite qui converge p.s. (vers la mˆeme limite). Nous reprenons cette
propri´et´e dans l’´enonc´e suivant.
Proposition 10.1.2 Si la suite (X
n
) converge p.s., ou dans L
p
, vers X, elle converge aussi
en probabilit´e vers X. Inversement, si la suite (X
n
) converge en probabilit´e vers X, il existe
une sous-suite (X
n
k
) qui converge p.s. vers X.
126
Preuve. La deuxi`eme assertion a d´ej`a ´et´e vue. Pour la premi`ere, si X
n
converge p.s. vers
X,
d(X
n
, X) = E[[X
n
−X[ ∧ 1] −→
n→∞
0,
par convergence domin´ee. Si X
n
converge dans L
p
vers X,
d(X
n
, X) ≤ |X
n
−X|
1
≤ |X
n
−X|
p
−→
n→∞
0.

En r´esum´e la convergence en probabilit´e est plus faible ` a la fois que la convergence p.s. et
que la convergence dans L
p
pour n’importe quel p ∈ [1, ∞[ (et a fortiori pour p = ∞). Dans
l’autre sens, la convergence en probabilit´e entraˆıne la convergence p.s. pour une sous-suite,
et la proposition ci-dessous donne des conditions qui permettent de d´eduire la convergence
L
p
de la convergence en probabilit´e.
Proposition 10.1.3 Soit (X
n
) une suite de v.a. convergeant en probabilit´e vers X. Sup-
posons qu’il existe r ∈]1, ∞[ tel que la suite (X
n
) soit born´ee dans L
r
. Alors, pour tout
p ∈ [1, r[, la suite (X
n
) converge vers X dans L
p
.
Preuve. Par hypoth`ese, il existe une constante C telle que E[[X
n
[
r
] ≤ C pour tout n. Le
lemme de Fatou entraˆıne alors E[[X[
r
] ≤ C et donc X ∈ L
r
. Ensuite, en utilisant l’in´egalit´e
de H¨older, on a pour tout p ∈ [1, r[ et tout ε > 0,
E[[X
n
−X[
p
] = E[[X
n
−X[
p
1
{|Xn−X|≤ε}
] + E[[X
n
−X[
p
1
{|Xn−X|>ε}
]
≤ ε
p
+ E[[X
n
−X[
r
]
p/r
P([X
n
−X[ > ε)
1−p/r
≤ ε
p
+ 2
p
C
p/r
P([X
n
−X[ > ε)
1−p/r
.
En utilisant l’hypoth`ese de convergence en probabilit´e, il vient
limsup
n→∞
E[[X
n
−X[
p
] ≤ ε
p
d’o` u le r´esultat annonc´e puisque ε est arbitraire.
10.2 La loi forte des grands nombres
Notre objectif est de montrer que si (X
n
) est une suite de v.a. ind´ependantes et de mˆeme loi,
dans L
1
, alors les moyennes
1
n
(X
1
+ + X
n
) convergent p.s. vers E[X
1
]. Nous avons d´ej`a
obtenu ce r´esultat sous l’hypoth`ese suppl´ementaire que E[[X
1
[
4
] < ∞, mais nous cherchons
maintenant `a l’´etablir sous des hypoth`eses optimales. Nous commen¸ cons par un r´esultat
pr´eliminaire important.
Th´eor`eme 10.2.1 (Loi du tout ou rien) Soit (X
n
)
n≥1
une suite de variables al´eatoires
ind´ependantes, `a valeurs dans des espaces mesurables quelconques. Pour tout n ≥ 1 soit B
n
la tribu
B
n
= σ(X
k
; k ≥ n).
127
Alors la tribu asymptotique B

d´efinie par
B

=

¸
n=1
B
n
est grossi`ere, au sens o` u P(B) = 0 ou 1 pour tout B ∈ B

.
Preuve. Posons
T
n
= σ(X
k
; k ≤ n).
On a observ´e dans le Chapitre 9 que pour tout n, T
n
est ind´ependante de B
n+1
, donc a
fortiori de B

. Ainsi,
∀A ∈

¸
n=1
T
n
, ∀B ∈ B

, P(A∩ B) = P(A)P(B).
Puisque la classe
¸

n=1
T
n
est stable par intersections finies, un autre r´esultat du Chapitre
9 permet alors de conclure que B

est ind´ependante de
σ


¸
n=1
T
n

= σ(X
n
; n ≥ 1).
En particulier, B

est ind´ependante d’elle-mˆeme, et pour tout B ∈ B

, P(B) = P(B∩B) =
P(B)
2
, ce qui n’est possible que si P(B) = 0 ou 1.
On v´erifie ais´ement qu’une v.a. r´eelle mesurable par rapport `a une tribu grossi`ere est
constante p.s. (sa fonction de r´epartition ne peut prendre que les deux valeurs 0 ou 1). On
peut appliquer le th´eor`eme pr´ec´edent `a toute suite (X
n
)
n≥1
de v.a. r´eelles ind´ependantes. Il
est facile de voir que la v.a.
limsup
n→∞
1
n
(X
1
+ + X
n
)
est mesurable par rapport `a B

, et cela entraˆıne que cette variable (`a valeurs dans [−∞, ∞])
est constante p.s. En particulier, si on sait que la suite
1
n
(X
1
+ + X
n
) converge p.s. la
limite est constante (p.s.).
Avant d’utiliser la loi du tout ou rien pour ´etablir la loi forte des grands nombres, nous
donnons d’abord une application plus facile au jeu de pile ou face.
Proposition 10.2.2 Soit (X
n
)
n≥1
une suite de variables al´eatoires ind´ependantes , de mˆeme
loi donn´ee par P(X
n
= 1) = P(X
n
= −1) =
1
2
. Pour tout n ≥ 1, posons
S
n
= X
1
+ X
2
+ + X
n
.
Alors,
p.s. sup
n≥1
S
n
= +∞ et inf
n≥1
S
n
= −∞.
En particulier, il existe p.s. des entiers n arbitrairement grands tels que S
n
= 0.
128
En d’autres termes si on imagine un jeu o` u `a chaque instant entier le joueur gagne ou
perd un Euro avec probabilit´e 1/2, S
n
repr´esente le gain (positif ou n´egatif) accumul´e apr`es
n instants. La proposition montre que quand n → ∞, S
n
prend tantˆot des valeurs positives
tantˆot des valeurs n´egatives, de plus en plus grandes en valeur absolue.
Preuve. On commence par montrer que, pour tout entier p ≥ 1,
P(−p ≤ inf
n
S
n
≤ sup
n
S
n
≤ p) = 0.
Pour cela on fixe un entier k > 2p, et on remarque que

¸
j=0
¦X
jk+1
= X
jk+2
= = X
jk+k
= 1¦ ⊂ (¦−p ≤ inf
n
S
n
≤ sup
n
S
n
≤ p¦)
c
.
Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements
analogues) montre que l’ensemble de gauche a probabilit´e 1, ce qui donne le r´esultat annonc´e.
En faisant tendre p vers ∞, on trouve
P(¦inf
n
S
n
> −∞¦ ∩ ¦sup
n
S
n
< ∞¦) = 0,
d’o` u
P(¦inf
n
S
n
= −∞¦ ∪ ¦sup
n
S
n
= ∞¦) = 1,
et en particulier
P(¦inf
n
S
n
= −∞¦) + P(¦sup
n
S
n
= ∞¦) ≥ 1.
Un argument de sym´etrie montre que
P(¦inf
n
S
n
= −∞¦) = P(¦sup
n
S
n
= ∞¦)
et d’apr`es ce qui pr´ec`ede ces deux probabilit´es sont strictement positives. Pour conclure, on
remarque que
¦sup
n
S
n
= ∞¦ ∈ B

.
En effet, pour tout entier k ≥ 1,
¦sup
n
S
n
= ∞¦ = ¦sup
n≥k
(X
k
+ X
k+1
+ + X
n
) = ∞¦ ∈ B
k
et donc l’´ev´enement ¦sup
n
S
n
= ∞¦ est mesurable par rapport `a l’intersection des tribus B
k
,
c’est-`a-dire B

. La loi du tout ou rien montre alors que P(¦sup
n
S
n
= ∞¦) = 1.
Nous passons maintenant au r´esultat principal de ce paragraphe.
Th´eor`eme 10.2.3 (Loi forte des grands nombres) Soit (X
n
)
n≥1
une suite de variables
al´eatoires ind´ependantes, de mˆeme loi, dans L
1
. Alors,
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
].
129
Remarques. (i) L’hypoth`ese d’int´egrabilit´e est optimale dans le sens o` u elle est n´ecessaire
pour que la limite E[X
1
] soit bien d´efinie (et finie). Dans le cas o` u les v.a. X
n
sont positives
et E[X
1
] = ∞, on montre facilement que
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
+∞
en appliquant le th´eor`eme aux v.a. X
n
∧ K.
(ii) On peut montrer que la convergence du th´eor`eme a aussi lieu dans L
1
. Nous ne donnerons
pas la preuve ici (elle sera donn´ee `a la fin du chapitre 12 en application de la th´eorie des
martingales). Du point de vue probabiliste, c’est la convergence presque sˆ ure qui a le plus
de signification.
Preuve. Pour all´eger les notations on pose S
n
= X
1
+ +X
n
, S
0
= 0. Soit a > E[X
1
], et
M = sup
n∈N
(S
n
−na)
qui est une v.a. `a valeurs dans [0, ∞]. Nous allons montrer que
M < ∞ , p.s. (10.1)
Puisque l’in´egalit´e S
n
≤ na + M est vraie pour tout n, il en d´ecoule aussitˆot que
limsup
n→∞
1
n
S
n
≤ a , p.s.
En consid´erant une suite de valeurs de a qui d´ecroˆıt vers E[X
1
], on trouve alors
limsup
n→∞
1
n
S
n
≤ E[X
1
] , p.s.
En rempla¸ cant X
n
par −X
n
, on obtient l’in´egalit´e inverse
liminf
n→∞
1
n
S
n
≥ E[X
1
] , p.s.
et l’´enonc´e du th´eor`eme d´ecoule de ces deux derni`eres in´egalit´es.
Il reste `a montrer (10.1). On remarque d’abord que, avec les notations de la loi du tout
ou rien, l’´ev´enement ¦M < ∞¦ est dans la tribu B

. En effet, il suffit d’´ecrire pour tout
entier k ≥ 0,
¦M < ∞¦ = ¦sup
n∈N
(S
n
−na) < ∞¦ = ¦sup
n≥k
(S
n
−S
k
−(n −k)a) < ∞¦
et de remarquer que le dernier ´ev´enement est mesurable pour la tribu σ(X
k+1
, X
k+2
, . . .).
Pour conclure il suffira donc de montrer que P(M < ∞) > 0, ou de mani`ere ´equivalente que
P(M = ∞) < 1, ce que nous ferons en raisonnant par l’absurde.
130
Commen¸ cons par quelques notations. Pour tout entier k ∈ N, posons
M
k
= sup
0≤n≤k
(S
n
−na),
M

k
= sup
0≤n≤k
(S
n+1
−S
1
−na).
Alors M
k
et M

k
ont mˆeme loi : en effet d’une part les vecteurs (X
1
, . . . , X
k
) et (X
2
, . . . , X
k+1
)
ont mˆeme loi et d’autre part on peut ´ecrire M
k
= F
k
(X
1
, . . . , X
k
) et M

k
= F
k
(X
2
, . . . , X
k+1
)
avec la mˆeme fonction (d´eterministe) F
k
: R
k
−→R. Il en d´ecoule que
M = lim
k→∞
↑ M
k
et
M

= lim
k→∞
↑ M

k
ont aussi mˆeme loi (´ecrire P(M

≤ x) = lim ↓ P(M

k
≤ x) = lim ↓ P(M
k
≤ x) = P(M ≤ x)).
Par ailleurs, il d´ecoule des d´efinitions que pour tout k ≥ 1,
M
k+1
= sup

0, sup
1≤n≤k+1
(S
n
−na)

= sup(0, M

k
+ X
1
−a),
ce qu’on peut encore r´e´ecrire sous la forme
M
k+1
= M

k
−inf(a −X
1
, M

k
).
Puisque M

k
a mˆeme loi que M
k
(et que ces deux v.a. sont clairement dans L
1
), on trouve
E[inf(a −X
1
, M

k
)] = E[M

k
] −E[M
k+1
] = E[M
k
] −E[M
k+1
] ≤ 0
grˆace `a l’in´egalit´e triviale M
k
≤ M
k+1
. On peut maintenant appliquer le th´eor`eme de
convergence domin´ee `a la suite des v.a. inf(a−X
1
, M

k
), qui sont domin´ees en valeur absolue
par [a −X
1
[ (rappelons que M

k
≥ 0). Il vient alors
E[inf(a −X
1
, M

)] = lim
k→∞
E[inf(a −X
1
, M

k
)] ≤ 0.
Si on avait P(M = ∞) = 1, on aurait aussi P(M

= ∞) = 1, puisque les v.a. M et M

ont
mˆeme loi, et donc inf(a −X
1
, M

) = a −X
1
p.s. Mais alors l’in´egalit´e pr´ec´edente donnerait
E[a−X
1
] ≤ 0, ce qui est absurde puisqu’on a choisi a > E[X
1
]. Cette contradiction termine
la preuve.
10.3 La convergence en loi
Rappelons que C
b
(R
d
) d´esigne l’espace des fonctions continues born´ees de R
d
dans R, qu’on
munit de la norme sup
|ϕ| = sup
x∈R
d
[ϕ(x)[.
131
D´efinition 10.3.1 Une suite (µ
n
) de mesures de probabilit´e sur R
d
converge ´etroitement
vers une mesure de probabilit´e µ sur R
d
(on note µ
n
(e)
−→ µ) si
∀ϕ ∈ C
b
(R
d
) ,

ϕdµ
n
−→
n→∞

ϕdµ.
Une suite (X
n
) de v.a. `a valeurs dans R
d
converge en loi vers une v.a. X `a valeurs dans R
d
(on note X
n
(loi)
−→ X) si la suite (P
Xn
) converge ´etroitement vers P
X
. Cela ´equivaut encore `a
∀ϕ ∈ C
b
(R
d
) , E[ϕ(X
n
)] −→
n→∞
E[ϕ(X)].
Remarques. (i) Il y a un abus de langage `a dire que la suite de v.a. (X
n
) converge en loi vers
X, car la v.a. limite X n’est pas d´efinie de mani`ere unique : seule sa loi P
X
l’est (pour cette
raison on ´ecrira parfois qu’une suite de v.a. (X
n
) converge en loi vers µ mesure de probabilit´e
sur R
d
, et il faudra ´evidemment comprendre que la suite (P
Xn
) converge ´etroitement vers µ).
Notons aussi qu’on peut consid´erer la convergence en loi de v.a. d´efinies sur des espaces de
probabilit´e diff´erents (ici nous supposerons toujours implicitement qu’elles sont d´efinies sur
le mˆeme espace de probabilit´e), ce qui rend la convergence en loi tr`es diff´erente des autres
convergences discut´ees ci-dessus.
(ii) L’espace des mesures de probabilit´e sur R
d
peut ˆetre vu comme un sous-ensemble du
dual C
b
(R
d
)

. La convergence ´etroite correspond alors `a la topologie faible * sur le dual
(topologie de la convergence simple, les ´el´ements du dual ´etant vus comme des fonctions sur
C
b
(R
d
)).
Exemples. (a) Si les v.a. X
n
et X sont `a valeurs dans Z
d
, alors X
n
converge en loi vers X
si et seulement si
∀x ∈ Z
d
, P(X
n
= x) −→
n→∞
P(X = x)
(l’implication ⇐demande un petit raisonnement : l’argument est facile si on sait, ce qui sera
´etabli plus tard, qu’on peut remplacer C
b
(R
d
) par C
c
(R
d
) dans la d´efinition de la convergence
´etroite).
(b) Si les X
n
sont des v.a. `a densit´e, P
Xn
(dx) = p
n
(x)dx, si on suppose
p
n
(x) −→ p(x) , dx p.p.
et s’il existe une fonction q ≥ 0 telle que

R
d
q(x)dx < ∞ et
∀n , p
n
(x) ≤ q(x) , dx p.p.
alors p est une densit´e de probabilit´e sur R
d
, et X
n
converge en loi vers la loi p(x)dx. Cela
d´ecoule du th´eor`eme de convergence domin´ee.
(c) Si X
n
est de loi uniforme sur ¦
1
2
n
,
2
2
n
, . . . ,
2
n
2
n
¦, alors X
n
converge en loi vers la loi uniforme
sur [0, 1]. Ce r´esultat d´ecoule de l’approximation de l’int´egrale d’une fonction continue par
ses sommes de Riemann.
(d) Si X
n
est de loi gaussienne ^(0, σ
2
n
) et si σ
n
−→ 0, alors X
n
converge en loi vers la v.a.
constante ´egale `a 0.
132
Proposition 10.3.1 Si la suite (X
n
) converge en probabilit´e vers X alors la suite (X
n
)
converge en loi vers X.
Preuve. Supposons d’abord que X
n
converge p.s. vers X. Alors, pour toute fonction
ϕ ∈ C
b
(R
d
), ϕ(X
n
) converge p.s. vers ϕ(X) et donc le th´eor`eme de convergence domin´ee
entraˆıne E[ϕ(X
n
)] −→ E[ϕ(X)], d’o` u la convergence en loi recherch´ee.
Dans le cas g´en´eral, raisonnons par l’absurde en supposant que X
n
ne converge pas en loi
vers X, donc qu’il existe une fonction ϕ ∈ C
b
(R
d
) telle que E[ϕ(X
n
)] ne converge pas vers
E[ϕ(X)]. On peut trouver une sous-suite (n
k
) et ε > 0 tels que [E[ϕ(X
n
k
)] −E[ϕ(X)][ ≥ ε
pour tout k. Mais, d’apr`es un r´esultat de la partie 1, il existe une sous-sous-suite (n
k

)
telle que (X
n
k

) converge p.s. vers X. La premi`ere partie de la preuve donne alors une
contradiction.
Remarque. Il existe un cas o` u la r´eciproque de la proposition est vraie. C’est le cas o` u la
v.a. limite X est constante (p.s.). En effet, si X
n
converge en loi vers a ∈ R
d
, il d´ecoule de
la propri´et´e (ii) de la proposition qui suit que pour tout ε > 0,
liminf
n→∞
P
Xn
(B(a, ε)) ≥ 1
o` u B(a, ε) est la boule ouverte de centre a et de rayon ε. C’est exactement dire que X
n
converge en probabilit´e vers a.
Si (X
n
) est une suite de v.a. convergeant en loi vers X, il n’est pas toujours vrai qu’on
ait
P(X
n
∈ B) −→ P(X ∈ B)
pour tout bor´elien B de R
d
(prendre B = ¦0¦ dans l’exemple (d) ci-dessus). On a cependant
le r´esultat suivant.
Proposition 10.3.2 Soient (µ
n
), µ des mesures de probabilit´e sur R
d
. Les quatre assertions
suivantes sont ´equivalentes.
(i) La suite (µ
n
) converge ´etroitement vers µ.
(ii) Pour tout ouvert G de R
d
,
liminf µ
n
(G) ≥ µ(G).
(iii) Pour tout ferm´e F de R
d
,
limsup µ
n
(F) ≤ µ(F).
(iv) Pour tout bor´elien B de R
d
tel que µ(∂B) = 0,
limµ
n
(B) = µ(B).
Preuve. Commen¸ cons par montrer (i)⇒(ii). Si G est un ouvert de R
d
, on peut trouver une
suite (ϕ
p
) de fonctions continues born´ees telles que 0 ≤ ϕ
p
≤ 1
G
et ϕ
p
↑ 1
G
(par exemple
ϕ
p
(x) = p dist(x, G
c
) ∧ 1 ). Alors,
liminf
n→∞
µ
n
(G) ≥ sup
p

liminf
n→∞

ϕ
p

n

= sup
p

ϕ
p

= µ(G).
133
L’´equivalence (ii)⇔(iii) est imm´ediate par passage au compl´ementaire.
Montrons que (ii) et (iii) entraˆınent (iv). Si B ∈ B(R
d
),
limsup µ
n
(B) ≤ limsup µ
n
(B) ≤ µ(B)
liminf µ
n
(B) ≥ liminf µ
n
(

B) ≥ µ(

B).
Si µ(∂B) = 0 on a µ(B) = µ(

B) = µ(B) et on obtient (iv).
Il reste `a montrer l’implication (iv)⇒(i). Soit ϕ ∈ C
b
(R
d
). Quitte `a d´ecomposer ϕ =
ϕ
+
− ϕ

on peut supposer ϕ ≥ 0. Soit K > 0 tel que 0 ≤ ϕ ≤ K. Alors le th´eor`eme de
Fubini montre que

ϕ(x)µ(dx) =

K
0
1
{t≤ϕ(x)}
dt

µ(dx) =

K
0
µ(E
ϕ
t
)dt,
o` u E
ϕ
t
= ¦x ∈ R
d
: ϕ(x) ≥ t¦. De mˆeme, pour tout n,

ϕ(x)µ
n
(dx) =

K
0
µ
n
(E
ϕ
t
)dt.
Remarquons que ∂E
ϕ
t
⊂ ¦x ∈ R
d
: ϕ(x) = t¦, et qu’il existe au plus une infinit´e d´enombrable
de valeurs de t telles que
µ(¦x ∈ R
d
: ϕ(x) = t¦) > 0
(en effet il y a au plus k valeurs distinctes de t telles que µ(¦x ∈ R
d
: ϕ(x) = t¦) ≥
1
k
). Donc
(iv) entraˆıne
µ
n
(E
ϕ
t
) −→
n→∞
µ(E
ϕ
t
) , dt p.p.
et par convergence domin´ee on obtient

ϕ(x)µ
n
(dx) =

K
0
µ
n
(E
ϕ
t
)dt −→
n→∞

K
0
µ
n
(E
ϕ
t
)dt =

ϕ(x)µ(dx).

Cons´equence. Une suite (X
n
) de v.a. r´eelles converge en loi vers une v.a. X si et seulement
si les fonctions de r´epartition F
Xn
(x) convergent vers F
X
(x) en tout point x o` u F
X
est
continue. L’implication ⇒ d´ecoule imm´ediatement de la propri´et´e (iv) ci-dessus. Dans
l’autre sens, on observe que sous la condition de convergence des fonctions de r´epartition (en
tout point o` u F
X
est continue), on a pour tout x ∈ R,
liminf F
Xn
(x−) ≥ F
X
(x−),
limsup F
Xn
(x) ≤ F
X
(x).
Il d´ecoule de cette observation que la condition (ii) de la proposition est satisfaite pour
µ
n
= P
Xn
et µ = P
X
lorsque G est un intervalle ouvert. Il suffit ensuite d’´ecrire un ou-
vert quelconque comme r´eunion d´enombrable disjointe d’intervalles ouverts pour aboutir au
r´esultat d´esir´e.
Rappelons la notation C
c
(R
d
) pour l’espace des fonctions continues `a support compact
sur R
d
.
134
Proposition 10.3.3 Soient (µ
n
) et µ des mesures de probabilit´e sur R
d
. Soit H un sous-
ensemble de C
b
(R
d
) dont l’adh´erence (pour la norme sup) contient C
c
(R
d
). Les propri´et´es
suivantes sont ´equivalentes :
(i) La suite (µ
n
) converge ´etroitement vers µ.
(ii) On a
∀ϕ ∈ C
c
(R
d
) ,

ϕdµ
n
−→
n→∞

ϕdµ.
(iii) On a
∀ϕ ∈ H ,

ϕdµ
n
−→
n→∞

ϕdµ.
Preuve. Il est ´evident que (i)⇒(ii) et (i)⇒(iii). Supposons ensuite que (ii) est satisfaite.
Soit ϕ ∈ C
b
(R
d
) et soit (f
k
) une suite de fonctions dans C
c
(R
d
) telles que 0 ≤ f
k
≤ 1 et
f
k
↑ 1 quand k → ∞. Alors pour tout k, ϕf
k
∈ C
c
(R
d
) et donc

ϕf
k

n
−→
n→∞

ϕf
k
dµ.
Par ailleurs,

ϕdµ
n

ϕf
k

n

sup
x∈R
[ϕ(x)[

1 −

f
k

n

,

ϕdµ −

ϕf
k

sup
x∈R
[ϕ(x)[

1 −

f
k

.
Donc, pour tout k,
limsup
n→∞

ϕdµ
n

ϕdµ

sup
x∈R
[ϕ(x)[

limsup
n→∞
(1 −

f
k

n
) + (1 −

f
k
dµ)

= 2

sup
x∈R
[ϕ(x)[

(1 −

f
k
dµ)

.
Il suffit maintenant de faire tendre k vers ∞ pour trouver que

ϕdµ
n
converge vers

ϕdµ,
et on a ´etabli (i).
Il reste `a montrer (iii)⇒(ii). On suppose donc que la propri´et´e (iii) est satisfaite. Ensuite,
si ϕ ∈ C
c
(R
d
), on peut pour chaque entier k ≥ 1 trouver une fonction ϕ
k
∈ H telle que
|ϕ −ϕ
k
| ≤ 1/k. Mais alors, pour tout k ≥ 1,
limsup
n→∞
[

ϕdµ
n

ϕdµ[
≤ limsup
n→∞

[

ϕdµ
n

ϕ
k

n
[ +[

ϕ
k

n

ϕ
k
dµ[ +[

ϕ
k
dµ −

ϕdµ[


2
k
.
Comme k est arbitraire cela donne

ϕdµ
n
−→

ϕdµ, d’o` u la propri´et´e (ii).
135
Th´eor`eme 10.3.4 (L´evy) Une suite (µ
n
) de mesures de probabilit´e sur R
d
converge ´etroite-
ment vers une mesure de probabilit´e µ sur R
d
si et seulement si
∀ξ ∈ R
d
, ´ µ
n
(ξ) −→
n→∞
´ µ(ξ).
De mani`ere ´equivalente, une suite (X
n
) de variables al´eatoires `a valeurs dans R
d
converge
en loi vers X si et seulement si
∀ξ ∈ R
d
, Φ
Xn
(ξ) −→
n→∞
Φ
X
(ξ).
Preuve. Il suffit de montrer la premi`ere assertion. D’abord, si on suppose que la suite (µ
n
)
converge ´etroitement vers µ, la d´efinition mˆeme de cette convergence assure que
∀ξ ∈ R
d
, ´ µ
n
(ξ) =

e
iξ·x
µ
n
(dx) −→
n→∞

e
iξ·x
µ(dx) = ´ µ(ξ).
Supposons inversement que ´ µ
n
(ξ) → ´ µ(ξ) pour tout ξ ∈ R
d
et montrons qu’alors la suite

n
) converge ´etroitement vers µ. Pour all´eger l’´ecriture on traite seulement le cas d = 1.
Soit f ∈ C
c
(R) et pour tout σ > 0 soit
g
σ
(x) =
1
σ


exp(−
x
2

2
).
Alors on a d´ej`a observ´e `a la fin du Chapitre 8 que g
σ
∗ f converge simplement vers f quand
σ → 0. En fait on v´erifie ais´ement que cette convergence est uniforme sur R.
Par ailleurs, si ν est une mesure de probabilit´e sur R, on a vu dans la preuve du th´eor`eme
d’injectivit´e de la transform´ee de Fourier (fin du Chapitre 8) que

g
σ
∗ f dν =

f(x) g
σ
∗ ν(x)dx =

f(x)



2π)
−1

e
iξx
g
1/σ
(ξ)´ ν(−ξ)dξ

dx.
Puisque ´ µ
n
(ξ) → ´ µ(ξ) pour tout ξ ∈ R, le th´eor`eme de convergence domin´ee entraˆıne que

e
iξx
g
1/σ
(ξ)´ µ
n
(−ξ)dξ −→
n→∞

e
iξx
g
1/σ
(ξ)´ µ(−ξ)dξ,
et puisque ces quantit´es sont born´ees en module par 1, on peut utiliser la formule pr´ec´edente
et `a nouveau le th´eor`eme de convergence domin´ee pour obtenir que

g
σ
∗ f dµ
n
−→
n→∞

g
σ
∗ f dµ.
Finalement, soit H le sous-espace de C
b
(R
d
) d´efini par
H = ¦ϕ = g
σ
∗ f : σ > 0 et f ∈ C
c
(R
d
)¦.
Alors l’adh´erence de H dans C
b
(R
d
) contient C
c
(R
d
) (on a remarqu´e que si f ∈ C
c
(R
d
),
|g
σ
∗ f − f| tend vers 0 quand σ → 0) et on vient de montrer que

ϕdµ
n
−→

ϕdµ
pour toute fonction ϕ ∈ H. D’apr`es la proposition pr´ec´edente, cela suffit pour donner la
convergence ´etroite de la suite (µ
n
) vers µ.
136
10.4 Deux applications
10.4.1 La convergence des mesures empiriques
Soit (X
n
)
n≥1
une suite de variables al´eatoires `a valeurs dans R
d
, ind´ependantes et de mˆeme
loi. Ces variables peuvent repr´esenter les r´esultats successifs d’une mˆeme exp´erience al´eatoire
r´ep´et´ee de mani`ere ind´ependante. Un probl`eme statistique fondamental est d’estimer la loi
de X
1
`a partir de la donn´ee de X
1
(ω), X
2
(ω), . . . , X
n
(ω) pour une seule valeur de ω.
Exemple : th´eorie des sondages. Imaginons qu’on a une population de N individus
num´erot´es 1, 2, . . . , N . L’entier N est suppos´e “tr`es grand” (on peut penser `a la population
fran¸ caise). A l’individu i est attach´e un param`etre a(i) ∈ R
d
(par exemple, l’ˆage de l’individu,
son intention de vote, son revenu mensuel, etc.). Si A ∈ B(R
d
), on s’int´eresse alors `a la
quantit´e
µ(A) =
1
N
N
¸
i=1
1
A
(a(i))
qui est la proportion d’individus dans la population dont le param`etre est dans A (par
exemple la proportion d’individus de plus de cinquante ans qui ont l’intention de voter
Chirac et ont un revenu mensuel sup´erieur `a 2000 Euros).
Comme N est tr`es grand, il est hors de question de calculer exactement µ(A). Le principe
d’un sondage est alors de choisir un ´echantillon de la population, c’est-`a-dire de prendre au
hasard n individus (n grand mais petit devant N) en esp´erant que la proportion d’individus
choisis dans cet ´echantillon pour lesquels le param`etre est dans A sera proche de la mˆeme pro-
portion calcul´ee pour la population totale. Pour rendre ceci pr´ecis en termes math´ematiques,
on se donne une famille Y
1
, . . . , Y
n
de variables al´eatoires ind´ependantes de loi uniforme
sur ¦1, . . . , N¦ (ce sont les individus de notre ´echantillon). La valeur du param`etre pour
l’individu Y
j
est X
j
= a(Y
j
). Les v.a. X
1
, . . . , X
n
sont ´evidemment ind´ependantes et de
mˆeme loi. De plus, cette loi est
P
X
1
(A) = P(a(Y
1
) ∈ A) =
1
N
N
¸
i=1
1
A
(a(i)) = µ(A).
Par ailleurs, la proportion calcul´ee sur les individus de l’´echantillon est
1
n
n
¸
j=1
1
A
(X
j
(ω)) =
1
n
n
¸
j=1
δ
X
j
(ω)
(A)
Finalement, la question de savoir si la proportion calcul´ee sur l’´echantillon est proche de
la proportion r´eelle µ(A) se ram`ene `a v´erifier que la mesure, dite “mesure empirique”,
1
n
n
¸
j=1
δ
X
j
(ω)
est proche de P
X
1
quand n → ∞. Le th´eor`eme suivant apporte une r´eponse `a cette question.
137
Th´eor`eme 10.4.1 Soit (X
n
)
n≥1
une suite de variables al´eatoires ind´ependantes et de mˆeme
loi, `a valeurs dans R
d
. Pour tout ω ∈ Ω et tout n ≥ 1, soit µ
n,ω
la mesure de probabilit´e sur
R
d
d´efinie par
µ
n,ω
=
1
n
n
¸
i=1
δ
X
i
(ω)
.
Alors, p.s.,
µ
n,ω
(e)
−→
n→∞
P
X
1
.
Remarque. D’un point de vue pratique, le th´eor`eme pr´ec´edent n’a aucun int´erˆet si on n’a
pas d’estimation de la vitesse de convergence. En revenant ` a l’exemple donn´e avant l’´enonc´e
du th´eor`eme, il faut que la mesure empirique µ
n,ω
soit “suffisamment proche” de P
X
1
pour
des valeurs de n grandes mais petites devant la taille N de la population (en pratique, N est
de l’ordre de 10
7
et n seulement de l’ordre de 10
3
).
Preuve. Soit H un sous-ensemble d´enombrable dense de C
c
(R
d
). Si ϕ ∈ H, la loi forte des
grands nombres appliqu´ee aux v.a. ϕ(X
i
) assure que
1
n
n
¸
i=1
ϕ(X
i
)
p.s.
−→
n→∞
E[ϕ(X
1
)].
On peut r´e´ecrire cela sous la forme

ϕdµ
n,ω
p.s.
−→
n→∞

ϕdP
X
1
.
Puisque H est d´enombrable, quitte `a ´ecarter une r´eunion d´enombrable d’ensembles de prob-
abilit´e nulle, on obtient
p.s. ∀ϕ ∈ H,

ϕdµ
n,ω
−→
n→∞

ϕdP
X
1
.
D’apr`es une proposition du paragraphe pr´ec´edent, cela suffit pour dire que p.s. µ
n,ω
converge
´etroitement vers P
X
1
.
10.4.2 Le th´eor`eme central limite
Soit (X
n
)
n≥1
une suite de variables al´eatoires r´eelles ind´ependantes et de mˆeme loi, dans L
1
.
La loi forte des grands nombres montre que
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
].
On cherche alors `a savoir `a quelle vitesse cette convergence a lieu, c’est-`a-dire quel est l’ordre
de grandeur de la diff´erence
1
n
(X
1
+ + X
n
) −E[X
1
]
138
quand n est grand.
Sous l’hypoth`ese suppl´ementaire que les variables X
i
sont dans L
2
, on devine la r´eponse
en calculant, comme dans la preuve de la loi faible des grands nombres,
E[(X
1
+ + X
n
−nE[X
1
])
2
] = var(X
1
+ + X
n
) = nvar(X
1
).
Ce calcul indique que la valeur moyenne de (X
1
+ + X
n
− nE[X
1
])
2
croˆıt lin´eairement
avec n, donc sugg`ere fortement que l’ordre de grandeur de X
1
+ +X
n
−nE[X
1
] est

n,
ou encore que l’ordre de grandeur de
1
n
(X
1
+ + X
n
) − E[X
1
] est 1/

n. Le th´eor`eme
central limite rend ceci plus pr´ecis.
Th´eor`eme 10.4.2 (Th´eor`eme central limite) Soit (X
n
)
n≥1
une suite de variables al´eatoires
r´eelles ind´ependantes et de mˆeme loi, dans L
2
. Soit σ
2
= var(X
1
). Alors,
1

n
(X
1
+ + X
n
−nE[X
1
])
(loi)
−→
n→∞
^(0, σ
2
)
o` u ^(0, σ
2
) d´esigne la loi gaussienne centr´ee de variance σ
2
. De mani`ere ´equivalente, pour
tous a, b ∈
¯
R avec a < b,
lim
n→∞
P(X
1
+ + X
n
∈ [nE[X
1
] + a

n, nE[X
1
] + b

n]) =
1
σ

b
a
exp(−
x
2

2
) dx.
Preuve. La deuxi`eme partie de l’´enonc´e est une cons´equence de la premi`ere, compte-tenu
de la formulation de la convergence en loi en termes des fonctions de r´epartition (noter ici
que la fonction de r´epartition de la variable limite est continue). Pour montrer la premi`ere
partie de l’´enonc´e, on remarque d’abord qu’on peut supposer E[X
1
] = 0, quitte `a remplacer
X
n
par X
n
−E[X
n
]. Posons alors
Z
n
=
1

n
(X
1
+ + X
n
).
La fonction caract´eristique de Z
n
est
Φ
Zn
(ξ) = E

exp

iξ(
X
1
+ + X
n

n
)

= E

exp

i
ξ

n
X
1

n
= Φ
X
1
(
ξ

n
)
n
,
o` u, dans la seconde ´egalit´e, on a utilis´e le fait que les v.a. X
i
sont ind´ependantes et de mˆeme
loi. D’apr`es un r´esultat du Chapitre 8, on a
Φ
X
1
(ξ) = 1 +iξE[X
1
] −
1
2
ξ
2
E[X
2
1
] + o(ξ
2
) = 1 −
σ
2
ξ
2
2
+ o(ξ
2
)
quand ξ → 0. Pour ξ ∈ R fix´e, on a donc aussi
Φ
X
1
(
ξ

n
) = 1 −
σ
2
ξ
2
2n
+ o(
1
n
)
139
quand n → ∞. En combinant avec ce qui pr´ec`ede, on a pour tout ξ ∈ R,
lim
n→∞
Φ
Zn
(ξ) = lim
n→∞
(1 −
σ
2
ξ
2
2n
+ o(
1
n
))
n
= exp(−
σ
2
ξ
2
2
) = Φ
U
(ξ).
si U suit la loi ^(0, σ
2
). Le th´eor`eme de L´evy permet maintenant de conclure que Z
n
converge en loi vers U, ce qui est le r´esultat du th´eor`eme.
Cas particulier : Th´eor`eme de de Moivre. On suppose que les X
n
sont des variables
de Bernoulli de param`etre
1
2
(i.e. P(X
n
= 1) = P(X
n
= 0) =
1
2
) ind´ependantes. Alors
S
n
= X
1
+ + X
n
suit une loi binˆomiale B(n,
1
2
) :
P(S
n
= k) = C
k
n
2
−n
.
Comme σ
2
= 1/4 dans ce cas particulier, le th´eor`eme entraˆıne que, pour tous a < b,
2
−n
¸
n
2
+a

n≤k≤
n
2
+b

n
C
k
n
−→
n→∞

2
π

b
a
e
−2x
2
dx.
Cette derni`ere convergence peut ˆetre v´erifi´ee directement (avec certains efforts) `a l’aide de
la formule de Stirling. On montre en fait un r´esultat plus pr´ecis de la forme

n2
−n
C
k
n
=

2
π
exp(−
2
n
(k −
n
2
)
2
) + o(1)
avec un reste o(1) uniforme quand k varie dans ¦0, 1, . . . , n¦.
10.4.3 Extension au cas vectoriel
Supposons maintenant que (X
n
)
n≥1
est une suite de variables al´eatoires ind´ependantes de
mˆeme loi `a valeurs dans R
d
et int´egrables. Alors, on peut appliquer la loi forte des grands
nombres coordonn´ee par coordonn´ee pour obtenir
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
],
o` u la limite E[X
1
] s’interpr`ete ´evidemment comme le vecteur (E[X
1
1
], . . . , E[X
d
1
]) si on a
´ecrit X = (X
1
1
, . . . , X
d
1
). Supposons de plus que les v.a. X
n
sont de carr´e int´egrable. Il
n’est pas aussi facile d’obtenir une version multidimensionnelle du th´eor`eme central limite :
contrairement `a ce qui se passe pour la convergence presque sˆ ure, il ne suffit pas pour
obtenir la convergence en loi d’une suite de v.a. `a valeurs dans R
d
de savoir que chaque
suite coordonn´ee converge en loi (on peut aussi remarquer que la loi de la limite n’est pas
d´etermin´ee par la connaissance de chacune de ses marginales).
Pour ´etendre le th´eor`eme central limite au cas de v.a. `a valeurs dans R
d
, nous devons
commencer par g´en´eraliser la notion de loi gaussienne.
140
D´efinition 10.4.1 Soit C une matrice d d `a coefficients r´eels, sym´etrique positive. Une
v.a. X `a valeurs dans R
d
, de carr´e int´egrable, est appel´ee vecteur gaussien centr´e de covari-
ance C si
∀ξ ∈ R
d
, Φ
X
(ξ) = E[e
iξ·X
] = exp(−
1
2
t
ξCξ).
On dit aussi que X suit la loi ^(0, C).
Remarque. Soit a ∈ R
d
. On dit plus g´en´eralement que X suit la loi ^(a, C) si X −a suit
la loi ^(0, C).
On a vu dans le Chapitre 8 que si X = (X
1
, . . . , X
d
) est une v.a. `a valeurs dans R
d
et
de carr´e int´egrable, on a le d´eveloppement limit´e
Φ
X
(ξ) = 1 +i
d
¸
j=1
ξ
j
E[X
j
] −
1
2
d
¸
j=1
d
¸
k=1
ξ
j
ξ
k
E[X
j
X
k
] + o([ξ
2
[)
quand ξ → 0. On en d´eduit imm´ediatement que si X suit la loi ^(0, C) on a E[X] = 0 et
K
X
= C.
Proposition 10.4.3 Soit C une matrice sym´etrique positive. Il existe un vecteur gaussien
centr´e de covariance C.
Preuve. Rappelons d’abord (voir la fin du Chapitre 9) qu’une combinaison lin´eaire de v.a.
gaussiennes ind´ependantes est encore gaussienne.
On pose A =

C de sorte que A est une matrice sym´etrique positive et A
2
= C. Soient
ensuite Y
1
, . . . , Y
d
d v.a. r´eelles ind´ependantes de loi ^(0, 1). Soit Y la v.a. `a valeurs dans
R
d
dont les coordonn´ees sont Y
1
, . . . , Y
d
. Alors, X = AY suit la loi ^(0, C). Pour le voir,
consid´erons ξ ∈ R
d
et observons que ξ X est une combinaison lin´eaire des v.a. Y
1
, . . . , Y
d
,
et est donc une v.a. gaussienne centr´ee. Pr´ecis´ement, ξ X suit la loi ^(0, σ
2
) avec
σ
2
= E[(ξ X)
2
] = E[
t
ξAY
t
Y Aξ] =
t
ξAE[Y
t
Y ] Aξ =
t
ξA
2
ξ =
t
ξCξ,
en calculant de mani`ere matricielle, et en utilisant le fait que E[Y
t
Y ] = Id puisque les
coordonn´ees de Y sont des v.a. de loi ^(0, 1) ind´ependantes. Finalement, grˆace `a la formule
pour la fonction caract´eristique d’une v.a. de loi ^(0, σ
2
), on a pour tout u > 0,
E[e
iuξ·X
] = exp(−
σ
2
u
2
2
) = exp(−
u
2
2
t
ξCξ)
et en prenant u = 1 on a le r´esultat voulu.
Remarques. (i) Avec les notations de la preuve ci-dessus, Y suit la loi ^(0, Id).
(ii) Une v.a. X `a valeurs dans R
d
est un vecteur gaussien centr´e si et seulement si toute
combinaison lin´eaire de ses composantes est gaussienne centr´ee : en effet on a alors E[e
iξ·X
] =
exp(−
1
2
E[(ξ X)
2
]) = exp(−
1
2
t
ξK
X
ξ).
Exercice. Soit X un vecteur gaussien centr´e. Montrer que X a une densit´e si et seulement
si K
X
est non d´eg´en´er´ee, et calculer alors la densit´e de X.
141
Th´eor`eme 10.4.4 (Th´eor`eme central limite vectoriel) Soit (X
n
)
n≥1
est une suite de
variables al´eatoires ind´ependantes de mˆeme loi `a valeurs dans R
d
, de carr´e int´egrable. Alors,
1

n
(X
1
+ + X
n
−nE[X
1
])
(loi)
−→
n→∞
^(0, K
X
1
)
Preuve. C’est la mˆeme que dans le cas r´eel. On peut supposer E[X
1
] = 0. Ensuite, pour
tout ξ ∈ R
d
,
E

exp

iξ (
X
1
+ + X
n

n
)

= E

exp

i
ξ

n
X
1

n
= Φ
X
1
(
ξ

n
)
n
.
D’autre part, on sait que
Φ
X
1
(
ξ

n
) = 1 −
1
2n
t
ξK
X
1
ξ + o(
1
n
).
On conclut que
lim
n→∞
E

exp

iξ (
X
1
+ + X
n

n
)

= exp(−
1
2
t
ξK
X
1
ξ),
d’o` u le r´esultat grˆace au th´eor`eme de L´evy.
142
Chapitre 11
Conditionnement
Ce chapitre est consacr´e `a la construction et aux propri´et´es de l’esp´erance conditionnelle.
Intuitivement, l’esp´erance conditionnelle d’une variable al´eatoire r´eelle donn´ee par rapport
`a une sous-tribu est la variable al´eatoire mesurable pour cette sous-tribu qui est la “plus
proche” de la variable al´eatoire donn´ee. Pour de nombreux probl`emes concrets (pr´ediction,
observation incompl`ete, etc.) il est important de pouvoir estimer une variable al´eatoire sur
laquelle on n’a qu’une information partielle, et l’on comprend d`es lors l’importance de la
notion d’esp´erance conditionnelle. La d´efinition axiomatique de cette notion (dans laquelle
la “propri´et´e caract´eristique” joue un rˆole essentiel) est motiv´ee par le cas discret trait´e dans
le premier paragraphe. Le calcul explicite des esp´erances conditionnelles, qui est en g´en´eral
un probl`eme difficile, est illustr´e sur plusieurs cas, dont le cas gaussien particuli`erement
important pour les applications. La notion de loi conditionnelle, utile dans ce cours d’un
point de vue conceptuel surtout, est introduite `a la fin du chapitre.
11.1 Conditionnement discret
Comme dans les chapitres pr´ec´edents on se place sur un espace de probabilit´e (Ω, /, P). Soit
B ∈ / un ´ev´enement tel que P(B) > 0. On peut d´efinir une nouvelle probabilit´e sur (Ω, /),
appel´ee probabilit´e conditionnelle sachant B, en posant pour tout A ∈ /,
P(A[ B) =
P(A∩ B)
P(B)
.
De mˆeme, pour toute v.a. X ≥ 0, ou pour X ∈ L
1
(Ω, /, P), l’esp´erance conditionnelle de
X sachant B est d´efinie par
E[X[ B] =
E[X 1
B
]
P(B)
.
Cette quantit´e est aussi l’esp´erance de X sous la probabilit´e P( [ B), et elle s’interpr`ete
comme la valeur moyenne de X quand B est r´ealis´e.
Nous cherchons ensuite `a d´efinir l’esp´erance conditionnelle sachant une variable al´eatoire
(et non plus sachant un ´ev´enement). Consid´erons une v.a. Y `a valeurs dans un espace E
143
d´enombrable. Soit E

= ¦y ∈ E : P(Y = y) > 0¦. Pour tout y ∈ E

, et pour toute v.a.
X ∈ L
1
(Ω, /, P), on peut d´efinir, comme cas particulier de ce qui pr´ec`ede,
E[X[ Y = y] =
E[X 1
{Y =y}
]
P(Y = y)
.
D´efinition 11.1.1 Soit X ∈ L
1
(Ω, /, P). L’esp´erance conditionnelle de X sachant Y est
la variable al´eatoire r´eelle d´efinie par
E[X[ Y ] = ϕ(Y ),
o` u la fonction ϕ : E −→R est donn´ee par
ϕ(y) =

E[X[ Y = y] si y ∈ E

,
0 si y ∈ E`E

.
Remarque. Le choix de la valeur de ϕ sur E`E

est arbitraire : de toute fa¸ con ce choix
n’influence la d´efinition de E[X[ Y ] que sur un ensemble de probabilit´e nulle, puisque
P(Y ∈ E`E

) =
¸
y∈E\E

P(Y = y) = 0.
On pourrait changer la d´efinition de ϕ sur E`E

et cela donnerait la mˆeme v.a. E[X[ Y ] `a
un ensemble de mesure nulle pr`es. Dans les situations plus g´en´erales que nous rencontrerons
plus tard, les esp´erances conditionnelles (sachant une v.a. ou une tribu) seront toujours
d´efinies `a un ensemble de probabilit´e nulle pr`es.
En comparant avec le conditionnement par rapport `a un ´ev´enement, on observe que
l’esp´erance conditionnelle E[X[ Y ] est maintenant une variable al´eatoire : c’est la v.a. qui
donne la valeur moyenne de X quand on connait Y : p.s.,
E[X[ Y ](ω) = E[X[ Y = y] , si Y (ω) = y.
Remarquons aussi que E[X[ Y ] est une fonction de Y donc une v.a. σ(Y )-mesurable. Dans
un sens qui sera pr´ecis´e plus loin, c’est la meilleure approximation de X par une fonction de
Y .
Exemple. Lancer d’un d´e. On prend Ω = ¦1, 2, . . . , 6¦ et P(¦ω¦) =
1
6
pour tout ω ∈ Ω.
Soient
Y (ω) =

1 si ω est impair,
0 si ω est pair,
et X(ω) = ω. Alors,
E[X[ Y ](ω) =

3 si ω ∈ ¦1, 3, 5¦,
4 si ω ∈ ¦2, 4, 6¦.
Proposition 11.1.1 On a E[[E[X[ Y ][] ≤ E[[X[]. En particulier, E[X[ Y ] ∈ L
1
(Ω, /, P).
De plus, pour toute v.a. Z σ(Y )-mesurable born´ee,
E[ZX] = E[Z E[X[ Y ]].
144
Preuve. D’apr`es la d´efinition de l’esp´erance conditionnelle E[X[ Y ], on a
E[[E[X[ Y ][] =
¸
y∈E

P(Y = y)
[E[X 1
{Y =y}
][
P(Y = y)

¸
y∈E
E[[X[ 1
{Y =y}
] = E[[X[].
Pour la derni`ere assertion, on utilise le fait qu’on peut ´ecrire Z = ψ(Y ), avec une fonction
ψ born´ee. Alors,
E[ψ(Y ) E[X[ Y ]] =
¸
y∈E
ψ(y) E[X 1
{Y =y}
] =
¸
y∈E
E[ψ(Y )X 1
{Y =y}
] = E[ψ(Y )X].

Cons´equence. Si Y

est une autre v.a. discr`ete telle que σ(Y ) = σ(Y

), on a
E[X[ Y ] = E[X[ Y

] p.s.
En effet, en appliquant la proposition avec Z = 1
{E[X|Y ]>E[X|Y

]}
, qui est bien mesurable pour
σ(Y ) = σ(Y

) puisque E[X[ Y ] et E[X[ Y

] le sont, on trouve
E[1
{E[X|Y ]>E[X|Y

]}
(E[X[ Y ] −E[X[ Y

])] = 0
d’o` u E[X[ Y ] ≤ E[X[ Y

] p.s., et on obtient de mˆeme l’autre in´egalit´e. Cela montre aussi que
la derni`ere propri´et´e de la proposition caract´erise E[X[ Y ] parmi les v.a. σ(Y )-mesurables
et int´egrables.
L’observation pr´ec´edente conduit `a dire que la “bonne” notion de conditionnement est
la notion de conditionnement par rapport `a une tribu. C’est cette notion que nous allons
d´evelopper dans les paragraphes suivants en nous basant sur la propri´et´e de la proposition
ci-dessus.
11.2 La d´efinition de l’esp´erance conditionnelle
11.2.1 Cas des variables int´egrables
Th´eor`eme et d´efinition 11.2.1 Soit B une sous-tribu de /, et soit X ∈ L
1
(Ω, /, P). Il
existe alors une unique variable al´eatoire dans L
1
(Ω, B, P), not´ee E[X[ B], telle que
∀B ∈ B , E[X 1
B
] = E[E[X[ B] 1
B
]. (11.1)
On a plus g´en´eralement, pour toute variable al´eatoire Z B-mesurable born´ee
E[X Z] = E[E[X[ B] Z]. (11.2)
Si X ≥ 0 on a aussi E[X[ B] ≥ 0.
Le point crucial est le fait que E[X[ B] est mesurable pour la tribu B. L’une ou l’autre
des propri´et´es (11.1) et (11.2) caract´erise l’esp´erance conditionnelle E[X [ B] dans la classe
145
des v.a. de L
1
(Ω, B, P). Dans la suite nous ferons r´ef´erence `a l’une ou l’autre comme `a la
propri´et´e caract´eristique de l’esp´erance conditionnelle.
Dans le cas particulier o` u la tribu B est engendr´ee par une variable al´eatoire Y , on ´ecrira
indiff´eremment
E[X[ B] = E[X[ σ(Y )] = E[X[ Y ].
Cette notation est coh´erente avec le cas discret trait´e dans la partie pr´ec´edente : comparer
(11.2) et la proposition ci-dessus.
Preuve. Commen¸ cons par l’unicit´e. Soient X

et X
′′
deux v.a. dans L
1
(Ω, B, P) telles que
∀B ∈ B , E[X

1
B
] = E[X 1
B
] = E[X
′′
1
B
].
En prenant B = ¦X

> X
′′
¦ (qui est bien B-mesurable puisque X

et X
′′
le sont), on trouve
E[(X

−X
′′
)1
{X

>X
′′
}
] = 0
d’o` u X

≤ X
′′
p.s., et de mˆeme X

≥ X
′′
p.s.
Pour l’existence, supposons d’abord X ≥ 0, et soit Q la mesure finie sur (Ω, B) d´efinie
par
∀B ∈ B , Q(B) = E[X 1
B
].
Alors, si on voit aussi P comme une mesure de probabilit´e sur (Ω, B), il est imm´ediat qu’on
a Q ≪ P. Le th´eor`eme de Radon-Nikodym, appliqu´e sur l’espace mesurable (Ω, B), assure
donc l’existence d’une v.a.
¯
X B-mesurable positive telle que
∀B ∈ B , E[X 1
B
] = Q(B) = E[
¯
X 1
B
].
En prenant B = Ω, on voit que E[
¯
X] = E[X] < ∞, donc X ∈ L
1
(Ω, B, P). Finalement,
E[X[ B] =
¯
X v´erifie la propri´et´e de l’´enonc´e. Lorsque X est de signe quelconque, il suffit de
prendre
E[X[ B] = E[X
+
[ B] −E[X

[ B].
Enfin, le passage de (11.1) `a (11.2) se fait en utilisant l’approximation usuelle des fonctions
mesurables par des fonctions ´etag´ees.
Exemple. Prenons Ω =]0, 1], / = B(]0, 1]) et P(dω) = dω. Soit B la tribu engendr´ee par
les intervalles ]
i−1
n
,
i
n
], i ∈ ¦1, . . . , n¦, o` u n ≥ 1 est fix´e. Un ´el´ement f de L
1
(Ω, /, P) est une
fonction mesurable f :]0, 1] −→R telle que

1
0
[f(ω)[dω < ∞. Alors on v´erifie tr`es facilement
que
E[f [ B] =
n
¸
i=1
f
i
1
]
i−1
n
,
i
n
]
,
o` u f
i
= n

i/n
(i−1)/n
f(ω)dω est la moyenne de f sur ]
i−1
n
,
i
n
].
Propri´et´es de l’esp´erance conditionnelle.
(a) Si X est B-mesurable, E[X[ B] = X.
(b) L’application X −→ E[X[ B] est lin´eaire.
146
(c) E[E[X[ B]] = E[X].
(d) [E[X[ B][ ≤ E[[X[ [ B] p.s., et en cons´equence E[[E[X[ B][] ≤ E[[X[].
(e) X ≥ X

⇒ E[X[ B] ≥ E[X

[ B] p.s.
Preuve. (a) d´ecoule imm´ediatement de l’unicit´e dans le th´eor`eme ci-dessus. Il en va de
mˆeme pour (b) en observant que, si X, X

∈ L
1
(Ω, /, P) et α, α

∈ R, la v.a.
αE[X[ B] + α

E[X

[ B]
satisfait la propri´et´e caract´eristique (11.1) pour αX + α

X

. La propri´et´e (c) est le cas
particulier B = Ω dans (11.1). Pour (d), rappelons que si X ≥ 0 on a E[X [ B] ≥ 0. Cela
entraˆıne
[E[X[ B][ = [E[X
+
[ B] −E[X

[ B][ ≤ E[X
+
[ B]] + E[X

[ B] = E[[X[ [ B].
Enfin, (e) est imm´ediat par lin´earit´e.
11.2.2 Cas des variables positives
Th´eor`eme 11.2.2 Soit X une variable al´eatoire `a valeurs dans [0, ∞]. La formule
E[X[ B] = lim
n→∞
↑ E[X ∧ n[ B] p.s.
d´efinit une variable al´eatoire `a valeurs dans [0, ∞], qui est caract´eris´ee (`a un ensemble de
probabilit´e nulle pr`es) par la propri´et´e suivante : pour toute variable al´eatoire Z B-mesurable
positive,
E[XZ] = E[E[X[ B]Z]. (11.3)
Dans le cas o` u X est aussi int´egrable, en comparant la derni`ere propri´et´e du th´eor`eme
avec (11.1), on voit imm´ediatement que l’on retrouve la mˆeme d´efinition de E[X [ B] que
dans le paragraphe ci-dessus. De mˆeme que dans le cas des variables int´egrables, la propri´et´e
(11.3) sera appel´ee propri´et´e caract´eristique de l’esp´erance conditionnelle.
Preuve. La croissance de la limite dans la d´efinition de E[X [ B] d´ecoule de la propri´et´e
(e) ci-dessus. Ensuite, si Z est B-mesurable positive, le th´eor`eme de convergence monotone
entraˆıne que
E[E[X[ B]Z] = lim
n→∞
E[E[X ∧ n[ B](Z ∧ n)] = lim
n→∞
E[(X ∧ n)(Z ∧ n)] = E[XZ].
Il reste `a ´etablir l’unicit´e. Soient donc X

et X
′′
deux variables al´eatoires B-mesurables `a
valeurs dans [0, ∞] telles que
E[X

Z] = E[X
′′
Z]
pour toute v.a. Z B-mesurable positive. Prenons
Z = 1
{X

≤a<b≤X
′′
}
147
o` u on a fix´e a, b ∈ Q
+
, avec a < b. Il vient
a P(X

≤ a < b ≤ X
′′
) ≥ b P(X

≤ a < b ≤ X
′′
)
ce qui n’est possible que si P(X

≤ a < b ≤ X
′′
) = 0. On a donc
P

¸
a,b∈Q
+
a<b
¦X

≤ a < b ≤ X
′′
¦

= 0
ce qui entraˆıne X

≥ X
′′
p.s. Par un raisonnement sym´etrique on a aussi X
′′
≥ X

p.s.
Remarque. On peut avoir X < ∞ p.s. et simultan´ement P(E[X [ B] = ∞) > 0. Par
exemple, si B = ¦∅, Ω¦, on v´erifie ais´ement que E[X [ B] = E[X], qui peut bien sˆ ur ˆetre
infini pour des v.a. X finies p.s. Pour donner un exemple moins trivial, reprenons le cas o` u
Ω =]0, 1], B = σ(]
i−1
n
,
i
n
]; i ∈ ¦1, . . . , n¦) et P(dω) = dω. Alors, si X(ω) =
1
ω
, on a
E[X[ B] = ∞1
]0,
1
n
]
+
n
¸
i=2
n log(
i
i −1
) 1
]
i−1
n
,
i
n
]
.
Propri´et´es.
(a) Si X et X

sont des v.a. positives et a, b ≥ 0,
E[aX + bX

[ B] = a E[X[ B] + b E[X

[ B].
(b) Si X est B-mesurable, E[X[ B] = X.
(c) Si (X
n
) est une suite croissante de v.a. positives, et X = lim ↑ X
n
,
E[X[ B] = lim
n→∞
↑ E[X
n
[ B] , p.s.
(d) Si (X
n
) est une suite de v.a. positives,
E[liminf X
n
[ B] ≤ liminf E[X
n
[ B] , p.s.
(e) Soit (X
n
) une suite de v.a. int´egrables convergeant p.s. vers X. Supposons qu’il existe
une v.a. positive Z telle que [X
n
[ ≤ Z p.s. pour tout n, et E[Z] < ∞. Alors,
E[X[ B] = lim
n→∞
E[X
n
[ B] , p.s. et dans L
1
.
(f) Si f est convexe positive, et si X ∈ L
1
,
E[f(X)[ B] ≥ f(E[X[ B]).
148
Remarque. La mention “p.s.” devrait figurer dans chaque ´enonc´e impliquant une esp´erance
conditionnelle, puisque celle-ci n’est d´efinie qu’`a un ensemble de probabilit´e nulle pr`es. Le
plus souvent cependant, cette mention est sous-entendue, comme dans (a),(b) et (f) ci-dessus.
Preuve. (a) et (b) sont faciles en utilisant la caract´erisation de E[X [ B] donn´ee dans le
th´eor`eme.
(c) Il d´ecoule de (a) que si X
1
≥ X
2
≥ 0 on a E[X
1
[ B] ≥ E[X
2
[ B]. Sous les hypoth`eses
de (c), on peut donc poser X

= lim ↑ E[X
n
[ B], qui est une v.a. B-mesurable `a valeurs dans
[0, ∞]. On a alors, pour toute v.a. Z B-mesurable positive,
E[ZX

] = lim ↑ E[Z E[X
n
[ B]] = lim ↑ E[Z X
n
] = E[ZX]
ce qui d’apr`es la caract´erisation du th´eor`eme entraˆıne X

= E[X[ B].
(d) On ´ecrit, en utilisant (c),
E[liminf X
n
[ B] = E

lim
k↑∞

inf
n≥k
X
n

B

= lim
k↑∞
↑ E

inf
n≥k
X
n

B

≤ lim
k↑∞

inf
n≥k
E[X
n
[ B]

= liminf E[X
n
[ B].
(e) Il suffit d’appliquer (d) deux fois :
E[liminf(Z −X
n
)[ B] ≤ E[Z[ B] −limsup E[X
n
[ B]
E[liminf(Z + X
n
)[ B] ≤ E[Z[ B] + liminf E[X
n
[ B]
ce qui conduit `a
E[X[ B] ≤ liminf E[X
n
[ B] ≤ limsup E[X
n
[ B] ≤ E[X[ B],
d’o` u la convergence p.s. recherch´ee. La convergence L
1
est maintenant une cons´equence
du th´eor`eme de convergence domin´ee, puisque [E[X
n
[ B][ ≤ E[[X
n
[ [ B] ≤ E[Z [ B] et
E[E[Z[ B]] = E[Z] < ∞.
(f) Notons
E
f
= ¦(a, b) ∈ R
2
: ∀x ∈ R, f(x) ≥ ax + b¦.
Alors, il est facile de v´erifier que
∀x ∈ R
2
, f(x) = sup
(a,b)∈E
f
(ax + b) = sup
(a,b)∈E
f
∩Q
2
(ax + b).
En utilisant le fait que Q
2
est d´enombrable, on en d´eduit que p.s.
E[f(X)[ B] = E

sup
(a,b)∈E
f
∩Q
2
(aX + b)

B

≥ sup
(a,b)∈E
f
∩Q
2
E[aX + b[ B] = f(E[X[ B]).

Remarque. Par analogie avec la formule P(A) = E[1
A
], on ´ecrira souvent pour A ∈ /,
P(A[ B) := E[1
A
[ B].
Prendre garde cependant que P(A[ B) ainsi d´efinie est une variable al´eatoire.
149
11.2.3 Le cas particulier des variables de carr´e int´egrable
Dans le cas o` u X est de carr´e int´egrable, il existe une autre interpr´etation remarquable de
E[X[ B]. Avant d’´enoncer le r´esultat, observons que L
2
(Ω, B, P) s’identifie `a un sous-espace
ferm´e de L
2
(Ω, /, P), `a savoir l’espace des ´el´ements de L
2
(Ω, /, P) dont un repr´esentant au
moins est B-mesurable.
Th´eor`eme 11.2.3 Si X ∈ L
2
(Ω, /, P), alors E[X [ B] est la projection orthogonale de X
sur L
2
(Ω, B, P).
Preuve. La propri´et´e (f) ci-dessus montre que E[X[ B]
2
≤ E[X
2
[ B] p.s. Cela entraˆıne que
E[E[X[ B]
2
] ≤ E[X
2
] < ∞, et donc la v.a. E[X[ B] est dans L
2
(Ω, B, P).
Par ailleurs, pour toute v.a. Z B-mesurable born´ee,
E[Z(X −E[X[ B])] = E[ZX] −E[ZE[X[ B]] = 0,
toujours d’apr`es la propri´et´e caract´eristique de E[X[ B]. Donc X −E[X[ B] est orthogonal
`a toutes les v.a. born´ees B-mesurables, et par un argument de densit´e, X − E[X [ B] est
orthogonal `a L
2
(Ω, B, P). Le r´esultat annonc´e en d´ecoule.
On peut utiliser le th´eor`eme pr´ec´edent pour donner une autre construction de l’esp´erance
conditionnelle, ´evitant le recours au th´eor`eme de Radon-Nikodym, en commen¸ cant par le
cas des v.a. de carr´e int´egrable. Observons aussi que ce th´eor`eme donne une interpr´etation
int´eressante de l’esp´erance conditionnelle : si X est de carr´e int´egrable, E[X [ B] est la
meilleure (au sens de la norme L
2
) approximation de X par une v.a. B-mesurable.
11.3 Propri´et´es sp´ecifiques de l’esp´erance condition-
nelle
Les propri´et´es ´etablies ci-dessus sont analogues aux propri´et´es de l’esp´erance (ou de l’int´egrale
de fonctions mesurables). Nous ´etablissons dans ce paragraphe des propri´et´es plus parti-
culi`eres `a l’esp´erance conditionnelle.
Proposition 11.3.1 Soit X une variable al´eatoire r´eelle, et soit Y une variable al´eatoire
B-mesurable. Alors,
E[Y X[ B] = Y E[X[ B]
d`es que les esp´erances conditionnelles sont bien d´efinies, c’est-`a-dire si X et Y sont positives,
ou si X et Y X ∈ L
1
.
Preuve. Supposons X ≥ 0 et Y ≥ 0. Alors, pour toute v.a. Z B-mesurable positive,
E[Z(Y E[X[ B])] = E[(ZY )E[X[ B]] = E[ZY X].
Puisque Y E[X[ B] est une v.a. B-mesurable positive, cette ´egalit´e suffit pour conclure que
Y E[X[ B] = E[Y X[ B].
Dans le cas o` u X et Y X sont int´egrables, on obtient le r´esultat en d´ecomposant X =
X
+
−X

et Y = Y
+
−Y

.
150
Proposition 11.3.2 Soient B
1
et B
2
deux sous-tribus de / telles que B
1
⊂ B
2
. Alors, pour
toute variable al´eatoire X positive ou int´egrable,
E[E[X[ B
2
] [ B
1
] = E[X[ B
1
].
Remarque. On a aussi E[E[X[ B
1
] [ B
2
] = E[X[ B
1
] sous les mˆemes hypoth`eses, mais cela
est ´evident puisque E[X[ B
1
] est B
2
-mesurable.
Preuve. Traitons le cas o` u X ≥ 0. Soit Z une v.a. B
1
-mesurable positive. Alors, puisque
Z est aussi B
2
-mesurable,
E[Z E[E[X[ B
2
] [ B
1
]] = E[Z E[X[ B
2
]] = E[ZX].
Cela suffit pour ´etablir l’´egalit´e annonc´ee.
Th´eor`eme 11.3.3 Deux sous-tribus B
1
et B
2
sont ind´ependantes si et seulement si, pour
toute v.a. X B
2
-mesurable positive (ou pour toute v.a. X ∈ L
1
(Ω, B
2
, P), ou bien pour toute
v.a. X de la forme X = 1
A
, avec A ∈ B
2
), on a
E[X[ B
1
] = E[X].
Preuve. Supposons d’abord que B
1
et B
2
sont ind´ependantes. Alors, si X est une v.a.
B
2
-mesurable positive, on a pour toute v.a. Z B
1
-mesurable positive,
E[ZX] = E[Z]E[X] = E[Z E[X]],
et donc la v.a. constante E[X] satisfait la propri´et´e caract´eristique de l’esp´erance condition-
nelle E[X[ B
1
]. Dans le cas o` u X est int´egrable, il suffit d’utiliser la lin´earit´e de l’esp´erance
conditionnelle.
Supposons inversement que
∀A ∈ B
2
, E[1
A
[ B
1
] = E[1
A
] = P(A).
Alors, pour tout B ∈ B
1
,
P(A∩ B) = E[1
A
1
B
] = E[E[1
A
[ B
1
] 1
B
] = E[P(A) 1
B
] = P(A)P(B)
ce qui montre que les tribus B
1
et B
2
sont ind´ependantes.
Remarque. Soient X et Y deux v.a. r´eelles. Puisque les v.a. mesurables par rapport
`a la tribu σ(X) sont les fonctions de X, le th´eor`eme pr´ec´edent montre que X et Y sont
ind´ependantes si et seulement si
E[h(X)[ Y ] = E[h(X)]
pour toute fonction bor´elienne h telle que E[[h(X)[] < ∞ (rappelons que E[h(X) [ Y ] =
E[h(X)[ σ(Y )]). Si X est int´egrable on a donc en particulier
E[X[ Y ] = E[X].
151
Cependant cette derni`ere propri´et´e seule ne suffit pas pour donner l’ind´ependance de X et
Y . Pour s’en convaincre, il suffit de traiter le cas o` u X suit une loi ^(0, 1), et Y = [X[.
Alors, toute v.a. Z σ(Y )-mesurable born´ee s’´ecrit Z = g(Y ), avec une fonction g born´ee, et
donc
E[ZX] = E[g([X[)X] =
1


−∞
dy e
−y
2
/2
g([y[)y = 0,
ce qui montre que E[X[ Y ] = 0 = E[X], alors que X et Y ne sont bien sˆ ur pas ind´ependantes.
Nous ´enon¸ cons maintenant un autre th´eor`eme reliant esp´erance conditionnelle et ind´epen-
dance, qui est tr`es souvent utile pour les calculs explicites d’esp´erance conditionnelle.
Th´eor`eme 11.3.4 Soient X et Y deux variables al´eatoires `a valeurs respectivement dans
les espaces mesurables E et F. Supposons que X est ind´ependante de B et que Y est B-
mesurable. Alors, pour toute fonction mesurable g : E F −→R
+
,
E[g(X, Y ) [ B] =

g(x, Y ) P
X
(dx),
o` u P
X
d´esigne la loi de X. Le terme de droite est la compos´ee de la variable al´eatoire Y par
l’application Φ : y −→

g(x, y) P
X
(dx) (Φ est mesurable grˆace au th´eor`eme de Fubini).
Remarque. De mani`ere informelle on peut expliquer le th´eor`eme de la mani`ere suivante.
Si on conditionne par rapport `a la sous-tribu B, la v.a. Y , qui est B-mesurable, se comporte
comme une constante et comme par ailleurs la connaissance de B ne donne aucune infor-
mation sur X la meilleure approximation de g(X, Y ) est obtenue en int´egrant g(, Y ) par
rapport `a la loi de X.
Preuve. Il suffit de montrer que pour toute v.a. Z B-mesurable positive,
E[g(X, Y )Z] = E[Φ(Y )Z].
Notons P
(X,Y,Z)
la loi du triplet (X, Y, Z), qui est une mesure de probabilit´e sur EF R
+
.
Comme X est ind´ependante de (Y, Z), on a
P
(X,Y,Z)
= P
X
⊗P
(Y,Z)
et donc, en utilisant le th´eor`eme de Fubini,
E[g(X, Y )Z] =

g(x, y)z P
(X,Y,Z)
(dxdydz)
=

g(x, y)z P
X
(dx)P
(Y,Z)
(dydz)
=

F×R
+
z

E
g(x, y)P
X
(dx)

P
(Y,Z)
(dydz)
=

F×R
+
zΦ(y) P
(Y,Z)
(dydz)
= E[Φ(Y )Z]
ce qui ´etait le r´esultat recherch´e.
152
11.4 Calculs d’esp´erance conditionnelle
11.4.1 Conditionnement discret
Soit Y une v.a. `a valeurs dans un espace d´enombrable E, et soit X ∈ L
1
(Ω, /, P). Alors on
a d´ej`a vu que
E[X[ Y ] = ϕ(Y )
o` u
ϕ(y) =
E[X 1
{Y =y}
]
P(Y = y)
pour tout y ∈ E tel que P(Y = y) > 0 (et ϕ(y) peut ˆetre choisie de mani`ere arbitraire
lorsque P(Y = y) = 0).
11.4.2 Cas des variables `a densit´e
Soient X et Y deux v.a. `a valeurs respectivement dans R
m
et dans R
n
. Supposons que le
couple (X, Y ) a pour densit´e p(x, y) : pour toute fonction bor´elienne f : R
m
R
n
−→R
+
,
E[f(X, Y )] =

R
m
×R
n
f(x, y) p(x, y) dxdy.
Alors la densit´e de Y est la fonction
q(y) =

R
m
p(x, y) dx
(en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que

p(x, y) dx = ∞,
qui forment un ensemble de mesure nulle; nous n´egligerons cependant ce point de d´etail dans
les calculs qui suivent).
Soit maintenant h : R
m
−→R
+
une fonction mesurable. Alors on calcule E[h(X)[ Y ] de
la fa¸ con suivante. Pour toute fonction g : R
n
−→R
+
bor´elienne, on a
E[h(X)g(Y )] =

R
m
×R
n
h(x) g(y) p(x, y) dxdy
=

R
n

R
m
h(x) p(x, y) dx

g(y) dy
=

R
n

R
m
h(x) p(x, y) dx
q(y)

g(y) q(y)1
{q(y)>0}
dy
=

R
n
ϕ(y) g(y) q(y)1
{q(y)>0}
dy
= E[ϕ(Y ) g(Y )],
o` u on a pos´e
ϕ(y) =

1
q(y)

R
m
h(x) p(x, y) dx si q(y) > 0,
h(0) si q(y) = 0
153
(la valeur de ϕ(y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode
dans l’´enonc´e qui suit). Dans le calcul qui pr´ec`ede, on a utilis´e implicitement le fait que si
q(y) = 0 on a p(x, y) = 0 dx p.p., et donc

h(x) p(x, y) dx = 0.
Il d´ecoule du calcul ci-dessus et de la caract´erisation de l’esp´erance conditionnelle que
E[h(X)[ Y ] = ϕ(Y ).
Nous r´e´enon¸ cons ce r´esultat sous une forme un peu diff´erente.
Proposition 11.4.1 Pour tout y ∈ R
n
, soit ν(y, dx) la mesure de probabilit´e sur R
m
d´efinie
par
ν(y, dx) =

1
q(y)
p(x, y) dx si q(y) > 0,
δ
0
(dx) si q(y) = 0.
Alors, pour toute fonction h : R
m
−→R
+
bor´elienne,
E[h(X)[ Y ] =

ν(Y, dx) h(x).
On ´ecrit souvent, de mani`ere un peu abusive, pour tout y ∈ R,
E[h(X)[ Y = y] =

ν(y, dx) h(x) =
1
q(y)

h(x) p(x, y) dx
et on dit que ν(y, dx) est la loi conditionnelle de X sachant que Y = y. La fonction
x −→
p(x, y)
q(y)
est appel´ee densit´e conditionnelle de X sachant que Y = y.
Exercice. Sous les hypoth`eses pr´ec´edentes, montrer plus g´en´eralement que, pour toute
fonction bor´elienne h : R
m
R
n
−→R
+
, on a
E[h(X, Y )[ Y ] =

h(x, Y ) ν(Y, dx).
11.4.3 Conditionnement gaussien
Soient X, Y
1
, . . . , Y
p
p +1 variables al´eatoires r´eelles dans L
2
(Ω, /, P). Comme cela a ´et´e vu
dans le paragraphe 2.3 ci-dessus, l’esp´erance conditionnelle
E[X[ Y
1
, . . . , Y
p
]
est la projection orthogonale de X sur l’espace L
2
(Ω, σ(Y
1
, . . . , Y
p
), P) qui est de dimen-
sion infinie sauf dans des cas triviaux. Cette projection orthogonale est aussi la meilleure
approximation de X, au sens de la norme L
2
, par une v.a. de la forme ϕ(Y
1
, . . . , Y
p
).
154
Par ailleurs, nous avons aussi ´etudi´e, dans le Chapitre 8, la meilleure approximation de
X par une fonction affine de Y
1
, . . . , Y
p
, qui est la projection orthogonale de X sur l’espace
vectoriel (de dimension finie) engendr´e par 1, Y
1
, . . . , Y
p
. En g´en´eral cette derni`ere projection
est tr`es diff´erente de l’esp´erance conditionnelle E[X[ Y
1
, . . . , Y
p
] qui fournit une bien meilleure
approximation de X. Nous allons cependant ´etudier une situation o` u les deux co¨ıncident, ce
qui a l’´enorme avantage de ramener les calculs d’esp´erance conditionnelle `a des projections
en dimension finie.
Nous avons vu dans le Chapitre 10 qu’une v.a. Z = (Z
1
, . . . , Z
k
) `a valeurs dans R
k
est un
vecteur gaussien centr´e si toute combinaison lin´eaire de Z
1
, . . . , Z
k
est gaussienne centr´ee, ce
qui ´equivaut encore `a
∀ξ ∈ R
k
, E[exp(iξ Z)] = exp(−
1
2
t
ξK
Z
ξ).
C’est par exemple le cas si les composantes Z
1
, . . . , Z
k
sont des v.a. gaussiennes ind´ependantes.
Proposition 11.4.2 Soit (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
) un vecteur gaussien centr´e. Alors les
vecteurs (X
1
, . . . , X
m
) et (Y
1
, . . . , Y
n
) sont ind´ependants si et seulement si
cov(X
i
, Y
j
) = 0 , ∀i ∈ ¦1, . . . , m¦, j ∈ ¦1, . . . , n¦. (11.4)
Preuve. Il suffit de montrer que, sous la condition (11.4), (X
1
, . . . , X
m
) est ind´ependant de
(Y
1
, . . . , Y
n
) (l’inverse est toujours vrai). Or, pour ξ = (η
1
, . . . , η
m
, ζ
1
, . . . , ζ
n
) ∈ R
n+m
,
E[exp(iξ (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = exp(−
1
2
t
ξK
(X
1
,...,Xm,Y
1
,...,Yn)
ξ)
et, sous la condition (11.4),
t
ξK
(X
1
,...,Xm,Y
1
,...,Yn)
ξ =
m
¸
j,k=1
η
j
η
k
cov(X
j
, X
k
) +
n
¸
j,k=1
ζ
j
ζ
k
cov(Y
j
, Y
k
).
Cela entraˆıne
E[exp(iξ (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = E[exp(i
m
¸
j=1
η
j
X
j
)] E[exp(i
n
¸
j=1
ζ
j
Y
j
)],
soit encore
´
P
(X
1
,...,Xm,Y
1
,...,Yn)

1
, . . . , η
m
, ζ
1
, . . . , ζ
n
) =
´
P
(X
1
,...,Xm)

1
, . . . , η
m
)
´
P
(Y
1
,...,Yn)

1
, . . . , ζ
n
).
En utilisant l’injectivit´e de la transform´ee de Fourier, on a donc
P
(X
1
,...,Xm,Y
1
,...,Yn)
= P
(X
1
,...,Xm)
⊗P
(Y
1
,...,Yn)
ce qui est l’ind´ependance recherch´ee.
Cons´equence. Soit (X
1
, . . . , X
n
) un vecteur gaussien centr´e tel que cov(X
j
, X
k
) = 0 si
j = k. Alors, les v.a. X
1
, . . . , X
n
sont ind´ependantes. En effet, la proposition pr´ec´edente
155
entraˆıne d’abord que X
n
est ind´ependant de (X
1
, . . . , X
n−1
), puis que X
n−1
est ind´ependant
de (X
1
, . . . , X
n−2
), etc., ce qui permet de conclure.
Plus g´en´eralement, si la matrice de covariance de (X
1
, . . . , X
n
) est diagonale par blocs
de tailles respectives i
1
, . . . , i

(avec i
1
+ + i

= n) les sous-vecteurs (X
1
, . . . , X
i
1
),
(X
i
1
+1
, . . . , X
i
1
+i
2
), . . . , (X
i
1
+···+i
ℓ−1
+1
, . . . , X
n
) sont ind´ependants.
Th´eor`eme 11.4.3 Soit (Y
1
, . . . , Y
n
, X) un vecteur gaussien centr´e. Alors, E[X[ Y
1
, . . . , Y
n
]
co¨ıncide avec la projection orthogonale de X sur l’espace vectoriel engendr´e par Y
1
, . . . , Y
n
.
Il existe donc des r´eels λ
1
, . . . , λ
n
tels que
E[X[ Y
1
, . . . , Y
n
] =
n
¸
j=1
λ
j
Y
j
.
De plus, pour toute fonction bor´elienne h : R −→R
+
,
E[h(X)[ Y
1
, . . . , Y
n
] =

R
h(x) q
P
n
j=1
λ
j
Y
j

2 (x) dx,
o` u
σ
2
= E[(X −
n
¸
j=1
λ
j
Y
j
)
2
]
et pour tout m ∈ R,
q
m,σ
2 (x) =
1
σ


exp(−
(x −m)
2

2
)
est la densit´e de la loi ^(m, σ
2
).
Remarque. Le cas σ = 0 se produit si et seulement si X =
¸
n
j=1
λ
j
Y
j
, et alors X est
mesurable par rapport `a σ(Y
1
, . . . , Y
n
), de sorte que la deuxi`eme formule du th´eor`eme doit
s’interpr´eter comme E[h(X)[ Y
1
, . . . , Y
n
] = h(X). Nous ´ecartons ce cas trivial dans la preuve
qui suit.
Preuve. Soit
´
X =
¸
n
j=1
λ
j
Y
j
la projection orthogonale de X sur l’espace vectoriel engendr´e
par Y
1
, . . . , Y
n
. Alors, pour tout j ∈ ¦1, . . . , n¦,
cov(X −
´
X, Y
j
) = E[(X −
´
X)Y
j
] = 0
par d´efinition de la projection orthogonale. Puisque le vecteur (Y
1
, . . . , Y
n
, X −
´
X) est
gaussien centr´e (toute combinaison lin´eaire de ses composantes est une combinaison lin´eaire
de Y
1
, . . . , Y
n
, X), la proposition pr´ec´edente montre que X−
´
X est ind´ependant de Y
1
, . . . , Y
n
.
Donc,
E[X[ Y
1
, . . . , Y
n
] = E[X −
´
X[ Y
1
, . . . , Y
n
] +
´
X = E[X −
´
X] +
´
X =
´
X.
On a utilis´e le fait que
´
X est mesurable par rapport `a σ(Y
1
, . . . , Y
n
), puis l’ind´ependance de
de X −
´
X et de (Y
1
, . . . , Y
n
) qui entraˆıne E[X −
´
X[ Y
1
, . . . , Y
n
] = E[X −
´
X] = 0.
156
Pour la derni`ere assertion, notons Z = X −
´
X, de sorte que Z est ind´ependante de
(Y
1
, . . . , Y
n
) et suit la loi ^(0, σ
2
) (Z est gaussienne centr´ee et par d´efinition σ
2
= E[Z
2
]).
On utilise alors le th´eor`eme 11.3.4 qui montre que
E[h(X)[ Y
1
, . . . , Y
n
] = E[h(
n
¸
j=1
λ
j
Y
j
+ Z)[ Y
1
, . . . , Y
n
] =

h(
n
¸
j=1
λ
j
Y
j
+ z) P
Z
(dz).
En ´ecrivant P
Z
(dz) = q
0,σ
2 (z)dz et en faisant un changement de variables ´evident, on aboutit
`a la formule de l’´enonc´e.
11.5 Probabilit´es de transition et lois conditionnelles
Les calculs pr´ec´edents d’esp´erance conditionnelle peuvent ˆetre r´e´enonc´es de mani`ere plus
agr´eable `a l’aide de la notion de probabilit´e de transition.
D´efinition 11.5.1 Soient (E, c) et (F, T) deux espaces mesurables. On appelle probabilit´e
de transition (ou parfois noyau de transition) de E dans F une application
ν : E T −→ [0, 1]
qui v´erifie les deux propri´et´es suivantes :
(i) pour tout x ∈ E, ν(x, ) est une mesure de probabilit´e sur (F, T);
(ii) pour tout A ∈ T, l’application x −→ ν(x, A) est c-mesurable.
De mani`ere intuitive, `a chaque fois que l’on fixe un point x du premier espace E, la
mesure de probabilit´e ν(x, ) donne le moyen de choisir de mani`ere al´eatoire un point y du
deuxi`eme espace F. Dans la th´eorie des chaˆınes de Markov, sur laquelle nous reviendrons,
on ´etudie l’´evolution au cours du temps d’un ph´enom`ene al´eatoire dans lequel l’´etat y `a
l’instant n+1 d´epend de l’´etat x `a l’instant n, et d’autres param`etres al´eatoires non connus
`a l’instant n : la loi de l’´etat `a l’instant n+1 connaissant l’´etat `a l’instant n est alors fournie
par une probabilit´e de transition ν(x, dy).
Exemple. Soit λ une mesure positive σ-finie sur (F, T), et soit f : E F −→ R
+
une
application mesurable telle que

F
f(x, y) λ(dy) = 1 , ∀x ∈ E.
Alors
ν(x, A) =

A
f(x, y) λ(dy)
d´efinit une probabilit´e de transition de E dans F. La propri´et´e (ii) de la d´efinition d´ecoule
en particulier du th´eor`eme de Fubini.
157
Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou born´ee) sur (F, T),
alors
ϕ(x) :=

ν(x, dy) h(y) , x ∈ E
est une fonction mesurable positive (ou born´ee) sur E.
(ii) Si λ est une mesure de probabilit´e sur (E, c), alors
µ(A) :=

λ(dx) ν(x, A) , A ∈ T
est une mesure de probabilit´e sur (F, T).
La v´erification de ces propri´et´es est facile. Dans (i), on suppose d’abord h ´etag´ee, puis
on utilise un passage `a la limite croissant.
Nous en venons maintenant au lien entre la notion de probabilit´e de transition et l’esp´erance
conditionnelle.
D´efinition 11.5.2 Soient X et Y deux variables al´eatoires `a valeurs respectivement dans
(E, c) et dans (F, T). On appelle loi conditionnelle de Y sachant X toute probabilit´e de
transition ν de E dans F telle que, pour toute fonction h mesurable positive sur (F, T), on
ait
E[h(Y )[ X] =

ν(X, dy) h(y).
Remarque. La v.a.

ν(X, dy) h(y) est obtenue en composant X et l’application x −→

ν(x, dy) h(y), qui est mesurable d’apr`es la proposition pr´ec´edente. C’est donc bien une
fonction de X, comme doit l’ˆetre l’esp´erance conditionnelle E[h(Y )[ X].
Par d´efinition, si ν est une loi conditionnelle de Y sachant X, on a pour tout A ∈ T,
P(Y ∈ A[ X) = ν(X, A) , p.s.
Il est tentant de remplacer cette ´egalit´e de variables al´eatoires par l’´egalit´e de nombres r´eels
P(Y ∈ A[ X = x) = ν(x, A),
pour tout x ∈ E. Bien qu’expliquant l’intuition de la notion de loi conditionnelle, cette
derni`ere ´egalit´e n’a en g´en´eral pas de sens (sauf si X est une v.a. discr`ete) puisque qu’on
aura souvent P(X = x) = 0 pour tout x, ce qui interdit de d´efinir P(Y ∈ A[ X = x). La
seule formulation correcte est donc la premi`ere ´egalit´e P(Y ∈ A[ X) = ν(X, A).
Discutons maintenant l’unicit´e de la loi conditionnelle de Y sachant X. Si ν et ν

sont
deux lois conditionnelles, on aura, pour tout A ∈ T,
ν(X, A) = P(Y ∈ A[ X) = ν

(X, A) , p.s.
ce qui ´equivaut encore `a dire que, pour tout A ∈ T,
ν(x, A) = ν

(x, A) , P
X
(dx) p.s.
158
Supposons que l’espace mesurable (F, T) soit tel qu’une mesure de probabilit´e sur (F, T)
soit caract´eris´ee par ses valeurs sur une famille d´enombrable d’ensembles mesurables (c’est le
cas pour (R
d
, B(R
d
)), en consid´erant les pav´es `a coordonn´ees rationnelles). Alors on conclut
que
ν(x, ) = ν

(x, ) , P
X
(dx) p.s.
Il y a donc unicit´e en ce sens (et clairement on ne peut pas esp´erer mieux). Par abus de
langage on parlera cependant souvent de la loi conditionnelle de Y sachant X.
Consid´erons maintenant le probl`eme de l’existence de lois conditionnelles.
Th´eor`eme 11.5.2 Supposons que (E, c) et (F, T) soient des espaces m´etriques complets
s´eparables munis de leur tribu bor´elienne. Alors il existe toujours une loi conditionnelle de
Y sachant X.
Nous ne d´emontrerons pas ce th´eor`eme qui est un r´esultat assez difficile de th´eorie de la
mesure. Dans la suite de ce cours, nous n’aurons de toute fa¸ con pas besoin du Th´eor`eme
11.5.2, car une construction directe permet d’´eviter le recours au th´eor`eme d’existence. Pour
illustrer cela reprenons les exemples trait´es dans la partie pr´ec´edente (attention les rˆoles de
X et Y sont intervertis).
(1) Si X est une v.a. discr`ete, c’est-`a-dire si E est d´enombrable, alors on peut d´efinir ν(x, A)
par
ν(x, A) = P(Y ∈ A[ X = x) si x ∈ E

:= ¦a ∈ E : P(X = a) > 0)
ν(x, A) = δ
y
0
(A) si x / ∈ E

o` u y
0
est un point fix´e de F, dont le choix est arbitraire.
(2) Supposons que X et Y sont `a valeurs respectivement dans R
m
et dans R
n
et que le couple
(X, Y ) a pour densit´e p(x, y), (x, y) ∈ R
m
R
n
. La densit´e de X est alors
q(x) =

R
n
p(x, y) dy.
La Proposition 11.4.1 montre qu’on peut d´efinir la loi conditionnelle de Y sachant X par
ν(x, A) =
1
q(x)

A
dy p(x, y) si q(x) > 0
ν(x, A) = δ
0
(A) si q(x) = 0.
(3) Supposons enfin que (X
1
, . . . , X
n
, Y ) soit un vecteur gaussien centr´e, et notons
n
¸
j=1
λ
j
X
j
la projection orthogonale de Y sur l’espace vectoriel engendr´e par X
1
, . . . , X
n
. Notons aussi
σ
2
= E[(Y −
n
¸
j=1
λ
j
X
j
)
2
].
159
Le Th´eor`eme 11.4.3 montre que la loi conditionnelle de Y sachant X = (X
1
, . . . , X
n
) est
ν(x
1
, . . . , x
n
; A) =

A
q
P
n
j=1
λ
j
x
j

2(y) dy
o` u q
m,σ
2 est la densit´e de la loi gaussienne ^(m, σ
2
). De mani`ere l´eg`erement abusive on dit
que conditionnellement `a (X
1
, . . . , X
n
), Y suit la loi ^(
¸
n
j=1
λ
j
X
j
, σ
2
).
160
Partie III
Processus al´eatoires
161
Chapitre 12
Th´eorie des martingales
`a temps discret
12.1 D´efinitions et exemples
On se place sur un espace de probabilit´e (Ω, T, P). Par d´efinition un processus al´eatoire est
une suite (X
n
)
n∈N
de variables al´eatoires d´efinies sur (Ω, T, P). Dans ce chapitre, tous les
processus al´eatoires seront `a valeurs r´eelles.
D´efinition 12.1.1 Une filtration de (Ω, T, P) est une suite croissante (T
n
)
n∈N
de sous-
tribus de T. On a donc
T
0
⊂ T
1
⊂ T
2
⊂ ⊂ T
On dit aussi que (Ω, T, (T
n
)
n∈N
, P) est un espace de probabilit´e filtr´e.
On interpr`ete souvent le param`etre n comme un temps. La tribu T
n
correspond alors `a
l’information acquise au temps n.
Exemples. (a) Si (X
n
)
n∈N
est une suite quelconque de v.a. d´efinies sur (Ω, T, P), on d´efinit
T
X
n
comme ´etant la plus petite tribu rendant mesurables les v.a. X
1
, X
2
, . . . , X
n
:
T
X
n
= σ(X
0
, X
1
, . . . , X
n
).
Alors (T
X
n
)
n∈N
est une filtration appel´ee filtration canonique du processus al´eatoire (X
n
)
n∈N
.
(b) Supposons que Ω = [0, 1[, T est la tribu bor´elienne sur [0, 1[, et P est la mesure de
Lebesgue. Posons
T
n
= σ([
i −1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Alors (T
n
)
n∈N
est une filtration appel´ee filtration dyadique de [0, 1[.
D´efinition 12.1.2 Un processus (X
n
)
n∈N
est dit adapt´e `a la filtration (T
n
)
n∈N
si pour tout
n ∈ N, X
n
est mesurable par rapport `a la tribu T
n
.
163
La filtration canonique est par construction la plus petite filtration qui rende le processus
adapt´e.
Dans toute la suite du chapitre (`a l’exception de la partie 6), on fixe un espace de
probabilit´e filtr´e (Ω, T, (T
n
)
n∈N
, P), dont le choix sera parfois pr´ecis´e dans les exemples. Les
notions qui suivent sont bien entendu relatives `a cet espace.
D´efinition 12.1.3 Soit (X
n
)
n∈N
un processus adapt´e, tel que E[[X
n
[] < ∞ pour tout n ∈ N.
On dit que le processus (X
n
)
n∈N
est:
• une martingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] = X
n
;
• une surmartingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] ≤ X
n
;
• une sous-martingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] ≥ X
n
.
Une cons´equence imm´ediate de la d´efinition d’une martingale est la propri´et´e apparem-
ment plus forte : pour tous 0 ≤ n ≤ m,
E[X
m
[ T
n
] = X
n
(12.1)
Cela est facile `a v´erifier par r´ecurrence sur la valeur de m− n : si m = n, la propri´et´e est
triviale, si m = n + 1, c’est la d´efinition, et si m − n ≥ 2, une propri´et´e bien connue des
esp´erance conditionnelles donne
E[X
m
[ T
n
] = E[E[X
m
[ T
m−1
] [ T
n
] = E[X
m−1
[ T
n
].
Remarquons que (12.1) entraˆıne E[X
m
] = E[X
n
] = E[X
0
].
De mˆeme, si (X
n
)
n∈N
) est une surmartingale (resp. une sous-martingale), on a pour tous
0 ≤ n ≤ m,
E[X
m
[ T
n
] ≤ X
n
(resp. E[X
m
[ T
n
] ≥ X
n
),
et donc E[X
m
] ≤ E[X
n
] (resp. E[X
m
] ≥ E[X
n
]).
Il est souvent utile d’interpr´eter une martingale comme un jeu ´equitable : la variable X
n
correspond `a l’avoir du joueur `a l’instant n, et T
n
est l’information dont dispose le joueur
`a cet instant (en particulier les r´esultats des jeux pr´ec´edents). La propri´et´e de martingale
E[X
n+1
[ T
n
] = X
n
traduit donc le fait que la valeur moyenne de l’avoir `a l’instant n + 1,
lorsqu’on connait le pass´e jusqu’`a l’instant n, est l’avoir `a l’instant n (en moyenne le joueur
ne perd ni ne gagne). De la mˆeme fa¸ con, une surmartingale correspond `a un jeu d´efavorable.
Il est ´evident que si (X
n
)
n∈N
est une surmartingale, (−X
n
)
n∈N
est une sous-martingale.
Pour cette raison, la plupart des r´esultats qui suivent et sont ´enonc´es seulement pour des
surmartingales ont un analogue imm´ediat pour des sous-martingales (ou bien inversement).
164
Exemples. (i) Si X ∈ L
1
(Ω, T, P) on pose
X
n
= E[X [ T
n
].
Alors (X
n
)
n∈N
est une martingale :
E[X
n+1
[ T
n
] = E[E[X [ T
n+1
] [ T
n
] = E[X [ T
n
] = X
n
.
Une martingale de ce type est dite ferm´ee.
(ii) Si (X
n
)
n∈N
est une suite d´ecroissante et adapt´ee de v.a. int´egrables, alors (X
n
)
n∈N
est
une surmartingale :
E[X
n+1
[ T
n
] ≤ E[X
n
[ T
n
] = X
n
.
(iii) Marche al´eatoire sur R. Soit x ∈ R et soit (Y
n
)
n≥1
une suite de v.a. r´eelles ind´ependantes
et de mˆeme loi µ, telle que E[[Y
1
[] < ∞. On pose
X
0
= x et X
n
= x + Y
1
+ Y
2
+ . . . + Y
n
si n ≥ 1.
On d´efinit aussi la filtration (T
n
)
n∈N
par
T
0
= ¦∅, Ω¦ et T
n
= σ(Y
1
, . . . , Y
n
) si n ≥ 1
(c’est en fait la filtration canonique de (X
n
)
n∈N
). Alors (X
n
)
n∈N
est
• une martingale si E[Y
1
] = 0;
• une surmartingale si E[Y
1
] ≤ 0;
• une sous-martingale si E[Y
1
] ≥ 0.
En effet, par exemple dans le cas E[Y
1
] = 0, on a
E[X
n+1
[ T
n
] = E[X
n
+ Y
n+1
[ T
n
] = X
n
+ E[Y
n+1
] = X
n
,
puisque par construction Y
n+1
est ind´ependant de T
n
.
Le processus (X
n
)
n∈N
est appel´e marche al´eatoire sur R de loi de saut µ, issue de x.
(iv) Reprenons l’exemple (b) d’espace de probabilit´e filtr´e donn´e ci-dessus. Soit µ une mesure
finie sur [0, 1[, et rappelons que P = λ est la mesure de Lebesgue sur [0, 1[. Pour tout entier
n ∈ N, posons
f
n
=

dλ|Fn
qui d´esigne la d´eriv´ee de Radon-Nikodym de µ par rapport `a λ, lorsque µ et λ sont vues
comme des mesures sur la tribu T
n
(sur la tribu T
n
, toutes les mesures sont absolument
continues par rapport `a λ). Il est facile de v´erifier que
f
n
(ω) =
2
n
¸
i=1
µ([(i −1)2
−n
, i2
−n
[)
2
−n
1
[(i−1)2
−n
,i2
−n
[
(ω).
165
Alors (f
n
)
n∈N
est une martingale : si A ∈ T
n
,
E[1
A
f
n+1
] =

1
A
(ω) f
n+1
(ω) dω = µ(A) =

1
A
(ω) f
n
(ω) dω = E[1
A
f
n
],
ce qui suffit pour obtenir f
n
= E[f
n+1
[ T
n
].
Dans le cas particulier o` u µ est absolument continue par rapport `a λ (sur T), la martingale
(f
n
)
n∈N
est du type consid´er´e en (i) ci-dessus : on v´erifie ais´ement que
f
n
= E[f [ T
n
],
o` u f est la d´eriv´ee de Radon-Nikodym de µ par rapport `a λ.
Deux transformations de martingales.
Proposition 12.1.1 Soit ϕ : R −→R
+
une fonction convexe, et soit (X
n
)
n∈N
un processus
adapt´e, tel que E[ϕ(X
n
)] < ∞ pour tout n ∈ N.
(i) Si (X
n
) est une martingale, (ϕ(X
n
)) est une sous-martingale.
(ii) Si (X
n
) est une sous-martingale et si ϕ est croissante, (ϕ(X
n
)) est une sous-martingale.
En particulier, si X
n
est une martingale, [X
n
[ est une sous-martingale (ainsi que X
2
n
si
E[X
2
n
] < ∞pour tout n) et si X
n
est une sous-martingale, X
+
n
est encore une sous-martingale.
Preuve. (i) D’apr`es l’in´egalit´e de Jensen pour les esp´erances conditionnelles,
E[ϕ(X
n+1
) [ T
n
] ≥ ϕ(E[X
n+1
[ T
n
]) = ϕ(X
n
).
(ii) De mˆeme, puisque X
n
≤ E[X
n+1
[ T
n
] et ϕ est croissante,
E[ϕ(X
n+1
) [ T
n
] ≥ ϕ(E[X
n+1
[ T
n
]) ≥ ϕ(X
n
).
D´efinition 12.1.4 Une famille (H
n
)
n≥1
de v.a. r´eelles est dite pr´evisible si, pour tout n ≥ 1,
H
n
est born´ee et T
n−1
-mesurable.
Proposition 12.1.2 Soit (X
n
)
n∈N
un processus adapt´e, et (H
n
)
n≥1
une famille pr´evisible.
On pose (H X)
0
= 0 et pour tout entier n ≥ 1,
(H X)
n
= H
1
(X
1
−X
0
) + H
2
(X
2
−X
1
) + + H
n
(X
n
−X
n−1
).
Alors,
(i) Si (X
n
) est une martingale, ((H X)
n
) est aussi une martingale.
(ii) Si (X
n
) est une surmartingale (resp. une sous-martingale), et si H
n
≥ 0 pour tout
n ≥ 1, ((H X)
n
) est une surmartingale (resp. une sous-martingale).
166
Preuve. (i) Puisque les v.a. H
n
sont born´ees, il est facile de v´erifier que les v.a. (H X)
n
sont int´egrables. De plus le processus ((H X)
n
) est adapt´e par construction. Il suffit ensuite
de v´erifier que, pour tout n ∈ N,
E[(H X)
n+1
−(H X)
n
[ T
n
] = 0.
Or (H X)
n+1
−(H X)
n
= H
n+1
(X
n+1
−X
n
) et puisque H
n+1
est T
n
-mesurable, on a
E[H
n+1
(X
n+1
−X
n
) [ T
n
] = H
n+1
E[X
n+1
−X
n
[ T
n
] = 0.
La preuve de (ii) est analogue.
Si on interpr`ete (dans le cas d’une martingale) X
n
comme l’avoir du joueur `a l’instant n,
la diff´erence X
n+1
−X
n
s’interpr`ete comme le gain r´ealis´e entre les instants n et n + 1. On
peut imaginer que le joueur `a l’instant n modifie sa mise en la multipliant par H
n+1
(qui doit
ˆetre T
n
-mesurable). Le jeu reste ´equitable, mais le nouveau gain r´ealis´e entre les instants
n et n + 1 est H
n+1
(X
n+1
− X
n
). Ceci fournit une explication intuitive de la d´efinition de
(H X)
n
.
12.2 Temps d’arrˆet
D´efinition 12.2.1 Une v.a. T : Ω −→ N = N ∪ ¦+∞¦ est appel´ee temps d’arrˆet (de la
filtration (T
n
)) si pour tout entier n ∈ N, on a
¦T = n¦ ∈ T
n
.
Il est tr`es facile de voir que cela est ´equivalent `a imposer que pour tout n ∈ N on a
¦T ≤ n¦ ∈ T
n
. Dans la suite nous utiliserons indiff´eremment l’une ou l’autre d´efinition.
Il est important de noter que la valeur +∞ est autoris´ee. En ´ecrivant
¦T = +∞¦ = Ω`
¸
n∈N
¦T = n¦
on voit que ¦T = +∞¦ ∈ T

, o` u
T

=
¸
n∈N
T
n
= σ

¸
n∈N
T
n

.
En revenant `a l’interpr´etation en termes de jeu, les temps d’arrˆet sont les instants
al´eatoires auxquels on peut d´ecider de s’arrˆeter : le point-cl´e est que pour d´ecider de s’arrˆeter
`a l’instant n, on n’a `a sa disposition que l’information acquise `a cet instant, c’est-`a-dire les
´ev´enements de T
n
. Pour prendre une image tir´ee de la Bourse, il est impossible de d´ecider
de vendre ses actions au moment o` u elles vont ˆetre `a leur cours maximum de l’ann´ee (cela
demanderait de connaˆıtre le futur `a cet instant !).
Exemples. (i) Si k ∈ N, le temps constant T = k est ´evidemment un temps d’arrˆet.
(ii) Si (Y
n
)
n∈N
est un processus adapt´e, et si A est un bor´elien de R,
T
A
:= inf¦n ∈ N : Y
n
∈ A¦
167
est un temps d’arrˆet, appel´e temps d’entr´ee dans A. En effet, pour tout entier n ≥ 0,
¦T
A
= n¦ = ¦Y
0
/ ∈ A, Y
1
/ ∈ A, . . . , Y
n−1
/ ∈ A, Y
n
∈ A¦ ∈ T
n
.
Remarquons que, dans la d´efinition de T
A
, on fait la convention inf ∅ = +∞. Cette conven-
tion sera constamment utilis´ee dans la suite.
(iii) En revanche, si on fixe N > 0 et on pose
L
A
:= sup¦n ≤ N : Y
n
∈ A¦ (sup ∅ = 0 par convention)
L
A
n’est en g´en´eral pas un temps d’arrˆet. En effet, pour n ∈ ¦1, . . . , N −1¦,
¦L
A
= n¦ = ¦Y
n
∈ A, Y
n+1
/ ∈ A, . . . , Y
N
/ ∈ A¦
n’est a priori pas dans T
n
.
Proposition 12.2.1 (i) Si S et T sont deux temps d’arrˆet, S ∨ T et S ∧ T sont aussi des
temps d’arrˆet.
(ii) Si (T
k
)
k∈N
est une suite de temps d’arrˆet, alors inf(T
k
), sup(T
k
), limsup(T
k
) et liminf(T
k
)
sont aussi des temps d’arrˆet.
Preuve. (i) On ´ecrit ¦S∧T ≤ n¦ = ¦S ≤ n¦∪¦T ≤ n¦ et ¦S∨T ≤ n¦ = ¦S ≤ n¦∩¦T ≤ n¦.
(ii) De mˆeme, ¦inf(T
k
) ≤ n¦ = ∪¦T
k
≤ n¦ et, par exemple,
¦liminf(T
k
) ≤ n¦ =

¸
m=0


¸
k=m
¦T
k
≤ n¦

.
D´efinition 12.2.2 Soit T un temps d’arrˆet. La tribu du pass´e jusqu’`a l’instant T est
T
T
= ¦A ∈ T : ∀n ∈ N, A∩ ¦T = n¦ ∈ T
n
¦.
On v´erifie ais´ement que T
T
est une tribu et que T
T
= T
n
si T = n.
Proposition 12.2.2 Soient S et T deux temps d’arrˆet avec S ≤ T. Alors, T
S
⊂ T
T
.
Preuve. Soit A ∈ T
S
. Alors, pour tout n ∈ N,
A ∩ ¦T = n¦ =
n
¸
k=0
(A∩ ¦S = k¦) ∩ ¦T = n¦ ∈ T
n
.
Proposition 12.2.3 Soit (Y
n
)
n∈N
un processus adapt´e, et soit T un temps d’arrˆet. Alors la
v.a. 1
{T<∞}
Y
T
d´efinie par
1
{T<∞}
Y
T
(ω) =

Y
n
(ω) si T(ω) = n ∈ N
0 si T(ω) = +∞
est T
T
-mesurable.
168
Preuve. Soit B un bor´elien de R. Alors, pour tout n ∈ N,
¦1
{T<∞}
Y
T
∈ B¦ ∩ ¦T = n¦ = ¦Y
n
∈ B¦ ∩ ¦T = n¦ ∈ T
n
,
ce qui montre que ¦1
{T<∞}
Y
T
∈ B¦ ∈ T
T
. Si 0 ∈ B, il suffit d’´ecrire ¦1
{T<∞}
Y
T
∈ B¦ =
¦1
{T<∞}
Y
T
∈ B
c
¦
c
.
Lorsque le temps d’arrˆet T est fini p.s. on ´ecrira bien sˆ ur simplement Y
T
au lieu de
1
{T<∞}
Y
T
. En particulier, si T est un temps d’arrˆet quelconque, n ∧ T est aussi un temps
d’arrˆet (lemme 12.2.1) et on d´eduit de la proposition que Y
n∧T
est T
n∧T
-mesurable donc
aussi T
n
-mesurable d’apr`es la proposition 12.2.2.
Th´eor`eme 12.2.4 (Th´eor`eme d’arrˆet) Soit (X
n
)
n∈N
une martingale (resp. une surmartin-
gale) et soit T un temps d’arrˆet. Alors (X
n∧T
)
n∈N
est aussi une martingale (resp. une
surmartingale). En particulier, si le temps d’arrˆet T est born´e, on a X
T
∈ L
1
, et
E[X
T
] = E[X
0
] (resp. E[X
T
] ≤ E[X
0
]).
Preuve. Pour tout n ≥ 1, posons
H
n
= 1
{T≥n}
= 1 −1
{T≤n−1}
.
Alors la famille (H
n
)
n≥1
est pr´evisible. Puisque
X
n∧T
= X
0
+ (H X)
n
la premi`ere partie du th´eor`eme d´ecoule de la proposition 12.1.2. Ensuite, si le temps d’arrˆet
est born´e par N, on a E[X
T
] = E[X
N∧T
] = E[X
0
] (resp. ≤ E[X
0
] dans le cas d’une
surmartingale).
L’hypoth`ese que T est born´e est n´ecessaire comme le montre l’exemple simple suivant.
Consid´erons la marche al´eatoire X
n
= Y
1
+ +Y
n
issue de 0 et de loi de saut P(Y
1
= 1) =
P(Y
1
= −1) = 1/2 (c’est ce qu’on appelle la marche al´eatoire simple sur Z, ou encore pile ou
face). Alors il d´ecoule d’un exemple pr´ec´edent que (X
n
)
n∈N
est une martingale. Cependant,
si on pose
T = inf¦n ≥ 0 : X
n
= 1¦
on a T < ∞ p.s. (cf Proposition 10.2.2 – une autre d´emonstration sera donn´ee dans la partie
suivante) mais
1 = E[X
T
] = E[X
0
] = 0.
Bien sˆ ur le temps d’arrˆet T n’est pas born´e, et il n’y a pas de contradiction avec le th´eor`eme.
12.3 Convergence presque sˆ ure des martingales
Nous allons maintenant ´etudier la convergence presque sˆ ure d’une martingale ou d’une sous-
martingale quand n → ∞. Consid´erons d’abord une suite num´erique α = (α
n
)
n∈N
. Pour
169
tous les r´eels a < b on introduit deux suites de temps S
k
(α) et T
k
(α) appartenant `a N, qui
sont d´efinies de la mani`ere suivante : on pose
S
1
(α) = inf¦n ≥ 0 : α
n
≤ a¦
T
1
(α) = inf¦n ≥ S
1
(α) : α
n
≥ b¦
puis, par r´ecurrence,
S
k+1
(α) = inf¦n ≥ T
k
(α) : α
n
≤ a¦
T
k+1
(α) = inf¦n ≥ S
k+1
(α) : α
n
≥ b¦.
Bien entendu, on utilise toujours la convention inf ∅ = +∞ dans ces d´efinitions. On pose
ensuite pour tout entier n,
N
n
([a, b], α) =

¸
k=1
1
{T
k
(α)≤n}
,
N

([a, b], α) =

¸
k=1
1
{T
k
(α)<∞}
.
La quantit´e N

([a, b], α) est le nombre de mont´ees effectu´ees le long de l’intervalle [a, b] par
la suite (α
n
)
n∈N
. Nous utiliserons le lemme simple d’analyse suivant.
Lemme 12.3.1 La suite (α
n
)
n∈N
converge dans R ssi pour tout choix des rationnels a et b
tels que a < b, on a N

([a, b], α) < ∞.
Consid´erons maintenant un processus adapt´e (X
n
)
n∈N
. Alors les quantit´es S
k
(X), T
k
(X)
deviennent des v.a. `a valeurs dans N, et plus pr´ecis´ement il est facile de v´erifier que ce sont
des temps d’arrˆet. En effet, on a par exemple
¦T
k
(X) ≤ n¦ =
¸
0≤m
1
<n
1
<···<m
k
<n
k
≤n
¦X
m
1
≤ a, X
n
1
≥ b, . . . , X
m
k
≤ a, X
n
k
≥ b¦,
ce qui montre que ¦T
k
(X) ≤ n¦ ∈ T
n
.
Il en d´ecoule en particulier que N
n
([a, b], X) est T
n
-mesurable.
Lemme 12.3.2 (In´egalit´e des nombres de mont´ees de Doob) Supposons que (X
n
)
n∈N
est une sous-martingale. Alors, pour tous les r´eels a < b et pour tout n ∈ N,
(b −a) E[N
n
([a, b], X)] ≤ E[(X
n
−a)
+
−(X
0
−a)
+
].
Preuve. On pose Y
n
= (X
n
− a)
+
. D’apr`es la proposition 12.1.1, (Y
n
)
n∈N
est encore une
sous-martingale.
Pour all´eger les notations posons N
n
= N
n
([a, b], X), et ´ecrivons S
k
, T
k
au lieu de
S
k
(X), T
k
(X). D´efinissons alors une famille pr´evisible (H
n
)
n≥1
en posant
H
n
=

¸
k=1
1
{S
k
<n≤T
k
}
≤ 1
170
(observer que l’´ev´enement ¦S
k
< n ≤ T
k
¦ = ¦S
k
≤ n − 1¦`¦T
k
≤ n − 1¦ est dans T
n−1
,
parce que S
k
et T
k
sont des temps d’arrˆet). Alors, on v´erifie facilement que
(H Y )
n
=
Nn
¸
k=1
(Y
T
k
−Y
S
k
) +1
{S
Nn+1
<n}
(Y
n
−Y
S
Nn+1
) ≥
Nn
¸
k=1
(Y
T
k
−Y
S
k
) ≥ N
n
(b −a).
La premi`ere in´egalit´e est vraie parce que Y
S
Nn+1
= 0 sur l’ensemble ¦S
Nn+1
< ∞¦, et Y
n
≥ 0.
On a donc en particulier
E[(H Y )
n
] ≥ (b −a) E[N
n
].
Par ailleurs, si K
n
= 1−H
n
, (K
n
)
n∈N
est une famille pr´evisible positive, et la proposition
12.1.2 montre que (K Y ) est une sous-martingale, d’o` u E[(K Y )
n
] ≥ E[(K.Y )
0
] = 0.
On observe ensuite que
(K Y )
n
+ (H Y )
n
= ((K + H) Y )
n
= Y
n
−Y
0
,
et donc
(b −a) E[N
n
] ≤ E[(H Y )
n
] ≤ E[(K Y )
n
+ (H Y )
n
] = E[Y
n
−Y
0
]
ce qui est l’in´egalit´e du lemme.
Th´eor`eme 12.3.3 Soit (X
n
)
n∈N
une sous-martingale telle que
sup
n∈N
E[(X
n
)
+
] < ∞. (12.2)
Alors la suite X
n
converge p.s. quand n → ∞. De plus sa limite X

v´erifie E[[X

[] < ∞.
Remarque. En ´ecrivant E[X
n
] = E[(X
n
)
+
] − E[(X
n
)

], et en rappelant qu’une sous-
martingale v´erifie E[X
n
] ≥ E[X
0
], on voit que, pour tout k ≥ 0,
E[(X
k
)

] ≤

sup
n∈N
E[(X
n
)
+
]

−E[X
0
].
L’hypoth`ese (12.2) est donc ´equivalente `a imposer que
sup
n∈N
E[[X
n
[] < ∞
c’est-`a-dire que la suite (X
n
) est born´ee dans L
1
.
Preuve. Soient a, b ∈ Q tels que a < b. D’apr`es le lemme 12.3.2, on a pour tout n ≥ 1,
(b −a) E[N
n
([a, b], X)] ≤ E[(X
n
−a)
+
] ≤ [a[ + E[(X
n
)
+
] ≤ [a[ + sup
k∈N
E[(X
k
)
+
].
En faisant tendre vers +∞, et en utilisant (12.2), on trouve
(b −a) E[N

([a, b], X)] < ∞
171
et donc N

([a, b], X) < ∞ p.s. Quitte `a ´ecarter une r´eunion d´enombrable d’ensembles de
probabilit´e nulle, on obtient ainsi que p.s., pour tous les rationnels a < b, N

([a, b], X) < ∞.
D’apr`es le lemme 12.3.1, cela suffit pour affirmer que p.s. la suite X
n
converge dans R.
Ensuite, `a l’aide du lemme de Fatou, et de la remarque suivant l’´enonc´e, on a
E[[X

[] ≤ liminf
n→∞
E[[X
n
[] ≤ sup
n∈N
E[[X
n
[] < ∞
et en particulier [X

[ < ∞ p.s.
Corollaire 12.3.4 Soit (X
n
)
n∈N
une surmartingale positive. Alors X
n
converge p.s. Sa
limite X

est dans L
1
et v´erifie X
n
≥ E[X

[ T
n
] pour tout n ∈ N.
Preuve. On applique le th´eor`eme 12.3.3 `a X

n
= −X
n
, en remarquant que l’hypoth`ese
(12.2) est alors trivialement v´erifi´ee. La derni`ere assertion d´ecoule du lemme de Fatou pour
les esp´erances conditionnelles :
X
n
≥ liminf
m→∞
E[X
m
[ T
n
] ≥ E[liminf
m→∞
X
m
[ T
n
] = E[X

[ T
n
].
Exemples. (1) Soit Y
n
= 1 +Z
1
+ +Z
n
une marche al´eatoire simple (pile ou face) issue
de 1. On a vu que (Y
n
)
n∈N
est une martingale par rapport `a sa filtration canonique. Posons
ensuite
T = inf¦n ≥ 0 : Y
n
= 0¦.
Alors T est un temps d’arrˆet. Du th´eor`eme 12.2.4 on d´eduit que X
n
= Y
n∧T
est une
martingale positive, `a laquelle on peut appliquer le corollaire. Donc X
n
converge p.s. vers
X

tel que X

< ∞. Puisque sur l’ensemble ¦T = ∞¦ on a [X
n+1
−X
n
[ = [Y
n+1
−Y
n
[ = 1
pour tout n, cela n’est possible que si T < ∞ p.s. Modulo un argument de sym´etrie
´evident, cela d´emontre la propri´et´e qui avait ´et´e utilis´ee dans le dernier exemple de la partie
pr´ec´edente.
Dans ce cas on a X

= 0 p.s. et donc l’in´egalit´e X
n
≥ E[X

[ T
n
] = 0 n’est pas une
´egalit´e, bien que la suite (X
n
) soit une martingale.
Cet exemple montre aussi que la convergence du corollaire (ou du th´eor`eme pr´ec´edent)
n’a pas forc´ement lieu dans L
1
: ici E[X
n
] = 1 pour tout n alors que E[X

] = 0.
(2) Processus de branchement. Soit µ une mesure de probabilit´e sur N, telle que
m =

¸
k=1
k µ(k) < ∞.
On exclut les cas particuliers o` u µ est la mesure de Dirac en 1 ou la mesure de Dirac en 0.
Soit ensuite (ξ
n,j
)
n,j∈N
une famille de v.a. ind´ependantes de loi µ. On fixe aussi un entier
ℓ ≥ 1 et on d´efinit par r´ecurrence une suite (X
n
) de v.a. `a valeurs dans N en posant
X
0
= ℓ
X
n+1
=
Xn
¸
j=1
ξ
n,j
, ∀n ∈ N.
172
La quantit´e X
n
s’interpr`ete comme le nombre d’individus dans une population `a la g´en´eration
n, sachant que le nombre d’enfants de chaque individu suit la loi µ (et les nombres d’enfants
des diff´erents individus sont des v.a. ind´ependantes).
Alors la suite m
−n
X
n
est une martingale relativement `a la filtration
T
0
= ¦∅, Ω¦
T
n
= σ(ξ
k,j
: k < n, j ∈ N) , si n ≥ 1.
En effet, il est facile de voir que le processus (X
n
) est adapt´e (la d´efinition de X
n
ne fait
intervenir que les ξ
k,j
pour k < n). Ensuite, pour tout n ≥ 0,
E[X
n+1
[ T
n
] = E[

¸
j=1
1
{j≤Xn}
ξ
n,j
[ T
n
] =

¸
j=1
1
{j≤Xn}
E[ξ
n,j
[ T
n
] = mX
n
puisque ξ
n,j
est ind´ependante de T
n
, et donc E[ξ
n,j
[ T
n
] = E[ξ
n,j
] = m. En cons´equence,
E[m
−(n+1)
X
n+1
[ T
n
] = m
−n
X
n
.
Cela montre d’abord que les v.a. X
n
sont dans L
1
(une r´ecurrence imm´ediate montre que
E[X
n
] = ℓ m
n
) et ensuite que la suite m
−n
X
n
est une martingale positive.
Distinguons maintenant trois cas :
• m < 1. Puisque X
n
est `a valeurs enti`eres, la convergence de m
−n
X
n
vers une quantit´e
finie n’est possible que si X
n
= 0 pour tout n assez grand (extinction presque sˆ ure de la
population).
• m = 1. Dans ce cas X
n
est une martingale positive et on a la mˆeme conclusion
(extinction presque sˆ ure) une fois que l’on a v´erifi´e que
P(∃N ≥ 1, p ≥ 1 : ∀n ≥ N, X
n
= p) = 0.
Cette derni`ere assertion est obtenue comme une cons´equence facile du lemme de Borel-
Cantelli (on utilise le fait que µ(1) < 1).
• m > 1. On a
m
−n
X
n
−→
n→∞
Z (12.3)
et sur l’ensemble ¦Z > 0¦ on voit que X
n
est de l’ordre de m
n
quand n est grand. On voudrait
alors v´erifier que P(Z > 0) > 0 (et aussi que Z > 0 p.s. sur l’ensemble ¦liminf X
n
> 0¦ de
non-extinction). Remarquons que si la convergence (12.3) a lieu dans L
1
on a P(Z > 0) > 0,
puisque dans ce cas E[Z] = limm
−n
E[X
n
] = ℓ. On peut montrer (th´eor`eme de Kesten-
Stygum) que la convergence (12.3) a lieu dans L
1
ssi

¸
k=1
k log(k) µ(k) < ∞
et qu’alors Z > 0 p.s. sur l’ensemble de non-extinction. Nous verrons un r´esultat un peu
plus faible dans la partie 4 ci-dessous.
Si (X
n
)
n∈N
est une martingale born´ee dans L
1
, on peut lui appliquer le th´eor`eme 12.3.3
et obtenir que X
n
converge p.s. vers X

. Les exemples pr´ec´edents montrent qu’il n’y a pas
n´ecessairement convergence dans L
1
. Le th´eor`eme suivant caract´erise les martingales pour
lesquelles c’est le cas.
173
Th´eor`eme 12.3.5 Soit (X
n
)
n∈N
une martingale. Les deux conditions suivantes sont ´equiva-
lentes:
(i) X
n
converge vers X

p.s. et dans L
1
.
(ii) Il existe une v.a. Z ∈ L
1
(Ω, T, P) telle que X
n
= E[Z [ T
n
] pour tout n ∈ N.
De plus, si ces conditions sont satisfaites, on peut prendre Z = X

dans (ii). On dit alors
que la martingale (X
n
)
n∈N
est ferm´ee.
Preuve. Supposons d’abord (i). En ´ecrivant
X
n
= E[X
m
[ T
n
] , ∀m > n
et en utilisant le fait que l’application Y −→ E[Y [ T
n
] est une contraction de L
1
(i.e.
E[[E[Y [ T
n
][] ≤ E[[Y []), on trouve en faisant tendre m vers ∞ que X
n
= E[X

[ T
n
].
Inversement, supposons (ii). La suite (X
n
)
n∈N
est alors born´ee dans L
1
et donc converge
p.s. d’apr`es le th´eor`eme 12.3.3. Pour obtenir la convergence L
1
, traitons d’abord le cas o` u
la v.a. Z est born´ee par une constante K < ∞. Alors, toutes les v.a. X
n
sont aussi born´ees
par K, et le th´eor`eme de convergence domin´ee donne le r´esultat voulu. Dans le cas g´en´eral,
fixons ε > 0, et choisissons M > 0 assez grand pour que
E[[Z −Z 1
{|Z|≤M}
[] < ε.
Alors, pour tout n,
E[[X
n
−E[Z 1
{|Z|≤M}
[ T
n
][] = E[[E[Z −Z 1
{|Z|≤M}
[ T
n
][] < ε.
D’apr`es le cas born´e, la martingale E[Z 1
{|Z|≤M}
[ T
n
] converge dans L
1
. Donc on peut
choisir n
0
assez grand pour que, pour tous m, n ≥ n
0
,
E[[E[Z 1
{|Z|≤M}
[ T
m
] −E[Z 1
{|Z|≤M}
[ T
n
][] < ε.
En combinant ceci avec la majoration pr´ec´edente, on trouve que, pour tous m, n ≥ n
0
,
E[[X
m
−X
n
[] < 3ε.
Comme ε ´etait arbitraire, la suite (X
n
) est de Cauchy dans L
1
.
Corollaire 12.3.6 Soit Z ∈ L
1
(Ω, T, P). La martingale X
n
= E[Z [ T
n
] converge p.s. et
dans L
1
vers X

= E[Z [ T

], o` u T

=

¸
n=1
T
n
.
Preuve. Compte-tenu du th´eor`eme pr´ec´edent, il reste `a montrer que X

= E[Z [ T

].
Remarquons d’abord que X

est T

-mesurable puisque les v.a. X
n
le sont. Ensuite, pour
tout n ∈ N et A ∈ T
n
, on a
E[Z 1
A
] = E[X
n
1
A
] = E[X

1
A
].
174
Un argument simple de classe monotone (cf Th´eor`eme 1.4.1) montre que l’´egalit´e E[Z 1
A
] =
E[X

1
A
], vraie pour A ∈

¸
n=1
T
n
, reste vraie pour A ∈ σ


¸
n=1
T
n

= T

. Le r´esultat
recherch´e d´ecoule ensuite de la propri´et´e caract´eristique de l’esp´erance conditionnelle.
Exemple. Reprenons l’exemple (iv) de la partie 1 : Ω = [0, 1[, T est la tribu bor´elienne sur
[0, 1[, et P = λ est la mesure de Lebesgue. On consid`ere la filtration dyadique
T
n
= σ([
i −1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Soit µ une mesure finie sur [0, 1[, et pour tout entier n ∈ N,
f
n
(ω) =

dλ|Fn
(ω) =
2
n
¸
i=1
µ([(i −1)2
−n
, i2
−n
[)
2
−n
1
[(i−1)2
−n
,i2
−n
[
(ω).
On a d´ej`a remarqu´e que (f
n
)
n∈N
est une martingale (positive), et on a donc (Corollaire
12.3.4)
f
n
p.s.
−→
n→∞
f

avec

f

dλ < ∞. De plus f
n
≥ E[f

[ T
n
], ce qui montre que, pour tout A ∈ T
n
,
µ(A) =

f
n
1
A
dλ ≥

E[f

[ T
n
]1
A
dλ =

f

1
A
dλ.
En utilisant la densit´e dans L
1
des fonctions continues `a support compact (cf Th´eor`eme
4.3.1), on v´erifie ais´ement que l’espace des combinaisons lin´eaires `a coefficients positifs de
fonctions indicatrices d’intervalles dyadiques est dense dans l’espace L
1
+
([0, 1[, γ) des fonc-
tions γ-int´egrables positives, pour toute mesure finie γ sur [0, 1[. On d´eduit alors de l’in´egalit´e
pr´ec´edente que, pour toute fonction g mesurable positive born´ee sur [0, 1[, on a

g dµ ≥

gf

dλ.
Il en d´ecoule que ν = µ −f

λ est une mesure positive sur [0, 1[.
Montrons que ν est ´etrang`ere `a λ. Pour tout n ≥ 0, posons
h
n
=

dλ|Fn
= f
n
−E[f

[ T
n
].
Dans cet exemple on a T

= T et donc le corollaire 12.3.6 montre que E[f

[ T
n
] −→ f

p.s. En cons´equence h
n
−→ 0 p.s. et donc
λ

x ∈ [0, 1[: limsup
n→∞
h
n
(x) > 0
¸
= 0. (12.4)
D’autre part, pour tout ε > 0,
ν(¦x ∈ [0, 1[: h
n
(x) ≤ ε¦) =

1
{hn≤ε}
h
n
dλ ≤ ε,
175
ce qui entraˆıne
ν

x ∈ [0, 1[: limsup
n→∞
h
n
(x) < ε
¸
≤ ν


¸
N=1

¸
n=N
¦h
n
≤ ε¦

≤ ε.
On obtient ainsi
ν

x ∈ [0, 1[: limsup
n→∞
h
n
(x) = 0
¸
= 0
et en comparant avec (12.4) on voit que λ et ν sont port´ees par des bor´eliens disjoints.
Finalement l’´ecriture µ = f

λ + ν est la d´ecomposition de Lebesgue de la mesure µ
comme somme d’une mesure absolument continue et d’une mesure ´etrang`ere `a la mesure de
Lebesgue. De plus, µ est absolument continue par rapport `a λ ssi ν = 0 ce qui ´equivaut `a
dire que la martingale (f
n
) est ferm´ee.
12.4 La convergence dans L
p
pour p > 1
Notre but est maintenant d’´etudier sous quelles conditions une martingale (X
n
) converge
dans L
p
lorsque p > 1. Cela nous am`enera `a obtenir des estimations importantes pour la
probabilit´e de grandes valeurs du supremum sup
n∈N
X
n
.
Lemme 12.4.1 Soit (X
n
)
n∈N
une sous-martingale, et soient S et T deux temps d’arrˆet
born´es tels que S ≤ T. Alors
E[X
S
] ≤ E[X
T
].
Remarque. Le cas S = 0 a d´ej`a ´et´e vu dans le th´eor`eme 12.2.4.
Preuve. On sait d´ej`a que X
S
et X
T
sont dans L
1
. On d´efinit ensuite une famille pr´evisible
en posant, pour tout n ≥ 1,
H
n
= 1
{S<n≤T}
= 1
{S≤n−1}
−1
{T≤n−1}
.
Alors, si N est un entier choisi pour que S ≤ T ≤ N, on a
(H X)
N
= X
T
−X
S
et E[(H.X)
N
] ≥ 0 puisque H.X est une sous-martingale (th´eor`eme 12.1.2).
Th´eor`eme 12.4.2 (In´egalit´e maximale de Doob) Soit (X
n
)
n∈N
une sous-martingale. Alors,
pour tout a > 0 et tout n ∈ N,
a P

sup
0≤k≤n
X
k
≥ a

≤ E

X
n
1
{sup
0≤k≤n
X
k
≥a}

≤ E[X
+
n
].
Preuve. Introduisons le temps d’arrˆet
T = inf¦n ≥ 0 : X
n
≥ a¦.
176
Alors, si
A = ¦ sup
0≤k≤n
X
k
≥ a¦
on a A = ¦T ≤ n¦. Par ailleurs, en appliquant le lemme pr´ec´edent aux temps d’arrˆet T ∧ n
et n, on a
E[X
T∧n
] ≤ E[X
n
]
et d’autre part,
X
T∧n
≥ a 1
A
+ X
n
1
A
c.
En combinant ces deux in´egalit´es, on trouve
E[X
n
] ≥ aP(A) + E[X
n
1
A
c]
d’o` u la premi`ere in´egalit´e du th´eor`eme. La seconde est imm´ediate.
Proposition 12.4.3 Soit p > 1 et soit (X
n
)
n∈N
une sous-martingale positive. Posons
¯
X
n
= sup
0≤k≤n
X
k
.
Alors, pour tout n ≥ 0,
E[(
¯
X
n
)
p
] ≤ (
p
p −1
)
p
E[(X
n
)
p
].
En cons´equence, si (Y
n
)
n∈N
est une martingale et si
Y

n
= sup
0≤k≤n
[Y
k
[
on a pour tout n ≥ 0 :
E[(Y

n
)
p
] ≤ (
p
p −1
)
p
E[[Y
n
[
p
].
Preuve. La deuxi`eme partie de la proposition d´ecoule de la premi`ere appliqu´ee `a la sous-
martingale X
n
= [Y
n
[. Pour la premi`ere partie, on peut supposer E[(X
n
)
p
] < ∞, car sinon il
n’y a rien `a montrer. Alors, l’in´egalit´e de Jensen pour les esp´erances conditionelles montre
que, pour tout 0 ≤ k ≤ n, on a
E[(X
k
)
p
] ≤ E[E[X
n
[ T
k
]
p
] ≤ E[E[(X
n
)
p
[ T
n
]] = E[(X
n
)
p
]. (12.5)
On a donc aussi E[(
¯
X
n
)
p
] < ∞.
D’apr`es le th´eor`eme 12.4.2, on a pour tout a > 0
a P(
¯
X
n
≥ a) ≤ E[X
n
1
{
e
Xn≥a}
].
on multiplie chaque membre de cette in´egalit´e par a
p−2
et on int`egre par rapport `a la mesure
de Lebesgue da sur ]0, ∞[. A gauche, il vient


0
a
p−1
P(
¯
X
n
≥ a) da = E

e
Xn
0
a
p−1
da

=
1
p
E[(
¯
X
n
)
p
]
177
en utilisant le th´eor`eme de Fubini. De mˆeme, `a droite on a


0
a
p−2
E[X
n
1
{
e
Xn≥a}
]da = E

X
n

e
Xn
0
a
p−2
da

=
1
p −1
E[X
n
(
¯
X
n
)
p−1
]

1
p −1
E[(X
n
)
p
]
1
p
E[(
¯
X
n
)
p
]
p−1
p
.
d’apr`es l’in´egalit´e de H¨older. Il vient donc
1
p
E[(
¯
X
n
)
p
] ≤
1
p −1
E[(X
n
)
p
]
1
p
E[(
¯
X
n
)
p
]
p−1
p
d’o` u l’in´egalit´e de la premi`ere partie de la proposition (on utilise le fait que E[(
¯
X
n
)
p
] < ∞).

Si (X
n
)
n∈N
est un processus al´eatoire, on note
X


= sup
n∈N
[X
n
[.
Th´eor`eme 12.4.4 Soit (X
n
)
n∈N
une martingale. Supposons qu’il existe p > 1 tel que
sup
n∈N
E[[X
n
[
p
] < ∞.
Alors, X
n
converge p.s. et dans L
p
vers une v.a. X

telle que
E[[X

[
p
] = sup
n∈N
E[[X
n
[
p
]
et on a
E[(X


)
p
] ≤ (
p
p −1
)
p
E[[X

[
p
].
Preuve. La martingale (X
n
) ´etant born´ee dans L
1
, on sait d´ej`a que X
n
converge p.s. vers
X

. De plus, la proposition 12.4.3 montre que, pour tout n ∈ N,
E[(X

n
)
p
] ≤ (
p
p −1
)
p
sup
k∈N
E[[X
k
[
p
].
En passant `a la limite croissante qund n ↑ ∞, on a
E[(X


)
p
] ≤ (
p
p −1
)
p
sup
k∈N
E[[X
k
[
p
] < ∞
et donc X


∈ L
p
. Puisque toutes les v.a. [X
n
[ sont domin´ees par X


, le th´eor`eme de
convergence domin´ee montre que la suite X
n
converge dans L
p
vers X

. Enfin, puisque la
suite E[[X
n
[
p
] est croissante (cf (12.5)) on a
E[[X

[
p
] = lim
n→∞
E[[X
n
[
p
] = sup
n∈N
E[[X
n
[
p
].
178
Exemple. Revenons au processus de branchement (X
n
)
n∈N
introduit dans la partie pr´ec´e-
dente. On suppose que la loi de reproduction µ satisfait
m =

¸
k=0
k µ(k) ∈]1, ∞[
et

¸
k=0
k
2
µ(k) < ∞.
On pose aussi σ
2
= var(µ) =
¸
k
2
µ(k) − m
2
. On a vu que m
−n
X
n
est une martingale.
V´erifions que cette martingale est born´ee dans L
2
. On calcule facilement
E[X
2
n+1
[ T
n
] = E


¸
j,k=1
1
{j≤Xn,k≤Xn}
ξ
n,j
ξ
n,k
[ T
n

=

¸
j,k=1
1
{j≤Xn,k≤Xn}
E[ξ
n,j
ξ
n,k
]
=

¸
j,k=1
1
{j≤Xn,k≤Xn}
(m
2
+ σ
2
1
{j=k}
)
= m
2
X
2
n
+ σ
2
X
n
.
On a donc
E[X
2
n+1
] = m
2
E[X
2
n
] + ℓσ
2
m
n
.
En posant a
n
= m
−2n
E[X
2
n
], on obtient
a
n+1
= a
n
+ ℓσ
2
m
−n−2
et puisque m > 1 la suite (a
n
) converge. En cons´equence, la martingale m
−n
X
n
est born´ee
dans L
2
. D’apr`es le th´eor`eme 12.4.4, cette martingale converge dans L
2
vers Z. En partic-
ulier, E[Z] = E[X
0
] = ℓ et donc P(Z > 0) > 0 (il n’est pas tr`es difficile de voir qu’on a en
fait Z > 0 p.s. sur l’ensemble de non-extinction de la population).
12.5 Uniforme int´egrabilit´e et martingales
D´efinition 12.5.1 Une famille (X
i
)
i∈I
de v.a. dans L
1
(Ω, T, P) est dite uniform´ement
int´egrable (u.i. en abr´eg´e) si
lim
a→+∞

sup
i∈I
E[[X
i
[1
{|X
i
|>a}
]

= 0.
Il est imm´ediat qu’une famille uniform´ement int´egrable est born´ee dans L
1
: il suffit de
choisir a assez grand pour que

sup
i∈I
E[[X
i
[1
{|X
i
|>a}
]

≤ 1
179
et d’´ecrire ensuite E[[X
i
[] ≤ E[[X
i
[1
{|X
i
|≤a}
] + E[[X
i
[1
{|X
i
|>a}
] ≤ a + 1. La r´eciproque est
fausse : une famille born´ee dans L
1
n’est pas n´ecessairement u.i.
Exemples. (1) Une famille r´eduite `a un singleton est u.i. (c’est une cons´equence sim-
ple du th´eor`eme de convergence domin´ee). Plus g´en´eralement, tout sous-ensemble fini de
L
1
(Ω, T, P) est u.i.
(2) Si Z est une v.a. positive dans L
1
(Ω, T, P), l’ensemble des v.a. X telles que [X[ ≤ Z
est u.i. (il suffit en effet de majorer E[[X[1
{|X|>a}
] ≤ E[Z1
{Z>a}
] et d’utiliser l’exemple (1)).
(3) Soit Φ : R
+
−→ R
+
une fonction telle que x
−1
Φ(x) −→ +∞ quand x → +∞. Alors,
pour tout C > 0,
¦X ∈ L
1
(Ω, T, P) : E[Φ([X[)] ≤ C¦
est u.i. En effet, il suffit d’´ecrire
E[[X[1
{|X|>a}
] ≤ (sup
x>a
x
Φ(x)
) E[Φ([X[)].
(4) Si p > 1, tout sous-ensemble born´e de L
p
(Ω, T, P) est u.i. C’est le cas particulier de (3)
o` u Φ(x) = x
p
.
Le nom “uniform´ement int´egrable” est justifi´e par la proposition suivante.
Proposition 12.5.1 Soit (X
i
)
i∈I
une famille born´ee dans L
1
. Il y a ´equivalence entre :
(i) La famille (X
i
)
i∈I
est u.i.
(ii) Pour tout ε > 0, on peut choisir δ > 0 de fa¸con que, pour tout ´ev´enement A ∈ T de
probabilit´e P(A) < δ, on ait
∀i ∈ I, E[[X
i
[1
A
] < ε.
Preuve. (i)⇒(ii) Soit ε > 0. On peut choisir a > 0 assez grand tel que
sup
i∈I
E[[X
i
[1
{|X
i
|>a}
] <
ε
2
.
Si on pose δ = ε/(2a), alors la condition P(A) < δ entraˆıne que, pour tout i ∈ I,
E[[X
i
[1
A
] ≤ E[[X
i
[1
A∩{|X
i
|≤a}
] + E[[X
i
[1
{|X
i
|>a}
] ≤ aP(A) +
ε
2
< ε.
(ii)⇒(i) Soit C = sup
i∈I
E[[X
i
[]. D’apr`es l’in´egalit´e de Markov, pour tout a > 0,
∀i ∈ I, P([X
i
[ > a) ≤
C
a
.
Soit ε > 0 et choisissons δ pour que la propri´et´e de (ii) soit v´erifi´ee. Alors si a est assez
grand pour que C/a < δ, on a
∀i ∈ I, E[[X
i
[1
{|X
i
|>a}
] < ε
d’o` u l’uniforme int´egrabilit´e.
180
Corollaire 12.5.2 Soit X ∈ L
1
(Ω, T, P). Alors la famille des esp´erances conditionnelles
E[X [ (] quand ( d´ecrit toutes les sous-tribus de T est u.i.
Preuve. Soit ε > 0. Puisque le singleton ¦X¦ est u.i., la proposition pr´ec´edente permet de
choisir δ > 0 tel que, pour tout A ∈ T avec P(A) < δ on ait
E[[X[1
A
] ≤ ε.
Ensuite, pour tout a > 0,
P([E[X [ (][ > a) ≤
1
a
E[[E[X [ (][] ≤
E[[X[]
a
.
Donc, si a est suffisamment grand pour que E[[X[]/a < δ, on a en utilisant la propri´et´e
caract´eristique de l’esp´erance conditionnelle,
E[[E[X [ (][1
{|E[X|G]|>a}
] ≤ E[E[[X[ [ (]1
{|E[X|G]|>a}
] = E[[X[1
{|E[X|G]|>a}
] < ε
ce qui donne l’uniforme int´egrabilit´e recherch´ee.
Th´eor`eme 12.5.3 Soit (X
n
)
n∈N
une suite de v.a. dans L
1
qui converge en probabilit´e vers
X

. Alors il y a ´equivalence entre :
(i) La suite (X
n
)
n∈N
converge dans L
1
vers X

.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
Remarque. Le th´eor`eme de convergence domin´ee affirme qu’une suite (X
n
)
n→∞
convergeant
p.s. (donc aussi en probabilit´e) converge dans L
1
`a condition que [X
n
[ ≤ Z pour tout n,
o` u Z ≥ 0 est telle que E[Z] < ∞. Cette hypoth`ese de domination est bien sˆ ur plus forte
que l’uniforme int´egrabilit´e (cf exemple (2) ci-dessus), qui donne une condition n´ecessaire et
suffisante pour la convergence dans L
1
.
Preuve. (i)⇒(ii) D’abord, la suite (X
n
)
n∈N
est born´ee dans L
1
. Ensuite, soit ε > 0. On
peut choisir N assez grand tel que, pour tout n ≥ N,
E[[X
n
−X
N
[] <
ε
2
.
Puisque l’ensemble fini ¦X
0
, X
1
, . . . , X
N
¦ est u.i. on peut choisir δ > 0 assez petit de fa¸ con
que, pour tout ´ev´enement A de probabilit´e P(A) < δ,
∀n ∈ ¦0, 1, . . . , N¦, E[[X
n
[1
A
] <
ε
2
.
Mais alors, si n > N, on a aussi
E[[X
n
[1
A
] ≤ E[[X
N
[1
A
] + E[[X
n
−X
N
[] < ε.
On a v´erifi´e la condition (ii) de la proposition 12.5.1, d’o` u l’uniforme int´egrabilit´e.
181
(ii)⇒(i) En utilisant la caract´erisation de l’uniforme int´egrabilit´e fournie par la proposition
12.5.1(ii), on voit imm´ediatement que la famille (X
n
−X
m
)
n,m∈N
est aussi u.i. Donc, si ε > 0
est fix´e, on peut choisir a assez grand pour que, pour tous m, n ∈ N,
E[[X
n
−X
m
[1
{|Xn−Xm|>a}
] < ε.
Alors, pour tous m, n ∈ N,
E[[X
n
−X
m
[]
≤ E[[X
n
−X
m
[1
{|Xn−Xm|≤ε}
] + E[[X
n
−X
m
[1
{ε<|Xn−Xm|≤a}
] + E[[X
n
−X
m
[1
{|Xn−Xm|>a}
]
≤ 2ε + a P([X
n
−X
m
[ > ε).
La convergence en probabilit´e de la suite (X
n
) entraˆıne que
P([X
n
−X
m
[ > ε) ≤ P([X
n
−X

[ >
ε
2
) + P([X
m
−X

[ >
ε
2
) −→
n,m→∞
0.
On a ainsi obtenu
limsup
m,n→∞
E[[X
n
−X
m
[] ≤ ε
et puisque ε ´etait arbitraire, cela montre que la suite (X
n
)
n∈N
est de Cauchy pour la norme
L
1
.
Remarque. En cons´equence du th´eor`eme, si une suite (X
n
)
n→∞
converge en probabilit´e et
est born´ee dans L
p
pour une valeur p > 1, alors elle converge dans L
1
, et mˆeme dans L
q
pour tout q < p (appliquer le th´eor`eme `a [X
n
−X

[
q
).
Application aux martingales. En combinant le th´eor`eme pr´ec´edent avec le th´eor`eme
12.3.5, on obtient que les trois conditions suivantes sont ´equivalentes pour une martingale
(X
n
)
n∈N
:
(i) X
n
converge vers X

p.s. et dans L
1
.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
(iii) La martingale est ferm´ee : il existe une v.a. Z ∈ L
1
(Ω, T, P) telle que X
n
= E[Z [ T
n
]
pour tout n ∈ N.
Remarquons que (ii) d´ecoule aussi de (iii) via le corollaire 12.5.2. En particulier toute
martingale uniform´ement int´egrable est ferm´ee, et inversement. Rappelons que dans ce cas
on a X
n
= E[X

[ T
n
] pour tout n.
Th´eor`emes d’arrˆet. Si (X
n
)
n∈N
est un processus adapt´e qui converge p.s. vers X

, on
d´efinit X
T
pour tout temps d’arrˆet T fini ou non en posant
X
T
=

¸
n=0
1
{T=n}
X
n
+1
{T=∞}
X

.
Une extension facile de la proposition 12.2.3 montre que X
T
est T
T
-mesurable.
182
Th´eor`eme 12.5.4 Soit (X
n
)
n∈N
une martingale uniform´ement int´egrable. Alors, pour tout
temps d’arrˆet T fini ou non,
X
T
= E[X

[ T
T
],
et en particulier E[X
T
] = E[X

] = E[X
n
] pour tout n ∈ N. Si S et T sont deux temps
d’arrˆet tels que S ≤ T, on a
X
S
= E[X
T
[ T
S
].
Remarques. (i) Une cons´equence du th´eor`eme et du corollaire 12.5.2 est que la famille
¦X
T
, T temps d’arrˆet¦ est u.i.
(ii) Pour une martingale quelconque (X
n
)
n∈N
, on peut appliquer le th´eor`eme, pour tout
entier N ≥ 0 fix´e, `a la martingale arrˆet´ee (X
n∧N
)
n∈N
qui est u.i. On retrouve ainsi certains
des r´esultats pr´ec´edents.
Preuve. V´erifions d’abord que X
T
∈ L
1
:
E[[X
T
[] =

¸
n=0
E[1
{T=n}
[X
n
[] + E[1
{T=∞}
[X

[]
=

¸
n=0
E[1
{T=n}
[E[X

[ T
n
][] + E[1
{T=∞}
[X

[]


¸
n=0
E[1
{T=n}
E[[X

[ [ T
n
]] + E[1
{T=∞}
[X

[]
=

¸
n=0
E[1
{T=n}
[X

[] + E[1
{T=∞}
[X

[]
= E[[X

[] < ∞.
De plus, si A ∈ T
T
,
E[1
A
X
T
] =
¸
n∈N∪{∞}
E[1
A∩{T=n}
X
T
]
=
¸
n∈N∪{∞}
E[1
A∩{T=n}
X
n
]
=
¸
n∈N∪{∞}
E[1
A∩{T=n}
X

]
= E[1
A
X

].
Dans la premi`ere ´egalit´e on utilis´e le fait que X
T
∈ L
1
pour appliquer le th´eor`eme de Fubini et
´echanger somme et int´egrale, et dans la troisi`eme ´egalit´e on utilise l’´egalit´e X
n
= E[X

[ T
n
]
et la propri´et´e de d´efinition A ∩ ¦T = n¦ ∈ T
n
. Puisque X
T
est T
T
-mesurable, l’identit´e
pr´ec´edente suffit `a montrer que X
T
= E[X

[ T
T
].
Les autres assertions sont faciles : pour la derni`ere, l’inclusion T
S
⊂ T
T
entraˆıne que
X
S
= E[X

[ T
S
] = E[E[X

[ T
T
] [ T
S
] = E[X
T
[ T
S
].
183
Th´eor`eme 12.5.5 Soit (X
n
)
n∈N
une surmatingale. Supposons que l’une des deux conditions
suivantes soit v´erifi´ee :
(i) X
n
≥ 0 pour tout n ∈ N.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
Alors, pour tout temps d’arrˆet T, fini ou non, on a X
T
∈ L
1
. De plus, si S et T sont deux
temps d’arrˆet tels que S ≤ T, on a :
– dans le cas (i), 1
{S<∞}
X
S
≥ E[1
{T<∞}
X
T
[ T
S
];
– dans le cas (ii), X
S
≥ E[X
T
[ T
S
].
Preuve. Traitons d’abord le cas (i). On a vu que si le temps d’arrˆet T est born´e, on a
E[X
T
] ≤ E[X
0
] (th´eor`eme 12.2.4). Le lemme de Fatou montre alors que pour un temps
d’arrˆet quelconque,
E[X
T
] ≤ liminf
k→∞
E[X
T∧k
] ≤ E[X
0
]
et donc X
T
∈ L
1
. Soient ensuite S et T deux temps d’arrˆet tels que S ≤ T. Supposons
d’abord que S et T sont born´es par l’entier N. Alors le lemme 12.4.1 montre que E[X
S
] ≥
E[X
T
]. Plus g´en´eralement, pour tout ´ev´enement A ∈ T
S
, on peut consid´erer le temps d’arrˆet
S
A
(ω) =

S(ω) si ω ∈ A,
N si ω / ∈ A,
et de mˆeme le temps d’arrˆet T
A
(noter que A ∈ T
T
). En ´ecrivant E[X
S
A] ≥ E[X
T
A], on
trouve
∀A ∈ T
S
, E[X
S
1
A
] ≥ E[X
T
1
A
].
Revenons au cas g´en´eral o` u S et T sont des temps d’arrˆet quelconques avec S ≤ T, et soit
B ∈ T
S
. En appliquant ce qui pr´ec`ede aux temps d’arrˆet S ∧ k, T ∧ k et A = B ∩ ¦S ≤ k¦,
on trouve
E[X
S∧k
1
B∩{S≤k}
] ≥ E[X
T∧k
1
B∩{S≤k}
] ≥ E[X
T∧k
1
B∩{T≤k}
]
puisque ¦S ≤ k¦ ⊃ ¦T ≤ k¦ et X
T∧k
≥ 0. Donc,
E[X
S
1
B∩{S≤k}
] ≥ E[X
T
1
B∩{T≤k}
]
et en faisant tendre k vers ∞ on trouve par convergence domin´ee
E[X
S
1
B∩{S<∞}
] ≥ E[X
T
1
B∩{T<∞}
].
En notant
¯
X
S
= 1
{S<∞}
X
S
et
¯
X
T
= 1
{T<∞}
X
T
on a donc, pour tout B ∈ T
S
,
E[
¯
X
S
1
B
] ≥ E[
¯
X
T
1
B
] = E[E[
¯
X
T
[ T
S
]1
B
].
Puisque
¯
X
S
est T
S
-mesurable, cela entraˆıne facilement
¯
X
S
≥ E[
¯
X
T
[ T
S
].
184
Traitons maintenant le cas (ii). Puisque (X
n
)
n∈N
est u.i., (X
n
)
n∈N
est born´ee dans L
1
, et
donc converge p.s. vers X

. La convergence a aussi lieu dans L
1
grˆace au th´eor`eme 12.5.3.
La convergence L
1
permet de passer `a la limite m → ∞ dans l’in´egalit´e X
n
≥ E[X
n+m
[ T
n
],
et d’obtenir, pour tout n ∈ N,
X
n
≥ E[X

[ T
n
].
Par ailleurs, le corollaire 12.3.6 montre que la martingale ferm´ee Z
n
= E[X

[ T
n
] converge
p.s. vers X

(noter que X

est T

-mesurable). Si on pose Y
n
= X
n
− Z
n
, (Y
n
)
n∈N
est
une surmartingale positive, telle que Y

= 0. Du cas (i) (et du th´eor`eme 12.5.4) on d´eduit
d’abord que X
T
= Y
T
+ Z
T
est dans L
1
, puis que
Y
S
≥ E[Y
T
[ T
S
]
(les fonctions indicatrices sont superflues puisque Y

= 0). De plus, en appliquant le
th´eor`eme 12.5.4 `a la martingale u.i. Z
n
, on a aussi
Z
S
= E[Z
T
[ T
S
].
En combinant les deux relations obtenues on trouve bien
X
S
≥ E[X
T
[ T
S
].
Exemple. Ruine du joueur. Consid´erons `a nouveau une marche al´eatoire simple (pile ou
face) avec X
0
= k ≥ 0. Soit m ≥ 1 un entier tel que 0 ≤ k ≤ m. On pose
T = inf¦n ≥ 0 : X
n
= 0 ou X
n
= m¦.
Il d´ecoule d’un exemple trait´e dans la partie 3 que T < ∞ p.s. La martingale Y
n
= X
n∧T
est uniform´ement int´egrable, puisque born´ee, et on a donc E[Y

] = E[Y
0
] = k, soit
mP(X
T
= m) = k
d’o` u on d´eduit facilement que
P(X
T
= m) =
k
m
, P(X
T
= 0) = 1 −
k
m
.
On peut g´en´eraliser au pile ou face “biais´e” : on suppose que X
n
= k +Y
1
+. . . +Y
n
, o` u les
v.a. Y
i
sont ind´ependantes et de mˆeme loi
P(Y
1
= 1) = p , P(Y
1
= −1) = 1 −p = q,
o` u p ∈]0, 1[`¦
1
2
¦. Alors il est facile de v´erifier que
Z
n
= (
q
p
)
Xn
est une martingale. Si T est d´efini comme ci-dessus, le fait que la martingale Z
n∧T
converge
entraˆıne que T < ∞ p.s. Ensuite en appliquant le th´eor`eme d’arrˆet `a la martingale born´ee
Z
n∧T
, on trouve
(
q
p
)
k
= E

(
q
p
)
X
T

= (
q
p
)
m
P(X
T
= m) + P(X
T
= 0)
d’o` u
P(X
T
= m) =
(
q
p
)
k
−1
(
q
p
)
m
−1
, P(X
T
= 0) =
(
q
p
)
m
−(
q
p
)
k
(
q
p
)
m
−1
.
185
12.6 Martingales r´etrogrades
Une filtration r´etrograde est une famille (T
n
)
n∈−N
index´ee par les entiers n´egatifs de sous-
tribus de T, telle que, pour tous m, n ∈ −N,
n ≤ m ⇒ T
n
⊂ T
m
.
On notera
T
−∞
=
¸
n∈−N
T
n
qui est encore une sous-tribu de T. Remarquons que, `a la diff´erence du cas “direct” ´etudi´e
pr´ec´edemment, la tribu T
n
devient de plus en plus petite quand n → −∞.
Un processus (X
n
)
n∈−N
index´e par les entiers n´egatifs est une martingale r´etrograde (resp.
une surmartingale r´etrograde, une sous-martingale r´etrograde) relativement `a la filtration
(T
n
)
n∈−N
si X
n
est T
n
-mesurable et E[[X
n
[] < ∞ pour tout n ∈ −N, et si, pour tous
m, n ∈ −N,
n ≤ m ⇒ X
n
= E[X
m
[ T
n
] (resp. X
n
≥ E[X
m
[ T
n
], X
n
≤ E[X
m
[ T
n
]).
Th´eor`eme 12.6.1 Soit (X
n
)
n∈−N
une surmartingale r´etrograde. Supposons que
sup
n∈−N
E[[X
n
[] < ∞. (12.6)
Alors la suite (X
n
)
n∈−N
est uniform´ement int´egrable et converge p.s. et dans L
1
vers X

quand n → −∞. De plus, pour tout n ∈ −N,
E[X
n
[ T
−∞
] ≤ X

.
Remarques. (a) Dans le cas d’une martingale r´etrograde, la condition (12.6) est automa-
tiquement satisfaite puisqu’on a X
n
= E[X
0
[ T
n
] et donc E[[X
n
[] ≤ E[[X
0
[] pour tout
n ∈ −N. Pour la mˆeme raison, l’uniforme int´egrabilit´e de la suite (X
n
)
n∈−N
, dans le cas
d’une martingale, d´ecoule du corollaire 12.5.2.
(b) Dans le cas “direct” ´etudi´e pr´ec´edemment, le fait qu’une surmartingale (ou une mar-
tingale) soit born´ee dans L
1
n’entraˆıne pas son uniforme int´egrabilit´e : en ce sens le cas
r´etrograde est tr`es diff´erent du cas direct.
Preuve. Nous commen¸ cons par ´etablir la convergence p.s. de la suite (X
n
)
n∈−N
, qui d´ecoule
`a nouveau de l’in´egalit´e sur les nombres de mont´ees de Doob. Fixons un entier K ≥ 1 et
posons pour tout n ∈ ¦0, 1, . . . , K¦
Y
K
n
= X
−K+n
,
(
K
n
= T
−K+n
.
Pour n > K, on prend aussi Y
K
n
= X
0
et (
K
n
= T
0
. Alors (Y
K
n
)
n∈N
est une surmartingale
relativement `a la filtration ((
K
n
)
n∈N
. En appliquant le lemme 12.3.2 `a la sous-martingale
−Y
K
n
, on trouve pour tous a < b,
(b −a) E[N
K
([a, b], −Y
N
)] ≤ E[(−Y
K
K
−a)
+
] = E[(−X
0
−a)
+
] ≤ [a[ + E[[X
0
[].
186
On v´erifie ais´ement que quand K ↑ ∞, N
K
([a, b], −Y
N
) croˆıt vers
N([a, b], −X) := sup¦k ∈ N : ∃m
1
< n
1
< < m
k
< n
k
≤ 0,
−X
m
1
≤ a, −X
n
1
≥ b, . . . , −X
m
k
≤ a, −X
n
k
≥ b¦
qui est le nombre total de mont´ees de (−X
n
)
n∈−N
le long de [a, b]. Le th´eor`eme de convergence
monotone entraˆıne donc
(b −a) E[N([a, b], −X)] ≤ [a[ + E[[X
0
[] < ∞.
On obtient ainsi que N([a, b], X) < ∞pour tous les rationnels a < b, p.s. Par une adaptation
´evidente du lemme 12.3.1 cela entraˆıne la convergence presque sˆ ure de la suite (X
n
)
n∈−N
quand n → −∞, et le lemme de Fatou montre que la limite X

v´erifie E[[X

[] < ∞.
Montrons maintenant que la suite (X
n
)
n∈−N
est uniform´ement int´egrable. Soit ε > 0.
La suite (E[X
−n
])
n∈N
´etant croissante et major´ee (grˆace `a (12.6)) on peut choisir un entier
K ≤ 0 assez petit de fa¸ con que, pour tout n ≤ K,
E[X
n
] ≤ E[X
K
] +
ε
2
.
La famille finie (X
K
, X
K+1
, . . . , X
−1
, X
0
) ´etant uniform´ement int´egrable, on peut choisir
a > 0 assez grand de mani`ere que, pour tout n ∈ ¦K, K + 1, . . . , −1, 0¦,
E[[X
n
[1
{|Xn|>a}
] < ε.
De plus, on peut choisir δ > 0 assez petit de fa¸ con que, pour tout A ∈ T tel que P(A) < δ
on ait
E[[X
K
[1
A
] <
ε
2
.
Ensuite, si n < K,
E[[X
n
[1
{|Xn|>a}
] = E[−X
n
1
{Xn<−a}
] + E[X
n
1
{Xn>a}
]
= −E[X
n
1
{Xn<−a}
] + E[X
n
] −E[X
n
1
{Xn≤a}
]
≤ −E[E[X
K
[ T
n
]1
{Xn<−a}
] + E[X
K
] +
ε
2
−E[E[X
K
[ T
n
]1
{Xn≤a}
]
= −E[X
K
1
{Xn<−a}
] + E[X
K
] +
ε
2
−E[X
K
1
{Xn≤a}
]
= −E[X
K
1
{Xn<−a}
] + E[X
K
1
{Xn>a}
] +
ε
2
≤ E[[X
K
[1
{|Xn|>a}
] +
ε
2
.
Dans la premi`ere in´egalit´e ci-dessus, on a utilis´e la propri´et´e E[X
n
] ≤ E[X
K
] + ε/2 et
l’in´egalit´e de surmartingale X
n
≥ E[X
K
[ T
n
]. On observe maintenant que
P([X
n
[ > a) ≤
1
a
E[[X
n
[] ≤
C
a
187
o` u C = sup E[[X
k
[] est fini par hypoth`ese. Quitte `a choisir a encore plus grand, on peut
supposer que C/a < δ, de sorte que
E[[X
K
[1
{|Xn|>a}
] <
ε
2
et en combinant avec ce qui pr´ec`ede,
E[[X
n
[1
{|Xn|>a}
] < ε,
pour tout n < K. Comme cette in´egalit´e est aussi vraie pour n ∈ ¦K, K + 1, . . . , −1, 0¦,
cela termine la preuve de l’uniforme int´egrabilit´e de la suite (X
n
)
n∈−N
.
Le reste de la preuve est facile. L’uniforme int´egrabilit´e et la convergence p.s. entraˆınent
la convergence dans L
1
. Ensuite, en ´ecrivant
E[X
n
1
A
] ≤ E[X
m
1
A
]
pour m ≤ n et A ∈ T
−∞
⊂ T
m
, et en passant `a la limite m → −∞, on trouve
E[X
n
1
A
] ≤ E[X

1
A
] , ∀A ∈ T
−∞
.
On a donc aussi
E[E[X
n
[ T
−∞
]1
A
] ≤ E[X

1
A
] , ∀A ∈ T
−∞
.
et puisque X

est clairement T
−∞
-mesurable, cela suffit pour entraˆıner E[X
n
[ T
−∞
] ≤ X

.

Corollaire 12.6.2 Soit Z une v.a. dans L
1
, et soit ((
n
)
n∈N
une suite d´ecroissante de tribus.
Alors,
E[Z [ (
n
]
p.s.,L
1
−→
n→∞
E[Z [ (

]
o` u
(

=
¸
n∈N
(
n
.
Preuve. Pour tout n ∈ N, posons X
−n
= E[Z [ (
n
] et T
−n
= (
n
. Alors (X
n
)
n∈−N
est une
martingale relativement `a la filtration r´etrograde (T
n
)
n∈−N
. Le th´eor`eme assure donc que
X
n
converge p.s. et dans L
1
quand n → −∞. De plus, grˆace `a la derni`ere assertion du
th´eor`eme, X

= E[X
0
[ T
−∞
] = E[E[Z [ T
0
] [ T
−∞
] = E[Z [ T
−∞
].
Applications. (A) La loi forte des grands nombres. Soit ξ
1
, ξ
2
, . . . une suite de v.a. r´eelles
ind´ependantes et de mˆeme loi, dans L
1
. On pose S
0
= 0 et pour tout n ≥ 1,
S
n
= ξ
1
+ + ξ
n
.
On remarque que
E[ξ
1
[ S
n
] =
1
n
S
n
. (12.7)
188
En effet, on sait qu’il existe une fonction mesurable g telle que E[ξ
1
[ S
n
] = g(S
n
). Si
k ∈ ¦1, . . . , n¦, le couple (ξ
k
, S
n
) a mˆeme loi que (ξ
1
, S
n
), de sorte que, pour toute fonction
h mesurable born´ee,
E[ξ
k
h(S
n
)] = E[ξ
1
h(S
n
)] = E[g(S
n
)h(S
n
)]
ce qui montre qu’on a aussi E[ξ
k
[ S
n
] = g(S
n
). Il en r´esulte que
ng(S
n
) = E[ξ
1
+ + ξ
n
[ S
n
] = S
n
d’o` u l’identit´e annonc´ee (12.7).
On a aussi, pour tout n ≥ 1,
E[ξ
1
[ S
n
, ξ
n+1
, ξ
n+2
, . . .] =
1
n
S
n
. (12.8)
Cela d´ecoule imm´ediatement de (12.7) et du lemme suivant, appliqu´e en prenant Z = ξ
1
,
H
1
= σ(S
n
) et H
2
= σ(ξ
n+1
, ξ
n+2
, . . .).
Lemme 12.6.3 Soit Z une v.a. dans L
1
et soient H
1
et H
2
deux sous-tribus de T. Sup-
posons que H
2
est ind´ependante de σ(Z) ∨ H
1
. Alors,
E[Z [ H
1
∨ H
2
] = E[Z [ H
1
]
La preuve de ce lemme est une application simple du lemme de classe monotone (Th´eor`eme
1.4.1) : on voit imm´ediatement que la propri´et´e E[1
A
Z] = E[1
A
E[Z [ H
1
]] est vraie pour
les ensembles A ∈ H
1
∨ H
2
de la forme A = B ∩ C, avec B ∈ H
1
, C ∈ H
2
, et il en d´ecoule
que cette propri´et´e est vraie pour tout A ∈ H
1
∨ H
2
.
On peut maintenant appliquer le corollaire 12.6.2 en prenant Z = ξ
1
et pour tout n ≥ 0,
(
n
= σ(S
n
, ξ
n+1
, ξ
n+2
, . . .),
de sorte que
1
n
S
n
= E[Z [ (
n
] par (12.8). On obtient que la suite
1
n
S
n
converge p.s. et
dans L
1
. La loi du tout ou rien de Kolmogorov (Th´eor`eme 10.2.1) assure que la limite est
constante et donc ´egale `a lim
1
n
E[S
n
] = E[ξ
1
].
(B) La loi du tout ou rien de Hewitt-Savage. Soit ξ
1
, ξ
2
, . . . une suite de v.a. ind´ependantes et
de mˆeme loi `a valeurs dans un espace mesurable (E, c). L’application ω −→ (ξ
1
(ω), ξ
2
(ω), . . .)
d´efinit une v.a. `a valeurs dans l’espace produit E
N

, qui est muni de la plus petite tribu
rendant mesurables les applications coordonn´ees (x
1
, x
2
, . . .) −→ x
i
pour tout i ∈ N

. Une
fonction mesurable F d´efinie sur E
N

est dite sym´etrique si
F(x
1
, x
2
, x
3
, . . .) = F(x
π(1)
, x
π(2)
, x
π(3)
, . . .)
pour toute permutation π de N

`a support fini.
Th´eor`eme 12.6.4 Si F est une fonction sym´etrique sur E
N

la variable al´eatoire F(ξ
1
, ξ
2
, . . .)
est constante p.s.
189
Exemple. Supposons les v.a. ξ
1
, ξ
2
, . . . `a valeurs dans R
d
, et consid´erons la marche al´eatoire
(en dimension d)
X
n
= ξ
1
+ + ξ
n
.
Si B est un bor´elien de R
d
,
1
{Card{n≥1:Xn∈B}=∞}
est une fonction sym´etrique de ξ
1
, ξ
2
, . . .. On a donc
P(Card¦n ≥ 1 : X
n
∈ B¦ = ∞) = 0 ou 1.
Preuve. Sans perte de g´en´eralit´e on peut supposer F born´ee. On pose
T
n
= σ(ξ
1
, . . . , ξ
n
) , (
n
= σ(ξ
n+1
, ξ
n+2
, . . .).
On note Y = F(ξ
1
, ξ
2
, . . .) et on pose pour tout n ∈ N
X
n
= E[Y [ T
n
] , Z
n
= E[Y [ (
n
].
Alors le corollaire 12.3.6 assure que X
n
converge p.s. et dans L
1
vers E[Y [ T

] = Y ,
cependant que le corollaire 12.6.2 montre que Z
n
converge p.s. et dans L
1
vers E[Y [ (

] =
E[Y ] puisque (

est grossi`ere (loi du tout ou rien de Kolmogorov). Donc pour tout ε > 0,
on peut choisir n assez grand de fa¸ con que
E[[X
n
−Y [] < ε , E[[Z
n
−E[Y ][] < ε. (12.9)
D’autre part, il existe une fonction mesurable g : E
n
−→R telle que X
n
= g(ξ
1
, . . . , ξ
n
),
et la premi`ere borne de (12.9) se traduit par :
E[[F(ξ
1
, ξ
2
, . . .) −g(ξ
1
, . . . , ξ
n
)[] < ε.
Puisque la suite (ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) a mˆeme loi que (ξ
1
, ξ
2
. . .), cette borne
entraˆıne aussi que
E[[F(ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) −g(ξ
n+1
, . . . , ξ
2n
)[] < ε.
Mais F(ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) = F(ξ
1
, . . . , ξ
n
, ξ
n+1
, . . . , ξ
2n
, ξ
2n+1
, . . .) = Y grˆace
`a la sym´etrie de F, et on a donc obtenu
E[[Y −g(ξ
n+1
, . . . , ξ
2n
)[] < ε. (12.10)
En prenant l’esp´erance conditionnelle par rapport `a (
n
, on a
E[[E[Y [ (
n
] −E[g(ξ
n+1
, . . . , ξ
2n
) [ (
n
][] < ε,
soit
E[[Z
n
−g(ξ
n+1
, . . . , ξ
2n
)[] < ε. (12.11)
En combinant (12.10) et (12.11) avec la deuxi`eme borne de (12.9), on trouve
E[[Y −E[Y ][] < 3ε.
Puisque ε ´etait arbitraire on a donc Y = E[Y ] p.s.
190
Chapitre 13
Chaˆınes de Markov
13.1 D´efinition et premi`eres propri´et´es
Dans tout ce chapitre, E est un espace fini ou d´enombrable, qui est muni comme d’habitude
de la tribu {(E). Une matrice stochastique sur E est une famille (Q(x, y), x, y ∈ E) de
nombres r´eels satisfaisant les deux conditions :
(i) 0 ≤ Q(x, y) ≤ 1 pour tous x, y ∈ E;
(ii) pour tout x ∈ E,
¸
y∈E
Q(x, y) = 1.
Cette notion est ´equivalente `a celle de probabilit´e de transition de E dans E : si on pose
ν(x, A) =
¸
y∈A
Q(x, y) , x ∈ E, A ⊂ E,
on voit que ν est une probabilit´e de transition de E dans E (voir le Chapitre 11), et inverse-
ment si on part d’une telle probabilit´e de transition ν, la formule Q(x, y) = ν(x, ¦y¦) d´efinit
une matrice stochastique sur E.
Pour tout entier n ≥ 1, on peut d´efinir Q
n
= (Q)
n
: Q
1
= Q, et ensuite par r´ecurrence,
Q
n+1
(x, y) =
¸
z∈E
Q
n
(x, z)Q(z, y).
On v´erifie que Q
n
est encore une matrice stochastique sur E. On pose aussi Q
0
(x, y) = 1
{x=y}
.
Pour toute fonction f : E −→R
+
, on notera Qf la fonction d´efinie par
Qf(x) =
¸
y∈E
Q(x, y)f(y).
D´efinition 13.1.1 Soit Q une matrice stochastique sur E, et soit (X
n
)
n∈N
un processus
al´eatoire `a valeurs dans E. On dit que (X
n
)
n∈N
est une chaˆıne de Markov de matrice de tran-
sition Q si pour tout entier n ≥ 0, la loi conditionnelle de X
n+1
connaissant (X
0
, X
1
, . . . , X
n
)
est Q(X
n
, y). De mani`ere ´equivalente, cela signifie que
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = Q(x
n
, y),
pour tous x
0
, x
1
, . . . , x
n
, y ∈ E tels que P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) > 0.
191
Remarques. (i) En g´en´eral, la loi conditionnelle de X
n+1
connaissant X
0
, X
1
, . . . , X
n
d´epend de toutes les variables X
0
, X
1
, . . . , X
n
et pas seulement de la derni`ere X
n
. Le fait
qu’ici cette loi conditionnelle ne d´epende que de X
n
est ce qu’on appelle la propri´et´e de
Markov : pour pr´edire le futur (X
n+1
) la connaissance du pass´e (X
0
, X
1
, . . . , X
n
) ne donne
pas plus d’information que celle du pr´esent (X
n
). Nous verrons plus tard d’autres formes
plus pr´ecises de la propri´et´e de Markov, qui correspondent `a la mˆeme id´ee.
(ii) La fonction Q(x, ) donnant la loi conditionnelle de X
n+1
sachant que X
n
= x ne d´epend
pas de l’entier n : c’est le caract`ere homog`ene de la chaˆıne de Markov. On pourrait aussi
consid´erer des chaˆınes de Markov inhomog`enes, pour lesquelles le m´ecanisme de transition
entre les instants n et n + 1 d´epend de n.
Proposition 13.1.1 Un processus (X
n
)
n∈N
`a valeurs dans E est une chaˆıne de Markov de
matrice de transition Q ssi, pour tout n ≥ 0 et pour tous x
0
, x
1
, . . . , x
n
∈ E,
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P(X
0
= x
0
)Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n−1
, x
n
). (13.1)
En particulier, on a si P(X
0
= x
0
) > 0,
P(X
n
= x
n
[ X
0
= x
0
) = Q
n
(x
0
, x
n
).
Preuve. Si (X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q la formule donn´ee
est imm´ediate par r´ecurrence sur n en ´ecrivant
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n+1
= x
n+1
) =
= P(X
0
= x
0
, . . . , X
n
= x
n
) P(X
n+1
= x
n+1
[ X
0
= x
0
, . . . , X
n
= x
n
).
Inversement, si la formule donn´ee est vraie, on v´erifie imm´ediatement que
P(X
n+1
= y [ X
0
= x
0
, . . . , X
n
= x
n
) =
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n−1
, x
n
)Q(x
n
, y)
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n−1
, x
n
)
= Q(x
n
, y).
La derni`ere assertion s’obtient en remarquant que
Q
n
(x
0
, x
n
) =
¸
x
1
,x
2
,...,x
n−1
∈E
Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n−1
, x
n
).
Remarque. La formule (13.1) montre que pour une chaˆıne de Markov (X
n
)
n∈N
, la loi de
(X
0
, X
1
, . . . , X
n
) est compl`etement d´etermin´ee par la connaissance de la loi initiale (la loi de
X
0
) et de la matrice de transition Q.
La proposition suivante rassemble d’autres propri´et´es simples des chaˆınes de Markov.
Dans (ii) ci-dessous, on utilise la notation P(A [ Z) pour d´esigner l’esp´erance conditionnelle
E[1
A
[ Z].
Proposition 13.1.2 Soit (X
n
)
n∈N
une chaˆıne de Markov de matrice de transition Q.
192
(i) Pour tout entier n ≥ 0 et toute fonction mesurable f : E −→R
+
,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] = E[f(X
n+1
) [ X
n
] = Qf(X
n
).
Plus g´en´eralement, pour tout sous-ensemble fini ¦i
1
, . . . , i
k
¦ de ¦0, 1, . . . , n −1¦, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = Qf(X
n
).
(ii) Pour tous les entiers n ≥ 0, p ≥ 1 et pour tous y
1
, . . . , y
p
∈ E,
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
, . . . , X
n
) = Q(X
n
, y
1
)Q(y
1
, y
2
) . . . Q(y
p−1
, y
p
),
et donc
P(X
n+p
= y
p
[ X
n
) = Q
p
(X
n
, y
p
).
Si on pose Y
p
= X
n+p
pour tout p ∈ N, le processus (Y
p
)
p∈N
est encore une chaˆıne de
Markov de matrice de transition Q.
Preuve. (i) D’apr`es la d´efinition,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] =
¸
y∈E
Q(X
n
, y)f(y) = Qf(X
n
).
Ensuite, si ¦i
1
, . . . , i
k
¦ est un sous-ensemble fini de ¦0, 1, . . . , n −1¦, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = E[E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] [ X
i
1
, . . . , X
i
k
, X
n
]
= E[Qf(X
n
) [ X
i
1
, . . . , X
i
k
, X
n
]
= Qf(X
n
).
(ii) Il d´ecoule imm´ediatement de (13.1) que
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
= x
0
, . . . , X
n
= x
n
) = Q(x
n
, y
1
)Q(y
1
, y
2
) Q(y
p−1
, y
p
).
La formule pour P(X
n+p
= y
p
[ X
n
) en d´ecoule en sommant sur les choix possibles de
y
1
, . . . , y
p−1
. Enfin, pour la derni`ere assertion, on d´eduit de ce qui pr´ec`ede que
P(Y
0
= y
0
, Y
1
= y
1
, . . . , Y
p
= y
p
) = P(X
n
= y
0
)Q(y
0
, y
1
)Q(y
1
, y
2
) . . . Q(y
p−1
, y
p
),
et on utilise la caract´erisation donn´ee dans la proposition 13.1.1.
13.2 Quelques exemples
13.2.1 Variables al´eatoires ind´ependantes
Si (X
n
)
n∈N
est une suite de v.a. ind´ependantes `a valeurs dans E, de mˆeme loi µ, alors
(X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition
Q(x, y) = µ(y), ∀x, y ∈ E.
La v´erification est imm´ediate. Ce n’est pas l’exemple le plus int´eressant de chaˆıne de Markov !
193
13.2.2 Marches al´eatoires sur Z
d
Soient η, ξ
1
, ξ
2
, . . . , ξ
n
, . . . des v.a. ind´ependantes `a valeurs dans Z
d
. On suppose que ξ
1
, ξ
2
, . . .
ont mˆeme loi µ et on pose pour tout n ≥ 0,
X
n
= η + ξ
1
+ ξ
2
+ + ξ
n
.
Alors (X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition
Q(x, y) = µ(y −x), ∀x, y ∈ E.
En effet, en remarquant que ξ
n+1
est ind´ependante de (X
0
, X
1
, . . . , X
n
), on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(ξ
n+1
= y −x
n
[ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(ξ
n+1
= y −x
n
)
= µ(y −x
n
).
Soit (e
1
, . . . , e
d
) la base canonique de R
d
. Dans le cas o` u µ(e
i
) = µ(−e
i
) =
1
2d
pour tout
i ∈ ¦1, . . . , d¦, la chaˆıne de Markov obtenue est appel´ee la marche al´eatoire simple sur Z
d
.
13.2.3 Marche al´eatoire simple sur un graphe
Soit {
2
(E) l’ensemble des parties de E `a deux ´el´ements, et soit A un sous-ensemble de
{
2
(E). Pour tout x ∈ E, on note
A
x
= ¦y ∈ E : ¦x, y¦ ∈ A¦.
On suppose que A
x
est fini et non vide pour tout x ∈ E. On d´efinit alors une matrice de
transition Q sur E en posant pour tous x, y ∈ E,
Q(x, y) =

1
Card A
x
si ¦x, y¦ ∈ A
0 sinon.
Une chaˆıne de Markov de matrice de transition Q est appel´ee marche al´eatoire simple sur le
graphe (E, A).
13.2.4 Processus de branchement
Rappelons la d´efinition de ces processus d´ej`a ´etudi´es dans le chapitre pr´ec´edent. Si µ est
une mesure de probabilit´e sur N, et ℓ ∈ N, on d´efinit par r´ecurrence une suite (X
n
) de v.a.
`a valeurs dans N en posant
X
0
= ℓ
X
n+1
=
Xn
¸
j=1
ξ
n,j
, ∀n ∈ N,
194
o` u les v.a. ξ
n,j
, n, j ∈ N sont ind´ependantes et de loi µ. Alors, (X
n
)
n∈N
est une chaˆıne de
Markov sur E = N de matrice de transition
Q(x, y) = µ
∗x
(y), ∀x, y ∈ N,
o` u µ
∗x
est la convolution de µ x fois avec elle-mˆeme, ou de mani`ere ´equivalente la loi de la
somme de x v.a. ind´ependantes de loi µ (en particulier µ
∗0
est la mesure de Dirac en 0). En
effet, en observant que les v.a. ξ
n,j
, j ∈ N sont ind´ependantes de X
0
, . . . , X
n
, on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
¸
j=1
ξ
n,j
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
¸
j=1
ξ
n,j
= y)
= µ
∗xn
(y).
13.3 La chaˆıne de Markov canonique
Nous commen¸ cons par un r´esultat d’existence de chaˆıne de Markov associ´ee `a une matrice
de transition donn´ee.
Proposition 13.3.1 Soit Q une matrice stochastique sur E. On peut trouver un espace de
probabilit´e (Ω

, T

, P

) sur lequel il existe, pour tout x ∈ E, un processus (X
x
n
)
n∈N
qui est une
chaˆıne de Markov de matrice de transition Q, issue de X
x
0
= x.
Preuve. On peut prendre Ω

= [0, 1[, muni de la tribu bor´elienne et de la mesure de
Lebesgue. A partir du d´eveloppement dyadique (propre) d’un r´eel ω ∈ [0, 1[,
ω =

¸
n=0
ε
n
(ω) 2
−n−1
, ε
n
(ω) ∈ ¦0, 1¦
on construit une suite (ε
n
)
n∈N
de v.a. ind´ependantes de mˆeme loi P(ε
n
= 1) = P(ε
n
= 0) =
1/2. Si ϕ est une injection de NN dans N, les v.a. η
i,j
= ε
ϕ(i,j)
, i, j ∈ N sont (´evidemment)
encore ind´ependantes et de mˆeme loi. En posant
U
i
=

¸
j=0
η
i,j
2
−j−1
on obtient une suite U
0
, U
1
, U
2
, . . . de v.a. ind´ependantes de loi uniforme sur [0, 1] (pour voir
que U
i
suit la loi uniforme, noter que
¸
p
j=0
η
i,j
2
−j−1
a mˆeme loi que
¸
p
n=0
ε
n
2
−n−1
, pour
tout entier p, et faire tendre p vers ∞).
Soit y
1
, y
2
, . . . , y
k
, . . . une ´enum´eration des ´el´ements de E. Fixons aussi x ∈ E. On pose
X
x
0
= x puis
X
x
1
= y
k
si
¸
1≤j<k
Q(x, y
j
) < U
1

¸
1≤j≤k
Q(x, y
j
)
195
de sorte qu’il est clair que P(X
x
1
= y) = Q(x, y) pour tout y ∈ E. On continue par r´ecurrence
en posant
X
x
n+1
= y
k
si
¸
1≤j<k
Q(X
x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(X
x
n
, y
j
).
En utilisant l’ind´ependance des v.a. U
i
, on v´erifie tr`es facilement que pour tout k ≥ 1,
P(X
x
n+1
= y
k
[ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
¸
1≤j<k
Q(x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(x
n
, y
j
) [ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
¸
1≤j<k
Q(x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(x
n
, y
j
))
= Q(x
n
, y
k
),
de sorte que (X
x
n
)
n∈N
est une chaˆıne de Markov de transition Q.
Dans la suite, il sera utile de faire un choix canonique de l’espace de probabilit´e sur lequel
sera d´efinie la chaˆıne de Markov ´etudi´ee. On prendra
Ω = E
N
.
Un ´el´ement ω de Ω est donc une suite ω = (ω
0
, ω
1
, ω
2
, . . .) d’´elements de E. Les applications
coordonn´ees X
n
, n ∈ N sont alors d´efinies par
X
n
(ω) = ω
n
.
On munit Ω de la plus petite tribu, not´ee T, qui rende mesurables les applications coor-
donn´ees. C’est aussi la tribu engendr´ee par les “cylindres”, c’est-`a-dire les ensembles C de
la forme
C = ¦ω ∈ Ω : ω
0
= x
0
, ω
1
= x
1
, . . . , ω
n
= x
n
¦
o` u n ∈ N et x
0
, x
1
, . . . x
n
∈ E.
Lemme 13.3.2 Soit (G, () un espace mesurable, et soit ψ une application de G dans Ω.
Alors ψ est mesurable ssi X
n
◦ ψ l’est pour tout n ∈ N.
Preuve. Il suffit bien sˆ ur de montrer que si X
n
◦ ψ est mesurable pour tout n, alors ψ l’est
aussi. Or,
¦A ∈ T : ψ
−1
(A) ∈ (¦
est une tribu sur Ω qui par hypoth`ese contient tous les ensembles de la forme X
−1
n
(y), y ∈ E,
donc rend mesurables toutes les applications coordonn´ees X
n
. Cette tribu est n´ecessairement
T tout enti`ere.
Th´eor`eme 13.3.3 Soit Q une matrice stochastique sur E. Pour tout x ∈ E, il existe une
unique probabilit´e, not´ee P
x
, sur Ω = E
N
telle que sous P
x
, le processus des coordonn´ees
(X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q, et P
x
(X
0
= x) = 1.
196
Preuve. Soit x ∈ E. La proposition 13.3.1 permet de construire sur un espace de probabilit´e
(Ω

, T

, P

) un processus (X
x
n
)
n∈N
qui est une chaˆıne de Markov de transition Q telle que
X
x
0
= x. On d´efinit alors P
x
comme la mesure image de P

par l’application


−→ Ω
ω

−→ (X
x
n


))
n∈N
.
Cette application est mesurable grˆace au lemme pr´ec´edent. On a P
x
(X
0
= x) = P

(X
x
0
=
x) = 1 et de plus pour tous x
0
, x
1
, . . . , x
n
∈ E,
P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P

(X
x
0
= x
0
, X
x
1
= x
1
, . . . , X
x
n
= x
n
)
= P

(X
x
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
)
= P
x
(X
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
)
ce qui montre que sous P
x
le processus des coordonn´ees est une chaˆıne de Markov de transition
Q (cf proposition 13.1.1).
Pour l’unicit´e, on remarque que si P

x
est une autre mesure de probabilit´e satisfaisant la
propri´et´e du th´eor`eme, les mesures P
x
et P

x
co¨ıncident sur les cylindres. Or les cylindres
forment une classe stable par intersection finie et qui engendre la tribu T. Le lemme de
classe monotone montre alors que P
x
= P

x
(cf Corollaire 1.4.2).
Remarques. (a) De la derni`ere assertion de la proposition 13.1.1, on d´eduit que, pour tout
n ≥ 0 et tous x, y ∈ E,
P
x
(X
n
= y) = Q
n
(x, y).
(b) Si µ est une mesure de probabilit´e sur E, on notera
P
µ
=
¸
x∈E
µ(x) P
x
qui d´efinit une mesure de probabilit´e sur Ω. En ´ecrivant la formule explicite pour P
µ
(X
0
=
x
0
, . . . , X
n
= x
n
), on v´erifie imm´ediatement que sous P
µ
, (X
n
)
n∈N
est une chaˆıne de Markov
de transition Q, et X
0
a pour loi µ.
(c) Si (X

n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q et de loi initiale µ, alors
pour toute partie mesurable B de Ω = E
N
, on a
P((X

n
)
n∈N
∈ B) = P
µ
(B).
En effet cette ´egalit´e est vraie lorsque B est un cylindre, et on peut ensuite utiliser le mˆeme
argument qu’`a la fin de la preuve ci-dessus. Cette ´egalit´e montre que tous les r´esultats
que nous ´etablirons dans la suite pour la chaˆıne de Markov canonique (celle fournie par le
th´eor`eme 13.3.3) se transporteront `a une chaˆıne de Markov quelconque de mˆeme matrice de
transition.
L’un des avantages importants de la chaˆıne de Markov canonique est de pouvoir utiliser
les op´erateurs de translation. Pour tout k ∈ N on d´efinit l’application θ
k
: Ω −→ Ω en posant
θ
k
((ω
n
)
n∈N
) = (ω
k+n
)
n∈N
.
197
Le lemme 13.3.2 montre que ces applications sont mesurables.
On note T
n
= σ(X
0
, X
1
, . . . , X
n
) la filtration canonique sur Ω. On utilise aussi la notation
E
x
pour d´esigner l’esp´erance sous la probabilit´e P
x
.
Th´eor`eme 13.3.4 (Propri´et´e de Markov simple) Soient F et G deux fonctions mesurables
positives sur Ω et soit n ≥ 0. Supposons que F est T
n
-mesurable. Alors, pour tout x ∈ E,
E
x
[F G◦ θ
n
] = E
x
[F E
Xn
[G]].
De mani`ere ´equivalente,
E
x
[G◦ θ
n
[ T
n
] = E
Xn
[G],
ce qu’on peut traduire en disant que la loi conditionnelle de θ
n
(ω) connaissant (X
0
, X
1
, . . . , X
n
)
est P
Xn
.
Remarque. Cet ´enonc´e se g´en´eralise aussitˆot au cas o` u on remplace E
x
par E
µ
pour
n’importe quelle loi initiale µ. Il en sera de mˆeme pour l’´enonc´e suivant.
Preuve. Il suffit de montrer la premi`ere assertion, et pour cela de traiter le cas o` u
F = 1
{X
0
=x
0
,X
1
=x
1
,...,Xn=xn}
pour x
0
, x
1
, . . . , x
n
∈ E. Consid´erons d’abord le cas o` u G est du mˆeme type :
G = 1
{X
0
=y
0
,X
1
=y
1
,...,Xp=yp}
o` u p ≥ 0 et y
0
, . . . , y
p
∈ E. Dans ce cas, si y ∈ E,
E
y
[G] = 1
{y
0
=y}
Q(y
0
, y
1
) . . . Q(y
p−1
, y
p
)
et par ailleurs
E
x
[F G◦ θ
n
] = P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n
= y
0
, X
n+1
= y
n+1
, . . . , X
n+p
= y
p
)
= 1
{x
0
=x}
Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
) 1
{y
0
=xn}
Q(y
0
, y
1
) . . . Q(y
p−1
, y
p
)
de sorte qu’on obtient facilement le r´esultat. Un argument de classe monotone montre ensuite
que le r´esultat reste vrai pour toute fonction G = 1
A
, A ∈ T, ce qui permet de conclure.
Le th´eor`eme pr´ec´edent donne une forme g´en´erale de la propri´et´e de Markov (simple) :
la loi conditionnelle du futur θ
n
(ω) connaissant le pass´e (X
0
, X
1
, . . . , X
n
) ne d´epend que
du pr´esent X
n
. Il sera tr`es important de pouvoir ´etendre cette propri´et´e au cas o` u n est
remplac´e par un temps al´eatoire T.
Pour illustrer l’int´erˆet de cette extension, consid´erons le probl`eme de savoir si partant
d’un point x la chaˆıne y revient infiniment souvent. Autrement dit, en notant
N
x
=

¸
n=0
1
{Xn=x}
198
a-t-on P
x
(N
x
= ∞) = 1 ? Il suffit en fait de v´erifier que la chaˆıne revient au moins une fois
en x. Si
H
x
= inf¦n ≥ 1 : X
n
= x¦
avec la convention habituelle inf ∅ = +∞, on a l’´equivalence
P
x
(N
x
= ∞) = 1 ⇔P
x
(H
x
< ∞) = 1.
L’implication ⇒ est triviale. Dans l’autre sens, supposons P
x
(H
x
< ∞) = 1. Mod-
ulo l’extension de la propri´et´e de Markov mentionn´ee ci-dessus, on sait que θ
Hx
(ω) =

Hx(ω)+n
)
n∈N
a pour loi P
x
. Mais alors, en ´ecrivant
N
x
(ω) = 1 +N
x

Hx
(ω))
on voit que N
x
a mˆeme loi que 1 +N
x
sous P
x
, ce qui n’est possible que si N
x
= ∞, P
x
p.s.
Le th´eor`eme qui suit permet de rendre ce raisonnement rigoureux (le r´esultat obtenu sera
repris et d´etaill´e dans la partie suivante).
Th´eor`eme 13.3.5 (Propri´et´e de Markov forte) Soit T un temps d’arrˆet de la filtration
(T
n
). Soient F et G deux fonctions mesurables positives sur Ω. Supposons que F est T
T
-
mesurable. Alors, pour tout x ∈ E,
E
x
[1
{T<∞}
F G◦ θ
T
] = E
x
[1
{T<∞}
F E
X
T
[G]].
De mani`ere ´equivalente,
E
x
[1
{T<∞}
G◦ θ
T
[ T
T
] = 1
{T<∞}
E
X
T
[G].
Remarque. La v.a. X
T
, d´efinie sur l’ensemble T
T
-mesurable ¦T < ∞¦, est T
T
-mesurable
(cf Proposition 12.2.3 - dans le chapitre pr´ec´edent on consid`ere des processus `a valeurs r´eelles,
mais l’argument reste le mˆeme). La v.a. E
X
T
[G], d´efinie aussi sur l’ensemble ¦T < ∞¦, est
la compos´ee des applications ω −→ X
T
(ω) et x →E
x
[G].
Preuve. Pour tout entier n ≥ 0,
E
x
[1
{T=n}
F G◦ θ
T
] = E
x
[1
{T=n}
F G◦ θ
n
] = E
x
[1
{T=n}
F E
Xn
[G]]
d’apr`es la propri´et´e de Markov simple (th´eor`eme 13.3.4) appliqu´ee en observant que 1
{T=n}
F
est T
n
-mesurable parce que F est T
T
-mesurable (cf d´efinition de la tribu T
T
dans le chapitre
pr´ec´edent). Il suffit ensuite de sommer l’´egalit´e obtenue sur toutes les valeurs de n ∈ N.
Corollaire 13.3.6 Soit T un temps d’arrˆet tel que P
x
(T < ∞) = 1. Supposons qu’il existe
y ∈ E tel que P
x
(X
T
= y) = 1. Alors sous P
x
, θ
T
(ω) est ind´ependant de T
T
et de loi P
y
.
Preuve. Avec les notations du th´eor`eme, on a
E
x
[F G(θ
T
(ω))] = E
x
[F E
X
T
[G]] = E
x
[F E
y
[G]] = E
x
[F] E
y
[G]
d’o` u les assertions de l’´enonc´e.
199
13.4 La classification des ´etats
A partir de maintenant, on utilise uniquement (sauf exception, notamment dans les exem-
ples) la chaˆıne de Markov canonique construite dans le paragraphe pr´ec´edent. Rappelons la
notation : pour x ∈ E,
H
x
= inf¦n ≥ 1 : X
n
= x¦
N
x
=

¸
n=0
1
{Xn=x}
.
Proposition 13.4.1 (et d´efinition) Soit x ∈ E. On a :
• ou bien P
x
(H
x
< ∞) = 1, et alors
N
x
= ∞, P
x
p.s.
dans ce cas x est dit r´ecurrent;
• ou bien P
x
(H
x
< ∞) < 1, et alors
N
x
< ∞, P
x
p.s.
et plus pr´ecis´ement E
x
[N
x
] = 1/P
x
(H
x
= ∞) < ∞; dans ce cas x est dit transitoire.
Preuve. Pour tout entier k ≥ 1, la propri´et´e de Markov forte montre que
P
x
(N
x
≥ k + 1) = E
x
[1
{Hx<∞}
1
{Nx≥k}
◦ θ
Hx
]
= E
x
[1
{Hx<∞}
E
x
[1
{Nx≥k}
]]
= P
x
(H
x
< ∞) P
x
(N
x
≥ k).
Puisque P
x
(N
x
≥ 1) = 1, une r´ecurrence imm´ediate donne P
x
(N
x
≥ k) = P
x
(H
x
< ∞)
k−1
.
Si P
x
(H
x
< ∞) = 1 il en d´ecoule aussitˆot que P
x
(N
x
= ∞) = 1. Si P
x
(H
x
< ∞) < 1, on
trouve
E
x
[N
x
] =

¸
k=1
P
x
(N
x
≥ k) =
1
P
x
(H
x
= ∞)
< ∞.
D´efinition 13.4.1 Le noyau potentiel de la chaˆıne est la fonction U : E E −→ [0, ∞]
d´efinie par
U(x, y) = E
x
[N
y
].
Proposition 13.4.2 (i) Pour tous x, y ∈ E,
U(x, y) =

¸
n=0
Q
n
(x, y).
(ii) U(x, x) = ∞ si et seulement si x est r´ecurrent.
(iii) Pour tous x, y ∈ E, avec x = y,
U(x, y) = P
x
(H
y
< ∞) U(y, y).
200
Preuve. La propri´et´e (i) est obtenue en ´ecrivant :
U(x, y) = E
x


¸
n=0
1
{Xn=y}

=

¸
n=0
P
x
(X
n
= y) =

¸
n=0
Q
n
(x, y).
La propri´et´e (ii) est une cons´equence imm´ediate de la proposition 13.4.1 et de la d´efinition
de U.
Enfin (iii) d´ecoule de la propri´et´e de Markov forte :
E
x
[N
y
] = E
x
[1
{Hy<∞}
N
y
◦ θ
Hy
] = E
x
[1
{Hy<∞}
E
y
[N
y
]] = P
x
(H
y
< ∞) U(y, y).
Exemple. Consid´erons la chaˆıne de Markov sur Z
d
de matrice de transition
Q((x
1
, . . . , x
d
), (y
1
, . . . , y
d
)) =
1
2
d
d
¸
i=1
1
{|y
i
−x
i
|=1}
(c’est un cas particulier de marche al´eatoire sur Z
d
). Cette chaˆıne de Markov issue de 0 a
mˆeme loi que (Y
1
n
, . . . , Y
d
n
)
n∈N
, o` u les processus Y
1
, . . . , Y
d
sont des copies ind´ependantes de
la marche al´eatoire simple (pile ou face) sur Z, issue de 0. En cons´equence,
Q
n
(0, 0) = P(Y
1
n
= 0, . . . , Y
d
n
= 0) = P(Y
1
n
= 0)
d
.
Or P(Y
1
n
= 0) = 0 si n est impair, et si n = 2k est pair, un argument de d´enombrement
simple montre que
P(Y
1
2k
= 0) = 2
−2k
C
k
2k
.
En cons´equence,
U(0, 0) =

¸
k=0
Q
2k
(0, 0) =

¸
k=0
(2
−2k
C
k
2k
)
d
.
La formule de Stirling montre que
2
−2k
C
k
2k

k→∞
(
2k
e
)
2k

4πk
2
2k
((
k
e
)
k

2πk)
2

k→∞

1
πk
.
Donc 0 est r´ecurrent si d = 1 ou 2, et transitoire si d ≥ 3.
On note R l’ensemble des ´etats (points) r´ecurrents.
Lemme 13.4.3 Soit x ∈ R et soit y un autre point de E tel que U(x, y) > 0. Alors y ∈ R
et P
y
(H
x
< ∞) = 1, donc en particulier U(y, x) > 0.
Preuve. Montrons d’abord que P
y
(H
x
< ∞) = 1. Pour cela on ´ecrit
0 = P
x
(N
x
< ∞) ≥ P
x
(H
y
< ∞, H
x
◦ θ
Hy
= ∞)
= E
x
[1
{Hy<∞}
1
{Hx=∞}
◦ θ
Hy
]
= E
x
[1
{Hy<∞}
P
y
(H
x
= ∞)]
= P
x
(H
y
< ∞) P
y
(H
x
= ∞).
201
L’hypoth`ese U(x, y) > 0 entraˆıne P
x
(H
y
< ∞) > 0. On conclut que P
y
(H
x
= ∞) = 0.
Ensuite, on peut trouver des entiers n
1
, n
2
≥ 1 tels que Q
n
1
(x, y) > 0, et Q
n
2
(y, x) > 0.
Pour tout entier p ≥ 0, on a alors
Q
n
2
+p+n
1
(y, y) ≥ Q
n
2
(y, x)Q
p
(x, x)Q
n
1
(x, y)
et donc
U(y, y) ≥

¸
p=0
Q
n
2
+p+n
1
(y, y) ≥ Q
n
2
(y, x)


¸
p=0
Q
p
(x, x)

Q
n
1
(x, y) = ∞
puisque x ∈ R entraˆıne
¸

p=0
Q
p
(x, x) = U(x, x) = ∞.
En cons´equence du lemme, si x ∈ R et y ∈ E`R on a U(x, y) = 0 : on ne peut pas passer
d’un point r´ecurrent `a un point transitoire. Cette propri´et´e joue un rˆole important dans le
th´eor`eme suivant.
Th´eor`eme 13.4.4 (Classification des ´etats) Il existe une partition de R
R =
¸
i∈I
R
i
telle qu’on ait les propri´et´es suivantes :
• si x ∈ R, et si i ∈ I est tel que x ∈ R
i
, on a P
x
p.s.
— N
y
= +∞, ∀y ∈ R
i
;
— N
y
= 0 , ∀y ∈ E`R
i
;
• si x ∈ E`R et T = inf¦n ≥ 0 : X
n
∈ R¦, on a P
x
p.s.
— ou bien T = ∞ et N
y
< ∞, ∀y ∈ E;
— ou bien T < ∞ et il existe un indice (al´eatoire) j ∈ I tel que : ∀n ≥ T, X
n
∈ R
j
.
Preuve. Pour x, y ∈ R, notons x ∼ y si U(x, y) > 0. Il d´ecoule du lemme pr´ec´edent qu’on
ainsi d´efini une relation d’´equivalence sur R (pour la transitivit´e, on observe que Q
n
(x, y) > 0
et Q
m
(y, z) > 0 entraˆınent Q
n+m
(x, z) > 0. La partition du th´eor`eme correspond alors aux
classes d’´equivalence pour cette relation d’´equivalence, qu’on appelle aussi les classes de
r´ecurrence de la chaˆıne de Markov.
Soit i ∈ I et x ∈ R
i
. On a U(x, y) = 0 pour tout y ∈ E`R
i
(dans le cas y ∈ E`R on
utilise le lemme) et donc N
y
= 0, P
x
p.s. pour tout y ∈ E`R
i
. En revanche, si y ∈ R
i
, on a
P
x
(H
y
< ∞) = 1 d’apr`es le lemme, et la propri´et´e de Markov forte montre que
P
x
(N
y
= ∞) = E
x
(1
{Hy<∞}
1
{Ny=∞}
◦ θ
Hy
] = P
x
(H
y
< ∞) P
y
(N
y
= ∞) = 1.
Si x ∈ E`R et T = ∞, alors on d´eduit facilement de la propri´et´e de Markov forte que
N
y
< ∞ pour tout y ∈ E`R. Si T < ∞, notons j l’indice (al´eatoire) tel que X
T
∈ R
j
. En
appliquant la propri´et´e de Markov forte en T, et la premi`ere partie de l’´enonc´e, on obtient
ais´ement que X
n
∈ R
j
pour tout n ≥ T.
202
D´efinition 13.4.2 La chaˆıne est dite irr´eductible si U(x, y) > 0 pour tous x, y ∈ E.
Corollaire 13.4.5 Si la chaˆıne est irr´eductible :
• ou bien tous les ´etats sont r´ecurrents, il existe une seule classe de r´ecurrence et on a pour
tout x ∈ E,
P
x
(N
y
= ∞, ∀y ∈ E) = 1.
• ou bien tous les ´etats sont transitoires et alors, pour tout x ∈ E,
P
x
(N
y
< ∞, ∀y ∈ E) = 1.
Lorsque E est fini, seul le premier cas peut se produire.
Preuve. S’il existe un ´etat r´ecurrent, le lemme 13.4.3 montre aussitˆot que tous les ´etats
sont r´ecurrents, et puisque U(x, y) > 0 pour tous x, y ∈ E, on voit aussi qu’il y a une seule
classe de r´ecurrence. Le reste d´ecoule du th´eor`eme, `a l’exception de la derni`ere assertion :
si E est fini et si on suppose que tous les ´etats sont transitoires, on a
P
x
p.s. ,
¸
y∈E
N
y
< ∞
ce qui est absurde puisque
¸
y∈E
N
y
=
¸
y∈E

¸
n=0
1
{Xn=y}
=

¸
n=0
¸
y∈E
1
{Xn=y}
= ∞.

Une chaˆıne de Markov irr´eductible dont les ´etats sont r´ecurrents sera dite r´ecurrente
irr´eductible.
Exemples. Nous reprenons maintenant les diff´erents exemples introduits ci-dessus pour
discuter dans chaque cas la classification des ´etats. Avant cela, insistons sur le fait que les
r´esultats obtenus pour la chaˆıne de Markov canonique se traduisent imm´ediatement pour
une chaˆıne de Markov quelconque (Y
n
)
n∈N
de transition Q (et inversement). Par exemple, si
Y
0
= y, en notant N
Y
x
=
¸

n=0
1
{Yn=x}
, on a pour tout k ∈ N,
P(N
Y
x
= k) = P
y
(N
x
= k))
puisque le terme de gauche s’´ecrit aussi bien
P((Y
n
)
n∈N
∈ B)
avec B = ¦ω ∈ E
N
: N
x
(ω) = k¦, et il suffit d’utiliser la remarque (b) suivant le th´eor`eme
13.3.3.
(1) Cas de variables al´eatoires ind´ependantes de loi µ. Dans ce cas Q(x, y) = µ(y).
On voit facilement que y est r´ecurrent ssi µ(y) > 0, et il y a une seule classe de r´ecurrence.
La chaˆıne est irr´eductible ssi µ(y) > 0 pour tout y ∈ E.
203
(2) Marche al´eatoire sur Z. On a
Y
n
= Y
0
+
n
¸
i=1
ξ
i
o` u les v.a. ξ
i
, `a valeurs dans Z, sont ind´ependantes et de loi µ (et ind´ependantes de Y
0
).
Dans ce cas, puisque Q(x, y) = µ(y −x), on voit ais´ement que U(x, y) est fonction de y −x,
et donc tous les ´etats sont du mˆeme type, r´ecurrent ou transitoire.
Th´eor`eme 13.4.6 Supposons E[[ξ
1
[] < ∞ et soit m = E[ξ
1
].
(i) Si m = 0, tous les ´etats sont transitoires.
(ii) Si m = 0, tous les ´etats sont r´ecurrents. De plus, la chaˆıne est irr´eductible ssi le
sous-groupe engendr´e par ¦y ∈ Z : µ(y) > 0¦ est Z tout entier.
Preuve. (i) Si m = 0, la loi forte des grands nombres montre aussitˆot que [Y
n
[ −→ ∞ p.s.
et donc tous les ´etats sont transitoires.
(ii) Supposons que m = 0 et que 0 est transitoire, donc U(0, 0) < ∞. Nous allons voir que
ceci conduit `a une contradiction. Sans perte de g´en´eralit´e, on suppose dans la suite que
Y
0
= 0. On observe que, pour tout x ∈ Z,
U(0, x) ≤ U(x, x) = U(0, 0)
la premi`ere in´egalit´e d´ecoulant de la proposition 13.4.2(iii). En cons´equence, pour tout
n ≥ 1,
¸
|x|≤n
U(0, x) ≤ (2n + 1)U(0, 0) ≤ Cn (13.2)
avec C = 3U(0, 0) < ∞.
D’autre part, on sait que n
−1
Y
n
converge p.s., donc aussi en probabilit´e, vers 0. Si on
pose ε = (4C)
−1
, on peut trouver N assez grand pour que, pour tout n ≥ N,
P([Y
n
[ ≤ εn) >
1
2
,
ou de mani`ere ´equivalente,
¸
|x|≤εn
Q
n
(0, x) >
1
2
.
Si n ≥ p ≥ N, on a aussi
¸
|x|≤εn
Q
p
(0, x) ≥
¸
|x|≤εp
Q
p
(0, x) >
1
2
puis en sommant sur p,
¸
|x|≤εn
U(0, x) ≥
n
¸
p=N
¸
|x|≤εp
Q
p
(0, x) >
n −N
2
.
204
Mais d’autre part, d’apr`es (13.2), si εn ≥ 1,
¸
|x|≤εn
U(0, x) ≤ Cεn =
n
4
.
On obtient une contradiction d`es que n est assez grand.
Il reste `a ´etablir la derni`ere assertion. Notons G le sous-groupe engendr´e par ¦x ∈ Z :
µ(x) > 0¦. Il est imm´ediat que
P(Y
n
∈ G, ∀n ∈ N) = 1
(rappelons que nous avons pris Y
0
= 0). Cela montre que si G = Z, la chaˆıne n’est pas
irr´eductible. Inversement, supposons que G = Z. Alors, notons
H = ¦x ∈ Z : U(0, x) > 0¦
et observons que H est un sous-groupe de Z :
• si x, y ∈ H, l’in´egalit´e
Q
n+p
(0, x + y) ≥ Q
n
(0, x) Q
p
(x, x + y) = Q
n
(0, x) Q
p
(0, y)
montre que x + y ∈ H;
• si x ∈ H, comme 0 est r´ecurrent, la condition U(0, x) > 0 entraˆıne U(x, 0) > 0 (lemme
13.4.3) et puisque U(x, 0) = U(0, −x) on a bien −x ∈ H.
Finalement, puisque H contient ¦x ∈ Z : µ(x) > 0¦, on a forc´ement H = Z.
Par exemple, si µ =
1
2
δ
−2
+
1
2
δ
2
, tous les ´etats sont r´ecurrents, mais il y a deux classes de
r´ecurrence, les entiers pairs et les entiers impairs.
(3) Marche al´eatoire sur un graphe. On consid`ere ici le cas d’un graphe fini : E est fini
et A est un sous-ensemble de {
2
(E) tel que, pour tout x ∈ E, A
x
:= ¦y ∈ E : ¦x, y¦ ∈ A¦
est non vide. Le graphe est dit connexe si pour tous x, y ∈ E, on peut trouver un entier
p ≥ 0 et des ´elements x
0
= x, x
1
, . . . , x
p−1
, x
p
= y de E tels que ¦x
i−1
, x
i
¦ ∈ A pour tout
i ∈ ¦1, . . . , p¦.
Proposition 13.4.7 La marche al´eatoire simple sur un graphe fini connexe est r´ecurrente
irr´eductible.
Preuve. Le caract`ere irr´eductible de la chaˆıne d´ecoule de la connexit´e du graphe. Il suffit
ensuite d’appliquer le corollaire 13.4.5.
(4) Processus de branchement. Dans ce cas E = N et Q(x, y) = µ
∗x
(y). On remarque
que l’´etat 0 est toujours absorbant, au sens o` u
P
0
(∀n ∈ N, X
n
= 0) = 1.
En cons´equence 0 est aussi r´ecurrent.
Dans la proposition suivante, nous ´ecartons le cas trivial µ = δ
1
, o` u tous les ´etats sont
absorbants.
205
Proposition 13.4.8 0 est le seul ´etat r´ecurrent. En cons´equence, on a p.s.
• ou bien ∃N : ∀n ≥ N , X
n
= 0.
• ou bien X
n
−→ +∞ quand n → ∞.
Remarque. On a vu dans le chapitre pr´ec´edent que le premier cas se produit avec probabilit´e
1 si m =
¸
kµ(k) ≤ 1, et que le second cas se produit avec probabilit´e strictement positive
si m > 1 (sous l’hypoth`ese suppl´ementaire que µ a un moment d’ordre 2).
Preuve. Supposons d’abord que µ(0) > 0. Si x ≥ 1, U(x, 0) ≥ P
x
(X
1
= 0) = µ(0)
x
> 0
alors que U(0, x) = 0. Cela n’est possible que si x est transitoire. Traitons ensuite le cas o` u
µ(0) = 0. Comme nous excluons le cas µ = δ
1
, il existe alors k ≥ 2 tel que µ(k) > 0. Alors,
pour tout x ≥ 1, P
x
(X
1
> x) > 0, ce qui entraˆıne qu’il existe y > x tel que U(x, y) > 0.
Comme on a clairement U(y, x) = 0, on conclut encore que x est transitoire. Les autres
assertions d´ecoulent maintenant du th´eor`eme 13.4.4.
13.5 Mesures invariantes
D´efinition 13.5.1 Soit µ une mesure positive sur E, telle que µ(x) < ∞ pour tout x ∈ E
et µ n’est pas la mesure identiquement nulle. On dit que µ est invariante pour la matrice de
transition Q (ou simplement invariante s’il n’y a pas ambiguˆıt´e) si
∀y ∈ E , µ(y) =
¸
x∈E
µ(x)Q(x, y).
Sous forme matricielle, la condition d’invariance s’´ecrit µQ = µ. Puisque pour tout n,
Q
n
= (Q)
n
, on peut it´erer cette relation et obtenir que µQ
n
= µ pour tout n ∈ N.
Interpr´etation. Supposons de plus que µ(E) < ∞ (ce qui sera toujours le cas si E est fini).
Quitte `a remplacer µ par µ(E)
−1
µ, on peut supposer µ(E) = 1. Alors, pour toute fonction
f : E −→R
+
,
E
µ
[f(X
1
)] =
¸
x∈E
µ(x)
¸
y∈E
Q(x, y)f(y) =
¸
y∈E
f(y)
¸
x∈E
µ(x)Q(x, y) =
¸
y∈E
µ(y)f(y)
ce qui montre que sous P
µ
, X
1
a mˆeme loi µ que X
0
. En utilisant la relation µQ
n
= Q, on
obtient de mˆeme que pour tout n ∈ N la loi de X
n
sous P
µ
est µ. Plus pr´ecis´ement, pour
toute fonction F : Ω −→R
+
mesurable,
E
µ
[F ◦ θ
1
] = E
µ
[E
X
1
[F]] =
¸
x∈E
µ(x) E
x
[F] = E
µ
[F]
ce qui montre que sous P
µ
, (X
1+n
)
n∈N
a mˆeme loi que (X
n
)
n∈N
(et de mˆeme, pour tout entier
k ≥ 0, (X
k+n
)
n∈N
a mˆeme loi que (X
n
)
n∈N
).
Exemple. Pour toute marche al´eatoire sur Z
d
(Q(x, y) = γ(y−x) ne d´epend que la diff´erence
y −x), on v´erifie imm´ediatement que la mesure de comptage sur Z
d
est invariante.
206
D´efinition 13.5.2 Soit µ une mesure positive non triviale sur E, telle que µ(x) < ∞ pour
tout x ∈ E. On dit que µ est r´eversible si
∀x, y ∈ E , µ(x)Q(x, y) = µ(y)Q(y, x).
Proposition 13.5.1 Toute mesure r´eversible est invariante.
Preuve. Si µ est r´eversible,
¸
x∈E
µ(x)Q(x, y) =
¸
x∈E
µ(y)Q(y, x) = µ(y).

En revanche, il existe des mesures invariantes qui ne sont pas r´eversibles : nous avons
vu que la mesure de comptage est invariante pour toute marche al´eatoire sur Z
d
, cependant
elle n’est r´eversible que si la loi de saut γ est sym´etrique (γ(x) = γ(−x)).
Exemples. (a) Pile ou face biais´e. C’est la marche al´eatoire sur Z de matrice de transition
Q(i, i + 1) = p
Q(i, i −1) = q = 1 −p
o` u p ∈]0, 1[. Dans ce cas, on v´erifie ais´ement que la mesure
µ(i) = (
p
q
)
i
, i ∈ Z
est r´eversible, donc invariante. Remarquons que µ est diff´erente de la mesure de comptage
(qui est aussi invariante) sauf dans le cas p = 1/2.
(b) Marche al´eatoire sur un graphe. La mesure
µ(x) = Card(A
x
)
est r´eversible. En effet, si ¦x, y¦ ∈ A,
µ(x)Q(x, y) = Card(A
x
)
1
Card(A
x
)
= 1 = µ(y)Q(y, x).
(c) Mod`ele d’urne d’Ehrenfest. C’est la chaˆıne de Markov dans ¦0, 1, . . . , k¦ de matrice
de transition
Q(j, j + 1) =
k−j
k
si 0 ≤ j ≤ k −1
Q(j, j −1) =
j
k
si 1 ≤ j ≤ k.
Une mesure µ est r´eversible ssi
µ(j)
k −j
k
= µ(j + 1)
j + 1
k
pour tout 0 ≤ j ≤ k −1. On trouve ais´ement que
µ(j) = C
j
k
convient.
207
Th´eor`eme 13.5.2 Soit x un point r´ecurrent. La formule
µ(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

d´efinit une mesure invariante. De plus, µ(y) > 0 ssi y appartient `a la classe de r´ecurrence
de x.
Preuve. Remarquons d’abord que si y n’est pas dans la classe de r´ecurrence de x on a
E
x
[N
y
] = U(x, y) = 0, et donc a fortiori µ(y) = 0.
Ensuite, on ´ecrit pour tout y ∈ E,
µ(y) = E
x

Hx
¸
k=1
1
{X
k
=y}

=
¸
z∈E
E
x

Hx
¸
k=1
1
{X
k−1
=z, X
k
=y}

=
¸
z∈E

¸
k=1
E
x

1
{k≤Hx, X
k−1
=z}
1
{X
k
=y}

=
¸
z∈E

¸
k=1
E
x

1
{k≤Hx, X
k−1
=z}

Q(z, y)
=
¸
z∈E
E
x

Hx
¸
k=1
1
{X
k−1
=z}

Q(z, y)
=
¸
z∈E
µ(z)Q(z, y).
Dans la quatri`eme ´egalit´e, on a utilis´e le fait que l’´ev´enement ¦k ≤ H
x
, X
k−1
= z¦ est
T
k−1
-mesurable pour appliquer la propri´et´e de Markov `a l’instant k −1.
On a obtenu l’identit´e µQ = µ, qu’on peut it´erer pour avoir µQ
n
= µ pour tout entier
n ≥ 0. En particulier, pour tout entier n ≥ 0,
µ(x) = 1 =
¸
z∈E
µ(z)Q
n
(z, x).
Soit y un point de la classe de r´ecurrence de x. Alors, il existe n ≥ 0 tel que Q
n
(y, x) > 0, et
la formule pr´ec´edente montre que µ(y) < ∞. On peut aussi trouver m tel que Q
m
(x, y) > 0,
et on a
µ(y) =
¸
z∈E
µ(z)Q
m
(z, y) ≥ Q
m
(x, y) > 0.
Remarque. S’il existe plusieurs classes de r´ecurrence R
i
, i ∈ I, alors en choisissant pour
chaque i ∈ I un point x
i
∈ R
i
et en posant
µ
i
(y) = E
x
i

Hx
i
−1
¸
k=0
1
{X
k
=y}

208
on construit des mesures invariantes `a supports disjoints.
Th´eor`eme 13.5.3 Supposons la chaˆıne r´ecurrente irr´eductible. Alors la mesure invariante
est unique `a une constante multiplicative pr`es.
Preuve. Soit µ une mesure invariante. On montre par r´ecurrence que, pour tout entier
p ≥ 0, pour tous x, y ∈ E,
µ(y) ≥ µ(x) E
x

p∧(Hx−1)
¸
k=0
1
{X
k
=y}

. (13.3)
D’abord, si y = x, l’in´egalit´e est imm´ediate (avec mˆeme une ´egalit´e). On suppose donc
y = x. Si p = 0, l’in´egalit´e (13.3) est triviale. On suppose que (13.3) est vraie `a l’ordre p.
Alors,
µ(y) =
¸
z∈E
µ(z) Q(z, y)
≥ µ(x)
¸
z∈E
E
x

p∧(Hx−1)
¸
k=0
1
{X
k
=z}

Q(z, y)
= µ(x)
¸
z∈E
p
¸
k=0
E
x

1
{X
k
=z, k≤Hx−1}

Q(z, y)
= µ(x)
¸
z∈E
p
¸
k=0
E
x

1
{X
k
=z, k≤Hx−1}
1
{X
k+1
=y}

= µ(x)E
x

p∧(Hx−1)
¸
k=0
1
{X
k+1
=y}

= µ(x)E
x

(p+1)∧Hx
¸
k=1
1
{X
k
=y}

,
ce qui donne le r´esultat voulu `a l’ordre p +1. De mani`ere analogue `a la preuve du th´eor`eme
pr´ec´edent, on a utilis´e le fait que l’´ev´enement ¦X
k
= z, k ≤ H
x
−1¦ est T
k
-mesurable pour
appliquer la propri´et´e de Markov `a l’instant k.
En faisant tendre p vers +∞ dans (13.3) on trouve
µ(y) ≥ µ(x) E
x

Hx−1
¸
k=0
1
{X
k
=y}

.
Fixons x ∈ E. La mesure
ν
x
(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

209
est invariante (th´eor`eme 13.5.2), et on a µ(y) ≥ µ(x)ν
x
(y) pour tout y ∈ E. Donc, pour tout
n ≥ 1,
µ(x) =
¸
z∈E
µ(z)Q
n
(z, x) ≥
¸
z∈E
µ(x)ν
x
(z)Q
n
(z, x) = µ(x)ν
x
(x) = µ(x),
ce qui montre que l’´egalit´e µ(z) = µ(x)ν
x
(z) a lieu pour tout z tel que Q
n
(z, x) > 0.
L’irr´eductibilit´e assure que pour tout z ∈ E on peut trouver un entier n tel que Q
n
(z, x) > 0,
et on conlut donc que µ = µ(x)ν
x
, ce qui termine la preuve.
Corollaire 13.5.4 Supposons la chaˆıne r´ecurrente irr´eductible. Alors :
(i) Ou bien il existe une mesure de probabilit´e invariante µ, et on a pour tout x ∈ E,
E
x
[H
x
] =
1
µ(x)
.
(ii) Ou bien toute mesure invariante a une masse totale infinie, et on a pour tout x ∈ E,
E
x
[H
x
] = ∞.
La chaˆıne est dite r´ecurrente positive dans le cas (i) et r´ecurrente nulle dans le cas (ii).
Remarque. Si E est fini seul le cas (i) se produit.
Preuve. D’apr`es le th´eor`eme 13.5.3, toutes les mesures invariantes sont proportionnelles.
Donc ou bien elles sont toutes de masse totale infinie (cas (ii)) ou bien elles sont toutes finies,
et on peut normaliser pour en trouver une qui soit une mesure de probabilit´e (cas (i)). Dans
le cas (i), soit µ l’unique mesure de probabilit´e invariante et soit x ∈ E. Alors, si ν
x
d´esigne
la mesure invariante fournie par le th´eor`eme 13.5.2,
ν
x
(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

,
µ est proportionnelle `a ν
x
: µ = Cν
x
avec C > 0. En ´ecrivant 1 = µ(E) = C ν
x
(E), on
trouve C = (ν
x
(E))
−1
, d’o` u
µ(x) =
ν
x
(x)
ν
x
(E)
=
1
ν
x
(E)
.
Or
ν
x
(E) =
¸
y∈E
E
x

Hx−1
¸
k=0
1
{X
k
=y}

= E
x

Hx−1
¸
k=0

¸
y∈E
1
{X
k
=y}

= E
x
[H
x
].
Dans le cas (ii), ν
x
est infinie, et donc, par le mˆeme calcul,
E
x
[H
x
] = ν
x
(E) = ∞.
Proposition 13.5.5 Supposons la chaˆıne irr´eductible. S’il existe une mesure invariante
finie, la chaˆıne est r´ecurrente (et donc r´ecurrente positive).
210
Preuve. Soit γ une mesure invariante finie, et soit y ∈ E tel que γ(y) > 0. Pour tout
x ∈ E, la proposition 13.4.2(iii) donne l’in´egalit´e

¸
n=0
Q
n
(x, y) = U(x, y) ≤ U(y, y).
On multiplie les deux membres de cette in´egalit´e par γ(x) et on somme sur toutes les valeurs
de x ∈ E. Il vient

¸
n=0
γQ
n
(y) ≤ γ(E) U(y, y).
Puisque γ est invariante on a γQ
n
(y) = γ(y) > 0 pour tout n ≥ 0. On conclut donc que
γ(E) U(y, y) = ∞.
Comme γ(E) < ∞, cela entraˆıne que U(y, y) = ∞. Donc y est r´ecurrent et puisque la chaˆıne
est irr´eductible elle est r´ecurrente (corollaire 13.4.5).
Remarque. L’existence d’une mesure invariante infinie ne permet pas de conclure : con-
sid´erer par exemple le pile ou face biais´e (exemple (1) ci-dessus apr`es la proposition 13.5.1)
qui n’est r´ecurrent que si p = 1/2.
Exemple. Soit p ∈]0, 1[. Consid´erons la chaˆıne de Markov sur E = N de matrice de
transition
Q(k, k + 1) = p , Q(k, k −1) = 1 −p , si k ≥ 1,
Q(0, 1) = 1.
Cette chaˆıne est irr´eductible. De plus on v´erifie imm´ediatement que la mesure µ d´efinie par
µ(k) =

p
1 −p

k−1
, si k ≥ 1,
µ(0) = 1 −p ,
est r´eversible donc invariante.
Si p <
1
2
, la mesure µ est finie, et la proposition 13.5.5 entraˆıne que la chaˆıne est r´ecurrente
positive. (Exercice : Montrer que la chaˆıne est r´ecurrente nulle si p =
1
2
, et transitoire si
p >
1
2
.)
13.6 Comportement asymptotique
Nous continuons `a consid´erer la chaˆıne de Markov canonique associ´ee `a une matrice de
transition Q.
Th´eor`eme 13.6.1 Supposons la chaˆıne r´ecurrente irr´eductible, et soit µ une mesure invari-
ante. Soient f et g deux fonctions positives sur E telles que

f dµ < ∞ et 0 <

g dµ < ∞.
Alors, pour tout x ∈ E on a P
x
p.s.
¸
n
k=0
f(X
k
)
¸
n
k=0
g(X
k
)
−→
n→∞

f dµ

g dµ
.
211
Remarque. Le r´esultat reste vrai si µ(f) = ∞. Il suffit d’utiliser un argument de compa-
raison en ´ecrivant f = lim ↑ f
k
, avec des fonctions positives f
k
telles que

f
k
dµ < ∞.
Corollaire 13.6.2 Si la chaˆıne de Markov est irr´eductible et r´ecurrente positive, et si µ
d´esigne l’unique probabilit´e invariante, on a P
x
p.s.
1
n
n
¸
k=0
f(X
k
) −→
n→∞

f dµ.
Le corollaire d´ecoule imm´ediatement du th´eor`eme en prenant g = 1 dans l’´enonc´e.
Preuve du th´eor`eme 13.6.1. On d´efinit les temps d’arrˆet
T
0
= 0 , T
1
= H
x
et par r´ecurrence
T
n+1
= inf¦k > T
n
: X
k
= x¦.
Le temps T
n
est l’instant du n-i`eme retour en x de la chaˆıne. Puisque l’´etat x est r´ecurrent,
tous ces temps d’arrˆet sont finis p.s. On pose aussi pour tout k ≥ 0,
Z
k
(f) =
T
k+1
−1
¸
n=T
k
f(X
n
).
Lemme 13.6.3 Les v.a. Z
k
(f), k = 0, 1, 2, . . ., sont ind´ependantes et de mˆeme loi.
Preuve. Soient g
0
, g
1
, g
2
, . . . des fonctions mesurables born´ees sur R
+
. Il suffit de montrer
que, pour tout entier k ≥ 0, on a
E
x

k
¸
i=0
g
i
(Z
i
(f))

=
k
¸
i=0
E
x
[g
i
(Z
0
(f))].
On d´emontre cette identit´e par r´ecurrence sur k. Pour k = 0 il n’y a rien `a montrer. Pour
passer de l’ordre k −1 `a l’ordre k, on observe que :
• les v.a. Z
0
(f), Z
1
(f), . . . , Z
k−1
(f) sont T
T
k
-mesurables (exercice !);
• la suite translat´ee θ
T
k
(ω) est ind´ependante de T
T
k
et de loi P
x
, d’apr`es le corollaire 13.3.6;
• on a Z
k
(f) = Z
0
(f) ◦ θ
T
k
, par construction.
Il d´ecoule de tout ceci que
E
x

k
¸
i=0
g
i
(Z
i
(f))

= E
x

k−1
¸
i=0
g
i
(Z
i
(f))

g
k
(Z
0
(f) ◦ θ
T
k
)

= E
x

k−1
¸
i=0
g
i
(Z
i
(f))

E
x
[g
k
(Z
0
(f))],
d’o` u le r´esultat voulu `a l’ordre k.
212
Nous revenons `a la preuve du th´eor`eme. Si ν
x
d´esigne comme pr´ec´edemment la mesure
invariante construite dans le th´eor`eme 13.5.2, on a µ = µ(x)ν
x
puisque ν
x
(x) = 1 et que
toutes les mesures invariantes sont proportionnelles (th´eor`eme 13.5.3). On observe alors que
E
x
[Z
0
(f)] = E
x

Hx−1
¸
k=0
¸
y∈E
f(y) 1
{X
k
=y}

=
¸
y∈E
f(y) ν
x
(y) =

f dµ
µ(x)
.
Le lemme 13.6.3 et la loi forte des grands nombres montrent ensuite que P
x
p.s.
1
n
n−1
¸
k=0
Z
k
(f) −→
n→∞

f dµ
µ(x)
. (13.4)
Pour tout entier n, notons N
x
(n) le nombre de retours en x effectu´es par la chaˆıne avant
l’instant n, de sorte que T
Nx(n)
≤ n < T
Nx(n)+1
. En ´ecrivant
T
Nx(n)
−1
¸
k=0
f(X
k
)
N
x
(n)

n
¸
k=0
f(X
k
)
N
x
(n)

T
Nx(n)+1
−1
¸
k=0
f(X
k
)
N
x
(n)
ce qui ´equivaut `a
Nx(n)−1
¸
j=0
Z
j
(f)
N
x
(n)

n
¸
k=0
f(X
k
)
N
x
(n)

Nx(n)
¸
j=0
Z
j
(f)
N
x
(n)
on d´eduit de la convergence (13.4) que P
x
p.s.
1
N
x
(n)
n
¸
k=0
f(X
k
) −→
n→∞

f dµ
µ(x)
.
Il suffit ensuite d’utiliser le mˆeme r´esultat avec f remplac´ee par g pour finir la preuve.
Corollaire 13.6.4 Supposons la chaˆıne r´ecurrente irr´eductible. Alors, pour tout x ∈ E,
(i) dans le cas r´ecurrent positif,
1
n
n−1
¸
k=0
1
{X
k
=x}
p.s.
−→
n→∞
µ(x),
o` u µ est l’unique probabilit´e invariante;
(ii) dans le cas r´ecurrent nul,
1
n
n−1
¸
k=0
1
{X
k
=x}
p.s.
−→
n→∞
0.
213
Dans les deux cas la convergence a lieu pour toute loi initiale de la chaˆıne.
D´efinition 13.6.1 Soit x un point r´ecurrent, et
L
x
= ¦n ≥ 0 : Q
n
(x, x) > 0¦.
La p´eriode de x, not´ee d(x), est le PGCD de L
x
.
Remarque. Puisque L
x
est stable par addition (Q
n+m
(x, x) ≥ Q
n
(x, x)Q
m
(x, x)), le sous
groupe engendr´e par L
x
est L
x
−L
x
= d(x)Z.
Proposition 13.6.5 Supposons la chaˆıne r´ecurrente irr´eductible.
(i) Tous les points ont la mˆeme p´eriode, appel´ee la p´eriode de la chaˆıne et not´ee d.
(ii) Si d = 1 (la chaˆıne est alors dite ap´eriodique), pour tous x, y ∈ E, il existe un entier
n
0
tel que Q
n
(x, y) > 0 pour tout n ≥ n
0
.
Preuve. (i) Soient x, y ∈ E. Puisque la chaˆıne est irr´eductible, il existe deux entiers n
1
et
n
2
tels que Q
n
1
(x, y) > 0 et Q
n
2
(y, x) > 0. Mais alors, si n ∈ L
x
, on a n
1
+ n + n
2
∈ L
y
, ce
qui entraˆıne que L
x
−L
x
⊂ L
y
−L
y
et donc d(y) divise d(x). Par sym´etrie on a d(y) = d(x).
(ii) Clairement, il suffit de traiter le cas o` u y = x. Puisque d(x) = 1, on peut trouver deux
entiers n
1
, m
1
≥ 0 tels que 1 = n
1
−m
1
et
Q
n
1
(x, x) > 0, Q
m
1
(x, x) > 0.
Si m
1
= 0, donc n
1
= 1 le r´esultat est ´evident avec n
0
= 0. Si m
1
≥ 1, alors, pour tout
j ∈ ¦0, 1, . . . , m
1
−1¦, on a
Q
m
2
1
+j
(x, x) = Q
jn
1
+(m
1
−j)m
1
(x, x) > 0.
Il en d´ecoule que, si n
0
= m
2
1
on a pour tout entier j ≥ 0,
Q
n
0
+j
(x, x) > 0.
Th´eor`eme 13.6.6 Supposons la chaˆıne irr´eductible, r´ecurrente positive et ap´eriodique. Alors,
si µ d´esigne l’unique probabilit´e invariante, on a pour tout x ∈ E,
¸
y∈E
[P
x
(X
n
= y) −µ(y)[ −→
n→∞
0.
Preuve. La formule
Q((x
1
, x
2
), (y
1
, y
2
)) = Q(x
1
, y
1
)Q(x
2
, y
2
)
d´efinit une matrice stochastique sur le E E. On note ((X
1
n
, X
2
n
)
n∈N
, (P
(x
1
,x
2
)
)
(x
1
,x
2
)∈E×E
)
la chaˆıne de Markov canonique associ´ee.
Remarquons que Q est irr´eductible : si (x
1
, x
2
), (y
1
, y
2
) ∈ EE, la proposition 13.6.5(ii)
permet de trouver deux entiers n
1
et n
2
tels que Q
n
(x
1
, y
1
) > 0 pour tout n ≥ n
1
, et
Q
n
(x
2
, y
2
) > 0 pour tout n ≥ n
2
. Si n ≥ n
1
∨n
2
, on a par d´efinition Q
n
((x
1
, x
2
), (y
1
, y
2
)) > 0.
214
De plus la mesure produit µ ⊗µ est invariante pour Q :
¸
(x
1
,x
2
)∈E×E
µ(x
1
)µ(x
2
)Q(x
1
, y
1
)Q(x
2
, y
2
) =
¸
x
1
∈E
µ(x
1
)Q(x
1
, y
1
)
¸
x
2
∈E
µ(x
2
)Q(x
2
, y
2
)
= µ(y
1
)µ(y
2
).
La proposition 13.5.5 permet de conclure que la chaˆıne (X
1
n
, X
2
n
) est r´ecurrente positive.
Observons maintenant que
P
x
(X
n
= y) −µ(y) = P
µ⊗δx
(X
2
n
= y) −P
µ⊗δx
(X
1
n
= y) = E
µ⊗δx
[1
{X
2
n
=y}
−1
{X
1
n
=y}
].
Introduisons le temps d’arrˆet T = inf¦n ≥ 0 : X
1
n
= X
2
n
¦. Alors, l’´egalit´e pr´ec´edente montre
que
P
x
(X
n
= y) −µ(y) = E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)]
+
n
¸
k=0
¸
z∈E
E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)]. (13.5)
Mais, pour tout k ∈ ¦0, 1, . . . , n¦ et tout z ∈ E, la propri´et´e de Markov entraˆıne que
E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
2
n
=y}
] = E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
] Q
n−k
(z, y)
= E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
1
n
=y}
],
et donc le deuxi`eme terme de la somme dans (13.5) est nul. On obtient ainsi que
¸
y∈E
[P
x
(X
n
= y) −µ(y)[ =
¸
y∈E
[E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)][

¸
y∈E
E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
+1
{X
1
n
=y}
)]
= 2 P
µ⊗δx
(T > n),
qui tend vers 0 quand n → ∞, grˆace `a la r´ecurrence de la chaˆıne (X
1
n
, X
2
n
).
13.7 Martingales et chaˆınes de Markov
On consid`ere toujours la chaˆıne de Markov canonique de matrice de transition Q.
D´efinition 13.7.1 Une fonction f : E −→ R
+
est dite harmonique (resp. surharmonique)
si on a pour tout x ∈ E,
f(x) = Qf(x) (resp. f(x) ≥ Qf(x)).
Plus g´en´eralement, si F ⊂ E, on dit que f est harmonique sur F (resp. surharmonique sur
F) si la propri´et´e f(x) = Qf(x) (resp. f(x) ≥ Qf(x)) est vraie pour x ∈ F.
215
Remarque. On pourrait consid´erer plus g´en´eralement des fonctions harmoniques ou surhar-
moniques de signe quelconque.
Proposition 13.7.1 (i) La fonction f est harmonique (resp. surharmonique) ssi, pour tout
x ∈ E, le processus (f(X
n
))
n∈N
est une martingale (resp. une surmartingale) sous P
x
,
relativement `a la filtration (T
n
).
(ii) Soit F ⊂ E et G = E`F. On note T
G
le temps d’arrˆet
T
G
= inf¦n ≥ 0 : X
n
∈ G¦.
Alors si f est harmonique (resp. surharmonique) sur F, le processus (f(X
n∧T
G
))
n∈N
est une
martingale (resp. une surmartingale) sous P
x
, pour tout x ∈ F.
Preuve. (i) Supposons d’abord f harmonique. Alors, d’apr`es la proposition 13.1.2(i),
E
x
[f(X
n+1
) [ T
n
] = Qf(X
n
) = f(X
n
)
et en cons´equence E
x
[f(X
n
)] = E
x
[f(X
0
)] = f(x), donc f(X
n
) ∈ L
1
.
Inversement, supposons que f(X
n
) est une martingale sour P
x
. Il vient imm´ediatement
que
f(x) = E
x
[f(X
0
)] = E
x
[f(X
1
)] = Qf(x).
Le cas d’une fonction surharmonique est trait´e de la mˆeme fa¸ con.
(ii) Traitons le cas d’une fonction harmonique. On ´ecrit pour x ∈ F
E
x
[f(X
(n+1)∧T
G
) [ T
n
] = E
x
[f(X
n+1
) 1
{T
G
>n}
[ T
n
] +E
x
[f(X
T
G
) 1
{T
G
≤n}
[ T
n
]
= 1
{T
G
>n}
E
x
[f(X
n+1
) [ T
n
] + f(X
T
G
) 1
{T
G
≤n}
= 1
{T
G
>n}
Qf(X
n
) + f(X
T
G
) 1
{T
G
≤n}
= 1
{T
G
>n}
f(X
n
) + f(X
T
G
) 1
{T
G
≤n}
= f(X
n∧T
G
)
On a utilis´e le fait que f(X
T
G
) 1
{T
G
≤n}
= f(X
T
G
∧n
) 1
{T
G
≤n}
est T
n
-mesurable.
Th´eor`eme 13.7.2 Soit F un sous-ensemble non vide de E et G = E`F. Soit g : G −→R
+
une fonction born´ee.
(i) La fonction
h(x) = E
x
[g(X
T
G
) 1
{T
G
<∞}
], x ∈ E
est harmonique sur F.
(ii) Supposons T
G
< ∞, P
x
p.s. pour tout x ∈ F. Alors la fonction h est l’unique fonction
born´ee sur E qui
• est harmonique sur F,
• co¨ıncide avec g sur G.
216
Preuve. (i) On remarque que si x ∈ F on a P
x
p.s.
g(X
T
G
) 1
{T
G
<∞}
= g(X
T
G
◦ θ
1
) 1
{T
G
◦θ
1
<∞}
.
Autrement dit, si U(ω) = g(X
T
G
(ω)) 1
{T
G
(ω)<∞}
, on a U = U ◦ θ
1
, P
x
p.s. Donc, pour x ∈ F,
d’apr`es le th´eor`eme 13.3.4,
h(x) = E
x
[U] = E
x
[U ◦ θ
1
] = E
x
[E
X
1
[U]] = E
x
[h(X
1
)] = Qh(x),
ce qui montre que h est harmonique sur F.
(ii) Il est trivial que h(x) = g(x) si x ∈ G. Soit h

une autre fonction harmonique
sur F, born´ee sur E et co¨ıncidant avec g sur G. Si x ∈ F, d’apr`es la proposition 13.7.1,
Y
n
= h

(X
n∧T
G
) est une martingale sous P
x
. Cette martingale est born´ee, donc uniform´ement
int´egrable, et converge P
x
p.s. vers h

(X
T
G
) = g(X
T
G
). D’apr`es les r´esultats du chapitre 12,
on a donc
h

(x) = E
x
[Y
0
] = E
x
[Y

] = E
x
[g(X
T
G
)] = h(x).
Exemple. Probl`eme de Dirichlet discret. Soit F une partie finie de Z
d
. La fronti`ere de F
est
∂F = ¦y ∈ Z
d
`F : ∃x ∈ F, [y −x[ = 1¦.
On note F = F ∪ ∂F.
Une fonction h d´efinie sur F est dite harmonique (au sens discret) sur F si pour tout
x ∈ F, h(x) est ´egal `a la moyenne des valeurs de h sur les 2d plus proches voisins de x.
On retrouve la notion pr´ec´edente en prenant comme chaˆıne de Markov la marche al´eatoire
simple sur Z
d
: Q(x, x ±e
j
) =
1
2d
pour j = 1, . . . , d, o` u (e
1
, . . . , e
d
) est la base canonique.
Alors, le th´eor`eme pr´ec´edent conduit au r´esultat suivant : pour toute fonction (positive)
g d´efinie sur ∂F, la seule fonction h : F −→R
+
telle que :
• h est harmonique sur F,
• h(y) = g(y), ∀y ∈ ∂F,
est donn´ee par
h(x) = E
x
[g(X
T
∂F
)] , x ∈ F,
o` u
T
∂F
= inf¦n ≥ 0 : X
n
∈ ∂F¦.
Noter que pour appliquer le th´eor`eme 13.7.2, on a a priori besoin de d´efinir g sur Z
d
`F et
non pas seulement sur ∂F : cependant le choix des valeurs de g sur Z
d
`F n’influe pas sur
les valeurs de h sur F.
217
218
Chapitre 14
Introduction au mouvement brownien
14.1 Le mouvement brownien comme limite de marches
al´eatoires
L’explication physique du mouvement brownien justifie le mouvement tr`es d´esordonn´e et
impr´evisible d’une particule brownienne par les nombreux chocs que cette particule re¸ coit
du milieu environnant, qui provoquent des changements de direction continuels. D’un point
de vue math´ematique, cela sugg`ere de consid´erer le d´eplacement `a temps discret, sur le
r´eseau Z
d
, d’une particule ponctuelle qui `a chaque instant choisit de mani`ere ind´ependante
du pass´e une nouvelle direction.
Pr´ecis´ement on consid`ere une marche al´eatoire (S
n
)
n∈N
sur Z
d
, issue de 0:
S
n
= Y
1
+ + Y
n
o` u les v.a. Y
1
, Y
2
, . . . sont ind´ependantes `a valeurs dans Z
d
, et de mˆeme loi µ. On suppose
que µ v´erifie les propri´et´es suivantes :

¸
k∈Z
d
[k[
2
µ(k) < ∞ ;

¸
k∈Z
d
kµ(k) = 0 (µ est centr´ee).
On ajoute aussi `a ces deux hypoth`eses principales la condition d’isotropie suivante :
• il existe une constante σ > 0 telle que pour tous i, j ∈ ¦1, . . . , d¦,
¸
k∈Z
d
k
i
k
j
µ(k) = σ
2
δ
ij
.
La marche al´eatoire simple sur Z
d
(cf chapitre pr´ec´edent) v´erifie ces hypoth`eses, avec
σ
2
= 1/d, et il existe beaucoup d’autres exemples.
219
On va s’int´eresser au comportement “global” de la fonction k −→ S
k
sur un “long”
intervalle de temps. Pour cela on introduit le changement d’´echelle suivant. Pour tout entier
n ≥ 1, pour tout r´eel t ≥ 0, on pose
S
(n)
t
=
1

n
S
[nt]
o` u [x] d´esigne la partie enti`ere du nombre r´eel x.
Proposition 14.1.1 Pour tout choix de l’entier p ≥ 1 et des nombres r´eels 0 = t
0
< t
1
<
< t
p
, on a
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
−→
n→∞
(U
1
, U
2
, . . . , U
p
)
et la loi limite est caract´eris´ee comme suit:
• les v.a. U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
sont ind´ependantes;
• pour tout j ∈ ¦1, . . . , p¦, U
j
−U
j−1
est un vecteur gaussien centr´e de matrice de covariance
σ
2
(t
j
−t
j−1
)Id (par convention, U
0
= 0).
Remarque. La densit´e de la loi limite est facile `a ´ecrire explicitement. La densit´e de
U
j
−U
j−1
est p
σ
2
(t
j
−t
j−1
)
(x), o` u, pour tout a > 0,
p
a
(x) =
1
(2πa)
d/2
exp


[x[
2
2at

, x ∈ R
d
est la densit´e du vecteur gaussien de covariance a Id (rappelons que les coordonn´ees d’un tel
vecteur sont des v.a. r´eelles ^(0, a) ind´ependantes, voir la Proposition 11.4.2 et la remarque
suivant cette proposition). Grˆace `a l’ind´ependance des v.a. U
1
, U
2
− U
1
, . . . , U
p
− U
p−1
, on
obtient que la densit´e de (U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
) est
g(x
1
, . . . , x
p
) = p
σ
2
t
1
(x
1
)p
σ
2
(t
2
−t
1
)
(x
2
) p
σ
2
(tp−t
p−1
)
(x
p
),
et par un changement de variables facile, la densit´e de (U
1
, U
2
, . . . , U
p
) est
f(y
1
, . . . , y
p
) = g(y
1
, y
2
−y
1
, . . . , y
p
−y
p−1
) = p
σ
2
t
1
(y
1
)p
σ
2
(t
2
−t
1
)
(y
2
−y
1
) p
σ
2
(tp−t
p−1
)
(y
p
−y
p−1
).
Preuve. Il suffit de montrer que, pour tous ξ
1
, . . . , ξ
p
∈ R
d
,
E

exp

i
p
¸
j=1
ξ
j
S
(n)
t
j

−→
n→∞
E

exp

i
p
¸
j=1
ξ
j
U
j

.
Cela ´equivaut `a dire que, pour tous η
1
, . . . , η
p
∈ R
d
,
E

exp

i
p
¸
j=1
η
j
(S
(n)
t
j
−S
(n)
t
j−1
)

−→
n→∞
E

exp

i
p
¸
j=1
η
j
(U
j
−U
j−1
)

. (14.1)
220
Or on sait d´ej`a, grˆace `a l’ind´ependance des v.a. U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
, que
E

exp

i
p
¸
j=1
η
j
(U
j
−U
j−1
)

=
p
¸
i=1
E

exp


j
(U
j
−U
j−1
)

= exp


p
¸
j=1
σ
2

j
[
2
(t
j
−t
j−1
)
2

(on utilise la formule pour la transform´ee de Fourier de la loi gaussienne). D’autre part,
S
(n)
t
j
−S
(n)
t
j−1
=
1

n
[nt
j
]
¸
k=[nt
j−1
]+1
Y
k
ce qui montre d’une part que les v.a. S
(n)
t
j
− S
(n)
t
j−1
, 1 ≤ j ≤ p sont ind´ependantes, d’autre
part que pour chaque j fix´e
S
(n)
t
j
−S
(n)
t
j−1
(loi)
=
1

n
S
[nt
j
]−[nt
j−1
]
=

[nt
j
] −[nt
j−1
]

n
1

[nt
j
] −[nt
j−1
]
S
[nt
j
]−[nt
j−1
]
.
Grˆace au th´eor`eme central limite vectoriel, cette derni`ere variable converge en loi quand
n → ∞ vers

t
j
−t
j−1
N, o` u N est un vecteur gaussien de covariance σ
2
Id (on utilise aussi
la propri´et´e simple suivante : si X
n
converge en loi vers X et si (a
n
) est une suite de r´eels
convergeant vers a, alors a
n
X
n
converge en loi vers aX). En cons´equence, pour chaque j
fix´e,
E

exp

i η
j
(S
(n)
t
j
−S
(n)
t
j−1
)

−→
n→∞
E[exp(i

t
j
−t
j−1
η
j
N)] = exp


σ
2

j
[
2
(t
j
−t
j−1
)
2

.
L’ind´ependance des v.a. S
(n)
t
j
−S
(n)
t
j−1
, 1 ≤ j ≤ p, permet maintenant de conclure au r´esultat
recherch´e (14.1).
D´efinition 14.1.1 On appelle mouvement brownien (en dimension d, issu de 0) une famille
(B
t
)
t∈R
+
de v.a. `a valeurs dans R
d
, d´efinies sur un espace de probabilit´e (Ω, T, P), telles
que :
(P1) On a B
0
= 0 p.s. De plus, pour tout choix de l’entier p ≥ 1 et des nombres r´eels
0 = t
0
< t
1
< < t
p
, les v.a. B
t
1
, B
t
2
− B
t
1
, . . . , B
tp
− B
t
p−1
sont ind´ependantes,
et, pour tout j ∈ ¦1, . . . , p¦, B
t
j
− B
t
j−1
est un vecteur gaussien centr´e de covariance
(t
j
−t
j−1
)Id.
(P2) Pour tout ω ∈ Ω, la fonction t → B
t
(ω) est continue.
Remarques. (i) En admettant l’existence du mouvement brownien (´etablie ci-dessous), on
peut reformuler la Proposition 14.1.1 en disant que, pour tout choix de t
1
< < t
p
,
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
−→
n→∞
(σB
t
1
, σB
t
2
, . . . , σB
tp
).
A la multiplication par le scalaire σ pr`es, le mouvement brownien apparaˆıt donc comme la
limite continue de marches al´eatoires discr`etes convenablement chang´ees d’´echelle. D’une
221
certaine mani`ere, cette limite correspond, pour le ph´enom`ene physique appel´e mouvement
brownien, au passage de l’explication microscopique aux observations macroscopiques.
(ii) Comme on l’a vu ci-dessus, la loi de (B
t
1
, B
t
2
, . . . , B
tp
) est donn´ee par
P

(B
t
1
, B
t
2
, . . . , B
tp
) ∈ A

=

A
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
−t
1
(y
2
−y
1
) p
tp−t
p−1
(y
p
−y
p−1
),
(14.2)
pour toute partie br´elienne A de (R
d
)
p
.
14.2 La construction du mouvement brownien
Th´eor`eme 14.2.1 Le mouvement brownien existe. Autrement dit on peut construire sur
un espace de probabilit´e convenable une famille (B
t
)
t∈R
+
de v.a. satisfaisant (P1) et (P2).
Preuve. On traite d’abord le cas d = 1, et dans un premier temps on va construire la
famille (B
t
)
t∈[0,1]
. Le choix de l’espace de probabilit´e (Ω, T, P) ne pose pas de probl`eme : il
suffit de disposer sur cet espace d’une suite de v.a. gaussiennes ^(0, 1) ind´ependantes (on
a vu dans le chapitre pr´ec´edent qu’en prenant Ω = [0, 1] on pouvait construire une suite
de v.a. ind´ependantes de loi uniforme, qu’il est facile de transformer en une suite de v.a.
gaussiennes ^(0, 1) ind´ependantes).
Introduisons les fonctions de Haar. On pose
h
0
(t) = 1, ∀t ∈ [0, 1]
puis, pour tout entier n ≥ 0 et pour tout k ∈ ¦0, 1, . . . , 2
n
−1¦,
h
k
n
(t) = 2
n/2
1
[(2k)2
−n−1
,(2k+1)2
−n−1
[
−2
n/2
1
[(2k+1)2
−n−1
,(2k+2)2
−n−1
[
, ∀t ∈ [0, 1].
On v´erifie que les fonctions h
0
, h
k
n
forment un syst`eme orthonorm´e de L
2
([0, 1], B([0, 1]), λ)
o` u λ d´esigne la mesure de Lebesgue. De plus ce syst`eme est total : toute fonction en escalier
constante sur les intervalles de la forme [i2
−n
, (i+1)2
−n
[ (pour n fix´e) est combinaison lin´eaire
des fonctions h
0
et h
k
p
pour p < n. On conclut que la famille
h
0
, (h
k
n
)
n≥0,0≤k≤2
n
−1
forme une base orthonorm´ee de L
2
([0, 1], B([0, 1]), λ).
Notons 'f, g` =

1
0
f(t)g(t)dt le produit scalaire dans L
2
([0, 1], B([0, 1]), λ). Alors, pour
toute fonction f ∈ L
2
([0, 1], B([0, 1]), λ) on a
f = 'f, h
0
`h
0
+

¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`h
k
n
.
D’autre part, nous disposons sur notre espace de probabilit´e (Ω, T, P) d’une suite de v.a.
^(0, 1) ind´ependantes. Quitte `a la renum´eroter on peut ´ecrire cette suite sous la forme
N
0
, (N
k
n
)
n≥0,0≤k≤2
n
−1
.
222
Il est imm´ediat de v´erifier que cette famille constitue un syst`eme orthonorm´e dans L
2
(Ω, T, P).
Il existe alors une (unique) isom´etrie, not´ee B, de L
2
([0, 1], B([0, 1]), λ) dans L
2
(Ω, T, P) telle
que B(h
0
) = N
0
et B(h
k
n
) = N
k
n
pour tous n ≥ 0, 0 ≤ k ≤ 2
n
−1. Pr´ecis´ement,
B(f) = 'f, h
0
`N
0
+

¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`N
k
n
,
pour toute f ∈ L
2
([0, 1], B([0, 1]), λ) (la s´erie converge dans L
2
(Ω, T, P)). Remarquons que
E[B(f)
2
] = |f|
2
2
par la propri´et´e d’isom´etrie, et que E[B(f)] = 0 puisque les v.a. N
0
, N
k
n
sont toutes centr´ees.
De plus le lemme suivant montrera que B(f) suit une loi gaussienne.
Lemme 14.2.2 Soit (U
n
) une suite de v.a. gaussiennes qui converge dans L
2
vers U. Alors
U est aussi gaussienne.
Preuve. Soit m
n
= E[U
n
] et σ
2
n
= var(U
n
). La convergence dans L
2
assure que m
n
−→ m =
E[U] et σ
2
n
−→ σ
2
= var(U). Mais d’autre part, puisque la convergence dans L
2
entraˆıne la
convergence en loi on a aussi pour tout ξ ∈ R,
e
imnξ−σ
2
n
ξ
2
/2
= E[e
iξUn
] −→ E[e
iξU
]
ce qui montre que la fonction caract´eristique de U s’´ecrit
E[e
iξU
] = e
imξ−σ
2
ξ
2
/2
et donc que U suit la loi ^(m, σ
2
).
En ´ecrivant
B(f) = lim
m→∞

'f, h
0
`N
0
+
m
¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`N
k
n

,
et en utilisant le fait qu’une combinaison lin´eaire de v.a. gaussiennes ind´ependantes est
encore gaussienne, on d´eduit du lemme que B(f) suit la loi ^(0, |f|
2
2
). Remarquons aussi
que, pour f, f

∈ L
2
([0, 1], B([0, 1]), λ),
cov(B(f), B

(f)) = E[B(f)B(f

)] = 'f, f

`
grˆace `a la propri´et´e d’isom´etrie.
On pose alors, pour tout t ∈ [0, 1],
B
t
= B(1
[0,t]
).
En particulier, B
0
= B(1
{0}
) = B(0) = 0 p.s.
V´erifions d’abord que la famille (B
t
)
t∈[0,1]
v´erifie la propri´et´e (P1), restreinte `a l’intervalle
de temps [0, 1]. On se donne donc 0 = t
0
< t
1
< < t
p
≤ 1. Par lin´earit´e, on a
B
t
i
−B
t
i−1
= B(1
]t
i−1
,t
i
]
)
223
qui suit une loi ^(0, t
i
−t
i−1
). De plus, si i = j,
cov(B
t
i
−B
t
i−1
, B
t
j
−B
t
j−1
) = E[(B
t
i
−B
t
i−1
)(B
t
j
−B
t
j−1
)] = '1
]t
i−1
,t
i
]
, 1
]t
j−1
,t
j
]
` = 0.
Or il est facile de v´erifier que le vecteur (B
t
1
, B
t
2
− B
t
1
, . . . , B
tp
− B
t
p−1
) est un vecteur
gaussien : si λ
1
, . . . , λ
p
∈ R,
p
¸
j=1
λ
j
(B
t
j
−B
t
j−1
) = B

p
¸
j=1
λ
j
1
]t
j−1
,t
j
]

suit une loi gaussienne. D’apr`es la Proposition 11.4.2, le fait que la matrice de covariance
(cov(B
t
i
−B
t
i−1
, B
t
j
−B
t
j−1
))
i,j=1,...,p
soit diagonale entraˆıne l’ind´ependance des v.a. B
t
1
, B
t
2

B
t
1
, . . . , B
tp
−B
t
p−1
, ce qui ach`eve la preuve de (P1).
Il reste `a ´etablir la propri´et´e de continuit´e (P2). Pour l’instant, B
t
= B(1
[0,t]
) est d´efini
comme un ´el´ement de L
2
(Ω, T, P), donc une classe d’´equivalence de variables ´egales p.s. Pour
que la v´erification de (P2) ait un sens, il est n´ecessaire de sp´ecifier un repr´esentant dans cette
classe d’´equivalence, et cela pour chaque t ∈ [0, 1] (ce choix n’avait pas d’influence sur la
validit´e ou non de (P1) mais il en a pour (P2)). A cette fin, nous allons ´etudier de plus pr`es
la s´erie qui d´efinit B
t
. On commence par introduire les fonctions de Schauder
g
0
(t) = '1
[0,t]
, h
0
` = t
g
k
n
(t) = '1
[0,t]
, h
k
n
` =

t
0
h
k
n
(s)ds.
Par construction, on a pour tout t ∈ [0, 1],
B
t
= B(1
[0,t]
) = tN
0
+

¸
n=0
2
n
−1
¸
k=0
g
k
n
(t)N
k
n
o` u la s´erie converge a priori dans L
2
(Ω, T, P) pour chaque t ∈ [0, 1] fix´e. Nous allons montrer
bien plus, `a savoir que la s´erie converge uniform´ement sur l’intervalle [0, 1], pour tout ω ∈ Ω,
sauf peut-ˆetre pour ω appartenant `a un ensemble A ∈ T de probabilit´e nulle. On d´efinit
alors B
t
(ω) comme la somme de la s´erie pr´ec´edente si ω ∈ A
c
et on prend B
t
(ω) = 0 pour
tout t ∈ [0, 1] si ω ∈ A (puisque si une suite de v.a. converge p.s. et dans L
2
les limites p.s.
et L
2
sont les mˆemes, il est clair qu’on a ainsi simplement sp´ecifi´e un choix dans la classe
d’´equivalence de v.a. ´egales p.s. `a B(1
[0,t]
), et on n’a rien chang´e `a la validit´e de (P1)). On
obtiendra la continuit´e des applications t → B
t
(ω) en observant qu’une limite uniforme de
fonctions continues est continue.
On remarque d’abord que 0 ≤ g
k
n
≤ 2
−n/2
et que pour n fix´e les fonctions g
k
n
, 0 ≤ k ≤
2
n
−1 sont `a supports disjoints (g
k
n
(t) > 0 seulement si k2
−n
< t < (k + 1)2
−n
). Donc,
sup
t∈[0,1]

2
n
−1
¸
k=0
g
k
n
(t)N
k
n

≤ 2
−n/2
sup
0≤k≤2
n
−1
[N
k
n
[.
224
Lemme 14.2.3 Si N suit la loi ^(0, 1), on a pour tout a ≥ 1,
P([N[ ≥ a) ≤ e
−a
2
/2
.
Preuve. Il suffit d’´ecrire
P([N[ ≥ a) =
2


a
dxe
−x
2
/2

2


a
dx
x
a
e
−x
2
/2
=
2
a


e
−a
2
/2
.

Puisque les v.a. N
k
n
sont toutes de loi ^(0, 1), on peut utiliser le lemme pour majorer
P

sup
0≤k≤2
n
−1
[N
k
n
[ > 2
n/4


2
n
−1
¸
k=0
P([N
k
n
[ > 2
n/4
) ≤ 2
n
exp(−2
n
2
−1
).
En posant
A
n
=

sup
0≤k≤2
n
−1
[N
k
n
[ > 2
n/4
¸
on d´eduit du lemme de Borel-Cantelli et de l’estimation pr´ec´edente que
P(limsup A
n
) = 0.
Donc si A = limsup A
n
on a P(A) = 0 et d’autre part si ω / ∈ A, alors pour tout n assez
grand
sup
0≤k≤2
n
−1
[N
k
n
[ ≤ 2
n/4
d’o` u
sup
t∈[0,1]

2
n
−1
¸
k=0
g
k
n
(t)N
k
n

≤ 2
−n/4
ce qui assure que la s´erie de la d´efinition de B
t
converge uniform´ement sur l’intervalle [0, 1].
Cela termine la v´erification de (P2). On peut aussi remarquer que cette construction donne
B
0
(ω) = 0 pour tout ω ∈ Ω et pas seulement p.s.
Il reste `a s’affranchir de la restriction t ∈ [0, 1], et `a g´en´eraliser le r´esultat en dimension
d quelconque. Dans un premier temps on consid`ere des familles (B
(1)
t
)
t∈[0,1]
, (B
(2)
t
)
t∈[0,1]
, etc.
construites comme ci-dessus, en prenant `a chaque fois une nouvelle suite de v.a. gaussiennes
ind´ependantes, ind´ependante des suites pr´ec´edentes. On pose ensuite
B
t
= B
(1)
1
+ B
(2)
1
+ + B
(k)
1
+ B
(k+1)
t−k
si t ∈ [k, k + 1[.
On v´erifie ais´ement que (B
t
)
t∈R
+
est un mouvement brownien en dimension un.
Pour passer `a une dimension d quelconque, il suffit de se donner d mouvements browniens
en dimension un ind´ependants, not´es (B
1
t
)
t∈R
+
, . . . , (B
d
t
)
t∈R
+
et de poser
B
t
= (B
1
t
, B
2
t
, . . . , B
d
t
)
pour tout t ∈ R
+
. Ceci ach`eve la preuve du th´eor`eme.
Si x ∈ R
d
, on appelle mouvement brownien issu de x tout processus (B
t
)
t∈R
+
tel que
(B
t
−x)
t∈R
+
soit un mouvement brownien issu de 0.
225
14.3 La mesure de Wiener
Soit C(R
+
, R
d
) l’espace des fonctions continues de R
+
dans R
d
. On munit cet espace de la
tribu ( qui est la plus petite tribu rendant mesurables les applications coordonn´ees w → w(t)
pour tout t ∈ R
+
.
Lemme 14.3.1 La tribu ( co¨ıncide avec la tribu bor´elienne lorsque C(R
+
, R
d
) est muni de
la topologie de la convergence uniforme sur tout compact.
Preuve. Soit B la tribu bor´elienne. L’inclusion ( ⊂ B d´ecoule de ce que les applications
coordonn´ees sont continues donc mesurables pour la tribu bor´eliennes. Dans l’autre sens,
rappelons qu’une distance sur C(R
+
, R
d
) est fournie par
d(w, w

) =

¸
n=1
2
−n
sup
0≤t≤n
([w(t) −w

(t)[ ∧ 1).
On sait que l’espace C(R
+
, R
d
) est s´eparable et donc que tout ouvert est r´eunion d´enombrable
de boules. Il suffit alors de montrer que toute boule est dans la tribu (, ou encore que pour
w
0
∈ C(R
+
, R
d
) fix´e, l’application w → d(w
0
, w) est (-mesurable. Or en ´ecrivant pour tout
n ≥ 1,
sup
t∈[0,n]
([w(t) −w
0
(t)[ ∧ 1) = sup
t∈[0,n]∩Q
([w(t) −w
0
(t)[ ∧ 1)
on obtient imm´ediatement cette propri´et´e de mesurabilit´e.
D´efinition 14.3.1 Soit (B
t
)
t∈R
+
un mouvement brownien en dimension d (issu de 0), d´efini
sur un espace de probabilit´e (Ω, T, P). La mesure de Wiener en dimension d est la mesure
de probabilit´e P
0
sur C(R
+
, R
d
) d´efinie comme la mesure-image de P(dω) par l’application
Φ : ω −→ (B
t
(ω))
t∈R
+
Ω −→ C(R
+
, R
d
)
Remarquons que l’application Φ est mesurable : comme cela a ´et´e observ´e dans le chapitre
pr´ec´edent dans un contexte un peu diff´erent, il suffit de voir que la compos´ee de Φ avec
chacune des applications coordonn´ees w → w(t) est mesurable, ce qui est imm´ediat (cette
compos´ee donne les v.a. B
t
).
La d´efinition pr´ec´edente n’a de sens que parce qu’elle ne d´epend pas du choix du mouve-
ment brownien B. Cela se voit de la mani`ere suivante. Si 0 = t
0
< t
1
< < t
p
, on a pour
tous A
0
, A
1
, . . . , A
p
bor´eliens de R
d
,
P
0
(¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦)
= P(B
t
0
∈ A
0
, B
t
1
∈ A
1
, . . . , B
tp
∈ A
p
)
= 1
A
0
(0)

A
1
×···×Ap
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
−t
1
(y
2
−y
1
) p
tp−t
p−1
(y
p
−y
p−1
),
d’apr`es la formule (14.2), qui est vraie pour n’importe quel mouvement brownien B (c’est
juste une reformulation de (P1)). Or le lemme de classe monotone montre qu’une mesure de
226
probabilit´e sur C(R
+
, R
d
) est caract´eris´ee par ses valeurs sur les “cylindres”, c’est-`a-dire les
ensembles de la forme
¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦.
Cela montre bien que P
0
est d´etermin´ee de mani`ere unique, ind´ependamment du choix du
mouvement brownien B : autrement dit tous les mouvements browniens (issus de 0) ont la
mˆeme loi, qui est la mesure de Wiener.
Remarque. En un certain sens, la mesure de Wiener joue sur l’espace C(R
+
, R
d
) un rˆole
analogue `a la mesure de Lebesgue sur [0, 1].
Si x ∈ R
d
, on note aussi P
x
(dw) la mesure-image de P
0
(dw) par la translation w → x+w
(c’est la loi du mouvement brownien issu de x).
Construction canonique du mouvement brownien. Elle consiste `a prendre comme
espace de probabilit´e Ω = C(R
+
, R
d
) muni de la tribu ( et de la probabilit´e P
0
. On d´efinit
alors pour tout t ≥ 0,
B
t
(w) = w(t), ∀w ∈ Ω.
La famille (B
t
)
t∈R
+
, d´efinie sur l’espace de probabilit´e (Ω, (, P
0
), est un mouvement brownien
issu de 0. La propri´et´e (P2) est ´evidente. La propri´et´e (P1) d´ecoule de la formule donn´ee
ci-dessus pour
P
0
(¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦).
De mˆeme, sous P
x
, (B
t
)
t∈R
+
est un mouvement brownien issu de x.
14.4 Premi`eres propri´et´es du mouvement brownien
Dans ce paragraphe et le suivant, on consid`ere un mouvement brownien B en dimension d,
issu de 0. Pour tout s ≥ 0 on note T
s
la tribu engendr´ee par les v.a. (B
r
, 0 ≤ r ≤ s). On
note aussi T

la tribu engendr´ee par toutes les v.a. B
t
, t ∈ R
+
.
Proposition 14.4.1 (i) Si ϕ est une isom´etrie vectorielle de R
d
, (ϕ(B
t
))
t∈R
+
est aussi un
mouvement brownien (en particulier −B est un mouvement brownien);
(ii) pour tout γ > 0, le processus B
γ
t
=
1
γ
B
γ
2
t
est aussi un mouvement brownien (invariance
par changement d’´echelle);
(iii) pour tout s ≥ 0, le processus B
(s)
t
= B
s+t
−B
s
est un mouvement brownien ind´ependant
de T
s
(propri´et´e de Markov simple).
Preuve. (i) et (ii) sont tr`es faciles. Pour l’ind´ependance dans (iii), on observe que pour
tout choix de t
1
< t
2
< < t
p
et r
1
< r
2
< < r
q
≤ s, la propri´et´e (P1) entraˆıne que le
vecteur
(B
(s)
t
1
, . . . , B
(s)
tp
)
227
est ind´ependant de
(B
r
1
, . . . , B
rq
).
En utilisant la Proposition 9.2.4, on en d´eduit ais´ement que la famille (B
(s)
t
)
t∈R
+
est ind´ependante
de (B
r
)
0≤r≤s
.
Th´eor`eme 14.4.2 (Loi du tout ou rien de Blumenthal) Soit
T
0+
=
¸
s>0
T
s
.
La tribu T
0+
est grossi`ere, au sens o` u ∀A ∈ T
0+
, P(A) = 0 ou 1.
Preuve. Soit A ∈ T
0+
et soient t
1
, . . . , t
p
> 0. Pour ε > 0 assez petit, la propri´et´e de Markov
simple (Proposition 14.4.1 (iii)) entraˆıne que (B
t
1
−B
ε
, . . . , B
tp
−B
ε
) est ind´ependant de T
ε
,
donc a fortiori de T
0+
. En cons´equence, pour toute fonction f continue born´ee sur (R
d
)
p
,
E[1
A
f(B
t
1
−B
ε
, . . . , B
tp
−B
ε
)] = P(A) E[f(B
t
1
−B
ε
, . . . , B
tp
−B
ε
)].
En faisant tendre ε vers 0 on trouve
E[1
A
f(B
t
1
, . . . , B
tp
)] = P(A) E[f(B
t
1
, . . . , B
tp
)],
et donc (B
t
1
, . . . , B
tp
) est ind´ependant de T
0+
. Grˆace `a nouveau `a la Proposition 9.2.4, il
en d´ecoule que T

est ind´ependante de T
0+
. En particulier T
0+
⊂ T

est ind´ependante
d’elle-mˆeme, ce qui entraˆıne que T
0+
est grossi`ere.
Corollaire 14.4.3 On suppose d = 1. Alors, p.s. pour tout ε > 0
sup
0≤s≤ε
B
s
> 0, inf
0≤s≤ε
B
s
< 0.
Pour tout a ∈ R, soit T
a
= inf¦t ≥ 0 : B
t
= a¦ (inf ∅ = ∞). Alors,
p.s., ∀a ∈ R, T
a
< ∞.
En cons´equence, p.s.,
limsup
t→∞
B
t
= +∞, liminf
t→∞
B
t
= −∞.
Remarque. Il n’est pas a priori ´evident que la variable sup
0≤s≤ε
B
s
soit mesurable: il
s’agit d’un supremum non d´enombrable de fonctions mesurables. Cependant, parce que
nous savons que les trajectoires de B sont continues, on peut se restreindre aux valeurs
rationnelles de s ∈ [0, ε] et on obtient un supremum d´enombrable de variables al´eatoires
(ou alors on peut utiliser le Lemme 14.3.1).
Preuve. Soit (ε
p
) une suite de r´eels strictement positifs d´ecroissant vers 0, et soit
A =
¸
p
¦ sup
0≤s≤εp
B
s
> 0¦.
228
Il est clair que l’´ev´enement A est T
0+
-mesurable. D’autre part,
P(A) = lim
p→∞
↓ P( sup
0≤s≤εp
B
s
> 0),
et
P( sup
0≤s≤εp
B
s
> 0) ≥ P(B
εp
> 0) =
1
2
,
puisque B
εp
suit la loi gaussienne ^(0, ε
p
) qui est sym´etrique. Cela montre que P(A) ≥ 1/2.
D’apr`es le Th´eor`eme 14.4.2 on a P(A) = 1, d’o` u
p.s. ∀ε > 0, sup
0≤s≤ε
B
s
> 0.
L’assertion concernant inf
0≤s≤ε
B
s
est obtenue en rempla¸ cant B par −B.
Ensuite, on ´ecrit
1 = P( sup
0≤s≤1
B
s
> 0) = lim
δ↓0
↑ P( sup
0≤s≤1
B
s
> δ),
et on remarque en appliquant la propri´et´e d’invariance d’´echelle (Proposition 14.4.1 (ii)) avec
γ = δ que
P( sup
0≤s≤1
B
s
> δ) = P( sup
0≤s≤1/δ
2
B
δ
s
> 1) = P( sup
0≤s≤1/δ
2
B
s
> 1)
(la derni`ere ´egalit´e est vraie parce que la loi du mouvement brownien est d´efinie de mani`ere
unique : voir les remarques suivant la D´efinition 14.3.1). En faisant tendre δ vers 0, on
trouve
P(sup
s≥0
B
s
> 1) = 1.
A nouveau un argument de changement d’´echelle montre que pour tout A > 0,
P(sup
s≥0
B
s
> A) = 1
et en utilisant le changement B → −B on a aussi
P(inf
s≥0
B
s
< −A) = 1.
Les derni`eres assertions du corollaire en d´ecoulent facilement: pour la derni`ere, on observe
qu’une fonction continue f : R
+
−→R ne peut visiter tous les r´eels que si limsup
t→+∞
f(t) =
+∞, liminf
t→+∞
f(t) = −∞.
En utilisant la propri´et´e de Markov simple, on d´eduit facilement du corollaire que p.s. la
fonction t → B
t
n’est monotone sur aucun intervalle non-trivial.
229
14.5 La propri´et´e de Markov forte
Notre but est d’´etendre la propri´et´e de Markov simple (Proposition 14.4.1 (iii)) au cas o` u
l’instant d´eterministe s est remplac´e par un temps al´eatoire T. Nous devons d’abord pr´eciser
la classe des temps al´eatoires admissibles. On garde les notations T
t
et T

introduites ci-
dessus.
D´efinition 14.5.1 Une variable al´eatoire T `a valeurs dans [0, ∞] est un temps d’arrˆet si
∀t ≥ 0, ¦T ≤ t¦ ∈ T
t
.
Remarque. Si T est un temps d’arrˆet, pour tout t ≥ 0,
¦T < t¦ =
¸
q∈Q∩[0,t[
¦T ≤ q¦
est dans T
t
.
Exemple. En dimension d = 1, T
a
= inf¦t ≥ 0 : B
t
= a¦ est un temps d’arrˆet. En effet
¦T
a
≤ t¦ = ¦ inf
r∈Q∩[0,t]
[B
r
−a[ = 0¦ ∈ T
t
.
D´efinition 14.5.2 Soit T un temps d’arrˆet. La tribu des ´ev´enements ant´erieurs `a T est
T
T
= ¦A ∈ T

; ∀t ≥ 0, A ∩ ¦T ≤ t¦ ∈ T
t
¦.
On v´erifie facilement que les variables al´eatoires T et 1
{T<∞}
B
T
sont T
T
-mesurables
(pour la deuxi`eme remarquer que
1
{T<∞}
B
T
= lim
n→∞

¸
i=0
1
{i2
−n
≤T<(i+1)2
−n
}
B
i2
−n,
puis que, pour tout s ≥ 0, B
s
1
{s≤T}
est T
T
mesurable).
Th´eor`eme 14.5.1 (Propri´et´e de Markov forte) Soit T un t.a. tel que P(T < ∞) > 0.
Alors, conditionnellement `a ¦T < ∞¦, le processus B
(T)
d´efini par
B
(T)
t
= B
T+t
−B
T
est un mouvement brownien ind´ependant de T
T
.
Remarque. Pour ˆetre tout `a fait pr´ecis, il faut aussi d´efinir B
(T)
sur l’ensemble ¦T = ∞¦,
par exemple en posant B
t
(ω) = 0 pour tout t ≥ 0 si T(ω) = ∞ (ce choix n’a ´evidemment
aucune influence sur le r´esultat ci-dessus).
Preuve. Supposons d’abord T < ∞p.s. On va montrer que, pour A ∈ T
T
, 0 ≤ t
1
< < t
p
et F continue born´ee de (R
d
)
p
dans R
+
, on a
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A) E[F(B
t
1
, . . . , B
tp
)]. (14.3)
230
Cela suffit pour ´etablir les diff´erentes assertions du th´eor`eme : le cas A = Ω montre que
B
(T)
est un mouvement brownien (remarquer que les applications t → B
(T)
t
(ω) sont contin-
ues) et d’autre part (14.3) entraˆıne que pour tout choix de 0 ≤ t
1
< < t
p
, le vecteur
(B
(T)
t
1
, . . . , B
(T)
tp
) est ind´ependant de T
T
, d’o` u il d´ecoule que B
(T)
est ind´ependant de T
T
.
Pour montrer (14.3), on observe d’abord que p.s.
F(B
(T)
t
1
, . . . , B
(T)
tp
)
= lim
n→∞

¸
k=0
1
{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n),
d’o` u par convergence domin´ee,
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)]
= lim
n→∞

¸
k=0
E[1
A
1
{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n)].
Pour A ∈ T
T
, l’´ev´enement A ∩ ¦(k − 1)2
−n
< T ≤ k2
−n
¦ est T
k2
−n-mesurable. D’apr`es la
propri´et´e de Markov simple (Proposition 14.4.1 (iii)), on a donc
E[1
A∩{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n)]
= P(A∩ ¦(k −1)2
−n
< T ≤ k2
−n
¦) E[F(B
t
1
, . . . , B
tp
)],
et il ne reste plus qu’`a sommer sur k pour arriver au r´esultat souhait´e.
Lorsque P(T = ∞) > 0, les mˆemes arguments conduisent `a
E[1
A∩{T<∞}
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A∩ ¦T < ∞¦) E[F(B
t
1
, . . . , B
tp
)]
et le r´esultat recherch´e en d´ecoule `a nouveau.
Une application importante de la propri´et´e de Markov forte est le principe de r´eflexion
illustr´e dans la preuve du th´eor`eme suivant.
Th´eor`eme 14.5.2 On suppose d = 1. Pour tout t > 0, notons S
t
= sup
s≤t
B
s
. Alors, si
a ≥ 0 et b ≤ a, on a
P(S
t
≥ a, B
t
≤ b) = P(B
t
≥ 2a −b).
En particulier, S
t
a mˆeme loi que [B
t
[.
Preuve. On applique la propri´et´e de Markov forte au temps d’arrˆet
T
a
= inf¦t ≥ 0, B
t
= a¦.
On a d´ej`a vu (Corollaire 14.4.3) que T
a
< ∞ p.s. Ensuite,
P(S
t
≥ a, B
t
≤ b) = P(T
a
≤ t, B
t
≤ b) = P(T
a
≤ t, B
(Ta)
t−Ta
≤ b −a),
231
puisque B
(Ta)
t−Ta
= B
t
− B
Ta
= B
t
− a. Notons B

= B
(Ta)
, de sorte que d’apr`es le th´eor`eme
14.5.1, le processus B

est un mouvement brownien ind´ependant de T
Ta
donc en particulier
de T
a
. Comme B

a mˆeme loi que −B

, le couple (T
a
, B

) a aussi mˆeme loi que (T
a
, −B

).
Notons H = ¦(s, w) ∈ R
+
C(R
+
, R); s ≤ t, w(t − s) ≤ b − a¦. La probabilit´e pr´ec´edente
vaut
P((T
a
, B

) ∈ H] = P[(T
a
, −B

) ∈ H)
= P(T
a
≤ t, −B
(Ta)
t−Ta
≤ b −a)
= P(T
a
≤ t, B
t
≥ 2a −b)
= P(B
t
≥ 2a −b)
parce que l’´ev´enement ¦B
t
≥ 2a −b¦ est contenu dans ¦T
a
≤ t¦.
Pour la deuxi`eme assertion on observe que
P(S
t
≥ a) = P(S
t
≥ a, B
t
≥ a) + P(S
t
≥ a, B
t
≤ a) = 2P(B
t
≥ a) = P([B
t
[ ≥ a),
d’o` u le r´esultat voulu.
On d´eduit imm´ediatement du th´eor`eme pr´ec´edent que la loi du couple (S
t
, B
t
) a pour
densit´e
g(a, b) =
2(2a −b)

2πt
3
exp


(2a −b)
2
2t

1
{a>0,b<a}
.
Corollaire 14.5.3 (d = 1) Pour tout a > 0, T
a
a mˆeme loi que
a
2
B
2
1
et a donc pour densit´e
f(t) =
a

2πt
3
exp


a
2
2t

1
{t>0}
.
Preuve. On ´ecrit
P(T
a
≤ t) = P(S
t
≥ a)
= P([B
t
[ ≥ a) (Th´eor`eme 14.5.2)
= P(B
2
t
≥ a
2
)
= P(tB
2
1
≥ a
2
) (B
t
a mˆeme loi que

tB
1
)
= P(
a
2
B
2
1
≤ t).
Ensuite, puisque B
1
suit une loi ^(0, 1) on calcule facilement la densit´e de a
2
/B
2
1
.
Reformulation sur l’espace canonique.
En vue des applications qui suivent, il sera utile de reformuler la propri´et´e de Markov sur
l’espace canonique Ω = C(R
+
, R
d
). A partir de maintenant on se place donc sur cet espace,
sur lequel on consid`ere le processus B
t
(w) = w(t), et la filtration canonique T
t
= σ(B
s
, 0 ≤
s ≤ t). Rappelons que, pour tout x ∈ R
d
, (B
t
)
t≥0
est sous P
x
un mouvement brownien issu
de x.
232
On introduit aussi les op´erateurs de translation. Pour tout s ≥ 0, θ
s
: Ω −→ Ω est d´efini
par

s
w)(t) = w(s + t) , ∀t ≥ 0.
Alternativement, B
t
◦ θ
s
= B
s+t
.
Th´eor`eme 14.5.4 Soit T un temps d’arrˆet, et soient F et G deux fonctions mesurables
positives sur Ω. On suppose que F est T
T
-mesurable. Alors, pour tout x ∈ R
d
,
E
x
[1
{T<∞}
F G◦ θ
T
] = E
x
[1
{T<∞}
F E
B
T
[G]].
Remarque. Comparer cet ´enonc´e avec le Th´eor`eme 13.3.5.
Preuve. On se ram`ene facilement au cas x = 0. Pour all´eger l’´ecriture supposons aussi
P
0
(T < ∞) = 1. Le point-cl´e est d’observer que si T(w) < ∞,

T
w)(t) = w(T + t) = w(T) + (w(T + t) −w(T)) = B
T
(w) +B
(T)
t
(w).
Ensuite on ´ecrit
E
0
[1
{T<∞}
F G◦ θ
T
] = E
0
[1
{T<∞}
F G(B
T
+ B
(T)
·
)] = E
0
[1
{T<∞}
F E
0
[G(B
T
+ B
(T)
·
)[ T
T
]],
o` u B
(T)
·
d´esigne la fonction continue (B
(T)
t
)
t≥0
, vue comme v.a. `a valeurs dans C(R
+
, R
d
).
D’une part B
T
est T
T
-mesurable, d’autre part B
(T)
·
est ind´ependant de T
T
et de loi P
0
,
d’apr`es le Th´eor`eme 14.5.1. En utilisant le Th´eor`eme 11.3.4, on a
E
0
[G(B
T
+ B
(T)
·
)[ T
T
] =

P
0
(dw) G(B
T
+ w) = E
B
T
[G]
d’o` u le r´esultat voulu.
14.6 Fonctions harmoniques et probl`eme de Dirichlet
Nous avons introduit dans le Chapitre 7 la mesure de Lebesgue sur la sph`ere S
d−1
not´ee ω
d
.
La mesure de probabilit´e uniforme sur la sph`ere S
d−1
est la mesure de probabilit´e σ
d
obtenue
en normalisant ω
d
. D’apr`es le Chapitre 7, σ
d
est donc reli´ee `a la mesure de Lebesgue λ
d
sur
R
d
par la formule explicite
σ
d
(A) =
Γ(
d
2
+ 1)
π
d/2
λ
d
(¦rx : 0 ≤ r ≤ 1, x ∈ A¦),
pour tout bor´elien A de S
d−1
. Comme ω
d
, la mesure σ
d
est invariante sous l’action des
isom´etries vectorielles. De plus, le Th´eor`eme 7.2.1 donne la formule d’int´egration en coor-
donn´ees polaires : pour toute fonction bor´elienne f : R
d
−→R
+
,

R
d
f(x) dx = c
d


0

S
d−1
f(rz) r
d−1
dr σ
d
(dz). (14.4)
avec c
d
=

d/2
Γ(d/2)
.
233
Lemme 14.6.1 La mesure σ
d
est la seule mesure de probabilit´e sur la sph`ere S
d−1
qui soit
invariante par l’action des isom´etries vectorielles.
Preuve. Soit µ une autre mesure de probabilit´e sur S
d−1
invariante par l’action des
isom´etries vectorielles. Alors, pour tout ξ ∈ R
d
et toute isom´etrie vectorielle Φ,
´ µ(ξ) =

e
iξ·x
µ(dx) =

e
iξ·Φ
−1
(x)
µ(dx)

e
iΦ(ξ)·x
µ(dx) = ´ µ(Φ(ξ)).
Il en d´ecoule que ´ µ(ξ) ne d´epend que de [ξ[, et donc il existe une fonction f : R
+
−→C telle
que, pour tout ξ ∈ R
d
,
´ µ(ξ) = f([ξ[).
Le mˆeme argument montre qu’il existe une fonction g : R
+
−→C telle que
´ σ
d
(ξ) = g([ξ[).
Alors, pour tout r ≥ 0,

S
d−1

S
d−1
e
irξ·x
µ(dx)

σ
d
(dξ) =

S
d−1
f(r) σ
d
(dξ) = f(r)
et d’apr`es le th´eor`eme de Fubini cela est aussi ´egal `a

S
d−1

S
d−1
e
irx·ξ
σ
d
(dξ)

µ(dx) =

S
d−1
g(r) µ(dx) = g(r).
Donc f = g, d’o` u ´ µ = ´ σ
d
et µ = σ
d
grˆace au Th´eor`eme 8.2.4.
Si x ∈ R
d
et r > 0 on note B(x, r) la boule ouverte de centre x et de rayon r, et
¯
B(x, r)
la boule ferm´ee. La probabilit´e uniforme sur la sph`ere de centre x et de rayon r, not´ee σ
x,r
est par d´efinition l’image de σ
d
(dy) par l’application y → x + ry.
Rappelons que jusqu’`a la fin du chapitre on consid`ere le mouvement brownien d´efini sur
l’espace canonique comme cela a ´et´e pr´ecis´e `a la fin de la partie pr´ec´edente.
Proposition 14.6.2 Soit x ∈ R
d
et r > 0, et soit S le temps d’arrˆet
S = inf¦t ≥ 0 : [B
t
−x[ ≥ r¦.
La loi de B
S
sous P
x
est la probabilit´e uniforme σ
x,r
.
Preuve. Modulo une translation et un changement d’´echelle, il suffit de traiter le cas
x = 0, r = 1, dans lequel σ
x,r
= σ
d
. Les propri´et´es d’invariance du mouvement brownien
montrent que la loi de B
S
est alors invariante par l’action des isom´etries vectorielles. Grˆace
au Lemme 14.6.1, la loi de B
S
doit ˆetre σ
d
.
Rappelons qu’un domaine D est un ouvert connexe de R
d
. Une fonction h : D −→R est
dite localement born´ee si elle est born´ee sur tout sous-ensemble compact de D.
234
D´efinition 14.6.1 Soit D un domaine de R
d
. Une fonction mesurable localement born´ee
h : D −→ R est dite harmonique si, pour tous x ∈ D et r > 0 tels que la boule
¯
B(x, r) soit
contenue dans D, on a
h(x) =

h(y) σ
x,r
(dy). (14.5)
En d’autres mots, la valeur de h en x co¨ıncide avec sa moyenne sur la sph`ere de centre
x et de rayon r, pourvu que la boule ferm´ee
¯
B(x, r) soit contenue dans D.
Probl`eme de Dirichlet classique. Etant donn´e un domaine born´e D et une fonction
continue g : ∂D −→R, on veut trouver une fonction h : D −→R telle que :
• h
|∂D
= g au sens o` u, pour tout y ∈ ∂D,
g(y) = lim
x→y,x∈D
h(x) ;
• h est harmonique sur D.
Le th´eor`eme suivant fournit un candidat `a la solution du probl`eme de Dirichlet.
Th´eor`eme 14.6.3 Soit D un domaine born´e, et soit g une fonction mesurable born´ee sur
∂D. Notons
T = inf¦t ≥ 0 : B
t
/ ∈ D¦.
Alors la fonction
h(x) = E
x
[g(B
T
)], x ∈ D
est harmonique sur D.
Ce th´eor`eme est bien sˆ ur analogue `a un r´esultat de la fin du chapitre pr´ec´edent concernant
les relations entre chaˆınes de Markov et fonctions harmoniques discr`etes.
Preuve. En ´ecrivant
¦T ≤ t¦ =

inf
0≤s≤t,s∈Q
dist(B
s
, D
c
) = 0
¸
on voit que T est un temps d’arrˆet. Des propri´et´es du mouvement brownien en dimension
un il d´ecoule aussi que T < ∞ P
x
p.s. On a vu qu’alors B
T
est une variable al´eatoire (mˆeme
T
T
-mesurable) et donc E
x
[g(B
T
)] est bien d´efinie, et born´ee par sup¦[g(y)[, y ∈ ∂D¦.
Justifions maintenant le fait que h est mesurable. Rappelons la notation ( pour la
tribu introduite sur C(R
+
, R
d
). Alors, pour tout A ∈ (, l’application x → P
x
(A) est
mesurable : cela est vrai pour les cylindres de la forme A = ¦w : w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦,
puisque dans ce cas on a une formule explicite, et il suffit ensuite d’utiliser un argument de
classe monotone. Il en d´ecoule que pour toute fonction F mesurable born´ee sur C(R
+
, R
d
),
l’application x →E
x
[F] est mesurable. On applique ceci `a
F(w) = 1
{T(w)<∞}
g(B
T
(w)) = 1
{T(w)<∞}
g(w(T(w)))
et on obtient ainsi que h est mesurable.
235
Fixons maintenant x ∈ D et r > 0 tels que
¯
B(x, r) ⊂ D. Posons
S = inf¦t ≥ 0 : B
t
/ ∈ B(x, r)¦ = inf¦t ≥ 0 : [B
t
−x[ ≥ r¦.
Il est clair que S ≤ T, P
x
p.s. (en fait S(w) ≤ T(w) pour tout w ∈ Ω = C(R
+
, R
d
)). De
plus,
B
T
= B
T
◦ θ
S
, P
x
p.s.
En effet c’est simplement dire que si t → w(t) est une “trajectoire” issue du point x, le point
de sortie de D pour cette trajectoire est le mˆeme que celui pour la mˆeme trajectoire dont
on a “effac´e” le d´ebut entre le point de d´epart et le point de sortie de la boule B(x, r) : cela
est ´evident parce que
¯
B(x, r) ⊂ D.
On peut donc utiliser la propri´et´e de Markov forte sous la forme du Th´eor`eme 14.5.4 et
obtenir
h(x) = E
x
[g(B
T
)] = E
x
[g(B
T
) ◦ θ
S
] = E
x
[E
B
S
[g(B
T
)]] = E
x
[h(B
S
)] =

h(y) σ
x,r
(dy)
la derni`ere ´egalit´e ´etant la Proposition 14.6.2. Cela termine la preuve.
Pour montrer que la fonction h du th´eor`eme pr´ec´edent est solution du probl`eme de
Dirichlet (sous l’hypoth`ese suppl´ementaire de continuit´e de g), il faudrait aussi montrer que,
pour tout y ∈ ∂D,
g(y) = lim
x→y,x∈D
E
x
[g(B
T
)].
Intuitivement, si x ∈ D est proche de y ∈ ∂D, le mouvement brownien partant de x va sortir
rapidement de D, donc le point de sortie B
T
sera proche de x, et aussi de y, et la continuit´e
de g assurera que g(B
T
) est proche de g(y) ce qui conduira au r´esultat voulu. Avant de
rendre pr´ecis ce raisonnement, ce qui exigera certaines hypoth`eses suppl´ementaires, nous
commen¸ cons par traiter la question de l’unicit´e de la solution.
La proposition suivante montre que les fonctions harmoniques sont automatiquement tr`es
r´eguli`eres.
Proposition 14.6.4 Si h est harmonique sur D, h est de classe C

sur D. De plus, si
x ∈ D et r > 0 sont tels que
¯
B(x, r) ⊂ D, on a
h(x) =
1
λ
d
(B(x, r))

B(x,r)
h(y) dy. (14.6)
Preuve. Soit r
0
> 0, et soit
D
0
= ¦x ∈ D : dist(x, D
c
) > r
0
¦.
Il suffit de montrer que h est de classe C

sur D
0
. Pour cela, consid´erons une fonction
φ : R → R
+
de classe C

`a support compact contenu dans ]0, r
0
[, et non identiquement
nulle. Alors, pour tout x ∈ D
0
et tout r ∈]0, r
0
[,
h(x) =

σ
x,r
(dz) h(z) =

σ
d
(dy) h(x + ry).
236
On multiplie les deux membres extrˆemes de cette ´egalit´e par r
d−1
φ(r) et on int`egre par
rapport `a dr entre 0 et r
0
. En utilisant la formule (14.4) on trouve que, pour une constante
c > 0 d´ependant seulement de φ, on a pour tout x ∈ D
0
,
c h(x) = c
d

r
0
0
dr r
d−1
φ(r)

σ
d
(dy) h(x + ry)
=

B(0,r
0
)
dz φ([z[)h(x + z)
=

B(x,r
0
)
dz φ([z −x[)h(x)
=

R
d
dz φ([z −x[)
¯
h(x)
o` u pour la derni`ere ´egalit´e on a not´e
¯
h la fonction obtenue en prolongeant h par la valeur 0 sur
D
c
(le choix de cette valeur n’intervient pas puisque si x ∈ D
0
et z ∈ D
c
on a φ([z −x[) = 0).
On voit ainsi que sur D
0
, h co¨ıncide avec la convolution de la fonction z → φ([z[), qui
est de classe C

et `a support compact, avec la fonction
¯
h, qui est mesurable born´ee. Nous
avons remarqu´e `a la fin du Chapitre 2, comme application du th´eor`eme de d´erivation sous
le signe int´egrale, qu’une telle convolution est de classe C

.
Il reste `a ´etablir la deuxi`eme assertion. En reprenant le calcul ci-dessus avec φ = 1
[0,r
0
[
,
on trouve pour x ∈ D
0
,
h(x) = c

B(x,r
0
)
dy h(y)
o` u la constante c

d´epend seulement de φ, donc seulement de r
0
. En prenant h = 1 (qui est
harmonique), on voit que c

= (λ
d
(B(x, r
0
)))
−1
d’o` u le r´esultat annonc´e.
Corollaire 14.6.5 Si une solution du probl`eme de Dirichlet existe, elle est unique.
Preuve. Soient h
1
et h
2
deux solutions, et soit f = h
1
−h
2
. Supposons f non identiquement
nulle. Quitte `a ´echanger les rˆoles de h
1
et h
2
on peut supposer que f prend des valeurs
strictement positives. La fonction obtenue en prolongeant f par la valeur 0 sur ∂D est
continue sur
¯
D, et doit donc atteindre son maximum M dans D (rappelons que D est
suppos´e born´e et donc
¯
D est compact). Soit x
0
un point de D tel que f(x
0
) = M. D’apr`es
la proposition pr´ec´edente on a pour tout r < dist(x
0
, D
c
),
f(x
0
) =
1
λ
d
(B(x
0
, r))

B(x
0
,r)
dy f(y),
soit
B(x
0
,r)
dy (f(x
0
) −f(y)) = 0.
Puisque f(x
0
) ≥ f(y) pour tout y ∈ D, ceci n’est possible que si f(x
0
) = f(y), λ
d
(dy) p.p.
sur B(x
0
, r). Comme f est continue (`a nouveau grˆace `a la proposition pr´ec´edente) on a donc
f(x
0
) = f(y) pour tout y ∈ B(x
0
, r). On a ainsi montr´e que ¦x ∈ D : f(x) = M¦ est ouvert.
237
Mais d’autre part cet ensemble est aussi un ferm´e de D, et puisque D est connexe, on a
n´ecessairement ¦x ∈ D : f(x) = M¦ = D. Cela est absurde puisque M > 0 et f doit tendre
vers 0 `a la fronti`ere de D.
D´efinition 14.6.2 On dit que D satisfait la condition de cˆone ext´erieur si, pour tout y ∈
∂D, il existe r > 0 et un cˆone de r´evolution ouvert C de sommet y tels que C∩B(y, r) ⊂ D
c
.
Th´eor`eme 14.6.6 Supposons que D est un domaine born´e satisfaisant la condition de cˆone
ext´erieur, et soit g une fonction continue sur ∂D. Alors la fonction
h(x) = E
x
[g(B
T
)], x ∈ D
est l’unique solution du probl`eme de Dirichlet.
Preuve. Compte-tenu du Th´eor`eme 14.6.3 et du Corollaire 14.6.5, il suffit de v´erifier que,
pour tout y ∈ ∂D fix´e,
lim
x→y,x∈D
h(x) = g(y). (14.7)
Soit ε > 0. Grˆace `a la continuit´e de g, on peut choisir δ > 0 tel que, si z ∈ ∂D et [z −y[ < δ,
on a
[g(z) −g(y)[ <
ε
3
.
Soit ensuite M > 0 tel que [g(z)[ < M pour tout z ∈ ∂D. On a alors, pour tout η > 0,
[E
x
[g(B
T
)] −g(y)[ ≤ E
x
[[g(B
T
) −g(y)[1
{T≤η}
] +E
x
[[g(B
T
) −g(y)[1
{T>η}
]
≤ E
x
[[g(B
T
) −g(y)[1
{T≤η}
1
{sup
t≤η
|Bt−x|≤δ/2}
]
+2MP
x

sup
t≤η
[B
t
−x[ >
δ
2

+ 2MP
x
(T > η)
= I + II + III.
Nous allons majorer s´epar´ement les trois termes I, II, III.
Si [x −y[ <
δ
2
, on a sur l’´ev´enement ¦T ≤ η¦ ∩ ¦sup
t≤η
[B
t
−x[ ≤ δ/2¦
[B
T
−y[ ≤ [B
T
−x[ +[x −y[ < δ
et le choix de δ assure que le terme I est major´e par ε/3.
En utilisant l’invariance par translation, on a
II = 2MP
0

sup
t≤η
[B
t
[ >
δ
2

et donc le terme II ne d´epend pas de x. Clairement II tend vers 0 quand η tend vers 0
(c’est juste dire que sup
t≤η
[B
t
[ −→ 0 en probabilit´e sous P
0
, ce qui est vrai puisqu’il y a
convergence p.s. par continuit´e). On peut donc choisir η > 0 assez petit de mani`ere que
II < ε/3.
Comme ε a ´et´e choisi de mani`ere arbitraire, il reste pour ´etablir (14.7) `a montrer qu’on
peut choisir α ∈]0, δ/2] suffisamment petit de mani`ere que si [x − y[ < α, le terme III =
2MP
x
(T > η) est aussi major´e par ε/3. Or cela est une cons´equence du lemme suivant, qui
compl`ete donc la preuve du th´eor`eme.
238
Lemme 14.6.7 Sous la condition de cˆone ext´erieur, on a pour tout y ∈ ∂D et tout η > 0,
lim
x→y,x∈D
P
x
(T > η) = 0.
Remarque. Comme cela a ´et´e sugg´er´e apr`es la preuve du Th´eor`eme 14.6.3, le point-cl´e dans
la v´erification de la condition fronti`ere (14.7) est de s’assurer que le mouvement brownien
partant pr`es de la fronti`ere de D va sortir de D rapidement, avec une grande probabilit´e.
C’est pr´ecis´ement ce que nous dit le lemme. La condition de cˆone ext´erieur n’est pas la
meilleure possible pour cela, mais elle donne d´ej`a des applications int´eressantes, comme
nous le verrons plus loin.
Preuve. Commen¸ cons par r´e´ecrire la condition de cˆone ext´erieur en y ∈ ∂D. Pour u ∈ S
d−1
et γ > 0, notons
C(u, γ) = ¦z ∈ R
d
: z u > (1 −γ)[z[¦
le cˆone de r´evolution ouvert de sommet 0, de direction u et d’ouverture γ. Alors on peut
choisir r > 0, u ∈ S
d−1
et γ > 0 tels que
y + (C(u, γ) ∩ B(0, r)) ⊂ D
c
.
Pour all´eger l’´ecriture on note C = C(u, γ) ∩ B(0, r). Posons aussi
¯
C = ¦z ∈ R
d
: z u > (1 −
γ
2
)[z[¦ ∩ B(0,
r
2
)
qui correspond `a l’intersection avec B(0,
r
2
) d’un cˆone “un peu plus petit” que C(u, r).
Il d´ecoule facilement de la loi du tout ou rien (Th´eor`eme 14.4.2) que, si T
e
C
= inf¦t ≥ 0 :
B
t

¯
C¦, on a
T
e
C
= 0 , P
0
p.s..
En effet, si (ε
n
) est une suite d´ecroissant strictement vers 0, l’´ev´enement limsup¦B
εn

¯

est dans la tribu T
0+
, et un argument analogue `a la preuve du Corollaire 14.4.3 montre que
cet ´ev´enement est de probabilit´e strictement positive.
Pour a ∈]0, r/2[, notons
¯
C
a
=
¯
C ∩ B(0, a)
c
.
Puisque les ensembles
¯
C
a
croissent vers
¯
C quand a ↓ 0, on a T
e
Ca
↓ T
e
C
= 0, P
0
p.s., et donc
pour tout β > 0 on peut fixer a assez petit tel que
P
0
(T
e
Ca
≤ η) > 1 −β.
En utilisant le fait que y + C ⊂ D
c
, on a, avec des notations ´evidentes,
P
x
(T ≤ η) ≥ P
x
(T
y+C
≤ η) = P
0
(T
y−x+C
≤ η).
Or un raisonnement g´eom´etrique simple (faire un dessin!) montre que, d`es que [y − x[ est
assez petit, le cˆone translat´e y −x + C contient
¯
C
a
, et alors
P
x
(T ≤ η) ≥ P
0
(T
e
Ca
≤ η) > 1 −β
d’apr`es le choix de a. Comme β ´etait arbitraire on a termin´e la preuve du lemme.
Nous en venons maintenant `a une autre caract´erisation analytique des fonctions har-
moniques, qui est souvent prise comme d´efinition.
239
Proposition 14.6.8 Soit h une fonction localement born´ee sur le domaine D. Alors h est
harmonique sur D si et seulement si h est de classe C
2
sur D et ∆h = 0.
Preuve. On suppose d’abord que h est harmonique. La Proposition 14.6.4 montre que h
est de classe C

sur D. Soit x ∈ D et soit r
0
> 0 tel que la boule
¯
B(x, r
0
) soit contenue
dans D. Toujours d’apr`es la Proposition 14.6.4, on a pour tout r ∈]0, r
0
],
h(x) =
1
λ
d
(B(x, r))

B(x,r)
h(y) dy. (14.8)
D’autre part la formule de Taylor `a l’ordre deux montre que, pour y ∈ B(x, r),
h(y) = h(x) +
d
¸
i=1
∂h
∂y
i
(x) (y
i
−x
i
) +
1
2
d
¸
i,j=1

2
h
∂y
i
∂y
j
(x) (y
i
−x
i
)(y
j
−x
j
) + o(r
2
)
o` u le reste o(r
2
) est uniforme quand y d´ecrit B(x, r). En int´egrant cette ´egalit´e sur B(x, r),
et en utilisant les sym´etries ´evidentes, on trouve

B(x,r)
h(y) dy = λ
d
(B(x, r)) h(x) +
1
2
d
¸
i=1

2
h
∂y
2
i
(x)

B(x,r)
(y
i
−x
i
)
2
dy + o(r
d+2
).
Posons C
1
=

B(0,1)
y
2
1
dy > 0. L’´egalit´e pr´ec´edente et (14.8) conduisent `a
C
1
2
∆h(x) r
d+2
+ o(r
d+2
) = 0
ce qui n’est possible que si ∆h(x) = 0.
Inversement supposons h de classe C
2
sur D et ∆h = 0. Il suffit alors de montrer que
si U est une boule ouverte telle que
¯
U ⊂ D, h est harmonique sur U. D’apr`es le Th´eor`eme
14.6.6, il existe une (unique) fonction
¯
h continue sur
¯
U, harmonique dans U, et telle que
¯
h(x) = h(x) pour tout x ∈ ∂U. De plus, la premi`ere partie de la preuve montre que ∆
¯
h = 0
sur U. En appliquant le lemme suivant aux deux fonctions h −
¯
h et
¯
h − h (d´efinies sur
¯
U)
on trouve que h =
¯
h sur
¯
U, ce qui termine la preuve de la proposition.
Lemme 14.6.9 (Principe du maximum) Soit V un ouvert born´e de R
d
, et soit u une
fonction continue sur
¯
V , de classe C
2
dans V et telle que ∆u ≥ 0 sur V . Alors,
sup
x∈
¯
V
u(x) = sup
x∈∂V
u(x).
Preuve. Supposons d’abord qu’on a la propri´et´e plus forte ∆u > 0 sur D. On raisonne par
l’absurde en supposant
sup
x∈
¯
V
u(x) > sup
x∈∂V
u(x).
Dans ce cas on peut trouver x
0
∈ V tel que
u(x
0
) = sup
x∈V
u(x).
240
On a alors
∂u
∂y
j
(x
0
) = 0 , ∀j ∈ ¦1, . . . , d¦
et de plus la formule de Taylor `a l’ordre deux assure que la matrice sym´etrique
M
x
0
=


2
u
∂y
i
∂y
j
(x
0
)

i,j∈{1,...,d}
est n´egative, au sens o` u la forme quadratique associ´ee ne prend que des valeurs n´egatives ou
nulle. En particulier les valeurs propres de M
x
0
sont toutes n´egatives ou nulles et la trace
de M
x
0
l’est aussi. Mais ceci est une contradiction puisque la trace de M
x
0
est ∆u(x
0
) > 0.
Si on fait l’hypoth`ese plus faible ∆u ≥ 0 sur D, il suffit de poser pour tout ε > 0, et tout
x ∈
¯
V
u
ε
(x) = u(x) + εx
2
1
,
de sorte que ∆u
ε
= ∆u + 2ε > 0. La premi`ere partie de la preuve assure que
sup
x∈
¯
V
u
ε
(x) = sup
x∈∂V
u
ε
(x),
et il ne reste plus qu’`a faire tendre ε vers 0.
14.7 Fonctions harmoniques et mouvement brownien
Nous commen¸ cons par un r´esultat important qui fait le lien entre fonctions harmoniques,
mouvement brownien et martingales. Nous devons d’abord introduire la notion de martingale
`a temps continu, qui est une g´en´eralisation directe des martingales `a temps discret ´etudi´ees
dans le Chapitre 12. Rappelons que nous nous sommes plac´es sur l’espace canonique du
mouvement brownien, d´ecrit `a la fin de la partie 3, et que T
t
d´esigne sur cet espace la
tribu engendr´ee par (B
s
, s ≤ t). Une famille (M
t
)
t≥0
, index´ee par les r´eels positifs, de v.a.
int´egrables est une martingale si M
t
est T
t
-mesurable, pour tout t ≥ 0, et si la relation
E[M
t
[ T
s
] = M
s
est vraie pour tous 0 ≤ s ≤ t.
Si U est un ouvert de R
d
, on note H
U
= inf¦t ≥ 0 : B
t
/ ∈ U¦.
Th´eor`eme 14.7.1 Soit D un domaine de R
d
. Une fonction continue h : D −→ R est
harmonique si et seulement si pour tout ouvert born´e U tel que
¯
U ⊂ D et U satisfait la
condition de cˆone ext´erieur, le processus
(h(B
t∧H
U
))
t≥0
est une martingale sous P
x
, pour tout x ∈ U.
De mani`ere informelle les fonctions harmoniques sont celles qui compos´ees avec le mou-
vement brownien donnent des martingales. La condition de cˆ one ext´erieur dans l’´enonc´e qui
pr´ec`ede est superflue mais intervient pour des raisons techniques dans notre d´emonstration.
Preuve. Supposons d’abord que h est harmonique, et soit U un ouvert satisfaisant les
conditions de l’´enonc´e. On note H = H
U
pour all´eger, et on fixe x ∈ U. Remarquons que les
241
v.a. h(B
t∧H
) sont born´ees P
x
p.s. par sup¦[h(y)[ : y ∈
¯
U¦ < ∞. Soient s ≤ t. Observons que
la v.a. B
s∧H
est T
s∧H
-mesurable donc aussi T
s
-mesurable. Pour obtenir l’´egalit´e recherch´ee
E[h(B
t∧H
)[ T
s
] = h(B
s∧H
), il suffit de montrer que, pour toute v.a. F T
s
-mesurable born´ee,
on a
E
x
[F h(B
s∧H
)] = E
x
[F h(B
t∧H
)].
Or on peut interpr´eter h comme la solution (unique) du probl`eme de Dirichlet dans U dont
la condition fronti`ere est simplement la restriction de h `a ∂U. Le Th´eor`eme 14.6.6 montre
que, pour tout y ∈ U,
h(y) = E
y
[h(B
H
)].
Il en d´ecoule que
E
x
[F 1
{s<H}
h(B
s∧H
)] = E
x
[F 1
{s<H}
h(B
s
)] = E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]].
Mais puisque F 1
{s<H}
est T
s
-mesurable (exercice), la propri´et´e de Markov (sous la forme
du Th´eor`eme 14.5.4, avec le temps d’arrˆet constant s) montre que
E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]] = E
x
[F 1
{s<H}
h(B
H
)].
On obtient ainsi
E
x
[F h(B
s∧H
)] = E
x
[F 1
{s<H}
h(B
s
)] +E
x
[F 1
{s≥H}
h(B
H
)] = E
x
[F h(B
H
)].
Evidemment le mˆeme argument montre que
E
x
[F h(B
t∧H
)] = E
x
[F h(B
H
)] = E
x
[F h(B
s∧H
)]
ce qui ´etait l’´egalit´e recherch´ee.
Dans l’autre sens, c’est plus simple. Si on suppose que h v´erifie la propri´et´e de l’´enonc´e,
on prend pour U une boule ouverte dont l’adh´erence est contenue dans D. La propri´et´e de
martingale permet d’´ecrire si x ∈ U
h(x) = E
x
[h(B
t∧H
)[ T
0
] = E
x
[h(B
t∧H
)].
En faisant tendre t vers ∞, on a h(x) = E
x
[h(B
H
)], et le Th´eor`eme 14.6.3 montre que h est
harmonique sur U ce qui suffit pour conclure.
A partir de maintenant, on suppose que d ≥ 2 (remarquer qu’en dimension un les fonc-
tions harmoniques sont les fonctions affines).
Proposition 14.7.2 Soient 0 ≤ a < b et soit D
a,b
le domaine
D
a,b
= B(0, b)`
¯
B(0, a).
Soit f : D
a,b
−→R une fonction radiale, au sens o` u f(x) ne d´epend que de [x[. Alors f est
harmonique si et seulement s’il existe deux constantes C, C

∈ R telles que
f(x) =

C + C

log [x[ si d = 2,
C + C

[x[
2−d
si d ≥ 3.
242
Preuve. Nous savons d´ej`a que f doit ˆetre de classe C

. Soit g :]a, b[−→R la fonction telle
que f(x) = g([x[). L’expression du Laplacien pour une fonction radiale montre que
∆f(x) = g
′′
([x[) +
d −1
[x[
g

([x[).
D’apr`es la Proposition 14.6.8, f est harmonique si et seulement si g satisfait l’´equation
diff´erentielle
g
′′
(r) +
d −1
r
g

(r) = 0
qu’il suffit de r´esoudre pour obtenir la proposition.
Dans les deux ´enonc´es suivants on note T
A
= inf¦t ≥ 0 : B
t
∈ A¦ pour tout ferm´e A de
R
d
.
Proposition 14.7.3 Soit x ∈ R
d
`¦0¦, et soient ε, R > 0 avec ε < [x[ < R. Alors,
P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) =

log R−log |x|
log R−log ε
si d = 2,
|x|
2−d
−R
2−d
ε
2−d
−R
2−d
si d ≥ 3.
(14.9)
Remarque. L’´enonc´e analogue en dimension un est, pour a < x < b,
P
x
(T
a
< T
b
) =
b −x
b −a
et se d´emontre exactement de la mˆeme mani`ere (exercice).
Preuve. Consid´erons le domaine D = D
ε,R
, qui v´erifie la condition de cˆone ext´erieur, et
soit g la fonction continue sur ∂D d´efinie par

g(y) = 1 si [y[ = ε,
g(y) = 0 si [y[ = R.
Alors le Th´eor`eme 14.6.6 montre que
h(x) = P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) , ε < [x[ < R
est la solution unique du probl`eme de Dirichlet avec condition fronti`ere g. Mais en utilisant
la Proposition 14.7.2, on voit imm´ediatement que le terme de droite dans (14.9) est solution
du mˆeme probl`eme de Dirichlet. Cela donne l’´egalit´e recherch´ee.
On peut d´eduire de la proposition pr´ec´edente des informations int´eressantes sur le com-
portement presque sˆ ur des fonctions t −→ B
t
.
Corollaire 14.7.4 (i) Si d ≥ 3, pour tous ε > 0 et x ∈ R
d
tels que ε < [x[,
P
x
(T¯
B(0,ε)
< ∞) = (
ε
[x[
)
d−2
.
De plus, pour tout x ∈ R
d
,
lim
t→∞
[B
t
[ = ∞ , P
x
p.s.
243
(ii) Si d = 2, pour tous ε > 0 et x ∈ R
d
tels que ε < [x[,
P
x
(T¯
B(0,ε)
< ∞) = 1
mais
P
x
(T
{0}
< ∞) = 0.
De plus, P
x
p.s., pour tout ouvert U de R
2
, l’ensemble ¦t ≥ 0 : B
t
∈ U¦ est non born´e.
Par analogie avec le cas des chaˆınes de Markov, on dit que le mouvement brownien est
transitoire en dimension d ≥ 3 et r´ecurrent en dimension d = 2. Noter que cette propri´et´e
de r´ecurrence dans le plan n’entraˆıne pas que tous les points soient visit´es : au contraire un
point fix´e, autre que le point de d´epart, n’est pas visit´e avec probabilit´e 1.
Preuve. (i) La premi`ere assertion est facile puisque
P
x
(T¯
B(0,ε)
< ∞) = lim
n↑∞
P
x
(T¯
B(0,ε)
< T
B(0,n)
c )
et il suffit d’appliquer la formule (14.9).
Ensuite, on pose pour tout entier n ≥ 1
T
(n)
= T
B(0,2
n
)
c .
En appliquant la propri´et´e de Markov forte en T
(n)
et en utilisant `a nouveau la formule
(14.9), on trouve, si [x[ ≤ 2
n
,
P
x

inf
t≥T
(n)
[B
t
[ ≤ n

= E
x

P
B
T
(n)
(T¯
B(0,n)
< ∞)

= (
n
2
n
)
d−2
.
Le lemme de Borel-Cantelli entraˆıne alors que P
x
p.s., pour tout entier n assez grand,
inf
t≥T
(n)
[B
t
[ > n
et donc la fonction t → [B
t
[ converge vers ∞ quand t → ∞.
(ii) D’apr`es la formule (14.9) on a
P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) =
log R −log [x[
log R −log ε
d`es que ε < [x[ < R. En faisant tendre R vers ∞ dans cette formule on trouve
P
x
(T¯
B(0,ε)
< ∞) = 1.
En faisant tendre ε vers 0 dans la mˆeme formule on obtient
P
x
(T
{0}
< T
B(0,R)
c ) = 0.
Comme T
B(0,R)
c ↑ ∞ quand R ↑ ∞, cela entraˆıne
P
x
(T
{0}
< ∞) = 0.
244
On a donc `a la fois
P
x
p.s. ∀ε > 0, T¯
B(0,ε)
< ∞
et
P
x
p.s. 0 / ∈ ¦B
t
: t ≥ 0¦.
Ces deux propri´et´es entraˆınent que P
x
p.s. 0 est un point d’accumulation de la fonction
t → B
t
quand t → ∞. Donc, pour tout ouvert U contenant 0, l’ensemble ¦t ≥ 0 : B
t
∈ U¦
est P
x
p.s. non born´e. Un argument de translation donne alors la derni`ere propri´et´e du
corollaire, en remarquant aussi qu’on peut se limiter `a une famillle d´enombrable de choix de
U.
Noyau de Poisson. Rappelons que nous nous pla¸ cons en dimension d ≥ 2. Le noyau de
Poisson (de la boule unit´e) est la fonction d´efinie sur B(0, 1) S
d−1
par
K(x, y) =
1 −[x[
2
[x −y[
d
, x ∈ B(0, 1), y ∈ S
d−1
.
Lemme 14.7.5 Pour tout y ∈ S
d−1
fix´e, la fonction x → K(x, y) est harmonique sur
B(0, 1).
Preuve. Posons K
y
(x) = K(x, y) pour x ∈ B(0, 1). Un calcul direct montre que ∆K
y
= 0
sur B(0, 1), et il suffit d’appliquer la Proposition 14.6.8.
Lemme 14.7.6 Pour tout x ∈ B(0, 1),

S
d−1
K(x, y) σ
d
(dy) = 1.
Preuve. Pour tout x ∈ B(0, 1), posons
F(x) =

S
d−1
K(x, y) σ
d
(dy).
Alors, on d´eduit facilement du lemme pr´ec´edent que F est harmonique sur B(0, 1) : on
peut appliquer le th´eor`eme de Fubini pour v´erifier que F satisfait la propri´et´e de moyenne
(ou d´eriver sous le signe int´egrale pour montrer que ∆F = 0). Par ailleurs, en utilisant les
propri´et´es d’invariance de σ
d
et de K par les isom´etries vectorielles, on obtient que F est
une fonction radiale. Sur la boule ouverte priv´ee de l’origine B(0, 1)`¦0¦, F doit donc ˆetre
de la forme donn´ee dans la Proposition 14.7.2. Mais puisque F est aussi continue en 0, la
constante C

intervenant dans les formules de cette proposition doit ˆetre nulle. On a donc,
pour tout x ∈ B(0, 1), F(x) = F(0) = 1.
Th´eor`eme 14.7.7 Soit g une fonction continue sur S
d−1
. La solution du probl`eme de
Dirichlet dans B(0, 1) avec condition fronti`ere g est donn´ee par
h(x) =

S
d−1
K(x, y) g(y) σ
d
(dy) , x ∈ B(0, 1).
De plus, pour tout x ∈ B(0, 1) fix´e, la fonction y → K(x, y) est la densit´e par rapport `a la
mesure σ
d
(dy) de la loi sous P
x
du point de sortie du mouvement brownien hors de B(0, 1).
245
Preuve. Les mˆemes arguments que dans la preuve du Lemme 14.7.6 montrent que h est
harmonique dans B(0, 1). Pour v´erifier la condition fronti`ere, fixons y
0
∈ S
d−1
. Pour tout
δ > 0, la forme explicite du noyau de Poisson montre que si x ∈ B(0, 1) et y ∈ S
d−1
sont
tels que [x −y
0
[ < δ/2 et [y −y
0
[ > δ on a
K(x, y) ≤ (
2
δ
)
d
(1 −[x[
2
).
Il d´ecoule de cette majoration que, pour tout δ > 0,
lim
x→y
0
,x∈B(0,1)

{|y−y
0
|>δ}
K(x, y) σ(dy) = 0. (14.10)
Ensuite, si ε > 0 est donn´e, on choisit δ > 0 assez petit pour que [g(y) −g(y
0
)[ ≤ ε d`es que
y ∈ S
d−1
et [y −y
0
[ ≤ δ. Si M = sup¦[g(y)[ : y ∈ S
d−1
¦, il vient
[h(x) −g(y
0
)[ =

S
d−1
K(x, y) (g(y) −g(y
0
)) σ
d
(dy)

≤ 2M

{|y−y
0
|>δ}
K(x, y) σ(dy) + ε,
en utilisant le Lemme 14.7.6 pour la premi`ere ´egalit´e, et ensuite le choix de δ. Grˆace `a
(14.10), on obtient maintenant
limsup
x→y
0
,x∈B(0,1)
[h(x) −g(y
0
)[ ≤ ε.
Comme ε ´etait arbitraire, cela donne bien la condition fronti`ere voulue.
Enfin, pour la derni`ere assertion, on utilise le Th´eor`eme 14.6.6 qui affirme que la solution
du mˆeme probl`eme de Dirichlet est aussi donn´ee par
h(x) = E
x
[g(B
T
)],
o` u T = inf¦t ≥ 0 : B
t
/ ∈ D¦. En comparant les deux formules pour h on obtient pr´ecis´ement
que la loi de B
T
est la mesure K(x, y)σ
d
(dy).
246
Quelques r´ef´erences
Partie I : Int´egration.
Le livre classique de Rudin [7] est toujours une bonne r´ef´erence. Le livre de Briane et
Pag`es [2] est tr`es d´etaill´e et assez complet.
[1] M.R. Adams, V. Guillemin. Measure Theory and Probability. Birkh¨auser, 1996.
[2] M. Briane, G. Pag`es. Th´eorie de l’Int´egration. Vuibert, 2000.
[3] D.L. Cohn. Measure Theory. Birkh¨auser, 1980.
[4] J.L. Doob. Measure Theory. Springer, 1994.
[5] R.M. Dudley. Real Analysis and Probability. Chapman and Hall, 1989.
[6] D. Revuz. Mesure et Int´egration. Hermann, 1994.
[7] W. Rudin. Real and Complex Analysis. McGraw Hill, 1974.
[8] D.W. Stroock. A Concise Introduction to the Theory of Integration. Birkh¨auser,
1994.
Partie II : Probabilit´es.
[9] et [18] sont des ouvrages en fran¸ cais dont le niveau correspond grosso-modo `a celui
du cours. [10] et [11] sont des classiques dont la lecture est toujours int´eressante. [13] et [17]
sont des livres plus r´ecents ´ecrits par des probabilistes de tout premier plan.
[9] P. Barbe, M. Ledoux. Probabilit´e. Belin, 1998.
[10] P. Billingsley. Probability and Measure, 3rd ed. Wiley, 1995.
[11] L. Breiman. Probability. Addison-Wesley, 1968.
[12] K.L. Chung. A Course in Probability Theory. Harcourt Brace and World, 1968.
[13] R. Durrett. Probability and Examples, 2nd ed. Duxbury Press, 1996.
247
[14] W. Feller. An Introduction to Probability Theory and Its Applications, Vol. I. Wiley.
(Un grand classique sur tout ce que vous pouvez faire en probabilit´es sans th´eorie de la
mesure)
[15] G. Grimmett, D. Stirzaker. Probability and Random Processes. Oxford Science
Publications, 1992.
[16] J. Neveu. Bases Math´ematiques du Calcul des Probabilit´es. Masson, 1064. (Livre de
r´ef´erence sur les outils de th´eorie de la mesure qui interviennent en probabilit´es)
[17] J. Pitman. Probability. Springer, 1993.
[18] D. Revuz. Probabilit´es. Hermann, 1997.
[19] D.W. Stroock. Probability Theory: An Analytic View. Cambridge U. Press 1993.
(Livre plus avanc´e autour des liens entre analyse et probabilit´es)
Partie III : Processus al´eatoires.
[20] J. Neveu Martingales `a temps discret. Masson 1972
[21] D. Williams Probability with martingales. Cambridge University Press 1991
[22] C. Dellacherie, P.A. Meyer Probabilit´es et potentiels, Chapitres V `a VIII. Th´eorie
des martingales. Hermann 1980 (traite aussi et surtout le cas des martingales `a temps
continu)
[23] P. Baldi, L. Mazliak, P. Priouret Martingales et chaˆınes de Markov. Hermann
1998
[24] K.L. Chung Markov chains with stationary transition probabilities. Springer 1967
[25] R. Durrett Essentials of stochastic processes. Springer 1999 (donne beaucoup d’exemples
concrets de chaˆınes de Markov)
[26] D.W. Stroock An introduction to Markov processes. Springer 2005 (pour une lecture
plus avanc´ee sur chaˆınes et processus de Markov).
248

2

Sommaire
I Int´gration e
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
9 9 11 13 15 17 17 23 26 29 29 31 38 39 39 41 43 43 46 49 52 57 57 58 61 63 63 64 67

1 Espaces mesur´s e 1.1 Ensembles mesurables 1.2 Mesures positives . . . 1.3 Fonctions mesurables . 1.4 Classe monotone . . .

2 Int´gration par rapport ` une mesure e a 2.1 Int´gration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . e 2.2 Fonctions int´grables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 2.3 Int´grales d´pendant d’un param`tre . . . . . . . . . . . . . . . . . . . . . . e e e 3 Construction de mesures 3.1 Mesures ext´rieures . . . . . . . . . . . e 3.2 La mesure de Lebesgue . . . . . . . . . 3.3 Liens avec l’int´grale de Riemann . . . e 3.4 Un exemple d’ensemble non mesurable 3.5 Int´grale de Stieltjes . . . . . . . . . . e 3.6 Le th´or`me de repr´sentation de Riesz e e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Espaces Lp 4.1 D´finition et in´galit´ de H¨lder . . . . . e e e o p 4.2 L’espace de Banach L (E, A, µ) . . . . . 4.3 Th´or`mes de densit´ dans les espaces Lp e e e 4.4 Le th´or`me de Radon-Nikodym . . . . . e e

5 Mesures produits 5.1 G´n´ralit´s sur les espaces produits . . . . e e e 5.2 Construction de la mesure-produit . . . . . 5.3 Le th´or`me de Fubini . . . . . . . . . . . e e 5.4 Applications . . . . . . . . . . . . . . . . . 5.4.1 Int´gration par parties . . . . . . . e 5.4.2 Convolution . . . . . . . . . . . . . 5.4.3 Calcul du volume de la boule unit´ e 3

6 Mesures sign´es e 6.1 D´finition et variation totale . . . . . . e 6.2 La d´composition de Jordan . . . . . . e 6.3 La dualit´ Lp − Lq . . . . . . . . . . . e 6.4 Le th´or`me de repr´sentation de Riesz e e e

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

69 69 72 75 79

7 Formule de changement de variables et compl´ments e 7.1 La formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 7.2 Mesure de Lebesgue sur la sph`re unit´ . . . . . . . . . . . . . . . . . . . . . e e

81 81 85

II

Probabilit´s e
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89
91 91 91 93 94 96 98 99 100 101 101 103 104 107 109 109 111 116 119 125 125 127 131 137 137 138 140

8 Fondements de la th´orie des probabilit´s e e 8.1 D´finitions g´n´rales . . . . . . . . . . . . . . . . . . . . . . e e e 8.1.1 Espaces de probabilit´ . . . . . . . . . . . . . . . . . e 8.1.2 Variables al´atoires . . . . . . . . . . . . . . . . . . . e 8.1.3 Esp´rance math´matique . . . . . . . . . . . . . . . . e e 8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . 8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . 8.1.6 Fonction de r´partition d’une variable al´atoire r´elle e e e 8.1.7 Tribu engendr´e par une variable al´atoire . . . . . . e e 8.2 Moments de variables al´atoires . . . . . . . . . . . . . . . . e 8.2.1 Moments d’ordre p et variance . . . . . . . . . . . . . 8.2.2 La r´gression lin´aire . . . . . . . . . . . . . . . . . . e e 8.2.3 Fonctions caract´ristiques . . . . . . . . . . . . . . . e 8.2.4 Fonction g´n´ratrice . . . . . . . . . . . . . . . . . . e e 9 Ind´pendance e 9.1 Ev´nements ind´pendants . . . . . . . . . . . e e 9.2 Variables al´atoires et tribus ind´pendantes . e e 9.3 Le lemme de Borel-Cantelli . . . . . . . . . . 9.4 Sommes de variables al´atoires ind´pendantes. e e 10 Convergence de variables al´atoires e 10.1 Les diff´rentes notions de convergence . . . . . e 10.2 La loi forte des grands nombres . . . . . . . . 10.3 La convergence en loi . . . . . . . . . . . . . . 10.4 Deux applications . . . . . . . . . . . . . . . . 10.4.1 La convergence des mesures empiriques 10.4.2 Le th´or`me central limite . . . . . . . e e 10.4.3 Extension au cas vectoriel . . . . . . . 4

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .4 La convergence dans Lp pour p > 1 . . . . . . . . . . . . . e 11.1 D´finition et premi`res propri´t´s . . . . . .4. . . . . . . .1 Le mouvement brownien comme limite de marches 14. . . . 11. . . . . . . . . .4 Premi`res propri´t´s du mouvement brownien . . . . . . . . . . . . . . . . . . . . . e e ee 13. . . . .2. .3 Propri´t´s sp´cifiques de l’esp´rance conditionnelle . . . . . . . . .3 Convergence presque sˆ re des martingales u 12. . . . . . . . .4 La classification des ´tats . . . . . . . . . . . . . . . . .3 La mesure de Wiener . . . .3 Conditionnement gaussien . e 12. . . . . . . . . . . . .2 Quelques exemples . . e . . . . . . . . . . . . . . . . . . . .4 Calculs d’esp´rance conditionnelle . . . . . . . . .2. . . . . . . . . 11. . .1 Variables al´atoires ind´pendantes . .5 Mesures invariantes . . . . . . . . . .4 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Marches al´atoires sur Zd . . . . . . . . . . . . . . . . . . e ee 14. . . . . . .2 Cas des variables ` densit´ . . . . . . . . . . . . . . . . . . ee 14. . . . . . . . . . . . . . . 12. . . . . 14. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . e . . . . .3 Le cas particulier des variables de carr´ int´grable e e 11. . 14 Introduction au mouvement brownien 14. . . . . . . . . . . . . . . . . . . .2. . . . . . e 12. .6 Fonctions harmoniques et probl`me de Dirichlet . . . . . . . . . 13. .2 La construction du mouvement brownien . . . . . . . . . e e 11. . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . .4. . . . . . . . . . 11. . . . . . . . . . . . . . . . . 13. . . 13. . . . . . . .6 Martingales r´trogrades . . . . . . . . . . . . . .2. e 13. . . . . . e 13. . . . . . . . . . . . . . . . . . . .2 Cas des variables positives .1 Conditionnement discret . .11 Conditionnement 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Temps d’arrˆt . . e e 13. . . . . . . . . . . . . . 13 Chaˆ ınes de Markov 13. . . . . . . . .5 Uniforme int´grabilit´ et martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Cas des variables int´grables . . . . ee e e 11. . 13. . . . . .3 La chaˆ de Markov canonique . . . . . . . . . . . . . . . . . . . e e 12. . . . .3 Marche al´atoire simple sur un graphe e 13. . . . . . . .6 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . a e 11. . e 11. .1 Conditionnement discret . .2 La d´finition de l’esp´rance conditionnelle . e 5 al´atoires e . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . 143 143 145 145 147 150 150 153 153 153 154 157 III Processus al´atoires e 161 163 163 167 169 176 179 186 191 191 193 193 194 194 194 195 200 206 211 215 219 219 222 226 227 230 233 12 Th´orie des martingales e ` temps discret a 12. . . . . . . . . . ıne 13. . . .5 Probabilit´s de transition et lois conditionnelles . . . 11. . . . . . . . . . .7 Martingales et chaˆ ınes de Markov . . . . . . . . . . . . .5 La propri´t´ de Markov forte . . .1 D´finitions et exemples . . . . . .

. . . . . . . . 241 6 . .14. . . .7 Fonctions harmoniques et mouvement brownien . . . .

Partie I Int´gration e 7 .

.

et on doit se restreindre ` une certaine classe a (tribu) de sous-ensembles. Le dernier e e paragraphe ´nonce une forme du lemme de classe monotone. qui sont les fonctions dont on saura plus tard d´finir l’int´grale. de mani`re ` satisfaire a e e a certaines propri´t´s naturelles d’additivit´ (la mesure d’une r´union disjointe doit ˆtre la ee e e e somme des mesures). Pour des raisons profondes.1 Ensembles mesurables D´finition 1. A) est un espace mesurable. (iii) Si An ∈ A pour tout n ∈ N. Une tribu (ou σ-alg`bre) sur E est une e e famille A de parties de E telle que: (i) E ∈ A . qui joue un rˆle tr`s important e o e ` la fois en th´orie de la mesure et en th´orie des probabilit´s. Les ´l´ments de A sont appel´s parties mesurables. ou parfois A-mesurables s’il y a ambiguˆ e. de mesure sur un espace mesurable. Enon¸ons quelques cons´quences de la d´finition : c e e (1) ∅ ∈ A (2) Si An ∈ A pour tout n ∈ N. appel´s les sous-ensembles mesurables : un ensemble muni d’une e tribu est appel´ espace mesurable. il n’est pas possible en g´n´ral de d´finir e e e la mesure de n’importe quel sous-ensemble. et de fonctions mesurables. ee e ıt´ On dit que (E.1 Soit E un ensemble quelconque. 9 .Chapitre 1 Espaces mesur´s e L’id´e de d´part de la th´orie de la mesure est d’assigner un nombre r´el positif (la mesure e e e e de ce sous-ensemble) ` chaque sous-ensemble d’un ensemble donn´.1. a e e e 1. (ii) A ∈ A ⇒ Ac ∈ A . Ce chapitre introduit les notions fondamentales de tribu e (= famille des ensembles mesurables). on a aussi n∈N An ∈ A. on a aussi n∈N An ∈ A.

A2 ∈ A2 }. ` chaque fois que l’on consid´rera un espace topologique. V´rifier que la tribu B(R) est aussi engendr´e par les intervalles ]a. e Pour donner des exemples plus int´ressants. Il existe alors une plus petite tribu sur e E qui contienne C. b[. A1) et (E2 . ou encore les intervalles ] − ∞. • A = {∅. Les e ´l´ments de B(E) sont appel´s bor´liens de E. La tribu-produit est e la tribu sur E1 × E2 d´finie par e A1 ⊗ A2 = σ(A1 × A2 . a[. e e e La tribu bor´lienne est donc la plus petite tribu qui contienne tous les ouverts de E.C⊂A A. Un deuxi`me exemple important de la notion de tribu engendr´e est la e e tribu-produit.1. Pour donner un premier exemple de l’int´rˆt de la notion de tribu e ee engendr´e. • l’ensemble des parties de E qui sont (au plus) d´nombrables ou dont le compl´mentaire e e est (au plus) d´nombrable forme une tribu sur E. e e a < b. a. Exercice. la propri´t´ (iii) entraˆ ee ıne que A est stable par r´unions finies (et de mˆme par intersection finies). • A = P(E) . a ∈ Q (on peut aussi remplacer intervalles ouverts par intervalles ferm´s). A1 ∈ A1 . a[. V´rifier que e B(R2 ) = B(R) ⊗ B(R). a ∈ R. E} est la tribu triviale . consid´rons le cas o` E est un espace topologique.4 Soient (E1 . La tribu σ(O) est appel´e tribu bor´lienne et not´e B(E). ou par les intervalles ] − ∞. on supposera sauf indication du contraire qu’il est muni de sa tribu bor´lienne. e e Tribu bor´lienne. e e u D´finition 1.1.3 Supposons que E est un espace topologique. e Tribu-produit. par exemple R a e d ou R .2 Soit C un sous-ensemble de P(E). e Exercice. A2) deux espaces mesurables.(3) Puisqu’on peut toujours prendre An = ∅ pour n assez grand. 10 . a e D´finition 1. on remarque qu’une intersection quelconque e de tribus est encore une tribu.1. D´finition 1. et soit O la classe des ouverts e de E. b ∈ R. e e Exemples. Ceci conduit ` la d´finition suivante. Cette tribu not´e σ(C) peut ˆtre d´finie par e e e σ(C) = A tribu. σ(C) est appel´e la tribu engendr´e par C. ee e e Dans la suite.

n∈N D´montrons seulement (3). Elle contient ´videmment le cas particulier o` les An sont vides ` partir d’un e e u a certain rang. Pour (3).(4) et (5). on pose C0 = A0 et pour tout n ≥ 1. µ(A) ≤ µ(B) et si de plus µ(A) < ∞.1 Une mesure positive sur (E.1. ce qui donne la propri´t´ d’additivit´ finie. An ) = lim ↑ µ(An ) . N →∞ 11 . n→∞ (4) Si Bn ∈ A et Bn+1 ⊂ Bn . A) un espace mesurable.2. N µ( n∈N An ) = µ( n∈N Cn ) = n∈N µ(Cn ) = lim ↑ N →∞ n=0 µ(Cn ) = lim ↑ µ(AN ). D´finition 1. ee e Remarquons qu’il est important d’autoriser la valeur +∞. et si µ(B0 ) < ∞.2 Mesures positives Soit (E. ee e Propri´t´s. Puisque les Cn sont disjoints. µ n∈N An = n∈N µ(An ). (2) Si A. A) est une application µ : A −→ [0. (ii) Pour toute famille (An )n∈N de parties mesurables disjointes. La propri´t´ (ii) est appel´e σ-additivit´. e Cn = An \An−1 de sorte que ∪An = ∪Cn . µ(B\A) = µ(B) − µ(A) . ∞] qui e v´rifie les propri´t´s suivantes: e ee (i) µ(∅) = 0 . µ(A) + µ(B) = µ(A ∪ B) + µ(A ∩ B) . B ∈ A. µ( n∈N (3) Si An ∈ A et An ⊂ An+1 . n→∞ (5) Si An ∈ A. µ( n∈N An ) ≤ µ(An ). µ( n∈N Bn ) = lim ↓ µ(Bn ) . e e (1) Si A ⊂ B.

Alors µ(B0 ) − µ( n∈N Bn ) = µ(B0 \ Bn ) = µ( n∈N n∈N An ) = lim ↑ µ(An ) = lim ↑ (µ(B0 ) − µ(Bn )).} on a µ(Bn ) = ∞ alors que ∩Bn = ∅ et donc µ(∩Bn ) = 0. n∈N Exemples. n−1 Cn = An \ Les ensembles Cn sont disjoints et donc µ( n∈N Ak . pour (5). et A = P(N). not´e λ. . La mesure δx d´finie par e δx (A) = 1A (x) = 1 si x ∈ A 0 si x ∈ A / est appel´e mesure de Dirac au point x. (On peut d´finir plus g´n´ralement la mesure de comptage sur (E. e D´finitions. b[ de R on ait λ(]a. . n + 2. Il existe une unique mesure positive sur (R. B(R)). k=0 An ) = µ( n∈N Cn ) = n∈N µ(Cn ) ≤ µ(An ). Plus g´n´ralement. P(E)) lorsque E est e e e quelconque. e • µ est une mesure de probabilit´ si µ(E) = 1. e • µ est dite finie si µ(E) < ∞ (la quantit´ µ(E) est la masse totale de µ). n + 1. ∞] on peut consid´rer la mesure e αn δxn d´finie par ( αn δxn )(A) = αn δxn (A) = αn 1A (xn ). la mesure de comptage est d´finie par e µ(A) = Card(A). on pose C0 = A0 puis pour tout n ≥ 1. si xn . n ∈ N sont des points de e e e e E et αn ∈ [0.Pour (4). A) quelconque et soit x ∈ E. (2) Soit (E. • La mesure µ est dite diffuse si elle n’a pas d’atomes. .) Cet exemple permet de voir que la condition µ(B0 ) < ∞ est n´cessaire dans e la propri´t´ (4) ci-dessus : en prenant ee Bn = {n. e • µ est dite σ-finie s’il existe une suite croissante de parties mesurables En telles que E= En et µ(En ) < ∞ pour tout n. b[) = b − a. n∈N • x ∈ E est un atome de µ si µ({x}) > 0 (on suppose que {x} ∈ A). telle e que pour tout intervalle ouvert ]a. n→∞ n→∞ La condition µ(B0 ) < ∞ est utilis´e notamment pour ´crire µ(An ) = µ(B0 ) − µ(Bn ). de sorte que la suite (An ) est croissante. (3) Mesure de Lebesgue. e e Enfin. 12 . L’existence et l’unicit´ de e cette mesure seront ´tablies plus loin. (1) Si E = N. on pose An = B0 \Bn pour tout n.

u e e Exemples. f2 (x)) est aussi mesurable. On applique la derni`re proposition en prenant e C = {B1 × B2 . A) −→ (F2 . A) −→ (F1 × F2 . A) −→ (F1 .1 Soient (E. Op´rations sur les fonctions mesurables. B(R)). 0) sont mesurables. Lorsque E et F sont des espaces topologiques munis de leurs tribus bor´liennes.3.1 La composition de deux applications mesurables est encore mesurable. Preuve.3 Soient f1 : (E. f1 et f2 le sont aussi) est e vraie et aussi facile. 13 .2 Pour que f soit mesurable. alors les fonctions f + g. f −1 (B) ∈ A. −1 −1 Puisque f −1 (B1 × B2 ) = f1 (B1 ) ∩ f2 (B2 ) ∈ A on obtient imm´diatement le r´sultat.1. Alors il est facile de v´rifier que G est une tribu. B2 ∈ B2 }. B1 ) et f2 : (E. d’o` le r´sultat recherch´. La r´ciproque de la proposition (si f est mesurable. A) et (F. e e Proposition 1. e Lemme 1. B(R)) sont mesurables. Par hypoth`se C ⊂ G. Corollaire 1. Il en d´coule que G e e e contient σ(C) = B. B) deux espaces mesurables. il suffit qu’il existe une sous-classe C de B telle que σ(C) = B et telle que la propri´t´ f −1 (B) ∈ A soit vraie pour tout B ∈ C. B2 ) deux applications mesurables.3. ee Preuve. ou mˆme les f −1 (] − ∞. f − = sup(−f. u e toute application continue est aussi mesurable (prendre pour C la classe des ouverts de F ).3. inf(f. b[).4 Si f. on dit aussi e que f est bor´lienne. f + = sup(f. B1 ⊗ B2 ) d´finie par f (x) = e (f1 (x). C’est imm´diat en ´crivant (g ◦ f )−1 (C) = f −1 (g −1 (C)). g).3. A) −→ (R.3. Alors l’application produit f : (E. a[) sont mesurables. Soit G = {B ∈ B : f −1 (B) ∈ A}.3 Fonctions mesurables D´finition 1. e e Remarque. Une application f : e E −→ F est dite mesurable si ∀B ∈ B . (1) Dans le cas o` (F. f g. B1 ∈ B1 . e e (2) Dans le cas o` E et F sont des espaces topologiques munis de leurs tribus bor´liennes. il suffit pour montrer que f est mesurable u −1 d’´tablir que les ensembles f (]a. g : (E. 0). B) = (R. e Proposition 1.

lim inf an = lim ↑ k≥n n→∞ k≥n inf ak .3. g(x)) et (a. a[) ∈ A. a[) = {x : inf fn (x) < a} = {x : fn (x) < a} n d’o` le r´sultat.2 Soit f : (E. Il suffit de montrer que pour tout a ∈ R. lim sup an et lim inf an sont respectivement la plus grande et la plus petite valeur d’adh´rence de la suite (an ). b) −→ a + b qui sont mesurables. D´finition 1. En particulier si la suite fn converge simplement. Soit f (x) = inf fn (x). B) une application mesurable. sa limite lim fn est mesurable. f −1 ([−∞. e e Preuve. lim inf fn n n sont aussi mesurables. u e e Il en d´coule que e lim inf fn = sup n≥0 k≥n inf fk est mesurable. ¯ les limites existant dans R. B).La d´monstration est facile : par exemple f + g est la compos´e des deux applications e e x −→ (f (x). ¯ Rappelons que si (an ) est une suite d’´l´ments de R = R ∪ {−∞. Alors. de R e Notion de mesure-image. A) −→ (F. Il est facile de voir que la derni`re formule d´finit bien une mesure sur (F. En g´n´ral.3. inf fn . e ¯ Proposition 1. on ´crit e e {x ∈ E : lim fn (x) existe} = {x ∈ E : lim inf fn (x) = lim sup fn (x)} = G−1 (∆) si G est l’application mesurable G(x) = (lim inf fn (x). La mesure-image de µ par f . l’ensemble {x ∈ E : lim fn (x) existe} est mesurable. lim sup fn . Les mesures e e µ et f (µ) ont mˆme masse totale. qui est mesurable parce que ferm´e. A). alors sup fn . Pour la derni`re assertion. et soit µ une mesure e positive sur (E. mais il peut arriver que µ soit σ-finie sans que f (µ) le soit. +∞}. B) e d´finie par e f (µ)(B) = µ(f −1 (B)). e 14 . lim sup fn (x)) et ∆ d´signe la diagonale e ¯ 2 . on d´finit ee e lim sup an = lim ↓ n→∞ sup ak . Or f −1 ([−∞.5 Si fn est une suite de fonctions mesurables de E dans R. not´e f (µ) est la mesure positive sur (F. On traite de mˆme le cas de sup fn . la seconde parce que continue.

Preuve. 15 . C⊂M M. not´e M(C). Montrons donc que M(C) est stable par a e e intersections finies. alors B\A ∈ M . Posons e M1 = {B ∈ M(C) : A ∩ B ∈ M(C)}. il est clair que C ⊂ M1 . On a donc montr´ e ∀A ∈ C.1 (Lemme de classe monotone) Si C ⊂ P(E) est stable par intersece e tions finies. il est clair qu’on a M(C) ⊂ σ(C). Puisque M1 est une classe monotone qui contient C.4. Comme dans le cas des tribus. e • Si B. M1 contient aussi M(C). Th´or`me 1. A ∩ B ∈ M(C). elle sera alors stable par r´union finies. Soit A ∈ C fix´. il suffit de montrer que M(C) est une tribu.1 Un sous-ensemble M de P(E) est appel´ classe monotone si e e (i) E ∈ M . e Si C est une partie quelconque de P(E). on voit imm´diatement que toute intersection de classes monotones est encore une classe monotone.4. Toute tribu est aussi une classe monotone. B ′ ∈ M1 et B ⊂ B ′ . (iii) Si An ∈ M et An ⊂ An+1 . Or une classe e monotone est une tribu si et seulement si elle est stable par intersections finies (en effet.1. • Si Bn ∈ M1 pour tout n et la suite Bn croˆ on a A ∩ (∪Bn ) = ∪(A ∩ Bn ) ∈ M(C) et donc ∪Bn ∈ M1 . ıt. Puisque toute tribu est une classe monotone. alors M(C) = σ(C). ∀B ∈ M(C). on a A ∩ (B ′ \B) = (A ∩ B ′ )\(A ∩ B) ∈ M(C) et donc B ′ \B ∈ M1 .4 Classe monotone D´finition 1. Pour ´tablir l’inclusion inverse. V´rifions ensuite que e M1 est une classe monotone: • E ∈ M1 est imm´diat. on peut donc d´finir la classe monotone engendr´e e e par C. alors n An ∈ M. B ∈ M et A ⊂ B. en posant e M(C) = M classe monotone. (ii) Si A. par passage au compl´mentaire. puis par passage e e ` la limite croissant par r´union d´nombrable). Puisque C est stable par intersections finies.

(1) Si µ(E) = ν(E) < ∞. Par hypoth`se. (2) S’il existe une suite croissante de parties En ∈ C telles que E = ∪En et µ(En ) = ν(En ) < ∞. en utilisant a les propri´t´s de limite croissante des mesures.Ce n’est pas encore le r´sultat recherch´. νn (A) = ν(A ∩ En ). telle que σ(C) = A et µ(A) = ν(A) pour tout A ∈ C. on e v´rifie ais´ment que G est une classe monotone : par exemple. Supposons qu’il existe une classe C ⊂ A stable par intersections finies. mais on peut appliquer la mˆme id´e une seconde e e e e fois. si λ′ est une seconde mesure ayant la mˆme propri´t´. C ⊂ G. c’est-`-dire µ = ν. et on pose e e M2 = {A ∈ M(C) : A ∩ B ∈ M(C)}. (1) Soit G = {A ∈ A : µ(A) = ν(A)}. Par ailleurs. Finalement. la seconde par hypoth`se). e a (2) Notons. Il existe au plus une mesure λ sur e e (R. Preuve. Unicit´ de la mesure de Lebesgue. B(R)) telle que pour tout intervalle ouvert non vide ]a. Donc G = A. on a µ = ν. b[) = b − a. ce qui montre bien que M(C) est stable par intersections finies et e termine la preuve. n[ pour tout n.4. on a µ = ν. A). B ∈ G et A ⊂ B. pour tout A ∈ A. si A. et on trouve µn = νn . a]) pour tout a ∈ R. Pr´cis´ment. pour tout n. C ⊂ M2 . on d´duit du corollaire pr´c´dent qu’une mesure finie µ sur R est e c e e e caract´ris´e par les valeurs de µ(] − ∞. b[. on montre que M2 est une classe monotone. e e 16 . En reprenant exactement les mˆmes e e e arguments que dans la premi`re ´tape. e De la mˆme fa¸on. en prenant pour C la classe des intervalles ouverts (dont e e on sait qu’elle engendre la tribu bor´lienne) et En =] − n. ee µ(A) = lim ↑ µ(A ∩ En ) = lim ↑ ν(A ∩ En ) = ν(A). on ait λ(]a. on fixe maintenant B ∈ M(C). et donc B\A ∈ E (noter qu’on utilise ici le fait que µ et ν sont finies). e D’apr`s la premi`re ´tape de la preuve. On peut appliquer la partie (1) ` µn et νn . On conclut que G contient M(C) = σ(C) = A (la premi`re ´galit´ d’apr`s le th´or`me e e e e e e de classe monotone. µn la restriction de µ ` En et νn la restriction de ν ` En : a a ∀A ∈ A . Corollaire 1.2 Soient µ et ν deux mesures sur (E. En effet. Il en e e d´coule que M(C) ⊂ M2 . Cons´quence. on peut appliquer ` λ et λ′ la e ee a partie (2) du corollaire pr´c´dent. µn (A) = µ(A ∩ En ). on a e e µ(B\A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B\A).

Si α1 . qui ne prennent qu’un nombre fini de e e e valeurs. dont la valeur absolue e e e est d’int´grale finie. . c’est-`-dire un espace mesurable (E. n}. Fonctions ´tag´es. . .1 Int´gration de fonctions positives e On se donne un espace mesur´. L’int´grale de f par rapport ` µ est alors e a e a d´finie par e n f dµ = i=1 αi µ(Ai ) u avec la convention 0. La e d´finition est facile pour les fonctions dites ´tag´es. Le dernier paragraphe donne des applications importantes ` la continuit´ ou a e la d´rivabilit´ d’int´grales d´pendant d’un param`tre. on ´tablit les trois grands th´or`mes de e e e e e convergence de la th´orie. . α2 . 17 . Une fois construite l’int´grale. e D´finition 2.1. L’´criture pr´c´dente sera appel´e u e e e e l’´criture canonique de f .Chapitre 2 Int´gration par rapport ` une mesure e a Le premier objectif de ce chapitre est de construire l’int´grale de fonctions mesurables. e e e e e 2. Une fonction mesurable f ` valeurs dans R est dite ´tag´e si elle ne e e a e e prend qu’un nombre fini de valeurs. le lemme de Fatou e a e e et le th´or`me de convergence domin´e. e e e on raisonne par lin´arit´ en se limitant aux fonctions dites int´grables. pour chaque i ∈ {1. . Ensuite l’int´grale d’une fonction mesurable positive est d´finie comme le supremum e e des int´grales des fonctions ´tag´es qui la minorent. on a alors e n f (x) = i=1 αi 1Ai (x) o` . Pour les fonctions de signe quelconque.∞ = 0 dans le cas o` αi = 0 et µ(Ai ) = ∞. A) muni d’une mesure e a µ. Ai = f −1 ({αi }) ∈ A. .1 Supposons f ` valeurs dans R+ . . ` savoir le th´or`me de convergence monotone. qu’on peut supposer rang´es par ordre croissant α1 < α2 < · · · < αn . . αn sont les valeurs prises par f . Ces trois ´nonc´s visent ` donner des conditions e e e e e a assurant que l’int´grale de la limite d’une suite de fonctions est la limite des int´grales de e e ces fonctions.

n}. . g = k=1 ′ αk 1A′k les ´critures canoniques de f et g. γj . D’apr`s la remarque suivant la d´finition. (1) Soient f= i=1 f dµ + b gdµ. on a e e e p p f dµ = j=1 βj µ(Bj ) . et de mˆme e (af + bg)dµ = p j=1 (aβj + bγj ) µ(Bj ). Preuve. e e Propri´t´s. on voit qu’on peut ´crire e e p p f= j=1 βj 1Bj . . . En ´crivant chaque Ai comme la r´union disjointe des e e e ′ ′ ensembles Ai ∩ Ak . non e n´cessairement distincts).On a a priori f dµ ∈ [0. Soient f et g deux fonctions ´tag´es positives. m}. En effet. . . et de mˆme pour chaque Ak . b ≥ 0. g = j=1 γj 1Bj avec les mˆmes ensembles mesurables disjoints Bj (mais les nombres βj . g dµ = j=1 γj µ(Bj ). Alors il est facile de v´rifier qu’on a aussi e e m f dµ = j=1 βj µ(Bj ). k ∈ {1. . Il suffit alors d’utiliser la propri´t´ d’additivit´ de la mesure ee e pour ´crire e µ(Ai ) = µ(Bj ) {j:βj =αi } ce qui conduit au r´sultat annonc´. pour chaque i ∈ {1. d’o` le r´sultat voulu. m αi 1Ai . . . Ai doit ˆtre la r´union disjointe des ensembles Bj pour e e les indices j tels que βj = αi . (af + bg)dµ = a (2) Si f ≤ g. f dµ ≤ n gdµ. Supposons qu’on ait une autre ´criture de f sous la forme e m f= j=1 βj 1Bj les ensembles mesurables Bj formant toujours une partition de E mais les nombres βj n’´tant e plus n´cessairement distincts. e e e e (1) Pour tous a. ∞]. resp. u e 18 .

et la condition a < 1. La propri´t´ (2) ci-dessus montre que cette d´finition est coh´rente avec la pr´c´dente ee e e e e quand f est ´tag´e. e e D´finition 2. (en effet il suffit de le v´rifier lorsque e f est ´tag´e. ıt on voit que E est la r´union croissante des ensembles En . Alors En est mesurable.1. D’apr`s la propri´t´ (1) ci-dessus. on a e ee f dµ ≥ lim ↑ n→∞ fn dµ et il suffit donc d’´tablir l’autre in´galit´. Soit a ∈ [0. ∞]). et soit f = lim ↑ fn .2 Soit f : E −→ [0. f ou mˆme µ(f ).1 (Th´or`me de convergence monotone) Soit (fn ) une suite croissante e e e e de fonctions mesurables positives (` valeurs dans [0. e Propri´t´s.(2) On applique (1) en ´crivant e gdµ = f dµ + (g − f )dµ ≥ f dµ. ∞] une fonction mesurable. On pose e f dµ = sup h∈E+ . e 19 . alors f dµ = 0. Preuve. mais alors c’est ´vident sur la d´finition) e e e e Th´or`me 2. et En = {x ∈ E : ah(x) ≤ fn (x)}. Alors a f dµ = lim ↑ n→∞ fn dµ. f dµ ≤ gdµ (´vident sur la d´finition) e e (2) Si µ({x ∈ E : f (x) > 0}) = 0. Pour cela. Notons E+ l’espace des fonctions ´tag´es positives.1. De plus en utilisant le fait que fn croˆ vers f . e e (1) Si f ≤ g.h≤f h dµ . e e On notera indiff´remment e f dµ = f (x)dµ(x) = f (x)µ(dx) et on trouve parfois la notation µ. choisissons une fonction ´tag´e positive e e e e e m h= i=1 αi 1Ai avec h ≤ f . 1[.

. Puisque En ↑ E on a Ai ∩En ↑ Ai et µ(Ai ∩En ) ↑ µ(Ai ) quand n → ∞.1. n→∞ Comme f dµ est d´finie par le supremum des quantit´s de droite lorsque h d´crit l’ensemble e e e des fonctions ´tag´es positives major´es par f . . En faisant tendre a vers 1. (af + bg)dµ = a f dµ + b gdµ. d’apr`s les propri´t´s e ee ´l´mentaires des mesures.u Ensuite on remarque qu’on a l’in´galit´ fn ≥ a1En h.i On v´rifie ais´ment que fn (x) ↑ f (x) pour tout x ∈ E. ∞]. e e e e e e Dans toute la suite “fonction mesurable positive” signifie fonction mesurable ` valeurs a dans [0. Proposition 2. .2 (1) Soit f une fonction mesurable positive. d’o` e e m fn dµ ≥ a1En h dµ = a i=1 αi µ(Ai ∩ En ). En passant ` la limite croissante il vient ee a m n→∞ lim ↑ fn dµ ≥ a αi µ(Ai ) = a i=1 hdµ. e e Soit ensuite fn la fonction ´tag´e fn = n2n −1 i=0 i 1 B + n 1 An . posons An = {x ∈ E : f (x) ≥ n} Bn. (3) Si (fn ) est une suite quelconque de fonctions mesurables positives. on obtient bien l’in´galit´ recherch´e. 1. Preuve. b ∈ R+ . Il existe une suite croissante (fn ) de fonctions ´tag´es positives telle que fn ↑ f . (1) Pour tout n ≥ 1 et tout i ∈ {0. e e 20 . . fn dµ = n n fn dµ.i = {x ∈ E : i2−n ≤ f (x) < (i + 1)2−n }. n2n − 1}. 2n n. on trouve lim ↑ fn dµ ≥ hdµ. e e (2) Si f et g sont mesurables positives et a.

Par ıt´ exemple si f et g sont deux fonctions mesurables. .(2) On construit deux suites de fonctions ´tag´es positives (fn ). appel´e mesure de densit´ f par rapport ` µ. si (An ) est une suite d’ensembles e mesurables disjoints. On a µ(A) = 0 ⇒ ν(A) = 1A f dµ = 0.3 Soit f mesurable positive. ou mˆme simplement ee p.p. signifie µ({x ∈ E : f (x) = g(x)}) = 0. µ({x ∈ E : f (x) ≥ a}) ≤ 21 1 a f dµ. (3) Cette assertion d´coule de (2) (cas d’une somme finie) et du th´or`me de convergence e e e monotone. Alors ν est une mesure positive sur (E. Remarque. soit ν(A) = 1A f dµ = (not. f = g p.) A f dµ. (1) Pour tout a > 0.p.k . ν n∈N An = n∈N 1An f dµ = n∈N 1An f dµ = n∈N ν(An ) en utilisant la propri´t´ (3) ci-dessus. ee e e e (af + bg)dµ = lim ↑ (afn + bgn )dµ = lim ↑ (a fn dµ + b gn dµ) = a f dµ + b gdµ. A). e On dit qu’une propri´t´ est vraie µ presque partout. Par ailleurs.4 Soit f une fonction mesurable positive. e e Alors on a aussi afn + bgn ↑ af + bg. s’il n’y a pas ambigu¨ e.k = k∈N n∈N n∈N k∈N Corollaire 2. Alors e u il est facile de voir que f dµ = k∈N f (k) et (3) redonne la propri´t´ bien connue ´non¸ant que pour toute suite double (an.p. ee Remarque. Proposition 2. ou µ p. et e e a not´e ν = f · µ.1.k ) de r´els ee e c e positifs. Consid´rons le cas particulier o` E = N et µ est la mesure de comptage. et en utilisant le th´or`me de convergence monotone e e et les propri´t´s de l’int´grale des fonctions ´tag´es. gn ↑ g. e Preuve. et pour tout A ∈ A. (gn ) avec fn ↑ f . an. an.1. Il est imm´diat que ν(∅) = 0. si elle est vraie en dehors d’un ensemble de mesure nulle.

p. Bn = {x ∈ E : f (x) ≥ n−1 }. soit. Pour ⇒. Preuve. Alors. g).. et de mˆme pour g. ⇒ f dµ = gdµ. Alors f ∨ g = f ∧ g p.p.p. (3) On a f dµ = 0 ⇔ f = 0 p. (2) Pour tout n ≥ 1. Th´or`me 2. en utilisant (1). Alors. e µ(Bn ) ≤ n f dµ = 0 Bn = 0. f =g p. (4) Si g est une autre fonction mesurable positive. soit An = {x ∈ E : f (x) ≥ n} et soit A∞ = {x ∈ E : f (x) = ∞}. Puisque f ∧ g ≤ f ≤ f ∨ g. g) et f ∧ g = inf(f. pour tout n ≥ 1. il en d´coule e e que f dµ = (f ∨ g)dµ = gdµ. Alors. n≥1 et donc µ(Bn ) = 0 ce qui entraˆ µ({x : f (x) > 0}) = µ ıne (4) Utilisons la notation f ∨ g = sup(f. . d’o` u (f ∨ g)dµ = (f ∧ g)dµ + (f ∨ g − f ∧ g)dµ = (f ∧ g)dµ.(2) On a f dµ < ∞ ⇒ f < ∞ p.5 (Lemme de Fatou) Soit (fn ) une suite quelconque de fonctions mesurae e bles positives. puisque f ∨ g − f ∧ g = 0 p. d’apr`s (1). Alors f ≥ a1Aa et donc f dµ ≥ a1Aa dµ = aµ(Aa ). (lim inf fn )dµ ≤ lim inf 22 fn dµ. (1) Posons Aa = {x ∈ E : f (x) ≥ a}.p.1. µ(A∞ ) = µ An = lim ↓ µ(An ) ≤ lim n→∞ n≥1 1 n→∞ n f dµ = 0.p. ea ee (3) L’implication ⇐ a d´j` ´t´ vue.

µ) est un espace vectoriel et l’application f → sur cet espace vectoriel. 0). n≥k inf fn ≤ fp fp dµ. pour tout entier p ≥ k. alors f dµ ≤ gdµ.Preuve. On utilisera parfois la notation e 1 L+ (E. A. On a f + dµ ≤ |f |dµ < ∞ et de mˆme f − dµ < ∞. On dit que f est int´grable par e e rapport ` µ (ou µ-int´grable) si a e |f | dµ < ∞. resp. (Noter u e + − + − + − que f et f sont mesurables et que f = f − f et |f | = f + f . e e e (lim inf fn )dµ = lim ↑ k→∞ n≥k inf fn dµ. A. µ) et f ≤ g. 23 f dµ est une forme lin´aire e . ce qui montre que la e d´finition de f dµ a bien un sens. u e e 1 On note L (E. e a Propri´t´s. ce qui entraˆ ıne n≥k inf fn dµ ≤ inf p≥k En passant ` la limite croissante quand k ↑ ∞. Par ailleurs. de f . e e (a) | f dµ| ≤ |f |dµ pour f ∈ L1 (E. ce qui termine la preuve. (b) L1 (E. g ∈ L1 (E. cette d´finition co¨ e u e ıncide bien sˆ r avec la pr´c´dente. µ) l’espace des fonctions µ-int´grables. µ) pour les fonctions µ-int´grables ` valeurs positives.1 Soit f : E −→ R une fonction mesurable.2 Fonctions int´grables e D´finition 2. A. A. (c) Si f. resp. µ).) Remarque. Dans le cas o` f est positive. A. 0) est la partie positive. n´gative. il vient a k→∞ lim ↑ n≥k inf fn dµ ≤ lim ↑ inf k→∞ p≥k fp dµ = lim inf fn dµ. Dans ce cas on pose f dµ = f + dµ − f − dµ o` f + = sup(f. 2. On a lim inf fn = lim ↑ k→∞ n≥k inf fn et donc d’apr`s le th´or`me de convergence monotone.2. f − = sup(−f.

Extension au cas complexe. A. e (d) L’´galit´ f = g p. (a) On ´crit e | f dµ| = | f + dµ − f − dµ| ≤ | f dµ = gdµ. µ). alors Preuve. f + dµ| + | f − dµ| = |f |dµ. En utilisant l’additivit´ de l’int´grale pour les fonctions positives. . 24 ce qui donne bien (f + g)dµ = f dµ + gdµ. A. alors f dµ ≤ gdµ. Soit f : E −→ C une fonction mesurable (cela ´quivaut ` e a dire que Re(f ) et Im(f ) sont toutes deux mesurables). (c) Il suffit d’´crire gdµ = f dµ + (g − f )dµ. puisque toutes les int´grales sont finies. Pour a ∈ R. |af |dµ = |a| Si a ≥ 0. et si a < 0.p.p. (f + g)+ − (f + g)− = f + g = f + − f − + g + − g − entraˆ ıne (f + g)+ + f − + g − = (f + g)− + f + + g + .p. µ) et f ≤ g p. A. Il suffit alors d’utiliser les e e ıne r´sultats vus dans le cas des fonctions positives.(d) Si f. (b) Soit f ∈ L1 (E. (af )dµ = (af )+ dµ − (af )− dµ = (−a) f − dµ + a f + dµ = a f dµ. e e (f + g)+ dµ + f − dµ + g − dµ = (f + g)− dµ + f + dµ + g + dµ. g ∈ L1 (E. si f. µ) si C |f |dµ < ∞. l’in´galit´ |f + g| ≤ |f | + |g| entraˆ que f + g ∈ L1 .p.. si f. On combine facilement (c) et (d) pour obtenir que. g ∈ L1 (E. g ∈ L1 (E. (af )+ dµ − |f |dµ < ∞. d’o` . En e e ıne outre. A. µ) et f = g µ p. e Remarque.. (af )− dµ = a (af )dµ = f dµ De plus. entraˆ f + = g + et f − = g − p. A. µ). On dit que f est int´grable et on e note f ∈ L1 (E. u e (f + g)+ dµ − (f + g)− dµ = f + dµ − f − dµ + g + dµ − g − dµ.

A. On suppose: C (1) Il existe une fonction f mesurable ` valeurs dans R (resp. µ) (resp. u e ea Th´or`me 2. dans L1 (E. On suppose d’abord que les hypoth`ses suivantes plus fortes sont v´rifi´es: e e e (1)’ Pour tout x ∈ E. dans C) telle que a fn (x) −→ f (x) µ p. Par lin´arit´ de l’int´grale. fn (x) −→ f (x) (2)’ Il existe une fonction g : E −→ R+ mesurable telle que et tout x ∈ E |fn (x)| ≤ g(x). µ) ee e C (pour montrer (a). A. Ensuite.(b) et (d) ci-dessus restent vraies si L1 (E. µ)). on peut appliquer le lemme de Fatou pour trouver lim inf (2g − |f − fn |) dµ ≥ lim inf(2g − |f − fn |) dµ = 2 gdµ. puisque ee |f − fn | ≤ 2g et |f − fn | −→ 0. Les propri´t´s (a). Alors f ∈ L1 (E.1 (Th´or`me de convergence domin´e) Soit (fn ) une suite de fonce e e e e tions dans L1 (E. gdµ < ∞ et pour tout n. A. .|a|=1 a· f dµ o` a · z d´signe le produit scalaire dans C identifi´ ` R2 ). (2) Il existe une fonction g : E −→ R+ mesurable telle que |fn | ≤ g µ p. gdµ < ∞ et pour tout n La propri´t´ f ∈ L1 est alors claire puisque |f | ≤ g et gdµ < ∞. A. f ∈ L1 (E. et on a C n→∞ lim fn dµ = f dµ et n→∞ lim |fn − f |dµ = 0. µ)). A. µ) est remplac´ par L1 (E. Preuve. il vient e e e 2 gdµ − lim sup |f − fn |dµ ≥ 2 25 gdµ.2. µ) (resp. A. remarquer que | f dµ| = sup a∈C.p.On pose alors f dµ = Re(f )dµ + i Im(f )dµ.p.

3. (ii) µ(dx) p.p. x) . Alors µ(Ac ) = 0.p. x) µ(dx) = f (u0. |fn (x)| ≤ g(x)}. on pose e e u A = {x ∈ E : fn (x) −→ f (x) et pour tout n. fn = fn p. Supposons e e (i) pour tout u ∈ U.p.p. d) qui correspond ` l’espace des param`tres. soit (un )n≥1 une suite convergeant vers u0 . Les r´sultats recherch´s d´coulent du cas o` (1)’ et (2)’ sont v´rifi´s. x)µ(dx) est bien d´finie en tout point u ∈ U et elle est e Preuve. f dµ = f dµ et |fn − f |dµ = ˜ ˜ |fn − f |dµ. et donc fn dµ = fn dµ. L’hypoth`se (iii) entraˆ que la fonction x −→ f (u. L’hypoth`se (ii) assure e e que f (un . µ(dx) p. qui donne e n→∞ lim f (un . Soit une e a e application f : U × E −→ R (ou C). x) est continue en u0 . x) −→ f (u0 .p. µ) telle que pour tout u ∈ U.1 Soit u0 ∈ E. x) est mesurable. Finalement il suffit d’´crire e f dµ − fn dµ ≤ |f − fn |dµ. l’application u −→ f (u. ˜ ˜ ˜ ˜ On a f = f p. n→∞ Grˆce ` l’hypoth`se de domination (iii). x)| ≤ g(x) Alors la fonction F (u) = continue en u0. A. on peut appliquer le th´or`me de convergence a a e e e domin´e. e e e u e e 2. Dans le cas g´n´ral o` on suppose seulement (1) et (2). x) est int´grable et donc F (u) e ıne e est bien d´finie. et on peut appliquer la premi`re partie de la preuve aux fonctions e ˜ fn (x) = 1A (x)fn (x) . |f − fn |dµ −→ 0.d’o` u lim sup et donc |f − fn |dµ = 0. Ensuite. µ p. f (u. ˜ f (x) = 1A (x)f (x). + |f (u. 26 . (iii) il existe une fonction g ∈ L1 (E.3 Int´grales d´pendant d’un param`tre e e e On se donne un espace m´trique (U.. x) µ(dx). Th´or`me 2. l’application x −→ f (u.

Th´or`me 2. λ). Pour le voir. Alors la fonction h ∗ ϕ d´finie sur R par e h ∗ ϕ(u) = est continue (et born´e). µ). On peut la prolonger ` E tout entier e a de mani`re arbitraire (par exemple par la valeur 0). A. e Nous passons maintenant ` un th´or`me de d´rivabilit´ sous le signe int´grale. B(R). et pour a e e e e e cela nous supposons que U = I est un intervalle ouvert de R. x)| ≤ g(x)|u − u0 | Alors la fonction F (u) = µ(dx) p.3. B(R). Soit ϕ ∈ L1 (R.Exemples. x) est dans L1 (E.u](x)ϕ(x) µ(dx) est continue. (c) Convolution. x)µ(dx) est d´rivable en u0 . ∂u Remarque. + |f (u. Si ϕ ∈ L1 (R. de d´riv´e e F ′ (u0 ) = ∂f (u0 .p. la fonction F (u) = ]−∞. Si ϕ ∈ L1 (R. A priori la d´riv´e ∂u (u0 . x) est continue e en u0 pour tout x ∈ R\{u0}. B(R). la fonction u −→ f (u. (b) Transform´e de Fourier. µ) telle que pour tout u ∈ I. µ). il suffit d’appliquer le th´or`me ` f (u. x) − f (u0 . l’application x −→ f (u. l’application u −→ f (u. 27 . λ). en e e a prenant g = |ϕ| et en observant que pour u0 ∈ R fix´. Soit ` nouveau une application a f : U × E −→ R (ou C). h(u − x) ϕ(x) λ(dx) e e f (u.p. x) µ(dx). A. de fa¸on ` d´finir l’int´grale qui donne e c a e e F ′ (u0). x) n’est d´finie (par (ii)) que pour x appartenant e e ∂f e au compl´mentaire d’un ensemble de mesure nulle. la fonction e ϕ(u) = ˆ eiux ϕ(x) λ(dx) est continue sur R.u] ϕ(x) µ(dx) = 1]−∞. et soit h une fonction continue born´e de R e dans R.u](x)ϕ(x). Supposons que e e (i) pour tout u ∈ I. x) = 1]−∞. ∂u (iii) il existe une fonction g ∈ L1 (E. (ii) µ(dx) p. (a) Soit µ une mesure diffuse sur (R.2 Soit u0 ∈ I. x) est d´rivable en u0 de d´riv´e not´e e e e e ∂f (u0 . B(R)). x) .

et soit h une fonction de R −→ R une fonction de classe C 1 .Preuve. x) est d´rivable sur I. A. µ) telle que µ(dx) p. B(R)) et soit ϕ ∈ L1 (R. Dans de nombreuses applications. ∂f (u. De plus l’hypoth`se (iii) permet a a ∂u d’appliquer le th´or`me de convergence domin´e et d’obtenir e e e n→∞ lim F (un ) − F (u0) = lim n→∞ un − u0 ϕn (x) µ(dx) = ∂f (u0 . ∂u Remarque. un − u0 e Grˆce ` (ii). Exercice. e (iii)’ il existe une fonction g ∈ L1 (E. λ) telle que |xϕ(x)| λ(dx) < ∞. la a e e e fonction F est d´rivable sur I. µ) telle que |xϕ(x)| µ(dx) < ∞.p. x). µ(dx) p. de d´riv´e e e e F ′ (u) = 28 . x) µ(dx). x) ≤ g(x). ϕn (x) converge vers ∂f (u0.) Sous ces hypoth`ses.. h ∗ ϕ est u e a ∞ aussi de classe C . ϕ(x) µ(dx).u] Montrer que F est d´rivable sur R. B(R). λ). et e e e e On peut bien sˆ r it´rer. Alors la convolution h ∗ ϕ est d´rivable sur R.p. ∂u (Noter que (iii)’⇒(iii) grˆce au th´or`me des accroissements finis. et soit ϕn (x) = f (un . Par exemple si h est de classe C ∞ ` support compact. (b) Soit ϕ ∈ L1 (R. L’exercice ci-dessous montre cependant que la forme plus e pr´cise de l’´nonc´ du th´or`me est parfois n´cessaire. e e e e e e Exemples. et e ˆ e ϕ′ (u) = i ˆ x eiux ϕ(x) λ(dx). B(R). l’application u −→ f (u. B(R). Pour tout u ∈ R. Soit µ une mesure diffuse sur (R. (a) Soit ϕ ∈ L1 (R. + ∀u ∈ I .p. x) − f (u0 . Soit (un )n≥1 une suite dans I\{u0 } convergeant vers u0 . ]−∞. born´e ainsi que sa d´riv´e. Alors la transform´e de Fourier ϕ(u) est d´rivable sur R. (u − x)+ ϕ(x) µ(dx). on pose F (u) = R (h ∗ ϕ)′ = h′ ∗ ϕ. x) . les hypoth`ses (ii) et (iii) sont remplac´es e e par les hypoth`ses plus fortes e (ii)’ µ(dx) p.

et montre come ee ee ment ` partir d’une mesure ext´rieure on peut construire une (vraie) mesure sur une tribu a e convenable. (ii) µ∗ est croissante : A ⊂ B ⇒ µ∗ (A) ≤ µ∗ (B). Notre objectif dans ce paragraphe est de montrer comment ` partir d’une mesure ext´rieure a e ∗ ∗ ∗ µ on construit une mesure sur une tribu M(µ ) qui d´pend de µ . permet assez facilement e de construire la mesure de Lebesgue sur R ou sur Rd .1. Le premier paragraphe introduit la notion de mesure ext´rieure. qui est celle qu’avait utilis´e Lebesgue. Nous e e e montrons maintenant comment on construit des mesures int´ressantes. e v´rifiant des propri´t´s des propri´t´s plus faibles que celles d’une mesure. ainsi que ses liens avec l’int´grale de Riemann. ∞] est e appel´e mesure ext´rieure si e e (i) µ∗ (∅) = 0. ee µ∗ ( k∈N Ak ) ≤ µ∗ (Ak ). e 29 . e 3. qui correspond ` l’int´grale par rapport ` une mesure e a e a finie arbitraire sur la droite r´elle. on fixe une mesure ext´rieure µ∗ . ee e Remarquons cependant qu’une mesure ext´rieure est d´finie sur l’ensemble de toutes les e e parties de E et non pas seulement sur une tribu. Une application µ∗ : P(E) −→ [0. Dans la suite de cette e partie. Une autre ee e application est l’int´grale de Stieltjes. k∈N Les propri´t´s d’une mesure ext´rieure sont moins contraignantes que celles d’une mesure.1 Mesures ext´rieures e D´finition 3. (iii) µ∗ est σ-sous-additive : pour toute suite Ak . e Nous verrons plus loin sur des exemples comment on construit des mesures ext´rieures. et particuli`rement e e la mesure de Lebesgue. Nous discutons aussi diverses propri´t´s de la mesure de Lebesgue. Cette approche. k ∈ N d’´l´ments de P(E).Chapitre 3 Construction de mesures Le chapitre pr´c´dent partait de la donn´e d’une mesure sur un espace mesurable.1 Soit E un ensemble quelconque.

e m m µ (A) = k=0 ∗ µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ c Bk ). En cons´quence. e µ∗ (A) = µ∗ (A ∩ B) + µ∗ (A ∩ B c ). B2 ∈ M. Si µ∗ (B) = 0. il suffit pour compl´ter la preuve de montrer e e que si les ensembles Bk ∈ M.1. Pour cela a on montre par r´currence que pour tout entier m ∈ N et toute partie A de E. c’est donc l’in´galit´ inverse qu’il importe e e e e de v´rifier. Pour passer de l’´tape m ` l’´tape m + 1. c’est la d´finition de B0 ∈ M. (2) La restriction de µ∗ ` M(µ∗ ) est une mesure. l’in´galit´ µ∗ (A) ≥ µ∗ (A ∩ B c ) = µ∗ (A ∩ B) + µ∗ (A ∩ B c ) montre aussitˆt que B ∈ M. Alors.D´finition 3. Pour terminer la preuve de la partie (1). Etant stable par passage au compl´mentaire et e par r´union finie. il e e a e suffit d’´crire e m m c Bk k=0 m+1 c Bk k=0 µ (A ∩ ∗ ) = µ (A ∩ ∗ ∩ Bm+1 ) + µ (A ∩ m+1 c Bk ) k=0 ∗ c Bk ) k=0 = µ∗ (A ∩ Bm+1 ) + µ∗ (A ∩ 30 . Soient e e e e B1 . k=0 (3.1 (1) M(µ∗ ) est une tribu. pour toute A ∈ P(E). Compte-tenu de cette derni`re remarque. si B. M est stable par intersection finie. Remarque. On commence par ´tablir que M est stable par r´union finie. a e e Preuve. L’in´galit´ µ∗ (A) ≤ µ∗ (A ∩ B) + µ∗ (A ∩ B c ) est toujours v´rifi´e par σ-souse e e e additivit´. ee µ∗ (A ∩ (B1 ∪ B2 )) + µ∗ (A ∩ (B1 ∪ B2 )c ) c c c c = µ∗ (A ∩ B1 ) + µ∗ (A ∩ B1 ∩ B2 ) + µ∗ (A ∩ B1 ∩ B2 ) = µ∗ (A ∩ B1 ) + µ∗ (A ∩ B1 ) = µ∗ (A). ce qui montre bien que B1 ∪ B2 ∈ M. On note M(µ∗) l’ensemble des parties µ∗ -mesurables. B ′ ∈ M. Donc en utilisant successivement les propri´t´s B2 ∈ M et B1 ∈ M. (1) Notons M = M(µ∗) pour simplifier. l’hypoth`se B1 ∈ M montre que e c c µ∗ (A∩(B1 ∪B2 )) = µ∗ (A∩(B1 ∪B2 )∩B1 )+µ∗ (A∩(B1 ∪B2 )∩B1 ) = µ∗ (A∩B1 )+µ∗ (A∩B2 ∩B1 ).1.2 Une partie B de E est dite µ∗ -mesurable si pour toute partie A de E. e Th´or`me 3. o Ensuite on voit imm´diatement que ∅ ∈ M et que M est stable par passage au compl´e e mentaire. il reste a montrer que M est stable par ` r´union d´nombrable.1) Pour m = 0. Pour v´rifier que B est µ∗ -mesurable. e e B\B = B ′ ∩ B c ∈ M. qui contient toutes les parties B de E telles que e e µ∗ (B) = 0. k ∈ N sont deux ` deux disjoints on a Bk ∈ M.

bi [}. e e e ∗ (ii) La tribu M(λ ) contient B(R). Th´or`me 3. par σ-sous-additivit´. bi [. i∈N L’infimum porte sur tous les recouvrements d´nombrables de A par des intervalles ouverts e e ]ai . Comme l’in´galit´ inverse est aussi vraie par σ-sous-additivit´.2 La mesure de Lebesgue λ∗ (A) = inf{ i∈N Pour toute partie A de R. on d´finit e (bi − ai ) : A ⊂ ]ai . k ∈ M a ea des ´lements disjoints de M. b[) = b − a. (2) Notons µ la restriction de µ∗ ` M.1 (i) λ∗ est une mesure ext´rieure sur R.en utilisant le fait que les Bk sont disjoints.2. Soient Bk . cela termine la preuve. λ∗ ([a. ai ≤ bi (´videmment il existe toujours de tels recouvrements). (iii) Pour tous a ≤ b. e µ (A) ≥ et donc en prenant A = ∞ k=0 ∞ k=0 ∞ k=0 ∗ ∞ k=0 µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ ∞ k=0 c Bk ) Bk . µ( ∗ Bk ) ≥ µ∗ (Bk ).1) que e m µ (A) ≥ et en faisant tendre m vers ∞. La preuve de (1) montre que pour toute partie A de E. µ (A) ≥ ∗ ∗ k=0 µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ ∞ k=0 c Bk ) ∞ k=0 µ (A ∩ Bk ) + µ (A ∩ ∞ k=0 ∗ ∗ ∞ k=0 c Bk ) ∞ k=0 ≥ µ∗ (A ∩ Bk ) + µ∗ (A ∩ ∞ k=0 c Bk ). Cela suffit pour conclure que e Bk ∈ M. On d´duit de (3. On sait d´j` que µ(∅) = 0. b]) = λ∗ (]a. 31 . e e e 3.

Le probl`me est de v´rifier que pour toute e e partie A de R. λ∗ (A) ≥ λ∗ (A ∩ B) + λ∗ (A ∩ B c ). l’in´galit´ recherch´e en d´coule. i∈N i∈N i∈N et comme λ∗ (A) est par d´finition l’infimum des sommes de droite sur tous les recouvrements e de A. (bi ∧ α) + ε2−i[ recouvrent A ∩ B. α]. il suffit de montrer qu’elle contient une famille qui engendre la tribu bor´lienne. et donc e e λ∗ ( n∈N An ) ≤ (bi n∈N i∈N (n) − ai ) ≤ (n) λ∗ (An ) + 2ε. Les intervalles ]ai ∧ α. ((bi ∨ α) − (ai ∨ α)). On e se donne donc α ∈ R et on pose B =] − ∞. on a e λ∗ (A ∩ B) + λ∗ (A ∩ B c ) ≤ (bi − ai ). bi [)i∈N un recouvrement de A. bi [. bi [ i∈N (n) (n) (bi (n) − ai ) ≤ λ∗ (An ) + (n) (n) (n) ε . bi [. par exemple la famille des intervalles ] − ∞. i ∈ N forment un recouvrement d´nombrable de la r´union des An . et sera a a not´e simplement λ. on a (n) (n) peut trouver une suite d’intervalles ]ai . n ∈ N. (i) Il est imm´diat que λ∗ (∅) = 0 et que λ∗ est croissante. Pour cela. En cons´quence des r´sultats de la fin du Chapitre 1.Preuve. (bi − ai ) + 2ε. Soit ε > 0. n∈N d’o` le r´sultat puisque ε est arbitraire. c’est l’unique e e e mesure sur B(R) qui v´rifie la propri´t´ λ(]a. Soit (]ai . ∗ c i∈N ((bi ∧ α) − (ai ∧ α)) + 2ε. et les intervalles ]ai ∨ α. et ε > 0. e e e e 32 . i ∈ N tels que An ⊂ et i∈N La restriction de λ∗ ` B(R) (ou ` M(λ∗)) est la mesure de Lebesgue sur R. b[) = b − a pour tout intervalle ]a. α ∈ R. bi ∨ α[ recouvrent A ∩ B c . Il reste ` ´tablir la e a e sous-additivit´. u e (ii) Puisque M(λ∗ ) est une tribu. α]. Donc λ∗ (A ∩ B) ≤ λ (A ∩ B ) ≤ En faisant la somme on trouve λ∗ (A ∩ B) + λ∗ (A ∩ B c ) ≤ Puisque ε ´tait arbitraire. b[. Pour tout n ∈ N. on se donne une suite (An )n∈N de parties de N. e ee ]ai . On peut supposer e λ∗ (An ) < ∞ pour tout n (sinon il n’y a rien ` montrer). 2i Il suffit alors de remarquer que les intervalles ]ai .

λ∗ (P ) = vol (P ). bj [ . b] ⊂ ]ai . (iii) Pour tous pav´ (ouvert ou ferm´) P . On appelle pav´ ouvert (resp. Le volume de P est par d´finition e d vol (P ) = j=1 (bj − aj ). bj ]). e e e e Th´or`me 3. Pour l’in´galit´ inverse. b] ⊂ ]ai .2 (i) λ∗ est une mesure ext´rieure sur Rd . i=0 Un raisonnement ´l´mentaire montre alors que ee N b−a≤ i=0 (bi − ai ) ≤ ∞ i=0 (bi − ai ). i∈N Par compacit´. e e e ∗ d (ii) La tribu M(λ ) contient B(R ). Il est facile de voir enfin que λ∗ (]a. bi [. (resp. b[) = e e ∗ λ ([a.(iii) Il est imm´diat par d´finition que e e λ∗ ([a. ferm´) un sous-ensemble P de Rd de la forme e e d d P = j=1 ]aj . Extension en dimension d. On d´finit alors pour toute partie A de Rd e λ∗ (A) = inf{ i∈N vol (Pi ) : A ⊂ i∈N Pi }. P = j=1 [aj . e e 33 . bi [. on peut trouver un entier N assez grand tel que e N [a.2. Cela donne l’autre in´galit´ b − a ≤ λ∗ ([a. b]). o` l’infimum porte sur tous les recouvrements d´nombrables de A par des pav´s ouverts. b]) (par exemple en observant que λ∗ ({a}) = λ∗ ({b}) = 0). u e e On a alors l’analogue suivant du th´or`me pr´c´dent. supposons que e e [a. b]) ≤ b − a.

On verra plus tard (dans le Chapitre 5) une autre fa¸on de construire la mesure c de Lebesgue en dimension d ` partir du cas de la dimension un. on a ` la fois µ(B) ≤ µ(B ) et µ(B ) ≥ µ(B) ce qui force les ´galit´s a e e 34 .2. Enfin. Si A ∈ A e ′ ˜ ˜ on pose µ(A) = µ(B) = µ(B ). on a u e Pi i=1 n vol (P ) ≤ vol (Pi ). B ⊂ A ⊂ B ′ et µ(B ′ \B) = 0} ¯ on a A = B. a On peut se demander si la tribu M(λ∗ ) est beaucoup plus grande que la tribu B(R). avec B ∈ A et A\B ∈ N . il suffit e de montrer que si A est un ensemble de la forme A = R × · · · × R×] − ∞. i=1 Cette assertion est laiss´e en exercice. Il existe alors une unique ee a ¯ qui prolonge µ. mesure sur (E. on a A ∈ M(λ∗ ) (il est facile de voir que les ensembles de cette forme engendrent la tribu B(Rd )). La d´monstration est alors tout ` fait semblable ` celle du cas d = 1. et si B et B ′ sont comme dans la d´finition de B ci-dessus. On remarque d’abord que la tribu A peut ˆtre obtenue de la mani`re suivante : si e e B = {A ∈ P(E) : ∃B. ce qui entraˆ que A ⊂ B. on se ram`ne ` montrer que si P est un pav´ ferm´ et si e a e e n P ⊂ o` les Pi sont des pav´s ouverts.3 Soit (E. Nous e e ´non¸ons d’abord une proposition pr´liminaire. on choisit B et B ′ comme dans la ıne ¯ d´finition et on remarque que A = B ∪ (A\B). e c e Proposition 3. a] × R × · · · × R. si A ∈ B. Pour (ii). La classe des parties n´gligeables est e e par d´finition e N = {A ∈ P(E) : ∃B ∈ A. µ) un espace mesur´. La preuve de (i) est exactement la mˆme que dans le cas d = 1. A ⊂ B et µ(B) = 0}. B ′ est e ′ ′ ˜ ˜ un autre choix. ¯ La tribu compl´t´e de A (par rapport ` µ) est A = σ(A ∪ N ). e Preuve. Nous allons voir qu’en un certain sens ces deux tribus ne sont pas tr`s diff´rentes.La restriction de λ∗ ` B(Rd ) (ou ` M(λ∗ )) est la mesure de Lebesgue sur Rd . e Remarque. A) ¯ Preuve. Cela ne d´pend pas du choix de B et B ′ : si B. Il est clair que A ⊂ B et e ¯ N ⊂ B. Enfin pour e a a (iii). on construit le prolongement de µ ` A de la mani`re e e ¯ a ¯ e ¯ = B. suivante. et sera a a not´e simplement λ. En effet on v´rifie facilement que B est une tribu. B ′ ∈ A. L’inclusion B ⊂ A e en d´coule. e Une fois acquise l’´galit´ A = B. A.

et donc pour chaque n ≥ 1 on peut trouver une famille d´nombrable (Pin . K[d telle que ] − K. B(Rd )) finie sur les parties born´es et invarie ante par translation. En rempla¸ant A par ] − K. n ∈ N sont des ´l´ments disjoints de A. au sens o` e e u pour tout A ∈ B(Rd ) et tout x ∈ Rd . K[d \B. e e e d on peut supposer A ⊂]−K. Si ˜ ˜ ˜ B ˜ B ′ =] − K. Inversement. i i vol (Pin ) ≤ λ∗ (A) + 1 . B= n Bn . Enfin. La mesure-image σx (λ) est d´finie par e −1 ∀A ∈ B(Rd ). Sans perte de g´n´ralit´.2. K[ (sinon on ´crit A comme la r´union croissante des ensembles e e A∩] − n. on doit alors avoir B ′ ⊂ A et λ∗ (B ′ ) = λ∗ (A). il existe une constante c ≥ 0 telle que µ = cλ. ` ¯ Preuve. K[d \A) = λ∗ (B). Finalement on a bien trouv´ deux bor´liens B et B ′ avec B ′ ⊂ A ⊂ B et λ(B\B ′ ) = 0. et on a e e µ(An ) = n n n µ(Bn ) = µ( n n Bn ) = µ( n An ).˜ ˜ µ(B) = µ(B ′ ) = µ(B) = µ(B ′ ). soit A ∈ M(λ∗ ). 35 . K[d \A. on construit de mˆme c e ˜ ∈ B(Rd ). Alors B ∈ B(Rd ). on a λ(x + A) = λ(A). K[d tels que e e A⊂ Posons Bn = i Pin . i ∈ N) de pav´s ouverts contenus dans ] − K. n[d ). alors λ (A) ≤ λ (B) = λ(B) = 0. e d ∗ ∗ o` B ∈ B(R ) et λ(B) = 0. il est facile de v´rifier que le prolongement de µ ` e a ¯ ¯ A est une mesure : si An . Notons σx la translation σx (y) = y − x pour tout y ∈ Rd . A ⊂ B. Preuve. σx (λ)(A) = λ(σx (A)) = λ(x + A). B ⊂] − K. e Proposition 3. ıne ¯ Inversement. K[d \A ⊂ B et λ∗ (] − K. n Pin . On veut montrer que A ∈ B(Rd ). e e Th´or`me 3. Bn ⊂ An de mani`re que An \Bn soit n´gligeable. et d’autre part pour chaque n. on peut pour chaque n ee choisir Bn ∈ A. λ∗ (B) ≤ i vol (Pin ) ≤ λ∗ (A) + 1 n ce qui implique λ∗ (B) = λ∗ (A). et d’apr`s le th´or`me du u e e e paragraphe 1. si µ est une mesure sur (Rd .2. L’inclusion B(Rd ) ⊂ M(λ∗ ) est imm´diate : si A ∈ P(Rd ) est tel que A ⊂ B. la derni`re ´galit´ parce que e e e An \ Bn ⊂ n (An \Bn ) est n´gligeable. On a alors λ∗ (A) < ∞. on sait que cela entraˆ A ∈ M(λ∗ ).5 La mesure de Lebesgue sur Rd est invariante par translation.4 La tribu M(λ∗ ) co¨ ıncide avec la compl´t´e B(Rd ) de B(Rd ) par rapport ee ¯ a la mesure de Lebesgue λ.

L’´galit´ σx (λ)(A) = λ(A) est vraie pour tout pav´ A (puisque A et x+A sont deux pav´s de e e e e mˆme volume). A l’aide du lemme de classe monotone du Chapitre 1, il en d´coule aussitˆt e e o que σx (λ) = λ, ce qui est la premi`re assertion du th´or`me. e e e d Inversement, soit µ une mesure sur B(R ) invariante par translation. Soit c = µ([0, 1[d ).
1 Comme [0, 1[d est la r´union disjointe de nd pav´s qui sont des translat´s de [0, n [d , il en e e e r´sulte que pour tout entier n ≥ 1, e

1 c µ([0, [d ) = d . n n Soient ensuite a1 , . . . , ad ≥ 0. En ´crivant e [naj ] [naj ] + 1 [0, [⊂ [0, aj [⊂ [0, [ n n j=1 j=1 j=1 (o` [x] d´signe la partie enti`re de x), on trouve u e e [naj ] [naj ] + 1 c c [) ≤ µ( [0, aj [) ≤ µ( [0, [) = ( [naj ] + 1) d . ( [naj ]) d = µ( [0, n n n n j=1 j=1 j=1 j=1 j=1 En faisant tendre n vers ∞, il vient
d n d d d d d d d d d

µ(
j=1

[0, aj [) = c
j=1

aj = cλ(
j=1

[0, aj [)

et en utilisant l’invariance par translation de µ on trouve que les mesures µ et cλ co¨ ıncident sur tous les pav´s de la forme e
d

[aj , bj [.
j=1

Comme dans la premi`re partie de la preuve, cela suffit pour conclure que µ = cλ. e Proposition 3.2.6 La mesure de Lebesgue sur Rd est r´guli`re au sens o` pour tout A ∈ e e u ¯ d ), on a B(R λ(A) = inf{λ(U) : U ouvert , A ⊂ U} = sup{λ(F ) : F compact , F ⊂ A}. Preuve. La quantit´ inf{λ(U) : U ouvert , A ⊂ U} est toujours plus grande que λ(A). Pour e l’autre in´galit´, on peut supposer λ(A) < ∞. Ensuite, par d´finition de λ(A) = λ∗ (A), on e e e peut pour chaque ε > 0 trouver un recouvrement de A par des pav´s ouverts Pi tels que e λ(Pi ) ≤ λ(A) + ε. Mais alors l’ouvert U d´fini comme la r´union des Pi contient A et on e e a λ(U) ≤ λ(Pi ) ≤ λ(A) + ε, ce qui conduit ` l’in´galit´ voulue. a e e 36

Pour la deuxi`me ´galit´ de la proposition, on peut supposer A contenu dans un compact e e e C (sinon on ´crit λ(A) = lim ↑ λ(A ∩ [−n, n]d )). Pour chaque ε > 0 on peut grˆce ` la e a a premi`re partie de la preuve trouver un ouvert U contenant C\A, tel que λ(U) < λ(C\A)+ε. e Mais alors F = C\U est un compact contenu dans A, et λ(F ) ≥ λ(C) − λ(U) ≥ λ(C) − (λ(C\A) + ε) = λ(A) − ε, ce qui donne la deuxi`me ´galit´. e e e La proposition pr´c´dente peut ˆtre ´tendue ` un cadre beaucoup plus g´n´ral. Nous e e e e a e e nous limitons au cas des mesures finies. Proposition 3.2.7 Soit (E, d) un espace m´trique, et soit µ une mesure finie sur (E, B(E)). e Alors, pour tout A ∈ B(E), µ(A) = inf{µ(U) : U ouvert , A ⊂ U} = sup{µ(F ) : F ferm´ , F ⊂ A}. e Preuve. Notons O la classe des ouverts de E, et soit C la classe des ensembles A ∈ B(E) qui v´rifient la propri´t´ de la proposition. Puisque la tribu bor´lienne est par d´finition e ee e e engendr´e par O, il suffit de montrer que O ⊂ C et que C est une tribu. e Si A ∈ O, la premi`re ´galit´ est triviale. Pour la seconde, on remarque que pour tout e e e n ≥ 1, l’ensemble 1 Fn = {x ∈ E : d(x, Ac ) ≥ } n est ferm´. Par ailleurs A = lim ↑ Fn , ce qui entraˆ e ıne µ(A) = lim ↑ µ(Fn ), ce qui donne bien la seconde ´galit´ et prouve que O ⊂ C. e e Il reste ` montrer que C est une tribu. On a ∅ ∈ C et ` cause de la sym´trie entre ouverts a a e et ferm´s, on voit imm´diatement que C est stable par passage au compl´mentaire. Soit e e e ensuite (An )n∈N une suite dans C et soit ε > 0. Pour chaque n, on peut trouver un ouvert Un contenant An tel que µ(Un ) ≤ µ(An ) + ε2−n , d’o` u µ
n∈N

Un \

n∈N

An ≤

n∈N

µ(Un − An ) ≤ 2ε. An .

Puisque Un est ouvert cela donne la premi`re des deux ´galit´s recherch´es pour e e e e Ensuite, soit N un entier assez grand pour que
N

µ(
n=0

An ) ≥ µ(

n∈N

An ) − ε.

Pour chaque n ∈ {0, 1, . . . , N} on peut trouver un ferm´ Fn ⊂ An tel que µ(An \Fn ) ≤ ε2−n . e Alors
N

F =
n=0

Fn 37

est ferm´ et e
N N

µ((
n=0

An )\F ) ≤
∞ n=0

n=0

µ(An − Fn ) < 2ε

d’o` u µ(( On conclut que

An )\F ) ≤ 3ε.

An ∈ C, ce qui termine la preuve.

3.3

Liens avec l’int´grale de Riemann e

Fixons un intervalle [a, b] non trivial de R. Une fonction h : [a, b] −→ R est dite en escalier, et on note h ∈ Esc, s’il existe une subdivision a = x0 < x1 < · · · < xN = b et des r´els e y1 , . . . , yN tels que ∀i ∈ {1, . . . , N}, ∀x ∈]xi−1 , xi [, f (x) = yi. On pose alors
N

I(h) =
i=1

yi(xi − xi−1 ).

Il est imm´diat que I(h) = [a,b] h dλ. e Une fonction born´e f : [a, b] −→ R est dite Riemann-int´grable si e e sup
h∈Esc, h≤f

I(h) =

h∈Esc, h≥f

inf

I(h)

et cette valeur commune est not´e I(f ). e Proposition 3.3.1 Soit f une fonction Riemann-int´grable sur [a, b]. Alors f est mesurable e pour la tribu compl´t´e B([a, b]), et ee ¯ I(f ) =
[a,b]

f dλ.

Preuve. On peut trouver une suite (hn ) de fonctions en escalier sur [a, b] telles que hn ≥ f et I(hn ) ↓ I(f ). Quitte ` remplacer hn par h1 ∧ h2 ∧ · · · ∧ hn , on peut supposer la suite (hn ) a d´croissante, ce qui permet de poser e h∞ = lim ↓ hn ≥ f. ˜ ˜ De mˆme, on peut trouver une suite croissante (hn ) de fonctions en escalier avec hn ≤ f et e ˜ I(hn ) ↑ I(f ), et poser ˜ ˜ h∞ = lim ↑ hn ≤ f. 38

˜ Les fonctions h∞ et h∞ sont bor´liennes born´es. Par convergence domin´e, e e e
[a,b]

h∞ dλ = lim ↓ ˜ h∞ dλ = lim ↑

[a,b]

hn dλ = lim ↓ I(hn ) = I(f ), ˜ ˜ hn dλ = lim ↑ I(hn ) = I(f ).

[a,b]

[a,b]

Donc,
[a,b]

˜ (h∞ − h∞ )dλ = 0.

˜ ˜ ˜ Puisque h∞ ≥ h∞ , cela entraˆ h∞ = h∞ , λ p.p. Comme h∞ ≥ f ≥ h∞ , f co¨ ıne ıncide p.p. ¯ avec une fonction bor´lienne, et il est facile d’en d´duire que f est B([a, b])-mesurable. Enfin e e puisque f = h∞ p.p. on a [a,b] f dλ = [a,b] h∞ dλ = I(f ).

3.4

Un exemple d’ensemble non mesurable

Consid´rons l’espace R/Q des classes d’´quivalence des r´els modulo les rationnels. Pour e e e chaque a ∈ R/Q, soit xa un repr´sentant de a dans l’intervalle [0, 1]. On pose e F = {xa ; a ∈ R/Q} ⊂ [0, 1]. Alors F n’est pas bor´lien, ni mˆme mesurable par rapport ` la tribu compl´t´e B(R). e e a ee ¯ Pour le v´rifier, supposons F mesurable et montrons que cela conduit ` une contradiction. e a D’abord, on a par construction (q + F ) R⊂
q∈Q

et donc λ(F ) > 0, car sinon R serait contenu dans une r´union d´nombrable d’ensembles de e e mesure nulle. Par ailleurs, les ensembles q + F , q ∈ Q sont disjoints (si q + xa = q ′ + xa′ on a xa − xa′ = q ′ − q ∈ Q et donc a = a′ puis q = q ′ ). De l’inclusion
q∈Q∩[0,1]

(q + F ) ⊂ [0, 2]

on d´duit donc e
q∈Q∩[0,1]

λ(q + F ) ≤ 2

d’o` λ(F ) = 0 ce qui est la contradiction recherch´e. u e

3.5

Int´grale de Stieltjes e

Le th´or`me suivant donne une description de toutes les mesures finies sur (R, B(R)). Le e e r´sultat peut ˆtre facilement ´tendu aux mesures de Radon. e e e 39

Pour montrer l’existence.) Les mˆmes arguments que dans e le cas de la mesure de Lebesgue montrent que µ∗ est une mesure ext´rieure. xn ]) ↓ µ(] − ∞. On v´rifie par e e la mˆme m´thode que dans le cas de la mesure de Lebesgue que les intervalles ] − ∞.b] o` F (a−) d´signe la limite ` gauche de F en a.5. C’est l’int´grale de Stieltjes de f par rapport ` F . les e ee intervalles ] − ∞. B(R)) telle que F = Fµ . soit F : R −→ R+ une fonction est croissante. (i) La v´rification des propri´t´s de Fµ est facile. Remarque. e L’in´galit´ e e µ(]a. si xn ↓ −∞. dF (x) = F (b) − F (a−). B(R)). xn ] d´croissent vers ] − ∞.b] et dF (x) = lim [a. Par exemple si xn ↓ x. x]. continue ` droite et Fµ (−∞) = 0. x]. u e a Preuve. continue ` droite e a et telle que F (−∞) = 0. B(R)). il reste ` montrer que µ(] − ∞. not´e µ. x]) = F (x).Th´or`me 3. born´e. de µ ` M(µ∗ ) est une mesure sur (R. Pour tout x ∈ R.b] n→∞ ]a−n−1 . e e (ii) L’unicit´ de µ est une cons´quence du lemme de classe monotone (cf Chapitre 1) : la e e classe C = {] − ∞. x]) = F (x) pour tout x ∈ R. b]) ≤ F (b) − F (a) 40 . bi ]}. on note souvent f (x) µ(dx) = f (x) dF (x). x ∈ R} est stable par intersection finie et engendre la tribu B(R). Lorsque F = Fµ . b]) = F (b) − F (a) pour tous a < b (ensuite faire tendre a vers −∞). e a (ii) Inversement. Il existe alors une unique mesure finie µ sur (R. De mˆme. et que la restriction. soit e e Fµ (x) = µ(] − ∞. Il suffit pour a cela d’´tablir que µ(]a. La fonction Fµ est croissante. α] sont e e dans M(λ∗ ) (en fait c’est mˆme plus facile ici). born´e. xn ] d´croissent vers ∅ et donc Fµ (xn ) ↓ 0. et donc e Fµ (xn ) = µ(] − ∞. i∈N (Noter qu’on recouvre A par des intervalles ouverts ` droite et ferm´s ` gauche. ]a. on pose pour tout A ⊂ R: µ∗ (A) = inf{ i∈N (F (bi ) − F (ai )) : A ⊂ ]ai . et non plus a e a des intervalles ouverts comme pour la mesure de Lebesgue. e e a Pour terminer. Il en d´coule que la tribu M(µ∗ ) contient la e e ∗ tribu bor´lienne. les intervalles ] − ∞. x]).1 (i) Soit µ une mesure finie sur (R. On a en particulier e a dF (x) = F (b) − F (a).

Le th´or`me de repr´sentation de Riesz montre que sous des hypoth`ses convenables e e e e toute forme lin´aire positive sur Cc (X) est de ce type. x]) −µ(]x. On note Cc (X) l’espace des fonctions continues ` support e a compact sur X.. On a encore l’´galit´ µ(]a. Soit ε ∈ e ′ ′ ]0. et µ e e u est finie sur les compacts. Il existe alors une unique mesure de Radon µ sur e (X. donne une correspondance bijective entre mesures de Radon µ sur R et fonctions F : R −→ R croissantes continues ` droite et nulles en 0. e Th´or`me 3.. b]. Noter que l’int´grale est bien d´finie puisque |f | ≤ C 1K . La formule F (x) = µ(]0. b] par une sous-famille finie ′ ′ (]xi . B(X)) telle que ∀f ∈ Cc (X). yi [)i∈N . b]) = F (b) − F (a). et soit J une e e e e forme lin´aire positive sur Cc (X). b]) ≥ F (b) − F (a). 3. on remarque qu’on peut recouvrir l’intervalle compact [a + ε. Une forme lin´aire J sur Cc (X) est dite positive si J(f ) ≥ 0 d`s que f ≥ 0.6 Le th´or`me de repr´sentation de Riesz e e e Soit X un espace m´trique. En faisant tendre ε vers 0 on trouve F (b) − F (a) ≤ ∞ i=0 (F (yi ) − F (xi )) ce qui par d´finition de µ∗ donne bien la minoration µ(]a. Ensuite. J(f ) = 41 f dµ.. Ce r´sultat d´coule facilement du cas des mesures a e e finies. on peut trouver yi > yi tel que F (yi) ≤ F (yi ) + ε2−i .Nε } de la famille des intervalles ouverts (]xi . Pour chaque i ∈ N. e Cas des mesures de Radon. Dans le cas particulier F (x) = x la e e mesure µ est la mesure de Lebesgue. yi [)i∈{0. yi ])i∈N un recouvrement d´nombrable de ]a.1 Soit X un espace m´trique localement compact s´parable. on d´finit une forme lin´aire J sur Cc (X) en posant e e J(f ) = f dµ. si x < 0.6.est imm´diate par construction de µ∗ . e e Si µ est une mesure de Radon sur X. De plus J est positive.1. Un raisonnement simple montre qu’alors Nε F (b) − F (a + ε) ≤ ′ (F (yi) i=0 − F (xi )) ≤ ∞ i=0 ′ (F (yi ) − F (xi )) ≤ ∞ i=0 (F (yi ) − F (xi )) + 2ε. 0]) si x ≥ 0.. . o` K est un compact de X. e Dans l’autre sens. soit (]xi . b − a[.

1 : voir le Th´or`me 10. e e u λ(A) = inf{λ(U) : U ouvert . F ⊂ A}. Si X = R. A ⊂ U} = sup{λ(F ) : F compact . on peut prendre J(f ) = I(f ). Exemple.La mesure µ est r´guli`re au sens o` pour tout A ∈ B(X). On v´rifie ais´ment que J est une forme lin´aire positive sur e e e Cc (R).6. 0 ≤ f ≤ 1U }. Nous ne donnons pas ici la preuve du Th´or`me 3. o` I(f ) est comme ci-dessus l’int´grale u e de Riemann de la fonction f . qui donne un ´nonc´ un peu plus pr´cis. pour tout ouvert U de X.1 de Briane e e e e et Pag`s [2] ou le chapitre 2 de Rudin [7]. Cela fournit donc une autre e u construction de la mesure de Lebesgue (en supposant construite l’int´grale de Riemann des e fonctions continues). La mesure associ´e est (bien sˆ r) la mesure de Lebesgue. De plus. µ(U) = sup{J(f ) : f ∈ Cc (X). e e e e 42 .

Pour tout r´el p ≥ 1 on pose e e e et on d´finit aussi e p On pourrait aussi consid´rer les espaces LC et L∞ obtenus en consid´rant des fonctions ` e e a C e valeurs complexes.Chapitre 4 Espaces Lp Ce chapitre est consacr´ principalement ` l’´tude de l’espace Lp des fonctions dont la valeur e a e absolue est de puissance p-i`me int´grable. µ) = Lp (E. µ) = {f : E −→ R mesurable.p. Les th´or`mes de densit´ montrant qu’on peut ape e e p procher n’importe quelle fonction de L par des fonctions plus “r´guli`res” jouent un rˆle e e o important dans beaucoup d’applications en analyse. de e e e e o Minkowski et de Jensen constituent un outil important pour cette ´tude. ∞]. µ p. En application de la structure hilbertienne de L2 .}. µ) est donc une classe d’´quivalence de fonctions ´gales µ p. ∃C ∈ R+ : |f | ≤ C. A. |f |p dµ < ∞} Dans tout ce chapitre on consid`re un espace mesur´ (E. on d´finit une relation d’´quivalence sur Lp en posant e e L∞ (E. On ´tudie noe e p tamment la structure d’espace de Banach de l’espace L . A.1 D´finition et in´galit´ de H¨lder e e e o Lp (E. A. mais dans ce chapitre nous nous int´resserons surtout au cas r´el. e Pour chaque p ∈ [1. Un ´l´ment de Lp (E. Les in´galit´s fondamentales de H¨lder. µ p. f ∼g si et seulement si f = g. µ).p. qui ´tant donn´ une mesure de e e e e e r´f´rence permet de d´composer n’importe quelle autre mesure en la somme d’une mesure ` ee e a densit´ par rapport ` la mesure de r´f´rence et d’une mesure “´trang`re”. Dans ee e e la suite on fera presque syst´matiquement l’abus d’´criture consistant ` identifier un ´lement e e a e de Lp (E. A. et dans le cas particulier p = 2 la structure d’espace de Hilbert de L2 .p. a e 43 . A. µ) ` l’un de ses repr´sentants. µ)/ ∼ . µ) = {f : E −→ R mesurable. Cela conduit ` d´finir l’espace quotient a e Lp (E. on ´tablit le th´or`me de Radon-Nikodym. A. e a ee e e 4. A.

q = ∞ est facile : on a |f g| ≤ g ∞ |f |. ce qui entraˆ ıne |f g|dµ = 0. ce qui donne e l’in´galit´ recherch´e. On peut donc supposer f p > 0 et g q > 0. ∞]. Alors. Le cas p = 1. p = 1 et q = ∞ sont conjugu´s. Soit α ∈]0. En effet la fonction ϕα (x) = xα − αx a pour d´riv´e sur ]0. p q En particulier. ∞[. ∞[. µ p.Pour toute fonction f : E −→ R mesurable. on trouve e e e e ea u v uα v 1−α ≤ αu + (1 − α)v. A. On dit que p et q sont des exposants conjugu´s si e 1 1 + = 1. µ) d`s que f ∈ Lp (E. in´galit´ qui reste vraie si v = 0. Supposons 1 < p < ∞ (et donc 1 < q < ∞).p. 1[. o` u ≥ 0 et v > 0. En appliquant cette in´galit´ ` x = u . et que f ∞ est le plus petit nombre dans [0. q ∈ [1. e Th´or`me 4. µ) et g ∈ Lq (E. On prend alors α = e e u= |f (x)|p f p p . e Preuve. Sans perte de g´n´ralit´ on peut e e e aussi supposer f ∈ Lp (E. f (avec la convention ∞1/p = ∞) et f ∞ p = |f |pdµ 1/p = inf{C ∈ [0.1. d’o` u |f g| dµ ≤ g ∞ |f |dµ = g ∞ f 1. µ p. µ) et g ∈ Lq (E. ∞[. si e e e e o e f et g sont deux fonctions mesurables de E dans R. ϕ′α (x) = α(xα−1 − 1) qui e e est positive sur ]0. Donc ϕα est maximale en x = 1. A. A.p. ∞] : |f | ≤ C. µ). |f g| dµ ≤ f p g q .p. on a f = 0. on note pour p ∈ [1. et l’in´galit´ est e e triviale. On a pour tout x ∈ R+ xα − αx ≤ 1 − α. ∞] avec c cette propri´t´. f g ∈ L1 (E. µ p. µ p. 1[ et n´gative sur ]1.p. Si f p = 0. En particulier..1 (In´galit´ de H¨lder) Soient p et q des exposants conjugu´s.} de fa¸on que f ≤ f ∞ . µ). A. 44 1 p (donc 1 − α = 1 ) puis q |g(x)|q g q q v= .. ee Soient p. A.

Lorsque µ est une mesure de probabilit´ u e ′ on a f r ≤ f r′ pour tous 1 ≤ r ≤ r ≤ ∞. on trouve pour tous 1 ≤ r ≤ r ′ ≤ ∞ f ′ r ≤ µ(E) r − r′ f 1 1 r′ . montrer qu’il y a ´galit´ dans l’in´galit´ de H¨lder ssi il e e e e o p q existe deux r´els positifs α. tels que α|f | = β|g| µ p. ϕ(x) ≥ ax + b}. pour f ∈ L (E.pour aboutir ` a 1 |f (x)|p 1 |g(x)|q |f (x)g(x)| ≤ + . Lorsque 1 < p < ∞. ϕ(x) = sup (ax + b). ∞]. e e e e e e Th´or`me 4. ϕ◦f dµ est bien d´finie comme int´grale d’une fonction mesurable e e 45 . p q Exercice. En rempla¸ant |f | par |f |r (r ≥ 1) et en c posant r ′ = pr. µ). Cette derni`re in´galit´ peut ˆtre vue comme un cas particulier de l’in´galit´ de Jensen. Alors.b)∈Eϕ f dµ . e Le cas particulier p = q = 2 de l’in´galit´ de H¨lder est l’in´galit´ de Cauchy-Schwarz e e o e e |f g| dµ ≤ |f |2 dµ 1/2 1/2 |g|2dµ . il vient e e e e a 1 f p g q |f g|dµ ≤ 1 1 + = 1.2 (In´galit´ de Jensen) Supposons que µ est une mesure de probabilit´. e e e e e 1 et soit ϕ : R −→ R+ une fonction convexe. Soit Eϕ = {(a. Les propri´t´s bien connues des fonctions convexes assurent que ee ∀x ∈ R . on trouve e u |f | dµ ≤ µ(E)1/q f p ce qui montre que Lp ⊂ L1 pour tout p ∈]1. En prenant g = 1.p. b) ∈ R2 : ∀x ∈ R. Preuve. (a. L’int´grale e positive. ϕ ◦ f dµ ≥ ϕ Remarque. et donc Lr ⊂ Lr (toujours dans le cas o` µ est finie). f p g q p f p q g q p q En int´grant cette derni`re in´galit´ par rapport ` µ. β non tous deux nuls. Consid´rons le cas particulier o` µ est finie. A.1.

Ensuite. µ) et f +g p p + g p . en int´grant par rapport ` µ e a |f + g|p ≤ |f | |f + g|p−1 + |g| |f + g|p−1 En appliquant l’in´galit´ de H¨lder aux r´els conjugu´s p et q = p/(p − 1). |f + g|pdµ < ∞ et donc f + g ∈ Lp . En ´crivant e |f + g|p ≤ 2p (|f |p + |g|p ) on voit que l’in´galit´ e e on trouve |f + g|pdµ ≤ |f | |f + g|p−1dµ + |g| |f + g|p−1dµ. Montrer que si µ(E) < ∞ on a f ∞ = lim f p→∞ p.2 L’espace de Banach Lp(E. ∞]. 4.e. ∞]. l’espace Lp (E. µ) ≤ f Th´or`me 4.En cons´quence. µ) muni de la norme e e f → f p est un espace de Banach (i. Si |f + g|p dµ = 0. g ∈ Lp (E. e ϕ ◦ f dµ ≥ = sup (a.2 (Riesz) Pour tout p ∈ [1. Preuve. e 46 . A. A. Supposons donc 1 < p < ∞. et soient f. A. µ). f + g ∈ L (E.1 (In´galit´ de Minkowski) Soit p ∈ [1. A. Les cas p = 1 et p = ∞ sont faciles en utilisant simplement l’in´galit´ |f + g| ≤ e e |f | + |g|. l’in´galit´ du th´or`me est triviale. Sinon on peut diviser chacun des e e e e deux membres de l’in´galit´ pr´c´dente par ( |f + g|p dµ)(p−1)/p et on trouve le r´sultat e e e e e recherch´.b)∈Eϕ = ϕ Exercice.2. e Th´or`me 4. un espace vectoriel norm´ complet).2. il vient e e o e e |f + g| dµ ≤ f p p |f + g| dµ p p−1 p + g p |f + g| dµ p p−1 p .b)∈Eϕ (af + b)dµ a f dµ f dµ + b sup (a. e e e e p Alors.

p. ∞ n=1 µ p. on a |h| = lim inf |gN |. et l’in´galit´ de Minkowski donne l’in´galit´ e e e e e triangulaire. La propri´t´ a e ee λf p = |λ| f p pour λ ∈ R est imm´diate. et cela permet de poser h = g1 + (gn+1 − gn ) la s´rie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut e prendre une d´finition arbitraire de h (par exemple h = 0). µ p.Preuve. e Puisque gN converge vers h. On se limite au cas 1 ≤ p < ∞ (le cas p = ∞ est plus facile). N ≥1 puisque la suite fn ´tant de Cauchy est born´e dans Lp .p.. Soit (fn )n≥1 une suite de a Cauchy dans Lp . V´rifions d’abord e que f → f p est une norme sur Lp . On a f p =0⇒ |f |p dµ = 0 ⇒ f = 0 µ p.p. e e Posons gn = fkn et remarquons en utilisant le th´or`me de convergence monotone puis l’in´galit´ de Minkowski que e e ∞ n=1 |gn+1 − gn | dµ = p N N ↑∞ lim ↑ N n=1 |gn+1 − gn | dµ p p p ≤ lim ↑ N ↑∞ n=1 gn+1 − gn p p = ∞ n=1 gn+1 − gn < ∞. on a h − gn p p = |h − gn |p dµ ≤ lim inf N →∞ |gN − gn |p dµ = lim inf gN − gn N →∞ p p ≤ (2−n+1 )p 47 .p. La fonction h est alors mesurable. Enfin. ` nouveau grˆce au lemme e e a a de Fatou. On a donc ∞ n=1 |gn+1 − gn | < ∞ . µ p. c fkn+1 − fkn p ≤ 2−n . ce qui signifie que f = 0 dans Lp (f appartient ` la classe d’´quivalence de 0). Il reste ` montrer que Lp muni de cette norme est complet. Alors on peut choisir une suite d’entiers (kn ) strictement croissante de fa¸on que pour tout n ≥ 1. et le lemme de Fatou montre imm´diatement que e |h|p dµ ≤ lim inf |gN |p dµ ≤ sup |gN |p dµ < ∞.

p.en majorant pour N > n. entraˆ la convergence Lp .p. Si E = N et µ est la mesure de comptage.p. pour tout p ∈ [1. Remarquons que dans ce cas il n’y a pas d’ensemble non vide de mesure nulle et donc Lp co¨ ıncide avec Lp . µ). mais dans ce cas l’extraction d’une souse suite n’est pas n´cessaire puisque la convergence L∞ ´quivaut ` une convergence uniforme e e a sauf sur un ensemble de mesure nulle. Exercice.2. 48 . Soit p ∈ [1. (ii) Il existe r > p tel que sup n |f |p dµ < ∞ et ∀n. gN −gn p ≤ gn+1 −gn p +· · ·+ gN −gN −1 p ≤ 2−n+1 . (ii) Il existe une fonction g ≥ 0 telle que alors fn −→ f dans Lp . µ p. Exemple. Il existe alors une sous-suite (fkn ) qui converge µ p. Montrer que les conditions (i) fn −→ f . L’espace L est simplement l’espace des suites (an )n∈N qui sont born´es. vers f . mais le th´or`me de convergence domin´e montre que si : e e e (i) fn −→ f . On peut se demander si inversement la convergence µ p. A. e La derni`re preuve fait apparaˆ un r´sultat interm´diaire qui m´rite d’ˆtre ´nonc´. L’in´galit´ e e pr´c´dente montre que gn converge vers h dans Lp . |fn | ≤ g. Il joue un rˆle e e e o important dans la th´orie des espaces de Banach. ∞[ et soit (fn ) une suite qui converge vers f dans Lp (E. muni de la norme e a ∞ = sup(an ). On suppose µ(E) < ∞. |fn |r dµ < ∞ entraˆ ınent fn −→ f dans Lp . Remarque. ∞[. ∞[. ıne Cela n’est pas vrai.p. µ p. e ıtre e e e e e e Proposition 4. Cela entraˆ que fn converge vers h et e e ıne termine la preuve.3 Soit p ∈ [1. Cet espace est en g´n´ral not´ ℓp = ℓp (N).p. µ p. l’espace Lp est l’espace des suites a = (an )n∈N de r´els tels que e ∞ n=0 |an |p < ∞ ∞ n=0 muni de la norme a ∞ p = |an |p 1/p . Le r´sultat est aussi vrai pour p = ∞. Le cas p = 2 du th´or`me de Riesz est particuli`rement important puisque l’espace L2 a e e e une structure d’espace de Hilbert.

y). d) est un espace m´trique. Ce r´sultat nous sera utile dans la ee e suite de ce chapitre. d) est un espace m´trique. ¯ f g dµ 4. Le caract`re complet e e e e d´coule du th´or`me de Riesz. et que la norme associ´e est la norme f 2 .3. et µ une mesure ext´rieurement r´guli`re sur e e e e p (E. e e e (2) Si (E. A. (3) Si (E. µ(A) = inf{µ(U) : U ouvert. µ) −→ R est une forme lin´aire continue.1 Soit p ∈ [1. µ). A. g d´finit une forme bilin´aire e e e sym´trique d´finie positive. B(E). g = est un espace de Hilbert (r´el). e e (1) L’espace des fonctions ´tag´es int´grables est dense dans Lp (E. A. g est bien d´fini. e e e On peut donc appliquer ` L2 (E. µ) est un espace de Hilbert complexe pour le produit scalaire f. l’espace des fonctions lipschitziennes born´es qui sont dans L est dense dans e p L (E. A. f g est int´grable et donc e e e f. il suffit de montrer que si f ∈ Lp est positive. g = f g dµ. µ). et µ une mesure de e e Radon sur E. B(E).3 Th´or`mes de densit´ dans les espaces Lp e e e Si (E. ∞[. Une fonction f : E −→ R est dite lipschitzienne s’il existe une constante K telle que ∀x. e Preuve. Th´or`me 4. On sait que e e f = lim ↑ ϕn n→∞ 49 . A ⊂ U}. une mesure µ sur (E. µ) les r´sultats classiques sur les espaces de Hilbert. si Φ : L (E. |f (x) − f (y)| ≤ K d(x.4 L’espace L2 (E. g) −→ f. e alors f est limite dans Lp d’une suite de fonctions ´tag´es. Ensuite il est clair que (f.2. B(E)). L’in´galit´ de Cauchy-Schwarz montre que si f. Comme les r´sultats pr´c´dents. µ).Th´or`me 4. µ) tel que ∀f ∈ L . e e e e e e 2 L’espace LC (E. B(E)) est dite ext´rieurement r´guli`re e e e e si ∀A ∈ B(E) . A. le th´or`me ci-dessus s’´tend au cas complexe. Preuve. alors l’espace des fonctions lipschitziennes ` support compact est dense dans a p L (E. a e 2 En particulier. A. µ) muni du produit scalaire e e f. Remarque. il existe un (unique) e 2 2 ´l´ment g de L (E. (1) En d´composant f = f + − f − . d) est un espace m´trique localement compact s´parable. Φ(f ) = f. y ∈ E . g . g ∈ L2 .

La fonction ϕk est lipschitzienne et ϕk ↑ 1O quand k → ∞. on peut en consid´rant la restriction de e e µ ` Ln (qui est une mesure finie) appliquer un r´sultat de r´gularit´ ext´rieure du chapitre a e e e e pr´c´dent et trouver pour chaque n un ouvert On ⊂ Ln tel que A∩ Ln ⊂ On et e e µ(On \(A∩ Ln )) ≤ ε 2−n . 1 A − ϕk p p ε < . |1O − ϕk |p dµ −→ 0 quand k → ∞. e et donc on peut choisir k assez grand pour que 1 O − ϕk Finalement. n→∞ (2) Il suffit de montrer que toute fonction ´tag´e int´grable est limite dans Lp de fonctions e e e lipschitziennes born´es. et donc 1O − 1A p ε < . sans d´monstration.o` pour chaque n. si A est un bor´lien de E. pour tout k ≥ 1.2 Soit E un espace m´trique localement compact s´parable. O c )) ∧ 1. pour tout n. (3) On utilise le lemme suivant.3. puisque µ est ext´rieurement r´guli`re. 0 ≤ ϕn ≤ f et ϕn est ´tag´e. |ϕn |p dµ ≤ |f |pdµ < ∞ et donc u e e ϕn ∈ Lp (ce qui pour une fonction ´tag´e ´quivaut ` ϕn ∈ L1 ). dans l’´nonc´ du th´or`me de repr´sentae e eae e e e e e e e tion de Riesz). dont la preuve est repouss´e ` la fin de la d´monstration. e a e Rappelons que si A est un sous-ensemble de E. En effet. le e e e a th´or`me de convergence domin´e donne e e e lim |f − ϕn |p dµ = 0. A d´signe l’int´rieur de A. On est ainsi ramen´ ` montrer que toute fonction f lipschitzienne born´e telle e e ea e 50 . Par convergence domin´e. Il est facile de d´duire du lemme que toute mesure de Radon µ sur E est ext´rieurement e e r´guli`re (ce qui a d´j` ´t´ vu. ◦ ◦ ◦ ◦ ◦ n≥1 Ensuite. µ(A) < ∞. Alors la r´union O des On est un ouvert de E et e µ(O\A) ≤ µ(On \(A∩ Ln )) ≤ ε. Soit e e e alors ε > 0. on peut appliquer la partie (2) du e e e th´or`me. On se ram`ne ais´ment au cas f = 1A . Puisque |f − ϕn |p ≤ f p . 2 Ensuite. 2 + 1 O − ϕk p ≤ 1A − 1O p < ε. Alors il existe une e e suite croissante de compacts (Ln )n≥1 tels que. On peut trouver un ouvert O contenant A tel que µ(O\A) < (ε/2)p . A ∈ B(E). e e Lemme 4. Alors. on pose ϕk (x) = (k d(x. Ln ⊂Ln+1 et E = ◦ ◦ ◦ Ln = n≥1 n≥1 Ln .

Pour p ∈ [1. 2−k ). Par convergence domin´e. De plus. on voit e a Ln p que pour chaque n fix´. 51 . on peut trouver une suite croissante de sous-ensembles e e finis In . en e Ln ´crivant e f − f ϕn.k)∈In ¯ B(xp . On prend L1 = K1 .k Ln p ≤ f − f 1◦ Ln p + f ∞ 1 ◦ − ϕn.que |f |p dµ < ∞ est limite dans Lp de fonctions lipschitziennes ` support compact (noter a que celles-ci sont automatiquement dans Lp ).k converge vers 1 ◦ dans L quand k → ∞. ∞[. r) d´signe la boule ferm´e de centre x et de rayon r. En utilisant le fait que E est u ¯ e e localement compact et la densit´ de la suite (xp ) il est facile de voir que e E= (p. Cons´quences. a Preuve du lemme. on a e lim ◦ n→∞ (Ln )c |f |p dµ = 0. I ´tant d´nombrable. ϕn. ◦ Alors ϕn. pour chaque n fix´. soit e ϕn.k)∈I ¯ B(xp . on a : e (i) L’espace Cc (Rd ) des fonctions continues ` support compact sur Rd est dense dans a p L (Rd . o` B(x.k ∈ Lp puisque ϕn. D’autre part. n ≥ 1 de I tels que I soit la r´union des In . B(Rd )). et on prend Ln+1 = e ¯ ¯ ¯ V1 ∪ V2 ∪ . par convergence domin´e ` nouveau. et donc f − f 1 ◦ Ln p −→ 0. . . Pour cela. et pour tout k ≥ 1. . On montre d’abord que E est r´union d’une suite croissante de come pacts (Kn )n≥1 . Alors il suffit de poser e Kn = (p. 2−k ) pour avoir les propri´t´s recherch´es. On peut remplacer λ par n’importe quelle mesure de Radon sur (Rd . on construit la suite (Ln ) par r´currence sur n.k Ln p et en choisissant n puis k assez grands. Finalement. on recouvre le compact Kn+1 ∪ Ln par une r´union finie V1 ∪ V2 ∪ .k (x) = k d(x. Introduisons l’ensemble I de couples d’entiers d´fini par e ¯ I = {(p. ∪ Vp e de voisinages ouverts d’adh´rence compacte de points de Kn+1 ∪ Ln .k qui est lipschitzienne ` support compact. . 2−k ) est compact}. Si on a e construit Ln . ∪ Vp . on approche f dans Lp par la fonction f ϕn. Par ailleurs. (Ln )c ) ∧ 1. k) ∈ N2 : B(xp . B(Rd ).k ≤ 1 ◦ .k p ≤ f − f 1◦ Ln p + f 1 ◦ − f ϕn. ee e Ensuite. λ). soit (xp )p≥0 une suite dense dans E.

4 Le th´or`me de Radon-Nikodym e e D´finition 4. Cela se voit en ´crivant e f = lim n→∞ k f ( ) 1[ k . d’o` le r´sultat voulu. On dit que: e a (i) ν est absolument continue par rapport ` µ (notation ν ≪ µ) si ∀A ∈ A. e e a Exemple.1 Soient µ et ν deux mesures sur (E. A) telles que 52 . A). (ii) ν est ´trang`re ` µ (notation ν ⊥ µ) s’il existe N ∈ A tel que µ(N) = 0 et ν(N c ) = 0. µ(A) = 0 ⇒ ν(A) = 0. |ξ|→∞ On se ram`ne par densit´ au cas o` f est une fonction en escalier : si f est limite dans L1 e e u d’une suite (ϕn ) de fonctions en escalier. a En effet il sufit de v´rifier que toute fonction f ∈ Cc (R) est limite dans Lp de fonctions en e escalier. A). B(R). u e 4.1 (Radon-Nikodym) Soient µ et ν deux mesures σ-finies sur (E. si f est en escalier.4. B(R). ˆ sup |f(ξ) − ϕn (ξ)| = sup ˆ ξ∈R ξ∈R f (x)eixξ dx − ϕn (x)eixξ dx ≤ f − ϕn p 1 qui tend vers 0 quand n → ∞. Si f ∈ L1 (R. on a j=1 ˆ f (ξ) = j=1 λj eiξxj+1 − eiξxj iξ |ξ|→∞ −→ 0. λ). k+1 [ . λ). νs ) de mesures σ-finies sur (E. a Th´or`me 4. Ensuite. n n n k∈Z Application. ˆ f(ξ) −→ 0. Si f est mesurable positive .4.xj+1 [ . la mesure ν = f · µ d´finie par e ν(A) = A f dµ est absolument continue par rapport ` µ. f = p λj 1]xj . Il e e existe alors un unique couple (νa .(ii) L’ensemble des fonctions en escalier (` support compact) est dense dans Lp (R.

µ) −→ e R d´finie par e Φ(f ) = f dν. Consid´rons alors l’application Φ : L2 (E. µ) et on sait alors qu’il existe une e fonction h ∈ L2 (E. en prenant f = 1A . A. ⇒ f = f . Remarquons que l’int´grale a bien un sens puisque e |f |dν ≤ |f |dµ et on sait que pour une mesure finie L2 (µ) ⊂ L1 (µ). On peut aussi remarquer que 0 ≤ h ≤ 1. (2) νa ≪ µ et νs ⊥ µ. on suppose ν ≤ µ. h = f h dµ. µ({x : h(x) ≥ 1+ε}) ≥ ν({x : h(x) ≥ 1+ε}) = 53 {x:h(x)≥1+ε} hdµ ≥ (1+ε)µ({x : h(x) ≥ 1+ε}) . Φ(f ) ne d´pend pas du e repr´sentant de f choisi pour calculer f dν : e ˜ ˜ f = f . ν p. c’est-`-dire g dν ≤ g dµ u a pour toute fonction mesurable positive g. A. Dans un premier temps. il existe une fonction mesurable g : E −→ R+ telle que ∀A ∈ A.p. h dµ. e e Cas o` µ ≥ ν. pour tout ε > 0. L’extension e u au cas σ-fini ne pr´sentera pas de difficult´. A. ∀A ∈ A. De plus. µ) telle que ∀f ∈ L2 (E.p. µ p. ν(A) = A Φ(f ) = f. µ). a e Preuve. Donc Φ est une forme lin´aire continue sur L2 (E.p.(1) ν = νa + νs . A. En effet. On traite d’abord en d´tail le cas o` les deux mesures µ et ν sont finies. νa (A) = A g dµ et la fonction g est unique ` un ensemble de µ-mesure nulle pr`s. ⇒ L’in´galit´ de Cauchy-Schwarz montre que e e |Φ(f )| ≤ f 2 dν 1/2 f dν = f d˜. µ p. De plus. ν ν(E)1/2 ≤ f 2 dµ 1/2 ν(E)1/2 = ν(E)1/2 f L2 (µ) . En particulier.

en rempla¸ant f par 1N c (1 − h)−1 f dans l’´galit´ e e a c ci-dessus. En particulier. ˜ ˜ ˜ Mais comme νs et νs sont port´es respectivement par des ensembles N et N de µ-mesure ˜ e nulle. pour toute fonction f mesurable born´e. Si (˜a . D’autre part. on peut supposer 0 ≤ h(x) ≤ 1 pour tout x ∈ E. Posons N = {x ∈ E : h(x) = 1}. Remarquons e que quitte ` remplacer h par (h ∨ 0) ∧ 1. La mesure νs = 1N · ν (∀A ∈ A. On montre de mˆme que h ≥ 0 µ p. νa (A) − νa (A) = νs (A) − νs (A). Il existe e e e donc une fonction mesurable h telle que 0 ≤ h ≤ 1 et. On applique la premi`re partie de la preuve aux mesures ν et µ + ν. pour obtenir l’unicit´ de g. on a ∀A ∈ A. et la repr´sentation annonc´e pour νa . f h dµ + f h dν En utilisant le th´or`me de convergence monotone. Alors en prenant f = 1N . on se donne une a ee ˜ e autre fonction g avec la mˆme propri´t´.p. νs (A) = ν(A ∩ N)) e e est donc ´trang`re ` µ. d’o` u {˜>g} g (˜ − g) dµ = 0 g 54 .ce qui implique µ({x : h(x) ≥ 1+ε}) = 0. Enfin. pour toute fonction f ∈ L2 (µ + ν). e f dν = d’o` u f (1 − h) dν = f h dµ. νs ) est un autre couple avec les propri´t´s e ν ˜ ee (1) et (2). on voit que µ(N) = 0. f dν = f h d(µ + ν). a Cas g´n´ral. on a ˜ ˜ ˜ ˜ νs (A) − νs (A) = νs (A ∩ (N ∪ N )) − νs (A ∩ (N ∪ N )) = νa (A ∩ (N ∪ N )) − νa (A ∩ (N ∪ N )) = 0 ˜ ˜ ˜ ` cause de la propri´t´ νa ≪ µ. on a bien les propri´t´s (1) et (2) du th´or`me. on trouve que pour toute fonction f mesurable positive. En posant u Nc f h dµ = 1−h f g dµ. f dν = Nc h o` g = 1N c 1−h . et on observe que ˜ e ee g dµ = νa ({˜ > g}) = ˜ g {˜>g} g {˜>g} g νa = 1N c · ν = g · µ g dµ. νs ) est facile. ee e e e e L’unicit´ du couple (νa . on voit que cette derni`re ´galit´ est e e e e e vraie pour toute fonction f mesurable positive. νa ≪ µ.

ce qui force g ≤ g. νs = νs .p.p. n n νn = νa + νs n c c o` νs ⊥ µn . la fonction mesurable gn ´tant nulle sur En (puisque µn (En ) = 0. remarquer que pour chaque x ∈ E il y a au plus une valeur de n e pour laquelle gn (x) > 0. ˜ e ˜ Il reste ` s’affranchir de l’hypoth`se suppl´mentaire que µ et ν sont finies. u n e il est clair qu’on peut imposer cette derni`re condition). En appliquant le d´but de la preuve on peut ´crire pour tout a e e n ∈ N. Si µ et ν sont a e e seulement σ-finies.) La v´rification des propri´t´s d’unicit´ ne pr´sente pas de difficult´. µ p. n∈N n∈N n∈N (Dans la derni`re somme. On obtient le r´sultat du th´or`me e e e e en posant n n νa = νa . et par sym´trie g = g . Notons µn la restriction de µ ` En e a et νn la restriction de ν ` En . et νa = gn · µn . on peut construire une partition mesurable d´nombrable (En )n∈N de E e de mani`re que µ(En ) < ∞ et ν(En ) < ∞ pour tout n. e ee e e e 55 . µ p. g = gn .

56 .

Soit (G. on a e e B(E × F ) = B(E) ⊗ B(F ). B ∈ B). on peut construire sur e leur produit cart´sien une mesure appel´e la mesure produit.) ou en th´orie des probabilit´s. On a vu dans le Chapitre 1 que f est mesurable (E × F ´tant muni de la e tribu produit) ssi les deux applications f1 et f2 le sont. An ) : A1 ⊗ A2 ⊗ · · · ⊗ An = σ(A1 × · · · × An .1. Ai ∈ Ai ) et on a les propri´t´s d’“associativit´” attendues. De plus l’int´grale d’une e e e fonction d´finie sur l’espace produit peut ˆtre calcul´e en int´grant d’abord par rapport ` la e e e e a mesure sur le premier espace puis par rapport ` la mesure sur le second.Chapitre 5 Mesures produits Etant donn´ deux espaces mesurables munis chacun d’une mesure. ou bien dans l’ordre a inverse : c’est le fameux th´or`me de Fubini. C) un troisi`me espace mesurable. et soit f : G −→ E × F . . Il est facile de v´rifier que e e e A⊗B est la plus petite tribu sur E ×F qui rende mesurables les deux projections canoniques π1 : E × F −→ E et π2 : E × F −→ F . Proposition 5. etc. On peut alors munir le produit E × F de la tribu-produit A ⊗ B = σ(A × B . 57 . Outre ses applications importantes en analyse e e (int´gration par parties. A) et (F. Les ensembles de la forme A × B sont appel´s pav´s mesurables. On ´tend facilement la d´finition de la tribu produit au cas d’un nombre fini quelconque e e d’espaces mesurables (E1 . convolution. . . . Notons f (x) = e (f1 (x). e 5. ee e a (A1 ⊗ A2 ) ⊗ A3 = A1 ⊗ (A2 ⊗ A3 ) = A1 ⊗ A2 ⊗ A3 . A1). f2 (x)). ` savoir par exemple pour n = 3. le th´or`me de e e e e e Fubini est un outil essentiel pour le calcul effectif des int´grales.1 Si E et F sont deux espaces m´triques s´parables.1 G´n´ralit´s sur les espaces produits e e e Soient (E. (En . A ∈ A. B) deux espaces mesurables.

Th´or`me 5. et donc C = A ⊗ B. B) sont deux espaces mesurables quelconques.2 Construction de la mesure-produit Th´or`me 5.1.1 Soient µ et ν deux mesures σ-finies respectivement sur (E. y) ∈ C} et pour y ∈ F . o` U. Par ailleurs il est facile de v´rifier que C est une tribu.2. on pose pour x ∈ E Cx = {y ∈ F : (x. de F . Soit V = {Vn . e 5. resp. Cx ∈ B et pour tout y ∈ F . fx (y) = f (x. pour tout x ∈ E. resp. Pour e tout ouvert O de E × F et tout z = (x. / e (ii) Pour toute partie mesurable D de G. y) et pour y ∈ F . Alors C contient les pav´s mesurables (si C = A × B. y) ∈ f −1 (D)} = (f −1 (D))x qui est dans B d’apr`s (i). on sait que O contient un ouvert de la forme U × V . 58 . V . y) ∈ C}. contenant x. (ii) Soit f : E × F −→ G une application mesurable pour la tribu produit A ⊗ B. n ≥ 1} une famille analogue pour F . on note pour x ∈ E.Preuve. Preuve. n. et pour tout y ∈ F . Si u C ⊂ E × F . e f y (x) = f (x. Alors. Il u en d´coule que O doit ˆtre r´union (au plus d´nombrable) d’une sous-famille de la famille e e e e {Un × Vm . Cx = B ou Cx = ∅ selon que x ∈ A e ou x ∈ A). Dans l’autre sens. pour tout x ∈ E. (i) Fixons x ∈ E et posons C = {C ∈ A ⊗ B : Cx ∈ B}. f y est A-mesurable. y) ∈ O. Alors. Si f est une fonction d´finie sur E × F . y. fx est B-mesurable. on observe qu’on peut trouver un ensemble d´nombrable d’ouverts e U = {Un . Donc tout ouvert de E × F est mesurable pour B(E) ⊗ B(F ) et cela entraˆ B(E × F ) ⊂ B(E) ⊗ B(F ). e e C y ∈ A. y). resp. A) et (F. L’inclusion B(E × F ) ⊃ B(E) ⊗ B(F ) est vraie sans hypoth`se de s´parabilit´ : e e e elle d´coule de ce que les projections π1 et π2 sont continues donc mesurables pour la tribu e B(E × F ). A) et sur e e (F. il suffit de prendre pour U les boules ouvertes de rayon rationnel centr´es en l’un des xk ). C y = {x ∈ E : (x. m ≥ 1}. n ≥ 1} de E tels que tout ouvert de E soit r´union d’une sous-famille de U (si e (xk ) est une suite dense dans E.2 (i) Soit C ∈ A ⊗ B. −1 fx (D) = {y ∈ F : (x. est un ouvert de E. ıne On revient au cas o` (E. B).

A ⊗ B) telle que ∀A ∈ A. m(C) = E ′ ν(Cx ) µ(dx).1) Remarquons que ν(Cx ) est bien d´finie pour tout x ∈ E d’apr`s le th´or`me pr´c´dent.1) a bien un sens il faut aussi montrer que l’application x −→ ν(Cx ) e est A-mesurable. 59 . Existence. Bn ∈ B. µ(Bn ) < ∞. ν(Cx ) = 1A (x)ν(B). D’apr`s une cons´quence du lemme de classe monotone vue dans le Chapitre 1. Pour e e e e e e v´rifier que la formule (5. µ ⊗ ν(C) = ν(Cx ) µ(dx) = E F µ(C y ) ν(dy). on choisit la suite (Bn ) e e u comme ci-dessus et on peut remplacer ν par νn (B) = ν(B ∩ Bn ). Unicit´. ν((∪Cn )x ) = lim ↑ ν((Cn )x ). Il existe une suite croissante An ∈ A. e ′ • G est une classe monotone : si C ⊂ C ′ . m(Cn ) = µ(An )ν(Bn ) = m′ (Cn ) < ∞. pour tout n. ∀B ∈ B.(i) Il existe une unique mesure m sur (E × F. F = ∪Bn . e Dans le cas g´n´ral o` ν n’est pas finie mais seulement σ-finie. telle que µ(An ) < ∞. n Soient m et m deux mesures sur A ⊗ B v´rifiant la propri´t´ ´nonc´e en (i) du th´or`me. (5. on a aussi E×F = Cn . Cette mesure est σ-finie. Alors. Alors • G contient les pav´s mesurables : si C = A × B. cela suffit e e pour dire que m = m′ . • pour tout n. e resp. • m et m′ co¨ ıncident sur la classe des pav´s mesurables. qui est stable par intersection finie e et engendre la tribu A ⊗ B. e eee e e e Alors. pour obtenir que x −→ ν(Cx ) = lim ↑ νn (Cx ) est mesurable pour tout C ∈ A ⊗ B. et E = ∪An . D’apr`s le lemme de classe monotone. Preuve. On pose pour tout C ∈ A ⊗ B. ce qui donne la mesurabilit´ e e recherch´e pour l’application x −→ ν(Cx ). resp. Supposons d’abord ν finie et posons G = {C ∈ A ⊗ B : x −→ ν(Cx ) est A-mesurable}. e (ii) Pour tout C ∈ A ⊗ B. m(A × B) = µ(A)ν(B) (avec la convention usuelle 0 · ∞ = 0). on a donc G = A ⊗ B. resp. on a ν((C\C ′ )x ) = ν(Cx ) − ν(Cx ) (parce que ν est finie !) et si Cn est une suite croissante. et est not´e m = µ ⊗ ν. si Cn = An × Bn .

L’ordre des parenth`ses n’a en fait pas d’importance car la mesure µ1 ⊗· · ·⊗µn est caract´ris´e e e e par ses valeurs sur les pav´s e µ1 ⊗ · · · ⊗ µn (A1 × · · · × An ) = µ1 (A1 ) . e e e ee ′ ce qui d’apr`s l’unicit´ entraˆ m = m . On en d´duit l’assertion (ii) du th´or`me. µ = λ et ν la mesure de comptage. x) : x ∈ R}. et µ = ν = λ. µn . et donc m n Cn = E ν n (Cn )x µ(dx) ν((Cn )x ) µ(dx) = E n = n E ν((Cn )x ) µ(dx) m(Cn ) n = l’interversion entre somme et int´grale ´tant justifi´e par un r´sultat du Chapitre 2. Exemple. . µn (An ). b] × [c. si on prend (E. (ii) Si on a maintenant n mesures σ-finies µ1 . e e e e Il est imm´diat que m v´rifie la propri´t´ e e ee m(A × B) = µ(A)ν(B). les (Cn )x sont aussi disjoints pour tout x ∈ E. e Ceci se g´n´ralise en dimension sup´rieure et montre qu’il aurait suffi de construire la mesure e e e de Lebesgue en dimension un.Il est ensuite facile de montrer que m est une mesure sur A ⊗ B : si (Cn ) est une famille de parties disjointes dans A ⊗ B. les mˆmes arguments montrent que m′ est une mesure sur A⊗B qui v´rifie la mˆme propri´t´. ∞= ν(Cx ) λ(dx) = λ(C y ) ν(dy) = 0. B(R)). . A) = (F. B(R)). d]. on peut d´finir le produit µ1 ⊗ · · · ⊗ µn e en posant µ1 ⊗ · · · ⊗ µn = µ1 ⊗ (µ2 ⊗ (· · · ⊗ µn )). En e effet. . . (i) L’hypoth`se de σ-finitude est essentielle au moins pour la partie (ii). e Remarques. Si (E. A) = (F. toujours d’apr`s le lemme de classe monotone). on v´rifie facilement que λ ⊗ λ est e 2 la mesure de Lebesgue sur R (observer que la mesure de Lebesgue sur R2 est caract´ris´e e e par ses valeurs sur les rectangles [a. Par ailleurs. 60 . B) = (R. si on d´finit m′ par e m′ (C) = F µ(C y ) ν(dy). B) = (R. on remarque que pour C = {(x. . . ce qui e e ıne e e e compl`te la preuve.

on en d´duit que le r´sultat de (i) est vrai pour toute fonction ´tag´e positive. si f est quelconque. E F f (x. e (ii) Pour f = 1C . e e e e e e Enfin.3 Le th´or`me de Fubini e e On commence par donner l’´nonc´ qui concerne les fonctions positives. l’´galit´ annonc´e est e e e µ ⊗ ν(C) = ν(Cx ) µ(dx) = E F fn (x. et soit f : E × F −→ [0. e e Nous passons maintenant au cas de fonctions de signe quelconque. B). Th´or`me 5. E×F Preuve. (i) Les fonctions x −→ y −→ f (x. y) µ(dx) sont respectivement A-mesurable et B-mesurable. y) ν(dy) µ(dx) E F par une double application du th´or`me de convergence monotone. on a d´j` vu que la fonction x −→ f (x. Comme dans le e e paragraphe pr´c´dent. y) ν(dy) f (x. On en d´duit par lin´arit´ le r´sultat voulu eaee e e e e e e quand f est ´tag´e positive. et le produit e e e E × F est muni de la tribu A ⊗ B. y) ν(dy) µ(dx) = lim ↑ fn (x.1 (Fubini-Tonnelli) Soient µ et ν deux mesures σ-finies respectivement e e sur (E. y) ν(dy) = lim ↑ et de mˆme pour f (x. On conserve les hypoth`ses du th´or`me pr´c´dent.5. et on utilise le fait qu’alors f (x. o` les fonctions fn sont ´tag´es e u e e positives.3. y)ν(dy) = ea ν(Cx ) est A-mesurable. y) ν(dy) µ(C x ) ν(dy) et a d´j` ´t´ vue dans le paragraphe pr´c´dent. y) µ(dx). on consid`re deux espaces mesurables (E. puis par limite croissante pour f quelconque : on remarque par e e exemple que si f = lim ↑ fn . y)µ(dx) = µ(C y ) est B-mesurable. ∞] une fonction mesurable. y) µ(dx) ν(dy). Si f = 1C . on peut ´crire f = lim ↑ fn . (ii) On a f dµ ⊗ ν = f (x. (i) Soit C ∈ A ⊗ B. A) et sur (F. e e e e e 61 . A) et (F. et de mˆme y −→ f (x. B). y) ν(dy) µ(dx) = E F F E f (x. Par e lin´arit´.

ıne F |f (x. bien d´finies sauf sur un e 1 ensemble mesurable de mesure nulle. on voit que e e e e e x −→ f (x. E×F Preuve. ν). y) µ(dx) ν(dy) 62 . sont respectivement dans L (E. µ ⊗ ν)). la fonction y −→ f (x. y) ν(dy) µ(dx) = E F F E f (x. f − (x. De plus. y) ν(dy) pour les x tels que |f (x. y) ν(dy) est mesurable (pour ˆtre pr´cis. B. la fonction x −→ f (x. ν). y) µ(dx). dont on sait d´j` qu’elle est mesurable. y) ν(dy) µ(dx) = E F E×F f + dµ ⊗ ν f − dµ ⊗ ν. y) est dans L1 (F. B. il faudrait donner une valeur arbitraire. A.Th´or`me 5. y) ν(dy) et y −→ f (x. ea + − (b) En ´crivant f = f − f et en utilisant le th´or`me pr´c´dent. ν). L’hypoth`se f ∈ L1 (µ⊗ν) est cruciale. µ). y) est dans L1 (E. f (x.3. qui forment un ensemble e de mesure nulle).2 (Fubini-Lebesgue) Soit f ∈ L1 (E × F. ν(dy) p. y) ν(dy) µ(dx) et E F F E f (x. A ⊗ B. est dans L1 (F. (a) En appliquant le th´or`me pr´c´dent ` |f |. par exemple 0.p. y) ν(dy) µ(dx) ≤ |f (x.p. A ⊗ B.p. y)| ν(dy) = ∞. y) ν(dy) − f − (x. µ) et L1 (F. y) ν(dy) µ(dx) = E F E×F Remarque. y) ν(dy) = f + (x. B. E F E F (c) Il suffit de faire la diff´rence terme ` terme dans les ´galit´s e a e e f + (x. Il peut arriver en effet que les propri´t´s e ee (a) et (b) soient toutes les deux satisfaites. y)| ν(dy) µ(dx) = |f | dµ ⊗ ν < ∞. A. y)| ν(dy) < ∞ et donc la fonction y −→ f (x. y)| ν(dy) µ(dx) = |f | dµ ⊗ ν < ∞. (b) Les fonctions x −→ f (x. µ ⊗ ν) (ou f ∈ L1 (E × e e C F. cela entraˆ que µ(dx) p. y) µ(dx) ν(dy). Alors (a) µ(dx) p. (c) On a f dµ ⊗ ν = f (x. ` e e a l’int´grale f (x. y). et donc que les quantit´s e f (x. e e e e a E F |f (x.

∞[ ]0. Lorsque l’application du th´or`me de Fubini est justifi´e (et seulement dans ce e e e cas). 1]. on omet souvent les parenth`ses et on ´crit e e f dµ ⊗ ν = f (x.1] ]0.4 5. y) ∈]0.4. et que dans le cas de fonctions de signe e quelconque. 1].1 Applications Int´gration par parties e Soient f et g deux fonctions mesurables de R dans R localement int´grables (i. ∞[×]0.0] si x < 0 si x ≥ 0 G(x) = 63 . y)| dxdy = ∞. il faut se souvenir que l’application du th´or`me de Fubini est toujours e e justifi´e pour des fonctions mesurables positives. y)dy = 2 ]0. 0 = [0.e.x] f (t) dt f (t) dt − [x. Notation. y) = 2e−2xy − e−xy d´finie pour (x. il faut s’assurer que |f | dµ ⊗ ν < ∞ ce qui se fait le plus souvent en appliquant le cas des fonctions positives. y) dx dy = 0 ]0.∞[×]0. e f (x.1[ |f (x. Alors.∞[ 0 ∞ e −2xy dx − 1 ∞ e−xy dx = 0 0 et pour tout x > 0.1] e−x − e−2x dx > 0. x On voit alors que f (x. x Evidemment dans cet exemple on a ]0. y)dy dx = ]0. y) dx = 2 ]0. On pose pour x ∈ R. sans que ces quantit´s soient ´gales. pour tout y ∈]0. y) µ(dx)ν(dy). 1 f (x. E F 5. cone e e sid´rons la fonction e f (x.1] 0 e−2xy dy − e−xy dy = 0 e−x − e−2x . int´grables e e sur tout compact pour la mesure de Lebesgue). En pratique.∞[ ∞ 0 alors que f (x.soient bien d´finies. x F (x) = 0 x f (t) dt g(t) dt. Pour donner un exemple.

t)|dsdt ≤ |f (t)||g(s)|dsdt = |f (t)|dt |g(s)|ds < ∞. t) = 1{s≤t} f (t)g(s) en observant que.b] 5. pour tous a < b. grˆce au th´or`me de Fubini-Tonnelli. Dans la troisi`me ´galit´ on a appliqu´ le th´or`me de Fubini-Lebesgue ` la fonction e e e e e e a ϕ(s.b]2 [a. Pour ´tablir cette derni`re ´galit´. [a.Alors. l’invariance de la mesure de Lebesgue par translation et par la sym´trie y → −y e entraˆ aussitˆt que g ∗ f (x) est bien d´finie et g ∗ f (x) = f ∗ g(x). On voit facilement que cette ´galit´ ´quivaut ` e ee a b a b f (t)(G(t) − G(a)) dt = a (F (b) − F (t))g(t) dt. la convolution f ∗ g(x) = est bien d´finie ` condition que e a |f (x − y)g(y)| dy < ∞.4. b b F (b)G(b) = F (a)G(a) + a f (t)G(t)dt + a F (t)g(t)dt.b] [a.b]2 [a. on ´crit e e e e e b a b t f (t)(G(t) − G(a)) dt = = f (t) a b a b a b a b b a g(s)ds dt 1{s≤t} f (t)g(s)ds dt 1{s≤t} f (t)g(s)dt ds b = a = a b g(s) s f (t)dt ds = a g(s)(F (b) − F (s))ds. ıne o e 64 . a e e |ϕ(s.2 Convolution Si f et g sont deux fonctions mesurables sur Rd . f (x − y)g(y) dy Rd Rd Dans ce cas.

∞] tels que p + 1 = 1. Pour la seconde. λ). Pour f ∈ Lp (Rd . e Preuve. e g q . Alors. e Remarque. ∞[. e e e Preuve. g ∈ L1 (Rd . pour tout x ∈ R . B(R ). f ∗ g ∈ L1 (λ) et f ∗ g 1 ≤ f 1 g 1. λ).p. Soient f ∈ q p d d q d d d L ((R . B(R ). La proposition suivante donne un autre cadre dans lequel on peut consid´rer la convolue tion de f et g. B(Rd ). Alors. p ∈ [1.2 Soit p ∈ [1. et soit q ∈]1. λ) et g ∈ L (R . De plus. λ). 1 Proposition 5. D’apr`s le th´or`me de Fubini-Tonnelli. pour λ presque tout x ∈ Rd . λ).4. Cela a bien un sens de dire qu’une fonction d´finie λ presque partout est dans e L1 (λ) : on peut choisir de mani`re arbitraire le prolongement sur l’ensemble o` la fonction e u n’est pas d´finie. Pour Lemme 5. L’in´galit´ de H¨lder donne e e o |f (x − y)g(y)| dy ≤ |f (x − y)|pdy 1/p g q = f p g q.4. e 65 . e e e |f (x − t)||g(t)|dt dx = = Rd Rd Rd Rd Rd |f (x − t)||g(t)|dx dt Rd |g(t)| |f (x − t)|dx dt Rd = < ∞ ce qui montre que Rd Rd |g(t)|dt |f (x)|dx |f (x − t)||g(t)|dt < ∞ dx p. la convolution f ∗ g(x) est bien d´finie et f ∗ g est uniform´ment continue et born´e sur Rd . ∞[. B(Rd ).Proposition 5. la convolution f ∗ g(x) est bien d´finie. on utilise encore le calcul pr´c´dent pour e e e ´crire e Rd |f ∗ g(x)|dx ≤ Rd Rd |f (x − t)||g(t)|dt dx = f 1 g 1 < ∞.1 Soient f. p Rd Cela donne la premi`re assertion et montre aussi que f ∗ g est born´e par f e e l’uniforme continuit´.3 Notons σx (y) = y − x. B(Rd ).4. l’application x −→ f ◦ σx est uniform´ment continue de Rd dans Lp (Rd . et donne la premi`re assertion. on utilise le lemme suivant.

|f ∗ g(x) − f ∗ g(x′ )| ≤ ≤ = g g |f (x − y) − f (x′ − y)||g(y)| dy q q |f (x − y) − f (x′ − y)|pdy f ◦ σ−x − f ◦ σ−x′ p 1/p et on utilise le lemme pour dire que f ◦ σ−x − f ◦ σ−x′ p tend vers 0 quand x − x′ tend vers 0. On dit qu’une suite ϕn dans Cc (Rd ) est une • Il existe un compact K tel que supp(ϕn ) ⊂ K pour tout n. Dans le cas g´n´ral. Approximations de la mesure de Dirac. ϕn ≥ 0 et Rd approximation de δ0 si : ϕn (x) dx = 1. il suffit de poser a ϕn (x) = nd ϕ(nx) .Si on admet le lemme. . Alors f ◦ σx − f ◦ σy p ≤ f ◦ σx − fn ◦ σx p + fn ◦ σx − fn ◦ σy = 2 f − fn p + fn ◦ σx − fn ◦ σy p . • Pour tout δ > 0. x ∈ Rd . il est facile de compl´ter la preuve de la proposition : pour e x. p + fn ◦ σy − f ◦ σy p Pour ε > 0. la constante c > 0 ´tant choisie pour que la condition e 66 On peut mˆme s’arranger pour que les fonctions ϕn soient de classe C ∞ : prendre par e exemple 1 1{|x|<1}. {|x|>δ} Il est facile de construire des approximations de δ0 . Preuve du lemme. • Pour tout n. x′ ∈ Rd . n→∞ lim ϕn (x) dx = 0. on peut e e e d p trouver une suite fn ∈ Cc (R ) qui converge vers f dans L (λ) (cf Chapitre 4). Supposons d’abord f ∈ Cc (Rd ). ϕ(x) = c exp − 1 − |x|2 ϕ(x)dx = 1 soit satisfaite. puis δ > 0 tel que fn ◦ σx − fn ◦ σy p ≤ ε/2 si |x − y| < δ. Alors. Les in´galit´s pr´c´dentes montrent alors que f ◦ σx − f ◦ σy p ≤ ε e e e e si |x − y| < δ. |f ◦ σx − f ◦ σy |p dλ = |f (z − x) − f (z − y)|pdz = |f (z) − f (z − (y − x))|p dz qui tend vers 0 quand y − x → 0 par convergence domin´e. on choisit d’abord n tel que f − fn p < ε/4. Si ϕ : Rd −→ R+ est une fonction continue ` support compact telle que ϕ(x)dx = 1.

a] et [b. on a ϕn ∗ f −→ f dans Lp . b]. λ). e |ϕn ∗ f (x) − ϕn ∗ g(x)|p dx ≤ ≤ = = ϕn (x − y)|f (y) − g(y)|dy p dx ϕn (x − y)|f (y) − g(y)|pdy dx |f (y) − g(y)|p |f (y) − g(y)|pdy ϕn (x − y)dx dy o` la deuxi`me in´galit´ est une cons´quence de l’in´galit´ de Jensen (observer que ϕn (x − u e e e e e e y)dy est une mesure de probabilit´). avec p ∈ [1.4. uniform´ment sur tout e compact. On peut facilement prolonger f en une fonction continue sur R et ` support compact contenu dans [0. Alors. Soit alors [a. En dimension d = 1. b] un intervalle contenu u dans ]0. o e e 5. (i) Si f : Rd −→ R est continue. et λd la mesure de Lebesgue sur Rd .Proposition 5. λd (a−1 A) = a−d λd (A) 67 . En vue de e e calculer γd = λd (Bd ) on observe d’abord que pour tout a > 0. B(Rd ). Pour x ∈ [a. et alors le r´sultat d´coule de (i) et du th´or`me de convergence domin´e.4 Soit (ϕn ) une approximation de δ0 . b]. b]. en ´crivant ae e ϕn ∗ f (x) = f (x − y)ϕn (y)dy + f (x − y)ϕn(y)dy |y|≤δ |y|>δ et en utilisant la continuit´ de f . Preuve. l’image de λd par l’application x −→ ax est a−d λd : pour tout A ∈ B(Rd ). (ii) Si f ∈ Lp (Rd . et e on voit que f est limite uniforme sur [a. 1]. on peut clairement enlever l’indicatrice 1{|x−y|≤1} .4. on a ϕn ∗ f −→ f quand n → ∞. g ∈ Lp (Rd . Pour la partie (ii). Cette majoration permet de se ramener au cas o` e u d f ∈ Cc (R ). on peut prendre ϕn (x) = cn (1 − x2 )n 1{|x|≤1} o` la constante cn est choisie pour que ϕn (x)dx = 1. et soit f une fonction continue sur [a.3 Calcul du volume de la boule unit´ e On note ici Bd la boule unit´ ferm´e de Rd . La partie (i) est facile ` ´tablir. 1] (prendre par exemple f a affine sur les intervalles [0. e e e e e Application. 1[. ∞[. b] de polynˆmes (th´or`me de Stone-Weierstrass). λ). ϕn ∗ f (x) = cn (1 − (x − y)2 )n 1{|x−y|≤1} f (y)dy −→ f (x) uniform´ment sur [a. on observe que si f.

e γd = Id−1 Id−2 γd−2 = 2π γd−2 . si d ≥ 2. Une int´gration par parties simple montre que pour n ≥ 2. k! γ2k+1 = πk 1 (k + 2 )(k − 1 ) · · · 3 · 2 2 1 2 ce qu’on peut regrouper dans la formule γd = π d/2 . on en d´duit e γ2k = πk . e e e λd (aBd ) = ad λd (Bd ). et alors c’est ´vident). 2π . En particulier. e In = n In−2 . I1 = π/2. dxd−1 dxd 1 d d−1 1 − x2 Bd−1 dxd d = −1 λd−1 1 −1 = γd−1 (1 − x2 )(d−1)/2 dxd d = γd−1 Id−1 ` condition de poser pour tout entier n ≥ 0. Γ( d + 1) 2 68 . . Ensuite on ´crit en utilisant le th´or`me de Fubini. d A partir des cas particuliers γ1 = 2. n+1 En utilisant les cas particuliers I0 = 2. e e e γd = Rd 1Bd (x)dx = = Rd 1 −1 1 1{x2 +···+x2 ≤1} dx1 . a 1 In = −1 (1 − x2 )n/2 dx. .(il suffit de le v´rifier lorsque A est un pav´. dxd 1 d Rd−1 1{x2 +···+x2 ≤1−x2 } dx1 . Id−1 Id−2 = d En cons´quence. on en d´duit par r´currence que pour tout e e d ≥ 2. . γ2 = γ1 I1 = π. pour d ≥ 3. .

Par d´finition. Le r´sultat principal de ce chapitre e e est la d´composition de Jordan. pouvant prendre e e e e e aussi bien des valeurs n´gatives que des valeurs positives. Th´or`me 6. |µ(A)| ≤ |µ|(A). on consid`re ici des mesures sign´es. A). |µ|(Bi)[ (ou ti = 0 e 69 . Pour tout A ∈ A. et B = i∈N Bi . si ti ∈ [0. An disjoints n∈N o` le supremum porte sur toutes les ´critures de A comme r´union d’une famille d´nombrable u e e e (An )n∈N de parties mesurables disjointes. et µ n∈N An = n∈N µ(An ). Soit (Bi )i∈N une famille de parties mesurables disjointes. Preuve. qui affirme e e e que pour deux exposants p et q conjugu´s ( 1 + 1 = 1) l’espace Lq est le dual topologique de e p q p L. A). A) est une e e application µ : A −→ R telle que µ(∅) = 0 et que pour toute famille (An )n∈N d’´l´ments ee disjoints de A. A) un espace mesurable. on ´tablit un th´or`me important d’analyse fonctionnelle. On montre d’abord que |µ| est une mesure positive.1. 6. et pour tout A ∈ A.1 D´finition et variation totale e D´finition 6.1 Soit µ une mesure sign´e sur (E.1. posons e e e |µ|(A) = sup n∈N |µ(An )| : A = An .1 Soit (E.Chapitre 6 Mesures sign´es e A la diff´rence des chapitres pr´c´dents. Une mesure sign´e µ sur (E. e e A titre d’application. qui fournit une ´criture minimale d’une telle mesure sign´e e e e comme la diff´rence de deux mesures positives port´es par des ensembles mesurables disjoints. Alors |µ| est une mesure positive finie sur (E. la s´rie e µ(An ) n∈N converge absolument.

on peut trouver une partition mesurable A = c n∈N An de A de fa¸on que |µ(An )| > 2(1 + |µ(A)|). n∈N n∈N An.dans le cas |µ|(Bi ) = 0). on peut trouver une partition1 mesurable Bi = que |µ(An. Puisque |µ|(A) = ∞.1. on e trouve |µ|(B) ≤ |µ|(Bi ) i∈N ce qui ach`ve de montrer que |µ| est une mesure positive. et donc e |µ|(B) ≥ |µ(An. soit (An )n∈N une partition de B.i )n.2 Si A ∈ A est tel que |µ|(A) = ∞. Preuve du lemme. i∈N i∈N n∈N Puisque les ti peuvent ˆtre choisis arbitrairement proches des |µ|(Bi ). e e e e et de la d´finition de |µ|(Bi ). la derni`re in´galit´ d´coulant du fait que les An ∩ Bi . de fa¸on c Alors (An. e Comme l’in´galit´ |µ(A)| ≤ |µ|(A) est imm´diate. Pour obtenir l’in´galit´ inverse. Lemme 6.i∈N est une partition d´nombrable de B. e 70 . En prenant le supremum sur les partitions (An )n∈N de B. n ∈ N forment une partition de Bi . alors il existe deux parties mesurables disjointes B et C telles que A = B ∪ C et |µ(B)| > 1. |µ|(C) = ∞. ce qui n’est pas forc´ment le cas ici.i . n∈N 1 On fait un abus de langage puisque dans la d´finition usuelle d’une partition les ´l´ments de la partition e ee sont tous non vides. Alors e e |µ(An )| = ≤ = i∈N n∈N n∈N n∈N | i∈N µ(An ∩ Bi )| n∈N i∈N |µ(An ∩ Bi )| |µ(An ∩ Bi )| ≤ i∈N |µ|(Bi). il en d´coule que e e |µ|(B) ≥ i∈N |µ|(Bi).i)| ≥ ti .i| ≥ ti . il reste ` ´tablir que |µ| est une mesure e e e ae finie.

On a alors par exemple n∈N µ(An )+ > 1 + |µ(A)| (le cas sym´trique e n∈N µ(An )− > 1 + |µ(A)| se traite de la mˆme mani`re). Alors la formule ν(A) = A g dν d´finit une mesure sign´e. e Nous pouvons maintenant compl´ter la preuve du th´or`me. De plus. |µ(B1 )| > 1 et |µ|(C1) = ∞. si C = A\B. on peut trouver des parties mesurables disjointes B0 et C0 avec |µ(B0 )| > 1 et |µ|(C0) = ∞. ν). d’apr`s la d´finition d’une mesure sign´e. On suppose que |µ|(E) = e e e ∞. et soit g ∈ L1 (E. d’apr`s le th´or`me de convergence domin´e. Alors. 71 . A. telle que |µ(Bn )| > 1 pour tout n. En appliquant de mˆme le lemme ` C0 on trouve B1 et C1 disjoints tels que e a C0 = B1 ∪ C1 . e e e |µ|(E) < ∞. Par ailleurs. puisque A = B ∪ C et que |µ| est une mesure on doit avoir |µ|(B) = ∞ ou |µ(C)| = ∞. Par r´currence. Nous verrons plus loin que dans ce cas |µ| = e e e e |g| · ν. on construit ainsi une suite de e parties mesurables disjointes (Bn )n∈N . ce qui donne le r´sultat du lemme quitte ` ´changer les rˆles de B et C si e a e o n´cessaire. En effet. Soit ν une mesure positive sur (E. On conclut que Exemple. Cela contredit le fait que la s´rie e µ(Bn ) n∈N doit converger absolument. A). si A est la r´union disjointe d’une suite (An ) de parties e e e mesurables. |µ(C)| = |µ(A) − µ(B)| ≥ |µ(B)| − |µ(A)| > 1. On pose alors e e B= {n:µ(An )>0} An de fa¸on que c µ(B) = n∈N µ(An )+ > 1 + |µ(A)|. l’´galit´ e e µ(A) = µ(An ) n∈N est obtenue en observant que g 1A = lim g 1∪n≤k An k→∞ dans L1 .

il d´coule alors que |µ|(Er ) ≤ r |µ|(Er ). on a alors. En cons´quence.1 Soit µ une mesure sign´e sur (E. De la d´finition de |µ|.2 La d´composition de Jordan e 1 µ+ = (µ + |µ|). µ . |µ|(A) = µ+ (A ∩ B) + µ− (A ∩ B c ). 2 Soit µ une mesure sign´e sur (E. µ .6. resp. on sait que 0 ≤ h1 ≤ 1 et 0 ≤ h2 ≤ 1. µ(A) = µ+ (A) − µ− (A) = A µ− (A) = µ− (A ∩ B c ) = −µ(A ∩ B c ). µ+ (A) = µ+ (A ∩ B) = µ(A ∩ B) . A). De plus. on a |h1 − h2 | ≥ 1 µ p. A). e µ(A) = µ+ (A ∩ B) − µ− (A ∩ B c ). e e e a il existe deux fonctions mesurables positives (finies) h1 et h2 telles que µ+ = h1 · |µ| et µ− = h2 · |µ|. et l’in´galit´ inverse est triviale. On v´rifie imm´diatement que µ+ ≤ |µ| et µ− ≤ |µ|.p. 2 1 − µ = (|µ| − µ). Comme e e cela est vrai pour tout r < 1. e Th´or`me 6.2. A). on v´rifie imm´diatement que les formules e e e d´finissent deux mesures positives finies sur (E. e e a a on a pour tout A ∈ A. telle que µ+ = 1B · |µ| et µ− = 1Bc · |µ| a e + − (de mani`re ´quivalente. e e 72 . et donc |µ|(Er ) = 0. Il est facile de d´duire de cette ´galit´ que |h1 − h2 | = 1. unique ` un ensemble de |µ|-mesure nulle pr`s. resp. Alors n∈N |µ(An )| = ≤ ≤ n∈N An (h1 − h2 )d|µ| n∈N An |h1 − h2 |d|µ| n∈N r |µ|(An ) = r |µ|(Er ). et soit e e e (An )n∈N une partition mesurable de Er = {x ∈ E : |h1 (x) − h2 (x)| ≤ r}. ` B c ).p. Alors. De plus. pour tout A ∈ A. est la restriction de |µ| ` B. Il existe une partie mesurable B de e e e E. Si h = h1 − h2 . Preuve. et donc les mesures µ+ et e e − µ sont absolument continues par rapport ` |µ|. soit r < 1. |µ| p. (h1 − h2 ) d|µ|. En effet. Puisque µ+ ≤ |µ| et µ− ≤ |µ|. D’apr`s le th´or`me de Radon-Nikodym. µ = µ+ − µ− et |µ| = µ+ + µ− .

ν)).p.2. pour toute fonction f ∈ L1 (E. A).p. ee e e e Remarque. Donc gh = |gh| = |g|.Les propri´t´s 0 ≤ h1 ≤ 1. entraˆ ee ınent que |µ|(dx) p. on a |f |d|µ| = 73 |f | |g|dν A |g|dν.p. e µ1 (A) ≥ µ1 (A ∩ B) ≥ µ(A ∩ B) = µ+ (A ∩ B) = µ+ (A). Cela donne les ´galit´s µ = 1B · |µ| et µ = 1Bc · |µ|.2 Soit ν une mesure positive sur (E. |µ| p. ν). on d´finit e f dµ := Il est alors imm´diat que e f dµ ≤ |f |dµ. Proposition 6. . |µ|). on a n´cessairement µ1 ≥ µ et µ2 ≥ µ . e en posant h = 1B − 1Bc . et f dµ = f g dν. Int´gration par rapport ` une mesure sign´e.p. A. soit g ∈ L1 (E. ou bien h1 (x) = 1 et h2 (x) = 0. Preuve. |µ|). L’unicit´ de B est une cons´quence de l’unicit´ de la densit´ dans le th´or`me de Radon-Nikodym. ou bien h1 (x) = 0 et h1 (x) = 0. Si µ = µ1 − µ2 est une autre d´composition de µ comme diff´rence de deux e e + − mesures positives finies. Alors |µ| = |g| · ν. A. et soit µ la mesure sign´e d´finie par e e µ(A) = A gdν. ν p. A. On pose alors B = {x ∈ E : h1 (x) = 1}. En effet. d’o` e e u |µ|(A) = Ensuite. Avec les notations du th´or`me pr´c´dent. on d´duit facilement de cette ´galit´ que gh ≥ 0.p. D’apr`s ce qui pr´c`de on a h1 = 1B et e e e + − e e e h2 = 1Bc . on a f g ∈ L1 (E. 0 ≤ h2 ≤ 1 et |h1 − h2 | = 1 |µ| p. e a e 1 Si f ∈ L (E. De plus.. En prenant A = {x ∈ E : g(x)h(x) < 0}. on a pour tout A ∈ A : e e e e |µ|(A) = µ(A ∩ B) − µ(A ∩ B c ) = A∩B gdν − gdν = A∩B A gh dν. Les autres e e e e e propri´t´s de l’´nonc´ sont ensuite facilement ´tablies. A. f dµ+ − f dµ− = f (1B − 1Bc )d|µ|. ν p.

g´n´ral. on a |µ| = |g| · ν. On obtient ainsi (iii) avec g = g1 − g2 . 2 2N 74 . D’apr`s la proposition pr´c´dente. on aussi µ+ ≪ ν et µ− ≪ ν. le th´or`me de convergence domin´e entraˆ que e e e ıne n→∞ lim {|g|≥n} |g| dν = 0. On dit que µ est absolument e continue par rapport ` ν (notation : µ ≪ ν) si a ∀A ∈ A. Il reste ` montrer (iii)⇒(ii). gdν. Donc. e e e Soit ν une mesure positive. e e e ea e Le th´or`me de Radon-Nikodym pour les mesures sign´es. Montrons (i)⇒(iii).2. µ et ν donne le r´sultat voulu. Th´or`me 6. et soit µ une mesure sign´e.3 Soit µ une mesure sign´e et soit ν une mesure positive σ-finie.et donc f ∈ L1 (|µ|) ⇒ f g ∈ L1 (ν). Preuve. L’´galit´ e e f dµ = f g dν est vraie par d´finition si f est ´tag´e. (iii) Il existe g ∈ L1 (E. g2 ≥ 0. De a e e e plus. g1 dν = µ+ (E) < ∞ et g2 dν = µ− (E) < ∞. on utilise le fait qu’on peut e e e e e ´crire f = lim fn . pour tout A ∈ A tel que ν(A) < δ. ν) telle que : ∀A ∈ A. o` les fonctions fn sont ´tag´es et domin´es en valeur absolue par |f |. il existe δ > 0 tel que ∀A ∈ A. on peut choisir N assez grand de fa¸on que e c ε |g| dν < . (ii) Pour tout ε > 0. si ε > 0 est fix´. |µ|(A) = A |g|dν ≤ {|g|≥N } |g| dν + A∩{|g|<N } |g| dν ≤ ε ε +N = ε. en prenant δ = ε/(2N). et e donc le th´or`me de Radon-Nikodym pour les mesures positives permet d’´crire µ+ = g1 · ν e e e et µ− = g2 · ν avec g1 . 2 {|g|≥N } Alors. µ(A) = A ν(A) ≤ δ ⇒ |µ|(A) ≤ ε. (ii)⇒(i) est ´vident. A. Le e u e e e + − th´or`me de convergence domin´e appliqu´ ` µ . ν(A) = 0 ⇒ µ(A) = 0. Si µ ≪ ν. Dans le cas. Les trois e e e propri´t´s suivantes sont ´quivalentes : ee e (i) µ ≪ ν . on a.

si on fixe g ∈ L (E. on a e e 1A = lim k→∞ f g dν.6. A. Supposons d’abord ν(E) < ∞. Le th´or`me suivant donne la r´ponse lorsque p < ∞. ν). ν) (dans le cas p = q = 2. ν). A.3 La dualit´ Lp − Lq e Soit ν une mesure positive sur (E. Nous verrons en remarque que e e cette propri´t´ ne subsiste pas dans le cas p = ∞. ee Preuve. e q Alors. A. ∞] et soit q l’exposant conjugu´ de p. ν) tel que. ce qui a bien un sens puisque 1A ∈ Lp (ν). A).3. e e e e Th´or`me 6. Aves les notations pr´c´dant le th´or`me. On commence par v´rifier que µ est une mesure e sign´e sur (E. A. pour toute f ∈ Lp (E. A. soit p ∈ [1. e e Si A d´signe la r´union des An . la th´orie des espaces de Hilbert nous dit d´j` que la e ea r´ponse est oui). ∞[ et soit q l’exposant e e conjugu´ de p. Φ(f ) = De plus la norme op´rateur de Φ est e Φ = g q. 1 An n≤k 75 . ν). on voit que l’application g −→ Φg permet e e e e d’identifier Lq (ν) au dual topologique de Lp (ν) (c’est `-dire ` l’espace vectoriel des formes a a p lin´aires continues sur L (ν). la formule Φg (f ) = f g dν d´finit une forme lin´aire continue sur Lp (E. A). Soit (An )n∈N une famille d´nombrable de parties mesurables disjointes. pour tout A ∈ A. On voit aussi que la norme op´rateur de Φg . En effet.1 Soit ν une mesure σ-finie sur (E. d´finie par e e Φg = sup |Φg (f )|. Soit p ∈ [1. il existe une e e unique g ∈ Lq (E. d’autre part que e |Φg (f )| ≤ Cg f p avec Cg = g q . A). f p ≤1 v´rifie Φg ≤ g q . e La question est alors de savoir si l’on obtient ainsi toutes les formes lin´aires continues e p sur L (E. si Φ est une forme lin´aire continue sur Lp (E. A. Alors. Alors. muni de la norme op´rateur). posons µ(A) = Φ(1A ). l’in´galit´ de H¨lder montre e e e e o d’une part que Φg (f ) est bien d´finie. ν).

L’´galit´ e e Φ(f ) = f g dν Φ(1A ) = µ(A) = A g dν. on trouve par convergence monotone que g 76 ≤ Φ . on a e |g|q dν = fn g dν = Φ(fn ) ≤ Φ fn p = Φ En En |g|q dν 1/p . e e e e e e p Si A ∈ A et ν(A) = 0. puis lorsque f est seulement mesurable born´e e e e e e p puisqu’une telle fonction est limite uniforme (donc dans L (ν) parce que ν est finie) de fonctions ´tag´es. on a 1A = 0 dans L (E.p. A. on pose En = {x ∈ E : |g(x)| ≤ n}.dans Lp (ν) (par convergence domin´e. on obtient ainsi e µ(A) = lim Φ k→∞ n≤k 1An = lim k→∞ µ(An ). • Si p ∈]1. Donc µ ≪ ν et le th´or`me pr´c´dent montre qu’il existe une fonction g ∈ L1 (E. ∞[. n≤k La convergence absolue de la s´rie e µ(An ) est une cons´quence : en notant A′n = An si e ′ ′ µ(An ) > 0 et An = ∅ sinon. et A la r´union des A′n . ν p. alors pour tout A ∈ A. on a e µ(An )+ = n n ′ µ(An ) = lim k→∞ n≤k µ(A′n ) = µ(A′ ) < ∞. l’´galit´ µ(A) = n µ(An ) d´coule de ce qui pr´c`de. A gdν = |Φ(1A )| ≤ Φ 1A 1 = Φ ν(A) ce qui entraˆ facilement que |g| ≤ Φ . Comme fn est born´e. q En faisant tendre n vers ∞. • Si p = 1. En utilisant la continuit´ de Φ. A. e e Montrons maintenant que g ∈ Lq (ν). puis fn = 1En |g|q−1signe(g). ν) telle que e e e e ∀A ∈ A . . ν) et donc µ(A) = Φ(1A ) = 0. est vraie par lin´arit´ lorsque f est ´tag´e. Une fois acquise la convergence e e absolue de la s´rie. et de mˆme pour les termes n´gatifs de la suite (µ(An )). et donc g ∞ ≤ Φ . (pour le voir consid´rer A = {g > ıne e Φ + ε} ou A = {g < − Φ − ε}). d’o` u En |g|q dν ≤ Φ q . facilement justifi´e puisque la fonction 1 est dans e e Lp (ν)).

Si f ∈ Lp (ν). En rempla¸ant ν par νn on peut donc appliquer la c premi`re partie de la preuve ` la forme lin´aire continue Φn d´finie sur Lp (νn ) par e a e e Φn (f ) = Φ(f 1En ). gn q ≤ Φ .Dans les deux cas. on a obtenu que g ∈ Lq (ν) et g f ∈ Lp (ν). comme expliqu´ avant l’´nonc´ de th´or`me. pour tout entier e a e u k ≥ 1. Par ailleurs. Elles co¨ e ıncident donc partout. Dans ce cas. l’espace des formes lin´aires contine e p ues sur L (ν)) et est donc n´cessairement injective. f n≤k gn dν. e e ee Enfin. de l’in´galit´ e e f n≤k k→∞ f gn dν. on a Φ = g q . Cela donne l’unicit´ de g dans l’´nonc´ e e e e du th´or`me. Il existe donc une fonction gn ∈ Lq (νn ) telle que. c ee e Quitte ` remplacer gn par gn 1En on peut supposer que gn = 0 sur En . Φ(f 1En ) = f gn dνn . e e Il reste ` traiter le cas ν(E) = ∞. l’in´galit´ de H¨lder entraˆ e e e e e e e o ıne que Φ ≤ g q .e. pour toute fonction f ∈ Lp (νn ). et r´´crire le r´sultat a pr´c´dent sous la forme e e Φ(f 1En ) = pour toute fonction f ∈ Lp (ν). Notons νn la restriction de ν ` En . gn dν = Φ(f n≤k 1E n ) ≤ Φ f p on d´duit grˆce aux mˆmes arguments que dans le cas o` ν(E) < ∞ que. on peut ´crire E comme la r´union d’une a e e famille d´nombrable disjointe (En )n∈N de parties mesurables telles que ν(En ) < ∞ pour tout e e n. Alors l’application f −→ f 1En induit une isom´trie a p p de L (νn ) sur un sous-espace de L (ν). n≤k 77 . k→∞ f 1E n n≤k dans Lp (ν). on a f = lim ce qui entraˆ ıne Φ(f ) = lim Par ailleurs. l’application qui ` g ∈ Lq (ν) associe la forme lin´aire f −→ f g dν est une a e q p isom´trie de L (ν) sur le dual topologique de L (ν) (i. les deux membres de l’´galit´ e e Φ(f ) = f g dν q ≤ Φ . et comme l’in´galit´ inverse a ´t´ obtenue ci-dessus. Vus comme fonctions de sont des fonctions continues sur Lp (ν) qui co¨ ıncident lorsque f appartient au sous-ensemble dense des fonctions mesurables born´es.

Lorsque p = ∞.Posons maintenant pour tout x ∈ E. Consid´rons le cas de ℓ∞ . k→∞ et d´finissons Φ : H −→ R par e Φ(a) = lim ak . ν) qui ne peuvent pas se repr´senter sous la forme e e Φ(f ) = f g dν avec une fonction g ∈ L1 (E. Soit H le souse e espace (ferm´) de ℓ∞ d´fini par e e H = {a ∈ ℓ∞ : lim ak existe}. u Remarque. Dans les deux cas on a g ∈ Lq (ν). Il est facile de voir qu’on ne peut pas repr´senter Φ sous la forme e Φ(a) = k∈N ak bk e e avec un ´l´ment b = (bk )k∈N de ℓ1 . A. ν). Si q < ∞. Enfin. le r´sultat du th´or`me est faux en g´n´ral : il existe des e e e e e formes lin´aires continues sur L∞ (E. muni de la norme a ∞ = sup ak . ee e bn = Φ(a(n) ) = 0. k→∞ Evidemment |Φ(a)| ≤ a ∞ . o` dans la deuxi`me ´galit´ l’application du th´or`me de convergence domin´e est justifi´e u e e e e e e e par la majoration | n≤k gn | ≤ |g|. pour tout n ∈ N. qui est l’espace e des suites born´es a = (ak )k∈N de r´els. Φ(f ) = lim k→∞ f n≤k gn dν = f g dν. si tel ´tait le cas. g(x) = n∈N gn (x) (il y a eu plus un terme non nul dans la somme pour chaque x). en consid´rant pour tout ee (n) (n) ∞ n ∈ N l’´l´ment a de ℓ d´fini par ak = 1{k=n}. A. ce qui est absurde. Le th´or`me de Hahn-Banach permet alors de prolonger Φ ` e e a une forme lin´aire sur ℓ∞ . on trouverait. de fa¸on que la propri´t´ |Φ(a)| ≤ a ∞ reste vraie pour tout e c ee a ∈ ℓ∞ . l’in´galit´ e e pr´c´dente montre que g ∞ ≤ Φ . L’´galit´ Φ = g q et l’unicit´ de g sont maintenant obtenues par les mˆmes arguments e e e e que dans le cas o` ν(E) < ∞. la mˆme in´galit´ donne e e e e e |g|q dν = |gn |q dν = lim k→∞ n∈N n≤k |gn |q dν ≤ Φ q . 78 . En effet. Si q = ∞.

e e M(E) est complet pour cette norme.4 Le th´or`me de repr´sentation de Riesz e e e Dans tout ce paragraphe.4. Φ(f ) = E f dµ. Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre complexe plus g´n´ral. f ∈ C0 (E). e e Remarque. x∈E Si µ est une mesure sign´e sur (E. Lorsque E est compact. On note C0 (E) l’espace des fonctions continues sur E qui tendent vers 0 ` l’infini : e a f ∈ C0 (E) si et seulement si f est continue et si pour tout ε > 0 il existe un compact K de E tel que |f (x)| < ε pour tout x ∈ E\K. et donc M(E) est le dual de Cb (E). e e e Th´or`me 6. Le th´or`me pr´c´dent peut ˆtre alors reformul´ en e e e e e e disant que M(E) est le dual topologique de C0 (E). il existe des formes lin´aires continues sur Cb (E) qui ne se repr´sentent pas par des mesures sign´es (on peut en e e e construire en adaptant l’exemple de la fin de la partie pr´c´dente). Cette assertion devient fausse e lorsque E n’est pas compact. e e 79 . nous supposons que E est un espace m´trique localement compact e s´parable. d´finit une forme lin´aire continue sur C0 (E). Dans ce cas. L’espace M(E) des mesures sign´es sur E est un espace vectoriel. Cette in´galit´ montre mˆme que Φ ≤ |µ|(E). l’application e Φ(f ) = E f dµ .1 Soit Φ une forme lin´aire continue sur C0 (E). l’espace C0 (E) co¨ ıncide avec l’espace Cb (E) des fonctions continues born´es sur E. L’espace C0 (E) est un espace de Banach pour la norme f = sup |f (x)|. De plus. cette forme lin´aire est continue e e e puisque |Φ(f )| ≤ E |f | d|µ| ≤ |µ|(E) f .6. De plus. par exemple lorsque E = R. et il est facile e de v´rifier que l’application µ −→ |µ|(E) d´finit une norme sur cet espace vectoriel. B(E)) telle que e ∀f ∈ C0 (E) . Il existe alors une unique e e e mesure sign´e µ sur (E. B(E)).

80 .

1 La formule de changement de variables Nous commen¸ons par traiter le cas particulier important d’une application affine. a e d d D´finissons f : R −→ R par f (x) = Mx + b. Il reste ` montrer que c = |det(M)|. f (A) ⊂ f (Rd ) est contenu dans un hyperplan. λ(f (A)) = c λ(A). e e λ(f (A)) = |det(M)| λ(A). Remarquons d’abord que f (A) = (f −1 )−1 (A) ∈ B(Rd ) si A ∈ B(Rd ).1 Soit b ∈ Rd et soit M une matrice d × d ` coefficients r´els inversible. Preuve. on a pour tous a ∈ Rd et A ∈ B(Rd ). Donc il existe une constante c telle que. pour tout bor´lien A de Rd . λ(f (a + A)) = λ(f (a) + f (A)) = λ(f (A)).Chapitre 7 Formule de changement de variables et compl´ments e La formule de changement de variables identifie l’image par un diff´omorphisme de la mesure e d de Lebesgue sur un ouvert de R . Dans ce e cas. Si M n’est pas inversible. on se ram`ne au cas b = 0. pour tout A ∈ B(Rd ). c Proposition 7. on e e donne ici la formule d’int´gration en coordonn´es polaires dans Rd . Comme application particuli`rement importante. Remarque. c’est le deuxi`me outil e e e e fondamental de calcul des int´grales. Apr`s le th´or`me de Fubini. ce qui montre que la mesure A −→ λ(f (A)) (mesure-image de λ par f −1 ) est invariante par translation. Grˆce ` a a l’invariance par translation de la mesure de Lebesgue. a 81 . ce qui conduit aussi ` e e a introduire la mesure de Lebesgue sur la sph`re unit´. qui est de mesure de Lebesgue nulle (exercice !). e e 7. Alors.1.

. d}. e f (x) dx = D U f (ϕ(u)) |Jϕ(u)| du . αi ]}. A ´tant un bor´lien de D. 1]d)) = λ(f (P ([0.) e 82 . dans le cas g´n´ral. 1] )) = {MP x : x ∈ [0. En utilisant les et S est sym´trique d´finie positive (prendre S = e e deux cas particuliers ci-dessus. 1] } = {P y : y ∈ et donc. i=1 d d c = c λ(P ([0. o` P est orthogonale e e u √ e t MM et P = MS −1 ). αi ] = i=1 αi . l’´galit´ e e e e e e du th´or`me s’´crit : e e e λ(A) = ϕ−1 (A) |Jϕ (u)| du. on remarque qu’on peut ´crire M = P S. On dit qu’une application ϕ : U −→ D est un diff´omorphisme de classe C 1 si ϕ est bijective et de classe C 1 sur U et si ϕ−1 est aussi de e classe C 1 sur D. .Si M est une matrice orthogonale. on trouve aussitˆt : o c = |det(P )| |det(S)| = |det(M)|. alors on peut trouver une matrice ore e t thogonale P telle que P MP soit diagonale avec coefficients diagonaux αi > 0. αi]} = λ i=1 i=1 [0. a e λ(ϕ(A)) = A |Jϕ (u)| du. (7. et Bd d´signe la boule unit´ ferm´e de Rd . Alors pour toute e e e fonction bor´lienne f : D −→ R+ . il suffit de montrer que. Quitte ` remplacer A par ϕ−1 (A). i ∈ {1. u a e u Preuve. puis au cas f = 1A . 1]d))) = λ {P y : y ∈ [0. d f (P ([0. d’o` il d´coule aussitˆt que c = 1 = |det(M)| dans ce cas. pour tout bor´lien A de U. Dans ce cas. Enfin. e e Th´or`me 7. pour tout u ∈ U. On sait qu’alors la d´riv´e ϕ′ (u) est inversible. Soient U et D deux ouverts de Rd .1) (Remarquer que ϕ(A) = (ϕ−1 )−1 (A) est bor´lien. . Dans ce cas on trouve encore c = |det(M)|. u e o Si M est une matrice sym´trique d´finie positive. en utilisant le cas orthogonal.1. o` Jϕ (u) = det(ϕ′ (u)) est le Jacobien de ϕ en u.2 Soit ϕ : U −→ D un diff´omorphisme de classe C 1 . Par les arguments habituels (passage ` la limite croissant) on se ram`ne au cas o` f est ´tag´e positive. Alors. d d d [0. on a e e e f (Bd ) = Bd . .

v ∈ K} < ∞. et d’autre part. on trouve que ϕ(u) = f (u − u0 + g(u. Preuve du lemme.Lemme 7. pour tout cube C de faces parall`les aux axes. e e a (1 − ε)|Jϕ (u0 )| λ(C) ≤ λ(ϕ(C)) ≤ (1 + ε)|Jϕ (u0 )| λ(C). Fixons n ≥ n0 ¯ assez grand pour que d’une part la conclusion du lemme soit vraie pour K = C0 et δ = 2−n . On voit que. En prenant g(u. u0)| ≤ ε|u − u0 |. ee ¯ ee e Soit C0 un cube ´l´mentaire d’ordre n0 fix´. e e f ((1 − c′ ε)C) ⊂ ϕ(C) On revient ` la preuve du th´or`me. Soit n ≥ 1 un entier. Il d´coule de ce qui pr´c`de e e e e e que ϕ(C) ⊂ f ((1 + daε)C). avec |h(u. tel que C0 ⊂ U. u0)| ≤ aε|u − u0 |. Alors on peut choisir δ > 0 assez petit de mani`re que. on a ϕ−1 (f ((1 − c′ ε)C)) ⊂ C . La preuve de la minoration est analogue : on montre e ′ que pour une constante c bien choisie. v ∈ K tels que |u − v| ≤ dδ. On note Cn l’ensemble des cubes ´l´mentaires d’ordre n. u0 ). de centre u0 ∈ K et de e e cot´ de longueur inf´rieure ` δ. kj ∈ Z. U ) et d’autre part. o` |g(u. u0) = ϕ′ (u0 )−1 · h(u. On appelle cube ´l´mentaire a e e ee d’ordre n tout cube de la forme d C= j=1 ]kj 2−n . 83 (7. Grˆce ` la proposition ci-dessus.2) . pour tous u. ϕ(u) = f (u − u0 ) + h(u. u0)). d’o` u et on conclut de la mˆme mani`re. pour tout u0 ∈ K et tout u ∈ Rd tel que |u − u0 | < dδ.1. (kj + 1)2−n ] . En utilisant la continuit´ de ϕ′ . u0). ce qui donne la majoration souhait´e. |ϕ(u) − ϕ(u0 ) − ϕ′ (u0 ) · (u − u0 )| ≤ ε|u − u0 |. si |u − u0 | < dδ. avec a := sup{ ϕ′ (v)−1 . on voit qu’on peut choisir δ > 0 assez e 1 c petit pour que d’une part δ < d dist(K. u Soit maintenant C un cube centr´ en u0 et de cot´ r ≤ δ. Notons f (v) = ϕ(u0 ) + ϕ′ (u0 ) · v pour v ∈ Rd . et soit ε > 0.3 Soit K un compact de U et soit ε > 0. il vient alors u e e a a λ(ϕ(C)) ≤ λ(f ((1 + daε)C)) = |det ϕ′ (u0 )| λ((1 + daε)C) = (1 + daε)d |Jϕ (u0 )| λ(C). o` C est le cube translat´ de C centr´ en 0. (1 − ε)|Jϕ (u)| ≤ |Jϕ (v)| ≤ (1 + ε)|Jϕ (u)|.

si Un d´signe la r´union (disjointe) des cubes ´l´mentaires d’ordre n d’adh´rence contenue dans U ∩ {u : |u| ≤ n}. e e e Application ` l’int´grale en coordonn´es polaires. λ(ϕ(C0 )) = C∈Cn C⊂C0 λ(ϕ(C)) ≤ (1 + ε) C∈Cn C⊂C0 |Jϕ (xC )| λ(C) |Jϕ (u)| du ≤ (1 + ε)2 = (1 + ε)2 C∈Cn C⊂C0 C C0 |Jϕ (u)| du. on peut appliquer le dernier corollaire e du Chapitre 1 pour conclure que µ = µ. 84 (r. Comme la classe des cubes ´l´mentaires d’adh´rence contenue dans U est stable par ee e intersection finie et engendre la tribu bor´lienne B(U). r sin θ) . On obtient de e e e e mˆme la minoration e λ(ϕ(C0 )) ≥ (1 − ε)2 Comme ε ´tait arbitraire. on conclut que e λ(ϕ(C0 )) = C0 C0 |Jϕ (u)| du. θ) = (r cos θ. x ≤ 0}. ∞[×] − π. On a donc obtenu (7. θ) ∈ U . on a Un ↑ U quand n → ∞ et µ(Un ) = µ(Un ) < ∞ pour tout n. et (7.1) lorsque A est un cube ´l´mentaire d’adh´rence contenue dans A. |Jϕ (u)| du. Alors l’application ϕ(r. ee e e e ee e D’autre part. π[ et D = R2 \{(x. a e e On prend d = 2. ee e Le cas g´n´ral d´coule maintenant d’arguments de classe monotone. On a utilis´ le lemme dans la premi`re in´galit´. On a obtenu que µ(C) = µ(C) pour tout cube ´l´mentaire C d’adh´rence contenue dans U. Notons µ la mesuree e e image de la mesure de Lebesgue sur D par ϕ−1 : µ(A) = λ(ϕ(A)) pour tout bor´lien A de U. 0). ce qui ´tait le r´sultat recherch´. U =]0. Soit aussi e µ(A) = A |Jϕ (u)| du. en notant xC le centre d’un cube C.Alors.2) dans la seconde.

on a aussi e f (x. y) = exp(−x2 − y 2 ).2. Alors ωd est une mesure positive finie sur S d−1 . le th´or`me de Fubini-Tonnelli donne d’une part e e e−x R2 2 −y 2 +∞ dxdy = −∞ e−x dx 2 2 et d’autre part ∞ 0 π f (r cos θ. r sin θ) r drdθ.2 Mesure de Lebesgue sur la sph`re unit´ e e S d−1 = {x ∈ Rd : |x| = 1}.est un diff´omorphisme de classe C 1 de U sur D. On calcule facilement e ϕ′ (r. r ∈ [0. Dans cette partie on note λd la mesure de Lebesgue sur Rd . −π Comme la demi-droite n´gative est de mesure de Lebesgue nulle dans R2 . qui est invariante par les isom´tries vectoe d rielles. θ) = r.3) Enfin la masse totale de ωd (volume de la sph`re unit´) est e e ωd (S d−1 ) = 85 2π d/2 . r sin θ) r drdθ.1 Pour tout A ∈ B(S d−1 ). Pour f (x. on note Γ(A) le bor´lien de Rd d´fini par e e Th´or`me 7. r sin θ) r drdθ = 2π −π +∞ −∞ 0 ∞ e−r r dr = π. on pose e e ωd (A) = d λd (Γ(A)). y) dxdy = R2 0 ∞ π f (r cos θ. pour toute fonction bor´lienne f : R −→ R+ . Soit S d−1 la sph`re unit´ de Rd : e e Si A ∈ B(S d−1 ). θ) = cos θ sin θ −r sin θ r cos θ et donc Jϕ (r. e e e e f (x. −π Exemple. pour toute fonction bor´lienne f : R2 −→ R+ . e f (x) dx = Rd 0 ∞ Γ(A) = {rx. De plus. f (rz) r d−1 dr ωd (dz). Il d´coule du th´or`me que. y) dxdy = D U f (r cos θ. Γ(d/2) . S d−1 (7. 2 ce qui donne la valeur e−x dx = 2 √ π. 1] et x ∈ A}. 7. r sin θ) r drdθ = 0 ∞ π f (r cos θ.

Le a e fait que λd soit invariante par les isom´tries vectorielles de Rd (proposition de la partie 1) e entraˆ facilement que ωd l’est aussi. |x| µ(B) = ωd (A) a r d−1 dr = bd − ad ωd (A). La masse totale de ωd est ωd (S d−1 ) = d λd (Bd ) = d 2π d/2 π d/2 = . d 1 − αd ωd (A). λd (B) = bd λd (Γ0 (A)) = 86 bd − ad ωd (A) = µ(B). Γ( d + 1) Γ( d ) 2 2 Il reste ` ´tablir (7. 1[. Il est imm´diat que ωd est une mesure positive finie sur S d−1 : on peut la voir e x comme l’image de la restriction de d λd ` la boule unit´ Bd par l’application x −→ |x| . ae u e La formule ∞ µ(B) = 1B (rz) r d−1 dr ωd (dz) 0 S d−1 d´finit une mesure µ sur Rd \{0} et le probl`me est de montrer que µ = λd . d ∞ n=0 λd (Γn (A)). o` B est un bor´lien de Rd \{0}. a < |x| ≤ b et o` A est un bor´lien de S d−1 .3). notons α = a b ∈]0. On peut aussi montrer que toute mesure finie sur S d−1 invariante par les isom´tries vectorielles est proportionnelle ` ωd . λd (Γn (A)) = αnd λd (Γ0 (A)) et par ailleurs λd (Γ(A)) = Il en d´coule aussitˆt que e o λd (Γ0 (A)) = (1 − αd ) λd (Γ(A)) = et puisque B = b Γ0 (A). ıne e λd (Γ(ϕ−1 (A))) = λd (ϕ−1 (Γ(A))) = λd (Γ(A)). Alors. u e b x ∈ A}. d Pour calculer λd (B). et 0 < a ≤ b. et pour tout entier n ≥ 0 posons Γn (A) = {y = rx. Alors. αn+1 < r ≤ αn et x ∈ A}. Consid´rons e e e d’abord le cas o` B est de la forme u B = {x ∈ Rd \{0}. e a Preuve. Il suffit de traiter le cas f = 1B . si ϕ est une telle isom´trie.Remarque. En effet. .

au sens o` f (x) = f (|x|). la classe des ensembles B de la forme ci-dessus est stable par intersections finies. Si f : Rd −→ R+ est une fonction radiale. 87 . le th´or`me montre u e e que f (x) dx = cd Rd 0 ∞ f (r) r d−1 dr. et on voit facilement qu’elle engendre la tribu bor´lienne sur Rd \{0}. Les arguments e de classe monotone habituels montrent alors que µ = λd . avec cd = ωd (S d−1 ).Finalement.

88 .

Partie II Probabilit´s e 89 .

.

on cherche ` fournir un mod`le math´matique e e a e e pour une “exp´rience al´atoire”. la notion de loi. e e ee e e 91 .1 D´finitions g´n´rales e e e Espaces de probabilit´ e Soit (Ω.Chapitre 8 Fondements de la th´orie des e probabilit´s e Ce chapitre introduit les notions fondamentales de la th´orie des probabilit´s : variables e e al´atoires.1. e Un espace de probabilit´ est donc un cas particulier d’espace mesur´. moments de variables al´atoires.1 8. A) est un espace de probabilit´. A) un espace mesurable. qui sont les parties de Ω dont on peut ´valuer la e e e probabilit´. etc. En fait. et la notion d’esp´rance co¨ e ıncide avec l’int´grale. e e e e Puisque un espace de probabilit´ n’est rien d’autre qu’un espace mesurable muni d’une e mesure de masse totale 1. le point de vue diff`re de la th´orie de l’int´gration : e a e e e dans le cadre de la th´orie des probabilit´s. le e point de vue de la th´orie des probabilit´s. Cependant. esp´rance. On dit e alors que (Ω. e e • Ω repr´sente l’ensemble de toutes les ´ventualit´s possibles. loi. e 8. e e e e et une difficult´ importante est de comprendre ce point de vue. devient-elle maintenant fondamentale car elle permet d’´valuer la probabilit´ qu’une variable al´atoire “tombe” dans un ensemble e e e donn´. beaucoup de ces notions correspondent ` ce qui a d´j` ´t´ vu dans a eae e le cadre de la th´orie de l’int´gration. e ee • A est l’ensemble des “´v´nements”. qui e est un cas particulier de la notion de mesure-image. Ainsi. Il faut voir un ´v´nement A ∈ A comme un sous-ensemble de Ω contenant e e e toutes les ´ventualit´s ω pour lesquelles une certaine propri´t´ est v´rifi´e. Par exemple une variable al´atoire n’est rien d’autre e e e qu’une fonction mesurable. A). qui est expliqu´ ci-dessous. pour lequel la masse e e totale de la mesure est ´gale ` 1. fonctions caract´ristiques. toutes les d´terminations du e e e e hasard dans l’exp´rience consid´r´e. et soit P une mesure de probabilit´ sur (Ω. est bien diff´rent.

ω2. On peut aussi construire P facilement partir de la mesure de Lebesgue sur [0. . 6 L’unicit´ de P est une cons´quence simple du lemme de classe monotone. 1] : si ` tout r´el x ∈ [0. 36 Le choix de la probabilit´ correspond ` l’id´e que tous les r´sultats possibles pour les deux e a e e tirages sont ´quiprobables. e (2) On lance le d´ jusqu’` obtenir un 6. ω2 = i2 . Comme e a ea e le nombre de lancers n´cessaires n’est a priori pas born´. . (1) On lance un d´ deux fois : e Ω = {1. alors. P (A) repr´sente la probabilit´ d’occurrence de l’´v´nement A. 6}N de sorte qu’un ´l´ment de Ω est une suite ω = (ω1 . . . . P (A) = Card(A) . pour e tout choix de n et de i1 . la probabilit´ P est obtenue comme mesure-image de la mesure de Lebesgue e sur [0. in ∈ {1. .) qui donne les r´sultats des tirages ee e successifs. R ) : un ´l´ment de Ω. 6} (A co¨ u ıncide aussi avec la tribu bor´lienne pour la e topologie produit sur Ω). 1] −→ R3 . . 1] a e ∞ −k on associe la suite (εk )k∈N∗ ∈ Ω telle que x = k=1 (εk − 1) 6 (cette suite est unique pour presque tout x). . L’existence est e e un cas particulier de la construction de mesures sur des produits infinis. . . . .• Pour A ∈ A. . L’exemple le plus important. in . 2. . une trajectoire possible. et on note NA le nombre e e e e de r´p´titions pour lesquelles l’´v´nement A est r´alis´. 1]. pour laquelle de multiples choix sont possibles. Dans les e e e e premiers trait´s de th´orie des probabilit´s. . la proportion NA /N e e e e e e converge quand N → ∞ vers la probabilit´ P (A). 2. . . Ici le choix de Ω est d´j` moins ´vident. (3) On s’int´resse au d´placement dans l’espace d’une particule ponctuelle soumise ` des e e a perturbations al´atoires. . . ωn = in } o` n ≥ 1 et i1 . Il resterait ` construire la e a probabilit´ P . 1] par l’application x −→ (εk )k∈N∗ . . 2. la probabilit´ P (A) ´tait d´finie de la mani`re suivante : on imagine e e e e qu’on r´p`te l’exp´rience al´atoire un nombre N de fois. 6}2 . le bon choix est d’imaginer qu’on e e fait une infinit´ de lancers : e ∗ Ω = {1. e Exemples. Cette tribu co¨ e ıncide avec la tribu bor´lienne pour la topologie de la convergence uniforme sur Ω. La tribu sur Ω est alors la plus petite tribu qui rende mesurables toutes les applications coordonn´es ω −→ ω(t) pour t ∈ R+ . ω2 = i2 . . . . . . . 1 P ({ω : ω1 = i1 . . est une fonction continue ee ω : [0. La tribu A sur Ω est la tribu-produit d´finie comme la plus petite tribu rendant e mesurables tous les ensembles de la forme {ω : ω1 = i1 . A = P(Ω) . . Enfin P est l’unique mesure de probabilit´ sur Ω telle que. Nous verrons plus loin le lien entre e cette d´finition “historique” et l’approche moderne. ωn = in }) = ( )n . 1]. l’espace de probabilit´ e a e 3 naturel est C([0. . . e 92 . Si on se limite ` l’intervalle de temps [0. . longtemps avant l’introduction de la th´orie e e e e de la mesure.

X(ω) = ω(t) est une v. ` valeurs dans e a ¯ = N ∪ {∞}. avec la convention inf ∅ = ∞. on ne sp´cifiera pas le choix de l’espace e e de probabilit´. not´e PX . 1] fix´.) e D´finition 8. C’est e e donc la mesure de probabilit´ sur (E. C’est le cas o` E est d´nombrable (et E est l’ensemble e e u e des parties de E). (3) Pour t ∈ [0. Une application mesurable X : Ω −→ E e est appel´e variable al´atoire (v. . est la mesure de Wiener.a. La loi PX permet de calculer la probabilit´ des ´v´nements qui “d´pendent” de la v. . Il e e e e faut comprendre qu’` chaque ω ∈ Ω on a associ´ un “point al´atoire” X(ω) dans E. (Remarquons que nous e a n’avons pas construit P dans cet exemple.a. j)) = i + j d´finit une variable al´atoire ` valeurs dans {1. en abr´g´) ` valeurs dans E. . Tr`s souvent dans la suite. on observe que. Si µ est une mesure de probabilit´ sur Rd . qui est a e la loi du mouvement brownien. . mais cela n’intervient pas pour les questions de mesurabilit´. Il suffit e e de prendre Ω = Rd .2 Variables al´atoires e D´finition 8. pour tout k ≥ 1. e e Cas particuliers. En reprenant les trois exemples ci-dessus : (1) X((i. Les donn´es importantes seront les propri´t´s des fonctions d´finies sur cet e e ee e espace.a. d´finie par e e e PX (B) = P (X −1 (B)) . . La loi de X est µ. Remarque importante. X. A = B(Rd ). e e a (2) X(ω) = inf{j : ωj = 6}. et que a e e PX (B) est la probabilit´ que ce point al´atoire tombe dans B. ` valeurs dans R3 .2 La loi de la variable al´atoire X est la mesure-image de P par X. La loi de X est alors PX = x∈E ∀B ∈ E. puis de poser X(ω) = ω. N e e X −1 ({k}) = {ω ∈ Ω : ω1 = 6. 12}.1. E). ωk−1 = 6. ωk = 6}.a.` la fois du point de vue th´orique et pour les applications. . 2.1.1. il e e e existe une mani`re canonique de construire une variable al´atoire dont la loi est µ. En pratique on ´crit plutˆt : e o PX (B) = P (X ∈ B) (= P ({ω ∈ Ω : X(ω) ∈ B}) ). d´finit une v. e 8. px δx 93 . les variables al´atoires. e e e e a Exemples.1 Soit (E. . de mani`re ´vidente. e e Remarque. . P = µ. ω2 = 6. Pour v´rifier la mesurabilit´. ou sur un espace plus g´n´ral. E) un espace mesurable. • Variables al´atoires discr`tes.

Revenons ` l’exemple (2) ci-dessus. . . . discr`te. β P (α ≤ X ≤ β) = p(x) dx. On note e e e a alors E[X] = X(ω) P (dω). x∈B En pratique. X.) e qui ne prennent pas la valeur 6. le th´or`me de Radon-Nikodym montre qu’il existe une fonction bor´lienne e e e d p : R −→ R+ telle que PX (B) = p(x) dx. . . • Variables al´atoires ` densit´. · si X est de signe quelconque et E[|X|] = |X|dP < ∞. Observons k=1 que l’ensemble {X = ∞} est loin d’ˆtre vide puisqu’il contient toutes les suites (i1 . En g´n´ral. E[X] est bien la moyenne au sens usuel des valeurs prises par X.1. avec X(ω) = inf{j : ωj = 6}.. . P (X = k) = P i1 . trouver la loi d’une v. . Exemple.e.. qui est unique ` en ensemble a de mesure de Lebesgue nulle pr`s. ∞]). ` valeurs dans R). . Ω qui est bien d´finie dans les deux cas suivants : e · si X ≥ 0 (alors E[X] ∈ [0. .o` px = P (X = x) et δx d´signe la la mesure de Dirac en x. Alors. E[X] = P (B). u e PX (B) = P (X ∈ B) = P ( {X = x} = P (X = x) = x∈B x∈E px δx (B). E[Xd ]). Une variable al´atoire X ` valeurs dans (Rd . c’est donc calculer toutes les probabilit´s e e P (X = x) pour x ∈ E. Dans le cas particulier o` Ω est fini et P attribue la mˆme valeur ` chaque u e a singleton. e e Remarque. . Xd ) est une variable al´atoire ` valeurs e e u e a d dans R en prenant alors E[X] = (E[X1 ].1. .3 Esp´rance math´matique e e D´finition 8.a.. 94 . . La fonction p. pour a tout k ≥ 1. . E[X] s’interpr`te comme la moyenne e e e de la v. a e a Dans ce cas. e e e Si d = 1. ωk−1 = ik−1 . pourvu bien sˆr que chacune des u esp´rances E[Xi ] soit bien d´finie.ik−1 1 5 1 {ω1 = i1 .3 Soit X une variable al´atoire r´elle (i. 6 6 6 =6 Remarquons que ∞ P (X = k) = 1 et donc P (X = ∞) = 1 − P (X ∈ N) = 0. B On a en particulier Rd p(x)dx = P (X ∈ Rd ) = 1. Si X = 1B . B(Rd )) est e a e e a dite ` densit´ si PX est absolument continue par rapport ` la mesure de Lebesgue λ. pour tous α ≤ β.. On ´tend cette d´finition au cas o` X = (X1 . ωk = 6} = 5k−1 ( )k = ( )k−1. . α 8.a. En effet. est appel´e la densit´ de (la loi de) X. on a en particulier. i2 . .

Proposition 8. . dxj−1 dxj+1 . y) dx). dxd (par exemple. xd ) dx1 . dxj−1 dxj+1 . d}. On remarque que le r´sultat est vrai par d´finition pour f = 1B puis e e e par lin´arit´ pour toute fonction ´tag´e positive. .2 Soit X = (X1 . pour tout j ∈ {1. on a E[f (X)] = E f (x) PX (dx). Supposons que la a loi de X a une densit´ p(x1 . on utilise souvent la proposition pour calculer la loi d’une v.a. e 95 . . . ce qui revient ` E[|f (X)|] < ∞. . . e e a Donnons un exemple simple de ce principe. y) dy . . Preuve. xd ) dx1 . la loi de Xj a une e densit´ donn´e par e e pj (x) = Rd−1 p(x1 . . xd ). En utilisant le th´or`me de Fubini.a.1. Xd ) une v. alors on peut identifier ν ` la loi de X. ce qui donne le r´sultat voulu. . . . e e a La donn´e de PX permet donc de calculer la valeur moyenne de variables al´atoires de e e la forme f (X). ∞]. . ` valeurs dans Rd . . p1 (x) = R p(x. Dans le cas g´n´ral. la formule de la proposition reste vraie ` condition que les a int´grales soient bien d´finies. Pour toute fonction e a mesurable f : E −→ [0. . . . e e Si f est de signe quelconque. . . pour toute fonction bor´lienne f : R −→ R+ . . C’est ´videmment une propri´t´ g´n´rale des mesures-images d´j` rencontr´e dans e ee e e ea e le cours d’int´gration. xj−1 . on e e ´crit. . x. . Preuve.1. . Inversement. dxd dxj f (xj )pj (xj ) dxj . xj+1 . si d = 2. xd ) dx1 . . on utilise le th´or`me e e e e e e e e de convergence monotone et le fait que toute fonction mesurable positive est limite croissante d’une suite de fonctions ´tag´es positives.1 Soit X une variable al´atoire ` valeurs dans (E. . Alors. . . . p2 (y) = R p(x. Proposition 8. . xd ) = xj . . . . . . . Soit πj la projection πj (x1 . e e E[f (Xj )] = E[f (πj (X))] = Rd f (xj )p(x1 . E). . X : si on arrive ` ´crire ae E[f (X)] = f dν pour toute fonction f “suffisamment” g´n´rale. . dxd f (xj ) Rd Rd−1 = = R p(x1 . . . . . . .

. A = B([0.a. on trouve comme e probabilit´ 4 . X2 ) ` valeurs dans R dont la loi est la a mesure de densit´ p par rapport ` la mesure de Lebesgue.4 Exemple : le paradoxe de Bertrand Pour illustrer les notions introduites dans les paragraphes pr´c´dents. ` valeurs dans Rd . sont d´termin´es par la loi de X.1. . Bertrand proposait deux m´thodes de calcul : e e (a) On choisit les deux extr´mit´s de la corde au hasard sur le cercle. explicitons les choix des espaces de probabilit´. Si X = (X1 . Sans perte de g´n´ralit´ on e e e e e e peut supposer que le cercle est le cercle unit´. La longueur de la corde est u X(ω) = 2| sin( 96 θ − θ′ )|. L’explication tient dans le fait e e que les deux m´thodes correspondent ` des exp´riences al´atoires diff´rentes. 2 4π o` on note ω = (θ. les lois PXj . X1 ) ont mˆmes lois marginales (la proposition ci-dessus montre que PX1 (dx) = e e e PX2 (dx) = q(x)dx) alors que les lois PX et PX ′ sont tr`s diff´rentes. θ′ ) pour ω ∈ Ω. 2π[2 ) . e ea Comme l’aire de ce disque est un quart de l’aire du disque unit´. 2 . qu’on appelle a souvent les lois marginales de X. X et e a X ′ = (X1 . Xd ) est une v. avec la notation ci-dessous. La premi`re ´tant e e e e choisie. e 1 On obtient donc un r´sultat diff´rent dans les deux cas. D’apr`s une remarque e e e 2 ci-dessus on peut construire une v. La probabilit´ d´sir´e e e e e est la probabilit´ que le centre tombe dans le disque de rayon 1/2 centr´ ` l’origine. X = (X1 . . x2 ) = q(x1 )q(x2 ) est alors aussi une densit´ de probabilit´ sur R2 . Mais alors les deux v. consid´rons une densit´ de probabilit´ q sur R. qui est de mesure de Lebesgue nulle. la longueur de la corde sera plus grande que le cot´ du triangle ´quilat´ral inscrit e e e si et seulement si la seconde extr´mit´ est dans un secteur angulaire d’ouverture 2π/3.a.a. e (a) Dans ce cas.Remarque. consid´rons le probl`me e e e e suivant. simplement parce que e e PXj = πj (PX ). . et observons que la fonction e e e p(x1 . e (b) On choisit le centre de la corde au hasard sur le disque unit´. Ω = [0. Pour nous en convaincre. simplement parce que e PX ′ est port´e par la diagonale de R2 . P (dω) = 1 dθ dθ′ . 2π[2 . repr´sent´es e a e e e e e par des choix diff´rents de l’espace de probabilit´. 8. e e 2π/3 1 La probabilit´ est donc 2π = 3 . Il est important d’observer que : la r´ciproque est fausse ! e Pour un exemple. On s’int´resse ` la probabilit´ qu’une corde choisie au hasard sur un cercle ait une e a e longueur plus grande que le cot´ du triangle ´quilat´ral inscrit. Il n’y a donc aucune raison pour que la e e loi de la variable al´atoire que l’on consid`re (la longueur de la corde) soit la mˆme dans les e e e deux cas.

avec 1 2 2 0 1 1[0. z) dy dz.a. La longueur de la corde est X(ω) = 2 et pour calculer sa loi on ´crit e E[f (X)] = 1 π R2 1 √ 3) = √ 1 p(x) dx = . 2 √ 1 P (X ≥ 3) = √ p(x) dx = . p(x) = 97 . = Donc PX (dx) = p(x)dx. π 0 x2 1− 4 Donc X est une v. puis le centre de la corde uniform´ment a e sur ce rayon. Ω = {ω = (y. la probabilit´ recherch´e est e e P (X ≥ (b) Maintenant.2] (x) x dx. 1 − y2 − z2 P (dω) = f (2 1 − y 2 − z 2 ) 1{y2 +z 2 <1} dydz = 2 0 √ f (2 1 − r 2 ) r dr f (x) x dx. 3 3 1 1Ω (y. En particulier. Traiter le cas de la troisi`me m´thode propos´e par Bertrand : on choisit au e e e hasard la direction du rayon orthogonal ` la corde. 4 3 Exercice. En partie e e culier. z) ∈ R2 : y 2 + z 2 < 1} .On calcule facilement la loi de X : E[f (X)] = Ω f (X(ω)) P (dω) = 2π 2π θ − θ′ 1 )|) dθdθ′ f (2| sin( 4π 2 0 2 0 1 π u = f (2 sin( )) du π 0 2 2 1 1 = f (x) dx. avec e a e p(x) = 1 π 1 1− 2 x2 4 1[0. r´elle ` densit´ : PX (dx) = p(x)dx. 2 On peut remarquer que la densit´ obtenue est tr`s diff´rente de celle du cas (a). π A = B(Ω) .2] (x).

La e e e traduction math´matique de cette intuition est l’approximation binˆmiale de la loi de e o Poisson : si pour tout n ≥ 1.a.a. e (c) Loi binˆmiale B(n. Dans les trois exemples qui suivent. P (X = 0) = 1 − p. b] (a < b). 1].5 Lois classiques On donne dans ce paragraphe quelques exemples importants de lois. X ` valeurs dans N. k! ∀k ∈ N.a. une v. C’est la loi d’une v. ∀x ∈ E. ` a a densit´ p(x). 1} e a telle que P (X = 1) = p . ` valeurs dans N. La loi de Poisson est tr`s importante aussi bien e du point de vue th´orique que dans les applications. elle correspond e au nombre d’´v´nements rares qui se sont produits durant une p´riode longue. X est une v. . (d) Loi g´om´trique de param`tre p ∈]0. n→∞ lim P (Xn = k) = λk −λ e .a. Intuitivement.1.8. ` valeurs dans R. C’est la loi d’une v. X est une v. On interpr`te X comme le nombre de piles obtenus en n lancers avec la pi`ce pr´c´dente. pn ) et si npn −→ λ quand o n → ∞. X est le nombre de piles obtenus avant le premier face. Si E est un ensemble fini. Xn suit une loi binˆmiale B(n. p(x) = 1 1[a. X est de loi uniforme sur E si 1 P (X = x) = . X ` valeurs dans o a {1. e (a) Loi uniforme. X ` valeurs dans {0. On interpr`te X comme le r´sultat du lancer d’une pi`ce truqu´e qui tombe sur pile e e e e avec probabilit´ p. k! Lois continues.a. e (a) Loi uniforme sur [a. p ∈ [0. . n (b) Loi de Bernoulli de param`tre p ∈ [0. n} telle que k P (X = k) = Cn pk (1 − p)n−k . . C’est la loi d’une v. b−a 98 . . Card(E) = n. telle e e e a que P (X = k) = (1 − p) pk .b] (x). e e e e On calcule facilement E[X] = λ. alors pour tout entier k ∈ N. et e a P (X = k) = λk −λ e . p) (n ∈ N∗ . (e) Loi de Poisson de param`tre λ > 0.a. Lois discr`tes. 1]). 1[.

σ ). t]) . pour tous λ. λ2σ 2 ). e Il d´coule des r´sultats du cours d’int´gration que FX caract´rise la loi PX de X. Par convention on dira qu’une v. a Inversement.(b) Loi exponentielle de param`tre λ > 0. e a 2 Si X suit la loi N (m. σ 2). 0). t]) = F (t) e e pour tout t ∈ R. continue ` droite et a pour limite 0 en −∞ et 1 en +∞. C’est la propri´t´ d’absence de m´moire de e ee e la loi exponentielle. r´elle. σ 2 ) (m ∈ R. 99 si a ≤ b. On remarque aussi que X − m suit la loi N (0. (x − m)2 1 . Cela montre qu’on peut interpr´ter F comme la fonction de r´partition e e d’une v. σ 2 = E[(X − m)2 ]. r´elle. Les lois exponentielles poss`dent la propri´t´ caract´ristique suivante : si a.a. 8. . ∀t ∈ R. e p(x) = λ e−λx 1R+ (x). si on se donne une fonction F ayant ces propri´t´s. (c) Loi gaussienne.a. e ee e P (X > a + b) = P (X > a) P (X > b). N (m. σ > 0). b > 0. Sa e e densit´ est la fameuse courbe en cloche. la fonction de r´partition de X est la fonction FX : R −→ [0. La fonction FX est croissante. ce qu’on interpr`te en disant que la probabilit´ que X − a > b sachant que X > a e e co¨ ıncide avec la probabilit´ que X > b. La loi gaussienne jouera un rˆle o important dans le Chapitre 10.6 Fonction de r´partition d’une variable al´atoire r´elle e e e Si X est une v. qui explique qu’elle soit utilis´e par exemple pour mod´liser les e e temps de vie de machine sans usure. 1] e e d´finie par e FX (t) = P (X ≤ t) = PX (] − ∞. ou normale. c’est la loi la plus importante en th´orie des probabilit´s. si a < b. µ ∈ R. λX + µ suit la loi N (λm + µ. on a vu dans le cours ee d’int´gration qu’il existe une (unique) mesure de probabilit´ µ telle que µ(] − ∞. p(x) = √ exp − 2σ 2 σ 2π Avec la loi de Poisson.a.1. On a e e e e en particulier P (a ≤ X ≤ b) = FX (b) − FX (a−) P (a < X < b) = FX (b−) − FX (a) et les sauts de FX correspondent aux atomes de PX . Les param`tres m et σ s’interpr`tent comme e e e m = E[X] . constante ´gale ` m suit la loi gaussienne N (m.

n}. pour tout n.a.a. i ∈ I). . Dans ce cas. E) dans (R. ` valeurs dans un espace mesurable quelconque (E. sinon. est par d´finition la plus petite tribu sur Ω qui rende X mesurable : e e σ(X) = {A = X −1 (B) : B ∈ E}. et de plus f (X(ω)) = lim fn (X(ω)) = Y (ω) ce qui donne la repr´sentation recherch´e Y = f (X). n}. Alors. (ii) Il existe une fonction mesurable f de (E. 0 On sait que la fonction f ainsi d´finie est mesurable. supposons que Y est σ(X)-mesurable. pour tout ω ∈ Ω.1. La tribu engendr´e a e par X. On pose alors pour tout x ∈ E : f (x) = n→∞ lim fn (x) si la limite existe.7 Tribu engendr´e par une variable al´atoire e e Soit X une v. pour tout i ∈ {1. L’implication (ii)⇒(i) est facile puisqu’une compos´e de fonctions mesurables est e mesurable. E). e a σ(X) = σ(Xi−1 (Bi ) : Bi ∈ Ei . o` la e e e e u fonction fn : E −→ R est mesurable. . not´e σ(X).1. e a r´elle. Il y a ´quivalence entre : e e (i) Y est σ(X)-mesurable. Dans l’autre sens. Par ailleurs. Yn = fn (X). . On peut g´n´raliser cette d´finition ` une famille quelconque (Xi )i∈I de v. et on a n n Y = i=1 λi 1 Ai = i=1 λi 1Bi ◦ X = f ◦ X. e X(ω) appartient ` l’ensemble des x pour lesquels lim fn (x) existe (puisque lim fn (X(ω)) = a lim Yn (ω) = Y (ω)). e e 100 .. Preuve. pour chaque i ∈ {1.3 Soit X une variable al´atoire ` valeurs dans (E.a. . Traitons d’abord le cas o` Y u est ´tag´e : e e n Y = i=1 λi 1 Ai o` λi ∈ R et Ai ∈ σ(X). . . Proposition 8. . on u peut trouver Bi ∈ E tel que Ai = X −1 (Bi ). u i=1 Dans le cas g´n´ral. e e e a Xi ´tant ` valeurs dans (Ei . et soit Y une v.8.a. B(R)) telle que Y = f (X). on peut ´crire. o` f = n λi 1Bi est E-mesurable. D’apr`s la premi`re ´tape. . E). on sait que Y est limite simple d’une suite de v. Ei ). Yn ´tag´es et e e e e σ(X)-mesurables. Remarque.

Xn ↑ X ⇒ E[Xn ] ↑ E[X]. Lemme de Fatou Convergence domin´e e : Xn ≥ 0. De mani`re informelle.) de la th´orie de la mesure. On dit que la v. var(X) mesure la dispersion de X autour de sa moyenne E[X]. ⇒ E[Xn ] −→ E[X]. La quantit´ E[|X|p ] e e e est appel´e moment absolu d’ordre p. e Remarquons que var(X) = 0 si et seulement si X est constante p.2. En th´orie des probabilit´s on utilise l’expression presque sˆ rement (p.1 Soit X ∈ L2 (Ω. A. e D´finition 8. e e e e L’esp´rance math´matique est un cas particulier d’int´grale par rapport ` une mesure e e e a positive. P ) ⊂ L (Ω.1 Moments de variables al´atoires e Moments d’ordre p et variance Soit X une v. En prenant Y = 1 on trouve X 1 ≤ X p . r´elle X est centr´e si elle est int´grable et si E[X] = 0. et on peut donc lui appliquer les th´or`mes g´n´raux vus dans ce cadre.a. Xn −→ X p. ce qui se g´n´ralise e e q p r aussitˆt ` X r ≤ X p si r ≤ p. : |Xn | ≤ Z E[Z] < ∞.2. 1 pourvu que p + 1 = 1. 101 . A. A. ∞] comme dans le cours d’int´gration. qui n’est d´finie que si E[|X| ] < ∞.p. En particulier le moment d’ordre 1 est simplement e l’esp´rance de X.2 8.p. P ) sont d´finis pour tout p ∈ [1. e Les espaces Lp (Ω. ⇒ E[lim inf Xn ] ≤ lim inf E[Xn ].s. A. P ). En particulier L (Ω. ou si X ≥ 0. Le moment d’ordre p de X est par d´finition e e p p la quantit´ E[X ]. les th´or`mes de convergence sont d’un usage fr´quent : e e e Convergence monotone : Xn ≥ 0. En partie e e e culier. P ) si r ≤ p.8.a. en abr´g´) plutˆt e e u e e o que le presque partout (p. o a L’in´galit´ de Cauchy-Schwarz s’´crit e e e E[|XY |] ≤ E[X 2 ]1/2 E[Y 2 ]1/2 et le cas particulier o` Y = 1 u E[|X|]2 ≤ E[X 2 ] est tr`s souvent utile. La variance de X est e var(X) = E[(X − E[X])2 ] et l’´cart-type de X est e σX = var(X). e e L’in´galit´ de H¨lder s’´crit e e o e E[|XY |] ≤ E[|X|p ]1/p E[|Y |q ]1/q . r´elle et soit p ≥ 1 un entier.s.

. Si A est une matrice (d´terministe) n×d et Y = AX. d d λi λj KX (i. Xd ). P ). e var(X) = inf E[(X − a)2 ]. Exercice. λd ∈ R . E[(X − a)2 ] = var(X) + (E[X] − a)2 . . . Les deux premi`res assertions en d´coulent aussitˆt. A. .2. e Dans le cas vectoriel X = (X1 . . e e o e In´galit´ de Markov. Y ) est une forme bilin´aire sur L2 (Ω. Y )| ≤ var(X) var(Y ). P ) (ce qui ´quivaut ` E[|X|2 ] < ∞). a In´galit´ de Bienaym´-Tchebicheff.1≤j≤d . . e e 102 . la matrice KX est sym´trique positive : pour e d tous λ1 . e e e P (|X − E[X]| ≥ a) ≤ 1 var(X). la matrice de covariance de X est e a KX = cov(Xi . A. Xj ) 1≤i≤d.j=1 i=1 λi Xi ≥ 0. Si X ∈ L2 (Ω. A.1 On a aussi var(X) = E[X 2 ] − (E[X])2 . a∈R Preuve. . (cf cours d’int´gration) Si X ≥ 0 et a > 0. . j) = var i.2. v´rifier que KY = A KX t A. a2 Cette in´galit´ d´coule de l’in´galit´ de Markov appliqu´e ` la variable positive (X − E[X])2 . Y ) = E[(X − E[X])(Y − E[Y ])] = E[X(Y − E[Y ])] = E[XY ] − E[X]E[Y ].2 Soient X. La covariance de X et Y est e cov(X. d’apr`s l’in´galit´ de Cauchy-Schwarz. De mani`re informelle. L’application (X. . et pour tout a ∈ R. . Y ∈ L2 (Ω. P ). P ) et a > 0. En cons´quence.Proposition 8. Si X = (X1 . Xd ) est une variable al´atoire ` valeurs dans Rd dont toutes les composantes e a 2 sont dans L (Ω. e e e e e e a D´finition 8. A. Y ) −→ cov(X. en prenant a = E[X] pour la premi`re. e e e |cov(X. On a E[(X − a)2 ] = E[X 2 ] − 2a E[X] + a2 = E[X 2 ] − (E[X])2 + (E[X] − a)2 . Remarquons que cov(X. X) = var(X) et que. . e e e P (X ≥ a) ≤ 1 E[X]. la covariance de X et Y mesure la corr´lation existant entre X e e et Y . .

On cherche ` trouver la e a meilleure approximation de X comme fonction affine de Y1 . Yk ) = cov(X. .. . . Par d´finition de la projection orthogonale. . on trouve que la meilleure (au sens L2 ) approximation de X par une fonction affine de Y est cov(X. . . e e e e Preuve. . n}. De mˆme. . X − Z est orthogonal ` H. Yk ) . . . P ). j=1 Inversement. . Y ) KY en notation matricielle. (1) les coefficients αj ´tant (n’importe quelle) solution du syst`me e e n αj cov(Yj . j=1 1 ≤ k ≤ n. si KY est non-d´g´n´r´e. Y1 . Yk ). αj cov(Yj . On peut ´crire Z sous la forme e n Z = α0 + j=1 αj (Yj − E[Yj ]). Soit H le sous-espace vectoriel de L2 (Ω. ce qui ´quivaut ` cov(Z.βn ∈R inf E[(X − (β0 + β1 Y1 + · · · + βn Yn ))2 ] = E[(X − Z)2 ].. pour tout k ∈ {1. donc doit co¨ a ıncider avec la projection orthogonale de X sur H. e on sait que la variable al´atoire Z qui minimise X − U 2 pour U ∈ H est la projection e orthogonale de X sur H.8. . Si n = 1 et si on suppose que Y n’est pas constante p. Remarque. βn ). On doit donc avoir e a d’o` α0 = E[X]. Yk ) = cov(X.. . . A.2 On a β0 . Y ) (Y − E[Y ]). . Yn . . P ) engendr´ par 1. A. −1 En particulier. var(Y ) C’est ce qu’on appelle parfois la droite de r´gression de X en Y .. Y1 . u e E[(X − Z) · 1] = 0. ou encore ` e a a n E[(X − Z) · (Yk − E[Yk ])] = 0.2 La r´gression lin´aire e e Soient X. Yk ). e Z = E[X] + 103 . e Proposition 8. .2. Yk ) = cov(X. n o` u Z = E[X] + j=1 αj (Yj − E[Yj ]). on cherche e e ` minimiser a E[(X − (β0 + β1 Y1 + · · · + βn Yn ))2 ] sur tous les choix possibles du (n + 1)-uplet de r´els (β0 . . Yn . Alors. on a α = cov(X. il est imm´diat que la e e e e variable Z d´finie par le membre de droite de (1) est un ´l´ment de H tel que X − Z soit e ee orthogonal ` H. .2. si les coefficients αj v´rifient ce syst`me d’´quations. . Yn des variables al´atoires dans L2 (Ω. Pr´cis´ment..s.

On peut aussi ´crire e ΦX (ξ) = eiξ·x PX (dx) ξ ∈ Rd . avec condition e e initiale f (0) = 1.2. En e R 1 2 √ e−x /2 ξ cos(ξx) dx = −ξ f (ξ). Alors. ce qui permet de voir ΦX comme la transform´e de Fourier de la loi de X. Il en d´coule que f (ξ) = exp(−ξ 2 /2). ΦX (ξ) = exp(− Preuve.2. 1 2 2 √ e−x /(2σ ) eiξx dx. 2π La fonction f est donc solution de l’´quation diff´rentielle f ′ (ξ) = −ξf (ξ). Le th´or`me de convergence domin´e montre que ΦX est continue (et e e e born´e) sur Rd . on a e e f ′ (ξ) = − 1 2 √ x e−x /2 sin(ξx) dx 2π 2 /2 R (la justification est facile puisque |x sin(ξx) e−x int´grant par parties.2. 2 ξ ∈ R. R σ 2π On se ram`ne facilement au cas σ = 1. e 104 . On ´crit parfois e e ΦX (ξ) = PX (ξ).3 Si X est une variable al´atoire ` valeurs dans Rd . la fonction caract´ristique e e a e d de X est la fonction ΦX : R −→ C d´finie par e ΦX (ξ) = E[exp(iξ · X)] . la transform´e de Fourier d´finie e e e e sur l’espace des mesures de probabilit´ sur Rd est injective.8.4 La fonction caract´ristique d’une variable al´atoire X ` valeurs dans Rd e e e e a caract´rise la loi de cette variable al´atoire. Autrement dit. 2π En d´rivant sous le signe int´grale.3 Fonctions caract´ristiques e D´finition 8. Il reste ` calculer a ΦX (ξ) = f (ξ) = R 1 2 √ e−x /2 cos(ξx) dx. e Th´or`me 8. Nous e e commen¸ons par un calcul important dans un cas particulier. Ensuite. un argument de parit´ montre que la partie e e imaginaire de ΦX (ξ) est nulle. il vient e f ′ (ξ) = − | ≤ |x| e−x 2 /2 qui est int´grable). σ 2 ).3 Soit X une variable al´atoire de loi gaussienne N (0. e Notre objectif est de montrer que la fonction caract´ristique caract´rise la loi de X.2. c e Lemme 8. On a σ2 ξ 2 ).

µσ est d´termin´e par µ. on ´crit d’abord. e e √ x2 σ 2π gσ (x) = exp(− 2 ) = 2σ eiξx g1/σ (ξ) dξ. Pour tout σ > 0. e e ϕ(x)µσ (dx) = ϕ(x) gσ (y − x)µ(dy) dx = gσ ∗ ϕ(y)µ(dy). on utilise e e e les propri´t´s ee gσ (x) dx = 1 . (def) µσ (dx) = fσ (x) dx. on pose e fσ (x) = R gσ (x − y) µ(dy) = gσ ∗ µ(x). exp(− 2 ) . soit gσ la densit´ de la loi e gaussienne N (0. Pour montrer le r´sultat du th´or`me. R Il vient alors fσ (x) = R √ gσ (x − y) µ(dy) = (σ 2π)−1 = (σ 2π)−1 = (σ 2π)−1 √ √ eiξ(x−y) g1/σ (ξ) dξ µ(dy) R R eiξx g1/σ (ξ) R R e−iξy µ(dy) dξ eiξx g1/σ (ξ) µ(−ξ)dξ. On traite d’abord le cas d = 1. {|x|>ε} ∀ε > 0. dont la justificae e e e e e tion est facile puisque µ est une mesure de probabilit´ et que la fonction g1/σ est int´grable e e pour la mesure de Lebesgue. gσ (x) = √ 2σ σ 2π Si µ est une mesure de probabilit´ sur R. e e 2. pour toute fonction ϕ continue et born´e sur R. σ 2) : x2 1 x ∈ R. pour tout x ∈ R. on utilise le lemme pour ´crire. avec la mˆme justification pour appliquer le th´or`me de Fubini-Lebesgue. ε→0 lim gσ ∗ ϕ(y) = ϕ(y) 105 . ϕ(x)µσ (dx) −→ ϕ(x)µ(dx) quand σ → 0. Pour le point 2. il suffit d’´tablir que e e e e 1. pour obtenir que. σ→0 lim gσ (x) dx = 0 .Preuve. on a utilis´ le th´or`me de Fubini-Lebesgue. Pour toute fonction ϕ ∈ Cb (R). Ensuite. Pour ´tablir le point 1. pour tout y ∈ R. R Dans l’avant-derni`re ´galit´.

on peut d´river une seconde fois et trouver que e ∂ 2 ΦX (ξ) = − E[Xj Xk eiξ·X ]. a e e 2 Alors ΦX est de classe C et 1 ΦX (ξ) = 1 + i ξj E[Xj ] − 2 j=1 quand ξ = (ξ1 . ce qui termine la preuve dans le cas d = 1. Xd ) une v. . on obtient e a σ→0 lim ϕ(x)µσ (dx) = ϕ(x)µ(dx).a. . 2 d d d ξj ξk E[Xj Xk ] + o(|ξ|2) j=1 k=1 106 . xd ) = j=1 gσ (xj ) en remarquant que pour ξ ∈ Rd . De mˆme. on trouve e e ∂ΦX (ξ) = i E[Xj eiξ·X ]. La preuve dans le cas d quelconque est similaire. puisque e e 2 1/2 2 1/2 E[|Xj Xk |] ≤ E[Xj ] E[Xk ] < ∞. ∂ξj la justification ´tant facile puisque |iXj eiξ·X | = |Xj | et Xj ∈ L2 ⊂ L1 . . C’est cependant le cas p = 2 qui sera le plus utile dans la suite. . ∂ξj ∂ξk ∂ De plus le th´or`me de continuit´ sous le signe int´grale assure que ∂ξjΦXk (ξ) est fonction e e e e ∂ξ continue de ξ. . . Preuve. . a Remarque. Enfin la derni`re assertion est simplement le d´veloppement de Taylor de ΦX ` l’ordre 2 e e a ` l’origine. .(cf les r´sultats du cours d’int´gration concernant les approximations de la mesure de Dirac e e δ0 ). ξd ) tend vers 0. . .2. En d´rivant sous le signe int´grale. ` valeurs dans Rd et de carr´ int´grable. facile ` justifier puisque |gσ ∗ ϕ| ≤ sup |ϕ|.5 Soit X = (X1 . . Si on suppose que X est de puissance p-i`me int´grable (p ≥ 1 entier) le mˆme e e e raisonnement montre que ΦX est de classe C p . Par convergence domin´e. . d Rd (d) gσ (x) eiξ·x dx = j=1 gσ (xj ) eiξj ·xj dxj = (2πσ)d/2 g1/σ (ξ). (d) Proposition 8. On utilise les fonctions d (d) gσ (x1 .

2.2.4 Fonction g´n´ratrice e e Dans le cas de variables al´atoires ` valeurs dans N. e On voit facilement que gX a toujours une d´riv´e ` gauche en 1. La fonction gX est continue sur [0. Cela montre que la e ıt e e e a fonction g´n´ratrice gX caract´rise la loi de X. e e lim gX (r) = E[X(X − 1) · · · (X − p + 1)] r↑1 (p) ce qui montre comment retrouver tous les moments de X ` partir de la connaissance de la a fonction g´n´ratrice. e e 107 . ´ventuellement infinie. 1] par e gX (r) = E[r X ] = ∞ n=0 P (X = n) r n .8. on utilise les fonctions g´n´ratrices e a e e plutˆt que les fonctions caract´ristiques. e e a e et que ′ gX (1) = E[X]. pour tout entier p ≥ 1. 1] (cela d´coule par exemple du th´or`me de convere e e gence domin´e). Le rayon de convergence de la s´rie e e enti`re qui apparaˆ dans la d´finition est donc sup´rieur ou ´gal ` un.a. et on a gX (0) = P (X = 0) et gX (1) = 1. puisque les nombres P (X = n) apparaissent e e e comme les coefficients du d´veloppement de Taylor de gX en 0. La fonction g´n´ratrice de X est la e a e e fonction gX d´finie sur l’intervalle [0. o e D´finition 8. Plus g´n´ralement.4 Soit X une v. ` valeurs dans N.

108 .

. Si A. la notion la plus fondamentale est celle de l’ind´pendance de deux (ou plusieurs) e e sous-tribus. on peut interpr`ter cette d´finition en disant que la probabilit´ e e e conditionnelle (def) P (A ∩ B) P (A | B) = P (B) co¨ ıncide avec P (A) : le fait de savoir que B est r´alis´ ne donne pas d’information sur la e e r´alisation ou non de l’´v´nement A (et on peut intervertir les rˆles de A et B). B ∈ A sont e deux ´v´nements. S’il est plus facile de comprene e e dre intuitivement la d´finition de l’ind´pendance de deux ´v´nements ou de deux variables e e e e al´atoires. (i) Lancer de deux d´s : Ω = {1. e e e e e 9. on dit que A et B sont ind´pendants si e e e P (A ∩ B) = P (A)P (B). . qui e e suffit ` ´tablir le lien entre notre approche axiomatique des probabilit´s et la d´finition “hisae e e torique” (probabilit´ d’un ´v´nement = fr´quence d’apparition de cet ´v´nement lorsqu’on e e e e e e r´p`te un grand nombre de fois la mˆme exp´rience al´atoire). .Chapitre 9 Ind´pendance e Le concept d’ind´pendance est sans doute la premi`re notion importante o` la th´orie e e u e des probabilit´s se diff´rencie nettement de l’int´gration. 6} × {6} sont ind´pendants. . A titre d’application. 6}2 . A. . P ). . . Avec le th´or`me de Fubini. Un r´sultat-cl´ de ce chapitre relie l’ind´pendance de deux variables al´atoires au e e e e fait que la loi du couple form´ par ces deux variables est la mesure-produit des lois individue elles. . 2. P ({ω}) = 1/36 pour tout ω ∈ Ω. 6} et B = {1. Au moins lorsque P (B) > 0. 2. . cela permet des reformulations souvent utiles de la notion e e d’ind´pendance. on ´tablit le c´l`bre lemme de Borel-Cantelli (dont e e ee une application amusante donne des propri´t´s surprenantes du d´veloppement dyadique ee e d’un nombre r´el choisi au hasard) et une premi`re forme de la loi des grands nombres.1 Ev´nements ind´pendants e e Dans tout ce chapitre on se place sur un espace de probabilit´ (Ω. . e Les ´v´nements A = {6} × {1. En e e e fait la probabilit´ P a ´t´ construite pr´cis´ment pour qu’un ´v´nement relatif au r´sultat e ee e e e e e du premier lancer soit ind´pendant d’un ´v´nement relatif au r´sultat du second. e e e e 109 . 2. e e e o Exemples. . .

Il est clair que la condition donn´e est plus forte que celle de la d´finition : prendre e e Bi = Ai si i ∈ {j1 . . n}. . e e Les ´v´nements A. . . si {j1 . jp } et Bi = Ω sinon. . C2 . Il ne suffit pas que l’on ait P (A1 ∩ A2 ∩ . . . . . jp } = {i : Bi = Ω}. . Ac . . Pour donner un exemple.1 On dit que n ´v´nements A1 . 3. . An sont ind´pendants.1. . . . . . . . e i Preuve. ∩ Ajp ) = P (Aj1 ) P (Aj2 ) . Ensuite. Remarques.1 Les n ´v´nements A1 . . . . . . . il suffit de montrer que si C1 . An sont ind´pendants si et seulement si on a e e e P (B1 ∩ . . n}. . . P ({ω}) = 1/6 pour tout ω ∈ Ω. . P (Ciq ) − P (C1 )P (Ci1 ) . . ∩ An ) = P (A1 ) P (A2 ) . . An sont ind´pendants si. C1 . . . Ai . P (Bn ) d`s que Bi ∈ σ(Ai ) = {∅. . . . P (Ajp ). . . P (Ciq ) 110 . c P (C1 ∩ Ci1 ∩ · · · ∩ Ciq ) = P (Ci1 ∩ · · · ∩ Ciq ) − P (C1 ∩ Ci1 ∩ · · · ∩ Ciq ) = P (Ci1 ) . les ´v´nements Ai et Aj e e soient ind´pendants. . Mais cela est facile puisque. . Inversement. . . . . . . iq } de {2. e e e a e Proposition 9. . . . . 2} et B = {1. . . ∩ Bjp ) = P (Bj1 ) P (Bj2 ) . C2 . .(ii) Lancer d’un seul d´ : Ω = {1. pour tout souse ensemble {i1 . Cp sont e j c ind´pendants. . P (Bjp ). . ∩ Bn ) = P (B1 ) . . 5} sont ind´pendants. P (An ). B. . . . . on est ramen´ ` montrer que ea P (Bj1 ∩ Bj2 ∩ . supposons que A1 . . Ω} pour tout i ∈ {1. . . . on a P (Aj1 ∩ Aj2 ∩ . d`s que Bjk = Ajk ou Ack . Pour v´rifier la propri´t´ de la proposition. . 6}. . . consid´rons l’espace correspondant ` deux e e a lancers de pile ou face (pi`ce non truqu´e) et prenons e e A = {pile au premier lancer} B = {pile au second lancer} C = {mˆme r´sultat aux deux lancers}. Les ´v´nements e e e A = {1. . pour tout souse e e e ensemble non vide {j1 . . . . pour chaque paire {i. j} ⊂ {1. . . Cp le sont aussi.1. . . on peut supposer Bi = ∅ pour e e ee tout i ∈ {1. . . C sont ind´pendants deux ` deux mais non ind´pendants. . . jp } de {1. P (Ciq ) c = P (C1 )P (Ci1 ) . . Finalement. n}. e D´finition 9. 2. n}. Il ne suffit pas non plus que. . . p}.

.. . . . X1 .1 Les n variables al´atoires X1 . P (An ). Soient X1 . . Th´or`me 9. . . . . (En . ∀Fn ∈ En . . . . Xn sont ind´pendantes si les tribus σ(X1 ).Xn ) (F1 × · · · × Fn ) = P ({X1 ∈ F1 } ∩ .a. . P (A1 ∩ A2 ∩ . Xn sont des variables al´atoires ` valeurs dans (E1 . . . . . . . . les v. E1 ). . . e Preuve.a. . ∀An ∈ Bn . . . P ({X1 ∈ F1 } ∩ . Xn sont ind´pendantes si la connaissance de cere e taines d’entre elles ne donne pas d’information sur les autres. e (ii) Les n ´v´nements A1 . .a. . . . . . . Bi -mesurable. . . . . . . . . e a On dit que les variables X1 . En ). On a d’une part P(X1 . . . . . Bn n sous-tribus de A.. E1). . P (Xn ∈ Fn ) (9. pour tout i ∈ {1. . An sont ind´pendants si et seulement si les tribus σ(A1 ). . . . . En ) respece a tivement. On dit que B1 . . . .2.9. ∩ An ) = P (A1 ) P (A2) . . . . ..2 Variables al´atoires et tribus ind´pendantes e e La notion la plus g´n´rale est celle de tribus ind´pendantes. alors X1 . Ei ). . ` valeurs dans l’espace E1 × · · · × En muni de a la tribu produit E1 ⊗ · · · ⊗ En . .Xn ) = PX1 ⊗ · · · ⊗ PXn . ∩ {Xn ∈ Fn }) = P (X1 ∈ F1 ) . e e e D´finition 9. . . (i) Si B1 . Xn : P(X1 . Xn sont ind´pendantes si et seulement e e e e si la loi du n-uplet (X1 . Xi est une v. . Soit Fi ∈ Ei. . . . . . Xn n variables al´atoires ` valeurs respectivement dans (E1 . . σ(Xn ) le sont. et si. . n}. . pour tout i ∈ {1.1) −1 (en effet on sait que σ(Xi ) = {Xi (F ) : F ∈ Ei }). . . . . . . n}. . e Cela ´quivaut encore ` dire que e a ∀F1 ∈ E1 . .2. . . .. . . . n}. . .. Bn sont n sous-tribus ind´pendantes. . De mani`re intuitive. Xn ) est une v. Bn sont ind´pene e dantes si et seulement si ∀A1 ∈ B1 . e e e σ(An ) le sont (cf proposition pr´c´dente). . ∩ {Xn ∈ Fn }) et d’autre part n n PX1 ⊗ · · · ⊗ PXn (F1 × · · · × Fn ) = 111 PXi (Fi ) = i=1 i=1 P (Xi ∈ Fi ). De plus. . on a alors E i=1 n n fi (Xi ) = i=1 E[fi (Xi )] d`s que fi est une fonction mesurable positive sur (Ei .. Xn ) est le produit des lois de X1 . . .. (En . . Remarques. . . .1 Soient B1 . le n-uplet (X1 . . Xn sont ind´pendantes. . . pour tout i ∈ e {1. . . e e Si X1 .

on peut construire une v. . PXn (dxn ) fi (xi ) PXi (dxi ) i=1 n Ei = = i=1 E[fi (Xi )]. les composantes e e e e e Y1 . X2 ) = 0. . Yn ) ` e a n valeurs dans R dont la loi est µ1 ⊗ · · · ⊗ µn . µn . r´elles ind´pendantes de lois respectives µ1 . et n E[X1 · · · Xn ] = E[Xi ]. e e e comme on l’a observ´ dans le Chapitre 8. . r´elles ind´pendantes et dans L1 . e e En particulier. . . et soient µ1 .. .Xn ) = PX1 ⊗ · · · ⊗ PXn . . dans L1 n’est pas dans L1 (l’ind´pendance est e e e une propri´t´ tr`s particuli`re). ind´pendantes. et on a alors aussi a n n E i=1 |fi (Xi )| = i=1 E[|fi (Xi )|] < ∞ ce qui justifie l’existence du terme de gauche dans la formule pr´c´dente. .En comparant avec (9.a. .. on a aussi e e X1 · · · Xn ∈ L1 . ee e e Corollaire 9. i=1 Remarquons qu’en g´n´ral le produit de v. Le th´or`me ci-dessus montre aussi comment construire des v. Alors. . l’´galit´ e e n n E i=1 fi (Xi ) = i=1 E[fi (Xi )] reste vraie ` condition que E[|fi (Xi )|] < ∞ pour tout i ∈ {1.. .a. . Xn sont n v. . . .a. Y = (Y1 . n}. . Si les fonctions fi sont de signe quelconque. . e e e 112 . Mais comme on sait (lemme de classe monotone) qu’une mesure de e probabilit´ sur un espace-produit est caract´ris´e par ses valeurs sur les pav´s. µn des mesures de probabilit´ sur Rn .. e e e on a cov(X1 .2.a. .. . X2 ) = E[X1 X2 ] − E[X1 ]E[X2 ].a.a. on voit que X1 . .2 Si X1 . Cela d´coule de ce qui pr´c`de puisque cov(X1 . Yn de Y sont des v. Xn sont ind´pendantes si et seulement si les e e deux mesures de probabilit´ P(X1 . a La deuxi`me assertion est ensuite une cons´quence du th´or`me de Fubini-Tonnelli : e e e e n n E i=1 fi (Xi ) = E1 ×···×En i=1 n fi (xi ) PX1 (dx1 ) .. . .. si X1 . . . X2 sont deux variables al´atoires r´elles ind´pendantes et dans L2 . D’apr`s le th´or`me pr´c´dent..Xn ) et PX1 ⊗ · · · ⊗ PXn prennent les mˆmes valeurs sur e les pav´s F1 × · · · × Fn . cela ´quivaut e e e e e encore ` dire que P(X1 . . Cone e e sid´rons le cas de v. . .1). . r´elles. e e Remarques. .

. |X1 | serait ind´pendante de |X2 | = |X1 |. Xn n variables al´atoires r´elles. dxn = j=i Kj qi (xi ) = 1 qi (xi ). xn )dx1 . . . o` Ci > 0 est une constante. On peut par exemple choisir pour X1 une v. (ii) Inversement. Xn ) a e e une densit´ donn´e par e e n p(x1 . . si X2 = εX1 . la densit´ de Xi est e e pi (xi ) = Rn−1 p(x1 . . Xn u e e sont ind´pendantes et pour chaque i ∈ {1. Ki Cela permet de r´´crire la densit´ de (X1 .a. . . .2. . . r´elle X1 dont la loi a une densit´ not´e p(x) sym´trique (p(x) = p(−x)) et telle e e e e 2 2 que x p(x)dx < ∞ (de sorte que X1 ∈ L ).La r´ciproque du corollaire est fausse. e e (i) Supposons d’abord que. 1}. . xn ) = i=1 qi (xi ) = i=1 pi (xi ) 113 . . dxn .a. . e e Corollaire 9. ∞[ pour tout i ∈ {1. . . . . X2 ) = 0 alors que X1 et X2 ne sont pas ind´pendantes. et en particulier Ki := qi (x)dx) ∈]0. dxn = 1. . n}.a. . . e e C’est une contradiction puisque la loi de |X1 | a une densit´ donn´e par 2 p(x)1R+ (x).3 Soient X1 . Xn ) a une densit´ de la forme e n p(x1 . la loi de Xi a une densit´ pi qui s’´crit e e e pi = Ci qi .a. Alors. i=1 Pour la partie (ii). e ee dans L2 ) est beaucoup plus faible que l’ind´pendance. . . le th´or`me de Fubini-Tonnelli montre que e e n PX1 ⊗ · · · ⊗ PXn (dx1 . de loi N (0. . . . . . Or si une v. . . la loi de (X1 . pour tout i ∈ {1. on a n qi (x)dx = i=1 Rn p(x1 . . xn ) = i=1 pi (xi ). dxi−1 dxi+1 . . o` les fonctions qi sont bor´liennes positives sur R. . . Xn ) sous la forme ee e n n p(x1 . . . . r´elle est ind´pendante e e e e d’elle-mˆme. Ensuite. toujours ` l’aide du th´or`me de Fubinia e e Tonnelli. ` valeurs dans {−1. Soit ensuite ε une deuxi`me v. La premi`re partie est une cons´quence imm´diate du th´or`me ci-dessus. Xn sont ind´pendantes. . . dxn ) = pi (xi ) dx1 . Alors les variables al´atoires X1 . . . on remarque d’abord que. . . . . Pour donner un exemple. si X1 et X2 e l’´taient. puisque e e e e e si PXi (dxi ) = pi (xi )dxi . . Alors. . . on voit imm´diatement e que cov(X1 . . . La propri´t´ de covariance nulle (pour deux v. . u Preuve. . xn )dx1 . elle doit ˆtre constante p. xn ) = i=1 qi (xi ). . supposons que la loi de (X1 . . partons e d’une v. . ind´pendante de e a e 1 X1 et telle que P (ε = 1) = P (ε = −1) = 2 . . n}. . . et e e que les variables al´atoires X1 .a. d’apr`s un e r´sultat du Chapitre 8. . (exercice !) et donc sa loi est une mesure de Dirac. . . n}. . .s. . . . . σ 2). la loi de Xi a une densit´ not´e pi . . En effet.

Pour le voir calculons la loi du e e couple (X. an ∈ R. . . Exemple.. . a e e 114 . Xn sont ind´pendantes.u e et on voit que P(X1 . . . . Soit U une variable de loi exponentielle de param`tre 1 et soit V une variable e uniforme sur l’intervalle [0. . Si X1 . fn sont continues ` support compact de R dans R+ . . Remarque. Alors. . P (X1 ≤ a1 . il y a ´quivalence entre : e e e (i) X1 . . . Pour toute fonction ϕ mesurable positive sur R2 . . 1/2)). . ξn ) = i=1 ΦXi (ξi ) (pour montrer (iv)⇒(i). . . . . a n n E i=1 fi (Xi ) = i=1 E[fi (Xi )]. . 1]. y) e−x R2 dxdy. . r sin θ) re−r drdθ 2 −y 2 2 ϕ(x. (iii) Si f1 .. e (ii) Pour tous a1 . E[ϕ(X. Y ). Xn ≤ an ) = n i=1 P (Xi ≤ ai ). Y ) a pour densit´ π −1 exp(−x2 − y 2) qui a une forme e produit comme dans la partie (ii) de la proposition. utiliser l’injectivit´ de la transform´e de Fourier. e e Nous passons maintenant ` un r´sultat technique tr`s utile. si on e d´finit e √ √ X = U cos(2πV ) . On obtient que la loi du couple (X. u sin(2πv)) e−u dudv 2π 1 π 1 = π = ϕ(r cos θ. Xn sont n variables al´atoires r´elles. .. les deux variables al´atoires X et Y sont ind´pendantes. On suppose que U et V sont ind´pendantes. Y = U sin(2πV ). . (iv) La fonction caract´ristique de X est e n ΦX (ξ1 . Donc X et Y sont ind´pendantes (on e voit aussi que X et Y ont la mˆme densit´ e e 1 p(x) = √ exp(−x2 ) π et donc X et Y suivent chacune la loi N (0. cf Chapitre 8). . . .Xn ) = PX1 ⊗ · · · ⊗ PXn d’o` l’ind´pendance.. Y )] = 0 ∞ 0 ∞ 0 0 1 √ √ ϕ( u cos(2πv).

il suffit d’appliquer la proposition ci-dessus en prenant e pour Cj la classe des parties de la forme Bnj−1 +1 ∩ · · · ∩ Bnj o` Bi ∈ Bi pour tout i ∈ {nj−1 + 1. Bn sont ind´pendantes. Bn1 ) D2 = Bn1 +1 ∨ · · · ∨ Bn2 ··· Dp = Bnp−1 +1 ∨ · · · ∨ Bnp (not) sont ind´pendantes. Z 1 = X 1 X3 . . 3 Z 2 = X2 + X4 115 . Le lemme de classe monotone entraˆ que M1 contient σ(C1 ) = B1 . et d’autre part on voit facilement que M1 est une classe e monotone. . les tribus B1 . . . les v. . . . ∀C2 ∈ C2 . . Xnp ) sont ind´pendantes.a. . . e e Cons´quence. Si X1 . . les v. on fixe B1 ∈ B1 . . . . . . . . . . .2. Pour le voir. . Cn ∈ Cn et on pose M1 = {B2 ∈ B2 : P (B1 ∩ B2 ∩ C3 ∩ . Alors C1 ⊂ M1 par hypoth`se. . . si X1 . . . . . X4 sont des v. . Xn1 ). Pour continuer. Alors les tribus D1 = B1 ∨ · · · ∨ Bn1 = σ(B1 . . . . . n}. . M2 est une classe monotone qui contient C2 et donc aussi σ(C2 ) = B2 . . Yp = (Xnp−1 +1 . . Pour tout i ∈ {1. . . . . Supposons que ∀C1 ∈ C1 . P (Cn )}. . . . . ∩ Cn ) = P (B1 ) P (C2) . Fixons d’abord C2 ∈ C2 . . . e e e Exemple. Bn des sous-tribus de A. . . contenant Ω et telle que σ(Ci ) = Bi .4 Soient B1 . . . P (C1 ∩ C2 ∩ . on arrive facilement au r´sultat voulu. . r´elles ind´pendantes. Xn sont ind´pendantes. . . P (Cn ). ∀Cn ∈ Cn . . . A nouveau. C3 ∈ C3 . . .a. . . . . . . . . Soient B1 . ∩ Cn ) = P (B1 ) P (C2) . . u En particulier. et on a ıne montr´ e ∀B1 ∈ B1 . Alors. En raisonnant par r´currence. . . e Y1 = (X1 . Cn ∈ Cn . . . Regroupement par paquets. P (B1 ∩ C2 ∩ . ∩ Cn ) = P (C1) P (C2) . nj }. soit Ci ⊂ Bi une classe stable par intersections finies. Bn des tribus ind´pendantes. et posons M1 = {B1 ∈ B1 : P (B1 ∩ C2 ∩ . . . P (Cn )}. .Proposition 9. e Preuve. ∀Cn ∈ Cn . P (Cn ). . . e e et soient n0 = 0 < n1 < · · · < np = n. ∩ Cn ) = P (B1) P (B2 ) P (C3) .a. .

. {n ∈ N : ω ∈ An } est fini.2. .1 Soit (An )n∈N une suite d’´v´nements.5 Soit (Xn )n∈N une suite de variables al´atoires ind´pendantes. .s. Xp ) = B1 C2 = ∞ k=p+1 B2 = σ(Xp+1 . 9. . . . Xp+2 . . e e pour tout entier p ∈ N.3 Le lemme de Borel-Cantelli ∞ n=0 ∞ k=n Si (An )n∈N est une suite d’´v´nements on note e e lim sup An = et lim inf An = Ak ∞ n=0 ∞ k=n Ak Lemme 9. Soit (Bi )i∈I une famille quelconque de sous-tribus e de A. e e p. . sont ind´pendantes. . . . e Preuve. . e Ind´pendance d’une famille infinie. . On dit que cette famille est ind´pendante si pour tout sous-ensemble fini {i1 . Xp ) . . cette famille est dite ind´pene e dante si la famille de tribus (σ(Xi ))i∈I l’est. les tribus Bi1 . . . les deux tribus B1 = σ(X0 . Xp+2 . . e e (i) Si n∈N P (An ) < ∞. ip } e e de I. . Xk ) ⊂ B2 et en remarquant que l’hypoth`se est satisfaite grˆce au principe du regroupement par pae a quets. . .3. Il suffit d’appliquer la proposition pr´c´dente en prenant e e C1 = σ(X0 . 116 . . . Proposition 9. .) σ(Xp+1.sont ind´pendantes. alors P (lim sup An ) = 0 ou de mani`re ´quivalente. Alors. Bip sont ind´pendantes. Si (Xi )i∈I est une famille quelconque de variables al´atoires.

not´e P . . notons Ap = pN l’ensemble des multiples de p. avec 0 < P (A) < 1. il est facile de voir que les Ap . e e p. en passant au compl´mentaire. (1) Il n’existe pas de mesure de probabilit´ sur N telle que la probabilit´ e e de l’ensemble des multiples de n soit ´gale ` 1/n pour tout entier n ≥ 1. e P ce qui est le r´sultat voulu. ∩ Apk ) = P (p1 N ∩ . ∩ pk N) = P ((p1 . si p1 . {n ∈ N : ω ∈ An } est infini.s. pk )N) = = p1 . pk sont des nombres premiers distincts. j=1 . . on a aussi P et. supposons e a qu’il existe une telle probabilit´. . . Soit P l’ensemble des nombres premiers et pour e e tout p ∈ P. En effet. . . L’hypoth`se d’ind´pendance (ou une autre hypoth`se convenable) est n´cessaire e e e e dans (ii). En effet. (ii) Fixons d’abord n0 ∈ N. e Deux applications.(ii) Si n∈N P (An ) = ∞ et si les ´v´nements An sont ind´pendants. n n n P k=n0 Ac k = k=n0 P (Ac ) k = k=n0 (1 − P (Ak )). et observons que si n ≥ n0 . . e 1 P (Ap1 ∩ . P (Apj ). pk 117 k ∞ n0 =0 ∞ k=n0 ∞ n0 =0 ∞ k=n0 Ac k =0 Ak = 1. p ∈ P.s. alors e e e P (lim sup An ) = 1 ou de mani`re ´quivalente. u Preuve. . . comme le montre l’exemple trivial o` An = A pour tout n ∈ N. sont ind´pendants. (i) Si n∈N P (An ) < ∞. k Comme cela est vrai pour tout n0 ∈ N. Remarque. La divergence de la s´rie e P (Ak ) entraˆ alors que ıne P ∞ k=n0 Ac = 0. Alors. . . alors E n∈N 1 An = n∈N P (An ) < ∞ et donc n∈N 1An < ∞ p. .

. . ip ∈ {0. 2 Enfin. . . il suffit ici de v´rifier que. 1[. . . Xn (ω) = [2n ω] − 2[2n−1 ω]. 1}. . on sait que P (Ap ) = p∈P p∈P 1 = ∞. j=1 {X1 = i1 . . et soient i1 . 1}. j=1 j=1 −j ij 2−j + 2−p [. 1[). 1 P (Xn = 0) = P (Xn = 1) = . A. on pose ∀ω ∈ [0. k=1 ω= ∞ k=1 Xk (ω) 2−k .Par ailleurs. . 118 (9. e e pour tous i1 . . λ). ip ∈ {0. . . En effet. Xp = ip ) = p = 2 Or. . Les nombres Xk (ω) sont donc les coefficients du d´veloppement dyadique (propre) de ω. B([0. Alors Xn (ω) ∈ {0. d’o` le r´sultat voulu. et donc e est multiple d’une infinit´ de nombres premiers distincts. . . Xk+p = ip } = ∞. En e explicitant l’ensemble {Xn = 1} on montre facilement que pour tout n ≥ 1. . . Card{k ≥ 0 : Xk+1 = i1 . Xp = ip } = [ ij 2 . 1} et on v´rifie u e e e e ais´ment par r´currence sur n que.2) . on a 1 P (X1 = i1 . . . pour tout ω ∈ [0.s. on voit imm´diatement que e p p p P (Xj = ij ). P ) = ([0. le lemme de BorelCantelli permet de voir que p. . 1[. on observe que la suite (Xn )n≥1 est ind´pendante. Pour tout n ≥ 1. e e n 0≤ω− ce qui montre que Xk (ω)2−k < 2−n . Alors. C’est ´videmment absurde. o` [x] d´signe la partie enti`re d’un nombre r´el x. e e (2) Consid´rons le cas o` e u (Ω. u e Soit p ≥ 1 un entier quelconque. p On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque a e tout (au sens de la probabilit´ P ) entier n appartient ` une infinit´ d’ensembles Ap . 1[.

(De mani`re ´quivalente.2) sous la forme e p. Si µ et ν sont deux mesures de ee probabilit´ sur Rd . on note µ ∗ ν la mesure-image de µ ⊗ ν par l’application (x. En particulier. e e Puisqu’une r´union d´nombrable d’ensembles de probabilit´ nulle est encore de probae e e bilit´ nulle. et donc. Pour ´tablir (9. 1[. Rd Rd Rd Proposition 9. Nous regroupons d’abord quelques e e e propri´t´s importantes sous la forme d’une proposition. . Le principe du regroupement par paquets montre que la suite (Yn )n∈N est ind´pendante. 1[. pour tout entier n ∈ N. En particulier. et seront ´tudi´es dans le chapitre suivant.Cela montre qu’une suite finie donn´e de 0 et de 1 apparaˆ une infinit´ de fois dans e ıt e le d´veloppement dyadique de presque tout (au sens de la mesure de Lebesgue) r´el de e e l’intervalle [0.4. Xk+p = ip } = ∞.s. KX+Y = KX + KY . n’importe quelle suite finie de 0 et de 1 e apparaˆ une infinit´ de fois dans le d´veloppement dyadique de x. . Card{k ≥ 0 : Xk+1 = i1 . si X a une densit´ not´e pX et Y a une e e densit´ not´e pY . il suffit de poser. e e Les sommes de variables al´atoires ind´pendantes jouent un rˆle important en th´orie des e e o e probabilit´s. . e e e (ii) La fonction caract´ristique de X+Y est ΦX+Y (ξ) = ΦX (ξ)ΦY (ξ). e e e d si µ et ν sont deux mesures de probabilit´ sur R .) e ˆˆ (iii) Si X et Y sont de carr´ int´grable. . ∀p ≥ 1. y) −→ x + y : e pour toute fonction mesurable positive ϕ sur Rd . . e e var(X + Y ) = var(X) + var(Y ). pour e toute fonction mesurable positive ϕ sur Rd . Xnp+p ). . Xnp+2. . . µ ∗ ν = µ ν . ϕ(z) µ ∗ ν(dz) = ϕ(x + y) µ(dx)ν(dy). on sait que P(X. (i) Si X et Y sont ind´pendantes. Preuve. ıt e e 9. .4 Sommes de variables al´atoires ind´pendantes. ∀i1 . si d = 1. . . . (i) La loi de X + Y est PX ∗ PY . E[ϕ(X+Y )] = ϕ(x+y) P(X. .2).Y ) (dxdy) = ϕ(x+y) PX (dx)PY (dy) = 119 ϕ(z) PX ∗PY (dz) . . X + Y a pour densit´ pX ∗ pY . . ip ∈ {0. ip )} qui sont ind´pendants et tous de probabilit´ 2−p . on peut renforcer (9. . 1}.Y ) = PX ⊗ PY . e Yn = (Xnp+1. pour presque tout r´el x de [0. Autrement dit. et e le r´sultat recherch´ d´coule d’une application du lemme de Borel-Cantelli ` la suite des e e e a ´v´nements e e An = {Yn = (i1 .1 Soient X et Y deux variables al´atoires ind´pendantes ` valeurs dans e e a Rd .

on a e e e e 1 L2 (X1 + · · · + Xn ) −→ E[X1 ]. . ce qui montre bien que X + Y a pour densit´ pX ∗ pY (remarquer que pX ∗ pY est ici bien e d´finie presque partout comme convolution de deux fonctions de L1 (Rd .2 (Loi faible des grands nombres) Soit (Xn )n≥1 une suite de variables e e 2 al´atoires r´elles ind´pendantes et de mˆme loi. e e e cov(Xi + Yi. La preuve montre que le r´sultat reste vrai sous des hypoth`ses bien plus faibles. .a. Th´or`me 9. n→∞ n e e Preuve. . alors que d’un point de vue probabiliste il est plus significatif e e d’avoir une convergence presque sˆ re. j ∈ {1. Si de plus X et Y ont une densit´. Alors on a presque sˆrement u 1 (X1 + · · · + Xn ) −→ E[X1 ]. Xj ) + cov(Yi . il suffit qu’on ait cov(Xn . Yj ) ce qui donne bien KX+Y = KX + KY . d}. l’ind´pendance de X et Y entraˆ que e ıne cov(Xi . .3 Reprenons les hypoth`ses du th´or`me pr´c´dent. qui sera consid´rablement am´lior´ dans le chapitre suivant. . Xn ont mˆme loi. Xd ) et Y = (Y1 . Xj + Yj ) = cov(Xi .4. . λ)).4. (iii) Si X = (X1 . Xm ) = 0 d`s que n = m. En cons´quence. Nous donnons un premier ´nonc´ e e e allant dans ce sens. E En cons´quence. . e e Au lieu de supposer que les v. n 1 1 = 2 var(X1 + · · · + Xn ) = 2 n n n var(Xj ) = j=1 1 var(X1 ) n Remarque. Au lieu de l’ind´pendance. . et supposons de plus e e e e e 4 que E[X1 ] < ∞. . par bilin´arit´. . e e E[ϕ(X + Y )] = ϕ(x + y) pX (x)pY (y)dxdy = ϕ(z) pX (x)pY (z − x)dx dz. il suffit de demander que E[Xn ] = E[X1 ] e 2 e e pour tout n et que la suite E[Xn ] soit born´e. .par d´finition de PX ∗ PY . . e Le mot “faible” dans la loi faible des grands nombres renvoie au fait que la convergence du th´or`me a lieu dans L2 . Si E[X1 ] < ∞. Yd ). Par lin´arit´. e E 1 (X1 + · · · + Xn ) − E[X1 ] n 2 1 (X1 + · · · + Xn ) = E[X1 ]. n→∞ n 120 qui tend vers 0 quand n → ∞. c’est-`-dire une convergence simple en dehors d’un u a ensemble de probabilit´ nulle (on parle alors de loi forte). Yj ) = 0 pour tous i. ce qui est beaucoup plus faible. e (ii) Il suffit d’´crire e ΦX+Y (ξ) = E[eiξX eiξY ] = E[eiξX ] E[eiξY ] = ΦX (ξ)ΦY (ξ). e e e Proposition 9. .

on trouve e C 1 1 4 2 2 E[( (X1 + · · · + Xn ))4 ] = 4 nE[X1 ] + 3n(n − 1)E[X1 X2 ] ≤ 2 n n n pour une certaine constante C < ∞. e e e pour tous i1 .. ... i1 . . ip ∈ {0. .i4 ∈{1.n} En utilisantl’ind´pendance et la propri´t´ E[Xk ] = 0. e e e e e on a n 1 p. a 1 1 E[( (X1 + · · · + Xn ))4 ] = 4 n n E[Xi1 Xi2 Xi3 Xi4 ]. Si p ≥ 1 est fix´. . .. .4 Si (An )n≥1 est une suite d’´v´nements ind´pendants de mˆme probabilit´. on obtient e E d’o` u 1 ( (X1 + · · · + Xn ))4 < ∞. .. X2p ). ip )} −→ p . qui a e e concernait le d´veloppement dyadique e ω= ∞ k=1 Xk (ω) 2−k d’un r´el ω ∈ [0. Y1 = (X1 . ıne ∞ Corollaire 9. i4 ) apparaˆ au moins deux fois dans ce quadruplet.4. n→∞ n i=1 Ce corollaire fait le lien entre notre approche axiomatique moderne et la d´finition hise torique de la probabilit´ comme fr´quence d’apparition d’un ´v´nement quand on r´p`te un e e e e e e grand nombre de fois une exp´rience al´atoire.s. Xp ). . on voit que les seuls termes non nuls e ee de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet (i1 . . . Y2 = e e (Xp+1. i2 . . 1 1 Card{j ≤ n : Yj (ω) = (i1 . . . . Alors. on a vu que les v.s. Quitte ` remplacer Xn par Xn − E[Xn ]..s. n→∞ 2 n 121 . On d´duit alors du corollaire que. . En utilisant le fait que les Xk ıt ont mˆme loi. ∞ ∞ 1 ( (X1 + · · · + Xn ))4 < ∞ . n n=1 ce qui entraˆ l’assertion de la proposition. . .. 1}. i3 . 1Ai −→ P (A1 )..a. dω p. n n=1 p.Preuve. . on peut supposer que E[Xn ] = 0. 1[. n n=1 En intervertissant somme et esp´rance. . sont ind´pendantes et de mˆme loi. Il en d´coule que e 1 E[( (X1 + · · · + Xn ))4 ] < ∞. e e Revenons ` la deuxi`me application du lemme de Borel-Cantelli donn´e ci-dessus.

Xℓ+1 . µt (ξ) = exp(−tϕ(ξ)). . . ˆ • si I = R. pour presque tout r´el ω de [0. on montre qu’un objet pris au hasard (selon une loi de ee probabilit´ bien choisie) v´rifie les propri´t´s en question. le moyen le plus rapide pour prouver ee que de tels r´els existent est tr`s certainement le raisonnement qui pr´c`de.5 Pour que (µt )t∈I soit un semigroupe de convolution. . on a aussi. . X(j+1)p+ℓ−1 (ω) = ip } −→ p . . L’interpr´tation probabiliste est que si X a pour loi µt . X2p+ℓ−1). . Xp+ℓ+1. . . . . On e e dit que (µt )t∈I est un semigroupe de convolution si µ0 = δ0 et si µt ∗ µt′ = µt+t′ . la fr´quence d’apparition de n’importe e e quel bloc de longueur finie de 0 et de 1 dans le d´veloppement dyadique de ω existe et est e ´gale ` 2−p si p est la longueur du bloc. . . Xk+p (ω) = ip } −→ p . 1[ sauf sur un ensemble de mesure nulle : 1 1 Card{k ≤ n : Xk+1 (ω) = i1 . pour tout ω ∈ [0. 1[. le mˆme argument appliqu´ aux v. ˆ La preuve est imm´diate puisque si µt a la forme donn´e. . . Semigroupes de convolution Soit I = N ou I = R+ . . . ∀t ∈ I. n→∞ 2 n 1 1 Card{k ≤ n : Xk+1 (ω) = i1 .a. .4. Xp+ℓ−1). µt (ξ) = ϕ(ξ)t . e e ee ∀p ≥ 1. t′ ∈ I. . ∀i1 . Comme une r´union d´nombrable d’ensembles de probabilit´ nulle est encore de probabilit´ e e e e nulle. . Xk+p (ω) = ip } −→ p . ip ∈ {0. il suffit qu’il existe une fonction ϕ : R −→ C telle que : • si I = N. conduit ` a dω p.4. on a imm´diatement e ˆ e e ˆ ˆ µt+t′ = µt µt′ = µt ∗ µt′ ˆ et l’injectivit´ de la transform´e de Fourier donne µt+t′ = µt ∗ µt′ . e e (Xp+ℓ . . . 1 1 Card{j ≤ n : Xjp+ℓ(ω) = i1 . e Lemme 9. 1}. . . n→∞ 2 n En combinant ces r´sultats on trouve e dω p. ∀t ∈ I.1 Soit (µt )t∈I une famille de mesures de probabilit´ sur R (ou sur Rd ). alors X + Y a pour loi µt+t′ (cf la premi`re proposition de cette partie).s. Remarquons qu’il n’est pas facile d’exhiber un r´el e a e ω pour lequel la propri´t´ (9.s. (Xℓ . . . . p}. Y a pour loi µt′ et si X et Y sont e e ind´pendantes. . . En fait. .3) soit vraie. Ceci est typique e e e e de l’application des probabilit´s ` des probl`mes d’existence : pour ´tablir l’existence d’un e a e e objet ayant certaines propri´t´s. ∀t. e e 122 . .Pour chaque ℓ ∈ {1. . D´finition 9. n→∞ 2 n (9.3) Autrement dit.

pour tout t ∈ R+ . (On se ram`ne au cas m = m′ = 0 en e consid´rant X − m et X ′ − m′ . 123 . Alternativement on peut utiliser le lemme en remarquant que µn (ξ) = o ˆ iξ n (pe + 1 − p) . e • si X suit la loi gaussienne N (m. r´elles ind´pendantes et e e e • si X suit la loi de Poisson de param`tre λ et X ′ la loi de Poisson de param`tre λ′ . σ 2 + σ ′2 ). On a d´j` calcul´ dans ea e le Chapitre 8 tξ 2 µt (ξ) = exp(− ). t). σ 2 ) et X ′ suit la loi gaussienne N (m′ . alors e e ′ ′ X + X suit la loi de Poisson de param`tre λ + λ . alors X + X ′ suit la loi gaussienne N (m + m′ .) e Plus g´n´ralement toute combinaison lin´aire de variables al´atoires gaussiennes ind´pene e e e e dantes est encore gaussienne.a. (2) I = R+ et.Exemples. µn est la loi binˆmiale B(n. Si X et Y sont deux v. µt est la loi Gaussienne N (0. σ ′2 ). 1]). e µt (ξ) = ˆ ∞ k=0 tk ikξ −t e e = exp(−t(1 − eiξ )). k! (3) I = R+ et. p) (on a fix´ p ∈ [0. µt est la loi de Poisson de param`tre t. pour tout n ∈ N∗ . ˆ 2 Cons´quence importante. (1) I = N et. o e La propri´t´ µn+m = µn ∗ µm est imm´diate ` partir de l’interpr´tation probabiliste de ee e a e la loi binˆmiale. pour tout t > 0. Dans ce cas.

124 .

la formule d(X. et le th´or`me important reliant e e e cette convergence ` celle des fonctions caract´ristiques.Chapitre 10 Convergence de variables al´atoires e La premi`re partie de ce chapitre pr´sente les diff´rentes notions de convergence de variables e e e al´atoires. et les liens existant entre ces notions. permettent d’arriver au deuxi`me a e e th´or`me limite fondamental qui est le th´or`me central limite. Y ) = E[|X − Y | ∧ 1] 125 . d´finies sur un espace de e a e probabilit´ (Ω. e e e e 10. e e e e Le troisi`me paragraphe pr´sente la convergence en loi des variables al´atoires : ce type de e e e convergence est sans doute le plus d´licat ` comprendre. et on note e e Xn −→ X n→∞ si pour tout ε > 0. n→∞ (P) D´finition 10. en partie parce qu’il s’agit d’une e a convergence de mesures (ce sont les lois des variables al´atoires qui convergent et non les e variables elle-mˆmes). P ). P ) l’espace de toutes les variables al´atoires ` valeurs e a R d 0 dans R . n→∞ Lp et.1 Les diff´rentes notions de convergence e Soient (Xn )n≥1 .1. A.1 On dit que la suite (Xn ) converge en probabilit´ vers X. X des variables al´atoires ` valeurs dans Rd . qui est l’un des deux th´or`mes limites fondamentaux de la th´orie des probabilit´s. On a d´j` rencontr´ plusieurs notions de convergence de la suite (Xn ) e ea e vers X.1 Soit L0 d (Ω. et soit LRd (Ω.s.1. si P ({ω ∈ Ω : X(ω) = lim Xn (ω)}) = 1. n→∞ lim P (|Xn − X| > ε) = 0. A. Alors.s. Proposition 10. La notion de convergence en loi. En particulier Xn −→ X n→∞ p. On ´tablit ensuite la loi forte des grands e e nombres. pour p ∈ [1. P ) son quotient par la relation d’´quivalence X ∼ Y ssi X = Y e p. ∞[. A. Xn −→ X n→∞ si lim E[|Xn − X|p ] = 0.

(vers la mˆme limite). P ) qui est compatible avec la convergence en probabilit´.. Par construction. Inversement. On peut trouver une sous-suite Yk = Xnk telle que. k→∞ par convergence domin´e. De plus. e La preuve pr´c´dente montre en particulier que de toute suite qui converge en probabilit´ e e e on peut extraire une sous-suite qui converge p.s. Yk+1) ≤ 2−k ..s. Nous reprenons cette e propri´t´ dans l’´nonc´ suivant. X) −→ 0. u e 0 l’espace LRd (Ω. A. X) tend vers 0. Soit donc (Xn ) une suite de Cauchy a pour la distance d. X) ≤ ε.d´finit une distance sur L0 d (Ω.2 Si la suite (Xn ) converge p.1. la suite (Yk ) converge p. A. d(Yk .s. Yk+1) < ∞. et e e e ıne puisque ε ´tait arbitraire on a d(Xn . on a pour tout ε > 0. On d´finit ensuite une v. vers X. vers X. P ) est complet pour la distance d.a. X) = E[|Yk − X| ∧ 1] −→ 0. vers X. pour e tout ε ∈]0. si d(Xn . il existe e e une sous-suite (Xnk ) qui converge p. si la suite (Xn ) converge e en probabilit´ vers X. P (|Xn − X| > ε) ≤ ε−1 E[|Xn − X| ∧ 1] = ε−1 d(Xn .s. De plus. ou dans Lp . Alors E[ ∞ k=1 ∞ k=1 (|Yk+1 (|Yk+1 − Yk | ∧ 1)] = ∞ k=1 d(Yk . X) −→ 0. et cela est aussi e e vrai pour la suite de d´part (Xn ). e E[|Xn −X|∧1] ≤ E[|Xn −X|1{|Xn −X|≤ε} ]+E[(|Xn −X|∧1)1{|Xn −X|>ε} ] ≤ ε+P (|Xn −X| > ε). 1]. Inversement. cela entraˆ lim sup d(Xn .s. si la suite (Xn ) converge en probabilit´ vers X. Il est facile de v´rifier que d est une distance. Donc la suite (Yk ) converge en probabilit´ vers X. pour tout k ≥ 1. X) −→ 0. et cela entraˆ ıne d(Yk . ce qui entraˆ ıne − Yk | ∧ 1) < ∞ p.s. elle converge aussi en probabilit´ vers X. alors. k=1 (p. et donc aussi ∞ |Yk+1 − Yk | < ∞ p. Preuve. 126 . D’apr`s la d´finition de la convergence en probabilit´. e e R au sens o` une suite (Xn ) converge en probabilit´ vers X ssi d(Xn . il ne peut y avoir qu’un nombre fini de valeurs de k pour lesquelles |Yk+1 − Yk | ≥ 1). n→∞ Il reste ` voir que L0 est complet pour la distance d.s. ee e e Proposition 10. X dans L0 en posant e X = Y1 + ∞ k=1 (Yk+1 − Yk ).

on a pour tout p ∈ [1. ` valeurs dans des espaces mesurables quelconques.s. ind´pendantes et de mˆme loi. e ıne et la proposition ci-dessous donne des conditions qui permettent de d´duire la convergence e p L de la convergence en probabilit´. Pour la premi`re. e Proposition 10. convergeant en probabilit´ vers X. 127 . il vient e e d’o` le r´sultat annonc´ puisque ε est arbitraire. pour tout e p ∈ [1.a. o E[|Xn − X|p ] = E[|Xn − X|p 1{|Xn −X|≤ε} ] + E[|Xn − X|p 1{|Xn −X|>ε} ] ≤ εp + E[|Xn − X|r ]p/r P (|Xn − X| > ε)1−p/r ≤ εp + 2p C p/r P (|Xn − X| > ε)1−p/r .s. Si Xn converge dans L vers X. Par hypoth`se. En r´sum´ la convergence en probabilit´ est plus faible a la fois que la convergence p.2. Nous commen¸ons par un r´sultat a e e c e pr´liminaire important.1. vers e eaee e X. r[. Ensuite. r[ et tout ε > 0. Le e lemme de Fatou entraˆ alors E[|X|r ] ≤ C et donc X ∈ Lr . e Th´or`me 10.s. d(Xn .s. alors les moyennes n (X1 + · · · + Xn ) convergent p. k ≥ n).3 Soit (Xn ) une suite de v.Preuve. X) ≤ Xn − X 1 p ≤ Xn − X p n→∞ −→ 0. Preuve. e d(Xn . Supe posons qu’il existe r ∈]1. Alors. mais nous cherchons e e e maintenant ` l’´tablir sous des hypoth`ses optimales. lim sup E[|Xn − X|p ] ≤ εp n→∞ En utilisant l’hypoth`se de convergence en probabilit´. Pour tout n ≥ 1 soit Bn e a la tribu Bn = σ(Xk . ∞[ tel que la suite (Xn ) soit born´e dans Lr . en utilisant l’in´galit´ ıne e e de H¨lder. la convergence en probabilit´ entraˆ la convergence p. il existe une constante C telle que E[|Xn |r ] ≤ C pour tout n. ∞[ (et a fortiori pour p = ∞). et e e e ` que la convergence dans Lp pour n’importe quel p ∈ [1. Dans l’autre sens. La deuxi`me assertion a d´j` ´t´ vue.2 La loi forte des grands nombres Notre objectif est de montrer que si (Xn ) est une suite de v. si Xn converge p. n→∞ par convergence domin´e. vers E[X1 ]. e e 1 1 dans L . pour une sous-suite. X) = E[|Xn − X| ∧ 1] −→ 0.a. Nous avons d´j` ea 4 obtenu ce r´sultat sous l’hypoth`se suppl´mentaire que E[|X1 | ] < ∞.1 (Loi du tout ou rien) Soit (Xn )n≥1 une suite de variables al´atoires e e e ind´pendantes. la suite (Xn ) converge vers X dans Lp . u e e 10.

e u Preuve. posons e S n = X1 + X2 + · · · + X n . 128 . des entiers n arbitrairement grands tels que Sn = 0. Proposition 10. r´elle mesurable par rapport ` une tribu grossi`re est e e e a e constante p. En particulier. En particulier.a. nous e donnons d’abord une application plus facile au jeu de pile ou face.). ∀B ∈ B∞ .s. r´elles ind´pendantes. ce qui n’est possible que si P (B) = 0 ou 1. un autre r´sultat du Chapitre n=1 9 permet alors de conclure que B∞ est ind´pendante de e σ ∞ n=1 Dn = σ(Xn . si on sait que la suite n (X1 + · · · + Xn ) converge p. donc a e e fortiori de B∞ . n ≥ 1). de mˆme e e e 1 loi donn´e par P (Xn = 1) = P (Xn = −1) = 2 .2 Soit (Xn )n≥1 une suite de variables al´atoires ind´pendantes . Il e e e e a e e est facile de voir que la v. 1 lim sup (X1 + · · · + Xn ) n→∞ n est mesurable par rapport ` B∞ . Alors.s. B∞ est ind´pendante d’elle-mˆme. Pour tout n ≥ 1. la limite est constante (p. et pour tout B ∈ B∞ . k ≤ n).a.s. au sens o` P (B) = 0 ou 1 pour tout B ∈ B∞ . On a observ´ dans le Chapitre 9 que pour tout n. (sa fonction de r´partition ne peut prendre que les deux valeurs 0 ou 1). ∀A ∈ ∞ n=1 Dn . Posons Dn = σ(Xk . P (B) = P (B ∩B) = e e 2 P (B) .Alors la tribu asymptotique B∞ d´finie par e B∞ = ∞ n=1 Bn est grossi`re. sup Sn = +∞ et inf Sn = −∞. ∞]) a ıne a 1 est constante p.a.s. Ainsi. et cela entraˆ que cette variable (` valeurs dans [−∞. e Puisque la classe ∞ Dn est stable par intersections finies. il existe p. Avant d’utiliser la loi du tout ou rien pour ´tablir la loi forte des grands nombres.2.s. Dn est ind´pendante de Bn+1 . On v´rifie ais´ment qu’une v. P (A ∩ B) = P (A)P (B). p.s. On e peut appliquer le th´or`me pr´c´dent ` toute suite (Xn )n≥1 de v. n≥1 n≥1 En particulier.

On commence par montrer que. n En effet.s.3 (Loi forte des grands nombres) Soit (Xn )n≥1 une suite de variables e e al´atoires ind´pendantes. Sn prend tantˆt des valeurs positives o tantˆt des valeurs n´gatives. a Nous passons maintenant au r´sultat principal de ce paragraphe. Sn repr´sente le gain (positif ou n´gatif) accumul´ apr`s e e e e e n instants. dans L1 . e e e 1 p. Pour conclure. e Th´or`me 10.2. n n Un argument de sym´trie montre que e P ({inf Sn = −∞}) = P ({sup Sn = ∞}) n n et d’apr`s ce qui pr´c`de ces deux probabilit´s sont strictement positives. P (−p ≤ inf Sn ≤ sup Sn ≤ p) = 0. n n d’o` u P ({inf Sn = −∞} ∪ {sup Sn = ∞}) = 1. Alors. n n et en particulier P ({inf Sn = −∞}) + P ({sup Sn = ∞}) ≥ 1. e e e En faisant tendre p vers ∞. La proposition montre que quand n → ∞. on trouve P ({inf Sn > −∞} ∩ {sup Sn < ∞}) = 0. n→∞ n 129 . La loi du tout ou rien montre alors que P ({supn Sn = ∞}) = 1. n n Pour cela on fixe un entier k > 2p. de plus en plus grandes en valeur absolue. ce qui donne le r´sultat annonc´. o e Preuve. et on remarque que ∞ j=0 {Xjk+1 = Xjk+2 = · · · = Xjk+k = 1} ⊂ ({−p ≤ inf Sn ≤ sup Sn ≤ p})c . on e e e e remarque que {sup Sn = ∞} ∈ B∞ . {sup Sn = ∞} = {sup(Xk + Xk+1 + · · · + Xn ) = ∞} ∈ Bk n n≥k et donc l’´v´nement {supn Sn = ∞} est mesurable par rapport ` l’intersection des tribus Bk . (X1 + · · · + Xn ) −→ E[X1 ]. n n Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements analogues) montre que l’ensemble de gauche a probabilit´ 1. pour tout entier k ≥ 1.En d’autres termes si on imagine un jeu o` ` chaque instant entier le joueur gagne ou ua perd un Euro avec probabilit´ 1/2. pour tout entier p ≥ 1. e e a c’est-`-dire B∞ . de mˆme loi.

(i) L’hypoth`se d’int´grabilit´ est optimale dans le sens o` elle est n´cessaire e e e u e pour que la limite E[X1 ] soit bien d´finie (et finie). n→∞ n p. Xn sont positives e u et E[X1 ] = ∞. En effet.a.a. il en d´coule aussitˆt que e e e o 1 lim sup Sn ≤ a . Soit a > E[X1 ].s.1). ∞]. on obtient l’in´galit´ inverse c e e lim inf n→∞ 1 Sn ≥ E[X1 ] . n p.s. Du point de vue probabiliste. 130 .Remarques. e e Pour conclure il suffira donc de montrer que P (M < ∞) > 0. avec les notations de la loi du tout a ou rien. e e (ii) On peut montrer que la convergence du th´or`me a aussi lieu dans L1 . ` valeurs dans [0. En consid´rant une suite de valeurs de a qui d´croˆ vers E[X1 ].s. n→∞ n p. Nous allons montrer que a M <∞. (10. S0 = 0.). Preuve.a. Nous ne donnerons e e pas la preuve ici (elle sera donn´e ` la fin du chapitre 12 en application de la th´orie des e a e martingales). on trouve alors e e ıt 1 lim sup Sn ≤ E[X1 ] . En rempla¸ant Xn par −Xn . . ou de mani`re ´quivalente que e e P (M = ∞) < 1. . On remarque d’abord que.s. . {M < ∞} = {sup(Sn − na) < ∞} = {sup(Sn − Sk − (n − k)a) < ∞} n∈N n≥k et de remarquer que le dernier ´v´nement est mesurable pour la tribu σ(Xk+1. Xn ∧ K. ce que nous ferons en raisonnant par l’absurde.s. Xk+2 . l’´v´nement {M < ∞} est dans la tribu B∞ . on montre facilement que 1 p. Pour all´ger les notations on pose Sn = X1 + · · · + Xn . (X1 + · · · + Xn ) −→ +∞ n→∞ n en appliquant le th´or`me aux v. p. il suffit d’´crire pour tout e e e entier k ≥ 0.1) Puisque l’in´galit´ Sn ≤ na + M est vraie pour tout n. c’est la convergence presque sˆ re qui a le plus u de signification. e e e e e e e e Il reste ` montrer (10. Dans le cas o` les v. et e M = sup(Sn − na) n∈N qui est une v. et l’´nonc´ du th´or`me d´coule de ces deux derni`res in´galit´s.

Mk )] = E[Mk ] − E[Mk+1 ] = E[Mk ] − E[Mk+1 ] ≤ 0 grˆce ` l’in´galit´ triviale Mk ≤ Mk+1 . .a. . ′ Puisque Mk a mˆme loi que Mk (et que ces deux v. . e e ′ Mk+1 = sup 0. qui sont domin´es en valeur absolue e a e ′ par |a − X1 | (rappelons que Mk ≥ 0). inf(a − X1 .a. Mk + X1 − a). Il vient alors ′ E[inf(a − X1 . x∈Rd 131 . Mk )] ≤ 0. . . M ′ ) = a − X1 p. ce qu’on peut encore r´´crire sous la forme ee ′ ′ Mk+1 = Mk − inf(a − X1 . .Commen¸ons par quelques notations. . . e e Par ailleurs. Xk+1) e ′ ont mˆme loi et d’autre part on peut ´crire Mk = Fk (X1 . . posons c Mk = sup (Sn − na). M et M ′ ont mˆme loi. . . sont clairement dans L1 ). 0≤n≤k ′ Alors Mk et Mk ont mˆme loi : en effet d’une part les vecteurs (X1 . On peut maintenant appliquer le th´or`me de a a e e e e ′ convergence domin´e ` la suite des v. et donc inf(a − X1 . ce qui est absurde puisqu’on a choisi a > E[X1 ]. on aurait aussi P (M ′ = ∞) = 1. puisque les v.s. k→∞ Si on avait P (M = ∞) = 1.3 La convergence en loi Rappelons que Cb (Rd ) d´signe l’espace des fonctions continues born´es de Rd dans R. . Xk ) et Mk = Fk (X2 . Mk ). 0≤n≤k ′ Mk = sup (Sn+1 − S1 − na). Mais alors l’in´galit´ pr´c´dente donnerait e e e e e E[a − X1 ] ≤ 0. M ′ )] = lim E[inf(a − X1 . Mk ). . Cette contradiction termine la preuve. 1≤n≤k+1 ′ sup (Sn − na) = sup(0. . Il en d´coule que e e e M = lim ↑ Mk k→∞ et ′ M ′ = lim ↑ Mk k→∞ ′ ont aussi mˆme loi (´crire P (M ≤ x) = lim ↓ P (Mk ≤ x) = lim ↓ P (Mk ≤ x) = P (M ≤ x)).a. . on trouve e ′ ′ E[inf(a − X1 . il d´coule des d´finitions que pour tout k ≥ 1. . Xk ) et (X2 . Pour tout entier k ∈ N. qu’on e e munit de la norme sup ϕ = sup |ϕ(x)|. Xk+1) e e k avec la mˆme fonction (d´terministe) Fk : R −→ R. 10.

Exemples.1 Une suite (µn ) de mesures de probabilit´ sur Rd converge ´troitement e e e vers une mesure de probabilit´ µ sur Rd (on note µn −→ µ) si e ∀ϕ ∈ Cb (Rd ) . 2n . alors p est une densit´ de probabilit´ sur Rd . σn ) et si σn −→ 0.a.a. pn (x) ≤ q(x) . alors Xn converge en loi vers X a si et seulement si ∀x ∈ Zd . Ce r´sultat d´coule de l’approximation de l’int´grale d’une fonction continue par e e e ses sommes de Riemann. Une suite (Xn ) de v. constante ´gale ` 0. n→∞ Remarques.3. les ´l´ments du dual ´tant vus comme des fonctions sur ee e Cb (Rd )). . q(x)dx < ∞ et dx p. ` valeurs dans Rd converge en loi vers une v. X ` valeurs dans Rd a a e e a (on note Xn −→ X) si la suite (PXn ) converge ´troitement vers PX . e a 132 .a.p. Cela e e d´coule du th´or`me de convergence domin´e. e Notons aussi qu’on peut consid´rer la convergence en loi de v.a. (i) Il y a un abus de langage ` dire que la suite de v. . 2 (d) Si Xn est de loi gaussienne N (0. et il faudra ´videmment comprendre que la suite (PXn ) converge ´troitement vers µ). Xn et X sont ` valeurs dans Zd . d´finies sur des espaces de e e probabilit´ diff´rents (ici nous supposerons toujours implicitement qu’elles sont d´finies sur e e e le mˆme espace de probabilit´). ce qui rend la convergence en loi tr`s diff´rente des autres e e e e convergences discut´es ci-dessus. ` densit´. ce qui sera ´tabli plus tard.a. qu’on peut remplacer Cb (Rd ) par Cc (Rd ) dans la d´finition de la convergence e e ´troite). (loi) (e) ϕ dµn −→ n→∞ ϕ dµ.a. (Xn ) converge en loi vers a X. Rd dx p.p. et Xn converge en loi vers la loi p(x)dx.D´finition 10. et s’il existe une fonction q ≥ 0 telle que ∀n . alors Xn converge en loi vers la v. La convergence ´troite correspond alors ` la topologie faible * sur le dual e a (topologie de la convergence simple. e (b) Si les Xn sont des v.a. PXn (dx) = pn (x)dx. si on suppose a e pn (x) −→ p(x) . alors Xn converge en loi vers la loi uniforme 2 sur [0. car la v. (a) Si les v. 1]. .a. e (ii) L’espace des mesures de probabilit´ sur Rd peut ˆtre vu comme un sous-ensemble du e e d ∗ dual Cb (R ) . 2n }. . E[ϕ(Xn )] −→ E[ϕ(X)]. P (Xn = x) −→ P (X = x) n→∞ (l’implication ⇐ demande un petit raisonnement : l’argument est facile si on sait. e e e e n 1 2 (c) Si Xn est de loi uniforme sur { 2n . (Xn ) converge en loi vers µ mesure de probabilit´ e e d e sur R . limite X n’est pas d´finie de mani`re unique : seule sa loi PX l’est (pour cette e e raison on ´crira parfois qu’une suite de v. Cela ´quivaut encore ` ∀ϕ ∈ Cb (Rd ) .a.

d’apr`s un r´sultat de la partie 1. 133 . raisonnons par l’absurde en supposant que Xn ne converge pas en loi e e vers X. il existe une sous-sous-suite (nkℓ ) e e e telle que (Xnkℓ ) converge p. Mais.3. il d´coule de e la propri´t´ (ii) de la proposition qui suit que pour tout ε > 0. Il existe un cas o` la r´ciproque de la proposition est vraie. Les quatre assertions e suivantes sont ´quivalentes. donc qu’il existe une fonction ϕ ∈ Cb (Rd ) telle que E[ϕ(Xn )] ne converge pas vers E[ϕ(X)]. vers X. La premi`re partie de la preuve donne alors une contradiction. ϕ(Xn ) converge p. ε) est la boule ouverte de centre a et de rayon ε. lim inf µn (G) ≥ sup lim inf n→∞ p n→∞ P (Xn ∈ B) −→ P (X ∈ B) ϕp dµn = sup p ϕp dµ = µ(G). on peut trouver une c suite (ϕp ) de fonctions continues born´es telles que 0 ≤ ϕp ≤ 1G et ϕp ↑ 1G (par exemple e ϕp (x) = p dist(x. pour toute fonction ϕ ∈ Cb (Rd ).a. En effet. e (i) La suite (µn ) converge ´troitement vers µ.1 Si la suite (Xn ) converge en probabilit´ vers X alors la suite (Xn ) e converge en loi vers X. (iii) Pour tout ferm´ F de Rd . e Proposition 10.s. lim inf µn (G) ≥ µ(G). il n’est pas toujours vrai qu’on ait pour tout bor´lien B de Rd (prendre B = {0} dans l’exemple (d) ci-dessus).2 Soient (µn ). Supposons d’abord que Xn converge p. On a cependant e le r´sultat suivant. C’est exactement dire que Xn u converge en probabilit´ vers a. Remarque. Alors.s. limite X est constante (p. vers X. On peut trouver une sous-suite (nk ) et ε > 0 tels que |E[ϕ(Xnk )] − E[ϕ(X)]| ≥ ε pour tout k. Gc ) ∧ 1 ). Commen¸ons par montrer (i)⇒(ii). si Xn converge en loi vers a ∈ R . Preuve. d’o` la convergence en loi recherch´e. vers ϕ(X) et donc le th´or`me de convergence domin´e e e e entraˆ E[ϕ(Xn )] −→ E[ϕ(X)].s. Si G est un ouvert de Rd . e Si (Xn ) est une suite de v.Proposition 10. µ des mesures de probabilit´ sur Rd .s. ıne u e Dans le cas g´n´ral. (iv) Pour tout bor´lien B de Rd tel que µ(∂B) = 0. e (ii) Pour tout ouvert G de Rd .).3. convergeant en loi vers X. Preuve. ee lim inf PXn (B(a. e lim µn (B) = µ(B). ε)) ≥ 1 n→∞ o` B(a.a. C’est le cas o` la u e u d v. Alors. e lim sup µn (F ) ≤ µ(F ).

Si B ∈ B(R ).L’´quivalence (ii)⇔(iii) est imm´diate par passage au compl´mentaire. Alors le th´or`me de e e Fubini montre que K K ◦ ◦ ◦ ϕ(x)µ(dx) = 0 1{t≤ϕ(x)} dt µ(dx) = µ(Etϕ )dt. Il d´coule de cette observation que la condition (ii) de la proposition est satisfaite pour e e µn = PXn et µ = PX lorsque G est un intervalle ouvert. Cons´quence. lim sup µn (B) ≤ lim sup µn (B) ≤ µ(B) lim inf µn (B) ≥ lim inf µn (B) ≥ µ(B).p. on a pour tout x ∈ R. Soit K > 0 tel que 0 ≤ ϕ ≤ K. Si µ(∂B) = 0 on a µ(B) = µ(B) = µ(B) et on obtient (iv). 134 . Quitte ` d´composer ϕ = a a e + − ϕ − ϕ on peut supposer ϕ ≥ 0. X si et seulement e e u si les fonctions de r´partition FXn (x) convergent vers FX (x) en tout point x o` FX est e continue. e K ϕ(x)µn (dx) = 0 µn (Etϕ )dt. Il reste ` montrer l’implication (iv)⇒(i). Dans e e ee l’autre sens. n→∞ ⊂ {x ∈ Rd : ϕ(x) = t}. et qu’il existe au plus une infinit´ d´nombrable Remarquons que e e de valeurs de t telles que µ({x ∈ Rd : ϕ(x) = t}) > 0 ∂Etϕ et par convergence domin´e on obtient e K ϕ(x)µn (dx) = 0 µn (Etϕ )dt −→ K 0 n→∞ µn (Etϕ )dt = ϕ(x)µ(dx). pour tout n. Donc (iv) entraˆ ıne µn (Etϕ ) −→ µ(Etϕ ) . Soit ϕ ∈ Cb (Rd ). lim sup FXn (x) ≤ FX (x).a. De mˆme. r´elles converge en loi vers une v. Il suffit ensuite d’´crire un ouvert quelconque comme r´union d´nombrable disjointe d’intervalles ouverts pour aboutir au e e r´sultat d´sir´. on observe que sous la condition de convergence des fonctions de r´partition (en e tout point o` FX est continue). e e e Rappelons la notation Cc (Rd ) pour l’espace des fonctions continues ` support compact a sur Rd . dt p. 1 (en effet il y a au plus k valeurs distinctes de t telles que µ({x ∈ Rd : ϕ(x) = t}) ≥ k ). u lim inf FXn (x−) ≥ FX (x−). 0 o` u Etϕ = {x ∈ Rd : ϕ(x) ≥ t}. L’implication ⇒ d´coule imm´diatement de la propri´t´ (iv) ci-dessus. e e e d Montrons que (ii) et (iii) entraˆ ınent (iv). Une suite (Xn ) de v.a.

u ee . d’o` la propri´t´ (ii). On suppose donc que la propri´t´ (iii) est satisfaite.3. a ee d si ϕ ∈ Cc (R ). Mais alors. ϕ dµn −→ n→∞ ϕ dµn −→ n→∞ ϕ dµ. sup |ϕ(x)| x∈R ϕ dµn − ϕ dµ ≤ sup |ϕ(x)| x∈R x∈R lim sup(1 − n→∞ fk dµn ) + (1 − fk dµ) = 2 sup |ϕ(x)| (1 − fk dµ) . Il suffit maintenant de faire tendre k vers ∞ pour trouver que ϕdµn converge vers ϕdµ. et on a ´tabli (i). e d Soit ϕ ∈ Cb (R ) et soit (fk ) une suite de fonctions dans Cc (Rd ) telles que 0 ≤ fk ≤ 1 et fk ↑ 1 quand k → ∞. e Il reste ` montrer (iii)⇒(ii). ϕdµn − ϕdµ − Donc. ϕfk dµn ≤ ϕfk dµ ≤ sup |ϕ(x)| x∈R 1− 1− fk dµn . Supposons ensuite que (ii) est satisfaite.Proposition 10. ϕ dµ. pour tout k ≥ 1. (iii) On a ∀ϕ ∈ H . Les propri´t´s e ee suivantes sont ´quivalentes : e (i) La suite (µn ) converge ´troitement vers µ. Alors pour tout k. Soit H un souse ensemble de Cb (Rd ) dont l’adh´rence (pour la norme sup) contient Cc (Rd ). k ≤ lim sup | ϕdµn − Comme k est arbitraire cela donne ϕdµn −→ 135 ϕdµ. fk dµ . ϕfk ∈ Cc (Rd ) et donc ϕfk dµn −→ Par ailleurs. lim sup n→∞ n→∞ ϕfk dµ. Ensuite. on peut pour chaque entier k ≥ 1 trouver une fonction ϕk ∈ H telle que ϕ − ϕk ≤ 1/k.3 Soient (µn ) et µ des mesures de probabilit´ sur Rd . pour tout k. Preuve. lim sup | n→∞ n→∞ ϕdµn − ϕdµ| ϕk dµn | + | ϕk dµn − ϕk dµ| + | ϕk dµ − ϕdµ| ≤ 2 . Il est ´vident que (i)⇒(ii) et (i)⇒(iii). e (ii) On a ∀ϕ ∈ Cc (Rd ) .

D’apr`s la proposition pr´c´dente. En fait on v´rifie ais´ment que cette convergence est uniforme sur R. Finalement. et puisque ces quantit´s sont born´es en module par 1. e e Par ailleurs. la d´finition mˆme de cette convergence assure que e e e ∀ξ ∈ Rd . D’abord. e e e Soit f ∈ Cc (R) et pour tout σ > 0 soit 1 x2 gσ (x) = √ exp(− 2 ). Pour all´ger l’´criture on traite seulement le cas d = 1. e 136 . une suite (Xn ) de variables al´atoires ` valeurs dans Rd converge e e e a en loi vers X si et seulement si ∀ξ ∈ Rd . n→∞ De mani`re ´quivalente. n→∞ Preuve.3. Puisque µn (ξ) → µ(ξ) pour tout ξ ∈ R. Supposons inversement que µn (ξ) → µ(ξ) pour tout ξ ∈ Rd et montrons qu’alors la suite (µn ) converge ´troitement vers µ. on peut utiliser la formule pr´c´dente e e e e et ` nouveau le th´or`me de convergence domin´e pour obtenir que a e e e gσ ∗ f dµn −→ n→∞ gσ ∗ f dµ. 2σ σ 2π Alors on a d´j` observ´ ` la fin du Chapitre 8 que gσ ∗ f converge simplement vers f quand ea ea σ → 0.Th´or`me 10. Alors l’adh´rence de H dans Cb (Rd ) contient Cc (Rd ) (on a remarqu´ que si f ∈ Cc (Rd ). ΦXn (ξ) −→ ΦX (ξ). soit H le sous-espace de Cb (Rd ) d´fini par e H = {ϕ = gσ ∗ f : σ > 0 et f ∈ Cc (Rd )}. Il suffit de montrer la premi`re assertion. cela suffit pour donner la e e e convergence ´troite de la suite (µn ) vers µ. si on suppose que la suite (µn ) e converge ´troitement vers µ. le th´or`me de convergence domin´e entraˆ que e e e ıne eiξx g1/σ (ξ)µn (−ξ)dξ −→ n→∞ eiξx g1/σ (ξ)µ(−ξ)dξ. µn (ξ) −→ µ(ξ).4 (L´vy) Une suite (µn ) de mesures de probabilit´ sur Rd converge ´troitee e e e e ment vers une mesure de probabilit´ µ sur Rd si et seulement si e ∀ξ ∈ Rd . e e gσ ∗ f − f tend vers 0 quand σ → 0) et on vient de montrer que ϕdµn −→ ϕdµ pour toute fonction ϕ ∈ H. on a vu dans la preuve du th´or`me e e e d’injectivit´ de la transform´e de Fourier (fin du Chapitre 8) que e e gσ ∗ f dν = f (x) gσ ∗ ν(x)dx = √ f (x) (σ 2π)−1 eiξx g1/σ (ξ)ν(−ξ)dξ dx. µn (ξ) = eiξ·x µn (dx) −→ n→∞ eiξ·x µ(dx) = µ(ξ). si ν est une mesure de probabilit´ sur R.

on s’int´resse alors ` la e a quantit´ e N 1 µ(A) = 1A (a(i)) N i=1 qui est la proportion d’individus dans la population dont le param`tre est dans A (par e exemple la proportion d’individus de plus de cinquante ans qui ont l’intention de voter Chirac et ont un revenu mensuel sup´rieur ` 2000 Euros). i=1 Par ailleurs. . Yn de variables al´atoires ind´pendantes de loi uniforme e e sur {1. . X2(ω). son revenu mensuel. cette loi est e 1 PX1 (A) = P (a(Y1) ∈ A) = N N 1A (a(i)) = µ(A). e e e a 137 . . La valeur du param`tre pour e e l’individu Yj est Xj = a(Yj ).4.). . .a. Ces variables peuvent repr´senter les r´sultats successifs d’une mˆme exp´rience al´atoire e e e e e r´p´t´e de mani`re ind´pendante. e e e on se donne une famille Y1 . Imaginons qu’on a une population de N individus e num´rot´s 1. . e e a e 1 n n δXj (ω) j=1 est proche de PX1 quand n → ∞. Pour rendre ceci pr´cis en termes math´matiques. . . Un probl`me statistique fondamental est d’estimer la loi e ee e e e de X1 ` partir de la donn´e de X1 (ω). la proportion calcul´e sur les individus de l’´chantillon est e e 1 n 1 1A (Xj (ω)) = n j=1 n n δXj (ω) (A) j=1 Finalement. . Si A ∈ B(Rd ). . e a Comme N est tr`s grand. . A l’individu i est attach´ un param`tre a(i) ∈ Rd (par exemple.4 10. il est hors de question de calculer exactement µ(A). . . la question de savoir si la proportion calcul´e sur l’´chantillon est proche de e e la proportion r´elle µ(A) se ram`ne ` v´rifier que la mesure. De plus. 2. Xn sont ´videmment ind´pendantes et de e e mˆme loi. . c e e a son intention de vote. . l’ˆge de l’individu.1 Deux applications La convergence des mesures empiriques Soit (Xn )n≥1 une suite de variables al´atoires ` valeurs dans Rd . a e Exemple : th´orie des sondages. . . ind´pendantes et de mˆme e a e e loi. N} (ce sont les individus de notre ´chantillon). . Le principe e d’un sondage est alors de choisir un ´chantillon de la population. L’entier N est suppos´ “tr`s grand” (on peut penser ` la population e e e e a fran¸aise). Le th´or`me suivant apporte une r´ponse ` cette question.10. . N . Xn (ω) pour une seule valeur de ω. . c’est-`-dire de prendre au e a hasard n individus (n grand mais petit devant N) en esp´rant que la proportion d’individus e choisis dans cet ´chantillon pour lesquels le param`tre est dans A sera proche de la mˆme proe e e portion calcul´e pour la population totale. X1 . Les v. etc. dite “mesure empirique”.

n i=1 i Alors.ω = δX (ω) . cela suffit pour dire que p. c’est-`-dire quel est l’ordre a a a de grandeur de la diff´rence e 1 (X1 + · · · + Xn ) − E[X1 ] n 138 . Si ϕ ∈ H. il faut que la mesure empirique µn. N est de l’ordre de 107 et n seulement de l’ordre de 103 ). n→∞ (e) Remarque. n→∞ p. On peut r´´crire cela sous la forme ee ϕ dµn.a. ` valeurs dans Rd .2 Le th´or`me central limite e e Soit (Xn )n≥1 une suite de variables al´atoires r´elles ind´pendantes et de mˆme loi. D’un point de vue pratique.ω la mesure de probabilit´ sur a e Rd d´finie par e n 1 µn.ω −→ p. ϕ dµn. ϕ(Xi ) assure que e 1 n n i=1 ϕ(Xi ) −→ E[ϕ(X1 )].s.4. µn. e e e e La loi forte des grands nombres montre que 1 p.ω converge e e e ´troitement vers PX1 .s.ω −→ PX1 .s.Th´or`me 10. D’apr`s une proposition du paragraphe pr´c´dent.ω −→ n→∞ ϕ dPX1 . En revenant a l’exemple donn´ avant l’´nonc´ ` e e e du th´or`me. (X1 + · · · + Xn ) −→ E[X1 ]. ∀ϕ ∈ H.ω soit “suffisamment proche” de PX1 pour e e des valeurs de n grandes mais petites devant la taille N de la population (en pratique.s. e 10. p. le th´or`me pr´c´dent n’a aucun int´rˆt si on n’a e e e e ee pas d’estimation de la vitesse de convergence. n→∞ ϕ dPX1 . µn.1 Soit (Xn )n≥1 une suite de variables al´atoires ind´pendantes et de mˆme e e e e e loi. quitte ` ´carter une r´union d´nombrable d’ensembles de probe ae e e abilit´ nulle.4.s. n→∞ n On cherche alors ` savoir ` quelle vitesse cette convergence a lieu. on obtient e p. soit µn. Soit H un sous-ensemble d´nombrable dense de Cc (Rd ). Pour tout ω ∈ Ω et tout n ≥ 1.s. dans L1 .. Puisque H est d´nombrable. Preuve. la loi forte des e grands nombres appliqu´e aux v.

D’apr`s un r´sultat du Chapitre 8. dans L2 . on remarque d’abord qu’on peut supposer E[X1 ] = 0. compte-tenu e e e e e de la formulation de la convergence en loi en termes des fonctions de r´partition (noter ici e que la fonction de r´partition de la variable limite est continue). n o` . on a utilis´ le fait que les v. quitte ` remplacer e e a Xn par Xn − E[Xn ]. σ 2) n→∞ n o` N (0. Soit σ 2 = var(X1 ). comme dans la preuve de la loi faible des grands nombres. e e e 1 (loi) √ (X1 + · · · + Xn − n E[X1 ]) −→ N (0. b ∈ R √ √ 1 lim P (X1 + · · · + Xn ∈ [nE[X1 ] + a n. 2σ 2 Preuve. De mani`re ´quivalente. tous a. nE[X1 ] + b n]) = √ n→∞ σ 2π b exp(− a x2 ) dx. e √ 1 ou encore que l’ordre de grandeur de n (X1 + · · · + Xn ) − E[X1 ] est 1/ n. on a donc aussi e ξ σ2 ξ 2 1 ΦX1 ( √ ) = 1 − + o( ) n 2n n 139 .quand n est grand. E[(X1 + · · · + Xn − n E[X1 ])2 ] = var(X1 + · · · + Xn ) = n var(X1 ). Xi sont ind´pendantes et de mˆme u e e e e e loi.a. pour u e e e e ¯ avec a < b. La deuxi`me partie de l’´nonc´ est une cons´quence de la premi`re. Sous l’hypoth`se suppl´mentaire que les variables Xi sont dans L2 . on devine la r´ponse e e e en calculant. dans la seconde ´galit´. Le th´or`me e e central limite rend ceci plus pr´cis. on a e e σ2 ξ 2 1 2 + o(ξ 2 ) ΦX1 (ξ) = 1 + iξE[X1 ] − ξ 2E[X1 ] + o(ξ 2 ) = 1 − 2 2 quand ξ → 0. σ 2 ) d´signe la loi gaussienne centr´e de variance σ 2 . Pour ξ ∈ R fix´.2 (Th´or`me central limite) Soit (Xn )n≥1 une suite de variables al´atoires e e e e e r´elles ind´pendantes et de mˆme loi.4. donc sugg`re fortement que l’ordre de grandeur de X1 + · · · + Xn − n E[X1 ] est n. Posons alors 1 Zn = √ (X1 + · · · + Xn ). n La fonction caract´ristique de Zn est e ΦZn (ξ) = E exp iξ( X1 + · · · + X n √ ) n ξ = E exp i √ X1 n n ξ = ΦX1 ( √ )n . Alors. Pour montrer la premi`re e e partie de l’´nonc´. Ce calcul indique que la valeur moyenne de (X1 + · · · + Xn − n E[X1 ])2 croˆ lin´airement ıt e √ avec n. e Th´or`me 10.

e e e Cas particulier : Th´or`me de de Moivre. X1 ). 2 Cette derni`re convergence peut ˆtre v´rifi´e directement (avec certains efforts) ` l’aide de e e e e a la formule de Stirling.a. . (X1 + · · · + Xn ) −→ E[X1 ]. Alors. pour tous a < b. . e e 140 . . On montre en fait un r´sultat plus pr´cis de la forme e e √ −n k n 2 Cn = 2 n 2 exp(− (k − )2 ) + o(1) π n 2 avec un reste o(1) uniforme quand k varie dans {0. ce qui est le r´sultat du th´or`me. il ne suffit pas pour a u obtenir la convergence en loi d’une suite de v. .s. . n→∞ n 1 d o` la limite E[X1 ] s’interpr`te ´videmment comme le vecteur (E[X1 ]. 1.a. . le th´or`me entraˆ que. . n}. Il e e e n’est pas aussi facile d’obtenir une version multidimensionnelle du th´or`me central limite : e e contrairement ` ce qui se passe pour la convergence presque sˆ re. nous devons e e e a commencer par g´n´raliser la notion de loi gaussienne. e e Pour ´tendre le th´or`me central limite au cas de v.4. . . P (Xn = 1) = P (Xn = 0) = 2 ) ind´pendantes. on a pour tout ξ ∈ R. Comme σ 2 = 1/4 dans ce cas particulier. 1 ) : o 2 k P (Sn = k) = Cn 2−n . On suppose que les Xn sont des variables e e 1 1 de Bernoulli de param`tre 2 (i. e e n→∞ lim ΦZn (ξ) = lim (1 − n→∞ 1 σ2 ξ 2 σ2ξ 2 + o( ))n = exp(− ) = ΦU (ξ). E[X1 ]) si on a u e e 1 d ´crit X = (X1 . e e ıne 2 −n √ √ n +a n≤k≤ n +b n 2 2 k Cn n→∞ −→ 2 π b a e−2x dx. En combinant avec ce qui pr´c`de. σ 2). ` valeurs dans Rd .a. Le th´or`me de L´vy permet maintenant de conclure que Zn e e e converge en loi vers U.e. 2n n 2 si U suit la loi N (0. .3 Extension au cas vectoriel Supposons maintenant que (Xn )n≥1 est une suite de variables al´atoires ind´pendantes de e e d mˆme loi ` valeurs dans R et int´grables. Alors e e Sn = X1 + · · · + Xn suit une loi binˆmiale B(n. Xn sont de carr´ int´grable.quand n → ∞. . ` valeurs dans Rd de savoir que chaque a suite coordonn´e converge en loi (on peut aussi remarquer que la loi de la limite n’est pas e d´termin´e par la connaissance de chacune de ses marginales). Supposons de plus que les v. 10. . on peut appliquer la loi forte des grands e a e nombres coordonn´e par coordonn´e pour obtenir e e 1 p.

et en utilisant le fait que E[Y t Y ] = Id puisque les e coordonn´es de Y sont des v. Soient ensuite Y 1 . Finalement. Id). grˆce ` la formule e e a a 2 pour la fonction caract´ristique d’une v. e Preuve. X d ) est une v. est appel´e vecteur gaussien centr´ de covaria e e e e ance C si 1 ∀ξ ∈ Rd . ξ · X suit la loi N (0. Une e a e e v. 2 On dit aussi que X suit la loi N (0. Y suit la loi N (0.3 Soit C une matrice sym´trique positive. . . C) on a E[X] = 0 et e e KX = C.a. Y . Pour le voir. ` valeurs dans e e a d 1 d R dont les coordonn´es sont Y . C). X ` valeurs dans Rd est un vecteur gaussien centr´ si et seulement si toute a e combinaison lin´aire de ses composantes est gaussienne centr´e : en effet on a alors E[eiξ·X ] = e e 1 1 t 2 exp(− 2 E[(ξ · X) ]) = exp(− 2 ξKX ξ). .a.a. . Soit Y la v. Y 1 . Y d d v. gaussienne centr´e. . X = AY suit la loi N (0.4.4. 1).a. Il existe un vecteur gaussien e centr´ de covariance C.1 Soit C une matrice d × d ` coefficients r´els. .a. Y d . Montrer que X a une densit´ si et seulement e e si KX est non d´g´n´r´e. σ 2) avec e e e σ 2 = E[(ξ · X)2 ] = E[t ξAY · t Y Aξ] = t ξA E[Y t Y ] Aξ = t ξA2 ξ = t ξCξ. on a pour tout u > 0. Soit a ∈ Rd . 1) ind´pendantes. Rappelons d’abord (voir la fin du Chapitre 9) qu’une combinaison lin´aire de v. de loi N (0. C). ΦX (ξ) = E[eiξ·X ] = exp(− t ξCξ). r´elles ind´pendantes de loi N (0. on a le d´veloppement limit´ e e e e d ΦX (ξ) = 1 + i j=1 ξj E[X j ] − 1 2 d d j=1 k=1 ξj ξk E[X j X k ] + o(|ξ 2|) quand ξ → 0. . Soit X un vecteur gaussien centr´. Alors.D´finition 10. e E[eiu ξ·X ] = exp(− u2 σ 2 u2 ) = exp(− t ξCξ) 2 2 Exercice. e e ee e 141 et en prenant u = 1 on a le r´sultat voulu. C) si X − a suit e e la loi N (0. e√ e On pose A = C de sorte que A est une matrice sym´trique positive et A2 = C. Remarque. . e gaussiennes ind´pendantes est encore gaussienne. On a vu dans le Chapitre 8 que si X = (X 1 . . X ` valeurs dans Rd . σ ). On dit plus g´n´ralement que X suit la loi N (a. C). .a. Pr´cis´ment. . et calculer alors la densit´ de X.a. de loi N (0. e Remarques. de carr´ int´grable. . e consid´rons ξ ∈ Rd et observons que ξ · X est une combinaison lin´aire des v.a. On en d´duit imm´diatement que si X suit la loi N (0. (i) Avec les notations de la preuve ci-dessus. . sym´trique positive. . ` valeurs dans Rd et a de carr´ int´grable. . (ii) Une v. . e e et est donc une v. . en calculant de mani`re matricielle.a.a. Proposition 10.

On peut supposer E[X1 ] = 0. pour e e tout ξ ∈ Rd . u e a e e e 142 . C’est la mˆme que dans le cas r´el. on sait que 1 1 t ξ ξKX1 ξ + o( ).4. E exp iξ · ( X1 + · · · + X n √ ) n ξ = E exp i √ · X1 n n ξ = ΦX1 ( √ )n . de carr´ int´grable. Alors. KX1 ) n→∞ n Preuve. ΦX1 ( √ ) = 1 − 2n n n On conclut que n→∞ lim E exp iξ · ( X1 + · · · + X n √ ) n = exp(− 1t ξKX1 ξ). e e e a e e 1 (loi) √ (X1 + · · · + Xn − n E[X1 ]) −→ N (0. 2 d’o` le r´sultat grˆce au th´or`me de L´vy.4 (Th´or`me central limite vectoriel) Soit (Xn )n≥1 est une suite de e e e e variables al´atoires ind´pendantes de mˆme loi ` valeurs dans Rd .Th´or`me 10. Ensuite. n D’autre part.

P ).a. l’esp´rance conditionnelle de e e X sachant B est d´finie par e E[X 1B ] . On peut d´finir une nouvelle probabilit´ sur (Ω. e e e e appel´e probabilit´ conditionnelle sachant B. utile dans ce cours d’un point de vue conceptuel surtout. P (B) De mˆme. l’esp´rance conditionnelle d’une variable al´atoire r´elle donn´e par rapport e e e e ` une sous-tribu est la variable al´atoire mesurable pour cette sous-tribu qui est la “plus a e proche” de la variable al´atoire donn´e. A). e a ee e Intuitivement. Soit e e e B ∈ A un ´v´nement tel que P (B) > 0. A. Y ` valeurs dans un espace E e e e a 143 . e e Nous cherchons ensuite ` d´finir l’esp´rance conditionnelle sachant une variable al´atoire a e e e (et non plus sachant un ´v´nement). Le calcul explicite des esp´rances conditionnelles. La notion de loi conditionnelle. A. Pour de nombreux probl`mes concrets (pr´diction. E[X | B] = P (B) Cette quantit´ est aussi l’esp´rance de X sous la probabilit´ P (· | B). e e e e observation incompl`te. pour toute v. P ).a. La d´finition axiomatique de cette notion (dans laquelle e e la “propri´t´ caract´ristique” joue un rˆle essentiel) est motiv´e par le cas discret trait´ dans ee e o e e le premier paragraphe.1 Conditionnement discret Comme dans les chapitres pr´c´dents on se place sur un espace de probabilit´ (Ω. ou pour X ∈ L1 (Ω. en posant pour tout A ∈ A. a 11. est introduite ` la fin du chapitre.) il est important de pouvoir estimer une variable al´atoire sur e e laquelle on n’a qu’une information partielle. etc. e e P (A | B) = P (A ∩ B) . qui est en g´n´ral e e e un probl`me difficile.Chapitre 11 Conditionnement Ce chapitre est consacr´ ` la construction et aux propri´t´s de l’esp´rance conditionnelle. X ≥ 0. et l’on comprend d`s lors l’importance de la e notion d’esp´rance conditionnelle. est illustr´ sur plusieurs cas. et elle s’interpr`te e e e e comme la valeur moyenne de X quand B est r´alis´. Consid´rons une v. dont le cas gaussien particuli`rement e e e important pour les applications.

qui e e donne la valeur moyenne de X quand on connait Y : p. les esp´rances conditionnelles (sachant une v. P (Y = y) D´finition 11. Y (ω) = 0 si ω est pair. e e e E[X | Y = y] = E[X 1{Y =y} ] . 1 6 pour tout ω ∈ Ω. Soit E ′ = {y ∈ E : P (Y = y) > 0}. . et pour toute v. Remarquons aussi que E[X | Y ] est une fonction de Y donc une v.s. P ). L’esp´rance conditionnelle de X sachant Y est e e la variable al´atoire r´elle d´finie par e e e E[X | Y ] = ϕ(Y ). E[X | Y ] ` e e a un ensemble de mesure nulle pr`s. 144 . Proposition 11. Z σ(Y )-mesurable born´e. comme cas particulier de ce qui pr´c`de. 4. . ou une tribu) seront toujours e d´finies ` un ensemble de probabilit´ nulle pr`s. o` la fonction ϕ : E −→ R est donn´e par u e ϕ(y) = E[X | Y = y] 0 si y ∈ E ′ .1 On a E[|E[X | Y ]|] ≤ E[|X|]. 6} et P ({ω}) = e Soient 1 si ω est impair. e E[ZX] = E[Z E[X | Y ]]. on peut d´finir.a. P ). P ).1. E[X | Y ](ω) = E[X | Y = y] . on observe que a e e l’esp´rance conditionnelle E[X | Y ] est maintenant une variable al´atoire : c’est la v.a. De plus.d´nombrable. Lancer d’un d´. et X(ω) = ω. σ(Y )-mesurable. A. si ω ∈ {2.1. pour toute v. puisque e e P (Y ∈ E\E ′ ) = P (Y = y) = 0.a. Dans les situations plus g´n´rales que nous rencontrerons e e e plus tard. si Y (ω) = y. e X ∈ L1 (Ω. E[X | Y ] ∈ L1 (Ω. Pour tout y ∈ E ′ . A. c’est la meilleure approximation de X par une fonction de e e Y. e a e e En comparant avec le conditionnement par rapport ` un ´v´nement. E[X | Y ](ω) = 3 4 si ω ∈ {1.a.1 Soit X ∈ L1 (Ω. si y ∈ E\E ′ . . Dans un sens qui sera pr´cis´ plus loin. Remarque.. Alors. y∈E\E ′ On pourrait changer la d´finition de ϕ sur E\E ′ et cela donnerait la mˆme v. En particulier. 5}. .a. On prend Ω = {1. A. 2. Exemple.a. Le choix de la valeur de ϕ sur E\E ′ est arbitraire : de toute fa¸on ce choix c n’influence la d´finition de E[X | Y ] que sur un ensemble de probabilit´ nulle. 3. 6}.

y∈E y∈E Cons´quence. pour toute variable al´atoire Z B-mesurable born´e e e e e E[X Z] = E[E[X | B] Z]. Si X ≥ 0 on a aussi E[X | B] ≥ 0. on utilise le fait qu’on peut ´crire Z = ψ(Y ). Cela montre aussi que u e e e la derni`re propri´t´ de la proposition caract´rise E[X | Y ] parmi les v. et soit X ∈ L1 (Ω. Alors. Si Y ′ est une autre v.a. qui est bien mesurable pour σ(Y ) = σ(Y ′ ) puisque E[X | Y ] et E[X | Y ′ ] le sont. on a e e E[X | Y ] = E[X | Y ′ ] p.a. 11. B. Le point crucial est le fait que E[X | B] est mesurable pour la tribu B.s. P ).2 11. D’apr`s la d´finition de l’esp´rance conditionnelle E[X | Y ].1 Soit B une sous-tribu de A.. A. not´e E[X | B].2) caract´rise l’esp´rance conditionnelle E[X | B] dans la classe ee e e 145 (11. e L’observation pr´c´dente conduit ` dire que la “bonne” notion de conditionnement est e e a la notion de conditionnement par rapport ` une tribu.1) On a plus g´n´ralement. et on obtient de mˆme l’autre in´galit´.Preuve. on a e e e E[|E[X | Y ]|] = P (Y = y) y∈E ′ |E[X 1{Y =y} ]| ≤ E[|X| 1{Y =y} ] = E[|X|]. on trouve E[1{E[X|Y ]>E[X|Y ′ ]} (E[X | Y ] − E[X | Y ′ ])] = 0 d’o` E[X | Y ] ≤ E[X | Y ′ ] p. telle que e e ∀B ∈ B . C’est cette notion que nous allons a d´velopper dans les paragraphes suivants en nous basant sur la propri´t´ de la proposition e ee ci-dessus. En effet. L’une ou l’autre des propri´t´s (11. en appliquant la proposition avec Z = 1{E[X|Y ]>E[X|Y ′ ]} . E[X 1B ] = E[E[X | B] 1B ].s. discr`te telle que σ(Y ) = σ(Y ′ ). e E[ψ(Y ) E[X | Y ]] = ψ(y) E[X 1{Y =y} ] = E[ψ(Y )X 1{Y =y} ] = E[ψ(Y )X]. avec une fonction e e ψ born´e.1 La d´finition de l’esp´rance conditionnelle e e Cas des variables int´grables e Th´or`me et d´finition 11.1) et (11. σ(Y )-mesurables e ee e et int´grables. Il e e e existe alors une unique variable al´atoire dans L1 (Ω.2. P (Y = y) y∈E Pour la derni`re assertion.2) . (11.2. P ).

P ) telles que c e ∀B ∈ B . E[X ′ 1B ] = E[X 1B ] = E[X ′′ 1B ]. Enfin. Preuve. Alors on v´rifie tr`s facilement e e que n En prenant B = Ω. B) d´finie e par ∀B ∈ B . (b) L’application X −→ E[X | B] est lin´aire.s. n Propri´t´s de l’esp´rance conditionnelle.1) ` (11. supposons d’abord X ≥ 0. n ]. B. B. Soit B la tribu engendr´e par e i−1 i 1 u e ee les intervalles ] n .des v. i ] . on voit que E[X] = E[X] < ∞.a. n}. il est imm´diat qu’on e e a Q ≪ P . En prenant B = {X ′ > X ′′ } (qui est bien B-mesurable puisque X ′ et X ′′ le sont). E[X | B] = X v´rifie la propri´t´ de l’´nonc´.a. . il suffit de e ee e e prendre E[X | B] = E[X + | B] − E[X − | B]. e e e (a) Si X est B-mesurable. dans L1 (Ω. 1] −→ R telle que 0 |f (ω)|dω < ∞. assure e e e donc l’existence d’une v. n n i=1 i f (ω)dω est la moyenne de f sur ] i−1 . 1]. donc X ∈ L1 (Ω. . le passage de (11. si on voit aussi P comme une mesure de probabilit´ sur (Ω. P ). Alors. n ]. E[X | B] = X. o` n ≥ 1 est fix´. et soit Q la mesure finie sur (Ω. Soient X ′ et X ′′ deux v. A = B(]0. ee e e Dans le cas particulier o` la tribu B est engendr´e par une variable al´atoire Y .2) et la proposition ci-dessus. on trouve E[(X ′ − X ′′ )1{X ′ >X ′′ } ] = 0 d’o` X ′ ≤ X ′′ p. E[f | B] = o` fi = n u i/n (i−1)/n fi 1] i−1 .. appliqu´ sur l’espace mesurable (Ω. Le th´or`me de Radon-Nikodym. A. Dans la suite nous ferons r´f´rence ` l’une ou l’autre comme ` la ee a a propri´t´ caract´ristique de l’esp´rance conditionnelle. B). Finalement. . Commen¸ons par l’unicit´. et de mˆme X ′ ≥ X ′′ p. de L1 (Ω. Prenons Ω =]0.s. u e Pour l’existence. e 146 . Lorsque X est de signe quelconque. B). X B-mesurable positive telle que ∀B ∈ B . Q(B) = E[X 1B ]. 1]) et P (dω) = dω. Un ´l´ment f de L (Ω.a. Cette notation est coh´rente avec le cas discret trait´ dans la partie pr´c´dente : comparer e e e e (11. e e Exemple. i ∈ {1. E[X 1B ] = Q(B) = E[X 1B ].2) se fait en utilisant l’approximation usuelle des fonctions a mesurables par des fonctions ´tag´es. P ). P ) est une 1 fonction mesurable f :]0. B. on ´crira u e e e indiff´remment e E[X | B] = E[X | σ(Y )] = E[X | Y ]. .

1). la propri´t´ e e ee (11. La formule e e e a p. X ∈ L (Ω. ∞] telles que E[X ′ Z] = E[X ′′ Z] pour toute v. Z B-mesurable positive.s. e α E[X | B] + α′ E[X ′ | B] satisfait la propri´t´ caract´ristique (11. De mˆme que dans le cas des variables int´grables. le th´or`me de convergence monotone e e entraˆ que ıne E[E[X | B]Z] = lim E[E[X ∧ n | B](Z ∧ n)] = lim E[(X ∧ n)(Z ∧ n)] = E[XZ]. Soient donc X ′ et X ′′ deux variables al´atoires B-mesurables ` ae e e a valeurs dans [0.. Ensuite. Enfin.s. ∞]. La croissance de la limite dans la d´finition de E[X | B] d´coule de la propri´t´ e e ee (e) ci-dessus.3) Dans le cas o` X est aussi int´grable. en comparant la derni`re propri´t´ du th´or`me u e e ee e e avec (11. on voit imm´diatement que l’on retrouve la mˆme d´finition de E[X | B] que e e e dans le paragraphe ci-dessus. P ) et α. si Z est B-mesurable positive. (d) |E[X | B]| ≤ E[|X| | B] p. e e e 11. e (e) X ≥ X ′ ⇒ E[X | B] ≥ E[X ′ | B] p.2. Il en va de e e e e e ′ 1 mˆme pour (b) en observant que. α′ ∈ R.2. ∞]. (e) est imm´diat par lin´arit´. (11.2 Cas des variables positives E[X | B] = lim ↑ E[X ∧ n | B] n→∞ Th´or`me 11. (a) d´coule imm´diatement de l’unicit´ dans le th´or`me ci-dessus.3) sera appel´e propri´t´ caract´ristique de l’esp´rance conditionnelle. Prenons Z = 1{X ′ ≤a<b≤X ′′ } 147 . la v.(c) E[E[X | B]] = E[X]. Cela entraˆ ıne |E[X | B]| = |E[X + | B] − E[X − | B]| ≤ E[X + | B]] + E[X − | B] = E[|X| | B].1) pour αX + α′ X ′ . A. si X.2 Soit X une variable al´atoire ` valeurs dans [0.a.a. d´finit une variable al´atoire ` valeurs dans [0. La propri´t´ (c) est le cas ee e ee particulier B = Ω dans (11. n→∞ n→∞ Il reste ` ´tablir l’unicit´.s. e ee e e Preuve. Preuve. qui est caract´ris´e (` un ensemble de e e a e e a probabilit´ nulle pr`s) par la propri´t´ suivante : pour toute variable al´atoire Z B-mesurable e e ee e positive.1). E[XZ] = E[E[X | B]Z]. Pour (d). et en cons´quence E[|E[X | B]|] ≤ E[|X|]. rappelons que si X ≥ 0 on a E[X | B] ≥ 0.

E[f (X) | B] ≥ f (E[X | B]). ıne e Remarque. 1]. p. (c) Si (Xn ) est une suite croissante de v. Supposons qu’il existe e une v. b ≥ 0. .s. n ] + i=2 n log( i ) 1 i−1 i . si X(ω) = ω . pour tout n. n→∞ p.s. positives et a. E[X | B] = lim ↑ E[Xn | B] . . i ∈ {1. On a donc P a. E[X | B] = X. et E[Z] < ∞.b∈Q+ a<b {X ′ ≤ a < b ≤ X ′′ } = 0 ce qui entraˆ X ′ ≥ X ′′ p. n}) et P (dω) = dω. E[X | B] = lim E[Xn | B] . . Il vient u e a P (X ′ ≤ a < b ≤ X ′′ ) ≥ b P (X ′ ≤ a < b ≤ X ′′ ) ce qui n’est possible que si P (X ′ ≤ a < b ≤ X ′′ ) = 0.s. vers X. Par e exemple. int´grables convergeant p. 148 .a. .a. Ω}. et simultan´ment P (E[X | B] = ∞) > 0. positives. si B = {∅. b ∈ Q+ .s. n→∞ p. E[aX + bX ′ | B] = a E[X | B] + b E[X ′ | B]. Par un raisonnement sym´trique on a aussi X ′′ ≥ X ′ p. (f) Si f est convexe positive. et dans L1 . On peut avoir X < ∞ p. i − 1 ] n .s.a. qui peut bien sˆ r ˆtre e e u e infini pour des v. Alors. (d) Si (Xn ) est une suite de v.s. E[lim inf Xn | B] ≤ lim inf E[Xn | B] . (e) Soit (Xn ) une suite de v.a. positives. e e 1 ]0. Alors. n ]. et si X ∈ L1 . on a n n E[X | B] = ∞ 1 Propri´t´s.a. reprenons le cas o` u i 1 Ω =]0.s. et X = lim ↑ Xn . on v´rifie ais´ment que E[X | B] = E[X].s.n] (a) Si X et X ′ sont des v. Pour donner un exemple moins trivial. (b) Si X est B-mesurable.o` on a fix´ a.a. avec a < b. X finies p. positive Z telle que |Xn | ≤ Z p.s. B = σ(] i−1 .

a. cette mention est sous-entendue. en utilisant (c).b)∈Ef ∩Q2 (aX + b) B ≥ sup (a. Le e a e e plus souvent cependant. f (x) ≥ ax + b}. En utilisant le fait que Q2 est d´nombrable. e e e e ıne (d) On ´crit. ∞]. on peut donc poser X = lim ↑ E[Xn | B]. Par analogie avec la formule P (A) = E[1A ]. f (x) = sup (ax + b) = (a. La mention “p. e e (c) Il d´coule de (a) que si X1 ≥ X2 ≥ 0 on a E[X1 | B] ≥ E[X2 | B]. P (A | B) := E[1A | B]. e e 149 . (f) Notons Ef = {(a. E[lim inf(Z − Xn ) | B] ≤ E[Z | B] − lim sup E[Xn | B] E[lim inf(Z + Xn ) | B] ≤ E[Z | B] + lim inf E[Xn | B] ce qui conduit ` a d’o` la convergence p. e e E[f (X) | B] = E sup (a.” devrait figurer dans chaque ´nonc´ impliquant une esp´rance e e e conditionnelle. On a alors. il est facile de v´rifier que e ∀x ∈ R2 .Remarque. recherch´e. qui est une v.(b) et (f) ci-dessus.s. B-mesurable ` valeurs dans a [0. on ´crira souvent pour A ∈ A. pour toute v.a. sup (a. e E[lim inf Xn | B] = E lim ↑ k↑∞ k↑∞ n≥k E[ZX ′ ] = lim ↑ E[Z E[Xn | B]] = lim ↑ E[Z Xn ] = E[ZX] inf Xn B = lim ↑ E inf Xn B n≥k ≤ lim (e) Il suffit d’appliquer (d) deux fois : k↑∞ n≥k inf E[Xn | B] = lim inf E[Xn | B]. puisque |E[Xn | B]| ≤ E[|Xn | | B] ≤ E[Z | B] et e e e E[E[Z | B]] = E[Z] < ∞.b)∈Ef ∩Q2 E[aX + b | B] = f (E[X | B]). Sous les hypoth`ses e e ′ de (c). Prendre garde cependant que P (A | B) ainsi d´finie est une variable al´atoire. on en d´duit que p. La convergence L1 est maintenant une cons´quence u e e du th´or`me de convergence domin´e.b)∈Ef E[X | B] ≤ lim inf E[Xn | B] ≤ lim sup E[Xn | B] ≤ E[X | B]. ce qui d’apr`s la caract´risation du th´or`me entraˆ X ′ = E[X | B]. Preuve. Z B-mesurable positive.b)∈Ef ∩Q2 (ax + b). puisque celle-ci n’est d´finie qu’` un ensemble de probabilit´ nulle pr`s.s. b) ∈ R2 : ∀x ∈ R. comme dans (a).s. Alors. e Remarque. (a) et (b) sont faciles en utilisant la caract´risation de E[X | B] donn´e dans le e e th´or`me.

on obtient le r´sultat en d´composant X = u e e e X + − X − et Y = Y + − Y − . B. born´es B-mesurables. e e e a 1 ou si X et Y X ∈ L . E[X | B] est dans L2 (Ω. P ). e a e Proposition 11. et soit Y une variable al´atoire e e e B-mesurable.2.a.1 Soit X une variable al´atoire r´elle. P ).a.11.3 Propri´t´s sp´cifiques de l’esp´rance conditione e e e nelle Les propri´t´s ´tablies ci-dessus sont analogues aux propri´t´s de l’esp´rance (ou de l’int´grale ee e ee e e de fonctions mesurables). B-mesurable positive. P ). Th´or`me 11. Supposons X ≥ 0 et Y ≥ 0. et donc la v. Nous ´tablissons dans ce paragraphe des propri´t´s plus partie ee culi`res ` l’esp´rance conditionnelle. P ) dont un repr´sentant au e a ee e moins est B-mesurable. Cela entraˆ que ee ıne E[E[X | B]2 ] ≤ E[X 2 ] < ∞. E[Z(Y E[X | B])] = E[(ZY )E[X | B]] = E[ZY X]. Puisque Y E[X | B] est une v. Preuve. observons que L (Ω. 11.a. ` savoir l’espace des ´l´ments de L (Ω. et par un argument de densit´. Alors.a. ´vitant le recours au th´or`me de Radon-Nikodym. a e e e On peut utiliser le th´or`me pr´c´dent pour donner une autre construction de l’esp´rance e e e e e conditionnelle. Par ailleurs.3. pour toute v. B. E[X | B] est la e e e e meilleure (au sens de la norme L2 ) approximation de X par une v. Z B-mesurable born´e. Avant d’´noncer le r´sultat. A. Observons aussi que ce th´or`me donne une interpr´tation e e e e e int´ressante de l’esp´rance conditionnelle : si X est de carr´ int´grable. toujours d’apr`s la propri´t´ caract´ristique de E[X | B]. Alors. Preuve. A. pour toute v. E[Y X | B] = Y E[X | B] d`s que les esp´rances conditionnelles sont bien d´finies.3 Le cas particulier des variables de carr´ int´grable e e Dans le cas o` X est de carr´ int´grable.a. A. P ) s’identifie ` un sous-espace e e a 2 2 ferm´ de L (Ω. Le r´sultat annonc´ en d´coule. cette ´galit´ suffit pour conclure que e e Y E[X | B] = E[Y X | B].a. Donc X − E[X | B] est orthogonal e ee e ` toutes les v. alors E[X | B] est la projection orthogonale de X e e sur L2 (Ω. Dans le cas o` X et Y X sont int´grables. La propri´t´ (f) ci-dessus montre que E[X | B]2 ≤ E[X 2 | B] p. il existe une autre interpr´tation remarquable de u e e e 2 E[X | B]. P ). e E[Z(X − E[X | B])] = E[ZX] − E[ZE[X | B]] = 0. X − E[X | B] est a e e 2 orthogonal ` L (Ω.s. 150 . Z B-mesurable positive. c’est-`-dire si X et Y sont positives. P ). en commen¸ant par le e e e c cas des v.a. B. de carr´ int´grable.3 Si X ∈ L2 (Ω. B-mesurable.2. B.

Soient X et Y deux v. e e E[E[X | B2 ] | B1 ] = E[X | B1 ]. Supposons d’abord que B1 et B2 sont ind´pendantes.Proposition 11. le th´or`me pr´c´dent montre que X et Y sont a e e e e ind´pendantes si et seulement si e E[h(X) | Y ] = E[h(X)] pour toute fonction bor´lienne h telle que E[|h(X)|] < ∞ (rappelons que E[h(X) | Y ] = e E[h(X) | σ(Y )]). Soit Z une v. puisque u Z est aussi B2 -mesurable. r´elles.a. E[ZX] = E[Z]E[X] = E[Z E[X]].3 Deux sous-tribus B1 et B2 sont ind´pendantes si et seulement si. Preuve.a. il suffit d’utiliser la lin´arit´ de l’esp´rance u e e e e conditionnelle.a. Alors. X de la forme X = 1A . X ∈ L1 (Ω. e B2 -mesurable positive. Alors. . Dans le cas o` X est int´grable. on a pour toute v. avec A ∈ B2 ). On a aussi E[E[X | B1 ] | B2 ] = E[X | B1 ] sous les mˆmes hypoth`ses.a.3. Remarque. pour tout B ∈ B1 . Cela suffit pour ´tablir l’´galit´ annonc´e. e Remarque. Traitons le cas o` X ≥ 0. et donc la v. e e e e Th´or`me 11.a.a. Supposons inversement que ∀A ∈ B2 . pour e e e toute v. constante E[X] satisfait la propri´t´ caract´ristique de l’esp´rance conditionee e e nelle E[X | B1 ]. Z B1 -mesurable positive.a. Puisque les v. 151 E[1A | B1 ] = E[1A ] = P (A).a.2 Soient B1 et B2 deux sous-tribus de A telles que B1 ⊂ B2 . mais cela e e est ´vident puisque E[X | B1 ] est B2 -mesurable. P ). B2 . pour toute variable al´atoire X positive ou int´grable. Alors.a. on a E[X | B1 ] = E[X]. P (A ∩ B) = E[1A 1B ] = E[E[1A | B1 ] 1B ] = E[P (A) 1B ] = P (A)P (B) ce qui montre que les tribus B1 et B2 sont ind´pendantes. B1 -mesurable positive. mesurables par rapport e ` la tribu σ(X) sont les fonctions de X. ou bien pour toute v.3. Alors. si X est une v. E[Z E[E[X | B2 ] | B1 ]] = E[Z E[X | B2 ]] = E[ZX]. X B2 -mesurable positive (ou pour toute v. Si X est int´grable on a donc en particulier e E[X | Y ] = E[X]. e Preuve.

Supposons que X est ind´pendante de B et que Y est Be mesurable. on a e P(X. Y ) est obtenue en int´grant g(·.Y. u e Nous ´non¸ons maintenant un autre th´or`me reliant esp´rance conditionnelle et ind´pene c e e e e dance. alors que X et Y ne sont bien sˆ r pas ind´pendantes. E[g(X.Z) et donc. et e e e donc ∞ 1 2 E[ZX] = E[g(|X|)X] = √ dy e−y /2 g(|y|)y = 0. E[g(X. e e E[g(X. et Y = |X|.Y.a. Il suffit de montrer que pour toute v. y) PX (dx) (Φ est mesurable grˆce au th´or`me de Fubini). Z B-mesurable positive.3. Y ) | B] = g(x. y)z P(X. Z σ(Y )-mesurable born´e s’´crit Z = g(Y ). Le terme de droite est la compos´e de la variable al´atoire Y par u e e e l’application Φ : y −→ g(x. se comporte a comme une constante et comme par ailleurs la connaissance de B ne donne aucune information sur X la meilleure approximation de g(X. pour toute fonction mesurable g : E × F −→ R+ . e Comme X est ind´pendante de (Y. toute v. e e Th´or`me 11. Y ) par e rapport ` la loi de X. o` PX d´signe la loi de X. Pour s’en convaincre. a Preuve. y)PX (dx) P(Y.Z) (dydz) = E[Φ(Y )Z] ce qui ´tait le r´sultat recherch´.Z) la loi du triplet (X.Z) (dydz) = F ×R+ zΦ(y) P(Y. Y )Z] = E[Φ(Y )Z]. Alors.Z) (dydz) z E g(x.Z) (dxdydz) g(x. Z).a. Y. qui est une mesure de probabilit´ sur E × F × R+ . Y ) PX (dx).4 Soient X et Y deux variables al´atoires ` valeurs respectivement dans e e e a les espaces mesurables E et F . De mani`re informelle on peut expliquer le th´or`me de la mani`re suivante. e e e 152 . il suffit de traiter le cas o` X suit une loi N (0. y)z PX (dx)P(Y.a. qui est B-mesurable. avec une fonction g born´e. 2π −∞ ce qui montre que E[X | Y ] = 0 = E[X]. Y .Cependant cette derni`re propri´t´ seule ne suffit pas pour donner l’ind´pendance de X et e ee e Y . 1).Z) = PX ⊗ P(Y. Y )Z] = = = F ×R+ g(x. qui est tr`s souvent utile pour les calculs explicites d’esp´rance conditionnelle. en utilisant le th´or`me de Fubini. u Alors. a e e Remarque. Notons P(X. la v.Y. e e e e Si on conditionne par rapport ` la sous-tribu B. Z).

Y )] = Rm ×Rn f (x. si q(y) = 0   h(0) 153 . nous n´gligerons cependant ce point de d´tail dans e e les calculs qui suivent).a. 11. Alors on a e a d´j` vu que ea E[X | Y ] = ϕ(Y ) o` u ϕ(y) = E[X 1{Y =y} ] P (Y = y) pour tout y ∈ E tel que P (Y = y) > 0 (et ϕ(y) peut ˆtre choisie de mani`re arbitraire e e lorsque P (Y = y) = 0).4. y) dx = ∞. Y ) a pour densit´ p(x.4 11.4. ` valeurs respectivement dans Rm et dans Rn . y) : pour toute fonction bor´lienne f : Rm × Rn −→ R+ . ` valeurs dans un espace d´nombrable E. Alors la densit´ de Y est la fonction e q(y) = Rm p(x.2 Cas des variables ` densit´ a e Soient X et Y deux v. y) dx (en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que p(x. y) dxdy h(x) p(x. qui forment un ensemble de mesure nulle. y) dxdy.11. y) dx Rm si q(y) > 0. Supposons que le a couple (X.a. o` on a pos´ u e ϕ(y) =    1 q(y) h(x) p(x. on a c e E[h(X)g(Y )] = Rm ×Rn h(x) g(y) p(x. Soit maintenant h : Rm −→ R+ une fonction mesurable. y) p(x. A. P ).1 Calculs d’esp´rance conditionnelle e Conditionnement discret Soit Y une v. et soit X ∈ L1 (Ω. y) dx g(y) q(y)1{q(y)>0} dy q(y) ϕ(y) g(y) q(y)1{q(y)>0} dy = E[ϕ(Y ) g(Y )]. e e E[f (X. Alors on calcule E[h(X) | Y ] de la fa¸on suivante. y) dx g(y) dy Rn Rm Rm Rn = = = Rn h(x) p(x. Pour toute fonction g : Rn −→ R+ bor´lienne.

Yp p + 1 variables al´atoires r´elles dans L2 (Ω. . soit ν(y. Sous les hypoth`ses pr´c´dentes. ee c e e Proposition 11. Yp ] est la projection orthogonale de X sur l’espace L2 (Ω. . Yp ).p. A. y) = 0 dx p. 154 . Y1 . dx) la mesure de probabilit´ sur Rm d´finie e e par  1  p(x.3 ci-dessus. pour toute fonction h : Rm −→ R+ bor´lienne. . de la forme ϕ(Y1 . dx) =  δ0 (dx) si q(y) = 0. Dans le calcul qui pr´c`de. e e E[h(X) | Y = y] = ν(y. . dx) h(x) = 1 q(y) h(x) p(x. P ). par une v. Y ) | Y ] = h(x. y) dx si q(y) > 0. . y) q(y) est appel´e densit´ conditionnelle de X sachant que Y = y. .a. dx) est la loi conditionnelle de X sachant que Y = y. Comme cela a ´t´ vu e e ee dans le paragraphe 2.4. . e e Exercice. e E[h(X) | Y ] = ν(Y. 11. Y ) ν(Y.4.3 Conditionnement gaussien Soient X. l’esp´rance conditionnelle e E[X | Y1. y) dx et on dit que ν(y. de mani`re un peu abusive. La fonction x −→ p(x. . au sens de la norme L2 . montrer plus g´n´ralement que. Nous r´´non¸ons ce r´sultat sous une forme un peu diff´rente. . . Cette projection orthogonale est aussi la meilleure approximation de X.. on a e E[h(X. et donc h(x) p(x. . . on a utilis´ implicitement le fait que si e e e e e q(y) = 0 on a p(x. dx). . . Il d´coule du calcul ci-dessus et de la caract´risation de l’esp´rance conditionnelle que e e e E[h(X) | Y ] = ϕ(Y ). Alors. P ) qui est de dimension infinie sauf dans des cas triviaux. Yp ).1 Pour tout y ∈ Rn . . pour toute e e e e e m n fonction bor´lienne h : R × R −→ R+ . q(y) ν(y. y) dx = 0. . dx) h(x). On ´crit souvent. σ(Y1 .(la valeur de ϕ(y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode dans l’´nonc´ qui suit). pour tout y ∈ R.

Par ailleurs, nous avons aussi ´tudi´, dans le Chapitre 8, la meilleure approximation de e e X par une fonction affine de Y1 , . . . , Yp , qui est la projection orthogonale de X sur l’espace vectoriel (de dimension finie) engendr´ par 1, Y1 , . . . , Yp . En g´n´ral cette derni`re projection e e e e est tr`s diff´rente de l’esp´rance conditionnelle E[X | Y1 , . . . , Yp ] qui fournit une bien meilleure e e e approximation de X. Nous allons cependant ´tudier une situation o` les deux co¨ e u ıncident, ce qui a l’´norme avantage de ramener les calculs d’esp´rance conditionnelle ` des projections e e a en dimension finie. a Nous avons vu dans le Chapitre 10 qu’une v.a. Z = (Z1 , . . . , Zk ) ` valeurs dans Rk est un vecteur gaussien centr´ si toute combinaison lin´aire de Z1 , . . . , Zk est gaussienne centr´e, ce e e e qui ´quivaut encore ` e a ∀ξ ∈ Rk , E[exp(iξ · Z)] = exp(− 1t ξKZ ξ). 2

C’est par exemple le cas si les composantes Z1 , . . . , Zk sont des v.a. gaussiennes ind´pendantes. e Proposition 11.4.2 Soit (X1 , . . . , Xm , Y1 , . . . , Yn ) un vecteur gaussien centr´. Alors les e vecteurs (X1 , . . . , Xm ) et (Y1 , . . . , Yn ) sont ind´pendants si et seulement si e cov(Xi , Yj ) = 0 , ∀i ∈ {1, . . . , m}, j ∈ {1, . . . , n}. (11.4)

Preuve. Il suffit de montrer que, sous la condition (11.4), (X1 , . . . , Xm ) est ind´pendant de e (Y1, . . . , Yn ) (l’inverse est toujours vrai). Or, pour ξ = (η1 , . . . , ηm , ζ1 , . . . , ζn ) ∈ Rn+m , E[exp(iξ · (X1 , . . . , Xm , Y1 , . . . , Yn ))] = exp(− et, sous la condition (11.4),
m t n

1t ξK(X1 ,...,Xm ,Y1 ,...,Yn ) ξ) 2

ξK(X1 ,...,Xm ,Y1 ,...,Yn ) ξ =
j,k=1

ηj ηk cov(Xj , Xk ) +
j,k=1

ζj ζk cov(Yj , Yk ).

Cela entraˆ ıne
m n

E[exp(iξ · (X1 , . . . , Xm , Y1 , . . . , Yn ))] = E[exp(i soit encore

ηj Xj )] E[exp(i
j=1 j=1

ζj Yj )],

P(X1 ,...,Xm ,Y1 ,...,Yn ) (η1 , . . . , ηm , ζ1 , . . . , ζn ) = P(X1 ,...,Xm ) (η1 , . . . , ηm ) P(Y1 ,...,Yn ) (ζ1 , . . . , ζn ). En utilisant l’injectivit´ de la transform´e de Fourier, on a donc e e P(X1 ,...,Xm ,Y1 ,...,Yn ) = P(X1 ,...,Xm ) ⊗ P(Y1 ,...,Yn ) ce qui est l’ind´pendance recherch´e. e e Cons´quence. Soit (X1 , . . . , Xn ) un vecteur gaussien centr´ tel que cov(Xj , Xk ) = 0 si e e j = k. Alors, les v.a. X1 , . . . , Xn sont ind´pendantes. En effet, la proposition pr´c´dente e e e 155

entraˆ d’abord que Xn est ind´pendant de (X1 , . . . , Xn−1 ), puis que Xn−1 est ind´pendant ıne e e de (X1 , . . . , Xn−2 ), etc., ce qui permet de conclure. Plus g´n´ralement, si la matrice de covariance de (X1 , . . . , Xn ) est diagonale par blocs e e de tailles respectives i1 , . . . , iℓ (avec i1 + · · · + iℓ = n) les sous-vecteurs (X1 , . . . , Xi1 ), (Xi1 +1 , . . . , Xi1 +i2 ), . . . , (Xi1 +···+iℓ−1 +1 , . . . , Xn ) sont ind´pendants. e Th´or`me 11.4.3 Soit (Y1 , . . . , Yn , X) un vecteur gaussien centr´. Alors, E[X | Y1 , . . . , Yn ] e e e co¨ ıncide avec la projection orthogonale de X sur l’espace vectoriel engendr´ par Y1 , . . . , Yn . e Il existe donc des r´els λ1 , . . . , λn tels que e
n

E[X | Y1 , . . . , Yn ] =

λj Y j .
j=1

De plus, pour toute fonction bor´lienne h : R −→ R+ , e E[h(X) | Y1 , . . . , Yn ] = o` u σ 2 = E[(X − et pour tout m ∈ R,
R

h(x) qPn λj Yj ,σ2 (x) dx, j=1
n

λ j Y j )2 ]
j=1

1 (x − m)2 qm,σ2 (x) = √ ) exp(− 2σ 2 σ 2π

est la densit´ de la loi N (m, σ 2 ). e Remarque. Le cas σ = 0 se produit si et seulement si X = n λj Yj , et alors X est j=1 mesurable par rapport ` σ(Y1 , . . . , Yn ), de sorte que la deuxi`me formule du th´or`me doit a e e e s’interpr´ter comme E[h(X) | Y1 , . . . , Yn ] = h(X). Nous ´cartons ce cas trivial dans la preuve e e qui suit. e Preuve. Soit X = n λj Yj la projection orthogonale de X sur l’espace vectoriel engendr´ j=1 par Y1 , . . . , Yn . Alors, pour tout j ∈ {1, . . . , n}, cov(X − X, Yj ) = E[(X − X)Yj ] = 0 par d´finition de la projection orthogonale. Puisque le vecteur (Y1 , . . . , Yn , X − X) est e gaussien centr´ (toute combinaison lin´aire de ses composantes est une combinaison lin´aire e e e de Y1 , . . . , Yn , X), la proposition pr´c´dente montre que X − X est ind´pendant de Y1 , . . . , Yn . e e e Donc, E[X | Y1, . . . , Yn ] = E[X − X | Y1 , . . . , Yn ] + X = E[X − X] + X = X. On a utilis´ le fait que X est mesurable par rapport ` σ(Y1 , . . . , Yn ), puis l’ind´pendance de e a e de X − X et de (Y1 , . . . , Yn ) qui entraˆ E[X − X | Y1 , . . . , Yn ] = E[X − X] = 0. ıne 156

Pour la derni`re assertion, notons Z = X − X, de sorte que Z est ind´pendante de e e (Y1, . . . , Yn ) et suit la loi N (0, σ 2) (Z est gaussienne centr´e et par d´finition σ 2 = E[Z 2 ]). e e On utilise alors le th´or`me 11.3.4 qui montre que e e
n n

E[h(X) | Y1, . . . , Yn ] = E[h(

j=1

λj Yj + Z) | Y1 , . . . , Yn ] =

h(
j=1

λj Yj + z) PZ (dz).

e En ´crivant PZ (dz) = q0,σ2 (z)dz et en faisant un changement de variables ´vident, on aboutit e ` la formule de l’´nonc´. a e e

11.5

Probabilit´s de transition et lois conditionnelles e

Les calculs pr´c´dents d’esp´rance conditionnelle peuvent ˆtre r´´nonc´s de mani`re plus e e e e ee e e agr´able ` l’aide de la notion de probabilit´ de transition. e a e D´finition 11.5.1 Soient (E, E) et (F, F ) deux espaces mesurables. On appelle probabilit´ e e de transition (ou parfois noyau de transition) de E dans F une application ν : E × F −→ [0, 1] qui v´rifie les deux propri´t´s suivantes : e ee (i) pour tout x ∈ E, ν(x, ·) est une mesure de probabilit´ sur (F, F ); e (ii) pour tout A ∈ F , l’application x −→ ν(x, A) est E-mesurable. De mani`re intuitive, ` chaque fois que l’on fixe un point x du premier espace E, la e a mesure de probabilit´ ν(x, ·) donne le moyen de choisir de mani`re al´atoire un point y du e e e deuxi`me espace F . Dans la th´orie des chaˆ e e ınes de Markov, sur laquelle nous reviendrons, on ´tudie l’´volution au cours du temps d’un ph´nom`ne al´atoire dans lequel l’´tat y ` e e e e e e a l’instant n + 1 d´pend de l’´tat x ` l’instant n, et d’autres param`tres al´atoires non connus e e a e e ` l’instant n : la loi de l’´tat ` l’instant n + 1 connaissant l’´tat ` l’instant n est alors fournie a e a e a par une probabilit´ de transition ν(x, dy). e Exemple. Soit λ une mesure positive σ-finie sur (F, F ), et soit f : E × F −→ R+ une application mesurable telle que f (x, y) λ(dy) = 1 ,
F

∀x ∈ E.

Alors ν(x, A) =
A

f (x, y) λ(dy)

d´finit une probabilit´ de transition de E dans F . La propri´t´ (ii) de la d´finition d´coule e e ee e e en particulier du th´or`me de Fubini. e e 157

Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou born´e) sur (F, F ), e alors ϕ(x) := ν(x, dy) h(y) , x ∈ E est une fonction mesurable positive (ou born´e) sur E. e (ii) Si λ est une mesure de probabilit´ sur (E, E), alors e µ(A) := λ(dx) ν(x, A) , A ∈ F

est une mesure de probabilit´ sur (F, F ). e La v´rification de ces propri´t´s est facile. Dans (i), on suppose d’abord h ´tag´e, puis e ee e e on utilise un passage ` la limite croissant. a Nous en venons maintenant au lien entre la notion de probabilit´ de transition et l’esp´rance e e conditionnelle. D´finition 11.5.2 Soient X et Y deux variables al´atoires ` valeurs respectivement dans e e a (E, E) et dans (F, F ). On appelle loi conditionnelle de Y sachant X toute probabilit´ de e transition ν de E dans F telle que, pour toute fonction h mesurable positive sur (F, F ), on ait E[h(Y ) | X] = ν(X, dy) h(y). Remarque. La v.a. ν(X, dy) h(y) est obtenue en composant X et l’application x −→ ν(x, dy) h(y), qui est mesurable d’apr`s la proposition pr´c´dente. C’est donc bien une e e e fonction de X, comme doit l’ˆtre l’esp´rance conditionnelle E[h(Y ) | X]. e e Par d´finition, si ν est une loi conditionnelle de Y sachant X, on a pour tout A ∈ F , e P (Y ∈ A | X) = ν(X, A) , p.s. Il est tentant de remplacer cette ´galit´ de variables al´atoires par l’´galit´ de nombres r´els e e e e e e P (Y ∈ A | X = x) = ν(x, A), pour tout x ∈ E. Bien qu’expliquant l’intuition de la notion de loi conditionnelle, cette derni`re ´galit´ n’a en g´n´ral pas de sens (sauf si X est une v.a. discr`te) puisque qu’on e e e e e e aura souvent P (X = x) = 0 pour tout x, ce qui interdit de d´finir P (Y ∈ A | X = x). La e seule formulation correcte est donc la premi`re ´galit´ P (Y ∈ A | X) = ν(X, A). e e e Discutons maintenant l’unicit´ de la loi conditionnelle de Y sachant X. Si ν et ν ′ sont e deux lois conditionnelles, on aura, pour tout A ∈ F , ν(X, A) = P (Y ∈ A | X) = ν ′ (X, A) , p.s. ce qui ´quivaut encore ` dire que, pour tout A ∈ F , e a ν(x, A) = ν ′ (x, A) , PX (dx) p.s. 158

alors on peut d´finir ν(x. . Dans la suite de ce cours. PX (dx) p. F ) soient des espaces m´triques complets e e e s´parables munis de leur tribu bor´lienne. dont le choix est arbitraire. . et notons e n λ j Xj j=1 la projection orthogonale de Y sur l’espace vectoriel engendr´ par X1 . B(Rd )). (1) Si X est une v. A) e a e e par ν(x. Y ) soit un vecteur gaussien centr´. La densit´ de X est alors e e q(x) = Rn p(x. c’est-`-dire si E est d´nombrable. La Proposition 11. Y ) a pour densit´ p(x. A) = δy0 (A) si x ∈ E ′ / o` y0 est un point fix´ de F . . y) dy.4. F ) soit tel qu’une mesure de probabilit´ sur (F. . Alors on conclut e e a e que ν(x. en consid´rant les pav´s ` coordonn´es rationnelles). (x. Par abus de e e langage on parlera cependant souvent de la loi conditionnelle de Y sachant X. Il y a donc unicit´ en ce sens (et clairement on ne peut pas esp´rer mieux). . Alors il existe toujours une loi conditionnelle de e e Y sachant X. . Nous ne d´montrerons pas ce th´or`me qui est un r´sultat assez difficile de th´orie de la e e e e e mesure. discr`te. y) A si q(x) > 0 si q(x) = 0. nous n’aurons de toute fa¸on pas besoin du Th´or`me c e e 11. A) = δ0 (A) ν(x. F ) e soit caract´ris´e par ses valeurs sur une famille d´nombrable d’ensembles mesurables (c’est le e e e cas pour (Rd . u e (2) Supposons que X et Y sont ` valeurs respectivement dans Rm et dans Rn et que le couple a (X. j=1 159 .2. Notons aussi e n σ = E[(Y − 2 λj Xj )2 ].1 montre qu’on peut d´finir la loi conditionnelle de Y sachant X par e 1 q(x) ν(x. y). Consid´rons maintenant le probl`me de l’existence de lois conditionnelles. Pour e e e illustrer cela reprenons les exemples trait´s dans la partie pr´c´dente (attention les rˆles de e e e o X et Y sont intervertis).a. A) = dy p(x. (3) Supposons enfin que (X1 . A) = P (Y ∈ A | X = x) si x ∈ E ′ := {a ∈ E : P (X = a) > 0) ν(x. car une construction directe permet d’´viter le recours au th´or`me d’existence. ·) .5. ·) = ν ′ (x. E) et (F. .s. e e Th´or`me 11.5.Supposons que l’espace mesurable (F. . Xn .2 Supposons que (E. Xn . y) ∈ Rm × Rn .

. . Y suit la loi N ( j=1 λj Xj .4.Le Th´or`me 11. Xn ). σ 2 ). . . .σ2 (y) dy j=1 e e e e o` qm. xn . . . σ 2 ).σ2 est la densit´ de la loi gaussienne N (m.3 montre que la loi conditionnelle de Y sachant X = (X1 . . a 160 . . . . Xn ) est e e ν(x1 . . De mani`re l´g`rement abusive on dit u n que conditionnellement ` (X1 . A) = A qPn λj xj .

Partie III Processus al´atoires e 161 .

.

. F . X e e Alors (Fn )n∈N est une filtration appel´e filtration canonique du processus al´atoire (Xn )n∈N . (Fn )n∈N .a. i = 1. .2 Un processus (Xn )n∈N est dit adapt´ ` la filtration (Fn )n∈N si pour tout e ea n ∈ N. F . F . e a e D´finition 12. On a donc F0 ⊂ F1 ⊂ F2 ⊂ · · · ⊂ F On dit aussi que (Ω. . P ). (b) Supposons que Ω = [0. e D´finition 12.1 D´finitions et exemples e On se place sur un espace de probabilit´ (Ω. P ) est un espace de probabilit´ filtr´. Par d´finition un processus al´atoire est e e e une suite (Xn )n∈N de variables al´atoires d´finies sur (Ω. .1 Une filtration de (Ω. e e On interpr`te souvent le param`tre n comme un temps. et P est la mesure de e Lebesgue. (a) Si (Xn )n∈N est une suite quelconque de v. n [. X1 . . a 163 . Xn : X Fn = σ(X0 . on d´finit e e X e Fn comme ´tant la plus petite tribu rendant mesurables les v. d´finies sur (Ω. X2 . Xn ). 1[. 2.1. P ). Exemples. .1. . . 2n ). 1[. X1 . La tribu Fn correspond alors ` e e a l’information acquise au temps n. . Xn est mesurable par rapport ` la tribu Fn . . . tous les e e processus al´atoires seront ` valeurs r´elles. P ) est une suite croissante (Fn )n∈N de souse tribus de F . 1[.a. F .Chapitre 12 Th´orie des martingales e ` temps discret a 12. 2 2 Alors (Fn )n∈N est une filtration appel´e filtration dyadique de [0. F est la tribu bor´lienne sur [0. . Dans ce chapitre. F . Posons i−1 i Fn = σ([ n . P ).

une sous-martingale). Il est souvent utile d’interpr´ter une martingale comme un jeu ´quitable : la variable Xn e e correspond ` l’avoir du joueur ` l’instant n. F .La filtration canonique est par construction la plus petite filtration qui rende le processus adapt´. Remarquons que (12. • une sous-martingale si. • une surmartingale si. E[Xm ] ≥ E[Xn ]). dont le choix sera parfois pr´cis´ dans les exemples. ıne De mˆme. (−Xn )n∈N est une sous-martingale. la propri´t´ est a e e ee triviale. a lorsqu’on connait le pass´ jusqu’` l’instant n.1) entraˆ E[Xm ] = E[Xn ] = E[X0 ]. E[Xm | Fn ] ≥ Xn ). a e D´finition 12. e 164 . la plupart des r´sultats qui suivent et sont ´nonc´s seulement pour des e e e surmartingales ont un analogue imm´diat pour des sous-martingales (ou bien inversement). e Dans toute la suite du chapitre (` l’exception de la partie 6). on a pour tous e 0 ≤ n ≤ m. une surmartingale correspond ` un jeu d´favorable. tel que E[|Xn |] < ∞ pour tout n ∈ N. et si m − n ≥ 2. e c a e Il est ´vident que si (Xn )n∈N est une surmartingale.1. De la mˆme fa¸on. Les e e e e notions qui suivent sont bien entendu relatives ` cet espace.3 Soit (Xn )n∈N un processus adapt´. pour tout n ∈ N. pour tout n ∈ N. une propri´t´ bien connue des e ee esp´rance conditionnelles donne e E[Xm | Fn ] = E[E[Xm | Fm−1 ] | Fn ] = E[Xm−1 | Fn ]. et donc E[Xm ] ≤ E[Xn ] (resp. si (Xn )n∈N ) est une surmartingale (resp. est l’avoir ` l’instant n (en moyenne le joueur e a a ne perd ni ne gagne). La propri´t´ de martingale a e e e ee E[Xn+1 | Fn ] = Xn traduit donc le fait que la valeur moyenne de l’avoir ` l’instant n + 1. et Fn est l’information dont dispose le joueur a a ` cet instant (en particulier les r´sultats des jeux pr´c´dents). E[Xn+1 | Fn ] ≥ Xn . e Pour cette raison. e On dit que le processus (Xn )n∈N est: • une martingale si.1) Cela est facile ` v´rifier par r´currence sur la valeur de m − n : si m = n. P ). si m = n + 1. E[Xn+1 | Fn ] ≤ Xn . c’est la d´finition. E[Xn+1 | Fn ] = Xn . (Fn )n∈N . E[Xm | Fn ] = Xn (12. E[Xm | Fn ] ≤ Xn (resp. Une cons´quence imm´diate de la d´finition d’une martingale est la propri´t´ appareme e e ee ment plus forte : pour tous 0 ≤ n ≤ m. on fixe un espace de a probabilit´ filtr´ (Ω. pour tout n ∈ N.

Alors (Xn )n∈N est une martingale : E[Xn+1 | Fn ] = E[E[X | Fn+1] | Fn ] = E[X | Fn ] = Xn . . On d´finit aussi la filtration (Fn )n∈N par e F0 = {∅. On pose e X0 = x et Xn = x + Y1 + Y2 + . lorsque µ et λ sont vues e e e a comme des mesures sur la tribu Fn (sur la tribu Fn . e Le processus (Xn )n∈N est appel´ marche al´atoire sur R de loi de saut µ. Ω} et Fn = σ(Y1 .a.a. . P ) on pose Xn = E[X | Fn ]. . Il est facile de v´rifier que a e 2n fn (ω) = i=1 µ([(i − 1)2−n . 1[. i2−n [) 1[(i−1)2−n . (iii) Marche al´atoire sur R. • une surmartingale si E[Y1 ] ≤ 0. toutes les mesures sont absolument continues par rapport ` λ). r´elles ind´pendantes e e e et de mˆme loi µ. puisque par construction Yn+1 est ind´pendant de Fn . int´grables. e e (iv) Reprenons l’exemple (b) d’espace de probabilit´ filtr´ donn´ ci-dessus. posons dµ fn = dλ |Fn qui d´signe la d´riv´e de Radon-Nikodym de µ par rapport ` λ. alors (Xn )n∈N est e e e une surmartingale : E[Xn+1 | Fn ] ≤ E[Xn | Fn ] = Xn . 1[. telle que E[|Y1 |] < ∞. Une martingale de ce type est dite ferm´e. . Pour tout entier n ∈ N.Exemples. + Yn si n ≥ 1. par exemple dans le cas E[Y1 ] = 0. . issue de x. et rappelons que P = λ est la mesure de Lebesgue sur [0. Soit µ une mesure e e e finie sur [0. Alors (Xn )n∈N est • une martingale si E[Y1 ] = 0. • une sous-martingale si E[Y1 ] ≥ 0. 2−n 165 . En effet. Yn ) si n ≥ 1 (c’est en fait la filtration canonique de (Xn )n∈N ).i2−n [ (ω). . on a E[Xn+1 | Fn ] = E[Xn + Yn+1 | Fn ] = Xn + E[Yn+1 ] = Xn . F . (i) Si X ∈ L1 (Ω. Soit x ∈ R et soit (Yn )n≥1 une suite de v. e (ii) Si (Xn )n∈N est une suite d´croissante et adapt´e de v.

166 . (ii) Si (Xn ) est une surmartingale (resp.1.a. Dans le cas particulier o` µ est absolument continue par rapport ` λ (sur F ). et soit (Xn )n∈N un processus adapt´. e E[ϕ(Xn+1 ) | Fn ] ≥ ϕ(E[Xn+1 | Fn ]) ≥ ϕ(Xn ). D´finition 12. ((H · X)n ) est une surmartingale (resp. |Xn | est une sous-martingale (ainsi que Xn si 2 + E[Xn ] < ∞ pour tout n) et si Xn est une sous-martingale. (i) D’apr`s l’in´galit´ de Jensen pour les esp´rances conditionnelles. et (Hn )n≥1 une famille pr´visible. une sous-martingale). pour tout n ≥ 1. (i) Si (Xn ) est une martingale. (ϕ(Xn )) est une sous-martingale. (ϕ(Xn )) est une sous-martingale.4 Une famille (Hn )n≥1 de v.1.1. e e On pose (H · X)0 = 0 et pour tout entier n ≥ 1. E[1A fn+1 ] = 1A (ω) fn+1(ω) dω = µ(A) = 1A (ω) fn (ω) dω = E[1A fn ]. ce qui suffit pour obtenir fn = E[fn+1 | Fn ]. Alors. e e e e E[ϕ(Xn+1 ) | Fn ] ≥ ϕ(E[Xn+1 | Fn ]) = ϕ(Xn ). si Xn est une martingale. (ii) De mˆme. e e e Hn est born´e et Fn−1 -mesurable. une sous-martingale). Xn est encore une sous-martingale. et si Hn ≥ 0 pour tout n ≥ 1.2 Soit (Xn )n∈N un processus adapt´. e (i) Si (Xn ) est une martingale. o` f est la d´riv´e de Radon-Nikodym de µ par rapport ` λ.Alors (fn )n∈N est une martingale : si A ∈ Fn . Preuve. r´elles est dite pr´visible si. tel que E[ϕ(Xn )] < ∞ pour tout n ∈ N. la martingale u a (fn )n∈N est du type consid´r´ en (i) ci-dessus : on v´rifie ais´ment que ee e e fn = E[f | Fn ]. Proposition 12. puisque Xn ≤ E[Xn+1 | Fn ] et ϕ est croissante. ((H · X)n ) est aussi une martingale. (H · X)n = H1 (X1 − X0 ) + H2 (X2 − X1 ) + · · · + Hn (Xn − Xn−1 ). u e e a Deux transformations de martingales. (ii) Si (Xn ) est une sous-martingale et si ϕ est croissante.1 Soit ϕ : R −→ R+ une fonction convexe. e Proposition 12. 2 En particulier.

En ´crivant e e {T = +∞} = Ω\ on voit que {T = +∞} ∈ F∞ . on a {T = n} ∈ Fn . ıtre a Exemples. le temps constant T = k est ´videmment un temps d’arrˆt. e E[(H · X)n+1 − (H · X)n | Fn ] = 0. De plus le processus ((H · X)n ) est adapt´ par construction.a. Le jeu reste ´quitable. On e e e e peut imaginer que le joueur ` l’instant n modifie sa mise en la multipliant par Hn+1 (qui doit a ˆtre Fn -mesurable). il est facile de v´rifier que les v. Il suffit ensuite e e de v´rifier que. T : Ω −→ N = N ∪ {+∞} est appel´e temps d’arrˆt (de la e e e filtration (Fn )) si pour tout entier n ∈ N. mais le nouveau gain r´alis´ entre les instants e e e e n et n + 1 est Hn+1 (Xn+1 − Xn ). Ceci fournit une explication intuitive de la d´finition de e (H · X)n . et si A est un bor´lien de R. on a E[Hn+1 (Xn+1 − Xn ) | Fn ] = Hn+1 E[Xn+1 − Xn | Fn ] = 0. (H · X)n e e sont int´grables. o` u F∞ = n∈N n∈N {T = n} Fn = σ n∈N Fn . La preuve de (ii) est analogue.Preuve. les temps d’arrˆt sont les instants a e e al´atoires auxquels on peut d´cider de s’arrˆter : le point-cl´ est que pour d´cider de s’arrˆter e e e e e e ` l’instant n. il est impossible de d´cider e e e e de vendre ses actions au moment o` elles vont ˆtre ` leur cours maximum de l’ann´e (cela u e a e demanderait de connaˆ le futur ` cet instant !). e a la diff´rence Xn+1 − Xn s’interpr`te comme le gain r´alis´ entre les instants n et n + 1. on n’a ` sa disposition que l’information acquise ` cet instant. Pour prendre une image tir´e de la Bourse. c’est-`-dire les a a a a ´v´nements de Fn . Il est tr`s facile de voir que cela est ´quivalent ` imposer que pour tout n ∈ N on a e e a {T ≤ n} ∈ Fn . 12. e e Il est important de noter que la valeur +∞ est autoris´e.2. Si on interpr`te (dans le cas d’une martingale) Xn comme l’avoir du joueur ` l’instant n. e e e e (ii) Si (Yn )n∈N est un processus adapt´. (i) Puisque les v.a. pour tout n ∈ N.1 Une v. En revenant ` l’interpr´tation en termes de jeu. TA := inf{n ∈ N : Yn ∈ A} 167 . (i) Si k ∈ N. Dans la suite nous utiliserons indiff´remment l’une ou l’autre d´finition.2 Temps d’arrˆt e D´finition 12. Hn sont born´es. Or (H · X)n+1 − (H · X)n = Hn+1 (Xn+1 − Xn ) et puisque Hn+1 est Fn -mesurable.a.

La tribu du pass´ jusqu’` l’instant T est e e e a FT = {A ∈ F : ∀n ∈ N. e (ii) De mˆme. . D´finition 12. On v´rifie ais´ment que FT est une tribu et que FT = Fn si T = n. pour n ∈ {1. e Preuve. e e e {TA = n} = {Y0 ∈ A. . . . on fait la convention inf ∅ = +∞. e Preuve. 1{T <∞} YT d´finie par e 1{T <∞} YT (ω) = est FT -mesurable. e Proposition 12. Yn+1 ∈ A. . e e e {LA = n} = {Yn ∈ A. par exemple. Y1 ∈ A.est un temps d’arrˆt. Yn−1 ∈ A. Alors. Alors la e v.2 Soit T un temps d’arrˆt. . . . YN ∈ A} / / n’est a priori pas dans Fn . Proposition 12. pour tout entier n ≥ 0. S ∨ T et S ∧ T sont aussi des e temps d’arrˆt. dans la d´finition de TA . e (ii) Si (Tk )k∈N est une suite de temps d’arrˆt. sup(Tk ).2. et soit T un temps d’arrˆt. appel´ temps d’entr´e dans A.2. e (iii) En revanche.3 Soit (Yn )n∈N un processus adapt´. En effet.a. alors inf(Tk ). Cette convene tion sera constamment utilis´e dans la suite. Alors. lim sup(Tk ) et lim inf(Tk ) e sont aussi des temps d’arrˆt. e {lim inf(Tk ) ≤ n} = ∞ m=0 ∞ k=m {Tk ≤ n} . {inf(Tk ) ≤ n} = ∪{Tk ≤ n} et. si on fixe N > 0 et on pose LA := sup{n ≤ N : Yn ∈ A} (sup ∅ = 0 par convention) LA n’est en g´n´ral pas un temps d’arrˆt. (i) On ´crit {S∧T ≤ n} = {S ≤ n}∪{T ≤ n} et {S∨T ≤ n} = {S ≤ n}∩{T ≤ n}. 168 Yn (ω) 0 si T (ω) = n ∈ N si T (ω) = +∞ . / / / Remarquons que. pour tout n ∈ N. FS ⊂ FT . . . . e e Proposition 12. n A ∩ {T = n} = k=0 (A ∩ {S = k}) ∩ {T = n} ∈ Fn . En effet.1 (i) Si S et T sont deux temps d’arrˆt. Yn ∈ A} ∈ Fn .2.2. N − 1}. Soit A ∈ FS .2 Soient S et T deux temps d’arrˆt avec S ≤ T . A ∩ {T = n} ∈ Fn }. .

Puisque e Xn∧T = X0 + (H · X)n la premi`re partie du th´or`me d´coule de la proposition 12. posons Hn = 1{T ≥n} = 1 − 1{T ≤n−1} .2. e e e Consid´rons la marche al´atoire Xn = Y1 + · · · + Yn issue de 0 et de loi de saut P (Y1 = 1) = e e P (Y1 = −1) = 1/2 (c’est ce qu’on appelle la marche al´atoire simple sur Z.2. En particulier. e {1{T <∞} YT ∈ B} ∩ {T = n} = {Yn ∈ B} ∩ {T = n} ∈ Fn . Alors (Xn∧T )n∈N est aussi une martingale (resp.1) et on d´duit de la proposition que Yn∧T est Fn∧T -mesurable donc e e aussi Fn -mesurable d’apr`s la proposition 12.s. Si 0 ∈ B.s.2. si le temps d’arrˆt T est born´. si T est un temps d’arrˆt quelconque. pour tout n ∈ N.3 Convergence presque sˆ re des martingales u Nous allons maintenant ´tudier la convergence presque sˆre d’une martingale ou d’une souse u martingale quand n → ∞. Bien sˆ r le temps d’arrˆt T n’est pas born´.2. on a E[XT ] = E[XN ∧T ] = E[X0 ] (resp. Soit B un bor´lien de R.2. e e e si on pose T = inf{n ≥ 0 : Xn = 1} on a T < ∞ p. 12. Cependant. u e e e e (resp. Lorsque le temps d’arrˆt T est fini p. une surmartine e e e e gale) et soit T un temps d’arrˆt. ce qui montre que {1{T <∞} YT ∈ B} ∈ FT .Preuve. et e e E[XT ] = E[X0 ] Preuve. il suffit d’´crire {1{T <∞} YT ∈ B} = e c c {1{T <∞}YT ∈ B } . on ´crira bien sˆ r simplement YT au lieu de e e u 1{T <∞} YT . une e surmartingale). Alors. on a XT ∈ L1 . E[XT ] ≤ E[X0 ]). n ∧ T est aussi un temps e d’arrˆt (lemme 12. e Th´or`me 12. (cf Proposition 10. Alors la famille (Hn )n≥1 est pr´visible. ≤ E[X0 ] dans le cas d’une e surmartingale). et il n’y a pas de contradiction avec le th´or`me.2 – une autre d´monstration sera donn´e dans la partie e e suivante) mais 1 = E[XT ] = E[X0 ] = 0.4 (Th´or`me d’arrˆt) Soit (Xn )n∈N une martingale (resp. L’hypoth`se que T est born´ est n´cessaire comme le montre l’exemple simple suivant. En particulier.2. Alors il d´coule d’un exemple pr´c´dent que (Xn )n∈N est une martingale. Consid´rons d’abord une suite num´rique α = (αn )n∈N . ou encore pile ou e face).1. si le temps d’arrˆt e e e e e est born´ par N. Pour e e 169 . Pour tout n ≥ 1. Ensuite.

b]. Nn ([a. b] par e e e la suite (αn )n∈N . b]. e Consid´rons maintenant un processus adapt´ (Xn )n∈N . b]. pour tous les r´els a < b et pour tout n ∈ N. on a N∞ ([a. X)] ≤ E[(Xn − a)+ − (X0 − a)+ ]. b]. on a par exemple e {Tk (X) ≤ n} = {Xm1 ≤ a. Alors les quantit´s Sk (X). α) = ∞ k=1 ∞ 1{Tk (α)≤n} . D’apr`s la proposition 12. e Sk+1 (α) = inf{n ≥ Tk (α) : αn ≤ a} Tk+1 (α) = inf{n ≥ Sk+1 (α) : αn ≥ b}. On pose Yn = (Xn − a)+ . 0≤m1 <n1 <···<mk <nk ≤n ce qui montre que {Tk (X) ≤ n} ∈ Fn . On pose e ensuite pour tout entier n. qui e a sont d´finies de la mani`re suivante : on pose e e S1 (α) = inf{n ≥ 0 : αn ≤ a} T1 (α) = inf{n ≥ S1 (α) : αn ≥ b} puis. b]. Preuve. Lemme 12. Nous utiliserons le lemme simple d’analyse suivant. X) est Fn -mesurable. (Yn )n∈N est encore une e sous-martingale.a. Xnk ≥ b}. Il en d´coule en particulier que Nn ([a. α) = N∞ ([a. Tk (X) e e e e e deviennent des v. on utilise toujours la convention inf ∅ = +∞ dans ces d´finitions. α) < ∞. Bien entendu. α) est le nombre de mont´es effectu´es le long de l’intervalle [a. b]. . D´finissons alors une famille pr´visible (Hn )n≥1 en posant e e Hn = ∞ k=1 1{Sk <n≤Tk } ≤ 1 170 .1. e Lemme 12.3. e (b − a) E[Nn ([a. Xmk ≤ a.1 La suite (αn )n∈N converge dans R ssi pour tout choix des rationnels a et b tels que a < b. Alors. En effet. 1{Tk (α)<∞} . k=1 La quantit´ N∞ ([a.tous les r´els a < b on introduit deux suites de temps Sk (α) et Tk (α) appartenant ` N. par r´currence. et ´crivons Sk .1. b]. Pour all´ger les notations posons Nn = Nn ([a. . X). Tk au lieu de e e Sk (X). Tk (X). et plus pr´cis´ment il est facile de v´rifier que ce sont a des temps d’arrˆt. ` valeurs dans N.2 (In´galit´ des nombres de mont´es de Doob) Supposons que (Xn )n∈N e e e est une sous-martingale. . .3. Xn1 ≥ b.

Alors. d’o` E[(K · Y )n ] ≥ E[(K. on v´rifie facilement que e e Nn Nn (H · Y )n = k=1 (YTk − YSk ) + 1{SNn +1 <n} (Yn − YSNn +1 ) ≥ k=1 (YTk − YSk ) ≥ Nn (b − a). La premi`re in´galit´ est vraie parce que YSNn +1 = 0 sur l’ensemble {SNn +1 < ∞}.s. on trouve (b − a) E[N∞ ([a. X)] < ∞ 171 .Y )0 ] = 0. b]. e e Th´or`me 12. En ´crivant E[Xn ] = E[(Xn )+ ] − E[(Xn )− ]. on voit que. Soient a. u On observe ensuite que (K · Y )n + (H · Y )n = ((K + H) · Y )n = Yn − Y0 .2 montre que (K · Y ) est une sous-martingale. (Kn )n∈N est une famille pr´visible positive. pour tout k ≥ 0. n∈N L’hypoth`se (12.2). X)] ≤ E[(Xn − a)+ ] ≤ |a| + E[(Xn )+ ] ≤ |a| + sup E[(Xk )+ ]. et en utilisant (12.1.(observer que l’´v´nement {Sk < n ≤ Tk } = {Sk ≤ n − 1}\{Tk ≤ n − 1} est dans Fn−1 .2) est donc ´quivalente ` imposer que e e a sup E[|Xn |] < ∞ n∈N c’est-`-dire que la suite (Xn ) est born´e dans L1 . b]. et Yn ≥ 0.3.2. on a pour tout n ≥ 1.2) Alors la suite Xn converge p. et donc (b − a) E[Nn ] ≤ E[(H · Y )n ] ≤ E[(K · Y )n + (H · Y )n ] = E[Yn − Y0 ] ce qui est l’in´galit´ du lemme. quand n → ∞. si Kn = 1 − Hn . Par ailleurs. k∈N En faisant tendre vers +∞. D’apr`s le lemme 12. e e parce que Sk et Tk sont des temps d’arrˆt). e Remarque. b ∈ Q tels que a < b. e e e On a donc en particulier E[(H · Y )n ] ≥ (b − a) E[Nn ]. et la proposition e 12.3 Soit (Xn )n∈N une sous-martingale telle que e e sup E[(Xn )+ ] < ∞. a e Preuve.3. n∈N (12. e E[(Xk )− ] ≤ sup E[(Xn )+ ] − E[X0 ]. et en rappelant qu’une souse martingale v´rifie E[Xn ] ≥ E[X0 ]. e (b − a) E[Nn ([a. De plus sa limite X∞ v´rifie E[|X∞ |] < ∞.

On fixe aussi un entier ℓ ≥ 1 et on d´finit par r´currence une suite (Xn ) de v. Corollaire 12. pour tous les rationnels a < b. cela n’est possible que si T < ∞ p.3 ` Xn = −Xn . on obtient ainsi que p. b].et donc N∞ ([a. Puisque sur l’ensemble {T = ∞} on a |Xn+1 − Xn | = [Yn+1 − Yn | = 1 pour tout n. On applique le th´or`me 12. 172 ∀n ∈ N. e D’apr`s le lemme 12. e e Dans ce cas on a X∞ = 0 p. u e Soit ensuite (ξn. Sa limite X∞ est dans L1 et v´rifie Xn ≥ E[X∞ | Fn ] pour tout n ∈ N.1. N∞ ([a. On a vu que (Yn )n∈N est une martingale par rapport ` sa filtration canonique. e Preuve. Donc Xn converge p.s. et donc l’in´galit´ Xn ≥ E[X∞ | Fn ] = 0 n’est pas une e e ´galit´. et de la remarque suivant l’´nonc´.3. e Ensuite.s. Du th´or`me 12.j∈N une famille de v. On exclut les cas particuliers o` µ est la mesure de Dirac en 1 ou la mesure de Dirac en 0.j .3. La derni`re assertion d´coule du lemme de Fatou pour e e e e les esp´rances conditionnelles : e Xn ≥ lim inf E[Xm | Fn ] ≥ E[lim inf Xm | Fn ] = E[X∞ | Fn ].2) est alors trivialement v´rifi´e. X) < ∞.j )n.s. la suite Xn converge dans R. telle que e m= ∞ k=1 k µ(k) < ∞.s.s. Alors T est un temps d’arrˆt. Modulo un argument de sym´trie e ´vident. Posons a ensuite T = inf{n ≥ 0 : Yn = 0}. cela d´montre la propri´t´ qui avait ´t´ utilis´e dans le dernier exemple de la partie e e ee ee e pr´c´dente. ` l’aide du lemme de Fatou..3. bien que la suite (Xn ) soit une martingale. en remarquant que l’hypoth`se e e a ′ e (12.s. (1) Soit Yn = 1 + Z1 + · · · + Zn une marche al´atoire simple (pile ou face) issue e de 1.s. X) < ∞ p. e e Cet exemple montre aussi que la convergence du corollaire (ou du th´or`me pr´c´dent) e e e e n’a pas forc´ment lieu dans L1 : ici E[Xn ] = 1 pour tout n alors que E[X∞ ] = 0. Soit µ une mesure de probabilit´ sur N. ` laquelle on peut appliquer le corollaire.4 Soit (Xn )n∈N une surmartingale positive. b]. vers a X∞ tel que X∞ < ∞. . on a a e e E[|X∞ |] ≤ lim inf E[|Xn |] ≤ sup E[|Xn |] < ∞ n→∞ n∈N et en particulier |X∞ | < ∞ p. e (2) Processus de branchement. cela suffit pour affirmer que p.a. ind´pendantes de loi µ. Alors Xn converge p. m→∞ m→∞ Exemples.a.s.4 on d´duit que Xn = Yn∧T est une e e e e martingale positive. Quitte ` ´carter une r´union d´nombrable d’ensembles de ae e e probabilit´ nulle.2. ` valeurs dans N en posant e e a X0 = ℓ Xn Xn+1 = j=1 ξn.

sachant que le nombre d’enfants de chaque individu suit la loi µ (et les nombres d’enfants des diff´rents individus sont des v. Puisque Xn est ` valeurs enti`res. Ensuite.j | Fn ] = ∞ j=1 1{j≤Xn } E[ξn. on peut lui appliquer le th´or`me 12. vers X∞ .j est ind´pendante de Fn . Le th´or`me suivant caract´rise les martingales pour e e e e lesquelles c’est le cas. • m = 1. p ≥ 1 : ∀n ≥ N. sur l’ensemble de non-extinction.j | Fn ] = E[ξn.j : k < n. puisque dans ce cas E[Z] = lim m−n E[Xn ] = ℓ. En effet. Cette derni`re assertion est obtenue comme une cons´quence facile du lemme de Borele e Cantelli (on utilise le fait que µ(1) < 1).j ] = m. e e −n Alors la suite m Xn est une martingale relativement ` la filtration a F0 = {∅. Xn = p) = 0. On voudrait alors v´rifier que P (Z > 0) > 0 (et aussi que Z > 0 p.s.s. Nous verrons un r´sultat un peu e plus faible dans la partie 4 ci-dessous. j ∈ N) . En cons´quence.3) a lieu dans L1 ssi ∞ k=1 k log(k) µ(k) < ∞ et qu’alors Z > 0 p. Ω} Fn = σ(ξk. Distinguons maintenant trois cas : • m < 1.3) n→∞ E[m−(n+1) Xn+1 | Fn ] = m−n Xn . Les exemples pr´c´dents montrent qu’il n’y a pas e e 1 n´cessairement convergence dans L . il est facile de voir que le processus (Xn ) est adapt´ (la d´finition de Xn ne fait e e intervenir que les ξk.3 e e e et obtenir que Xn converge p.3) a lieu dans L1 on a P (Z > 0) > 0. On a m−n Xn −→ Z (12. et donc E[ξn.La quantit´ Xn s’interpr`te comme le nombre d’individus dans une population ` la g´n´ration e e a e e n. • m > 1.a. 173 . Xn sont dans L1 (une r´currence imm´diate montre que E[Xn ] = ℓ mn ) et ensuite que la suite m−n Xn est une martingale positive.j pour k < n). Remarquons que si la convergence (12. E[Xn+1 | Fn ] = E[ ∞ j=1 1{j≤Xn } ξn.a. pour tout n ≥ 0. ind´pendantes). On peut montrer (th´or`me de Kestene e Stygum) que la convergence (12. Si (Xn )n∈N est une martingale born´e dans L1 .j | Fn ] = m Xn puisque ξn. sur l’ensemble {lim inf Xn > 0} de e non-extinction).s. et sur l’ensemble {Z > 0} on voit que Xn est de l’ordre de mn quand n est grand. si n ≥ 1. Dans ce cas Xn est une martingale positive et on a la mˆme conclusion e (extinction presque sˆ re) une fois que l’on a v´rifi´ que u e e P (∃N ≥ 1.3. e e e e Cela montre d’abord que les v. la convergence de m−n Xn vers une quantit´ a e e finie n’est possible que si Xn = 0 pour tout n assez grand (extinction presque sˆ re de la u population).

Xn le sont. Z est born´e par une constante K < ∞. De plus. Z ∈ L1 (Ω. e e E[|Xm − Xn |] < 3ε. E[|E[Z 1{|Z|≤M } | Fm ] − E[Z 1{|Z|≤M } | Fn ]|] < ε. Alors. n ≥ n0 . Dans le cas g´n´ral.3. toutes les v. e e e e a Remarquons d’abord que X∞ est F∞ -mesurable puisque les v. on trouve que. Ensuite. Comme ε ´tait arbitraire. E[|Xn − E[Z 1{|Z|≤M } | Fn ]|] = E[|E[Z − Z 1{|Z|≤M } | Fn ]|] < ε. la suite (Xn ) est de Cauchy dans L1 . e e e e e e fixons ε > 0. P ). La suite (Xn )n∈N est alors born´e dans L1 et donc converge e p.a. On dit alors que la martingale (Xn )n∈N est ferm´e. traitons d’abord le cas o` e e e u la v. la martingale E[Z 1{|Z|≤M } | Fn ] converge dans L1 . pour tous m. Pour obtenir la convergence L1 . on a E[Z 1A ] = E[Xn 1A ] = E[X∞ 1A ]. Les deux conditions suivantes sont ´quivae e e lentes: (i) Xn converge vers X∞ p. il reste ` montrer que X∞ = E[Z | F∞ ]. pour tous m. si ces conditions sont satisfaites.s.e. e Preuve. Preuve. La martingale Xn = E[Z | Fn ] converge p. En ´crivant e Xn = E[Xm | Fn ] . n ≥ n0 . on trouve en faisant tendre m vers ∞ que Xn = E[X∞ | Fn ]. P ) telle que Xn = E[Z | Fn ] pour tout n ∈ N.5 Soit (Xn )n∈N une martingale. Donc on peut e e choisir n0 assez grand pour que.6 Soit Z ∈ L1 (Ω. e Corollaire 12. Xn sont aussi born´es e e par K.3.Th´or`me 12. pour tout n. et le th´or`me de convergence domin´e donne le r´sultat voulu. D’apr`s le cas born´. (ii) Il existe une v.s. F .a.3.3. et u dans L1 vers X∞ = E[Z | F∞ ].a. Compte-tenu du th´or`me pr´c´dent. En combinant ceci avec la majoration pr´c´dente.a. Inversement. ∀m > n et en utilisant le fait que l’application Y −→ E[Y | Fn ] est une contraction de L1 (i. on peut prendre Z = X∞ dans (ii). F . E[|E[Y | Fn ]|] ≤ E[|Y |]). Supposons d’abord (i). et choisissons M > 0 assez grand pour que E[|Z − Z 1{|Z|≤M } |] < ε. et dans L1 . supposons (ii). 174 .s. Alors. pour tout n ∈ N et A ∈ Fn . d’apr`s le th´or`me 12. o` F∞ = ∞ n=1 Fn .

On consid`re la filtration dyadique e Fn = σ([ i−1 i . vraie pour A ∈ ∞ n=1 Fn . 2n 2n n=1 Fn = F∞ .6 montre que E[f∞ | Fn ] −→ f∞ p. et P = λ est la mesure de Lebesgue. pour toute fonction g mesurable positive born´e sur [0. fn −→ f∞ n→∞ avec f∞ dλ < ∞. γ) des fonc+ tions γ-int´grables positives. 1[.i2−n [ (ω). .4) . on v´rifie ais´ment que l’espace des combinaisons lin´aires ` coefficients positifs de e e e a fonctions indicatrices d’intervalles dyadiques est dense dans l’espace L1 ([0. 1[. 2. 1[: lim sup hn (x) > 0 n→∞ = 0. et on a donc (Corollaire ea e 12. Reprenons l’exemple (iv) de la partie 1 : Ω = [0. et pour tout entier n ∈ N. .s.1). pour toute mesure finie γ sur [0. dλ |Fn Dans cet exemple on a F∞ = F et donc le corollaire 12.1) montre que l’´galit´ E[Z 1A ] = e e e e E[X∞ 1A ].3. et donc e λ D’autre part. x ∈ [0. 1[: hn (x) ≤ ε}) = 175 1{hn ≤ε}hn dλ ≤ ε. Il en d´coule que ν = µ − f∞ · λ est une mesure positive sur [0. ν({x ∈ [0. En utilisant la densit´ dans L1 des fonctions continues ` support compact (cf Th´or`me e a e e 4. En cons´quence hn −→ 0 p. 2−n On a d´j` remarqu´ que (fn )n∈N est une martingale (positive). ce qui montre que. on a e e e g dµ ≥ gf∞ dλ. µ(A) = fn 1A dλ ≥ E[f∞ | Fn ]1A dλ = f∞ 1A dλ. 1[. 2n ).s. reste vraie pour A ∈ σ ∞ recherch´ d´coule ensuite de la propri´t´ caract´ristique de l’esp´rance conditionnelle. Le r´sultat e Soit µ une mesure finie sur [0. e e ee e e Exemple. e Montrons que ν est ´trang`re ` λ. Pour tout n ≥ 0. i2−n [) 1[(i−1)2−n . 1[.3. De plus fn ≥ E[f∞ | Fn ]. . 1[. pour tout ε > 0.3. posons e e a hn = dν = fn − E[f∞ | Fn ]. 1[. 1[. On d´duit alors de l’in´galit´ e e e e pr´c´dente que. .4. pour tout A ∈ Fn . F est la tribu bor´lienne sur e [0.Un argument simple de classe monotone (cf Th´or`me 1. dµ fn (ω) = (ω) = dλ |Fn 2n i=1 µ([(i − 1)2−n . (12. [. i = 1.s.4) p.

1[: lim sup hn (x) < ε n→∞ ≤ν ∞ ∞ N =1 n=N {hn ≤ ε} ≤ ε. 176 . Preuve. On sait d´j` que XS et XT sont dans L1 . Hn = 1{S<n≤T } = 1{S≤n−1} − 1{T ≤n−1} . e e e e pour tout a > 0 et tout n ∈ N.2 (In´galit´ maximale de Doob) Soit (Xn )n∈N une sous-martingale. pour tout n ≥ 1. e Lemme 12. Alors e E[XS ] ≤ E[XT ]. µ est absolument continue par rapport ` λ ssi ν = 0 ce qui ´quivaut ` a e a dire que la martingale (fn ) est ferm´e. aP 0≤k≤n + sup Xk ≥ a ≤ E Xn 1{sup0≤k≤n Xk ≥a} ≤ E[Xn ]. e e Th´or`me 12. Cela nous am`nera ` obtenir des estimations importantes pour la e a probabilit´ de grandes valeurs du supremum supn∈N Xn .1 Soit (Xn )n∈N une sous-martingale.4 La convergence dans Lp pour p > 1 Notre but est maintenant d’´tudier sous quelles conditions une martingale (Xn ) converge e dans Lp lorsque p > 1. si N est un entier choisi pour que S ≤ T ≤ N.4) on voit que λ et ν sont port´es par des bor´liens disjoints. e e Finalement l’´criture µ = f∞ · λ + ν est la d´composition de Lebesgue de la mesure µ e e comme somme d’une mesure absolument continue et d’une mesure ´trang`re ` la mesure de e e a Lebesgue.ce qui entraˆ ıne ν On obtient ainsi ν x ∈ [0. Alors.4.1. Le cas S = 0 a d´j` ´t´ vu dans le th´or`me 12.4. Introduisons le temps d’arrˆt e T = inf{n ≥ 0 : Xn ≥ a}. e 12. Remarque. Alors.4. eaee e e Preuve. On d´finit ensuite une famille pr´visible ea e e en posant. =0 et en comparant avec (12.2). on a (H · X)N = XT − XS et E[(H.2.X)N ] ≥ 0 puisque H. et soient S et T deux temps d’arrˆt e born´s tels que S ≤ T . De plus. 1[: lim sup hn (x) = 0 n→∞ x ∈ [0.X est une sous-martingale (th´or`me 12.

La seconde est imm´diate.4. La deuxi`me partie de la proposition d´coule de la premi`re appliqu´e ` la souse e e e a p martingale Xn = |Yn |. on peut supposer E[(Xn ) ] < ∞. E[(Xn )p ] ≤ ( En cons´quence. On a donc aussi E[(Xn )p ] < ∞. on a E[(Xk )p ] ≤ E[E[Xn | Fk ]p ] ≤ E[E[(Xn )p | Fn ]] = E[(Xn )p ]. Posons Xn = sup Xk . e on multiplie chaque membre de cette in´galit´ par ap−2 et on int`gre par rapport ` la mesure e e e a de Lebesgue da sur ]0.3 Soit p > 1 et soit (Xn )n∈N une sous-martingale positive.2. A gauche.5) a p−1 P (Xn ≥ a) da = E 177 e Xn 0 ap−1 da = 1 E[(Xn )p ] p . ∞[. Pour la premi`re partie. p−1 Preuve. on a pour tout a > 0 e e e a P (Xn ≥ a) ≤ E[Xn 1{Xn ≥a} ]. 0≤k≤n Alors. on trouve e e E[Xn ] ≥ aP (A) + E[Xn 1Ac ] d’o` la premi`re in´galit´ du th´or`me. u e e e e e e Proposition 12. si (Yn )n∈N est une martingale et si e 0≤k≤n p p ) E[(Xn )p ]. il vient ∞ 0 (12. on a E[XT ∧n ] ≤ E[Xn ] et d’autre part. si A = { sup Xk ≥ a} 0≤k≤n on a A = {T ≤ n}.Alors. car sinon il e n’y a rien ` montrer. En combinant ces deux in´galit´s. pour tout n ≥ 0. p−1 ∗ Yn = sup |Yk | on a pour tout n ≥ 0 : ∗ E[(Yn )p ] ≤ ( p p ) E[|Yn |p ].4. D’apr`s le th´or`me 12. XT ∧n ≥ a 1A + Xn 1Ac . en appliquant le lemme pr´c´dent aux temps d’arrˆt T ∧ n e e e et n. Alors. Par ailleurs. pour tout 0 ≤ k ≤ n. l’in´galit´ de Jensen pour les esp´rances conditionelles montre a e e e que.

p−1 Preuve. ∗ E[(Xn )p ] ≤ ( p p ) sup E[|Xk |p ]. La martingale (Xn ) ´tant born´e dans L1 . pour tout n ∈ N. vers e e ea X∞ . n→∞ n∈N 178 .a. p − 1 k∈N En passant ` la limite croissante qund n ↑ ∞. on sait d´j` que Xn converge p.4.3 montre que. le th´or`me de e e e p convergence domin´e montre que la suite Xn converge dans L vers X∞ . p−1 d’apr`s l’in´galit´ de H¨lder. u e e e Si (Xn )n∈N est un processus al´atoire. Il vient donc e e e o p−1 1 1 1 E[(Xn )p ] ≤ E[(Xn )p ] p E[(Xn )p ] p p p−1 d’o` l’in´galit´ de la premi`re partie de la proposition (on utilise le fait que E[(Xn )p ] < ∞). n∈N Th´or`me 12.a. De mˆme. puisque la e p suite E[|Xn | ] est croissante (cf (12.4 Soit (Xn )n∈N une martingale. Xn converge p.5)) on a E[|X∞ |p ] = lim E[|Xn |p ] = sup E[|Xn |p ].s. X∞ telle que E[|X∞ |p ] = sup E[|Xn |p ] n∈N et on a ∗ E[(X∞ )p ] ≤ ( p p ) E[|X∞ |p ]. la proposition 12. Puisque toutes les v. De plus. on note e ∗ X∞ = sup |Xn |.s.4. Supposons qu’il existe p > 1 tel que e e sup E[|Xn |p ] < ∞. |Xn | sont domin´es par X∞ . et dans Lp vers une v. on a a ∗ E[(X∞ )p ] ≤ ( p p ) sup E[|Xk |p ] < ∞ p − 1 k∈N ∗ ∗ et donc X∞ ∈ Lp .en utilisant le th´or`me de Fubini. ` droite on a e e e a ∞ 0 a p−2 E[Xn 1{Xn ≥a} ]da = E Xn e e Xn 0 ap−2 da 1 E[Xn (Xn )p−1 ] = p−1 p−1 1 1 ≤ E[(Xn )p ] p E[(Xn )p ] p . Enfin. n∈N Alors.

i∈I Il est imm´diat qu’une famille uniform´ment int´grable est born´e dans L1 : il suffit de e e e e choisir a assez grand pour que sup E[|Xi |1{|Xi |>a} ] ≤ 1 i∈I 179 .j ξn.k=1 1{j≤Xn .Exemple. cette martingale converge dans L vers Z.j ξn. la martingale m−n Xn est born´e e e 2 2 dans L . On a vu que m−n Xn est une martingale. sur l’ensemble de non-extinction de la population).k≤Xn} ξn.k ] 1{j≤Xn . on obtient an+1 = an + ℓσ 2 m−n−2 et puisque m > 1 la suite (an ) converge.4. V´rifions que cette martingale est born´e dans L2 . j. On suppose que la loi de reproduction µ satisfait m= et ∞ k=0 ∞ k=0 k µ(k) ∈]1.k | Fn = = = On a donc 1{j