FIMFA

Int´egration, Probabilit´es
et Processus Al´eatoires
Jean-Fran¸ cois Le Gall
Septembre 2006
D´epartement Math´ematiques et Applications
Ecole normale sup´erieure de Paris
2
Sommaire
I Int´egration 7
1 Espaces mesur´es 9
1.1 Ensembles mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Classe monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Int´egration par rapport `a une mesure 17
2.1 Int´egration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonctions int´egrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Int´egrales d´ependant d’un param`etre . . . . . . . . . . . . . . . . . . . . . . 26
3 Construction de mesures 29
3.1 Mesures ext´erieures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Liens avec l’int´egrale de Riemann . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Un exemple d’ensemble non mesurable . . . . . . . . . . . . . . . . . . . . . 39
3.5 Int´egrale de Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Le th´eor`eme de repr´esentation de Riesz . . . . . . . . . . . . . . . . . . . . . 41
4 Espaces L
p
43
4.1 D´efinition et in´egalit´e de H¨older . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 L’espace de Banach L
p
(E, /, µ) . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Th´eor`emes de densit´e dans les espaces L
p
. . . . . . . . . . . . . . . . . . . . 49
4.4 Le th´eor`eme de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Mesures produits 57
5.1 G´en´eralit´es sur les espaces produits . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Construction de la mesure-produit . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Le th´eor`eme de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Int´egration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4.3 Calcul du volume de la boule unit´e . . . . . . . . . . . . . . . . . . . 67
3
6 Mesures sign´ees 69
6.1 D´efinition et variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 La d´ecomposition de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 La dualit´e L
p
−L
q
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4 Le th´eor`eme de repr´esentation de Riesz . . . . . . . . . . . . . . . . . . . . . 79
7 Formule de changement de variables
et compl´ements 81
7.1 La formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 81
7.2 Mesure de Lebesgue sur la sph`ere unit´e . . . . . . . . . . . . . . . . . . . . . 85
II Probabilit´es 89
8 Fondements de la th´eorie des probabilit´es 91
8.1 D´efinitions g´en´erales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.1 Espaces de probabilit´e . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.2 Variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1.3 Esp´erance math´ematique . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . 96
8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.1.6 Fonction de r´epartition d’une variable al´eatoire r´eelle . . . . . . . . . 99
8.1.7 Tribu engendr´ee par une variable al´eatoire . . . . . . . . . . . . . . . 100
8.2 Moments de variables al´eatoires . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2.1 Moments d’ordre p et variance . . . . . . . . . . . . . . . . . . . . . . 101
8.2.2 La r´egression lin´eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2.3 Fonctions caract´eristiques . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2.4 Fonction g´en´eratrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9 Ind´ependance 109
9.1 Ev´enements ind´ependants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Variables al´eatoires et tribus ind´ependantes . . . . . . . . . . . . . . . . . . 111
9.3 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.4 Sommes de variables al´eatoires ind´ependantes. . . . . . . . . . . . . . . . . . 119
10 Convergence de variables al´eatoires 125
10.1 Les diff´erentes notions de convergence . . . . . . . . . . . . . . . . . . . . . . 125
10.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.3 La convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.4 Deux applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.4.1 La convergence des mesures empiriques . . . . . . . . . . . . . . . . . 137
10.4.2 Le th´eor`eme central limite . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.3 Extension au cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . 140
4
11 Conditionnement 143
11.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.2 La d´efinition de l’esp´erance conditionnelle . . . . . . . . . . . . . . . . . . . 145
11.2.1 Cas des variables int´egrables . . . . . . . . . . . . . . . . . . . . . . . 145
11.2.2 Cas des variables positives . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Le cas particulier des variables de carr´e int´egrable . . . . . . . . . . . 150
11.3 Propri´et´es sp´ecifiques de l’esp´erance conditionnelle . . . . . . . . . . . . . . . 150
11.4 Calculs d’esp´erance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.2 Cas des variables `a densit´e . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.3 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . 154
11.5 Probabilit´es de transition et lois conditionnelles . . . . . . . . . . . . . . . . 157
III Processus al´eatoires 161
12 Th´eorie des martingales
`a temps discret 163
12.1 D´efinitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Temps d’arrˆet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.3 Convergence presque sˆ ure des martingales . . . . . . . . . . . . . . . . . . . 169
12.4 La convergence dans L
p
pour p > 1 . . . . . . . . . . . . . . . . . . . . . . . 176
12.5 Uniforme int´egrabilit´e et martingales . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Martingales r´etrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
13 Chaˆınes de Markov 191
13.1 D´efinition et premi`eres propri´et´es . . . . . . . . . . . . . . . . . . . . . . . . 191
13.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
13.2.1 Variables al´eatoires ind´ependantes . . . . . . . . . . . . . . . . . . . . 193
13.2.2 Marches al´eatoires sur Z
d
. . . . . . . . . . . . . . . . . . . . . . . . 194
13.2.3 Marche al´eatoire simple sur un graphe . . . . . . . . . . . . . . . . . 194
13.2.4 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . 194
13.3 La chaˆıne de Markov canonique . . . . . . . . . . . . . . . . . . . . . . . . . 195
13.4 La classification des ´etats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.5 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
13.6 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.7 Martingales et chaˆınes de Markov . . . . . . . . . . . . . . . . . . . . . . . . 215
14 Introduction au mouvement brownien 219
14.1 Le mouvement brownien comme limite de marches al´eatoires . . . . . . . . . 219
14.2 La construction du mouvement brownien . . . . . . . . . . . . . . . . . . . . 222
14.3 La mesure de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.4 Premi`eres propri´et´es du mouvement brownien . . . . . . . . . . . . . . . . . 227
14.5 La propri´et´e de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
14.6 Fonctions harmoniques et probl`eme de Dirichlet . . . . . . . . . . . . . . . . 233
5
14.7 Fonctions harmoniques et mouvement brownien . . . . . . . . . . . . . . . . 241
6
Partie I
Int´egration
7
Chapitre 1
Espaces mesur´es
L’id´ee de d´epart de la th´eorie de la mesure est d’assigner un nombre r´eel positif (la mesure
de ce sous-ensemble) `a chaque sous-ensemble d’un ensemble donn´e, de mani`ere `a satisfaire
certaines propri´et´es naturelles d’additivit´e (la mesure d’une r´eunion disjointe doit ˆetre la
somme des mesures). Pour des raisons profondes, il n’est pas possible en g´en´eral de d´efinir
la mesure de n’importe quel sous-ensemble, et on doit se restreindre `a une certaine classe
(tribu) de sous-ensembles, appel´es les sous-ensembles mesurables : un ensemble muni d’une
tribu est appel´e espace mesurable. Ce chapitre introduit les notions fondamentales de tribu
(= famille des ensembles mesurables), de mesure sur un espace mesurable, et de fonctions
mesurables, qui sont les fonctions dont on saura plus tard d´efinir l’int´egrale. Le dernier
paragraphe ´enonce une forme du lemme de classe monotone, qui joue un rˆole tr`es important
`a la fois en th´eorie de la mesure et en th´eorie des probabilit´es.
1.1 Ensembles mesurables
D´efinition 1.1.1 Soit E un ensemble quelconque. Une tribu (ou σ-alg`ebre) sur E est une
famille / de parties de E telle que:
(i) E ∈ / ;
(ii) A ∈ / ⇒ A
c
∈ / ;
(iii) Si A
n
∈ / pour tout n ∈ N, on a aussi
¸
n∈N
A
n
∈ /.
Les ´el´ements de / sont appel´es parties mesurables, ou parfois /-mesurables s’il y a ambiguˆıt´e.
On dit que (E, /) est un espace mesurable.
Enon¸ cons quelques cons´equences de la d´efinition :
(1) ∅ ∈ /
(2) Si A
n
∈ / pour tout n ∈ N, on a aussi
¸
n∈N
A
n
∈ /.
9
(3) Puisqu’on peut toujours prendre A
n
= ∅ pour n assez grand, la propri´et´e (iii) entraˆıne
que / est stable par r´eunions finies (et de mˆeme par intersection finies).
Exemples.
• / = {(E) ;
• / = ¦∅, E¦ est la tribu triviale ;
• l’ensemble des parties de E qui sont (au plus) d´enombrables ou dont le compl´ementaire
est (au plus) d´enombrable forme une tribu sur E.
Pour donner des exemples plus int´eressants, on remarque qu’une intersection quelconque
de tribus est encore une tribu. Ceci conduit `a la d´efinition suivante.
D´efinition 1.1.2 Soit ( un sous-ensemble de {(E). Il existe alors une plus petite tribu sur
E qui contienne (. Cette tribu not´ee σ(() peut ˆetre d´efinie par
σ(() =
¸
A tribu,C⊂A
/.
σ(() est appel´ee la tribu engendr´ee par (.
Tribu bor´elienne. Pour donner un premier exemple de l’int´erˆet de la notion de tribu
engendr´ee, consid´erons le cas o` u E est un espace topologique.
D´efinition 1.1.3 Supposons que E est un espace topologique, et soit O la classe des ouverts
de E. La tribu σ(O) est appel´ee tribu bor´elienne et not´ee B(E).
La tribu bor´elienne est donc la plus petite tribu qui contienne tous les ouverts de E. Les
´el´ements de B(E) sont appel´es bor´eliens de E.
Dans la suite, `a chaque fois que l’on consid´erera un espace topologique, par exemple R
ou R
d
, on supposera sauf indication du contraire qu’il est muni de sa tribu bor´elienne.
Exercice. V´erifier que la tribu B(R) est aussi engendr´ee par les intervalles ]a, b[, a, b ∈ R,
a < b, ou par les intervalles ] − ∞, a[, a ∈ R, ou encore les intervalles ] − ∞, a[, a ∈ Q (on
peut aussi remplacer intervalles ouverts par intervalles ferm´es).
Tribu-produit. Un deuxi`eme exemple important de la notion de tribu engendr´ee est la
tribu-produit.
D´efinition 1.1.4 Soient (E
1
, /
1
) et (E
2
, /
2
) deux espaces mesurables. La tribu-produit est
la tribu sur E
1
E
2
d´efinie par
/
1
⊗/
2
= σ(A
1
A
2
; A
1
∈ /
1
, A
2
∈ /
2
¦.
Exercice. V´erifier que
B(R
2
) = B(R) ⊗B(R).
10
1.2 Mesures positives
Soit (E, /) un espace mesurable.
D´efinition 1.2.1 Une mesure positive sur (E, /) est une application µ : / −→ [0, ∞] qui
v´erifie les propri´et´es suivantes:
(i) µ(∅) = 0 ;
(ii) Pour toute famille (A
n
)
n∈N
de parties mesurables disjointes,
µ

¸
n∈N
A
n

=
¸
n∈N
µ(A
n
).
Remarquons qu’il est important d’autoriser la valeur +∞. La propri´et´e (ii) est appel´ee
σ-additivit´e. Elle contient ´evidemment le cas particulier o` u les A
n
sont vides `a partir d’un
certain rang, ce qui donne la propri´et´e d’additivit´e finie.
Propri´et´es.
(1) Si A ⊂ B, µ(A) ≤ µ(B) et si de plus µ(A) < ∞,
µ(B`A) = µ(B) −µ(A) ;
(2) Si A, B ∈ /,
µ(A) + µ(B) = µ(A∪ B) + µ(A∩ B) ;
(3) Si A
n
∈ / et A
n
⊂ A
n+1
,
µ(
¸
n∈N
A
n
) = lim
n→∞
↑ µ(A
n
) ;
(4) Si B
n
∈ / et B
n+1
⊂ B
n
, et si µ(B
0
) < ∞,
µ(
¸
n∈N
B
n
) = lim
n→∞
↓ µ(B
n
) ;
(5) Si A
n
∈ /,
µ(
¸
n∈N
A
n
) ≤
¸
n∈N
µ(A
n
).
D´emontrons seulement (3),(4) et (5). Pour (3), on pose C
0
= A
0
et pour tout n ≥ 1,
C
n
= A
n
`A
n−1
de sorte que ∪A
n
= ∪C
n
. Puisque les C
n
sont disjoints,
µ(
¸
n∈N
A
n
) = µ(
¸
n∈N
C
n
) =
¸
n∈N
µ(C
n
) = lim
N→∞

N
¸
n=0
µ(C
n
) = lim
N→∞
↑ µ(A
N
).
11
Pour (4), on pose A
n
= B
0
`B
n
pour tout n, de sorte que la suite (A
n
) est croissante.
Alors
µ(B
0
) −µ(
¸
n∈N
B
n
) = µ(B
0
`
¸
n∈N
B
n
) = µ(
¸
n∈N
A
n
) = lim
n→∞
↑ µ(A
n
) = lim
n→∞
↑ (µ(B
0
) −µ(B
n
)).
La condition µ(B
0
) < ∞ est utilis´ee notamment pour ´ecrire µ(A
n
) = µ(B
0
) −µ(B
n
).
Enfin, pour (5), on pose C
0
= A
0
puis pour tout n ≥ 1,
C
n
= A
n
`
n−1
¸
k=0
A
k
.
Les ensembles C
n
sont disjoints et donc
µ(
¸
n∈N
A
n
) = µ(
¸
n∈N
C
n
) =
¸
n∈N
µ(C
n
) ≤
¸
n∈N
µ(A
n
).
Exemples.
(1) Si E = N, et / = {(N), la mesure de comptage est d´efinie par
µ(A) = Card(A).
(On peut d´efinir plus g´en´eralement la mesure de comptage sur (E, {(E)) lorsque E est
quelconque.) Cet exemple permet de voir que la condition µ(B
0
) < ∞ est n´ecessaire dans
la propri´et´e (4) ci-dessus : en prenant
B
n
= ¦n, n + 1, n + 2, . . .¦
on a µ(B
n
) = ∞ alors que ∩B
n
= ∅ et donc µ(∩B
n
) = 0.
(2) Soit (E, /) quelconque et soit x ∈ E. La mesure δ
x
d´efinie par
δ
x
(A) = 1
A
(x) =

1 si x ∈ A
0 si x / ∈ A
est appel´ee mesure de Dirac au point x. Plus g´en´eralement, si x
n
, n ∈ N sont des points de
E et α
n
∈ [0, ∞] on peut consid´erer la mesure
¸
α
n
δ
xn
d´efinie par
(
¸
α
n
δ
xn
)(A) =
¸
α
n
δ
xn
(A) =
¸
α
n
1
A
(x
n
).
(3) Mesure de Lebesgue. Il existe une unique mesure positive sur (R, B(R)), not´ee λ, telle
que pour tout intervalle ouvert ]a, b[ de R on ait λ(]a, b[) = b −a. L’existence et l’unicit´e de
cette mesure seront ´etablies plus loin.
D´efinitions.
• µ est dite finie si µ(E) < ∞ (la quantit´e µ(E) est la masse totale de µ).
• µ est une mesure de probabilit´e si µ(E) = 1.
• µ est dite σ-finie s’il existe une suite croissante de parties mesurables E
n
telles que
E =
¸
n∈N
E
n
et µ(E
n
) < ∞ pour tout n.
• x ∈ E est un atome de µ si µ(¦x¦) > 0 (on suppose que ¦x¦ ∈ /).
• La mesure µ est dite diffuse si elle n’a pas d’atomes.
12
1.3 Fonctions mesurables
D´efinition 1.3.1 Soient (E, /) et (F, B) deux espaces mesurables. Une application f :
E −→ F est dite mesurable si
∀B ∈ B , f
−1
(B) ∈ /.
Lorsque E et F sont des espaces topologiques munis de leurs tribus bor´eliennes, on dit aussi
que f est bor´elienne.
Proposition 1.3.1 La composition de deux applications mesurables est encore mesurable.
C’est imm´ediat en ´ecrivant (g ◦ f)
−1
(C) = f
−1
(g
−1
(C)).
Proposition 1.3.2 Pour que f soit mesurable, il suffit qu’il existe une sous-classe ( de B
telle que σ(() = B et telle que la propri´et´e f
−1
(B) ∈ / soit vraie pour tout B ∈ (.
Preuve. Soit
( = ¦B ∈ B : f
−1
(B) ∈ /¦.
Alors il est facile de v´erifier que ( est une tribu. Par hypoth`ese ( ⊂ (. Il en d´ecoule que (
contient σ(() = B, d’o` u le r´esultat recherch´e.
Exemples. (1) Dans le cas o` u (F, B) = (R, B(R)), il suffit pour montrer que f est mesurable
d’´etablir que les ensembles f
−1
(]a, b[), ou mˆeme les f
−1
(] −∞, a[) sont mesurables.
(2) Dans le cas o` u E et F sont des espaces topologiques munis de leurs tribus bor´eliennes,
toute application continue est aussi mesurable (prendre pour ( la classe des ouverts de F).
Op´erations sur les fonctions mesurables.
Lemme 1.3.3 Soient f
1
: (E, /) −→ (F
1
, B
1
) et f
2
: (E, /) −→ (F
2
, B
2
) deux applications
mesurables. Alors l’application produit f : (E, /) −→ (F
1
F
2
, B
1
⊗B
2
) d´efinie par f(x) =
(f
1
(x), f
2
(x)) est aussi mesurable.
Preuve. On applique la derni`ere proposition en prenant
( = ¦B
1
B
2
; B
1
∈ B
1
, B
2
∈ B
2
¦.
Puisque f
−1
(B
1
B
2
) = f
−1
1
(B
1
) ∩ f
−1
2
(B
2
) ∈ / on obtient imm´ediatement le r´esultat.
Remarque. La r´eciproque de la proposition (si f est mesurable, f
1
et f
2
le sont aussi) est
vraie et aussi facile.
Corollaire 1.3.4 Si f, g : (E, /) −→ (R, B(R)) sont mesurables, alors les fonctions f + g,
fg, inf(f, g), f
+
= sup(f, 0), f

= sup(−f, 0) sont mesurables.
13
La d´emonstration est facile : par exemple f + g est la compos´ee des deux applications
x −→ (f(x), g(x)) et (a, b) −→ a + b qui sont mesurables, la seconde parce que continue.
Rappelons que si (a
n
) est une suite d’´el´ements de
¯
R = R ∪ ¦−∞, +∞¦, on d´efinit
limsup a
n
= lim
n→∞

sup
k≥n
a
k

, liminf a
n
= lim
n→∞

inf
k≥n
a
k

,
les limites existant dans
¯
R. Alors, limsup a
n
et liminf a
n
sont respectivement la plus grande
et la plus petite valeur d’adh´erence de la suite (a
n
).
Proposition 1.3.5 Si f
n
est une suite de fonctions mesurables de E dans
¯
R, alors
sup
n
f
n
, inf
n
f
n
, limsup f
n
, liminf f
n
sont aussi mesurables. En particulier si la suite f
n
converge simplement, sa limite limf
n
est
mesurable. En g´en´eral, l’ensemble ¦x ∈ E : limf
n
(x) existe¦ est mesurable.
Preuve. Soit f(x) = inf f
n
(x). Il suffit de montrer que pour tout a ∈ R, f
−1
([−∞, a[) ∈ /.
Or
f
−1
([−∞, a[) = ¦x : inf f
n
(x) < a¦ =
¸
n
¦x : f
n
(x) < a¦
d’o` u le r´esultat. On traite de mˆeme le cas de sup f
n
.
Il en d´ecoule que
liminf f
n
= sup
n≥0

inf
k≥n
f
k

est mesurable.
Pour la derni`ere assertion, on ´ecrit
¦x ∈ E : limf
n
(x) existe¦ = ¦x ∈ E : liminf f
n
(x) = limsup f
n
(x)¦ = G
−1
(∆)
si Gest l’application mesurable G(x) = (liminf f
n
(x), limsup f
n
(x)) et ∆ d´esigne la diagonale
de
¯
R
2
, qui est mesurable parce que ferm´ee.
Notion de mesure-image.
D´efinition 1.3.2 Soit f : (E, /) −→ (F, B) une application mesurable, et soit µ une mesure
positive sur (E, /). La mesure-image de µ par f, not´ee f(µ) est la mesure positive sur (F, B)
d´efinie par
f(µ)(B) = µ(f
−1
(B)).
Il est facile de voir que la derni`ere formule d´efinit bien une mesure sur (F, B). Les mesures
µ et f(µ) ont mˆeme masse totale, mais il peut arriver que µ soit σ-finie sans que f(µ) le soit.
14
1.4 Classe monotone
D´efinition 1.4.1 Un sous-ensemble ´ de {(E) est appel´e classe monotone si
(i) E ∈ ´ ;
(ii) Si A, B ∈ ´ et A ⊂ B, alors B`A ∈ ´ ;
(iii) Si A
n
∈ ´ et A
n
⊂ A
n+1
, alors
¸
n
A
n
∈ ´.
Toute tribu est aussi une classe monotone. Comme dans le cas des tribus, on voit
imm´ediatement que toute intersection de classes monotones est encore une classe monotone.
Si ( est une partie quelconque de {(E), on peut donc d´efinir la classe monotone engendr´ee
par (, not´ee ´((), en posant
´(() =
¸
M classe monotone, C⊂M
´.
Th´eor`eme 1.4.1 (Lemme de classe monotone) Si ( ⊂ {(E) est stable par intersec-
tions finies, alors ´(() = σ(().
Preuve. Puisque toute tribu est une classe monotone, il est clair qu’on a ´(() ⊂ σ(().
Pour ´etablir l’inclusion inverse, il suffit de montrer que ´(() est une tribu. Or une classe
monotone est une tribu si et seulement si elle est stable par intersections finies (en effet,
par passage au compl´ementaire, elle sera alors stable par r´eunion finies, puis par passage
`a la limite croissant par r´eunion d´enombrable). Montrons donc que ´(() est stable par
intersections finies.
Soit A ∈ ( fix´e. Posons
´
1
= ¦B ∈ ´(() : A ∩ B ∈ ´(()¦.
Puisque ( est stable par intersections finies, il est clair que ( ⊂ ´
1
. V´erifions ensuite que
´
1
est une classe monotone:
• E ∈ ´
1
est imm´ediat.
• Si B, B

∈ ´
1
et B ⊂ B

, on a A ∩ (B

`B) = (A ∩ B

)`(A ∩ B) ∈ ´(() et donc
B

`B ∈ ´
1
.
• Si B
n
∈ ´
1
pour tout n et la suite B
n
croˆıt, on a A ∩ (∪B
n
) = ∪(A ∩ B
n
) ∈ ´(() et
donc ∪B
n
∈ ´
1
.
Puisque ´
1
est une classe monotone qui contient (, ´
1
contient aussi ´((). On a donc
montr´e
∀A ∈ (, ∀B ∈ ´((), A∩ B ∈ ´(().
15
Ce n’est pas encore le r´esultat recherch´e, mais on peut appliquer la mˆeme id´ee une seconde
fois. Pr´ecis´ement, on fixe maintenant B ∈ ´((), et on pose
´
2
= ¦A ∈ ´(() : A ∩ B ∈ ´(()¦.
D’apr`es la premi`ere ´etape de la preuve, ( ⊂ ´
2
. En reprenant exactement les mˆemes
arguments que dans la premi`ere ´etape, on montre que ´
2
est une classe monotone. Il en
d´ecoule que ´(() ⊂ ´
2
, ce qui montre bien que ´(() est stable par intersections finies et
termine la preuve.
Corollaire 1.4.2 Soient µ et ν deux mesures sur (E, /). Supposons qu’il existe une classe
( ⊂ / stable par intersections finies, telle que σ(() = / et µ(A) = ν(A) pour tout A ∈ (.
(1) Si µ(E) = ν(E) < ∞, on a µ = ν.
(2) S’il existe une suite croissante de parties E
n
∈ ( telles que E = ∪E
n
et µ(E
n
) =
ν(E
n
) < ∞, on a µ = ν.
Preuve. (1) Soit ( = ¦A ∈ / : µ(A) = ν(A)¦. Par hypoth`ese, ( ⊂ (. Par ailleurs, on
v´erifie ais´ement que ( est une classe monotone : par exemple, si A, B ∈ ( et A ⊂ B, on a
µ(B`A) = µ(B) −µ(A) = ν(B) −ν(A) = ν(B`A), et donc B`A ∈ E (noter qu’on utilise ici
le fait que µ et ν sont finies).
On conclut que ( contient ´(() = σ(() = / (la premi`ere ´egalit´e d’apr`es le th´eor`eme
de classe monotone, la seconde par hypoth`ese). Donc ( = /, c’est-`a-dire µ = ν.
(2) Notons, pour tout n, µ
n
la restriction de µ `a E
n
et ν
n
la restriction de ν `a E
n
:
∀A ∈ / , µ
n
(A) = µ(A∩ E
n
), ν
n
(A) = ν(A ∩ E
n
).
On peut appliquer la partie (1) `a µ
n
et ν
n
, et on trouve µ
n
= ν
n
. Finalement, en utilisant
les propri´et´es de limite croissante des mesures, pour tout A ∈ /,
µ(A) = lim ↑ µ(A∩ E
n
) = lim ↑ ν(A ∩ E
n
) = ν(A).
Cons´equence. Unicit´e de la mesure de Lebesgue. Il existe au plus une mesure λ sur
(R, B(R)) telle que pour tout intervalle ouvert non vide ]a, b[, on ait λ(]a, b[) = b − a. En
effet, si λ

est une seconde mesure ayant la mˆeme propri´et´e, on peut appliquer `a λ et λ

la
partie (2) du corollaire pr´ec´edent, en prenant pour ( la classe des intervalles ouverts (dont
on sait qu’elle engendre la tribu bor´elienne) et E
n
=] −n, n[ pour tout n.
De la mˆeme fa¸ con, on d´eduit du corollaire pr´ec´edent qu’une mesure finie µ sur R est
caract´eris´ee par les valeurs de µ(] −∞, a]) pour tout a ∈ R.
16
Chapitre 2
Int´egration par rapport `a une mesure
Le premier objectif de ce chapitre est de construire l’int´egrale de fonctions mesurables. La
d´efinition est facile pour les fonctions dites ´etag´ees, qui ne prennent qu’un nombre fini de
valeurs. Ensuite l’int´egrale d’une fonction mesurable positive est d´efinie comme le supremum
des int´egrales des fonctions ´etag´ees qui la minorent. Pour les fonctions de signe quelconque,
on raisonne par lin´earit´e en se limitant aux fonctions dites int´egrables, dont la valeur absolue
est d’int´egrale finie. Une fois construite l’int´egrale, on ´etablit les trois grands th´eor`emes de
convergence de la th´eorie, `a savoir le th´eor`eme de convergence monotone, le lemme de Fatou
et le th´eor`eme de convergence domin´ee. Ces trois ´enonc´es visent `a donner des conditions
assurant que l’int´egrale de la limite d’une suite de fonctions est la limite des int´egrales de
ces fonctions. Le dernier paragraphe donne des applications importantes `a la continuit´e ou
la d´erivabilit´e d’int´egrales d´ependant d’un param`etre.
2.1 Int´egration de fonctions positives
On se donne un espace mesur´e, c’est-`a-dire un espace mesurable (E, /) muni d’une mesure
µ.
Fonctions ´etag´ees. Une fonction mesurable f `a valeurs dans R est dite ´etag´ee si elle ne
prend qu’un nombre fini de valeurs. Si α
1
, α
2
, . . . , α
n
sont les valeurs prises par f, qu’on
peut supposer rang´ees par ordre croissant α
1
< α
2
< < α
n
, on a alors
f(x) =
n
¸
i=1
α
i
1
A
i
(x)
o` u, pour chaque i ∈ ¦1, . . . , n¦, A
i
= f
−1
(¦α
i
¦) ∈ /. L’´ecriture pr´ec´edente sera appel´ee
l’´ecriture canonique de f.
D´efinition 2.1.1 Supposons f `a valeurs dans R
+
. L’int´egrale de f par rapport `a µ est alors
d´efinie par

f dµ =
n
¸
i=1
α
i
µ(A
i
)
avec la convention 0.∞ = 0 dans le cas o` u α
i
= 0 et µ(A
i
) = ∞.
17
On a a priori

fdµ ∈ [0, ∞].
Supposons qu’on ait une autre ´ecriture de f sous la forme
f =
m
¸
j=1
β
j
1
B
j
les ensembles mesurables B
j
formant toujours une partition de E mais les nombres β
j
n’´etant
plus n´ecessairement distincts. Alors il est facile de v´erifier qu’on a aussi

f dµ =
m
¸
j=1
β
j
µ(B
j
).
En effet, pour chaque i ∈ ¦1, . . . , n¦, A
i
doit ˆetre la r´eunion disjointe des ensembles B
j
pour
les indices j tels que β
j
= α
i
. Il suffit alors d’utiliser la propri´et´e d’additivit´e de la mesure
pour ´ecrire
µ(A
i
) =
¸
{j:β
j

i
}
µ(B
j
)
ce qui conduit au r´esultat annonc´e.
Propri´et´es. Soient f et g deux fonctions ´etag´ees positives.
(1) Pour tous a, b ≥ 0,

(af + bg)dµ = a

fdµ + b

gdµ.
(2) Si f ≤ g,

fdµ ≤

gdµ.
Preuve. (1) Soient
f =
n
¸
i=1
α
i
1
A
i
, g =
m
¸
k=1
α

k
1
A

k
les ´ecritures canoniques de f et g. En ´ecrivant chaque A
i
comme la r´eunion disjointe des
ensembles A
i
∩ A

k
, k ∈ ¦1, . . . , m¦, et de mˆeme pour chaque A

k
, on voit qu’on peut ´ecrire
f =
p
¸
j=1
β
j
1
B
j
, g =
p
¸
j=1
γ
j
1
B
j
avec les mˆemes ensembles mesurables disjoints B
j
(mais les nombres β
j
, resp. γ
j
, non
n´ecessairement distincts). D’apr`es la remarque suivant la d´efinition, on a

f dµ =
p
¸
j=1
β
j
µ(B
j
) ,

g dµ =
p
¸
j=1
γ
j
µ(B
j
).
et de mˆeme

(af + bg)dµ =
¸
p
j=1
(aβ
j
+ bγ
j
) µ(B
j
), d’o` u le r´esultat voulu.
18
(2) On applique (1) en ´ecrivant

gdµ =

fdµ +

(g −f)dµ ≥

f dµ.

Notons c
+
l’espace des fonctions ´etag´ees positives.
D´efinition 2.1.2 Soit f : E −→ [0, ∞] une fonction mesurable. On pose

f dµ = sup
h∈E
+
,h≤f

h dµ.
La propri´et´e (2) ci-dessus montre que cette d´efinition est coh´erente avec la pr´ec´edente
quand f est ´etag´ee.
On notera indiff´eremment

fdµ =

f(x)dµ(x) =

f(x)µ(dx)
et on trouve parfois la notation 'µ, f` ou mˆeme µ(f).
Propri´et´es.
(1) Si f ≤ g,

fdµ ≤

gdµ (´evident sur la d´efinition)
(2) Si µ(¦x ∈ E : f(x) > 0¦) = 0, alors

fdµ = 0. (en effet il suffit de le v´erifier lorsque
f est ´etag´ee, mais alors c’est ´evident sur la d´efinition)
Th´eor`eme 2.1.1 (Th´eor`eme de convergence monotone) Soit (f
n
) une suite croissante
de fonctions mesurables positives (`a valeurs dans [0, ∞]), et soit f = lim ↑ f
n
. Alors

fdµ = lim
n→∞

f
n
dµ.
Preuve. D’apr`es la propri´et´e (1) ci-dessus, on a

fdµ ≥ lim
n→∞

f
n

et il suffit donc d’´etablir l’autre in´egalit´e. Pour cela, choisissons une fonction ´etag´ee positive
h =
m
¸
i=1
α
i
1
A
i
avec h ≤ f. Soit a ∈ [0, 1[, et
E
n
= ¦x ∈ E : ah(x) ≤ f
n
(x)¦.
Alors E
n
est mesurable. De plus en utilisant le fait que f
n
croˆıt vers f, et la condition a < 1,
on voit que E est la r´eunion croissante des ensembles E
n
.
19
Ensuite on remarque qu’on a l’in´egalit´e f
n
≥ a1
En
h, d’o` u

f
n
dµ ≥

a1
En
h dµ = a
m
¸
i=1
α
i
µ(A
i
∩ E
n
).
Puisque E
n
↑ E on a A
i
∩E
n
↑ A
i
et µ(A
i
∩E
n
) ↑ µ(A
i
) quand n → ∞, d’apr`es les propri´et´es
´el´ementaires des mesures. En passant `a la limite croissante il vient
lim
n→∞

f
n
dµ ≥ a
m
¸
i=1
α
i
µ(A
i
) = a

hdµ.
En faisant tendre a vers 1, on trouve
lim
n→∞

f
n
dµ ≥

hdµ.
Comme

fdµ est d´efinie par le supremum des quantit´es de droite lorsque h d´ecrit l’ensemble
des fonctions ´etag´ees positives major´ees par f, on obtient bien l’in´egalit´e recherch´ee.
Dans toute la suite “fonction mesurable positive” signifie fonction mesurable `a valeurs
dans [0, ∞].
Proposition 2.1.2 (1) Soit f une fonction mesurable positive. Il existe une suite croissante
(f
n
) de fonctions ´etag´ees positives telle que f
n
↑ f.
(2) Si f et g sont mesurables positives et a, b ∈ R
+
,

(af + bg)dµ = a

fdµ + b

gdµ.
(3) Si (f
n
) est une suite quelconque de fonctions mesurables positives,

¸
n
f
n
dµ =
¸
n

f
n
dµ.
Preuve. (1) Pour tout n ≥ 1 et tout i ∈ ¦0, 1, . . . , n2
n
−1¦, posons
A
n
= ¦x ∈ E : f(x) ≥ n¦
B
n,i
= ¦x ∈ E : i2
−n
≤ f(x) < (i + 1)2
−n
¦.
Soit ensuite f
n
la fonction ´etag´ee
f
n
=
n2
n
−1
¸
i=0
i
2
n
1
B
n,i
+ n1
An
.
On v´erifie ais´ement que f
n
(x) ↑ f(x) pour tout x ∈ E.
20
(2) On construit deux suites de fonctions ´etag´ees positives (f
n
), (g
n
) avec f
n
↑ f, g
n
↑ g.
Alors on a aussi af
n
+ bg
n
↑ af + bg, et en utilisant le th´eor`eme de convergence monotone
et les propri´et´es de l’int´egrale des fonctions ´etag´ees,

(af +bg)dµ = lim ↑

(af
n
+bg
n
)dµ = lim ↑ (a

f
n
dµ+b

g
n
dµ) = a

fdµ+b

gdµ.
(3) Cette assertion d´ecoule de (2) (cas d’une somme finie) et du th´eor`eme de convergence
monotone.
Remarque. Consid´erons le cas particulier o` u E = N et µ est la mesure de comptage. Alors
il est facile de voir que

f dµ =
¸
k∈N
f(k)
et (3) redonne la propri´et´e bien connue ´enon¸ cant que pour toute suite double (a
n,k
) de r´eels
positifs,
¸
k∈N

¸
n∈N
a
n,k

=
¸
n∈N

¸
k∈N
a
n,k

.
Corollaire 2.1.3 Soit f mesurable positive, et pour tout A ∈ /, soit
ν(A) =

1
A
f dµ
(not.)
=

A
f dµ.
Alors ν est une mesure positive sur (E, /), appel´ee mesure de densit´e f par rapport `a µ, et
not´ee ν = f µ.
Preuve. Il est imm´ediat que ν(∅) = 0. Par ailleurs, si (A
n
) est une suite d’ensembles
mesurables disjoints,
ν

¸
n∈N
A
n

=

¸
n∈N
1
An
f dµ =
¸
n∈N

1
An
fdµ =
¸
n∈N
ν(A
n
)
en utilisant la propri´et´e (3) ci-dessus.
Remarque. On a µ(A) = 0 ⇒ ν(A) =

1
A
f dµ = 0.
On dit qu’une propri´et´e est vraie µ presque partout, ou µ p.p. ou mˆeme simplement
p.p. s’il n’y a pas ambigu¨ıt´e, si elle est vraie en dehors d’un ensemble de mesure nulle. Par
exemple si f et g sont deux fonctions mesurables, f = g p.p. signifie
µ(¦x ∈ E : f(x) = g(x)¦) = 0.
Proposition 2.1.4 Soit f une fonction mesurable positive.
(1) Pour tout a > 0,
µ(¦x ∈ E : f(x) ≥ a¦) ≤
1
a

fdµ.
21
(2) On a

fdµ < ∞ ⇒ f < ∞ p.p.
(3) On a

fdµ = 0 ⇔ f = 0 p.p.
(4) Si g est une autre fonction mesurable positive,
f = g p.p. ⇒

fdµ =

gdµ.
Preuve. (1) Posons A
a
= ¦x ∈ E : f(x) ≥ a¦. Alors f ≥ a1
Aa
et donc

fdµ ≥

a1
Aa
dµ = aµ(A
a
).
(2) Pour tout n ≥ 1, soit A
n
= ¦x ∈ E : f(x) ≥ n¦ et soit A

= ¦x ∈ E : f(x) = ∞¦.
Alors, en utilisant (1),
µ(A

) = µ

¸
n≥1
A
n

= lim
n→∞
↓ µ(A
n
) ≤ lim
n→∞
1
n

fdµ = 0.
(3) L’implication ⇐ a d´ej`a ´et´e vue. Pour ⇒, soit, pour tout n ≥ 1, B
n
= ¦x ∈ E :
f(x) ≥ n
−1
¦. Alors, d’apr`es (1),
µ(B
n
) ≤ n

fdµ = 0
et donc µ(B
n
) = 0 ce qui entraˆıne µ(¦x : f(x) > 0¦) = µ

¸
n≥1
B
n

= 0.
(4) Utilisons la notation f ∨ g = sup(f, g) et f ∧ g = inf(f, g). Alors f ∨ g = f ∧ g p.p.,
d’o` u

(f ∨ g)dµ =

(f ∧ g)dµ +

(f ∨ g −f ∧ g)dµ =

(f ∧ g)dµ,
puisque f ∨ g −f ∧ g = 0 p.p. Puisque f ∧ g ≤ f ≤ f ∨g, et de mˆeme pour g, il en d´ecoule
que

fdµ =

(f ∨ g)dµ =

gdµ.
Th´eor`eme 2.1.5 (Lemme de Fatou) Soit (f
n
) une suite quelconque de fonctions mesura-
bles positives. Alors,

(liminf f
n
)dµ ≤ liminf

f
n
dµ.
22
Preuve. On a
liminf f
n
= lim
k→∞

inf
n≥k
f
n

et donc d’apr`es le th´eor`eme de convergence monotone,

(liminf f
n
)dµ = lim
k→∞

inf
n≥k
f
n

dµ.
Par ailleurs, pour tout entier p ≥ k,
inf
n≥k
f
n
≤ f
p
ce qui entraˆıne

inf
n≥k
f
n

dµ ≤ inf
p≥k

f
p
dµ.
En passant `a la limite croissante quand k ↑ ∞, il vient
lim
k→∞

inf
n≥k
f
n

dµ ≤ lim
k→∞
↑ inf
p≥k

f
p
dµ = liminf

f
n
dµ,
ce qui termine la preuve.
2.2 Fonctions int´egrables
D´efinition 2.2.1 Soit f : E −→R une fonction mesurable. On dit que f est int´egrable par
rapport `a µ (ou µ-int´egrable) si

[f[ dµ < ∞.
Dans ce cas on pose

f dµ =

f
+
dµ −

f


o` u f
+
= sup(f, 0), resp. f

= sup(−f, 0) est la partie positive, resp. n´egative, de f. (Noter
que f
+
et f

sont mesurables et que f = f
+
−f

et [f[ = f
+
+ f

.)
Remarque. On a

f
+
dµ ≤

[f[dµ < ∞ et de mˆeme

f

dµ < ∞, ce qui montre que la
d´efinition de

fdµ a bien un sens. Dans le cas o` u f est positive, cette d´efinition co¨ıncide
bien sˆ ur avec la pr´ec´edente.
On note L
1
(E, /, µ) l’espace des fonctions µ-int´egrables. On utilisera parfois la notation
L
1
+
(E, /, µ) pour les fonctions µ-int´egrables `a valeurs positives.
Propri´et´es.
(a) [

fdµ[ ≤

[f[dµ pour f ∈ L
1
(E, /, µ).
(b) L
1
(E, /, µ) est un espace vectoriel et l’application f →

fdµ est une forme lin´eaire
sur cet espace vectoriel.
(c) Si f, g ∈ L
1
(E, /, µ) et f ≤ g, alors

fdµ ≤

gdµ.
23
(d) Si f, g ∈ L
1
(E, /, µ) et f = g µ p.p., alors

fdµ =

gdµ.
Preuve. (a) On ´ecrit
[

fdµ[ = [

f
+
dµ −

f

dµ[ ≤ [

f
+
dµ[ +[

f

dµ[ =

[f[dµ.
(b) Soit f ∈ L
1
(E, /, µ). Pour a ∈ R,

[af[dµ = [a[

[f[dµ < ∞.
Si a ≥ 0,

(af)dµ =

(af)
+
dµ −

(af)

dµ = a

fdµ
et si a < 0,

(af)dµ =

(af)
+
dµ −

(af)

dµ = (−a)

f

dµ + a

f
+
dµ = a

fdµ.
De plus, si f, g ∈ L
1
(E, /, µ), l’in´egalit´e [f + g[ ≤ [f[ + [g[ entraˆıne que f + g ∈ L
1
. En
outre,
(f + g)
+
−(f + g)

= f + g = f
+
−f

+ g
+
−g

entraˆıne
(f + g)
+
+ f

+ g

= (f + g)

+ f
+
+ g
+
.
En utilisant l’additivit´e de l’int´egrale pour les fonctions positives,

(f + g)
+
dµ +

f

dµ +

g

dµ =

(f + g)

dµ +

f
+
dµ +

g
+
dµ,
d’o` u, puisque toutes les int´egrales sont finies,

(f + g)
+
dµ −

(f + g)

dµ =

f
+
dµ −

f

dµ +

g
+
dµ −

g

dµ,
ce qui donne bien

(f + g)dµ =

fdµ +

gdµ.
(c) Il suffit d’´ecrire

gdµ =

fdµ +

(g −f)dµ.
(d) L’´egalit´e f = g p.p. entraˆıne f
+
= g
+
et f

= g

p.p. Il suffit alors d’utiliser les
r´esultats vus dans le cas des fonctions positives.
Remarque. On combine facilement (c) et (d) pour obtenir que, si f, g ∈ L
1
(E, /, µ) et
f ≤ g p.p., alors

fdµ ≤

gdµ.
Extension au cas complexe. Soit f : E −→ C une fonction mesurable (cela ´equivaut `a
dire que Re(f) et Im(f) sont toutes deux mesurables). On dit que f est int´egrable et on
note f ∈ L
1
C
(E, /, µ) si

[f[dµ < ∞.
24
On pose alors

f dµ =

Re(f)dµ + i

Im(f)dµ.
Les propri´et´es (a),(b) et (d) ci-dessus restent vraies si L
1
(E, /, µ) est remplac´e par L
1
C
(E, /, µ)
(pour montrer (a), remarquer que
[

f dµ[ = sup
a∈C,|a|=1
a

fdµ
o` u a z d´esigne le produit scalaire dans C identifi´e `a R
2
).
Th´eor`eme 2.2.1 (Th´eor`eme de convergence domin´ee) Soit (f
n
) une suite de fonc-
tions dans L
1
(E, /, µ) (resp. dans L
1
C
(E, /, µ)). On suppose:
(1) Il existe une fonction f mesurable `a valeurs dans R (resp. dans C) telle que
f
n
(x) −→ f(x) µ p.p.
(2) Il existe une fonction g : E −→R
+
mesurable telle que

gdµ < ∞ et pour tout n,
[f
n
[ ≤ g µ p.p.
Alors f ∈ L
1
(E, /, µ) (resp. f ∈ L
1
C
(E, /, µ)), et on a
lim
n→∞

f
n
dµ =

fdµ
et
lim
n→∞

[f
n
−f[dµ = 0.
Preuve. On suppose d’abord que les hypoth`eses suivantes plus fortes sont v´erifi´ees:
(1)’ Pour tout x ∈ E,
f
n
(x) −→ f(x)
(2)’ Il existe une fonction g : E −→ R
+
mesurable telle que

gdµ < ∞ et pour tout n
et tout x ∈ E
[f
n
(x)[ ≤ g(x).
La propri´et´e f ∈ L
1
est alors claire puisque [f[ ≤ g et

gdµ < ∞. Ensuite, puisque
[f −f
n
[ ≤ 2g et [f −f
n
[ −→ 0, on peut appliquer le lemme de Fatou pour trouver
liminf

(2g −[f −f
n
[) dµ ≥

liminf(2g −[f −f
n
[) dµ = 2

gdµ.
Par lin´earit´e de l’int´egrale, il vient
2

gdµ −limsup

[f −f
n
[dµ ≥ 2

gdµ,
25
d’o` u
limsup

[f −f
n
[dµ = 0,
et donc

[f −f
n
[dµ −→ 0. Finalement il suffit d’´ecrire

fdµ −

f
n

[f −f
n
[dµ.
Dans le cas g´en´eral o` u on suppose seulement (1) et (2), on pose
A = ¦x ∈ E : f
n
(x) −→ f(x) et pour tout n, [f
n
(x)[ ≤ g(x)¦.
Alors µ(A
c
) = 0, et on peut appliquer la premi`ere partie de la preuve aux fonctions
˜
f
n
(x) = 1
A
(x)f
n
(x) ,
˜
f(x) = 1
A
(x)f(x).
On a f =
˜
f p.p., f
n
=
˜
f
n
p.p. et donc

f
n
dµ =

˜
f
n
dµ,

fdµ =

˜
fdµ et

[f
n
− f[dµ =

[
˜
f
n

˜
f[dµ. Les r´esultats recherch´es d´ecoulent du cas o` u (1)’ et (2)’ sont v´erifi´es.
2.3 Int´egrales d´ependant d’un param`etre
On se donne un espace m´etrique (U, d) qui correspond `a l’espace des param`etres. Soit une
application f : U E −→R (ou C).
Th´eor`eme 2.3.1 Soit u
0
∈ E. Supposons
(i) pour tout u ∈ U, l’application x −→ f(u, x) est mesurable;
(ii) µ(dx) p.p. l’application u −→ f(u, x) est continue en u
0
;
(iii) il existe une fonction g ∈ L
1
+
(E, /, µ) telle que pour tout u ∈ U,
[f(u, x)[ ≤ g(x) µ(dx) p.p.
Alors la fonction F(u) =

f(u, x)µ(dx) est bien d´efinie en tout point u ∈ U et elle est
continue en u
0
.
Preuve. L’hypoth`ese (iii) entraˆıne que la fonction x −→ f(u, x) est int´egrable et donc F(u)
est bien d´efinie. Ensuite, soit (u
n
)
n≥1
une suite convergeant vers u
0
. L’hypoth`ese (ii) assure
que
f(u
n
, x) −→
n→∞
f(u
0
, x) , µ p.p.
Grˆace `a l’hypoth`ese de domination (iii), on peut appliquer le th´eor`eme de convergence
domin´ee, qui donne
lim
n→∞

f(u
n
, x) µ(dx) =

f(u
0
, x) µ(dx).

26
Exemples. (a) Soit µ une mesure diffuse sur (R, B(R)). Si ϕ ∈ L
1
(R, B(R), µ), la fonction
F(u) =

]−∞,u]
ϕ(x) µ(dx) =

1
]−∞,u]
(x)ϕ(x) µ(dx)
est continue. Pour le voir, il suffit d’appliquer le th´eor`eme `a f(u, x) = 1
]−∞,u]
(x)ϕ(x), en
prenant g = [ϕ[ et en observant que pour u
0
∈ R fix´e, la fonction u −→ f(u, x) est continue
en u
0
pour tout x ∈ R`¦u
0
¦.
(b) Transform´ee de Fourier. Si ϕ ∈ L
1
(R, B(R), λ), la fonction
ˆ ϕ(u) =

e
iux
ϕ(x) λ(dx)
est continue sur R.
(c) Convolution. Soit ϕ ∈ L
1
(R, B(R), λ), et soit h une fonction continue born´ee de R
dans R. Alors la fonction h ∗ ϕ d´efinie sur R par
h ∗ ϕ(u) =

h(u −x) ϕ(x) λ(dx)
est continue (et born´ee).
Nous passons maintenant `a un th´eor`eme de d´erivabilit´e sous le signe int´egrale, et pour
cela nous supposons que U = I est un intervalle ouvert de R. Soit `a nouveau une application
f : U E −→R (ou C).
Th´eor`eme 2.3.2 Soit u
0
∈ I. Supposons que
(i) pour tout u ∈ I, l’application x −→ f(u, x) est dans L
1
(E, /, µ);
(ii) µ(dx) p.p. l’application u −→ f(u, x) est d´erivable en u
0
de d´eriv´ee not´ee
∂f
∂u
(u
0
, x) ;
(iii) il existe une fonction g ∈ L
1
+
(E, /, µ) telle que pour tout u ∈ I,
[f(u, x) −f(u
0
, x)[ ≤ g(x)[u −u
0
[ µ(dx) p.p.
Alors la fonction F(u) =

f(u, x)µ(dx) est d´erivable en u
0
, de d´eriv´ee
F

(u
0
) =

∂f
∂u
(u
0
, x) µ(dx).
Remarque. A priori la d´eriv´ee
∂f
∂u
(u
0
, x) n’est d´efinie (par (ii)) que pour x appartenant
au compl´ementaire d’un ensemble de mesure nulle. On peut la prolonger `a E tout entier
de mani`ere arbitraire (par exemple par la valeur 0), de fa¸ con `a d´efinir l’int´egrale qui donne
F

(u
0
).
27
Preuve. Soit (u
n
)
n≥1
une suite dans I`¦u
0
¦ convergeant vers u
0
, et soit
ϕ
n
(x) =
f(u
n
, x) −f(u
0
, x)
u
n
−u
0
.
Grˆace `a (ii), ϕ
n
(x) converge vers
∂f
∂u
(u
0
, x), µ(dx) p.p. De plus l’hypoth`ese (iii) permet
d’appliquer le th´eor`eme de convergence domin´ee et d’obtenir
lim
n→∞
F(u
n
) −F(u
0
)
u
n
−u
0
= lim
n→∞

ϕ
n
(x) µ(dx) =

∂f
∂u
(u
0
, x) µ(dx).

Remarque. Dans de nombreuses applications, les hypoth`eses (ii) et (iii) sont remplac´ees
par les hypoth`eses plus fortes
(ii)’ µ(dx) p.p. l’application u −→ f(u, x) est d´erivable sur I;
(iii)’ il existe une fonction g ∈ L
1
+
(E, /, µ) telle que µ(dx) p.p.,
∀u ∈ I ,

∂f
∂u
(u, x)

≤ g(x).
(Noter que (iii)’⇒(iii) grˆace au th´eor`eme des accroissements finis.) Sous ces hypoth`eses, la
fonction F est d´erivable sur I. L’exercice ci-dessous montre cependant que la forme plus
pr´ecise de l’´enonc´e du th´eor`eme est parfois n´ecessaire.
Exemples. (a) Soit ϕ ∈ L
1
(R, B(R), λ) telle que

[xϕ(x)[ λ(dx) < ∞.
Alors la transform´ee de Fourier ˆ ϕ(u) est d´erivable sur R, et
ˆ ϕ

(u) = i

xe
iux
ϕ(x) λ(dx).
(b) Soit ϕ ∈ L
1
(R, B(R), λ), et soit h une fonction de R −→R une fonction de classe C
1
,
born´ee ainsi que sa d´eriv´ee. Alors la convolution h ∗ ϕ est d´erivable sur R, et
(h ∗ ϕ)

= h

∗ ϕ.
On peut bien sˆ ur it´erer. Par exemple si h est de classe C

`a support compact, h ∗ ϕ est
aussi de classe C

.
Exercice. Soit µ une mesure diffuse sur (R, B(R)) et soit ϕ ∈ L
1
(R, B(R), µ) telle que

[xϕ(x)[ µ(dx) < ∞.
Pour tout u ∈ R, on pose
F(u) =

R
(u −x)
+
ϕ(x) µ(dx).
Montrer que F est d´erivable sur R, de d´eriv´ee
F

(u) =

]−∞,u]
ϕ(x) µ(dx).
28
Chapitre 3
Construction de mesures
Le chapitre pr´ec´edent partait de la donn´ee d’une mesure sur un espace mesurable. Nous
montrons maintenant comment on construit des mesures int´eressantes, et particuli`erement
la mesure de Lebesgue. Le premier paragraphe introduit la notion de mesure ext´erieure,
v´erifiant des propri´et´es des propri´et´es plus faibles que celles d’une mesure, et montre com-
ment `a partir d’une mesure ext´erieure on peut construire une (vraie) mesure sur une tribu
convenable. Cette approche, qui est celle qu’avait utilis´ee Lebesgue, permet assez facilement
de construire la mesure de Lebesgue sur R ou sur R
d
. Nous discutons aussi diverses pro-
pri´et´es de la mesure de Lebesgue, ainsi que ses liens avec l’int´egrale de Riemann. Une autre
application est l’int´egrale de Stieltjes, qui correspond `a l’int´egrale par rapport `a une mesure
finie arbitraire sur la droite r´eelle.
3.1 Mesures ext´erieures
D´efinition 3.1.1 Soit E un ensemble quelconque. Une application µ

: {(E) −→ [0, ∞] est
appel´ee mesure ext´erieure si
(i) µ

(∅) = 0;
(ii) µ

est croissante : A ⊂ B ⇒ µ

(A) ≤ µ

(B);
(iii) µ

est σ-sous-additive : pour toute suite A
k
, k ∈ N d’´el´ements de {(E),
µ

(
¸
k∈N
A
k
) ≤
¸
k∈N
µ

(A
k
).
Les propri´et´es d’une mesure ext´erieure sont moins contraignantes que celles d’une mesure.
Remarquons cependant qu’une mesure ext´erieure est d´efinie sur l’ensemble de toutes les
parties de E et non pas seulement sur une tribu.
Nous verrons plus loin sur des exemples comment on construit des mesures ext´erieures.
Notre objectif dans ce paragraphe est de montrer comment `a partir d’une mesure ext´erieure
µ

on construit une mesure sur une tribu ´(µ

) qui d´epend de µ

. Dans la suite de cette
partie, on fixe une mesure ext´erieure µ

.
29
D´efinition 3.1.2 Une partie B de E est dite µ

-mesurable si pour toute partie A de E,
µ

(A) = µ

(A∩ B) + µ

(A∩ B
c
).
On note ´(µ

) l’ensemble des parties µ

-mesurables.
Remarque. L’in´egalit´e µ

(A) ≤ µ

(A ∩ B) + µ

(A ∩ B
c
) est toujours v´erifi´ee par σ-sous-
additivit´e. Pour v´erifier que B est µ

-mesurable, c’est donc l’in´egalit´e inverse qu’il importe
de v´erifier.
Th´eor`eme 3.1.1 (1) ´(µ

) est une tribu, qui contient toutes les parties B de E telles que
µ

(B) = 0.
(2) La restriction de µ

`a ´(µ

) est une mesure.
Preuve. (1) Notons ´ = ´(µ

) pour simplifier. Si µ

(B) = 0, l’in´egalit´e
µ

(A) ≥ µ

(A∩ B
c
) = µ

(A ∩ B) + µ

(A∩ B
c
)
montre aussitˆot que B ∈ ´.
Ensuite on voit imm´ediatement que ∅ ∈ ´ et que ´ est stable par passage au compl´e-
mentaire. Pour terminer la preuve de la partie (1), il reste ` a montrer que ´ est stable par
r´eunion d´enombrable. On commence par ´etablir que ´ est stable par r´eunion finie. Soient
B
1
, B
2
∈ ´. Alors, pour toute A ∈ {(E), l’hypoth`ese B
1
∈ ´ montre que
µ

(A∩(B
1
∪B
2
)) = µ

(A∩(B
1
∪B
2
)∩B
1
)+µ

(A∩(B
1
∪B
2
)∩B
c
1
) = µ

(A∩B
1
)+µ

(A∩B
2
∩B
c
1
).
Donc en utilisant successivement les propri´et´es B
2
∈ ´ et B
1
∈ ´,
µ

(A∩ (B
1
∪ B
2
)) +µ

(A∩ (B
1
∪ B
2
)
c
)
= µ

(A∩ B
1
) + µ

(A ∩ B
c
1
∩ B
2
) + µ

(A ∩ B
c
1
∩ B
c
2
) = µ

(A∩ B
1
) + µ

(A ∩ B
c
1
) = µ

(A),
ce qui montre bien que B
1
∪ B
2
∈ ´. Etant stable par passage au compl´ementaire et
par r´eunion finie, ´ est stable par intersection finie. En cons´equence, si B, B

∈ ´,
B`B = B

∩ B
c
∈ ´.
Compte-tenu de cette derni`ere remarque, il suffit pour compl´eter la preuve de montrer
que si les ensembles B
k
∈ ´, k ∈ N sont deux `a deux disjoints on a
¸
B
k
∈ ´. Pour cela
on montre par r´ecurrence que pour tout entier m ∈ N et toute partie A de E,
µ

(A) =
m
¸
k=0
µ

(A∩ B
k
) + µ

(A∩

m
¸
k=0
B
c
k

). (3.1)
Pour m = 0, c’est la d´efinition de B
0
∈ ´. Pour passer de l’´etape m `a l’´etape m + 1, il
suffit d’´ecrire
µ

(A ∩

m
¸
k=0
B
c
k

) = µ

(A∩

m
¸
k=0
B
c
k

∩ B
m+1
) + µ

(A∩

m+1
¸
k=0
B
c
k

)
= µ

(A∩ B
m+1
) + µ

(A∩

m+1
¸
k=0
B
c
k

)
30
en utilisant le fait que les B
k
sont disjoints. On d´eduit de (3.1) que
µ

(A) ≥
m
¸
k=0
µ

(A∩ B
k
) + µ

(A ∩


¸
k=0
B
c
k

)
et en faisant tendre m vers ∞,
µ

(A) ≥

¸
k=0
µ

(A∩ B
k
) + µ

(A∩


¸
k=0
B
c
k

)
≥ µ

(A∩


¸
k=0
B
k

) + µ

(A ∩


¸
k=0
B
c
k

),
par σ-sous-additivit´e. Cela suffit pour conclure que

¸
k=0
B
k
∈ ´.
(2) Notons µ la restriction de µ

`a ´. On sait d´ej`a que µ(∅) = 0. Soient B
k
, k ∈ ´
des ´elements disjoints de ´. La preuve de (1) montre que pour toute partie A de E,
µ

(A) ≥

¸
k=0
µ

(A∩ B
k
) + µ

(A ∩


¸
k=0
B
c
k

)
et donc en prenant A =

¸
k=0
B
k
,
µ

(

¸
k=0
B
k
) ≥

¸
k=0
µ

(B
k
).
Comme l’in´egalit´e inverse est aussi vraie par σ-sous-additivit´e, cela termine la preuve.
3.2 La mesure de Lebesgue
Pour toute partie A de R, on d´efinit
λ

(A) = inf¦
¸
i∈N
(b
i
−a
i
) : A ⊂
¸
i∈N
]a
i
, b
i
[¦.
L’infimum porte sur tous les recouvrements d´enombrables de A par des intervalles ouverts
]a
i
, b
i
[, a
i
≤ b
i
(´evidemment il existe toujours de tels recouvrements).
Th´eor`eme 3.2.1 (i) λ

est une mesure ext´erieure sur R.
(ii) La tribu ´(λ

) contient B(R).
(iii) Pour tous a ≤ b, λ

([a, b]) = λ

(]a, b[) = b −a.
31
La restriction de λ

`a B(R) (ou `a ´(λ

)) est la mesure de Lebesgue sur R, et sera
not´ee simplement λ. En cons´equence des r´esultats de la fin du Chapitre 1, c’est l’unique
mesure sur B(R) qui v´erifie la propri´et´e λ(]a, b[) = b −a pour tout intervalle ]a, b[.
Preuve. (i) Il est imm´ediat que λ

(∅) = 0 et que λ

est croissante. Il reste `a ´etablir la
sous-additivit´e. Pour cela, on se donne une suite (A
n
)
n∈N
de parties de N. On peut supposer
λ

(A
n
) < ∞ pour tout n (sinon il n’y a rien `a montrer). Soit ε > 0. Pour tout n ∈ N, on
peut trouver une suite d’intervalles ]a
(n)
i
, b
(n)
i
[, i ∈ N tels que
A
n

¸
i∈N
]a
(n)
i
, b
(n)
i
[
et
¸
i∈N
(b
(n)
i
−a
(n)
i
) ≤ λ

(A
n
) +
ε
2
i
.
Il suffit alors de remarquer que les intervalles ]a
(n)
i
, b
(n)
i
[, n ∈ N, i ∈ N forment un recouvre-
ment d´enombrable de la r´eunion des A
n
, et donc
λ

(
¸
n∈N
A
n
) ≤
¸
n∈N
¸
i∈N
(b
(n)
i
−a
(n)
i
) ≤
¸
n∈N
λ

(A
n
) + 2ε,
d’o` u le r´esultat puisque ε est arbitraire.
(ii) Puisque ´(λ

) est une tribu, il suffit de montrer qu’elle contient une famille qui
engendre la tribu bor´elienne, par exemple la famille des intervalles ] − ∞, α], α ∈ R. On
se donne donc α ∈ R et on pose B =] − ∞, α]. Le probl`eme est de v´erifier que pour toute
partie A de R,
λ

(A) ≥ λ

(A∩ B) + λ

(A∩ B
c
).
Soit (]a
i
, b
i
[)
i∈N
un recouvrement de A, et ε > 0. Les intervalles ]a
i
∧ α, (b
i
∧ α) + ε2
−i
[
recouvrent A∩ B, et les intervalles ]a
i
∨ α, b
i
∨ α[ recouvrent A ∩ B
c
. Donc
λ

(A∩ B) ≤
¸
i∈N
((b
i
∧ α) −(a
i
∧ α)) + 2ε,
λ

(A∩ B
c
) ≤
¸
i∈N
((b
i
∨ α) −(a
i
∨ α)).
En faisant la somme on trouve
λ

(A∩ B) + λ

(A∩ B
c
) ≤
¸
i∈N
(b
i
−a
i
) + 2ε.
Puisque ε ´etait arbitraire, on a
λ

(A∩ B) + λ

(A∩ B
c
) ≤
¸
i∈N
(b
i
−a
i
),
et comme λ

(A) est par d´efinition l’infimum des sommes de droite sur tous les recouvrements
de A, l’in´egalit´e recherch´ee en d´ecoule.
32
(iii) Il est imm´ediat par d´efinition que
λ

([a, b]) ≤ b −a.
Pour l’in´egalit´e inverse, supposons que
[a, b] ⊂
¸
i∈N
]a
i
, b
i
[.
Par compacit´e, on peut trouver un entier N assez grand tel que
[a, b] ⊂
N
¸
i=0
]a
i
, b
i
[.
Un raisonnement ´el´ementaire montre alors que
b −a ≤
N
¸
i=0
(b
i
−a
i
) ≤

¸
i=0
(b
i
−a
i
).
Cela donne l’autre in´egalit´e b − a ≤ λ

([a, b]). Il est facile de voir enfin que λ

(]a, b[) =
λ

([a, b]) (par exemple en observant que λ

(¦a¦) = λ

(¦b¦) = 0).
Extension en dimension d.
On appelle pav´e ouvert (resp. ferm´e) un sous-ensemble P de R
d
de la forme
P =
d
¸
j=1
]a
j
, b
j
[ , (resp. P =
d
¸
j=1
[a
j
, b
j
]).
Le volume de P est par d´efinition
vol (P) =
d
¸
j=1
(b
j
−a
j
).
On d´efinit alors pour toute partie A de R
d
λ

(A) = inf¦
¸
i∈N
vol (P
i
) : A ⊂
¸
i∈N
P
i
¦.
o` u l’infimum porte sur tous les recouvrements d´enombrables de A par des pav´es ouverts.
On a alors l’analogue suivant du th´eor`eme pr´ec´edent.
Th´eor`eme 3.2.2 (i) λ

est une mesure ext´erieure sur R
d
.
(ii) La tribu ´(λ

) contient B(R
d
).
(iii) Pour tous pav´e (ouvert ou ferm´e) P, λ

(P) = vol (P).
33
La restriction de λ

`a B(R
d
) (ou `a ´(λ

)) est la mesure de Lebesgue sur R
d
, et sera
not´ee simplement λ.
Preuve. La preuve de (i) est exactement la mˆeme que dans le cas d = 1. Pour (ii), il suffit
de montrer que si A est un ensemble de la forme
A = R R] −∞, a] R R,
on a A ∈ ´(λ

) (il est facile de voir que les ensembles de cette forme engendrent la tribu
B(R
d
)). La d´emonstration est alors tout `a fait semblable `a celle du cas d = 1. Enfin pour
(iii), on se ram`ene `a montrer que si P est un pav´e ferm´e et si
P ⊂
n
¸
i=1
P
i
o` u les P
i
sont des pav´es ouverts, on a
vol (P) ≤
n
¸
i=1
vol (P
i
).
Cette assertion est laiss´ee en exercice.
Remarque. On verra plus tard (dans le Chapitre 5) une autre fa¸ con de construire la mesure
de Lebesgue en dimension d `a partir du cas de la dimension un.
On peut se demander si la tribu ´(λ

) est beaucoup plus grande que la tribu B(R).
Nous allons voir qu’en un certain sens ces deux tribus ne sont pas tr`es diff´erentes. Nous
´enon¸ cons d’abord une proposition pr´eliminaire.
Proposition 3.2.3 Soit (E, /, µ) un espace mesur´e. La classe des parties n´egligeables est
par d´efinition
^ = ¦A ∈ {(E) : ∃B ∈ /, A ⊂ B et µ(B) = 0¦.
La tribu compl´et´ee de / (par rapport `a µ) est
¯
/ = σ(/ ∪ ^). Il existe alors une unique
mesure sur (E,
¯
/) qui prolonge µ.
Preuve. On remarque d’abord que la tribu
¯
/ peut ˆetre obtenue de la mani`ere suivante : si
B = ¦A ∈ {(E) : ∃B, B

∈ /, B ⊂ A ⊂ B

et µ(B

`B) = 0¦
on a
¯
/ = B. En effet on v´erifie facilement que B est une tribu. Il est clair que / ⊂ B et
^ ⊂ B, ce qui entraˆıne que
¯
/ ⊂ B. Enfin, si A ∈ B, on choisit B et B

comme dans la
d´efinition et on remarque que A = B∪(A`B), avec B ∈ / et A`B ∈ ^. L’inclusion B ⊂
¯
/
en d´ecoule.
Une fois acquise l’´egalit´e
¯
/ = B, on construit le prolongement de µ `a
¯
/ de la mani`ere
suivante. Si A ∈
¯
/ = B, et si B et B

sont comme dans la d´efinition de B ci-dessus,
on pose µ(A) = µ(B) = µ(B

). Cela ne d´epend pas du choix de B et B

: si
˜
B,
˜
B

est
un autre choix, on a `a la fois µ(
˜
B) ≤ µ(B

) et µ(
˜
B

) ≥ µ(B) ce qui force les ´egalit´es
34
µ(B) = µ(B

) = µ(
˜
B) = µ(
˜
B

). Enfin, il est facile de v´erifier que le prolongement de µ `a
¯
/ est une mesure : si A
n
, n ∈ N sont des ´el´ements disjoints de
¯
/, on peut pour chaque n
choisir B
n
∈ /, B
n
⊂ A
n
de mani`ere que A
n
`B
n
soit n´egligeable, et on a
¸
n
µ(A
n
) =
¸
n
µ(B
n
) = µ(
¸
n
B
n
) = µ(
¸
n
A
n
),
la derni`ere ´egalit´e parce que
¸
n
A
n
`
¸
n
B
n

¸
n
(A
n
`B
n
) est n´egligeable.
Proposition 3.2.4 La tribu ´(λ

) co¨ıncide avec la compl´et´ee
¯
B(R
d
) de B(R
d
) par rapport
` a la mesure de Lebesgue λ.
Preuve. L’inclusion
¯
B(R
d
) ⊂ ´(λ

) est imm´ediate : si A ∈ {(R
d
) est tel que A ⊂ B,
o` u B ∈ B(R
d
) et λ(B) = 0, alors λ

(A) ≤ λ

(B) = λ(B) = 0, et d’apr`es le th´eor`eme du
paragraphe 1, on sait que cela entraˆıne A ∈ ´(λ

).
Inversement, soit A ∈ ´(λ

). On veut montrer que A ∈
¯
B(R
d
). Sans perte de g´en´eralit´e,
on peut supposer A ⊂] −K, K[
d
(sinon on ´ecrit A comme la r´eunion croissante des ensembles
A∩] −n, n[
d
). On a alors λ

(A) < ∞, et donc pour chaque n ≥ 1 on peut trouver une famille
d´enombrable (P
n
i
, i ∈ N) de pav´es ouverts contenus dans ] −K, K[
d
tels que
A ⊂
¸
i
P
n
i
,
¸
i
vol (P
n
i
) ≤ λ

(A) +
1
n
.
Posons
B
n
=
¸
i
P
n
i
, B =
¸
n
B
n
.
Alors B ∈ B(R
d
), A ⊂ B, et d’autre part pour chaque n,
λ

(B) ≤
¸
i
vol (P
n
i
) ≤ λ

(A) +
1
n
ce qui implique λ

(B) = λ

(A). En rempla¸ cant A par ] − K, K[
d
`A, on construit de mˆeme
˜
B ∈ B(R
d
),
˜
B ⊂] − K, K[
d
telle que ] − K, K[
d
`A ⊂
˜
B et λ

(] − K, K[
d
`A) = λ

(
˜
B). Si
B

=] − K, K[
d
`
˜
B, on doit alors avoir B

⊂ A et λ

(B

) = λ

(A). Finalement on a bien
trouv´e deux bor´eliens B et B

avec B

⊂ A ⊂ B et λ(B`B

) = 0.
Th´eor`eme 3.2.5 La mesure de Lebesgue sur R
d
est invariante par translation, au sens o` u
pour tout A ∈ B(R
d
) et tout x ∈ R
d
, on a λ(x + A) = λ(A).
Inversement, si µ est une mesure sur (R
d
, B(R
d
)) finie sur les parties born´ees et invari-
ante par translation, il existe une constante c ≥ 0 telle que µ = cλ.
Preuve. Notons σ
x
la translation σ
x
(y) = y −x pour tout y ∈ R
d
. La mesure-image σ
x
(λ)
est d´efinie par
∀A ∈ B(R
d
), σ
x
(λ)(A) = λ(σ
−1
x
(A)) = λ(x + A).
35
L’´egalit´e σ
x
(λ)(A) = λ(A) est vraie pour tout pav´e A (puisque A et x+A sont deux pav´es de
mˆeme volume). A l’aide du lemme de classe monotone du Chapitre 1, il en d´ecoule aussitˆot
que σ
x
(λ) = λ, ce qui est la premi`ere assertion du th´eor`eme.
Inversement, soit µ une mesure sur B(R
d
) invariante par translation. Soit
c = µ([0, 1[
d
).
Comme [0, 1[
d
est la r´eunion disjointe de n
d
pav´es qui sont des translat´es de [0,
1
n
[
d
, il en
r´esulte que pour tout entier n ≥ 1,
µ([0,
1
n
[
d
) =
c
n
d
.
Soient ensuite a
1
, . . . , a
d
≥ 0. En ´ecrivant
d
¸
j=1
[0,
[na
j
]
n
[⊂
d
¸
j=1
[0, a
j
[⊂
d
¸
j=1
[0,
[na
j
] + 1
n
[
(o` u [x] d´esigne la partie enti`ere de x), on trouve
(
d
¸
j=1
[na
j
])
c
n
d
= µ(
d
¸
j=1
[0,
[na
j
]
n
[) ≤ µ(
d
¸
j=1
[0, a
j
[) ≤ µ(
d
¸
j=1
[0,
[na
j
] + 1
n
[) = (
d
¸
j=1
[na
j
] + 1)
c
n
d
.
En faisant tendre n vers ∞, il vient
µ(
d
¸
j=1
[0, a
j
[) = c
n
¸
j=1
a
j
= cλ(
d
¸
j=1
[0, a
j
[)
et en utilisant l’invariance par translation de µ on trouve que les mesures µ et cλ co¨ıncident
sur tous les pav´es de la forme
d
¸
j=1
[a
j
, b
j
[.
Comme dans la premi`ere partie de la preuve, cela suffit pour conclure que µ = cλ.
Proposition 3.2.6 La mesure de Lebesgue sur R
d
est r´eguli`ere au sens o` u pour tout A ∈
¯
B(R
d
), on a
λ(A) = inf¦λ(U) : U ouvert , A ⊂ U¦
= sup¦λ(F) : F compact , F ⊂ A¦.
Preuve. La quantit´e inf¦λ(U) : U ouvert , A ⊂ U¦ est toujours plus grande que λ(A). Pour
l’autre in´egalit´e, on peut supposer λ(A) < ∞. Ensuite, par d´efinition de λ(A) = λ

(A), on
peut pour chaque ε > 0 trouver un recouvrement de A par des pav´es ouverts P
i
tels que
¸
λ(P
i
) ≤ λ(A) + ε. Mais alors l’ouvert U d´efini comme la r´eunion des P
i
contient A et on
a λ(U) ≤
¸
λ(P
i
) ≤ λ(A) + ε, ce qui conduit `a l’in´egalit´e voulue.
36
Pour la deuxi`eme ´egalit´e de la proposition, on peut supposer A contenu dans un compact
C (sinon on ´ecrit λ(A) = lim ↑ λ(A ∩ [−n, n]
d
)). Pour chaque ε > 0 on peut grˆace `a la
premi`ere partie de la preuve trouver un ouvert U contenant C`A, tel que λ(U) < λ(C`A)+ε.
Mais alors F = C`U est un compact contenu dans A, et
λ(F) ≥ λ(C) −λ(U) ≥ λ(C) −(λ(C`A) + ε) = λ(A) −ε,
ce qui donne la deuxi`eme ´egalit´e.
La proposition pr´ec´edente peut ˆetre ´etendue `a un cadre beaucoup plus g´en´eral. Nous
nous limitons au cas des mesures finies.
Proposition 3.2.7 Soit (E, d) un espace m´etrique, et soit µ une mesure finie sur (E, B(E)).
Alors, pour tout A ∈ B(E),
µ(A) = inf¦µ(U) : U ouvert , A ⊂ U¦
= sup¦µ(F) : F ferm´e , F ⊂ A¦.
Preuve. Notons O la classe des ouverts de E, et soit ( la classe des ensembles A ∈ B(E)
qui v´erifient la propri´et´e de la proposition. Puisque la tribu bor´elienne est par d´efinition
engendr´ee par O, il suffit de montrer que O ⊂ ( et que ( est une tribu.
Si A ∈ O, la premi`ere ´egalit´e est triviale. Pour la seconde, on remarque que pour tout
n ≥ 1, l’ensemble
F
n
= ¦x ∈ E : d(x, A
c
) ≥
1
n
¦
est ferm´e. Par ailleurs A = lim ↑ F
n
, ce qui entraˆıne
µ(A) = lim ↑ µ(F
n
),
ce qui donne bien la seconde ´egalit´e et prouve que O ⊂ (.
Il reste `a montrer que ( est une tribu. On a ∅ ∈ ( et `a cause de la sym´etrie entre ouverts
et ferm´es, on voit imm´ediatement que ( est stable par passage au compl´ementaire. Soit
ensuite (A
n
)
n∈N
une suite dans ( et soit ε > 0. Pour chaque n, on peut trouver un ouvert
U
n
contenant A
n
tel que µ(U
n
) ≤ µ(A
n
) + ε2
−n
, d’o` u
µ

¸
n∈N
U
n
`
¸
n∈N
A
n


¸
n∈N
µ(U
n
−A
n
) ≤ 2ε.
Puisque
¸
U
n
est ouvert cela donne la premi`ere des deux ´egalit´es recherch´ees pour
¸
A
n
.
Ensuite, soit N un entier assez grand pour que
µ(
N
¸
n=0
A
n
) ≥ µ(
¸
n∈N
A
n
) −ε.
Pour chaque n ∈ ¦0, 1, . . . , N¦ on peut trouver un ferm´e F
n
⊂ A
n
tel que µ(A
n
`F
n
) ≤ ε2
−n
.
Alors
F =
N
¸
n=0
F
n
37
est ferm´e et
µ((
N
¸
n=0
A
n
)`F) ≤
N
¸
n=0
µ(A
n
−F
n
) < 2ε
d’o` u
µ((

¸
n=0
A
n
)`F) ≤ 3ε.
On conclut que
¸
A
n
∈ (, ce qui termine la preuve.
3.3 Liens avec l’int´egrale de Riemann
Fixons un intervalle [a, b] non trivial de R. Une fonction h : [a, b] −→R est dite en escalier,
et on note h ∈ Esc, s’il existe une subdivision a = x
0
< x
1
< < x
N
= b et des r´eels
y
1
, . . . , y
N
tels que
∀i ∈ ¦1, . . . , N¦, ∀x ∈]x
i−1
, x
i
[, f(x) = y
i
.
On pose alors
I(h) =
N
¸
i=1
y
i
(x
i
−x
i−1
).
Il est imm´ediat que I(h) =

[a,b]
h dλ.
Une fonction born´ee f : [a, b] −→R est dite Riemann-int´egrable si
sup
h∈Esc, h≤f
I(h) = inf
h∈Esc, h≥f
I(h)
et cette valeur commune est not´ee I(f).
Proposition 3.3.1 Soit f une fonction Riemann-int´egrable sur [a, b]. Alors f est mesurable
pour la tribu compl´et´ee
¯
B([a, b]), et
I(f) =

[a,b]
f dλ.
Preuve. On peut trouver une suite (h
n
) de fonctions en escalier sur [a, b] telles que h
n
≥ f
et I(h
n
) ↓ I(f). Quitte `a remplacer h
n
par h
1
∧h
2
∧ ∧h
n
, on peut supposer la suite (h
n
)
d´ecroissante, ce qui permet de poser
h

= lim ↓ h
n
≥ f.
De mˆeme, on peut trouver une suite croissante (
˜
h
n
) de fonctions en escalier avec
˜
h
n
≤ f et
I(
˜
h
n
) ↑ I(f), et poser
˜
h

= lim ↑
˜
h
n
≤ f.
38
Les fonctions h

et
˜
h

sont bor´eliennes born´ees. Par convergence domin´ee,

[a,b]
h

dλ = lim ↓

[a,b]
h
n
dλ = lim ↓ I(h
n
) = I(f),

[a,b]
˜
h

dλ = lim ↑

[a,b]
˜
h
n
dλ = lim ↑ I(
˜
h
n
) = I(f).
Donc,

[a,b]
(h


˜
h

)dλ = 0.
Puisque h


˜
h

, cela entraˆıne h

=
˜
h

, λ p.p. Comme h

≥ f ≥
˜
h

, f co¨ıncide p.p.
avec une fonction bor´elienne, et il est facile d’en d´eduire que f est
¯
B([a, b])-mesurable. Enfin
puisque f = h

p.p. on a

[a,b]
f dλ =

[a,b]
h

dλ = I(f).
3.4 Un exemple d’ensemble non mesurable
Consid´erons l’espace R/Q des classes d’´equivalence des r´eels modulo les rationnels. Pour
chaque a ∈ R/Q, soit x
a
un repr´esentant de a dans l’intervalle [0, 1]. On pose
F = ¦x
a
; a ∈ R/Q¦ ⊂ [0, 1].
Alors F n’est pas bor´elien, ni mˆeme mesurable par rapport `a la tribu compl´et´ee
¯
B(R).
Pour le v´erifier, supposons F mesurable et montrons que cela conduit `a une contradiction.
D’abord, on a par construction
R ⊂
¸
q∈Q
(q + F)
et donc λ(F) > 0, car sinon R serait contenu dans une r´eunion d´enombrable d’ensembles de
mesure nulle.
Par ailleurs, les ensembles q +F, q ∈ Q sont disjoints (si q +x
a
= q

+x
a
′ on a x
a
−x
a
′ =
q

−q ∈ Q et donc a = a

puis q = q

). De l’inclusion
¸
q∈Q∩[0,1]
(q + F) ⊂ [0, 2]
on d´eduit donc
¸
q∈Q∩[0,1]
λ(q + F) ≤ 2
d’o` u λ(F) = 0 ce qui est la contradiction recherch´ee.
3.5 Int´egrale de Stieltjes
Le th´eor`eme suivant donne une description de toutes les mesures finies sur (R, B(R)). Le
r´esultat peut ˆetre facilement ´etendu aux mesures de Radon.
39
Th´eor`eme 3.5.1 (i) Soit µ une mesure finie sur (R, B(R)). Pour tout x ∈ R, soit
F
µ
(x) = µ(] −∞, x]).
La fonction F
µ
est croissante, born´ee, continue `a droite et F
µ
(−∞) = 0.
(ii) Inversement, soit F : R −→ R
+
une fonction est croissante, born´ee, continue `a droite
et telle que F(−∞) = 0. Il existe alors une unique mesure finie µ sur (R, B(R)) telle que
F = F
µ
.
Remarque. Lorsque F = F
µ
, on note souvent

f(x) µ(dx) =

f(x) dF(x).
C’est l’int´egrale de Stieltjes de f par rapport `a F. On a en particulier

]a,b]
dF(x) = F(b) −F(a),
et
[a,b]
dF(x) = lim
n→∞

]a−n
−1
,b]
dF(x) = F(b) −F(a−),
o` u F(a−) d´esigne la limite `a gauche de F en a.
Preuve. (i) La v´erification des propri´et´es de F
µ
est facile. Par exemple si x
n
↓ x, les
intervalles ] −∞, x
n
] d´ecroissent vers ] −∞, x], et donc
F
µ
(x
n
) = µ(] −∞, x
n
]) ↓ µ(] −∞, x]) = F(x).
De mˆeme, si x
n
↓ −∞, les intervalles ] −∞, x
n
] d´ecroissent vers ∅ et donc F
µ
(x
n
) ↓ 0.
(ii) L’unicit´e de µ est une cons´equence du lemme de classe monotone (cf Chapitre 1) : la
classe ( = ¦] −∞, x]; x ∈ R¦ est stable par intersection finie et engendre la tribu B(R).
Pour montrer l’existence, on pose pour tout A ⊂ R:
µ

(A) = inf¦
¸
i∈N
(F(b
i
) −F(a
i
)) : A ⊂
¸
i∈N
]a
i
, b
i
]¦.
(Noter qu’on recouvre A par des intervalles ouverts `a droite et ferm´es `a gauche, et non plus
des intervalles ouverts comme pour la mesure de Lebesgue.) Les mˆemes arguments que dans
le cas de la mesure de Lebesgue montrent que µ

est une mesure ext´erieure. On v´erifie par
la mˆeme m´ethode que dans le cas de la mesure de Lebesgue que les intervalles ] −∞, α] sont
dans ´(λ

) (en fait c’est mˆeme plus facile ici). Il en d´ecoule que la tribu ´(µ

) contient la
tribu bor´elienne, et que la restriction, not´ee µ, de µ

`a ´(µ

) est une mesure sur (R, B(R)).
Pour terminer, il reste `a montrer que µ(] −∞, x]) = F(x) pour tout x ∈ R. Il suffit pour
cela d’´etablir que µ(]a, b]) = F(b) −F(a) pour tous a < b (ensuite faire tendre a vers −∞).
L’in´egalit´e
µ(]a, b]) ≤ F(b) −F(a)
40
est imm´ediate par construction de µ

.
Dans l’autre sens, soit (]x
i
, y
i
])
i∈N
un recouvrement d´enombrable de ]a, b]. Soit ε ∈
]0, b −a[. Pour chaque i ∈ N, on peut trouver y

i
> y
i
tel que F(y

i
) ≤ F(y
i
) +ε2
−i
. Ensuite,
on remarque qu’on peut recouvrir l’intervalle compact [a + ε, b] par une sous-famille finie
(]x
i
, y

i
[)
i∈{0,1,...,Nε}
de la famille des intervalles ouverts (]x
i
, y

i
[)
i∈N
. Un raisonnement simple
montre qu’alors
F(b) −F(a + ε) ≤

¸
i=0
(F(y

i
) −F(x
i
)) ≤

¸
i=0
(F(y

i
) −F(x
i
)) ≤

¸
i=0
(F(y
i
) −F(x
i
)) + 2ε.
En faisant tendre ε vers 0 on trouve
F(b) −F(a) ≤

¸
i=0
(F(y
i
) −F(x
i
))
ce qui par d´efinition de µ

donne bien la minoration µ(]a, b]) ≥ F(b) −F(a).
Cas des mesures de Radon. La formule
F(x) =

µ(]0, x]) si x ≥ 0,
−µ(]x, 0]) si x < 0,
donne une correspondance bijective entre mesures de Radon µ sur R et fonctions F : R −→R
croissantes continues `a droite et nulles en 0. Ce r´esultat d´ecoule facilement du cas des mesures
finies. On a encore l’´egalit´e µ(]a, b]) = F(b) − F(a). Dans le cas particulier F(x) = x la
mesure µ est la mesure de Lebesgue.
3.6 Le th´eor`eme de repr´esentation de Riesz
Soit X un espace m´etrique. On note C
c
(X) l’espace des fonctions continues `a support
compact sur X. Une forme lin´eaire J sur C
c
(X) est dite positive si J(f) ≥ 0 d`es que f ≥ 0.
Si µ est une mesure de Radon sur X, on d´efinit une forme lin´eaire J sur C
c
(X) en posant
J(f) =

f dµ.
Noter que l’int´egrale est bien d´efinie puisque [f[ ≤ C 1
K
, o` u K est un compact de X, et µ
est finie sur les compacts. De plus J est positive.
Le th´eor`eme de repr´esentation de Riesz montre que sous des hypoth`eses convenables
toute forme lin´eaire positive sur C
c
(X) est de ce type.
Th´eor`eme 3.6.1 Soit X un espace m´etrique localement compact s´eparable, et soit J une
forme lin´eaire positive sur C
c
(X). Il existe alors une unique mesure de Radon µ sur
(X, B(X)) telle que
∀f ∈ C
c
(X), J(f) =

f dµ.
41
La mesure µ est r´eguli`ere au sens o` u pour tout A ∈ B(X),
λ(A) = inf¦λ(U) : U ouvert , A ⊂ U¦
= sup¦λ(F) : F compact , F ⊂ A¦.
De plus, pour tout ouvert U de X,
µ(U) = sup¦J(f) : f ∈ C
c
(X), 0 ≤ f ≤ 1
U
¦.
Exemple. Si X = R, on peut prendre J(f) = I(f), o` u I(f) est comme ci-dessus l’int´egrale
de Riemann de la fonction f. On v´erifie ais´ement que J est une forme lin´eaire positive sur
C
c
(R). La mesure associ´ee est (bien sˆ ur) la mesure de Lebesgue. Cela fournit donc une autre
construction de la mesure de Lebesgue (en supposant construite l’int´egrale de Riemann des
fonctions continues).
Nous ne donnons pas ici la preuve du Th´eor`eme 3.6.1 : voir le Th´eor`eme 10.1 de Briane
et Pag`es [2] ou le chapitre 2 de Rudin [7], qui donne un ´enonc´e un peu plus pr´ecis.
42
Chapitre 4
Espaces L
p
Ce chapitre est consacr´e principalement `a l’´etude de l’espace L
p
des fonctions dont la valeur
absolue est de puissance p-i`eme int´egrable. Les in´egalit´es fondamentales de H¨older, de
Minkowski et de Jensen constituent un outil important pour cette ´etude. On ´etudie no-
tamment la structure d’espace de Banach de l’espace L
p
, et dans le cas particulier p = 2
la structure d’espace de Hilbert de L
2
. Les th´eor`emes de densit´e montrant qu’on peut ap-
procher n’importe quelle fonction de L
p
par des fonctions plus “r´eguli`eres” jouent un rˆole
important dans beaucoup d’applications en analyse. En application de la structure hilber-
tienne de L
2
, on ´etablit le th´eor`eme de Radon-Nikodym, qui ´etant donn´e une mesure de
r´ef´erence permet de d´ecomposer n’importe quelle autre mesure en la somme d’une mesure `a
densit´e par rapport `a la mesure de r´ef´erence et d’une mesure “´etrang`ere”.
4.1 D´efinition et in´egalit´e de H¨older
Dans tout ce chapitre on consid`ere un espace mesur´e (E, /, µ). Pour tout r´eel p ≥ 1 on pose
L
p
(E, /, µ) = ¦f : E −→R mesurable;

[f[
p
dµ < ∞¦
et on d´efinit aussi
L

(E, /, µ) = ¦f : E −→R mesurable; ∃C ∈ R
+
: [f[ ≤ C, µ p.p.¦.
On pourrait aussi consid´erer les espaces L
p
C
et L

C
obtenus en consid´erant des fonctions `a
valeurs complexes, mais dans ce chapitre nous nous int´eresserons surtout au cas r´eel.
Pour chaque p ∈ [1, ∞], on d´efinit une relation d’´equivalence sur L
p
en posant
f ∼ g si et seulement si f = g, µ p.p.
Cela conduit `a d´efinir l’espace quotient
L
p
(E, /, µ) = L
p
(E, /, µ)/ ∼ .
Un ´el´ement de L
p
(E, /, µ) est donc une classe d’´equivalence de fonctions ´egales µ p.p. Dans
la suite on fera presque syst´ematiquement l’abus d’´ecriture consistant `a identifier un ´element
de L
p
(E, /, µ) `a l’un de ses repr´esentants.
43
Pour toute fonction f : E −→R mesurable, on note pour p ∈ [1, ∞[,
|f|
p
=

[f[
p

1/p
(avec la convention ∞
1/p
= ∞) et
|f|

= inf¦C ∈ [0, ∞] : [f[ ≤ C, µ p.p.¦
de fa¸ con que |f| ≤ |f|

, µ p.p. et que |f|

est le plus petit nombre dans [0, ∞] avec
cette propri´et´e.
Soient p, q ∈ [1, ∞]. On dit que p et q sont des exposants conjugu´es si
1
p
+
1
q
= 1.
En particulier, p = 1 et q = ∞ sont conjugu´es.
Th´eor`eme 4.1.1 (In´egalit´e de H¨older) Soient p et q des exposants conjugu´es. Alors, si
f et g sont deux fonctions mesurables de E dans R,

[fg[ dµ ≤ |f|
p
|g|
q
.
En particulier, fg ∈ L
1
(E, /, µ) d`es que f ∈ L
p
(E, /, µ) et g ∈ L
q
(E, /, µ).
Preuve. Si |f|
p
= 0, on a f = 0, µ p.p., ce qui entraˆıne

[fg[dµ = 0, et l’in´egalit´e est
triviale. On peut donc supposer |f|
p
> 0 et |g|
q
> 0. Sans perte de g´en´eralit´e on peut
aussi supposer f ∈ L
p
(E, /, µ) et g ∈ L
q
(E, /, µ).
Le cas p = 1, q = ∞ est facile : on a [fg[ ≤ |g|

[f[, µ p.p., d’o` u

[fg[ dµ ≤ |g|

[f[dµ = |g|

|f|
1
.
Supposons 1 < p < ∞ (et donc 1 < q < ∞).
Soit α ∈]0, 1[. On a pour tout x ∈ R
+
x
α
−αx ≤ 1 −α.
En effet la fonction ϕ
α
(x) = x
α
− αx a pour d´eriv´ee sur ]0, ∞[, ϕ

α
(x) = α(x
α−1
− 1) qui
est positive sur ]0, 1[ et n´egative sur ]1, ∞[. Donc ϕ
α
est maximale en x = 1, ce qui donne
l’in´egalit´e recherch´ee. En appliquant cette in´egalit´e `a x =
u
v
, o` u u ≥ 0 et v > 0, on trouve
u
α
v
1−α
≤ αu + (1 −α)v,
in´egalit´e qui reste vraie si v = 0. On prend alors α =
1
p
(donc 1 −α =
1
q
) puis
u =
[f(x)[
p
|f|
p
p
, v =
[g(x)[
q
|g|
q
q
44
pour aboutir `a
[f(x)g(x)[
|f|
p
|g|
q

1
p
[f(x)[
p
|f|
p
p
+
1
q
[g(x)[
q
|g|
q
q
.
En int´egrant cette derni`ere in´egalit´e par rapport `a µ, il vient
1
|f|
p
|g|
q

[fg[dµ ≤
1
p
+
1
q
= 1.

Exercice. Lorsque 1 < p < ∞, montrer qu’il y a ´egalit´e dans l’in´egalit´e de H¨older ssi il
existe deux r´eels positifs α, β non tous deux nuls, tels que α[f[
p
= β[g[
q
µ p.p.
Le cas particulier p = q = 2 de l’in´egalit´e de H¨older est l’in´egalit´e de Cauchy-Schwarz

[fg[ dµ ≤

[f[
2

1/2

[g[
2

1/2
.
Consid´erons le cas particulier o` u µ est finie. En prenant g = 1, on trouve

[f[ dµ ≤ µ(E)
1/q
|f|
p
ce qui montre que L
p
⊂ L
1
pour tout p ∈]1, ∞]. En rempla¸ cant [f[ par [f[
r
(r ≥ 1) et en
posant r

= pr, on trouve pour tous 1 ≤ r ≤ r

≤ ∞
|f|
r
≤ µ(E)
1
r

1
r

|f|
r
′ ,
et donc L
r

⊂ L
r
(toujours dans le cas o` u µ est finie). Lorsque µ est une mesure de probabilit´e
on a |f|
r
≤ |f|
r
′ pour tous 1 ≤ r ≤ r

≤ ∞.
Cette derni`ere in´egalit´e peut ˆetre vue comme un cas particulier de l’in´egalit´e de Jensen.
Th´eor`eme 4.1.2 (In´egalit´e de Jensen) Supposons que µ est une mesure de probabilit´e,
et soit ϕ : R −→R
+
une fonction convexe. Alors, pour f ∈ L
1
(E, /, µ),

ϕ ◦ f dµ ≥ ϕ

f dµ

.
Remarque. L’int´egrale

ϕ◦f dµ est bien d´efinie comme int´egrale d’une fonction mesurable
positive.
Preuve. Soit
c
ϕ
= ¦(a, b) ∈ R
2
: ∀x ∈ R, ϕ(x) ≥ ax + b¦.
Les propri´et´es bien connues des fonctions convexes assurent que
∀x ∈ R , ϕ(x) = sup
(a,b)∈Eϕ
(ax + b).
45
En cons´equence,

ϕ ◦ f dµ ≥ sup
(a,b)∈Eϕ

(af + b)dµ
= sup
(a,b)∈Eϕ

a

fdµ + b

= ϕ

f dµ

Exercice. Montrer que si µ(E) < ∞ on a
|f|

= lim
p→∞
|f|
p
.
4.2 L’espace de Banach L
p
(E, /, µ)
Th´eor`eme 4.2.1 (In´egalit´e de Minkowski) Soit p ∈ [1, ∞], et soient f, g ∈ L
p
(E, /, µ).
Alors, f + g ∈ L
p
(E, /, µ) et
|f + g|
p
≤ |f|
p
+|g|
p
.
Preuve. Les cas p = 1 et p = ∞ sont faciles en utilisant simplement l’in´egalit´e [f + g[ ≤
[f[ +[g[. Supposons donc 1 < p < ∞. En ´ecrivant
[f + g[
p
≤ 2
p
([f[
p
+[g[
p
)
on voit que

[f + g[
p
dµ < ∞ et donc f + g ∈ L
p
. Ensuite, en int´egrant par rapport `a µ
l’in´egalit´e
[f + g[
p
≤ [f[ [f + g[
p−1
+[g[ [f + g[
p−1
on trouve

[f + g[
p
dµ ≤

[f[ [f + g[
p−1
dµ +

[g[ [f + g[
p−1
dµ.
En appliquant l’in´egalit´e de H¨older aux r´eels conjugu´es p et q = p/(p −1), il vient

[f + g[
p
dµ ≤ |f|
p

[f + g[
p

p−1
p
+|g|
p

[f + g[
p

p−1
p
.
Si

[f + g[
p
dµ = 0, l’in´egalit´e du th´eor`eme est triviale. Sinon on peut diviser chacun des
deux membres de l’in´egalit´e pr´ec´edente par (

[f + g[
p
dµ)
(p−1)/p
et on trouve le r´esultat
recherch´e.
Th´eor`eme 4.2.2 (Riesz) Pour tout p ∈ [1, ∞], l’espace L
p
(E, /, µ) muni de la norme
f → |f|
p
est un espace de Banach (i.e. un espace vectoriel norm´e complet).
46
Preuve. On se limite au cas 1 ≤ p < ∞ (le cas p = ∞ est plus facile). V´erifions d’abord
que f → |f|
p
est une norme sur L
p
. On a
|f|
p
= 0 ⇒

[f[
p
dµ = 0 ⇒ f = 0 µ p.p.
ce qui signifie que f = 0 dans L
p
(f appartient `a la classe d’´equivalence de 0). La propri´et´e
|λf|
p
= [λ[|f|
p
pour λ ∈ R est imm´ediate, et l’in´egalit´e de Minkowski donne l’in´egalit´e
triangulaire.
Il reste `a montrer que L
p
muni de cette norme est complet. Soit (f
n
)
n≥1
une suite de
Cauchy dans L
p
. Alors on peut choisir une suite d’entiers (k
n
) strictement croissante de
fa¸ con que pour tout n ≥ 1,
|f
k
n+1
−f
kn
|
p
≤ 2
−n
.
Posons g
n
= f
kn
et remarquons en utilisant le th´eor`eme de convergence monotone puis
l’in´egalit´e de Minkowski que


¸
n=1
[g
n+1
−g
n
[

p
dµ = lim
N↑∞

N
¸
n=1
[g
n+1
−g
n
[

p

≤ lim
N↑∞

N
¸
n=1
|g
n+1
−g
n
|
p

p
=


¸
n=1
|g
n+1
−g
n
|
p

p
< ∞.
On a donc

¸
n=1
[g
n+1
−g
n
[ < ∞ , µ p.p.
et cela permet de poser
h = g
1
+

¸
n=1
(g
n+1
−g
n
)
la s´erie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut
prendre une d´efinition arbitraire de h (par exemple h = 0). La fonction h est alors mesurable.
Puisque g
N
converge vers h, µ p.p., on a [h[ = liminf [g
N
[, µ p.p. et le lemme de Fatou montre
imm´ediatement que

[h[
p
dµ ≤ liminf

[g
N
[
p
dµ ≤ sup
N≥1

[g
N
[
p
dµ < ∞,
puisque la suite f
n
´etant de Cauchy est born´ee dans L
p
. Enfin, `a nouveau grˆace au lemme
de Fatou, on a
|h −g
n
|
p
p
=

[h −g
n
[
p
dµ ≤ liminf
N→∞

[g
N
−g
n
[
p
dµ = liminf
N→∞
|g
N
−g
n
|
p
p
≤ (2
−n+1
)
p
47
en majorant pour N > n, |g
N
−g
n
|
p
≤ |g
n+1
−g
n
|
p
+ +|g
N
−g
N−1
|
p
≤ 2
−n+1
. L’in´egalit´e
pr´ec´edente montre que g
n
converge vers h dans L
p
. Cela entraˆıne que f
n
converge vers h et
termine la preuve.
Exemple. Si E = N et µ est la mesure de comptage, pour tout p ∈ [1, ∞[, l’espace L
p
est
l’espace des suites a = (a
n
)
n∈N
de r´eels tels que

¸
n=0
[a
n
[
p
< ∞
muni de la norme
|a|
p
=


¸
n=0
[a
n
[
p

1/p
.
L’espace L

est simplement l’espace des suites (a
n
)
n∈N
qui sont born´ees, muni de la norme
|a|

= sup(a
n
). Remarquons que dans ce cas il n’y a pas d’ensemble non vide de mesure
nulle et donc L
p
co¨ıncide avec L
p
. Cet espace est en g´en´eral not´e ℓ
p
= ℓ
p
(N). Il joue un rˆole
important dans la th´eorie des espaces de Banach.
La derni`ere preuve fait apparaˆıtre un r´esultat interm´ediaire qui m´erite d’ˆetre ´enonc´e.
Proposition 4.2.3 Soit p ∈ [1, ∞[ et soit (f
n
) une suite qui converge vers f dans L
p
(E, /, µ).
Il existe alors une sous-suite (f
kn
) qui converge µ p.p. vers f.
Remarque. Le r´esultat est aussi vrai pour p = ∞, mais dans ce cas l’extraction d’une sous-
suite n’est pas n´ecessaire puisque la convergence L

´equivaut `a une convergence uniforme
sauf sur un ensemble de mesure nulle.
On peut se demander si inversement la convergence µ p.p. entraˆıne la convergence L
p
.
Cela n’est pas vrai, mais le th´eor`eme de convergence domin´ee montre que si :
(i) f
n
−→ f, µ p.p.
(ii) Il existe une fonction g ≥ 0 telle que

[f[
p
dµ < ∞ et ∀n, [f
n
[ ≤ g, µ p.p.
alors f
n
−→ f dans L
p
.
Exercice. On suppose µ(E) < ∞. Soit p ∈ [1, ∞[. Montrer que les conditions
(i) f
n
−→ f, µ p.p.
(ii) Il existe r > p tel que sup
n

[f
n
[
r
dµ < ∞
entraˆınent f
n
−→ f dans L
p
.
Le cas p = 2 du th´eor`eme de Riesz est particuli`erement important puisque l’espace L
2
a
une structure d’espace de Hilbert.
48
Th´eor`eme 4.2.4 L’espace L
2
(E, /, µ) muni du produit scalaire
'f, g` =

fg dµ
est un espace de Hilbert (r´eel).
Preuve. L’in´egalit´e de Cauchy-Schwarz montre que si f, g ∈ L
2
, fg est int´egrable et donc
'f, g` est bien d´efini. Ensuite il est clair que (f, g) −→ 'f, g` d´efinit une forme bilin´eaire
sym´etrique d´efinie positive, et que la norme associ´ee est la norme |f|
2
. Le caract`ere complet
d´ecoule du th´eor`eme de Riesz.
On peut donc appliquer `a L
2
(E, /, µ) les r´esultats classiques sur les espaces de Hilbert.
En particulier, si Φ : L
2
(E, /, µ) −→R est une forme lin´eaire continue, il existe un (unique)
´el´ement g de L
2
(E, /, µ) tel que ∀f ∈ L
2
, Φ(f) = 'f, g`. Ce r´esultat nous sera utile dans la
suite de ce chapitre.
Remarque. Comme les r´esultats pr´ec´edents, le th´eor`eme ci-dessus s’´etend au cas complexe.
L’espace L
2
C
(E, /, µ) est un espace de Hilbert complexe pour le produit scalaire
'f, g` =

f¯ g dµ.
4.3 Th´eor`emes de densit´e dans les espaces L
p
Si (E, d) est un espace m´etrique, une mesure µ sur (E, B(E)) est dite ext´erieurement r´eguli`ere
si
∀A ∈ B(E) , µ(A) = inf¦µ(U) : U ouvert, A ⊂ U¦.
Une fonction f : E −→R est dite lipschitzienne s’il existe une constante K telle que
∀x, y ∈ E , [f(x) −f(y)[ ≤ K d(x, y).
Th´eor`eme 4.3.1 Soit p ∈ [1, ∞[.
(1) L’espace des fonctions ´etag´ees int´egrables est dense dans L
p
(E, /, µ).
(2) Si (E, d) est un espace m´etrique, et µ une mesure ext´erieurement r´eguli`ere sur
(E, B(E)), l’espace des fonctions lipschitziennes born´ees qui sont dans L
p
est dense dans
L
p
(E, B(E), µ).
(3) Si (E, d) est un espace m´etrique localement compact s´eparable, et µ une mesure de
Radon sur E, alors l’espace des fonctions lipschitziennes `a support compact est dense dans
L
p
(E, B(E), µ).
Preuve. (1) En d´ecomposant f = f
+
− f

, il suffit de montrer que si f ∈ L
p
est positive,
alors f est limite dans L
p
d’une suite de fonctions ´etag´ees. On sait que
f = lim
n→∞
↑ ϕ
n
49
o` u pour chaque n, 0 ≤ ϕ
n
≤ f et ϕ
n
est ´etag´ee. Alors,


n
[
p
dµ ≤

[f[
p
dµ < ∞ et donc
ϕ
n
∈ L
p
(ce qui pour une fonction ´etag´ee ´equivaut `a ϕ
n
∈ L
1
). Puisque [f − ϕ
n
[
p
≤ f
p
, le
th´eor`eme de convergence domin´ee donne
lim
n→∞

[f −ϕ
n
[
p
dµ = 0.
(2) Il suffit de montrer que toute fonction ´etag´ee int´egrable est limite dans L
p
de fonctions
lipschitziennes born´ees. On se ram`ene ais´ement au cas f = 1
A
, A ∈ B(E), µ(A) < ∞. Soit
alors ε > 0. On peut trouver un ouvert O contenant A tel que µ(O`A) < (ε/2)
p
, et donc
|1
O
−1
A
|
p
<
ε
2
.
Ensuite, pour tout k ≥ 1, on pose ϕ
k
(x) = (k d(x, O
c
)) ∧1. La fonction ϕ
k
est lipschitzienne
et ϕ
k
↑ 1
O
quand k → ∞. Par convergence domin´ee,

[1
O
− ϕ
k
[
p
dµ −→ 0 quand k → ∞,
et donc on peut choisir k assez grand pour que
|1
O
−ϕ
k
|
p
<
ε
2
.
Finalement,
|1
A
−ϕ
k
|
p
≤ |1
A
−1
O
|
p
+|1
O
−ϕ
k
|
p
< ε.
(3) On utilise le lemme suivant, dont la preuve est repouss´ee `a la fin de la d´emonstration.
Rappelons que si A est un sous-ensemble de E,

A d´esigne l’int´erieur de A.
Lemme 4.3.2 Soit E un espace m´etrique localement compact s´eparable. Alors il existe une
suite croissante de compacts (L
n
)
n≥1
tels que, pour tout n, L
n


L
n+1
et E =
¸
n≥1
L
n
=
¸
n≥1

L
n
.
Il est facile de d´eduire du lemme que toute mesure de Radon µ sur E est ext´erieurement
r´eguli`ere (ce qui a d´ej`a ´et´e vu, sans d´emonstration, dans l’´enonc´e du th´eor`eme de repr´esenta-
tion de Riesz). En effet, si A est un bor´elien de E, on peut en consid´erant la restriction de
µ `a

L
n
(qui est une mesure finie) appliquer un r´esultat de r´egularit´e ext´erieure du chapitre
pr´ec´edent et trouver pour chaque n un ouvert O
n


L
n
tel que A∩

L
n
⊂ O
n
et
µ(O
n
`(A∩

L
n
)) ≤ ε 2
−n
.
Alors la r´eunion O des O
n
est un ouvert de E et
µ(O`A) ≤
¸
n≥1
µ(O
n
`(A∩

L
n
)) ≤ ε.
Ensuite, puisque µ est ext´erieurement r´eguli`ere, on peut appliquer la partie (2) du
th´eor`eme. On est ainsi ramen´e `a montrer que toute fonction f lipschitzienne born´ee telle
50
que

[f[
p
dµ < ∞ est limite dans L
p
de fonctions lipschitziennes `a support compact (noter
que celles-ci sont automatiquement dans L
p
). Par convergence domin´ee, on a
lim
n→∞

(

Ln)
c
[f[
p
dµ = 0,
et donc |f −f1◦
L
n
|
p
−→ 0. D’autre part, pour chaque n fix´e, et pour tout k ≥ 1, soit
ϕ
n,k
(x) = k d(x, (

L
n
)
c
) ∧ 1.
Alors ϕ
n,k
∈ L
p
puisque ϕ
n,k
≤ 1◦
L
n
. De plus, par convergence domin´ee `a nouveau, on voit
que pour chaque n fix´e, ϕ
n,k
converge vers 1◦
L
n
dans L
p
quand k → ∞. Finalement, en
´ecrivant
|f −fϕ
n,k
|
p
≤ |f −f1◦
Ln
|
p
+|f1◦
Ln
−fϕ
n,k
|
p
≤ |f −f1◦
Ln
|
p
+|f|

|1◦
Ln
−ϕ
n,k
|
p
et en choisissant n puis k assez grands, on approche f dans L
p
par la fonction fϕ
n,k
qui est
lipschitzienne `a support compact.
Preuve du lemme. On montre d’abord que E est r´eunion d’une suite croissante de com-
pacts (K
n
)
n≥1
. Pour cela, soit (x
p
)
p≥0
une suite dense dans E. Introduisons l’ensemble I de
couples d’entiers d´efini par
I = ¦(p, k) ∈ N
2
:
¯
B(x
p
, 2
−k
) est compact¦,
o` u
¯
B(x, r) d´esigne la boule ferm´ee de centre x et de rayon r. En utilisant le fait que E est
localement compact et la densit´e de la suite (x
p
) il est facile de voir que
E =
¸
(p,k)∈I
¯
B(x
p
, 2
−k
).
Par ailleurs, I ´etant d´enombrable, on peut trouver une suite croissante de sous-ensembles
finis I
n
, n ≥ 1 de I tels que I soit la r´eunion des I
n
. Alors il suffit de poser
K
n
=
¸
(p,k)∈In
¯
B(x
p
, 2
−k
)
pour avoir les propri´et´es recherch´ees.
Ensuite, on construit la suite (L
n
) par r´ecurrence sur n. On prend L
1
= K
1
. Si on a
construit L
n
, on recouvre le compact K
n+1
∪ L
n
par une r´eunion finie V
1
∪ V
2
∪ . . . ∪ V
p
de voisinages ouverts d’adh´erence compacte de points de K
n+1
∪ L
n
, et on prend L
n+1
=
¯
V
1

¯
V
2
∪ . . . ∪
¯
V
p
.
Cons´equences. Pour p ∈ [1, ∞[, on a :
(i) L’espace C
c
(R
d
) des fonctions continues `a support compact sur R
d
est dense dans
L
p
(R
d
, B(R
d
), λ). On peut remplacer λ par n’importe quelle mesure de Radon sur (R
d
, B(R
d
)).
51
(ii) L’ensemble des fonctions en escalier (`a support compact) est dense dans L
p
(R, B(R), λ).
En effet il sufit de v´erifier que toute fonction f ∈ C
c
(R) est limite dans L
p
de fonctions en
escalier. Cela se voit en ´ecrivant
f = lim
n→∞

¸
k∈Z
f(
k
n
) 1
[
k
n
,
k+1
n
[

.
Application. Si f ∈ L
1
(R, B(R), λ),
ˆ
f(ξ) −→
|ξ|→∞
0.
On se ram`ene par densit´e au cas o` u f est une fonction en escalier : si f est limite dans L
1
d’une suite (ϕ
n
) de fonctions en escalier,
sup
ξ∈R
[
ˆ
f(ξ) − ˆ ϕ
n
(ξ)[ = sup
ξ∈R

f(x)e
ixξ
dx −

ϕ
n
(x)e
ixξ
dx

≤ |f −ϕ
n
|
1
qui tend vers 0 quand n → ∞. Ensuite, si f est en escalier, f =
p
¸
j=1
λ
j
1
]x
j
,x
j+1
[
, on a
ˆ
f(ξ) =
p
¸
j=1
λ
j

e
iξx
j+1
−e
iξx
j

−→
|ξ|→∞
0,
d’o` u le r´esultat voulu.
4.4 Le th´eor`eme de Radon-Nikodym
D´efinition 4.4.1 Soient µ et ν deux mesures sur (E, /). On dit que:
(i) ν est absolument continue par rapport `a µ (notation ν ≪ µ) si
∀A ∈ /, µ(A) = 0 ⇒ ν(A) = 0.
(ii) ν est ´etrang`ere `a µ (notation ν ⊥ µ) s’il existe N ∈ / tel que µ(N) = 0 et ν(N
c
) = 0.
Exemple. Si f est mesurable positive , la mesure ν = f µ d´efinie par
ν(A) =

A
f dµ
est absolument continue par rapport `a µ.
Th´eor`eme 4.4.1 (Radon-Nikodym) Soient µ et ν deux mesures σ-finies sur (E, /). Il
existe alors un unique couple (ν
a
, ν
s
) de mesures σ-finies sur (E, /) telles que
52
(1) ν = ν
a
+ ν
s
.
(2) ν
a
≪ µ et ν
s
⊥ µ.
De plus, il existe une fonction mesurable g : E −→R
+
telle que
∀A ∈ /, ν
a
(A) =

A
g dµ
et la fonction g est unique `a un ensemble de µ-mesure nulle pr`es.
Preuve. On traite d’abord en d´etail le cas o` u les deux mesures µ et ν sont finies. L’extension
au cas σ-fini ne pr´esentera pas de difficult´e.
Cas o` u µ ≥ ν. Dans un premier temps, on suppose ν ≤ µ, c’est-`a-dire

g dν ≤

g dµ
pour toute fonction mesurable positive g. Consid´erons alors l’application Φ : L
2
(E, /, µ) −→
R d´efinie par
Φ(f) =

f dν.
Remarquons que l’int´egrale a bien un sens puisque

[f[dν ≤

[f[dµ
et on sait que pour une mesure finie L
2
(µ) ⊂ L
1
(µ). De plus, Φ(f) ne d´epend pas du
repr´esentant de f choisi pour calculer

fdν :
f =
˜
f, µ p.p. ⇒ f =
˜
f, ν p.p. ⇒

fdν =

fd˜ ν.
L’in´egalit´e de Cauchy-Schwarz montre que
[Φ(f)[ ≤

f
2

1/2
ν(E)
1/2

f
2

1/2
ν(E)
1/2
= ν(E)
1/2
|f|
L
2
(µ)
.
Donc Φ est une forme lin´eaire continue sur L
2
(E, /, µ) et on sait alors qu’il existe une
fonction h ∈ L
2
(E, /, µ) telle que
∀f ∈ L
2
(E, /, µ), Φ(f) = 'f, h` =

fh dµ.
En particulier, en prenant f = 1
A
,
∀A ∈ /, ν(A) =

A
h dµ.
On peut aussi remarquer que 0 ≤ h ≤ 1, µ p.p. En effet, pour tout ε > 0,
µ(¦x : h(x) ≥ 1+ε¦) ≥ ν(¦x : h(x) ≥ 1+ε¦) =

{x:h(x)≥1+ε}
hdµ ≥ (1+ε)µ(¦x : h(x) ≥ 1+ε¦)
53
ce qui implique µ(¦x : h(x) ≥ 1+ε¦) = 0. On montre de mˆeme que h ≥ 0 µ p.p. Remarquons
que quitte `a remplacer h par (h ∨ 0) ∧ 1, on peut supposer 0 ≤ h(x) ≤ 1 pour tout x ∈ E.
Cas g´en´eral. On applique la premi`ere partie de la preuve aux mesures ν et µ+ν. Il existe
donc une fonction mesurable h telle que 0 ≤ h ≤ 1 et, pour toute fonction f ∈ L
2
(µ + ν),

f dν =

fh d(µ + ν).
En particulier, pour toute fonction f mesurable born´ee,

f dν =

fh dµ +

fh dν
d’o` u
f(1 −h) dν =

fh dµ.
En utilisant le th´eor`eme de convergence monotone, on voit que cette derni`ere ´egalit´e est
vraie pour toute fonction f mesurable positive.
Posons N = ¦x ∈ E : h(x) = 1¦. Alors en prenant f = 1
N
, on voit que µ(N) = 0. La
mesure
ν
s
= 1
N
ν (∀A ∈ /, ν
s
(A) = ν(A ∩ N))
est donc ´etrang`ere `a µ. D’autre part, en rempla¸ cant f par 1
N
c(1 − h)
−1
f dans l’´egalit´e
ci-dessus, on trouve que pour toute fonction f mesurable positive,

N
c
f dν =

N
c
f
h
1 −h
dµ =

fg dµ,
o` u g = 1
N
c
h
1−h
. En posant
ν
a
= 1
N
c ν = g µ
on a bien les propri´et´es (1) et (2) du th´eor`eme, et la repr´esentation annonc´ee pour ν
a
.
L’unicit´e du couple (ν
a
, ν
s
) est facile. Si (˜ ν
a
, ˜ ν
s
) est un autre couple avec les propri´et´es
(1) et (2), on a
∀A ∈ /, ν
a
(A) − ˜ ν
a
(A) = ν
s
(A) − ˜ ν
s
(A).
Mais comme ν
s
et ˜ ν
s
sont port´ees respectivement par des ensembles N et
˜
N de µ-mesure
nulle, on a
ν
s
(A) −˜ ν
s
(A) = ν
s
(A∩(N ∪
˜
N)) −˜ ν
s
(A∩(N∪
˜
N)) = ν
a
(A∩(N ∪
˜
N)) −˜ ν
a
(A∩(N∪
˜
N)) = 0
`a cause de la propri´et´e ν
a
≪ µ, ˜ ν
a
≪ µ. Enfin, pour obtenir l’unicit´e de g, on se donne une
autre fonction ˜ g avec la mˆeme propri´et´e, et on observe que

{˜ g>g}
˜ g dµ = ν
a
(¦˜ g > g¦) =

{˜ g>g}
g dµ,
d’o` u
{˜ g>g}
(˜ g −g) dµ = 0
54
ce qui force ˜ g ≤ g, µ p.p. et par sym´etrie g = ˜ g, µ p.p.
Il reste `a s’affranchir de l’hypoth`ese suppl´ementaire que µ et ν sont finies. Si µ et ν sont
seulement σ-finies, on peut construire une partition mesurable d´enombrable (E
n
)
n∈N
de E
de mani`ere que µ(E
n
) < ∞ et ν(E
n
) < ∞ pour tout n. Notons µ
n
la restriction de µ `a E
n
et ν
n
la restriction de ν `a E
n
. En appliquant le d´ebut de la preuve on peut ´ecrire pour tout
n ∈ N,
ν
n
= ν
n
a
+ ν
n
s
o` u ν
n
s
⊥ µ
n
, et ν
n
a
= g
n
µ
n
, la fonction mesurable g
n
´etant nulle sur E
c
n
(puisque µ
n
(E
c
n
) = 0,
il est clair qu’on peut imposer cette derni`ere condition). On obtient le r´esultat du th´eor`eme
en posant
ν
a
=
¸
n∈N
ν
n
a
, ν
s
=
¸
n∈N
ν
n
s
, g =
¸
n∈N
g
n
.
(Dans la derni`ere somme, remarquer que pour chaque x ∈ E il y a au plus une valeur de n
pour laquelle g
n
(x) > 0.) La v´erification des propri´et´es d’unicit´e ne pr´esente pas de difficult´e.

55
56
Chapitre 5
Mesures produits
Etant donn´e deux espaces mesurables munis chacun d’une mesure, on peut construire sur
leur produit cart´esien une mesure appel´ee la mesure produit. De plus l’int´egrale d’une
fonction d´efinie sur l’espace produit peut ˆetre calcul´ee en int´egrant d’abord par rapport `a la
mesure sur le premier espace puis par rapport `a la mesure sur le second, ou bien dans l’ordre
inverse : c’est le fameux th´eor`eme de Fubini. Outre ses applications importantes en analyse
(int´egration par parties, convolution, etc.) ou en th´eorie des probabilit´es, le th´eor`eme de
Fubini est un outil essentiel pour le calcul effectif des int´egrales.
5.1 G´en´eralit´es sur les espaces produits
Soient (E, /) et (F, B) deux espaces mesurables. On peut alors munir le produit E F de
la tribu-produit
/⊗B = σ(AB; A ∈ /, B ∈ B).
Les ensembles de la forme AB sont appel´es pav´es mesurables. Il est facile de v´erifier que
/⊗B est la plus petite tribu sur EF qui rende mesurables les deux projections canoniques
π
1
: E F −→ E et π
2
: E F −→ F.
Soit (G, () un troisi`eme espace mesurable, et soit f : G −→ E F. Notons f(x) =
(f
1
(x), f
2
(x)). On a vu dans le Chapitre 1 que f est mesurable (E F ´etant muni de la
tribu produit) ssi les deux applications f
1
et f
2
le sont.
On ´etend facilement la d´efinition de la tribu produit au cas d’un nombre fini quelconque
d’espaces mesurables (E
1
, /
1
), . . . , (E
n
, /
n
) :
/
1
⊗/
2
⊗ ⊗/
n
= σ(A
1
A
n
; A
i
∈ /
i
)
et on a les propri´et´es d’“associativit´e” attendues, `a savoir par exemple pour n = 3,
(/
1
⊗/
2
) ⊗/
3
= /
1
⊗(/
2
⊗/
3
) = /
1
⊗/
2
⊗/
3
.
Proposition 5.1.1 Si E et F sont deux espaces m´etriques s´eparables, on a
B(E F) = B(E) ⊗B(F).
57
Preuve. L’inclusion B(E F) ⊃ B(E) ⊗ B(F) est vraie sans hypoth`ese de s´eparabilit´e :
elle d´ecoule de ce que les projections π
1
et π
2
sont continues donc mesurables pour la tribu
B(E F).
Dans l’autre sens, on observe qu’on peut trouver un ensemble d´enombrable d’ouverts
| = ¦U
n
, n ≥ 1¦ de E tels que tout ouvert de E soit r´eunion d’une sous-famille de | (si
(x
k
) est une suite dense dans E, il suffit de prendre pour | les boules ouvertes de rayon
rationnel centr´ees en l’un des x
k
). Soit 1 = ¦V
n
, n ≥ 1¦ une famille analogue pour F. Pour
tout ouvert O de E F et tout z = (x, y) ∈ O, on sait que O contient un ouvert de la
forme U V , o` u U, resp. V , est un ouvert de E, resp. de F, contenant x, resp. y. Il
en d´ecoule que O doit ˆetre r´eunion (au plus d´enombrable) d’une sous-famille de la famille
¦U
n
V
m
; n, m ≥ 1¦. Donc tout ouvert de E F est mesurable pour B(E) ⊗ B(F) et cela
entraˆıne B(E F) ⊂ B(E) ⊗B(F).
On revient au cas o` u (E, /) et (F, B) sont deux espaces mesurables quelconques. Si
C ⊂ E F, on pose pour x ∈ E
C
x
= ¦y ∈ F : (x, y) ∈ C¦
et pour y ∈ F,
C
y
= ¦x ∈ E : (x, y) ∈ C¦.
Si f est une fonction d´efinie sur E F, on note pour x ∈ E, f
x
(y) = f(x, y) et pour y ∈ F,
f
y
(x) = f(x, y).
Th´eor`eme 5.1.2 (i) Soit C ∈ /⊗B. Alors, pour tout x ∈ E, C
x
∈ B et pour tout y ∈ F,
C
y
∈ /.
(ii) Soit f : EF −→ G une application mesurable pour la tribu produit /⊗B. Alors, pour
tout x ∈ E, f
x
est B-mesurable, et pour tout y ∈ F, f
y
est /-mesurable.
Preuve. (i) Fixons x ∈ E et posons
( = ¦C ∈ /⊗B : C
x
∈ B¦.
Alors ( contient les pav´es mesurables (si C = A B, C
x
= B ou C
x
= ∅ selon que x ∈ A
ou x / ∈ A). Par ailleurs il est facile de v´erifier que ( est une tribu, et donc ( = /⊗B.
(ii) Pour toute partie mesurable D de G,
f
−1
x
(D) = ¦y ∈ F : (x, y) ∈ f
−1
(D)¦ = (f
−1
(D))
x
qui est dans B d’apr`es (i).
5.2 Construction de la mesure-produit
Th´eor`eme 5.2.1 Soient µ et ν deux mesures σ-finies respectivement sur (E, /) et sur
(F, B).
58
(i) Il existe une unique mesure m sur (E F, /⊗B) telle que
∀A ∈ /, ∀B ∈ B, m(AB) = µ(A)ν(B)
(avec la convention usuelle 0 ∞ = 0). Cette mesure est σ-finie, et est not´ee m = µ ⊗ν.
(ii) Pour tout C ∈ /⊗B,
µ ⊗ν(C) =

E
ν(C
x
) µ(dx) =

F
µ(C
y
) ν(dy).
Preuve. Unicit´e. Il existe une suite croissante A
n
∈ /, resp. B
n
∈ B, telle que µ(A
n
) < ∞,
resp. µ(B
n
) < ∞, pour tout n, et E = ∪A
n
, resp. F = ∪B
n
. Alors, si C
n
= A
n
B
n
, on a
aussi
E F =
¸
n
C
n
.
Soient m et m

deux mesures sur / ⊗ B v´erifiant la propri´et´e ´enonc´ee en (i) du th´eor`eme.
Alors,
• m et m

co¨ıncident sur la classe des pav´es mesurables, qui est stable par intersection finie
et engendre la tribu /⊗B;
• pour tout n, m(C
n
) = µ(A
n
)ν(B
n
) = m

(C
n
) < ∞.
D’apr`es une cons´equence du lemme de classe monotone vue dans le Chapitre 1, cela suffit
pour dire que m = m

.
Existence. On pose pour tout C ∈ /⊗B,
m(C) =

E
ν(C
x
) µ(dx). (5.1)
Remarquons que ν(C
x
) est bien d´efinie pour tout x ∈ E d’apr`es le th´eor`eme pr´ec´edent. Pour
v´erifier que la formule (5.1) a bien un sens il faut aussi montrer que l’application x −→ ν(C
x
)
est /-mesurable.
Supposons d’abord ν finie et posons
( = ¦C ∈ /⊗B : x −→ ν(C
x
) est /-mesurable¦.
Alors
• ( contient les pav´es mesurables : si C = AB, ν(C
x
) = 1
A
(x)ν(B).
• ( est une classe monotone : si C ⊂ C

, on a ν((C`C

)
x
) = ν(C
x
) − ν(C

x
) (parce que ν
est finie !) et si C
n
est une suite croissante, ν((∪C
n
)
x
) = lim ↑ ν((C
n
)
x
).
D’apr`es le lemme de classe monotone, on a donc ( = / ⊗ B, ce qui donne la mesurabilit´e
recherch´ee pour l’application x −→ ν(C
x
).
Dans le cas g´en´eral o` u ν n’est pas finie mais seulement σ-finie, on choisit la suite (B
n
)
comme ci-dessus et on peut remplacer ν par ν
n
(B) = ν(B ∩ B
n
), pour obtenir que x −→
ν(C
x
) = lim ↑ ν
n
(C
x
) est mesurable pour tout C ∈ /⊗B.
59
Il est ensuite facile de montrer que m est une mesure sur /⊗B : si (C
n
) est une famille
de parties disjointes dans /⊗B, les (C
n
)
x
sont aussi disjoints pour tout x ∈ E, et donc
m

¸
n
C
n

=

E
ν

¸
n
(C
n
)
x

µ(dx)
=

E
¸
n
ν((C
n
)
x
) µ(dx)
=
¸
n

E
ν((C
n
)
x
) µ(dx)
=
¸
n
m(C
n
)
l’interversion entre somme et int´egrale ´etant justifi´ee par un r´esultat du Chapitre 2.
Il est imm´ediat que m v´erifie la propri´et´e
m(AB) = µ(A)ν(B).
Par ailleurs, si on d´efinit m

par
m

(C) =

F
µ(C
y
) ν(dy),
les mˆemes arguments montrent que m

est une mesure sur /⊗B qui v´erifie la mˆeme propri´et´e,
ce qui d’apr`es l’unicit´e entraˆıne m = m

. On en d´eduit l’assertion (ii) du th´eor`eme, ce qui
compl`ete la preuve.
Remarques. (i) L’hypoth`ese de σ-finitude est essentielle au moins pour la partie (ii). En
effet, si on prend (E, /) = (F, B) = (R, B(R)), µ = λ et ν la mesure de comptage, on
remarque que pour C = ¦(x, x) : x ∈ R¦,
∞ =

ν(C
x
) λ(dx) =

λ(C
y
) ν(dy) = 0.
(ii) Si on a maintenant n mesures σ-finies µ
1
, . . . , µ
n
, on peut d´efinir le produit µ
1
⊗ ⊗µ
n
en posant
µ
1
⊗ ⊗µ
n
= µ
1
⊗(µ
2
⊗( ⊗µ
n
)).
L’ordre des parenth`eses n’a en fait pas d’importance car la mesure µ
1
⊗ ⊗µ
n
est caract´eris´ee
par ses valeurs sur les pav´es
µ
1
⊗ ⊗µ
n
(A
1
A
n
) = µ
1
(A
1
) . . . µ
n
(A
n
).
Exemple. Si (E, /) = (F, B) = (R, B(R)), et µ = ν = λ, on v´erifie facilement que λ⊗λ est
la mesure de Lebesgue sur R
2
(observer que la mesure de Lebesgue sur R
2
est caract´eris´ee
par ses valeurs sur les rectangles [a, b] [c, d], toujours d’apr`es le lemme de classe monotone).
Ceci se g´en´eralise en dimension sup´erieure et montre qu’il aurait suffi de construire la mesure
de Lebesgue en dimension un.
60
5.3 Le th´eor`eme de Fubini
On commence par donner l’´enonc´e qui concerne les fonctions positives. Comme dans le
paragraphe pr´ec´edent, on consid`ere deux espaces mesurables (E, /) et (F, B), et le produit
E F est muni de la tribu /⊗B.
Th´eor`eme 5.3.1 (Fubini-Tonnelli) Soient µ et ν deux mesures σ-finies respectivement
sur (E, /) et sur (F, B), et soit f : E F −→ [0, ∞] une fonction mesurable.
(i) Les fonctions
x −→

f(x, y) ν(dy)
y −→

f(x, y) µ(dx)
sont respectivement /-mesurable et B-mesurable.
(ii) On a

E×F
f dµ ⊗ν =

E

F
f(x, y) ν(dy)

µ(dx) =

F

E
f(x, y) µ(dx)

ν(dy).
Preuve. (i) Soit C ∈ /⊗B. Si f = 1
C
, on a d´ej`a vu que la fonction x −→

f(x, y)ν(dy) =
ν(C
x
) est /-mesurable, et de mˆeme y −→

f(x, y)µ(dx) = µ(C
y
) est B-mesurable. Par
lin´earit´e, on en d´eduit que le r´esultat de (i) est vrai pour toute fonction ´etag´ee positive.
Enfin, si f est quelconque, on peut ´ecrire f = lim ↑ f
n
, o` u les fonctions f
n
sont ´etag´ees
positives, et on utilise le fait qu’alors

f(x, y) ν(dy) = lim ↑

f
n
(x, y) ν(dy)
et de mˆeme pour

f(x, y) µ(dx).
(ii) Pour f = 1
C
, l’´egalit´e annonc´ee est
µ ⊗ν(C) =

E
ν(C
x
) µ(dx) =

F
µ(C
x
) ν(dy)
et a d´ej`a ´et´e vue dans le paragraphe pr´ec´edent. On en d´eduit par lin´earit´e le r´esultat voulu
quand f est ´etag´ee positive, puis par limite croissante pour f quelconque : on remarque par
exemple que si f = lim ↑ f
n
,

E

F
f(x, y) ν(dy)

µ(dx) = lim ↑

E

F
f
n
(x, y) ν(dy)

µ(dx)
par une double application du th´eor`eme de convergence monotone.
Nous passons maintenant au cas de fonctions de signe quelconque. On conserve les
hypoth`eses du th´eor`eme pr´ec´edent.
61
Th´eor`eme 5.3.2 (Fubini-Lebesgue) Soit f ∈ L
1
(E F, /⊗ B, µ ⊗ν) (ou f ∈ L
1
C
(E
F, /⊗B, µ ⊗ν)). Alors
(a) µ(dx) p.p. la fonction y −→ f(x, y) est dans L
1
(F, B, ν),
ν(dy) p.p. la fonction x −→ f(x, y) est dans L
1
(E, /, µ).
(b) Les fonctions x −→

f(x, y) ν(dy) et y −→

f(x, y) µ(dx), bien d´efinies sauf sur un
ensemble mesurable de mesure nulle, sont respectivement dans L
1
(E, /, µ) et L
1
(F, B, ν).
(c) On a

E×F
f dµ ⊗ν =

E

F
f(x, y) ν(dy)

µ(dx) =

F

E
f(x, y) µ(dx)

ν(dy).
Preuve. (a) En appliquant le th´eor`eme pr´ec´edent `a [f[,

E

F
[f(x, y)[ ν(dy)

µ(dx) =

[f[ dµ ⊗ν < ∞.
cela entraˆıne que µ(dx) p.p.

F
[f(x, y)[ ν(dy) < ∞
et donc la fonction y −→ f(x, y), dont on sait d´ej`a qu’elle est mesurable, est dans L
1
(F, B, ν).
(b) En ´ecrivant f = f
+
−f

et en utilisant le th´eor`eme pr´ec´edent, on voit que
x −→

f(x, y) ν(dy) =

f
+
(x, y) ν(dy) −

f

(x, y) ν(dy)
est mesurable (pour ˆetre pr´ecis, il faudrait donner une valeur arbitraire, par exemple 0, `a
l’int´egrale

f(x, y) ν(dy) pour les x tels que

[f(x, y)[ ν(dy) = ∞, qui forment un ensemble
de mesure nulle). De plus,

E

F
f(x, y) ν(dy)

µ(dx) ≤

E

F
[f(x, y)[ ν(dy)

µ(dx) =

[f[ dµ ⊗ν < ∞.
(c) Il suffit de faire la diff´erence terme `a terme dans les ´egalit´es

E

F
f
+
(x, y) ν(dy)

µ(dx) =

E×F
f
+
dµ ⊗ν

E

F
f

(x, y) ν(dy)

µ(dx) =

E×F
f

dµ ⊗ν.

Remarque. L’hypoth`ese f ∈ L
1
(µ⊗ν) est cruciale. Il peut arriver en effet que les propri´et´es
(a) et (b) soient toutes les deux satisfaites, et donc que les quantit´es

E

F
f(x, y) ν(dy)

µ(dx) et

F

E
f(x, y) µ(dx)

ν(dy)
62
soient bien d´efinies, sans que ces quantit´es soient ´egales. Pour donner un exemple, con-
sid´erons la fonction
f(x, y) = 2e
−2xy
−e
−xy
d´efinie pour (x, y) ∈]0, ∞[]0, 1]. Alors, pour tout y ∈]0, 1],

]0,∞[
f(x, y) dx = 2


0
e
−2xy
dx −


0
e
−xy
dx = 0
et pour tout x > 0,

]0,1]
f(x, y)dy = 2

1
0
e
−2xy
dy −

1
0
e
−xy
dy =
e
−x
−e
−2x
x
.
On voit alors que

]0,1]

]0,∞[
f(x, y) dx

dy = 0
alors que

]0,∞[

]0,1]
f(x, y)dy

dx =


0
e
−x
−e
−2x
x
dx > 0.
Evidemment dans cet exemple on a

]0,∞[×]0,1[
[f(x, y)[ dxdy = ∞.
En pratique, il faut se souvenir que l’application du th´eor`eme de Fubini est toujours
justifi´ee pour des fonctions mesurables positives, et que dans le cas de fonctions de signe
quelconque, il faut s’assurer que

[f[ dµ ⊗ν < ∞
ce qui se fait le plus souvent en appliquant le cas des fonctions positives.
Notation. Lorsque l’application du th´eor`eme de Fubini est justifi´ee (et seulement dans ce
cas), on omet souvent les parenth`eses et on ´ecrit

f dµ ⊗ν =

E

F
f(x, y) µ(dx)ν(dy).
5.4 Applications
5.4.1 Int´egration par parties
Soient f et g deux fonctions mesurables de R dans R localement int´egrables (i.e. int´egrables
sur tout compact pour la mesure de Lebesgue). On pose pour x ∈ R,
F(x) =

x
0
f(t) dt

=

[0,x]
f(t) dt si x ≥ 0

[x,0]
f(t) dt si x < 0

G(x) =

x
0
g(t) dt.
63
Alors, pour tous a < b,
F(b)G(b) = F(a)G(a) +

b
a
f(t)G(t)dt +

b
a
F(t)g(t)dt.
On voit facilement que cette ´egalit´e ´equivaut `a

b
a
f(t)(G(t) −G(a)) dt =

b
a
(F(b) −F(t))g(t) dt.
Pour ´etablir cette derni`ere ´egalit´e, on ´ecrit

b
a
f(t)(G(t) −G(a)) dt =

b
a
f(t)

t
a
g(s)ds

dt
=

b
a

b
a
1
{s≤t}
f(t)g(s)ds

dt
=

b
a

b
a
1
{s≤t}
f(t)g(s)dt

ds
=

b
a
g(s)

b
s
f(t)dt

ds
=

b
a
g(s)(F(b) −F(s))ds.
Dans la troisi`eme ´egalit´e on a appliqu´e le th´eor`eme de Fubini-Lebesgue `a la fonction
ϕ(s, t) = 1
{s≤t}
f(t)g(s)
en observant que, grˆace au th´eor`eme de Fubini-Tonnelli,

[a,b]
2
[ϕ(s, t)[dsdt ≤

[a,b]
2
[f(t)[[g(s)[dsdt =

[a,b]
[f(t)[dt

[a,b]
[g(s)[ds

< ∞.
5.4.2 Convolution
Si f et g sont deux fonctions mesurables sur R
d
, la convolution
f ∗ g(x) =

R
d
f(x −y)g(y) dy
est bien d´efinie `a condition que

R
d
[f(x −y)g(y)[ dy < ∞.
Dans ce cas, l’invariance de la mesure de Lebesgue par translation et par la sym´etrie y → −y
entraˆıne aussitˆot que g ∗ f(x) est bien d´efinie et g ∗ f(x) = f ∗ g(x).
64
Proposition 5.4.1 Soient f, g ∈ L
1
(R
d
, B(R
d
), λ). Alors, pour λ presque tout x ∈ R
d
, la
convolution f ∗ g(x) est bien d´efinie. De plus, f ∗ g ∈ L
1
(λ) et |f ∗ g|
1
≤ |f|
1
|g|
1
.
Remarque. Cela a bien un sens de dire qu’une fonction d´efinie λ presque partout est dans
L
1
(λ) : on peut choisir de mani`ere arbitraire le prolongement sur l’ensemble o` u la fonction
n’est pas d´efinie.
Preuve. D’apr`es le th´eor`eme de Fubini-Tonnelli,

R
d

R
d
[f(x −t)[[g(t)[dt

dx =

R
d

R
d
[f(x −t)[[g(t)[dx

dt
=

R
d
[g(t)[

R
d
[f(x −t)[dx

dt
=

R
d
[g(t)[dt

R
d
[f(x)[dx

< ∞
ce qui montre que

R
d
[f(x −t)[[g(t)[dt < ∞ dx p.p.
et donne la premi`ere assertion. Pour la seconde, on utilise encore le calcul pr´ec´edent pour
´ecrire

R
d
[f ∗ g(x)[dx ≤

R
d

R
d
[f(x −t)[[g(t)[dt

dx = |f|
1
|g|
1
< ∞.

La proposition suivante donne un autre cadre dans lequel on peut consid´erer la convolu-
tion de f et g.
Proposition 5.4.2 Soit p ∈ [1, ∞[, et soit q ∈]1, ∞] tels que
1
p
+
1
q
= 1. Soient f ∈
L
p
((R
d
, B(R
d
), λ) et g ∈ L
q
(R
d
, B(R
d
), λ). Alors, pour tout x ∈ R
d
, la convolution f ∗ g(x)
est bien d´efinie et f ∗ g est uniform´ement continue et born´ee sur R
d
.
Preuve. L’in´egalit´e de H¨older donne

R
d
[f(x −y)g(y)[ dy ≤

[f(x −y)[
p
dy

1/p
|g|
q
= |f|
p
|g|
q
.
Cela donne la premi`ere assertion et montre aussi que f ∗ g est born´ee par |f|
p
|g|
q
. Pour
l’uniforme continuit´e, on utilise le lemme suivant.
Lemme 5.4.3 Notons σ
x
(y) = y − x. Pour f ∈ L
p
(R
d
, B(R
d
), λ), p ∈ [1, ∞[, l’application
x −→ f ◦ σ
x
est uniform´ement continue de R
d
dans L
p
(R
d
, B(R
d
), λ).
65
Si on admet le lemme, il est facile de compl´eter la preuve de la proposition : pour
x, x

∈ R
d
,
[f ∗ g(x) −f ∗ g(x

)[ ≤

[f(x −y) −f(x

−y)[[g(y)[ dy
≤ |g|
q

[f(x −y) −f(x

−y)[
p
dy

1/p
= |g|
q
|f ◦ σ
−x
−f ◦ σ
−x
′ |
p
et on utilise le lemme pour dire que |f ◦ σ
−x
−f ◦ σ
−x
′ |
p
tend vers 0 quand x −x

tend vers
0.
Preuve du lemme. Supposons d’abord f ∈ C
c
(R
d
). Alors,

[f ◦ σ
x
−f ◦ σ
y
[
p
dλ =

[f(z −x) −f(z −y)[
p
dz =

[f(z) −f(z −(y −x))[
p
dz
qui tend vers 0 quand y − x → 0 par convergence domin´ee. Dans le cas g´en´eral, on peut
trouver une suite f
n
∈ C
c
(R
d
) qui converge vers f dans L
p
(λ) (cf Chapitre 4). Alors
|f ◦ σ
x
−f ◦ σ
y
|
p
≤ |f ◦ σ
x
−f
n
◦ σ
x
|
p
+|f
n
◦ σ
x
−f
n
◦ σ
y
|
p
+|f
n
◦ σ
y
−f ◦ σ
y
|
p
= 2|f −f
n
|
p
+|f
n
◦ σ
x
−f
n
◦ σ
y
|
p
.
Pour ε > 0, on choisit d’abord n tel que |f −f
n
|
p
< ε/4, puis δ > 0 tel que |f
n
◦ σ
x
−f
n

σ
y
|
p
≤ ε/2 si [x−y[ < δ. Les in´egalit´es pr´ec´edentes montrent alors que |f ◦σ
x
−f ◦σ
y
|
p
≤ ε
si [x −y[ < δ.
Approximations de la mesure de Dirac. On dit qu’une suite ϕ
n
dans C
c
(R
d
) est une
approximation de δ
0
si :
• Il existe un compact K tel que supp(ϕ
n
) ⊂ K pour tout n.
• Pour tout n, ϕ
n
≥ 0 et

R
d
ϕ
n
(x) dx = 1.
• Pour tout δ > 0,
lim
n→∞

{|x|>δ}
ϕ
n
(x) dx = 0.
Il est facile de construire des approximations de δ
0
. Si ϕ : R
d
−→ R
+
est une fonction
continue `a support compact telle que

ϕ(x)dx = 1, il suffit de poser
ϕ
n
(x) = n
d
ϕ(nx) , x ∈ R
d
.
On peut mˆeme s’arranger pour que les fonctions ϕ
n
soient de classe C

: prendre par
exemple
ϕ(x) = c exp


1
1 −[x[
2

1
{|x|<1}
,
la constante c > 0 ´etant choisie pour que la condition

ϕ(x)dx = 1 soit satisfaite.
66
Proposition 5.4.4 Soit (ϕ
n
) une approximation de δ
0
.
(i) Si f : R
d
−→ R est continue, on a ϕ
n
∗ f −→ f quand n → ∞, uniform´ement sur tout
compact.
(ii) Si f ∈ L
p
(R
d
, B(R
d
), λ), avec p ∈ [1, ∞[, on a ϕ
n
∗ f −→ f dans L
p
.
Preuve. La partie (i) est facile `a ´etablir, en ´ecrivant
ϕ
n
∗ f(x) =

|y|≤δ
f(x −y)ϕ
n
(y)dy +

|y|>δ
f(x −y)ϕ
n
(y)dy
et en utilisant la continuit´e de f. Pour la partie (ii), on observe que si f, g ∈ L
p
(R
d
, λ),


n
∗ f(x) −ϕ
n
∗ g(x)[
p
dx ≤

ϕ
n
(x −y)[f(y) −g(y)[dy

p
dx

ϕ
n
(x −y)[f(y) −g(y)[
p
dy

dx
=

[f(y) −g(y)[
p

ϕ
n
(x −y)dx

dy
=

[f(y) −g(y)[
p
dy
o` u la deuxi`eme in´egalit´e est une cons´equence de l’in´egalit´e de Jensen (observer que ϕ
n
(x −
y)dy est une mesure de probabilit´e). Cette majoration permet de se ramener au cas o` u
f ∈ C
c
(R
d
), et alors le r´esultat d´ecoule de (i) et du th´eor`eme de convergence domin´ee.
Application. En dimension d = 1, on peut prendre
ϕ
n
(x) = c
n
(1 −x
2
)
n
1
{|x|≤1}
o` u la constante c
n
est choisie pour que

ϕ
n
(x)dx = 1. Soit alors [a, b] un intervalle contenu
dans ]0, 1[, et soit f une fonction continue sur [a, b]. On peut facilement prolonger f en une
fonction continue sur R et `a support compact contenu dans [0, 1] (prendre par exemple f
affine sur les intervalles [0, a] et [b, 1]. Alors,
ϕ
n
∗ f(x) = c
n

(1 −(x −y)
2
)
n
1
{|x−y|≤1}
f(y)dy −→ f(x)
uniform´ement sur [a, b]. Pour x ∈ [a, b], on peut clairement enlever l’indicatrice 1
{|x−y|≤1}
, et
on voit que f est limite uniforme sur [a, b] de polynˆomes (th´eor`eme de Stone-Weierstrass).
5.4.3 Calcul du volume de la boule unit´e
On note ici B
d
la boule unit´e ferm´ee de R
d
, et λ
d
la mesure de Lebesgue sur R
d
. En vue de
calculer γ
d
= λ
d
(B
d
) on observe d’abord que pour tout a > 0, l’image de λ
d
par l’application
x −→ ax est a
−d
λ
d
: pour tout A ∈ B(R
d
),
λ
d
(a
−1
A) = a
−d
λ
d
(A)
67
(il suffit de le v´erifier lorsque A est un pav´e, et alors c’est ´evident). En particulier,
λ
d
(aB
d
) = a
d
λ
d
(B
d
).
Ensuite on ´ecrit en utilisant le th´eor`eme de Fubini, si d ≥ 2,
γ
d
=

R
d
1
B
d
(x)dx =

R
d
1
{x
2
1
+···+x
2
d
≤1}
dx
1
. . . dx
d
=

1
−1

R
d−1
1
{x
2
1
+···+x
2
d−1
≤1−x
2
d
}
dx
1
. . . dx
d−1

dx
d
=

1
−1
λ
d−1

1 −x
2
d
B
d−1

dx
d
= γ
d−1

1
−1
(1 −x
2
d
)
(d−1)/2
dx
d
= γ
d−1
I
d−1
`a condition de poser pour tout entier n ≥ 0,
I
n
=

1
−1
(1 −x
2
)
n/2
dx.
Une int´egration par parties simple montre que pour n ≥ 2,
I
n
=
n
n + 1
I
n−2
.
En utilisant les cas particuliers I
0
= 2, I
1
= π/2, on en d´eduit par r´ecurrence que pour tout
d ≥ 2,
I
d−1
I
d−2
=

d
.
En cons´equence, pour d ≥ 3,
γ
d
= I
d−1
I
d−2
γ
d−2
=

d
γ
d−2
.
A partir des cas particuliers γ
1
= 2, γ
2
= γ
1
I
1
= π, on en d´eduit
γ
2k
=
π
k
k!
, γ
2k+1
=
π
k
(k +
1
2
)(k −
1
2
)
3
2

1
2
ce qu’on peut regrouper dans la formule
γ
d
=
π
d/2
Γ(
d
2
+ 1)
.
68
Chapitre 6
Mesures sign´ees
A la diff´erence des chapitres pr´ec´edents, on consid`ere ici des mesures sign´ees, pouvant prendre
aussi bien des valeurs n´egatives que des valeurs positives. Le r´esultat principal de ce chapitre
est la d´ecomposition de Jordan, qui fournit une ´ecriture minimale d’une telle mesure sign´ee
comme la diff´erence de deux mesures positives port´ees par des ensembles mesurables disjoints.
A titre d’application, on ´etablit un th´eor`eme important d’analyse fonctionnelle, qui affirme
que pour deux exposants p et q conjugu´es (
1
p
+
1
q
= 1) l’espace L
q
est le dual topologique de
L
p
.
6.1 D´efinition et variation totale
D´efinition 6.1.1 Soit (E, /) un espace mesurable. Une mesure sign´ee µ sur (E, /) est une
application µ : / −→ R telle que µ(∅) = 0 et que pour toute famille (A
n
)
n∈N
d’´el´ements
disjoints de /, la s´erie
¸
n∈N
µ(A
n
)
converge absolument, et
µ

¸
n∈N
A
n

=
¸
n∈N
µ(A
n
).
Th´eor`eme 6.1.1 Soit µ une mesure sign´ee sur (E, /). Pour tout A ∈ /, posons
[µ[(A) = sup

¸
n∈N
[µ(A
n
)[ : A =
¸
n∈N
A
n
, A
n
disjoints

o` u le supremum porte sur toutes les ´ecritures de A comme r´eunion d’une famille d´enombrable
(A
n
)
n∈N
de parties mesurables disjointes. Alors [µ[ est une mesure positive finie sur (E, /),
et pour tout A ∈ /, [µ(A)[ ≤ [µ[(A).
Preuve. On montre d’abord que [µ[ est une mesure positive. Soit (B
i
)
i∈N
une famille de
parties mesurables disjointes, et B =
¸
i∈N
B
i
. Par d´efinition, si t
i
∈ [0, [µ[(B
i
)[ (ou t
i
= 0
69
dans le cas [µ[(B
i
) = 0), on peut trouver une partition
1
mesurable B
i
=
¸
n∈N
A
n,i
, de fa¸ con
que
¸
n∈N
[µ(A
n,i
)[ ≥ t
i
.
Alors (A
n,i
)
n,i∈N
est une partition d´enombrable de B, et donc
[µ[(B) ≥
¸
i∈N
¸
n∈N
[µ(A
n,i
[ ≥
¸
i∈N
t
i
.
Puisque les t
i
peuvent ˆetre choisis arbitrairement proches des [µ[(B
i
), il en d´ecoule que
[µ[(B) ≥
¸
i∈N
[µ[(B
i
).
Pour obtenir l’in´egalit´e inverse, soit (A
n
)
n∈N
une partition de B. Alors
¸
n∈N
[µ(A
n
)[ =
¸
n∈N
[
¸
i∈N
µ(A
n
∩ B
i
)[

¸
n∈N
¸
i∈N
[µ(A
n
∩ B
i
)[
=
¸
i∈N
¸
n∈N
[µ(A
n
∩ B
i
)[

¸
i∈N
[µ[(B
i
),
la derni`ere in´egalit´e d´ecoulant du fait que les A
n
∩ B
i
, n ∈ N forment une partition de B
i
,
et de la d´efinition de [µ[(B
i
). En prenant le supremum sur les partitions (A
n
)
n∈N
de B, on
trouve
[µ[(B) ≤
¸
i∈N
[µ[(B
i
)
ce qui ach`eve de montrer que [µ[ est une mesure positive.
Comme l’in´egalit´e [µ(A)[ ≤ [µ[(A) est imm´ediate, il reste `a ´etablir que [µ[ est une mesure
finie.
Lemme 6.1.2 Si A ∈ / est tel que [µ[(A) = ∞, alors il existe deux parties mesurables
disjointes B et C telles que A = B ∪ C et [µ(B)[ > 1, [µ[(C) = ∞.
Preuve du lemme. Puisque [µ[(A) = ∞, on peut trouver une partition mesurable A =
¸
n∈N
A
n
de A de fa¸ con que
¸
n∈N
[µ(A
n
)[ > 2(1 +[µ(A)[).
1
On fait un abus de langage puisque dans la d´efinition usuelle d’une partition les ´el´ements de la partition
sont tous non vides, ce qui n’est pas forc´ement le cas ici.
70
On a alors par exemple
¸
n∈N
µ(A
n
)
+
> 1 +[µ(A)[
(le cas sym´etrique
¸
n∈N
µ(A
n
)

> 1 +[µ(A)[ se traite de la mˆeme mani`ere). On pose alors
B =
¸
{n:µ(An)>0}
A
n
de fa¸ con que
µ(B) =
¸
n∈N
µ(A
n
)
+
> 1 +[µ(A)[.
De plus, si C = A`B,
[µ(C)[ = [µ(A) −µ(B)[ ≥ [µ(B)[ −[µ(A)[ > 1.
Par ailleurs, puisque A = B ∪ C et que [µ[ est une mesure on doit avoir [µ[(B) = ∞ ou
[µ(C)[ = ∞, ce qui donne le r´esultat du lemme quitte `a ´echanger les rˆ oles de B et C si
n´ecessaire.
Nous pouvons maintenant compl´eter la preuve du th´eor`eme. On suppose que [µ[(E) =
∞. Alors, on peut trouver des parties mesurables disjointes B
0
et C
0
avec [µ(B
0
)[ > 1 et
[µ[(C
0
) = ∞. En appliquant de mˆeme le lemme `a C
0
on trouve B
1
et C
1
disjoints tels que
C
0
= B
1
∪ C
1
, [µ(B
1
)[ > 1 et [µ[(C
1
) = ∞. Par r´ecurrence, on construit ainsi une suite de
parties mesurables disjointes (B
n
)
n∈N
, telle que [µ(B
n
)[ > 1 pour tout n. Cela contredit le
fait que la s´erie
¸
n∈N
µ(B
n
)
doit converger absolument, d’apr`es la d´efinition d’une mesure sign´ee. On conclut que
[µ[(E) < ∞.
Exemple. Soit ν une mesure positive sur (E, /), et soit g ∈ L
1
(E, /, ν). Alors la formule
ν(A) =

A
g dν
d´efinit une mesure sign´ee. En effet, si A est la r´eunion disjointe d’une suite (A
n
) de parties
mesurables, l’´egalit´e
µ(A) =
¸
n∈N
µ(A
n
)
est obtenue en observant que
g 1
A
= lim
k→∞
g 1

n≤k
An
dans L
1
,
d’apr`es le th´eor`eme de convergence domin´ee. Nous verrons plus loin que dans ce cas [µ[ =
[g[ ν.
71
6.2 La d´ecomposition de Jordan
Soit µ une mesure sign´ee sur (E, /). Alors, on v´erifie imm´ediatement que les formules
µ
+
=
1
2
(µ +[µ[),
µ

=
1
2
([µ[ −µ),
d´efinissent deux mesures positives finies sur (E, /). De plus, µ = µ
+
−µ

et [µ[ = µ
+


.
Th´eor`eme 6.2.1 Soit µ une mesure sign´ee sur (E, /). Il existe une partie mesurable B de
E, unique `a un ensemble de [µ[-mesure nulle pr`es, telle que µ
+
= 1
B
[µ[ et µ

= 1
B
c [µ[
(de mani`ere ´equivalente, µ
+
, resp. µ

, est la restriction de [µ[ `a B, resp. `a B
c
). De plus,
on a pour tout A ∈ /,
µ
+
(A) = µ
+
(A∩ B) = µ(A∩ B) , µ

(A) = µ

(A∩ B
c
) = −µ(A∩ B
c
).
En cons´equence,
µ(A) = µ
+
(A ∩ B) −µ

(A∩ B
c
),
[µ[(A) = µ
+
(A∩ B) + µ

(A ∩ B
c
).
Preuve. On v´erifie imm´ediatement que µ
+
≤ [µ[ et µ

≤ [µ[, et donc les mesures µ
+
et
µ

sont absolument continues par rapport `a [µ[. D’apr`es le th´eor`eme de Radon-Nikodym,
il existe deux fonctions mesurables positives (finies) h
1
et h
2
telles que µ
+
= h
1
[µ[ et
µ

= h
2
[µ[. Puisque µ
+
≤ [µ[ et µ

≤ [µ[, on sait que 0 ≤ h
1
≤ 1 et 0 ≤ h
2
≤ 1.
Si h = h
1
−h
2
, on a alors, pour tout A ∈ /,
µ(A) = µ
+
(A) −µ

(A) =

A
(h
1
−h
2
) d[µ[.
Il est facile de d´eduire de cette ´egalit´e que [h
1
−h
2
[ = 1, [µ[ p.p. En effet, soit r < 1, et soit
(A
n
)
n∈N
une partition mesurable de E
r
= ¦x ∈ E : [h
1
(x) −h
2
(x)[ ≤ r¦. Alors
¸
n∈N
[µ(A
n
)[ =
¸
n∈N

An
(h
1
−h
2
)d[µ[


¸
n∈N

An
[h
1
−h
2
[d[µ[

¸
n∈N
r [µ[(A
n
)
= r [µ[(E
r
).
De la d´efinition de [µ[, il d´ecoule alors que [µ[(E
r
) ≤ r [µ[(E
r
), et donc [µ[(E
r
) = 0. Comme
cela est vrai pour tout r < 1, on a [h
1
−h
2
[ ≥ 1 µ p.p. et l’in´egalit´e inverse est triviale.
72
Les propri´et´es 0 ≤ h
1
≤ 1, 0 ≤ h
2
≤ 1 et [h
1
−h
2
[ = 1 [µ[ p.p. entraˆınent que
[µ[(dx) p.p. ou bien h
1
(x) = 1 et h
2
(x) = 0,
ou bien h
1
(x) = 0 et h
1
(x) = 0.
On pose alors B = ¦x ∈ E : h
1
(x) = 1¦. D’apr`es ce qui pr´ec`ede on a h
1
= 1
B
et
h
2
= 1
B
c, [µ[ p.p. Cela donne les ´egalit´es µ
+
= 1
B
[µ[ et µ

= 1
B
c [µ[. L’unicit´e de B est
une cons´equence de l’unicit´e de la densit´e dans le th´eor`eme de Radon-Nikodym. Les autres
propri´et´es de l’´enonc´e sont ensuite facilement ´etablies.
Remarque. Si µ = µ
1
− µ
2
est une autre d´ecomposition de µ comme diff´erence de deux
mesures positives finies, on a n´ecessairement µ
1
≥ µ
+
et µ
2
≥ µ

. En effet,
µ
1
(A) ≥ µ
1
(A ∩ B) ≥ µ(A∩ B) = µ
+
(A∩ B) = µ
+
(A).
Int´egration par rapport `a une mesure sign´ee.
Si f ∈ L
1
(E, /, [µ[), on d´efinit

f dµ :=

fdµ
+

fdµ

=

f(1
B
−1
B
c )d[µ[.
Il est alors imm´ediat que

f dµ

[f[dµ.
Proposition 6.2.2 Soit ν une mesure positive sur (E, /), soit g ∈ L
1
(E, /, ν), et soit µ la
mesure sign´ee d´efinie par
µ(A) =

A
gdν.
Alors [µ[ = [g[ ν. De plus, pour toute fonction f ∈ L
1
(E, /, [µ[), on a fg ∈ L
1
(E, /, ν)),
et
f dµ =

fg dν.
Preuve. Avec les notations du th´eor`eme pr´ec´edent, on a pour tout A ∈ / :
[µ[(A) = µ(A∩ B) −µ(A∩ B
c
) =

A∩B
gdν −

A∩B
gdν =

A
gh dν,
en posant h = 1
B
− 1
B
c. En prenant A = ¦x ∈ E : g(x)h(x) < 0¦, on d´eduit facilement de
cette ´egalit´e que gh ≥ 0, ν p.p. Donc gh = [gh[ = [g[, ν p.p., d’o` u
[µ[(A) =

A
[g[dν.
Ensuite, on a

[f[d[µ[ =

[f[ [g[dν
73
et donc f ∈ L
1
([µ[) ⇒ fg ∈ L
1
(ν). L’´egalit´e

fdµ =

fg dν
est vraie par d´efinition si f est ´etag´ee. Dans le cas, g´en´eral, on utilise le fait qu’on peut
´ecrire f = limf
n
, o` u les fonctions f
n
sont ´etag´ees et domin´ees en valeur absolue par [f[. Le
th´eor`eme de convergence domin´ee appliqu´e `a µ
+
, µ

et ν donne le r´esultat voulu.
Le th´eor`eme de Radon-Nikodym pour les mesures sign´ees.
Soit ν une mesure positive, et soit µ une mesure sign´ee. On dit que µ est absolument
continue par rapport `a ν (notation : µ ≪ ν) si
∀A ∈ /, ν(A) = 0 ⇒ µ(A) = 0.
Th´eor`eme 6.2.3 Soit µ une mesure sign´ee et soit ν une mesure positive σ-finie. Les trois
propri´et´es suivantes sont ´equivalentes :
(i) µ ≪ ν .
(ii) Pour tout ε > 0, il existe δ > 0 tel que
∀A ∈ /, ν(A) ≤ δ ⇒ [µ[(A) ≤ ε.
(iii) Il existe g ∈ L
1
(E, /, ν) telle que :
∀A ∈ /, µ(A) =

A
gdν.
Preuve. (ii)⇒(i) est ´evident. Montrons (i)⇒(iii). Si µ ≪ ν, on aussi µ
+
≪ ν et µ

≪ ν, et
donc le th´eor`eme de Radon-Nikodym pour les mesures positives permet d’´ecrire µ
+
= g
1
ν
et µ

= g
2
ν avec g
1
, g
2
≥ 0,

g
1
dν = µ
+
(E) < ∞ et

g
2
dν = µ

(E) < ∞. On obtient
ainsi (iii) avec g = g
1
−g
2
.
Il reste `a montrer (iii)⇒(ii). D’apr`es la proposition pr´ec´edente, on a [µ[ = [g[ ν. De
plus, le th´eor`eme de convergence domin´ee entraˆıne que
lim
n→∞

{|g|≥n}
[g[ dν = 0.
Donc, si ε > 0 est fix´e, on peut choisir N assez grand de fa¸ con que

{|g|≥N}
[g[ dν <
ε
2
.
Alors, en prenant δ = ε/(2N), on a, pour tout A ∈ / tel que ν(A) < δ,
[µ[(A) =

A
[g[dν ≤

{|g|≥N}
[g[ dν +

A∩{|g|<N}
[g[ dν ≤
ε
2
+ N
ε
2N
= ε.

74
6.3 La dualit´e L
p
−L
q
Soit ν une mesure positive sur (E, /). Soit p ∈ [1, ∞] et soit q l’exposant conjugu´e de p.
Alors, si on fixe g ∈ L
q
(E, /, ν), la formule
Φ
g
(f) =

fg dν
d´efinit une forme lin´eaire continue sur L
p
(E, /, ν). En effet, l’in´egalit´e de H¨older montre
d’une part que Φ
g
(f) est bien d´efinie, d’autre part que

g
(f)[ ≤ C
g
|f|
p
avec C
g
= |g|
q
. On voit aussi que la norme op´erateur de Φ
g
, d´efinie par

g
| = sup
fp≤1

g
(f)[,
v´erifie |Φ
g
| ≤ |g|
q
.
La question est alors de savoir si l’on obtient ainsi toutes les formes lin´eaires continues
sur L
p
(E, /, ν) (dans le cas p = q = 2, la th´eorie des espaces de Hilbert nous dit d´ej`a que la
r´eponse est oui). Le th´eor`eme suivant donne la r´eponse lorsque p < ∞.
Th´eor`eme 6.3.1 Soit ν une mesure σ-finie sur (E, /), soit p ∈ [1, ∞[ et soit q l’exposant
conjugu´e de p. Alors, si Φ est une forme lin´eaire continue sur L
p
(E, /, ν), il existe une
unique g ∈ L
q
(E, /, ν) tel que, pour toute f ∈ L
p
(E, /, ν),
Φ(f) =

fg dν.
De plus la norme op´erateur de Φ est
|Φ| = |g|
q
.
Aves les notations pr´ec´edant le th´eor`eme, on voit que l’application g −→ Φ
g
permet
d’identifier L
q
(ν) au dual topologique de L
p
(ν) (c’est `a-dire `a l’espace vectoriel des formes
lin´eaires continues sur L
p
(ν), muni de la norme op´erateur). Nous verrons en remarque que
cette propri´et´e ne subsiste pas dans le cas p = ∞.
Preuve. Supposons d’abord ν(E) < ∞. Alors, pour tout A ∈ /, posons
µ(A) = Φ(1
A
),
ce qui a bien un sens puisque 1
A
∈ L
p
(ν). On commence par v´erifier que µ est une mesure
sign´ee sur (E, /). Soit (A
n
)
n∈N
une famille d´enombrable de parties mesurables disjointes.
Si A d´esigne la r´eunion des A
n
, on a
1
A
= lim
k→∞
¸
n≤k
1
An
75
dans L
p
(ν) (par convergence domin´ee, facilement justifi´ee puisque la fonction 1 est dans
L
p
(ν)). En utilisant la continuit´e de Φ, on obtient ainsi
µ(A) = lim
k→∞
Φ

¸
n≤k
1
An

= lim
k→∞
¸
n≤k
µ(A
n
).
La convergence absolue de la s´erie
¸
µ(A
n
) est une cons´equence : en notant A

n
= A
n
si
µ(A
n
) > 0 et A

n
= ∅ sinon, et A

la r´eunion des A

n
, on a
¸
n
µ(A
n
)
+
=
¸
n
µ(A

n
) = lim
k→∞
¸
n≤k
µ(A

n
) = µ(A

) < ∞,
et de mˆeme pour les termes n´egatifs de la suite (µ(A
n
)). Une fois acquise la convergence
absolue de la s´erie, l’´egalit´e µ(A) =
¸
n
µ(A
n
) d´ecoule de ce qui pr´ec`ede.
Si A ∈ / et ν(A) = 0, on a 1
A
= 0 dans L
p
(E, /, ν) et donc µ(A) = Φ(1
A
) = 0. Donc
µ ≪ ν et le th´eor`eme pr´ec´edent montre qu’il existe une fonction g ∈ L
1
(E, /, ν) telle que
∀A ∈ / , Φ(1
A
) = µ(A) =

A
g dν.
L’´egalit´e
Φ(f) =

fg dν
est vraie par lin´earit´e lorsque f est ´etag´ee, puis lorsque f est seulement mesurable born´ee
puisqu’une telle fonction est limite uniforme (donc dans L
p
(ν) parce que ν est finie) de
fonctions ´etag´ees.
Montrons maintenant que g ∈ L
q
(ν).
• Si p = 1, alors pour tout A ∈ /,

A
gdν

= [Φ(1
A
)[ ≤ |Φ| |1
A
|
1
= |Φ| ν(A)
ce qui entraˆıne facilement que [g[ ≤ |Φ|, ν p.p. (pour le voir consid´erer A = ¦g >
|Φ| + ε¦ ou A = ¦g < −|Φ| −ε¦), et donc |g|

≤ |Φ|.
• Si p ∈]1, ∞[, on pose E
n
= ¦x ∈ E : [g(x)[ ≤ n¦, puis f
n
= 1
En
[g[
q−1
signe(g). Comme f
n
est born´ee, on a

En
[g[
q
dν =

f
n
g dν = Φ(f
n
) ≤ |Φ| |f
n
|
p
= |Φ|

En
[g[
q

1/p
,
d’o` u

En
[g[
q
dν ≤ |Φ|
q
.
En faisant tendre n vers ∞, on trouve par convergence monotone que |g|
q
≤ |Φ|.
76
Dans les deux cas, on a obtenu que g ∈ L
q
(ν) et |g|
q
≤ |Φ|. Vus comme fonctions de
f ∈ L
p
(ν), les deux membres de l’´egalit´e
Φ(f) =

fg dν
sont des fonctions continues sur L
p
(ν) qui co¨ıncident lorsque f appartient au sous-ensemble
dense des fonctions mesurables born´ees. Elles co¨ıncident donc partout.
Par ailleurs, comme expliqu´e avant l’´enonc´e de th´eor`eme, l’in´egalit´e de H¨older entraˆıne
que |Φ| ≤ |g|
q
, et comme l’in´egalit´e inverse a ´et´e obtenue ci-dessus, on a |Φ| = |g|
q
.
Enfin, l’application qui `a g ∈ L
q
(ν) associe la forme lin´eaire f −→

fg dν est une
isom´etrie de L
q
(ν) sur le dual topologique de L
p
(ν) (i.e. l’espace des formes lin´eaires contin-
ues sur L
p
(ν)) et est donc n´ecessairement injective. Cela donne l’unicit´e de g dans l’´enonc´e
du th´eor`eme.
Il reste `a traiter le cas ν(E) = ∞. Dans ce cas, on peut ´ecrire E comme la r´eunion d’une
famille d´enombrable disjointe (E
n
)
n∈N
de parties mesurables telles que ν(E
n
) < ∞pour tout
n. Notons ν
n
la restriction de ν `a E
n
. Alors l’application f −→ f1
En
induit une isom´etrie
de L
p

n
) sur un sous-espace de L
p
(ν). En rempla¸ cant ν par ν
n
on peut donc appliquer la
premi`ere partie de la preuve `a la forme lin´eaire continue Φ
n
d´efinie sur L
p

n
) par
Φ
n
(f) = Φ(f1
En
).
Il existe donc une fonction g
n
∈ L
q

n
) telle que, pour toute fonction f ∈ L
p

n
),
Φ(f1
En
) =

fg
n

n
.
Quitte `a remplacer g
n
par g
n
1
En
on peut supposer que g
n
= 0 sur E
c
n
, et r´e´ecrire le r´esultat
pr´ec´edent sous la forme
Φ(f1
En
) =

fg
n
dν,
pour toute fonction f ∈ L
p
(ν).
Si f ∈ L
p
(ν), on a
f = lim
k→∞
¸
n≤k
f 1
En
dans L
p
(ν),
ce qui entraˆıne
Φ(f) = lim
k→∞

f

¸
n≤k
g
n

dν.
Par ailleurs, de l’in´egalit´e

f

¸
n≤k
g
n

dν = Φ(f
¸
n≤k
1
En
) ≤ |Φ| |f|
p
on d´eduit grˆace aux mˆemes arguments que dans le cas o` u ν(E) < ∞ que, pour tout entier
k ≥ 1,
|
¸
n≤k
g
n
|
q
≤ |Φ|.
77
Posons maintenant pour tout x ∈ E,
g(x) =
¸
n∈N
g
n
(x)
(il y a eu plus un terme non nul dans la somme pour chaque x). Si q = ∞, l’in´egalit´e
pr´ec´edente montre que |g|

≤ |Φ|. Si q < ∞, la mˆeme in´egalit´e donne

[g[
q
dν =
¸
n∈N

[g
n
[
q
dν = lim
k→∞
¸
n≤k

[g
n
[
q
dν ≤ |Φ|
q
.
Dans les deux cas on a g ∈ L
q
(ν). Enfin,
Φ(f) = lim
k→∞

f

¸
n≤k
g
n

dν =

fg dν,
o` u dans la deuxi`eme ´egalit´e l’application du th´eor`eme de convergence domin´ee est justifi´ee
par la majoration [
¸
n≤k
g
n
[ ≤ [g[.
L’´egalit´e |Φ| = |g|
q
et l’unicit´e de g sont maintenant obtenues par les mˆemes arguments
que dans le cas o` u ν(E) < ∞.
Remarque. Lorsque p = ∞, le r´esultat du th´eor`eme est faux en g´en´eral : il existe des
formes lin´eaires continues sur L

(E, /, ν) qui ne peuvent pas se repr´esenter sous la forme
Φ(f) =

fg dν avec une fonction g ∈ L
1
(E, /, ν). Consid´erons le cas de ℓ

, qui est l’espace
des suites born´ees a = (a
k
)
k∈N
de r´eels, muni de la norme |a|

= sup a
k
. Soit H le sous-
espace (ferm´e) de ℓ

d´efini par
H = ¦a ∈ ℓ

: lim
k→∞
a
k
existe¦,
et d´efinissons Φ : H −→R par
Φ(a) = lim
k→∞
a
k
.
Evidemment [Φ(a)[ ≤ |a|

. Le th´eor`eme de Hahn-Banach permet alors de prolonger Φ `a
une forme lin´eaire sur ℓ

, de fa¸ con que la propri´et´e [Φ(a)[ ≤ |a|

reste vraie pour tout
a ∈ ℓ

. Il est facile de voir qu’on ne peut pas repr´esenter Φ sous la forme
Φ(a) =
¸
k∈N
a
k
b
k
avec un ´el´ement b = (b
k
)
k∈N
de ℓ
1
. En effet, si tel ´etait le cas, en consid´erant pour tout
n ∈ N l’´el´ement a
(n)
de ℓ

d´efini par a
(n)
k
= 1
{k=n}
, on trouverait, pour tout n ∈ N,
b
n
= Φ(a
(n)
) = 0,
ce qui est absurde.
78
6.4 Le th´eor`eme de repr´esentation de Riesz
Dans tout ce paragraphe, nous supposons que E est un espace m´etrique localement compact
s´eparable. On note C
0
(E) l’espace des fonctions continues sur E qui tendent vers 0 `a l’infini :
f ∈ C
0
(E) si et seulement si f est continue et si pour tout ε > 0 il existe un compact K de
E tel que [f(x)[ < ε pour tout x ∈ E`K. L’espace C
0
(E) est un espace de Banach pour la
norme
|f| = sup
x∈E
[f(x)[.
Si µ est une mesure sign´ee sur (E, B(E)), l’application
Φ(f) =

E
fdµ , f ∈ C
0
(E),
d´efinit une forme lin´eaire continue sur C
0
(E). De plus, cette forme lin´eaire est continue
puisque
[Φ(f)[ ≤

E
[f[ d[µ[ ≤ [µ[(E) |f|.
Cette in´egalit´e montre mˆeme que |Φ| ≤ [µ[(E).
Th´eor`eme 6.4.1 Soit Φ une forme lin´eaire continue sur C
0
(E). Il existe alors une unique
mesure sign´ee µ sur (E, B(E)) telle que
∀f ∈ C
0
(E) , Φ(f) =

E
f dµ.
Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre
complexe plus g´en´eral.
Remarque. L’espace ´(E) des mesures sign´ees sur E est un espace vectoriel, et il est facile
de v´erifier que l’application µ −→ [µ[(E) d´efinit une norme sur cet espace vectoriel. De plus,
´(E) est complet pour cette norme. Le th´eor`eme pr´ec´edent peut ˆetre alors reformul´e en
disant que ´(E) est le dual topologique de C
0
(E).
Lorsque E est compact, l’espace C
0
(E) co¨ıncide avec l’espace C
b
(E) des fonctions con-
tinues born´ees sur E, et donc ´(E) est le dual de C
b
(E). Cette assertion devient fausse
lorsque E n’est pas compact, par exemple lorsque E = R. Dans ce cas, il existe des formes
lin´eaires continues sur C
b
(E) qui ne se repr´esentent pas par des mesures sign´ees (on peut en
construire en adaptant l’exemple de la fin de la partie pr´ec´edente).
79
80
Chapitre 7
Formule de changement de variables
et compl´ements
La formule de changement de variables identifie l’image par un diff´eomorphisme de la mesure
de Lebesgue sur un ouvert de R
d
. Apr`es le th´eor`eme de Fubini, c’est le deuxi`eme outil
fondamental de calcul des int´egrales. Comme application particuli`erement importante, on
donne ici la formule d’int´egration en coordonn´ees polaires dans R
d
, ce qui conduit aussi `a
introduire la mesure de Lebesgue sur la sph`ere unit´e.
7.1 La formule de changement de variables
Nous commen¸ cons par traiter le cas particulier important d’une application affine.
Proposition 7.1.1 Soit b ∈ R
d
et soit M une matrice d d `a coefficients r´eels inversible.
D´efinissons f : R
d
−→R
d
par f(x) = Mx + b. Alors, pour tout bor´elien A de R
d
,
λ(f(A)) = [det(M)[ λ(A).
Remarque. Si M n’est pas inversible, f(A) ⊂ f(R
d
) est contenu dans un hyperplan, qui
est de mesure de Lebesgue nulle (exercice !).
Preuve. Remarquons d’abord que f(A) = (f
−1
)
−1
(A) ∈ B(R
d
) si A ∈ B(R
d
). Grˆace `a
l’invariance par translation de la mesure de Lebesgue, on se ram`ene au cas b = 0. Dans ce
cas, on a pour tous a ∈ R
d
et A ∈ B(R
d
),
λ(f(a + A)) = λ(f(a) + f(A)) = λ(f(A)),
ce qui montre que la mesure A −→ λ(f(A)) (mesure-image de λ par f
−1
) est invariante par
translation. Donc il existe une constante c telle que, pour tout A ∈ B(R
d
),
λ(f(A)) = c λ(A).
Il reste `a montrer que c = [det(M)[.
81
Si M est une matrice orthogonale, et B
d
d´esigne la boule unit´e ferm´ee de R
d
, on a
f(B
d
) = B
d
, d’o` u il d´ecoule aussitˆot que c = 1 = [det(M)[ dans ce cas.
Si M est une matrice sym´etrique d´efinie positive, alors on peut trouver une matrice or-
thogonale P telle que
t
PMP soit diagonale avec coefficients diagonaux α
i
> 0, i ∈ ¦1, . . . , d¦.
Alors,
f(P([0, 1]
d
)) = ¦MPx : x ∈ [0, 1]
d
¦ = ¦Py : y ∈
d
¸
i=1
[0, α
i
]¦,
et donc, en utilisant le cas orthogonal,
c = c λ(P([0, 1]
d
)) = λ(f(P([0, 1]
d
))) = λ

¦Py : y ∈
d
¸
i=1
[0, α
i

= λ

d
¸
i=1
[0, α
i
]

=
d
¸
i=1
α
i
.
Dans ce cas on trouve encore c = [det(M)[.
Enfin, dans le cas g´en´eral, on remarque qu’on peut ´ecrire M = PS, o` u P est orthogonale
et S est sym´etrique d´efinie positive (prendre S =

t
MM et P = MS
−1
). En utilisant les
deux cas particuliers ci-dessus, on trouve aussitˆot :
c = [det(P)[ [det(S)[ = [det(M)[.

Soient U et D deux ouverts de R
d
. On dit qu’une application ϕ : U −→ D est un
diff´eomorphisme de classe C
1
si ϕ est bijective et de classe C
1
sur U et si ϕ
−1
est aussi de
classe C
1
sur D. On sait qu’alors la d´eriv´ee ϕ

(u) est inversible, pour tout u ∈ U.
Th´eor`eme 7.1.2 Soit ϕ : U −→ D un diff´eomorphisme de classe C
1
. Alors pour toute
fonction bor´elienne f : D −→R
+
,

D
f(x) dx =

U
f(ϕ(u)) [J
ϕ
(u)[ du ,
o` u J
ϕ
(u) = det(ϕ

(u)) est le Jacobien de ϕ en u.
Preuve. Par les arguments habituels (passage `a la limite croissant) on se ram`ene au cas o` u
f est ´etag´ee positive, puis au cas f = 1
A
, A ´etant un bor´elien de D. Dans ce cas, l’´egalit´e
du th´eor`eme s’´ecrit :
λ(A) =

ϕ
−1
(A)
[J
ϕ
(u)[ du.
Quitte `a remplacer A par ϕ
−1
(A), il suffit de montrer que, pour tout bor´elien A de U,
λ(ϕ(A)) =

A
[J
ϕ
(u)[ du. (7.1)
(Remarquer que ϕ(A) = (ϕ
−1
)
−1
(A) est bor´elien.)
82
Lemme 7.1.3 Soit K un compact de U et soit ε > 0. Alors on peut choisir δ > 0 assez
petit de mani`ere que, pour tout cube C de faces parall`eles aux axes, de centre u
0
∈ K et de
cot´e de longueur inf´erieure `a δ,
(1 −ε)[J
ϕ
(u
0
)[ λ(C) ≤ λ(ϕ(C)) ≤ (1 +ε)[J
ϕ
(u
0
)[ λ(C).
Preuve du lemme. En utilisant la continuit´e de ϕ

, on voit qu’on peut choisir δ > 0 assez
petit pour que d’une part δ <
1
d
dist(K, U
c
) et d’autre part, pour tout u
0
∈ K et tout u ∈ R
d
tel que [u −u
0
[ < dδ,
[ϕ(u) −ϕ(u
0
) −ϕ

(u
0
) (u −u
0
)[ ≤ ε[u −u
0
[.
Notons f(v) = ϕ(u
0
) + ϕ

(u
0
) v pour v ∈ R
d
. On voit que, si [u −u
0
[ < dδ,
ϕ(u) = f(u −u
0
) + h(u, u
0
),
avec [h(u, u
0
)[ ≤ ε[u −u
0
[. En prenant g(u, u
0
) = ϕ

(u
0
)
−1
h(u, u
0
), on trouve que
ϕ(u) = f(u −u
0
+ g(u, u
0
)),
o` u [g(u, u
0
)[ ≤ aε[u −u
0
[, avec a := sup¦|ϕ

(v)
−1
|; v ∈ K¦ < ∞.
Soit maintenant C un cube centr´e en u
0
et de cot´e r ≤ δ. Il d´ecoule de ce qui pr´ec`ede
que
ϕ(C) ⊂ f((1 +daε)
¯
C),
o` u
¯
C est le cube translat´e de C centr´e en 0. Grˆace `a la proposition ci-dessus, il vient alors
λ(ϕ(C)) ≤ λ(f((1 +daε)
¯
C)) = [det ϕ

(u
0
)[ λ((1 +daε)
¯
C) = (1 +daε)
d
[J
ϕ
(u
0
)[ λ(C),
ce qui donne la majoration souhait´ee. La preuve de la minoration est analogue : on montre
que pour une constante c

bien choisie, on a
ϕ
−1
(f((1 −c

ε)
¯
C)) ⊂ C ,
d’o` u
f((1 −c

ε)
¯
C) ⊂ ϕ(C)
et on conclut de la mˆeme mani`ere.
On revient `a la preuve du th´eor`eme. Soit n ≥ 1 un entier. On appelle cube ´el´ementaire
d’ordre n tout cube de la forme
C =
d
¸
j=1
]k
j
2
−n
, (k
j
+ 1)2
−n
] , k
j
∈ Z.
On note (
n
l’ensemble des cubes ´el´ementaires d’ordre n.
Soit C
0
un cube ´el´ementaire d’ordre n
0
fix´e, tel que
¯
C
0
⊂ U, et soit ε > 0. Fixons n ≥ n
0
assez grand pour que d’une part la conclusion du lemme soit vraie pour K =
¯
C
0
et δ = 2
−n
,
et d’autre part, pour tous u, v ∈ K tels que [u −v[ ≤ dδ,
(1 −ε)[J
ϕ
(u)[ ≤ [J
ϕ
(v)[ ≤ (1 +ε)[J
ϕ
(u)[. (7.2)
83
Alors, en notant x
C
le centre d’un cube C,
λ(ϕ(C
0
)) =
¸
C∈Cn
C⊂C
0
λ(ϕ(C))
≤ (1 +ε)
¸
C∈Cn
C⊂C
0
[J
ϕ
(x
C
)[ λ(C)
≤ (1 +ε)
2
¸
C∈Cn
C⊂C
0

C
[J
ϕ
(u)[ du
= (1 +ε)
2

C
0
[J
ϕ
(u)[ du.
On a utilis´e le lemme dans la premi`ere in´egalit´e, et (7.2) dans la seconde. On obtient de
mˆeme la minoration
λ(ϕ(C
0
)) ≥ (1 −ε)
2

C
0
[J
ϕ
(u)[ du.
Comme ε ´etait arbitraire, on conclut que
λ(ϕ(C
0
)) =

C
0
[J
ϕ
(u)[ du.
On a donc obtenu (7.1) lorsque A est un cube ´el´ementaire d’adh´erence contenue dans A.
Le cas g´en´eral d´ecoule maintenant d’arguments de classe monotone. Notons µ la mesure-
image de la mesure de Lebesgue sur D par ϕ
−1
:
µ(A) = λ(ϕ(A))
pour tout bor´elien A de U. Soit aussi
¯ µ(A) =

A
[J
ϕ
(u)[ du.
On a obtenu que µ(C) = ¯ µ(C) pour tout cube ´el´ementaire C d’adh´erence contenue dans U.
D’autre part, si U
n
d´esigne la r´eunion (disjointe) des cubes ´el´ementaires d’ordre n d’adh´erence
contenue dans U ∩ ¦u : [u[ ≤ n¦, on a U
n
↑ U quand n → ∞ et µ(U
n
) = ¯ µ(U
n
) < ∞ pour
tout n. Comme la classe des cubes ´el´ementaires d’adh´erence contenue dans U est stable par
intersection finie et engendre la tribu bor´elienne B(U), on peut appliquer le dernier corollaire
du Chapitre 1 pour conclure que µ = ¯ µ, ce qui ´etait le r´esultat recherch´e.
Application `a l’int´egrale en coordonn´ees polaires.
On prend d = 2, U =]0, ∞[] −π, π[ et D = R
2
`¦(x, 0); x ≤ 0¦. Alors l’application
ϕ(r, θ) = (r cos θ, r sin θ) , (r, θ) ∈ U
84
est un diff´eomorphisme de classe C
1
de U sur D. On calcule facilement
ϕ

(r, θ) =

cos θ −r sin θ
sin θ r cos θ

et donc J
ϕ
(r, θ) = r.
Il d´ecoule du th´eor`eme que, pour toute fonction bor´elienne f : R
2
−→R
+
,

D
f(x, y) dxdy =

U
f(r cos θ, r sin θ) r drdθ =


0

π
−π
f(r cos θ, r sin θ) r drdθ.
Comme la demi-droite n´egative est de mesure de Lebesgue nulle dans R
2
, on a aussi

R
2
f(x, y) dxdy =


0

π
−π
f(r cos θ, r sin θ) r drdθ.
Exemple. Pour f(x, y) = exp(−x
2
−y
2
), le th´eor`eme de Fubini-Tonnelli donne d’une part

R
2
e
−x
2
−y
2
dxdy =

+∞
−∞
e
−x
2
dx

2
et d’autre part


0

π
−π
f(r cos θ, r sin θ) r drdθ = 2π


0
e
−r
2
r dr = π,
ce qui donne la valeur

+∞
−∞
e
−x
2
dx =

π.
7.2 Mesure de Lebesgue sur la sph`ere unit´e
Dans cette partie on note λ
d
la mesure de Lebesgue sur R
d
. Soit S
d−1
la sph`ere unit´e de R
d
:
S
d−1
= ¦x ∈ R
d
: [x[ = 1¦.
Si A ∈ B(S
d−1
), on note Γ(A) le bor´elien de R
d
d´efini par
Γ(A) = ¦rx; r ∈ [0, 1] et x ∈ A¦.
Th´eor`eme 7.2.1 Pour tout A ∈ B(S
d−1
), on pose
ω
d
(A) = d λ
d
(Γ(A)).
Alors ω
d
est une mesure positive finie sur S
d−1
, qui est invariante par les isom´etries vecto-
rielles. De plus, pour toute fonction bor´elienne f : R
d
−→R
+
,

R
d
f(x) dx =


0

S
d−1
f(rz) r
d−1
dr ω
d
(dz). (7.3)
Enfin la masse totale de ω
d
(volume de la sph`ere unit´e) est
ω
d
(S
d−1
) =

d/2
Γ(d/2)
.
85
Remarque. On peut aussi montrer que toute mesure finie sur S
d−1
invariante par les
isom´etries vectorielles est proportionnelle `a ω
d
.
Preuve. Il est imm´ediat que ω
d
est une mesure positive finie sur S
d−1
: on peut la voir
comme l’image de la restriction de d λ
d
`a la boule unit´e B
d
par l’application x −→
x
|x|
. Le
fait que λ
d
soit invariante par les isom´etries vectorielles de R
d
(proposition de la partie 1)
entraˆıne facilement que ω
d
l’est aussi. En effet, si ϕ est une telle isom´etrie,
λ
d
(Γ(ϕ
−1
(A))) = λ
d

−1
(Γ(A))) = λ
d
(Γ(A)).
La masse totale de ω
d
est
ω
d
(S
d−1
) = d λ
d
(B
d
) = d
π
d/2
Γ(
d
2
+ 1)
=

d/2
Γ(
d
2
)
.
Il reste `a ´etablir (7.3). Il suffit de traiter le cas f = 1
B
, o` u B est un bor´elien de R
d
`¦0¦.
La formule
µ(B) =


0

S
d−1
1
B
(rz) r
d−1
dr ω
d
(dz)
d´efinit une mesure µ sur R
d
`¦0¦ et le probl`eme est de montrer que µ = λ
d
. Consid´erons
d’abord le cas o` u B est de la forme
B = ¦x ∈ R
d
`¦0¦; a < [x[ ≤ b et
x
[x[
∈ A¦,
o` u A est un bor´elien de S
d−1
, et 0 < a ≤ b. Alors,
µ(B) = ω
d
(A)

b
a
r
d−1
dr =
b
d
−a
d
d
ω
d
(A).
Pour calculer λ
d
(B), notons α =
a
b
∈]0, 1[, et pour tout entier n ≥ 0 posons
Γ
n
(A) = ¦y = rx; α
n+1
< r ≤ α
n
et x ∈ A¦.
Alors, λ
d

n
(A)) = α
nd
λ
d

0
(A)) et par ailleurs
λ
d
(Γ(A)) =

¸
n=0
λ
d

n
(A)).
Il en d´ecoule aussitˆot que
λ
d

0
(A)) = (1 −α
d
) λ
d
(Γ(A)) =
1 −α
d
d
ω
d
(A),
et puisque B = b Γ
0
(A),
λ
d
(B) = b
d
λ
d

0
(A)) =
b
d
−a
d
d
ω
d
(A) = µ(B).
86
Finalement, la classe des ensembles B de la forme ci-dessus est stable par intersections
finies, et on voit facilement qu’elle engendre la tribu bor´elienne sur R
d
`¦0¦. Les arguments
de classe monotone habituels montrent alors que µ = λ
d
.
Si f : R
d
−→ R
+
est une fonction radiale, au sens o` u f(x) = f([x[), le th´eor`eme montre
que

R
d
f(x) dx = c
d


0
f(r) r
d−1
dr,
avec c
d
= ω
d
(S
d−1
).
87
88
Partie II
Probabilit´es
89
Chapitre 8
Fondements de la th´eorie des
probabilit´es
Ce chapitre introduit les notions fondamentales de la th´eorie des probabilit´es : variables
al´eatoires, esp´erance, loi, moments de variables al´eatoires, fonctions caract´eristiques, etc.
Puisque un espace de probabilit´e n’est rien d’autre qu’un espace mesurable muni d’une
mesure de masse totale 1, beaucoup de ces notions correspondent `a ce qui a d´ej`a ´et´e vu dans
le cadre de la th´eorie de l’int´egration. Par exemple une variable al´eatoire n’est rien d’autre
qu’une fonction mesurable, et la notion d’esp´erance co¨ıncide avec l’int´egrale. Cependant, le
point de vue de la th´eorie des probabilit´es, qui est expliqu´e ci-dessous, est bien diff´erent,
et une difficult´e importante est de comprendre ce point de vue. Ainsi, la notion de loi, qui
est un cas particulier de la notion de mesure-image, devient-elle maintenant fondamentale
car elle permet d’´evaluer la probabilit´e qu’une variable al´eatoire “tombe” dans un ensemble
donn´e.
8.1 D´efinitions g´en´erales
8.1.1 Espaces de probabilit´e
Soit (Ω, /) un espace mesurable, et soit P une mesure de probabilit´e sur (Ω, /). On dit
alors que (Ω, /) est un espace de probabilit´e.
Un espace de probabilit´e est donc un cas particulier d’espace mesur´e, pour lequel la masse
totale de la mesure est ´egale `a 1. En fait, le point de vue diff`ere de la th´eorie de l’int´egration :
dans le cadre de la th´eorie des probabilit´es, on cherche `a fournir un mod`ele math´ematique
pour une “exp´erience al´eatoire”.
• Ω repr´esente l’ensemble de toutes les ´eventualit´es possibles, toutes les d´eterminations du
hasard dans l’exp´erience consid´er´ee.
• / est l’ensemble des “´ev´enements”, qui sont les parties de Ω dont on peut ´evaluer la
probabilit´e. Il faut voir un ´ev´enement A ∈ / comme un sous-ensemble de Ω contenant
toutes les ´eventualit´es ω pour lesquelles une certaine propri´et´e est v´erifi´ee.
91
• Pour A ∈ /, P(A) repr´esente la probabilit´e d’occurrence de l’´ev´enement A. Dans les
premiers trait´es de th´eorie des probabilit´es, longtemps avant l’introduction de la th´eorie
de la mesure, la probabilit´e P(A) ´etait d´efinie de la mani`ere suivante : on imagine
qu’on r´ep`ete l’exp´erience al´eatoire un nombre N de fois, et on note N
A
le nombre
de r´ep´etitions pour lesquelles l’´ev´enement A est r´ealis´e; alors, la proportion N
A
/N
converge quand N → ∞ vers la probabilit´e P(A). Nous verrons plus loin le lien entre
cette d´efinition “historique” et l’approche moderne.
Exemples. (1) On lance un d´e deux fois :
Ω = ¦1, 2, . . . , 6¦
2
, / = {(Ω) , P(A) =
Card(A)
36
.
Le choix de la probabilit´e correspond `a l’id´ee que tous les r´esultats possibles pour les deux
tirages sont ´equiprobables.
(2) On lance le d´e jusqu’`a obtenir un 6. Ici le choix de Ω est d´ej`a moins ´evident. Comme
le nombre de lancers n´ecessaires n’est a priori pas born´e, le bon choix est d’imaginer qu’on
fait une infinit´e de lancers :
Ω = ¦1, 2, . . . , 6¦
N

de sorte qu’un ´el´ement de Ω est une suite ω = (ω
1
, ω
2
, . . .) qui donne les r´esultats des tirages
successifs. La tribu / sur Ω est la tribu-produit d´efinie comme la plus petite tribu rendant
mesurables tous les ensembles de la forme
¦ω : ω
1
= i
1
, ω
2
= i
2
, . . . , ω
n
= i
n
¦
o` u n ≥ 1 et i
1
, . . . , i
n
∈ ¦1, 2, . . . , 6¦ (/ co¨ıncide aussi avec la tribu bor´elienne pour la
topologie produit sur Ω). Enfin P est l’unique mesure de probabilit´e sur Ω telle que, pour
tout choix de n et de i
1
, . . . , i
n
,
P(¦ω : ω
1
= i
1
, ω
2
= i
2
, . . . , ω
n
= i
n
¦) = (
1
6
)
n
.
L’unicit´e de P est une cons´equence simple du lemme de classe monotone. L’existence est
un cas particulier de la construction de mesures sur des produits infinis. On peut aussi
construire P facilement partir de la mesure de Lebesgue sur [0, 1] : si `a tout r´eel x ∈ [0, 1]
on associe la suite (ε
k
)
k∈N
∗ ∈ Ω telle que x =
¸

k=1

k
−1) 6
−k
(cette suite est unique pour
presque tout x), la probabilit´e P est obtenue comme mesure-image de la mesure de Lebesgue
sur [0, 1] par l’application x −→ (ε
k
)
k∈N
∗.
(3) On s’int´eresse au d´eplacement dans l’espace d’une particule ponctuelle soumise `a des
perturbations al´eatoires. Si on se limite `a l’intervalle de temps [0, 1], l’espace de probabilit´e
naturel est C([0, 1], R
3
) : un ´el´ement de Ω, une trajectoire possible, est une fonction continue
ω : [0, 1] −→ R
3
. La tribu sur Ω est alors la plus petite tribu qui rende mesurables toutes
les applications coordonn´ees ω −→ ω(t) pour t ∈ R
+
. Cette tribu co¨ıncide avec la tribu
bor´elienne pour la topologie de la convergence uniforme sur Ω. Il resterait `a construire la
probabilit´e P, pour laquelle de multiples choix sont possibles. L’exemple le plus important,
92
`a la fois du point de vue th´eorique et pour les applications, est la mesure de Wiener, qui est
la loi du mouvement brownien.
Remarque importante. Tr`es souvent dans la suite, on ne sp´ecifiera pas le choix de l’espace
de probabilit´e. Les donn´ees importantes seront les propri´et´es des fonctions d´efinies sur cet
espace, les variables al´eatoires.
8.1.2 Variables al´eatoires
D´efinition 8.1.1 Soit (E, c) un espace mesurable. Une application mesurable X : Ω −→ E
est appel´ee variable al´eatoire (v.a. en abr´eg´e) `a valeurs dans E.
Exemples. En reprenant les trois exemples ci-dessus :
(1) X((i, j)) = i + j d´efinit une variable al´eatoire `a valeurs dans ¦1, 2, . . . , 12¦.
(2) X(ω) = inf¦j : ω
j
= 6¦, avec la convention inf ∅ = ∞, d´efinit une v.a. `a valeurs dans
¯
N = N ∪ ¦∞¦. Pour v´erifier la mesurabilit´e, on observe que, pour tout k ≥ 1,
X
−1
(¦k¦) = ¦ω ∈ Ω : ω
1
= 6, ω
2
= 6, . . . , ω
k−1
= 6, ω
k
= 6¦.
(3) Pour t ∈ [0, 1] fix´e, X(ω) = ω(t) est une v.a. `a valeurs dans R
3
. (Remarquons que nous
n’avons pas construit P dans cet exemple, mais cela n’intervient pas pour les questions de
mesurabilit´e.)
D´efinition 8.1.2 La loi de la variable al´eatoire X est la mesure-image de P par X. C’est
donc la mesure de probabilit´e sur (E, c), not´ee P
X
, d´efinie par
P
X
(B) = P(X
−1
(B)) , ∀B ∈ c.
En pratique on ´ecrit plutˆot :
P
X
(B) = P(X ∈ B) (= P(¦ω ∈ Ω : X(ω) ∈ B¦) ).
La loi P
X
permet de calculer la probabilit´e des ´ev´enements qui “d´ependent” de la v.a. X. Il
faut comprendre qu’`a chaque ω ∈ Ω on a associ´e un “point al´eatoire” X(ω) dans E, et que
P
X
(B) est la probabilit´e que ce point al´eatoire tombe dans B.
Remarque. Si µ est une mesure de probabilit´e sur R
d
, ou sur un espace plus g´en´eral, il
existe une mani`ere canonique de construire une variable al´eatoire dont la loi est µ. Il suffit
de prendre Ω = R
d
, / = B(R
d
), P = µ, puis de poser X(ω) = ω. La loi de X est µ, de
mani`ere ´evidente.
Cas particuliers.
• Variables al´eatoires discr`etes. C’est le cas o` u E est d´enombrable (et c est l’ensemble
des parties de E). La loi de X est alors
P
X
=
¸
x∈E
p
x
δ
x
93
o` u p
x
= P(X = x) et δ
x
d´esigne la la mesure de Dirac en x. En effet,
P
X
(B) = P(X ∈ B) = P(

¸
x∈B
¦X = x¦

=
¸
x∈B
P(X = x) =
¸
x∈E
p
x
δ
x
(B).
En pratique, trouver la loi d’une v.a. discr`ete, c’est donc calculer toutes les probabilit´es
P(X = x) pour x ∈ E.
Exemple. Revenons `a l’exemple (2) ci-dessus, avec X(ω) = inf¦j : ω
j
= 6¦. Alors, pour
tout k ≥ 1,
P(X = k) = P

¸
i
1
,...,i
k−1
=6
¦ω
1
= i
1
, . . . , ω
k−1
= i
k−1
, ω
k
= 6¦

= 5
k−1
(
1
6
)
k
=
1
6
(
5
6
)
k−1
.
Remarquons que
¸

k=1
P(X = k) = 1 et donc P(X = ∞) = 1 −P(X ∈ N) = 0. Observons
que l’ensemble ¦X = ∞¦ est loin d’ˆetre vide puisqu’il contient toutes les suites (i
1
, i
2
, . . .)
qui ne prennent pas la valeur 6.
• Variables al´eatoires `a densit´e. Une variable al´eatoire X `a valeurs dans (R
d
, B(R
d
)) est
dite `a densit´e si P
X
est absolument continue par rapport `a la mesure de Lebesgue λ.
Dans ce cas, le th´eor`eme de Radon-Nikodym montre qu’il existe une fonction bor´elienne
p : R
d
−→R
+
telle que
P
X
(B) =

B
p(x) dx.
On a en particulier

R
d
p(x)dx = P(X ∈ R
d
) = 1. La fonction p, qui est unique `a en ensemble
de mesure de Lebesgue nulle pr`es, est appel´ee la densit´e de (la loi de) X.
Si d = 1, on a en particulier, pour tous α ≤ β,
P(α ≤ X ≤ β) =

β
α
p(x) dx.
8.1.3 Esp´erance math´ematique
D´efinition 8.1.3 Soit X une variable al´eatoire r´eelle (i.e. `a valeurs dans R). On note
alors
E[X] =


X(ω) P(dω),
qui est bien d´efinie dans les deux cas suivants :
si X ≥ 0 (alors E[X] ∈ [0, ∞]),
si X est de signe quelconque et E[[X[] =

[X[dP < ∞.
On ´etend cette d´efinition au cas o` u X = (X
1
, . . . , X
d
) est une variable al´eatoire `a valeurs
dans R
d
en prenant alors E[X] = (E[X
1
], . . . , E[X
d
]), pourvu bien sˆ ur que chacune des
esp´erances E[X
i
] soit bien d´efinie.
Remarque. Si X = 1
B
, E[X] = P(B). En g´en´eral, E[X] s’interpr`ete comme la moyenne
de la v.a. X. Dans le cas particulier o` u Ω est fini et P attribue la mˆeme valeur `a chaque
singleton, E[X] est bien la moyenne au sens usuel des valeurs prises par X.
94
Proposition 8.1.1 Soit X une variable al´eatoire `a valeurs dans (E, c). Pour toute fonction
mesurable f : E −→ [0, ∞], on a
E[f(X)] =

E
f(x) P
X
(dx).
Preuve. C’est ´evidemment une propri´et´e g´en´erale des mesures-images d´ej`a rencontr´ee dans
le cours d’int´egration. On remarque que le r´esultat est vrai par d´efinition pour f = 1
B
puis
par lin´earit´e pour toute fonction ´etag´ee positive. Dans le cas g´en´eral, on utilise le th´eor`eme
de convergence monotone et le fait que toute fonction mesurable positive est limite croissante
d’une suite de fonctions ´etag´ees positives.
Si f est de signe quelconque, la formule de la proposition reste vraie `a condition que les
int´egrales soient bien d´efinies, ce qui revient `a E[[f(X)[] < ∞.
La donn´ee de P
X
permet donc de calculer la valeur moyenne de variables al´eatoires de
la forme f(X). Inversement, on utilise souvent la proposition pour calculer la loi d’une v.a.
X : si on arrive `a ´ecrire
E[f(X)] =

f dν
pour toute fonction f “suffisamment” g´en´erale, alors on peut identifier ν `a la loi de X.
Donnons un exemple simple de ce principe.
Proposition 8.1.2 Soit X = (X
1
, . . . , X
d
) une v.a. `a valeurs dans R
d
. Supposons que la
loi de X a une densit´e p(x
1
, . . . , x
d
). Alors, pour tout j ∈ ¦1, . . . , d¦, la loi de X
j
a une
densit´e donn´ee par
p
j
(x) =

R
d−1
p(x
1
, . . . , x
j−1
, x, x
j+1
, . . . , x
d
) dx
1
. . . dx
j−1
dx
j+1
. . . dx
d
(par exemple, si d = 2,
p
1
(x) =

R
p(x, y) dy , p
2
(y) =

R
p(x, y) dx).
Preuve. Soit π
j
la projection π
j
(x
1
, . . . , x
d
) = x
j
. En utilisant le th´eor`eme de Fubini, on
´ecrit, pour toute fonction bor´elienne f : R −→R
+
,
E[f(X
j
)] = E[f(π
j
(X))] =

R
d
f(x
j
)p(x
1
, . . . , x
d
) dx
1
. . . dx
d
=

R
d
f(x
j
)

R
d−1
p(x
1
, . . . , x
d
) dx
1
. . . dx
j−1
dx
j+1
. . . dx
d

dx
j
=

R
f(x
j
)p
j
(x
j
) dx
j
,
ce qui donne le r´esultat voulu.
95
Remarque. Si X = (X
1
, . . . , X
d
) est une v.a. `a valeurs dans R
d
, les lois P
X
j
, qu’on appelle
souvent les lois marginales de X, sont d´etermin´ees par la loi de X, simplement parce que
P
X
j
= π
j
(P
X
), avec la notation ci-dessous. Il est important d’observer que :
la r´eciproque est fausse !
Pour un exemple, consid´erons une densit´e de probabilit´e q sur R, et observons que la fonction
p(x
1
, x
2
) = q(x
1
)q(x
2
) est alors aussi une densit´e de probabilit´e sur R
2
. D’apr`es une remarque
ci-dessus on peut construire une v.a. X = (X
1
, X
2
) `a valeurs dans R
2
dont la loi est la
mesure de densit´e p par rapport `a la mesure de Lebesgue. Mais alors les deux v.a. X et
X

= (X
1
, X
1
) ont mˆemes lois marginales (la proposition ci-dessus montre que P
X
1
(dx) =
P
X
2
(dx) = q(x)dx) alors que les lois P
X
et P
X
′ sont tr`es diff´erentes, simplement parce que
P
X
′ est port´ee par la diagonale de R
2
, qui est de mesure de Lebesgue nulle.
8.1.4 Exemple : le paradoxe de Bertrand
Pour illustrer les notions introduites dans les paragraphes pr´ec´edents, consid´erons le probl`eme
suivant. On s’int´eresse `a la probabilit´e qu’une corde choisie au hasard sur un cercle ait une
longueur plus grande que le cot´e du triangle ´equilat´eral inscrit. Sans perte de g´en´eralit´e on
peut supposer que le cercle est le cercle unit´e. Bertrand proposait deux m´ethodes de calcul :
(a) On choisit les deux extr´emit´es de la corde au hasard sur le cercle. La premi`ere ´etant
choisie, la longueur de la corde sera plus grande que le cot´e du triangle ´equilat´eral inscrit
si et seulement si la seconde extr´emit´e est dans un secteur angulaire d’ouverture 2π/3.
La probabilit´e est donc
2π/3

=
1
3
.
(b) On choisit le centre de la corde au hasard sur le disque unit´e. La probabilit´e d´esir´ee
est la probabilit´e que le centre tombe dans le disque de rayon 1/2 centr´e `a l’origine.
Comme l’aire de ce disque est un quart de l’aire du disque unit´e, on trouve comme
probabilit´e
1
4
.
On obtient donc un r´esultat diff´erent dans les deux cas. L’explication tient dans le fait
que les deux m´ethodes correspondent `a des exp´eriences al´eatoires diff´erentes, repr´esent´ees
par des choix diff´erents de l’espace de probabilit´e. Il n’y a donc aucune raison pour que la
loi de la variable al´eatoire que l’on consid`ere (la longueur de la corde) soit la mˆeme dans les
deux cas. Pour nous en convaincre, explicitons les choix des espaces de probabilit´e.
(a) Dans ce cas,
Ω = [0, 2π[
2
, / = B([0, 2π[
2
) , P(dω) =
1

2
dθ dθ

,
o` u on note ω = (θ, θ

) pour ω ∈ Ω. La longueur de la corde est
X(ω) = 2[ sin(
θ −θ

2
)[.
96
On calcule facilement la loi de X :
E[f(X)] =


f(X(ω)) P(dω)
=
1

2


0


0
f(2[ sin(
θ −θ

2
)[) dθdθ

=
1
π

π
0
f(2 sin(
u
2
)) du
=
1
π

2
0
f(x)
1

1 −
x
2
4
dx.
Donc X est une v.a. r´eelle `a densit´e : P
X
(dx) = p(x)dx, avec
p(x) =
1
π
1

1 −
x
2
4
1
[0,2]
(x).
En particulier, la probabilit´e recherch´ee est
P(X ≥

3) =

2

3
p(x) dx =
1
3
.
(b) Maintenant,
Ω = ¦ω = (y, z) ∈ R
2
: y
2
+ z
2
< 1¦ , / = B(Ω) , P(dω) =
1
π
1

(y, z) dy dz.
La longueur de la corde est
X(ω) = 2

1 −y
2
−z
2
et pour calculer sa loi on ´ecrit
E[f(X)] =
1
π

R
2
f(2

1 −y
2
−z
2
) 1
{y
2
+z
2
<1}
dydz
= 2

1
0
f(2

1 −r
2
) r dr
=
1
2

2
0
f(x) xdx.
Donc P
X
(dx) = p(x)dx, avec
p(x) =
1
2
1
[0,2]
(x) xdx.
On peut remarquer que la densit´e obtenue est tr`es diff´erente de celle du cas (a). En parti-
culier,
P(X ≥

3) =

2

3
p(x) dx =
1
4
.
Exercice. Traiter le cas de la troisi`eme m´ethode propos´ee par Bertrand : on choisit au
hasard la direction du rayon orthogonal `a la corde, puis le centre de la corde uniform´ement
sur ce rayon.
97
8.1.5 Lois classiques
On donne dans ce paragraphe quelques exemples importants de lois.
Lois discr`etes.
(a) Loi uniforme. Si E est un ensemble fini, Card(E) = n, une v.a. X est de loi uniforme
sur E si
P(X = x) =
1
n
, ∀x ∈ E.
(b) Loi de Bernoulli de param`etre p ∈ [0, 1]. C’est la loi d’une v.a. X `a valeurs dans ¦0, 1¦
telle que
P(X = 1) = p , P(X = 0) = 1 −p.
On interpr`ete X comme le r´esultat du lancer d’une pi`ece truqu´ee qui tombe sur pile
avec probabilit´e p.
(c) Loi binˆomiale B(n, p) (n ∈ N

, p ∈ [0, 1]). C’est la loi d’une v.a. X `a valeurs dans
¦1, . . . , n¦ telle que
P(X = k) = C
k
n
p
k
(1 −p)
n−k
.
On interpr`ete X comme le nombre de piles obtenus en n lancers avec la pi`ece pr´ec´edente.
(d) Loi g´eom´etrique de param`etre p ∈]0, 1[. C’est la loi d’une v.a. X `a valeurs dans N, telle
que
P(X = k) = (1 −p) p
k
.
X est le nombre de piles obtenus avant le premier face.
(e) Loi de Poisson de param`etre λ > 0. X est une v.a. `a valeurs dans N, et
P(X = k) =
λ
k
k!
e
−λ
, ∀k ∈ N.
On calcule facilement E[X] = λ. La loi de Poisson est tr`es importante aussi bien
du point de vue th´eorique que dans les applications. Intuitivement, elle correspond
au nombre d’´ev´enements rares qui se sont produits durant une p´eriode longue. La
traduction math´ematique de cette intuition est l’approximation binˆomiale de la loi de
Poisson : si pour tout n ≥ 1, X
n
suit une loi binˆomiale B(n, p
n
) et si np
n
−→ λ quand
n → ∞, alors pour tout entier k ∈ N,
lim
n→∞
P(X
n
= k) =
λ
k
k!
e
−λ
.
Lois continues. Dans les trois exemples qui suivent, X est une v.a. `a valeurs dans R, `a
densit´e p(x).
(a) Loi uniforme sur [a, b] (a < b).
p(x) =
1
b −a
1
[a,b]
(x).
98
(b) Loi exponentielle de param`etre λ > 0.
p(x) = λ e
−λx
1
R
+
(x).
Les lois exponentielles poss`edent la propri´et´e caract´eristique suivante : si a, b > 0,
P(X > a + b) = P(X > a) P(X > b),
ce qu’on interpr`ete en disant que la probabilit´e que X − a > b sachant que X > a
co¨ıncide avec la probabilit´e que X > b. C’est la propri´et´e d’absence de m´emoire de
la loi exponentielle, qui explique qu’elle soit utilis´ee par exemple pour mod´eliser les
temps de vie de machine sans usure.
(c) Loi gaussienne, ou normale, ^(m, σ
2
) (m ∈ R, σ > 0).
p(x) =
1
σ


exp


(x −m)
2

2

.
Avec la loi de Poisson, c’est la loi la plus importante en th´eorie des probabilit´es. Sa
densit´e est la fameuse courbe en cloche. Les param`etres m et σ s’interpr`etent comme
m = E[X] , σ
2
= E[(X −m)
2
].
On remarque aussi que X − m suit la loi ^(0, σ
2
). La loi gaussienne jouera un rˆole
important dans le Chapitre 10.
Par convention on dira qu’une v.a. constante ´egale `a m suit la loi gaussienne ^(m, 0).
Si X suit la loi ^(m, σ
2
), pour tous λ, µ ∈ R, λX + µ suit la loi ^(λm+ µ, λ
2
σ
2
).
8.1.6 Fonction de r´epartition d’une variable al´eatoire r´eelle
Si X est une v.a. r´eelle, la fonction de r´epartition de X est la fonction F
X
: R −→ [0, 1]
d´efinie par
F
X
(t) = P(X ≤ t) = P
X
(] −∞, t]) , ∀t ∈ R.
La fonction F
X
est croissante, continue `a droite et a pour limite 0 en −∞ et 1 en +∞.
Inversement, si on se donne une fonction F ayant ces propri´et´es, on a vu dans le cours
d’int´egration qu’il existe une (unique) mesure de probabilit´e µ telle que µ(] −∞, t]) = F(t)
pour tout t ∈ R. Cela montre qu’on peut interpr´eter F comme la fonction de r´epartition
d’une v.a. r´eelle.
Il d´ecoule des r´esultats du cours d’int´egration que F
X
caract´erise la loi P
X
de X. On a
en particulier
P(a ≤ X ≤ b) = F
X
(b) −F
X
(a−) si a ≤ b,
P(a < X < b) = F
X
(b−) −F
X
(a) si a < b,
et les sauts de F
X
correspondent aux atomes de P
X
.
99
8.1.7 Tribu engendr´ee par une variable al´eatoire
Soit X une v.a. `a valeurs dans un espace mesurable quelconque (E, c). La tribu engendr´ee
par X, not´ee σ(X), est par d´efinition la plus petite tribu sur Ω qui rende X mesurable :
σ(X) = ¦A = X
−1
(B) : B ∈ c¦.
Remarque. On peut g´en´eraliser cette d´efinition `a une famille quelconque (X
i
)
i∈I
de v.a.,
X
i
´etant `a valeurs dans (E
i
, c
i
). Dans ce cas,
σ(X) = σ(X
−1
i
(B
i
) : B
i
∈ c
i
, i ∈ I).
Proposition 8.1.3 Soit X une variable al´eatoire `a valeurs dans (E, c), et soit Y une v.a.
r´eelle. Il y a ´equivalence entre :
(i) Y est σ(X)-mesurable.
(ii) Il existe une fonction mesurable f de (E, c) dans (R, B(R)) telle que Y = f(X).
Preuve. L’implication (ii)⇒(i) est facile puisqu’une compos´ee de fonctions mesurables est
mesurable.
Dans l’autre sens, supposons que Y est σ(X)-mesurable. Traitons d’abord le cas o` u Y
est ´etag´ee :
Y =
n
¸
i=1
λ
i
1
A
i
o` u λ
i
∈ R et A
i
∈ σ(X), pour tout i ∈ ¦1, . . . , n¦. Alors, pour chaque i ∈ ¦1, . . . , n¦, on
peut trouver B
i
∈ c tel que A
i
= X
−1
(B
i
), et on a
Y =
n
¸
i=1
λ
i
1
A
i
=
n
¸
i=1
λ
i
1
B
i
◦ X = f ◦ X,
o` u f =
¸
n
i=1
λ
i
1
B
i
est c-mesurable.
Dans le cas g´en´eral, on sait que Y est limite simple d’une suite de v.a. Y
n
´etag´ees et
σ(X)-mesurables. D’apr`es la premi`ere ´etape, on peut ´ecrire, pour tout n, Y
n
= f
n
(X), o` u la
fonction f
n
: E −→R est mesurable. On pose alors pour tout x ∈ E :
f(x) =

lim
n→∞
f
n
(x) si la limite existe,
0 sinon.
On sait que la fonction f ainsi d´efinie est mesurable. Par ailleurs, pour tout ω ∈ Ω,
X(ω) appartient `a l’ensemble des x pour lesquels limf
n
(x) existe (puisque limf
n
(X(ω)) =
limY
n
(ω) = Y (ω)), et de plus
f(X(ω)) = limf
n
(X(ω)) = Y (ω)
ce qui donne la repr´esentation recherch´ee Y = f(X).
100
8.2 Moments de variables al´eatoires
8.2.1 Moments d’ordre p et variance
Soit X une v.a. r´eelle et soit p ≥ 1 un entier. Le moment d’ordre p de X est par d´efinition
la quantit´e E[X
p
], qui n’est d´efinie que si E[[X[
p
] < ∞, ou si X ≥ 0. La quantit´e E[[X[
p
]
est appel´ee moment absolu d’ordre p. En particulier le moment d’ordre 1 est simplement
l’esp´erance de X. On dit que la v.a. r´eelle X est centr´ee si elle est int´egrable et si E[X] = 0.
L’esp´erance math´ematique est un cas particulier d’int´egrale par rapport `a une mesure
positive, et on peut donc lui appliquer les th´eor`emes g´en´eraux vus dans ce cadre. En parti-
culier, les th´eor`emes de convergence sont d’un usage fr´equent :
Convergence monotone : X
n
≥ 0, X
n
↑ X ⇒ E[X
n
] ↑ E[X].
Lemme de Fatou : X
n
≥ 0, ⇒ E[liminf X
n
] ≤ liminf E[X
n
].
Convergence domin´ee : [X
n
[ ≤ Z E[Z] < ∞, X
n
−→ X p.p. ⇒ E[X
n
] −→ E[X].
En th´eorie des probabilit´es on utilise l’expression presque sˆ urement (p.s. en abr´eg´e) plutˆot
que le presque partout (p.p.) de la th´eorie de la mesure.
Les espaces L
p
(Ω, /, P) sont d´efinis pour tout p ∈ [1, ∞] comme dans le cours d’int´egration.
L’in´egalit´e de H¨older s’´ecrit
E[[XY [] ≤ E[[X[
p
]
1/p
E[[Y [
q
]
1/q
,
pourvu que
1
p
+
1
q
= 1. En prenant Y = 1 on trouve |X|
1
≤ |X|
p
, ce qui se g´en´eralise
aussitˆot `a |X|
r
≤ |X|
p
si r ≤ p. En particulier L
p
(Ω, /, P) ⊂ L
r
(Ω, /, P) si r ≤ p.
L’in´egalit´e de Cauchy-Schwarz s’´ecrit
E[[XY [] ≤ E[X
2
]
1/2
E[Y
2
]
1/2
et le cas particulier o` u Y = 1
E[[X[]
2
≤ E[X
2
]
est tr`es souvent utile.
D´efinition 8.2.1 Soit X ∈ L
2
(Ω, /, P). La variance de X est
var(X) = E[(X −E[X])
2
]
et l’´ecart-type de X est
σ
X
=

var(X).
De mani`ere informelle, var(X) mesure la dispersion de X autour de sa moyenne E[X].
Remarquons que var(X) = 0 si et seulement si X est constante p.s.
101
Proposition 8.2.1 On a aussi var(X) = E[X
2
] −(E[X])
2
, et pour tout a ∈ R,
E[(X −a)
2
] = var(X) + (E[X] −a)
2
.
En cons´equence,
var(X) = inf
a∈R
E[(X −a)
2
].
Preuve. On a
E[(X −a)
2
] = E[X
2
] −2a E[X] + a
2
= E[X
2
] −(E[X])
2
+ (E[X] −a)
2
.
Les deux premi`eres assertions en d´ecoulent aussitˆot, en prenant a = E[X] pour la premi`ere.

In´egalit´e de Markov. (cf cours d’int´egration) Si X ≥ 0 et a > 0,
P(X ≥ a) ≤
1
a
E[X].
In´egalit´e de Bienaym´e-Tchebicheff. Si X ∈ L
2
(Ω, /, P) et a > 0,
P([X −E[X][ ≥ a) ≤
1
a
2
var(X).
Cette in´egalit´e d´ecoule de l’in´egalit´e de Markov appliqu´ee `a la variable positive (X−E[X])
2
.
D´efinition 8.2.2 Soient X, Y ∈ L
2
(Ω, /, P). La covariance de X et Y est
cov(X, Y ) = E[(X −E[X])(Y −E[Y ])] = E[X(Y −E[Y ])] = E[XY ] −E[X]E[Y ].
Si X = (X
1
, . . . , X
d
) est une variable al´eatoire `a valeurs dans R
d
dont toutes les composantes
sont dans L
2
(Ω, /, P) (ce qui ´equivaut `a E[[X[
2
] < ∞), la matrice de covariance de X est
K
X
=

cov(X
i
, X
j
)

1≤i≤d,1≤j≤d
.
De mani`ere informelle, la covariance de X et Y mesure la corr´elation existant entre X
et Y . Remarquons que cov(X, X) = var(X) et que, d’apr`es l’in´egalit´e de Cauchy-Schwarz,
[cov(X, Y )[ ≤

var(X)

var(Y ).
L’application (X, Y ) −→ cov(X, Y ) est une forme bilin´eaire sur L
2
(Ω, /, P).
Dans le cas vectoriel X = (X
1
, . . . , X
d
), la matrice K
X
est sym´etrique positive : pour
tous λ
1
, . . . , λ
d
∈ R
d
,
d
¸
i,j=1
λ
i
λ
j
K
X
(i, j) = var

d
¸
i=1
λ
i
X
i

≥ 0.
Exercice. Si A est une matrice (d´eterministe) nd et Y = AX, v´erifier que K
Y
= AK
X
t
A.
102
8.2.2 La r´egression lin´eaire
Soient X, Y
1
, . . . , Y
n
des variables al´eatoires dans L
2
(Ω, /, P). On cherche `a trouver la
meilleure approximation de X comme fonction affine de Y
1
, . . . , Y
n
. Pr´ecis´ement, on cherche
`a minimiser
E[(X −(β
0
+ β
1
Y
1
+ + β
n
Y
n
))
2
]
sur tous les choix possibles du (n + 1)-uplet de r´eels (β
0
, . . . , β
n
).
Proposition 8.2.2 On a
inf
β
0
,...,βn∈R
E[(X −(β
0
+ β
1
Y
1
+ + β
n
Y
n
))
2
] = E[(X −Z)
2
],
o` u
Z = E[X] +
n
¸
j=1
α
j
(Y
j
−E[Y
j
]), (1)
les coefficients α
j
´etant (n’importe quelle) solution du syst`eme
n
¸
j=1
α
j
cov(Y
j
, Y
k
) = cov(X, Y
k
) , 1 ≤ k ≤ n.
En particulier, si K
Y
est non-d´eg´en´er´ee, on a α = cov(X, Y ) K
−1
Y
en notation matricielle.
Preuve. Soit H le sous-espace vectoriel de L
2
(Ω, /, P) engendr´e par 1, Y
1
, . . . , Y
n
. Alors,
on sait que la variable al´eatoire Z qui minimise |X − U|
2
pour U ∈ H est la projection
orthogonale de X sur H. On peut ´ecrire Z sous la forme
Z = α
0
+
n
¸
j=1
α
j
(Y
j
−E[Y
j
]).
Par d´efinition de la projection orthogonale, X −Z est orthogonal `a H. On doit donc avoir
E[(X −Z) 1] = 0,
d’o` u α
0
= E[X]. De mˆeme, pour tout k ∈ ¦1, . . . , n¦,
E[(X −Z) (Y
k
−E[Y
k
])] = 0,
ce qui ´equivaut `a cov(Z, Y
k
) = cov(X, Y
k
), ou encore `a
n
¸
j=1
α
j
cov(Y
j
, Y
k
) = cov(X, Y
k
).
Inversement, si les coefficients α
j
v´erifient ce syst`eme d’´equations, il est imm´ediat que la
variable Z d´efinie par le membre de droite de (1) est un ´el´ement de H tel que X − Z soit
orthogonal `a H, donc doit co¨ıncider avec la projection orthogonale de X sur H.
Remarque. Si n = 1 et si on suppose que Y n’est pas constante p.s., on trouve que la
meilleure (au sens L
2
) approximation de X par une fonction affine de Y est
Z = E[X] +
cov(X, Y )
var(Y )
(Y −E[Y ]).
C’est ce qu’on appelle parfois la droite de r´egression de X en Y .
103
8.2.3 Fonctions caract´eristiques
D´efinition 8.2.3 Si X est une variable al´eatoire `a valeurs dans R
d
, la fonction caract´eristique
de X est la fonction Φ
X
: R
d
−→C d´efinie par
Φ
X
(ξ) = E[exp(iξ X)] , ξ ∈ R
d
.
On peut aussi ´ecrire
Φ
X
(ξ) =

e
iξ·x
P
X
(dx)
ce qui permet de voir Φ
X
comme la transform´ee de Fourier de la loi de X. On ´ecrit parfois
Φ
X
(ξ) =
´
P
X
(ξ). Le th´eor`eme de convergence domin´ee montre que Φ
X
est continue (et
born´ee) sur R
d
.
Notre objectif est de montrer que la fonction caract´eristique caract´erise la loi de X. Nous
commen¸ cons par un calcul important dans un cas particulier.
Lemme 8.2.3 Soit X une variable al´eatoire de loi gaussienne ^(0, σ
2
). Alors,
Φ
X
(ξ) = exp(−
σ
2
ξ
2
2
) , ξ ∈ R.
Preuve. On a
Φ
X
(ξ) =

R
1
σ


e
−x
2
/(2σ
2
)
e
iξx
dx.
On se ram`ene facilement au cas σ = 1. Ensuite, un argument de parit´e montre que la partie
imaginaire de Φ
X
(ξ) est nulle. Il reste `a calculer
f(ξ) =

R
1


e
−x
2
/2
cos(ξx) dx.
En d´erivant sous le signe int´egrale, on a
f

(ξ) = −

R
1


xe
−x
2
/2
sin(ξx) dx
(la justification est facile puisque [x sin(ξx) e
−x
2
/2
[ ≤ [x[ e
−x
2
/2
qui est int´egrable). En
int´egrant par parties, il vient
f

(ξ) = −

R
1


e
−x
2
/2
ξ cos(ξx) dx = −ξ f(ξ).
La fonction f est donc solution de l’´equation diff´erentielle f

(ξ) = −ξf(ξ), avec condition
initiale f(0) = 1. Il en d´ecoule que f(ξ) = exp(−ξ
2
/2).
Th´eor`eme 8.2.4 La fonction caract´eristique d’une variable al´eatoire X `a valeurs dans R
d
caract´erise la loi de cette variable al´eatoire. Autrement dit, la transform´ee de Fourier d´efinie
sur l’espace des mesures de probabilit´e sur R
d
est injective.
104
Preuve. On traite d’abord le cas d = 1. Pour tout σ > 0, soit g
σ
la densit´e de la loi
gaussienne ^(0, σ
2
) :
g
σ
(x) =
1
σ


exp(−
x
2

2
) , x ∈ R.
Si µ est une mesure de probabilit´e sur R, on pose
f
σ
(x) =

R
g
σ
(x −y) µ(dy)
(def)
= g
σ
∗ µ(x),
µ
σ
(dx) = f
σ
(x) dx.
Pour montrer le r´esultat du th´eor`eme, il suffit d’´etablir que
1. µ
σ
est d´etermin´ee par ´ µ.
2. Pour toute fonction ϕ ∈ C
b
(R),

ϕ(x)µ
σ
(dx) −→

ϕ(x)µ(dx) quand σ → 0.
Pour ´etablir le point 1, on utilise le lemme pour ´ecrire, pour tout x ∈ R,
σ

2π g
σ
(x) = exp(−
x
2

2
) =

R
e
iξx
g
1/σ
(ξ) dξ.
Il vient alors
f
σ
(x) =

R
g
σ
(x −y) µ(dy) = (σ

2π)
−1

R

R
e
iξ(x−y)
g
1/σ
(ξ) dξ

µ(dy)
= (σ

2π)
−1

R
e
iξx
g
1/σ
(ξ)

R
e
−iξy
µ(dy)


= (σ

2π)
−1

R
e
iξx
g
1/σ
(ξ) ´ µ(−ξ)dξ.
Dans l’avant-derni`ere ´egalit´e, on a utilis´e le th´eor`eme de Fubini-Lebesgue, dont la justifica-
tion est facile puisque µ est une mesure de probabilit´e et que la fonction g
1/σ
est int´egrable
pour la mesure de Lebesgue.
Pour le point 2, on ´ecrit d’abord, pour toute fonction ϕ continue et born´ee sur R,

ϕ(x)µ
σ
(dx) =

ϕ(x)

g
σ
(y −x)µ(dy)

dx =

g
σ
∗ ϕ(y)µ(dy),
avec la mˆeme justification pour appliquer le th´eor`eme de Fubini-Lebesgue. Ensuite, on utilise
les propri´et´es

g
σ
(x) dx = 1 ,
lim
σ→0

{|x|>ε}
g
σ
(x) dx = 0 , ∀ε > 0,
pour obtenir que, pour tout y ∈ R,
lim
ε→0
g
σ
∗ ϕ(y) = ϕ(y)
105
(cf les r´esultats du cours d’int´egration concernant les approximations de la mesure de Dirac
δ
0
). Par convergence domin´ee, facile `a justifier puisque [g
σ
∗ ϕ[ ≤ sup [ϕ[, on obtient
lim
σ→0

ϕ(x)µ
σ
(dx) =

ϕ(x)µ(dx),
ce qui termine la preuve dans le cas d = 1.
La preuve dans le cas d quelconque est similaire. On utilise les fonctions
g
(d)
σ
(x
1
, . . . , x
d
) =
d
¸
j=1
g
σ
(x
j
)
en remarquant que pour ξ ∈ R
d
,

R
d
g
(d)
σ
(x) e
iξ·x
dx =
d
¸
j=1

g
σ
(x
j
) e

j
·x
j
dx
j
= (2πσ)
d/2
g
(d)
1/σ
(ξ).

Proposition 8.2.5 Soit X = (X
1
, . . . , X
d
) une v.a. `a valeurs dans R
d
et de carr´e int´egrable.
Alors Φ
X
est de classe C
2
et
Φ
X
(ξ) = 1 +i
d
¸
j=1
ξ
j
E[X
j
] −
1
2
d
¸
j=1
d
¸
k=1
ξ
j
ξ
k
E[X
j
X
k
] + o([ξ[
2
)
quand ξ = (ξ
1
, . . . , ξ
d
) tend vers 0.
Preuve. En d´erivant sous le signe int´egrale, on trouve
∂Φ
X
∂ξ
j
(ξ) = i E[X
j
e
iξ·X
],
la justification ´etant facile puisque [iX
j
e
iξ·X
[ = [X
j
[ et X
j
∈ L
2
⊂ L
1
. De mˆeme, puisque
E[[X
j
X
k
[] ≤ E[X
2
j
]
1/2
E[X
2
k
]
1/2
< ∞, on peut d´eriver une seconde fois et trouver que

2
Φ
X
∂ξ
j
∂ξ
k
(ξ) = −E[X
j
X
k
e
iξ·X
].
De plus le th´eor`eme de continuit´e sous le signe int´egrale assure que

2
Φ
X
∂ξ
j
∂ξ
k
(ξ) est fonction
continue de ξ.
Enfin la derni`ere assertion est simplement le d´eveloppement de Taylor de Φ
X
`a l’ordre 2
`a l’origine.
Remarque. Si on suppose que X est de puissance p-i`eme int´egrable (p ≥ 1 entier) le mˆeme
raisonnement montre que Φ
X
est de classe C
p
. C’est cependant le cas p = 2 qui sera le plus
utile dans la suite.
106
8.2.4 Fonction g´en´eratrice
Dans le cas de variables al´eatoires `a valeurs dans N, on utilise les fonctions g´en´eratrices
plutˆot que les fonctions caract´eristiques.
D´efinition 8.2.4 Soit X une v.a. `a valeurs dans N. La fonction g´en´eratrice de X est la
fonction g
X
d´efinie sur l’intervalle [0, 1] par
g
X
(r) = E[r
X
] =

¸
n=0
P(X = n) r
n
.
La fonction g
X
est continue sur [0, 1] (cela d´ecoule par exemple du th´eor`eme de conver-
gence domin´ee), et on a g
X
(0) = P(X = 0) et g
X
(1) = 1. Le rayon de convergence de la s´erie
enti`ere qui apparaˆıt dans la d´efinition est donc sup´erieur ou ´egal `a un. Cela montre que la
fonction g´en´eratrice g
X
caract´erise la loi de X, puisque les nombres P(X = n) apparaissent
comme les coefficients du d´eveloppement de Taylor de g
X
en 0.
On voit facilement que g
X
a toujours une d´eriv´ee `a gauche en 1, ´eventuellement infinie,
et que
g

X
(1) = E[X].
Plus g´en´eralement, pour tout entier p ≥ 1,
lim
r↑1
g
(p)
X
(r) = E[X(X −1) (X −p + 1)]
ce qui montre comment retrouver tous les moments de X `a partir de la connaissance de la
fonction g´en´eratrice.
107
108
Chapitre 9
Ind´ependance
Le concept d’ind´ependance est sans doute la premi`ere notion importante o` u la th´eorie
des probabilit´es se diff´erencie nettement de l’int´egration. S’il est plus facile de compren-
dre intuitivement la d´efinition de l’ind´ependance de deux ´ev´enements ou de deux variables
al´eatoires, la notion la plus fondamentale est celle de l’ind´ependance de deux (ou plusieurs)
sous-tribus. Un r´esultat-cl´e de ce chapitre relie l’ind´ependance de deux variables al´eatoires au
fait que la loi du couple form´e par ces deux variables est la mesure-produit des lois individu-
elles. Avec le th´eor`eme de Fubini, cela permet des reformulations souvent utiles de la notion
d’ind´ependance. A titre d’application, on ´etablit le c´el`ebre lemme de Borel-Cantelli (dont
une application amusante donne des propri´et´es surprenantes du d´eveloppement dyadique
d’un nombre r´eel choisi au hasard) et une premi`ere forme de la loi des grands nombres, qui
suffit `a ´etablir le lien entre notre approche axiomatique des probabilit´es et la d´efinition “his-
torique” (probabilit´e d’un ´ev´enement = fr´equence d’apparition de cet ´ev´enement lorsqu’on
r´ep`ete un grand nombre de fois la mˆeme exp´erience al´eatoire).
9.1 Ev´enements ind´ependants
Dans tout ce chapitre on se place sur un espace de probabilit´e (Ω, /, P). Si A, B ∈ / sont
deux ´ev´enements, on dit que A et B sont ind´ependants si
P(A∩ B) = P(A)P(B).
Au moins lorsque P(B) > 0, on peut interpr`eter cette d´efinition en disant que la probabilit´e
conditionnelle
P(A [ B)
(def)
=
P(A∩ B)
P(B)
co¨ıncide avec P(A) : le fait de savoir que B est r´ealis´e ne donne pas d’information sur la
r´ealisation ou non de l’´ev´enement A (et on peut intervertir les rˆoles de A et B).
Exemples. (i) Lancer de deux d´es : Ω = ¦1, 2, . . . , 6¦
2
, P(¦ω¦) = 1/36 pour tout ω ∈ Ω.
Les ´ev´enements A = ¦6¦ ¦1, 2, . . . , 6¦ et B = ¦1, 2, . . . , 6¦ ¦6¦ sont ind´ependants. En
fait la probabilit´e P a ´et´e construite pr´ecis´ement pour qu’un ´ev´enement relatif au r´esultat
du premier lancer soit ind´ependant d’un ´ev´enement relatif au r´esultat du second.
109
(ii) Lancer d’un seul d´e : Ω = ¦1, 2, . . . , 6¦, P(¦ω¦) = 1/6 pour tout ω ∈ Ω. Les ´ev´enements
A = ¦1, 2¦ et B = ¦1, 3, 5¦ sont ind´ependants.
D´efinition 9.1.1 On dit que n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si, pour tout sous-
ensemble non vide ¦j
1
, . . . , j
p
¦ de ¦1, . . . , n¦, on a
P(A
j
1
∩ A
j
2
∩ . . . ∩ A
jp
) = P(A
j
1
) P(A
j
2
) . . . P(A
jp
).
Remarques. Il ne suffit pas que l’on ait
P(A
1
∩ A
2
∩ . . . ∩ A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Il ne suffit pas non plus que, pour chaque paire ¦i, j¦ ⊂ ¦1, . . . , n¦, les ´ev´enements A
i
et A
j
soient ind´ependants. Pour donner un exemple, consid´erons l’espace correspondant `a deux
lancers de pile ou face (pi`ece non truqu´ee) et prenons
A = ¦pile au premier lancer¦
B = ¦pile au second lancer¦
C = ¦mˆeme r´esultat aux deux lancers¦.
Les ´ev´enements A, B, C sont ind´ependants deux `a deux mais non ind´ependants.
Proposition 9.1.1 Les n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si et seulement si on a
P(B
1
∩ . . . ∩ B
n
) = P(B
1
) . . . P(B
n
)
d`es que B
i
∈ σ(A
i
) = ¦∅, A
i
, A
c
i
, Ω¦ pour tout i ∈ ¦1, . . . , n¦.
Preuve. Il est clair que la condition donn´ee est plus forte que celle de la d´efinition : prendre
B
i
= A
i
si i ∈ ¦j
1
, . . . , j
p
¦ et B
i
= Ω sinon. Inversement, supposons que A
1
, . . . , A
n
sont
ind´ependants. Pour v´erifier la propri´et´e de la proposition, on peut supposer B
i
= ∅ pour
tout i ∈ ¦1, . . . , n¦. Ensuite, si ¦j
1
, . . . , j
p
¦ = ¦i : B
i
= Ω¦, on est ramen´e `a montrer que
P(B
j
1
∩ B
j
2
∩ . . . ∩ B
jp
) = P(B
j
1
) P(B
j
2
) . . . P(B
jp
),
d`es que B
j
k
= A
j
k
ou A
c
j
k
. Finalement, il suffit de montrer que si C
1
, C
2
, . . . , C
p
sont
ind´ependants, C
c
1
, C
2
, . . . , C
p
le sont aussi. Mais cela est facile puisque, pour tout sous-
ensemble ¦i
1
, . . . , i
q
¦ de ¦2, . . . , p¦,
P(C
c
1
∩ C
i
1
∩ ∩ C
iq
) = P(C
i
1
∩ ∩ C
iq
) −P(C
1
∩ C
i
1
∩ ∩ C
iq
)
= P(C
i
1
) . . . P(C
iq
) −P(C
1
)P(C
i
1
) . . . P(C
iq
)
= P(C
c
1
)P(C
i
1
) . . . P(C
iq
)

110
9.2 Variables al´eatoires et tribus ind´ependantes
La notion la plus g´en´erale est celle de tribus ind´ependantes.
D´efinition 9.2.1 Soient B
1
, . . . , B
n
n sous-tribus de /. On dit que B
1
, . . . , B
n
sont ind´epen-
dantes si et seulement si
∀A
1
∈ B
1
, . . . , ∀A
n
∈ B
n
, P(A
1
∩ A
2
∩ . . . ∩ A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Soient X
1
, . . . , X
n
n variables al´eatoires `a valeurs respectivement dans (E
1
, c
1
), . . . , (E
n
, c
n
).
On dit que les variables X
1
, . . . , X
n
sont ind´ependantes si les tribus σ(X
1
), . . . , σ(X
n
) le sont.
Cela ´equivaut encore `a dire que
∀F
1
∈ c
1
, . . . , ∀F
n
∈ c
n
, P(¦X
1
∈ F
1
¦ ∩ . . . ∩ ¦X
n
∈ F
n
¦) = P(X
1
∈ F
1
) . . . P(X
n
∈ F
n
)
(9.1)
(en effet on sait que σ(X
i
) = ¦X
−1
i
(F) : F ∈ c
i
¦).
De mani`ere intuitive, les v.a. X
1
, . . . , X
n
sont ind´ependantes si la connaissance de cer-
taines d’entre elles ne donne pas d’information sur les autres.
Remarques. (i) Si B
1
, . . . , B
n
sont n sous-tribus ind´ependantes, et si, pour tout i ∈
¦1, . . . , n¦, X
i
est une v.a. B
i
-mesurable, alors X
1
, . . . , X
n
sont ind´ependantes.
(ii) Les n ´ev´enements A
1
, . . . , A
n
sont ind´ependants si et seulement si les tribus σ(A
1
), . . . ,
σ(A
n
) le sont (cf proposition pr´ec´edente).
Si X
1
, . . . , X
n
sont des variables al´eatoires `a valeurs dans (E
1
, c
1
), . . . , (E
n
, c
n
) respec-
tivement, le n-uplet (X
1
, . . . , X
n
) est une v.a. `a valeurs dans l’espace E
1
E
n
muni de
la tribu produit c
1
⊗ ⊗c
n
.
Th´eor`eme 9.2.1 Les n variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes si et seulement
si la loi du n-uplet (X
1
, . . . , X
n
) est le produit des lois de X
1
, . . . , X
n
:
P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
.
De plus, on a alors
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)]
d`es que f
i
est une fonction mesurable positive sur (E
i
, c
i
), pour tout i ∈ ¦1, . . . , n¦.
Preuve. Soit F
i
∈ c
i
, pour tout i ∈ ¦1, . . . , n¦. On a d’une part
P
(X
1
,...,Xn)
(F
1
F
n
) = P(¦X
1
∈ F
1
¦ ∩ . . . ∩ ¦X
n
∈ F
n
¦)
et d’autre part
P
X
1
⊗ ⊗P
Xn
(F
1
F
n
) =
n
¸
i=1
P
X
i
(F
i
) =
n
¸
i=1
P(X
i
∈ F
i
).
111
En comparant avec (9.1), on voit que X
1
, . . . , X
n
sont ind´ependantes si et seulement si les
deux mesures de probabilit´e P
(X
1
,...,Xn)
et P
X
1
⊗ ⊗ P
Xn
prennent les mˆemes valeurs sur
les pav´es F
1
F
n
. Mais comme on sait (lemme de classe monotone) qu’une mesure de
probabilit´e sur un espace-produit est caract´eris´ee par ses valeurs sur les pav´es, cela ´equivaut
encore `a dire que P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
.
La deuxi`eme assertion est ensuite une cons´equence du th´eor`eme de Fubini-Tonnelli :
E

n
¸
i=1
f
i
(X
i
)

=

E
1
×···×En
n
¸
i=1
f
i
(x
i
) P
X
1
(dx
1
) . . . P
Xn
(dx
n
)
=
n
¸
i=1

E
i
f
i
(x
i
) P
X
i
(dx
i
)
=
n
¸
i=1
E[f
i
(X
i
)].

Le th´eor`eme ci-dessus montre aussi comment construire des v.a. ind´ependantes. Con-
sid´erons le cas de v.a. r´eelles, et soient µ
1
, . . . , µ
n
des mesures de probabilit´e sur R
n
. Alors,
comme on l’a observ´e dans le Chapitre 8, on peut construire une v.a. Y = (Y
1
, . . . , Y
n
) `a
valeurs dans R
n
dont la loi est µ
1
⊗ ⊗µ
n
. D’apr`es le th´eor`eme pr´ec´edent, les composantes
Y
1
, . . . Y
n
de Y sont des v.a. r´eelles ind´ependantes de lois respectives µ
1
, . . . , µ
n
.
Remarques. Si les fonctions f
i
sont de signe quelconque, l’´egalit´e
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)]
reste vraie `a condition que E[[f
i
(X
i
)[] < ∞ pour tout i ∈ ¦1, . . . , n¦, et on a alors aussi
E

n
¸
i=1
[f
i
(X
i
)[

=
n
¸
i=1
E[[f
i
(X
i
)[] < ∞
ce qui justifie l’existence du terme de gauche dans la formule pr´ec´edente.
En particulier, si X
1
, . . . , X
n
sont n v.a. r´eelles ind´ependantes et dans L
1
, on a aussi
X
1
X
n
∈ L
1
, et
E[X
1
X
n
] =
n
¸
i=1
E[X
i
].
Remarquons qu’en g´en´eral le produit de v.a. dans L
1
n’est pas dans L
1
(l’ind´ependance est
une propri´et´e tr`es particuli`ere).
Corollaire 9.2.2 Si X
1
, X
2
sont deux variables al´eatoires r´eelles ind´ependantes et dans L
2
,
on a cov(X
1
, X
2
) = 0.
Cela d´ecoule de ce qui pr´ec`ede puisque cov(X
1
, X
2
) = E[X
1
X
2
] −E[X
1
]E[X
2
].
112
La r´eciproque du corollaire est fausse. La propri´et´e de covariance nulle (pour deux v.a.
dans L
2
) est beaucoup plus faible que l’ind´ependance. Pour donner un exemple, partons
d’une v.a. r´eelle X
1
dont la loi a une densit´e not´ee p(x) sym´etrique (p(x) = p(−x)) et telle
que

x
2
p(x)dx < ∞ (de sorte que X
1
∈ L
2
). On peut par exemple choisir pour X
1
une v.a.
de loi ^(0, σ
2
). Soit ensuite ε une deuxi`eme v.a. `a valeurs dans ¦−1, 1¦, ind´ependante de
X
1
et telle que P(ε = 1) = P(ε = −1) =
1
2
. Alors, si X
2
= εX
1
, on voit imm´ediatement
que cov(X
1
, X
2
) = 0 alors que X
1
et X
2
ne sont pas ind´ependantes. En effet, si X
1
et X
2
l’´etaient, [X
1
[ serait ind´ependante de [X
2
[ = [X
1
[. Or si une v.a. r´eelle est ind´ependante
d’elle-mˆeme, elle doit ˆetre constante p.s. (exercice !) et donc sa loi est une mesure de Dirac.
C’est une contradiction puisque la loi de [X
1
[ a une densit´e donn´ee par 2 p(x)1
R
+
(x).
Corollaire 9.2.3 Soient X
1
, . . . , X
n
n variables al´eatoires r´eelles.
(i) Supposons d’abord que, pour tout i ∈ ¦1, . . . , n¦, la loi de X
i
a une densit´e not´ee p
i
, et
que les variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes. Alors, la loi de (X
1
, . . . , X
n
) a
une densit´e donn´ee par
p(x
1
, . . . , x
n
) =
n
¸
i=1
p
i
(x
i
).
(ii) Inversement, supposons que la loi de (X
1
, . . . , X
n
) a une densit´e de la forme
p(x
1
, . . . , x
n
) =
n
¸
i=1
q
i
(x
i
),
o` u les fonctions q
i
sont bor´eliennes positives sur R. Alors les variables al´eatoires X
1
, . . . , X
n
sont ind´ependantes et pour chaque i ∈ ¦1, . . . , n¦, la loi de X
i
a une densit´e p
i
qui s’´ecrit
p
i
= C
i
q
i
, o` u C
i
> 0 est une constante.
Preuve. La premi`ere partie est une cons´equence imm´ediate du th´eor`eme ci-dessus, puisque
si P
X
i
(dx
i
) = p
i
(x
i
)dx
i
, le th´eor`eme de Fubini-Tonnelli montre que
P
X
1
⊗ ⊗P
Xn
(dx
1
. . . dx
n
) =

n
¸
i=1
p
i
(x
i
)

dx
1
. . . dx
n
.
Pour la partie (ii), on remarque d’abord que, toujours `a l’aide du th´eor`eme de Fubini-
Tonnelli, on a
n
¸
i=1

q
i
(x)dx

=

R
n
p(x
1
, . . . , x
n
)dx
1
. . . dx
n
= 1,
et en particulier K
i
:=

q
i
(x)dx) ∈]0, ∞[ pour tout i ∈ ¦1, . . . , n¦. Ensuite, d’apr`es un
r´esultat du Chapitre 8, la densit´e de X
i
est
p
i
(x
i
) =

R
n−1
p(x
1
, . . . , x
n
)dx
1
. . . dx
i−1
dx
i+1
. . . , dx
n
=

¸
j=i
K
j

q
i
(x
i
) =
1
K
i
q
i
(x
i
).
Cela permet de r´e´ecrire la densit´e de (X
1
, . . . , X
n
) sous la forme
p(x
1
, . . . , x
n
) =
n
¸
i=1
q
i
(x
i
) =
n
¸
i=1
p
i
(x
i
)
113
et on voit que P
(X
1
,...,Xn)
= P
X
1
⊗ ⊗P
Xn
d’o` u l’ind´ependance.
Exemple. Soit U une variable de loi exponentielle de param`etre 1 et soit V une variable
uniforme sur l’intervalle [0, 1]. On suppose que U et V sont ind´ependantes. Alors, si on
d´efinit
X =

U cos(2πV ) , Y =

U sin(2πV ),
les deux variables al´eatoires X et Y sont ind´ependantes. Pour le voir calculons la loi du
couple (X, Y ). Pour toute fonction ϕ mesurable positive sur R
2
,
E[ϕ(X, Y )] =


0

1
0
ϕ(

ucos(2πv),

usin(2πv)) e
−u
dudv
=
1
π


0


0
ϕ(r cos θ, r sin θ) re
−r
2
drdθ
=
1
π

R
2
ϕ(x, y) e
−x
2
−y
2
dxdy.
On obtient que la loi du couple (X, Y ) a pour densit´e π
−1
exp(−x
2
− y
2
) qui a une forme
produit comme dans la partie (ii) de la proposition. Donc X et Y sont ind´ependantes (on
voit aussi que X et Y ont la mˆeme densit´e
p(x) =
1

π
exp(−x
2
)
et donc X et Y suivent chacune la loi ^(0, 1/2)).
Remarque. Si X
1
, . . . , X
n
sont n variables al´eatoires r´eelles, il y a ´equivalence entre :
(i) X
1
, . . . , X
n
sont ind´ependantes.
(ii) Pour tous a
1
, . . . , a
n
∈ R, P(X
1
≤ a
1
, . . . , X
n
≤ a
n
) =
¸
n
i=1
P(X
i
≤ a
i
).
(iii) Si f
1
, . . . , f
n
sont continues `a support compact de R dans R
+
,
E

n
¸
i=1
f
i
(X
i
)

=
n
¸
i=1
E[f
i
(X
i
)].
(iv) La fonction caract´eristique de X est
Φ
X

1
, . . . , ξ
n
) =
n
¸
i=1
Φ
X
i

i
)
(pour montrer (iv)⇒(i), utiliser l’injectivit´e de la transform´ee de Fourier, cf Chapitre 8).
Nous passons maintenant `a un r´esultat technique tr`es utile.
114
Proposition 9.2.4 Soient B
1
, . . . , B
n
des sous-tribus de /. Pour tout i ∈ ¦1, . . . , n¦, soit
(
i
⊂ B
i
une classe stable par intersections finies, contenant Ω et telle que σ((
i
) = B
i
.
Supposons que
∀C
1
∈ (
1
, . . . , ∀C
n
∈ (
n
, P(C
1
∩ C
2
∩ . . . ∩ C
n
) = P(C
1
) P(C
2
) . . . P(C
n
).
Alors, les tribus B
1
, . . . , B
n
sont ind´ependantes.
Preuve. Fixons d’abord C
2
∈ (
2
, . . . , C
n
∈ (
n
, et posons
´
1
= ¦B
1
∈ B
1
: P(B
1
∩ C
2
∩ . . . ∩ C
n
) = P(B
1
) P(C
2
) . . . P(C
n
)¦.
Alors (
1
⊂ ´
1
par hypoth`ese, et d’autre part on voit facilement que ´
1
est une classe
monotone. Le lemme de classe monotone entraˆıne que ´
1
contient σ((
1
) = B
1
, et on a
montr´e
∀B
1
∈ B
1
, ∀C
2
∈ (
2
, . . . , ∀C
n
∈ (
n
, P(B
1
∩ C
2
∩ . . . ∩ C
n
) = P(B
1
) P(C
2
) . . . P(C
n
).
Pour continuer, on fixe B
1
∈ B
1
, C
3
∈ (
3
, . . . , C
n
∈ (
n
et on pose
´
1
= ¦B
2
∈ B
2
: P(B
1
∩ B
2
∩ C
3
∩ . . . ∩ C
n
) = P(B
1
) P(B
2
) P(C
3
) . . . P(C
n
)¦.
A nouveau, ´
2
est une classe monotone qui contient (
2
et donc aussi σ((
2
) = B
2
. En
raisonnant par r´ecurrence, on arrive facilement au r´esultat voulu.
Cons´equence. Regroupement par paquets. Soient B
1
, . . . , B
n
des tribus ind´ependantes,
et soient n
0
= 0 < n
1
< < n
p
= n. Alors les tribus
T
1
= B
1
∨ ∨ B
n
1
(not)
= σ(B
1
, . . . , B
n
1
)
T
2
= B
n
1
+1
∨ ∨ B
n
2

T
p
= B
n
p−1
+1
∨ ∨ B
np
sont ind´ependantes. Pour le voir, il suffit d’appliquer la proposition ci-dessus en prenant
pour (
j
la classe des parties de la forme
B
n
j−1
+1
∩ ∩ B
n
j
o` u B
i
∈ B
i
pour tout i ∈ ¦n
j−1
+ 1, . . . , n
j
¦.
En particulier, si X
1
, . . . , X
n
sont ind´ependantes, les v.a.
Y
1
= (X
1
, . . . , X
n
1
), . . . , Y
p
= (X
n
p−1
+1
, . . . , X
np
)
sont ind´ependantes.
Exemple. Si X
1
, . . . , X
4
sont des v.a. r´eelles ind´ependantes, les v.a.
Z
1
= X
1
X
3
, Z
2
= X
3
2
+ X
4
115
sont ind´ependantes.
Ind´ependance d’une famille infinie. Soit (B
i
)
i∈I
une famille quelconque de sous-tribus
de /. On dit que cette famille est ind´ependante si pour tout sous-ensemble fini ¦i
1
, . . . , i
p
¦
de I, les tribus B
i
1
, . . . , B
ip
sont ind´ependantes.
Si (X
i
)
i∈I
est une famille quelconque de variables al´eatoires, cette famille est dite ind´epen-
dante si la famille de tribus (σ(X
i
))
i∈I
l’est.
Proposition 9.2.5 Soit (X
n
)
n∈N
une suite de variables al´eatoires ind´ependantes. Alors,
pour tout entier p ∈ N, les deux tribus
B
1
= σ(X
0
, . . . , X
p
) , B
2
= σ(X
p+1
, X
p+2
, . . .)
sont ind´ependantes.
Preuve. Il suffit d’appliquer la proposition pr´ec´edente en prenant
(
1
= σ(X
0
, . . . , X
p
) = B
1
(
2
=

¸
k=p+1
σ(X
p+1
, X
p+2
, . . . , X
k
) ⊂ B
2
et en remarquant que l’hypoth`ese est satisfaite grˆace au principe du regroupement par pa-
quets.
9.3 Le lemme de Borel-Cantelli
Si (A
n
)
n∈N
est une suite d’´ev´enements on note
limsup A
n
=

¸
n=0


¸
k=n
A
k

et
liminf A
n
=

¸
n=0


¸
k=n
A
k

Lemme 9.3.1 Soit (A
n
)
n∈N
une suite d’´ev´enements.
(i) Si
¸
n∈N
P(A
n
) < ∞, alors
P(limsup A
n
) = 0
ou de mani`ere ´equivalente,
p.s. ¦n ∈ N : ω ∈ A
n
¦ est fini.
116
(ii) Si
¸
n∈N
P(A
n
) = ∞ et si les ´ev´enements A
n
sont ind´ependants, alors
P(limsup A
n
) = 1
ou de mani`ere ´equivalente,
p.s. ¦n ∈ N : ω ∈ A
n
¦ est infini.
Remarque. L’hypoth`ese d’ind´ependance (ou une autre hypoth`ese convenable) est n´ecessaire
dans (ii), comme le montre l’exemple trivial o` u A
n
= A pour tout n ∈ N, avec 0 < P(A) < 1.
Preuve. (i) Si
¸
n∈N
P(A
n
) < ∞, alors
E

¸
n∈N
1
An

=
¸
n∈N
P(A
n
) < ∞
et donc
¸
n∈N
1
An
< ∞ p.s.
(ii) Fixons d’abord n
0
∈ N, et observons que si n ≥ n
0
,
P

n
¸
k=n
0
A
c
k

=
n
¸
k=n
0
P(A
c
k
) =
n
¸
k=n
0
(1 −P(A
k
)).
La divergence de la s´erie
¸
P(A
k
) entraˆıne alors que
P


¸
k=n
0
A
c
k

= 0.
Comme cela est vrai pour tout n
0
∈ N, on a aussi
P


¸
n
0
=0


¸
k=n
0
A
c
k

= 0
et, en passant au compl´ementaire,
P


¸
n
0
=0


¸
k=n
0
A
k

= 1,
ce qui est le r´esultat voulu.
Deux applications. (1) Il n’existe pas de mesure de probabilit´e sur N telle que la probabilit´e
de l’ensemble des multiples de n soit ´egale `a 1/n pour tout entier n ≥ 1. En effet, supposons
qu’il existe une telle probabilit´e, not´ee P. Soit { l’ensemble des nombres premiers et pour
tout p ∈ {, notons A
p
= pN l’ensemble des multiples de p. Alors, il est facile de voir que les
A
p
, p ∈ {, sont ind´ependants. En effet, si p
1
, . . . , p
k
sont des nombres premiers distincts,
P(A
p
1
∩ . . . ∩ A
p
k
) = P(p
1
N ∩ . . . ∩ p
k
N) = P((p
1
. . . p
k
)N) =
1
p
1
. . . p
k
=
k
¸
j=1
P(A
p
j
).
117
Par ailleurs, on sait que
¸
p∈P
P(A
p
) =
¸
p∈P
1
p
= ∞.
On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque
tout (au sens de la probabilit´e P) entier n appartient `a une infinit´e d’ensembles A
p
, et donc
est multiple d’une infinit´e de nombres premiers distincts. C’est ´evidemment absurde.
(2) Consid´erons le cas o` u
(Ω, /, P) = ([0, 1[, B([0, 1[), λ).
Pour tout n ≥ 1, on pose
∀ω ∈ [0, 1[, X
n
(ω) = [2
n
ω] −2[2
n−1
ω],
o` u [x] d´esigne la partie enti`ere d’un nombre r´eel x. Alors X
n
(ω) ∈ ¦0, 1¦ et on v´erifie
ais´ement par r´ecurrence sur n que, pour tout ω ∈ [0, 1[,
0 ≤ ω −
n
¸
k=1
X
k
(ω)2
−k
< 2
−n
,
ce qui montre que
ω =

¸
k=1
X
k
(ω) 2
−k
.
Les nombres X
k
(ω) sont donc les coefficients du d´eveloppement dyadique (propre) de ω. En
explicitant l’ensemble ¦X
n
= 1¦ on montre facilement que pour tout n ≥ 1,
P(X
n
= 0) = P(X
n
= 1) =
1
2
.
Enfin, on observe que la suite (X
n
)
n≥1
est ind´ependante. En effet, il suffit ici de v´erifier que,
pour tous i
1
, . . . , i
p
∈ ¦0, 1¦, on a
P(X
1
= i
1
, . . . , X
p
= i
p
) =
1
2
p
=
p
¸
j=1
P(X
j
= i
j
).
Or, on voit imm´ediatement que
¦X
1
= i
1
, . . . , X
p
= i
p
¦ = [
p
¸
j=1
i
j
2
−j
,
p
¸
j=1
i
j
2
−j
+ 2
−p
[,
d’o` u le r´esultat voulu.
Soit p ≥ 1 un entier quelconque, et soient i
1
, . . . , i
p
∈ ¦0, 1¦. Alors, le lemme de Borel-
Cantelli permet de voir que
p.s. Card¦k ≥ 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
¦ = ∞. (9.2)
118
Cela montre qu’une suite finie donn´ee de 0 et de 1 apparaˆıt une infinit´e de fois dans
le d´eveloppement dyadique de presque tout (au sens de la mesure de Lebesgue) r´eel de
l’intervalle [0, 1[. Pour ´etablir (9.2), il suffit de poser, pour tout entier n ∈ N,
Y
n
= (X
np+1
, X
np+2
, . . . , X
np+p
).
Le principe du regroupement par paquets montre que la suite (Y
n
)
n∈N
est ind´ependante, et
le r´esultat recherch´e d´ecoule d’une application du lemme de Borel-Cantelli `a la suite des
´ev´enements
A
n
= ¦Y
n
= (i
1
, . . . , i
p

qui sont ind´ependants et tous de probabilit´e 2
−p
.
Puisqu’une r´eunion d´enombrable d’ensembles de probabilit´e nulle est encore de proba-
bilit´e nulle, on peut renforcer (9.2) sous la forme
p.s. ∀p ≥ 1, ∀i
1
, . . . , i
p
∈ ¦0, 1¦, Card¦k ≥ 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
¦ = ∞.
Autrement dit, pour presque tout r´eel x de [0, 1[, n’importe quelle suite finie de 0 et de 1
apparaˆıt une infinit´e de fois dans le d´eveloppement dyadique de x.
9.4 Sommes de variables al´eatoires ind´ependantes.
Les sommes de variables al´eatoires ind´ependantes jouent un rˆole important en th´eorie des
probabilit´es, et seront ´etudi´ees dans le chapitre suivant. Nous regroupons d’abord quelques
propri´et´es importantes sous la forme d’une proposition. Si µ et ν sont deux mesures de
probabilit´e sur R
d
, on note µ∗ν la mesure-image de µ⊗ν par l’application (x, y) −→ x+y :
pour toute fonction mesurable positive ϕ sur R
d
,

R
d
ϕ(z) µ ∗ ν(dz) =

R
d

R
d
ϕ(x + y) µ(dx)ν(dy).
Proposition 9.4.1 Soient X et Y deux variables al´eatoires ind´ependantes `a valeurs dans
R
d
.
(i) La loi de X + Y est P
X
∗ P
Y
. En particulier, si X a une densit´e not´ee p
X
et Y a une
densit´e not´ee p
Y
, X + Y a pour densit´e p
X
∗ p
Y
.
(ii) La fonction caract´eristique de X+Y est Φ
X+Y
(ξ) = Φ
X
(ξ)Φ
Y
(ξ). (De mani`ere ´equivalente,
si µ et ν sont deux mesures de probabilit´e sur R
d
, µ ∗ ν = ˆ µ ˆ ν.)
(iii) Si X et Y sont de carr´e int´egrable, K
X+Y
= K
X
+ K
Y
; En particulier, si d = 1,
var(X + Y ) = var(X) + var(Y ).
Preuve. (i) Si X et Y sont ind´ependantes, on sait que P
(X,Y )
= P
X
⊗ P
Y
, et donc, pour
toute fonction mesurable positive ϕ sur R
d
,
E[ϕ(X+Y )] =

ϕ(x+y) P
(X,Y )
(dxdy) =

ϕ(x+y) P
X
(dx)P
Y
(dy) =

ϕ(z) P
X
∗P
Y
(dz)
119
par d´efinition de P
X
∗ P
Y
. Si de plus X et Y ont une densit´e,
E[ϕ(X + Y )] =

ϕ(x + y) p
X
(x)p
Y
(y)dxdy =

ϕ(z)

p
X
(x)p
Y
(z −x)dx

dz,
ce qui montre bien que X + Y a pour densit´e p
X
∗ p
Y
(remarquer que p
X
∗ p
Y
est ici bien
d´efinie presque partout comme convolution de deux fonctions de L
1
(R
d
, λ)).
(ii) Il suffit d’´ecrire
Φ
X+Y
(ξ) = E[e
iξX
e
iξY
] = E[e
iξX
] E[e
iξY
] = Φ
X
(ξ)Φ
Y
(ξ).
(iii) Si X = (X
1
, . . . , X
d
) et Y = (Y
1
, . . . , Y
d
), l’ind´ependance de X et Y entraˆıne que
cov(X
i
, Y
j
) = 0 pour tous i, j ∈ ¦1, . . . , d¦. En cons´equence, par bilin´earit´e,
cov(X
i
+ Y
i
, X
j
+ Y
j
) = cov(X
i
, X
j
) + cov(Y
i
, Y
j
)
ce qui donne bien K
X+Y
= K
X
+ K
Y
.
Th´eor`eme 9.4.2 (Loi faible des grands nombres) Soit (X
n
)
n≥1
une suite de variables
al´eatoires r´eelles ind´ependantes et de mˆeme loi. Si E[X
2
1
] < ∞, on a
1
n
(X
1
+ + X
n
)
L
2
−→
n→∞
E[X
1
].
Preuve. Par lin´earit´e,
E

1
n
(X
1
+ + X
n
)

= E[X
1
].
En cons´equence,
E

1
n
(X
1
+ + X
n
) −E[X
1
]

2

=
1
n
2
var(X
1
+ + X
n
) =
1
n
2
n
¸
j=1
var(X
j
) =
1
n
var(X
1
)
qui tend vers 0 quand n → ∞.
Remarque. La preuve montre que le r´esultat reste vrai sous des hypoth`eses bien plus faibles.
Au lieu de supposer que les v.a. X
n
ont mˆeme loi, il suffit de demander que E[X
n
] = E[X
1
]
pour tout n et que la suite E[X
2
n
] soit born´ee. Au lieu de l’ind´ependance, il suffit qu’on ait
cov(X
n
, X
m
) = 0 d`es que n = m, ce qui est beaucoup plus faible.
Le mot “faible” dans la loi faible des grands nombres renvoie au fait que la convergence
du th´eor`eme a lieu dans L
2
, alors que d’un point de vue probabiliste il est plus significatif
d’avoir une convergence presque sˆ ure, c’est-`a-dire une convergence simple en dehors d’un
ensemble de probabilit´e nulle (on parle alors de loi forte). Nous donnons un premier ´enonc´e
allant dans ce sens, qui sera consid´erablement am´elior´e dans le chapitre suivant.
Proposition 9.4.3 Reprenons les hypoth`eses du th´eor`eme pr´ec´edent, et supposons de plus
que E[X
4
1
] < ∞. Alors on a presque sˆ urement
1
n
(X
1
+ + X
n
) −→
n→∞
E[X
1
].
120
Preuve. Quitte `a remplacer X
n
par X
n
−E[X
n
], on peut supposer que E[X
n
] = 0. Alors,
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4
¸
i
1
,...,i
4
∈{1,...,n}
E[X
i
1
X
i
2
X
i
3
X
i
4
].
En utilisantl’ind´ependance et la propri´et´e E[X
k
] = 0, on voit que les seuls termes non nuls
de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet
(i
1
, i
2
, i
3
, i
4
) apparaˆıt au moins deux fois dans ce quadruplet. En utilisant le fait que les X
k
ont mˆeme loi, on trouve
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4

nE[X
4
1
] + 3n(n −1)E[X
2
1
X
2
2
]


C
n
2
pour une certaine constante C < ∞. Il en d´ecoule que

¸
n=1
E[(
1
n
(X
1
+ + X
n
))
4
] < ∞.
En intervertissant somme et esp´erance, on obtient
E


¸
n=1
(
1
n
(X
1
+ + X
n
))
4

< ∞,
d’o` u

¸
n=1
(
1
n
(X
1
+ + X
n
))
4
< ∞ , p.s.
ce qui entraˆıne l’assertion de la proposition.
Corollaire 9.4.4 Si (A
n
)
n≥1
est une suite d’´ev´enements ind´ependants de mˆeme probabilit´e,
on a
1
n
n
¸
i=1
1
A
i
p.s.
−→
n→∞
P(A
1
).
Ce corollaire fait le lien entre notre approche axiomatique moderne et la d´efinition his-
torique de la probabilit´e comme fr´equence d’apparition d’un ´ev´enement quand on r´ep`ete un
grand nombre de fois une exp´erience al´eatoire.
Revenons `a la deuxi`eme application du lemme de Borel-Cantelli donn´ee ci-dessus, qui
concernait le d´eveloppement dyadique
ω =

¸
k=1
X
k
(ω) 2
−k
d’un r´eel ω ∈ [0, 1[. Si p ≥ 1 est fix´e, on a vu que les v.a. Y
1
= (X
1
, . . . , X
p
), Y
2
=
(X
p+1
, . . . , X
2p
), . . . sont ind´ependantes et de mˆeme loi. On d´eduit alors du corollaire que,
pour tous i
1
, . . . , i
p
∈ ¦0, 1¦,
dω p.s.
1
n
Card¦j ≤ n : Y
j
(ω) = (i
1
, . . . , i
p
)¦ −→
n→∞
1
2
p
.
121
Pour chaque ℓ ∈ ¦1, . . . , p¦, le mˆeme argument appliqu´e aux v.a. (X

, X
ℓ+1
, . . . , X
p+ℓ−1
),
(X
p+ℓ
, X
p+ℓ+1
, . . . , X
2p+ℓ−1
), . . . conduit `a
dω p.s.
1
n
Card¦j ≤ n : X
jp+ℓ
(ω) = i
1
, . . . , X
(j+1)p+ℓ−1
(ω) = i
p
¦ −→
n→∞
1
2
p
.
En combinant ces r´esultats on trouve
dω p.s.
1
n
Card¦k ≤ n : X
k+1
(ω) = i
1
, . . . , X
k+p
(ω) = i
p
¦ −→
n→∞
1
2
p
.
Comme une r´eunion d´enombrable d’ensembles de probabilit´e nulle est encore de probabilit´e
nulle, on a aussi, pour tout ω ∈ [0, 1[ sauf sur un ensemble de mesure nulle :
∀p ≥ 1, ∀i
1
, . . . , i
p
∈ ¦0, 1¦,
1
n
Card¦k ≤ n : X
k+1
(ω) = i
1
, . . . , X
k+p
(ω) = i
p
¦ −→
n→∞
1
2
p
.
(9.3)
Autrement dit, pour presque tout r´eel ω de [0, 1[, la fr´equence d’apparition de n’importe
quel bloc de longueur finie de 0 et de 1 dans le d´eveloppement dyadique de ω existe et est
´egale `a 2
−p
si p est la longueur du bloc. Remarquons qu’il n’est pas facile d’exhiber un r´eel
ω pour lequel la propri´et´e (9.3) soit vraie. En fait, le moyen le plus rapide pour prouver
que de tels r´eels existent est tr`es certainement le raisonnement qui pr´ec`ede. Ceci est typique
de l’application des probabilit´es `a des probl`emes d’existence : pour ´etablir l’existence d’un
objet ayant certaines propri´et´es, on montre qu’un objet pris au hasard (selon une loi de
probabilit´e bien choisie) v´erifie les propri´et´es en question.
Semigroupes de convolution
Soit I = N ou I = R
+
.
D´efinition 9.4.1 Soit (µ
t
)
t∈I
une famille de mesures de probabilit´e sur R (ou sur R
d
). On
dit que (µ
t
)
t∈I
est un semigroupe de convolution si µ
0
= δ
0
et si
µ
t
∗ µ
t
′ = µ
t+t
′ , ∀t, t

∈ I.
L’interpr´etation probabiliste est que si X a pour loi µ
t
, Y a pour loi µ
t
′ et si X et Y sont
ind´ependantes, alors X + Y a pour loi µ
t+t
′ (cf la premi`ere proposition de cette partie).
Lemme 9.4.5 Pour que (µ
t
)
t∈I
soit un semigroupe de convolution, il suffit qu’il existe une
fonction ϕ : R −→C telle que :
• si I = N, ˆ µ
t
(ξ) = ϕ(ξ)
t
, ∀t ∈ I;
• si I = R, ˆ µ
t
(ξ) = exp(−tϕ(ξ)), ∀t ∈ I.
La preuve est imm´ediate puisque si ˆ µ
t
a la forme donn´ee, on a imm´ediatement
ˆ µ
t+t
′ = ˆ µ
t
ˆ µ
t
′ = µ
t
∗ µ
t

et l’injectivit´e de la transform´ee de Fourier donne µ
t+t
′ = µ
t
∗ µ
t
′ .
122
Exemples.
(1) I = N et, pour tout n ∈ N

, µ
n
est la loi binˆomiale B(n, p) (on a fix´e p ∈ [0, 1]).
La propri´et´e µ
n+m
= µ
n
∗ µ
m
est imm´ediate `a partir de l’interpr´etation probabiliste de
la loi binˆomiale. Alternativement on peut utiliser le lemme en remarquant que ˆ µ
n
(ξ) =
(pe

+ 1 −p)
n
.
(2) I = R
+
et, pour tout t ∈ R
+
, µ
t
est la loi de Poisson de param`etre t. Dans ce cas,
ˆ µ
t
(ξ) =

¸
k=0
t
k
k!
e
ikξ
e
−t
= exp(−t(1 −e

)).
(3) I = R
+
et, pour tout t > 0, µ
t
est la loi Gaussienne ^(0, t). On a d´ej`a calcul´e dans
le Chapitre 8
ˆ µ
t
(ξ) = exp(−

2
2
).
Cons´equence importante. Si X et Y sont deux v.a. r´eelles ind´ependantes et
• si X suit la loi de Poisson de param`etre λ et X

la loi de Poisson de param`etre λ

, alors
X + X

suit la loi de Poisson de param`etre λ + λ

;
• si X suit la loi gaussienne ^(m, σ
2
) et X

suit la loi gaussienne ^(m

, σ
′2
), alors X +X

suit la loi gaussienne ^(m + m

, σ
2
+ σ
′2
). (On se ram`ene au cas m = m

= 0 en
consid´erant X −m et X

−m

.)
Plus g´en´eralement toute combinaison lin´eaire de variables al´eatoires gaussiennes ind´epen-
dantes est encore gaussienne.
123
124
Chapitre 10
Convergence de variables al´eatoires
La premi`ere partie de ce chapitre pr´esente les diff´erentes notions de convergence de variables
al´eatoires, et les liens existant entre ces notions. On ´etablit ensuite la loi forte des grands
nombres, qui est l’un des deux th´eor`emes limites fondamentaux de la th´eorie des probabilit´es.
Le troisi`eme paragraphe pr´esente la convergence en loi des variables al´eatoires : ce type de
convergence est sans doute le plus d´elicat `a comprendre, en partie parce qu’il s’agit d’une
convergence de mesures (ce sont les lois des variables al´eatoires qui convergent et non les
variables elle-mˆemes). La notion de convergence en loi, et le th´eor`eme important reliant
cette convergence `a celle des fonctions caract´eristiques, permettent d’arriver au deuxi`eme
th´eor`eme limite fondamental qui est le th´eor`eme central limite.
10.1 Les diff´erentes notions de convergence
Soient (X
n
)
n≥1
, X des variables al´eatoires `a valeurs dans R
d
, d´efinies sur un espace de
probabilit´e (Ω, /, P). On a d´ej`a rencontr´e plusieurs notions de convergence de la suite (X
n
)
vers X. En particulier
X
n
p.s.
−→
n→∞
X si P(¦ω ∈ Ω : X(ω) = lim
n→∞
X
n
(ω)¦) = 1,
et, pour p ∈ [1, ∞[,
X
n
L
p
−→
n→∞
X si lim
n→∞
E[[X
n
−X[
p
] = 0.
D´efinition 10.1.1 On dit que la suite (X
n
) converge en probabilit´e vers X, et on note
X
n
(P)
−→
n→∞
X
si pour tout ε > 0,
lim
n→∞
P([X
n
−X[ > ε) = 0.
Proposition 10.1.1 Soit L
0
R
d
(Ω, /, P) l’espace de toutes les variables al´eatoires `a valeurs
dans R
d
, et soit L
0
R
d
(Ω, /, P) son quotient par la relation d’´equivalence X ∼ Y ssi X = Y
p.s. Alors, la formule
d(X, Y ) = E[[X −Y [ ∧ 1]
125
d´efinit une distance sur L
0
R
d
(Ω, /, P) qui est compatible avec la convergence en probabilit´e,
au sens o` u une suite (X
n
) converge en probabilit´e vers X ssi d(X
n
, X) tend vers 0. De plus,
l’espace L
0
R
d
(Ω, /, P) est complet pour la distance d.
Preuve. Il est facile de v´erifier que d est une distance. De plus, si la suite (X
n
) converge
en probabilit´e vers X, on a pour tout ε > 0,
E[[X
n
−X[∧1] ≤ E[[X
n
−X[1
{|Xn−X|≤ε}
]+E[([X
n
−X[∧1)1
{|Xn−X|>ε}
] ≤ ε+P([X
n
−X[ > ε).
D’apr`es la d´efinition de la convergence en probabilit´e, cela entraˆıne limsup d(X
n
, X) ≤ ε, et
puisque ε ´etait arbitraire on a d(X
n
, X) −→ 0. Inversement, si d(X
n
, X) −→ 0, alors, pour
tout ε ∈]0, 1],
P([X
n
−X[ > ε) ≤ ε
−1
E[[X
n
−X[ ∧ 1] = ε
−1
d(X
n
, X) −→
n→∞
0.
Il reste `a voir que L
0
est complet pour la distance d. Soit donc (X
n
) une suite de Cauchy
pour la distance d. On peut trouver une sous-suite Y
k
= X
n
k
telle que, pour tout k ≥ 1,
d(Y
k
, Y
k+1
) ≤ 2
−k
.
Alors
E[

¸
k=1
([Y
k+1
−Y
k
[ ∧ 1)] =

¸
k=1
d(Y
k
, Y
k+1
) < ∞,
ce qui entraˆıne
¸

k=1
([Y
k+1
− Y
k
[ ∧ 1) < ∞ p.s., et donc aussi
¸

k=1
[Y
k+1
− Y
k
[ < ∞ p.s.
(p.s. il ne peut y avoir qu’un nombre fini de valeurs de k pour lesquelles [Y
k+1
− Y
k
[ ≥ 1).
On d´efinit ensuite une v.a. X dans L
0
en posant
X = Y
1
+

¸
k=1
(Y
k+1
−Y
k
).
Par construction, la suite (Y
k
) converge p.s. vers X, et cela entraˆıne
d(Y
k
, X) = E[[Y
k
−X[ ∧ 1] −→
k→∞
0,
par convergence domin´ee. Donc la suite (Y
k
) converge en probabilit´e vers X, et cela est aussi
vrai pour la suite de d´epart (X
n
).
La preuve pr´ec´edente montre en particulier que de toute suite qui converge en probabilit´e
on peut extraire une sous-suite qui converge p.s. (vers la mˆeme limite). Nous reprenons cette
propri´et´e dans l’´enonc´e suivant.
Proposition 10.1.2 Si la suite (X
n
) converge p.s., ou dans L
p
, vers X, elle converge aussi
en probabilit´e vers X. Inversement, si la suite (X
n
) converge en probabilit´e vers X, il existe
une sous-suite (X
n
k
) qui converge p.s. vers X.
126
Preuve. La deuxi`eme assertion a d´ej`a ´et´e vue. Pour la premi`ere, si X
n
converge p.s. vers
X,
d(X
n
, X) = E[[X
n
−X[ ∧ 1] −→
n→∞
0,
par convergence domin´ee. Si X
n
converge dans L
p
vers X,
d(X
n
, X) ≤ |X
n
−X|
1
≤ |X
n
−X|
p
−→
n→∞
0.

En r´esum´e la convergence en probabilit´e est plus faible ` a la fois que la convergence p.s. et
que la convergence dans L
p
pour n’importe quel p ∈ [1, ∞[ (et a fortiori pour p = ∞). Dans
l’autre sens, la convergence en probabilit´e entraˆıne la convergence p.s. pour une sous-suite,
et la proposition ci-dessous donne des conditions qui permettent de d´eduire la convergence
L
p
de la convergence en probabilit´e.
Proposition 10.1.3 Soit (X
n
) une suite de v.a. convergeant en probabilit´e vers X. Sup-
posons qu’il existe r ∈]1, ∞[ tel que la suite (X
n
) soit born´ee dans L
r
. Alors, pour tout
p ∈ [1, r[, la suite (X
n
) converge vers X dans L
p
.
Preuve. Par hypoth`ese, il existe une constante C telle que E[[X
n
[
r
] ≤ C pour tout n. Le
lemme de Fatou entraˆıne alors E[[X[
r
] ≤ C et donc X ∈ L
r
. Ensuite, en utilisant l’in´egalit´e
de H¨older, on a pour tout p ∈ [1, r[ et tout ε > 0,
E[[X
n
−X[
p
] = E[[X
n
−X[
p
1
{|Xn−X|≤ε}
] + E[[X
n
−X[
p
1
{|Xn−X|>ε}
]
≤ ε
p
+ E[[X
n
−X[
r
]
p/r
P([X
n
−X[ > ε)
1−p/r
≤ ε
p
+ 2
p
C
p/r
P([X
n
−X[ > ε)
1−p/r
.
En utilisant l’hypoth`ese de convergence en probabilit´e, il vient
limsup
n→∞
E[[X
n
−X[
p
] ≤ ε
p
d’o` u le r´esultat annonc´e puisque ε est arbitraire.
10.2 La loi forte des grands nombres
Notre objectif est de montrer que si (X
n
) est une suite de v.a. ind´ependantes et de mˆeme loi,
dans L
1
, alors les moyennes
1
n
(X
1
+ + X
n
) convergent p.s. vers E[X
1
]. Nous avons d´ej`a
obtenu ce r´esultat sous l’hypoth`ese suppl´ementaire que E[[X
1
[
4
] < ∞, mais nous cherchons
maintenant `a l’´etablir sous des hypoth`eses optimales. Nous commen¸ cons par un r´esultat
pr´eliminaire important.
Th´eor`eme 10.2.1 (Loi du tout ou rien) Soit (X
n
)
n≥1
une suite de variables al´eatoires
ind´ependantes, `a valeurs dans des espaces mesurables quelconques. Pour tout n ≥ 1 soit B
n
la tribu
B
n
= σ(X
k
; k ≥ n).
127
Alors la tribu asymptotique B

d´efinie par
B

=

¸
n=1
B
n
est grossi`ere, au sens o` u P(B) = 0 ou 1 pour tout B ∈ B

.
Preuve. Posons
T
n
= σ(X
k
; k ≤ n).
On a observ´e dans le Chapitre 9 que pour tout n, T
n
est ind´ependante de B
n+1
, donc a
fortiori de B

. Ainsi,
∀A ∈

¸
n=1
T
n
, ∀B ∈ B

, P(A∩ B) = P(A)P(B).
Puisque la classe
¸

n=1
T
n
est stable par intersections finies, un autre r´esultat du Chapitre
9 permet alors de conclure que B

est ind´ependante de
σ


¸
n=1
T
n

= σ(X
n
; n ≥ 1).
En particulier, B

est ind´ependante d’elle-mˆeme, et pour tout B ∈ B

, P(B) = P(B∩B) =
P(B)
2
, ce qui n’est possible que si P(B) = 0 ou 1.
On v´erifie ais´ement qu’une v.a. r´eelle mesurable par rapport `a une tribu grossi`ere est
constante p.s. (sa fonction de r´epartition ne peut prendre que les deux valeurs 0 ou 1). On
peut appliquer le th´eor`eme pr´ec´edent `a toute suite (X
n
)
n≥1
de v.a. r´eelles ind´ependantes. Il
est facile de voir que la v.a.
limsup
n→∞
1
n
(X
1
+ + X
n
)
est mesurable par rapport `a B

, et cela entraˆıne que cette variable (`a valeurs dans [−∞, ∞])
est constante p.s. En particulier, si on sait que la suite
1
n
(X
1
+ + X
n
) converge p.s. la
limite est constante (p.s.).
Avant d’utiliser la loi du tout ou rien pour ´etablir la loi forte des grands nombres, nous
donnons d’abord une application plus facile au jeu de pile ou face.
Proposition 10.2.2 Soit (X
n
)
n≥1
une suite de variables al´eatoires ind´ependantes , de mˆeme
loi donn´ee par P(X
n
= 1) = P(X
n
= −1) =
1
2
. Pour tout n ≥ 1, posons
S
n
= X
1
+ X
2
+ + X
n
.
Alors,
p.s. sup
n≥1
S
n
= +∞ et inf
n≥1
S
n
= −∞.
En particulier, il existe p.s. des entiers n arbitrairement grands tels que S
n
= 0.
128
En d’autres termes si on imagine un jeu o` u `a chaque instant entier le joueur gagne ou
perd un Euro avec probabilit´e 1/2, S
n
repr´esente le gain (positif ou n´egatif) accumul´e apr`es
n instants. La proposition montre que quand n → ∞, S
n
prend tantˆot des valeurs positives
tantˆot des valeurs n´egatives, de plus en plus grandes en valeur absolue.
Preuve. On commence par montrer que, pour tout entier p ≥ 1,
P(−p ≤ inf
n
S
n
≤ sup
n
S
n
≤ p) = 0.
Pour cela on fixe un entier k > 2p, et on remarque que

¸
j=0
¦X
jk+1
= X
jk+2
= = X
jk+k
= 1¦ ⊂ (¦−p ≤ inf
n
S
n
≤ sup
n
S
n
≤ p¦)
c
.
Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements
analogues) montre que l’ensemble de gauche a probabilit´e 1, ce qui donne le r´esultat annonc´e.
En faisant tendre p vers ∞, on trouve
P(¦inf
n
S
n
> −∞¦ ∩ ¦sup
n
S
n
< ∞¦) = 0,
d’o` u
P(¦inf
n
S
n
= −∞¦ ∪ ¦sup
n
S
n
= ∞¦) = 1,
et en particulier
P(¦inf
n
S
n
= −∞¦) + P(¦sup
n
S
n
= ∞¦) ≥ 1.
Un argument de sym´etrie montre que
P(¦inf
n
S
n
= −∞¦) = P(¦sup
n
S
n
= ∞¦)
et d’apr`es ce qui pr´ec`ede ces deux probabilit´es sont strictement positives. Pour conclure, on
remarque que
¦sup
n
S
n
= ∞¦ ∈ B

.
En effet, pour tout entier k ≥ 1,
¦sup
n
S
n
= ∞¦ = ¦sup
n≥k
(X
k
+ X
k+1
+ + X
n
) = ∞¦ ∈ B
k
et donc l’´ev´enement ¦sup
n
S
n
= ∞¦ est mesurable par rapport `a l’intersection des tribus B
k
,
c’est-`a-dire B

. La loi du tout ou rien montre alors que P(¦sup
n
S
n
= ∞¦) = 1.
Nous passons maintenant au r´esultat principal de ce paragraphe.
Th´eor`eme 10.2.3 (Loi forte des grands nombres) Soit (X
n
)
n≥1
une suite de variables
al´eatoires ind´ependantes, de mˆeme loi, dans L
1
. Alors,
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
].
129
Remarques. (i) L’hypoth`ese d’int´egrabilit´e est optimale dans le sens o` u elle est n´ecessaire
pour que la limite E[X
1
] soit bien d´efinie (et finie). Dans le cas o` u les v.a. X
n
sont positives
et E[X
1
] = ∞, on montre facilement que
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
+∞
en appliquant le th´eor`eme aux v.a. X
n
∧ K.
(ii) On peut montrer que la convergence du th´eor`eme a aussi lieu dans L
1
. Nous ne donnerons
pas la preuve ici (elle sera donn´ee `a la fin du chapitre 12 en application de la th´eorie des
martingales). Du point de vue probabiliste, c’est la convergence presque sˆ ure qui a le plus
de signification.
Preuve. Pour all´eger les notations on pose S
n
= X
1
+ +X
n
, S
0
= 0. Soit a > E[X
1
], et
M = sup
n∈N
(S
n
−na)
qui est une v.a. `a valeurs dans [0, ∞]. Nous allons montrer que
M < ∞ , p.s. (10.1)
Puisque l’in´egalit´e S
n
≤ na + M est vraie pour tout n, il en d´ecoule aussitˆot que
limsup
n→∞
1
n
S
n
≤ a , p.s.
En consid´erant une suite de valeurs de a qui d´ecroˆıt vers E[X
1
], on trouve alors
limsup
n→∞
1
n
S
n
≤ E[X
1
] , p.s.
En rempla¸ cant X
n
par −X
n
, on obtient l’in´egalit´e inverse
liminf
n→∞
1
n
S
n
≥ E[X
1
] , p.s.
et l’´enonc´e du th´eor`eme d´ecoule de ces deux derni`eres in´egalit´es.
Il reste `a montrer (10.1). On remarque d’abord que, avec les notations de la loi du tout
ou rien, l’´ev´enement ¦M < ∞¦ est dans la tribu B

. En effet, il suffit d’´ecrire pour tout
entier k ≥ 0,
¦M < ∞¦ = ¦sup
n∈N
(S
n
−na) < ∞¦ = ¦sup
n≥k
(S
n
−S
k
−(n −k)a) < ∞¦
et de remarquer que le dernier ´ev´enement est mesurable pour la tribu σ(X
k+1
, X
k+2
, . . .).
Pour conclure il suffira donc de montrer que P(M < ∞) > 0, ou de mani`ere ´equivalente que
P(M = ∞) < 1, ce que nous ferons en raisonnant par l’absurde.
130
Commen¸ cons par quelques notations. Pour tout entier k ∈ N, posons
M
k
= sup
0≤n≤k
(S
n
−na),
M

k
= sup
0≤n≤k
(S
n+1
−S
1
−na).
Alors M
k
et M

k
ont mˆeme loi : en effet d’une part les vecteurs (X
1
, . . . , X
k
) et (X
2
, . . . , X
k+1
)
ont mˆeme loi et d’autre part on peut ´ecrire M
k
= F
k
(X
1
, . . . , X
k
) et M

k
= F
k
(X
2
, . . . , X
k+1
)
avec la mˆeme fonction (d´eterministe) F
k
: R
k
−→R. Il en d´ecoule que
M = lim
k→∞
↑ M
k
et
M

= lim
k→∞
↑ M

k
ont aussi mˆeme loi (´ecrire P(M

≤ x) = lim ↓ P(M

k
≤ x) = lim ↓ P(M
k
≤ x) = P(M ≤ x)).
Par ailleurs, il d´ecoule des d´efinitions que pour tout k ≥ 1,
M
k+1
= sup

0, sup
1≤n≤k+1
(S
n
−na)

= sup(0, M

k
+ X
1
−a),
ce qu’on peut encore r´e´ecrire sous la forme
M
k+1
= M

k
−inf(a −X
1
, M

k
).
Puisque M

k
a mˆeme loi que M
k
(et que ces deux v.a. sont clairement dans L
1
), on trouve
E[inf(a −X
1
, M

k
)] = E[M

k
] −E[M
k+1
] = E[M
k
] −E[M
k+1
] ≤ 0
grˆace `a l’in´egalit´e triviale M
k
≤ M
k+1
. On peut maintenant appliquer le th´eor`eme de
convergence domin´ee `a la suite des v.a. inf(a−X
1
, M

k
), qui sont domin´ees en valeur absolue
par [a −X
1
[ (rappelons que M

k
≥ 0). Il vient alors
E[inf(a −X
1
, M

)] = lim
k→∞
E[inf(a −X
1
, M

k
)] ≤ 0.
Si on avait P(M = ∞) = 1, on aurait aussi P(M

= ∞) = 1, puisque les v.a. M et M

ont
mˆeme loi, et donc inf(a −X
1
, M

) = a −X
1
p.s. Mais alors l’in´egalit´e pr´ec´edente donnerait
E[a−X
1
] ≤ 0, ce qui est absurde puisqu’on a choisi a > E[X
1
]. Cette contradiction termine
la preuve.
10.3 La convergence en loi
Rappelons que C
b
(R
d
) d´esigne l’espace des fonctions continues born´ees de R
d
dans R, qu’on
munit de la norme sup
|ϕ| = sup
x∈R
d
[ϕ(x)[.
131
D´efinition 10.3.1 Une suite (µ
n
) de mesures de probabilit´e sur R
d
converge ´etroitement
vers une mesure de probabilit´e µ sur R
d
(on note µ
n
(e)
−→ µ) si
∀ϕ ∈ C
b
(R
d
) ,

ϕdµ
n
−→
n→∞

ϕdµ.
Une suite (X
n
) de v.a. `a valeurs dans R
d
converge en loi vers une v.a. X `a valeurs dans R
d
(on note X
n
(loi)
−→ X) si la suite (P
Xn
) converge ´etroitement vers P
X
. Cela ´equivaut encore `a
∀ϕ ∈ C
b
(R
d
) , E[ϕ(X
n
)] −→
n→∞
E[ϕ(X)].
Remarques. (i) Il y a un abus de langage `a dire que la suite de v.a. (X
n
) converge en loi vers
X, car la v.a. limite X n’est pas d´efinie de mani`ere unique : seule sa loi P
X
l’est (pour cette
raison on ´ecrira parfois qu’une suite de v.a. (X
n
) converge en loi vers µ mesure de probabilit´e
sur R
d
, et il faudra ´evidemment comprendre que la suite (P
Xn
) converge ´etroitement vers µ).
Notons aussi qu’on peut consid´erer la convergence en loi de v.a. d´efinies sur des espaces de
probabilit´e diff´erents (ici nous supposerons toujours implicitement qu’elles sont d´efinies sur
le mˆeme espace de probabilit´e), ce qui rend la convergence en loi tr`es diff´erente des autres
convergences discut´ees ci-dessus.
(ii) L’espace des mesures de probabilit´e sur R
d
peut ˆetre vu comme un sous-ensemble du
dual C
b
(R
d
)

. La convergence ´etroite correspond alors `a la topologie faible * sur le dual
(topologie de la convergence simple, les ´el´ements du dual ´etant vus comme des fonctions sur
C
b
(R
d
)).
Exemples. (a) Si les v.a. X
n
et X sont `a valeurs dans Z
d
, alors X
n
converge en loi vers X
si et seulement si
∀x ∈ Z
d
, P(X
n
= x) −→
n→∞
P(X = x)
(l’implication ⇐demande un petit raisonnement : l’argument est facile si on sait, ce qui sera
´etabli plus tard, qu’on peut remplacer C
b
(R
d
) par C
c
(R
d
) dans la d´efinition de la convergence
´etroite).
(b) Si les X
n
sont des v.a. `a densit´e, P
Xn
(dx) = p
n
(x)dx, si on suppose
p
n
(x) −→ p(x) , dx p.p.
et s’il existe une fonction q ≥ 0 telle que

R
d
q(x)dx < ∞ et
∀n , p
n
(x) ≤ q(x) , dx p.p.
alors p est une densit´e de probabilit´e sur R
d
, et X
n
converge en loi vers la loi p(x)dx. Cela
d´ecoule du th´eor`eme de convergence domin´ee.
(c) Si X
n
est de loi uniforme sur ¦
1
2
n
,
2
2
n
, . . . ,
2
n
2
n
¦, alors X
n
converge en loi vers la loi uniforme
sur [0, 1]. Ce r´esultat d´ecoule de l’approximation de l’int´egrale d’une fonction continue par
ses sommes de Riemann.
(d) Si X
n
est de loi gaussienne ^(0, σ
2
n
) et si σ
n
−→ 0, alors X
n
converge en loi vers la v.a.
constante ´egale `a 0.
132
Proposition 10.3.1 Si la suite (X
n
) converge en probabilit´e vers X alors la suite (X
n
)
converge en loi vers X.
Preuve. Supposons d’abord que X
n
converge p.s. vers X. Alors, pour toute fonction
ϕ ∈ C
b
(R
d
), ϕ(X
n
) converge p.s. vers ϕ(X) et donc le th´eor`eme de convergence domin´ee
entraˆıne E[ϕ(X
n
)] −→ E[ϕ(X)], d’o` u la convergence en loi recherch´ee.
Dans le cas g´en´eral, raisonnons par l’absurde en supposant que X
n
ne converge pas en loi
vers X, donc qu’il existe une fonction ϕ ∈ C
b
(R
d
) telle que E[ϕ(X
n
)] ne converge pas vers
E[ϕ(X)]. On peut trouver une sous-suite (n
k
) et ε > 0 tels que [E[ϕ(X
n
k
)] −E[ϕ(X)][ ≥ ε
pour tout k. Mais, d’apr`es un r´esultat de la partie 1, il existe une sous-sous-suite (n
k

)
telle que (X
n
k

) converge p.s. vers X. La premi`ere partie de la preuve donne alors une
contradiction.
Remarque. Il existe un cas o` u la r´eciproque de la proposition est vraie. C’est le cas o` u la
v.a. limite X est constante (p.s.). En effet, si X
n
converge en loi vers a ∈ R
d
, il d´ecoule de
la propri´et´e (ii) de la proposition qui suit que pour tout ε > 0,
liminf
n→∞
P
Xn
(B(a, ε)) ≥ 1
o` u B(a, ε) est la boule ouverte de centre a et de rayon ε. C’est exactement dire que X
n
converge en probabilit´e vers a.
Si (X
n
) est une suite de v.a. convergeant en loi vers X, il n’est pas toujours vrai qu’on
ait
P(X
n
∈ B) −→ P(X ∈ B)
pour tout bor´elien B de R
d
(prendre B = ¦0¦ dans l’exemple (d) ci-dessus). On a cependant
le r´esultat suivant.
Proposition 10.3.2 Soient (µ
n
), µ des mesures de probabilit´e sur R
d
. Les quatre assertions
suivantes sont ´equivalentes.
(i) La suite (µ
n
) converge ´etroitement vers µ.
(ii) Pour tout ouvert G de R
d
,
liminf µ
n
(G) ≥ µ(G).
(iii) Pour tout ferm´e F de R
d
,
limsup µ
n
(F) ≤ µ(F).
(iv) Pour tout bor´elien B de R
d
tel que µ(∂B) = 0,
limµ
n
(B) = µ(B).
Preuve. Commen¸ cons par montrer (i)⇒(ii). Si G est un ouvert de R
d
, on peut trouver une
suite (ϕ
p
) de fonctions continues born´ees telles que 0 ≤ ϕ
p
≤ 1
G
et ϕ
p
↑ 1
G
(par exemple
ϕ
p
(x) = p dist(x, G
c
) ∧ 1 ). Alors,
liminf
n→∞
µ
n
(G) ≥ sup
p

liminf
n→∞

ϕ
p

n

= sup
p

ϕ
p

= µ(G).
133
L’´equivalence (ii)⇔(iii) est imm´ediate par passage au compl´ementaire.
Montrons que (ii) et (iii) entraˆınent (iv). Si B ∈ B(R
d
),
limsup µ
n
(B) ≤ limsup µ
n
(B) ≤ µ(B)
liminf µ
n
(B) ≥ liminf µ
n
(

B) ≥ µ(

B).
Si µ(∂B) = 0 on a µ(B) = µ(

B) = µ(B) et on obtient (iv).
Il reste `a montrer l’implication (iv)⇒(i). Soit ϕ ∈ C
b
(R
d
). Quitte `a d´ecomposer ϕ =
ϕ
+
− ϕ

on peut supposer ϕ ≥ 0. Soit K > 0 tel que 0 ≤ ϕ ≤ K. Alors le th´eor`eme de
Fubini montre que

ϕ(x)µ(dx) =

K
0
1
{t≤ϕ(x)}
dt

µ(dx) =

K
0
µ(E
ϕ
t
)dt,
o` u E
ϕ
t
= ¦x ∈ R
d
: ϕ(x) ≥ t¦. De mˆeme, pour tout n,

ϕ(x)µ
n
(dx) =

K
0
µ
n
(E
ϕ
t
)dt.
Remarquons que ∂E
ϕ
t
⊂ ¦x ∈ R
d
: ϕ(x) = t¦, et qu’il existe au plus une infinit´e d´enombrable
de valeurs de t telles que
µ(¦x ∈ R
d
: ϕ(x) = t¦) > 0
(en effet il y a au plus k valeurs distinctes de t telles que µ(¦x ∈ R
d
: ϕ(x) = t¦) ≥
1
k
). Donc
(iv) entraˆıne
µ
n
(E
ϕ
t
) −→
n→∞
µ(E
ϕ
t
) , dt p.p.
et par convergence domin´ee on obtient

ϕ(x)µ
n
(dx) =

K
0
µ
n
(E
ϕ
t
)dt −→
n→∞

K
0
µ
n
(E
ϕ
t
)dt =

ϕ(x)µ(dx).

Cons´equence. Une suite (X
n
) de v.a. r´eelles converge en loi vers une v.a. X si et seulement
si les fonctions de r´epartition F
Xn
(x) convergent vers F
X
(x) en tout point x o` u F
X
est
continue. L’implication ⇒ d´ecoule imm´ediatement de la propri´et´e (iv) ci-dessus. Dans
l’autre sens, on observe que sous la condition de convergence des fonctions de r´epartition (en
tout point o` u F
X
est continue), on a pour tout x ∈ R,
liminf F
Xn
(x−) ≥ F
X
(x−),
limsup F
Xn
(x) ≤ F
X
(x).
Il d´ecoule de cette observation que la condition (ii) de la proposition est satisfaite pour
µ
n
= P
Xn
et µ = P
X
lorsque G est un intervalle ouvert. Il suffit ensuite d’´ecrire un ou-
vert quelconque comme r´eunion d´enombrable disjointe d’intervalles ouverts pour aboutir au
r´esultat d´esir´e.
Rappelons la notation C
c
(R
d
) pour l’espace des fonctions continues `a support compact
sur R
d
.
134
Proposition 10.3.3 Soient (µ
n
) et µ des mesures de probabilit´e sur R
d
. Soit H un sous-
ensemble de C
b
(R
d
) dont l’adh´erence (pour la norme sup) contient C
c
(R
d
). Les propri´et´es
suivantes sont ´equivalentes :
(i) La suite (µ
n
) converge ´etroitement vers µ.
(ii) On a
∀ϕ ∈ C
c
(R
d
) ,

ϕdµ
n
−→
n→∞

ϕdµ.
(iii) On a
∀ϕ ∈ H ,

ϕdµ
n
−→
n→∞

ϕdµ.
Preuve. Il est ´evident que (i)⇒(ii) et (i)⇒(iii). Supposons ensuite que (ii) est satisfaite.
Soit ϕ ∈ C
b
(R
d
) et soit (f
k
) une suite de fonctions dans C
c
(R
d
) telles que 0 ≤ f
k
≤ 1 et
f
k
↑ 1 quand k → ∞. Alors pour tout k, ϕf
k
∈ C
c
(R
d
) et donc

ϕf
k

n
−→
n→∞

ϕf
k
dµ.
Par ailleurs,

ϕdµ
n

ϕf
k

n

sup
x∈R
[ϕ(x)[

1 −

f
k

n

,

ϕdµ −

ϕf
k

sup
x∈R
[ϕ(x)[

1 −

f
k

.
Donc, pour tout k,
limsup
n→∞

ϕdµ
n

ϕdµ

sup
x∈R
[ϕ(x)[

limsup
n→∞
(1 −

f
k

n
) + (1 −

f
k
dµ)

= 2

sup
x∈R
[ϕ(x)[

(1 −

f
k
dµ)

.
Il suffit maintenant de faire tendre k vers ∞ pour trouver que

ϕdµ
n
converge vers

ϕdµ,
et on a ´etabli (i).
Il reste `a montrer (iii)⇒(ii). On suppose donc que la propri´et´e (iii) est satisfaite. Ensuite,
si ϕ ∈ C
c
(R
d
), on peut pour chaque entier k ≥ 1 trouver une fonction ϕ
k
∈ H telle que
|ϕ −ϕ
k
| ≤ 1/k. Mais alors, pour tout k ≥ 1,
limsup
n→∞
[

ϕdµ
n

ϕdµ[
≤ limsup
n→∞

[

ϕdµ
n

ϕ
k

n
[ +[

ϕ
k

n

ϕ
k
dµ[ +[

ϕ
k
dµ −

ϕdµ[


2
k
.
Comme k est arbitraire cela donne

ϕdµ
n
−→

ϕdµ, d’o` u la propri´et´e (ii).
135
Th´eor`eme 10.3.4 (L´evy) Une suite (µ
n
) de mesures de probabilit´e sur R
d
converge ´etroite-
ment vers une mesure de probabilit´e µ sur R
d
si et seulement si
∀ξ ∈ R
d
, ´ µ
n
(ξ) −→
n→∞
´ µ(ξ).
De mani`ere ´equivalente, une suite (X
n
) de variables al´eatoires `a valeurs dans R
d
converge
en loi vers X si et seulement si
∀ξ ∈ R
d
, Φ
Xn
(ξ) −→
n→∞
Φ
X
(ξ).
Preuve. Il suffit de montrer la premi`ere assertion. D’abord, si on suppose que la suite (µ
n
)
converge ´etroitement vers µ, la d´efinition mˆeme de cette convergence assure que
∀ξ ∈ R
d
, ´ µ
n
(ξ) =

e
iξ·x
µ
n
(dx) −→
n→∞

e
iξ·x
µ(dx) = ´ µ(ξ).
Supposons inversement que ´ µ
n
(ξ) → ´ µ(ξ) pour tout ξ ∈ R
d
et montrons qu’alors la suite

n
) converge ´etroitement vers µ. Pour all´eger l’´ecriture on traite seulement le cas d = 1.
Soit f ∈ C
c
(R) et pour tout σ > 0 soit
g
σ
(x) =
1
σ


exp(−
x
2

2
).
Alors on a d´ej`a observ´e `a la fin du Chapitre 8 que g
σ
∗ f converge simplement vers f quand
σ → 0. En fait on v´erifie ais´ement que cette convergence est uniforme sur R.
Par ailleurs, si ν est une mesure de probabilit´e sur R, on a vu dans la preuve du th´eor`eme
d’injectivit´e de la transform´ee de Fourier (fin du Chapitre 8) que

g
σ
∗ f dν =

f(x) g
σ
∗ ν(x)dx =

f(x)



2π)
−1

e
iξx
g
1/σ
(ξ)´ ν(−ξ)dξ

dx.
Puisque ´ µ
n
(ξ) → ´ µ(ξ) pour tout ξ ∈ R, le th´eor`eme de convergence domin´ee entraˆıne que

e
iξx
g
1/σ
(ξ)´ µ
n
(−ξ)dξ −→
n→∞

e
iξx
g
1/σ
(ξ)´ µ(−ξ)dξ,
et puisque ces quantit´es sont born´ees en module par 1, on peut utiliser la formule pr´ec´edente
et `a nouveau le th´eor`eme de convergence domin´ee pour obtenir que

g
σ
∗ f dµ
n
−→
n→∞

g
σ
∗ f dµ.
Finalement, soit H le sous-espace de C
b
(R
d
) d´efini par
H = ¦ϕ = g
σ
∗ f : σ > 0 et f ∈ C
c
(R
d
)¦.
Alors l’adh´erence de H dans C
b
(R
d
) contient C
c
(R
d
) (on a remarqu´e que si f ∈ C
c
(R
d
),
|g
σ
∗ f − f| tend vers 0 quand σ → 0) et on vient de montrer que

ϕdµ
n
−→

ϕdµ
pour toute fonction ϕ ∈ H. D’apr`es la proposition pr´ec´edente, cela suffit pour donner la
convergence ´etroite de la suite (µ
n
) vers µ.
136
10.4 Deux applications
10.4.1 La convergence des mesures empiriques
Soit (X
n
)
n≥1
une suite de variables al´eatoires `a valeurs dans R
d
, ind´ependantes et de mˆeme
loi. Ces variables peuvent repr´esenter les r´esultats successifs d’une mˆeme exp´erience al´eatoire
r´ep´et´ee de mani`ere ind´ependante. Un probl`eme statistique fondamental est d’estimer la loi
de X
1
`a partir de la donn´ee de X
1
(ω), X
2
(ω), . . . , X
n
(ω) pour une seule valeur de ω.
Exemple : th´eorie des sondages. Imaginons qu’on a une population de N individus
num´erot´es 1, 2, . . . , N . L’entier N est suppos´e “tr`es grand” (on peut penser `a la population
fran¸ caise). A l’individu i est attach´e un param`etre a(i) ∈ R
d
(par exemple, l’ˆage de l’individu,
son intention de vote, son revenu mensuel, etc.). Si A ∈ B(R
d
), on s’int´eresse alors `a la
quantit´e
µ(A) =
1
N
N
¸
i=1
1
A
(a(i))
qui est la proportion d’individus dans la population dont le param`etre est dans A (par
exemple la proportion d’individus de plus de cinquante ans qui ont l’intention de voter
Chirac et ont un revenu mensuel sup´erieur `a 2000 Euros).
Comme N est tr`es grand, il est hors de question de calculer exactement µ(A). Le principe
d’un sondage est alors de choisir un ´echantillon de la population, c’est-`a-dire de prendre au
hasard n individus (n grand mais petit devant N) en esp´erant que la proportion d’individus
choisis dans cet ´echantillon pour lesquels le param`etre est dans A sera proche de la mˆeme pro-
portion calcul´ee pour la population totale. Pour rendre ceci pr´ecis en termes math´ematiques,
on se donne une famille Y
1
, . . . , Y
n
de variables al´eatoires ind´ependantes de loi uniforme
sur ¦1, . . . , N¦ (ce sont les individus de notre ´echantillon). La valeur du param`etre pour
l’individu Y
j
est X
j
= a(Y
j
). Les v.a. X
1
, . . . , X
n
sont ´evidemment ind´ependantes et de
mˆeme loi. De plus, cette loi est
P
X
1
(A) = P(a(Y
1
) ∈ A) =
1
N
N
¸
i=1
1
A
(a(i)) = µ(A).
Par ailleurs, la proportion calcul´ee sur les individus de l’´echantillon est
1
n
n
¸
j=1
1
A
(X
j
(ω)) =
1
n
n
¸
j=1
δ
X
j
(ω)
(A)
Finalement, la question de savoir si la proportion calcul´ee sur l’´echantillon est proche de
la proportion r´eelle µ(A) se ram`ene `a v´erifier que la mesure, dite “mesure empirique”,
1
n
n
¸
j=1
δ
X
j
(ω)
est proche de P
X
1
quand n → ∞. Le th´eor`eme suivant apporte une r´eponse `a cette question.
137
Th´eor`eme 10.4.1 Soit (X
n
)
n≥1
une suite de variables al´eatoires ind´ependantes et de mˆeme
loi, `a valeurs dans R
d
. Pour tout ω ∈ Ω et tout n ≥ 1, soit µ
n,ω
la mesure de probabilit´e sur
R
d
d´efinie par
µ
n,ω
=
1
n
n
¸
i=1
δ
X
i
(ω)
.
Alors, p.s.,
µ
n,ω
(e)
−→
n→∞
P
X
1
.
Remarque. D’un point de vue pratique, le th´eor`eme pr´ec´edent n’a aucun int´erˆet si on n’a
pas d’estimation de la vitesse de convergence. En revenant ` a l’exemple donn´e avant l’´enonc´e
du th´eor`eme, il faut que la mesure empirique µ
n,ω
soit “suffisamment proche” de P
X
1
pour
des valeurs de n grandes mais petites devant la taille N de la population (en pratique, N est
de l’ordre de 10
7
et n seulement de l’ordre de 10
3
).
Preuve. Soit H un sous-ensemble d´enombrable dense de C
c
(R
d
). Si ϕ ∈ H, la loi forte des
grands nombres appliqu´ee aux v.a. ϕ(X
i
) assure que
1
n
n
¸
i=1
ϕ(X
i
)
p.s.
−→
n→∞
E[ϕ(X
1
)].
On peut r´e´ecrire cela sous la forme

ϕdµ
n,ω
p.s.
−→
n→∞

ϕdP
X
1
.
Puisque H est d´enombrable, quitte `a ´ecarter une r´eunion d´enombrable d’ensembles de prob-
abilit´e nulle, on obtient
p.s. ∀ϕ ∈ H,

ϕdµ
n,ω
−→
n→∞

ϕdP
X
1
.
D’apr`es une proposition du paragraphe pr´ec´edent, cela suffit pour dire que p.s. µ
n,ω
converge
´etroitement vers P
X
1
.
10.4.2 Le th´eor`eme central limite
Soit (X
n
)
n≥1
une suite de variables al´eatoires r´eelles ind´ependantes et de mˆeme loi, dans L
1
.
La loi forte des grands nombres montre que
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
].
On cherche alors `a savoir `a quelle vitesse cette convergence a lieu, c’est-`a-dire quel est l’ordre
de grandeur de la diff´erence
1
n
(X
1
+ + X
n
) −E[X
1
]
138
quand n est grand.
Sous l’hypoth`ese suppl´ementaire que les variables X
i
sont dans L
2
, on devine la r´eponse
en calculant, comme dans la preuve de la loi faible des grands nombres,
E[(X
1
+ + X
n
−nE[X
1
])
2
] = var(X
1
+ + X
n
) = nvar(X
1
).
Ce calcul indique que la valeur moyenne de (X
1
+ + X
n
− nE[X
1
])
2
croˆıt lin´eairement
avec n, donc sugg`ere fortement que l’ordre de grandeur de X
1
+ +X
n
−nE[X
1
] est

n,
ou encore que l’ordre de grandeur de
1
n
(X
1
+ + X
n
) − E[X
1
] est 1/

n. Le th´eor`eme
central limite rend ceci plus pr´ecis.
Th´eor`eme 10.4.2 (Th´eor`eme central limite) Soit (X
n
)
n≥1
une suite de variables al´eatoires
r´eelles ind´ependantes et de mˆeme loi, dans L
2
. Soit σ
2
= var(X
1
). Alors,
1

n
(X
1
+ + X
n
−nE[X
1
])
(loi)
−→
n→∞
^(0, σ
2
)
o` u ^(0, σ
2
) d´esigne la loi gaussienne centr´ee de variance σ
2
. De mani`ere ´equivalente, pour
tous a, b ∈
¯
R avec a < b,
lim
n→∞
P(X
1
+ + X
n
∈ [nE[X
1
] + a

n, nE[X
1
] + b

n]) =
1
σ

b
a
exp(−
x
2

2
) dx.
Preuve. La deuxi`eme partie de l’´enonc´e est une cons´equence de la premi`ere, compte-tenu
de la formulation de la convergence en loi en termes des fonctions de r´epartition (noter ici
que la fonction de r´epartition de la variable limite est continue). Pour montrer la premi`ere
partie de l’´enonc´e, on remarque d’abord qu’on peut supposer E[X
1
] = 0, quitte `a remplacer
X
n
par X
n
−E[X
n
]. Posons alors
Z
n
=
1

n
(X
1
+ + X
n
).
La fonction caract´eristique de Z
n
est
Φ
Zn
(ξ) = E

exp

iξ(
X
1
+ + X
n

n
)

= E

exp

i
ξ

n
X
1

n
= Φ
X
1
(
ξ

n
)
n
,
o` u, dans la seconde ´egalit´e, on a utilis´e le fait que les v.a. X
i
sont ind´ependantes et de mˆeme
loi. D’apr`es un r´esultat du Chapitre 8, on a
Φ
X
1
(ξ) = 1 +iξE[X
1
] −
1
2
ξ
2
E[X
2
1
] + o(ξ
2
) = 1 −
σ
2
ξ
2
2
+ o(ξ
2
)
quand ξ → 0. Pour ξ ∈ R fix´e, on a donc aussi
Φ
X
1
(
ξ

n
) = 1 −
σ
2
ξ
2
2n
+ o(
1
n
)
139
quand n → ∞. En combinant avec ce qui pr´ec`ede, on a pour tout ξ ∈ R,
lim
n→∞
Φ
Zn
(ξ) = lim
n→∞
(1 −
σ
2
ξ
2
2n
+ o(
1
n
))
n
= exp(−
σ
2
ξ
2
2
) = Φ
U
(ξ).
si U suit la loi ^(0, σ
2
). Le th´eor`eme de L´evy permet maintenant de conclure que Z
n
converge en loi vers U, ce qui est le r´esultat du th´eor`eme.
Cas particulier : Th´eor`eme de de Moivre. On suppose que les X
n
sont des variables
de Bernoulli de param`etre
1
2
(i.e. P(X
n
= 1) = P(X
n
= 0) =
1
2
) ind´ependantes. Alors
S
n
= X
1
+ + X
n
suit une loi binˆomiale B(n,
1
2
) :
P(S
n
= k) = C
k
n
2
−n
.
Comme σ
2
= 1/4 dans ce cas particulier, le th´eor`eme entraˆıne que, pour tous a < b,
2
−n
¸
n
2
+a

n≤k≤
n
2
+b

n
C
k
n
−→
n→∞

2
π

b
a
e
−2x
2
dx.
Cette derni`ere convergence peut ˆetre v´erifi´ee directement (avec certains efforts) `a l’aide de
la formule de Stirling. On montre en fait un r´esultat plus pr´ecis de la forme

n2
−n
C
k
n
=

2
π
exp(−
2
n
(k −
n
2
)
2
) + o(1)
avec un reste o(1) uniforme quand k varie dans ¦0, 1, . . . , n¦.
10.4.3 Extension au cas vectoriel
Supposons maintenant que (X
n
)
n≥1
est une suite de variables al´eatoires ind´ependantes de
mˆeme loi `a valeurs dans R
d
et int´egrables. Alors, on peut appliquer la loi forte des grands
nombres coordonn´ee par coordonn´ee pour obtenir
1
n
(X
1
+ + X
n
)
p.s.
−→
n→∞
E[X
1
],
o` u la limite E[X
1
] s’interpr`ete ´evidemment comme le vecteur (E[X
1
1
], . . . , E[X
d
1
]) si on a
´ecrit X = (X
1
1
, . . . , X
d
1
). Supposons de plus que les v.a. X
n
sont de carr´e int´egrable. Il
n’est pas aussi facile d’obtenir une version multidimensionnelle du th´eor`eme central limite :
contrairement `a ce qui se passe pour la convergence presque sˆ ure, il ne suffit pas pour
obtenir la convergence en loi d’une suite de v.a. `a valeurs dans R
d
de savoir que chaque
suite coordonn´ee converge en loi (on peut aussi remarquer que la loi de la limite n’est pas
d´etermin´ee par la connaissance de chacune de ses marginales).
Pour ´etendre le th´eor`eme central limite au cas de v.a. `a valeurs dans R
d
, nous devons
commencer par g´en´eraliser la notion de loi gaussienne.
140
D´efinition 10.4.1 Soit C une matrice d d `a coefficients r´eels, sym´etrique positive. Une
v.a. X `a valeurs dans R
d
, de carr´e int´egrable, est appel´ee vecteur gaussien centr´e de covari-
ance C si
∀ξ ∈ R
d
, Φ
X
(ξ) = E[e
iξ·X
] = exp(−
1
2
t
ξCξ).
On dit aussi que X suit la loi ^(0, C).
Remarque. Soit a ∈ R
d
. On dit plus g´en´eralement que X suit la loi ^(a, C) si X −a suit
la loi ^(0, C).
On a vu dans le Chapitre 8 que si X = (X
1
, . . . , X
d
) est une v.a. `a valeurs dans R
d
et
de carr´e int´egrable, on a le d´eveloppement limit´e
Φ
X
(ξ) = 1 +i
d
¸
j=1
ξ
j
E[X
j
] −
1
2
d
¸
j=1
d
¸
k=1
ξ
j
ξ
k
E[X
j
X
k
] + o([ξ
2
[)
quand ξ → 0. On en d´eduit imm´ediatement que si X suit la loi ^(0, C) on a E[X] = 0 et
K
X
= C.
Proposition 10.4.3 Soit C une matrice sym´etrique positive. Il existe un vecteur gaussien
centr´e de covariance C.
Preuve. Rappelons d’abord (voir la fin du Chapitre 9) qu’une combinaison lin´eaire de v.a.
gaussiennes ind´ependantes est encore gaussienne.
On pose A =

C de sorte que A est une matrice sym´etrique positive et A
2
= C. Soient
ensuite Y
1
, . . . , Y
d
d v.a. r´eelles ind´ependantes de loi ^(0, 1). Soit Y la v.a. `a valeurs dans
R
d
dont les coordonn´ees sont Y
1
, . . . , Y
d
. Alors, X = AY suit la loi ^(0, C). Pour le voir,
consid´erons ξ ∈ R
d
et observons que ξ X est une combinaison lin´eaire des v.a. Y
1
, . . . , Y
d
,
et est donc une v.a. gaussienne centr´ee. Pr´ecis´ement, ξ X suit la loi ^(0, σ
2
) avec
σ
2
= E[(ξ X)
2
] = E[
t
ξAY
t
Y Aξ] =
t
ξAE[Y
t
Y ] Aξ =
t
ξA
2
ξ =
t
ξCξ,
en calculant de mani`ere matricielle, et en utilisant le fait que E[Y
t
Y ] = Id puisque les
coordonn´ees de Y sont des v.a. de loi ^(0, 1) ind´ependantes. Finalement, grˆace `a la formule
pour la fonction caract´eristique d’une v.a. de loi ^(0, σ
2
), on a pour tout u > 0,
E[e
iuξ·X
] = exp(−
σ
2
u
2
2
) = exp(−
u
2
2
t
ξCξ)
et en prenant u = 1 on a le r´esultat voulu.
Remarques. (i) Avec les notations de la preuve ci-dessus, Y suit la loi ^(0, Id).
(ii) Une v.a. X `a valeurs dans R
d
est un vecteur gaussien centr´e si et seulement si toute
combinaison lin´eaire de ses composantes est gaussienne centr´ee : en effet on a alors E[e
iξ·X
] =
exp(−
1
2
E[(ξ X)
2
]) = exp(−
1
2
t
ξK
X
ξ).
Exercice. Soit X un vecteur gaussien centr´e. Montrer que X a une densit´e si et seulement
si K
X
est non d´eg´en´er´ee, et calculer alors la densit´e de X.
141
Th´eor`eme 10.4.4 (Th´eor`eme central limite vectoriel) Soit (X
n
)
n≥1
est une suite de
variables al´eatoires ind´ependantes de mˆeme loi `a valeurs dans R
d
, de carr´e int´egrable. Alors,
1

n
(X
1
+ + X
n
−nE[X
1
])
(loi)
−→
n→∞
^(0, K
X
1
)
Preuve. C’est la mˆeme que dans le cas r´eel. On peut supposer E[X
1
] = 0. Ensuite, pour
tout ξ ∈ R
d
,
E

exp

iξ (
X
1
+ + X
n

n
)

= E

exp

i
ξ

n
X
1

n
= Φ
X
1
(
ξ

n
)
n
.
D’autre part, on sait que
Φ
X
1
(
ξ

n
) = 1 −
1
2n
t
ξK
X
1
ξ + o(
1
n
).
On conclut que
lim
n→∞
E

exp

iξ (
X
1
+ + X
n

n
)

= exp(−
1
2
t
ξK
X
1
ξ),
d’o` u le r´esultat grˆace au th´eor`eme de L´evy.
142
Chapitre 11
Conditionnement
Ce chapitre est consacr´e `a la construction et aux propri´et´es de l’esp´erance conditionnelle.
Intuitivement, l’esp´erance conditionnelle d’une variable al´eatoire r´eelle donn´ee par rapport
`a une sous-tribu est la variable al´eatoire mesurable pour cette sous-tribu qui est la “plus
proche” de la variable al´eatoire donn´ee. Pour de nombreux probl`emes concrets (pr´ediction,
observation incompl`ete, etc.) il est important de pouvoir estimer une variable al´eatoire sur
laquelle on n’a qu’une information partielle, et l’on comprend d`es lors l’importance de la
notion d’esp´erance conditionnelle. La d´efinition axiomatique de cette notion (dans laquelle
la “propri´et´e caract´eristique” joue un rˆole essentiel) est motiv´ee par le cas discret trait´e dans
le premier paragraphe. Le calcul explicite des esp´erances conditionnelles, qui est en g´en´eral
un probl`eme difficile, est illustr´e sur plusieurs cas, dont le cas gaussien particuli`erement
important pour les applications. La notion de loi conditionnelle, utile dans ce cours d’un
point de vue conceptuel surtout, est introduite `a la fin du chapitre.
11.1 Conditionnement discret
Comme dans les chapitres pr´ec´edents on se place sur un espace de probabilit´e (Ω, /, P). Soit
B ∈ / un ´ev´enement tel que P(B) > 0. On peut d´efinir une nouvelle probabilit´e sur (Ω, /),
appel´ee probabilit´e conditionnelle sachant B, en posant pour tout A ∈ /,
P(A[ B) =
P(A∩ B)
P(B)
.
De mˆeme, pour toute v.a. X ≥ 0, ou pour X ∈ L
1
(Ω, /, P), l’esp´erance conditionnelle de
X sachant B est d´efinie par
E[X[ B] =
E[X 1
B
]
P(B)
.
Cette quantit´e est aussi l’esp´erance de X sous la probabilit´e P( [ B), et elle s’interpr`ete
comme la valeur moyenne de X quand B est r´ealis´e.
Nous cherchons ensuite `a d´efinir l’esp´erance conditionnelle sachant une variable al´eatoire
(et non plus sachant un ´ev´enement). Consid´erons une v.a. Y `a valeurs dans un espace E
143
d´enombrable. Soit E

= ¦y ∈ E : P(Y = y) > 0¦. Pour tout y ∈ E

, et pour toute v.a.
X ∈ L
1
(Ω, /, P), on peut d´efinir, comme cas particulier de ce qui pr´ec`ede,
E[X[ Y = y] =
E[X 1
{Y =y}
]
P(Y = y)
.
D´efinition 11.1.1 Soit X ∈ L
1
(Ω, /, P). L’esp´erance conditionnelle de X sachant Y est
la variable al´eatoire r´eelle d´efinie par
E[X[ Y ] = ϕ(Y ),
o` u la fonction ϕ : E −→R est donn´ee par
ϕ(y) =

E[X[ Y = y] si y ∈ E

,
0 si y ∈ E`E

.
Remarque. Le choix de la valeur de ϕ sur E`E

est arbitraire : de toute fa¸ con ce choix
n’influence la d´efinition de E[X[ Y ] que sur un ensemble de probabilit´e nulle, puisque
P(Y ∈ E`E

) =
¸
y∈E\E

P(Y = y) = 0.
On pourrait changer la d´efinition de ϕ sur E`E

et cela donnerait la mˆeme v.a. E[X[ Y ] `a
un ensemble de mesure nulle pr`es. Dans les situations plus g´en´erales que nous rencontrerons
plus tard, les esp´erances conditionnelles (sachant une v.a. ou une tribu) seront toujours
d´efinies `a un ensemble de probabilit´e nulle pr`es.
En comparant avec le conditionnement par rapport `a un ´ev´enement, on observe que
l’esp´erance conditionnelle E[X[ Y ] est maintenant une variable al´eatoire : c’est la v.a. qui
donne la valeur moyenne de X quand on connait Y : p.s.,
E[X[ Y ](ω) = E[X[ Y = y] , si Y (ω) = y.
Remarquons aussi que E[X[ Y ] est une fonction de Y donc une v.a. σ(Y )-mesurable. Dans
un sens qui sera pr´ecis´e plus loin, c’est la meilleure approximation de X par une fonction de
Y .
Exemple. Lancer d’un d´e. On prend Ω = ¦1, 2, . . . , 6¦ et P(¦ω¦) =
1
6
pour tout ω ∈ Ω.
Soient
Y (ω) =

1 si ω est impair,
0 si ω est pair,
et X(ω) = ω. Alors,
E[X[ Y ](ω) =

3 si ω ∈ ¦1, 3, 5¦,
4 si ω ∈ ¦2, 4, 6¦.
Proposition 11.1.1 On a E[[E[X[ Y ][] ≤ E[[X[]. En particulier, E[X[ Y ] ∈ L
1
(Ω, /, P).
De plus, pour toute v.a. Z σ(Y )-mesurable born´ee,
E[ZX] = E[Z E[X[ Y ]].
144
Preuve. D’apr`es la d´efinition de l’esp´erance conditionnelle E[X[ Y ], on a
E[[E[X[ Y ][] =
¸
y∈E

P(Y = y)
[E[X 1
{Y =y}
][
P(Y = y)

¸
y∈E
E[[X[ 1
{Y =y}
] = E[[X[].
Pour la derni`ere assertion, on utilise le fait qu’on peut ´ecrire Z = ψ(Y ), avec une fonction
ψ born´ee. Alors,
E[ψ(Y ) E[X[ Y ]] =
¸
y∈E
ψ(y) E[X 1
{Y =y}
] =
¸
y∈E
E[ψ(Y )X 1
{Y =y}
] = E[ψ(Y )X].

Cons´equence. Si Y

est une autre v.a. discr`ete telle que σ(Y ) = σ(Y

), on a
E[X[ Y ] = E[X[ Y

] p.s.
En effet, en appliquant la proposition avec Z = 1
{E[X|Y ]>E[X|Y

]}
, qui est bien mesurable pour
σ(Y ) = σ(Y

) puisque E[X[ Y ] et E[X[ Y

] le sont, on trouve
E[1
{E[X|Y ]>E[X|Y

]}
(E[X[ Y ] −E[X[ Y

])] = 0
d’o` u E[X[ Y ] ≤ E[X[ Y

] p.s., et on obtient de mˆeme l’autre in´egalit´e. Cela montre aussi que
la derni`ere propri´et´e de la proposition caract´erise E[X[ Y ] parmi les v.a. σ(Y )-mesurables
et int´egrables.
L’observation pr´ec´edente conduit `a dire que la “bonne” notion de conditionnement est
la notion de conditionnement par rapport `a une tribu. C’est cette notion que nous allons
d´evelopper dans les paragraphes suivants en nous basant sur la propri´et´e de la proposition
ci-dessus.
11.2 La d´efinition de l’esp´erance conditionnelle
11.2.1 Cas des variables int´egrables
Th´eor`eme et d´efinition 11.2.1 Soit B une sous-tribu de /, et soit X ∈ L
1
(Ω, /, P). Il
existe alors une unique variable al´eatoire dans L
1
(Ω, B, P), not´ee E[X[ B], telle que
∀B ∈ B , E[X 1
B
] = E[E[X[ B] 1
B
]. (11.1)
On a plus g´en´eralement, pour toute variable al´eatoire Z B-mesurable born´ee
E[X Z] = E[E[X[ B] Z]. (11.2)
Si X ≥ 0 on a aussi E[X[ B] ≥ 0.
Le point crucial est le fait que E[X[ B] est mesurable pour la tribu B. L’une ou l’autre
des propri´et´es (11.1) et (11.2) caract´erise l’esp´erance conditionnelle E[X [ B] dans la classe
145
des v.a. de L
1
(Ω, B, P). Dans la suite nous ferons r´ef´erence `a l’une ou l’autre comme `a la
propri´et´e caract´eristique de l’esp´erance conditionnelle.
Dans le cas particulier o` u la tribu B est engendr´ee par une variable al´eatoire Y , on ´ecrira
indiff´eremment
E[X[ B] = E[X[ σ(Y )] = E[X[ Y ].
Cette notation est coh´erente avec le cas discret trait´e dans la partie pr´ec´edente : comparer
(11.2) et la proposition ci-dessus.
Preuve. Commen¸ cons par l’unicit´e. Soient X

et X
′′
deux v.a. dans L
1
(Ω, B, P) telles que
∀B ∈ B , E[X

1
B
] = E[X 1
B
] = E[X
′′
1
B
].
En prenant B = ¦X

> X
′′
¦ (qui est bien B-mesurable puisque X

et X
′′
le sont), on trouve
E[(X

−X
′′
)1
{X

>X
′′
}
] = 0
d’o` u X

≤ X
′′
p.s., et de mˆeme X

≥ X
′′
p.s.
Pour l’existence, supposons d’abord X ≥ 0, et soit Q la mesure finie sur (Ω, B) d´efinie
par
∀B ∈ B , Q(B) = E[X 1
B
].
Alors, si on voit aussi P comme une mesure de probabilit´e sur (Ω, B), il est imm´ediat qu’on
a Q ≪ P. Le th´eor`eme de Radon-Nikodym, appliqu´e sur l’espace mesurable (Ω, B), assure
donc l’existence d’une v.a.
¯
X B-mesurable positive telle que
∀B ∈ B , E[X 1
B
] = Q(B) = E[
¯
X 1
B
].
En prenant B = Ω, on voit que E[
¯
X] = E[X] < ∞, donc X ∈ L
1
(Ω, B, P). Finalement,
E[X[ B] =
¯
X v´erifie la propri´et´e de l’´enonc´e. Lorsque X est de signe quelconque, il suffit de
prendre
E[X[ B] = E[X
+
[ B] −E[X

[ B].
Enfin, le passage de (11.1) `a (11.2) se fait en utilisant l’approximation usuelle des fonctions
mesurables par des fonctions ´etag´ees.
Exemple. Prenons Ω =]0, 1], / = B(]0, 1]) et P(dω) = dω. Soit B la tribu engendr´ee par
les intervalles ]
i−1
n
,
i
n
], i ∈ ¦1, . . . , n¦, o` u n ≥ 1 est fix´e. Un ´el´ement f de L
1
(Ω, /, P) est une
fonction mesurable f :]0, 1] −→R telle que

1
0
[f(ω)[dω < ∞. Alors on v´erifie tr`es facilement
que
E[f [ B] =
n
¸
i=1
f
i
1
]
i−1
n
,
i
n
]
,
o` u f
i
= n

i/n
(i−1)/n
f(ω)dω est la moyenne de f sur ]
i−1
n
,
i
n
].
Propri´et´es de l’esp´erance conditionnelle.
(a) Si X est B-mesurable, E[X[ B] = X.
(b) L’application X −→ E[X[ B] est lin´eaire.
146
(c) E[E[X[ B]] = E[X].
(d) [E[X[ B][ ≤ E[[X[ [ B] p.s., et en cons´equence E[[E[X[ B][] ≤ E[[X[].
(e) X ≥ X

⇒ E[X[ B] ≥ E[X

[ B] p.s.
Preuve. (a) d´ecoule imm´ediatement de l’unicit´e dans le th´eor`eme ci-dessus. Il en va de
mˆeme pour (b) en observant que, si X, X

∈ L
1
(Ω, /, P) et α, α

∈ R, la v.a.
αE[X[ B] + α

E[X

[ B]
satisfait la propri´et´e caract´eristique (11.1) pour αX + α

X

. La propri´et´e (c) est le cas
particulier B = Ω dans (11.1). Pour (d), rappelons que si X ≥ 0 on a E[X [ B] ≥ 0. Cela
entraˆıne
[E[X[ B][ = [E[X
+
[ B] −E[X

[ B][ ≤ E[X
+
[ B]] + E[X

[ B] = E[[X[ [ B].
Enfin, (e) est imm´ediat par lin´earit´e.
11.2.2 Cas des variables positives
Th´eor`eme 11.2.2 Soit X une variable al´eatoire `a valeurs dans [0, ∞]. La formule
E[X[ B] = lim
n→∞
↑ E[X ∧ n[ B] p.s.
d´efinit une variable al´eatoire `a valeurs dans [0, ∞], qui est caract´eris´ee (`a un ensemble de
probabilit´e nulle pr`es) par la propri´et´e suivante : pour toute variable al´eatoire Z B-mesurable
positive,
E[XZ] = E[E[X[ B]Z]. (11.3)
Dans le cas o` u X est aussi int´egrable, en comparant la derni`ere propri´et´e du th´eor`eme
avec (11.1), on voit imm´ediatement que l’on retrouve la mˆeme d´efinition de E[X [ B] que
dans le paragraphe ci-dessus. De mˆeme que dans le cas des variables int´egrables, la propri´et´e
(11.3) sera appel´ee propri´et´e caract´eristique de l’esp´erance conditionnelle.
Preuve. La croissance de la limite dans la d´efinition de E[X [ B] d´ecoule de la propri´et´e
(e) ci-dessus. Ensuite, si Z est B-mesurable positive, le th´eor`eme de convergence monotone
entraˆıne que
E[E[X[ B]Z] = lim
n→∞
E[E[X ∧ n[ B](Z ∧ n)] = lim
n→∞
E[(X ∧ n)(Z ∧ n)] = E[XZ].
Il reste `a ´etablir l’unicit´e. Soient donc X

et X
′′
deux variables al´eatoires B-mesurables `a
valeurs dans [0, ∞] telles que
E[X

Z] = E[X
′′
Z]
pour toute v.a. Z B-mesurable positive. Prenons
Z = 1
{X

≤a<b≤X
′′
}
147
o` u on a fix´e a, b ∈ Q
+
, avec a < b. Il vient
a P(X

≤ a < b ≤ X
′′
) ≥ b P(X

≤ a < b ≤ X
′′
)
ce qui n’est possible que si P(X

≤ a < b ≤ X
′′
) = 0. On a donc
P

¸
a,b∈Q
+
a<b
¦X

≤ a < b ≤ X
′′
¦

= 0
ce qui entraˆıne X

≥ X
′′
p.s. Par un raisonnement sym´etrique on a aussi X
′′
≥ X

p.s.
Remarque. On peut avoir X < ∞ p.s. et simultan´ement P(E[X [ B] = ∞) > 0. Par
exemple, si B = ¦∅, Ω¦, on v´erifie ais´ement que E[X [ B] = E[X], qui peut bien sˆ ur ˆetre
infini pour des v.a. X finies p.s. Pour donner un exemple moins trivial, reprenons le cas o` u
Ω =]0, 1], B = σ(]
i−1
n
,
i
n
]; i ∈ ¦1, . . . , n¦) et P(dω) = dω. Alors, si X(ω) =
1
ω
, on a
E[X[ B] = ∞1
]0,
1
n
]
+
n
¸
i=2
n log(
i
i −1
) 1
]
i−1
n
,
i
n
]
.
Propri´et´es.
(a) Si X et X

sont des v.a. positives et a, b ≥ 0,
E[aX + bX

[ B] = a E[X[ B] + b E[X

[ B].
(b) Si X est B-mesurable, E[X[ B] = X.
(c) Si (X
n
) est une suite croissante de v.a. positives, et X = lim ↑ X
n
,
E[X[ B] = lim
n→∞
↑ E[X
n
[ B] , p.s.
(d) Si (X
n
) est une suite de v.a. positives,
E[liminf X
n
[ B] ≤ liminf E[X
n
[ B] , p.s.
(e) Soit (X
n
) une suite de v.a. int´egrables convergeant p.s. vers X. Supposons qu’il existe
une v.a. positive Z telle que [X
n
[ ≤ Z p.s. pour tout n, et E[Z] < ∞. Alors,
E[X[ B] = lim
n→∞
E[X
n
[ B] , p.s. et dans L
1
.
(f) Si f est convexe positive, et si X ∈ L
1
,
E[f(X)[ B] ≥ f(E[X[ B]).
148
Remarque. La mention “p.s.” devrait figurer dans chaque ´enonc´e impliquant une esp´erance
conditionnelle, puisque celle-ci n’est d´efinie qu’`a un ensemble de probabilit´e nulle pr`es. Le
plus souvent cependant, cette mention est sous-entendue, comme dans (a),(b) et (f) ci-dessus.
Preuve. (a) et (b) sont faciles en utilisant la caract´erisation de E[X [ B] donn´ee dans le
th´eor`eme.
(c) Il d´ecoule de (a) que si X
1
≥ X
2
≥ 0 on a E[X
1
[ B] ≥ E[X
2
[ B]. Sous les hypoth`eses
de (c), on peut donc poser X

= lim ↑ E[X
n
[ B], qui est une v.a. B-mesurable `a valeurs dans
[0, ∞]. On a alors, pour toute v.a. Z B-mesurable positive,
E[ZX

] = lim ↑ E[Z E[X
n
[ B]] = lim ↑ E[Z X
n
] = E[ZX]
ce qui d’apr`es la caract´erisation du th´eor`eme entraˆıne X

= E[X[ B].
(d) On ´ecrit, en utilisant (c),
E[liminf X
n
[ B] = E

lim
k↑∞

inf
n≥k
X
n

B

= lim
k↑∞
↑ E

inf
n≥k
X
n

B

≤ lim
k↑∞

inf
n≥k
E[X
n
[ B]

= liminf E[X
n
[ B].
(e) Il suffit d’appliquer (d) deux fois :
E[liminf(Z −X
n
)[ B] ≤ E[Z[ B] −limsup E[X
n
[ B]
E[liminf(Z + X
n
)[ B] ≤ E[Z[ B] + liminf E[X
n
[ B]
ce qui conduit `a
E[X[ B] ≤ liminf E[X
n
[ B] ≤ limsup E[X
n
[ B] ≤ E[X[ B],
d’o` u la convergence p.s. recherch´ee. La convergence L
1
est maintenant une cons´equence
du th´eor`eme de convergence domin´ee, puisque [E[X
n
[ B][ ≤ E[[X
n
[ [ B] ≤ E[Z [ B] et
E[E[Z[ B]] = E[Z] < ∞.
(f) Notons
E
f
= ¦(a, b) ∈ R
2
: ∀x ∈ R, f(x) ≥ ax + b¦.
Alors, il est facile de v´erifier que
∀x ∈ R
2
, f(x) = sup
(a,b)∈E
f
(ax + b) = sup
(a,b)∈E
f
∩Q
2
(ax + b).
En utilisant le fait que Q
2
est d´enombrable, on en d´eduit que p.s.
E[f(X)[ B] = E

sup
(a,b)∈E
f
∩Q
2
(aX + b)

B

≥ sup
(a,b)∈E
f
∩Q
2
E[aX + b[ B] = f(E[X[ B]).

Remarque. Par analogie avec la formule P(A) = E[1
A
], on ´ecrira souvent pour A ∈ /,
P(A[ B) := E[1
A
[ B].
Prendre garde cependant que P(A[ B) ainsi d´efinie est une variable al´eatoire.
149
11.2.3 Le cas particulier des variables de carr´e int´egrable
Dans le cas o` u X est de carr´e int´egrable, il existe une autre interpr´etation remarquable de
E[X[ B]. Avant d’´enoncer le r´esultat, observons que L
2
(Ω, B, P) s’identifie `a un sous-espace
ferm´e de L
2
(Ω, /, P), `a savoir l’espace des ´el´ements de L
2
(Ω, /, P) dont un repr´esentant au
moins est B-mesurable.
Th´eor`eme 11.2.3 Si X ∈ L
2
(Ω, /, P), alors E[X [ B] est la projection orthogonale de X
sur L
2
(Ω, B, P).
Preuve. La propri´et´e (f) ci-dessus montre que E[X[ B]
2
≤ E[X
2
[ B] p.s. Cela entraˆıne que
E[E[X[ B]
2
] ≤ E[X
2
] < ∞, et donc la v.a. E[X[ B] est dans L
2
(Ω, B, P).
Par ailleurs, pour toute v.a. Z B-mesurable born´ee,
E[Z(X −E[X[ B])] = E[ZX] −E[ZE[X[ B]] = 0,
toujours d’apr`es la propri´et´e caract´eristique de E[X[ B]. Donc X −E[X[ B] est orthogonal
`a toutes les v.a. born´ees B-mesurables, et par un argument de densit´e, X − E[X [ B] est
orthogonal `a L
2
(Ω, B, P). Le r´esultat annonc´e en d´ecoule.
On peut utiliser le th´eor`eme pr´ec´edent pour donner une autre construction de l’esp´erance
conditionnelle, ´evitant le recours au th´eor`eme de Radon-Nikodym, en commen¸ cant par le
cas des v.a. de carr´e int´egrable. Observons aussi que ce th´eor`eme donne une interpr´etation
int´eressante de l’esp´erance conditionnelle : si X est de carr´e int´egrable, E[X [ B] est la
meilleure (au sens de la norme L
2
) approximation de X par une v.a. B-mesurable.
11.3 Propri´et´es sp´ecifiques de l’esp´erance condition-
nelle
Les propri´et´es ´etablies ci-dessus sont analogues aux propri´et´es de l’esp´erance (ou de l’int´egrale
de fonctions mesurables). Nous ´etablissons dans ce paragraphe des propri´et´es plus parti-
culi`eres `a l’esp´erance conditionnelle.
Proposition 11.3.1 Soit X une variable al´eatoire r´eelle, et soit Y une variable al´eatoire
B-mesurable. Alors,
E[Y X[ B] = Y E[X[ B]
d`es que les esp´erances conditionnelles sont bien d´efinies, c’est-`a-dire si X et Y sont positives,
ou si X et Y X ∈ L
1
.
Preuve. Supposons X ≥ 0 et Y ≥ 0. Alors, pour toute v.a. Z B-mesurable positive,
E[Z(Y E[X[ B])] = E[(ZY )E[X[ B]] = E[ZY X].
Puisque Y E[X[ B] est une v.a. B-mesurable positive, cette ´egalit´e suffit pour conclure que
Y E[X[ B] = E[Y X[ B].
Dans le cas o` u X et Y X sont int´egrables, on obtient le r´esultat en d´ecomposant X =
X
+
−X

et Y = Y
+
−Y

.
150
Proposition 11.3.2 Soient B
1
et B
2
deux sous-tribus de / telles que B
1
⊂ B
2
. Alors, pour
toute variable al´eatoire X positive ou int´egrable,
E[E[X[ B
2
] [ B
1
] = E[X[ B
1
].
Remarque. On a aussi E[E[X[ B
1
] [ B
2
] = E[X[ B
1
] sous les mˆemes hypoth`eses, mais cela
est ´evident puisque E[X[ B
1
] est B
2
-mesurable.
Preuve. Traitons le cas o` u X ≥ 0. Soit Z une v.a. B
1
-mesurable positive. Alors, puisque
Z est aussi B
2
-mesurable,
E[Z E[E[X[ B
2
] [ B
1
]] = E[Z E[X[ B
2
]] = E[ZX].
Cela suffit pour ´etablir l’´egalit´e annonc´ee.
Th´eor`eme 11.3.3 Deux sous-tribus B
1
et B
2
sont ind´ependantes si et seulement si, pour
toute v.a. X B
2
-mesurable positive (ou pour toute v.a. X ∈ L
1
(Ω, B
2
, P), ou bien pour toute
v.a. X de la forme X = 1
A
, avec A ∈ B
2
), on a
E[X[ B
1
] = E[X].
Preuve. Supposons d’abord que B
1
et B
2
sont ind´ependantes. Alors, si X est une v.a.
B
2
-mesurable positive, on a pour toute v.a. Z B
1
-mesurable positive,
E[ZX] = E[Z]E[X] = E[Z E[X]],
et donc la v.a. constante E[X] satisfait la propri´et´e caract´eristique de l’esp´erance condition-
nelle E[X[ B
1
]. Dans le cas o` u X est int´egrable, il suffit d’utiliser la lin´earit´e de l’esp´erance
conditionnelle.
Supposons inversement que
∀A ∈ B
2
, E[1
A
[ B
1
] = E[1
A
] = P(A).
Alors, pour tout B ∈ B
1
,
P(A∩ B) = E[1
A
1
B
] = E[E[1
A
[ B
1
] 1
B
] = E[P(A) 1
B
] = P(A)P(B)
ce qui montre que les tribus B
1
et B
2
sont ind´ependantes.
Remarque. Soient X et Y deux v.a. r´eelles. Puisque les v.a. mesurables par rapport
`a la tribu σ(X) sont les fonctions de X, le th´eor`eme pr´ec´edent montre que X et Y sont
ind´ependantes si et seulement si
E[h(X)[ Y ] = E[h(X)]
pour toute fonction bor´elienne h telle que E[[h(X)[] < ∞ (rappelons que E[h(X) [ Y ] =
E[h(X)[ σ(Y )]). Si X est int´egrable on a donc en particulier
E[X[ Y ] = E[X].
151
Cependant cette derni`ere propri´et´e seule ne suffit pas pour donner l’ind´ependance de X et
Y . Pour s’en convaincre, il suffit de traiter le cas o` u X suit une loi ^(0, 1), et Y = [X[.
Alors, toute v.a. Z σ(Y )-mesurable born´ee s’´ecrit Z = g(Y ), avec une fonction g born´ee, et
donc
E[ZX] = E[g([X[)X] =
1


−∞
dy e
−y
2
/2
g([y[)y = 0,
ce qui montre que E[X[ Y ] = 0 = E[X], alors que X et Y ne sont bien sˆ ur pas ind´ependantes.
Nous ´enon¸ cons maintenant un autre th´eor`eme reliant esp´erance conditionnelle et ind´epen-
dance, qui est tr`es souvent utile pour les calculs explicites d’esp´erance conditionnelle.
Th´eor`eme 11.3.4 Soient X et Y deux variables al´eatoires `a valeurs respectivement dans
les espaces mesurables E et F. Supposons que X est ind´ependante de B et que Y est B-
mesurable. Alors, pour toute fonction mesurable g : E F −→R
+
,
E[g(X, Y ) [ B] =

g(x, Y ) P
X
(dx),
o` u P
X
d´esigne la loi de X. Le terme de droite est la compos´ee de la variable al´eatoire Y par
l’application Φ : y −→

g(x, y) P
X
(dx) (Φ est mesurable grˆace au th´eor`eme de Fubini).
Remarque. De mani`ere informelle on peut expliquer le th´eor`eme de la mani`ere suivante.
Si on conditionne par rapport `a la sous-tribu B, la v.a. Y , qui est B-mesurable, se comporte
comme une constante et comme par ailleurs la connaissance de B ne donne aucune infor-
mation sur X la meilleure approximation de g(X, Y ) est obtenue en int´egrant g(, Y ) par
rapport `a la loi de X.
Preuve. Il suffit de montrer que pour toute v.a. Z B-mesurable positive,
E[g(X, Y )Z] = E[Φ(Y )Z].
Notons P
(X,Y,Z)
la loi du triplet (X, Y, Z), qui est une mesure de probabilit´e sur EF R
+
.
Comme X est ind´ependante de (Y, Z), on a
P
(X,Y,Z)
= P
X
⊗P
(Y,Z)
et donc, en utilisant le th´eor`eme de Fubini,
E[g(X, Y )Z] =

g(x, y)z P
(X,Y,Z)
(dxdydz)
=

g(x, y)z P
X
(dx)P
(Y,Z)
(dydz)
=

F×R
+
z

E
g(x, y)P
X
(dx)

P
(Y,Z)
(dydz)
=

F×R
+
zΦ(y) P
(Y,Z)
(dydz)
= E[Φ(Y )Z]
ce qui ´etait le r´esultat recherch´e.
152
11.4 Calculs d’esp´erance conditionnelle
11.4.1 Conditionnement discret
Soit Y une v.a. `a valeurs dans un espace d´enombrable E, et soit X ∈ L
1
(Ω, /, P). Alors on
a d´ej`a vu que
E[X[ Y ] = ϕ(Y )
o` u
ϕ(y) =
E[X 1
{Y =y}
]
P(Y = y)
pour tout y ∈ E tel que P(Y = y) > 0 (et ϕ(y) peut ˆetre choisie de mani`ere arbitraire
lorsque P(Y = y) = 0).
11.4.2 Cas des variables `a densit´e
Soient X et Y deux v.a. `a valeurs respectivement dans R
m
et dans R
n
. Supposons que le
couple (X, Y ) a pour densit´e p(x, y) : pour toute fonction bor´elienne f : R
m
R
n
−→R
+
,
E[f(X, Y )] =

R
m
×R
n
f(x, y) p(x, y) dxdy.
Alors la densit´e de Y est la fonction
q(y) =

R
m
p(x, y) dx
(en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que

p(x, y) dx = ∞,
qui forment un ensemble de mesure nulle; nous n´egligerons cependant ce point de d´etail dans
les calculs qui suivent).
Soit maintenant h : R
m
−→R
+
une fonction mesurable. Alors on calcule E[h(X)[ Y ] de
la fa¸ con suivante. Pour toute fonction g : R
n
−→R
+
bor´elienne, on a
E[h(X)g(Y )] =

R
m
×R
n
h(x) g(y) p(x, y) dxdy
=

R
n

R
m
h(x) p(x, y) dx

g(y) dy
=

R
n

R
m
h(x) p(x, y) dx
q(y)

g(y) q(y)1
{q(y)>0}
dy
=

R
n
ϕ(y) g(y) q(y)1
{q(y)>0}
dy
= E[ϕ(Y ) g(Y )],
o` u on a pos´e
ϕ(y) =

1
q(y)

R
m
h(x) p(x, y) dx si q(y) > 0,
h(0) si q(y) = 0
153
(la valeur de ϕ(y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode
dans l’´enonc´e qui suit). Dans le calcul qui pr´ec`ede, on a utilis´e implicitement le fait que si
q(y) = 0 on a p(x, y) = 0 dx p.p., et donc

h(x) p(x, y) dx = 0.
Il d´ecoule du calcul ci-dessus et de la caract´erisation de l’esp´erance conditionnelle que
E[h(X)[ Y ] = ϕ(Y ).
Nous r´e´enon¸ cons ce r´esultat sous une forme un peu diff´erente.
Proposition 11.4.1 Pour tout y ∈ R
n
, soit ν(y, dx) la mesure de probabilit´e sur R
m
d´efinie
par
ν(y, dx) =

1
q(y)
p(x, y) dx si q(y) > 0,
δ
0
(dx) si q(y) = 0.
Alors, pour toute fonction h : R
m
−→R
+
bor´elienne,
E[h(X)[ Y ] =

ν(Y, dx) h(x).
On ´ecrit souvent, de mani`ere un peu abusive, pour tout y ∈ R,
E[h(X)[ Y = y] =

ν(y, dx) h(x) =
1
q(y)

h(x) p(x, y) dx
et on dit que ν(y, dx) est la loi conditionnelle de X sachant que Y = y. La fonction
x −→
p(x, y)
q(y)
est appel´ee densit´e conditionnelle de X sachant que Y = y.
Exercice. Sous les hypoth`eses pr´ec´edentes, montrer plus g´en´eralement que, pour toute
fonction bor´elienne h : R
m
R
n
−→R
+
, on a
E[h(X, Y )[ Y ] =

h(x, Y ) ν(Y, dx).
11.4.3 Conditionnement gaussien
Soient X, Y
1
, . . . , Y
p
p +1 variables al´eatoires r´eelles dans L
2
(Ω, /, P). Comme cela a ´et´e vu
dans le paragraphe 2.3 ci-dessus, l’esp´erance conditionnelle
E[X[ Y
1
, . . . , Y
p
]
est la projection orthogonale de X sur l’espace L
2
(Ω, σ(Y
1
, . . . , Y
p
), P) qui est de dimen-
sion infinie sauf dans des cas triviaux. Cette projection orthogonale est aussi la meilleure
approximation de X, au sens de la norme L
2
, par une v.a. de la forme ϕ(Y
1
, . . . , Y
p
).
154
Par ailleurs, nous avons aussi ´etudi´e, dans le Chapitre 8, la meilleure approximation de
X par une fonction affine de Y
1
, . . . , Y
p
, qui est la projection orthogonale de X sur l’espace
vectoriel (de dimension finie) engendr´e par 1, Y
1
, . . . , Y
p
. En g´en´eral cette derni`ere projection
est tr`es diff´erente de l’esp´erance conditionnelle E[X[ Y
1
, . . . , Y
p
] qui fournit une bien meilleure
approximation de X. Nous allons cependant ´etudier une situation o` u les deux co¨ıncident, ce
qui a l’´enorme avantage de ramener les calculs d’esp´erance conditionnelle `a des projections
en dimension finie.
Nous avons vu dans le Chapitre 10 qu’une v.a. Z = (Z
1
, . . . , Z
k
) `a valeurs dans R
k
est un
vecteur gaussien centr´e si toute combinaison lin´eaire de Z
1
, . . . , Z
k
est gaussienne centr´ee, ce
qui ´equivaut encore `a
∀ξ ∈ R
k
, E[exp(iξ Z)] = exp(−
1
2
t
ξK
Z
ξ).
C’est par exemple le cas si les composantes Z
1
, . . . , Z
k
sont des v.a. gaussiennes ind´ependantes.
Proposition 11.4.2 Soit (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
) un vecteur gaussien centr´e. Alors les
vecteurs (X
1
, . . . , X
m
) et (Y
1
, . . . , Y
n
) sont ind´ependants si et seulement si
cov(X
i
, Y
j
) = 0 , ∀i ∈ ¦1, . . . , m¦, j ∈ ¦1, . . . , n¦. (11.4)
Preuve. Il suffit de montrer que, sous la condition (11.4), (X
1
, . . . , X
m
) est ind´ependant de
(Y
1
, . . . , Y
n
) (l’inverse est toujours vrai). Or, pour ξ = (η
1
, . . . , η
m
, ζ
1
, . . . , ζ
n
) ∈ R
n+m
,
E[exp(iξ (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = exp(−
1
2
t
ξK
(X
1
,...,Xm,Y
1
,...,Yn)
ξ)
et, sous la condition (11.4),
t
ξK
(X
1
,...,Xm,Y
1
,...,Yn)
ξ =
m
¸
j,k=1
η
j
η
k
cov(X
j
, X
k
) +
n
¸
j,k=1
ζ
j
ζ
k
cov(Y
j
, Y
k
).
Cela entraˆıne
E[exp(iξ (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = E[exp(i
m
¸
j=1
η
j
X
j
)] E[exp(i
n
¸
j=1
ζ
j
Y
j
)],
soit encore
´
P
(X
1
,...,Xm,Y
1
,...,Yn)

1
, . . . , η
m
, ζ
1
, . . . , ζ
n
) =
´
P
(X
1
,...,Xm)

1
, . . . , η
m
)
´
P
(Y
1
,...,Yn)

1
, . . . , ζ
n
).
En utilisant l’injectivit´e de la transform´ee de Fourier, on a donc
P
(X
1
,...,Xm,Y
1
,...,Yn)
= P
(X
1
,...,Xm)
⊗P
(Y
1
,...,Yn)
ce qui est l’ind´ependance recherch´ee.
Cons´equence. Soit (X
1
, . . . , X
n
) un vecteur gaussien centr´e tel que cov(X
j
, X
k
) = 0 si
j = k. Alors, les v.a. X
1
, . . . , X
n
sont ind´ependantes. En effet, la proposition pr´ec´edente
155
entraˆıne d’abord que X
n
est ind´ependant de (X
1
, . . . , X
n−1
), puis que X
n−1
est ind´ependant
de (X
1
, . . . , X
n−2
), etc., ce qui permet de conclure.
Plus g´en´eralement, si la matrice de covariance de (X
1
, . . . , X
n
) est diagonale par blocs
de tailles respectives i
1
, . . . , i

(avec i
1
+ + i

= n) les sous-vecteurs (X
1
, . . . , X
i
1
),
(X
i
1
+1
, . . . , X
i
1
+i
2
), . . . , (X
i
1
+···+i
ℓ−1
+1
, . . . , X
n
) sont ind´ependants.
Th´eor`eme 11.4.3 Soit (Y
1
, . . . , Y
n
, X) un vecteur gaussien centr´e. Alors, E[X[ Y
1
, . . . , Y
n
]
co¨ıncide avec la projection orthogonale de X sur l’espace vectoriel engendr´e par Y
1
, . . . , Y
n
.
Il existe donc des r´eels λ
1
, . . . , λ
n
tels que
E[X[ Y
1
, . . . , Y
n
] =
n
¸
j=1
λ
j
Y
j
.
De plus, pour toute fonction bor´elienne h : R −→R
+
,
E[h(X)[ Y
1
, . . . , Y
n
] =

R
h(x) q
P
n
j=1
λ
j
Y
j

2 (x) dx,
o` u
σ
2
= E[(X −
n
¸
j=1
λ
j
Y
j
)
2
]
et pour tout m ∈ R,
q
m,σ
2 (x) =
1
σ


exp(−
(x −m)
2

2
)
est la densit´e de la loi ^(m, σ
2
).
Remarque. Le cas σ = 0 se produit si et seulement si X =
¸
n
j=1
λ
j
Y
j
, et alors X est
mesurable par rapport `a σ(Y
1
, . . . , Y
n
), de sorte que la deuxi`eme formule du th´eor`eme doit
s’interpr´eter comme E[h(X)[ Y
1
, . . . , Y
n
] = h(X). Nous ´ecartons ce cas trivial dans la preuve
qui suit.
Preuve. Soit
´
X =
¸
n
j=1
λ
j
Y
j
la projection orthogonale de X sur l’espace vectoriel engendr´e
par Y
1
, . . . , Y
n
. Alors, pour tout j ∈ ¦1, . . . , n¦,
cov(X −
´
X, Y
j
) = E[(X −
´
X)Y
j
] = 0
par d´efinition de la projection orthogonale. Puisque le vecteur (Y
1
, . . . , Y
n
, X −
´
X) est
gaussien centr´e (toute combinaison lin´eaire de ses composantes est une combinaison lin´eaire
de Y
1
, . . . , Y
n
, X), la proposition pr´ec´edente montre que X−
´
X est ind´ependant de Y
1
, . . . , Y
n
.
Donc,
E[X[ Y
1
, . . . , Y
n
] = E[X −
´
X[ Y
1
, . . . , Y
n
] +
´
X = E[X −
´
X] +
´
X =
´
X.
On a utilis´e le fait que
´
X est mesurable par rapport `a σ(Y
1
, . . . , Y
n
), puis l’ind´ependance de
de X −
´
X et de (Y
1
, . . . , Y
n
) qui entraˆıne E[X −
´
X[ Y
1
, . . . , Y
n
] = E[X −
´
X] = 0.
156
Pour la derni`ere assertion, notons Z = X −
´
X, de sorte que Z est ind´ependante de
(Y
1
, . . . , Y
n
) et suit la loi ^(0, σ
2
) (Z est gaussienne centr´ee et par d´efinition σ
2
= E[Z
2
]).
On utilise alors le th´eor`eme 11.3.4 qui montre que
E[h(X)[ Y
1
, . . . , Y
n
] = E[h(
n
¸
j=1
λ
j
Y
j
+ Z)[ Y
1
, . . . , Y
n
] =

h(
n
¸
j=1
λ
j
Y
j
+ z) P
Z
(dz).
En ´ecrivant P
Z
(dz) = q
0,σ
2 (z)dz et en faisant un changement de variables ´evident, on aboutit
`a la formule de l’´enonc´e.
11.5 Probabilit´es de transition et lois conditionnelles
Les calculs pr´ec´edents d’esp´erance conditionnelle peuvent ˆetre r´e´enonc´es de mani`ere plus
agr´eable `a l’aide de la notion de probabilit´e de transition.
D´efinition 11.5.1 Soient (E, c) et (F, T) deux espaces mesurables. On appelle probabilit´e
de transition (ou parfois noyau de transition) de E dans F une application
ν : E T −→ [0, 1]
qui v´erifie les deux propri´et´es suivantes :
(i) pour tout x ∈ E, ν(x, ) est une mesure de probabilit´e sur (F, T);
(ii) pour tout A ∈ T, l’application x −→ ν(x, A) est c-mesurable.
De mani`ere intuitive, `a chaque fois que l’on fixe un point x du premier espace E, la
mesure de probabilit´e ν(x, ) donne le moyen de choisir de mani`ere al´eatoire un point y du
deuxi`eme espace F. Dans la th´eorie des chaˆınes de Markov, sur laquelle nous reviendrons,
on ´etudie l’´evolution au cours du temps d’un ph´enom`ene al´eatoire dans lequel l’´etat y `a
l’instant n+1 d´epend de l’´etat x `a l’instant n, et d’autres param`etres al´eatoires non connus
`a l’instant n : la loi de l’´etat `a l’instant n+1 connaissant l’´etat `a l’instant n est alors fournie
par une probabilit´e de transition ν(x, dy).
Exemple. Soit λ une mesure positive σ-finie sur (F, T), et soit f : E F −→ R
+
une
application mesurable telle que

F
f(x, y) λ(dy) = 1 , ∀x ∈ E.
Alors
ν(x, A) =

A
f(x, y) λ(dy)
d´efinit une probabilit´e de transition de E dans F. La propri´et´e (ii) de la d´efinition d´ecoule
en particulier du th´eor`eme de Fubini.
157
Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou born´ee) sur (F, T),
alors
ϕ(x) :=

ν(x, dy) h(y) , x ∈ E
est une fonction mesurable positive (ou born´ee) sur E.
(ii) Si λ est une mesure de probabilit´e sur (E, c), alors
µ(A) :=

λ(dx) ν(x, A) , A ∈ T
est une mesure de probabilit´e sur (F, T).
La v´erification de ces propri´et´es est facile. Dans (i), on suppose d’abord h ´etag´ee, puis
on utilise un passage `a la limite croissant.
Nous en venons maintenant au lien entre la notion de probabilit´e de transition et l’esp´erance
conditionnelle.
D´efinition 11.5.2 Soient X et Y deux variables al´eatoires `a valeurs respectivement dans
(E, c) et dans (F, T). On appelle loi conditionnelle de Y sachant X toute probabilit´e de
transition ν de E dans F telle que, pour toute fonction h mesurable positive sur (F, T), on
ait
E[h(Y )[ X] =

ν(X, dy) h(y).
Remarque. La v.a.

ν(X, dy) h(y) est obtenue en composant X et l’application x −→

ν(x, dy) h(y), qui est mesurable d’apr`es la proposition pr´ec´edente. C’est donc bien une
fonction de X, comme doit l’ˆetre l’esp´erance conditionnelle E[h(Y )[ X].
Par d´efinition, si ν est une loi conditionnelle de Y sachant X, on a pour tout A ∈ T,
P(Y ∈ A[ X) = ν(X, A) , p.s.
Il est tentant de remplacer cette ´egalit´e de variables al´eatoires par l’´egalit´e de nombres r´eels
P(Y ∈ A[ X = x) = ν(x, A),
pour tout x ∈ E. Bien qu’expliquant l’intuition de la notion de loi conditionnelle, cette
derni`ere ´egalit´e n’a en g´en´eral pas de sens (sauf si X est une v.a. discr`ete) puisque qu’on
aura souvent P(X = x) = 0 pour tout x, ce qui interdit de d´efinir P(Y ∈ A[ X = x). La
seule formulation correcte est donc la premi`ere ´egalit´e P(Y ∈ A[ X) = ν(X, A).
Discutons maintenant l’unicit´e de la loi conditionnelle de Y sachant X. Si ν et ν

sont
deux lois conditionnelles, on aura, pour tout A ∈ T,
ν(X, A) = P(Y ∈ A[ X) = ν

(X, A) , p.s.
ce qui ´equivaut encore `a dire que, pour tout A ∈ T,
ν(x, A) = ν

(x, A) , P
X
(dx) p.s.
158
Supposons que l’espace mesurable (F, T) soit tel qu’une mesure de probabilit´e sur (F, T)
soit caract´eris´ee par ses valeurs sur une famille d´enombrable d’ensembles mesurables (c’est le
cas pour (R
d
, B(R
d
)), en consid´erant les pav´es `a coordonn´ees rationnelles). Alors on conclut
que
ν(x, ) = ν

(x, ) , P
X
(dx) p.s.
Il y a donc unicit´e en ce sens (et clairement on ne peut pas esp´erer mieux). Par abus de
langage on parlera cependant souvent de la loi conditionnelle de Y sachant X.
Consid´erons maintenant le probl`eme de l’existence de lois conditionnelles.
Th´eor`eme 11.5.2 Supposons que (E, c) et (F, T) soient des espaces m´etriques complets
s´eparables munis de leur tribu bor´elienne. Alors il existe toujours une loi conditionnelle de
Y sachant X.
Nous ne d´emontrerons pas ce th´eor`eme qui est un r´esultat assez difficile de th´eorie de la
mesure. Dans la suite de ce cours, nous n’aurons de toute fa¸ con pas besoin du Th´eor`eme
11.5.2, car une construction directe permet d’´eviter le recours au th´eor`eme d’existence. Pour
illustrer cela reprenons les exemples trait´es dans la partie pr´ec´edente (attention les rˆoles de
X et Y sont intervertis).
(1) Si X est une v.a. discr`ete, c’est-`a-dire si E est d´enombrable, alors on peut d´efinir ν(x, A)
par
ν(x, A) = P(Y ∈ A[ X = x) si x ∈ E

:= ¦a ∈ E : P(X = a) > 0)
ν(x, A) = δ
y
0
(A) si x / ∈ E

o` u y
0
est un point fix´e de F, dont le choix est arbitraire.
(2) Supposons que X et Y sont `a valeurs respectivement dans R
m
et dans R
n
et que le couple
(X, Y ) a pour densit´e p(x, y), (x, y) ∈ R
m
R
n
. La densit´e de X est alors
q(x) =

R
n
p(x, y) dy.
La Proposition 11.4.1 montre qu’on peut d´efinir la loi conditionnelle de Y sachant X par
ν(x, A) =
1
q(x)

A
dy p(x, y) si q(x) > 0
ν(x, A) = δ
0
(A) si q(x) = 0.
(3) Supposons enfin que (X
1
, . . . , X
n
, Y ) soit un vecteur gaussien centr´e, et notons
n
¸
j=1
λ
j
X
j
la projection orthogonale de Y sur l’espace vectoriel engendr´e par X
1
, . . . , X
n
. Notons aussi
σ
2
= E[(Y −
n
¸
j=1
λ
j
X
j
)
2
].
159
Le Th´eor`eme 11.4.3 montre que la loi conditionnelle de Y sachant X = (X
1
, . . . , X
n
) est
ν(x
1
, . . . , x
n
; A) =

A
q
P
n
j=1
λ
j
x
j

2(y) dy
o` u q
m,σ
2 est la densit´e de la loi gaussienne ^(m, σ
2
). De mani`ere l´eg`erement abusive on dit
que conditionnellement `a (X
1
, . . . , X
n
), Y suit la loi ^(
¸
n
j=1
λ
j
X
j
, σ
2
).
160
Partie III
Processus al´eatoires
161
Chapitre 12
Th´eorie des martingales
`a temps discret
12.1 D´efinitions et exemples
On se place sur un espace de probabilit´e (Ω, T, P). Par d´efinition un processus al´eatoire est
une suite (X
n
)
n∈N
de variables al´eatoires d´efinies sur (Ω, T, P). Dans ce chapitre, tous les
processus al´eatoires seront `a valeurs r´eelles.
D´efinition 12.1.1 Une filtration de (Ω, T, P) est une suite croissante (T
n
)
n∈N
de sous-
tribus de T. On a donc
T
0
⊂ T
1
⊂ T
2
⊂ ⊂ T
On dit aussi que (Ω, T, (T
n
)
n∈N
, P) est un espace de probabilit´e filtr´e.
On interpr`ete souvent le param`etre n comme un temps. La tribu T
n
correspond alors `a
l’information acquise au temps n.
Exemples. (a) Si (X
n
)
n∈N
est une suite quelconque de v.a. d´efinies sur (Ω, T, P), on d´efinit
T
X
n
comme ´etant la plus petite tribu rendant mesurables les v.a. X
1
, X
2
, . . . , X
n
:
T
X
n
= σ(X
0
, X
1
, . . . , X
n
).
Alors (T
X
n
)
n∈N
est une filtration appel´ee filtration canonique du processus al´eatoire (X
n
)
n∈N
.
(b) Supposons que Ω = [0, 1[, T est la tribu bor´elienne sur [0, 1[, et P est la mesure de
Lebesgue. Posons
T
n
= σ([
i −1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Alors (T
n
)
n∈N
est une filtration appel´ee filtration dyadique de [0, 1[.
D´efinition 12.1.2 Un processus (X
n
)
n∈N
est dit adapt´e `a la filtration (T
n
)
n∈N
si pour tout
n ∈ N, X
n
est mesurable par rapport `a la tribu T
n
.
163
La filtration canonique est par construction la plus petite filtration qui rende le processus
adapt´e.
Dans toute la suite du chapitre (`a l’exception de la partie 6), on fixe un espace de
probabilit´e filtr´e (Ω, T, (T
n
)
n∈N
, P), dont le choix sera parfois pr´ecis´e dans les exemples. Les
notions qui suivent sont bien entendu relatives `a cet espace.
D´efinition 12.1.3 Soit (X
n
)
n∈N
un processus adapt´e, tel que E[[X
n
[] < ∞ pour tout n ∈ N.
On dit que le processus (X
n
)
n∈N
est:
• une martingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] = X
n
;
• une surmartingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] ≤ X
n
;
• une sous-martingale si, pour tout n ∈ N,
E[X
n+1
[ T
n
] ≥ X
n
.
Une cons´equence imm´ediate de la d´efinition d’une martingale est la propri´et´e apparem-
ment plus forte : pour tous 0 ≤ n ≤ m,
E[X
m
[ T
n
] = X
n
(12.1)
Cela est facile `a v´erifier par r´ecurrence sur la valeur de m− n : si m = n, la propri´et´e est
triviale, si m = n + 1, c’est la d´efinition, et si m − n ≥ 2, une propri´et´e bien connue des
esp´erance conditionnelles donne
E[X
m
[ T
n
] = E[E[X
m
[ T
m−1
] [ T
n
] = E[X
m−1
[ T
n
].
Remarquons que (12.1) entraˆıne E[X
m
] = E[X
n
] = E[X
0
].
De mˆeme, si (X
n
)
n∈N
) est une surmartingale (resp. une sous-martingale), on a pour tous
0 ≤ n ≤ m,
E[X
m
[ T
n
] ≤ X
n
(resp. E[X
m
[ T
n
] ≥ X
n
),
et donc E[X
m
] ≤ E[X
n
] (resp. E[X
m
] ≥ E[X
n
]).
Il est souvent utile d’interpr´eter une martingale comme un jeu ´equitable : la variable X
n
correspond `a l’avoir du joueur `a l’instant n, et T
n
est l’information dont dispose le joueur
`a cet instant (en particulier les r´esultats des jeux pr´ec´edents). La propri´et´e de martingale
E[X
n+1
[ T
n
] = X
n
traduit donc le fait que la valeur moyenne de l’avoir `a l’instant n + 1,
lorsqu’on connait le pass´e jusqu’`a l’instant n, est l’avoir `a l’instant n (en moyenne le joueur
ne perd ni ne gagne). De la mˆeme fa¸ con, une surmartingale correspond `a un jeu d´efavorable.
Il est ´evident que si (X
n
)
n∈N
est une surmartingale, (−X
n
)
n∈N
est une sous-martingale.
Pour cette raison, la plupart des r´esultats qui suivent et sont ´enonc´es seulement pour des
surmartingales ont un analogue imm´ediat pour des sous-martingales (ou bien inversement).
164
Exemples. (i) Si X ∈ L
1
(Ω, T, P) on pose
X
n
= E[X [ T
n
].
Alors (X
n
)
n∈N
est une martingale :
E[X
n+1
[ T
n
] = E[E[X [ T
n+1
] [ T
n
] = E[X [ T
n
] = X
n
.
Une martingale de ce type est dite ferm´ee.
(ii) Si (X
n
)
n∈N
est une suite d´ecroissante et adapt´ee de v.a. int´egrables, alors (X
n
)
n∈N
est
une surmartingale :
E[X
n+1
[ T
n
] ≤ E[X
n
[ T
n
] = X
n
.
(iii) Marche al´eatoire sur R. Soit x ∈ R et soit (Y
n
)
n≥1
une suite de v.a. r´eelles ind´ependantes
et de mˆeme loi µ, telle que E[[Y
1
[] < ∞. On pose
X
0
= x et X
n
= x + Y
1
+ Y
2
+ . . . + Y
n
si n ≥ 1.
On d´efinit aussi la filtration (T
n
)
n∈N
par
T
0
= ¦∅, Ω¦ et T
n
= σ(Y
1
, . . . , Y
n
) si n ≥ 1
(c’est en fait la filtration canonique de (X
n
)
n∈N
). Alors (X
n
)
n∈N
est
• une martingale si E[Y
1
] = 0;
• une surmartingale si E[Y
1
] ≤ 0;
• une sous-martingale si E[Y
1
] ≥ 0.
En effet, par exemple dans le cas E[Y
1
] = 0, on a
E[X
n+1
[ T
n
] = E[X
n
+ Y
n+1
[ T
n
] = X
n
+ E[Y
n+1
] = X
n
,
puisque par construction Y
n+1
est ind´ependant de T
n
.
Le processus (X
n
)
n∈N
est appel´e marche al´eatoire sur R de loi de saut µ, issue de x.
(iv) Reprenons l’exemple (b) d’espace de probabilit´e filtr´e donn´e ci-dessus. Soit µ une mesure
finie sur [0, 1[, et rappelons que P = λ est la mesure de Lebesgue sur [0, 1[. Pour tout entier
n ∈ N, posons
f
n
=

dλ|Fn
qui d´esigne la d´eriv´ee de Radon-Nikodym de µ par rapport `a λ, lorsque µ et λ sont vues
comme des mesures sur la tribu T
n
(sur la tribu T
n
, toutes les mesures sont absolument
continues par rapport `a λ). Il est facile de v´erifier que
f
n
(ω) =
2
n
¸
i=1
µ([(i −1)2
−n
, i2
−n
[)
2
−n
1
[(i−1)2
−n
,i2
−n
[
(ω).
165
Alors (f
n
)
n∈N
est une martingale : si A ∈ T
n
,
E[1
A
f
n+1
] =

1
A
(ω) f
n+1
(ω) dω = µ(A) =

1
A
(ω) f
n
(ω) dω = E[1
A
f
n
],
ce qui suffit pour obtenir f
n
= E[f
n+1
[ T
n
].
Dans le cas particulier o` u µ est absolument continue par rapport `a λ (sur T), la martingale
(f
n
)
n∈N
est du type consid´er´e en (i) ci-dessus : on v´erifie ais´ement que
f
n
= E[f [ T
n
],
o` u f est la d´eriv´ee de Radon-Nikodym de µ par rapport `a λ.
Deux transformations de martingales.
Proposition 12.1.1 Soit ϕ : R −→R
+
une fonction convexe, et soit (X
n
)
n∈N
un processus
adapt´e, tel que E[ϕ(X
n
)] < ∞ pour tout n ∈ N.
(i) Si (X
n
) est une martingale, (ϕ(X
n
)) est une sous-martingale.
(ii) Si (X
n
) est une sous-martingale et si ϕ est croissante, (ϕ(X
n
)) est une sous-martingale.
En particulier, si X
n
est une martingale, [X
n
[ est une sous-martingale (ainsi que X
2
n
si
E[X
2
n
] < ∞pour tout n) et si X
n
est une sous-martingale, X
+
n
est encore une sous-martingale.
Preuve. (i) D’apr`es l’in´egalit´e de Jensen pour les esp´erances conditionnelles,
E[ϕ(X
n+1
) [ T
n
] ≥ ϕ(E[X
n+1
[ T
n
]) = ϕ(X
n
).
(ii) De mˆeme, puisque X
n
≤ E[X
n+1
[ T
n
] et ϕ est croissante,
E[ϕ(X
n+1
) [ T
n
] ≥ ϕ(E[X
n+1
[ T
n
]) ≥ ϕ(X
n
).
D´efinition 12.1.4 Une famille (H
n
)
n≥1
de v.a. r´eelles est dite pr´evisible si, pour tout n ≥ 1,
H
n
est born´ee et T
n−1
-mesurable.
Proposition 12.1.2 Soit (X
n
)
n∈N
un processus adapt´e, et (H
n
)
n≥1
une famille pr´evisible.
On pose (H X)
0
= 0 et pour tout entier n ≥ 1,
(H X)
n
= H
1
(X
1
−X
0
) + H
2
(X
2
−X
1
) + + H
n
(X
n
−X
n−1
).
Alors,
(i) Si (X
n
) est une martingale, ((H X)
n
) est aussi une martingale.
(ii) Si (X
n
) est une surmartingale (resp. une sous-martingale), et si H
n
≥ 0 pour tout
n ≥ 1, ((H X)
n
) est une surmartingale (resp. une sous-martingale).
166
Preuve. (i) Puisque les v.a. H
n
sont born´ees, il est facile de v´erifier que les v.a. (H X)
n
sont int´egrables. De plus le processus ((H X)
n
) est adapt´e par construction. Il suffit ensuite
de v´erifier que, pour tout n ∈ N,
E[(H X)
n+1
−(H X)
n
[ T
n
] = 0.
Or (H X)
n+1
−(H X)
n
= H
n+1
(X
n+1
−X
n
) et puisque H
n+1
est T
n
-mesurable, on a
E[H
n+1
(X
n+1
−X
n
) [ T
n
] = H
n+1
E[X
n+1
−X
n
[ T
n
] = 0.
La preuve de (ii) est analogue.
Si on interpr`ete (dans le cas d’une martingale) X
n
comme l’avoir du joueur `a l’instant n,
la diff´erence X
n+1
−X
n
s’interpr`ete comme le gain r´ealis´e entre les instants n et n + 1. On
peut imaginer que le joueur `a l’instant n modifie sa mise en la multipliant par H
n+1
(qui doit
ˆetre T
n
-mesurable). Le jeu reste ´equitable, mais le nouveau gain r´ealis´e entre les instants
n et n + 1 est H
n+1
(X
n+1
− X
n
). Ceci fournit une explication intuitive de la d´efinition de
(H X)
n
.
12.2 Temps d’arrˆet
D´efinition 12.2.1 Une v.a. T : Ω −→ N = N ∪ ¦+∞¦ est appel´ee temps d’arrˆet (de la
filtration (T
n
)) si pour tout entier n ∈ N, on a
¦T = n¦ ∈ T
n
.
Il est tr`es facile de voir que cela est ´equivalent `a imposer que pour tout n ∈ N on a
¦T ≤ n¦ ∈ T
n
. Dans la suite nous utiliserons indiff´eremment l’une ou l’autre d´efinition.
Il est important de noter que la valeur +∞ est autoris´ee. En ´ecrivant
¦T = +∞¦ = Ω`
¸
n∈N
¦T = n¦
on voit que ¦T = +∞¦ ∈ T

, o` u
T

=
¸
n∈N
T
n
= σ

¸
n∈N
T
n

.
En revenant `a l’interpr´etation en termes de jeu, les temps d’arrˆet sont les instants
al´eatoires auxquels on peut d´ecider de s’arrˆeter : le point-cl´e est que pour d´ecider de s’arrˆeter
`a l’instant n, on n’a `a sa disposition que l’information acquise `a cet instant, c’est-`a-dire les
´ev´enements de T
n
. Pour prendre une image tir´ee de la Bourse, il est impossible de d´ecider
de vendre ses actions au moment o` u elles vont ˆetre `a leur cours maximum de l’ann´ee (cela
demanderait de connaˆıtre le futur `a cet instant !).
Exemples. (i) Si k ∈ N, le temps constant T = k est ´evidemment un temps d’arrˆet.
(ii) Si (Y
n
)
n∈N
est un processus adapt´e, et si A est un bor´elien de R,
T
A
:= inf¦n ∈ N : Y
n
∈ A¦
167
est un temps d’arrˆet, appel´e temps d’entr´ee dans A. En effet, pour tout entier n ≥ 0,
¦T
A
= n¦ = ¦Y
0
/ ∈ A, Y
1
/ ∈ A, . . . , Y
n−1
/ ∈ A, Y
n
∈ A¦ ∈ T
n
.
Remarquons que, dans la d´efinition de T
A
, on fait la convention inf ∅ = +∞. Cette conven-
tion sera constamment utilis´ee dans la suite.
(iii) En revanche, si on fixe N > 0 et on pose
L
A
:= sup¦n ≤ N : Y
n
∈ A¦ (sup ∅ = 0 par convention)
L
A
n’est en g´en´eral pas un temps d’arrˆet. En effet, pour n ∈ ¦1, . . . , N −1¦,
¦L
A
= n¦ = ¦Y
n
∈ A, Y
n+1
/ ∈ A, . . . , Y
N
/ ∈ A¦
n’est a priori pas dans T
n
.
Proposition 12.2.1 (i) Si S et T sont deux temps d’arrˆet, S ∨ T et S ∧ T sont aussi des
temps d’arrˆet.
(ii) Si (T
k
)
k∈N
est une suite de temps d’arrˆet, alors inf(T
k
), sup(T
k
), limsup(T
k
) et liminf(T
k
)
sont aussi des temps d’arrˆet.
Preuve. (i) On ´ecrit ¦S∧T ≤ n¦ = ¦S ≤ n¦∪¦T ≤ n¦ et ¦S∨T ≤ n¦ = ¦S ≤ n¦∩¦T ≤ n¦.
(ii) De mˆeme, ¦inf(T
k
) ≤ n¦ = ∪¦T
k
≤ n¦ et, par exemple,
¦liminf(T
k
) ≤ n¦ =

¸
m=0


¸
k=m
¦T
k
≤ n¦

.
D´efinition 12.2.2 Soit T un temps d’arrˆet. La tribu du pass´e jusqu’`a l’instant T est
T
T
= ¦A ∈ T : ∀n ∈ N, A∩ ¦T = n¦ ∈ T
n
¦.
On v´erifie ais´ement que T
T
est une tribu et que T
T
= T
n
si T = n.
Proposition 12.2.2 Soient S et T deux temps d’arrˆet avec S ≤ T. Alors, T
S
⊂ T
T
.
Preuve. Soit A ∈ T
S
. Alors, pour tout n ∈ N,
A ∩ ¦T = n¦ =
n
¸
k=0
(A∩ ¦S = k¦) ∩ ¦T = n¦ ∈ T
n
.
Proposition 12.2.3 Soit (Y
n
)
n∈N
un processus adapt´e, et soit T un temps d’arrˆet. Alors la
v.a. 1
{T<∞}
Y
T
d´efinie par
1
{T<∞}
Y
T
(ω) =

Y
n
(ω) si T(ω) = n ∈ N
0 si T(ω) = +∞
est T
T
-mesurable.
168
Preuve. Soit B un bor´elien de R. Alors, pour tout n ∈ N,
¦1
{T<∞}
Y
T
∈ B¦ ∩ ¦T = n¦ = ¦Y
n
∈ B¦ ∩ ¦T = n¦ ∈ T
n
,
ce qui montre que ¦1
{T<∞}
Y
T
∈ B¦ ∈ T
T
. Si 0 ∈ B, il suffit d’´ecrire ¦1
{T<∞}
Y
T
∈ B¦ =
¦1
{T<∞}
Y
T
∈ B
c
¦
c
.
Lorsque le temps d’arrˆet T est fini p.s. on ´ecrira bien sˆ ur simplement Y
T
au lieu de
1
{T<∞}
Y
T
. En particulier, si T est un temps d’arrˆet quelconque, n ∧ T est aussi un temps
d’arrˆet (lemme 12.2.1) et on d´eduit de la proposition que Y
n∧T
est T
n∧T
-mesurable donc
aussi T
n
-mesurable d’apr`es la proposition 12.2.2.
Th´eor`eme 12.2.4 (Th´eor`eme d’arrˆet) Soit (X
n
)
n∈N
une martingale (resp. une surmartin-
gale) et soit T un temps d’arrˆet. Alors (X
n∧T
)
n∈N
est aussi une martingale (resp. une
surmartingale). En particulier, si le temps d’arrˆet T est born´e, on a X
T
∈ L
1
, et
E[X
T
] = E[X
0
] (resp. E[X
T
] ≤ E[X
0
]).
Preuve. Pour tout n ≥ 1, posons
H
n
= 1
{T≥n}
= 1 −1
{T≤n−1}
.
Alors la famille (H
n
)
n≥1
est pr´evisible. Puisque
X
n∧T
= X
0
+ (H X)
n
la premi`ere partie du th´eor`eme d´ecoule de la proposition 12.1.2. Ensuite, si le temps d’arrˆet
est born´e par N, on a E[X
T
] = E[X
N∧T
] = E[X
0
] (resp. ≤ E[X
0
] dans le cas d’une
surmartingale).
L’hypoth`ese que T est born´e est n´ecessaire comme le montre l’exemple simple suivant.
Consid´erons la marche al´eatoire X
n
= Y
1
+ +Y
n
issue de 0 et de loi de saut P(Y
1
= 1) =
P(Y
1
= −1) = 1/2 (c’est ce qu’on appelle la marche al´eatoire simple sur Z, ou encore pile ou
face). Alors il d´ecoule d’un exemple pr´ec´edent que (X
n
)
n∈N
est une martingale. Cependant,
si on pose
T = inf¦n ≥ 0 : X
n
= 1¦
on a T < ∞ p.s. (cf Proposition 10.2.2 – une autre d´emonstration sera donn´ee dans la partie
suivante) mais
1 = E[X
T
] = E[X
0
] = 0.
Bien sˆ ur le temps d’arrˆet T n’est pas born´e, et il n’y a pas de contradiction avec le th´eor`eme.
12.3 Convergence presque sˆ ure des martingales
Nous allons maintenant ´etudier la convergence presque sˆ ure d’une martingale ou d’une sous-
martingale quand n → ∞. Consid´erons d’abord une suite num´erique α = (α
n
)
n∈N
. Pour
169
tous les r´eels a < b on introduit deux suites de temps S
k
(α) et T
k
(α) appartenant `a N, qui
sont d´efinies de la mani`ere suivante : on pose
S
1
(α) = inf¦n ≥ 0 : α
n
≤ a¦
T
1
(α) = inf¦n ≥ S
1
(α) : α
n
≥ b¦
puis, par r´ecurrence,
S
k+1
(α) = inf¦n ≥ T
k
(α) : α
n
≤ a¦
T
k+1
(α) = inf¦n ≥ S
k+1
(α) : α
n
≥ b¦.
Bien entendu, on utilise toujours la convention inf ∅ = +∞ dans ces d´efinitions. On pose
ensuite pour tout entier n,
N
n
([a, b], α) =

¸
k=1
1
{T
k
(α)≤n}
,
N

([a, b], α) =

¸
k=1
1
{T
k
(α)<∞}
.
La quantit´e N

([a, b], α) est le nombre de mont´ees effectu´ees le long de l’intervalle [a, b] par
la suite (α
n
)
n∈N
. Nous utiliserons le lemme simple d’analyse suivant.
Lemme 12.3.1 La suite (α
n
)
n∈N
converge dans R ssi pour tout choix des rationnels a et b
tels que a < b, on a N

([a, b], α) < ∞.
Consid´erons maintenant un processus adapt´e (X
n
)
n∈N
. Alors les quantit´es S
k
(X), T
k
(X)
deviennent des v.a. `a valeurs dans N, et plus pr´ecis´ement il est facile de v´erifier que ce sont
des temps d’arrˆet. En effet, on a par exemple
¦T
k
(X) ≤ n¦ =
¸
0≤m
1
<n
1
<···<m
k
<n
k
≤n
¦X
m
1
≤ a, X
n
1
≥ b, . . . , X
m
k
≤ a, X
n
k
≥ b¦,
ce qui montre que ¦T
k
(X) ≤ n¦ ∈ T
n
.
Il en d´ecoule en particulier que N
n
([a, b], X) est T
n
-mesurable.
Lemme 12.3.2 (In´egalit´e des nombres de mont´ees de Doob) Supposons que (X
n
)
n∈N
est une sous-martingale. Alors, pour tous les r´eels a < b et pour tout n ∈ N,
(b −a) E[N
n
([a, b], X)] ≤ E[(X
n
−a)
+
−(X
0
−a)
+
].
Preuve. On pose Y
n
= (X
n
− a)
+
. D’apr`es la proposition 12.1.1, (Y
n
)
n∈N
est encore une
sous-martingale.
Pour all´eger les notations posons N
n
= N
n
([a, b], X), et ´ecrivons S
k
, T
k
au lieu de
S
k
(X), T
k
(X). D´efinissons alors une famille pr´evisible (H
n
)
n≥1
en posant
H
n
=

¸
k=1
1
{S
k
<n≤T
k
}
≤ 1
170
(observer que l’´ev´enement ¦S
k
< n ≤ T
k
¦ = ¦S
k
≤ n − 1¦`¦T
k
≤ n − 1¦ est dans T
n−1
,
parce que S
k
et T
k
sont des temps d’arrˆet). Alors, on v´erifie facilement que
(H Y )
n
=
Nn
¸
k=1
(Y
T
k
−Y
S
k
) +1
{S
Nn+1
<n}
(Y
n
−Y
S
Nn+1
) ≥
Nn
¸
k=1
(Y
T
k
−Y
S
k
) ≥ N
n
(b −a).
La premi`ere in´egalit´e est vraie parce que Y
S
Nn+1
= 0 sur l’ensemble ¦S
Nn+1
< ∞¦, et Y
n
≥ 0.
On a donc en particulier
E[(H Y )
n
] ≥ (b −a) E[N
n
].
Par ailleurs, si K
n
= 1−H
n
, (K
n
)
n∈N
est une famille pr´evisible positive, et la proposition
12.1.2 montre que (K Y ) est une sous-martingale, d’o` u E[(K Y )
n
] ≥ E[(K.Y )
0
] = 0.
On observe ensuite que
(K Y )
n
+ (H Y )
n
= ((K + H) Y )
n
= Y
n
−Y
0
,
et donc
(b −a) E[N
n
] ≤ E[(H Y )
n
] ≤ E[(K Y )
n
+ (H Y )
n
] = E[Y
n
−Y
0
]
ce qui est l’in´egalit´e du lemme.
Th´eor`eme 12.3.3 Soit (X
n
)
n∈N
une sous-martingale telle que
sup
n∈N
E[(X
n
)
+
] < ∞. (12.2)
Alors la suite X
n
converge p.s. quand n → ∞. De plus sa limite X

v´erifie E[[X

[] < ∞.
Remarque. En ´ecrivant E[X
n
] = E[(X
n
)
+
] − E[(X
n
)

], et en rappelant qu’une sous-
martingale v´erifie E[X
n
] ≥ E[X
0
], on voit que, pour tout k ≥ 0,
E[(X
k
)

] ≤

sup
n∈N
E[(X
n
)
+
]

−E[X
0
].
L’hypoth`ese (12.2) est donc ´equivalente `a imposer que
sup
n∈N
E[[X
n
[] < ∞
c’est-`a-dire que la suite (X
n
) est born´ee dans L
1
.
Preuve. Soient a, b ∈ Q tels que a < b. D’apr`es le lemme 12.3.2, on a pour tout n ≥ 1,
(b −a) E[N
n
([a, b], X)] ≤ E[(X
n
−a)
+
] ≤ [a[ + E[(X
n
)
+
] ≤ [a[ + sup
k∈N
E[(X
k
)
+
].
En faisant tendre vers +∞, et en utilisant (12.2), on trouve
(b −a) E[N

([a, b], X)] < ∞
171
et donc N

([a, b], X) < ∞ p.s. Quitte `a ´ecarter une r´eunion d´enombrable d’ensembles de
probabilit´e nulle, on obtient ainsi que p.s., pour tous les rationnels a < b, N

([a, b], X) < ∞.
D’apr`es le lemme 12.3.1, cela suffit pour affirmer que p.s. la suite X
n
converge dans R.
Ensuite, `a l’aide du lemme de Fatou, et de la remarque suivant l’´enonc´e, on a
E[[X

[] ≤ liminf
n→∞
E[[X
n
[] ≤ sup
n∈N
E[[X
n
[] < ∞
et en particulier [X

[ < ∞ p.s.
Corollaire 12.3.4 Soit (X
n
)
n∈N
une surmartingale positive. Alors X
n
converge p.s. Sa
limite X

est dans L
1
et v´erifie X
n
≥ E[X

[ T
n
] pour tout n ∈ N.
Preuve. On applique le th´eor`eme 12.3.3 `a X

n
= −X
n
, en remarquant que l’hypoth`ese
(12.2) est alors trivialement v´erifi´ee. La derni`ere assertion d´ecoule du lemme de Fatou pour
les esp´erances conditionnelles :
X
n
≥ liminf
m→∞
E[X
m
[ T
n
] ≥ E[liminf
m→∞
X
m
[ T
n
] = E[X

[ T
n
].
Exemples. (1) Soit Y
n
= 1 +Z
1
+ +Z
n
une marche al´eatoire simple (pile ou face) issue
de 1. On a vu que (Y
n
)
n∈N
est une martingale par rapport `a sa filtration canonique. Posons
ensuite
T = inf¦n ≥ 0 : Y
n
= 0¦.
Alors T est un temps d’arrˆet. Du th´eor`eme 12.2.4 on d´eduit que X
n
= Y
n∧T
est une
martingale positive, `a laquelle on peut appliquer le corollaire. Donc X
n
converge p.s. vers
X

tel que X

< ∞. Puisque sur l’ensemble ¦T = ∞¦ on a [X
n+1
−X
n
[ = [Y
n+1
−Y
n
[ = 1
pour tout n, cela n’est possible que si T < ∞ p.s. Modulo un argument de sym´etrie
´evident, cela d´emontre la propri´et´e qui avait ´et´e utilis´ee dans le dernier exemple de la partie
pr´ec´edente.
Dans ce cas on a X

= 0 p.s. et donc l’in´egalit´e X
n
≥ E[X

[ T
n
] = 0 n’est pas une
´egalit´e, bien que la suite (X
n
) soit une martingale.
Cet exemple montre aussi que la convergence du corollaire (ou du th´eor`eme pr´ec´edent)
n’a pas forc´ement lieu dans L
1
: ici E[X
n
] = 1 pour tout n alors que E[X

] = 0.
(2) Processus de branchement. Soit µ une mesure de probabilit´e sur N, telle que
m =

¸
k=1
k µ(k) < ∞.
On exclut les cas particuliers o` u µ est la mesure de Dirac en 1 ou la mesure de Dirac en 0.
Soit ensuite (ξ
n,j
)
n,j∈N
une famille de v.a. ind´ependantes de loi µ. On fixe aussi un entier
ℓ ≥ 1 et on d´efinit par r´ecurrence une suite (X
n
) de v.a. `a valeurs dans N en posant
X
0
= ℓ
X
n+1
=
Xn
¸
j=1
ξ
n,j
, ∀n ∈ N.
172
La quantit´e X
n
s’interpr`ete comme le nombre d’individus dans une population `a la g´en´eration
n, sachant que le nombre d’enfants de chaque individu suit la loi µ (et les nombres d’enfants
des diff´erents individus sont des v.a. ind´ependantes).
Alors la suite m
−n
X
n
est une martingale relativement `a la filtration
T
0
= ¦∅, Ω¦
T
n
= σ(ξ
k,j
: k < n, j ∈ N) , si n ≥ 1.
En effet, il est facile de voir que le processus (X
n
) est adapt´e (la d´efinition de X
n
ne fait
intervenir que les ξ
k,j
pour k < n). Ensuite, pour tout n ≥ 0,
E[X
n+1
[ T
n
] = E[

¸
j=1
1
{j≤Xn}
ξ
n,j
[ T
n
] =

¸
j=1
1
{j≤Xn}
E[ξ
n,j
[ T
n
] = mX
n
puisque ξ
n,j
est ind´ependante de T
n
, et donc E[ξ
n,j
[ T
n
] = E[ξ
n,j
] = m. En cons´equence,
E[m
−(n+1)
X
n+1
[ T
n
] = m
−n
X
n
.
Cela montre d’abord que les v.a. X
n
sont dans L
1
(une r´ecurrence imm´ediate montre que
E[X
n
] = ℓ m
n
) et ensuite que la suite m
−n
X
n
est une martingale positive.
Distinguons maintenant trois cas :
• m < 1. Puisque X
n
est `a valeurs enti`eres, la convergence de m
−n
X
n
vers une quantit´e
finie n’est possible que si X
n
= 0 pour tout n assez grand (extinction presque sˆ ure de la
population).
• m = 1. Dans ce cas X
n
est une martingale positive et on a la mˆeme conclusion
(extinction presque sˆ ure) une fois que l’on a v´erifi´e que
P(∃N ≥ 1, p ≥ 1 : ∀n ≥ N, X
n
= p) = 0.
Cette derni`ere assertion est obtenue comme une cons´equence facile du lemme de Borel-
Cantelli (on utilise le fait que µ(1) < 1).
• m > 1. On a
m
−n
X
n
−→
n→∞
Z (12.3)
et sur l’ensemble ¦Z > 0¦ on voit que X
n
est de l’ordre de m
n
quand n est grand. On voudrait
alors v´erifier que P(Z > 0) > 0 (et aussi que Z > 0 p.s. sur l’ensemble ¦liminf X
n
> 0¦ de
non-extinction). Remarquons que si la convergence (12.3) a lieu dans L
1
on a P(Z > 0) > 0,
puisque dans ce cas E[Z] = limm
−n
E[X
n
] = ℓ. On peut montrer (th´eor`eme de Kesten-
Stygum) que la convergence (12.3) a lieu dans L
1
ssi

¸
k=1
k log(k) µ(k) < ∞
et qu’alors Z > 0 p.s. sur l’ensemble de non-extinction. Nous verrons un r´esultat un peu
plus faible dans la partie 4 ci-dessous.
Si (X
n
)
n∈N
est une martingale born´ee dans L
1
, on peut lui appliquer le th´eor`eme 12.3.3
et obtenir que X
n
converge p.s. vers X

. Les exemples pr´ec´edents montrent qu’il n’y a pas
n´ecessairement convergence dans L
1
. Le th´eor`eme suivant caract´erise les martingales pour
lesquelles c’est le cas.
173
Th´eor`eme 12.3.5 Soit (X
n
)
n∈N
une martingale. Les deux conditions suivantes sont ´equiva-
lentes:
(i) X
n
converge vers X

p.s. et dans L
1
.
(ii) Il existe une v.a. Z ∈ L
1
(Ω, T, P) telle que X
n
= E[Z [ T
n
] pour tout n ∈ N.
De plus, si ces conditions sont satisfaites, on peut prendre Z = X

dans (ii). On dit alors
que la martingale (X
n
)
n∈N
est ferm´ee.
Preuve. Supposons d’abord (i). En ´ecrivant
X
n
= E[X
m
[ T
n
] , ∀m > n
et en utilisant le fait que l’application Y −→ E[Y [ T
n
] est une contraction de L
1
(i.e.
E[[E[Y [ T
n
][] ≤ E[[Y []), on trouve en faisant tendre m vers ∞ que X
n
= E[X

[ T
n
].
Inversement, supposons (ii). La suite (X
n
)
n∈N
est alors born´ee dans L
1
et donc converge
p.s. d’apr`es le th´eor`eme 12.3.3. Pour obtenir la convergence L
1
, traitons d’abord le cas o` u
la v.a. Z est born´ee par une constante K < ∞. Alors, toutes les v.a. X
n
sont aussi born´ees
par K, et le th´eor`eme de convergence domin´ee donne le r´esultat voulu. Dans le cas g´en´eral,
fixons ε > 0, et choisissons M > 0 assez grand pour que
E[[Z −Z 1
{|Z|≤M}
[] < ε.
Alors, pour tout n,
E[[X
n
−E[Z 1
{|Z|≤M}
[ T
n
][] = E[[E[Z −Z 1
{|Z|≤M}
[ T
n
][] < ε.
D’apr`es le cas born´e, la martingale E[Z 1
{|Z|≤M}
[ T
n
] converge dans L
1
. Donc on peut
choisir n
0
assez grand pour que, pour tous m, n ≥ n
0
,
E[[E[Z 1
{|Z|≤M}
[ T
m
] −E[Z 1
{|Z|≤M}
[ T
n
][] < ε.
En combinant ceci avec la majoration pr´ec´edente, on trouve que, pour tous m, n ≥ n
0
,
E[[X
m
−X
n
[] < 3ε.
Comme ε ´etait arbitraire, la suite (X
n
) est de Cauchy dans L
1
.
Corollaire 12.3.6 Soit Z ∈ L
1
(Ω, T, P). La martingale X
n
= E[Z [ T
n
] converge p.s. et
dans L
1
vers X

= E[Z [ T

], o` u T

=

¸
n=1
T
n
.
Preuve. Compte-tenu du th´eor`eme pr´ec´edent, il reste `a montrer que X

= E[Z [ T

].
Remarquons d’abord que X

est T

-mesurable puisque les v.a. X
n
le sont. Ensuite, pour
tout n ∈ N et A ∈ T
n
, on a
E[Z 1
A
] = E[X
n
1
A
] = E[X

1
A
].
174
Un argument simple de classe monotone (cf Th´eor`eme 1.4.1) montre que l’´egalit´e E[Z 1
A
] =
E[X

1
A
], vraie pour A ∈

¸
n=1
T
n
, reste vraie pour A ∈ σ


¸
n=1
T
n

= T

. Le r´esultat
recherch´e d´ecoule ensuite de la propri´et´e caract´eristique de l’esp´erance conditionnelle.
Exemple. Reprenons l’exemple (iv) de la partie 1 : Ω = [0, 1[, T est la tribu bor´elienne sur
[0, 1[, et P = λ est la mesure de Lebesgue. On consid`ere la filtration dyadique
T
n
= σ([
i −1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Soit µ une mesure finie sur [0, 1[, et pour tout entier n ∈ N,
f
n
(ω) =

dλ|Fn
(ω) =
2
n
¸
i=1
µ([(i −1)2
−n
, i2
−n
[)
2
−n
1
[(i−1)2
−n
,i2
−n
[
(ω).
On a d´ej`a remarqu´e que (f
n
)
n∈N
est une martingale (positive), et on a donc (Corollaire
12.3.4)
f
n
p.s.
−→
n→∞
f

avec

f

dλ < ∞. De plus f
n
≥ E[f

[ T
n
], ce qui montre que, pour tout A ∈ T
n
,
µ(A) =

f
n
1
A
dλ ≥

E[f

[ T
n
]1
A
dλ =

f

1
A
dλ.
En utilisant la densit´e dans L
1
des fonctions continues `a support compact (cf Th´eor`eme
4.3.1), on v´erifie ais´ement que l’espace des combinaisons lin´eaires `a coefficients positifs de
fonctions indicatrices d’intervalles dyadiques est dense dans l’espace L
1
+
([0, 1[, γ) des fonc-
tions γ-int´egrables positives, pour toute mesure finie γ sur [0, 1[. On d´eduit alors de l’in´egalit´e
pr´ec´edente que, pour toute fonction g mesurable positive born´ee sur [0, 1[, on a

g dµ ≥

gf

dλ.
Il en d´ecoule que ν = µ −f

λ est une mesure positive sur [0, 1[.
Montrons que ν est ´etrang`ere `a λ. Pour tout n ≥ 0, posons
h
n
=

dλ|Fn
= f
n
−E[f

[ T
n
].
Dans cet exemple on a T

= T et donc le corollaire 12.3.6 montre que E[f

[ T
n
] −→ f

p.s. En cons´equence h
n
−→ 0 p.s. et donc
λ

x ∈ [0, 1[: limsup
n→∞
h
n
(x) > 0
¸
= 0. (12.4)
D’autre part, pour tout ε > 0,
ν(¦x ∈ [0, 1[: h
n
(x) ≤ ε¦) =

1
{hn≤ε}
h
n
dλ ≤ ε,
175
ce qui entraˆıne
ν

x ∈ [0, 1[: limsup
n→∞
h
n
(x) < ε
¸
≤ ν


¸
N=1

¸
n=N
¦h
n
≤ ε¦

≤ ε.
On obtient ainsi
ν

x ∈ [0, 1[: limsup
n→∞
h
n
(x) = 0
¸
= 0
et en comparant avec (12.4) on voit que λ et ν sont port´ees par des bor´eliens disjoints.
Finalement l’´ecriture µ = f

λ + ν est la d´ecomposition de Lebesgue de la mesure µ
comme somme d’une mesure absolument continue et d’une mesure ´etrang`ere `a la mesure de
Lebesgue. De plus, µ est absolument continue par rapport `a λ ssi ν = 0 ce qui ´equivaut `a
dire que la martingale (f
n
) est ferm´ee.
12.4 La convergence dans L
p
pour p > 1
Notre but est maintenant d’´etudier sous quelles conditions une martingale (X
n
) converge
dans L
p
lorsque p > 1. Cela nous am`enera `a obtenir des estimations importantes pour la
probabilit´e de grandes valeurs du supremum sup
n∈N
X
n
.
Lemme 12.4.1 Soit (X
n
)
n∈N
une sous-martingale, et soient S et T deux temps d’arrˆet
born´es tels que S ≤ T. Alors
E[X
S
] ≤ E[X
T
].
Remarque. Le cas S = 0 a d´ej`a ´et´e vu dans le th´eor`eme 12.2.4.
Preuve. On sait d´ej`a que X
S
et X
T
sont dans L
1
. On d´efinit ensuite une famille pr´evisible
en posant, pour tout n ≥ 1,
H
n
= 1
{S<n≤T}
= 1
{S≤n−1}
−1
{T≤n−1}
.
Alors, si N est un entier choisi pour que S ≤ T ≤ N, on a
(H X)
N
= X
T
−X
S
et E[(H.X)
N
] ≥ 0 puisque H.X est une sous-martingale (th´eor`eme 12.1.2).
Th´eor`eme 12.4.2 (In´egalit´e maximale de Doob) Soit (X
n
)
n∈N
une sous-martingale. Alors,
pour tout a > 0 et tout n ∈ N,
a P

sup
0≤k≤n
X
k
≥ a

≤ E

X
n
1
{sup
0≤k≤n
X
k
≥a}

≤ E[X
+
n
].
Preuve. Introduisons le temps d’arrˆet
T = inf¦n ≥ 0 : X
n
≥ a¦.
176
Alors, si
A = ¦ sup
0≤k≤n
X
k
≥ a¦
on a A = ¦T ≤ n¦. Par ailleurs, en appliquant le lemme pr´ec´edent aux temps d’arrˆet T ∧ n
et n, on a
E[X
T∧n
] ≤ E[X
n
]
et d’autre part,
X
T∧n
≥ a 1
A
+ X
n
1
A
c.
En combinant ces deux in´egalit´es, on trouve
E[X
n
] ≥ aP(A) + E[X
n
1
A
c]
d’o` u la premi`ere in´egalit´e du th´eor`eme. La seconde est imm´ediate.
Proposition 12.4.3 Soit p > 1 et soit (X
n
)
n∈N
une sous-martingale positive. Posons
¯
X
n
= sup
0≤k≤n
X
k
.
Alors, pour tout n ≥ 0,
E[(
¯
X
n
)
p
] ≤ (
p
p −1
)
p
E[(X
n
)
p
].
En cons´equence, si (Y
n
)
n∈N
est une martingale et si
Y

n
= sup
0≤k≤n
[Y
k
[
on a pour tout n ≥ 0 :
E[(Y

n
)
p
] ≤ (
p
p −1
)
p
E[[Y
n
[
p
].
Preuve. La deuxi`eme partie de la proposition d´ecoule de la premi`ere appliqu´ee `a la sous-
martingale X
n
= [Y
n
[. Pour la premi`ere partie, on peut supposer E[(X
n
)
p
] < ∞, car sinon il
n’y a rien `a montrer. Alors, l’in´egalit´e de Jensen pour les esp´erances conditionelles montre
que, pour tout 0 ≤ k ≤ n, on a
E[(X
k
)
p
] ≤ E[E[X
n
[ T
k
]
p
] ≤ E[E[(X
n
)
p
[ T
n
]] = E[(X
n
)
p
]. (12.5)
On a donc aussi E[(
¯
X
n
)
p
] < ∞.
D’apr`es le th´eor`eme 12.4.2, on a pour tout a > 0
a P(
¯
X
n
≥ a) ≤ E[X
n
1
{
e
Xn≥a}
].
on multiplie chaque membre de cette in´egalit´e par a
p−2
et on int`egre par rapport `a la mesure
de Lebesgue da sur ]0, ∞[. A gauche, il vient


0
a
p−1
P(
¯
X
n
≥ a) da = E

e
Xn
0
a
p−1
da

=
1
p
E[(
¯
X
n
)
p
]
177
en utilisant le th´eor`eme de Fubini. De mˆeme, `a droite on a


0
a
p−2
E[X
n
1
{
e
Xn≥a}
]da = E

X
n

e
Xn
0
a
p−2
da

=
1
p −1
E[X
n
(
¯
X
n
)
p−1
]

1
p −1
E[(X
n
)
p
]
1
p
E[(
¯
X
n
)
p
]
p−1
p
.
d’apr`es l’in´egalit´e de H¨older. Il vient donc
1
p
E[(
¯
X
n
)
p
] ≤
1
p −1
E[(X
n
)
p
]
1
p
E[(
¯
X
n
)
p
]
p−1
p
d’o` u l’in´egalit´e de la premi`ere partie de la proposition (on utilise le fait que E[(
¯
X
n
)
p
] < ∞).

Si (X
n
)
n∈N
est un processus al´eatoire, on note
X


= sup
n∈N
[X
n
[.
Th´eor`eme 12.4.4 Soit (X
n
)
n∈N
une martingale. Supposons qu’il existe p > 1 tel que
sup
n∈N
E[[X
n
[
p
] < ∞.
Alors, X
n
converge p.s. et dans L
p
vers une v.a. X

telle que
E[[X

[
p
] = sup
n∈N
E[[X
n
[
p
]
et on a
E[(X


)
p
] ≤ (
p
p −1
)
p
E[[X

[
p
].
Preuve. La martingale (X
n
) ´etant born´ee dans L
1
, on sait d´ej`a que X
n
converge p.s. vers
X

. De plus, la proposition 12.4.3 montre que, pour tout n ∈ N,
E[(X

n
)
p
] ≤ (
p
p −1
)
p
sup
k∈N
E[[X
k
[
p
].
En passant `a la limite croissante qund n ↑ ∞, on a
E[(X


)
p
] ≤ (
p
p −1
)
p
sup
k∈N
E[[X
k
[
p
] < ∞
et donc X


∈ L
p
. Puisque toutes les v.a. [X
n
[ sont domin´ees par X


, le th´eor`eme de
convergence domin´ee montre que la suite X
n
converge dans L
p
vers X

. Enfin, puisque la
suite E[[X
n
[
p
] est croissante (cf (12.5)) on a
E[[X

[
p
] = lim
n→∞
E[[X
n
[
p
] = sup
n∈N
E[[X
n
[
p
].
178
Exemple. Revenons au processus de branchement (X
n
)
n∈N
introduit dans la partie pr´ec´e-
dente. On suppose que la loi de reproduction µ satisfait
m =

¸
k=0
k µ(k) ∈]1, ∞[
et

¸
k=0
k
2
µ(k) < ∞.
On pose aussi σ
2
= var(µ) =
¸
k
2
µ(k) − m
2
. On a vu que m
−n
X
n
est une martingale.
V´erifions que cette martingale est born´ee dans L
2
. On calcule facilement
E[X
2
n+1
[ T
n
] = E


¸
j,k=1
1
{j≤Xn,k≤Xn}
ξ
n,j
ξ
n,k
[ T
n

=

¸
j,k=1
1
{j≤Xn,k≤Xn}
E[ξ
n,j
ξ
n,k
]
=

¸
j,k=1
1
{j≤Xn,k≤Xn}
(m
2
+ σ
2
1
{j=k}
)
= m
2
X
2
n
+ σ
2
X
n
.
On a donc
E[X
2
n+1
] = m
2
E[X
2
n
] + ℓσ
2
m
n
.
En posant a
n
= m
−2n
E[X
2
n
], on obtient
a
n+1
= a
n
+ ℓσ
2
m
−n−2
et puisque m > 1 la suite (a
n
) converge. En cons´equence, la martingale m
−n
X
n
est born´ee
dans L
2
. D’apr`es le th´eor`eme 12.4.4, cette martingale converge dans L
2
vers Z. En partic-
ulier, E[Z] = E[X
0
] = ℓ et donc P(Z > 0) > 0 (il n’est pas tr`es difficile de voir qu’on a en
fait Z > 0 p.s. sur l’ensemble de non-extinction de la population).
12.5 Uniforme int´egrabilit´e et martingales
D´efinition 12.5.1 Une famille (X
i
)
i∈I
de v.a. dans L
1
(Ω, T, P) est dite uniform´ement
int´egrable (u.i. en abr´eg´e) si
lim
a→+∞

sup
i∈I
E[[X
i
[1
{|X
i
|>a}
]

= 0.
Il est imm´ediat qu’une famille uniform´ement int´egrable est born´ee dans L
1
: il suffit de
choisir a assez grand pour que

sup
i∈I
E[[X
i
[1
{|X
i
|>a}
]

≤ 1
179
et d’´ecrire ensuite E[[X
i
[] ≤ E[[X
i
[1
{|X
i
|≤a}
] + E[[X
i
[1
{|X
i
|>a}
] ≤ a + 1. La r´eciproque est
fausse : une famille born´ee dans L
1
n’est pas n´ecessairement u.i.
Exemples. (1) Une famille r´eduite `a un singleton est u.i. (c’est une cons´equence sim-
ple du th´eor`eme de convergence domin´ee). Plus g´en´eralement, tout sous-ensemble fini de
L
1
(Ω, T, P) est u.i.
(2) Si Z est une v.a. positive dans L
1
(Ω, T, P), l’ensemble des v.a. X telles que [X[ ≤ Z
est u.i. (il suffit en effet de majorer E[[X[1
{|X|>a}
] ≤ E[Z1
{Z>a}
] et d’utiliser l’exemple (1)).
(3) Soit Φ : R
+
−→ R
+
une fonction telle que x
−1
Φ(x) −→ +∞ quand x → +∞. Alors,
pour tout C > 0,
¦X ∈ L
1
(Ω, T, P) : E[Φ([X[)] ≤ C¦
est u.i. En effet, il suffit d’´ecrire
E[[X[1
{|X|>a}
] ≤ (sup
x>a
x
Φ(x)
) E[Φ([X[)].
(4) Si p > 1, tout sous-ensemble born´e de L
p
(Ω, T, P) est u.i. C’est le cas particulier de (3)
o` u Φ(x) = x
p
.
Le nom “uniform´ement int´egrable” est justifi´e par la proposition suivante.
Proposition 12.5.1 Soit (X
i
)
i∈I
une famille born´ee dans L
1
. Il y a ´equivalence entre :
(i) La famille (X
i
)
i∈I
est u.i.
(ii) Pour tout ε > 0, on peut choisir δ > 0 de fa¸con que, pour tout ´ev´enement A ∈ T de
probabilit´e P(A) < δ, on ait
∀i ∈ I, E[[X
i
[1
A
] < ε.
Preuve. (i)⇒(ii) Soit ε > 0. On peut choisir a > 0 assez grand tel que
sup
i∈I
E[[X
i
[1
{|X
i
|>a}
] <
ε
2
.
Si on pose δ = ε/(2a), alors la condition P(A) < δ entraˆıne que, pour tout i ∈ I,
E[[X
i
[1
A
] ≤ E[[X
i
[1
A∩{|X
i
|≤a}
] + E[[X
i
[1
{|X
i
|>a}
] ≤ aP(A) +
ε
2
< ε.
(ii)⇒(i) Soit C = sup
i∈I
E[[X
i
[]. D’apr`es l’in´egalit´e de Markov, pour tout a > 0,
∀i ∈ I, P([X
i
[ > a) ≤
C
a
.
Soit ε > 0 et choisissons δ pour que la propri´et´e de (ii) soit v´erifi´ee. Alors si a est assez
grand pour que C/a < δ, on a
∀i ∈ I, E[[X
i
[1
{|X
i
|>a}
] < ε
d’o` u l’uniforme int´egrabilit´e.
180
Corollaire 12.5.2 Soit X ∈ L
1
(Ω, T, P). Alors la famille des esp´erances conditionnelles
E[X [ (] quand ( d´ecrit toutes les sous-tribus de T est u.i.
Preuve. Soit ε > 0. Puisque le singleton ¦X¦ est u.i., la proposition pr´ec´edente permet de
choisir δ > 0 tel que, pour tout A ∈ T avec P(A) < δ on ait
E[[X[1
A
] ≤ ε.
Ensuite, pour tout a > 0,
P([E[X [ (][ > a) ≤
1
a
E[[E[X [ (][] ≤
E[[X[]
a
.
Donc, si a est suffisamment grand pour que E[[X[]/a < δ, on a en utilisant la propri´et´e
caract´eristique de l’esp´erance conditionnelle,
E[[E[X [ (][1
{|E[X|G]|>a}
] ≤ E[E[[X[ [ (]1
{|E[X|G]|>a}
] = E[[X[1
{|E[X|G]|>a}
] < ε
ce qui donne l’uniforme int´egrabilit´e recherch´ee.
Th´eor`eme 12.5.3 Soit (X
n
)
n∈N
une suite de v.a. dans L
1
qui converge en probabilit´e vers
X

. Alors il y a ´equivalence entre :
(i) La suite (X
n
)
n∈N
converge dans L
1
vers X

.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
Remarque. Le th´eor`eme de convergence domin´ee affirme qu’une suite (X
n
)
n→∞
convergeant
p.s. (donc aussi en probabilit´e) converge dans L
1
`a condition que [X
n
[ ≤ Z pour tout n,
o` u Z ≥ 0 est telle que E[Z] < ∞. Cette hypoth`ese de domination est bien sˆ ur plus forte
que l’uniforme int´egrabilit´e (cf exemple (2) ci-dessus), qui donne une condition n´ecessaire et
suffisante pour la convergence dans L
1
.
Preuve. (i)⇒(ii) D’abord, la suite (X
n
)
n∈N
est born´ee dans L
1
. Ensuite, soit ε > 0. On
peut choisir N assez grand tel que, pour tout n ≥ N,
E[[X
n
−X
N
[] <
ε
2
.
Puisque l’ensemble fini ¦X
0
, X
1
, . . . , X
N
¦ est u.i. on peut choisir δ > 0 assez petit de fa¸ con
que, pour tout ´ev´enement A de probabilit´e P(A) < δ,
∀n ∈ ¦0, 1, . . . , N¦, E[[X
n
[1
A
] <
ε
2
.
Mais alors, si n > N, on a aussi
E[[X
n
[1
A
] ≤ E[[X
N
[1
A
] + E[[X
n
−X
N
[] < ε.
On a v´erifi´e la condition (ii) de la proposition 12.5.1, d’o` u l’uniforme int´egrabilit´e.
181
(ii)⇒(i) En utilisant la caract´erisation de l’uniforme int´egrabilit´e fournie par la proposition
12.5.1(ii), on voit imm´ediatement que la famille (X
n
−X
m
)
n,m∈N
est aussi u.i. Donc, si ε > 0
est fix´e, on peut choisir a assez grand pour que, pour tous m, n ∈ N,
E[[X
n
−X
m
[1
{|Xn−Xm|>a}
] < ε.
Alors, pour tous m, n ∈ N,
E[[X
n
−X
m
[]
≤ E[[X
n
−X
m
[1
{|Xn−Xm|≤ε}
] + E[[X
n
−X
m
[1
{ε<|Xn−Xm|≤a}
] + E[[X
n
−X
m
[1
{|Xn−Xm|>a}
]
≤ 2ε + a P([X
n
−X
m
[ > ε).
La convergence en probabilit´e de la suite (X
n
) entraˆıne que
P([X
n
−X
m
[ > ε) ≤ P([X
n
−X

[ >
ε
2
) + P([X
m
−X

[ >
ε
2
) −→
n,m→∞
0.
On a ainsi obtenu
limsup
m,n→∞
E[[X
n
−X
m
[] ≤ ε
et puisque ε ´etait arbitraire, cela montre que la suite (X
n
)
n∈N
est de Cauchy pour la norme
L
1
.
Remarque. En cons´equence du th´eor`eme, si une suite (X
n
)
n→∞
converge en probabilit´e et
est born´ee dans L
p
pour une valeur p > 1, alors elle converge dans L
1
, et mˆeme dans L
q
pour tout q < p (appliquer le th´eor`eme `a [X
n
−X

[
q
).
Application aux martingales. En combinant le th´eor`eme pr´ec´edent avec le th´eor`eme
12.3.5, on obtient que les trois conditions suivantes sont ´equivalentes pour une martingale
(X
n
)
n∈N
:
(i) X
n
converge vers X

p.s. et dans L
1
.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
(iii) La martingale est ferm´ee : il existe une v.a. Z ∈ L
1
(Ω, T, P) telle que X
n
= E[Z [ T
n
]
pour tout n ∈ N.
Remarquons que (ii) d´ecoule aussi de (iii) via le corollaire 12.5.2. En particulier toute
martingale uniform´ement int´egrable est ferm´ee, et inversement. Rappelons que dans ce cas
on a X
n
= E[X

[ T
n
] pour tout n.
Th´eor`emes d’arrˆet. Si (X
n
)
n∈N
est un processus adapt´e qui converge p.s. vers X

, on
d´efinit X
T
pour tout temps d’arrˆet T fini ou non en posant
X
T
=

¸
n=0
1
{T=n}
X
n
+1
{T=∞}
X

.
Une extension facile de la proposition 12.2.3 montre que X
T
est T
T
-mesurable.
182
Th´eor`eme 12.5.4 Soit (X
n
)
n∈N
une martingale uniform´ement int´egrable. Alors, pour tout
temps d’arrˆet T fini ou non,
X
T
= E[X

[ T
T
],
et en particulier E[X
T
] = E[X

] = E[X
n
] pour tout n ∈ N. Si S et T sont deux temps
d’arrˆet tels que S ≤ T, on a
X
S
= E[X
T
[ T
S
].
Remarques. (i) Une cons´equence du th´eor`eme et du corollaire 12.5.2 est que la famille
¦X
T
, T temps d’arrˆet¦ est u.i.
(ii) Pour une martingale quelconque (X
n
)
n∈N
, on peut appliquer le th´eor`eme, pour tout
entier N ≥ 0 fix´e, `a la martingale arrˆet´ee (X
n∧N
)
n∈N
qui est u.i. On retrouve ainsi certains
des r´esultats pr´ec´edents.
Preuve. V´erifions d’abord que X
T
∈ L
1
:
E[[X
T
[] =

¸
n=0
E[1
{T=n}
[X
n
[] + E[1
{T=∞}
[X

[]
=

¸
n=0
E[1
{T=n}
[E[X

[ T
n
][] + E[1
{T=∞}
[X

[]


¸
n=0
E[1
{T=n}
E[[X

[ [ T
n
]] + E[1
{T=∞}
[X

[]
=

¸
n=0
E[1
{T=n}
[X

[] + E[1
{T=∞}
[X

[]
= E[[X

[] < ∞.
De plus, si A ∈ T
T
,
E[1
A
X
T
] =
¸
n∈N∪{∞}
E[1
A∩{T=n}
X
T
]
=
¸
n∈N∪{∞}
E[1
A∩{T=n}
X
n
]
=
¸
n∈N∪{∞}
E[1
A∩{T=n}
X

]
= E[1
A
X

].
Dans la premi`ere ´egalit´e on utilis´e le fait que X
T
∈ L
1
pour appliquer le th´eor`eme de Fubini et
´echanger somme et int´egrale, et dans la troisi`eme ´egalit´e on utilise l’´egalit´e X
n
= E[X

[ T
n
]
et la propri´et´e de d´efinition A ∩ ¦T = n¦ ∈ T
n
. Puisque X
T
est T
T
-mesurable, l’identit´e
pr´ec´edente suffit `a montrer que X
T
= E[X

[ T
T
].
Les autres assertions sont faciles : pour la derni`ere, l’inclusion T
S
⊂ T
T
entraˆıne que
X
S
= E[X

[ T
S
] = E[E[X

[ T
T
] [ T
S
] = E[X
T
[ T
S
].
183
Th´eor`eme 12.5.5 Soit (X
n
)
n∈N
une surmatingale. Supposons que l’une des deux conditions
suivantes soit v´erifi´ee :
(i) X
n
≥ 0 pour tout n ∈ N.
(ii) La suite (X
n
)
n∈N
est uniform´ement int´egrable.
Alors, pour tout temps d’arrˆet T, fini ou non, on a X
T
∈ L
1
. De plus, si S et T sont deux
temps d’arrˆet tels que S ≤ T, on a :
– dans le cas (i), 1
{S<∞}
X
S
≥ E[1
{T<∞}
X
T
[ T
S
];
– dans le cas (ii), X
S
≥ E[X
T
[ T
S
].
Preuve. Traitons d’abord le cas (i). On a vu que si le temps d’arrˆet T est born´e, on a
E[X
T
] ≤ E[X
0
] (th´eor`eme 12.2.4). Le lemme de Fatou montre alors que pour un temps
d’arrˆet quelconque,
E[X
T
] ≤ liminf
k→∞
E[X
T∧k
] ≤ E[X
0
]
et donc X
T
∈ L
1
. Soient ensuite S et T deux temps d’arrˆet tels que S ≤ T. Supposons
d’abord que S et T sont born´es par l’entier N. Alors le lemme 12.4.1 montre que E[X
S
] ≥
E[X
T
]. Plus g´en´eralement, pour tout ´ev´enement A ∈ T
S
, on peut consid´erer le temps d’arrˆet
S
A
(ω) =

S(ω) si ω ∈ A,
N si ω / ∈ A,
et de mˆeme le temps d’arrˆet T
A
(noter que A ∈ T
T
). En ´ecrivant E[X
S
A] ≥ E[X
T
A], on
trouve
∀A ∈ T
S
, E[X
S
1
A
] ≥ E[X
T
1
A
].
Revenons au cas g´en´eral o` u S et T sont des temps d’arrˆet quelconques avec S ≤ T, et soit
B ∈ T
S
. En appliquant ce qui pr´ec`ede aux temps d’arrˆet S ∧ k, T ∧ k et A = B ∩ ¦S ≤ k¦,
on trouve
E[X
S∧k
1
B∩{S≤k}
] ≥ E[X
T∧k
1
B∩{S≤k}
] ≥ E[X
T∧k
1
B∩{T≤k}
]
puisque ¦S ≤ k¦ ⊃ ¦T ≤ k¦ et X
T∧k
≥ 0. Donc,
E[X
S
1
B∩{S≤k}
] ≥ E[X
T
1
B∩{T≤k}
]
et en faisant tendre k vers ∞ on trouve par convergence domin´ee
E[X
S
1
B∩{S<∞}
] ≥ E[X
T
1
B∩{T<∞}
].
En notant
¯
X
S
= 1
{S<∞}
X
S
et
¯
X
T
= 1
{T<∞}
X
T
on a donc, pour tout B ∈ T
S
,
E[
¯
X
S
1
B
] ≥ E[
¯
X
T
1
B
] = E[E[
¯
X
T
[ T
S
]1
B
].
Puisque
¯
X
S
est T
S
-mesurable, cela entraˆıne facilement
¯
X
S
≥ E[
¯
X
T
[ T
S
].
184
Traitons maintenant le cas (ii). Puisque (X
n
)
n∈N
est u.i., (X
n
)
n∈N
est born´ee dans L
1
, et
donc converge p.s. vers X

. La convergence a aussi lieu dans L
1
grˆace au th´eor`eme 12.5.3.
La convergence L
1
permet de passer `a la limite m → ∞ dans l’in´egalit´e X
n
≥ E[X
n+m
[ T
n
],
et d’obtenir, pour tout n ∈ N,
X
n
≥ E[X

[ T
n
].
Par ailleurs, le corollaire 12.3.6 montre que la martingale ferm´ee Z
n
= E[X

[ T
n
] converge
p.s. vers X

(noter que X

est T

-mesurable). Si on pose Y
n
= X
n
− Z
n
, (Y
n
)
n∈N
est
une surmartingale positive, telle que Y

= 0. Du cas (i) (et du th´eor`eme 12.5.4) on d´eduit
d’abord que X
T
= Y
T
+ Z
T
est dans L
1
, puis que
Y
S
≥ E[Y
T
[ T
S
]
(les fonctions indicatrices sont superflues puisque Y

= 0). De plus, en appliquant le
th´eor`eme 12.5.4 `a la martingale u.i. Z
n
, on a aussi
Z
S
= E[Z
T
[ T
S
].
En combinant les deux relations obtenues on trouve bien
X
S
≥ E[X
T
[ T
S
].
Exemple. Ruine du joueur. Consid´erons `a nouveau une marche al´eatoire simple (pile ou
face) avec X
0
= k ≥ 0. Soit m ≥ 1 un entier tel que 0 ≤ k ≤ m. On pose
T = inf¦n ≥ 0 : X
n
= 0 ou X
n
= m¦.
Il d´ecoule d’un exemple trait´e dans la partie 3 que T < ∞ p.s. La martingale Y
n
= X
n∧T
est uniform´ement int´egrable, puisque born´ee, et on a donc E[Y

] = E[Y
0
] = k, soit
mP(X
T
= m) = k
d’o` u on d´eduit facilement que
P(X
T
= m) =
k
m
, P(X
T
= 0) = 1 −
k
m
.
On peut g´en´eraliser au pile ou face “biais´e” : on suppose que X
n
= k +Y
1
+. . . +Y
n
, o` u les
v.a. Y
i
sont ind´ependantes et de mˆeme loi
P(Y
1
= 1) = p , P(Y
1
= −1) = 1 −p = q,
o` u p ∈]0, 1[`¦
1
2
¦. Alors il est facile de v´erifier que
Z
n
= (
q
p
)
Xn
est une martingale. Si T est d´efini comme ci-dessus, le fait que la martingale Z
n∧T
converge
entraˆıne que T < ∞ p.s. Ensuite en appliquant le th´eor`eme d’arrˆet `a la martingale born´ee
Z
n∧T
, on trouve
(
q
p
)
k
= E

(
q
p
)
X
T

= (
q
p
)
m
P(X
T
= m) + P(X
T
= 0)
d’o` u
P(X
T
= m) =
(
q
p
)
k
−1
(
q
p
)
m
−1
, P(X
T
= 0) =
(
q
p
)
m
−(
q
p
)
k
(
q
p
)
m
−1
.
185
12.6 Martingales r´etrogrades
Une filtration r´etrograde est une famille (T
n
)
n∈−N
index´ee par les entiers n´egatifs de sous-
tribus de T, telle que, pour tous m, n ∈ −N,
n ≤ m ⇒ T
n
⊂ T
m
.
On notera
T
−∞
=
¸
n∈−N
T
n
qui est encore une sous-tribu de T. Remarquons que, `a la diff´erence du cas “direct” ´etudi´e
pr´ec´edemment, la tribu T
n
devient de plus en plus petite quand n → −∞.
Un processus (X
n
)
n∈−N
index´e par les entiers n´egatifs est une martingale r´etrograde (resp.
une surmartingale r´etrograde, une sous-martingale r´etrograde) relativement `a la filtration
(T
n
)
n∈−N
si X
n
est T
n
-mesurable et E[[X
n
[] < ∞ pour tout n ∈ −N, et si, pour tous
m, n ∈ −N,
n ≤ m ⇒ X
n
= E[X
m
[ T
n
] (resp. X
n
≥ E[X
m
[ T
n
], X
n
≤ E[X
m
[ T
n
]).
Th´eor`eme 12.6.1 Soit (X
n
)
n∈−N
une surmartingale r´etrograde. Supposons que
sup
n∈−N
E[[X
n
[] < ∞. (12.6)
Alors la suite (X
n
)
n∈−N
est uniform´ement int´egrable et converge p.s. et dans L
1
vers X

quand n → −∞. De plus, pour tout n ∈ −N,
E[X
n
[ T
−∞
] ≤ X

.
Remarques. (a) Dans le cas d’une martingale r´etrograde, la condition (12.6) est automa-
tiquement satisfaite puisqu’on a X
n
= E[X
0
[ T
n
] et donc E[[X
n
[] ≤ E[[X
0
[] pour tout
n ∈ −N. Pour la mˆeme raison, l’uniforme int´egrabilit´e de la suite (X
n
)
n∈−N
, dans le cas
d’une martingale, d´ecoule du corollaire 12.5.2.
(b) Dans le cas “direct” ´etudi´e pr´ec´edemment, le fait qu’une surmartingale (ou une mar-
tingale) soit born´ee dans L
1
n’entraˆıne pas son uniforme int´egrabilit´e : en ce sens le cas
r´etrograde est tr`es diff´erent du cas direct.
Preuve. Nous commen¸ cons par ´etablir la convergence p.s. de la suite (X
n
)
n∈−N
, qui d´ecoule
`a nouveau de l’in´egalit´e sur les nombres de mont´ees de Doob. Fixons un entier K ≥ 1 et
posons pour tout n ∈ ¦0, 1, . . . , K¦
Y
K
n
= X
−K+n
,
(
K
n
= T
−K+n
.
Pour n > K, on prend aussi Y
K
n
= X
0
et (
K
n
= T
0
. Alors (Y
K
n
)
n∈N
est une surmartingale
relativement `a la filtration ((
K
n
)
n∈N
. En appliquant le lemme 12.3.2 `a la sous-martingale
−Y
K
n
, on trouve pour tous a < b,
(b −a) E[N
K
([a, b], −Y
N
)] ≤ E[(−Y
K
K
−a)
+
] = E[(−X
0
−a)
+
] ≤ [a[ + E[[X
0
[].
186
On v´erifie ais´ement que quand K ↑ ∞, N
K
([a, b], −Y
N
) croˆıt vers
N([a, b], −X) := sup¦k ∈ N : ∃m
1
< n
1
< < m
k
< n
k
≤ 0,
−X
m
1
≤ a, −X
n
1
≥ b, . . . , −X
m
k
≤ a, −X
n
k
≥ b¦
qui est le nombre total de mont´ees de (−X
n
)
n∈−N
le long de [a, b]. Le th´eor`eme de convergence
monotone entraˆıne donc
(b −a) E[N([a, b], −X)] ≤ [a[ + E[[X
0
[] < ∞.
On obtient ainsi que N([a, b], X) < ∞pour tous les rationnels a < b, p.s. Par une adaptation
´evidente du lemme 12.3.1 cela entraˆıne la convergence presque sˆ ure de la suite (X
n
)
n∈−N
quand n → −∞, et le lemme de Fatou montre que la limite X

v´erifie E[[X

[] < ∞.
Montrons maintenant que la suite (X
n
)
n∈−N
est uniform´ement int´egrable. Soit ε > 0.
La suite (E[X
−n
])
n∈N
´etant croissante et major´ee (grˆace `a (12.6)) on peut choisir un entier
K ≤ 0 assez petit de fa¸ con que, pour tout n ≤ K,
E[X
n
] ≤ E[X
K
] +
ε
2
.
La famille finie (X
K
, X
K+1
, . . . , X
−1
, X
0
) ´etant uniform´ement int´egrable, on peut choisir
a > 0 assez grand de mani`ere que, pour tout n ∈ ¦K, K + 1, . . . , −1, 0¦,
E[[X
n
[1
{|Xn|>a}
] < ε.
De plus, on peut choisir δ > 0 assez petit de fa¸ con que, pour tout A ∈ T tel que P(A) < δ
on ait
E[[X
K
[1
A
] <
ε
2
.
Ensuite, si n < K,
E[[X
n
[1
{|Xn|>a}
] = E[−X
n
1
{Xn<−a}
] + E[X
n
1
{Xn>a}
]
= −E[X
n
1
{Xn<−a}
] + E[X
n
] −E[X
n
1
{Xn≤a}
]
≤ −E[E[X
K
[ T
n
]1
{Xn<−a}
] + E[X
K
] +
ε
2
−E[E[X
K
[ T
n
]1
{Xn≤a}
]
= −E[X
K
1
{Xn<−a}
] + E[X
K
] +
ε
2
−E[X
K
1
{Xn≤a}
]
= −E[X
K
1
{Xn<−a}
] + E[X
K
1
{Xn>a}
] +
ε
2
≤ E[[X
K
[1
{|Xn|>a}
] +
ε
2
.
Dans la premi`ere in´egalit´e ci-dessus, on a utilis´e la propri´et´e E[X
n
] ≤ E[X
K
] + ε/2 et
l’in´egalit´e de surmartingale X
n
≥ E[X
K
[ T
n
]. On observe maintenant que
P([X
n
[ > a) ≤
1
a
E[[X
n
[] ≤
C
a
187
o` u C = sup E[[X
k
[] est fini par hypoth`ese. Quitte `a choisir a encore plus grand, on peut
supposer que C/a < δ, de sorte que
E[[X
K
[1
{|Xn|>a}
] <
ε
2
et en combinant avec ce qui pr´ec`ede,
E[[X
n
[1
{|Xn|>a}
] < ε,
pour tout n < K. Comme cette in´egalit´e est aussi vraie pour n ∈ ¦K, K + 1, . . . , −1, 0¦,
cela termine la preuve de l’uniforme int´egrabilit´e de la suite (X
n
)
n∈−N
.
Le reste de la preuve est facile. L’uniforme int´egrabilit´e et la convergence p.s. entraˆınent
la convergence dans L
1
. Ensuite, en ´ecrivant
E[X
n
1
A
] ≤ E[X
m
1
A
]
pour m ≤ n et A ∈ T
−∞
⊂ T
m
, et en passant `a la limite m → −∞, on trouve
E[X
n
1
A
] ≤ E[X

1
A
] , ∀A ∈ T
−∞
.
On a donc aussi
E[E[X
n
[ T
−∞
]1
A
] ≤ E[X

1
A
] , ∀A ∈ T
−∞
.
et puisque X

est clairement T
−∞
-mesurable, cela suffit pour entraˆıner E[X
n
[ T
−∞
] ≤ X

.

Corollaire 12.6.2 Soit Z une v.a. dans L
1
, et soit ((
n
)
n∈N
une suite d´ecroissante de tribus.
Alors,
E[Z [ (
n
]
p.s.,L
1
−→
n→∞
E[Z [ (

]
o` u
(

=
¸
n∈N
(
n
.
Preuve. Pour tout n ∈ N, posons X
−n
= E[Z [ (
n
] et T
−n
= (
n
. Alors (X
n
)
n∈−N
est une
martingale relativement `a la filtration r´etrograde (T
n
)
n∈−N
. Le th´eor`eme assure donc que
X
n
converge p.s. et dans L
1
quand n → −∞. De plus, grˆace `a la derni`ere assertion du
th´eor`eme, X

= E[X
0
[ T
−∞
] = E[E[Z [ T
0
] [ T
−∞
] = E[Z [ T
−∞
].
Applications. (A) La loi forte des grands nombres. Soit ξ
1
, ξ
2
, . . . une suite de v.a. r´eelles
ind´ependantes et de mˆeme loi, dans L
1
. On pose S
0
= 0 et pour tout n ≥ 1,
S
n
= ξ
1
+ + ξ
n
.
On remarque que
E[ξ
1
[ S
n
] =
1
n
S
n
. (12.7)
188
En effet, on sait qu’il existe une fonction mesurable g telle que E[ξ
1
[ S
n
] = g(S
n
). Si
k ∈ ¦1, . . . , n¦, le couple (ξ
k
, S
n
) a mˆeme loi que (ξ
1
, S
n
), de sorte que, pour toute fonction
h mesurable born´ee,
E[ξ
k
h(S
n
)] = E[ξ
1
h(S
n
)] = E[g(S
n
)h(S
n
)]
ce qui montre qu’on a aussi E[ξ
k
[ S
n
] = g(S
n
). Il en r´esulte que
ng(S
n
) = E[ξ
1
+ + ξ
n
[ S
n
] = S
n
d’o` u l’identit´e annonc´ee (12.7).
On a aussi, pour tout n ≥ 1,
E[ξ
1
[ S
n
, ξ
n+1
, ξ
n+2
, . . .] =
1
n
S
n
. (12.8)
Cela d´ecoule imm´ediatement de (12.7) et du lemme suivant, appliqu´e en prenant Z = ξ
1
,
H
1
= σ(S
n
) et H
2
= σ(ξ
n+1
, ξ
n+2
, . . .).
Lemme 12.6.3 Soit Z une v.a. dans L
1
et soient H
1
et H
2
deux sous-tribus de T. Sup-
posons que H
2
est ind´ependante de σ(Z) ∨ H
1
. Alors,
E[Z [ H
1
∨ H
2
] = E[Z [ H
1
]
La preuve de ce lemme est une application simple du lemme de classe monotone (Th´eor`eme
1.4.1) : on voit imm´ediatement que la propri´et´e E[1
A
Z] = E[1
A
E[Z [ H
1
]] est vraie pour
les ensembles A ∈ H
1
∨ H
2
de la forme A = B ∩ C, avec B ∈ H
1
, C ∈ H
2
, et il en d´ecoule
que cette propri´et´e est vraie pour tout A ∈ H
1
∨ H
2
.
On peut maintenant appliquer le corollaire 12.6.2 en prenant Z = ξ
1
et pour tout n ≥ 0,
(
n
= σ(S
n
, ξ
n+1
, ξ
n+2
, . . .),
de sorte que
1
n
S
n
= E[Z [ (
n
] par (12.8). On obtient que la suite
1
n
S
n
converge p.s. et
dans L
1
. La loi du tout ou rien de Kolmogorov (Th´eor`eme 10.2.1) assure que la limite est
constante et donc ´egale `a lim
1
n
E[S
n
] = E[ξ
1
].
(B) La loi du tout ou rien de Hewitt-Savage. Soit ξ
1
, ξ
2
, . . . une suite de v.a. ind´ependantes et
de mˆeme loi `a valeurs dans un espace mesurable (E, c). L’application ω −→ (ξ
1
(ω), ξ
2
(ω), . . .)
d´efinit une v.a. `a valeurs dans l’espace produit E
N

, qui est muni de la plus petite tribu
rendant mesurables les applications coordonn´ees (x
1
, x
2
, . . .) −→ x
i
pour tout i ∈ N

. Une
fonction mesurable F d´efinie sur E
N

est dite sym´etrique si
F(x
1
, x
2
, x
3
, . . .) = F(x
π(1)
, x
π(2)
, x
π(3)
, . . .)
pour toute permutation π de N

`a support fini.
Th´eor`eme 12.6.4 Si F est une fonction sym´etrique sur E
N

la variable al´eatoire F(ξ
1
, ξ
2
, . . .)
est constante p.s.
189
Exemple. Supposons les v.a. ξ
1
, ξ
2
, . . . `a valeurs dans R
d
, et consid´erons la marche al´eatoire
(en dimension d)
X
n
= ξ
1
+ + ξ
n
.
Si B est un bor´elien de R
d
,
1
{Card{n≥1:Xn∈B}=∞}
est une fonction sym´etrique de ξ
1
, ξ
2
, . . .. On a donc
P(Card¦n ≥ 1 : X
n
∈ B¦ = ∞) = 0 ou 1.
Preuve. Sans perte de g´en´eralit´e on peut supposer F born´ee. On pose
T
n
= σ(ξ
1
, . . . , ξ
n
) , (
n
= σ(ξ
n+1
, ξ
n+2
, . . .).
On note Y = F(ξ
1
, ξ
2
, . . .) et on pose pour tout n ∈ N
X
n
= E[Y [ T
n
] , Z
n
= E[Y [ (
n
].
Alors le corollaire 12.3.6 assure que X
n
converge p.s. et dans L
1
vers E[Y [ T

] = Y ,
cependant que le corollaire 12.6.2 montre que Z
n
converge p.s. et dans L
1
vers E[Y [ (

] =
E[Y ] puisque (

est grossi`ere (loi du tout ou rien de Kolmogorov). Donc pour tout ε > 0,
on peut choisir n assez grand de fa¸ con que
E[[X
n
−Y [] < ε , E[[Z
n
−E[Y ][] < ε. (12.9)
D’autre part, il existe une fonction mesurable g : E
n
−→R telle que X
n
= g(ξ
1
, . . . , ξ
n
),
et la premi`ere borne de (12.9) se traduit par :
E[[F(ξ
1
, ξ
2
, . . .) −g(ξ
1
, . . . , ξ
n
)[] < ε.
Puisque la suite (ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) a mˆeme loi que (ξ
1
, ξ
2
. . .), cette borne
entraˆıne aussi que
E[[F(ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) −g(ξ
n+1
, . . . , ξ
2n
)[] < ε.
Mais F(ξ
n+1
, . . . , ξ
2n
, ξ
1
, . . . , ξ
n
, ξ
2n+1
, . . .) = F(ξ
1
, . . . , ξ
n
, ξ
n+1
, . . . , ξ
2n
, ξ
2n+1
, . . .) = Y grˆace
`a la sym´etrie de F, et on a donc obtenu
E[[Y −g(ξ
n+1
, . . . , ξ
2n
)[] < ε. (12.10)
En prenant l’esp´erance conditionnelle par rapport `a (
n
, on a
E[[E[Y [ (
n
] −E[g(ξ
n+1
, . . . , ξ
2n
) [ (
n
][] < ε,
soit
E[[Z
n
−g(ξ
n+1
, . . . , ξ
2n
)[] < ε. (12.11)
En combinant (12.10) et (12.11) avec la deuxi`eme borne de (12.9), on trouve
E[[Y −E[Y ][] < 3ε.
Puisque ε ´etait arbitraire on a donc Y = E[Y ] p.s.
190
Chapitre 13
Chaˆınes de Markov
13.1 D´efinition et premi`eres propri´et´es
Dans tout ce chapitre, E est un espace fini ou d´enombrable, qui est muni comme d’habitude
de la tribu {(E). Une matrice stochastique sur E est une famille (Q(x, y), x, y ∈ E) de
nombres r´eels satisfaisant les deux conditions :
(i) 0 ≤ Q(x, y) ≤ 1 pour tous x, y ∈ E;
(ii) pour tout x ∈ E,
¸
y∈E
Q(x, y) = 1.
Cette notion est ´equivalente `a celle de probabilit´e de transition de E dans E : si on pose
ν(x, A) =
¸
y∈A
Q(x, y) , x ∈ E, A ⊂ E,
on voit que ν est une probabilit´e de transition de E dans E (voir le Chapitre 11), et inverse-
ment si on part d’une telle probabilit´e de transition ν, la formule Q(x, y) = ν(x, ¦y¦) d´efinit
une matrice stochastique sur E.
Pour tout entier n ≥ 1, on peut d´efinir Q
n
= (Q)
n
: Q
1
= Q, et ensuite par r´ecurrence,
Q
n+1
(x, y) =
¸
z∈E
Q
n
(x, z)Q(z, y).
On v´erifie que Q
n
est encore une matrice stochastique sur E. On pose aussi Q
0
(x, y) = 1
{x=y}
.
Pour toute fonction f : E −→R
+
, on notera Qf la fonction d´efinie par
Qf(x) =
¸
y∈E
Q(x, y)f(y).
D´efinition 13.1.1 Soit Q une matrice stochastique sur E, et soit (X
n
)
n∈N
un processus
al´eatoire `a valeurs dans E. On dit que (X
n
)
n∈N
est une chaˆıne de Markov de matrice de tran-
sition Q si pour tout entier n ≥ 0, la loi conditionnelle de X
n+1
connaissant (X
0
, X
1
, . . . , X
n
)
est Q(X
n
, y). De mani`ere ´equivalente, cela signifie que
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = Q(x
n
, y),
pour tous x
0
, x
1
, . . . , x
n
, y ∈ E tels que P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) > 0.
191
Remarques. (i) En g´en´eral, la loi conditionnelle de X
n+1
connaissant X
0
, X
1
, . . . , X
n
d´epend de toutes les variables X
0
, X
1
, . . . , X
n
et pas seulement de la derni`ere X
n
. Le fait
qu’ici cette loi conditionnelle ne d´epende que de X
n
est ce qu’on appelle la propri´et´e de
Markov : pour pr´edire le futur (X
n+1
) la connaissance du pass´e (X
0
, X
1
, . . . , X
n
) ne donne
pas plus d’information que celle du pr´esent (X
n
). Nous verrons plus tard d’autres formes
plus pr´ecises de la propri´et´e de Markov, qui correspondent `a la mˆeme id´ee.
(ii) La fonction Q(x, ) donnant la loi conditionnelle de X
n+1
sachant que X
n
= x ne d´epend
pas de l’entier n : c’est le caract`ere homog`ene de la chaˆıne de Markov. On pourrait aussi
consid´erer des chaˆınes de Markov inhomog`enes, pour lesquelles le m´ecanisme de transition
entre les instants n et n + 1 d´epend de n.
Proposition 13.1.1 Un processus (X
n
)
n∈N
`a valeurs dans E est une chaˆıne de Markov de
matrice de transition Q ssi, pour tout n ≥ 0 et pour tous x
0
, x
1
, . . . , x
n
∈ E,
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P(X
0
= x
0
)Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n−1
, x
n
). (13.1)
En particulier, on a si P(X
0
= x
0
) > 0,
P(X
n
= x
n
[ X
0
= x
0
) = Q
n
(x
0
, x
n
).
Preuve. Si (X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q la formule donn´ee
est imm´ediate par r´ecurrence sur n en ´ecrivant
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n+1
= x
n+1
) =
= P(X
0
= x
0
, . . . , X
n
= x
n
) P(X
n+1
= x
n+1
[ X
0
= x
0
, . . . , X
n
= x
n
).
Inversement, si la formule donn´ee est vraie, on v´erifie imm´ediatement que
P(X
n+1
= y [ X
0
= x
0
, . . . , X
n
= x
n
) =
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n−1
, x
n
)Q(x
n
, y)
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n−1
, x
n
)
= Q(x
n
, y).
La derni`ere assertion s’obtient en remarquant que
Q
n
(x
0
, x
n
) =
¸
x
1
,x
2
,...,x
n−1
∈E
Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n−1
, x
n
).
Remarque. La formule (13.1) montre que pour une chaˆıne de Markov (X
n
)
n∈N
, la loi de
(X
0
, X
1
, . . . , X
n
) est compl`etement d´etermin´ee par la connaissance de la loi initiale (la loi de
X
0
) et de la matrice de transition Q.
La proposition suivante rassemble d’autres propri´et´es simples des chaˆınes de Markov.
Dans (ii) ci-dessous, on utilise la notation P(A [ Z) pour d´esigner l’esp´erance conditionnelle
E[1
A
[ Z].
Proposition 13.1.2 Soit (X
n
)
n∈N
une chaˆıne de Markov de matrice de transition Q.
192
(i) Pour tout entier n ≥ 0 et toute fonction mesurable f : E −→R
+
,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] = E[f(X
n+1
) [ X
n
] = Qf(X
n
).
Plus g´en´eralement, pour tout sous-ensemble fini ¦i
1
, . . . , i
k
¦ de ¦0, 1, . . . , n −1¦, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = Qf(X
n
).
(ii) Pour tous les entiers n ≥ 0, p ≥ 1 et pour tous y
1
, . . . , y
p
∈ E,
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
, . . . , X
n
) = Q(X
n
, y
1
)Q(y
1
, y
2
) . . . Q(y
p−1
, y
p
),
et donc
P(X
n+p
= y
p
[ X
n
) = Q
p
(X
n
, y
p
).
Si on pose Y
p
= X
n+p
pour tout p ∈ N, le processus (Y
p
)
p∈N
est encore une chaˆıne de
Markov de matrice de transition Q.
Preuve. (i) D’apr`es la d´efinition,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] =
¸
y∈E
Q(X
n
, y)f(y) = Qf(X
n
).
Ensuite, si ¦i
1
, . . . , i
k
¦ est un sous-ensemble fini de ¦0, 1, . . . , n −1¦, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = E[E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] [ X
i
1
, . . . , X
i
k
, X
n
]
= E[Qf(X
n
) [ X
i
1
, . . . , X
i
k
, X
n
]
= Qf(X
n
).
(ii) Il d´ecoule imm´ediatement de (13.1) que
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
= x
0
, . . . , X
n
= x
n
) = Q(x
n
, y
1
)Q(y
1
, y
2
) Q(y
p−1
, y
p
).
La formule pour P(X
n+p
= y
p
[ X
n
) en d´ecoule en sommant sur les choix possibles de
y
1
, . . . , y
p−1
. Enfin, pour la derni`ere assertion, on d´eduit de ce qui pr´ec`ede que
P(Y
0
= y
0
, Y
1
= y
1
, . . . , Y
p
= y
p
) = P(X
n
= y
0
)Q(y
0
, y
1
)Q(y
1
, y
2
) . . . Q(y
p−1
, y
p
),
et on utilise la caract´erisation donn´ee dans la proposition 13.1.1.
13.2 Quelques exemples
13.2.1 Variables al´eatoires ind´ependantes
Si (X
n
)
n∈N
est une suite de v.a. ind´ependantes `a valeurs dans E, de mˆeme loi µ, alors
(X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition
Q(x, y) = µ(y), ∀x, y ∈ E.
La v´erification est imm´ediate. Ce n’est pas l’exemple le plus int´eressant de chaˆıne de Markov !
193
13.2.2 Marches al´eatoires sur Z
d
Soient η, ξ
1
, ξ
2
, . . . , ξ
n
, . . . des v.a. ind´ependantes `a valeurs dans Z
d
. On suppose que ξ
1
, ξ
2
, . . .
ont mˆeme loi µ et on pose pour tout n ≥ 0,
X
n
= η + ξ
1
+ ξ
2
+ + ξ
n
.
Alors (X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition
Q(x, y) = µ(y −x), ∀x, y ∈ E.
En effet, en remarquant que ξ
n+1
est ind´ependante de (X
0
, X
1
, . . . , X
n
), on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(ξ
n+1
= y −x
n
[ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(ξ
n+1
= y −x
n
)
= µ(y −x
n
).
Soit (e
1
, . . . , e
d
) la base canonique de R
d
. Dans le cas o` u µ(e
i
) = µ(−e
i
) =
1
2d
pour tout
i ∈ ¦1, . . . , d¦, la chaˆıne de Markov obtenue est appel´ee la marche al´eatoire simple sur Z
d
.
13.2.3 Marche al´eatoire simple sur un graphe
Soit {
2
(E) l’ensemble des parties de E `a deux ´el´ements, et soit A un sous-ensemble de
{
2
(E). Pour tout x ∈ E, on note
A
x
= ¦y ∈ E : ¦x, y¦ ∈ A¦.
On suppose que A
x
est fini et non vide pour tout x ∈ E. On d´efinit alors une matrice de
transition Q sur E en posant pour tous x, y ∈ E,
Q(x, y) =

1
Card A
x
si ¦x, y¦ ∈ A
0 sinon.
Une chaˆıne de Markov de matrice de transition Q est appel´ee marche al´eatoire simple sur le
graphe (E, A).
13.2.4 Processus de branchement
Rappelons la d´efinition de ces processus d´ej`a ´etudi´es dans le chapitre pr´ec´edent. Si µ est
une mesure de probabilit´e sur N, et ℓ ∈ N, on d´efinit par r´ecurrence une suite (X
n
) de v.a.
`a valeurs dans N en posant
X
0
= ℓ
X
n+1
=
Xn
¸
j=1
ξ
n,j
, ∀n ∈ N,
194
o` u les v.a. ξ
n,j
, n, j ∈ N sont ind´ependantes et de loi µ. Alors, (X
n
)
n∈N
est une chaˆıne de
Markov sur E = N de matrice de transition
Q(x, y) = µ
∗x
(y), ∀x, y ∈ N,
o` u µ
∗x
est la convolution de µ x fois avec elle-mˆeme, ou de mani`ere ´equivalente la loi de la
somme de x v.a. ind´ependantes de loi µ (en particulier µ
∗0
est la mesure de Dirac en 0). En
effet, en observant que les v.a. ξ
n,j
, j ∈ N sont ind´ependantes de X
0
, . . . , X
n
, on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
¸
j=1
ξ
n,j
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
¸
j=1
ξ
n,j
= y)
= µ
∗xn
(y).
13.3 La chaˆıne de Markov canonique
Nous commen¸ cons par un r´esultat d’existence de chaˆıne de Markov associ´ee `a une matrice
de transition donn´ee.
Proposition 13.3.1 Soit Q une matrice stochastique sur E. On peut trouver un espace de
probabilit´e (Ω

, T

, P

) sur lequel il existe, pour tout x ∈ E, un processus (X
x
n
)
n∈N
qui est une
chaˆıne de Markov de matrice de transition Q, issue de X
x
0
= x.
Preuve. On peut prendre Ω

= [0, 1[, muni de la tribu bor´elienne et de la mesure de
Lebesgue. A partir du d´eveloppement dyadique (propre) d’un r´eel ω ∈ [0, 1[,
ω =

¸
n=0
ε
n
(ω) 2
−n−1
, ε
n
(ω) ∈ ¦0, 1¦
on construit une suite (ε
n
)
n∈N
de v.a. ind´ependantes de mˆeme loi P(ε
n
= 1) = P(ε
n
= 0) =
1/2. Si ϕ est une injection de NN dans N, les v.a. η
i,j
= ε
ϕ(i,j)
, i, j ∈ N sont (´evidemment)
encore ind´ependantes et de mˆeme loi. En posant
U
i
=

¸
j=0
η
i,j
2
−j−1
on obtient une suite U
0
, U
1
, U
2
, . . . de v.a. ind´ependantes de loi uniforme sur [0, 1] (pour voir
que U
i
suit la loi uniforme, noter que
¸
p
j=0
η
i,j
2
−j−1
a mˆeme loi que
¸
p
n=0
ε
n
2
−n−1
, pour
tout entier p, et faire tendre p vers ∞).
Soit y
1
, y
2
, . . . , y
k
, . . . une ´enum´eration des ´el´ements de E. Fixons aussi x ∈ E. On pose
X
x
0
= x puis
X
x
1
= y
k
si
¸
1≤j<k
Q(x, y
j
) < U
1

¸
1≤j≤k
Q(x, y
j
)
195
de sorte qu’il est clair que P(X
x
1
= y) = Q(x, y) pour tout y ∈ E. On continue par r´ecurrence
en posant
X
x
n+1
= y
k
si
¸
1≤j<k
Q(X
x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(X
x
n
, y
j
).
En utilisant l’ind´ependance des v.a. U
i
, on v´erifie tr`es facilement que pour tout k ≥ 1,
P(X
x
n+1
= y
k
[ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
¸
1≤j<k
Q(x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(x
n
, y
j
) [ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
¸
1≤j<k
Q(x
n
, y
j
) < U
n+1

¸
1≤j≤k
Q(x
n
, y
j
))
= Q(x
n
, y
k
),
de sorte que (X
x
n
)
n∈N
est une chaˆıne de Markov de transition Q.
Dans la suite, il sera utile de faire un choix canonique de l’espace de probabilit´e sur lequel
sera d´efinie la chaˆıne de Markov ´etudi´ee. On prendra
Ω = E
N
.
Un ´el´ement ω de Ω est donc une suite ω = (ω
0
, ω
1
, ω
2
, . . .) d’´elements de E. Les applications
coordonn´ees X
n
, n ∈ N sont alors d´efinies par
X
n
(ω) = ω
n
.
On munit Ω de la plus petite tribu, not´ee T, qui rende mesurables les applications coor-
donn´ees. C’est aussi la tribu engendr´ee par les “cylindres”, c’est-`a-dire les ensembles C de
la forme
C = ¦ω ∈ Ω : ω
0
= x
0
, ω
1
= x
1
, . . . , ω
n
= x
n
¦
o` u n ∈ N et x
0
, x
1
, . . . x
n
∈ E.
Lemme 13.3.2 Soit (G, () un espace mesurable, et soit ψ une application de G dans Ω.
Alors ψ est mesurable ssi X
n
◦ ψ l’est pour tout n ∈ N.
Preuve. Il suffit bien sˆ ur de montrer que si X
n
◦ ψ est mesurable pour tout n, alors ψ l’est
aussi. Or,
¦A ∈ T : ψ
−1
(A) ∈ (¦
est une tribu sur Ω qui par hypoth`ese contient tous les ensembles de la forme X
−1
n
(y), y ∈ E,
donc rend mesurables toutes les applications coordonn´ees X
n
. Cette tribu est n´ecessairement
T tout enti`ere.
Th´eor`eme 13.3.3 Soit Q une matrice stochastique sur E. Pour tout x ∈ E, il existe une
unique probabilit´e, not´ee P
x
, sur Ω = E
N
telle que sous P
x
, le processus des coordonn´ees
(X
n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q, et P
x
(X
0
= x) = 1.
196
Preuve. Soit x ∈ E. La proposition 13.3.1 permet de construire sur un espace de probabilit´e
(Ω

, T

, P

) un processus (X
x
n
)
n∈N
qui est une chaˆıne de Markov de transition Q telle que
X
x
0
= x. On d´efinit alors P
x
comme la mesure image de P

par l’application


−→ Ω
ω

−→ (X
x
n


))
n∈N
.
Cette application est mesurable grˆace au lemme pr´ec´edent. On a P
x
(X
0
= x) = P

(X
x
0
=
x) = 1 et de plus pour tous x
0
, x
1
, . . . , x
n
∈ E,
P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P

(X
x
0
= x
0
, X
x
1
= x
1
, . . . , X
x
n
= x
n
)
= P

(X
x
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
)
= P
x
(X
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
)
ce qui montre que sous P
x
le processus des coordonn´ees est une chaˆıne de Markov de transition
Q (cf proposition 13.1.1).
Pour l’unicit´e, on remarque que si P

x
est une autre mesure de probabilit´e satisfaisant la
propri´et´e du th´eor`eme, les mesures P
x
et P

x
co¨ıncident sur les cylindres. Or les cylindres
forment une classe stable par intersection finie et qui engendre la tribu T. Le lemme de
classe monotone montre alors que P
x
= P

x
(cf Corollaire 1.4.2).
Remarques. (a) De la derni`ere assertion de la proposition 13.1.1, on d´eduit que, pour tout
n ≥ 0 et tous x, y ∈ E,
P
x
(X
n
= y) = Q
n
(x, y).
(b) Si µ est une mesure de probabilit´e sur E, on notera
P
µ
=
¸
x∈E
µ(x) P
x
qui d´efinit une mesure de probabilit´e sur Ω. En ´ecrivant la formule explicite pour P
µ
(X
0
=
x
0
, . . . , X
n
= x
n
), on v´erifie imm´ediatement que sous P
µ
, (X
n
)
n∈N
est une chaˆıne de Markov
de transition Q, et X
0
a pour loi µ.
(c) Si (X

n
)
n∈N
est une chaˆıne de Markov de matrice de transition Q et de loi initiale µ, alors
pour toute partie mesurable B de Ω = E
N
, on a
P((X

n
)
n∈N
∈ B) = P
µ
(B).
En effet cette ´egalit´e est vraie lorsque B est un cylindre, et on peut ensuite utiliser le mˆeme
argument qu’`a la fin de la preuve ci-dessus. Cette ´egalit´e montre que tous les r´esultats
que nous ´etablirons dans la suite pour la chaˆıne de Markov canonique (celle fournie par le
th´eor`eme 13.3.3) se transporteront `a une chaˆıne de Markov quelconque de mˆeme matrice de
transition.
L’un des avantages importants de la chaˆıne de Markov canonique est de pouvoir utiliser
les op´erateurs de translation. Pour tout k ∈ N on d´efinit l’application θ
k
: Ω −→ Ω en posant
θ
k
((ω
n
)
n∈N
) = (ω
k+n
)
n∈N
.
197
Le lemme 13.3.2 montre que ces applications sont mesurables.
On note T
n
= σ(X
0
, X
1
, . . . , X
n
) la filtration canonique sur Ω. On utilise aussi la notation
E
x
pour d´esigner l’esp´erance sous la probabilit´e P
x
.
Th´eor`eme 13.3.4 (Propri´et´e de Markov simple) Soient F et G deux fonctions mesurables
positives sur Ω et soit n ≥ 0. Supposons que F est T
n
-mesurable. Alors, pour tout x ∈ E,
E
x
[F G◦ θ
n
] = E
x
[F E
Xn
[G]].
De mani`ere ´equivalente,
E
x
[G◦ θ
n
[ T
n
] = E
Xn
[G],
ce qu’on peut traduire en disant que la loi conditionnelle de θ
n
(ω) connaissant (X
0
, X
1
, . . . , X
n
)
est P
Xn
.
Remarque. Cet ´enonc´e se g´en´eralise aussitˆot au cas o` u on remplace E
x
par E
µ
pour
n’importe quelle loi initiale µ. Il en sera de mˆeme pour l’´enonc´e suivant.
Preuve. Il suffit de montrer la premi`ere assertion, et pour cela de traiter le cas o` u
F = 1
{X
0
=x
0
,X
1
=x
1
,...,Xn=xn}
pour x
0
, x
1
, . . . , x
n
∈ E. Consid´erons d’abord le cas o` u G est du mˆeme type :
G = 1
{X
0
=y
0
,X
1
=y
1
,...,Xp=yp}
o` u p ≥ 0 et y
0
, . . . , y
p
∈ E. Dans ce cas, si y ∈ E,
E
y
[G] = 1
{y
0
=y}
Q(y
0
, y
1
) . . . Q(y
p−1
, y
p
)
et par ailleurs
E
x
[F G◦ θ
n
] = P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n
= y
0
, X
n+1
= y
n+1
, . . . , X
n+p
= y
p
)
= 1
{x
0
=x}
Q(x
0
, x
1
) . . . Q(x
n−1
, x
n
) 1
{y
0
=xn}
Q(y
0
, y
1
) . . . Q(y
p−1
, y
p
)
de sorte qu’on obtient facilement le r´esultat. Un argument de classe monotone montre ensuite
que le r´esultat reste vrai pour toute fonction G = 1
A
, A ∈ T, ce qui permet de conclure.
Le th´eor`eme pr´ec´edent donne une forme g´en´erale de la propri´et´e de Markov (simple) :
la loi conditionnelle du futur θ
n
(ω) connaissant le pass´e (X
0
, X
1
, . . . , X
n
) ne d´epend que
du pr´esent X
n
. Il sera tr`es important de pouvoir ´etendre cette propri´et´e au cas o` u n est
remplac´e par un temps al´eatoire T.
Pour illustrer l’int´erˆet de cette extension, consid´erons le probl`eme de savoir si partant
d’un point x la chaˆıne y revient infiniment souvent. Autrement dit, en notant
N
x
=

¸
n=0
1
{Xn=x}
198
a-t-on P
x
(N
x
= ∞) = 1 ? Il suffit en fait de v´erifier que la chaˆıne revient au moins une fois
en x. Si
H
x
= inf¦n ≥ 1 : X
n
= x¦
avec la convention habituelle inf ∅ = +∞, on a l’´equivalence
P
x
(N
x
= ∞) = 1 ⇔P
x
(H
x
< ∞) = 1.
L’implication ⇒ est triviale. Dans l’autre sens, supposons P
x
(H
x
< ∞) = 1. Mod-
ulo l’extension de la propri´et´e de Markov mentionn´ee ci-dessus, on sait que θ
Hx
(ω) =

Hx(ω)+n
)
n∈N
a pour loi P
x
. Mais alors, en ´ecrivant
N
x
(ω) = 1 +N
x

Hx
(ω))
on voit que N
x
a mˆeme loi que 1 +N
x
sous P
x
, ce qui n’est possible que si N
x
= ∞, P
x
p.s.
Le th´eor`eme qui suit permet de rendre ce raisonnement rigoureux (le r´esultat obtenu sera
repris et d´etaill´e dans la partie suivante).
Th´eor`eme 13.3.5 (Propri´et´e de Markov forte) Soit T un temps d’arrˆet de la filtration
(T
n
). Soient F et G deux fonctions mesurables positives sur Ω. Supposons que F est T
T
-
mesurable. Alors, pour tout x ∈ E,
E
x
[1
{T<∞}
F G◦ θ
T
] = E
x
[1
{T<∞}
F E
X
T
[G]].
De mani`ere ´equivalente,
E
x
[1
{T<∞}
G◦ θ
T
[ T
T
] = 1
{T<∞}
E
X
T
[G].
Remarque. La v.a. X
T
, d´efinie sur l’ensemble T
T
-mesurable ¦T < ∞¦, est T
T
-mesurable
(cf Proposition 12.2.3 - dans le chapitre pr´ec´edent on consid`ere des processus `a valeurs r´eelles,
mais l’argument reste le mˆeme). La v.a. E
X
T
[G], d´efinie aussi sur l’ensemble ¦T < ∞¦, est
la compos´ee des applications ω −→ X
T
(ω) et x →E
x
[G].
Preuve. Pour tout entier n ≥ 0,
E
x
[1
{T=n}
F G◦ θ
T
] = E
x
[1
{T=n}
F G◦ θ
n
] = E
x
[1
{T=n}
F E
Xn
[G]]
d’apr`es la propri´et´e de Markov simple (th´eor`eme 13.3.4) appliqu´ee en observant que 1
{T=n}
F
est T
n
-mesurable parce que F est T
T
-mesurable (cf d´efinition de la tribu T
T
dans le chapitre
pr´ec´edent). Il suffit ensuite de sommer l’´egalit´e obtenue sur toutes les valeurs de n ∈ N.
Corollaire 13.3.6 Soit T un temps d’arrˆet tel que P
x
(T < ∞) = 1. Supposons qu’il existe
y ∈ E tel que P
x
(X
T
= y) = 1. Alors sous P
x
, θ
T
(ω) est ind´ependant de T
T
et de loi P
y
.
Preuve. Avec les notations du th´eor`eme, on a
E
x
[F G(θ
T
(ω))] = E
x
[F E
X
T
[G]] = E
x
[F E
y
[G]] = E
x
[F] E
y
[G]
d’o` u les assertions de l’´enonc´e.
199
13.4 La classification des ´etats
A partir de maintenant, on utilise uniquement (sauf exception, notamment dans les exem-
ples) la chaˆıne de Markov canonique construite dans le paragraphe pr´ec´edent. Rappelons la
notation : pour x ∈ E,
H
x
= inf¦n ≥ 1 : X
n
= x¦
N
x
=

¸
n=0
1
{Xn=x}
.
Proposition 13.4.1 (et d´efinition) Soit x ∈ E. On a :
• ou bien P
x
(H
x
< ∞) = 1, et alors
N
x
= ∞, P
x
p.s.
dans ce cas x est dit r´ecurrent;
• ou bien P
x
(H
x
< ∞) < 1, et alors
N
x
< ∞, P
x
p.s.
et plus pr´ecis´ement E
x
[N
x
] = 1/P
x
(H
x
= ∞) < ∞; dans ce cas x est dit transitoire.
Preuve. Pour tout entier k ≥ 1, la propri´et´e de Markov forte montre que
P
x
(N
x
≥ k + 1) = E
x
[1
{Hx<∞}
1
{Nx≥k}
◦ θ
Hx
]
= E
x
[1
{Hx<∞}
E
x
[1
{Nx≥k}
]]
= P
x
(H
x
< ∞) P
x
(N
x
≥ k).
Puisque P
x
(N
x
≥ 1) = 1, une r´ecurrence imm´ediate donne P
x
(N
x
≥ k) = P
x
(H
x
< ∞)
k−1
.
Si P
x
(H
x
< ∞) = 1 il en d´ecoule aussitˆot que P
x
(N
x
= ∞) = 1. Si P
x
(H
x
< ∞) < 1, on
trouve
E
x
[N
x
] =

¸
k=1
P
x
(N
x
≥ k) =
1
P
x
(H
x
= ∞)
< ∞.
D´efinition 13.4.1 Le noyau potentiel de la chaˆıne est la fonction U : E E −→ [0, ∞]
d´efinie par
U(x, y) = E
x
[N
y
].
Proposition 13.4.2 (i) Pour tous x, y ∈ E,
U(x, y) =

¸
n=0
Q
n
(x, y).
(ii) U(x, x) = ∞ si et seulement si x est r´ecurrent.
(iii) Pour tous x, y ∈ E, avec x = y,
U(x, y) = P
x
(H
y
< ∞) U(y, y).
200
Preuve. La propri´et´e (i) est obtenue en ´ecrivant :
U(x, y) = E
x


¸
n=0
1
{Xn=y}

=

¸
n=0
P
x
(X
n
= y) =

¸
n=0
Q
n
(x, y).
La propri´et´e (ii) est une cons´equence imm´ediate de la proposition 13.4.1 et de la d´efinition
de U.
Enfin (iii) d´ecoule de la propri´et´e de Markov forte :
E
x
[N
y
] = E
x
[1
{Hy<∞}
N
y
◦ θ
Hy
] = E
x
[1
{Hy<∞}
E
y
[N
y
]] = P
x
(H
y
< ∞) U(y, y).
Exemple. Consid´erons la chaˆıne de Markov sur Z
d
de matrice de transition
Q((x
1
, . . . , x
d
), (y
1
, . . . , y
d
)) =
1
2
d
d
¸
i=1
1
{|y
i
−x
i
|=1}
(c’est un cas particulier de marche al´eatoire sur Z
d
). Cette chaˆıne de Markov issue de 0 a
mˆeme loi que (Y
1
n
, . . . , Y
d
n
)
n∈N
, o` u les processus Y
1
, . . . , Y
d
sont des copies ind´ependantes de
la marche al´eatoire simple (pile ou face) sur Z, issue de 0. En cons´equence,
Q
n
(0, 0) = P(Y
1
n
= 0, . . . , Y
d
n
= 0) = P(Y
1
n
= 0)
d
.
Or P(Y
1
n
= 0) = 0 si n est impair, et si n = 2k est pair, un argument de d´enombrement
simple montre que
P(Y
1
2k
= 0) = 2
−2k
C
k
2k
.
En cons´equence,
U(0, 0) =

¸
k=0
Q
2k
(0, 0) =

¸
k=0
(2
−2k
C
k
2k
)
d
.
La formule de Stirling montre que
2
−2k
C
k
2k

k→∞
(
2k
e
)
2k

4πk
2
2k
((
k
e
)
k

2πk)
2

k→∞

1
πk
.
Donc 0 est r´ecurrent si d = 1 ou 2, et transitoire si d ≥ 3.
On note R l’ensemble des ´etats (points) r´ecurrents.
Lemme 13.4.3 Soit x ∈ R et soit y un autre point de E tel que U(x, y) > 0. Alors y ∈ R
et P
y
(H
x
< ∞) = 1, donc en particulier U(y, x) > 0.
Preuve. Montrons d’abord que P
y
(H
x
< ∞) = 1. Pour cela on ´ecrit
0 = P
x
(N
x
< ∞) ≥ P
x
(H
y
< ∞, H
x
◦ θ
Hy
= ∞)
= E
x
[1
{Hy<∞}
1
{Hx=∞}
◦ θ
Hy
]
= E
x
[1
{Hy<∞}
P
y
(H
x
= ∞)]
= P
x
(H
y
< ∞) P
y
(H
x
= ∞).
201
L’hypoth`ese U(x, y) > 0 entraˆıne P
x
(H
y
< ∞) > 0. On conclut que P
y
(H
x
= ∞) = 0.
Ensuite, on peut trouver des entiers n
1
, n
2
≥ 1 tels que Q
n
1
(x, y) > 0, et Q
n
2
(y, x) > 0.
Pour tout entier p ≥ 0, on a alors
Q
n
2
+p+n
1
(y, y) ≥ Q
n
2
(y, x)Q
p
(x, x)Q
n
1
(x, y)
et donc
U(y, y) ≥

¸
p=0
Q
n
2
+p+n
1
(y, y) ≥ Q
n
2
(y, x)


¸
p=0
Q
p
(x, x)

Q
n
1
(x, y) = ∞
puisque x ∈ R entraˆıne
¸

p=0
Q
p
(x, x) = U(x, x) = ∞.
En cons´equence du lemme, si x ∈ R et y ∈ E`R on a U(x, y) = 0 : on ne peut pas passer
d’un point r´ecurrent `a un point transitoire. Cette propri´et´e joue un rˆole important dans le
th´eor`eme suivant.
Th´eor`eme 13.4.4 (Classification des ´etats) Il existe une partition de R
R =
¸
i∈I
R
i
telle qu’on ait les propri´et´es suivantes :
• si x ∈ R, et si i ∈ I est tel que x ∈ R
i
, on a P
x
p.s.
— N
y
= +∞, ∀y ∈ R
i
;
— N
y
= 0 , ∀y ∈ E`R
i
;
• si x ∈ E`R et T = inf¦n ≥ 0 : X
n
∈ R¦, on a P
x
p.s.
— ou bien T = ∞ et N
y
< ∞, ∀y ∈ E;
— ou bien T < ∞ et il existe un indice (al´eatoire) j ∈ I tel que : ∀n ≥ T, X
n
∈ R
j
.
Preuve. Pour x, y ∈ R, notons x ∼ y si U(x, y) > 0. Il d´ecoule du lemme pr´ec´edent qu’on
ainsi d´efini une relation d’´equivalence sur R (pour la transitivit´e, on observe que Q
n
(x, y) > 0
et Q
m
(y, z) > 0 entraˆınent Q
n+m
(x, z) > 0. La partition du th´eor`eme correspond alors aux
classes d’´equivalence pour cette relation d’´equivalence, qu’on appelle aussi les classes de
r´ecurrence de la chaˆıne de Markov.
Soit i ∈ I et x ∈ R
i
. On a U(x, y) = 0 pour tout y ∈ E`R
i
(dans le cas y ∈ E`R on
utilise le lemme) et donc N
y
= 0, P
x
p.s. pour tout y ∈ E`R
i
. En revanche, si y ∈ R
i
, on a
P
x
(H
y
< ∞) = 1 d’apr`es le lemme, et la propri´et´e de Markov forte montre que
P
x
(N
y
= ∞) = E
x
(1
{Hy<∞}
1
{Ny=∞}
◦ θ
Hy
] = P
x
(H
y
< ∞) P
y
(N
y
= ∞) = 1.
Si x ∈ E`R et T = ∞, alors on d´eduit facilement de la propri´et´e de Markov forte que
N
y
< ∞ pour tout y ∈ E`R. Si T < ∞, notons j l’indice (al´eatoire) tel que X
T
∈ R
j
. En
appliquant la propri´et´e de Markov forte en T, et la premi`ere partie de l’´enonc´e, on obtient
ais´ement que X
n
∈ R
j
pour tout n ≥ T.
202
D´efinition 13.4.2 La chaˆıne est dite irr´eductible si U(x, y) > 0 pour tous x, y ∈ E.
Corollaire 13.4.5 Si la chaˆıne est irr´eductible :
• ou bien tous les ´etats sont r´ecurrents, il existe une seule classe de r´ecurrence et on a pour
tout x ∈ E,
P
x
(N
y
= ∞, ∀y ∈ E) = 1.
• ou bien tous les ´etats sont transitoires et alors, pour tout x ∈ E,
P
x
(N
y
< ∞, ∀y ∈ E) = 1.
Lorsque E est fini, seul le premier cas peut se produire.
Preuve. S’il existe un ´etat r´ecurrent, le lemme 13.4.3 montre aussitˆot que tous les ´etats
sont r´ecurrents, et puisque U(x, y) > 0 pour tous x, y ∈ E, on voit aussi qu’il y a une seule
classe de r´ecurrence. Le reste d´ecoule du th´eor`eme, `a l’exception de la derni`ere assertion :
si E est fini et si on suppose que tous les ´etats sont transitoires, on a
P
x
p.s. ,
¸
y∈E
N
y
< ∞
ce qui est absurde puisque
¸
y∈E
N
y
=
¸
y∈E

¸
n=0
1
{Xn=y}
=

¸
n=0
¸
y∈E
1
{Xn=y}
= ∞.

Une chaˆıne de Markov irr´eductible dont les ´etats sont r´ecurrents sera dite r´ecurrente
irr´eductible.
Exemples. Nous reprenons maintenant les diff´erents exemples introduits ci-dessus pour
discuter dans chaque cas la classification des ´etats. Avant cela, insistons sur le fait que les
r´esultats obtenus pour la chaˆıne de Markov canonique se traduisent imm´ediatement pour
une chaˆıne de Markov quelconque (Y
n
)
n∈N
de transition Q (et inversement). Par exemple, si
Y
0
= y, en notant N
Y
x
=
¸

n=0
1
{Yn=x}
, on a pour tout k ∈ N,
P(N
Y
x
= k) = P
y
(N
x
= k))
puisque le terme de gauche s’´ecrit aussi bien
P((Y
n
)
n∈N
∈ B)
avec B = ¦ω ∈ E
N
: N
x
(ω) = k¦, et il suffit d’utiliser la remarque (b) suivant le th´eor`eme
13.3.3.
(1) Cas de variables al´eatoires ind´ependantes de loi µ. Dans ce cas Q(x, y) = µ(y).
On voit facilement que y est r´ecurrent ssi µ(y) > 0, et il y a une seule classe de r´ecurrence.
La chaˆıne est irr´eductible ssi µ(y) > 0 pour tout y ∈ E.
203
(2) Marche al´eatoire sur Z. On a
Y
n
= Y
0
+
n
¸
i=1
ξ
i
o` u les v.a. ξ
i
, `a valeurs dans Z, sont ind´ependantes et de loi µ (et ind´ependantes de Y
0
).
Dans ce cas, puisque Q(x, y) = µ(y −x), on voit ais´ement que U(x, y) est fonction de y −x,
et donc tous les ´etats sont du mˆeme type, r´ecurrent ou transitoire.
Th´eor`eme 13.4.6 Supposons E[[ξ
1
[] < ∞ et soit m = E[ξ
1
].
(i) Si m = 0, tous les ´etats sont transitoires.
(ii) Si m = 0, tous les ´etats sont r´ecurrents. De plus, la chaˆıne est irr´eductible ssi le
sous-groupe engendr´e par ¦y ∈ Z : µ(y) > 0¦ est Z tout entier.
Preuve. (i) Si m = 0, la loi forte des grands nombres montre aussitˆot que [Y
n
[ −→ ∞ p.s.
et donc tous les ´etats sont transitoires.
(ii) Supposons que m = 0 et que 0 est transitoire, donc U(0, 0) < ∞. Nous allons voir que
ceci conduit `a une contradiction. Sans perte de g´en´eralit´e, on suppose dans la suite que
Y
0
= 0. On observe que, pour tout x ∈ Z,
U(0, x) ≤ U(x, x) = U(0, 0)
la premi`ere in´egalit´e d´ecoulant de la proposition 13.4.2(iii). En cons´equence, pour tout
n ≥ 1,
¸
|x|≤n
U(0, x) ≤ (2n + 1)U(0, 0) ≤ Cn (13.2)
avec C = 3U(0, 0) < ∞.
D’autre part, on sait que n
−1
Y
n
converge p.s., donc aussi en probabilit´e, vers 0. Si on
pose ε = (4C)
−1
, on peut trouver N assez grand pour que, pour tout n ≥ N,
P([Y
n
[ ≤ εn) >
1
2
,
ou de mani`ere ´equivalente,
¸
|x|≤εn
Q
n
(0, x) >
1
2
.
Si n ≥ p ≥ N, on a aussi
¸
|x|≤εn
Q
p
(0, x) ≥
¸
|x|≤εp
Q
p
(0, x) >
1
2
puis en sommant sur p,
¸
|x|≤εn
U(0, x) ≥
n
¸
p=N
¸
|x|≤εp
Q
p
(0, x) >
n −N
2
.
204
Mais d’autre part, d’apr`es (13.2), si εn ≥ 1,
¸
|x|≤εn
U(0, x) ≤ Cεn =
n
4
.
On obtient une contradiction d`es que n est assez grand.
Il reste `a ´etablir la derni`ere assertion. Notons G le sous-groupe engendr´e par ¦x ∈ Z :
µ(x) > 0¦. Il est imm´ediat que
P(Y
n
∈ G, ∀n ∈ N) = 1
(rappelons que nous avons pris Y
0
= 0). Cela montre que si G = Z, la chaˆıne n’est pas
irr´eductible. Inversement, supposons que G = Z. Alors, notons
H = ¦x ∈ Z : U(0, x) > 0¦
et observons que H est un sous-groupe de Z :
• si x, y ∈ H, l’in´egalit´e
Q
n+p
(0, x + y) ≥ Q
n
(0, x) Q
p
(x, x + y) = Q
n
(0, x) Q
p
(0, y)
montre que x + y ∈ H;
• si x ∈ H, comme 0 est r´ecurrent, la condition U(0, x) > 0 entraˆıne U(x, 0) > 0 (lemme
13.4.3) et puisque U(x, 0) = U(0, −x) on a bien −x ∈ H.
Finalement, puisque H contient ¦x ∈ Z : µ(x) > 0¦, on a forc´ement H = Z.
Par exemple, si µ =
1
2
δ
−2
+
1
2
δ
2
, tous les ´etats sont r´ecurrents, mais il y a deux classes de
r´ecurrence, les entiers pairs et les entiers impairs.
(3) Marche al´eatoire sur un graphe. On consid`ere ici le cas d’un graphe fini : E est fini
et A est un sous-ensemble de {
2
(E) tel que, pour tout x ∈ E, A
x
:= ¦y ∈ E : ¦x, y¦ ∈ A¦
est non vide. Le graphe est dit connexe si pour tous x, y ∈ E, on peut trouver un entier
p ≥ 0 et des ´elements x
0
= x, x
1
, . . . , x
p−1
, x
p
= y de E tels que ¦x
i−1
, x
i
¦ ∈ A pour tout
i ∈ ¦1, . . . , p¦.
Proposition 13.4.7 La marche al´eatoire simple sur un graphe fini connexe est r´ecurrente
irr´eductible.
Preuve. Le caract`ere irr´eductible de la chaˆıne d´ecoule de la connexit´e du graphe. Il suffit
ensuite d’appliquer le corollaire 13.4.5.
(4) Processus de branchement. Dans ce cas E = N et Q(x, y) = µ
∗x
(y). On remarque
que l’´etat 0 est toujours absorbant, au sens o` u
P
0
(∀n ∈ N, X
n
= 0) = 1.
En cons´equence 0 est aussi r´ecurrent.
Dans la proposition suivante, nous ´ecartons le cas trivial µ = δ
1
, o` u tous les ´etats sont
absorbants.
205
Proposition 13.4.8 0 est le seul ´etat r´ecurrent. En cons´equence, on a p.s.
• ou bien ∃N : ∀n ≥ N , X
n
= 0.
• ou bien X
n
−→ +∞ quand n → ∞.
Remarque. On a vu dans le chapitre pr´ec´edent que le premier cas se produit avec probabilit´e
1 si m =
¸
kµ(k) ≤ 1, et que le second cas se produit avec probabilit´e strictement positive
si m > 1 (sous l’hypoth`ese suppl´ementaire que µ a un moment d’ordre 2).
Preuve. Supposons d’abord que µ(0) > 0. Si x ≥ 1, U(x, 0) ≥ P
x
(X
1
= 0) = µ(0)
x
> 0
alors que U(0, x) = 0. Cela n’est possible que si x est transitoire. Traitons ensuite le cas o` u
µ(0) = 0. Comme nous excluons le cas µ = δ
1
, il existe alors k ≥ 2 tel que µ(k) > 0. Alors,
pour tout x ≥ 1, P
x
(X
1
> x) > 0, ce qui entraˆıne qu’il existe y > x tel que U(x, y) > 0.
Comme on a clairement U(y, x) = 0, on conclut encore que x est transitoire. Les autres
assertions d´ecoulent maintenant du th´eor`eme 13.4.4.
13.5 Mesures invariantes
D´efinition 13.5.1 Soit µ une mesure positive sur E, telle que µ(x) < ∞ pour tout x ∈ E
et µ n’est pas la mesure identiquement nulle. On dit que µ est invariante pour la matrice de
transition Q (ou simplement invariante s’il n’y a pas ambiguˆıt´e) si
∀y ∈ E , µ(y) =
¸
x∈E
µ(x)Q(x, y).
Sous forme matricielle, la condition d’invariance s’´ecrit µQ = µ. Puisque pour tout n,
Q
n
= (Q)
n
, on peut it´erer cette relation et obtenir que µQ
n
= µ pour tout n ∈ N.
Interpr´etation. Supposons de plus que µ(E) < ∞ (ce qui sera toujours le cas si E est fini).
Quitte `a remplacer µ par µ(E)
−1
µ, on peut supposer µ(E) = 1. Alors, pour toute fonction
f : E −→R
+
,
E
µ
[f(X
1
)] =
¸
x∈E
µ(x)
¸
y∈E
Q(x, y)f(y) =
¸
y∈E
f(y)
¸
x∈E
µ(x)Q(x, y) =
¸
y∈E
µ(y)f(y)
ce qui montre que sous P
µ
, X
1
a mˆeme loi µ que X
0
. En utilisant la relation µQ
n
= Q, on
obtient de mˆeme que pour tout n ∈ N la loi de X
n
sous P
µ
est µ. Plus pr´ecis´ement, pour
toute fonction F : Ω −→R
+
mesurable,
E
µ
[F ◦ θ
1
] = E
µ
[E
X
1
[F]] =
¸
x∈E
µ(x) E
x
[F] = E
µ
[F]
ce qui montre que sous P
µ
, (X
1+n
)
n∈N
a mˆeme loi que (X
n
)
n∈N
(et de mˆeme, pour tout entier
k ≥ 0, (X
k+n
)
n∈N
a mˆeme loi que (X
n
)
n∈N
).
Exemple. Pour toute marche al´eatoire sur Z
d
(Q(x, y) = γ(y−x) ne d´epend que la diff´erence
y −x), on v´erifie imm´ediatement que la mesure de comptage sur Z
d
est invariante.
206
D´efinition 13.5.2 Soit µ une mesure positive non triviale sur E, telle que µ(x) < ∞ pour
tout x ∈ E. On dit que µ est r´eversible si
∀x, y ∈ E , µ(x)Q(x, y) = µ(y)Q(y, x).
Proposition 13.5.1 Toute mesure r´eversible est invariante.
Preuve. Si µ est r´eversible,
¸
x∈E
µ(x)Q(x, y) =
¸
x∈E
µ(y)Q(y, x) = µ(y).

En revanche, il existe des mesures invariantes qui ne sont pas r´eversibles : nous avons
vu que la mesure de comptage est invariante pour toute marche al´eatoire sur Z
d
, cependant
elle n’est r´eversible que si la loi de saut γ est sym´etrique (γ(x) = γ(−x)).
Exemples. (a) Pile ou face biais´e. C’est la marche al´eatoire sur Z de matrice de transition
Q(i, i + 1) = p
Q(i, i −1) = q = 1 −p
o` u p ∈]0, 1[. Dans ce cas, on v´erifie ais´ement que la mesure
µ(i) = (
p
q
)
i
, i ∈ Z
est r´eversible, donc invariante. Remarquons que µ est diff´erente de la mesure de comptage
(qui est aussi invariante) sauf dans le cas p = 1/2.
(b) Marche al´eatoire sur un graphe. La mesure
µ(x) = Card(A
x
)
est r´eversible. En effet, si ¦x, y¦ ∈ A,
µ(x)Q(x, y) = Card(A
x
)
1
Card(A
x
)
= 1 = µ(y)Q(y, x).
(c) Mod`ele d’urne d’Ehrenfest. C’est la chaˆıne de Markov dans ¦0, 1, . . . , k¦ de matrice
de transition
Q(j, j + 1) =
k−j
k
si 0 ≤ j ≤ k −1
Q(j, j −1) =
j
k
si 1 ≤ j ≤ k.
Une mesure µ est r´eversible ssi
µ(j)
k −j
k
= µ(j + 1)
j + 1
k
pour tout 0 ≤ j ≤ k −1. On trouve ais´ement que
µ(j) = C
j
k
convient.
207
Th´eor`eme 13.5.2 Soit x un point r´ecurrent. La formule
µ(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

d´efinit une mesure invariante. De plus, µ(y) > 0 ssi y appartient `a la classe de r´ecurrence
de x.
Preuve. Remarquons d’abord que si y n’est pas dans la classe de r´ecurrence de x on a
E
x
[N
y
] = U(x, y) = 0, et donc a fortiori µ(y) = 0.
Ensuite, on ´ecrit pour tout y ∈ E,
µ(y) = E
x

Hx
¸
k=1
1
{X
k
=y}

=
¸
z∈E
E
x

Hx
¸
k=1
1
{X
k−1
=z, X
k
=y}

=
¸
z∈E

¸
k=1
E
x

1
{k≤Hx, X
k−1
=z}
1
{X
k
=y}

=
¸
z∈E

¸
k=1
E
x

1
{k≤Hx, X
k−1
=z}

Q(z, y)
=
¸
z∈E
E
x

Hx
¸
k=1
1
{X
k−1
=z}

Q(z, y)
=
¸
z∈E
µ(z)Q(z, y).
Dans la quatri`eme ´egalit´e, on a utilis´e le fait que l’´ev´enement ¦k ≤ H
x
, X
k−1
= z¦ est
T
k−1
-mesurable pour appliquer la propri´et´e de Markov `a l’instant k −1.
On a obtenu l’identit´e µQ = µ, qu’on peut it´erer pour avoir µQ
n
= µ pour tout entier
n ≥ 0. En particulier, pour tout entier n ≥ 0,
µ(x) = 1 =
¸
z∈E
µ(z)Q
n
(z, x).
Soit y un point de la classe de r´ecurrence de x. Alors, il existe n ≥ 0 tel que Q
n
(y, x) > 0, et
la formule pr´ec´edente montre que µ(y) < ∞. On peut aussi trouver m tel que Q
m
(x, y) > 0,
et on a
µ(y) =
¸
z∈E
µ(z)Q
m
(z, y) ≥ Q
m
(x, y) > 0.
Remarque. S’il existe plusieurs classes de r´ecurrence R
i
, i ∈ I, alors en choisissant pour
chaque i ∈ I un point x
i
∈ R
i
et en posant
µ
i
(y) = E
x
i

Hx
i
−1
¸
k=0
1
{X
k
=y}

208
on construit des mesures invariantes `a supports disjoints.
Th´eor`eme 13.5.3 Supposons la chaˆıne r´ecurrente irr´eductible. Alors la mesure invariante
est unique `a une constante multiplicative pr`es.
Preuve. Soit µ une mesure invariante. On montre par r´ecurrence que, pour tout entier
p ≥ 0, pour tous x, y ∈ E,
µ(y) ≥ µ(x) E
x

p∧(Hx−1)
¸
k=0
1
{X
k
=y}

. (13.3)
D’abord, si y = x, l’in´egalit´e est imm´ediate (avec mˆeme une ´egalit´e). On suppose donc
y = x. Si p = 0, l’in´egalit´e (13.3) est triviale. On suppose que (13.3) est vraie `a l’ordre p.
Alors,
µ(y) =
¸
z∈E
µ(z) Q(z, y)
≥ µ(x)
¸
z∈E
E
x

p∧(Hx−1)
¸
k=0
1
{X
k
=z}

Q(z, y)
= µ(x)
¸
z∈E
p
¸
k=0
E
x

1
{X
k
=z, k≤Hx−1}

Q(z, y)
= µ(x)
¸
z∈E
p
¸
k=0
E
x

1
{X
k
=z, k≤Hx−1}
1
{X
k+1
=y}

= µ(x)E
x

p∧(Hx−1)
¸
k=0
1
{X
k+1
=y}

= µ(x)E
x

(p+1)∧Hx
¸
k=1
1
{X
k
=y}

,
ce qui donne le r´esultat voulu `a l’ordre p +1. De mani`ere analogue `a la preuve du th´eor`eme
pr´ec´edent, on a utilis´e le fait que l’´ev´enement ¦X
k
= z, k ≤ H
x
−1¦ est T
k
-mesurable pour
appliquer la propri´et´e de Markov `a l’instant k.
En faisant tendre p vers +∞ dans (13.3) on trouve
µ(y) ≥ µ(x) E
x

Hx−1
¸
k=0
1
{X
k
=y}

.
Fixons x ∈ E. La mesure
ν
x
(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

209
est invariante (th´eor`eme 13.5.2), et on a µ(y) ≥ µ(x)ν
x
(y) pour tout y ∈ E. Donc, pour tout
n ≥ 1,
µ(x) =
¸
z∈E
µ(z)Q
n
(z, x) ≥
¸
z∈E
µ(x)ν
x
(z)Q
n
(z, x) = µ(x)ν
x
(x) = µ(x),
ce qui montre que l’´egalit´e µ(z) = µ(x)ν
x
(z) a lieu pour tout z tel que Q
n
(z, x) > 0.
L’irr´eductibilit´e assure que pour tout z ∈ E on peut trouver un entier n tel que Q
n
(z, x) > 0,
et on conlut donc que µ = µ(x)ν
x
, ce qui termine la preuve.
Corollaire 13.5.4 Supposons la chaˆıne r´ecurrente irr´eductible. Alors :
(i) Ou bien il existe une mesure de probabilit´e invariante µ, et on a pour tout x ∈ E,
E
x
[H
x
] =
1
µ(x)
.
(ii) Ou bien toute mesure invariante a une masse totale infinie, et on a pour tout x ∈ E,
E
x
[H
x
] = ∞.
La chaˆıne est dite r´ecurrente positive dans le cas (i) et r´ecurrente nulle dans le cas (ii).
Remarque. Si E est fini seul le cas (i) se produit.
Preuve. D’apr`es le th´eor`eme 13.5.3, toutes les mesures invariantes sont proportionnelles.
Donc ou bien elles sont toutes de masse totale infinie (cas (ii)) ou bien elles sont toutes finies,
et on peut normaliser pour en trouver une qui soit une mesure de probabilit´e (cas (i)). Dans
le cas (i), soit µ l’unique mesure de probabilit´e invariante et soit x ∈ E. Alors, si ν
x
d´esigne
la mesure invariante fournie par le th´eor`eme 13.5.2,
ν
x
(y) = E
x

Hx−1
¸
k=0
1
{X
k
=y}

,
µ est proportionnelle `a ν
x
: µ = Cν
x
avec C > 0. En ´ecrivant 1 = µ(E) = C ν
x
(E), on
trouve C = (ν
x
(E))
−1
, d’o` u
µ(x) =
ν
x
(x)
ν
x
(E)
=
1
ν
x
(E)
.
Or
ν
x
(E) =
¸
y∈E
E
x

Hx−1
¸
k=0
1
{X
k
=y}

= E
x

Hx−1
¸
k=0

¸
y∈E
1
{X
k
=y}

= E
x
[H
x
].
Dans le cas (ii), ν
x
est infinie, et donc, par le mˆeme calcul,
E
x
[H
x
] = ν
x
(E) = ∞.
Proposition 13.5.5 Supposons la chaˆıne irr´eductible. S’il existe une mesure invariante
finie, la chaˆıne est r´ecurrente (et donc r´ecurrente positive).
210
Preuve. Soit γ une mesure invariante finie, et soit y ∈ E tel que γ(y) > 0. Pour tout
x ∈ E, la proposition 13.4.2(iii) donne l’in´egalit´e

¸
n=0
Q
n
(x, y) = U(x, y) ≤ U(y, y).
On multiplie les deux membres de cette in´egalit´e par γ(x) et on somme sur toutes les valeurs
de x ∈ E. Il vient

¸
n=0
γQ
n
(y) ≤ γ(E) U(y, y).
Puisque γ est invariante on a γQ
n
(y) = γ(y) > 0 pour tout n ≥ 0. On conclut donc que
γ(E) U(y, y) = ∞.
Comme γ(E) < ∞, cela entraˆıne que U(y, y) = ∞. Donc y est r´ecurrent et puisque la chaˆıne
est irr´eductible elle est r´ecurrente (corollaire 13.4.5).
Remarque. L’existence d’une mesure invariante infinie ne permet pas de conclure : con-
sid´erer par exemple le pile ou face biais´e (exemple (1) ci-dessus apr`es la proposition 13.5.1)
qui n’est r´ecurrent que si p = 1/2.
Exemple. Soit p ∈]0, 1[. Consid´erons la chaˆıne de Markov sur E = N de matrice de
transition
Q(k, k + 1) = p , Q(k, k −1) = 1 −p , si k ≥ 1,
Q(0, 1) = 1.
Cette chaˆıne est irr´eductible. De plus on v´erifie imm´ediatement que la mesure µ d´efinie par
µ(k) =

p
1 −p

k−1
, si k ≥ 1,
µ(0) = 1 −p ,
est r´eversible donc invariante.
Si p <
1
2
, la mesure µ est finie, et la proposition 13.5.5 entraˆıne que la chaˆıne est r´ecurrente
positive. (Exercice : Montrer que la chaˆıne est r´ecurrente nulle si p =
1
2
, et transitoire si
p >
1
2
.)
13.6 Comportement asymptotique
Nous continuons `a consid´erer la chaˆıne de Markov canonique associ´ee `a une matrice de
transition Q.
Th´eor`eme 13.6.1 Supposons la chaˆıne r´ecurrente irr´eductible, et soit µ une mesure invari-
ante. Soient f et g deux fonctions positives sur E telles que

f dµ < ∞ et 0 <

g dµ < ∞.
Alors, pour tout x ∈ E on a P
x
p.s.
¸
n
k=0
f(X
k
)
¸
n
k=0
g(X
k
)
−→
n→∞

f dµ

g dµ
.
211
Remarque. Le r´esultat reste vrai si µ(f) = ∞. Il suffit d’utiliser un argument de compa-
raison en ´ecrivant f = lim ↑ f
k
, avec des fonctions positives f
k
telles que

f
k
dµ < ∞.
Corollaire 13.6.2 Si la chaˆıne de Markov est irr´eductible et r´ecurrente positive, et si µ
d´esigne l’unique probabilit´e invariante, on a P
x
p.s.
1
n
n
¸
k=0
f(X
k
) −→
n→∞

f dµ.
Le corollaire d´ecoule imm´ediatement du th´eor`eme en prenant g = 1 dans l’´enonc´e.
Preuve du th´eor`eme 13.6.1. On d´efinit les temps d’arrˆet
T
0
= 0 , T
1
= H
x
et par r´ecurrence
T
n+1
= inf¦k > T
n
: X
k
= x¦.
Le temps T
n
est l’instant du n-i`eme retour en x de la chaˆıne. Puisque l’´etat x est r´ecurrent,
tous ces temps d’arrˆet sont finis p.s. On pose aussi pour tout k ≥ 0,
Z
k
(f) =
T
k+1
−1
¸
n=T
k
f(X
n
).
Lemme 13.6.3 Les v.a. Z
k
(f), k = 0, 1, 2, . . ., sont ind´ependantes et de mˆeme loi.
Preuve. Soient g
0
, g
1
, g
2
, . . . des fonctions mesurables born´ees sur R
+
. Il suffit de montrer
que, pour tout entier k ≥ 0, on a
E
x

k
¸
i=0
g
i
(Z
i
(f))

=
k
¸
i=0
E
x
[g
i
(Z
0
(f))].
On d´emontre cette identit´e par r´ecurrence sur k. Pour k = 0 il n’y a rien `a montrer. Pour
passer de l’ordre k −1 `a l’ordre k, on observe que :
• les v.a. Z
0
(f), Z
1
(f), . . . , Z
k−1
(f) sont T
T
k
-mesurables (exercice !);
• la suite translat´ee θ
T
k
(ω) est ind´ependante de T
T
k
et de loi P
x
, d’apr`es le corollaire 13.3.6;
• on a Z
k
(f) = Z
0
(f) ◦ θ
T
k
, par construction.
Il d´ecoule de tout ceci que
E
x

k
¸
i=0
g
i
(Z
i
(f))

= E
x

k−1
¸
i=0
g
i
(Z
i
(f))

g
k
(Z
0
(f) ◦ θ
T
k
)

= E
x

k−1
¸
i=0
g
i
(Z
i
(f))

E
x
[g
k
(Z
0
(f))],
d’o` u le r´esultat voulu `a l’ordre k.
212
Nous revenons `a la preuve du th´eor`eme. Si ν
x
d´esigne comme pr´ec´edemment la mesure
invariante construite dans le th´eor`eme 13.5.2, on a µ = µ(x)ν
x
puisque ν
x
(x) = 1 et que
toutes les mesures invariantes sont proportionnelles (th´eor`eme 13.5.3). On observe alors que
E
x
[Z
0
(f)] = E
x

Hx−1
¸
k=0
¸
y∈E
f(y) 1
{X
k
=y}

=
¸
y∈E
f(y) ν
x
(y) =

f dµ
µ(x)
.
Le lemme 13.6.3 et la loi forte des grands nombres montrent ensuite que P
x
p.s.
1
n
n−1
¸
k=0
Z
k
(f) −→
n→∞

f dµ
µ(x)
. (13.4)
Pour tout entier n, notons N
x
(n) le nombre de retours en x effectu´es par la chaˆıne avant
l’instant n, de sorte que T
Nx(n)
≤ n < T
Nx(n)+1
. En ´ecrivant
T
Nx(n)
−1
¸
k=0
f(X
k
)
N
x
(n)

n
¸
k=0
f(X
k
)
N
x
(n)

T
Nx(n)+1
−1
¸
k=0
f(X
k
)
N
x
(n)
ce qui ´equivaut `a
Nx(n)−1
¸
j=0
Z
j
(f)
N
x
(n)

n
¸
k=0
f(X
k
)
N
x
(n)

Nx(n)
¸
j=0
Z
j
(f)
N
x
(n)
on d´eduit de la convergence (13.4) que P
x
p.s.
1
N
x
(n)
n
¸
k=0
f(X
k
) −→
n→∞

f dµ
µ(x)
.
Il suffit ensuite d’utiliser le mˆeme r´esultat avec f remplac´ee par g pour finir la preuve.
Corollaire 13.6.4 Supposons la chaˆıne r´ecurrente irr´eductible. Alors, pour tout x ∈ E,
(i) dans le cas r´ecurrent positif,
1
n
n−1
¸
k=0
1
{X
k
=x}
p.s.
−→
n→∞
µ(x),
o` u µ est l’unique probabilit´e invariante;
(ii) dans le cas r´ecurrent nul,
1
n
n−1
¸
k=0
1
{X
k
=x}
p.s.
−→
n→∞
0.
213
Dans les deux cas la convergence a lieu pour toute loi initiale de la chaˆıne.
D´efinition 13.6.1 Soit x un point r´ecurrent, et
L
x
= ¦n ≥ 0 : Q
n
(x, x) > 0¦.
La p´eriode de x, not´ee d(x), est le PGCD de L
x
.
Remarque. Puisque L
x
est stable par addition (Q
n+m
(x, x) ≥ Q
n
(x, x)Q
m
(x, x)), le sous
groupe engendr´e par L
x
est L
x
−L
x
= d(x)Z.
Proposition 13.6.5 Supposons la chaˆıne r´ecurrente irr´eductible.
(i) Tous les points ont la mˆeme p´eriode, appel´ee la p´eriode de la chaˆıne et not´ee d.
(ii) Si d = 1 (la chaˆıne est alors dite ap´eriodique), pour tous x, y ∈ E, il existe un entier
n
0
tel que Q
n
(x, y) > 0 pour tout n ≥ n
0
.
Preuve. (i) Soient x, y ∈ E. Puisque la chaˆıne est irr´eductible, il existe deux entiers n
1
et
n
2
tels que Q
n
1
(x, y) > 0 et Q
n
2
(y, x) > 0. Mais alors, si n ∈ L
x
, on a n
1
+ n + n
2
∈ L
y
, ce
qui entraˆıne que L
x
−L
x
⊂ L
y
−L
y
et donc d(y) divise d(x). Par sym´etrie on a d(y) = d(x).
(ii) Clairement, il suffit de traiter le cas o` u y = x. Puisque d(x) = 1, on peut trouver deux
entiers n
1
, m
1
≥ 0 tels que 1 = n
1
−m
1
et
Q
n
1
(x, x) > 0, Q
m
1
(x, x) > 0.
Si m
1
= 0, donc n
1
= 1 le r´esultat est ´evident avec n
0
= 0. Si m
1
≥ 1, alors, pour tout
j ∈ ¦0, 1, . . . , m
1
−1¦, on a
Q
m
2
1
+j
(x, x) = Q
jn
1
+(m
1
−j)m
1
(x, x) > 0.
Il en d´ecoule que, si n
0
= m
2
1
on a pour tout entier j ≥ 0,
Q
n
0
+j
(x, x) > 0.
Th´eor`eme 13.6.6 Supposons la chaˆıne irr´eductible, r´ecurrente positive et ap´eriodique. Alors,
si µ d´esigne l’unique probabilit´e invariante, on a pour tout x ∈ E,
¸
y∈E
[P
x
(X
n
= y) −µ(y)[ −→
n→∞
0.
Preuve. La formule
Q((x
1
, x
2
), (y
1
, y
2
)) = Q(x
1
, y
1
)Q(x
2
, y
2
)
d´efinit une matrice stochastique sur le E E. On note ((X
1
n
, X
2
n
)
n∈N
, (P
(x
1
,x
2
)
)
(x
1
,x
2
)∈E×E
)
la chaˆıne de Markov canonique associ´ee.
Remarquons que Q est irr´eductible : si (x
1
, x
2
), (y
1
, y
2
) ∈ EE, la proposition 13.6.5(ii)
permet de trouver deux entiers n
1
et n
2
tels que Q
n
(x
1
, y
1
) > 0 pour tout n ≥ n
1
, et
Q
n
(x
2
, y
2
) > 0 pour tout n ≥ n
2
. Si n ≥ n
1
∨n
2
, on a par d´efinition Q
n
((x
1
, x
2
), (y
1
, y
2
)) > 0.
214
De plus la mesure produit µ ⊗µ est invariante pour Q :
¸
(x
1
,x
2
)∈E×E
µ(x
1
)µ(x
2
)Q(x
1
, y
1
)Q(x
2
, y
2
) =
¸
x
1
∈E
µ(x
1
)Q(x
1
, y
1
)
¸
x
2
∈E
µ(x
2
)Q(x
2
, y
2
)
= µ(y
1
)µ(y
2
).
La proposition 13.5.5 permet de conclure que la chaˆıne (X
1
n
, X
2
n
) est r´ecurrente positive.
Observons maintenant que
P
x
(X
n
= y) −µ(y) = P
µ⊗δx
(X
2
n
= y) −P
µ⊗δx
(X
1
n
= y) = E
µ⊗δx
[1
{X
2
n
=y}
−1
{X
1
n
=y}
].
Introduisons le temps d’arrˆet T = inf¦n ≥ 0 : X
1
n
= X
2
n
¦. Alors, l’´egalit´e pr´ec´edente montre
que
P
x
(X
n
= y) −µ(y) = E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)]
+
n
¸
k=0
¸
z∈E
E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)]. (13.5)
Mais, pour tout k ∈ ¦0, 1, . . . , n¦ et tout z ∈ E, la propri´et´e de Markov entraˆıne que
E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
2
n
=y}
] = E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
] Q
n−k
(z, y)
= E
µ⊗δx
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
1
n
=y}
],
et donc le deuxi`eme terme de la somme dans (13.5) est nul. On obtient ainsi que
¸
y∈E
[P
x
(X
n
= y) −µ(y)[ =
¸
y∈E
[E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
−1
{X
1
n
=y}
)][

¸
y∈E
E
µ⊗δx
[1
{T>n}
(1
{X
2
n
=y}
+1
{X
1
n
=y}
)]
= 2 P
µ⊗δx
(T > n),
qui tend vers 0 quand n → ∞, grˆace `a la r´ecurrence de la chaˆıne (X
1
n
, X
2
n
).
13.7 Martingales et chaˆınes de Markov
On consid`ere toujours la chaˆıne de Markov canonique de matrice de transition Q.
D´efinition 13.7.1 Une fonction f : E −→ R
+
est dite harmonique (resp. surharmonique)
si on a pour tout x ∈ E,
f(x) = Qf(x) (resp. f(x) ≥ Qf(x)).
Plus g´en´eralement, si F ⊂ E, on dit que f est harmonique sur F (resp. surharmonique sur
F) si la propri´et´e f(x) = Qf(x) (resp. f(x) ≥ Qf(x)) est vraie pour x ∈ F.
215
Remarque. On pourrait consid´erer plus g´en´eralement des fonctions harmoniques ou surhar-
moniques de signe quelconque.
Proposition 13.7.1 (i) La fonction f est harmonique (resp. surharmonique) ssi, pour tout
x ∈ E, le processus (f(X
n
))
n∈N
est une martingale (resp. une surmartingale) sous P
x
,
relativement `a la filtration (T
n
).
(ii) Soit F ⊂ E et G = E`F. On note T
G
le temps d’arrˆet
T
G
= inf¦n ≥ 0 : X
n
∈ G¦.
Alors si f est harmonique (resp. surharmonique) sur F, le processus (f(X
n∧T
G
))
n∈N
est une
martingale (resp. une surmartingale) sous P
x
, pour tout x ∈ F.
Preuve. (i) Supposons d’abord f harmonique. Alors, d’apr`es la proposition 13.1.2(i),
E
x
[f(X
n+1
) [ T
n
] = Qf(X
n
) = f(X
n
)
et en cons´equence E
x
[f(X
n
)] = E
x
[f(X
0
)] = f(x), donc f(X
n
) ∈ L
1
.
Inversement, supposons que f(X
n
) est une martingale sour P
x
. Il vient imm´ediatement
que
f(x) = E
x
[f(X
0
)] = E
x
[f(X
1
)] = Qf(x).
Le cas d’une fonction surharmonique est trait´e de la mˆeme fa¸ con.
(ii) Traitons le cas d’une fonction harmonique. On ´ecrit pour x ∈ F
E
x
[f(X
(n+1)∧T
G
) [ T
n
] = E
x
[f(X
n+1
) 1
{T
G
>n}
[ T
n
] +E
x
[f(X
T
G
) 1
{T
G
≤n}
[ T
n
]
= 1
{T
G
>n}
E
x
[f(X
n+1
) [ T
n
] + f(X
T
G
) 1
{T
G
≤n}
= 1
{T
G
>n}
Qf(X
n
) + f(X
T
G
) 1
{T
G
≤n}
= 1
{T
G
>n}
f(X
n
) + f(X
T
G
) 1
{T
G
≤n}
= f(X
n∧T
G
)
On a utilis´e le fait que f(X
T
G
) 1
{T
G
≤n}
= f(X
T
G
∧n
) 1
{T
G
≤n}
est T
n
-mesurable.
Th´eor`eme 13.7.2 Soit F un sous-ensemble non vide de E et G = E`F. Soit g : G −→R
+
une fonction born´ee.
(i) La fonction
h(x) = E
x
[g(X
T
G
) 1
{T
G
<∞}
], x ∈ E
est harmonique sur F.
(ii) Supposons T
G
< ∞, P
x
p.s. pour tout x ∈ F. Alors la fonction h est l’unique fonction
born´ee sur E qui
• est harmonique sur F,
• co¨ıncide avec g sur G.
216
Preuve. (i) On remarque que si x ∈ F on a P
x
p.s.
g(X
T
G
) 1
{T
G
<∞}
= g(X
T
G
◦ θ
1
) 1
{T
G
◦θ
1
<∞}
.
Autrement dit, si U(ω) = g(X
T
G
(ω)) 1
{T
G
(ω)<∞}
, on a U = U ◦ θ
1
, P
x
p.s. Donc, pour x ∈ F,
d’apr`es le th´eor`eme 13.3.4,
h(x) = E
x
[U] = E
x
[U ◦ θ
1
] = E
x
[E
X
1
[U]] = E
x
[h(X
1
)] = Qh(x),
ce qui montre que h est harmonique sur F.
(ii) Il est trivial que h(x) = g(x) si x ∈ G. Soit h

une autre fonction harmonique
sur F, born´ee sur E et co¨ıncidant avec g sur G. Si x ∈ F, d’apr`es la proposition 13.7.1,
Y
n
= h

(X
n∧T
G
) est une martingale sous P
x
. Cette martingale est born´ee, donc uniform´ement
int´egrable, et converge P
x
p.s. vers h

(X
T
G
) = g(X
T
G
). D’apr`es les r´esultats du chapitre 12,
on a donc
h

(x) = E
x
[Y
0
] = E
x
[Y

] = E
x
[g(X
T
G
)] = h(x).
Exemple. Probl`eme de Dirichlet discret. Soit F une partie finie de Z
d
. La fronti`ere de F
est
∂F = ¦y ∈ Z
d
`F : ∃x ∈ F, [y −x[ = 1¦.
On note F = F ∪ ∂F.
Une fonction h d´efinie sur F est dite harmonique (au sens discret) sur F si pour tout
x ∈ F, h(x) est ´egal `a la moyenne des valeurs de h sur les 2d plus proches voisins de x.
On retrouve la notion pr´ec´edente en prenant comme chaˆıne de Markov la marche al´eatoire
simple sur Z
d
: Q(x, x ±e
j
) =
1
2d
pour j = 1, . . . , d, o` u (e
1
, . . . , e
d
) est la base canonique.
Alors, le th´eor`eme pr´ec´edent conduit au r´esultat suivant : pour toute fonction (positive)
g d´efinie sur ∂F, la seule fonction h : F −→R
+
telle que :
• h est harmonique sur F,
• h(y) = g(y), ∀y ∈ ∂F,
est donn´ee par
h(x) = E
x
[g(X
T
∂F
)] , x ∈ F,
o` u
T
∂F
= inf¦n ≥ 0 : X
n
∈ ∂F¦.
Noter que pour appliquer le th´eor`eme 13.7.2, on a a priori besoin de d´efinir g sur Z
d
`F et
non pas seulement sur ∂F : cependant le choix des valeurs de g sur Z
d
`F n’influe pas sur
les valeurs de h sur F.
217
218
Chapitre 14
Introduction au mouvement brownien
14.1 Le mouvement brownien comme limite de marches
al´eatoires
L’explication physique du mouvement brownien justifie le mouvement tr`es d´esordonn´e et
impr´evisible d’une particule brownienne par les nombreux chocs que cette particule re¸ coit
du milieu environnant, qui provoquent des changements de direction continuels. D’un point
de vue math´ematique, cela sugg`ere de consid´erer le d´eplacement `a temps discret, sur le
r´eseau Z
d
, d’une particule ponctuelle qui `a chaque instant choisit de mani`ere ind´ependante
du pass´e une nouvelle direction.
Pr´ecis´ement on consid`ere une marche al´eatoire (S
n
)
n∈N
sur Z
d
, issue de 0:
S
n
= Y
1
+ + Y
n
o` u les v.a. Y
1
, Y
2
, . . . sont ind´ependantes `a valeurs dans Z
d
, et de mˆeme loi µ. On suppose
que µ v´erifie les propri´et´es suivantes :

¸
k∈Z
d
[k[
2
µ(k) < ∞ ;

¸
k∈Z
d
kµ(k) = 0 (µ est centr´ee).
On ajoute aussi `a ces deux hypoth`eses principales la condition d’isotropie suivante :
• il existe une constante σ > 0 telle que pour tous i, j ∈ ¦1, . . . , d¦,
¸
k∈Z
d
k
i
k
j
µ(k) = σ
2
δ
ij
.
La marche al´eatoire simple sur Z
d
(cf chapitre pr´ec´edent) v´erifie ces hypoth`eses, avec
σ
2
= 1/d, et il existe beaucoup d’autres exemples.
219
On va s’int´eresser au comportement “global” de la fonction k −→ S
k
sur un “long”
intervalle de temps. Pour cela on introduit le changement d’´echelle suivant. Pour tout entier
n ≥ 1, pour tout r´eel t ≥ 0, on pose
S
(n)
t
=
1

n
S
[nt]
o` u [x] d´esigne la partie enti`ere du nombre r´eel x.
Proposition 14.1.1 Pour tout choix de l’entier p ≥ 1 et des nombres r´eels 0 = t
0
< t
1
<
< t
p
, on a
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
−→
n→∞
(U
1
, U
2
, . . . , U
p
)
et la loi limite est caract´eris´ee comme suit:
• les v.a. U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
sont ind´ependantes;
• pour tout j ∈ ¦1, . . . , p¦, U
j
−U
j−1
est un vecteur gaussien centr´e de matrice de covariance
σ
2
(t
j
−t
j−1
)Id (par convention, U
0
= 0).
Remarque. La densit´e de la loi limite est facile `a ´ecrire explicitement. La densit´e de
U
j
−U
j−1
est p
σ
2
(t
j
−t
j−1
)
(x), o` u, pour tout a > 0,
p
a
(x) =
1
(2πa)
d/2
exp


[x[
2
2at

, x ∈ R
d
est la densit´e du vecteur gaussien de covariance a Id (rappelons que les coordonn´ees d’un tel
vecteur sont des v.a. r´eelles ^(0, a) ind´ependantes, voir la Proposition 11.4.2 et la remarque
suivant cette proposition). Grˆace `a l’ind´ependance des v.a. U
1
, U
2
− U
1
, . . . , U
p
− U
p−1
, on
obtient que la densit´e de (U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
) est
g(x
1
, . . . , x
p
) = p
σ
2
t
1
(x
1
)p
σ
2
(t
2
−t
1
)
(x
2
) p
σ
2
(tp−t
p−1
)
(x
p
),
et par un changement de variables facile, la densit´e de (U
1
, U
2
, . . . , U
p
) est
f(y
1
, . . . , y
p
) = g(y
1
, y
2
−y
1
, . . . , y
p
−y
p−1
) = p
σ
2
t
1
(y
1
)p
σ
2
(t
2
−t
1
)
(y
2
−y
1
) p
σ
2
(tp−t
p−1
)
(y
p
−y
p−1
).
Preuve. Il suffit de montrer que, pour tous ξ
1
, . . . , ξ
p
∈ R
d
,
E

exp

i
p
¸
j=1
ξ
j
S
(n)
t
j

−→
n→∞
E

exp

i
p
¸
j=1
ξ
j
U
j

.
Cela ´equivaut `a dire que, pour tous η
1
, . . . , η
p
∈ R
d
,
E

exp

i
p
¸
j=1
η
j
(S
(n)
t
j
−S
(n)
t
j−1
)

−→
n→∞
E

exp

i
p
¸
j=1
η
j
(U
j
−U
j−1
)

. (14.1)
220
Or on sait d´ej`a, grˆace `a l’ind´ependance des v.a. U
1
, U
2
−U
1
, . . . , U
p
−U
p−1
, que
E

exp

i
p
¸
j=1
η
j
(U
j
−U
j−1
)

=
p
¸
i=1
E

exp


j
(U
j
−U
j−1
)

= exp


p
¸
j=1
σ
2

j
[
2
(t
j
−t
j−1
)
2

(on utilise la formule pour la transform´ee de Fourier de la loi gaussienne). D’autre part,
S
(n)
t
j
−S
(n)
t
j−1
=
1

n
[nt
j
]
¸
k=[nt
j−1
]+1
Y
k
ce qui montre d’une part que les v.a. S
(n)
t
j
− S
(n)
t
j−1
, 1 ≤ j ≤ p sont ind´ependantes, d’autre
part que pour chaque j fix´e
S
(n)
t
j
−S
(n)
t
j−1
(loi)
=
1

n
S
[nt
j
]−[nt
j−1
]
=

[nt
j
] −[nt
j−1
]

n
1

[nt
j
] −[nt
j−1
]
S
[nt
j
]−[nt
j−1
]
.
Grˆace au th´eor`eme central limite vectoriel, cette derni`ere variable converge en loi quand
n → ∞ vers

t
j
−t
j−1
N, o` u N est un vecteur gaussien de covariance σ
2
Id (on utilise aussi
la propri´et´e simple suivante : si X
n
converge en loi vers X et si (a
n
) est une suite de r´eels
convergeant vers a, alors a
n
X
n
converge en loi vers aX). En cons´equence, pour chaque j
fix´e,
E

exp

i η
j
(S
(n)
t
j
−S
(n)
t
j−1
)

−→
n→∞
E[exp(i

t
j
−t
j−1
η
j
N)] = exp


σ
2

j
[
2
(t
j
−t
j−1
)
2

.
L’ind´ependance des v.a. S
(n)
t
j
−S
(n)
t
j−1
, 1 ≤ j ≤ p, permet maintenant de conclure au r´esultat
recherch´e (14.1).
D´efinition 14.1.1 On appelle mouvement brownien (en dimension d, issu de 0) une famille
(B
t
)
t∈R
+
de v.a. `a valeurs dans R
d
, d´efinies sur un espace de probabilit´e (Ω, T, P), telles
que :
(P1) On a B
0
= 0 p.s. De plus, pour tout choix de l’entier p ≥ 1 et des nombres r´eels
0 = t
0
< t
1
< < t
p
, les v.a. B
t
1
, B
t
2
− B
t
1
, . . . , B
tp
− B
t
p−1
sont ind´ependantes,
et, pour tout j ∈ ¦1, . . . , p¦, B
t
j
− B
t
j−1
est un vecteur gaussien centr´e de covariance
(t
j
−t
j−1
)Id.
(P2) Pour tout ω ∈ Ω, la fonction t → B
t
(ω) est continue.
Remarques. (i) En admettant l’existence du mouvement brownien (´etablie ci-dessous), on
peut reformuler la Proposition 14.1.1 en disant que, pour tout choix de t
1
< < t
p
,
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
−→
n→∞
(σB
t
1
, σB
t
2
, . . . , σB
tp
).
A la multiplication par le scalaire σ pr`es, le mouvement brownien apparaˆıt donc comme la
limite continue de marches al´eatoires discr`etes convenablement chang´ees d’´echelle. D’une
221
certaine mani`ere, cette limite correspond, pour le ph´enom`ene physique appel´e mouvement
brownien, au passage de l’explication microscopique aux observations macroscopiques.
(ii) Comme on l’a vu ci-dessus, la loi de (B
t
1
, B
t
2
, . . . , B
tp
) est donn´ee par
P

(B
t
1
, B
t
2
, . . . , B
tp
) ∈ A

=

A
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
−t
1
(y
2
−y
1
) p
tp−t
p−1
(y
p
−y
p−1
),
(14.2)
pour toute partie br´elienne A de (R
d
)
p
.
14.2 La construction du mouvement brownien
Th´eor`eme 14.2.1 Le mouvement brownien existe. Autrement dit on peut construire sur
un espace de probabilit´e convenable une famille (B
t
)
t∈R
+
de v.a. satisfaisant (P1) et (P2).
Preuve. On traite d’abord le cas d = 1, et dans un premier temps on va construire la
famille (B
t
)
t∈[0,1]
. Le choix de l’espace de probabilit´e (Ω, T, P) ne pose pas de probl`eme : il
suffit de disposer sur cet espace d’une suite de v.a. gaussiennes ^(0, 1) ind´ependantes (on
a vu dans le chapitre pr´ec´edent qu’en prenant Ω = [0, 1] on pouvait construire une suite
de v.a. ind´ependantes de loi uniforme, qu’il est facile de transformer en une suite de v.a.
gaussiennes ^(0, 1) ind´ependantes).
Introduisons les fonctions de Haar. On pose
h
0
(t) = 1, ∀t ∈ [0, 1]
puis, pour tout entier n ≥ 0 et pour tout k ∈ ¦0, 1, . . . , 2
n
−1¦,
h
k
n
(t) = 2
n/2
1
[(2k)2
−n−1
,(2k+1)2
−n−1
[
−2
n/2
1
[(2k+1)2
−n−1
,(2k+2)2
−n−1
[
, ∀t ∈ [0, 1].
On v´erifie que les fonctions h
0
, h
k
n
forment un syst`eme orthonorm´e de L
2
([0, 1], B([0, 1]), λ)
o` u λ d´esigne la mesure de Lebesgue. De plus ce syst`eme est total : toute fonction en escalier
constante sur les intervalles de la forme [i2
−n
, (i+1)2
−n
[ (pour n fix´e) est combinaison lin´eaire
des fonctions h
0
et h
k
p
pour p < n. On conclut que la famille
h
0
, (h
k
n
)
n≥0,0≤k≤2
n
−1
forme une base orthonorm´ee de L
2
([0, 1], B([0, 1]), λ).
Notons 'f, g` =

1
0
f(t)g(t)dt le produit scalaire dans L
2
([0, 1], B([0, 1]), λ). Alors, pour
toute fonction f ∈ L
2
([0, 1], B([0, 1]), λ) on a
f = 'f, h
0
`h
0
+

¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`h
k
n
.
D’autre part, nous disposons sur notre espace de probabilit´e (Ω, T, P) d’une suite de v.a.
^(0, 1) ind´ependantes. Quitte `a la renum´eroter on peut ´ecrire cette suite sous la forme
N
0
, (N
k
n
)
n≥0,0≤k≤2
n
−1
.
222
Il est imm´ediat de v´erifier que cette famille constitue un syst`eme orthonorm´e dans L
2
(Ω, T, P).
Il existe alors une (unique) isom´etrie, not´ee B, de L
2
([0, 1], B([0, 1]), λ) dans L
2
(Ω, T, P) telle
que B(h
0
) = N
0
et B(h
k
n
) = N
k
n
pour tous n ≥ 0, 0 ≤ k ≤ 2
n
−1. Pr´ecis´ement,
B(f) = 'f, h
0
`N
0
+

¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`N
k
n
,
pour toute f ∈ L
2
([0, 1], B([0, 1]), λ) (la s´erie converge dans L
2
(Ω, T, P)). Remarquons que
E[B(f)
2
] = |f|
2
2
par la propri´et´e d’isom´etrie, et que E[B(f)] = 0 puisque les v.a. N
0
, N
k
n
sont toutes centr´ees.
De plus le lemme suivant montrera que B(f) suit une loi gaussienne.
Lemme 14.2.2 Soit (U
n
) une suite de v.a. gaussiennes qui converge dans L
2
vers U. Alors
U est aussi gaussienne.
Preuve. Soit m
n
= E[U
n
] et σ
2
n
= var(U
n
). La convergence dans L
2
assure que m
n
−→ m =
E[U] et σ
2
n
−→ σ
2
= var(U). Mais d’autre part, puisque la convergence dans L
2
entraˆıne la
convergence en loi on a aussi pour tout ξ ∈ R,
e
imnξ−σ
2
n
ξ
2
/2
= E[e
iξUn
] −→ E[e
iξU
]
ce qui montre que la fonction caract´eristique de U s’´ecrit
E[e
iξU
] = e
imξ−σ
2
ξ
2
/2
et donc que U suit la loi ^(m, σ
2
).
En ´ecrivant
B(f) = lim
m→∞

'f, h
0
`N
0
+
m
¸
n=0
2
n
−1
¸
k=0
'f, h
k
n
`N
k
n

,
et en utilisant le fait qu’une combinaison lin´eaire de v.a. gaussiennes ind´ependantes est
encore gaussienne, on d´eduit du lemme que B(f) suit la loi ^(0, |f|
2
2
). Remarquons aussi
que, pour f, f

∈ L
2
([0, 1], B([0, 1]), λ),
cov(B(f), B

(f)) = E[B(f)B(f

)] = 'f, f

`
grˆace `a la propri´et´e d’isom´etrie.
On pose alors, pour tout t ∈ [0, 1],
B
t
= B(1
[0,t]
).
En particulier, B
0
= B(1
{0}
) = B(0) = 0 p.s.
V´erifions d’abord que la famille (B
t
)
t∈[0,1]
v´erifie la propri´et´e (P1), restreinte `a l’intervalle
de temps [0, 1]. On se donne donc 0 = t
0
< t
1
< < t
p
≤ 1. Par lin´earit´e, on a
B
t
i
−B
t
i−1
= B(1
]t
i−1
,t
i
]
)
223
qui suit une loi ^(0, t
i
−t
i−1
). De plus, si i = j,
cov(B
t
i
−B
t
i−1
, B
t
j
−B
t
j−1
) = E[(B
t
i
−B
t
i−1
)(B
t
j
−B
t
j−1
)] = '1
]t
i−1
,t
i
]
, 1
]t
j−1
,t
j
]
` = 0.
Or il est facile de v´erifier que le vecteur (B
t
1
, B
t
2
− B
t
1
, . . . , B
tp
− B
t
p−1
) est un vecteur
gaussien : si λ
1
, . . . , λ
p
∈ R,
p
¸
j=1
λ
j
(B
t
j
−B
t
j−1
) = B

p
¸
j=1
λ
j
1
]t
j−1
,t
j
]

suit une loi gaussienne. D’apr`es la Proposition 11.4.2, le fait que la matrice de covariance
(cov(B
t
i
−B
t
i−1
, B
t
j
−B
t
j−1
))
i,j=1,...,p
soit diagonale entraˆıne l’ind´ependance des v.a. B
t
1
, B
t
2

B
t
1
, . . . , B
tp
−B
t
p−1
, ce qui ach`eve la preuve de (P1).
Il reste `a ´etablir la propri´et´e de continuit´e (P2). Pour l’instant, B
t
= B(1
[0,t]
) est d´efini
comme un ´el´ement de L
2
(Ω, T, P), donc une classe d’´equivalence de variables ´egales p.s. Pour
que la v´erification de (P2) ait un sens, il est n´ecessaire de sp´ecifier un repr´esentant dans cette
classe d’´equivalence, et cela pour chaque t ∈ [0, 1] (ce choix n’avait pas d’influence sur la
validit´e ou non de (P1) mais il en a pour (P2)). A cette fin, nous allons ´etudier de plus pr`es
la s´erie qui d´efinit B
t
. On commence par introduire les fonctions de Schauder
g
0
(t) = '1
[0,t]
, h
0
` = t
g
k
n
(t) = '1
[0,t]
, h
k
n
` =

t
0
h
k
n
(s)ds.
Par construction, on a pour tout t ∈ [0, 1],
B
t
= B(1
[0,t]
) = tN
0
+

¸
n=0
2
n
−1
¸
k=0
g
k
n
(t)N
k
n
o` u la s´erie converge a priori dans L
2
(Ω, T, P) pour chaque t ∈ [0, 1] fix´e. Nous allons montrer
bien plus, `a savoir que la s´erie converge uniform´ement sur l’intervalle [0, 1], pour tout ω ∈ Ω,
sauf peut-ˆetre pour ω appartenant `a un ensemble A ∈ T de probabilit´e nulle. On d´efinit
alors B
t
(ω) comme la somme de la s´erie pr´ec´edente si ω ∈ A
c
et on prend B
t
(ω) = 0 pour
tout t ∈ [0, 1] si ω ∈ A (puisque si une suite de v.a. converge p.s. et dans L
2
les limites p.s.
et L
2
sont les mˆemes, il est clair qu’on a ainsi simplement sp´ecifi´e un choix dans la classe
d’´equivalence de v.a. ´egales p.s. `a B(1
[0,t]
), et on n’a rien chang´e `a la validit´e de (P1)). On
obtiendra la continuit´e des applications t → B
t
(ω) en observant qu’une limite uniforme de
fonctions continues est continue.
On remarque d’abord que 0 ≤ g
k
n
≤ 2
−n/2
et que pour n fix´e les fonctions g
k
n
, 0 ≤ k ≤
2
n
−1 sont `a supports disjoints (g
k
n
(t) > 0 seulement si k2
−n
< t < (k + 1)2
−n
). Donc,
sup
t∈[0,1]

2
n
−1
¸
k=0
g
k
n
(t)N
k
n

≤ 2
−n/2
sup
0≤k≤2
n
−1
[N
k
n
[.
224
Lemme 14.2.3 Si N suit la loi ^(0, 1), on a pour tout a ≥ 1,
P([N[ ≥ a) ≤ e
−a
2
/2
.
Preuve. Il suffit d’´ecrire
P([N[ ≥ a) =
2


a
dxe
−x
2
/2

2


a
dx
x
a
e
−x
2
/2
=
2
a


e
−a
2
/2
.

Puisque les v.a. N
k
n
sont toutes de loi ^(0, 1), on peut utiliser le lemme pour majorer
P

sup
0≤k≤2
n
−1
[N
k
n
[ > 2
n/4


2
n
−1
¸
k=0
P([N
k
n
[ > 2
n/4
) ≤ 2
n
exp(−2
n
2
−1
).
En posant
A
n
=

sup
0≤k≤2
n
−1
[N
k
n
[ > 2
n/4
¸
on d´eduit du lemme de Borel-Cantelli et de l’estimation pr´ec´edente que
P(limsup A
n
) = 0.
Donc si A = limsup A
n
on a P(A) = 0 et d’autre part si ω / ∈ A, alors pour tout n assez
grand
sup
0≤k≤2
n
−1
[N
k
n
[ ≤ 2
n/4
d’o` u
sup
t∈[0,1]

2
n
−1
¸
k=0
g
k
n
(t)N
k
n

≤ 2
−n/4
ce qui assure que la s´erie de la d´efinition de B
t
converge uniform´ement sur l’intervalle [0, 1].
Cela termine la v´erification de (P2). On peut aussi remarquer que cette construction donne
B
0
(ω) = 0 pour tout ω ∈ Ω et pas seulement p.s.
Il reste `a s’affranchir de la restriction t ∈ [0, 1], et `a g´en´eraliser le r´esultat en dimension
d quelconque. Dans un premier temps on consid`ere des familles (B
(1)
t
)
t∈[0,1]
, (B
(2)
t
)
t∈[0,1]
, etc.
construites comme ci-dessus, en prenant `a chaque fois une nouvelle suite de v.a. gaussiennes
ind´ependantes, ind´ependante des suites pr´ec´edentes. On pose ensuite
B
t
= B
(1)
1
+ B
(2)
1
+ + B
(k)
1
+ B
(k+1)
t−k
si t ∈ [k, k + 1[.
On v´erifie ais´ement que (B
t
)
t∈R
+
est un mouvement brownien en dimension un.
Pour passer `a une dimension d quelconque, il suffit de se donner d mouvements browniens
en dimension un ind´ependants, not´es (B
1
t
)
t∈R
+
, . . . , (B
d
t
)
t∈R
+
et de poser
B
t
= (B
1
t
, B
2
t
, . . . , B
d
t
)
pour tout t ∈ R
+
. Ceci ach`eve la preuve du th´eor`eme.
Si x ∈ R
d
, on appelle mouvement brownien issu de x tout processus (B
t
)
t∈R
+
tel que
(B
t
−x)
t∈R
+
soit un mouvement brownien issu de 0.
225
14.3 La mesure de Wiener
Soit C(R
+
, R
d
) l’espace des fonctions continues de R
+
dans R
d
. On munit cet espace de la
tribu ( qui est la plus petite tribu rendant mesurables les applications coordonn´ees w → w(t)
pour tout t ∈ R
+
.
Lemme 14.3.1 La tribu ( co¨ıncide avec la tribu bor´elienne lorsque C(R
+
, R
d
) est muni de
la topologie de la convergence uniforme sur tout compact.
Preuve. Soit B la tribu bor´elienne. L’inclusion ( ⊂ B d´ecoule de ce que les applications
coordonn´ees sont continues donc mesurables pour la tribu bor´eliennes. Dans l’autre sens,
rappelons qu’une distance sur C(R
+
, R
d
) est fournie par
d(w, w

) =

¸
n=1
2
−n
sup
0≤t≤n
([w(t) −w

(t)[ ∧ 1).
On sait que l’espace C(R
+
, R
d
) est s´eparable et donc que tout ouvert est r´eunion d´enombrable
de boules. Il suffit alors de montrer que toute boule est dans la tribu (, ou encore que pour
w
0
∈ C(R
+
, R
d
) fix´e, l’application w → d(w
0
, w) est (-mesurable. Or en ´ecrivant pour tout
n ≥ 1,
sup
t∈[0,n]
([w(t) −w
0
(t)[ ∧ 1) = sup
t∈[0,n]∩Q
([w(t) −w
0
(t)[ ∧ 1)
on obtient imm´ediatement cette propri´et´e de mesurabilit´e.
D´efinition 14.3.1 Soit (B
t
)
t∈R
+
un mouvement brownien en dimension d (issu de 0), d´efini
sur un espace de probabilit´e (Ω, T, P). La mesure de Wiener en dimension d est la mesure
de probabilit´e P
0
sur C(R
+
, R
d
) d´efinie comme la mesure-image de P(dω) par l’application
Φ : ω −→ (B
t
(ω))
t∈R
+
Ω −→ C(R
+
, R
d
)
Remarquons que l’application Φ est mesurable : comme cela a ´et´e observ´e dans le chapitre
pr´ec´edent dans un contexte un peu diff´erent, il suffit de voir que la compos´ee de Φ avec
chacune des applications coordonn´ees w → w(t) est mesurable, ce qui est imm´ediat (cette
compos´ee donne les v.a. B
t
).
La d´efinition pr´ec´edente n’a de sens que parce qu’elle ne d´epend pas du choix du mouve-
ment brownien B. Cela se voit de la mani`ere suivante. Si 0 = t
0
< t
1
< < t
p
, on a pour
tous A
0
, A
1
, . . . , A
p
bor´eliens de R
d
,
P
0
(¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦)
= P(B
t
0
∈ A
0
, B
t
1
∈ A
1
, . . . , B
tp
∈ A
p
)
= 1
A
0
(0)

A
1
×···×Ap
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
−t
1
(y
2
−y
1
) p
tp−t
p−1
(y
p
−y
p−1
),
d’apr`es la formule (14.2), qui est vraie pour n’importe quel mouvement brownien B (c’est
juste une reformulation de (P1)). Or le lemme de classe monotone montre qu’une mesure de
226
probabilit´e sur C(R
+
, R
d
) est caract´eris´ee par ses valeurs sur les “cylindres”, c’est-`a-dire les
ensembles de la forme
¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦.
Cela montre bien que P
0
est d´etermin´ee de mani`ere unique, ind´ependamment du choix du
mouvement brownien B : autrement dit tous les mouvements browniens (issus de 0) ont la
mˆeme loi, qui est la mesure de Wiener.
Remarque. En un certain sens, la mesure de Wiener joue sur l’espace C(R
+
, R
d
) un rˆole
analogue `a la mesure de Lebesgue sur [0, 1].
Si x ∈ R
d
, on note aussi P
x
(dw) la mesure-image de P
0
(dw) par la translation w → x+w
(c’est la loi du mouvement brownien issu de x).
Construction canonique du mouvement brownien. Elle consiste `a prendre comme
espace de probabilit´e Ω = C(R
+
, R
d
) muni de la tribu ( et de la probabilit´e P
0
. On d´efinit
alors pour tout t ≥ 0,
B
t
(w) = w(t), ∀w ∈ Ω.
La famille (B
t
)
t∈R
+
, d´efinie sur l’espace de probabilit´e (Ω, (, P
0
), est un mouvement brownien
issu de 0. La propri´et´e (P2) est ´evidente. La propri´et´e (P1) d´ecoule de la formule donn´ee
ci-dessus pour
P
0
(¦w ∈ C(R
+
, R
d
) : w(t
0
) ∈ A
0
, w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦).
De mˆeme, sous P
x
, (B
t
)
t∈R
+
est un mouvement brownien issu de x.
14.4 Premi`eres propri´et´es du mouvement brownien
Dans ce paragraphe et le suivant, on consid`ere un mouvement brownien B en dimension d,
issu de 0. Pour tout s ≥ 0 on note T
s
la tribu engendr´ee par les v.a. (B
r
, 0 ≤ r ≤ s). On
note aussi T

la tribu engendr´ee par toutes les v.a. B
t
, t ∈ R
+
.
Proposition 14.4.1 (i) Si ϕ est une isom´etrie vectorielle de R
d
, (ϕ(B
t
))
t∈R
+
est aussi un
mouvement brownien (en particulier −B est un mouvement brownien);
(ii) pour tout γ > 0, le processus B
γ
t
=
1
γ
B
γ
2
t
est aussi un mouvement brownien (invariance
par changement d’´echelle);
(iii) pour tout s ≥ 0, le processus B
(s)
t
= B
s+t
−B
s
est un mouvement brownien ind´ependant
de T
s
(propri´et´e de Markov simple).
Preuve. (i) et (ii) sont tr`es faciles. Pour l’ind´ependance dans (iii), on observe que pour
tout choix de t
1
< t
2
< < t
p
et r
1
< r
2
< < r
q
≤ s, la propri´et´e (P1) entraˆıne que le
vecteur
(B
(s)
t
1
, . . . , B
(s)
tp
)
227
est ind´ependant de
(B
r
1
, . . . , B
rq
).
En utilisant la Proposition 9.2.4, on en d´eduit ais´ement que la famille (B
(s)
t
)
t∈R
+
est ind´ependante
de (B
r
)
0≤r≤s
.
Th´eor`eme 14.4.2 (Loi du tout ou rien de Blumenthal) Soit
T
0+
=
¸
s>0
T
s
.
La tribu T
0+
est grossi`ere, au sens o` u ∀A ∈ T
0+
, P(A) = 0 ou 1.
Preuve. Soit A ∈ T
0+
et soient t
1
, . . . , t
p
> 0. Pour ε > 0 assez petit, la propri´et´e de Markov
simple (Proposition 14.4.1 (iii)) entraˆıne que (B
t
1
−B
ε
, . . . , B
tp
−B
ε
) est ind´ependant de T
ε
,
donc a fortiori de T
0+
. En cons´equence, pour toute fonction f continue born´ee sur (R
d
)
p
,
E[1
A
f(B
t
1
−B
ε
, . . . , B
tp
−B
ε
)] = P(A) E[f(B
t
1
−B
ε
, . . . , B
tp
−B
ε
)].
En faisant tendre ε vers 0 on trouve
E[1
A
f(B
t
1
, . . . , B
tp
)] = P(A) E[f(B
t
1
, . . . , B
tp
)],
et donc (B
t
1
, . . . , B
tp
) est ind´ependant de T
0+
. Grˆace `a nouveau `a la Proposition 9.2.4, il
en d´ecoule que T

est ind´ependante de T
0+
. En particulier T
0+
⊂ T

est ind´ependante
d’elle-mˆeme, ce qui entraˆıne que T
0+
est grossi`ere.
Corollaire 14.4.3 On suppose d = 1. Alors, p.s. pour tout ε > 0
sup
0≤s≤ε
B
s
> 0, inf
0≤s≤ε
B
s
< 0.
Pour tout a ∈ R, soit T
a
= inf¦t ≥ 0 : B
t
= a¦ (inf ∅ = ∞). Alors,
p.s., ∀a ∈ R, T
a
< ∞.
En cons´equence, p.s.,
limsup
t→∞
B
t
= +∞, liminf
t→∞
B
t
= −∞.
Remarque. Il n’est pas a priori ´evident que la variable sup
0≤s≤ε
B
s
soit mesurable: il
s’agit d’un supremum non d´enombrable de fonctions mesurables. Cependant, parce que
nous savons que les trajectoires de B sont continues, on peut se restreindre aux valeurs
rationnelles de s ∈ [0, ε] et on obtient un supremum d´enombrable de variables al´eatoires
(ou alors on peut utiliser le Lemme 14.3.1).
Preuve. Soit (ε
p
) une suite de r´eels strictement positifs d´ecroissant vers 0, et soit
A =
¸
p
¦ sup
0≤s≤εp
B
s
> 0¦.
228
Il est clair que l’´ev´enement A est T
0+
-mesurable. D’autre part,
P(A) = lim
p→∞
↓ P( sup
0≤s≤εp
B
s
> 0),
et
P( sup
0≤s≤εp
B
s
> 0) ≥ P(B
εp
> 0) =
1
2
,
puisque B
εp
suit la loi gaussienne ^(0, ε
p
) qui est sym´etrique. Cela montre que P(A) ≥ 1/2.
D’apr`es le Th´eor`eme 14.4.2 on a P(A) = 1, d’o` u
p.s. ∀ε > 0, sup
0≤s≤ε
B
s
> 0.
L’assertion concernant inf
0≤s≤ε
B
s
est obtenue en rempla¸ cant B par −B.
Ensuite, on ´ecrit
1 = P( sup
0≤s≤1
B
s
> 0) = lim
δ↓0
↑ P( sup
0≤s≤1
B
s
> δ),
et on remarque en appliquant la propri´et´e d’invariance d’´echelle (Proposition 14.4.1 (ii)) avec
γ = δ que
P( sup
0≤s≤1
B
s
> δ) = P( sup
0≤s≤1/δ
2
B
δ
s
> 1) = P( sup
0≤s≤1/δ
2
B
s
> 1)
(la derni`ere ´egalit´e est vraie parce que la loi du mouvement brownien est d´efinie de mani`ere
unique : voir les remarques suivant la D´efinition 14.3.1). En faisant tendre δ vers 0, on
trouve
P(sup
s≥0
B
s
> 1) = 1.
A nouveau un argument de changement d’´echelle montre que pour tout A > 0,
P(sup
s≥0
B
s
> A) = 1
et en utilisant le changement B → −B on a aussi
P(inf
s≥0
B
s
< −A) = 1.
Les derni`eres assertions du corollaire en d´ecoulent facilement: pour la derni`ere, on observe
qu’une fonction continue f : R
+
−→R ne peut visiter tous les r´eels que si limsup
t→+∞
f(t) =
+∞, liminf
t→+∞
f(t) = −∞.
En utilisant la propri´et´e de Markov simple, on d´eduit facilement du corollaire que p.s. la
fonction t → B
t
n’est monotone sur aucun intervalle non-trivial.
229
14.5 La propri´et´e de Markov forte
Notre but est d’´etendre la propri´et´e de Markov simple (Proposition 14.4.1 (iii)) au cas o` u
l’instant d´eterministe s est remplac´e par un temps al´eatoire T. Nous devons d’abord pr´eciser
la classe des temps al´eatoires admissibles. On garde les notations T
t
et T

introduites ci-
dessus.
D´efinition 14.5.1 Une variable al´eatoire T `a valeurs dans [0, ∞] est un temps d’arrˆet si
∀t ≥ 0, ¦T ≤ t¦ ∈ T
t
.
Remarque. Si T est un temps d’arrˆet, pour tout t ≥ 0,
¦T < t¦ =
¸
q∈Q∩[0,t[
¦T ≤ q¦
est dans T
t
.
Exemple. En dimension d = 1, T
a
= inf¦t ≥ 0 : B
t
= a¦ est un temps d’arrˆet. En effet
¦T
a
≤ t¦ = ¦ inf
r∈Q∩[0,t]
[B
r
−a[ = 0¦ ∈ T
t
.
D´efinition 14.5.2 Soit T un temps d’arrˆet. La tribu des ´ev´enements ant´erieurs `a T est
T
T
= ¦A ∈ T

; ∀t ≥ 0, A ∩ ¦T ≤ t¦ ∈ T
t
¦.
On v´erifie facilement que les variables al´eatoires T et 1
{T<∞}
B
T
sont T
T
-mesurables
(pour la deuxi`eme remarquer que
1
{T<∞}
B
T
= lim
n→∞

¸
i=0
1
{i2
−n
≤T<(i+1)2
−n
}
B
i2
−n,
puis que, pour tout s ≥ 0, B
s
1
{s≤T}
est T
T
mesurable).
Th´eor`eme 14.5.1 (Propri´et´e de Markov forte) Soit T un t.a. tel que P(T < ∞) > 0.
Alors, conditionnellement `a ¦T < ∞¦, le processus B
(T)
d´efini par
B
(T)
t
= B
T+t
−B
T
est un mouvement brownien ind´ependant de T
T
.
Remarque. Pour ˆetre tout `a fait pr´ecis, il faut aussi d´efinir B
(T)
sur l’ensemble ¦T = ∞¦,
par exemple en posant B
t
(ω) = 0 pour tout t ≥ 0 si T(ω) = ∞ (ce choix n’a ´evidemment
aucune influence sur le r´esultat ci-dessus).
Preuve. Supposons d’abord T < ∞p.s. On va montrer que, pour A ∈ T
T
, 0 ≤ t
1
< < t
p
et F continue born´ee de (R
d
)
p
dans R
+
, on a
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A) E[F(B
t
1
, . . . , B
tp
)]. (14.3)
230
Cela suffit pour ´etablir les diff´erentes assertions du th´eor`eme : le cas A = Ω montre que
B
(T)
est un mouvement brownien (remarquer que les applications t → B
(T)
t
(ω) sont contin-
ues) et d’autre part (14.3) entraˆıne que pour tout choix de 0 ≤ t
1
< < t
p
, le vecteur
(B
(T)
t
1
, . . . , B
(T)
tp
) est ind´ependant de T
T
, d’o` u il d´ecoule que B
(T)
est ind´ependant de T
T
.
Pour montrer (14.3), on observe d’abord que p.s.
F(B
(T)
t
1
, . . . , B
(T)
tp
)
= lim
n→∞

¸
k=0
1
{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n),
d’o` u par convergence domin´ee,
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)]
= lim
n→∞

¸
k=0
E[1
A
1
{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n)].
Pour A ∈ T
T
, l’´ev´enement A ∩ ¦(k − 1)2
−n
< T ≤ k2
−n
¦ est T
k2
−n-mesurable. D’apr`es la
propri´et´e de Markov simple (Proposition 14.4.1 (iii)), on a donc
E[1
A∩{(k−1)2
−n
<T≤k2
−n
}
F(B
k2
−n
+t
1
−B
k2
−n, . . . , B
k2
−n
+tp
−B
k2
−n)]
= P(A∩ ¦(k −1)2
−n
< T ≤ k2
−n
¦) E[F(B
t
1
, . . . , B
tp
)],
et il ne reste plus qu’`a sommer sur k pour arriver au r´esultat souhait´e.
Lorsque P(T = ∞) > 0, les mˆemes arguments conduisent `a
E[1
A∩{T<∞}
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A∩ ¦T < ∞¦) E[F(B
t
1
, . . . , B
tp
)]
et le r´esultat recherch´e en d´ecoule `a nouveau.
Une application importante de la propri´et´e de Markov forte est le principe de r´eflexion
illustr´e dans la preuve du th´eor`eme suivant.
Th´eor`eme 14.5.2 On suppose d = 1. Pour tout t > 0, notons S
t
= sup
s≤t
B
s
. Alors, si
a ≥ 0 et b ≤ a, on a
P(S
t
≥ a, B
t
≤ b) = P(B
t
≥ 2a −b).
En particulier, S
t
a mˆeme loi que [B
t
[.
Preuve. On applique la propri´et´e de Markov forte au temps d’arrˆet
T
a
= inf¦t ≥ 0, B
t
= a¦.
On a d´ej`a vu (Corollaire 14.4.3) que T
a
< ∞ p.s. Ensuite,
P(S
t
≥ a, B
t
≤ b) = P(T
a
≤ t, B
t
≤ b) = P(T
a
≤ t, B
(Ta)
t−Ta
≤ b −a),
231
puisque B
(Ta)
t−Ta
= B
t
− B
Ta
= B
t
− a. Notons B

= B
(Ta)
, de sorte que d’apr`es le th´eor`eme
14.5.1, le processus B

est un mouvement brownien ind´ependant de T
Ta
donc en particulier
de T
a
. Comme B

a mˆeme loi que −B

, le couple (T
a
, B

) a aussi mˆeme loi que (T
a
, −B

).
Notons H = ¦(s, w) ∈ R
+
C(R
+
, R); s ≤ t, w(t − s) ≤ b − a¦. La probabilit´e pr´ec´edente
vaut
P((T
a
, B

) ∈ H] = P[(T
a
, −B

) ∈ H)
= P(T
a
≤ t, −B
(Ta)
t−Ta
≤ b −a)
= P(T
a
≤ t, B
t
≥ 2a −b)
= P(B
t
≥ 2a −b)
parce que l’´ev´enement ¦B
t
≥ 2a −b¦ est contenu dans ¦T
a
≤ t¦.
Pour la deuxi`eme assertion on observe que
P(S
t
≥ a) = P(S
t
≥ a, B
t
≥ a) + P(S
t
≥ a, B
t
≤ a) = 2P(B
t
≥ a) = P([B
t
[ ≥ a),
d’o` u le r´esultat voulu.
On d´eduit imm´ediatement du th´eor`eme pr´ec´edent que la loi du couple (S
t
, B
t
) a pour
densit´e
g(a, b) =
2(2a −b)

2πt
3
exp


(2a −b)
2
2t

1
{a>0,b<a}
.
Corollaire 14.5.3 (d = 1) Pour tout a > 0, T
a
a mˆeme loi que
a
2
B
2
1
et a donc pour densit´e
f(t) =
a

2πt
3
exp


a
2
2t

1
{t>0}
.
Preuve. On ´ecrit
P(T
a
≤ t) = P(S
t
≥ a)
= P([B
t
[ ≥ a) (Th´eor`eme 14.5.2)
= P(B
2
t
≥ a
2
)
= P(tB
2
1
≥ a
2
) (B
t
a mˆeme loi que

tB
1
)
= P(
a
2
B
2
1
≤ t).
Ensuite, puisque B
1
suit une loi ^(0, 1) on calcule facilement la densit´e de a
2
/B
2
1
.
Reformulation sur l’espace canonique.
En vue des applications qui suivent, il sera utile de reformuler la propri´et´e de Markov sur
l’espace canonique Ω = C(R
+
, R
d
). A partir de maintenant on se place donc sur cet espace,
sur lequel on consid`ere le processus B
t
(w) = w(t), et la filtration canonique T
t
= σ(B
s
, 0 ≤
s ≤ t). Rappelons que, pour tout x ∈ R
d
, (B
t
)
t≥0
est sous P
x
un mouvement brownien issu
de x.
232
On introduit aussi les op´erateurs de translation. Pour tout s ≥ 0, θ
s
: Ω −→ Ω est d´efini
par

s
w)(t) = w(s + t) , ∀t ≥ 0.
Alternativement, B
t
◦ θ
s
= B
s+t
.
Th´eor`eme 14.5.4 Soit T un temps d’arrˆet, et soient F et G deux fonctions mesurables
positives sur Ω. On suppose que F est T
T
-mesurable. Alors, pour tout x ∈ R
d
,
E
x
[1
{T<∞}
F G◦ θ
T
] = E
x
[1
{T<∞}
F E
B
T
[G]].
Remarque. Comparer cet ´enonc´e avec le Th´eor`eme 13.3.5.
Preuve. On se ram`ene facilement au cas x = 0. Pour all´eger l’´ecriture supposons aussi
P
0
(T < ∞) = 1. Le point-cl´e est d’observer que si T(w) < ∞,

T
w)(t) = w(T + t) = w(T) + (w(T + t) −w(T)) = B
T
(w) +B
(T)
t
(w).
Ensuite on ´ecrit
E
0
[1
{T<∞}
F G◦ θ
T
] = E
0
[1
{T<∞}
F G(B
T
+ B
(T)
·
)] = E
0
[1
{T<∞}
F E
0
[G(B
T
+ B
(T)
·
)[ T
T
]],
o` u B
(T)
·
d´esigne la fonction continue (B
(T)
t
)
t≥0
, vue comme v.a. `a valeurs dans C(R
+
, R
d
).
D’une part B
T
est T
T
-mesurable, d’autre part B
(T)
·
est ind´ependant de T
T
et de loi P
0
,
d’apr`es le Th´eor`eme 14.5.1. En utilisant le Th´eor`eme 11.3.4, on a
E
0
[G(B
T
+ B
(T)
·
)[ T
T
] =

P
0
(dw) G(B
T
+ w) = E
B
T
[G]
d’o` u le r´esultat voulu.
14.6 Fonctions harmoniques et probl`eme de Dirichlet
Nous avons introduit dans le Chapitre 7 la mesure de Lebesgue sur la sph`ere S
d−1
not´ee ω
d
.
La mesure de probabilit´e uniforme sur la sph`ere S
d−1
est la mesure de probabilit´e σ
d
obtenue
en normalisant ω
d
. D’apr`es le Chapitre 7, σ
d
est donc reli´ee `a la mesure de Lebesgue λ
d
sur
R
d
par la formule explicite
σ
d
(A) =
Γ(
d
2
+ 1)
π
d/2
λ
d
(¦rx : 0 ≤ r ≤ 1, x ∈ A¦),
pour tout bor´elien A de S
d−1
. Comme ω
d
, la mesure σ
d
est invariante sous l’action des
isom´etries vectorielles. De plus, le Th´eor`eme 7.2.1 donne la formule d’int´egration en coor-
donn´ees polaires : pour toute fonction bor´elienne f : R
d
−→R
+
,

R
d
f(x) dx = c
d


0

S
d−1
f(rz) r
d−1
dr σ
d
(dz). (14.4)
avec c
d
=

d/2
Γ(d/2)
.
233
Lemme 14.6.1 La mesure σ
d
est la seule mesure de probabilit´e sur la sph`ere S
d−1
qui soit
invariante par l’action des isom´etries vectorielles.
Preuve. Soit µ une autre mesure de probabilit´e sur S
d−1
invariante par l’action des
isom´etries vectorielles. Alors, pour tout ξ ∈ R
d
et toute isom´etrie vectorielle Φ,
´ µ(ξ) =

e
iξ·x
µ(dx) =

e
iξ·Φ
−1
(x)
µ(dx)

e
iΦ(ξ)·x
µ(dx) = ´ µ(Φ(ξ)).
Il en d´ecoule que ´ µ(ξ) ne d´epend que de [ξ[, et donc il existe une fonction f : R
+
−→C telle
que, pour tout ξ ∈ R
d
,
´ µ(ξ) = f([ξ[).
Le mˆeme argument montre qu’il existe une fonction g : R
+
−→C telle que
´ σ
d
(ξ) = g([ξ[).
Alors, pour tout r ≥ 0,

S
d−1

S
d−1
e
irξ·x
µ(dx)

σ
d
(dξ) =

S
d−1
f(r) σ
d
(dξ) = f(r)
et d’apr`es le th´eor`eme de Fubini cela est aussi ´egal `a

S
d−1

S
d−1
e
irx·ξ
σ
d
(dξ)

µ(dx) =

S
d−1
g(r) µ(dx) = g(r).
Donc f = g, d’o` u ´ µ = ´ σ
d
et µ = σ
d
grˆace au Th´eor`eme 8.2.4.
Si x ∈ R
d
et r > 0 on note B(x, r) la boule ouverte de centre x et de rayon r, et
¯
B(x, r)
la boule ferm´ee. La probabilit´e uniforme sur la sph`ere de centre x et de rayon r, not´ee σ
x,r
est par d´efinition l’image de σ
d
(dy) par l’application y → x + ry.
Rappelons que jusqu’`a la fin du chapitre on consid`ere le mouvement brownien d´efini sur
l’espace canonique comme cela a ´et´e pr´ecis´e `a la fin de la partie pr´ec´edente.
Proposition 14.6.2 Soit x ∈ R
d
et r > 0, et soit S le temps d’arrˆet
S = inf¦t ≥ 0 : [B
t
−x[ ≥ r¦.
La loi de B
S
sous P
x
est la probabilit´e uniforme σ
x,r
.
Preuve. Modulo une translation et un changement d’´echelle, il suffit de traiter le cas
x = 0, r = 1, dans lequel σ
x,r
= σ
d
. Les propri´et´es d’invariance du mouvement brownien
montrent que la loi de B
S
est alors invariante par l’action des isom´etries vectorielles. Grˆace
au Lemme 14.6.1, la loi de B
S
doit ˆetre σ
d
.
Rappelons qu’un domaine D est un ouvert connexe de R
d
. Une fonction h : D −→R est
dite localement born´ee si elle est born´ee sur tout sous-ensemble compact de D.
234
D´efinition 14.6.1 Soit D un domaine de R
d
. Une fonction mesurable localement born´ee
h : D −→ R est dite harmonique si, pour tous x ∈ D et r > 0 tels que la boule
¯
B(x, r) soit
contenue dans D, on a
h(x) =

h(y) σ
x,r
(dy). (14.5)
En d’autres mots, la valeur de h en x co¨ıncide avec sa moyenne sur la sph`ere de centre
x et de rayon r, pourvu que la boule ferm´ee
¯
B(x, r) soit contenue dans D.
Probl`eme de Dirichlet classique. Etant donn´e un domaine born´e D et une fonction
continue g : ∂D −→R, on veut trouver une fonction h : D −→R telle que :
• h
|∂D
= g au sens o` u, pour tout y ∈ ∂D,
g(y) = lim
x→y,x∈D
h(x) ;
• h est harmonique sur D.
Le th´eor`eme suivant fournit un candidat `a la solution du probl`eme de Dirichlet.
Th´eor`eme 14.6.3 Soit D un domaine born´e, et soit g une fonction mesurable born´ee sur
∂D. Notons
T = inf¦t ≥ 0 : B
t
/ ∈ D¦.
Alors la fonction
h(x) = E
x
[g(B
T
)], x ∈ D
est harmonique sur D.
Ce th´eor`eme est bien sˆ ur analogue `a un r´esultat de la fin du chapitre pr´ec´edent concernant
les relations entre chaˆınes de Markov et fonctions harmoniques discr`etes.
Preuve. En ´ecrivant
¦T ≤ t¦ =

inf
0≤s≤t,s∈Q
dist(B
s
, D
c
) = 0
¸
on voit que T est un temps d’arrˆet. Des propri´et´es du mouvement brownien en dimension
un il d´ecoule aussi que T < ∞ P
x
p.s. On a vu qu’alors B
T
est une variable al´eatoire (mˆeme
T
T
-mesurable) et donc E
x
[g(B
T
)] est bien d´efinie, et born´ee par sup¦[g(y)[, y ∈ ∂D¦.
Justifions maintenant le fait que h est mesurable. Rappelons la notation ( pour la
tribu introduite sur C(R
+
, R
d
). Alors, pour tout A ∈ (, l’application x → P
x
(A) est
mesurable : cela est vrai pour les cylindres de la forme A = ¦w : w(t
1
) ∈ A
1
, . . . , w(t
p
) ∈ A
p
¦,
puisque dans ce cas on a une formule explicite, et il suffit ensuite d’utiliser un argument de
classe monotone. Il en d´ecoule que pour toute fonction F mesurable born´ee sur C(R
+
, R
d
),
l’application x →E
x
[F] est mesurable. On applique ceci `a
F(w) = 1
{T(w)<∞}
g(B
T
(w)) = 1
{T(w)<∞}
g(w(T(w)))
et on obtient ainsi que h est mesurable.
235
Fixons maintenant x ∈ D et r > 0 tels que
¯
B(x, r) ⊂ D. Posons
S = inf¦t ≥ 0 : B
t
/ ∈ B(x, r)¦ = inf¦t ≥ 0 : [B
t
−x[ ≥ r¦.
Il est clair que S ≤ T, P
x
p.s. (en fait S(w) ≤ T(w) pour tout w ∈ Ω = C(R
+
, R
d
)). De
plus,
B
T
= B
T
◦ θ
S
, P
x
p.s.
En effet c’est simplement dire que si t → w(t) est une “trajectoire” issue du point x, le point
de sortie de D pour cette trajectoire est le mˆeme que celui pour la mˆeme trajectoire dont
on a “effac´e” le d´ebut entre le point de d´epart et le point de sortie de la boule B(x, r) : cela
est ´evident parce que
¯
B(x, r) ⊂ D.
On peut donc utiliser la propri´et´e de Markov forte sous la forme du Th´eor`eme 14.5.4 et
obtenir
h(x) = E
x
[g(B
T
)] = E
x
[g(B
T
) ◦ θ
S
] = E
x
[E
B
S
[g(B
T
)]] = E
x
[h(B
S
)] =

h(y) σ
x,r
(dy)
la derni`ere ´egalit´e ´etant la Proposition 14.6.2. Cela termine la preuve.
Pour montrer que la fonction h du th´eor`eme pr´ec´edent est solution du probl`eme de
Dirichlet (sous l’hypoth`ese suppl´ementaire de continuit´e de g), il faudrait aussi montrer que,
pour tout y ∈ ∂D,
g(y) = lim
x→y,x∈D
E
x
[g(B
T
)].
Intuitivement, si x ∈ D est proche de y ∈ ∂D, le mouvement brownien partant de x va sortir
rapidement de D, donc le point de sortie B
T
sera proche de x, et aussi de y, et la continuit´e
de g assurera que g(B
T
) est proche de g(y) ce qui conduira au r´esultat voulu. Avant de
rendre pr´ecis ce raisonnement, ce qui exigera certaines hypoth`eses suppl´ementaires, nous
commen¸ cons par traiter la question de l’unicit´e de la solution.
La proposition suivante montre que les fonctions harmoniques sont automatiquement tr`es
r´eguli`eres.
Proposition 14.6.4 Si h est harmonique sur D, h est de classe C

sur D. De plus, si
x ∈ D et r > 0 sont tels que
¯
B(x, r) ⊂ D, on a
h(x) =
1
λ
d
(B(x, r))

B(x,r)
h(y) dy. (14.6)
Preuve. Soit r
0
> 0, et soit
D
0
= ¦x ∈ D : dist(x, D
c
) > r
0
¦.
Il suffit de montrer que h est de classe C

sur D
0
. Pour cela, consid´erons une fonction
φ : R → R
+
de classe C

`a support compact contenu dans ]0, r
0
[, et non identiquement
nulle. Alors, pour tout x ∈ D
0
et tout r ∈]0, r
0
[,
h(x) =

σ
x,r
(dz) h(z) =

σ
d
(dy) h(x + ry).
236
On multiplie les deux membres extrˆemes de cette ´egalit´e par r
d−1
φ(r) et on int`egre par
rapport `a dr entre 0 et r
0
. En utilisant la formule (14.4) on trouve que, pour une constante
c > 0 d´ependant seulement de φ, on a pour tout x ∈ D
0
,
c h(x) = c
d

r
0
0
dr r
d−1
φ(r)

σ
d
(dy) h(x + ry)
=

B(0,r
0
)
dz φ([z[)h(x + z)
=

B(x,r
0
)
dz φ([z −x[)h(x)
=

R
d
dz φ([z −x[)
¯
h(x)
o` u pour la derni`ere ´egalit´e on a not´e
¯
h la fonction obtenue en prolongeant h par la valeur 0 sur
D
c
(le choix de cette valeur n’intervient pas puisque si x ∈ D
0
et z ∈ D
c
on a φ([z −x[) = 0).
On voit ainsi que sur D
0
, h co¨ıncide avec la convolution de la fonction z → φ([z[), qui
est de classe C

et `a support compact, avec la fonction
¯
h, qui est mesurable born´ee. Nous
avons remarqu´e `a la fin du Chapitre 2, comme application du th´eor`eme de d´erivation sous
le signe int´egrale, qu’une telle convolution est de classe C

.
Il reste `a ´etablir la deuxi`eme assertion. En reprenant le calcul ci-dessus avec φ = 1
[0,r
0
[
,
on trouve pour x ∈ D
0
,
h(x) = c

B(x,r
0
)
dy h(y)
o` u la constante c

d´epend seulement de φ, donc seulement de r
0
. En prenant h = 1 (qui est
harmonique), on voit que c

= (λ
d
(B(x, r
0
)))
−1
d’o` u le r´esultat annonc´e.
Corollaire 14.6.5 Si une solution du probl`eme de Dirichlet existe, elle est unique.
Preuve. Soient h
1
et h
2
deux solutions, et soit f = h
1
−h
2
. Supposons f non identiquement
nulle. Quitte `a ´echanger les rˆoles de h
1
et h
2
on peut supposer que f prend des valeurs
strictement positives. La fonction obtenue en prolongeant f par la valeur 0 sur ∂D est
continue sur
¯
D, et doit donc atteindre son maximum M dans D (rappelons que D est
suppos´e born´e et donc
¯
D est compact). Soit x
0
un point de D tel que f(x
0
) = M. D’apr`es
la proposition pr´ec´edente on a pour tout r < dist(x
0
, D
c
),
f(x
0
) =
1
λ
d
(B(x
0
, r))

B(x
0
,r)
dy f(y),
soit
B(x
0
,r)
dy (f(x
0
) −f(y)) = 0.
Puisque f(x
0
) ≥ f(y) pour tout y ∈ D, ceci n’est possible que si f(x
0
) = f(y), λ
d
(dy) p.p.
sur B(x
0
, r). Comme f est continue (`a nouveau grˆace `a la proposition pr´ec´edente) on a donc
f(x
0
) = f(y) pour tout y ∈ B(x
0
, r). On a ainsi montr´e que ¦x ∈ D : f(x) = M¦ est ouvert.
237
Mais d’autre part cet ensemble est aussi un ferm´e de D, et puisque D est connexe, on a
n´ecessairement ¦x ∈ D : f(x) = M¦ = D. Cela est absurde puisque M > 0 et f doit tendre
vers 0 `a la fronti`ere de D.
D´efinition 14.6.2 On dit que D satisfait la condition de cˆone ext´erieur si, pour tout y ∈
∂D, il existe r > 0 et un cˆone de r´evolution ouvert C de sommet y tels que C∩B(y, r) ⊂ D
c
.
Th´eor`eme 14.6.6 Supposons que D est un domaine born´e satisfaisant la condition de cˆone
ext´erieur, et soit g une fonction continue sur ∂D. Alors la fonction
h(x) = E
x
[g(B
T
)], x ∈ D
est l’unique solution du probl`eme de Dirichlet.
Preuve. Compte-tenu du Th´eor`eme 14.6.3 et du Corollaire 14.6.5, il suffit de v´erifier que,
pour tout y ∈ ∂D fix´e,
lim
x→y,x∈D
h(x) = g(y). (14.7)
Soit ε > 0. Grˆace `a la continuit´e de g, on peut choisir δ > 0 tel que, si z ∈ ∂D et [z −y[ < δ,
on a
[g(z) −g(y)[ <
ε
3
.
Soit ensuite M > 0 tel que [g(z)[ < M pour tout z ∈ ∂D. On a alors, pour tout η > 0,
[E
x
[g(B
T
)] −g(y)[ ≤ E
x
[[g(B
T
) −g(y)[1
{T≤η}
] +E
x
[[g(B
T
) −g(y)[1
{T>η}
]
≤ E
x
[[g(B
T
) −g(y)[1
{T≤η}
1
{sup
t≤η
|Bt−x|≤δ/2}
]
+2MP
x

sup
t≤η
[B
t
−x[ >
δ
2

+ 2MP
x
(T > η)
= I + II + III.
Nous allons majorer s´epar´ement les trois termes I, II, III.
Si [x −y[ <
δ
2
, on a sur l’´ev´enement ¦T ≤ η¦ ∩ ¦sup
t≤η
[B
t
−x[ ≤ δ/2¦
[B
T
−y[ ≤ [B
T
−x[ +[x −y[ < δ
et le choix de δ assure que le terme I est major´e par ε/3.
En utilisant l’invariance par translation, on a
II = 2MP
0

sup
t≤η
[B
t
[ >
δ
2

et donc le terme II ne d´epend pas de x. Clairement II tend vers 0 quand η tend vers 0
(c’est juste dire que sup
t≤η
[B
t
[ −→ 0 en probabilit´e sous P
0
, ce qui est vrai puisqu’il y a
convergence p.s. par continuit´e). On peut donc choisir η > 0 assez petit de mani`ere que
II < ε/3.
Comme ε a ´et´e choisi de mani`ere arbitraire, il reste pour ´etablir (14.7) `a montrer qu’on
peut choisir α ∈]0, δ/2] suffisamment petit de mani`ere que si [x − y[ < α, le terme III =
2MP
x
(T > η) est aussi major´e par ε/3. Or cela est une cons´equence du lemme suivant, qui
compl`ete donc la preuve du th´eor`eme.
238
Lemme 14.6.7 Sous la condition de cˆone ext´erieur, on a pour tout y ∈ ∂D et tout η > 0,
lim
x→y,x∈D
P
x
(T > η) = 0.
Remarque. Comme cela a ´et´e sugg´er´e apr`es la preuve du Th´eor`eme 14.6.3, le point-cl´e dans
la v´erification de la condition fronti`ere (14.7) est de s’assurer que le mouvement brownien
partant pr`es de la fronti`ere de D va sortir de D rapidement, avec une grande probabilit´e.
C’est pr´ecis´ement ce que nous dit le lemme. La condition de cˆone ext´erieur n’est pas la
meilleure possible pour cela, mais elle donne d´ej`a des applications int´eressantes, comme
nous le verrons plus loin.
Preuve. Commen¸ cons par r´e´ecrire la condition de cˆone ext´erieur en y ∈ ∂D. Pour u ∈ S
d−1
et γ > 0, notons
C(u, γ) = ¦z ∈ R
d
: z u > (1 −γ)[z[¦
le cˆone de r´evolution ouvert de sommet 0, de direction u et d’ouverture γ. Alors on peut
choisir r > 0, u ∈ S
d−1
et γ > 0 tels que
y + (C(u, γ) ∩ B(0, r)) ⊂ D
c
.
Pour all´eger l’´ecriture on note C = C(u, γ) ∩ B(0, r). Posons aussi
¯
C = ¦z ∈ R
d
: z u > (1 −
γ
2
)[z[¦ ∩ B(0,
r
2
)
qui correspond `a l’intersection avec B(0,
r
2
) d’un cˆone “un peu plus petit” que C(u, r).
Il d´ecoule facilement de la loi du tout ou rien (Th´eor`eme 14.4.2) que, si T
e
C
= inf¦t ≥ 0 :
B
t

¯
C¦, on a
T
e
C
= 0 , P
0
p.s..
En effet, si (ε
n
) est une suite d´ecroissant strictement vers 0, l’´ev´enement limsup¦B
εn

¯

est dans la tribu T
0+
, et un argument analogue `a la preuve du Corollaire 14.4.3 montre que
cet ´ev´enement est de probabilit´e strictement positive.
Pour a ∈]0, r/2[, notons
¯
C
a
=
¯
C ∩ B(0, a)
c
.
Puisque les ensembles
¯
C
a
croissent vers
¯
C quand a ↓ 0, on a T
e
Ca
↓ T
e
C
= 0, P
0
p.s., et donc
pour tout β > 0 on peut fixer a assez petit tel que
P
0
(T
e
Ca
≤ η) > 1 −β.
En utilisant le fait que y + C ⊂ D
c
, on a, avec des notations ´evidentes,
P
x
(T ≤ η) ≥ P
x
(T
y+C
≤ η) = P
0
(T
y−x+C
≤ η).
Or un raisonnement g´eom´etrique simple (faire un dessin!) montre que, d`es que [y − x[ est
assez petit, le cˆone translat´e y −x + C contient
¯
C
a
, et alors
P
x
(T ≤ η) ≥ P
0
(T
e
Ca
≤ η) > 1 −β
d’apr`es le choix de a. Comme β ´etait arbitraire on a termin´e la preuve du lemme.
Nous en venons maintenant `a une autre caract´erisation analytique des fonctions har-
moniques, qui est souvent prise comme d´efinition.
239
Proposition 14.6.8 Soit h une fonction localement born´ee sur le domaine D. Alors h est
harmonique sur D si et seulement si h est de classe C
2
sur D et ∆h = 0.
Preuve. On suppose d’abord que h est harmonique. La Proposition 14.6.4 montre que h
est de classe C

sur D. Soit x ∈ D et soit r
0
> 0 tel que la boule
¯
B(x, r
0
) soit contenue
dans D. Toujours d’apr`es la Proposition 14.6.4, on a pour tout r ∈]0, r
0
],
h(x) =
1
λ
d
(B(x, r))

B(x,r)
h(y) dy. (14.8)
D’autre part la formule de Taylor `a l’ordre deux montre que, pour y ∈ B(x, r),
h(y) = h(x) +
d
¸
i=1
∂h
∂y
i
(x) (y
i
−x
i
) +
1
2
d
¸
i,j=1

2
h
∂y
i
∂y
j
(x) (y
i
−x
i
)(y
j
−x
j
) + o(r
2
)
o` u le reste o(r
2
) est uniforme quand y d´ecrit B(x, r). En int´egrant cette ´egalit´e sur B(x, r),
et en utilisant les sym´etries ´evidentes, on trouve

B(x,r)
h(y) dy = λ
d
(B(x, r)) h(x) +
1
2
d
¸
i=1

2
h
∂y
2
i
(x)

B(x,r)
(y
i
−x
i
)
2
dy + o(r
d+2
).
Posons C
1
=

B(0,1)
y
2
1
dy > 0. L’´egalit´e pr´ec´edente et (14.8) conduisent `a
C
1
2
∆h(x) r
d+2
+ o(r
d+2
) = 0
ce qui n’est possible que si ∆h(x) = 0.
Inversement supposons h de classe C
2
sur D et ∆h = 0. Il suffit alors de montrer que
si U est une boule ouverte telle que
¯
U ⊂ D, h est harmonique sur U. D’apr`es le Th´eor`eme
14.6.6, il existe une (unique) fonction
¯
h continue sur
¯
U, harmonique dans U, et telle que
¯
h(x) = h(x) pour tout x ∈ ∂U. De plus, la premi`ere partie de la preuve montre que ∆
¯
h = 0
sur U. En appliquant le lemme suivant aux deux fonctions h −
¯
h et
¯
h − h (d´efinies sur
¯
U)
on trouve que h =
¯
h sur
¯
U, ce qui termine la preuve de la proposition.
Lemme 14.6.9 (Principe du maximum) Soit V un ouvert born´e de R
d
, et soit u une
fonction continue sur
¯
V , de classe C
2
dans V et telle que ∆u ≥ 0 sur V . Alors,
sup
x∈
¯
V
u(x) = sup
x∈∂V
u(x).
Preuve. Supposons d’abord qu’on a la propri´et´e plus forte ∆u > 0 sur D. On raisonne par
l’absurde en supposant
sup
x∈
¯
V
u(x) > sup
x∈∂V
u(x).
Dans ce cas on peut trouver x
0
∈ V tel que
u(x
0
) = sup
x∈V
u(x).
240
On a alors
∂u
∂y
j
(x
0
) = 0 , ∀j ∈ ¦1, . . . , d¦
et de plus la formule de Taylor `a l’ordre deux assure que la matrice sym´etrique
M
x
0
=


2
u
∂y
i
∂y
j
(x
0
)

i,j∈{1,...,d}
est n´egative, au sens o` u la forme quadratique associ´ee ne prend que des valeurs n´egatives ou
nulle. En particulier les valeurs propres de M
x
0
sont toutes n´egatives ou nulles et la trace
de M
x
0
l’est aussi. Mais ceci est une contradiction puisque la trace de M
x
0
est ∆u(x
0
) > 0.
Si on fait l’hypoth`ese plus faible ∆u ≥ 0 sur D, il suffit de poser pour tout ε > 0, et tout
x ∈
¯
V
u
ε
(x) = u(x) + εx
2
1
,
de sorte que ∆u
ε
= ∆u + 2ε > 0. La premi`ere partie de la preuve assure que
sup
x∈
¯
V
u
ε
(x) = sup
x∈∂V
u
ε
(x),
et il ne reste plus qu’`a faire tendre ε vers 0.
14.7 Fonctions harmoniques et mouvement brownien
Nous commen¸ cons par un r´esultat important qui fait le lien entre fonctions harmoniques,
mouvement brownien et martingales. Nous devons d’abord introduire la notion de martingale
`a temps continu, qui est une g´en´eralisation directe des martingales `a temps discret ´etudi´ees
dans le Chapitre 12. Rappelons que nous nous sommes plac´es sur l’espace canonique du
mouvement brownien, d´ecrit `a la fin de la partie 3, et que T
t
d´esigne sur cet espace la
tribu engendr´ee par (B
s
, s ≤ t). Une famille (M
t
)
t≥0
, index´ee par les r´eels positifs, de v.a.
int´egrables est une martingale si M
t
est T
t
-mesurable, pour tout t ≥ 0, et si la relation
E[M
t
[ T
s
] = M
s
est vraie pour tous 0 ≤ s ≤ t.
Si U est un ouvert de R
d
, on note H
U
= inf¦t ≥ 0 : B
t
/ ∈ U¦.
Th´eor`eme 14.7.1 Soit D un domaine de R
d
. Une fonction continue h : D −→ R est
harmonique si et seulement si pour tout ouvert born´e U tel que
¯
U ⊂ D et U satisfait la
condition de cˆone ext´erieur, le processus
(h(B
t∧H
U
))
t≥0
est une martingale sous P
x
, pour tout x ∈ U.
De mani`ere informelle les fonctions harmoniques sont celles qui compos´ees avec le mou-
vement brownien donnent des martingales. La condition de cˆ one ext´erieur dans l’´enonc´e qui
pr´ec`ede est superflue mais intervient pour des raisons techniques dans notre d´emonstration.
Preuve. Supposons d’abord que h est harmonique, et soit U un ouvert satisfaisant les
conditions de l’´enonc´e. On note H = H
U
pour all´eger, et on fixe x ∈ U. Remarquons que les
241
v.a. h(B
t∧H
) sont born´ees P
x
p.s. par sup¦[h(y)[ : y ∈
¯
U¦ < ∞. Soient s ≤ t. Observons que
la v.a. B
s∧H
est T
s∧H
-mesurable donc aussi T
s
-mesurable. Pour obtenir l’´egalit´e recherch´ee
E[h(B
t∧H
)[ T
s
] = h(B
s∧H
), il suffit de montrer que, pour toute v.a. F T
s
-mesurable born´ee,
on a
E
x
[F h(B
s∧H
)] = E
x
[F h(B
t∧H
)].
Or on peut interpr´eter h comme la solution (unique) du probl`eme de Dirichlet dans U dont
la condition fronti`ere est simplement la restriction de h `a ∂U. Le Th´eor`eme 14.6.6 montre
que, pour tout y ∈ U,
h(y) = E
y
[h(B
H
)].
Il en d´ecoule que
E
x
[F 1
{s<H}
h(B
s∧H
)] = E
x
[F 1
{s<H}
h(B
s
)] = E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]].
Mais puisque F 1
{s<H}
est T
s
-mesurable (exercice), la propri´et´e de Markov (sous la forme
du Th´eor`eme 14.5.4, avec le temps d’arrˆet constant s) montre que
E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]] = E
x
[F 1
{s<H}
h(B
H
)].
On obtient ainsi
E
x
[F h(B
s∧H
)] = E
x
[F 1
{s<H}
h(B
s
)] +E
x
[F 1
{s≥H}
h(B
H
)] = E
x
[F h(B
H
)].
Evidemment le mˆeme argument montre que
E
x
[F h(B
t∧H
)] = E
x
[F h(B
H
)] = E
x
[F h(B
s∧H
)]
ce qui ´etait l’´egalit´e recherch´ee.
Dans l’autre sens, c’est plus simple. Si on suppose que h v´erifie la propri´et´e de l’´enonc´e,
on prend pour U une boule ouverte dont l’adh´erence est contenue dans D. La propri´et´e de
martingale permet d’´ecrire si x ∈ U
h(x) = E
x
[h(B
t∧H
)[ T
0
] = E
x
[h(B
t∧H
)].
En faisant tendre t vers ∞, on a h(x) = E
x
[h(B
H
)], et le Th´eor`eme 14.6.3 montre que h est
harmonique sur U ce qui suffit pour conclure.
A partir de maintenant, on suppose que d ≥ 2 (remarquer qu’en dimension un les fonc-
tions harmoniques sont les fonctions affines).
Proposition 14.7.2 Soient 0 ≤ a < b et soit D
a,b
le domaine
D
a,b
= B(0, b)`
¯
B(0, a).
Soit f : D
a,b
−→R une fonction radiale, au sens o` u f(x) ne d´epend que de [x[. Alors f est
harmonique si et seulement s’il existe deux constantes C, C

∈ R telles que
f(x) =

C + C

log [x[ si d = 2,
C + C

[x[
2−d
si d ≥ 3.
242
Preuve. Nous savons d´ej`a que f doit ˆetre de classe C

. Soit g :]a, b[−→R la fonction telle
que f(x) = g([x[). L’expression du Laplacien pour une fonction radiale montre que
∆f(x) = g
′′
([x[) +
d −1
[x[
g

([x[).
D’apr`es la Proposition 14.6.8, f est harmonique si et seulement si g satisfait l’´equation
diff´erentielle
g
′′
(r) +
d −1
r
g

(r) = 0
qu’il suffit de r´esoudre pour obtenir la proposition.
Dans les deux ´enonc´es suivants on note T
A
= inf¦t ≥ 0 : B
t
∈ A¦ pour tout ferm´e A de
R
d
.
Proposition 14.7.3 Soit x ∈ R
d
`¦0¦, et soient ε, R > 0 avec ε < [x[ < R. Alors,
P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) =

log R−log |x|
log R−log ε
si d = 2,
|x|
2−d
−R
2−d
ε
2−d
−R
2−d
si d ≥ 3.
(14.9)
Remarque. L’´enonc´e analogue en dimension un est, pour a < x < b,
P
x
(T
a
< T
b
) =
b −x
b −a
et se d´emontre exactement de la mˆeme mani`ere (exercice).
Preuve. Consid´erons le domaine D = D
ε,R
, qui v´erifie la condition de cˆone ext´erieur, et
soit g la fonction continue sur ∂D d´efinie par

g(y) = 1 si [y[ = ε,
g(y) = 0 si [y[ = R.
Alors le Th´eor`eme 14.6.6 montre que
h(x) = P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) , ε < [x[ < R
est la solution unique du probl`eme de Dirichlet avec condition fronti`ere g. Mais en utilisant
la Proposition 14.7.2, on voit imm´ediatement que le terme de droite dans (14.9) est solution
du mˆeme probl`eme de Dirichlet. Cela donne l’´egalit´e recherch´ee.
On peut d´eduire de la proposition pr´ec´edente des informations int´eressantes sur le com-
portement presque sˆ ur des fonctions t −→ B
t
.
Corollaire 14.7.4 (i) Si d ≥ 3, pour tous ε > 0 et x ∈ R
d
tels que ε < [x[,
P
x
(T¯
B(0,ε)
< ∞) = (
ε
[x[
)
d−2
.
De plus, pour tout x ∈ R
d
,
lim
t→∞
[B
t
[ = ∞ , P
x
p.s.
243
(ii) Si d = 2, pour tous ε > 0 et x ∈ R
d
tels que ε < [x[,
P
x
(T¯
B(0,ε)
< ∞) = 1
mais
P
x
(T
{0}
< ∞) = 0.
De plus, P
x
p.s., pour tout ouvert U de R
2
, l’ensemble ¦t ≥ 0 : B
t
∈ U¦ est non born´e.
Par analogie avec le cas des chaˆınes de Markov, on dit que le mouvement brownien est
transitoire en dimension d ≥ 3 et r´ecurrent en dimension d = 2. Noter que cette propri´et´e
de r´ecurrence dans le plan n’entraˆıne pas que tous les points soient visit´es : au contraire un
point fix´e, autre que le point de d´epart, n’est pas visit´e avec probabilit´e 1.
Preuve. (i) La premi`ere assertion est facile puisque
P
x
(T¯
B(0,ε)
< ∞) = lim
n↑∞
P
x
(T¯
B(0,ε)
< T
B(0,n)
c )
et il suffit d’appliquer la formule (14.9).
Ensuite, on pose pour tout entier n ≥ 1
T
(n)
= T
B(0,2
n
)
c .
En appliquant la propri´et´e de Markov forte en T
(n)
et en utilisant `a nouveau la formule
(14.9), on trouve, si [x[ ≤ 2
n
,
P
x

inf
t≥T
(n)
[B
t
[ ≤ n

= E
x

P
B
T
(n)
(T¯
B(0,n)
< ∞)

= (
n
2
n
)
d−2
.
Le lemme de Borel-Cantelli entraˆıne alors que P
x
p.s., pour tout entier n assez grand,
inf
t≥T
(n)
[B
t
[ > n
et donc la fonction t → [B
t
[ converge vers ∞ quand t → ∞.
(ii) D’apr`es la formule (14.9) on a
P
x
(T¯
B(0,ε)
< T
B(0,R)
c ) =
log R −log [x[
log R −log ε
d`es que ε < [x[ < R. En faisant tendre R vers ∞ dans cette formule on trouve
P
x
(T¯
B(0,ε)
< ∞) = 1.
En faisant tendre ε vers 0 dans la mˆeme formule on obtient
P
x
(T
{0}
< T
B(0,R)
c ) = 0.
Comme T
B(0,R)
c ↑ ∞ quand R ↑ ∞, cela entraˆıne
P
x
(T
{0}
< ∞) = 0.
244
On a donc `a la fois
P
x
p.s. ∀ε > 0, T¯
B(0,ε)
< ∞
et
P
x
p.s. 0 / ∈ ¦B
t
: t ≥ 0¦.
Ces deux propri´et´es entraˆınent que P
x
p.s. 0 est un point d’accumulation de la fonction
t → B
t
quand t → ∞. Donc, pour tout ouvert U contenant 0, l’ensemble ¦t ≥ 0 : B
t
∈ U¦
est P
x
p.s. non born´e. Un argument de translation donne alors la derni`ere propri´et´e du
corollaire, en remarquant aussi qu’on peut se limiter `a une famillle d´enombrable de choix de
U.
Noyau de Poisson. Rappelons que nous nous pla¸ cons en dimension d ≥ 2. Le noyau de
Poisson (de la boule unit´e) est la fonction d´efinie sur B(0, 1) S
d−1
par
K(x, y) =
1 −[x[
2
[x −y[
d
, x ∈ B(0, 1), y ∈ S
d−1
.
Lemme 14.7.5 Pour tout y ∈ S
d−1
fix´e, la fonction x → K(x, y) est harmonique sur
B(0, 1).
Preuve. Posons K
y
(x) = K(x, y) pour x ∈ B(0, 1). Un calcul direct montre que ∆K
y
= 0
sur B(0, 1), et il suffit d’appliquer la Proposition 14.6.8.
Lemme 14.7.6 Pour tout x ∈ B(0, 1),

S
d−1
K(x, y) σ
d
(dy) = 1.
Preuve. Pour tout x ∈ B(0, 1), posons
F(x) =

S
d−1
K(x, y) σ
d
(dy).
Alors, on d´eduit facilement du lemme pr´ec´edent que F est harmonique sur B(0, 1) : on
peut appliquer le th´eor`eme de Fubini pour v´erifier que F satisfait la propri´et´e de moyenne
(ou d´eriver sous le signe int´egrale pour montrer que ∆F = 0). Par ailleurs, en utilisant les
propri´et´es d’invariance de σ
d
et de K par les isom´etries vectorielles, on obtient que F est
une fonction radiale. Sur la boule ouverte priv´ee de l’origine B(0, 1)`¦0¦, F doit donc ˆetre
de la forme donn´ee dans la Proposition 14.7.2. Mais puisque F est aussi continue en 0, la
constante C

intervenant dans les formules de cette proposition doit ˆetre nulle. On a donc,
pour tout x ∈ B(0, 1), F(x) = F(0) = 1.
Th´eor`eme 14.7.7 Soit g une fonction continue sur S
d−1
. La solution du probl`eme de
Dirichlet dans B(0, 1) avec condition fronti`ere g est donn´ee par
h(x) =

S
d−1
K(x, y) g(y) σ
d
(dy) , x ∈ B(0, 1).
De plus, pour tout x ∈ B(0, 1) fix´e, la fonction y → K(x, y) est la densit´e par rapport `a la
mesure σ
d
(dy) de la loi sous P
x
du point de sortie du mouvement brownien hors de B(0, 1).
245
Preuve. Les mˆemes arguments que dans la preuve du Lemme 14.7.6 montrent que h est
harmonique dans B(0, 1). Pour v´erifier la condition fronti`ere, fixons y
0
∈ S
d−1
. Pour tout
δ > 0, la forme explicite du noyau de Poisson montre que si x ∈ B(0, 1) et y ∈ S
d−1
sont
tels que [x −y
0
[ < δ/2 et [y −y
0
[ > δ on a
K(x, y) ≤ (
2
δ
)
d
(1 −[x[
2
).
Il d´ecoule de cette majoration que, pour tout δ > 0,
lim
x→y
0
,x∈B(0,1)

{|y−y
0
|>δ}
K(x, y) σ(dy) = 0. (14.10)
Ensuite, si ε > 0 est donn´e, on choisit δ > 0 assez petit pour que [g(y) −g(y
0
)[ ≤ ε d`es que
y ∈ S
d−1
et [y −y
0
[ ≤ δ. Si M = sup¦[g(y)[ : y ∈ S
d−1
¦, il vient
[h(x) −g(y
0
)[ =

S
d−1
K(x, y) (g(y) −g(y
0
)) σ
d
(dy)

≤ 2M

{|y−y
0
|>δ}
K(x, y) σ(dy) + ε,
en utilisant le Lemme 14.7.6 pour la premi`ere ´egalit´e, et ensuite le choix de δ. Grˆace `a
(14.10), on obtient maintenant
limsup
x→y
0
,x∈B(0,1)
[h(x) −g(y
0
)[ ≤ ε.
Comme ε ´etait arbitraire, cela donne bien la condition fronti`ere voulue.
Enfin, pour la derni`ere assertion, on utilise le Th´eor`eme 14.6.6 qui affirme que la solution
du mˆeme probl`eme de Dirichlet est aussi donn´ee par
h(x) = E
x
[g(B
T
)],
o` u T = inf¦t ≥ 0 : B
t
/ ∈ D¦. En comparant les deux formules pour h on obtient pr´ecis´ement
que la loi de B
T
est la mesure K(x, y)σ
d
(dy).
246
Quelques r´ef´erences
Partie I : Int´egration.
Le livre classique de Rudin [7] est toujours une bonne r´ef´erence. Le livre de Briane et
Pag`es [2] est tr`es d´etaill´e et assez complet.
[1] M.R. Adams, V. Guillemin. Measure Theory and Probability. Birkh¨auser, 1996.
[2] M. Briane, G. Pag`es. Th´eorie de l’Int´egration. Vuibert, 2000.
[3] D.L. Cohn. Measure Theory. Birkh¨auser, 1980.
[4] J.L. Doob. Measure Theory. Springer, 1994.
[5] R.M. Dudley. Real Analysis and Probability. Chapman and Hall, 1989.
[6] D. Revuz. Mesure et Int´egration. Hermann, 1994.
[7] W. Rudin. Real and Complex Analysis. McGraw Hill, 1974.
[8] D.W. Stroock. A Concise Introduction to the Theory of Integration. Birkh¨auser,
1994.
Partie II : Probabilit´es.
[9] et [18] sont des ouvrages en fran¸ cais dont le niveau correspond grosso-modo `a celui
du cours. [10] et [11] sont des classiques dont la lecture est toujours int´eressante. [13] et [17]
sont des livres plus r´ecents ´ecrits par des probabilistes de tout premier plan.
[9] P. Barbe, M. Ledoux. Probabilit´e. Belin, 1998.
[10] P. Billingsley. Probability and Measure, 3rd ed. Wiley, 1995.
[11] L. Breiman. Probability. Addison-Wesley, 1968.
[12] K.L. Chung. A Course in Probability Theory. Harcourt Brace and World, 1968.
[13] R. Durrett. Probability and Examples, 2nd ed. Duxbury Press, 1996.
247
[14] W. Feller. An Introduction to Probability Theory and Its Applications, Vol. I. Wiley.
(Un grand classique sur tout ce que vous pouvez faire en probabilit´es sans th´eorie de la
mesure)
[15] G. Grimmett, D. Stirzaker. Probability and Random Processes. Oxford Science
Publications, 1992.
[16] J. Neveu. Bases Math´ematiques du Calcul des Probabilit´es. Masson, 1064. (Livre de
r´ef´erence sur les outils de th´eorie de la mesure qui interviennent en probabilit´es)
[17] J. Pitman. Probability. Springer, 1993.
[18] D. Revuz. Probabilit´es. Hermann, 1997.
[19] D.W. Stroock. Probability Theory: An Analytic View. Cambridge U. Press 1993.
(Livre plus avanc´e autour des liens entre analyse et probabilit´es)
Partie III : Processus al´eatoires.
[20] J. Neveu Martingales `a temps discret. Masson 1972
[21] D. Williams Probability with martingales. Cambridge University Press 1991
[22] C. Dellacherie, P.A. Meyer Probabilit´es et potentiels, Chapitres V `a VIII. Th´eorie
des martingales. Hermann 1980 (traite aussi et surtout le cas des martingales `a temps
continu)
[23] P. Baldi, L. Mazliak, P. Priouret Martingales et chaˆınes de Markov. Hermann
1998
[24] K.L. Chung Markov chains with stationary transition probabilities. Springer 1967
[25] R. Durrett Essentials of stochastic processes. Springer 1999 (donne beaucoup d’exemples
concrets de chaˆınes de Markov)
[26] D.W. Stroock An introduction to Markov processes. Springer 2005 (pour une lecture
plus avanc´ee sur chaˆınes et processus de Markov).
248

2

Sommaire
I Int´gration e
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
9 9 11 13 15 17 17 23 26 29 29 31 38 39 39 41 43 43 46 49 52 57 57 58 61 63 63 64 67

1 Espaces mesur´s e 1.1 Ensembles mesurables 1.2 Mesures positives . . . 1.3 Fonctions mesurables . 1.4 Classe monotone . . .

2 Int´gration par rapport ` une mesure e a 2.1 Int´gration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . e 2.2 Fonctions int´grables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 2.3 Int´grales d´pendant d’un param`tre . . . . . . . . . . . . . . . . . . . . . . e e e 3 Construction de mesures 3.1 Mesures ext´rieures . . . . . . . . . . . e 3.2 La mesure de Lebesgue . . . . . . . . . 3.3 Liens avec l’int´grale de Riemann . . . e 3.4 Un exemple d’ensemble non mesurable 3.5 Int´grale de Stieltjes . . . . . . . . . . e 3.6 Le th´or`me de repr´sentation de Riesz e e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Espaces Lp 4.1 D´finition et in´galit´ de H¨lder . . . . . e e e o p 4.2 L’espace de Banach L (E, A, µ) . . . . . 4.3 Th´or`mes de densit´ dans les espaces Lp e e e 4.4 Le th´or`me de Radon-Nikodym . . . . . e e

5 Mesures produits 5.1 G´n´ralit´s sur les espaces produits . . . . e e e 5.2 Construction de la mesure-produit . . . . . 5.3 Le th´or`me de Fubini . . . . . . . . . . . e e 5.4 Applications . . . . . . . . . . . . . . . . . 5.4.1 Int´gration par parties . . . . . . . e 5.4.2 Convolution . . . . . . . . . . . . . 5.4.3 Calcul du volume de la boule unit´ e 3

6 Mesures sign´es e 6.1 D´finition et variation totale . . . . . . e 6.2 La d´composition de Jordan . . . . . . e 6.3 La dualit´ Lp − Lq . . . . . . . . . . . e 6.4 Le th´or`me de repr´sentation de Riesz e e e

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

69 69 72 75 79

7 Formule de changement de variables et compl´ments e 7.1 La formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 7.2 Mesure de Lebesgue sur la sph`re unit´ . . . . . . . . . . . . . . . . . . . . . e e

81 81 85

II

Probabilit´s e
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89
91 91 91 93 94 96 98 99 100 101 101 103 104 107 109 109 111 116 119 125 125 127 131 137 137 138 140

8 Fondements de la th´orie des probabilit´s e e 8.1 D´finitions g´n´rales . . . . . . . . . . . . . . . . . . . . . . e e e 8.1.1 Espaces de probabilit´ . . . . . . . . . . . . . . . . . e 8.1.2 Variables al´atoires . . . . . . . . . . . . . . . . . . . e 8.1.3 Esp´rance math´matique . . . . . . . . . . . . . . . . e e 8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . 8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . 8.1.6 Fonction de r´partition d’une variable al´atoire r´elle e e e 8.1.7 Tribu engendr´e par une variable al´atoire . . . . . . e e 8.2 Moments de variables al´atoires . . . . . . . . . . . . . . . . e 8.2.1 Moments d’ordre p et variance . . . . . . . . . . . . . 8.2.2 La r´gression lin´aire . . . . . . . . . . . . . . . . . . e e 8.2.3 Fonctions caract´ristiques . . . . . . . . . . . . . . . e 8.2.4 Fonction g´n´ratrice . . . . . . . . . . . . . . . . . . e e 9 Ind´pendance e 9.1 Ev´nements ind´pendants . . . . . . . . . . . e e 9.2 Variables al´atoires et tribus ind´pendantes . e e 9.3 Le lemme de Borel-Cantelli . . . . . . . . . . 9.4 Sommes de variables al´atoires ind´pendantes. e e 10 Convergence de variables al´atoires e 10.1 Les diff´rentes notions de convergence . . . . . e 10.2 La loi forte des grands nombres . . . . . . . . 10.3 La convergence en loi . . . . . . . . . . . . . . 10.4 Deux applications . . . . . . . . . . . . . . . . 10.4.1 La convergence des mesures empiriques 10.4.2 Le th´or`me central limite . . . . . . . e e 10.4.3 Extension au cas vectoriel . . . . . . . 4

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . ıne 13. . . . . . . . . . . . .2. . . . . . . . . . . . . .2 Temps d’arrˆt . e 13. . . .4. . . . . . . . . . . . . .2. . . . . . . . ee e e 11. . . . . . . . 14. . . . .4. . . 11. . . . . . . . . . . . . . . . . .7 Martingales et chaˆ ınes de Markov . . . . .11 Conditionnement 11. . . . . . . 13. . . .2 La construction du mouvement brownien . . . . . . . . . . . . . . . . . . . . . . .1 D´finition et premi`res propri´t´s . . . . . . . . . . . . . . . . .3 Conditionnement gaussien . . . . . . . . . . . . .2. . . . . . .6 Comportement asymptotique . . . . . . . . e 12. . . . . . . 13. . . . . . . . e 11. . . . . . . . . . .1 Variables al´atoires ind´pendantes . 13 Chaˆ ınes de Markov 13. . . . . . 14. . . . .5 Mesures invariantes . . 11. e . . . . . . . . . . . . . e 5 al´atoires e .4 Processus de branchement .1 D´finitions et exemples . . . . . . . . . . . . . . .4 Premi`res propri´t´s du mouvement brownien .1 Conditionnement discret . . . . . e e ee 13. e ee 14. . . . . . . . . . . . . . . . . . . . . . . . . . 143 143 145 145 147 150 150 153 153 153 154 157 III Processus al´atoires e 161 163 163 167 169 176 179 186 191 191 193 193 194 194 194 195 200 206 211 215 219 219 222 226 227 230 233 12 Th´orie des martingales e ` temps discret a 12. . . . . . . . . . . . . . . . . .5 Uniforme int´grabilit´ et martingales . . . . 14 Introduction au mouvement brownien 14. . . . . .1 Conditionnement discret . . . . . . . . . . . .3 Propri´t´s sp´cifiques de l’esp´rance conditionnelle . . . . . . . ee 14. . .3 Marche al´atoire simple sur un graphe e 13. . . . .3 La mesure de Wiener . . . . . . . .1 Le mouvement brownien comme limite de marches 14. . . . . . . . . . . . . . . . . . . a e 11. . . . . . . . . . . . . . . . . . . . . . . . . .3 La chaˆ de Markov canonique . . . . 11. . . . . . . . . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e 13. . . . . . . . . . . . . . . . . . . .3 Convergence presque sˆ re des martingales u 12. . . e 12. . . . .5 La propri´t´ de Markov forte . e e 12.2. . . . . . . . . . . . . . . . .4 La convergence dans Lp pour p > 1 .2. 13. . . . . . . . . . . . . . . .6 Martingales r´trogrades . . . . . . . . . . . . . . . . . . . . . .6 Fonctions harmoniques et probl`me de Dirichlet . . . . . . . . . . . . . . . . . . . . . e e 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e . . . 11. . . .2 Marches al´atoires sur Zd . . . . . . . .2 Quelques exemples . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Le cas particulier des variables de carr´ int´grable e e 11. . . . . . . . . . . . . . . . . . . . . . . .2 Cas des variables positives .2. .2 La d´finition de l’esp´rance conditionnelle . . . . . . .4 Calculs d’esp´rance conditionnelle . . . . . . . . . e 13. .1 Cas des variables int´grables . . . . . . . . . . . . . . . . 13. . . . . . . . . . . . . . . . . .2 Cas des variables ` densit´ . . . . . .5 Probabilit´s de transition et lois conditionnelles . . . . . . . . . . . . . . e 11. . . . . . . . . . . . . . . . . . . . . . . . . .4 La classification des ´tats . . . . . . . . . . . . . . . . . .

. . . . . . . 241 6 . .7 Fonctions harmoniques et mouvement brownien . . . . . . . .14.

Partie I Int´gration e 7 .

.

A) est un espace mesurable. Ce chapitre introduit les notions fondamentales de tribu e (= famille des ensembles mesurables). il n’est pas possible en g´n´ral de d´finir e e e la mesure de n’importe quel sous-ensemble. 9 . appel´s les sous-ensembles mesurables : un ensemble muni d’une e tribu est appel´ espace mesurable. Les ´l´ments de A sont appel´s parties mesurables.1 Soit E un ensemble quelconque. de mesure sur un espace mesurable.1. Enon¸ons quelques cons´quences de la d´finition : c e e (1) ∅ ∈ A (2) Si An ∈ A pour tout n ∈ N. qui joue un rˆle tr`s important e o e ` la fois en th´orie de la mesure et en th´orie des probabilit´s. et de fonctions mesurables. (iii) Si An ∈ A pour tout n ∈ N.1 Ensembles mesurables D´finition 1. a e e e 1. Pour des raisons profondes. qui sont les fonctions dont on saura plus tard d´finir l’int´grale. on a aussi n∈N An ∈ A. et on doit se restreindre ` une certaine classe a (tribu) de sous-ensembles. on a aussi n∈N An ∈ A. de mani`re ` satisfaire a e e a certaines propri´t´s naturelles d’additivit´ (la mesure d’une r´union disjointe doit ˆtre la ee e e e somme des mesures). Une tribu (ou σ-alg`bre) sur E est une e e famille A de parties de E telle que: (i) E ∈ A .Chapitre 1 Espaces mesur´s e L’id´e de d´part de la th´orie de la mesure est d’assigner un nombre r´el positif (la mesure e e e e de ce sous-ensemble) ` chaque sous-ensemble d’un ensemble donn´. (ii) A ∈ A ⇒ Ac ∈ A . ou parfois A-mesurables s’il y a ambiguˆ e. Le dernier e e paragraphe ´nonce une forme du lemme de classe monotone. ee e ıt´ On dit que (E.

• l’ensemble des parties de E qui sont (au plus) d´nombrables ou dont le compl´mentaire e e est (au plus) d´nombrable forme une tribu sur E. A2 ∈ A2 }. e e Tribu bor´lienne.2 Soit C un sous-ensemble de P(E). et soit O la classe des ouverts e de E. La tribu-produit est e la tribu sur E1 × E2 d´finie par e A1 ⊗ A2 = σ(A1 × A2 . A1) et (E2 . b ∈ R.3 Supposons que E est un espace topologique. e Tribu-produit. par exemple R a e d ou R . A2) deux espaces mesurables. Pour donner un premier exemple de l’int´rˆt de la notion de tribu e ee engendr´e. e e a < b. e Exercice. b[. σ(C) est appel´e la tribu engendr´e par C. ` chaque fois que l’on consid´rera un espace topologique. a[. Ceci conduit ` la d´finition suivante. • A = P(E) .1. D´finition 1. e e u D´finition 1. a ∈ R. • A = {∅. e e Exemples. Un deuxi`me exemple important de la notion de tribu engendr´e est la e e tribu-produit.1. V´rifier que e B(R2 ) = B(R) ⊗ B(R). e e e La tribu bor´lienne est donc la plus petite tribu qui contienne tous les ouverts de E. A1 ∈ A1 . on remarque qu’une intersection quelconque e de tribus est encore une tribu.4 Soient (E1 . a e D´finition 1. Les e ´l´ments de B(E) sont appel´s bor´liens de E.1.(3) Puisqu’on peut toujours prendre An = ∅ pour n assez grand. La tribu σ(O) est appel´e tribu bor´lienne et not´e B(E). ee e e Dans la suite. Cette tribu not´e σ(C) peut ˆtre d´finie par e e e σ(C) = A tribu. Il existe alors une plus petite tribu sur e E qui contienne C. on supposera sauf indication du contraire qu’il est muni de sa tribu bor´lienne. ou encore les intervalles ] − ∞. 10 . consid´rons le cas o` E est un espace topologique. la propri´t´ (iii) entraˆ ee ıne que A est stable par r´unions finies (et de mˆme par intersection finies). a[. ou par les intervalles ] − ∞. E} est la tribu triviale . V´rifier que la tribu B(R) est aussi engendr´e par les intervalles ]a. a ∈ Q (on peut aussi remplacer intervalles ouverts par intervalles ferm´s). Exercice. e Pour donner des exemples plus int´ressants. a.C⊂A A.

(2) Si A. La propri´t´ (ii) est appel´e σ-additivit´. et si µ(B0 ) < ∞. ce qui donne la propri´t´ d’additivit´ finie. µ n∈N An = n∈N µ(An ).(4) et (5). (ii) Pour toute famille (An )n∈N de parties mesurables disjointes. D´finition 1. µ(A) + µ(B) = µ(A ∪ B) + µ(A ∩ B) . on pose C0 = A0 et pour tout n ≥ 1. n→∞ (4) Si Bn ∈ A et Bn+1 ⊂ Bn . An ) = lim ↑ µ(An ) . e e (1) Si A ⊂ B. A) est une application µ : A −→ [0.2 Mesures positives Soit (E.1. µ(A) ≤ µ(B) et si de plus µ(A) < ∞. A) un espace mesurable.2. e Cn = An \An−1 de sorte que ∪An = ∪Cn . N →∞ 11 . Elle contient ´videmment le cas particulier o` les An sont vides ` partir d’un e e u a certain rang. µ( n∈N An ) ≤ µ(An ).1 Une mesure positive sur (E. Pour (3). ∞] qui e v´rifie les propri´t´s suivantes: e ee (i) µ(∅) = 0 . µ( n∈N (3) Si An ∈ A et An ⊂ An+1 . N µ( n∈N An ) = µ( n∈N Cn ) = n∈N µ(Cn ) = lim ↑ N →∞ n=0 µ(Cn ) = lim ↑ µ(AN ). Puisque les Cn sont disjoints. n∈N D´montrons seulement (3). B ∈ A. µ(B\A) = µ(B) − µ(A) . ee e Remarquons qu’il est important d’autoriser la valeur +∞. ee e Propri´t´s. n→∞ (5) Si An ∈ A. µ( n∈N Bn ) = lim ↓ µ(Bn ) .

(On peut d´finir plus g´n´ralement la mesure de comptage sur (E. . b[) = b − a.} on a µ(Bn ) = ∞ alors que ∩Bn = ∅ et donc µ(∩Bn ) = 0.) Cet exemple permet de voir que la condition µ(B0 ) < ∞ est n´cessaire dans e la propri´t´ (4) ci-dessus : en prenant ee Bn = {n. n∈N • x ∈ E est un atome de µ si µ({x}) > 0 (on suppose que {x} ∈ A). pour (5). e e Enfin.Pour (4). n + 1. L’existence et l’unicit´ de e cette mesure seront ´tablies plus loin. n−1 Cn = An \ Les ensembles Cn sont disjoints et donc µ( n∈N Ak . et A = P(N). P(E)) lorsque E est e e e quelconque. n∈N Exemples. (2) Soit (E. ∞] on peut consid´rer la mesure e αn δxn d´finie par ( αn δxn )(A) = αn δxn (A) = αn 1A (xn ). e • µ est dite finie si µ(E) < ∞ (la quantit´ µ(E) est la masse totale de µ). A) quelconque et soit x ∈ E. . (3) Mesure de Lebesgue. B(R)). n→∞ n→∞ La condition µ(B0 ) < ∞ est utilis´e notamment pour ´crire µ(An ) = µ(B0 ) − µ(Bn ). b[ de R on ait λ(]a. • La mesure µ est dite diffuse si elle n’a pas d’atomes. Alors µ(B0 ) − µ( n∈N Bn ) = µ(B0 \ Bn ) = µ( n∈N n∈N An ) = lim ↑ µ(An ) = lim ↑ (µ(B0 ) − µ(Bn )). si xn . (1) Si E = N. 12 . la mesure de comptage est d´finie par e µ(A) = Card(A). La mesure δx d´finie par e δx (A) = 1A (x) = 1 si x ∈ A 0 si x ∈ A / est appel´e mesure de Dirac au point x. on pose C0 = A0 puis pour tout n ≥ 1. n + 2. n ∈ N sont des points de e e e e E et αn ∈ [0. e • µ est une mesure de probabilit´ si µ(E) = 1. telle e que pour tout intervalle ouvert ]a. not´e λ. k=0 An ) = µ( n∈N Cn ) = n∈N µ(Cn ) ≤ µ(An ). Plus g´n´ralement. e • µ est dite σ-finie s’il existe une suite croissante de parties mesurables En telles que E= En et µ(En ) < ∞ pour tout n. . Il existe une unique mesure positive sur (R. e D´finitions. de sorte que la suite (An ) est croissante. on pose An = B0 \Bn pour tout n.

Op´rations sur les fonctions mesurables.3 Fonctions mesurables D´finition 1.4 Si f. e e Proposition 1. A) −→ (F1 . 0) sont mesurables. Preuve. (1) Dans le cas o` (F. inf(f. d’o` le r´sultat recherch´.2 Pour que f soit mesurable. e Lemme 1. f2 (x)) est aussi mesurable. f g. A) −→ (F2 . B) = (R. ou mˆme les f −1 (] − ∞. Une application f : e E −→ F est dite mesurable si ∀B ∈ B . alors les fonctions f + g. On applique la derni`re proposition en prenant e C = {B1 × B2 . C’est imm´diat en ´crivant (g ◦ f )−1 (C) = f −1 (g −1 (C)). f1 et f2 le sont aussi) est e vraie et aussi facile. f + = sup(f. Alors il est facile de v´rifier que G est une tribu. B1 ⊗ B2 ) d´finie par f (x) = e (f1 (x). A) −→ (R.3. A) et (F. b[).3. f − = sup(−f. Soit G = {B ∈ B : f −1 (B) ∈ A}. e e Remarque. a[) sont mesurables. B1 ∈ B1 .3. g). u e toute application continue est aussi mesurable (prendre pour C la classe des ouverts de F ). f −1 (B) ∈ A. Lorsque E et F sont des espaces topologiques munis de leurs tribus bor´liennes.1. Corollaire 1. e Proposition 1. B) deux espaces mesurables. ee Preuve. g : (E.1 La composition de deux applications mesurables est encore mesurable. B1 ) et f2 : (E. A) −→ (F1 × F2 .3 Soient f1 : (E. il suffit qu’il existe une sous-classe C de B telle que σ(C) = B et telle que la propri´t´ f −1 (B) ∈ A soit vraie pour tout B ∈ C. B(R)).3. Par hypoth`se C ⊂ G. Il en d´coule que G e e e contient σ(C) = B.1 Soient (E. u e e Exemples. 0). il suffit pour montrer que f est mesurable u −1 d’´tablir que les ensembles f (]a. B2 ) deux applications mesurables. La r´ciproque de la proposition (si f est mesurable. Alors l’application produit f : (E. −1 −1 Puisque f −1 (B1 × B2 ) = f1 (B1 ) ∩ f2 (B2 ) ∈ A on obtient imm´diatement le r´sultat. on dit aussi e que f est bor´lienne.3. e e (2) Dans le cas o` E et F sont des espaces topologiques munis de leurs tribus bor´liennes. 13 . B2 ∈ B2 }. B(R)) sont mesurables.

Les mesures e e µ et f (µ) ont mˆme masse totale. lim inf fn n n sont aussi mesurables. f −1 ([−∞. La mesure-image de µ par f . Il est facile de voir que la derni`re formule d´finit bien une mesure sur (F. not´e f (µ) est la mesure positive sur (F. B) une application mesurable. A) −→ (F. Alors. e 14 . sa limite lim fn est mesurable. on ´crit e e {x ∈ E : lim fn (x) existe} = {x ∈ E : lim inf fn (x) = lim sup fn (x)} = G−1 (∆) si G est l’application mesurable G(x) = (lim inf fn (x).3. a[) ∈ A. b) −→ a + b qui sont mesurables.3. A). e ¯ Proposition 1. la seconde parce que continue. alors sup fn . ¯ les limites existant dans R. l’ensemble {x ∈ E : lim fn (x) existe} est mesurable. inf fn . Or f −1 ([−∞. En particulier si la suite fn converge simplement. Pour la derni`re assertion. +∞}. lim sup an et lim inf an sont respectivement la plus grande et la plus petite valeur d’adh´rence de la suite (an ). a[) = {x : inf fn (x) < a} = {x : fn (x) < a} n d’o` le r´sultat. En g´n´ral. qui est mesurable parce que ferm´e. et soit µ une mesure e positive sur (E. ¯ Rappelons que si (an ) est une suite d’´l´ments de R = R ∪ {−∞. lim inf an = lim ↑ k≥n n→∞ k≥n inf ak . D´finition 1. B). lim sup fn (x)) et ∆ d´signe la diagonale e ¯ 2 . u e e Il en d´coule que e lim inf fn = sup n≥0 k≥n inf fk est mesurable. g(x)) et (a.2 Soit f : (E. de R e Notion de mesure-image. B) e d´finie par e f (µ)(B) = µ(f −1 (B)). On traite de mˆme le cas de sup fn . Soit f (x) = inf fn (x). lim sup fn . Il suffit de montrer que pour tout a ∈ R. mais il peut arriver que µ soit σ-finie sans que f (µ) le soit.5 Si fn est une suite de fonctions mesurables de E dans R. e e Preuve. on d´finit ee e lim sup an = lim ↓ n→∞ sup ak .La d´monstration est facile : par exemple f + g est la compos´e des deux applications e e x −→ (f (x).

elle sera alors stable par r´union finies. puis par passage e e ` la limite croissant par r´union d´nombrable). Soit A ∈ C fix´. (iii) Si An ∈ M et An ⊂ An+1 . B ∈ M et A ⊂ B. on peut donc d´finir la classe monotone engendr´e e e par C. Puisque M1 est une classe monotone qui contient C. B ′ ∈ M1 et B ⊂ B ′ . V´rifions ensuite que e M1 est une classe monotone: • E ∈ M1 est imm´diat. 15 . Th´or`me 1. il est clair qu’on a M(C) ⊂ σ(C). e • Si B. Or une classe e monotone est une tribu si et seulement si elle est stable par intersections finies (en effet. il est clair que C ⊂ M1 . C⊂M M. On a donc montr´ e ∀A ∈ C. ıt. on a A ∩ (B ′ \B) = (A ∩ B ′ )\(A ∩ B) ∈ M(C) et donc B ′ \B ∈ M1 .1 Un sous-ensemble M de P(E) est appel´ classe monotone si e e (i) E ∈ M . en posant e M(C) = M classe monotone. A ∩ B ∈ M(C).4. Toute tribu est aussi une classe monotone. Puisque C est stable par intersections finies. par passage au compl´mentaire. e Si C est une partie quelconque de P(E).1 (Lemme de classe monotone) Si C ⊂ P(E) est stable par intersece e tions finies. Pour ´tablir l’inclusion inverse. alors B\A ∈ M . on voit imm´diatement que toute intersection de classes monotones est encore une classe monotone. alors n An ∈ M. Comme dans le cas des tribus. Posons e M1 = {B ∈ M(C) : A ∩ B ∈ M(C)}. • Si Bn ∈ M1 pour tout n et la suite Bn croˆ on a A ∩ (∪Bn ) = ∪(A ∩ Bn ) ∈ M(C) et donc ∪Bn ∈ M1 . not´e M(C). alors M(C) = σ(C). Puisque toute tribu est une classe monotone. Preuve.1. ∀B ∈ M(C). il suffit de montrer que M(C) est une tribu.4. Montrons donc que M(C) est stable par a e e intersections finies.4 Classe monotone D´finition 1. (ii) Si A. M1 contient aussi M(C).

µn la restriction de µ ` En et νn la restriction de ν ` En : a a ∀A ∈ A . (2) S’il existe une suite croissante de parties En ∈ C telles que E = ∪En et µ(En ) = ν(En ) < ∞. on peut appliquer ` λ et λ′ la e ee a partie (2) du corollaire pr´c´dent. mais on peut appliquer la mˆme id´e une seconde e e e e fois.4. C ⊂ M2 . on d´duit du corollaire pr´c´dent qu’une mesure finie µ sur R est e c e e e caract´ris´e par les valeurs de µ(] − ∞. En reprenant exactement les mˆmes e e e arguments que dans la premi`re ´tape. Corollaire 1. Donc G = A. Pr´cis´ment. µn (A) = µ(A ∩ En ). pour tout A ∈ A. ce qui montre bien que M(C) est stable par intersections finies et e termine la preuve. on fixe maintenant B ∈ M(C). pour tout n. B ∈ G et A ⊂ B. ee µ(A) = lim ↑ µ(A ∩ En ) = lim ↑ ν(A ∩ En ) = ν(A). C ⊂ G. Unicit´ de la mesure de Lebesgue.Ce n’est pas encore le r´sultat recherch´. (1) Si µ(E) = ν(E) < ∞. on a e e µ(B\A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B\A). si λ′ est une seconde mesure ayant la mˆme propri´t´. et on pose e e M2 = {A ∈ M(C) : A ∩ B ∈ M(C)}. si A.2 Soient µ et ν deux mesures sur (E. n[ pour tout n. e a (2) Notons. on e v´rifie ais´ment que G est une classe monotone : par exemple. a]) pour tout a ∈ R. En effet. en utilisant a les propri´t´s de limite croissante des mesures. Finalement. A). c’est-`-dire µ = ν. b[. Supposons qu’il existe une classe C ⊂ A stable par intersections finies. e D’apr`s la premi`re ´tape de la preuve. e De la mˆme fa¸on. b[) = b − a. Par ailleurs. et on trouve µn = νn . la seconde par hypoth`se). Cons´quence. Par hypoth`se. On peut appliquer la partie (1) ` µn et νn . on a µ = ν. en prenant pour C la classe des intervalles ouverts (dont e e on sait qu’elle engendre la tribu bor´lienne) et En =] − n. et donc B\A ∈ E (noter qu’on utilise ici le fait que µ et ν sont finies). on a µ = ν. B(R)) telle que pour tout intervalle ouvert non vide ]a. telle que σ(C) = A et µ(A) = ν(A) pour tout A ∈ C. on montre que M2 est une classe monotone. Il existe au plus une mesure λ sur e e (R. Il en e e d´coule que M(C) ⊂ M2 . Preuve. on ait λ(]a. On conclut que G contient M(C) = σ(C) = A (la premi`re ´galit´ d’apr`s le th´or`me e e e e e e de classe monotone. e e 16 . (1) Soit G = {A ∈ A : µ(A) = ν(A)}. νn (A) = ν(A ∩ En ).

Ai = f −1 ({αi }) ∈ A. e D´finition 2. Une fois construite l’int´grale. pour chaque i ∈ {1. La e d´finition est facile pour les fonctions dites ´tag´es. . n}. dont la valeur absolue e e e est d’int´grale finie. le lemme de Fatou e a e e et le th´or`me de convergence domin´e.1 Int´gration de fonctions positives e On se donne un espace mesur´. . Fonctions ´tag´es. . Pour les fonctions de signe quelconque. Ces trois ´nonc´s visent ` donner des conditions e e e e e a assurant que l’int´grale de la limite d’une suite de fonctions est la limite des int´grales de e e ces fonctions. c’est-`-dire un espace mesurable (E. qui ne prennent qu’un nombre fini de e e e valeurs. Le dernier paragraphe donne des applications importantes ` la continuit´ ou a e la d´rivabilit´ d’int´grales d´pendant d’un param`tre. . . Ensuite l’int´grale d’une fonction mesurable positive est d´finie comme le supremum e e des int´grales des fonctions ´tag´es qui la minorent. αn sont les valeurs prises par f . on ´tablit les trois grands th´or`mes de e e e e e convergence de la th´orie. e e e e e 2. L’´criture pr´c´dente sera appel´e u e e e e l’´criture canonique de f . . Si α1 . A) muni d’une mesure e a µ. on a alors e n f (x) = i=1 αi 1Ai (x) o` . .∞ = 0 dans le cas o` αi = 0 et µ(Ai ) = ∞. Une fonction mesurable f ` valeurs dans R est dite ´tag´e si elle ne e e a e e prend qu’un nombre fini de valeurs. α2 .1 Supposons f ` valeurs dans R+ . ` savoir le th´or`me de convergence monotone. qu’on peut supposer rang´es par ordre croissant α1 < α2 < · · · < αn . e e e on raisonne par lin´arit´ en se limitant aux fonctions dites int´grables. L’int´grale de f par rapport ` µ est alors e a e a d´finie par e n f dµ = i=1 αi µ(Ai ) u avec la convention 0.1.Chapitre 2 Int´gration par rapport ` une mesure e a Le premier objectif de ce chapitre est de construire l’int´grale de fonctions mesurables. 17 . .

on voit qu’on peut ´crire e e p p f= j=1 βj 1Bj . . e e e e (1) Pour tous a. m}. resp. f dµ ≤ n gdµ. e e Propri´t´s. on a e e e p p f dµ = j=1 βj µ(Bj ) . n}. g = k=1 ′ αk 1A′k les ´critures canoniques de f et g. et de mˆme pour chaque Ak . g = j=1 γj 1Bj avec les mˆmes ensembles mesurables disjoints Bj (mais les nombres βj . non e n´cessairement distincts). (1) Soient f= i=1 f dµ + b gdµ. D’apr`s la remarque suivant la d´finition. . ∞]. Alors il est facile de v´rifier qu’on a aussi e e m f dµ = j=1 βj µ(Bj ). pour chaque i ∈ {1. . Soient f et g deux fonctions ´tag´es positives. g dµ = j=1 γj µ(Bj ). Il suffit alors d’utiliser la propri´t´ d’additivit´ de la mesure ee e pour ´crire e µ(Ai ) = µ(Bj ) {j:βj =αi } ce qui conduit au r´sultat annonc´. u e 18 .On a a priori f dµ ∈ [0. d’o` le r´sultat voulu. et de mˆme e (af + bg)dµ = p j=1 (aβj + bγj ) µ(Bj ). . k ∈ {1. b ≥ 0. Preuve. m αi 1Ai . γj . En ´crivant chaque Ai comme la r´union disjointe des e e e ′ ′ ensembles Ai ∩ Ak . En effet. Supposons qu’on ait une autre ´criture de f sous la forme e m f= j=1 βj 1Bj les ensembles mesurables Bj formant toujours une partition de E mais les nombres βj n’´tant e plus n´cessairement distincts. . . (af + bg)dµ = a (2) Si f ≤ g. . . Ai doit ˆtre la r´union disjointe des ensembles Bj pour e e les indices j tels que βj = αi .

Preuve. D’apr`s la propri´t´ (1) ci-dessus.1.1 (Th´or`me de convergence monotone) Soit (fn ) une suite croissante e e e e de fonctions mesurables positives (` valeurs dans [0. (en effet il suffit de le v´rifier lorsque e f est ´tag´e. e 19 .(2) On applique (1) en ´crivant e gdµ = f dµ + (g − f )dµ ≥ f dµ. et En = {x ∈ E : ah(x) ≤ fn (x)}. alors f dµ = 0. et la condition a < 1. mais alors c’est ´vident sur la d´finition) e e e e Th´or`me 2. Alors En est mesurable. ıt on voit que E est la r´union croissante des ensembles En . et soit f = lim ↑ fn . Notons E+ l’espace des fonctions ´tag´es positives. La propri´t´ (2) ci-dessus montre que cette d´finition est coh´rente avec la pr´c´dente ee e e e e quand f est ´tag´e. ∞]).1. ∞] une fonction mesurable. On pose e f dµ = sup h∈E+ . Alors a f dµ = lim ↑ n→∞ fn dµ. De plus en utilisant le fait que fn croˆ vers f . Soit a ∈ [0. e e D´finition 2. e e (1) Si f ≤ g. e e On notera indiff´remment e f dµ = f (x)dµ(x) = f (x)µ(dx) et on trouve parfois la notation µ. f dµ ≤ gdµ (´vident sur la d´finition) e e (2) Si µ({x ∈ E : f (x) > 0}) = 0. f ou mˆme µ(f ).h≤f h dµ . choisissons une fonction ´tag´e positive e e e e e m h= i=1 αi 1Ai avec h ≤ f .2 Soit f : E −→ [0. Pour cela. 1[. e Propri´t´s. on a e ee f dµ ≥ lim ↑ n→∞ fn dµ et il suffit donc d’´tablir l’autre in´galit´.

on obtient bien l’in´galit´ recherch´e. e e e e e e Dans toute la suite “fonction mesurable positive” signifie fonction mesurable ` valeurs a dans [0. d’o` e e m fn dµ ≥ a1En h dµ = a i=1 αi µ(Ai ∩ En ). (1) Pour tout n ≥ 1 et tout i ∈ {0. on trouve lim ↑ fn dµ ≥ hdµ. . Il existe une suite croissante (fn ) de fonctions ´tag´es positives telle que fn ↑ f .u Ensuite on remarque qu’on a l’in´galit´ fn ≥ a1En h. b ∈ R+ . 2n n. posons An = {x ∈ E : f (x) ≥ n} Bn. . 1. n→∞ Comme f dµ est d´finie par le supremum des quantit´s de droite lorsque h d´crit l’ensemble e e e des fonctions ´tag´es positives major´es par f .i = {x ∈ E : i2−n ≤ f (x) < (i + 1)2−n }.1. n2n − 1}. Puisque En ↑ E on a Ai ∩En ↑ Ai et µ(Ai ∩En ) ↑ µ(Ai ) quand n → ∞. Proposition 2.i On v´rifie ais´ment que fn (x) ↑ f (x) pour tout x ∈ E. (af + bg)dµ = a f dµ + b gdµ. e e (2) Si f et g sont mesurables positives et a. ∞]. e e Soit ensuite fn la fonction ´tag´e fn = n2n −1 i=0 i 1 B + n 1 An . d’apr`s les propri´t´s e ee ´l´mentaires des mesures. e e 20 . .2 (1) Soit f une fonction mesurable positive. . Preuve. En faisant tendre a vers 1. fn dµ = n n fn dµ. (3) Si (fn ) est une suite quelconque de fonctions mesurables positives. En passant ` la limite croissante il vient ee a m n→∞ lim ↑ fn dµ ≥ a αi µ(Ai ) = a i=1 hdµ.

et en utilisant le th´or`me de convergence monotone e e et les propri´t´s de l’int´grale des fonctions ´tag´es.p.p. si elle est vraie en dehors d’un ensemble de mesure nulle. Il est imm´diat que ν(∅) = 0.) A f dµ. e Preuve. Alors ν est une mesure positive sur (E. . (gn ) avec fn ↑ f . Par ailleurs.3 Soit f mesurable positive. ou µ p. si (An ) est une suite d’ensembles e mesurables disjoints. an. (1) Pour tout a > 0.k ) de r´els ee e c e positifs. f = g p. et e e a not´e ν = f · µ. gn ↑ g. Proposition 2. A).k = k∈N n∈N n∈N k∈N Corollaire 2. e e Alors on a aussi afn + bgn ↑ af + bg. (3) Cette assertion d´coule de (2) (cas d’une somme finie) et du th´or`me de convergence e e e monotone. ee e e e (af + bg)dµ = lim ↑ (afn + bgn )dµ = lim ↑ (a fn dµ + b gn dµ) = a f dµ + b gdµ. On a µ(A) = 0 ⇒ ν(A) = 1A f dµ = 0. e On dit qu’une propri´t´ est vraie µ presque partout. Par ıt´ exemple si f et g sont deux fonctions mesurables. ee Remarque. µ({x ∈ E : f (x) ≥ a}) ≤ 21 1 a f dµ. s’il n’y a pas ambigu¨ e.k . signifie µ({x ∈ E : f (x) = g(x)}) = 0. ou mˆme simplement ee p. Alors e u il est facile de voir que f dµ = k∈N f (k) et (3) redonne la propri´t´ bien connue ´non¸ant que pour toute suite double (an. ν n∈N An = n∈N 1An f dµ = n∈N 1An f dµ = n∈N ν(An ) en utilisant la propri´t´ (3) ci-dessus. Consid´rons le cas particulier o` E = N et µ est la mesure de comptage. et pour tout A ∈ A.1.1.(2) On construit deux suites de fonctions ´tag´es positives (fn ). an. Remarque. soit ν(A) = 1A f dµ = (not.4 Soit f une fonction mesurable positive. appel´e mesure de densit´ f par rapport ` µ.p.

Alors. en utilisant (1).1.. f =g p. g). Preuve. Alors f ≥ a1Aa et donc f dµ ≥ a1Aa dµ = aµ(Aa ). (1) Posons Aa = {x ∈ E : f (x) ≥ a}. . Alors. d’o` u (f ∨ g)dµ = (f ∧ g)dµ + (f ∨ g − f ∧ g)dµ = (f ∧ g)dµ.p. (2) Pour tout n ≥ 1.p. ⇒ f dµ = gdµ. Alors f ∨ g = f ∧ g p.5 (Lemme de Fatou) Soit (fn ) une suite quelconque de fonctions mesurae e bles positives. et de mˆme pour g. g) et f ∧ g = inf(f. (lim inf fn )dµ ≤ lim inf 22 fn dµ.p. (4) Si g est une autre fonction mesurable positive.(2) On a f dµ < ∞ ⇒ f < ∞ p. Th´or`me 2. ea ee (3) L’implication ⇐ a d´j` ´t´ vue. Pour ⇒. il en d´coule e e que f dµ = (f ∨ g)dµ = gdµ. soit An = {x ∈ E : f (x) ≥ n} et soit A∞ = {x ∈ E : f (x) = ∞}. soit. puisque f ∨ g − f ∧ g = 0 p.p. pour tout n ≥ 1. (3) On a f dµ = 0 ⇔ f = 0 p. Alors. Bn = {x ∈ E : f (x) ≥ n−1 }. µ(A∞ ) = µ An = lim ↓ µ(An ) ≤ lim n→∞ n≥1 1 n→∞ n f dµ = 0. e µ(Bn ) ≤ n f dµ = 0 Bn = 0. Puisque f ∧ g ≤ f ≤ f ∨ g.p. n≥1 et donc µ(Bn ) = 0 ce qui entraˆ µ({x : f (x) > 0}) = µ ıne (4) Utilisons la notation f ∨ g = sup(f. d’apr`s (1).

2. On a f + dµ ≤ |f |dµ < ∞ et de mˆme f − dµ < ∞. (c) Si f. alors f dµ ≤ gdµ. de f .Preuve. A. g ∈ L1 (E. 0). e e (a) | f dµ| ≤ |f |dµ pour f ∈ L1 (E. cette d´finition co¨ e u e ıncide bien sˆ r avec la pr´c´dente. ce qui entraˆ ıne n≥k inf fn dµ ≤ inf p≥k En passant ` la limite croissante quand k ↑ ∞. On dit que f est int´grable par e e rapport ` µ (ou µ-int´grable) si a e |f | dµ < ∞. µ) pour les fonctions µ-int´grables ` valeurs positives. resp. 0) est la partie positive. n≥k inf fn ≤ fp fp dµ. resp. e a Propri´t´s. Dans ce cas on pose f dµ = f + dµ − f − dµ o` f + = sup(f. il vient a k→∞ lim ↑ n≥k inf fn dµ ≤ lim ↑ inf k→∞ p≥k fp dµ = lim inf fn dµ.1 Soit f : E −→ R une fonction mesurable. µ). pour tout entier p ≥ k. A. ce qui termine la preuve. f − = sup(−f. A. (Noter u e + − + − + − que f et f sont mesurables et que f = f − f et |f | = f + f . ce qui montre que la e d´finition de f dµ a bien un sens.) Remarque. Par ailleurs. 23 f dµ est une forme lin´aire e . A. (b) L1 (E. u e e 1 On note L (E. On utilisera parfois la notation e 1 L+ (E. µ) est un espace vectoriel et l’application f → sur cet espace vectoriel. 2. n´gative. µ) l’espace des fonctions µ-int´grables. On a lim inf fn = lim ↑ k→∞ n≥k inf fn et donc d’apr`s le th´or`me de convergence monotone. µ) et f ≤ g. Dans le cas o` f est positive. e e e (lim inf fn )dµ = lim ↑ k→∞ n≥k inf fn dµ.2 Fonctions int´grables e D´finition 2. A.

µ) si C |f |dµ < ∞. Soit f : E −→ C une fonction mesurable (cela ´quivaut ` e a dire que Re(f ) et Im(f ) sont toutes deux mesurables). d’o` . e (d) L’´galit´ f = g p.p. g ∈ L1 (E. A. e e (f + g)+ dµ + f − dµ + g − dµ = (f + g)− dµ + f + dµ + g + dµ. l’in´galit´ |f + g| ≤ |f | + |g| entraˆ que f + g ∈ L1 . (af )− dµ = a (af )dµ = f dµ De plus. entraˆ f + = g + et f − = g − p. (c) Il suffit d’´crire gdµ = f dµ + (g − f )dµ. g ∈ L1 (E. alors Preuve. e Remarque. (b) Soit f ∈ L1 (E.. . A. 24 ce qui donne bien (f + g)dµ = f dµ + gdµ. (f + g)+ − (f + g)− = f + g = f + − f − + g + − g − entraˆ ıne (f + g)+ + f − + g − = (f + g)− + f + + g + . (af )dµ = (af )+ dµ − (af )− dµ = (−a) f − dµ + a f + dµ = a f dµ. On combine facilement (c) et (d) pour obtenir que. |af |dµ = |a| Si a ≥ 0.p. f + dµ| + | f − dµ| = |f |dµ. Extension au cas complexe.p. et si a < 0. Pour a ∈ R. si f. On dit que f est int´grable et on e note f ∈ L1 (E. (a) On ´crit e | f dµ| = | f + dµ − f − dµ| ≤ | f dµ = gdµ. µ).(d) Si f. u e (f + g)+ dµ − (f + g)− dµ = f + dµ − f − dµ + g + dµ − g − dµ. A. A.p.. µ). si f. µ) et f ≤ g p. A. g ∈ L1 (E. µ) et f = g µ p. En utilisant l’additivit´ de l’int´grale pour les fonctions positives. puisque toutes les int´grales sont finies. En e e ıne outre. (af )+ dµ − |f |dµ < ∞. alors f dµ ≤ gdµ. Il suffit alors d’utiliser les e e ıne r´sultats vus dans le cas des fonctions positives.

|a|=1 a· f dµ o` a · z d´signe le produit scalaire dans C identifi´ ` R2 ). u e ea Th´or`me 2. µ) est remplac´ par L1 (E. A. A.(b) et (d) ci-dessus restent vraies si L1 (E. On suppose: C (1) Il existe une fonction f mesurable ` valeurs dans R (resp. A. dans L1 (E. il vient e e e 2 gdµ − lim sup |f − fn |dµ ≥ 2 25 gdµ. puisque ee |f − fn | ≤ 2g et |f − fn | −→ 0.1 (Th´or`me de convergence domin´e) Soit (fn ) une suite de fonce e e e e tions dans L1 (E. µ) (resp. fn (x) −→ f (x) (2)’ Il existe une fonction g : E −→ R+ mesurable telle que et tout x ∈ E |fn (x)| ≤ g(x).On pose alors f dµ = Re(f )dµ + i Im(f )dµ. µ)). gdµ < ∞ et pour tout n La propri´t´ f ∈ L1 est alors claire puisque |f | ≤ g et gdµ < ∞. A. µ)).p. Alors f ∈ L1 (E. µ) (resp. remarquer que | f dµ| = sup a∈C. On suppose d’abord que les hypoth`ses suivantes plus fortes sont v´rifi´es: e e e (1)’ Pour tout x ∈ E. on peut appliquer le lemme de Fatou pour trouver lim inf (2g − |f − fn |) dµ ≥ lim inf(2g − |f − fn |) dµ = 2 gdµ. . dans C) telle que a fn (x) −→ f (x) µ p.p. (2) Il existe une fonction g : E −→ R+ mesurable telle que |fn | ≤ g µ p. Ensuite. f ∈ L1 (E. et on a C n→∞ lim fn dµ = f dµ et n→∞ lim |fn − f |dµ = 0. gdµ < ∞ et pour tout n. µ) ee e C (pour montrer (a). A. A. Par lin´arit´ de l’int´grale.2. Les propri´t´s (a). Preuve.

(ii) µ(dx) p. Th´or`me 2. Ensuite.p. x) est int´grable et donc F (u) e ıne e est bien d´finie. n→∞ Grˆce ` l’hypoth`se de domination (iii). (iii) il existe une fonction g ∈ L1 (E.3 Int´grales d´pendant d’un param`tre e e e On se donne un espace m´trique (U. µ(dx) p. et on peut appliquer la premi`re partie de la preuve aux fonctions e ˜ fn (x) = 1A (x)fn (x) . fn = fn p. µ) telle que pour tout u ∈ U.p. µ p. L’hypoth`se (ii) assure e e que f (un . 26 . Alors µ(Ac ) = 0. d) qui correspond ` l’espace des param`tres. on peut appliquer le th´or`me de convergence a a e e e domin´e. x) µ(dx) = f (u0. Finalement il suffit d’´crire e f dµ − fn dµ ≤ |f − fn |dµ. on pose e e u A = {x ∈ E : fn (x) −→ f (x) et pour tout n. ˜ f (x) = 1A (x)f (x). ˜ ˜ ˜ ˜ On a f = f p. f (u. x) .3. l’application x −→ f (u. x) est continue en u0 . f dµ = f dµ et |fn − f |dµ = ˜ ˜ |fn − f |dµ.. x) est mesurable. |fn (x)| ≤ g(x)}. Soit une e a e application f : U × E −→ R (ou C). |f − fn |dµ −→ 0. + |f (u. L’hypoth`se (iii) entraˆ que la fonction x −→ f (u.p. Dans le cas g´n´ral o` on suppose seulement (1) et (2). A. Les r´sultats recherch´s d´coulent du cas o` (1)’ et (2)’ sont v´rifi´s. e e e u e e 2. x)µ(dx) est bien d´finie en tout point u ∈ U et elle est e Preuve. soit (un )n≥1 une suite convergeant vers u0 .d’o` u lim sup et donc |f − fn |dµ = 0.p. x) µ(dx).p. et donc fn dµ = fn dµ. l’application u −→ f (u.1 Soit u0 ∈ E. qui donne e n→∞ lim f (un . Supposons e e (i) pour tout u ∈ U. x)| ≤ g(x) Alors la fonction F (u) = continue en u0. x) −→ f (u0 .

µ). Si ϕ ∈ L1 (R. et pour a e e e e e cela nous supposons que U = I est un intervalle ouvert de R. la fonction u −→ f (u. x) n’est d´finie (par (ii)) que pour x appartenant e e ∂f e au compl´mentaire d’un ensemble de mesure nulle. x) est d´rivable en u0 de d´riv´e not´e e e e e ∂f (u0 . (a) Soit µ une mesure diffuse sur (R. x) µ(dx). ∂u (iii) il existe une fonction g ∈ L1 (E. + |f (u. la fonction e ϕ(u) = ˆ eiux ϕ(x) λ(dx) est continue sur R. Pour le voir. λ).u](x)ϕ(x). la fonction F (u) = ]−∞. B(R)). x) − f (u0 .Exemples. Soit ` nouveau une application a f : U × E −→ R (ou C). (b) Transform´e de Fourier. Th´or`me 2. x) .p. Si ϕ ∈ L1 (R. x) = 1]−∞.u] ϕ(x) µ(dx) = 1]−∞. (c) Convolution. µ). il suffit d’appliquer le th´or`me ` f (u. de fa¸on ` d´finir l’int´grale qui donne e c a e e F ′ (u0). l’application u −→ f (u. µ) telle que pour tout u ∈ I. l’application x −→ f (u. B(R). (ii) µ(dx) p. en e e a prenant g = |ϕ| et en observant que pour u0 ∈ R fix´. Alors la fonction h ∗ ϕ d´finie sur R par e h ∗ ϕ(u) = est continue (et born´e). A. On peut la prolonger ` E tout entier e a de mani`re arbitraire (par exemple par la valeur 0). 27 . x)| ≤ g(x)|u − u0 | Alors la fonction F (u) = µ(dx) p. B(R).u](x)ϕ(x) µ(dx) est continue. x)µ(dx) est d´rivable en u0 . x) est continue e en u0 pour tout x ∈ R\{u0}. B(R). e Nous passons maintenant ` un th´or`me de d´rivabilit´ sous le signe int´grale. et soit h une fonction continue born´e de R e dans R. A. x) est dans L1 (E. A priori la d´riv´e ∂u (u0 .2 Soit u0 ∈ I. Supposons que e e (i) pour tout u ∈ I. Soit ϕ ∈ L1 (R. λ).3.p. ∂u Remarque. h(u − x) ϕ(x) λ(dx) e e f (u. de d´riv´e e F ′ (u0 ) = ∂f (u0 .

ϕ(x) µ(dx). ∂f (u. B(R). Pour tout u ∈ R.) Sous ces hypoth`ses. µ) telle que |xϕ(x)| µ(dx) < ∞. h ∗ ϕ est u e a ∞ aussi de classe C .. Soit µ une mesure diffuse sur (R.p. x) . ∂u (Noter que (iii)’⇒(iii) grˆce au th´or`me des accroissements finis. µ) telle que µ(dx) p. L’exercice ci-dessous montre cependant que la forme plus e pr´cise de l’´nonc´ du th´or`me est parfois n´cessaire. e (iii)’ il existe une fonction g ∈ L1 (E. Dans de nombreuses applications. x) µ(dx). ]−∞. et e e e e On peut bien sˆ r it´rer. e e e e e e Exemples. A. l’application u −→ f (u.p. (b) Soit ϕ ∈ L1 (R. un − u0 e Grˆce ` (ii). B(R). + ∀u ∈ I . ∂u Remarque. Exercice. x) − f (u0 . Par exemple si h est de classe C ∞ ` support compact. Alors la transform´e de Fourier ϕ(u) est d´rivable sur R. Alors la convolution h ∗ ϕ est d´rivable sur R. on pose F (u) = R (h ∗ ϕ)′ = h′ ∗ ϕ. et e ˆ e ϕ′ (u) = i ˆ x eiux ϕ(x) λ(dx). ϕn (x) converge vers ∂f (u0. µ(dx) p. x) est d´rivable sur I. et soit ϕn (x) = f (un . B(R)) et soit ϕ ∈ L1 (R. (u − x)+ ϕ(x) µ(dx). De plus l’hypoth`se (iii) permet a a ∂u d’appliquer le th´or`me de convergence domin´e et d’obtenir e e e n→∞ lim F (un ) − F (u0) = lim n→∞ un − u0 ϕn (x) µ(dx) = ∂f (u0 . λ) telle que |xϕ(x)| λ(dx) < ∞. Soit (un )n≥1 une suite dans I\{u0 } convergeant vers u0 . x) ≤ g(x).u] Montrer que F est d´rivable sur R. les hypoth`ses (ii) et (iii) sont remplac´es e e par les hypoth`ses plus fortes e (ii)’ µ(dx) p. B(R). born´e ainsi que sa d´riv´e. x). la a e e e fonction F est d´rivable sur I. λ).p. (a) Soit ϕ ∈ L1 (R.Preuve. et soit h une fonction de R −→ R une fonction de classe C 1 . de d´riv´e e e e F ′ (u) = 28 .

ainsi que ses liens avec l’int´grale de Riemann. e 3.Chapitre 3 Construction de mesures Le chapitre pr´c´dent partait de la donn´e d’une mesure sur un espace mesurable. Une autre ee e application est l’int´grale de Stieltjes. qui correspond ` l’int´grale par rapport ` une mesure e a e a finie arbitraire sur la droite r´elle. Une application µ∗ : P(E) −→ [0. ee µ∗ ( k∈N Ak ) ≤ µ∗ (Ak ). Cette approche. Nous e e e montrons maintenant comment on construit des mesures int´ressantes. on fixe une mesure ext´rieure µ∗ .1. et particuli`rement e e la mesure de Lebesgue. e Nous verrons plus loin sur des exemples comment on construit des mesures ext´rieures.1 Mesures ext´rieures e D´finition 3. Le premier paragraphe introduit la notion de mesure ext´rieure. ∞] est e appel´e mesure ext´rieure si e e (i) µ∗ (∅) = 0. k∈N Les propri´t´s d’une mesure ext´rieure sont moins contraignantes que celles d’une mesure.1 Soit E un ensemble quelconque. ee e Remarquons cependant qu’une mesure ext´rieure est d´finie sur l’ensemble de toutes les e e parties de E et non pas seulement sur une tribu. e 29 . Nous discutons aussi diverses propri´t´s de la mesure de Lebesgue. (iii) µ∗ est σ-sous-additive : pour toute suite Ak . et montre come ee ee ment ` partir d’une mesure ext´rieure on peut construire une (vraie) mesure sur une tribu a e convenable. Dans la suite de cette e partie. permet assez facilement e de construire la mesure de Lebesgue sur R ou sur Rd . k ∈ N d’´l´ments de P(E). Notre objectif dans ce paragraphe est de montrer comment ` partir d’une mesure ext´rieure a e ∗ ∗ ∗ µ on construit une mesure sur une tribu M(µ ) qui d´pend de µ . (ii) µ∗ est croissante : A ⊂ B ⇒ µ∗ (A) ≤ µ∗ (B). qui est celle qu’avait utilis´e Lebesgue. e v´rifiant des propri´t´s des propri´t´s plus faibles que celles d’une mesure.

Si µ∗ (B) = 0.1. Pour terminer la preuve de la partie (1). c’est la d´finition de B0 ∈ M. il suffit pour compl´ter la preuve de montrer e e que si les ensembles Bk ∈ M. e m m µ (A) = k=0 ∗ µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ c Bk ). Compte-tenu de cette derni`re remarque. (2) La restriction de µ∗ ` M(µ∗ ) est une mesure. a e e Preuve.1. il reste a montrer que M est stable par ` r´union d´nombrable. e µ∗ (A) = µ∗ (A ∩ B) + µ∗ (A ∩ B c ). il e e a e suffit d’´crire e m m c Bk k=0 m+1 c Bk k=0 µ (A ∩ ∗ ) = µ (A ∩ ∗ ∩ Bm+1 ) + µ (A ∩ m+1 c Bk ) k=0 ∗ c Bk ) k=0 = µ∗ (A ∩ Bm+1 ) + µ∗ (A ∩ 30 . B2 ∈ M. Etant stable par passage au compl´mentaire et e par r´union finie. l’in´galit´ µ∗ (A) ≥ µ∗ (A ∩ B c ) = µ∗ (A ∩ B) + µ∗ (A ∩ B c ) montre aussitˆt que B ∈ M. ce qui montre bien que B1 ∪ B2 ∈ M. (1) Notons M = M(µ∗) pour simplifier. qui contient toutes les parties B de E telles que e e µ∗ (B) = 0. Alors. Pour passer de l’´tape m ` l’´tape m + 1. c’est donc l’in´galit´ inverse qu’il importe e e e e de v´rifier. M est stable par intersection finie.1) Pour m = 0. Pour cela a on montre par r´currence que pour tout entier m ∈ N et toute partie A de E.D´finition 3. k ∈ N sont deux ` deux disjoints on a Bk ∈ M. e Th´or`me 3. l’hypoth`se B1 ∈ M montre que e c c µ∗ (A∩(B1 ∪B2 )) = µ∗ (A∩(B1 ∪B2 )∩B1 )+µ∗ (A∩(B1 ∪B2 )∩B1 ) = µ∗ (A∩B1 )+µ∗ (A∩B2 ∩B1 ). On commence par ´tablir que M est stable par r´union finie. k=0 (3. pour toute A ∈ P(E). On note M(µ∗) l’ensemble des parties µ∗ -mesurables.1 (1) M(µ∗ ) est une tribu. si B. En cons´quence. L’in´galit´ µ∗ (A) ≤ µ∗ (A ∩ B) + µ∗ (A ∩ B c ) est toujours v´rifi´e par σ-souse e e e additivit´. Soient e e e e B1 . Pour v´rifier que B est µ∗ -mesurable. B ′ ∈ M. Remarque. e e B\B = B ′ ∩ B c ∈ M.2 Une partie B de E est dite µ∗ -mesurable si pour toute partie A de E. o Ensuite on voit imm´diatement que ∅ ∈ M et que M est stable par passage au compl´e e mentaire. ee µ∗ (A ∩ (B1 ∪ B2 )) + µ∗ (A ∩ (B1 ∪ B2 )c ) c c c c = µ∗ (A ∩ B1 ) + µ∗ (A ∩ B1 ∩ B2 ) + µ∗ (A ∩ B1 ∩ B2 ) = µ∗ (A ∩ B1 ) + µ∗ (A ∩ B1 ) = µ∗ (A). Donc en utilisant successivement les propri´t´s B2 ∈ M et B1 ∈ M.

1) que e m µ (A) ≥ et en faisant tendre m vers ∞.1 (i) λ∗ est une mesure ext´rieure sur R. cela termine la preuve. On d´duit de (3.2. (iii) Pour tous a ≤ b. λ∗ ([a. La preuve de (1) montre que pour toute partie A de E. b[) = b − a. e e e 3. bi [. on d´finit e (bi − ai ) : A ⊂ ]ai . Th´or`me 3. µ (A) ≥ ∗ ∗ k=0 µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ ∞ k=0 c Bk ) ∞ k=0 µ (A ∩ Bk ) + µ (A ∩ ∞ k=0 ∗ ∗ ∞ k=0 c Bk ) ∞ k=0 ≥ µ∗ (A ∩ Bk ) + µ∗ (A ∩ ∞ k=0 c Bk ).2 La mesure de Lebesgue λ∗ (A) = inf{ i∈N Pour toute partie A de R. bi [}. e µ (A) ≥ et donc en prenant A = ∞ k=0 ∞ k=0 ∞ k=0 ∗ ∞ k=0 µ (A ∩ Bk ) + µ (A ∩ ∗ ∗ ∞ k=0 c Bk ) Bk . e e e ∗ (ii) La tribu M(λ ) contient B(R). k ∈ M a ea des ´lements disjoints de M. ai ≤ bi (´videmment il existe toujours de tels recouvrements). par σ-sous-additivit´. Soient Bk . µ( ∗ Bk ) ≥ µ∗ (Bk ).en utilisant le fait que les Bk sont disjoints. i∈N L’infimum porte sur tous les recouvrements d´nombrables de A par des intervalles ouverts e e ]ai . b]) = λ∗ (]a. 31 . Comme l’in´galit´ inverse est aussi vraie par σ-sous-additivit´. On sait d´j` que µ(∅) = 0. Cela suffit pour conclure que e Bk ∈ M. (2) Notons µ la restriction de µ∗ ` M.

α ∈ R. e e e e 32 . ∗ c i∈N ((bi ∧ α) − (ai ∧ α)) + 2ε. Les intervalles ]ai ∧ α. En cons´quence des r´sultats de la fin du Chapitre 1. et donc e e λ∗ ( n∈N An ) ≤ (bi n∈N i∈N (n) − ai ) ≤ (n) λ∗ (An ) + 2ε. b[. α]. λ∗ (A) ≥ λ∗ (A ∩ B) + λ∗ (A ∩ B c ). il suffit de montrer qu’elle contient une famille qui engendre la tribu bor´lienne. bi [. bi [ i∈N (n) (n) (bi (n) − ai ) ≤ λ∗ (An ) + (n) (n) (n) ε . on a (n) (n) peut trouver une suite d’intervalles ]ai . on a e λ∗ (A ∩ B) + λ∗ (A ∩ B c ) ≤ (bi − ai ). i ∈ N forment un recouvrement d´nombrable de la r´union des An . et sera a a not´e simplement λ. Soit ε > 0. ((bi ∨ α) − (ai ∨ α)). bi [)i∈N un recouvrement de A. on se donne une suite (An )n∈N de parties de N. Donc λ∗ (A ∩ B) ≤ λ (A ∩ B ) ≤ En faisant la somme on trouve λ∗ (A ∩ B) + λ∗ (A ∩ B c ) ≤ Puisque ε ´tait arbitraire. (bi − ai ) + 2ε. On e se donne donc α ∈ R et on pose B =] − ∞. et les intervalles ]ai ∨ α. Pour cela. b[) = b − a pour tout intervalle ]a. Il reste ` ´tablir la e a e sous-additivit´. (i) Il est imm´diat que λ∗ (∅) = 0 et que λ∗ est croissante. bi ∨ α[ recouvrent A ∩ B c . bi [. e ee ]ai . l’in´galit´ recherch´e en d´coule. 2i Il suffit alors de remarquer que les intervalles ]ai . n∈N d’o` le r´sultat puisque ε est arbitraire. n ∈ N. Pour tout n ∈ N. i∈N i∈N i∈N et comme λ∗ (A) est par d´finition l’infimum des sommes de droite sur tous les recouvrements e de A. c’est l’unique e e e mesure sur B(R) qui v´rifie la propri´t´ λ(]a.Preuve. (bi ∧ α) + ε2−i[ recouvrent A ∩ B. α]. On peut supposer e λ∗ (An ) < ∞ pour tout n (sinon il n’y a rien ` montrer). Soit (]ai . par exemple la famille des intervalles ] − ∞. et ε > 0. i ∈ N tels que An ⊂ et i∈N La restriction de λ∗ ` B(R) (ou ` M(λ∗)) est la mesure de Lebesgue sur R. u e (ii) Puisque M(λ∗ ) est une tribu. Le probl`me est de v´rifier que pour toute e e partie A de R.

(iii) Il est imm´diat par d´finition que e e λ∗ ([a. λ∗ (P ) = vol (P ). b[) = e e ∗ λ ([a. Extension en dimension d. (resp. o` l’infimum porte sur tous les recouvrements d´nombrables de A par des pav´s ouverts. On appelle pav´ ouvert (resp. bj [ . bi [. on peut trouver un entier N assez grand tel que e N [a. Il est facile de voir enfin que λ∗ (]a. b]). (iii) Pour tous pav´ (ouvert ou ferm´) P . bi [. P = j=1 [aj . i=0 Un raisonnement ´l´mentaire montre alors que ee N b−a≤ i=0 (bi − ai ) ≤ ∞ i=0 (bi − ai ).2. b] ⊂ ]ai . e e e e Th´or`me 3. On d´finit alors pour toute partie A de Rd e λ∗ (A) = inf{ i∈N vol (Pi ) : A ⊂ i∈N Pi }.2 (i) λ∗ est une mesure ext´rieure sur Rd . b]) ≤ b − a. e e e ∗ d (ii) La tribu M(λ ) contient B(R ). e e 33 . ferm´) un sous-ensemble P de Rd de la forme e e d d P = j=1 ]aj . bj ]). i∈N Par compacit´. u e e On a alors l’analogue suivant du th´or`me pr´c´dent. b]) (par exemple en observant que λ∗ ({a}) = λ∗ ({b}) = 0). supposons que e e [a. b] ⊂ ]ai . Le volume de P est par d´finition e d vol (P ) = j=1 (bj − aj ). Pour l’in´galit´ inverse. Cela donne l’autre in´galit´ b − a ≤ λ∗ ([a.

e Preuve. On verra plus tard (dans le Chapitre 5) une autre fa¸on de construire la mesure c de Lebesgue en dimension d ` partir du cas de la dimension un. on choisit B et B ′ comme dans la ıne ¯ d´finition et on remarque que A = B ∪ (A\B). et sera a a not´e simplement λ. et si B et B ′ sont comme dans la d´finition de B ci-dessus. i=1 Cette assertion est laiss´e en exercice. On remarque d’abord que la tribu A peut ˆtre obtenue de la mani`re suivante : si e e B = {A ∈ P(E) : ∃B. Si A ∈ A e ′ ˜ ˜ on pose µ(A) = µ(B) = µ(B ). si A ∈ B. Nous e e ´non¸ons d’abord une proposition pr´liminaire. e c e Proposition 3. Nous allons voir qu’en un certain sens ces deux tribus ne sont pas tr`s diff´rentes. Cela ne d´pend pas du choix de B et B ′ : si B.2. Il est clair que A ⊂ B et e ¯ N ⊂ B. on a u e Pi i=1 n vol (P ) ≤ vol (Pi ).3 Soit (E. A. on construit le prolongement de µ ` A de la mani`re e e ¯ a ¯ e ¯ = B. L’inclusion B ⊂ A e en d´coule. Pour (ii). e Une fois acquise l’´galit´ A = B. suivante. Il existe alors une unique ee a ¯ qui prolonge µ. La d´monstration est alors tout ` fait semblable ` celle du cas d = 1. ce qui entraˆ que A ⊂ B. a] × R × · · · × R. B ′ est e ′ ′ ˜ ˜ un autre choix. on a A ∈ M(λ∗ ) (il est facile de voir que les ensembles de cette forme engendrent la tribu B(Rd )). µ) un espace mesur´. on se ram`ne ` montrer que si P est un pav´ ferm´ et si e a e e n P ⊂ o` les Pi sont des pav´s ouverts. Enfin. a On peut se demander si la tribu M(λ∗ ) est beaucoup plus grande que la tribu B(R).La restriction de λ∗ ` B(Rd ) (ou ` M(λ∗ )) est la mesure de Lebesgue sur Rd . La classe des parties n´gligeables est e e par d´finition e N = {A ∈ P(E) : ∃B ∈ A. B ′ ∈ A. on a ` la fois µ(B) ≤ µ(B ) et µ(B ) ≥ µ(B) ce qui force les ´galit´s a e e 34 . A) ¯ Preuve. En effet on v´rifie facilement que B est une tribu. B ⊂ A ⊂ B ′ et µ(B ′ \B) = 0} ¯ on a A = B. A ⊂ B et µ(B) = 0}. avec B ∈ A et A\B ∈ N . La preuve de (i) est exactement la mˆme que dans le cas d = 1. il suffit e de montrer que si A est un ensemble de la forme A = R × · · · × R×] − ∞. mesure sur (E. Enfin pour e a a (iii). ¯ La tribu compl´t´e de A (par rapport ` µ) est A = σ(A ∪ N ). e Remarque.

Preuve. il est facile de v´rifier que le prolongement de µ ` e a ¯ ¯ A est une mesure : si An . Enfin. on doit alors avoir B ′ ⊂ A et λ∗ (B ′ ) = λ∗ (A). Sans perte de g´n´ralit´. L’inclusion B(Rd ) ⊂ M(λ∗ ) est imm´diate : si A ∈ P(Rd ) est tel que A ⊂ B. ıne ¯ Inversement. 35 . i i vol (Pin ) ≤ λ∗ (A) + 1 . e e e d on peut supposer A ⊂]−K. i ∈ N) de pav´s ouverts contenus dans ] − K. K[ (sinon on ´crit A comme la r´union croissante des ensembles e e A∩] − n. ` ¯ Preuve. A ⊂ B. Si ˜ ˜ ˜ B ˜ B ′ =] − K. λ∗ (B) ≤ i vol (Pin ) ≤ λ∗ (A) + 1 n ce qui implique λ∗ (B) = λ∗ (A). K[d \B. B= n Bn . la derni`re ´galit´ parce que e e e An \ Bn ⊂ n (An \Bn ) est n´gligeable. σx (λ)(A) = λ(σx (A)) = λ(x + A). K[d \A. si µ est une mesure sur (Rd . n[d ). et d’apr`s le th´or`me du u e e e paragraphe 1. alors λ (A) ≤ λ (B) = λ(B) = 0. Notons σx la translation σx (y) = y − x pour tout y ∈ Rd .4 La tribu M(λ∗ ) co¨ ıncide avec la compl´t´e B(Rd ) de B(Rd ) par rapport ee ¯ a la mesure de Lebesgue λ.2. B ⊂] − K. e Proposition 3.5 La mesure de Lebesgue sur Rd est invariante par translation. En rempla¸ant A par ] − K. et d’autre part pour chaque n. K[d tels que e e A⊂ Posons Bn = i Pin . Alors B ∈ B(Rd ). au sens o` e e u pour tout A ∈ B(Rd ) et tout x ∈ Rd . il existe une constante c ≥ 0 telle que µ = cλ. K[d \A) = λ∗ (B). Bn ⊂ An de mani`re que An \Bn soit n´gligeable. Inversement. On veut montrer que A ∈ B(Rd ). et donc pour chaque n ≥ 1 on peut trouver une famille d´nombrable (Pin .2. et on a e e µ(An ) = n n n µ(Bn ) = µ( n n Bn ) = µ( n An ). on a λ(x + A) = λ(A). e e Th´or`me 3. K[d \A ⊂ B et λ∗ (] − K. Finalement on a bien trouv´ deux bor´liens B et B ′ avec B ′ ⊂ A ⊂ B et λ(B\B ′ ) = 0. n Pin . on peut pour chaque n ee choisir Bn ∈ A. n ∈ N sont des ´l´ments disjoints de A. K[d telle que ] − K. soit A ∈ M(λ∗ ). B(Rd )) finie sur les parties born´es et invarie ante par translation.˜ ˜ µ(B) = µ(B ′ ) = µ(B) = µ(B ′ ). on sait que cela entraˆ A ∈ M(λ∗ ). La mesure-image σx (λ) est d´finie par e −1 ∀A ∈ B(Rd ). e d ∗ ∗ o` B ∈ B(R ) et λ(B) = 0. On a alors λ∗ (A) < ∞. on construit de mˆme c e ˜ ∈ B(Rd ).

L’´galit´ σx (λ)(A) = λ(A) est vraie pour tout pav´ A (puisque A et x+A sont deux pav´s de e e e e mˆme volume). A l’aide du lemme de classe monotone du Chapitre 1, il en d´coule aussitˆt e e o que σx (λ) = λ, ce qui est la premi`re assertion du th´or`me. e e e d Inversement, soit µ une mesure sur B(R ) invariante par translation. Soit c = µ([0, 1[d ).
1 Comme [0, 1[d est la r´union disjointe de nd pav´s qui sont des translat´s de [0, n [d , il en e e e r´sulte que pour tout entier n ≥ 1, e

1 c µ([0, [d ) = d . n n Soient ensuite a1 , . . . , ad ≥ 0. En ´crivant e [naj ] [naj ] + 1 [0, [⊂ [0, aj [⊂ [0, [ n n j=1 j=1 j=1 (o` [x] d´signe la partie enti`re de x), on trouve u e e [naj ] [naj ] + 1 c c [) ≤ µ( [0, aj [) ≤ µ( [0, [) = ( [naj ] + 1) d . ( [naj ]) d = µ( [0, n n n n j=1 j=1 j=1 j=1 j=1 En faisant tendre n vers ∞, il vient
d n d d d d d d d d d

µ(
j=1

[0, aj [) = c
j=1

aj = cλ(
j=1

[0, aj [)

et en utilisant l’invariance par translation de µ on trouve que les mesures µ et cλ co¨ ıncident sur tous les pav´s de la forme e
d

[aj , bj [.
j=1

Comme dans la premi`re partie de la preuve, cela suffit pour conclure que µ = cλ. e Proposition 3.2.6 La mesure de Lebesgue sur Rd est r´guli`re au sens o` pour tout A ∈ e e u ¯ d ), on a B(R λ(A) = inf{λ(U) : U ouvert , A ⊂ U} = sup{λ(F ) : F compact , F ⊂ A}. Preuve. La quantit´ inf{λ(U) : U ouvert , A ⊂ U} est toujours plus grande que λ(A). Pour e l’autre in´galit´, on peut supposer λ(A) < ∞. Ensuite, par d´finition de λ(A) = λ∗ (A), on e e e peut pour chaque ε > 0 trouver un recouvrement de A par des pav´s ouverts Pi tels que e λ(Pi ) ≤ λ(A) + ε. Mais alors l’ouvert U d´fini comme la r´union des Pi contient A et on e e a λ(U) ≤ λ(Pi ) ≤ λ(A) + ε, ce qui conduit ` l’in´galit´ voulue. a e e 36

Pour la deuxi`me ´galit´ de la proposition, on peut supposer A contenu dans un compact e e e C (sinon on ´crit λ(A) = lim ↑ λ(A ∩ [−n, n]d )). Pour chaque ε > 0 on peut grˆce ` la e a a premi`re partie de la preuve trouver un ouvert U contenant C\A, tel que λ(U) < λ(C\A)+ε. e Mais alors F = C\U est un compact contenu dans A, et λ(F ) ≥ λ(C) − λ(U) ≥ λ(C) − (λ(C\A) + ε) = λ(A) − ε, ce qui donne la deuxi`me ´galit´. e e e La proposition pr´c´dente peut ˆtre ´tendue ` un cadre beaucoup plus g´n´ral. Nous e e e e a e e nous limitons au cas des mesures finies. Proposition 3.2.7 Soit (E, d) un espace m´trique, et soit µ une mesure finie sur (E, B(E)). e Alors, pour tout A ∈ B(E), µ(A) = inf{µ(U) : U ouvert , A ⊂ U} = sup{µ(F ) : F ferm´ , F ⊂ A}. e Preuve. Notons O la classe des ouverts de E, et soit C la classe des ensembles A ∈ B(E) qui v´rifient la propri´t´ de la proposition. Puisque la tribu bor´lienne est par d´finition e ee e e engendr´e par O, il suffit de montrer que O ⊂ C et que C est une tribu. e Si A ∈ O, la premi`re ´galit´ est triviale. Pour la seconde, on remarque que pour tout e e e n ≥ 1, l’ensemble 1 Fn = {x ∈ E : d(x, Ac ) ≥ } n est ferm´. Par ailleurs A = lim ↑ Fn , ce qui entraˆ e ıne µ(A) = lim ↑ µ(Fn ), ce qui donne bien la seconde ´galit´ et prouve que O ⊂ C. e e Il reste ` montrer que C est une tribu. On a ∅ ∈ C et ` cause de la sym´trie entre ouverts a a e et ferm´s, on voit imm´diatement que C est stable par passage au compl´mentaire. Soit e e e ensuite (An )n∈N une suite dans C et soit ε > 0. Pour chaque n, on peut trouver un ouvert Un contenant An tel que µ(Un ) ≤ µ(An ) + ε2−n , d’o` u µ
n∈N

Un \

n∈N

An ≤

n∈N

µ(Un − An ) ≤ 2ε. An .

Puisque Un est ouvert cela donne la premi`re des deux ´galit´s recherch´es pour e e e e Ensuite, soit N un entier assez grand pour que
N

µ(
n=0

An ) ≥ µ(

n∈N

An ) − ε.

Pour chaque n ∈ {0, 1, . . . , N} on peut trouver un ferm´ Fn ⊂ An tel que µ(An \Fn ) ≤ ε2−n . e Alors
N

F =
n=0

Fn 37

est ferm´ et e
N N

µ((
n=0

An )\F ) ≤
∞ n=0

n=0

µ(An − Fn ) < 2ε

d’o` u µ(( On conclut que

An )\F ) ≤ 3ε.

An ∈ C, ce qui termine la preuve.

3.3

Liens avec l’int´grale de Riemann e

Fixons un intervalle [a, b] non trivial de R. Une fonction h : [a, b] −→ R est dite en escalier, et on note h ∈ Esc, s’il existe une subdivision a = x0 < x1 < · · · < xN = b et des r´els e y1 , . . . , yN tels que ∀i ∈ {1, . . . , N}, ∀x ∈]xi−1 , xi [, f (x) = yi. On pose alors
N

I(h) =
i=1

yi(xi − xi−1 ).

Il est imm´diat que I(h) = [a,b] h dλ. e Une fonction born´e f : [a, b] −→ R est dite Riemann-int´grable si e e sup
h∈Esc, h≤f

I(h) =

h∈Esc, h≥f

inf

I(h)

et cette valeur commune est not´e I(f ). e Proposition 3.3.1 Soit f une fonction Riemann-int´grable sur [a, b]. Alors f est mesurable e pour la tribu compl´t´e B([a, b]), et ee ¯ I(f ) =
[a,b]

f dλ.

Preuve. On peut trouver une suite (hn ) de fonctions en escalier sur [a, b] telles que hn ≥ f et I(hn ) ↓ I(f ). Quitte ` remplacer hn par h1 ∧ h2 ∧ · · · ∧ hn , on peut supposer la suite (hn ) a d´croissante, ce qui permet de poser e h∞ = lim ↓ hn ≥ f. ˜ ˜ De mˆme, on peut trouver une suite croissante (hn ) de fonctions en escalier avec hn ≤ f et e ˜ I(hn ) ↑ I(f ), et poser ˜ ˜ h∞ = lim ↑ hn ≤ f. 38

˜ Les fonctions h∞ et h∞ sont bor´liennes born´es. Par convergence domin´e, e e e
[a,b]

h∞ dλ = lim ↓ ˜ h∞ dλ = lim ↑

[a,b]

hn dλ = lim ↓ I(hn ) = I(f ), ˜ ˜ hn dλ = lim ↑ I(hn ) = I(f ).

[a,b]

[a,b]

Donc,
[a,b]

˜ (h∞ − h∞ )dλ = 0.

˜ ˜ ˜ Puisque h∞ ≥ h∞ , cela entraˆ h∞ = h∞ , λ p.p. Comme h∞ ≥ f ≥ h∞ , f co¨ ıne ıncide p.p. ¯ avec une fonction bor´lienne, et il est facile d’en d´duire que f est B([a, b])-mesurable. Enfin e e puisque f = h∞ p.p. on a [a,b] f dλ = [a,b] h∞ dλ = I(f ).

3.4

Un exemple d’ensemble non mesurable

Consid´rons l’espace R/Q des classes d’´quivalence des r´els modulo les rationnels. Pour e e e chaque a ∈ R/Q, soit xa un repr´sentant de a dans l’intervalle [0, 1]. On pose e F = {xa ; a ∈ R/Q} ⊂ [0, 1]. Alors F n’est pas bor´lien, ni mˆme mesurable par rapport ` la tribu compl´t´e B(R). e e a ee ¯ Pour le v´rifier, supposons F mesurable et montrons que cela conduit ` une contradiction. e a D’abord, on a par construction (q + F ) R⊂
q∈Q

et donc λ(F ) > 0, car sinon R serait contenu dans une r´union d´nombrable d’ensembles de e e mesure nulle. Par ailleurs, les ensembles q + F , q ∈ Q sont disjoints (si q + xa = q ′ + xa′ on a xa − xa′ = q ′ − q ∈ Q et donc a = a′ puis q = q ′ ). De l’inclusion
q∈Q∩[0,1]

(q + F ) ⊂ [0, 2]

on d´duit donc e
q∈Q∩[0,1]

λ(q + F ) ≤ 2

d’o` λ(F ) = 0 ce qui est la contradiction recherch´e. u e

3.5

Int´grale de Stieltjes e

Le th´or`me suivant donne une description de toutes les mesures finies sur (R, B(R)). Le e e r´sultat peut ˆtre facilement ´tendu aux mesures de Radon. e e e 39

i∈N (Noter qu’on recouvre A par des intervalles ouverts ` droite et ferm´s ` gauche. Par exemple si xn ↓ x. born´e. (i) La v´rification des propri´t´s de Fµ est facile. x]) = F (x). α] sont e e dans M(λ∗ ) (en fait c’est mˆme plus facile ici). Remarque. et donc e Fµ (xn ) = µ(] − ∞. ]a. continue ` droite et Fµ (−∞) = 0. b]) ≤ F (b) − F (a) 40 .5. les intervalles ] − ∞. on note souvent f (x) µ(dx) = f (x) dF (x). b]) = F (b) − F (a) pour tous a < b (ensuite faire tendre a vers −∞). u e a Preuve. e e (ii) L’unicit´ de µ est une cons´quence du lemme de classe monotone (cf Chapitre 1) : la e e classe C = {] − ∞. C’est l’int´grale de Stieltjes de f par rapport ` F . B(R)). il reste ` montrer que µ(] − ∞. Lorsque F = Fµ . Pour tout x ∈ R. De mˆme. xn ] d´croissent vers ∅ et donc Fµ (xn ) ↓ 0. x ∈ R} est stable par intersection finie et engendre la tribu B(R). de µ ` M(µ∗ ) est une mesure sur (R. x]. soit F : R −→ R+ une fonction est croissante. x]. xn ] d´croissent vers ] − ∞. B(R)) telle que F = Fµ . B(R)). dF (x) = F (b) − F (a−). x]). bi ]}. on pose pour tout A ⊂ R: µ∗ (A) = inf{ i∈N (F (bi ) − F (ai )) : A ⊂ ]ai . e a (ii) Inversement. Il suffit pour a cela d’´tablir que µ(]a. La fonction Fµ est croissante. les e ee intervalles ] − ∞.b] o` F (a−) d´signe la limite ` gauche de F en a. et non plus a e a des intervalles ouverts comme pour la mesure de Lebesgue. On v´rifie par e e la mˆme m´thode que dans le cas de la mesure de Lebesgue que les intervalles ] − ∞. si xn ↓ −∞. continue ` droite e a et telle que F (−∞) = 0. e e a Pour terminer. e L’in´galit´ e e µ(]a.1 (i) Soit µ une mesure finie sur (R. Il existe alors une unique mesure finie µ sur (R. Pour montrer l’existence. et que la restriction. born´e. not´e µ.b] et dF (x) = lim [a. xn ]) ↓ µ(] − ∞. soit e e Fµ (x) = µ(] − ∞. On a en particulier e a dF (x) = F (b) − F (a).Th´or`me 3. x]) = F (x) pour tout x ∈ R.) Les mˆmes arguments que dans e le cas de la mesure de Lebesgue montrent que µ∗ est une mesure ext´rieure.b] n→∞ ]a−n−1 . Il en d´coule que la tribu M(µ∗ ) contient la e e ∗ tribu bor´lienne.

on peut trouver yi > yi tel que F (yi) ≤ F (yi ) + ε2−i . 0]) si x ≥ 0. b] par une sous-famille finie ′ ′ (]xi . J(f ) = 41 f dµ. e Dans l’autre sens. e Cas des mesures de Radon. B(X)) telle que ∀f ∈ Cc (X). Pour chaque i ∈ N. En faisant tendre ε vers 0 on trouve F (b) − F (a) ≤ ∞ i=0 (F (yi ) − F (xi )) ce qui par d´finition de µ∗ donne bien la minoration µ(]a. yi [)i∈{0. On a encore l’´galit´ µ(]a. 3. donne une correspondance bijective entre mesures de Radon µ sur R et fonctions F : R −→ R croissantes continues ` droite et nulles en 0. soit (]xi . b].1 Soit X un espace m´trique localement compact s´parable. Le th´or`me de repr´sentation de Riesz montre que sous des hypoth`ses convenables e e e e toute forme lin´aire positive sur Cc (X) est de ce type. Soit ε ∈ e ′ ′ ]0. Ensuite.1. Dans le cas particulier F (x) = x la e e mesure µ est la mesure de Lebesgue. e Th´or`me 3. e e Si µ est une mesure de Radon sur X. on d´finit une forme lin´aire J sur Cc (X) en posant e e J(f ) = f dµ. b]) = F (b) − F (a). b]) ≥ F (b) − F (a)..est imm´diate par construction de µ∗ . Noter que l’int´grale est bien d´finie puisque |f | ≤ C 1K . Il existe alors une unique mesure de Radon µ sur e (X. .6 Le th´or`me de repr´sentation de Riesz e e e Soit X un espace m´trique.6.. La formule F (x) = µ(]0. yi [)i∈N .Nε } de la famille des intervalles ouverts (]xi . et µ e e u est finie sur les compacts. On note Cc (X) l’espace des fonctions continues ` support e a compact sur X. Un raisonnement simple montre qu’alors Nε F (b) − F (a + ε) ≤ ′ (F (yi) i=0 − F (xi )) ≤ ∞ i=0 ′ (F (yi ) − F (xi )) ≤ ∞ i=0 (F (yi ) − F (xi )) + 2ε. yi ])i∈N un recouvrement d´nombrable de ]a. Ce r´sultat d´coule facilement du cas des mesures a e e finies.. si x < 0. et soit J une e e e e forme lin´aire positive sur Cc (X). x]) −µ(]x. Une forme lin´aire J sur Cc (X) est dite positive si J(f ) ≥ 0 d`s que f ≥ 0.. De plus J est positive. o` K est un compact de X. b − a[. on remarque qu’on peut recouvrir l’intervalle compact [a + ε.

A ⊂ U} = sup{λ(F ) : F compact . e e u λ(A) = inf{λ(U) : U ouvert . Si X = R. µ(U) = sup{J(f ) : f ∈ Cc (X). De plus. Cela fournit donc une autre e u construction de la mesure de Lebesgue (en supposant construite l’int´grale de Riemann des e fonctions continues).1 de Briane e e e e et Pag`s [2] ou le chapitre 2 de Rudin [7]. on peut prendre J(f ) = I(f ). o` I(f ) est comme ci-dessus l’int´grale u e de Riemann de la fonction f . F ⊂ A}. e e e e 42 . pour tout ouvert U de X.La mesure µ est r´guli`re au sens o` pour tout A ∈ B(X). 0 ≤ f ≤ 1U }.1 : voir le Th´or`me 10. Exemple. On v´rifie ais´ment que J est une forme lin´aire positive sur e e e Cc (R). Nous ne donnons pas ici la preuve du Th´or`me 3. La mesure associ´e est (bien sˆ r) la mesure de Lebesgue.6. qui donne un ´nonc´ un peu plus pr´cis.

A. µ) = {f : E −→ R mesurable. on ´tablit le th´or`me de Radon-Nikodym. µ p. Pour tout r´el p ≥ 1 on pose e e e et on d´finit aussi e p On pourrait aussi consid´rer les espaces LC et L∞ obtenus en consid´rant des fonctions ` e e a C e valeurs complexes. e Pour chaque p ∈ [1. mais dans ce chapitre nous nous int´resserons surtout au cas r´el. qui ´tant donn´ une mesure de e e e e e r´f´rence permet de d´composer n’importe quelle autre mesure en la somme d’une mesure ` ee e a densit´ par rapport ` la mesure de r´f´rence et d’une mesure “´trang`re”. Dans ee e e la suite on fera presque syst´matiquement l’abus d’´criture consistant ` identifier un ´lement e e a e de Lp (E. de e e e e o Minkowski et de Jensen constituent un outil important pour cette ´tude. et dans le cas particulier p = 2 la structure d’espace de Hilbert de L2 . e a ee e e 4.Chapitre 4 Espaces Lp Ce chapitre est consacr´ principalement ` l’´tude de l’espace Lp des fonctions dont la valeur e a e absolue est de puissance p-i`me int´grable.p. µ) ` l’un de ses repr´sentants. Les th´or`mes de densit´ montrant qu’on peut ape e e p procher n’importe quelle fonction de L par des fonctions plus “r´guli`res” jouent un rˆle e e o important dans beaucoup d’applications en analyse. On ´tudie noe e p tamment la structure d’espace de Banach de l’espace L . A. A. Les in´galit´s fondamentales de H¨lder. A. Cela conduit ` d´finir l’espace quotient a e Lp (E. µ p. ∃C ∈ R+ : |f | ≤ C. f ∼g si et seulement si f = g.p. A. a e 43 . |f |p dµ < ∞} Dans tout ce chapitre on consid`re un espace mesur´ (E. on d´finit une relation d’´quivalence sur Lp en posant e e L∞ (E. µ) est donc une classe d’´quivalence de fonctions ´gales µ p. En application de la structure hilbertienne de L2 . µ) = {f : E −→ R mesurable. A. A. µ). ∞]. Un ´l´ment de Lp (E. µ) = Lp (E.p. µ)/ ∼ .}.1 D´finition et in´galit´ de H¨lder e e e o Lp (E.

Alors.p. A. A. ∞] avec c cette propri´t´. µ p. o` u ≥ 0 et v > 0. On dit que p et q sont des exposants conjugu´s si e 1 1 + = 1. ee Soient p. ∞[. Supposons 1 < p < ∞ (et donc 1 < q < ∞). q = ∞ est facile : on a |f g| ≤ g ∞ |f |. e Preuve. 1[. Sans perte de g´n´ralit´ on peut e e e aussi supposer f ∈ Lp (E. ce qui donne e l’in´galit´ recherch´e. En effet la fonction ϕα (x) = xα − αx a pour d´riv´e sur ]0. q ∈ [1. On prend alors α = e e u= |f (x)|p f p p . µ). On peut donc supposer f p > 0 et g q > 0. En appliquant cette in´galit´ ` x = u . ∞] : |f | ≤ C. p q En particulier. p = 1 et q = ∞ sont conjugu´s. A. si e e e e o e f et g sont deux fonctions mesurables de E dans R.1. f (avec la convention ∞1/p = ∞) et f ∞ p = |f |pdµ 1/p = inf{C ∈ [0. Le cas p = 1. Si f p = 0. on note pour p ∈ [1. on a f = 0. µ p. 1[ et n´gative sur ]1. A.Pour toute fonction f : E −→ R mesurable. et que f ∞ est le plus petit nombre dans [0. d’o` u |f g| dµ ≤ g ∞ |f |dµ = g ∞ f 1.} de fa¸on que f ≤ f ∞ . in´galit´ qui reste vraie si v = 0. Donc ϕα est maximale en x = 1. A.. µ) d`s que f ∈ Lp (E. µ) et g ∈ Lq (E. et l’in´galit´ est e e triviale. 44 1 p (donc 1 − α = 1 ) puis q |g(x)|q g q q v= .1 (In´galit´ de H¨lder) Soient p et q des exposants conjugu´s. µ p.p. Soit α ∈]0. e Th´or`me 4. on trouve e e e e ea u v uα v 1−α ≤ αu + (1 − α)v. ce qui entraˆ ıne |f g|dµ = 0. µ) et g ∈ Lq (E.p. |f g| dµ ≤ f p g q . ϕ′α (x) = α(xα−1 − 1) qui e e est positive sur ]0. f g ∈ L1 (E. µ p. ∞]..p. ∞[. µ). On a pour tout x ∈ R+ xα − αx ≤ 1 − α. En particulier. ∞[.

on trouve e u |f | dµ ≤ µ(E)1/q f p ce qui montre que Lp ⊂ L1 pour tout p ∈]1. f p g q p f p q g q p q En int´grant cette derni`re in´galit´ par rapport ` µ. ϕ(x) = sup (ax + b). p q Exercice. Lorsque 1 < p < ∞.pour aboutir ` a 1 |f (x)|p 1 |g(x)|q |f (x)g(x)| ≤ + . A. on trouve pour tous 1 ≤ r ≤ r ′ ≤ ∞ f ′ r ≤ µ(E) r − r′ f 1 1 r′ . e e e e e e Th´or`me 4. En rempla¸ant |f | par |f |r (r ≥ 1) et en c posant r ′ = pr. il vient e e e e a 1 f p g q |f g|dµ ≤ 1 1 + = 1. Lorsque µ est une mesure de probabilit´ u e ′ on a f r ≤ f r′ pour tous 1 ≤ r ≤ r ≤ ∞. Cette derni`re in´galit´ peut ˆtre vue comme un cas particulier de l’in´galit´ de Jensen. µ). En prenant g = 1. pour f ∈ L (E. e Le cas particulier p = q = 2 de l’in´galit´ de H¨lder est l’in´galit´ de Cauchy-Schwarz e e o e e |f g| dµ ≤ |f |2 dµ 1/2 1/2 |g|2dµ . montrer qu’il y a ´galit´ dans l’in´galit´ de H¨lder ssi il e e e e o p q existe deux r´els positifs α.1.b)∈Eϕ f dµ .2 (In´galit´ de Jensen) Supposons que µ est une mesure de probabilit´. b) ∈ R2 : ∀x ∈ R. e e e e e 1 et soit ϕ : R −→ R+ une fonction convexe. ϕ(x) ≥ ax + b}. ϕ◦f dµ est bien d´finie comme int´grale d’une fonction mesurable e e 45 . L’int´grale e positive. Consid´rons le cas particulier o` µ est finie. ϕ ◦ f dµ ≥ ϕ Remarque. tels que α|f | = β|g| µ p. ∞]. β non tous deux nuls. Preuve. et donc Lr ⊂ Lr (toujours dans le cas o` µ est finie). Alors. Soit Eϕ = {(a. Les propri´t´s bien connues des fonctions convexes assurent que ee ∀x ∈ R . (a.p.

|f + g|pdµ < ∞ et donc f + g ∈ Lp . un espace vectoriel norm´ complet). e 46 . f + g ∈ L (E. Ensuite. l’espace Lp (E.b)∈Eϕ (af + b)dµ a f dµ f dµ + b sup (a. et soient f.2. Si |f + g|p dµ = 0. µ) muni de la norme e e f → f p est un espace de Banach (i. l’in´galit´ du th´or`me est triviale. 4. µ) ≤ f Th´or`me 4. ∞]. µ) et f +g p p + g p . En ´crivant e |f + g|p ≤ 2p (|f |p + |g|p ) on voit que l’in´galit´ e e on trouve |f + g|pdµ ≤ |f | |f + g|p−1dµ + |g| |f + g|p−1dµ. Sinon on peut diviser chacun des e e e e deux membres de l’in´galit´ pr´c´dente par ( |f + g|p dµ)(p−1)/p et on trouve le r´sultat e e e e e recherch´.e. Montrer que si µ(E) < ∞ on a f ∞ = lim f p→∞ p. Les cas p = 1 et p = ∞ sont faciles en utilisant simplement l’in´galit´ |f + g| ≤ e e |f | + |g|. A. e ϕ ◦ f dµ ≥ = sup (a.2 L’espace de Banach Lp(E. Supposons donc 1 < p < ∞. Preuve. il vient e e o e e |f + g| dµ ≤ f p p |f + g| dµ p p−1 p + g p |f + g| dµ p p−1 p .2 (Riesz) Pour tout p ∈ [1. A. A.b)∈Eϕ = ϕ Exercice. A. g ∈ Lp (E.2. e e e e p Alors. en int´grant par rapport ` µ e a |f + g|p ≤ |f | |f + g|p−1 + |g| |f + g|p−1 En appliquant l’in´galit´ de H¨lder aux r´els conjugu´s p et q = p/(p − 1).En cons´quence. µ). e Th´or`me 4. ∞].1 (In´galit´ de Minkowski) Soit p ∈ [1.

N ≥1 puisque la suite fn ´tant de Cauchy est born´e dans Lp . on a h − gn p p = |h − gn |p dµ ≤ lim inf N →∞ |gN − gn |p dµ = lim inf gN − gn N →∞ p p ≤ (2−n+1 )p 47 . Alors on peut choisir une suite d’entiers (kn ) strictement croissante de fa¸on que pour tout n ≥ 1. et cela permet de poser h = g1 + (gn+1 − gn ) la s´rie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut e prendre une d´finition arbitraire de h (par exemple h = 0). on a |h| = lim inf |gN |. On a f p =0⇒ |f |p dµ = 0 ⇒ f = 0 µ p.. Enfin. ∞ n=1 µ p. et le lemme de Fatou montre imm´diatement que e |h|p dµ ≤ lim inf |gN |p dµ ≤ sup |gN |p dµ < ∞. e Puisque gN converge vers h. On a donc ∞ n=1 |gn+1 − gn | < ∞ . V´rifions d’abord e que f → f p est une norme sur Lp . ` nouveau grˆce au lemme e e a a de Fatou.p. La propri´t´ a e ee λf p = |λ| f p pour λ ∈ R est imm´diate. µ p. ce qui signifie que f = 0 dans Lp (f appartient ` la classe d’´quivalence de 0). On se limite au cas 1 ≤ p < ∞ (le cas p = ∞ est plus facile). La fonction h est alors mesurable.Preuve. et l’in´galit´ de Minkowski donne l’in´galit´ e e e e e triangulaire.p. Soit (fn )n≥1 une suite de a Cauchy dans Lp . Il reste ` montrer que Lp muni de cette norme est complet. c fkn+1 − fkn p ≤ 2−n .p. µ p.p. e e Posons gn = fkn et remarquons en utilisant le th´or`me de convergence monotone puis l’in´galit´ de Minkowski que e e ∞ n=1 |gn+1 − gn | dµ = p N N ↑∞ lim ↑ N n=1 |gn+1 − gn | dµ p p p ≤ lim ↑ N ↑∞ n=1 gn+1 − gn p p = ∞ n=1 gn+1 − gn < ∞.

Remarquons que dans ce cas il n’y a pas d’ensemble non vide de mesure nulle et donc Lp co¨ ıncide avec Lp . l’espace Lp est l’espace des suites a = (an )n∈N de r´els tels que e ∞ n=0 |an |p < ∞ ∞ n=0 muni de la norme a ∞ p = |an |p 1/p . Cet espace est en g´n´ral not´ ℓp = ℓp (N). vers f . µ p. pour tout p ∈ [1. ıne Cela n’est pas vrai. Si E = N et µ est la mesure de comptage. On peut se demander si inversement la convergence µ p. ∞[.3 Soit p ∈ [1.p. Il joue un rˆle e e e o important dans la th´orie des espaces de Banach.p. A. e ıtre e e e e e e Proposition 4.en majorant pour N > n. Soit p ∈ [1. Exemple. mais le th´or`me de convergence domin´e montre que si : e e e (i) fn −→ f . |fn |r dµ < ∞ entraˆ ınent fn −→ f dans Lp . Exercice. µ p. (ii) Il existe r > p tel que sup n |f |p dµ < ∞ et ∀n. muni de la norme e a ∞ = sup(an ). entraˆ la convergence Lp . ∞[ et soit (fn ) une suite qui converge vers f dans Lp (E. µ). Il existe alors une sous-suite (fkn ) qui converge µ p. |fn | ≤ g.p. L’espace L est simplement l’espace des suites (an )n∈N qui sont born´es. gN −gn p ≤ gn+1 −gn p +· · ·+ gN −gN −1 p ≤ 2−n+1 . µ p. 48 . L’in´galit´ e e pr´c´dente montre que gn converge vers h dans Lp .p. Montrer que les conditions (i) fn −→ f . ∞[.2. e La derni`re preuve fait apparaˆ un r´sultat interm´diaire qui m´rite d’ˆtre ´nonc´. Cela entraˆ que fn converge vers h et e e ıne termine la preuve. On suppose µ(E) < ∞. mais dans ce cas l’extraction d’une souse suite n’est pas n´cessaire puisque la convergence L∞ ´quivaut ` une convergence uniforme e e a sauf sur un ensemble de mesure nulle.p. Le r´sultat est aussi vrai pour p = ∞. Remarque. (ii) Il existe une fonction g ≥ 0 telle que alors fn −→ f dans Lp . Le cas p = 2 du th´or`me de Riesz est particuli`rement important puisque l’espace L2 a e e e une structure d’espace de Hilbert.

On sait que e e f = lim ↑ ϕn n→∞ 49 . l’espace des fonctions lipschitziennes born´es qui sont dans L est dense dans e p L (E. A.4 L’espace L2 (E. g ∈ L2 .Th´or`me 4. ¯ f g dµ 4. e Preuve. y). µ). ∞[. (3) Si (E.2. d) est un espace m´trique. µ) −→ R est une forme lin´aire continue. A. il existe un (unique) e 2 2 ´l´ment g de L (E. g d´finit une forme bilin´aire e e e sym´trique d´finie positive. e e e e e e 2 L’espace LC (E. le th´or`me ci-dessus s’´tend au cas complexe. g) −→ f. A. B(E)) est dite ext´rieurement r´guli`re e e e e si ∀A ∈ B(E) . alors l’espace des fonctions lipschitziennes ` support compact est dense dans a p L (E. il suffit de montrer que si f ∈ Lp est positive. Remarque. g = f g dµ. une mesure µ sur (E. |f (x) − f (y)| ≤ K d(x. A. (1) En d´composant f = f + − f − .3 Th´or`mes de densit´ dans les espaces Lp e e e Si (E. g est bien d´fini. e e (1) L’espace des fonctions ´tag´es int´grables est dense dans Lp (E. et µ une mesure ext´rieurement r´guli`re sur e e e e p (E. A. µ). A. Comme les r´sultats pr´c´dents. B(E). f g est int´grable et donc e e e f. Th´or`me 4. µ) tel que ∀f ∈ L . µ(A) = inf{µ(U) : U ouvert. e alors f est limite dans Lp d’une suite de fonctions ´tag´es. et µ une mesure de e e Radon sur E. µ) est un espace de Hilbert complexe pour le produit scalaire f. Ensuite il est clair que (f. e e e On peut donc appliquer ` L2 (E. si Φ : L (E. Une fonction f : E −→ R est dite lipschitzienne s’il existe une constante K telle que ∀x. et que la norme associ´e est la norme f 2 . d) est un espace m´trique localement compact s´parable. µ) muni du produit scalaire e e f. Ce r´sultat nous sera utile dans la ee e suite de ce chapitre. Le caract`re complet e e e e d´coule du th´or`me de Riesz. Φ(f ) = f. B(E). a e 2 En particulier. d) est un espace m´trique. L’in´galit´ de Cauchy-Schwarz montre que si f. B(E)). µ) les r´sultats classiques sur les espaces de Hilbert. A ⊂ U}.3. e e e (2) Si (E. Preuve. y ∈ E .1 Soit p ∈ [1. µ). g = est un espace de Hilbert (r´el). g .

e e Lemme 4. Par convergence domin´e. puisque µ est ext´rieurement r´guli`re. on pose ϕk (x) = (k d(x. pour tout k ≥ 1. Il est facile de d´duire du lemme que toute mesure de Radon µ sur E est ext´rieurement e e r´guli`re (ce qui a d´j` ´t´ vu. dans l’´nonc´ du th´or`me de repr´sentae e eae e e e e e e e tion de Riesz). et donc 1O − 1A p ε < . µ(A) < ∞.o` pour chaque n. 1 A − ϕk p p ε < . on peut appliquer la partie (2) du e e e th´or`me.3. pour tout n. |ϕn |p dµ ≤ |f |pdµ < ∞ et donc u e e ϕn ∈ Lp (ce qui pour une fonction ´tag´e ´quivaut ` ϕn ∈ L1 ). Alors il existe une e e suite croissante de compacts (Ln )n≥1 tels que. A ∈ B(E). A d´signe l’int´rieur de A. n→∞ (2) Il suffit de montrer que toute fonction ´tag´e int´grable est limite dans Lp de fonctions e e e lipschitziennes born´es. (3) On utilise le lemme suivant. 2 Ensuite. 0 ≤ ϕn ≤ f et ϕn est ´tag´e. sans d´monstration. On est ainsi ramen´ ` montrer que toute fonction f lipschitzienne born´e telle e e ea e 50 . 2 + 1 O − ϕk p ≤ 1A − 1O p < ε. On se ram`ne ais´ment au cas f = 1A . si A est un bor´lien de E. O c )) ∧ 1. On peut trouver un ouvert O contenant A tel que µ(O\A) < (ε/2)p . e a e Rappelons que si A est un sous-ensemble de E. le e e e a th´or`me de convergence domin´e donne e e e lim |f − ϕn |p dµ = 0.2 Soit E un espace m´trique localement compact s´parable. Ln ⊂Ln+1 et E = ◦ ◦ ◦ Ln = n≥1 n≥1 Ln . on peut en consid´rant la restriction de e e µ ` Ln (qui est une mesure finie) appliquer un r´sultat de r´gularit´ ext´rieure du chapitre a e e e e pr´c´dent et trouver pour chaque n un ouvert On ⊂ Ln tel que A∩ Ln ⊂ On et e e µ(On \(A∩ Ln )) ≤ ε 2−n . Puisque |f − ϕn |p ≤ f p . Soit e e e alors ε > 0. dont la preuve est repouss´e ` la fin de la d´monstration. ◦ ◦ ◦ ◦ ◦ n≥1 Ensuite. |1O − ϕk |p dµ −→ 0 quand k → ∞. La fonction ϕk est lipschitzienne et ϕk ↑ 1O quand k → ∞. Alors. Alors la r´union O des On est un ouvert de E et e µ(O\A) ≤ µ(On \(A∩ Ln )) ≤ ε. e et donc on peut choisir k assez grand pour que 1 O − ϕk Finalement. En effet.

De plus. ϕn. et on prend Ln+1 = e ¯ ¯ ¯ V1 ∪ V2 ∪ . ∪ Vp e de voisinages ouverts d’adh´rence compacte de points de Kn+1 ∪ Ln . ◦ Alors ϕn. on a e lim ◦ n→∞ (Ln )c |f |p dµ = 0. r) d´signe la boule ferm´e de centre x et de rayon r. et pour tout k ≥ 1.k)∈In ¯ B(xp . 2−k ) est compact}. Si on a e construit Ln . pour chaque n fix´. λ).k p ≤ f − f 1◦ Ln p + f 1 ◦ − f ϕn. en e Ln ´crivant e f − f ϕn. . . B(Rd ).que |f |p dµ < ∞ est limite dans Lp de fonctions lipschitziennes ` support compact (noter a que celles-ci sont automatiquement dans Lp ). Introduisons l’ensemble I de couples d’entiers d´fini par e ¯ I = {(p. Par convergence domin´e.k Ln p et en choisissant n puis k assez grands. on voit e a Ln p que pour chaque n fix´. D’autre part. ∪ Vp . I ´tant d´nombrable. soit e ϕn. on peut trouver une suite croissante de sous-ensembles e e finis In . On montre d’abord que E est r´union d’une suite croissante de come pacts (Kn )n≥1 . ∞[. n ≥ 1 de I tels que I soit la r´union des In . par convergence domin´e ` nouveau. ee e Ensuite. Pour p ∈ [1. k) ∈ N2 : B(xp . Cons´quences. 2−k ). B(Rd )). On peut remplacer λ par n’importe quelle mesure de Radon sur (Rd .k ≤ 1 ◦ .k Ln p ≤ f − f 1◦ Ln p + f ∞ 1 ◦ − ϕn. on construit la suite (Ln ) par r´currence sur n. . En utilisant le fait que E est u ¯ e e localement compact et la densit´ de la suite (xp ) il est facile de voir que e E= (p. soit (xp )p≥0 une suite dense dans E. et donc f − f 1 ◦ Ln p −→ 0. Finalement. 2−k ) pour avoir les propri´t´s recherch´es. on recouvre le compact Kn+1 ∪ Ln par une r´union finie V1 ∪ V2 ∪ .k qui est lipschitzienne ` support compact. Pour cela. on a : e (i) L’espace Cc (Rd ) des fonctions continues ` support compact sur Rd est dense dans a p L (Rd . (Ln )c ) ∧ 1. . On prend L1 = K1 .k)∈I ¯ B(xp . o` B(x. a Preuve du lemme. 51 .k ∈ Lp puisque ϕn.k converge vers 1 ◦ dans L quand k → ∞. on approche f dans Lp par la fonction f ϕn. Par ailleurs. Alors il suffit de poser e Kn = (p.k (x) = k d(x.

Si f ∈ L1 (R. A) telles que 52 . A).4. µ(A) = 0 ⇒ ν(A) = 0. νs ) de mesures σ-finies sur (E. d’o` le r´sultat voulu. f = p λj 1]xj . k+1 [ . e e a Exemple. ˆ sup |f(ξ) − ϕn (ξ)| = sup ˆ ξ∈R ξ∈R f (x)eixξ dx − ϕn (x)eixξ dx ≤ f − ϕn p 1 qui tend vers 0 quand n → ∞. Il e e existe alors un unique couple (νa . B(R). n n n k∈Z Application.4 Le th´or`me de Radon-Nikodym e e D´finition 4.(ii) L’ensemble des fonctions en escalier (` support compact) est dense dans Lp (R.xj+1 [ . |ξ|→∞ On se ram`ne par densit´ au cas o` f est une fonction en escalier : si f est limite dans L1 e e u d’une suite (ϕn ) de fonctions en escalier. λ). On dit que: e a (i) ν est absolument continue par rapport ` µ (notation ν ≪ µ) si ∀A ∈ A.1 (Radon-Nikodym) Soient µ et ν deux mesures σ-finies sur (E. B(R). a En effet il sufit de v´rifier que toute fonction f ∈ Cc (R) est limite dans Lp de fonctions en e escalier. λ). u e 4. Ensuite. on a j=1 ˆ f (ξ) = j=1 λj eiξxj+1 − eiξxj iξ |ξ|→∞ −→ 0. la mesure ν = f · µ d´finie par e ν(A) = A f dµ est absolument continue par rapport ` µ.1 Soient µ et ν deux mesures sur (E. (ii) ν est ´trang`re ` µ (notation ν ⊥ µ) s’il existe N ∈ A tel que µ(N) = 0 et ν(N c ) = 0. Cela se voit en ´crivant e f = lim n→∞ k f ( ) 1[ k . si f est en escalier. ˆ f(ξ) −→ 0.4. a Th´or`me 4. A). Si f est mesurable positive .

µ) et on sait alors qu’il existe une e fonction h ∈ L2 (E. Consid´rons alors l’application Φ : L2 (E. De plus. ⇒ L’in´galit´ de Cauchy-Schwarz montre que e e |Φ(f )| ≤ f 2 dν 1/2 f dν = f d˜. en prenant f = 1A . µ) telle que ∀f ∈ L2 (E. νa (A) = A g dµ et la fonction g est unique ` un ensemble de µ-mesure nulle pr`s. µ p. A. on suppose ν ≤ µ. µ({x : h(x) ≥ 1+ε}) ≥ ν({x : h(x) ≥ 1+ε}) = 53 {x:h(x)≥1+ε} hdµ ≥ (1+ε)µ({x : h(x) ≥ 1+ε}) . L’extension e u au cas σ-fini ne pr´sentera pas de difficult´. µ). En particulier. De plus. A.p. ν ν(E)1/2 ≤ f 2 dµ 1/2 ν(E)1/2 = ν(E)1/2 f L2 (µ) . e e Cas o` µ ≥ ν. Donc Φ est une forme lin´aire continue sur L2 (E. h dµ. Remarquons que l’int´grale a bien un sens puisque e |f |dν ≤ |f |dµ et on sait que pour une mesure finie L2 (µ) ⊂ L1 (µ).p.(1) ν = νa + νs . (2) νa ≪ µ et νs ⊥ µ. ⇒ f = f . On traite d’abord en d´tail le cas o` les deux mesures µ et ν sont finies. En effet. c’est-`-dire g dν ≤ g dµ u a pour toute fonction mesurable positive g. il existe une fonction mesurable g : E −→ R+ telle que ∀A ∈ A.p. µ) −→ e R d´finie par e Φ(f ) = f dν. Φ(f ) ne d´pend pas du e repr´sentant de f choisi pour calculer f dν : e ˜ ˜ f = f . A. Dans un premier temps. ν(A) = A Φ(f ) = f. h = f h dµ. ∀A ∈ A. ν p. a e Preuve. µ p. On peut aussi remarquer que 0 ≤ h ≤ 1. pour tout ε > 0. A.

Remarquons e que quitte ` remplacer h par (h ∨ 0) ∧ 1. on a ∀A ∈ A. On applique la premi`re partie de la preuve aux mesures ν et µ + ν. En particulier. pour toute fonction f mesurable born´e. et la repr´sentation annonc´e pour νa . Il existe e e e donc une fonction mesurable h telle que 0 ≤ h ≤ 1 et. νa ≪ µ. On montre de mˆme que h ≥ 0 µ p. Alors en prenant f = 1N . ee e e e e L’unicit´ du couple (νa . Enfin. f dν = Nc h o` g = 1N c 1−h . en rempla¸ant f par 1N c (1 − h)−1 f dans l’´galit´ e e a c ci-dessus. et on observe que ˜ e ee g dµ = νa ({˜ > g}) = ˜ g {˜>g} g {˜>g} g νa = 1N c · ν = g · µ g dµ. Si (˜a . on trouve que pour toute fonction f mesurable positive. f h dµ + f h dν En utilisant le th´or`me de convergence monotone. νs ) est un autre couple avec les propri´t´s e ν ˜ ee (1) et (2). La mesure νs = 1N · ν (∀A ∈ A. on a bien les propri´t´s (1) et (2) du th´or`me. pour obtenir l’unicit´ de g. νs (A) = ν(A ∩ N)) e e est donc ´trang`re ` µ. νs ) est facile. D’autre part. on a ˜ ˜ ˜ ˜ νs (A) − νs (A) = νs (A ∩ (N ∪ N )) − νs (A ∩ (N ∪ N )) = νa (A ∩ (N ∪ N )) − νa (A ∩ (N ∪ N )) = 0 ˜ ˜ ˜ ` cause de la propri´t´ νa ≪ µ. d’o` u {˜>g} g (˜ − g) dµ = 0 g 54 . νa (A) − νa (A) = νs (A) − νs (A). on se donne une a ee ˜ e autre fonction g avec la mˆme propri´t´. ˜ ˜ ˜ Mais comme νs et νs sont port´es respectivement par des ensembles N et N de µ-mesure ˜ e nulle. En posant u Nc f h dµ = 1−h f g dµ.p.ce qui implique µ({x : h(x) ≥ 1+ε}) = 0. on peut supposer 0 ≤ h(x) ≤ 1 pour tout x ∈ E. f dν = f h d(µ + ν). on voit que cette derni`re ´galit´ est e e e e e vraie pour toute fonction f mesurable positive. on voit que µ(N) = 0. Posons N = {x ∈ E : h(x) = 1}. a Cas g´n´ral. e f dν = d’o` u f (1 − h) dν = f h dµ. pour toute fonction f ∈ L2 (µ + ν).

remarquer que pour chaque x ∈ E il y a au plus une valeur de n e pour laquelle gn (x) > 0.p. n∈N n∈N n∈N (Dans la derni`re somme. u n e il est clair qu’on peut imposer cette derni`re condition). n n νn = νa + νs n c c o` νs ⊥ µn .p. on peut construire une partition mesurable d´nombrable (En )n∈N de E e de mani`re que µ(En ) < ∞ et ν(En ) < ∞ pour tout n. et νa = gn · µn .ce qui force g ≤ g. On obtient le r´sultat du th´or`me e e e e en posant n n νa = νa . g = gn . µ p. µ p. la fonction mesurable gn ´tant nulle sur En (puisque µn (En ) = 0. Notons µn la restriction de µ ` En e a et νn la restriction de ν ` En . ˜ e ˜ Il reste ` s’affranchir de l’hypoth`se suppl´mentaire que µ et ν sont finies. et par sym´trie g = g . En appliquant le d´but de la preuve on peut ´crire pour tout a e e n ∈ N.) La v´rification des propri´t´s d’unicit´ ne pr´sente pas de difficult´. Si µ et ν sont a e e seulement σ-finies. e ee e e e 55 . νs = νs .

56 .

1. A) et (F. Les ensembles de la forme A × B sont appel´s pav´s mesurables.) ou en th´orie des probabilit´s. ` savoir par exemple pour n = 3. B ∈ B). et soit f : G −→ E × F . convolution. (En . A ∈ A. . Proposition 5. . 57 .1 Si E et F sont deux espaces m´triques s´parables. Il est facile de v´rifier que e e e A⊗B est la plus petite tribu sur E ×F qui rende mesurables les deux projections canoniques π1 : E × F −→ E et π2 : E × F −→ F . on a e e B(E × F ) = B(E) ⊗ B(F ). Soit (G. On peut alors munir le produit E × F de la tribu-produit A ⊗ B = σ(A × B . e 5. Outre ses applications importantes en analyse e e (int´gration par parties. f2 (x)). le th´or`me de e e e e e Fubini est un outil essentiel pour le calcul effectif des int´grales. Notons f (x) = e (f1 (x). An ) : A1 ⊗ A2 ⊗ · · · ⊗ An = σ(A1 × · · · × An . etc. On a vu dans le Chapitre 1 que f est mesurable (E × F ´tant muni de la e tribu produit) ssi les deux applications f1 et f2 le sont. on peut construire sur e leur produit cart´sien une mesure appel´e la mesure produit. C) un troisi`me espace mesurable.Chapitre 5 Mesures produits Etant donn´ deux espaces mesurables munis chacun d’une mesure. ou bien dans l’ordre a inverse : c’est le fameux th´or`me de Fubini. B) deux espaces mesurables. De plus l’int´grale d’une e e e fonction d´finie sur l’espace produit peut ˆtre calcul´e en int´grant d’abord par rapport ` la e e e e a mesure sur le premier espace puis par rapport ` la mesure sur le second. A1). . ee e a (A1 ⊗ A2 ) ⊗ A3 = A1 ⊗ (A2 ⊗ A3 ) = A1 ⊗ A2 ⊗ A3 . . On ´tend facilement la d´finition de la tribu produit au cas d’un nombre fini quelconque e e d’espaces mesurables (E1 .1 G´n´ralit´s sur les espaces produits e e e Soient (E. Ai ∈ Ai ) et on a les propri´t´s d’“associativit´” attendues.

1. Alors. Cx ∈ B et pour tout y ∈ F . Th´or`me 5. est un ouvert de E. et pour tout y ∈ F .2 (i) Soit C ∈ A ⊗ B. fx est B-mesurable. Si u C ⊂ E × F . Soit V = {Vn .2 Construction de la mesure-produit Th´or`me 5. pour tout x ∈ E. on pose pour x ∈ E Cx = {y ∈ F : (x. 58 . et donc C = A ⊗ B. n. y. (ii) Soit f : E × F −→ G une application mesurable pour la tribu produit A ⊗ B. B). e 5. L’inclusion B(E × F ) ⊃ B(E) ⊗ B(F ) est vraie sans hypoth`se de s´parabilit´ : e e e elle d´coule de ce que les projections π1 et π2 sont continues donc mesurables pour la tribu e B(E × F ). contenant x. f y est A-mesurable. m ≥ 1}. C y = {x ∈ E : (x. Par ailleurs il est facile de v´rifier que C est une tribu. Il u en d´coule que O doit ˆtre r´union (au plus d´nombrable) d’une sous-famille de la famille e e e e {Un × Vm . resp. resp. Cx = B ou Cx = ∅ selon que x ∈ A e ou x ∈ A). Preuve.Preuve. e e C y ∈ A. y) ∈ C}. / e (ii) Pour toute partie mesurable D de G. B) sont deux espaces mesurables quelconques. e f y (x) = f (x. Donc tout ouvert de E × F est mesurable pour B(E) ⊗ B(F ) et cela entraˆ B(E × F ) ⊂ B(E) ⊗ B(F ). on observe qu’on peut trouver un ensemble d´nombrable d’ouverts e U = {Un . Si f est une fonction d´finie sur E × F . Alors. −1 fx (D) = {y ∈ F : (x. V . y) et pour y ∈ F .2. de F . on note pour x ∈ E. ıne On revient au cas o` (E. y) ∈ C} et pour y ∈ F . y). Dans l’autre sens. resp. y) ∈ f −1 (D)} = (f −1 (D))x qui est dans B d’apr`s (i). o` U.1 Soient µ et ν deux mesures σ-finies respectivement sur (E. Pour e tout ouvert O de E × F et tout z = (x. pour tout x ∈ E. A) et (F. Alors C contient les pav´s mesurables (si C = A × B. on sait que O contient un ouvert de la forme U × V . y) ∈ O. il suffit de prendre pour U les boules ouvertes de rayon rationnel centr´es en l’un des xk ). A) et sur e e (F. n ≥ 1} une famille analogue pour F . fx (y) = f (x. (i) Fixons x ∈ E et posons C = {C ∈ A ⊗ B : Cx ∈ B}. n ≥ 1} de E tels que tout ouvert de E soit r´union d’une sous-famille de U (si e (xk ) est une suite dense dans E.

Il existe une suite croissante An ∈ A. cela suffit e e pour dire que m = m′ . 59 . ∀B ∈ B. qui est stable par intersection finie e et engendre la tribu A ⊗ B. et est not´e m = µ ⊗ ν. et E = ∪An . Pour e e e e e e v´rifier que la formule (5. e (ii) Pour tout C ∈ A ⊗ B. pour tout n. ν((∪Cn )x ) = lim ↑ ν((Cn )x ). Existence. on a ν((C\C ′ )x ) = ν(Cx ) − ν(Cx ) (parce que ν est finie !) et si Cn est une suite croissante. m(Cn ) = µ(An )ν(Bn ) = m′ (Cn ) < ∞. (5. D’apr`s le lemme de classe monotone. A ⊗ B) telle que ∀A ∈ A. e Dans le cas g´n´ral o` ν n’est pas finie mais seulement σ-finie. ν(Cx ) = 1A (x)ν(B). on choisit la suite (Bn ) e e u comme ci-dessus et on peut remplacer ν par νn (B) = ν(B ∩ Bn ). D’apr`s une cons´quence du lemme de classe monotone vue dans le Chapitre 1. Supposons d’abord ν finie et posons G = {C ∈ A ⊗ B : x −→ ν(Cx ) est A-mesurable}. e resp. Preuve. Alors • G contient les pav´s mesurables : si C = A × B. ce qui donne la mesurabilit´ e e recherch´e pour l’application x −→ ν(Cx ). On pose pour tout C ∈ A ⊗ B. Alors. e ′ • G est une classe monotone : si C ⊂ C ′ . e eee e e e Alors.1) a bien un sens il faut aussi montrer que l’application x −→ ν(Cx ) e est A-mesurable. • pour tout n. n Soient m et m deux mesures sur A ⊗ B v´rifiant la propri´t´ ´nonc´e en (i) du th´or`me. m(A × B) = µ(A)ν(B) (avec la convention usuelle 0 · ∞ = 0). m(C) = E ′ ν(Cx ) µ(dx). Cette mesure est σ-finie.1) Remarquons que ν(Cx ) est bien d´finie pour tout x ∈ E d’apr`s le th´or`me pr´c´dent. telle que µ(An ) < ∞. on a donc G = A ⊗ B. µ(Bn ) < ∞. • m et m′ co¨ ıncident sur la classe des pav´s mesurables.(i) Il existe une unique mesure m sur (E × F. Unicit´. F = ∪Bn . si Cn = An × Bn . µ ⊗ ν(C) = ν(Cx ) µ(dx) = E F µ(C y ) ν(dy). pour obtenir que x −→ ν(Cx ) = lim ↑ νn (Cx ) est mesurable pour tout C ∈ A ⊗ B. on a aussi E×F = Cn . Bn ∈ B. resp. resp.

et µ = ν = λ. 60 . . Par ailleurs. . µn . (ii) Si on a maintenant n mesures σ-finies µ1 . les mˆmes arguments montrent que m′ est une mesure sur A⊗B qui v´rifie la mˆme propri´t´. B(R)). µ = λ et ν la mesure de comptage. et donc m n Cn = E ν n (Cn )x µ(dx) ν((Cn )x ) µ(dx) = E n = n E ν((Cn )x ) µ(dx) m(Cn ) n = l’interversion entre somme et int´grale ´tant justifi´e par un r´sultat du Chapitre 2. b] × [c. . d]. si on prend (E.Il est ensuite facile de montrer que m est une mesure sur A ⊗ B : si (Cn ) est une famille de parties disjointes dans A ⊗ B. . si on d´finit m′ par e m′ (C) = F µ(C y ) ν(dy). B) = (R. B(R)). on v´rifie facilement que λ ⊗ λ est e 2 la mesure de Lebesgue sur R (observer que la mesure de Lebesgue sur R2 est caract´ris´e e e par ses valeurs sur les rectangles [a. En e effet. L’ordre des parenth`ses n’a en fait pas d’importance car la mesure µ1 ⊗· · ·⊗µn est caract´ris´e e e e par ses valeurs sur les pav´s e µ1 ⊗ · · · ⊗ µn (A1 × · · · × An ) = µ1 (A1 ) . On en d´duit l’assertion (ii) du th´or`me. A) = (F. µn (An ). e Remarques. Exemple. Si (E. on peut d´finir le produit µ1 ⊗ · · · ⊗ µn e en posant µ1 ⊗ · · · ⊗ µn = µ1 ⊗ (µ2 ⊗ (· · · ⊗ µn )). A) = (F. les (Cn )x sont aussi disjoints pour tout x ∈ E. . (i) L’hypoth`se de σ-finitude est essentielle au moins pour la partie (ii). on remarque que pour C = {(x. e e e ee ′ ce qui d’apr`s l’unicit´ entraˆ m = m . ∞= ν(Cx ) λ(dx) = λ(C y ) ν(dy) = 0. toujours d’apr`s le lemme de classe monotone). e Ceci se g´n´ralise en dimension sup´rieure et montre qu’il aurait suffi de construire la mesure e e e de Lebesgue en dimension un. . e e e e Il est imm´diat que m v´rifie la propri´t´ e e ee m(A × B) = µ(A)ν(B). ce qui e e ıne e e e compl`te la preuve. x) : x ∈ R}. B) = (R.

e (ii) Pour f = 1C . y) µ(dx).3. Par e lin´arit´. A) et sur (F. si f est quelconque. Th´or`me 5. (i) Soit C ∈ A ⊗ B. On en d´duit par lin´arit´ le r´sultat voulu eaee e e e e e e quand f est ´tag´e positive. et de mˆme y −→ f (x.5. y)µ(dx) = µ(C y ) est B-mesurable. e e Nous passons maintenant au cas de fonctions de signe quelconque. ∞] une fonction mesurable. et le produit e e e E × F est muni de la tribu A ⊗ B. (i) Les fonctions x −→ y −→ f (x. y) ν(dy) µ(dx) = lim ↑ fn (x. o` les fonctions fn sont ´tag´es e u e e positives.1 (Fubini-Tonnelli) Soient µ et ν deux mesures σ-finies respectivement e e sur (E. y) ν(dy) µ(dx) E F par une double application du th´or`me de convergence monotone. et on utilise le fait qu’alors f (x. on peut ´crire f = lim ↑ fn . Si f = 1C . l’´galit´ annonc´e est e e e µ ⊗ ν(C) = ν(Cx ) µ(dx) = E F fn (x. y)ν(dy) = ea ν(Cx ) est A-mesurable.3 Le th´or`me de Fubini e e On commence par donner l’´nonc´ qui concerne les fonctions positives. On conserve les hypoth`ses du th´or`me pr´c´dent. on en d´duit que le r´sultat de (i) est vrai pour toute fonction ´tag´e positive. B). on consid`re deux espaces mesurables (E. E F f (x. y) ν(dy) f (x. y) µ(dx) ν(dy). y) ν(dy) µ(C x ) ν(dy) et a d´j` ´t´ vue dans le paragraphe pr´c´dent. et soit f : E × F −→ [0. A) et (F. on a d´j` vu que la fonction x −→ f (x. e e e e e 61 . y) µ(dx) sont respectivement A-mesurable et B-mesurable. (ii) On a f dµ ⊗ ν = f (x. e e e e e e Enfin. E×F Preuve. Comme dans le e e paragraphe pr´c´dent. y) ν(dy) = lim ↑ et de mˆme pour f (x. B). puis par limite croissante pour f quelconque : on remarque par e e exemple que si f = lim ↑ fn . y) ν(dy) µ(dx) = E F F E f (x.

(c) On a f dµ ⊗ ν = f (x. y) µ(dx) ν(dy) 62 . ν). y)| ν(dy) µ(dx) = |f | dµ ⊗ ν < ∞. est dans L1 (F. y) ν(dy) µ(dx) = E F F E f (x.p. E×F Preuve. (a) En appliquant le th´or`me pr´c´dent ` |f |. y) ν(dy) µ(dx) = E F E×F Remarque. y)| ν(dy) µ(dx) = |f | dµ ⊗ ν < ∞.Th´or`me 5. ıne F |f (x. µ) et L1 (F. ν(dy) p. f − (x. µ ⊗ ν)). y) ν(dy) µ(dx) = E F E×F f + dµ ⊗ ν f − dµ ⊗ ν. y) est dans L1 (F. y) ν(dy) est mesurable (pour ˆtre pr´cis. cela entraˆ que µ(dx) p. A ⊗ B. De plus. y)| ν(dy) < ∞ et donc la fonction y −→ f (x.p. (b) Les fonctions x −→ f (x. B. µ ⊗ ν) (ou f ∈ L1 (E × e e C F. il faudrait donner une valeur arbitraire. qui forment un ensemble e de mesure nulle). la fonction y −→ f (x.2 (Fubini-Lebesgue) Soit f ∈ L1 (E × F. Alors (a) µ(dx) p. y) ν(dy) et y −→ f (x. ν). A. y) ν(dy) = f + (x. y) ν(dy) µ(dx) ≤ |f (x. e e e e a E F |f (x. ν). la fonction x −→ f (x. bien d´finies sauf sur un e 1 ensemble mesurable de mesure nulle. on voit que e e e e e x −→ f (x. µ). ` e e a l’int´grale f (x.p. B. E F E F (c) Il suffit de faire la diff´rence terme ` terme dans les ´galit´s e a e e f + (x. y)| ν(dy) = ∞. dont on sait d´j` qu’elle est mesurable. par exemple 0. y). f (x. y) µ(dx).3. sont respectivement dans L (E. Il peut arriver en effet que les propri´t´s e ee (a) et (b) soient toutes les deux satisfaites. A ⊗ B. A. y) ν(dy) − f − (x. et donc que les quantit´s e f (x. y) ν(dy) µ(dx) et E F F E f (x. y) est dans L1 (E. y) µ(dx) ν(dy). L’hypoth`se f ∈ L1 (µ⊗ν) est cruciale. B. ea + − (b) En ´crivant f = f − f et en utilisant le th´or`me pr´c´dent. y) ν(dy) pour les x tels que |f (x.

pour tout y ∈]0.1] 0 e−2xy dy − e−xy dy = 0 e−x − e−2x . il faut s’assurer que |f | dµ ⊗ ν < ∞ ce qui se fait le plus souvent en appliquant le cas des fonctions positives. y) ∈]0. x Evidemment dans cet exemple on a ]0. E F 5. et que dans le cas de fonctions de signe e quelconque. sans que ces quantit´s soient ´gales. y) dx dy = 0 ]0. cone e e sid´rons la fonction e f (x. Pour donner un exemple. 1].∞[ ∞ 0 alors que f (x. Lorsque l’application du th´or`me de Fubini est justifi´e (et seulement dans ce e e e cas). y) dx = 2 ]0. x F (x) = 0 x f (t) dt g(t) dt. En pratique.∞[ ]0.4 5. 1]. ∞[×]0. on omet souvent les parenth`ses et on ´crit e e f dµ ⊗ ν = f (x. x On voit alors que f (x. 0 = [0.0] si x < 0 si x ≥ 0 G(x) = 63 . y)| dxdy = ∞.4. Alors.1] e−x − e−2x dx > 0. On pose pour x ∈ R.1 Applications Int´gration par parties e Soient f et g deux fonctions mesurables de R dans R localement int´grables (i.soient bien d´finies.x] f (t) dt f (t) dt − [x. il faut se souvenir que l’application du th´or`me de Fubini est toujours e e justifi´e pour des fonctions mesurables positives. y)dy dx = ]0. 1 f (x.1[ |f (x. y) µ(dx)ν(dy). y)dy = 2 ]0. y) = 2e−2xy − e−xy d´finie pour (x. e f (x.∞[×]0. Notation. int´grables e e sur tout compact pour la mesure de Lebesgue).∞[ 0 ∞ e −2xy dx − 1 ∞ e−xy dx = 0 0 et pour tout x > 0.1] ]0.e.

b] 5. Dans la troisi`me ´galit´ on a appliqu´ le th´or`me de Fubini-Lebesgue ` la fonction e e e e e e a ϕ(s. t) = 1{s≤t} f (t)g(s) en observant que. l’invariance de la mesure de Lebesgue par translation et par la sym´trie y → −y e entraˆ aussitˆt que g ∗ f (x) est bien d´finie et g ∗ f (x) = f ∗ g(x). t)|dsdt ≤ |f (t)||g(s)|dsdt = |f (t)|dt |g(s)|ds < ∞. grˆce au th´or`me de Fubini-Tonnelli.4. b b F (b)G(b) = F (a)G(a) + a f (t)G(t)dt + a F (t)g(t)dt. ıne o e 64 .b] [a. la convolution f ∗ g(x) = est bien d´finie ` condition que e a |f (x − y)g(y)| dy < ∞. a e e |ϕ(s. [a.2 Convolution Si f et g sont deux fonctions mesurables sur Rd . f (x − y)g(y) dy Rd Rd Dans ce cas. on ´crit e e e e e b a b t f (t)(G(t) − G(a)) dt = = f (t) a b a b a b a b b a g(s)ds dt 1{s≤t} f (t)g(s)ds dt 1{s≤t} f (t)g(s)dt ds b = a = a b g(s) s f (t)dt ds = a g(s)(F (b) − F (s))ds.b]2 [a.Alors. On voit facilement que cette ´galit´ ´quivaut ` e ee a b a b f (t)(G(t) − G(a)) dt = a (F (b) − F (t))g(t) dt. pour tous a < b. Pour ´tablir cette derni`re ´galit´.b]2 [a.

pour tout x ∈ R .4. ∞] tels que p + 1 = 1. De plus. on utilise encore le calcul pr´c´dent pour e e e ´crire e Rd |f ∗ g(x)|dx ≤ Rd Rd |f (x − t)||g(t)|dt dx = f 1 g 1 < ∞.1 Soient f.3 Notons σx (y) = y − x.4. Pour la seconde. Alors. g ∈ L1 (Rd . p ∈ [1. Pour Lemme 5. e e e |f (x − t)||g(t)|dt dx = = Rd Rd Rd Rd Rd |f (x − t)||g(t)|dx dt Rd |g(t)| |f (x − t)|dx dt Rd = < ∞ ce qui montre que Rd Rd |g(t)|dt |f (x)|dx |f (x − t)||g(t)|dt < ∞ dx p. p Rd Cela donne la premi`re assertion et montre aussi que f ∗ g est born´e par f e e l’uniforme continuit´. e Preuve. ∞[. Pour f ∈ Lp (Rd . on utilise le lemme suivant. λ). 1 Proposition 5. λ). e g q . e 65 . B(Rd ). la convolution f ∗ g(x) est bien d´finie. λ). B(Rd ).2 Soit p ∈ [1. e Remarque.Proposition 5. B(R ). la convolution f ∗ g(x) est bien d´finie et f ∗ g est uniform´ment continue et born´e sur Rd . Cela a bien un sens de dire qu’une fonction d´finie λ presque partout est dans e L1 (λ) : on peut choisir de mani`re arbitraire le prolongement sur l’ensemble o` la fonction e u n’est pas d´finie. Alors. L’in´galit´ de H¨lder donne e e o |f (x − y)g(y)| dy ≤ |f (x − y)|pdy 1/p g q = f p g q. et donne la premi`re assertion. λ) et g ∈ L (R . et soit q ∈]1. e e e Preuve. Soient f ∈ q p d d q d d d L ((R . D’apr`s le th´or`me de Fubini-Tonnelli. λ). f ∗ g ∈ L1 (λ) et f ∗ g 1 ≤ f 1 g 1.4. La proposition suivante donne un autre cadre dans lequel on peut consid´rer la convolue tion de f et g. pour λ presque tout x ∈ Rd . B(Rd ). l’application x −→ f ◦ σx est uniform´ment continue de Rd dans Lp (Rd . ∞[.p. B(R ).

|f ◦ σx − f ◦ σy |p dλ = |f (z − x) − f (z − y)|pdz = |f (z) − f (z − (y − x))|p dz qui tend vers 0 quand y − x → 0 par convergence domin´e.Si on admet le lemme. x ∈ Rd . p + fn ◦ σy − f ◦ σy p Pour ε > 0. la constante c > 0 ´tant choisie pour que la condition e 66 On peut mˆme s’arranger pour que les fonctions ϕn soient de classe C ∞ : prendre par e exemple 1 1{|x|<1}. ϕ(x) = c exp − 1 − |x|2 ϕ(x)dx = 1 soit satisfaite. x′ ∈ Rd . • Pour tout n. Preuve du lemme. ϕn ≥ 0 et Rd approximation de δ0 si : ϕn (x) dx = 1. Si ϕ : Rd −→ R+ est une fonction continue ` support compact telle que ϕ(x)dx = 1. Dans le cas g´n´ral. Approximations de la mesure de Dirac. Alors. il est facile de compl´ter la preuve de la proposition : pour e x. {|x|>δ} Il est facile de construire des approximations de δ0 . |f ∗ g(x) − f ∗ g(x′ )| ≤ ≤ = g g |f (x − y) − f (x′ − y)||g(y)| dy q q |f (x − y) − f (x′ − y)|pdy f ◦ σ−x − f ◦ σ−x′ p 1/p et on utilise le lemme pour dire que f ◦ σ−x − f ◦ σ−x′ p tend vers 0 quand x − x′ tend vers 0. il suffit de poser a ϕn (x) = nd ϕ(nx) . Les in´galit´s pr´c´dentes montrent alors que f ◦ σx − f ◦ σy p ≤ ε e e e e si |x − y| < δ. • Pour tout δ > 0. . Supposons d’abord f ∈ Cc (Rd ). on peut e e e d p trouver une suite fn ∈ Cc (R ) qui converge vers f dans L (λ) (cf Chapitre 4). Alors f ◦ σx − f ◦ σy p ≤ f ◦ σx − fn ◦ σx p + fn ◦ σx − fn ◦ σy = 2 f − fn p + fn ◦ σx − fn ◦ σy p . puis δ > 0 tel que fn ◦ σx − fn ◦ σy p ≤ ε/2 si |x − y| < δ. on choisit d’abord n tel que f − fn p < ε/4. On dit qu’une suite ϕn dans Cc (Rd ) est une • Il existe un compact K tel que supp(ϕn ) ⊂ K pour tout n. n→∞ lim ϕn (x) dx = 0.

on a ϕn ∗ f −→ f dans Lp . (ii) Si f ∈ Lp (Rd . avec p ∈ [1. a] et [b. Preuve. En dimension d = 1. en ´crivant ae e ϕn ∗ f (x) = f (x − y)ϕn (y)dy + f (x − y)ϕn(y)dy |y|≤δ |y|>δ et en utilisant la continuit´ de f . λ). Pour la partie (ii). uniform´ment sur tout e compact. et e on voit que f est limite uniforme sur [a. ∞[. Alors. b] un intervalle contenu u dans ]0. e |ϕn ∗ f (x) − ϕn ∗ g(x)|p dx ≤ ≤ = = ϕn (x − y)|f (y) − g(y)|dy p dx ϕn (x − y)|f (y) − g(y)|pdy dx |f (y) − g(y)|p |f (y) − g(y)|pdy ϕn (x − y)dx dy o` la deuxi`me in´galit´ est une cons´quence de l’in´galit´ de Jensen (observer que ϕn (x − u e e e e e e y)dy est une mesure de probabilit´). et alors le r´sultat d´coule de (i) et du th´or`me de convergence domin´e. B(Rd ).4.3 Calcul du volume de la boule unit´ e On note ici Bd la boule unit´ ferm´e de Rd .4 Soit (ϕn ) une approximation de δ0 . b]. on observe que si f. b]. e e e e e Application.Proposition 5. et λd la mesure de Lebesgue sur Rd . 1]. 1[. La partie (i) est facile ` ´tablir. et soit f une fonction continue sur [a. on peut prendre ϕn (x) = cn (1 − x2 )n 1{|x|≤1} o` la constante cn est choisie pour que ϕn (x)dx = 1. 1] (prendre par exemple f a affine sur les intervalles [0.4. λ). (i) Si f : Rd −→ R est continue. g ∈ Lp (Rd . on a ϕn ∗ f −→ f quand n → ∞. on peut clairement enlever l’indicatrice 1{|x−y|≤1} . b]. λd (a−1 A) = a−d λd (A) 67 . Pour x ∈ [a. ϕn ∗ f (x) = cn (1 − (x − y)2 )n 1{|x−y|≤1} f (y)dy −→ f (x) uniform´ment sur [a. l’image de λd par l’application x −→ ax est a−d λd : pour tout A ∈ B(Rd ). o e e 5. On peut facilement prolonger f en une fonction continue sur R et ` support compact contenu dans [0. b] de polynˆmes (th´or`me de Stone-Weierstrass). Cette majoration permet de se ramener au cas o` e u d f ∈ Cc (R ). Soit alors [a. En vue de e e calculer γd = λd (Bd ) on observe d’abord que pour tout a > 0.

d A partir des cas particuliers γ1 = 2. γ2 = γ1 I1 = π. Γ( d + 1) 2 68 . si d ≥ 2. . . pour d ≥ 3. n+1 En utilisant les cas particuliers I0 = 2.(il suffit de le v´rifier lorsque A est un pav´. on en d´duit par r´currence que pour tout e e d ≥ 2. Une int´gration par parties simple montre que pour n ≥ 2. e e e γd = Rd 1Bd (x)dx = = Rd 1 −1 1 1{x2 +···+x2 ≤1} dx1 . dxd 1 d Rd−1 1{x2 +···+x2 ≤1−x2 } dx1 . 2π . . et alors c’est ´vident). dxd−1 dxd 1 d d−1 1 − x2 Bd−1 dxd d = −1 λd−1 1 −1 = γd−1 (1 − x2 )(d−1)/2 dxd d = γd−1 Id−1 ` condition de poser pour tout entier n ≥ 0. on en d´duit e γ2k = πk . e γd = Id−1 Id−2 γd−2 = 2π γd−2 . k! γ2k+1 = πk 1 (k + 2 )(k − 1 ) · · · 3 · 2 2 1 2 ce qu’on peut regrouper dans la formule γd = π d/2 . Id−1 Id−2 = d En cons´quence. e e e λd (aBd ) = ad λd (Bd ). . e In = n In−2 . I1 = π/2. Ensuite on ´crit en utilisant le th´or`me de Fubini. En particulier. a 1 In = −1 (1 − x2 )n/2 dx.

pouvant prendre e e e e e aussi bien des valeurs n´gatives que des valeurs positives. Preuve. Par d´finition.1. 6.1 D´finition et variation totale e D´finition 6. la s´rie e µ(An ) n∈N converge absolument. on ´tablit un th´or`me important d’analyse fonctionnelle. A) un espace mesurable. et pour tout A ∈ A. A) est une e e application µ : A −→ R telle que µ(∅) = 0 et que pour toute famille (An )n∈N d’´l´ments ee disjoints de A. qui fournit une ´criture minimale d’une telle mesure sign´e e e e comme la diff´rence de deux mesures positives port´es par des ensembles mesurables disjoints. Soit (Bi )i∈N une famille de parties mesurables disjointes.1. et B = i∈N Bi . Alors |µ| est une mesure positive finie sur (E. posons e e e |µ|(A) = sup n∈N |µ(An )| : A = An . Une mesure sign´e µ sur (E. An disjoints n∈N o` le supremum porte sur toutes les ´critures de A comme r´union d’une famille d´nombrable u e e e (An )n∈N de parties mesurables disjointes. qui affirme e e e que pour deux exposants p et q conjugu´s ( 1 + 1 = 1) l’espace Lq est le dual topologique de e p q p L.1 Soit µ une mesure sign´e sur (E.1 Soit (E. A). si ti ∈ [0. A). et µ n∈N An = n∈N µ(An ). e e A titre d’application. on consid`re ici des mesures sign´es. Le r´sultat principal de ce chapitre e e est la d´composition de Jordan. |µ(A)| ≤ |µ|(A). |µ|(Bi)[ (ou ti = 0 e 69 . Th´or`me 6.Chapitre 6 Mesures sign´es e A la diff´rence des chapitres pr´c´dents. On montre d’abord que |µ| est une mesure positive. Pour tout A ∈ A.

i∈N est une partition d´nombrable de B. soit (An )n∈N une partition de B.i )n.1. ce qui n’est pas forc´ment le cas ici. Alors e e |µ(An )| = ≤ = i∈N n∈N n∈N n∈N | i∈N µ(An ∩ Bi )| n∈N i∈N |µ(An ∩ Bi )| |µ(An ∩ Bi )| ≤ i∈N |µ|(Bi). on peut trouver une partition mesurable A = c n∈N An de A de fa¸on que |µ(An )| > 2(1 + |µ(A)|).dans le cas |µ|(Bi ) = 0). on peut trouver une partition1 mesurable Bi = que |µ(An. il en d´coule que e e |µ|(B) ≥ i∈N |µ|(Bi). la derni`re in´galit´ d´coulant du fait que les An ∩ Bi . e 70 .i)| ≥ ti . n∈N n∈N An. on e trouve |µ|(B) ≤ |µ|(Bi ) i∈N ce qui ach`ve de montrer que |µ| est une mesure positive. En prenant le supremum sur les partitions (An )n∈N de B.i| ≥ ti . e Comme l’in´galit´ |µ(A)| ≤ |µ|(A) est imm´diate. il reste ` ´tablir que |µ| est une mesure e e e ae finie. Lemme 6. alors il existe deux parties mesurables disjointes B et C telles que A = B ∪ C et |µ(B)| > 1. e e e e et de la d´finition de |µ|(Bi ). de fa¸on c Alors (An. |µ|(C) = ∞. Preuve du lemme. n∈N 1 On fait un abus de langage puisque dans la d´finition usuelle d’une partition les ´l´ments de la partition e ee sont tous non vides. Puisque |µ|(A) = ∞.i . Pour obtenir l’in´galit´ inverse. i∈N i∈N n∈N Puisque les ti peuvent ˆtre choisis arbitrairement proches des |µ|(Bi ). et donc e |µ|(B) ≥ |µ(An.2 Si A ∈ A est tel que |µ|(A) = ∞. n ∈ N forment une partition de Bi .

ν). En appliquant de mˆme le lemme ` C0 on trouve B1 et C1 disjoints tels que e a C0 = B1 ∪ C1 . A. Alors la formule ν(A) = A g dν d´finit une mesure sign´e. Par r´currence. Alors. A). En effet. |µ(C)| = |µ(A) − µ(B)| ≥ |µ(B)| − |µ(A)| > 1. si A est la r´union disjointe d’une suite (An ) de parties e e e mesurables. On pose alors e e B= {n:µ(An )>0} An de fa¸on que c µ(B) = n∈N µ(An )+ > 1 + |µ(A)|. ce qui donne le r´sultat du lemme quitte ` ´changer les rˆles de B et C si e a e o n´cessaire.On a alors par exemple n∈N µ(An )+ > 1 + |µ(A)| (le cas sym´trique e n∈N µ(An )− > 1 + |µ(A)| se traite de la mˆme mani`re). on peut trouver des parties mesurables disjointes B0 et C0 avec |µ(B0 )| > 1 et |µ|(C0) = ∞. Soit ν une mesure positive sur (E. d’apr`s la d´finition d’une mesure sign´e. On suppose que |µ|(E) = e e e ∞. l’´galit´ e e µ(A) = µ(An ) n∈N est obtenue en observant que g 1A = lim g 1∪n≤k An k→∞ dans L1 . Cela contredit le fait que la s´rie e µ(Bn ) n∈N doit converger absolument. telle que |µ(Bn )| > 1 pour tout n. |µ(B1 )| > 1 et |µ|(C1) = ∞. e Nous pouvons maintenant compl´ter la preuve du th´or`me. e e e |µ|(E) < ∞. Nous verrons plus loin que dans ce cas |µ| = e e e e |g| · ν. Par ailleurs. On conclut que Exemple. puisque A = B ∪ C et que |µ| est une mesure on doit avoir |µ|(B) = ∞ ou |µ(C)| = ∞. si C = A\B. et soit g ∈ L1 (E. d’apr`s le th´or`me de convergence domin´e. on construit ainsi une suite de e parties mesurables disjointes (Bn )n∈N . 71 . De plus.

µ = µ+ − µ− et |µ| = µ+ + µ− . ` B c ). µ .1 Soit µ une mesure sign´e sur (E. e e 72 . De plus.2 La d´composition de Jordan e 1 µ+ = (µ + |µ|). et l’in´galit´ inverse est triviale. µ . on v´rifie imm´diatement que les formules e e e d´finissent deux mesures positives finies sur (E. resp. et donc |µ|(Er ) = 0. unique ` un ensemble de |µ|-mesure nulle pr`s. Puisque µ+ ≤ |µ| et µ− ≤ |µ|. e Th´or`me 6. µ+ (A) = µ+ (A ∩ B) = µ(A ∩ B) .p. et soit e e e (An )n∈N une partition mesurable de Er = {x ∈ E : |h1 (x) − h2 (x)| ≤ r}. est la restriction de |µ| ` B. soit r < 1. 2 1 − µ = (|µ| − µ). A). De plus. on a alors. Si h = h1 − h2 .6. e e a a on a pour tout A ∈ A. Il est facile de d´duire de cette ´galit´ que |h1 − h2 | = 1. Preuve. resp. et donc les mesures µ+ et e e − µ sont absolument continues par rapport ` |µ|. |µ|(A) = µ+ (A ∩ B) + µ− (A ∩ B c ). On v´rifie imm´diatement que µ+ ≤ |µ| et µ− ≤ |µ|. e µ(A) = µ+ (A ∩ B) − µ− (A ∩ B c ). En cons´quence. En effet. on sait que 0 ≤ h1 ≤ 1 et 0 ≤ h2 ≤ 1. De la d´finition de |µ|. Alors. Comme e e cela est vrai pour tout r < 1. Alors n∈N |µ(An )| = ≤ ≤ n∈N An (h1 − h2 )d|µ| n∈N An |h1 − h2 |d|µ| n∈N r |µ|(An ) = r |µ|(Er ). 2 Soit µ une mesure sign´e sur (E. telle que µ+ = 1B · |µ| et µ− = 1Bc · |µ| a e + − (de mani`re ´quivalente. A). (h1 − h2 ) d|µ|. on a |h1 − h2 | ≥ 1 µ p. |µ| p. pour tout A ∈ A. Il existe une partie mesurable B de e e e E.2. e e e a il existe deux fonctions mesurables positives (finies) h1 et h2 telles que µ+ = h1 · |µ| et µ− = h2 · |µ|. D’apr`s le th´or`me de Radon-Nikodym. il d´coule alors que |µ|(Er ) ≤ r |µ|(Er ). A).p. µ(A) = µ+ (A) − µ− (A) = A µ− (A) = µ− (A ∩ B c ) = −µ(A ∩ B c ).

Preuve. e en posant h = 1B − 1Bc .. Alors |µ| = |g| · ν.p. |µ| p. De plus. ou bien h1 (x) = 1 et h2 (x) = 0. f dµ+ − f dµ− = f (1B − 1Bc )d|µ|. Donc gh = |gh| = |g|. En prenant A = {x ∈ E : g(x)h(x) < 0}. Cela donne les ´galit´s µ = 1B · |µ| et µ = 1Bc · |µ|. on a pour tout A ∈ A : e e e e |µ|(A) = µ(A ∩ B) − µ(A ∩ B c ) = A∩B gdν − gdν = A∩B A gh dν. A.p. e a e 1 Si f ∈ L (E. On pose alors B = {x ∈ E : h1 (x) = 1}. A. D’apr`s ce qui pr´c`de on a h1 = 1B et e e e + − e e e h2 = 1Bc . 0 ≤ h2 ≤ 1 et |h1 − h2 | = 1 |µ| p. Avec les notations du th´or`me pr´c´dent. Si µ = µ1 − µ2 est une autre d´composition de µ comme diff´rence de deux e e + − mesures positives finies. entraˆ ee ınent que |µ|(dx) p. e µ1 (A) ≥ µ1 (A ∩ B) ≥ µ(A ∩ B) = µ+ (A ∩ B) = µ+ (A).p. on a n´cessairement µ1 ≥ µ et µ2 ≥ µ . on d´finit e f dµ := Il est alors imm´diat que e f dµ ≤ |f |dµ.2. et soit µ la mesure sign´e d´finie par e e µ(A) = A gdν.p. A. pour toute fonction f ∈ L1 (E. A). ν). soit g ∈ L1 (E.2 Soit ν une mesure positive sur (E. d’o` e e u |µ|(A) = Ensuite. ν)). En effet. Int´gration par rapport ` une mesure sign´e. |µ|). on d´duit facilement de cette ´galit´ que gh ≥ 0. ou bien h1 (x) = 0 et h1 (x) = 0. A. ν p. Les autres e e e e e propri´t´s de l’´nonc´ sont ensuite facilement ´tablies. on a f g ∈ L1 (E. L’unicit´ de B est une cons´quence de l’unicit´ de la densit´ dans le th´or`me de Radon-Nikodym. |µ|). Proposition 6. ν p. et f dµ = f g dν. ee e e e Remarque.Les propri´t´s 0 ≤ h1 ≤ 1.p. on a |f |d|µ| = 73 |f | |g|dν A |g|dν. .

(ii)⇒(i) est ´vident. Il reste ` montrer (iii)⇒(ii). Montrons (i)⇒(iii). et e donc le th´or`me de Radon-Nikodym pour les mesures positives permet d’´crire µ+ = g1 · ν e e e et µ− = g2 · ν avec g1 . Th´or`me 6. µ(A) = A ν(A) ≤ δ ⇒ |µ|(A) ≤ ε. ν) telle que : ∀A ∈ A.et donc f ∈ L1 (|µ|) ⇒ f g ∈ L1 (ν). si ε > 0 est fix´. on aussi µ+ ≪ ν et µ− ≪ ν. pour tout A ∈ A tel que ν(A) < δ. (iii) Il existe g ∈ L1 (E. Le e u e e e + − th´or`me de convergence domin´e appliqu´ ` µ . De a e e e plus. (ii) Pour tout ε > 0. g2 ≥ 0. gdν. g1 dν = µ+ (E) < ∞ et g2 dν = µ− (E) < ∞. il existe δ > 0 tel que ∀A ∈ A. on peut choisir N assez grand de fa¸on que e c ε |g| dν < . µ et ν donne le r´sultat voulu. le th´or`me de convergence domin´e entraˆ que e e e ıne n→∞ lim {|g|≥n} |g| dν = 0. Donc. e e e ea e Le th´or`me de Radon-Nikodym pour les mesures sign´es. et soit µ une mesure sign´e. o` les fonctions fn sont ´tag´es et domin´es en valeur absolue par |f |. |µ|(A) = A |g|dν ≤ {|g|≥N } |g| dν + A∩{|g|<N } |g| dν ≤ ε ε +N = ε. Les trois e e e propri´t´s suivantes sont ´quivalentes : ee e (i) µ ≪ ν . Si µ ≪ ν. 2 {|g|≥N } Alors. en prenant δ = ε/(2N).3 Soit µ une mesure sign´e et soit ν une mesure positive σ-finie. e e e Soit ν une mesure positive. on a. g´n´ral. On obtient ainsi (iii) avec g = g1 − g2 . Dans le cas. on a |µ| = |g| · ν. D’apr`s la proposition pr´c´dente. A. Preuve. 2 2N 74 . ν(A) = 0 ⇒ µ(A) = 0.2. on utilise le fait qu’on peut e e e e e ´crire f = lim fn . L’´galit´ e e f dµ = f g dν est vraie par d´finition si f est ´tag´e. On dit que µ est absolument e continue par rapport ` ν (notation : µ ≪ ν) si a ∀A ∈ A.

Soit (An )n∈N une famille d´nombrable de parties mesurables disjointes. soit p ∈ [1. On voit aussi que la norme op´rateur de Φg . A. e e e e Th´or`me 6. On commence par v´rifier que µ est une mesure e sign´e sur (E. ∞[ et soit q l’exposant e e conjugu´ de p. A. la th´orie des espaces de Hilbert nous dit d´j` que la e ea r´ponse est oui). l’in´galit´ de H¨lder montre e e e e o d’une part que Φg (f ) est bien d´finie. A). Nous verrons en remarque que e e cette propri´t´ ne subsiste pas dans le cas p = ∞. posons µ(A) = Φ(1A ). Supposons d’abord ν(E) < ∞. e La question est alors de savoir si l’on obtient ainsi toutes les formes lin´aires continues e p sur L (E. ν). 1 An n≤k 75 . Aves les notations pr´c´dant le th´or`me. f p ≤1 v´rifie Φg ≤ g q . si on fixe g ∈ L (E.3 La dualit´ Lp − Lq e Soit ν une mesure positive sur (E. ∞] et soit q l’exposant conjugu´ de p. A). on a e e 1A = lim k→∞ f g dν.3. ν). la formule Φg (f ) = f g dν d´finit une forme lin´aire continue sur Lp (E. si Φ est une forme lin´aire continue sur Lp (E. il existe une e e unique g ∈ Lq (E. A. ee Preuve. pour toute f ∈ Lp (E. e e Si A d´signe la r´union des An . ν) tel que.1 Soit ν une mesure σ-finie sur (E. d´finie par e e Φg = sup |Φg (f )|. Alors. pour tout A ∈ A. muni de la norme op´rateur). e q Alors. ν). A. Soit p ∈ [1. A. En effet. A. Φ(f ) = De plus la norme op´rateur de Φ est e Φ = g q.6. ν). Alors. d’autre part que e |Φg (f )| ≤ Cg f p avec Cg = g q . on voit que l’application g −→ Φg permet e e e e d’identifier Lq (ν) au dual topologique de Lp (ν) (c’est `-dire ` l’espace vectoriel des formes a a p lin´aires continues sur L (ν). ν) (dans le cas p = q = 2. Le th´or`me suivant donne la r´ponse lorsque p < ∞. ce qui a bien un sens puisque 1A ∈ Lp (ν). A).

A gdν = |Φ(1A )| ≤ Φ 1A 1 = Φ ν(A) ce qui entraˆ facilement que |g| ≤ Φ . e e Montrons maintenant que g ∈ Lq (ν). ν) telle que e e e e ∀A ∈ A . • Si p ∈]1. A. Donc µ ≪ ν et le th´or`me pr´c´dent montre qu’il existe une fonction g ∈ L1 (E. on a e µ(An )+ = n n ′ µ(An ) = lim k→∞ n≤k µ(A′n ) = µ(A′ ) < ∞. ∞[. et donc g ∞ ≤ Φ . Comme fn est born´e. (pour le voir consid´rer A = {g > ıne e Φ + ε} ou A = {g < − Φ − ε}). ν) et donc µ(A) = Φ(1A ) = 0. on a e |g|q dν = fn g dν = Φ(fn ) ≤ Φ fn p = Φ En En |g|q dν 1/p . A.p. puis lorsque f est seulement mesurable born´e e e e e e p puisqu’une telle fonction est limite uniforme (donc dans L (ν) parce que ν est finie) de fonctions ´tag´es. q En faisant tendre n vers ∞. on obtient ainsi e µ(A) = lim Φ k→∞ n≤k 1An = lim k→∞ µ(An ). puis fn = 1En |g|q−1signe(g).dans Lp (ν) (par convergence domin´e. facilement justifi´e puisque la fonction 1 est dans e e Lp (ν)). on pose En = {x ∈ E : |g(x)| ≤ n}. ν p. alors pour tout A ∈ A. En utilisant la continuit´ de Φ. on a 1A = 0 dans L (E. et A la r´union des A′n . on trouve par convergence monotone que g 76 ≤ Φ . . Une fois acquise la convergence e e absolue de la s´rie. est vraie par lin´arit´ lorsque f est ´tag´e. n≤k La convergence absolue de la s´rie e µ(An ) est une cons´quence : en notant A′n = An si e ′ ′ µ(An ) > 0 et An = ∅ sinon. e e e e e e p Si A ∈ A et ν(A) = 0. d’o` u En |g|q dν ≤ Φ q . et de mˆme pour les termes n´gatifs de la suite (µ(An )). l’´galit´ µ(A) = n µ(An ) d´coule de ce qui pr´c`de. • Si p = 1. L’´galit´ e e Φ(f ) = f g dν Φ(1A ) = µ(A) = A g dν.

e e Il reste ` traiter le cas ν(E) = ∞. gn dν = Φ(f n≤k 1E n ) ≤ Φ f p on d´duit grˆce aux mˆmes arguments que dans le cas o` ν(E) < ∞ que. on a Φ = g q . Elles co¨ e ıncident donc partout.e. et comme l’in´galit´ inverse a ´t´ obtenue ci-dessus. comme expliqu´ avant l’´nonc´ de th´or`me. on a obtenu que g ∈ Lq (ν) et g f ∈ Lp (ν). l’espace des formes lin´aires contine e p ues sur L (ν)) et est donc n´cessairement injective.Dans les deux cas. n≤k 77 . les deux membres de l’´galit´ e e Φ(f ) = f g dν q ≤ Φ . Dans ce cas. pour toute fonction f ∈ Lp (νn ). Vus comme fonctions de sont des fonctions continues sur Lp (ν) qui co¨ ıncident lorsque f appartient au sous-ensemble dense des fonctions mesurables born´es. c ee e Quitte ` remplacer gn par gn 1En on peut supposer que gn = 0 sur En . f n≤k gn dν. gn q ≤ Φ . Notons νn la restriction de ν ` En . l’in´galit´ de H¨lder entraˆ e e e e e e e o ıne que Φ ≤ g q . En rempla¸ant ν par νn on peut donc appliquer la c premi`re partie de la preuve ` la forme lin´aire continue Φn d´finie sur Lp (νn ) par e a e e Φn (f ) = Φ(f 1En ). l’application qui ` g ∈ Lq (ν) associe la forme lin´aire f −→ f g dν est une a e q p isom´trie de L (ν) sur le dual topologique de L (ν) (i. Alors l’application f −→ f 1En induit une isom´trie a p p de L (νn ) sur un sous-espace de L (ν). Φ(f 1En ) = f gn dνn . Il existe donc une fonction gn ∈ Lq (νn ) telle que. Par ailleurs. de l’in´galit´ e e f n≤k k→∞ f gn dν. on peut ´crire E comme la r´union d’une a e e famille d´nombrable disjointe (En )n∈N de parties mesurables telles que ν(En ) < ∞ pour tout e e n. Si f ∈ Lp (ν). et r´´crire le r´sultat a pr´c´dent sous la forme e e Φ(f 1En ) = pour toute fonction f ∈ Lp (ν). pour tout entier e a e u k ≥ 1. e e ee Enfin. Cela donne l’unicit´ de g dans l’´nonc´ e e e e du th´or`me. on a f = lim ce qui entraˆ ıne Φ(f ) = lim Par ailleurs. k→∞ f 1E n n≤k dans Lp (ν).

de fa¸on que la propri´t´ |Φ(a)| ≤ a ∞ reste vraie pour tout e c ee a ∈ ℓ∞ . Si q < ∞. la mˆme in´galit´ donne e e e e e |g|q dν = |gn |q dν = lim k→∞ n∈N n≤k |gn |q dν ≤ Φ q . Soit H le souse e espace (ferm´) de ℓ∞ d´fini par e e H = {a ∈ ℓ∞ : lim ak existe}. Φ(f ) = lim k→∞ f n≤k gn dν = f g dν. en consid´rant pour tout ee (n) (n) ∞ n ∈ N l’´l´ment a de ℓ d´fini par ak = 1{k=n}. ee e bn = Φ(a(n) ) = 0. k→∞ Evidemment |Φ(a)| ≤ a ∞ . 78 . k→∞ et d´finissons Φ : H −→ R par e Φ(a) = lim ak . ν). Si q = ∞. o` dans la deuxi`me ´galit´ l’application du th´or`me de convergence domin´e est justifi´e u e e e e e e e par la majoration | n≤k gn | ≤ |g|. Lorsque p = ∞. si tel ´tait le cas. l’in´galit´ e e pr´c´dente montre que g ∞ ≤ Φ . A.Posons maintenant pour tout x ∈ E. En effet. ce qui est absurde. g(x) = n∈N gn (x) (il y a eu plus un terme non nul dans la somme pour chaque x). ν) qui ne peuvent pas se repr´senter sous la forme e e Φ(f ) = f g dν avec une fonction g ∈ L1 (E. Consid´rons le cas de ℓ∞ . Il est facile de voir qu’on ne peut pas repr´senter Φ sous la forme e Φ(a) = k∈N ak bk e e avec un ´l´ment b = (bk )k∈N de ℓ1 . le r´sultat du th´or`me est faux en g´n´ral : il existe des e e e e e formes lin´aires continues sur L∞ (E. qui est l’espace e des suites born´es a = (ak )k∈N de r´els. A. on trouverait. Dans les deux cas on a g ∈ Lq (ν). muni de la norme a ∞ = sup ak . Enfin. L’´galit´ Φ = g q et l’unicit´ de g sont maintenant obtenues par les mˆmes arguments e e e e que dans le cas o` ν(E) < ∞. pour tout n ∈ N. u Remarque. Le th´or`me de Hahn-Banach permet alors de prolonger Φ ` e e a une forme lin´aire sur ℓ∞ .

4 Le th´or`me de repr´sentation de Riesz e e e Dans tout ce paragraphe. il existe des formes lin´aires continues sur Cb (E) qui ne se repr´sentent pas par des mesures sign´es (on peut en e e e construire en adaptant l’exemple de la fin de la partie pr´c´dente).6. B(E)). L’espace C0 (E) est un espace de Banach pour la norme f = sup |f (x)|.1 Soit Φ une forme lin´aire continue sur C0 (E). De plus. nous supposons que E est un espace m´trique localement compact e s´parable. par exemple lorsque E = R. De plus. cette forme lin´aire est continue e e e puisque |Φ(f )| ≤ E |f | d|µ| ≤ |µ|(E) f . Dans ce cas. Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre complexe plus g´n´ral. e e e Th´or`me 6. On note C0 (E) l’espace des fonctions continues sur E qui tendent vers 0 ` l’infini : e a f ∈ C0 (E) si et seulement si f est continue et si pour tout ε > 0 il existe un compact K de E tel que |f (x)| < ε pour tout x ∈ E\K. Il existe alors une unique e e e mesure sign´e µ sur (E. d´finit une forme lin´aire continue sur C0 (E). Le th´or`me pr´c´dent peut ˆtre alors reformul´ en e e e e e e disant que M(E) est le dual topologique de C0 (E). Cette in´galit´ montre mˆme que Φ ≤ |µ|(E). l’espace C0 (E) co¨ ıncide avec l’espace Cb (E) des fonctions continues born´es sur E. e e 79 . f ∈ C0 (E). l’application e Φ(f ) = E f dµ . e e M(E) est complet pour cette norme. L’espace M(E) des mesures sign´es sur E est un espace vectoriel. x∈E Si µ est une mesure sign´e sur (E. et donc M(E) est le dual de Cb (E).4. e e Remarque. et il est facile e de v´rifier que l’application µ −→ |µ|(E) d´finit une norme sur cet espace vectoriel. Φ(f ) = E f dµ. Cette assertion devient fausse e lorsque E n’est pas compact. B(E)) telle que e ∀f ∈ C0 (E) . Lorsque E est compact.

80 .

ce qui conduit aussi ` e e a introduire la mesure de Lebesgue sur la sph`re unit´. Si M n’est pas inversible. on se ram`ne au cas b = 0.1 La formule de changement de variables Nous commen¸ons par traiter le cas particulier important d’une application affine. on e e donne ici la formule d’int´gration en coordonn´es polaires dans Rd . on a pour tous a ∈ Rd et A ∈ B(Rd ). c’est le deuxi`me outil e e e e fondamental de calcul des int´grales. f (A) ⊂ f (Rd ) est contenu dans un hyperplan. e e 7. Il reste ` montrer que c = |det(M)|. a 81 .Chapitre 7 Formule de changement de variables et compl´ments e La formule de changement de variables identifie l’image par un diff´omorphisme de la mesure e d de Lebesgue sur un ouvert de R . Comme application particuli`rement importante. Remarque.1. e e λ(f (A)) = |det(M)| λ(A). qui est de mesure de Lebesgue nulle (exercice !). ce qui montre que la mesure A −→ λ(f (A)) (mesure-image de λ par f −1 ) est invariante par translation. c Proposition 7. Apr`s le th´or`me de Fubini. λ(f (a + A)) = λ(f (a) + f (A)) = λ(f (A)). pour tout A ∈ B(Rd ). λ(f (A)) = c λ(A). Dans ce e cas.1 Soit b ∈ Rd et soit M une matrice d × d ` coefficients r´els inversible. Remarquons d’abord que f (A) = (f −1 )−1 (A) ∈ B(Rd ) si A ∈ B(Rd ). a e d d D´finissons f : R −→ R par f (x) = Mx + b. Donc il existe une constante c telle que. Alors. Preuve. pour tout bor´lien A de Rd . Grˆce ` a a l’invariance par translation de la mesure de Lebesgue.

1]d))) = λ {P y : y ∈ [0. On dit qu’une application ϕ : U −→ D est un diff´omorphisme de classe C 1 si ϕ est bijective et de classe C 1 sur U et si ϕ−1 est aussi de e classe C 1 sur D. dans le cas g´n´ral. Alors. A ´tant un bor´lien de D. o` P est orthogonale e e u √ e t MM et P = MS −1 ). pour tout u ∈ U. e f (x) dx = D U f (ϕ(u)) |Jϕ(u)| du . . αi ] = i=1 αi .2 Soit ϕ : U −→ D un diff´omorphisme de classe C 1 . en utilisant le cas orthogonal. 1] } = {P y : y ∈ et donc. . d}. d f (P ([0.Si M est une matrice orthogonale. l’´galit´ e e e e e e du th´or`me s’´crit : e e e λ(A) = ϕ−1 (A) |Jϕ (u)| du. αi ]}. alors on peut trouver une matrice ore e t thogonale P telle que P MP soit diagonale avec coefficients diagonaux αi > 0. En utilisant les et S est sym´trique d´finie positive (prendre S = e e deux cas particuliers ci-dessus. . puis au cas f = 1A . u a e u Preuve.) e 82 . Dans ce cas. on a e e e f (Bd ) = Bd . d’o` il d´coule aussitˆt que c = 1 = |det(M)| dans ce cas.1. e e Th´or`me 7. Dans ce cas on trouve encore c = |det(M)|. o` Jϕ (u) = det(ϕ′ (u)) est le Jacobien de ϕ en u. pour tout bor´lien A de U. (7. a e λ(ϕ(A)) = A |Jϕ (u)| du. 1]d)) = λ(f (P ([0. et Bd d´signe la boule unit´ ferm´e de Rd . u e o Si M est une matrice sym´trique d´finie positive. Alors pour toute e e e fonction bor´lienne f : D −→ R+ .1) (Remarquer que ϕ(A) = (ϕ−1 )−1 (A) est bor´lien. d d d [0. αi]} = λ i=1 i=1 [0. Enfin. 1] )) = {MP x : x ∈ [0. il suffit de montrer que. Soient U et D deux ouverts de Rd . on trouve aussitˆt : o c = |det(P )| |det(S)| = |det(M)|. Quitte ` remplacer A par ϕ−1 (A). i=1 d d c = c λ(P ([0. i ∈ {1. . On sait qu’alors la d´riv´e ϕ′ (u) est inversible. on remarque qu’on peut ´crire M = P S. Par les arguments habituels (passage ` la limite croissant) on se ram`ne au cas o` f est ´tag´e positive.

il vient alors u e e a a λ(ϕ(C)) ≤ λ(f ((1 + daε)C)) = |det ϕ′ (u0 )| λ((1 + daε)C) = (1 + daε)d |Jϕ (u0 )| λ(C).Lemme 7.1. u Soit maintenant C un cube centr´ en u0 et de cot´ r ≤ δ. (kj + 1)2−n ] . U ) et d’autre part. Notons f (v) = ϕ(u0 ) + ϕ′ (u0 ) · v pour v ∈ Rd . v ∈ K} < ∞. En utilisant la continuit´ de ϕ′ . |ϕ(u) − ϕ(u0 ) − ϕ′ (u0 ) · (u − u0 )| ≤ ε|u − u0 |. o` C est le cube translat´ de C centr´ en 0. tel que C0 ⊂ U. o` |g(u. ce qui donne la majoration souhait´e. (1 − ε)|Jϕ (u)| ≤ |Jϕ (v)| ≤ (1 + ε)|Jϕ (u)|. pour tout u0 ∈ K et tout u ∈ Rd tel que |u − u0 | < dδ. Alors on peut choisir δ > 0 assez petit de mani`re que. ϕ(u) = f (u − u0 ) + h(u. Il d´coule de ce qui pr´c`de e e e e e que ϕ(C) ⊂ f ((1 + daε)C). u0 ). et soit ε > 0. Grˆce ` la proposition ci-dessus. u0). u0)| ≤ aε|u − u0 |. e e f ((1 − c′ ε)C) ⊂ ϕ(C) On revient ` la preuve du th´or`me. si |u − u0 | < dδ. u0)).2) . avec |h(u. pour tout cube C de faces parall`les aux axes. Preuve du lemme. on a ϕ−1 (f ((1 − c′ ε)C)) ⊂ C . On note Cn l’ensemble des cubes ´l´mentaires d’ordre n. on voit qu’on peut choisir δ > 0 assez e 1 c petit pour que d’une part δ < d dist(K. kj ∈ Z. et d’autre part. u0) = ϕ′ (u0 )−1 · h(u. on trouve que ϕ(u) = f (u − u0 + g(u. Fixons n ≥ n0 ¯ assez grand pour que d’une part la conclusion du lemme soit vraie pour K = C0 et δ = 2−n . v ∈ K tels que |u − v| ≤ dδ. e e a (1 − ε)|Jϕ (u0 )| λ(C) ≤ λ(ϕ(C)) ≤ (1 + ε)|Jϕ (u0 )| λ(C). Soit n ≥ 1 un entier. u0)| ≤ ε|u − u0 |. avec a := sup{ ϕ′ (v)−1 . 83 (7. La preuve de la minoration est analogue : on montre e ′ que pour une constante c bien choisie. En prenant g(u. On appelle cube ´l´mentaire a e e ee d’ordre n tout cube de la forme d C= j=1 ]kj 2−n . On voit que. d’o` u et on conclut de la mˆme mani`re. de centre u0 ∈ K et de e e cot´ de longueur inf´rieure ` δ.3 Soit K un compact de U et soit ε > 0. ee ¯ ee e Soit C0 un cube ´l´mentaire d’ordre n0 fix´. pour tous u.

Alors. U =]0. 84 (r. r sin θ) . On obtient de e e e e mˆme la minoration e λ(ϕ(C0 )) ≥ (1 − ε)2 Comme ε ´tait arbitraire. Comme la classe des cubes ´l´mentaires d’adh´rence contenue dans U est stable par ee e intersection finie et engendre la tribu bor´lienne B(U). θ) = (r cos θ. On a donc obtenu (7. on peut appliquer le dernier corollaire e du Chapitre 1 pour conclure que µ = µ. ce qui ´tait le r´sultat recherch´. on a Un ↑ U quand n → ∞ et µ(Un ) = µ(Un ) < ∞ pour tout n. Alors l’application ϕ(r. λ(ϕ(C0 )) = C∈Cn C⊂C0 λ(ϕ(C)) ≤ (1 + ε) C∈Cn C⊂C0 |Jϕ (xC )| λ(C) |Jϕ (u)| du ≤ (1 + ε)2 = (1 + ε)2 C∈Cn C⊂C0 C C0 |Jϕ (u)| du. θ) ∈ U . x ≤ 0}. 0). ∞[×] − π. on conclut que e λ(ϕ(C0 )) = C0 C0 |Jϕ (u)| du. et (7.1) lorsque A est un cube ´l´mentaire d’adh´rence contenue dans A. On a utilis´ le lemme dans la premi`re in´galit´. π[ et D = R2 \{(x. en notant xC le centre d’un cube C. Notons µ la mesuree e e image de la mesure de Lebesgue sur D par ϕ−1 : µ(A) = λ(ϕ(A)) pour tout bor´lien A de U. |Jϕ (u)| du.2) dans la seconde. ee e Le cas g´n´ral d´coule maintenant d’arguments de classe monotone. a e e On prend d = 2. Soit aussi e µ(A) = A |Jϕ (u)| du. si Un d´signe la r´union (disjointe) des cubes ´l´mentaires d’ordre n d’adh´rence contenue dans U ∩ {u : |u| ≤ n}. ee e e e ee e D’autre part. On a obtenu que µ(C) = µ(C) pour tout cube ´l´mentaire C d’adh´rence contenue dans U. e e e Application ` l’int´grale en coordonn´es polaires.

qui est invariante par les isom´tries vectoe d rielles. f (rz) r d−1 dr ωd (dz). e e e e f (x.3) Enfin la masse totale de ωd (volume de la sph`re unit´) est e e ωd (S d−1 ) = 85 2π d/2 . on a aussi e f (x. Il d´coule du th´or`me que. Pour f (x. Alors ωd est une mesure positive finie sur S d−1 .2.1 Pour tout A ∈ B(S d−1 ). −π Comme la demi-droite n´gative est de mesure de Lebesgue nulle dans R2 . r sin θ) r drdθ = 0 ∞ π f (r cos θ.2 Mesure de Lebesgue sur la sph`re unit´ e e S d−1 = {x ∈ Rd : |x| = 1}. θ) = cos θ sin θ −r sin θ r cos θ et donc Jϕ (r. θ) = r. 1] et x ∈ A}. e f (x) dx = Rd 0 ∞ Γ(A) = {rx. y) = exp(−x2 − y 2 ). r sin θ) r drdθ. le th´or`me de Fubini-Tonnelli donne d’une part e e e−x R2 2 −y 2 +∞ dxdy = −∞ e−x dx 2 2 et d’autre part ∞ 0 π f (r cos θ. on note Γ(A) le bor´lien de Rd d´fini par e e Th´or`me 7. On calcule facilement e ϕ′ (r. y) dxdy = R2 0 ∞ π f (r cos θ. pour toute fonction bor´lienne f : R −→ R+ . y) dxdy = D U f (r cos θ. Dans cette partie on note λd la mesure de Lebesgue sur Rd . on pose e e ωd (A) = d λd (Γ(A)). Γ(d/2) . pour toute fonction bor´lienne f : R2 −→ R+ . 7.est un diff´omorphisme de classe C 1 de U sur D. r sin θ) r drdθ = 2π −π +∞ −∞ 0 ∞ e−r r dr = π. −π Exemple. r ∈ [0. De plus. r sin θ) r drdθ. 2 ce qui donne la valeur e−x dx = 2 √ π. S d−1 (7. Soit S d−1 la sph`re unit´ de Rd : e e Si A ∈ B(S d−1 ).

Il est imm´diat que ωd est une mesure positive finie sur S d−1 : on peut la voir e x comme l’image de la restriction de d λd ` la boule unit´ Bd par l’application x −→ |x| . ae u e La formule ∞ µ(B) = 1B (rz) r d−1 dr ωd (dz) 0 S d−1 d´finit une mesure µ sur Rd \{0} et le probl`me est de montrer que µ = λd . d 1 − αd ωd (A).3). On peut aussi montrer que toute mesure finie sur S d−1 invariante par les isom´tries vectorielles est proportionnelle ` ωd . λd (Γn (A)) = αnd λd (Γ0 (A)) et par ailleurs λd (Γ(A)) = Il en d´coule aussitˆt que e o λd (Γ0 (A)) = (1 − αd ) λd (Γ(A)) = et puisque B = b Γ0 (A). En effet. Alors. La masse totale de ωd est ωd (S d−1 ) = d λd (Bd ) = d 2π d/2 π d/2 = . Le a e fait que λd soit invariante par les isom´tries vectorielles de Rd (proposition de la partie 1) e entraˆ facilement que ωd l’est aussi. Alors. a < |x| ≤ b et o` A est un bor´lien de S d−1 . d Pour calculer λd (B). αn+1 < r ≤ αn et x ∈ A}. ıne e λd (Γ(ϕ−1 (A))) = λd (ϕ−1 (Γ(A))) = λd (Γ(A)). et pour tout entier n ≥ 0 posons Γn (A) = {y = rx. . 1[. si ϕ est une telle isom´trie. |x| µ(B) = ωd (A) a r d−1 dr = bd − ad ωd (A). Consid´rons e e e d’abord le cas o` B est de la forme u B = {x ∈ Rd \{0}. et 0 < a ≤ b. d ∞ n=0 λd (Γn (A)). e a Preuve. Il suffit de traiter le cas f = 1B . u e b x ∈ A}. o` B est un bor´lien de Rd \{0}. Γ( d + 1) Γ( d ) 2 2 Il reste ` ´tablir (7.Remarque. λd (B) = bd λd (Γ0 (A)) = 86 bd − ad ωd (A) = µ(B). notons α = a b ∈]0.

au sens o` f (x) = f (|x|). le th´or`me montre u e e que f (x) dx = cd Rd 0 ∞ f (r) r d−1 dr.Finalement. et on voit facilement qu’elle engendre la tribu bor´lienne sur Rd \{0}. 87 . la classe des ensembles B de la forme ci-dessus est stable par intersections finies. avec cd = ωd (S d−1 ). Si f : Rd −→ R+ est une fonction radiale. Les arguments e de classe monotone habituels montrent alors que µ = λd .

88 .

Partie II Probabilit´s e 89 .

.

e e • Ω repr´sente l’ensemble de toutes les ´ventualit´s possibles. Par exemple une variable al´atoire n’est rien d’autre e e e qu’une fonction mesurable. beaucoup de ces notions correspondent ` ce qui a d´j` ´t´ vu dans a eae e le cadre de la th´orie de l’int´gration.1. le e point de vue de la th´orie des probabilit´s. est bien diff´rent. e e e e Puisque un espace de probabilit´ n’est rien d’autre qu’un espace mesurable muni d’une e mesure de masse totale 1. A) est un espace de probabilit´. qui est expliqu´ ci-dessous. etc.1 8. et soit P une mesure de probabilit´ sur (Ω. e e ee e e 91 . pour lequel la masse e e totale de la mesure est ´gale ` 1. toutes les d´terminations du e e e e hasard dans l’exp´rience consid´r´e. on cherche ` fournir un mod`le math´matique e e a e e pour une “exp´rience al´atoire”. A) un espace mesurable. e 8. Cependant. On dit e alors que (Ω. loi. devient-elle maintenant fondamentale car elle permet d’´valuer la probabilit´ qu’une variable al´atoire “tombe” dans un ensemble e e e donn´. esp´rance. Il faut voir un ´v´nement A ∈ A comme un sous-ensemble de Ω contenant e e e toutes les ´ventualit´s ω pour lesquelles une certaine propri´t´ est v´rifi´e.1 D´finitions g´n´rales e e e Espaces de probabilit´ e Soit (Ω. moments de variables al´atoires. qui sont les parties de Ω dont on peut ´valuer la e e e probabilit´. fonctions caract´ristiques. e e e e et une difficult´ importante est de comprendre ce point de vue. e Un espace de probabilit´ est donc un cas particulier d’espace mesur´. qui e est un cas particulier de la notion de mesure-image.Chapitre 8 Fondements de la th´orie des e probabilit´s e Ce chapitre introduit les notions fondamentales de la th´orie des probabilit´s : variables e e al´atoires. Ainsi. e ee • A est l’ensemble des “´v´nements”. le point de vue diff`re de la th´orie de l’int´gration : e a e e e dans le cadre de la th´orie des probabilit´s. et la notion d’esp´rance co¨ e ıncide avec l’int´grale. En fait. A). la notion de loi.

. La tribu sur Ω est alors la plus petite tribu qui rende mesurables toutes les applications coordonn´es ω −→ ω(t) pour t ∈ R+ . . la probabilit´ P est obtenue comme mesure-image de la mesure de Lebesgue e sur [0. . L’exemple le plus important. . . . e (2) On lance le d´ jusqu’` obtenir un 6. 2. Enfin P est l’unique mesure de probabilit´ sur Ω telle que. . R ) : un ´l´ment de Ω. la proportion NA /N e e e e e e converge quand N → ∞ vers la probabilit´ P (A). est une fonction continue ee ω : [0. une trajectoire possible. . 6}N de sorte qu’un ´l´ment de Ω est une suite ω = (ω1 . 2. A = P(Ω) . longtemps avant l’introduction de la th´orie e e e e de la mesure. . . Cette tribu co¨ e ıncide avec la tribu bor´lienne pour la topologie de la convergence uniforme sur Ω. Il resterait ` construire la e a probabilit´ P . le bon choix est d’imaginer qu’on e e fait une infinit´ de lancers : e ∗ Ω = {1. . 1]. . ω2 = i2 . . (3) On s’int´resse au d´placement dans l’espace d’une particule ponctuelle soumise ` des e e a perturbations al´atoires. P (A) = Card(A) . in . 6}2 . . Dans les e e e e premiers trait´s de th´orie des probabilit´s. Si on se limite ` l’intervalle de temps [0. (1) On lance un d´ deux fois : e Ω = {1. . . Nous verrons plus loin le lien entre e cette d´finition “historique” et l’approche moderne. 1] : si ` tout r´el x ∈ [0. 36 Le choix de la probabilit´ correspond ` l’id´e que tous les r´sultats possibles pour les deux e a e e tirages sont ´quiprobables. 1] −→ R3 . . . . l’espace de probabilit´ e a e 3 naturel est C([0. ω2 = i2 . . Ici le choix de Ω est d´j` moins ´vident. ωn = in }) = ( )n .• Pour A ∈ A. . 1]. 1 P ({ω : ω1 = i1 . . pour laquelle de multiples choix sont possibles. la probabilit´ P (A) ´tait d´finie de la mani`re suivante : on imagine e e e e qu’on r´p`te l’exp´rience al´atoire un nombre N de fois.) qui donne les r´sultats des tirages ee e successifs. L’existence est e e un cas particulier de la construction de mesures sur des produits infinis. et on note NA le nombre e e e e de r´p´titions pour lesquelles l’´v´nement A est r´alis´. . e Exemples. pour e tout choix de n et de i1 . . . . in ∈ {1. . ωn = in } o` n ≥ 1 et i1 . ω2. La tribu A sur Ω est la tribu-produit d´finie comme la plus petite tribu rendant e mesurables tous les ensembles de la forme {ω : ω1 = i1 . . 1] a e ∞ −k on associe la suite (εk )k∈N∗ ∈ Ω telle que x = k=1 (εk − 1) 6 (cette suite est unique pour presque tout x). 6} (A co¨ u ıncide aussi avec la tribu bor´lienne pour la e topologie produit sur Ω). alors. P (A) repr´sente la probabilit´ d’occurrence de l’´v´nement A. . 2. 1] par l’application x −→ (εk )k∈N∗ . On peut aussi construire P facilement partir de la mesure de Lebesgue sur [0. . e 92 . 6 L’unicit´ de P est une cons´quence simple du lemme de classe monotone. . Comme e a ea e le nombre de lancers n´cessaires n’est a priori pas born´.

(3) Pour t ∈ [0. px δx 93 .1 Soit (E. . Tr`s souvent dans la suite. Remarque importante. ω2 = 6. e e Remarque. qui est a e la loi du mouvement brownien. j)) = i + j d´finit une variable al´atoire ` valeurs dans {1. ou sur un espace plus g´n´ral.a. E) un espace mesurable. e e e e a Exemples. on observe que. . (Remarquons que nous e a n’avons pas construit P dans cet exemple.2 Variables al´atoires e D´finition 8. Une application mesurable X : Ω −→ E e est appel´e variable al´atoire (v.1.a.) e D´finition 8. avec la convention inf ∅ = ∞. les variables al´atoires. Pour v´rifier la mesurabilit´.a. pour tout k ≥ 1.` la fois du point de vue th´orique et pour les applications. 1] fix´. En reprenant les trois exemples ci-dessus : (1) X((i. . X(ω) = ω(t) est une v. est la mesure de Wiener. d´finit une v. on ne sp´cifiera pas le choix de l’espace e e de probabilit´. N e e X −1 ({k}) = {ω ∈ Ω : ω1 = 6. not´e PX . puis de poser X(ω) = ω. ` valeurs dans e a ¯ = N ∪ {∞}.a. ` valeurs dans R3 . ωk−1 = 6. Il e e e e faut comprendre qu’` chaque ω ∈ Ω on a associ´ un “point al´atoire” X(ω) dans E. ωk = 6}. en abr´g´) ` valeurs dans E. P = µ. E). e 8. 2. Il suffit e e de prendre Ω = Rd . . e e a (2) X(ω) = inf{j : ωj = 6}. . d´finie par e e e PX (B) = P (X −1 (B)) . X. et que a e e PX (B) est la probabilit´ que ce point al´atoire tombe dans B. 12}.1. A = B(Rd ). . En pratique on ´crit plutˆt : e o PX (B) = P (X ∈ B) (= P ({ω ∈ Ω : X(ω) ∈ B}) ). C’est e e donc la mesure de probabilit´ sur (E. mais cela n’intervient pas pour les questions de mesurabilit´. Les donn´es importantes seront les propri´t´s des fonctions d´finies sur cet e e ee e espace.1. La loi PX permet de calculer la probabilit´ des ´v´nements qui “d´pendent” de la v. . La loi de X est alors PX = x∈E ∀B ∈ E. La loi de X est µ. • Variables al´atoires discr`tes. Si µ est une mesure de probabilit´ sur Rd . il e e e existe une mani`re canonique de construire une variable al´atoire dont la loi est µ. . C’est le cas o` E est d´nombrable (et E est l’ensemble e e u e des parties de E). e e Cas particuliers.2 La loi de la variable al´atoire X est la mesure-image de P par X. de mani`re ´vidente.

La fonction p.a. . on a en particulier. u e PX (B) = P (X ∈ B) = P ( {X = x} = P (X = x) = x∈B x∈E px δx (B). Si X = 1B . . . . • Variables al´atoires ` densit´. On note e e e a alors E[X] = X(ω) P (dω). E[X] = P (B). . . On ´tend cette d´finition au cas o` X = (X1 . Alors. .. pourvu bien sˆr que chacune des u esp´rances E[Xi ] soit bien d´finie. E[Xd ]). En effet. . En g´n´ral. discr`te.. · si X est de signe quelconque et E[|X|] = |X|dP < ∞.1. x∈B En pratique. Ω qui est bien d´finie dans les deux cas suivants : e · si X ≥ 0 (alors E[X] ∈ [0.ik−1 1 5 1 {ω1 = i1 . . . ωk = 6} = 5k−1 ( )k = ( )k−1. avec X(ω) = inf{j : ωj = 6}. a e a Dans ce cas.. Exemple. trouver la loi d’une v. c’est donc calculer toutes les probabilit´s e e P (X = x) pour x ∈ E. qui est unique ` en ensemble a de mesure de Lebesgue nulle pr`s. X. 94 . β P (α ≤ X ≤ β) = p(x) dx. Xd ) est une variable al´atoire ` valeurs e e u e a d dans R en prenant alors E[X] = (E[X1 ]. . ∞]). le th´or`me de Radon-Nikodym montre qu’il existe une fonction bor´lienne e e e d p : R −→ R+ telle que PX (B) = p(x) dx. E[X] est bien la moyenne au sens usuel des valeurs prises par X. Revenons ` l’exemple (2) ci-dessus. B On a en particulier Rd p(x)dx = P (X ∈ Rd ) = 1. . P (X = k) = P i1 . Dans le cas particulier o` Ω est fini et P attribue la mˆme valeur ` chaque u e a singleton. i2 . Observons k=1 que l’ensemble {X = ∞} est loin d’ˆtre vide puisqu’il contient toutes les suites (i1 . pour tous α ≤ β.) e qui ne prennent pas la valeur 6.o` px = P (X = x) et δx d´signe la la mesure de Dirac en x. 6 6 6 =6 Remarquons que ∞ P (X = k) = 1 et donc P (X = ∞) = 1 − P (X ∈ N) = 0. e e Remarque.1. E[X] s’interpr`te comme la moyenne e e e de la v. e e e Si d = 1.e.a. Une variable al´atoire X ` valeurs dans (Rd . pour a tout k ≥ 1.3 Esp´rance math´matique e e D´finition 8.. ωk−1 = ik−1 . α 8. B(Rd )) est e a e e a dite ` densit´ si PX est absolument continue par rapport ` la mesure de Lebesgue λ. . ` valeurs dans R).3 Soit X une variable al´atoire r´elle (i. . est appel´e la densit´ de (la loi de) X. .

. e e Si f est de signe quelconque. ∞]. xd ) dx1 . . ` valeurs dans Rd . e e a Donnons un exemple simple de ce principe. e e E[f (Xj )] = E[f (πj (X))] = Rd f (xj )p(x1 . . . Dans le cas g´n´ral. . Proposition 8. Preuve. . .1. . . dxj−1 dxj+1 . on utilise souvent la proposition pour calculer la loi d’une v. . ce qui revient ` E[|f (X)|] < ∞. . . . d}. . . xj−1 .1 Soit X une variable al´atoire ` valeurs dans (E. p1 (x) = R p(x. . dxd f (xj ) Rd Rd−1 = = R p(x1 . . . . . alors on peut identifier ν ` la loi de X. dxd dxj f (xj )pj (xj ) dxj . Soit πj la projection πj (x1 . Xd ) une v. . Pour toute fonction e a mesurable f : E −→ [0. xd ) dx1 . pour toute fonction bor´lienne f : R −→ R+ . X : si on arrive ` ´crire ae E[f (X)] = f dν pour toute fonction f “suffisamment” g´n´rale. . . si d = 2. p2 (y) = R p(x. E). . . On remarque que le r´sultat est vrai par d´finition pour f = 1B puis e e e par lin´arit´ pour toute fonction ´tag´e positive. e e a La donn´e de PX permet donc de calculer la valeur moyenne de variables al´atoires de e e la forme f (X). y) dx). Preuve.a. .a. .Proposition 8. on e e ´crit. En utilisant le th´or`me de Fubini. .1. y) dy . Supposons que la a loi de X a une densit´ p(x1 . . pour tout j ∈ {1. x. . . xj+1 . . dxj−1 dxj+1 . C’est ´videmment une propri´t´ g´n´rale des mesures-images d´j` rencontr´e dans e ee e e ea e le cours d’int´gration. on utilise le th´or`me e e e e e e e e de convergence monotone et le fait que toute fonction mesurable positive est limite croissante d’une suite de fonctions ´tag´es positives. . . e 95 . on a E[f (X)] = E f (x) PX (dx). Inversement. xd ) dx1 . . la loi de Xj a une e densit´ donn´e par e e pj (x) = Rd−1 p(x1 . . . .2 Soit X = (X1 . xd ). Alors. la formule de la proposition reste vraie ` condition que les a int´grales soient bien d´finies. ce qui donne le r´sultat voulu. . . xd ) = xj . . . dxd (par exemple.

. 2 4π o` on note ω = (θ. la longueur de la corde sera plus grande que le cot´ du triangle ´quilat´ral inscrit e e e si et seulement si la seconde extr´mit´ est dans un secteur angulaire d’ouverture 2π/3.1.a. L’explication tient dans le fait e e que les deux m´thodes correspondent ` des exp´riences al´atoires diff´rentes. A = B([0. simplement parce que e PX ′ est port´e par la diagonale de R2 . e ea Comme l’aire de ce disque est un quart de l’aire du disque unit´. La premi`re ´tant e e e e choisie. qui est de mesure de Lebesgue nulle. et observons que la fonction e e e p(x1 . X1 ) ont mˆmes lois marginales (la proposition ci-dessus montre que PX1 (dx) = e e e PX2 (dx) = q(x)dx) alors que les lois PX et PX ′ sont tr`s diff´rentes. La probabilit´ d´sir´e e e e e est la probabilit´ que le centre tombe dans le disque de rayon 1/2 centr´ ` l’origine. 2 . ` valeurs dans Rd . x2 ) = q(x1 )q(x2 ) est alors aussi une densit´ de probabilit´ sur R2 . X2 ) ` valeurs dans R dont la loi est la a mesure de densit´ p par rapport ` la mesure de Lebesgue. D’apr`s une remarque e e e 2 ci-dessus on peut construire une v. X = (X1 . simplement parce que e e PXj = πj (PX ). 8. qu’on appelle a souvent les lois marginales de X. avec la notation ci-dessous. Si X = (X1 . sont d´termin´es par la loi de X. Pour nous en convaincre.4 Exemple : le paradoxe de Bertrand Pour illustrer les notions introduites dans les paragraphes pr´c´dents. Xd ) est une v.a. . La longueur de la corde est u X(ω) = 2| sin( 96 θ − θ′ )|. explicitons les choix des espaces de probabilit´. e (b) On choisit le centre de la corde au hasard sur le disque unit´. e e 2π/3 1 La probabilit´ est donc 2π = 3 . Bertrand proposait deux m´thodes de calcul : e e (a) On choisit les deux extr´mit´s de la corde au hasard sur le cercle. Il est important d’observer que : la r´ciproque est fausse ! e Pour un exemple.Remarque.a. consid´rons le probl`me e e e e suivant. 2π[2 . P (dω) = 1 dθ dθ′ . les lois PXj . Mais alors les deux v. X et e a X ′ = (X1 . consid´rons une densit´ de probabilit´ q sur R. on trouve comme e probabilit´ 4 . . On s’int´resse ` la probabilit´ qu’une corde choisie au hasard sur un cercle ait une e a e longueur plus grande que le cot´ du triangle ´quilat´ral inscrit. e (a) Dans ce cas. e 1 On obtient donc un r´sultat diff´rent dans les deux cas. 2π[2 ) . repr´sent´es e a e e e e e par des choix diff´rents de l’espace de probabilit´. . Il n’y a donc aucune raison pour que la e e loi de la variable al´atoire que l’on consid`re (la longueur de la corde) soit la mˆme dans les e e e deux cas. θ′ ) pour ω ∈ Ω. Sans perte de g´n´ralit´ on e e e e e e peut supposer que le cercle est le cercle unit´. Ω = [0.

Ω = {ω = (y. p(x) = 97 . z) dy dz.On calcule facilement la loi de X : E[f (X)] = Ω f (X(ω)) P (dω) = 2π 2π θ − θ′ 1 )|) dθdθ′ f (2| sin( 4π 2 0 2 0 1 π u = f (2 sin( )) du π 0 2 2 1 1 = f (x) dx. π A = B(Ω) . π 0 x2 1− 4 Donc X est une v.2] (x). avec e a e p(x) = 1 π 1 1− 2 x2 4 1[0. 2 On peut remarquer que la densit´ obtenue est tr`s diff´rente de celle du cas (a). = Donc PX (dx) = p(x)dx. Traiter le cas de la troisi`me m´thode propos´e par Bertrand : on choisit au e e e hasard la direction du rayon orthogonal ` la corde. En particulier. En partie e e culier. la probabilit´ recherch´e est e e P (X ≥ (b) Maintenant. puis le centre de la corde uniform´ment a e sur ce rayon. 1 − y2 − z2 P (dω) = f (2 1 − y 2 − z 2 ) 1{y2 +z 2 <1} dydz = 2 0 √ f (2 1 − r 2 ) r dr f (x) x dx.a. r´elle ` densit´ : PX (dx) = p(x)dx. 3 3 1 1Ω (y. 2 √ 1 P (X ≥ 3) = √ p(x) dx = . avec 1 2 2 0 1 1[0. 4 3 Exercice. La longueur de la corde est X(ω) = 2 et pour calculer sa loi on ´crit e E[f (X)] = 1 π R2 1 √ 3) = √ 1 p(x) dx = .2] (x) x dx. z) ∈ R2 : y 2 + z 2 < 1} .

X est une v. X ` valeurs dans o a {1. On interpr`te X comme le r´sultat du lancer d’une pi`ce truqu´e qui tombe sur pile e e e e avec probabilit´ p. pn ) et si npn −→ λ quand o n → ∞. . On interpr`te X comme le nombre de piles obtenus en n lancers avec la pi`ce pr´c´dente. X ` valeurs dans {0. La e e e traduction math´matique de cette intuition est l’approximation binˆmiale de la loi de e o Poisson : si pour tout n ≥ 1. C’est la loi d’une v. . alors pour tout entier k ∈ N. e (a) Loi uniforme. telle e e e a que P (X = k) = (1 − p) pk . La loi de Poisson est tr`s importante aussi bien e du point de vue th´orique que dans les applications. ∀x ∈ E. Xn suit une loi binˆmiale B(n. p(x) = 1 1[a. ` valeurs dans N. Intuitivement. b−a 98 . . 1} e a telle que P (X = 1) = p . C’est la loi d’une v.5 Lois classiques On donne dans ce paragraphe quelques exemples importants de lois. . ` a a densit´ p(x). p ∈ [0. P (X = 0) = 1 − p. k! Lois continues.a.1. 1]. Dans les trois exemples qui suivent. e (c) Loi binˆmiale B(n. n} telle que k P (X = k) = Cn pk (1 − p)n−k . (d) Loi g´om´trique de param`tre p ∈]0. Lois discr`tes. b] (a < b). C’est la loi d’une v. 1]).8.a. p) (n ∈ N∗ .a. (e) Loi de Poisson de param`tre λ > 0.a. n (b) Loi de Bernoulli de param`tre p ∈ [0. ` valeurs dans R. X ` valeurs dans N. e e e e On calcule facilement E[X] = λ. X est le nombre de piles obtenus avant le premier face. une v. e (a) Loi uniforme sur [a. et e a P (X = k) = λk −λ e . Card(E) = n. X est de loi uniforme sur E si 1 P (X = x) = . Si E est un ensemble fini. X est une v.b] (x).a. 1[. elle correspond e au nombre d’´v´nements rares qui se sont produits durant une p´riode longue. k! ∀k ∈ N.a. n→∞ lim P (Xn = k) = λk −λ e .

ce qu’on interpr`te en disant que la probabilit´ que X − a > b sachant que X > a e e co¨ ıncide avec la probabilit´ que X > b. r´elle. Les param`tres m et σ s’interpr`tent comme e e e m = E[X] . pour tous λ. t]) . la fonction de r´partition de X est la fonction FX : R −→ [0. µ ∈ R. 99 si a ≤ b. r´elle. (c) Loi gaussienne. λX + µ suit la loi N (λm + µ. σ 2 ) (m ∈ R.a. Par convention on dira qu’une v. On remarque aussi que X − m suit la loi N (0. constante ´gale ` m suit la loi gaussienne N (m. Sa e e densit´ est la fameuse courbe en cloche. La loi gaussienne jouera un rˆle o important dans le Chapitre 10. e ee e P (X > a + b) = P (X > a) P (X > b).a. t]) = F (t) e e pour tout t ∈ R. c’est la loi la plus importante en th´orie des probabilit´s. a Inversement. σ 2). continue ` droite et a pour limite 0 en −∞ et 1 en +∞. 8. Cela montre qu’on peut interpr´ter F comme la fonction de r´partition e e d’une v. N (m.1. . 1] e e d´finie par e FX (t) = P (X ≤ t) = PX (] − ∞. ou normale. σ ). (x − m)2 1 .a. si on se donne une fonction F ayant ces propri´t´s. λ2σ 2 ). e p(x) = λ e−λx 1R+ (x). e a 2 Si X suit la loi N (m. qui explique qu’elle soit utilis´e par exemple pour mod´liser les e e temps de vie de machine sans usure. ∀t ∈ R. σ 2 = E[(X − m)2 ]. C’est la propri´t´ d’absence de m´moire de e ee e la loi exponentielle. si a < b. on a vu dans le cours ee d’int´gration qu’il existe une (unique) mesure de probabilit´ µ telle que µ(] − ∞. La fonction FX est croissante. e Il d´coule des r´sultats du cours d’int´gration que FX caract´rise la loi PX de X. 0).(b) Loi exponentielle de param`tre λ > 0. On a e e e e en particulier P (a ≤ X ≤ b) = FX (b) − FX (a−) P (a < X < b) = FX (b−) − FX (a) et les sauts de FX correspondent aux atomes de PX . b > 0.6 Fonction de r´partition d’une variable al´atoire r´elle e e e Si X est une v. p(x) = √ exp − 2σ 2 σ 2π Avec la loi de Poisson. Les lois exponentielles poss`dent la propri´t´ caract´ristique suivante : si a. σ > 0).

Proposition 8.a. E) dans (R.1. . Traitons d’abord le cas o` Y u est ´tag´e : e e n Y = i=1 λi 1 Ai o` λi ∈ R et Ai ∈ σ(X). pour tout i ∈ {1. est par d´finition la plus petite tribu sur Ω qui rende X mesurable : e e σ(X) = {A = X −1 (B) : B ∈ E}. D’apr`s la premi`re ´tape. sinon. n}. et de plus f (X(ω)) = lim fn (X(ω)) = Y (ω) ce qui donne la repr´sentation recherch´e Y = f (X). e X(ω) appartient ` l’ensemble des x pour lesquels lim fn (x) existe (puisque lim fn (X(ω)) = a lim Yn (ω) = Y (ω)). 0 On sait que la fonction f ainsi d´finie est mesurable. Dans ce cas. o` la e e e e u fonction fn : E −→ R est mesurable. e e 100 . et on a n n Y = i=1 λi 1 Ai = i=1 λi 1Bi ◦ X = f ◦ X. On pose alors pour tout x ∈ E : f (x) = n→∞ lim fn (x) si la limite existe. Yn = fn (X). on sait que Y est limite simple d’une suite de v. Par ailleurs. . i ∈ I).a. Dans l’autre sens. Remarque. Yn ´tag´es et e e e e σ(X)-mesurables. . on peut ´crire. . pour tout n.1. pour chaque i ∈ {1. supposons que Y est σ(X)-mesurable. n}.a. E).3 Soit X une variable al´atoire ` valeurs dans (E. . (ii) Il existe une fonction mesurable f de (E. not´e σ(X).a. ` valeurs dans un espace mesurable quelconque (E.8. Alors. . . e a r´elle. e a σ(X) = σ(Xi−1 (Bi ) : Bi ∈ Ei . B(R)) telle que Y = f (X). La tribu engendr´e a e par X. Il y a ´quivalence entre : e e (i) Y est σ(X)-mesurable.. . pour tout ω ∈ Ω. Preuve. On peut g´n´raliser cette d´finition ` une famille quelconque (Xi )i∈I de v. et soit Y une v. e e e a Xi ´tant ` valeurs dans (Ei . Ei ). E). L’implication (ii)⇒(i) est facile puisqu’une compos´e de fonctions mesurables est e mesurable. on u peut trouver Bi ∈ E tel que Ai = X −1 (Bi ). u i=1 Dans le cas g´n´ral. o` f = n λi 1Bi est E-mesurable.7 Tribu engendr´e par une variable al´atoire e e Soit X une v.

s.2. P ) ⊂ L (Ω. Xn ↑ X ⇒ E[Xn ] ↑ E[X]. Le moment d’ordre p de X est par d´finition e e p p la quantit´ E[X ]. et on peut donc lui appliquer les th´or`mes g´n´raux vus dans ce cadre. P ) si r ≤ p.) de la th´orie de la mesure. o a L’in´galit´ de Cauchy-Schwarz s’´crit e e e E[|XY |] ≤ E[X 2 ]1/2 E[Y 2 ]1/2 et le cas particulier o` Y = 1 u E[|X|]2 ≤ E[X 2 ] est tr`s souvent utile. En partie e e e culier. e e L’in´galit´ de H¨lder s’´crit e e o e E[|XY |] ≤ E[|X|p ]1/p E[|Y |q ]1/q . e Les espaces Lp (Ω. ⇒ E[Xn ] −→ E[X]. De mani`re informelle. En prenant Y = 1 on trouve X 1 ≤ X p . P ) sont d´finis pour tout p ∈ [1. les th´or`mes de convergence sont d’un usage fr´quent : e e e Convergence monotone : Xn ≥ 0. ⇒ E[lim inf Xn ] ≤ lim inf E[Xn ]. En th´orie des probabilit´s on utilise l’expression presque sˆ rement (p. La variance de X est e var(X) = E[(X − E[X])2 ] et l’´cart-type de X est e σX = var(X).1 Moments de variables al´atoires e Moments d’ordre p et variance Soit X une v. Lemme de Fatou Convergence domin´e e : Xn ≥ 0. var(X) mesure la dispersion de X autour de sa moyenne E[X]. A.p. A. : |Xn | ≤ Z E[Z] < ∞.8. en abr´g´) plutˆt e e u e e o que le presque partout (p. r´elle X est centr´e si elle est int´grable et si E[X] = 0. On dit que la v. En particulier L (Ω. A.1 Soit X ∈ L2 (Ω.s. La quantit´ E[|X|p ] e e e est appel´e moment absolu d’ordre p. 1 pourvu que p + 1 = 1. ou si X ≥ 0.p. A. e Remarquons que var(X) = 0 si et seulement si X est constante p. ∞] comme dans le cours d’int´gration. P ). e e e e L’esp´rance math´matique est un cas particulier d’int´grale par rapport ` une mesure e e e a positive.2 8. 101 . qui n’est d´finie que si E[|X| ] < ∞. Xn −→ X p.a.2. ce qui se g´n´ralise e e q p r aussitˆt ` X r ≤ X p si r ≤ p. r´elle et soit p ≥ 1 un entier. En particulier le moment d’ordre 1 est simplement e l’esp´rance de X. e D´finition 8.a.

On a E[(X − a)2 ] = E[X 2 ] − 2a E[X] + a2 = E[X 2 ] − (E[X])2 + (E[X] − a)2 . Y ) = E[(X − E[X])(Y − E[Y ])] = E[X(Y − E[Y ])] = E[XY ] − E[X]E[Y ]. P ).2 Soient X. . Xj ) 1≤i≤d. d d λi λj KX (i. Les deux premi`res assertions en d´coulent aussitˆt. Remarquons que cov(X. et pour tout a ∈ R. A. e e 102 .Proposition 8. P ) (ce qui ´quivaut ` E[|X|2 ] < ∞). P ). . X) = var(X) et que. e var(X) = inf E[(X − a)2 ]. A. .2. Y )| ≤ var(X) var(Y ). e e e e e e a D´finition 8. en prenant a = E[X] pour la premi`re. . (cf cours d’int´gration) Si X ≥ 0 et a > 0. A. v´rifier que KY = A KX t A. L’application (X. Xd ). A. e e e P (|X − E[X]| ≥ a) ≤ 1 var(X). . Y ) est une forme bilin´aire sur L2 (Ω. Si A est une matrice (d´terministe) n×d et Y = AX. a In´galit´ de Bienaym´-Tchebicheff. la covariance de X et Y mesure la corr´lation existant entre X e e et Y . λd ∈ R . . e e e |cov(X.2. . e e e P (X ≥ a) ≤ 1 E[X]. a2 Cette in´galit´ d´coule de l’in´galit´ de Markov appliqu´e ` la variable positive (X − E[X])2 . E[(X − a)2 ] = var(X) + (E[X] − a)2 . .1 On a aussi var(X) = E[X 2 ] − (E[X])2 . a∈R Preuve. j) = var i. d’apr`s l’in´galit´ de Cauchy-Schwarz. Y ) −→ cov(X. De mani`re informelle. La covariance de X et Y est e cov(X. . Xd ) est une variable al´atoire ` valeurs dans Rd dont toutes les composantes e a 2 sont dans L (Ω. Si X = (X1 . . Si X ∈ L2 (Ω. . la matrice de covariance de X est e a KX = cov(Xi . En cons´quence. la matrice KX est sym´trique positive : pour e d tous λ1 .1≤j≤d . Y ∈ L2 (Ω. . P ) et a > 0. e e o e In´galit´ de Markov. e Dans le cas vectoriel X = (X1 . Exercice.j=1 i=1 λi Xi ≥ 0.

Yn . βn ). Y ) KY en notation matricielle. . . Y ) (Y − E[Y ]). Si n = 1 et si on suppose que Y n’est pas constante p. αj cov(Yj . . Yn des variables al´atoires dans L2 (Ω. On peut ´crire Z sous la forme e n Z = α0 + j=1 αj (Yj − E[Yj ]). n o` u Z = E[X] + j=1 αj (Yj − E[Yj ]). . on trouve que la meilleure (au sens L2 ) approximation de X par une fonction affine de Y est cov(X.2 On a β0 . . e on sait que la variable al´atoire Z qui minimise X − U 2 pour U ∈ H est la projection e orthogonale de X sur H. u e E[(X − Z) · 1] = 0. Yk ) = cov(X. . .2. .s.βn ∈R inf E[(X − (β0 + β1 Y1 + · · · + βn Yn ))2 ] = E[(X − Z)2 ]. . Yk ) .. pour tout k ∈ {1. Yn . P ) engendr´ par 1.. si KY est non-d´g´n´r´e. On cherche ` trouver la e a meilleure approximation de X comme fonction affine de Y1 . Yk ). j=1 1 ≤ k ≤ n. Alors. e Proposition 8. Par d´finition de la projection orthogonale. on cherche e e ` minimiser a E[(X − (β0 + β1 Y1 + · · · + βn Yn ))2 ] sur tous les choix possibles du (n + 1)-uplet de r´els (β0 .8. donc doit co¨ a ıncider avec la projection orthogonale de X sur H. . Y1 . A. . Soit H le sous-espace vectoriel de L2 (Ω. Yk ) = cov(X.. . X − Z est orthogonal ` H. A. j=1 Inversement. P ).2. on a α = cov(X. .. si les coefficients αj v´rifient ce syst`me d’´quations. . Remarque. Yk ) = cov(X. n}. ou encore ` e a a n E[(X − Z) · (Yk − E[Yk ])] = 0. e e e e Preuve. On doit donc avoir e a d’o` α0 = E[X]. . De mˆme. . ce qui ´quivaut ` cov(Z. Pr´cis´ment. Yk ). e Z = E[X] + 103 . il est imm´diat que la e e e e variable Z d´finie par le membre de droite de (1) est un ´l´ment de H tel que X − Z soit e ee orthogonal ` H. Y1 .. . −1 En particulier. var(Y ) C’est ce qu’on appelle parfois la droite de r´gression de X en Y . (1) les coefficients αj ´tant (n’importe quelle) solution du syst`me e e n αj cov(Yj . .2 La r´gression lin´aire e e Soient X. . .

Le th´or`me de convergence domin´e montre que ΦX est continue (et e e e born´e) sur Rd . On peut aussi ´crire e ΦX (ξ) = eiξ·x PX (dx) ξ ∈ Rd . e Notre objectif est de montrer que la fonction caract´ristique caract´rise la loi de X.2. un argument de parit´ montre que la partie e e imaginaire de ΦX (ξ) est nulle. 2 ξ ∈ R. R σ 2π On se ram`ne facilement au cas σ = 1. Autrement dit.3 Si X est une variable al´atoire ` valeurs dans Rd .2. Ensuite. On a σ2 ξ 2 ). 1 2 2 √ e−x /(2σ ) eiξx dx. ΦX (ξ) = exp(− Preuve. σ 2 ).4 La fonction caract´ristique d’une variable al´atoire X ` valeurs dans Rd e e e e a caract´rise la loi de cette variable al´atoire. il vient e f ′ (ξ) = − | ≤ |x| e−x 2 /2 qui est int´grable). Il reste ` calculer a ΦX (ξ) = f (ξ) = R 1 2 √ e−x /2 cos(ξx) dx.3 Fonctions caract´ristiques e D´finition 8. ce qui permet de voir ΦX comme la transform´e de Fourier de la loi de X. Il en d´coule que f (ξ) = exp(−ξ 2 /2). la transform´e de Fourier d´finie e e e e sur l’espace des mesures de probabilit´ sur Rd est injective. avec condition e e initiale f (0) = 1. e Th´or`me 8. Alors. En e R 1 2 √ e−x /2 ξ cos(ξx) dx = −ξ f (ξ).8. la fonction caract´ristique e e a e d de X est la fonction ΦX : R −→ C d´finie par e ΦX (ξ) = E[exp(iξ · X)] . e 104 . Nous e e commen¸ons par un calcul important dans un cas particulier. on a e e f ′ (ξ) = − 1 2 √ x e−x /2 sin(ξx) dx 2π 2 /2 R (la justification est facile puisque |x sin(ξx) e−x int´grant par parties.2. 2π En d´rivant sous le signe int´grale.2. c e Lemme 8. 2π La fonction f est donc solution de l’´quation diff´rentielle f ′ (ξ) = −ξf (ξ). On ´crit parfois e e ΦX (ξ) = PX (ξ).3 Soit X une variable al´atoire de loi gaussienne N (0.

Preuve. on utilise le lemme pour ´crire. {|x|>ε} ∀ε > 0. gσ (x) = √ 2σ σ 2π Si µ est une mesure de probabilit´ sur R. Pour le point 2. ϕ(x)µσ (dx) −→ ϕ(x)µ(dx) quand σ → 0. σ→0 lim gσ (x) dx = 0 . pour toute fonction ϕ continue et born´e sur R. Pour montrer le r´sultat du th´or`me. e e √ x2 σ 2π gσ (x) = exp(− 2 ) = 2σ eiξx g1/σ (ξ) dξ. (def) µσ (dx) = fσ (x) dx. on a utilis´ le th´or`me de Fubini-Lebesgue. Pour toute fonction ϕ ∈ Cb (R). R Il vient alors fσ (x) = R √ gσ (x − y) µ(dy) = (σ 2π)−1 = (σ 2π)−1 = (σ 2π)−1 √ √ eiξ(x−y) g1/σ (ξ) dξ µ(dy) R R eiξx g1/σ (ξ) R R e−iξy µ(dy) dξ eiξx g1/σ (ξ) µ(−ξ)dξ. e e 2. on ´crit d’abord. σ 2) : x2 1 x ∈ R. pour tout y ∈ R. ε→0 lim gσ ∗ ϕ(y) = ϕ(y) 105 . avec la mˆme justification pour appliquer le th´or`me de Fubini-Lebesgue. soit gσ la densit´ de la loi e gaussienne N (0. exp(− 2 ) . µσ est d´termin´e par µ. pour tout x ∈ R. pour obtenir que. e e ϕ(x)µσ (dx) = ϕ(x) gσ (y − x)µ(dy) dx = gσ ∗ ϕ(y)µ(dy). Pour tout σ > 0. On traite d’abord le cas d = 1. Ensuite. on pose e fσ (x) = R gσ (x − y) µ(dy) = gσ ∗ µ(x). il suffit d’´tablir que e e e e 1. R Dans l’avant-derni`re ´galit´. on utilise e e e les propri´t´s ee gσ (x) dx = 1 . Pour ´tablir le point 1. dont la justificae e e e e e tion est facile puisque µ est une mesure de probabilit´ et que la fonction g1/σ est int´grable e e pour la mesure de Lebesgue.

a. d Rd (d) gσ (x) eiξ·x dx = j=1 gσ (xj ) eiξj ·xj dxj = (2πσ)d/2 g1/σ (ξ). puisque e e 2 1/2 2 1/2 E[|Xj Xk |] ≤ E[Xj ] E[Xk ] < ∞. . Enfin la derni`re assertion est simplement le d´veloppement de Taylor de ΦX ` l’ordre 2 e e a ` l’origine.(cf les r´sultats du cours d’int´gration concernant les approximations de la mesure de Dirac e e δ0 ). ` valeurs dans Rd et de carr´ int´grable. Preuve. xd ) = j=1 gσ (xj ) en remarquant que pour ξ ∈ Rd . Si on suppose que X est de puissance p-i`me int´grable (p ≥ 1 entier) le mˆme e e e raisonnement montre que ΦX est de classe C p . . . On utilise les fonctions d (d) gσ (x1 . Par convergence domin´e.5 Soit X = (X1 . . C’est cependant le cas p = 2 qui sera le plus utile dans la suite. facile ` justifier puisque |gσ ∗ ϕ| ≤ sup |ϕ|.2. 2 d d d ξj ξk E[Xj Xk ] + o(|ξ|2) j=1 k=1 106 . La preuve dans le cas d quelconque est similaire. a e e 2 Alors ΦX est de classe C et 1 ΦX (ξ) = 1 + i ξj E[Xj ] − 2 j=1 quand ξ = (ξ1 . on obtient e a σ→0 lim ϕ(x)µσ (dx) = ϕ(x)µ(dx). (d) Proposition 8. . . En d´rivant sous le signe int´grale. on peut d´river une seconde fois et trouver que e ∂ 2 ΦX (ξ) = − E[Xj Xk eiξ·X ]. a Remarque. De mˆme. ξd ) tend vers 0. ∂ξj la justification ´tant facile puisque |iXj eiξ·X | = |Xj | et Xj ∈ L2 ⊂ L1 . . ∂ξj ∂ξk ∂ De plus le th´or`me de continuit´ sous le signe int´grale assure que ∂ξjΦXk (ξ) est fonction e e e e ∂ξ continue de ξ. ce qui termine la preuve dans le cas d = 1. . . . . on trouve e e ∂ΦX (ξ) = i E[Xj eiξ·X ]. . Xd ) une v.

Plus g´n´ralement.4 Soit X une v. ` valeurs dans N. e On voit facilement que gX a toujours une d´riv´e ` gauche en 1. puisque les nombres P (X = n) apparaissent e e e comme les coefficients du d´veloppement de Taylor de gX en 0.4 Fonction g´n´ratrice e e Dans le cas de variables al´atoires ` valeurs dans N. o e D´finition 8. ´ventuellement infinie.2.2. 1] par e gX (r) = E[r X ] = ∞ n=0 P (X = n) r n . e e a e et que ′ gX (1) = E[X]. on utilise les fonctions g´n´ratrices e a e e plutˆt que les fonctions caract´ristiques. e e lim gX (r) = E[X(X − 1) · · · (X − p + 1)] r↑1 (p) ce qui montre comment retrouver tous les moments de X ` partir de la connaissance de la a fonction g´n´ratrice. La fonction gX est continue sur [0. pour tout entier p ≥ 1.8. e e 107 . Le rayon de convergence de la s´rie e e enti`re qui apparaˆ dans la d´finition est donc sup´rieur ou ´gal ` un. 1] (cela d´coule par exemple du th´or`me de convere e e gence domin´e). et on a gX (0) = P (X = 0) et gX (1) = 1. Cela montre que la e ıt e e e a fonction g´n´ratrice gX caract´rise la loi de X. La fonction g´n´ratrice de X est la e a e e fonction gX d´finie sur l’intervalle [0.a.

108 .

on peut interpr`ter cette d´finition en disant que la probabilit´ e e e conditionnelle (def) P (A ∩ B) P (A | B) = P (B) co¨ ıncide avec P (A) : le fait de savoir que B est r´alis´ ne donne pas d’information sur la e e r´alisation ou non de l’´v´nement A (et on peut intervertir les rˆles de A et B). . qui e e suffit ` ´tablir le lien entre notre approche axiomatique des probabilit´s et la d´finition “hisae e e torique” (probabilit´ d’un ´v´nement = fr´quence d’apparition de cet ´v´nement lorsqu’on e e e e e e r´p`te un grand nombre de fois la mˆme exp´rience al´atoire). . Avec le th´or`me de Fubini. . 6} et B = {1. . (i) Lancer de deux d´s : Ω = {1. . P ({ω}) = 1/36 pour tout ω ∈ Ω. e Les ´v´nements A = {6} × {1.1 Ev´nements ind´pendants e e Dans tout ce chapitre on se place sur un espace de probabilit´ (Ω. En e e e fait la probabilit´ P a ´t´ construite pr´cis´ment pour qu’un ´v´nement relatif au r´sultat e ee e e e e e du premier lancer soit ind´pendant d’un ´v´nement relatif au r´sultat du second. A. B ∈ A sont e deux ´v´nements. e e e e 109 . on ´tablit le c´l`bre lemme de Borel-Cantelli (dont e e ee une application amusante donne des propri´t´s surprenantes du d´veloppement dyadique ee e d’un nombre r´el choisi au hasard) et une premi`re forme de la loi des grands nombres.Chapitre 9 Ind´pendance e Le concept d’ind´pendance est sans doute la premi`re notion importante o` la th´orie e e u e des probabilit´s se diff´rencie nettement de l’int´gration. on dit que A et B sont ind´pendants si e e e P (A ∩ B) = P (A)P (B). . la notion la plus fondamentale est celle de l’ind´pendance de deux (ou plusieurs) e e sous-tribus. P ). Au moins lorsque P (B) > 0. Un r´sultat-cl´ de ce chapitre relie l’ind´pendance de deux variables al´atoires au e e e e fait que la loi du couple form´ par ces deux variables est la mesure-produit des lois individue elles. . . . . e e e e e 9. 6} × {6} sont ind´pendants. 2. 2. 2. cela permet des reformulations souvent utiles de la notion e e d’ind´pendance. S’il est plus facile de comprene e e dre intuitivement la d´finition de l’ind´pendance de deux ´v´nements ou de deux variables e e e e al´atoires. . 6}2 . Si A. A titre d’application. . e e e o Exemples.

. . jp } et Bi = Ω sinon. An sont ind´pendants si.1 On dit que n ´v´nements A1 . P (Bjp ). P ({ω}) = 1/6 pour tout ω ∈ Ω. B. e D´finition 9. . . Il est clair que la condition donn´e est plus forte que celle de la d´finition : prendre e e Bi = Ai si i ∈ {j1 . . . P (An ). . . ∩ An ) = P (A1 ) P (A2 ) . . . . 5} sont ind´pendants. n}. ∩ Ajp ) = P (Aj1 ) P (Aj2 ) . . . . . . Cp le sont aussi. . . . . . ∩ Bjp ) = P (Bj1 ) P (Bj2 ) . Inversement. jp } de {1. supposons que A1 . . Ai . . . les ´v´nements Ai et Aj e e soient ind´pendants. .1 Les n ´v´nements A1 .1. Pour v´rifier la propri´t´ de la proposition. . . . . . An sont ind´pendants si et seulement si on a e e e P (B1 ∩ . n}. . . . . j} ⊂ {1. Cp sont e j c ind´pendants. . . 6}. . Les ´v´nements e e e A = {1. . . e e Les ´v´nements A. on est ramen´ ` montrer que ea P (Bj1 ∩ Bj2 ∩ . . on a P (Aj1 ∩ Aj2 ∩ . . . C2 . . . . jp } = {i : Bi = Ω}. n}. . 2} et B = {1. iq } de {2. . . Ω} pour tout i ∈ {1. . Finalement. c P (C1 ∩ Ci1 ∩ · · · ∩ Ciq ) = P (Ci1 ∩ · · · ∩ Ciq ) − P (C1 ∩ Ci1 ∩ · · · ∩ Ciq ) = P (Ci1 ) . P (Ciq ) c = P (C1 )P (Ci1 ) . . .(ii) Lancer d’un seul d´ : Ω = {1. . . C2 . Pour donner un exemple. . 3. P (Ciq ) 110 . Il ne suffit pas non plus que. . pour tout souse ensemble {i1 . on peut supposer Bi = ∅ pour e e ee tout i ∈ {1. . . e i Preuve. si {j1 . . Mais cela est facile puisque. Remarques. n}. . . pour chaque paire {i. . . . . . .1. C sont ind´pendants deux ` deux mais non ind´pendants. . . ∩ Bn ) = P (B1 ) . . C1 . consid´rons l’espace correspondant ` deux e e a lancers de pile ou face (pi`ce non truqu´e) et prenons e e A = {pile au premier lancer} B = {pile au second lancer} C = {mˆme r´sultat aux deux lancers}. . . 2. . . pour tout souse e e e ensemble non vide {j1 . Il ne suffit pas que l’on ait P (A1 ∩ A2 ∩ . . . . . P (Ciq ) − P (C1 )P (Ci1 ) . . . P (Ajp ). Ac . . P (Bn ) d`s que Bi ∈ σ(Ai ) = {∅. An sont ind´pendants. Ensuite. e e e a e Proposition 9. d`s que Bjk = Ajk ou Ack . p}. il suffit de montrer que si C1 . . .

le n-uplet (X1 . . Th´or`me 9. n}. (En .. . Xn n variables al´atoires ` valeurs respectivement dans (E1 . . . . . . . . . . Bn sont ind´pene e dantes si et seulement si ∀A1 ∈ B1 . alors X1 . . . . . X1 . e (ii) Les n ´v´nements A1 .. Xn sont ind´pendantes. . Bn sont n sous-tribus ind´pendantes.a. . . . Bi -mesurable. P (A1 ∩ A2 ∩ . n}. . . . . ∀Fn ∈ En . . . On a d’une part P(X1 . Soient X1 . ∩ {Xn ∈ Fn }) et d’autre part n n PX1 ⊗ · · · ⊗ PXn (F1 × · · · × Fn ) = 111 PXi (Fi ) = i=1 i=1 P (Xi ∈ Fi ). Xi est une v. . . .a. . . . . Xn sont ind´pendantes si et seulement e e e e si la loi du n-uplet (X1 . . E1 ).2 Variables al´atoires et tribus ind´pendantes e e La notion la plus g´n´rale est celle de tribus ind´pendantes. Bn n sous-tribus de A. . Xn sont des variables al´atoires ` valeurs dans (E1 . An sont ind´pendants si et seulement si les tribus σ(A1 ). . .2. . P (An ). ∩ An ) = P (A1 ) P (A2) . ∩ {Xn ∈ Fn }) = P (X1 ∈ F1 ) . Xn ) est le produit des lois de X1 . . . Soit Fi ∈ Ei. . . . Xn sont ind´pendantes si la connaissance de cere e taines d’entre elles ne donne pas d’information sur les autres. . . On dit que B1 . . . Xn ) est une v. . . ∀An ∈ Bn . . .. . les v. P (Xn ∈ Fn ) (9. . . . E1). . .1 Les n variables al´atoires X1 . et si.Xn ) (F1 × · · · × Fn ) = P ({X1 ∈ F1 } ∩ . e e Si X1 . . σ(Xn ) le sont. . . . . e e e D´finition 9. pour tout i ∈ e {1. .1 Soient B1 . Xn sont ind´pendantes si les tribus σ(X1 ). . Ei ).9.. pour tout i ∈ {1. . En ). . on a alors E i=1 n n fi (Xi ) = i=1 E[fi (Xi )] d`s que fi est une fonction mesurable positive sur (Ei . . De mani`re intuitive.1) −1 (en effet on sait que σ(Xi ) = {Xi (F ) : F ∈ Ei }). e e e σ(An ) le sont (cf proposition pr´c´dente). Xn : P(X1 .Xn ) = PX1 ⊗ · · · ⊗ PXn . . Remarques.. n}. . . .. . . . . . De plus. . . . . ` valeurs dans l’espace E1 × · · · × En muni de a la tribu produit E1 ⊗ · · · ⊗ En . . (i) Si B1 . pour tout i ∈ {1. . .a. En ) respece a tivement. .2. . (En . . . . . P ({X1 ∈ F1 } ∩ . . . . . e a On dit que les variables X1 . .. e Cela ´quivaut encore ` dire que e a ∀F1 ∈ E1 . . .. . . . . e Preuve.

Le th´or`me ci-dessus montre aussi comment construire des v. et on a alors aussi a n n E i=1 |fi (Xi )| = i=1 E[|fi (Xi )|] < ∞ ce qui justifie l’existence du terme de gauche dans la formule pr´c´dente. e e Remarques. e e e 112 . cela ´quivaut e e e e e encore ` dire que P(X1 . on peut construire une v.2 Si X1 . r´elles. . ..Xn ) et PX1 ⊗ · · · ⊗ PXn prennent les mˆmes valeurs sur e les pav´s F1 × · · · × Fn .. .a.a. et soient µ1 . . . on a aussi e e X1 · · · Xn ∈ L1 . .a.a. . Mais comme on sait (lemme de classe monotone) qu’une mesure de e probabilit´ sur un espace-produit est caract´ris´e par ses valeurs sur les pav´s. . . e e e on a cov(X1 . . . et n E[X1 · · · Xn ] = E[Xi ]. ind´pendantes. . les composantes e e e e e Y1 . Xn sont n v.. a La deuxi`me assertion est ensuite une cons´quence du th´or`me de Fubini-Tonnelli : e e e e n n E i=1 fi (Xi ) = E1 ×···×En i=1 n fi (xi ) PX1 (dx1 ) . Cela d´coule de ce qui pr´c`de puisque cov(X1 ..a.1). X2 ) = E[X1 X2 ] − E[X1 ]E[X2 ]. µn . . . . .En comparant avec (9. . Y = (Y1 . on voit que X1 . D’apr`s le th´or`me pr´c´dent. Alors. . . Yn de Y sont des v. .Xn ) = PX1 ⊗ · · · ⊗ PXn . n}. Yn ) ` e a n valeurs dans R dont la loi est µ1 ⊗ · · · ⊗ µn . . r´elles ind´pendantes de lois respectives µ1 .2. ee e e Corollaire 9. . e e En particulier. . PXn (dxn ) fi (xi ) PXi (dxi ) i=1 n Ei = = i=1 E[fi (Xi )]. . X2 sont deux variables al´atoires r´elles ind´pendantes et dans L2 . dans L1 n’est pas dans L1 (l’ind´pendance est e e e une propri´t´ tr`s particuli`re). . Xn sont ind´pendantes si et seulement si les e e deux mesures de probabilit´ P(X1 . e e e comme on l’a observ´ dans le Chapitre 8.. r´elles ind´pendantes et dans L1 .. . Si les fonctions fi sont de signe quelconque. Cone e e sid´rons le cas de v. X2 ) = 0. . µn des mesures de probabilit´ sur Rn . i=1 Remarquons qu’en g´n´ral le produit de v. . l’´galit´ e e n n E i=1 fi (Xi ) = i=1 E[fi (Xi )] reste vraie ` condition que E[|fi (Xi )|] < ∞ pour tout i ∈ {1.. si X1 .a. ..

. xn ) = i=1 qi (xi ). . . xn )dx1 . on a n qi (x)dx = i=1 Rn p(x1 . pour tout i ∈ {1. . r´elle X1 dont la loi a une densit´ not´e p(x) sym´trique (p(x) = p(−x)) et telle e e e e 2 2 que x p(x)dx < ∞ (de sorte que X1 ∈ L ). La propri´t´ de covariance nulle (pour deux v. de loi N (0. X2 ) = 0 alors que X1 et X2 ne sont pas ind´pendantes. (exercice !) et donc sa loi est une mesure de Dirac. dxn ) = pi (xi ) dx1 . . . n}. . . dxn . . .a. elle doit ˆtre constante p. dxn = 1.a. . on voit imm´diatement e que cov(X1 . . . Xn ) sous la forme ee e n n p(x1 . ∞[ pour tout i ∈ {1. r´elle est ind´pendante e e e e d’elle-mˆme. la loi de Xi a une densit´ not´e pi . . .2. et e e que les variables al´atoires X1 . Xn n variables al´atoires r´elles. . (ii) Inversement. . . .a. e e C’est une contradiction puisque la loi de |X1 | a une densit´ donn´e par 2 p(x)1R+ (x). . . . e e Corollaire 9. . . On peut par exemple choisir pour X1 une v. n}. 1}. . Alors. . .3 Soient X1 .s. d’apr`s un e r´sultat du Chapitre 8. . ind´pendante de e a e 1 X1 et telle que P (ε = 1) = P (ε = −1) = 2 . . . . . . .a. . . . . xn )dx1 . . . . Ensuite. . . . . si X2 = εX1 . σ 2). . . Alors les variables al´atoires X1 . Alors. Xn u e e sont ind´pendantes et pour chaque i ∈ {1. e e (i) Supposons d’abord que. . e ee dans L2 ) est beaucoup plus faible que l’ind´pendance. xn ) = i=1 qi (xi ) = i=1 pi (xi ) 113 . Xn ) a e e une densit´ donn´e par e e n p(x1 . . . Xn sont ind´pendantes. Ki Cela permet de r´´crire la densit´ de (X1 . ` valeurs dans {−1. dxn = j=i Kj qi (xi ) = 1 qi (xi ). |X1 | serait ind´pendante de |X2 | = |X1 |. . puisque e e e e e si PXi (dxi ) = pi (xi )dxi . . le th´or`me de Fubini-Tonnelli montre que e e n PX1 ⊗ · · · ⊗ PXn (dx1 . o` les fonctions qi sont bor´liennes positives sur R. . . . xn ) = i=1 pi (xi ). . . Xn ) a une densit´ de la forme e n p(x1 . . . o` Ci > 0 est une constante. i=1 Pour la partie (ii). n}. . supposons que la loi de (X1 . u Preuve. . . . et en particulier Ki := qi (x)dx) ∈]0.La r´ciproque du corollaire est fausse. la loi de (X1 . . la densit´ de Xi est e e pi (xi ) = Rn−1 p(x1 . toujours ` l’aide du th´or`me de Fubinia e e Tonnelli. . dxi−1 dxi+1 . la loi de Xi a une densit´ pi qui s’´crit e e e pi = Ci qi . La premi`re partie est une cons´quence imm´diate du th´or`me ci-dessus. . Or si une v. . on remarque d’abord que.a. si X1 et X2 e l’´taient. Soit ensuite ε une deuxi`me v. partons e d’une v. En effet. Pour donner un exemple.

e (ii) Pour tous a1 . an ∈ R. . .. y) e−x R2 dxdy. il y a ´quivalence entre : e e e (i) X1 . On suppose que U et V sont ind´pendantes. Y )] = 0 ∞ 0 ∞ 0 0 1 √ √ ϕ( u cos(2πv).. Exemple. . .. . . Pour toute fonction ϕ mesurable positive sur R2 . fn sont continues ` support compact de R dans R+ . P (X1 ≤ a1 . si on e d´finit e √ √ X = U cos(2πV ) . (iv) La fonction caract´ristique de X est e n ΦX (ξ1 . 1]. . Remarque. Y ) a pour densit´ π −1 exp(−x2 − y 2) qui a une forme e produit comme dans la partie (ii) de la proposition. .. E[ϕ(X. . ξn ) = i=1 ΦXi (ξi ) (pour montrer (iv)⇒(i). . . . a n n E i=1 fi (Xi ) = i=1 E[fi (Xi )]. . . les deux variables al´atoires X et Y sont ind´pendantes. Xn sont ind´pendantes. . Pour le voir calculons la loi du e e couple (X. Xn sont n variables al´atoires r´elles. Xn ≤ an ) = n i=1 P (Xi ≤ ai ). . . r sin θ) re−r drdθ 2 −y 2 2 ϕ(x. . Y = U sin(2πV ).u e et on voit que P(X1 . .Xn ) = PX1 ⊗ · · · ⊗ PXn d’o` l’ind´pendance. utiliser l’injectivit´ de la transform´e de Fourier. 1/2)). e e Nous passons maintenant ` un r´sultat technique tr`s utile. a e e 114 . . Alors. cf Chapitre 8). u sin(2πv)) e−u dudv 2π 1 π 1 = π = ϕ(r cos θ. (iii) Si f1 . Y ). Si X1 . Donc X et Y sont ind´pendantes (on e voit aussi que X et Y ont la mˆme densit´ e e 1 p(x) = √ exp(−x2 ) π et donc X et Y suivent chacune la loi N (0. . . On obtient que la loi du couple (X. . Soit U une variable de loi exponentielle de param`tre 1 et soit V une variable e uniforme sur l’intervalle [0. .

. . ∩ Cn ) = P (B1 ) P (C2) . Xnp ) sont ind´pendantes. . . .4 Soient B1 . . Pour tout i ∈ {1. . . . . . on fixe B1 ∈ B1 . . . . et on a ıne montr´ e ∀B1 ∈ B1 . P (C1 ∩ C2 ∩ . . Si X1 . . . Soient B1 . soit Ci ⊂ Bi une classe stable par intersections finies. Bn des sous-tribus de A. e e Cons´quence. . . . Cn ∈ Cn . Bn1 ) D2 = Bn1 +1 ∨ · · · ∨ Bn2 ··· Dp = Bnp−1 +1 ∨ · · · ∨ Bnp (not) sont ind´pendantes. r´elles ind´pendantes.a. . . u En particulier. . . . ∀Cn ∈ Cn . si X1 . . Supposons que ∀C1 ∈ C1 . Fixons d’abord C2 ∈ C2 . . . . . . . e e et soient n0 = 0 < n1 < · · · < np = n. et d’autre part on voit facilement que M1 est une classe e monotone. . ∀Cn ∈ Cn . . C3 ∈ C3 . . e e e Exemple. . e Preuve. ∩ Cn ) = P (B1 ) P (C2) . ∩ Cn ) = P (B1) P (B2 ) P (C3) . Pour le voir. Bn sont ind´pendantes. Z 1 = X 1 X3 . Bn des tribus ind´pendantes. . . .2. . Alors. Regroupement par paquets. . . les v. . . nj }. Cn ∈ Cn et on pose M1 = {B2 ∈ B2 : P (B1 ∩ B2 ∩ C3 ∩ . Pour continuer. . . . . Alors C1 ⊂ M1 par hypoth`se. P (Cn ). . ∩ Cn ) = P (C1) P (C2) . . ∀C2 ∈ C2 . . . . . . il suffit d’appliquer la proposition ci-dessus en prenant e pour Cj la classe des parties de la forme Bnj−1 +1 ∩ · · · ∩ Bnj o` Bi ∈ Bi pour tout i ∈ {nj−1 + 1.Proposition 9. . . . P (Cn )}. . . Xn sont ind´pendantes. M2 est une classe monotone qui contient C2 et donc aussi σ(C2 ) = B2 . . . e Y1 = (X1 . on arrive facilement au r´sultat voulu. Xn1 ). . . Le lemme de classe monotone entraˆ que M1 contient σ(C1 ) = B1 . En raisonnant par r´currence. . X4 sont des v. et posons M1 = {B1 ∈ B1 : P (B1 ∩ C2 ∩ . . Yp = (Xnp−1 +1 . . . . P (Cn ). . les v. . n}. . Alors les tribus D1 = B1 ∨ · · · ∨ Bn1 = σ(B1 .a. P (B1 ∩ C2 ∩ . contenant Ω et telle que σ(Ci ) = Bi . P (Cn )}. les tribus B1 . A nouveau. 3 Z 2 = X2 + X4 115 .a. . . . .

e Ind´pendance d’une famille infinie. On dit que cette famille est ind´pendante si pour tout sous-ensemble fini {i1 . Xp+2 .3. . Il suffit d’appliquer la proposition pr´c´dente en prenant e e C1 = σ(X0 . . cette famille est dite ind´pene e dante si la famille de tribus (σ(Xi ))i∈I l’est. e e p. . e e (i) Si n∈N P (An ) < ∞. . 9. . Xp ) = B1 C2 = ∞ k=p+1 B2 = σ(Xp+1 .1 Soit (An )n∈N une suite d’´v´nements. . . . . les tribus Bi1 .) σ(Xp+1. Proposition 9. . {n ∈ N : ω ∈ An } est fini. Soit (Bi )i∈I une famille quelconque de sous-tribus e de A. Xp+2 . . . . Bip sont ind´pendantes. e e pour tout entier p ∈ N. . . 116 . Si (Xi )i∈I est une famille quelconque de variables al´atoires. . e Preuve. ip } e e de I. Xk ) ⊂ B2 et en remarquant que l’hypoth`se est satisfaite grˆce au principe du regroupement par pae a quets.3 Le lemme de Borel-Cantelli ∞ n=0 ∞ k=n Si (An )n∈N est une suite d’´v´nements on note e e lim sup An = et lim inf An = Ak ∞ n=0 ∞ k=n Ak Lemme 9. sont ind´pendantes. . . . .sont ind´pendantes. . . . Xp ) . les deux tribus B1 = σ(X0 .2. Alors. alors P (lim sup An ) = 0 ou de mani`re ´quivalente.5 Soit (Xn )n∈N une suite de variables al´atoires ind´pendantes.s.

e e p. (i) Si n∈N P (An ) < ∞. ∩ pk N) = P ((p1 . not´e P . . pk sont des nombres premiers distincts. P (Apj ). j=1 . Soit P l’ensemble des nombres premiers et pour e e tout p ∈ P. pk )N) = = p1 .s. . . . on a aussi P et. {n ∈ N : ω ∈ An } est infini. . e Deux applications. . Alors. .(ii) Si n∈N P (An ) = ∞ et si les ´v´nements An sont ind´pendants. k Comme cela est vrai pour tout n0 ∈ N. sont ind´pendants. il est facile de voir que les Ap . En effet. et observons que si n ≥ n0 . (ii) Fixons d’abord n0 ∈ N. notons Ap = pN l’ensemble des multiples de p. La divergence de la s´rie e P (Ak ) entraˆ alors que ıne P ∞ k=n0 Ac = 0. ∩ Apk ) = P (p1 N ∩ . . pk 117 k ∞ n0 =0 ∞ k=n0 ∞ n0 =0 ∞ k=n0 Ac k =0 Ak = 1. . si p1 . p ∈ P. . alors E n∈N 1 An = n∈N P (An ) < ∞ et donc n∈N 1An < ∞ p. e P ce qui est le r´sultat voulu. (1) Il n’existe pas de mesure de probabilit´ sur N telle que la probabilit´ e e de l’ensemble des multiples de n soit ´gale ` 1/n pour tout entier n ≥ 1. . n n n P k=n0 Ac k = k=n0 P (Ac ) k = k=n0 (1 − P (Ak )).s. en passant au compl´mentaire. Remarque. supposons e a qu’il existe une telle probabilit´. En effet. avec 0 < P (A) < 1. comme le montre l’exemple trivial o` An = A pour tout n ∈ N. e 1 P (Ap1 ∩ . alors e e e P (lim sup An ) = 1 ou de mani`re ´quivalente. L’hypoth`se d’ind´pendance (ou une autre hypoth`se convenable) est n´cessaire e e e e dans (ii). . u Preuve.

d’o` le r´sultat voulu.Par ailleurs. . et soient i1 . 1 P (Xn = 0) = P (Xn = 1) = . e e (2) Consid´rons le cas o` e u (Ω. Xp = ip } = [ ij 2 . . . Xp = ip ) = p = 2 Or. . B([0. 118 (9. P ) = ([0. Xk+p = ip } = ∞. Les nombres Xk (ω) sont donc les coefficients du d´veloppement dyadique (propre) de ω. j=1 j=1 −j ij 2−j + 2−p [. on voit imm´diatement que e p p p P (Xj = ij ). Pour tout n ≥ 1.s. . il suffit ici de v´rifier que. 1} et on v´rifie u e e e e ais´ment par r´currence sur n que. o` [x] d´signe la partie enti`re d’un nombre r´el x. En effet. k=1 ω= ∞ k=1 Xk (ω) 2−k . λ). pour tout ω ∈ [0. p On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque a e tout (au sens de la probabilit´ P ) entier n appartient ` une infinit´ d’ensembles Ap . on observe que la suite (Xn )n≥1 est ind´pendante. 1[. . e e n 0≤ω− ce qui montre que Xk (ω)2−k < 2−n . Xn (ω) = [2n ω] − 2[2n−1 ω]. j=1 {X1 = i1 . ip ∈ {0. Alors. . on sait que P (Ap ) = p∈P p∈P 1 = ∞. . on a 1 P (X1 = i1 . 1[. En e explicitant l’ensemble {Xn = 1} on montre facilement que pour tout n ≥ 1. . 2 Enfin. . ip ∈ {0.2) . Alors Xn (ω) ∈ {0. . Card{k ≥ 0 : Xk+1 = i1 . 1[. A. . . et donc e est multiple d’une infinit´ de nombres premiers distincts. . u e Soit p ≥ 1 un entier quelconque. . 1}. . on pose ∀ω ∈ [0. . . . 1}. 1[). . C’est ´videmment absurde. le lemme de BorelCantelli permet de voir que p. e e pour tous i1 .

.Cela montre qu’une suite finie donn´e de 0 et de 1 apparaˆ une infinit´ de fois dans e ıt e le d´veloppement dyadique de presque tout (au sens de la mesure de Lebesgue) r´el de e e l’intervalle [0. . . En particulier. pour presque tout r´el x de [0. Nous regroupons d’abord quelques e e e propri´t´s importantes sous la forme d’une proposition. et donc. . ip )} qui sont ind´pendants et tous de probabilit´ 2−p . e e Les sommes de variables al´atoires ind´pendantes jouent un rˆle important en th´orie des e e o e probabilit´s. KX+Y = KX + KY . E[ϕ(X+Y )] = ϕ(x+y) P(X. e e e (ii) La fonction caract´ristique de X+Y est ΦX+Y (ξ) = ΦX (ξ)ΦY (ξ). . Xnp+2. 1[. . . si d = 1. pour e toute fonction mesurable positive ϕ sur Rd . Si µ et ν sont deux mesures de ee probabilit´ sur Rd . y) −→ x + y : e pour toute fonction mesurable positive ϕ sur Rd . e Yn = (Xnp+1. on peut renforcer (9. 1[. (De mani`re ´quivalente. Autrement dit.4. ıt e e 9. . on note µ ∗ ν la mesure-image de µ ⊗ ν par l’application (x. 1}. (i) Si X et Y sont ind´pendantes.s. . En particulier. . . . Preuve. Pour ´tablir (9. Rd Rd Rd Proposition 9.Y ) = PX ⊗ PY . ϕ(z) µ ∗ ν(dz) = ϕ(x + y) µ(dx)ν(dy).Y ) (dxdy) = ϕ(x+y) PX (dx)PY (dy) = 119 ϕ(z) PX ∗PY (dz) . e e Puisqu’une r´union d´nombrable d’ensembles de probabilit´ nulle est encore de probae e e bilit´ nulle.2). pour tout entier n ∈ N. X + Y a pour densit´ pX ∗ pY . ip ∈ {0. µ ∗ ν = µ ν . il suffit de poser. Card{k ≥ 0 : Xk+1 = i1 . . Xnp+p ).) e ˆˆ (iii) Si X et Y sont de carr´ int´grable.1 Soient X et Y deux variables al´atoires ind´pendantes ` valeurs dans e e a Rd .2) sous la forme e p. et seront ´tudi´es dans le chapitre suivant. si X a une densit´ not´e pX et Y a une e e densit´ not´e pY . et e le r´sultat recherch´ d´coule d’une application du lemme de Borel-Cantelli ` la suite des e e e a ´v´nements e e An = {Yn = (i1 . Le principe du regroupement par paquets montre que la suite (Yn )n∈N est ind´pendante. .4 Sommes de variables al´atoires ind´pendantes. (i) La loi de X + Y est PX ∗ PY . ∀i1 . . ∀p ≥ 1. e e var(X + Y ) = var(X) + var(Y ). Xk+p = ip } = ∞. e e e d si µ et ν sont deux mesures de probabilit´ sur R . n’importe quelle suite finie de 0 et de 1 e apparaˆ une infinit´ de fois dans le d´veloppement dyadique de x. . on sait que P(X.

a. Yj ) = 0 pour tous i. c’est-`-dire une convergence simple en dehors d’un u a ensemble de probabilit´ nulle (on parle alors de loi forte). .par d´finition de PX ∗ PY . . n→∞ n e e Preuve. Nous donnons un premier ´nonc´ e e e allant dans ce sens. . d}.4. e e e cov(Xi + Yi. Xn ont mˆme loi. l’ind´pendance de X et Y entraˆ que e ıne cov(Xi . e E 1 (X1 + · · · + Xn ) − E[X1 ] n 2 1 (X1 + · · · + Xn ) = E[X1 ]. e (ii) Il suffit d’´crire e ΦX+Y (ξ) = E[eiξX eiξY ] = E[eiξX ] E[eiξY ] = ΦX (ξ)ΦY (ξ). Xm ) = 0 d`s que n = m. alors que d’un point de vue probabiliste il est plus significatif e e d’avoir une convergence presque sˆ re. e e e Proposition 9. n→∞ n 120 qui tend vers 0 quand n → ∞. (iii) Si X = (X1 . . Si de plus X et Y ont une densit´. Au lieu de l’ind´pendance. ce qui est beaucoup plus faible. par bilin´arit´. . Si E[X1 ] < ∞. et supposons de plus e e e e e 4 que E[X1 ] < ∞. . Th´or`me 9. il suffit qu’on ait cov(Xn . En cons´quence. . e e E[ϕ(X + Y )] = ϕ(x + y) pX (x)pY (y)dxdy = ϕ(z) pX (x)pY (z − x)dx dz. .4. e e Au lieu de supposer que les v. on a e e e e 1 L2 (X1 + · · · + Xn ) −→ E[X1 ]. . qui sera consid´rablement am´lior´ dans le chapitre suivant.2 (Loi faible des grands nombres) Soit (Xn )n≥1 une suite de variables e e 2 al´atoires r´elles ind´pendantes et de mˆme loi. Xj ) + cov(Yi . Xj + Yj ) = cov(Xi . . ce qui montre bien que X + Y a pour densit´ pX ∗ pY (remarquer que pX ∗ pY est ici bien e d´finie presque partout comme convolution de deux fonctions de L1 (Rd . . E En cons´quence. Yj ) ce qui donne bien KX+Y = KX + KY . λ)). n 1 1 = 2 var(X1 + · · · + Xn ) = 2 n n n var(Xj ) = j=1 1 var(X1 ) n Remarque. Par lin´arit´. La preuve montre que le r´sultat reste vrai sous des hypoth`ses bien plus faibles. e Le mot “faible” dans la loi faible des grands nombres renvoie au fait que la convergence du th´or`me a lieu dans L2 . Yd ). il suffit de demander que E[Xn ] = E[X1 ] e 2 e e pour tout n et que la suite E[Xn ] soit born´e. . Alors on a presque sˆrement u 1 (X1 + · · · + Xn ) −→ E[X1 ]. j ∈ {1. .3 Reprenons les hypoth`ses du th´or`me pr´c´dent. Xd ) et Y = (Y1 .

Preuve.. e e Revenons ` la deuxi`me application du lemme de Borel-Cantelli donn´e ci-dessus. En utilisant le fait que les Xk ıt ont mˆme loi. e e e pour tous i1 .n} En utilisantl’ind´pendance et la propri´t´ E[Xk ] = 0. . . ip )} −→ p . . i3 . 1 1 Card{j ≤ n : Yj (ω) = (i1 . . n n=1 ce qui entraˆ l’assertion de la proposition. .. sont ind´pendantes et de mˆme loi.s. ..s. n→∞ 2 n 121 .. ıne ∞ Corollaire 9. On d´duit alors du corollaire que. n→∞ n i=1 Ce corollaire fait le lien entre notre approche axiomatique moderne et la d´finition hise torique de la probabilit´ comme fr´quence d’apparition d’un ´v´nement quand on r´p`te un e e e e e e grand nombre de fois une exp´rience al´atoire. n n=1 En intervertissant somme et esp´rance. i1 . ∞ ∞ 1 ( (X1 + · · · + Xn ))4 < ∞ . i4 ) apparaˆ au moins deux fois dans ce quadruplet. Xp ). X2p ).. .. i2 . qui a e e concernait le d´veloppement dyadique e ω= ∞ k=1 Xk (ω) 2−k d’un r´el ω ∈ [0. . 1[. Il en d´coule que e 1 E[( (X1 + · · · + Xn ))4 ] < ∞. . 1}.s.4 Si (An )n≥1 est une suite d’´v´nements ind´pendants de mˆme probabilit´. Alors. on obtient e E d’o` u 1 ( (X1 + · · · + Xn ))4 < ∞. e e e e e on a n 1 p. . ..4. . dω p.. Quitte ` remplacer Xn par Xn − E[Xn ]. . a 1 1 E[( (X1 + · · · + Xn ))4 ] = 4 n n E[Xi1 Xi2 Xi3 Xi4 ]. on voit que les seuls termes non nuls e ee de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet (i1 . on peut supposer que E[Xn ] = 0. Y1 = (X1 . 1Ai −→ P (A1 ). . ip ∈ {0. Si p ≥ 1 est fix´. . n n=1 p. . .i4 ∈{1.a. on trouve e C 1 1 4 2 2 E[( (X1 + · · · + Xn ))4 ] = 4 nE[X1 ] + 3n(n − 1)E[X1 X2 ] ≤ 2 n n n pour une certaine constante C < ∞. on a vu que les v. . . Y2 = e e (Xp+1.

. . on montre qu’un objet pris au hasard (selon une loi de ee probabilit´ bien choisie) v´rifie les propri´t´s en question. ∀t.4. Xp+ℓ−1). X(j+1)p+ℓ−1 (ω) = ip } −→ p . . alors X + Y a pour loi µt+t′ (cf la premi`re proposition de cette partie). t′ ∈ I. ∀t ∈ I.1 Soit (µt )t∈I une famille de mesures de probabilit´ sur R (ou sur Rd ). .s. . . le mˆme argument appliqu´ aux v. pour presque tout r´el ω de [0. µt (ξ) = exp(−tϕ(ξ)). . . . . e e ee ∀p ≥ 1. D´finition 9. . 1[. Xℓ+1 . e e 122 . . En fait. . ∀i1 . .4. X2p+ℓ−1).a. . p}. . Xp+ℓ+1. . la fr´quence d’apparition de n’importe e e quel bloc de longueur finie de 0 et de 1 dans le d´veloppement dyadique de ω existe et est e ´gale ` 2−p si p est la longueur du bloc. Remarquons qu’il n’est pas facile d’exhiber un r´el e a e ω pour lequel la propri´t´ (9. e Lemme 9. . ˆ • si I = R. . . . 1}. . Ceci est typique e e e e de l’application des probabilit´s ` des probl`mes d’existence : pour ´tablir l’existence d’un e a e e objet ayant certaines propri´t´s. n→∞ 2 n En combinant ces r´sultats on trouve e dω p. ˆ La preuve est imm´diate puisque si µt a la forme donn´e. Xk+p (ω) = ip } −→ p . . Comme une r´union d´nombrable d’ensembles de probabilit´ nulle est encore de probabilit´ e e e e nulle. . 1 1 Card{j ≤ n : Xjp+ℓ(ω) = i1 . n→∞ 2 n (9.Pour chaque ℓ ∈ {1. . le moyen le plus rapide pour prouver ee que de tels r´els existent est tr`s certainement le raisonnement qui pr´c`de. n→∞ 2 n 1 1 Card{k ≤ n : Xk+1 (ω) = i1 . . .3) Autrement dit. Y a pour loi µt′ et si X et Y sont e e ind´pendantes. . pour tout ω ∈ [0. . ∀t ∈ I. ip ∈ {0. µt (ξ) = ϕ(ξ)t . Semigroupes de convolution Soit I = N ou I = R+ . . e e (Xp+ℓ .5 Pour que (µt )t∈I soit un semigroupe de convolution. Xk+p (ω) = ip } −→ p . on a aussi.s. on a imm´diatement e ˆ e e ˆ ˆ µt+t′ = µt µt′ = µt ∗ µt′ ˆ et l’injectivit´ de la transform´e de Fourier donne µt+t′ = µt ∗ µt′ . . 1[ sauf sur un ensemble de mesure nulle : 1 1 Card{k ≤ n : Xk+1 (ω) = i1 . (Xℓ .3) soit vraie. conduit ` a dω p. On e e dit que (µt )t∈I est un semigroupe de convolution si µ0 = δ0 et si µt ∗ µt′ = µt+t′ . L’interpr´tation probabiliste est que si X a pour loi µt . il suffit qu’il existe une fonction ϕ : R −→ C telle que : • si I = N.

) e Plus g´n´ralement toute combinaison lin´aire de variables al´atoires gaussiennes ind´pene e e e e dantes est encore gaussienne. o e La propri´t´ µn+m = µn ∗ µm est imm´diate ` partir de l’interpr´tation probabiliste de ee e a e la loi binˆmiale. pour tout t > 0. alors e e ′ ′ X + X suit la loi de Poisson de param`tre λ + λ . σ ′2 ).Exemples. (2) I = R+ et. e µt (ξ) = ˆ ∞ k=0 tk ikξ −t e e = exp(−t(1 − eiξ )). p) (on a fix´ p ∈ [0. µn est la loi binˆmiale B(n. 123 . On a d´j` calcul´ dans ea e le Chapitre 8 tξ 2 µt (ξ) = exp(− ). alors X + X ′ suit la loi gaussienne N (m + m′ . e • si X suit la loi gaussienne N (m. (On se ram`ne au cas m = m′ = 0 en e consid´rant X − m et X ′ − m′ . Alternativement on peut utiliser le lemme en remarquant que µn (ξ) = o ˆ iξ n (pe + 1 − p) . (1) I = N et. σ 2 + σ ′2 ). µt est la loi Gaussienne N (0. µt est la loi de Poisson de param`tre t. t). ˆ 2 Cons´quence importante. σ 2 ) et X ′ suit la loi gaussienne N (m′ . Dans ce cas. r´elles ind´pendantes et e e e • si X suit la loi de Poisson de param`tre λ et X ′ la loi de Poisson de param`tre λ′ .a. pour tout n ∈ N∗ . pour tout t ∈ R+ . 1]). k! (3) I = R+ et. Si X et Y sont deux v.

124 .

et les liens existant entre ces notions.1 Soit L0 d (Ω. Y ) = E[|X − Y | ∧ 1] 125 . On ´tablit ensuite la loi forte des grands e e nombres. pour p ∈ [1.1.1 Les diff´rentes notions de convergence e Soient (Xn )n≥1 . et le th´or`me important reliant e e e cette convergence ` celle des fonctions caract´ristiques. P ) son quotient par la relation d’´quivalence X ∼ Y ssi X = Y e p. n→∞ Lp et. qui est l’un des deux th´or`mes limites fondamentaux de la th´orie des probabilit´s. si P ({ω ∈ Ω : X(ω) = lim Xn (ω)}) = 1. X des variables al´atoires ` valeurs dans Rd . P ). n→∞ lim P (|Xn − X| > ε) = 0. n→∞ (P) D´finition 10. Alors. La notion de convergence en loi. et on note e e Xn −→ X n→∞ si pour tout ε > 0. permettent d’arriver au deuxi`me a e e th´or`me limite fondamental qui est le th´or`me central limite. ∞[. la formule d(X. Proposition 10. e e e e 10.1. en partie parce qu’il s’agit d’une e a convergence de mesures (ce sont les lois des variables al´atoires qui convergent et non les e variables elle-mˆmes). On a d´j` rencontr´ plusieurs notions de convergence de la suite (Xn ) e ea e vers X. A.s. A. e e e e Le troisi`me paragraphe pr´sente la convergence en loi des variables al´atoires : ce type de e e e convergence est sans doute le plus d´licat ` comprendre. En particulier Xn −→ X n→∞ p. Xn −→ X n→∞ si lim E[|Xn − X|p ] = 0. d´finies sur un espace de e a e probabilit´ (Ω.Chapitre 10 Convergence de variables al´atoires e La premi`re partie de ce chapitre pr´sente les diff´rentes notions de convergence de variables e e e al´atoires. et soit LRd (Ω.s. A. P ) l’espace de toutes les variables al´atoires ` valeurs e a R d 0 dans R .1 On dit que la suite (Xn ) converge en probabilit´ vers X.

P ) qui est compatible avec la convergence en probabilit´. vers X.s. ee e e Proposition 10. si la suite (Xn ) converge e en probabilit´ vers X. Nous reprenons cette e propri´t´ dans l’´nonc´ suivant. (vers la mˆme limite). d(Yk . X) tend vers 0.d´finit une distance sur L0 d (Ω. P (|Xn − X| > ε) ≤ ε−1 E[|Xn − X| ∧ 1] = ε−1 d(Xn . pour e tout ε ∈]0. X) −→ 0.s. Preuve. si la suite (Xn ) converge en probabilit´ vers X. u e 0 l’espace LRd (Ω. et cela est aussi e e vrai pour la suite de d´part (Xn ).s. A. X) −→ 0. De plus. vers X. Alors E[ ∞ k=1 ∞ k=1 (|Yk+1 (|Yk+1 − Yk | ∧ 1)] = ∞ k=1 d(Yk . ou dans Lp . X) ≤ ε. X dans L0 en posant e X = Y1 + ∞ k=1 (Yk+1 − Yk ). On peut trouver une sous-suite Yk = Xnk telle que. Donc la suite (Yk ) converge en probabilit´ vers X. X) = E[|Yk − X| ∧ 1] −→ 0. et cela entraˆ ıne d(Yk . ce qui entraˆ ıne − Yk | ∧ 1) < ∞ p. la suite (Yk ) converge p. e e R au sens o` une suite (Xn ) converge en probabilit´ vers X ssi d(Xn . A. D’apr`s la d´finition de la convergence en probabilit´. elle converge aussi en probabilit´ vers X. Soit donc (Xn ) une suite de Cauchy a pour la distance d. k=1 (p. Inversement.s.s. X) −→ 0. k→∞ par convergence domin´e. De plus. si d(Xn .2 Si la suite (Xn ) converge p. il existe e e une sous-suite (Xnk ) qui converge p.s. on a pour tout ε > 0.s. il ne peut y avoir qu’un nombre fini de valeurs de k pour lesquelles |Yk+1 − Yk | ≥ 1). P ) est complet pour la distance d. Par construction. Inversement. cela entraˆ lim sup d(Xn . Yk+1) ≤ 2−k . 126 ... Il est facile de v´rifier que d est une distance. et donc aussi ∞ |Yk+1 − Yk | < ∞ p.a. 1]. n→∞ Il reste ` voir que L0 est complet pour la distance d. e E[|Xn −X|∧1] ≤ E[|Xn −X|1{|Xn −X|≤ε} ]+E[(|Xn −X|∧1)1{|Xn −X|>ε} ] ≤ ε+P (|Xn −X| > ε). alors.1. et e e e ıne puisque ε ´tait arbitraire on a d(Xn . e La preuve pr´c´dente montre en particulier que de toute suite qui converge en probabilit´ e e e on peut extraire une sous-suite qui converge p. Yk+1) < ∞. On d´finit ensuite une v. vers X. pour tout k ≥ 1.

En r´sum´ la convergence en probabilit´ est plus faible a la fois que la convergence p. Pour la premi`re. Ensuite. vers E[X1 ]. X) ≤ Xn − X 1 p ≤ Xn − X p n→∞ −→ 0. ind´pendantes et de mˆme loi. il vient e e d’o` le r´sultat annonc´ puisque ε est arbitraire. r[ et tout ε > 0. d(Xn . pour tout e p ∈ [1.Preuve.3 Soit (Xn ) une suite de v.a. il existe une constante C telle que E[|Xn |r ] ≤ C pour tout n.a.s.s. o E[|Xn − X|p ] = E[|Xn − X|p 1{|Xn −X|≤ε} ] + E[|Xn − X|p 1{|Xn −X|>ε} ] ≤ εp + E[|Xn − X|r ]p/r P (|Xn − X| > ε)1−p/r ≤ εp + 2p C p/r P (|Xn − X| > ε)1−p/r . alors les moyennes n (X1 + · · · + Xn ) convergent p. ∞[ tel que la suite (Xn ) soit born´e dans Lr . la convergence en probabilit´ entraˆ la convergence p. e d(Xn .s. on a pour tout p ∈ [1. Supe posons qu’il existe r ∈]1. si Xn converge p.2. n→∞ par convergence domin´e.1 (Loi du tout ou rien) Soit (Xn )n≥1 une suite de variables al´atoires e e e ind´pendantes. et e e e ` que la convergence dans Lp pour n’importe quel p ∈ [1. Le e lemme de Fatou entraˆ alors E[|X|r ] ≤ C et donc X ∈ Lr . e Proposition 10. r[. e ıne et la proposition ci-dessous donne des conditions qui permettent de d´duire la convergence e p L de la convergence en probabilit´. k ≥ n). X) = E[|Xn − X| ∧ 1] −→ 0. Nous avons d´j` ea 4 obtenu ce r´sultat sous l’hypoth`se suppl´mentaire que E[|X1 | ] < ∞. mais nous cherchons e e e maintenant ` l’´tablir sous des hypoth`ses optimales. e Th´or`me 10. Preuve. La deuxi`me assertion a d´j` ´t´ vue. Par hypoth`se. lim sup E[|Xn − X|p ] ≤ εp n→∞ En utilisant l’hypoth`se de convergence en probabilit´. Alors. ∞[ (et a fortiori pour p = ∞). vers e eaee e X.2 La loi forte des grands nombres Notre objectif est de montrer que si (Xn ) est une suite de v. 127 . Pour tout n ≥ 1 soit Bn e a la tribu Bn = σ(Xk .1.s. pour une sous-suite. ` valeurs dans des espaces mesurables quelconques. en utilisant l’in´galit´ ıne e e de H¨lder. Nous commen¸ons par un r´sultat a e e c e pr´liminaire important. Si Xn converge dans L vers X. u e e 10. e e 1 1 dans L . la suite (Xn ) converge vers X dans Lp . Dans l’autre sens. convergeant en probabilit´ vers X.

P (B) = P (B ∩B) = e e 2 P (B) . 1 lim sup (X1 + · · · + Xn ) n→∞ n est mesurable par rapport ` B∞ . sup Sn = +∞ et inf Sn = −∞. 128 . Pour tout n ≥ 1. et cela entraˆ que cette variable (` valeurs dans [−∞. et pour tout B ∈ B∞ .). un autre r´sultat du Chapitre n=1 9 permet alors de conclure que B∞ est ind´pendante de e σ ∞ n=1 Dn = σ(Xn . nous e donnons d’abord une application plus facile au jeu de pile ou face.a. ∀A ∈ ∞ n=1 Dn . On a observ´ dans le Chapitre 9 que pour tout n. En particulier.a. Avant d’utiliser la loi du tout ou rien pour ´tablir la loi forte des grands nombres. En particulier. (sa fonction de r´partition ne peut prendre que les deux valeurs 0 ou 1).s. ∞]) a ıne a 1 est constante p. ∀B ∈ B∞ . n≥1 n≥1 En particulier. posons e S n = X1 + X2 + · · · + X n . Ainsi. il existe p.s. ce qui n’est possible que si P (B) = 0 ou 1.s. des entiers n arbitrairement grands tels que Sn = 0. Dn est ind´pendante de Bn+1 . e Puisque la classe ∞ Dn est stable par intersections finies.s. Alors. la limite est constante (p. r´elles ind´pendantes.2 Soit (Xn )n≥1 une suite de variables al´atoires ind´pendantes .s. n ≥ 1). Proposition 10.Alors la tribu asymptotique B∞ d´finie par e B∞ = ∞ n=1 Bn est grossi`re.2.a. Il e e e e a e e est facile de voir que la v. de mˆme e e e 1 loi donn´e par P (Xn = 1) = P (Xn = −1) = 2 . P (A ∩ B) = P (A)P (B). e u Preuve. On v´rifie ais´ment qu’une v. r´elle mesurable par rapport ` une tribu grossi`re est e e e a e constante p. donc a e e fortiori de B∞ .s. Posons Dn = σ(Xk . On e peut appliquer le th´or`me pr´c´dent ` toute suite (Xn )n≥1 de v. B∞ est ind´pendante d’elle-mˆme. au sens o` P (B) = 0 ou 1 pour tout B ∈ B∞ . p. k ≤ n). si on sait que la suite n (X1 + · · · + Xn ) converge p.

o e Preuve. de mˆme loi. e e a c’est-`-dire B∞ . La loi du tout ou rien montre alors que P ({supn Sn = ∞}) = 1. n→∞ n 129 . pour tout entier k ≥ 1. on e e e e remarque que {sup Sn = ∞} ∈ B∞ . Sn repr´sente le gain (positif ou n´gatif) accumul´ apr`s e e e e e n instants. n En effet. La proposition montre que quand n → ∞. pour tout entier p ≥ 1. dans L1 . e e e 1 p. Alors. Sn prend tantˆt des valeurs positives o tantˆt des valeurs n´gatives. Pour conclure. e e e En faisant tendre p vers ∞.En d’autres termes si on imagine un jeu o` ` chaque instant entier le joueur gagne ou ua perd un Euro avec probabilit´ 1/2. n n d’o` u P ({inf Sn = −∞} ∪ {sup Sn = ∞}) = 1. on trouve P ({inf Sn > −∞} ∩ {sup Sn < ∞}) = 0. n n Pour cela on fixe un entier k > 2p. e Th´or`me 10. n n et en particulier P ({inf Sn = −∞}) + P ({sup Sn = ∞}) ≥ 1. {sup Sn = ∞} = {sup(Xk + Xk+1 + · · · + Xn ) = ∞} ∈ Bk n n≥k et donc l’´v´nement {supn Sn = ∞} est mesurable par rapport ` l’intersection des tribus Bk . On commence par montrer que. P (−p ≤ inf Sn ≤ sup Sn ≤ p) = 0. (X1 + · · · + Xn ) −→ E[X1 ].2. ce qui donne le r´sultat annonc´.3 (Loi forte des grands nombres) Soit (Xn )n≥1 une suite de variables e e al´atoires ind´pendantes. de plus en plus grandes en valeur absolue. n n Un argument de sym´trie montre que e P ({inf Sn = −∞}) = P ({sup Sn = ∞}) n n et d’apr`s ce qui pr´c`de ces deux probabilit´s sont strictement positives. n n Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements analogues) montre que l’ensemble de gauche a probabilit´ 1. et on remarque que ∞ j=0 {Xjk+1 = Xjk+2 = · · · = Xjk+k = 1} ⊂ ({−p ≤ inf Sn ≤ sup Sn ≤ p})c . a Nous passons maintenant au r´sultat principal de ce paragraphe.s.

.a.s. (i) L’hypoth`se d’int´grabilit´ est optimale dans le sens o` elle est n´cessaire e e e u e pour que la limite E[X1 ] soit bien d´finie (et finie). (10. Pour all´ger les notations on pose Sn = X1 + · · · + Xn .s. n→∞ n p. ` valeurs dans [0. e e (ii) On peut montrer que la convergence du th´or`me a aussi lieu dans L1 .Remarques. l’´v´nement {M < ∞} est dans la tribu B∞ .s.1) Puisque l’in´galit´ Sn ≤ na + M est vraie pour tout n. p. avec les notations de la loi du tout a ou rien. . S0 = 0.s. 130 . Soit a > E[X1 ]. Xn ∧ K. {M < ∞} = {sup(Sn − na) < ∞} = {sup(Sn − Sk − (n − k)a) < ∞} n∈N n≥k et de remarquer que le dernier ´v´nement est mesurable pour la tribu σ(Xk+1. . Nous allons montrer que a M <∞. ou de mani`re ´quivalente que e e P (M = ∞) < 1. On remarque d’abord que.). ce que nous ferons en raisonnant par l’absurde.1). n→∞ n p. Xn sont positives e u et E[X1 ] = ∞.a. En effet. il en d´coule aussitˆt que e e e o 1 lim sup Sn ≤ a . Nous ne donnerons e e pas la preuve ici (elle sera donn´e ` la fin du chapitre 12 en application de la th´orie des e a e martingales). on obtient l’in´galit´ inverse c e e lim inf n→∞ 1 Sn ≥ E[X1 ] . En consid´rant une suite de valeurs de a qui d´croˆ vers E[X1 ]. on trouve alors e e ıt 1 lim sup Sn ≤ E[X1 ] . Xk+2 . on montre facilement que 1 p. Dans le cas o` les v.s. et e M = sup(Sn − na) n∈N qui est une v. il suffit d’´crire pour tout e e e entier k ≥ 0. Du point de vue probabiliste. (X1 + · · · + Xn ) −→ +∞ n→∞ n en appliquant le th´or`me aux v. e e Pour conclure il suffira donc de montrer que P (M < ∞) > 0. Preuve. En rempla¸ant Xn par −Xn . n p. c’est la convergence presque sˆ re qui a le plus u de signification.a. ∞]. e e e e e e e e Il reste ` montrer (10. et l’´nonc´ du th´or`me d´coule de ces deux derni`res in´galit´s.

. . On peut maintenant appliquer le th´or`me de a a e e e e ′ convergence domin´e ` la suite des v. qui sont domin´es en valeur absolue e a e ′ par |a − X1 | (rappelons que Mk ≥ 0). Il en d´coule que e e e M = lim ↑ Mk k→∞ et ′ M ′ = lim ↑ Mk k→∞ ′ ont aussi mˆme loi (´crire P (M ≤ x) = lim ↓ P (Mk ≤ x) = lim ↓ P (Mk ≤ x) = P (M ≤ x)). . Pour tout entier k ∈ N. ce qui est absurde puisqu’on a choisi a > E[X1 ]. Il vient alors ′ E[inf(a − X1 . 0≤n≤k ′ Alors Mk et Mk ont mˆme loi : en effet d’une part les vecteurs (X1 . Xk+1) e ′ ont mˆme loi et d’autre part on peut ´crire Mk = Fk (X1 . et donc inf(a − X1 . Mk ). ′ Puisque Mk a mˆme loi que Mk (et que ces deux v. 10. inf(a − X1 . Mk + X1 − a). 1≤n≤k+1 ′ sup (Sn − na) = sup(0.3 La convergence en loi Rappelons que Cb (Rd ) d´signe l’espace des fonctions continues born´es de Rd dans R. on trouve e ′ ′ E[inf(a − X1 . M ′ ) = a − X1 p.Commen¸ons par quelques notations. qu’on e e munit de la norme sup ϕ = sup |ϕ(x)|. . . ce qu’on peut encore r´´crire sous la forme ee ′ ′ Mk+1 = Mk − inf(a − X1 . . M ′ )] = lim E[inf(a − X1 . Xk+1) e e k avec la mˆme fonction (d´terministe) Fk : R −→ R. M et M ′ ont mˆme loi. . posons c Mk = sup (Sn − na). Mk ). .a. Xk ) et (X2 . x∈Rd 131 . sont clairement dans L1 ). on aurait aussi P (M ′ = ∞) = 1. . Mk )] = E[Mk ] − E[Mk+1 ] = E[Mk ] − E[Mk+1 ] ≤ 0 grˆce ` l’in´galit´ triviale Mk ≤ Mk+1 . .a. . . e e ′ Mk+1 = sup 0. Xk ) et Mk = Fk (X2 . il d´coule des d´finitions que pour tout k ≥ 1.a. Cette contradiction termine la preuve. . 0≤n≤k ′ Mk = sup (Sn+1 − S1 − na). puisque les v. . Mais alors l’in´galit´ pr´c´dente donnerait e e e e e E[a − X1 ] ≤ 0. e e Par ailleurs. k→∞ Si on avait P (M = ∞) = 1. . Mk )] ≤ 0. .s.

Rd dx p. alors Xn converge en loi vers la loi uniforme 2 sur [0.a. e e e e n 1 2 (c) Si Xn est de loi uniforme sur { 2n . (Xn ) converge en loi vers a X. 1]. Xn et X sont ` valeurs dans Zd .a. e (ii) L’espace des mesures de probabilit´ sur Rd peut ˆtre vu comme un sous-ensemble du e e d ∗ dual Cb (R ) . pn (x) ≤ q(x) . car la v. . Une suite (Xn ) de v. .a. Ce r´sultat d´coule de l’approximation de l’int´grale d’une fonction continue par e e e ses sommes de Riemann.1 Une suite (µn ) de mesures de probabilit´ sur Rd converge ´troitement e e e vers une mesure de probabilit´ µ sur Rd (on note µn −→ µ) si e ∀ϕ ∈ Cb (Rd ) .a. X ` valeurs dans Rd a a e e a (on note Xn −→ X) si la suite (PXn ) converge ´troitement vers PX .D´finition 10. (i) Il y a un abus de langage ` dire que la suite de v.3.a.a. n→∞ Remarques. si on suppose a e pn (x) −→ p(x) .a. (loi) (e) ϕ dµn −→ n→∞ ϕ dµ. alors Xn converge en loi vers X a si et seulement si ∀x ∈ Zd .p. E[ϕ(Xn )] −→ E[ϕ(X)]. q(x)dx < ∞ et dx p. La convergence ´troite correspond alors ` la topologie faible * sur le dual e a (topologie de la convergence simple. 2n }. . (Xn ) converge en loi vers µ mesure de probabilit´ e e d e sur R . . ce qui rend la convergence en loi tr`s diff´rente des autres e e e e convergences discut´es ci-dessus. (a) Si les v. Cela e e d´coule du th´or`me de convergence domin´e. e a 132 .a.a. e Notons aussi qu’on peut consid´rer la convergence en loi de v. σn ) et si σn −→ 0. et Xn converge en loi vers la loi p(x)dx. ce qui sera ´tabli plus tard. ` valeurs dans Rd converge en loi vers une v. qu’on peut remplacer Cb (Rd ) par Cc (Rd ) dans la d´finition de la convergence e e ´troite). alors Xn converge en loi vers la v. les ´l´ments du dual ´tant vus comme des fonctions sur ee e Cb (Rd )). P (Xn = x) −→ P (X = x) n→∞ (l’implication ⇐ demande un petit raisonnement : l’argument est facile si on sait. 2n . constante ´gale ` 0. Exemples. ` densit´. e (b) Si les Xn sont des v. limite X n’est pas d´finie de mani`re unique : seule sa loi PX l’est (pour cette e e raison on ´crira parfois qu’une suite de v. et il faudra ´videmment comprendre que la suite (PXn ) converge ´troitement vers µ). 2 (d) Si Xn est de loi gaussienne N (0. Cela ´quivaut encore ` ∀ϕ ∈ Cb (Rd ) . et s’il existe une fonction q ≥ 0 telle que ∀n . PXn (dx) = pn (x)dx. d´finies sur des espaces de e e probabilit´ diff´rents (ici nous supposerons toujours implicitement qu’elles sont d´finies sur e e e le mˆme espace de probabilit´).p. alors p est une densit´ de probabilit´ sur Rd .

e (ii) Pour tout ouvert G de Rd . raisonnons par l’absurde en supposant que Xn ne converge pas en loi e e vers X. il existe une sous-sous-suite (nkℓ ) e e e telle que (Xnkℓ ) converge p.3.s. si Xn converge en loi vers a ∈ R . C’est le cas o` la u e u d v. (iii) Pour tout ferm´ F de Rd . On peut trouver une sous-suite (nk ) et ε > 0 tels que |E[ϕ(Xnk )] − E[ϕ(X)]| ≥ ε pour tout k. lim inf µn (G) ≥ sup lim inf n→∞ p n→∞ P (Xn ∈ B) −→ P (X ∈ B) ϕp dµn = sup p ϕp dµ = µ(G). En effet. Preuve. Il existe un cas o` la r´ciproque de la proposition est vraie.a. e Proposition 10. e (i) La suite (µn ) converge ´troitement vers µ. Commen¸ons par montrer (i)⇒(ii). ıne u e Dans le cas g´n´ral. Mais. e Si (Xn ) est une suite de v.Proposition 10. µ des mesures de probabilit´ sur Rd . Les quatre assertions e suivantes sont ´quivalentes. il d´coule de e la propri´t´ (ii) de la proposition qui suit que pour tout ε > 0. e lim sup µn (F ) ≤ µ(F ). Alors. limite X est constante (p. d’apr`s un r´sultat de la partie 1.). ϕ(Xn ) converge p. donc qu’il existe une fonction ϕ ∈ Cb (Rd ) telle que E[ϕ(Xn )] ne converge pas vers E[ϕ(X)].2 Soient (µn ).s. Gc ) ∧ 1 ). Remarque. 133 . vers X.s. vers X. On a cependant e le r´sultat suivant. on peut trouver une c suite (ϕp ) de fonctions continues born´es telles que 0 ≤ ϕp ≤ 1G et ϕp ↑ 1G (par exemple e ϕp (x) = p dist(x. d’o` la convergence en loi recherch´e.1 Si la suite (Xn ) converge en probabilit´ vers X alors la suite (Xn ) e converge en loi vers X. ee lim inf PXn (B(a. il n’est pas toujours vrai qu’on ait pour tout bor´lien B de Rd (prendre B = {0} dans l’exemple (d) ci-dessus). vers ϕ(X) et donc le th´or`me de convergence domin´e e e e entraˆ E[ϕ(Xn )] −→ E[ϕ(X)]. lim inf µn (G) ≥ µ(G). Alors.s. e lim µn (B) = µ(B). ε) est la boule ouverte de centre a et de rayon ε. Supposons d’abord que Xn converge p.3. ε)) ≥ 1 n→∞ o` B(a. (iv) Pour tout bor´lien B de Rd tel que µ(∂B) = 0. pour toute fonction ϕ ∈ Cb (Rd ).a. Preuve. Si G est un ouvert de Rd . C’est exactement dire que Xn u converge en probabilit´ vers a. convergeant en loi vers X. La premi`re partie de la preuve donne alors une contradiction.

dt p. on a pour tout x ∈ R. lim sup µn (B) ≤ lim sup µn (B) ≤ µ(B) lim inf µn (B) ≥ lim inf µn (B) ≥ µ(B). Donc (iv) entraˆ ıne µn (Etϕ ) −→ µ(Etϕ ) .p.L’´quivalence (ii)⇔(iii) est imm´diate par passage au compl´mentaire. Si µ(∂B) = 0 on a µ(B) = µ(B) = µ(B) et on obtient (iv). 134 . Il reste ` montrer l’implication (iv)⇒(i). Quitte ` d´composer ϕ = a a e + − ϕ − ϕ on peut supposer ϕ ≥ 0. Si B ∈ B(R ). Une suite (Xn ) de v. L’implication ⇒ d´coule imm´diatement de la propri´t´ (iv) ci-dessus. lim sup FXn (x) ≤ FX (x). Il suffit ensuite d’´crire un ouvert quelconque comme r´union d´nombrable disjointe d’intervalles ouverts pour aboutir au e e r´sultat d´sir´. u lim inf FXn (x−) ≥ FX (x−). et qu’il existe au plus une infinit´ d´nombrable Remarquons que e e de valeurs de t telles que µ({x ∈ Rd : ϕ(x) = t}) > 0 ∂Etϕ et par convergence domin´e on obtient e K ϕ(x)µn (dx) = 0 µn (Etϕ )dt −→ K 0 n→∞ µn (Etϕ )dt = ϕ(x)µ(dx). Soit ϕ ∈ Cb (Rd ). Soit K > 0 tel que 0 ≤ ϕ ≤ K. e K ϕ(x)µn (dx) = 0 µn (Etϕ )dt. r´elles converge en loi vers une v. n→∞ ⊂ {x ∈ Rd : ϕ(x) = t}. Dans e e ee l’autre sens. on observe que sous la condition de convergence des fonctions de r´partition (en e tout point o` FX est continue).a. 1 (en effet il y a au plus k valeurs distinctes de t telles que µ({x ∈ Rd : ϕ(x) = t}) ≥ k ).a. Alors le th´or`me de e e Fubini montre que K K ◦ ◦ ◦ ϕ(x)µ(dx) = 0 1{t≤ϕ(x)} dt µ(dx) = µ(Etϕ )dt. De mˆme. e e e d Montrons que (ii) et (iii) entraˆ ınent (iv). pour tout n. 0 o` u Etϕ = {x ∈ Rd : ϕ(x) ≥ t}. X si et seulement e e u si les fonctions de r´partition FXn (x) convergent vers FX (x) en tout point x o` FX est e continue. Cons´quence. Il d´coule de cette observation que la condition (ii) de la proposition est satisfaite pour e e µn = PXn et µ = PX lorsque G est un intervalle ouvert. e e e Rappelons la notation Cc (Rd ) pour l’espace des fonctions continues ` support compact a sur Rd .

pour tout k ≥ 1. ϕfk dµn ≤ ϕfk dµ ≤ sup |ϕ(x)| x∈R 1− 1− fk dµn . ϕdµn − ϕdµ − Donc.3. Les propri´t´s e ee suivantes sont ´quivalentes : e (i) La suite (µn ) converge ´troitement vers µ. sup |ϕ(x)| x∈R ϕ dµn − ϕ dµ ≤ sup |ϕ(x)| x∈R x∈R lim sup(1 − n→∞ fk dµn ) + (1 − fk dµ) = 2 sup |ϕ(x)| (1 − fk dµ) . e Il reste ` montrer (iii)⇒(ii). d’o` la propri´t´ (ii).3 Soient (µn ) et µ des mesures de probabilit´ sur Rd . e (ii) On a ∀ϕ ∈ Cc (Rd ) . Soit H un souse ensemble de Cb (Rd ) dont l’adh´rence (pour la norme sup) contient Cc (Rd ). Mais alors. pour tout k. fk dµ . Il est ´vident que (i)⇒(ii) et (i)⇒(iii). Il suffit maintenant de faire tendre k vers ∞ pour trouver que ϕdµn converge vers ϕdµ. u ee . lim sup n→∞ n→∞ ϕfk dµ. ϕfk ∈ Cc (Rd ) et donc ϕfk dµn −→ Par ailleurs. lim sup | n→∞ n→∞ ϕdµn − ϕdµ| ϕk dµn | + | ϕk dµn − ϕk dµ| + | ϕk dµ − ϕdµ| ≤ 2 . ϕ dµn −→ n→∞ ϕ dµn −→ n→∞ ϕ dµ. Preuve. Supposons ensuite que (ii) est satisfaite. Ensuite. a ee d si ϕ ∈ Cc (R ).Proposition 10. e d Soit ϕ ∈ Cb (R ) et soit (fk ) une suite de fonctions dans Cc (Rd ) telles que 0 ≤ fk ≤ 1 et fk ↑ 1 quand k → ∞. on peut pour chaque entier k ≥ 1 trouver une fonction ϕk ∈ H telle que ϕ − ϕk ≤ 1/k. ϕ dµ. (iii) On a ∀ϕ ∈ H . On suppose donc que la propri´t´ (iii) est satisfaite. et on a ´tabli (i). k ≤ lim sup | ϕdµn − Comme k est arbitraire cela donne ϕdµn −→ 135 ϕdµ. Alors pour tout k.

4 (L´vy) Une suite (µn ) de mesures de probabilit´ sur Rd converge ´troitee e e e e ment vers une mesure de probabilit´ µ sur Rd si et seulement si e ∀ξ ∈ Rd . la d´finition mˆme de cette convergence assure que e e e ∀ξ ∈ Rd . e e e Soit f ∈ Cc (R) et pour tout σ > 0 soit 1 x2 gσ (x) = √ exp(− 2 ). Puisque µn (ξ) → µ(ξ) pour tout ξ ∈ R. si on suppose que la suite (µn ) e converge ´troitement vers µ. Alors l’adh´rence de H dans Cb (Rd ) contient Cc (Rd ) (on a remarqu´ que si f ∈ Cc (Rd ). ΦXn (ξ) −→ ΦX (ξ). Finalement. e e Par ailleurs.3. D’apr`s la proposition pr´c´dente. Pour all´ger l’´criture on traite seulement le cas d = 1. µn (ξ) = eiξ·x µn (dx) −→ n→∞ eiξ·x µ(dx) = µ(ξ). n→∞ Preuve. on peut utiliser la formule pr´c´dente e e e e et ` nouveau le th´or`me de convergence domin´e pour obtenir que a e e e gσ ∗ f dµn −→ n→∞ gσ ∗ f dµ. soit H le sous-espace de Cb (Rd ) d´fini par e H = {ϕ = gσ ∗ f : σ > 0 et f ∈ Cc (Rd )}. e 136 . cela suffit pour donner la e e e convergence ´troite de la suite (µn ) vers µ. n→∞ De mani`re ´quivalente. on a vu dans la preuve du th´or`me e e e d’injectivit´ de la transform´e de Fourier (fin du Chapitre 8) que e e gσ ∗ f dν = f (x) gσ ∗ ν(x)dx = √ f (x) (σ 2π)−1 eiξx g1/σ (ξ)ν(−ξ)dξ dx. et puisque ces quantit´s sont born´es en module par 1. e e gσ ∗ f − f tend vers 0 quand σ → 0) et on vient de montrer que ϕdµn −→ ϕdµ pour toute fonction ϕ ∈ H. si ν est une mesure de probabilit´ sur R. 2σ σ 2π Alors on a d´j` observ´ ` la fin du Chapitre 8 que gσ ∗ f converge simplement vers f quand ea ea σ → 0. Supposons inversement que µn (ξ) → µ(ξ) pour tout ξ ∈ Rd et montrons qu’alors la suite (µn ) converge ´troitement vers µ. une suite (Xn ) de variables al´atoires ` valeurs dans Rd converge e e e a en loi vers X si et seulement si ∀ξ ∈ Rd . En fait on v´rifie ais´ment que cette convergence est uniforme sur R. D’abord. le th´or`me de convergence domin´e entraˆ que e e e ıne eiξx g1/σ (ξ)µn (−ξ)dξ −→ n→∞ eiξx g1/σ (ξ)µ(−ξ)dξ. µn (ξ) −→ µ(ξ). Il suffit de montrer la premi`re assertion.Th´or`me 10.

e e e a 137 . . Si A ∈ B(Rd ). e e e on se donne une famille Y1 . e a Comme N est tr`s grand. Un probl`me statistique fondamental est d’estimer la loi e ee e e e de X1 ` partir de la donn´e de X1 (ω). Imaginons qu’on a une population de N individus e num´rot´s 1. L’entier N est suppos´ “tr`s grand” (on peut penser ` la population e e e e a fran¸aise).10. cette loi est e 1 PX1 (A) = P (a(Y1) ∈ A) = N N 1A (a(i)) = µ(A). . De plus. dite “mesure empirique”. . Pour rendre ceci pr´cis en termes math´matiques. ind´pendantes et de mˆme e a e e loi. Xn sont ´videmment ind´pendantes et de e e mˆme loi.4 10. X2(ω). . l’ˆge de l’individu. . Le principe e d’un sondage est alors de choisir un ´chantillon de la population.). . la proportion calcul´e sur les individus de l’´chantillon est e e 1 n 1 1A (Xj (ω)) = n j=1 n n δXj (ω) (A) j=1 Finalement.a. . . Xn (ω) pour une seule valeur de ω. la question de savoir si la proportion calcul´e sur l’´chantillon est proche de e e la proportion r´elle µ(A) se ram`ne ` v´rifier que la mesure. e e a e 1 n n δXj (ω) j=1 est proche de PX1 quand n → ∞. X1 . . on s’int´resse alors ` la e a quantit´ e N 1 µ(A) = 1A (a(i)) N i=1 qui est la proportion d’individus dans la population dont le param`tre est dans A (par e exemple la proportion d’individus de plus de cinquante ans qui ont l’intention de voter Chirac et ont un revenu mensuel sup´rieur ` 2000 Euros). Le th´or`me suivant apporte une r´ponse ` cette question. c’est-`-dire de prendre au e a hasard n individus (n grand mais petit devant N) en esp´rant que la proportion d’individus e choisis dans cet ´chantillon pour lesquels le param`tre est dans A sera proche de la mˆme proe e e portion calcul´e pour la population totale. Ces variables peuvent repr´senter les r´sultats successifs d’une mˆme exp´rience al´atoire e e e e e r´p´t´e de mani`re ind´pendante. . . Yn de variables al´atoires ind´pendantes de loi uniforme e e sur {1. N} (ce sont les individus de notre ´chantillon). . il est hors de question de calculer exactement µ(A). Les v.4. etc. . son revenu mensuel. . i=1 Par ailleurs. . c e e a son intention de vote. N . . . A l’individu i est attach´ un param`tre a(i) ∈ Rd (par exemple. .1 Deux applications La convergence des mesures empiriques Soit (Xn )n≥1 une suite de variables al´atoires ` valeurs dans Rd . . . 2. a e Exemple : th´orie des sondages. La valeur du param`tre pour e e l’individu Yj est Xj = a(Yj ).

n→∞ (e) Remarque.ω −→ p.1 Soit (Xn )n≥1 une suite de variables al´atoires ind´pendantes et de mˆme e e e e e loi. On peut r´´crire cela sous la forme ee ϕ dµn. e 10. n→∞ ϕ dPX1 .s. soit µn.4. Soit H un sous-ensemble d´nombrable dense de Cc (Rd ). le th´or`me pr´c´dent n’a aucun int´rˆt si on n’a e e e e ee pas d’estimation de la vitesse de convergence. ` valeurs dans Rd . c’est-`-dire quel est l’ordre a a a de grandeur de la diff´rence e 1 (X1 + · · · + Xn ) − E[X1 ] n 138 . N est de l’ordre de 107 et n seulement de l’ordre de 103 ). quitte ` ´carter une r´union d´nombrable d’ensembles de probe ae e e abilit´ nulle. n→∞ n On cherche alors ` savoir ` quelle vitesse cette convergence a lieu.s. ϕ(Xi ) assure que e 1 n n i=1 ϕ(Xi ) −→ E[ϕ(X1 )].ω la mesure de probabilit´ sur a e Rd d´finie par e n 1 µn.s..ω = δX (ω) .ω soit “suffisamment proche” de PX1 pour e e des valeurs de n grandes mais petites devant la taille N de la population (en pratique. cela suffit pour dire que p.ω −→ n→∞ ϕ dPX1 .2 Le th´or`me central limite e e Soit (Xn )n≥1 une suite de variables al´atoires r´elles ind´pendantes et de mˆme loi.ω converge e e e ´troitement vers PX1 . En revenant a l’exemple donn´ avant l’´nonc´ ` e e e du th´or`me.s. Puisque H est d´nombrable. (X1 + · · · + Xn ) −→ E[X1 ]. dans L1 .ω −→ PX1 . µn. ∀ϕ ∈ H. µn.Th´or`me 10. p. n i=1 i Alors. Preuve. la loi forte des e grands nombres appliqu´e aux v. e e e e La loi forte des grands nombres montre que 1 p. ϕ dµn. il faut que la mesure empirique µn. Si ϕ ∈ H.a.4. D’un point de vue pratique. Pour tout ω ∈ Ω et tout n ≥ 1. D’apr`s une proposition du paragraphe pr´c´dent.s. n→∞ p.s. on obtient e p.

Ce calcul indique que la valeur moyenne de (X1 + · · · + Xn − n E[X1 ])2 croˆ lin´airement ıt e √ avec n. dans L2 . quitte ` remplacer e e a Xn par Xn − E[Xn ]. Xi sont ind´pendantes et de mˆme u e e e e e loi. on devine la r´ponse e e e en calculant. De mani`re ´quivalente. Pour montrer la premi`re e e partie de l’´nonc´. Soit σ 2 = var(X1 ). n o` . n La fonction caract´ristique de Zn est e ΦZn (ξ) = E exp iξ( X1 + · · · + X n √ ) n ξ = E exp i √ X1 n n ξ = ΦX1 ( √ )n . on remarque d’abord qu’on peut supposer E[X1 ] = 0. D’apr`s un r´sultat du Chapitre 8. e √ 1 ou encore que l’ordre de grandeur de n (X1 + · · · + Xn ) − E[X1 ] est 1/ n. donc sugg`re fortement que l’ordre de grandeur de X1 + · · · + Xn − n E[X1 ] est n. e Th´or`me 10.2 (Th´or`me central limite) Soit (Xn )n≥1 une suite de variables al´atoires e e e e e r´elles ind´pendantes et de mˆme loi. pour u e e e e ¯ avec a < b.a. nE[X1 ] + b n]) = √ n→∞ σ 2π b exp(− a x2 ) dx. Alors. on a utilis´ le fait que les v.4. comme dans la preuve de la loi faible des grands nombres. Le th´or`me e e central limite rend ceci plus pr´cis. e e e 1 (loi) √ (X1 + · · · + Xn − n E[X1 ]) −→ N (0.quand n est grand. E[(X1 + · · · + Xn − n E[X1 ])2 ] = var(X1 + · · · + Xn ) = n var(X1 ). tous a. on a e e σ2 ξ 2 1 2 + o(ξ 2 ) ΦX1 (ξ) = 1 + iξE[X1 ] − ξ 2E[X1 ] + o(ξ 2 ) = 1 − 2 2 quand ξ → 0. Posons alors 1 Zn = √ (X1 + · · · + Xn ). compte-tenu e e e e e de la formulation de la convergence en loi en termes des fonctions de r´partition (noter ici e que la fonction de r´partition de la variable limite est continue). La deuxi`me partie de l’´nonc´ est une cons´quence de la premi`re. 2σ 2 Preuve. σ 2 ) d´signe la loi gaussienne centr´e de variance σ 2 . Pour ξ ∈ R fix´. σ 2) n→∞ n o` N (0. b ∈ R √ √ 1 lim P (X1 + · · · + Xn ∈ [nE[X1 ] + a n. dans la seconde ´galit´. Sous l’hypoth`se suppl´mentaire que les variables Xi sont dans L2 . on a donc aussi e ξ σ2 ξ 2 1 ΦX1 ( √ ) = 1 − + o( ) n 2n n 139 .

e e e Cas particulier : Th´or`me de de Moivre. . on peut appliquer la loi forte des grands e a e nombres coordonn´e par coordonn´e pour obtenir e e 1 p. . Alors e e Sn = X1 + · · · + Xn suit une loi binˆmiale B(n. En combinant avec ce qui pr´c`de. . Alors. 2 Cette derni`re convergence peut ˆtre v´rifi´e directement (avec certains efforts) ` l’aide de e e e e a la formule de Stirling. n}. e e 140 . Xn sont de carr´ int´grable. On montre en fait un r´sultat plus pr´cis de la forme e e √ −n k n 2 Cn = 2 n 2 exp(− (k − )2 ) + o(1) π n 2 avec un reste o(1) uniforme quand k varie dans {0. 10. 2n n 2 si U suit la loi N (0. σ 2). e e ıne 2 −n √ √ n +a n≤k≤ n +b n 2 2 k Cn n→∞ −→ 2 π b a e−2x dx. . Comme σ 2 = 1/4 dans ce cas particulier. . (X1 + · · · + Xn ) −→ E[X1 ].3 Extension au cas vectoriel Supposons maintenant que (Xn )n≥1 est une suite de variables al´atoires ind´pendantes de e e d mˆme loi ` valeurs dans R et int´grables. . on a pour tout ξ ∈ R. 1. P (Xn = 1) = P (Xn = 0) = 2 ) ind´pendantes. X1 ). e e Pour ´tendre le th´or`me central limite au cas de v. Il e e e n’est pas aussi facile d’obtenir une version multidimensionnelle du th´or`me central limite : e e contrairement ` ce qui se passe pour la convergence presque sˆ re. ` valeurs dans Rd de savoir que chaque a suite coordonn´e converge en loi (on peut aussi remarquer que la loi de la limite n’est pas e d´termin´e par la connaissance de chacune de ses marginales).a.4. Supposons de plus que les v. E[X1 ]) si on a u e e 1 d ´crit X = (X1 . pour tous a < b. nous devons e e e a commencer par g´n´raliser la notion de loi gaussienne. n→∞ n 1 d o` la limite E[X1 ] s’interpr`te ´videmment comme le vecteur (E[X1 ]. ` valeurs dans Rd . . On suppose que les Xn sont des variables e e 1 1 de Bernoulli de param`tre 2 (i. Le th´or`me de L´vy permet maintenant de conclure que Zn e e e converge en loi vers U. .a. . il ne suffit pas pour a u obtenir la convergence en loi d’une suite de v. .e.a. ce qui est le r´sultat du th´or`me.quand n → ∞. . e e n→∞ lim ΦZn (ξ) = lim (1 − n→∞ 1 σ2 ξ 2 σ2ξ 2 + o( ))n = exp(− ) = ΦU (ξ).s. le th´or`me entraˆ que. . 1 ) : o 2 k P (Sn = k) = Cn 2−n .

C). Pour le voir. On dit plus g´n´ralement que X suit la loi N (a. X ` valeurs dans Rd . et en utilisant le fait que E[Y t Y ] = Id puisque les e coordonn´es de Y sont des v. C). Y suit la loi N (0.3 Soit C une matrice sym´trique positive. . e consid´rons ξ ∈ Rd et observons que ξ · X est une combinaison lin´aire des v. On en d´duit imm´diatement que si X suit la loi N (0. Montrer que X a une densit´ si et seulement e e si KX est non d´g´n´r´e.a.4.a. C) si X − a suit e e la loi N (0. Une e a e e v. ` valeurs dans e e a d 1 d R dont les coordonn´es sont Y . e gaussiennes ind´pendantes est encore gaussienne. σ ).a. Soit a ∈ Rd . e e ee e 141 et en prenant u = 1 on a le r´sultat voulu. de loi N (0. gaussienne centr´e. Remarque. Soit Y la v. X d ) est une v. . ` valeurs dans Rd et a de carr´ int´grable. C) on a E[X] = 0 et e e KX = C. Soit X un vecteur gaussien centr´. . Pr´cis´ment. Y d d v. .1 Soit C une matrice d × d ` coefficients r´els. 1) ind´pendantes. Id). 2 On dit aussi que X suit la loi N (0. de loi N (0. .a. grˆce ` la formule e e a a 2 pour la fonction caract´ristique d’une v. . Y d . 1). σ 2) avec e e e σ 2 = E[(ξ · X)2 ] = E[t ξAY · t Y Aξ] = t ξA E[Y t Y ] Aξ = t ξA2 ξ = t ξCξ. e Preuve. e Remarques. e e et est donc une v. . Soient ensuite Y 1 . est appel´e vecteur gaussien centr´ de covaria e e e e ance C si 1 ∀ξ ∈ Rd .a. . e√ e On pose A = C de sorte que A est une matrice sym´trique positive et A2 = C.a.a. X = AY suit la loi N (0. Y 1 . . ξ · X suit la loi N (0. r´elles ind´pendantes de loi N (0. . Finalement. en calculant de mani`re matricielle. . . . Rappelons d’abord (voir la fin du Chapitre 9) qu’une combinaison lin´aire de v. de carr´ int´grable. sym´trique positive. .a. Il existe un vecteur gaussien e centr´ de covariance C. e E[eiu ξ·X ] = exp(− u2 σ 2 u2 ) = exp(− t ξCξ) 2 2 Exercice. On a vu dans le Chapitre 8 que si X = (X 1 . Proposition 10. ΦX (ξ) = E[eiξ·X ] = exp(− t ξCξ). C). Y . . . Alors.a. (i) Avec les notations de la preuve ci-dessus.a. on a le d´veloppement limit´ e e e e d ΦX (ξ) = 1 + i j=1 ξj E[X j ] − 1 2 d d j=1 k=1 ξj ξk E[X j X k ] + o(|ξ 2|) quand ξ → 0. X ` valeurs dans Rd est un vecteur gaussien centr´ si et seulement si toute a e combinaison lin´aire de ses composantes est gaussienne centr´e : en effet on a alors E[eiξ·X ] = e e 1 1 t 2 exp(− 2 E[(ξ · X) ]) = exp(− 2 ξKX ξ). .D´finition 10. (ii) Une v. et calculer alors la densit´ de X. on a pour tout u > 0.4.

4 (Th´or`me central limite vectoriel) Soit (Xn )n≥1 est une suite de e e e e variables al´atoires ind´pendantes de mˆme loi ` valeurs dans Rd . on sait que 1 1 t ξ ξKX1 ξ + o( ). pour e e tout ξ ∈ Rd . de carr´ int´grable. Alors. 2 d’o` le r´sultat grˆce au th´or`me de L´vy. Ensuite.Th´or`me 10. ΦX1 ( √ ) = 1 − 2n n n On conclut que n→∞ lim E exp iξ · ( X1 + · · · + X n √ ) n = exp(− 1t ξKX1 ξ). On peut supposer E[X1 ] = 0.4. n D’autre part. E exp iξ · ( X1 + · · · + X n √ ) n ξ = E exp i √ · X1 n n ξ = ΦX1 ( √ )n . C’est la mˆme que dans le cas r´el. e e e a e e 1 (loi) √ (X1 + · · · + Xn − n E[X1 ]) −→ N (0. u e a e e e 142 . KX1 ) n→∞ n Preuve.

A. e a ee e Intuitivement. l’esp´rance conditionnelle de e e X sachant B est d´finie par e E[X 1B ] . dont le cas gaussien particuli`rement e e e important pour les applications. e e e e observation incompl`te. e e Nous cherchons ensuite ` d´finir l’esp´rance conditionnelle sachant une variable al´atoire a e e e (et non plus sachant un ´v´nement). est introduite ` la fin du chapitre.) il est important de pouvoir estimer une variable al´atoire sur e e laquelle on n’a qu’une information partielle. en posant pour tout A ∈ A. l’esp´rance conditionnelle d’une variable al´atoire r´elle donn´e par rapport e e e e ` une sous-tribu est la variable al´atoire mesurable pour cette sous-tribu qui est la “plus a e proche” de la variable al´atoire donn´e. On peut d´finir une nouvelle probabilit´ sur (Ω. A). et l’on comprend d`s lors l’importance de la e notion d’esp´rance conditionnelle. utile dans ce cours d’un point de vue conceptuel surtout. Y ` valeurs dans un espace E e e e a 143 . est illustr´ sur plusieurs cas. e e P (A | B) = P (A ∩ B) . ou pour X ∈ L1 (Ω. P ). E[X | B] = P (B) Cette quantit´ est aussi l’esp´rance de X sous la probabilit´ P (· | B). Consid´rons une v. pour toute v. e e e e appel´e probabilit´ conditionnelle sachant B. qui est en g´n´ral e e e un probl`me difficile. X ≥ 0.a. et elle s’interpr`te e e e e comme la valeur moyenne de X quand B est r´alis´. Soit e e e B ∈ A un ´v´nement tel que P (B) > 0. La d´finition axiomatique de cette notion (dans laquelle e e la “propri´t´ caract´ristique” joue un rˆle essentiel) est motiv´e par le cas discret trait´ dans ee e o e e le premier paragraphe.Chapitre 11 Conditionnement Ce chapitre est consacr´ ` la construction et aux propri´t´s de l’esp´rance conditionnelle. La notion de loi conditionnelle. P ). A.a. etc. Le calcul explicite des esp´rances conditionnelles. a 11.1 Conditionnement discret Comme dans les chapitres pr´c´dents on se place sur un espace de probabilit´ (Ω. P (B) De mˆme. Pour de nombreux probl`mes concrets (pr´diction.

A. 4. Z σ(Y )-mesurable born´e. Y (ω) = 0 si ω est pair. ou une tribu) seront toujours e d´finies ` un ensemble de probabilit´ nulle pr`s. E[X | Y ] ∈ L1 (Ω. e e e E[X | Y = y] = E[X 1{Y =y} ] .a. Lancer d’un d´. si y ∈ E\E ′ . e a e e En comparant avec le conditionnement par rapport ` un ´v´nement. c’est la meilleure approximation de X par une fonction de e e Y. . σ(Y )-mesurable.a. P (Y = y) D´finition 11. En particulier.1.a.a.a. puisque e e P (Y ∈ E\E ′ ) = P (Y = y) = 0. A.d´nombrable. Alors. on observe que a e e l’esp´rance conditionnelle E[X | Y ] est maintenant une variable al´atoire : c’est la v. Dans un sens qui sera pr´cis´ plus loin. L’esp´rance conditionnelle de X sachant Y est e e la variable al´atoire r´elle d´finie par e e e E[X | Y ] = ϕ(Y ). E[X | Y ](ω) = 3 4 si ω ∈ {1. pour toute v. Remarque. 2. P ).s. E[X | Y ](ω) = E[X | Y = y] . 6} et P ({ω}) = e Soient 1 si ω est impair. si Y (ω) = y.a. 3. E[X | Y ] ` e e a un ensemble de mesure nulle pr`s. 144 .1 Soit X ∈ L1 (Ω. P ).1 On a E[|E[X | Y ]|] ≤ E[|X|].. 1 6 pour tout ω ∈ Ω. P ). On prend Ω = {1. y∈E\E ′ On pourrait changer la d´finition de ϕ sur E\E ′ et cela donnerait la mˆme v. e X ∈ L1 (Ω.1. on peut d´finir. 5}. Proposition 11. Dans les situations plus g´n´rales que nous rencontrerons e e e plus tard. Le choix de la valeur de ϕ sur E\E ′ est arbitraire : de toute fa¸on ce choix c n’influence la d´finition de E[X | Y ] que sur un ensemble de probabilit´ nulle. . e E[ZX] = E[Z E[X | Y ]]. 6}. Exemple. si ω ∈ {2. et X(ω) = ω. comme cas particulier de ce qui pr´c`de. . Remarquons aussi que E[X | Y ] est une fonction de Y donc une v. o` la fonction ϕ : E −→ R est donn´e par u e ϕ(y) = E[X | Y = y] 0 si y ∈ E ′ . De plus. Pour tout y ∈ E ′ . . et pour toute v. qui e e donne la valeur moyenne de X quand on connait Y : p. les esp´rances conditionnelles (sachant une v. A. Soit E ′ = {y ∈ E : P (Y = y) > 0}.

on a e e e E[|E[X | Y ]|] = P (Y = y) y∈E ′ |E[X 1{Y =y} ]| ≤ E[|X| 1{Y =y} ] = E[|X|]. Le point crucial est le fait que E[X | B] est mesurable pour la tribu B. P ).1) et (11. on utilise le fait qu’on peut ´crire Z = ψ(Y ). L’une ou l’autre des propri´t´s (11.a. on a e e E[X | Y ] = E[X | Y ′ ] p. P ). B. et soit X ∈ L1 (Ω. Il e e e existe alors une unique variable al´atoire dans L1 (Ω. E[X 1B ] = E[E[X | B] 1B ]. en appliquant la proposition avec Z = 1{E[X|Y ]>E[X|Y ′ ]} .. e E[ψ(Y ) E[X | Y ]] = ψ(y) E[X 1{Y =y} ] = E[ψ(Y )X 1{Y =y} ] = E[ψ(Y )X]. y∈E y∈E Cons´quence. on trouve E[1{E[X|Y ]>E[X|Y ′ ]} (E[X | Y ] − E[X | Y ′ ])] = 0 d’o` E[X | Y ] ≤ E[X | Y ′ ] p.2. discr`te telle que σ(Y ) = σ(Y ′ ). Si X ≥ 0 on a aussi E[X | B] ≥ 0. et on obtient de mˆme l’autre in´galit´. D’apr`s la d´finition de l’esp´rance conditionnelle E[X | Y ]. qui est bien mesurable pour σ(Y ) = σ(Y ′ ) puisque E[X | Y ] et E[X | Y ′ ] le sont. 11.Preuve. Cela montre aussi que u e e e la derni`re propri´t´ de la proposition caract´rise E[X | Y ] parmi les v.a. En effet. Alors.1 La d´finition de l’esp´rance conditionnelle e e Cas des variables int´grables e Th´or`me et d´finition 11.2) caract´rise l’esp´rance conditionnelle E[X | B] dans la classe ee e e 145 (11. pour toute variable al´atoire Z B-mesurable born´e e e e e E[X Z] = E[E[X | B] Z]. e L’observation pr´c´dente conduit ` dire que la “bonne” notion de conditionnement est e e a la notion de conditionnement par rapport ` une tribu. not´e E[X | B]. Si Y ′ est une autre v.1) On a plus g´n´ralement.s. σ(Y )-mesurables e ee e et int´grables. (11.2) . A.2. avec une fonction e e ψ born´e.2 11. C’est cette notion que nous allons a d´velopper dans les paragraphes suivants en nous basant sur la propri´t´ de la proposition e ee ci-dessus. P (Y = y) y∈E Pour la derni`re assertion.s.1 Soit B une sous-tribu de A. telle que e e ∀B ∈ B .

. il est imm´diat qu’on e e a Q ≪ P ..s. on trouve E[(X ′ − X ′′ )1{X ′ >X ′′ } ] = 0 d’o` X ′ ≤ X ′′ p. Soient X ′ et X ′′ deux v. i ∈ {1. on voit que E[X] = E[X] < ∞.a. B. n n i=1 i f (ω)dω est la moyenne de f sur ] i−1 . E[X 1B ] = Q(B) = E[X 1B ]. appliqu´ sur l’espace mesurable (Ω. Un ´l´ment f de L (Ω. Finalement. P ). Le th´or`me de Radon-Nikodym. . B. i ] .1) ` (11. 1] −→ R telle que 0 |f (ω)|dω < ∞. Prenons Ω =]0. Enfin. P ). P ) est une 1 fonction mesurable f :]0. ee e e Dans le cas particulier o` la tribu B est engendr´e par une variable al´atoire Y .s. Dans la suite nous ferons r´f´rence ` l’une ou l’autre comme ` la ee a a propri´t´ caract´ristique de l’esp´rance conditionnelle. supposons d’abord X ≥ 0. E[X | B] = X. Alors on v´rifie tr`s facilement e e que n En prenant B = Ω. e e e (a) Si X est B-mesurable. Cette notation est coh´rente avec le cas discret trait´ dans la partie pr´c´dente : comparer e e e e (11. B). u e Pour l’existence. et soit Q la mesure finie sur (Ω. . dans L1 (Ω. A = B(]0. B. E[f | B] = o` fi = n u i/n (i−1)/n fi 1] i−1 . on ´crira u e e e indiff´remment e E[X | B] = E[X | σ(Y )] = E[X | Y ]. n Propri´t´s de l’esp´rance conditionnelle.a. Lorsque X est de signe quelconque. B). (b) L’application X −→ E[X | B] est lin´aire. Soit B la tribu engendr´e par e i−1 i 1 u e ee les intervalles ] n . P ) telles que c e ∀B ∈ B . de L1 (Ω. o` n ≥ 1 est fix´. X B-mesurable positive telle que ∀B ∈ B . B) d´finie e par ∀B ∈ B . n ]. E[X | B] = X v´rifie la propri´t´ de l’´nonc´. . assure e e e donc l’existence d’une v. Q(B) = E[X 1B ]. A. 1]) et P (dω) = dω. Preuve. n ]. et de mˆme X ′ ≥ X ′′ p. le passage de (11. donc X ∈ L1 (Ω. il suffit de e ee e e prendre E[X | B] = E[X + | B] − E[X − | B]. En prenant B = {X ′ > X ′′ } (qui est bien B-mesurable puisque X ′ et X ′′ le sont).des v. Commen¸ons par l’unicit´. 1]. si on voit aussi P comme une mesure de probabilit´ sur (Ω.a.2) et la proposition ci-dessus. e 146 . Alors. e e Exemple. n}. E[X ′ 1B ] = E[X 1B ] = E[X ′′ 1B ].2) se fait en utilisant l’approximation usuelle des fonctions a mesurables par des fonctions ´tag´es.

si X.2.1). ∞].1). Pour (d).s. Z B-mesurable positive. P ) et α. e (e) X ≥ X ′ ⇒ E[X | B] ≥ E[X ′ | B] p. et en cons´quence E[|E[X | B]|] ≤ E[|X|]. La propri´t´ (c) est le cas ee e ee particulier B = Ω dans (11.2 Soit X une variable al´atoire ` valeurs dans [0.s. La croissance de la limite dans la d´finition de E[X | B] d´coule de la propri´t´ e e ee (e) ci-dessus.3) Dans le cas o` X est aussi int´grable. la v.a. Preuve. Ensuite. X ∈ L (Ω.2. e α E[X | B] + α′ E[X ′ | B] satisfait la propri´t´ caract´ristique (11.3) sera appel´e propri´t´ caract´ristique de l’esp´rance conditionnelle. ∞] telles que E[X ′ Z] = E[X ′′ Z] pour toute v. Prenons Z = 1{X ′ ≤a<b≤X ′′ } 147 . Il en va de e e e e e ′ 1 mˆme pour (b) en observant que. en comparant la derni`re propri´t´ du th´or`me u e e ee e e avec (11. le th´or`me de convergence monotone e e entraˆ que ıne E[E[X | B]Z] = lim E[E[X ∧ n | B](Z ∧ n)] = lim E[(X ∧ n)(Z ∧ n)] = E[XZ]. la propri´t´ e e ee (11. (11. on voit imm´diatement que l’on retrouve la mˆme d´finition de E[X | B] que e e e dans le paragraphe ci-dessus. (d) |E[X | B]| ≤ E[|X| | B] p.a..s.(c) E[E[X | B]] = E[X]. si Z est B-mesurable positive. Enfin. La formule e e e a p. e e e 11.2 Cas des variables positives E[X | B] = lim ↑ E[X ∧ n | B] n→∞ Th´or`me 11. Soient donc X ′ et X ′′ deux variables al´atoires B-mesurables ` ae e e a valeurs dans [0. e ee e e Preuve. De mˆme que dans le cas des variables int´grables. d´finit une variable al´atoire ` valeurs dans [0. rappelons que si X ≥ 0 on a E[X | B] ≥ 0. Cela entraˆ ıne |E[X | B]| = |E[X + | B] − E[X − | B]| ≤ E[X + | B]] + E[X − | B] = E[|X| | B]. (e) est imm´diat par lin´arit´. (a) d´coule imm´diatement de l’unicit´ dans le th´or`me ci-dessus. n→∞ n→∞ Il reste ` ´tablir l’unicit´. α′ ∈ R. A. qui est caract´ris´e (` un ensemble de e e a e e a probabilit´ nulle pr`s) par la propri´t´ suivante : pour toute variable al´atoire Z B-mesurable e e ee e positive. ∞].1) pour αX + α′ X ′ . E[XZ] = E[E[X | B]Z].

. b ∈ Q+ . Supposons qu’il existe e une v.a. pour tout n. vers X. On a donc P a.s. n→∞ p. 148 . 1].n] (a) Si X et X ′ sont des v. et si X ∈ L1 . Par un raisonnement sym´trique on a aussi X ′′ ≥ X ′ p. on a n n E[X | B] = ∞ 1 Propri´t´s. reprenons le cas o` u i 1 Ω =]0. et dans L1 . . E[X | B] = lim ↑ E[Xn | B] . positives. E[aX + bX ′ | B] = a E[X | B] + b E[X ′ | B].a. on v´rifie ais´ment que E[X | B] = E[X].s. (f) Si f est convexe positive. si X(ω) = ω .s.s. i ∈ {1. Pour donner un exemple moins trivial. p. n}) et P (dω) = dω.a. si B = {∅. et E[Z] < ∞.a. X finies p. positives. n ]. E[lim inf Xn | B] ≤ lim inf E[Xn | B] . On peut avoir X < ∞ p. Il vient u e a P (X ′ ≤ a < b ≤ X ′′ ) ≥ b P (X ′ ≤ a < b ≤ X ′′ ) ce qui n’est possible que si P (X ′ ≤ a < b ≤ X ′′ ) = 0. et X = lim ↑ Xn . (c) Si (Xn ) est une suite croissante de v. (b) Si X est B-mesurable. Alors. E[X | B] = X. positive Z telle que |Xn | ≤ Z p. .s.s. avec a < b. Alors. E[f (X) | B] ≥ f (E[X | B]). Par e exemple. et simultan´ment P (E[X | B] = ∞) > 0. (d) Si (Xn ) est une suite de v. .s. Ω}.a. positives et a.b∈Q+ a<b {X ′ ≤ a < b ≤ X ′′ } = 0 ce qui entraˆ X ′ ≥ X ′′ p. E[X | B] = lim E[Xn | B] . n→∞ p.s. n ] + i=2 n log( i ) 1 i−1 i . i − 1 ] n .o` on a fix´ a. e e 1 ]0. qui peut bien sˆ r ˆtre e e u e infini pour des v. B = σ(] i−1 . b ≥ 0. int´grables convergeant p. (e) Soit (Xn ) une suite de v.s. ıne e Remarque.a.

Alors.a. ce qui d’apr`s la caract´risation du th´or`me entraˆ X ′ = E[X | B].s. ∞]. b) ∈ R2 : ∀x ∈ R. en utilisant (c). En utilisant le fait que Q2 est d´nombrable.(b) et (f) ci-dessus. B-mesurable ` valeurs dans a [0. e E[lim inf Xn | B] = E lim ↑ k↑∞ k↑∞ n≥k E[ZX ′ ] = lim ↑ E[Z E[Xn | B]] = lim ↑ E[Z Xn ] = E[ZX] inf Xn B = lim ↑ E inf Xn B n≥k ≤ lim (e) Il suffit d’appliquer (d) deux fois : k↑∞ n≥k inf E[Xn | B] = lim inf E[Xn | B].a. Le e a e e plus souvent cependant. La convergence L1 est maintenant une cons´quence u e e du th´or`me de convergence domin´e. comme dans (a). f (x) = sup (ax + b) = (a. on peut donc poser X = lim ↑ E[Xn | B].b)∈Ef ∩Q2 (aX + b) B ≥ sup (a. e e (c) Il d´coule de (a) que si X1 ≥ X2 ≥ 0 on a E[X1 | B] ≥ E[X2 | B]. Preuve.s. La mention “p. (f) Notons Ef = {(a. puisque |E[Xn | B]| ≤ E[|Xn | | B] ≤ E[Z | B] et e e e E[E[Z | B]] = E[Z] < ∞.Remarque. Sous les hypoth`ses e e ′ de (c). cette mention est sous-entendue.b)∈Ef E[X | B] ≤ lim inf E[Xn | B] ≤ lim sup E[Xn | B] ≤ E[X | B]. on en d´duit que p.s. on ´crira souvent pour A ∈ A. Par analogie avec la formule P (A) = E[1A ]. Z B-mesurable positive. P (A | B) := E[1A | B].b)∈Ef ∩Q2 E[aX + b | B] = f (E[X | B]). puisque celle-ci n’est d´finie qu’` un ensemble de probabilit´ nulle pr`s. recherch´e. Prendre garde cependant que P (A | B) ainsi d´finie est une variable al´atoire. On a alors. e e 149 .b)∈Ef ∩Q2 (ax + b). il est facile de v´rifier que e ∀x ∈ R2 . pour toute v. e Remarque. f (x) ≥ ax + b}. qui est une v. e e e e ıne (d) On ´crit. e e E[f (X) | B] = E sup (a.” devrait figurer dans chaque ´nonc´ impliquant une esp´rance e e e conditionnelle. sup (a. (a) et (b) sont faciles en utilisant la caract´risation de E[X | B] donn´e dans le e e th´or`me. E[lim inf(Z − Xn ) | B] ≤ E[Z | B] − lim sup E[Xn | B] E[lim inf(Z + Xn ) | B] ≤ E[Z | B] + lim inf E[Xn | B] ce qui conduit ` a d’o` la convergence p.

´vitant le recours au th´or`me de Radon-Nikodym. et par un argument de densit´. cette ´galit´ suffit pour conclure que e e Y E[X | B] = E[Y X | B]. Th´or`me 11.3 Propri´t´s sp´cifiques de l’esp´rance conditione e e e nelle Les propri´t´s ´tablies ci-dessus sont analogues aux propri´t´s de l’esp´rance (ou de l’int´grale ee e ee e e de fonctions mesurables). B. on obtient le r´sultat en d´composant X = u e e e X + − X − et Y = Y + − Y − . P ). alors E[X | B] est la projection orthogonale de X e e sur L2 (Ω. a e e e On peut utiliser le th´or`me pr´c´dent pour donner une autre construction de l’esp´rance e e e e e conditionnelle. et soit Y une variable al´atoire e e e B-mesurable.3 Si X ∈ L2 (Ω. E[X | B] est la e e e e meilleure (au sens de la norme L2 ) approximation de X par une v. observons que L (Ω. 150 . Alors. P ).a. Z B-mesurable born´e. e E[Z(X − E[X | B])] = E[ZX] − E[ZE[X | B]] = 0.2. pour toute v. e e e a 1 ou si X et Y X ∈ L . ` savoir l’espace des ´l´ments de L (Ω. pour toute v. e a e Proposition 11.a. P ) s’identifie ` un sous-espace e e a 2 2 ferm´ de L (Ω.a. born´es B-mesurables. c’est-`-dire si X et Y sont positives. B-mesurable. 11. toujours d’apr`s la propri´t´ caract´ristique de E[X | B]. Dans le cas o` X et Y X sont int´grables. P ) dont un repr´sentant au e a ee e moins est B-mesurable. et donc la v. A. E[Z(Y E[X | B])] = E[(ZY )E[X | B]] = E[ZY X].s. P ). Preuve. B. Z B-mesurable positive.11. X − E[X | B] est a e e 2 orthogonal ` L (Ω. La propri´t´ (f) ci-dessus montre que E[X | B]2 ≤ E[X 2 | B] p. E[X | B] est dans L2 (Ω.a. A. Donc X − E[X | B] est orthogonal e ee e ` toutes les v.a. Alors. Observons aussi que ce th´or`me donne une interpr´tation e e e e e int´ressante de l’esp´rance conditionnelle : si X est de carr´ int´grable. de carr´ int´grable. A. Preuve. Le r´sultat annonc´ en d´coule. Puisque Y E[X | B] est une v. Supposons X ≥ 0 et Y ≥ 0.a. B-mesurable positive. Avant d’´noncer le r´sultat. P ). Nous ´tablissons dans ce paragraphe des propri´t´s plus partie ee culi`res ` l’esp´rance conditionnelle.3.1 Soit X une variable al´atoire r´elle. P ).3 Le cas particulier des variables de carr´ int´grable e e Dans le cas o` X est de carr´ int´grable.2. Cela entraˆ que ee ıne E[E[X | B]2 ] ≤ E[X 2 ] < ∞. il existe une autre interpr´tation remarquable de u e e e 2 E[X | B]. Par ailleurs. E[Y X | B] = Y E[X | B] d`s que les esp´rances conditionnelles sont bien d´finies. en commen¸ant par le e e e c cas des v.a. B. B.

Preuve. Alors. pour tout B ∈ B1 . Alors. B2 . et donc la v. constante E[X] satisfait la propri´t´ caract´ristique de l’esp´rance conditionee e e nelle E[X | B1 ].3. Traitons le cas o` X ≥ 0. Supposons d’abord que B1 et B2 sont ind´pendantes. Alors. e e e e Th´or`me 11. Soit Z une v. e Preuve. Z B1 -mesurable positive.a. Cela suffit pour ´tablir l’´galit´ annonc´e. . mesurables par rapport e ` la tribu σ(X) sont les fonctions de X. P (A ∩ B) = E[1A 1B ] = E[E[1A | B1 ] 1B ] = E[P (A) 1B ] = P (A)P (B) ce qui montre que les tribus B1 et B2 sont ind´pendantes.2 Soient B1 et B2 deux sous-tribus de A telles que B1 ⊂ B2 . E[ZX] = E[Z]E[X] = E[Z E[X]]. 151 E[1A | B1 ] = E[1A ] = P (A).a. On a aussi E[E[X | B1 ] | B2 ] = E[X | B1 ] sous les mˆmes hypoth`ses. P ). pour e e e toute v. le th´or`me pr´c´dent montre que X et Y sont a e e e e ind´pendantes si et seulement si e E[h(X) | Y ] = E[h(X)] pour toute fonction bor´lienne h telle que E[|h(X)|] < ∞ (rappelons que E[h(X) | Y ] = e E[h(X) | σ(Y )]). e e E[E[X | B2 ] | B1 ] = E[X | B1 ].Proposition 11. E[Z E[E[X | B2 ] | B1 ]] = E[Z E[X | B2 ]] = E[ZX]. Dans le cas o` X est int´grable.3. mais cela e e est ´vident puisque E[X | B1 ] est B2 -mesurable. puisque u Z est aussi B2 -mesurable.a. ou bien pour toute v.3 Deux sous-tribus B1 et B2 sont ind´pendantes si et seulement si.a. B1 -mesurable positive. Soient X et Y deux v.a.a. si X est une v.a.a. on a E[X | B1 ] = E[X]. avec A ∈ B2 ). X B2 -mesurable positive (ou pour toute v. e B2 -mesurable positive. Alors. Supposons inversement que ∀A ∈ B2 . e Remarque. Puisque les v. X de la forme X = 1A . r´elles.a. il suffit d’utiliser la lin´arit´ de l’esp´rance u e e e e conditionnelle. pour toute variable al´atoire X positive ou int´grable. on a pour toute v. X ∈ L1 (Ω. Remarque. Si X est int´grable on a donc en particulier e E[X | Y ] = E[X].

qui est tr`s souvent utile pour les calculs explicites d’esp´rance conditionnelle. 1). Z σ(Y )-mesurable born´e s’´crit Z = g(Y ). Le terme de droite est la compos´e de la variable al´atoire Y par u e e e l’application Φ : y −→ g(x. u Alors.Z) = PX ⊗ P(Y.4 Soient X et Y deux variables al´atoires ` valeurs respectivement dans e e e a les espaces mesurables E et F . Y ) est obtenue en int´grant g(·. e e e 152 . y) PX (dx) (Φ est mesurable grˆce au th´or`me de Fubini). Y ) | B] = g(x. Il suffit de montrer que pour toute v. toute v.Z) (dydz) = E[Φ(Y )Z] ce qui ´tait le r´sultat recherch´. Y ) PX (dx). Y )Z] = E[Φ(Y )Z].Z) et donc.Z) (dydz) z E g(x. a Preuve. a e e Remarque. la v. on a e P(X.a. Z). e e Th´or`me 11.3.Z) la loi du triplet (X. et e e e donc ∞ 1 2 E[ZX] = E[g(|X|)X] = √ dy e−y /2 g(|y|)y = 0. Y. et Y = |X|.Z) (dydz) = F ×R+ zΦ(y) P(Y. y)PX (dx) P(Y. Notons P(X. De mani`re informelle on peut expliquer le th´or`me de la mani`re suivante. Y )Z] = = = F ×R+ g(x. Pour s’en convaincre. Supposons que X est ind´pendante de B et que Y est Be mesurable. pour toute fonction mesurable g : E × F −→ R+ . Y . y)z PX (dx)P(Y.Y. e e e e Si on conditionne par rapport ` la sous-tribu B. en utilisant le th´or`me de Fubini.Cependant cette derni`re propri´t´ seule ne suffit pas pour donner l’ind´pendance de X et e ee e Y . Alors. Y ) par e rapport ` la loi de X. 2π −∞ ce qui montre que E[X | Y ] = 0 = E[X]. qui est B-mesurable. E[g(X.Z) (dxdydz) g(x. alors que X et Y ne sont bien sˆ r pas ind´pendantes. avec une fonction g born´e. il suffit de traiter le cas o` X suit une loi N (0. E[g(X. Z). o` PX d´signe la loi de X. e Comme X est ind´pendante de (Y. y)z P(X. e e E[g(X.a.Y. Z B-mesurable positive. qui est une mesure de probabilit´ sur E × F × R+ . u e Nous ´non¸ons maintenant un autre th´or`me reliant esp´rance conditionnelle et ind´pene c e e e e dance.Y.a. se comporte a comme une constante et comme par ailleurs la connaissance de B ne donne aucune information sur X la meilleure approximation de g(X.

4. y) dxdy.1 Calculs d’esp´rance conditionnelle e Conditionnement discret Soit Y une v.a. qui forment un ensemble de mesure nulle. Y ) a pour densit´ p(x. y) dx = ∞. e e E[f (X. y) p(x.a. y) dxdy h(x) p(x. si q(y) = 0   h(0) 153 . y) : pour toute fonction bor´lienne f : Rm × Rn −→ R+ . ` valeurs respectivement dans Rm et dans Rn . P ). Supposons que le a couple (X.4. y) dx (en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que p(x. Pour toute fonction g : Rn −→ R+ bor´lienne.2 Cas des variables ` densit´ a e Soient X et Y deux v. A. y) dx Rm si q(y) > 0. Soit maintenant h : Rm −→ R+ une fonction mesurable. 11. y) dx g(y) q(y)1{q(y)>0} dy q(y) ϕ(y) g(y) q(y)1{q(y)>0} dy = E[ϕ(Y ) g(Y )]. y) dx g(y) dy Rn Rm Rm Rn = = = Rn h(x) p(x. ` valeurs dans un espace d´nombrable E. Y )] = Rm ×Rn f (x. on a c e E[h(X)g(Y )] = Rm ×Rn h(x) g(y) p(x. Alors on calcule E[h(X) | Y ] de la fa¸on suivante. Alors on a e a d´j` vu que ea E[X | Y ] = ϕ(Y ) o` u ϕ(y) = E[X 1{Y =y} ] P (Y = y) pour tout y ∈ E tel que P (Y = y) > 0 (et ϕ(y) peut ˆtre choisie de mani`re arbitraire e e lorsque P (Y = y) = 0). et soit X ∈ L1 (Ω.4 11. nous n´gligerons cependant ce point de d´tail dans e e les calculs qui suivent). o` on a pos´ u e ϕ(y) =    1 q(y) h(x) p(x.11. Alors la densit´ de Y est la fonction e q(y) = Rm p(x.

Dans le calcul qui pr´c`de. σ(Y1 . Nous r´´non¸ons ce r´sultat sous une forme un peu diff´rente. .4. Yp p + 1 variables al´atoires r´elles dans L2 (Ω. pour toute fonction h : Rm −→ R+ bor´lienne. dx). dx) la mesure de probabilit´ sur Rm d´finie e e par  1  p(x. . montrer plus g´n´ralement que. Yp ). Yp ). e e E[h(X) | Y = y] = ν(y.p.1 Pour tout y ∈ Rn . . . ..(la valeur de ϕ(y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode dans l’´nonc´ qui suit). q(y) ν(y. La fonction x −→ p(x. e E[h(X) | Y ] = ν(Y. y) = 0 dx p. par une v. Y ) ν(Y. y) dx si q(y) > 0. 11. . de la forme ϕ(Y1 . . . Y ) | Y ] = h(x. P ) qui est de dimension infinie sauf dans des cas triviaux. Cette projection orthogonale est aussi la meilleure approximation de X. dx) est la loi conditionnelle de X sachant que Y = y. Y1 . et donc h(x) p(x. 154 .a. dx) =  δ0 (dx) si q(y) = 0. P ). Comme cela a ´t´ vu e e ee dans le paragraphe 2. on a e E[h(X. pour toute e e e e e m n fonction bor´lienne h : R × R −→ R+ . Alors. ee c e e Proposition 11. dx) h(x). y) dx et on dit que ν(y. de mani`re un peu abusive.4. l’esp´rance conditionnelle e E[X | Y1. y) dx = 0. . On ´crit souvent. . au sens de la norme L2 . . A. . Yp ] est la projection orthogonale de X sur l’espace L2 (Ω. soit ν(y. dx) h(x) = 1 q(y) h(x) p(x.3 ci-dessus. Il d´coule du calcul ci-dessus et de la caract´risation de l’esp´rance conditionnelle que e e e E[h(X) | Y ] = ϕ(Y ). y) q(y) est appel´e densit´ conditionnelle de X sachant que Y = y. . on a utilis´ implicitement le fait que si e e e e e q(y) = 0 on a p(x. e e Exercice. . . .3 Conditionnement gaussien Soient X. pour tout y ∈ R. Sous les hypoth`ses pr´c´dentes.

Par ailleurs, nous avons aussi ´tudi´, dans le Chapitre 8, la meilleure approximation de e e X par une fonction affine de Y1 , . . . , Yp , qui est la projection orthogonale de X sur l’espace vectoriel (de dimension finie) engendr´ par 1, Y1 , . . . , Yp . En g´n´ral cette derni`re projection e e e e est tr`s diff´rente de l’esp´rance conditionnelle E[X | Y1 , . . . , Yp ] qui fournit une bien meilleure e e e approximation de X. Nous allons cependant ´tudier une situation o` les deux co¨ e u ıncident, ce qui a l’´norme avantage de ramener les calculs d’esp´rance conditionnelle ` des projections e e a en dimension finie. a Nous avons vu dans le Chapitre 10 qu’une v.a. Z = (Z1 , . . . , Zk ) ` valeurs dans Rk est un vecteur gaussien centr´ si toute combinaison lin´aire de Z1 , . . . , Zk est gaussienne centr´e, ce e e e qui ´quivaut encore ` e a ∀ξ ∈ Rk , E[exp(iξ · Z)] = exp(− 1t ξKZ ξ). 2

C’est par exemple le cas si les composantes Z1 , . . . , Zk sont des v.a. gaussiennes ind´pendantes. e Proposition 11.4.2 Soit (X1 , . . . , Xm , Y1 , . . . , Yn ) un vecteur gaussien centr´. Alors les e vecteurs (X1 , . . . , Xm ) et (Y1 , . . . , Yn ) sont ind´pendants si et seulement si e cov(Xi , Yj ) = 0 , ∀i ∈ {1, . . . , m}, j ∈ {1, . . . , n}. (11.4)

Preuve. Il suffit de montrer que, sous la condition (11.4), (X1 , . . . , Xm ) est ind´pendant de e (Y1, . . . , Yn ) (l’inverse est toujours vrai). Or, pour ξ = (η1 , . . . , ηm , ζ1 , . . . , ζn ) ∈ Rn+m , E[exp(iξ · (X1 , . . . , Xm , Y1 , . . . , Yn ))] = exp(− et, sous la condition (11.4),
m t n

1t ξK(X1 ,...,Xm ,Y1 ,...,Yn ) ξ) 2

ξK(X1 ,...,Xm ,Y1 ,...,Yn ) ξ =
j,k=1

ηj ηk cov(Xj , Xk ) +
j,k=1

ζj ζk cov(Yj , Yk ).

Cela entraˆ ıne
m n

E[exp(iξ · (X1 , . . . , Xm , Y1 , . . . , Yn ))] = E[exp(i soit encore

ηj Xj )] E[exp(i
j=1 j=1

ζj Yj )],

P(X1 ,...,Xm ,Y1 ,...,Yn ) (η1 , . . . , ηm , ζ1 , . . . , ζn ) = P(X1 ,...,Xm ) (η1 , . . . , ηm ) P(Y1 ,...,Yn ) (ζ1 , . . . , ζn ). En utilisant l’injectivit´ de la transform´e de Fourier, on a donc e e P(X1 ,...,Xm ,Y1 ,...,Yn ) = P(X1 ,...,Xm ) ⊗ P(Y1 ,...,Yn ) ce qui est l’ind´pendance recherch´e. e e Cons´quence. Soit (X1 , . . . , Xn ) un vecteur gaussien centr´ tel que cov(Xj , Xk ) = 0 si e e j = k. Alors, les v.a. X1 , . . . , Xn sont ind´pendantes. En effet, la proposition pr´c´dente e e e 155

entraˆ d’abord que Xn est ind´pendant de (X1 , . . . , Xn−1 ), puis que Xn−1 est ind´pendant ıne e e de (X1 , . . . , Xn−2 ), etc., ce qui permet de conclure. Plus g´n´ralement, si la matrice de covariance de (X1 , . . . , Xn ) est diagonale par blocs e e de tailles respectives i1 , . . . , iℓ (avec i1 + · · · + iℓ = n) les sous-vecteurs (X1 , . . . , Xi1 ), (Xi1 +1 , . . . , Xi1 +i2 ), . . . , (Xi1 +···+iℓ−1 +1 , . . . , Xn ) sont ind´pendants. e Th´or`me 11.4.3 Soit (Y1 , . . . , Yn , X) un vecteur gaussien centr´. Alors, E[X | Y1 , . . . , Yn ] e e e co¨ ıncide avec la projection orthogonale de X sur l’espace vectoriel engendr´ par Y1 , . . . , Yn . e Il existe donc des r´els λ1 , . . . , λn tels que e
n

E[X | Y1 , . . . , Yn ] =

λj Y j .
j=1

De plus, pour toute fonction bor´lienne h : R −→ R+ , e E[h(X) | Y1 , . . . , Yn ] = o` u σ 2 = E[(X − et pour tout m ∈ R,
R

h(x) qPn λj Yj ,σ2 (x) dx, j=1
n

λ j Y j )2 ]
j=1

1 (x − m)2 qm,σ2 (x) = √ ) exp(− 2σ 2 σ 2π

est la densit´ de la loi N (m, σ 2 ). e Remarque. Le cas σ = 0 se produit si et seulement si X = n λj Yj , et alors X est j=1 mesurable par rapport ` σ(Y1 , . . . , Yn ), de sorte que la deuxi`me formule du th´or`me doit a e e e s’interpr´ter comme E[h(X) | Y1 , . . . , Yn ] = h(X). Nous ´cartons ce cas trivial dans la preuve e e qui suit. e Preuve. Soit X = n λj Yj la projection orthogonale de X sur l’espace vectoriel engendr´ j=1 par Y1 , . . . , Yn . Alors, pour tout j ∈ {1, . . . , n}, cov(X − X, Yj ) = E[(X − X)Yj ] = 0 par d´finition de la projection orthogonale. Puisque le vecteur (Y1 , . . . , Yn , X − X) est e gaussien centr´ (toute combinaison lin´aire de ses composantes est une combinaison lin´aire e e e de Y1 , . . . , Yn , X), la proposition pr´c´dente montre que X − X est ind´pendant de Y1 , . . . , Yn . e e e Donc, E[X | Y1, . . . , Yn ] = E[X − X | Y1 , . . . , Yn ] + X = E[X − X] + X = X. On a utilis´ le fait que X est mesurable par rapport ` σ(Y1 , . . . , Yn ), puis l’ind´pendance de e a e de X − X et de (Y1 , . . . , Yn ) qui entraˆ E[X − X | Y1 , . . . , Yn ] = E[X − X] = 0. ıne 156

Pour la derni`re assertion, notons Z = X − X, de sorte que Z est ind´pendante de e e (Y1, . . . , Yn ) et suit la loi N (0, σ 2) (Z est gaussienne centr´e et par d´finition σ 2 = E[Z 2 ]). e e On utilise alors le th´or`me 11.3.4 qui montre que e e
n n

E[h(X) | Y1, . . . , Yn ] = E[h(

j=1

λj Yj + Z) | Y1 , . . . , Yn ] =

h(
j=1

λj Yj + z) PZ (dz).

e En ´crivant PZ (dz) = q0,σ2 (z)dz et en faisant un changement de variables ´vident, on aboutit e ` la formule de l’´nonc´. a e e

11.5

Probabilit´s de transition et lois conditionnelles e

Les calculs pr´c´dents d’esp´rance conditionnelle peuvent ˆtre r´´nonc´s de mani`re plus e e e e ee e e agr´able ` l’aide de la notion de probabilit´ de transition. e a e D´finition 11.5.1 Soient (E, E) et (F, F ) deux espaces mesurables. On appelle probabilit´ e e de transition (ou parfois noyau de transition) de E dans F une application ν : E × F −→ [0, 1] qui v´rifie les deux propri´t´s suivantes : e ee (i) pour tout x ∈ E, ν(x, ·) est une mesure de probabilit´ sur (F, F ); e (ii) pour tout A ∈ F , l’application x −→ ν(x, A) est E-mesurable. De mani`re intuitive, ` chaque fois que l’on fixe un point x du premier espace E, la e a mesure de probabilit´ ν(x, ·) donne le moyen de choisir de mani`re al´atoire un point y du e e e deuxi`me espace F . Dans la th´orie des chaˆ e e ınes de Markov, sur laquelle nous reviendrons, on ´tudie l’´volution au cours du temps d’un ph´nom`ne al´atoire dans lequel l’´tat y ` e e e e e e a l’instant n + 1 d´pend de l’´tat x ` l’instant n, et d’autres param`tres al´atoires non connus e e a e e ` l’instant n : la loi de l’´tat ` l’instant n + 1 connaissant l’´tat ` l’instant n est alors fournie a e a e a par une probabilit´ de transition ν(x, dy). e Exemple. Soit λ une mesure positive σ-finie sur (F, F ), et soit f : E × F −→ R+ une application mesurable telle que f (x, y) λ(dy) = 1 ,
F

∀x ∈ E.

Alors ν(x, A) =
A

f (x, y) λ(dy)

d´finit une probabilit´ de transition de E dans F . La propri´t´ (ii) de la d´finition d´coule e e ee e e en particulier du th´or`me de Fubini. e e 157

Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou born´e) sur (F, F ), e alors ϕ(x) := ν(x, dy) h(y) , x ∈ E est une fonction mesurable positive (ou born´e) sur E. e (ii) Si λ est une mesure de probabilit´ sur (E, E), alors e µ(A) := λ(dx) ν(x, A) , A ∈ F

est une mesure de probabilit´ sur (F, F ). e La v´rification de ces propri´t´s est facile. Dans (i), on suppose d’abord h ´tag´e, puis e ee e e on utilise un passage ` la limite croissant. a Nous en venons maintenant au lien entre la notion de probabilit´ de transition et l’esp´rance e e conditionnelle. D´finition 11.5.2 Soient X et Y deux variables al´atoires ` valeurs respectivement dans e e a (E, E) et dans (F, F ). On appelle loi conditionnelle de Y sachant X toute probabilit´ de e transition ν de E dans F telle que, pour toute fonction h mesurable positive sur (F, F ), on ait E[h(Y ) | X] = ν(X, dy) h(y). Remarque. La v.a. ν(X, dy) h(y) est obtenue en composant X et l’application x −→ ν(x, dy) h(y), qui est mesurable d’apr`s la proposition pr´c´dente. C’est donc bien une e e e fonction de X, comme doit l’ˆtre l’esp´rance conditionnelle E[h(Y ) | X]. e e Par d´finition, si ν est une loi conditionnelle de Y sachant X, on a pour tout A ∈ F , e P (Y ∈ A | X) = ν(X, A) , p.s. Il est tentant de remplacer cette ´galit´ de variables al´atoires par l’´galit´ de nombres r´els e e e e e e P (Y ∈ A | X = x) = ν(x, A), pour tout x ∈ E. Bien qu’expliquant l’intuition de la notion de loi conditionnelle, cette derni`re ´galit´ n’a en g´n´ral pas de sens (sauf si X est une v.a. discr`te) puisque qu’on e e e e e e aura souvent P (X = x) = 0 pour tout x, ce qui interdit de d´finir P (Y ∈ A | X = x). La e seule formulation correcte est donc la premi`re ´galit´ P (Y ∈ A | X) = ν(X, A). e e e Discutons maintenant l’unicit´ de la loi conditionnelle de Y sachant X. Si ν et ν ′ sont e deux lois conditionnelles, on aura, pour tout A ∈ F , ν(X, A) = P (Y ∈ A | X) = ν ′ (X, A) , p.s. ce qui ´quivaut encore ` dire que, pour tout A ∈ F , e a ν(x, A) = ν ′ (x, A) , PX (dx) p.s. 158

Il y a donc unicit´ en ce sens (et clairement on ne peut pas esp´rer mieux). j=1 159 . PX (dx) p. Y ) a pour densit´ p(x. . B(Rd )). Nous ne d´montrerons pas ce th´or`me qui est un r´sultat assez difficile de th´orie de la e e e e e mesure. alors on peut d´finir ν(x. car une construction directe permet d’´viter le recours au th´or`me d’existence.s. . A) = δ0 (A) ν(x. La Proposition 11. A) e a e e par ν(x. F ) e soit caract´ris´e par ses valeurs sur une famille d´nombrable d’ensembles mesurables (c’est le e e e cas pour (Rd . y) dy. en consid´rant les pav´s ` coordonn´es rationnelles). y) ∈ Rm × Rn . dont le choix est arbitraire. F ) soient des espaces m´triques complets e e e s´parables munis de leur tribu bor´lienne. e e Th´or`me 11. Pour e e e illustrer cela reprenons les exemples trait´s dans la partie pr´c´dente (attention les rˆles de e e e o X et Y sont intervertis).1 montre qu’on peut d´finir la loi conditionnelle de Y sachant X par e 1 q(x) ν(x. nous n’aurons de toute fa¸on pas besoin du Th´or`me c e e 11. et notons e n λ j Xj j=1 la projection orthogonale de Y sur l’espace vectoriel engendr´ par X1 . . F ) soit tel qu’une mesure de probabilit´ sur (F. Notons aussi e n σ = E[(Y − 2 λj Xj )2 ]. u e (2) Supposons que X et Y sont ` valeurs respectivement dans Rm et dans Rn et que le couple a (X. (3) Supposons enfin que (X1 . Y ) soit un vecteur gaussien centr´. A) = P (Y ∈ A | X = x) si x ∈ E ′ := {a ∈ E : P (X = a) > 0) ν(x. ·) . Xn . (x. y) A si q(x) > 0 si q(x) = 0. A) = δy0 (A) si x ∈ E ′ / o` y0 est un point fix´ de F . Par abus de e e langage on parlera cependant souvent de la loi conditionnelle de Y sachant X. Dans la suite de ce cours. c’est-`-dire si E est d´nombrable. La densit´ de X est alors e e q(x) = Rn p(x. Alors il existe toujours une loi conditionnelle de e e Y sachant X. Alors on conclut e e a e que ν(x.2 Supposons que (E. Consid´rons maintenant le probl`me de l’existence de lois conditionnelles. . E) et (F.5. .5.a.2.Supposons que l’espace mesurable (F. ·) = ν ′ (x. discr`te. .4. . y). . A) = dy p(x. Xn . (1) Si X est une v.

. Y suit la loi N ( j=1 λj Xj . . σ 2 ). a 160 .4.σ2 (y) dy j=1 e e e e o` qm.3 montre que la loi conditionnelle de Y sachant X = (X1 . . . . . xn . Xn ).σ2 est la densit´ de la loi gaussienne N (m. . σ 2 ). De mani`re l´g`rement abusive on dit u n que conditionnellement ` (X1 . . Xn ) est e e ν(x1 . . . .Le Th´or`me 11. A) = A qPn λj xj . .

Partie III Processus al´atoires e 161 .

.

P ). On a donc F0 ⊂ F1 ⊂ F2 ⊂ · · · ⊂ F On dit aussi que (Ω. 1[. F . on d´finit e e X e Fn comme ´tant la plus petite tribu rendant mesurables les v. tous les e e processus al´atoires seront ` valeurs r´elles. . 1[. . 2 2 Alors (Fn )n∈N est une filtration appel´e filtration dyadique de [0. (b) Supposons que Ω = [0. 2. P ) est une suite croissante (Fn )n∈N de souse tribus de F . . Xn : X Fn = σ(X0 . et P est la mesure de e Lebesgue. P ). P ).1 D´finitions et exemples e On se place sur un espace de probabilit´ (Ω. F . X2 . 1[. a 163 . F . e e On interpr`te souvent le param`tre n comme un temps. . F .1 Une filtration de (Ω. Dans ce chapitre. Exemples.a. . d´finies sur (Ω. X e e Alors (Fn )n∈N est une filtration appel´e filtration canonique du processus al´atoire (Xn )n∈N . X1 . Par d´finition un processus al´atoire est e e e une suite (Xn )n∈N de variables al´atoires d´finies sur (Ω.2 Un processus (Xn )n∈N est dit adapt´ ` la filtration (Fn )n∈N si pour tout e ea n ∈ N. . 2n ). . . La tribu Fn correspond alors ` e e a l’information acquise au temps n. e a e D´finition 12. . Xn ). F est la tribu bor´lienne sur [0. . n [. i = 1. Posons i−1 i Fn = σ([ n . .Chapitre 12 Th´orie des martingales e ` temps discret a 12. X1 .1. Xn est mesurable par rapport ` la tribu Fn . F . (a) Si (Xn )n∈N est une suite quelconque de v. e D´finition 12.1. . (Fn )n∈N .a. P ) est un espace de probabilit´ filtr´.

1) Cela est facile ` v´rifier par r´currence sur la valeur de m − n : si m = n. on fixe un espace de a probabilit´ filtr´ (Ω. c’est la d´finition. tel que E[|Xn |] < ∞ pour tout n ∈ N. on a pour tous e 0 ≤ n ≤ m.1. (−Xn )n∈N est une sous-martingale. Les e e e e notions qui suivent sont bien entendu relatives ` cet espace. a lorsqu’on connait le pass´ jusqu’` l’instant n.1) entraˆ E[Xm ] = E[Xn ] = E[X0 ]. dont le choix sera parfois pr´cis´ dans les exemples. e 164 . une surmartingale correspond ` un jeu d´favorable. • une sous-martingale si. (Fn )n∈N . e c a e Il est ´vident que si (Xn )n∈N est une surmartingale.La filtration canonique est par construction la plus petite filtration qui rende le processus adapt´. E[Xn+1 | Fn ] = Xn . E[Xn+1 | Fn ] ≤ Xn . si m = n + 1. et Fn est l’information dont dispose le joueur a a ` cet instant (en particulier les r´sultats des jeux pr´c´dents). E[Xm | Fn ] ≥ Xn ). est l’avoir ` l’instant n (en moyenne le joueur e a a ne perd ni ne gagne). Une cons´quence imm´diate de la d´finition d’une martingale est la propri´t´ appareme e e ee ment plus forte : pour tous 0 ≤ n ≤ m. E[Xn+1 | Fn ] ≥ Xn . si (Xn )n∈N ) est une surmartingale (resp. pour tout n ∈ N. e Dans toute la suite du chapitre (` l’exception de la partie 6). la propri´t´ est a e e ee triviale. e Pour cette raison. E[Xm | Fn ] ≤ Xn (resp. pour tout n ∈ N. Remarquons que (12. E[Xm ] ≥ E[Xn ]). et si m − n ≥ 2. pour tout n ∈ N. e On dit que le processus (Xn )n∈N est: • une martingale si. La propri´t´ de martingale a e e e ee E[Xn+1 | Fn ] = Xn traduit donc le fait que la valeur moyenne de l’avoir ` l’instant n + 1. ıne De mˆme. E[Xm | Fn ] = Xn (12. une propri´t´ bien connue des e ee esp´rance conditionnelles donne e E[Xm | Fn ] = E[E[Xm | Fm−1 ] | Fn ] = E[Xm−1 | Fn ]. la plupart des r´sultats qui suivent et sont ´nonc´s seulement pour des e e e surmartingales ont un analogue imm´diat pour des sous-martingales (ou bien inversement).3 Soit (Xn )n∈N un processus adapt´. P ). Il est souvent utile d’interpr´ter une martingale comme un jeu ´quitable : la variable Xn e e correspond ` l’avoir du joueur ` l’instant n. F . a e D´finition 12. • une surmartingale si. une sous-martingale). et donc E[Xm ] ≤ E[Xn ] (resp. De la mˆme fa¸on.

puisque par construction Yn+1 est ind´pendant de Fn . Alors (Xn )n∈N est une martingale : E[Xn+1 | Fn ] = E[E[X | Fn+1] | Fn ] = E[X | Fn ] = Xn . P ) on pose Xn = E[X | Fn ].a.a. . Une martingale de ce type est dite ferm´e. • une surmartingale si E[Y1 ] ≤ 0. int´grables. 1[. Il est facile de v´rifier que a e 2n fn (ω) = i=1 µ([(i − 1)2−n . (i) Si X ∈ L1 (Ω. lorsque µ et λ sont vues e e e a comme des mesures sur la tribu Fn (sur la tribu Fn . . i2−n [) 1[(i−1)2−n . toutes les mesures sont absolument continues par rapport ` λ). . et rappelons que P = λ est la mesure de Lebesgue sur [0. Yn ) si n ≥ 1 (c’est en fait la filtration canonique de (Xn )n∈N ). e (ii) Si (Xn )n∈N est une suite d´croissante et adapt´e de v. e Le processus (Xn )n∈N est appel´ marche al´atoire sur R de loi de saut µ. F . posons dµ fn = dλ |Fn qui d´signe la d´riv´e de Radon-Nikodym de µ par rapport ` λ. . . . telle que E[|Y1 |] < ∞. r´elles ind´pendantes e e e et de mˆme loi µ. alors (Xn )n∈N est e e e une surmartingale : E[Xn+1 | Fn ] ≤ E[Xn | Fn ] = Xn . par exemple dans le cas E[Y1 ] = 0. Pour tout entier n ∈ N. Soit x ∈ R et soit (Yn )n≥1 une suite de v. e e (iv) Reprenons l’exemple (b) d’espace de probabilit´ filtr´ donn´ ci-dessus. (iii) Marche al´atoire sur R. on a E[Xn+1 | Fn ] = E[Xn + Yn+1 | Fn ] = Xn + E[Yn+1 ] = Xn . On d´finit aussi la filtration (Fn )n∈N par e F0 = {∅. On pose e X0 = x et Xn = x + Y1 + Y2 + . • une sous-martingale si E[Y1 ] ≥ 0. En effet. issue de x. + Yn si n ≥ 1. Soit µ une mesure e e e finie sur [0. Alors (Xn )n∈N est • une martingale si E[Y1 ] = 0.Exemples. 2−n 165 .i2−n [ (ω). 1[. Ω} et Fn = σ(Y1 .

une sous-martingale). e Proposition 12. (i) Si (Xn ) est une martingale.1. e e e e E[ϕ(Xn+1 ) | Fn ] ≥ ϕ(E[Xn+1 | Fn ]) = ϕ(Xn ). (ii) De mˆme. Alors. (ii) Si (Xn ) est une surmartingale (resp. Xn est encore une sous-martingale. Preuve. ce qui suffit pour obtenir fn = E[fn+1 | Fn ].2 Soit (Xn )n∈N un processus adapt´.1. o` f est la d´riv´e de Radon-Nikodym de µ par rapport ` λ. (H · X)n = H1 (X1 − X0 ) + H2 (X2 − X1 ) + · · · + Hn (Xn − Xn−1 ). u e e a Deux transformations de martingales. et si Hn ≥ 0 pour tout n ≥ 1. Dans le cas particulier o` µ est absolument continue par rapport ` λ (sur F ). une sous-martingale). e (i) Si (Xn ) est une martingale. (ϕ(Xn )) est une sous-martingale.a. (ϕ(Xn )) est une sous-martingale. (ii) Si (Xn ) est une sous-martingale et si ϕ est croissante.4 Une famille (Hn )n≥1 de v. la martingale u a (fn )n∈N est du type consid´r´ en (i) ci-dessus : on v´rifie ais´ment que ee e e fn = E[f | Fn ]. 166 . |Xn | est une sous-martingale (ainsi que Xn si 2 + E[Xn ] < ∞ pour tout n) et si Xn est une sous-martingale. tel que E[ϕ(Xn )] < ∞ pour tout n ∈ N. e e On pose (H · X)0 = 0 et pour tout entier n ≥ 1. puisque Xn ≤ E[Xn+1 | Fn ] et ϕ est croissante. e E[ϕ(Xn+1 ) | Fn ] ≥ ϕ(E[Xn+1 | Fn ]) ≥ ϕ(Xn ). r´elles est dite pr´visible si. e e e Hn est born´e et Fn−1 -mesurable. et (Hn )n≥1 une famille pr´visible. et soit (Xn )n∈N un processus adapt´. 2 En particulier.1. ((H · X)n ) est aussi une martingale.Alors (fn )n∈N est une martingale : si A ∈ Fn . ((H · X)n ) est une surmartingale (resp. E[1A fn+1 ] = 1A (ω) fn+1(ω) dω = µ(A) = 1A (ω) fn (ω) dω = E[1A fn ]. pour tout n ≥ 1. si Xn est une martingale. (i) D’apr`s l’in´galit´ de Jensen pour les esp´rances conditionnelles.1 Soit ϕ : R −→ R+ une fonction convexe. D´finition 12. Proposition 12.

Pour prendre une image tir´e de la Bourse. Il est tr`s facile de voir que cela est ´quivalent ` imposer que pour tout n ∈ N on a e e a {T ≤ n} ∈ Fn .1 Une v. le temps constant T = k est ´videmment un temps d’arrˆt. e a la diff´rence Xn+1 − Xn s’interpr`te comme le gain r´alis´ entre les instants n et n + 1. Hn sont born´es. 12. mais le nouveau gain r´alis´ entre les instants e e e e n et n + 1 est Hn+1 (Xn+1 − Xn ). Il suffit ensuite e e de v´rifier que. En revenant ` l’interpr´tation en termes de jeu. Or (H · X)n+1 − (H · X)n = Hn+1 (Xn+1 − Xn ) et puisque Hn+1 est Fn -mesurable.a. Le jeu reste ´quitable. Dans la suite nous utiliserons indiff´remment l’une ou l’autre d´finition. c’est-`-dire les a a a a ´v´nements de Fn . (i) Si k ∈ N. Ceci fournit une explication intuitive de la d´finition de e (H · X)n . on n’a ` sa disposition que l’information acquise ` cet instant.a. o` u F∞ = n∈N n∈N {T = n} Fn = σ n∈N Fn . et si A est un bor´lien de R. ıtre a Exemples. TA := inf{n ∈ N : Yn ∈ A} 167 .a. On e e e e peut imaginer que le joueur ` l’instant n modifie sa mise en la multipliant par Hn+1 (qui doit a ˆtre Fn -mesurable). T : Ω −→ N = N ∪ {+∞} est appel´e temps d’arrˆt (de la e e e filtration (Fn )) si pour tout entier n ∈ N.2 Temps d’arrˆt e D´finition 12. il est facile de v´rifier que les v. pour tout n ∈ N. Si on interpr`te (dans le cas d’une martingale) Xn comme l’avoir du joueur ` l’instant n. on a {T = n} ∈ Fn . La preuve de (ii) est analogue. e e Il est important de noter que la valeur +∞ est autoris´e. (H · X)n e e sont int´grables. En ´crivant e e {T = +∞} = Ω\ on voit que {T = +∞} ∈ F∞ . il est impossible de d´cider e e e e de vendre ses actions au moment o` elles vont ˆtre ` leur cours maximum de l’ann´e (cela u e a e demanderait de connaˆ le futur ` cet instant !). on a E[Hn+1 (Xn+1 − Xn ) | Fn ] = Hn+1 E[Xn+1 − Xn | Fn ] = 0. (i) Puisque les v. e e e e (ii) Si (Yn )n∈N est un processus adapt´. e E[(H · X)n+1 − (H · X)n | Fn ] = 0. De plus le processus ((H · X)n ) est adapt´ par construction.Preuve.2. les temps d’arrˆt sont les instants a e e al´atoires auxquels on peut d´cider de s’arrˆter : le point-cl´ est que pour d´cider de s’arrˆter e e e e e e ` l’instant n.

En effet. dans la d´finition de TA . 1{T <∞} YT d´finie par e 1{T <∞} YT (ω) = est FT -mesurable. pour n ∈ {1. . alors inf(Tk ). . Yn+1 ∈ A. .1 (i) Si S et T sont deux temps d’arrˆt. e Preuve. Soit A ∈ FS . e Preuve. (i) On ´crit {S∧T ≤ n} = {S ≤ n}∪{T ≤ n} et {S∨T ≤ n} = {S ≤ n}∩{T ≤ n}.est un temps d’arrˆt. sup(Tk ). Alors la e v. e e e {LA = n} = {Yn ∈ A. e e Proposition 12. e (ii) Si (Tk )k∈N est une suite de temps d’arrˆt. et soit T un temps d’arrˆt. Alors.2 Soit T un temps d’arrˆt.2. e {lim inf(Tk ) ≤ n} = ∞ m=0 ∞ k=m {Tk ≤ n} . En effet. . pour tout entier n ≥ 0. / / / Remarquons que. e Proposition 12. e e e {TA = n} = {Y0 ∈ A. . On v´rifie ais´ment que FT est une tribu et que FT = Fn si T = n. appel´ temps d’entr´e dans A. Proposition 12. lim sup(Tk ) et lim inf(Tk ) e sont aussi des temps d’arrˆt.2. . . N − 1}. Y1 ∈ A. La tribu du pass´ jusqu’` l’instant T est e e e a FT = {A ∈ F : ∀n ∈ N. D´finition 12. par exemple. S ∨ T et S ∧ T sont aussi des e temps d’arrˆt.3 Soit (Yn )n∈N un processus adapt´. A ∩ {T = n} ∈ Fn }. Yn ∈ A} ∈ Fn . . Yn−1 ∈ A. . si on fixe N > 0 et on pose LA := sup{n ≤ N : Yn ∈ A} (sup ∅ = 0 par convention) LA n’est en g´n´ral pas un temps d’arrˆt. pour tout n ∈ N. .2. . Cette convene tion sera constamment utilis´e dans la suite. on fait la convention inf ∅ = +∞. .a.2 Soient S et T deux temps d’arrˆt avec S ≤ T . YN ∈ A} / / n’est a priori pas dans Fn . FS ⊂ FT . {inf(Tk ) ≤ n} = ∪{Tk ≤ n} et. n A ∩ {T = n} = k=0 (A ∩ {S = k}) ∩ {T = n} ∈ Fn . e (iii) En revanche. Alors. e (ii) De mˆme. 168 Yn (ω) 0 si T (ω) = n ∈ N si T (ω) = +∞ .2.

1) et on d´duit de la proposition que Yn∧T est Fn∧T -mesurable donc e e aussi Fn -mesurable d’apr`s la proposition 12. si le temps d’arrˆt T est born´.2. Lorsque le temps d’arrˆt T est fini p. Alors. et il n’y a pas de contradiction avec le th´or`me.2 – une autre d´monstration sera donn´e dans la partie e e suivante) mais 1 = E[XT ] = E[X0 ] = 0.Preuve. pour tout n ∈ N. ≤ E[X0 ] dans le cas d’une e surmartingale). Soit B un bor´lien de R. on ´crira bien sˆ r simplement YT au lieu de e e u 1{T <∞} YT . Alors (Xn∧T )n∈N est aussi une martingale (resp. e {1{T <∞} YT ∈ B} ∩ {T = n} = {Yn ∈ B} ∩ {T = n} ∈ Fn .s. Puisque e Xn∧T = X0 + (H · X)n la premi`re partie du th´or`me d´coule de la proposition 12. u e e e e (resp. Bien sˆ r le temps d’arrˆt T n’est pas born´. n ∧ T est aussi un temps e d’arrˆt (lemme 12. si le temps d’arrˆt e e e e e est born´ par N. une surmartine e e e e gale) et soit T un temps d’arrˆt.2.s. Consid´rons d’abord une suite num´rique α = (αn )n∈N . si T est un temps d’arrˆt quelconque. E[XT ] ≤ E[X0 ]). (cf Proposition 10.3 Convergence presque sˆ re des martingales u Nous allons maintenant ´tudier la convergence presque sˆre d’une martingale ou d’une souse u martingale quand n → ∞. on a XT ∈ L1 . posons Hn = 1{T ≥n} = 1 − 1{T ≤n−1} . ou encore pile ou e face).1. e Th´or`me 12.2. Ensuite. Alors la famille (Hn )n≥1 est pr´visible. Si 0 ∈ B. Pour e e 169 . il suffit d’´crire {1{T <∞} YT ∈ B} = e c c {1{T <∞}YT ∈ B } .2.2. on a E[XT ] = E[XN ∧T ] = E[X0 ] (resp. e e e Consid´rons la marche al´atoire Xn = Y1 + · · · + Yn issue de 0 et de loi de saut P (Y1 = 1) = e e P (Y1 = −1) = 1/2 (c’est ce qu’on appelle la marche al´atoire simple sur Z. En particulier. ce qui montre que {1{T <∞} YT ∈ B} ∈ FT . Pour tout n ≥ 1. une e surmartingale). L’hypoth`se que T est born´ est n´cessaire comme le montre l’exemple simple suivant. Alors il d´coule d’un exemple pr´c´dent que (Xn )n∈N est une martingale. 12. Cependant. e e e si on pose T = inf{n ≥ 0 : Xn = 1} on a T < ∞ p.4 (Th´or`me d’arrˆt) Soit (Xn )n∈N une martingale (resp. En particulier.2. et e e E[XT ] = E[X0 ] Preuve.

b]. e Consid´rons maintenant un processus adapt´ (Xn )n∈N . Il en d´coule en particulier que Nn ([a. b]. Xmk ≤ a.a. e Lemme 12.1. α) < ∞. α) est le nombre de mont´es effectu´es le long de l’intervalle [a. Tk au lieu de e e Sk (X).2 (In´galit´ des nombres de mont´es de Doob) Supposons que (Xn )n∈N e e e est une sous-martingale. . On pose Yn = (Xn − a)+ . X)] ≤ E[(Xn − a)+ − (X0 − a)+ ]. On pose e ensuite pour tout entier n. Bien entendu. (Yn )n∈N est encore une e sous-martingale. En effet. 1{Tk (α)<∞} . Lemme 12. b] par e e e la suite (αn )n∈N . on a par exemple e {Tk (X) ≤ n} = {Xm1 ≤ a. b]. et ´crivons Sk . k=1 La quantit´ N∞ ([a. α) = N∞ ([a. b].3.3. e Sk+1 (α) = inf{n ≥ Tk (α) : αn ≤ a} Tk+1 (α) = inf{n ≥ Sk+1 (α) : αn ≥ b}. . 0≤m1 <n1 <···<mk <nk ≤n ce qui montre que {Tk (X) ≤ n} ∈ Fn .1. pour tous les r´els a < b et pour tout n ∈ N. ` valeurs dans N. Pour all´ger les notations posons Nn = Nn ([a. e (b − a) E[Nn ([a. qui e a sont d´finies de la mani`re suivante : on pose e e S1 (α) = inf{n ≥ 0 : αn ≤ a} T1 (α) = inf{n ≥ S1 (α) : αn ≥ b} puis. X) est Fn -mesurable. on a N∞ ([a. b]. Alors. par r´currence. Tk (X) e e e e e deviennent des v. Xnk ≥ b}. D´finissons alors une famille pr´visible (Hn )n≥1 en posant e e Hn = ∞ k=1 1{Sk <n≤Tk } ≤ 1 170 . Tk (X). Xn1 ≥ b. b]. Nous utiliserons le lemme simple d’analyse suivant. D’apr`s la proposition 12.1 La suite (αn )n∈N converge dans R ssi pour tout choix des rationnels a et b tels que a < b. et plus pr´cis´ment il est facile de v´rifier que ce sont a des temps d’arrˆt. α) = ∞ k=1 ∞ 1{Tk (α)≤n} . Alors les quantit´s Sk (X). b]. Nn ([a. .tous les r´els a < b on introduit deux suites de temps Sk (α) et Tk (α) appartenant ` N. Preuve. . on utilise toujours la convention inf ∅ = +∞ dans ces d´finitions. X).

et Yn ≥ 0. X)] < ∞ 171 . e (b − a) E[Nn ([a.s. e Remarque. n∈N L’hypoth`se (12. k∈N En faisant tendre vers +∞. et en rappelant qu’une souse martingale v´rifie E[Xn ] ≥ E[X0 ]. Par ailleurs. d’o` E[(K · Y )n ] ≥ E[(K. et la proposition e 12. on a pour tout n ≥ 1.2). on voit que. e e Th´or`me 12. et en utilisant (12.3. et donc (b − a) E[Nn ] ≤ E[(H · Y )n ] ≤ E[(K · Y )n + (H · Y )n ] = E[Yn − Y0 ] ce qui est l’in´galit´ du lemme.(observer que l’´v´nement {Sk < n ≤ Tk } = {Sk ≤ n − 1}\{Tk ≤ n − 1} est dans Fn−1 .Y )0 ] = 0. X)] ≤ E[(Xn − a)+ ] ≤ |a| + E[(Xn )+ ] ≤ |a| + sup E[(Xk )+ ].2) Alors la suite Xn converge p. e e parce que Sk et Tk sont des temps d’arrˆt). pour tout k ≥ 0. quand n → ∞. b]. (Kn )n∈N est une famille pr´visible positive. De plus sa limite X∞ v´rifie E[|X∞ |] < ∞. b ∈ Q tels que a < b.1. on v´rifie facilement que e e Nn Nn (H · Y )n = k=1 (YTk − YSk ) + 1{SNn +1 <n} (Yn − YSNn +1 ) ≥ k=1 (YTk − YSk ) ≥ Nn (b − a). e E[(Xk )− ] ≤ sup E[(Xn )+ ] − E[X0 ]. e e e On a donc en particulier E[(H · Y )n ] ≥ (b − a) E[Nn ]. D’apr`s le lemme 12. Soient a.2) est donc ´quivalente ` imposer que e e a sup E[|Xn |] < ∞ n∈N c’est-`-dire que la suite (Xn ) est born´e dans L1 . si Kn = 1 − Hn .3 Soit (Xn )n∈N une sous-martingale telle que e e sup E[(Xn )+ ] < ∞. b].2. En ´crivant E[Xn ] = E[(Xn )+ ] − E[(Xn )− ]. on trouve (b − a) E[N∞ ([a. n∈N (12. La premi`re in´galit´ est vraie parce que YSNn +1 = 0 sur l’ensemble {SNn +1 < ∞}. a e Preuve. u On observe ensuite que (K · Y )n + (H · Y )n = ((K + H) · Y )n = Yn − Y0 .2 montre que (K · Y ) est une sous-martingale. Alors.3.

3.s. X) < ∞. .2. e e Dans ce cas on a X∞ = 0 p.et donc N∞ ([a. Sa limite X∞ est dans L1 et v´rifie Xn ≥ E[X∞ | Fn ] pour tout n ∈ N. cela suffit pour affirmer que p.s.3. on a a e e E[|X∞ |] ≤ lim inf E[|Xn |] ≤ sup E[|Xn |] < ∞ n→∞ n∈N et en particulier |X∞ | < ∞ p. b].s. Alors T est un temps d’arrˆt. e e Cet exemple montre aussi que la convergence du corollaire (ou du th´or`me pr´c´dent) e e e e n’a pas forc´ment lieu dans L1 : ici E[Xn ] = 1 pour tout n alors que E[X∞ ] = 0.s.3 ` Xn = −Xn . Du th´or`me 12. en remarquant que l’hypoth`se e e a ′ e (12. e (2) Processus de branchement. vers a X∞ tel que X∞ < ∞.1. Posons a ensuite T = inf{n ≥ 0 : Yn = 0}. et de la remarque suivant l’´nonc´. On applique le th´or`me 12. on obtient ainsi que p. ` laquelle on peut appliquer le corollaire. bien que la suite (Xn ) soit une martingale.3. (1) Soit Yn = 1 + Z1 + · · · + Zn une marche al´atoire simple (pile ou face) issue e de 1. N∞ ([a.a. La derni`re assertion d´coule du lemme de Fatou pour e e e e les esp´rances conditionnelles : e Xn ≥ lim inf E[Xm | Fn ] ≥ E[lim inf Xm | Fn ] = E[X∞ | Fn ]. b].4 Soit (Xn )n∈N une surmartingale positive.j∈N une famille de v.a. e Ensuite. cela n’est possible que si T < ∞ p.2) est alors trivialement v´rifi´e.s.j . ` valeurs dans N en posant e e a X0 = ℓ Xn Xn+1 = j=1 ξn. cela d´montre la propri´t´ qui avait ´t´ utilis´e dans le dernier exemple de la partie e e ee ee e pr´c´dente. e D’apr`s le lemme 12. e Preuve. la suite Xn converge dans R. et donc l’in´galit´ Xn ≥ E[X∞ | Fn ] = 0 n’est pas une e e ´galit´.s. Donc Xn converge p. m→∞ m→∞ Exemples.s. ` l’aide du lemme de Fatou. u e Soit ensuite (ξn. Soit µ une mesure de probabilit´ sur N. Quitte ` ´carter une r´union d´nombrable d’ensembles de ae e e probabilit´ nulle. 172 ∀n ∈ N. Alors Xn converge p. telle que e m= ∞ k=1 k µ(k) < ∞. On fixe aussi un entier ℓ ≥ 1 et on d´finit par r´currence une suite (Xn ) de v. Modulo un argument de sym´trie e ´vident. Corollaire 12.s. Puisque sur l’ensemble {T = ∞} on a |Xn+1 − Xn | = [Yn+1 − Yn | = 1 pour tout n. pour tous les rationnels a < b. ind´pendantes de loi µ..4 on d´duit que Xn = Yn∧T est une e e e e martingale positive. X) < ∞ p.j )n. On a vu que (Yn )n∈N est une martingale par rapport ` sa filtration canonique. On exclut les cas particuliers o` µ est la mesure de Dirac en 1 ou la mesure de Dirac en 0.

On a m−n Xn −→ Z (12. on peut lui appliquer le th´or`me 12. • m > 1. ind´pendantes). Puisque Xn est ` valeurs enti`res. et sur l’ensemble {Z > 0} on voit que Xn est de l’ordre de mn quand n est grand. Xn sont dans L1 (une r´currence imm´diate montre que E[Xn ] = ℓ mn ) et ensuite que la suite m−n Xn est une martingale positive. Dans ce cas Xn est une martingale positive et on a la mˆme conclusion e (extinction presque sˆ re) une fois que l’on a v´rifi´ que u e e P (∃N ≥ 1. sachant que le nombre d’enfants de chaque individu suit la loi µ (et les nombres d’enfants des diff´rents individus sont des v. il est facile de voir que le processus (Xn ) est adapt´ (la d´finition de Xn ne fait e e intervenir que les ξk. si n ≥ 1. Ω} Fn = σ(ξk.3) a lieu dans L1 on a P (Z > 0) > 0.j : k < n. Remarquons que si la convergence (12.s. On voudrait alors v´rifier que P (Z > 0) > 0 (et aussi que Z > 0 p.a. En effet. En cons´quence.3 e e e et obtenir que Xn converge p. Les exemples pr´c´dents montrent qu’il n’y a pas e e 1 n´cessairement convergence dans L . Ensuite. et donc E[ξn. e e −n Alors la suite m Xn est une martingale relativement ` la filtration a F0 = {∅.j | Fn ] = m Xn puisque ξn. sur l’ensemble {lim inf Xn > 0} de e non-extinction). 173 .s. Si (Xn )n∈N est une martingale born´e dans L1 . Distinguons maintenant trois cas : • m < 1. Cette derni`re assertion est obtenue comme une cons´quence facile du lemme de Borele e Cantelli (on utilise le fait que µ(1) < 1). e e e e Cela montre d’abord que les v. vers X∞ .a. • m = 1. Le th´or`me suivant caract´rise les martingales pour e e e e lesquelles c’est le cas. puisque dans ce cas E[Z] = lim m−n E[Xn ] = ℓ.j | Fn ] = E[ξn. pour tout n ≥ 0. E[Xn+1 | Fn ] = E[ ∞ j=1 1{j≤Xn } ξn. p ≥ 1 : ∀n ≥ N.j est ind´pendante de Fn . On peut montrer (th´or`me de Kestene e Stygum) que la convergence (12.j pour k < n).3.3) a lieu dans L1 ssi ∞ k=1 k log(k) µ(k) < ∞ et qu’alors Z > 0 p. j ∈ N) . la convergence de m−n Xn vers une quantit´ a e e finie n’est possible que si Xn = 0 pour tout n assez grand (extinction presque sˆ re de la u population). Xn = p) = 0.La quantit´ Xn s’interpr`te comme le nombre d’individus dans une population ` la g´n´ration e e a e e n.j | Fn ] = ∞ j=1 1{j≤Xn } E[ξn.j ] = m.s. Nous verrons un r´sultat un peu e plus faible dans la partie 4 ci-dessous.3) n→∞ E[m−(n+1) Xn+1 | Fn ] = m−n Xn . sur l’ensemble de non-extinction.

∀m > n et en utilisant le fait que l’application Y −→ E[Y | Fn ] est une contraction de L1 (i. e e e e a Remarquons d’abord que X∞ est F∞ -mesurable puisque les v. Pour obtenir la convergence L1 . Donc on peut e e choisir n0 assez grand pour que. Comme ε ´tait arbitraire. o` F∞ = ∞ n=1 Fn . et dans L1 . Les deux conditions suivantes sont ´quivae e e lentes: (i) Xn converge vers X∞ p. on trouve que. Xn le sont. e Corollaire 12. La suite (Xn )n∈N est alors born´e dans L1 et donc converge e p. Preuve. E[|Xn − E[Z 1{|Z|≤M } | Fn ]|] = E[|E[Z − Z 1{|Z|≤M } | Fn ]|] < ε.e.a. Alors. n ≥ n0 . P ) telle que Xn = E[Z | Fn ] pour tout n ∈ N. la martingale E[Z 1{|Z|≤M } | Fn ] converge dans L1 . La martingale Xn = E[Z | Fn ] converge p. De plus. En ´crivant e Xn = E[Xm | Fn ] . si ces conditions sont satisfaites. on a E[Z 1A ] = E[Xn 1A ] = E[X∞ 1A ]. la suite (Xn ) est de Cauchy dans L1 . D’apr`s le cas born´. Compte-tenu du th´or`me pr´c´dent.s.a. Alors. e e E[|Xm − Xn |] < 3ε. et u dans L1 vers X∞ = E[Z | F∞ ].3. E[|E[Z 1{|Z|≤M } | Fm ] − E[Z 1{|Z|≤M } | Fn ]|] < ε. (ii) Il existe une v. supposons (ii).a. n ≥ n0 . e e e e e e fixons ε > 0. on trouve en faisant tendre m vers ∞ que Xn = E[X∞ | Fn ]. il reste ` montrer que X∞ = E[Z | F∞ ]. d’apr`s le th´or`me 12. et choisissons M > 0 assez grand pour que E[|Z − Z 1{|Z|≤M } |] < ε. On dit alors que la martingale (Xn )n∈N est ferm´e. on peut prendre Z = X∞ dans (ii).3. et le th´or`me de convergence domin´e donne le r´sultat voulu.Th´or`me 12.6 Soit Z ∈ L1 (Ω. Supposons d’abord (i). Inversement. Z est born´e par une constante K < ∞. F . 174 . F . E[|E[Y | Fn ]|] ≤ E[|Y |]).5 Soit (Xn )n∈N une martingale. toutes les v. Xn sont aussi born´es e e par K. pour tous m. Z ∈ L1 (Ω.a. traitons d’abord le cas o` e e e u la v. Dans le cas g´n´ral. e Preuve.s. Ensuite.3. pour tout n. En combinant ceci avec la majoration pr´c´dente. pour tous m.s.3. pour tout n ∈ N et A ∈ Fn . P ).

s. fn −→ f∞ n→∞ avec f∞ dλ < ∞.Un argument simple de classe monotone (cf Th´or`me 1. 1[.s. 2−n On a d´j` remarqu´ que (fn )n∈N est une martingale (positive).3. pour toute mesure finie γ sur [0. 1[. 2n 2n n=1 Fn = F∞ .3. e e ee e e Exemple. 1[. F est la tribu bor´lienne sur e [0. 2n ). (12. . reste vraie pour A ∈ σ ∞ recherch´ d´coule ensuite de la propri´t´ caract´ristique de l’esp´rance conditionnelle. 1[: hn (x) ≤ ε}) = 175 1{hn ≤ε}hn dλ ≤ ε. posons e e a hn = dν = fn − E[f∞ | Fn ]. . et donc e λ D’autre part. 1[: lim sup hn (x) > 0 n→∞ = 0. [. et pour tout entier n ∈ N. 1[. 1[. Reprenons l’exemple (iv) de la partie 1 : Ω = [0. On consid`re la filtration dyadique e Fn = σ([ i−1 i . γ) des fonc+ tions γ-int´grables positives. µ(A) = fn 1A dλ ≥ E[f∞ | Fn ]1A dλ = f∞ 1A dλ. De plus fn ≥ E[f∞ | Fn ]. ce qui montre que. et on a donc (Corollaire ea e 12. Le r´sultat e Soit µ une mesure finie sur [0. ν({x ∈ [0. En cons´quence hn −→ 0 p.4) .1). 1[. pour tout A ∈ Fn . e Montrons que ν est ´trang`re ` λ. On d´duit alors de l’in´galit´ e e e e pr´c´dente que. 2. 1[.4. Pour tout n ≥ 0. Il en d´coule que ν = µ − f∞ · λ est une mesure positive sur [0.4) p. pour tout ε > 0.3. pour toute fonction g mesurable positive born´e sur [0. dλ |Fn Dans cet exemple on a F∞ = F et donc le corollaire 12. i = 1. vraie pour A ∈ ∞ n=1 Fn . . i2−n [) 1[(i−1)2−n .i2−n [ (ω). x ∈ [0.6 montre que E[f∞ | Fn ] −→ f∞ p. et P = λ est la mesure de Lebesgue. En utilisant la densit´ dans L1 des fonctions continues ` support compact (cf Th´or`me e a e e 4. on a e e e g dµ ≥ gf∞ dλ. dµ fn (ω) = (ω) = dλ |Fn 2n i=1 µ([(i − 1)2−n . on v´rifie ais´ment que l’espace des combinaisons lin´aires ` coefficients positifs de e e e a fonctions indicatrices d’intervalles dyadiques est dense dans l’espace L1 ([0. .s.1) montre que l’´galit´ E[Z 1A ] = e e e e E[X∞ 1A ].

De plus. Preuve. Le cas S = 0 a d´j` ´t´ vu dans le th´or`me 12.2. on a (H · X)N = XT − XS et E[(H.4 La convergence dans Lp pour p > 1 Notre but est maintenant d’´tudier sous quelles conditions une martingale (Xn ) converge e dans Lp lorsque p > 1.X est une sous-martingale (th´or`me 12.4. pour tout n ≥ 1.1. e e e e pour tout a > 0 et tout n ∈ N. e e Finalement l’´criture µ = f∞ · λ + ν est la d´composition de Lebesgue de la mesure µ e e comme somme d’une mesure absolument continue et d’une mesure ´trang`re ` la mesure de e e a Lebesgue. Remarque.2 (In´galit´ maximale de Doob) Soit (Xn )n∈N une sous-martingale. e 12. e Lemme 12. Alors. et soient S et T deux temps d’arrˆt e born´s tels que S ≤ T .4.1 Soit (Xn )n∈N une sous-martingale. 1[: lim sup hn (x) < ε n→∞ ≤ν ∞ ∞ N =1 n=N {hn ≤ ε} ≤ ε. si N est un entier choisi pour que S ≤ T ≤ N.4) on voit que λ et ν sont port´es par des bor´liens disjoints.ce qui entraˆ ıne ν On obtient ainsi ν x ∈ [0.X)N ] ≥ 0 puisque H. Hn = 1{S<n≤T } = 1{S≤n−1} − 1{T ≤n−1} . On d´finit ensuite une famille pr´visible ea e e en posant. e e Th´or`me 12. Alors e E[XS ] ≤ E[XT ]. µ est absolument continue par rapport ` λ ssi ν = 0 ce qui ´quivaut ` a e a dire que la martingale (fn ) est ferm´e. Alors. =0 et en comparant avec (12. aP 0≤k≤n + sup Xk ≥ a ≤ E Xn 1{sup0≤k≤n Xk ≥a} ≤ E[Xn ]. On sait d´j` que XS et XT sont dans L1 . Introduisons le temps d’arrˆt e T = inf{n ≥ 0 : Xn ≥ a}. Cela nous am`nera ` obtenir des estimations importantes pour la e a probabilit´ de grandes valeurs du supremum supn∈N Xn . 1[: lim sup hn (x) = 0 n→∞ x ∈ [0.2).4. eaee e e Preuve. 176 .

si (Yn )n∈N est une martingale et si e 0≤k≤n p p ) E[(Xn )p ]. A gauche. si A = { sup Xk ≥ a} 0≤k≤n on a A = {T ≤ n}.4. il vient ∞ 0 (12. E[(Xn )p ] ≤ ( En cons´quence. on a pour tout a > 0 e e e a P (Xn ≥ a) ≤ E[Xn 1{Xn ≥a} ]. D’apr`s le th´or`me 12.Alors. p−1 ∗ Yn = sup |Yk | on a pour tout n ≥ 0 : ∗ E[(Yn )p ] ≤ ( p p ) E[|Yn |p ]. XT ∧n ≥ a 1A + Xn 1Ac . La seconde est imm´diate. Par ailleurs. on peut supposer E[(Xn ) ] < ∞.4.3 Soit p > 1 et soit (Xn )n∈N une sous-martingale positive. On a donc aussi E[(Xn )p ] < ∞. e on multiplie chaque membre de cette in´galit´ par ap−2 et on int`gre par rapport ` la mesure e e e a de Lebesgue da sur ]0. En combinant ces deux in´galit´s. en appliquant le lemme pr´c´dent aux temps d’arrˆt T ∧ n e e e et n. 0≤k≤n Alors. Alors. Pour la premi`re partie. pour tout 0 ≤ k ≤ n. car sinon il e n’y a rien ` montrer.2. on trouve e e E[Xn ] ≥ aP (A) + E[Xn 1Ac ] d’o` la premi`re in´galit´ du th´or`me. ∞[. l’in´galit´ de Jensen pour les esp´rances conditionelles montre a e e e que.5) a p−1 P (Xn ≥ a) da = E 177 e Xn 0 ap−1 da = 1 E[(Xn )p ] p . La deuxi`me partie de la proposition d´coule de la premi`re appliqu´e ` la souse e e e a p martingale Xn = |Yn |. Posons Xn = sup Xk . p−1 Preuve. pour tout n ≥ 0. on a E[(Xk )p ] ≤ E[E[Xn | Fk ]p ] ≤ E[E[(Xn )p | Fn ]] = E[(Xn )p ]. on a E[XT ∧n ] ≤ E[Xn ] et d’autre part. u e e e e e e Proposition 12.

X∞ telle que E[|X∞ |p ] = sup E[|Xn |p ] n∈N et on a ∗ E[(X∞ )p ] ≤ ( p p ) E[|X∞ |p ]. n→∞ n∈N 178 . u e e e Si (Xn )n∈N est un processus al´atoire. ` droite on a e e e a ∞ 0 a p−2 E[Xn 1{Xn ≥a} ]da = E Xn e e Xn 0 ap−2 da 1 E[Xn (Xn )p−1 ] = p−1 p−1 1 1 ≤ E[(Xn )p ] p E[(Xn )p ] p . la proposition 12. le th´or`me de e e e p convergence domin´e montre que la suite Xn converge dans L vers X∞ .4. puisque la e p suite E[|Xn | ] est croissante (cf (12.en utilisant le th´or`me de Fubini.s.3 montre que. Enfin.5)) on a E[|X∞ |p ] = lim E[|Xn |p ] = sup E[|Xn |p ]. on note e ∗ X∞ = sup |Xn |. p−1 Preuve. n∈N Th´or`me 12. on sait d´j` que Xn converge p. n∈N Alors.s. La martingale (Xn ) ´tant born´e dans L1 . p − 1 k∈N En passant ` la limite croissante qund n ↑ ∞. |Xn | sont domin´es par X∞ . p−1 d’apr`s l’in´galit´ de H¨lder. Supposons qu’il existe p > 1 tel que e e sup E[|Xn |p ] < ∞.4 Soit (Xn )n∈N une martingale. pour tout n ∈ N. on a a ∗ E[(X∞ )p ] ≤ ( p p ) sup E[|Xk |p ] < ∞ p − 1 k∈N ∗ ∗ et donc X∞ ∈ Lp . De plus. De mˆme. vers e e ea X∞ .a. Il vient donc e e e o p−1 1 1 1 E[(Xn )p ] ≤ E[(Xn )p ] p E[(Xn )p ] p p p−1 d’o` l’in´galit´ de la premi`re partie de la proposition (on utilise le fait que E[(Xn )p ] < ∞). Puisque toutes les v.4.a. et dans Lp vers une v. ∗ E[(Xn )p ] ≤ ( p p ) sup E[|Xk |p ]. Xn converge p.

s. D’apr`s le th´or`me 12.k=1 1{j≤Xn . En cons´quence. cette martingale converge dans L vers Z. dans L1 (Ω.Exemple.j ξn. Revenons au processus de branchement (Xn )n∈N introduit dans la partie pr´c´e e dente. sur l’ensemble de non-extinction de la population). En partice e e ulier.4.k≤Xn} ξn.k=1 2 m2 Xn 2 2 E[Xn+1 ] = m2 E[Xn ] + ℓσ 2 mn . On suppose que la loi de reproduction µ satisfait m= et ∞ k=0 ∞ k=0 k µ(k) ∈]1.4.k=1 ∞ ∞ j. V´rifions que cette martingale est born´e dans L2 . j.a.k | Fn = = = On a donc 1{j≤Xn .i. 2 En posant an = m−2n E[Xn ]. 12. On a vu que m−n Xn est une martingale. E[Z] = E[X0 ] = ℓ et donc P (Z > 0) > 0 (il n’est pas tr`s difficile de voir qu’on a en e fait Z > 0 p.5 Uniforme int´grabilit´ et martingales e e D´finition 12. F . ∞[ k 2 µ(k) < ∞. on obtient an+1 = an + ℓσ 2 m−n−2 et puisque m > 1 la suite (an ) converge.k≤Xn} E[ξn. On pose aus