LM345 - Probabilités Et Statistiques

Probabilités et Statistiques
Raphaël KRIKORIAN
Université Paris 6
Année 2005-2006
2
Table des matières
1 Rappels de théorie des ensembles 5

1.1 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . 5
1.2 Applications entre ensembles . . . . . . . . . . . . . . . . . . . 6
1.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Espaces Probabilisés et variables aléatoires 13

2.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Variables Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Le cas particulier des v.a à valeurs dans un ensemble
fini ou dénombrable . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . 26
2.2.3 Loi des variables aléatoires à valeurs dans un ensemble
fini ou dénombrable . . . . . . . . . . . . . . . . . . . . 27
2.2.4 Loi de variables aléatoires admettant une densité . . . 29
2.3 Espérance d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Espérance d’une v.a. à valeurs dans un ensemble fini
(ou dénombrable) . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Espérance d’une v.a. positive . . . . . . . . . . . . . . 31
2.3.3 Espérance des v.a intégrables . . . . . . . . . . . . . . 32
2.3.4 Formule de transfert . . . . . . . . . . . . . . . . . . . 35
2.3.5 Application au calcul de densité . . . . . . . . . . . . . 40
2.4 Espaces L2 , variance et Bienaymé-Tchébychev . . . . . . . . . 42
2.4.1 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2 Calculs de variance . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev . . . . 48
3
4 TABLE DES MATIÈRES
3 Vecteurs aléatoires et Indépendance 51

3.1 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Tribu borélienne de Rm . . . . . . . . . . . . . . . . . 51
3.1.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Loi d’un vecteur aléatoire . . . . . . . . . . . . . . . . 52
3.1.4 Marginales . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.5 Espérance et variance des vecteurs aléatoires . . . . . . 54
3.1.6 Formule de transfert . . . . . . . . . . . . . . . . . . . 56
3.1.7 Calcul de densité de vecteurs aléatoires . . . . . . . . . 56
3.2 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . 60
3.2.1 Cas des v.a à valeurs dans un ensemble discret . . . . . 61
3.2.2 Cas des v.a admettant des densités . . . . . . . . . . . 63
3.2.3 Espérance des produits de v.a indépendantes . . . . . . 63
3.2.4 Critères d’indépendance . . . . . . . . . . . . . . . . . 66
3.3 Evènements indépendants . . . . . . . . . . . . . . . . . . . . 68
4 Sommes de variables aléatoires indépendantes 71

4.1 Lois des grands nombres dans le cas L2 . . . . . . . . . . . . . 72
4.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . 72
4.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . 73
4.2 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . 75
4.2.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . 76
4.2.2 Fonctions caractéristiques . . . . . . . . . . . . . . . . 78
4.2.3 Démonstration du théorème de la limite centrale . . . . 83
4.3 Quelques remarques sur les diverses notions de convergence . . 85
5 Espérance conditionnelle 87
5.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . 87
5.2 Espérance conditionnelle : cas discret . . . . . . . . . . . . . . 88
5.3 Cas des v.a admettant des densités . . . . . . . . . . . . . . . 91
5.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Chapitre 1
Rappels de théorie des

ensembles
Nous rappelons dans ce chapitre quelques notions élémentaires de théorie

des ensembles.
1.1 Opérations sur les ensembles

Un ensemble est intuitivement une collection d’éléments. Etant donnés un
ensemble E et un élément a on écrit a ∈ E si a est un élément de E. Il existe
un unique ensemble ne contenant aucun élément ; on le note ∅.
Si E et A sont deux ensembles on dit que F est inclus dans E ou que A
est un sous-ensemble de E si tout élément de A est un élément de E et on
écrit A ⊂ E. On peut alors définir le complémentaire de A dans E qui est
l’ensemble des éléments de E qui n’appartiennent pas à A. On le notera dans
ce cours E − A ou Ac ; cette dernière notation cesse d’être ambigüe si l’on
suppose E fixé une fois pour toute, ce que nous ferons.
Si E est un ensemble, l’ensemble constitué des sous-ensembles de E s’appelle
l’ensemble des parties de E et se note P(E).
Si (Ai )i∈I est
S une collection d’ensembles inclus dans E, la réunion des Ai est
l’ensemble i∈I Ai des a ∈ E pour lesquels T il existe i ∈ I tel que a ∈ Ai . De
même l’intersection des Ai est l’ensemble i∈I Ai des a ∈ E pour lesquels
a ∈ Ai pour tout i ∈ I. On dit que deux ensembles sont disjoints si leur
intersection est vide. On dit que les ensembles Ai , i ∈ I constituent une
partition de l’enemble E si i) ils sont non vides, ii) leur union sur i ∈ I vaut
E iii) ils sont disjoints deux à deux (Ai ∩ Aj = ∅ si i 6= j) ; on dit aussi que
E est union disjointe des Ai , i ∈ I.
5
6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
On a les formules
[ c \ \ c [
Ai = Aci , Ai = Aci .
i∈I i∈I i∈I i∈I
Si A1 , . . . , An sont des ensembles on peut définir le produit cartésien de

ces ensembles comme étant l’ensemble des n-uplets (a1 , . . . , an ) où a1 ∈
A1 , . . . , an ∈ An . On note cet ensemble A1 × · · · × An . Quand les Ai sont
finis son cardinal est le produit des cardinaux des Ai .
1.2 Applications entre ensembles

Si A et B sont deux ensembles, une application associe à tout élément a
de A un unique élément noté f (a) de B. On dit que f (a) est l’image de a par
f . Un élément de B peut n’être l’image d’aucun élément de A ou au contraire
être l’image de plusieurs éléments de A. On dit qu’une application est injec-
tive si tout élément de B est l’image d’au plus un élément de A, surjective
si tout élément de B est l’image d’au moins un élément de A et bijective si
elle est injective et surjective. On note B A l’ensemble des applications de A
dans B. Quand A et B son finis son cardinal vaut (#B)#A .
Si E est un ensemble fixé, l’ensemble des parties de E est en bijection avec
l’ensemble des applications de E dans l’ensemble à deux éléments {0, 1}.
Cette bijection est la suivante : à tout ensemble A ⊂ E on associe sa fonction
caractéristique ou fonction indicatrice 1A : E → {0, 1} définie par 1A (e) = 1
si e ∈ A et 1A (e) = 0 sinon. Réciproquement si f est une application de E
dans {0, 1} l’ensemble A des e ∈ E tels que f (e) = 1 est tel que 1A (·) = f (·).
En particulier, ceci démontre que quand E est fini le cardinal de P(E) est
2#E .
Si A1 , . . . , An sont des sous-ensembles de E on a
n
Y
1A1 ∩···∩An = 1Ai .
i=1
Si f est une application de E dans F on définit pour tout B ⊂ F l’ensemble

f −1 (B) comme étant l’ensemble des e ∈ E tels que f (e) ∈ B. (Cette définition
a un sens même si f n’est pas inversible.) On dit que f −1 (B) est la pré-image
de B par f .
On a toujours
[ [ \ \ c
−1
f Ai = f −1 (Ai ), f −1
Ai = f −1
(Ai ), f −1 c
(A ) = f −1
(A) .
i∈I i∈I i∈I i∈I
1.2. APPLICATIONS ENTRE ENSEMBLES 7
Attention le comportement par image directe n’est pas aussi bon.

Exercice i) Montrer que si A, B sont deux sous-ensembles de E on a
1 − 1A∪B = (1 − 1A )(1 − 1B ),
et en déduire que
#(A ∪ B) = #A + #B − #(A ∩ B).
ii) En généralisant la formule précédente montrer que
n
X X
#(A1 ∪ · · · ∪ An ) = (−1)p−1 #(Ai1 ∩ · · · ∩ Aip ).
p=1 1≤i1 <...<ip ≤n
Solution. i) Pour tout ensemble F ⊂ E

1F c = 1 − 1F .
Donc
1 − 1A∪B = 1Ac ∩Bc
= 1Ac 1Bc
= (1 − 1A )(1 − 1B ).
On a donc
1A∪B = 1A + 1B − 1A · 1B
= 1A + 1B − 1A∩B .
Or, pour tout ensemble F ⊂ E
X
#F = 1F (e).
e∈E
On a donc bien la conclusion.

ii) De façon générale,
n
Y
1 − 1A1 ∪···∪An = (1 − 1Ai ),
i=1
et donc
n
X X
1 − 1A1 ∪···∪An = 1 + (−1)p 1Ai1 · · · 1Aip
p=1 1≤i1 <...<ip ≤n
n
X X
=1+ (−1)p 1Ai1 ∩···∩Aip ,
p=1 1≤i1 <...<ip ≤n
et en sommant sur e ∈ E on obtient bien la formule annoncée.

1.3 Dénombrement
Cardinal d’une union disjointe finie. Si A1 , . . . , An sont des ensembles
finis disjoints deux à deux tels que A1 ∪ · · · ∪ = E alors E et fini et
n
X
#E = #Ai .
i=1
Cardinal d’un produit. Si A1 , . . . , An sont des ensembles finis le cardinal

du produit A1 × · · · × An est donné par
#(A1 × · · · × An ) = (#A1 ) · · · (#An ).
Cardinal de l’ensemble des applications de A dans B. Si A et B

sont des ensembles finis, l’ensemble des applications de A dans B est fini et
à pour cardinal
#(B A ) = (#B)#A .
Nombre d’injections entre deux ensmbles finis. Si A et B sont deux

ensembles finis avec #A = p, #B = n, l’ensemble des applications injectives
de A vers B a un cardinal égal à
(
0 si #A > #B
n(n − 1) · · · (n − p + 1) si p ≤ n.
En effet, supposons A = {a1 , . . . , ap } ; si p > n, il ne peut y avoir d’appli-

cations injective de A vers B, tandis que si p ≤ n, il y a n choix possibles
pour la valeur f (a1 ), n − 1 choix possibles pour la valeur de f (a2 ) (comme
f est injective f (a2 ) ne peut pas prendre la même valeur que f (a1 )) etc.
n − (p − 1) = n − p + 1 choix possibles pour f (ap )
C’est aussi le nombre de p-uplet (ordonnés) (e1 , . . . , ep ) où ei ∈ E.
Nombre de bijections de A vers A. Si A est un ensemble de cardinal n,

une application de A vers A est bijective si et seulement si elle est injective
et par conséquent le nombre de bijection de A vers A (on dit aussi le nombre
de permutations de A) égale
n! = n(n − 1) · · · 1.
1.3. DÉNOMBREMENT 9
Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensembles

de E est égal au nombre d’applications de E vers {0, 1} et vaut donc
#P(E) = 2n .
Nombre de sous-ensembles de cardinal p d’un ensemble à n éléments.

Si E est un ensemble fini de cardinal n, le nombre de sous-ensemble de E de
cardinal exactement p égale

n n(n − 1) · · · (n − p + 1) n!
= Cnp = = .
p p! p!(n − p)!
En effet, un sous-ensemble {a1 , . . . , ap } de E peut être vu comme un p-

uplet d’élément de E où l’on oublie l’ordre des éléments. Or, étant donnés p
éléments de E on peut former p! (nombre de bijections de {a1 , . . . , ap } dans
lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d’un
ensemble à n éléments égale le nombre d’injection de l’ensemble {1, . . . , p}
dans E (i.e le nombre de p-uplets de E) divisé par p!.
Une autre preuve de ce résultat est la suivante : considérons le polynôme
(1 + X)n = (1 + X) · · · (1 + X). Quand on développe le produit, on obtient
une somme de produits de 1 et de X et on voit que le coefficient de X p est
égal au nombre de façons de choisir p éléments parmi n. Or, on sait d’après
la formule du binôme de Newton, que le coefficient de X p est Cnp .
Cardinal et fonctions caractristiques Si A ⊂ E on a

X
#A = 1A (x).
x∈E
ExerciceUne urne contient N boules noires et M boules blanches.

i) On effectue n tirages sans remise. Quel est le nombre total de tels tirages ?
Combien de tirages donnent x (x ≤ n) boules noires ?
ii) ) On effectue n tirages avec remise. Quel est le nombre total de tels ti-
rages ? Combien de tirages donnent x (x ≤ n) boules noires ?
Solution.
On note {1, . . . , N} l’ensemble des boules noires et {N + 1, . . . , N + M}
l’ensemble des boules blanches.
i) Un tirage sans remise est équivalent à la donnée d’une injection de {1, . . . , n}
dans {1, . . . , N + M} (ou à une suite ordonnée, un n-uplet (x1 , . . . , xn ),
xi ∈ {1, . . . , N + M}). Il y a donc (N + M) · · · (N + M − n + 1) tirages

sans remise.
Un tirage où x boules noires sont tirées est équivalent à la donnée d’un sous-
ensemble A de {1, . . . , n} à x élements (si on pense au tirage comme à une
expérience, A est l’ensemble des temps où le résultat de notre expérience est
“boule noire”) et de deux injections, une de A dans l’ensemble des boules
noires, une seconde du complémentaire de A dans {1, . . . , n} dans l’ensemble
des boules blanches : on a donc

n
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − (n − x) + 1)
x
choix possibles, c’est-à-dire

n
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − n + x + 1)
x
choix possibles.
Remarquons que la proportion du nombre de tirages sans remise où x boules
noires sortent dans l’ensemble des tirages sans remise est
n

x
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − n + x + 1)
(N + M) · · · (N + M − n + 1)
n N M

· x! · (n − x)!
= x x
N +M
n−x

n!
N
M n
x n−x
= N +M

n
ii) Un tirage avec remise est équivalent à la donnée d’une application (pas
nécessairement injective) de {1, . . . , n} vers {1, . . . , N + M} (ou encore d’un
n-uplet (e1 , . . . , en ) de {1, . . . , N +M}n ) ; il y a donc (N +M)n choix possibles.
Un tirage où x boules noires sont tirées est équivalent à la donnée : d’un sous-
ensemble A de {1, . . . , n} à x élements, d’une application (pas nécessairement
injective) de A dans {1, . . . , N} (ou encore d’un x-uplet de {1, . . . , N}x ) et
d’une application de {1, . . . , n} − A dans {N + 1, . . . , N + M} (ou encore un
(n − x)-uplet de {N + 1, . . . , N + M}). Il y a donc

n
· N x · M n−x
x
choix possibles. Remarquons que la proportion du nombre de tirages avec

1.4. DÉNOMBRABILITÉ 11
remise où x boules noires sortent dans l’ensemble des tirages avec remise est
x n−x
n N M n x
= p (1 − p)n−x ,
x (N + M)n x
où p = N/(N + M).
1.4 Dénombrabilité
Définition 1.4.1 Un ensemble est dit dénombrable s’il est en bijection avec
l’ensemble N des entiers naturels.
Nous étendrons cette définition en disant qu’un ensemble est dénombrable
s’il est fini ou en bijection avec N.
De façon plus concrète, un ensemble est dénombrable si on peut énumérer
ses éléments.
Proposition 1.4.1 Si A et B sont deux ensembles.

a) S’il existe une injection de A dans B et si B est dénombrable alors A est
dénombrable
b) S’il existe une surjection de A dans B et si A est dénombrable, alors B
est dénombrable.
Théorème 1.4.1 a) Si A1 , . . . , An sont des ensembles dénombrables, le pro-

duit A1 × · · · × An est également dénombrable.
b) Si (Ai )i∈I est une famille dénombrable (c’est-à-dire I est dénombrable)
S dénombrables (pour tout i ∈ I, Ai est dénombrable) alors la
d’ensembles
réunion i∈I Ai est également dénombrable.
Démonstration.—
a) On peut supposer A1 = . . . = An = N. Notons p1 , . . . , pn les n premiers
nombres premiers (p est premier s’il est divisble uniquement par 1 et par
p) et considérons l’application qui à (l1 , . . . , ln ) ∈ Nn associe le nombre 2l1 ·
3l2 · · · plnn est une injection de Nn dans N car la décomposition en facteurs
premiers d’un nombre est unique. La proposition 1.4.1 a) permet de conclure.
S
b) Considérons l’application de N × N dans i∈I Ai qui au couple (n, m)
associe le m-ième élément de l’ensemble Ain où in est le n-ième élément de
I. C’est une surjection. La proposition 1.4.1 b) donne la conclusion.
2
Corollaire 1.4.1 L’ensemble des entiers relatifs Z et l’ensemble des nombres

rationnels Q sont dénombrables.
Démonstration.—
L’ensemble Z est dénombrable car l’application de l’ensemble dénombrable
{1, −1} × N dans Z qui au couple (, n) associe le produit n est une surjec-
tion. De même, Q est dénombrable car l’application de l’ensemble dénombrable
Z × (N − {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une
surjection.
2
On peut démontrer que
Théorème 1.4.2 L’ensemble des nombres réels R n’est pas dénombrable.
Corollaire 1.4.2 L’ensemble des nombres irrationnels n’est pas dénombrable.

Démonstration.—
Car sinon, R qui est réunion de Q et de l’ensemble des nombres irration-
nels serait dénombrable (comme union dénombrable d’ensembles dénombrables).
2
Chapitre 2
Espaces Probabilisés et
variables aléatoires
2.1 Espace probabilisé

Un espace probabilisé est la donnée
– d’un espace Ω que l’on appelle l’espace des états. Quand on modélise
une situation concrète Ω est l’ensemble des états du système que l’on
considère. Bien souvent cet espace est inaccessible à l’expérience ;
– d’un sous-ensemble B de P(Ω) qui est l’ensemble des évènements. Dans
une situation concrète c’est l’ensemble de tous les résultats d’expériences
que l’on peut effectuer sur le système. En théorie des probabilités (donc
quand on fait des mathématiques) cet ensemble B sera une tribu ou en-
core (c’est équivalent) une σ-algèbre (cf. définition 2.1.1 ;
– d’une probabilité P : pour tout évènement A ∈ B le réel P(A) est le
degré de vraisemblance de l’évènement A ; c’est un nombre compris
entre 0 et 1. Mathématiquement, une probabilité est une application
P : B → [0, 1] vérifiant les propriétés décrites en dans la définition 2.1.2.
Nous précisons dans la suite les deux derniers points.
2.1.1 Tribus
Soit Ω un ensemble fixé (l’espace des états).
Définition 2.1.1 Une tribu ou encore une σ-algèbre de Ω est un ensemble

de parties de Ω (donc un sous-ensemble de P(Ω), l’ensemble des parties de
Ω) qui contient l’ensemble vide, est stable par passage au complémentaire et
est stable par union dénombrable :
– ∅∈B
13
14CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
– pour tout A ∈ B on a Ac ∈ B
– pour toute famille dénombrable (Ai )i∈N d’éléments de B l’union
[
Ai
i∈N
est également dans B.

Il est clair que Ω est toujours élément de la tribu (c’est le complémentaire
de l’ensemble vide) et qu’une intersection dénombrable d’éléments de la tribu
est encore dans la tribu (car ∩i∈N Ai = (∪i∈N Aci )c ).
Exemples
1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus :

la tribu triviale qui est B = {∅, Ω}
la tribu totale qui est B = P(Ω).
2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {∅, {1}, {2, 3}, Ω} est une

tribu de Ω.
3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitué des

ensembles qui sont dénombrables ou dont le complémentaire est dénombrable
est une tribu.
Sauf dans le cas où l’espace Ω est fini, les exemples précédents de tri-
bus sont trop simples pour être utiles. La proposition donne un moyen très
commode de construire des tribus non-triviales.
Proposition 2.1.1 Soit Ω un ensemble et S un sous-ensemble de parties

de Ω (un sous-ensemble de P(Ω)) sans structure particulière. Il existe une
unique tribu B qui contient S et qui est minimale pour cette propriété c’est-
à-dire :
– (S ⊂ B) : pour tout A ∈ S on a A ∈ B
– (minimale) : si B0 est une autre tribu telle que S ⊂ B0 alors B ⊂ B0 .
On appelle B la tribu engendrée par la partie S et on la note (dans ce cours)
B = B(S).
Démonstration.—
Considérons l’ensemble E des tribus C de Ω tel que S ⊂ C. Cet ensemble
E est non vide puisqu’il contient la tribu P(Ω) et puisque S ⊂ P(Ω). Notons
B l’intersection des C quand C décrit E. C’est un sous-ensemble de P(Ω) qui
contient S mais c’est également une tribu comme il est facile de vérifier (nous
2.1. ESPACE PROBABILISÉ 15
recommandons au lecteur de vérifier ce point). Ainsi, B est une tribu conte-

nant S et appartient donc à E. Comme B est l’intersection des C décrivant
E on a pour toute tribu C contenant S l’inclusion B ⊂ C : ceci qui signifie
que B est la plus petite trbibu contenant S.
2
2.1.2 Probabilité
Définition 2.1.2 Si Ω est un ensemble et B est une tribu de Ω, une proba-
bilité P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pour
toute famille dénombrable (Ai )i∈N d’évènements de B disjoints 2 à 2 on a
[ ∞
X
P Ai = P(Ai ).
i∈N i=0
où l’égalité précédente signifie la chose suivante : la probabilité P(∪i∈N Ai )

est égale à la limite de la suite croissante de nombres réels N
P
i=0 P(A i ) quand
N tend vers l’infini.( Cette limite existe toujours car la suite en question est
croissante et bornée.)
Remarque L’intérêt d’autoriser la stabilité par unions (intersections) dénombrables

dans la définition d’une tribu permet de construire à partir d’évènements
simples des évènements beaucoup plus intéressants que ceux qu’on obtien-
drait en ne supposant que la stabilité par unions (intersections) finies. En re-
vanche, si on autorisait la stabilité par unions (intersections) quelconques on
ne pourrait pas construire beaucoup de probabilités. La stabilité par unions
(intersections) dénombrable est donc le bon compromis.
Mentionnons tout d’abord deux propriétés immédiates des probabilités :
Proposition 2.1.2 Soit (Ω, B, P) un espace probabilisé.

a) Si A ∈ B,
P(Ac ) = 1 − P(A).
b) P(∅) = 0
c)(Positivité) Si A, B ∈ B vérifient A ⊂ B alors P(A) ≤ P(B).
d) Si A, B ∈ B alors
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Démonstration.—
a) Il suffit décrire Ω comme l’union disjointe finie Ω = A ∪ Ac : comme P est
une probabilité 1 = P(Ω) = P(A) + P(Ac ).
b) suit de la formule précédente et du fait que P(Ω) = 1.
c) On écrit B comme l’union disjointe B = A ∪ (B ∩ Ac ) et P(B) = P(A) +
P(B ∩ Ac ). Comme P(B ∩ Ac ) ≥ 0 on a bien P(B) ≥ P(A).
d) De l’union disjointe A ∪ B = A ∪ (B ∩ Ac ) on déduit P(A ∪ B) = P(A) +
P(B ∩ Ac ). Mais de l’union disjointe B = (B ∩ Ac ) ∪ (B ∩ A) on obtient
P(B) = P(B ∩ Ac ) + P(A ∩ B). De ces deux égalités on déduit la formule d)
2
La preuve des propriétés qui suivent n’est pas difficile mais, à la différence
de la démonstration des propriétés précédentes, ne pourrait se faire sans
autoriser des unions dénombrables :
Proposition 2.1.3 a) Si Ai , i ∈ N est une famille croissante d’éléments

de B dont l’union est A alors A ∈ B et la suite P(An ) (qui est croissante
bornée) converge vers P(A) :
lim P(An ) = P(A);
n→∞
b) Si Ai , i ∈ N est une famille décroissante d’éléments de B dont l’union est

A alors A ∈ B et la suite P(An ) (qui est décroissante positive) converge vers
P(A) :
lim P(An ) = P(A);
n→∞
c) Si Ai , i ∈ N est une famille dénombrable d’ensembles appartenant à B on

a toujours (même si les Ai ne sont pas disjoints deux à deux)
[ X ∞
P Ai ≤ P(Ai ),
i∈N i=0
(où le membre de droite de l’inégalité précédente qui est la limite de la suite

croissante peut éventuellement être infini).
Démonstration.—
a) Définissons les ensembles Bn , n ≥ 0 de la façon suivante : B0 = A0 , et
pour n ≥ 1, Bn = An ∩ Acn−1 . Les Bn constituent une famille dénombrable
d’ensembles disjoints deux à deux d’éléments de B et on peut donc écrire
∞
X [
P(Bk ) = P Bk .
k=0 k∈N
c’est-à-dire
N
X [
lim P(Bk ) = P Bk ,
N →∞
k=0 k∈N
ou encore, puisque les Bk sont disjoints deux à deux

N
[ [
lim P Bk =P Bk ,
N →∞
k=0 k∈N
Mais
N
[ ∞
[
Bk = AN , Bk = A
k=0 k=0
ce qui établit la preuve de a).

b) Il suffit de passer au complémentaire et d’utiliser a)
c) Pour ω ∈ Ω définissons l’entier ν(ω) comme étant le plus petit entier k ≥ 0
pour lequel ω ∈ Ak . L’ensemble Cn des ω ∈ Ω pour lesquels ν(ω) = n est
l’ensemble
Cn = {ω ∈ Ω, ν(ω) = n} = An ∩ (An−1 ∪ · · · ∪ A0 )c
qui est clairement dans B. Les ensembles Cn sont de toute évidence disjoints
deux à deux et leur union pour n ≥ 0 est ∪n∈N An car pour tout ω dans
∪n∈N An il existe un n tel que ν(ω) = n c’est-à-dire il existe un n tel que
ω ∈ Cn . On a donc
[ [ X ∞
P An = P Cn = P(Cn ),
n≥0 n≥0 n=0
et comme P(Cn ) ≤ P(An ) (puisque Cn ⊂ An ) on obtient la conclusion du c).

2
Les deux propriétés précédentes a) et b) sont des propriétés de continuité
(dans un sens à préciser) des probabilités.
2.1.3 Exemples
Mesures de Dirac
Sur tout ensemble Ω muni d’une tribu B il est possible de construire
des mesures de la façon suivante : pour tout α ∈ Ω définissons l’application
δα : B → [0, 1] qui à un ensemble A ∈ B associe le réel 1 si α ∈ A et 0
sinon. Cette application δα est une mesure de probabilité que l’on appelle la
mesure de Dirac au point α. Vérifions rapidement que c’est bien une mesure :
déjà δα (Ω) = 1 puisque α ∈ Ω ; par ailleurs si Ai ∈ B, i ≥ 0 est une famille
dénombrable d’ensembles de la trbibu disjoints deux à deux on a
[
δα Ai = δα (Ai ),
i≥0
car :
– soit α appartient à ∪i≥0 Ai ; mais alors il existe un i ≥ 0 pour lequel α ∈ Ai
et cet indice i est unique car les Ai sont disjoints deux à deux. L’égalité
précédente se réduit à 1 = 1 ;
– soit α n’appartient pas à ∪i≥0 Ai et de ce fait n’apartient à aucun des Ai :
l’égalité se réduit à 0 = 0.
Probabilités sur un ensemble fini

Les espaces probabilisés les plus simples sont ceux où l’espace des états
Ω est fini. On choisit en général comme tribu B l’ensemble P(Ω) de toutes
les parties de Ω (qui est bien une tribu). C’est ce que nous ferons (car le
cas où B est une tribu plus petite que P(Ω) s’y ramène). Ceci étant, il reste
à définir la probabilité. Remarquons que tout ensemble A ∈ B = P(Ω) est
fini (car inclus dans Ω qui est fini) et est par conséquent l’union (finie donc
dénombrable) des singletons {a} où a décrit A :
[
A= {a}.
a∈A
Comme cette union est disjointe et finie on a

X
P(A) = P({a}).
a∈A
Si Ω = {c1 , . . . , cn } et si on note pi = P({ci}) on a

X
P(A) = pi .
i,ci ∈A
Remarquons que les pi sont dans [0, 1] et vérifient

n
X
pi = 1.
i=1
En conclusion : dans le cas où Ω est fini, une probabilité P sur B = P(Ω) est
déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se
donne n nombres réels positifs p1 , . . . , pn dont la somme vaut 1 (p1 +· · ·+pn =
1) alors, l’application P : P(Ω) → [0, 1] qui à A ∈ P(Ω) associe le réel (dans
[0, 1]) X
P(A) = pi
{i:ci ∈A}
est une probabilité
Exercice : Démontrer l’énoncé précédent.
Probabilités uniformes et lien avec la combinatoire Un cas important

est celui où tous les pi , 1 ≤ i ≤ n précédents sont égaux. Comme leur somme
doit valoir 1 ceci signifie que p1 = · · · = pn = n1 . On dit dans ce cas que la
probabilité P est uniforme. On a alors, pour tout sous-ensemble A de Ω
X 1
P(A) = pi = #{i ∈ {1, . . . , n}, ci ∈ A}.
n
{i:ci ∈A}
soit
#A
P(A) = .
#Ω
Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini,
déterminer la probabilité d’un évènement revient à calculer son cardinal : on
voit apparaı̂itre le lien avec la combinatoire.
Exercice : On tire cinq cartes d’un jeu de 32 cartes. Quelle est la probabilité
d’obtenit un full c’est-à-dire deux cartes de même valeur et trois autres cartes
de même valeur. On supposera chaque tirage équiprobable
Exercice : Une urne contient n boules noires et b boules blanches.
a) On effectue N tirages avec remises. Quelle est la probabilité d’obtenir x
boules noires ?
b) Même question si les tirages sont sans remises.
On supposera les tirages équiprobables.
Jeu de n Pile ou Face On se propose de modéliser un jeu où l’on lance n

fois une pièce (Pile/Face). De façon équivalente un expérimentateur réalise
n expérience le résultat de chaqu’une d’entre elles pouvant être positif (1)
ou négatif (0). Il est naturel de décrire le jeu ou l’expérience précédentes de
la façon suivante : on choisit comme espace des états l’ensemble Ω de toutes
les suites de longueur n constituées de 0 ou de 1. Une telle suite est donc un
n-uplet ω = (ω1 , . . . , ωn ) chaque ωi , 1 ≤ i ≤ n appartenant à l’ensemble à

deux éléments {0, 1}. Ainsi
Ω = {0, 1}n ,
et a 2n éléments. Nous choisirons comme tribu B = P(Ω), l’ensemble des
n
parties de Ω (qui a donc 22 mais cela n’a pas d’importance). Cette tribu nous
permet de décrire des évènements. Par exemple l’évènement (A) “obtenir k
Pile lors des n lancers” est décrit par l’ensemble A ∈ B (Pile=1, Face=0)
n
X
A = {ω = (ω1 , . . . , ωn ), ωi = k.}.
i=1
L’évènement (B) “on tire au moins un Pile” est décrit par l’ensemble
B = {ω = (ω1 , . . . , ωn ), ∃i ∈ {1, . . . , n} ωi = 1}.
L’évènement “(A) et (B)” est décrit par l’intersection A ∩ B, l’evènement

“non A” est décrit par Ac , l’évènement “A ou B” par A ∪ B etc.
Le choix de la probabilité sur notre ensemble est dicté par le jeu ou
l’expérience que l’on modélise. Ainsi, on ne modélisera pas de la même façon
un jeu ou pile et face ont les mêmes chances de sortir qu’un jeu où pile a
deux fois plus de chance de sortir que face. Dans le premier cas, il est naturel
1
de choisir comme probabilité P la probabilité uniforme
#A #A
P(A) = = n .
Ω 2
Noter que la probabilité d’un évènement élémentaire “on a tiré la suite
(1 , . . . , n )” c’est-à-dire la probabilité du singleton {(1 , . . . , n )} vaut 1/2n
(ceci quel que soit 1 , . . . , n ). En revanche, dans le second cas, on définira la
probabilité d’un évènement élémentaire {1 , . . . , n )} comme étant (2/3)k (1/3)n−k
où k est le nombre de 1 dans la suite 1 , . . . , n .
Exercice : Calculer dans chacun des cas précédents les probabibilités des
évènements A et B.
Le jeu infini de pile ou face

Nous présentons dans ce paragraphe la modélisation du jeu de pile ou
face où l’on joue une infinité de fois. Il est naturel d’introduire comme espace
des états l’ensemble Ω des suites ω = (ω1 , ω2 , . . .) où les ωi valent 0 ou 1. On
a ainsi Ω = {0, 1}N−{0} . Un problème plus délicat est de trouver une tribu
1
en fait cela sera encore plus naturel quand on aura défini la notion d’indépendance
raisonnable sur cet ensemble. On aimerait par exemple pouvoir décrire un

évènement du type : “en moyenne pile sort deux fois plus souvent que face”
qui de façon ensembliste est l’ensemble des ω = (ω1 , . . .) ∈ Ω pour lesquels
la limite quand n tend vers l’infini de la suite
n
1X
ωi
n i=1
existe et vaut 2/3. Un moment de réflexion montre que cet évènement n’ap-
partient à aucune des tribus Fn qui modélisent un jeu de n pile/face2 .
Nous définirons la tribu B sur Ω de la façon suivante : la tribu B est la
tribu engendrée (au sens de la proposition 2.1.1) par tous les évènements Ci,
Ci, = {ω ∈ Ω, ωi = },
où i décrit N − {0} et décrit {0, 1}.
Il reste à présent à construire une probabilité sur B ce qui est assez
délicat. Si on joue avec une pièce qui donne Pile (resp. Face) avec proba-
bilité 1/2 il est naturel d’attribuer à tout évènement Ci, la probablité (1/2)
(indépendamment de la valeur de ) et il est également naturel de demander
que la probabilité d’un évènement de la forme3
{ω ∈ Ω, ωi1 = 1 , . . . , ωir = r } = Ci1 ,1 ∩ · · · ∩ Cir ,r
soit égale à (1/2)r . Il n’est en revanche pas du tout clair que l’on puisse
attribuer à tout évènement de la tribu B une probabilité qui soit compatible
avec ces choix. En fait c’est possible :
Théorème 2.1.1 Il existe une unique mesure de probabilité P définie sur

(Ω, B) telle que pour tous r ≥ 1, i1 , . . . , ir ∈ N − {0}, 1 , . . . , r ∈ {0, 1} on
ait
1
P(Ci1 ,1 ∩ · · · ∩ Cir ,r ) = r .
2
Probabilité sur R
Il est important de savoir décrire des probabilités sur R, l’ensemble des
nombres réels. L’espace des états est alors Ω = R et la tribu que l’on choisit
est la tribu engendrée par les intervalles ouverts de R. On l’appelle la tribu
borélienne et on la note Bor(R). Retenons la définition :
2
On peut toujours considérer un jeu de n pile/face comme un cas particulier d’un jeu
infini de pile/face : Il suffit d’associer à toute suite ω = (ω1 , . . . , ωn ) de {0, 1}n la suite
ω̃ ∈ {0, 1}N − {0} définie par ω̃i = ωi si 1 ≤ i ≤ n et ω̃i = 0 si i ≥ n + 1
3
Cet évènement décrit l’expérience suivante : au temps i1 , . . . , ir , on observe 1 , . . . , r
et on ne précise pas ce qui se passe aux autres temps
Définition 2.1.3 La tribu borélienne de R est la tribu engendrée par les

intervalles ouverts de R.4 . On la note Bor(R).
Exercice : Montrer que la tribu borélienne de R est également la tribu en-

gendrée par les intervalles de la forme ] − ∞, a].
Solution : Notons C la tribu engendrée par les intervalles de la forme ]−∞, a].
Remarquons pour cela que si ]c, d[ est un intervalle ouvert (c < d peuvent
être infinis) on a
]c, d[=] − ∞, c]c ∩] − ∞, d[.
Mais ] − ∞, d[ s’écrit comme union dénombrable d’intervalles de C :
[ 1
] − ∞, d[= ] − ∞, d − ].
n∈N∗
n
Ainsi, C étant une tribu (donc stable par union dénombrable) ]−∞, d[ appar-
tient à C. Comme ] − ∞, c] est dans C, l’intersection ]c, d[=] − ∞, c]c ∩] − ∞, d[
est également dans C (C est stable par complémentaire et intersections finies
ou dénombrables). Nous avons donc démontré que la tribu C contenait les
intervalles ouverts. Or, la tribu borélienne est la plus petite tribu contenant
les intevalles ouverts. Par conséquent, Bor(R) ⊂ C. L’inclusion récipoque se
démontre de façon similaire (c’est plus facile).
Exercice : 1) Montrer qu’un singleton {a} est borélien.

2) Montrer que Q l’ensemble des rationnels est borélien.
3) L’ensemble des irrationnels est-il borélien.
4) Montrer qu’un intervalle fermé [a, b] est borélien (on observera que [a, b] =
∩p≥1 ]a − 1p , b + 1p [.)
Définition 2.1.4 Si µ est une probabilité sur (R, Bor(R)) on introduit Fµ

la fonction définie par Fµ (x) = µ(] − ∞, x]). On appelle Fµ (·) la fonction de
répartition de la mesure de probabilité µ.
Proposition 2.1.4 La fonction Fµ : R → [0, 1] définie par F (x) = µ(] −

∞, x])
i) est croissante
ii) admet des limites en +∞ et −∞ qui valent :
lim F (x) = 1, lim F (x) = 0

x→∞ x→−∞
4
elle est également engendrée par les intervalles ou les intervalles de la forme ] − ∞, a]
ou encore les intervalles fermés etc.
iii) est continue à droite en tout point x ∈ R c’est-à-dire

lim F (t) = F (x).
t→x,x<t
Démonstration.—
i) Si x ≤ y on a ] − ∞, x] ⊂] − ∞, y] et d’après la proposition 2.2.1 c) on a
bien µ(] − ∞, x]) ≤ µ(] − ∞, y]).
ii) Pour tout suite xn croissant vers ∞ (resp. décroissant vers −∞) la suite de
boréliens ]−∞, xn ] est croissante pour l’inclusion (resp. décroissante pour l’in-
clusion) et leur union vaut Ω (resp. leur intersection vaut ∅). Par conséquent
d’après la proposition 2.1.3 a) (resp. b)) limn→∞ µ(] − ∞, xn ]) = 1 (resp.
limn→∞ µ(] − ∞, xn ]) = 0 ) ce qui démontre ii)
iii) Pour toute suite tn décroissante et convergeant vers x, la suite de boréliens
] − ∞, tn ] est décroissante et leur intersection vaut ] − ∞, x] ce qui démontre
que limn→∞ µ(] − ∞, tn ]) = µ(] − ∞, x]).
2
Remarque : Attention, la fonction de répartition d’une mesure n’est pas

toujours continue à gauche.Considérons en effet la mesure de Dirac en 0 que
nous notons δ0 : par définition c’est la mesure qui à tout borélien A de R
associe 1 si 0 appartient à A et 0 sinon ; on sait que c’est une mesure. Sa
fonction de répartition est : F (x) = 0 si x < 0 et F (x) = 1 si x ≥ 0 (c’est
une fonction en escalier) qui est bien continue à droite en 0 mais n’est pas
continue à gauche en 0.
Le théorème qui suit (dont la démonstration dépasse le cadre de ce cours)
permet de construire de très nombreuses mesures de probabilités sur la droite
réelle munie de sa tribu borélienne.
Théorème 2.1.2 Si F : R → [0, 1] est une fonction croissante, qui admet

une limite nulle en −∞ et une limite égale à 1 en ∞, et qui est continue à
droite en tout point de R alors il existe une unique mesure de probabilité µ
définie sur (R, Bor(R)) qui admet F comme fonction de répartition.
Ce théorème illustre l’équivalence entre la notion de probabilité sur (R, Bor(R))
et celle de fonction de répartition.
Donnons un exemple fondamental et typique d’une telle construction :
la fonction F définie par : F (x) = 0 si x < 0, F (x) = x si 0 ≤ x < 1 et
F (x) = 1 si x ≥ 1 vérifie bien les hypothèses du théorème 2.1.2 et définit
donc une mesure de probabilité λ que l’on appelle la mesure de Lebesgue sur
l’intervalle [0, 1]. Si I est un intervalle de R on a
λ(I) = longueur(I ∩ [0, 1]).
2.2 Variables Aléatoires

Définition 2.2.1 Une variable aléatoire réelle (en abrégé v.a) est une ap-
plication X : Ω → R telle que pour tout intervalle ouvert I de R l’ensemble
X −1 (I) des ω ∈ Ω tels que X(ω) ∈ I, appartient à B.
En fait
Proposition 2.2.1 Si X : Ω → R est une application alors les trois propo-

sitions suivantes sont équivalentes
a) pour tout borélien A ∈ Bor(R) X −1 (A) ∈ B.
b) X est une variable aléatoire ;
c) pour tout intervalle I de la forme I =] − ∞, a], X −1 (I) appartient à B ;
Démonstration.— Que a) implique b) et que b) implique c) est évident.

Démontrons donc que c) implique a). L’ensemble E des A ⊂ R tels que
X −1 (A) ∈ B est une tribu (exercice). Or, cet ensemble E contient d’après
c) les intervalles de la forme ] − ∞, a] et par conséquent la tribu engendrée
par les intervalles de la forme ] − ∞, a]. Mais on sait, d’après l’exercice qui
suit la définition 2.1.3, que cette tribu égale la tribu borélienne. Ainsi, pour
tout borélien A, X −1 (A) ∈ B.
2
Notation Dans la suite du cours, quand X est une v.a et A un borélien de

R nous noterons {X ∈ A} ou [X ∈ A] ou (X ∈ A) l’ensemble {ω ∈ Ω :
X(ω) ∈ A}.
La proposition qui suit permet de construire de v.a.
Proposition 2.2.2 a) Si Xn , n ≥ 1 est une famille de v.a alors Z =

supn≥1Xn (resp. Z = inf n≥1 Xn ) est une v.a
b) Si X1 , . . . , Xn sont des v.a et f : Rn → R est une application continue
alors Z = f (X1 , . . . , Xn ) est une v.a
Démonstration.—
a) Soit ω tel que supn≥1 Xn (ω) > a. Alors par définition du sup, il existe
un n pour lequel Xn (ω) > a et ω est donc dans l’union ∪n≥1 {Xn > a}.
Réciproquement si ω ∈ ∪n≥1 {Xn > a} alors il existe n tel que Xn (ω) > a et
a fortiori supn Xn (ω) > a. Nous avons donc démontré que les deux ensembles
{Z > a} et ∪n≥1 {Xn > a} sont égaux. Mais ce dernier ensemble est une union
dénombrable d’éléments de la tribu B (car chaque Xi est une v.a). Ainsi pour
2.2. VARIABLES ALÉATOIRES 25
tout a l’évènement {supn≥1 Xn (ω) > a} est dans B et il en est de même de son
complémentaire {supn≥1 Xn (ω) ≤ a}. La proposition ?? permet de conclure.
b) Si I est un intervalle de R, Z −1 (I) est l’ensmble des ω ∈ Ω tels que
(X1 (ω), . . . , Xn (ω)) ∈ f −1 (I). Comme f est continue, f −1 (I) est un en-
semble ouvert de Rn et, par consquent, est une union dénombrable de pavés
ouverts c’est -à-dire d’ensembles P de la forme ]a1 , b1 [× · · · ×]an , bn [. Par
conséquent l’ensmble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I) est
une union dénombrable d’ensembles de la forme {ω ∈ Ω, (X1 (ω), . . . , Xn (ω) ∈
]a1 , b1 [× · · · ×]an , bn [} c’est-à-dire d’ensembles de la forme {ω ∈ Ω, X1 (ω) ∈
]a1 , b1 [, . . . , Xn (ω) ∈]an , bn [} = X1−1 (]a1 , b1 [) ∩ · · · ∩ Xn−1 (]an , bn [) qui sont
clairement dans B.
2
En particulier
Proposition 2.2.3 a) Si X : Ω → R est une v.a. et f : R → R est une

application continue, alors la fonction Y : Ω → R définie par Y = f ◦ X
(c’est-à-dire Y (ω) = f (X(ω)) pour tout ω ∈ Ω) est encore une v.a. On la
note Y = f (X).
b) Si X, Y sont deux v.a l’application Z = max(X, Y ) est une v.a
c) Si X et Y sont deux v.a, aX + bY est également une v.a.
2.2.1 Le cas particulier des v.a à valeurs dans un en-

semble fini ou dénombrable
Il s’agit du cas où X(Ω) l’ensemble des valeurs prises par X est un en-
semble fini ou dénombrable de R. Dans ce cas la caractérisation des variables
aléatoires est plus simple :
Proposition 2.2.4 Si X : Ω → R est à valeurs dans un ensemble fini ou

dénombrable E alors X est une variable aléatoire si et seulement si pour tout
e ∈ E, X −1 ({e}) ∈ B.
Démonstration.— Il s’agit de démontrer que pour tout intervalle ouvert
de la forme ]a, b[ (avec a et b finis par exemple) l’ensemble des ω ∈ Ω tels
X(ω) ∈]a, b[ est dans B. On a alors X(ω) ∈]a, b[∩E. Mais ce dernier ensemble
est au plus dénombrable et comme
[
X −1 (]a, b[) = X −1 ({e})
e∈]a,b[∩E
on voit que X −1 (]a, b[) est dans B.

2
Exemple Revisitons l’exemple du jeu infini de Pile/Face : Ω = {0, 1}N et B
est la tribu engendrée par les ensembles Ci,i = {ω = (ω0 , . . .) ∈ Ω, ωi = i }.
Pour n ∈ N l’application Xn : {0, 1}N → {0, 1} qui à ω = (ω0 , ω1 , . . .) associe
ωn est une variable aléatoire. Il suffit en effet de vérifier que pour = 0 ou
= 1 l’ensemble des ω pour lesquels ωn = appartient à B. Or, cet ensemble
est le cylindre Cn, qui par définition est dans B. En fait, la tribu B a été
construite de façon que toutes les applications Xn : Ω → {0, 1} (n ≥ 0)
soient des variables aléatoires (c’est d’ailleurs la plus petite tribu ayant cette
propriété).
Exercice On considère le jeu infini de Pile/Face (Ω, B, P) et on garde les
notations de l’exemple précédent. Définissons pour tout ω ∈ Ω, l’entier ν(ω)
comme étant le plus petit entier k pour lequel Xk (ω) = 1 (en d’autres termes
ν(ω) est le premier temps où on tire Pile). Démontrer que ν est une variable
aléatoire.
Solution : Si {ν = 0} = {X0 = 1} est dans B car X0 est une v.a et pour tout
n ∈ N, (n ≥ 1)
{ν = n} = {X0 = 0} ∩ · · · ∩ {Xn−1 = 0} ∩ {Xn = 1};
c’est une intersection finie déléments de B (car, puisque chaque Xi est une
v.a, les ensembles {Xi = 0}, 1 ≤ i ≤ n − 1 et {Xn = 1}c sont dans B)
2.2.2 Loi d’une variable aléatoire

Soit X : Ω → R une v.a. On sait que pour tout borélien A de R l’ensemble
X −1 (A) est un évènement (appartient à B). Il est donc possible de parler de
la probabilité P(X ∈ A) de l’évènement {X ∈ A}.
Proposition 2.2.5 L’application µX : Bor(R) → [0, 1] qui à tout borélien

de R associe le réel P (X ∈ A) de [0, 1] est une probabilité sur (R, Bor(R)).
On appelle cette probabilité la loi de la v.a X.
Démonstration.— Il suffit de démontrer que si (Ai )i∈N est une famille
dénombrable de boréliens de R disjoints deux à deux alors
[ ∞
X
P(X ∈ Ai ) = P (X ∈ Ai ),
i∈N i=0
ce qui est clair car l’évènement {X ∈ ∪i∈N Ai } est l’union dénombrable dis-
jointe des évènements {X ∈ Ai }. Enfin la condition P (X ∈ R) = 1 achève
la preuve.
Il faut retenir que la loi d’une v.a est une probabilité sur R (muni de
sa tribu borélienne). Ceci illustre le fait qu’il est possible de construire de
nombreuses mesures de probablilités sur R muni de sa tribu borélienne.
2
2.2.3 Loi des variables aléatoires à valeurs dans un en-

semble fini ou dénombrable
Si X : Ω → R prend ses valeurs dans un ensemble E = {e0 , e1 , . . .} qui
est fini ou dénombrable la loi µX de X est la mesure sur (R, Bor(R))
X
µX = P(X = e)δe .
e∈E
En effet pour tout borélien (ou tout intervalle) A

X
P(X ∈ A) = P(X ∈ A ∩ E) = P(X = e),
e∈A∩E
et cette somme n’est rien d’autre que

X
P(X = e)δe (A).
e∈E
La loi de X est donc parfaitement déterminée par les réels pX (e) = P(X =
e), (e ∈ E) et dans la pratique quand on demande de déterminer la loi de X
on demande de calculer les réels pX (e) = P(X = e).
Quelques lois classiques de variables aléatoires à valeurs dans un

ensemble fini ou dénombrable
Loi géométrique On dit qu’une v.a X : Ω → N (à valeurs dans N) suit
une loi géométrique de paramètre a (0 < a < 1) si
P(X = n) = (1 − a)an .
On remarquera que l’on a bien ∞ k
P P
k=0 P (X = k) = 1 ( k≥0 a = 1/(1 − a)).
La v.a ν de l’exercice de la section 2.2.1 suit une loi géométrique de
paramètre 1/2. En effet
ν −1 (n) = {ω = (ω0 , ω1 , . . .) ∈ Ω, ω0 = 0, . . . , ωn−1 = 0, ωn = 1}
= C0,0 ∩ · · · ∩ Cn−1,0 ∩ Cn,1
et d’après le théorème 2.1.1
P(ν = n) = (1/2)n .(1/2).
Loi binomiale On dit qu’une variable aléatoire Z à valeurs dans {0, . . . , n}

suit une loi binomiale (n, p) si

n k
P(Z = k) = p (1 − p)n−k .
k
n

où k
est le coefficient binomial
n(n − 1) · · · (n − k + 1)

n n!
= Cnk = = .
k (n − k)!k! k!
P∞
On a bien (formule du binôme de Newton) k=0 P (X = k) = (p+1−p)n = 1.
Exemple Jouons n fois au jeu de pile/face où pile sort avec probabilité p et
face avec probabilité 1−p et notons Z la variable aléatoire : Z est le nombre de
pile qui sortent (après avoir joué n fois). Si on note Xi les variables aléatoires
Xi (ω) = ωi (ω = (ω1 , . . . , ωn )) on a
Z = X1 + · · · + Xn .
C’est bien une variable aléatoire Z : B → N à valeurs dans l’ensemble fini

{0, . . . , n} (B = P(Ω)) et

n k
P(Z = k) = p (1 − p)n−k .
k
Loi de Poisson Une variable aléatoire Z : Ω → N suit une loi de Poisson

de paramètre λ > 0 si
λk
P(Z = n) = e−λ .
k!
P∞
On vérifie encore que k=0 P (X = k) = 1 (cf. le développement en série de
eλ ).
Exercice Soit Xn une v.a suivant une loi binomiale (n, pn ). Montrer que si
limn→∞ npn = λ on a pour tout k ∈ N
λk
lim P(Xn = k) = e−λ .
n→∞ k!
(On dit que Xn converge en loi vers une loi de Poisson de paramètre λ)
2.2.4 Loi de variables aléatoires admettant une densité

Définition 2.2.2 On dit que la variable aléatoire X : Ω → R admet une
densité continue (resp. continue par morceaux etc.) si sa loi (qui est une me-
sure de probabilité sur (R, Bor(R))) admet une densité continue (resp. conti-
nue par morceaux etc.) c’est-à-dire s’il existe une fonction positive
R∞ continue
(resp. continue par morceaux etc.) ρX : R → [0, ∞[ telle que −∞ ρX (t)dt = 1
et telle que pour tout intervalle ]a, b[
Z b
µX (]a, b]) = P(X ∈]a, b]) = ρX (t)dt.
a
Faisons une remarque importante : si une v.a. X admet une densité ρX

alors sa fonction de répartition
Z x
FX (x) = µX (] − ∞, x]) = ρX (t)dt
−∞
est continue. Il existe donc des variables aléatoires n’admettant pas de den-
sité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs
0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posséder de densité
car sa fonction de répartition FX (x) vaut 0 si x < 0, 1/2 si 0 ≤ x < 1 et 1 si
1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue à droite).
Quelques exemples de loi admettant une densité

Loi uniforme La variable aléatoire X : Ω → R suit une loi uniforme sur
l’intervalle [a, b] si sa densité est donnée par
1
ρX (x) = · 1[a,b] .
b−a
R
On a bien ρX (t) ≥ 0 pour tout t et R ρX (t)dt = 1. Cette loi est caractérisée
par
1
P(X ∈ [c, d]) = longueur([a, b] ∩ [c, d]).
b−a
(En effet,
1
Z
P(X ∈ [c, d]) = · 1[a,b] (x)dx
[c,d] b − a
1
Z
= 1[c,d] (x) · 1[a,b] (x)dx
b−a R
1
Z
= 1[c,d]∩[a,b](x)dx.
b−a R
Loi exponentielle de paramètre θ La v.a admet une densité ρX expo-

nentielle de paramètre θ si
ρX (x) = θe−θx 1[0,∞[(x).
La fonction de répartition est

Z x
FX (x) = ρX (t)dt = (1 − e−θx )1[0,∞[ (x),
−∞
et converge bien vers 1 en ∞. Intuitivement, la loi uniforme sur l’intervalle

[a, b] modélise une expérience où la probabilité d’un point de tomber dans un
intervalle de taille 2∆x, ]x − ∆x, x + ∆x[⊂ [a, b] ne dépend pas de x (et est
linéaire en ∆x).
Loi normale N(µ, σ) C’est la loi de densité

1 2 /2σ 2
ρX (x) = √ e−(x−µ) .
2πσ 2
R
Il n’est pas complètement évident que R ρX (x)dx = 1 (ce qui est indispen-
sable pour que ρX soit une densité). Ceci résulte, après le changement de
variable u = (x − µ)/σ de l’égalité (cf. *** pour une preuve)
Z ∞
2 √
e−u /2 du = 2π.
−∞
La loi normale N(0, 1), donc de densité,

1 2
√ e−x /2 ,
2π
est dite loi normale centrée réduite.
2.3 Espérance d’une v.a.

2.3.1 Espérance d’une v.a. à valeurs dans un ensemble
fini (ou dénombrable)
Soit X : Ω → R une variable aléatoire ne prenant qu’un nombre fini de
valeurs x1 , . . . xr . On définit l’espérance de X comme étant le nombre réel
r
X
E(X) = xi · P(X = xi ).
i=1
2.3. ESPÉRANCE D’UNE V.A. 31
Remarquons que si X prend ses valeurs dans un ensemble infini dénombrable

la quantité
X∞
E(X) = xi · P(X = xi ),
i=1
qui semble être un bon candidat pour la définition de l’espérance peut ne pas
exister car la série peut ne pas converger. Pour garantir cette convergence il
suffit de demander que la série précédente soit absolument convergente.
2.3.2 Espérance d’une v.a. positive

Nous définissons dans cette section l’espérance d’une variable aléatoire
X : Ω → R qui ne prend que des valeurs positives ou nulles. Pour cela on
définit pour n ≥ 1 la variable aléatoire Xn de la façon suivante : on découpe
[0, ∞) en intervalles [0, 1[, [1, 2[,..., [n−1, n[, [n, ∞) puis on redécoupe chacun
des n intervalles [0, 1[, [n − 1, n[ en 2n intervalles d’égale longueur (on ne
touche pas à [n, ∞[) : on obtient n2n − 1 intervalles de taille 2−n de la forme
[k/2n , (k + 1)/2n [ (0 ≤ k ≤ n2n − 1) ; on pose alors
Xn (ω) = n si Xn (ω) ≥ n
Xn (ω) = (k/2n ) si Xn (ω) ∈ [k/2n , (k + 1)/2n [.
Il n’est pas très difficile de vérifier que pour tout ω la suite de v.a Xn (ω)
est croissante (et converge vers X(ω)) ; la suite de nombre réels E(Xn ) est
donc croissante (mais pas nécessairement bornée). On pose
E(X) = lim E(Xn ),

n→∞
où la limite précédente peut être finie ou infinie.

On peut démontrer
Théorème 2.3.1 L’espérance vérifie les conditions suivantes :

a) si A ∈ B on a E(1A ) = P(A).
b) Si X, Y sont des v.a positives telle que X ≤ Y (c’est-à-dire pour tout
ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a positives et a, b ∈ R on a (linéarité de l’espérance)
E(aX + bY ) = aE(X) + bE(Y ).
d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque
sûrement c’est-à-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une
probabilité nulle.
Notons que E(a) = a si a est une constante.
Remarque On dit qu’une propriété Pω qui dépend de ω ∈ Ω est vraie P-

presque sûrement si l’ensemble des ω ∈ Omega pour lesquels Pω est fausse
est de P-probabilité nulle (P({ω : Pω fause}) = 0).
Mentionnons le théorème suivant qui permet de calculer l’espérance d’une
v.a obtenue comme limite d’autres v.a
Théorème 2.3.2 (Théorème de convergence monotone) Si Xn est une

suite de v.a Xn : Ω → [0, ∞] qui
i) est croissante : pour tout ω ∈ Ω, Xn (ω) ≤ Xn+1 (ω)
ii) converge vers X : Ω → [0, ∞] : pour tout ω ∈ Ω la suite Xn (ω) converge
vers X(ω).
Alors,
a) l’application X : Ω → [0, ∞] est une v.a ;
b) la suite E(Xn ) converge vers E(X) (limn→∞ E(Xn ) = E(X)).
En particulier, si Yn est une suite de v.a positives ou nulles on a
∞
X ∞
X
E( Yn ) = E(Yn )
n=0 n=0
(on peut intervertir le signe de sommation infini et l’espérance).
2.3.3 Espérance des v.a intégrables

Nous pouvons définir à présent l’espérance de v.a qui ne sont pas nécessairement
positives. Pour cela, on constate que toute v.a X : Ω → R peut s’écrire
comme différence de deux v.a positives X + et X − : si on pose X + = max(0, X)
et X − = max(0, −X) on a bien que X + , X − sont des v.a à valeurs positives et
que X = X + −X − . Il est donc naturel de définir E(X) comme étant la quan-
tité E(X + )−E(X − ). Cependant, si E(X + ) et E(X − ) valent ∞ on obtient de
cette façon une expression indéterminée de la forme ∞−∞. Pour que la quan-
tité E(X + )−E(X − ) ait un sens il faut donc que E(X + ) < ∞ et E(X − ) < ∞
(c’est-à-dire soient des quantités finies). Ceci est équivalent (puisque E(X + )
et E(X − ) sont positives ou nulles) au fait que E(X + ) + E(X − ) < ∞. Or il
est facile de voir que
X + + X − = |X|,
et la quantité E(X + ) + E(X − ) est finie si et seulement si E(|X|) l’est.
Résumons :
Définition 2.3.1 Si X est une v.a telle que E(|X|) < ∞ on définit l’espérance
de X comme étant
E(X) = E(X + ) − E(X − ),
où X + = max(0, X), X − = max(0, −X). On dit que X est intégrable (sur
l’espace probabilisé (Ω, B, P)) ou encore P-intégrable. L’ensemble des va-
riables aléatoires X qui sont P-intégrable se note L1 (Ω, P).
On a alors les propiétés suivantes
Proposition 2.3.1 a) Si A ∈ B, E(1A ) = P(A).

b) Si X, Y sont des v.a dans L1 (Ω, P) telle que X ≤ Y (c’est-à-dire pour
tout ω ∈ Ω X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
c) Si X, Y sont des v.a dans L1 (Ω, P) et a, b ∈ R alors aX + bY ∈ L1 (Ω, P)
et on a
E(aX + bY ) = aE(X) + bE(Y ).
d) Si X ∈ L1 (Ω, B) on a toujours |E(X)| ≤ E(|X|) et on a égalité si et

seulement si P-ps X ≥ 0 ou P-ps X ≤ 0.
ExerciceExpliquer pourquoi une v.a bornée est P-intégrable.

Le théorème de convergence monotone, vrai pour des v.a positives ou nulles,
possède un analogue dans le cas L1 .
Théorème 2.3.3 (Théorème de convergence dominée) Si Xn est une

suite de v.a P-intégrable, Xn : Ω → R (n ∈ N) telle que
i) la suite (Xn ) converge vers X : Ω → R : pour tout ω ∈ Ω la suite Xn (ω)
converge vers X(ω) (on dit que Xn converge simplement vers X)
ii) il existe une v.a Z telle que E(Z) < ∞ (Z est P-intégrable) telle que pour
tout ω ∈ Ω on ait
∀n ∈ N, |Xn (ω)| ≤ Z(ω).
Alors,
a) l’application X : Ω → R est une v.a ;
b) la suite E(Xn ) converge vers E(X) (limn→∞ E(Xn ) = E(X)).
En particulier, si Yn est une suite de v.a positives ou nulles telles que
∞
X
E(|Yn |) < ∞,
n=0
alors,
∞
X ∞
X
E( Yn ) = E(Yn )
n=0 n=0
(on peut intervertir le signe de sommation infini et l’espérance).

Exercice Soit X une v.a sur (Ω, P) telle que pour tout t ∈ R la v.a Yt =
etX soit intégrable. i) Montrer que l’application t 7→ E(Yt ) est continue. ii)
Supposons que pour tout t ∈ R, E(|X|etX ) < ∞. Démontrer que t 7→ E(etX )
est dérivable et caluler sa dérivée
Solution i) Supposons t fixé. Il suffit de démontrer que pour toute suite tn
tendant vers t la suite E(etn X ) converge vers E(etX ). Or, la suite de v.a
etn X converge simplement vers etX . Par ailleurs, pour tout n assez grand
|etn X | ≤ Z où Z = e(|t|+1)|X| . Le théorème de convergence dominée s’applique
à la suite Ytn et on a donc limn→∞ E(etn X ) = E(etX ).
ii) Fixons t. Notons f (t) = E(etX ). On doit démontrer que pour toute suite
tn tendant vers t la suite
f (tn ) − f (t)
tn − t
admet une limite finie. On constate que
tn X
f (tn ) − f (t) − etX

e
=E
tn − t tn − t
etn X −etX
et on applique le théorème de convergence dominée à la suite Tn = tn −t
.
Il est clair que pour tout ω
etn X(ω) − etX(ω)

lim = X(ω)etX(ω) .
n→∞ tn − t
Par ailleurs, d’après la formule des accroissements finis, pour tout ω il existe
tω entre t et tn pour lequel
etn X(ω) − etX(ω)

= X(ω)etω X(ω) ;
tn − t
par conséquent pour n assez grand
tn X(ω)
− etX(ω)

e (|t|+1)X(ω)
≤ |X(ω)|e .

tn − t
La v.a Z = |X|e(|t|+1)X est par définition P-intégrable si bien que les hy-
pothèses du théorème de convergence dominée sont satisfaites. On a donc
tn X(ω)
− etX(ω)

e
lim E = E(XetX ).
n→∞ tn − t
Exercice De façon plus générale démontrer que

i) si une v.a Xt dépend continuement d’un paramètre réel t, c’est-à-dire si

pour tout ω ∈ Ω Xt (ω) est continue par rapport à t alors E(Xt ) est également
continue par rapport à t pourvu qu’il existe Z ∈ L1 (Ω, P) telle que pour tout
t, |Xt | ≤ Z ;
ii) si une v.a Xt dépend de façon C 1 d’un paramètre réel t c’est-à-dire si
pour tout ω ∈ Ω Xt (ω) est C 1 par rapport à t alors E(Xt ) est également C 1
par rapport
à t pourvu que qu’il existe Z ∈ L1 (Ω, P) telle que pour tout t,
dXt (ω)
dt ≤ Z et montrer que dans ce cas,

d dXt
E(Xt ) = E( ).
dt dt
2.3.4 Formule de transfert

Il est important dans la pratique de savoir caluler des espérances de v.a
aléatoires de la forme Y = f (X) où X : Ω → R est une v.a et f : R → R
est une fonction (disons continue).
Cas des v.a à valeurs dans un ensemble fini
Supposons que X : Ω → R prenne ses valeurs dans un ensemble fini

E ⊂ R et soit f : E → R.
Proposition 2.3.2 L’espérance de la variable aléatoire Y = f (X) est donnée

par
X
E(f (X)) = f (e)P(X = e).
e∈E
Démonstration.—
Comme Y = f (X), la v.a Y ne prend qu’un nombre fini de valeurs e0 qui
sont dans E 0 = f (E). Par définition de l’espérance
X
E(Y ) = e0 P(Y = e0 ).
e0 ∈E 0
Pour chaque e0 ∈ E 0 , notons Ae0 l’ensemble des e ∈ E tels que f (e) = e0

(Ae0 = f −1 ({e0 }) et constatons que E 0 est l’union disjointe des Ae0 , e0 ∈ E 0 .
On a donc,
X
E(Y ) = e0 P(Y = e0 )
e0 ∈E 0
X
= e0 P(f (X) = e0 )
e0 ∈E 0
X
= e0 P(X ∈ f −1 (e0 ))
e0 ∈E 0
X X
= e0 P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X X
= f (e)P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X
= f (e)P(X = e)
e∈E
= E(X).
Corollaire 2.3.1 En particulier,

X
E(X) = eP(X = e).
e∈E
Remarque sur l’intégration des fonctions sur R

Soit X une v.a et µX sa loi. Celle-ci est une probabilité sur l’espace des
états Ω0 = R muni de sa tribu borélienne. Une fonction f : R → R peut
être vue comme une application de Ω0 = R dans R. Cette fonction f sera
une variable aléatoire réelle sur Ω0 = R, B0 = Bor(R) si et seulement si pour
tout intervalle I de R l’ensemble f −1 (I) est dans B0 = Bor(R). Une telle
application est dite mesurable. En particulier, toute application continue de
R dans R est mesurable. Puisque nous avons à notre disposition une pro-
babilité µX sur l’espace probabilisé (R, Bor(R)) il est naturel de considérer
l’espérance de f (pour la probabilité µX ). Nous la noterons EµX (f ). Bien
sur, pour quelle soit définie il faut que EµX (|f |) soit finie et on dit dans ce cas
que f est µX -intégrable. Dans la pratique on préfère noter cette espérance
sous la forme d’une intégrale :
Z
EµX (f ) = f (x)dµX (x).
R
Quand X admet une densité ρX cette formule devient

Z
EµX (f ) = f (x)ρX (x)dx,
R
et l’intégrale coincide, quand f est continue (ou continue par morceaux ou

encore Riemann intégrable) avec une intégrale classique. Pour ce convaicre
de ce résultat, considérons le cas où f est une fonction en escaliers, c’est-
à-dire
Pconstante sur des intervalles ]ai , b − i] disjoints deux à deux : on a
r
f = i=1 λi 1]a−i,bi ] et donc
r
X
EµX (f ) = λi EµX (1[ai ,bi ] ).
i=1
Or, Z bi
EµX (1[a−i,bi ] ) = µX (]ai , bi ]) = ρX (x)dx.
ai
On a donc
r Z
X bi
EµX (f ) = f (x)ρX (x)dx
i=1 ai
Z
= f (x)ρX (x)dx.
R
Quand f est continue (ou continue par morceaux) on sait qu’on peut l’ap-
procher uniformément par des fonctions en escaliers et il suffit de passer à la
limite dans l’égalité précédente.
Cas des v.a admettant des densités

Dans le cas général des v.a de la forme Y = f (X) où X : Ω → R est une
v.a et f : R → R est continue, la forme générale de la formule de transfert
fait intervenir la loi de X. Afin de simplifier notre exposé nous ne considérons
que le cas où la v.a X admet une densité ρX 5
Théorème 2.3.4 Si X : Ω → R est une v.a admettant une densité ρX et

f : R → R est une fonction continue (resp. continue par morceaux, mesu-
rable) alors la v.a Y = f (X) est P-intégrable si et seulement si l’intégrale
5
Dans le cas général Z
E(f (X)) = f (x)dµX (x)
R
toutes les fois où l’intégrale converge.
R∞
−∞
|f (x)|ρX (x)dx est finie et dans ce cas l’espérance de Y = f (X) est
donnée par Z
E(f (X)) = f (x)ρX (x)dx.
R
Démonstration.—
i) Démontrons la formule quand f prend un nombre fini de valeurs dans un
ensemble E. La v.a Y = f (X) est donc également à valeurs dans un ensemble
fini et on d’après les résultats des deux sous-sections précédentes
X
E(f (X)) = E(Y ) = eP(Y = e)
e∈E
X
= eP(f (X) = e)
e∈E
X
= eP(X ∈ f −1 ({e})
e∈E
X
= eµX (f −1 ({e})
e∈E
X
= eµX (f = e).
e∈E
On a donc démontré que si f ne prend qu’un nombre fini de valeurs
E(f (X)) = EµX (f ).
ii) Considérons le cas où f est positive. On sait (cf. la section 2.3.2) que si
on note hn
n2n −1
X k
hn (·) = n1[n,∞[ (·) + 1 k k+1 (·),
2n [ 2n , 2n [
k=0
la suite fn = hn ◦ f converge simplement vers f et est croissante. De même

la suite Xn = fn (X) = hn ◦ f (X) converge simplement vers f (X) et est
croissante. Appliquons le théorème de convergence monotone (ou la définition
de l’espérance)
– d’une part à la suite de v.a (de fonctions) fn définies sur l’espace probabilisé
(R, Bor(R), µX )
– d’autre part à la suite de v.a Xn = fn (X) définies sur l’espace probabilisé
(Ω, B, P)
On obtient
– d’une part, limn→∞ EµX (fn ) = EµX (f )
– et d’autre part limn→∞ E(fn (X)) = E(X).
Or, d’après i) EµX (fn ) = E(fn (X)). Par conséquent,
E(f (X)) = EµX (f ).
iii) Si f est de signe quelconque, décomposons f = f + −f − où f + = max(f, 0)

et f − = max(−f, 0). On a
E(f + (X)) = EµX (f + ), E(f − (X)) = EµX (f − ),
et donc E(|f (X)|) = EµX (|f |). Ainsi, f (X) est P-intégrable
R si et seulement
si f est µX intégrable c’est-à-dire si et seulement si R |f (x)|ρX (x)dx < ∞
et quand c’est le cas
E(f (X)) = EµX (f ),
c’est-à-dire Z
E(f (X)) = f (x)ρX (x)dx,
R
Corollaire 2.3.2 En particulier,

R ∞ si la v.a X admet une densité ρX , X est
1
L (Ω, P) si et seulement si −∞ |x|ρX (x)dx < ∞ et dans ce cas
Z ∞
E(X) = xρX (x)dx.
−∞
Signalons, sans démonstration, la réciproque suivante au théorème 2.3.4
Théorème 2.3.5 Si X est une v.a telle que pour toute fonction continue
bornée φ : R → R on a
Z ∞
E(φ(X)) = φ(x)ρX (x)dx,
−∞
alors X admet ρX pour densité.
Exemple Soit X une v.a suivant une loi normale centrée réduite : Une telle
loi admet une densité
1 2
√ e−x /2 .
2π
Comme Z ∞
1 2
E(|X|) = √ |x|e−x /2 dx
2π −∞
est finie X est dans L1 (Ω, P). L’espérance de X est donc définie et vaut
Z ∞
1 2
E(X) = x √ e−x /2 dx.
−∞ 2π
Il s’agit de l’intégrale d’une fonction intégrable, impaire sur un intervalle
symétrique : cette intégrale est donc nulle.
Exercice Calculer E(Y ) où Y = X 2 est le carré d’une v.a suivant une loi
normale centrée réduite.
Solution On a
Z ∞
2 1 2
E(X ) = √ x2 e−x /2 dx
2π −∞
Z ∞
1 2
=√ x(xe−x /2 )dx
2π −∞
Z ∞
1 d 2
=√ x (−e−x /2 )dx
2π −∞ dx
Z ∞
1 2
=√ e−x /2 dx
2π −∞
=1
(on a effectué une intégration par parties).
2.3.5 Application au calcul de densité

Le problème qui nous intéresse dans cette section est le suivant : Etant
donnée une v.a X dont on connait la densité ρX , déterminer la densité, si
elle existe de la v.a Y = f (X), où f est une fonction continue de R dans R.
Supposons que Y admette une densité ρY . On doit alors avoir pour toute
fonction continue φ : R → R
Z ∞
E(φ(Y )) = φ(y)ρY (y)dy.
−∞
Mais φ(Y ) = φ(f (X)) = φ ◦ f (X) et on a donc,

Z ∞
E(φ(Y )) = E(φ ◦ f (X)) = φ ◦ f (x)ρX (x)dx.
−∞
Supposons que φ soit une bijection dérivable de R dans R envoyant R sur

R. La formule classique de changement de variable montre que (x = φ−1 (y),
dx = 1/φ0 (f −1 (y))dy)
Z ∞ Z ∞
1
φ ◦ f (x)ρX (x)dx = φ(y) 0 −1 ρX (f −1 (y))dy.
−∞ −∞ |φ (f (y))|
En conclusion, pour toute fonction φ continue de R → R

Z ∞ Z ∞
1
φ(y)ρY (y)dy = φ(y) 0 −1 ρX (f −1 (y))dy
−∞ −∞ |φ (f (y))|
et il est naturel de penser que
1
ρY (y) = ρX (f −1 (y)),
|φ0 (f −1 (y))|
ce qui est effectivement le cas. Le théorème 2.3.5 justifie le raisonnement

précédent.
On pourrait démontrer de la même manière :
Théorème 2.3.6 Soient X une v.a de densité ρX prennant ses valeurs dans
un intervalle I (fini ou infini) et f : I → J est une application de classe C 1
pas nécessairement bijective mais telle que tout point y ∈ J ait un nombre fini
d’antécédents. Alors, la v.a Y = f (X) admet une densité ρY dont l’expression
est donnée par
X ρX (x)
ρY (y) = · 1J .
|f 0 (x)|
x∈f
−1 (y)
L’expression précédente peut prendre la valeur ∞ mais la fonction positive

ρY restera d’intégrale 1.
Appliquons ce qui précède à un exemple.
Exercice Supposons que X admette une densité ρX . Déterminer la densité,

si elle existe de Y = X 2 . Application au cas où X suit une loi normale
N(0, 1).
Solution On a Y = f (X) où f (x) = x2 est une bijection de I− =]−∞, 0[ sur
]0, ∞[ et de I+ =]0, ∞[ sur ]0, ∞[ (f est une fonction continue strictement
décroissante sur I− =] − ∞, 0] et strictement croissante sur I+ = [0, ∞[.)
Pour toute fonction φ : R → R continue et bornée
Z ∞
E(φ(Y )) = E(φ ◦ f (X)) = φ(f (x))ρX (x)dx.
−∞
Ecrivons,
Z ∞ Z 0 Z ∞
2
φ(f (x))ρX (x)dx = φ(x )ρX (x)dx + φ(x2 )ρX (x)dx
−∞ −∞ 0
et effectuons dans chacune des intégrales du membre de droite le changement

de variable y = x2 :
Z 0 Z ∞
2 √ dy
φ(x )ρX (x)dx = φ(y)ρ(− y) √ ,
−∞ 0 2 y
Z ∞ Z ∞
2 √ dy
φ(x )ρX (x)dx = φ(y)ρ( y) √ ,
0 0 2 y
si bien que
∞
√ √ 1
Z
E(φ(Y )) = φ(y) ρ(− y) + ρ( y) √ dy
0 2 y
√ √

1
Z
= φ(y) ρ(− y) + ρ( y) √ .1]0,∞[(y)dy
R 2 y
et comme cette formule est vraie pour toute fonction φ : R → R continue
bornée, on peut conclure que Y admet une densité ρY égale à

√ √ 1
ρY (y) = ρ(− y) + ρ( y) √ .1]0,∞[ (y).
2 y
(Ne pas oublier le terme 1]0,∞[ (y).)
√ 2
Si X suit une loi normale N(0, 1) sa densité est ρX (x) = (1/ 2π)e−(x /2)
et la densité de Y = X 2 vaut
1 e−y
ρY (y) = √ √ 1]0,∞[ (y).
2π y
Exercice Si X suit une loi normale centrée réduite, déterminer la loi de

Y = σX + µ.
Solution On a Y = f (X) où f (x) = ax + b. C’est une bijection C 1 de R sur
R. La formule du théorème ?? montre donc que la denstité de Y est
1 2 /2σ 2
√ e−(x−µ) ,
2πσ 2
c’est-à-dire est une loi N(0, σ 2 ).
2.4 Espaces L2, variance et Bienaymé-Tchébychev

Définition 2.4.1 On dit qu’une v.a X est dans L2 (Ω, B, P) si son carré est
P-intégrable,
E(|X|2) < ∞.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 43
Les propriétés des fonctions de carrés intégrables sont les suivantes :
Théorème 2.4.1 a) (Cauchy-Schwarz) Si X et Y sont dans L2 (Ω, P) alors

le produit X · Y est dans L1 (Ω, P) et on a
E(|X · Y |) ≤ E(|X|2)1/2 · E(|Y |2 )1/2 .
En outre, l’inégalité précédente est une égalité si et seulement si il existe

un réel λ tel que P-presque sûrement Y = λX ou X = λY (X et Y sont
colinéaires). b) (Minkowski) L’espace L2 (Ω, P) est un R-espace vectoriel et
on a
E(|X + Y |2 )1/2 ≤ E(|X|2 )1/2 + E(|Y |2 )1/2 .
Démonstration.—
a) Rappelons que pour tous réels a, b on a |a · b| ≤ (1/2)(a2 + b2 ). Par
conséquent, |X · Y | ≤ (1/2)(X 2 + Y 2 ) et en prenant l’ espérance de chaque
membre de l’inégalité on obtient
1
E(|X · Y |) ≤ (E(X 2 ) + E(Y 2 )),
2
ce qui démontre que X · Y est intégrable.
Supposons E(X 2 ) 6= 0 et considérons pour t réel la quantité suivante qui
est clairement toujours positive ou nulle (espérance d’un carré) :
E((tX + Y )2 ) = E(X 2 )t2 + 2E(X · Y )t + E(Y 2 ).
(Si E(X 2 ) = 0 et E(Y 2 ) 6= 0 on échange X et Y ; si E(X 2 ) = E(Y 2 ) = 0 il n’y

a rien à démontrer car X et Y sont nulles P-ps). Vue comme fonction de t c’est
un polynôme quadratique si E(X 2 ) 6= 0. Comme il ne prend que des valeurs
positives ou nulles son discriminant ∆ = 4(E(X ·Y )2 −E(X 2 )E(Y 2 )) doit être
négatif ou nul (sinon ce polynôme admettrait deux racines réelles distinctes
et serait strictement négatif entre les racines). Ceci n’est rien d’autre que
l’inégalité annoncée.
L’égalité a lieu si et seulement si le discriminant s’annule. Or, dans ce cas
le polynôme quadratique E((tX + Y )2 ) admet une racine réelle t0 (et une
seule). On a donc E(t0 X + Y ) = 0 ce qui signifie que t0 X + Y = 0 P-presque
sûrement.
b) Il suffit de démontrer que E((X + Y )2 ) est finie si E(X 2 ) et E(Y 2 ) le sont.
Or,
E((X + Y )2 ) = E(X 2 ) + 2E(X · Y ) + E(Y 2 ),
et comme E(X · Y ) ≤ E(X 2 )1/2 E(Y 2 )1/2 on a

2
2 2 2 1/2 2 1/2 2 2 1/2 2 1/2
E((X+Y ) ) ≤ E(X )+2E(X ) E(Y ) +E(Y ) = E(|X| ) +E(|Y | ) ,
ce qui démontre b).

2
2.4.1 Variance
Si X est dans L2 (Ω, P) la v.a X − E(X) est également dans L2 (Ω, P)
puisque c’est une somme de deux v.a de L2 (Ω, P) (une v.a constante est
toujours dans L2 (Ω, P)).
Définition 2.4.2 La variance d’une v.a dans L2 (Ω, P) est la quantité E(|X−
E(X)|2 ). La racine carrée de ce nombre s’appelle l’écart-type de X.
La variance est donc la moyenne (l’espérance) des carrés des écarts de X
par rapport à E(X).
Le calcul suivant
E(|X − E(X)|2 ) = E(X 2 − 2XE(X) + E(X)2 )

= E(X 2 ) − 2E(X)2 + E(X)2
= E(X 2 ) − E(X)2
démontre
Proposition 2.4.1 Si X ∈ L2 (Ω, P), on a V ar(X) = E(X 2 ) − E(X)2 .
Remarque De façon plus générale on peut définir pour tout p ≥ 1 l’espace

Lp (Ω, P) des v.a X dont le moment d’ordre p est fini c’est-à-dire telles que
E(|X|p ) < ∞. Ce sont encore des espaces vectoriels et la quantité E(|X|p)1/p
définit une (semi-)norme sur Lp (Ω, P) qui en fait un espace de Banach (un
espace vectoriel normé complet).
2.4.2 Calculs de variance

Cas des v.a à valeurs dans N,
Un outil très utile pour calculer les moments d’ordre p d’une v.a à valeurs
dans N est d’introduire la fonction génératice de X.
Définition 2.4.3 La fonction génératrice d’une v.a X à valeurs dans N est

la fonction définie par
φX (t) = E(tX )
X
= tk P(X = k).
k∈N
L’intérêt de φX réside dans la proposition suivante :
Proposition 2.4.2 On a toujours

d
lim φX (t) = E(X)
t→1,t<1 dt
et de façon plus générale

dp
lim φX (t) = E(X(X − 1) · · · (X − p + 1)).
t→1,t<1 dtp
Démonstration.—
Afin de simplifier la démonstration nous supposerons que X ne prend
qu’un nombre fini de valeurs dans {0, 1, . . . N}. Il suffit de calculer
N N
dp X k
X
t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k)
dtp k=0 k=0
En faisant t = 1 on obtient le résultat d’après la formule de transfert.

Dans le cas général où X prend ses valeurs dans N on peut procéder de
la façon suivante : pour 0 ≤ t < 1,
∞ ∞
dp X k
X
t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k),
dtp k=0 k=0
car les séries sont uniformément

P∞convergentes. La série du membre de droite
−
converge quand t → 1 vers k=0 k(k − 1) · · · (k − p + 1)P(X = k) d’après
le théorème de convergence monotone et cette quantité égale E(X · · · (X −
p + 1)) d’après le théorème de transfert.
2
Le calcul de la variance est alors clair puisque
V ar(X) = E(X 2 ) − E(X)2

= E(X(X − 1)) + E(X) − E(X)2
= φ00X (1) + φ0X (1) − (φ0X (1))2 .
Loi géométrique Dans ce cas X prend ses valeurs dans N et P (X = k) =

(1 − a)ak (0 ≤ a < 1). Ainsi
∞
X 1
φX (t) = (1 − a) tk ak = (1 − a) ,
k=0
1 − ta
pourvu que 0 ≤ t < a−1 . On a
1−a 1−a
φ0X (t) = a , φ00X (t) = 2a2 ,
(1 − ta)2 (1 − ta)3
et donc
a a
E(X) = , V ar(X) = .
1−a (1 − a)2
Loi binomiale Si la v.a X suit une loin−k

(p, n) elle prend ses valeurs dans
n k
{0, 1, . . . , n} et P(X = k) = k p (1 − p) . On a
n
X n k k
φX (t) = t p (1 − p)n−k = (tp + 1 − p)n ,
k=0
k
si bien que
φ0X (t) = pn(tp + 1 − p)n−1 , φ00X (t) = p2 n(n − 1)(tp + 1 − p)n−2 ,
et donc
E(X) = np, V ar(X) = np(1 − p).
Loi de Poisson Si la v.a X suit une loi de Poisson de paramètre λ, elle

k
prend ses valeurs dans N et P(X = k) = e−λ λk! . Il vient
∞
−λ
X 1
φX (t) = e tk λk = e−λ etλ = e(t−1)λ .
k=0
k!
Ainsi,
φ0X (t) = λe(t−1)λ , φ00X (t) = λ2 e(t−1)λ ,
et donc
E(X) = λ, V ar(X) = λ.
Cas des v.a admettant une densité

Si X est une v.a admettant une densité ρX , alors d’après la formule de
transfert, X est dans L2 (Ω, P) si et seulement si
Z ∞
2
E(X ) = x2 ρX (x)dx,
−∞
est finie.
Loi uniforme La variable aléatoire X : Ω → R suit une loi uniforme sur

l’intervalle [a, b] si sa densité est donnée par
1
ρX (x) = · 1[a,b] (x).
b−a
On a
1
Z
E(X) = x· · 1[a,b] (x)dx
R b−a
Z b
1
= xdx
b−a a
1 x2 b
= [ ]
b−a 2 a
a+b
= ,
2
ce qui est conforme à l’intuition : la position en moyenne d’un point jeté au
hasard sur l’intervalle (a, b) sera située au milieu de l’intervalle (a, b).
Calculons la variance
1
Z
2
E(X ) = x2 · · 1[a,b] (x)dx
R b−a
Z b
1
= x2 dx
b−a a
1 b3 − a3
=
b−a b−a
a2 + b2 + ab
= ,
3
(b3 − a3 = (b − a)(b2 + ab + a2 )) et donc
2
a2 + b2 + ab

2 a+b
V ar(X) = E(X ) − E(X) = −
3 2
2
(b − a)
= .
12
Loi exponentielle de paramètre θ La v.a admet une densité
ρX (x) = θe−θx 1[0,∞[(x).
On a
Z ∞
E(X) = xθe−θx 1[0,∞[ (x)dx
Z−∞
∞
= xθe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
1
= ,
θ
(après changement de variable et intégration par parties). Le moment d’ordre
2 s’obtient de façon analogue,
Z ∞
2
E(X ) = x2 θe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
2
= 2,
θ
(après changement de variable et deux intégrations par parties). On a donc
1
V ar(X) = E(X 2 ) − E(X)2 = .
θ2
Loi normale N(µ, σ 2 ) On sait (cf. l’exercice de la section 2.3.5) que si Y

suit une loi N(µ, σ 2 ) alors elle est de la forme σX + µ où X suit une loi
normale N(0, 1) de densité
1 2
√ e−x /2 .
2π
On sait que pour une telle loi, E(X) = 0 et V ar(X) = 1. Par conséquent,
E(Y ) = σE(X) + µ = µ et V ar(Y ) = σ 2 V ar(X) = σ 2 .
2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev

L’intérêt de considérer les moments d’une v.a X réside dans les proposi-
tions suivantes.
Proposition 2.4.3 Si X est une v.a dans L1 (Ω, P) on a pour tout λ > 0
E(|X|)
P(|X| > λ) ≤ .
λ
Démonstration.— La v.a |X| peut sécrire
|X| = |X| · 1{|X|>λ} + |X| · 1{|X|≤λ} ,
et par additivité et positivité de l’espérance on a
E(|X|) ≥ E(|X| · 1{|X|>λ} ).
Or,
|X| · 1{|X|>λ} ≥ λ · 1{|X|>λ} ,
et par conséquent
E(|X|) ≥ λE(1{|X|>λ} ),
c’est-à-dire
E(|X|) ≥ λP({|X|iλ},
ce qui est la conclusion de la proposition.
2
La proposition précédente est une version quantitative du fait que la proba-
bilité que X prenne de grandes valeurs a tendance à être petite.
Si on a des informations sur les moments d’ordre supérieurs l’estimation
précédente est meilleure :
Proposition 2.4.4 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0
E(|X|2 )
P(|X| > λ) ≤ .
λ2
Démonstration.—
Il suffit de remarquer que {X > λ} = {X 2 > λ2 } et d’appliquer la
proposition précédente à la v.a Y = X 2 .
2
Appliquée à la v.a Y = X − E(X) la proposition précédente donne le
théorème de Bienaymé-Tchebychev :
Théorème 2.4.2 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0
V ar(|X|)
P(|X − E(X)| > λ) ≤ .
λ2
p
Si on note σ = V ar(X) l’écart type on a donc
1
P(|X − E(X)| > λσ) < ,
λ2
(d’où le nom d’écart type donné à σ)
Le théorème de Bienaymé-Tchebychev permet d’obtenir les probabilités des
déviations importantes de la v.a X par rapport à sa moyenne.
Chapitre 3
Vecteurs aléatoires et
Indépendance
3.1 Vecteurs aléatoires

3.1.1 Tribu borélienne de Rm
Rappelons qu’un ouvert de Rm est un ensemble U tel que pour tout point
x de U on peut trouver une boule ouverte de centre x et de rayon > 0,
B(x, ) incluse dans U. Par exemple, un pavé ouvert de Rm , c’est-à-dire un
produit de m intervalles ouverts (de R) ]a1 , b1 [× · · · ×]am , bm [ est un ouvert
de Rm .
Définition 3.1.1 La tribu borélienne de Rm est la plus petite tribu contenant

les ouverts de Rm . Nous la noterons Bor(Rm ). C’est également la plus petite
tribu contenant les pavés ouverts.
Le dernier point de la définition précédente mérite un commentaire. Pour

le justifier il suffit de démontrer (exercice : pourquoi ?) que tout ouvert
de Rm peut s’écrire comme union dénombrable de pavés ouverts. Ceci se
démontre par exemple de la façon suivante. Considérons les pavés P de la
forme ]a1 , b1 [× · · · ×]am , bm [ où tous les ai , bi sont rationnels (i.e tous les som-
mets de P sont à coordonnées rationnelles) et tels que P ⊂ U. L’ensemble
Q de ces pavés est dénombrable et ∪P ∈Q P est égale à U. En effet, il est clair
que cette union est incluse dans U et d’autre part, si y est un point de U,
il existe une boule B(y, ) incluse dans U. Il n’est pas difficile de voir qu’on
peut trouver un pavé P ∈ Q qui contient y et est inclus dans B(y, ) donc
dans U : ceci démontre l’inclusion réciproque.
51
52 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE
3.1.2 Vecteurs aléatoires

Définition 3.1.2 Un vecteur aléatoire X est une application de X : Ω →
Rm telle que pour tout borélien A ∈ Bor(Rm ), X −1 (A) ∈ B.
D’après ce qui a été dit précédemment,
Proposition 3.1.1 Les propositions suivantes sont équivalentes :

a) l’application X : Ω → Rm est un vecteur aléatoire
b) pour tout ouvert U de Rm , X −1 (U) ∈ B.
c) pour tout pavé ouvert P =]a1 , b1 [× · · · ×]am , bm [ l’ensemble X −1 (P ) ∈ B
d) les composantes Xi , 1 ≤ i ≤ m de X = (X1 , . . . , Xm ) sont des variables
aléatoires.
Démonstration.—
Il est évident que a) implique b) implique c) et d’après les propriétés
des variables aléatoires que c) est équivalent à d). Il ne reste donc plus qu’à
démontrer que c) implique b) et b) implique a). Comme tout ouvert est union
dénombrable de pavé ouvert c) implique b). D’autre part, soit C l’ensemble
des A ⊂ Rm tels que X −1 (A) ∈ B. Cet ensemble C est une tribu est contient
les ouverts ; par conséquent C contient Bor(Rm ), ce qui démontre que b)
implique a).
2
Le point d) de la proposition précédente montre en particulier que
Proposition 3.1.2 a) Si X : Ω → Rm et Y : Ω → Rm sont des vecteurs

aléatoires alors λX + µY est également un vecteur aléatoire.
b) Si f : Rp → Rm est une application continue et X = (X1 , . . . , Xp ) est
un vecteur aléatoire alors Y = (Y1 , . . . , Ym ) = f (X1 , . . . , Xp ) est un vecteur
aléatoire.
3.1.3 Loi d’un vecteur aléatoire

De la même façon que pour les variables aléatoires on peut définir la
loi d’un vecteur aléatoire X = (X1 , . . . , Xm ) comme étant une mesure de
probabilité sur (Rm , Bor(Rm )). C’est la mesure définie par :
∀A ∈ Bor(Rm), µX (A) = P(X ∈ A).
Donnons quelques exemples :

3.1. VECTEURS ALÉATOIRES 53
Vecteurs aléatoires ne prennant qu’un nombre fini ou dénombrable

de valeurs Si X = (X1 , . . . , Xm ) ne prend qu’un nombre fini de valeurs
dans E1 × · · · × Em la loi de X est déterminée par P (X1 = e1 , . . . , Xm =
em ). En d’autres termes, si on connait tous les réels pX (e1 , . . . , em ), e1 ∈
E1 , . . . em ∈ Em on peut déterminer la probablité de tout évènement X ∈ A :
X
P((X1 , . . . , Xm ) ∈ A) = pX (e1 , . . . , em ).
(e1 ,...,em )∈A
Vecteurs aléatoires admettant une densité On dit que le vecteur

aléatoire X = (X1 , . . . , Xm ) admet une densité ρX : Rm → R si pour tous
intervalles I1 , . . . , Im P(X ∈ I1 × · · · × Im ) = P(X1 ∈ I1 , . . . , Xm ∈ Im ) égale
Z
ρX (x1 , . . . , xm ).
I1 ×...×Im
3.1.4 Marginales
Les lois µX1 , . . . , µXm associées aux variables aléatoires X1 , . . . , Xm (définies
comme d’habitude par µXi (A) = P(Xi ∈ A)) sont appelées les lois marginales
du vecteur X.
Cas des vecteurs aléatoires à valeurs dans un ensemble fini ou

dénombrable Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em
la loi de X1 (plus généralement de Xi ) s’exprime de façon simple en fonction
de la loi de X. En effet,
P(X1 = e1 ) = P(X1 = e1 , X2 ∈ E2 , . . . , Xm ∈ Em )
X
= P(X1 = e1 , X2 = e2 , . . . , Xm = em )
e2 ∈E2 ,...em ∈Em
X
= pX (e1 , e2 , . . . , em ).
e2 ∈E2 ,...em ∈Em
Cas des vecteurs aléatoires admettant des densités Dans le cas des
vecteurs aléatoires admettant des densités on a le reésultat suivant
Proposition 3.1.3 Si le vecteur aléatoire X = (X1 , . . . , Xm ) admet une

densité ρ( x1 , . . . , xm ) alors les marginales Xi admettent une densité ρXi (xi ).
qui est obtenue en intégrant ρX (x1 , . . . , xm ) par rapport aux variables xj (cha-
cune intégrée sur R) à l’exception de xi :
Z Z
ρXi (xi ) = ··· ρX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xm )dx1 , . . . dxi−1 dxi+1 , . . . dxm .
R R
Démonstration.—
Pour simplifier les notations démontrons le dans le cas i = 1 : pour tout
intervalle I1 ⊂ R
µX1 (I1 ) = P(X1 ∈ I1 )

= P(X1 ∈ I1 , X2 ∈ R, . . . , Xm ∈ R)
= P((X1 , X2 , . . . , Xm ) ∈ I1 × R · · · × R)
Z Z
= ··· ρX (x1 , . . . , xm )dx2 . . . dxm .
R R
3.1.5 Espérance et variance des vecteurs aléatoires

Espérance On définit l’espérance de X = (X1 , . . . , Xm ) comme étant le
vecteur de Rm égal à (E(X1 ), . . . , E(Xm )) qui est bien défini quand chaque
composante Xi de X est intégrable ou, ce qui est équivalent, quand E(|X|) <
∞.
Variance De même les composantes p Xi de X sont de carrés intégrables si et

seulement si la norme de X, kXk = X12 + · · · + Xm 2 est de carré intégrable.
On définit alors la variance de X comme étant le réel positif ou nul
V ar(X) = E(kX − E(X)k2 )
et un calul simple montre que
V ar(X) = E(kXk2) − kE(X)k2 .
Covariance Si X et Y sont deux variables aléatoires de carré intégrables,

X − E(X) et Y − E(Y ) sont de carré intégrables (Minkowski) et d’après
Cauchy-Scwharz le produit (X − E(X))(Y − E(Y )) est intégrable.
Définition 3.1.3 Si X et Y sont deux variables aléatoires de carré intégrable

on définit la covariance de X et Y comme étant le réel

Cov(X, Y ) = E (X − E(X))(Y − E(Y ) .
On a l’égalité
Cov(X, Y ) = E(X · Y ) − E(X)E(Y ).
La dernière égalité se démontre très facilement coome suit :

E (X − E(X))(Y − E(Y ) = E XY − E(X)Y − XE(Y ) + E(X)E(Y )
= E(XY ) − 2E(X)E(Y ) + E(X)E(Y )

= E(XY ) − E(X)E(Y ).
Notons que Cov(X, X) = V ar(X).

On définit pour des raisons pratiques le coefficient de corrélation de deux
variables aléatoires X et Y de variance non nulles de la façon suivante :
Cov(X, Y )
cor(X, Y ) = p p .
V ar(X) V ar(Y )
Proposition 3.1.4 Si X, Y sont deux v.a de carré intégrable et de variance
non nulle, on a
−1 ≤ cor(X, Y ) ≤ 1,
et si cor(X, Y ) = ±1 alors il existe des réels a, b tels que Y = aX + b ou
X = aY + b (X et Y sont liées par une relation affine).
Démonstration.—
Ceci résulte de Cauchy-Schwarz : si on pose X̃ = X−E(X), Ỹ = Y −E(Y )
on a
p p
|cov(X, Y )| = |E(X̃ Ỹ )| ≤ E(X̃ 2 )1/2 E(Ỹ 2 )1/2 = V ar(X) V ar(Y ),
ce qui est l’inégalité annoncée. Par ailleurs l’égalité a lieu dans l’inégalité
précédente si et seulement si (cas d’égalité dans Cauchy-Scwharz) X − E(X)
et Y −E(Y ) sont colinéaires. Or ceci est équivalent à l’existence d’une relation
affine entre X et Y . En effet, s’il existe a tel que X − E(X) = a(Y − E(Y ))
ou Y − E(Y ) = a(X − E(X)) on a X = aY + b où Y = aX + b avec
b = E(X) − aE(Y ) ou b = E(Y ) − aE(X). Réciproquement, si Y = aX + b
on a E(Y ) = aE(X) + b et donc Y − E(Y ) = a(X − E(X)).
2
Le coefficient de corrélation admet une interprétation géométrique très simple.
Sur l’espace L2 (Ω, P) on peut définir un produit scalaire : pour deux variables
aléatoires U, V de carrés intégrables, la quantité E(UV ) est le produit sca-
laire de U et V . En dimension finie, on sait que le produit scalaire de deux
vecteurs u et v peut s’écrire (u, v) = kukkvk cos α où α est l’angle fait par
les deux vecteurs u et v (le fait que | cos α| ≤ 1 est une manifestation de
Cauchy-Scwharz). Ainsi, le coefficient de corrélation représente le cosinus de
l’angle fait par U, V (disons dans le 2-plan engendré par U, V ).
Revenons au cas où X = (X1 , . . . , Xm ) est un vecteur aléatoire de carré

intégrable. On peut définir pour tous 1 ≤ i, j ≤ m la covariance de Xi , Xj ,
Cov(Xi, Xj ). L’ensemble de ces m×m nombres forme une matrice (symétrique)
dont le coefficient (i, j) est Cov(Xi , Xj ) que l’on appelle la matrice de cova-
riance des v.a X1 , . . . , Xm et que l’on note ***
3.1.6 Formule de transfert

Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) et
f : Rm → Rp
(x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm ))
une application continue, on cherche à calculer l’espérance de Y = f (X)
c’est-à-dire que l’on veut calculer le vecteur E(Y ) = (E(Y1 ), . . . , E(Yp )) où
Yj = fj (X1 , . . . , Xm ). Le problème se ramène donc au suivant : étant donné
X = (X1 , . . . , Xm ) un vecteur aléatoire calculer E(φ(X1 , . . . , Xm )) où φ est
une application de Rm dans R. Ce problème se résout de la même façon
que dans le cas m = 1 (variables aléatoires). Nous donnons les résultats sans
démonstration (les preuves sont identiques à celles du cas m = 1).
Cas de Vecteurs aléatoires à valeurs dans ensembles finis ou dénombrables

Si X = (X1 , . . . , Xm ) prend ses valeurs dans E1 × · · · × Em on a
X
E(φ(X1 , . . . , Xm )) = φ(e1 , . . . , em )P(X1 = e1 , . . . , Xm = em ).
e1 ∈E1 ,...,em ∈Em
Cas de Vecteurs aléatoires admettant une densité Si le vecteur aléatoire

X = (X1 , . . . , Xm ) admet une densité ρ( x1 , . . . , xm ) on a
Z Z
E(φ(X1 , . . . , Xm )) = ··· φ(x1 , . . . , xm )ρX (x1 , . . . , xm )dx1 · · · dxm .
R R
3.1.7 Calcul de densité de vecteurs aléatoires

Etant donné un vecteur aléatoire X = (X1 , . . . , Xm ) admettant une den-
sité ρX (x1 , . . . , xm ) et
f : Rm → Rp
(x1 , . . . , xm ) 7→ (f1 (x1 , . . . , xm ), . . . , fp (x1 , . . . , xm ))
une application de classe C 1 , on cherche à déterminer si Y admet une densité
et si oui laquelle. Il faut distinguer trois cas suivant que m = p, m > p ou
m < p.
Cas où m = p Nous avons déjà traité ce cas quand m = p = 1 (variables

aléatoires) et nous avions alors fait usage du théorème de changement de
variables. Nous énonçons une version générale du théorème de changement
de variables quand m = p est plus grand que 1.
Théorème 3.1.1 (Changement de variables) Soient U et V deux ou-

verts de Rm et f : U → V une application bijective de U sur V et de classe
C 1 (on dit que f est un difféomorphisme de U sur V ). Pour toute application
φ : V → R dont le module est d’intégrale finie sur Rm
Z
φ(y1, . . . , ym )dy1 · · · dym =
V
Z
φ(f1 (x1 , . . . , xm ), · · · , fm (x1 , . . . , xm ))|Jacf (x1 , . . . , xm )|dx1 · · · dxm .
U
où Jacf (x) est le jacobien de f au point x c’est-à-dire le déterminant de la

matrice jacobienne de f qui est une matrice m × m et admet pour coefficient
(i, j) le terme ∂fi /∂xj (x1 , . . . , xm ).1
A l’aide de ce théorème, calculons E(φ(Y )) où φ : Rm → R est une appli-
cation continue bornée d’un ouvert U sur R et où f est un difféomorphisme
de U sur un ouvert V de Rm . Supposons en outre que X prenne ses va-
leurs dans U (ce qui implique que ρX est nulle en dehors de U). On a
E(φ(Y )) = E(φ ◦ f (X)) et d’après la formule de transfert
Z
E(φ(Y )) = E(φ ◦ f (X)) = φ ◦ f (x1 , . . . , xm )ρX (x1 , . . . xm )dx1 · · · dxm
U
ce qu’on peut écrire

Z
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x))dx1 · · · dxm
U
ou encore
|(Jacf ) ◦ f −1 (f (x))|
Z
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x)) dx1 · · · dxm .
U |(Jacf ) ◦ f −1 (f (x))|
La formule du changement de variable appliquée à ψ(x) = φ(x)ρX ◦f −1 (Jacf )◦
f −1 (x) donne
ρX ◦ f −1 (y)
Z
E(φ(Y )) = φ(y) dy1 · · · dym
V |(Jacf ) ◦ f −1 (y)|
1
Une façon de retenir ce théorème est la suivante : on fait le changement de variable
y = f (x) dans l’intégrale précédente, on modifie les bornes d’intégration en conséquence
et on observe que l’élément différentiel dy devient dy = (dy/dx)dx, (dy/dx) étant la valeur
absolue du jacobien.
Ceci étant vrai pour toute fonction continue bornée Y = f (X) admet une
densité et qui vaut
ρX ◦ f −1 (y)
ρY (y1 , . . . , ym ) = · 1V .
|(Jacf ) ◦ f −1 (y)|
On peut généraliser un peu plus ce théorème : dans la pratique, il est

souvent possible de trouver une partition (union disjointe) de l’ensemble
{x : ρX (x) > 0 (ouvert si ρX est continue) en une union finie (ou même
dénombrable) d’ouverts Ui , {x : ρX (x) > 0} = ∪di=1 Ui , tels que f soit injec-
tive sur chaque Ui . Ainsi f est une bijection de chaque ouvert Ui sur son
image Vi . On a alors
Z
E(φ(Y )) = E(φ ◦ f (X)) φ ◦ f (x1 , . . . , xm )ρX (x1 , . . . xm )dx1 · · · dxm
U
ce qu’on peut écrire

d Z
X
E(φ(Y )) = φ(f (x))ρX ◦ f −1 (f (x))dx1 · · · dxm .
i=1 Ui
Après changement de variable dans chacune des intégrales précédentes on

obtient
d Z
X ρX ◦ f −1 (y)
E(φ(Y )) = φ(y) −1 (y)|
dy1 · · · dym
i=1 Vi
|(Jacf ) ◦ f
ou encore
d
ρX ◦ f −1 (y)
Z X
E(φ(Y )) = φ(y) 1V (y) dy1 · · · dym .
Rm i=1
|(Jacf ) ◦ f −1 (y)| i
Le théorème 3.1.1 montre donc que

d
X ρX ◦ f −1 (y1 , . . . , ym )
ρY (y1 , . . . , ym ) = 1V (y1 , . . . , ym ).
i=1
|(Jacf ) ◦ f −1 (y1 , . . . , ym ))| i
Cas où m > p Afin de simplifier les notations, nous traiterons le cas où
m = 2 et p = 1. Soient donc X = (X1 , X2 ) un vecteur aléatoire de R2 qui
admet une densité ρX (x1 , x2 ) et f : R2 → R une application différentiable.
On cherche à déterminer, si elle existe, la densité de la v.a Y = f (X1 , X2 ).
L’idée pour cela est d’introduire un vecteur aléatoire Z qui est de la forme
Z = (Y, X2 ) et d’établir qu’il admet une densité ρZ (y, x2 ). On saura alors

que Y admet une densité ρY (y) égale à (cf. section 3.1.4
Z ∞
ρY (y) = ρZ (y, x2)dx2 .
−∞
Le vecteur aléatoire Z peut s’écrire Z = F (X) où F est l’application de

R2 → R2 définie par
F (x1 , x2 ) = (f (x1 , x2 ), x2 ).
Sa matrice jacobienne est

∂f ∂f

∂x1
(x1 , x2 ) ∂x2
(x1 , x2 )
0 1
∂f
et son jacobien (le déterminant de la matrice jacobienne) vaut ∂x 1
(x1 , x2 ).
D’après ce qui a été fait dans la section précédente, s’il existe une partition
finie de l’ensemble {(x1 , x2 ) ∈ R2 : ρX (x1 , x2 ) > 0} en ouverts U1 , . . . , Uf tels
que F soit injective sur chaque Ui , on peut dire que la densité de Z existe et
vaut
d
X ρX ◦ F −1 (y, x2 )
ρZ (y, x2 ) = −1 (y, x )|
· 1Vi .
i=1
|(JacF ) ◦ F 2
Cas m < p Dans ce cas le vecteur Y n’admet pas de densité. Illustrons ceci
sur un exemple : supposons que m = 1, p = 2 et soit f : R → R2 définie
par f (x) = (x, 0). Supposons que la variable aléatoire Y = f (X) = (X, 0)
admette une densité ρY (y1 , y2 ). Alors, pour tout pavé C =]a1 , b1 [×]a2 , b2 [ on
devrait avoir : Z Z b1 b2
P(Y ∈ C) = ρY (y1 , y2 )dy1dy2 .
a1 a2
Considérons un pavé C qui n’intersecte pas la droite y2 = 0 ; comme Y =

(f (X), 0) on a P(Y ∈ C) = 0. Si ρY est continue (resp. intégrable), ceci
montre que ρY est nulle en tout point (resp. Lebesgue-presque tout point)
(x1 , x2 ) tel que x2 6= 0. On a donc P(Y ∈ R2 ) = 0 ce qui est impossible
(0 6= 1).
Exercice Soient X et Y deux v.a. Supposons que le vecteur aléatoire (X, Y )

admette une densité égale à ρ( x, y). Montrer que la v.a X + Y admet une
densité que l’on calculera.
Solution
i) Introduisons le vecteur aléatoire Z = (X + Y, Y ) et calculons sa loi. Pour

toute fonction φ : R2 → R continue bornée,
E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )),
où ψ : R2 → R égale à ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet une

densité ρ on a d’après la formule de transfert
Z
E(ψ((X, Y ))) = ψ(x, y)ρ(x, y)dxdy
R 2
Z
= φ(x + y, y)ρ(x, y)dxdy.
R2
Effectuons le changement de variables f : (x, y) 7→ (u, v)v = (x + y, y) qui

est un difféomorphisme de R2 sur R2 de jacobien égal à

1 1
Jac(f ) = = 1;
0 1
on obtient,
Z Z
φ(x + y, y)ρ(x, y)dxdy = φ(u, v)ρ(u − v, v)dudv
R2 R2
et donc, Z
E(φ(Z)) = φ(u, v)ρ(u − v, v)dudv.
R2
Ceci étant vrai pour toute fonction φ continue bornée on peut dire que Z =
(U, V ) = (X + Y, Y ) admet une densité donnée par ρZ (u, v) = ρ(u − v, v).
ii) La densité de X + Y est donc ρX
Z ∞
ρX (x) = ρ(x − v, v)dv.
−∞
3.2 Variables aléatoires indépendantes

Définition 3.2.1 Une suite X1 , . . . , Xm de variables aléatoires est dite indépendante
si pour tous intervalles I1 , . . . , Im de R,
P(X1 ∈ I1 , . . . , Xm ∈ Im ) = P(X1 ∈ I1 ) · · · P(Xm ∈ Im ).
En d’autres termes la loi du vecteur X = (X1 , . . . , Xm ) est déterminée par

ses marginales :
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 61
Proposition 3.2.1 La suite (X1 , . . . , Xn ) est indépendante si et seulement

si la loi du vecteur aléatoire X = (X1 , . . . , Xn ) est le produit de ses lois
marginales :
µX (I1 × · · · × Im ) = µX1 (I1 ) · · · µXm (Im ).
On peut préciser un peu le résultat précédent :
Proposition 3.2.2 Une suite X1 , . . . , Xm de variables aléatoires est indé-

pendante si et seulement si pour tous boréliens A1 , . . . , Am de R,
P(X1 ∈ A1 , . . . , Xm ∈ Am ) = P(X1 ∈ A1 ) · · · P(Xm ∈ Am ).
Démonstration.—
Traitons le cas où m = 2 (le cas m > 2 est analogie). Fixons un intervalle
ouvert J et considérons l’ensemble CJ des boréliens A pour lesquels
P(X1 ∈ A, X2 ∈ J) = P(X1 ∈ A)P(X2 ∈ J). (3.1)
Il est facile de voir que CJ est une tribu. Comme les intervalles ouverts de
R appartiennent à CJ on peut dire que C contient la tribu engendrée par les
intervalles ouverts, c’est-à-dire les boréliens. Ainsi pour tout intervalle J et
tout borélien A on a (3.1). Fixons à présent A et considérons l’ensemble D
des boréliens B de R pour lesquels
P(X1 ∈ A, X2 ∈ B) = P(X1 ∈ A)P(X2 ∈ B). (3.2)
Il est clair que c’est une tribu et (3.1) montre qu’elle contient les inter-
valles ouverts. Le même argument que celui fait précédemment montre que
D contient les boréliens. Ainsi, pour tous boréliens A et B on a (3.2).
2
Définition 3.2.2 Une famille (Xi )i∈A de v.a est dite indépendante si toute
sous famille finie (Xi )i∈J , J ⊂ A fini est indépendante.
3.2.1 Cas des v.a à valeurs dans un ensemble discret

Si l’on suppose que les Xi sont à valeurs dans Ei ensembles fini ou
dénombrables la définition précédente se simplifie car on a la proposition
suivante dont la preuve est facile :
Proposition 3.2.3 La suite (X1 , . . . , Xn ) est indépendante si et seulement

si pour tout (e1 , . . . , en ) ∈ E1 × · · · × En on a
P(X1 = e1 , . . . , Xm = em ) = P(X1 = e1 ) · · · P(Xm = em ).

En d’autres termes, la loi ρX (e1 , . . . , en ) est le produit des lois ρXi (ei ) :
∀(e1 , . . . , en ) ∈ E1 × · · · × En , ρX (e1 , . . . , en ) = ρX1 (e1 ) · · · ρXn (en ).
Donnons un exemple important.
Le jeu de Pile/Face fini L’espace des états est Ω = {0, 1}n (on joue n fois)
muni de la tribu totale P(ω) et de la probabilité uniforme : P(A) = #A/2n .
Nous avons déjà rencontés les variables aléatoires Xi : Ω → {0, 1} définies par
Xi (ω) = ωi (ω = (ω1 , . . . , ωn ) ∈ Ω). La famille X1 , . . . , Xn est indépendante.
En effet pour tout (e1 , . . . , en ) ∈ {0, 1}n
P(X1 = e1 , . . . , Xn = en ) = P({ω : ω1 = e1 , . . . , ωn = en })
= P({ω : ω ∈ {(e1 , . . . , en )})
#{(e1 , . . . , en )}
=
#Ω
1
= n
2
Mais d’autre part,
1 1 1
P(X1 = e1 ) · · · P(Xn = en ) =
··· = n.
2 2 2
On a donc bien P(X1 = e1 , . . . , Xn = en ) = P(X1 = e1 ) · · · P(Xn = en ).
Le jeu de Pile/Face infini Ici, Ω = {0, 1}n muni de la tribu B engendrée

par les évènements élémentaires (les cylindres) Ci,e = Xi−1 (e), e ∈ {0, 1},
i ∈ N (où les Xi sont définies par Xi (ω) = ωi) et de la probabilité P décrite
en ***. Pour toute sous famille Xi1 , . . . , Xin de X1 , X2 , . . . , on a comme
précédemment
P(Xi1 = e1 , . . . , Xin = en ) = P({ω : ω1 = e1 , . . . , ωn = en })
= P({ω : ω ∈ Ci1 ,e1 ∩ Cin ,en )
1
= n
2
par définition de la probabilité P. Par ailleurs,
1 1 1
P(Xi1 = e1 ) · · · P(Xin = en ) = ··· = n.
2 2 2
On a donc bien pour tous e1 , . . . , en l’égalité P(Xi1 1 = e1 , . . . , Xin = en ) =
P(Xi1 = e1 ) · · · P(Xin = en ) ce qui démontre l’indépendance de toute sous
famille Xi1 , . . . , Xin .
Nous avons donc démontré que la famille X1 , X2 , . . . est indépendante.
Remarque Le résultat précédent est beaucoup plus profond qu’il n’ap-

paraı̂t. La vérification de l’indépendance des v.a Xi est facile mais la construc-
tion de le mesure P, qui est justement celle qui rend la famille (Xi )i indépendante,
est loin d’être triviale.
Il existe en fait un résultat plus général : Etant donnée une famille
(Xα )α∈A de v.a à valeurs dans R définies sur un espace probabilisé (Ω0 , B0 , P0 )
, il existe un espace probabilisé (Ω, B, P) et des v.a Yα , α ∈ A telles que pour
tout α ∈ A, Yα a même loi que Xα et telles que la famille (Yα )α∈A soit
indépendante.
Ainsi, la construction de v.a de lois données qui sont indépendantes est
toujours possible.
3.2.2 Cas des v.a admettant des densités

On a la proposition suivante
Proposition 3.2.4 Si les X1 , . . . , Xn sont des v.a indépendantes admettant

des densités ρX1 , . . . , ρXn alors le vecteur aléatoire X = (X1 , . . . , Xn ) admet
une densité ρX égale à
∀(x1 , . . . , xn ) ∈ Rn , ρX (x1 , . . . , xn ) = ρX1 (x1 ) · · · ρXn (xn ).
Démonstration.—
En effet pour tous intervalles I1 , . . . , In ,
P(X ∈ I1 × · · · × In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In )

Z Z
= ρX1 (x1 )dx1 · · · ρXn (xn )dxn
I1 In
Z
= ρX1 (x1 ) · · · ρXn (xn )dx1 · · · dxn ,
I1 ×···×In
et le fait que cette identité soit vraie pour tous intervalles I1 , . . . , In implique
que X admet une densité qui est celle annoncée dans l’énoncé de la proposi-
tion.
2
3.2.3 Espérance des produits de v.a indépendantes

Avant de démontrer le théorème fondamental de cette section démontrons
le lemme suivant :
Lemme 3.2.1 Si X1 , . . . , Xn est une famille de v.a indépendantes et si φ1 , . . . , φn

sont des applications (continues, mesurables...) de R → R alors la famille
de v.a φ1 (X1 ), . . . , φn (Xn ) est indépendante.
Démonstration.—
En effet, pour tous intervalles I1 , . . . , In l’évènement (φi(Xi ) ∈ Ii ) égale
l’évènement Xi ∈ φ−1
i (Ii ). Ainsi
P(φ1 (X1 ) ∈ I1 , . . . , φn (Xn ) ∈ In ) = P(X1 ∈ φ−1 −1

1 (I1 ), . . . , Xn ∈ φn (In ))
= P(X1 ∈ φ−1 −1
1 (I1 )) · · · P(Xn ∈ φn (In )
= P(φ1 (X1 ) ∈ I1 ) · · · P(φn (Xn ) ∈ In ),
d’après la proposition 3.2.2.

2
On a le théorème important suivant :
Théorème 3.2.1 Si X1 , . . . , Xn est une famille de v.a indépendantes et dans

L1 (Ω, P) le produit Y = X1 · · · Xn est également une v.a dans L1 (Ω, P) et
son espérance égale le produit des espérance des Xi :
E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
Démonstration.—
Traitons le cas n = 2, le cas général se faisant de la même façon.
i) Supposons que X1 , X2 sont à valeurs dans un ensemble fini E. Notons
f : R2 → R l’application définie par f (x1 , x2 ) = x1 · x2 . On a d’après la
formule de transfert
X
E(f (X1 · X2 )) = f (e1 , e2 )P(X1 = e1 , X2 = e2 )
(e1 ,e2 )∈E×E
X
= e1 e2 P(X1 = e1 ), P(X2 = e2 )
(e1 ,e2 )∈E×E
X X
= e1 P(X1 = e1 ) e2 P(X2 = e2 )
(e1 ∈E e2 ∈E
= E(X1 )E(X2 ).
ii) Supposons X1 et X2 positives : on sait qu’il existe des suites croissantes

(n) (n)
de v.a X1 , X2 à valeurs dans l’ensemble fini {(k/2n : 0 ≤ k ≤ 2n − 1}
(n) (n)
telles que pour tout ω ∈ Ω, X1 (ω), X2 (ω) convergent respectivement vers
(n) (n)
X1 (ω), X2 (ω) et telles que E(X1 ) et E(X2 ) convergent respectivement
vers E(X1 ), E(X2 ). D’après i) on a
(n) (n) (n) (n)
E(X1 X2 ) = E(X1 )E(X2 ).
(n) (n)
iii) Comme X1 (ω), X2 (ω) convergent respectivement vers X1 (ω), X2 (ω) en
(n) (n)
croissant, pour tout ω ∈ Ω le produit X1 (ω) · X2 (ω) converge en croissant
vers X1 (ω)X2(ω). Mais d’après le théorème de convergence monotone ceci
implique que
(n) (n)
lim E(X1 · X2 ) = E(X1 · X2 ).
n→∞
iv) Le passage à la limite dans l’équation du ii) donne la conclusion dans le

cas où X1 , X2 sont positives.
v) Si X1 , X2 sont intégrables de signe quelconque on écrit X1 = X1+ − X1− ,
X2 = X2+ − X2− :
X1 X2 = (X1+ − X1− )(X2+ − X2− ) = (X1+ X2+ + X1− X2− ) − (X1+ X2− + X1− X2+ ).
Comme Xi± = h± (Xi ) où h+ (x) = max(x, 0), h− (x) = min(x, 0) sont conti-
nues, le lemme 3.2.1 montre que les quatre familles de variables aléatoires
(X1+ , X2+ ), (X1+ , X2− ), (X1− , X2+ ), (X1− , X2− ) sont indépendantes et donc
E(X1± X2 ±) = E(X1± )E(X2± ), E(X1± X2 ∓) = E(X1± )E(X2∓ ).
On a donc
E(X1+ X2+ + X1− X2− ) = E(X1+ )E(X2+ ) + E(X1− )E(X2− )
E(X1+ X2− + X1− X2+ ) = E(X1+ )E(X2− ) + E(X1− )E(X2+ ).
Comme les E(X1± ), E(X2± ) sont toutes finies, ceci montre que E(X1+ X2+ +
X1− X2− ) et E(X1+ X2− + X1− X2+ ) sont finies. En outre,
E(X1 X2 ) = E(X1+ )E(X2+ ) + E(X1− )E(X2− ) − E(X1+ )E(X2− ) + E(X1− )E(X2+ )
= (E(X1+ ) − E(X1− ))(E(X2+ ) − E(X2− ))
= E(X1 )E(X2 ),
ce qui termine la preuve du théorème.
2
Remarque Dans le cas où les v.a Xi admettent des densités (continues)
ρXi on peut donner une preuve plus simple : D’après la formule de transfert
appliquée à Y = f (X1 , X2 ) = X1 · X2 donne
Z
E(X1 · X2 ) = f (x1 , x2 )ρX (x1 , x2 )dx1 dx2 .
R×R
Or on sait que ρX (x1 , x2 ) = ρX1 (x1 )ρX2 (x2 ) si bien que

Z
E(X1 · X2 ) = x1 x2 ρX1 (x1 )ρX2 (x2 )dx1 dx2 ,
R×R
Z Z
= x1 ρX1 (x1 ) x2 ρX2 (x2 )
R R
= E(X1 )E(X2 ).
Remarque Attention, la réciproque du résultat précédent est fausse : si deux

v.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure que
X, Y sont indépendantes. En revanche, le résultat suivant est vrai :
Théorème 3.2.2 Si X1 , . . . , Xn sont des v.a telles que pour toutes fonctions
continues bornées φ1 , . . . , φn de R → R on a
E(φ1 (X1 ) · · · φn (Xn )) = E(φ1 (X1 )) · · · E(φn (Xn )),
alors la famille de v.a X1 , . . . , Xn est indépendante.
3.2.4 Critères d’indépendance

Dans la pratique il est important de déterminer si une famille de v.a
est indépendantes. Un cas qui se présente fréquemment est le suivant : on
suppose donnée une famille de v.a indépendantes X1 , X2 , . . . et on construit,
à partir des Xi , de nouvelles v.a Y1 , Y2 , . . .. Par exemple, on peut définir
Y1 = X1 , Y2 = X1 + X2 , Yn = X1 + · · · + Xn ...mais on pourrait définir les Yi
par Y1 = X1 + X2 , Y2 = X2 + X3 , Yn = Xn + Xn+1 etc. ou faire des choses
plus compliquées. Le théorème important de cette section est le suivant :
Théorème 3.2.3 Soient (Xi )i∈N une famille de v.a indépendantes et (Ji )
(i = 1, 2, . . .) des sous ensembles finis de N qui forment une partition de
N (i.e les Ji sont non vides, N = ∪i≥1 Ji et Ji ∩ Jj = ∅ si i 6= j). Suppo-
sons données des applications (continues, continues par morceaux,...) fi de
R#Ji → R et posons Yi = fi (Xi1 , . . . , Xi#Ji ) (où i1 < · · · < i#Ji sont les
éléments de Ji ). Alors, la famille de v.a Y1 , Y2, . . . est indépendante.
Démonstration.—
Démontrons un cas particulier de ce théorème (mais la preuve dans le cas
général est la même) : Supposons que X1 , X2 , X3 , X4 soit une famille de v.a
indépendantes et que f, g : R2 → R soient des applications (continues...).
Posons Y1 = f (X1 , X2 ) et Y2 = g(X3, X4 ).
i) Fixons I3 et I4 des intervalles ouverst de R et considérons l’ensemble CI3 , I4

des boréliens de R2 tels que
P((X1 , X2 ) ∈ A, X3 ∈ I3 , X4 ∈ I4 ) = P((X1, X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 ).
C’est une tribu et elle contient les pavés de la forme I1 × I2 (I1 , I2 intervalles
ouverts de R). Elle contient donc la tribu engendrée par les pavés ouverts et
elle contient donc la tribu borélienne de R2 . On a donc démontré que pour
tout borélien A de R2 et tous intervalles I3 , I4 on a
P((X1 , X2 ) ∈ A, X3 ∈ I3 , X4 ∈ I4 ) = P((X1, X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 ).
Fixons A boélien de R2 et considérons l’ensemble DA des boréliens B de R2

tels que
P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ B) = P((X1, X2 ) ∈ A)P((X3 , X4 ) ∈ B).
C’est une tribu qui contient les pavés ouverts de la forme I3 × I4 car
P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ I3 × I4 ) = P((X1 , X2 ) ∈ A)P(X3 ∈ I3 )P(X4 ∈ I4 )

= P((X1 , X2 ) ∈ A)P((X3 , X4 ) ∈ I3 × I4 ).
Par conséquent, la tribu D contient la tribu engendrée par les pavés ouverts
c’est à-dire la tribu borélienne de R2 . On a montré que pour tout borélien A
de R2 et tout borélien B de R2
P((X1 , X2 ) ∈ A, (X3 , X4 ) ∈ B) = P((X1, X2 ) ∈ A)P((X3 , X4 ) ∈ B).
ii) Soient I, J deux intervalles ouverts :
P(Y1 ∈ I, Y2 ∈ J) = P((X1 , X2 ) ∈ f −1 (I), (X3, X4 ) ∈ g −1 (J)).
Les ensembles f −1 (I) et g −1 (J)) sont des boréliens de R2 et on a donc d’après

i)
P((X1 , X2 ) ∈ f −1 (I), (X3, X4 ) ∈ g −1 (J)) =

P((X1 , X2 ) ∈ f −1 (I))P((X3, X4 ) ∈ g −1 (J)),
c’est-à-dire
P(Y1 ∈ I, Y2 ∈ J) = P(Y1 ∈ I)P(Y2 ∈ J).
2
3.3 Evènements indépendants

Définition 3.3.1 Une famille d’évènements (Ai )i∈I est dite indépendante
(ou encore les évènements de la famille (Ai )i∈I sont dits mutuellement indépendants)
si pour toute sous famille finie Ai1 , . . . , Ain on a
P(Ai1 ∩ · · · ∩ Ain ) = P(Ai1 ) · · · P(Ain ).
Exercice. Démontrer que si A, B sont deux évènements indépendants les

quatre familles (A, B), (A, B c ), (Ac , B), (Ac , B c ) sont chacune indépendantes.
Solution. a) Montrons par exemple que (Ac , B) est indépendante :
P(Ac ∩ B) = P((E − A) ∩ B) = P(B − (A ∩ B)) = P(B) − P(A ∩ B)
et comme P(A ∩ B) = P(A)P(B)
P(Ac ∩ B) = P(B)(1 − P(A)) = P(B)P(Ac ).
Exercice Trouver un exemple où chacune des familles (A, B), (B, C), (C, A)
est indépendante mais pas la famille (A, B, C).
Théorème 3.3.1 La famille d’évènements (Ai )i∈I est indépendante si et

seulement si la famille de variables aléatoires (1Ai )i∈I est indépendante.
Démonstration.— i) Démontrons que si la famille d’évènements (Ai )i∈I est
indépendante alors la famille de variables aléatoires (1Ai )i∈I est indépendante.
Pour cela il suffit de démontrer, quand I = {1, . . . , n}, que pour tout (1 , . . . , n ) ∈
{0, 1}n ,
n
Y
P(1A1 = 1 , . . . , 1An = n ) = P(1Ai = i ).
i=1
c
Notons A l’ensemble A si = 1 et A si = 0. L’égalité précédente devient
n
Y
E(1A11 · · · 1Ann ) = E(1Ai i ).
i=1
Remarquons que 1Ai i égale soit 1Ai soit 1 − 1Ai . On peut donc écrire 1Ai i =
(i + ˜i 1Ai ) où ˜i = 1 − 2i . Ainsi,
n
Y
1
A11 ···1 Ann = (i + ˜i 1Ai )
i=1
XY Y
= i ˜i 1Ai .
J⊂I i∈J i∈I−J
3.3. EVÈNEMENTS INDÉPENDANTS 69
Par conséquent,
n
Y
E(1A11 · · · 1Ann ) = E (i + ˜i 1Ai )
i=1
X Y Y
= i E ˜i 1Ai )
J⊂{1,...,n} i∈J i∈I−J
XY Y
= i ˜i E(1Ai ),
J⊂I i∈J i∈I−J
puisque comme les A1 , . . . , An sont mutuellement indépendants

Y \
E 1Ai = P Ai
i∈I−J i∈I−J
Y
= P(Ai )
i∈I−J
Y
= E(1Ai ).
i∈I−J
On a donc,
n
Y
E(1A11 · · · 1Ann )) = (i + ˜i E(1Ai ))
i=1
n
Y
= E(i + ˜i 1Ai )
i=1
Yn
= E(1Ai i ),
i=1
ce est ce que nous voulions démontrer.
ii) La réciproque résulte immédiatement de la définition de l’indépendance.

2
Chapitre 4
Sommes de variables aléatoires

indépendantes
Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et introduisons

les v.a Sn = X1 + · · · + Xn . Si par exemple les v.a Xi ont même loi, l’intuition
que nous avons des probabilités nous incite à penser que les moyennes
1 1
Sn = (X1 + · · · + Xn )
n n
convergent quand n tend vers l’infini vers l’espérance E(X1 ) de X1 . En effet,

si par exemple les Xi suivent une loi de Bernoulli (1/2, 1/2) et forment une
famille indépendante de v.a– les Xi modélisent donc un jeu infini de Pile/Face
où les tirages sont indépendants– l’expérience ou l’intuition indique que
1
(X1 + · · · + Xn )
n
convergent vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autre
que l’espérance de X1 . La première difficulté que nous rencontrons est de
donner un sens à la convergence précédente. Rappelons la définition suivante
qui introduit la notion de convergence presque-sure, pertinente pour notre
propos :
Définition 4.0.1 On dit que la suite de v.a Yn converge P-presque surement

vers la v.a Y l’ensemble des ω ∈ Omega pour lesquels la suite (Yn (ω))n
converge vers Y (ω) est de probabilité 1.
Le théorème fondamental de ce chapitre et qui est à la base de la théorie

mathématique des probabilités est la loi forte des grands nombres qui est
71
72CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Théorème 4.0.2 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où

les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a
1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
La démonstration de ce théorème fondamental dans cette généralité sort du
cadre de ce cours, mais nous allons en donner une preuve sous des hypothéses
plus faibles.
4.1 Lois des grands nombres dans le cas L2

4.1.1 Loi faible des grands nombres
Nous savons déjà d’après la linéarité de l’espérance que
E(Sn ) = E(X1 ) + · · · + E(Xn )
et d’après l’indépendance
V ar(Sn ) = V ar(X1 ) + · · · + V ar(Xn ),
et comme les Xi ont même loi
E(Sn ) = nE(X1 ), V ar(Sn ) = nV ar(X1 ).
Le fait que la variance de la somme des n v.a X1 , . . . , Xn se comporte comme
n et non pas comme n2 (c’est ici où intervient l’hypothèse d’indépendance)
est l’observation fondamentale. Appliquons en effet l’inégalité de Bienaymé-
Tchebychev :
nV ar(X1 )
P(|Sn − nE(X1 )| > λ) ≤ ,
λ2
ce qui peut s’écrire
Sn λ nV ar(X1 )
P(| − E(X1 )| > ) ≤ .
n n λ2
Posons à présent λ = n où est un réel positif :
Sn V ar(X1 )
P(|− E(X1 )| > ) ≤ .
n n2
Nous voyons donc que pour tout > 0 on a
Sn
lim P(| − E(X1 )| > ) = 0.
n→∞ n
Introduisons la définition suivante :
4.1. LOIS DES GRANDS NOMBRES DANS LE CAS L2 73
Définition 4.1.1 On dit que la suite de v.a (Yn )n converge en probabilité

vers la v.a Y si pour tout > 0 on a
lim P(|Yn − Y | > ) = 0.

n→inf ty
Nous avons donc démontré la loi faible des grands nombres
Théorème 4.1.1 Si (Xi )i≥1 est une famille de v.a indépendante et si les Xi
ont même loi et sont dans L2 alors la suite Sn /n converge en probabilité vers
E(X1 ).
4.1.2 Loi forte des grands nombres

Rappelons l’énoncé de la loi forte des grands nombres :
Théorème 4.1.2 Soit X1 , . . . , Xn , . . . une famille de v.a indépendante où

les Xi ont même loi et sont dans L1 (Ω, P). Alors, la suite de v.a
1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
Nous nous proposons dans ce qui suit d’en donner une preuve dans le cas où
les v.a sont L2 .
Démonstration.— Dans le cas L2 .
Posons X̄k = Xk − E(Xk ) et S̄n = X̄1 + · · · + X̄k . La famille de v.a (X̄i )i
est indépendante et les X̄i sont de même loi et de carré intégrable. En outre,
E(X̄i ) = 0, V ar(X̄i ) = E((X̄i )2 ),
et
E(S̄n ) = 0, E((S̄n )2 ) = V ar(S̄n ) = nV ar(X̄1 ).
i) La dernière égalité montre que

2
S̄n 1 2 1
E = = E(( S̄ n ) ) = V ar(X1 ),
n n2 n
et donc la série
∞ 2 X ∞
X S̄k2 1
E 2
= 2
V ar(X1 ),
k=1
k k=1
k
est convergente. D’après le théorème de convergence monotone,

X ∞ 2 X ∞ 2
S̄k2 S̄k2
E = E ;
k=1
k2 k=1
k2
mais si l’espérance d’une v.a positive est finie, cette v.a est finie pour P-p.s.
Par conséquent pour P-presque tout ω ∈ Ω
∞ 2
X S̄k2 (ω)
< ∞,
k2
k=1
ce qui en particulier implique que
S̄k2 (ω)
lim = 0.
k→∞ k2
Nous avons donc montré que P-p.s la suite S̄k2 /k 2 converge vers 0 quand n
tend vers l’infini.
ii) Montrons à présent que la suite S̄n /n converge vers 0 P-p.s. Pour cela,
notons k(n) l’unique entier pour lequel
k(n)2 ≤ n < (k(n) + 1)2 .
Les mêmes calculs que ceux que l’on a effectués précédemment montrent que
2
2
E X̄k(n)2 + · · ·+ X̄n = V ar X̄k(n)2 + · · ·+ X̄n ) = (n−k(n) V ar(X1 ),
et ∞ ∞
X̄k(n)2 + · · · + X̄n 2 n − k(n)2
X X
E = V ar(X1 ).
n=1
n n=1
n2
Mais, comme
√ √
n − k(n)2 ≤ (k(n) + 1)2 − k(n)2 = 2k(n) + 1 ≤ 2 n + 1 ≤ 3 n
on a
n − k(n)2 3
≤ √ ,
n n n
P∞ n−k(n)
et la série n=1 n2
V ar(X1 ) est donc convergente. Ainsi
∞
X̄k(n)2 + · · · + X̄n 2
X
E
n=1
n
4.2. THÉORÈME DE LA LIMITE CENTRALE 75
est finie et en raisonnant comme en i)
X̄k(n)2 + · · · + X̄n
n
converge P-p.s vers 0.
iii) Comme
S̄n X̄1 + · · · + X̄k(n)2 X̄k(n)2 + · · · + X̄n

= +
n n n
X̄1 + · · · + X̄k(n)2 k(n) 2 X̄k(n)2 + · · · + X̄n
= 2
· +
k(n) n n
2 X̄k(n)2 + · · · + X̄n
1 k(n)
= S̄ k(n)2 · +
k(n)2 n n
et que k(n)2 /n est borné par 1 on déduit de i) et ii) que S̄n /n converge P-p.s
vers 0. Le fait que
S̄n Sn
= − E(X1 ),
n n
permet de conclure la preuve du théorème.
2
4.2 Théorème de la limite centrale

Nous donnons une première version de ce théorème :
Théorème 4.2.1 Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et

supposons que les Xi soient de même loi et dans L2 (Ω, P) (c’est-à-dire de
carré intégrable, E(Xi2 ) < ∞). Notons µ = E(X1 ) et σ 2 = V ar(X1 ) (comme
les Xi sont de même loi E(Xi ) = µ et V ar(Xi ) = σ pour tout i). Alors, pour
tout intevalle I de R
Sn − nµ
Z
1 2
lim P √ ∈ I = √ e−x /2 dx.
n→∞ σ n I 2π
Une autre façon d’énoncer ce théorème est de dire que
√ Z
n Sn 1 2
lim P −µ ∈I = √ e−x /2 dx.
n→∞ σ n I 2π
En d’autres termes, Sn /n − µ converge d’après la loi forte des grans nombres
vers 0, la déviation des moyennes par rapport à l’espérance, “renormalisée”
√
par le facteur n/σ, converge dans un certain sens vers une loi gaussienne
normalisée (espérance nulle, variance égale à 1).
Avant de passer à la preuve de ce théorème, nous devons introduire
quelques notions utiles.
4.2.1 Convergence en loi

Définition 4.2.1 On dit qu’une suite de v.a (Yn )n∈N converge en loi vers
une v.a Y si et seulement si pour toute fonction continue bornée f : R → R
lim E(f (Yn )) = E(f (Y )).
n→∞
L’intérêt de cette notion réside dans la proposition suivante :
Théorème 4.2.2 Soient (Yn )n∈N une suite de v.a et Y une v.a. et notons
FYn : R → [0, 1] et FY : R → [0, 1] les fonctions de répartition des v.a Yn ,
Y :
FYn (t) = P(Yn ≤ t), FY (t) = P(Y ≤ t).
La suite (Yn )n∈N converge en loi vers Y si et seulement si en tout point t0
où FY est continue à gauche
lim FYn (t0 ) = FY (t0 ).
n→∞
Démonstration.—
i) Montrons déjà que si (Yn )n∈N converge en loi vers Y alors en tout point t0
où FY est continue à gauche FYn (t0 ) converge vers FY (t0 ). Considérons deux
suites de fonctions gp , hp : R → R qui sont définies de la façon suivante : gp est
la fonction continue : égale à 1 sur ]−∞, t0 −(1/p)], affine sur [t0 −(1/p), t0 ] et
égale à 0 sur [t0 , ∞[ ; hp est la fonction continue : égale à 1 sur ]−∞, t0 ], affine
sur [t0 , t0 + (1/p)] et égale à 0 sur [t0 + (1/p), ∞[. La suite de fonctions gp est
croissante et converge simplement vers 1]−∞,t0 [ tandis que la suite de fonctions
hp est décroissante et converge simplement vers 1]−∞,t0 ] . De l’inégalité
gp ≤ 1]−∞,t0] ≤ hp
on déduit en passant aux espérances,
E(gp (Yn )) ≤ Fn (t0 ) ≤ E(hp (Yn )).
D’après la définition de la convergence en loi E(gp (Yn )) et E(hp (Yn )) convergent
respectivement quand n tend vers l’infini vers E(gp (Y )), E(hp (Y )) et donc
d’après les inégalités précédentes
E(gp (Y )) ≤ lim inf Fn (t0 ) ≤ lim sup Fn (t0 ) ≤ E(hp (Y )). (4.1)
n→∞ n→∞
Par ailleurs, quand p tend vers l’infini, le théorème de convergence monotone,

montre que E(gp (Y )) converge vers E(1]−∞,t0 [ (Y )) = P(Y < t0 ) et E(hp (Y ))
converge vers E(1]−∞,t0 [ (Y )) = P(Y ≤ t0 ) = FY (t0 ). Comme FY est continue
à gauche en t0 on a E(1]−∞,t0 [ (Y )) = P(Y < t0 ) = P(Y ≤ t0 ) = FY (t0 ) et
en faisant tendre p vers l’infini dans (4.1) on voit que lim inf n→∞ Fn (t0 ) =
lim supn→∞ Fn (t0 ) = FY (t0 ) ce qui est le résultat annoncé.
ii) Montrons la réciproque : soit > 0 et A un réel positif tel que P(|Y | > A)
soit plus petit que /12 (exercice : un tel A existe toujours). On aura de
même si n ≥ n1 () P(|Yn | > A) ≤ /12 d’après l’hypothèse. Comme FY (t)
est croissante, elle admet un nombre au plus dénombrable de points de dis-
continuité : notons T cet ensemble. Soit f une fonction continue bornée (nous
supposerons que |f | ≤ 1 pour simplifier) : elle est uniformément continue sur
[−A, A] et on peut donc l’approcher à /6 près uniformément sur [−A, A] par
une fonction en escaliers c(x) dont on peut demander que les discontinuités
soient en dehors de T :
|(f (x) − c(x)) · 1[−A,A] | ≤ /6,
si bien que
|(f (Yn ) − c(Yn )) · 1|Yn |≤A | ≤ /6,

|(f (Y ) − c(Y )) · 1|Y |≤A | ≤ /6,
et finalement

|E f (Yn ) − c(Yn ) | ≤ /4 + 2P(|Yn | > A) ≤ /3 (4.2)

|E f (Y ) − c(Y ) | ≤ /4 + 2P(|Y | > A) ≤ /3 (4.3)
De telles fonctions c(x) sont des combinaisons linéaires de 1]−∞,t] où t ∈

/ T.
On a donc :
lim E(c(Yn )) = E(c(Y )).
n→∞
Donc dès que n est plus grand qu’un certain entier n2 () on a |E(c(Yn )) −
E(c(Y ))| ≤ /3 et en utilisant (4.2), (4.3) on voit que dès que n ≥ max(n1 (), n2 ())
|E(f (Yn ) − E(f (Y ))| ≤ ,
ce qui est ce que nous voulions démontrer.

2
Un corollaire utile du théorème précédent est le suivant
Corollaire 4.2.1 Si les Yn convergent en loi vers une v.a Y qui admet une
densité ρY alors pour tout intervalle I de R
Z
lim P(Yn ∈ I) = ρY (y)dy
n→∞ I
4.2.2 Fonctions caractéristiques

Définition 4.2.2 Si Y est une v.a.r, la fonction caractéristique de Y est la
fonction φY : R → R définie par
φY (t) = E(eitY ),
√
(où i = −1).
Remarque i) Pour t fixé la v.a eitY est bornée par 1 (puisque Y est à valeurs
réelles) et est donc intégrable.
ii) La fonction caractéristique d’une v.a ne dépend que de la loi de cette v.a.
iii) On peut démontrer (en utilisant le théorème de convergence dominée)
que la fonction caractéristique d’une v.a.r est continue et tend vers 0 en ±∞.
On peut préciser le résultat de continuité précédent :
Proposition 4.2.1 Si Y est une v.a.r intégrable, alors la fonction caractéristique

de Y est de classe C 1 (dérivable et de dérivée continue) et

0 itY
φY (t) = E (iY )e .
De même, si Y est dans Lp (Ω, P) la fonction caractéristique de Y est de

classe C p et on a
dp

p itY
φY (t) = E (iY ) e .
dtp
Démonstration.— Soit tn une suite de réels convergeant vers t. Il suffit de
démontrer que pour toute telle suite
φY (tn ) − φY (t)

itY
lim = E (iY )e .
n→∞ tn − t
Calculons, itn Y
φY (tn ) − φY (t) − eitY

e
=E .
tn − t tn − t
Pour cela, remarquons que la v.a
eitn Y (ω) − eitY (ω)

Zn (ω) = ,
tn − t
converge simplement (c’est-à-dire pour tout ω fixé) quand n tend vers l’infini
vers (itY (ω))eitY (ω) (la dérivée en s = t de s 7→ eisY (ω) ). En outre, d’après la
formule des accroissement finis, pour tout ω il existe sn,ω ∈ (t, tn ) tel que
eitn Y (ω) − eitY (ω)

= (iY (ω)eisn,ω Y (ω) ,
tn − t
et donc
|Zn (ω)| ≤ |Y (ω)|,
dès que n est assez grand. Or, le membre de droite de l’inégalité précédente
est une fonction integrable. Le théorème de convergence dominée s’applique
et on a donc
lim E(Zn ) = E((iY )eitY ).
n→∞
Ceci conclut la preuve de la proposition quand p = 1. Le cas général ne

présente pas de difficultés supplémentaires.
2
Exercice : Montrer que si Z = aY + b
φZ (t) = eitb φY (ta).
Calculons à présent les fonctions caractéristiques de certaines lois classiques.
v.a discrètes Si Y prend un nombre fini de valeurs y1 , . . . , yr et si on note

pr = P(Y = yr ) on a
φY (t) = E(eitY )
Xr
= eityk P(Y = yk )
k=1
Xr
= (eit )yk P(Y = yk )
k=1
et on reconnait (si Y est à valeurs entières) la fonction génératrice de Y au

point eit . Le calcul des fonctions caractéristiques de v.a discrètes est exacte-
ment le même que celui que nous avons effectué dans un chapitre précédent.
v.a admettant une densité ρY Dans ce cas
φY (t) = E(eitY )
Z ∞
= eity ρY (y)dy.
−∞
R∞
On habituellement ρ̂Y (t) = −∞ eity ρY (y)dy et on dit que la fonction ρ̂Y est
la transformée de Fourier de la fonction ρY
Exemple : Fonctions caractéristique d’une gaussienne Rappelons que si Z

est une v.a suivant une loi gaussienne N (µ, σ) on peut l’écrire sous la forme
Z = σY + µ où Y suit une loi gaussienne normalisée N (0, 1) de densité
1 2
ρ(y) = √ e−y /2 .
2π
On a donc
∞
1
Z
2 /2
φY (t) = √ eity e−y dy.
2π −∞
On a (cf. exercice) :
2 /2
φY (t) = e−t .
Ainsi, la fonction d’une caractéristique d’une v.a suivant une loi gaussienne
N (µ, σ) est
2 2
φZ (t) = eitµ−σ (t /2) .
Mentionnons que l’on peut étendre la notion de fonction génératrice au
cas des vecteurs aléatoires réeels.
Définition 4.2.3 Si (Y1 , . . . , Yn ) est un vecteur aléatoire, la fonction ca-

ractéristique de Y est la fonction φY : Rn → R définie par
φY (t1 , . . . , tn ) = E(ei(t1 Y1 +···+tn Yn ) ),

√
(où i = −1).
Liens avec la convergence en loi

Les fonctions caractéristiques jouent un rôle important dans les problèmes
où inteviennent des convergences en loi. Les deux théorèmes qui suivent illus-
trent ce fait.
Théorème 4.2.3 La loi d’une v.a.r (resp. d’un vecteur aléatoire) est déterminée
par sa fonction caractéristique : si Y et Z sont deux v.a.r (resp. vecteurs
aléatoires) tel(le)s que pour tout t ∈ R (resp. t ∈ Rn )
φY (t) = φZ (t),
alors la loi de Y et la loi de Z sont les mêmes : pour tout borélien A de R

(resp. de Rn ) :
P(Y ∈ A) = P(Z ∈ A).
Théorème 4.2.4 La suite de v.a.r (resp. de vecteurs aléatoires) (Yn )n∈N

converge en loi vers Y si et seulement si pour tout t ∈ R (resp. t ∈ Rn )
lim φYn (t) = φY (t).

n→∞
Démonstration.— Si Yn converge en loi vers Y , pour toute fonction f

continue bornée et en particulier pour la fonction et (y) = eity (t fixé), on
a limn→∞ E(et (Yn )) = E(et (Y )). La première partie du théorème est donc
facile.
La preuve de l’implication réciproque est plus délicate. Nous ne don-
nons donc qu’un schéma de preuve. La convergence simple des fonctions
carctéristiques est équivalente au fait que pour toute fonction f de la forme
et (y) = eity , E(et (Yn )) converge vers E(et (Y )). Il est évident que le même
résultat est vrai pour les fonctions g qui sont combinaisons linéaires finies des
fonctions et . Or, pour tout > 0, tout intervalle [−A, A] et toute fonction
continue f on peut trouver une combinaison linéaire finie g des fonctions et
telles que
sup |f (y) − g(y)| < /5,
y∈[−A,A]
On a donc
|E(f (Y )) − E(f (Yn ))| ≤ |E(f (Y )) − E(g(Y ))| + |E(g(Y )) − E(g(Yn ))|+
|E(g(Yn)) − E(f (Yn ))|
≤ (/5) + P(|Y | > A) + |E(g(Y )) − E(g(Yn ))|+
(/5) + P(|Yn | > A).
Il est clair que P(|Y | > A) tend vers 0 quand A tend vers l’infini, et que le
même résultat est vrai si l’on remplace Y par Yn n étant fixé mais il n’est pas
évident que cette convergence soit uniforme en n. Ceci est l’objet du lemme
suivant dont la démonstration sort du cadre de ce cours
Lemme 4.2.1 On a
Z 1/A
P(|Yn | ≥ A) ≤ A (1 − φYn (t))dt.
−1/A
Le théorème de convergence dominée et la continuité de φY en 0 permettent

de démontrer qu’il existe n(A, ) tel que si n ≥ n(A, )
P(|Yn | > A) ≤ /5
(et également P(|Y | > A) ≤ /5). L’inégalité précédant le lemme permet

alors de conclure.
2
Fonctions caractéristiques et indépendance

Théorème 4.2.5 Les v.a.r Y1 , . . . , Yn forment une famille de v.a indépendantes
si et seulement si
φY1 ,...,Yn (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn ).
Démonstration.— 1) Supposons tout d’abord que la famille Y1 , . . . , Yn soit

indépendantes ; on a
E(ei(t1 Y1 +···+tn Yn ) = E(eit1 Y1 · · · eitn Yn ),
et puisque la famille de v.a eit1 Y1 , . . . , eitn Yn est indépendante on a
E(ei(t1 Y1 +···+tn Yn ) = E(eit1 Y1 ) · · · E(eitn Yn ).
C’est bien la formule annoncée.

2) Réciproquement, supposons que
φY1 ,...,Yn (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn ),
et montrons que la famille Y1 , . . . , Yn est indépendante. Pour cela, rappelons

le résultat suivant : Pour toute famille de v.a Y1 , . . . , Yn (on pourrait prendre
une famille infinie), il existe des v.a Ỹ1 , . . . , Ỹn qui constituent une famille
indépendante et telles que pour tout i les lois de Ỹi et de Yi sont les mêmes.
i) Montrons que la loi du vecteur (Ỹ1 , . . . , Ỹn ) est la même que celle du vecteur
(Y1 , . . . , Yn ). Il suffit de démontrer que (Y1 , . . . , Yn ) et (Ỹ1, . . . , Ỹn ) ont même
fonctions caractéristiques. Or, comme la famille (Ỹ1 , . . . , Ỹn ) est indépendante
on a
φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φỸ1 (t1 ) · · · φỸn (tn )
et puisque Ỹi et Yi ont même loi

φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φY1 (t1 ) · · · φYn (tn )
(la fonction caractéristique ne dépend que de la loi de la v.a). On voit donc
que
φ(Ỹ1 ,...,Ỹn ) (t1 , . . . , tn ) = φ(Y1 ,...,Yn ) (t1 , . . . , tn ),
ce qu’il fallait démontrer.
ii) Par conséquent pour tous boréliens (ou même intervalles) A1 , . . . , An
P(Y1 ∈ A1 , . . . , Yn ∈ An ) = P(Ỹ1 ∈ A1 , . . . , Ỹn ∈ An )
= P(Ỹ1 ∈ A1 ) · · · P(Ỹn ∈ An )
= P(Y1 ∈ A1 ) · · · P(Yn ∈ An ),
ce qui est bien l’indépendance annoncée.
2
Nous avons également le résultat suivant
Théorème 4.2.6 Si les v.a.r X1 , . . . , Xn forment une famille indépendante

pour tout t ∈ R
φX1 +···+Xn (t) = φX1 (t) · · · φXn (t).
Démonstration.— Il suffit de constater que
φX1 +···+Xn (t) = φ(X1 ,...,Xn ) (t, . . . , t),
et d’appliquer le théorème précédent.
2
4.2.3 Démonstration du théorème de la limite centrale

Rappelons l’énoncé du théorème 4.2.1 dans la version équivalente suivante
(cf. théorème ??)
Théorème 4.2.7 Soient X1 , . . . , Xn , . . . une famille de v.a indépendantes et

supposons que les Xi soient de même loi et dans L2 (Ω, P) (c’est-à-dire de
carré intégrable, E(Xi2 ) < ∞). Notons µ = E(X1 ) et σ 2 = V ar(X1 ) (comme
les Xi sont de même loi E(Xi ) = µ et V ar(Xi) = σ 2 pour tout i). Alors, la
suite de v.a
Sn − nµ
√
σ n
√ 2
converge en loi vers une loi normale N (0, 1) (de densité (1/ 2π)e−x /2 ).
Nous avons suffisamment d’outils pour démontrer le théorème de la limite

centrale. Soient donc X1 , . . . , Xn , . . . une famille indépendante de v.a qui sont
de même loi et de carré intégrable. Nous posons µ = E(X1 ) et σ = V ar(X1 ).
Notons Sn = X1 + · · · + Xn , Σn = (X1 − µ) + · · · + (Xn − µ) et posons
Sn − nE(X1 ) Σn
Zn = √ = √ .
σ n σ n
La formule de l’exercice du début de la section 4.2.2 montre que

t
φZn (t) = φΣn √ ,
σ n
et comme Σn est la somme des v.a indépendantes Xi − µ, 1 ≤ i ≤ n et que
ces v.a ont même loi :
φΣn (t) = φX1 −µ (t)n .
Si on pose φ(t) = φX1 −µ (t) on a donc
n
t
φZn (t) = φ √ .
σ n
Puisque la v.a est de carré intégrable la fonction φ est de classe C 2 . Par
ailleurs,
φ(0) = E(1), φ0 (0) = iE(X1 − µ), φ00 (0) = −E((X1 − µ)2 ),
c’est-à-dire
φ(0) = 1, φ0 (0) = 0, φ00 (0) = −σ 2 .
D’après la formule de Taylor
σ2 2
φ(t) = 1 − t + o(t2 ),
2
et donc pour t fixé
2
σ2 √ 2 n

t
φZn (t) = 1 − √ + o((t/(σ n)) ) ,
2 σ n
ou encore n
t2

1
φZn (t) = 1− + o( ) .
2n n
Pour n suffisamment grand, 1 −(t2 )/(2n) + o(1/n) est dans la boule de centre
1 et de rayon 1/2 et on peut écrire
t2

1
φZn (t) = exp n log 1 − + o( ) ,
2n n
4.3. QUELQUES REMARQUES SUR LES DIVERSES NOTIONS DE CONVERGENCE85
où log est la détermination principale du logarithme dans le plan complexe

(qui admet le même développement en série que le logarithme réel). On a
donc 2
t 2
φZn (t) = exp − + o(1) = e−(t /2) + o(1),
2
et partant,
2 /2
lim φZn (t) = e−t .
n→∞
On reconnait dans le membre de droite la fonction caractéristique d’une v.a

gaussienne normalisée et le théorème 4.2.4 montre que Zn converge en loi
vers une loi gausienne normalisée.
4.3 Quelques remarques sur les diverses no-

tions de convergence
Nous avons rencontré diverses notions de convergence et il est bon de
dégager une hierarchie entre ces notions.
Proposition 4.3.1 a) La convergence p.s et la convergence en moyenne im-

pliquent la convergence en probabilité ; la convergence en probabilité (et donc
la convergence p.s et la convergence en moyenne) implique la convergence en
loi.
b) S’il existe une constante A telle que |Xn | ≤ A la convergence en probabilité
de Xn est équivalente à sa convergence en moyenne.
Chapitre 5
Espérance conditionnelle
Dans tout ce qui suit (Ω, B, P) est un espace probabilisé fixé.
5.1 Probabilités conditionnelles

Définition 5.1.1 Si A et Bsont deux évenements de la tribu Bet si P(B) >
0 on définit la probabilité de A sachant B comme étant
P(A ∩ B)
P(A|B) = .
P(B)
En fait tout évenement B ∈ B définit une nouvelle probabilité sur (Ω, B) :
Proposition 5.1.1 Si B ∈ B est tel que P(B) > 0, l’application PB : B →

[0, 1] qui à A ∈ B associe PB (A) = P(A|B) est une probabilité.
La preuve de cette proposition est laissée en exercice au lecteur.

Supposons à présent que nous ayons une partition de Ω en évènements
B1 , . . . , Br (c’est-à-dire que les évènements B1 , . . . , Br sont disjoints deux à
deux et que leur union soit égale à Ω) et que pour tout i P(Bi ) > 0. On peut
donc définir r probabilités P(·|Bi ).
Théorème 5.1.1 (Formule des causes) Sous les hypothèses précédentes
r
X
P(A) = P(A|Bi )P(Bi).
i=1
87
88 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE
Démonstration.— Il suffit de remarquer que A est l’union disjointe des

(A ∩ Bi ) et donc
r
X
P(A) = P(A ∩ Bi )
k=1
r
X P(A ∩ Bi )
= · P(Bi )
i=1
P(Bi)
ce qui est la formule annoncée.

2
Dans la pratique un problème courant est de calculer P(Bi |A) connaissant
les P(A|Bj ).
Théorème 5.1.2 (Formule de Bayes) Sous les hypothèses précédentes :
P(A|Bi )P(Bi )
P(Bi |A) = Pr .
i=1 P(A|Bj )P(Bj )
Démonstration.— Il suffit d’écrire
P(Bi ∩ A) P(A|Bi )P(Bi)

P(Bi |A) = = ,
P(A) P(A)
et d’utiliser la formule des causes.

2
5.2 Espérance conditionnelle : cas discret

Espérance sachant un évènement Supposons fixé B ∈ B un évènement
tel que P(B) > 0. On sait que P(·|B) est une probablilité sur (Ω, B) et
on obtient donc un espace probabilisé (Ω, B, P(·|B)). Pour toute variable
aléatoire Y : Ω → R on peut définir E(Y |B) comme étant l’espérance de Y
sur l’espace probabilisé (Ω, B, P(·|B)).
Dans le cas où par exemple Y prend un nombre fini de valeurs y1 , . . . , ym
on a
Xm
E(Y |B) = yk P(Y = yk |B).
k=1
5.2. ESPÉRANCE CONDITIONNELLE : CAS DISCRET 89
Loi conditionnelle d’une v.a sachant un évènement
Définition 5.2.1 La loi de la v.a Y vue comme v.a sur l’espace probabilisé
(Ω, B, P(·|B) que nous appelerons la loi conditionnelle de Y sachant B et
noterons p(y|B) est
p(y|B) = P(Y = y|B).
Espérance sachant une tribu (finie) On suppose fixée une partition

B1 , . . . , Br de Ω et on fait l’hypothèse que pour tout i, P(Bi) > 0. Considérons
F la plus petite tribu engendrée par les ensembles B1 , . . . , Br .
Exercice : Montrer que F est l’ensemble des unions finies de Bi :
[
F = { Bi : J ⊂ {1, . . . , r}}.
i∈J
Définition 5.2.2 Si Y : Ω → R est une v.a, on définit l’espérance de Y par

rapport à la tribu (finie) F comme étant la variable aléatoire E(Y |F ) :
Ω → R valant E(Y |Bi ) sur Bi :
r
X
E(Y |F ) = E(Y |Bk ) · 1Bk .
k=1
Espérance suivant une v.a Supposons à présent que X : Ω → R soit

une v.a ne prenant qu’un nombre fini de valeurs x1 , . . . , xr et notons Bi =
X −1 (xi ), 1 ≤ i ≤ r. et F (ou encore F (B1 , . . . , Br )) la tribu engendrée par
les Bi . Nous supposerons que pour tout i, P(X = xi ) > 0.
Définition 5.2.3 On définit l’espérance conditionnelle de Y sachant X comme

étant la variable aléatoire E(Y |X) : Ω → R définie par E(Y |X) =
E(Y |F (X = x1 , . . . , X = xr ). On a donc
r
X
E(Y |X)(ω) = E(Y |X = xk ) · 1X=xk .(ω).
k=1
(C’est la fonction qui associe à ω E(Y |X = xk ) si X(ω) = xk .)

Mentionnons la propriété suivante évidente mais importante
Proposition 5.2.1 Si on note ψ la fonction ψ(x) = E(Y |X = x) on a
E(Y |X) = ψ(X),
(c’est une égalité entre v.a).

Loi conditionnelle de Y sachant X Pour tout x ∈ X(Ω) on peut définir

la loi conditionnelle de Y sachant l’évènement (X = x).
Définition 5.2.4 On appelle loi conditionnelle de Y sachant X = x la

loi conditionnelle de Y sachant l’évènement (X = x) et nous la noterons
pY |X (y|x) :
pX,Y (x, y)
pY |X (y|x) = P(Y = y|X = x) = ,
pX (x)
où on a noté pX,Y la loi du couple (X, Y ) et pX la loi de X
Relation entre espérance conditionnelle et loi conditionnelle
Proposition 5.2.2 On a
m
X
E(Y |X = x) = yl pY |X (yl |x).
l=1
Propriété de l’espérance conditionnelle On a alors
Théorème 5.2.1 On a
E(E(Y |X)) = E(Y ).
Démonstration.— Il suffit de calculer
E(E(Y |X)) = E(ψ(X))

Xr
= E(Y |X = xk )P(X = xk )
k=1
r X
X m
= yl P(Y = yl |X = xk )P(X = xk )
k=1 l=1
m X
X r
= yl P(Y = yl |X = xk )P(X = xk )
l=1 k=1
m
X
= P(Y = yl )
l=1
= E(Y )
(on a utilisé la formule des causes).

2
5.3. CAS DES V.A ADMETTANT DES DENSITÉS 91
Remarque : L’espérance conditionnelle E(Y |X) est linéaire par rapport à

Y.
Exercice : Démontrer que si X, Y sont des v.a ne prenant qu’un nombre fini
de valeurs E(f (X, Y )|X) = ψ(X) où
m
X
ψ(xk ) = f (xk , yl )pY |X (yl |xk ).
l=1
Exercice : Soient X et Y deux v.a indépendantes qui suivent des lois de

Poisson de paramètres respectifs λ et µ. Soit S = X + Y
a) Déterminer la loi de S
b) Calculer l’espérance conditionnelle E(X|S).
(Réponse : a) S suit une loi de Poisson de paramètre λ + µ ; b) E(X|S) est
la variable aléatoire S · λ/(λ + µ))
5.3 Cas des v.a admettant des densités

Supposons donnée deux v.a Y et X telles que le couple (X, Y ) admette
une densité ρX,Y . Les v.a X et Y admettent donc des densités respectives ρX
et ρY égales à :
Z ∞ Z ∞
ρX (x) = ρX,Y (x, y)dy, ρY (y) = ρX,Y (x, y)dx.
−∞ −∞
Nous supposerons dans toute la suite que ρX (x) > 0 pour tout x.
Nous allons définir l’espérance E(Y |X) en nous inspirant de la définition
5.2.4, de la proposition 5.2.2 et de la proposition 5.2.1.
Définition 5.3.1 Nous appelerons densité conditionnelle de Y sachant X =

x la fonction ρY |X (y|x) définie par
ρX,Y (x, y)
ρY |X (y|x) = .
ρX (x)
Définition 5.3.2 L’espérance de Y sachant X = x est la fonction de x ∈ R
Z
E(Y |X = x) = yρY |X (y|x)dy.
R
Définition 5.3.3 L’espérance conditionnelle E(Y |X) est la variable aléatoire

E(Y |X) = ψ(X),
où ψ(x) = E(Y |X = x).
Exercice : Soient X, Y deux v.a dont la loi du couple (X, Y ) admet une
densité égale à ρX,Y (x, y) = (1/x) · 1T (x, y) où T est le triangle T = {0 <
y < x < 1}. Calculer E(Y |X).
Solution : La densité de X se calcule en intégrant ρX,Y (x, y) par rapport à
y ∈ R. On trouve ρX (x) = 1]0,1[ (x) et donc pour x ∈]0, 1[
1
ρY |X (y|x) = 1]0,x[ (y).
x
On trouve ψ(X) = E(Y |X = x) = (x/2) et donc E(Y |X) = ψ(X) = X/2.
On a encore le théorème important suivant
Théorème 5.3.1
E(E(Y |X)) = E(Y ).
Démonstration.— Notons ψ(x) = E(Y |X = x). Comme par définition
E(Y |X) = ψ(X), la formule de transfert donne
Z
E(E(Y |X)) = E(ψ(X)) = ψ(x)ρX (x)dx
R
Z Z
= yρY |X (x, y)dy ρX (x)dx
R R
Z Z
ρX,Y (x, y)
= y dy ρX (x)dx
R R ρX (x)
et comme d’après le théorème de Fubini on peut intervertir l’ordre d’intégration :
Z Z
ρX,Y (x, y)
E(E(Y |X)) = ρX (x)dx ydy
R R ρX (x)
Z
= ρY (y)ydy
R
= E(Y ).
2
Exercice : Démontrer que E(Y g(X)|X) = g(X)E(Y |X).
On a l’analogue suivant du théorème de transfert que nous donnons sans
démonstration (comparer avec la définition 5.3.2) :
Théorème 5.3.2 Si Z = f (X, Y ) on a E(f (X, Y )|X) = ψ(X) où

Z
ψ(x) = f (x, y)ρY |X (y|x)dy.
R
5.4. INDÉPENDANCE 93
Remarque : L’espérance conditionnelle E(Y |X) est linéaire par rapport à

Y.
Exercice : Démontrer que si on prend l’énoncé du théorème précédent
comme définition de E(f (X, Y )|X) on a bien E(f (X, Y )) = E(E(f (X, Y )|Y )).
5.4 Indépendance
Considérons à présent le cas où les v.a X et Y sont indépendantes. Dans
ce cas on sait que
pX,Y (x, y) = pX (x)pY (y),
dans le cas discret et
ρX,Y (x, y) = ρX (x)ρY (y)
dans le cas continu. Par conséquent
pY |X (y|x) = pY (y)
dans le cas discret et

ρY |X (y|x) = ρY (y)
dans le cas continu. On a donc dans les deux cas
Proposition 5.4.1 Si X et Y sont indépendantes
E(Y |X) = E(Y )
ou en d’autres termes, la variable aléatoire E(Y |X) est constante.

Dans la pratique on a souvent à calculer des espérances de v.a de la forme
Z = f (X, Y ) où X et Y sont des v.a indépendantes. Il est souvent utile pour
cela de conditionner Z par rapport à une des variables (disons X) c’est-à-dire
de faire le calcul en deux étapes :
i) On introduit la v.a E(Z|X) = E(f (X, Y )|X) ;
ii) On utilise ensuite la relation E(Z) = E(E(Z|X)).
Pour l’étape i) on dispose de la proposition suivante :
Proposition 5.4.2 Soient X et Y deux v.a indépendantes. Notons pour x ∈

R, Yx la variable aléatoire Yx = f (x, Y ) (c’est-à-dire l’application de Ω → R
telle que Yx (ω) = f (x, Y (ω))) et soit F : R → R l’application définie par
F (x) = E(Yx ) (F (x) = E(f (x, Y ))). On a
E(f (X, Y )|X) = F (X).

Démonstration.—
Nous faisons la démonstration dans le cas de v.a admettant des densités
(le cas discret se traite de la même façon). Notons Z = f (X, Y ). On a d’après
le théorème 5.3.2
E(Z|X) = ψ(X)
où
Z
ψ(x) = f (x, y)ρY |X (y|x)dy
ZR
= f (x, y)ρY (y)dy
R
= E(Yx )
= F (x).
On a donc bien la conclusion.

2
Exercice : Soient N, X1 , . . . , Xn , . . . une famille indépendante de v.a de
même loi, intégrables et à valeurs dans N∗ . Soit S la v.a
X
S= Xi .
1≤i≤N
Calculer E(S).
Solution : On calcule d’abord E(S|N) et pour cela on évalue ψ(n) = E(S|N =
n).
X
E(S|N = n) = E(Xi |N = n)
1≤i≤n
X
= E(Xi ) = nE(X1 ).
1≤i≤n
On a donc E(S|N) = E(X1 ) · N. On utilise ensuite la formule E(S) =

E(E(S|N)) et on trouve E(S) = E(X1 )E(N).

LM345 - Probabilités Et Statistiques

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

LM345 - Probabilités Et Statistiques

Uploaded by

Copyright:

Available Formats

Probabilités et Statistiques

1 Rappels de théorie des ensembles 5

2 Espaces Probabilisés et variables aléatoires 13

3 Vecteurs aléatoires et Indépendance 51

4 Sommes de variables aléatoires indépendantes 71

Rappels de théorie des

Nous rappelons dans ce chapitre quelques notions élémentaires de théorie

1.1 Opérations sur les ensembles

Si A1 , . . . , An sont des ensembles on peut définir le produit cartésien de

1.2 Applications entre ensembles

Si f est une application de E dans F on définit pour tout B ⊂ F l’ensemble

Attention le comportement par image directe n’est pas aussi bon.

Solution. i) Pour tout ensemble F ⊂ E

On a donc bien la conclusion.

et en sommant sur e ∈ E on obtient bien la formule annoncée.

Cardinal d’un produit. Si A1 , . . . , An sont des ensembles finis le cardinal

#(A1 × · · · × An ) = (#A1 ) · · · (#An ).

Cardinal de l’ensemble des applications de A dans B. Si A et B

Nombre d’injections entre deux ensmbles finis. Si A et B sont deux

En effet, supposons A = {a1 , . . . , ap } ; si p > n, il ne peut y avoir d’appli-

Nombre de bijections de A vers A. Si A est un ensemble de cardinal n,

Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensembles

Nombre de sous-ensembles de cardinal p d’un ensemble à n éléments.

En effet, un sous-ensemble {a1 , . . . , ap } de E peut être vu comme un p-

Cardinal et fonctions caractristiques Si A ⊂ E on a

ExerciceUne urne contient N boules noires et M boules blanches.

xi ∈ {1, . . . , N + M}). Il y a donc (N + M) · · · (N + M − n + 1) tirages

choix possibles, c’est-à-dire

choix possibles. Remarquons que la proportion du nombre de tirages avec

Proposition 1.4.1 Si A et B sont deux ensembles.

Théorème 1.4.1 a) Si A1 , . . . , An sont des ensembles dénombrables, le pro-

Corollaire 1.4.1 L’ensemble des entiers relatifs Z et l’ensemble des nombres

Théorème 1.4.2 L’ensemble des nombres réels R n’est pas dénombrable.

Corollaire 1.4.2 L’ensemble des nombres irrationnels n’est pas dénombrable.

2.1 Espace probabilisé

Définition 2.1.1 Une tribu ou encore une σ-algèbre de Ω est un ensemble

est également dans B.

1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus :

2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {∅, {1}, {2, 3}, Ω} est une

3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitué des

Proposition 2.1.1 Soit Ω un ensemble et S un sous-ensemble de parties

recommandons au lecteur de vérifier ce point). Ainsi, B est une tribu conte-

où l’égalité précédente signifie la chose suivante : la probabilité P(∪i∈N Ai )

Remarque L’intérêt d’autoriser la stabilité par unions (intersections) dénombrables

Proposition 2.1.2 Soit (Ω, B, P) un espace probabilisé.

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Proposition 2.1.3 a) Si Ai , i ∈ N est une famille croissante d’éléments

b) Si Ai , i ∈ N est une famille décroissante d’éléments de B dont l’union est

c) Si Ai , i ∈ N est une famille dénombrable d’ensembles appartenant à B on

(où le membre de droite de l’inégalité précédente qui est la limite de la suite

ou encore, puisque les Bk sont disjoints deux à deux

ce qui établit la preuve de a).

et comme P(Cn ) ≤ P(An ) (puisque Cn ⊂ An ) on obtient la conclusion du c).

Probabilités sur un ensemble fini

Comme cette union est disjointe et finie on a

Si Ω = {c1 , . . . , cn } et si on note pi = P({ci}) on a

Remarquons que les pi sont dans [0, 1] et vérifient

est une probabilité

Exercice : Démontrer l’énoncé précédent.

Probabilités uniformes et lien avec la combinatoire Un cas important

Jeu de n Pile ou Face On se propose de modéliser un jeu où l’on lance n

n-uplet ω = (ω1 , . . . , ωn ) chaque ωi , 1 ≤ i ≤ n appartenant à l’ensemble à

B = {ω = (ω1 , . . . , ωn ), ∃i ∈ {1, . . . , n} ωi = 1}.