You are on page 1of 81

Université des Sciences et Technologies de Lille

U.F.R. de Mathématiques Pures et Appliquées

M306 : Intégration et Probabilités
Elémentaires

Notes de cours par Clément Boulonne

L3 Mathématiques 2008 - 2009
Table des matières

1 Dénombrer et sommer 5
1.1 Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Ensembles dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Ensembles non dénombrables . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Sommabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Motivations, rappels sur les séries . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Familles sommables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Series doubles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Evénements et Probabilités 21
2.1 Notions de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Vocabulaire probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Probabilité comme mesure . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Ω fini ou dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2 Du fini à l’infini non dénombrable . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Le cas Ω = R, F = B(R) . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.4 Probabilité uniforme / conditionnelle . . . . . . . . . . . . . . . . . . . . 31
2.4 Probabilité conditionnelle et indépendance . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3 Variables aléatoires réelles 36
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.3 Fonctions de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.4 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Lois discrètes classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Définitions et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.2 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2
3

4 Espérance d’une variable aléatoire 50
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Espérence de variables aléatoires réelles positives . . . . . . . . . . . . . . . . . . 51
4.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3 Espérance d’une variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . 59
4.3.1 Définitions et généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.1 h-moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.2 Moments d’ordre r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Vecteurs aléatoires et indépendance 68
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2.2 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.3 Vecteurs aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.4 h-moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2.5 Covariance et variance d’une somme . . . . . . . . . . . . . . . . . . . . 73
5.3 Indépendance de variables et vecteurs aléatoires . . . . . . . . . . . . . . . . . . 75
5.3.1 Suites indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.2 Composantes indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.3 Loi d’une somme de variables aléatoires indépendantes . . . . . . . . . . 77
5.3.4 Indépendance et espérance de produit . . . . . . . . . . . . . . . . . . . . 79
5.3.5 Indépendance, variance et covariance . . . . . . . . . . . . . . . . . . . . 80
5.4 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Références

Certaines parties du cours ont été recopiées des polycopiés de cours suivant :
1) Ch. Suquet, Introduction au Calcul des Probabilités, 2007-2008
2) Ch. Suquet, Intégration et Probabilités Elémentaires, 2008-2009
Les cours sont téléchargeables sur le site IPEIS (Intégration, Probabilités Elémentaires et
Initiation à la Statistique) de l’Université Lille 1.

4
Chapitre 1

Dénombrer et sommer

1.1 Dénombrabilité
1.1.1 Motivation
Définition 1.1.1. Soit E un ensemble non vide, on dit que E est fini si il existe n ∈ N∗ tel
que E est en bijection avec {1, ..., n}. n est unique et card(E) = n.

Problème. Soit E =]0, 1[ et F =]1, +∞[ deux ensembles infinies. E et F contiennent-ils
"autant" d’éléments ?

Y-a-t-il "autant" de droites en dessous et au dessus de la diagonale ?

Définition 1.1.2. E est infini s’il existe une injection de N dans E.

Définition 1.1.3. Deux ensembles ont le même cardinal (fini ou infini) s’ils sont en bijection.

1.1.2 Ensembles dénombrables
Définition 1.1.4. Un ensemble E est dit dénombrable s’il existe une bijection de E sur N, au
plus dénombrable s’il est fini ou dénombrable.

Exemple 1.1.1. • N est dénombrable.
• 2N est dénombrable car :

f : N → 2N
est une bijection
n 7→ 2n

5
6 Chapitre 1. Dénombrer et sommer

• N2 est dénombrable. On construit :
f : N2 → N
(i+j)(i+j+1)
(i, j) ∈ N 7→ 2
+j

Sur l’axe des abscisses, on a :
n−1
X n(n + 1) (i + j)(i + j + 1)
(k + 1) = = (1.1)
k=0 2 2

et pour un point quelconque, on ajoute à (1.1) la valeur j. On démontre
  que f est bijective.
2 n(n+1)
Soit l ∈ N, on veut (i, j) ∈ N tel que f (i, j) = l, la suite 2
est strictement
n∈N
croissante, il existe un unique 1 n = n(l) tel que :
n(n + 1) (n + 1)(n + 2)
≤l<
2 2
alors on définit :
n(n + 1)
j =l−
2
2
et i = n − j. On peut vérifier que f (i, j) = l .
Proposition 1.1.1. Toute partie infinie d’un ensemble dénombrable est dénombrable.
Démonstration. Soit E un ensemble dénombrable et A une partie infinie de E.
• Si E = N, on a A ⊂ N. Comme A est une partie non vide de N, on a un plus petit élément
pour a0 . On définit donc a0 = min{a ∈ A}. On définit par récurrence :

ak = min A\{a0 , a1 , ..., ak−1 } car A\{a0 , a1 , ..., ak−1 } est non vide car A est infinie

On a ainsi :
f : N → A
n 7→ an
f est bijective car :
– f est injective car f strictement croissante.
– f est surjective car si m ∈ A et n = card({a ∈ A, a < m} = {a0 , ..., an−1 } alors
f (n) = m.
1
prouve l’injectivité
2
prouve la surjectivité
Chapitre 1. Dénombrer et sommer 7

• Si E quelconque, alors il existe g : E → N. On a : A ⊂ E, on définit alors g̃ = g|A : A → N.
g(A) est une partie infinie de N donc elle est dénombrable donc il existe une bijection
h : g(A) → N. On a ainsi :
h ◦ g̃ : A → N bijection
donc A est dénombrable.

Conséquence (Contraposée de la Proposition 1.1.1.). Si A est une partie infinie non dénom-
brable d’un ensemble E alors E est non dénombrable.

Proposition 1.1.2. Un ensemble E est au plus dénombrable si et seulement il existe une
injection de E dans N.

Démonstration. (⇐) ϕ : E → N injective. On a ϕ(E) ⊂ N
• si ϕ(E) est fini alors E est fini.
• si ϕ(E) est infini, d’après la Proposition 1.1.1., ϕ(E) est une partie infinie de N donc
dénombrable. Donc : il existe ψ : ϕ(E) → N bijective. On regarde ψ ◦ ϕ : E → N et on
a que ψ ◦ ϕ est bijective.

Proposition 1.1.3. Le produit cartésien d’une famille finie d’ensembles au plus dénombrables
non vide est au plus dénombrable. Ce produit est dénombrable dès qu’un ensemble de cette
famille est dénombrable.

Démonstration. Soit E1 , ..., Ek la famille finie des ensembles au plus dénombrables et on note

E = E1 × E2 × ... × Ek = {(x1 , ..., xk ), xi ∈ Ei , 1 ≤ i ≤ k}

• E1 = E2 = ... = Ek = N, Nk est dénombrable. Par récurrence, on vérifie cette proposition :

(Pk ) : il existe ϕk : Nk → Nk+1 bijective

Initialsation : ϕ1 : N → N2 a été construit dans l’Exemple 1.1.1..
Héréditié : si on a vérifie (Pk ) est vérifie pour k ∈ N∗ , c’est-à-dire :

ϕk = Nk → Nk+1 bijective

on définit :
ϕk+1 : Nk+1 → Nk+2
pour n ∈ Nk , m ∈ N
(n, m) 7→ (ϕk (n), m)
On vérifie que ϕk+1 est bijective. Ainsi ∀k ∈ N, on a vérifié la validité de (Pk ). On a ainsi :

ϕk−1 ◦ ϕk−2 ◦ ... ◦ ϕ1 : N → Nk bijective

car tous les ϕk sont bijectives. Donc Nk est dénombrable.
• Cas général : soit 1 ≤ i ≤ k, on définit :

fi : Ei → N injective

et :
f : E → Nk
(x1 , ..., xk ) 7→ (f1 (x1 ), ..., fk (xk ))
8 Chapitre 1. Dénombrer et sommer

f est injective car si x, x0 ∈ E tel que f (x) = f (x0 ), on aura :

(f1 (x01 ), ..., fk (x0k )) = (f1 (x1 ), ..., fk (xk ))

⇔ ∀i ∈ {1, ..., k}, fi (x0i ) = fi (xi )
⇒ x0i = xi 3
donc x = x0 . On définit :
ϕ
→ Nk |{z}
f : E |{z} −→k
N
injective surjective

On a ainsi :
ϕk ◦ f : E → N injective
donc E est au plus dénombrable.

Exemple 1.1.2. Q est dénombrable car il s’injecte dans N∗ ×Z par l’unicité de la décomposition
x ∈ Q, il existe un unique couple (p, q) ∈ Z × N∗ tel que :
p
x = , PGCD(p, q) = 1
q
Or : Z × N∗ est dénombrable ⇒ Q est au plus dénombrable. N ⊂ Q ⇒ Q est infini donc
dénombrable.
Proposition 1.1.4. Soit J un ensemble
[ d’indices au plus dénombrable et (Aj )j∈J des ensembles
au plus dénombrables alors A = Aj est au plus dénombrable.
j∈J

Démonstration. Soit J = {j0 , j1 , ..., jn , ...} un ensemble non vide. Soit fj : Aj → N injective.
On construit une suite (A0j )j∈J d’ensembles deux à deux disjoints tel que :

A0j
[
A=
j∈J

On a ainsi :
A0j0 = Aj0 , A0j1 = Aj0 \Aj0
k−1
∀k ⊂ N, A0jk = Ajk
[
Aji
i=0

On montre que les (A0jk )k∈N sont disjoitns. On prend x ∈ A0jk ∩ A0jl pour k < l. Donc :
l−1
!
x ∈ A0jl = A0jl \
[
Aji
i=0

l−1
[
donc x 6∈ Aji , en particulier : x 6∈ Ajk . Or x ∈ A0jk ⊂ Ajk impossible. Donc : A0jl ∩ A0jk = ∅.
i=0
On montre ensuite que :

[
A= Ajk
k=0
En particulier :
A0jk
[ [
Ajk =
k∈N k∈N

3
par injectivité des fi
Chapitre 1. Dénombrer et sommer 9

• A0jk ⊂ Ajk ⇒ A0jk ⊂
[ [
Ajk = A
k∈N [k∈N
A0jk . Soit x ∈ A =
[
• On montre que A ⊂ Ajk et soit l = l(x) = min{k ∈ N, x ∈
k∈N
[ k∈N
Ajk } ⇒ x ∈ Ajl et x ∈ Ajk .
k∈N
A0j et A0j
[
On construit fj : Aj → N injective et f : A → J × N. Soit x ∈ A. Comme A =
j∈J
disjoint, il existe j = j(x) unique tel que x ∈ A0j(x) :
f (x) = (j(x), fj(x) (x))
f est injective car si f (x) = f (x0 ) alors (j(x), fj(x) (x)) = (j(x0 ), fj(x0 ) (x0 )) ⇒ j(x) = j(x0 ) =
j et fj (x) = fj (x0 ) 4 ⇒ x = x0 .
On a que : J ×N est dénombrable et f : A → J ×N injective donc A est au plus dénombrable.

Exemple 1.1.3. L’ensemble des points de discontinuités d’une fonction réglée sur [a, b] est au
plus dénombrable.
Rappel. f : [a, b] → R est dite réglée si elle est limite uniforme de fonction en escalier sur [a, b].
fn : [a, b] → R. On note :
• Dn : l’ensemble des points de discontinuité de fn (Dn fini)
• Df : l’ensemble des points de discontinuité de f .
On a ainsi : [
Df ⊂ Dn
n∈N

est au plus dénombrable (par la Proposition 1.1.4.).

1.1.3 Ensembles non dénombrables
Proposition 1.1.5. L’ensemble {0, 1}N (ensembles des suites à valeurs dans {0, 1}) est infini
non dénombrable.
Démonstration. Supposons qu’il soit dénombrable après {0, 1}N = {xn , n ∈ N}. On a donc :
xn = xn0 , xn1 , ..., xnk , ... = (xnk )k∈N
On note :
y ik = 1 − x ik
et on construit :
yn = y00 , y11 , ..., ynn , ...
et on voit que yn+1 6= xi , ∀i ∈ {1, ..., n} et yn ∈ {0, 1}N . Contradiction !

4
fj injective
10 Chapitre 1. Dénombrer et sommer

Proposition 1.1.6. Les ensembles suivants sont infinies et non dénombrables :
1) P(N) (ensemble des parties de N).
2) le segment [0, 1]
3) R, C, Rd , Cd
Démonstration. 1) Soit :
ϕ : P(N) → {0, 1}N
A 7→ 1(A)
tel que : (xi )i∈N : 
1si i ∈ A
xi = 
0 sinon
On a ϕ est bijective :
ϕ−1 (x) = {i ∈ N tel que xi = 1}
2) Soit :
f : {0, 1}N → [0, 1]

X xk
(xk )k∈N 7 → k+1
k=0 3
xk
• f (x) ∈ [0, 1] et f (x) ≥ 0 car 3n+1
≥0:
∞ ∞
X xk X 1 1 1 1
f (x) = n+1
≤ k+1
= 1 =
k=0 3 k=0 3 31− 3
2

• Soit x, x0 ∈ {0, 1}N tel que x 6= x0 , x = (xk )k∈N , x0 = (x0k )k∈N et l = min{k ∈ N, xk 6= x0k }.
On suppose xk = 1 et x0k = 0. On regarde f (x) − f 0 (x) :

xl − x0l X xk − x0k
− (∗)
3k+1 k=l+1 3
n+1

Or : xk − x0k ≥ −1, donc :
∞ ∞
X xk − x0k X 1 1 3 1 1
− n+1
≥ − n+1
= l+2 × = − l+1
k=l−1 3 k=l+1 3 3 2 23

Donc :
11 1 1 1
(∗) = − = >0
3l+1
23 l+1 2 3l+1
⇒ f (x) 6= f (x0 ) donc f injective. Donc f ({0, 1}N ) est une partie infinie non dénombrable
de [0, 1].
– Construire une bijection de ]a, b[ dans R.

1.2 Sommabilité
1.2.1 Motivations, rappels sur les séries
Trois notions de convergence de série
Rappel. Soit (un )n∈N , un ∈ R ou C :
Chapitre 1. Dénombrer et sommer 11

• convergence de série : convergence des sommes partielles.

X
• convergence absolue : convergence de |un |.
n=0

X
• convergence commutative : si ∀f : N → N bijective, on a : uf (n) converge.
n=0

Proposition 1.2.1.

convergence absolue 

m ⇒ convergence

convergence commutative 

Exemple 1.2.1 (Convergence ; Convergence commutative ou absolue). Soit :
(−1)n
un =
n+1
On a : ∞
X (−1)n
n=0 n + 1
convergente mais elle n’est pas absolument convergente ou commutativement convergente car
on peut construire f : N → N tel que :

X
uf (n)
k=0
diverge. On a :
0 1 2 3 4 5 6 7 8 9
+ − + − + − + − + −
f (0) = 0 f (1) = 1 f (2) = 2 f (3) = 3 f (4) = 5 f (5) = 4 f (6) = 7 f (7) = 9 f (8) = 11 f (9) =
+ − + − + − − + − −
A l’étape : p : 1 > 0, 2p−1 < 0. Donc :
+∞
X
uf (n) diverge
n=0
n
X + P+∞
Remarque. Séries à termes positifs : Sn = admet toujours une limite dans R donc k=0 uk
k=0
+
a une sens dans R .

X
Notation. • uk a un sens si convergence.
X k=0
• uk a un sens si l’ordre ne compte pas (convergence commutative).
k∈N

1.2.2 Familles sommables
Notation. Soit (ui )i∈I avec I un ensemble d’indices infini et ui ∈ R ou C (ou plus généralement
dans un espace vectoriel normé et complet E 5 ). On notera :
X
SK = ui
i∈K

si K ⊂ I fini.
5
mais il faudra remplacer | · | par k · k
12 Chapitre 1. Dénombrer et sommer

Définition et propriétés
Définition 1.2.1. La famille (ui )i∈I est sommable de somme S, si ∀ε > 0, ∃J fini ⊂ I tel que
∀K fini tel que J ⊂ K ⊂ I, on a : |S − SK | < ε.

X
Remarque. Si I = N et (ui )i∈N sommable alors la série ui est convergente car ∃J fini ⊂ N
i=0
tel que en posant N = max J alors :
n
X
∀n ≥ N, ui = SK
i=0

et K = {0, ..., n} ⊃ {0, ..., N } ⊃ J.
(−1)k
Attention ! La réciproque est fausse. On peut prendre uk = k+1
qui n’est pas une série
sommable.
Propriété 1.2.2 (Unicité de la somme). La somme S d’une famille sommable est unique.
Démonstration. (ui )i∈I est sommable de somme S et S 0 :

∃J fini ⊂ I tel que ∀K fini ⊃ J, |S − SK | < ε
∀ε > 0 :  (∗)
∃J fini ⊂ I tel que ∀K fini ⊃ J 0 , |S 0 − SK | < ε
0

|S − S 0 | ≤ |S − SK | + |SK − S 0 | ≤ 2ε (∀ε > 0) ⇒ S = S 0

Propriété 1.2.3 (Invariance par permutation). Si ϕ : I → I est bijective et (ui )i∈I est som-
mable de somme S alors (uϕ(i) )i∈I est sommable de somme S
Démonstration. On veut montrer que ∀ε > 0, ∃J 0 fini ⊂ I, ∀K 0 ⊃ J 0 avec K 0 fini, on a :


X

uϕ(i) − S <ε
i∈K 0
or : X X
uϕ(i) = ul = Sϕ(K 0 )
i∈K 0 l∈ϕ(K 0 )

On pose J 0 = ϕ−1 (J), ∀K 0 fini ⊃ J 0 , ϕ(K 0 ) ⊃ ϕ(J 0 ) = J. Donc : |Sϕ(K 0 ) − S| < ε.
P
Remarque. Si I = N et (ui )i∈N est sommable alors la série ui est commutativement conver-
gente.
Propriété 1.2.4 (Sommabilité et dénombrabilité). Si (ui )i∈I est sommable alors I 0 = {i ∈
I, ui 6= 0} est dénombrable.
Démonstration. ∀n ∈ N∗ , ∃Jn fini ⊂ I, ∀Kn ⊃ Jn , on ait |S − SKn | < n1 . On pose :
[
H= Jn
n∈N∗

H est dénombrable et on démontre que H = I 0 . Soit i0 6∈ H, ∀n ∈ N, Kn = Jn ∪ {i0 }. Alors :
1
|SJn − ui0 − S| <
n
d’où :
2
|ui0 | < |SJn + ui0 − S| + |SJn − S| <
| {z } | {z } n
<1/n <1/n

⇒ ui0 = 0.
Chapitre 1. Dénombrer et sommer 13

Propriété 1.2.5 (Linéarité de la somme). (ui )i∈I et (u0i )i∈I deux familles sommales de sommes
respectives S et S 0 alors la famille (aui + bu0i )i∈I est sommable de somme aS + bS 0 .

Lien avec les séries
Theorème 1.2.6. Si I est dénombrable alors on a équivalence entre :
a) (ui ) est sommable de somme S.
+∞
X
b) ∀f : N → I bijection, la série uf (k) est convergente.
k=0

Démonstration. a) ⇒ b) Soit f : N → I bijective. On veut montrer que :
n
X
∀ε > 0, ∃N ∈ N tel que ∀n ≥ N, uf (k) − S <ε

k=0

On a : n
X
uf (k) = SK
k=0

où K = f ({0, ..., n}). Il suffit de prendre N = max f −1 (J)
b) ⇒ a) (par contraposée). On suppose que :

∃ε > 0, ∀J fini ⊂ I, ∃K fini ⊃ J vérifiant |S − SK | ≥ ε

On construit une suite (Kn )n∈N tel que :
• Kn fini, ∀n ∈ N.
• K
[n ⊂ Kn+1 , ∀n ∈ N.
• Kn = I
n∈N
• |S − SKn | ≥ ε
On prend : ϕ : N → I bijection.
Etape 0 : on pose J0 = {ϕ(0)} alors il existe K0 fini ⊃ J0 tel que |SK0 − S| ≥ ε.
Etape 1 : on prend k1 = max{ϕ−1 (K0 )} + 1, J1 = ϕ({0, ..., k1 }) et il existe K1 fini ⊃ J1
tel que |SK1 − S| ≥ ε. On a que J1 ! K0 .
...
Etape p : kp = max ϕ−1 (Kp−1 ) + 1, Jp = ϕ({0, ..., kp }) ! Kp−1 . ∃Kp fini ⊃ Jp tel que
|Skp − S| ≥ ε.
On a ainsi : k0 < k1 < ... < kp suite strictement croissante. Si i ∈ I, ϕ−1 (i) ≤ kn . Elle
tend vers +∞ pour un certain n ⇒ i ∈ ϕ({0, ..., kn }) = Jn ⊂ Kn .
On a aussi : mn = card(Kn ) − 1. On construit une bijection entre :

fn : {mn−1 + 1, ..., mn } → Kn \Kn−1

où {mn−1 + 1, ..., mn } et Kn \Kn−1 deux ensembles finis de même cardinal.

f :N→I

tel que f |{0,...,m0 } = f0 et f |{mn−1 +1,...,mn } = fn alors :

X mn
X
SKn = ui = uf (k)
i∈Kn k=0
14 Chapitre 1. Dénombrer et sommer

et : m
X n

uf (k) − S ≥ε

k=0

+∞
X
pour une sous-suite (mn )n∈N strictement croissante. La série uf (k) ne converge pas vers
k=0
S.

Cas particulier des familles des réels positifs

Proposition 1.2.7. Si (ui )i∈I est une famille de réels positifs :
a) Si M := sup SK < +∞ alors la famille (ui )i∈I est sommable de somme S.
K fini ⊂I

b) Réciproquement, si la famille (ui )i∈I est sommable de somme S alors M := sup SK <
K fini ⊂I
+∞

Démonstration. a)
∀ε > 0, ∃J fini ⊂ I tel que M − ε < SJ ≤ M

donc ∀K fini ⊃ J, Sk ≥ SJ donc M − ε < SJ ≤ SK ≤ M donc |M − SK | < ε.
b)
M= sup SK = sup SK ∀J fini ⊂ I
K fini ⊂I K fini ⊃J

car :
• sup SK ≤ sup SK
K fini ⊃J K fini
• K fini ⊂ I. On a : SK ≤ SK∪J ≤ sup SK 0 . Donc : sup SK ≤ sup SK 0 .
K 0 fini ⊃J K fini K 0 fini ⊃J
Donc :
∀ε > 0, ∃J fini ⊂ I tel que ∀K fini ⊃ J ; SK ∈]S − ε, S + ε[

⇒ M ∈]S − ε, S + ε[, ∀ε > 0 ⇒ M = S.

+∞
X
Remarque. Si I = N, sommabilité des (ui )i∈N ⇔ convergence de la série ui en prenant
i=0
n
X
M= sup SK = sup ui .
K fini ⊂N n∈N i=0

Proposition 1.2.8 (Principe de comparaison). (ui )i∈I et (vi )i∈I deux familles des réels positifs
tel que ui ≤ vi , ∀i ∈ I :
• Si (vi )i∈I est sommable alors (ui )i∈I est sommable.
• Si (ui )i∈I n’est pas sommable alors (vi )i∈I n’est pas sommable.
X X
Remarque. ui a toujours un sens dans R+ , = sup SK ∈ R+ si ui ≥ 0, ∀i ∈ I.
i∈I i∈I K fini ⊂I
Chapitre 1. Dénombrer et sommer 15

Critère de Cauchy
Définition 1.2.2. (ui )i∈I vérifie le critère de Cauchy si :

∀ε > 0, ∃J fini ⊂ I tel que ∀K fini ⊂ I\J, |Sk | < ε (C)

Remarque. Si I = N, (C) implique le critère de Cauhy (C 0 ) pour les séries. Si J fini ⊂ N,
N = max J, J ⊂ {0, ..., N } alors q > p ≥ N , K = {p + 1, ..., q} alors :

q
X
|SK | =
ui <ε
i=p+1

Theorème 1.2.9. (ui )i∈I est sommable si et seulement si elle vérifie le critère de Cauchy.

Démonstration. Sommabilité ⇒ (C) :

∀ε > 0, ∃J fini ⊂ I tel que ∀K fini ⊃ J, |SK − S| < ε

Soit H ⊂ I\J, donc :

|SH | = |SJ∪H − SJ | ≤ |SJ∪H − S| + |S − SJ | ≤ 2ε

(C) ⇒ Sommabilité : On peut montrer que I 0 = {i ∈ I, ui 6= 0} est au plus dénombrable.
• I 0 fini ⇒ (ui )i∈I sommable.
• I 0 infini, dénombrable.
1) On peut trouver f : N → I 0 une bijection et on pose : vk = uf (k) . On montre ainsi
que : ∞
P
n=0 vk est convergente.

∀ε > 0, ∃J fini ⊂ I 0 , ∀K fini ⊂ I\J, |SK | < ε

q
X

vk ≤ε
k=p+1

Il suffit de prendre mε = max f −1 (J) + 1. ∀p, q : mε ≤ p < q. On aura :

q q
X X


vk =
uf (k) = |Sf ({p+1,...,q}) | < ε
k=p+1 k=p+1
P
Donc : vk converge vers S.
2) On montre que (ui )i∈I est sommable de somme S avec S = +∞ 0
P
k=0 uf (k) . Soit J =
f ({0, ..., mε }) avec mε = max f −1 (J) + 1. On montre que ∀K fini ⊃ J 0 , |S − SK | ≤
ε. On prend SK\J 0 + SJ 0 :


X
|S − SK | ≤ |S − SJ 0 | + |SK\J 0 ⇔ |S − SK | ≤ S −

uf (k) + |SK\J 0 |

k=0
| {z }
| {z } ≤ε(C)
P+∞
| k=mε
u
+1 f (k)
≤ε

Corollaire. Si (ui )i∈I est absolument sommable alors (ui )i∈I est sommable.
16 Chapitre 1. Dénombrer et sommer

Démonstration. Critère de Cauchy :
X
∀ε > 0, ∃J fini ⊂ I, ∀K fini ⊂ I\J, |ui | ≤ ε
i∈K

L’inégalité triangulaire nous dit que :

X X
ui ≤ |ui | ≤ ε



i∈K i∈K

Proposition 1.2.10. Soit I dénombrable, si ui (avec i ∈ I) est à valeurs dans R ou C ou dans
un espace vectoriel normé complet, on a l’équivalence :
(1) (ui )i∈I est sommable
(2) (ui )i∈I est absolument sommable
(3) (uf (k) )k∈N est commutativement convergente pour f : N → I bijective.

Corollaire. Soit (ui )i∈I une famille sommble :
(a) Pour tout ensemble L ⊂ I (fini ou infini), (ui )i∈L est sommable et on note SL sa somme.
(b) ∀ε > 0, ∃J fini ⊂ I, ∀K fini ⊃ J, |S − SK | ≤ ε et si L ⊃ J est infini alors |S − SL | ≤ ε.
n
[ n
X
(c) Si L1 , ..., Ln sont deux à deux disjoints de I et si L = Li alors SL = SLi .
i=1 i=1

Démonstration. (a) ∀ε > 0, ∃J fini ⊂ I tel que ∀K fini : K ⊂ I\J, |SK | ≤ ε. En posant
J 0 = J ∩ L fini ⊂ L alors ∀K 0 fini ⊂ L\J 0 alors |SK 0 | ≤ ε car K 0 ⊂ I\J.
(b)
|S − SL | ≤ |S − SK | ≤ |SK − SL |
alors ∀n ∈ N, ∃Jn fini ⊂ L tel que ∀Kn fini , Jn ⊂ Kn ⊂ L, on a :
1
|SL − SKn | ≤
n
On pose : Kn0 = Jn ∪ J fini ⊂ L, d’où :
1
|S − SL | ≤ |S − SKn0 | + |SKn0 − SL | ≤ ε + ≤ ε pour n → +∞
| {z } | {z } n
≤ε ≤1/n

(c) ∀i ∈ {1, ..., n}, ∀ε > 0, ∃Ji fini ⊂ Li tel que ∀K fini Ji ⊂ K ⊂ Li :

|SLi − SK | ≤ ε

En posant J = J1 ∪ ... ∪ Jn et soit K fini tel que J ⊂ K ⊂ L :
n
[
K= (K ∩ Li )
i=1
|{z}
disjointe

n
X
SK = SKi
i=1
Chapitre 1. Dénombrer et sommer 17

où Ki = K ∩ Li , K ⊃ J où K ∩ Li ⊃ Ji = J ∩ Li :


n n
X X

S Li −SK
≤ |SLi − SKi | ≤ nε
i=1 |{z} i=1
(a)
Pn
car Ji ⊃ Ki ⊂ Li . i=1 SLi est la somme de la famille (ui )i∈L , c’est-à-dire :
|{z}
fini


X
SK = SLi
i=1

Theorème 1.2.11 (Principe de sommation par paquets). Soit (ui )i∈I une famille sommable
de somme S et (Iα )α∈A une partition de I alors :
 
X X X
ui =  ui 
i∈I α∈A i∈Iα

Remarque. D’après (a) du Corollaire précédent : (ui )i∈Iα est sommable de somme notée SIα ,
∀α ∈ A ⇒ la famille (SIα )α∈A est sommable.
Démonstration. On veut montrer que : ∀ε > 0, ∃B fini ⊂ A tel que ∀C fini B ⊂ C ⊂ A :

X
SIα − S ≤ ε d’après (c) du Corollaire



α∈C

Si C est fini : X X
SIα = SS I = ui
α∈C α
α∈C i∈IC
[
où IC = Iα .
α∈C

∀ε > 0, ∃J fini ⊂ I, ∀Kfini (ou non : (b)) ⊃ J, |S − SK | ≤ ε (∗)

. Soit :
B = {α ∈ A tel que Iα ∩ J 6= ∅}
∀i ∈ J, ∃!α(i) ∈ A tel que i ∈ Iα(i) tel que B = {α(i), i ∈ J} ⇒ B est fini et si C fini ⊃ B
alors : X
SIα = SIC
α∈C

et : [ [
IC = Iα ⊃ Iα = IB ⊃ J
α∈C α∈B

on applique (∗) à K (infini). K = IC .
Remarque. (Iα )α∈A une partition de I tel que (ui )i∈Iα est sommable, ∀α ∈ A et (SIα )α∈A est
sommable n’implique pas la sommabilité des (ui )i∈I .

Exemple 1.2.2. I = Z, Ik = {k, −k}, uk = k, ∀k ∈ Z.
18 Chapitre 1. Dénombrer et sommer

Theorème 1.2.12. Soit (ui )i∈I une famille tel que ui ∈ R+ , ∀i ∈ I et soit (Iα )α∈A une partition
de I. On a alors l’inégalité dans R+ :
 
X X X
ui =  ui 
i∈I α∈A i∈Iα

Remarque. On a : R+ = R+ ∪ {+∞} :

x + (+∞) = (+∞) + x = (+∞) (∀x ∈ R+ ) (+∞) + (+∞) = (+∞)

Démonstration. On note : X
ui = sup SK = M
i∈I K fini ⊂I

M0 = sup SIB
B fini ⊂A
S
où IB = α∈B Iα et : X X
SIB = ui = SIα
i∈IB α∈B

– Si K fini ⊂ I alors ∃B fini ⊂ A tel que K ⊂ IB :

B = {α(k), k ∈ K} = {α ∈ A tel que K ∩ Iα 6= ∅}

où ∀k ∈ K, ∃α(k) ∈ A tel que Iα (k). On a : SK ≤ SIB donc M ≤ M 0 .

SIB = sup SL ≤ M
L fini ⊂IB

∀B fini ⊂ A ⇒ M 0 ≤ M .

1.3 Series doubles
Cas particulier où I = N2 , (uk,l )(k,l)∈N2 une famille à valeurs R, C ou un espace vectoriel
normé complet.

Définition 1.3.1. La série double de terme général (uk,l )(k,l)∈N2 est dite convergente (resp. ab-
solument convergente) si et seulement si la famille (uk,l )(k,l)∈N2 est sommable (resp. absolument
sommable). La somme S de la famille est appelée somme de la série double :
X
S= uk,l
(k,l)∈N2

Définition 1.3.2. (uk,l )(k,l)∈N2 est convergente si et seulement si (|uk,l |)(k,l)∈N2 est convergente.

Proposition 1.3.1. (uk,l )(k,l)∈N2 est convergente si et seulements si les suites suivantes sont
bornées : X
• Tn = |uk,l |
(k,l)∈N2 ; k+l≤n
Tn0
X
• = |uk,l |
(k,l)∈N2 ; max(k,l)≤n
Chapitre 1. Dénombrer et sommer 19

Démonstration. (uk,l )(k,l)∈N2 est sommable si et seulement si (|uk,l |)(k,l)∈N2 est sommable si et
seulement : X
sup |uk,l | < +∞
K fini ⊂N2 (k,l)∈K

Reste à montrer que :
X X
sup |uk,l | = sup |uk,l | = sup Tn
K fini ⊂N2 (k,l)∈K K={0,...,n}2 ,n∈N (k,l)∈K n∈N

Theorème 1.3.2 (Interversion des sommations). (a) si uk,l ∈ R+ , ∀(k, l) ∈ N2 alors :
+∞ +∞ ∞ ∞
! !
X X X X X
uk,l = uk,l = uk,l (∗)
(k,l)∈N2 k=0 l=0 l=0 k=0

(∗) est valable dans R+ .
X +∞
X
(b) Si la série double uk,l est convergente alors ∀k ∈ N, la série (simple) uk,l et
(k,l)∈N2 l=0

X
∀l ∈ N, la série (simple) uk,l converge et :
k=0

+∞ +∞ ∞ ∞
! !
X X X X X
uk,l = uk,l = uk,l (∗)
(k,l)∈N2 k=0 l=0 l=0 k=0

On a ainsi :
N2 =
[ [
({k} × N) = (N × {j})
k∈N j∈N
| {z } | {z }
Ik Ij

Démonstration. Principe de sommation par paquets.
Remarque. En pratique, on vérifie la convergence de (uk,l )(k,l)∈N2 en montrant que :
∞ ∞ ∞ ∞
! !
X X X X X
|uk,l | = |uk,l | = |uk,l | < +∞
(k,l)∈N2 k=0 l=0 l=0 k=0

Cas particulier : produit de séries
Theorème 1.3.3 (Séries produits). Si (uk )k∈N et (vk )k∈N deux séries absolument convergentes
alors la série double de terme général si (uk vl )(k,l)∈N est convergente et on a :
∞ ∞
! !
X X X X X
S= uk vl = uk vl = uk vl
(k,l)∈N2 k=0 l=0 n∈N k+l=n

Démonstration.
∞ n ∞ n
! !
Tn0 =
X X X X X
|uk vl | = |uk vl | = |vl | |uk |
(k,l)∈{0,...,n}2 l=0 k=0 l=0 k=0

n n ∞ ∞
! ! ! !
X X X X
= |uk | |vl | ≤ |uk | |vl |
k=0 l=0 k=0 l=0
20 Chapitre 1. Dénombrer et sommer

donc (uk,l ) est convergente. Principe de sommation par paquets :
∞ ∞
!
X X X
uk,l = uk vl
(k,l)∈N2 k=0 l=0

∞ ∞ ∞ ∞
! ! !
X X X X
= uk vl = vl uk
k=0 l=0 l=0 k=0
X X X
uk vl = uk vl
(k,l)∈N2 n∈N (k,l)∈In
|P {z }
n
= u v
k=0 k n−k
Chapitre 2

Evénements et Probabilités

2.1 Notions de mesure
La notion de mesure englobe la notion de grandeurs géométriques (longueur, aire, volume),
physiques (masse) et probabilités. On va définir une fonction m d’un ensemble A vers R+ tel
qu’elle satisfait les conditions suivantes :
a) croissance : si A ⊂ B, m(A) ≤ m(B).
b) additivité : si A ∩ B = ∅, m(A ∪ B) = m(A) + m(B), sous réserve que m(A), m(B) et
m(A ∪ B) soient définies.
On peut étendre l’additivité sur des suites finies A1 , ..., An tel que m(A1 ∪...∪An ) = m(A1 )+...+
m(An ) si les Ai sont deux à deux disjoints (ceci n’est pas forcément vrai pour des suites infinies).
Mais des fois, m(A) n’est pas clairement définis. On va pour cela voir quelques définitions.
Définition 2.1.1 (Tribu). Une famille F de parties de Ω est appelée tribu (ou σ-algèbre) sur
Ω si elle :
a) possède l’ensemble vide : ∅ ∈ F
b) est stable par passage au complémentaire : ∀A ∈ F, AC ∈ F.
c) est stable par union dénombrable : (∀i ∈ N∗ , Ai ∈ F) ⇒ Ai ∈ F.
S
i∈N∗

Définition 2.1.2 (Mesure). Soit F une tribu sur Ω. On appelle mesure positive sur (Ω, F) une
application :
m : F → [0, +∞]
vérifiant :
a) m(∅) = 0
b) m est σ-additive : pour toute suite (Ai )i∈N∗ d’éléments de F deux à deux disjoints :
 
[ ∞
X
m Ai  = m(Ai )
i∈N∗ i=1

Remarque. La réunion des Ai est invariante par permutation sur les indices et chaque Ai est à
son tour union dénombrable d’ensembles Bi,j ∈ F (j ∈ N∗ deux à deux, on a clairement :
[ [ [ [
Ai = Bi,j = Bi,j
i∈N∗ i∈N∗ j∈N∗ (i,j)∈N∗2

Exemple 2.1.1. 1) La plus petite tribu sur Ω est F = {Ω, ∅}

21
22 Chapitre 2. Evénements et Probabilités

2) La plus grande tribu est P(Ω)
3) Si A est une partie de Ω alors F = {Ω, ∅, A, AC } est un tribu. C’est la plus petite tribu
possédant A comme élément, c’est-à-dire toute tribu G telle que A ∈ G contient F. On dit
que F est la tribu engendrée par A.
Définition 2.1.3. Soit C une famille de parties d’un ensemble Ω. On appelle tribu engendrée
par C et on note σ(C), la plus petite tribu contenant C (c’est l’intersection de toutes les tribus
sur Ω contenant C).
Exemple 2.1.2. • C = {A}, A ⊂ Ω, σ(C) = {∅, Ω, A, AC }
• Ω = R, C = {]a, b], a < b} la tribu engendrée par C est appelée tribu borélienne sur R
(c’est celle qui est engendrée par les ouverts de R). Elle est notée B(R). On a :
\  1

[a, b] = a− ,b
n∈N∗ n

• Ω = Rd : ( d )
Y
C= ]ai , bi ], ai < bi , 1 ≤ i ≤ d
i=1

 v v 
" # u !2 u !2
k k+1 u k u k
Rk = , × − 1 − , 1− 0 ≤ k ≤ 2n−1
 t t 
2n 2n 2n 2n

 v v 
" # u !2 u !2
k k+1 u k +1 u k+1
Rk = , × − 1 − , 1− − 2n ≤ k ≤ 0
 t t 
2n 2n 2n 2n

On a :
2n
[ −1
An = Rk
k=−2n

An ∈ B(R2 ) : \
D= An
n∈N

((An )n→N est une suite décroissante qui converge vers D).
Définition 2.1.4. Soit Ω et F une tribu sur Ω, une mesure positive sur (Ω, F) est une appli-
cation :
m : F → R+
A 7→ m(A)
telle que :
Chapitre 2. Evénements et Probabilités 23

a) m(∅) = 0
 
[ X
b) si (An )n∈N est une suite d’éléments disjoints de F alors m  An  = m(A).
n∈N n∈N
X
Remarque. m(An ) a une sens dans R+ .
n∈N

Définition 2.1.5. Une mesure m sur (Ω, F) est dite :
a) discrète si il existe A au plus dénombrable tel que m(Ω\A) = 0 (c’est le cas si Ω est au plus
dénombrable)
b) diffuse ou continue si ∀ω ∈ Ω, {ω} ∈ F et m({ω}) = 0
c) finie si m(Ω) < +∞

Exemple 2.1.3. 1) (Ω, F), ω0 ∈ Ω :

1 si ω0 ∈ A
m(A) =
0 sinon

m est appelée mesure de Dirac en ω0 , elle est notée δω0 et elle est finie et discrète. On peut
vérifier que c’est bien une mesure.
2) mesure ponctuelle sur (Ω, F) : (ωi )i∈I une famille au plus dénombrable de Ω, (ai )i∈I une
famille de réels positifs.
X X
m= ai δωi m(A) = ai δωi (A) ∀A ∈ F
i∈I i∈I

Cette mesure est discrète. On montre que c’est une mesure :
a) m(∅) = 0.
b) (An )n∈N 2 à 2 disjoints :
   
[ X [ X X
m An  = ai δωi  An  = ai δωi (An )
n∈N i∈I n∈N i∈I n∈N
| P {z }
= δ (An )
n∈N ωi

XX X
= ai δωi (An ) = m(An )
n∈N i∈I n∈N

Toute mesure sur un ensemble Ω au plus dénombrable est une mesure ponctuelle : Ω =
{ωi , i ∈ I} avec I au plus dénombrable
X
m= ai δω i
i∈I

où ai = m({ωi }).
Cas particulier : ai = 1, ∀i ∈ I : mesure de comptage sur (Ω, P(Ω))

card(A)si A est fini
m(A) =
+∞ si A est infini
24 Chapitre 2. Evénements et Probabilités

3) Mesure de Lebesgue (Existence admise) : sur (R, B(R)), il existe une unique mesure λ telle
que :
λ(]a, b]) = b − a ∀(a, b) ∈ R2 , a < b
sur (Rd , B(Rd ), il existe une unique mesure λd telle que :
d d
!
Y Y
λd ]ai , bi ] = (bi − ai ) pour ai < bi , i ≤ i ≤ d
i=1 i=1

La mesure de Lesbegue généralise la notion de longueur pour d = 1, d’aire pour d = 2, de
volume pour d = 3.
Propriétés :
(1) ∀x ∈ Rd , λd ({x}) = 0 (λd est diffuse) car, pour d = 1 1 , :
\  1

{x} = x− ,x
n∈N∗ n

On a aussi : A ∪ B ⇒ m(A) ≤ m(B). Donc :
1
 
λd ({x}) ≤ λd x − ,x ∀n ∈ N∗
| {z n }
1/n
[
Si A ∈ B(Rd ) est au plus dénombrable alors λd (A) = 0 car A = {x}
x∈A
(2) λd est invariant par translation : si A ∈ B(Rd ) et c ∈ Rd alors tc (A) = A + c ∈ B(Rd ) et
λd (tc (A)) = λd (A).
(3) λd par isométrie (de Rd ) 2 .
(4) si h est une homothétie de Rd (h : x 7→ cx pour c ∈ R) alors ∀B ∈ B(Rd ), h(B) ∈ B(Rd )
et λd (h(B)) = |c|d λd (B).
(5) Si E est un sous-espace affine de Rd alors λd (E) = 0.
(6)
d d
! !
Y Y
λd [ai , bi ] = λd ]ai , bi ]
i=1 i=1

4) Mesure de Lebesgue-Stieljes sur (R, B(R)), soit F une fonction croissante sur R et continue
à droite alors il exsite une unique mesure µF sur (R, B(R)) tel que :
µF (]a, b]) = F (b) − F (a) a<b
Si F = id, on obtient la mesure de Lebesgue.

2.2 Probabilités
2.2.1 Vocabulaire probabiliste
Définition 2.2.1. Une expérience aléatoire est l’ensemble des résultats possibles sur une ex-
périence dont on ne connait pas à l’avance ces résultats. L’ensemble des résultats possibles est
décrit par l’ensemble Ω.
1
on peut génraliser pour d > 1 en utilisant le produit
2
symétries, rotations ...
Chapitre 2. Evénements et Probabilités 25

Exemple 2.2.1. • – On lance une pièce : Ω = {p, f }
– On lance deux pièces : Ω = {p, f }2 = {(p, p), (p, f ), (f, p), (f, f )}
– On lance n pièces : Ω = {p, f }n , card(Ω) = 2n
• Nombre d’appels téléphoniques sur un standard :
– Ω = N pour un jour.
– Ω = N7 pour 7 jours.
• Flèche sur une cible : Ω = D, un résultat est un point du disque.
• Trajectoire d’un objet sur une surface : Ω = {f : I → R2 } = C 0 (I, R2 )

Définition 2.2.2. F est l’ensemble des événements observables. On a :
• ∅ = événement impossible
• Ω = événement certain
• {ω} = événement élémentaire
• A ∈ F, B ∈ F, A ∩ B = ∅ : on dit que A et B sont deux événements impossibles ou
incompatibles.
C
• A[ = événement contraire
• Ai : "au moins un des Ai se réalise"
i∈I
\
• Ai : "tous les Ai se réalisent"
i∈I

2.2.2 Probabilité comme mesure
Définition 2.2.3. Soit (Ω, F) un espace probabilisable, une probabilité P sur (Ω, F) est une
mesure de masse 3 totale 1. Autrement dit :
P : F → [0, 1]
A 7→ P (A)

telle que :
a) P (Ω) = 1
b) si (An )n∈N est une suite dénombrable d’événements deux à deux disjoints alors :
 
[ X
P An  = P (An )
n∈N n∈N

Définition 2.2.4. (Ω, F, P ) est un espace de probabilité.

Propriété 2.2.1. (1) P (∅) = 0
(2) ∀n ∈ N∗ , A1 , ..., An dans F disjoints alors :
n n
!
[ X
P Ai = P (Ai )
i=1 i=1

(3) A ∈ F, P (AC ) = 1 − P (A)
(4) A ∈ F, B ∈ F, A ⊂ B, P (A) ≤ P (B).
(5) A ∈ F, B ∈ F, A ⊂ B, P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(6) continuité séquentiellement monotone :
3
c’est-à-dire que P (Ω) = 1
26 Chapitre 2. Evénements et Probabilités

a) (Bn )n∈N une suite croissante d’événéments de F qui converge vers B 4 , alors :

P (B) = lim P (Bn )
n→+∞

5
b) Si (Cn )n∈N une suite décroissante d’événements de F qui converge vers C alots :

P (C) = lim P (Cn )
n→+∞

(7) Si (An ) est une suite quelconque de F
a)
n n
!
[ X
P Ai ≤ P (Ai )
i=1 i=1

b)  
[ X
P An  ≤ P (An )
n∈N n∈N
\
Démonstration de la continuité séquentielle. a) Soit B = Bn .
n∈N

On pose :
• A0 = B0
• A1 = B1 \B0
• A2 = B2 \B1
• Ak = Bk \Bk+1 , ∀k ∈ N∗
• les (An )n∈N sont disjoints car soit ω ∈ Ai = Bi \Bi−1 ⊂ B alors i ≤ j − 1, Bi ⊂ Bj−1 donc
ω[∈ Bj−1 ce[ qui contredit ω ∈ Aj = Bj \Bj−1 .
• Bn = An
n∈N n∈N
On a ainsi :  
[ X n
X
P (B) = P  An  = P (An ) = lim P (Ak )
n→+∞
n∈N n∈N k=1
or :
n n
!
X [
P (Ak ) = P Ak = P (B0 ∪ (B1 \B0 ) ∪ (B2 \B1 ) ∪ ... ∪ (Bn \Bn−1 )) = P (Bn )
k=1 k=1

b) Passage au complémentaire en possant Bn = CnC .

(
4 Bn ⊂ Bn+1 ∀n ∈ N
Mathématiquement : S
( n∈N Bn = B

5 Cn+1 ⊂ Cn ∀n ∈ N
Mathématiquement : T
C
n∈N n = C
Chapitre 2. Evénements et Probabilités 27

Démonstration de la propriété (7) de la Propriété 2.2.1.
 
[ X
P An  ≤ P (An )
n∈N n∈N

n
[
Bn = Ak
k=0

suite croissante de F [ [
Bn = An
n∈N n∈N

Donc :    
[ [ (6)
P An  = P  Bn  = lim P (Bn )
n∈+∞
n∈N n∈N

or :
n n R+ +∞
!
[ X X
P (Bn ) = P Ak ≤ P (Ak ) ≤ P (Ak )
k=0 k=0 k=0

Proposition 2.2.2 (Formule de Poincarré). Soit A1 , ..., An n évémenements de F :
n n n
!
(−1)k+1
[ X X X
P Ai = P (Ai ) + P (Ai1 ∩ ... ∩ Aik )
i=1 i=1 k=2 1≤i1 <...<ik ≤n

n
(−1)k+1
X X
= P (Ai1 ∩ ... ∩ Aik )
k=1 1≤i1 <...<ik ≤n

2.3 Exemples
2.3.1 Ω fini ou dénombrable
• Ω = {ωi , i ∈ I}, I fini ou dénombrable. On a ainsi : F = P(Ω) si Ω est fini, card(F) =
2card(Ω) . Si Ω est infini dénombrable, F est infini et dénombrable.
• P est une mesure ponctuelle :
X
P = pi δωi où pi = P ({ωi })
i∈I

et : X
P (A) = pi
i:ωi ∈A

Donc : X
pi = 1
i∈I

1
• Cas particulier : l’équiprobabilité sur Ω fini et ∀i ∈ I fini, pi = p alors p = et
card(Ω)
card(A)
∀A ∈ P(Ω), P (A) =
card(Ω)
28 Chapitre 2. Evénements et Probabilités

• Exemples concrets : Problème des anniversaires : "Soit n étudiants pris au hasard :

Ω = {1, ..., 365}n

On a que ω = {ω1 , ..., ωn } est un événement élémentaire si ωi = numéro du jour anniver-
saire du ième étudiant (1 ≤ i ≤ n), ω ∈ {1, ..., 365}. Quelle est la probabilité pour que
deux étudiants aient leur anniversaire le même jour ? On introduit A = {ω = (ω1 , ..., ωn ) ∈
Ω tel que ∃i 6= j, ωi = ωj } et AC = {ω = (ω1 , ..., ωn ) ∈ Ω, ∀i 6= j, ωi 6= ωj }. On a ainsi :

card(AC ) 365 × 364 × ... × (365 − n + 1)
P (AC ) = =
card(Ω) 365n

On en déduit que :

365 × 364 × ... × (365 − n + 1)
P (A) = 1 − P (AC ) =
365n
• Ω = N, F = P(N, loi de Poisson de paramètre λ > 0 qu’on note Pois(λ) :

λn −λ
P ({n}) = e ∀n ∈ N
n!
• Ω = N∗ , F = P(N∗ ), loi géométrique de paramètre p ∈]0, 1[ :

P ({n}) = p(1 − p)n−1

2.3.2 Du fini à l’infini non dénombrable
Exemple du schéma "succès-echec"
a) Cas fini : on définit n épreuves avec chacune deux issues possibles
(1) Succès avec probabilité p (p ∈]0, 1[)
(0) Echec avec probabilité 1 − p
On a : Ωn = {0, 1}n muni de P(Ωn ).

Ωn = {(ω1 , ..., ωn ), ωi ∈ {0, 1}, 1 ≤ i ≤ n}

ωi = résultat de la i-ème épreuve
On prend :
n
pωi (1 − p)1−ωi = pk(ω) (1 − p)n−k(ω)
Y
Pn ({ω1 , ..., ωn }) =
i=1

où :
n
X
k(ω) = ωi (nombre de succès lors des n épreuves)
i=1

On peut vérifier que : X
Pn ({ω}) = 1
ω∈Ωn

b) Cas infini : suite infinie de telles épreuves :

Ω = {0, 1}N = {ω = (ωi )i∈N∗ , ωi ∈ {0, 1}, ∀i ∈ N∗ }
Chapitre 2. Evénements et Probabilités 29

– On définit d’abord une tribu F. Soit n fixé, tous les éléments qui dépendent des n premières
épreuves doivent être dans F. On a : Ωn = {0, 1}n , Ω0n+1 = {0, 1}Nn avec Nn = {k ∈ N, k >
n}.
Fn = {A × Ω0n+1 , A ∈ P(Ωn )}

On peut vérifier que Fn est une tribu. On veut que F contiennent tous les Fn , c’est-à-dire :
[
C := Fn ⊂ F
n∈N∗

[
Remarque. n’est pas une tribu.
n∈N∗
Exemple 2.3.1. Soit A = "au moins un succès" et An = "au moins un succès avant n".
On a ainsi :
[
An
n∈N∗
[ [ [
An ∈ Fn donc An ∈ Fk mais An 6∈ Fk . On prend donc F = σ(C) tribu
k∈N∗ n∈N∗ k∈N∗
engendrée par C.
– On définit ensuite P sur (Ω, F), on sait que si A0 = A × Ω0n+1 ∈ Fn alors :
Pn Pn
P (A0 ) = Pn (A) = ωi
(1 − p)n− ωi
X
p i=1 i=1

(ω1 ,...,ωn )∈A

où Pn (A) est une probabilité sur Ωn . P (A0 ) permet de définr P sur C :

Fn ⊂ Fn+1

si B 0 = B × Ω0n+1 ∈ Fn alors B 0 = B × {0, 1} × Ω0n+2 ∈ Fn+1 .
Pn+1 Pn+1
ωi
(1 − p)n+1− ωi
X
P (B 0 ) = Pn+1 (B × {0, 1}) = p i=1 i=1

(ω1 ,...,ωn+1 )∈B×{0,1}
 
Pn Pn
ω n− ω
X
=  p i=1 i (1 − p) i=1 i  (1 − p)

(ω1 ,...,ωn )∈B
 
Pn Pn
ωi
(1 − p)n− ωi 
X
+ p p i=1 i=1 = Pn (B)
(ω1 ,...,ωn )∈B

On admet qu’on peut étendre P en une probabilité sur F = σ(C).
Exemple 2.3.2. A = "au moins 1 succès" :
[
A= An ∈ F
n∈N∗

An ⊂ An+1 (propriété de continuité monotone séquentielle), P (A) = lim P (An ) = 1 .
n→+∞
On a :
P (An ) = 1 − P (AC
n ) = 1 − (1 − p)
n

Remarque. AC = "avoir que des echecs" = {(ωi )i∈N , ωi = 0, ∀i ∈ N} contient un seul
élément : P (AC ) = 0.
30 Chapitre 2. Evénements et Probabilités

2.3.3 Le cas Ω = R, F = B(R)
Soit P une probbilité sur (R, B(R)) :
Définition 2.3.1. La fonction de répartition de P est l’application :
F : R → [0, 1]
x 7→ P (] − ∞, x])

Propriété 2.3.1. (1) F est croissante, continue à droite, limité à gauche.
(2) lim F (x) = 0 et lim F (x) = 1
x→−∞ x→+∞
(3) ∀x ∈ R, P ({x})) = F (x) − F (x− ) avec F (x− ) = lim F (t) et {x ∈ R, P ({x}) 6= 0} est
t→x,t<x
au plus dénombrable
(4) F caractérise P (admis)
Démonstration. 1) • x ≤ x0 alors ] − ∞, x] ⊂] − ∞, x0 ] ⇒ F (x) ≤ F (x0 ).
\ 1
• ] − ∞, x − 1/n] ∈] − ∞, x] ⇒ F (x) = lim F (x + ) = F (x+ )
n∈N
n→+∞ n
2) \
] − ∞, n] = ∅ ⇒ 0 = lim F (−n) (car F strictement décroissante)
n→+∞
n∈N∗
[
] − ∞, n] = R ⇒ 1 = lim F (n) (car F strictement croissante)
n→+∞
n∈N∗

3) On a :
\  1

{x} = x − ,x
n∈N∗ n
strictement décroissante et ]x − n1 , x] =] − ∞, x]\] − ∞, x − 1
n
:
1 1
 
P ]x − , x] = F (x) − F (x − )
n n
1
 
P ({x}) = lim F (x) − F (x − ) = F (x) − F (x− )
n→+∞ n
(P {x})x∈R est une famille sommable :
X
SK = P ({x}) = P (K) ≤ 1 ∀K ⊂ R, K fini
x∈K

donc :
sup SK ≤ 1
K fini ⊂R

en particulier, il est fini et la famille est sommable.
Chapitre 2. Evénements et Probabilités 31

Remarque. On a : [
R= {x}
x∈R
mais : X
P (R) 6= P ({x})
x∈R

Theorème 2.3.2 (Admis). Si F est une fonction croissante, continue à droite et telle que :

lim F (x) = 0 lim F (x) = 1
x→−∞ x→+∞

alors il existe une unique probabilité sur (R, B(R)) telle que P (]a, b]) = F (b) − F (a).
Remarque. – P (]a, b[) = F (b− ) − F (a)
– P ([a, b]) = F (b) − F (a− )
– P (]b, +∞[) = 1 − F (b)
– P ([b, +∞[) = 1 − F (b− )

2.3.4 Probabilité uniforme / conditionnelle
Soit m une mesure sur (Ω, F) et soit B ∈ F tel que m(B) > 0 alors :

mB : F → [0, 1]
A 7→ mB (A) = m(A∩B)
m(B)

définit une probabilité sur (Ω, F).
Application 2.3.1. Probabilité uniforme sur un borélien, m = λd : mesure de Lebesgue sur
(Rd , B(Rd )) :
λd (A ∩ B)
∀A ∈ B(Rd ) P (A) =
λd (B)
(si B ∈ B(Rd ), λd (B) > 0) est appelé probabilité uniformé sur B.
Exemple 2.3.3. 1) Probabilité uniforme sur [a, b] sur (R, B(R)) :
λ(A ∩ [a, b])
P (A) =
b−a

P (] − ∞, x] ∩ [a, b])
F (x) = P (] − ∞, x]) =
b−a
32 Chapitre 2. Evénements et Probabilités

2) Aiguille de Buffon de longueur l sur un plancher avec des lattes de longueur 2l, on s’interesse
à avec quelle probabilité touche une ligne du planche ?

Ω = [0, l] × [0, π]
(r, θ) ∈ Ω, si r est la distance du centre de l’aiguille à la ligne la plus proche et θ est l’angle
entre l’aiguille et la ligne. ∀A ∈ B(R2 ) :

λ2 (A ∩ Ω) λ2 (A ∩ Ω)
P (A) = =
λ2 (Ω) πl

Z π
l l
A = {(r, θ) ∈ Ω, r ≤ sin θ} ⇒ λ2 = sin θdθ
2 0 2

donc :
1 Zπ l 1
P (A) = sin θdθ =
πl 0 2 π

Application 2.3.2. Si P est une partie sur (Ω, F) et si B ∈ F, P (B) 6= 0 alors :

PB : F → [0, 1]
A 7→ PB (A) = P P(A∩B)
(B)

est appelée probabilité conditionnelle sachant B = PB (A) = P (A|B).

2.4 Probabilité conditionnelle et indépendance
Soit (Ω, F, P ) un espace de probabilité.
Chapitre 2. Evénements et Probabilités 33

2.4.1 Probabilité conditionnelle
Exemple 2.4.1.
Ω = {(F, F ); (F, G); (G, F ); (G, G)}
la réalisation d’un événement H modifie la probabilité de la réalisation de A.

H = "avoir une fille" = {(F, F ); (F, G); (G, F )}

A = "avoir un garçon"
Si on sait que la famille contient une fille, la probabilité que l’autra ait un garçon est de 32 .

P (A ∩ H) 2/4 2
P (A|H) = = =
P (H) 3/4 3

Propriété 2.4.1. H, P (H) > 0 :
1)
PH : F → [0, 1]
P (A∩H)
A 7→ PH (A) = P (H)
= P (A|H)
est une probabilité sur (Ω, F) :

PH (AC ) = 1 − PH (A)

PH (Ω) = 1
2) Régle de conditionnement successif : si A1 , ..., An , n éléments de F tel que P (A1 ∩...∩An−1 ) 6=
0 alors :

P (A1 ∩ ... ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )...P (An |A1 ∩ ... ∩ An−1 )

3) Formule de Bayes : (Hi )i∈I une famille d’événements disjoints au plus dénombrable tel que
P (Hi ) 6= 0 (∀i ∈ I) et A ∈ F :

P (A|Hj )P (Hj )
P (Hj |A) = P
i∈I P (A|Hi )P (Hi )

Exemple 2.4.2. Lors du partiel, on donne un QCM avec m choix possibles. p désigne la
probabilité de connaître son cours et ainsi de répondre corectement sinon on répond au hasard.
Si l’étudiant repond correctement, quelle est la probabilité qu’il connaisse son cours ? On désigne
les événements suivants :

R = "l’étudiant répond correctement"
34 Chapitre 2. Evénements et Probabilités

H = "l’étudiant répond au hasard"
C = "l’étudiant connait son cours" = H C
On a ainsi :
1
P (R|C) = 1, P (R|H) = , P (C) = p
m
on veut connaître P (C|R) :

P (R|C)P (C) p mp
P (C|R) = = 1 =
P (R|C)P (C) + P (R|H)P (H) p+ m
(1 − p) m(p − 1) + 1

2.4.2 Indépendance
De deux événements
Définition 2.4.1. A et B sont deux événements indépendants si :

P (A ∩ B) = P (A)P (B)

Remarque. 1) si 0 < P (B) < 1 alors A et B indépendants ⇔ P (A|B) = P (A|B C )(= P (A)).
2) Deux événements incompatibles de probabilité non nule ne sont pas indépendants.

Indépendance mutuelle
Exemple 2.4.3.
A = "l’ainé est une fille" P (A) = 1/2
B = "le cadet est un garçon" P (B) = 1/2
C = "les enfants ont le même sexe" P (C) = 1/2

On a :
1
A et B indépendants car P (A ∩ B) = P ({(F, G)}) = = P (A)P (B)
4
A et C indépendants
B et C indépendants
A, B et C sont indépendants deux à deux mais :

P (C|A ∩ B) = 0

La probabilité de C est modifié si A et B sont réalisés. A, B et C ne sont pas mutuellement
indépendants.
Chapitre 2. Evénements et Probabilités 35

Définition 2.4.2. A, B et C sont (mutuellement) indépendants si :

P (A ∩ B) = P (A)P (B)

P (A ∩ C) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
et :
P (A ∩ B ∩ C) = P (A)P (B)P (C)

Définition 2.4.3. Une suite (An )n∈N∗ d’événements est constituée d’événements indépendants
si toute sous famille finie est constituée d’événements indépendants.
!

\ Y
∀I ⊂ N , I fini, P Ai = P (Ai )
i∈I i∈I

Définition 2.4.4 (Epreuves indépendantes répétées). Des épreuves répétées sont dites indé-
pendantes si toute famille d’événements (An )n∈N∗ tel que An ne dépend que du résultat de la
n-ième épreuve est une famille d’événements indépendants.

Exemple 2.4.4 (Le schéma "succès-echec"). Soit :

Ω = {0, 1}N

Si = "succès à la i-ème épreuve"
Les (Si )i∈N∗ sont indépendants et P (Si ) = p. Si on note :

An = "au moins un succès avant la n-ième épreuve"
n
AC SiC
\
n = "aucun succès avant la n-ième épreuve" =
i=1

Alors :
P (An ) = 1 − P (AC
n ) = 1 − (1 − p)
n

Soit :
!  

SiC 
[ \ \
Bn,k = "exactement k succès avant la n-ième épreuve" = Si ∩ 
I⊂{1,..,n},card(I)=k i∈I i∈{1,...,n}\I
| {z }| {z }
union disjointe de probabilité pk (1−p)n−k

pk (1 − p)n−k = Cnk pk (1 − p)n−k
X
P (Bn,k ) =
I∈{1,...,n},card(I)=k
Chapitre 3

Variables aléatoires réelles

3.1 Introduction
On s’intéresse à une fonction des événements élémentaires ({ω}).
Exemple 3.1.1. Dans le cas de la somme des deux dés :
Ω = {1, ..., 6}2 , ω = (i, j)
avec i (respectivement j) est le résultat du dé bleu (respectivement rouge). P équiprobabilité
sur (Ω, P(Ω)). On introduit la fonction :
X : Ω → Ω0
(i, j) 7→ i + j
avec Ω0 = {2, ..., 12}2 = X(Ω), i + j est la somme des 2 chiffres i, j obtenus. On veut savoir
P (A2 ) tel que :
A2 = "la somme des 2 dés soit 2" = {(i, j) ∈ Ω, i+j = 2} = {(i, j) ∈ Ω, X(i, j) = 2} = X −1 ({2}) = {(1
Donc :
1
P (A2 ) = PX ({2}) = P (X = 2) = P (X −1 ({2})) =
36
De même pour P (A3 ) :
A3 = "la somme des 2 dés soit 3" = {(i, j) ∈ Ω, X(i, j) = 3} = X −1 ({3}) = {(2, 1), (1, 2)}
Donc :
2
P (A3 ) = PX ({3}) = P (X = 3) = P (X −1 ({3})) =
36
Plus généralement, pour 2 ≤ k ≤ 12 :

 k−1 si k ≤ 7
36
P (X = k) =
 13−k si k > 7
36

L’application X transporte la probabilité P sur (Ω, P(Ω)) en une probabilité PX sur (Ω0 , P(Ω0 )).
∀B ∈ P(Ω0 ) :
PX (B) = P (X −1 (B)) = P (X ∈ B)
avec :
X −1 (B) = {ω ∈ Ω, X(ω) ∈ B}
image réciproque de l’ensemble B par X.

36
Chapitre 3. Variables aléatoires réelles 37

Définition 3.1.1. Soit deux espaces (Ω1 , F1 ) et (Ω2 , F2 ) et X une application de Ω1 dans Ω2 ,
on dit que X est F1 − F2 mesurable si ∀B ∈ F2 , X −1 (B) ∈ F1 .
La notion de mesurabilité est conservée par composition : somme, produit...

3.2 Généralités
Soit (Ω, F, P ) un espace de probabilité.

3.2.1 Définitions
Définition 3.2.1. Une application X de Ω dans R est une variable aléatoire si c’est une
application F − B(F) mesurable, c’est-à-dire :

∀B ∈ B, X −1 (B) ∈ F (∗)

Remarque. • !
−1
X −1 (Bi )
[ [
X Bi =
i∈I i∈I
!
X −1 X −1 (Bi )
\ \
Bi =
i∈I i∈I

X −1 (AC ) = (X −1 (A))C
• Comme B(R) est engendré par {]a, b], (a, b) ∈ R2 } ou {] − ∞, x], x ∈ R}, pour vérifier
(∗), il suffit :
∀x ∈ R, X −1 (] − ∞, x]) ∈ F
• Si X est une variable aléatoire alors Y = X 2 est une variable aléatoire.

 ∅ si x < 0
Y −1 (]−∞, x]) = {Y ≤ x} = {X 2 ≤ x} =  √ √ −1
√ √
{− x ≤ X ≤ x} = X ([− x, x]) si x > 0
1
• De même pour Z = X
avec ∀ω ∈ Ω, X(ω) 6= 0.

1 1 ≤ xX et X > 0
≤x⇔
X 1 ≥ xX et X < 0

1
 
−1
Z (] − ∞, x]) = ≤x
X




 n o  n
{X ≤ 0}
o  n o
si x = 0
1
= X≤ x
∩ {X > 0} ∪ X ≥ 12 ∩ {X < 0} = x1 ≤ X < 0 si x < 0
n o  n o  n o
1 1 1


 X ≤ x
∩ {X < 0} ∪ X≥ 2
∩ {X > 0} = {X < 0} ∪ X ≥ 2
si x > 0
• Si X est une variable aléatoire et g : R → R une application B(R) − B(R) mesurable alors
Y = g(X) est mesurable car :

Y −1 (B) = {g(X) ∈ B} = {X ∈ g −1 (B)}
| {z }
B(R)
| {z }
F
38 Chapitre 3. Variables aléatoires réelles

3.2.2 Loi d’une variable aléatoire
Définition 3.2.2. Soit X : Ω → R est une variable aléatoire alors l’application PX = P ◦ X −1
sur B(R) définie par :
PX : B(R) → [0, 1]
B 7→ PX (B)

où PX (B) = P (X −1 (B)) = P (X ∈ B est une probabilité sur (R, B(R)) appelée loi de X (sous
P ).

Remarque. X −1 (B) ∈ F donc PX est bien définie.

Démonstration. • PX (R) = P (X ∈ R) = P ({ω ∈ Ω, X(ω) ∈ R}) = P (Ω) = 1
• (Bn )n∈N une famille de boréliens de R disjoints 2 à 2 :
      

Bn  = P X −1  X −1 (Bn ) = P (X −1 (Bn )) =
[ [ [ X X
PX  Bn  = P  PX (Bn )

n∈N n∈N n∈N n∈N n∈N
| {z }
disjoints

Remarque. Deux variables aléatoires X et Y définies sur (Ω, F) peuvent avoir la même loi (sous
P ) sans être égale.

Exemple 3.2.1.

X(i, j) =i résultat du dé bleu
Y (i, j) = j résultat du dé rouge

X et Y ont la même loi :
1
P (X = Y ) =
6

Définition 3.2.3. Soit H ∈ F tel que P (H) > 0 alors loi de X sous PH est appelée loi
conditionnelle de X sachant H.

PX|H : B(R) → [0, 1]
B 7→ PX|H (B) = P (X ∈ B|H)

3.2.3 Fonctions de répartition
Définition 3.2.4. Soit X une variable aléatoire réelle sur Ω alors la fonction de répartition de
X est celle de PX , c’est-à-dire c’est l’application :

FX : R → [0, 1]
x 7→ PX (] − ∞, x]) = P (X ≤ x)

Remarque. Si FX = FY alors X et Y ont la même loi.

Exemple 3.2.2. X(i, j) = i + j
Chapitre 3. Variables aléatoires réelles 39

3.2.4 Variables aléatoires indépendantes
Définition 3.2.5. n variables réelles X1 , ..., Xn définies sur (Ω, F, P ) sont indépendantes si
∀Ai ∈ B(R), ∀i ∈ {1, .., n} :
n n
!
\ Y
P {Xi ∈ Ai } = P (Xi ∈ Ai )
i=1 i=1


X(i, j) =i
Exemple 3.2.3. sont indépendantes (il suffit de le vérifier pour A = {i} et
Y (i, j) =j
B = {j}).

3.3 Variables aléatoires discrètes
(Ω, F, P ) est un espace de probabilité, X : Ω → R une variable aléatoire réelle dont la loi
est notée PX .

3.3.1 Généralités
Définition 3.3.1. X est discrète si X(Ω) est au plus dénombrable.

Remarque. Si X est discrète alors sa loi PX est discrète : il existe A ∈ B(R) tel que PX (R\A) =
0 ⇔ PX (A) = 1.
Si PX est une loi discrète alors :
X
PX = px δx avec px = P (X = x) = PX ({x})
x∈A

A est au plus dénombrable et PX (A) = 1.
Fonctions de répartition :
X
FX (x) = PX (] − ∞, x]) = Py
y∈A,y≤x
40 Chapitre 3. Variables aléatoires réelles

Si A = {xk , k ∈ I}, I fini ou I = N alors :
X X
FX (x) = p xk = pxk 1[xk ,+∞[ (x)
xk ∈A,xk ≤x k∈I
| {z }
δxk (]−∞,x])

Si de plus, xk ≤ xk+1 alors FX est constante sur l’intervalle [xk , xk+1 [.

Proposition 3.3.1. La loi de X est discrète si la somme du saut de sa fonction de répatition
FX vaut 1.
Démonstration. En effet, il existe A au plus dénombrable :
X (∗) X
PX (A) = 1 = PX ({x}) = (FX (x+ ) − FX (x− )) = 1
x∈A x∈A

Réciproquement, FX admet un nombre au plus dénombrable de discontinuité, on la note A :

⇒ PX (A) = 1(via (∗))

3.3.2 Lois discrètes classiques
(1) Loi de Bernouilli : X suit la loi de Bernouilli de paramètre p ∈ [0, 1], X ∼ Bern(p) si :

PX = pδ1 + (1 − p)δ0

P (X = 1) = p P (X = 0) = 1 − p
Exemple 3.3.1. Si A ∈ F alors X = 1A suit une loi de Bernouilli : X ∼ Bern(P (A)).
(2) Loi uniforme sur {x1 , ..., xn } : X ∼ Unif({x1 , ..., xn }) si :
n
X 1
PX = δxi
i=1 n

∀i ∈ {1, ..., n} :
1
P (X = xi ) =
n
Exemple 3.3.2. X(i, j) = i, X ∼ Unif({1, ..., 6}).
Chapitre 3. Variables aléatoires réelles 41

(3) Loi binomiale de paramètres n ∈ N∗ et p ∈ [0, 1] : X ∼ Bin(n, p) si :
n
Cnk pk (1 − p)n−k δi
X
PX =
k=0

P (X = k) = Cnk pk (1 − p)n−k
C’est la loi du nombre de succès dans une suite de n épreuves indépendantes avec 2 issues
possibles :
• succès de probabilité p
• échec de probabilité 1 − p
Exemple 3.3.3. Xi = 1Ai , (Ai )i∈{1,...,n} forme une famille de n variables aléatoires indé-
pendants de même probabilité p :
n
X
Sn = Xi
i=1

c’est la somme de n variables aléatoires de loi de Bern(p) indépendantes.

Sn = Bin(n, p)

(4) Loi hypergéométrique :
Soit une population de N personnes tel que :

M personnes votent pour A
N − M personnes votent pour B

On fait un sondage de n personnes et on regarde X le nombre de personnes parmi les n
personnes qui votent pour A.

C k C n−k 0 ≤ k ≤ M
P (X = k) = M nN −M pour
CN 0 ≤ n − k ≤ N − M

On dit que : X ∼ Hyp(N, M, n).
M (n)
Proposition 3.3.2. Si N
−−−−→ p et si XN ∼ Hyp(N, M (n), n) alors ∀k ∈ {0, ..., n} :
N →+∞

lim P (XN = k) = P (X = k) = Cnk pk (1 − p)n−p si X ∼ Bin(n, p)
N →+∞

(5) Loi géométrique de paramètre p ∈ [0, 1] sur N∗ : X ∼ Geo(p) si :
+∞
p(1 − p)k−1 δk
X
PX =
k=1

∀k ∈ N :
P (X = k) = p(1 − p)k−1
C’est la loi d’apparition du premier succès dans une suite infinie d’épreuves indépendantes
ayant deux issues possibles :
• succès p
• échec 1 − p
Remarque. P (X > n) = (1 − p)n
42 Chapitre 3. Variables aléatoires réelles

(6) Loi de Poisson de paramètre α > 0 : X ∼ Pois(α) si :

X αk −α
PX = e δk
k∈N k!

Autrement dit :
αk −α
∀k ∈ N, P (X = k) = e
k
Proposition 3.3.3. Si (pn )n∈N∗ est une suite dans ]0, 1[ tel que npn → α quand n → +∞
alors ∀k ∈ N :
αk −α
lim Cnk pkn (1 − pn )n−k = e
n→+∞ k!
Si Xn ∼ Bin(n, pn ) et X ∼ Pois(α) alors :

∀k ∈ N, lim P (Xn = k) = P (X = k)
n→+∞

(on dit que Xn converge en loi vers X).

Démonstration. Voir M206 partie Probabilités

Conséquence. Si "n grand et np petit" alors si X ∼ Bin(n, p), on peut approcher P (X = k)
par P (Y = k) où Y ∼ Pois(np).
Caractère universel : La loi de Poisson peut modéliser :
– Nombre de numéros sur un standard téléphonique
– Accidents d’avion
– ...

3.4 Lois à densité
(Ω, F, P ) espace de probabilités. X est une variable aléatoire réelles sur Ω de loi PX .

3.4.1 Définitions et propriétés
Définition 3.4.1. Une densité f est une fonction à valeurs dans R+ telle que :
1) f est définie sur R\K où K fini à valeurs positives ou vide.
2) f est localement Riemann-intégrable sur R\K.
3) L’intégrale généralisée :
Z +∞
I= f (t)dt
−∞

est convergente et I = 1.
Rb
Remarque. Si f est définie, positive sur ]a, b[ tel que a f (t)dt = 1 alors on peut définir g(t) =
f (t)1]a,b[ (t) qui est une densité sur R.

Exemple 3.4.1.
1
g(t) = √ 1]0,1[ (t)
2 t
Chapitre 3. Variables aléatoires réelles 43

Définition 3.4.2. On dit que la loi de X a pour densité F sous P si :
Z b
P (X ∈]a, b]) = f (t)dt pour tout a ≤ b
a

Remarque. Il n’y a pas d’unicité de la densité.
Mais :

Lemme 3.4.1. Si X et Y ont pour densité respective f et g tel que ∃t0 ∈ R :
• f (t0 ) 6= g(t0 )
• f et g sont continues en t0 .
alors X et Y n’ont pas la même loi.

Démonstration.

Soit ε > 0 :
∃α1 > 0 tel que ∀x ∈]t0 − α1 , t0 + α1 [= I1 , f (t) ≤ f (t0 ) + ε
∃α2 > 0 tel que ∀x ∈]t0 − α2 , t0 + α2 [= I2 , g(t) ≥ g(t0 ) − ε
ε est tel que f (t0 ) + ε < g(t0 ) − ε alors [a, b] = I1 ∩ I2 .

∀t ∈ [a, b] : f (t) ≤ f (t0 ) + ε < g(t0 ) − ε ≤ g(t)

alors :
Z b Z b
f (t)dt ≤ (b − a)(f (t0 ) + ε) < (b − a)(g(t0 ) − ε) ≤ g(t)dt ⇒ P (X ∈]a, b]) < P (Y ∈]a, b])
a a
44 Chapitre 3. Variables aléatoires réelles

Proposition 3.4.2 (Fonction de répartition). Si X a pour denstité f alors sa fonction de
répartition F vérifie :
R +∞
(1) F (x) = −∞ f (t)dt, ∀x ∈ R.
(2) F est continue.
(3) si f est continue en t0 alors F est dérivable en t0 et F 0 (t0 ) = f (t0 ).
Démonstration. (1) x ∈ R :
Z x
P (X ∈] − ∞, x]) = f (t)dt −n≤x
−n
[
] − n, x] =] − ∞, x] union croissante
n∈N

donc : Z x Z x
PX (] − ∞, x]) = lim PX (] − n, x]) = lim f (t)dt = f (t)dt
n→+∞ n→+∞ −n −∞

(2) Soit x0 ∈ R, on veut démontrer :

lim F (x) = F (x0 )
x→x0 ,x<x0

∃a ∈ R tel que f est intégrable sur [a, x] ⊂ [a, x0 [. On a :
Z x 
P (X ∈ [a, x]) = f (t)dt = F (x) − F (a) 


Z x Z x0 a  
lim f (x) = f (t)dt = F (x0 ) − F (a)  donc lim
x→x0 ,x<x0
F (x) = F (x0 )
x→x0 ,x<x0 a a  
| {z } 

int. déf ou gén. conv en x0

(3) f continue en t0 :
Z
t0 +h Z t0 +h
|F (t0 + h) − F (t0 ) − f (t0 )h| = f (t)dt − f (t )dt

0
t0 t0
Z
t0 +h (∗) Z t0 +h
= (f (t) − f (t0 ))dt ≤ |f (t) − f (t0 )|dt


t0 t0

Si h < 0, (∗) devient : Z t0
≤ |f (t) − f (t0 )|dt
t0 +h

La continuité de f en t0 implique :

∀ε > 0, ∃δ > 0 tel que si |t − t0 | < δ ⇒ |f (t) − f (t0 )| ≤ ε

On prend |h| < δ :

F (t
0 + h) − F (t0 )
⇒ |F (t0 + h) − F (t0 ) − hf (t0 )| ≤ ε|h| ⇒ − f (t0 ) ≤ ε


h

donc : F 0 (t0 ) = f (t0 ).

Remarque. Si FX est une fonction à densité réelle continue alors X n’est pas nécessairement à
densité.
Chapitre 3. Variables aléatoires réelles 45

Theorème 3.4.3. Si FX est une fonction à densité réelle C 1 par morceaux, c’est-à-dire FX est
continue sur R, dérivable sur R\{a1 , ..., an } et à dérivée continue sur chaque intervalle ]ai , ai+1 [
pour 0 ≤ i ≤ n et tel que a0 = −∞, ai < ai+1 (∀i ∈ {0, ..., n}), an+1 = +∞, de dérivée f
(définie sur R{a1 , ..., an }) alors X est a densité f .

Démonstration. Si f est continue sur ]ai , ai+1 [ alors elle admet des primitives de la forme :
Z x
H(x) = f (t)dt + c où α ∈]ai , ai+1 [
α

et F est une primitive de f ⇒ c = F (α) :
Z x
F (x) − F (α) = f (t)dt
α

∀[a, b] ⊂]ai , ai+1 [ :
Z b Z b
FX (b) − FX (a) = f (t)dt ⇒ P (X ∈]a, b]) = f (t)dt
a a

sinon on utilise la relation de Chasles pour les intégrales généralisées.

Remarque. Si X est à densité alors P (X = x) = 0, ∀x ∈ R.
Z b
P (X ∈]a, b]) = P (x ∈ [a, b]) = P (X ∈ [a, b[) = f (t)dt
a

3.4.2 Lois à densité classiques
(1) Loi uniforme sur un intervalle [a, b] (a < b) : X ∈ Unif([a, b]) si ∀I ∈ B(R) :

λ1 (I ∩ [a, b])
P (X ∈ I) =
b−a
(PX est la probabilité uniforme sur [a, b])

Sa fonction de répartition F :

si − ∞ < x < a
0

λ1 (] − ∞, x] ∩ [a, b]) x−a

F (x) = =  x−b si a ≤ x < b
b−a 

1 si b ≤ x < +∞
46 Chapitre 3. Variables aléatoires réelles

Theorème 3.4.4. Si U est une variable aléatoire réelle de loi uniforme sur [0, 1] et si F
est la fonction de répartition d’une variable aléatoire réelle X telle que F est strictement
croissante et continue sur R alors Y = F −1 (U ) a même loi que X.
Démonstration. F est bijective de R dans ]0, 1[. Y est définie sur {U =]0, 1[} qui est de
probabilité 1. ∀x ∈ R :
P (Y ≤ x) = P ({F −1 (U ) ≤ x} ∩ {U ∈]0, 1[}) = P (U ≤ F (x))
= λ1 (] − ∞, F (x)] ∩ [0, 1]) = λ1 ([0, F (x)]) = F (x)

Remarque. Si X ∼ Unif([a, b]) alors X a pour densité :
1
f (t) = 1[a,b] (t)
b−a

(2) Loi exponentielle de paramètre a > 0 : X ∼ Exp(a) si X a pour densité :
f (t) = ae−at 1[0,+∞[ (t)
X a pour fonction de répartition :

1 − eax si x ≥ 0
F (x) = 
0 si x < 0

Fonctions de survie :

e−ax si x ≥ 0
G(x) = P (X > x) = 1 − F (x) =
1 si x < 0

Theorème 3.4.5 (Absence de mémoire). Si X suit une loi exponentielle alors ∀t ∈ R,
∀s ∈ R+ :
P (X > t + s | X > t) = P (X > s) (∗)
et réciproquement si X vérifie la propriété (∗), ∀t ∈ R, ∀s ∈ R+ alors X suit une loi
exponentielle.
Chapitre 3. Variables aléatoires réelles 47

Remarque. si X ∈ Exp(a) alors P (X ≥ 0) = 1. On dit que X est "presque sûrement"
positive.
(3) Loi normale ou loi gaussienne : X ∼ N (m, σ), m ∈ R, σ ∈ R+ si X a pour densité :
!
1 (t − m)2
f (t) = √ exp t∈R
2πσ 2σ 2

La loi N (0, 1) est la loi normale standard centrée réduite.
X−m
Proposition 3.4.6. Si X ∼ N (m, σ) alors Y = σ
suit la loi normale centrée réduite.

Démonstration.
X −m
 
P (Y ∈ [a, b]) = P ∈ [a, b] = P (X ∈ [m + σa, m + σb])
σ
!
Z m+σb
1 (t − m)2
= √ exp
m+σa 2πσ 2σ 2
t−m
On pose u = σ
:
Z b
1
= √ exp(−u2 /2)du
a 2π

La loi N(0, 1) :
1
f (t) = √ exp(−t2 /2)

Z x
1
Φ(x) = √ exp(−t2 /2)dt
−∞ 2π
est donnée par la table suivante.
48 Chapitre 3. Variables aléatoires réelles
Chapitre 3. Variables aléatoires réelles 49

La table donne les valeurs de Φ(x) pour x positif. Lorsque x est négatif on utilise la relation :

Φ(x) = 1 − Φ(−x)

qui résulte de la parité de la densité gausienne N (0, 1).

Exemple : pour x = −1, 8, on trouve : Φ(x) = 1 − 0, 9641 = 0, 0359.
Pour les "très grandes valeurs de x" (c’est-à-dire |x| ≥ 4), on dispose du résultat suivant
qui donne une évaluation de la "queue" de la loi normale.
Pour tout x > 0, on a l’encadrement :
! !
1 1 1 x2 1 1 x2
 
− 3 √ exp − < 1 − Φ(x) < √ exp −
x x 2π 2 x 2π 2

(4) Loi de Cauchy : X ∼ Cau(0, 1) si X a pour densité :
1 1
f (t) =
π 1 + t2
1 1
F (x) = arctan(x) +
π 2
Chapitre 4

Espérance d’une variable aléatoire

4.1 Introduction
Soit X une variable aléatoire discrète à valeurs dans X(Ω) = {xi , i ∈ I} avec I est au plus
dénombrable. La valeur moyenne de X est donnée par son espérance :
X
E(X) = xi P (X = xi ).
i∈I

Si I est fini, E(X) est bien définie. Si I est dénombrable, E(X) est bien définie si la famille
{xi P (X = xi ), i ∈ I} est sommable ou bien si I = N, E(X) est bien définie si
+∞
X
|xi |P (X = xi ) < +∞.
i=0

Donc, dans le cas discret, X
E(X) = xP (X = x) (∗)
x∈X(Ω)

mais dans le cas à densité, on a besoin de calculer une intégrale car P (X = x) = 0, ∀x ∈ R
(voir la remarque de la section 3.4.1). Donc
Z
E(X) = xf (x)dx. (∗∗)
R
R x+dx
On a « f (x)dx ' P (X ∈ [x, x + dx]) »= x f (t)dt.

x x + dx
Les conditions (∗) et (∗∗) sont définies si respectivement :
X Z
|x|P (X = x) < +∞ et |x|f (x)dx < +∞.
R
x∈X(Ω)

Si X est discrète et Y à densité, on veut savoir comment définir E(X + Y ).

50
Chapitre 4. Espérance d’une variable aléatoire 51

R
1. Ω X(ω)dP (ω). C’est l’intégrale de Lebesgue mais ce n’est pas dans le programme du
cours (voir M304).
R +∞ R +∞
2. Pour X positive, E(X) = 0 P (X > t)dt = 0 (1−F (t))dt. Une illustration est donnée
ci-dessous.

1

E(X)

x1 x2 ··· xn

4.2 Espérence de variables aléatoires réelles positives
(Ω, F, P ) espace de probabilité. X variable aléatoire réelle positive définie sur Ω, on note F
sa fonction de répartition.

4.2.1 Définitions
Définition 4.2.1. L’espérance de X (sous P ) est :
Z +∞ Z +∞
E(X) = P (X > t)dt = (1 − F (t))dt
0 0

+
Remarque. E(X) est définiR comme élément de R car t 7→ RP (X > t) est décroissante sur R+ .
On a ainsi l’existence de 0x P (X > t)dt, ∀x > 0 et x →
7 x
0 P (X > t)dt est croissante donc
+
admet une limite dans R .
Remarque. L’espérance ne dépend que de la loi donc la définition est aussi valable si X est
presque sûrement positive (c’est-à-dire P (X ≥ 0) = 1).

Définition 4.2.2. X est intégrable si E(X) < +∞.

Exemple 4.2.1. Si X est bornée :

∃M ∈ R+ , X(ω) ≤ M, ∀ω ∈ Ω

Alors :
P (X > t) = 0 ∀t ≥ M
et donc : Z +∞ Z M
E(X) = P (X > t)dt = P (X > t)dt < +∞
0 0

Plus généralement si P (X > t) ≤ ct−α , pour α > 1 et pour t assez grand alors X est intégrable.
52 Chapitre 4. Espérance d’une variable aléatoire

4.2.2 Exemples
Espérance d’une constante (positive)
X(ω) = c, ∀ω ∈ Ω :

On a ainsi : E(X) = c (valable aussi si P (X = c) = 1.

Espérence d’une indicatrice
X = 1A , A ∈ F, X ∼ Bern(p) avec p = P (A) :

On a ainsi : E(X) = P (A).
Remarque. Si X ∼ Bern(p) alors E(X) = p.

Espérence d’une variable aléatoire étagée positive
Définition 4.2.3. X est une variable aléatoire étagée si X(Ω) est fini.

Proposition 4.2.1. Si X est une varible aléatoire étagée positive. On note X(Ω) = {xk , 1 ≤
k ≤ n}. Alors :
n
X
E(X) = xk P (X = xk )
k=1

Démonstration. Soit : n
X
X= xk 1 A k
k=1
avec :
Ak = X −1 ({xk }) = {ω ∈ Ω, X(ω) = xk }
On définit : n
X
PX = pk δxk avec pk = P (Ak ) = P (X = xk )
k=1

On a : Z +∞
E(X) = P (X > t)dt
0
Chapitre 4. Espérance d’une variable aléatoire 53

Ainsi : n
X
P (X > t) = PX (]t, +∞[) = pk δxk (]t, +∞[)
k=1
avec : 
1 si xk ∈]t, +∞[
δxk (]t, +∞[) = = 1]−∞,xk [ (t)
0sinon

n
X
P (X > t) = pk 1]−∞,xk [ (t)
k=1

On a ainsi :
n n Z +∞ n
Z +∞ Z +∞ ! 
X X X
E(X) = P (X > t)dt = pk 1[0,xk [ (t) dt = pk 1[0,xk [ (t)dt = p k xk
0 0 k=1 k=1 0 k=1

et finalement : n
X
E(X) = xk P (X = xk )
k=1

Espérance d’une variable aléatoire X positive à densité
Proposition 4.2.2. Si X est positive et a pour densité f alors :
Z +∞
+
E(X) = xf (x)dx ∈ R
0

Démonstration. Z +∞ Z +∞
P (X > t) = f (x)dx = f (x)1[t,+∞[ (x)dx
t 0
On a ainsi :
Z +∞ Z +∞  Z +∞ Z +∞ 
FT
E(X) = f (x)1[t,+∞[ (t)dx dt = f (x)1[t,+∞[ (x)dt dx
0 0 0 0
Z +∞ Z +∞  Z +∞
= f (x) 1[0,x] (t)dt dx = xf (x)dx
0 0 0

4.2.3 Propriétés
Proposition 4.2.3. Si X est une variable positive et c ∈ R+ alors :

E(cX) = cE(X)

Démonstration. 1) c = 0 évident.
2) si c > 0 : Z +∞ Z +∞
E(cX) = P (cX > t)dt = P (X > t/c)
0 0
t
On pose : u = c Z +∞
E(cX) = c P (X > u)du = cE(X)
0
54 Chapitre 4. Espérance d’une variable aléatoire

Croissance de l’espérance
Proposition 4.2.4 (Croissance de l’espérance). Si X et Y sont deux variables aléatoires posi-
tives définies sur Ω tel que X ≤ Y (∀ω ∈ Ω, X(ω) ≤ Y (ω)) alors E(X) ≤ E(Y ).
Démonstration. Z +∞
E(X) = P (X > t)dt
0
On a l’inclusion {X > t} ⊂ {Y > t} ainsi P (X > t) ≤ P (Y > t) et :
+ Z +∞
dans R
E(X) ≤ P (Y > t)dt = E(Y )
0

Conséquence. Si X ≤ Y :
• Si Y est intégrable alors X est intégrable.
• Si X n’est pas intégrable alors X n’est pas intégrable.

Approximation d’une variable aléatoire positive par une suite croissante de va-
riables aléatoires étagées positives
Soit X une variable aléatoire.

Xn étagée tel que la suite (Xn )n∈N est croissante. On a :
Xn (ω) = Xn+1 (ω) ∀ω ∈ Ω
La suite (Xn ) converge simplement vers X.

n si X(ω) ≥ n
Xn (ω) = 
k2−n si k2−n ≤ X(ω) ≤ (k + 1)2n et 0 ≤ k ≤ n2−n − 1
n2n

k2−n 1Ak,n
X
Xn =
k=0

On a : Ak,n = X ([k2 , (k + 1)2 [) pour 0 ≤ k ≤ 2n − 1 et An2n ,n = X −1 [n, +∞[. Ainsi
−1 −n −n

(Ak,n )0≤k≤2n forment une partition de Ω. Ak,n ∈ F car X est F − B(R) mesurable donc Xn est
une variable aléatoire qui prend un nombre fini de valeurs (n2n +1). A ω fixé, Xn (ω) ≤ Xn+1 (ω).
Soit n0 = [X(ω)] 1 :
1
[x] est la partie entière x
Chapitre 4. Espérance d’une variable aléatoire 55

• n ≤ n0 :
X(ω) ≥ n0 ≥ n ⇒ Xn (ω) = n
• n > n0 :
Xn (ω) = max{l2−n , l2−n ≤ X(ω) = k(n, ω)2−n }
avec k(n, ω) = [2n X(ω)] :
– n ≤ n + 1 ≤ n0 :
Xn (ω) = n ≤ Xn+1 (ω) = n + 1
– n0 < n ≤ n + 1 :

Xn (ω) = k(n, ω)2−n = 2k(n, ω)2−(n+1) ≤ X(ω)

car soit :
k(n + 1, ω) = max{l tel que l2−(n+1) ≤ X(ω)}
ainsi
2k(n, ω) ≤ k(n + 1, ω) ⇒ Xn (ω) ≤ Xn+1 (ω)
avec :
Xn+1 (ω) = k(n + 1, ω)2−(n+1)
– Xn0 (ω) ≤ Xn0 +1 (ω) :

Xn0 (ω) = n0 = 2n0 +1 n0 2−(n0 +1) ≤ Xn0 +1 (ω)

On a :
2n0 +1 n0 ≤ k(n0 + 1, ω)
et :
Xn0 +1 (ω) = k(n0 + 1, ω)2−(n0 +1)
⇒ (Xn (ω) = k2−n ).
– Si n > n0 alors :

k2−n ≤ X(ω) < (k + 1)2−n ⇒ Xn (ω) ≤ X(ω) ≤ Xn (ω) + 2−n ⇒ 0 ≤ X(ω) − Xn (ω) ≤ 2−n

Lemme 4.2.5. Si Xn converge en croissant vers X alors P (Xn > t) converge en croissant vers
P (X > t) quand n → +∞ (à t ≥ 0 fixé).

Démonstration. Xn ≤ Xn+1 et {Xn > t} ⊂ {Xn+1 > t} donc P (Xn > t) ≤ P (Xn+1 > t) donc
{P (Xn > t)}n∈N est croissante. Soit An = {Xn > t} donc :
+∞
[
A= An = {X > t}
n=0

car :
– si ω ∈ A alors ∃n ∈ N tel que Xn (ω) > t. Or X(ω) ≥ Xn (ω) donc X(ω) > t donc :
A ⊂ {X > t}
– si ω ∈ {X > t}, X(ω) > t :

∀ε > 0, ∃n0 ∈ N, ∀n ≥ n0 , X(ω) − ε ≤ Xn (ω) ≤ X(ω)

On prend ε = X(ω) − t > 0 ⇒ à partir de n0 = n0 (t, ω), Xn (ω) > t, ω ∈ An . Donc
∀n ≥ n0 , ω ∈ A. Cela implique que {X > t} ⊂ A.
56 Chapitre 4. Espérance d’une variable aléatoire

⇒ P (A) = lim P (An ) ⇔ P (X > t) = lim P (Xn > t)
n→+∞ n→+∞

Theorème 4.2.6 (Beppo-Levi). Soit (Xn )n∈N une suite croissante de variables aléatoires po-
sitives qui converge simplement vers X alors :

lim E(Xn ) = E(X)
n→+∞

Démonstration. On se base sur le théorème suivant :

Theorème 4.2.7. Si (fn )n∈N est une suite de fonctions qui sont décroissantes, qui converge
simplement vers f alors :
Z b Z b
fn (t)dt −−−−→ f (t)dt
a n→+∞ a

fn (t) = P (Xn > t) est une suite de fonctions décroissantes (en t). On a ainsi avec le lemme
fn (t) → f (t) = P (X > t) quand n → +∞ :
Z b Z b
fn (t)dt −−−−→ f (t)dt, ∀b ∈ R+∗
0 n→+∞ 0

Z b Z b
P (Xn > t)dt −−−−→ P (X > t)dt, ∀b ∈ R+∗
0 n→+∞ 0

– si X est intégrable :
Z +∞
∀ε > 0 tel que P (X > t)dt < ε
b

On a : P (Xn > t) ≤ P (X > t) :
Z +∞ Z +∞
0 ≤ E(X) − E(Xn ) = P (X > t)dt − P (Xn > t)dt
0 0

Z b Z b Z +∞ Z +∞
= P (X > t)dt − P (Xn > t)dt + P (X > t)dt − P (Xn > t)dt ≤ 2ε
|0 {z 0 } |b {z b }
≤ε pour n assez grand ≤ε

– si X n’est pas intégrable : ∀A > 0, ∃b ∈ R+∗ tel que :
Z b
P (X > t)dt ≥ A
0

A partir d’un certain rang n0 = n0 (A) :
Z b Z b
A A
P (Xn > t)dt ≥ P (X > t)dt − ≥
0 0 2 2

Cela veut dire que :
lim E(Xn ) = +∞ = E(X)
n→+∞
Chapitre 4. Espérance d’une variable aléatoire 57

Additivité de l’espérance
Theorème 4.2.8. Si X et Y sont deux variables aléatoires positives définies sur Ω alors :
E(X + Y ) = E(X) + E(Y )
Démonstration. – Si Xn et Yn sont étagées (positives) alors E(Xn + Yn ) = E(Xn ) + E(Yn ).
– Si X et Y sont quelconques (positives) alors il existe (Xn )n∈N tel que chaque Xn soit étagée
et Xn (ω) converge en croissant sur X(ω), ∀ω ∈ Ω et il existe (Yn )n∈N tel que chaque Yn
soit étagée et Yn (ω) converge en croissant sur Y (ω), ∀ω ∈ Ω alors Zn (ω) := Xn (ω)+Yn (ω)
converge simplement en croissant vers Z(ω) := X(ω) + Y (ω) (Zn est étagée). D’après le
théorème de Beppo-Levi : E(Zn ) → E(Z) avec n → +∞, cela implique E(Xn ) + E(Yn ).
On réapplique le théorème de Beppo-Levi :
E(Xn ) + E(Yn ) −−−−→ E(X) + E(Y ) = E(X + Y )
n→+∞

Corollaire (Inversion séries-espérance). Si (Xn )n∈N est une suite de variables aléatoires posi-
tives et si :
+∞
X
S(ω) = Xn (ω) fini
n=0
alors S est une variable aléatoire positive sur (Ω, F) et :
+∞
X
E(S) = E(Xn )
n=0

Démonstration.
S = lim Sn
n→+∞
où : n
X
Sn = Xk et (Sn )n∈N est croissante
k=1
Beppo-Levi nous dit que :
lim E(Sn ) = E(S)
n→+∞
et par linéarité :
n
X
E(Sn ) = E(Xk )
k=1

Corollaire (Espérance d’une variable positive discrète). Si X est une variable aléatoire positive
discrète alors : X +
E(X) = xP (X = x) dans R
x∈X(Ω)

Démonstration. Si X(Ω) est fini, X étagée, si X(Ω) est dénombrable :
+∞
X
X= xk 1 A k
k=0

Ak = {X = xk } = X −1 ({xk })
+∞
X +∞
X +∞
X
E(X) = E(xk 1Ak ) = xk P (Ak ) = xk P (X = xk )
k=0 k=0 k=0
58 Chapitre 4. Espérance d’une variable aléatoire

Inégalité de Markov
Lemme 4.2.9. X variable aléatoire positive :
Z +∞ Z +∞
E(X) = P (X > t)dt = P (X ≥ t)dt
0 0

Démonstration. Z +∞ Z +∞
I= P (X > t)dt J= P (X ≥ t)dt
0 0

– P (X ≥ t) ≥ P (X > t) car {X > t} ⊂ {X ≥ t} ⇒ J ≥ I.

Z +∞ Z +∞ Z 0 Z +∞
J= P (X ≥ t)dt = P (X ≥ s+ε)ds = P (X ≥ s + ε) ds + P (X ≥ s + ε)ds ≤ I+
0 −ε −ε | {z } 0 | {z }
≤1 ≤P (X>s)
| {z } | {z }
≤ε ≤I

Donc J ≤ I ⇒ J = I.

Proposition 4.2.10 (Inéaglité de Markov). X variable aléatoire positive alors :

E(X)
∀x > 0, P (X ≥ x) ≤
x
Remarque. La Proposition précédente n’est intéressant que si E(X) ≤ X.

Démonstration.
Z +∞ Z x Z x
E(X) = P (X ≥ t)dt ≥ P (X ≥ t)dt ≥ P (X ≥ x)dt = xP (X ≥ x)
0 0 0

Si t ≤ x alors P (X ≥ t) ≥ P (X ≥ x).

Corollaire. Si X est une variable aléatoire positive : E(X) = 0 ⇔ P (X = 0) = 1, c’est-à-dire
X est nulle presque surement.

Démonstration. P (X = 0) = 1 ⇔ P (X > 0) = 0 (X positive).
Chapitre 4. Espérance d’une variable aléatoire 59

∗ si P (X > 0) = 0 alors ∀t ∈ R+ , P (X > t) = 0 donc :
Z +∞
E(X) = P (X > t)dt = 0
0

∗ si E(X) = 0 alors :
[  1

{X > 0} = X>
n∈N∗ n

P (X > 0) = lim P (X > 1/n)
n→+∞

E(X)
P (X > 1/n) = =0
1/n
∀n ∈ N∗ , P (X > 1/n) = 0 ⇒ P (X > 0)
E(X)
Donc : P (X > x) ≤ x
.

Proposition 4.2.11. Si X est une variable aléatoire intégrable alors lim xP (X ≥ x) = 0.
x→+∞

Démonstration. Z +∞
x
0≤ P (X ≥ x) ≤ P (X ≥ t)dt
2 x/2
| {z }
−x→+∞
−−−→0
car : Z +∞
P (X ≥ t)dt < +∞
0

4.3 Espérance d’une variable aléatoire réelle
4.3.1 Définitions et généralités
Notation. Si x ∈ R :
– x+ = max(x, 0)
– x− = max(−x, 0)
– |x| = x+ + x− et x = x+ − x−
60 Chapitre 4. Espérance d’une variable aléatoire

X variable aléatoire alors X+ et X− sont des variables aléatoires positives.

X = X+ − X −

E(X) = E(X+ ) − E(X+ )
| {z }
a un sens si E(X+ )<+∞ et E(X− )<+∞

Définition 4.3.1. X est intégrable si E(|X|) < +∞.

Remarque. E(|X|) < +∞ si et seulement si E(X+ ) < ∞ et E(X− ) < +∞ car :

0 ≤ X+ ≤ |X|
0 ≤ X− ≤ |X|

et |X| = X+ + X− .

Définition 4.3.2. L’espérance d’une variable aléatoire X intégrable est E(X) = E(X+ ) −
E(X− ).

Proposition 4.3.1.
Z +∞ Z 0 Z +∞ Z 0
E(X) = P (X > t)dt − P (X ≤ t)dt = (1 − F (t))dt − F (t)dt
0 −∞ 0 −∞

Démonstration. Z +∞
E(X+ ) = P (X+ > t)dt
0

t ≥ 0, on a : X+ (ω) > t si et seulement si X(ω) > t.
Z +∞ Z +∞
E(X+ ) = P (X > t)dt E(X− ) = P (X− > t)dt
0 0

t ≥ 0, on a : X− (ω) > t si et seulement si X(ω) < −t.
Z +∞ Z 0
E(X− ) = P (X < −t)dt = P (X < u)du
0 −∞
Chapitre 4. Espérance d’une variable aléatoire 61

Cas d’une varialble discrète

Proposition 4.3.2. Soit X une variable aléatoire discrète alors X est intégrable si et seulement
si :
X
|x|P (X = x) < +∞
x∈X(Ω)

et dans ce cas :
X
E(X) = xP (X = x)
x∈X(Ω)

Remarque. C’est encore valable si la loi de X est discrète (en remplaçant X(Ω) par A =
{x P (X = x) 6= 0}, P (A) = 1.

Démonstration.

=
X(Ω)∩]0, +∞[


X+ (Ω) = {X+ (ω), ω ∈ Ω} = X(Ω)∩]0, +∞[ ∪{0}

| {z }
B

est au plus dénombrable. X+ est discrète si :
X
E(X+ ) = xP (X = x)
x∈B

Si X(Ω)∩] − ∞, 0] 6= ∅ alors :

− |{X(Ω)∩]{z− ∞, 0]}} si X(Ω)∩]0, +∞[= ∅


X− (Ω) = {X− (ω), ω ∈ Ω} = B0
−B 0 ∪ {0} si X(Ω)∩]0, +∞[6= ∅

X X X
E(X− ) = xP (X− = x) = xP (X− = x) = − (−x)P (X = −x)
x∈X− (Ω) x∈−B 0 −x∈B 0

X X
=− xP (X = x) = |x|P (X = x)
x∈B 0 x∈B 0
X X
E(|X|) = E(X+ ) + E(X− ) = |x|P (X = x) = |x|P (X = x)
x∈B 0 ∪B x∈X(Ω)

On a :
B 0 ∪ B = X(Ω) (B ∩ B 0 = ∅)

Si E(|X|) < +∞ et :
X X X X
E(X) = E(X+ )−E(X− ) = xP (X = x)+ xP (X = x) = xP (X = x) = xP (X = x)
x∈B x∈B 0 x∈B∪B 0 x∈X(Ω)

Remarque. A savoir : espérance des variables aléatoires discrètes "classiques".
62 Chapitre 4. Espérance d’une variable aléatoire

Cas d’une variable aléatoire à densité
Proposition 4.3.3. Si X a pour densité f (sous P ) alors X est intégrable si et seulement si :
Z +∞
|x|f (x)dx < +∞
−∞

et dans ce cas : Z +∞
E(X) = xf (x)dx
−∞

Démonstration.
Z +∞ Z +∞ Z +∞ Z +∞
E(X+ ) = P (X+ > t)dt = P (X > t)dt = f (x)dxdt
0 0 0 t
Z +∞ Z +∞ Z +∞
= f (x)1[0,x] (t)dtdx = xf (x)dx
0 0 0
Z +∞ Z +∞ Z 0
E(X− ) = P (X− > t)dt = P (X < −t)dt = P (X < t)dt
0 0 −∞
Z 0 Z t Z 0 Z 0 Z 0
= f (x)dxdt = f (x)1[x,0] (t)dtdx = − f (x)dx
−∞ −∞ −∞ −∞ −∞
Z +∞ Z 0 Z +∞
E(|X|) = E(X+ ) + E(X− ) = xf (x)dx = (−x)f (x)dx = |x|f (x)dx
0 −∞ −∞
et si l’intégrale est convergente alors :
Z +∞ Z 0 Z +∞
E(X) = E(X+ ) − E(X− ) = xf (x)dx − (−x)f (x)dx = xf (x)dx
0 −∞ −∞

4.3.2 Propriétés
Proposition 4.3.4 (Linéarité). 1) si X et Y sont définies sur (Ω, F, P ) et intégrables alors
E(X + Y ) = E(X) + E(Y ).
2) si c ∈ R et X intégrable alors E(cX) = cE(X).
Remarque. L1 (Ω, F, P ) : l’ensemble des variables réelles intégrables.
Démonstration. 1. Z = X + Y
– |Z| ≤ |X| + |Y | donc :
E([Z[) ≤ E(|X| + |Y |) = E(|X|) + E(|Y |) < +∞
⇒ Z intégrable.
– Z = Z+ − Z− = X+ − X− + Y+ − Y−
Z+ + X− + Y− = Z− + X+ + Y+
| {z } | {z }
v.a positive v.a positive

E(Z+ + X− + Y− ) = E(Z− + X+ + Y+ )
Linéarité de l’espérance de variables aléatoires positives :
E(Z+ ) + E(X− ) + E(Y− ) = E(Z− ) + E(X+ ) + E(Y+ )

E(Z) = E(Z+ ) − E(Z− ) = E(X+ ) − E(X− ) + E(Y− ) − E(Y− ) = E(X) + E(Y )
Chapitre 4. Espérance d’une variable aléatoire 63

2. |cX| = c|X| donc E(|cX|) < +∞ si et seulement si E(|X|) < +∞.

E(cX) = E((cX)+ ) − E((cX)− )

c>0
(cX+ ) = cX+ c(X− ) = cX−
E(cX) = cE(X+ ) − cE(X− ) = cE(X)
c≤0
(cX)+ (ω) = cX(ω) = −cX− (ω) si cX(ω) ≥ 0 ⇒ X(ω) ≤ 0
(cX)+ = −cX−

(cX)− (ω) = −cX(ω) = −cX+ (ω) si cX(ω) ≤ 0 ⇒ X(ω) ≥ 0

E(cX) = E((−c)X− ) − E((−c)X+ ) = −cE(X− ) + cE(X+ ) = cE(X)

Proposition 4.3.5. 1) Si X et Y sont dans L1 (Ω, F, P ) et si X ≤ Y alors E(X) ≤ E(Y ).
2) Si X est intégrable alors |E(X)| ≤ E(|X|).

Démonstration. 1) X ≤ Y alors Z = Y − X ≥ 0 donc :
– Z est intégrable
– E(Z) ≥ 0
Par linéarité E(Z) = E(Y ) − E(X) ⇒ E(Y ) ≥ E(X).
2) −|X| ≤ X ≤ |X| par 1) :

E(−|X|) = −E(|X|) ≤ E(X) ≤ E(|X|)

4.4 Moments
4.4.1 h-moments
But. Si h : R → R borélienne (B(R)−B(R) mesurable) et X une variable aléatoire réelle sur
(Ω, F, P ) alors h(X) est une variable aléatoire réelle et on veut calculer E(h(X)) sans calculer
la loi de h(X) donc à partir de la loi de X uniquement.

X discrète
Proposition 4.4.1. Si X est une variable aléatoire discrète et h : R → R borélienne alors :
X
E(X) = |h(x)|P (X = x)
x∈X(Ω)

et si E(|h(X)|) < +∞ alors :
X
E(h(X)) = h(x)P (X = x)
x∈X(Ω)
64 Chapitre 4. Espérance d’une variable aléatoire

Remarque. La Proposition 4.4.1 reste encore valable si la loi de X est discrète en remplaçant
X(Ω) par :
A = {x ∈ R, P (X = x) > 0}
Démonstration. • On pose Y = |h(X)|, on a que Y est une variable aléatoire et Y est
discrète car :
Y (Ω) = {|h|(X(ω)), ω ∈ Ω}
est au plus dénombrable. X
E(Y ) = yP (Y = y)
y∈Y (Ω)

Pour y ∈ Y (Ω), on pose :

By = {x ∈ X(Ω), |h(x)| = y} ⊂ X(Ω)

donc est au plus dénombrable et non vide.
[
{Y = y} = {X = x} (disjointe)
x∈By

X X X X X
yP (Y = y) = y P (X = x) = |h(x)|P (X = x) (∗)
y∈Y (Ω) y∈Y (Ω) x∈By y∈Y (Ω) x∈By

Par le principe de sommation par paquets :
X
(∗) = |h(x)|P (X = x)
x∈X(Ω)

X
• si |h(x)|P (X = x) < +∞ alors la famille {h(x)P (X = x)}x∈XΩ) est sommable et
x∈X(Ω)
on conclut par principe de sommation par paquets :
X
E(h(X)) = h(x)P (X = x)
x∈X(Ω)

X à densité f
Définition 4.4.1. h : [a, b] → R est une fonction réglée si h est limite uniforme de fonctions
en escaliers.

On peut montrer que le nombre de points de discontinuité d’une fonction réglée est au plus
dénombrable.

Exemple 4.4.1. Les
1) fonctions en escaliers
2) fonctions monotones, différences de fonctions monotones
3) fonctions continues
sur [a, b] sont des fonctions réglées.

Remarque. h réglée sur [a, b] alors h est Riemann-intégrable sur [a, b] et h est bornée sur [a, b].
De plus h admet une limite à droite et une limite à gauche en tous points de [a, b].
Chapitre 4. Espérance d’une variable aléatoire 65

Proposition 4.4.2. Si X est une variable aléatoire réelle de densité f sur R et si h est une
fonction réglée sur tout intervalle [a, b] ⊂ R alors :
Z ∞
E(|h(X)|) = |h(x)|f (x)dx
−∞

si E(|h(X)|) < +∞ alors :
Z +∞
E(h(X)) = h(x)f (x)dx
−∞

Démonstration. 1) h est une fonction en escalier sur [a, b] positive. a = x0 < x1 < ... < xn = b :
n−1
X n
X
h(x) = ak 1]xk ,xk+1 [ + bk 1{xk }
k=0 k=0

n−1
X n
X
h(X) = ak 1X −1 (]xk ,xk+1 [) + bk 1X=xn
k=0 k=0

n−1
X n
X n−1
X n
X
E(h(X)) = ak E(1X −1 (]xk ,xk+1 [) )+ bk E(1X=xn ) = ak P (X ∈]xk , xk+1 [)+ bk P (X = xn )
k=0 k=0 k=0 k=0

n−1
X Z xk+1 Z +∞ X Z +∞
= ak f (x)dx = ak 1]xk ,xk+1 [ (x)f (x)dx = h(x)f (x)dx
k=0 xk −∞ −∞

2) h fonction positive réglée sur [a, b] et nulle en dehors, h est limite uniforme de fonctions en
secaliers (ϕn )n∈N∗ .
h(X) = ϕn (X) + h(X) − ϕn (X)
| {z } | {z }
intégrable (∗)

(∗) : ∀ε > 0, ∃Nε ∆ ∈ N tel que ∀n ≥ Nε , |h(X) − ϕn (X)| < ε
∀n > Nε , E(h(X)) = E(ϕn (X)) + E(h(X) − ϕn (X))
|E(h(X)) − E(ϕn (X))| = |E(h(X) − ϕn (X))| ≤ E(|h(X) − ϕn (X)|) ≤ ε
Par 1) :
Z +∞ Z b Z b
?
E(ϕn (X)) = ϕn (x)f (x)dx = ϕn (x)f (x)dx −−−−→ h(x)f (x)dx
−∞ a n→+∞ a

f intégrable sur tout intervalle I ⊂ R\K (K est un ensemble fini de points de R) :
Z Z
ϕn (x)f (x)dx −−−−→ h(x)f (x)dx
I n→+∞

Par passage à la limite aux bornes :
Z b Z b
ϕn (x)f (x)dx −−−−→ h(x)f (x)dx
a n→+∞ a

donc : Z b Z +∞
E(X) = h(x)f (x)dx = h(x)f (x)dx
a −∞
66 Chapitre 4. Espérance d’une variable aléatoire

3) h fonction positive réglée sur tout intervalle [a, b] ⊂ R. On pose :

hn (x) = h(x)1[−n,n] (x)

(hn (X))n∈N∗ est une suite croissante de variables aléatoires qui converge simplement vers
h(X). On applique le théorème de Beppo-Levi :

E(hn (X)) −−−−→ E(h(X))
n→+∞

Par 2) :
Z +∞ Z n Z +∞
E(hn (X)) = hn (x)f (x)dx = hn (x)f (x)dx −−−→ h(x)f (x)dx
−∞ −n n→∞ −∞

Donc : Z +∞
E(h(X)) = h(x)f (x)dx
−∞

4) h est de signe quelconque. On considère |h| et on refait le 3) et ensuite on décompose :

h(x) = h+ (x) − h− (x)

4.4.2 Moments d’ordre r
C’est la cas particulier où h(x) = xr , r ∈ R+ .
Définition 4.4.2. Soit r ∈ R+ , on appelle moment absolue d’ordre r, E(|X|r ) et si E(|X|r ) <
∞ alors X admet un mombre d’ordre r, E(X r ).
Remarque. 1) si X discrète :

E(|X|r ) = |x|r P (X = x)
X

x∈X(Ω)

et si E(|X|r ) < +∞ :
E(X r ) = xr P (X = x)
X

x∈X(Ω)

2) X à densité f : Z +∞
r
E(|X| ) = |x|r f (x)dx
−∞
r
si E(|X| ) < +∞ : Z +∞
r
E(X ) = xr f (x)dx
−∞

Proposition 4.4.3. Si X admet un moment d’ordre r, ∀p ∈ [0, r], X admet un moment d’ordre
r.
Démonstration.
E(|X|p ) = E(|X|p 1{|X|≤1} ) + E(|X|p 1{|X|>1} )
| {z } | {z }
E(1{X≤1} ) ≤ E(|X|r 1{|X|>1} )
| {z } | {z }
|X|≤1⇒|X|p ≤1 |X|>1⇒|X|p ≤|X|r
Chapitre 4. Espérance d’une variable aléatoire 67

Proposition 4.4.4. ∀t > 0, ∀r > 0 :
E(|X|r )
P (|X| ≥ t) ≤
tr
Démonstration. On utilise l’inégalité de Markov :
E(|X|r )
P (|X| ≥ t) = P (|X|r ≥ tr ) ≤
tr

4.4.3 Variance
Soit r = 2 et X une variable aléatoire réelle :
Définition 4.4.3. Si X admet un moment d’ordre 2 alors on appelle variance de X :

Var(X) = E((X − E(X))2 )
q
et l’écart-type de X, σ(X) = Var(X).

Remarque. Si E(X 2 ) < +∞ alors E(X) < +∞ donc m = E(X) est bien définie :

(X − E(X))2 < 2(X 2 + m2 )

est bien intégrable.
Proposition 4.4.5 (Formule de Koeing). Si X a un moment d’ordre 2 :

Var(X) = E(X 2 ) − (E(X))2

Démonstration. En notant m = E(X) :

(X − E(X))2 = X 2 − 2mX + m2

Var(X) = E(X)2 − 2m E(X) +m2 = E(X)2 − m2
| {z }
m

q
Conséquence. Var(X) ≥ 0 ⇒ E(X)2 ≤ E(X 2 ) ⇒ |E(X)| ≤ E(X 2 ) (Cauchy-Schwartz)
Propriété 4.4.6. Si X a un moment d’ordre 2 :
1) Var(aX + b) = a2 Var(X) et σ(aX + b) = |a|σ(X).
2) Var(X) = 0 ⇔ X = c presque surement.
3) Inégalité de Tchebytchev :
Var(X)
P (|X − E(X)| ≥ t) ≤
t2
Démonstration. 2) E((X − E(X))2 ) = 0 ⇔ (X − E(X))2 = 0 presque surement ⇔ P (X =
E(X)) = 1.
1) Utilisation de l’inégalité de Markov.
Chapitre 5

Vecteurs aléatoires et indépendance

5.1 Introduction
Soit :
X : Ω, F) → (Rd , B(Rd )
X(ω) 7→ (X1 (ω), ..., Xd (ω)
La connaissance individuelle des lois des Xi ne suffit pas à connaître la loi du vecteur X.
Exemple 5.1.1. Considérons un ensemble de 10 coureurs de fond, chacun muni d’un dossard
numéroté de 1 à 10. Si on les rassemble sur une même piste pour une épreuve de 5000 métres, on
peut représenter le résultat de la course par le vecteur (X1 , ..., X1 0) où Xi désigne le temps mis
par le coureur numéroté i pour parcourir les 5000 mètres. Cette expérience n’est pas équivalente
à faire courir isolément un 5000 mètres à chacun des 10 coureurs sur des stades séparés. La
différence ici vient de la compétition, de la tactique de course...

5.2 Vecteurs aléatoires
5.2.1 Généralités
Définition 5.2.1. X : (Ω, F) → (Rd , B(Rd )) est un vecteur aléatoire si c’est une application
F − B(Rd ) mesurable.
Définition 5.2.2. Si X un vecteur aléatoire sur (Ω, F) à valeurs dans Rd alors sa loi est la
probabilité PX , sur (Rd , B(Rd )) définie par :
P : B(Rd ) → [0, 1]
B 7→ PX (B) = P (X ∈ B)
PX (B) = P ({ω ∈ Ω, X(ω) ∈ B}) = P (X −1 (B))
Proposition 5.2.1. Si X = (X1 , ..., Xd ) est un vecteur aléatoire sur (Ω, F, P ) alors chaque Xi
(1 ≤ i ≤ d) est une variable réelle et la loi de Xi est appelée ième loi marginale de X. De plus :
∀B ∈ B(R) :
PXi (B) = P (Xi ∈ B) = P ((X1 , ..., Xi−1 ) ∈ Ri−1 , Xi ∈ B, (Xi+1 , ..., Xd ) ∈ Rd−i ) = PX (Ri−1 ×B×Rd−i )
Démonstration. Xi = Πi ◦ X tel que :
Πi : Rd → R
(x1 , ..., xd ) 7→ xi
Πi : B(Rd ) − B(Rd ) mesurable donc Xi est F − B(R) mesurable.

68
Chapitre 5. Vecteurs aléatoires et indépendance 69

Exemple 5.2.1. 1) X = (X1 , X2 ) vecteur aléatoire de R2 dont la loi PX est la probabilité
uniforme sur le disque unité :
D = {(x, y) ∈ R2 , x2 + y 2 ≤ 1}
X1 et X2 sont des variables aléatoires réelles de densité :
2√
f (x) = 1 − x2 1[−1,1] (x)
π
Indication.
P (X1 ≤ t) = P ((X1 , X2 ) ∈ D et X2 ≤ t)

2) X = (X1 , X2 ) tel que PX est la probabilité uniforme sur [0, 1]2


t,

 ∀t ∈ [0, 1]
2
P (X1 ≤ t) = P (X ∈ [0, 1] et X2 < t) = P (X ∈ [0, 1] × [0, 1]) = 0 si t < 0



1 si t > 1
X1 ∼ Unif([0, 1]), X2 ∼ Unif([0, 1]).
Remarque. Y1 = Unif([0, 1]), Y2 = Y1 et Y = (Y1 , Y2 ) alors X et Y ont les mêmes lois
marginales mais X et Y n’ont pas la même loi :
P (X ∈ ∆) = 0 P (Y ∈ ∆) = 1

5.2.2 Vecteurs aléatoires discrets
Définition 5.2.3. X est un vecteur aléatoire discret de Rd si X(Ω) est un ensemble au plus
dénombrable de Rd .
Remarque. La loi de X est discrète si ∃A ∈ B(Rd ) tel que A est au plus dénombrable et
P (X ∈ A) = 1.
Exemple 5.2.2 (Lois multinomiales). Le vecteur aléatoire N suit la loi multinomiale de para-
mètres n et (p1 , ..., pd ) où n ∈ N∗ et les pi sont strictement positifs et de somme 1 si pour tout
d-uple (j1 , ..., jd ) d’entiers tels que j1 + j2 + ... + jd = n :
n!
P (N = (j1 , ..., jd )) = pj11 ...pjdd
j1 !j2 !...jd !
70 Chapitre 5. Vecteurs aléatoires et indépendance

Ici l’ensemble N (Ω) = {(j1 , ..., jd ) ∈ Nd , j1 + ... + jd = n} est fini et on vérifie grâce à la formule
du multinôme que :
n!
pj11 pj22 ...pjdd = (p1 + ... + pd )n = 1n = 1
X X
P (N = x) =
x∈N (Ω) j1 +...+jd =n j1 !j2 !...jd !

La loi multinomiale est celle du vecteur des résultats d’une suite d’épreuves répétées indépen-
dantes ayant chacune d issues possibles respectives p1 , ...pd . Par exemple, considérons 20 tirage
d’une boule avec remise dans une urne contenant 1 boule bleue, 3 jaunes, 4 rouges et 2 vertes.
Notons N = (N1 , N2 , N3 , N4 ) où Ni est le nombre de boules de la couleur i en numérotant les
1 3 4 2
couleurs par ordre alphabétique (b,j,r,v). On a (p1 , p2 , p3 , p4 ) = 10 , 10 , 10 , 10 . La probabilité
d’obtenir en 20 tirages 3 bleues, 5 jaunes, 10 rouges et 2 vertes est :
3  5 !10  2
20! 1 3 4 2

P (N = (3, 5, 10, 2)) = ' 0, 004745
3!5!10!2! 10 10 10 10

5.2.3 Vecteurs aléatoires à densité
Définition 5.2.4. Une densité f sur Rd est une fonction f à valeurs dans R+ tel que :
a) f est définie sur Rd \H où H est une union finie (éventuellement vide) d’hyperplans.
b) f est localement Riemann-intégrable.
R
c) Rd f (t)dt est convergente et :
Z
f (t1 , ..., td )dt1 ...dtd = 1
Rd

Définition 5.2.5. Un vecteur aléatoire X à valeurs dans Rd a pour densité f sur Rd si pour
tout pavé C = di=1 [ai , bi ] :
Q

Z Z
P (X ∈ C) = f (t)dt = f (t1 , ..., td )dt1 ...dtd
C C

Exemple 5.2.3. B ∈ B(Rd ) (avec λd (B) 6= 0), X suit la loi uniforme sur B c’est-à-dire PX
probabilité uniforme sur B :
λd (B ∩ C)
∀C ∈ B(Rd ), PX (C) = P (X ∈ C) =
λd (B)
X a pour densité :
1 Z 1 Z
PX (C) = dt1 ...dtd = 1B∩C (t1 , ..., td )dt1 ...dtd
λd (B) B∩C λd (B) Rd
1 Z Z
1
= 1B (t1 , ..., td )1C (t1 , ..., td )dt1 ...dtd = 1B (t1 , ..., td ) dt1 ...dtd
λd (B) Rd C λd (B)
| {z }
f (t1 ,...,td )
1
X a pour densité f = λd
(B)1B .

Proposition 5.2.2. Si X a pour densité f sur Rd , X = (X1 , ..., Xd ) alors ses marginales Xi ,
1 ≤ i ≤ d ont pour densité :
Z
f (u) = f (t1 , ..., ti−1 , u, ti+1 , ..., td )dt1 ...dti−1 dti+1 ...dtd
Ri−1 ×Rd−i
Chapitre 5. Vecteurs aléatoires et indépendance 71

Démonstration. C ∈ B(R) :
Z
P (Xi ∈ C) = P (X ∈ Ri−1 × C × Rd−i ) = f (t1 , ..., td )dt1 ...dtd
Ri−1 ×C×Rd−i
Z Z 
= f (t1 , ..., ti−1 , u, ti+1 , ..., td )dt1 ...dti−1 dti+1 ...dtd du
C Ri−1 ×Rd−i
| {z }
fi (u)

Exemple 5.2.4. f = π1 1D , X ∼ Unif(D) avec :

D = {(x, y) ∈ R2 , x2 + y 2 = 1}
2q 2
Z
f1 (x1 ) = 1 − x1 1[−1,1] (x) = f (x1 , x2 )dx2
π R
2 q Z
f2 (x2 ) = 1 − x22 1[−1,1] (x) = f (x1 , x2 )dx1
π R

5.2.4 h-moments
Définition 5.2.6 (Fonction de répartition). Si X est un vecteur aléatoire à valeurs dans Rd ,
sa fonction de répartition est l"application :

F : Rd → [0, 1]
(t1 , ..., td ) 7→ F (t1 , ..., td ) = P (X1 ≤ t1 , X2 ≤ t2 , ..., Xd ≤ td )

qui caractérise la loi de X (mais ce n’est pas utilisé).
On utilise plutôt les h-moments : E(h(X)).
Remarque. F (t1 , ..., td ) = E(h(X)) :

h(x1 , ..., xd ) = 1]−∞,t1 ]×...×]−∞,td ] (x1 , ..., xd )

Theorème 5.2.3 (Admis). Deux vecteurs aléatoires X et Y à valeurs dans Rd ont la même
loi si et seulement si :
E(h(X)) = E(h(Y )) ∀h ∈ H
où H est l’un des ensembles suivants :
– H = {h : Rd → R+ boréliennes}
– H = {h : Rd → R continues bornés} = Cb (Rd )
– H = {h : Rd → R continues à support compact} = Cc (Rd )
Proposition 5.2.4 (Calcul des h-moments). h : Rd → R boréliennes :
72 Chapitre 5. Vecteurs aléatoires et indépendance

1) si X est un vecteur aléatoire discret et si :
X
E(|h(X)|) = |h(x)|P (X = x) < +∞
x∈X(Ω)

alors :
X X
E(h(X)) = h(x)P (X = x) = h(x1 , ..., xd )P (X = (x1 , ..., xd ))
x∈X(Ω) (x1 ,...,xd )∈X(Ω)

2) si X est un vecteur aléatoire de densité f sur Rd et si :
Z
E(|h(X)|) = |h(x)|f (x)dx < +∞
Rd

alors : Z Z
E(h(X)) = h(x)f (x)dx = h(x1 , ..., xd )f (x1 , ..., xd )dx1 ...dxd
Rd Rd

Proposition 5.2.5 (Loi d’un vecteur image). Soit X un vecteur aléatoire à valeurs dans Rd
de densité fX tel que P (X ∈ D) = 1 où D ⊂ Rd un ouvert. Soit g!D → Rd injective tel que
g(D) = D0 et g est de classe C 1 alors le vecteur Y = g(X) a pour densité fY :

fY = (fX ◦ g −1 ) × | Jac(g −1 )|10D

Rappel. " 
#
∂ϕi
Jac ϕ = det  
∂xj 1≤i≤d,1≤j≤d

Démonstration. Changement de variables dans Rd :

ϕ : D0 → D C 1 -difféomorphisme
Z Z
h(x1 , ..., xd )dx1 ...dxd = h ◦ ϕ(x1 , ..., xd )| Jac(ϕ)|(x1 , ..., xd )dx1 ...dxd
D D0

h est continue bornée de Rd dans R :
Z
E(h(Y )) = E(h ◦ g(X)) = h ◦ g(x1 , ..., xd )f (x1 , ..., xd )dx1 ...dxd (∗)
D

ϕ = g −1 : D0 → D
Z
(∗) = h ◦ g(g −1 (x1 , ..., xd )| Jac(g −1 )|(x1 , ..., xd )fX (g −1 (x1 , ..., xd ))dx1 ...dxd
D0
Z
= h(x1 , ..., xd )| Jac(g −1 )|(x1 , ..., xd )fX (g −1 (x1 , ..., xd ))dx1 ...dxd
D0
On pose (y1 , ..., yd ) = g(x1 , ..., xd ) :
Z
= h(y1 , ..., yd )fy (y1 , ..., yd )dy1 ...dyd
Rd

On peut vérifier que fY est une densité sur Rd .
Remarque.
1
Jac(g −1 )(y) =
Jac(g)(g −1 (y))
Chapitre 5. Vecteurs aléatoires et indépendance 73

Application 5.2.1. Cas où g est linéaire c’est-à-dire :
d
X
g = (g1 , ..., gd ) gi (x1 , ..., xd ) = aj xj
j=1

On a aussi :
1
 
Jac(g) = avec G = (aij )1≤i≤d,1≤j≤d
det(G)
1
fY (g1 , ..., gd ) = fX (g −1 (y1 , ..., yd ))
| det(G)|

5.2.5 Covariance et variance d’une somme
Covariance
Définition 5.2.7. Soit X et Y variables réelles définies sur (Ω, F, P ) ayant des moments
d’ordre 2 alors la covariance de X, Y est :

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]

Cov(X, Y ) est bien définie car si X et Y sont des moments d’ordre 2 alors XY est intégrable
et on a, grâce à l’inégalité de Cauchy-Schwartz :
q q
|E(XY )| ≤ E(X 2 ) E(Y 2 )

Démonstration de l’inégalité de Cauchy-Schwartz. 1) |XY | ≤ 12 X 2 + 21 Y 2

2) |XY | ≤ 2θ X 2 + 2θ
1
Y2 (θ > 0) car θX 2 − 2|XY | + 1θ Y 2 = ( θX − √1θ Y )2 .
En particulier |XY | est intégrable :
( )
θ 1 θ 1
E(|XY |) ≤ E(X 2 ) + E(Y 2 ) ≤ min E(X 2 ) + E(Y 2 )
2 2θ θ>0 2 2θ
| {z }
g(θ)

1 1
g 0 (θ) = E(X 2 ) − 2 E(Y 2 )
2 2θ
v
u E(Y 2 )
u
g 0 (θ) = 0 ⇔ θ = t E(X 2 ) 6= 0, E(Y 2 ) 6= 0
E(X 2 )
si E(Y 2 ) = 0 alors P (X = 0) = 1 et donc P (XY = 0) = 1 et Cauchy-Schwartz est vérifié.
Remarque. Cas d’égalité ⇔ ∃(a, b) ∈ R2 non tous nuls tel que aX + bY = 0 presque sûrement.

Proposition 5.2.6.
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]
1) Cov(X, Y ) = Cov(Y, X)
2) Cov(aX + b, cY + d) = ac Cov(X, Y )
3) | Cov(X, Y )| ≤ σ 1 (X)σ(Y ) (CS)
Si Cov(X, Y ) = 0, on dit que X et Y sont non correlées.
1
On rappelle que σ est l’écart type d’une variable aléatoire
74 Chapitre 5. Vecteurs aléatoires et indépendance

Définition 5.2.8. Si X et Y sont des variables aléatoires sur le même espace ayant des moments
d’ordre 2 et non constant presque sûrement alors le coefficient de corrélation ρ(X, Y ) est défini
de la manière suivante :
Cov(X, Y )
ρ(X, Y ) =
σ(X)σ(Y )

Proposition 5.2.7. 1) |ρ(X, Y )| ≤ 1
2) ρ est maximal si Y est une fonction affine de X : Y = aX + b

Proposition 5.2.8.
Cov(X, Y ) = E(XY ) − E(X)E(Y )

Démonstration.

E[(X − E(X))(Y − E(Y ))] = E(XY − E(X)Y − E(Y )X + E(XY ))

= E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y )

Proposition 5.2.9 (Calcul de Cov(X, Y )). 1) X et Y discret :
  
X X X
Cov(X, Y ) = xyP (X = x, Y = y) −  xP (X = x)  yP (Y = y)
x∈X(Ω),y∈Y (Ω) x∈X(Ω) y∈Y (Ω)

2) (X, Y ) à densité f sur R2 (f1 , 1ère marginale et f2 , 2ème marginale) :
Z Z Z
Cov(X, Y ) = xyf (x, y)dxdy − xf1 (x)dx yf2 (y)dy
R2 R R

Variance d’une somme
Proposition 5.2.10. Soit X1 , ..., Xn n variables aléatoires réelles définies sur le même espace
ayant des moments d’ordre 2 alors :
X
Var(X1 + ... + Xn ) = Cov(X1 , Xj )
1≤i,j≤n

n
X X n
X X
= Var(Xi ) + Cov(Xi , Xj ) = Var(Xi ) + 2 Cov(Xi , Xj )
i=1 1≤i,j≤n,i6=j i=1 1≤i,j≤n

Démonstration.

Var(X1 + ... + Xn ) = E[(X1 + ...Xn )(E(X1 ) + ...E(Xn ))]
 
X X
= E (Xi − E(Xi ))(Xj − E(Xj )) = Cov(Xi , Xj )
1≤i,j≤n 1≤i,j≤n
Chapitre 5. Vecteurs aléatoires et indépendance 75

5.3 Indépendance de variables et vecteurs aléatoires
5.3.1 Suites indépendantes
Définition 5.3.1. n variables aléatoires X1 , ..., Xn définies sur le même espace sont indépen-
dants si ∀Bi ∈ B(R), ∀i ∈ {1, ..., n} :

P (X1 ∈ B1 , ..., Xn ∈ Bn ) = P (X1 ∈ B1 )...P (Xn ∈ Bn )

Remarque. On peut se contenter de prendre Bi = [ai , bi ].
Définition 5.3.2. Xi : Ω → Rdi , 1 ≤ i ≤ n, les n vecteurs aléatoires X1 , ..., Xn sont indépen-
dants si ∀Bi ∈ B(Rdi ), ∀i ∈ {1, ..., n} :

P (X1 ∈ B1 , ..., Xn ∈ Bn ) = P (X1 ∈ B1 )...P (Xn ∈ Bn )

Exemple 5.3.1 (hérédité de l’indépendance). Soient 5 variables aléatoires X1 , .., X5 indépen-
dantes et q
Y1 = X1 + 2X2 Y2 = (exp(X3 ), |X5 |) Y3 = (X4 , X42 , X43 )
alors : Y1 , Y2 , Y3 sont des vecteurs aléatoires indépendants.
Proposition 5.3.1. Soient n variables aléatoires X1 , ..., Xn définies sur le même espace et
indépendantes et :
k
[
{1, ..., n} = Il
i=1
avec comme conditions :
1) Il ∩ Il0 6= ∅ si l 6= l0
2) Il 6= ∅
On pose pour 1 ≤ l ≤ k :
– ml = card IL
– hl : Rml → Rdl
– Zl = hl ((Xi )i∈Il ) vecteurs à valeurs dans Rd
alors les vecteurs Z1 , ..., Zk sont indépendants.
Corollaire. 1 < m0 < m1 < ... < mk = n, X1 , ..., Xn indépendants :

Yl = (Xml + 1, ..., Xml+1 ) pour 0 ≤ l ≤ k − 1

Y0 , ..., Yk−1 sont des vecteurs indépendants.
Définition 5.3.3. Xi : Ω → Rd , i ∈ N, la suite (Xi )i∈N est une suite de vecteurs indépendants.
Si ∀K ⊂ N fini, les vecteurs (Xi )i∈K est une suite de vecteurs indépendants.

5.3.2 Composantes indépendantes
Cas discret
Proposition 5.3.2. Le vecteur aléatoire discret (X1 , ..., Xd ) a des composantes indépendantes
si et seulement si :
d
Y
∀(x1 , ..., xd ) ∈ X(Ω) P (X1 = x1 , ..., Xd = xd ) = P (Xi = xi )
i=1
76 Chapitre 5. Vecteurs aléatoires et indépendance

Démonstration. (⇒) Clair en prenant Bi = {xi }.
(⇐) B = B1 × ... × Bd . On veut montrer que :
d
Y d
Y
PX (B) = P (X ∈ B) = PXi (Bi ) = P (Xi ∈ Bi )
i=1 i=1

X(Ω) est au plus dénombrable : X(Ω) ⊂ X1 (Ω) × ... × Xd (Ω) = E. Si x ∈ E\X(Ω),
P (X = X) = 0 :
X X
P (X ∈ B1 × ... × Bd ) = P (X = x) = P (X = x) (∗)
x∈B1 ×...×Bd x∈B1 ×...×Bd ∩E

B1 × ... × Bd ∩ E = B1 ∩ X1 (Ω) × ... × Bd ∩ Xd (Ω)
X X
(∗) = P (X1 = x1 , ..., Xd = xd ) = P (X1 = x1 )...P (Xd = xd )
x1 ∈B1 ∩X1 (Ω),...,xd ∈Bd ∩Xd (Ω)

n
Y X d
Y d
Y
= P (Xi = xi ) = P (Xi ∈ Bi ∩ Xi (Ω)) = P (X ∈ Bi )
i=1 xi ∈Bi ∩Xi (Ω) i=1 i=1

Cas des vecteurs aléatoires à densité
Notation. Si f1 , ..., fd sont des fonctions de R dans R, on définit

f1 ⊗ ... ⊗ fd : Rd → R
(x1 , ..., xd ) 7→ f1 (x1 )...fd (xd )

(appelé produit tensoriel de fi ).

Proposition 5.3.3. Soit (X1 , ..., Xd ) un vecteur aléatoire de Rd .
a) si les (Xi )1≤i≤d sont indépendantes et de densité respective fi (1 ≤ i ≤ d) alors le vecteur
(X1 , ..., Xd ) a pour densité f1 ⊗ ... ⊗ fd .
b) si le vecteur (X1 , ..., Xd ) a pour densité f1 ⊗...⊗fd où les (fi )1≤i≤d sont des fonctions positives
définies sur R\Ki où Ki est un ensemble fini de points alors ∀i ∈ {1, ..., d} il existe ci > 0
tel que Xi a pour densité ci fi , de plus, les (Xi )1≤i≤d sont indépendantes et di=1 ci = 1.
Q

Qd
Démonstration. a) C = i=1 ]ai , bi ] ∈ B(Rd ) :
d
Y
P (X ∈ C) = P ((X1 , ..., Xd ) ∈ ]ai , bi ]) = P (X1 ∈]a1 , b1 ], ..., Xd ∈]ad , bd ]) = P (X1 ∈]a1 , b1 ])...P (Xd
i=1

Z b1 Z bd Z
= f (x1 )dx1 × ... × fd (xd )dxd = f1 (x1 )...fd (xd )dx1 ...dxd
a1 ad C

b) loi marginale : soit ]a, b] ⊂ R
Z
P (Xi ∈]a, b]) = f1 (x1 )...fd (xd )dx1 ...dxd
Ri−1 ×]a,b]×Rd−i

Z b Z  Z b
= f1 (x1 )...fi−1 (xi−1 )fi+1 (xi+1 )dx1 ...dxi−1 dxi+1 ...dxd = f (xi )dxi avec f = ci fi
a Ri−1 ×Rd−i a
| {z }
ci fi (xi )dxi
Chapitre 5. Vecteurs aléatoires et indépendance 77

Qd
Indépendance : C = i=1 ]ai , bi ] :
Z d Z bi
Y
P (X ∈ C) = f1 (x1 )...fd (xd )dx1 ...dxd = fi (xi )dxi
C i=1 ai

d d Z bi d
! d Z
Y Y Y Y bi
P (Xi ∈]ai , bi ]) = ci fi (xi )dxi = ci fi (xi )dxi
i=1 i=1 ai i=1 i=1 ai

En prenant Cn = di=1 ] − n, n], n ∈ N et en faisant tendre n vers +∞, avec la propriété de
Q

continuité sequentielle monotone d’une probabilité ⇒ di=1 ci = 1.
Q

Exemple 5.3.2. 1) Xi ∼ N (0, σi ), 1 ≤ i ≤ d, (Xi ) indépendants alors (X1 , ..., Xd ) a pour
densité : ! !
1 x21 x2d
f (x1 , ..., xd ) = √ d exp − 2 ... exp − 2
( 2π) σ1 ...σd 2σ1 2σd
C’est un cas particulier du vecteur gaussien.
2) Si (X, Y ) a pour densité :
1 e−y/2
f (x, y) = √ √ 1]0,+∞[ (y)
2π 3 (1 + x2 ) y
X a pour densité :
1 1
fX = sur R
π 1 + x2
Y a pour densité :
1
e−y/2 1]0,+∞[ (y)
fY = √
2πy
On peut montrer que Y a même loi que Z 2 avec Z ∼ N (0, 1) : loi du χ2 (1) (loi du chi-deux
a 1 degré de liberté).

5.3.3 Loi d’une somme de variables aléatoires indépendantes
X et Y deux variables aléatoires définies sur (Ω, F, P ) :
Z = Σ(X, Y ) = X + Y
Pour connaître la loi de Z, il faut connaître la loi du couple. C’est le cas si X et Y sont
indépendantes et quand on connait la loi de X et Y .

Cas où X et Y sont discrètes
Proposition 5.3.4. Si X, Y discrètes indépendantes alors Z = X + Y est discrète et sa lo iest
donnée par ∀z ∈ Z(Ω) :
X X
P (Z = z) = P (Y = z − x)P (X = x) = P (X = z − y)P (Y = y)
x∈X(Ω) y∈Y (Ω)

Démonstration. –
Σ : X(Ω) × Y (Ω) → Z(Ω)
(x, y) 7→ x + y
Z(Ω) est l’image par une application surjective d’un ensemble au plus dénombrable ⇒
Z(Ω) est au plus dénombrable.
78 Chapitre 5. Vecteurs aléatoires et indépendance

– ∀z ∈ Z(Ω), on cherche à calculer P (Z = z). {X = x}x∈X(Ω) forme une partition de Ω.
[ [
{Z = z} = {Z = z} ∩ {X = x} = {X + Y = Z et X = x}
x∈X(Ω) x∈X(Ω)
[
= {Y = z − x et X = x} (union disjointe dénombrable)
x∈X(Ω)

∀z ∈ Z(Ω) :
X indép. X
P (Z = z) = P (Y = z − x, X = x) = P (Y = z − x)P (X = x)
x∈X(Ω) x∈X(Ω)

Exemple 5.3.3. En exercice, on peut montrer que si :
X = Pois(α), Y = Pois(β), X et Y indépendantes
alors X + Y ∼ Pois(α + β).

Cas où X et Y à densité
Proposition 5.3.5. Si X, Y ont pour densité respectives f et g et sont indépendantes alors
Z = X + Y a pour densité le produit de convolution de f par g noté f ∗ g définit sur R par :
Z Z
f ∗ g(s) = f (s − t)g(t)dt = f (t)g(s − t)dt ∀s ∈ R
R R

Démonstration. h continue bornée sur R. On veut montrer que :
Z
E(h(Z)) = h(s)f ∗ g(s)ds
R

On a que : Z
E(h(Z)) = E(h ◦ Σ(X, Y )) = h(x + y)f (x)g(y)dxdy
R2
(X, Y ) a pour densité f ⊗ g. On fait le changement de variables suivant :
– (s, t) = (x + y, y)
– (x, y) = (s − t, t)
On a ainsi que Jac = 1. Ainsi :
Z Z Z 
E(h(Z)) = h(s)f (s − t)g(t)dsdt = h(s) f (s − t)g(t)dt ds
R2 R
| R {z }
f ∗g(s)

Remarque. En prenant h ≡ 1 : Z
f ∗ g(s)ds = 1
R

Exemple 5.3.4. 1) X ∼ χ2 (1) et Y ∼ χ2 (1) de desnité :
1 −t/2
f (t) = √ e 1]0,+∞[ (t)dt
2πt
et indépendantes alors X + Y a pour densité :
1
f ∗ f (s) = e−s/2 1]0,+∞[ (t)dt
2
2 2
C’est la loi de Z1 + Z2 où Z1 ∼ N (0, 1) et Z2 ∼ N (0, 1) et Z1 indépendants.
Chapitre 5. Vecteurs aléatoires et indépendance 79

2) X ∼ Unif([0, 1]) et Y ∼ Unif([0, 2]), X et Y indépendantes. On a que X a pour densité
f (x) = 1[0,1] (x) et Y a pour densité g(y) = 12 1[0,2] (y). Donc : Z a pour densité :
Z
1Z
f ∗ g(s) = f (s − t)g(t)dt = 1[0,1] (s − t)1[0,2] (t)dt
R 2 R
1Z
= 1[max(0,s−1),min(2,s)] (t)dt
2 R

Somme d’une variable aléatoire discrète et d’une variable aléatoire à densité indé-
pendantes
Soit X discrète et Y à densité :
X X X
P (X+Y ≤ t) = P (X+Y ≤ t et X = x) = P (Y ≤ t−x et X = x) = P (Y ≤ t−x)P (X
x∈X(Ω) x∈X(Ω) x∈X(Ω)

Remarque. La fonction de répartition de Z est continue :
X X
∀z ∈ R, P (Z = z) = P (Z = z et X = x) = P (Y = z − x, X = x)
x∈X(Ω) x∈X(Ω)

On a que :
{Y = z − x, X = x} ⊂ {Y = z − x}
| {z }
probabilité nulle car Y est à densité

= {X = x} = Ω donc :
S
On sait que : x∈X(Ω)
 
[ [
{Z = z} = {Z = z} ∩  {X = x} = {Z = z} ∩ {X = x}
x∈X(Ω) x∈X(Ω)

5.3.4 Indépendance et espérance de produit
Theorème 5.3.6. Si X1 , ..., Xn sont des variables aléatoires intégrables et indépendantes alors
X1 ...Xn intégrables et :
E(X1 ...Xn ) = E(X1 )...E(Xn )
80 Chapitre 5. Vecteurs aléatoires et indépendance

Corollaire. Xi : Ω → Rdi vecteur aléatoire, 1 ≤ i ≤ n, hi : Rdi → R fonctions boréliennes tel
que hi (Xi ) est variable aléatoire intégrable alors h1 (X1 )...hn (Xn ) est intégrable et :

E(h1 (X1 )...hn (Xn )) = E(h1 (X1 ))...E(hn (Xn ))

Démonstration du Théorème 5.3.6. On se ramène à n = 2 (+ reccurence) :
1) Fonctions indicatrices : X1 = 1A1 , X2 = 1A2 . X1 , X2 indépendants ⇒ A1 et A2 indpéndants.

X1 × X2 = 1A1 ∩ 1A2 = 1A1 ∩A2

E(X1 X2 ) = E(1A1 ∩A2 ) = P (A1 ∩A2 ) = P (X1 = 1, X2 = 1) = P (X1 = 1)P (X2 = 1) = E(X1 )E(X2 )
2) Pour des variables aléatoires étagées positives. Soient :
l
X n
X
X1 = a1,k 1A1,k , X2 = a2,k 1A2,k
k=1 k=1

avec :
A1,k = {X1 = a1,k } A2,k = {X2 = a2,k }
et X1 , X2 indépendants. On vérifie que E(X1 X2 ) = E(X1 )E(X2 ) en utilisant :

E(1A1,k 1A2,k0 ) = E(1A1,k )E(1A2,k0 )

puis la linéarité de l’espérance.
3) Pour des variables aléatoires positives : par Beppo-Levi

X1 = lim X1,n 
n→+∞
limite croissante de variable aléatoires étagées
X2 = lim X2,n 
n→+∞

Remarque. X1,n = hn (X1 ) et X2,n = hn (X2 ) où hn (x) = min{n, 2−n [2n x]}. On a indépen-
dance de X1,n et X2,n :
E(X1,n , X2,n ) = E(X1,n )E(X2,n )
+ passage à la limite par Beppo-Levi
4) Pour des variables quelconques intégrables :

X1 = X1+ − X1− X2 = X2+ − X2−

X1 X2 = X1+ X2+ − X1+ X2− − X1− X2+ + X1− X2−

5.3.5 Indépendance, variance et covariance
Proposition 5.3.7. 1) Si X et Y sont définies sur le même espace et sont indépendantes et
de carré intégrable alors Cov(X, Y ) = 0.
2) Si X1 , ..., Xn sont n variables aléatoires définies sur le même espace, de carré intégrable et
indépendantes alors :
n
X
Var(X1 + ... + Xn ) = Var(Xi )
i=1
Chapitre 5. Vecteurs aléatoires et indépendance 81

Rappel.
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y )
Attention :. X, Y indépendantes → X, Y non correlées mais la réciproque est fausse.

Exemple 5.3.5. X ∼ N (0, 1) et P (Y = 1) = P (Y = −1) = 1/2. Soit Z = XY . On peut montrer
que Z ∼ N (0, 1)2

E(XZ) = E(X 2 Y ) = E(X 2 )E(Y ) = 0 et E(X) = E(Z) = 0

Donc : X et Z sont non correlées (Cov(X, Z) = 0) mais X et Y ne sont pas indépendantes.
Par exemple, on peut voir que :

P (X > 1, Z ≤ 1) 6= P (X > 1)P (Z ≤ 1)

5.4 Vecteurs aléatoires gaussiens
5.4.1 Définitions
Définition 5.4.1. X = (X1 , ..., Xd ) est un vecteur gaussien de Rd si pour toute forme linéaire
u, u(X) est une variable aléatoire gaussienne. C’est-à-dire ∀(a1 , ..., ad ) ∈ Rd , a1 X1 + ... + ad Xd
est gaussienne.

Remarque. Une variable aléatoire constante presque sûrement est une variable aléatoire de loi
gaussienne N (m, 0).
Conséquence. Si X = (X1 , ..., Xd ) est un vecteur guassien alors chaque Xi est gaussienne
(prendre ui : (x1 , ..., xd ) → xi ).
Attention :. La réciproque est fausse. On prend le même exemple que Exemple 5.3. : X ∼
N (0, 1), Z ∼ N (0, 1) mais (X, Z) n’est pas un vecteur gaussien. En effet :

X + Z = X + Y X = (1 + Y )X

P (X + Z = 0) = P ((1 + Y )X = 0) = P (1 + Y = 0) = 1/2
⇒ X + Z n’est pas à densité donc non gausienne.

2
Indication :

P (Z ≤ t) = P (XY ≤ t) = P (−X ≤ t et Y = −1) + P (X ≤ t et Y = 1)