Professional Documents
Culture Documents
Raphaël KRIKORIAN
Université Paris 6
Année 2005-2006
2
Table des matières
3
4 TABLE DES MATIÈRES
5 Espérance conditionnelle 87
5.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . 87
5.2 Espérance conditionnelle : cas discret . . . . . . . . . . . . . . 88
5.3 Cas des v.a admettant des densités . . . . . . . . . . . . . . . 91
5.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Chapitre 1
5
6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES
On a les formules
[ c \ \ c [
Ai = Aci , Ai = Aci .
i∈I i∈I i∈I i∈I
et donc
n
X X
1 − 1A1 ∪···∪An = 1 + (−1)p 1Ai1 · · · 1Aip
p=1 1≤i1 <...<ip ≤n
n
X X
=1+ (−1)p 1Ai1 ∩···∩Aip ,
p=1 1≤i1 <...<ip ≤n
1.3 Dénombrement
Cardinal d’une union disjointe finie. Si A1 , . . . , An sont des ensembles
finis disjoints deux à deux tels que A1 ∪ · · · ∪ = E alors E et fini et
n
X
#E = #Ai .
i=1
n! = n(n − 1) · · · 1.
1.3. DÉNOMBREMENT 9
#P(E) = 2n .
choix possibles.
Remarquons que la proportion du nombre de tirages sans remise où x boules
noires sortent dans l’ensemble des tirages sans remise est
n
x
· N(N − 1) · · · (N − x + 1) · M(M − 1) · · · (M − n + x + 1)
(N + M) · · · (N + M − n + 1)
n N M
· x! · (n − x)!
= x x
N +M
n−x
n!
N
M n
x n−x
= N +M
n
ii) Un tirage avec remise est équivalent à la donnée d’une application (pas
nécessairement injective) de {1, . . . , n} vers {1, . . . , N + M} (ou encore d’un
n-uplet (e1 , . . . , en ) de {1, . . . , N +M}n ) ; il y a donc (N +M)n choix possibles.
Un tirage où x boules noires sont tirées est équivalent à la donnée : d’un sous-
ensemble A de {1, . . . , n} à x élements, d’une application (pas nécessairement
injective) de A dans {1, . . . , N} (ou encore d’un x-uplet de {1, . . . , N}x ) et
d’une application de {1, . . . , n} − A dans {N + 1, . . . , N + M} (ou encore un
(n − x)-uplet de {N + 1, . . . , N + M}). Il y a donc
n
· N x · M n−x
x
remise où x boules noires sortent dans l’ensemble des tirages avec remise est
x n−x
n N M n x
= p (1 − p)n−x ,
x (N + M)n x
où p = N/(N + M).
1.4 Dénombrabilité
Définition 1.4.1 Un ensemble est dit dénombrable s’il est en bijection avec
l’ensemble N des entiers naturels.
Nous étendrons cette définition en disant qu’un ensemble est dénombrable
s’il est fini ou en bijection avec N.
De façon plus concrète, un ensemble est dénombrable si on peut énumérer
ses éléments.
Démonstration.—
L’ensemble Z est dénombrable car l’application de l’ensemble dénombrable
{1, −1} × N dans Z qui au couple (, n) associe le produit n est une surjec-
tion. De même, Q est dénombrable car l’application de l’ensemble dénombrable
Z × (N − {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une
surjection.
2
On peut démontrer que
Espaces Probabilisés et
variables aléatoires
2.1.1 Tribus
Soit Ω un ensemble fixé (l’espace des états).
13
14CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
– pour tout A ∈ B on a Ac ∈ B
– pour toute famille dénombrable (Ai )i∈N d’éléments de B l’union
[
Ai
i∈N
Exemples
2.1.2 Probabilité
Définition 2.1.2 Si Ω est un ensemble et B est une tribu de Ω, une proba-
bilité P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pour
toute famille dénombrable (Ai )i∈N d’évènements de B disjoints 2 à 2 on a
[ ∞
X
P Ai = P(Ai ).
i∈N i=0
b) P(∅) = 0
c)(Positivité) Si A, B ∈ B vérifient A ⊂ B alors P(A) ≤ P(B).
d) Si A, B ∈ B alors
Démonstration.—
a) Il suffit décrire Ω comme l’union disjointe finie Ω = A ∪ Ac : comme P est
une probabilité 1 = P(Ω) = P(A) + P(Ac ).
b) suit de la formule précédente et du fait que P(Ω) = 1.
c) On écrit B comme l’union disjointe B = A ∪ (B ∩ Ac ) et P(B) = P(A) +
P(B ∩ Ac ). Comme P(B ∩ Ac ) ≥ 0 on a bien P(B) ≥ P(A).
d) De l’union disjointe A ∪ B = A ∪ (B ∩ Ac ) on déduit P(A ∪ B) = P(A) +
P(B ∩ Ac ). Mais de l’union disjointe B = (B ∩ Ac ) ∪ (B ∩ A) on obtient
P(B) = P(B ∩ Ac ) + P(A ∩ B). De ces deux égalités on déduit la formule d)
2
La preuve des propriétés qui suivent n’est pas difficile mais, à la différence
de la démonstration des propriétés précédentes, ne pourrait se faire sans
autoriser des unions dénombrables :
c’est-à-dire
N
X [
lim P(Bk ) = P Bk ,
N →∞
k=0 k∈N
Mais
N
[ ∞
[
Bk = AN , Bk = A
k=0 k=0
Cn = {ω ∈ Ω, ν(ω) = n} = An ∩ (An−1 ∪ · · · ∪ A0 )c
qui est clairement dans B. Les ensembles Cn sont de toute évidence disjoints
deux à deux et leur union pour n ≥ 0 est ∪n∈N An car pour tout ω dans
∪n∈N An il existe un n tel que ν(ω) = n c’est-à-dire il existe un n tel que
ω ∈ Cn . On a donc
[ [ X ∞
P An = P Cn = P(Cn ),
n≥0 n≥0 n=0
2.1.3 Exemples
Mesures de Dirac
Sur tout ensemble Ω muni d’une tribu B il est possible de construire
des mesures de la façon suivante : pour tout α ∈ Ω définissons l’application
δα : B → [0, 1] qui à un ensemble A ∈ B associe le réel 1 si α ∈ A et 0
18CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
sinon. Cette application δα est une mesure de probabilité que l’on appelle la
mesure de Dirac au point α. Vérifions rapidement que c’est bien une mesure :
déjà δα (Ω) = 1 puisque α ∈ Ω ; par ailleurs si Ai ∈ B, i ≥ 0 est une famille
dénombrable d’ensembles de la trbibu disjoints deux à deux on a
[
δα Ai = δα (Ai ),
i≥0
car :
– soit α appartient à ∪i≥0 Ai ; mais alors il existe un i ≥ 0 pour lequel α ∈ Ai
et cet indice i est unique car les Ai sont disjoints deux à deux. L’égalité
précédente se réduit à 1 = 1 ;
– soit α n’appartient pas à ∪i≥0 Ai et de ce fait n’apartient à aucun des Ai :
l’égalité se réduit à 0 = 0.
En conclusion : dans le cas où Ω est fini, une probabilité P sur B = P(Ω) est
déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se
donne n nombres réels positifs p1 , . . . , pn dont la somme vaut 1 (p1 +· · ·+pn =
1) alors, l’application P : P(Ω) → [0, 1] qui à A ∈ P(Ω) associe le réel (dans
[0, 1]) X
P(A) = pi
{i:ci ∈A}
soit
#A
P(A) = .
#Ω
Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini,
déterminer la probabilité d’un évènement revient à calculer son cardinal : on
voit apparaı̂itre le lien avec la combinatoire.
Exercice : On tire cinq cartes d’un jeu de 32 cartes. Quelle est la probabilité
d’obtenit un full c’est-à-dire deux cartes de même valeur et trois autres cartes
de même valeur. On supposera chaque tirage équiprobable
Exercice : Une urne contient n boules noires et b boules blanches.
a) On effectue N tirages avec remises. Quelle est la probabilité d’obtenir x
boules noires ?
b) Même question si les tirages sont sans remises.
On supposera les tirages équiprobables.
L’évènement (B) “on tire au moins un Pile” est décrit par l’ensemble
Exercice : Calculer dans chacun des cas précédents les probabibilités des
évènements A et B.
existe et vaut 2/3. Un moment de réflexion montre que cet évènement n’ap-
partient à aucune des tribus Fn qui modélisent un jeu de n pile/face2 .
Nous définirons la tribu B sur Ω de la façon suivante : la tribu B est la
tribu engendrée (au sens de la proposition 2.1.1) par tous les évènements Ci,
Ci, = {ω ∈ Ω, ωi = },
où i décrit N − {0} et décrit {0, 1}.
Il reste à présent à construire une probabilité sur B ce qui est assez
délicat. Si on joue avec une pièce qui donne Pile (resp. Face) avec proba-
bilité 1/2 il est naturel d’attribuer à tout évènement Ci, la probablité (1/2)
(indépendamment de la valeur de ) et il est également naturel de demander
que la probabilité d’un évènement de la forme3
{ω ∈ Ω, ωi1 = 1 , . . . , ωir = r } = Ci1 ,1 ∩ · · · ∩ Cir ,r
soit égale à (1/2)r . Il n’est en revanche pas du tout clair que l’on puisse
attribuer à tout évènement de la tribu B une probabilité qui soit compatible
avec ces choix. En fait c’est possible :
Probabilité sur R
Il est important de savoir décrire des probabilités sur R, l’ensemble des
nombres réels. L’espace des états est alors Ω = R et la tribu que l’on choisit
est la tribu engendrée par les intervalles ouverts de R. On l’appelle la tribu
borélienne et on la note Bor(R). Retenons la définition :
2
On peut toujours considérer un jeu de n pile/face comme un cas particulier d’un jeu
infini de pile/face : Il suffit d’associer à toute suite ω = (ω1 , . . . , ωn ) de {0, 1}n la suite
ω̃ ∈ {0, 1}N − {0} définie par ω̃i = ωi si 1 ≤ i ≤ n et ω̃i = 0 si i ≥ n + 1
3
Cet évènement décrit l’expérience suivante : au temps i1 , . . . , ir , on observe 1 , . . . , r
et on ne précise pas ce qui se passe aux autres temps
22CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
Ainsi, C étant une tribu (donc stable par union dénombrable) ]−∞, d[ appar-
tient à C. Comme ] − ∞, c] est dans C, l’intersection ]c, d[=] − ∞, c]c ∩] − ∞, d[
est également dans C (C est stable par complémentaire et intersections finies
ou dénombrables). Nous avons donc démontré que la tribu C contenait les
intervalles ouverts. Or, la tribu borélienne est la plus petite tribu contenant
les intevalles ouverts. Par conséquent, Bor(R) ⊂ C. L’inclusion récipoque se
démontre de façon similaire (c’est plus facile).
4
elle est également engendrée par les intervalles ou les intervalles de la forme ] − ∞, a]
ou encore les intervalles fermés etc.
2.1. ESPACE PROBABILISÉ 23
Démonstration.—
i) Si x ≤ y on a ] − ∞, x] ⊂] − ∞, y] et d’après la proposition 2.2.1 c) on a
bien µ(] − ∞, x]) ≤ µ(] − ∞, y]).
ii) Pour tout suite xn croissant vers ∞ (resp. décroissant vers −∞) la suite de
boréliens ]−∞, xn ] est croissante pour l’inclusion (resp. décroissante pour l’in-
clusion) et leur union vaut Ω (resp. leur intersection vaut ∅). Par conséquent
d’après la proposition 2.1.3 a) (resp. b)) limn→∞ µ(] − ∞, xn ]) = 1 (resp.
limn→∞ µ(] − ∞, xn ]) = 0 ) ce qui démontre ii)
iii) Pour toute suite tn décroissante et convergeant vers x, la suite de boréliens
] − ∞, tn ] est décroissante et leur intersection vaut ] − ∞, x] ce qui démontre
que limn→∞ µ(] − ∞, tn ]) = µ(] − ∞, x]).
2
En fait
Démonstration.—
a) Soit ω tel que supn≥1 Xn (ω) > a. Alors par définition du sup, il existe
un n pour lequel Xn (ω) > a et ω est donc dans l’union ∪n≥1 {Xn > a}.
Réciproquement si ω ∈ ∪n≥1 {Xn > a} alors il existe n tel que Xn (ω) > a et
a fortiori supn Xn (ω) > a. Nous avons donc démontré que les deux ensembles
{Z > a} et ∪n≥1 {Xn > a} sont égaux. Mais ce dernier ensemble est une union
dénombrable d’éléments de la tribu B (car chaque Xi est une v.a). Ainsi pour
2.2. VARIABLES ALÉATOIRES 25
tout a l’évènement {supn≥1 Xn (ω) > a} est dans B et il en est de même de son
complémentaire {supn≥1 Xn (ω) ≤ a}. La proposition ?? permet de conclure.
b) Si I est un intervalle de R, Z −1 (I) est l’ensmble des ω ∈ Ω tels que
(X1 (ω), . . . , Xn (ω)) ∈ f −1 (I). Comme f est continue, f −1 (I) est un en-
semble ouvert de Rn et, par consquent, est une union dénombrable de pavés
ouverts c’est -à-dire d’ensembles P de la forme ]a1 , b1 [× · · · ×]an , bn [. Par
conséquent l’ensmble des ω ∈ Ω tels que (X1 (ω), . . . , Xn (ω)) ∈ f −1 (I) est
une union dénombrable d’ensembles de la forme {ω ∈ Ω, (X1 (ω), . . . , Xn (ω) ∈
]a1 , b1 [× · · · ×]an , bn [} c’est-à-dire d’ensembles de la forme {ω ∈ Ω, X1 (ω) ∈
]a1 , b1 [, . . . , Xn (ω) ∈]an , bn [} = X1−1 (]a1 , b1 [) ∩ · · · ∩ Xn−1 (]an , bn [) qui sont
clairement dans B.
2
En particulier
2
Exemple Revisitons l’exemple du jeu infini de Pile/Face : Ω = {0, 1}N et B
est la tribu engendrée par les ensembles Ci,i = {ω = (ω0 , . . .) ∈ Ω, ωi = i }.
Pour n ∈ N l’application Xn : {0, 1}N → {0, 1} qui à ω = (ω0 , ω1 , . . .) associe
ωn est une variable aléatoire. Il suffit en effet de vérifier que pour = 0 ou
= 1 l’ensemble des ω pour lesquels ωn = appartient à B. Or, cet ensemble
est le cylindre Cn, qui par définition est dans B. En fait, la tribu B a été
construite de façon que toutes les applications Xn : Ω → {0, 1} (n ≥ 0)
soient des variables aléatoires (c’est d’ailleurs la plus petite tribu ayant cette
propriété).
Exercice On considère le jeu infini de Pile/Face (Ω, B, P) et on garde les
notations de l’exemple précédent. Définissons pour tout ω ∈ Ω, l’entier ν(ω)
comme étant le plus petit entier k pour lequel Xk (ω) = 1 (en d’autres termes
ν(ω) est le premier temps où on tire Pile). Démontrer que ν est une variable
aléatoire.
Solution : Si {ν = 0} = {X0 = 1} est dans B car X0 est une v.a et pour tout
n ∈ N, (n ≥ 1)
{ν = n} = {X0 = 0} ∩ · · · ∩ {Xn−1 = 0} ∩ {Xn = 1};
c’est une intersection finie déléments de B (car, puisque chaque Xi est une
v.a, les ensembles {Xi = 0}, 1 ≤ i ≤ n − 1 et {Xn = 1}c sont dans B)
ce qui est clair car l’évènement {X ∈ ∪i∈N Ai } est l’union dénombrable dis-
jointe des évènements {X ∈ Ai }. Enfin la condition P (X ∈ R) = 1 achève
la preuve.
2.2. VARIABLES ALÉATOIRES 27
Il faut retenir que la loi d’une v.a est une probabilité sur R (muni de
sa tribu borélienne). Ceci illustre le fait qu’il est possible de construire de
nombreuses mesures de probablilités sur R muni de sa tribu borélienne.
2
La loi de X est donc parfaitement déterminée par les réels pX (e) = P(X =
e), (e ∈ E) et dans la pratique quand on demande de déterminer la loi de X
on demande de calculer les réels pX (e) = P(X = e).
n
où k
est le coefficient binomial
n(n − 1) · · · (n − k + 1)
n n!
= Cnk = = .
k (n − k)!k! k!
P∞
On a bien (formule du binôme de Newton) k=0 P (X = k) = (p+1−p)n = 1.
Exemple Jouons n fois au jeu de pile/face où pile sort avec probabilité p et
face avec probabilité 1−p et notons Z la variable aléatoire : Z est le nombre de
pile qui sortent (après avoir joué n fois). Si on note Xi les variables aléatoires
Xi (ω) = ωi (ω = (ω1 , . . . , ωn )) on a
Z = X1 + · · · + Xn .
Exercice Soit Xn une v.a suivant une loi binomiale (n, pn ). Montrer que si
limn→∞ npn = λ on a pour tout k ∈ N
λk
lim P(Xn = k) = e−λ .
n→∞ k!
(On dit que Xn converge en loi vers une loi de Poisson de paramètre λ)
2.2. VARIABLES ALÉATOIRES 29
est continue. Il existe donc des variables aléatoires n’admettant pas de den-
sité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs
0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posséder de densité
car sa fonction de répartition FX (x) vaut 0 si x < 0, 1/2 si 0 ≤ x < 1 et 1 si
1 ≤ x : elle est discontinue en 0 et en 1 (mais bien continue à droite).
qui semble être un bon candidat pour la définition de l’espérance peut ne pas
exister car la série peut ne pas converger. Pour garantir cette convergence il
suffit de demander que la série précédente soit absolument convergente.
d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque
sûrement c’est-à-dire que l’ensemble des ω ∈ Ω pour lesquels X(ω) > 0 a une
probabilité nulle.
Notons que E(a) = a si a est une constante.
32CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
Définition 2.3.1 Si X est une v.a telle que E(|X|) < ∞ on définit l’espérance
de X comme étant
E(X) = E(X + ) − E(X − ),
2.3. ESPÉRANCE D’UNE V.A. 33
où X + = max(0, X), X − = max(0, −X). On dit que X est intégrable (sur
l’espace probabilisé (Ω, B, P)) ou encore P-intégrable. L’ensemble des va-
riables aléatoires X qui sont P-intégrable se note L1 (Ω, P).
On a alors les propiétés suivantes
alors,
∞
X ∞
X
E( Yn ) = E(Yn )
n=0 n=0
Exercice Soit X une v.a sur (Ω, P) telle que pour tout t ∈ R la v.a Yt =
etX soit intégrable. i) Montrer que l’application t 7→ E(Yt ) est continue. ii)
Supposons que pour tout t ∈ R, E(|X|etX ) < ∞. Démontrer que t 7→ E(etX )
est dérivable et caluler sa dérivée
Solution i) Supposons t fixé. Il suffit de démontrer que pour toute suite tn
tendant vers t la suite E(etn X ) converge vers E(etX ). Or, la suite de v.a
etn X converge simplement vers etX . Par ailleurs, pour tout n assez grand
|etn X | ≤ Z où Z = e(|t|+1)|X| . Le théorème de convergence dominée s’applique
à la suite Ytn et on a donc limn→∞ E(etn X ) = E(etX ).
ii) Fixons t. Notons f (t) = E(etX ). On doit démontrer que pour toute suite
tn tendant vers t la suite
f (tn ) − f (t)
tn − t
admet une limite finie. On constate que
tn X
f (tn ) − f (t) − etX
e
=E
tn − t tn − t
etn X −etX
et on applique le théorème de convergence dominée à la suite Tn = tn −t
.
Il est clair que pour tout ω
La v.a Z = |X|e(|t|+1)X est par définition P-intégrable si bien que les hy-
pothèses du théorème de convergence dominée sont satisfaites. On a donc
tn X(ω)
− etX(ω)
e
lim E = E(XetX ).
n→∞ tn − t
d dXt
E(Xt ) = E( ).
dt dt
Démonstration.—
Comme Y = f (X), la v.a Y ne prend qu’un nombre fini de valeurs e0 qui
sont dans E 0 = f (E). Par définition de l’espérance
X
E(Y ) = e0 P(Y = e0 ).
e0 ∈E 0
On a donc,
X
E(Y ) = e0 P(Y = e0 )
e0 ∈E 0
X
= e0 P(f (X) = e0 )
e0 ∈E 0
X
= e0 P(X ∈ f −1 (e0 ))
e0 ∈E 0
X X
= e0 P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X X
= f (e)P(X = e)
e0 ∈E 0 e∈f −1 (e0 )
X
= f (e)P(X = e)
e∈E
= E(X).
Or, Z bi
EµX (1[a−i,bi ] ) = µX (]ai , bi ]) = ρX (x)dx.
ai
On a donc
r Z
X bi
EµX (f ) = f (x)ρX (x)dx
i=1 ai
Z
= f (x)ρX (x)dx.
R
Quand f est continue (ou continue par morceaux) on sait qu’on peut l’ap-
procher uniformément par des fonctions en escaliers et il suffit de passer à la
limite dans l’égalité précédente.
Démonstration.—
i) Démontrons la formule quand f prend un nombre fini de valeurs dans un
ensemble E. La v.a Y = f (X) est donc également à valeurs dans un ensemble
fini et on d’après les résultats des deux sous-sections précédentes
X
E(f (X)) = E(Y ) = eP(Y = e)
e∈E
X
= eP(f (X) = e)
e∈E
X
= eP(X ∈ f −1 ({e})
e∈E
X
= eµX (f −1 ({e})
e∈E
X
= eµX (f = e).
e∈E
ii) Considérons le cas où f est positive. On sait (cf. la section 2.3.2) que si
on note hn
n2n −1
X k
hn (·) = n1[n,∞[ (·) + 1 k k+1 (·),
2n [ 2n , 2n [
k=0
et donc E(|f (X)|) = EµX (|f |). Ainsi, f (X) est P-intégrable
R si et seulement
si f est µX intégrable c’est-à-dire si et seulement si R |f (x)|ρX (x)dx < ∞
et quand c’est le cas
E(f (X)) = EµX (f ),
c’est-à-dire Z
E(f (X)) = f (x)ρX (x)dx,
R
Théorème 2.3.5 Si X est une v.a telle que pour toute fonction continue
bornée φ : R → R on a
Z ∞
E(φ(X)) = φ(x)ρX (x)dx,
−∞
Exemple Soit X une v.a suivant une loi normale centrée réduite : Une telle
loi admet une densité
1 2
√ e−x /2 .
2π
Comme Z ∞
1 2
E(|X|) = √ |x|e−x /2 dx
2π −∞
40CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
est finie X est dans L1 (Ω, P). L’espérance de X est donc définie et vaut
Z ∞
1 2
E(X) = x √ e−x /2 dx.
−∞ 2π
Il s’agit de l’intégrale d’une fonction intégrable, impaire sur un intervalle
symétrique : cette intégrale est donc nulle.
Exercice Calculer E(Y ) où Y = X 2 est le carré d’une v.a suivant une loi
normale centrée réduite.
Solution On a
Z ∞
2 1 2
E(X ) = √ x2 e−x /2 dx
2π −∞
Z ∞
1 2
=√ x(xe−x /2 )dx
2π −∞
Z ∞
1 d 2
=√ x (−e−x /2 )dx
2π −∞ dx
Z ∞
1 2
=√ e−x /2 dx
2π −∞
=1
(on a effectué une intégration par parties).
1
ρY (y) = ρX (f −1 (y)),
|φ0 (f −1 (y))|
Théorème 2.3.6 Soient X une v.a de densité ρX prennant ses valeurs dans
un intervalle I (fini ou infini) et f : I → J est une application de classe C 1
pas nécessairement bijective mais telle que tout point y ∈ J ait un nombre fini
d’antécédents. Alors, la v.a Y = f (X) admet une densité ρY dont l’expression
est donnée par
X ρX (x)
ρY (y) = · 1J .
|f 0 (x)|
x∈f
−1 (y)
Ecrivons,
Z ∞ Z 0 Z ∞
2
φ(f (x))ρX (x)dx = φ(x )ρX (x)dx + φ(x2 )ρX (x)dx
−∞ −∞ 0
42CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
Démonstration.—
a) Rappelons que pour tous réels a, b on a |a · b| ≤ (1/2)(a2 + b2 ). Par
conséquent, |X · Y | ≤ (1/2)(X 2 + Y 2 ) et en prenant l’ espérance de chaque
membre de l’inégalité on obtient
1
E(|X · Y |) ≤ (E(X 2 ) + E(Y 2 )),
2
ce qui démontre que X · Y est intégrable.
Supposons E(X 2 ) 6= 0 et considérons pour t réel la quantité suivante qui
est clairement toujours positive ou nulle (espérance d’un carré) :
2.4.1 Variance
Si X est dans L2 (Ω, P) la v.a X − E(X) est également dans L2 (Ω, P)
puisque c’est une somme de deux v.a de L2 (Ω, P) (une v.a constante est
toujours dans L2 (Ω, P)).
Définition 2.4.2 La variance d’une v.a dans L2 (Ω, P) est la quantité E(|X−
E(X)|2 ). La racine carrée de ce nombre s’appelle l’écart-type de X.
La variance est donc la moyenne (l’espérance) des carrés des écarts de X
par rapport à E(X).
Le calcul suivant
démontre
φX (t) = E(tX )
X
= tk P(X = k).
k∈N
Démonstration.—
Afin de simplifier la démonstration nous supposerons que X ne prend
qu’un nombre fini de valeurs dans {0, 1, . . . N}. Il suffit de calculer
N N
dp X k
X
t P(X = k) = k(k − 1) · · · (k − p + 1)tk−p P(X = k)
dtp k=0 k=0
1−a 1−a
φ0X (t) = a , φ00X (t) = 2a2 ,
(1 − ta)2 (1 − ta)3
et donc
a a
E(X) = , V ar(X) = .
1−a (1 − a)2
n
X n k k
φX (t) = t p (1 − p)n−k = (tp + 1 − p)n ,
k=0
k
si bien que
et donc
E(X) = np, V ar(X) = np(1 − p).
∞
−λ
X 1
φX (t) = e tk λk = e−λ etλ = e(t−1)λ .
k=0
k!
Ainsi,
φ0X (t) = λe(t−1)λ , φ00X (t) = λ2 e(t−1)λ ,
et donc
E(X) = λ, V ar(X) = λ.
2.4. ESPACES L2 , VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 47
est finie.
On a
Z ∞
E(X) = xθe−θx 1[0,∞[ (x)dx
Z−∞
∞
= xθe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
1
= ,
θ
(après changement de variable et intégration par parties). Le moment d’ordre
2 s’obtient de façon analogue,
Z ∞
2
E(X ) = x2 θe−θx dx
0
1 ∞ −u
Z
= ue du
θ 0
2
= 2,
θ
(après changement de variable et deux intégrations par parties). On a donc
1
V ar(X) = E(X 2 ) − E(X)2 = .
θ2
Proposition 2.4.3 Si X est une v.a dans L1 (Ω, P) on a pour tout λ > 0
E(|X|)
P(|X| > λ) ≤ .
λ
Démonstration.— La v.a |X| peut sécrire
Or,
|X| · 1{|X|>λ} ≥ λ · 1{|X|>λ} ,
et par conséquent
E(|X|) ≥ λE(1{|X|>λ} ),
c’est-à-dire
E(|X|) ≥ λP({|X|iλ},
ce qui est la conclusion de la proposition.
2
La proposition précédente est une version quantitative du fait que la proba-
bilité que X prenne de grandes valeurs a tendance à être petite.
Si on a des informations sur les moments d’ordre supérieurs l’estimation
précédente est meilleure :
Proposition 2.4.4 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0
E(|X|2 )
P(|X| > λ) ≤ .
λ2
Démonstration.—
Il suffit de remarquer que {X > λ} = {X 2 > λ2 } et d’appliquer la
proposition précédente à la v.a Y = X 2 .
2
Appliquée à la v.a Y = X − E(X) la proposition précédente donne le
théorème de Bienaymé-Tchebychev :
Théorème 2.4.2 Si X est une v.a dans L2 (Ω, P) on a pour tout λ > 0
V ar(|X|)
P(|X − E(X)| > λ) ≤ .
λ2
50CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES
p
Si on note σ = V ar(X) l’écart type on a donc
1
P(|X − E(X)| > λσ) < ,
λ2
(d’où le nom d’écart type donné à σ)
Le théorème de Bienaymé-Tchebychev permet d’obtenir les probabilités des
déviations importantes de la v.a X par rapport à sa moyenne.
Chapitre 3
Vecteurs aléatoires et
Indépendance
51
52 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE
3.1.4 Marginales
Les lois µX1 , . . . , µXm associées aux variables aléatoires X1 , . . . , Xm (définies
comme d’habitude par µXi (A) = P(Xi ∈ A)) sont appelées les lois marginales
du vecteur X.
Cas des vecteurs aléatoires admettant des densités Dans le cas des
vecteurs aléatoires admettant des densités on a le reésultat suivant
Démonstration.—
Pour simplifier les notations démontrons le dans le cas i = 1 : pour tout
intervalle I1 ⊂ R
On a l’égalité
Cov(X, Y ) = E(X · Y ) − E(X)E(Y ).
3.1. VECTEURS ALÉATOIRES 55
Ceci étant vrai pour toute fonction continue bornée Y = f (X) admet une
densité et qui vaut
ρX ◦ f −1 (y)
ρY (y1 , . . . , ym ) = · 1V .
|(Jacf ) ◦ f −1 (y)|
Cas où m > p Afin de simplifier les notations, nous traiterons le cas où
m = 2 et p = 1. Soient donc X = (X1 , X2 ) un vecteur aléatoire de R2 qui
admet une densité ρX (x1 , x2 ) et f : R2 → R une application différentiable.
On cherche à déterminer, si elle existe, la densité de la v.a Y = f (X1 , X2 ).
L’idée pour cela est d’introduire un vecteur aléatoire Z qui est de la forme
3.1. VECTEURS ALÉATOIRES 59
F (x1 , x2 ) = (f (x1 , x2 ), x2 ).
Cas m < p Dans ce cas le vecteur Y n’admet pas de densité. Illustrons ceci
sur un exemple : supposons que m = 1, p = 2 et soit f : R → R2 définie
par f (x) = (x, 0). Supposons que la variable aléatoire Y = f (X) = (X, 0)
admette une densité ρY (y1 , y2 ). Alors, pour tout pavé C =]a1 , b1 [×]a2 , b2 [ on
devrait avoir : Z Z b1 b2
P(Y ∈ C) = ρY (y1 , y2 )dy1dy2 .
a1 a2
on obtient,
Z Z
φ(x + y, y)ρ(x, y)dxdy = φ(u, v)ρ(u − v, v)dudv
R2 R2
et donc, Z
E(φ(Z)) = φ(u, v)ρ(u − v, v)dudv.
R2
Ceci étant vrai pour toute fonction φ continue bornée on peut dire que Z =
(U, V ) = (X + Y, Y ) admet une densité donnée par ρZ (u, v) = ρ(u − v, v).
ii) La densité de X + Y est donc ρX
Z ∞
ρX (x) = ρ(x − v, v)dv.
−∞
Démonstration.—
Traitons le cas où m = 2 (le cas m > 2 est analogie). Fixons un intervalle
ouvert J et considérons l’ensemble CJ des boréliens A pour lesquels
Il est facile de voir que CJ est une tribu. Comme les intervalles ouverts de
R appartiennent à CJ on peut dire que C contient la tribu engendrée par les
intervalles ouverts, c’est-à-dire les boréliens. Ainsi pour tout intervalle J et
tout borélien A on a (3.1). Fixons à présent A et considérons l’ensemble D
des boréliens B de R pour lesquels
Il est clair que c’est une tribu et (3.1) montre qu’elle contient les inter-
valles ouverts. Le même argument que celui fait précédemment montre que
D contient les boréliens. Ainsi, pour tous boréliens A et B on a (3.2).
2
Définition 3.2.2 Une famille (Xi )i∈A de v.a est dite indépendante si toute
sous famille finie (Xi )i∈J , J ⊂ A fini est indépendante.
En d’autres termes, la loi ρX (e1 , . . . , en ) est le produit des lois ρXi (ei ) :
∀(e1 , . . . , en ) ∈ E1 × · · · × En , ρX (e1 , . . . , en ) = ρX1 (e1 ) · · · ρXn (en ).
Donnons un exemple important.
Le jeu de Pile/Face fini L’espace des états est Ω = {0, 1}n (on joue n fois)
muni de la tribu totale P(ω) et de la probabilité uniforme : P(A) = #A/2n .
Nous avons déjà rencontés les variables aléatoires Xi : Ω → {0, 1} définies par
Xi (ω) = ωi (ω = (ω1 , . . . , ωn ) ∈ Ω). La famille X1 , . . . , Xn est indépendante.
En effet pour tout (e1 , . . . , en ) ∈ {0, 1}n
P(X1 = e1 , . . . , Xn = en ) = P({ω : ω1 = e1 , . . . , ωn = en })
= P({ω : ω ∈ {(e1 , . . . , en )})
#{(e1 , . . . , en )}
=
#Ω
1
= n
2
Mais d’autre part,
1 1 1
P(X1 = e1 ) · · · P(Xn = en ) =
··· = n.
2 2 2
On a donc bien P(X1 = e1 , . . . , Xn = en ) = P(X1 = e1 ) · · · P(Xn = en ).
Démonstration.—
En effet pour tous intervalles I1 , . . . , In ,
et le fait que cette identité soit vraie pour tous intervalles I1 , . . . , In implique
que X admet une densité qui est celle annoncée dans l’énoncé de la proposi-
tion.
2
Démonstration.—
Traitons le cas n = 2, le cas général se faisant de la même façon.
i) Supposons que X1 , X2 sont à valeurs dans un ensemble fini E. Notons
f : R2 → R l’application définie par f (x1 , x2 ) = x1 · x2 . On a d’après la
formule de transfert
X
E(f (X1 · X2 )) = f (e1 , e2 )P(X1 = e1 , X2 = e2 )
(e1 ,e2 )∈E×E
X
= e1 e2 P(X1 = e1 ), P(X2 = e2 )
(e1 ,e2 )∈E×E
X X
= e1 P(X1 = e1 ) e2 P(X2 = e2 )
(e1 ∈E e2 ∈E
= E(X1 )E(X2 ).
(n) (n)
X1 (ω), X2 (ω) et telles que E(X1 ) et E(X2 ) convergent respectivement
vers E(X1 ), E(X2 ). D’après i) on a
(n) (n) (n) (n)
E(X1 X2 ) = E(X1 )E(X2 ).
(n) (n)
iii) Comme X1 (ω), X2 (ω) convergent respectivement vers X1 (ω), X2 (ω) en
(n) (n)
croissant, pour tout ω ∈ Ω le produit X1 (ω) · X2 (ω) converge en croissant
vers X1 (ω)X2(ω). Mais d’après le théorème de convergence monotone ceci
implique que
(n) (n)
lim E(X1 · X2 ) = E(X1 · X2 ).
n→∞
Théorème 3.2.2 Si X1 , . . . , Xn sont des v.a telles que pour toutes fonctions
continues bornées φ1 , . . . , φn de R → R on a
Théorème 3.2.3 Soient (Xi )i∈N une famille de v.a indépendantes et (Ji )
(i = 1, 2, . . .) des sous ensembles finis de N qui forment une partition de
N (i.e les Ji sont non vides, N = ∪i≥1 Ji et Ji ∩ Jj = ∅ si i 6= j). Suppo-
sons données des applications (continues, continues par morceaux,...) fi de
R#Ji → R et posons Yi = fi (Xi1 , . . . , Xi#Ji ) (où i1 < · · · < i#Ji sont les
éléments de Ji ). Alors, la famille de v.a Y1 , Y2, . . . est indépendante.
Démonstration.—
Démontrons un cas particulier de ce théorème (mais la preuve dans le cas
général est la même) : Supposons que X1 , X2 , X3 , X4 soit une famille de v.a
indépendantes et que f, g : R2 → R soient des applications (continues...).
Posons Y1 = f (X1 , X2 ) et Y2 = g(X3, X4 ).
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 67
C’est une tribu et elle contient les pavés de la forme I1 × I2 (I1 , I2 intervalles
ouverts de R). Elle contient donc la tribu engendrée par les pavés ouverts et
elle contient donc la tribu borélienne de R2 . On a donc démontré que pour
tout borélien A de R2 et tous intervalles I3 , I4 on a
C’est une tribu qui contient les pavés ouverts de la forme I3 × I4 car
Par conséquent, la tribu D contient la tribu engendrée par les pavés ouverts
c’est à-dire la tribu borélienne de R2 . On a montré que pour tout borélien A
de R2 et tout borélien B de R2
c’est-à-dire
P(Y1 ∈ I, Y2 ∈ J) = P(Y1 ∈ I)P(Y2 ∈ J).
2
68 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE
Exercice Trouver un exemple où chacune des familles (A, B), (B, C), (C, A)
est indépendante mais pas la famille (A, B, C).
Remarquons que 1Ai i égale soit 1Ai soit 1 − 1Ai . On peut donc écrire 1Ai i =
(i + ˜i 1Ai ) où ˜i = 1 − 2i . Ainsi,
n
Y
1
A11 ···1 Ann = (i + ˜i 1Ai )
i=1
XY Y
= i ˜i 1Ai .
J⊂I i∈J i∈I−J
3.3. EVÈNEMENTS INDÉPENDANTS 69
Par conséquent,
n
Y
E(1A11 · · · 1Ann ) = E (i + ˜i 1Ai )
i=1
X Y Y
= i E ˜i 1Ai )
J⊂{1,...,n} i∈J i∈I−J
XY Y
= i ˜i E(1Ai ),
J⊂I i∈J i∈I−J
On a donc,
n
Y
E(1A11 · · · 1Ann )) = (i + ˜i E(1Ai ))
i=1
n
Y
= E(i + ˜i 1Ai )
i=1
Yn
= E(1Ai i ),
i=1
1 1
Sn = (X1 + · · · + Xn )
n n
1
(X1 + · · · + Xn )
n
convergent vers le nombre (ou la v.a constante) 1/2 qui n’est rien d’autre
que l’espérance de X1 . La première difficulté que nous rencontrons est de
donner un sens à la convergence précédente. Rappelons la définition suivante
qui introduit la notion de convergence presque-sure, pertinente pour notre
propos :
71
72CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Théorème 4.1.1 Si (Xi )i≥1 est une famille de v.a indépendante et si les Xi
ont même loi et sont dans L2 alors la suite Sn /n converge en probabilité vers
E(X1 ).
1
(X1 + · · · + Xn )
n
converge P-p.s vers la v.a constante E(X1 ).
Nous nous proposons dans ce qui suit d’en donner une preuve dans le cas où
les v.a sont L2 .
Démonstration.— Dans le cas L2 .
Posons X̄k = Xk − E(Xk ) et S̄n = X̄1 + · · · + X̄k . La famille de v.a (X̄i )i
est indépendante et les X̄i sont de même loi et de carré intégrable. En outre,
et
E(S̄n ) = 0, E((S̄n )2 ) = V ar(S̄n ) = nV ar(X̄1 ).
et donc la série
∞ 2 X ∞
X S̄k2 1
E 2
= 2
V ar(X1 ),
k=1
k k=1
k
74CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
mais si l’espérance d’une v.a positive est finie, cette v.a est finie pour P-p.s.
Par conséquent pour P-presque tout ω ∈ Ω
∞ 2
X S̄k2 (ω)
< ∞,
k2
k=1
S̄k2 (ω)
lim = 0.
k→∞ k2
Nous avons donc montré que P-p.s la suite S̄k2 /k 2 converge vers 0 quand n
tend vers l’infini.
ii) Montrons à présent que la suite S̄n /n converge vers 0 P-p.s. Pour cela,
notons k(n) l’unique entier pour lequel
Les mêmes calculs que ceux que l’on a effectués précédemment montrent que
2
2
E X̄k(n)2 + · · ·+ X̄n = V ar X̄k(n)2 + · · ·+ X̄n ) = (n−k(n) V ar(X1 ),
et ∞ ∞
X̄k(n)2 + · · · + X̄n 2 n − k(n)2
X X
E = V ar(X1 ).
n=1
n n=1
n2
Mais, comme
√ √
n − k(n)2 ≤ (k(n) + 1)2 − k(n)2 = 2k(n) + 1 ≤ 2 n + 1 ≤ 3 n
on a
n − k(n)2 3
≤ √ ,
n n n
P∞ n−k(n)
et la série n=1 n2
V ar(X1 ) est donc convergente. Ainsi
∞
X̄k(n)2 + · · · + X̄n 2
X
E
n=1
n
4.2. THÉORÈME DE LA LIMITE CENTRALE 75
X̄k(n)2 + · · · + X̄n
n
converge P-p.s vers 0.
iii) Comme
et que k(n)2 /n est borné par 1 on déduit de i) et ii) que S̄n /n converge P-p.s
vers 0. Le fait que
S̄n Sn
= − E(X1 ),
n n
permet de conclure la preuve du théorème.
2
Théorème 4.2.2 Soient (Yn )n∈N une suite de v.a et Y une v.a. et notons
FYn : R → [0, 1] et FY : R → [0, 1] les fonctions de répartition des v.a Yn ,
Y :
FYn (t) = P(Yn ≤ t), FY (t) = P(Y ≤ t).
La suite (Yn )n∈N converge en loi vers Y si et seulement si en tout point t0
où FY est continue à gauche
lim FYn (t0 ) = FY (t0 ).
n→∞
Démonstration.—
i) Montrons déjà que si (Yn )n∈N converge en loi vers Y alors en tout point t0
où FY est continue à gauche FYn (t0 ) converge vers FY (t0 ). Considérons deux
suites de fonctions gp , hp : R → R qui sont définies de la façon suivante : gp est
la fonction continue : égale à 1 sur ]−∞, t0 −(1/p)], affine sur [t0 −(1/p), t0 ] et
égale à 0 sur [t0 , ∞[ ; hp est la fonction continue : égale à 1 sur ]−∞, t0 ], affine
sur [t0 , t0 + (1/p)] et égale à 0 sur [t0 + (1/p), ∞[. La suite de fonctions gp est
croissante et converge simplement vers 1]−∞,t0 [ tandis que la suite de fonctions
hp est décroissante et converge simplement vers 1]−∞,t0 ] . De l’inégalité
gp ≤ 1]−∞,t0] ≤ hp
on déduit en passant aux espérances,
E(gp (Yn )) ≤ Fn (t0 ) ≤ E(hp (Yn )).
D’après la définition de la convergence en loi E(gp (Yn )) et E(hp (Yn )) convergent
respectivement quand n tend vers l’infini vers E(gp (Y )), E(hp (Y )) et donc
d’après les inégalités précédentes
E(gp (Y )) ≤ lim inf Fn (t0 ) ≤ lim sup Fn (t0 ) ≤ E(hp (Y )). (4.1)
n→∞ n→∞
4.2. THÉORÈME DE LA LIMITE CENTRALE 77
si bien que
et finalement
|E f (Yn ) − c(Yn ) | ≤ /4 + 2P(|Yn | > A) ≤ /3 (4.2)
|E f (Y ) − c(Y ) | ≤ /4 + 2P(|Y | > A) ≤ /3 (4.3)
Donc dès que n est plus grand qu’un certain entier n2 () on a |E(c(Yn )) −
E(c(Y ))| ≤ /3 et en utilisant (4.2), (4.3) on voit que dès que n ≥ max(n1 (), n2 ())
Corollaire 4.2.1 Si les Yn convergent en loi vers une v.a Y qui admet une
densité ρY alors pour tout intervalle I de R
Z
lim P(Yn ∈ I) = ρY (y)dy
n→∞ I
φY (t) = E(eitY ),
√
(où i = −1).
Remarque i) Pour t fixé la v.a eitY est bornée par 1 (puisque Y est à valeurs
réelles) et est donc intégrable.
ii) La fonction caractéristique d’une v.a ne dépend que de la loi de cette v.a.
iii) On peut démontrer (en utilisant le théorème de convergence dominée)
que la fonction caractéristique d’une v.a.r est continue et tend vers 0 en ±∞.
On peut préciser le résultat de continuité précédent :
φY (tn ) − φY (t)
itY
lim = E (iY )e .
n→∞ tn − t
Calculons, itn Y
φY (tn ) − φY (t) − eitY
e
=E .
tn − t tn − t
4.2. THÉORÈME DE LA LIMITE CENTRALE 79
φY (t) = E(eitY )
Xr
= eityk P(Y = yk )
k=1
Xr
= (eit )yk P(Y = yk )
k=1
φY (t) = E(eitY )
Z ∞
= eity ρY (y)dy.
−∞
R∞
On habituellement ρ̂Y (t) = −∞ eity ρY (y)dy et on dit que la fonction ρ̂Y est
la transformée de Fourier de la fonction ρY
1 2
ρ(y) = √ e−y /2 .
2π
On a donc
∞
1
Z
2 /2
φY (t) = √ eity e−y dy.
2π −∞
On a (cf. exercice) :
2 /2
φY (t) = e−t .
Ainsi, la fonction d’une caractéristique d’une v.a suivant une loi gaussienne
N (µ, σ) est
2 2
φZ (t) = eitµ−σ (t /2) .
Mentionnons que l’on peut étendre la notion de fonction génératrice au
cas des vecteurs aléatoires réeels.
Théorème 4.2.3 La loi d’une v.a.r (resp. d’un vecteur aléatoire) est déterminée
par sa fonction caractéristique : si Y et Z sont deux v.a.r (resp. vecteurs
aléatoires) tel(le)s que pour tout t ∈ R (resp. t ∈ Rn )
φY (t) = φZ (t),
On a donc
|E(f (Y )) − E(f (Yn ))| ≤ |E(f (Y )) − E(g(Y ))| + |E(g(Y )) − E(g(Yn ))|+
|E(g(Yn)) − E(f (Yn ))|
≤ (/5) + P(|Y | > A) + |E(g(Y )) − E(g(Yn ))|+
(/5) + P(|Yn | > A).
Il est clair que P(|Y | > A) tend vers 0 quand A tend vers l’infini, et que le
même résultat est vrai si l’on remplace Y par Yn n étant fixé mais il n’est pas
évident que cette convergence soit uniforme en n. Ceci est l’objet du lemme
suivant dont la démonstration sort du cadre de ce cours
82CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Lemme 4.2.1 On a
Z 1/A
P(|Yn | ≥ A) ≤ A (1 − φYn (t))dt.
−1/A
Espérance conditionnelle
P(A ∩ B)
P(A|B) = .
P(B)
r
X
P(A) = P(A|Bi )P(Bi).
i=1
87
88 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE
P(A|Bi )P(Bi )
P(Bi |A) = Pr .
i=1 P(A|Bj )P(Bj )
Définition 5.2.1 La loi de la v.a Y vue comme v.a sur l’espace probabilisé
(Ω, B, P(·|B) que nous appelerons la loi conditionnelle de Y sachant B et
noterons p(y|B) est
p(y|B) = P(Y = y|B).
Proposition 5.2.2 On a
m
X
E(Y |X = x) = yl pY |X (yl |x).
l=1
Théorème 5.2.1 On a
Nous supposerons dans toute la suite que ρX (x) > 0 pour tout x.
Nous allons définir l’espérance E(Y |X) en nous inspirant de la définition
5.2.4, de la proposition 5.2.2 et de la proposition 5.2.1.
Exercice : Soient X, Y deux v.a dont la loi du couple (X, Y ) admet une
densité égale à ρX,Y (x, y) = (1/x) · 1T (x, y) où T est le triangle T = {0 <
y < x < 1}. Calculer E(Y |X).
Solution : La densité de X se calcule en intégrant ρX,Y (x, y) par rapport à
y ∈ R. On trouve ρX (x) = 1]0,1[ (x) et donc pour x ∈]0, 1[
1
ρY |X (y|x) = 1]0,x[ (y).
x
On trouve ψ(X) = E(Y |X = x) = (x/2) et donc E(Y |X) = ψ(X) = X/2.
Théorème 5.3.1
E(E(Y |X)) = E(Y ).
Démonstration.— Notons ψ(x) = E(Y |X = x). Comme par définition
E(Y |X) = ψ(X), la formule de transfert donne
Z
E(E(Y |X)) = E(ψ(X)) = ψ(x)ρX (x)dx
R
Z Z
= yρY |X (x, y)dy ρX (x)dx
R R
Z Z
ρX,Y (x, y)
= y dy ρX (x)dx
R R ρX (x)
et comme d’après le théorème de Fubini on peut intervertir l’ordre d’intégration :
Z Z
ρX,Y (x, y)
E(E(Y |X)) = ρX (x)dx ydy
R R ρX (x)
Z
= ρY (y)ydy
R
= E(Y ).
2
Exercice : Démontrer que E(Y g(X)|X) = g(X)E(Y |X).
On a l’analogue suivant du théorème de transfert que nous donnons sans
démonstration (comparer avec la définition 5.3.2) :
5.4 Indépendance
Considérons à présent le cas où les v.a X et Y sont indépendantes. Dans
ce cas on sait que
pX,Y (x, y) = pX (x)pY (y),
dans le cas discret et
ρX,Y (x, y) = ρX (x)ρY (y)
dans le cas continu. Par conséquent
pY |X (y|x) = pY (y)
Démonstration.—
Nous faisons la démonstration dans le cas de v.a admettant des densités
(le cas discret se traite de la même façon). Notons Z = f (X, Y ). On a d’après
le théorème 5.3.2
E(Z|X) = ψ(X)
où
Z
ψ(x) = f (x, y)ρY |X (y|x)dy
ZR
= f (x, y)ρY (y)dy
R
= E(Yx )
= F (x).
Calculer E(S).
Solution : On calcule d’abord E(S|N) et pour cela on évalue ψ(n) = E(S|N =
n).
X
E(S|N = n) = E(Xi |N = n)
1≤i≤n
X
= E(Xi ) = nE(X1 ).
1≤i≤n