1

Valore atteso condizionato

Supponiamo dato uno spazio di probabilit` (Ω, A, P ). Considereremo variabili aleatorie a reali, salvo avviso contrario.

1.1

Preliminari

Sia (G1 , . . . , Gm ) una famiglia di eventi che forma una partizione di Ω (cio` Gi ∩ Gj = ∅ e per i = j, ∪m Gj = Ω). Consideriamo la σ-algebra generata da (G1 , . . . , Gm ), indicata j=1 G = σ(G1 , . . . , Gm ). E’ facile verificare che G consiste dell’insieme vuoto e di tutte le unioni di elementi di (G1 , . . . , Gm ). Inoltre una variabile aleatoria Z ` G-misurabile se e solo se e prende valori costanti su ogni insieme Gj , cio` ha la forma Z = m zj 1Gj per opportuni e j=1 numeri zj . Analoghe considerazioni si possono fare nel caso di una partizione numerabile (Gj ). Ricordiamo che fissato B ∈ A la probabilit` condizionata dato B ` la funzione che a ogni a e A ∈ A associa il numero P (A ∩ B) P (A|B) := . P (B) Ora il nostro obiettivo ` definire il valore atteso condizionato di una variabile aleatoria e data una σ-algebra.

1.2

Un caso semplice

Per motivare la definizione che seguir` consideriamo dapprima la situazione particolare a seguente. Sia Y una variabile aleatoria che prende i valori y1 , . . . , yn e X una variabile aleatoria che prende i valori x1 , . . . , xm (nel senso che P (X = xj ) > 0). Motivati dal fatto che E[Y ] = n yi P (Y = yi ), per ogni xj fissato definiamo i=1
n n

E[Y |X = xj ] :=
i=1

yi P (Y = yi |X = xj ) =
i=1

yi

P (X = xj , Y = yi ) . P (X = xj )

(1)

Definiamo ora una variabile aleatoria Z ponendo Z(ω) = E[Y |X = xj ] se X(ω) = xj .

In altre parole, posto Gj := X = xj = {ω ∈ Ω : X(ω) = xj } si definisce Z avente su ogni Gj il valore costante E[Y |X = xj ]. Evidentemente (G1 , . . . , Gm ) forma una partizione di Ω, e per le considerazioni precedenti Z ` G−misurabile, e dove G = σ(G1 , . . . , Gm ). Verifichiamo inoltre che Z dP =
G G

(2)

Y dP,

G ∈ G.

(3)

Per questo, dato che ogni G ∈ G ` unione di elementi Gj , basta mostrare che per ogni fissato e Gj risulti Z dP =
Gj Gj

Y dP.

(4)

1

1.3 Definizione e propriet` del valore atteso condizionato a Teorema 1.c.1 si chiama valore atteso condizionato di Y data G e si indica E(Y |G). E). E) = (Ω. Definizione 1. a e integrabile rispetto a µ. Q(A) = A Y dP. µ(A) = P (A). E’ immediato verificare che Q ` assolutamente continua rispetto a P e ammette pertanto e una densit` Z: esiste allora una variabile aleatoria Z su (Ω. Nel nostro caso prendiamo (E. tale che Q(A) = A Z dµ per ogni A ∈ E. e Se infine Z soddifa a) − b) − c) allora Z ` anch’essa densit` di Q rispetto a P e si e a conclude che P (Z = Z ) = 0. se risulta che a Q ` assolutamente continua rispetto a µ (cio` A ∈ E. a 1. Siano Y ∈ L1 e G una σ-algebra contenuta in A. 2 . Siano Y ∈ L1 e G una σ-algebra contenuta in A. Ricordiamo il teorema di Radon-Nikodym: sia dato uno spazio misurabile (E. Y = yi ). A ∈ G. e c) G Z dP = G Y dP per ogni G ∈ G. cio` esiste una variabile aleatoria Z su (E. tale che Q(A) = A Z dµ per ogni A ∈ E e (cio` Z soddisfa anche c)). i=1 D’altra parte poich´ Y = e Y dP = Gj risulta n yi i=1 Ω 1{Y =yi } 1Gj dP = i=1 yi P (X = xj . le propriet` (2) e (4) caratterizzano Z. a e integrabile rispetto a P (cio` soddisfacente a)). b) Z ` G−misurabile. Esiste allora una variabile aleatoria Z tale che a) Z ∈ L1 .2. ı Nel prossimo paragrafo vedremo che. a Dimostrazione. µ(A) = 0 implica Q(A) = 0) allora e e Q ammette una densit` Z rispetto a µ. G). G) (cio` soddisfacente b)). La variabile Z nell’enunciato del teorema 1. date in partenza una variabile aleatoria y ∈ L1 e una σ-algebra G. Y = yi ). Y = yi ) yi P (X = xj ) = P (X = xj ) n i=1 yi 1{Y =yi } n yi P (X = xj .Poich´ su ogni Gj Z ha il valore costante E[Y |X = xj ] risulta e Z dP = E[Y |X = xj ] n Gj Gj dP = E[Y |X = xj ]P (Gj ) n = i=1 P (X = xj . E) dove sono definite una misura positiva σ-finita µ e una probabilit` Q. e abbiamo cos` mostrato (4) e di conseguenza anche (3). Inoltre se un’altra variabile aleatoria Z soddisfa le propriet` a) − b) − c) allora Z = Z q.

Y → E(Y |G) ` lineare (cio` E(α1 Y1 + α2 Y2 |G) = α1 E(Y1 |G) + α2 E(Y2 |G) q.3. 3. per e e α1 . 9. =⇒ E(lim inf n→∞ Yn |G) ≤ lim inf n→∞ E(Yn |G) q. Viene poi estesa al caso in cui V ` una funzione semplice G-misurabile (cio` una e e combinazione lineare di funzioni caratteristiche della forma 1G ) e infine per approssimazione vale nel caso generale. Y indipendente da G =⇒ E(Y |G) = E[Y ] q. Nel caso particolare in cui Y ∈ L2 allora. risulta E(Y |G) ∈ L2 e E[V E(Y |G)] = E[V Y ] per ogni variabile aleatoria V. . 4. a Osservazione 1. G−misurabile e limitata. 8.Osserviamo che Z ` determinata solo a meno di equivalenza. 3 per ogni G ∈ G. Nel seguito e per` useremo il simbolo E(Y |G) per indicare una qualsiasi delle variabili aleatorie Z che o soddisfano le propriet` a) − b) − c) nel teorema 1. Perci` a e o rigore E(Y |G) ` una classe di equivalenza di variabili aleatorie G-misurabili. che presentiamo senza dimostrazione.4. α2 ∈ R). Yn ≥ 0 q. cio` se Z ` G-misurabile e e e e P (Z = Z ) = 0 allora anche Z ` valore atteso condizionato di Y data G. (teorema di convergenza monotona condizionale).c.c. Il prossimo risultato. E[E(Y |G)] = E[Y ]. perch´ in tal caso si riduce alla e precedente. =⇒ E(Yn |G) → E(Y |G) q. φ : R → R convessa. Allora valgono le seguenti propriet` . =⇒ E(Yn |G) ↑ E(Y |G) q. (disuguaglianza di Jensen condizionale). Y G-misurabile =⇒ E(Y |G) = Y q. 7. (lemma di Fatou condizionale). Y ≥ 0 q. Siano Y. Yn ∈ L1 e G una σ-algebra contenuta in A. =⇒ E(Y |G) ≥ 0 q. 2.c. (5) Anche questa formula si dimostra per approssimazione con ragionamenti standard.c.c.1. G−misurabile e in L2 . φ(Y ) ∈ L1 =⇒ φ(E(Y |G)) ≤ E(φ(Y )|G) q. Teorema 1. 5. |Yn | ≤ V ∈ L1 e Yn → Y q. a 1.c.c. La condizione c) del teorema 1.1 si pu` scrivere nella forma: o E[1G E(Y |G)] = E[1G Y ] Vale in effetti una conclusione pi` forte: u E[V E(Y |G)] = E[V Y ] per ogni variabile aleatoria V.c. come vedremo in seguito. riporta le principali propriet` a del valore atteso condizionato. 0 ≤ Yn ↑ Y q. 6. (teorema di convergenza dominata condizionale). Questa formula vale infatti per V = 1G (con G ∈ G).c.c.c.c.

Sia ora Z ∈ L2 e G-misurabile arbitrario. Scriviamo E[(Y − Z)2 ] = E[(Y − E(Y |G) − E(Y |G) − Z)2 ] = E[(Y − E(Y |G)2 ] + E[(E(Y |G) − Z)2 ] + 2E[(Y − E(Y |G))(E(Y |G) − Z)] e mostriamo che il terzo addendo ` nullo. al variare di Z nell’insieme delle variabili aleatorie G-misurabili e in L2 . si ottiene e |E(Y |G)|p ≤ E(|Y |p |G) q. Per misurare la bont` dell’approssimazione useremo il criterio a dell’errore quadratico medio E[(Y − Z)2 ]. 4 .c. Prendendo il valore atteso risulta e E[|E(Y |G)|p ] ≤ E[E(|Y |p |G)] = E[|Y |p ] < ∞.c. Posto infatti V = E(Y |G) − Z si osserva che e V ∈ L2 ` G-misurabile e si conclude che e E[(Y − E(Y |G))(E(Y |G) − Z)] = E[(Y − E(Y |G))V ] = E[Y V ] − E[E(Y |G)V ] = 0 grazie alla formula (5). cio` che Y ∈ Lp . che ` convessa per 1 ≤ p < ∞. Osserviamo anzitutto che E(Y |G) ∈ L2 poich´ Y ∈ L2 . H σ-algebra. ZY ∈ L1 =⇒ E(ZY |G) = ZE(Y |G) q. il minimo della quantit` a E[(Y − Z)2 ]. Risulta pertanto E[(Y − Z)2 ] = E[(Y − E(Y |G)2 ] + E[(E(Y |G) − Z)2 ] ≥ E[(Y − E(Y |G)2 ] che conclude la dimostrazione. Z G-misurabile.4 Valore atteso condizionato e approssimazione Sia data una variabile aleatoria Y ∈ L2 . che cercheremo di minimizzare. Dimostrazione. Ci proponiamo il problema di approssimarla mediante un’altra variabile aleatoria Z ∈ L2 vincolata per` ad essere misurabile rispetto a o una fissata σ-algebra G ⊂ A.10. 11. si ottiene in corrispondenza di Z = E(Y |G).c. Abbiamo cos` dimostrato che Y ∈ Lp =⇒ E(Y |G) ∈ Lp . Proposizione 1. In particolare applicando la disuguaglianza di Jensen condizionale alla funzione φ(x) = |x|p . Data una variabile aleatoria Y ∈ L2 e una σ-algebra G ⊂ A. H ⊂ G ⊂ A =⇒ E(E(Y |G)|H) = E(Y |H) q. ı 1.5. a condizione che |Y |p ∈ L1 .

con f : R → R. e Poich´ E(Y |X) ` σ(X)-misurabile per definizione. con Y ∈ L2 . La funzione f rappresenta perci` il modo in cui si elabora il o dato osservato X per approssimare una quantit` non osservata Y . Supponiamo che Z abbia la forma indicata. B ∈ B}. indichiamo con σ(X) la σ-algebra generata: σ(X) = X −1 (B) = {A ⊂ Ω : A = X −1 (B).7. dove B indica gli insiemi boreliani di R. Per misurare la bont` a a 2 ]. Z ` G-misurabile se e solo e se prende valori costanti su ogni insieme Gj := {X = xj }. .1. In altre parole. Siano Y ∈ L1 e X un’altra variabile aleatoria. come osservato nella discussione preliminare.5 Valore atteso condizionato a una variabile aleatoria Data una variabile aleatoria X. Ci limitiamo al caso in cui X prende valori in un insieme al pi` numerabile u {x1 . cio` ha la forma Z = j zj 1Gj e per opportuni numeri zj . Con il simbolo E(Y |X = x) si indica una funzione reale misurabile f (x) della variabile x ∈ R tale che E(Y |X) = f (X) q. Ci proponiamo il problema o o di approssimare il valore di Y mediante un’altra variabile aleatoria che abbia la forma f (X). Allora. che dell’approssimazione useremo il criterio dell’errore quadratico medio E[(Y − f (X)) cercheremo di minimizzare scegliendo nel modo migliore la funzione f . La funzione f (x) viene indicata con e e il simbolo E(Y |X = x) secondo la definizione seguente.8.. Basta allora scegliere g : R → R ponendo g(xj ) = zj e g(x) = 0 per x = xj . . Siano Y ∈ L1 e X un’altra variabile aleatoria.}. a Viceversa supponiamo che Z sia G-misurabile e mostriamo che esiste g boreliana tale che Z = G(X). Allora se B ∈ B Z −1 (B) = X −1 (g −1 (B)) ∈ σ(X) per definizione di σ(X) e per il fatto che g −1 (B) ∈ B grazie alla misurabilit` di g.6 Approssimazione di una variabile aleatoria per mezzo di un’altra Siano date due variabili aleatorie X e Y . il teorema precedente assicura che e e esiste una funzione f : R → R misurabile tale che E(Y |X) = f (X) q. Su tale funzione imporremo solo il vincolo che risulti misurabile e che f (X) ∈ L2 . Definizione 1. Teorema 1.c. Una funzione Z : Ω → R ` σ(X)-misurabile se e solo se ha la forma e Z(ω) = g(X(ω)). e e Dimostrazione.6. e 1. Definizione 1. 5 . Le variabili aleatorie misurabili rispetto a σ(X) si possono descrivere in modo semplice come indicato nel seguente teorema. mentre il valore di X pu` essere misurato. E(Y |X) ` una variabile aleatoria che ` funzione di X.c. ω∈Ω dove g : R → R ` una funzione misurabile (cio` boreliana). E(Y |X = x) ` detto valore atteso condizionato di Y dato X = x. Il valore atteso condizionato E(Y |σ(X)) ` detto valore atteso condizionato di Y data X e si indica E(Y |X). . x2 . Y rappresenta un valore che non pu` essere osservato.

che anche la funzione y → fY |X (y|x) soddisfa tali condizioni. E’ facile verificare. 1. al variare di f : R → R nell’insieme delle funzioni misurabili tali che f (X) ∈ L2 . si ottiene in corrispondenza di f (x) = E(Y |X = x).5 il minimo si realizza per Z = E(Y |X) e risulta Z = f (X) prendendo f (x) = E[Y |X = x]. occorre verificare che g(X) = E(Y |X). A ha la forma A = X −1 (B) per un boreliano B ⊂ R. Risulta E[Y |X = x] = R y fY |X (y|x) dy. Dimostrazione. cio` una funzione e a a e misurabile soddisfacente k(y) ≥ 0 e R k(y)dy = 1. chiamata densit` condizionale a di Y dato X = x. Per definizione. Il minimo della quantit` a E[(Y − f (X))2 ]. usando (6). Siano date due variabili aleatorie X e Y . In questa formula k(y) ` una densit` di probabilit` fissata ad arbitrio. a Per ogni x ∈ R introduciamo la funzione y → fY |X (y|x).9. Posto g(x) = R y fY |X (y|x) dy. la variabile aleatoria Z = f (X) varia nell’insieme di tutte le funzioni σ(X)-misurabili tali che Z ∈ L2 . Dimostrazione. Y ) un vettore aleatorio che ammette densit` congiunta f (x. con Y ∈ L2 . y) dy. Al variare di f nell’insieme delle funzioni descritte. y) rispetto alla misura a di Lebesgue bidimensionale. Ricordiamo che X ammette densit` rispetto alla misura di Lebesgue (sulla retta reale) a data dalla funzione fX (x) = f (x. y) se fX (x) = 0. o Proposizione 1.Proposizione 1. Per la proposizione 1. e perci` 1A (ω) = o 1B (X(ω)) e occorre pertanto verificare E[g(X) 1B (X)] = E[Y 1B (X)]. Risulta E[g(X) 1B (X)] = R g(x) 1B (x) fX (x) dx 6 . definita dalla formula   f (x. Supporremo Y ∈ L1 e ci proponiamo di trovare una formula per il calcolo di E[Y |X = x]. (6) R chiamata anche densit` marginale. (7) fY |X (y|x) = fX (x)  k(y) se fX (x) = 0. cio` che per ogni A ∈ σ(X) si abbia e E[g(X) 1A ] = E[Y 1A ].7 Calcolo di E[Y |X = x] con formule esplicite: caso continuo Sia (X. e ci` giustifica la sua denominazione.10.

Y = yi ). sui punti di R2 della forma (xj . yi ). yi ). Supponiamo dapprima B ⊂ C := {x ∈ R : fX (x) = 0}. dalla formula e f (xj . definita sui punti yi dalla formula fY |X (yi |xj ) = f (xj . x2 . che risulta fY |X (yi |xj ) ≥ 0. . Corollario 1.e sostituendo l’espressione di g(x) e usando il teorema di Fubini si arriva a E[g(X) 1B (X)] = R2 y fY |X (y|x) 1B (x) fX (x) dxdy. y)/fX (x). e 7 .}.}. y) dxdy = E[Y 1B (X)] che ` la formula richiesta. Ricordiamo anche che la funzione di massa di probabilit` di X (chiamata anche densit` a a discreta di X. . . Y ) un vettore aleatorio e supponiamo che X prenda valori in un insieme al pi` u numerabile (xj ) = {x1 . o densit` marginale di X) ` data sui punti xj da a e fX (xj ) = i f (xj . e Nel caso generale notiamo che P (X ∈ C) = C fX (x)dx = 0 e pertanto P (X ∈ B) = P (X ∈ B ∩ C). e Y ∈ L1 prenda valori in un insieme al pi` numerabile (yi ) = {y1 . . Y = yi ) = . Ricordiamo che la funzione di massa di probabilit` congiunta (chiamata anche densit` a a discreta congiunta) ` definita.10. Vale allora il risultato seguente.8 Calcolo di E[Y |X = x] con formule esplicite: caso discreto Sia (X. per il quale non serve neppure supporre che Y sia in L1 . dato che ovviamente B ∩ C ⊂ C.11. fX (xj ) P (X = xj ) (9) E’ facile verificare. chiamata densit` condizioa nale di Y dato X = xj . usando (8).. i fY |X (yi |xj ) = 1. Per ogni xj introduciamo ora la funzione yi → fY |X (yi |xj ).c. Questa si verifica come nel caso precedente. Sostanzialmente con gli stessi ragionamenti si dimostra il seguente corollario. y2 . yi ) P (X = xj . con P (X = xj ) > 0. . che ` l’analogo discreto della proposizione 1. 1. Per ogni funzione h : R → R misurabile e limitata risulta E[h(Y )|X = x] = R h(y) fY |X (y|x) dy. ovvero 1B (X) = 1B∩C (X) q. da cui E[g(X) 1B (X)] = R2 y 1B (x) f (x. e la tesi da verificare diventa E[g(X) 1B∩C (X)] = E[Y 1B∩C (X)]. Ci proponiamo di trovare una formula per il calcolo u di E[Y |X = x]. . (8) e risulta fX (xj ) = P (X = xj ) > 0. yi ) = P (X = xj . In tal caso per x ∈ B risulta fY |X (y|x) = f (x.

se x = xj . e a 1. che ` del tutto analoga. e la indichiamo col simbolo P (Y ∈ A|X = x) se valgono le propriet` seguenti: a a) per ogni A ∈ B.12. allora si pu` applicare il corollario 1. Osserviamo che la formula e per E[Y |X = xj ] ` la stessa che avevamo introdotto nel caso di variabili con un numero e finito di valori (si vedano le formule (1) e (9)). Se (X. e Definizione 1. Sostanzialmente con gli stessi ragionamenti si dimostra il seguente corollario. A). Indichiamo ancora con B i boreliani di R. e a c) risulta q(x. Y ) ` un vettore aleatorio che ammette densit` congiunta f (x. Vogliamo definire il concetto di distribuzione di Y condizionata a X. A) = E[1A (Y )|X = x]. Corollario 1. P (Y ∈ A|X = x) = yi ∈A  0 se x = xj . x → q(x. A) ` misurabile. In termini meno precisi si pu` dire che P (Y ∈ A|X = x) = E[1A (Y )|X = x]. e Y prende valori in un insieme al pi` numerabile (yi ). Y ) ` un vettore aleatorio. se x = xj . a o condizione che tale funzione sia una probabilit` rispetto ad A e sia misurabile rispetto a a x.13 prendendo la funzione h(y) = 1A (y) e ottenendo o   fY |X (yi |xj ). X prende valori in un insieme al pi` numerabile (xj ). A → q(x. e b) per ogni x ∈ R. 1. per il quale non serve supporre che Y sia in L1 . Per ogni funzione h : R → R misurabile e limitata risulta   h(yi ) fY |X (yi |xj ). Diciamo che una funzione q(x.9 Distribuzioni condizionate Siano date due variabili aleatorie X e Y .11 prendendo o la funzione h(y) = 1A (y) e ottenendo P (Y ∈ A|X = x) = A fY |X (y|x) dy. A) ` una probabilit` su B. Se (X. E[h(Y )|X = x] = i  0 se x = xj .14. allora si u pu` applicare il corollario 1. definita per x ∈ R e A ∈ B. ` una distribuzione di Y condizionata a X. se x = xj . y) rispetto alla misura di Lebesgue bidimensionale. Non riportiamo la dimostrazione. 8 . e u con P (X = xj ) > 0. Risulta E[Y |X = x] =    0 i yi fY |X (yi |xj ). se x = xj .13. Formule esplicite per P (Y ∈ A|X = x) si trovano nelle situazioni descritte nei due paragrafi precedenti. 2.Proposizione 1.

X = xj ) = . e e 9 . nel secondo caso facendo la somma su A dei termini di una serie (o di una somma finita). X = xj ) P (Y ∈ A. P (X = xj ) P (X = xj ) e ritroviamo cos` la definizione elementare di probabilit` dell’evento {Y ∈ A} condizionata ı a all’evento {X = xj }.Notiamo che P (Y ∈ A|X = x) si calcola in entrambi i casi a partire dalla densit` a condizionata di Y dato X = x: nel primo caso integrando su A. Notiamo infine che nel secondo caso P (Y ∈ A|X = xj ) = yi ∈A fY |X (yi |xj ) = yi ∈A P (Y = yi . che in questo caso ` ben definita poich´ P (X = xj ) > 0.

Sign up to vote on this title
UsefulNot useful