You are on page 1of 232

A

N
A
L
I
S
I
D
E
I
D
A
T
I
2
0
1
2
-
1
3
c
_
L
.
F
i
n
e
s
s
o
(
2
0
1
2
)
Lezione 1 (Luned`ı, 4 marzo 2013, ore 10:30-12:15)
1.1 La probabilit`a per l’Ingegneria dell’Informazione
Iniziamo con la discussione qualitativa di qualche problema pratico che richiede il ricorso
a metodi probabilistici. Alcuni di questi esempi verranno ripresi mano a mano che si
disporr`a degli strumenti tecnici per un’analisi pi` u approfondita.
(a.) Compressione dati senza errore (zip/unzip sul PC)
Si tratta di mappare (codificare), in modo invertibile, una sequenza di dati (ad esempio
un file di testo o un file eseguibile) in una sequenza di bit di lunghezza minima. La parola
chiave qui `e invertibile: ad esempio la compressione di file audio/video in formato .mp3 o
.mp4 non `e invertibile. L’algoritmo impiegato da ZIP produce invece una codifica inver-
tibile. Apparentemente il problema `e completamente deterministico, ma il limite teorico
di compressibilit`a di una data sequenza di dati dipende da una quantit`a probabilistica,
l’entropia della sorgente dei dati.
(b.) Analisi di affidabilit`a
Componenti di affidabilit`a nota vengono assemblati per produrre sistemi. Qual `e l’af-
fidabilit`a complessiva del sistema? Dove conviene introdurre sistemi di backup per garan-
tire una fissata soglia di affidabilit`a? Oppure, di maggior interesse per l’Informatica, si
consideri la piccola rete di calcolatori rappresentata dal grafo qui sotto.
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
I vertici sono i calcolatori, gli archi le connessioni fisiche tra calcolatori. Ogni arco ha due
etichette: il nome e la percentuale di uptime della connessione fisica: potete pensare che
questo dato sia stato ricavato osservando la rete nelle ultime 24 ore o nell’ultimo mese ecc.
Si vuole calcolare la percentuale di uptime della connessione tra A e B. Supponete poi di
riuscire a migliorare la connessione tra D ed E. Di quanto migliorer`a la connessione tra
A e B? A queste domande, e ad altre simili, sapremo presto dare una risposta utilizzando
semplici strumenti probabilistici.
(c.) Complessit`a degli algoritmi - worst case analysis ed analisi in media
Con la worst case analysis si valuta un parametro di performance dell’algoritmo, ad
esempio il tempo di esecuzione, nel caso pi` u sfavorevole. Consideriamo ad esempio un
algoritmo di ordinamento. Supponete di dover ordinare alfabeticamente pacchetti di 1000
nomi. I possibili ordini di arrivo dei dati sono 1000! e tipicamente solo uno di questi `e
il worst case per l’algoritmo di ordinamento che state impiegando.
`
E molto pessimistico
1
basare la valutazione dell’algoritmo sull’analisi della sua performance nel worst case. Se
utilizzate l’algoritmo centinaia di volte al giorno, su pacchetti di 1000 dati sempre diversi,
vi interessa di pi` u il suo tempo di esecuzione medio. Lo studio del comportamento medio
`e un tipico argomento di teoria della probabilit`a.
(d.) Integrazione numerica con il metodo di Monte Carlo
Si supponga di dover calcolare numericamente
I :=
_
1
0
f(x) dx
per una complicata funzione f(x), continua nell’intervallo [0, 1], la cui antiderivata non
`e nota. Il metodo classico `e l’approssimazione di Riemann che consiste nel suddividere
l’intervallo [0, 1] in n sottointervalli di identica lunghezza ∆ :=
1
n
, allora
_
1
0
f(x) dx ≈
n

k=1
f(k∆) ∆.
L’approssimazione `e tanto migliore quanto pi` u grande `e n, come garantito dalla teoria
dell’integrale di Riemann. Un metodo alternativo (metodo di Monte Carlo) consiste nello
scegliere n punti a caso nell’intervallo [0, 1], diciamoli x
1
, x
2
, . . . x
n
, e quindi calcolare
_
1
0
f(x) dx ≈
1
n
n

k=1
f(x
k
).
Nella figura qui sotto i due metodi sono messi a confronto.
6
-
f(x)
∆ 2∆ 3∆ 1
x
6
-
f(x)
x

1
x
3
x
1
x
2
x
f(x

)
Il razionale per il metodo di Monte Carlo `e il teorema della media integrale. Se f(x)
`e una funzione continua sull’intervallo [0, 1] allora esiste x

∈ [0, 1] tale che
_
1
0
f(x) dx =
f(x

). Scegliendo i punti x
1
, x
2
, . . . x
n
a caso alcuni f(x
k
) saranno minori di f(x

), altri
maggiori; se n `e grande, calcolando la media aritmetica degli f(x
k
) ci aspettiamo quindi
di ottenere un valore vicino ad f(x

). Un celebre teorema della teoria della probabilit`a,
la legge dei grandi numeri, giustifica in modo rigoroso questo ragionamento intuitivo. Ma
come si sceglie un punto a caso, diciamo x
1
, nell’intervallo [0, 1]? Lanciamo ripetutamente
una moneta. Scriviamo il punto decimale e poi accodiamo un 1 ogni volta che esce Testa,
ed uno 0 ogni volta che esce Croce. I lanci successivi produrranno in questo modo una
sequenza binaria che interpreteremo come rappresentazione, in base 2, del numero reale
x
1
∈ [0, 1]. Ad esempio la sequenza CCTTCT . . . produce il punto
x
1
= .001101 . . .
2
All’aumentare del numero di lanci aumenta la precisione di x
1
. Con n lanci si ottiene x
1
con precisione
1
2
n
.
Con il metodo di Monte Carlo si calcola un integrale, problema squisitamente de-
terministico, facendo ricorso al fenomeno casuale per eccellenza: i lanci ripetuti di una
moneta.
1.2 La teoria assiomatica della probabilit`a
La teoria della probabilit`a `e uno dei possibili strumenti matematici per modellare esper-
imenti il cui esito `e incerto.
`
E in realt`a lo strumento che ha avuto, e continua ad avere,
maggior successo nelle applicazioni. Lo sviluppo matematico della teoria della probabilit`a
procede per via assiomatica. Una volta definite le nozioni di base si derivano Lemmi,
Proposizioni, e Teoremi, si introducono nuove definizioni e cos`ı via, senza bisogno di fare
riferimento a monete, giochi di carte, esperimenti dall’esito incerto ecc. Poich´e questo `e
un corso di base per`o, per motivare lo studio e per sviluppare l’intuizione, cercheremo
di presentare le idee astratte e dare contemporaneamente la loro interpretazione in vari
contesti applicativi. Lo svantaggio di questo approccio `e che il livello matematico sar`a
troppo basso per chi cerca una trattazione completa, rigorosa e concisa e troppo alto per
chi invece vorrebbe solo imparare a risolvere semplici problemi applicativi.
Il pi` u importante oggetto matematico in teoria della probabilit`a `e lo spazio di proba-
bilit`a. Molto all’ingrosso, vedremo successivamente i dettagli, uno spazio di probabilit`a o
`e una terna
o = (Ω, T, P),
dove Ω `e un insieme (lo spazio campionario) , T una famiglia di sottoinsiemi di Ω (la σ-
algebra degli eventi misurabili) e P una mappa P : T → [0, 1], (la misura di probabilit`a).
In questa lezione ci concentriamo sul primo elemento della terna, lo spazio campionario
Ω.
1.3 Lo spazio campionario Ω
Nella teoria astratta Ω `e un insieme, detto spazio campionario, senza altre specificazioni.
Quando la teoria della probabilit`a viene applicata a problemi concreti gli elementi di Ω
rappresentano i possibili risultati d’interesse di un esperimento aleatorio. La natura di
Ω pu`o quindi essere estremamente varia a seconda dello specifico esperimento. Vediamo
alcuni esempi.
(1.) Esperimento: lancio una moneta. Osservazione: faccia uscita
Ω := ¦ C, T ¦
molto spesso si preferisce identificare C = 0, T = 1.
(2.) Esperimento: lancio una moneta 3 volte. Osservazione: numero di Teste uscite
Ω := ¦ 0, 1, 2, 3 ¦
(2b.) Esperimento: lancio una moneta 3 volte. Osservazione: sequenza delle facce uscite
Ω := ¦ TTT, TTC, TCT, TCC, CTT, CTC, CCT, CCC ¦
(3.) Esperimento: lancio una moneta ripetutamente. Osservazione: numero del lancio
in cui si verifica la prima Testa
Ω = N := ¦ 1, 2, 3, . . . ¦
3
(4.) Esperimento: misurazione della durata di un hard disk. Osservazione: intervallo di
tempo
Ω = R
+
:= [0, ∞)
Nota. Introducendo un’approssimazione si potrebbe misurare la durata in numero intero
di ore. Il motivo per cui non conviene farlo `e che il tempo, come la lunghezza e la massa
per nominarne tre, `e una grandezza fisica che, almeno a livello macroscopico, si modella
pi` u semplicemente usando un numero reale. La legge di Newton F = ma `e un’equazione
differenziale, non un’equazione alle differenze!
(5.) Esperimento: registrazione della temperatura al suolo a Porta Portello. Osser-
vazione: il tracciato termografico nell’arco di 24 ore.
Ω := ¦f : [0, 24] →R; f `e continua ¦
In questo esempio gli elementi di Ω sono funzioni continue. Ogni funzione continua
rappresenta un possibile tracciato osservato.
(6.) Esperimento: registrazione di temperatura e pressione al suolo a Porta Portello.
Osservazione: il tracciato termografico e barometrico nell’arco di 24 ore.
Ω := ¦f : [0, 24] →R
2
; f `e continua ¦
In questo caso ogni osservazione `e una funzione a valori vettoriali, in R
2
.
(7.) Esperimento: studio socio-sanitario. Osservazione: sesso, et`a, peso, degli individui
partecipanti
Ω := ¦F, M¦ N R
+
In questo caso gli elementi sono vettori a tre componenti disomogenee, la prima a valori
in un insieme a due valori, la seconda a valori in N, la terza a valori reali positivi.
Questo `e solo un modesto campionario di casi molto semplici. Una differenza fondamen-
tale tra i diversi spazi campionari `e la cardinalit`a. In alcuni esempi, (1.), (2.), (2b.), la
cardinalit`a `e finita, in altri, (3.), infinita numerabile cio`e pari alla cardinalit`a di N, in
altri, (4.), (7.), infinita non numerabile cio`e pari alla cardinalit`a di R, in altri, (5.), (6.),
superiore alla cardinalit`a di R.
Nella prima parte del corso ci concentreremo su spazi campionari finiti ed infiniti numer-
abili. Nella seconda parte tratteremo gli spazi campionari con la cardinalit`a di R. Non
tratteremo esempi del tipo (5.), (6.).
`
E interessante confrontare gli esempi (2.) e (2b.). Si noti che sullo spazio campionario di
(2b.) si possono rappresentare i risultati d’interesse dell’esempio (2.). Se so che `e uscita
la sequenza TTC posso dire che il numero di Teste `e 2. Quindi lo spazio campionario che
rappresenta i possibili risultati di un esperimento `e inerentemente non unico.
`
E importante
prendere sempre uno spazio campionario sufficientemente ricco da contenere tutti i risultati
d’interesse. Se poi Ω contiene pi` u elementi di quanti strettamente necessari si pu`o gestire
la situazione, mentre il caso opposto porta a problemi. Non si possono rappresentare i
risultati d’interesse del caso (2b.) usando lo spazio campionario di (2.)
1.4 Terminologia relativa allo spazio campionario
La terminologia probabilistica `e ormai consolidata. L’insieme Ω `e detto spazio campionario
(sample space). Gli elementi ω ∈ Ω sono detti esiti (outcomes) o eventi elementari, i
sottoinsiemi di Ω sono detti eventi (events).
1
Nelle applicazioni gli elementi dello spazio
campionario rappresentano i possibili esiti di un esperimento i cui risultati sono incerti.
1
In realt` a, come vedremo, sono detti eventi solo i sottoinsiemi di Ω che appartengono a T.
4
Se l’esecuzione dell’esperimento produce il risultato ω ∈ Ω, si dice che si `e verificato ω e,
per ogni E tale che ω ∈ E, si dice che si `e verificato E.
Esempio 1. Con l’usuale convenzione, 0=croce, 1=testa, sia
Ω := ¦ 000, 001, 010, 011, 100, 101, 110, 111 ¦
lo spazio campionario che rappresenta i possibili risultati di tre lanci di una moneta.
Esempi di eventi di Ω sono i sottoinsiemi di esiti
E
k
:= ”escono k teste su 3 lanci”, k = 0, 1, 2, 3.
Ad esempio E
0
= ¦000¦, mentre E
1
= ¦001, 010, 100¦ ecc. Se si esegue l’esperimento
e, lanciando 3 volte la moneta, escono le facce 001 diremo che ω = 001 si `e verificato.
Analogamente diremo che si `e verificato E
1
, mentre non si `e verificato E
2
.
1.5 Operazioni elementari sugli eventi
Quando si disponga di certi eventi E, F, G ecc. `e naturale utilizzzare gli eventi dati per
formare nuovi eventi d’interesse applicando le usuali operazioni insiemistiche sugli eventi
dati. Qui per usuali operazioni, di cui si considerano note la definizioni, si intendono
l’unione, l’intersezione, e la complementazione
2
. Utilizzando la terminologia probabilistica
appena introdotta, se E ed F sono eventi,
E
c
= si verifica se e solo se non si verifica E
E ∪ F = si verifica se e solo se si verificano E o F
E ∩ F = si verifica se e solo se si verificano E e F
Esempio 2. Riprendendo l’Esempio 1, si considerino i seguenti eventi che sono descritti
sia verbalmente che utilizzando operazioni insiemistiche sugli eventi E
k
.
E := ”si verifica almeno 1 testa” = E
c
0
F := ”si verifica al pi` u 1 testa” = E
0
∪ E
1
G := ”si verifica almeno 1 testa e almeno 1 croce” = E
1
∪ E
2

Due eventi speciali, banali e onnipresenti, sono Ω e ∅ detti, per ovvie ragioni, evento
certo ed impossibile rispettivamente. Tornando all’Esempio 2,
”si verificano almeno 2 teste e 2 croci” = ∅,
mentre
”si verifica almeno 1 testa o una croce” = Ω.
2
Ha senso parlare di complemento di un evento poich´e tutti gli eventi sono sottoinsiemi di Ω.
5
Le propriet`a di complementazione, unione ed intersezione si suppongono note. A titolo
di promemoria, non necessariamente esaustivo, per ogni E, F, G ecc. eventi,
E ∩ F = F ∩ E
E ∪ F = F ∪ G
E ∩ E = E ∪ E = E
E ∩ ∅ = ∅, E ∪ ∅ = E
E ∩ Ω = E, E ∪ Ω = Ω
E ∩ (F ∩ G) = (E ∩ F) ∩ G
E ∪ (F ∪ G) = (E ∪ F) ∪ G
E ∩ (F ∪ G) = (E ∩ F) ∪ (E ∩ G)
E ∪ (F ∩ G) = (E ∪ F) ∩ (E ∪ G)
(E ∩ F)
c
= E
c
∪ F
c
(E ∪ F)
c
= E
c
∩ F
c
6
Attenzione. Si tenga ben presente che la scrittura E ∩ F ∪ G `e priva di senso, poich´e
mancando le parentesi non `e chiaro in che ordine si debbano effettuare le operazioni e, in
generale (E∩F) ∪G e E∩(F ∪G) sono diversi [Micro-esercizio. Costruire esempi dell’ul-
tima affermazione.] Morale: ogni volta che si scrive una espressione che contiene unioni,
intersezioni e complementazioni si deve specificare univocamente l’ordine di esecuzione
delle operazioni con abbondante uso di parentesi.
1.6 Decomposizioni di eventi in unioni di eventi mutuamente esclusivi
(a.) Partizione di Ω
Una partizione di Ω `e una famiglia ¦E
n
¦
n≥1
di eventi mutuamente esclusivi, la cui unione
`e Ω, ovvero tale che
E
i
∩ E
j
= ∅, i ,= j
Ω =
_
i
E
i
Esempi.
(i.) Dato un evento E, una semplice partizione di Ω `e ¦E, E
c
¦. In effetti E ∩ E
c
= ∅ e
E ∪ E
c
= Ω.
(ii.) Si consideri Ω come nell’Esempio 1.
`
E evidente che gli eventi E
k
, per k = 0, 1, 2, 3,
formano una partizione di Ω. In questo caso
E
0
= ¦000¦, E
1
= ¦001, 010, 100¦, E
2
= ¦011, 101, 110¦, E
3
= ¦111¦
ed Ω = ∪
3
k=0
E
k
.
(iii.) Lancio due dadi e osservo le facce uscite, Ω = ¦(1, 1), (1, 2), . . . (6, 6)¦ contiene 36
coppie ordinate. Una partizione `e fornita dagli eventi
E
k
:= ”la somma delle facce `e k”, k = 2, 3, . . . 12.
(b.) Decomposizione rispetto ad una partizione.
Nel caso elementare si considera la partizione (E, E
c
) dove E ⊂ Ω. Poich´e per ogni F ⊂ Ω
`e F = F ∩ Ω = F ∩ (E ∪ E
c
) = (F ∩ E) ∪ (F ∩ E
c
) otteniamo la rappresentazione
F = (F ∩ E) ∪ (F ∩ E
c
).
I due eventi dell’unione sono incompatibili: questo, vedremo, `e particolarmente conve-
niente in TdP. Per un dato F la rappresentazione vale qualunque sia E: nella pratica sar`a
importante scegliere E in modo che la rappresentazione semplifichi i conti probabilistici.
In generale se (E
n
) `e una partizione di Ω allora vale la rappresentazione
F =
_
i
(F ∩ E
i
)
e gli eventi dell’unione sono mutuamente esclusivi. Anche qui, in pratica, sar`a fondamen-
tale scegliere opportunamente la partizione.
(c.) Decomposizione dell’unione
In TdP la decomposizione di eventi complessi in unione di eventi incompatibili (cio`e digiun-
ti) `e uno dei trucchi standard per semplificare i calcoli. La seguente decomposizione, valida
qualunque siano gli eventi E ed F, si dimostrer`a spesso utile
E ∪ F = (E ∩ F
c
) ∪ (E ∩ F) ∪ (E
c
∩ F)
7
(d.) Decomposizione alternativa dell’unione e generalizzazione
Le decomposizioni in unioni di eventi incompatibili si possono normalmente effettuare in
molti modi. Quale sia la decomposizione pi` u conveniente lo si stabilir`a, caso per caso,
nell’applicazione al calcolo delle probabilit`a. Ad esempio per l’unione di due eventi vale
anche la decomposizione
E ∪ F = E ∪ (F ¸ E)
Questa decomposizione si generalizza immediatamente al caso di tre eventi
E ∪ F ∪ G = E ∪ (F ¸ E) ∪ (G¸ (E ∪ F))
e pi` u in generale, per n eventi
n
_
k=1
E
k
= E
1
_
_
_
n
_
k=2
_
_
E
k
¸
k−1
_
j=1
E
j
_
_
_
_
1.7 Altre operazioni tra eventi
Operazioni del tipo E ∩ F
c
intervengono abbastanza spesso da meritare un nome.
Differenza di eventi. E ¸ F := E ∩ F
c
.
Differenza simmetrica di eventi. E ´F := (E ∩ F
c
) ∪ (E
c
∩ F).
Usando le nuove definizioni la decomposizione dell’unione si pu`o riscrivere come
E ∪ F = (E ¸ F) ∪ (E ∩ F) ∪ (F ¸ E) = (E ´F) ∪ (E ∩ F).
1.8 Osservazione sulle operazioni tra eventi
Nota bene. Qualunque espressione che consista di complementazioni, intersezioni, unioni,
differenze, e differenze simmetriche di eventi dati si pu`o sempre esprimere, a partire dagli
eventi dati, utilizzando esclusivamente le operazioni di complementazione ed intersezione
(oppure unione). A titolo d’esempio, usando le leggi di De Morgan si pu`o esprimere la
differenza simmetrica facendo ricorso solo a complementazioni e unioni, oppure solo a
complementazioni e intersezioni
E ´F = (E ∩ F
c
) ∪ (E
c
∩ F)
= (E
c
∪ F)
c
∪ (E ∪ F
c
)
c
=
_
(E ∩ F
c
)
c
∩ (E
c
∩ F)
c
_
c
Questo risultato `e interessante negli sviluppi teorici, ma le espressioni contenenti, ad
esempio, solo complementazioni e unioni diventano rapidamente molto complesse e di
difficile leggibilit`a.
8
Lezione 2 (Marted`ı, 5 marzo 2013, ore 16:25-18:10)
2.1 La σ-algebra degli eventi T
(a.) Motivazione
Nelle applicazioni lo spazio di probabilit`a o = (Ω, T, P) modella un esperimento il cui
esito `e incerto. Gli elementi di Ω sono i possibili risultati dell’esperimento, mentre T `e una
famiglia di sottoinsiemi di Ω per i quali `e definita la misura di probabilit`a P. Idealmente si
vorrebbe definire la probabilit`a per tutti gli eventi d’interesse dell’esperimento. In linea di
principio si potrebbe pensare di definire P per tutti i sottoinsiemi di Ω, di fatto assumendo
che la famiglia T coincida con la famiglia di tutti i sottoinsiemi di Ω, nota come potenza
di Ω e denotata P(Ω). La scelta T = P(Ω) `e sempre possibile, e la adotteremo, se [Ω[ ≤ [N[
(qui e altrove [E[ denota la cardinalit`a dell’insieme E). Quando invece [Ω[ = [R[ non `e
possibile scegliere T = P(Ω) e definire in modo consistente la misura di probabilit`a P. In
ogni caso `e necessario che T abbia la struttura, specificata qui sotto, di σ-algebra affinch´e
la teoria risulti ben posta.
(b.) Definizione
Sia Ω un insieme assegnato. Una famiglia T di sottoinsiemi di Ω `e detta σ-algebra se
soddisfa agli assiomi:
(i) T non `e vuota
(ii) T `e chiusa rispetto alla complementazione (significa che se E ∈ T, allora E
c
∈ T).
(iii) T `e chiusa rispetto all’unione numerabile (significa che se E
i
∈ T per ogni i ≥ 1,
allora ∪
i
E
i
∈ T.
Gli elementi di T sono detti eventi misurabili o semplicemente eventi.
(c.) Conseguenze elementari degli assiomi (dimostrate a lezione)
(i.) ∅ e Ω appartengono ad T. (dagli assiomi)
(ii.) T `e chiusa rispetto alle intersezioni numerabili. (assiomi+De Morgan)
(iii.) T `e chiusa rispetto a qualunque sequenza numerabile di complementazioni, inter-
sezioni, unioni, differenze, differenze simmetriche di eventi di T. (assiomi+osservazione 1.8).
(d.) Esercizio.
T `e chiusa rispetto alle unioni finite ed alle intersezioni finite.
2.2 La misura di probabilit`a P
(a.) Definizione
P : T → R
+
`e una mappa E → P(E) che ad ogni evento misurabile E ∈ T associa il
numero reale P(E), detto la misura di probabilit`a di E o semplicemente la probabilit`a di
E, e che soddisfa i seguenti assiomi
(0) (positivit`a) P(E) ≥ 0 per ogni E ∈ T,
(i) (normalizzazione) P(Ω) = 1,
(ii) (σ-addittivit`a) Se ¦E
i
¦ `e una famiglia numerabile di eventi mutuamente esclusivi
P(∪
i
E
i
) =

i
P(E
i
).
(b.) Conseguenze elementari degli assiomi (dimostrate in classe)
(1.) P(E
c
) = 1 −P(E).
9
(2.) P(∅) = 0, (corollario di (1.)).
(3.) E ⊂ F implica P(E) ≤ P(F), (monotonia della misura P).
(4.) P(E) ∈ [0, 1] per ogni E ∈ T, (corollario di (3.)).
(5.) P(E ∪ F) = P(E) +P(F) −P(E ∩ F), (formula di inclusione/esclusione).
(6.) P(E ∪ F) ≤ P(E) +P(F), (subaddittivit`a di P).
(7.) P (∪
i
E
i
) ≤

i
P(E
i
), (subaddittivit`a numerabile).
(8.) P(E ∪ F ∪ G) = P(E) +P(F ¸ E) +P(G¸ (E ∪ F)), (decomposizione disgiunta).
(9.) P(E ∪ F ∪ G) = P(E) +P(F) +P(G)
−P(E ∩ F) −P(E ∩ G) −P(F ∩ G)
+P(E ∩ F ∩ G).
(alternativa alla (7.) – questa `e la formula di inclusione /esclusione, dimostrata scrivendo
P(E ∪ F ∪ G) = P((E ∪ F) ∪ G) ed usando la (4.)).
(10.) P(E ∪ F ∪ G∪ H) = P(E) +P(F) +P(G) +P(H)
−P(E ∩ F) −P(E ∩ G) −P(E ∩ H) −P(F ∩ G) −P(F ∩ H) −P(G∩ H)
+P(E ∩ F ∩ G) +P(E ∩ F ∩ H) +P(E ∩ G∩ H) +P(F ∩ G∩ H)
−P(E ∩ F ∩ G∩ H),
(formula di inclusione /esclusione per pi` u di tre eventi - senza dimostrazione).
(11.) P(E´F) = P(E) +P(F) −2P(E ∩ F), (esercizio).
(c.) Non unicit`a di P
L’osservazione chiave `e che gli assiomi non determinano P univocamente. Abbiamo visto
l’esempio della moneta, con Ω = ¦C, T¦, T = P(Ω). La misura di probabilit`a P non `e
univocamente determinata: ce ne sono infinite compatibili con gli assiomi, ognuna di esse
`e completamente specificata dal numero p ∈ [0, 1] dove P(¦T¦) = p. Ben lungi dall’essere
una limitazione, la libert`a di scelta di p consente, nell’esempio concreto, di modellare
qualunque moneta.
10
Lezione 3 (Mercoled`ı, 6 marzo 2013, ore 16:25-18:10)
3.1 Possibili scelte di P – Misura empirica
Quando si costruisce uno spazio di probabilit`a o = (Ω, T, P) per modellare un esperimen-
to, la scelta di Ω e di T di solito non pone problemi, ma come visto nell’esempio della
moneta, gli assiomi non specificano P univocamente. La Statistica si occupa della scelta
ottimale di P allo scopo di modellare un dato esperimento. Tempo permettendo daremo
qualche cenno di Statistica verso la fine del corso. Qui diamo alcuni esempi di possibili
scelte di P, iniziando dalla cosiddetta misura empirica.
Si supponga che l’esperimento che si vuole modellare sia ripetibile pi` u volte in condizioni
analoghe. La misura empirica si costruisce come segue. Si effettua l’esperimento n volte,
registrando la sequenza ω
1
, ω
2
, . . . ω
n
degli esiti osservati. Per ogni evento E ∈ T sia n
E
,
la frequenza di E, il numero di volte che si verifica E nelle n prove, ovvero il numero di
esiti ω
i
tali che ω
i
∈ E per i = 1, 2, . . . n.
Definizione (misura empirica).
P
n
(E) :=
n
E
n
, per ogni E ∈ T
P
n
(E) `e la frequenza relativa di E, ovvero la percentuale di volte in cui E si verifica.
Lemma. P
n
`e una misura di probabilit`a.
Dimostrazione. L’assioma (0) `e soddisfatto banalmente. L’assioma (i) `e soddisfatto poich´e
n

= n. L’assioma (ii) richiede che se E ∩ F = ∅ allora P
n
(E ∪ F) = P
n
(E) + P
n
(F),
ma per eventi E ed F disgiunti, n
E∪F
= n
E
+ n
F
, da cui discende l’addittivit`a di P
n
.
Allo stesso modo, per famiglie numerabili ¦E
i
¦ di eventi disgiunti, n

i
E
i
=

i
n
E
i
, da cui
discende la σ-addittivit`a di P
n
.
Esempio 1. Lancio di una moneta. Ω = ¦C, T¦, T = P(Ω). La misura di probabilit`a
`e completamente specificata assegnando p = P(¦T¦). Per costruire la misura empirica
lanciamo la moneta ad esempio n = 12 volte e siano T, T, C, C, C, T, T, T, T, T, T, T gli
esiti. Allora p := P
12
(¦T¦) =
9
12
= 0.75. Peraltro limitandosi alle prime 10 prove P
10
(T) =
7
10
= 0.7. Intuitivamente, se la moneta `e equilibrata, lim
n→∞
P
n
(¦T¦) = 0.5.
Esempio 2. Lancio di un dado. Ω = ¦1, 2, 3, 4, 5, 6¦, T = P(Ω). Si lancia il dado n = 15
volte e gli esiti osservati sono 1, 3, 2, 3, 5, 4, 3, 4, 3, 5, 3, 2, 1, 5, 2. In questo caso P
15
(¦3¦) =
5
15
. Si determinino P
15
(”esce faccia pari”) e P
15
(¦6¦).
Esempio 3. Scelta casuale di un punto in [0, 1]. Per costruire la misura empirica si pu`o
pensare che il tenente Colombo si rechi al poligono di tiro e spari n volte al bersaglio, l’inter-
vallo [0, 1], ogni volta chiudendo gli occhi. Se E ⊂ [0, 1] la misura empirica `e P
n
(E) :=
n
E
n
,
dove n
E
`e il numero di volte che Colombo colpisce un punto in E. Intuitivamente, se
Colombo spara a caso, lim
n→∞
P
n
([a, b]) = b −a per ogni [a, b] ⊂ [0, 1].
Esercizio. I dati di un’indagine di mercato sono: al 70% dei ragazzi piace la Coca, al 50%
piace la Pepsi, al 20% non piacciono n´e Coca n´e Pepsi. Calcolare la percentuale di ragazzi
a cui piace almeno una delle due bevande e quella dei ragazzi a cui piacciono entrambe.
Soluzione. Interpretando le percentuali come probabilit`a empiriche i dati sono P(Coca) =
0.7, P(Pepsi) = 0.5, P(Coca
c
∩ Pepsi
c
) = 0.2. Le probabilit`a richieste sono
P(Coca ∪ Pepsi) = P((Coca
c
∩ Pepsi
c
)
c
) = 1 −0.2 = 0.8
P(Coca ∩ Pepsi) = P(Coca) +P(Pepsi) −P(Coca ∪ Pepsi) = 0.7 + 0.5 −0.8 = 0.4
11
Interpretazione frequentista della probabilit`a.
L’interpretazione delle probabilit`a di eventi come frequenze relative, o percentuali, `e molto
comune negli studi osservazionali di tipo economico, epidemiologico, sociale, biologico,
ecc. La misura empirica P
n
presenta per`o evidenti difetti. In particolare, per un fissato
evento E, la probabilit`a empirica P
n
(E) dipende da n e dalla specifica sequenza di esiti
osservati, ω
1
, ω
2
, . . . ω
n
. La dipendenza di P
n
dai risultati delle prove ripetute `e giusto che
ci sia visto che P
n
deve modellare l’esperimento, ma la dipendenza da n `e molto scomoda.
Nell’esempio 1, la dipendenza da n comporta che non si riesca ad associare un unico valore
a p, la probabilit`a di Testa della moneta. Per ovviare a questo inconveniente i frequentisti si
arrampicano sugli specchi nel tentativo di sostituire P
n
(E) con lim
n→∞
P
n
(E), ma si tratta
di discorsi piuttosto vaghi, solo apparentemente supportati da un teorema fondamentale
del calcolo della probabilit`a, la legge dei grandi numeri, che vedremo pi` u avanti.
3.2 Possibili scelte di P – Caso di Ω discreto
Consideriamo ora il caso di spazi di probabilit`a o = (Ω, T, P) dove [Ω[ ≤ [N[. (ricordo
che [E[ denota la cardinalit`a di E). Questo `e il cosiddetto caso discreto a cui ci atterremo
nela prima parte del corso. Si possono presentare due casi: Ω = ¦ω
1
, ω
2
, . . . ω
N
¦ ovvero
di cardinalit`a [Ω[ = N finita, oppure Ω = ¦ω
1
, ω
2
. . . ¦ con [Ω[ = [N[. In entrambi questi
casi, senza perdita di generalit`a, prenderemo sempre T := P(Ω). Negli spazi di probabilit`a
discreti la misura P `e completamente specificata dai valori sui singleton: conoscere P(¦ω
i
¦)
per ogni ω
i
∈ Ω permette di calcolare P(E) per ogni E ∈ T. Infatti la σ-addittivit`a
comporta che
P(E) =

ω
i
∈E
P(¦ω
i
¦) (1)
Osservazione 1. La numerabilit`a di Ω `e fondamentale per la validit`a dell’equazione 1.
Osservazione 2. Diciamo p
i
:= P(¦ω
i
¦). Allora, se [Ω[ = N basta assegnare N − 1 dei
valori p
1
, . . . p
N
(perch´e?).
Osservazione 3. Se [Ω[ = [N[, il vincolo


i=1
p
i
= 1 impone la convergenza della serie.
Quindi, ad esempio, `e impossibile per Ω = N avere misure di probabilit`a del tipo P(¦i¦) =
c
i
mentre `e possibile avere P(¦i¦) =
c
i
2
. Quanto deve valere in questo caso? (
`
E necessario
conoscere la teoria della convergenza della serie di Fourier per rispondere).
3.3 Possibili scelte di P – Caso di Ω finito con esiti equiprobabili
Se Ω = ¦ω
1
, ω
2
, . . . ω
N
¦ ha cardinalit`a finita N, allora `e possibile scegliere la misura P che
assegna la stessa probabilit`a a tutti gli esiti elementari, ovvero P(¦ω
i
¦) =
1
[Ω[
=
1
N
per
ogni i = 1, 2, . . . N (caso equiprobabile). Se P `e equiprobabile allora, per ogni E ∈ T,
P(E) =

ω
i
∈E
P(¦ω
i
¦) =
[E[
[Ω[
,
formula che nei testi elementari `e spesso scritta come
P(E) =
numero dei casi favorevoli
numero dei casi totali
.
Bench´e sia tecnicamente sempre possibile prendere P equiprobabile quando Ω ha car-
dinalit`a finita, non `e detto che si tratti di una buona scelta per modellare un dato
esperimento.
Controesempio. Sia Ω = ¦0, 1, 2, 3¦ dove gli esiti elementari rappresentano il numero di
Teste in tre lanci consecutivi di una moneta. In questo caso la misura equiprobabile urta
12
contro la nostra intuizione. Su tre lanci di una moneta `e pi` u facile osservare una Testa
piuttosto che tre Teste o nessuna Testa. Se si vuole usare P come modello dell’esperimento
che consiste in tre lanci consecutivi di una normale moneta l’assegnazione equiprobabile
P(¦i¦) =
1
4
per i = 0, 1, 2, 3 non ha molto senso.
Esempio. Sia Ω = ¦TTT, TTC, TCT, CTT, TCC, CTC, CCT, CCC¦ dove gli esiti elemen-
tari rappresentano le possibili sequenze di risultati di tre lanci di una moneta. In questo
caso `e ragionevole prendere la P equiprobabile: P(ω
i
) =
1
8
per ogni i = 1, . . . 8 (sono 8 gli
esiti elementari). Se E
k
= ”escono k teste in 3 lanci” per k = 0, 1, 2, 3 abbiamo calcolato
P(E
0
) = P(E
3
) =
1
8
e P(E
1
) = P(E
2
) =
3
8
. Lo stesso si pu`o fare se si considera lo spazio
Ω relativo a diciamo 50 lanci di una moneta. Sia E
34
l’evento ”escono 34 teste su 50 lanci
della moneta”. Quanto vale P(E
34
)? In teoria `e facile
P(E
34
) =
[E
34
[
[Ω[
,
ma il calcolo delle cardinalit`a di insiemi finiti non `e sempre agevole. Questo motiva la
breve digressione sulla combinatoria elementare.
3.4 Combinatoria elementare – I
Principio fondamentale del conteggio.
Motivazione. Ricordate l’esempio fatto in classe dell’armadio con dentro 4 camicie, 3
pantaloni e 2 paia di scarpe. In quanti modi diversi posso vestirmi? Se gli abbinamenti di
vestiario non hanno rilevanza (maschi) 4 3 2 = 24 modi. Se gli abbinamenti di vestiario
limitano le scelte (femmine) allora il principio fondamentale non si applica. Pi` u in generale
si conta come segue.
Il principio. Si effettuano r esperimenti. Il primo ha n
1
risultati possibili. Qualunque sia
l’esito del primo esperimento il secondo esperimento ha sempre lo stesso numero n
2
di
possibili risultati, e cos`ı via fino alla condizione che, qualunque sia il risultato dell’(r −1)-
esimo esperimento, l’r-esimo esperimento ha sempre n
r
esiti possibili. Si supponga anche
che esiti diversi degli r esperimenti producano sequenze distinguibili. Sotto queste ipotesi
il numero di possibili esiti degli r esperimenti condotti in sequenza `e
n
1
n
2
. . . n
r
Esempi elementari di conteggio. In classe abbiamo visto alcuni esempi: targhe automobilis-
tiche, schedine del totocalcio, corsa campestre.
Problemi di conteggio I
Discussione dei due paradigmi: del campionamento e dell’allocazione. Tutta la terminolo-
gia ed i possibili problemi di conteggio che ho elencato a lezione li potete rivedere con
calma nell’appendice a queste note.
Esempio 1. Numero delle schedine del totocalcio. Si tratta di contare le disposizioni con
ripetizione di n = 3 oggetti (i simboli 1, X, 2), presi k = 13 alla volta (le 13 partite).
Il numero di schedine `e n
k
= 3
13
, applicando il principio fondamentale del conteggio.
Abbiamo visto le due interpretazioni, come problema di campionamento e come problema
di allocazione.
Esempio 2. Numero di possibili terne di vincitori di medaglia ad una corsa campestre cui
partecipano 10 corridori. Si tratta di contare le disposizioni senza ripetizione di n = 10
oggetti (i corridori) presi k = 3 alla volta (oro, argento, bronzo). Usando il principio
fondamentale del conteggio, il numero di possibili ”podii” `e n (n − 1) (n − 2)
(n − k + 1) = 10 9 8. Abbiamo visto le due interpretazioni, come problema di
campionamento e di allocazione.
13
Appendice alla Lezione 3
Problemi di campionamento e di allocazione
A3.1 Introduzione
I problemi di conteggio sono difficilmente categorizzabili in tipologie standard ed ognuno
di essi va trattato nella sua peculiarit`a. Esistono tuttavia alcuni punti di vista generali
che possono aiutare nell’impostazione delle soluzioni. In questa sezione presentiamo due
elementari paradigmi del conteggio, campionamento ed allocazione.
Un problema di campionamento si modella con un’urna contenente n palline, distin-
guibili (ad esempio numerate da 1 a n) o distinguibili a gruppi (ad esempio n palline di
m < n colori diversi). Vengono effettuate k estrazioni, ed annotato il risultato di ogni
estrazione. Le estrazioni possono essere con o senza reinserimento nell’urna della pallina
appena estratta, prima di passare all’estrazione successiva. Interessa contare quante sono
le possibili sequenze di estrazioni. Si pu`o contare in due modi. Se si tiene in consider-
azione l’ordine di estrazione si dice che si stanno contando le disposizioni : 1, 2 e 2, 1 sono
due disposizioni diverse. Se non si tiene in considerazione l’ordine si dice che si stanno
contando le combinazioni : 1, 2 e 2, 1 sono la stessa combinazione.
Nei problemi di allocazione il modello consiste in un insieme di scatole (celle) distinte
ed in un certo numero di gettoni, che possono essere distinguibili o identici tra loro.
I gettoni vanno inseriti (allocati) nelle scatole. Il riempimento delle scatole pu`o essere
libero, o soggetto a vincoli. Nel caso libero ogni scatola pu`o contenere qualunque numero
di gettoni, 0 compreso. Vincoli tipici sono: al pi` u 1 gettone (cio`e 0 o 1) per scatola, oppure
un numero preassegnato di gettoni in ogni scatola. Interessa contare il numero di possibili
allocazioni di gettoni nelle scatole.
La nota `e organizzata in modo da mettere in evidenza, attraverso un numero romano,
la corrispondenza tra problemi di campionamento e di allocazione. Per mostrare come
passare da un paradigma all’altro nell’impostazione di un problema di conteggio illustr-
eremo i due punti di vista con lo stesso esempio. Nei problemi di conteggio concreti,
solitamente pi` u complessi, `e per`o spesso naturale impostare il conteggio usando sfecifica-
mente uno dei due paradigmi, quindi `e utile conoscerli entrambi. In realt`a il paradigma
dell’allocazione permette di trattare, in modo abbastanza semplice, anche complicati vin-
coli di riempimento delle scatole che si tradurrebbero in problemi di campionamento molto
artificiali.
La nota `e in buona parte basata sul capitolo 3 dell’ottimo libro di K.L. Chung,
Elementary probability theory with stochastic processes, Springer 1974.
A3.2 Problemi di campionamento
Elenchiamo di seguito i quattro tipici problemi di campionamento, ed alcune varianti.
Campionamento I
• n palline distinte nell’urna (ad esempio numerate da 1 a n)
• k estrazioni con reinserimento (n e k liberi)
• Problema: contare le disposizioni
• Soluzione. n
k
14
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e reinserisco la pallina nell’urna. Alla seconda estrazione ho ancora n possibili
risultati dell’estrazione e cos`ı via fino alla k-esima estrazione. Per il principio del conteggio
il numero di disposizioni `e n
k
.
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Totocalcio
3
: contare il numero di schedine giocabili. Una giocata si modella
con un’urna contenente n = 3 palline 1, X, 2, dalla quale si estrae k = 13 volte, con rein-
serimento. Ad ogni disposizione delle palline estratte corrisponde una schedina giocabile.
Soluzione: n
k
= 3
13
.
Campionamento II
• n palline distinte nell’urna (ad esempio numerate da 1 a n)
• k estrazioni senza reinserimento (quindi k ≤ n)
• Problema: contare le disposizioni
• Soluzione. D(n, k) := n (n −1) (n −k + 1)
Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto
il risultato e butto la pallina. Rimangono n − 1 palline nell’urna, vi sono quindi n − 1
risultati possibili per la seconda estrazione, cos`ı via fino alla k-esima estrazione per la
quale sono possibili n −k +1 (attenzione al +1) risultati. Per il principio del conteggio il
numero di disposizioni `e n(n −1) . . . (n −k + 1), per comodit`a denotato D(n, k).
Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni
senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Corsa campestre, partecipano 10 atleti. In quanti modi diversi possono essere
assegnate le 3 medaglie d’oro, d’argento e di bronzo? L’urna contiene n = 10 palline
distinguibili (gli atleti), e si effettuano k = 3 estrazioni senza reinserimento. Contare le
risultanti disposizioni significa contare i possibili ordini di arrivo dei primi 3. Soluzione:
n (n −1) (n −k + 1) = 10 9 8.
Campionamento IIa

`
E il caso II con k = n. Le disposizioni con k = n si dicono permutazioni.
• Soluzione. n! := D(n, n) = n (n −1) 2 1
Spiegazione. Come per il caso II, procedendo fino ad k = n. Si noti che n! = D(n, n).
Esempio. Anagrammi della parola MILANO. L’urna contiene n = 6 palline distinguibili (le
lettere A, I, L, M, N, O) che vengono estratte, senza reinserimento, fino a vuotare l’ur-
na. Ad ogni disposizione delle palline corrisponde uno dei possibili anagrammi. Soluzione:
n! = 6!. Questo conteggio degli anagrammi `e corretto solo se la parola da anagrammare
contiene lettere distinte, vedi il caso IIIa.
3
Il Totocalcio `e un gioco a scommessa legalizzato in cui si devono pronosticare i risultati di un certo
numero di partite di calcio, classicamente 13. Le 13 partite sono stampate su una schedina e il giocatore
indica il suo pronostico, per ognuna delle partite, usando tre simboli 1, X, 2. Ad esempio, per la partita
Milan-Inter, il simbolo 1 pronostica la vittoria del Milan, X il pareggio, 2 la vittoria dell’Inter.
15
Campionamento III
• n palline distinte nell’urna (ad esempio numerate da 1 a n)
• k estrazioni senza reinserimento (quindi k ≤ n)
• Problema: contare le combinazioni
• Soluzione.
_
n
k
_
:=
D(n, k)
k!
=
n (n −1) (n −k + 1)
k!
Spiegazione. Analogo al caso II, ma si devono contare le combinazioni. Per contare il
numero di combinazioni, diciamolo C(n, k), basta osservare che le k! permutazioni di ogni
fissata disposizione producono tutte la stessa combinazione, quindi C(n, k) D(k, k) =
D(n, k). Si ricava C(n, k) = D(n, k)/D(k, k). Il numero C(n, k) si dice coefficiente
binomiale n su k, pi` u spesso denotato
_
n
k
_
.
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni senza ripetizione di n oggetti distinti presi k alla volta.
Esempio. Gioco del lotto. Ogni settimana a Venezia vengono estratte k = 5 palline, una
cinquina, da un’urna contenente n = 90 palline distinguibili, numerate da 1 a 90. Nel
gioco del lotto si scommette sulla combinazione estratta. Contare quante sono le possibili
cinquine. Soluzione:
_
n
k
_
=
_
90
5
_
=
9089888786
54321
.
Campionamento IIIa
• n palline nell’urna, di m colori diversi, k
1
di colore 1, . . . , k
m
di colore m, con
k
1
+k
2
+ +k
m
= n. Le palline dello stesso colore sono identiche.
• k = n estrazioni senza reinserimento (si estraggono tutte le palline)
• Problema: contare le disposizioni distinguibili
• Soluzione.
_
n
k
1
, k
2
, . . . , k
m
_
:=
n!
k
1
! k
2
! k
m
!
Spiegazione
`
E una miscela dei casi IIa e III. Per capire la soluzione si pensi, inizialmente,
di numerare da 1 a k
i
le palline di colore i-esimo, 1 ≤ i ≤ m. Le palline sono ora tutte
distinguibili, grazie a colore e numero, quindi, caso IIa, le disposizioni sono (k
1
+ +k
m
)! =
n!. Poich`e nella formulazione del problema le palline dello stesso colore sono indistinguibili,
per ogni colore i le k
i
! permutazioni delle palline di quel colore danno luogo alla stessa
disposizione. Per il principio di conteggio, il numero totale di permutazioni che danno luogo
alla stessa disposizione, una volta cancellati i numeri dalle palline, `e k
1
! k
2
! . . . k
m
!.
Il numero di disposizioni distinguibili si ottiene dividendo n! per k
1
! k
2
! . . . k
m
!. Il
numero
n!
k
1
!k
2
!k
m
!
si dice coefficiente multinomiale n su k
1
, . . . k
m
, denotato
_
n
k
1
,k
2
,...,k
m
_
.
Verificare che il caso m = 2 si riduce, notazione a parte, all’usuale coefficiente binomiale.
Esempio. Anagrammi della parola MISSISSIPPI. L’urna contiene n = 11 palline di
m = 4 colori, M,I,S,P, con k
M
= 1, k
I
= 4, k
S
= 4, k
P
= 2. Il numero degli anagrammi
non `e 11!, come per il caso II, poich`e la presenza di lettere ripetute rende alcune parole
indistinguibili tra loro. Per quanto visto il numero degli anagrammi `e:
_
n
k
M
,k
I
,k
S
,k
P
_
=
_
11
1,4,4,2
_
=
11!
1!4!4!2!
.
16
Campionamento IV
• n palline distinte nell’urna (ad esempio numerate da 1 a n)
• k estrazioni con reinserimento (n e k liberi)
• Problema: contare le combinazioni
• Soluzione.
_
n +k −1
k
_
Spiegazione. Si potrebbe (s)ragionare come segue. La situazione `e analoga a quella del
caso I, ma invece che alle disposizioni siamo ora interessati alle combinazioni. Applicando
il trucco gi`a usato nel caso III per passare dalle disposizioni alle combinazioni, la soluzione
`e n
k
/k!. Questo ragionamento `e sbagliato. Per n = 3, k = 2 fornisce 3
2
/2! = 4.5, che `e
imbarazzante come numero di combinazioni! Quando non si viene a capo di un problema
di conteggio pu`o essere utile analizzare esaustivamente un caso con n ed k piccoli e poi
generalizzare. Proviamo dunque con n = 3, k = 4. Nell’urna ci sono 3 palline numerate
1, 2, 3. Elenchiamo tutti i possibili risultati di k = 4 estrazioni, eliminando manualmente
tutte le disposizioni che danno luogo alla stessa combinazione. Le 15 combinazioni possibili
sono riportate, in ordine lessicografico, nella prima colonna della seguente tabella.
1 2 3
1111 [[
1112 [[
1113 [[
1122 [[
1123 [[
1133 [[
1222 [[
1223 [[
1233 [[
1333 [[
2222 [[
2223 [[
2233 [[
2333 [[
3333 [[
Le tre colonne successive contengono segni di spunta che forniscono la stessa infor-
mazione della prima colonna, indicando il numero di palline 1, 2 e 3 presenti in ogni
possibile combinazione. La quinta colonna contiene, in forma simbolica, le stesse infor-
mazioni delle tre colonne precedenti. Le barre verticali servono ad individuare a quale
pallina si riferiscono i segni di spunta. Poich`e ci sono 3 palline, sono necessarie 2 barre
verticali. I segni di spunta a sinistra della prima barra verticale dicono il numero di palline
1 nella combinazione. I segni di spunta tra le due barre verticali dicono il numero di palline
2 e quelli a destra della seconda barra indicano il numero di palline 3. Ad esempio il sim-
bolo [[corrisponde alla combinazione 1223, il simbolo [[alla 2233, mentre
[[corrisponde alla 1333. Il caso IV si pu`o allora ridurre al caso IIIa, ovvero abbi-
amo una nuova urna contenente 4 + 2 palline, di cui 4 sono marcate e 2 sono marcate
[. Il numero di possibili permutazioni distinguibili vale allora
6!
3!2!
. Nel caso generale di
n palline ed r estrazioni saranno necessari r segni di spunta ed n − 1 barre verticali per
rappresentare simbolicamente tutte le possibili combinazioni, e la soluzione sar`a
(n−1+r)!
r!(n−1)!
.
`
E banale verificare che questo numero coincide con quello dato nell’enunciato.
17
Terminologia. Questo problema viene anche presentato come conteggio delle combi-
nazioni con ripetizione di n oggetti distinti presi k alla volta.
Esempio. Lancio 3 dadi identici. Quante sono le possibili combinazioni osservabili?
In questo caso modelliamo con un’urna contenente n = 6 palline (numerate da 1 a 6)
e contiamo le possibili combinazioni di k = 3 estrazioni con reinserimento, poich`e ogni
dado pu`o mostrare una qualunque faccia, indipendente dal risultato degli altri due. Le
combinazioni osservabili sono
_
n+k−1
k
_
=
_
8
3
_
.
A3.3 Problemi di allocazione
Elenchiamo di seguito i quattro tipici problemi di allocazione, ed alcune varianti. Gli
esempi sono gli stessi del paragrafo precedente per mettere in evidenza la corrispondenza
con l’analogo modello di campionamento.
In ognuno dei problemi di allocazione si dispone di un certo numero di scatole distinte e di
voler contare il numero di allocazioni dei gettoni nelle scatole, secondo le specifiche fornite
caso per caso.
Allocazione I
• n scatole distinte e k gettoni distinguibili da allocare
• nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni)
• Soluzione. n
k
Spiegazione. Il primo gettone si pu`o inserire in una qualunque delle n scatole. Lo stesso
vale per il secondo e per tutti gli altri gettoni poich`e non vi sono vincoli di riempimento.
Applicando il principio di moltiplicazione si ottiene il risultato.
Esempio. Totocalcio, come per Campionamento I. Si modella con n = 3 scatole (con-
trassegnate 1, X, 2), e k = 13 gettoni distinguibili, numerati da 1 a 13, le partite di cui
si deve pronosticare il risultato. Ogni allocazione dei gettoni nelle scatole corrisponde ad
una giocata possibile.
Allocazione II
• n scatole distinte ed k gettoni distinguibili da allocare
• ogni scatola pu`o contenere 0 o 1 gettoni
• Soluzione. n (n −1) (n −k + 1) := P(n, k)
Spiegazione. Il primo gettone si pu`o collocare in una qualunque delle n scatole, il secondo
in una delle rimanenti n − 1 ecc. fino al k-esimo gettone che pu`o essere collocato in una
qualunque delle rimanenti n −k + 1 scatole. Per il principio di moltiplicazione il numero
totale di allocazioni `e n(n −1) . . . (n −k + 1).
Esempio. Corsa campestre, come per Campionamento II. Questo caso si modella con
n = 10 scatole, contrassegnate con i nomi dei 10 atleti, e k = 3 gettoni (contrassegnati
1, 2, 3). Ogni allocazione dei gettoni nelle scatole rappresenta una possibile terna ordinata
di vincitori.
18
Allocazione IIa

`
E il caso precedente per n = k. In questo caso, terminata l’allocazione, ogni scatola
conterr`a esattamente 1 gettone.
• Soluzione. n!
Spiegazione. Come per il caso precedente.
Esempio. Anagrammi della parola MILANO, come per campionamento IIa. Le scatole sono
n = 6, contrassegnate 1, 2, 3, 4, 5, 6, e rappresentano le posizioni delle lettere nella parola
che si andr`a a comporre. I gettoni sono k = n = 6, contrassegnati A, I, L, M, N, O e
rappresentano le lettere a disposizione.
Allocazione III
• n scatole disitinte e k gettoni identici da allocare
• ogni scatola pu`o contenere 0 o 1 gettoni
• Soluzione.
n (n −1) (n −k + 1)
k!
=
_
n
k
_
Spiegazione. Analogo al caso II appena visto. Poich`e i gettoni sono indistinguibili si
devono contare le combinazioni, ovvero dividere P(n, k) per P(k, k) come si era fatto per
il corrispondente caso del campionamento.
Esempio. Gioco del Lotto, come per campionamento III. Il modello di allocazione consiste
di n = 90 scatole (contrassegnate da 1 a 90) e di k = 5 gettoni identici, con vincolo di
allocazione 0 or 1 gettoni in ogni scatola. Chiaramente questo `e un caso per il quale il
modello del campionamento `e molto pi` u naturale.
Allocazione IIIa
• m scatole distinte ed n gettoni distinguibili da allocare
• la scatola i deve contenere esattamente k
i
gettoni, con

m
i=1
k
i
= n.
• Soluzione.
n!
k
1
!k
2
! . . . k
m
!
=:
_
n
k
1
, k
2
, . . . k
m
_
Spiegazione. Si tratta di una miscela dei casi IIa e III appena visti. Per riempire la prima
scatola si devono scegliere k
1
gettoni da n, cosa che si pu`o fare in
_
n
k
1
_
modi (perch`e?), per
riempire la seonda scatola si devono scegliere k
2
gettoni dai rimanenti n−k
1
gettoni, cosa
che si pu`o fare in
_
n−k
1
k
2
_
modi, per la terza ci sono
_
n−k
1
−k
2
k
3
_
possibili scelte di gettoni ecc.
Per il principio di moltiplicazione il numero di modi possibili `e
_
n
k
1
__
n −k
1
k
2
__
n −k
1
−k
2
k
3
_
...
_
n −k
1
−k
2
−. . . k
m−1
k
m
_
=
_
n
k
1
, k
2
, . . . k
m
_
Verificate algebricamente questa identit`a, ad esempio per m = 3.
Esempio. Anagrammi della parola MISSISSIPPI, come per campionamento IIIa. Il
modello di allocazione consiste di m = 4 scatole, contrassegnate M,I,S,P, e di n = 11
gettoni, contrassegnati 1, 2, . . . 11. I gettoni corrispondono alle posizioni delle lettere nella
parola che si andr`a a comporre. Ad ogni allocazione corrisponde uno degli anagrammi
distinguibuibili.
19
Allocazione IV
• n scatole distinte e k gettoni identitici da allocare
• nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni)
• Soluzione.
_
n +k −1
k
_
Spiegazione. Guardate con attenzione l’ultima colonna della tabella del Campionamento
IV.
`
E una vivida rappresentazione delle possibili allocazioni dei gettoni nelle scatole: le
barre verticali consentono di individuare le scatole distinte, i segni di spunta sono i gettoni.
In effetti questo `e un problema che `e pi` u naturale impostare usando il modello della
allocazione.
Esempio. Lancio 3 dadi identici, come per campionamento IV. Quante sono le possibili
combinazioni osservabili? Nel paradigma della allocazione modelliamo con n = 6 scatole,
contrassegnate 1, 2, 3, 4, 5, 6, e con r = 3 gettoni contrassegnati Lancio1, Lancio2, Lancio3.
Nota finale. Dovrebbe essere a questo punto chiaro il meccanismo di passaggio tra i
paradigmi del campionamento e dell’allocazione. Il numero di palline distinte, n, o il
numero di gruppi distinti di palline m corrisponde al numero di scatole. Il numero di
estrazioni corrisponde al numero di gettoni. Le estrazioni senza reinserimento si tra-
ducono nel vincolo di riempimento 0 o 1 gettone per scatola, mentre se si reinseriscono le
palline nell’urna nel campionamento allora non ci sono vincoli di riempimento nelle sca-
tole. Ordine di estrazione rilevante nel campionamento corrisponde a gettoni distinguibili
nell’allocazione. Viceversa, ordine di estrazione irrilevante corrisponde a gettoni identici
nel paradigma dell’allocazione.
20
Lezione 4 (Luned`ı, 11 marzo 2013, ore 10:30-13:15)
4.1 Combinatoria elementare – II
Qui sotto rivediamo la terminologia tradizionalmente associata ai problemi di conteggio
elementari.
(a.) le disposizioni con ripetizione di n oggetti distinti presi k alla volta sono n
k
. Esempio
1. Scrivere una schedina del totocalcio consiste nel prendere n = 3 oggetti (1, X, 2), a
gruppo di k = 13. Allora 3
1
3 `e il numero di possibili schedine. Esempio 2. Il numero
di sottoinsiemi di un insieme di n elementi `e 2
n
. Infatti per individuare un sottoinsieme
possiamo usare una stringa di n bit, associando ad ogni bit della stringa un elemento
dell’insieme. Gli 1 della stringa indicano gli elementi che appartengono al sottoinsieme,
gli 0 indicano gli elementi esclusi. Il numero totale di stringhe binarie di n bit `e 2
n
.
(b.) le disposizioni senza ripetizione di n oggetti distinti presi k alla volta sono n(n −
1) (n −k +1). Esempio. In una corsa campestre con n = 10 atleti, il numero di ordini
di arrivo dei primi k = 3 (cio`e quanti podii sono possibili) `e 10 9 8.
(b1.) nel caso particolare n = k le disposizioni senza ripetizione vengono dette permu-
tazioni Esempio. Gli anagrammi della parola BRENTA sono 6!. Attenzione per`o, questo
conteggio `e corretto perch´e le lettere di BRENTA sono distinte.
(c.) le combinazioni senza ripetizione di n oggetti distinti presi k alla volta sono
_
n
k
_
=
n(n−1)(n−k+1)
k!
. Esempio. Numero delle cinquine nel gioco del lotto
_
90
5
_
. (vedi appendice
alla Lezione 3 per la descrizione).
`
E importante capire questo conteggio sia dal punto di
vista del campionamento che dell’allocazione. Di seguito diamo un esempio di problema
la cui soluzione `e ancora
_
n
k
_
, e che si imposta naturalmente come problema di allocazione.
Esempio. Il numero di sottoinsiemi di cardinalit`a k di un insieme di cardinalit`a n `e pari
a
_
n
k
_
. Pensate di avere n celle (gli elementi dell’insieme) e di dover disporre k gettoni
indistinguibili nelle celle al pi` u uno in ogni cella. Ogni configurazione di gettoni individua
univocamente un sottoinsieme e le allocazioni sono
_
n
k
_
.
(d.) un esempio misto `e quello delle permutazioni con elementi ripetuti che illustriamo
con due esempi. Esempio 1. Un’urna contiene n palline, di m colori diversi, k
1
del colore
1, . . . k
m
del colore m, con k
!
+ k
2
+ . . . k
m
= n. Si estraggono, senza reinserimento,
tutte le palline dall’urna. Il numero di disposizioni distinguibili `e
_
n
k
1
,k
2
,...k
m
_
:=
n!
k
1
!k
2
!...k
m
!
.
Esempio 2. Contare gli anagrammi della parola MISSISSIPPI. Le lettere sono 11, di 4 tipi
diversi, 1 M, 4 I, 4 S, 2P, gli anagrammi sono
11!
4!4!2!
.
`
E interessante osservare che
_
n
k
1
, k
2
, . . . k
m
_
=
_
n
k
1
__
n −k
1
k
2
_
. . .
_
n −k
1
−k
2
− −k
m−1
k
m
_
come appare chiaro impostando il conteggio come problema di allocazione. Come caso
particolare, se m = 2, ponendo k
1
= k, k
2
= n −k, risulta
_
n
k
1
,k
2
_
=
_
n
k
_
.
(e.) le combinazioni con ripetizione di n oggetti distinti presi k alla volta. Non trattato a
lezione, si veda l’appendice alla Lezione 3.
4.2 Propriet`a dei coefficienti binomiali
I numeri
_
n
k
_
:=
n!
k!(n−k)!
, per n ≥ 0 e k = 0, 1, . . . n sono detti coefficienti binomiali.
_
n
k
_
si
legge n su k, oppure n binomiale k. Per convenzione 0! = 1 quindi
_
n
0
_
=
_
n
n
_
= 1 per ogni
n ≥ 0.
21
(a.) Il coefficiente binomiale `e cos`ı detto poich´e interviene nello sviluppo della potenza del
binomio
(a +b)
n
=
n

k=0
_
n
k
_
a
k
b
n−k
. (1)
La dimostrazione combinatoria `e immediata:
(a +b)
n
= (a +b)(a +b) (a +b)
. ¸¸ .
n volte
.
Il prodotto degli n fattori (a + b) consiste di addendi del tipo a
k
b
n−k
, per k = 0, 1, . . . n,
ognuno dei quali corrisponde a scegliere k volte a ed n −k volte b negli n fattori (a + b).
Per un dato k = 0, 1, . . . n il numero di modi in cui si pu`o scegliere k volte a `e
_
n
k
_
quindi
il numero di addendi del tipo a
k
b
n−k
`e
_
n
k
_
, il che dimostra la formula (1).
(b.) Ponendo a = b = 1 nello sviluppo della potenza del binomio si ha
2
n
=
n

k=0
_
n
k
_
.
Questa identit`a ha una semplice interpretazione combinatoria. Il numero totale di sottoin-
siemi di un insieme di n elementi, 2
n
, `e la somma del numero di sottoinsiemi a k elementi,
k = 0, 1, . . . n.
(c.)
_
n
k
_
=
_
n
n−k
_
, infatti ogni sottoinsieme `e in corrispondenza biunivoca con il suo
complementare.
(d.)
_
n
k
_
=
_
n−1
k
_
+
_
n−1
k−1
_
, per n ≥ 2 e k = 0, 1, . . . n. Per dimostrare combinatorialmente
la validit`a di questa relazione di ricorrenza (in Segnali e Sistemi la chiamerete ”equazione
alle differenze”) si pu`o ragionare cos`ı: il numero di sottoinsiemi di k elementi di un insieme
dato Ω di n elementi si pu`o trovare fissando un elemento arbitrario ω
1
∈ Ω e poi sommando
_
n−1
k−1
_
, numero di sottoinsiemi di k elementi di Ω che contengono ω
1
, a
_
n−1
k
_
, numero di
sottoinsiemi di k elementi di Ω che non contengono ω
1
. Valgono inoltre le condizioni
al contorno
_
n
0
_
= 1, per n ≥ 0. L’equazione alle differenze, insieme alle condizioni al
contorno, definiscono un algoritmo per generare i coefficienti binomiali, comunemente noto
come triangolo di Tartaglia, nel resto del mondo noto come triangolo di Pascal. Come
esercizio, verificate algebricamente che i coefficienti binomiali verificano l’equazione alle
differenze e le condizioni al contorno.
(e.) Interpretazione di Gy¨orgy P´olya dei coefficienti binomiali. Si consideri il grafo di
figura. Ogni nodo del grafo `e individuato dalle coordinate (generazione, shift), in figura
sono ad esempio evidenziati i punti (4, 1), (4, 2), (5, 2). Il grafo si pu`o percorrere ma
i cammini permessi sono solo quelli che partono dalla radice (0, 0) e ad ogni passo si
spostano di una generazione in basso sul grafo, verso destra o verso sinistra. Dal punto
(n, k) ci si pu`o cio`e spostare solo verso i punti (n + 1, k) ed (n + 1, k + 1), con le ovvie
attenzioni agli indici quando si `e vicini al bordo. Indicando con #(n, k) il numero di
cammini che dall’orogine (0, 0) conducono al nodo (n, k) `e facile dimostrare, vedi figura,
che vale la relazione di ricorrenza (equazione alle differenze)
#(n, k) = #(n −1, k −1) + #(n −1, k)
con condizione al contorno #(n, 0) = 1 Ma questa, a parte i simboli usati, `e esattamente
la relazione (d.), con la medesima condizione al contorno, quindi #(n, k) =
_
n
k
_
. Questa `e
l’interpretazione di P´olya dei coefficienti binomiali come numero di cammini.
22
?
n
0
1
2
3
4
-
k
5
0 1 2 3 4 5
u u
u
(4, 1) (4, 2)
(5, 2)
4.3 Formula di Stirling
Fornisce l’ordine di grandezza di n! con grande precisione. La versione semplice della
formula di Stirling `e
n! ∼

2πnn
n
e
−n
dove a(n) ∼ b(n) significa che lim
n
a(n)
b(n)
= 1. La dimostrazione si pu`o fare usando le
propriet`a della densit`a di probabilit`a gaussiana e la tecnica di approssimazione di Laplace
degli integrali dipendenti da un parametro. I pi` u curiosi troveranno, pi` u avanti, una nota
su moodle. In modo sporco e veloce si pu`o per`o ottenere la parte pi` u cospicua dello
sviluppo asintotico:
log n! =
n

k=1
log k ≈
_
n
1
log xdx = xlog x −x
¸
¸
¸
n
1
= nlog n −n + 1.
Prendendo l’esponenziale di entrambi i membri, e trascurando il +1, si trova n! ≈ n
n
e
−n
che `e un’approssimazione niente male, vista la poca fatica che ci `e costata.
4.4 Applicazione al calcolo della probabilit`a
Calcolo della probabilit`a su spazi finiti equiprobabili. Per ritrovarvi sugli appunti i titoli
che avevo dato agli esercizi erano: squadre di calcio e trenino.
23
Lezione 5 (Marted`ı, 12 marzo 2013, ore 16:25-17:05)
5.1 Esercitazione sulla combinatoria e la probabilit`a negli spazi finiti uniformi
Esercizio 1. Un’urna contiene 5 palline rosse, 6 blu e 8 verdi. L’esperimento consiste
nell’estrazione, senza reinserimento, di tre palline dall’urna. Interessano le probabilit`a
degli eventi
E := ”le tre palline estratte sono di colori diversi”,
F := ”le tre palline estratte sono dello stesso colore”.
Attenzione a non prendere una cantonata: E
c
,= F. N´e l’evento E, n´e l’evento F dipendono
dall’ordine di estrazione delle palline, `e quindi sufficiente contare combinazioni. Il numero
di combinazioni diverse corrispondenti all’estrazione senza reinserimento di 3 delle 19
palline contenute nell’urna `e
_
19
3
_
. L’evento E si verifica quando si estrae esattamente 1
pallina rossa, 1 blu ed 1 verde (l’ordine non conta). Per il principio di moltiplicazione
questo si pu`o fare in
_
5
1
__
6
1
__
8
1
_
= 5 6 8 modi. La probabilit`a cercata `e
P(E) =
_
5
1
__
6
1
__
8
1
_
_
19
3
_
Per quanto riguarda F si osservi che
F = ”3 palline rosse” o ”3 palline blu” o ”3 palline verdi”,
e poich´e i tre eventi a destra sono disgiunti
P(F) = P(”3 palline rosse”) +P(”3 palline blu”) +P(”3 palline verdi”)
=
_
5
3
__
6
0
__
8
0
_
+
_
5
0
__
6
3
__
8
0
_
+
_
5
0
__
6
0
__
8
3
_
_
19
3
_
Soluzione formale dell’esercizio 1. La soluzione formalmente rigorosa di questo, e di tutti
gli altri esercizi del corso, richiede la costruzione di un opportuno spazio di probabilit`a
o = (Ω, T, P) che modella l’esperimento di interesse. Normalmente o `e sottaciuto, ma `e
importante, almeno all’inizio, capire come si dovrebbe procedere. Qui sotto proponiamo
due possibili spazi di probabilit`a, o
1
e o
2
, per modellare l’esperimento fisico descritto
nell’esercizio 1. Questo servir`a ad illustrare il fatto che il modello probabilistico non `e
unico.
Spazio o
1
. Cominciamo con la scelta dello spazio campionario Ω
1
. L’unico vincolo che
la teoria impone su Ω `e che esso sia sufficientemente ricco: gli esiti devono permettere di
rappresentare tutti i risultati dell’esperimento. Numeriamo fittiziamente le palline presenti
nell’urna: le rosse da 1 a 5, le blu da 6 a 11 e le verdi da 12 a 19. In tal modo le palline
sono distinguibili e si pu`o prendere
4

1
:= ¦disposizioni senza ripetizione di 19 palline 3 alla volta¦
4
Nota bene. Come si elencano le disposizioni? Consideriamo, per brevit` a, le disposizioni di 4 oggetti
1, 2, 3, 4 presi 3 alla volta, che sono in totale 4 3 2 = 24. L’introduzione di un ordinamento aiuta a scrivere
l’elenco delle disposizioni, ad esempio in ordine crescente
1, 2, 3; 1, 2, 4; 1, 3, 2; 1, 3, 4; 1, 4, 2; 1, 4, 3;
2, 1, 3; 2, 1, 4; 2, 3, 1; 2, 3, 4; 2, 4, 1; 2, 4, 3;
3, 1, 2; 3, 1, 4; 3, 2, 1; 3, 2, 4; 3, 4, 1; 3, 4, 2;
4, 1, 2; 4, 1, 3; 4, 2, 1; 4, 2, 3; 4, 3, 1; 4, 3, 2.
24
Prendiamo inoltre (possibile poich´e Ω
1
`e finito) T
1
= P(Ω
1
). Chiaramente [Ω
1
[ = 19
18 17.
`
E ragionevole assegnare su T
1
la misura equiprobabile, dato che gli esiti di Ω
1
sono ”fisicamente” equivalenti dal punto di vista delle operazioni di estrazione. Poich´e gli
esiti sono disposizioni, Ω
1
`e particolarmente adatto a rappresentare eventi che dipendono
dall’ordine di estrazione delle palline. Ad esempio si consideri l’evento
E
1
= ¦e
1
= rossa, e
2
= blu, e
3
= verde¦,
dove e
1
, e
2
e e
3
indicano rispettivamente la prima, la seconda e la terza pallina estratta
e le virgole sottintendono intersezioni, ovvero E
1
consiste delle disposizioni con prima
pallina rossa e seconda blu e terza verde. Gli esiti di Ω
1
che appartengono ad E
1
sono
tutte e sole le terne (p
1
, p
2
, p
3
) con p
1
∈ ¦1, 2, 3, 4, 5¦, p
2
∈ ¦6, 7, 8, 9, 10, 11¦ e p
3

¦12, 13, 14, 15, 16, 17, 18, 19¦. Il numero degli esiti di questo tipo `e 5 6 8, quindi
P(E
1
) =
[E[
[Ω
1
[
=
5 6 8
19 18 17
.
Gli eventi che si ricavano da E
1
per permutazione dei colori rosso, verde, blu, ovvero
E
2
= ¦e
1
= blu, e
2
= rossa, e
3
= verde¦,
E
3
= ¦e
1
= blu, e
2
= verde, e
3
= rossa¦,
eccetera (in totale sono 3! = 6) sono equiprobabili (`e immediato, ma meditate se neces-
sario).
`
E ovvio che
E := ”le tre palline estratte sono di colori diversi” =
6
_
i=1
E
i
,
quindi
P(E) = 3!
5 6 8
19 18 17
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ ,
dove si lascia come banale esercizio la verifica dell’ultima identit`a che dimostra che il
risultato trovato coincide con quello derivato inizialmente.
Spazio o
2
. Questa `e la formalizzazione dell’approccio intuitivo seguito all’inizio. Si prenda
come spazio campionario

2
:= ¦combinazioni senza ripetizione¦
ed T
2
= P(Ω
2
). La cardinalit`a di Ω
2
`e
[Ω
2
[ =
_
19
3
_
.
`
E ragionevole prendere la misura equiprobabile su T
2
? La risposta `e s`ı, perch´e ogni esito
ω ∈ Ω
2
si ottiene come unione dello stesso numero 3! di esiti di Ω
1
. e su Ω
1
la misura
equiprobabile `e fisicamente naturale. Ad esempio, all’esito (1, 7, 9) ∈ Ω
2
corrispondono
gli esiti (1, 7, 9), (1, 9, 7), (7, 1, 9), (7, 9, 1), (9, 1, 7), (9, 7, 1) di Ω
1
. Lo spazio campionario

2
`e pi` u piccolo di Ω
1
, ma `e sufficiente per descrivere qualunque evento che non dipenda
dall’ordine delle estrazioni. Consideriamo l’evento E ⊂ Ω
2
definito all’inizio:
E = ”tre palline di colori diversi” = ”una rossa” e ”una blu” e ”una verde”.
25
La cardinalit`a di E vale quindi
[E[ =
_
5
1
__
6
1
__
8
1
_
e la probabilit`a `e, come ci aspettavamo,
P(E) =
[E[
[Ω
2
[
=
_
5
1
__
6
1
__
8
1
_
_
19
3
_ .
Micro-esercizio. Calcolare P(”2 rosse e 1 verde”).
Esercizio 2. Calcolo delle probabilit`a delle combinazioni del poker. Vedi appendice alla
lezione.
Esercizio 3. Per un certo gioco di carte si usa il mazzo da poker ed una mano consiste di
13 carte scelte a caso dal mazzo. Calcolare la probabilit`a che una mano contenga almeno
due carte di picche.
Soluzione. Si impiega la locuzione ”scelta a caso” per intendere che tutte le possibili scelte
sono equiprobabili. Si consideri l’evento
E = ”almeno due picche” =
13
_
k=2
E
k
,
dove E
k
:=”esattamente k picche”. La probabilit`a di E si pu`o calcolare direttamente
oppure passando all’evento complementare. Per il calcolo diretto, osservando che gli E
k
sono disgiunti, vale
P(E) =
13

k=2
P(E
k
) =
13

k=2
[E
k
[
[Ω[
=
13

k=2
_
13
k
__
52−13
13−k
_
_
52
13
_
Passando per il complementare,
E
c
= ”al pi` u 1 picca” = ”0 picche” o 1 picca”
e, osservando che ”0 picche” e ”1 picca” sono eventi disgiunti,
P(E) = 1 −P(E
c
) = 1 −
_
P(”0 picche”) +P(”1 picca”)
_
= 1 −
_
39
13
__
13
0
_
_
52
13
_ −
_
39
12
__
13
1
_
_
52
13
_ ,
un’espressione computazionalmente molto pi` u semplice di P(E).
Esercizio 4. Corsa campestre di n atleti della stessa abilit`a, quindi gli ordini di arrivo sono
casuali (un’altra locuzione comunemente impiegata per dire equiprobabili). Calcolare la
probabilit`a che Marco arrivi in k-esima posizione per k = 1, 2, . . . n.
p
k
= P(”Marco arriva k−esimo”) =
(n −1)!
n!
=
1
n
La soluzione non dipende da k. Si pu`o reinterpretare in vari modi, mazzo di chiavi, forlorn
hope mission, estrazione da urna ecc.
26
Esercizio 5. Comitato formato scegliendo a caso 6 persone da un gruppo di 10 americani,
7 russi e 5 tedeschi. Calcolare la probabilit`a che il comitato contenga almeno un rappre-
sentante di ognuno dei due paesi europei. L’evento d’interesse `e ”almeno 1 russo e almeno
1 tedesco”. Siamo passati al complementare che, per De Morgan, `e ”nessun russo o nessun
tedesco” che ha probabilit`a
P(”0 russi”) +P(”0 tedeschi”) −P(”0 russi e 0 tedeschi”) =
_
15
6
_
+
_
17
6
_

_
10
6
_
_
22
6
_
Esercizio proposto. Si consideri un mazzo di carte da briscola (4 semi, 10 valori per ogni
seme, per un totale di 40 carte). In un certo gioco una mano consiste di 4 carte estratte
a caso dal mazzo. Calcolare la probabilit`a dell’evento E =”la mano contiene almeno
1 asso”. Calcolate la probabilit`a sia direttamente sia passando all’evento complementare
verificando che le due espressioni ottenute coincidono (`e un esercizio di pura manipolazione
dei coefficienti binomiali).
5.2 Problema del compleanno
Il ”birthday problem” consiste nel calcolo della probabilit`a dell’evento
E
n
= ”in una classe di n bambini almeno 2 hanno lo stesso compleanno”
Non ripeto qui il calcolo della probabilit`a di E
n
che trovate sui vostri appunti:
P(E) = 1 −P(E
c
) = 1 −
n−1

k=1
_
1 −
k
365
_
Riporto brevemente il conticino utile per trovare un limite superiore alla probabilit`a P(E
n
).
Poich´e P(E
c
n
) =

n−1
k=1
_
1 −
k
365
_
. Usando la disuguaglianza 1 − x ≤ e
−x
, valida per ogni
x ∈ R, troviamo che
P(E
c
n
) ≤
n−1

k=1
e

k
365
= e

n−1
k=1
k
365
= e

n(n−1)
2365
Volendo trovare n tale che P(E
n
) > 0.5 sar`a sufficiente imporre che P(E
c
n
) < 0.5. Con
poca algebra si trova che la condizione equivale a n
2
− n > 2 365 log 2 ≈ 505.997. Per
n = 23 il membro sinistro vale n
2
− n = 506, quindi n = 23 `e sufficiente. Per dimostrare
che n = 23 `e il minimo valore di n che soddisfa alla condizione P(E
c
n
) < 0.5, si prende
n = 22 ci si arma di pazienza e si valuta, meglio farlo scrivendo due righe di codice su un
calcolatore, il valore esatto P(E
c
22
) che risulta essere maggiore di 0.5. Il ”paradosso dei
compleanni” si riferisce al fatto che, in un gruppo di appena 23 persone, la probabilit`a che
almeno due di esse abbiano lo stesso compleanno `e maggiore di 0.5.
Birthday attack.
`
E una tecnica di hacking, di tipo brute force, basata sul paradosso del
compleanno. Guardate la voce birthday attack sulla wikipedia inglese o chiedete ad un
vostro professore d’informatica.
5.3 Probabilit`a condizionata: motivazione della definizione
L’idea di probabilit`a condizionata consente di incorporare informazione a priori nel cal-
colo della probabilit`a di eventi di interesse. L’informazione a priori riguarda tipicamente
27
il verificarsi o il non verificarsi di certi eventi che sono collegati all’evento di cui interes-
sa calcolare la probabilit`a. Grazie alla probabilit`a condizionata `e possibile rappresentare
situazioni sperimentali che evolvono dinamicamente nel tempo. Abbiamo illustrato questo
discorso fumoso con un semplice esempio che indica un modo ragionevole di incorpo-
rare l’informazione a priori nel calcolo della probabilit`a di un evento. Si supponga di
avere un’urna contenente 80 palline nere e 20 rosse. Effettuiamo 2 estrazioni senza rein-
serimento. Vogliamo calcolare probabilit`a del tipo P(e
1
= ”rossa”), P(e
2
= ”rossa”),
P(e
1
= ”rossa”, e
2
= ”rossa”), dove e
1
e e
2
sono rispettivamente la prima e la seconda
estratta e la virgola tra eventi si deve intendere come segno d’intersezione. Cominciamo
a calcolare queste probabilit`a applicando diligentemente quanto visto finora. Dovendo
trattare eventi per i quali l’ordine delle estrazioni `e rilevante sar`a opportuno prendere
come spazio campionario
Ω = ¦disposizioni senza ripetizione di 2 oggetti scelti da 100¦
dove [Ω[ = 100 99, e dotarlo della misura equiprobabile.
`
E allora immediato calcolare
P(e
1
= ”rossa”, e
2
= ”rossa”) =
20 19
100 99
.
Per il calcolo di P(e
1
= ”rossa”) rappresentiamo dapprima l’evento ¦e
1
= ”rossa”¦ come
unione di eventi incompatibili di Ω:
¦e
1
= ”rossa”¦ = ¦e
1
= ”rossa”, e
2
= ”rossa”¦ ∪ ¦e
1
= ”rossa”, e
2
= ”nera”¦
da cui si ricava immediatamente
P(e
1
= ”rossa”) =
20 19
100 99
+
20 80
100 99
=
20 99
100 99
=
20
100
.
Tutto questo `e istruttivo, ma poco illuminante. Un approccio meno formale consente di
dire immediatamente che
P(e
1
= ”rossa”) =
20
100
perch´e nell’urna ci sono 20 palline rosse su un totale di 100. Quello che stiamo facendo, in
modo automatico, nel produrre immediatamente la risposta
20
100
, `e di costruire mentalmente
un modello probabilistico diverso ovvero

1
= ¦i naturali da 1 a 100 di cui 20 sono rossi e 80 neri¦
e di dotarlo di una misura equiprobabile. Quando tentate di calcolare P(e
2
= ”rossa”)
usando lo stesso approccio intuitivo vi bloccate perch´e la composizione dell’urna dipende
dal risultato, non noto, della prima estrazione. Supponete che qualcuno vi informi del
risultato della prima estrazione e che vi sia consentito tenerne conto. Per denotare il
fatto che state usando quest’informazione extra la mettete in evidenza quando scrivete le
probabilit`a. Scrivete ad esempio
P(e
2
= ”rossa” [ e
1
= ”rossa”) =
19
99
che leggerete: la probabilit`a che la seconda estratta sia rossa, sapendo che la prima estratta
era rossa, vale
19
99
. In effetti se la prima estrazione ha prodotto una rossa rimangono
nell’urna 99 palline, di cui 19 rosse. Confrontiamo questa probabilit`a, che tiene conto in
modo intuitivo dell’informazione a priori sulla prima estrazione, con quelle calcolate pi` u
sopra. Con una semplice manipolazione
P(e
2
= ”rossa” [ e
1
= ”rossa”) =
19
99
=
20 19
100 99
100
20
=
P(e
1
= ”rossa”, e
2
= ”rossa”)
P(e
1
= ”rossa”)
28
Diciamo E = ¦e
2
= ”rossa”¦ ed F = ¦e
1
= ”rossa”¦, allora le considerazioni fatte sopra
suggeriscono di definire la probabilit`a di E sapendo che si `e verificato F come:
P(E[F) =
P(E ∩ F)
P(F)
.
Nella prossima lezione erigeremo questa formula a definizione formale della probabilit`a
condizionata, in spazi di probabilit`a qualunque. Vedremo inoltre come calcolare P(e
2
=
”rossa) usando le probabilit`a condizionate.
29
Appendice alla Lezione 5
Combinazioni del poker
Lo scopo della nota `e di calcolare le probabilit`a delle mani nel gioco del poker.
Consideriamo il mazzo da 52 carte. Le carte si distinguono per seme e valore (chiamato
anche rango). I semi sono 4, denominati Cuori, Quadri, Fiori, Picche. Per ogni seme ci
sono 13 carte i cui ranghi crescenti sono A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K. Si considera in
scala crescente anche la sequenza 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A.
Una mano di poker consiste in un sottoinsieme di 5 carte scelte a caso dal mazzo di 52. Il
numero di mani possibili `e quindi
_
52
5
_
.
Tipi di mani nel poker.
1. coppia – (x, x, w, y, z)
dove x, x sono due carte dello stesso rango (di semi ovviamente diversi) mentre w, y, z
sono tre carte, di ranghi distinti tra loro, e diversi da quello di x.
2. doppia coppia – (x, x, y, y, z)
3. tris – (x, x, x, y, z)
4. scala – 5 carte con ranghi in ordine crescente, non dello stesso seme.
5. full – (x, x, x, y, y)
6. colore – 5 carte dello stesso seme
7. colore in scala – 5 carte dello stesso seme in scala, la pi` u alta non `e l’asso.
8. poker – (x, x, x, x, y)
9. scala reale – colore in scala con carta pi` u alta l’asso.
10. scartine – nessuna delle precedenti.
Calcolo delle combinazioni.
Per 1. 2. 3. 5. 8. il conteggio si pu`o fare come segue.
1.
_
13
1
__
4
2
__
12
3
__
4
1
_
3
Dove
_
13
1
_
`e il numero di scelte del rango w,
_
4
2
_
il numero di scelte della coppia tra
le 4 carte di rango w,
_
12
3
_
il numero di scelte dei ranghi x, y, z tra i 12 rimasti dopo
aver eliminato w,
_
4
1
_
il numero di scelte della carta tra le 4 carte di rango x, ed
analogamente
_
4
1
_
le possibili scelte della carta tra le 4 di rango y, e
_
4
1
_
le scelte della
carta tra le 4 di rango z.
2.
_
13
2
__
4
2
_
2
_
11
1
__
4
1
_
Dove
_
13
2
_
`e il numero di possibili coppie di ranghi x, y,
_
4
2
_
2
il numero di scelte della
carta di rango x moltiplicato il numero di scelte della carta di rango y,
_
11
1
__
4
1
_
il
numero di scelte del rango z per il numero di scelte della carta di rango z.
30
3.
_
13
1
__
4
3
__
12
2
__
4
1
_
2
spiegazione analoga a sopra.
5.
_
13
1
__
4
3
__
12
1
__
4
2
_
spiegazione analoga a sopra.
8.
_
13
1
__
4
4
__
12
1
__
4
1
_
spiegazione analoga a sopra.
4. Una scala pu`o partire da uno qualunque dei ranghi A, 2, 3, 4, 5, 6, 7, 8, 9, 10. Se parte da
10 terminer`a con A. Le scale possibili sono quindi 104
5
poich`e scelta la carta di partenza
si deve poi scegliere, per ognuno dei 5 ranghi consecutivi, il seme della carta. Vanno per`o
sottratte le 10 4 scale formate da 5 carte dello stesso seme perch`e queste combinazioni
hanno valore diverso (caso 7. colore in scala). Il numero di scale semplici vale dunque
10 4
5
−10 4
7. Si devono contare tutte le scale dello stesso seme che non terminano in asso, poich`e
quelle che terminano in asso sono scale reali. Quindi abbiamo
10 4 −4
9. Le scale reali sono ovviamente
4
6. Per la combinazione colore il seme pu`o essere scelto in 4 modi, quindi si devono scegliere
5 carte delle 13 di quel seme, e infine sottrarre i colori in scala e le scale reali
4
_
13
5
_
−10 4
Esercizio: I casi da 1. a 10. sono ovviamente mutuamente esclusivi. Calcolate diretta-
mente il numero di mani del caso 10. – scartine (basta contare quante sono le mani con 5
carte di rango diverso e sottrarre .....) e verificate che la somma dei casi da 1. a 10. vale
effettivamente
_
52
5
_
.
31
Lezione 6 (Mercoled`ı, 13 marzo 2013, ore 16:25-17:05)
6.1 Probabilit`a condizionata
Definizione. Sia (Ω, T, P) uno spazio di probabilit`a, ed F ∈ T un evento tale che P(F) > 0,
allora per ogni E ∈ T `e ben definita la quantit`a
P(E[F) :=
P(E ∩ F)
P(F)
,
detta probabilit`a condizionata di E dato F, o semplicemente probabilit`a di E dato F.
Nota bene. Battezzare una quantit`a ”probabilit`a” non basta a garantire che essa si com-
porti come tale. Sar`a dunque necessario giustificare la scelta del nome. Cominiciano con
lo studio delle propriet`a pi` u elementari di P(E[F).
Propriet`a elementari di P(E[F).
(a.) 0 ≤ P(E[F) ≤ 1 per ogni E, F.
Dimostrazione. Poich´e E∩F ⊂ F, per la monotonia della probabilit`a 0 ≤ P(E∩F) ≤ P(F)
da cui discende la propriet`a dividendo per P(F).
(b.) E ∩ F = ∅ −→ P(E[F) = 0.
Dimostrazione. Banale dalla definizione.
(c.) P(E) = 0 −→ P(E[F) = 0.
Dimostrazione. Infatti E ∩ F ⊂ E implica P(E ∩ F) ≤ P((F) e dividendo per P(F) si
conclude.
(d.) P(E) = 1 −→ P(E[F) = 1.
Dimostrazione.
`
E sempre P(E ∩ F) ≥ P(E) + P(F) − 1, e poich´e P(E) = 1 per ipotesi,
P(E ∩ F) ≥ P(F). Dividendo per P(F) si trova P(E[F) =
P(E∩F)
P(F)
≥ 1 e per la (a.) si
conclude che P(E[F) = 1.
Osservazione. P(E[F) P(E), a seconda degli eventi E, F e della misura P.
Commento. Si noti che `e naturale voler confrontare P(E) con P(E[F). Intuitivamente,
se E `e l’evento d’interesse e P la misura nota, P(E) `e la probabilit`a di E in assenza di
ulteriori informazioni, mentre P(E[F) `e la rivalutazione della probabilit`a di E tenendo
conto dell’informazione ”si `e verificato l’evento F”. Esempio. E =”il paziente guarisce”,
F =”il paziente ha assunto il farmaco”. La CUF (Commissione Unica del Farmaco) mette
il farmaco in fascia A se P(E[F) > P(E), in fascia B se P(E[F) = P(E) o ne proibisce la
vendita se P(E[F) < P(E).
Esercizio svolto in aula. Lancio due dadi distinguibili, ad esempio uno rosso ed uno blu.
Tutti i risultati sono equiprobabili. Calcolare le probabilit`a condizionate
P(esce 6 sul dado rosso [ la somma dei dadi `e i), i = 2, 3, . . . 12.
Interpretazione empirica della probabilit`a condizionata
Nell’interpretazione empirica (frequentista) della probabilit`a si suppone di poter effettuare
un esperimento in condizioni identiche un certo numero di volte n. Per ogni evento E ∈ T
si definisce la probabilit`a empirica P
n
(E) =
n
E
n
, dove n
E
`e il numero di volte che si `e
32
verificato E nelle n prove. Ragionando allo stesso modo `e naturale definire la probabilit`a
condizionata empirica come
P
n
(E[F) =
P
n
(E ∩ F)
P
n
(F)
=
n
E∩F
n
F
.
Esempio (trial clinico).
Negli studi osservazionali (sociali, biomedici, ecc.) i modelli probabilistici si costruiscono
utilizzando probabilit`a empiriche. Ad esempio per valutare l’efficacia di un farmaco, detto
G =”malato guarisce” e F =”malato assume farmaco” (e per convenienza tipografica
G = G
c
, F = F
c
), interessa confrontare P(G[F) con P(G). Allo scopo si organizzano
esperimenti, detti trial clinici, per valutare le probabilit`a empiriche. Una versione molto
rozza di trial clinico `e la seguente. Ad ogni individuo di una popolazione di n malati si
associano due bit (g, f), con l’ovvia interpretazione f = 1 l’individuo assume farmaco,
f = 0 l’individuo non assume il farmaco ed analogamente g = 1 l’individuo guarisce,
g = 0 l’individuo non guarisce. Dopo avere rilevato i valori (g, f) di ogni individuo, si
riassumono i dati dell’intera popolazione in una cosiddetta tabella di contingenza 2 2
della forma
F F
G n
GF
n
GF
n
G
G n
GF
n
GF
n
G
n
F
n
F
n
dove n
GF
`e il numero di malati che guariscono e assummono il farmaco, n
GF
il numero
di quelli che guariscono e non assumono il farmaco ed analogamente si interpretano n
GF
,
n
GF
, n
F
, n
F
, n
G
, n
G
. Per definizione, la colonna pi` u a destra (colonna marginale) ha
per elementi le somme delle righe e la riga pi` u in basso (riga marginale) ha per elementi
la somma delle colonne. Convincetevi della correttezza dei valori indicati nella colonna e
nella riga marginali, ovvero n
GF
+n
GF
= n
G
, eccetera. Per definizione l’elemento in basso
a destra `e la somma degli elementi della colonna marginale, che coincide (convincetevene)
con la somma degli elementi della riga marginale, ovvero n (convincetevene), la cardinalit`a
della popolazione. I quattro numeri n
GF
, n
GF
, n
GF
e n
GF
contengono le informazioni
necessarie per il calcolo di tutte le probabilit`a empiriche d’interesse, ad esempio:
P
n
(G[F) =
n
GF
n
F
=
n
GF
n
GF
+n
GF
e anche
P
n
(G) =
n
G
n
=
n
GF
+n
GF
n
GF
+n
GF
+n
GF
+n
GF
Esercizio. Verificare che vale la relazione P
n
(G[F) > P
n
(G) tra le probabilit`a empiriche
(farmaco utile) se e solo se il determinante della matrice di contingenza 2 2 `e positivo.
33
La probabilit`a condizionata come misura di probabilit`a
Teorema. Sia F ∈ T con P(F) > 0 fissato, allora la mappa P([F) : T → R che assegna
E → P(E[F) `e una misura di probabilit`a.
Dimostrazione. Consiste nella verifica degli assiomi. Vedi appunti di lezione!
Dal teorema appena dimostrato segue che P([F) gode di tutte le propriet`a di una misura
di probabilit`a. In particolare
(a.) P(E
c
[F) = 1 −P(E[F), per ogni E ∈ T.
(b.) P(E ∪ G[F) = P(E[F) +P(G[F) −P(E ∩ G[F) per ogni E, G.
ATTENZIONE
La mappa P(E[) : T →R che assegna F → P(E[F) non `e una misura di probabilit`a.
Esercizio. Costruire un esempio dove P(E[F
c
) ,= 1 −P(E[F).
6.2 Formula di moltiplicazione e applicazioni
Se sia E che F hanno probabilit`a strettamente positiva sono ben definite entrambe le
probabilit`a condizionate
P(E[F) =
P(E ∩ F)
P(F)
, P(F[E) =
P(E ∩ F)
P(E)
da cui si ricavano le identit`a (formule di moltiplicazione)
P(E ∩ F) = P(E[F)P(F) = P(F[E)P(E)
Le formule di moltiplicazione sono spesso utili nel calcolo della probabilit`a di eventi d’in-
teresse. Sebbene equivalenti dal punto di vista teorico, dal punto di vista operativo non
sempre una vale l’altra.
Esempio. Tornando all’esempio motivazionale dell’ultima lezione, abbiamo
P(e
1
= ”rossa”e
2
= ”nera”) = P(e
2
= ”nera” [ e
1
= ”rossa”)P(e
1
= ”rossa”)
= P(e
1
= ”rossa” [ e
2
= ”nera”)P(e
2
= ”nera”)
dove la prima identit`a consente un calcolo immediato, mentre la seconda `e inservibile,
poich´e non sappiamo ancora come calcolare P(e
2
= ”nera”).
Le identit`a viste sopra sono le pi` u semplici formule di moltiplicazione. L’idea pu`o si
per`o iterare per ottenere formule di moltiplicazione di pi` u vaste proporzioni. Ad esempio,
per qualunque terna E, F, G ∈ T, usando la definizione di probabilit`a condizionata, `e
immediato verificare che
P(E ∩ F ∩ G) = P(E ∩ (F ∩ G)) = P(E[F ∩ G)P(F[G)P(G).
Se si ha a che fare con una famiglia finita ¦E
i
¦
n
i=1
di eventi, vale ad esempio
P
_
n

i=1
E
i
_
= P
_
E
n
¸
¸
¸
n−1

i=1
E
i
_
P
_
E
n−1
¸
¸
¸
n−2

i=1
E
i
_
. . . P(E
2
[E
1
)P(E
1
).
34
Naturalmente di formule di questo tipo se ne possono scrivere parecchie, permutando gli
eventi E
i
. Sono tutte corrette, ma operativamente alcune saranno pi` u comode di altre
nelle specifiche applicazioni.
Esempio 1. Da un mazzo di carte da poker estraggo 3 carte senza reinserimento. Calcolare
la probabilit`a che nessuna delle 3 carte sia di Cuori. Svolto in aula sia con calcolo diretto
sia con la formula di moltiplicazione.
Esempio 2 (urna di P´olya). In un’urna ci sono inizialmente 3 palline Bianche e 5 Rosse.
Effettuo le estrazioni con la seguente regola: ad ogni estrazione reinserisco nell’urna la
pallina appena estratta e ne aggiungo 2 dello stesso colore di quella appena estratta.
Abbiamo calcolato la probabilit`a dell’evento
P(e
1
= B, e
2
= B, e
3
= R) = P(e
3
= R[e
1
= B, e
2
= B)P(e
2
= B[e
1
= B)P(e
1
= B)
=
5
12
5
10
3
8
.
Pi` u in generale l’urna di P´olya `e definita come segue: in un’urna sono inizialmente presenti
b palline Bianche ed r palline Rosse. Ad ogni estrazione si reinserisce nell’urna la pallina
appena estratta e se ne aggiungono c dello stesso colore di quella appena estratta, dove
c ∈ Z`e un intero fissato. Si noti che c = −1 corrisponde al caso standard di campionamento
senza reinserimento, c = 0 al caso standard di campionamento con reinserimento, c = 2 al
caso particolare visto sopra. Come in precedenza calcoliamo ad esempio
P(e
1
= B, e
2
= B, e
3
= R) =
r
b +r + 2c
b +c
b +r +c
b
b +r
.
Osservazione. Abbiamo rapidamente visto che tutte le permutazioni di e
1
= B, e
2
=
B, e
3
= R (ad esempio e
1
= B, e
2
= R, e
3
= B, e cos`ı via per tutte le altre) hanno
la stessa probabilit`a. In effetti, nella precedente formula, i denominatori sono invarianti,
mentre i numeratori permutano. Lo stesso vale se invece di 3 estrazioni se ne eseguono n.
Tecnicamente si dice che gli eventi ¦e
1
= B¦, ¦e
2
= B¦, ¦e
3
= R¦ sono scambiabili. La
nozione di scambiabilit`a per eventi `e di fondamentale importanza in Statistica, ed `e dovuta
a Bruno de Finetti (1937). L’urna di P´olya `e un modello probabilistico estremamente
flessibile, utile in svariati campi applicativi. Avevo menzionato lo studio della propagazione
di un’infezione virale in una popolazione umana o in una rete di calcolatori.
6.3 Formule della probabilit`a totale e di Bayes
Formula della probabilit`a totale
Teorema. Sia ¦F, F
c
¦ una partizione di Ω, con 0 < P(F) < 1, allora per ogni E ∈ T vale
la formula della probabilit`a totale:
P(E) = P(E[F)P(F) +P(E[F
c
)P(F
c
).
Dimostrazione.
`
E sufficiente scrivere la decomposizione disgiunta E = (E∩F) ∪(E∩F
c
),
applicare l’addittivit`a della misura P(E) = P(E ∩ F) + P(E ∩ F
c
) ed infine utilizzare la
formula di moltiplicazione per sviluppare entrambi gli addendi che compaiono a destra.
In generale, se ¦F
i
¦
n
i=1
`e una partizione di Ω, con P(F
i
) > 0 per ogni i, la formula della
probabilit`a totale `e
P(E) =
n

j=1
P(E[F
j
)P(F
j
).
35
Esempio 1. Tornando all’esempio motivazionale introdotto alla fine della scorsa lezione,
la formula della probabilit`a totale fornisce
P(e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) +P(e
2
= R[e
1
= N)P(e
1
= N)
=
19
99
20
100
+
20
99
80
100
=
20
100
.
Osservazione. Nonostante le palline siano estratte senza reinserimento P(e
2
= R) =
P(e
1
= R). Questo risultato non `e del tutto intuitivo. In forma pi` u estrema, se nell’urna
ci sono 99 palline Nere ed 1 Rossa, e si effettuano estrazioni senza reinserimento, vale
P(e
1
= R) = P(e
2
= R) = = P(e
100
= R) =
1
100
. Si confronti con l’esercizio 4 della
sezione 5.1.
Esempio 2. Un’azienda di assemblaggio PC acquista chip di memoria da tre diversi for-
nitori. Il fornitore A garantisce che la percentuale di chip difettosi `e inferiore al 2%, il
fornitore B garantisce meno del 2%, mentre il fornitore C garantisce meno del 4%. L’uf-
ficio acquisti ordina il 50% dei chip da A, il 25% da B ed il 25% da C. I chip vengono
immagazzinati in modo casuale. Il tecnico addetto prende un chip a caso dal magazzino e
lo inserisce sulla scheda madre. Aiutate l’ufficio vendite a calcolare la percentuale di chip
di memoria difettosi che pu`o garantire ai clienti che acquistano partite di PC assemblati.
Soluzione.
`
E fondamentale interpretare correttamente i dati del problema. Detto D
l’evento ”chip difettoso”, con ovvio significato degli altri simboli, i dati sono P(D[A) =
0.02, P(D[B) = 0.02, P(D[C) = 0.04, inoltre P(A) = 0.5, P(B) = 0.25, P(C) = 0.25. Gli
eventi A, B, C formano una partizione poich´e ogni chip del magazzino proviene da uno,
ed uno solo, dei produttori A, B o C. Ci sono le condizioni per applicare la formula della
probabilit`a totale che fornisce
P(D) = P(D[A)P(A) +P(D[B)P(B) +P(D[C)P(C) = 0.02 0.5+0.02 0.25+0.04 0.25.
Formula di Bayes
Spesso `e di interesse calcolare le probabilit`a P(F
i
[E), dette probabilit`a a posteriori (le
probabilit`a P(F
i
) sono invece dette probabilit`a a priori). Utilizzando la definizione di
probabilit`a condizionata e la formula della probabilit`a totale si trova la formula di Bayes:
P(F
i
[E) =
P(E ∩ F
i
)
P(E)
=
P(E[F
i
)P(F
i
)

n
j=1
P(E[F
j
)P(F
j
)
valida per i = 1, 2, . . . n. In alcuni casi, si veda l’esempio qui sotto, il calcolo delle prob-
abilit`a a posteriori `e di fondamentale importanza applicativa. L’enorme utilit`a della for-
mula di Bayes deriva dal fatto che le probabilit`a a posteriori sono espresse in termini di
probabilit`a note, usualmente dati del problema.
Test diagnostici (signal detection)
Un test diagnostico `e un metodo per rilevare la presenza di una certa condizione di in-
teresse. Test diagnostici si possono effettuare nei pi` u disparati contesti. Ad esempio,
un’antenna radar esplora i cieli per rilevare la presenza o l’assenza di aerei amici o nemici.
Il principio di funzionamento del radar `e quello della riflessione delle onde elettromag-
netiche ed `e soggetto a numerose fonti di rumore e quindi di errore. Riflessioni multiple,
presenza di stormi di uccelli o di astronavi aliene, condizioni meteo, queste ed altre ragioni
comportano che la rilevazione radar non `e mai completamente affidabile. Oppure si pensi
ad un test di gravidanza. Un kit acquistato in farmacia per pochi euro fornisce un risultato
36
che `e soggetto a varie fonti d’errore legate alla variazione dei livelli ormonali normali in
donne diverse.
Diciamo T
+
e T

gli eventi ”il test d`a risultato positivo”, ”il test d`a risultato negativo”
rispettivamente. Analogamente diciamo D
+
e D

gli eventi la condizione `e presente e
la condizione `e assente (si suppone che esistano metodi certi per rilevare il verificarsi di
D
+
o D

, ad esempio ci si pu`o accertare visualmente della presenza o meno di un aereo
in una no-fly zone con un volo di ricognizione, il ginecologo effettua accurati esami di
laboratorio per accertare la gravidanza della sua paziente ecc.) Per un test ideale si deve
avere P(T
+
[D
+
) = 1 e P(T

[D

) = 1, ma nel mondo reale i test diagnostici non sono
perfetti. In generale il test `e caratterizzato da due probabilit`a condizionate:
P(T
+
[D
+
) = a < 1 specificit`a
P(T

[D

) = b < 1 sensibilit`a
In gergo le probabilit`a di errore vengono dette: P(T

[D
+
) = 1 − a probabilit`a di falso
negativo (”miss”) e P(T
+
[D

) = 1 −b probabilit`a di falso positivo (”false alarm”).
Nota bene. P(T

[D
+
) = 1 − a ed analogamente P(T
+
[D

) = 1 − b poich´e la probabilit`a
condizionata `e una misura di probabilit`a, quando l’evento condizionante `e fissato. Inoltre
T
+
e T

sono eventi complementari, quindi P(T

[D
+
) = 1 −P(T
+
[D
+
) = 1 −a ecc.
Esempio di uso della formula di Bayes
(disclaimer: i dati numerici di questo esempio sono di pura fantasia, al solo scopo di
mostrare l’utilit`a della formula di Bayes, fate voi il googling se vi interessano i dati reali)
Si supponga di disporre di un test di sieropositivit`a per il virus HIV con le seguenti carat-
teristiche fornite dal produttore (l’azienda produttrice determina le probabilit`a empiriche,
effettuando un trial clinico, come visto all’inizio della lezione)
a = 0.99, b = 0.98.
Dalle statistiche ISTAT, un individuo preso a caso dalla popolazione generale ha proba-
bilit`a di essere sieropositivo P(D
+
) = 0.0002. In realt`a la tabella dell’ISTAT riporta il dato
empirico, e tipicamente dir`a 2 persone su 10,000 sono sieropositive, ma nell’interpretazione
frequentista della probabilit`a questo equivale a P(D
+
) = 0.0002.
Supponete di sottoporvi al test e che il risultato sia T
+
. La domanda `e: dovete andare
in panico o no? Questo `e esattamente il caso in cui le probabilit`a d’interesse sono le
probabilit`a a posteriori. Prima di fare il test voi siete un individuo della popolazione
generale ed avete probabilit`a P(D
+
) = 0.0002 di essere sieropositivo. Dopo aver effet-
tuato il test, che ha dato esito T
+
, voi avete una nuova informazione, e siete interessati
a ricalcolare la vostra probabilit`a di essere sieropositivo tenendo in considerazione questa
nuova informazione. Volete cio`e calcolare la probabilit`a condizionata P(D
+
[T
+
). Questa
`e esattamente la domanda a cui la formula di Bayes d`a la risposta.
P(D
+
[T
+
) =
P(T
+
[D
+
)P(D
+
)
P(T
+
[D
+
)P(D
+
) +P(T
+
[D

)P(D

)
fatti i conti troverete che P(D
+
[T
+
) ≈ 0.01. Non `e il caso di allarmarsi troppo: anche
se la vostra probabilit`a `e aumentata di circa 50 volte rispetto alla popolazione generale `e
comunque ancora troppo bassa per giustificare una reazione di panico. Come mai si verifica
questo apparentemente strano fenomeno? Tutto dipende dal fatto che la condizione che si
vuole rilevare ha probabilit`a molto bassa, P(D
+
) = 0.0002. In questa situazione un test
con a = 0.99 e b = 0.98, che sono specificit`a e sensibilit`a vicine a 1, non `e sufficientemente
affidabile. Se fosse a = 0.9999 e b = 0.9999 la P(D
+
[T
+
) sarebbe molto pi` u alta (non ho
fatto il conto - provate voi).
37
Lezione 7 (Luned`ı, 18 marzo 2013, ore 10:30-12:15)
7.1 Eventi indipendenti
Nel definire la probabilit`a condizionata avevamo osservato che, in generale, P(E[F) pu`o
essere maggiore uguale o minore di P(E). Il caso di uguaglianza `e particolarmente
importante in teoria della probabilit`a e la lezione `e ad esso dedicata.
Definizione. Gli eventi E, F ∈ T si dicono indipendenti se
P(E ∩ F) = P(E)P(F),
nel qual caso scriveremo E ⊥⊥ F.
Osservazioni ed esempi
(a.) La definizione di indipendenza `e simmetrica in E ed F quindi non ha senso dire che E
`e indipendente da F o che F `e indipendente da E. Poich´e l’indipendenza `e una propriet`a
della coppia non ordinata di eventi E, F, idealmente si dovrebbe dire che l’insieme ¦E, F¦
`e/non `e indipendente.
(b.) E ⊥⊥ F `e una nozione probabilistica in quanto coinvolge E, F e la misura P. Non
confondete questa nozione con quella di eventi mutuamente esclusivi, E ∩ F = ∅, che `e
puramente insiemistica e che nulla ha a che vedere con la misura P. Le seguenti banali
proposizioni mettono in parziale relazione le due nozioni.
(i.) Se E ⊥⊥ F allora E ∩ F = ∅ ⇒ P(E) = 0 o P(F) = 0.
(ii.) Se P(E ∩ F) = 0 allora E ⊥⊥ F ⇒ P(E) = 0 o P(F) = 0.
Ad esempio, come conseguenza della (ii.), due eventi incompatibili, ed entrambi di prob-
abilit`a strettamente positiva, non possono essere indipendenti (convincetevene!).
Esempio 1. Lancio contemporaneamente una moneta ed un dado. Sullo spazio campi-
onario naturale Ω = ¦(T, 1), . . . (T, 6), (C, 1) . . . (C, 6)¦ consideriamo la misura equiproba-
bile P(¦ω¦) =
1
12
, per ogni esito elementare ω ∈ Ω. Gli eventi E =”esce Testa sulla mone-
ta” ed F =”esce 4 sul dado” sono indipendenti. Infatti P(E) = P(¦(T, 1) . . . (T, 6)¦) =
1
2
,
e P(F) = P(¦(T, 4), (C, 4)¦) =
1
6
ed infine P(E ∩ F) = P(¦(T, 4)¦) =
1
12
.
Esempio 2. Urna di P´olya con b Bianche ed r Rosse, c = −1 ovvero estrazioni senza
reinserimento da un’urna. Indichiamo con e
i
= R l’evento la i-esima pallina estratta `e
rossa. Allora P(e
1
= R, e
2
= R) =
r−1
b+r−1
r
b+r
, mentre P(e
1
= R) = P(e
2
= R) =
r
b+r
,
quindi P(e
1
= R, e
2
= R) ,= P(e
1
= R)P(e
2
= R): gli eventi ¦e
1
= R¦ ed ¦e
2
= R¦ non
sono indipendenti.
Esempio 3. Urna di P´olya con b Bianche ed r Rosse, c = 0 ovvero estrazioni con reinser-
imento. In questo caso P(e
1
= R, e
2
= R) = P(e
2
= R[e
1
= R)P(e
1
= R) =
_
r
b+r
_
2
=
P(e
1
= R)P(e
2
= R): gli eventi ¦e
1
= R¦ ed ¦e
2
= R¦ sono indipendenti.
Esempio 4. Si consideri il lancio di due dadi e gli eventi E=”la prima faccia `e 4” ed F=”la
somma dei punti `e 7”. Gli eventi E e F sono indipendenti. Si osservi che invece gli
eventi E e G=”la somma dei punti `e 9” non sono indipendenti. Banale, vedi comunque
gli appunti. Morale: bisogna stare molto attenti. Gli eventi F e G sembrano della stessa
natura, ma mentre la coppia E, F `e indipendente, la coppia E, G non lo `e.
38
Esempio 5. A lezione avevo accennato allo spazio di probabilit`a con Ω = [0, 1] [0, 1], T
la σ-algebra generata dagli insiemi aperti, e P misura di probabilit`a che ad ogni evento
E ⊂ T associa P(E) = area(E). In questo spazio ogni coppia di eventi E, F della forma
E = [a, b][0, 1] e F = [0, 1][c, d] sono indipendenti. Infatti P(E∩F) = P([a, b][c, d]) =
(b −a)(d −c), mentre P(E) = P([a, b] [0, 1]) = b −a e P(F) = P([0, 1] [b, c]) = d −c.
Conseguenze elementari dell’indipendenza
(a.) Gli eventi ¦∅, F¦ e ¦Ω, F¦ sono indipendenti qualunque sia l’evento F. La di-
mostrazione `e banale.
(b.) Se E ⊥⊥ E allora P(E) = [P(E)]
2
, ovvero P(E) = 0 oppure P(E) = 1. Banale.
(c.) Lemma 1. Se P(E) > 0, e P(F) > 0, le seguenti affermazioni sono equivalenti
(i.) E ⊥⊥ F, (ii.) P(E[F) = P(E), (iii.) P(F[E) = P(F).
Dimostrazione.
(i.) ⇒ (ii.). P(E[F) =
P(E∩F)
P(F)
=
P(E)P(F)
P(F)
= P(E).
(ii.) ⇒ (iii.). P(F[E) =
P(E∩F)
P(E)
=
P(E[F)P(F)
P(E)
=
P(E)P(F)
P(E)
= P(F).
(iii.) ⇒ (i.). P(E ∩ F) = P(F[E)P(E) = P(F)P(E).
Il lemma evidenzia che il caso particolare P(E[F) = P(E) nella definizione di probabilit`a
condizionata corrisponde esattamente ad eventi E, F indipendenti.
(d.) Lemma 2. Le seguenti affermazioni sono equivalenti
(i.) E ⊥⊥ F, (ii.) E
c
⊥⊥ F, (iii.) E ⊥⊥ F
c
, (iv.) E
c
⊥⊥ F
c
.
Dimostrazione. Utilizziamo la definizione originale di indipendenza che non richiede ipotesi
di stretta positivit`a sulle probabilit`a degli eventi.
(i.) ⇒ (ii.).
P(E
c
∩ F) = P(F) −P(E ∩ F)
= P(F) −P(E)P(F) = P(F)(1 −P(E))
= P(F)P(E
c
).
(ii.) ⇒ (iii.). Dalle due decomposizioni disgiunte dell’unione
E ∪ F = E ∪ (E
c
∩ F) = F ∪ (F
c
∩ E)
si ricava la relazione P(E) +P(E
c
∩ F) = P(F) +P(F
c
∩ E) quindi
P(E ∩ F
c
) = P(E) +P(E
c
∩ F) −P(F)
= P(E) +P(E
c
)P(F) −P(F) = P(E) + (1 −P(E))P(F) −P(F)
= P(E) −P(E)P(F) = P(E)P(F
c
)
(iii.) ⇒ (iv.).
P(E
c
∩ F
c
) = 1 −P(E ∪ F) = 1 −
_
P(F) +P(F
c
∩ E)
_
= 1 −P(F) +P(F
c
)P(E) = 1 −P(F) + (1 −P(F))P(E) =
= (1 −P(F))(1 −P(E) = P(E
c
)P(F
c
)
(iv.) ⇒ (i.). Esercizio.
39
Interpretazione empirica dell’indipendenza di due eventi.
Verificare l’indipendenza di due eventi, sotto una data misura P, `e spesso un problema di
interesse pratico. Come si pu`o, in pratica, valutare se E ⊥⊥ F? Una prima, rozza, risposta
si pu`o dare valutando le probabilit`a empiriche. Ricordando la definizione della misura
empirica P
n
, e per il Lemma 1, la relazione di indipendenza E ⊥⊥ F rispetto alla misura
P
n
equivale a
P
n
(E[F) = P
n
(E) ovvero
n
E∩F
n
=
n
E
n
n
F
n
Facendo riferimento all’esempio del trial clinico, nella sezione 6.1, la condizione di indipen-
denza per la misura empirica equivale alla condizione di determinante nullo della matrice
di contingenza 2 2.
Rimangono molti punti da approfondire. (a.) Come si collega l’indipendenza rispetto alla
P
n
con l’indipendenza rispetto alla P? Sperabilmente quando n `e grande P
n
`e vicino a P
e quindi anche le relazioni di indipendenza si manterranno, ma questo `e da approfondire.
(b.) Nella pratica la relazione
n
E∩F
n
=
n
E
n
n
F
n
`e soddisfatta solo approssimativamente.
Entro che tolleranza `e ragionevole dichiarare che E ⊥⊥ F? (c.) Non sempre `e possibile
usare un’impostazione frequentista. Pensate ad esempio agli eventi E =”domani cadr`a
un meteorite su Mosca” ed F =”domani piover`a a Milano” di un ipotetico spazio proba-
bilistico che modella eventi celesti.
`
E molto comune, specialmente tra fisici ed ingegneri,
considerare E ⊥⊥ F se non esiste un’evidente relazione di causa/effetto tra i due eventi. In
realt`a esiste un’estesa letteratura dai pi` u disparati campi, filosofico, logico, matematico,
informatico e statistico, dedicata a chiarire la relazione causa/effetto ed il legame con la
relazione d’indipendenza stocastica. Non ci occuperemo di questi argomenti.
7.2 Indipendenza per famiglie di eventi
Definizione. La famiglia di tre eventi ¦E
1
, E
2
, E
3
¦ `e indipendente se le seguenti due
condizioni sono entrambe soddisfatte:
(i.) E
i
⊥⊥ E
j
per ogni i ,= j, (ii.) P(E
1
∩ E
2
∩ E
3
) = P(E
1
)P(E
2
)P(E
3
).
Discussione
`
E facile costruire esempi di terne di eventi ¦E
1
, E
2
, E
3
¦ per cui vale la condizione (i.), ma
non la condizione (ii.) o viceversa.
Esempio 1 (dado tetraedrale di Bernstein). Il dado ha quattro facce equiprobabili: b bianca,
r rossa, v verde, e t tricolore (bianca rossa e verde). Si lancia il dado e si considera come
faccia uscita quella su cui esso cade. Sia B l’evento B =”esce una faccia che contiene il
colore bianco”=¦b, t¦, e analogamente sono definiti gli eventi R e V .
Fatto. Gli eventi B, R e V sono indipendenti a coppie, ma non sono indipendenti.
Dimostrazione. Cominiciamo con il dimostrare che B ⊥⊥ R:
P(B ∩ R) = P(t) =
1
4
= P(B)P(R) =
2
4

2
4
.
Analogamente si dimostra che B ⊥⊥ V e R ⊥⊥ V . Peraltro:
P(B ∩ R ∩ V ) = P(t) =
1
4
,= P(B)P(R)P(V ) =
_
1
2
_
3
Esempio 2. Si lancia due volte un dado a sei facce. Sia A = ¦1, 2, 3 al primo lancio¦,
B = ¦3, 4, 5 al primo lancio¦, C = ¦somma dei due lanci `e 9¦. Allora P(A ∩ B ∩ C) =
P(A)P(B)P(C), mentre A, B, C non sono indipendenti a coppie.
40
Gli esempi 1 e 2 dimostrano che le condizioni (i.), e (ii.) nella definizione di indipendenza
per una terna di eventi sono logicamente indipendenti. Il motivo per cui `e importante
imporle entrambe `e che solo in questo caso vale, per la terna di eventi, un risultato simile
al Lemma 2, ovvero se ¦E
1
, E
2
, E
3
¦ sono indipendenti allora anche le terne che si ottengono
sostituendo ad uno, a due, o a tutti e tre gli eventi i loro complementari, sono a loro volta
indipendenti.
Lemma 3. Le seguenti terne o sono tutte indipendenti o non lo `e nessuna
¦E
1
, E
2
, E
3
¦, ¦E
1
, E
2
, E
c
3
¦,¦E
1
, E
c
2
, E
3
¦, ¦E
1
, E
c
2
, E
c
3
¦,
¦E
c
1
, E
2
, E
3
¦, ¦E
c
1
, E
2
, E
c
3
¦,¦E
c
1
, E
c
2
, E
3
¦, ¦E
c
1
, E
c
2
, E
c
3
¦.
Osservazione. Nonostante le formulazione lievemente diversa il Lemma 3 ha la stessa
struttura logica del Lemma 2, affermando l’equivalenza dell’indipendenza per le otto terne.
Dimostrazione. Per simmetria `e sufficiente dimostrare che se la prima terna `e indipen-
dente allora tutte le altre lo sono. Per oguna delle sette terne bisogna verificare che
valgono le condizioni (i.) e (ii.) della definizione d’indipendenza per tre eventi. La (i.)
discende immediatamente dall’ipotesi che ¦E
1
, E
2
, E
3
¦ `e una terna indipendente e dal
Lemma 2. Verifichiamo la condizione (ii.). Se la terna in considerazione ha un solo evento
complementato, ad esempio se la terna `e ¦E
1
, E
2
, E
c
3
¦, allora si ha
P(E
1
∩ E
2
∩ E
c
3
) = P(E
1
∩ E
2
) −P(E
1
∩ E
2
∩ E
3
)
= P(E
1
)P(E
2
) −P(E
1
)P(E
2
)P(E
3
)
= P(E
1
)P(E
2
)P(E
c
3
)
Si noti che `e stato necessario utilizzare sia la condizione (i.) che la condizione (ii.)
per la verifica! Per simmetria lo stesso vale per dimostrare l’indipendenza delle terne
¦E
1
, E
c
2
, E
3
¦, ¦E
c
1
, E
2
, E
3
¦. Se la terna ha due eventi complementati, ad esempio la terna
¦E
1
, E
c
2
, E
c
3
¦, avremo
P(E
1
∩ E
c
2
∩ E
c
3
) = P(E
1
) −P(E
1
∩ (E
c
2
∩ E
c
3
)
c
)
= P(E
1
) −P(E
1
∩ (E
2
∪ E
3
))
= P(E
1
) −
_
P(E
1
∩ E
2
) +P(E
1
∩ E
3
) −P(E
1
∩ E
2
∩ E
3
)
_
= P(E
1
)
_
1 −P(E
2
) −P(E
3
) +P(E
2
∩ E
3
)
_
= P(E
1
)P((E
2
∪ E
3
)
c
)
= P(E
1
)P(E
c
2
)P(E
c
3
)
Lo stesso ragionamento si applica a tutte le terne con due eventi complementati. Analoga-
mente (esercizio) si ragiona per l’unica terna con tutti gli eventi complementati ¦E
c
1
, E
c
2
, E
c
3
¦.
Esercizio proposto. Se ¦E
1
, E
2
, E
3
¦ sono indipendenti allora E
1
⊥⊥ E
2
∪ E
3
.
Estensione alle famiglie finite e numerabili.
Definizione. La famiglia di n eventi ¦E
1
, E
2
, . . . E
n
¦ `e indipendente se per ogni r, con 2 ≤
r ≤ n, scelti r eventi distinti qualunque della famiglia la probabilit`a della loro intersezione
`e pari al prodotto delle probabilit`a dei singoli eventi scelti.
Si osservi che questa versione compatta della condizione di indipendenza riassume en-
trambe le condizioni (1) e (2) imposte nel caso di una terna. La nozione di famiglia
indipendente di eventi si pu`o estendere alle famiglie numerabili.
Definizione. La famiglia numerabile di eventi ¦E
1
, E
2
, . . . ¦ `e indipendente se ogni sua
sottofamiglia finita `e indipendente.
41
7.3 Applicazioni dell’indipendenza I – semplificazione di calcoli probabilistici
L’indipendenza di certi eventi semplifica molti calcoli probabilistici e, in alcuni casi, rende
possibili calcoli altrimenti impossibili.
Esempio 1. P(E) = 0.2, P(F) = 0.3, calcolare P(E ∪ F). Questo calcolo `e impossibile.
Si pu`o in effetti scrivere P(E ∪ F) = P(E) + P(F) − P(E ∩ F), ma non conoscendo
P(E ∩ F) il calcolo `e impossibile da eseguire. Peraltro, se E ⊥⊥ F allora P(E ∪ F) =
P(E) +P(F) −P(E)P(F) = 0.2 + 0.3 −0.2 0.3.
Esercizio 2. (freccette). Siano a, b e c tre giocatori di freccette. Indichiamo rispettivamente
con A, B e C gli eventi a, b, c fa centro. Sia P(A) =
1
2
, P(B) =
1
4
e P(C) =
1
5
. Si supponga
che gli eventi A, B e C sono indipendenti.
Calcolare la probabilit`a dell’evento E =”uno solo dei giocatori fa centro”.
Si scrive la decomposizione disgiunta
E =
_
A¸ (B ∪ C)
_
_
_
B ¸ (C ∪ A)
_
_
_
C ¸ (A∪ B)
_
Il primo addendo `e
P(A¸ (B ∪ C)) = P(A∩ B
c
∩ C
c
) = P(A)P(B
c
)P(C
c
) =
1
2

1
4

1
5
ecc. (Individuare tutte le applicazioni dei Lemmi.)
Calcolare anche P(A[E).
42
Lezione 8 (Marted`ı, 19 marzo 2013, ore 16:25-18:05)
8.1 Applicazioni dell’indipendenza II – costruzione di misure di probabilit`a
Finora abbiamo usato la nozione d’indipendenza in modo analitico, in accordo con uno o
l’altro dei seguenti schemi.
• Dati gli eventi E ed F di uno spazio di probabilit`a governato dalla misura P,
determinare se E e F sono/non sono indipendenti.
• Noto che sotto la misura P gli eventi E e F sono indipendenti, calcolare la probabilit`a
di altri eventi definiti a partire da E ed F.
La nozione di indipendenza si pu`o anche utilizzare, e molto proficuamente, in modo sin-
tetico, ovvero per costruire misure di probabilit`a. A titolo illustrativo presentiamo qui un
caso semplice, ma non banale, e di fondamentale importanza applicativa: la costruzione
di misure non equiprobabili sullo spazio Ω degli esiti di n lanci di una moneta.
Motivazione: reinterpretazione della misura equiprobabile
Si consideri l’esperimento che consiste nel lanciare n volte una moneta, i cui esiti sono
Ω :=
_
(b
1
, b
2
, . . . , b
n
), b
i
∈ ¦T, C¦, i = 1, . . . n
_
La cardinalit`a [Ω[ = 2
n
e quindi, per ogni ω ∈ Ω, la misura equiprobabile (detta anche
uniforme) e qui denotata P
u
, assegna P
u
(¦ω¦) =
1
2
n
. Denotando con il simbolo [e
k
= T]
l’evento ”esce Testa al k-esimo lancio”, si ha
[e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
k
= T, b
i
∈ ¦T, C¦, i ∈ ¦1, . . . n¦ ¸ ¦k¦
_
e quindi la cardinalit`a dell’evento (il numero di esiti ω ∈ Ω che vi appartengono) `e [[e
k
=
T][ = 2
n−1
, quindi
P
u
([e
k
= T]) =
[[e
k
= T][
[Ω[
=
2
n−1
2
n
=
1
2
, k = 1, 2 . . . n (1)
Si osservi che, poich´e [e
k
= T]
c
= [e
k
= C] risulta parimenti P([e
k
= C]) =
1
2
.
Si consideri ora la coppia di eventi [e
h
= T] e [e
k
= T] con h ,= k. Poich´e
[e
h
= T] ∩ [e
k
= T] =
_
(b
1
, b
2
, . . . , b
n
), b
h
= b
k
= T, b
i
∈ ¦T, C¦, i ∈ ¦1, . . . n¦ ¸ ¦h, k¦
_
la cardinalit`a dell’intersezione `e [[e
h
= T] ∩ [e
k
= T][ = 2
n−2
e quindi la probabilit`a vale
P
u
([e
h
= T] ∩ [e
k
= T]) =
2
n−2
2
n
=
1
2
2
Analogamente si trova che, per ogni r ∈ ¦1, . . . n¦ e per ogni r-pla k
1
, k
2
, . . . k
r
, con
k
i
∈ ¦1, 2, . . . n¦ e distinti,
P
u
_
r

i=1
[e
k
i
= T]
_
=
2
n−r
2
n
=
1
2
r
(2)
Poich´e valgono le due identit`a (1) e (2) si conclude che, sotto la misura equiprobabile P
u
,
gli eventi della famiglia ¦[e
k
= t], k = 1, . . . n¦ sono equiprobabili, di probabilit`a
1
2
, ed
indipendenti.
Passiamo ora dall’analisi della misura P
u
alla costruzione di una nuova misura di proba-
bilit`a P su Ω in accordo con le seguenti prescrizioni.
43
Ricetta per la costruzione di P
• assegna P([e
k
= T]) :=
1
2
, per ogni k = 1, 2, . . . n;
• imponi l’indipendenza degli eventi ¦ [e
k
= T], k = 1, . . . n¦.
Per verificare che la ricetta produce una misura di probabilit`a P compatibile con gli assiomi
`e sufficiente calcolare le probabilit` a di tutti gli esiti ω ∈ Ω e verificare che esse sommano
a 1. Per l’esito generico ω = (b
1
, b
2
, . . . b
n
) si ha che
¦ω¦ =
n

k=1
[e
k
= b
k
]
e seguendo la ricetta dovr`a essere
P(¦ω¦) = P
_
n

k=1
[e
k
= b
k
]
_
=
n

k=1
P([e
k
= b
k
]) =
1
2
n
= P
u
(¦ω¦).
Poich´e P(¦ω¦) = P
u
(¦ω¦) per ogni ω ∈ Ω, le due misure coincidono. Ci`o rende ovvia
la consistenza di P, ma soprattutto consente di reinterpretare P
u
come misura prodotta
dalla ricetta.
Costruzione di misure non equiprobabili sullo spazio di n lanci di una moneta.
L’analisi appena conclusa fornisce il razionale per la costruzione di una misura non equiprob-
abile sullo spazio Ω degli esiti di n lanci di una moneta. Allo scopo definiamo la seguente
Ricetta generalizzata per la costruzione di P
• assegna P([e
k
= T]) := p ∈ [0, 1], per ogni k = 1, 2, . . . n (e quindi automaticamente
P([e
k
= C]) = 1 −p);
• imponi l’indipendenza degli eventi ¦ [e
k
= T], k = 1, . . . n¦.
Rispetto alla ricetta precedente `e stato introdotto il parametro p ∈ [0, 1], che intuitiva-
mente rappresenta la probabilit`a di Testa della moneta, costante negli n lanci. Il caso
p =
1
2
corrisponde alla misura equiprobabile P
u
. Se p ,=
1
2
la misura generata dalla ricetta
generalizzata non `e equiprobabile. Per caratterizzare completamente P `e sufficiente cal-
colarla sugli esiti. Se ω = (b
1
, b
2
. . . , b
n
) sia n
T
il numero di Teste tra gli n esiti di ω, ed
n
C
il numero di Croci, con n
T
+n
C
= n. Seguendo la ricetta generalizzata sar`a
P(¦ω¦) = P
_
n

k=1
[e
k
= b
k
]
_
=
n

k−1
P([e
k
= b
k
]) = p
n
T
(1 −p)
n−n
T
. (3)
`
E evidente che questa misura non `e equiprobabile, ma si noti che gli esiti ω con lo stesso
numero di Teste n
T
sono equiprobabili. In particolare, detto E
k
l’evento ”k Teste negli n
lanci”, gli eventi ¦E
k
¦
n
k=0
formano una partizione di Ω e, poich´e tutti gli esiti in E
k
hanno
la medesima probabilit`a (3) con n
T
= k,
P(E
k
) = [E
k
[ p
k
(1 −p)
n−k
=
_
n
k
_
p
k
(1 −p)
n−k
Microesercizio. Dimostrare algebricamente che

n
k=0
P(E
k
) = 1 e spiegare perch´e vale
quest’identit`a.
44
8.2 Il modello binomiale per eventi
Il paradigma degli n lanci di una moneta pu`o essere applicato in molti casi d’interesse
pratico. Il modello probabilistico corrispondente viene a volte detto modello binomiale per
eventi.
Ogni volta che un contesto sperimentale prevede:
(i.) un certo numero n ≥ 1 prove identiche effettuate in sequenza,
(ii.) che i possibili esiti di ogni prova sono due,
(a seconda del contesto sono detti ¦1, 0¦, ¦T, C¦, ¦ successo, insuccesso ¦, ¦funziona,
non funziona¦, ecc.) e per comodit`a noi adotteremo la rappresentazione ¦1, 0¦;
(iii.) che per ogni k = 1, . . . n, il risultato della k-esima prova non influenza i risultati di
nessun altra prova,
`e possibile definire una misura di probabilit`a P sullo spazio campionario (Ω, T), i cui esiti
sono le 2
n
sequenze di n risultati delle n prove, assumendo che
(a.) gli eventi [e
k
= 1], successo alla prova k-esima, sono equiprobabili di probabilit`a
p ∈ [0, 1],
(b.) gli eventi ¦ [e
k
= 1] ¦
n
k=1
sono indipendenti.
Esempio. Un ISP (Internet Service Provider) dispone di 20 linee di accesso e vende 24
abbonamenti ADSL ad altrettanti utenti.
`
E noto che (o si assume che) (a) la probabilit`a
che, in un dato istante, l’utente i−esimo sia collegato `e p = 0.8 per ogni i = 1, 2, . . . 24,
(b) le connessioni degli utenti sono indipendenti. Calcolare la probabilit`a che l’ISP vada
in saturazione. Calcoli di questo tipo sono usati per decidere quanti abbonamenti vendere.
Per i voli aerei c’`e la pratica commerciale dell’overbooking, che richiede gli stessi calcoli.
Qui si pu`o applicare il modello binomiale per eventi. Le identificazioni sono le seguenti:
(a) Le n = 24 prove ripetute sono: testare lo stato di connessione dei 24 abbonati
(b) Gli esiti di ogni prova sono due ¦connesso, non connesso¦
(c) p = 0.8
L’evento ”ISP in saturazione” si verifica se 21, 22, 23 o 24 degli abbonati sono connessi
contemporaneamente, quindi
P(”ISP in saturazione”) =
24

k=21
_
24
k
_
0.8
k
0.2
24−k
Il problema dell’overbooking `e il seguente. L’ufficio vendite dell’ISP propone contratti ai
clienti garantendo che, con probabilit`a almeno 0.95, egli sar`a in grado di connettersi alla
rete in ogni dato momento. Come si calcola il numero di abbonamenti che `e possibile
vendere rispettando l’impegno contrattuale con il cliente?
La soluzione del problema (che richiede un calcolatore e due righe di programma per essere
calcolata) `e il massimo valore di M tale che
M

k=21
_
M
k
_
0.8
k
0.2
M−k
≤ 0.05.
45
8.3 Applicazioni dell’indipendenza III – analisi di affidabilit`a
C
D B
E A
F
l
5
0.9
l
4
0.8
l
6
0.7
l
7
0.3
l
1
0.9
l
3
0.95
l
2
0.75
Il grafo rappresenta una piccola rete di calcolatori. I nodi sono i calcolatori, gli archi le
connessioni fisiche tra calcolatori. Ogni arco ha due etichette: il nome e la probabilit`a di
funzionamento della connessione. Potete pensare che le probabilit`a siano state ricavate
come percentuale del tempo in cui la connessione fisica ha funzionato nell’ultimo mese o
anno. Ci interessa calcolare la probabilit`a dell’evento E =”esiste una connessione tra A e
B”. Per effettuare questo calcolo `e necessario costruire una misura di probabilit`a sul grafo.
Per farlo utilizzeremo ancora una volta un’ipotesi di indipendenza tra certi eventi. Con
modesto abuso di notazione denotiamo l
i
=”la connessione i funziona” per i = 1, 2 . . . 7.
L’ipotesi fondamentale `e che la famiglia di eventi ¦l
i
, i = 1, . . . 7¦ sia indipendente.
`
E
evidente dalla topologia del grafo che l’evento E si pu`o scrivere come
E =
_
l
1
∩ [(l
4
∩ l
5
) ∪ (l
6
∩ l
7
)]
_
∪ [l
2
∩ l
3
]
Avendo assunto l’indipendenza di ¦l
i
, i = 1, . . . 7¦ la probabilit`a di E `e certamente cal-
colabile, infatti E pu`o essere riscritto utilizzando solo intersezioni e complementazioni di
eventi l
i
. Questa via `e scomoda e non illuminante. Si pu`o invece effettuare il calcolo
riducendosi all’analisi di due casi elementari.
Connessione in serie. Si consideri il grafo
C
1
C
2
C
3
l
1
p
1
l
2
p
2
Sia E
s
=”esiste una connessione tra C
1
e C
3
”. Chiaramente E
s
= l
1
∩ l
2
, quindi
P(E
s
) = p
1
p
2
Connessione in parallelo. Si consideri il grafo
C
1
C
2
p
2
l
2
l
1
p
1
46
Sia E
p
=”esiste una connessione tra C
1
e C
2
”. Chiaramente E
p
= l
1
∪ l
2
, la connessione
esiste se almeno una delle due connessioni esiste, quindi
P(E
p
) = P(l
1
∪ l
2
) = 1 −P((l
1
∪ l
2
)
c
) = 1 −P(l
c
1
∩ l
c
2
) = 1 −(1 −p
1
)(1 −p
2
)
Osservazione. La connessione in serie degrada l’affidabilit`a del collegamento poich´e p
1
p
2

min¦p
1
, p
2
¦, mentre la connessione in parallelo migliora l’affidabilit`a del collegamento
poich´e 1 − (1 − p
1
)(1 − p
2
) ≥ max¦p
1
, p
2
¦ (dimostratelo!). Con questo principio si pu`o
costruire una connessione ad alta affidabilit`a mettendo in parallelo un numero sufficiente
di connessioni scadenti. Esercizio. Se metto in parallelo n canali di affidabilit`a p l’af-
fidabilit`a della connessione `e 1 − (1 − p)
n
che, scegliendo n sufficientemente grande, pu`o
essere portato tanto vicino ad 1 quanto si vuole.
Calcolo dell’affidabilit`a della rete di calcolatori. Per il calcolo di P(E) analizziamo separata-
mente le sottoreti. La serie (l
4
, l
5
) ha affidabilit`a 0.8 0.9 = 0.72 , la serie (l
6
, l
7
) affidabilit`a
0.7 0.3 = 0.21. Il parallelo di queste due ha affidabilit`a 1 − (1 − 0.72)(1 − 0.21) ≈ 0.78
e mettendo in serie il collegamento l
1
l’affidabilit`a diventa 0.9 0.78 = 0.7: questa `e l’af-
fidabilit`a della sottorete (l
1
, l
4
, l
5
, l
6
, l
7
). La sottorete (l
2
, l
3
) `e una serie di affidabilit`a
0.75 0.95 = 0.7125. La rete complessiva `e il parallelo delle sottoreti (l
1
, l
4
, l
5
, l
6
, l
7
) e
(l
2
, l
3
), quindi ricaviamo che P(E) = 1 −(1 −0.7)(1 −0.7125) = 0.91.
8.4 Estensioni
Formula della probabilit`a totale condizionata.
La formula in questione `e
P(E[G) = P(E[F ∩ G)P(F[G) +P(E[F
c
∩ G)P(F
c
[G),
dimostratela a partire dalla definizione di probabilit`a condizionata. Osservate che la
formula della probabilit`a totale usuale corrisponde al caso G = Ω.
Esercizio. (Charles Dodgson, alias Lewis Carroll) Nel cilindro di un mago c’`e un coniglio
di colore non noto, ma equiprobabilmente Bianco o Nero. Inserisco un coniglio Bianco
nel cilindro, mescolo bene, ed estraggo a caso uno dei due conigli. Il coniglio estratto `e
Bianco. Tenendo conto del risultato dell’estrazione, qual `e la probabilit`a che il coniglio
rimasto nel cilindro sia Bianco? Carroll scrive due soluzioni, la prima volutamente errata,
ma ”convincente”, che fornisce soluzione
1
2
, la seconda corretta che fornisce
2
3
(conviene
usare la formula della probabilit`a totale condizionata).
Prima soluzione. Ho inserito un coniglio bianco ed ho estratto un coniglio bianco, quindi lo
stato all’interno del cilindro non si `e modificato rispetto alla situazione iniziale. La proba-
bilit`a che nell’urna sia rimasto un coniglio bianco `e uguale alla probabilit`a che inizialmente
il coniglio fosse bianco ovvero
1
2
. Dov’`e l’errore? Qual `e la soluzione corretta?
Esercizio. (versione generalizzata del precedente) Un’urna contiene n palline, in parte
Bianche ed in parte Nere. Non sappiamo quante sono le Bianche, ma tutte le possibilit`a
(Bianche, Nere) = (0, n), (1, n −1), ..., (n, 0)
sono equiprobabili. Inseriamo una pallina Bianca nell’urna, mescoliamo bene, ed estra-
iamo a caso una pallina che risulta essere Bianca. Qual `e, tenendo conto dell’infor-
mazione ottenuta dall’estrazione, la probabilit`a che tutte le palline nell’urna siano Bianche?
(soluzione
2
n+2
).
47
Appendice alla Lezione 8
Indipendenza condizionata e applicazioni
(in preparazione – argomento non in programma nell’a.a. 2012-2013)
48
Lezione 9 (Mercoled`ı, 20 marzo 2013, ore 16:25-18:05)
9.1 Variabili aleatorie discrete
Spesso interessa estrarre, e sintetizzare in forma quantitativa, informazioni contenute negli
esiti elementari dello spazio campionario Ω.
Esempio 1. Sia Ω lo spazio che rappresenta le risposte fornite dagli studenti di Ingegneria
dell’Informazione a un questionario. Sia ω = ( nome, cognome, et`a, anno di corso, numero
di esami superati . . . ). Per una certa indagine anagrafica interessa l’et`a degli studenti.
In questo caso, per estrarre da ω l’informazione d’interesse, si associa ad ogni ω ∈ Ω il
numero E(ω) :=”terza coordinata di ω”.
Esempio 2. Consideriamo lo spazio Ω che rappresenta gli esiti di n lanci di un moneta. Per
comodit`a rappresentiamo gli esiti Croce e Testa con i bit 0 e 1 rispettivamente, quindi
Ω = ¦ (b
1
, . . . b
n
), b
i
∈ ¦0, 1¦ ¦
Ogni esito ω ∈ Ω contiene molte informazioni quantitative. Ad esempio, nella lezione
8 avevamo definito n
T
= n
T
(ω) il numero di Teste nella sequenza ω. In questo caso
l’informazione n
T
(ω) la si pu`o estrarre associando ad ogni ω = (b
1
, b
2
, . . . b
n
) ∈ Ω il numero
n
T
(ω) =

n
k=1
b
k
. Dagli ω ∈ Ω si possono estrarre altre informazioni quantitative, ad
esempio (a.) qual `e il bit relativo al k-esimo lancio per k = 1, . . . n? (b.) Qual `e il numero
di Teste nei primi
n
2
lanci? (c.) Qual `e la differenza tra il numero di Teste e di Croci negli
n lanci? ecc.
`
E evidente che ”estrarre informazione quantitativa da ω” corrisponde a ”definire una
funzione di ω a valori in R”, ed `e proprio quest’idea che formalizziamo nella seguente
definizione.
Definizione. Sia (Ω, P(Ω), P) uno spazio di probabilit`a discreto. Ogni mappa
X : Ω →R,
`e detta variabile aleatoria (v.a.) discreta su Ω.
R
X
ω
X(ω)
Ω
Terminologia. L’immagine di X, ovvero il sottoinsieme del codominio R costituito dai
valori assunti da X, in simboli
A := X(Ω) = ¦ x ∈ R[ X(ω) = x per qualche ω ∈ Ω¦,
49
viene talora detto alfabeto della v.a. X. Poich´e Ω `e discreto per ipotesi, ed X `e una
funzione, anche A `e discreto, essendo in generale [A[ = [X(Ω)[ ≤ [Ω[.
Si noti che, senza perdita di generalit`a, si pu`o sempre restringere il codominio di X da R ad
A ⊂ R, in tal modo rendendo la v.a. X : Ω −→ A sempre suriettiva, ossia con codominio
coincidente con l’insieme dei valori. Peraltro le variabili aleatorie iniettive, cio`e quelle che
per ogni coppia di esiti ω
1
,= ω
2
prendono valori X(ω
1
) ,= X(ω
2
) non sono interessanti,
trattandosi di mappe che si limitano a rietichettare gli elementi di Ω. Ad esempio per
Ω := ¦C, T¦, la variabile aleatoria X : Ω −→ ¦0, 1¦ definita come X(C) = 0, X(T) = 1 `e
iniettiva e semplicemente ribattezza gli esiti C → 0 e T → 1.
Esempi di variabili aleatorie
Esempio 1. Sia Ω := ¦ (d
1
, d
2
) [ 1 ≤ d
1
, d
2
≤ 6 ¦, lo spazio campionario degli esiti del lancio
di due dadi distinti, uno Rosso ed uno Verde. Per fissare le idee, se ω = (d
1
, d
2
), allora d
1
`e la faccia uscita sul dado Rosso e d
2
sul Verde. La mappa
ω = (d
1
, d
2
) → X
1
(ω) = d
1
definisce la variabile aleatoria X
1
, il cui valore indica la faccia uscita sul dado Rosso.
L’alfabeto di X
1
`e A
1
= ¦1, 2, 3, 4, 5, 6¦. La mappa
ω = (d
1
, d
2
) → X
2
(ω) = d
2
definisce la variabile aleatoria X
2
, il cui valore indica la faccia uscita sul dado Verde.
L’alfabeto A
2
= A
1
. La mappa
ω = (d
1
, d
2
) → W(ω) = min¦d
1
, d
2
¦
definisce la variabile aleatoria W, il cui valore indica il minimo tra la faccia Rossa e quella
Verde. L’alfabeto J = A
1
. La mappa
ω = (d
1
, d
2
) → Z(ω) = max¦d
1
, d
2
¦
definisce la variabile aleatoria Z, il cui valore indica il massimo tra la faccia Rossa e quella
Verde. L’alfabeto : = A
1
. La mappa
ω = (d
1
, d
2
) → X(ω) = d
1
+d
2
definisce la variabile aleatoria X, il cui valore indica la somma delle facce Rossa e Verde.
L’alfabeto di X `e A = ¦2, 3, 4, . . . , 12¦.
Esempio 2. Sia Ω = ¦ (b
1
, b
2
, . . . b
n
) [ b
i
∈ ¦0, 1¦ ¦ e si considerino le seguenti mappe
ω = (b
1
, b
2
. . . , b
n
) → X
k
(ω) = b
k
, k = 1, 2 . . . n.
Le v.a. X
k
, k = 1, . . . n, hanno alfabeto comune A = ¦0, 1¦ e, per ogni k, rappresentano
l’esito del k-esimo lancio della moneta.
Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con
le mappe. Ad esempio tra variabili aleatorie si possono definire le abituali operazioni di
somma, differenza, prodotto e quoziente tra mappe.
Esempi 1, 2 – segue. Con riferimento alle variabili aleatorie definite nell’Esempio 1, `e
immediato verificare che X = X
1
+ X
2
, inoltre W = min¦X
1
, X
2
¦, e Z = max¦X
1
, X
2
¦.
Con riferimento all’Esempio 2, sullo stesso Ω `e definita la somma
X =
n

k=1
X
k
,
50
che nel punto ω = (b
1
, . . . , b
n
), vale X(ω) =

n
k=1
X
k
(ω) =

n
k=1
b
k
, ossia il numero di
Teste presenti in ω.
Osservazione sulla terminologia. Terminologia e notazione probabilistica sono sottosopra
rispetto all’analisi matematica. In teoria della probabilit`a la mappa
`
detta variabile aleato-
ria e denotata X, mentre in analisi matematica la mappa `e detta funzione e denotata
f, mentre la variabile, tradizionamente denotata x, `e l’argomento della funzione. Si noti
inoltre che la mappa X, bench´e sia detta variabile aleatoria non ha nulla di aleatorio,
associando deterministicamente ad ogni ω ∈ Ω il valore X(ω). La variabile X `e detta
aleatoria in riferimento all’incertezzza dei valori X(ω), incertezza ereditata da quella del-
l’esito ω ∈ Ω. Prima di effettuare l’esperimento ω `e incerto e quest’incertezza si trasferisce
ai valori X(ω) di ogni variabile aleatoria X definita su Ω.
Probabilizzare l’insieme dei valori A
L’incertezza intrinseca sull’esito ω ∈ Ω comporta che i valori X(ω) assunti dalla v.a.
X siano a loro volta incerti. Interessa quindi probabilizzare lo spazio campionario dei
valori assunti da X, ovvero A. Naturalmente su A si possono definire infinite misure di
probabilit`a, ma interessa costruirne una, diciamola P
t
, che sia compatibile con la misura
P definita sul dominio Ω della v.a. X. Poich´e A `e discreto sar`a sufficiente assegnare P
t
sui singleton di A. Nel caso di alfabeto finito scriviamo
A := ¦ x
1
, x
2
, . . . , x
N
¦,
e quindi si deve assegnare P
t
(¦x
k
¦) per ogni k = 1, 2 . . . N. Avremo bisogno di alcuni
risultati preliminari.
Definizione. Per ogni B ⊂ A, si definisce l’antiimmagine di B
X
−1
(B) := ¦ ω ∈ Ω [ X(ω) ∈ B¦.
La figura qui sotto illustra l’antiimmagine di un singleton di A.
R
X
x
Ω
X
-1
(x)
Le anti-immagini dei singleton di A formano una partizione di Ω come specificato dal
seguente Lemma, la cui banale dimostrazione si basa sulla definizione di anti-immagine e
sul fatto che X `e una mappa.
Lemma. (a.) Se x
h
,= x
k
allora X
−1
(¦x
h
¦) ∩X
−1
(¦x
k
¦) = ∅. (b.)

N
k=1
X
−1
_
¦x
k
¦
_
= Ω.
51
Esiste dunque una corrispondenza biunivoca tra gli esiti x
k
∈ A e gli eventi X
−1
(¦x
k
¦) ∈ Ω
(si veda anche la Figura successiva) ed `e naturale definire la misura P
t
assegnando
P
t
(¦x
k
¦) := P
_
X
−1
(¦x
k
¦)
_
, k = 1, 2, . . . N.
Notazione. Per l’evento X
−1
(¦x
k
¦) useremo indifferentemente le notazioni ¦ ω ∈ Ω [ X(ω) =
x
k
¦, [X = x
k
] e anche, pi` u sinteticamente, X = x
k
, specialmente come argomento della
misura di probabilit`a. Scriveremo quindi indifferentemente
P(¦ ω; X(ω) = x
k
¦) = P
_
X
−1
(¦x
k
¦)
_
= P ([X = x
k
]) = P(X = x
k
).
Lemma. P
t
`e una misura di probabilit`a.
Dimostrazione. Per definizione P
t
(¦x
k
¦) ≥ 0 per ogni k. Rimane solo da verificare che
la somma

N
k=1
P
t
(¦x
k
¦) = 1, ma questa `e un’immediata conseguenza del fatto che gli
eventi
_
X
−1
(¦x
i
¦)
_
N
k=1
formano una partizione di Ω.
La misura P
t
`e detta misura indotta su A dalla variabile aleatoria X.
Esempio. Consideriamo la v.a. Z definita nell’Esempio 1. La Figura mette in evidenza
tutti gli eventi d’interesse.
1 2 3 4 5 6
6
5
4
3
2
1
1 2 3 4 5 6
Z
Z
Ω
Supponendo che su Ω sia stata definita la misura P equiprobabile, la misura P
t
su : =
¦1, 2, . . . , 6¦ `e (usiamo varie notazioni solo per esercizio)
P
t
(¦1¦) = P
_
Z
−1
(¦1¦)
_
= P(Z = 1) =
1
36
,
P
t
(¦2¦) = P
_
Z
−1
(¦2¦)
_
= P(Z = 2) =
3
36
,
P
t
(¦3¦) = P
_
Z
−1
(¦3¦)
_
= P(Z = 3) =
5
36
,
P
t
(¦4¦) = P
_
Z
−1
(¦4¦)
_
= P(Z = 4) =
7
36
,
P
t
(¦5¦) = P
_
Z
−1
(¦5¦)
_
= P(Z = 5) =
9
36
,
P
t
(¦6¦) = P
_
Z
−1
(¦6¦)
_
= P(Z = 6) =
11
36
.
52
Densit`a di probabilit`a discreta
Definizione. Data la v.a. X a valori in A, la sequenza p
X
: A −→ [0, 1],
x
k
→ p
X
(x
k
) := P(X = x
k
) = P
t
(¦x
k
¦),
`e detta densit`a (o funzione di massa di probabilit`a) della variabile aleatoria X.
Propriet`a. Poich´e P
t
`e una misura di probabilit`a, la densit`a di una v.a. discreta X `e una
sequenza tale che
(i.) p
X
(x
k
) ≥ 0, per ogni x
k
∈ A. (1)
(ii.)

k
p
X
(x
k
) = 1. (2)
Osservazioni critiche sulla densit`a
Si noti che le informazioni contenute nella densit`a p
X
sono tutte relative all’insieme dei
valori A della v.a. X. Conoscere (oppure assegnare) la densit`a p
X
della v.a. X significa
conoscere (oppure assegnare) l’alfabeto A, che `e il dominio di p
X
, e la misura di probabilit`a
su A. La densit`a p
X
non conserva traccia n´e dello spazio di probabilit`a (ΩT, P) su cui X
`e definita, n´e tantomeno della forma funzionale di X.
5
Data la densit`a p
X
di una v.a. X, si possono calcolare le probabilit`a degli eventi nello
spazio dei valori A,
P
t
(B) = P(X ∈ B) =

k ; x
k
∈.
p
X
(x
k
), per ogni B ⊂ A.
Dal punto di vista delle applicazioni questa `e, quasi sempre, la sola informazione d’interesse
sulla v.a. X, mentre la descrizione analitica della mappa X : Ω −→ R `e irrilevante. In
virt` u della precedente osservazione `e naturale identificare tutte le variabili aleatorie che
hanno la stessa densit`a. Bisogna per`o prestare la massima attenzione su questo punto,
per evitare errori grossolani.
Esempio 3 (v.a. diverse con la medesima densit`a). Si consideri il modello binomiale della
Lezione 8, con n = 2 e parametro p ∈ [0, 1]. Allora
Ω = ¦00, 01, 10, 11¦,
e P(¦00¦) = (1 − p)
2
, P(¦01¦) = P(¦10¦) = p(1 − p), P(¦11¦) = p
2
. Si considerino le
due variabili aleatorie X
1
e X
2
, definite su Ω come nell’Esempio 1, e che rappresentano
rispettivamente il risultato del primo e del secondo lancio. Le v.a. X
1
e X
2
hanno lo stesso
alfabeto, A = A
1
= A
2
= ¦0, 1¦. La densit`a di X
1
`e
p
X
1
(1) = P
_
X
−1
1
(¦1¦)
_
= P(¦10, 11¦) = p(1 −p) +p
2
= p,
e poich´e gli elementi della densit`a sommano ad 1
p
X
1
(0) = 1 −p.
5
Al proposito `e interessante osservare che le propriet`a (1) e (2) caratterizzano le densit` a di probabilit` a,
come dimostrato dal seguente Lemma.
Lemma. Assegnato un insieme finito . ed una sequenza p() : . −→ [0, 1] tale che la mappa x → p(x)
soddisfa le propriet` a (1) e (2) esiste una variabile aleatoria X la cui densit` a p
X
() = p().
Dimostrazione. Basta prendere (Ω, T, P) = (., P(T), P

) dove P

(|x¦) := p(x) per ogni x ∈ . e come
variabile aleatoria la mappa identit` a X : . −→ . che associa x → X(x) = x.
53
Analogamente, per p
X
2
(), troviamo
p
X
2
(1) = P
_
X
−1
2
(¦1¦)
_
= P(¦01, 11¦) = p(1 −p) +p
2
= p, p
X
2
(0) = 1 −p.
Concludiamo che le v.a. X
1
e X
2
hanno la stessa densit`a, p
X
1
() = p
X
2
(), quindi dal
punto di vista probabilistico le due v.a. X
1
ed X
2
si possono considerare equivalenti. Ci`o
non significa per`o che, in virt` u dell’equivalenza probabilistica, si possa scrivere
X
1
+X
2
= 2X
1
, STRAFALCIONE
Commette questo grossolano errore chi non ricorda che, dal punto di vista funzionale, X
1
ed
X
2
sono mappe diverse, ad esempio X
1
((01)) = 0 ,= X
2
((01)) = 1, quindi X
1
+X
2
,= 2X
1
(vedi Figura). Microesercizio. Calcolare le mappe X
1
+X
2
e 2X
1
per ogni ω ∈ Ω.
00 01
10 11
0
1
X
1
00 01
10 11
0
1
X
2
9.2 Famiglie di v.a. discrete notevoli
Dal punto di vista applicativo le variabili aleatorie sono quasi sempre specificate solo
probabilisticamente, fornendone cio`e l’insieme dei valori (alfabeto) e i valori della densit`a.
Ci`o `e dovuto al fatto che tipicamente queste sono le uniche informazioni a disposizione dello
sperimentatore, ed `e quindi naturale considerare come probabilisticamente indistinguibili
variabili aleatorie con lo stesso alfabeto A e la stessa densit`a di probabilit`a p
X
().
Attenzione: Ci`o significa che, nelle applicazioni, non `e nota la funzione ω → X(ω). Per
ribadire quanto discusso nella precedente sezione, due v.a. con la stessa stessa densit`a non
assumono necessariamente lo stesso valore in corrispondenza ad ogni ω: NON `e cio`e vero
che X
1
= X
2
, ma solo che P(X
1
= x
k
) = P(X
2
= x
k
) per ogni x
k
∈ A.
Nel seguito considereremo tutte le v.a. con la stessa densit`a come formanti una famiglia
di v.a. probabilisticamente equivalenti. Alcune di queste famiglie sono talmente ricorrenti
nelle applicazioni da meritare un nome.
(a.) Bernoulli
6
La v.a. X `e detta di Bernoulli di parametro p, e si denota X ∼ b(p), se essa ha albabeto
A = ¦0, 1¦ e densit`a p
X
(1) = p, p
X
(0) = 1 −p.
Esempio 1. Se X `e la v.a. che modella l’esito del lancio di una moneta con P(T) = p,
allora X ∼ b(p).
Esempio 2. Se X `e la v.a. aleatoria che assume valore X = 1 se l’esito di un dado
equilibrato `e un numero pari, e valore X = 0 se l’esito `e dispari, allora X ∼ b
_
1
2
_
.
6
Per ribadire una terza volta le precedenti osservazioni, a questo punto dovrebbe essere chiarissimo che
le v.a. di Bernoulli b(p) costituiscono non una, ma infinite famiglie di v.a., una per ogni fissato p ∈ [0, 1].
54
Esempio 3. Se (Ω, T, P) `e uno spazio di probabilit`a (non necessariamente discreto) ed
E ∈ T un evento, la v.a.
χ
E
definita come
χ
E
(ω) =
_
0, se ω / ∈ E,
1, se ω ∈ E
`e una v.a. di Bernoulli,
χ
E
∼ b (P(E)). La v.a. aleatoria
χ
E
`e detta funzione indicatrice
dell’evento E.
(b.) Binomiali
La v.a. X `e detta di binomiale di parametri n e p, e si denota X ∼ Bin(n, p), se essa ha
albabeto A = ¦ 0, 1 . . . n¦ e densit` a
p
X
(k) =
_
n
k
_
p
k
(1 −p)
n−k
, k = 0, 1, . . . , n (3)
Esempio 4. Se X `e la v.a. che modella il numero di Teste su n lanci di una moneta di
probabilit`a di Testa P(T) = p, ed i lanci sono indipendenti come descritto nella Lezione
8, allora X ∼ Bin(n, p).
Esempio 5. Se X
k
∼ b(p), per k = 1, . . . n, ci aspettiamo che X :=

n
k=1
X
k
∼ Bin(n, p),
poich´e X
k
si pu`o interpretare come risultato del k-esimo lancio di una moneta P(T) = p, ed
X `e il numero di Teste in n lanci. Questa interpretazione `e corretta solo sotto un’ipotesi
d’indipendenza per le v.a. X
k
che rifletta l’ipotesi d’indipendenza di certi eventi usata
nella Lezione 8 per derivare la misura (3). Riprenderemo l’esempio pi` u avanti.
(c.) Uniformi
La v.a. X `e detta uniforme di alfabeto A, e si denota X ∼ |(A), se essa ha albabeto
A = ¦ x
1
, x
2
, . . . x
n
¦ , di cardinalit`a finita, e densit`a uniforme p
X
(x
k
) =
1
N
, per ogni
k = 1, 2, . . . N.
55
Lezione 10 (Luned`ı, 25 marzo 2013, ore 10:30-12:15)
10.1 Funzione di distribuzione
Abbiamo visto nella Lezione 9 che la densit`a discreta p
X
() fornisce una descrizione prob-
abilistica completa della variabile aleatoria X. In questa sezione introduciamo la funzione
di distribuzione, uno strumento alternativo per la descrizione probabilistica di X, molto
pi` u generale e flessibile della densit`a discreta.
Definizione. Data la variabile aleatoria X : Ω −→ R, la funzione F
X
: R −→ R definita
come
F
X
(x) := P(X ≤ x)
`e detta funzione di distribuzione (FdD) della v.a. X.
Osservazioni sulla definizione.
(a.) Nella definizione della funzione di distribuzione si fa riferimento alla probabilit`a P
sul dominio (Ω, T, P) della v.a. X. Rivediamo le varie forme di scrittura equivalente,
introdotte in precedenza ed equivalenti tra loro, che si possono utilizzare per la definizione
appena introdotta
F
X
(x) := P(X ≤ x) = P
_
X
−1
(
_
−∞, x]
_
_
= P(¦ ω ∈ Ω [ X(ω) ∈ (−∞, x] ¦) = P(¦ ω ∈ Ω [ X(ω) ≤ x¦)
(b.) Si noti che peraltro non `e necessario disporre della mappa X(ω) e della misura
originale P. Per calcolare la funzione di distribuzione in ogni x ∈ R `e sufficiente disporre
della densit`a discreta p
X
() della v.a. X. Infatti poich´e l’insieme dei valori A `e discreto,
vale la seguente decomposizione disgiunta
¦ ω ∈ Ω [ X(ω) ∈ B¦ =
_
x
k
∈B
¦ ω ∈ Ω [ X(ω) = x
k
¦, per ogni B ⊂ R
dove l’unione `e al pi` u numerabile, poich´e [¦x
k
∈ B¦[ ≤ A[. In particolare per B = (−∞, x]
vale
¦ ω ∈ Ω [ X(ω) ∈ (−∞, x] ¦ =
_
x
k
≤x
¦ ω ∈ Ω [ X(ω) = x
k
¦, per ogni B ⊂ R
da cui segue l’espressione alternativa per la FdD
F
X
(x) = P(¦ ω ∈ Ω [ X(ω) ∈ (−∞, x] ¦)
=

x
k
≤x
P(¦ ω ∈ Ω [ X(ω) = x
k
¦) =

x
k
≤x
p
X
(x
k
)
Quest’espressione dimostra che la funzione di distribuzione si pu`o ricavare a partire dalla
densit`a.
Esempio. Si consideri la variabile aleatoria X ad insieme di valori A = ¦−1, 0, 2, 3¦ e
densit`a su A
p
X
(−1) = 0.5, p
X
(0) = 0.125, p
X
(2) = 0.25, p
X
(3) = 0.125.
Usando l’espressione F
X
(x) =

x
k
≤x
p
X
(x
k
) si traccia immediatamente il seguente grafico
56
-
6
t
t
t
t
-1 0 1 2 3
x
F
X
(x)
1
.875
.625
.5
Si osservi che la funzione di distribuzione `e costante a tratti, con discontinuit`a di prima
specie (salti: ovvero esistono finiti i limiti da sinistra e da destra) in corrispondenza
dei valori assunti dalla variabile aleatoria (in figura i punti x = −1, 0, 2, 3). L’ampiezza
dei salti coincide con il valore della densit`a nel punto di salto. Si noti inoltre che la
funzione F
X
(x) `e nulla per x → −∞ ed `e 1 per x → ∞, ed `e continua a destra ovunque.
Queste sono propriet`a generali della funzione di distribuzione che discuteremo in dettaglio
qui sotto. Come ultima osservazione `e ovvio che a partire dalla conoscenza di F
X
(x) `e
immediatamente possibile scrivere la densit`a di probabilit`a di X. Poich´e `e possibile passare
da p
X
() ad F
X
() e viceversa le due descrizioni della v.a. X contengono la medesima
informazione.
Rappresentazione della FdD come somma di gradini traslati
Sia 1l(x) il gradino unitario continuo a destra,
1l(x) =
_
0, se x < 0,
1, se x ≥ 0.
Si riconosce immediatamente la validit`a della seguente rappresentazione della FdD come
somma di gradini unitari traslati
F
X
(x) = P(X ≤ x) =

x
k
≤x
p
X
(x
k
) =

x
k
∈.
p
X
(x
k
)1l(x −x
k
). (1)
Nota bene. L’ultima somma si estende su tutti i possibili valori di x
k
∈ A.
Usando la regola per il calcolo delle derivate generalizzate si ottiene la funzione generaliz-
zata
f
X
(x) :=
dF(x)
dx
=

x
k
∈.
p
X
(x
k
)δ(x −x
k
), (2)
dove δ(x) `e la delta di Dirac. La (2) `e una rappresentazione alternativa dell’informazione
contenuta nella densit`a discreta p
X
() e vedremo a breve in quali contesti `e conveniente
utilizzarla.
Propriet`a della funzione di distribuzione
(a.) F
X
(−∞) := lim
x→−∞
F
X
(x) = 0.
Dimostrazione. Se [A[ < ∞ esiste minimo x

∈ A, e per ogni x < x

vale F
X
(x) = 0, da
cui segue la propriet`a.
(b.) F
X
(∞) := lim
x→∞
F
X
(x) = 1.
Dimostrazione. Se [A[ < ∞ esiste massimo x

∈ A, e per ogni x > x

vale F
X
(x) = 1, da
cui segue la propriet`a.
57
(c.) F
X
`e non decrescente: se u ≤ v allora F
X
(u) ≤ F
X
(v).
Dimostrazione.
`
E una propriet`a generale dell’anti-immagine che se A ⊂ B allora X
−1
(A) ⊂
X
−1
(B). Prendendo A = (−∞, u] e B = (−∞, v], e ricordando la monotonia della misura
di probabilit`a, si conclude che F
X
(u) = P(X
−1
(−∞, u]) ≤ P(X
−1
(−∞, v]) = F
X
(v).
(d.) P(u < X ≤ v) = F
X
(v) −F
X
(u), per ogni −∞ ≤ u < v < ∞.
Dimostrazione. In generale X
−1
(A ∪ B) = X
−1
(A) ∪ X
−1
(B). Per ogni u < v si con-
sideri l’unione disgiunta (−∞, v] = (−∞, u] ∪ (u, v], quindi X
−1
(−∞, v] = X
−1
(−∞, u] ∪
X
−1
(u, v], `e ancora unione disgiunta. Prendendo la P di entrambi i membri si conclude
Questa propriet`a `e utile per la valutazione della probabilit`a di intervalli di valori di X.
(d’.) P(u ≤ X ≤ v) = F
X
(v) − F
X
(u) + P(X = u) = F
X
(v) − F
X
(u−), per ogni
−∞ < u ≤ v < ∞.
(e.) F
X
`e continua a destra: lim
↓0
F
X
(x +) = F
X
(x),
Dimostrazione. Nel caso [A[ < ∞ si pu`o ricorrere alla rappresentazione (1). Essendo
somma di un numero finito di funzioni continue a destra F
X
() `e continua a destra.
10.2 Valore atteso
Motivazione della definizione
Interpretazione frequentista della funzione di massa di probabilit`a. Vogliamo modellare
con una variabile aleatoria X il voto conseguito agli esami dallo studente Mario Rossi.
Mario ha finora registrato i seguenti voti sul libretto:
21, 24, 21, 27, 27, 24, 27, 27, 27, 24, 24, 27.
I voti registrati sono gli esiti di n = 12 ripetizioni dell’esperimento. Basandoci sulle n = 12
osservazioni, l’alfabeto della v.a. X `e A = ¦21, 24, 27¦. La densit`a della v.a. X non `e nota
a priori, ma adottando il punto di vista frequentista usiamo le osservazioni per assegnarla
empiricamente. Denoteremo la densit`a empirica ´ p
X
(). Ricordando che la probabilit`a
empirica dell’evento E `e
n
E
n
, con i dati a disposizione la densit`a empirica `e:
´ p
X
(21) = P([X = 21]) =
n
21
n
=
2
12
,
´ p
X
(24) = P([X = 24]) =
n
24
n
=
4
12
,
´ p
X
(27) = P([X = 27]) =
n
27
n
=
6
12
.
Il classico parametro riassuntivo dei voti di Mario `e la media aritmetica, che interpretiamo
come valore intorno al quale varia il voto nelle diverse prove. La media aritmetica dei voti
di Mario `e
21 + 24 + 21 + 27 + 27 + 24 + 27 + 27 + 27 + 24 + 24 + 27
12
=
2 21 + 4 24 + 6 27
12
= 25,
dove, per effettuare il calcolo, abbiamo raggruppato i voti.
`
E interessante osservare che
questa formula si pu`o riscrivere in termini dei valori assunti dalla v.a. X, ovvero 21, 24,
e 27 e dei valori della densit`a empirica, come

i
x
i
´ p
X
(x
i
) = 21
2
12
+ 24
4
12
+ 27
6
12
= 25.
Questa espressione alternativa della media aritmetica dei valori osservati ispirer`a la definizione
del pi` u importante parametro riassuntivo del comportamento di una variabile aleatoria: il
valore atteso.
58
Valore atteso: definizione e teorema fondamentale
`
E un ”parametro riassuntivo” del comportamento di una v.a. La terminologia `e molto
varia: valore atteso, valore medio, media, aspettazione, speranza matematica.
Definizione.
E(X) :=

x
k
∈.
x
k
p
X
(x
k
).
Attenzione. Se l’alfabeto A `e finito il valore atteso `e una somma finita quindi esiste sempre.
Se [A[ = ∞ il valore atteso, definito come somma di una serie, non sempre esiste.
Esercizio obbligatorio. Utilizzare la densit`a generalizzata f
X
(x) definita in (2) per riscri-
vere il valore atteso come
E(X) =

x
k
∈.
x
k
p
X
(x
k
) =
_

−∞
xf
X
(x) dx
Esempi
Esempio 1. Sia X =
χ
E
, la funzione indicatrice di E ⊂ Ω. Allora E(
χ
E
) = P(E).
Esempio 2. Sia X ∼ b(p) allora E(X) = 0 (1 −p) + 1 p = p.
Esempio 3. Sia X ∼ |(¦x
1
, x
2
, . . . x
N
¦) allora E(X) =

n
i=1
x
i
1
N
=
1
N

n
i=1
x
i
. Questo
esempio mostra che il valore atteso `e la generalizzazione della media aritmetica al caso di
v.a. non uniformi.
Esempio 4. Sia X una v.a. con A = ¦1, 3, 9¦ con p
X
(1) =
2
3
p
X
(3) =
1
6
, p
X
(9) =
1
6
. Allora
E(X) = 1
2
3
+ 3
1
6
+ 9
1
6
.
Teorema fondamentale. E(X) =

ω∈Ω
X(ω)P(¦ω¦).
Dimostrazione.
E(X) :=

k
x
k
p
X
(x
k
)
=

k
x
k
P(X = x
k
) =

k
x
k

ω
X(ω)=x
k
P(¦ω¦)
=

k

ω
X(ω)=x
k
x
k
P(¦ω¦) =

k

ω
X(ω)=x
k
X(ω)P(¦ω¦)
=

ω∈Ω
X(ω)P(¦ω¦)
Questo risultato `e molto importante dal punto di vista teorico - vedi ad esempio la di-
mostrazione della linearit`a del valore atteso qui sotto. Come strumento di calcolo `e utile
solo nelle (rare) occasioni in cui si dispone dello spazio Ω e della mappa X : Ω → R.
Normalmente si dispone solo di A e della densit`a p
X
o della FdD F
X
.
Valore atteso: propriet`a di linearit`a
Omogeneit`a. Per ogni a ∈ R vale E(aX) = a E(X).
Addittivit`a. Per ogni coppia di v.a. X, Y vale E(X+Y ) = E(X) +E(Y ). Questa `e un’im-
mediata conseguenza del teorema fondamentale. E(X+Y ) =

ω
(X(ω)+Y (ω))P(¦ω¦) =

ω
X(ω)P(¦ω¦) +

ω
Y (ω)P(¦ω¦).
59
Quando omegeneit`a ed addittivit`a valgono entrambe allora si parla di di linearit`a. Il valore
atteso `e lineare. L’estensione a pi` u di due v.a. `e immediata. Si ha che
E
_
n

t=1
a
t
X
t
_
=
n

t=1
a
t
E(X
t
)
Osservazione sulle v.a. costanti. Ogni numero reale b ∈ R pu`o essere interpretato come
una v.a. costante (degenere) ovvero come mappa ω → X(ω) = b per ogni ω ∈ Ω. L’alfa-
beto `e ¦b¦, la densit`a `e p(b) = 1 e la funzione di distribuzione F(x) = 1l(x − b). Il valore
atteso `e chiaramente E(b) = b. La propriet`a di linearit`a vista sopra continua quindi a
valere quando una delle v.a. `e una costante.
Esempio. Se Y = aX +b allora E(Y ) = aE(X) +b.
Esempio. Se X ∼ b(0.5) ed Y = 2X −1 allora E(Y ) = 0.
Valore atteso: ulteriori propriet`a
(a.) Positivit`a. Se X `e una v.a. positiva (cio`e A ⊂ R
+
) allora E(X) ≥ 0. La dimostrazione
`e banale: E(X) =

i
x
i
p
X
(x
i
) ≥ 0 se tutti gli x
i
≥ 0.
(b.) Monotonia. Se X ≤ Y (cio`e X(ω) ≤ Y (ω) per ogni ω ∈ Ω), allora E(X) ≤
E(Y ). La dimostrazione `e immediata ricorrendo al teorema fondamentale: E(X) =

ω∈Ω
X(ω)P(¦ω¦) ≤

ω∈Ω
Y (ω)P(¦ω¦). Esempio. Se X rappresenta il numero di lanci
di una moneta fino ad ottenere la prima Testa, ed Y il numero di lanci fino ad ottenere
la seconda Testa, allora X < Y ed E(X) < E(Y ). Vedremo in seguito come si calcolano
questi valori attesi.
(c.) Limite inferiore e superiore. min
k
¦x
k
¦ ≤ E(X) ≤ max
k
¦x
k
¦. Dimostrazione immediata:
E(X) =

k
x
k
p
X
(x
k
) ≤

k
max
k
¦x
k
¦p
X
(x
k
) = max
k
¦x
k
¦

k
p
X
(x
k
) = max
k
¦x
k
¦;
analoga dimostrazione per il limite inferiore.
Interpretazione meccanica del valore atteso
Si consideri una distribuzione di N masse (m
1
, m
2
, . . . m
N
) sull’asse reale, dislocate rispet-
tivamente nei punti (x
1
, x
2
, . . . x
N
).
-
6
t t t t
x
1
x
2
x
3
x
4
m
1
m
2
m
3
m
4
a
Per determinare il baricentro a si impone che la risultante delle coppie sia nulla, il che
fornisce la seguente equazione per a
N

k=1
(x
k
−a)m
k
= 0
da cui si ricava
a =

N
i=k
x
k
m
k

N
k=1
m
k
.
Si consideri ora una v.a. di alfabeto A = ¦x
1
, . . . x
N
¦ e densit`a p
X
(x
1
), . . . p
X
(x
N
). Identi-
ficando le masse m
i
con i valori p
X
(x
k
) `e evidente che il valore atteso E(X) =

x
k
p
X
(x
k
)
coincide con il baricentro del sistema di N masse p
X
(x
k
), dislocate nei punti x
k
. L’unica
peculiarit`a del caso probabilistico `e che la massa totale `e sempre pari a

k
m
k
= 1 kg.
60
Lezione 11 (Marted`ı, 26 marzo 2013, ore 16:25-18:05)
11.1 Funzioni di una variabile aleatoria
Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con le
mappe. In particolare, se X : Ω → R `e una variabile aleatoria e g : R → R una funzione
reale di variabile reale, si pu`o definire la mappa composta Y := g ◦ X,
Y := g ◦ X : Ω →R, ω → Y (ω) := g(X(ω))
che `e a sua volta una variabile aleatoria. Sia } l’alfabeto della v.a. Y . Poich´e Ω `e discreto
e [}[ = [g(A)[ ≤ [A[ ≤ [Ω[, si conclude che anche Y `e una v.a. discreta. Il problema
fondamentale nello studio delle funzioni di v.a. `e la determinazione della densit`a p
Y
()
indotta, a partire dai dati p
X
() e g.
Esempi
Negli Esempi 1 e 2 la v.a. X `e completamente nota come mappa X : Ω −→R, l’Esempio
3 si riferisce al caso, molto pi` u frequente, in cui della v.a. X `e solo nota la densit`a p
X
().
Esempio 1. Sia Ω := ¦00, 01, 10, 11¦ lo spazio campionario di 2 lanci di una moneta.
Per ω = (b
1
, b
2
) sia X(ω) = b
1
+ b
2
, ovvero X rappresenta il numero di Teste in 2
lanci. Sia inoltre g : R −→ R la funzione x → g(x) = x
2
. Allora Y := g(X) `e la v.a.
ω → Y (ω) := g(X(ω)) = X(ω)
2
. Si veda la Figura qui sotto. Si noti in particolare che
l’alfabeto A = ¦0, 1, 2¦ viene mappato in } = ¦0, 1, 4¦. Questo `e un esempio banale poich´e
la mappa g : A −→ } `e iniettiva. Se ad esempio nello spazio (Ω, T, P) la misura P `e
equiprobabile allora X ∼ Bin(2, 0.5) con p
X
(0) = 0.25, p
X
(1) = 0.5 e p
X
(2) = 0.25, e
poich´e g `e iniettiva `e evidente dalla Figura che la misura indotta su } `e p
Y
(0) = p
X
(0) =
0.25, p
Y
(1) = p
X
(1) = 0.5 e p
Y
(4) = p
X
(2) = 0.25 (nonostante g sia iniettiva, la v.a. Y
non `e binomiale – perch´e?)
00
01
10
11
0
1
2
1
4
Ω
X
Y
X g
R R
Ω R
Y=g(X)=X
2
0
Esempio 2. Sia Ω come sopra e per ω = (b
1
, b
2
) sia X(ω) = 2(b
1
+b
2
) −1. Sia inoltre g :
R −→ R la funzione x → g(x) = x
2
. Allora Y := g(X) `e la v.a. ω → Y (ω) := g(X(ω)) =
X(ω)
2
. Si veda la Figura seguente. Si noti in particolare che l’alfabeto A = ¦−1, 1, 3¦
viene mappato in } = ¦1, 9¦. In questo esempio la mappa g : A −→ } non `e iniettiva. Se
61
nello spazio (Ω, T, P) la misura P `e equiprobabile, inducendo P su A si trova la densit`a
della v.a. X che vale p
X
(−1) = 0.25, p
X
(1) = 0.5 e p
X
(3) = 0.25. Inducendo la misura da
A a } si trova poi la densit`a di Y , che vale p
Y
(1) = p
X
(−1) +p
X
(1) = 0.25 +0.50 = 0.75,
e p
Y
(9) = p
X
(3) = 0.25.
00
01
10
11
-1
1
3
1
9
Ω
X
Y
X g
R R
Ω R
Y=g(X)=X
2
Esempio 3. Sia A = ¦−1, 0, 1¦ ed X ∼ |(A) una v.a. uniforme, ovvero con p
X
(−1) =
p
X
(0) = p
X
(1) =
1
3
. Sia inoltre g(x) = x
2
, come nei precedenti esempi. La variabile
aleatoria Y = X
2
ha alfabeto } = ¦0, 1¦, inoltre p
Y
(1) = p
X
(−1)+p
X
(1) =
2
3
e ovviamente
p
Y
(0) = p
X
(0) =
1
3
= 1 −p
Y
(1). Si noti che la v.a. Y ∼ b
_
2
3
_
.
0
1
X Y
Y=g(X)=X
2
0
1
-1
Formula generale per la densit`a di Y = g(X)
La densit`a indotta p
Y
() si ricava in generale facendo uso della decomposizione disgiunta
[Y = y

] =
_
k
g(x
k
)=y

[X = x
k
].
La formula generale si scrive
p
Y
(y

) = P(Y = y

) =

k
g(x
k
)=y

p
X
(x
k
), per ogni y

∈ }.
62
Valore atteso di funzioni di una variabile aleatoria Y = g(X)
Se Y = g(X) il valore atteso di Y si pu`o calcolare in vari modi. Il seguente teorema,
nella sostanza equivalente al teorema fondamentale del valore atteso della Lezione 10, `e di
fondamentale importanza nelle applicazioni.
Teorema.
E(Y ) =

y

∈¸
y

p
Y
(y

) =

x
k
∈.
g(x
k
) p
X
(x
k
).
Dimostrazione.
E(Y ) :=

y

p
Y
(y

) =
=

y

_
¸
¸
_

k
g(x
k
)=y

p
X
(x
k
)
_
¸
¸
_
=

k
g(x
k
)=y

g(x
k
)p
X
(x
k
)
=

k
g(x
k
)p
X
(x
k
).
Questo teorema `e formalmente identico al teorema fondamentale E(X) =

ω
X(ω)P(¦ω¦).
In entrambi i casi si tratta di calcolare il valore atteso usando la misura sullo spazio di
partenza invece di quella sullo spazio di arrivo della funzione. A differenza del teorema
fondamentale, il teorema appena dimostrato `e utilissimo in pratica poich´e consente il cal-
colo di valori attesi di funzioni di v.a. senza obbligare al calcolo preliminare della densit`a
p
Y
(y

).
Esempio 4. Siano X ed Y come nell’Esempio 3 qui sopra. Il valore atteso E(Y ) `e
E(Y ) =

y

∈¸
y

p
Y
(y

) = 0 p
Y
(0) + 1 p
Y
(1) = 0
1
3
+ 1
2
3
=
2
3
E(Y ) = E(X
2
) =

x
k
∈.
x
2
k
p
X
(x
k
) = (−1)
2
p
X
(−1) + 0
2
p
X
(0) + 1
2
p
X
(1) =
2
3
Micro-esercizio. Spiegare perch´e in generale il valore atteso di una funzione di variabile
aleatoria Y = g(X) si pu`o calcolare anche nei seguenti modi.
E(Y ) =

ω∈Ω
Y (ω)P(¦ω¦)
=

ω∈Ω
g(X(ω))P(¦ω¦)
Attenzione. Attenzione. Attenzione.
In generale E(g(X)) ,= g(E(X)), ad esempio in generale E(X
2
) ,= [E(X)]
2
, ed analoga-
mente E(
1
X
) ,=
1
E(X)
. Nel caso speciale g(X) = aX + b vale invece E(g(X)) = g(E(X)),
ovvero E(aX +b) = aE(X) +b, manifestazione della linearit`a del valore atteso. Qui sotto
consideriamo un altro caso speciale in cui esiste una relazione ben definita tra E(g(X)) e
g(E(X)).
63
Teorema (disuguaglianza di Jensen). Se g `e una funzione convessa allora
g(E(X)) ≤ E(g(X)).
Dimostrazione. Ricordiamo che la funzione g `e convessa se e solo se g (

n
k=1
α
k
x
k
) ≤

n
k=1
α
k
g(x
k
), per ogni n e per ogni n-pla (α
1
, . . . α
n
) di coefficienti nonnegativi che
sommano ad 1. Allora, prendendo n = [A[ e α
k
= p
X
(x
k
) si ha
g(E(X)) = g
_

k
x
k
p
X
(x
k
)
_

k
g(x
k
)p
X
(x
k
) = E(g(X)).
Due utili corollari
(a.) [E(X)[ ≤ E([X[), infatti g(x) = [x[ `e convessa.
Applicazione. Se [A[ = ∞, condizione sufficiente per l’esistenza di E(X) `e che E([X[) < ∞
(b.) [E(X)]
2
≤ E(X
2
), infatti g(x) = x
2
`e convessa. La rivedremo presto.
11.2 Varianza
Motivazione della definizione
Si considerino due studenti, i cui voti sono rispettivamente descritti dalle v.a.
X con A = ¦18, 24, 30¦, e p
X
uniforme,
Y con } = ¦23, 24, 25¦, e p
Y
uniforme.
`
E immediato verificare che
E(X) = E(Y ) = 24,
le v.a. X ed Y hanno lo stesso ”valore atteso”, ma i due studenti sono innegabilmente
tipi umani assai diversi: X `e genio e sregolatezza, Y aurea mediocritas. Matematicamente
questa differenza si riflette nella diversa variabilit`a dei valori delle v.a. X ed Y attorno
al valore atteso. Ci proponiamo di trovare un parametro riassuntivo che fornisca un’indi-
cazione della variabilit`a dei valori assunti da una v.a. intorno al valore atteso. Ecco alcuni
esempi di indici numerici che si potrebbero adottare.
(a)

k
(x
k
−E(X)): si sommano gli scarti tra i possibili valori e il valore atteso. Questo
non va bene perch´e non tiene in conto le diverse probabilit`a dei valori x
i
.
(b)

k
(x
k
−E(X))p
X
(x
k
): questo tiene in conto le probabilit`a dei valori, ma `e facile ver-
ificare che `e sempre nullo. Usando l’analogia meccanica: la somma dei momenti calcolati
rispetto al baricentro `e nulla.
(c)

k
[x
k
−E(X)[p
X
(x
k
) questo va bene, gli scarti sono tutti positivi e si sommano. Si
potrebbe usare come misura della variabilit`a, ma ha il difetto di essere matematicamente
poco trattabile per via del valore assoluto, che `e un funzione non derivabile nell’origine.
(d)

k
(x
k
−E(X))
2
p
X
(x
k
) pesa le probabilit`a, conta tutti gli scarti positivamente ed `e
matematicamente trattabile. Questo `e il parametro che useremo, e lo chiameremo varianza
della v.a. X. Se, nell’interpretazione meccanica, il valore atteso `e il baricentro della
distribuzione di massa p
X
(x
k
), la varianza ne `e il momento d’inerzia per le rotazioni
intorno al baricentro.
64
Varianza: definizione, esempi di calcolo, propriet`a
Definizione. La varianza della v.a. X `e
var(X) :=

k
(x
k
−E(X))
2
p
X
(x
k
) = E
_
(X −E(X))
2
_
Attenzione: anche la varianza, come il valore atteso, non sempre esiste se la v.a. X ha
alfabeto di cardinalit`a infinita.
Micro-esercizio. Convincersi della validit`a dell’identit`a

k
(x
k
−E(X))
2
p
X
(x
k
) = E
_
(X−
E(X))
2
_
.
Esempio: Sia X ∼ b(p) allora var(X) = p(1 −p)
Infatti E(X) = p, quindi
var(X) = (0 −p)
2
(1 −p) + (1 −p)
2
p = p
2
(1 −p) + (1 −p)
2
p = p(1 −p)
Propriet`a della varianza
(a.) var(X) ≥ 0 con uguaglianza se e solo se X = b (v.a. costante).
Dimostrazione. Dalla definizione var(X) =

i
(x
i
−E(X))
2
p
X
(x
i
) `e una somma di termini
non-negativi. Se var(X) = 0 allora (x
i
− E(X))
2
= 0 per ogni x
i
con p
X
(x
i
) > 0. Se,
senza perdita di generalit`a, assumiamo che p
X
(x
i
) > 0 per ogni x
i
∈ A concludiamo che
x
i
= E(X) per ogni x
i
∈ A, cio`e X `e una v.a. costante.
Nota bene. Scrivere varianze negative `e peccato mortale che non andr`a impunito.
(b.) var(aX) = a
2
var(X), per ogni a ∈ R.
Dimostrazione. var(aX) = E
_
(aX −E(aX))
2
_
= E
_
a
2
(X −E(X))
2
_
= a
2
var(X).
Un’immediata conseguenza di questa propriet`a `e che var(−X) = var(X). Pensate all’in-
terpretazione meccanica.
(c.) var(X +c) = var(X).
Questa si dimostra immediatamente algebricamente, ma ancora una volta, `e l’interpre-
tazione meccanica che ci fa veramente capire perch´e deve essere cos`ı. Se si traslano
tutte le masse della stessa costante c cambia il baricentro, ma non il momento d’inerzia.
Probabilisticamente: cambia il valore atteso ma non la varianza.
(d.) var(X) = E(X
2
) −[E(X)]
2
.
Utilissima per i calcoli. Facile da dimostrare per via algebrica, ma ri-convincetevi di tutti
i passaggi visti a lezione!
var(X) = E((X −E(X))
2
) = E(X
2
−2XE(X) + (E(X))
2
)
= E(X
2
) −[E(X)]
2
.
Combinandola con la propriet`a (a.) si trova la disuguaglianza
E(X
2
) ≥ [E(X)]
2
,
che avevamo gi`a visto come esempio di disuguaglianza di Jensen.
Esercizi
Esercizio 1. Soluzione del Monty Hall
Esercizio 2 (proposto). Avete tre monete a disposizione. La moneta 1 ha due Teste, la
moneta 2 `e regolare, la moneta 3 ha due Croci. Scegliete una moneta a caso, la lanciate
ed osservate Testa. Data questa informazione, qual `e la probabilit`a che l’altra faccia sia
Testa? Nota Bene. Si verifichi che l’impostazione ed i conti sono identici a quelli del
Monty Hall.
65
Lezione 12 (Mercoled`ı, 27 marzo 2013, ore 16:25-18:05)
La lezione `e dedicata a due variabili aleatorie discrete notevoli, il cui alfabeto ha cardinalit`a
infinita.
12.1 Variabile aleatoria geometrica
Abbiamo analizzato in precedenza lo schema binomiale per eventi consistente in una se-
quenza di n ≥ 1 prove binarie (esito in ¦0, 1¦ = ¦insuccesso, successo¦ ecc.), indipendenti,
con probabilit`a di successo p ∈ [0, 1] costante nelle n prove. In questo contesto, il numero
di successi nelle n prove `e modellabile con una variabile aleatoria, diciamola X, di tipo
binomiale, X ∼ Bin(n, p).
Uno schema simile a quello binomiale per eventi prevede prove binarie, ripetute, indipen-
denti, con probabilit`a di successo p ∈ [0, 1] costante nelle varie prove. Il numero di prove
non `e fissato a priori, e l’esperimento prosegue fino all’osservazione del primo successo (la
prima Testa, il primo 1 ecc.). Sia X la variabile aleatoria che rappresenta il numero di
prove necessarie per ottenere il primo successo. L’alfabeto di A `e A = ¦1, 2, . . . ¦ = N.
La densit`a discreta di X si ricava osservando che l’evento [X = k] :=”primo successo alla
k-esima prova”, corrisponde ad ottenere k −1 insuccessi nelle prime k −1 prove e successo
alla k-esima prova, quindi
p
X
(k) = P(CC . . . C
. ¸¸ .
k −1
T) = (1 −p)
k−1
p, k ∈ N. (1)
Definizione. La v.a. X `e detta geometrica di parametro p ∈ (0, 1], e si denota X ∼ G(p),
se essa ha alfabeto N e densit`a discreta (1).
`
E istruttivo verificare che (1) `e una densit`a discreta. I valori p
X
(k) sono tutti non-negativi,
inoltre

k=1
p
X
(k) =

k=1
(1 −p)
k−1
p
= p

k=1
(1 −p)
k−1
= p

k=0
(1 −p)
k
=
p
1 −(1 −p)
= 1.
Si noti che poich´e
P(X < ∞) =

k=1
P(X = k),
la condizione di normalizzazione ad 1 della densit`a equivale al fatto che la probabilit`a di
ottenere il primo successo in un numero finito di lanci `e pari ad 1.
Osservazione sui casi limite. Si noti che la serie geometrica converge per [1 − p[ < 1, che
si traduce nel vincolo 0 < p < 2 ma, essendo p una probabilit`a, il vincolo `e 0 < p ≤ 1.
Intuitivamente se p = 0 non si verifica mai Testa, quindi la v.a. X non `e ben definita (si
potrebbe assegnare X = +∞ con probabilit`a 1, ma avere variabili aleatorie a valori nella
retta reale estesa crea pi` u problemi di quanti ne risolva). Il caso p = 1 corrisponde invece
ad una v.a. degenere costante, X = 1 con probabilit`a 1. In questo caso infatti si ottiene
sempre Testa al primo lancio. La densit`a della v.a. X ∼ G(1) `e p
X
(k) = δ(k −1).
66
Probabilit`a di attesa lunga. Nelle applicazioni `e interessante conoscere la probabilit`a di
dover attendere per pi` u di k lanci il primo successo.
P(X > k) =

i=k+1
p
X
(i) =

i=k+1
(1 −p)
i−1
p
= p(1 −p)
k

i=0
(1 −p)
i
= (1 −p)
k
(2)
Esempio 1. La probabilit`a di superare l’esame di Splancnologia `e p = 0.4. Qual `e la
probabilit`a di dover ripetere l’esame pi` u di 2 volte per superarlo?
Soluzione. Bisogna aggiungere un po’ di ipotesi per poter rispondere a questa domanda.
In particolare supporremo che la probabilit`a di superare l’esame sia p = 0.4 ad ogni
tentativo, inoltre assumeremo che gli esiti dell’esame in appelli diversi siano indipendenti.
Sotto queste ipotesi possiamo modellare il numero di prove fino al superamento dell’esame
con una v.a. X ∼ G(0.4). Usando la formula (2)
P(X > 2) = (1 −0.4)
2
.
Si sarebbe anche potuto svolgere il calcolo direttamente ottenendo
P(X > 2) = 1−P(X ≤ 2) = 1−P(X = 1)−P(X = 2) = 1−0.4−0.4(1−0.4) = (1−0.4)
2
.
Esempio 2. Nel gioco del lotto un’estrazione consiste nell’estrarre, senza reinserimento, 5
palline da un’urna che contiene 90 palline numerate da 1 a 90. La giocata pi` u semplice
`e l’ambata, ovvero si punta del denaro sull’uscita di un numero specifico, ad esempio il
53. La probabilit`a che ad ogni estrazione esca il numero giocato `e
(
1
1
)(
89
4
)
(
90
5
)
=
5
90
=
1
18
. Sia
X il numero di estrazioni che `e necessario attendere fino ad ottenere per la prima volta
l’uscita del numero giocato. Sono soddisfatte tutte le condizioni della definizione, quindi
X ∼ G
_
1
18
_
. Nota bene: il risultato `e valido anche se ad ogni estrazione si gioca un numero
diverso, purch´e sempre solo un numero, ad ogni estrazione (perch´e?).
Funzione di distribuzione. A partire dall’espressione (2) si pu`o ricavare, in forma chiusa, la
funzione di distribuzione di X. Per k ∈ Z si ha che
F
X
(k) = P(X ≤ k) =
_
0, se k < 1,
1 −(1 −p)
k
, se k ≥ 1.
Ricordando che la funzione di distribuzione di una variabile aleatoria discreta `e costante
a tratti, per ogni x ∈ R vale
F
X
(x) =
_
0, se x < 0,
1 −(1 −p)
]x|
, se x ≥ 0,
Valore atteso di una v.a. geometrica. Se X ∼ G(p) allora
E(X) =

k=1
kp
X
(k) =

k=1
k(1 −p)
k−1
p = p

k=0
k(1 −p)
k−1
=
p
(1 −(1 −p))
2
=
1
p
.
Analogamente si trova che
var(X) =
1 −p
p
2
.
67
Il valore atteso l’abbiamo calcolato a lezione. Per la varianza abbiamo impostato i calcoli
a lezione, si veda la nota in appendice per i dettagli.
Nota.
`
E molto intuitivo che se una moneta ha probabilit`a di Testa P(T) = p il valore
atteso del numero di lanci per ottenere Testa per la prima volta sia
1
p
. Se P(T) =
1
100
in
media la si deve lanciare 100 volte per ottenere la prima Testa.
Versione alternativa della v.a. geometrica
A volte le v.a. geometriche sono definite in modo lievemente diverso. Sia X
t
la v.a.
aleatoria che rappresenta il numero di insuccessi prima del primo successo. Chiaramente
X
t
= X − 1, quindi A
t
= ¦0, 1, . . . ¦, mentre la densit`a vale p
X
(k) = (1 − p)
k
p, infatti
X
t
= k significa k insuccessi nelle prime k prove e successo alla k+1-esima. Naturalmente
E(X
t
) = E(X) −1 =
1−p
p
, mentre var(X
t
) = var(X).
12.2 Variabile aleatoria di Poisson
A lezione abbiamo dedicato un po’ di tempo a rivedere la definizione della funzione
esponenziale e a ricavarne lo sviluppo in serie di Taylor, giustificando le seguenti identit`a
e
x
:= lim
n→∞
_
1 +
x
n
_
n
=

k=0
x
k
k!
.
Il metodo sporco e veloce per capire questa identit`a `e di sviluppare
_
1 +
x
n
_
n
=
n

k=0
_
n
k
_
_
x
n
_
k
e poi di calcolare, per k fissato, lim
n→∞
_
n
k
_ _
x
n
_
k
=
x
k
k!
.
Definizione. La v.a. Y `e detta Poisson di parametro λ > 0, e si denota Y ∼ T(λ), se Y ha
alfabeto } = N
0
:= ¦0, 1, 2, . . . ¦ e densit`a discreta
p
Y
(k) = e
−λ
λ
k
k!
, per ogni k ≥ 0
`
E immediato verificare che p
Y
(k) > 0 per ogni k ≥ 0 e che

k=0
p
Y
(k) =

k=0
e
−λ
λ
k
k!
= e
−λ

k=0
λ
k
k!
= 1,
il che dimostra che la densit`a `e valida.
Derivazione della densit`a di Poisson come limite di una densit`a binomiale
Il motivo per cui le v.a. di Poisson sono di grande interesse applicativo `e che, sotto
opportune condizioni, esse consentono di approssimare molto bene il comportamento di
variabili aleatorie binomiali. Non ci preoccuperemo per ora di valutare quale sia la bont`a
dell’approssimazione.
Sia X
n
∼ Bin(n,
λ
n
).
7
Conviene introdurre il simbolo
Bin
_
n,
λ
n
_
(k) := p
X
n
(k)
7
Ad esempio se W ∼ Bin(800, 0.005) allora W `e interpretabile come una v.a. X
n
con n = 800 e λ = 4.
68
che mette in evidenza sia i parametri della binomiale, che il punto k dove si valuta la
densit`a. Allora `e
Bin
_
n,
λ
n
_
(k) =
_
n
k
__
λ
n
_
k
_
1 −
λ
n
_
n−k
=
n!
k!(n −k)!
λ
k
n
k
_
1 −
λ
n
_
n
_
1 −
λ
n
_
k
=
n(n −1) . . . (n −k + 1)
n
k
λ
k
k!
_
1 −
λ
n
_
n
_
1 −
λ
n
_
k
Fissato un valore di k ∈ ¦0, 1, . . . n¦ calcoliamo ora il limite lim
n→∞
Bin
_
n,
λ
n
_
(k). Os-
servando che
lim
n→∞
n(n −1) . . . (n −k + 1)
n
k
= 1, lim
n→∞
_
1 −
λ
n
_
k
= 1, lim
n→∞
_
1 −
λ
n
_
n
= e
−λ
,
si trova immediatamente che
lim
n→∞
Bin
_
n,
λ
n
_
(k) = e
−λ
λ
k
k!
= T(λ)(k),
Volendo a tutti i costi dare un’interpretazione probabilistica al precedente risultato pura-
mente analitico si pu`o procedere come segue. Sia, per n molto grande, X
n
∼ Bin(n,
λ
n
)
ed Y ∼ T(λ) (si notino i legami tra i parametri n, p, e λ). Allora per ogni k ≥ 0 sar`a
P(X
n
= k) ≈ P(Y = k).
Questa interpretazione `e meno naturale del risultato analitico.
Dal punto di vista pratico se si vuole approssimare una densit`a Bin(n, p) con una T(λ)
devono essere rispettati i seguenti vincoli
n ¸ 1, p ¸ 1, λ = np
L’approssimazione `e buona se λ `e dell’ordine di qualche unit`a e fino a λ ≈ 30, ma non `e
questo il contesto per discutere della bont`a dell’approssimazione.
Il vantaggio nell’uso della densit`a di Poisson, rispetto a quella binomiale, consiste nell’e-
vitare calcoli di coefficienti binomiali con n elevato che sono complessi da effettuare.
Media e varianza di v.a. Y ∼ T(λ). Poich´e, per n → ∞, la densit`a di una v.a. X
n

Bin(n,
λ
n
) tende a quella di una v.a. Y ∼ T(λ) un’azzardatissima intuizione vuole che, se
le densit`a sono vicine, i valori attesi siano vicini e che quindi
E(Y ) = lim
n→∞
E(X
n
) = lim
n→∞
n
λ
n
= λ
var(Y ) = lim
n→∞
var(X
n
) = lim
n→∞
n
λ
n
_
1 −
λ
n
_
= λ
Pi` u avanti potremo rapidissimamente verificare la correttezza di quest’intuizione calcolan-
do media e varianza di Y ∼ T(λ) a partire dalle trasformata di Fourier discreta della
densit`a di Poisson p
Y
(). Il conto diretto richiede la verifica delle somme delle serie
E(Y ) =

k=0
kp
Y
(k) =

k=0
ke
−λ
λ
k
k!
= λ,
var(X) = E(X
2
) −[E(X)]
2
=

k=0
k
2
e
−λ
λ
k
k!
−[E(X)]
2
= λ.
69
Uso pratico dell’approssimazione di Poisson alla binomiale.
Nella pratica si incontrano spesso situazioni sperimentali modellabili con variabili aleatorie
binomiali. Il paradigma `e quello delle prove binarie, ripetute, indipendenti, con probabilit`a
di successo costante nelle diverse prove. Il numero, tra le 12:00:00 e le 12:01:00 di domani,
di accessi al sito unipd.it, di telefonate in arrivo al DEI, di tamponamenti a Padova, di
nati in Europa, di morti in Europa, ecc. sono tutti modellabili come variabili aleatorie
binomiali. I parametri n e p di queste variabili aleatorie non sono misurabili direttamente,
ma `e ragionevole supporre che siano noti i valori attesi
8
. Ci sono allora i presupposti per
l’uso dell’approssimazione di Poisson. Se X ∼ Bin(n, p) ed `e nota la media E(X) = λ
X
,
poich´e E(X) = λ
X
= np, si ricava p =
λ
n
. Si tratta allora di stabilire per quali valori di n
e λ `e ragionevole approssimare la densit`a binomiale Bin
_
n,
λ
n
_
con la Poisson T(λ).
Regola pratica. In generale l’approssimazione `e buona se n `e grande e p =
λ
n
`e piccolo. Ad
esempio, se n ≥ 100 per λ dell’ordine di alcune unit`a l’approssimazione `e molto buona.
Regole pi` u precise sono disponibili in letteratura.
Esercizio. Al sito web unipd.it si collegano in media 10 persone al minuto. Qual `e la
probabilit`a che, nel prossimo minuto, ci sia almeno un visitatore?
Soluzione. La v.a. X ∼ Bin
_
n,
10
n
_
si pu`o approssimare con una v.a. di Poisson Y ∼
T(10) quindi
P(X ≥ 1) ≈ P(Y ≥ 1) = 1 −P(Y = 0) = 1 −e
−10
.
Attenzione all’unit`a di tempo.
Quando si impiega l’approssimazione di Poisson `e fondamentale prestare attenzione all’u-
nit`a di tempo.
Esercizio. Il sensore di un certo rivelatore di particelle `e colpito in media da 2 particelle al
secondo. Qual `e la probabilit`a che nei prossimi 5 secondi sia colpito al pi` u da 3 particelle?
Soluzione. L’idea sottostante `e che, indipendentemente una dall’altra, un numero n,
grande e non noto, di particelle possono colpire il sensore ad ogni secondo, la proba-
bilit`a p
n
che una di esse lo colpisca `e non nota e bassa.
`
E importante solo conoscere il
numero medio di particelle che colpiscono il sensore. In questo caso la domanda si riferisce
a quello che avverr`a in un intervallo di 5 secondi, durante il quale il numero medio di
particelle che colpisce in sensore `e 2 5 = 10. La variabile aleatoria che modella il numero
di particelle che colpisce il sensore nei prossimi 5 secondo `e allora Y ∼ T(10). La risposta
`e: P(Y ≤ 3) =

3
k=0
P(Y = k) = e
−10
_
1 + 10 +
100
2
+
1000
6
¸
.
8
Qui assumiamo che i valori attesi siano noti, ma stime empiriche degli stessi sono facili da ottenere.
Ad esempio, sia X ∼ Bin(n, p) la v.a. che modella il numero di accessi al sito unipd.it. Per stimare E(X)
si osservano x
1
, x
2
. . . x
100
, il numero di accessi al sito, tra le 12:00 e le 12:01, per 100 giorni consecutivi.
La media aritmetica ´ m
X
:=
1
100

100
i=1
x
i
`e lo stimatore empirico di E(X). In generale, disponendo di n
osservazioni, ´ m
X
:=
1
n

n
i=1
x
i
≈ E(X), e l’approssimazione migliora al crescere di n. Riprenderemo pi` u
avanti lo studio delle propriet` a dello stimatore empirico.
70
Appendice alla Lezione 12
Richiami sulle serie di potenze e applicazioni
A12.1 Richiami sulle serie di potenze
Illustriamo il calcolo diretto del valore atteso e della varianza per le v.a. geometriche. Un
breve richiamo sulle serie di potenze fornir`a gli strumenti di calcolo.
Le serie di potenze sono state trattate nel corso di Analisi II. Mi limito a ricordare il
seguente risultato. Se la serie di potenze
f(x) :=

k=0
a
k
x
k
ha intervallo di convergenza [x[ < R, con R > 0, la sua derivata esiste, `e una serie
di potenze, ha lo stesso intervallo di convergenza, e si pu`o calcolare derivando la serie
termine a termine:
f
t
(x) =

k=0
ka
k
x
k−1
.
Iterando il precedente risultato, una serie di potenze che converge per [x[ < R, con R > 0,
`e di classe (

nell’intervallo di convergenza e la sua derivata n-esima vale
f
(n)
(x) =

k=0
k(k −1) . . . (k −n + 1)a
k
x
k−n
.
In questa serie i termini con k = 0, 1, . . . , n−1 sono tutti nulli. Il coefficiente a
n
di f(x) `e
la derivate n-esima di f(x) valtata nell’origine, infatti ponendo x = 0 nell’ultima formula
si trova
a
n
=
f
(n)
(0)
n!
,
ovvero: la serie di potenze, nell’intervallo di convergenza, coincide con la serie di Taylor
9
della sua somma f(x).
La piu’ semplice serie di potenze `e la serie geometrica

k=0
x
k
=
1
1 −x
per [x[ < 1. (1)
Si osservi che, bench´e la funzione
1
1−x
abbia dominio R¸ ¦1¦, la serie geometrica la rapp-
resenta solo nell’intervallo (−1, 1). Il calcolo della derivata termine a termine fornisce, per
[x[ < 1,

k=0
kx
k−1
=
d
dx
1
1 −x
=
1
(1 −x)
2
. (2)
Per la derivata seconda si ottiene

k=0
k(k −1)x
k−2
=
d
2
dx
2
1
1 −x
=
2
(1 −x)
3
. (3)
9
Attenzione: anche se f ∈ c

in un intorno dell’origine, f non `e necessariamente sviluppabile in serie
di Taylor. Esempio: f(x) = e
−x
−2
∈ c

, ma f
(n)
(0) = 0 per ogni n, quindi gli a
n
sono tutti nulli e la
serie di potenze corrispondente ha raggio di convergenza R = 0.
71
A12.2 Media della v.a. geometrica
Se X ∼ G(p) con p ∈ (0, 1), la densit`a di probabilit`a discreta `e
p
X
(k) = (1 −p)
k−1
p, k = 1, 2, . . .
La media si calcola utilizzando la (2)
E(X) =

k=1
kp
X
(k) =

k=1
k(1 −p)
k−1
p = p

k=0
k(1 −p)
k−1
=
p
(1 −(1 −p))
2
=
1
p
(4)
A12.3 Varianza della v.a. geometrica
Per calcolare la varianza usiamo la formula var(X) = EX
2
−[EX]
2
. Calcoliamo il primo
addendo
E(X
2
) =

k=1
k
2
p
X
(k) = p

k=1
k
2
(1 −p)
k−1
(5)
Questa serie `e simile alla (3), per via del k
2
, ma bisogna massaggiarla un po’ per calcolarne
la somma. Il termine k-esimo in (3) ha la forma k(k −1)x
k−2
mentre qui abbiamo k
2
(1 −
p)
k−1
, che scriviamo (1 − p)k
2
(1 − p)
k−2
. La costante (1 − p) non `e un problema perch`e
esce dalla somma. Per aggiustare il termine polinomiale si osservi che k
2
= k(k −1) + k,
il che suggerisce di calcolare come segue
E(X
2
) = E
_
X(X −1)
_
+E(X) (6)
Ora `e possibile usare la (3) per il primo addendo:
E
_
X(X −1)
_
=

k=1
k(k −1)(1 −p)
k−1
p = p(1 −p)

k=0
k(k −1)(1 −p)
k−2
=
2p(1 −p)
(1 −(1 −p))
3
=
2(1 −p)
p
2
.
Si noti che nella prima somma il coefficiente corrispondente a k = 1 `e nullo, mentre nella
seconda sono nulli i coefficienti per k = 0 e k = 1, quindi le due somme coincidono ed `e la
seconda che si calcola immediatemente usando con la (3). Dalla (6) si ottiene
E(X
2
) = E
_
X(X −1)
_
+E(X) =
2(1 −p)
p
2
+
1
p
=
2 −p
p
2
.
In conclusione la varianza della geometrica vale
var(X) = E(X
2
) −
_
E(X)
_
2
=
2 −p
p
2

1
p
2
=
1 −p
p
2
.
72
Lezione 13 (Luned`ı, 8 aprile 2013, ore 10:30-12:15)
13.1 Esercizi
Ripassone sulle variabili aleatorie
Adattato da: M. Bramanti, Calcolo delle Probabilit`a e Statistica: Teoria ed esercizi, Pro-
getto Leonardo, Bologna, 2000. Il libro era diretto agli allievi del vecchio Diploma in
Ingegneria. Contiene solo parte degli argomenti di Analisi dei Dati ma lo consiglio ugual-
mente, per la scelta degli argomenti trattati, la chiarezza espositiva e la ricchezza degli
esempi.
Esercizio. Ad un casello transitano in media 200 veicoli all’ora, di cui in media 2 sono
T.I.R.
(a.) Qual `e il tipo di variabile aleatoria da utilizzare per calcolare la probabilit`a che su
100 veicoli in transito esattamente 5 siano T.I.R.? Calcolare questa probabilit`a.
Soluzione. Possiamo pensare al transito di un veicolo come ad un esperimento in cui il
successo `e il transito di un T.I.R. ed ha probabilit`a p =
2
100
= 0.01. La v.a. adatta a
descrivere il problema in questione `e una v.a. X ∼ Bin(n, p) con n = 100 e p = 0.01. La
probabilit`a cercata `e quindi
p
X
(5) =
_
n
5
_
p
5
(1 −p)
95
=
_
100
5
_
(0.01)
5
(0.99)
95
≈ 0.0029.
(b.) Con che tipo di variabile aleatoria si pu`o approssimare la variabile aleatoria in (a.)?
Ricalcolare la probabilit`a che 5 veicoli su 100 siano T.I.R. usando l’approssimazione.
Soluzione. Quando n ¸ 1 ed np `e dell’ordine delle unit`a la densit`a binomiale Bin(n, p)
si pu`o approssimare con la densit`a di Poisson T(λ), di parametro λ = np. In questo caso
siamo, pi` u o meno, nella zona di buona approssimazione. Verifichiamo:
Bin(100, 0.01)(5) ≈ T(1)(5) = e
−1
1
5
5!
= e
−1
1
5
5!
≈ 0.0031.
(c.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il prossimo
T.I.R. sia il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione. Calcolare
anche la probabilit`a che il prossimo T.I.R. non passi prima del 100-esimo veicolo in transito.
Soluzione.
`
E come chiedere qual `e la probabilit`a che, lanciando una moneta con probabilit`a
di Testa p = 0.01, la prima Testa si verifichi al 100-esimo lancio. In questo caso si deve
utilizzare una v.a. geometrica Z ∼ ((p) di parametro p = 0.01. Le probabilit`a richieste
sono allora
P(Z = 100) = p
Z
(100) = p(1 −p)
99
= 0.01(0.99)
99
≈ 0.0037;
e ricordando la probabilit`a delle attese lunghe per una geometrica
P(Z ≥ 100) = P(Z > 99) = (1 −p)
99
= 0.99
99
≈ 0.37.
73
(d.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il secondo
T.I.R. sia esattamente il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione.
Soluzione. Cominciamo con il determinare la v.a. da utilizzare. Ragionando con il paradig-
ma dei lanci indipendenti di una moneta con probabilit`a di Testa p, ci chiediamo qual `e la
densit`a della v.a. Y :=” lancio al quale si verifica la seconda Testa”. Tenendo conto che
al k-esimo lancio deve verificarsi il secondo successo, la probabilit`a cercata `e data dalla
somma di tutte le probabilit`a di avere esattamente un successo nei primi k − 1 lanci e
successo al k−esimo lancio. Queste probabilit`a sono in totale k − 1, potendosi verificare
il primo successo al lancio 1, 2, . . . k −1 e sono tutte uguali, quindi
p
Y
(k) = P(Y = k) = (k −1)p
2
(1 −p)
k−2
La risposta alla domanda `e quindi
P(Y = 100) = 99(1 −p)
98
p
2
= 99 (0.99)
98
(0.01)
2
≈ 0.003697.
(e.) Qual `e il numero atteso di T.I.R. su 100 veicoli in transito?
Soluzione. La risposta si ottiene considerando il valore atteso della v.a. X del punto (a.),
ovvero E(X) = np = 100 0.01 = 1. In alternativa, molto banalmente, il dato iniziale del
testo indica che l’1% dei veicoli sono T.I.R., quindi su 100 veicoli mediamente 1 sar`a un
T.I.R.
(f.) Qual `e il numero atteso di veicoli in transito fino al passaggio di un T.I.R.?
Soluzione. La risposta `e data dal valore atteso della v.a. Z del punto (c.) e quindi
E(Z) = 1/p = 1/0.01 = 100.
(g.) Qual `e il numero di veicoli in transito necessari affinch´e la probabilit`a di osservare
almeno un T.I.R. sia maggiore di 0.5?
Soluzione. Il numero di T.I.R. osservati su n veicoli in transito `e una v.a. binomiale
W ∼ Bin(n, p) con p = 0.01 ed n che va determinato in modo da soddisfare il vicolo
imposto dal testo della domanda. La probabilit`a di osservare almeno un T.I.R. `e
P(W ≥ 1) = 1 −P(X = 0) = 1 −0.99
n
ed il vincolo `e che P(W ≥ 1) > 0.5, da cui .99
n
< 0.5 ovvero nln(.99) < ln(0.5) e quindi
n > 68.968. Dovendo essere n un intero, il numero di veicoli necessari sar`a almeno 69.
Esercizio classico del coupon collector
Volete fare la raccolta delle figurine Panini. La raccolta completa consiste di n figurine.
Ogni mattina, andando a scuola, vi fermate in edicola e comprate una bustina di fig-
urine. Facciamo le seguenti ipotesi semplificative. In ogni bustina c’`e una figurina. La
Panini distribuisce le figurine in modo casuale nelle bustine – a quest’ipotesi io non credo
molto. Quando avevo sui 10 anni, Pizzaballa, il portiere dell’Atalanta, era assolutamente
introvabile. Quante bustine `e necessario comprare in media per completare la collezione?
Soluzione. Con la prima bustina acquistata otteniamo la prima figurina della nostra
collezione. Si ponga T
1
= 1. Indichiamo con T
2
la v.a. che rappresenta quante bustine `e
necessario acquistare per trovare una figurina distinta dalla prima (la seconda figurina della
mia collezione). Poich´e mi mancano n−1 figurine e ce ne sono n in commercio la probabilit`a
di successo (trovare una figurina che mi manca) `e p
2
=
n−1
n
, quindi T
2
∼ G
_
n−1
n
_
. In
74
generale, se ho gi`a i − 1 figurine distinte nella mia collezione ed indico con T
i
il numero
di bustine da acquistare per trovare una figurina distinta dalle i − 1 in mio possesso,
allora T
i
∼ G
_
n−(i−1)
n
_
. Il numero totale di bustine da acquistare per completare la mia
collezione `e
T := T
1
+T
2
+ +T
n
Per il calcolo del valore atteso di T si usa la linearit`a
E(T) = E(T
1
) +E(T
2
) +E(T
3
) +E(T
n−1
) +E(T
n
)
=
n
n
+
n
n −1
+
n
n −2
+ +
n
2
+
n
1
= n
_
1 +
1
2
+
1
3
+ +
1
n −1
+
1
n
_
≈ nln(n)
L’ordine di grandezza finale si ottiene con una rozza approssimazione di Riemann

n
k=1
1
k

_
n
1
1
x
dx = log n. Ad esempio, se la collezione completa consiste di n = 100 figurine, in
media si devono comprare approssimativamente 100 ln 100 ≈ 460 bustine, se ogni bustina
contiene 1 figurina.
13.2 Disuguaglianze fondamentali per il valore atteso
Teorema (disuguaglianza di Markov). Se X `e una v.a. non-negativa, per ogni a > 0
P(X ≥ a) ≤
E(X)
a
Dimostrazione. Se X ≥ 0 allora
E(X) =

i
x
i
p
X
(x
i
)
=

i;x
i
<a
x
i
p
X
(x
i
) +

i;x
i
≥a
x
i
p
X
(x
i
)

i;x
i
≥a
x
i
p
X
(x
i
) ≥ a

i;x
i
≥a
p
X
(x
i
)
= a P(X ≥ a).
Domanda: dove interviene, nella dimostrazione, l’ipotesi di positivit`a di X?
Esempi
Esempio 1. [Con riferimento all’Esempio 2 della Sezione 12.1 sulla variabile aleatoria
geometrica.] Sia X la v.a. che indica quante ambate dovete giocare fino ad ottenere
la prima vincita. Determinate un limite superiore e calcolate esattamente P(X > 36).
Abbiamo visto che X ∼ G
_
1
18
_
, quindi E(X) = 18. Usando la disuguaglianza di Markov
P(X > 36) ≤
E(X)
36
=
18
36
=
1
2
. Il calcolo esatto fornisce P(X > 36) =
_
1 −
1
18
_
36
≈ 0.127.
La morale `e che la disuguaglianza non fornisce un’approssimazione particolarmente buona
della probabilit`a desiderata, ma solo un limite superiore.
Esempio 2. Sia X ∼ Bin(n, p). Si vuole calcolare un limite superiore alla P
_
X ≥
n
2
_
.
Poich´e E(X) = np l’applicazione della disuguaglianza di Markov fornisce
P
_
X ≥
n
2
_

E(X)
n
2
= 2p
75
Si supponga ad esempio che X ∼ Bin(100, 0.7), allora la disuguaglianza di Markov fornisce
P (X ≥ 50) ≤
100 0.7)
100
2
= 2 0.7 = 1.4
Non era necessario scomodare il luminare russo. A volte la disuguaglianza di Markov
fornisce limiti superiori inutili. Allora a che serve ?
Esempio 3. (In negozio) ”La vita media dichiarata dal costruttore di queste lampadine `e
di 8.000 ore, ma in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio.” Perch´e non vi conviene acquistare nulla in questo negozio? La disuguaglianza di
Markov dice che il venditore `e, quanto meno, un millantatore infatti detta X la v.a. che
rappresenta la vita media di una lampadina `e noto che E(X) = 8.000, ma allora
P(X ≥ 16.000) ≤
E(X)
16.000
=
8.000
16.000
=
1
2
l’affermazione ”in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del
doppio” `e quindi una millanteria. Ecco la forza della disuguaglianza di Markov! Della
v.a. X nulla `e noto se non il valore atteso, pure `e stato possibile determinare un limite
superiore alla probabilit`a dell’evento d’interesse.
Pubblicit`a. La disuguaglianza di Markov si pu`o ricavare, in modo alternativo, a partire
da alcuni risultati sulle variabili aleatorie positive che quest’anno non avremo il tempo di
vedere. I curiosi possono consultare l’appendice alla lezione (non in programma).
Teorema (disuguaglianza di Chebyshev). Per ogni v.a. X, e per ogni > 0,
P
_
[X −E(X)[ ≥
_

var(X)

2
Dimostrazione. Si noti che
_
[X − E(X)[ ≥
_
=
_
[X − E(X)[
2

2
_
. Poich´e la v.a.
[X −E(X)[
2
`e positiva si pu`o applicare la disuguaglianza di Markov che fornisce
P
_
[X −E(X)[ ≥
_
= P
_
[X −E(X)[
2

2
_

E
_
[X −E(X)[
2
_

2
=
var(X)

2
Forma alternativa della disuguaglianza di Chebyshev.
P
_
[X −E(X)[ <
_
≥ 1 −
var(X)

2
Esempio
Si effettuano 100 lanci indipendenti di una moneta con P(T) = 0.5. Sia X la v.a. che
conta il numero di Teste su 100 lanci. Determinare un limite inferiore alla probabilit`a
dell’evento [41 ≤ X ≤ 59].
Usando la versione alternativa della disuguaglianza di Chebyshev
P(41 ≤ X ≤ 59) = P([X −50[ < 10) ≥ 1 −
25
100
=
3
4
dove abbiamo ricordato che per la v.a. X ∼ Bin(100, 0.5) vale E(X) = np = 100
1
2
= 50
e var(X) = np(1 − p) = 100
1
2
_
1 −
1
2
_
= 25. In questo caso l’espressione esatta della
probabilit`a `e
P(41 ≤ X ≤ 59) =
49

k=41
_
100
k
_
1
2
100
.
76
13.3 Motivazione all’introduzione delle densit`a congiunte
Varianza della somma di due v.a.
Date due v.a. X ed Y , definite sullo stesso spazio di probabilit`a, si consideri la v.a.
Z = X + Y . Vogliamo calcolare la varianza di Z. Cominciamo con il calcolo algebrico,
usando la linearit`a del valore atteso.
var(X +Y ) = E
_
(X +Y −E(X +Y ))
2
_
= E
_
(X −E(X) +Y −E(Y ))
2
_
= E
_
(X −E(X))
2
_
+E
_
(Y −E(Y ))
2
_
+ 2E
_
(X −E(X))(Y −E(Y ))
_
= var(X) + var(Y ) + 2E
_
(X −E(X))(Y −E(Y ))
_
Il termine misto `e, come vedremo, molto interessante e merita un nome.
Definizione. La covarianza delle v.a. X ed Y `e
cov(X, Y ) := E
_
(X −E(X))(Y −E(Y )
_
Propriet`a della covarianza.
(a.) cov(X, X) = var(X)
(b.) cov(X, Y ) = E(XY ) −E(X)E(Y ).
Immediato ed analogo a var(X) = E(X
2
) −[E(X)]
2
.
(c.) A seconda della relazione tra le v.a. X ed Y la covarianza pu`o assumere qualunque
valore in R. Ad esempio, per Y = −X si ha cov(X, −X) = −var(X) < 0, per Y = b,
costante, cov(X, b) = E(Xb) −E(X)E(b) = 0
Calcolo della covarianza. Come si calcola cov(X, Y )? Dall’espressione cov(X, Y ) = E(XY )−
E(X)E(Y ) si capisce che la difficolt`a consiste nel calcolo di E(XY ). A tal fine conoscere le
densit`a di probabilit`a di X e di Y non `e sufficiente. In effetti se X = x
i
ed Y = y
j
il prodot-
to XY = x
i
y
j
, ma P(XY = x
i
y
j
) non `e calcolabile sulla base di p
X
e p
Y
. Una scappatoia
`e usare il teorema fondamentale, trasportando il calcolo sullo spazio campionario:
E(XY ) =

ω∈Ω
X(ω)Y (ω)P(¦ω¦).
Ottimo! Ma solo quando si conoscono Ω, la misura P e le mappe X(ω) ed Y (ω). Purtroppo
solo raramente si dispone di tutte queste informazioni.
Esempio. Consideriamo un caso molto semplice: X ed Y entrambe v.a. b(p), quin-
di p
X
(1) = p
Y
(1) = p. Come abbiamo gi`a visto, esistono infiniti spazi di probabilit`a
(Ω, T, P), e variabili aleatorie X(ω) ed Y (ω) compatibili con il fatto che X ed Y siano
entrambe b(p). Peraltro, in questo caso, il prodotto XY pu`o assumere solo due valori: 0,
se X = 0 o Y = 0 , e 1 se X = Y = 1. Il valore atteso si pu`o quindi calcolare come
E(XY ) = 0 P
_
[X = 0] ∪ [Y = 0]
_
+ 1 P
_
[X = 1] ∩ [Y = 1]
_
= P
_
[X = 1] ∩ [Y = 1]
_
A partire da p
X
(1) := P([X = 1]) = p e p
Y
(1) := P([Y = 1]) = p non `e possibile
calcolare P
_
[X = 1] ∩[Y = 1]
_
, poich´e, in generale, gli eventi [X = 1] ed [Y = 1] non sono
indipendenti.
Per calcolare agevolmente la covarianza, e per molto altro ancora, `e necessario estendere
la nozione di densit`a discreta di probabilit`a, che per ora abbiamo definito sullo spazio dei
valori di una singola v.a., allo spazio dei valori di una coppia di v.a. (X, Y ).
77
Appendice alla Lezione 13
Disuguaglianza di Markov
A13.1 Valore atteso e variabili aleatorie non-negative
Teorema. Sia X `e una v.a. a valori non-negativi, ovvero tale che A ⊂ R
+
allora
E(X) =
_

0
[1 −F
X
(x)] dx
Dimostrazione. Ricordo che la funzione di distribuzione si pu`o scrivere
F
X
(x) =

i
p
X
(x
i
)1l(x −x
i
),
quindi
_

0
[1 −F
X
(x)] dx =
_

0
_
1 −

i
p
X
(x
i
)1l(x −x
i
)
_
dx
=
_

0

i
p
X
(x
i
)
_
1 −1l(x −x
i
)
_
dx
=

i
p
X
(x
i
)
_

0
_
1 −1l(x −x
i
)
_
dx
=

i
p
X
(x
i
)x
i
= E(X)
Domanda a bruciapelo: perch´e la v.a. X deve essere positiva affinch´e questa dimostrazione
funzioni?
Interpretazione grafica del teorema. Il valore atteso E(X) `e l’area tratteggiata in figura.
-
6
t
t
F
X
(x)
1
t
x
1
x
2
x
3 x
Caso particolare: v.a. a valori in N.
Se A = N∪ ¦0¦, il valore atteso si pu`o calcolare come
E(X) =

k=0
P(X > k)
Dimostrazione. Per il teorema precedente E(X) `e l’area compresa tra la funzione di dis-
tribuzione e la costante 1. Se la v.a. assume valori nell’insieme dei numeri naturali
quest’area si pu`o calcolare come
E(X) =

k=0
1 (1 −F
X
(k)) =

k=0
P(X > k)
78
La figura qui sotto dimostra graficamente il teorema. Si osservi che il risultato continua
a valere se p
X
(k) = 0 per qualche (anche infiniti) k ∈ N. In figura p
X
`e nulla per
k = 0, 5, 6, 7, 8 e per ogni k ≥ 10.
-
6
t
t
t
t
t
F
X
(x)
x
1
1 2 3 4 5 6 7 8 9 10
Esempio. Media di una v.a. geometrica X ∼ G(p). Abbiamo visto all’inizio della lezione
che, per X ∼ G(p) `e P(X > k) = (1 −p)
k
. Allora
E(X) =

k=0
P(X > k) =

k=0
(1 −p)
k
=
1
1 −(1 −p)
=
1
p
A13.2 Disuguaglianza di Markov.
Teorema. Se X `e una v.a. non-negativa, per ogni a > 0
P(X ≥ a) ≤
E(X)
a
Dimostrazione. Poich´e P(X ≥ a) = 1 −F
X
(a

) `e sufficiente dimostrare che
E(X) ≥ a (1 −F
X
(a

))
Ma questa disuguaglianza `e ovvia. Vedi figura qui sotto. Se a non `e uno dei valori della
v.a. allora F
X
(a) = F
X
(a

). La figura qui sotto rappresenta questo caso. Se invece a `e
uno dei valori della v.a. allora a `e un punto di salto ed F
X
(a

) = F
X
(a) − p
X
(a). La
disuguaglianza continua a valere: tracciate la corrispondente figura.
-
6
t
t
F
X
(x)
t
x
1
x
2
x
3 x a
11
1
F
X
(a)
79
Lezione 14 (Marted`ı, 9 aprile 2013, ore 16:25-18:05)
14.1 Vettori aleatori discreti
Nel tentativo di calcolare la varianza della somma di due variabili aleatorie, X ed Y , ci
siamo imbattuti nel problema del calcolo del valore atteso E(XY ), che non `e possibile
portare a termine conoscendo solo le densit`a p
X
() e p
Y
(). In questo, come in altri
problemi pratici, `e utile disporre di una descrizione pi` u completa del comportamento di
due, o pi` u, variabili aleatorie. Allo scopo `e necessario estendere la nozione di variabile
aleatoria al caso in cui l’insieme dei valori anzich´e R `e R
2
o, pi` u in generale, R
n
.
10
Definizione ed esempi
Definizione. La mappa V : Ω → R
2
`e detta vettore aleatorio bidimensionale. Pi` u in
generale V : Ω →R
n
`e detto vettore aleatorio n-dimensionale. Le componenti del vettore
aleatorio
ω → V (ω) :=
_
_
X
1
(ω)
. . .
X
n
(ω)
_
_
sono n variabili aleatorie, ognuna con proprio alfabeto A
i
, e densit`a di probabilit`a p
X
i
().
La notazione che adotteremo usualmente per i vettori bidimensionali `e
ω → V (ω) :=
_
X
1
(ω)
Y (ω)
_
Consideriamo per lo pi` u vettori bidimensionali, poich´e il caso n-dimensionale `e un’esten-
sione banale del caso bidimensionale, a parte alcune questioni marginali che saranno
segnalate.
Insieme di valori del vettore aleatorio. In generale se A = ¦x
1
, x
2
, . . . ¦ e } = ¦y
1
, y
2
, . . . ¦
sono gli alfabeti di X ed Y rispettivamente, l’alfabeto di V = (X, Y )
¯
`e 1 ⊂ A }, dove
in generale l’inclusione `e stretta.
Esempio 1. Sullo spazio campionario Ω degli esiti del lancio di due dadi, uno Rosso ed
uno Nero, sia (X, Y ) il vettore aleatorio con X l’esito del dado Rosso, ed Y il minimo dei
due esiti. In questo caso A = } = ¦1, 2, 3, 4, 5, 6¦ e, bench´e (1, 3) ∈ A }, il vettore
(X(ω), Y (ω)) ,= (1, 3) per ogni ω ∈ Ω. In effetti 1 = ¦ (i, j) ; 1 ≤ j ≤ i ≤ 6 ¦.
Probabilizzare l’insieme dei valori del vettore aleatorio. Procedendo come per le variabili
aleatorie si osserva che, anche se l’applicazione ω → V (ω) = (X(ω), Y (ω)) non `e in
generale invertibile, esiste una corrispondenza biunivoca tra gli elementi (x
i
, y
j
) ∈ A }
e le loro anti-immagini V
(−1)
(ω) = X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
)
(x
i
, y
j
) ←→ X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
)
ed `e quindi naturale assegnare
P
t
(¦(x
i
, y
j
)¦) := P
_
X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
)
_
10
Non `e per il gusto dell’astrazione matematica che interessa generalizzare ai vettori quanto visto per
le variabili aleatorie. Al contrario, nella pratica ingegneristica lavorare con vettori aleatori `e la prassi.
Quando si progetta un esperimento, l’acquisizione dati rappresenta spesso solo una piccola frazione del
costo complessivo, si tende quindi a misurare anche centinaia di variabili, rimandando alle analisi successive
la distinzione tra variabili rilevanti per la comprensione dei fenomeni d’interesse e variabili ridondanti.
80
Notazione. Per indicare l’evento ¦ ω; X(ω) = x
i
e Y (ω) = y
j
¦, a seconda del contesto,
e senza ulteriori spiegazioni, scriveremo indifferentemente X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
), [X =
x
i
] ∩[Y = y
j
], [X = x
i
, Y = y
j
] e anche, pi` u sinteticamente, X = x
i
, Y = y
j
, specialmente
come argomento della misura di probabilit`a. Scriveremo quindi indifferentemente
P(¦ ω; X(ω) = x
i
e Y (ω) = y
j
¦) = P
_
X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
)
_
= P ([X = x
i
] ∩ [Y = y
j
])
= P(X = x
i
, Y = y
j
).
Definizione. Per il vettore aleatorio (X, Y )
p
XY
(x
i
, y
j
) := P
t
(¦(x
i
, y
j
)¦) = P(X = x
i
, Y = y
j
), (x
i
, y
j
) ∈ A }.
`e detta funzione di densit`a discreta del vettore (X, Y ), o anche densit`a congiunta delle
variabili aleatorie X e Y .
Nota Bene. Se (x
i
, y
j
) non `e uno dei valori assunti dal vettore (X, Y ), l’anti-immagine
X
(−1)
(x
i
) ∩ Y
(−1)
(y
j
) = ∅, quindi automaticamente p
XY
(x
i
, y
j
) = 0. Quando si fanno
conti su casi specifici `e per`o importante individuare l’insieme dei valori 1 di (X, Y ), come
nell’esempio qui sotto.
Esempio 1 - continuazione. Proseguendo l’esempio 1, si calcola immediatamente (vedi
appunti) la densit`a del vettore V = (X, Y ), dove X `e il risultato del dado Rosso ed Y
il minimo dei risultati dei due dadi. La rappresentazione tabulare della densit`a `e molto
comoda.
X¸Y 1 2 3 4 5 6
1
6
36
0 0 0 0 0
2
1
36
5
36
0 0 0 0
3
1
36
1
36
4
36
0 0 0
4
1
36
1
36
1
36
3
36
0 0
5
1
36
1
36
1
36
1
36
2
36
0
6
1
36
1
36
1
36
1
36
1
36
1
36
Propriet`a della densit`a congiunta di due variabili aleatorie
(a.) (nonnegativit`a)
p
XY
(x
i
, y
j
) ≥ 0, per ogni (x
i
, y
j
) ∈ A }
(b.) (normalizazione)

x
i
∈.

y
j
∈¸
p
XY
(x
i
, y
j
) = 1.
Dimostrazione. La (a.) `e banale. Per la (b.) si ricordi che (vedi Lezione xx) le anti-
immagini ¦X
−1
(x
i
)¦ ed ¦Y
−1
(y
j
)¦ formano due partizioni di Ω. Le intersezioni
11
X
−1
(x
i
)∩
Y
−1
(y
j
) formano quindi una partizione di Ω e da qui discende il risultato.
11
Prodotto di partizioni. Se |E
i
¦ ed |F
j
¦ sono due partizioni di un insieme Ω allora |E
i
∩ F
j
¦ `e una
partizione (partizione prodotto) di Ω. Dimostrazione. Presi due elementi diversi E
i
∩F
j
ed E
h
∩F
k
`e ovvio
che (E
i
∩ F
j
)

(E
h
∩ F
k
) = ∅. Inoltre
_
i,j
(E
i
∩ F
j
) =
_
i
_
j
(E
i
∩ F
j
) = [poich´e |F
j
¦ `e una partizione] =
_
i
E
i
= Ω
Non causa problemi l’eventuale presenza di insiemi vuoti nella partizione. Ci` o avviene se E
i
∩ F
j
= ∅ per
una o pi` u coppie (i, j).
81
Osservazione. Come nel caso delle analoghe propriet`a della densit`a di una singola v.a., le
propriet`a (a.) e (b.), prese insieme, sono necessarie e sufficienti affinc´e una data funzione
p(, ) sia una valida densit`a congiunta di due variabili aleatorie. Vale infatti il seguente
importante teorema (facoltativo).
Teorema di esistenza. Sia p(x
i
, y
j
) : A } →R una funzione che soddisfa le propriet`a
• p(x
i
, y
j
) ≥ 0, per ogni (x
i
, y
j
) ∈ A },

i,j
p(x
i
, y
j
) = 1,
allora esiste uno spazio di probabilit`a (Ω, T, P) e due variabili aleatorie X : Ω → R ed
Y : Ω →R tali che p
XY
(x
i
, y
j
) = p(x
i
, y
j
).
Dimostrazione. [Limitata al caso [A[ < ∞ e [}[ < ∞.] Si definisca Ω = A }. Poich´e
[Ω[ < ∞ si pu`o sempre prendere σ-algebra T = P(Ω). La misura di probabilit`a basta
assegnarla sui singleton. Se ω = (x
i
, y
j
) sia P(¦ω¦) := p(x
i
, y
j
). Le propriet`a della
funzione p(x
i
, y
j
) garantiscono che P `e una misura di probabilit`a. La v.a. X : Ω → R
`e per definizione la mappa ω = (x
i
, y
j
) → X(ω) := x
i
, ed analogamente Y `e la mappa
ω = (x
i
, y
j
) → Y (ω) := y
j
. La densit`a congiunta delle v.a. (X, Y ) `e
p
XY
(x
i
, y
j
) = P(¦ω; X(ω) = x
i
, Y (ω) = y
j
¦) = P(¦(x
i
, y
j
)¦) = p(x
i
, y
j
).
che `e quanto si doveva dimostrare.
Densit`a congiunte e marginali
Le densit`a p
X
() e p
Y
() delle componenti di V = (X, Y ), dette densit`a marginali del
vettore V , si possono ricavare dalla densit`a congiunta p
XY
(, ) usando le equazioni:
p
X
(x
i
) =

j
p
XY
(x
i
, y
j
), p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
).
Dimostrazione. (vediamo la prima)

j
p
XY
(x
i
, y
j
) =

j
P([X = x
i
] ∩[Y = y
j
]) = P(X =
x
i
) = p
X
(x
i
), poich´e ¦[Y = y
j
]¦ `e una partizione di Ω.
Osservazione importante. Se p
X
e p
Y
sono due densit`a assegnate esistono in generale
infinite densit`a congiunte p
XY
che hanno per marginali p
X
e p
Y
. Questo, nel caso di
alfabeto A } finito lo si pu`o dimostrare usando la teoria dei sistemi di equazioni lineari.
In effetti se [A[ = N e [}[ = M allora [A }[ = N M, e p
XY
`e determinato da N M−1
numeri non-negativi, minori di 1 (perch´e?). Per imporre che p
XY
abbia marginali p
X
e
p
Y
si usano le equazioni delle marginali, ovvero p
X
(x
i
) =

j
p
XY
(x
i
, y
j
) (in totale N −1
equazioni, una per ogni valore x
i
, meno 1 poich´e solo N − 1 valori p
X
sono liberi) e
p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
) (in totale M − 1 equazioni). Abbiamo dunque un sistema di
N + M − 2 equazioni LINEARI in N M − 1 incognite. Anche nel caso pi` u semplice,
N = M = 2, ci sono pi` u incognite che equazioni. In generale dunque esistono infinite
densit`a congiunte compatibili con assegnate densit`a marginali.
Valore atteso di funzioni scalari di un vettore aleatorio
Sia V = (X, Y ) un vettore aleatorio discreto e g : R
2
→ R una funzione scalare su R
2
.
Allora Z = g(V ) = g(X, Y ) `e una variabile aleatoria scalare della quale si pu`o calcolare il
valore atteso. Il teorema fondamentale del valore atteso si generalizza al caso vettoriale.
82
Teorema.
E(g(X, Y )) =

x
i
∈.

y
j
∈¸
g(x
i
, y
j
)p
XY
(x
i
, y
j
)
Dimostrazione. Poich´e g(X, Y ) `e una v.a. si pu`o usare il teorema fondamentale
E(g(X, Y )) =

ω∈Ω
g(X(ω), Y (ω)) P(¦ω¦) = poich´e ¦X
−1
(x
i
) ∩ Y
−1
(y
j
)¦ `e una partizione
=

i,j
_
_

ω∈X
−1
(x
i
)∩Y
−1
(y
j
)
g(X(ω), Y (ω)) P(¦ω¦)
_
_
=

i,j
g(x
i
, y
j
)
_
_

ω∈X
−1
(x
i
)∩Y
−1
(y
j
)
P(¦ω¦)
_
_
=

i,j
g(x
i
, y
j
) P(X
−1
(x
i
) ∩ Y
−1
(y
j
))
=

i,j
g(x
i
, y
j
) p
XY
(x
i
, y
j
).
Osservazione. Il teorema consente di calcolare il valore atteso della funzione scalare di due
variabili aleatorie g(X, Y ), usando solo l’informazione contenuta nella densit`a congiunta
p
XY
(x
i
, y
j
). Nelle applicazioni per`o abitualmente si dispone solo della densit`a congiunta,
mentre spazio (Ω, T, P) e mappe X(ω) ed Y (ω) non sono noti e/o non interessano. Sia
p(x
i
, y
j
), una funzione non-negativa e normalizzata su A }, cio`e una densit`a congiunta
valida.
`
E allora possibile calcolare

i,j
g(x
i
, y
j
)p(x
i
, y
j
). (1)
Cosa rappresenta l’espressione (1)? Usando il teorema di esistenza, si ricava che l’espres-
sione (1) `e il valore atteso E(g(X, Y )), dove X ed Y sono le variabili aleatorie definite
come nella dimostrazione del teorema di esistenza.
Due esempi fondamentali. Due casi semplici ma importanti di impiego del teorema.
(a.) g(x, y) = x +y
In questo caso il teorema fornisce
E(X +Y ) =

i,j
(x
i
+y
j
) p
XY
(x
i
, y
j
).
Esercizio obbligatorio. Dimostrare l’addittivit`a del valore atteso a partendo da qui.
(b.) g(x, y) = xy
Ancora usando il teorema,
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
)
Esempio concreto. X ed Y hanno densit`a congiunta
X¸Y 0 1
0 0.5 0.1
1 0.1 0.3
83
Il calcolo delle marginali mostra che X ed Y sono entrambe v.a. di Bernoulli b(0.4). Il
valore atteso del prodotto `e
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
) = p
XY
(1, 1) = 0.3.
L’informazione contenuta nella densit`a congiunta permette di calcolare la varianza della
somma, ricordando che var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) e che cov(X, Y ) =
E(XY ) −E(X)E(Y ). Svolgete il conticino.
Esercizio proposto 1. Costruire esempi di densit`a congiunte su ¦0, 1¦
2
, come sopra. Verifi-
care che, in generale, le due marginali sono Bernoulli di parametri diversi. Si determini la
condizione affinch´e le marginali sono entrambe Bernoulli con lo stesso parametro (rispos-
ta: p
XY
(0, 1) = p
XY
(1, 0).). Tra queste ultime densit`a congiunte si cerchino esempi con
cov(X, Y ) nulla e negativa. Deteminare la condizione sugli elementi della densit`a con-
giunta che d`a luogo a cov(X, Y ) = 0 (questa parte `e piuttosto laboriosa: la condizione `e
p
XY
(0, 0)p
XY
(1, 1) −[p
XY
(0, 1)]
2
= 0).
Esercizio proposto 2 Con riferimento alla continuazione dell’esempio 1 (vedi p. 79), si
calcoli E(XY ). Son conti della serva, noiosi e non istruttivi. Dello stesso tipo sono i conti
per determinare cov(X, Y ).
Estensione ai vettori aleatori in R
n
L’estensione della nozione di densit`a congiunta al caso di n variabili, ovvero ai vettori
aleatori ad n dimensionali, `e immediata. Se, ad esempio, V : Ω →R
3
mappa ω → V (ω) =
(X(ω), Y (ω), Z(ω)) si definisce la densit`a congiunta tridimensionale:
p
XY Z
(x
i
, y
j
, z
k
) = P(X = x
i
, Y = y
j
, Z = z
k
).
La densit`a p
XY Z
gode di propriet`a analoghe a quelle della densit`a bidimensionale:
p
XY Z
(x
i
, y
j
, z
k
) ≥ 0, per ogni i, j, k,

i,j,k
p
XY Z
(x
i
, y
j
, z
k
) = 1.
A partire dalla p
XY Z
si possono ricavare 3 densit`a marginali bidimensionali p
XY
, p
XZ
,
p
Y Z
e 3 unidimensionali, p
X
, p
Y
, p
Z
. A titolo di esempio:
p
XY
(x
i
, y
j
) =

k
p
XY Z
(x
i
, y
j
, z
k
)
p
Y Z
(y
j
, z
k
) =

i
p
XY Z
(x
i
, y
j
, z
k
)
p
Y
(y
j
) =

i,k
p
XY Z
(x
i
, y
j
, z
k
).
Viceversa, in generale non `e unica la densit`a tridimensionale p
XY Z
(x
i
, y
j
, z
k
) con le 6
densit`a marginali p
XY
, p
XZ
, p
Y Z
, p
X
, p
Y
, p
Z
assegnate.
Anche il teorema fondamentale del valore atteso si estende immediatamente al caso n-
dimensionale. Ad esempio, in R
3
,
Teorema. Sia (X, Y, Z) un vettore aleatorio di densit`a congiunta p
XY Z
e g : R
3
→R allora
E
_
g(X, Y, Z)
_
=

i,j,k
g(x
i
, y
j
, z
k
) p
XY Z
(x
i
, y
j
, z
k
)
84
14.2 Condizionamento per v.a.: motivazione
Avviene spesso che la densit`a di una v.a. o la densit`a congiunta di due o pi` u v.a. siano
pi` u facilmente calcolabili usando la regola di moltiplicazione o la formula della probabilit`a
totale. Questo comporta la necessit` a di introdurre densit`a condizionate di una v.a. rispetto
(a.) ad un evento E ⊂ Ω o (b.) ad i valori della stessa variabile aleatoria, o (c.) ad i
valori di un’altra, o di pi` u di una variabili aleatorie. Vediamo in questa e all’inizio della
prossima lezione, esempi dei tre tipi.
Esempio 1. In un’urna ci sono 2 monete truccate con P(T) =
1
5
ed una moneta onesta con
P(T) =
1
2
. L’esperimento consiste nel pescare una moneta a caso dall’urna e nel lanciarla
ripetutamente. Sia X la v.a. che indica il numero di lanci che dovr`o effettuare fino ad
ottenere la prima Testa. Determinare la densit`a della v.a. X.
Soluzione. Sarete tentati di ritenere X una v.a. geometrica. Cos`ı non `e. Siano [X
k
= 1],
k = 1, 2, . . . , gli eventi che indicano il successo (Testa) nella k−esima prova, ed E
0
=”pesco
la moneta onesta”. La v.a. ”numero di tentativi fino al primo successo” ha densit`a
geometrica se (a) P([X
k
= 1]) = p `e costante in k e (b) gli eventi [X
k
= 1], k = 1, 2, . . .
sono indipendenti. Per quanto riguarda (a), la formula della probabilit`a totale fornisce
P
_
[X
k
= 1]
_
= P
_
[X
k
= 1]
¸
¸
¸E
0
_
P(E
0
) +P
_
[X
k
= 1]
¸
¸
¸E
c
0
_
P(E
c
0
) =
1
2
1
3
+
1
5
2
3
=
3
10
,
quindi (a) `e soddisfatta. Per quanto riguarda (b) si considerino ad esempio gli eventi
[X
1
= 1] e [X
2
= 1]. Ancora dalla formula della probabilit`a totale
P
_
[X
1
= 1] ∩ [X
2
= 1]
_
=
P
_
[X
1
= 1] ∩ [X
2
= 1]
¸
¸
¸E
0
_
P(E
0
) +P
_
[X
1
= 1] ∩ [X
2
= 1]
¸
¸
¸E
c
0
_
P(E
c
0
) =
_
1
2
_
2
1
3
+
_
1
5
_
2
2
3
=
11
100
.
Per quanto visto sopra
P
_
[X
1
= 1] ∩ [X
2
= 1]
_
=
11
100
,= P
_
[X
1
= 1]
_
P
_
[X
2
= 1]
_
=
3
10
3
10
=
9
10
,
quindi gli eventi [X
1
= 1] e [X
2
= 1] non sono indipendenti, (b) non `e soddisfatta.
Abbiamo appurato che la densit`a di X non pu`o essere geometrica. Peraltro, la probabilit`a
condizionata dell’evento [X = k] (prima Testa al k−esimo lancio) dato l’evento E
0
(pesco
la moneta onesta) vale
P(X = k[E
0
) =
1
2
_
1 −
1
2
_
k−1
, k ≥ 1,
poich´e l’evento condizionante E
0
fissa la moneta e ci fa ricadere nel paradigma della
variabile geometrica, G
_
1
2
_
in questo caso.
`
E naturale introdurre la definizione di densit`a
condizionata di X dato l’evento E
0
come
p
X[E
0
(k[E
0
) := P(X = k[E
0
) =
P
_
[X = k] ∩ E
0
_
P(E
0
)
ATTENZIONE: Per il modo in cui `e formulato il problema i DATI sono p
X[E
(k[E
0
) e
p
X[E
c
0
(k[E
c
0
). Non arrivate da nessuna parte se, ad esempio, tentate di CALCOLARE
p
X[E
0
(k[E
0
) usando la definizione
P([X=k]∩E
0
)
P(E
0
)
.
85
Per questo esempio avremo quindi
p
X[E
0
(k[E
0
) =
1
2
_
1 −
1
2
_
k−1
, k ≥ 1
e analogamente
p
X[E
c
0
(k[E
c
0
) =
1
5
_
1 −
1
5
_
k−1
, k ≥ 1
La formula della probabilit`a totale infine fornisce per k ≥ 1
p
X
(k) = p
X[E
0
(k[E
0
)P(E
0
) +p
X[E
c
0
(k[E
c
0
)P(E
c
0
)
=
1
3
_
1
2
_
1 −
1
2
_
k−1
_
+
2
3
_
1
5
_
1 −
1
5
_
k−1
_
Nota bene. La v.a. X non `e geometrica, dovreste per`o essere in grado di dire quanto vale
E(X) senza far conti, solo ricordando che per una densit`a geometrica il valore atteso `e
1
p
.
Il risultato `e E(X) =
1
3
2 +
2
3
5.
86
Lezione 15 (Mercoled`ı, 10 aprile 2013, ore 16:25-18:05)
15.1 Condizionamento per v.a.: motivazione – II
Vediamo un secondo esempio di densit`a condizionata. In questo caso l’evento condizio-
nante `e generato dalla variabile aleatoria stessa.
Esempio 2. L’esperimento consiste in lanci consecutivi, indipendenti di una moneta con
P(T) = p. Con X si indica il numero di lanci fino all’uscita della prima Testa. Come noto
X ∼ G(p) e la probabilit`a di un’attesa lunga, che superi h lanci, per il primo successo `e
P(X > h) = (1 −p)
h
. Iniziamo a lanciare la moneta, ottenendo una sfilza di h insuccessi:
si `e cio`e verificato l’evento X > h e non ha pi` u alcun interesse parlare della sua probabilit`a.
Ha senso invece, e riviste grande interesse, rivalutare la probabilit`a di attesa lunga, che
superi k + h lanci, tenendo conto che si `e verificato X > h. Formalmente ci stiamo
chiedendo: quanto vale la probabilit`a condizionata P(X > k + h[X > h)? La risposta `e
semplice
P(X > k +h[X > h) =
P([X > k +h] ∩ [X > h])
P(X > h)
=
P(X > k +h)
P(X > h)
=
(1 −p)
k+h
(1 −p)
h
= (1 −p)
k
= P(X > k)
Abbiamo ottenuto un risultato in apparenza sorprendente e che si pu`o leggere come segue.
La rivalutazione della probabilit`a di dover attendere per pi` u di k lanci il primo successo,
cominciando a contare i k lanci dopo aver osservato una sfilza di h ≥ 1 insuccessi (equivale
ad attesa maggiore di k + h lanci contando dall’inizio), `e costante in h ed `e uguale alla
probabilit`a di dover attendere pi` u di k lanci a partire dall’inizio dell’esperimento. Con
linguaggio pittoresco si dice che la variabile aleatoria geometrica `e priva di memoria.
12
Riformulazione in termini di densit`a. Il precedente risultato si pu`o formulare in modo
alternativo introducendo la nozione di densit`a condizionata della variabile aleatoria X,
dato l’evento X > h. Si procede come segue.
p
X[[X>h]
(k) := P(X = k[X > h) =
P
_
[X = k] ∩ [X > h]
_
P(X > h)
, k ∈ Z
Osservando che (a.)[X = k] ∩ [X > h] = [X = k] se k > h, mentre [X = k] ∩ [X > h] = ∅
se k ≤ h, (b.) P(X > k) = (1 −p)
k
, (c.) P(X = k) = (1 −p)
k−1
p1l(k −1), si ha
p
X[[X>h]
(k) =
_
¸
_
¸
_
P(∅)
P(X>h)
= 0, se k ≤ h,
P(X=k)
P(X>h)
= (1 −p)
k−h−1
p, se k > h.
In forma compatta, il risultato si scrive
p
X[[X>h]
(k) = p
X
(k −h), k ∈ Z,
12
Questo risultato decreta l’inescusabile imbecillit` a di quei giocatori che puntano quattrini con maggiore
accanimento sui numeri cosiddetti ritardatari. Poich´e E(X) = 18 il giocatore si aspetta che ognuno dei 90
numeri si ripresenti in media ogni 18 estrazioni. Se l’attesa di un particolare numero si protrae, e.g. X > h
con h circa 60-70, i giocatori vanno in allerta. Quando poi h > 100 si scatena la follia collettiva.
`
E celebre
il caso del 53 sulla ruota di Venezia che aveva accumulato un ritardo di 182 estrazioni causando la rovina
economica di pi` u di qualcuno e, ancora pi` u estremo, l’8 sulla ruota di Roma arrivato dopo un’attesa di 201
estrazioni.
87
Teorema. La densit`a geometrica `e l’unica densit`a sull’alfabeto N che gode della propriet`a
di assenza di memoria.
Dimostrazione. Sia W una qualunque variabile aleatoria a valori in N. La propriet`a di
assenza di memoria equivale a
P(W > k +h[W > h) =
P(W > k +h)
P(W > h)
= P(W > k) (1)
Definiamo f(k) := P(W > k) allora la condizione (1) si scrive
f(k +h) = f(k)f(h)
Questa relazione di ricorrenza determina la forma funzionale di f. Infatti, posto q := f(1),
si trova f(2) = f(1 + 1) = f(1)f(1) = q
2
, f(3) = f(2 + 1) = f(2)f(1) = q
3
e procedendo
iterativamente f(k) = q
k
. Poich´e q `e una probabilit`a q ∈ [0, 1], quindi anche p = 1 − q ∈
[0, 1]. Utilizzando il parametro p la soluzione dell’equazione di ricorrenza si riscrive
P(W > k) = f(k) = (1 −p)
k
,
da cui immediatamente discende che
p
W
(k) = P(W > k −1) −P(W > k) = f(k −1) −f(k) = (1 −p)
k−1
p
ma questa `e proprio la densit`a G(p) Abbiamo dimostrato che se la densit`a della v.a. W
non ha memoria allora `e necessariamente W ∼ G(p) per qualche p ∈ [0, 1].
Esempio 3. Il terzo esempio riguarda il caso in cui `e noto a priori che si sono verificati
eventi generati da una variabile aleatoria Y , e se ne vuol tenere conto nel calcolo della
densit`a di un’altra v.a. X. Passiamo direttamente alle definizioni rimandando gli esempi
pratici al seguito.
15.2 Densit`a condizionate
Definizione. Siano X ed Y variabili aleatorie di densit`a congiunta p
XY
(x
i
, y
j
). Per ogni y
j
tale che p
Y
(y
j
) > 0, la densit`a condizionata di X, dato l’evento [Y = y
j
] `e
p
X[Y
(x
i
[y
j
) := P(X = x
i
[Y = y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
Attenzione. Non bisogna farsi fuorviare dalla terminologia. Per quanto `e noto, la proba-
bilit`a condizionata P(E[F) `e una misura rispetto all’evento di sinistra, ad evento di destra
fissato. Per la densit`a condizionata questo si traduce in: la p
X[Y
(x
i
[y
j
) `e una densit`a su
A per ogni y
j
fissato, ovvero i numeri p
X[Y
(x
i
, y
j
) soddisfano alle condizioni
p
X[Y
(x
i
[y
j
) ≥ 0,

i
p
X[Y
(x
i
[y
j
) = 1.
I numeri p
X[Y
(x
i
[y
j
) non costituiscono invece una densit`a su }, n´e tantomeno una densit`a
congiunta su A }, ifatti essi sono positivi, ma la loro somma pu`o essere maggiore di 1.
Microesercizio: supponendo che [A[ = N e [}[ = M, calcolare

i,j
p
X[Y
(x
i
[y
j
).
Come visto anche in precedenza, alcuni dei dati di un problema pratico si presentano
spesso sotto forma di probabilit`a condizionate.
13
Ad esempio potrebbero essere dati del
13
Il prototipo di questa situazione `e l’Esempio 2 della Sezione 6.3, dove sono naturalmente modellati
come probabilit`a condizionate i dati forniti dall’ufficio acquisti, che forniscono le probabilit` a di difetto dei
chip di memoria, per ognuna delle aziende produttrici
88
problema la densit`a condizionata p
X[Y
(x
i
[y
j
) e la densit`a p
Y
(y
j
). In questo caso continua
a valere la relazione
p
X[Y
(x
i
[y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p
XY
(x
i
, y
j
)
p
Y
(y
j
)
,
che pu`o essere utilizzata per ricavare la densit`a congiunta p
XY
(x
i
, y
j
). La formula della
probabilit`a totale e quella di marginalizzazione sono naturalmente collegate tra loro e si
possono usare per ricavare la densit`a p
X
(x
i
), infatti
p
X
(x
i
) =

j
p
XY
(x
i
, y
j
) =

j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
).
Infine `e ovvia la formula di Bayes per la densit`a condizionata a posteriori
p
Y [X
(y
j
[x
i
) =
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
p
X
(x
i
)
=
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)

j
p
X[Y
(x
i
[y
j
)p
Y
(y
j
)
Le precedenti formule si possono scrivere invertendo i ruoli di X ed Y , in questo caso i
dati sono la densit`a condizionata p
Y [X
(y
j
[x
i
) e la densit`a p
X
(x
i
). La p
Y
(y
j
) allora `e
p
Y
(y
j
) =

i
p
XY
(x
i
, y
j
) =

i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
e, con la formula di Bayes, si determina la densit`a condizionata a posteriori
p
X[Y
(x
i
[y
j
) =
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
p
Y
(y
j
)
=
p
Y [X
(y
j
[x
i
)p
X
(x
i
)

i
p
Y [X
(y
j
[x
i
)p
X
(x
i
)
15.3 Variabili aleatorie indipendenti.
Definizione. L’insieme di v.a. ¦X, Y ¦ di densit`a congiunta p
XY
(x
i
, y
j
) `e indipendente se
p
XY
(x
i
, y
j
) = p
X
(x
i
)p
Y
(y
j
), per ogni (x
i
, y
j
) ∈ A }
Terminologia e notazioni.
`
E invalso l’abuso ”le v.a. X ed Y sono indipendenti” invece del
corretto ”l’insieme ¦X, Y ¦ `e indipendente”. Per indicare che X ed Y sono indipendenti si
usa a volte il simbolo X ⊥⊥ Y .
Esempio. Si consideri il vettore aleatorio V = (X, Y ) a valori nell’insieme 1 ⊂ A }, e
si supponga che la densit`a congiunta p
XY
(x
i
, y
j
) sia uniforme su 1. La domanda `e: le
variabili aleatorie X ed Y sono indipendenti? La risposta `e: se 1 `e strettamente incluso
in A } le variabili X ed Y non sono indipendenti, se 1 = A } le variabili X ed Y
sono indipendenti. Esercizio. Spiegare la risposta.
Lemma. Le v.a. X e Y sono indipendenti se e solo se le v.a. f(X), e g(Y ) sono indipendenti
per ogni coppia di funzioni f, g : R →R.
Dimostrazione. Assumiamo che X e Y siano indipendenti e siano f e g due funzioni
assegnate. Si definiscano le variabili aleatorie U := f(X) e V := g(Y ). Si deve allora
dimostrare che U, e V sono indipendenti. La densit`a congiunta di ¦U, V ¦ `e
p
UV
(u
h
, v
k
) =

i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
XY
(x
i
, y
j
) =

i,j
f(x
i
)=u
h
g(y
j
)=v
k
p
X
(x
i
)p
Y
(y
j
)
=
_

i
f(x
i
)=u
h
p
X
(x
i
)
_ _

j
g(y
j
)=v
k
p
Y
(y
j
)
_
= p
U
(u
h
)p
V
(v
k
).
89
L’altra direzione del lemma `e banale, `e sufficiente prendere f, e g funzioni identit`a.
Osservazione. Questo lemma `e la versione per le coppie di v.a. dell’equivalenza delle
affermazioni E ⊥⊥ F, E
c
⊥⊥ F, E ⊥⊥ F
c
, E
c
⊥⊥ F
c
per gli eventi dimostrata in precedenza.
[elaborare]
Teorema A. Se X e Y sono variabili aleatorie indipendenti allora
E(XY ) = E(X)E(Y )
Dimostrazione. Per calcolo diretto
E(XY ) =

i,j
x
i
y
j
p
XY
(x
i
, y
j
)
=

i,j
x
i
y
j
p
X
(x
i
)p
Y
(y
j
)
=

i
x
i
p
X
(x
i
)

j
y
j
p
Y
(y
j
) = E(X)E(Y ).
Osservazione.
`
E interessante osservare che, se le v.a. X ed Y sono indipendenti ed inoltre
E([X[) < ∞ e E([Y [) < ∞ allora sicuramente E([XY [) < ∞, infatti
E([XY [) =

i,j
[x
i
y
j
[ p
XY
(x
i
, y
j
)
=

i,j
[x
i
[ [y
j
[ p
X
(x
i
)p
Y
(y
j
) = E([X[)E([Y [).
In prosa: le condizioni E([X[) < ∞ e E([Y [) < ∞, che garantiscono l’esistenza del valore
atteso di X e di Y , sono sufficienti a garantire l’esistenza del valore atteso della v.a. XY .
Corollario del Teorema A. Se X e Y sono indipendenti allora
cov(X, Y ) = E(XY ) −E(X)E(Y ) = 0
Corollario del Corollario
14
Se X e Y sono indipendenti allora
var(X +Y ) = var(X) + var(Y )
Dimostrazione. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), ma se X ed Y sono
indipendenti cov(X, Y ) = 0.
Osservazione sul Teorema A. Applicando il teorema fondamentale del valore atteso e sin-
istra e a destra del risultato del Teorema A se ne trova un’espressione alternativa su Ω.
Mettiamo a confronto le due espressioni.

i,j
x
i
y
j
p
XY
(x
i
, y
j
) =

i
x
i
p
X
(x
i
)

j
y
j
p
Y
(y
j
)

ω
X(ω)Y (ω) P(¦ω¦) =

ω
X(ω) P(¦ω¦)

ω
Y (ω) P(¦ω¦)
14
La validit` a della relazione var(X+Y ) = var(X)+var(Y ) `e una manifestazione del teorema di Pitagora,
un tema ricorrente di questo semestre. In Segnali e Sistemi lo chiamano ”formula di Parseval”. Le
apparizioni di Pitagora sono sempre legate alla geometria dell’ortogonalit` a rispetto ad un prodotto interno
definito in uno spazio vettoriale. In probabilit` a e in teoria dei segnali gli spazi vettoriali sono funzionali,
ovvero i ”vettori” sono funzioni : segnali ad energia finita nel caso di Segnali e Sistemi, variabili aleatorie
a varianza finita in probabilit` a. Riprenderemo l’interpretazione geometrica pi` u avanti.
90
Terminologia, notazioni, osservazioni. Leggere con estrema attenzione!
Il valore atteso E(XY ) `e detto correlazione delle variabili aleatorie X e Y . Se E(XY ) =
E(X)E(Y ) le v.a. X ed Y si dicono scorrelate, altrimenti si dicono correlate. Il simbolo
X ⊥ Y denota v.a. X e Y scorrelate. Non si confonda ⊥ con ⊥⊥ che denota indipendenza.
Poich´e vale il Teorema A, X ⊥⊥ Y implica X ⊥ Y . Non vale il viceversa.
Esercizio obbligatorio. Si consideri la densit`a congiunta di figura, uniforme sui quattro
punti dove `e concentrata. Quindi
(0,1)
(0,-1)
(-1,0)
(1,0)
x
y
p
XY
(0, 1) = p
XY
(1, 0) = p
XY
(0, −1) = p
XY
(−1, 0) =
1
4
.
Verificare che le corrispondenti variabili aleatorie X ed Y sono scorrelate, ma non indipen-
denti.
La nozione di scorrelazione isola la pi` u utile conseguenza dell’indipendenza, E(XY ) =
E(X)E(Y ), e la erige a definizione. L’esempio qui sopra dimostra che `e utile definire la
nozione di scorrelazione visto che esistono coppie di variabili aleatorie scorrelate ma non
indipendenti. Sono banali conseguenze delle definizioni e delle propriet`a elementari di
varianza e covarianza le seguenti affermazioni
micro-lemma: X ⊥ Y se e solo se cov(X, Y ) = 0.
micro-lemma: Se X ⊥ Y allora var(X +Y ) = var(X) + var(Y ).
Indipendenza di insiemi di variabili aleatorie
Definizione. L’insieme di v.a. ¦X
1
, X
2
, . . . X
n
¦ `e detto indipendente se
p
X
1
X
2
...X
n
(x
1
, x
2
, . . . x
n
) = p
X
1
(x
1
)p
X
2
(x
2
) . . . p
X
n
(x
n
), per ogni x
1
, . . . , x
n
Lemma.
(a.) Se l’insieme ¦X
i
¦
n
i=1
`e indipendente allora le v.a. ¦X
i
¦
n
i=1
sono scorrelate a coppie.
(b.) Se le v.a. ¦X
i
¦
n
i=1
sono scorrelate a coppie allora var (

n
i=1
X
i
) =

n
i=1
var(X
i
)
Dimostrazione. (a.) Per ipotesi ¦X
i
¦
n
i=1
sono indipendenti quindi ¦X
i
, X
j
¦ con i ,= j
sono indipendenti, da cui la conclusione. (b.) Sviluppando algebricamente var(

i
X
i
) si
trova che in generale var(

i
X
i
) =

i
var(X
i
) +

i,j
cov(X
i
, X
j
). Se le v.a. ¦X
i
¦ sono
scorrelate a coppie la conclusione segue.
Osservazione. Il teorema A, ed i suoi corollari, mostrano perch´e `e particolarmente conve-
niente lavorare con variabili aleatorie indipendenti. Peraltro in molte situazioni pratiche,
91
e specificamente nei casi di prove ripetute, `e ragionevole rappresentare i risultati speri-
mentali con variabili aleatorie indipendenti. Ad esempio, il contesto della binomiale per
eventi `e modellabile con n variabili aleatorie b(p) indipendenti. La verifica formale di
questa affermazione sar`a molto facile nella seconda parte del corso, quando disporremo di
strumenti pi` u avanzati.
Applicazione: calcolo della varianza di una Binomiale Sia X ∼ Bin(n, p). Interpretando la
v.a. binomiale come somma di n v.a. b(p) indipendenti (vedi osservazione sopra) si ricava
immediatamente var(X) = np(1 −p).
Domanda critica Come mai per definire l’indipendenza di, poniamo, tre v.a. X, Y, Z non
abbiamo seguito la stessa strada che era stato necessario seguire per definire l’indipendenza
di tre eventi? Non abbiamo cio`e richiesto anche l’indipendenza delle coppie X, Y , X, Z e
Y, Z oltre a chiedere che p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
). La risposta `e che, per le
v.a, imponendo p
XY Z
(x
i
, y
j
, z
k
) = p
X
(x
i
)p
Y
(y
j
)p
Z
(z
k
) l’indipendenza delle coppie segue
dalle regole di marginalizzazione.
Esercizio svolto in aula
In un gioco d’azzardo si paga 1 euro per partecipare e giocare contro il banco. La prob-
abilit`a di vincere `e p. Se il gioco `e onesto, qual `e la somma x che il partecipante deve
ricevere in caso di vincita?
Nota bene. Il gioco `e onesto, se il ricavo medio che si ottiene giocando `e nullo, sia per il
banco che per il partecipante.
Soluzione. Indichiamo con R la variabile aleatoria che indica il ricavo del partecipante.
Il ricavo pu`o prendere due soli valori. Se vince il banco R = −1, se vince il partecipante
R = x, dove x `e la somma da determinare. La densit`a della v.a. R `e p
R
(−1) = 1 − p e
p
R
(x) = p quindi R ha valore atteso
E(R) = (−1) (1 −p) +x p,
ed imponendo la condizione E(R) = 0 si trova
x =
1 −p
p
Ad esempio se state giocando a Testa o Croce con il banco, usando una moneta onesta,
e pagando 1 euro per indovinare il risultato del singolo lancio, la somma che un banco
onesto vi paga quando indovinate la faccia uscita `e
x =
1 −0.5
0.5
= 1 euro
che `e in accordo con l’intuizione.
Se invece puntate 1 euro su un’ambata al Lotto, poich´e la probabilit`a di successo `e p =
1
18
la somma che dovreste ricevere `e
x =
1 −
1
18
1
18
= 17 euro
FYI: in Italia, in caso di vincita, portate a casa 10.56 euro.
92
Lezione 16 (Luned`ı, 15 aprile 2013, ore 10:30-12:15)
16.1 Spazi di probabilit`a generali
Come abbiamo visto nella Lezione 1, in molti casi lo spazio campionario Ω non `e discreto.
Questo avviene, ad esempio, ogni qual volta gli esiti dell’esperimento sono i possibili valori
di grandezze fisiche inerentemente continue: masse, lunghezze, tempi ecc.
`
E necessario ricorrere a spazi campionari non discreti anche quando si voglia modellare
probabilisticamente infinite prove ripetute di un esperimento con un numero finito di
esiti. Ad esempio, Ω := ¦0, 1¦
N
, l’insieme di tutte le sequenze infinite di bit, modella i
possibili risultati di infiniti lanci di una moneta. Su tale Ω si possono costruire in modo
naturale una variabile aleatoria geometrica, oppure una sequenza di variabili aleatorie di
Bernoulli. Per convincersi che Ω = ¦0, 1¦
N
non `e discreto si osservi che ogni sequenza
infinita di bit `e l’espansione binaria di un numero reale nell’intervallo [0, 1], quindi [Ω[ =
[R[. Tradizionalmente [R[ `e detta cardinalit`a del continuo, quindi diremo che Ω ha la
cardinalit`a del continuo o, pi` u brevemente, che Ω `e continuo.
Lo sviluppo della teoria della probabilit`a su spazi continui richiede strumenti di Analisi
Matematica (teoria della misura) che non `e il caso di mettere in campo in un corso in-
troduttivo. In questa lezione ci limiteremo a dare un inquadramento generale, mettere in
evidenza alcune delle difficolt`a e sviluppare, in modo rigoroso, un sottoinsieme della teoria
sufficiente per le applicazioni meno sofisticate.
La teoria continua non differisce nell’impianto dalla teoria discreta sviluppata finora. Uno
spazio di probabilit`a `e una terna (Ω, T, P) dove Ω `e un insieme astratto (spazio campi-
onario), T una σ−algebra di sottoinsiemi di Ω (eventi) e P una misura di probabilit`a. Non
ripetiamo n´e la definizione di σ−algebra, n´e gli assiomi di P, che abbiamo gi`a presentato
nella loro forma pi` u generale.
Continuit`a di P
`
E una conseguenza elementare degli assiomi particolarmente utile quando si trattano spazi
continui.
Teorema. (Continuit`a della misura di probabilit`a)
(a.) Se ¦E
n
¦ `e una sequenza crescente di eventi, cio`e E
n
⊂ E
n+1
per ogni n ≥ 1, allora
P
_

_
n=1
E
n
_
= lim
n
P(E
n
)
(b.) Se ¦E
n
¦ `e una sequenza decrescente di eventi, cio`e E
n+1
⊂ E
n
per ogni n ≥ 1, allora
P
_

n=1
E
n
_
= lim
n
P(E
n
)
Dimostrazione. (a.) Usiamo la decomposizione disgiunta, valida per ogni sequenza E
n
,

_
n=1
E
n
=

_
n=1
F
n
93
dove F
1
= E
1
ed F
n
:= E
n
¸

n−1
k=1
E
k
per n ≥ 2. Gli eventi F
n
sono disgiunti, inoltre per
costruzione

n
k=1
E
k
=

n
k=1
F
k
per ogni n. Poich´e in questo caso, gli E
n
sono crescenti
per ipotesi `e anche E
n
=

n
k=1
E
k
=

n
k=1
F
k
. Vale la seguente catena di uguaglianze
P
_

_
n=1
E
n
_
= P
_

_
n=1
F
n
_
=

k=1
P(F
k
) = lim
n
n

k=1
P(F
k
) = lim
n
P
_
n
_
k=1
F
k
_
= lim
n
P(E
n
)
(b.) Si dimostra in modo analogo oppure si fa uso della legge di de Morgan per esprimere
l’intersezione, passando alla sequenza degli eventi complementari che soddisfano le ipotesi
per l’applicazione di (a.).
Osservazione. Se ¦E
n
¦ `e una sequenza monotona crescente di eventi `e naturale definire
lim
n
E
n
:= ∪

n=1
E
n
, che si verifica se e solo se si verifica almeno uno degli E
n
. Se ¦E
n
¦ `e
monotona decrescente lim
n
E
n
:= ∩

n=1
E
n
, che si verifica se si verificano tutti gli E
n
. Il
lemma di continuit`a della probabilit`a si pu`o allora riformulare come segue.
Lemma (riformulato). Se E
n
`e una sequenza monotona (crescente o decrescente) di eventi
allora
lim
n→∞
P(E
n
) = P
_
lim
n→∞
E
n
_
.
Perch´e questa propriet`a `e detta continuit`a di P? Perch´e, nella versione riformulata,
`e evidente la somiglianza con l’analoga propriet`a delle funzioni reali di variabile reale.
Richiamo: la funzione f : R →R `e continua in x se e solo se, per ogni sequenza x
n
→ x,
lim
n→∞
f(x
n
) = f(x) = f
_
lim
n→∞
x
n
_
.
Difficolt`a legate agli spazi campionari non discreti
Come noto, nel caso discreto la misura di probabilit`a si pu`o assegnare specificando P(¦ω¦)
per ogni ω ∈ Ω. Ogni tentativo di assegnare una misura di probabilit`a tale che P(¦ω¦) > 0
per ogni ω in un insieme Ω non numerabile `e destinato a fallire.
15
Una possibile strategia per la definizione di P nel caso continuo consiste in (1.) scelta
di una σ-algebra T = σ((), dove ( `e una classe di eventi elementari e σ(() la σ-algebra
generata di (, ovvero la famiglia di eventi che si ottiene effettuando sequenze numerabili
di operazioni di unione e complementazione sugli elementi di (; (2.) assegnazione di P(C),
per ogni C ∈ (; (3.) estensione di P a tutta σ((), nel rispetto degli assiomi.
La strategia appena delineata `e efficace, ma i dettagli tecnici sono piuttosto intricati.
Diremo appena qualche parola in pi` u solo per il caso, fondamentale, in cui Ω = R.
Scelta della σ−algebra su R
Quando si deve definire una misura di probabilit`a su R, la σ−algebra che pi` u comunemente
si considera `e la σ−algebra B(R) di Borel, ovvero la minima σ−algebra che contiene gli
aperti di R.
`
E utile sapere che B(R) coincide con la σ−algebra generata dalla classe delle
semirette chiuse I
x
:= (−∞, x]. Questo, come vedremo, semplifica di molto l’assegnazione
di una misura di probabilit`a su R.
15
Sia P(|ω¦) > 0, assegnata per ogni ω ∈ Ω non numerabile. Si definisca la sequenza di eventi monotona
crescente Ω
n
:=
_
ω ∈ Ω; P(|ω¦) >
1
n
_
. Naturalmente Ω =

n≥2

n
e quindi esiste n
0
≥ 2 tale che Ω
n
0
non `e numerabile – infatti una unione numerabile di insiemi numerabili `e numerabile, mentre per ipotesi
Ω non lo `e. Fissato un intero M, grande a piacere, esistono allora almeno Mn
0
elementi distinti in Ω
n
0
e quindi, vista la definizione di Ω
n
0
, P(Ω
n
0
) ≥ Mn
0
1
n
0
= M. Si ha quindi P(Ω
n
0
) = ∞ e a fortiori
P(Ω) ≥ P(Ω
0
) = ∞.
Equivalentemente si pu` o dire che, qualunque sia la famiglia di numeri reali strettamente positivi |x
ω
¦
ω∈Ω
la somma

ω∈Ω
x
ω
= ∞. Questo `e in forte contrasto con il caso numerabile in cui esistono infinite sequenze
strettamente positive |x
n
¦
n∈N
tali che

n∈N
x
n
< ∞.
94
Lemma. B(R) = σ(I
x
).
Dimostrazione. I
x
∈ B(R) per ogni x ∈ R, infatti I
x
= (x, ∞)
c
∈ B(R), quindi σ(I
x
) ⊂
B(R). Per dimostrare l’altra direzione, ovvero che B(R) ⊂ σ(I
x
) ricordiamo che ogni
aperto di R `e unione, al pi` u numerabile, di intervalli aperti (a, b), con −∞ ≤ a ≤ b ≤ ∞.
`
E sufficiente dimostrare che, con operazioni numerabili su insiemi del tipo I
x
, si possono
ottenere tutti gli intervalli aperti (a, b). Ad esempio, nel caso −∞ < a < b < ∞,
(a, b) =
_

_
n=1
I
b−
1
n
_
∩ I
c
a
.
Completate la dimostrazione considerando gli altri tre tipi di intervalli aperti (−∞, b),
(a, ∞) e (−∞, ∞).
Osservazione. A margine si osservi che, per ogni x ∈ R il singleton ¦x¦ ∈ B(R), infatti
¦x¦ =


n=1
(x −
1
n
, x +
1
n
).
In virt` u del Lemma appena dimostrato, dovendo specificare una misura Q su (R, B(R))
baster`a assegnare Q sugli elementi I
x
per ogni x ∈ R, un compito molto pi` u semplice, che
affronteremo qui sotto, per definire le distribuzioni delle variabili aleatorie continue.
Variabili aleatorie
Definizione. Una variabile aleatoria definita sullo spazio di probabilit`a (Ω, T, P) `e una
funzione
X : Ω →R
che soddisfa la condizione di misurabilit`a, tale cio`e che
X
−1
(B) := ¦ω : X(ω) ∈ B¦ ∈ T, per ogni B ∈ B(R).
Lemma. La funzione X : Ω → R `e una variabile aleatoria (soddisfa cio`e la condizione di
misurabilit`a) se e solo se, per ogni I
x
:= (−∞, x],
X
−1
(I
x
) := ¦ω : X(ω) ≤ x¦ ∈ T.
Dimostrazione. Poich´e gli insiemi I
x
generano la σ−algebra B(R) e, per ipotesi, X
−1
(I
x
) ∈
T per ogni I
x
, intuitivamente la condizione sulle anti-immagini si estende a tutta la
σ−algebra B(R). Tralasceremo i dettagli.
Misura indotta da una v.a. X su (R, B(R))
Come nel caso discreto, di una variabile aleatoria X non interessa la definizione funzionale
X : Ω →R, quanto la possibilit`a di calcolare le probabilit`a di eventi nello spazio dei valori
R. Ad esempio, qual `e la probabilit` a che una tensione di rumore, modellata come variabile
aleatoria, sia nell’intervallo [−0.35, 0.70]µV ? Nel caso generale lo spazio dei valori di X
non `e discreto, ma `e tutto R (o comunque un suo sottoinsieme non numerabile). Come si
specifica la misura sullo spazio dei valori R in modo che essa sia compatibile con quella
nello spazio di partenza (Ω, T, P)? Nel caso discreto, per trasportare la misura P da
(Ω, T, P) a (A, P(A), P
t
), avevamo sfruttato la corrispondenza biunivoca x
i
⇔ X
(−1)
(x
i
)
che conduce alla naturale definizione P
t
(¦x
i
¦) := P
_
X
(−1)
(x
i
)
_
. Nel caso continuo si
adotta/adatta la stessa idea.
La v.a. X induce una misura P
X
sullo spazio (R, B(R)), compatibile con la misura P dello
spazio di partenza (Ω, T, P) assegnando, per ogni B ∈ B(R),
P
X
(B) := P(X
−1
(B)).
95
La condizione di misurabilit`a garantisce che la misura P
X
sia ben definita, poich´e X
−1
(B) ∈
T garantisce che P(X
−1
(B)) `e ben definita. La dimostrazione del fatto che P
X
`e una
misura di probabilit`a `e basata sull’identit`a X
−1
(

n
E
n
) =

n
X
−1
(E
n
). Tralasceremo
questi dettagli.
Poich´e σ(I
x
) = B(R) `e sufficiente assegnare la misura P
X
sugli eventi I
x
che generano la
σ−algebra B(R), basta cio`e assegnare
P
X
(I
x
) := P(X
−1
(I
x
)) = P(¦ω; X(ω) ≤ x¦) = P(X ≤ x), ∀ x ∈ R.
Ma questa `e una vecchia conoscenza dal caso discreto, F
X
(x) := P(X ≤ x) `e la funzione
di distribuzione di X.
La conclusione di maggior interesse applicativo `e che, se X `e una variabile aleatoria con-
tinua, per assegnare completamente la misura di probabilit`a sullo spazio dei suoi valori R,
basta assegnare F
X
(x) per ogni x ∈ R.
Funzione di distribuzione di una variabile aleatoria
Rivediamo le propriet`a di F
X
(x), gi`a note dal caso discreto, estendendo le dimostrazioni
per includere anche il caso continuo laddove necessario.
Definizione (funzione di distribuzione, FdD)
F
X
(x) := P(X
−1
(I
x
)) = P(X ≤ x), per ogni x ∈ R.
Propriet`a della FdD.
(i.) monotonia
La FdD `e monotona non decrescente, cio`e per ogni x ≤ x
t
si ha
F
X
(x) ≤ F
X
(x
t
),
infatti, se x ≤ x
t
, si ha I
x
⊂ I
x
, da cui
X
−1
_
I
x
_
⊂ X
−1
_
I
x

_
e, per la monotonia della probabilit`a,
F
X
(x) = P
_
X
−1
(I
x
)
_
≤ P
_
X
−1
(I
x
)
_
= F
X
(x
t
).
(ii.) normalizzazione
La FdD soddisfa i seguenti limiti
lim
x→−∞
F
X
(x) = 0, lim
x→∞
F
X
(x) = 1,
infatti, I
x
↓ ∅ per x ↓ −∞, quindi X
(−1)
(I
x
) ↓ ∅ e, per la continuit`a della probabilit`a,
lim
x→−∞
F
X
(x) = lim
x→−∞
P
_
X
−1
(I
x
)
_
= P(∅) = 0. Analogamente si dimostra il limite
per x → ∞.
(iii.) continuit`a da destra
La FdD `e una funzione continua da destra, cio`e per ogni x ∈ R si ha
lim
h→0
+
F
X
(x +h) = F
X
(x),
il che discende ancora dalla continuit`a della probabilit`a e dal fatto che al tendere di h a 0
per valori positivi I
x+h
→ I
x
e quindi X
−1
(I
x+h
) → X
−1
(I
x
).
96
(iv.) limite da sinistra
La continuit`a da sinistra della FdD non `e garantita ma la funzione F
X
ammette limiti da
sinistra infatti, per h ↓ 0 vale
I
x−h
= (−∞, x −h] ↑ (−∞, x) ⊂ (−∞, x] = I
x
quindi
F
X
(x−) := lim
h↓0
F
X
(x −h) ≤ F
X
(x)
Se la diseguaglianza `e verificata come eguaglianza la funzione F
X
(x) `e continua in x. In
caso contrario, la funzione presenta in x una discontinuit`a di prima specie, cio`e un salto.
Per la continuit`a della probabilit`a,
lim
h↓0
F
X
(x −h) = lim
h↓0
P(X ≤ x −h)
= P
_
lim
h↓0
[X ≤ x −h]
_
= P(X < x),
quindi l’ampiezza dell’eventuale salto in x vale
F
X
(x) −F
X
(x−) = P(X ≤ x) −P(X < x) = P(X = x)
(v.) numerabilit` a dell’insieme dei salti - facoltativo
La FdD, nel caso discreto `e costante a tratti, con salti, in corrispondenza dei valori x
i
assunti dalla v.a.,
di ampiezza pari alla densit` a p
X
(x
i
). Nel caso di FdD di v.a. come la Poisson o la geometrica l’insieme
dei salti `e infinito numerabile.
`
E una semplice conseguenza della monotonia e della limitatezza che, anche
nel caso generale, la FdD ha un insieme di salti al pi` u numerabile.
Lemma. L’insieme dei punti di salto di una FdD, se non `e vuoto, `e al pi` u numerabile.
Dimostrazione. Ammesso che x
1
< x
2
siano due punti di salto di F
X
(x), si ha
F
X
(x
1
−) < F
X
(x
1
) ≤ F
X
(x
2
−) < F
X
(x
2
)
di modo che esistono due numeri razionali distinti q
1
e q
2
tali che q
1
< q
2
e
F
X
(x

1
) < q
1
< F
X
(x
1
), F
X
(x

2
) < q
2
< F
X
(x
2
).
Pertanto `e possibile porre in corrispondenza biunivoca i punti di salto con un sottoinsieme (al pi` u numer-
abile!) di numeri razionali.
(vi.) probabilit`a degli intervalli
Dalla definizione della FdD e dalle sue propriet`a si ha che, a partire da F
X
(x), si possono
calcolare le probabilit`a di interesse relative alla variabile aleatoria. Ad esempio, per gli
intervalli, se −∞ ≤ a ≤ b ≤ ∞,
P(X > a) = 1 −P(X ≤ a) = 1 −F
X
(a)
P(a < X ≤ b) = P(X ≤ b) −P(X ≤ a) = F
X
(b) −F
X
(a)
P(a ≤ X ≤ b) = P(X ≤ b) −P(X < a) = F
X
(b) −F
X
(a

).
97
Esempio di funzione di distribuzione
x
1
x
2
x
3
x
4
x
F
X
(x)
1
Commenti. Nei punti x
2
, x
3
, e x
4
la FdD presenta salti, dunque le probabilit`a P(¦x
2
¦),
P(¦x
3
¦), e P(¦x
4
¦) sono strettamente positive e pari alle rispettive ampiezze dei salti. In
ogni altro x ∈ R `e P(¦x¦) = 0. La probabilit`a P(x
1
≤ X < x
2
) = 0 poich´e nell’intervallo
[x
1
, x
2
) la FdD `e costante. Si noti che, a differenza del caso discreto la FdD non `e costante
a tratti.
98
Lezione 17 (Marted`ı, 16 aprile 2013, ore 16:25-18:05)
17.1 Variabili aleatorie assolutamente continue
Definizione. La v.a. X : Ω →R, di funzione di distribuzione F
X
(x), si dice assolutamente
continua se esiste una funzione f
X
: R → [0, ∞), integrabile secondo Riemann, in senso
improprio
16
, su R, tale che
F
X
(x) =
_
x
−∞
f
X
(x) dx
La funzione f
X
`e detta densit`a della v.a. X.
Nota. Per il teorema fondamentale del calcolo, vedi anche i richiami in appendice alla
lezione, la FdD F
X
(x) di una v.a. assolutamente continua `e continua per ogni x ∈ R
quindi, per le note propriet`a delle FdD, si ha (in marcato contrasto con le v.a. discrete)
P(X = x) = F
X
(x) −F
X
(x

) = 0 per ogni x ∈ R
Propriet`a della funzione di densit`a
(a.) Per definizione f
X
(x) ≥ 0 per ogni x ∈ R, inoltre, poich´e lim
x→∞
F(x) = 1, passando
al limite nella definizione si trova
_

−∞
f
X
(x) dx = 1
Osservazione importante. Tutte le f() : R →R, integrabili e che soddisfano le condizioni
f(x) ≥ 0, ∀ x ∈ R,
_

−∞
f(x) dx = 1.
sono possibili funzioni di densit`a di variabili aleatorie.
Nelle applicazioni le variabili aleatorie assolutamente continue sono pi` u spesso caratteriz-
zate fornendo la funzione di densit`a f
X
(x) piuttosto che la FdD F
X
(x).
(b.) In virt` u della continuit`a della FdD di una v.a. assolutamente continua, per ogni a ≤ b
P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a < X < b) =
_
b
a
f
X
(x) dx
e, pi` u in generale, se E `e un unione di intervalli di R
P(X ∈ E) =
_
E
f
X
(x) dx
(c.) Criterio di assoluta continuit`a. Se la FdD F
X
(x) della v.a. X `e (
1
a tratti il teorema
fondamentale del calcolo, parte II, garantisce l’esistenza della densit`a della v.a. X, che si
pu`o definire come
f
X
(x) =
_
F
t
X
(x), nei punti x dove F
t
X
(x) `e continua
arbitraria, dove F
t
X
(x) non `e continua
l’arbitrariet`a della densit`a in un insieme finito di punti non `e un problema in quanto
l’integrale che definisce la FdD, F
x
(x) =
_
x
−∞
f
X
(t)dt, rimane invariato.
16
deve cio`e esistere
_

−∞
:= lim
a→∞
lim
b→∞
_
b
−a
99
Micro-esercizio. Sia X una variabile aleatoria di densit`a f
X
(x) =
3
8
(4x−2x
2
) per 0 ≤ x ≤ 2,
e nulla altrove. Si verifichi che f
X
`e una densit`a. Si determini P(0.5 ≤ X ≤ 1.5). Verificare
per sola ispezione che P(X > 1) =
1
2
. (per analogo esercizio svolto e commentato, vedi
appunti da lezione)
Interpretazione della funzione di densit`a
I valori della funzione di densit`a delle v.a. assolutamente continue non sono probabilit`a.
Se X `e una v.a. discreta p
X
(a) = P(X = a), mentre nel caso di una v.a. assolutamente
continua P(X = a) = 0 per ogni a, e f
X
(a) pu`o assumere qualunque valore non negativo,
anche maggiore di 1. Il significato intuitivo della funzione di densit`a si pu`o ricavare
usando il teorema della media integrale. Se f
X
`e continua nell’intervallo [a, a + ∆] allora
per qualche c ∈ [a, a + ∆] vale
P(a ≤ X ≤ a + ∆) =
_
a+∆
a
f
X
(x) dx = f
X
(c) ∆
quindi, per ∆ → 0 sar`a c → a. Per ∆ sufficientemente piccolo vale l’approssimazione
P(a ≤ X ≤ a + ∆) =
_
a+∆
a
f
X
(x) dx ≈ f
X
(a) ∆
ovvero
f
X
(a) ≈
P(a ≤ X ≤ a + ∆)

(1)
che giustifica la terminologia adottata: f
X
(x) `e la densit`a della probabilit`a nel punto x.
Pensate ad una massa totale di 1 kg depositata su di un filo adagiato sulla retta reale. Sia
P(a ≤ X ≤ a + ∆) la quantit`a di massa adagiata sul filo nell’intervallo [a, a + ∆]. Allora
la naturale definizione di densit`a di massa nel punto a `e proprio f
X
(a).
Considerazioni dimensionali.
`
E utile rendersi conto che, dal punto di vista dimensionale,
se la v.a. X rappresenta ad esempio un tempo misurato in secondi, la densit`a di prob-
abilit`a, in virt` u della (1), `e dimensionalmente una frequenza, misurata in Hz. Infatti il
numeratore in (1) `e un numero puro e il denominatore `e un tempo. Sempre a proposito
delle dimensioni fisiche: si tenga anche presente che se la v.a. X `e ad esempio un tempo, il
valore atteso E(X) ha dimensione [tempo], e la varianza var(X) ha dimensione [tempo]
2
.
Convincetevene.
Valore atteso delle v.a. assolutamente continue
Definizione. La variabile aleatoria assolutamente continua X, di densit`a f
X
(x), ammette
valore atteso E(X) se esiste finito l’integrale generalizzato
17
E(X) :=
_

−∞
xf
X
(x) dx
Poich´e
E([X[) =
_
0
−∞
(−x)f
X
(x) dx +
_

0
xf
X
(x) dx,
`e immediato concludere che la v.a. X ammette valore atteso se E([X[) esiste finito. Pi` u
in generale, se g : R →R, il valore atteso della funzione di v.a. g(X), `e
E(g(X)) :=
_

−∞
g(x)f
X
(x) dx,
17
In teoria della probabilit` a solitamente si utilizza la definizione standard di integrale generalizzato sulla
retta
_

−∞
:= lim
a→∞
lim
b→∞
_
b
−a
. In Segnali e Sistemi `e pi` u utile interpretare gli integrali sulla retta nel
senso del valore principale di Cauchy
_

−∞
:= lim
a→∞
_
a
−a
. Ovviamente i due integrali non sono equivalenti:
nel senso standard
_

−∞
xdx non esiste, mentre il valore principale di Cauchy `e nullo.
100
se l’integrale generalizzato esiste finito. In particolare, prendendo g(x) := (x −E(X))
2
si
ottiene la varianza della v.a. X:
var(X) = E
_
_
X −E(X)
_
2
_
:=
_

−∞
(x −E(X))
2
f
X
(x) dx
Tutte le propriet`a del valore atteso e della varianza gi`a viste nel caso delle v.a. dis-
crete continuano a valere. L’unica differenza notevole `e che la prima dimostrazione
dell’addittivit`a del valore atteso, basata sull’espressione, dimostrata nel caso discreto,
E(X) =

ω
X(ω)P(¦ω¦), non si estende alle v.a. assolutamente continue. Vedremo per`o
che la seconda dimostrazione dell’addittivit`a, che ricorreva alle densit`a congiunte, continua
a valere.
Esempio di v.a. che non ammette valore atteso. Una v.a. X con funzione di densit`a
f
X
(x) :=
1
π
1
1 +x
2
,
`e detta v.a. di Cauchy.
`
E facile verificare (fatelo!) che f
X
(x) soddisfa le condizioni
f
X
(x) > 0 per ogni x ∈ R e
_

−∞
f
X
(x) dx = 1 e quindi `e effettivamente una funzione
di densit`a. Peraltro xf
X
(x) non `e integrabile su R e quindi non esiste il valore atteso di
X. Vedremo pi` u avanti che le v.a. di Cauchy non sono strani oggetti matematici, ma che
possono facilmente originare in comuni situazioni sperimentali. Le v.a. di Cauchy hanno
anche un interesse teorico in quanto ci permetteranno di costruire semplici controesempi
quando studieremo i teoremi di convergenza.
Il seguente risultato sull’esistenza dei momenti E(X
k
) `e una semplice applicazione della
disuguaglianza di Jensen.
Lemma. Sia r ≤ s. Se esiste finito E([X[
s
) allora esiste finito E([X[
r
).
Dimostrazione. Osserviamo che, se α > 1, la funzione t
α
`e convessa per t ∈ R
+
, infatti
d
2
dt
2
t
α
= α(α−1)t > 0 per t ∈ R
+
, quindi per la disuguaglianza di Jensen (paragrafo 11.1)
_
E([X[)
¸
α
≤ E([X[
α
). Si osservi anche che, se r ≤ s, vale [X[
r
=
_
[X[
r
_s
r
, dove
s
r
> 1,
quindi vale
_
E([X[
r
)
_s
r
≤ E
_
([X[
r
)
s
r
_
= E([X[
s
) < ∞.
V.a. assolutamente continue notevoli
(a.) Variabile aleatoria uniforme
Diremo che la v.a. assolutamente continua X `e uniforme nell’intervallo [a, b], e la denoter-
emo X ∼ U(a, b), se la densit`a di probabilit`a di X `e
f
X
(x) =
_
_
_
0, x < a
1
b−a
, a ≤ x ≤ b
0, x ≥ b
La corrispondente funzione di distribuzione `e
F
X
(x) =
_
x
−∞
f
X
(τ) dτ =
_
_
_
0, x < a
_
x
a
1
b−a
dτ =
x−a
b−a
, a ≤ x ≤ b
_
b
a
1
b−a
dτ = 1, x ≥ b
101
6
-
6
-
a
b
1
b−a
x
f
X
(x) F
X
(x)
a
b
x
1
Si noti come, nei punti x = a ed x = b dove la densit`a non `e continua, la funzione F
X
(x)
non `e derivabile. Inoltre la distribuzione `e costante per x < 0 e per x > b, dove la densit`a
`e nulla.
Momenti dell’uniforme. Il calcolo di valore atteso e varianza di X ∼ U(a, b) sono banali
esercizi
E(X) =
a +b
2
, var(X) =
(b −a)
2
12
.
(b.) Variabile aleatoria esponenziale
Diremo che la v.a. assolutamente continua X `e esponenziale di parametro λ, e scriveremo
X ∼ Exp(λ), se X ha funzione di densit`a
f
X
(x) = λe
−λx
1l(x)
dove 1l(x) `e il gradino unitario.
Per verificare che la f
X
(x) `e una densit`a si osservi che f
X
(x) ≥ 0 ovunque, inoltre
_

−∞
f
X
(x) dx =
_

0
λe
−λx
dx =
1
−λ
e
−λx
¸
¸
¸

0
= 1
Il calcolo di media e varianza, non `e difficile, ma `e un puro esercizio di analisi. Si integra
una volta per parti per il calcolo di E(X) e due volte per il calcolo di E(X
2
). Buon
divertimento. La varianza si trova con la solita scorciatoia a partire da E(X
2
) ed E(X).
E(X) =
_

0
xλe
−λx
dx =
1
λ
e
var(X) =
_

0
_
x −
1
λ
_
2
λe
−λx
dx =
1
λ
2
La funzione di distribuzione `e molto pi` u facile
F
X
(x) =
_
x
−∞
f
X
(x) dx =
_
0 x < 0
_
x
0
λe
−λτ
dτ = 1 −e
−λx
, x ≥ 0.
Dalla formula della funzione di distribuzione si ricava la semplice espressione
18
P(X ≥ a) = e
−λa
,
18
Per ogni v.a. assolutamente continua vale
P(a ≤ X ≤ b) = P(X ≤ b) −P(X ≤ a) = P(X ≥ a) −P(X ≥ b),
(interpretate graficamente le due identit` a!) quindi per una v.a. esponenziale
P(a ≤ X ≤ b) = P(X ≥ a) −P(X ≥ b) = e
−λa
−e
−λb
102
che `e strutturalmente identica all’espressione per la v.a. geometrica P(X > k) = (1 −p)
k
.
In effetti le v.a. geometrica ed esponenziale sono molto simili. In particolare esse sono le
uniche due variabili aleatorie (la geometrica nel discreto, l’esponenziale nel continuo) che
possiedono la propriet`a di assenza di memoria.
`
E immediato verificare che (si veda anche
la Lezione 23 per un calcolo alternativo)
P(X ≥ x +h[X ≥ x) = P(X ≥ h)
Le v.a. esponenziali sono molto utilizzate in teoria delle code, per modellare tempi di
attesa.
Esempio. Sia N
1
la v.a. che modella il numero richieste di servizio al server in una unit`a
di tempo. Per quanto visto la scorsa lezione `e spesso naturale modellare N
1
con una v.a.
di Poisson (si veda la Lezione 13, punto 2, commenti). Sia quindi N
1
∼ T(λ), dove λ `e il
numero medio di richieste nell’unit`a di tempo. Allora il numero di richieste in t unit`a di
tempo `e N
t
∼ T(λt). Ci`o significa che
P(N
t
= k) = e
−λt
(λt)
k
k!
, k = 0, 1, . . .
Sia ora W la v.a. che rappresenta il tempo di attesa del server fino all’arrivo della prima
richiesta di servizio. Il tempo di attesa `e superiore a t unit`a se all’istante t non `e ancora
arrivata alcuna richiesta, ovvero N
t
= 0. Questo consente di scrivere
P(W > t) = P(N
t
= 0) = e
−λt
, per ogni t ≥ 0
La funzione di distribuzione di W `e quindi
F
W
(t) = P(W ≤ t) = 1 −P(W > t) = 1 −e
−λt
, per ogni t ≥ 0
ma questa `e proprio la distribuzione di una v.a. esponenziale. Abbiamo cio`e dimostrato
che W ∼ Exp(λ). Il valore atteso di W `e
1
λ
. Se arrivano in media λ richieste per unit`a
di tempo `e intuitivamente ovvio che, in media, la prima richiesta arrivi dopo
1
λ
unit`a di
tempo.
103
Appendice alla Lezione 17
Richiami sull’integrale di Riemann
(a.) Continuit`a e derivabilit`a a tratti
Sia f : [a, b] →R. Diremo che f ha una discontinuit`a di prima specie (salto): in c ∈ (a, b)
se ivi esistono finiti e diversi i limiti da destra e da sinistra; in a se ivi esiste finito e diverso
da f(a) il limite da destra; in b se ivi esiste finito e diverso da f(b) il limite da sinistra.
Si dicono continue a tratti le funzioni f : [a, b] →R, continue in [a, b], tranne al pi` u in un
sottoinsieme finito di punti dove hanno salti.
Si dicono (
1
a tratti le funzioni f : [a, b] → R, ovunque continue in [a, b] e derivabili, con
derivata continua, in [a, b], tranne al pi` u in un sottoinsieme finito di punti dove la derivata
ammette finiti i limiti da sinistra e da destra.
Le derivate delle funzioni (
1
a tratti sono quindi funzioni continue a tratti.
(b.) Integrale di Riemann
La definizione e le propriet`a dell’integrale di Riemann si suppongono note. Per brevit`a
diremo semplicemente integrabile ogni funzione integrabile nel senso di Riemann. Le
funzioni continue a tratti sono integrabili, e quindi lo sono anche le funzioni (
1
a tratti e
le loro derivate.
(c.) Teorema fondamentale del calcolo
Prima parte. Se f : [a, b] →R `e continua a tratti allora la sua funzione integrale,
F(x) :=
_
x
a
f(t) dt = F(x) −F(a),
`e continua per ogni x ∈ [a, b] e, nei punti di continuit`a di f, derivabile con
F
t
(x) = f(x)
Seconda parte. Se F : [a, b] → R `e una funzione (
1
a tratti, definendo f(x) := F
t
(x) nei
punti di derivabilit`a di F, ed arbitrariamente dove F non `e derivabile, si ha che, per ogni
x ∈ [a, b],
F(x) −F(a) =
_
x
a
f(t)dt
(d.) Integrale di Riemann improprio
Nella definizione dell’integrale di Riemann sia la funzione f che il dominio [a, b] sono lim-
itati. L’integrale di Riemann improprio viene introdotto per superare questa limitazione.
Se la funzione f : (a, b] → R `e integrabile su [a + , b] per ogni > 0 e se esiste finito il
limite
lim
↓0
_
b
a+
f(t)dt
la f si dice integrabile su [a, b] in senso improprio e l’integrale
_
b
a
f(t)dt `e definito come il
valore del limite. Analoghe definizioni di integrali impropri si danno nei casi f : [a, ∞) →R
e f : R → R. Interpretando gli integrali come limiti, il teorema fondamentale del calcolo
continua a valere.
104
Lezione 18 (Mercoled`ı, 17 aprile 2013, ore 16:25-18:05)
18.1 Variabili aleatorie normali
Sono le pi` u importanti variabili aleatorie assolutamente continue.
Definizione. Una v.a. assolutamente continua X si dice normale (o gaussiana) di parametri
µ ∈ R e σ
2
> 0, e si denota X ∼ N(µ, σ
2
), se ha densit`a di probabilit`a
f
X
(x) :=
1

2πσ
2
e

1
2
(x−µ)
2
σ
2
, per ogni x ∈ R
Nota bene. Il parametro µ pu`o assumere qualunque valore reale. Il parametro σ
2
deve
essere strettamente positivo. La notazione σ
2
`e standard e sta a ricordare che si tratta di
un numero strettamente positivo.
`
E un esercizio di Analisi I verificare che la funzione f
X
(x):
(a.) `e ovunque strettamente positiva e continua,
(b.) `e simmetrica rispetto al punto x = µ,
(c.) ha un unico massimo, nel punto x = µ, dove vale f
X
(µ) =
1

2πσ
2
,
(d.) ha due flessi, nei punti x = µ ±σ, dove vale f
X
(µ ±σ) = f
X
(µ)e

1
2
≈ 0.6f
X
(µ),
(e.) `e integrabile su R infatti, per [x[ → ∞ vale 0 < f
X
(x) <
1

2πσ
2
e

1

2
[x−µ[
e, poich´e
il limite superiore `e ovviamente integrabile, per il criterio del confronto f
X
`e integrabile.
Non fatevi confondere dal ciarpame notazionale: il succo `e che per [y[ → ∞ vale 0 <
e
−y
2
≤ e
−[y[
, e ovviamente e
−[y[
`e integrabile su R.
La verifica della condizione di normalizzazione della densit`a `e contenuta nel seguente
Lemma (facoltativo). Si tratta di uno dei pi` u classici esercizi di Analisi II.
Lemma.
_

−∞
e

1
2
(x−µ)
2
σ
2
dx =

2πσ
2
, per ogni µ ∈ R, σ
2
∈ R
+
Dimostrazione classica. Effettuando il cambio di variabile u =
1


2
(x −µ) ci si riduce a
_

−∞
e

1
2
(x−µ)
2
σ
2
dx =


2
_

−∞
e
−u
2
du.
`
E quindi sufficiente dimostrare che
19
I :=
_

−∞
e
−u
2
du =

π.
`
E noto, ma non facile da dimostrare, che la primitiva della funzione e
−u
2
non pu`o es-
sere espressa in forma chiusa impiegando funzioni elementari, quindi I va calcolato di-
rettamente come integrale definito. Il trucco classico `e di calcolare anzich´e I il suo
19
”A mathematician is one to whom that is as obvious as that twice two makes four is to you”, cos`ı
diceva William Thomson, Lord Kelvin, ai suoi studenti.
105
quadrato:
I
2
=
__

−∞
e
−u
2
du
_
2
=
__

−∞
e
−u
2
du
_

__

−∞
e
−v
2
dv
_
(quindi per Fubini)
=
_

−∞
_

−∞
e
−(u
2
+v
2
)
dudv (e quindi in coordinate polari)
=
_

0
_

0
e
−ρ
2
ρ dρ dθ =
_

0
1
2
dθ = π (integrale in ρ per parti).
Andamento della densit`a normale al variare dei parametri
In figura sono riportate le funzioni di densit`a N(2, 0.7), N(2, 1) e N(2, 1.5). Si noti come,
al diminuire di σ
2
, la densit`a si concentra sempre di pi` u intorno al valore µ. Si noti inoltre
che la densit`a, che `e strettamente positiva per ogni x ∈ R, tenda per`o molto rapidamente
a 0. Appare evidente dai grafici che, per una v.a. X ∼ N(µ, σ
2
), la probabilit`a di eventi
del tipo a ≤ X ≤ b assume valori non trascurabili solo per intervalli [a, b] nelle vicinanze
di µ.
Nota. Il caso σ
2
= 0 `e degenere, in effetti la densit`a N(µ, 0) non `e ben definita. Euristi-
camente, per µ fissato, si pu`o considerare
lim
σ
2
→0
1

2πσ
2
e

1
2
(x−µ)
2
σ
2
= δ(x −µ),
l’impulso di Dirac centrato in µ. Questo `e ragionevole poich´e la famiglia di densit`a
N(µ, σ
2
), per µ costante e σ
2
↓ 0, costituisce una famiglia di impulsi di area unitaria,
per ogni σ
2
> 0, e il cui massimo, per x = µ, di valore
1

2πσ
2
↑ ∞. Bench´e δ(x − µ)
non sia una densit`a standard, essa si comporta come una densit`a nel senso delle funzioni
generalizzate. In effetti si pu`o considerare δ(x −µ) > 0 ed inoltre
_

−∞
δ(x −µ)dx = 1.
Funzione di distribuzione
La funzione di distribuzione della densit`a normale N(µ, σ
2
) `e
F
X
(x) =
1

2πσ
2
_
x
−∞
e

1
2
(w−µ)
2
σ
2
dw x ∈ R.
Poich´e l’antiderivata di e
−w
2
non `e esprimibile in forma chiusa, la funzione di distribuzione
deve essere valutata con metodi di integrazione numerica. I grafici qui sotto mostrano la
densit`a e la distribuzione di N(4, 1).
106
Vedremo tra poco che il calcolo della funzione di distribuzione relativa alla densit`a N(µ, σ
2
),
qualunque siano µ e σ
2
, si pu`o ricondurre al calcolo della funzione di distribuzione della
densit`a N(0, 1).
Nota.
`
E interessante calcolare la funzione di distribuzione F(x) che corrisponde alla densit`a
generalizzata δ(x −µ), caso limite di N(µ, σ
2
) per σ
2
= 0. Applicando la definizione
F(x) :=
_
x
−∞
δ(w −µ)dw = 1l(x −µ),
dove 1l(x) `e il gradino unitario. La funzione di distribuzione F(x) ha un unico salto,
di ampiezza 1, in corrispondenza del punto x = µ. Per quanto noto sulle funzioni di
distribuzione si conclude che se una variabile aleatoria ha densit`a generalizzata δ(x − µ)
allora essa `e una variabile aleatoria degenere, X = µ costante.
Valore atteso e varianza delle v.a. normali
I parametri µ e σ
2
che identificano la densit`a di una v.a. X ∼ N(µ, σ
2
) hanno, rispettiva-
mente, il significato probabilistico di valore atteso e varianza di X.
(a) Valore atteso. Poich´e la densit`a `e simmetrica rispetto al punto x = µ e la funzione
[x[f
X
(x) `e integrabile (ragionando come sopra il succo `e che per [y[ → ∞vale 0 < [y[e
−y
2

[y[e
−[y[
ed il limite superiore `e integrabile) si pu`o concludere che il valore atteso `e E(X) =
µ, valore in accordo con l’interpretazione del valore atteso come baricentro della densit`a.
La derivazione formale `e contenuta nel seguente
107
Lemma. Se X ∼ N(µ, σ
2
) allora
E(X) =
1

2πσ
2
_

−∞
xe

1
2
(x−µ)
2
σ
2
dx = µ
Dimostrazione. Aggiungiamo e sottraiamo µ e usiamo l’addittivit`a dell’integrale
E(X) =
1

2πσ
2
_

−∞
xe

1
2
(x−µ)
2
σ
2
dx
=
1

2πσ
2
_

−∞
(x −µ)e

1
2
(x−µ)
2
σ
2
dx +
1

2πσ
2
_

−∞
µe

1
2
(x−µ)
2
σ
2
dx
Il secondo addendo `e l’integrale della densit`a moltiplicata per µ e vale quindi µ. Per
valutare il primo addendo si effettua il cambio di variabile u =
1


2
(x −µ):
_

2
π
_

−∞
ue
−u
2
du =
_

2
π
_

1
2
__

−∞
d
_
e
−u
2
_
= −
_
σ
2

e
−u
2
¸
¸
¸

−∞
= 0
Si conclude che E(X) = µ.
(b) Varianza (facoltativo). Sia X ∼ N(µ, σ
2
). Poich´e E(X) = µ e la funzione (x −
µ)
2
f
X
(x) `e integrabile, la varianza esiste ed il suo valore `e
var(X) =
1

2πσ
2
_

−∞
(x −µ)
2
e

1
2
(x−µ)
2
σ
2
dx
Procedendo con il solito cambio di variabile u =
1


2
(x−µ) ci si riduce al seguente calcolo
var(X) =

2

π
_

−∞
u
2
e
−u
2
du
= −
σ
2

π
_

−∞
ud
_
e
−u
2
_
= −
σ
2

π
_
ue
−u
2
¸
¸
¸

−∞

_

−∞
e
−u
2
du
_
= −
σ
2

π
_
0 −

π
¸
= σ
2
Trasformazioni lineari di v.a. normali
Lemma fondamentale. Sia X ∼ N(µ, σ
2
) ed Y := aX + b, con a ,= 0, allora Y ∼
N(aµ +b, a
2
σ
2
)
Nota Bene. Il Lemma `e fondamentale, ma va letto con attenzione per capirne la portata.
Esso afferma che, data X ∼ N(µ, σ
2
), la trasformazione lineare Y = aX + b `e ancora
normale, di parametri E(Y ) = aµ+b = aE(X) +b e varianza var(Y ) = a
2
σ
2
= a
2
var(X).
Per quanto gi`a noto, ci`o `e esattamente quello che ci aspettiamo, in termini di valore atteso
e di varianza della trasformazione lineare. L’informazione fondamentale fornita dal Lemma
`e che la densit`a di Y `e normale. La densit`a normale `e invariante per trasformazioni lineari
della v.a.
Dimostrazione. Per determinare la densit`a della v.a. Y cominciamo col determinarne la
funzione di distribuzione F
Y
(y). Supponiamo, per fissare le idee, che a > 0 allora
F
Y
(y) = P(Y ≤ y) = P(aX +b ≤ y)
= P
_
X ≤
y −b
a
_
= F
X
_
y −b
a
_
.
108
La densit`a di Y si trova calcolando la derivata di F
Y
(y), quindi
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
F
X
_
y −b
a
_
=
1
a
f
X
_
y −b
a
_
=
1
a
1

2πσ
2
e

1
2
(
y−b
a
−µ
)
2
σ
2
=
1

2πa
2
σ
2
e

1
2
(y−(aµ+b))
2
a
2
σ
2
Ma questa `e la densit`a di una v.a. normale di media aµ+b e varianza a
2
σ
2
, il che conclude
la dimostrazione del caso a > 0. Il caso a < 0 si tratta in modo simile.
F
Y
(y) = P(Y ≤ y) = P(aX +b ≤ y)
= P
_
X ≥
y −b
a
_
= 1 −F
X
_
y −b
a
_
Calcolando la derivata si trova
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
1 −F
X
_
y −b
a
__
=
1
−a
f
X
_
y −b
a
_
=
1
−a
1

2πσ
2
e

1
2
(
y−b
a
−µ
)
2
σ
2
=
1

2πa
2
σ
2
e

1
2
(y−(aµ+b))
2
a
2
σ
2
che ancora coincide con la densit`a di una v.a. normale di media aµ +b e varianza a
2
σ
2
, il
che conclude la dimostrazione.
Corollario del lemma. Se X ∼ N(µ, σ
2
) allora
Z :=
X −µ
σ
∼ N(0, 1),
dove σ := +

σ
2
, `e la cosiddetta deviazione standard della v.a. X.
Dimostrazione. Banale applicazione del precedente Lemma.
Osservazioni.
(a.) Terminologia. Ogni variabile aleatoria Z ∼ N(0, 1) `e detta variabile aleatoria nor-
male standard. Il corollario quindi afferma che la trasformazione lineare Z :=
1
σ
X −
µ
σ
standardizza la v.a. X ∼ N(µ, σ
2
).
(b.) Se W `e una qualunque v.a. con E(W) = µ e var(W) = σ
2
allora S :=
W−µ
σ
ha valore
atteso E(S) = 0 e varianza var(S) = 1, ma in generale S non conserva lo stesso tipo di
densit`a di W, n´e tantomeno `e normale.
(c.) Attenzione. Quando si standardizza, un errore frequentissimo `e dividere per la
varianza σ
2
anzich´e per la deviazione standard σ.
Calcolo della probabilit`a di eventi per v.a. normali
Ogni calcolo di probabilit`a di eventi relativi alla generica v.a. X ∼ N(µ, σ
2
) si pu`o
ricondurre al calcolo della probabilit`a di un evento per una v.a. Z ∼ N(0, 1).
109
Esempio. Sia X ∼ N(3, 4) e si voglia calcolare P(1 ≤ X ≤ 6). Applicando la standardiz-
zazione troviamo
P(1 ≤ X ≤ 6) = P
_
1 −3
2

X −3
2

6 −3
2
_
= P(−1 ≤ Z ≤ 1.5)
Notazioni. La funzione di distribuzione F
Z
di una v.a. Z ∼ N(0, 1) normale standard, `e
universalmente denotata Φ(z), quindi
Φ(z) :=
1


_
z
−∞
e

1
2
u
2
du, per ogni z ∈ R
La funzione Φ(z) `e la primitiva della funzione (

2π)
−1
e

1
2
z
2
e non esiste una forma chiusa
per quest’antiderivata. Peraltro `e molto comodo poter disporre dei valori della Φ(z) poich´e
essi consentono di effettuare moltissimi calcoli probabilistici di interesse pratico. Sul sito
del corso trovate una tabella della Φ(z). La tabella `e costruita utilizzando uno sviluppo
in serie di Φ(z), ma non abbiamo il tempo di entrare nei dettagli computazionali.
Il seguente (banale) lemma generalizza l’esempio appena visto.
Lemma. Se X ∼ N(µ, σ
2
) allora
P(a ≤ X ≤ b) = Φ
_
b −µ
σ
_
−Φ
_
a −µ
σ
_
.
Poich´e la densit`a N(0, 1) `e una funzione pari si ricava immediatamente (tracciate una
figura e convincetevene) che
Φ(−z) = 1 −Φ(z)
per cui `e sufficiente disporre della tabulazione di Φ(z) per z ≥ 0.
Le probabilit`a di alcuni comuni eventi per Z ∼ N(0, 1), espressi in termini di Φ(z), sono:
P(Z ≤ z) = Φ(z)
P(Z ≥ z) = 1 −Φ(z) = Φ(−z)
P([Z[ ≤ z) = 2Φ(z) −1
P([Z[ ≥ z) = 2(1 −Φ(z)) = 2Φ(−z)
Combinazioni lineari di v.a. normali indipendenti
Vale il seguente fondamentale risultato che dimostreremo in seguito.
Lemma. Se X
1
, X
2
, . . . X
n
sono v.a. normali indipendenti, con X
i
∼ N(µ
i
, σ
2
i
) allora
n

i=1
α
i
X
i
∼ N
_
n

i=1
α
i
µ
i
,
n

i=1
α
2
i
σ
2
i
_
Nota Bene. Come per il caso delle trasformazioni lineari di v.a. la portata di questo
risultato va capita a fondo. Per quanto gi`a noto, la media e la varianza della v.a.

n
i=1
α
i
X
i
sono esattamente quelle che ci aspettiamo per le propriet`a generali di media e varianza.
L’informazione fondamentale fornita dal Lemma `e che la densit`a di

n
i=1
α
i
X
i
`e normale.
110
Esempi ed esercizi
Esercizio 1 Alcuni numeri fondamentali per le v.a. normali.
Sia X ∼ N(µ, σ
2
).
`
E utile avere un’idea delle probabilit`a delle deviazioni di X dal suo
valore atteso µ. Per fornire numeri universali, esprimiamo la deviazione usando come unit`a
di misura la deviazione standard. Allora si ha
P([X −µ[ ≥ σ) = P
_
[X−µ[
σ

σ
σ
_
= P([Z[ ≥ 1) = 2(1 −Φ(1)) ≈ 0.32
P([X −µ[ ≥ 2σ) = P
_
[X−µ[
σ


σ
_
= P([Z[ ≥ 2) = 2(1 −Φ(2)) ≈ 0.05
P([X −µ[ ≥ 3σ) = P
_
[X−µ[
σ


σ
_
= P([Z[ ≥ 3) = 2(1 −Φ(3)) ≈ 0.003
Per ricavare i valori numerici si `e fatto uso della tabella della distribuzione normale stan-
dard Φ(z). Attenzione con la normalizzazione: al numeratore c’`e X − µ, la media `e gi`a
sottratta, basta dividere per la deviazione standard.
Passando al complementare, l’ultima approssimazione equivale a P([X−µ[ ≤ 3σ) ≈ 0.997.
Equivalentemente
P(µ −3σ ≤ X ≤ µ + 3σ) ≈ 0.997.
Questa osservazione `e molto importante nelle applicazioni pratiche. I valori assunti da
una v.a. normale cadono con probabilit`a 0.997 nell’intervallo [µ −3σ, µ +3σ]. Qualunque
insieme di valori (evento) al di fuori dell’intervallo (µ − 3σ, µ + 3σ), `e molto improbabile
(ha probabilit`a inferiore a 0.003).
Esercizio 2. Calcolare limiti superiori alle probabilit`a dell’esercizio 1 utilizzando la disu-
guaglianza di Chebychev.
P([X −µ[ ≥ 3σ) ≤
var(X)

2
=
1
9
≈ 0.11
questo `e un altro esempio che mostra quanto lasca possa essere la disuguaglianza di
Chebychev (limite superiore 0.11 a fronte di probabilit`a approssimativamente uguale a
0.003).
Esercizio 3 (parte (e.) facoltativa per il primo compitino)
Un tecnico ha a disposizione gli strumenti A e B per misurare una certa lunghezza µ. Lo
strumento A fornisce la misura M
A
= µ + X
A
dove l’errore di misura X
A
∼ N(0, 9). Lo
strumento B fornisce la misura M
B
= µ + X
B
dove l’errore X
B
∼ N(0, 16). Gli errori di
misura X
A
e X
B
sono v.a. indipendenti.
(a.) Se voi foste il tecnico che strumento usereste?
(b.) Se il tecnico effettua la misura con lo strumento A qual `e la probabilit`a che l’errore
sia di modulo minore di 4?
(c.) Il tecnico effettua due misure, una con lo strumento A ed una con lo strumento B, poi
calcola la media aritmetica delle due misure, ovvero M =
1
2
M
A
+
1
2
M
B
che considera come
misura finale. Qual `e la probabilit`a che la misura M sia affetta da un errore di modulo
minore di 4?
(d.) Il tecnico vuole tenere conto della diversa precisione degli strumenti e quindi calcola
la misura finale come M
c
= (1 − c)M
A
+ cM
B
dove c ∈ [0, 1]. Caratterizzare la densit`a
dell’errore che affligge la misura M
c
e calcolare il valore di c ∈ [0, 1] che minimizza la
varianza dell’errore.
(e.) Usando lo strumento A, e calcolando la misura finale come media aritmetica delle
misure effettuate, quante misure deve effettuare il tecnico per avere probabilit`a almeno
0.95 che il modulo dell’errore sia inferiore a 0.1 unit`a?
111
Soluzione
(a.) Il tecnico desidera minimizzare l’errore di misura. Poich`e il processo di misura `e
modellato probabilisticamente `e naturale decidere quale strumento usare confrontando le
distribuzioni dell’errore di misura. Gli errori di misura sono rispettivamente X
A
∼ N(0, 9)
ed X
B
∼ N(0, 16).
`
E noto che se W ∼ N(µ, σ
2
) allora P([W−µ[ < 3σ) ≈ 0.997. Il tecnico
quindi sa a priori che P([X
A
[ < 9) = P([X
B
[ < 12) = 0.997. Con probabilit`a 0.997 il
modulo dell’errore `e minore di 9 unit`a se si usa lo strumento A, mentre `e minore di 12
unit`a se si usa lo stumento B. Conviene usare lo strumento A.
(b.)
P([X
A
[ < 4) = P
_
[X
A
[
3
<
4
3
_
= 2Φ
_
4
3
_
−1 ≈ 2 0.9082 −1 ≈ 0.82
(c.) Le v.a. M
A
e M
B
sono rispettivamente M
A
∼ N(µ, 9) ed M
B
∼ N(µ, 16), ed
indipendenti, quindi M =
1
2
M
A
+
1
2
M
B
`e una v.a. N(
1
2
µ +
1
2
µ,
1
4
9 +
1
4
16) = N(µ,
25
4
).
L’errore di misura sar`a in questo caso M − µ ∼ N(0,
25
4
). La probabilit`a che l’errore sia
in valore assoluto sotto alle 4 unit`a `e
P([M −µ[ < 4) = P
_
[M −µ[
5/2
<
4
5/2
_
= 2Φ
_
8
5
_
−1 ≈ 2 0.9452 −1 ≈ 0.89
Questa probabilit`a `e maggiore di quella al punto (b.) e questa `e una buona notizia.
Significa che il modulo dell’errore `e sotto alle 4 unit`a con probabilit`a pi` u alta. Prendere
due misure e calcolarne la media aritmetica produce una misura finale migliore, anche se
la seconda misura `e presa con uno strumento di qualit`a inferiore. Ma si pu`o far di meglio
che combinare le due misure calcolandone la media aritmetica: vedi parte (d.).
(d.) M
c
= (1 − c)M
A
+ cM
B
, quindi M
c
∼ N(µ, 9(1 − c)
2
+ 16c
2
). L’errore di misura `e
M−µ ∼ N(0, 9(1−c)
2
+16c
2
). La varianza dell’errore di misura `e σ
2
(c) = 9(1−c)
2
+16c
2
.
Derivando rispetto a c ed annullando la derivata otteniamo
d
dc
σ
2
(c) = −18(1 −c) +32c =
0 ⇒ c =
9
25
Questo `e effettivamente il minimo poich`e
d
2
dc
2
σ
2
(c) = 18 +32 > 0 ovunque. La
varianza ottimale vale σ
2
_
9
25
_
= 9
_
1 −
9
25
_
2
+ 16
_
9
25
_
2
= 5.76
Calcoliamo per curiosit`a la probabilit`a che l’errore stia sotto alle 4 unit`a se il tecnico
combina le due misure in modo ottimale, cio`e usando c =
9
25
. La misura ottenuta sar`a
M

=
16
25
M
A
+
9
25
M
B
∼ N(µ, 5.76) e la probabilit`a cercata vale
P([M

−µ[ < 4) = P
_
[M

−µ[

5.76
<
4

5.76
_
= 2Φ(2.4) −1 ≈ 2 0.9918 −1 ≈ 0.98
che `e sensibilmente pi` u alta di quella ottenuta usando la media aritmetica.
(e.) Effettuando n misure e calcolando la misura finale come media aritmetica si ottiene
la v.a.
M =
1
n
n

i=1
M
i
=
1
n
n

i=1
(µ +X
i
) = µ +
1
n
n

i=1
X
i
Per semplificare la notazione ho eliminato il pedice A dalle v.a. X
i
poich´e stiamo usando
sempre lo strumento A. Ognuna delle v.a. X
i
∼ N(0, 9). L’errore di misura su M `e
M −µ =
1
n
n

i=1
X
i
∼ N
_
0,
9
n
_
infatti le v.a. X
i
sono i.i.d. con media nulla e varianza 9, quindi
var
_
1
n
n

i=1
X
i
_
=
1
n
2
n

i=1
var(X
i
) =
9n
n
2
112
Imponiamo quanto richiesto in (e.), ovvero che
P([M −µ[ ≤ 0.1) = P

¸
¸
¸
¸
1
n
n

i=1
X
i
¸
¸
¸
¸
¸
≤ 0.1
_
≥ 0.95
Standardizzando si ottiene
P

¸
¸
¸
¸
1
n
n

i=1
X
i
¸
¸
¸
¸
¸
≤ 0.1
_
= P
_
¸
¸
1
n

n
i=1
X
i
¸
¸
3

n

0.1
3

n
_
= P
_
[Z[ ≤
0.1

n
3
_
= 2Φ
_
0.1

n
3
_
−1 ≥ 0.95
Abbiamo ottenuto il vincolo

_
0.1

n
3
_
−1 ≥ 0.95
che, con un paio di passaggi, si converte in
Φ
_
0.1

n
3
_
≥ 0.975
dalla tabella della normale standard si trova
Φ(1.96) = 0.9750
quindi la condizione in n `e
0.1

n
3
≥ 1.96
ovvero

n ≥ 58.8, n ≥ 3457.44
La risposta `e che n = 3458 misure sono sufficienti.
Esercizi che richiedono il Lemma sulle combinazioni lineari di v.a. normali indipendenti
Esercizio 4. Se X ed Y sono v.a. N(0, 1) indipendenti allora la v.a W = X − Y `e
W ∼ N(0, 2). (Banale applicazione del Lemma sulle combinazioni lineari di normali)
Esercizio 5. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P(X ≥ Y ).
Soluzione. P(X ≥ Y ) = P(X − Y ≥ 0) = P(W ≥ 0), dove W ∼ N(0, 2). Qui non
`e necessario standardizzare: basta osservare che, poich´e W `e normale di media nulla,
P(W ≥ 0) =
1
2
.
Esercizio 6. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P
_
X ≥ Y +
1
2
_
.
Soluzione. P
_
X ≥ Y +
1
2
_
= P
_
X −Y ≥
1
2
_
= P
_
W ≥
1
2
_
, dove W ∼ N(0, 2). Per
standardizzare sottraiamo la media di W (che vale 0 in questo caso) e dividiamo per
la deviazione standard di W (che vale

2 in questo caso). Questo produrr`a una v.a.
Z =
W−0

2
∼ N(0, 1) che consentir`a di usare la tavola di Φ(z).
P
_
W ≥
1
2
_
= P
_
W −0

2

1
2
−0

2
_
= P
_
Z ≥
1
2
−0

2
_
= 1 −Φ
_

2
4
_
≈ 1 −Φ(0.35) ≈ 1 −0.6368 = 0.3632.
113
Lezione 19 (Luned`ı, 22 aprile 2013, ore 10:30-12:15)
19.1 Ripassone pre-compitino
Svolti in aula esercizi sul programma della prima parte del corso. Alcuni tratti dall’elenco
qui sotto, altri inventati al momento per illustrare certi aspetti della teoria o tecniche di
calcolo. Svolgete quelli che non trovate sui vostri appunti. Tempo permettendo, in una
futura revisione aggiunger`o le soluzioni.
Esercizio 1. Gli eventi A, B, e C sono equiprobabili, ed `e altres`ı noto che
• A∩ B = ∅,
• A e B sono indipendenti da C
• P(A∪ C) =
5
9
Calcolare i valori numerici di P(A∪ B ∪ C) e P(C[A∪ B).
Esercizio 2. Un esame consiste di 100 domande a risposta multipla. Ad ogni domanda
sono proposte 4 risposte di cui solo una `e corretta.
(a.) Se lo studente risponde a caso, quante sono in media le risposte corrette?
(b.) Se si assegna 1 punto per ogni risposta corretta, che punteggio si deve assegnare alle
risposte errate affinch´e il punteggio medio di chi risponde a caso sia nullo?
Esercizio 3. Mario va in libreria a curiosare e ad acquistare libri. Il tempo che Mario
passa in libreria `e un numero intero di ore K, dove K `e una variabile aleatoria uniforme a
valori nell’alfabeto ¦1, 2, 3, 4¦. Sappiamo inoltre che il numero di libri che Mario acquista
`e anch’esso modellabile con una variabile aleatoria N.
`
E nota la densit`a condizionata
p
N[K
(n[k) =
_
1
k
, se 1 ≤ n ≤ k, e k ≤ 4,
0, altrove,
Calcolare la densit`a di N. Le variabili aleatorie N e K sono indipendenti? Sono scorrelate?
Esercizio 4. Il numero di utenti che si connettono al sito unipd.it in un intervallo di
tempo di 1 minuto `e modellato con con una variabile aleatoria X ∼ T(λ), dove λ > 0 `e
noto. Per ognuno degli utenti connessi, indipendentemente l’uno dall’altro, la probabilit`a
di essere uomo `e p. Sia Y la variabile aleatoria che rappresenta il numero di uomini (che
si connettono al sito unipd.it in un intervallo di tempo di 1 minuto). Calcolare la densit`a
di Y .
Esercizio 5. Effettuo lanci indipendenti con una moneta che ha P(T) = p. Sia X il
numero di lanci fino al primo successo ed Y il numero di lanci fino al secondo successo.
Si determini p
XY
(k, h), p
Y
(h), p
X[Y
(k[h), p
X
(k) (ovviamente sappiamo gi`a che p
X
(k) `e
G(p)). Infine si determini, senza fare calcoli, E(Y ).
114
Lezione 20 (Marted`ı, 23 aprile 2013, ore 16:25-18:05)
20.1 Classificazione delle variabili aleatorie: discrete, continue e miste
Abbiamo finora discusso due classi di variabili aleatorie, le discrete e le assolutamente
continue. Le variabili aleatorie discrete sono quelle ad alfabeto discreto e la cui funzione
di distribuzione (FdD) `e quindi costante a tratti, con salti in corrispondenza ai valori
dell’alfabeto. Le variabili aleatorie assolutamente continue sono quelle che ammettono
densit`a ed hanno quindi FdD continua.
`
E interessante osservare che la classificazione pu`o
essere fatta basandosi esclusivamente sulle propriet`a della FdD. In tal senso si classificano
come discrete o assolutamente continue indifferentemente le variabili aleatorie o le loro
FdD.
In questa lezione introduciamo le variabili aleatorie miste, una classe pi` u generale di
variabili aleatorie, di grande interesse applicativo, e che comprende come casi particolari
le discrete e le assolutamente continue. Anche le v.a. miste si caratterizzano sulla base
di propriet`a della FdD. Iniziamo richiamando le rappresentazioni analitiche delle FdD
discrete ed assolutamente continue.
La FdD F
d
(x) `e discreta se essa si pu`o rappresentare come
F
d
(x) =

x
i
∈.
p(x
i
)1l(x −x
i
)
dove p(x
i
) `e una densit`a discreta ed 1l(x) `e il gradino unitario (continuo a destra).
`
E
immediato concludere che la funzione F
d
`e costante a tratti, con salti nei punti x
i
∈ A,
dove A ⊂ 1 `e un insieme discreto.
La FdD F
ac
(x) `e assolutamente continua se essa si pu‘ørappresentare come
F
ac
(x) =
_
x
−∞
f(w) dw
per qualche f() funzione integrabile secondo Riemann. Il teorema fondamentale del
calcolo garantisce che la funzione F
ac
`e continua per ogni x ∈ 1.
`
E interessante notare che
(a.) Non tutte le FdD discontinue sono costanti a tratti.
(b.) Non tutte le FdD continue sono assolutamente continue.
In questa lezione vedremo alcuni esempi del caso (a.). Esempi del caso (b.) sono pi` u
complicati (FdD continue singolari) e sono rimandati ad una futura appendice.
Combinazioni convesse di funzioni di distribuzione
Lemma. Siano F
1
(x) ed F
2
(x) due FdD qualunque. Per ogni λ ∈ [0, 1] la funzione
F(x) = λF
1
(x) + (1 −λ)F
2
(x), x ∈ R
`e una FdD.
Dimostrazione.
`
E sufficiente verificare che F(x) `e non decrescente, continua da destra,
con limiti F(−∞) = 0 ed F(∞) = 1. Tutte queste propriet`a sono immediate conseguenze
delle ipotesi. Domanda: perch´e `e essenziale l’ipotesi λ ∈ [0, 1]?
115
Corollario. Sia ¦F
i
(x)¦
n
i=1
una sequenza di FdD qualunque e ¦α
i
¦
n
i=1
una sequenza di
numeri reali nonnegativi tali che

n
i=1
α
i
= 1, allora la funzione
F(x) =
n

i=1
α
i
F
i
(x), x ∈ R
`e una FdD. Se le FdD ¦F
i
(x)¦
i
sono discrete allora F(x) `e discreta. Se le ¦F
i
(x)¦ sono
assolutamente continue, allora F(x) `e assolutamente continua.
Dimostrazione. La prima parte si dimostra per induzione finita a partire dal Lemma prece-
dente. La seconda parte discende immediatamente dalle definizioni. Domanda: perch´e `e
essenziale l’ipotesi che

i
α
i
= 1?
Micro-esercizio. Nel caso in cui le ¦F
i
(x)¦
n
i=1
sono assolutamente continue, di densit`a
rispettive ¦f
i
(x)¦
n
i=1
, qual `e la densit`a di F(x)?
Definizione. Sia ¦F
i
(x)¦
n
i=1
una sequenza di FdD qualunque e ¦α
i
¦
n
i=1
una sequenza di
numeri reali nonnegativi tali che

n
i=1
α
i
= 1, allora la FdD
F(x) =
n

i=1
α
i
F
i
(x), x ∈ R
`e detta mistura delle ¦F
i
(x)¦, con pesi ¦α
i
¦.
Non si deve pensare che una mistura di FdD sia un oggetto matematico artificioso e di
scarsa utilit`a pratica. In realt`a `e molto facile incappare in variabili aleatorie la cui FdD `e
una mistura di FdD.
Esempi
Esempio 1. Alla luce delle definizioni date in questo paragrafo, l’Esempio 1, del paragrafo
14.2, mostra un esempio di variabile aleatoria discreta la cui FdD `e la mistura di due FdD
geometriche.
Esempio 2. Ogni FdD discreta `e una mistura di FdD discrete degeneri.
Spiegazione. Avevamo gi`a osservato che, per ogni c ∈ R, il gradino traslato 1l(x −c) `e una
FdD. Infatti 1l(x −c) `e nondecrescente, continua da destra, si annulla per x → −∞ e vale
1 per x → ∞. Ha un unico salto, in x = c, di ampiezza 1. Denotando X una v.a. con
FdD 1l(x −c) si ha che P(X = c) = P(X ≤ c) −P(X < c) = F(c) −F(c−) = 1, ovvero X
`e una v.a. degenere, X = c costante. Poich´e ogni FdD discreta si pu`o rappresentare come
F
d
(x) =

x
i
∈.
p(x
i
)1l(x −x
i
),
dove ¦p(x
i
)¦ sono reali nonnegativi, tali che

x
i
∈.
p(x
i
) = 1, si conclude che F
d
(x) `e una
mistura di FdD degeneri.
Esempio 3. Nel magazzino della squadra di minuto mantenimento del DEI si trovano 80
tubi al neon di durata media dichiarata di 8.000 ore e 40 tubi di durata media 12.000
ore. Uno dei tubi dell’aula Ve `e esaurito ed il manutentore K, per effettuare la sosti-
tuzione, sceglie un tubo a caso dal magazzino. Si assuma che la durata di un tubo al
neon sia modellabile con una v.a. di tipo esponenziale. Si determini la densit`a della du-
rata D del tubo scelto a caso dal manutentore. Soluzione. f
D
(x) =
80
120
1
8000
e

x
8.000
1l(x) +
40
120
1
12.000
e

x
12.000
1l(x), `e una mistura di due v.a. assolutamente continue, esponenziali. Si
noti che non `e un’esponenziale!
116
Variabili aleatorie miste
Quando le FdD che compongono una mistura non sono tutte dello stesso tipo, la F(x)
risultante presenta caratteristiche nuove ed interessanti.
Definizione. Una FdD che presenta almeno un salto e che non `e costante a tratti `e detta
mista. Una variabile aleatoria `e detta mista se la sua FdD `e mista.
Osservazione. Ovviamente la FdD di una v.a. mista non `e n´e discreta (poich´e non `e
costante a tratti) n´e assolutamente continua (poich´e ha almeno un salto). La descrizione
generale delle v.a. miste esula dagli scopi del corso.
`
E comunque interessante, ed utile
nelle applicazioni, il caso illustrato nel seguente esempio.
Esempio. La mistura F(x) = λF
d
(x) + (1 − λ)F
ac
(x) (con λ ∈ (0, 1)) di una FdD asso-
lutamente continua e di una FdD discreta `e una FdD mista. Infatti la FdD F(x) si pu`o
rappresentare come (tracciare un grafico qualitativo!)
F(x) = λ

x
i
∈.
p
d
(x
i
)1l(x −x
i
) + (1 −λ)
_
x
−∞
f
ac
(w) dw
che ha salti in corrispondenza dei punti x
i
e non `e costante a tratti grazie alla presenza
della parte integrale. Non essendo continua F(x) non pu`o essere assolutamente continua,
quindi non ammette una funzione di densit`a nel senso usuale, `e per`o possibile definire una
densit`a generalizzata, usando le regole del calcolo generalizzato. La densit`a generalizzata
si pu`o rappresentare come
f(x) = λ

x
i
∈.
p
d
(x
i
)δ(x −x
i
) + (1 −λ) f
ac
(x).
Il valore atteso si determina facendo ricorso alle note regole di calcolo con le funzioni
generalizzate.
E(X) =
_

−∞
xf(x) dx
=
_

−∞
x
_
λ

x
i
∈.
p
d
(x
i
)δ(x −x
i
) + (1 −λ) f
ac
(x)
_
dx
= λ

x
i
∈.
x
i
p
d
(x
i
) + (1 −λ)
_

−∞
xf
ac
(x) dx
Nel seguente esercizio si propone un esempio concreto di mistura di due FdD, una
assolutamente continua, l’altra discreta.
Esercizio. Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatore
deve far girare l’ago di una ruota della fortuna, il cui bordo `e graduato nell’intervallo [0, 2].
Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente alla
posizione dell’ago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco.
Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare la
densit`a e il valore atteso di V .
Soluzione. f
V
(x) =
1
2
_
1
2
1l
[0,2]
(x)
_
+
1
2
_
δ(x + 1)
_
. Il gioco `e equo, infatti E(V ) = 0.
Micro-esercizio. Tracciare la FdD della variabile aleatoria V .
117
20.2 Funzioni di variabili aleatorie
Motivazione. Abbiamo visto che assegnata una variabile aleatoria discreta X ed una fun-
zione g : R → R, la funzione composta Y = g(X) `e sempre una variabile aleatoria. Il
risultato pi` u importante per le funzioni di variabili aleatorie discrete `e il teorema che
consente di calcolarne il valore atteso, quando esiste, a partire dalla densit`a discreta di X
E(g(X)) =

x
i
∈.
g(x
i
)p
X
(x
i
).
Una formula analoga l’abbiamo anche scritta, nella Lezione 17, trattando il valore atteso
delle variabili aleatorie assolutamente continue
E(g(X)) =
_

−∞
g(x)f
X
(x) dx,
ma senza fornire condizioni sufficienti a garantire che l’operazione sia matematicamene
ben definita.
Funzioni di variabili aleatorie. La prima condizione da imporre `e che assegnata la variabile
aleatoria X e la funzione g : R → R la funzione composta Y := g(X) sia ancora una
variabile aleatoria. Nel caso generale ci`o non `e automatico poich´e deve essere garantita la
misurabilit`a delle anti-immagini. Fortunatamente esiste una condizione sufficiente molto
semplice.
Definizione. La funzione g : R →R si dice misurabile se, per ogni B ∈ B(R),
g
−1
(B) := ¦ x ∈ R; g(x) ∈ B¦ ∈ B(R)
Commento. L’idea di misurabilit` a `e esattamente la stessa introdotta per definire le variabili aleatorie.
Poich´e nel caso generale le σ-algebre giocano un ruolo, `e comune indicare la variabile aleatoria X : Ω →R
con la scrittura pi` u completa, che mette in evidenza le σ-algebre di partenza e di arrivo, X : (Ω, T) →
(R, B(R)). Allora X `e una v.a. se X
−1
(B) ∈ T per ogni B ∈ B(R). Nel caso di funzioni g : R →R, dominio
e codominio di g coincidono con R, dotato della sua naturale σ−algebra di Borel, cio`e g : (R, B(R)) →
(R, B(R)) e la condizione di misurabilit` a `e che g
−1
(B) ∈ B(R) per ogni B ∈ B(R). L’ipotesi di misurabilit`a `e
molto blanda. Le funzioni continue, ma anche le funzioni solamente continue a tratti, sono tutte misurabili.
Per questo motivo, in questo primo corso di Probabilit` a, non menzioneremo pi` u le questioni di misurabilit` a
per funzioni g : R →R.
Lemma. Se X `e una variabile aleatoria e g : R → R una funzione misurabile allora
Y = g(X) `e una variabile aleatoria.
Dimostrazione. Basta verificare la misurabilit`a delle anti-immagini di g(X) ovvero veri-
ficare che
_
g(X)
¸
−1
(B) ∈ T per ogni B ∈ B(R). Poich´e
_
g(X)
¸
−1
(B) = X
−1
_
g
−1
(B)),
l’ipotesi su g e il fatto che X `e una variabile aleatoria sono sufficienti a conludere.
Siamo ora in grado di specificare condizioni sufficienti per l’esistenza del valore atteso
di una funzione di variabile aleatoria assolutamente continua.
Lemma. Se X `e una variabile aleatoria assolutamente continua di densit`a f
X
, e se g `e una
funzione misurabile tale che [g(x)[f
X
(x) `e integrabile allora il valore atteso E(g(X)) esiste
e si pu`o calcolare come
E(g(X)) =
_

−∞
g(x)f
X
(x) dx.
Dimostrazione. Omessa.
118
Calcolo della densit`a di Y = g(X)
Motivazione. Come abbiamo visto, sia nel caso discreto che nel caso assolutamente con-
tinuo, il valore atteso E(g(X)) si pu`o calcolare senza necessariamente calcolare prelimi-
narmente la densit`a f
Y
(y) della variabile aleatoria Y = g(X). Peraltro vi sono casi in
cui il problema della determinazione della densit`a di Y = g(X) `e interessante per s´e.
Ad esempio, nella Lezione 18, abbiamo scoperto che la densit`a normale `e invariante per
trasformazioni lineari: se X ∼ N(µ, σ
2
) e Y = g(X) := aX+b allora Y `e ancora distribui-
ta normalmente. Questa informazione `e stata preziosa per ridurre i calcoli di probabilit`a
per qualunque v.a. normale a calcoli relativi alla v.a. normale standard.
In questa e nella prossima lezione presenteremo metodi per il calcolo della densit`a
f
Y
(y) che illustreremo con svariati esempi. Il problema di base si pu`o impostare come
segue.
Data la funzione di distribuzione F
X
(x), o in alternativa la densit`a f
X
(x), e la
funzione misurabile g : R →R, determinare la funzione di distribuzione F
Y
(y),
o in alternativa la densit`a f
Y
(y), della v.a. Y = g(X).
Una strategia molto conveniente (non l’unica) per risolvere questo tipo di problemi `e
di ricavare la funzione di distribuzione F
Y
(y) a partire dai dati (F
X
(x) o f
X
(x) e g(x)) e
quindi calcolare, dove esiste, f
Y
(y) =
d
dy
F
Y
(y). In generale si tratta di calcolare
F
Y
(y) := P(Y ≤ y) = P(g(X) ≤ y) = P
_
X ∈ g
−1
_
(−∞, y]
_
_
,
da cui, se richiesta, si pu`o determinare la densit`a f
Y
(y), calcolando la derivata rispetto ad
y del membro destro. Si noti che il calcolo delle anti-immagini
g
−1
_
(−∞, y]
_
si pu`o condurre, per cos`ı dire, “fuori linea” nel senso che esse non dipendono in alcun modo
dalla distribuzione F
X
(x). Una volta calcolate, le anti-immagini si possono utilizzare per
determinare F
Y
(y) qualunque sia F
X
(x).
Primi esempi di calcolo della densit`a di Y = g(X)
Esempio 1. Dati: y = g(x) = ax +b, con a ,= 0 ed X ∼ |
_
[c, d]
_
.
Cominciamo con la determinazione di
F
Y
(y) = P(Y ≤ y) = P(aX +b ≤ y) =
_
_
_
P
_
X ≤
y−b
a
_
= F
X
_
y−b
a
_
, se a > 0,
P
_
X ≥
y−b
a
_
= 1 −F
X
_
y−b
a
_
, se a < 0,
e calcolando la derivata rispetto ad y, compattando i due casi a > 0 e a < 0,
f
Y
(y) =
1
[a[
f
X
_
y −b
a
_
.
Per concludere ricordiamo che la v.a. X ∼ |
_
[c, d]
_
ha densit`a
f
X
(x) =
_
1
d−c
, se x ∈ [c, d],
0, altrove
quindi sar`a
f
Y
(y) =
_
1
[a[
1
d−c
, se
y−b
a
∈ [c, d],
0, altrove
119
o, pi` u esplicitamente,
f
Y
(y) =
_
1
[a[(d−c)
, se y ∈ [ac +b, ad +b],
0, altrove
La conclusione `e che Y ∼ |
_
[ac +b, ad +b]
_
.
Commento: Questo esempio mostra che anche la densit`a uniforme, come la normale, `e
invariante per trasformazioni lineari.
Esempio 2. Dati: y = g(x) = ax +b, con a > 0 ed X ∼ Exp(λ).
Quanto fatto per l’esempio precedente continua a valere, parola per parola, fino all’espres-
sione
f
Y
(y) = F
t
X
(y) =
1
a
f
X
_
y −b
a
_
poich´e questa parte del problema dipende solo dalla funzione g(x) e non dalla densit`a della
variabile aleatoria X. Per concludere ricordiamo che per la v.a. X ∼ Exp(λ) la densit`a
f
X
(x) = λe
−λx
1l(x). Sostituendo troviamo che
f
Y
(y) =
λ
a
e
−λ
y−b
a
1l
_
y −b
a
_
.
Commento. Se b = 0 allora Y ∼ Exp
_
λ
a
_
, mentre se b ,= 0 allora la v.a. Y non `e pi` u
di tipo esponenziale poich´e essa non `e pi` u concentrata sulla semiretta [0, ∞), bens`ı sulla
semiretta [b, ∞). La densit`a esponenziale `e invariante per trasformazioni di cambio scala
con a > 0, non per trasformazioni lineari generali.
Esercizio. Considerare il caso a < 0. In questo caso la densit`a f
Y
(y) non `e mai esponen-
ziale, poich´e essa `e concentrata sulla semiretta (−∞, b].
Esempio 3. Dati: y = g(x) =
a
x
, con a > 0 ed X ∼ Cauchy(α), ovvero
f
X
(x) =
1
π
α
x
2

2
Cominciamo con il determinare la FdD F
Y
(y).
F
Y
(y) = P(Y ≤ y) = P(g(X) ≤ y) = P
_
X ∈ g
(−1)
_
(−∞, y]
_
_
Si devono calcolare le anti-immagini g
(−1)
_
(−∞, y]
_
, al variare di y ∈ R. I grafici qui sotto
permettono di concludere che
g
(−1)
_
(−∞, y]
_
=
_
¸
¸
_
¸
¸
_
_
a
y
, 0
_
, se y < 0,
(−∞, 0) se y = 0,
(−∞, 0) ∪
_
a
y
, ∞
_
se y > 0.
La FdD di Y = g(X) vale quindi
F
Y
(y) = P
_
X ∈ g
(−1)
_
(−∞, y]
_
_
=
_
¸
_
¸
_
_
0
a
y
f
X
(u) du, se y < 0,
P(X < 0), se y = 0,
P(X < 0) +
_

a
y
f
X
(u) du, se y > 0.
Ricordando che
d
dx
_
b
a(x)
f(u) du = −f
_
a(x)
_
da(x)
dx
,
120
si determina la densit`a f
Y
(y) calcolando la derivata di F
Y
(y).
f
Y
(y) =
dF
Y
(y)
dy
=
a
y
2
f
X
_
a
y
_
y ∈ R ¸ ¦0¦
I conti fatti finora forniscono la densit`a di Y =
a
X
(con a > 0) in funzione di f
X
(x).
Specializzando al caso f
X
(x) = Cauchy(α) troviamo
f
Y
(y) =
a
y
2
1
π
α
_
a
y
_
2

2
=
1
π
a
α
y
2
+
_
a
α
_
2
da cui si conclude che Y ∼ Cauchy
_
a
α
_
. In particolare, se X ∼ Cauchy(1) allora Y :=
1
X
∼ Cauchy(1).
Esempio 4. Dati: y = g(x) = x1l(x), funzione rampa, e X ∼ N(0, 1).
Osservazione. Questo esempio `e importante poich´e si verifica un fenomeno inaspettato ed
inquietante. La funzione g(x) `e ovunque continua e la variabile aleatoria X `e assolutamente
continua, con densit`a estremamente regolare (la normale `e di classe C

(R)), ciononostante
la variabile aleatoria Y = X1l(X) `e, come vedremo, una v.a. mista.
Iniziamo con il calcolo della distribuzione di Y [conviene sempre tracciare il grafico di g].
F
Y
(y) = P(Y ≤ y) = P(X1l(X) ≤ y) =
_
0, se −∞ < y < 0,
P(X ≤ y), se y ≥ 0,
che, in termini di F
X
ed usando il gradino per compattare la notazione, si scrive
F
Y
(y) = F
X
(y) 1l(y)
Nota Bene. Per capire cosa succede si devono tracciare i grafici. La F
Y
(y) `e nulla per y < 0,
vale F
Y
(0) = F
X
(0) =
1
2
per y = 0, ed `e crescente per y > 0. Questo `e il comportamento
della funzione di distribuzione di una v.a. mista: ha un salto, ma non `e costante a tratti.
Qual `e la spiegazione intuitiva per questo inaspettato comportamento della v.a. Y = g(X)
pur con g ed f
X
molto regolari?
121
Tutto dipende dal fatto che la funzione g(x) `e costante in un intervallo, in
questo caso la semiretta (−∞, 0]. Questo fa si che tutta la probabilit`a che la
v.a. X attribuisce alla semiretta (−∞, 0] si concentri nel punto Y = 0.
Dal grafico della g (vi avevo detto di tracciarlo?), e poich´e X ∼ N(0, 1), `e ovvio che
P(Y = 0) = P(X ≤ 0) =
1
2
. Ma noi sappiamo che, per una v.a. continua, P(Y = y) = 0
per ogni y ∈ R. Quindi Y non pu`o essere continua.
Per terminare i calcoli relativi all’esempio calcoliamo la densit`a f
Y
(y) come derivata
di F
Y
(y). Sapendo che la v.a. Y non `e assolutamente continua ci aspettiamo una parte
impulsiva nella densit`a, corrispondente alla parte discreta della v.a. Y , in questo caso il
solo punto Y = 0 di probabilit`a P(Y = 0) =
1
2
.
d
dy
F
Y
(y) = f
X
(y)1l(y) +F
X
(0) δ(y)
=
1


e

1
2
y
2
1l(y) +
1
2
δ(y)
=
1
2
_
2


e

1
2
y
2
1l(y)
_
+
1
2
δ(y)
L’ultima formula esprime la densit` a generalizzata di Y come mistura, con entrambi i pesi
pari ad
1
2
, della densit`a assolutamente continua
2


e

1
2
y
2
1l(y) e della densit`a generalizzata,
discreta, degenere δ(x).
Attenzione.
2


e

1
2
y
2
1l(y) `e una densit`a, mentre
1


e

1
2
y
2
1l(y) non `e una densit`a: perch´e?
Micro-esercizio fondamentale. La scrittura U ∼ V indica che le v.a. U e V hanno
la medesima FdD e/o densit`a. Per sviluppare la vostra intuizione, senza fare nessun
conto, convincetevi che, con la funzione rampa, g(x) = x1l(x),
• se X ∼ Exp(λ) allora g(X) ∼ X,
• se X ∼ |([a, b]), con 0 ≤ a < b, allora g(X) ∼ X
• se X ∼ |([−2, −1]), allora g(X) = 0, la v.a. degenere, costante pari a 0.
• se X ha densit`a concentrata nella semiretta [0, ∞), qualunque, allora g(X) ∼ X
• se X ha densit`a concentrata nella semiretta (−∞, 0], qualunque, allora Y = g(X) =
0, variabile aleatoria degenere costante.
Morale della lezione. Chi all’inizio della lezione ha ritenuto le variabili aleatorie miste una
strana costruzione teorica di nessuna rilevanza pratica deve ricredersi. Le v.a. miste si
presentano automaticamente in contesti molto comuni. Abbiamo visto che si ottengono
v.a. miste modellando fenomeni con un doppio meccanismo aleatorio, uno discreto ed
uno continuo (esempio del gioco con moneta e ruota della fortuna). Inoltre v.a. miste
si generano molto naturalmente processando una v.a. continua X con semplici funzioni
g(X).
122
Appendice alla Lezione 20 (non in programma nell’a.a. 12/13)
Decomposizione delle funzioni di distribuzione
`
E possibile descrivere in modo semplice la famiglia di tutte le FdD. Allo scopo ricordiamo
che sono FdD tutte e sole le funzioni F : R →R
+
tali che (a.) F(x) `e non descrescente, (b.)
F(x+) = F(x) per ogni x ∈ R, (c.) valgono i limiti F(−∞) = 0, F(∞) = 1. Ricordiamo
che se F(x) `e una FdD esiste sempre F(x−). Se F(x−) = F(x+) allora x `e un punto di
continuit`a di F(x), altrimenti x `e un punto di salto e vale P(X = x) = F(x) − F(x−).
Denotiamo con T l’insieme dei punti di salto di F(x), in simboli
T := ¦ x ∈ R[ F(x) −F(x−) > 0 ¦
Lemma. Qualunque sia F(x) il corrispondente insieme T `e numerabile.
Dimostrazione. Sia T
k
= ¦x ∈ R[F(x) −F(x−) >
1
k
¦ l’insieme dei punti di discontinuit`a
di F con salto di ampiezza superiore a
1
k
. Dato che 0 ≤ F(x) ≤ 1, la cardinalit`a di T
k
`e
minore o uguale a k. Poich`e T = ∪

k=1
T
k
`e una unione numerabile di insiemi di cardinalita
finita si conclude che T `e al pi` u numerabile.
Poich´e T `e numerabile la seguente somma `e ben definita (`e una somma finita se T `e un
insieme finito, una serie se T `e infinito numerabile) e convergente
p :=

x∈R
F
X
(x) −F
X
(x−) = P(X ∈ T)
Chiaramente p ∈ [0, 1] poich`e F(x) ∈ [0, 1] ed i salti sono tutti nonnegativi. Convincetevi
dell’ultima asserzione. Se p = 0 la FdD `e una funzione continua (non ha cio`e nessun salto),
ma non `e necessariamente assolutamente continua (cio`e non ammette necessariamente
densit`a). Se p = 1 i salti della FdD contribuiscono tutta la massa di probabilit`a quindi la
FdD `e costante a tratti, cio`e discreta. Infine, se 0 < p < 1 allora la FdD presenta almeno
un salto, e non `e costante a tratti ovvero `e mista. Il seguente teorema mostra che ogni
FdD `e una mistura di una FdD continua e di una discreta.
Teorema. Ogni FdD F(x) con 0 < p < 1 `e rappresentabile, in modo unico, come mistura
F(x) = p F
d
(x) + (1 −p) F
c
(x) (1)
dove F
d
(x) `e una FdD discreta ed F
c
(x) `e una FdD continua (non necessariamente
assolutamente continua).
Dimostrazione (costruttiva). Sia X una qualunque variabile aleatoria la cui FdD `e F(x)
(l’introduzione della v.a. X non `e indispensabile, ma conveniente notazionalmente). Dalla
formula della probabilit`a totale
F(x) = P(X ≤ x) = P(X ≤ x[X ∈ T)P(X ∈ T) +P(X ≤ x[X ∈ T
c
)P(X ∈ T
c
)
Osserviamo che, per definizione, P(X ∈ T) = p, inoltre le funzioni di x definite da P(X ≤
x[X ∈ T) e P(X ≤ x[X ∈ T
c
) sono entrambe FdD, poich`e le probabilit`a condizionate
sono misure di probabilit`a rispetto al primo evento. Definiamo per brevit`a
F
d
(x) := P(X ≤ x[X ∈ T) =

w≤x
P(X = w[X ∈ T),
dove la somma, come mostreremo immediatamente, `e ben definita. Si osservi che, per ogni
w ∈ R,
P(X = w[X ∈ T) =
P([X = w] ∩ [X ∈ T])
P([X ∈ T])
=
P(X = w)
p
, (2)
123
infatti, se w ∈ T l’identit`a `e banale, mentre se w ,∈ T allora w `e un punto di continuit`a
di F(x) e quindi entrambi i membri si annullano. La somma

w≤x
P(X = w[X ∈ T) `e
dunque ben definita, poich´e gli addendi sono non nulli solo per w ∈ T che `e un insieme
numerabile. Si ottiene
F
d
(x) := P(X ≤ x[X ∈ T) =

w≤x
P(X = w[X ∈ T) =

w∈T
w≤x
P(X = w)
p
L’ultima espressione dimostra che F
d
(x) `e effettivamente una FdD discreta.
La componente continua F
c
(x) si determina sottraendo la parte discreta e rinormalizzando.
Si definisca
F
c
(x) = P(X ≤ x[X ∈ T
c
) =
F(x) −pF
d
(x)
1 −p
(3)
`
E facile verificare che F
c
(x) `e continua (esercizio – suggerimento: basta verificare che
F
c
(x) −F
c
(x−) = 0 nei punti x ∈ T). Per terminare la dimostrazione basta osservare che
la (3) e la (1) sono equivalenti. Aggiungere dimostrazione unicit`a.
Osservazione. Nei casi d’interesse la costruzione della mistura `e molto semplice. Si de-
termina p facendo la somma dei salti di F(x). Quindi si costruisce F
d
(x) sommando i
salti nella semiretta (−∞, x] e normalizzando dividendo per p. Una volta ottenuta la
componente F
d
(x) si effettua la differenza (3).
Esempio 1. Determinare la rappresentazione in termini di mistura della FdD mista F
X
(x)
in figura.
6
-
t
x
2 −1
p
1
F
X
(x)
1
La mistura cercata `e
F
X
(x) = p F
d
X
(x) + (1 −p) F
c
X
(x)
dove
F
d
X
(x) =
_
0, x < −1,
1, 1 ≤ x.
e
F
c
X
(x) =
_
_
_
0, x < 0,
x
2
, 0 ≤ x < 2,
1, 1 ≤ x.
Si riconosce per ispezione che F
d
X
(x) `e la FdD degenere concentrata in -1, mentre F
c
(x) `e la
FdD uniforme U(0, 2), quindi assolutamente continua. La funzione di densit`a generalizzata
corrispondente ad F(x) `e
f(x) = p δ(x + 1) + (1 −p)
1
2
(1l(x) −1l(x −2))
124
Esercizio proposto. Determinare (graficamente!) la rappresentazione in termini di mistura
della FdD in figura.
6
-
t
t
t
x 0.4 -0.6 -0.8 -1
0.2
0.4
0.6
0.8
1
F
X
(x)
125
Lezione 21 (Mercoled`ı, 24 aprile 2013, ore 16:25-18:05)
21.1 Vettori aleatori
Abbiamo introdotto i vettori aleatori discreti nella Lezione 14. Vedremo ora il caso
generale, e discuteremo in dettaglio i vettori aleatori assolutamente continui.
Definizione. Sia ( Ω, T, P ) uno spazio di probabilit`a assegnato. Un vettore aleatorio su Ω
`e una mappa
W : Ω →R
n
, ω → W(ω) =
_
W
1
(ω), . . . W
n
(ω)
_
tale che (condizione di misurabilit` a)
W
(−1)
(B) ∈ T, per ogni B ∈ B(R
n
)
Osservazioni
(a.) La σ-algebra di Borel di R
n
, denotata B(R
n
), `e la minima σ-algebra che contiene gli
aperti di R
n
.
(b.) Se W `e un vettore aleatorio, le sue componenti W
i
sono variabili aleatorie, infat-
ti la misurabilit`a delle funzioni W
i
(ω), per i = 1, . . . n `e una facile conseguenza della
misurabilit`a del vettore.
Come per le variabili aleatorie scalari, anche per i vettori aleatori interessa probabi-
lizzare lo spazio dei valori, in questo caso R
n
. Utilizzando la tecnica introdotta con le
variabili aleatorie discrete, poi estesa ai vettori discreti e alle variabili aleatorie scalari
generali, la misura di probabilit`a indotta da P su R
n
`e definita come
P
W
(B) := P
_
W
(−1)
(B)
_
, per ogni B ∈ R
n
Abbiamo gi`a visto (Lezione 16) che, per una variabile aleatoria scalare X, la misura
indotta P
X
`e completamente specificata dalla funzione di distribuzione F
X
(x) := P(X ≤
x) = P
X
( (−∞, x] ). L’analogo multidimensionale della FdD `e la funzione di distribuzione
congiunta del vettore W, definita come
F
W
(w
1
, w
2
, . . . w
n
) := P( W
1
≤ w
1
, W
2
≤ w
2
, . . . W
n
≤ w
n
).
Come nel caso scalare, anche nel caso vettoriale la FdD congiunta caratterizza completa-
mente la misura indotta P
W
, come illustrato di seguito nel caso bidimensionale.
Vettori aleatori bidimensionali
Per semplicit`a notazionale consideriamo il caso n = 2, ovvero i vettori bidimensionali
W = (W
1
, W
2
). Ci riferiremo indifferentemente al vettore W o alla coppia di variabili
aleatorie (W
1
, W
2
). Per denotare le componenti di un vettore bidimensionale useremo
indifferentemente le notazioni (W
1
, W
2
), o (X
1
, X
2
), o (X, Y ).
Definizione. La FdD congiunta della coppia di variabili aleatorie (X, Y ) `e
F
XY
(x, y) := P(X ≤ x, Y ≤ y) = P( (X, Y ) ∈ B), dove B = (−∞, x] (−∞, x]
Lemma. La FdD congiunta caratterizza completamente P
XY
.
Dimostrazione. Per ogni rettangolo R := (x
1
, x
2
] (y
1
, y
2
] ∈ R
2
, si ha che, vedi figura,
P
XY
(R) = P(x
1
< X ≤ x
2
, y
1
< Y ≤ y
2
)
= F
XY
(x
2
, y
2
) −F
XY
(x
1
, y
2
) −F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
) (1)
126
6
-
6
-
6
-
6
-
x
1
x
2
y
1
y
2
R
+ − − +
Poich´e ogni evento B ∈ B(R
n
) si pu`o rappresentare come unione numerabile di rettangoli
si conclude che F
XY
(x, y) caratterizza completamente la probabilit`a indotta su R
2
.
Propriet`a della FdD bidimensionale
(a.) F
XY
(−∞, −∞) := lim
x,y→−∞
F
XY
(x, y) = 0.
(b.) F
XY
(∞, ∞) := lim
x,y→∞
F
XY
(x, y) = 1.
(c.) F
XY
(∞, y) := lim
x→∞
F
XY
(x, y) = F
Y
(y).
(d.) F
XY
(x, ∞) := lim
y→∞
F
XY
(x, y) = F
X
(x).
Dimostrazione. Sono tutte conseguenze della continuit`a della misura di probabilit`a.
Per la (a.) si osservi che
lim
x,y→−∞
[X ≤ x] ∩ [Y ≤ y] = ∅ ∩ ∅ = ∅,
quindi, per la continuit`a della probabilit`a,
lim
x,y→−∞
F
XY
(x, y) = lim
x,y→−∞
P([X ≤ x] ∩ [Y ≤ y]) = P(∅) = 0
Per la (b.) basta osservare che
lim
x,y→∞
[X ≤ x] ∩ [Y ≤ y] = Ω ∩ Ω = Ω,
quindi, per la continuit`a della probabilit`a,
lim
x,y→∞
F
XY
(x, y) = lim
x,y→∞
P([X ≤ x] ∩ [Y ≤ y]) = P(Ω) = 1
Per la (c.) si osservi che
lim
x→∞
[X ≤ x] ∩ [Y ≤ y] = Ω ∩ [Y ≤ y] = [Y ≤ y],
quindi, per la continuit`a della probabilit`a
lim
x→∞
F
XY
(x, y) = lim
x→∞
P([X ≤ x] ∩ [Y ≤ y]) = P([Y ≤ y]) = F
Y
(y)
ed analogamente si dimostra la (d.).
127
21.2 Vettori aleatori bidimensionali assolutamente continui
Questo `e il caso in cui esiste una funzione f
XY
(x, y), non negativa e integrabile secondo
Riemann su R
2
, tale che
F
XY
(x, y) =
_
y
−∞
_
x
−∞
f
XY
(u, v) dudv
La funzione f
XY
`e detta densit`a congiunta della coppia di v.a. (X, Y ).
Propriet`a della densit`a congiunta
(a.) Non-negativit`a
f
XY
(x, y) ≥ 0 per ogni (x, y) ∈ R
2
.
(b.) Normalizzazione
__
R
2
f
XY
(x, y) dxdy = 1,
conseguenza immediata della F
XY
(∞, ∞) = 1.
Lemma. Ogni funzione f(x, y) integrabile secondo Riemann su R
2
, non-negativa e normalizzata `e la funzione
di densit`a di una coppia di variabili aleatorie (X, Y ). (La dimostrazione ricalca quella del caso scalare)
(c.) Relazione con la FdD.
In ogni punto (x, y) ∈ R
2
di continuit`a della densit`a f
XY
(x, y),
f
XY
(x, y) =

2
∂x∂y
F
XY
(x, y),
come segue dal teorema fondamentale del calcolo.
(d.) Calcolo della probabilit`a di eventi assegnati
Per i rettangoli il calcolo `e immediato. Sia R := (x
1
, x
2
] (y
1
, y
2
], allora
P((X, Y ) ∈ R) =
__
R
f
XY
(x, y) dσ
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy,
infatti, utilizzando la FdD congiunta e ricordando la (1),
P((X, Y ) ∈ R) = P(x
1
< X ≤ x
2
, y
1
< Y ≤ y
2
)
= F
XY
(x
2
, y
2
) −F
XY
(x
1
, y
2
) −F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
)
=
__
y
2
−∞
_
x
2
−∞

_
y
2
−∞
_
x
1
−∞

_
y
1
−∞
_
x
2
−∞
+
_
y
1
−∞
_
x
1
−∞
_
f
XY
(x, y) dxdy
=
_
y
2
y
1
_
x
2
x
1
f
XY
(x, y) dxdy =
__
R
f
XY
(x, y) dσ
Per eventi generali, B ∈ B(R
2
), vale
P
_
(X, Y ) ∈ B
_
=
__
B
f
XY
(x, y) dxdy
che si giustifica ricordando che ogni B ∈ B(R
n
) `e un unione numerabile di rettangoli ed
usando poi l’addittivit`a. Il calcolo della probabilit`a di un assegnato evento si riduce quindi
al calcolo di un integrale doppio.
128
(e.) Interpretazione della densit`a congiunta.
Come per il caso scalare, i valori della densit`a congiunta f
XY
(x, y) non rappresentano
probabilit`a. Si pu`o dare un’interpretazione della densit`a simile a quella data nel caso
scalare. Applicando due volte il teorema della media integrale
P(a < X ≤ a +h, b < Y ≤ b +k) =
_
b+k
b
_
a+h
a
f
XY
(x, y) dxdy
=
_
b+k
b
f
XY
(ξ, y) hdy
= f
XY
(ξ, ζ) hk ≈ f
XY
(a, b) hk
dove ξ ∈ (a, a +h), ζ ∈ (b, b +k). Possiamo quindi scrivere
P(a ≤ X ≤ a +h, b ≤ Y ≤ b +k) ≈ f
XY
(a, b) hk, per h, k piccoli
(f.) Densit`a marginali.
Ricordando che F
Y
(y) = F
XY
(∞, y) si ha che
F
Y
(y) = F
XY
(∞, y) =
_
y
−∞
__

−∞
f
XY
(u, v) du
_
dv
e, calcolando la derivata rispetto ad y,
f
Y
(y) =
d
dy
F
Y
(y) =
d
dy
_
y
−∞
__

−∞
f
XY
(u, v) du
_
dv
=
_

−∞
f
XY
(u, y) du.
Analogamente
f
X
(x) =
_

−∞
f
XY
(x, v) dv.
Normalmente queste formule si trovano scritte come f
X
(x) =
_

−∞
f
XY
(x, y) dy, ed analoga-
mente per l’altra.
Osservazione. La conoscenza delle FdD F
X
(x) ed F
Y
(y) delle componenti X ed Y di
un vettore aleatorio (X, Y ) non `e sufficiente alla determinazione della FdD congiunta
F
XY
(x, y).
Nota bene. Per i vettori assolutamente continui, come per le v.a. scalari assolutamente
continue, se l’evento si riduce ad un punto la probabilit`a `e nulla.
P(X = a, Y = b) = 0, per ogni a, b ∈ R.
Nel caso bidimensionale assolutamente continuo sono inoltre nulle le probabilit`a
P(X = a, b
1
≤ Y ≤ b
2
) = 0, P(a
1
≤ X ≤ a
2
, Y = b) = 0,
ovvero: la probabilit`a di ogni rettangolo di R
2
di area nulla (un segmento in R
2
) `e nulla.
Immediata conseguenza di questo fatto `e che i rettangoli (x
1
, x
2
](y
1
, y
2
], [x
1
, x
2
][y
1
, y
2
],
ecc. che si ottengono aggiungendo o rimuovendo frontiere ad R, hanno tutti la stessa
probabilit`a. Pi` u in generale, per una propriet`a degli integrali doppi di funzioni Riemann
integrabili, se il dominio d’integrazione ha area nulla, l’integrale `e nullo. Quindi se ad
esempio B `e una curva in R
2
, la probabilit`a P
_
(X, Y ) ∈ B
_
= 0.
129
Lezione 22 (Luned`ı, 29 aprile 2013, ore 10:30-12:15)
22.1 Densit`a bidimensionale uniforme
Sia D ∈ B(R
2
), un sottoinsieme limitato. Si consideri la funzione
f(x, y) =
_
c se (x, y) ∈ D,
0 se (x, y) / ∈ D.
Facendo ricorso alla funzione indicatrice del sottoinsieme D, la funzione f si scrive in
forma compatta
f(x, y) = c
χ
D
(x, y).
Mostriamo ora che, scegliendo opportunamente c ∈ R, la funzione f `e una funzione di
densit`a congiunta. La condizione di integrabilit`a secondo Riemann `e verificata banalmente
essendo f costante su D e su D
c
. Affinch´e sia f(x, y) ≥ 0 `e sufficiente che c ≥ 0. Peraltro
il valore di c `e imposto dalla condizione di normalizzazione, in particolare
__
R
2
f(x, y) dσ =
__
R
2
c
χ
D
(x, y) dσ = c area(D).
Si ricava che c =
1
area(D)
e che la funzione
f(x, y) =
1
area(D)
χ
D
(x, y)
`e una densit`a congiunta su R
2
.
Definizione. Il vettore (X, Y ) `e congiuntamente uniforme sul sottoinsieme limitato D ∈
B(R
2
), e si denota (X, Y ) ∼ |(D), se esso ha densit`a di probabilit`a congiunta
f
XY
(x, y) =
1
area(D)
χ
D
(x, y)
Propriet`a della densit`a uniforme bidimensionale
Per ogni sottoinsieme B ∈ B(R
2
) risulta
20
P
_
(X, Y ) ∈ B
_
=
1
area(D)
__
B
1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
B
(x, y) 1l
D
(x, y) dxdy
=
1
area(D)
__
R
2
1l
B∩D
(x, y) dxdy
=
area(B ∩ D)
area(D)
,
che `e esattamente quello che l’intuizione suggerisce. Si noti che se, in particolare, B ⊂
D allora P(B) =
area(B)
area(D)
non dipende dalla posizione del sottoinsieme B all’interno del
dominio D, ma solo dalla sua area.
`
E questa propriet`a che giustifica il nome della densit`a.
Micro-esercizio. Meditare sull’analogia tra i vettori uniformi su un dominio limitato D ∈
B(R
2
) e le variabili aleatorie uniformi su un intervallo finito [a, b] ∈ B(R).
20
Si osservi che, se E, F ⊂ R
2
allora
χ
E
(x, y)
χ
F
(x, y) =
χ
E∩F
(x, y)
130
Esercizi svolti in aula
Esercizio 1. Data la funzione
f(x, y) =
_
x
2
+
xy
3
se (x, y) ∈ D,
0, se (x, y) / ∈ D,
dove
D = ¦ (x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 2 ¦
Verificare che la funzione f `e una densti`a congiunta e, detto (X, Y ) un vettore di densit`a
congiunta f
XY
= f, calcolare la probabilit`a
P
_
(X, Y ) ∈ E
_
, dove E = ¦ (x, y); x +y ≥ 1 ¦
Esercizio 2. La coppia di v.a. (X, Y ) ha densit`a congiunta uniforme nel dominio
D = ¦ (x, y); (x −1)
2
+ (y −1)
2
≤ 1 ¦
Calcolare le densit`a marginali f
X
(x) e f
Y
(y).
Esercizio 3. Data la densit`a congiunta
f
XY
(x, y) =
_
λ
2
e
−λ(x+y)
se (x, y) ∈ R
2
+
,
0, altrove,
verificare che f
XY
`e una densit`a e calcolare P
_
X ≥ Y
_
.
22.2 Osservazione sui vettori misti
Abbiamo ora trattato sia i vettori aleatori discreti che quelli assolutamente continui. La
classificazione delle variabili aleatorie scalari in discrete, assolutamente continue e miste
vale anche nel caso vettoriale. La variet`a di possibili comportamenti `e molto maggiore nel
caso vettoriale. Le componenti del vettore possono essere di diversa natura, una discreta
ed una continua, e.g, (X, Y ) = (sesso, altezza), oppure almeno una delle componenti `e
mista, o entrambe sono miste. Tempo permettendo vedremo nelle prossime lezioni come
trattare questi casi.
22.3 Funzioni scalari Z = g(X, Y ) di vettori assolutamente continui
Sia (X, Y ) un vettore aleatorio assolutamente continuo, di densit`a congiunta f
XY
(x, y), e
sia g : R
2
→R una funzione misurabile, allora Z = g(X, Y ) `e una variabile aleatoria ed ha
senso porsi il problema del calcolo (se esistono) del suo valore atteso e/o della sua densit`a.
Calcolo del valore atteso
Anche in questo caso il valore atteso della variabile aleatoria scalare Z = g(X, Y ) si pu`o
calcolare, senza dover preliminarmente determinare la densit`a f
Z
(z), e vale
E(g(X, Y )) =
__
R
2
g(x, y)f
XY
(x, y) dxdy.
131
La dimostrazione, data nella Lezione 14 per il caso dei vettori discreti, non `e adattabile al
caso assolutamente continuo (aggiungere dimostrazione in prossima revisione).
Esempio. Un semplice, ma importante, esempio `e g(x, y) = x +y. In questo caso
E(X +Y ) =
__
R
2
(x +y)f
XY
(x, y) dxdy
=
__
R
2
xf
XY
(x, y) dxdy +
__
R
2
yf
XY
(x, y) dxdy
=
_
R
xf
X
(x) dx +
_
R
yf
Y
(y) dy = E(X) +E(Y )
Facendo ricorso a questo risultato si dimostra l’addittivit`a del valore atteso nel caso
assolutamente continuo.
Densit`a di funzioni scalari di vettori assolutamente continui
A volte il problema d’interesse `e proprio la determinazione della densit`a f
Z
(z) della vari-
abile aleatoria scalare Z = g(X, Y ).
`
E facile scrivere la funzione di distribuzione di Z
facendo ricorso ad una formula molto generale, e quindi molto astratta.
F
Z
(z) := P(Z ≤ z) = P(g(X, Y ) ≤ z) =
__
D
z
f
XY
(x, y) dxdy,
dove
D
z
= ¦ (x, y) ; g(x, y) ≤ z ¦.
La densit`a cercata `e
f
Z
(z) =
d
dz
F
Z
(z).
Esempio importante. Sia Z = X +Y , allora
F
Z
(z) :=
__
x+y≤z
f
XY
(x, y) dxdy =
_

−∞
__
z−y
−∞
f
XY
(x, y) dx
_
dy.
Si tracci un grafico del dominio per capire l’integrale iterato. Calcolando la derivata
rispetto a z,
f
Z
(z) =
d
dz
F
Z
(z) =
_

−∞
f
XY
(z −y, y) dy
`
E possibile scambiare i ruoli di x ed y nel calcolo dell’integrale iterato. In tal caso si arriva
alla formula equivalente
f
Z
(z) =
d
dz
F
Z
(z) =
_

−∞
f
XY
(x, z −x) dx
132
Lezione 23 (Marted`ı, 30 aprile 2013, ore 16:25-18:05)
23.1 Condizionamento per v.a. assolutamente continue
Abbiamo gi`a avuto modo di apprezzare il ruolo delle probabilit`a condizionate nella costruzione
di modelli probabilistici. Per le variabili aleatorie discrete, nelle Lezioni 14 e 15, abbiamo
definito le densit`a condizionate discrete. Per comodit`a avevamo distinto tre casi, che si
presentano spesso nelle applicazioni, (a.) densit`a condizionata di una v.a. X rispetto ad
un evento E qualunque: f
X[E
(x[E), (b.) densit`a condizionata di una v.a. X rispetto
ad un evento [X ∈ B] generato dalla v.a. X stessa: f
X[[X∈B]
(x[X ∈ B), (c.) densit`a
condizionata di una v.a. X rispetto all’evento [Y = y], il valore assunto da un’altra v.a.:
f
X[Y
(x[y). Per esempi di ognuno dei tre tipi nel caso di variabili discrete si rimanda alle
Lezioni 14 e 15.
Esempio di tipo (a.) (esempio del paragrafo 20.1 rivisitato) Si consideri il seguente gioco.
Si lancia una moneta. Se esce Testa il giocatore deve far girare l’ago di una ruota della
fortuna, il cui bordo `e graduato nell’intervallo [0, 2]. Quando la ruota si ferma il banco
paga al giocatore la cifra in euro corrispondente alla posizione dell’ago sul bordo della
ruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria che
rappresenta la vincita netta del giocatore. Calcolare la densit`a f
V
(x).
Soluzione. Le regole del gioco consistono in due probabilit`a condizionate del tipo (a.)!
f
V [T
(x[T) =
1
2
1l
[0,2]
(x),
f
V [C
(x[C) = δ(x + 1).
Si noti che f
V [T
(x[T) `e assolutamente continua, mentre f
V [C
(x[C) `e discreta (degenere,
essendo la densit`a della costante -1) La densit`a f
V
(x) si trova applicando la legge della
probabilit`a totale
f
V
(x) =
1
2
f
V [T
(x[T) +
1
2
f
V [C
(x[C) =
1
4
1l
[0,2]
(x) +
1
2
δ(x + 1)
Nella Lezione 20 questo esempio era servito ad illustrare una semplice situazione speri-
mentale che produce modelli a variabili aleatorie miste.
Esempio di tipo (b.) (assenza di memoria per v.a. esponenziali) Sia X ∼ Exp(λ), quindi
la funzione di densit`a di X `e f
X
(x) = λe
−λx
1l(x). Calcolare la densit`a condizionata
f
X[[X≥a]
(x[X ≥ a).
Soluzione. Un calcolo banale fornisce P(X ≥ a) = e
−λa
. Condizionando rispetto all’evento
[X ≥ a] si trova
P(X ≥ x[X ≥ a) =
P(X ≥ max (x, a))
P(X ≥ a)
=
_
1 se x ≤ a,
P(X≥x)
P(X≥a)
= e
−λ(x−a)
, se x > a.
e quindi
F
X[[X≥a]
(x[[X ≥ a]) = 1 −P(X ≥ x[X ≥ a) =
_
0 se x < a,
1 −e
−λ(x−a)
, se x ≥ a.
Calcolando la derivata rispetto ad x di F
X[[X≥a]
(x[[X ≥ a]) si trova la densit`a condizionata
f
X
¸
¸
X≥a
(x[X ≥ a) =
_
0 se x < a,
λe
−λ(x−a)
, se x ≥ a.
_
= λe
−λ(x−a)
1l(x −a) = f
X
(x −a)
133
che `e una delle espressioni equivalenti della propriet`a detta assenza di memoria della v.a.
esponenziale. Si veda la lezione 17 per una presentazione alternativa.
L’esempio di densit`a ondizionata pi` u delicato `e quello di tipo (c.), quando la variabile
condizionante Y `e assolutamente continua. Trattiamo questo caso nel prossimo paragrafo.
Densit`a condizionata rispetto ad una v.a. assolutamente continua
Supponiamo che (X, Y ) sia una coppia di v.a. assolutamente continue, di assegnata densit`a
congiunta f
XY
(x, y). Definiremo la densit`a condizionata di X dato Y = y, che denotere-
mo f
X[Y
(x[y). La definizione va data attraverso un procedimento di limite poich´e l’evento
condizionante [Y = y] ha probabilit`a nulla per ogni y ∈ R. Si osservi che `e molto naturale
trovarsi in questa situazione. L’informazione a priori di cui si dispone all’atto del con-
dizionamento si basa su osservazioni della variabile Y . Gli strumenti di misura possono
avere fornito informazioni del tipo a ≤ Y ≤ b, oppure Y > c oppure, appunto, Y = d.
Anche la funzione di distribuzione condizionata F
X[Y
(x[y) := P(X ≤ x[Y = y) va
definita con un procedimento di limite, poich´e
P([X≤x]∩[Y =y])
P(Y =y)
=
0
0
.
Definizione. (funzione di distribuzione condizionata)
F
X[Y
(x[y) := lim
δ↓0
P(X ≤ x[y ≤ Y ≤ y +δ)
A partire dalla definizione calcoliamo un’espressione generale per la funzione di distribuzione
condizionata. Se f
Y
(y) > 0 allora
F
X[Y
(x[y) := lim
δ↓0
P(X ≤ x, y ≤ Y ≤ y +δ)
P(y ≤ Y ≤ y +δ)
= lim
δ↓0
_
x
−∞
_
_
y+δ
y
f
XY
(u, v) dv
_
du
_
y+δ
y
f
Y
(v) dv
= lim
δ↓0
_
x
−∞
f
XY
(u, y) δ du
f
Y
(y) δ
=
_
x
−∞
f
XY
(u, y) du
f
Y
(y)
nei punti y dove f
Y
(y) = 0 la funzione F
X[Y
(x[y) non `e definita.
La densit`a condizionata si ottiene derivando rispetto ad x,
f
X[Y
(x[y) =
d
dx
F
X[Y
(x[y) =
d
dx
_
x
−∞
f
XY
(u, y) du
f
Y
(y)
=
f
XY
(x, y)
f
Y
(y)
.
La densit`a condizionata ha una forma intuitivamente chiara, essendo il rapporto tra la
densit`a congiunta e la marginale. Si possono immediatamente scrivere le usuali espressioni:
densit`a congiunta, formula di Bayes, densit`a marginali, in termini di densit`a condizionate,
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) = f
Y [X
(y[x)f
X
(x)
f
Y [X
(y[x) =
f
X[Y
(x[y)f
Y
(y)
f
X
(x)
f
X
(x) =
_

−∞
f
XY
(x, y) dy =
_

−∞
f
X[Y
(x[y)f
Y
(y) dy
f
Y
(y) =
_

−∞
f
XY
(x, y) dx =
_

−∞
f
Y [X
(y[x)f
X
(x) dx
134
23.2 Coppie di v.a. indipendenti
Definizione. La coppia di v.a. (X, Y ) `e detta indipendente se la funzione di distribuzione
congiunta soddisfa la propriet`a di fattorizzazione
F
XY
(x, y) = F
X
(x) F
Y
(y), per ogni (x, y) ∈ R
2
Lemma. Le seguenti affermazioni sono equivalenti
(a.) X ed Y sono indipendenti
(b.) per ogni rettangolo R = [x
1
, x
2
] [y
1
, y
2
],
P
_
(X, Y ) ∈ R
_
= P(X ∈ [x
1
, x
2
])P(Y ∈ [y
1
, y
2
])
(c.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R
2
f
XY
(x, y) = f
X
(x)f
Y
(y)
(d.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R
2
f
X[Y
(x[y) = f
X
(x), oppure f
Y [X
(y[x) = f
Y
(y)
Le propriet`a delle v.a. indipendenti viste nel caso discreto continuano a valere. In par-
ticolare se la coppia (X, Y ) `e indipendente allora la coppia (X, Y ) `e scorrelata, ovvero
E(XY ) = E(X)E(Y ).
Densit`a delle funzioni scalari Z = g(X, Y ) di variabili indipendenti
Esempio 1. Sia Z = max(X, Y ) ed (X, Y ) indipendenti. Calcolare la forma generale della
densit`a di Z.
F
Z
(z) = P(Z ≤ z) = P(max(X, Y ) ≤ z) = P(X ≤ z, Y ≤ z) = F
X
(z)F
Y
(z)
La corrispondente densit`a `e
f
Z
(z) = F
t
X
(z)F
Y
(z) +F
X
(z)F
t
Y
(z)
Se (X, Y ) sono indipendenti ed identicamente distribuite (i.i.d.) con F
X
= F
Y
allora
F
Z
(z) =
_
F
X
(z)
_
2
La corrispondente densit`a `e
f
Z
(z) = 2F
X
(z)F
t
X
(z) = 2F
X
(z)f
X
(z)
Ad esempio se (X, Y ) sono i.i.d. uniformi |([0, 1]) allora
f
Z
(z) =
_
2z se 0 ≤ z ≤ 1,
0, altrove.
Esempio 2 (molto importante) Nell’ultimo esempio della Lezione 22, avevamo calcolato,
nel caso di densit`a congiunta generale, la densit`a di Z = g(X, Y ) = X +Y ottenendo
f
Z
(z) =
_

−∞
f
XY
(z −v, v) dv.
135
Se (X, Y ) sono indipendenti la densit`a f
Z
(z) prende una forma molto familiare
f
Z
(z) =
_

−∞
f
X
(z −v)f
Y
(v) dv,
la convoluzione delle densit`a f
X
ed f
Y
. Questo risultato vale anche nel caso discreto, ma
non era stato menzionato quando abbiamo trattato le v.a .discrete indipendenti. Nel caso
discreto, per Z = X +Y con (X, Y ) indipendenti a valori in Z o in N,
p
Z
(n) =

k=−∞
p
X
(n −k)p
Y
(k).
Esempio 3. Sia Z = αX + βY , combinazione lineare di X ed Y , che supponiamo ancora
essere indipendenti ed assolutamente continue. Per determinare la densit`a di Z sfruttiamo
il seguente risultato (esercizio!). Se W = aX con a ∈ R allora
f
W
(w) =
1
[a[
f
X
_
w
a
_
Si ricava allora
f
Z
(z) = f
αX
(z) f
βY
(z) =
1
[αβ[
_
f
X
_
z −v
α
_
f
Y
_
v
β
_
dv
Ad esempio la densit`a di Z = X −Y `e
f
Z
(z) =
_
f
X
(z −v)f
Y
(−v) dv
Raffica di esercizi proposti. (a.) (obbligatorio) Z = X +Y e Z = X −Y per (X, Y ) i.i.d.
|([0, 1]). (b.) (obbligatorio) Z = X + Y per (X, Y ) i.i.d. Exp(λ). (c.) (obbligatorio)
Z = X + Y per (X, Y ) i.i.d. b(p). (d.) (difficile) Z = X + Y per (X, Y ) indipendenti
con X ∼ Bin(n, p) ed Y ∼ Bin(m, p). (e.) (raccomandato) Z = X + Y per (X, Y )
indipendenti con X ∼ T(λ) ed Y ∼ T(µ).
Esempio 4. Il seguente esempio `e molto importante: in prosa dice che le combinazioni
lineari di v.a. normali indipendenti sono v.a. normali. Lo presentiamo sotto forma di
teorema.
Teorema. Se Z = αX +βY , con X ∼ N(µ
X
, σ
2
X
) ed Y ∼ N(µ
Y
, σ
2
Y
) indipendenti allora
Z ∼ N(αµ
X
+βµ
Y
, α
2
σ
2
X

2
σ
2
Y
).
Dimostrazione. In linea di principio abbiamo a disposizione lo strumento per dimostrare
il teorema. Definiamo
φ(v) =
1


e

v
2
2
,
la densit`a N(0, 1), allora la densit`a di X `e
1
σ
X
φ
_
x−µ
X
σ
X
_
ed analogamente la densit`a di Y
`e
1
σ
Y
φ
_
y−µ
Y
σ
Y
_
. Per dimostrare il teorema basta quindi verificare che
1
_
α
2
σ
2
X

2
σ
2
Y
φ
_
_
z −(αµ
X
+βµ
Y
)
_
α
2
σ
2
X

2
σ
2
Y
_
_
=
1
[α[σ
X
φ
_
z −µ
X
ασ
X
_

1
[β[σ
Y
φ
_
z −µ
Y
βσ
Y
_
Questo `e un calcolo concettualmente banale, ma molto laborioso se si effettua la con-
voluzione direttamente. Vedremo pi` u avanti come dimostrare il teorema, in modo molto
pi` u semplice, usando le trasformate di Fourier.
136
Lezione 24 (Luned`ı, 6 maggio 2013, ore 10:30-12:15)
24.1 Esercitazione sul calcolo della densit`a di Y = g(X)
Sono esercizi noiosi, concettualmente banali e computazionalmente insidiosi.
`
E importante
capire bene il meccanismo di questi calcoli analizzando con attenzione le funzioni pi‘˘comuni
nel trattamento di segnali. Nella pagina seguente sono tracciati i grafici di alcune comuni
funzioni g(x). Ognuna delle funzioni g(x) si pu`o interpretare come un sistema statico.
A scopo illustrativo, accanto ad ogni g(x) `e tracciato il grafico dell’uscita g(x(t), quando
l’ingresso `e l’onda triagolare x(t) rappresentata in alto a destra. La figura dovrebbe anche
chiarire la tradizionale terminologia associata a queste g(x).
• g
1
(x) raddrizzatore a mezza onda
• g
2
(x) raddrizzatore a onda intera
• g
3
(x) limitatore
• g
4
(x) limitatore e raddrizzatore a mezza onda
• g
5
(x) limitatore e raddrizzatore a onda intera
Il vostro compito `e studiare la densit`a dell’uscita g(X), quando l’ingresso `e una variabile
aleatoria X di densit`a nota. Inventatevi dei problemi e risolveteli!
Esercizio
Dati: y = g(x) = x
2
, ed X ∼ N(0, 1).
Usando la strategia gi`a sperimentata
F
Y
(y) = P(X
2
≤ y) =
_
P(−

y ≤ X ≤

y), se y ≥ 0,
0, se y < 0.
ovvero, in termini della funzione di distribuzione F
X
, ed introducendo il gradino unitario,
F
Y
(y) = P(X
2
≤ y) =
_
F
X
(

y) −F
X
(−

y)
_
1l(y).
Calcolando la derivata – osservando che la derivata del gradino d`a contributo nullo, infatti
_
F
X
(

y) −F
X
(−

y)
_
δ(y) = 0,
f
Y
(y) =
1
2

y
_
f
X
(

y) +f
X
(−

y)
_
1l(y).
Sostituendo la densit`a f
X
(x) fornita come dato, ovvero la N(0, 1) troviamo
f
Y
(y) =
1
2

y
_
1


e

1
2
y
+
1


e

1
2
y
_
1l(y)
=
1

2πy
e

1
2
y
1l(y)
La densit`a che abbiamo appena calcolato `e detta densit`a chi-quadrato ad 1 grado di libert`a,
denotata χ
2
(1). Se X ∼ N(0, 1) allora Y = X
2
∼ χ
2
(1). La densit`a χ
2
`e una delle densit`a
fondamentali in Statistica.
Quanto vale E(Y )? Si pu`o fare in due modi
E(Y ) =
_

−∞
yf
Y
(y) dy =
_

0
y
1

2πy
e

1
2
y
dy
= E(X
2
) = var(X) = 1.
Esercizio proposto. Come sopra, ma con X ∼ U(a, b), con 0 ≤ a < b.
137
c -c
c
-c
c
c
c -c
c
-c
c
c
c
g
1
(x)
g
2
(x)
g
3
(x)
g
4
(x)
g
5
(x)
x(t)
t
138
Valore atteso condizionato
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria
condizionata ai valori assunti da un’altra variabile aleatoria. La definizione, introdotta
qui al solo scopo di svolgere esercizi, verr`a ripresa nella prossima lezione.
Definizione. Sia g : R →R una funzione misurabile ed integrabile. La media condizionata
della v.a. g(X) dato il valore assunto dalla v.a. Y `e
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=

k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)[Y = y) `e una
funzione deterministica h : R → R che mappa y → h(y) := E(g(X)[Y = y). Le propriet`a
del valore atteso condizionato (funzione h(y)) saranno trattate nella prossima lezione.
Esercizio 1 (continuazione di Mario in libreria)
Mario va in libreria a curiosare ed acquistare libri. Le v.a. K ed N rappresentano rispet-
tivamente quante ore Mario trascorre in libreria, e quanti libri Mario acquista. I dati a
disposizione sono i seguenti. L’alfabeto di K `e / := ¦1, 2, 3, 4¦ e la sua densit`a `e uni-
forme: p
K
(k) =
1
4
per k ∈ /. Per quanto riguarda la v.a. N `e nota solamente la densit`a
condizionata
p
N[K
(n[k) :=
_
1
k
, se 1 ≤ n ≤ k, e k ≤ 4
0, se n > k, o k > 4.
Calcolare il valore atteso condizionato E(N[K = k).
Soluzione.
Il valore atteso condizionato vale
E(N[K = k) =
4

n=1
np
N[K
(n[k) =
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
1 1 = 1 se k = 1,
1
1
2
+ 2
1
2
=
3
2
, se k = 2,
1
1
3
+ 2
1
3
+ 3
1
3
= 2, se k = 3,
1
1
4
+ 2
1
4
+ 3
1
4
+ 4
1
4
=
10
4
, se k = 4.
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
=
k

n=1
n
1
k
=
1
k
k(k + 1)
2
=
k + 1
2
139
Esercizio 2 (adattato da: C. Ash - The Probability Tutoring Book - IEEE Press 1993)
La coppia di v.a. (X, Y ) ha densit`a congiunta uniforme nel dominio triangolare T rapp-
resentato in figura.
-
6
-1 1
x
y
1
Determinare:
(a.) la densit`a congiunta f
XY
(x, y)
(b.) le densit`a condizionate f
X[Y
(x[y) ed f
Y [X
(y[x)
(c.) i valori attesi E[X[Y = y] ed E[Y [X = x]
(d.) i valori attesi E[X] ed E[Y ]
(e.) il valore atteso E[ min(X, Y ) ]
Soluzione
(a.) La densit`a congiunta `e nulla per (x, y) ∈ T
c
ed `e costante in T
f
XY
(x, y) =
1
area(T)
1l
T
(x, y) = 1l
T
(x, y)
(b.) Per il calcolo delle densit`a condizionate dobbiamo disporre delle marginali. La for-
mula generale per il calcolo della densit`a marginale, f
Y
(y) =
_
f
XY
(x, y)dx deve essere
opportunamente interpretata: ci aiuter`a la figura.
-
6
-1 1
x
y
1
x = 1 −y x = y −1
In primo luogo si deve capire qual `e l’insieme dei valori possibili per la v.a. Y , in questo
caso (vedi figura) Y ∈ [0, 1]. Sempre dalla figura si desumono i limiti di integrazione al
variare di y. Specificamente
f
Y
(y) =
_
1−y
y−1
1 dx = 2(1 −y) per y ∈ [0, 1]
Analogamente si procede al calcolo della marginale f
X
(x) =
_
f
XY
(x, y)dy. La v.a. X
prende valori nell’intervallo [−1, 1], ma l’integrale da calcolare per ottenere f
X
(x) ha
espressioni diverse a seconda che x ∈ [−1, 0] o x ∈ [0, 1]. In figura abbiamo rappresentato
il caso x ∈ [−1, 0].
140
-
6
-1 1
x
y
1
y = 1 +x y = 1 −x
f
X
(x) =
_
1+x
0
1 dy = 1 +x per x ∈ [−1, 0]
Analogamente
f
X
(x) =
_
1−x
0
1 dy = 1 −x per x ∈ [0, 1]
Volendo si pu`o scrivere la densit`a f
X
(x) con un’unica formula come
f
X
(x) = 1 −[x[ per x ∈ [−1, 1].
Commento. Si noti che le densit`a marginali f
X
(x) ed f
Y
(y) non sono uniformi, nonostante
la densit`a congiunta sia uniforme su T.
Siamo ora pronti a scrivere le densit`a condizionate
f
X[Y
(x[y) =
f
XY
(x, y)
f
Y
(y)
=
1
2(1 −y)
x ∈ [y −1, 1 −y], y ∈ [0, 1]
f
Y [X
(y[x) =
f
XY
(x, y)
f
X
(x)
=
1
1 −[x[
y ∈ [0, 1 −[x[ ], x ∈ [−1, 1]
Commenti. (1.) Poich´e f
X[Y
(x[y) dipende da y le variabili aleatorie X ed Y non sono
indipendenti. (2.) Si noti che la densit`a condizionata f
X[Y
(x[y) `e uniforme sull’intervallo
[y − 1, 1 − y]. Analogamente la densit`a condizionata f
Y [X
(y[x) `e uniforme sull’intervallo
[0, 1 − [x[].
`
E un fatto generale, immediata conseguenza della definizione, che le densit`a
condizionate mantengano la forma della densit`a congiunta, opportunamente riscalata.
(c.) Calcoliamo prima E[X[Y = y]. Abbiamo visto che per Y = y la v.a. X ha densit`a
condizionata uniforme, cio`e costante in x, e vale f
X[Y
(x[y) =
1
2(1−y)
nell’intervallo x ∈
[y − 1, 1 − y]. Poich`e l’intervallo [y − 1, 1 − y] `e simmetrico intorno all’origine il valore
atteso condizionato sar`a ovviamente nullo, come conferma il calcolo:
E[X[Y = y] =
_
1−y
y−1
x
1
2(1 −y)
dx =
1
2(1 −y)
x
2
2
¸
¸
¸
1−y
y−1
= 0 per y ∈ [0, 1].
Per il calcolo di E[Y [X = x], poich´e per X = x la v.a. Y ha densit`a condizionata
uniforme f
Y [X
(y[x) =
1
1−[x[
nell’intervallo y ∈ [0, 1−[x[ ] il valore atteso condizionato sar`a
E[Y [X = x] =
1−[x[
2
, come confermato dal calcolo esplicito
E[Y [X = x] =
_
1−[x[
0
y
1
1 −[x[
dy =
1
1 −[x[
y
2
2
¸
¸
¸
1−[x[
0
=
1 −[x[
2
per x ∈ [−1, 1].
(d.)
`
E un calcolo banale:
E[Y ] =
_
yf
Y
(y)dy =
_
1
0
y 2(1 −y)dy =
1
3
.
141
Analogamente si trova che E[X] = 0.
(e.) Con riferimento alla figura, risulta
g(x, y) = min(x, y) =
_
x, per (x, y) ∈ T
1
,
y, per (x, y) ∈ T
2
.
-
-1 1
x
y
1
y = x
T
1
T
2
6
Per il calcolo del valore atteso si dovr`a valutare
E[g(X, Y )] =
_
g(x, y)f
XY
(x, y) dxdy
che in questo caso diventa
E[min(X, Y )] =
_
T
1
x 1 dxdy +
_
T
2
y 1 dxdy
A questo punto ci siamo ridotti ad un esercizio di Analisi II. Conviene spezzare il dominio
T
1
in due sottodomini x-semplici, mentre T
2
si pu`o trattare come un unico dominio y-
semplice. Con riferimento alla figura (il punto d’intersezione tra y = x e y = 1 − x `e
(
1
2
,
1
2
)) si ottiene
E[min(X, Y )] =
_
0
−1
_
1+x
0
x 1 dydx +
_ 1
2
0
_
1−x
x
x 1 dydx +
_ 1
2
0
_
1−y
y
y 1 dxdy
Qualche passaggio algebrico fornisce s.e.o.o. E[min(X, Y )] = −
1
12
.
142
Appendice alla Lezione 24
prego segnalare i sicuramente numerosi refusi
Esercizi svolti e proposti sulle funzioni di variabili aleatorie
Il problema `e quello del calcolo della densit`a (o della funzione di distribuzione) di una
funzione di v.a. Y = g(X), a partire dall’espressione analitica di g e dalla densit`a (o dalla
funzione di distribuzione) di X. In questa nota troverete alcuni esempi svolti ed alcuni
esercizi proposti.
Quando si studia la funzione di v.a. Y = g(X) il risultato dipende dall’interazione tra i due
“dati” del problema: la funzione deterministica y = g(x) e le caratteristiche probabilistiche
della v.a. X ovvero la densit`a f
X
(x) nel caso di v.a. assolutamente continue, la densit`a
discreta p
X
(x) nel caso di v.a. discrete, o in generale la funzione di distribuzione F
X
(x).
Ci sono fondamentalmente due strategie per risolvere questa tipologia di problemi.
Strategia 1. Ricavare la funzione di distribuzione F
Y
(y) a partire dai dati del problema
e poi, se richiesto dal problema, derivare F
Y
(y) rispetto ad y per trovare, dove esiste, la
densit`a f
Y
(y). L’idea dietro a questa strategia `e che gli eventi di interesse per la v.a. Y
sono in corrispondenza biunivoca con eventi per la v.a. X in accordo con
[ Y ∈ B] = [ X ∈ g
−1
(B) ]
e quindi
P(Y ∈ B) = P(X ∈ g
−1
(B))
in particolare, per gli eventi del tipo B = (−∞, y], si avr`a che
F
Y
(y) := P(Y ≤ y) = P(g(X) ≤ y) = P
_
X ∈ g
−1
_
(−∞, y]
_
_
.
A lezione abbiamo visto vari esempi dove era possibile calcolare agevolmente la derivata
richiesta. In generale calcolare F
Y
(y) pu`o essere difficoltoso richiedendo la valutazione di
P
_
X ∈ g
−1
_
(−∞, y]
_
_
al variare di y. Si noti che il calcolo delle anti-immagini
g
−1
_
(−∞, y]
_
si pu`o condurre, per cos`ı dire, “fuori linea” nel senso che esse non dipendono in alcun modo
dalla densit`a della v.a. X, ma solo dalla funzione g. Una volta calcolate, le anti-immagini
g
−1
_
(−∞, y]
_
si possono utilizzare per determinare F
Y
(y) qualunque sia la densit`a della
v.a. X che interviene nella Y = g(X).
Strategia 2. (SALTARE PARAGRAFETTO) Ricavare direttamente la funzione di densit`a
della v.a. Y utilizzando la formula
f
Y
(y) = f
X
(h(y))
¸
¸
¸
¸
d
dy
h(y)
¸
¸
¸
¸
dove h `e la funzione inversa di g, che deve esistere affinch`e questa formula sia applicabile.
In questa nota non considereremo la Strategia 2. Si tratta di un risultato di scarso valore
pratico e meno potente dell’approccio diretto discusso in questa nota e presentato in classe.
Si tenga presente che il tipo della v.a. Y = g(X) pu`o essere diverso da quello della v.a.
X. In particolare, se X `e una v.a. discreta allora, qualunque sia la funzione g, la v.a.
trasformata Y = g(X) sar`a ancora una v.a. discreta per l’ovvio motivo che la cardinalit`a
del codominio di una funzione `e sempre minore o uguale a quella del suo dominio. Se
invece X `e una v.a. continua, la v.a. Y = g(X) potr`a essere discreta, continua o mista a
seconda di come g(x) ed f
X
(x) “interagiscono”.
143
Esempio 1 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
x −1, se x < 1,
x + 1, se x ≥ 1,
il cui grafico `e riportato in figura.
Cominciamo con il calcolo delle anti-immagini g
−1
_
(−∞, y]
_
le quali ovviamente non
dipendono dalla densit`a f
X
(x) che andremo a considerare. Quando si calcolano le anti-
immagini g
−1
_
(−∞, y]
_
`e fondamentale avere prima accuratamente tracciato il grafico
della g. Ad ogni y fissato corrisponde un sottoinsieme di valori x: con abuso di notazione
scriver`o ad esempio ¦x ≤ y −1¦ per ¦x ∈ R[x ≤ y −1¦ ecc.
g
−1
_
(−∞, y]
_
=
_
_
_
¦x + 1 ≤ y¦ = ¦x ≤ y −1¦ 2 ≤ y < ∞,
¦x < 1¦ 0 ≤ y < 2,
¦x −1 ≤ y¦ = ¦x ≤ y + 1¦ y < 0.
`
E banale, ma `e facile fare errori. Si noti che la funzione y = g(x) non assume nessuno dei
valori y ∈ [0, 2). Questo `e evidente dal grafico ed ha come conseguenza che g
−1
_
(−∞, y]
_
=
¦x < 1¦ `e costante per ogni y ∈ [0, 2). Qualunque sar`a la X, la v.a. Y = g(X) non potr`a
assumere valori in [0, 2), ed ivi la FdD F
Y
(y) sar`a costante e la densit`a f
Y
(y) nulla.
Vediamo ora che densit`a si ottengono per Y = g(X) specificando diverse densit`a f
X
(x).
(a.) Calcolare la densit`a di Y = g(X) se X ∼ Exp(λ) (nel grafico λ = 1).
F
Y
(y) =
_
¸
¸
¸
_
¸
¸
¸
_
P(X ≤ y −1) =
_
y−1
0
λe
−λw
dw = 1 −e
−λ(y−1)
, 2 ≤ y < ∞,
P(X < 1) =
_
1
0
λe
−λw
dw = 1 −e
−λ
, 0 ≤ y < 2,
P(X ≤ y + 1) =
_
y+1
0
λe
−λw
dw = 1 −e
−λ(y+1)
, −1 ≤ y < 0
P(X ≤ y + 1) = 0, −∞ < y < −1.
144
Si noti che, per ogni y < 0 vale g
−1
_
(−∞, y]
_
= ¦x ≤ y+1¦ e quindi F
Y
(y) = P(X ≤ y+1).
Poich´e X `e concentrata su [0, ∞), si ha per`o che F
Y
(y) = P(X ≤ y + 1) = 0 per y < −1.
Qui sotto il grafico della F
Y
(y).
Poich´e la FdD F
Y
(y) non ha salti, la v.a. Y = g(X) `e di tipo continuo, come la v.a. X di
partenza. La densit`a esiste e si ottiene derivando F
Y
(y)
f
Y
(y) =
_
¸
¸
_
¸
¸
_
λe
−λ(y−1)
2 ≤ y < ∞,
0, 0 ≤ y < 2,
λe
−λ(y+1)
−1 ≤ y < 0,
0, −∞ < y < −1.
La densit`a f
Y
(y) ha tre punti di salto, y = −1, y = 0 ed y = 2, dove cio`e la FdD F
Y
(y) non
`e derivabile. Repetita iuvant: le discontinuit`a della densit`a non hanno nulla a che vedere
con il tipo della v.a. Y , che si desume dal comportamento della funzione di distribuzione
(continua in questo caso).
(b.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) se
X `e una delle seguenti v.a. (le risposte fornite vanno prese con il beneficio d’inventario,
segnalatemi eventuali errori).
• X ∼ Uniforme(2, 3), Risposta: Y ∼ Uniforme(3, 4).
• X ∼ Uniforme(0, 1), Risposta: Y ∼ Uniforme(−1, 0).
• X ∼ Uniforme(0.5, 1.5) Risposta: Y ∼ Uniforme
_
[−0.5, 0] ∪ [2, 2.5]
_
• X ∼ Bernoulli(p), Risposta: Y ∈ ¦1, 2¦, con p
Y
(−1) = 1 −p, p
Y
(2) = p.
145
Domanda. Perch´e con questa g la v.a. Y = g(X) ha sempre lo stesso tipo della v.a. X?
Esempio 2 di funzione g(x)
Consideriamo la funzione
y = g(x) =
_
1, se x ≤ 0,
−x + 1, se x > 0,
il cui grafico `e riportato in figura.
A differenza dell’esempio 1 la funzione g in questo caso `e continua. Vedremo per`o che
questa g pu`o mappare una v.a. continua in una mista, cosa non possibile con la g dell’e-
sempio 1, a riprova del fatto che il tipo continuo o misto della v.a. Y non ha nulla a che
vedere n´e con la continuit`a topologica di g n´e con quella di f
X
(x).
Calcoliamo le anti-immagini g
−1
_
(−∞, y]
_
.
g
−1
_
(−∞, y]
_
=
_
R 1 ≤ y < ∞,
¦−x + 1 ≤ y¦ = ¦x ≥ 1 −y¦ −∞ < y < 1.
Attenzione! Per questa g l’anti-immagine g
−1
(¦1¦) = ¦x ≤ 0¦. Questo pu`o causare
P(Y = 1) > 0, rendendo la v.a. Y di tipo misto anche se X `e una v.a. continua – si veda
il caso (b.) qui sotto.
(a.) Calcolare la densit`a di Y = g(X) se X ∼ Exp(λ), (la stessa X dell’esempio 1).
F
Y
(y) =
_
P(X ∈ R) = 1 1 ≤ y < ∞,
P(X ≥ 1 −y) =
_

1−y
λe
−λw
dw = e
λ(y−1)
, −∞ ≤ y < 1,
Si noti che P(Y = 1) = P(X ≤ 0) = 0 poich`e la v.a. X `e concentrata su [0, ∞). Qui
sotto, per λ = 1, il grafico della F
Y
(y).
146
La v.a. Y `e continua poich´e la FdD non presenta salti. La densit`a f
Y
(y) si trova derivando
f
Y
(y) =
_
0 1 ≤ y < ∞,
λe
λ(y−1)
, −∞ ≤ y < 1,
in forma compatta, si pu`o scrivere f
Y
(y) = λe
λ(y−1)
1l(y −1), vedi figura qui sotto.
(b.) Calcolare la densit`a di Y = g(X) se X ∼ Uniforme(−1, 2). Usando le anti-immagini
precalcolate troviamo:
F
Y
(y) =
_
_
_
P(X ∈ R) = 1 1 ≤ y < ∞,
P(X ≥ 1 −y) =
_
2
1−y
1
3
dw =
1
3
(1 +y), −1 ≤ y < 1,
P(X ≥ 1 −y) = 0 −∞ < y < −1
Si noti che P(Y = 1) = P(X ≤ 0) =
1
3
poich´e X ∼ Uniforme(−1, 2). Qui sotto il grafico
di F
Y
(y).
147
La v.a. Y `e mista poich´e la FdD presenta un salto, di ampiezza
1
3
, in y = 1. La den-
sit`a f
Y
(y), nel senso usuale, non esiste, ma derivando la FdR nel senso delle funzioni
generalizzate si trova
f
Y
(y) =
1
3
(1l(y + 1) −1l(y −1)) +
1
3
δ(y −1)
Il grafico `e
Lascio come esercizio il calcolo della decomposizione di Lebesgue a partire dalla espressione
della FdD
(c.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) per
X v.a. di funzione di densit`a rispettivamente:
• f
X
(x) =
λ
2
e
−λ[x[
, dove x ∈ R. (detta densit`a di Laplace)
• X ∼ Uniforme(0, 1).
• X ∼ Uniforme(−1, 0) (attenzione a questa!).
• X ∼ Bernoulli(p) (e anche a questa).
148
Lezione 25 (Marted`ı, 7 maggio 2013, ore 16:30-18:15)
25.1 Valore atteso condizionato
(definizione ripresa dalla scorsa lezione)
Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a
condizionate.
`
E naturale porsi il problema del calcolo dei valori attesi rispetto a queste
densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria
condizionata ai valori assunti da un’altra variabile aleatoria.
medskipDefinizione. Sia g : R → R una funzione misurabile ed integrabile. La media
condizionata della v.a. g(X) dato il valore assunto dalla v.a. Y `e
E(g(X)[Y = y) :=
_
g(x)f
X[Y
(x[y) dx caso assolutamente continuo
E(g(X)[Y = y
j
) :=

k
g(x
k
)p
X[Y
(x
k
[y
j
) caso discreto
Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)[Y = y) `e una
funzione deterministica h : R → R che mappa y → h(y) := E(g(X)[Y = y). Le propriet`a
del valore atteso condizionato (funzione h(y)) sono trattate al punto 3.
Propriet`a del valore atteso condizionato
Lemma. Se (X, Y ) sono indipendenti allora
E(g(X)[Y = y) = E(g(X)), per ogni y ∈ R
Dimostrazione. Se X ed Y sono indipendenti allora f
X[Y
(x[y) = f
X
(x) e sostituendo
E(g(X)[Y = y) =
_
g(x)f
X[Y
(x[y) dx =
_
g(x)f
X
(x) dx = E(g(X))

Si definisca la funzione h : R →R come
h(y) = E(g(X)[Y = y).
Si noti che la funzione h(y) `e deterministica: essa mappa il numero reale y nel numero reale
E(g(X)[Y = y). Il Lemma sopra mostra che, se X ed Y sono indipendenti, la funzione
h(y) `e una costante. In generale h(y) dipende da y. Ha perfettamente senso considerare
la variabile aleatoria h(Y ), dove Y ∼ f
Y
(y) ed ha perfettamente senso calcolarne il valore
atteso E(h(Y )) (quando esiste).
`
E anche naturale, per denotare la variabile aleatoria h(Y ),
usare la scrittura E(g(X)[Y ). Con questa notazione alternativa il valore atteso E(h(Y ))
si scrive E
_
E(g(X)[Y )
_
.
Lemma (del valore atteso iterato) Se g(X) ammette valore atteso allora
E
_
E
_
g(X)[Y
_
_
= E(g(X))
Dimostrazione.
E
_
E(g(X)[Y )
_
= E(h(Y )) =
_
h(y)f
Y
(y) dy =
_
E(g(X)[Y = y)f
Y
(y) dy
=
_ __
g(x)f
X[Y
(x[y) dx
_
f
Y
(y) dy =
__
g(x)f
X[Y
(x[y)f
Y
(y) dydx
=
_
g(x)
__
f
XY
(x, y) dy
_
dx =
_
g(x)f
X
(x) dx = E(g(X)).
149
La dimostrazione `e identica nel caso discreto
E
_
E(g(X)[Y )
_
=

k
E(g(X)[Y = y
k
)p
Y
(y
k
)
=

k

h
g(x
h
)p
X[Y
(x
h
[y
k
)p
Y
(y
k
) =

h
g(x
h
)

k
p
XY
(x
h
, y
k
)
=

h
g(x
h
)p
X
(x
h
) = E(g(X)).
Esercizi svolti
Esercizio 1. Addentate (a caso) un grissino di lunghezza L. Sia Y ∼ |(0, L) la lunghezza
del grissino che vi rimane in mano. Dopo un secondo morso (a caso) vi rimane in mano
un pezzo di grissino di lunghezza X ∼ |(0, Y ). Calcolare il valore atteso E(X).
Metodo diretto. Ricaviamo la densit`a f
X
(x) e quindi calcoliamo E(X). I dati del prob-
lema sono: la densit`a f
Y
e la densit`a condizionata f
X[Y
(x[y) Analiticamente i dati
sono:
f
Y
(y) =
1
L
, per y ∈ [0, L]
f
X[Y
(x[y) =
1
y
, per x ∈ [0, y]
Per ricavare la densit`a f
X
calcoliamo prima la densit`a congiunta e quindi marginalizziamo.
La densit`a congiunta delle v.a. X ed Y vale
f
XY
(x, y) = f
X[Y
(x[y)f
Y
(y) =
1
Ly
, per (x, y) ∈ D := ¦ (x, y) ; x ∈ [0, y], y ∈ [0, L] ¦
se non volete perdere traccia di quanto stiamo facendo fate un grafico del dominio D.
Marginalizzando troviamo
21
la densit`a f
X
f
X
(x) =
_
f
XY
(x, y) dy =
_
L
x
1
Ly
dy =
1
L
(ln L −ln x), per x ∈ [0, L]
`
E una buona idea verificare che f
X
(x) sia effettivamente una densit`a
_
L
0
f
X
(x) dx =
_
L
0
1
L
(ln L −ln x) dx = 1
dove abbiamo fatto uso dell’antiderivata
_
ln x = xln x−x e del fatto che lim
x→0
xln x = 0.
Calcoliamo finalmente il valore atteso
E(X) =
_
L
0
xf
X
(x) dx =
_
L
0
x
L
(ln L −ln x) dx =
L
4
,
dove abbiamo fatto uso dell’antiderivata
_
xln xdx =
x
2
2
ln x −
x
2
4
.
Metodo del valore atteso iterato. Per il Lemma visto sopra E(X) = E
_
E(X[Y )
_
. Calcol-
iamo il valore atteso condizionato. Per Y = y la v.a. X ∼ |(0, y), quindi
E(X[Y = y) =
y
2
21
NOTA BENE. Nonostante le equazioni teoriche che esprimono le densit` a congiunte e/o le densit` a
marginali siano semplici e pulite, i calcoli pratici sono sporchi e complicati.
`
E necessario prestare sempre
estrema attenzione ai domini di definizione e di integrazione. Tracciate i grafici!
150
Da questa espressione si ricava che
E(X[Y ) =
Y
2
quindi, poich´e Y ∼ |(0, L),
E(X) = E
_
E(X[Y )
_
= E
_
Y
2
_
=
L
4
A volte sapere un po’ di teoria aiuta.
Esercizio 2. (somma di un numero aleatorio di addendi) Visito un certo numero N di
negozi, dove N `e una v.a. a valori in N. Nel negozio k-esimo spendo X
k
euro. Le
v.a. X
k
, k ∈ N sono identicamente distribuite, inoltre le variabili N, X
k
, k ∈ N sono
indipendenti. Calcolare il valore atteso della spesa totale.
Soluzione. Sia S la v.a. spesa totale,
S =
N

k=1
X
k
Anche questo tipo di problema si presta bene al calcolo del valore atteso usando la tecnica
del valore atteso iterato.
E(S) = E
_
E(S[N)
_
Calcoliamo prima il valore atteso per N = n
E(S[N = n) = E
_
N

k=1
X
k
¸
¸
¸ N = n
_
= E
_
n

k=1
X
k
¸
¸
¸ N = n
_
=
n

k=1
E(X
k
[N = n) =
n

k=1
E(X
k
) poich´e X
k
⊥⊥ N
= nE(X
1
).
Possiamo allora scrivere che la v.a. E(S[N) = NE(X
1
), da cui ricaviamo
E(S) = E
_
E(S[N)
_
= E(NE(X
1
)) = E(N) E(X
1
)
Osservazione. L’addittivit`a del valore atteso NON si pu`o applicare in questo caso. La
scrittura
E(S) = E
_
N

k=1
X
k
_
=
N

k=1
E(X
k
) = NE(X
1
) ???
`e priva di senso poich´e N `e una variabile aleatoria, non un numero naturale! Scrivendo
E(S) = E(

N
k=1
X
k
) =

N
k=1
E(X
k
) = NE(X
1
) stiamo asserendo che il valore atteso
della v.a. S non `e un numero reale bens`ı la variabile aleatoria NE(X
1
). Un errore di
questo tipo sar`a punito alla stregua di una varianza negativa.
Esercizio 3. (vedi Mario in libreria – Lezione 24) Il calcolo di E(N), il numero medio di libri
che Mario acquista ogni volta che va a fare un giro in liberia, si pu`o effettuare usando la
formula del valore atteso iterato (si ricordi che K `e uniforme su / = ¦1, 2, 3, 4¦).
E(N) = E(E(N[K)) = E
_
K + 1
2
_
=
E(K) + 1
2
=
10
4
+ 1
4
=
7
4
151
Esercizio 4. Una moneta ha probabilit`a di Testa P(T) = Y , dove Y `e una v.a. con densit`a
f
Y
(y) che ha supporto sull’intervallo [0, 1]. Effettuo n lanci della moneta. Sia X la v.a.
che rappresenta il numero di Teste osservate negli n lanci. Calcolare il valore atteso di X.
Commento. Apparentemente questo esempio `e molto artificiale, ma non lo `e. Il parametro
p = P(T) della v.a. di Bernoulli che rappresenta l’esito del lancio di una moneta, `e una
variabile aleatoria invece di essere un numero. La f
Y
`e la densit`a di probabilit`a della
probabilit`a di Testa. Pu`o sembrare una costruzione barocca, ma questo `e un modello
standard impiegato in Statistica per rappresentare l’ignoranza su p. Le monete reali non
riportano in targhetta il valore di p e in qualche modo questa incertezza va modellata.
Vedremo pi` u avanti, se ce ne sar`a il tempo, qual `e il razionale di questo modello.
Soluzione. Per Y = y la v.a. X ∼ Bin(n, y) quindi E(X[Y = y) = ny. La v.a.
E(X[Y ) = nY quindi E(X) = E(E(X[Y )) = E(nY ) = nE(Y ). Ad esempio, `e molto
comune supporre che Y ∼ |([0, 1]). In questo caso E(X) = nE(Y ) =
n
2
.
152
Appendice I alla Lezione 25
Spazi vettoriali di variabili aleatorie
Teoria geometrica del valore atteso condizionato
Materiale parzialmente trattato a lezione - non in programma 2012/13
1. Spazi e sottospazi vettoriali di variabili aleatorie
Sia o l’insieme delle v.a. che ammettono secondo momento ovvero
o := ¦ X : Ω →R [ E(X
2
) < ∞¦
Vedremo tra poco che o `e uno spazio vettoriale su R, ma questo richiede il seguente,
fondamentale, risultato.
Lemma. (disuguaglianza di Cauchy-Schwarz)
[E(XY )[ ≤
_
E (X
2
) E (Y
2
)
Dimostrazione. Definiamo la v.a. W := tX +Y , dove t ∈ R. Poich´e per ogni t ∈ R
0 ≤ E(W
2
) = E((tX +Y )
2
) = E(X
2
)t
2
+ 2E(XY )t +E(Y
2
),
il determinante del polinomio di secondo grado in t deve essere non positivo, ovvero
4
_
E(XY )
¸
2
− 4E(X
2
)E(Y
2
) ≤ 0,
da cui segue immediatamente la disuguaglianza di Cauchy-Schwarz.
Lemma. o `e uno spazio vettoriale su R.
Dimostrazione. Si deve dimostrare la chiusura di o rispetto alla somma ed al prodotto
per uno scalare. Chiusura rispetto alla somma. Se X, Y ∈ o allora X + Y ∈ o infatti
E
_
(X +Y )
2
_
= E(X
2
) +E(Y
2
) +2 E(XY ), ma per la disuguaglianza di Cauchy Schwarz
[E(XY )[ ≤
_
E(X
2
)E(Y
2
) e quindi X + Y ∈ o. Chiusura rispetto al prodotto per uno
scalare. Se X ∈ o, per ogni a ∈ R la v.a. aX ∈ o, infatti E
_
(aX)
2
_
= a
2
E(X
2
) < ∞.
Osservazione. Gli elementi dello spazio vettoriale o (vettori) sono variabili aleatorie,
ovvero funzioni X : Ω → R. Lo spazio vettoriale o `e quindi uno spazio di funzioni. Lo
spazio vettoriale o ha dimensione infinita.
Esempi di sottospazi lineari di o
Esempio 1. (sottospazio delle v.a. a media nulla)
o
0
:= ¦ W ∈ o ; E(W) = 0 ¦
`e un sottospazio lineare di o (banale).
Esempio 2. (sottospazio generato da n v.a. assegnate)
`
E facile verificare che l’insieme
delle combinazioni lineari di n v.a. assegnate Y
1
, . . . Y
n
tutte appartenenti a o,
/ := span¦Y
1
, . . . Y
n
¦ :=
_
W ; W =
n

k=1
α
k
Y
k
, α
k
∈ R
_
,
`e un sottospazio lineare. Il sottospazio / ha dimensione minore o uguale ad n
153
Esempio 3. (funzioni di una v.a. Y ∈ o) L’insieme σ(Y ) delle funzioni (che ammettono
secondo momento) v(Y ) di una fissata v.a. Y ∈ o,
σ(Y ) := ¦ v(Y ) ; v : R →R, e E
_
v
2
(Y )
_
< ∞¦,
`e un sottospazio lineare di o. Infatti se v
1
(Y ) ed v
2
(Y ) appartengono a σ(Y ), per la
disuguaglianza di Cauchy Schwarz `e finito anche il secondo momento di αv
1
(Y ) +βv
2
(Y ).
La dimensione del sottospazio σ(Y ) `e infinita.
Prodotto scalare su o
Su o si definisce il prodotto scalare
¸X, Y ¸ := E(XY ) (1)
Verifichiamo che (1) `e un prodotto scalare legittimo. Siano X, Y, W ∈ o.
(i) ¸X, Y ¸ = ¸Y, X¸, banale.
(ii) ¸aX +bY, W¸ = a ¸X, W¸ +b ¸Y, W¸, per la linearit`a del valore atteso.
(iii) ¸X, X¸ ≥ 0, infatti ¸X, X¸ = E(X
2
) ≥ 0,
(iv) [[X[[
2
:= ¸X, X¸ = 0 se e solo se X = 0, infatti E(X
2
) = 0 se e solo se X = 0.
Variabili aleatorie ortogonali
Avendo dotato o di un prodotto scalare possiamo introdurre la nozione di ortogonalit`a.
Definizione. Se ¸X, Y ¸ = E(XY ) = 0 le v.a. X ed Y si dicono ortogonali e scriveremo
X⊥Y .
Osservazione. Le v.a. X e Y sono scorrelate se e solo se le v.a. X−E(X) ed Y −E(Y ) sono
ortogonali. Infatti le due condizioni equivalgono a ¸X − E(X), Y − E(Y )¸ = E(XY ) −
E(X)E(Y ) = 0. Ne segue anche che, se X o Y hanno media nulla, la scorrelazione e
l’ortogonalit`a di X ed Y sono equivalenti. L’esistenza di variabili aleatorie di media non
nulla `e una seccatura con la quale si deve convivere.
2. Interpretazione geometrica del valore atteso condizionato
La chiave per l’interpretazione geometrica del valore atteso condizionato `e contenuta nella
seguente propriet`a fondamentale della v.a. E(X[Y ).
Lemma di proiezione. Per ogni funzione v : R →R misurabile e tale che v(Y ) `e integrabile
vale l’identit`a
E
_
X v(Y )
_
= E
_
E(X[Y ) v(Y )
_
(2)
Dimostrazione. Consideriamo, ad esempio, il caso assolutamente continuo.
E
_
X v(Y )
_
=
__
xv(y)f
XY
(x, y) dxdy
=
_ __
xf
XY
(x, y) dx
_
v(y) dy
=
_ __
xf
X[Y
(x[y) dx
_
v(y)f
Y
(y) dy
=
_
E(X[Y = y) v(y)f
Y
(y) dy
= E
_
E(X[Y ) v(Y )
_
154
Interpretazione geometrica del Lemma di proiezione.
Usando la definizione del prodotto scalare su o l’enunciato del Lemma si scrive
¸X, v(Y )¸ = ¸E(X[Y ), v(Y )¸, per ogni v(Y ) ∈ σ(Y )
che, per la linearit`a del prodotto scalare, equivale a
¸X −E(X[Y ), v(Y )¸ = 0 per ogni v(Y ) ∈ σ(Y ).
Geometricamente l’ultima equazione dice che il vettore X −E(X[Y ) `e ortogonale a tutti
i vettori v(Y ) ∈ σ(Y ) ovvero che
E(X[Y ) `e la proiezione ortogonale di X su σ(Y )
X
X −E(X[Y )
E(X[Y )
σ(Y )
3. Il Teorema di Pitagora
Poich´e il valore atteso condizionato `e una proiezione ortogonale, sia nel caso discreto che
nel caso continuo vale il teorema di Pitagora
[[ X[[
2
= [[ X −E(X[Y ) [[
2
+[[ E(X[Y ) [[
2
. (3)
L’interpretazione probabilistica della relazione Pitagorica richiede qualche manipolazione.
Ricordiamo che, per ogni W ∈ o,
[[W[[
2
= E(W
2
) = var(W) + [E(W)]
2
.
Osserviamo anche che la v.a. X − E(X[Y ) ha valore atteso E
_
X − E(X[Y )
_
= 0.
L’equazione (3) diventa allora
var(X) +
_
E(X)
¸
2
= var
_
X −E(X[Y )
_
+ var
_
E(X[Y )
_
+
_
E
_
E(X[Y )
_
_
2
che, cancellando
_
E(X)
¸
2
a sinistra e a destra, si riduce a
var(X) = var
_
X −E(X[Y )
_
+ var
_
E(X[Y )
_
(4)
La nozione di varianza condizionata consente di reinterpretare il primo termine a destra.
Definizione (varianza condizionata)
var(X[Y ) := E
_
_
X −E(X[Y )
_
2
¸
¸
¸ Y
_
.
155
Attenzione. La varianza condizionata non `e un numero bens`ı una v.a. Per determinare
var(X[Y ) si pu`o cominciare calcolando la funzione deterministica
w(y) := var(X[Y = y) = E
_
_
X −E(X[Y = y)
_
2
¸
¸
¸ Y = y
_
=
_

−∞
_
x −E(X[Y = y)
_
2
f
X[Y
(x[y) dx
e quindi la v.a. varianza condizionata `e var(X[Y ) = w(Y ).
Il primo termine nel membro di destra dell’equazione (3) non `e altro che il valore atteso
della v.a. varianza condizionata.
Lemma e dimostrazione.
[[ X −E(X[Y ) [[
2
= E
_
_
X −E(X[Y )
_
2
_
= calcolo il valore atteso iterato
= E
_
E
_
_
X −E(X[Y )
_
2
¸
¸
¸Y
__
= E
_
var(X[Y )
_
Sostituendo nella (3), e per gli altri termini seguendo (4), si trova
var(X) = E
_
var(X[Y )
_
+ var
_
E(X[Y )
_
. (5)
4. Esempi di calcolo
Esempio 1. (seguito dell’esercizio 2 a pagina 37) La variabile aleatoria d’interesse `e
S =
N

k=1
X
k
sotto le ipotesi dell’esercizio 2 a pag. 37. Abbiamo gi`a calcolato E(S[N) = N E(X
1
). Per
trovare un’espressione analitica della v.a. varianza condizionata, var(S[N), calcoliamo
prima
var(S[N = n) = var
_
N

k=1
X
k
¸
¸
¸ N = n
_
= var
_
n

k=1
X
k
¸
¸
¸ N = n
_
= var
_
n

k=1
X
k
_
= nvar(X
1
)
Vale quindi var(S[N) = N var(X
1
) ed applicando la decomposizione (5) si trova
var(S) = E
_
var(S[N)
_
+ var
_
E(S[N)
_
= E
_
N var(X
1
)
_
+ var
_
N E(X
1
)
_
= E(N) var(X
1
) + var(N)
_
E(X
1
)
_
2
.
156
5. Valore atteso condizionato come stimatore
Motivazione. Si supponga di dover stimare con un numero reale c una variabile aleatoria
X ∈ o. Una possibilit`a `e di effettuare un esperimento il cui risultato `e modellato da
X ed impiegare l’esito di X come costante c. Questa scelta non soddisfa un criterio di
ottimalit`a, inoltre X potrebbe non essere osservabile. Per scegliere c la teoria geometrica
suggerisce di minimizzare il quadrato della norma d’errore [[X −c[[
2
.
Lemma.
c

:= arg min
c∈R
[[X −c[[
2
= E(X)
Dimostrazione. Attenzione: non si pu`o prendere X = c, perch´e c deve essere un numero
reale. Peraltro un calcolo diretto fornisce
[[X −c[[
2
= E
_
(X −c)
2
_
= E
_
(X −E(X) +E(X) −c)
2
¸
= E
_
(X −E(X))
2
_
+ 2E
_
[X −E(X)][E(X) −c]
_
+E
_
(E(X) −c)
2
_
= var(X) + (E(X) −c)
2
Questa espressione `e somma di due quantit`a non negative di cui la prima `e indipendente
da c. Scegliendo c = E(X) si annulla il termine dipendente da c e quindi si raggiunge il
minimo.
Valore atteso condizionato come stimatore. Si supponga di disporre della densit`a congiunta
di due v.a. (X, Y ) e di poterne osservare solo una, poniamo la Y , e di voler stimare il
valore della v.a. X sulla base della v.a. Y .
`
E ragionevole quindi che lo stimatore della X
sia costruito come funzione, diciamo v(Y ), della v.a. Y . Per scegliere la funzione v(Y ) la
teoria geometrica suggerisce di minimizzare il quadrato della norma d’errore [[X−v(Y )[[
2
.
Lemma.
v

(Y ) = arg min
v(Y )∈σ(Y )
[[X −v(Y )[[
2
= E(X[Y )
Dimostrazione. Dal punto di vista geometrico la soluzione `e ovviamente data dalla proiezione
ortogonale di X su σ(Y ), e quindi v

(Y ) = E[X[Y ]. Si pu`o riderivare lo stesso risulta-
to per via analitica imitando quanto fatto sopra per il valore atteso. Questa parte della
dimostrazione `e ridondante, ma non guasta fare esercizio.
[[X −v(Y )[[
2
= E
_
(X −v(Y ))
2
_
= E
_
(X −E(X[Y ) +E(X[Y ) −v(Y ))
2
_
= E
_
(X −E(X[Y ))
2
_
+ 2E
_
_
X −E(X[Y )
¸_
E(X[Y ) −v(Y )
¸
_
+ E
_
(E(X[Y ) −v(Y ))
2
_
= var(X −E(X[Y )) +E
_
(E(X[Y ) −v(Y ))
2
_
.
Il lettore dimostri che il doppio prodotto nel penultimo passaggio `e nullo (conviene calcolare
il valore atteso iterato condizionando rispetto ad Y ). Anche in questo caso ci siamo quindi
ridotti alla somma di due quantit`a positive, la prima delle quali indipendente da v(Y ).
Scegliendo v(Y ) = E(X[Y ) si annulla il termine dipendente, quindi il minimo si raggiunge
per v

(Y ) = E(X[Y ).
157
Appendice II alla Lezione 25 – Teoria geometrica nel caso discreto
non in programma 2012/13
Nel caso discreto l’interpretazione geometrica del valore atteso condizionato pu` o essere data con completo
rigore senza bisogno di introdurre nozioni di teoria della misura.
1. Richiamo sulle formule di proiezione ortogonale negli spazi vettoriali a prodotto interno
Sia 1 uno spazio vettoriale dotato di prodotto scalare. Per v, w ∈ 1, denotiamo ¸v, w) il prodotto scalare
e [[v[[ =
_
¸v, v) la corrispondente norma.
Proiezione su un sottospazio unidimensionale. Dato un vettore w ∈ 1, il sottospazio lineare di 1 generato
da w `e
¹ := span|w¦ = | αw[ α ∈ R¦.
Dato un qualunque vettore v ∈ 1 ci poniamo il problema del calcolo della proiezione ortogonale di v su
¹. Denotiamo T
H
v la proiezione cercata. Naturalmente T
H
v ∈ ¹ e il problema si riduce al calcolo
dell’opportuno scalare α

tale che P
H
v = α

w. La figura qui sotto dovrebbe aiutare a capire il Lemma e
la dimostrazione seguenti.
-
6
- -
v
w αw
T
H
v ¹
v −αw
v −T
H
v
Lemma.
P
H
v =
¸v, w)
¸w, w)
w
Dimostrazione. Poich´e P
H
v ∈ ¹ sar` a P
H
v = α

w per un opportuno α

. Il modo pi` u semplice per
determinare α

`e imporre la condizione di ortogonalit` a v − αw⊥¹, che equivale ad imporre v − αw⊥w,
ovvero
¸v −αw, w) = 0
che, per la linearit` a del prodotto scalare, fornisce
α

=
¸v, w)
¸w, w)
.
Esercizio. Calcolare lo scalare α

che caratterizza la proiezione ortogonale minimizzando la norma del-
l’errore di proiezione v − αw. Nota bene: `e equivalente, ma pi` u comodo, minimizzare il quadrato della
norma.
Proiezione su un sottospazio multidimensionale. Consideriamo ora il caso in cui
¹ := span| w
1
, w
2
, . . . w
M
¦ =
_
M

j=1
c
j
w
j
¸
¸
c
1
, . . . c
M
∈ R
_
.
Faremo l’ipotesi che i vettori w
1
, w
2
, . . . w
M
siano ortogonali, ovvero ¸w
i
, w
j
) = 0 per ogni i ,= j. Sotto
questa ipotesi ¹ `e un sottospazio lineare di 1, di dimensione M.
158
Lemma.
P
H
v =
M

j=1
¸v, w
j
)
¸w
j
, w
j
)
w
j
Dimostrazione. La proiezione P
H
v ∈ ¹, quindi si tratta di determinare gli M scalari c

1
, . . . c

M
tali che
P
H
v =

M
j=1
c

j
w
j
. Per farlo imponiamo la condizione di ortogonalit`a v −

M
j=1
c
j
w
j
⊥¹, che equivale ad
imporre v−

M
j=1
c
j
w
j
⊥w
k
per ogni vettore w
k
della base di ¹. In termini di prodotti interni la condizione
`e:
_
v −
M

j=1
c
j
w
j
, w
k
_
= 0 per ogni k = 1, 2, . . . M
Per la linearit`a del prodotto scalare, e sfruttando l’ortogonalit` a dei w
k
, si ottiene
c

j
=
¸v, w
j
)
¸w
j
, w
j
)
.
`
E possibile scrivere formule di proiezione anche nel caso in cui i vettori w
j
non sono ortogonali. In
alternativa, tramite la procedura di Gram-Schmidt, si pu` o produrre, a partire da un insieme di vettori
indipendenti w
1
, . . . w
M
, una base ortogonale. Questi sono argomenti che avete gi` a visto nel corso di
Algebra Lineare e che rivedrete all’opera nei corsi pi` u avanzati di Stima e Filtraggio.
2. Valore atteso condizionato - caso delle v.a. indicatrici
Introdurremo l’interpretazione geometrica del valore atteso condizionato procedendo per gradi, dal caso
pi` u semplice al pi` u generale. In questo paragrafo X ed Y saranno entrambe v.a. di Bernoulli. A partire da
questo caso si pu` o costruire rigorosamente tutta la teoria discreta. Per i fini di questa nota il comportamento
delle variabili aleatorie come funzioni Ω →R`e pi` u rilevante delle densit`a. Per questo motivo approfondiamo
alcune idee sulle funzioni indicatrici, che sono le funzioni Ω →R che originano le v.a. di Bernoulli.
Definizione. Sia (Ω, T, P) uno spazio di probabilit`a dato e B ∈ T. La variabile aleatoria
χ
B
, indicatrice
dell’evento B, `e definita come
χ
B
(ω) =
_
1, se ω ∈ B
0, se ω ∈ B
c
.
La v.a.
χ
B
ha alfabeto |0, 1¦ quindi `e una Bernoulli, e poich´e
P(
χ
B
= 1) = P(|ω;
χ
B
= 1¦) = P(B),
la v.a.
χ
B
∼ b(P(B)), e vale
E[
χ
B
] = P(B).
Le seguenti propriet` a delle v.a. indicatrici sono banali, ma utili

χ
2
B
=
χ
B
, per ogni B ∈ T,

χ
B
χ
C
=
χ
B∩C
, per ogni coppia B, C ∈ T.
Definizione. (Insieme delle funzioni di una assegnata v.a. Y ). Data una qualunque v.a. Y l’insieme delle
variabili aleatorie che sono funzioni di Y , `e
σ(Y ) := | h(Y ) [ h : R →R¦.
Vediamo ora le propriet` a di σ(Y ) nel caso particolare in cui Y =
χ
B
.
Lemma.
σ(
χ
B
) = |c
1
χ
B
+c
2
χ
B
c [ c
1
, c
2
∈ R¦.
Dimostrazione. L’insieme σ(
χ
B
) contiene tutte la funzioni del tipo h(
χ
B
)(ω), dove h `e una qualunque
funzione h : R → R. Per un’assegnata h, la funzione h(
χ
B
)(ω) assume solo due valori: h(0) se ω ∈ B e
h(1) se ω ∈ B
c
. Per ogni ω ∈ Ω vale quindi l’identit` a
h(
χ
B
)(ω) = h(0)
χ
B
(ω) +h(1)
χ
B
c (ω)
(se vi convincete della validit` a di questa rappresentazione della funzione h(
χ
B
)(ω) capirete facilmente il
resto della nota). Poich´e h `e arbitraria, h(0) e h(1) sono numeri reali arbitrari, diciamoli c
1
, e c
2
. Abbiamo
dimostrato che l’insieme delle funzioni h(
χ
B
) coindide con l’insieme delle v.a. della forma c
1
χ
B
+ c
2
χ
B
c
per c
1
e c
2
reali abritrari.
`
E interessante osservare che l’insieme σ(
χ
B
) `e un sottospazio lineare di S. Pi` u precisamente vale il seguente:
159
Lemma. σ(
χ
B
) `e un sottospazio lineare di S, di dimensione 2. I vettori
χ
B
e
χ
B
c formano una base
ortogonale di σ(
χ
B
).
Dimostrazione. Osserviamo che σ(
χ
B
) ⊂ S (perch´e ?). Per verificare l’ortogonalit` a di
χ
B
e
χ
B
c calcoliamo
¸
χ
B
,
χ
B
c ) = E[
χ
B
χ
B
c ] = E[
χ
B∩B
c ] = E[
χ

] = E[0] = 0.
Poich´e
χ
B
e
χ
B
c sono ortogonali, sono anche linearmente indipendenti (attenzione:
χ
B
e
χ
B
c NON sono
probabilisticamente indipendenti, verificatelo!). Si conclude che σ(
χ
B
) `e un sottospazio lineare di S, di
dimensione 2, ovvero σ(
χ
B
) = span|
χ
B
,
χ
B
c ¦.
Sia
χ
A
un’assegnata v.a indicatrice. Trattandosi di un vettore di S ha senso calcolare la proiezione
ortogonale
T
σ(
χ
B
)
(
χ
A
)
Il risultato di questa operazione sar` a ovviamente un elemento di σ(
χ
B
), ovvero una v.a. funzione di
χ
B
.
La proiezione ortogonale cercata `e data dalla formula (vedi appendice se necessario)
T
σ(
χ
B
)
(
χ
A
) =
¸
χ
A
,
χ
B
)
¸
χ
B
,
χ
B
)
χ
B
+
¸
χ
A
,
χ
B
c )
¸
χ
B
c ,
χ
B
c )
χ
B
c , (6)
valida poich´e
χ
B
e
χ
B
c sono ortogonali.
Identifichiamo ora il significato probabilistico della proiezione (6). Dalla definizione di prodotto scalare
¸
χ
A
,
χ
B
) = E[
χ
A
χ
B
] = E[
χ
A∩B
] = P(A∩ B),
inoltre
¸
χ
B
,
χ
B
) = E[(
χ
B
)
2
] = E[
χ
B
] = P(B).
Procedendo in modo analogo con gli altri prodotti interni otteniamo
T
σ(
χ
B
)
(
χ
A
) = P(A[B)
χ
B
+ P(A[B
c
)
χ
B
c . (7)
La proiezione T
σ(
χ
B
)
(
χ
A
) `e dunque una v.a. che assume due valori,
T
σ(
χ
B
)
(
χ
A
)(ω) =
_
P(A[B), se ω ∈ B
P(A[B
c
), se ω ∈ B
c
.
(8)
Convincetevi che (7) e (8) contengono la stessa informazione se non volete aver problemi a capire il seguito
della nota.
Tutto questo `e vagamente interessante, ma ecco la pi`ece de r´esistance.
Calcoliamo il valore atteso condizionato E[
χ
A
[
χ
B
] con la regola elementare. Anche questa `e una v.a. che
assume due valori, a seconda che
χ
B
= 1 o
χ
B
= 0, ovvero a seconda che ω ∈ B o che ω ∈ B
c
. In
particolare
E[
χ
A
[
χ
B
= 1] = E[
χ
A
[B] = 0 P(A
c
[B) + 1 P(A[B) = P(A[B) per ω ∈ B
E[
χ
A
[
χ
B
= 0] = E[
χ
A
[B
c
] = 0 P(A
c
[B
c
) + 1 P(A[B
c
) = P(A[B
c
) per ω ∈ B
c
Con una formula compatta (convincetevi che vale per ogni ω) possiamo scrivere
E[
χ
A
[
χ
B
] = P(A[B)
χ
B
+ P(A[B
c
)
χ
B
c . (9)
Confrontando (7) e (9) concludiamo che
E[
χ
A
[
χ
B
] = T
σ(
χ
B
)
(
χ
A
).
La v.a. valore atteso condizionato di
χ
A
dato
χ
B
coincide con la proiezione ortogonale di
χ
A
sul sottospazio
generato dalla v.a. condizionante
χ
B
.
Concludiamo la prima parte rivisitando una formula nota. Calcoliamo E[
χ
A
] usando la regola del valore
atteso iterato:
E[
χ
A
] = E
_
E[
χ
A
[
χ
B
]
_
.
Usando la (9), e per la linearit` a del valore atteso,
P(A) = E[
χ
A
] = E
_
E[
χ
A
[
χ
B
]
_
= E
_
P(A[B)
χ
B
+ P(A[B
c
)
χ
B
c
_
= P(A[B)E[
χ
B
] + P(A[B
c
)E[
χ
B
c ]
= P(A[B)P(B) +P(A[B
c
)P(B
c
),
una vecchia conoscenza.
160
3. Valore atteso condizionato - caso della v.a. condizionante discreta
Verificheremo ora che, anche quando la v.a. condizionante Y `e un’arbitraria v.a. discreta,
E[
χ
A
[Y ] = T
σ(Y )
(
χ
A
).
Sia dunque Y una v.a. discreta a valori in |y
1
, y
2
, . . . y
M
¦ e definiamo gli insiemi B
j
:= Y
−1
(y
j
), j =
1, . . . , M. Gli insiemi B
j
formano una partizione di Ω e vale l’identit` a
Y (ω) = y
1
χ
B
1
+y
2
χ
B
2
+ +y
M
χ
B
M
Generalizzando immediatamente quanto visto per il caso delle v.a. indicatrici, un’arbitraria funzione h(Y )
della v.a. Y `e rappresentabile nella forma
h(Y )(ω) = h(y
1
)
χ
B
1
+h(y
2
)
χ
B
2
+ +h(y
M
)
χ
B
M
dove h(y
1
), . . . , h(y
M
) sono M numeri reali. Abbiamo cos`ı dimostrato che lo spazio σ(Y ), generato dalla
v.a. Y , `e
σ(Y ) :=
_
M

j=1
c
j
χ
B
j
[ c
1
, . . . c
M
∈ R
_
Poich´e ¸
χ
B
h
,
χ
B
k
) = E[
χ
B
h
χ
B
k
] = 0 per ogni h ,= k, l’insieme σ(Y ) `e un sottospazio lineare, di dimensione
M, di S, ovvero
σ(Y ) = span|
χ
B
1
, . . . ,
χ
B
M
¦,
e
χ
B
1
, . . . ,
χ
B
M
ne `e una base ortogonale.
Fissata una v.a. indicatrice
χ
A
`e immediato il calcolo della proiezione ortogonale
T
σ(Y )
(
χ
A
) =
M

j=1
¸
χ
A
,
χ
B
j
)
¸
χ
B
j
,
χ
B
j
)
χ
B
j
=
M

j=1
P(A[B
j
)
χ
B
j
Per dimostrare che T
σ(Y )
(
χ
A
) coincide anche in questo caso con E[
χ
A
[Y ] usiamo la regola elementare per
il calcolo del valore atteso condizionato. La v.a. E[
χ
A
[Y ] assume M valori, e specificamente per ω ∈ B
j
esso vale
E[
χ
A
[Y = y
j
] = E[
χ
A
[B
j
] = P(A[B
j
).
Incollando insieme i pezzi per j = 1, . . . M, si ottiene la rappresentazione
E[
χ
A
[Y ] =
M

j=1
P(A[B
j
)
χ
B
j
e quindi, come nel caso delle funzioni indicatrici,
E[
χ
A
[Y ] = T
σ(Y )
(
χ
A
).
Il valore atteso condizionato di
χ
A
data Y coincide con la proiezione ortogonale di
χ
A
sul sottospazio
generato dalla v.a. condizionante Y . Lasciamo al lettore l’interpretazione della formula E[
χ
A
] = E[E[
χ
A
[Y ]]
in questo caso.
4. Valore atteso condizionato - caso discreto generale
`
E un semplice esercizio generalizzare quanto visto finora al caso del valore atteso condizionato E[X[Y ] dove
sia X che Y sono v.a. discrete generali. Se . := |x
1
, . . . x
N
¦ `e l’alfabeto di X, imitando quanto gi` a fatto
varie volte finora, possiamo scrivere
X(ω) = x
1
χ
A
1
+x
2
χ
A
2
+ +x
N
χ
A
N
dove A
i
:= X
−1
(x
i
). Poich´e la proiezione ortogonale `e una trasformazione lineare abbiamo immediatemente
che
T
σ(Y )
(X) = T
σ(Y )
_
N

i=1
x
i
χ
A
i
_
=
N

i=1
x
i
T
σ(Y )
(
χ
A
i
) =
N

i=1
x
i
M

j=1
P(A
i
[B
j
)
χ
B
j
Peraltro il valore atteso condizionato E[X[Y ] per Y = y
j
, ovvero per ω ∈ B
j
, vale, usando la formula
elementare
E[X[Y = y
j
] =
N

i=1
x
i
p
X|Y
(x
i
[y
j
) =
N

i=1
x
i
P(A
i
[B
j
)
e quindi la v.a. E[X[Y ], ragionando come nei casi precedenti, coincide con la proiezione ortogonale
T
σ(Y )
(X). Una rappresentazione pi` u chiara di E[X[Y ] si ottiene mettendo in evidenza i
χ
B
j
:
E[X[Y ](ω) =
N

i=1
x
i
M

j=1
P(A
i
[B
j
)
χ
B
j
(ω) =
M

j=1
_
N

i=1
x
i
p
X|Y
(x
i
[y
j
)
_
χ
B
j
(ω).
161
Lezione 26 (Mercoled`ı, 8 maggio 2013, ore 16:30-18:15)
26.1 Motivazione allo studio della funzione generatrice dei momenti
Nello studio delle variabili aleatorie abbiamo introdotto E(X) e var(X) come parametri
riassuntivi del comportamento probabilistico di X. Il valore atteso `e un indice di localiz-
zazione, essendo il numero reale intorno al quale sono distribuiti i possibili valori di X.
La varianza `e un indice di variabilit`a, proporzionale alla dispersione dei possibili valori di
X intorno al valore atteso. La disuguaglianza di Chebyshev lega i due indici: il limite
superiore per la probabilit`a degli scostamenti di X da E(X) `e proporzionale alla varianza,
P([X − E(X)[ > c) ≤
var(X)
c
2
. Poich´e var(X) = E(X
2
) −
_
E(X)
_
2
, le informazioni con-
tenute nella coppia di parametri E(X), var(X) sono equivalenti a quelle contenute nella
coppia E(X), E(X
2
).
Per naturale estensione, tutti i momenti di X possono considerarsi parametri riassuntivi
del comportamento probabilistico. Ricordiamo che per ogni k = 0, 1, 2, . . . il momento di
ordine k di X, `e (nel caso assolutamente continuo e in quello discreto rispettivamente)
m
k
:= E(X
k
) =
_

−∞
x
k
f
X
(x) dx, m
k
:= E(X
k
) =

k
x
k
k
p
X
(x
k
),
se l’integrale (la serie) esiste finito. Una banale condizione sufficiente, che garantisce
l’esistenza di m
k
per ogni k ∈ N, `e che la densit`a abbia supporto su un intervallo [a, b]
finito. Se il supporto `e illimitato, una condizione sufficiente `e che la densit`a tenda a zero
pi` u velocemente di qualunque x
k
. La normale, l’esponenziale, la geometrica, la Poisson,
soddisfano tutte questo criterio. In generale non tutti i momenti di una data variabile
aleatoria esistono ma, per quanto dimostrato nel paragrafo 17.1, se esiste m
s
allora esistono
tutti gli m
r
, per ogni r < s. La v.a. di Cauchy ad esempio non ammette m
1
:= E(X),
e quindi nessun momento di ordine superiore ad 1. Si noti invece che il momento m
0
esiste sempre, ma non `e informativo, infatti m
0
= E(X
0
) = E(1) = 1, qualunque sia
X. L’intuizione suggerisce che tutti gli altri momenti m
k
, k ≥ 1, sono informativi e che
maggiore `e il numero di momenti noti, maggiori sono le informazioni sul comportamento
probabilistico di X. Il prossimo risultato mostra che, se l’alfabeto di X `e finito, l’intuizione
`e corretta.
Lemma. Sia X una v.a. a valori in A = ¦ x
1
, x
2
, . . . x
N
¦. Dati i momenti
m
k
= E(X
k
), k = 0, 1, . . . N −1,
la densit`a di probabilit`a p
X
(x
i
), i = 1, 2, . . . N `e univocamente determinata.
Dimostrazione. Scriviamo le equazioni che definiscono i momenti m
k
in forma matriciale
_
_
_
_
_
_
m
0
m
1
m
2
. . .
m
N−1
_
_
_
_
_
_
=
_
_
_
_
_
_
1 1 1 . . . 1
x
1
x
2
x
3
. . . x
N
x
2
1
x
2
2
x
2
3
. . . x
2
N
. . . . . . . . . . . . . . .
x
N−1
1
x
N−1
2
x
N−1
3
. . . x
N−1
N
_
_
_
_
_
_
_
_
_
_
_
_
p
X
(x
1
)
p
X
(x
2
)
p
X
(x
3
)
. . .
p
X
(x
N
)
_
_
_
_
_
_
Questo `e un sistema di N equazioni lineari nelle N incognite p
X
(x
i
). La matrice del
sistema `e di Vandermonde
22
, ed ha determinante non nullo poich´e gli x
i
sono distinti,
quindi la soluzione p
X
(x
1
) . . . p
X
(x
N
) esiste ed `e unica.
22
per un richiamo sulle matrici di Vandermonde si veda un qualunque testo di algebra lineare.
`
E fatta
abbastanza bene la pagina http://en.wikipedia.org/wiki/Vandermonde matrix
162
Osservazione. Bisogna prestare molta attenzione ed evitare di leggere in questo Lemma
quello che non c’`e scritto. Non `e vero che, data una qualunque sequenza di numeri reali
m
0
, m
1
, . . . m
N−1
, con m
0
= 1, la soluzione del sistema lineare qui sopra, che esiste ed
`e unica, soddisfi i vincoli p
X
(x
i
) ≥ 0 per ogni i = 1, 2 . . . N e

i
p
X
(x
i
) = 1, sia cio`e
una densit`a di probabilit`a legittima. A tal fine bisogna che la sequenza m
0
, m
1
, . . . m
N−1
sia effettivamente la sequenza dei momenti di una qualche variabile aleatoria. Una tale
sequenza non pu`o essere arbitraria: ad esempio m
2
, m
4
, . . . m
2k
. . . devono, quanto meno,
essere non-negativi per poter rappresentare momenti di ordine pari. La caratterizzazione
delle sequenze di numeri reali m
k
che sono possibili sequenze di momenti di una v.a.
costituisce il classico problema dei momenti dell’analisi matematica.
Nel caso di v.a. generali (discrete o continue) non `e sempre possibile ricostruire univo-
camente la densit`a di probabilit`a a partire dalla conoscenza dei momenti, anche ammesso
di conoscere la sequenza infinita ¦m
k
¦
k≥0
. Accettando comunque l’idea che pi` u momen-
ti si conoscono maggiori sono le informazioni a disposizione sulla densit`a considereremo
interessante ogni strumento matematico che ci consenta di calcolare in modo semplice i
momenti m
k
.
Il metodo brute-force per il calcolo dei momenti consiste nel valutare
m
k
= E(X
k
) =
_
x
k
f
X
(x) dx, per k = 0, 1, . . . ,
ovvero infiniti integrali. Peraltro la v.a. e
X
, funzione della v.a. X, ha un’interessante
propriet`a. Calcolando il valore atteso di e
X
e ricordando che e
x
=


k=0
x
k
k!
, si trova
E
_
e
X
_
=
_
e
x
f
X
(x) dx = E
_

k=0
X
k
k!
_
=

k=0
E(X
k
)
k!
,
ammesso che sia lecito lo scambio di valore atteso e serie. Si osservi il risultato del calcolo
di un unico integrale, E
_
e
X
_
, si pu`o esprimere come combinazione lineare (infinita) dei
momenti ¦m
k
¦
k≥0
. La funzione generatrice dei momenti, introdotta qui sotto, `e una
macchinetta analitica che consente di estrarre gli E(X
k
) dalla combinazione lineare.
26.2 Funzione generatrice dei momenti
Definizione. La funzione generatrice dei momenti (MGF) della v.a. X `e
M
X
: D →R; s → M
X
(s) := E
_
e
sX
_
,
dove D ⊂ R `e il sottoinsieme degli s ∈ R tali che l’integrale E
_
e
sX
_
esiste finito. Si noti
che, qualunque sia la variabile aleatoria X, il dominio D ,= ∅, infatti s = 0 → M
X
(0) =
E(1) = 1.
Se il dominio di definizione di M
X
(s) `e un intervallo D = (−s+0, s
0
) intorno all’origine
allora la variabile aleatoria X ammette tutti i momenti, come specificato nel seguente
teorema.
Teorema 1. Se M
X
(s) ha dominio di esistenza D = (−s +0, s
0
), per qualche s
0
> 0 allora
la variabile aleatoria X ammette tutti i momenti ¦m
k
¦
k≥0
, inoltre
m
k
= E(X
k
) =
d
(k)
ds
(k)
M
X
(s)
¸
¸
¸
s=0
, (1)
163
Cenno di dimostrazione. Sviluppando e
sx
in serie di Taylor
M
X
(s) := E
_
e
sX
_
=
_

−∞
e
sx
f
X
(x) dx
=
_

−∞

k=0
s
k
k!
x
k
f
X
(x) dx
=

k=0
s
k
k!
_

−∞
x
k
f
X
(x) dx
=

k=0
E(X
k
)
s
k
k!
,
dove lo scambio dell’integrale con la serie `e possibile poich´e M
X
(s) esiste per ogni s ∈ D =
(−s
0
, s
0
), per qualche s
0
> 0 (questa parte della dimostrazione `e omessa). La funzione
generatrice dei momenti `e quindi rappresentabile, per ogni s ∈ D, con la serie di potenze
M
X
(s) =

k=0
E(X
k
)
s
k
k!
. (2)
Peraltro se f(t) `e una funzione sviluppabile in serie di potenze in un intorno dell’origine,
ovvero f(t) =


k=0
a
k
t
k
`e noto che a
k
=
1
k!
d
k
dt
k
f(t)
¸
¸
t=0
. Confrontando con la serie di
potenze (2) si trova
m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)
¸
¸
s=0
.
Si osservi che la formula (1) consente di ricavare tutti i momenti m
k
a partire dal calcolo
delle derivate nell’origine, operazione (generalmente) semplice, della funzione M
X
(s). In
realt`a i momenti m
k
si possono addirittura ricavare per ispezione, senza calcoli, se si riesce
a scrivere lo sviluppo in serie di potenze di M
X
(s). Si vedano gli Esempi 3 e 6 qui sotto!
Esempi di calcolo di M
X
(s)
Esempio 1. Se Z ∼ N(0, 1),
M
Z
(s) = e
1
2
s
2
, per ogni s ∈ R
Dimostrazione. Si usa la tecnica del completamento del quadrato.
M
Z
(s) =
_
e
sx
1


e

1
2
x
2
dx
=
_
1


e

1
2
x
2
+sx
dx
=
_
1


e

1
2
_
(x−s)
2
−s
2
_
dx
=
__
1


e

1
2
(x−s)
2
dx
_
e
1
2
s
2
= e
1
2
s
2
dove, nell’ultimo passaggio, si riconosce che l’integranda `e la densit`a N(s, 1) che integra
ad 1, per ogni s ∈ R. Si veda anche l’Esempio 4
Micro-esercizio. Verificare che E(Z) = M
t
Z
(0) = 0, E(X
2
) = var(X) = M
tt
Z
(0) = 1.
164
Esempio 2. Se X ∼ Bin(n, p),
M
X
(s) = E
_
e
sX
_
=
n

k=0
e
sk
_
n
k
_
p
k
(1 −p)
n−k
=
n

k=0
_
n
k
_
(pe
s
)
k
(1 −p)
n−k
= (pe
s
+ 1 −p)
n
, per ogni s ∈ R
Micro-esercizio. Verificare che E(X) = M
t
X
(0) = np. Calcolare E(X
2
) = M
tt
X
(0) e
verificare i conti riottenendo la nota varianza della binomiale.
Esempio 3. Se X ∼ Exp(λ),
M
X
(s) =
_

0
e
sx
λe
−λx
dx = λ
_

0
e
−(λ−s)x
dx =
λ
λ −s
, per s < λ
Si noti che, in questo caso, il dominio di esistenza della M
X
(s) si riduce alla semiretta
s < λ. Poich´e il parametro λ di una densit`a esponenziale `e strettamente positivo si
deduce che la M
X
(s) esiste in un intorno dell’origine e quindi `e possibile determinare i
momenti E(X
k
) = M
(k)
X
(0). Per calcolare i momenti della v.a. esponenziale sfruttando il
Teorema 1 si pu`o operare in due modi. Il modo diretto `e usare la formula m
k
= E(X
k
) =
d
k
ds
k
M
X
(s)
¸
¸
s=0
. Il modo furbo `e scrivere lo sviluppo in serie di potenze di M
X
(s) che `e
particolarmente semplice ricordando le serie geometriche.
M
X
(s) =
λ
λ −s
=
1
1 −
s
λ
=

k=0
_
s
λ
_
k
=

k=0
k!
λ
k
s
k
k!
Abbiamo moltiplicato e diviso per k! i termini della serie geometrica per avere un’e-
spressione identica alla (2), che consente di scrivere gli m
k
= E(X
k
) per ispezione. Si
ricava
m
k
= E(X
k
) =
k!
λ
k
,
non male come rapporto sforzo/risultato: per le v.a. esponenziali la sequenza infinita m
k
si calcola in pochi secondi.
MGF di funzioni lineari
Teorema 2. Sia X una v.a. la cui MGF `e M
X
(s). Sia inoltre Y = aX +b, allora
M
Y
(s) = e
sb
M
X
(as)
Dimostrazione. Per calcolo diretto,
M
Y
(s) := E
_
e
sY
_
= E
_
e
s(aX+b)
_
= e
sb
E
_
e
saX
_
= e
sb
M
X
(as)
165
Esempi di applicazione del Teorema 2
Esempio 4. Se X ∼ N(µ, σ
2
),
M
X
(s) = e
µs
e
1
2
σ
2
s
2
.
Dimostrazione. La densit`a N(µ, σ
2
) coincide con la densit`a della variabile aleatoria X =
σZ + µ, dove Z ∼ N(0, 1), infatti X `e una trasformazione lineare di Z, (si veda il sot-
toparagrafo trasformazioni lineari delle v.a. normali, del paragrafo 18.1). Applicando
l’Esempio 1 ed il Teorema 2 si ottiene il risultato.
Esempio 5 (Calcolo dei momenti centrali). I momenti centrali della v.a. X sono denotati
σ
k
, e definiti come
σ
k
:= E
_
(X −E(X))
k
_
= E
_
(X −m
1
)
k
_
, k = 1, 2, . . .
se l’integrale (la serie) esiste ed `e finito. Si noti che σ
1
= 0, qualunque sia la v.a. X e che
σ
2
= var(X). Ponendo Y = X − m
1
`e evidente che i momenti m
Y
k
:= E(Y
k
) coincidono
con i momenti centrali σ
X
k
:= E
_
(X −m
1
)
k
_
di X. Il Teorema 2 fornisce allora
M
Y
(s) = M
X−m
1
(s) = e
−m
1
s
M
X
(s)
e, applicando il Teorema 1,
σ
k
= E(Y
k
) =
d
k
ds
k
M
Y
(s)
¸
¸
s=0
=
d
k
ds
k
_
e
−m
1
s
M
X
(s)
_
¸
¸
s=0
(3)
Esempio 6 (Calcolo dei momenti centrali della N(µ, σ
2
)). Come conseguenza degli Esempi
4 e 5 si ha
M
X−µ
(s) = e
−µs
e
µs
e
1
2
σ
2
s
2
= e
1
2
σ
2
s
2
Ora, imitando quanto fatto nell’Esempio 3, anzich´e applicare direttamente la formula (3)
seguiamo la via furba, scrivendo direttamente la serie di potenze che rappresenta M
X−µ
(s).
M
X−µ
(s) = e
1
2
σ
2
s
2
=

k=0
_
1
2
σ
2
s
2
_
k
k!
=

k=0

2
)
k
2
k
k!
s
2k
=

k=0

2
)
k
(2k)!
2
k
k!
s
2k
(2k)!
Anche in questo caso abbiamo moltiplicato e diviso per (2k)! in modo da rendere i
momenti di X −µ (momenti centrali di X), ricavabili per ispezione della serie di potenze.
Si ha, per ogni k ≥ 1,
σ
2k+1
= 0,
σ
2k
=

2
)
k
(2k)!
2
k
k!
.
Micro-esercizio. Verificare che: σ
2
= σ
2
, σ
4
= 3(σ
2
)
2
.
166
Il problema dell’esistenza della MGF M
X
(s)
Per capire qual `e la radice del problema per la convergenza dell’integrale che definisce
M
X
(s) si consideri il caso di una v.a. X di Cauchy. La densit`a f
X
(x) =
1
π
1
1+x
2
, quindi
l’espressione della MGF `e
M
X
(s) =
_
1
π
e
sx
1 +x
2
dx
La figura qui sotto mostra l’andamento di e
sx
al variare di s e l’andamento di
1
1+x
2
.
Spezzando l’integrale per addittivit`a
M
X
(s) =
_
0
−∞
1
π
e
sx
1 +x
2
dx +
_

0
1
π
e
sx
1 +x
2
dx
Condizione necessaria per la convergenza dell’integrale `e che l’integranda tenda a zero per
x → ±∞. Usando la regola di L’Hˆ opital
lim
x→−∞
e
sx
1 +x
2
= lim
x→−∞
s
2
e
sx
2
= 0, se e solo se s > 0
lim
x→∞
e
sx
1 +x
2
= lim
x→∞
s
2
e
sx
2
= 0, se e solo se s < 0
Si conclude che M
X
(s) esiste solo per s = 0, dove banalmente vale M
X
(0) = 1.
167
Lezione 27 (Luned`ı 13 maggio, ore 10:30–13:15)
27.1 Funzione caratteristica di una variabile aleatoria
La funzione caratteristica `e un potente strumento per lo studio delle variabili aleatorie,
per certi aspetti simile alla funzione generatrice dei momenti, ma molto pi` u potente. La
funzione caratteristica, a differenza della funzione generatrice dei momenti, ha il pregio di
esistere sempre; la cattiva notizia `e che, in generale, essa `e una funzione a valori complessi.
Definizione. La funzione caratteristica di una v.a. X `e la funzione
ϕ
X
: R →C; ω → ϕ
X
(ω) := E
_
e
jωX
_
Nel caso di v.a. assolutamente continue
ϕ
X
(ω) := E
_
e
jωX
_
=
_
e
jωx
f
X
(x) dx,
e nel caso di v.a. discrete
ϕ
X
(ω) := E
_
e
jωX
_
=

k
e
jωx
k
p
X
(x
k
)
Legame con la nozione di trasformata di Fourier in Segnali e Sistemi
Nei libri di teoria della probabilit` a, la funzione caratteristica di una v.a. X `e definita come trasformata
di Fourier (TdF) della funzione di densit` a f
X
(x). Gli allievi ingegneri, alle prime armi con la TdF, sono
usualmente disorientati da questa definizione, poich´e la definizione di TdF che viene utilizzata differisce
leggermente da quella utilizzata in segnali e sistemi.
In realt` a nella letteratura scientifica convivono almeno quattro definizioni, leggermente diverse tra
loro, di TdF. Vediamo le quattro diverse coppie trasformata-antitrasformata, nel caso di un segnale x(t) a
tempo continuo e a valori complessi.
(a.) Per gli ingegneri dell’automatica
X(ω) :=
_
x(t)e
−jωt
dt
x(t) :=
1

_
X(ω)e
jωt
dω.
(b.) Rispetto alla definizione (a.) gli ingegneri delle telecomunicazioni sostituiscono ω con 2πf per far
sparire il coefficiente
1

dall’antitrasformata o, pi` u pomposamente, per rendere la trasformazione x(t) ↔
X(f) unitaria su L
2
(R),
X(f) :=
_
x(t)e
−j2πf
dt
x(t) :=
_
X(f)e
j2πft
df.
(c.) Rispetto alla definizione (a.) i fisici moltiplicano la trasformata per
1


in modo da avere lo stesso
fattore nella trasformata e nell’antitrasformata, ed anche questa `e una trasformazione unitaria
X(ω) :=
1


_
x(t)e
−jωt
dt
x(t) :=
1


_
X(jω)e
jωt
dω.
(d.) Rispetto alla definizione (a.) i probabilisti scambiano ω con −ω,
X(ω) :=
_
x(t)e
jωt
dt
x(t) :=
1

_
X(jω)e
−jωt
dω,
168
Adottando quest’ultima convenzione per la definizione di TdF, e la notazione f
X
(x) ↔ ϕ
X
(ω) per la
coppia segnale/trasformata, si riconosce che la funzione caratteristica, come definita all’inizio della lezione,
`e la trasformata di Fourier della densit` a di proabilit` a.
Propriet`a elementari della funzione caratteristica
(a.) Esistenza, continuit` a e normalizzazione
ϕ
X
(ω) esiste per ogni ω ∈ R, qualunque sia la densit`a f
X
(x). Infatti

X
(ω)[ =
¸
¸
¸
¸
_
e
jωx
f
X
(x) dx
¸
¸
¸
¸

_
¸
¸
e
jωx
f
X
(x)
¸
¸
dx =
_
f
X
(x) dx = 1.
Poich´e ϕ
X
(0) = E
_
e
j0X
_
= E(1) = 1 il modulo della funzione caratteristica ha un
massimo per ω = 0. La funzione caratteristica `e inoltre uniformemente continua su R
(dim. omessa).
(b.) Corrispondenza biunivoca funzioni caratteristiche funzioni di distribuzione
A livello pi` u fondamentale la funzione caratteristica si definisce a partire dalla funzione
di distribuzione delle variabili aleatorie. Si dimostra che esiste una corrispondenza biu-
nivoca tra funzioni caratteristiche e funzioni di distribuzione, ovvero se due funzioni di
distribuzione hanno la stessa funzione caratteristica allora coincidono. Ci limitiamo qui
ad osservare che, nel caso assolutamente continuo, le funzioni di distribuzione ammet-
tono densit`a e quindi, se la densit`a soddisfa le condizioni di Dirichlet, vale la formula
d’inversione
f
X
(x) =
1

_

−∞
e
−jωx
ϕ
X
(ω) dω, per ogni x di continuit`a di f
X
.
(c.) Simmetrie
Poich´e la densit`a f
X
(x) `e una funzione reale, ϕ
X
(ω) `e hermitiana. Se la densit`a f
X
(x) `e
pari allora ϕ
X
(ω) `e reale e pari (vedi Segnali e Sistemi). In questo caso
ϕ
X
(ω) =
_
cos(ωx)f
X
(x) dx
(d.) Relazione con i momenti
Se la v.a. X ammette k momenti allora ϕ
X
(ω) `e derivabile k volte nell’origine e
E(X
k
) =
1
j
k
d
(k)
ϕ
X
(ω)

(k)
¸
¸
¸
ω=0
Omessa la dimostrazione della derivabilit`a. Per ricavare la formula si deriva sotto il segno
di integrale, cio`e si scambiano le operazioni di derivata e calcolo del valore atteso:
d
(k)

(k)
ϕ
X
(ω)
¸
¸
¸
¸
¸
ω=0
=
d
(k)

(k)
E
_
e
jωX
_
¸
¸
¸
¸
¸
ω=0
= E
_
d
(k)

(k)
e
jωX

¸
¸
¸
¸
ω=0
= E
_
j
k
X
k
e
jωX

¸
¸
ω=0
= j
k
E(X
k
)
169
(e.) Funzione caratteristica di trasformazioni lineari
Se Y = aX +b allora
ϕ
Y
(ω) = E
_
e
jωY
_
= E
_
e
jω(aX+b)
_
= e
jωb
E
_
e
jωaX
_
= e
jωb
ϕ
X
(aω)
(f.) Funzione caratteristica della somma di due v.a. indipendenti
Se X, Y sono indipendenti allora W = X +Y ha funzione caratteristica
ϕ
W
(ω) = ϕ
X
(ω) ϕ
Y
(ω).
La dimostrazione `e immediata usando la definizione.
ϕ
W
(ω) = E
_
e
jω(X+Y )
_
= E
_
e
jωX
e
jωY
_
= E
_
e
jωX
_
E
_
e
jωY
_
= ϕ
X
(ω) ϕ
Y
(ω)
Questo risultato `e in realt`a una manifestazione del teorema della convoluzione. Se X ed Y
sono indipendenti `e noto che f
X+Y
= f
X
f
Y
, quindi la trasformata di Fourier di f
X+Y
`e il prodotto delle TdF di f
X
e di f
Y
.
Attenzione: non vale il viceversa. Se la funzione caratteristica della somma di due v.a.
`e il prodotto delle funzioni caratteristiche degli addendi non segue che le due v.a. sono
indipendenti. Pi` u sotto costruiremo un controesempio usando le v.a. di Cauchy.
Micro-esercizio. Dimostrare l’analoga propriet`a per la funzione generatrice dei momenti.
(g.) Funzione caratteristica della somma di n v.a. indipendenti
La generalizzazione di (f.) ad n variabili aleatorie `e immediata. Riportiamo alcune espres-
sioni che saranno utili in seguito. Se ¦X
i
¦
n
i=1
`e una sequenza finita di v.a. indipendenti,
con ϕ
X
i
(ω) funzione caratteristica di X
i
, la somma di variabili aleatorie
W =
n

k=1
X
k
ha funzione caratteristica
ϕ
W
(ω) =
n

k=1
ϕ
k
(ω)
Se le v.a. ¦X
i
¦ sono i.i.d., di funzione caratteristica comune ϕ(ω), allora
ϕ
W
(ω) =
_
ϕ(ω)
¸
n
.
Nello stesso caso di v.a. i.i.d. la media aritmetica delle v.a. ¦X
i
¦
n
i=1
,
X
n
:=
1
n
n

k=1
X
i
,
ha funzione caratteristica
ϕ
X
n
(ω) =
_
ϕ
_
ω
n
__
n
.
170
(h.) La funzione caratteristica `e definita positiva
Questo significa che per ogni n ∈ N, per ogni n−pla di reali ω
1
, ω
2
, . . . ω
n
ed ogni n−pla
di complessi u
1
, u
2
, . . . u
n
vale la disuguaglianza
n

k=1
n

l=1
ϕ
X

k
−ω
l
)u
k
u

l
≥ 0
Dimostrazione (notazioni: se z = x +jy allora z

= ¯ z = x −jy)
0 ≤ E
_
_
¸
¸
¸
¸
¸
n

k=1
u
k
e

k
X
¸
¸
¸
¸
¸
2
_
_
= E
__
n

k=1
u
k
e

k
X
__
n

k=1
u
k
e

k
X
_

_
= E
__
n

k=1
u
k
e

k
X
__
n

k=1
u

k
e
−jω
k
X
__
= E
_
n

k=1
n

l=1
u
k
u

l
e
j(ω
k
−ω
l
)X
_
=
n

k=1
n

l=1
u
k
u

l
E
_
e
j(ω
k
−ω
l
)X
_
=
n

k=1
n

l=1
ϕ
X

k
−ω
l
)u
k
u

l
(i.) Teorema di Bochner
Ogni funzione ϕ(ω) definita positiva, continua in un intorno dell’origine, e normalizzata
ϕ(0) = 1, `e la funzione caratteristica di una funzione di distribuzione (dimostrazione
omessa).
Esempi di calcolo e di applicazione
(1.) X ∼ |(a, b)
ϕ
U
(ω) =
_
b
a
e
jωx
1
b −a
dx =
1

e
jωb
−e
jωa
b −a
Dopo avere visto questo esempio l’introduzione motivazionale sull’utilit`a della funzione
caratteristica per il calcolo dei momenti sar`a ritenuta pubblicit`a ingannevole. In effetti,
calcolare le derivate della funzione ϕ
U
(ω) nell’origine `e piuttosto oneroso, mentre il calcolo
diretto dei momenti di una v.a. uniforme `e triviale
m
k
= E(X
k
) =
_
b
a
x
k
b −a
dx =
b
k+1
−a
k+1
(b −a)(k + 1)
.
Il fatto `e che, in rare occasioni, integrare `e pi` u facile che derivare. Nel caso particolare
a = −1, b = 1 la funzione caratteristica `e
ϕ(ω) =
sin ω
ω
,
che `e reale e pari come atteso.
171
(2.) X ∼ Exp(λ)
ϕ
X
(ω) =
_

0
λe
−λx
e
jωx
dx
=
_

0
λe
(jω−λ)x
dx
=
λ
jω −λ
e
(jω−λ)x
¸
¸
¸

0
converge per ogni ω ∈ R poich´e −λ < 0
=
λ
λ −jω
Spiegazione dettagliata (per chi era distratto alla lezione di Segnali e Sistemi) Capire a fondo la convergenza
dell’integrale appena visto `e importante. Analizziamo in dettaglio perch´e converge. Assegnato un numero
complesso
s = σ +jω
calcoliamo, usando la definizione ufficiale, l’integrale improprio
_

0
e
sx
dx =
_

0
e
(σ+jω)x
dx
= lim
T→∞
1
σ +jω
e
(σ+jω)x
¸
¸
¸
T
0
= lim
T→∞
1
σ +jω
e
σx
_
cos(ωx) +j sin(ωx)
_
¸
¸
¸
T
0
= −
1
σ +jω
, se σ < 0
Nell’ultimo passaggio abbiamo sfruttato la seguente osservazione. Se σ < 0 allora
lim
T→∞
e
σT
cos(ωT) = lim
T→∞
e
σT
sin(ωT) = 0
presentandosi, in entrambi i casi, il prodotto di una funzione che tende a zero per una funzione limitata. Se
invece σ ≥ 0 i limiti non esistono. Infatti, se σ = 0 le funzioni oscillano tra ±1, mentre se σ > 0 oscillano
illimitate.
Esercizio. Calcolare E(X) ed E(X
2
) per la v.a. esponenziale a partire dalla funzione
caratteristica.
(3.) X ∼ Cauchy
ϕ
X
(ω) =
_

−∞
1
π
e
jωx
1 +x
2
dx = e
−[ω[
questo `e un classico esempio di trasformata di Fourier – vedi esercizi di segnali e sistemi.
Controesempio alla propriet`a (f.). Si considerino le due v.a. di Cauchy, X ed Y = X,
allora X +Y = 2X e per la propriet`a (e.) vale
ϕ
X+Y
(ω) = ϕ
2X
(ω) = e
−2[ω[
= e
−[ω[
e
−[ω[
= ϕ
X
(ω)ϕ
Y
(ω),
la funzione caratteristica della somma X +Y `e il prodotto delle funzioni caratteristiche di
X ed Y . Ma le v.a. aleatorie X ed Y non sono indipendenti, infatti Y = X.
(4.) X ∼ b(p)
ϕ
X
(ω) =

k
e
jωx
k
p
X
(x
k
) = 1 −p +pe

172
(5.) X ∼ Bin(n, p)
ϕ
X
(ω) =

k
e
jωx
k
p
X
(x
k
) =
n

k=0
e
jkω
_
n
k
_
p
k
(1 −p)
n−k
=
n

k=0
_
n
k
_
_
pe

_
k
(1 −p)
n−k
=
_
1 −p +pe

_
n
(6.) Z ∼ N(0, 1)
ϕ
Z
(ω) = E[e
jωZ
] = e

1
2
u
2
Dimostrazione.
23
Si deve calcolare
ϕ
Z
(ω) =
1


_

−∞
e
jωx
e

x
2
2
dx
Per la formula di Eulero e
jωx
= cos(ωx) +j sin(ωx). Osserviamo che
1


_

−∞
sin(ωx) e

x
2
2
dx = 0
essendo l’integranda dispari ed integrabile (grazie alla veloce convergenza a 0 di e

x
2
2
). Ci
siamo quindi ridotti al calcolo di
ϕ
Z
(ω) =
1


_

−∞
cos(ωx) e

x
2
2
dx
Derivando rispetto a ω ed integrando per parti si trova
ϕ
t
Z
(ω) = −
1


_

−∞
xsin(ωx) e

x
2
2
dx =
1


_

−∞
sin(ωx) d
_
e
−x
2
2
_
=
1


sin(ωx) e
−x
2
2
¸
¸
¸
¸

−∞
−ω
1


_

−∞
cos(ωx) e

x
2
2
dx
= −ω ϕ
Z
(ω).
L’equazione differenziale lineare
ϕ
t
Z
(ω) = −ω ϕ
Z
(ω)
si risolve agevolmente separando le variabili

Z
(ω)
ϕ
Z
(ω)
= −ω dω ⇒ log(ϕ
Z
(ω)) = −
ω
2
2
+C ⇒ ϕ
Z
(ω) =
¯
C e

1
2
ω
2
e, imponendo la condizione iniziale ϕ
Z
(0) = 1, si conclude che ϕ
Z
(ω) = e

ω
2
2
.
(7.) X ∼ N(µ, σ
2
)
ϕ
X
(ω) = e
jµω−
1
2
σ
2
ω
2
Dimostrazione. Con l’usuale trucco della trasformazione lineare, scriviamo X = σZ + µ,
dove Z ∼ N(0, 1). Applicando la regola (e.) e il risultato di (6.) si ricava il risultato.
23
Aggiungere dimostrazione con i momenti.
173
Applicazioni alla caratterizzazione di funzioni di distribuzione
(a.) Caratterizzazione della v.a. Binomiale
Lemma. La somma X di n v.a. di Bernoulli X
1
, . . . X
n
, i.i.d. di parametro p, `e binomiale
Bin(n, p).
Commento. Questo risultato `e stato gi`a pi` u volte giustificato, ma ora e possibile di-
mostrarlo in modo semplice e rigoroso.
Dimostrazione. La funzione caratteristica comune delle v.a. di Bernoulli `e ϕ(ω) = 1 −
p + pe

. La funzione caratteristica della somma di v.a. indipendenti `e il prodotto delle
funzioni caratteristiche degli addendi quindi
ϕ
X
(ω) =
_
ϕ(ω)
_
n
=
_
1 −p +pe

_
n
,
questa `e la funzione caratteristica di una v.a. Bin(n, p). Se due v.a. hanno la stes-
sa funzione caratteristica le loro funzioni di distribuzione (e quindi densit`a) coincidono.
Conclusione: X ∼ Bin(n, p).
(b.) Combinazioni lineari di v.a. normali indipendenti sono normali
Alla fine della Lezione 23 abbiamo enunciato il seguente Teorema, senza per`o completarne
la dimostrazione che richiedeva un laborioso calcolo: la convoluzione di due densit`a nor-
mali. L’uso della funzione caratteristica semplifica di molto la dimostrazione. Questa `e
una manifestazione del teorema della convoluzione.
Teorema. Se W = αX +βY , con X ∼ N(µ
X
, σ
2
X
) ed Y ∼ N(µ
Y
, σ
2
Y
) indipendenti allora
W ∼ N(αµ
X
+βµ
Y
, α
2
σ
2
X

2
σ
2
Y
).
Dimostrazione. Le funzioni caratteristiche di X ed Y sono rispettivamente
ϕ
X
(ω) = e

X
ω−
1
2
σ
2
X
ω
2
ϕ
Y
(t) = e

Y
ω−
1
2
σ
2
Y
ω
2
Le funzioni caratteristiche di αX e di βY sono rispettivamente (regola 2 (e.))
ϕ
αX
(ω) = e
jαµ
X
ω−
1
2
α
2
σ
2
X
ω
2
ϕ
βY
(ω) = e
jβµ
Y
ω−
1
2
β
2
σ
2
Y
ω
2
Per l’ipotesi d’indipendenza la funzione caratteristica di Z = αX +βY `e il prodotto delle
due:
ϕ
W
(ω) = e
j(αµ
X
+βµ
Y
)t−
1
2

2
σ
2
X

2
σ
2
Y

2
ma questa `e la funzione caratteristica di una v.a. N(αµ
X
+ βµ
Y
, α
2
σ
2
X
+ β
2
σ
2
Y
) e la
dimostrazione `e conclusa.
(c.) Somme di v.a. binomiali indipendenti
Proposizione. Se la coppia di v.a. (X, Y ) `e indipendente con X ∼ Bin(m, p) ed Y ∼
Bin(n, p) allora Z = X +Y ∼ Bin(m+n, p).
Commento. Il risultato `e intuitivamente corretto infatti X si pu`o interpretare come somma
di m v.a. bernoulliane indipendenti di parametro p, ed analogamente Y come somma di
n bernoulliane indipendenti di parametro p. La v.a. X + Y `e quindi interpretabile come
somma di m + n bernoulliane di parametro p, quindi X + Y ∼ Bin(m + n, p). Forniamo
due dimostrazioni, la prima diretta, la seconda con le funzioni caratteristiche.
174
Dimostrazione diretta. La dimostrazione consiste nel calcolo di una convoluzione. Per
quanto noto, la densit`a di probabilit`a di Z = X +Y `e
p
Z
(k) = p
X
(k) p
Y
(k)
Le densit`a di probabilit`a p
X
e p
Y
sono rispetttivamente, (denotando q = 1 −p)
p
X
(k) =
_
m
k
_
p
k
q
m−k
[1l(k) −1l(k −m)]
p
Y
(k) =
_
n
k
_
p
k
q
n−k
[1l(k) −1l(k −n)]
dove abbiamo introdotto i gradini per tenere automaticamente conto del supporto delle
due densit`a: ¦0, 1, . . . m¦ per p
X
e ¦0, 1, . . . n¦ per p
Y
. La convoluzione allora si scrive
esplicitamente come
p
Z
(k) =

=−∞
p
X
(k −)p
Y
()
=

=−∞
_
m
k −
_
p
k−
q
m−k+
[1l(k −) −1l(k − −m)]
_
n

_
p

q
n−
[1l() −1l( −n)]
Estraendo dalla sommatoria le costanti in ci si riduce a
p
Z
(k) = p
k
q
m+n−k

=−∞
_
m
k −
__
n

_
[1l(k −) −1l(k − −m)][1l() −1l( −n)]
Il supporto (in , indice corrente della sommatoria) di [1l()−1l(−n)] `e ¦0, 1, . . . , n¦ mentre
il supporto di [1l(k −) −1l(k − −m)] `e ¦k −m, . . . , k¦ Per fissare le idee, e senza perdita
di generalit`a, supponiamo che m ≥ n. Si distinguono 5 casi:
k < 0 ⇒ p
Z
(k) = 0
0 ≤ k ≤ n ⇒ p
Z
(k) = p
k
q
m+n−k
k

=0
_
m
k −
__
n

_
n ≤ k ≤ m ⇒ p
Z
(k) = p
k
q
m+n−k
n

=0
_
m
k −
__
n

_
m ≤ k ≤ m+n ⇒ p
Z
(k) = p
k
q
m+n−k
n

=k−m
_
m
k −
__
n

_
k > m+n ⇒ p
Z
(k) = 0
Per terminare la dimostrazione dobbiamo verificare che, per ogni k ∈ ¦0, 1 . . . m + n¦
(ovvero in ognuno dei casi listati sopra dove la sommatoria non `e vuota), si ha
p
Z
(k) =
_
m+n
k
_
p
k
q
m+n−k
Allo scopo `e utile ricordare l’interpretazione di Polya dei coefficienti binomiali. Facendo
riferimento alla figura qui sotto, il coefficiente binomiale
_
n
k
_
`e il numero di cammini in
avanti che partono dal nodo (0, 0) e arrivano al nodo (n, k) sul reticolo. Ricordo che il
nodo (n, k) si trova al livello n-esimo del reticolo, in posizione k-esima. Il livello si conta
partendo da 0 alla radice, la posizione nel livello si conta partendo da 0 all’estrema sinistra
(guardando il reticolo). Con questa scelta di coordinate, per andare da (0, 0) ad (n, k)
175
si devono fare n passi, di cui k verso destra (guardando la figura). Il numero totale di
cammini di questo tipo `e chiaramente
_
n
k
_
.
Con riferimento alla figura ogni cammino da (0, 0) ad (m+n, k) si pu`o fare in due tappe
(0, 0) → (m, k −) → (m+n, k). Il nodo (m, k −) della tappa intermedia pu`o essere uno
qualunque di quelli da cui `e possibile raggiungere il nodo finale (m + n, k). Riflettendo
sulla figura `e facile convincersi che i possibili valori di dipendono da k esattamente
cone nell’analisi della convoluzione fatta sopra, ossia ∈ ¦0, 1 . . . k¦ se 0 ≤ k ≤ n (caso
illustrato in figura con i pallini sul livello 4), mentre ∈ ¦0, 1 . . . n¦ se n ≤ k ≤ m ed
infine ∈ ¦k − m, . . . n¦ se m ≤ k ≤ m + n. Per fissato, applicando il principio di
moltiplicazione, il numero di cammini da (0, 0) a (m + n, k) con tappa in (m, k − ) `e
_
m
k−
_

_
n

_
. Il numero totale di cammini (0, 0) → (m + n, k) si trova sommando rispetto
ad nell’insieme di valori appropriato (sono proprio le somme che si dovevano calcolare
per terminare la convoluzione!) e ovviamente dar`a sempre come risultato
_
m+n
k
_
.
t t t t
t
k = 3
m = 4
m+n = 7
Se siete arrivati fino a qui vi meritate una ciliegina. Dopo lo sforzo erculeo del calcolo della
convoluzione a mani nude apprezzerete al meglio la potenza dei metodi di trasformazione.
Dimostrazione della proposizione con il metodo della funzione caratteristica. Ricordiamo
che la funzione caratteristica di una v.a. X ∼ Bin(m, p) `e ϕ
X
(ω) =
_
1 − p + pe

_
n
`
E
altres`ı noto che la funzione caratteristica della somma di variabili aleatorie indipendenti `e
il prodotto delle funzioni caratteristiche. Poich´e X ed Y sono v.a. binomiali indipendenti
si trova
ϕ
X+Y
(ω) = ϕ
X
(ω) ϕ
Y
(ω)
=
_
1 −p +pe

_
m
_
1 −p +pe

_
n
=
_
1 −p +pe

_
m+n
Si riconosce che la funzione caratteristica ϕ
X+Y
(ω) coincide con quella di una densit`a
binomiale Bin(m+n, p). Poich´e le funzioni caratteristiche caratterizzano le distribuzioni,
si conclude che X +Y ∼ Bin(m+n, p). La proposizione `e dimostrata.
176
27.2 Vettori aleatori (notazioni matriciali)
Nelle precedenti lezioni abbiamo iniziato lo studio dei vettori aleatori introducendo la
descrizione probabilistica completa nella forma di distribuzioni e densit`a n dimensionali.
Non abbiamo ancora introdotto i parametri riassuntivi del comportamento probabilistico
dei vettori aleatori. Questi ultimi sono pi` u naturalmente definiti usando le notazioni
vettoriali e matriciali dell’algebra lineare.
Parametri riassuntivi
Sia X := (X
1
, X
2
. . . x
n
)
¯
∈ R
n
un vettore aleatorio. Introdurremo qui i corrispondenti
vettoriali delle nozioni di valore atteso, secondo momento, varianza ecc.
Definizione (vettore della media).
`
E il vettore in R
n
m
X
:= E(X) :=
_
_
_
_
E(X
1
)
E(X
2
)
. . .
E(X
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di m
X
`e sufficiente conoscere le funzioni di densit`a
di tutte le variabili aleatorie X
i
. Questa informazione `e molto minore di quella contenuta
nella densit`a congiunta f
X
(x
1
, x
2
, . . . x
n
) ed infatti si pu`o ricavare, per marginalizzazione,
da quest’ultima.
Definizione (matrice di correlazione).
`
E la matrice in R
nn
,
R
X
:= corr(X) := E
_
XX
¯
_
=
_
_
_
_
E(X
2
1
) E(X
1
X
2
) . . . E(X
1
X
n
)
E(X
2
X
1
) E(X
2
2
) . . . E(X
2
X
n
)
. . . . . . . . . . . .
E(X
n
X
1
) E(X
n
X
2
) . . . E(X
2
n
)
_
_
_
_
Osservazione. Si noti che, per il calcolo di R
X
`e sufficiente conoscere le funzioni di densit`a
congiunte di tutte le coppie di variabili aleatorie (X
i
, X
j
), per ogni i ,= j. Questa infor-
mazione `e molto minore di quella contenuta nella densit`a congiunta f
X
(x
1
, x
2
, . . . x
n
) ed
infatti si pu`o ricavare, per marginalizzazione, da quest’ultima.
Lemma. R
X
`e simmetrica ed `e semidefinita positiva
24
Dimostrazione. La simmetria `e ovvia. Per dimostrare che R
X
`e semidefinita positiva
procediamo direttamente. Per a ∈ R
n
, valutiamo la forma quadratica di matrice R
X
a
¯
R
X
a = a
¯
E
_
XX
¯
_
a
= E
_
a
¯
XX
¯
a
_
= E(w
2
) ≥ 0,
dove w := a
¯
X `e una variabile aleatoria scalare, quindi E(w
2
) ≥ 0, e si conclude che
a
¯
R
X
a ≥ 0 per ogni a ∈ R
n
.
24
Una matrice Q simmetrica `e detta semidefinita positiva, e si denota Q ≥ 0, se la corrispondente forma
quadratica q(x) := x

Qx ≥ 0, per ogni x ∈ R
n
. Se q(x) > 0 per ogni x ,= 0 allora Q si dice definita
positiva e si denota Q > 0. Se Q `e definita positiva essa `e invertibile. Se Q ≥ 0, e per qualche x
0
∈ R
n
la
forma si annulla, q(x
0
) := x

0
Qx
0
= 0, allora il determinante di Q `e nullo e quindi Q non `e invertibile.
177
Definizione (matrice di covarianza).
`
E la matrice in R
nn
,
Σ
X
:= cov(X) := E
_
(X−m
X
)(X−m
X
)
¯
_
=
_
_
_
_
E(X
1
−m
1
)
2
E(X
1
−m
1
)(X
2
−m
2
) . . . E(X
1
−m
1
)(X
n
−m
n
)
E(X
2
−m
2
)(X
1
−m
1
) E(X
2
−m
2
)
2
. . . E(X
2
−m
2
)(X
n
−m
n
)
. . . . . . . . . . . .
E(X
n
−m
n
)(X
1
−m
1
) E(X
n
−m
n
)(X
2
−m
2
) . . . E(X
n
−m
n
)
2
)
_
_
_
_
=
_
_
_
_
var(X
1
) cov(X
1
, X
2
) . . . cov(X
1
, X
n
)
cov(X
2
, X
1
) var(X
2
) . . . cov(X
2
, X
n
)
. . . . . . . . . . . .
cov(X
n
, X
1
) cov(X
n
, X
2
) . . . var(X
n
)
_
_
_
_
Osservazioni. (a.) Se le componenti del vettore X sono indipendenti la matrice Σ
X
`e
diagonale. (b.) per calcolare Σ
X
`e sufficiente conoscere le densit`a congiunte di tutte le
coppie (X
i
, X
j
), per ogni i ,= j. (c.) Poich´e Σ
X
= corr(X−m
X
) la matrice di covarianza
`e simmetrica e semidefinita positiva come tutte le matrici di correlazione.
Lemma.
Σ
X
= R
X
−m
X
m
¯
X
.
Dimostrazione. Dalla definizione
Σ
X
= E
_
(X−m
X
)(X−m
X
)
¯
_
= E
_
XX
¯
−m
X
X
¯
−Xm
¯
X
+m
X
m
¯
X
_
= E
_
XX
¯
_
−m
X
E
_
X
¯
_
−E
_
X
_
m
¯
X
+m
X
m
¯
X
= E
_
XX
¯
_
−m
X
m
¯
X
= R
X
−m
X
m
¯
X
.
Questa formula `e l’analoga vettoriale della formula scalare var(X) = E(X
2
) −(m
X
)
2
.
Trasformazioni lineari di vettori aleatori e parametri
Sia X ∈ R
n
un vettore aleatorio. La matrice A ∈ R
mn
ed il vettore b ∈ R
m
sono
deterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ R
m
, trasformazione lineare
(meglio chiamarla affine quando b ,= 0)) del vettore aleatorio X, come
Y := AX +b
Parametri della trasformazione lineare
I parametri del vettore Y = AX +b si ricavano facilmente da quelli di X. In particolare
vettore della media
m
Y
= E(Y ) = E(AX +b) = AE(X) +b = Am
X
+b
matrice di covarianza
Σ
Y
= E
_
(Y −m
Y
)(Y −m
Y
)
¯
_
= E
_
(AX +b −Am
X
−b)(AX +b −Am
X
−b)
¯
_
= E
_
(A(X −m
X
))(A(X −m
X
))
¯
_
= AE
_
(X −m
X
)(X −m
X
)
¯
_
A
¯
= AΣ
X
A
¯
178
matrice di correlazione
R
Y
= Σ
Y
+m
Y
m
¯
Y
= AΣ
X
A
¯
+ (Am
X
+b)(Am
X
+b)
¯
Vettori bidimensionali
Il caso dei vettori bidimensionali (caso bivariato) serve ad illustrare, con poca fatica, alcuni
fenomeni interessanti che si possono verificare nel caso vettoriale.
Sia V = (X, Y )
¯
un vettore aleatorio in R
2
. Vettore della media, matrice di corre-
lazione e matrice di varianza sono rispettivamente
m
V
=
_
E(X)
E(Y )
_
, R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
, Σ
V
=
_
var(X) cov(XY ))
cov(XY ) var(Y )
_
.
Lemma (matrici simmetriche, semidefinite positive).
Q =
_
a b
b c
_
≥ 0 se e solo se a ≥ 0, e det(Q) ≥ 0
Dimostrazione. Imponiamo che la forma quadratica q(v) = v
¯
Qv dove v = (x, y)
¯
sia
non-negativa.
q(x, y) =
_
x y
_
_
a b
b c
__
x
y
_
= a
2
x
2
+ 2b xy +c
2
y
2
≥ 0
`
E allora evidente che la condizione di non-negativit`a vale per ogni (x, y) ∈ R
2
se e solo se
a ≥ 0 ed il determinante del polinomio di secondo grado `e negativo, ∆ = 4b
2
− 4ac ≤ 0.
Semplificando e riordinando i termini la condizione necessaria e sufficiente `e che a ≥ 0 e
che ac −b
2
= det(Q) ≥ 0.
Dalla precedente sezione sappiamo che R
V
e Σ
V
sono semidefinite positive. Il Lemma
appena dimostrato applicato a R
V
comporta:
E(X
2
)E(Y
2
) ≥
_
E(XY )
¸
2
,
ed applicato a Σ
V
comporta:
var(X)var(Y ) ≥
_
cov(XY )
¸
2
.
Osservazione. Queste sono entrambe disuguaglianze di Cauchy Schwarz: la prima l’ave-
vamo dimostrata, per via alternativa, nella Lezione xx, la seconda non l’avevamo vista in
precedenza.
Lemma (covarianza ed esistenza della densit`a).
Se la matrice Σ
V
non `e invertibile il vettore V non ammette densit`a.
Dimostrazione. Se la matrice Σ
V
non `e invertibile il suo determinante `e nullo, ovvero
var(X)var(Y ) −
_
cov(XY )
¸
2
= 0.
In questo caso l’equazione Σ
V
a = 0 ammette una soluzione a = (α, β)
¯
,= (0, 0)
¯
e quindi
a
¯
Σ
V
a = 0. Esplicitamente l’ultima condizione si traduce in
0 = a
¯
Σ
V
a
=
_
α β
_
_
var(X) cov(XY )
cov(XY ) var(Y )
__
α
β
_
= α
2
var(X) + 2αβcov(XY ) +β
2
var(Y )
= E
_
α
2
(X −m
X
)
2
+ 2αβ(X −m
X
)(Y −m
Y
) +β
2
(Y −m
Y
)
2
_
= E
_
_
α(X −m
X
) +β(Y −m
Y
)
¸
2
_
179
La condizione E
_
_
α(X −m
X
) +β(Y −m
Y
)
¸
2
_
= 0 equivale a
α(X −m
X
) +β(Y −m
Y
) = 0
ovvero
αX +βY = c
dove c = αm
X
+βm
Y
`e una costante.
La conclusione `e che, se Σ
V
ha determinante nullo, esiste una relazione lineare tra le
componenti X ed Y di V . In questo caso il vettore V non `e assolutamente continuo, non
ammette cio`e densit`a, poich´e tutta la massa di probabilit`a `e concentrata sull’insieme 1 :=
¦ (x, y)
¸
¸
αx +βy = c ¦ ⊂ R
2
, di area nulla (`e una retta). Nessuna funzione f
XY
(x, y) ≥ 0,
Riemann integrabile, soddisfa
__
1
f
XY
(x, y) dxdy = 1, che `e quanto richiesto ad una
funzione di densit`a.
180
Appendice alla Lezione 27
Funzione caratteristica multivariata
materiale non in programma a.a. 2012/13
Definizione. Sia X
¯
= (X
1
, . . . X
n
)
¯
un vettore aleatorio. La funzione caratteristica di X
`e la funzione ϕ
X
: R
n
→C
ϕ
X
(ω) := E
_
e

X
_
= E
_
e
j

n
i=1
ω
i
X
i
_
= E
_
n

i=1
e

i
X
i
_
La ϕ
X
(ω) `e anche detta funzione caratteristica congiunta delle v.a. X
1
, X
2
, . . . X
n
. Nel
caso assolutamente continuo esiste la densit`a congiunta f
X
(x) ed `e
ϕ(ω) :=
_
. . .
_
R
n
n

i=1
e

i
X
i
f
X
(x
1
, . . . , x
n
) dx
1
. . . dx
n
,
analoga formula vale nel caso discreto.
Commento. Nel caso assolutamente continuo la funzione caratteristica multivariata `e la
trasformata di Fourier multidimensionale della densit`a congiunta f
X
(x). La densit`a con-
giunta `e una funzione f
X
: R
n
→ R. Nei corsi avanzati di Segnali e Sistemi si studiano
segnali di questo tipo. Un semplice esempio `e il segnale deterministico g(x
1
, x
2
) che rapp-
resenta il livello di grigio di una fotografia in bianco e nero nel punto (x
1
, x
2
) del piano. La
trasformata di Fourier bidimensionale `e di largo uso nei problemi di analisi di immagini.
Propriet`a elementari della funzione caratteristica multivariata
(a.) Esistenza, normalizzazione, continuit`a
(scrivo per il caso bivariato per convenienza notazionale: nulla cambia nel caso multivari-
ato, n > 2)
ϕ
X

1
, ω
2
) esiste per ogni (ω
1
, ω
2
) ∈ R
2
, infatti

X

1
, ω
2
)[ =
¸
¸
¸
¸
__
R
2
e
j(ω
1
x
1

2
x
2
)
f
X
(x
1
, x
2
) dx
1
dx
2
¸
¸
¸
¸

__
R
2
¸
¸
¸e
j(ω
1
x
1

2
x
2
)
f
X
(x
1
, x
2
)
¸
¸
¸ dx
1
dx
2
=
__
R
2
f
X
(x
1
, x
2
) dx
1
dx
2
= 1.
Inoltre `e immediato verificare dalla definizione che ϕ
X
(0, 0) = 1. Combinando con la
disuguaglianza in (a.) questo mostra che la funzione caratteristica ha un massimo in

1
, ω
2
) = (0, 0).
(b.) Marginalizzazioni
ϕ
X

1
, 0) = ϕ
X
1

1
), ϕ
X
(0, ω
2
) = ϕ
X
2

2
)
Immediato dalla definizione. Qualunque marginalizzazione relativa alle funzioni caratter-
istiche `e molto semplice. Ad esempio, sempre sulla base della definizione,
ϕ
X
1
X
2
X
3
X
4

1
, 0, 0, ω
4
) = E
_
e
j(ω
1
X
1

2
X
2

3
X
3

4
X
4
)
_
¸
¸
¸

2

3
)=(0,0)
= E
_
e
j(ω
1
X
1

4
X
4
)
_
= ϕ
X
1
X
4

1
, ω
4
) ecc.
181
(c.) Relazione con i momenti
Supponendo che le componenti X
1
, X
2
del vettore ammettano momenti la funzione carat-
teristica ϕ
X

1
, ω
2
) ammette le corrispondenti derivate parziali e valgono le relazioni
E(X
k
1
) =
1
j
k

(k)
∂ω
(k)
1
ϕ
X

1
, 0)
¸
¸
¸
ω
1
=0
E(X
k
2
) =
1
j
k

(k)
∂ω
(k)
2
ϕ
X
(0, ω
2
)
¸
¸
¸
ω
2
=0
E(X
1
X
2
) =
1
j
2

(2)
∂ω
1
∂ω
2
ϕ
X

1
, ω
2
)
¸
¸
¸

1

2
)=(0,0)
E(X
h
1
X
k
2
) =
1
j
h+k

(h+k)
∂ω
h
1
∂ω
k
2
ϕ
X

1
, ω
2
)
¸
¸
¸

1

2
)=(0,0)
Omessa la dimostrazione dell’esistenza delle derivate parziali. Per ricavare le formule si
deriva parzialmente sotto il segno di integrale, cio`e si scambiano le operazioni di calcolo
delle derivate parziali e del valore atteso. Per esercizio scrivete qualcuna delle formule nel
caso di vettori n−dimensionali.
Esercizio. Scrivere la matrice di correlazione R
V
del vettore bidimensionale V = (X, Y )
¯
in termini di derivate della funzione caratteristica.
Soluzione. Per quanto appena enunciato
R
V
=
_
E(X
2
) E(XY )
E(XY ) E(Y
2
)
_
= −
_

2
∂ω
2
1
ϕ
X

1
, 0)

2
∂ω
1
∂ω
2
ϕ
X

1
, ω
2
)

2
∂ω
1
∂ω
2
ϕ
X

1
, ω
2
)

2
∂ω
2
2
ϕ
X
(0, ω
2
)
_
¸
¸
¸(ω
1

2
)=(0,0)
La matrice di correlazione R
V
`e l’opposto della matrice Hessiana, calcolata nell’origine,
della funzione caratteristica.
(d.) Funzione caratteristica di trasformazioni lineari
Sia X ∈ R
n
un vettore aleatorio. La matrice A ∈ R
mn
ed il vettore b ∈ R
m
sono
deterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ R
m
, trasformazione lineare
(affine se b ,= 0)) del vettore aleatorio X, come
Y := AX +b
La formula per la determinazione della funzione caratteristica di Y generalizza la cor-
rispondente formula del caso scalare.
ϕ
Y
(ω) := E
_
e

Y
_
= E
_
e

(AX+b)
_
= E
_
e

AX
_
e

b
= ϕ
X
(A
¯
ω)e

b
Attenzione. In questa formula ω ∈ R
m
. Infatti l’argomento della funzione ϕ
Y
(ω) `e
ω ∈ R
m
, poich´e Y ∈ R
m
. Il dominio di ϕ
X
`e invece R
n
, in accordo con la dimensione di
X ∈ R
n
ed infatti nella formula compare ϕ
X
(A
¯
ω) dove A
¯
ω ∈ R
n
, poich´e A
¯
∈ R
nm
.
(e.) Funzione caratteristica di vettori a componenti indipendenti
Lemma. Le v.a. X
1
, X
2
, . . . X
n
, componenti del vettore aleatorio X, sono indipendenti se
e solo se
ϕ
X
(ω) =
n

i=1
ϕ
X
i

i
)
182
Dimostrazione. Se le componenti sono indipendenti allora la fattorizzazione vale per la
nota propriet`a del valore atteso:
ϕ
X
(ω) := E
_
e
j

n
i=1
ω
i
X
i
_
= E
_
n

i=1
e

i
X
i
_
=
n

i=1
E
_
e

i
X
i
_
per l’indipendenza
=
n

i=1
ϕ
X
i

i
)
La dimostrazione dell’altra direzione `e omessa.
183
Lezione 28 (Marted`ı 14 maggio, ore 16:25–18:05)
28.1 Vettori normali – motivazione della definizione
Nel caso scalare la distribuzione di una v.a. X normale, X ∼ N(µ, σ
2
), `e completamente
specificata dal valore atteso µ e dalla varianza σ
2
ed ammette sempre densit`a, tranne che
nel caso degenere σ
2
= 0 corrispondente ad una v.a. X = µ costante. Anche in R
n
, come
vedremo, un vettore normale multivariato X `e completamente specificato dal vettore della
media E(X) e dalla matrice di covarianza cov(X). A differenza di quanto accade in R
per`o, la densit`a non esiste sempre, ma se e solo se cov(X) `e invertibile.
25
Esistono quindi
vettori normali che non ammettono densit`a. Questo fatto crea qualche difficolt`a tecnica
al livello della definizione dei vettori normali, non potendosi in generale caratterizzare con
un’assegnata funzione di densit`a congiunta.
Vi sono molti modi equivalenti per definire i vettori normali in R
n
. La procedura pi` u
semplice `e definire i vettori normali standard e poi considerare normali tutti i vettori che
si possono ottenere come trasformazioni lineari di vettori standard. Prima di entrare nei
dettagli tecnici illustriamo la procedura nel caso scalare, confrontandola con la definizione
che avevamo usato nella Lezione 18.
Variabili aleatorie normali: vecchia definizione - vedi Lezione 18
Definizione. Y ∼ N(µ, σ
2
) se
f
Y
(y) =
1

2πσ
2
e

(x−µ)
2
σ
2
, y ∈ R
Variabili aleatorie normali: nuova definizione
Definizione 1. Z `e una v.a. normale standard, e scriveremo Z ∼ N(0, 1), se ha densit`a
f
Z
(z) := φ(z) =
1


e

z
2
2
, per ogni z ∈ R
Definizione 2. Y `e una v.a. normale se esiste una v.a. Z normale standard, e due numeri
a, b ∈ R tali che
Y = aZ +b.
Esercizio. Dimostrare che le due definizioni sono equivalenti.
Soluzione. Osserviamo inizialmente che la vecchia e la nuova definizione di Z ∼ N(0, 1)
coincidono. Sia Y `e una v.a. normale secondo la nuova definizione. Poich´e Y = aZ + b
dove Z ∼ N(0, 1), per le note propriet`a (Lezione 18.3) Y ∼ N(b, a
2
) secondo la vecchia
definizione. Viceversa sia Y ∼ N(µ, σ
2
) secondo la vecchia definizione. Per le note pro-
priet`a (Lezione 18.3) la v.a. Z :=
Y −µ
σ
∼ N(0, 1) e, invertendo questa relazione, Y si pu`o
rappresentare come Y = σZ+µ, quindi Y `e una v.a. normale secondo la nuova definizione.
Osservazione. La rappresentazione di Y ∼ N(µ, σ
2
) come funzione lineare di una v.a.
Z ∼ N(0, 1) non `e unica. Infatti Y = σZ + µ e Y = −σZ + µ sono rappresentazioni
diverse della v.a. Y ∼ N(µ, σ
2
).
Non `e un gioco di bussolotti come potrebbe sembrare: le due definizioni sono equiv-
alenti, ma l’enorme vantaggio della nuova definizione `e che essa non richiede di introdurre
la densit`a di Y . Questo fatto torner`a comodo nel caso vettoriale dove la densit`a non
sempre esiste.
25
Si veda il paragrafo sui vettori bidimensionali, alla fine della Lezione 27, per una discussione di questa
condizione.
184
2. Vettori normali
Definizione – vettore normale standard in R
n
. Il vettore aleatorio Z ∈ R
n
`e normale
standard se le sue componenti ¦Z
i
¦
n
i=1
sono v.a. i.i.d. N(0, 1).
`
E immediato ricavare funzione di densit`a, funzione caratteristica, vettore della media e
matrice di covarianza di un vettore normale standard in R
n
.
Poich´e le v.a. Z
i
sono i.i.d. la funzione di densit`a congiunta `e il prodotto delle n densit`a
identiche N(0, 1),
f
Z
(z
1
, . . . , z
n
) =
n

i=1
1


e

1
2
z
2
i
=
1
_
(2π)
n
e

1
2
[[z[[
2
. (1)
La funzione caratteristica di Z, anch’essa ottenuta come prodotto di n funzioni caratter-
istiche N(0, 1), `e
ϕ
Z
(ω) = e

1
2
[[ω[[
2
.
Il vettore della media di Z `e
E[Z] = 0,
poich´e E(Z
i
) = 0 per ogni i = 1, 2, . . . n.
La matrice di covarianza di Z `e
cov(Z) = I
n
,
dove I
n
denota la matrice identit`a in R
n
. Infatti cov(Z
i
, Z
j
) = 0 per ogni i ,= j poich´e le
v.a. Z
i
sono indipendenti, mentre cov(Z
i
, Z
i
) = var(Z
i
) = 1 per ogni i poich´e le Z
i
hanno
tutte varianza 1.
Esempio. La figura qui sotto mostra la densit`a del vettore normale standard in R
2
.
Chiamando Z = (Z
1
, Z
2
)
¯
= (X, Y )
¯
, la densit`a `e
f
Z
(x, y) =
1

e

1
2
(x
2
+y
2
)
, (x, y) ∈ R
2
.
La densit`a `e massima in (0, 0), dove vale
1

.
Diremo normale ogni vettore Y ∈ R
n
ottenuto come trasformazione lineare (affine per
dirla meglio) di un vettore normale standard Z ∈ R
k
. Si noti che k ed n possono essere
diversi, sono cio`e permesse trasformazioni lineari tra spazi di dimensione diversa. Qui
sotto la definizione formale.
Definizione – vettore normale in R
n
. Il vettore aleatorio Y ∈ R
n
`e normale se esistono: un
naturale k ∈ N, una matrice A ∈ R
nk
, un vettore µ ∈ R
n
ed un vettore normale standard
Z ∼ N(0, I
k
) tale che
Y = AZ +µ
Media e covarianza di vettori normali. Poich´e Y = AZ +µ per qualche A, µ,
E(Y) = E(AZ +µ) = AE(Z) +µ = µ,
cov(Y) = E((Y−µ)(Y−µ)
¯
) = E(AZZ
¯
A
¯
) = AI
n
A
¯
= AA
¯
.
Si noti che, qualunque sia A ∈ R
nk
, la matrice AA
¯
≥ 0, come atteso trattandosi di una
matrice di covarianza. Per denotare la matrice di covarianza introduciamo il simbolo
Σ := cov(Y) = AA
¯
.
185
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
4
3
Z
X
Y
2
1
4
0 3
2
-1
1
0
-2
-1
-2 -3
-3
-4
-4
Figura 1: Densit`a normale standard in R
2
Funzione caratteristica di un vettore normale. Poich´e Y = AZ+µ per qualche A, µ, e per
le propriet`a della funzione caratteristica multivariata (fine della Lezione 27),
ϕ
Y
(ω) = E
_
e
j ω

Y
_
= ϕ
Z
(A
¯
ω) e
j ω

µ
= e
j ω

µ−
1
2
ω

Σω
.
Osservazione 1. La funzione caratteristica del vettore normale Y `e completamente specifi-
cata dal vettore della media µ e dalla matrice A, ma solo attraverso la matrice di covarianza
Σ = AA
¯
. Questa propriet`a riflette quella analoga delle v.a. normali, la cui distribuzione
`e completamente specificata da media e varianza. Per questo motivo ha senso estendere
ai vettori normali la notazione Y ∼ N(µ, Σ), per indicare un vettore di media µ e matrice
di covarianza Σ. Ad esempio, denotando con I
k
la matrice identit`a di dimensione k, il
vettore normale standard in R
k
si denota Z ∼ N(0, I
k
).
Osservazione 2. Nel caso scalare sappiamo che, per ogni coppia (µ, σ
2
) ∈ RR
+
esistono
v.a. normali Y ∼ N(µ, σ
2
). Lo stesso accade nel caso vettoriale, vale infatti il seguente
Lemma.
Lemma. Per ogni coppia (µ, Σ), dove µ ∈ R
n
`e qualunque, e Σ ∈ R
nn
`e tale che
Σ = Σ
¯
≥ 0, esistono vettori normali Y ∼ N(µ, Σ).
La dimostrazione del Lemma richiede il seguente risultato di algebra lineare che pu`o essere
preso a scatola chiusa (chi lo desidera veda l’Appendice I alla Lezione).
Ogni matrice Σ ∈ R
nn
, tale che Σ = Σ
¯
≥ 0, si pu`o fattorizzare, in modo non unico,
nella forma Σ = AA
¯
, dove A ∈ R
nk
e k `e un qualunque naturale tale che k ≥ rank(Σ).
Dimostrazione del Lemma. Fissato k ≥ rank(Σ) si fattorizzi Σ = AA
¯
con A ∈ R
nk
. Il
vettore normale cercato `e Y := AZ +µ, dove Z ∼ N(0, I
k
).
Commento. Mentre nel caso scalare Y ∼ N(µ, σ
2
) ha due rappresentazioni Y = ±σZ +µ,
nel caso multivariato Y ∼ N(µ, Σ) ammette infinite rapresentazioni Y = AZ + µ, che
corrispondono alle infinite possibili fattorizzazioni Σ = AA
¯
.
186
Densit`a dei vettori normali
Veniamo ora al problema della determinazione della densit`a dei vettori normali. La con-
dizione di esistenza della densit`a `e molto semplice: un vettore normale ammette funzione
di densit`a se e solo se la matrice di covarianza `e invertibile.
Teorema. Sia Y ∈ R
n
un vettore normale Y ∼ N(µ, Σ) con Σ invertibile, allora Y ammette
densit`a che ha espressione
f
Y
(y) =
1
_
(2π)
n
det(Σ)
exp −
1
2
(y −µ)
¯
Σ
−1
(y −µ), y ∈ R
n
(2)
Dimostrazione euristica (si veda l’Appendice II per l’impostazione della dimostrazione
rigorosa). Nella Lezione 20.2 (Esempio 1) abbiamo dimostrato che, se
Y = g(Z) = aZ +b,
allora
f
Y
(y) =
1
[a[
f
Z
_
g
(−1)
(y)
_
=
1
[a[
f
Z
_
y −b
a
_
. (3)
Per Y ∼ N(µ, Σ) in R
n
si costruisca una qualunque fattorizzazione Σ = AA
¯
con A ∈
R
nk
si pu`o allora scrivere
Y = g(Z) = AZ +µ (4)
dove Z ∼ N(0, I
k
). Per calcolare la densit`a f
Y
ci ispiriamo alla formula (3). Affinch´e sia
soddisfatta la condizione necessaria di invertibilit`a di g(z) = Az+µ bisogna che sia n = k
ed inoltre A ∈ R
nn
deve essere invertibile. Ci`o equivale a Σ = AA
¯
invertibile. In questo
caso la funzione inversa esiste e vale
z = g
−1
(y) = A
−1
(y −µ),
Applichiamo allora la formula (3), con l’accortezza di sostituire [a[ con det(A) trovandoci
nel caso vettoriale. Ricordando la densit`a del vettore normale standard (1), si trova
f
Y
(y) = [det(A
−1
)[ f
Z
_
A
−1
(y −µ)
_
= [det(A
−1
)[
1
_
(2π)
n
exp −
1
2
[[A
−1
(y −µ)[[
2
(5)
L’espressione della densit`a si semplifica osservando quanto segue:
(a.) [[A
−1
(y −µ)[[
2
= (y −µ)
¯
(A
−1
)
¯
A
−1
(y −µ)
(b.) (A
−1
)
¯
A
−1
= (AA
¯
)
−1
= Σ
−1
facendo uso del fatto che (A
−1
)
¯
= (A
¯
)
−1
(c.) [det(A
−1
)[ = 1/
_
det(Σ) che si ricava applicando le note regole: det(A) = det(A
¯
),
det(A
−1
) = 1/det(A) e det(AB) = det(A)det(B).
Sostituendo tutto nella (5) si ottiene la formula della densit`a (2).
In pratica. Come ci aspettavamo la densit`a dipende solo da µ e da Σ (vedi commenti sulla
funzione caratteristica), ma non direttamente da A. Quindi se Y ∼ N(µ, Σ) ha matrice di
covarianza Σ > 0, la densit`a (2) si pu`o scrivere immediatamente senza bisogno di ricavare
preliminarmente una matrice A che fattorizzi Σ = AA
¯
.
Nota bene. Nelle trattazioni elementari un vettore aleatorio Y di valore atteso E(Y) = µ e
matrice di covarianza cov(Y ) = Σ si definisce normale se Σ > 0 ed Y ha densit`a (2). Cos`ı
facendo si opera come si era fatto nella Lezione 18 anche nel caso vettoriale, specificando
direttamente la densit`a ed eliminando tutte le difficolt`a. Il prezzo che si paga `e la perdita
di tutti i vettori normali con matrice di covarianza Σ non invertibile. Si tratta di una
pessima soluzione, forse accettabile per i corsi di Probabilit`a per la Sociologia.
187
Commento. Si noti l’analogia tra le formule di passaggio da v.a. N(0, 1) a v.a. N(µ, σ
2
)
e viceversa:
Z =
1
σ
(Y −µ) da N(µ, σ
2
) a N(0, 1)
Y = σZ +µ da N(0, 1) a N(µ, σ
2
)
e le corrispondenti multivariate (valide solo per Σ = AA
¯
> 0)
Z = A
−1
(Y−µ) da N(µ, Σ) a N(0, I
n
)
Y = AZ +µ da N(0, I
n
) a N(µ, Σ).
Sono le stesse formule del caso univariato, con la matrice A nel ruolo di radice quadrata
di Σ: in effetti A soddisfa alla AA
¯
= Σ, che `e l’analogo per matrici simmetriche della
radice quadrata.
Trasformazioni lineari dei vettori aleatori normali
Lemma. Se Y ∼ N(µ, Σ) e W := BY +ν, dove B ∈ R
mn
e ν ∈ R
m
, allora
W ∼ N(Bµ +ν, BΣB
¯
)
Dimostrazione. Sia A un qualunque fattore di Σ, allora Y = AZ +µ quindi,
W := BY +ν
= B(AZ +µ) +ν
= BAZ +Bµ +ν
Poich´e W si pu`o esprimere come trasformazione lineare di un vettore normale standard,
esso `e un vettore normale per definizione. Il calcolo del valore atteso e della matrice di
covarianza sono immediati. Ovviamente il risultato `e indipendente dal fattore A di Σ che
era stato scelto.
Conseguenza importante. Le componenti di un vettore normale sono v.a. normali, in
particolare, se Y ∼ N(µ, Σ), allora Y
i
∼ N(µ
i
, Σ
ii
)
Dimostrazione. Si applica il Lemma precedente alle n trasformazioni lineari che corrispon-
dono a scegliere B = e
¯
i
, dove e
i
= (0, . . . 1, . . . 0) `e l’i-esimo vettore della base canonica
di R
n
. Allora si trova
Y
i
= e
¯
i
Y
con E(Y
i
) = e
¯
i
µ = µ
i
. La matrice di covarianza del vettore unidimensionale Y
i
coincide
con la varianza della v.a. Y
i
e vale var(Y
i
) = e
¯
i
Σe
i
= Σ
ii
.
Indipendenza e scorrelazione delle componenti di vettori normali
`
E notevole la seguente propriet`a dei vettori normali.
Lemma. Le componenti di Y ∼ N(µ, Σ) sono indipendenti se e solo se sono scorrelate, o
equivalentemente se e solo se la matrice di covarianza Σ `e diagonale.
Dimostrazione. La dimostrazione pi` u diretta, e valida in generale anche per vettori normali
che non ammettono densit`a, `e basata sulla funzione caratteristica
26
ϕ
Y
(ω) = e
j ω

µ−ω

Σω
.
26
Si veda qui sotto la dimostrazione limitata al caso di vettori normali che ammettono densit` a, che non
richiede l’uso della funzione caratteristica multivariata
188
Se le componenti di Y sono scorrelate allora E((Y
i
−µ
i
)(Y
j
−µ
j
)) = Σ
ij
= 0 per ogni i ,= j,
ovvero Σ`e una matrice diagonale. Sostituendo nell’espressione della funzione caratteristica
una matrice Σ diagonale si verifica immediatamente la condizione di fattorizzazione, infatti
ϕ
Y
(ω) = e
j ω

µ−
1
2
ω

Σω
= e
j

n
i=1
ω
i
µ
i

1
2

n
i=1

ii

2
i
=
n

i=1
e

i
µ
i

1
2

ii

2
i
=
n

i=1
ϕ
Y
i

i
),
e quindi le componenti sono indipendenti. L’altra direzione `e una propriet`a ben nota: v.a.
indipendenti sono sempre scorrelate.
Dimostrazione limitata ai vettori che amettono densit` a. Se le componenti di Y sono
scorrelate allora E((Y
i
− µ
i
)(Y
j
− µ
j
)) = Σ
ij
= 0 per ogni i ,= j, ovvero Σ `e una matrice
diagonale. Sostituendo nell’espressione della densit`a (2) si ha
f
Y
(y) =
1
_
(2π)
n
det(Σ)
exp −
1
2
(y −µ)
¯
Σ
−1
(y −µ)
=
n

k=1
1

2πΣ
ii
exp −
1
2
(y
i
−µ
i
)
2
Σ
ii
che si riconosce essere il prodotto delle n densit`a normali scalari, N(µ
i
, Σ
ii
), per i = 1, . . . n.
Si conclude che le componenti Y
i
sono indipendenti. Per l’altra direzione, come noto,
variabili aleatorie indipendenti sono scorrelate.
Attenzione: Bisogna stare molto attenti a come si enuncia la precedente propriet`a. Spesso
si sente, o addirittura si trova scritta, la seguente affermazione: “v.a. normali scorrelate
sono indipendenti”. Non `e cos`ı! Quello che `e vero `e che se le componenti di un vettore
normale sono scorrelate allora sono indipendenti. La radice della confusione sta nel ritenere
che un pacco di n v.a. normali scorrelate, impilate una sull’altra, formino automaticamente
un vettore normale. Ci`o `e falso.
Controesempio. (
`
E solo uno dei tanti che si possono costruire allo scopo). Sia X ∼ N(0, 1)
e Z ∈ ¦−1, 1¦ una v.a. discreta con P(Z = −1) = P(Z = 1) =
1
2
ed indipendente da
X. Definiamo la v.a. Y = ZX.
`
E facile verificare che Y `e una v.a. N(0, 1),infatti la sua
funzione caratteristica vale
ϕ
Y
(ω) = E
_
e
jωY
_
= E
_
E
_
e
jωZX
[Z
__
= E
_
e
jωX
_
P(Z = 1) +E
_
e
−jωX
_
P(Z = −1)
= ϕ(ω)
1
2
+ϕ(−ω)
1
2
= ϕ(ω).
dove abbiamo indicato con ϕ(ω) = e

1
2
ω
2
la funzione caratteristica della N(0, 1) e, nell’ul-
timo passaggio, sfruttato il fatto che ϕ(ω) `e una funzione pari. Poich`e la funzione carat-
teristica ϕ
Y
(ω) = ϕ(ω) si conclude che Y `e una v.a. N(0, 1).
`
E facile verificare che X ed
Y sono scorrelate, infatti esse sono entrambe a valor medio nullo e E(XY ) = E(ZX
2
) =
E(E(ZX
2
[Z)) = E(X
2
)P(Z = 1) + E(−X
2
)P(Z = −1) = 0. Peraltro `e ovvio che X ed
Y non sono indipendenti essendo Y = ZX una funzione anche di X. Come mai questa
coppia di v.a. normali scorrelate non `e indipendente? La risposta `e semplice: il vettore
W = (X, Y )
¯
non `e un vettore normale. Infatti se lo fosse tutte le funzioni lineari di W
sarebbero a loro volta v.a. normali. Si consideri la funzione lineare (1, 1)(X, Y )
¯
= X+Y ,
`e facile calcolare P(X + Y = 0) = P((1 + Z)X = 0) = P(Z = −1) =
1
2
. Chiaramente
X + Y non pu`o essere una v.a. normale, poich´e le v.a. normali sono continue ed hanno
probabilit`a nulla di assumere uno specifico valore reale. Ci`o dimostra che W non `e un
vettore normale.
189
Appendici alla Lezione 28
Complementi sui vettori normali
materiale non in programma a.a. 2012/13
Appendice I. Fattorizzazione delle matrici semidefinite positive
Ogni Σ = Σ
¯
∈ R
nn
, semidefinita positiva, ha tutti gli autovalori reali e i suoi autovet-
tori possono essere scelti a formare una base ortonormale di R
n
. Formando la matrice
ortogonale U che ha per colonne gli autovettori ortonormali di Σ si pu`o allora scrivere
Σ = UΛU
¯
, dove Λ `e la matrice diagonale degli autovalori di Σ. Se Σ `e semidefinita pos-
itiva allora una decomposizione del tipo Σ = AA
¯
, con A ∈ R
nn
, si ottiene prendendo
A = UΛ
1
2
(in generale questo non sarebbe possibile se ci fossero autovalori negativi!). La
non unicit`a di A `e evidente poich`e anche
¯
A = AQ, con Q
¯
Q = QQ
¯
= I una arbitraria
matrice ortogonale, produce una fattorizzazione valida Σ = AA
¯
=
¯
A
¯
A
¯
. Con un piccolo
sforzo extra si pu`o costruire una fattorizzazione del tipo Σ = AA
¯
, con A ∈ R
nk
dove k
`e un qualunque intero che soddisfa la condizione k ≥ rango(Σ).
Appendice II. Funzione di densit`a dei vettori normali
(A.) Richiamo sulla formula per il cambio di variabili negli integrali multipli.
Sia B ⊂ R
n
e g : B → R
n
invertibile, differenziabile con derivate continue e Jacobiano
non nullo per ogni x ∈ B, allora
_
g(B)
f(x) dx =
_
B
f(g(u))
¸
¸
¸
¸
∂g(u)
∂u
¸
¸
¸
¸
du
dove
¸
¸
¸
∂g(u)
∂u
¸
¸
¸ `e il modulo del (determinante) Jacobiano della trasformazione g.
Esempio familiare. Nel caso n = 2, sia x := (x, y), u := (ρ, θ) e la trasformazione
g :=
_
g
1
(ρ, θ)
g
2
(ρ, θ)
_
=
_
ρ cos θ
ρ sin θ
_
,
allora
¸
¸
¸
¸
∂g(u)
∂u
¸
¸
¸
¸
=
¸
¸
¸
¸
det
_
cos θ −ρ sin θ
sin θ ρ cos θ

¸
¸
¸
= ρ
e la formula per il cambio di variabili corrispondente `e
__
g(B)
f(x, y) dxdy =
__
B
f(ρ cos θ, ρ sin θ)ρ dθdρ
(B.) Calcolo della densit`a di Y = g(X).
Sia X un vettore aleatorio di densit`a nota f
X
(x). Si consideri il vettore Y = g(X), dove
g : R
n
→ R
n
ed invertibile. Il vettore Y `e funzione del vettore X e, in analogia a quanto
fatto nel caso scalare, ci proponiamo di calcolare la densit`a f
Y
(y) a partire dalla densit`a
nota f
X
(x).
Per ogni B ∈ B(R
n
)
P(Y ∈ B) =
__
B
f
Y
(y) dy dove f
Y
`e la densit`a da determinare
= P(g(X) ∈ B) = P(X ∈ g
−1
(B))
=
__
g
−1
(B)
f
X
(x) dx
=
__
B
f
X
(g
−1
(y))
¸
¸
¸
¸
∂g
−1
(y)
∂y
¸
¸
¸
¸
dy formula del cambio di variabili per g
−1
190
Confrontando la prima e l’ultima espressione di P(Y ∈ B), poich´e B `e arbitrario, si
conclude che
f
Y
(y) = f
X
(g
−1
(y))
¸
¸
¸
¸
∂g
−1
(y)
∂y
¸
¸
¸
¸
(6)
(C.) Applicazione ai vettori normali.
Si consideri il vettore normale Y ∼ N(µ, Σ) in R
n
. Costruita una qualunque fattorizzazione
Σ = AA
¯
con A ∈ R
nk
si pu`o allora scrivere
Y = g(Z) = AZ +µ (7)
dove Z ∼ N(0, I
k
) `e una normale standard la cui densit`a f
Z
`e data dalla 1. Calcoliamo la
densit`a f
Y
con la formula 6. Affinch`e sia soddisfatta la condizione necessaria di invertibilit`a
di g(z) = Az + µ bisogna che sia n = k ed inoltre A ∈ R
nn
invertibile. Ci`o equivale a
Σ = AA
¯
invertibile. In questo caso la funzione inversa `e
z = g
−1
(y) = A
−1
(y −µ),
il cui (determinante) Jacobiano `e [det(A
−1
)[.
Applicando la formula (6) e ricordando la densit`a del vettore normale standard (1), si
trova
f
Y
(y) = [det(A
−1
)[ f
Z
_
A
−1
(y −µ)
_
(8)
da qui si procede come nel testo della Lezione per determinare la densit`a.
(D.) Interpretazione geometrica dell’esistenza della densit`a di un vettore normale.
`
E noto dall’algebra lineare (e facile da dimostrare) che un sottoinsieme di vettori v
1
, . . . v
n
in uno spazio a prodotto interno `e linearmente indipendente se e solo se la matrice
Gramiana corrispondente `e definita positiva
G(v
1
, . . . v
n
) :=
_
_
_
_
¸v
1
, v
1
¸ ¸v
1
, v
2
¸ . . . ¸v
1
, v
n
¸
¸v
2
, v
1
¸ ¸v
2
, v
2
¸ . . . ¸v
2
, v
n
¸
. . . . . . . . .
¸v
n
, v
1
¸ ¸v
n
, v
2
¸ . . . ¸v
n
, v
n
¸
_
_
_
_
> 0.
Consideriamo ora nello spazio o delle v.a. a secondo momento finito il sottospazio generato
dalle componenti di un vettore normale Y ∼ N(0, Σ). Il gramiano delle componenti di Y
rispetto al prodotto interno precentemente introdotto `e
G(Y
1
, . . . Y
n
) :=
_
_
_
_
E(Y
1
Y
1
) E(Y
1
Y
2
) . . . E(Y
1
Y
n
)
E(Y
2
Y
1
) E(Y
2
Y
2
) . . . E(Y
2
Y
n
)
. . . . . . . . .
E(Y
n
Y
1
) E(Y
n
Y
2
) . . . E(Y
n
Y
n
)
_
_
_
_
= cov(Y ) = Σ.
La conclusione `e che Y ∼ N(0, Σ) ammette densit`a se e solo se le sue componenti sono un
insieme linearmente indipendente dello spazio o.
Appendice III. Normale bivariata
Questo `e solo il caso particolare dei vettori normali a valori in R
2
. Non c’`e nulla di nuovo,
ma ovviamente il caso n = 2 consente di fare qualche grafico. Consideriamo un vettore
191
normale W ∼ (µ, Σ) in R
2
. La media µ
¯
= (µ
X
, µ
Y
)
¯
∈ R
2
`e un vettore arbitrario,
mentre la covarianza
Σ =
_
σ
2
X
σ
XY
σ
XY
σ
2
Y
_
`e un’arbitraria matrice semidefinita positiva. Come visto in precedenza la covarianza si
pu`o scrivere alternativamente come
σ
XY
= cov(XY ) = ρσ
X
σ
Y
dove
ρ :=
cov(XY )
_
var(X)var(Y )
=
σ
XY
_
σ
2
X
σ
2
Y
`e il coefficiente di correlazione tra X ed Y che, per la disuguaglianza di Cauchy-Schwarz,
soddisfa
[ρ[ ≤ 1
La matrice Σ si pu`o parametrizzare in termini di σ
2
X
, σ
2
Y
e ρ, assumendo la forma
Σ =
_
σ
2
X
ρσ
X
σ
Y
ρσ
X
σ
Y
σ
2
Y
_
.
La condizione per l’esistenza della densit`a `e che Σ sia definita positiva e di conseguenza
invertibile. Poich`e in generale Σ ≥ 0 e poich`e assumiamo implicitamente che σ
2
X
e σ
2
Y
siano entrambe strettamente positive, altrimenti le v.a. X e/o Y sarebbero degeneri,
l’unica condizione da imporre `e che il determinante di Σ sia strettamente positivo.
[Σ[ := det(Σ) = (1 −ρ
2

2
X
σ
2
Y
> 0 ⇔ [ρ[ < 1
Consideriamo dapprima il caso in cui la densit`a esiste, [ρ[ < 1 e specializziamo la formu-
la (2) al presente caso. L’inversa della covarianza `e
Σ
−1
=
1
[Σ[
_
σ
2
Y
−ρσ
X
σ
Y
−ρσ
X
σ
Y
σ
2
X
_
=
1
1 −ρ
2
_
1
σ
2
X

ρ
σ
X
σ
Y

ρ
σ
X
σ
Y
1
σ
2
Y
_
Per rendere compatta la formula della densit`a definiamo la forma quadratica
q(x −µ
X
, y −µ
Y
) :=
_
x −µ
X
, y −µ
Y
_
_
1
σ
2
X

ρ
σ
X
σ
Y

ρ
σ
X
σ
Y
1
σ
2
Y
_
_
x −µ
X
y −µ
Y
_
allora la formula (2) fornisce
f
W
(x, y) =
1

_
1 −ρ
2
σ
X
σ
Y
exp −
1
2(1 −ρ
2
)
q(x −µ
X
, y −µ
Y
).
Espandendo la forma quadratica si trova
q(x −µ
x
, y −µ
Y
) =
(x −µ
X
)
2
σ
2
X
−2
ρ
σ
X
σ
Y
(x −µ
X
)(y −µ
Y
) +
(y −µ
Y
)
2
σ
2
Y
Le curve di livello della densit`a f
W
(x, y) sono i luoghi geometrici definiti dall’equazione
q(x −µ
x
, y −µ
Y
) = c al variare della costante c, ma l’equazione
(x −µ
X
)
2
σ
2
X
−2
ρ
σ
X
σ
Y
(x −µ
X
)(y −µ
Y
) +
(y −µ
Y
)
2
σ
2
Y
= c
192
`e quella di una conica nel piano (x, y) e poich`e per [ρ[ < 1 il determinante (o invariante
quadratico o in qualunque modo lo abbiate chiamato nel corso di Geometria)
∆ =
1
σ
2
X
1
σ
2
Y

_
ρ
σ
X
σ
Y
_
2
=
1 −ρ
2
σ
2
X
σ
2
Y
> 0
`e strettamente positivo, si conclude che le curve di livello sono ellissi di centro (µ
X
, µ
Y
).
(figura)
to do: Correlazione e varianza della somma – Riprendere il discorso sulla varianza della
somma - calcolo della correlazione ecc.....
193
Lezione 29 (Mercoled`ı 15 maggio, ore 16:25–18:10)
29.1 Convergenza in distribuzione – Motivazione
Una variabile aleatoria `e il naturale modello probabilistico di un esperimento consistente
in una singola misura incerta di una grandezza fisica scalare. Se l’esperimento consiste in
una singola misura di una grandezza fisica vettoriale il modello probabilistico naturale `e
il vettore aleatorio. Nella pratica ingegneristica i dati incerti sono tipicamente segnali di
ingresso e/o di uscita di sistemi dinamici e dunque consistono di sequenze di misure, scalari
o vettoriali a seconda del contesto. In questi casi il modello probabilistico naturale `e una
sequenza di variabili aleatorie, se i segnali sono grandezze fisiche scalari, o una sequenza
di vettori aleatori se i segnali sono grandezze fisiche vettoriali.
In questa lezione, e nelle due seguenti, considereremo le sequenze di variabili aleatorie
¦X
n
¦

n=1
, limitandoci per ora a definire alcune utili nozioni di convergenza. Una sequenza
di variabili aleatorie ¦X
n
¦

n=1
`e in realt`a una sequenza di funzioni X
n
: Ω → R. Come
noto dai corsi di Analisi Matematica e di Segnali e Sistemi, i modi di convergenza delle
sequenze di funzioni sono molti e non equivalenti: puntuale, uniforme, in L
1
, in L
2
, ecc. Per
le sequenze di variabili aleatorie `e inoltre possibile introdurre due modi di convergenza,
in distribuzione e in probabilit`a, direttamente legati al comportamento asintotico della
probabilit`a di certi eventi.
In questa lezione trattiamo la forma pi` u debole di convergenza per sequenze di variabili
aleatorie, la convergenza in distribuzione. Prima di entrare nei dettagli formali, cerchiamo
di illustrare con un esempio questo modo di convergenza.
Richiamo. Se U ∼ |([0, 1]), la funzione di densit`a `e costante nell’intervallo [0, 1]) ovvero
f
U
(x) = 1l
[0,1]
(x),
a cui corrisponde la funzione di distribuzione (banale, a parte la notazione)
F
U
(x) = x1l
[0,1]
(x) + 1l(x −1)
Esempio. Sia ¦X
n
¦
n≥1
una sequenza di v.a. indipendenti, identicamente distribuite, X
n

|([0, 1]) per ogni n ≥ 1. Definiamo la sequenza di variabili aleatorie
M
n
:= max(X
1
, X
2
, . . . X
n
), n ∈ N
Vogliamo studiare il comportamento asintotico della sequenza ¦M
n
¦
n≥1
. Si noti che le
variabili M
n
non sono indipendenti, infatti M
n+1
= max¦M
n
, X
n+1
¦, e dunque M
n+1
`e
funzione di M
n
(a.) Intuizione.
Ci aspettiamo che, per n → ∞la sequenza M
n
converga ad una variabile aleatoria limitata
da 1. Infatti tutte le variabili aleatorie X
i
hanno valori in [0, 1], quindi M
n
≤ 1 per ogni
n, inoltre M
n
`e non-decrescente in n.
(b.) Primo affinamento – parametri riassuntivi di M
n
.
Per calcolare media e varianza delle M
n
ne determiniamo la densit`a. Cominciamo con il
ricavare la FdD (banale: fate separatamente i casi (−∞, 0], [0, 1], [1, ∞))
F
M
n
(x) = P(M
n
≤ x) = P(max(X
1
, X
2
, . . . X
n
) ≤ x)
= P(X
1
≤ x, X
2
≤ x, . . . X
n
≤ x) =
n

k=1
P(X
k
≤ x)
=
_
F
U
(x)
_
n
= x
n
1l
[0,1]
(x) + 1l(x −1) (1)
194
La densit`a f
M
n
si calcola derivando la funzione di distribuzione F
M
n
(x)
f
M
n
(x) = nx
n−1
1l
[0,1]
(x)
I parametri riassuntivi di M
n
si calcolano agevolmente.
E(M
n
) =
_
1
0
xf
M
n
(x) dx =
_
1
0
x nx
n−1
dx =
n
n + 1
E(M
2
n
) =
_
1
0
x
2
f
M
n
(x) dx =
_
1
0
x
2
nx
n−1
dx =
n
n + 2
var(M
n
) = E(M
2
n
) −
_
E(M
n
)
_
2
=
n
n
3
+ 4n
2
+ 5n + 2
= O
_
1
n
2
_
Per n → ∞ il valore atteso di M
n
tende ad 1 e la varianza a 0. Questa `e un’indicazione
ancora abbastanza vaga, ma pi` u precisa della prima intuizione: per n → ∞ le variabili
aleatorie M
n
si concentrano intorno alla costante 1.
(c.) Secondo affinamento – comportamento limite della FdD di M
n
.
A partire dall’espressione esatta (1) si trova
lim
n→∞
F
M
n
(x) =
_
0, x < 1,
1, x ≥ 1.
Si riconosce che lim
n→∞
F
M
n
(x) = 1l(x − 1). Le funzioni di distribuzione F
M
n
tendono,
per ogni x ∈ R, alla funzione di distribuzione della variabile aleatoria degenere (costante)
1.
Questo `e gi`a un senso pi` u preciso in cui si pu`o ritenere che M
n
→ 1
`
E possibile approfondire l’analisi di questo esempio, che verr`a ripreso nella Lezione 31.
Procediamo ora alla definizione formale della convergenza in distribuzione.
195
29.2 Convergenza in distribuzione
Definizione. Una sequenza di v.a. ¦X
n
¦
n≥1
non necessariamente indipendenti, di funzioni
di distribuzione ¦F
n
(x)¦, converge in distribuzione se esiste una funzione di distribuzione
F(x) tale che
lim
n→∞
F
n
(x) = F(x), per ogni x dove F(x) `e continua.
In questo caso scriveremo
X
n
T
−→ F(x)
Attenzione. Bisogna leggere con attenzione questa definizione. Non basta che le F
n
(x)
convergano ad una certa funzione F(x) per ogni x dove F(x) `e continua. Bisogna che
F(x) sia una funzione di distribuzione.
Vediamo immediatamente due esempi che chiariscono perch´e `e necessario imporre che F(x)
sia una distribuzione e perch´e bisogna concedere alle F
n
(x) la possibilit`a di non convergere
nei punti di discontinuit`a di F(x).
Esempio 1. Affinch`e la nozione di convergenza appena introdotta serva a qualcosa bisogna
che, almeno in casi banali, si comporti come ci si aspetta. La sequenza numerica
X
n
= 1 +
1
n
.
converge ad 1, e poich´e ¦X
n
¦
n≥1
`e anche una sequenza di v.a. degeneri. Affinch´e la nozione
di convergenza in distribuzione appena introdotta sia di una qualche utilit`a bisogna che
le variabili aleatorie X
n
di queso esempio convergano in distribuzione alla costante 1. Se
ci`o non si dovesse verificare la nozione di convergenza in distribuzione sarebbe di dubbia
utilit`a.
Le distribuzioni F
n
(x) sono
F
n
(x) =
_
_
_
0, x < 1 +
1
n
,
1, x ≥ 1 +
1
n
.
e calcolando il limite si trova
G(x) := lim
n→∞
F
n
(x) =
_
0, x≤1,
1, x>1.
La G(x) non `e una funzione di distribuzione, non essendo continua a destra. Esiste per`o
una funzione di distribuzione:
F(x) :=
_
0, x<1,
1, x≥1.
_
= 1l(x −1).
tale che
lim
n→∞
F
n
(x) = F(x), per ogni x punto di continuit`a di F(x)
Infatti F
n
(x) → F(x) su tutta R, tranne nel punto x = 1 dove F(x) ha l’unica disconti-
nuit`a. Si conclude che X
n
T
−→ F(x).
Alla luce di quest’esempio si capisce perch´e, nella definizione di convergenza in distribuzione,
si deve tollerare che la sequenza F
n
(x) possa non convergere nei punti di discontinuit`a
di F(x). Se non si facesse cos`ı nemmeno la banalissima sequenza ¦X
n
¦ dell’Esempio 1
convergerebbe in distribuzione.
196
Esempio 2. Si consideri la sequenza ¦X
n
¦ dove X
n
∼ N(0, n). Detta come di consueto
Φ(z) la funzione di distribuzione di una v.a. Z ∼ N(0, 1), standardizzando le X
n
si ha
F
n
(x) = P(X
n
≤ x) = P
_
X
n

n
_
= Φ
_
x

n
_
Poich´e Φ(0) =
1
2
, abbiamo che, per ogni x ∈ R fissato,
lim
n→∞
F
n
(x) = lim
n→∞
Φ
_
x

n
_
=
1
2
.
Ma non basta che la sequenza di distribuzioni F
n
(x) converga per ogni x ∈ R. Bisogna
che la funzione limite sia una distribuzione. Chiaramente la costante pari ad 1/2 non `e
una funzione di distribuzione. (aggiungere grafico in futura revisione). Si conclude che la
sequenza X
n
non converge in distribuzione.
Esempio 3. L’esempio del paragrafo 1 relativo alla sequenza di v.a. M
n
. Con la notazione
appena introdotta possiamo scrivere che M
n
T
−→ 1l(x −1).
Esempio 4. L’esempio del paragrafo 1 relativo alla sequenza di v.a. n(1 − M
n
). Con la
notazione appena introdotta possiamo scrivere che n(1 −M
n
)
T
−→ Exp(1).
Esempio 5. Si consideri la sequenza di v.a. X
n
di alfabeto A
n
=
_
1
n
,
2
n
,
3
n
, . . .
n
n
_
e densit`a
di probabilit`a uniforme p
X
n
_
k
n
_
=
1
n
, per k = 1, 2, . . . n. Abbiamo visto a Lezione che la
sequenza X
n
T
−→ U([0, 1]).
Convergenza in distribuzione e funzioni caratteristiche
Teorema di continuit`a (Paul L´evy). Sia ¦X
n
¦ una sequenza di v.a. di funzioni caratteris-
tiche ¦ϕ
n
(ω)¦. Si supponga che
lim
n→∞
ϕ(ω) = ϕ(ω), per ogni x ∈ R,
per qualche funzione ϕ(ω), allora sono equivalenti le seguenti proposizioni
(a.) ϕ(ω) `e continua nell’origine.
(b.) ϕ(ω) `e una funzione caratteristica.
(c.) X
n
T
−→ F(x), per qualche F(x) la cui funzione caratteristica `e ϕ(t).
Esempio 6. Sia X
n
una sequenza di v.a. di distribuzioni Bin
_
n,
λ
n
_
. Allora
X
n
T
−→ T(λ).
Dimostrazione. Abbiamo in precedenza calcolato la funzione caratteristica di una v.a.
binomiale.
ϕ
n
(ω) =
_
1 −
λ
n
+
λ
n
e

_
n
calcolando il limite si trova
lim
n→∞
ϕ
n
(ω) = lim
n→∞
_
1 −
λ
n
+
λ
n
e

_
n
= e
λ(e
jt
−1)
si riconosce che il membro destro `e la funzione caratteristica della distribuzione di Poisson
T(λ). Per il teorema di continuit`a si conclude che X
n
converge in distribuzione a T(λ).
Un risultato che conoscevamo gi`a ma che ora abbiamo ottenuto in modo pulito, rigoroso,
197
praticamente senza fare nessun calcolo. Ma c’`e dietro la grande macchina del teorema di
continuit`a.
Esercizio proposto. Riconsiderare gli Esempi da 1. a 5. del paragrafo precedente usando
il teorema di L´evy.
Osservazione.
`
E interessante osservare la variet`a di comportamenti possibili nella con-
vergenza in distribuzione. Nell’esempio 3. una sequenza di FdD continue converge ad
una FdD discreta, nell’esempio 4. una sequenza di FdD continue converge ad una FdD
continua, nell’esempio 5. una sequenza di FdD discrete converge ad una FdD continua ed
infine, nell’esempio 6, una sequenza di FdD discrete converge ad una FdD discreta
Convergenza in distribuzione – cosa non `e sempre vero
La convergenza in distribuzione `e una nozione di convergenza molto debole. I seguenti
fatti lo dimostrano chiaramente.
Fatto 1. Sia X
n
una sequenza di v.a. assolutamente continue tali che X
n
T
−→ F(x), per
qualche F(x) Non `e in generale vero che per le corrispondenti densit`a valga
lim
n→∞
f
n
(x) = f(x), NON
`
E SEMPRE VERO
Esempio. Sia ¦X
n
¦ una sequenza di v.a. di densit`a f
n
(x) =
_
1 − cos(2πnx)
_
1l
[0,1]
(x).
`
E
abbastanza facile dimostrare (grosso esercizio di Segnali e Sistemi) che per le corrispondenti
funzioni caratteristiche
lim
n→∞
ϕ
n
(t) = ϕ
U
(t)
dove ϕ
U
(t) `e la funzione caratteristica della distribuzione |([0, 1]), quindi per il teorema
di continuit`a X
n
T
−→ |([0, 1]). Peraltro `e ancora pi` u facile verificare che la sequenza f
n
(x)
non converge per nessun x ∈ (0, 1).
Futura revisione. Discutere caso discreto
Fatto 2. Sia X
n
una sequenza di v.a. tali che X
n
T
−→ F(x), per qualche F(x). Non `e in
generale vero che per i valori attesi valga
lim
n→∞
E(X
n
) = E(X), NON
`
E SEMPRE VERO
dove X `e una v.a. di distribuzione F(x).
Esempio. Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1 −
1
n
,
n, con P(X
n
= n) =
1
n
.
Ricavate F
n
(x) (banale) e verificate che
lim
n→∞
F
n
(x) =
_
0, x < 0,
1, x ≥ 1.
Quindi X
n
T
−→ 0 (cio`e alla funzione di distribuzione della v.a. degenere (costante) 0.
Peraltro `e immediato verificare che, per ogni n ≥ 1, vale E(X
n
) = 1 ,= E(0) = 0.
198
Lezione 30 (Luned`ı 20 maggio, ore 10:30–12:15)
30.1 Convergenza in probabilit`a
Definizione. La sequenza di v.a. ¦X
n
¦ converge in probabilit`a alla v.a. X se
lim
n→∞
P
_
[X
n
−X[ ≥
_
= 0, per ogni > 0,
in questo caso scriveremo
X
n
P
−→ X
Osservazioni
(a.) La convergenza delle probabilit`a `e la ordinaria convergenza delle sequenze numeriche.
In termini formali: X
n
P
−→ X se, per ogni > 0 fissato, per ogni γ > 0 esiste un N tale
che, per ogni n ≥ N
P
_
[X
n
−X[ ≥
_
≤ γ.
(b.) Forme alternative, equivalenti tra loro, della condizione di convergenza in probabilit`a.
Per ogni > 0
lim
n→∞
P
_
[X
n
−X[ >
_
= 0,
lim
n→∞
P
_
[X
n
−X[ ≤
_
= 1,
lim
n→∞
P
_
[X
n
−X[ <
_
= 1
(c.) Per valutare se la sequenza ¦X
n
¦ converge in distribuzione `e sufficiente disporre delle
distribuzioni F
n
(x) delle singole v.a. X
n
. Per valutare se la sequenza ¦X
n
¦ converge in
probabilit`a si deve poter calcolare P
_
[X
n
−X[ >
_
per ogni n, il che richiede di disporre
delle distribuzioni congiunte delle coppie (X
n
, X) per ogni n. In un caso, speciale ma
molto frequente, basta conoscere le distribuzioni delle singole v.a. X
n
: si veda il punto
successivo
(d.) Spesso la v.a. X cui la sequenza X
n
converge in probabilit`a `e una v.a. degenere, cio`e
una costante, diciamola c ∈ R. In questo caso la condizione di convergenza `e intuitivamente
pi` u chiara. Per n sufficientemente grande [X
n
− c[ ≤ con alta probabilit`a. Inoltre in
questo caso per valutare P
_
[X
n
−X[ ≤
_
al variare di n sono sufficienti le distribuzioni
delle singole v.a. X
n
.
Esempio 1. (ripreso dal paragrafo 27.1)
La sequenza M
n
converge in distribuzione alla costante 1. Per capire se la convergenza ad
1 sussiste anche in probabilit`a si deve valutare, per ogni > 0 fissato,
P([M
n
−1[ ≥ ) = P(1 −M
n
≥ ) = P(M
n
≤ 1 −)
= (1 −)
n
−→ 0, per ogni 0 < < 1
(per i pi` u pignoli: data la definizione di M
n
, se > 1 la probabilit`a `e nulla per ogni n,
non solo asintoticamente.) Si conclude che M
n
P
−→ 1.
Esempio 2.
Le v.a. ¦X
n
¦
n≥1
ed X sono i.i.d. con distribuzione di Bernoulli b
_
1
2
_
.
`
E banale che
X
n
T
−→ b
_
1
2
_
199
infatti le distribuzioni delle X
n
sono tutte identiche b
_
1
2
_
e tale rimane il limite.
Dimostriamo ora che la sequenza X
n
non converge in probabilit`a alla v.a. X ∼ b
_
1
2
_
.
Cominciamo con l’osservare che sia le X
n
che X possono assumere solo i valori 0 ed 1,
quindi per ogni 0 < ε < 1,
_
[X
n
−X[ ≥ ε ] =
_
X
n
,= X
¸
=
_
X
n
= 0, X = 1 ] ∪
_
X
n
= 1, X = 0 ].
Possiamo ora verificare, usando la definizione, che la convergenza in probabilit`a non
sussiste
lim
n→∞
P([X
n
−X[ ≥ ) = lim
n→∞
P(X
n
,= X)
= lim
n→∞
P
__
X
n
= 0, X = 1 ] ∪
_
X
n
= 1, X = 0 ]
_
=
1
2
1
2
+
1
2
1
2
=
1
2
0.
Commento. L’esempio mostra che la convergenza in distribuzione `e pi` u debole della
convergenza in probabilit`a, infatti X
n
converge in distribuzione, ma non in probabilit`a.
Relazioni tra convergenza in probabilit`a e convergenza in distribuzione.
Lemma. Se X
n
P
−→ X allora X
n
T
−→ X.
Dimostrazione. Non molto difficile ma omessa.
Questo risultato mostra che la convergenza in probabilit`a `e una nozione pi` u forte della
convergenza in distribuzione. In un caso speciale, ma inportante, le due nozioni sono
equivalenti, come dimostrato nel seguente Lemma.
Lemma. X
n
P
−→ c se e solo se X
n
T
−→ c.
Dimostrazione. La direzione: se converge in probabilit`a alla costante c allora vi converge
anche in distribuzione `e una conseguenza del lemma precedente. La direzione se converge
in distribuzione alla costante c allora vi converge anche in probabilit`a l’avevo ”dimostrata”
disegnando il grafico qui sotto alla lavagna. Nel grafico le distribuzioni F
n
(x) convergono
alla distribuzione degenere F(x) della costante c, per ogni x ∈ R. [In figura F
n
(c) =
1
2
per
200
ogni n, ma questa condizione `e puramente accidentale, serve solo a tracciare un grafico
elegante.] Dalla figura si vede che
P([X
n
−c[ ≤ ) = P(c − ≤ X
n
≤ c +) = F
n
(c +) −F
n
(c −) → 1
poich´e, per la convergenza in distribuzione, deve valere F
n
(c −) → 0 e F
n
(c +) → 1. Si
conclude che X
n
P
−→ c.
Convergenza in probabilit`a – cosa non `e sempre vero
Se X
n
P
−→ X non `e in generale vero che per i valori attesi valga
lim
n→∞
E(X
n
) = E(X), NON
`
E SEMPRE VERO
Esempio. Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1 −
1
n
,
n, con P(X
n
= n) =
1
n
.
Si verifichi che X
n
P
−→ 0, ma E(X
n
) = 1 0.
30.2 Convergenza in L
p
Definizione. La sequenza di v.a. ¦X
n
¦ converge in L
p
alla v.a. X se
lim
n→∞
E(, [X
n
−X[
p
_
= 0,
in questo caso scriveremo
X
n
L
p
−→ X
Osservazioni
(a.) Sono ammessi tutti i valori di p ≥ 1. Ad ogni p ≥ 1 corrisponde una diversa
nozione di convergenza. Per p = 1 si dice che la sequenza ¦X
n
¦ converge ad X in media;
per p = 2 che converge in media quadratica. Questi sono i due casi di gran lunga pi` u
importanti in pratica. La convergenza in media quadratica `e particolarmente interessante
dal punto di vista geometrico essendo la naturale nozione di convergenza nello spazio,
dotato di prodotto interno, L
2
:= ¦ X : Ω →R : E(X
2
) < ∞¦ che avevamo introdotto in
precedenza.
(b.) Anche in questo caso, come per la convergenza in probabilit`a, deve essere nota la
densit`a congiunta delle coppie (X
n
, X) per ogni n. Solo con questa informazione si pu`o
calcolare E( [X
n
− X[
p
_
. Unica eccezione: se X = c, v.a. degenere, allora `e sufficiente
conoscere le distribuzioni delle X
n
.
(c.) La convergenza in media quadratica implica la convergenza in media. Infatti, per la
disuguaglianza di Cauchy-Schwarz, se X
n
L
2
−→ X allora
E([X
n
−X[) = E([X
n
−X[ 1) ≤
_
E([X
n
−X[
2
)E(1
2
) =
_
E([X
n
−X[
2
) → 0
(d.) Se X
n
L
1
−→ X allora E(X
n
) → E(X). Questa `e una semplice conseguenza della
disuguaglianza triangolare. [E(X
n
) −E(X)[ = [E(X
n
−X)[ ≤ E([X
n
−X[) → 0.
201
Relazione con la convergenza in probabilit`a
Lemma. Se X
n
L
p
−→ X allora X
n
P
−→ X.
Dimostrazione. Qualunque sia p ≥ 1, per la disuguaglianza di Markov
P([X
n
−X[ ≥ ) = P([X
n
−X[
p

p
) ≤
E( [X
n
−X[
p
_

p
→ 0
Attenzione. Non `e vero il viceversa. Se X
n
P
−→ X, non necessariamente X
n
L
p
−→ X. La
convergenza in L
p
`e dunque pi` u forte della convergenza in probabilit`a.
Esempio.
Sia X
n
una sequenza di v.a le cui distribuzioni sono caratterizzate come segue
X
n
=
_
0, con P(X
n
= 0) = 1 −
1
n
,
n, con P(X
n
= n) =
1
n
.
Avevamo visto che X
n
T
−→ 0. In realt`a `e anche vero che X
n
P
−→ 0, infatti
P([X
n
−0[ ≥ ) = P(X
n
= n) =
1
n
−→ 0, per ogni > 0
Peraltro X
n
non congerge a 0 in L
p
per nessun valore di p ≥ 1, infatti
E([X
n
−0[
p
) = E(X
p
n
) =
n
p
n
= n
p−1
0
30.3 Legge debole dei grandi numeri
Il teorema seguente `e uno dei risultati centrali della teoria della probabilit`a classica. For-
mulato per le v.a. di Bernoulli da Jakob Bernoulli nel 1713, esteso da Chebyshev nel 1867
alle v.a. che ammettono secondo momento, e da Khinchine nel 1928 alle v.a. che ammet-
tono solo valore atteso. In forme estremamente pi` u generali `e ancora un attivo settore di
ricerca teorica ed applicata.
Definiamo per comodit`a notazionale la sequenza di v.a.
X
n
:=
1
n
n

i=1
X
i
,
abitualmente ¦X
n
¦ `e detta sequenza delle medie campionarie. Per la linearit`a del valore
atteso
E(X
n
) = µ, per ogni n
quindi `e naturale che i valori di X
n
siano distribuiti intorno a µ. Il teorema di Khinchine
afferma che, se le variabili ¦X
n
¦ sono i.i.d. allora asintoticamente, con alta probabilit`a
X
n
si concentra intorno a µ.
202
Teorema (legge debole dei grandi numeri – Khinchine 1928)
Sia ¦X
n
¦ una sequenza di v.a., tutte definite sullo stesso spazio di probabilit`a
27
, in-
dipendenti ed identicamente distribuite. Si assume che µ := E(X
1
) esista. Sotto queste
ipotesi
X
n
P
−→ µ = E(X
1
)
Osservazione. Non si devono confondere le X
n
con le X
n
, queste ultime non sono indipen-
denti. Il teorema di Khinchine non `e di facile dimostrazione, ma sotto l’ipotesi aggiuntiva
che esista il secondo momento E(X
2
1
) la legge dei grandi numeri `e un risultato intuitivo,
la cui dimostrazione `e semplicissima.
Teorema (legge debole dei grandi numeri – Chebyshev 1867)
Sia ¦X
n
¦ una sequenza di v.a., indipendenti ed identicamente distribuite. Si assuma che
E(X
2
1
) esista e sia µ := E(X
1
). Sotto queste ipotesi
X
n
P
−→ µ = E(X
1
)
Commento. Questo risultato `e in accordo con l’intuizione poich´e, se esiste E(X
2
1
) < ∞,
allora σ
2
:= var(X
1
) < ∞. Poich´e per ipotesi le v.a. sono i.i.d
var(X
n
) = var
_
1
n
n

i=1
X
i
_
=
1
n
2

2
=
σ
2
n
−→ 0
e questo conferma che X
n
si concentra intorno al suo valore atteso E(X
n
) = µ.
Dimostrazione della legge dei grandi numeri di Chebyshev. Per la disuguaglianza di
Chebyshev
P
_
[X
n
−µ[ ≥
_

E([X
n
−µ[
2
)

2
=
var(X
n
)

2
=
σ
2
n
2
−→ 0
Nota Bene. Riflettendo sulle definizioni date finora non vi sfuggir`a il fatto che, quando
esiste il secondo momento, `e vero pi` u di quanto enunciato nella legge dei grandi numeri di
Chebyshev, infatti
E([X
n
−µ[
2
) = var(X
n
) =
σ
2
n
−→ 0
significa che X
n
L
2
−→ µ. La convergenza in L
2
`e pi` u forte della convergenza in probabilit`a,
ciononostante la legge dei grandi numeri non viene mai enunciata come un risultato di
convergenza in L
2
. Questo perch´e, come vedremo negli esempi, quello che veramente
interessa in pratica `e valutare probabilit`a del tipo P([X
n
− µ[ ≤ ). Interpretatelo cos`ı:
per dimostrare la convergenza in probabilit`a `e spesso tecnicamente pi` u facile dimostrare
la convergenza in media quadratica o in media.
27
Nota bene: ogni volta che si scrive una somma di v.a. si sta implicitamente supponendo che le v.a.
siano definite sullo stesso spazio. In effetti la v.a. X +Y `e definita come (X +Y )(ω) = X(ω) +Y (ω). Se
X ed Y non sono definite sullo stesso spazio non ha senso sommarle. Questo `e un problema tecnico di cui
non ci siamo mai occupati. Quando dico: sia |X
n
¦
n≥1
una sequenza di v.a. indipendenti ed identicamente
distribuite di distribuzione assegnata bisognerebbe chiedersi se esiste uno spazio di probabilit` a su cui `e
possibile definire una sequenza con le caratteristiche richieste. La cattiva notizia `e che il teorema che
garantisce l’esistenza di un tale spazio `e troppo complesso per essere presentato in un corso elementare. La
buona notizia `e che, fintanto si rimanga su sequenze di v.a. i.i.d., a valori in R, uno spazio di probabilit` a
adeguato a contenere tutte le variabili della sequenza, qualunque siano le loro distribuzioni congiunte esiste
sempre. Continueremo quindi a sottacere questa difficolt` a.
203
Corollario della legge dei grandi numeri. Sia ¦X
n
¦ una sequenza di v.a., indipendenti ed
identicamente distribuite e g : R → R una funzione tale che E
_
(g(X
1
))
2
_
esista. Sotto
queste ipotesi
1
n
n

i=1
g(X
i
)
P
−→ E(g(X
1
))
Dimostrazione. Non c’`e nulla da dimostrare. Se ¦X
n
¦ `e una sequenza i.i.d. tale `e anche
la sequenza ¦g(X
n
)¦ e, per la legge dei grandi numeri la media campionaria delle g(X
i
)
converge al valore atteso comune E(g(X
1
))
Esempi di applicazione della legge debole dei grandi numeri
L’esempio per eccellenza `e la sequenza di v.a. di Bernoulli i.i.d.. Come vedremo la sua
portata `e molto pi` u ampia di quanto si potrebbe immaginare. L’informazione utile in
pratica `e contenuta nella disuguaglianza di Chebyshev.
Esempio 1. Sia ¦X
n
¦ una sequenza di v.a. i.i.d. b(p). In termini del classico esempio dei
lanci ripetuti di una moneta la media campionaria X
n
`e
X
n
=
1
n
n

i=1
X
i
=
n
T
(X
n
1
)
n
dove n
T
(X
n
1
) denota il numero di Teste in n lanci. Naturalmente E(X
n
) = p e var(X
n
) =
p(1−p)
n
. Per la legge debole dei grandi numeri
n
T
(X
n
1
)
n
P
−→ p = E(X
1
)
ovvero, per ogni > 0,
lim
n→∞
P

¸
¸
¸
n
T
(X
n
1
)
n
−p
¸
¸
¸
¸

_
= 1
L’interpretazione pratica `e che asintoticamente, con alta probabilit`a, p− ≤
n
T
(X
n
1
)
n
≤ p+.
In linea di principio, usando la disuguaglianza di Chebychev, `e possibile, fissati > 0 ed
α ∈ [0, 1], determinare il numero di lanci n tale che
P

¸
¸
¸
n
T
(X
n
1
)
n
−p
¸
¸
¸
¸

_
≥ α.
Si procede in questo modo. La disuguaglianza di Chebychev `e
P

¸
¸
¸
n
T
(X
n
1
)
n
−p
¸
¸
¸
¸

_
≥ 1 −
var(X
n
)

2
= 1 −
p(1 −p)
n
2
≥ 1 −
1
4n
2
,
dove, per l’ultimo passaggio, si osservi che p(1 − p) ≤
1
4
per ogni p ∈ [0, 1]. Imponendo
quindi la condizione
1 −
1
4n
2
≥ α
si determina il numero di lanci n che garantisce i livelli ed α assegnati. Ad esempio per
= 0.05 ed α = 0.95 la condizione
1 −
1
4n0.05
2
≥ 0.95
fornisce n ≥ 2000.
204
Lezione 31 (Marted`ı 21 maggio, ore 16:25–18:10)
31.1 Legge debole dei grandi numeri (continua)
Esempi di applicazione della legge debole dei grandi numeri
Esempio 2. Sia X una v.a. di densit`a f
X
(x) che ammette secondo momento. Fissato un
evento E ∈ B(R) si consideri il problema del calcolo di
p := P(X ∈ E) =
_
E
f
X
(x) dx,
dove abbiamo convenientemente denotato con p il valore cercato. Per assegnati E ed f
X
questo `e un problema puramente deterministico, che si riduce al calcolo di un integrale
definito. Se la densit`a f
X
`e una funzione che non ammette primitiva esprimibile in forma
chiusa (esempio importante: la normale) il calcolo pu`o essere effettuato solo attraverso
una procedura di approssimazione numerica. Vediamo come la legge dei grandi numeri
consenta di determinare il valore di p con una procedura probabilistica invece che di analisi
numerica. Ci si procura
28
una sequenza di v.a. i.i.d. ¦X
n
¦ con densit`a f
X
1
(x) = f
X
(x).
Si definisca la sequenza di v.a. ¦Y
n
¦, dove
Y
n
:= 1l
E
(X
n
).
Dalla definizione si deduce che le v.a. Y
n
assumono solo due valori: Y
n
= 1 se X
n
∈ E
ed Y
n
= 0 se X
n
/ ∈ E, inoltre P(Y
n
= 1) = P(X
n
∈ E) = p. La sequenza ¦Y
n
¦ `e quindi
una sequenza di v.a. i.i.d. b(p). Siamo tornati al caso trattato nell’Esempio 1. La media
campionaria
Y
n
:=
1
n
n

i=1
Y
i
=
n
E
(X
n
1
)
n
,
dove n
E
(X
n
1
) `e il numero di volte che X
i
cade in E nelle prime n prove. Per la legge dei
grandi numeri
P

¸
¸
¸
n
E
(X
n
1
)
n
−p
¸
¸
¸
¸

_
−→ 0
Considerazioni analoghe a quelle fatte nell’Esempio 1 si applicano anche in questo caso. In
particolare, fissata la soglia (0.1, 0.05, 0.01 ecc.) per l’errore di approssimazione tollerato
e la soglia α (0.9, 0.95, 0.99 ecc.) ritenuta accettabile per la probabilit`a che l’errore stia
sotto ad , si pu`o determinare il numero n di v.a. che `e necessario generare.
Esempio 3. Come noto la disuguaglianza di Chebyshev `e di validit`a generale, ma proprio
per questo `e molto conservativa. Se `e possibile calcolare la distribuzione di X
n
`e molto pi` u
conveniente valutare direttamente la probabilit`a P([X
n
−µ[ ≤ ) piuttosto che utilizzare
la disuguaglianza di Chebychev. Si consideri il seguente esempio.
Si effettua una serie di misurazioni di una grandezza fisica incognita, diciamola µ ∈ R. La
n-esima lettura dello strumento si modella con una v.a.
Y
n
= µ +W
n
dove W
n
∼ N(0, σ
2
) rappresenta l’errore di misura.
29
Gli errori di misura si suppon-
gono i.i.d. Le letture dello strumento Y
n
formano quindi una sequenza di v.a. Y
n

28
Questo `e sempre possibile con una procedura di simulazione, che consente di generare una sequenza
di v.a. i.i.d. di qualunque densit` a assegnata. Non tratteremo qui le tecniche di simulazione.
29
In molte situazioni modellare l’errore di misura con v.a. normali `e giustificato da considerazioni
fisiche. Vedremo pi` u avanti il caso del rumore termico nei circuiti elettrici. Considerare E(W
n
) = 0
esclude la presenza di errori sistematici. La varianza E(W
2
n
) = σ
2
`e legata alla precisione dello strumento.
Considerazioni approfondite saranno fatte nei corsi di Misure.
205
N(µ, σ
2
) indipendenti ed identicamente distribuite. Poich´e la media campionaria Y
n
`e
una combinazione lineare di v.a. normali indipendenti essa sar`a ancora normale e
Y
n
∼ N
_
µ,
σ
2
n
_
`
E allora possibile calcolare esattamente
P([Y
n
−µ[ < ) = P
_
[Y
n
−µ[
σ/

n
<

σ/

n
_
= 2Φ
_

σ/

n
_
−1
dove Φ(x) `e la funzione di distribuzione della normale standard N(0, 1). I valori si trovano
in tabella.
Ad esempio ci chiediamo quale deve essere il numero di misure da effetuare utilizzando
uno strumento con deviazione standard σ = 0.1 per garantire errore < 0.05 e probabilit`a
α = 0.95. Questo corrisponde a determinare il valore di n tale che

_
0.05
0.1/

n
_
−1 ≥ 0.95
ovvero Φ(0.05

n/0.1) ≥ 1.95/2 = 0.975. In tabella si trova che Φ(1.96) = 0.975 quindi
0.05

n/0.1 ≤ 1.96 ovvero n ≥ 15.36. Con n = 16 si raggiungono entrambi gli obiettivi.
Confrontiamo questo risultato con quanto si sarebbe ottenuto utilizzando la disuguaglianza
di Chebyshev.
P([Y
n
−µ[ < ) ≥ 1 −
var(Y
n
)

2
ed imponendo gli stessi dati di prima, σ = 0.1, = 0.05 ed α = 0.95 si determina n
garantendo che
1 −
var(Y
n
)

2
= 1 −
σ
2
n
2
= 1 −
0.1
2
n0.05
2
≥ 0.95
da cui si ricava che sarebbe necessario effettuare n = 80 misure per raggiungere entrambi
gli obiettivi.
Esempio 4. Il metodo di Monte Carlo
aggiungere in futura revisione
La legge dei grandi numeri - quando non funziona
Abbiamo detto che la legge dei grandi numeri (versione di Khinchine) richiede almeno
l’esistenza del valore atteso delle v.a. X
n
. Vediamo con un esempio cosa pu`o succedere
quando il valore atteso non esiste.
Esempio. Si consideri la sequenza ¦X
n
¦ di v.a. i.i.d. con densit`a di Cauchy f
X
1
(x) =
1
π
1
1+x
2
. Abbiamo gi`a dimostrato che le v.a. X
n
non ammettono valore atteso. Costru-
iamo comunque la media campionaria X
n
. Per determinare la densit`a di X
n
conviene
lavorare con le funzioni caratteristiche. Ricordando che ϕ
X
1
(ω) = e
−[ω[
e che la funzione
caratteristica della somma di v.a. indipendenti `e il prodotto delle funzioni caratteristiche,
detto infine S
n
:=

n
i=1
X
i
, si ha
ϕ
S
n
(ω) =
_
e
−[ω[
_
n
,
206
e finalmente, poich´e X
n
=
1
n
S
n
, `e il prodotto di una costante per S
n
,
ϕ
X
n
(ω) = ϕ
S
n
_
ω
n
_
=
_
e
−[
ω
n
[
_
n
= e
−[ω[
= ϕ
X
1
(ω)
La conclusione `e che
ϕ
X
n
(ω) = ϕ
X
1
(ω)
ovvero, antitrasformando, la media campionaria ha densit`a di Cauchy identica a quella di
una singola v.a. della sequenza originale ¦X
n
¦. Poich´e la densit`a di Cauchy `e simmetrica
intorno all’origine l’intuizione potrebbe far pensare che la media campionaria si concentra
verso 0, che `e il valore centrale
30
delle v.a. X
n
, ma questo non avviene.
31.2 Fattori di scala per la convergenza a distribuzioni non degeneri
[materiale non spiegato a lezione che pu`o essere saltato senza nessuna conseguenza per la
comprensione del seguito della lezione.]
Con riferimento all’esempio della Lezione 29.1, abbiamo stabilito che M
n
ha asintotica-
mente la distribuzione degenere della costante 1. Per studiare pi` u dettagliatamente il
comportamento asintotico di M
n
ci ispiriamo alla tecnica che si usa per lo studio della
velocit`a di convergenza delle sequenze numeriche. Supponiamo che a
n
sia una sequenza
numerica convergente, ad esempio
lim
n→∞
a
n
= a,
che equivale a dire che il limite di [a
n
−a[, la distanza tra a
n
ed a, si annulla:
lim
n→∞
[a
n
−a[ = 0,
ovvero [a
n
−a[ `e infinitesimo per n → ∞. Per studiare la velocit`a di convergenza si deve
determinare l’ordine d’infinitesimo di [a
n
−a[ ovvero determinare un k tale che
lim
n→∞
[a
n
−a[
1
n
k
= lim
n→∞
n
k
[a
n
−a[ = b ,= 0.
Questa `e un’informazione sulla velocit`a di convergenza, infatti ora sappiamo che
[a
n
−a[ =
b
n
k
+o
_
1
n
k
_
.
Si noti che determinare l’ordine di infinitesimo equivale ad amplificare la distanza [a
n
−a[,
moltiplicandola per il fattore di scala n
k
, e scegliendo k in modo tale che la sequenza
amplificata converga a b ,= 0. Questa sar`a esattamente la via che seguiremo anche nel caso
delle variabili aleatorie.
Per quanto visto nella Lezione 29, le v.a. M
n
convergono in distribuzione alla costante
1, variabile aleatoria degenere di varianza nulla. La varianza var(M
n
) = O
_
1
n
2
_
→ 0.
Per studiare la velocit`a di convergenza di M
n
ad 1, imitando quanto si fa nel caso de-
terministico, amplifichiamo [M
n
− 1[ moltiplicando per un opportuno fattore di scala in
30
Si chiama mediana di una v.a. X il punto a ∈ R tale che P(X ≤ a) = P(X ≥ a) = 1/2), la mediana
di una v.a. di Cauchy `e a = 0.
207
modo tale che la varianza asintotica, invece di annullarsi, tenda ad una costante non nulla.
L’opportuno fattore di scala, in questo caso, `e n infatti
var(n[M
n
−1[) = var(n(1 −M
n
)) = n
2
var(1 −M
n
) = n
2
O
_
1
n
2
_
= O(1),
dove abbiamo sfruttato il fatto che [M
n
−1[ = 1 −M
n
.
Poich´e var(n(1 − M
n
)) = O(1) `e ragionevole aspettarsi che la FdD asintotica delle v.a.
n(1 −M
n
) non sia degenere. Diciamo F
n
(x) la FdD di n(1 −M
n
), allora
F
n
(x) = P(n(1 −M
n
) ≤ x) = P
_
1 −M
n

x
n
_
= P
_
M
n
≥ 1 −
x
n
_
= 1 −P
_
M
n
≤ 1 −
x
n
_
= 1l(x) −
__
1 −
x
n
_
n
1l
[0,n]
(x)
_
E calcolando il limite si trova (`e molto pi` u banale di quel che sembra)
lim
n→∞
F
n
(x) = lim
n→∞
1l(x) −
_
1 −
x
n
_
n
1l
[0,n]
(x) =
_
1 −e
−x
_
1l(x)
Si riconosce che F
n
(x) converge alla funzione di distribuzione Exp(1). La densit`a limite
di n(1 −M
n
) `e quindi f(x) = e
−x
1l(x).
Questo risultato `e estremamente utile in quanto consente di calcolare la probabilit`a di
eventi relativi alle v.a. M
n
originali usando la distribuzione asintotica. Ad esempio, per
ogni a < 1 e per n abbastanza grande,
P(M
n
> a) = P
_
n(1 −M
n
) < n(1 −a)
_

_
n(1−a)
0
e
−x
dx.
31.3 Teorema del limite centrale – motivazione
Legge debole dei grandi numeri per variabili normali. Se ¦X
n
¦ `e una sequenza di v.a. i.i.d.
N(µ, σ
2
) allora E(X
n
) = µ e var(X
n
) =
σ
2
n
e, per la legge dei grandi numeri,
X
n
P
−→ µ,
Probabilit`a delle deviazioni. Sotto l’ipotesi di normalit`a delle v.a. X
n
le probabilit`a delle
deviazioni d’interesse pratico, P([X
n
− µ[ ≤ ), si possono calcolare esattamente anzich´e
accontentarsi della disuguaglianza di Chebychev. Infatti, poich´e le combinazioni lineari di
v.a. normali indipendenti sono normali,
X
n
∼ N
_
µ,
σ
2
n
_
,
quindi le probabilit`a d’interesse si possono calcolare facendo ricorso alla tecnica di stan-
dardizzazione.
P
_
[X
n
−µ[ ≤
_
= P
_
[X
n
−µ[
σ/

n


σ/

n
_
= 2Φ
_

σ

n
_
−1
208
Convergenza in distribuzione. I conti fatti sopra, per il calcolo delle probabilit`a delle devi-
azioni, hanno un risvolto interessante nello studio della convergenza in distribuzione. In
generale la convergenza in probabilit`a implica la convergenza in distribuzione quindi
X
n
T
−→ 1l(x −µ),
dove 1l(x−µ) `e la funzione di distribuzione della v.a. degenere (costante) µ. Consideriamo
ora l’operazione di standardizzazione su X
n
−µ, che si pu`o riscrivere come
[X
n
−µ[
σ/

n
=

n
σ
[X
n
−µ[
ovvero, la distanza [X
n
− µ[ `e moltiplicata per il fattore di scala

n/σ. Si noti che
la sequenza delle v.a. [X
n
− µ[, amplificate dal fattore

n/σ, converge banalmente ain
distribuzione alla distribuzione non degenere N(0, 1):

n
σ
(X
n
−µ)
T
−→ N(0, 1)
infatti, le v.a. nel membro di sinistra,

n
σ
(X
n
−µ), sono, per ogni n ≥ 1, normali N(0, 1)
trattandosi di combinazioni lineari di v.a. X
n
normali i.i.d..
Osservazione. Chi ha letto il paragrafo precedente pu`o confrontare questo esempio con
l’esempio motivazionale introdotto in Lezione 29.1. In quel caso M
n
T
−→ 1l(x − 1) e,
moltiplicando la distanza 1−M
n
per il fattore di scala n, si dimostrava che n(1−M
n
)
T
−→
Exp(1).
Lo scopo di questa Lezione `e di dimostrare che, anche se le v.a. ¦X
n
¦ non sono normali,

n
σ
(X
n
−µ)
T
−→ N(0, 1).
31.4 Teorema del limite centrale
Teorema. Sia ¦X
n
¦ una sequenza di v.a. i.i.d. che ammettono secondo momento, sia
µ := E(X
1
) e σ
2
:= var(X
1
) > 0 allora
W
n
:=

n
σ
_
X
n
−µ
_
T
−→ N(0, 1).
Commento. Si noti che nessuna ipotesi sulla natura delle v.a. X
n
`e stata fatta: possono
essere discrete, continue, assolutamente continue, o miste.
Dimostrazione.
`
E conveniente rappresentare W
n
come somma di v.a. i.i.d. standardizzate:
W
n
:=

n
σ
_
X
n
−µ
_
=

n
σ
_
1
n
n

i=1
X
i
−µ
_
=
1

n
n

i=1
X
i
−µ
σ
=
1

n
n

i=1
Z
i
209
dove, nell’ultimo passaggio, abbiamo introdotto le v.a. i.i.d. standardizzate
31
Z
i
:=
X
i
−µ
σ
di media E(Z
i
) = 0 e varianza var(Z
i
) = 1. Le v.a. Z
i
hanno funzione caratteristica
comune, diciamola ϕ(ω). Poich´e le Z
i
ammettono secondo momento ϕ(ω) `e derivabile con
derivata seconda continua (questo `e stato menzionato, ma non dimostrato in precedenza,
non `e difficile ma prendetelo per buono). Sviluppando in serie di Taylor
ϕ(ω) = ϕ(0) +ϕ
t
(0) ω +ϕ
tt
(0)
ω
2
2
+o(ω
2
)
Ricordando che ϕ(0) = 1 e le relazioni tra momenti e derivate della funzione caratteristica,
0 = E(Z
1
) =
1
j
ϕ
t
(0) e 1 = E(Z
2
1
) =
1
j
2
ϕ
tt
(0), si trova che ϕ
t
(0) = 0 e ϕ
tt
(0) = −1, e
sostituendo nell’equazione qui sopra
ϕ(ω) = 1 −
ω
2
2
+o(ω
2
)
Poich´e le v.a. Z
i
sono i.i.d, la funzione caratteristica della somma S
n
:=

n
i=1
Z
i
`e
ϕ
S
n
(ω) =
_
ϕ(ω)
_
n
=
_
1 −
ω
2
2
+o(ω
2
)
_
n
e quindi la funzione caratteristica di W
n
=
1

n
S
n
`e
ϕ
W
n
(ω) = ϕ
S
n
_
ω

n
_
=
_
_
_
1 −
_
ω

n
_
2
2
+o
_
_
ω

n
_
2
_
_
_
_
n
=
_
1 −
ω
2
/2
n
+o
_
ω
2
n
_
_
n
Siamo pronti a calcolare il limite
lim
n→∞
ϕ
W
n
(ω) = lim
n→∞
_
1 −
ω
2
/2
n
+o
_
ω
2
n
_
_
n
= exp
_

ω
2
2
_
, per ogni ω ∈ R
Si riconosce che il limite `e la funzione caratteristica di una v.a. N(0, 1). La dimostrazione
si conclude invocando il teorema di L´evy.
Teorema del limite centrale – Esempi di approssimazione normale
Il teorema del limite centrale `e utile per il calcolo approssimato di probabilit`a relative
a somme di v.a. di qualunque natura. L’idea `e di base nei calcoli pratici `e che, se
Z
n
T
−→ N(0, 1), allora per n sufficientemente grande sar`a
Z
n
:=

n
σ
_
X
n
−µ
_
T
≈ N(0, 1).
dove il simbolo
T
≈ indica che la distribuzione della v.a. di sinistra `e approssimativamente
uguale alla distribuzione a destra. Quest’idea funziona eccezionalmente bene gi`a con valori
di n modesti, data la covergenza piuttosto veloce alla normalit`a.
31
La notazione andrebbe modificata. Le Z
i
non sono normali, ma solo standardizzate, E(Z
i
) = 0 e
var(Z
i
) = 1. Null’altro `e noto sulle densit` a delle Z
i
210
Raccogliamo qui sotto alcune forme equivalenti dell’ultima equazione. Sono immediate da
ricavare e non aggiungono nulla di nuovo. Assicuratevi che vi risulti banale passare da una
all’altra! Quelle che a destra hanno una N(0, 1) sono gi`a pronte per l’uso della tabella.

n
σ
_
X
n
−µ
_
T
≈ N(0, 1)
1
σ

n
_
n

i=1
X
i
−nµ
_
T
≈ N(0, 1)
n

i=1
X
i
T
≈ N(nµ, nσ
2
)
X
n
T
≈ N
_
µ,
σ
2
n
_
Esempio 1.
Le batterie da 9V che alimentano il radiomicrofono delle aule Ke e Ve hanno una vita
media di 3 ore con densit`a di probabilit`a esponenziale. Calcolare con che probabilit`a 30
batterie consentono l’uso del microfono per tutta la durata del corso di Analisi dei Dati
(78 ore).
La v.a. che descrive la durata di una batteria `e X
1
∼ Exp(1/3) e la durata di 30 batterie
`e S
30
:=

30
i=1
X
i
. Si calcola E(S
30
) = 30 3 = 90 e var(S
30
) = 30 9 = 270. Per il teorema
del limite centrale
30

i=1
X
i
T
≈ N(30 3, 30 9),
quindi
P
_
30

i=1
X
i
≥ 78
_
= P
_

30
i=1
X
i
−30 3

30 9

78 −30 3

30 9
_
≈ P(Z ≥ −0.73) = 1 −Φ(−0.73) = Φ(0.73) ≈ 0.77
Esempio 2.
Il professore di Analisi dei Dati vuole avere probabilit`a almeno pari a 0.95 che il radiomi-
crofono funzioni per tutta la durata del corso. Quante batterie deve acquistare il DEI per
accontentarlo?
I dati sono gli stessi dell’esempio 1. In questo caso n `e l’incognita del problema. La
richiesta del professore impone il vincolo
P
_
n

i=1
X
i
≥ 78
_
≥ 0.95
Il servizio tecnico del DEI applica il teorema del limite centrale e riscrive il vincolo come
P
_
n

i=1
X
i
≥ 78
_
= P
_
n
i=1
X
i
−3n

9n

78 −3n

9n
_
≈ P
_
Z ≥
78 −3n

9n
_
= 1 −Φ
_
78 −3n

9n
_
≥ 0.95
211
che si riduce a
Φ
_
78 −3n

9n
_
≤ 0.05
ma la tabulazione della N(0, 1) parte da 0.5, si usa quindi la propriet`a Φ(z) = 1 −Φ(−z)
e si riscrive il vincolo
Φ
_
3n −78

9n
_
≥ 0.95
dalla tabella si ricava che Φ(1.64) = 0.9495 e Φ(1.65) = 0.9505 che trasforma il vincolo
nella disequazione in

n:
3n −78 ≥ 1.65 3

n
che `e soddisfatta per

n ≥ 5.99, cio`e n ≥ 35.88. Bisogna che il DEI acquisti almeno 36
batterie.
Esempio 3.
(da confrontare con l’ esempio 1 per la legge dei grandi numeri) Torniamo all’esempio
per eccellenza: la sequenza ¦X
n
¦, i.i.d. b(p). Usiamo il teorema del limite centrale per
valutare quanti lanci di una moneta onesta (p = 1/2) sono necessari per garantire
P

¸
¸
¸
n
T
(X
n
1
)
n

1
2
¸
¸
¸
¸
≤ 0.05
_
≥ 0.95
Ricordando che
n
T
(X
n
1
)
n
= X
n
e che, per p = 1/2 valgono E(X
n
) = µ =
n
2
e var(X
n
) =
σ
2
n
=
1
4n
la condizione da imporre `e
P

¸
¸
¸
n
T
(X
n
1
)
n

1
2
¸
¸
¸
¸
≤ 0.05
_
= P([X
n

1
2
[ ≤ 0.05)
= P
_
[X
n

1
2
[
1/2

n

0.05
1/2

n
_
≈ 2Φ(0.1

n) −1 ≥ 0.95
La condizione si riduce a Φ(0.1

n) ≥ 0.975. Dalla tabella della normale standard
Φ(1.96) = 0.975 quindi 0.1

n ≥ 1.96 da cui

n ≥ 19.6 ed n ≥ 384.1, quindi n = 385 sono
sufficienti (da confrontarsi con gli n = 2000 richiesti dalla conservativa disuguaglianza di
Chebychev).
Thumb rule
Esercizio. (FATELO) Se ¦X
n
¦ `e una sequenza di v.a. i.i.d con E(X
1
) = µ e var(X
1
) = σ
2
,
allora per n ¸ 1
P
_
nµ −1.96σ

n ≤
n

i=1
X
i
≤ nµ + 1.96σ

n
_
≈ 0.95.
Con errore di solito trascurabile si approssima l’intervallo [nµ −1.96σ

n, nµ + 1.96σ

n]
con l’intervallo [nµ − 2σ

n, nµ + 2σ

n]. Per esercizio calcolate, usando il Teorema del
Limite Centrale, la probabilit`a
P
_
nµ −2σ

n ≤
n

i=1
X
i
≤ nµ + 2σ

n
_
212
Applicazione fondamentale: moneta truccata o moneta onesta?
[la moneta `e solo un paradigma – sostituite alla moneta il problema scientifico a risposta
binaria su cui state lavorando]
Avete in tasca una moneta che sospettate possa essere truccata. Lanciate la moneta n volte
ed osservate n
T
Teste. Se la moneta `e onesta vi aspettate approssimativamente n/2 Teste
su n lanci. Il teorema del limite centrale fornisce l’intervallo di valori in cui `e ragionevole
aspettarsi che cada n
T
se la moneta `e onesta. Dal risultato dell’esercizio se lanciate una
moneta onesta n ¸ 1 volte, il numero di Teste n
T
sar`a compreso nell’intervallo
[nµ −2σ

n, nµ + 2σ

n]
con probabilit`a circa 0.95. Ricordando che per una moneta onesta b
_
1
2
_
, vale µ = σ =
1
2
,
per n = 1000 lanci l’intervallo `e
_
500 −

1000, 500 +

1000
_
= [469, 531]
Se osservate meno di 469 o pi` u di 531 Teste siete autorizzati a ritenere i vostri sospetti
non completamente infondati. Pi` u lontano `e n
T
dall’intervallo [469, 531] pi` u significativa
`e la vostra osservazione di n
T
Teste per la convalida della vostra ipotesi che la moneta non
sia onesta (questo `e il modo in cui si esprimono gli statistici per non compromettersi).
213
Lezione 32 (Mercoled`ı 22 maggio, ore 16:25–18:10)
32.1 Esercitazione in aula
214
Lezione 33 (Luned`ı, 27 maggio 2013, ore 10:30-12:15)
33.1 Segnali, sistemi e modelli incerti
L’analisi dei sistemi dinamici in condizioni d’incertezza riveste grande interesse nella pra-
tica ingegneristica.
`
E molto comune che l’incertezza del sistema dinamico sia presente
a livello fisico e che sia quindi necessario tenerne conto nel modello matematico. Non `e
per`o raro il caso in cui si preferisce costruire modelli probabilistici anche in contesti che
fisicamente sono puramente deterministici.
L’ingegneria dell’informazione `e ricca di esempi della prima situazione. Nei sistemi
dinamici elettrici (reti elettriche) esiste una naturale sorgente di aleatoriet`a, il rumore ter-
mico generato dai circuiti.
32
La manifestazione pratica del rumore termico `e un segnale
aleatorio che si sovrappone, sporcandoli, ai segnali d’ingresso e di uscita, e/o che rende
aleatoria la trasformazione effettuata dal sistema. Il rumore termico, la cui intensit`a `e
solitamente trascurabile, diventa un serio problema quando le potenze dei segnali sono
molto basse, come nelle trasmissioni dallo spazio profondo (vedi Deep Space Network). A
livello pi` u fondamentale, i segnali d’ingresso (messaggi inviati) di un sistema di telecomu-
nicazioni (canale) sono incerti per loro vera natura e come tali vanno modellati. L’invio di
un messaggio non servirebbe alcuno scopo se il ricevente, in ascolto all’uscita del canale,
ne conoscesse deterministicamente il contenuto.
Un esempio della seconda situazione `e l’impostazione di un metodo di Montecarlo per
il calcolo numerico.
33
In tale contesto l’incertezza `e introdotta ad arte nel modello, con
lo scopo di sfruttare i teoremi limite della probabilit`a per ottenere algoritmi di calcolo
particolarmente efficienti. Un altra ragione che spinge l’ingegnere all’introduzione di mod-
elli probabilistici anche in contesti deterministici ha a che fare con i limiti del processo
di modellazione matematica. Un modello matematico `e, quasi per definizione, se non
sbagliato quanto meno incompleto. Normalmente i modelli tengono in considerazione solo
alcuni degli aspetti fisici, quelli pi` u utili a descrivere i fenomeni d’interesse. All models
are wrong, but some are useful, per dirla con George E. Box. Ma anche volendo descri-
vere tutto, spesso la fisica del sistema non `e nota o lo `e molto poco, si pensi ad esempio
alla complessit`a dei sistemi biologici, o economici, o sociali. In altri casi la fisica `e ben
nota, e.g. sistemi elettrici e/o meccanici, ma si introducono approssimazioni allo scopo di
semplificare i modelli matematici. Approssimando con (pochi) parametri concentrati un
sistema a parametri distribuiti si pu`o modellare con un’equazione differenziale ordinaria
(di ordine basso) piuttosto che con un’equazione alle derivate parziali. Un modo grezzo,
ma molto popolare, per tener conto delle varie procedure di approssimazione della realt`a
fisica `e di introdurre nel modello matematico una componente probabilistica, usualmente
sommando segnali di rumore sugli ingressi e/o sulle uscite. Il razionale per tale scelta `e
che la mancanza, o l’approssimazione, delle conoscenze su di un fenomeno sia equiparabile
ad una conoscenza probabilistica.
La precedente discussione suggerisce l’opportunit`a di introdurre rappresentazioni ade-
guate dei segnali e dei sistemi incerti, che consentano di estendere al caso probabilistico
l’analisi ingresso/uscita dei sistemi dinamici. In particolare sar`a opportuno estendere al
caso probabilistico l’analisi ingresso/uscita per la classe dei sistemi lineari tempo invarianti.
32
Si tratta del rumore osservato da Johnson (1928), e studiato da Nyquist (1928), onnipresente nelle reti
elettriche.
33
Si veda l’esempio del calcolo di P(E) =
_
E
f(x) dx, un integrale deterministico, con la tecnica di
simulazione accennata nell’Esempio 2 della Lezione 31.1
215
33.2 Cosa `e un processo stocastico
Il primo passo per la costruzione di una teoria dei segnali e sistemi incerti `e la definizione
del modello matematico di segnale incerto. Per modellare i segnali incerti useremo le idee
gi`a viste di teoria della probabilit`a, condite con un po’ di nuova terminologia. Il modello
matematico di un segnale incerto `e detto processo aleatorio o equivalentemente, processo
stocastico.
Definizione. Un processo stocastico (p.s.) (X
s
)
s∈S
`e una famiglia di variabili aleatorie
definite su uno spazio di probabilit`a (Ω, T, P) comune, e a valori in un insieme A comune,
X
s
: Ω → A, ω → X
s
(ω), misurabile, per ogni s ∈ S
Terminologia e osservazioni
In generale gli insiemi S e A possono essere di qualsiasi natura. In queste lezioni conside-
riamo solo processi con S ⊂ R e A ⊂ R. In questo caso S si dice insieme dei tempi, anche
se non necessariamente s ∈ S `e fisicamente un tempo. L’alfabeto A, `e detto insieme di
stato del processo. I casi pi` u elementari di coppie S, A sono i seguenti.
(a.) (p.s. a tempo discreto e stato discreto). L’insieme dei tempi `e S := Z, oppure S := N
o un intervallo finito S := N ⊂ Z. La notazione tipica per l’indice di un processo a tempo
discreto `e n, scriveremo quindi (X
n
) per denotare questi processi. L’alfabeto A `e discreto,
ovvero [A[ ≤ [N[.
Cosa modellano. Segnali incerti a tempo discreto per i quali ogni campione pu`o assumere
sono un numero finito, o al pi` u discreto, di valori possibili. Ad esempio un messaggio di
testo, interpretato come segnale incerto, si pu`o modellare con un processo stocastico di
questo tipo. Un qualunque segnale fisico incerto digitalizzato, cio`e quantizzato e campi-
onato, pu`o essere modellato con un processo di questo tipo. Sono modellabili con processi
di questo tipo TUTTI i file presenti sui vostri PC e/o telefonini pi` u o meno intelligenti.
Esempio. (X
n
)
n∈N
processo stocastico consistente in una sequenza di variabili aleatorie
bernoulliane, X
n
∼ b(0.5), indipendenti ed identicamente distribuite. Questo processo,
rappresenta il flusso di bit generato dai risultati dei lanci di una moneta. Intuitivamente,
ma anche in un senso tecnico da precisare, `e il processo stocastico pi` u casuale possibile.
(b.) (p.s. a tempo discreto e stato continuo). Sono processi (X
n
) a tempo discreto per i
quali l’insieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo discreto della teoria
dei Segnali e Sistemi. Modellano segnali fisici incerti a tempo discreto per i quali ogni
campione pu`o assumere valori in un intervallo di R, in una semiretta, o su tutta R. Ad
esempio una sequenza di misure, ripetute ad intervalli regolari, di una grandezza fisica
continua: temperatura, pressione, lunghezza, durata, ecc. Oppure un segnale incerto a
tempo continuo campionato ad intervalli regolari.
Esempio. (X
n
)
n∈N
processo stocastico consistente in una sequenza di variabili aleatorie
normali, X
n
∼ N(µ, σ
2
), indipendenti ed identicamente distribuite. Questo processo pu`o
servire a rappresentare una sequenza di misure di una grandezza fisica µ con uno strumento
di precisione finita. La misura n-esima `e modellata come X
n
= µ+W
n
dove W
n
∼ N(0, σ
2
)
`e il rumore associato alla misura n-esima. Questo modello `e in linea con quanto descritto
nell’introduzione alla lezione: rappresenta le imprecisioni del processo di misura dovute
a diverse cause (precisione finita dello strumento, imperizia dell’operatore, ecc.) con una
v.a. W
n
.
216
(c.) (p.s. a tempo continuo e stato discreto). L’insieme dei tempi `e S := R, oppure S := R
+
o un intervallo finito S := [t
0
, t
1
] ⊂ R. La notazione tipica per l’indice di un processo a
tempo discreto `e t, scriveremo quindi (X
t
) per denotare questi processi. L’alfabeto A `e
discreto, ovvero [A[ ≤ [N[.
Cosa modellano. Un primo esempio `e il segnale generato da un sistema di monitoraggio.
Un sensore rileva, a tempo continuo, la temperatura in un punto critico di un impianto
e genera un segnale (X
t
) di monitoraggio. Finch´e la temperatura rimane sotto la soglia
di sicurezza il sistema d’allarme genera X
t
= 0. Per tutto il tempo che la temperatura
raggiunge o supera la soglia, il sistema genera X
t
= 1. Un ulteriore esempio `e il segnale
generato da un dispositivo ZOH (zero order hold), parte integrante dei convertitori DAC
(digital to analog converter) usati per la ricostruzione pratica dei segnali campionati (vedi
corso di Segnali e Sistemi).
(d.) (p.s. a tempo continuo e stato continuo). Sono processi (X
t
) a tempo continuo per i
quali l’insieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi
dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti
in considerazione quando si assegnano le distribuzioni delle variabili aleatorie.
Cosa modellano.
`
E la versione probabilistica dei segnali a tempo continuo della teoria dei
Segnali e Sistemi.
I processi come funzioni su S Ω. Un punto di vista spesso adottato nello studio dei
processi stocastici `e di considerare X
s
(ω) come una funzione del tipo
X
s
(ω) : S Ω −→ A, (s, ω) → X
s
(ω).
Adottando questo punto di vista, per ogni fissato ω ∈ Ω, si ottiene la funzione del tempo
X
s
(ω) : S −→ A, s → X
s
(ω)
detta traiettoria del processo associata a ω. Si noti che le traiettorie del processo sono
funzioni deterministiche poich´e ω `e fissato e noto. Se invece si fissa s ∈ S si ottiene la
funzione
X
s
(ω) : Ω −→ A, ω → X
s
(ω)
che `e la variabile aleatoria X
s
corrispondente ai possibili valori che il processo pu`o assumere
all’istante s ∈ S.
33.3 Come si caratterizzano probabilisticamente i processi stocastici
Un processo stocastico `e una famiglia di variabili aleatorie indiciate dal tempo s ∈ S.
Darne la descrizione probabilistica completa significa essere in grado di calcolare la prob-
abilit`a di qualunque evento definibile a partire dalle X
s
. Se l’insieme dei tempi `e discreto
questo compito `e relativamente semplice. La stessa cosa `e molto pi` u complessa nel caso
di insieme dei tempi continuo.
Sia (X
n
) un processo a tempo discreto. Ad esempio (X
n
) potrebbe modellare una sequenza
di misure, prese ad intervalli regolari, da un sistema di monitoraggio. Un evento di interesse
potrebbe essere del tipo (potrebbe ad esempio trattarsi della probabilit`a che non scatti un
allarme)
E := [max
n∈N
[X
n
[ ≤ 10]
che `e immediato riscrivere come
E :=

n∈N
[[X
n
[ ≤ 10].
217
Poich´e le X
n
sono variabili aleatorie, gli insiemi [[X
n
[ ≤ 10] ∈ T per ogni n ∈ N. Quindi E,
intersezione numerabile di eventi di T, `e ancora in T e se ne pu`o calcolare la probabilit`a.
Altri esempi di calcoli d’interesse per processi stocastici
(a.) max
s∈S
P([X
s
[ > 10)
(b.) P(X
s
1
+X
s
2
+X
s
3
< 10)
(c.) E(X
s
), var(X
s
)
(d.) cov(X
u
, X
v
)
(e.) E(X
s
1
X
s
2
X
s
3
)
Nel caso (a.) `e sufficiente conoscere le distribuzioni ad 1 tempo, F
s
(x) = P(X
s
≤ x)
per ogni s ∈ S. Nel caso (b.) `e necessario disporre della distribuzione a 3 tempi
F
s
1
,s
2
,s
3
(x
1
, x
2
, x
3
) := P(X
s
1
≤ x
1
, X
s
2
≤ x
2
, X
s
3
≤ x
3
). Per il caso (c.) `e sufficiente
conoscere le distribuzioni ad 1 tempo. Per il caso (e.) `e necessario conoscere le distribuzioni
a 2 tempi. Per il caso (f.) `e necessario conoscere le distribuzioni a 3 tempi.
Specificazione probabilistica completa dei processi stocastici
Assumiamo che l’insieme dei tempi S ⊂ Z sia di cardinalit`a infinita.
34
Per poter calcolare
la probabilit`a di un qualunque evento misurabile `e sufficiente conoscere la funzione di
distribuzione congiunta di ogni sottoinsieme finito delle variabili aleatorie che compongono
il processo. Ci`o si pu`o fare assegnando per ogni N ∈ N una funzione
F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) := P(X
n
1
≤ x
1
, X
n
2
≤ x
2
, . . . X
n
N
≤ x
N
),
dove n
1
, n
2
, . . . n
N
∈ Z e x
1
, x
2
. . . x
N
∈ A. Le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) non
possono essere assegnate in modo completamente arbitrario, ma devono soddisfare vincoli
atti a garantire che ognuna di esse generi funzioni di distribuzione legali, e che esse siano
in accordo tra loro. In particolare devono essere soddisfatti i vincoli di marginalizzazione,
ovvero dalle FdD per N
t
variabili aleatorie deve essere possibile ritrovare quelle per N < N
t
variabili aleatorie. Lo studio di questo tipo di descrizione completa `e fondamentale per
lo sviluppo della teoria, ma di scarso valore pratico poich´e, a parte casi banali, non si
dispone mai di una quantit`a di informazione sui processi tale da permettere di determinare
le funzioni F(n
1
, n
2
, . . . n
N
; x
1
, x
2
, . . . x
N
) per ogni N ∈ N.
Parametri riassuntivi di un processo stocastico
La difficolt`a a fornire descrizioni probabilistiche complete di un processo stocastico rende
ancora pi` u importanti i classici parametri riassuntivi del comportamento probabilistico:
medie, varianze, covarianze. Per il processo (X
s
), dove s pu`o essere un tempo discreto
oppure continuo, si definiscono le seguenti funzioni deterministiche
(a.) m
X
(s) := E(X
s
), funzione media,
(b.) M
X
(s) := E(X
2
s
), funzione potenza statistica,
(c.) σ
2
X
(s) := E
_
(X
s
−m
X
(s))
2
_
, funzione varianza,
(d.) r
X
(s
1
, s
2
) := E
_
X
s
1
X
s
2
_
, funzione di autocorrelazione,
(e.) k
X
(s
1
, s
2
) := E
_
(X
s
1
−m
X
(s
1
))(X
s
2
−m
X
(s
2
))
_
, funzione di autocovarianza,
Si noti che (a.), (b.) e (c.) richiedono solo la conoscenza delle distribuzioni ad 1 tempo
del processo stocastico, e che (d.) e (e.) richiedono la conoscenza delle distribuzioni a
2 tempi. Le seguenti relazioni tra i parametri sono ovvie: σ
2
X
(s) = M
X
(s) − [m
X
(s)]
2
,
M
X
(s) = r
X
(s, s), σ
2
X
(s) = k
X
(s, s), k
X
(s
1
, s
2
) = r
X
(s
1
, s
2
) −m
X
(s
1
)m
X
(s
2
).
34
Se S fosse di cardinalit` a finita allora il processo si ridurrebbe ad un vettore aleatorio finito dimensionale,
di cui `e noto come sia possibile specificare la densit` a congiunta
218
inciso
Correlazione mutua di due processi. Nelle applicazioni `e molto utile disporre anche di
parametri riassuntivi che confrontano i comportamenti di due processi, analogamente a
quanto si fa con due variabili aleatorie. Ad esempio i processi (X
s
) ed (Y
s
) potrebbero
rappresentare ingresso ed uscita di un sistema incerto. Un utile parametro riassuntivo del
comportamento congiunto dei due processi `e
(f.) r
XY
(s
1
, s
2
) := E
_
X
s
1
Y
s
2
_
, funzione di mutua correlazione
fine inciso
Come `e ben noto non tutte le variabili aleatorie ammettono momenti, non `e quindi garan-
tita l’esistenza dei parametri riassuntivi di un processo stocastico.
`
E utile il seguente
lemma.
Lemma. Se la potenza statistica M
X
(s) esiste finita per ogni s ∈ S, allora esistono finiti
tutti i parametri riassuntivi (a.)–(e.).
Dimostrazione. Per la disuguaglianza di Schwarz
m
X
(s) = E(X
s
) = E(X
s
1) ≤
_
E(X
2
s
)E(1
2
) =
_
M
X
(s)
inoltre
r
X
(s
1
, s
2
) = E(X
s
1
X
s
2
) ≤
_
E(X
2
s
1
)E(X
2
s
1
) =
_
M
X
(s
1
)M
X
(s
2
)
L’ipotesi M
X
(s) < ∞ per ogni s ∈ S, garantisce l’esistenza di m
X
(s) e di r
X
(s
1
, s
2
).
L’esistenza degli altri parametri discende immediatamente dalle relazioni ricordate sopra.
Definizione (processi del secondo ordine). Sono detti del secondo ordine i processi per i quali
esistono, finiti, m
X
(s) e r
X
(s
1
, s
2
).
Molto spesso nelle applicazioni ci si limita a fornire la descrizione al secondo ordine dei
processi stocastici d’interesse. Peraltro le funzioni media e autocorrelazione contengono
una notevole quantit`a d’informazione. In particolare, le funzioni m
X
(s) e r
X
(s
1
, s
2
) con-
sentono di ricavare la descrizione riassuntiva (vettore della media e matrice di correlazione)
di qualunque vettore di dimensione finita costruito con variabili del processo stocastico.
Ad esempio se X :=
_
X
s
1
, X
s
2
, . . . X
s
n
_
¯
, il vettore della media del vettore X `e
m
X
:= E(X) =
_
m
X
(s
1
), m
X
(s
2
) . . . m
X
(s
n
)
_
¯
(1)
e la matrice di correlazione del vettore X `e
R
X
:= E(XX
¯
) =
_
_
_
_
r
X
(s
1
, s
1
) r
X
(s
1
, s
2
) . . . r
X
(s
1
, s
n
)
r
X
(s
2
, s
1
) r
X
(s
2
, s
2
) . . . r
X
(s
2
, s
n
)
. . . . . . . . . . . .
r
X
(s
n
, s
1
) r
X
(s
n
, s
2
) . . . r
X
(s
n
, s
n
)
_
_
_
_
(2)
Processi stazionari in senso debole
Per molti processi d’interesse i parametri media e autocorrelazione sono invarianti rispetto
a traslazioni temporali. Vedremo pi` u sotto alcuni esempi. Naturalmente questa nozione
ha senso solo se il processo `e del secondo ordine, ovvero ammette funzioni media e
autocorrelazione.
Definizione (stazionariet`a in senso lato). Un processo stocastico del secondo ordine (X
s
)
s∈S
`e detto stazionario in senso debole se
m
X
(s +σ) = m
X
(s), per ogni s, σ (3)
r
X
(s
1
, s
2
) = r
X
(s
1
+σ, s
2
+σ), per ogni s
1
, s
2
, σ (4)
219
Lemma (condizioni equivalenti). La seguente condizione `e equivalente alla (3)
m
X
(s) = m
X
(0), per ogni s (5)
Ognuna delle seguenti condizioni `e equivalente alla (4)
r
X
(s
1
, s
2
) = r
X
(s
1
−s
2
, 0), per ogni s
1
, s
2
(6)
r
X
(s +σ, s) = r
X
(σ, 0), per ogni s, σ (7)
Dimostrazione. Esercizio.
Per verificare se un processo stocastico del secondo ordine `e stazionario in senso debole
sar`a quindi sufficiente verificare se per la media vale una delle condizioni (3) o (5) e per
l’autocorrelazione vale una delle condizioni (4) o (6) o (7).
`
E immediato verificare (fatelo!) che se un processo `e debolmente stazionario allora valgono
anche le condizioni
σ
2
X
(s) = σ
2
X
(0)
M
X
(s) = M
X
(0)
k
X
(s
1
, s
2
) = k
X
(s
1
+σ, s
2
+σ)
o le equivalenti, simili a quelle viste sopra per media e autocorrelazione.
Osservazione e notazione alternativa. La conseguenza della stazionariet`a `e che le funzioni
riassuntive che dipendono dalle distribuzioni ad 1 tempo (media, potenza, varianza) si
riducono a delle funzioni costanti, mentre le funzioni che dipendono dalle distribuzioni
a 2 tempi (autocorrelazione, autocovarianza) si riducono a funzioni dipendenti solo dalla
distanza temporale s
1
− s
2
tra le due variabili X
s
1
e X
s
2
, e non dagli istanti s
1
ed s
2
separatamente. In virt` u di queste considerazioni `e naturale introdurre simboli pi` u com-
patti per denotare media e autocorrelazione di un processo debolmente stazionario. In
particolare scriveremo
m
X
:= E(X
s
) (8)
r
X
(σ) := E(X
s+σ
X
s
) (9)
Convenzioni notazionali discreto/continuo. Per le quantit`a descritte in questo paragrafo,
nel caso discreto scriveremo r
X
(n
1
, n
2
), r
X
(n + k, n), r
X
(k), mentre nel caso continuo
scriveremo r
X
(t
1
, t
2
), r
X
(t +τ, t), r
X
(τ).
33.4 Primi esempi di processi stocastici
Esempio 1 (gaussian white noise). Il processo stocastico a tempo discreto e stato continuo
(W
n
)
n∈N
, che consiste di variabili aleatorie normali, indipendenti ed identicamente dis-
tribuite, W
n
∼ N(0, σ
2
) `e detto rumore bianco gaussiano di intensit`a σ
2
, e lo denoteremo
(W
n
) ∼ WGN(σ
2
). Il processo (W
n
) ha funzione media
m
W
(n) = E(W
n
) = 0, per ogni n ∈ N.
Potenza statistica e varianza di (W
n
) coincidono, poich´e m
W
(n) = 0, e valgono
M
W
(n) = σ
2
W
(n) = E(W
2
n
) = σ
2
, per ogni n ∈ N.
Le variabili W
n
sono i.i.d., quindi la funzione autocorrelazione vale
r
W
(n
1
, n
2
) = k
W
(n
1
, n
2
) = E(W
n
1
W
n
2
) = σ
2
δ(n
1
−n
2
)
220
dove la δ() `e il segnale δ(0) = 1, e δ(n) = 0 per n ,= 0. Autocorrelazione e autocovarianza
coincidono poich´e m
W
(n) = 0.
Si noti che, essendo finita la potenza M
W
(n) = σ
2
, il processo (W
n
) `e del secondo ordine.
Sono inoltre soddisfatte le condizioni (5) e (6), quindi (W
n
) `e un processo debolmente
stazionario. Utilizzando le notazioni alternative (8) e (9), adattate al tempo discreto,
scriveremo
m
W
= 0, r
W
(k) = σ
2
δ(k) (10)
Osservazione. All’occorrenza il WGN(σ
2
) pu`o essere esteso da N a Z.
Esempio 2 (gaussian random walk). Una passeggiata casuale gaussiana `e il processo stocas-
tico a tempo discreto e stato continuo (X
n
)
n∈N
, definito dall’equazione alle differenze del
primo ordine
X
n+1
= X
n
+W
n
, (11)
dove (W
n
)

n=0
∼ GWN(σ
2
), e X
0
= 0.
Si noti che (X
n
) si pu`o interpretare come l’uscita stocastica del sistema LTI descritto dal-
l’equazione alle differenze x
n+1
= x
n
+w
n
, pilotato dall’ingresso stocastico (W
n
). Il sistema
`e un semplice integratore discreto, infatti la risposta impulsiva vale h(n) = 1l(n −1), dove
w
n
`e la sequenza d’ingresso ed x
n
la corrispondente uscita. In virt` u di questa osservazione
oppure lavorando direttamente sull’equazione (11) si trova l’espressione esplicita
X
n
=
n−1

i=0
W
k
I parametri riassuntivi di (X
n
) si ricavano facilmente. La funzione media `e
m
X
(n) = E(X
n
) = E
_
n−1

i=0
W
k
_
= 0,
mentre la potenza statistica, coincidente con la varianza, `e
M
X
(n) = σ
2
X
(n) = E(X
2
n
) = var
_
n−1

i=0
W
k
_
= nσ
2
La potenza statistica `e finita per ogni n, quindi il processo (X
n
) `e del secondo ordine,
ma possiamop gi`a concludere che (X
n
) non `e debolmente stazionario, poich´e se lo fosse
M
X
(n) sarebbe costante in n. Ricaviamo la funzione di autocorrelazione (coincide con
l’autocovarianza)
r
X
(n
1
, n
2
) = E(X
n
1
X
n
2
) = E
_
_
_
n
1
−1

i=0
W
i
_
_
_
n
2
−1

j=0
W
j
_
_
_
_
=
n
1
−1

i=0
n
2
−1

j=0
E(W
i
W
j
)
=
n
1
−1

i=0
n
2
−1

j=0
σ
2
δ(i −j) = min¦n
1
, n
2
¦ σ
2
Come ci aspettavamo, la funzione autocorrelazione dipende da n
1
e n
2
separatamente, e
non solamente dalla differenza n
1
−n
2
. Il processo non `e debolmente stazionario.
221
Lezione 34 (Marted`ı, 28 maggio 2013, ore 16:25-18:05)
34.1 Ulteriore esempio di processo stocastico
Esempio 3 (processo AR(1)).
`
E il processo stocastico, a tempo discreto e stato continuo,
(X
n
)
n∈N
definito dall’equazione alle differenze del primo ordine
X
n+1
= aX
n
+W
n
, (1)
dove (W
n
)

n=0
∼ GWN(σ
2
), la condizione iniziale `e una variabile aleatoria X
0
indipendente
da (W
n
), con E(X
0
) = 0 e var(X
0
) = σ
2
0
, e infine la costante a soddisfa il vincolo [a[ < 1.
Interessa studiare i parametri riassuntivi del processo (X
n
), ed in particolare determinare
se esistono valori della varianza iniziale var(X
0
) = σ
2
0
che garantiscono la stazionariet`a
debole di (X
n
).
Si pu`o facilmente calcolare un’espressione esplicita per X
n
in termini di X
0
e di W
0
, W
1
,
. . . W
n−1
usando la teoria delle equazioni alle differenze, ma `e anche immediato effettuare
qualche iterazione manualmente e derivare l’espressione esplicita per induzione
X
1
= aX
0
+W
0
X
2
= aX
1
+W
1
= a
2
X
0
+aW
0
+W
1
X
3
= aX
2
+W
2
= a
3
X
0
+a
2
W
0
+aW
1
+W
2
. . . . . . . . .
X
n
= a
n
X
0
+
n−1

=0
a
n−1−
W

(2)
Si pu`o ora utilizzare l’espressione (2) per ricavare i parametri riassuntivi di (X
n
). Es-
iste per`o una tecnica pi` u interessante che sfrutta appieno la struttura ricorsiva dell’e-
quazione (1). Per la funzione della media si ricava facilmente l’equazione alle differenze
m
X
(n + 1) = E(X
n+1
) = E
_
aX
n
+W
n
_
= a m
X
(n), m
X
(0) = E(X
0
) = 0
la cui unica soluzione `e m
X
(n) = 0, per ogni n.
Con la stessa tecnica si calcola l’equazione alle differenze soddisfatta dalla funzione vari-
anza,
σ
2
X
(n + 1) = E(X
2
n+1
) = E
_
(aX
n
+W
n
)
2
_
= E
_
a
2
X
2
n
+ 2aX
n
W
n
+W
2
n
_
= a
2
σ
2
X
(n) +σ
2
dove E(X
n
W
n
) = 0 infatti: X
n
dipende solo da X
0
, W
0
, W
1
. . . W
n−1
, vedi equazione (2),
quindi `e indipendente da W
n
ed essendo le medie nulle E(X
n
W
n
) = E(X
n
)E(W
n
) = 0.
L’equazione alle differenze per la varianza `e quindi
σ
2
X
(n + 1) = a
2
σ
2
X
(n) +σ
2
, σ
2
X
(0) = σ
2
0
,
dove la condizione iniziale `e imposta dal dato var(X
0
) = σ
2
0
. Affinch´e il processo (X
n
) sia
debolmente stazionario `e necessario che σ
2
X
(n) sia costante, ovvero σ
2
X
(n + 1) = σ
2
X
(n).
Sostituendo nell’equazione alle differenze si trova (e si capisce perch´e `e fondamentale la
condizione [a[ < 1)
σ
2
X
(n) =
σ
2
1 −a
2
.
222
Scegliendo il dato iniziale
σ
2
0
=
σ
2
1 −a
2
`e immediato verificare che σ
2
X
(n) = σ
2
0
=
σ
2
1−a
2
per ogni n.
Con questa scelta di σ
2
0
la varianza ‘`e costante. Per verificare la stazionariet`a debole `e
per`o necessario verificare che la funzione di autocorrelazione r
X
(n +k, n) non dipende da
n. Si osservi che
r
X
(n + 1, n) = E(X
n+1
X
n
) = E
_
(aX
n
+W
n
)X
n
_
= a σ
2
X
(n) = a
σ
2
1 −a
2
quindi per k = 1 l’autocorrelazione r
X
(n + 1, n) non dipende da n. Inoltre
r
X
(n + 2, n) = E(X
n+2
X
n
) = E
_
(aX
n+1
+W
n+1
)X
n
_
= a r
X
(n + 1, n) = a
2
σ
2
1 −a
2
quindi anche per k = 2 l’autocorrelazione r
X
(n+2, n) non dipende da n. In generale (per
induzione) vale
r
X
(n +k, n) = a
k
σ
2
1 −a
2
, indipendente da n.
La conclusione `e che scegliendo σ
2
0
=
σ
2
1−a
2
, il processo (X
n
) `e debolmente stazionario.
34.2 Propriet`a della funzione di autocorrelazione di un processo stazionario
La funzione di autocorrelazione r
X
(σ) di un processo del secondo ordine debolmente
stazionario gode di alcune notevoli propriet`a.
(a.) r
X
(0) ≥ 0.
Dim. Infatti r
X
(0) = E(X
2
s
) ≥ 0.
(b.) r
X
(σ) `e pari (richiede insieme dei tempi S = Z oppure S = R).
Dim. r
X
(−σ) = E(X
s−σ
X
s
) = E(X
0
X
σ
) = r
X
(σ).
(c.) r
X
(σ) `e una funzione definita positiva.
Dim. Verifichiamo la condizione di positivit`a. Per ogni n, α
1
, . . . α
n
, σ
1
, . . . σ
n

i

j
α
i
α
j
r
X

i
−σ
j
) =

i

j
α
i
α
j
E(X
s
i
X
s
j
)
= E
_

i

j
α
i
α
j
X
s
i
X
s
j
_
= E
__

i
α
i
X
s
i
¸
2
_
≥ 0
Si ricordi che una funzione ϕ tale che ϕ(0) = 1, continua in un intorno dell’origine e
semidefinita positiva `e automaticamente la funzione caratteristica di una variabile aleato-
ria. (naturalmente una funzione caratteristica `e pari solo se la distribuzione `e pari, nel caso
generale essa `e solo hermitiana). Le propriet`a (a.), (b.) e (c.) appena dimostrate mostra-
no quindi la parentela matematica che esiste tra funzioni di autocorrelazione e funzioni
caratteristiche. Vedremo presto che risvolto quest’osservazione ha per la teoria spettrale
dei processi.
223
34.3 Processi gaussiani
Il processo (X
s
) `e detto gaussiano se, per ogni N, e per ogni s
1
, s
2
. . . s
N
il vettore N-
dimensionale X := (X
s
1
, X
s
2
, . . . X
s
N
)
¯
`e congiuntamente nrmale. Data la normalit`a, la
distribuzione di X `e completamente determinata dal vettore della media E(X) e dalla
matrice di covarianza E
_
X −E(X))(X −E(X))
¯
_
. Peraltro, come discusso al paragrafo
33.3, media e matrice di covarianza di X sono completamente determinati dalle funzioni
m
X
(s) e r
X
(s
1
, s
2
) del processo (X
s
). La probabilit`a di un qualunque evento definito
in termini di variabili di un processo gaussiano sono quindi calcolabili sulla base della
conoscenza delle sole funzioni m
X
(s) e r
X
(s
1
, s
2
). Nel caso speciale dei processi gaussiani
la descrizione al secondo ordine coincide con la descrizione completa del processo. Se sono
verificate le condizioni di stazionariet`a debole
m
X
(s) = m
x
(0) := µ
X
, k
X
(s +σ, s) = k
X
(σ, 0) := k
X
(σ)
allora la costante µ
X
e la funzione k
X
(σ) determinano completamente le probabilit`a del
processo gaussiano (X
s
). Si noti in particolare che sotto stazionariet`a debole del processo
gaussiano
(X
s
1
, X
s
2
, . . . X
s
N
) ∼ (X
s
1

, X
s
2

, . . . X
s
N

)
cio`e i due vettori hanno la stessa distribuzione congiunta. Questa propriet`a `e detta
stazionariet`a forte: prendendo N arbitrarie variabili del processo la loro distribuzione `e
invariante per traslazione. Per i processi gaussiani la stazionariet`a debole (invarianza per
traslazione della distribuzione di coppie di variabili aleatorie) equivale alla stazionariet`a
forte.
Un importante risultato (gi`a noto nel contesto dei vettori) `e la conservazione della guas-
sianit`a per filtraggio lineare. Menzioniamo il seguente risultato senza fornire le condizioni
tecniche che ne garantiscono la validit`a. Il risultato vale anche per processi a tempo con-
tinuo, ma nella teoria rigorosa il caso discreto `e quello pi` u semplice da affrontare. Lemma.
Se (X
n
) `e un processo gaussiano ed
Y
n
:=

i=−∞
h
n,k
X
k
allora, sotto opportune condizioni che garantiscono la convergenza della serie, il processo
Y
n
`e gaussiano. In particolare il risultato vale per il filtraggio lineare tempo invariante,
ovvero se
Y
n
=

k = −∞

h
n−k
X
k
Dimostrazione. Il risultato `e ben noto nel caso di vettori finito dimensionali. Nel caso
generale qualche attenzione deve essere dedicata alla convergenza della serie. Si rimanda
la discussione dettagliata ai corsi successivi.
34.4 Densit`a spettrale di potenza - definizione e primi esempi
Definizione. Se (X
s
) `e un processo del secondo ordine debolemnte stazionario, la densit`a
spettrale di potenza di (X
s
) `e la trasformata di Fourier della funzione autocorrelazione
r
X
(σ). In particolare
R
X
(f) =
_

−∞
r
X
(τ)e
−j2πfτ
dτ, f ∈ R, tempo continuo
R
X
(f) =

k=−∞
r
X
(k)e
−j2πfk
, f ∈ [0, 1], tempo discreto
224
Per le condizioni di esistenza e le nozioni di convergenza della trasformata si faccia rifer-
imento al corso di Segnali e Sistemi. Nota la densit`a spettrale, la funzione di autocorre-
lazione si pu`o trovare per inversione:
r
X
(τ) =
_

−∞
R
X
(f)e
j2πfτ
df, tempo continuo
r
X
(k) =
_
1
0
R
X
(f)e
j2πfk
df tempo discreto
si noti che la potenza statistica r
X
(0) vale
r
X
(0) = M
X
=
_

−∞
R
X
(f) df (continuo), r
X
(0) = M
X
=
_
1
0
R
X
(f) df (discreto)
Poich´e r
X
(s) `e definita positiva la densit`a spettrale `e una funzione non negativa (lo
dimostreremo la prossima lezione) quindi r
X
(0) ≥ 0 qualunque sia R
X
(f).
Esempi di calcolo - con riferimento agli esempi di processi in 33.4 e 34.1
(a.) (W
n
) ∼ GWN(σ
2
).
Il processo (W
n
) `e del secondo ordine e debolmente stazionario, quindi ha senso calcolarne
la densit`a spettrale. Poich´e r
X
(k) = σ
2
δ(k) si trova
R
X
(f) = σ
2
, per ogni f ∈ [0, 1].
Il termine rumore bianco deriva proprio dal fatto che lo spettro di potenza del processo
`e piatto, come lo spettro della luce bianca. Per un’intrpretazione fisica dello spettro di
potenza si rimanda alla prossima lezione.
(b.) Il processo del secondo ordine (X
n
), passeggiata casuale gaussiana, non ammette
densit`a spettrale, infatti non `e debolmente stazionario.
(c.) Il processo del secondo ordine AR(1), descritto all’inizio della lezione, `e stazionario
se si sceglie σ
2
0
=
σ
2
1−a
2
. In questo caso la funzione autocorrelazione `e r
X
(k) =
σ
2
1−a
2
a
k
.
Esercizio. Calcolare la densit`a spettrale di potenza e verificare che `e non- negativa per
ogni f ∈ [0, 1].
225
Lezione 35 (Mercoled`ı, 29 maggio 2013, ore 16:25-18:05)
35.1 Teorema di Wiener-Khinchin (caso discreto)
Il teorema di Wiener Khinchin `e un caposaldo della teoria spettrale dei processi del secondo
ordine debolmente stazionari. Il teorema mostra che la densit`a spettrale di potenza R
X
(f),
pu`o essere definita come limite dello spettro di Fourier delle traiettorie del processo.
Denoteremo con (X
N
n
) la versione troncata del processo (X
n
), definita come
X
N
n
:= X
n
1l
[−N,N]
(n), (1)
dove 1l
[−N,N]
(n) = 1 per n ∈ [−N, N] e zero altrove. Si noti che, per [n[ ≤ N, si ha
X
N
n
= X
n
. La trasformata di Fourier discreta di X
N
n
`e denotata
´
X
N
(f) e vale
´
X
N
(f) :=
N

k=−N
X
N
k
e
−j2πfk
, f ∈ [0, 1] (2)
La trasformata
´
X
N
(f) `e una funzione aleatoria di f, nel senso che, per ogni f fissato,
´
X
N
(f) `e una combinazione lineare delle funzioni di base e
−j2πfk
i cui pesi sono le variabili
aleatorie X
N
n
.
Teorema. Sia (X
n
)
n∈Z
un processo del secondo ordine, debolmente stazionario, allora
lim
N→∞
1
2N+1
E
_ ¸
¸ ´
X
N
(f)
¸
¸
2
_
= R
X
(f), (3)
dove R
X
(f) =


k=−∞
r
X
(k)e
−j2πfk
`e la densit`a spettrale del processo (X
n
).
Dimostrazione. Calcoliamo esplicitamente la quantit`a
E
_ ¸
¸ ´
X
N
(f)
¸
¸
2
_
= E
_
´
X
N
(f)
´
X
N
(f)
_
= E
_
N

k=−N
X
N
k
e
−j2πfk
N

h=−N
X
N
h
e
j2πfh
_
= E
_
N

k=−N
N

h=−N
X
N
k
X
N
h
e
−j2πf(k−h)
_
=
N

k=−N
N

h=−N
E
_
X
N
k
X
N
h
_
e
−j2πf(k−h)
=
N

k=−N
N

h=−N
r
X
(k −h)e
−j2πf(k−h)
(4)
La sommatoria doppia si converte facilmente ad una singola sommatoria osservando che,
per ogni sequenza g(n), vale
N

k=−N
N

h=−N
g(k −h) =
2N

=−2N
_
2N + 1 −[[
_
g(). (5)
L’osservazione attenta e prolungata della figura qui sotto dovrebbe rendere la formula
precedente evidente. Infatti, per sommare i valori g(k − h) su tutti i punti della griglia
quadrata (k, h) ∈ [−N, N] [−N, N], tracciata in figura per N = 3, si pu`o sommare lungo
le diagonali = k − h. La diagonale principale corrisponde a = 0 e contiene 2N + 1
226
termini (7 in figura) uguali a g(0), che danno contributo (2N + 1)g(0) alla sommatoria.
La prima sopra-diagonale `e = 1 che contiene 2N + 1 − termini (6 in figura) uguali a
g(1) che danno contributo (2N + 1 − 1)g(1) alla sommatoria. La prima sottodiagonale
corrisponde a = −1, e contiene 2N +1−1 = 2N +1−[[ termini uguali a g(−1) ecc. ecc.
Si procede cos`ı fino alla sopradiagonale = 2N e alla sottodiagonale = −2N ognuna
delle quali contengono 2N+1−[[ = 1 termine, g(2N) nella sopradiagonale e g(−2N) nella
sottodiagonale. Per concludere si applichi la (5) alla (4), ponendo g(n) = r
X
(n)e
−j2πfn
.
k
h
l=k-h=0
l=k-h=-1
l=k-h=1
N=3
l=k-h=2N
l=k-h=-2N
Si ottiene
N

k=−N
N

h=−N
r
X
(k −h)e
−j2πf(k−h)
=
2N

=−2N
_
2N + 1 −[[
_
r
X
()e
−j2πf
dividendo per 2N + 1 e passando al limite per N → ∞
lim
N→∞
1
2N+1
E
_ ¸
¸ ´
X
N
(f)
¸
¸
2
_
= lim
N→∞
1
2N+1
2N

=−2N
_
2N + 1 −[[
_
r
X
()e
−j2πf
=
2N

=−2N
_
1 −
[[
2N+1
_
r
X
()e
−j2πf
=

=−∞
r
X
()e
−j2πf
= R
X
(f)
Corollario. La densit`a spettrale di potenza `e non negativa
R
X
(f) ≥ 0, per ogni f ∈ [0, 1].
Dimostrazione.
1
2N+1
E
_ ¸
¸ ´
X
N
(f)
¸
¸
2
_
≥ 0 per ogni N, e la disuguaglianza di preserva al
limite per N → ∞.
Il teorema vale anche nel caso di processi a tempo continuo, ma `e necessario precisare in
che senso vanno interpretati gli integrali che definiscono la serie di Fourier. Riportiamo il
risultato senza entrare nei dettagli succitati.
227
Teorema. (Wiener-Khinchin) Sia (X
t
)
t∈R
un processo del secondo ordine, debolmente
stazionario, allora
lim
T→∞
1
2T
E
_ ¸
¸ ´
X
T
(f)
¸
¸
2
_
= R
X
(f), (6)
dove R
X
(f) =
_

−∞
r
X
(τ)e
−j2πτ
dτ `e la densit`a spettrale del processo (X
t
) e
´
X
T
(f) :=
_
T
−T
X
T
t
e
−j2πft
dt, f ∈ R
`e la trasformata di Fourier del processo troncato X
T
t
:= X
t
1l
[−T,T]
(t).
Esempio 1. Si consideri il processo stocastico a tempo continuo e stato continuo
X
t
= Acos 2πf
0
t +Bsin 2πf
0
t, t ∈ R
dove f
0
∈ R
+
`e una costante nota, mentre A e B sono variabili aleatorie di media nulla,
varianza comune σ
2
e scorrelate, ovvero E(A) = E(B) = 0, E(A
2
) = E(B
2
) = σ
2
,
E(AB) = 0. La funzione media del processo `e
m
X
(t) = E(X
t
) = E(Acos 2πf
0
t +Bsin 2πf
0
t) = E(A) cos 2πf
0
t +E(B) sin 2πf
0
t = 0
La funzione di autocorrelazione (e autocovarianza) `e
r
X
(t +τ, t) = E(X
t+τ
X
t
)
= E
_
(Acos 2πf
0
(t +τ) +Bsin 2πf
0
(t +τ))(Acos 2πf
0
t +Bsin 2πf
0
t)
_
= E(A
2
) cos 2πf
0
(t +τ) cos 2πf
0
t +E(B
2
) sin 2πf
0
(t +τ) sin 2πf
0
t +E(AB)(xxx)
= σ
2
_
cos 2πf
0
(t +τ) cos 2πf
0
t + sin 2πf
0
(t +τ) sin 2πf
0
t
_
+ 0
= σ
2
cos 2πfτ
dove abbiamo sfruttato la scorrelazione E(AB) = 0 ed usato la formula di sottrazione
del coseno. Poich´e la media ‘e costante e la funzione di scorrelazione non dipende da
t il processo `e del secondo ordine e debolmente stazionario. Indichiamo con m
X
= 0 la
media e con r
X
(τ) = σ
2
cos(2πf
0
τ) la funzione di covarianza. Ha senso calcolare la densit`a
spettrale di potenza che vale
R
X
(f) = T (r
X
(τ)) =
σ
2
2
_
δ(f −f
0
) +δ(f +f
0
)
¸
, f ∈ R
35.2 Processi stocastici del secondo ordine attraverso sistemi LTI
I risultati di questa sezione sono d’interesse sia per i processi a tempo contiuno che per
quelli discreti. interessano sia per i processi a tempo continuo che per quelli a tempo
discreto. La teoria a tempo continuo richiederebbe qualche precisazione sul senso in cui
vanno intesi gli integrali perch`e un processo stocastico a tempo continuo potrebbe avere
traiettorie che non sono integrabili secondo Riemann. Aggiungeremo queste considerazioni
in una futura appendice alla lezione. In questo paragrafo tutto `e scritto per il caso a tempo
continuo. Microesercizio. Trascivere tutti i risultati per il caso tempo discreto,
Sia h() la risposta impulsiva di un sistema LTI stabile L. Intendiamo studiare l’uscita
del sistema L quando l’ingresso `e un processo stocastico X
t
del secondo ordine. Per quanto
noto dal corso di Segnali e Sistemi
Y
t
=
_

−∞
h
τ
X
t−τ

228
Lemma. Se il processo d’ingresso (X
t
) `e del secondo ordine, allora il processo di uscita
(Y
t
) `e del secondo ordine ed ha funzione media
m
Y
(t) = h(t) ∗ m
X
(t), (7)
e funzione di autocorrelazione
r
Y
(t +τ, τ) = E(Y
t+τ
Y
τ
)
=
_

−∞
_

−∞
h(s)h(σ)r
X
(t +τ −s, t −σ) dsdσ (8)
Dimostrazione. Il calcolo diretto fornisce
m
Y
(t) = E(Y
t
) = E
__

−∞
h
τ
X
t−τ

_
=
_

−∞
h
τ
E(X
t−τ
) dτ =
_

−∞
h
τ
m
X
(t −τ) dτ
= h(t) ∗ m
X
(t).
Per la funzione di autocorrelazione si ha
r
Y
(t +τ, τ) = E(Y
t+τ
Y
τ
)
= E
__

−∞
h(s)X
t+τ−s
ds
_

−∞
h(σ)X
t−σ

_
=
_

−∞
_

−∞
h(s)h(σ)E(X
t+τ−s
X
t−σ
) dsdσ
=
_

−∞
_

−∞
h(s)h(σ)r
X
(t +τ −s, t −σ) dsdσ
Teorema. Se il processo d’ingresso (X
t
) `e del secondo ordine e debolmente stazionario,
allora l’uscita `e del secondo ordine e debolmente stazionaria, la media `e
m
Y
= h(t) ∗ m
X
= H(0) m
X
,
dove H(0) `e il guadagno in continua, cio`e il valore della risposta in frequenza nell’origine.
La funzione di autocorrelazione di (Y
t
) `e
r
Y
(τ) =
_

−∞
_

−∞
h(s)h(σ)r
X
(τ +σ −s) dsdσ (9)
Dimostrazione. Per la media, in conseguenza di (7) si ha
m
Y
(t) = h(t)m
X
=
__
h(τ) dτ
_
m
X
= H(0)m
X
.
Per la stazionariet`a debole resta da verificare l’indipendenza da t della funzione di auto-
correlazione. Usando la (8) si trova
r
Y
(t +τ, τ) =
_

−∞
_

−∞
h(s)h(σ)r
X
(t +τ −s, t −σ) dsdσ
=
_

−∞
_

−∞
h(s)h(σ)r
X
(t +τ −s −(t −σ)) dsdσ
=
_

−∞
_

−∞
h(s)h(σ)r
X
(τ +σ −s) dsdσ = r
Y
(τ)
229
che, non dipendendo da t `e denotata r
Y
(τ).
L’espressione analitica di r
Y
(τ) non `e particolarmente illuminante, ma `e facile deter-
minare la densit`a spettrale R
Y
(f).
Teorema. Sotto le precedenti ipotesi, la densit`a spettrale di (Y
t
) `e
R
Y
(f) = [H(f)[
2
R
X
(f)
Dimostrazione. Riprendendo l’equazione (9), ed esprimendo r
X
(τ) come antitrsformata
di R
X
(f), si trova
r
Y
(τ) =
_

−∞
_

−∞
h(s)h(σ)r
X
(τ +σ −s) dsdσ
=
_

−∞
_

−∞
h(s)h(σ)
__

−∞
R
X
(f)e
j2πf(τ+σ−s)
df
_
dsdσ
=
_

−∞
R
X
(f)e
j2πfτ
_
_

−∞
h(s)e
−j2πfs
ds
_

−∞
h(σ)e
−j2πfσ

_
df
=
_

−∞
R
X
(f)H(f)H(f) e
j2πfτ

L’ispezione dell’ultima espressione rivela che r
Y
(τ) `e stato espresso come antitrasforma-
ta di Fourier della funzione R
X
(f) H(f)H(f) = R
X
(f)[H(f)[
2
. Poich´e r
Y
(τ) `e l’anti-
trasformata della densit`a spettrale di (Y
t
), la conclusione R
Y
(f) = R
X
(f)[H(f)[
2
segue
necessariamente.
35.3 Interpretazione fisica della densit`a spettrale di potenza
Per capire l’origine del nome densit`a spettrale di potenza `e utile considerare la sseguente
interpretazione fisica. Sia X
t
un processo stocastico del secondo ordine, debolmente
stazionario.
`
E sempre possibile interpretare idealmente X
t
come segnale di corrente gener-
ato da una rete elettrica, che va a dissiparsi su una resistenza unitaria R = 1Ω, vedi figura
qui sotto. La potenza istantanea che si dissipa sulla resistenza `e p(t) = v(t)i(t) = Ri
2
(t) =
X
t
R=1Ω
X
2
t
. Interpretando X
t
come segnale di corrente, X
2
t
`e la potenza istantanea dissipata su
una resistenza unitaria. Poich´e X
t
`e una variabile aleatoria, la potenza istantanea X
2
t
`e una variabile aleatoria. Il valore atteso della potenza istantanea `e E(X
2
t
). Poich´e X
t
ammette densit`a spettrale di potenza, per quanto visto in precedenza `e
E(X
2
t
) = r
X
(0) =
_

−∞
R
X
(f) df
230
Quindi l’integrale della densit`a spettrale coincide con la potenza media (attenzione:
gli ingegneri dicono cos`ı per brevit`a, in realt`a intendono dire valore atteso della potenza
istantanea).
Valutiamo adesso il contributo alla potenza media fornito da ogni banda di frequenze.
Si considerino le frequenze f ∈ [f
0
, f
0
+ ∆], dove f
0
e ∆ sono fissati. Sia H(f) un filtro
passa banda ideale la cui risposta in frequenza `e
H(f) := 1l
[f
0
,f
0
+∆]
(f).
Se X
t
`e l’ingresso del sistema LTI H(f), il processo di uscita Y
t
consiste di tutte e sole
le componenti di X
t
contenute nella banda di frequenze [f
0
, f
0
+ ∆]. Applicando l’ultimo
teorema della precedente sezione si trova
R
Y
(f) = [H(f)[
2
R
X
(f) = R
X
(f)1l
[f
0
,f
0
+∆]
(f)
quindi il valore atteso della potenza istantanea Y
2
t
`e
E(Y
2
t
) =
_

−∞
R
Y
(f) df =
_

−∞
R
X
(f)1l
[f
0
,f
0
+∆]
(f) ≈ R
X
(f
0
) ∆
dove l’approssimazione `e tanto migliore quanto pi` u piccola `e l’ampiezza ∆ dell’intervallo
[f
0
, f
0
+ ∆]. Si pu`o rileggere l’ultima equazione come segue
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ∆]
_
≈ R
X
(f
0
) ∆
Per ogni f
0
punto di continuit`a di R
X
(f) vale
R
X
(f
0
) = lim
∆→0
E
_
potenza istantanea delle componenti di X
t
nella banda [f
0
, f
0
+ ∆]
_

.
Tenendo a mente che nell’interpretazione fisica X
2
t
`e misurato in Watt (potenza), l’ulti-
ma formula dimostra che R
X
(f) si misura in Watt/Herz, giustificando il nome densit`a
spettrale di potenza. Per maggior precisione, ma con minore efficacia, si potrebbe chia-
mare densit`a spettrale della potenza istantanea media oppure, con chiarezza cristallina ma
quasi illeggibile, densit`a spettrale del valore atteso della potenza istantanea. La chiarezza
raramente vende bene.
231
Lezione 36 (Luned`ı, 3 giugno 2013, ore 10:30-12:15)
36.1 Esercitazione in aula
232