Prefazione

Questa breve monografia si propone di introdurre in modo piano e sintetico, ma con rigore
logico e grande attenzione ad una definizione precisa delle strutture fondamentali, i primi ele-
menti di Calcolo delle Probabilit` a per il Corso di laurea in Matematica.
Pertanto si procede nella presentazione di concetti, schemi elementari e variabili aleatorie clas-
siche, che formalizzano esperienze comuni e ipotesi ricorrenti nei modelli fisici, alternandoli con
quadri concettuali di ampio orizzonte e con nozioni e risultati avanzati, particolarmente in con-
nessione con gli sviluppi, che si studieranno in corsi successivi, della teoria generale della misura
e dell’integrazione e con il confronto di convergenze differenti in spazi di funzioni misurabili.
Molta parte del testo `e riservata alla descrizione delle variabili aleatorie discrete e di quelle
continue, ma si `e cercato di collocare con chiarezza tutti i risultati specifici nella cornice canon-
ica dello studio di variabili generali definite in arbitrari spazi di probabilit` a, anche per fornire
il linguaggio adeguato ad eventuali studi successivi, ad esempio sui processi stocastici e sulle
equazioni differenziali stocastiche. Sono quindi presenti vari approfondimenti e complementi pi` u
avanzati che difficilmente possono essere proposti nelle lezioni previste e che non costituiscono
parte del programma d’esame.
Nel quarto capitolo si introduce un breve collegamento con i primi temi della statistica elementare
attraverso esempi di stime intervallari di medie e varianze con prescritto livello di confidenza.
Negli ultimi due capitoli sono presentati e parzialmente dimostrati i teoremi fondamentali del
limite centrale e sulle leggi deboli e forti dei grandi numeri.
Questo testo nasce da una riflessione sui principi fondamentali del Calcolo delle Probabilit` a e
da una selezione di temi essenziali da parte di un docente di Analisi matematica, che per vari an-
ni si `e trovato a svolgere, non come specialista, attivit` a didattica in un settore disciplinare affine
e affascinante. Il testo `e una rielaborazione, completamento ed estensione di appunti preparati
prima per un corso di Calcolo della Probabilit` a (I modulo) del vecchio ordinamento e poi per
un corso di Calcolo delle Probabilit` a I della nuova laurea triennale, entrambi tenuti per alcuni
anni presso il Corso di laurea in Matematica della Facolt` a di Scienze M.F.N. dell’Universit` a di
Torino.
Ringrazio vivamente tutti i Colleghi, docenti, ricercatori e dottorandi, del settore disciplinare di
Calcolo delle Probabilit` a, che, con grande pazienza e disponibilit` a, mi hanno fornito indicazioni
essenziali, assistenza continua, utili chiarimenti e cordiale incoraggiamento.
Torino, dicembre 2004
ANGELO NEGRO
1
Universit`a degli studi di Torino
2
Indice
1 Eventi e probabilit`a 5
1.1 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 σ-algebre di insiemi e spazi misurabili . . . . . . . . . . . . . . . . . . . . . 6
1.3 Esempi elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Probabilit`a (misura di probabilit` a) . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Esempi di spazi di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Probabilit`a e frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Alcune regole di calcolo delle probabilit`a . . . . . . . . . . . . . . . . . . . 13
1.8 Probabilit`a condizionale e indipendenza . . . . . . . . . . . . . . . . . . . 14
1.9 Esempi di applicazione delle regole elementari di calcolo . . . . . . . . . 18
2 Variabili aleatorie reali discrete 25
2.1 Variabili aleatorie reali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Variabili aleatorie reali discrete . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Distribuzione binomiale (Schema di Bernouilli) . . . . . . . . . . . . . . . 27
2.4 I teoremi di DeMoivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Distribuzione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7 Distribuzione binomiale negativa (di parametri p ed r) . . . . . . . . . . 33
2.8 Valor medio (variabili discrete) . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.9 Varianza e deviazione standard (variabili discrete) . . . . . . . . . . . . 36
2.10 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 38
2.11 Esempi di calcolo di medie, varianze e funzioni generatrici . . . . . . . 38
2.12 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.13 Limite della distribuzione ipergeometrica per N →+∞ . . . . . . . . . 46
2.14 Distribuzione di Poisson qual limite della distribuzione binomiale . . . 46
3 Variabili aleatorie reali di tipo generale e variabili continue 47
3.1 Distribuzione, indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Valor medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4 Funzioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
3.7 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 60
3.8 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.9 Distribuzione di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.10 Distribuzione normale o di Gauss . . . . . . . . . . . . . . . . . . . . . . . . 64
3.11 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.12 Distribuzione esponenziale e processi di Poisson . . . . . . . . . . . . . . 67
4 Densit`a congiunta e funzioni di pi` u variabili aleatorie reali 72
4.1 Densit`a congiunta (caso discreto) . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2 Densit`a congiunta (caso continuo) . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 La distribuzione Gaussiana bivariata . . . . . . . . . . . . . . . . . . . . . 79
4.5 Variabili normali indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 Distribuzioni gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.7 Distribuzioni χ
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.8 Stima simultanea di media e varianza di una variabile normale . . . . 86
4.9 Distribuzioni t di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.10 Le variabili F e z di Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5 Funzioni caratteristiche e teorema del limite centrale 95
5.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2 Il teorema di L´evy-Cram´er . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3 Comportamento asintotico della distribuzione binomiale . . . . . . . . . 98
5.4 Il teorema del limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6 La legge dei grandi numeri 103
6.1 La legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 103
6.2 Convergenza quasi certa, convergenza debole e convergenza in legge . 103
6.3 Il teorema di Markov, i suoi corollari e il teorema di Khinchin . . . . . 105
6.4 La legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 109
Bibliografia 120
4
Capitolo 1
Eventi e probabilit`a
1.1 Eventi
Nel Calcolo delle probabilit` a si opera su valutazioni numeriche normalizzate (probabilit` a) di
eventi. Una famiglia di eventi E = {E
α
, E
β
, E
γ
, ...} , ai quali verr`a assegnata una probabilit` a,
si pu` o pensare come un modello astratto di una famiglia di risultati possibili di un esperimento
S, essendo la realizzazione effettiva di ciascun risultato soggetta a una misura di incertezza, e
quindi “dipendente dal caso.
Ad una famiglia di eventi si pu` o far corrispondere una famiglia F = {f
α
, f
β
, f
γ
, ...} di
proposizioni che li descrivono e che possono risultare vere o false al termine dell’esperimento S,
“secondo il caso.
`
E opportuno studiare famiglie sufficientemente ampie, precisamente, considerando propo-
sizioni che descrivono eventi, tali che valga almeno l’implicazione
f, g ǫ F ⇒¬f, f ∨ g (e quindif ∧ g...) ǫ F.
I connettivi proposizionali ¬ , ∧, ∨ indicano come al solito la negazione, la congiunzione, la
disgiunzione (non esclusiva). Pi` u interessante `e il caso in cui connettendo un’infinit` a numerabile
di proposizioni si ottengano ancora proposizioni della famiglia, ad esempio:
f
1
, f
2
, f
3
, ... ǫ F ⇒ f
1
∨ f
2
∨ f
3
∨ ... ǫ F.
Le operazioni f AND g e f XOR g determinano in F una struttura di algebra di Boole (σ-
algebra, nel caso di ammissibilit`a di un’infinit` a numerabile di operazioni). XOR funge da somma
e AND da prodotto, e f AND f = f.
(f AND g `e vera se e solo se f e g sono entrambe vere, mentre f XOR g `e vera se e solo se
una sola delle due proposizioni f e g `e vera. f AND g ha lo stesso significato di f ∧ g).
Ricordiamo che A `e un’algebra di Boole se e solo se `e un’algebra e ogni elemento `e idem-
potente : a ∈ A implica a
2
= a. Ne segue che ogni elemento coincide con il proprio opposto
5
6 Capitolo 1. Eventi e probabilit` a
(a = −a) e che A risulta necessariamente commutativa (ab = ba per ogni coppia a, b).
Spesso le proposizioni che si considerano, o i risultati dell’ esperimento che esse esprimono,
sono formulate in termini di appartenenza di un elemento ω, che codifica gli esiti “elementari
dell’esperimento S, ad un insieme A, sottoinsieme di un insieme di riferimento o “sample space
Ω:
f = “ ω ǫ A
′′
.
Gli eventi sono allora rappresentati da una famiglia A = {A
α
, A
β
, A
γ
, ...} di sottoinsiemi di Ω.
`
E sempre possibile rappresentare fedelmente una σ-algebra di Boole con una σ-algebra di sot-
toinsiemi di un opportuno insieme Ω (M.H. Stone, 1936).
La moderna teoria del Calcolo delle probabilit` a, che si pu` o assumere fondata con la memoria di
A.Kolmogorov del 1933, ricorre sistematicamente a tale rappresentazione.
Qualche esempio di di corrispondenza, indicata con “→, tra proposizioni composte mediante con-
nettivi proposizionali e relativi insiemi costruiti mediante corrispondenti operazioni insiemistiche
`e fornita dalle formule seguenti. Se
f −→ A, g −→ B, f
k
−→ A
k
,
allora:
¬ f −→ A
c
(oppure −A, oppureA)
f ∧ g −→ A ∩ B
f XOR g −→ A △ B = (A −B) ∪ (B −A)
f ∨ g −→ A ∪ B, f
1
∨ f
2
∨ f
3
∨ ... −→ A
1
∪ A
2
∪ A
3
∪ .... = ∪
+∞
n=1
A
n
1.2 σ-algebre di insiemi e spazi misurabili
Sia Ω un insieme non vuoto ed A una famiglia non vuota di sottoinsiemi di Ω (A ⊆ P(Ω)).
Si dice che A `e una σ-algebra (di sottoinsiemi di Ω) e (Ω, A) `e uno spazio misurabile se valgono
le propriet` a seguenti:
1) A ǫ A ⇒A
c
ǫ A
2) A
n
ǫ A per n = 1, 2, 3, ... ⇒ ∪
+∞
n=1
A
n
ǫ A .
Ne segue che se A, B, A
n
sono elementi di A, anche
Ω = A∪ A
c
, A ∩ B = (A
c
∪ B
c
)
c
, ∅ = Ω
c
,
A−B, A△B, ∩
+∞
n=1
A
n
sono elementi di A.
In generale, un’infinit` a numerabile di operazioni insiemistiche su elementi della σ-algebra pro-
duce un insieme ancora appartenente alla σ-algebra.
Se in 2) ci si limita ad unioni finite, e quindi si pretende soltanto che A sia stabile quando si
esegue un numero finito di operazioni insiemistiche, si dice che A `e un’algebra.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 7
1.3 Esempi elementari
Si osservi che se Ω `e finito ogni algebra `e una σ-algebra.
1) Esperimento S : due tentativi, per ciascuno di essi due possibilit` a s, f (successo, falli-
mento).
Ω = {ss, sf, fs, ff}
A
0
= {∅, Ω} algebra banale;
A
1
= {∅, {ss, sf}, {fs, ff}, Ω} :
se AǫA
1
ed ωǫΩ, l’affermazione ωǫA non fornisce informazioni sul risultato del secondo tentativo;
A
2
= {∅, {ss, fs}, {sf, ff}, Ω} :
se AǫS ed ωǫΩ, l’affermazione ωǫA non fornisce informazioni sul risultato del primo tentativo;
A
3
= {∅, {ss}, {sf, fs}, {ff}, {ss, ff}, {ss, sf, fs}, {sf, fs, ff}, Ω} :
se AǫA
3
ed ωǫΩ, l’affermazione ωǫA fornisce informazioni sul numero di risultati, non sul fatto
che essi siano stati ottenuti nel primo o nel secondo tentativo;
2) Esperimento S : sucessione infinita di tentativi ripetuti
ω : N
+
−→ {s, f}
[ esempio ω = (s, f, f, s, s, s, f, ...), ω
n
vale s oppure f].
Si pu` o prendere provvisoriamente A = P(Ω) . Purtroppo, nella maggior parte dei casi impor-
tanti, non sar`a possibile assegnare in modo coerente una probabilit` a ad ogni sottoinsieme di Ω.
Converr`a allora limitarsi a σ-algebre pi` u piccole, ma tuttavia sufficientemente ampie perch`e in
esse siano presenti tutti i sottoinsiemi C (detti cilindrici) della forma
C = { ω ∈ Ω | ω
k1
= x
1
, ω
k2
= x
2
, ...ω
kn
= x
n
} ,
dove n `e un intero (finito) arbitrario e arbitrari sono sia gli indici k
1
< k
2
... < k
n
che i valori
x
1
, x
2
, ...x
n
∈ {s, f}.
L’insieme C `e quindi formato da tutte le successioni nelle quali `e prescritto il risultato (successo
o fallimento) in un numero finito di prove (tentativi) esattamente individuate, mentre il risultato
nelle altre prove della successione pu` o essere qualunque.
3) Esperimento S : selezionare (colpire con un proiettile puntuale) un punto di un disco D
(bersaglio) di centro O e raggio R. Si pu` o prendere
Ω = D ed A = L(Ω),
insieme di tutti i sottoinsiemi A di D dotati di area (nel senso di Lebesgue). Se x `e il punto
colpito, interessano le proposizioni del tipo x ∈ A.
(Anche in questo caso si vorrebbe A = P(Ω), ma allora non sarebbe possibile assegnare in modo
utile e coerente una probabilit` a ad ogni evento).
Universit`a di Torino, a.a. 2003-2004
8 Capitolo 1. Eventi e probabilit` a
1.4 Probabilit`a (misura di probabilit` a)
Una misura di probabilit`a P `e una valutazione degli eventi con un indice numerico,
convenzionalmente compreso tra 0 e 1, dunque un’applicazione
P : A −→ [0, 1] ,
normalizzata e numerabilmente additiva, cio`e tale che
P(Ω) = 1
e per ogni successione A
k
di eventi disgiunti (A
i
∩ A
j
= ∅)
P(
_

k=1
A
k
) =


k=1
P(A
k
) .
[Conviene richiedere l’additivit` a numerabile, invece dell’additivit` a semplice (cio`e concernente
soltanto unioni finite).]
La probabilit` a di un evento A, P(A), `e un indice quantitativo del “grado di certezza dell’evento
(casuale).
Una stessa σ-algebra pu` o essere utilizzata per descrivere esperimenti S differenti ed in essa si
possono introdurre diverse misure di probabilit` a.
Un esperimento S, con risultati “dipendenti dal caso, `e descritto da uno spazio di proba-
bilit`a o spazio di misura con misura normalizzata ad 1, (Ω, A, P), dove A `e una σ-algebra in Ω
e P una misura di probabilit` a definita su A.
L’esperimento ideale S `e un modello (probabilistico) di un esperimento reale (o di pi` u esperi-
menti reali).
Nella scelta del modello astratto, ed in particolare nella scelta della misura di probabilit` a, si
pongono i seguenti problemi:
a) come assegnare le probabilit` a, ovvero costruire la misura P, sulla base di (poche) ipotesi
elementari, in modo razionale (coerente) ?
b) quale utilit` a, efficacia, nell’analizzare l’esperimento e stimarne i risultati, ha il modello prob-
abilistico?
Tali problemi sono strettamente connessi con
c) l’interpretazione pratica del concetto di probabilit` a,
che a sua volta pu` o suggerire
d) metodi di stime delle probabilit` a ideali.
1.5 Esempi di spazi di probabilit`a
Negli esempi che seguono, tranne l’esempio 3), lo spazio di probabilit` a Ω `e finito e a tutti
gli eventi elementari {ω}, costituiti da un singolo elemento, si assegna la stessa probabilit` a. Ne
segue che la probabilit` a di un evento A `e uguale al rapporto tra il numero di elementi di A (casi
favorevoli ) e il numero complessivo di elementi di Ω (casi possibili ). Si parla allora di prob-
abilit` a classica e valutazione delle probabilit` a si riduce a questioni di cardinalit` a, che talvolta
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 9
non sono semplici e richiedono risultati di calcolo combinatorio.
1) Roulette (onesta): lo 0 `e verde, degli altri numeri 18 sono neri e 18 rossi; assumiamo che
la pallina possa fermarsi con la stessa probabilit` a su ogni numero.
Ω = {0, 1, 2, 3, ..., 36}, A = P(Ω), P({n}) = p
n
= p,
dunque per l’additivit` a:
P(Ω) =

36
n=0
p
n
= 37p = 1 , p =
1
37
,
P(A) =

nǫA
p
n
= p card(A)
Cos`ı l’evento R = {nǫΩ/ n ` e “rosso
′′
} ha probabilit` a 18/37.
2) Due dadi (non truccati):
Ω = {(1, 1), (1, 2), ..., (2, 1), (2, 2), ..., (6, 5), (6, 6)} , A = P(Ω),
P({(m, n)}) = p
m,n
= p =
1
36
.
Cos`ı l’evento A = {(m, n)ǫΩ/ m + n = 4} = {(1, 3), (2, 2), (3, 1)} ha probabilit` a p card(A) =
3/36 = 1/12.
3) Bersaglio circolare:
Ω = {X = (x, y)ǫR
2
/ x
2
+y
2
≤ R
2
}, A = L(Ω),
dunque, supponendo tutti i punti del disco equivalenti ed essendoci in Ω infiniti punti:
P({X}) = 0 e P(A) = Cost area(A), P(Ω) = Cost π R
2
,
dunque Cost = 1/(πR
2
) e per
A = {X = (x, y)ǫR
2
/ x
2
+y
2
≤ r
2
} : P(A) =
π r
2
π R
2
= (
r
R
)
2
.
4) Frequenza di caratteri in una popolazione:
Ω (popolazione) `e costituito da un insieme finito di individui; C
1
, C
2
, ..., C
l
sono strati della
popolazione (sottoinsiemi disgiunti, la cui unione `e Ω, degli individui che possiedono i caratteri
1, 2, ..., l ).
Supponendo di estrarre “a caso un individuo ω della popolazione (tutti gli individui hanno la
stessa probabilit` a di essere estratti), la probabilit` a che si presenti il carattere k `e:
P(C
k
) =
card(C
k
)
card(Ω)
.
Universit`a di Torino, a.a. 2003-2004
10 Capitolo 1. Eventi e probabilit` a
5) Configurazioni in meccanica statistica:
A) Statistica di Maxwell-Bolzmann: n sistemi “distinguibili, ciascuno dei quali pu` o trovarsi in
uno qualunque di l stati, indipendentemente dallo stato degli altri sistemi (oppure: n particelle
distinguibili che possono assumere l livelli di energia “senza esclusione). Le configurazioni sono
applicazioni ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo
stato numero s
j
) corrispondente:
ω = (s
1
, s
2
, ..., s
n
), dove 1 ≤ s
j
≤ l ,
dunque
card(Ω) = l
n
.
Siano K
1
(ω), K
2
(ω), ..., K
l
(ω) i numeri di occupazione dei vari stati: K
1
(ω) + K
2
(ω) + ... +
K
l
(ω) = n. Consideriamo, selezionando “a caso una configurazione qualunque, l’evento
A = {ωǫΩ|K
1
(ω) = k
1
, K
2
(ω) = k
2
, ..., K
l
(ω) = k
l
},
dove k
1
+k
2
+... +k
l
= n. Allora
P(A) =
n!
k
1
!k
2
!...k
l
!
/l
n
,
infatti si pensi a n posti (l’ordine con il quale li esaminiamo `e indifferente), k
1
dei quali devono
essere etichettati con il carattere l
1
(primo stato o livello), k
2
dei quali con l
2
... k
l
con l
l
. Dob-
biamo selezionare k
1
posti tra gli n disponibili, quindi k
2
posti tra gli n −k
1
rimasti disponibili
..., e dunque abbiamo
(
n
k
1
) (
n −k
1
k
2
)...(
n −k
1
−... −k
l−2
k
l−1
) =
n!
k
1
!k
2
!...k
l
!
.
Si osservi che

|k|=n
n!
k
1
!k
2
!...k
l
!
1
k1
1
k2
...1
k
l
= (1 + 1 +... + 1)
n
= l
n
.
B) Statistica classica con esclusione: n sistemi “distinguibilied l stati, con l ≥ n, in ciascuno dei
quali pu` o trovarsi al pi` u un sistema (oppure: n particelle distinguibili che possono assumere l liv-
elli di energia “con esclusione). Le configurazioni sono applicazioni iniettive ω che ad ogni sistema
(diciamo il sistema numero j) associano lo stato (diciamo lo stato numero s
j
) corrispondente:
ω = (s
1
, s
2
, ..., s
n
), dove 1 ≤ s
j
≤ l , s
i
= s
j
se i = j .
dunque
card(Ω) = l(l −1)(l −2)...(l −n + 1) =
l!
(l −n)!
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 11
Siano K
1
(ω), K
2
(ω), ..., K
l
(ω) i numeri di occupazione dei vari stati: K
1
(ω) + K
2
(ω) + ... +
K
l
(ω) = n e ogni K(ω) = 0 oppure 1. Consideriamo, selezionando “a caso una configurazione
qualunque, l’evento
A = {ωǫΩ|K
1
(ω) = k
1
, K
2
(ω) = k
2
, ..., K
l
(ω) = k
l
},
dove le k
j
sono assegnate e tali che: k
1
+k
2
+... +k
l
= n e k
j
= 0 oppure 1. Dunque le k
j
= 1
sono esattamente n e individuano una selezione di n stati tra gli l possibili, allora le ω ∈ A
descrivono la disposizione degli n sistemi negli n stati selezionati. Pertanto
card(A) = n! e quindi P(A) =
n!(l −n)!
l!
,
ovvero
P(A) =
1
(
l
n
)
.
C) Statistica di Fermi-Dirac: n sistemi “indistinguibili ed l stati, con l ≥ n, in ciascuno dei
quali pu` o trovarsi al pi` u un sistema (oppure: n particelle indistinguibili che possono assumere
l livelli di energia “con esclusione). Le configurazioni sono classi di equivalenza di applicazioni
iniettive ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo
stato numero s
j
) corrispondente. Sono equivalenti applicazioni con la stessa immagine (i sistemi
sono indistinguibili) e sono quindi univocamente descritti dall’elenco degli stati occupati, che
pu` o essere fatto assegnando un codice k
j
, 1 oppure 0 rispettivamente se lostato j `e occupato o
non occupato:
ω = [(s
1
, s
2
, ..., s
n
), dove 1 ≤ s
j
≤ l , s
i
= s
j
se i = j] =
= (k
1
, k
2
, ..., k
l
) dove k
j
= 0 oppure 1 , k
1
+k
2
+... +k
l
= n .
dunque
card(Ω) =
l!
n!(l −n)!
,
numero di sottoinsiemi di n elementi scelti tra l possibili, ovvero (
l
n
).
Se l’evento A `e definito come nel caso precedente, risulta card(A) = 1 e quindi
P(A) =
1
(
l
n
)
.
D) Statistica di Bose-Eistein: n sistemi “indistinguibili, ciascuno dei quali pu` o trovarsi in uno
qualunque di l stati (oppure: n particelle indistinguibili che possono assumere l livelli di energia
“senza esclusione). Le configurazioni sono classi di equivalenza di applicazioni, non necessaria-
mente iniettive, ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo
Universit`a di Torino, a.a. 2003-2004
12 Capitolo 1. Eventi e probabilit` a
lo stato numero s
j
) corrispondente. Sono equivalenti applicazioni con lo stesso numero k
i
di
sistemi nel medesimo stato i (i sistemi sono indistinguibili):
ω = [(s
1
, s
2
, ..., s
n
), dove 1 ≤ s
j
≤ l] =
= (k
1
, k
2
, ..., k
l
) dove k
i
≥ 0, k
1
+k
2
+... + k
l
= n .
Le ω si possono mettere in corrispondenza biunivoca con le scritture del tipo
pptptpppttptp ,
che in qusto caso (n = 8 e l = 6) indica 2 particelle nel primo livello, 1 nel secondo, 3 nel terzo,
0 nel quarto, 1 nel quinto e 1 nel sesto. Sono scritture che debbono essere formate da l +n −1
lettere, delle quali l −1 sono la lettera t (tagli tra livelli) e n sono la lettera p. Queste scritture
sono tante quanti i sottoinsiemi di l + n − 1 elementi (posti) formati da n elementi (lettere p).
Dunque
card(Ω) =
(l +n −1)!
n!(l −1)!
,
ovvero (
l +n −1
n
).
Se l’evento A `e definito come ne caso precedente, risulta card(A) = 1 e quindi
P(A) =
1
(
l +n −1
n
)
.
1.6 Probabilit`a e frequenza
Supponiamo di ripetere un esperimento S n volte: S
1
, S
2
, S
3
, ... , evitando che risultati
precedenti influenzino esperimenti successivi. Si consideri un evento A di probabilit` a P(A) = p;
sia F
n
(frequenza) il numero di volte che A si verifica nel corso delle n prove indipendenti ed
f
n
= F
n
/n la frequenza relativa .
Possiamo definire un esperimento unico Σ
(n)
= S
1
× S
2
× ... × S
n
, che consiste nel ripetere
indipendentemente n volte S, e possiamo coerentemente costruire una misura di probabilit` a
P
(n)
associata a tale esperimento., come si comprender`a meglio in seguito, dopo aver precisato
il concetto di indipendenza.
Si pu` o dimostrare che per ogni δ > o
P
(n)
(|f
n
−p| ≥ δ) ≤
p(1 − p)

2
,
che risulta minore di qualunque ε > 0 assegnato, purch`e n sia sufficientemente grande, cio`e
maggiore di un opportuno N dipendente da ε.
Dunque la frequenza relativa “converge in probabilit` a alla probabilit` a ideale p (caso particolare
della legge debole dei grandi numeri ).
In un certo senso un grado di fiducia p per un evento A implica al crescere di n un “sempre
maggior grado di fiducia che lo scarto tra la frequenza relativa e la probabilit` a ideale non superi
un livello prefissato δ (comunque piccolo).
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 13
1.7 Alcune regole di calcolo delle probabilit`a
1) P(∅) = 0 ,
infatti P(A) = P(A ∪ ∅) = P(A) +P(∅).
2) P(A
c
) = 1 −P(A) ,
perch`e A∪ A
c
= Ω, A ∩ A
c
= ∅ e P(Ω) = 1.
3) Se B ⊆ A , B, AǫA , allora P(B) ≤ P(A) (monotonia ).
infatti A = B ∪ (A − B) e dunque, essendo B e A − B disgiunti, risulta P(A) = P(B) +
P(A −B) ≥ P(B). Si ha inoltre P(B − A) = P(B) −P(A).
4) P(A ∪ B) = P(A) +P(B) −P(A ∩ B),
infatti A∪ B = A∪ (B −A), B = (B −A) ∪ (A∩ B), essendo le unioni disgiunte, e dunque
P(A ∪ B) = P(A) +P(B −A), mentre P(B −A) +P(A ∩ B) = P(B).
Si osservi che P(B) = P(B ∩ A) + P(B ∩ A
c
) e quindi per esempio P(B ∩ A
c
) = P(B) −
P(B ∩ A).
5) Se per n = 1, 2, ... A
n
⊆ A
n+1
, allora (continuit` a )
P(
_
n
A
n
) = lim
n→+∞
P(A
n
) ,
infatti, posto A
0
= ∅ , A = ∪
n
A
n
= ∪
n
(A
n
− A
n−1
), e poich`e l’ultima unione `e disgiunta, in
virt` u delle σ-additivit` a:
P(A) =

+∞
k=1
P(A
k
−A
k−1
) = lim
n→+∞

n
k=1
P(A
k
−A
k−1
) = lim
n→+∞
P(A
n
).
6) Similmente se per n = 1, 2, ... A
n
⊇ A
n+1
, allora
P(

n
A
n
) = lim
n→+∞
P(A
n
) ,
infatti A
c
n
⊆ A
c
n+1
, ∪
n
A
c
n
= (∩
n
A
n
)
c
, dunque
P(

n
A
n
) = 1 −P(
_
n
A
c
n
) = 1 −lim
n
P(A
c
n
) = lim
n
(1 −P(A
c
n
)) = lim
n
P(A
n
).
Universit`a di Torino, a.a. 2003-2004
14 Capitolo 1. Eventi e probabilit` a
1.8 Probabilit`a condizionale e indipendenza
Introduciamo due concetti che avranno un ruolo essenziale negli sviluppi successivi.
Definizione. Siano A, BǫA e P(B) = 0: si dice probabilit` a condizionale di A dato B il
rapporto
P(A|B) =
P(A ∩ B)
P(B)
.
Ne segue che P(A ∩ B) = P(A|B)P(B) .
L’uguaglianza precedente sarebbe ancora vera con P(B) = 0, se fosse definito (comunque)
P(A|B).
`
E facile dimostrare il seguente
Teorema. (Ω, A, P(·|B)) `e uno spazio di probabilit` a. Inoltre, posto A
B
= {A ∩ B | AǫA}
e P
B
(E) = P(E|B) per E ∈ A
B
, (B, A
B
, P
B
) `e uno spazio di probabilit` a .
Infatti A
B
`e una σ-algebra e, se A = A
1
∪ A
2
∪ ... con A
1
, A
2
, ... disgiunti, si avr` a A ∩ B =
(A
1
∩ B) ∪ (A
2
∩ B) ∪ ... con (A
1
∩ B), (A
2
∩ B), ... disgiunti, e quindi
P(A ∩ B)
P(B)
=

k
P(A
k
∩ B)
P(B)
,
vale a dire
P(A|B) =

k
P(A
k
|B).
Ovviamente P(Ω|B) = P(B|B) = 1.
Osservazione. Nel teorema precedente B `e fisso. Se al contrario si facesse variare B , tenedo
fisso A, non si avrebbe una misura. Infatti l’applicazione B →P(A|B) in generale non `e additiva.
Sia ad esempio
B = B
1
∪ B
2
, B
1
∩ B
2
= ∅ , P(B
1
) > 0 , P(B
2
) > 0 .
Allora
P(A|B) =
P(A ∩ B)
P(B)
=
P(A ∩ B
1
) +P(A ∩ B
2
)
P(B)
=
P(A|B
1
)
P(B
1
)
P(B)
+P(A|B
2
)
P(B
2
)
P(B)
< P(A|B
1
) +P(A|B
2
) .
Regola dela probabilit`a totale.Sia B
1
, B
2
, ..., B
n
una partizione di Ω , allora
P(A) =

n
k=1
P(A|B
k
)P(B
k
).
Infatti A = (A ∩ B
1
) ∪ (A ∩ B
2
) ∪ ...(A ∩ B
n
) `e una unione disgiunta e quindi
P(A) =

k
P(A ∩ B
k
).
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 15
La regola vale anche per partizioni B
k
numerabili.
Proposizione.
P(A
1
∩ A
2
∩ A
3
) = P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
∩ A
2
) .
Infatti
P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
∩ A
2
) = P(A
1
)
P(A
1
∩ A
2
)
P(A
1
)
P(A
1
∩ A
2
∩ A
3
)
P(A
1
∩ A
2
)
.
La proposizione si generalizza facilmente al caso di n eventi A
1
, ...A
n
.
Teorema di Bayes. Sia C
1
, C
2
, ..., C
n
una partizione di Ω e P(D) = 0, allora
P(C
k
|D) =
P(D|C
k
)P(C
k
)
P(D)
=
P(D|C
k
)P(C
k
)

j
P(D|C
j
)P(C
j
)
, k = 1, 2, ..., n .
Infatti il secondo denominatore `e P(D) = 0, per la regola delle probabilit` a totali, e
P(C
k
|D)P(D) = P(C
k
∩ D) = P(D|C
k
)P(C
k
) .
Lo stesso risultato vale per partizioni numerabili.
Indipendenza di due eventi. Due eventi A e B si dicono indipendenti se
P(A∩ B) = P(A)P(B) .
Dunque se ad esempio P(B) = 0 risulta
P(A|B) = P(A) .
(L’informazione che l’evento B si `e verificato non cambia la probabilit` a che si verifichi l’evento
A.)
Osservazione 1. Se A e B sono indipendenti, anche A
c
e B , oppure A e B
c
, sono indipendenti.
Pertanto A
c
e B
c
sono indipendenti.
Infatti
P(A
c
∩ B) = P(B) −P(A ∩ B) = P(B) −P(B)P(A) = (1 −P(A))P(B) = P(A
c
)P(B) .
Osservazione 2. Se A `e indipendente sia da B che da C, allora
i) se B ⊇ C A `e indipendente da B −C;
ii) se B e C sono disgiunti (B ∩ C = ∅) allora A `e indipendente da B ∪ C. Infatti
P(A ∩ (B −C)) = P(A ∩ B) −P(A∩ C) = P(A)P(B) −P(A)P(C) = P(A)(P(B) −P(C)) ;
P(A ∩ (B ∪ C)) = P(A ∩ B) +P(A ∩ C) = P(A)P(B) +P(A)P(C) = P(A)(P(B ∪ C)) .
Universit`a di Torino, a.a. 2003-2004
16 Capitolo 1. Eventi e probabilit` a
Eventi mutuamente indipendenti. Gli eventi A
1
, A
2
, ..., A
n
si dicono mutuamente
(congiuntamente) indipendenti (o semplicemente indipendenti, se il contesto non lascia
dubbi) se e solo se per ogni 1 ≤ k ≤ n e per ogni scelta di indici 1 ≤ j
1
< j
2
... < j
k
≤ n
si ha
P(A
j1
∩ A
j2
∩ ... ∩ A
j
k
) = P(A
j1
)P(A
j2
)...P(A
j
k
) .
Ovviamente eventi indipendenti sono a due a due indipendenti. In generale non vale l’im-
plicazione inversa. Per rendersene conto si consideri il seguente semplice esempio:
Un’urna contiene quattro biglietti, sui quali compaiono rispettivamente i codici 1,2,3 e 123.
Si estrae a caso un biglietto (tutti i biglietti hanno la stessa probabilit` a di essere estratti). Sia
A
j
l’evento “`e comparsa la cifra j. Allora P(A
j
) = 1/2 , P(A
j
∩A
k
) = 1/4 per j = k e gli eventi
A
1
, A
2
, A
3
sono dunque a due a due indipendenti. Ma essi non sono mutuamente indipendenti
perch`e P(A
1
∩ A
2
∩ A
3
) = 1/4 e non 1/8 .
Pi` u in generale gli eventi di un insieme infinito I si dicono mutuamente indipendenti se e
solo se ogni sottoinsieme finito di I `e costituito da eventi mutuamente indipendenti.
Osservazione 1. Se A
1
, A
2
, ...A
n
sono mutuamente indipendenti, anche A
c
1
, A
2
, ...A
n
sono
mutuamente indipendenti.
Infatti
P(A
j1
∩ A
j2
∩ ... ∩ A
j
k
) = P(A
j1
)P(A
j2
)...P(A
j
k
)
se nessuna delle j
s
= 1. Altrimenti sia ad esempio j
1
= 1 e poniamo B = A
j2
∩... ∩A
j
k
. Essendo
A
1
e B indipendenti, tali sono anche A
c
1
e B , dunque
P(A
c
1
∩ A
j2
∩ ... ∩ A
j
k
) = P(A
c
1
∩ B) = P(A
c
1
)P(B) = P(A
c
1
)P(A
j2
)...P(A
j
k
) .
Pi` u in generale se nella sequenza A
1
, A
2
, ...A
n
si sostituisce un numero arbitrario di eventi con
i loro complementari si ottiene ancora una sequenza di eventi mutuamente indipendenti.
Osservazione 2. Se A
1
, A
2
, ...A
n
sono mutuamente indipendenti, uno qualunque di essi `e
indipendente da ogni evento che si pu` o ottenere mediante usuali operazioni insiemistiche sugli
altri.
Limitiamoci ad un esempio: siano A, B, C, mutuamente indipendenti, allora A `e indipendente
da B ∩ C e da B ∪ C. Infatti, esplicitando in questo caso particolare il calcolo sottointeso
nell’osservazione precedente, quando si affermava che A
1
e B erano indipendenti,
P(A ∩ (B ∩ C)) = P(A∩ B ∩ C) = P(A)P(B)P(C) = P(A)P(B ∩ C)
e, essendo A, B
c
, C
c
indipendenti, A `e indipendente da B
c
∩C
c
. Ma allora A `e indipendente da
(B
c
∩ C
c
)
c
, cio`e da B ∪ C.
Se le A
j
sono a due a due indipendenti, ma non mutuamente indipendenti, il risultato ingenerale
non vale: nell’esempio sopra riportato dell’urna con quattro biglietti (1, 2, 3 , 123) si ha
P(A
1
∩ (A
2
∪ A
3
)) =
1
4
= P(A
1
)P(A
2
∪ A
3
)) =
1
2
·
3
4
.
Dunque la famiglia I degli eventi indipendenti da A non `e in generale una σ-algebra, mentre si
vede che, se A, B
1
, B
2
, ... sono mutuamente indipendenti, allora tutti gli eventi della pi` u piccola
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 17
σ-algebra alla quale appartengono B
1
, B
2
, ... (o come si dice la σ-algebra generata da B
1
, B
2
, ...)
sono indipendenti da A.
Indipendenza condizionata. A e B si dicono indipendenti dato C, o condizionatamente
indipendenti (con C evento condizionante), se e solo se
P(A ∩ B | C) = P(A | C)P(B | C) .
Pi` u in generale, gli eventi A
1
, A
2
, ..., A
n
sono condizionatamente indipendenti dato C se e solo
se la probabilit` a condizionata dell’intersezione di un numero arbitrario di essi `e il prodotto delle
probabilit` a condizionate degli eventi dei quali si fa l’intersezione.
Essendo P e P
C
, P
C
(A∩C) = P(A| C), misure di probabilit` a su Ω e su C, per l’indipendenza
condizionata valgono le stesse osservazioni presentate sopra per l’indipendenza (non condizion-
ata).
Ad esempio, se A e B sono condizionatamente indipendenti dato C, allora A
c
e B sono con-
dizionatamente indipendenti dato C. Basta osservare che A ∩ C e B ∩ C sono indipendenti in
C e A
c
∩ C `e il complementare in C di A ∩ C e dunque indipendente in C da B ∩ C:
P(A
c
∩ B | C) = P
C
((A
c
∩ C) ∩ (B ∩ C)) = P
C
(A
c
∩ C)P
C
(B ∩ C) = P(A
c
| C)P(B | C) .
Osservazione. Eventi indipendenti possono non essere condizionatamente indipendenti ed
eventi non indipendenti possono essere condizionatamente indipendenti.
Si considerino i seguenti semplici esempi, nei quali avremo sempre
Ω = { ω
i,j
}
i,j=1...6
, P(ω
i,j
) =
1
36
per ogni i e j
(lancio di due dadi indipendenti non truccati).
1) Siano
A = { ω
i,j
| i = 1 ∨ (i > 3 ∧ j = 6 } , B = { ω
i,j
| (j = 1 ∧ i ≤ 3) ∨ i = 6 } ,
C = { ω
i,j
| i ≤ 3 } , C = { ω
i,j
| i > 3 } .
`
E facile verificare che
P(A ∩ B) = P(A)P(B) , ma
P(A ∩ B|C) = P(A|C)P(B|C) e P(A ∩ B|C) = P(A|C)P(B|C) ,
cio`e A e B non sono indipendenti, ma lo sono condizionatamente dato C e anche dato C.
2) Se invece si pone
A = { ω
i,j
| i = 1 } , B = { ω
i,j
| j = 1 } ,
C = { ω
i,j
| max(i, j) ≤ 2 } ,
si vede che A e B sono indipendenti, sono condizionatamente indipendenti dato C, ma non sono
condizionatamente indipendenti dato C.
3) Se prendiamo
C = { ω
i,j
| (i ≤ 2 ∧ (j ≤ 2 ∨ j ≥ 5)) ∨ (i ≥ 5 ∧ j ≤ 2) } ,
Universit`a di Torino, a.a. 2003-2004
18 Capitolo 1. Eventi e probabilit` a
allora, restando ovviamente A e B indipendenti, essi non sono condizionatamente indipendenti
n´e dato C n´e dato C.
4) Se
A = { ω
i,j
| i = 1 } , B = { ω
i,j
| j ≤ 3 ∨ j = 6} , C = { ω
i,j
| j ≤ 4 } ,
allora
P(A|C) = P(A|C) = P(A) =
1
6
, P(B) =
2
3
, P(B|C) =
3
4
, P(B|C) =
1
2
e quindi A e B sono indipendenti e condizionatamente indipendenti sia dato C sia dato C.
In generale, se A e B sono indipendenti e condizionatamente indipendenti, sia dato C, sia
dato C, purch´e 0 < P(C) < 1, allora uno almeno dei due eventi A e B deve essere indipendente
da C. Infatti, posto
P(A|C) = p
1
, P(A|C) = p
2
, P(B|C) = q
1
, P(B|C) = q
2
, P(C) = α , β = 1 −α ,
si trova
f = P(A)P(B) = (p
1
α +p
2
β)(q
1
α +q
2
β) ,
g = P(A ∩ B) = P(A|C)P(B|C)P(C) +P(A|C)P(B|C)P(C) = p
1
q
1
α +p
2
q
2
β
g −f = αβ(p
1
−p
2
)(q
1
−q
2
) .
Dunque, se 0 < α < 1 , g = f se e solo se p
1
= p
2
oppure q
1
= q
2
. Nel primo caso P(A) = p
1
=
P(A|C), cio`e A e C sono indipendenti, e nel secondo P(B) = q
1
= P(B|C), cio`e B e C sono
indipendenti.
1.9 Esempi di applicazione delle regole elementari di calcolo
Presentiamo alcuni problemi che si propongono di illustrare il ruolo delle regole elementari
di calcolo.
1) Due urne contengono rispettivamente n
1
ed n
2
palline, delle quali k
1
e k
2
bianche, essendo
le rimanenti nere. Si considerano le seguenti due procedure:
i) Si sceglie a caso una delle due urne; da essa si estrae una pallina e si registra se essa `e bianca.
Si rimette la pallina nell’urna. Si ripetono una seconda volta tutte le operazioni precedenti.
ii) Si sceglie a caso una delle due urne; da essa si estrae una pallina e si registra se essa `e bianca.
Si rimette la pallina nell’urna. Dalla stessa urna si estrae una seconda volta una pallina e si
registra se essa `e bianca.
In ogni caso si vince se sono state registrate due estrazioni di pallina bianca. Quale delle due
procedure `e pi` u conveniente?
Denotiamo con 1 e 2 gli eventi “selezione dell’urna numero 1 oppure 2 , che sono scelte “a
caso ovvero ciascuna con probabilit` a 0.5. Siano p
1
= k
1
/n
1
e p
2
= k
2
/n
2
le probabilit` a di
estrazione di una pallina bianca dalle due urne. Indichiamo con B l’evento “registrazione di una
pallina bianca in una estrazione e BB l’evento “registrazione di una pallina bianca in entrambe
le estrazioni:
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 19
i) con la prima procedura abbiamo
P(BB) = (P(B|1)P(1) +P(B|2)P(2))
2
= (0.5(p
1
+p
2
))
2
= 0.25(p
1
+p
2
)
2
,
ii) con la seconda procedura abbiamo
P(BB) = P(B|1)
2
P(1) +P(B|2)
2
P(2) = 0.5(p
2
1
+p
2
2
).
Poich`e
p
2
1
+p
2
2
≥ 2p
1
p
2
⇒2(p
2
1
+p
2
2
) ≥ (p
1
+p
2
)
2
,
la seconda procedura `e pi` u conveniente.
Se indichiamo con N l’evento estrazione di una pallina nera, otteniamo che anche P(NN)
`e maggiore con la seconda procedura che con la prima.
`
E facile verificare che la probabilit` a di
ottenere esattamente una pallina nera ed una bianca (l’ordine non ha importanza) `e ovviamente
maggiore con la prima procedura che con la seconda.
2) Un sistema S `e costituito dai componenti S
1
, S
2
, ..., S
n
. Consideriamo gli eventi, che
assumeremo indipendenti:
C
k
= {S
k
`e difettoso }, k = 1, 2, ..., n
e siano dunque indipendenti gli eventi
C
k
= {S
k
non ha difetti }, k = 1, 2, ..., n.
Sia p
k
= P(C
k
) e 1 − p
k
= P(C
k
).
Due tecnici T
1
e T
2
eseguono controlli indipendenti su ciascun componente S
k
. Inoltre, supponi-
amo che gli esiti dei due controlli su S
k
siano condizionatamente indipendenti, sia dato C
k
, sia
dato C
k
. Consideriamo gli eventi
D
k,j
= {T
j
segnala un difetto in S
k
} , j = 1, 2 ,
e supponiamo che
P(D
k,j
|C
k
) = q
j
> 0 , P(D
k,j
|C
k
) = 0
e quindi
P(D
k,j
|C
k
) = 1 , P(D
k,j
|C
k
) = 1 −q
j
e P(D
k,j
) = q
j
p
k
+ 0(1 −p
k
) = q
j
p
k
.
(Si osservi che D
k,1
e D
k,2
non sono indipendenti, se 0 < p
k
< 1).
Se almeno uni dei due tecnici scopre un difetto in almeno uno dei componenti il sistema S viene
revisionato e messo in funzione con ritardo (evento E).
Trovare la probabilit` a dell’evento
D = {S `e difettoso, ma `e messo in funzione senza ritardo } .
Si potrebbero considerare tutti i casi di non affidabilit` a di S: S pu` o essere difettoso perch`e
un qualunque sottoinsieme non vuoto (ce ne sono 2
n
− 1) dei suoi componenti `e costituito da
Universit`a di Torino, a.a. 2003-2004
20 Capitolo 1. Eventi e probabilit` a
componenti tutti difettosi, mentre gli altri componenti sono tutti affidabili. In ciasuna di queste
2
n
− 1 circostanze disgiunte si dovrebbe valutare la probabilit` a condizionale di non rilevare un
difetto.
`
E pi` u semplice seguire un altro procedimento. Consideriamo l’evento:
F = {S `e messo in funzione senza ritardo, abbia o no difetti } ,
allora
E = F, F = ∩
k
(D
k,1
∩ D
k,2
) ,
P(F) = 1 −P(E) = Π
k
P(D
k,1
∩ D
k,2
) .
P(D
k,1
∩ D
k,2
) = P(D
k,1
∩ D
k,2
|C
k
)P(C
k
) +P(D
k,1
∩ D
k,2
|C
k
)P(C
k
) =
= P(D
k,1
|C
k
)P(D
k,2
|C
k
)P(C
k
) +P(D
k,1
|C
k
)P(D
k,2
|C
k
)P(C
k
) =
= (1 −q
1
)(1 −q
2
)p
k
+ 1 · 1 · (1 −p
k
).
Se N `e l’evento {S non `e difettoso }, allora
P(N) = Π
k
(1 −p
k
) , F = N ∪ D (unione disgiunta) e
P(D) = P(F) − P(N) ,
formula che risponde alla domanda proposta.
3) Come nel caso precedente, sia S un sistema costituito dai componenti S
1
, S
2
, ..., S
n
.
Consideriamo gli eventi, che assumeremo indipendenti:
C
k
= {S
k
`e difettoso }, k = 1, 2, ..., n
e
C
k
= {S
k
non ha difetti } ,
Sia p
k
= P(C
k
) e 1 − p
k
= P(C
k
). (Per esempio potrebbe essere p
k
= 0.01).
Il sistema `e controllato da n dispositivi automatici T
k
, k = 1, 2..., n che operano indipendente-
mente. T
k
controlla soltanto S
k
e blocca tale componente se rileva un difetto. Sia
R
k
= {T
k
rivela un difetto in S
k
}
e siano note le probabilit` a condizionali di R
k
rispetto agli eventi C
k
e C
k
:
P(R
k
|C
k
) = q
k
, P(R
k
|C
k
) = e
k
,
( ad esempio q
k
= 0.99 e e
k
= 0.005 ) che qualificano la validit` a del dispositivo di controllo. q
k
grande indica elevata probabilit` a di rilevare un difetto esistente, e
k
piccola indica lieve proba-
bilit` a di segnalare per errore un difetto inesistente.
Perch`e si verifichi l’evento A = { il sistema si arresta } `e sufficiente che si verifichi almeno uno
degli eventi R
k
.
i) Si chiede di calcolare la probabilit` a di arresto.
Si osservi che
A = ∪
k
R
k
, A = ∩
k
R
k
,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 21
quindi
P(A) = 1 − P(A) = 1 −

k
P(R
k
) ,
P(R
k
) = P(R
k
|C
k
)P(C
k
) +P(R
k
|C
k
)P(C
k
) = (1 −q
k
)p
k
+ (1 −e
k
)(1 −p
k
).
ii) Si chiede inoltre di calcolare la probabilit` a che il componente S
k
sia difettoso, sapendo
che il sistema si `e arrestato.
Per calcolare P(C
k
|A) si pu` o ricorrere al Teorema di Bayes, calcolando quindi in primo luogo
P(A|C
j
). Poich´e
A = R
j
∪ (R
j
∩ ∪
i=j
R
i
) .
unione disgiunta, e
P((R
j
∩ ∪
i=j
R
i
) ∩ C
j
) = P(R
j
∩ C
j
)P(∪
i=j
R
i
)
per l’indipendenza dei difetti e dei controlli relativi a componenti diversi. Allora
P(A|C
j
) = P(R
j
|C
j
) +P(R
j
|C
j
)P(∪
i=j
R
i
) = P(R
j
|C
j
) +P(R
j
|C
j
)(1 −P(∩
i=j
R
i
)) .
Dunque
P(A|C
j
) = q
j
+ (1 −q
j
)(1 −

i=j
P(R
i
)) =
= q
j
+ (1 −q
j
)(1 −

i=j
[(1 −q
i
)p
i
+ (1 −e
i
)(1 −p
i
)]) .
Naturalmente
P(C
k
|A) =
P(A|C
k
)p
k

n
j=1
P(A|C
j
)p
j
.
4) Si considera un carattere C che pu` o presentarsi in due varianti A e B (ad esempio occhi
azzurri o bruni). C `e determinato dalla copia di geni g
1
, g
2
ereditati dal padre P e rispetti-
vamente dalla madre M, che possono presentarsi nella forma a oppure b. Se g
1
= a e anche
g
2
= a si presenta la variante A, in tutti gli altri casi si presenta la variante B (A recessiva, B
dominante).
Per quanto concerne la popolazione dei genitori le quattro configurazioni possibili hanno prob-
abilit` a assegnate:
P(4
def
= aa) = p
4
, P(3
def
= ab) = p
3
, P(2
def
= ba) = p
2
, P(1
def
= bb) = p
1
.
(Ad esempio potrebbe essere p
j
= 0.25 per j = 1, 2, 3, 4).
Supponiamo che P o M si trovino, indipendentemente, in una delle configurazioni possibili e
supponiamo inoltre che la probabilit` a di eriditare il pimo o il secondo gene, sia da P che da M,
siano eguali e quindi pari a 0.5.
Supponendo di sapere che nel figlio il carattere C ha assunto la versione A, calcolare la proba-
bilit` a (condizionale) che entrambi i genitori si trovino nella configurazione 4.
Universit`a di Torino, a.a. 2003-2004
22 Capitolo 1. Eventi e probabilit` a
Consideriamo le 16 coppie ij di configurazioni possibili i per P e j per M (i, j = 1, 2, 3, 4).
Pensando di usare il Teorema di Bayes si devono calcolare le probabilit` a condizionali P(AF|ij),
dove AF `e l’evento “il figlio F presenta la versione A del carattere C, conoscendo gi` a le P(ij) =
p
i
p
j
(1/16 per esempio).
P(AF|1k) = P(AF|k1) = 0 , k = 1, 2, 3, 4 , P(AF|44) = 1 ,
P(AF|j4) = P(AF|4j) =
1
2
se j = 2, 3 ,
P(AF|ij) =
1
4
se i, j = 2, 3 .
Dunque
P(44|AF) =
P(AF|44)p
2
4

i,j
P(AF|ij)p
i
p
j
.
Nell’esempio
P(44|AF) =
1 ·
1
16
(7 · 0 + 1 · 1 + 4 ·
1
2
+ 4 ·
1
4
)
1
16
=
1
4
`e il risultato cercato.
5) Trasmissione di lettere: siano disponibili n (ad esempio 21) caratteri c
1
, c
2
, ..., c
n
e si
considerino trasmissioni di parole casuali T formate da l lettere casuali (ad esempio 5) T
1
T
2
...T
l
,
ciascuna delle quali possa essere uno qualunque degli n caratteri disponibili. Per ogni lettera
trasmessa T
j
, vi sia la stessa probabilit` a (1/n) di essere uno qualunque dei caratteri disponibili.
Le lettere siano trasmesse indipendentemente, quindi per la parola trasmessa T vi sia la stessa
probabilit` a (1/N) di essere una qualunque delle N = n
l
possibili stringhe t di l caratteri t
1
t
2
...t
l
.
La trasmissione delle lettere sia soggetta a disturbi. Si indichi con R la parola ricevuta formata
dalle lettere R
1
R
2
...R
l
. Si indichino con
{T = t} e {R = r}
gli eventi: “`e stata trasmessa la stringa t ed “`e stata ricevuta la stringa r.
Si supponga che, per ogni carattere, in qualunque posizione, la probabilit` a di trasmissione senza
errore sia p (ad esempio 0.9), indipendentemente dai caratteri presenti nelle altre posizioni e
dalla trasmissione corretta o meno delle altre lettere; quindi per ogni j:
P(R
j
= T
j
) =
n

k=1
P(R
j
= c
k
|T
j
= c
k
)P(T
j
= c
k
) = n · p ·
1
n
= p .
In caso di errore venga ricevuto uno qualunque degli altri caratteri, ciascuno con probabilit` a
1/(n−1). Trovare la probabilit` a che sia stata trasmessa la stringa θ sapendo che `e stata ricevuta
la stringa ρ (ad esempio θ = ROTTO , ρ = ROSSO).
In questo caso possiamo utilizzare la formula di Bayes nella versione pi` u semplice:
P(T = θ|R = ρ) =
P(R = ρ|T = θ)P(T = θ)
P(R = ρ)
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 23
Si vede facilmente che
P(T = θ) =
1
N
=
1
n
l
, P(R = ρ) = (
1
n
p +
n −1
n
(1 −p)
1
n −1
)
l
=
1
n
l
,
P(R = ρ|T = θ) = p
l−i
(
1 −p
n −1
)
i
= P(T = θ|R = ρ) .
dove i `e il numero di caratteri diversi tra θ e ρ.
Nel caso dell’esempio P(T = θ|R = ρ) = (0.9)
3
(0.1)
2
20
−2
== 0.000018225.
6) Ago di Buffon. In un piano `e presente una griglia costituita da infinite rette parallele (fili)
r
j
, jǫZ, con distanza costante tra rette adiacenti pari a 2l. Un segmento (ago) di lunghezza l
viene lanciato “a caso sul piano, parallalelamente ad esso.
Trovare la probabilit` a che l’ago colpisca uno dei fili.
Utilizziamo un riferimento cartesiano con l’asse x coincidente con il filo r
j
immediatamente
“sotto la posizione dell’ago nell’istante in cui questo colpisce il piano. La posizione dell’ago `e
determinata dall’intero j, dalle coordinate x, y dell’estremo A pi` u “basso dell’ago e dall’angolo
ϑ formato dal segmento AB con il semiasse positivo delle x.
jǫZ , −∞< x < +∞ , 0 < y ≤ 2l , 0 ≤ ϑ < π .
Interpretiamo la dizione “lancio a caso come assunzione di totale equivalenza delle posizioni
possibili, nel senso di equivalenza dei punti (j, x, y, ϑ) e pi` u precisamente ancora nel senso che:
Ω = Z ×R×Ω
r
, Ω
r
=]0, 2l] ×[0, π[ , P(Z ×R×E) =
area(E)
area(Ω
r
)
se E ⊆ Ω
r
,
supponendo E dotato di area nel senso di Lebesgue: E ∈ L(Ω
r
).
Ovviamente area(Ω
r
) = 2πl ed il filo immediatamente “superiore all’asse x `e colpito se e
solo se l’ordinata di B supera 2l. Ci interessa dunque l’evento
Z ×R×E , E = {y +l · sin(ϑ) ≥ 2l} = {y ≥ 2l −l · sin(ϑ) }
per il quale
area(E) =
_
π
0
(2l −(2l − l · sin(ϑ)))dϑ =
_
π
0
l · sin(ϑ)dϑ = 2l .
Dunque
P(Z ×R×E) =
2l
2lπ
=
1
π
.
Universit`a di Torino, a.a. 2003-2004
24 Capitolo 1. Eventi e probabilit` a
Quaderni Didattici del Dipartimento di Matematica
Capitolo 2
Variabili aleatorie reali discrete
2.1 Variabili aleatorie reali
Una variabile aleatoria reale X `e una funzione che assume valori reali “dipendenti dal caso e
per la quale `e possibile assegnare una probabilit` a ad ogni proposizione di una famiglia sufficien-
temente ampia di affermazioni coinvolgenti la funzione X.
Pi` u precisamente, sia (Ω, A, P) uno spazio di probabilit` a, che immaginiamo associato ad un
esperimento S. Una funzione X : Ω → R assume un valore X(ω) dipendente dal risultato ω
dell’esperimento S.
`
E importante poter assegnare una probabilit` a alle proposizioni “X assume
valori compresi tra a e b, dove a e b suno due numeri reali arbitrari. Consideriamo allora soltanto
funzioni X tali che per ogni a ≤ b ∈ R l’insieme {ω ∈ Ω | a ≤ X(ω) < b} sia un evento, cio`e
un insieme di A. Essendo A una σ-algebra, si pu` o vedere che, in tal caso, sono eventi tutti gli
insiemi {ω ∈ Ω | X(ω) ∈ B}, dove B `e un qualunque insieme Boreliano di R. Si dice allora
che la funzione X `e misurabile. I Boreliani costituiscono, per definizione, la pi` u piccola σ-
algebra alla quale appartengono tutti gli aperti, che nel caso di R si possono sempre presentare
come unione numerabile di intervalli (volendo disgiunti). D’altra parte si vede che `e sufficiente
chiedere che, per ogni c ∈ R l’insieme {ω ∈ Ω | X(ω) < c} sia un evento. Arriviamo allora alla
seguente
Definizione. Sia (Ω, A, P) uno spazio di probabilit` a. Si dice variabile aleatoria (v.a.)
reale ogni funzione
X : Ω −→ R
misurabile, cio`e tale che
∀cǫR {ωǫΩ | X(ω) < c}ǫA.
L’insieme sopra indicato si scriver`a pi` u semplicemente {X < c}.
Sarebbe equivalente chiedere che {X > c} oppure {X ≤ c}, o {X ≥ c}, o ancora X
−1
(]a, b[)
appartengano ad A, ovvero siano eventi.
25
26 Capitolo 2. Variabili aleatoreie reali discrete
2.2 Variabili aleatorie reali discrete
Si dice che X `e discreta se pu` o assumere solo un numero finito o al pi` u un’infinit` a numerabile
di valori distinti.
`
E certamente questo il caso se Ω `e finito o numerabile.
Se x
k
sono i valori distinti che la variabile aleatoria X pu` o assumere, si dice densit`a di X
la funzione
f
X
(x
k
) = p
X
k
= P(A
k
) , A
k
= {ω ∈ Ω | X(ω) = x
k
} .
Si dice distribuzione (cumulativa) di X la funzione della variabile reale c
F
X
(c) = P({X < c}) .
Indipendenza di variabili aleatorie discrete.
Definizione: le v.a. X e Y , che possono assumere i valori x
k
e y
l
, si dicono indipendenti
se per ogni coppia (k, l) risulta:
p
XY
k,l
= P(X = x
k
∧ Y = y
l
) = P(X = x
k
)P(Y = y
l
) = p
X
k
p
Y
l
.
Osservazione. Se X e Y sono indipendenti, anche X −c e Y −d, dove c e d sono costanti, sono
indipendenti.
Se X, Y, ...Z sono v.a. discrete che possono assumere i valori x
k
, y
l
, ...z
m
, si dice densit`a
congiunta di X, Y, ...Z la funzione
f
X,Y,...Z
(x
k
, y
l
, ...z
m
) = P(X = x
k
∧ Y = y
l
∧ ... ∧ Z = z
m
) .
Talvolta scriveremo pi` u brevemente f
X,Y,...Z
(k, l, ...m).
Le v.a. X
1
, X
2
, ...X
n
, ... si dicono mutuamente indipendenti se, fissati comunque gli indici
1 ≤ j
1
< j
2
... < j
m
e i valori ammissibili x
k1
, x
k2
, ...x
km
, per gli eventi { X
j1
= x
k1
}, { X
j2
=
x
k2
}, ... { X
jm
= x
km
} risulta:
P({ X
j1
= x
k1
} ∩ { X
j2
= x
k2
}... ∩ { X
jm
= x
km
}) =
= P({ X
j1
= x
k1
})P({ X
j2
= x
k2
})...P({ X
jm
= x
km
}) .
Dunque, scelti arbitrariamente l’intero n e n valori ammissibili x
1
, x
2
, ...x
n
, gli eventi { X
1
=
x
1
}, { X
2
= x
2
}, ... { X
n
= x
n
} sono mutuamente indipendenti.
Si vede immediatamente che X e Y sono indipendenti se e solo se la densit` a congiunta
f
XY
(k, l) `e il prodotto delle densit` a f
X
(k) e f
Y
(l).
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 27
2.3 Distribuzione binomiale (Schema di Bernouilli)
Si considerano n prove (mutuamente) indipendenti (un esperimento S viene ripetuto n volte,
essendo i risultati di ciascuna prova indipendenti dai risultati delle altre). In ogni prova un
determinato evento E pu` o verificarsi con probabilit` a p (successo: s) o non verificarsi con prob-
abilit` a q = 1 −p (insuccesso o fallimento: f).
Come insieme di riferimento Ω considiamo l’insieme delle scritture o stringhe del tipo ω =
sffsssfsff (in questo esempio n = 10 ), che indica un successo nella prima prova, un fallimento
nella seconda e terza prova, .... Essendo Ω finito possiamo prendere A = P(Ω) e introdurre una
misura di probabilit` a ponendo
P({ ω | ω
k
= s }) = p , k = 1, 2...n ,
dove ω
k
indica la k-esima lettera (componente di ω, coerentemente con l’ipotesi fatta sulle singole
prove, e assumendo che gli eventi { ω | ω
k
= s } siano mutuamente indipendenti. Si trova allora
per un arbitrario ω, scrivendo brevemente P(ω) in luogo di P({ω}), e per un arbitrario evento
A:
P(ω) = p
K(ω)
q
n−K(ω)
, P(A) =

ωǫA
P(ω),
dove K(ω) `e il numero di successi in ω, cio`e il numero di caratteri s nella stringa ω. Se invece
dei simboli s ed f si usassero le cifre 0 ed 1, indicando sempre con ω
k
la k-esima componente di
ω, si avrebbe
K(ω) = ω
1

2
+... +ω
n
.
K `e una variabile aleatoria discreta che pu` o assumere i valori 0, 1, 2, ...n. La probabilit` a che K
assuma un valore determinato k `e
P({ωǫΩ | K(ω) = k}) = P(K = k) = C
k
n
p
k
q
n−k
,
infatti vi sono C
k
n
elementi di Ω che hanno esattamente k successi e ciascuno di essi ha la stessa
probabilit` a p
k
q
n−k
.
Con C
k
n
indichiamo l’usuale coefficiente binomiale
C
k
n
=
_
n
k
_
=
n!
k!(n −k)!
.
che conta il numero di sottoinsiemi costituiti esattamente da k elementi di un insieme di n ele-
menti.
L’insieme degli eventi ω con k componenti uguali a 1(s) `e infatti in corrispondenza biunivoca
con l’insieme dei sottoinsiemi S di {1, 2, ...n} formati esattamente da k elementi. Ogni ω si pu` o
considerare come la funzione caratteristice di un tale sottoinsieme S.
Se siamo interessati solo al numero di successi, lo spazio campione pu` o essere ridotto all’insieme


= 0, 1, 2, ..., n, con le probabilit` a
f(k) = C
k
n
p
k
q
n−k
.
Universit`a di Torino, a.a. 2003-2004
28 Capitolo 2. Variabili aleatoreie reali discrete
Si osservi che
f(k) ≥ 0 e
n

k=0
f(k) = (p +q)
n
= 1.
f `e la densit` a della variabile aleatoria K. La distribuzione (cumulativa) F della variabile aleatoria
K :
F(c) = P({K < c}),
`e data da
F(k) =
k

j=0
f(j) =
k

j=0
C
j
n
p
j
q
n−j
ed `e detta distribuzione binomiale .
2.4 I teoremi di DeMoivre-Laplace
Teorema del limite locale (DeMoivre-Laplace). Sia P
n
(k) la densit` a binomiale e, con
0 < p < 1 e q = 1 −p, fissato x ǫ ]a, b[, sia k l’intero definito da
k ≤ np +x

npq < k + 1 .
k = k(n) = k(n, x) `e quindi la parte intera di np +x

npq e, posto
x(n) =
k −np

npq
,
la differenza x −x(n) (non negativa e ≤ (npq)

1
2
) `e O(n

1
2
).
Allora:
lim
n→+∞

npqP
n
(k(n, x)) =
1


exp (−
x
2
2
) ,
uniformemente per x ∈]a, b[ .
Osservazione. Pi` u in generale, se k(n) `e una successione tale che x(n) si mantiene limitata
in ]a, b[, allora
lim
n→+∞

npqP
n
(k(n))
1


exp(−
x(n)
2
2
)
= 1
uniformemente, nel senso che dato ε > 0 il rapporto dista da 1 meno di ε per n maggiore di una
soglia dipendente soltanto da ε, a e b.
Dimostrazione del teorema. Ricordiamo in primo luogo la formula di Stirling
n! =

2πnn
n
exp(−n) exp (θ
n
) , |θ
n
| ≤
1
12n
.
Si ha
k = np +x(n)

npq, n −k = nq −x(n)

npq →+∞
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 29
per a < x < b, con a, b fissi .
P
n
(k) = C
k
n
p
k
q
n−k
=

2πn

2πk
_
2π(n −k)
n
n
exp(−n) exp (θ
n
−θ
k
−θ
n−k
)p
k
q
n−k
k
k
(n −k)
n−k
exp (−k) exp(−(n −k))
,
dunque
P
n
(k) = (
n
2πk(n −k)
)
1
2
n
n
p
k
q
n−k
exp(θ)
k
k
(n −k)
n−k
,
dove θ = θ
n
−θ
k
−θ
n−k
e quindi
|θ| ≤
1
12
(
1
n
+
1
k
+
1
n −k
) ≤
1
12n
(1 +
1
p + a
_
pq/n
+
1
q −b
_
pq/n
).
Dunque θ →0 per n →+∞ , uniformemente in a < x < b e quindi exp(θ) →1 uniformemente.
B
n
= (
n
k(n −k)
)
1
2
= (
n
np(1 +x(n)
_
q/np)nq(1 −x(n)
_
p/nq)
)
1
2
=
=
1

npq
(1 +x(n)
_
q
np
)

1
2
(1 −x(n)
_
p
nq
)

1
2
e quindi

npqB
n
→1 uniformemente in x. Inoltre
ln A
n
= ln
n
n
p
k
q
n−k
k
k
(n −k)
n−k
= ln(
np
k
)
k
+ ln(
nq
n −k
)
n−k
=
= −k ln
k
np
−(n −k) ln
n −k
nq
=
= −(np +x(n)

npq) ln(1 +x(n)
_
q
np
) −(nq −x(n)

npq) ln(1 −x(n)
_
p
nq
) =
= −(np+x(n)

npq)(x(n)
_
q
np

x(n)
2
q
2np
+O(n

3
2
))−(nq−x(n)

npq)(−x(n)
_
p
nq

x(n)
2
p
2nq
+O(n

3
2
)) =
= −x(n)

npq +
x(n)
2
q
2
+O(n

1
2
) −x(n)
2
q +O(n

1
2
) +...
+x(n)

npq +
x(n)
2
p
2
+O(n

1
2
) −x(n)
2
p +O(n

1
2
) +... =
= −
x(n)
2
2
+O(n

1
2
) = −
x
2
2
+O(n

1
2
) → −
x
2
2
uniformemente in x e dunque
A
n
/ exp(−
x
2
2
) → 1.
Pertanto

npqP
n
(k) =
exp(θ)



npqB
n
A
n

1


exp(−
x
2
2
) q.e.d.
Universit`a di Torino, a.a. 2003-2004
30 Capitolo 2. Variabili aleatoreie reali discrete
0
1
2
3
4
-4 -2 2 4
x
Figura 2.1: Densit`a binomiale normalizzata, con n = 20 e p = 0.5 , e Normale standard
Nella Figura 1 sono riportati, in scale opportune, i grafici della funzione costante a tratti

npqP
n
(k(n, x)), con p = 0.5 e n = 20, e della funzione limite
1


exp(−
x
2
2
). I tratti hanno
ampiezza 1/

npq

= 0.447.
Valore massimo di P
n
(k): dobbiamo studiare le disuguaglianze
C
k−1
n
p
k−1
q
n−k+1
≤ C
k
n
p
k
q
n−k
≥ C
k+1
n
p
k+1
q
n−k−1
,
equivalenti alle disuguaglianze
q
p

n −k + 1
k
,
q
p

n −k
k + 1
,
dalle quali si ricava
np −q ≤ k ≤ np +p .
Vi possono essere dunque uno o due argomenti k per i quali P
n
(k) assume il valore massimo;
per k ≤ np +p P
n
(k) `e crescente, mentre per np −q ≤ k P
n
(k) `e decrescente.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 31
Teorema del limite integrale di DeMoivre-Laplace. Sia K il numero aleatorio di
successi in n prove indipendenti, in ciascuna delle quali la probabilit` a di successo `e p, con
0 < p < 1. Fissati a < b, si ha per n →+∞
P(a ≤
K −np

npq
< b) →
1


_
b
a
e

t
2
2
dt .
Dimostrazione. Si deve studiare il comportamento asintotico della probabilit` a dell’evento E
n
=
{K ∈ A
n
}, dove
A
n
= {k | a ≤ x
k
(n) =
k −np

npq
< b}
e, posto i = min A
n
, j = max A
n
, si introduca la funzione
f
n
(x) =
_
0 x < x
i−1
∨ x ≥ x
j+1

npqP
n
(k) x
k
≤ x < x
k+1
, i ≤ k < j
,
osservando che
k = np +x
k

npq , x
k+1
−x
k
=
1

npq
e, se a

< a < b < b

, per il teorema del limite locale
f
n
(x) =

npqP
n
(k) →
1


e

x
2
2
uniformemente su ]a

, b

[ .
Allora, essendo x
i−1
< a ≤ x
i
< x
j
< b ≤ x
j+1
P(E
n
) =
j

k=i

npqP
n
(k)(x
k+1
−x
k
) =
=
_
b
a
f
n
(x)dx −
_
xi
a
f
n
(x)dx −
_
b
xj
f
n
(x)dx .
Inoltre |a−x
i
|, |b−x
j
| ≤ 1/

npq →0. Per la convergenza uniforme delle f
n
si trova il risultato,
che non sarebbe difficile estendere a a = −∞ ∨ b = +∞. q.e.d.
2.5 Distribuzione multinomiale
Si considerano ancora n prove indipendenti. In ogni prova si possono presentare gli eventi
disgiunti E
1
, E
2
..., E
l
con probabilit` a p
1
, p
2
, ..., p
l
:
p
1
+p
2
+... +p
l
= 1 e ovviamente 0 ≤ p
j
≤ 1 .
Allora la probabilit` a che si presentino nelle n prove esattamente k
1
= k
1
(n) occorrenze di E
1
...
k
l
= k
l
(n) occorrenze di E
l
(

j
k
j
= n ) `e data da
P
n
(k
1
, k
2
, ..., k
l
) =
n!
k
1
!k
2
!...k
l
!
p
k1
1
p
k2
2
...p
k
l
l
,
Universit`a di Torino, a.a. 2003-2004
32 Capitolo 2. Variabili aleatoreie reali discrete
come si dimostra facilmente con un percorso ad l stadi. Indicando con K
j
la v.a. che conta il
numero di esiti E
j
nelle n prove, si ha:
P(K
1
= k
1
) =
n!
k
1
!(n −k
1
)!
p
k1
1
(1 −p
1
)
n−k1
,
P(K
1
= k
1
∧ K
2
= k
2
) = P(K
1
= k
1
)P(K
2
= k
2
|K
1
= k
1
) .
Ma se esattamente k
1
prove hanno avuto esito E
1
, le probabilit` a condizionali degli altri esiti in
ognuna delle prove rimanenti `e ˜ p
j
= p
j
/(1 − p
1
). Infatti, se E
m
j
`e l’evento “si `e verificato E
j
nella prova m-esima e j = 1, P(E
m
j
|E
m
1
)/P(E
m
1
)) = P(E
m
j
)/P(E
m
1
)). Si noti che

j
˜ p
j
= 1.
Dunque
P(K
2
= k
2
|K
1
= k
1
) =
(n −k
1
)!
k
2
!(n −k
1
−k
2
)!
˜ p
k2
2
(1 − ˜ p
2
)
n−k1−k2
.
Osservando che 1 − ˜ p
2
= (1 −p
1
−p
2
)/(1 −p
1
), si ottiene allora
P(K
1
= k
1
∧ K
2
= k
2
) =
n!
k
1
!k
2
!(n −k
1
−k
2
)!
p
k1
1
p
k2
2
(1 −p
1
−p
2
)
n−k1−k2
,
e continuando in questo modo si giunge alla formula che si voleva dimostrare.
Se q
j
= 1 −p
j
e p
j
, q
j
= 0, date l successioni k
j
(n) tali che
l

j=1
k
j
(n) = n
e tali che le i loro valori normalizzati
x
j
= x
j
(n) =
k
j
−np
j

np
j
q
j
,
che soddisfino la relazione

j
x
j

p
j
q
j
= 0 ,
si mantengano limitati, diciamo in ]a, b[, risulta
lim
n→+∞
_
n
l−1
p
1
p
2
...p
l
P
n
(k
1
, k
2
, ..., k
l
)/
1
(2π)
(l−1)/2
e
−(q1x
2
1
+q2x
2
2
...+q
l
x
2
l
)/2
= 1 ,
uniformemente, nel senso che dato ε > 0 il rapporto dista da 1 meno di ε per n maggiore di una
soglia dipendente soltanto da ε, a e b.
Per n = 2 si ritrova il risultato di DeMoivre-Laplace.
2.6 Distribuzione geometrica
Come nello schema di Bermouilli si considerano prove indipendenti con probabilit` a p di suc-
cesso, ed ovviamente q = 1 − p di fallimento in ogni prova. Questa volta il numero delle prove
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 33
non `e prefissato. Si procede finch`e non si ottiene un primo successo.
Prendiamo come spazio campione l’insieme di tutte le possibili “storie”:
Ω = {s, fs, ffs, fffs, ...}
e per ogni ω sia N(ω) il numero di caratteri in ω. Dunque in ω vi sono N(ω) − 1 lettere f e
l’ultima lettera `e s. Poniamo, in considerazione dell’indipendenza delle prove:
p(k) = P(N = k) = P(ff...fs) = q
k−1
p, dove le f sono k −1.
Si osservi che
p(k) ≥ 0,
+∞

k=1
pq
k−1
= p
+∞

j=0
q
j
=
p
1 −q
= 1.
La variabile aleatoria N, numero di prove per un primo successo (“tempo di attesa” di un primo
sucesso), ha per densit` a f(k) = p(k) = pq
k−1
e la distribuzione corrispondente:
F(n) = P(N < n) =
n−1

k=1
pq
k−1
si dice distribuzione geometrica (si dice anche che N `e una variabile aleatoria geometrica) .
2.7 Distribuzione binomiale negativa (di parametri p ed r)
Come nel caso della distribuzione geometrica, si considerano prove indipendenti con proba-
bilit` a p di successo, ed ovviamente q = 1 − p di fallimento in ogni prova. Il numero delle prove
non `e prefissato. Si procede finch`e non si ottengono esattamente r successi.
Sia ad esempio r = 3. Sia
Ω = {sss, fsss, sfss, ssfs, ffsss, fsfss, ...},
l’insieme delle scritture ω con 3 (in generale r) caratteri s, uno dei quali nell’ultima posizione, e
con n−3 (in generale n−r) caratteri f. Poniamo, in considerazione dell’ipotesi di indipendenza:
P(ω) = p
r
q
n−r
.
Vi sono C
r−1
n−1
scritture di questo tipo, perch`e esse sono tante quanti i sottoinsiemi di r − 1
posizioni selezionate arbitrariamente tra le prime n−1 posizioni, nelle quali scrivere il carattere
s. Dunque la densit` a di N `e:
f(n) = P({ωǫΩ | N(ω) = n}) = C
r−1
n−1
p
r
q
n−r
.
N si dice variabile binomiale negativa di parametri p e r e la sua distribuzione si dice distribuzione
binomiale negativa .
Universit`a di Torino, a.a. 2003-2004
34 Capitolo 2. Variabili aleatoreie reali discrete
2.8 Valor medio (variabili discrete)
Consideriamo in primo luogo il caso in cui Ω stesso `e finito o numerabile (e ogni {ω} sia un
evento). Possiamo allora definire il valor medio di una v.a., necessariamente discreta, nel modo
seguente.
Definizione. Si dice valor medio (o anche valore atteso o speranza matematica) della v.a.
discreta X la quantit` a
E(X) =

ωǫΩ
X(ω)p(ω) ,
dove p(ω) = P({ω}).
Se Ω non `e finito si pretende che la serie sia assolutamente convergente, perch`e E(X) non deve
dipendere dall’ordine dei termini della serie:

ωǫΩ
|X(ω)|p(ω) < +∞.
In altre parole la famiglia di numeri {X(ω)}
ω∈Ω
`e sommabile.
Se non vi `e convergenza assoluta si dice che X non `e dotata di media.
Siano x
k
i valori distinti che la v.a. X pu` o assumere e sia A
k
= { ω | X(ω) = x
k
}. Se f(k)
`e la probabilit` a del valore x
k
di X, cio`e se f(k) = P(A
k
) = f
X
(x
k
), dove f
X
`e la densit` a di X,
risulta:
E(X) =

ω∈Ω
X(ω)p(ω) =
+∞

k=0

ω∈A
k
X(ω)p(ω) =
+∞

k=0
x
k
P(A
k
) =
+∞

k=0
x
k
f(k).
Se H(x) `e una funzione reale di variabile reale, possiamo considerare la variabile aleatoria
H(X) definita da
H(X)(ω) = H(X(ω)) per ogni ω ∈ Ω.
Il suo valor medio risulta
E(H(X)) =

ω∈Ω
H(X(ω))p(ω).
Se f(k) `e la densit` a di X e g(j) = P(H(X)) = h
j
) `e la densit` a di H, dove h
j
sono i valori
distinti che H pu` o assumere, allora
E(H(X)) =

j
h
j
g(j) =

ω∈Ω
H(X(ω))p(ω) =

k

ω∈A
k
H(X(ω))p(ω) =
=

k
H(x
k
)

ω∈A
k
p(ω) =

k
H(x
k
)f(k).
Linearit` a del valor medio:
E(cX) = cE(X) , E(X +Y ) = E(X) +E(Y ),
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 35
infatti

ω
(cX(ω) +Y (ω))p(ω) = c

ω
X(ω)p(ω) +

ω
Y (ω)p(ω).
Si osservi che per una variabile costante c si ha E(c) = c. Se ne deduce che per ogni v.a. X
E(X −E(X)) = 0 .
Positivit` a e monotonia del valor medio:
X ≥ 0 ⇒E(X) ≥ 0 , X ≥ Y ⇒E(X) ≥ E(Y ) .
X ≥ 0 significa che X(ω) ≥ 0 per tutte le ω ∈ Ω, tranne eventualmente quelle di un sottoin-
sieme di probabilit` a nulla. In modo analogo si interpreta la disuguaglianza X ≥ Y . La prima
implicazione `e conseguenzza immediata della definizione (tutti i termini X(ω)p(ω) della somma
che fornisce E(X) sono non negativi). La seconda implicazione `e immediata perch´e X −Y ≥ 0
e il valor medio `e lineare e positivo.
Valor medio del prodotto:
in generale il valor medio del prodotto `e diverso dal prodotto dei valori medi di due v.a. Ma
nel caso particolare di v.a. indipendenti si ha invece
E(XY ) = E(X)E(Y ).
Infatti gli eventi A
kl
= { ω| X(ω) = x
k
∧Y (ω) = y
l
} costituiscono una partizione di Ω e quindi,
poich´e p
XY
k,l
= p
X
k
p
Y
l
:
E(XY ) =

ω∈Ω
X(ω)Y (ω)p(ω) =

kl

ω∈A
kl
X(ω)Y (ω)p(ω) =
=

k

l
x
k
y
l
p
XY
k,l
= (

k
x
k
p
X
k
)(

l
y
l
p
Y
l
) = E(X)E(Y ).
Nel caso di uno spazio Ω generale (non necessariamente numerabile), per una v.a.
discreta X che assume i valori x
k
con probabilit` a f(k) = f
X
(x
k
), dove f
X
`e la densit` a di X,
cio`e f(k) = P(A
k
), dove A
k
= { ω | X(ω) = x
k
} si definisce il valore atteso mediante la
formula:
E(X) =
+∞

k=0
x
k
P(A
k
) =
+∞

k=0
x
k
f(k),
se la serie converge assolutamente, e quindi per essa vale la propriet` a commutativa.
Se si dovesse considerare soltanto la v.a. X, si potrebbe sostituire Ω con lo spazio ridotto Ω

i cui elementi ω

sono semplicemente gli interi k o i valori distinti x
k
, associando a ciascuno di
essi la probabilit` a f(k), riconducendosi in tal modo al caso di uno spazio campione numerabile.
Universit`a di Torino, a.a. 2003-2004
36 Capitolo 2. Variabili aleatoreie reali discrete
Molto spesso tuttavia `e importante considerare simultaneamente pi` u v.a. X, Y, Z, ... e non sem-
pre `e opporuno o possibile ricondursi ad un unico spazio campione numerabile.
Anche nel caso generale si controlla la validit` a delle propriet` a fondamentali del valore atteso
sopra considerate (linearit` a, positivit` a e quindi monotonia). Ad esempio, se X assume i valori
x
k
sui sottoinsiemi A
k
(che formano una partizione di Ω) e Y assume i valori y
l
sui sottoinsiemi
B
l
(che formano una partizione di Ω), considerando la partizione pi` u fine costituita dagli insiemi
C
kl
= A
k
∩ B
l
, si ha:
E(X +Y ) =

k,l
(x
k
+y
l
)P(C
kl
) =

k
x
k

l
P(C
kl
) +

l
y
l

k
P(C
kl
) =
=

k
x
k
P(A
k
) +

l
y
l
P(B
l
) = E(X) +E(Y ) ,
per la σ-additivit` a di P.
La composizione e scomposizine delle somme `e lecita, ed X +Y ammette valor medio, in virt` u
della convergenza assoluta delle serie che definiscono E(X) e E(Y ).
2.9 Varianza e deviazione standard (variabili discrete)
Definizione. Se la v.a. X `e dotata di media E(X) = µ
X
, si pone
V (X) = σ
2
X
= E((X −µ
X
)
2
).
Se V(X) `e finita, si dice che essa `e la varianza di X e σ
X
si dice deviazione standard, o
scarto quadratico medio, di X.
σ
X
`e un indice importante di dispersione dei valori di X intorno alla sua media.
Regole elementari di calcolo .
V (λX) = λ
2
V (X)
V (X) = E((X −E(X))
2
) = E(X
2
−2XE(X) +E(X)
2
) = E(X
2
) −E(X)
2
Disuguaglianza di Markov. Sia X ≥ 0 (i suoi valori x
k
sono ≥ 0), sia µ = E(X) e c un
numero reale positivo arbitrario, allora
P(X ≥ cµ) ≤
1
c
.
Dimostrazione. Sia f la distribuzione di X:
µ =

k
x
k
f(k) ≥

k∈{k|x
k
≥cµ}
x
k
f(k) ≥ cµ

k∈{k|x
k
≥cµ}
f(k) = cµP(X ≥ cµ).
Dividendo per cµ si ottiene il risultato. q.e.d.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 37
Disuguaglianza di Chebyshev. Sia X una v.a. dotata di media µ e varianza σ
2
e sia
λ > 0 arbitrario:
P(|X −µ| ≥ λσ) ≤
1
λ
2
.
Dimostrazione. Posto Y = (X − µ)
2
, risulta Y ≥ 0 e E(Y ) = σ
2
e per la disuguaglianza di
Markov
P(|X −µ| ≥ λσ) = P(Y ≥ λ
2
σ
2
) ≤
1
λ
2
. q.e.d.
La varianza ovviamente non `e in generale un’operazione lineare. Abbiamo gi` a visto che:
V (λX) = λ
2
V (X),
inoltre, se X e Y sono v.a. con media µ
X
e µ
Y
, allora
V (X +Y ) = E((X +Y ) −(µ
X

Y
)
2
) =
= E((X −µ
X
)
2
+(Y −µ
Y
)
2
+2(X −µ
X
)(Y −µ
Y
)) = V (X) +V (Y ) +2E((X −µ
X
)(Y −µ
Y
))
L’ultimo addendo, diviso per 2, si dice covarianza delle v.a. X e Y e si indica con Cov(X, Y ).
La variaza della somma di due v.a. `e uguale alla somma delle loro varianze se e solo se la
loro covarianza si annulla:
Cov(X, Y ) = 0 ⇔V (X +Y ) = V (X) +V (Y ),
Una codizione sufficiente affinch´e ci` o avvenga `e che le v.a. siano indipendenti. Infatti in tal
caso sono indipendenti X −E(X) e Y −E(Y ) e dunque
Cov(X, Y ) = E((X −µ
X
)(Y −µ
Y
)) = E(X −µ
X
)E(Y −µ
Y
) = 0 .
Se le v.a. X
1
, X
2
, ..., X
n
sono a due a due indipendenti (non `e necessaria la mutua
indipendenza), si ha
V (X
1
+X
2
+... +X
n
) = V (X
1
) +V (X
2
) +... +V (X
n
) .
In particolare, se le v.a. X
1
, X
2
, ..., X
n
sono a due a due indipendenti ed hanno stessa media
µ e varianza σ
2
, risulta
E(X
1
+X
2
+... +X
n
) = nµ , V (X
1
+X
2
+... +X
n
) = nσ
2
,
E(
X
1
+X
2
+ ... +X
n
n
) = µ , V (
X
1
+X
2
+... +X
n
n
) =
1
n
2
(nσ
2
) =
σ
2
n
.
I risultati riguardanti le medie non richiedono l’indipendenza, che invece `e presupposta (quale
condizione sufficiente, ma non necessaria) per dedurre i risultati precedenti sulle varianze. Si
osservi che la v.a. X media (aritmetica) delle v.a. X
k
ha lo stesso valor medio µ, ma varianza
σ
2
/n ridotta di un fattore 1/n e quindi tendete a 0 per n →+∞.
Universit`a di Torino, a.a. 2003-2004
38 Capitolo 2. Variabili aleatoreie reali discrete
2.10 Funzione generatrice dei momenti
Sia t un parametro reale. Si pone
m
X
(t) = E(e
tX
) = E(
+∞

j=0
t
j
j!
X
j
),
se il valor medio di e
tX
esiste per |t| ≤ h (basta che esista per ±h), con h sufficientemente
piccolo. La funzione m
X
(t) si dice funzione generatrice dei momenti della v.a. X. Si pu` o
dimostrare che `e lecito permutare l’operatore E con la serie esponenziale, e risulta:
E(e
tX
) =
+∞

j=0
t
j
j!
E(X
j
),
dunque m
X
(t) `e sviluppabile in serie di Taylor nell’intorno dell’origine e
E(X
k
) = D
k
t
m
X
(t)|
t=0
.
I risultati precedenti si dimostrano facilmente ricorrendo alla teoria generale dell’integrazione.
Infatti
E(X) =

ω∈Ω
X(ω)p(ω) =
_

XdP
e quindi, posto Ω
+
= { X ≥ 0 }, Ω

= { X < 0 }, si ha
E(e
±hX
) < +∞ ⇒
_
±Ω
e
±hX
dP < +∞⇒
_

e
h|X|
dP < +∞ .
Ma allora
|X|
k

k!
h
k
e
h|X|
⇒ E(|X|
k
) =
_

|X|
k
dP < +∞
e pertanto esistono i momenti di ogni ordine. Inoltre, essendo
N

k=0
t
k
X
k
k!
→e
tX
, |
N

k=0
t
k
X
k
k!
| ≤ e
h|X|
per ogni ω, in virt` u del teorema sulla convergenza dominata, si trova
E(e
tX
) =
+∞

k=0
t
k
k!
E(|X|
k
) .
2.11 Esempi di calcolo di medie, varianze e funzioni generatrici
Variabili K(ω) binomiali.
E(K) =
n

k=0
kC
k
n
p
k
q
n−k
= np.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 39
Si consideri infatti la funzine ausiliaria
φ(x, y) = (x +y)
n
=

k
C
k
n
x
k
y
n−k
,
x
∂φ
∂x
= nx(x +y)
n−1
=

k
kC
k
n
x
k
y
n−k
.
Posto x = p , y = q si trova il risultato.
Pi` u facilmente si pu` o scrivere K = K
1
+K
2
+...K
n
, dove K
j
`e una v.a. che prende i valori
1 e 0 con probabilit` a p e q, secondo che nella prova j-esima vi sia un successo o un fallimento.
Evidentemente E(K
j
) = 1p + 0q = p e quindi E(K) =

j
E(K
j
) = np.
Poich`e K
2
j
= K
j
e quindi E(K
2
j
) = p, si ha V (K
j
) = E(K
2
j
) −E(K
j
)
2
= p − p
2
= pq . Ma
le v.a. K
j
sono indipendenti e quindi V (K) = npq.
Si potrebbe anche procedere nel modo seguente:
x
2

2
φ
∂x
2
= n(n −1)x
2
(x +y)
n−2
=

k
k(k −1)C
k
n
x
k
y
n−k
,
E posto x = p, y = q
n(n −1)p
2
= E(K
2
) −E(K), V (K) = E(K
2
) −E(K)
2
=
n(n −1)p
2
+np −n
2
p
2
= np(1 −p) = npq.
Per la deviazione standard si trova σ
K
=

npq.
Per quanto concerne la funzione generatrice:
m
K
(t) =
n

i=0
e
ti
C
i
n
p
i
q
n−i
=
n

i=0
C
i
n
(pe
t
)
i
q
n−i
= (pe
t
+q)
n
.
Dunque
m
X
(0) = (p +q)
n
= 1 ,
Dm
K
(t)|
t=0
= n(pe
t
+q)
n−1
pe
t
|
t=0
= np , E(K) = np ,
D
2
m
K
(t)|
t=0
= n(n −1)(pe
t
+q)
n−2
p
2
e
2t
+n(pe
t
+q)
n−1
pe
t
|
t=0
= n(n −1)p
2
+np = E(K
2
) ,
σ
2
= E(K
2
) −E(K)
2
= n
2
p
2
−np
2
+np − n
2
p
2
= np(1 −p) = npq.
Frequenza.
Se consideriamo la frequenza (relativa) di successo in n prove: K/n , abbiamo
E(
K
n
) = p , V (
K
n
) =
pq
n
.
Universit`a di Torino, a.a. 2003-2004
40 Capitolo 2. Variabili aleatoreie reali discrete
Applicando la disuguaglianza di Chebychev, per ogni ε > 0 si ha
P({|
K
n
−p| ≥ ε}) ≤
pq
ε
2
n
.
Basta infatti ricavare λ dalla relazione
ε = λσ = λ
_
pq/n .
Dunque per n →+∞ tale probabilit` a tende a 0 . Questa `e una prima formulazione di una legge
(debole) dei grandi numeri.
Gioco equo.
Se ogni prova ha un costo C e in caso di successo si ottiene un pagamento uguale ad aC, la
v.a. guadagno complessivo: G = aCK −nC ha un valor medio
E(G) = nC(ap −1) .
Dunque il “gioco `e vantaggioso, equo o svantaggioso per chi sostiene il costo C in ogni prova,
secondo che sia a > 1/p , a = 1/p oppure a < 1/p .
Variabile N(ω) geometrica.
La sua funzione generatrice dei momenti `e data da
m
N
(t) =
+∞

k=1
e
tk
q
k−1
p =
p
q
+∞

k=1
(qe
t
)
k
=
pe
t
1 −qe
t
,
per t sufficientemente piccolo (qe
t
< 1). Dunque
m
N
(t)|
t=0
=
p
1 −q
= 1 ,
Dm
N
(t)|
t=0
= (
pe
t
1 −qe
t
+
pe
t
qe
t
(1 −qe
t
)
2
)|
t=0
=
=
pe
t
(1 −qe
t
)
2
|
t=0
=
p
(1 −q)
2
=
1
p
= E(N) .
Dunque il tempo medio di attesa per un primo successo `e il reciproco della probabilit` a di suc-
cesso in una singola prova.
D
2
m
N
(t)|
t=0
= (
pe
t
(1 − qe
t
)
2
+
2pqe
2t
(1 −qe
t
)
3
)|
t=0
=
1
p
+
2q
p
2
=
1 +q
p
2
= E(N
2
) ,
σ
2
=
1 +q
p
2

1
p
2
=
q
p
2
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 41
Variabile N(ω) binomiale negativa (di parametri n e r).
a) Metodo analitico. La distribuzione di N `e data da
F(n + 1) =
n

k=r
C
r−1
k−1
p
r
q
k−r
= p
r
n−r

j=0
C
r−1
j+r−1
q
j
,
avendo posto j = k −r ed essendo ovviamente n ≥ r.
Conviene allora considerare la funzione ausiliaria
H(z) =
+∞

j=0
C
r−1
j+r−1
z
j
=
1
(r −1)!
D
r−1
+∞

j=0
z
j+r−1
=
1
(r −1)!
D
r−1
z
r−1
1 −z
,
infatti D
r−1
z
j+r−1
= (j +r −1)(j +r −2)...(j +1)z
j
. Allora, posto s = r −1, vista la formula
di Leibniz:
H(z) =
1
s!
D
s
(z
s
(1 −z)
−1
) =
1
s!
s

i=0
C
i
s
s(s −1)...(s −i + 1)(s −i)...1
z
s−i
(1 −z)
s−i+1
,
essendo D
i
z
s
= s(s −1)...(s −i + 1)z
s−i
e D
j
(1 −z)
−1
= 1.2...j(1 −z)
−1−j
, pertanto
H(z) = (1 −z)
−1
s

i=0
C
i
s
1
i
(
z
1 −z
)
s−i
= (1 −z)
−1
(1 +
z
1 −z
)
s
= (1 −z)
−1−s
= (1 −z)
−r
.
Dunque H(q) = (1 − q)
−r
= (p)
−r
e F(+∞) = p
r
(p)
−r
= 1.
La funzione H(z) pu` o essere utilizzata per calcolare le caratteristiche della v.a. N, ad esempio
E(N) =
+∞

k=r
kC
r−1
k−1
p
r
q
k−r
= p
r
+∞

j=0
(j +r)C
r−1
j+r−1
q
j
=
= p
r
(qH

(q) +rH(q)) = p
r
(rq(1 −q)
−r−1
+r(1 −q)
−r
) = r(
q
p
+ 1) =
r
p
.
Analogamente per la funzione generatrice dei momenti:
m
N
(t) =
+∞

k=r
e
kt
C
r−1
k−1
p
r
q
k−r
= p
r
e
rt
+∞

j=0
C
r−1
j+r−1
(qe
t
)
j
= p
r
e
rt
H(qe
t
) = (
pe
t
(1 −qe
t
)
)
r
.
Con un semplice esercizio di derivazione si trova
E(N) = Dm
N
(t)|
t=0
=
r
p
, E(N
2
) = D
2
m
N
(t)|
t=0
=
r(r +q)
p
2
,
Universit`a di Torino, a.a. 2003-2004
42 Capitolo 2. Variabili aleatoreie reali discrete
pertanto
V (N) = σ
2
= E(N
2
) −E(N)
2
=
rq
p
2
.
b) Decomposizione in v.a. pi` u semplici.
La variabile binomiale negativa N pu` o essere scritta come somma di r v.a. geometriche
indipendenti:
N = N
1
+N
2
+... +N
r
,
dove N
1
`e il tempo di attesa (numero di prove) per un primo successo, N
2
l’ulteriore tempo di at-
tesa (ulteriore numero di prove) per un secondo successo... Chiaramente le N
k
sono indipendenti
ed hanno distribuzione geometrica. Siamo in presenza di una situazione dove non vi `e memoria
del passato (n´e influenza del futuro sul presente): la v.a. tempo di attesa per il prossimo succes-
so non `e condizionata dalla storia delle prove precedenti (da come si `e giunti all’ultimo successo).
Allora
E(N) = E(N
1
) +E(N
2
) +... +E(N
r
) = r(
1
p
) =
r
p
,
V (N) = V (N
1
) +V (N
2
) +...V (N
r
) = r(
q
p
2
) =
rq
p
2
,
m
N
(t) = E(e
Nt
) = E(e
N1t+N2t+...Nrt
) =
E(e
N1t
e
N2t
...e
Nrt
) = (
pe
t
1 −qe
t
)
r
.
2.12 Distribuzione ipergeometrica
Si considera una popolazione di N individui , dei quali esattamente r hanno una determinata
caratteristica χ, mentre gli altri s = N − r individui non hanno χ. Si estrae un campione di n
individui: si possono estrarre gli elementi del campione successivamente, ma quelli gi` a estratti
non debbono essere pi` u presi in considerazione per le estrazioni successive (“estrazioni senza
reimmissione”). Tutti gli individui della popolazione possono essere estratti con ugual proba-
bilit` a. Pi` u precisamente: in ogni estrazione tutti gli individui rimasti possono essere estratti
con la stessa probabilit` a. Risulta dall’analisi seguente che `e equivalente procedere ad una “es-
trazione in blocco”, supponendo che, qualsiasi k ≤ N, tutti i campioni di k individui possano
essere estratti con la stessa probabilit` a.
Si considera la v.a. X che assume quale valore il numero di individui del campione con la
propriet` a χ. I valori possibili x di X sono vincolati da
x ≤ n , x ≤ r , e dunque x ≤ min(n, r) ;
0 ≤ x , y = n −x ≤ s = N −r , e dunque max(0, n −s) ≤ x .
Per l’estrazione in blocco `e evidente che, considerando i casi possibili e quelli favorevoli:
P(X = x) =
C
x
r
C
y
s
C
n
N
,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 43
formula che fornisce la densit` a della v.a. ipergeometrica X.
Infatti C
n
N
`e il numero dei campioni possibili; i campioni favorevoli si costruiscono ad esempio
prima selezionando x individui tra gli r con la caratteristica χ, cosa che si pu` o fare in C
x
r
modi
diversi e poi completando il campione con y individui selezionati tra gli s privi della caratter-
istica χ, cosa che si pu` o fare in C
y
s
modi diversi. Per ciascuna delle prime C
x
r
selezioni si ha
sempre lo stesso numero C
y
s
di seconde selezioni possibili; dunque il numero totale di campioni
favorevoli si ottiene moltiplicando i due coefficienti binomiali. (Il numero di campioni favorevoli
si pu` o mettere in corrispondenza biunivoca con R×S,dove R `e l’insieme dei sottoinsiemi formati
da x elementi di un insieme di r elementi, e S `e l’insieme dei sottoinsiemi formati da y elementi
di un insieme di s elementi.)
Se si conviene che C
k
n
= 0 per k > n, la formula precedente `e valida per qualunque valore di x.
Esempio. Si estraggono casualmente da un mazzo di N = 52 carte n = 5 carte. La probabilit` a
di avere tra le 5 carte esattamente 2 assi `e
C
2
4
C
3
48
C
5
52
∼ 0.0339.
Non `e facile calcolare le caratteristiche della v.a. X direttamente dalla densit` a. Meglio scom-
porre X in v.a. semplici che si presentano naturalmente nel
Caso dell’estrazioni successive senza reinserimento.
Introduciamo allora uno spazio di riferimento Ω analogo a quello introdotto per lo schema di
Bernouilli
Ω = {ω | ω = (ω
1
, ω
2
, ...ω
n
), con al pi` u r ω
k
= 1 e al pi` u s ω
k
= 0}.
Si immagina quindi di estrarre successivi elementi dalla popolazione, senza riimmissione, indi-
cando con ω
k
= 1, 0 il fatto che alla k-esima estrazione si `e selezionato un individuo con, o senza,
la caratteristica χ. Si pu` o assegnare, in modo coerente con le ipotesi fatte, una probabilit` a ad
ogni ω; ad esempio se n = 5:
P({(0, 1, 1, 0, 0}) =
s
N
r
N −1
r −1
N −2
s −1
N −3
s −2
N −4
= P({(1, 0, 0, 1, 0}) = ...
Infatti, introducendo le v.a. X
k
(ω) = ω
k
e gli eventi A
k
= {X
k
= 1}, A
c
k
= {X
k
= 0}:
P({0, 1, 1, 0, 0}) = P(A
c
1
∩ A
2
∩ A
3
∩ A
c
4
∩ A
c
5
) = P(A
c
1
)P(A
2
∩ A
3
...A
c
5
|A
c
1
) =
P(A
c
1
)P(A
2
|A
c
1
)P(A
3
∩ ...A
c
5
|A
c
1
∩ A
2
) = ... =
s
N
r
N −1
...
Nei calcolo precedenti si utilizza ripetutamente la regola di calcolo
P(A ∩ B|C) = P(A|C)P(B|A ∩ C) ,
Universit`a di Torino, a.a. 2003-2004
44 Capitolo 2. Variabili aleatoreie reali discrete
che si verifica immediatamente, ricordando la definizione di probabilit` a condizionata
P(A ∩ B ∩ C)
P(C)
=
P(A ∩ C)
P(C)
P(B ∩ (A ∩ C))
P(A ∩ C)
.
Si vede immediatamente che la probabilit` a dell’esempio non dipende dall’ordine delle ω
k
.
Quindi ogni permutazione degli indici 1, 2...n induce una bijezione π : Ω → Ω tale che P(ω) =
P(π(ω)). Allora le v.a. X
k
(ω) = ω
k
hanno tutte la stessa distribuzione, quella ad esempio di
X
1
:
P(X
1
= 1) =
r
N
, P(X
1
= 0) =
s
N
e quindi
E(X
1
) =
r
N
, E(X
1
2
) = E(X
1
) =
r
N
.
Infatti, se ad esempio π scambia ω
j
con ω
k
e lascia fisse le altre componenti, posto ω

= π(ω),
si ha
P(X
j
= 1) =

ω∈{ω|ωj=1}
P(ω) =

ω∈{ω|ωj=1}
P(π(ω)) =

ω

∈{ω



k
=1}
P(ω

) = P(X
k
= 1) .
I campioni ω con lo stesso numero x di individui con la caratteristica χ sono in numero di C
x
n
,
dunque
P(X = x) = C
x
n
r(r −1)...(r −x + 1)s(s −1)...(s −y + 1)
N(N −1)...(N −n + 1)
,
che coincide con il valore precedentemente calcolato per altra via, come si verifica facilmente
(x +y = n, r +s = N):
_
r
x
__
s
y
_
_
N
n
_ =
n!(N −n)!
N!
r!
x!(r −x)!
s!
y!(s −y)!
=
=
n!
x!(n −x)!
r(r −1)...(r −x + 1)s(s −1...(s −y + 1)
N(N −1)...(N −n + 1)
.
Analogamente, sempre per la permutabilit` a delle ω
k
a parit` a di probabilit` a, per j = k
P(X
j
X
k
= 1) = P(X
1
X
2
= 1) =
r
N
r −1
N −1
.
Allora essendo X = X
1
+X
2
+... +X
n
, risulta
E(X) =

k
E(X
k
) =
nr
N
,
E(X
2
) = E(

k
X
2
k
+

i=j
X
i
X
j
) = n
r
N
+n(n −1)
r
N
r −1
N −1
,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 45
V (X) = σ
2
= E(X
2
) −E(X)
2
=
nrs
N
2
N −n
N −1
.
Infatti
n
r
N
+n(n −1)
r
N
r −1
N −1

n
2
r
2
N
2
=
=
nr
N
2
(N −1)
(N(N −1) +N(n −1)(r −1) −(N −1)nr) =
=
nr
N
2
(N −1)
(N
2
−N +Nnr −Nr −Nn +N −Nnr +nr) =
=
nr
N
2
(N −1)
(N(N −r) −n(N −r)) .
Pi` u in generale si consideri la situazione seguente: una popolazione di N individui `e divisa
in l strati , rispettivamente di S
1
, S
2
, ..., S
l
elementi: S
1
+S
2
+... +S
l
= N . Si estrae “a caso
un campione ω di n elementi (n ≤ N) . Lo spazio di riferimento Ω `e in questo caso l’insieme
di tutti i possibili campioni:
card(Ω) =
_
N
n
_
.
Dicendo che si procede ad una scelta casuale di un campione si intende che tutti i possibili
campioni sono equiprobabili:
P({ω}) = p = 1/
_
N
n
_
.
Sia X
j
(ω) la v.a. che conta il numero di elementi di ω appartenenti allo strato j-esimo :
X
1
(ω) +X
2
(ω) +... +X
l
(ω) = n .
Dati dei numeri 0 ≤ x
j
≤ S
j
tali che x
1
+ x
2
+ ... + x
l
= n si chiede la probabilit` a P(A) che,
eseguita l’estrazione, risulti X
j
(ω) = x
j
per ogni j, dove
A = {ω | X
j
(ω) = x
j
j = 1, 2, ..., l}) .
`
E sufficiente contare il numero di elementi ω di A. Ogni campione ω ∈ A si pu` o costruire con
la procedura seguente: si selezionano arbitrariamente x
1
elementi dal primo strato, x
2
elementi
dal secodo strato ... x
l
elementi dal l-esimo strato. Questa procedura produce una sola volta
tutti gli elementi di A, quindi:
card(A) =
_
S
1
x
1
__
S
2
x
2
_
...
_
S
l
x
l
_
.
La probabilit` a richiesta `e dunque:
P(A) =
_
S
1
x
1
__
S
2
x
2
_
...
_
S
l
x
l
_
_
N
n
_ =
(
n!
x
1
!x
2
!...x
l
!
(N −n)!
(S
1
−x
1
)!(S
2
−x
2
)!...(S −l −x
l
)!
)/
N!
S
1
!S
2
!...S
l
!
.
Universit`a di Torino, a.a. 2003-2004
46 Capitolo 2. Variabili aleatoreie reali discrete
2.13 Limite della distribuzione ipergeometrica per N →+∞
Se facciamo crescere il numero N di individui della popolazione, mantenendo il rapporto
r/N = p costante, e quindi costante il rapporto (N−r)/N = q, al limite troviamo la distribuzione
binomiale, di parametri n e p:
C
x
n
r(r −1)...(r −x + 1)s(s −1)...(s −y + 1)
N(N −1)...(N −n + 1)
→C
x
n
p
x
q
y
,
E(X) = n
r
N
→np , V (X) =
nrs
N
2
N −n
N −1
→ npq ,
restando n ed x costanti, e quindi costante y = n −x.
2.14 Distribuzione di Poisson qual limite della distribuzione binomiale
Facciamo tendere a +∞il numero delle prove indipendenti, facendo simultaneamente tendere
a 0 la probabilit` a di successo nella singola prova, in modo che il prodotto np = λ resti costante:
f
n
(k) = C
k
n
p
k
q
n−k
=
n(n −1)...(n −k + 1)
k!
λ
k
n
k
(1 −
λ
n
)
n−k
=
=
λ
k
k!
(1 −
λ
n
)
n
(1 −
1
n
)(1 −
2
n
)...(1 −
k −1
n
)(1 −
λ
n
)
−k
→φ(k) =
λ
k
k!
e
−λ
, k = 0, 1, 2, ...
La funzione φ(k) `e una densit` a
e
−λ
+∞

k=0
λ
k
k!
= e
−λ
e
λ
= 1 .
Una variabile aleatoria X che abbia tale densit` a si dice variabile di Poisson .
`
E facile calcolarne
le caratteristiche:
m
X
(t) = E(e
tX
) =
+∞

k=0
e
tk
λ
k
k!
e
−λ
= e
−λ
+∞

k=0
(λe
t
)
k
k!
= e
λ(e
t
−1)
,
m
X
(0) = 1 ,
Dm
X
(t)|
t=0
= λe
t
m
X
(t)|
t=0
= λ ,
D
2
m
X
(t)|
t=0
= (λe
t
)
2
m
X
(t)|
t=0
+λe
t
m
X
(t)|
t=0
= λ
2
+λ ,
dunque
E(X) = λ ,
V (X) = λ
2
+λ −λ
2
= λ , σ
X
=

λ .
Quaderni Didattici del Dipartimento di Matematica
Capitolo 3
Variabili aleatorie reali di tipo
generale e variabili continue
3.1 Distribuzione, indipendenza
Ricordiamo che, se (Ω, A, P) uno spazio di probabilit` a, si dice variabile aleatoria reale
(v.a.) ogni funzione
X : Ω −→ R
misurabile, cio`e tale che
∀cǫR {ωǫΩ | X(ω) < c}ǫA.
Definizione. La funzione reale di variabile reale
F(x) = P(X < x)
si dice distribuzione della v.a. X.
L’insieme { X < x } non decresce al crescere di x e quindi F `e una funzione monotona non
decrescente. Inoltre
∅ = ∩
n≥1
{ X < −n } , Ω = ∪
n≥1
{ X < n }
e per le propriet` a di continuit` a della misura di probabilit` a
lim
x→−∞
F(x) = 0 , lim
x→+∞
F(x) = 1 .
Essendo F(x) una funzione monotona, ammette in ogni punto limite destro F(x + 0) e limite
sinistro F(x − 0) e l’insieme dei punti di discontinuit` a (salti) `e al pi` u numerabile. Con la
definizione adottata, F risulta continua a sinistra: F(x) = F(x−0). Infatti per ogni successione
di numeri positivi a
n
tendenti a 0 in modo decrescente
F(x) = P({X < x}) = P(∪
n
{X < x −a
n
}) = lim
n
P({X < x −a
n
}) = lim
n
F(x −a
n
) ,
47
48 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
per la monotonia della successione {X < x −a
n
} e la continuit` a di P.
Alcuni autori adottano la definizione: F(x) = P({X ≤ x}). In tal caso F risulta continua a
destra: F(x) = F(x + 0).
La distribuzione determina univocamente la probabilit` a di tutti gli eventi concernenti la v.a.
Pi` u precisamente vale la
Proposizione. Se X e Y hanno la stessa distribuzione F, per ogni Boreliano B di R
(B ∈ B) risulta
P({ ω | X(ω) ∈ B}) = P({ ω | Y (ω) ∈ B}) .
* * *
Dimostrazione. La tesi si pu` o scrivere nella forma P(X
−1
(B)) = P(Y
−1
(B)). Consideriamo
allora la famiglia di sottoinsiemi di R
P = { A | P(X
−1
(A)) = P(Y
−1
(A)) } .
Essa `e una σ-algebra, perch´e se A, A
n
∈ P, con le A
n
disgiunte, si ha
P(X
−1
(A
c
)) = P(X
−1
(A)
c
) = 1 −P(X
−1
(A)) =
= 1 −P(Y
−1
(A)) = P(Y
−1
(A)
c
) = P(Y
−1
(A
c
)) ,
P(X
−1
(∪
n
A
n
)) = P(∪
n
X
−1
(A
n
)) =

n
P(X
−1
(A
n
)) =
=

n
P(Y
−1
(A
n
)) = P(∪
n
Y
−1
(A
n
)) = P(Y
−1
(∪
n
A
n
)) .
Gli intervalli ] −∞, c[ appartengono per ipotesi a P. Ma B `e la minima σ-algebra alla quale tali
intervalli appartengono e quindi B ⊆ P. q.e.d.
& & &
La misura µ definita sui Boreliani di R da
µ(B) = P(X
−1
(B))
`e la legge di X. Alcuni autori chiamano µ distribuzione di X e allora F funzione di distribuzione.
Definizione. X e Y si dicono indipendenti se e solo se, prefissati comunque gli intervalli
[a, b[ e [c, d[, gli eventi
B = {a ≤ X < b} e C = {c ≤ Y < d}
sono indipendenti (P(B ∩ C) = P(B)P(C)).
Si pu` o vedere che `e sufficiente chiedere che gli eventi
U(x) = {X < x} e V (y) = {Y < y}
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 49
siano indipendenti per arbitrari varori reali di x e y. (Si ossrvi che ad esempio B = U(b) −U(a)
e U(a) ⊆ U(b)).
* * *
Ricordiamo che, data una famiglia F di sottoinsiemi, si indica con σ(F) la pi` u piccola σ-
algebra contenete F. Essa viene detta la σ-algebra generata da F . La defnizione `e corretta
perch`e si vede facilmente che:
1) Se {A
t
}
t∈T
, dove T `e un insieme arbitrario, `e una collezione di σ-algebre, allora ∩
t∈T
A
t
`e
ancora una σ-algebra.
2) Esiste almeno una σ-algebra contenete F , ad esempio P(X) .
Dunque σ(F) `e l’intersezione di tutte le σ-algebre contenenti F .
Sia X : Ω → S una applicazione ovunque definita e A una σ-algebra in S. Allora si vede
facilmente che anche X
−1
(A) `e una σ-algebra in Ω .
Sia X : Ω →S una applicazione ovunque definita. Allora si pu` o dimostrare che
σ(X
−1
(F)) = X
−1
(σ(F)) .
In uno spazio topologico i Boreliani sono gli elementi della σ-algebra generata dagli aperti
(o, equivalentemente, dai chiusi)
Se B `e la famiglia dei Boreliani di R e X : Ω →R `e una v.a. reale, la σ-algebra generata da
X `e definita da
σ(X) = σ(X
−1
(B)) = X
−1
(σ(B)) = X
−1
(B) .
Si dice che due famiglie di eventi F e G sono indipendenti se e solo se ogni F ∈ F e ogni
G ∈ G sono indipendenti: P(F ∩ G) = P(F)P(G).
Proposizione. Due v.a. reali X e Y sono indipendenti se e solo se σ(X) e σ(Y ) sono
indipendenti.
Premettiamo alla dimostrazione alcuni importanti risultati.
Definizione. Una famiglia F di sottoinsiemi di Ω si dice che `e una λ-classe se e solo se
Ω ∈ F e:
1) F, G ∈ F , F ⊆ G ⇒G−F ∈ F ;
2) F
n
∈ F , F
j
∩ F
k
= ∅ (j = k) ⇒∪
n
F
n
∈ F .
In luogo di 2) si pu` o invece chiedere
2

) F
n
∈ F , F
n
⊆ F
n+1
⇒∪
n
F
n
∈ F .
Universit`a di Torino, a.a. 2003-2004
50 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Infatti gli insiemi F
n+1
−F
n
∈ F per 1) e la loro unione `e disgiunta e coincide con quella degli F
n
.
Proposizione. Se {F
t
}
t∈T
, dove T `e un insieme arbitrario, `e una collezione di λ-classi,
allora ∩
t∈T
F
t
`e ancora una λ-classe.
La dimostrazione consiste in verifiche immediate.
Si indica con λ(F) la λ-classe generata da F, cio`e la pi` u piccola λ-classe contenente F.
Teorema. Sia C una collezione arbitraria di eventi. La famiglia F di tutti gli eventi che
sono indipendenti da ogni elemento C ∈ C `e una λ-classe.
Dimostrazione. Basta vedere che la famiglia F
C
degli eventi indipendenti da C `e una λ-classe,
perch`e
F = ∩
C∈C
F
C
.
In primo luogo osserviamo che Ω `e indipendente da C. Siano poi G, F, F
n
∈ F
C
, con F ⊆ G e
gli F
n
disgiunti:
P((G−F) ∩ C) = P(G∩ C −F ∩ C) = P(G∩ C) −P(F ∩ C) =
= P(G)P(C) −P(F)P(C) = P(G−F)P(C) ;
P((∪
n
F
n
) ∩ C) = P(∪
n
(F
n
∩ C)) =

n
P(F
n
∩ C) =
=

n
P(F
n
)P(C) = P(∪
n
F
n
)P(C) q.e.d..
Definizione. Una famiglia di eventi F si dice π-sistema se e solo se `e chiusa per intersezioni
finite:
F, G ∈ F ⇒F ∩ G ∈ F .
Proposizione. Se una famiglia di eventi F `e sia una λ-classe che un π-sistema, allora essa
`e una σ-algebra.
Dimostrazione. Essendo F una λ-classe si ha
A ∈ F ⇒A
c
= Ω −A ∈ F .
Inoltre, se A
n
∈ F, definendo
S
1
= A
1
, S
n+1
= S
n
∪ (A
n+1
−A
n+1
∩ S
n
) ,
si vede per induzione che S
n
∈ F (sono presenti soltanto intersezioni finite, differenze tra un
insieme ed un suo sottoinsieme e unioni disgiunte). Ma allora

n
A
n
= ∪
n
S
n
∈ F ,
perch`e le S
n
sono una successione monotona. q.e.d.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 51
Teorema (sulle λ-classi o sulle classi monotone). Se F `e un π-sistema allora λ(F) =
σ(F).
Dimostrazione. Sia
H = { H ∈ λ(F) | ∀F ∈ F H ∩ F ∈ λ(F) } .
Ovviamente λ(F) ⊇ (H ⊇ F. Inoltre H `e una λ-classe:
G, H ∈ H , H ⊆ G ⇒G−H ∈ λ(F) e
∀F ∈ F (G−H) ∩ F = G∩ F −H ∩ F ∈ λ(F) ,
quindi G−H ∈ H;
H
n
∈ H , H
n
⊆ H
n+1
⇒∪
n
H
n
∈ λ(F) , ∀F ∈ F (∪
n
H
n
) ∩ F = ∪
n
(H
n
∩ F) ∈ λ(F) .
Allora H = λ(F). Sia poi
K = { K ∈ H = λ(F) | ∀H ∈ λ(F) K ∩ H ∈ λ(F) } .
Per la prima parte della dimostrazione K ⊇ F. Inoltre K `e una λ-classe:
M, K ∈ K , K ⊆ M ⇒M −K ∈ λ(F) e
∀H ∈ λ(F) (M −K) ∩ H = M ∩ H −K ∩ H ∈ λ(F) ,
quindi M −K ∈ K;
K
n
∈ K , K
n
⊆ K
n+1
⇒∪
n
K
n
∈ λ(F) , ∀H ∈ λ(F) (∪
n
K
n
) ∩ H = ∪
n
(K
n
∩ H) ∈ λ(F) .
Allora K = λ(F) e, poich´e K `e un π-sistema, K `e una σ-algebra contenete F. D’altra parte
ovviamente λ(F) ⊆ σ(F) (tutti gli insiemi della prima classe devono essere presenti nella sec-
onda) e finalmente K = λ(F) = σ(F). q.e.d.
Possiamo ora dimostrare che se due v.a. (reali) X e Y sono indipendenti allora σ(X) e σ(Y )
sono indipendenti.
Dimostrazione. Sia R la famiglia degli intervalli aperti e semi-infiniti inferiormente di R, pre-
cisamente la famiglia degli insiemi ] −∞, c[, con c reale arbitrario. σ(R) = B, cio`e i Boreliani di
R sono generati da R. Ovviamente R `e un π-sistema e tali sono dunque le famiglie X
−1
(R) e
Y
−1
(R), indipendenti per ipotesi. Sia
Y = { F | F `e indipendente da X
−1
(R) } .
Essendo Y una λ-classe contenete il π-sistema Y
−1
(R), si ha
Y ⊇ λ(Y
−1
(R)) = σ(Y
−1
(R)) = Y
−1
(σ(R)) = Y
−1
(B) = σ(Y ) .
Dunque X
−1
(R) e σ(Y ) sono indipendenti. Sia ora
X = { E | E `e indipendente da σ(Y ) } .
Universit`a di Torino, a.a. 2003-2004
52 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Essendo X una λ-classe contenete il π-sistema X
−1
(R), si ha
X ⊇ λ(X
−1
(R)) = σ(X
−1
(R)) = X
−1
(σ(R)) = X
−1
(B) = σ(X) .
Dunque σ(X) e σ(Y ) sono indipendenti. q.e.d.
& $ &
Pi` u in generale:
Definizione. Le v.a. X
1
, X
2
, ...X
n
si dicono indipendenti (mutuamente) se e solo se
prefissati comunque gli intervalli [a
1
, b
1
[, [a
2
, b
2
[, ...[a
n
, b
n
[ , gli eventi
B
1
= {a
1
≤ X
1
< b
1
} , B
2
= {a
2
≤ X
2
< b
2
} , ... B
n
= {a
n
≤ X
n
< b
n
}
sono mutuamente indipendenti.
`
E sufficiente chiedere che per valori reali arbitrari x
1
...x
n
gli eventi
U(x
1
) = {X
1
< x
1
}...U(x
n
) = {X
n
< x
n
}
siano mutuamente indipendenti.
* * *
Le famiglie F
j
, j = 1, 2...n, si dicono mutuamente indipendenti se per ogni scelta di A
j
∈ F
j
gli eventi A
1
, A
2
, ...A
n
risultano mutuamente indipendenti.
Le v.a. (reali) X
1
, X
2
, ...X
n
sono mutuamente indipendenti se e solo se le σ-algebre da esse
generate σ(X
1
), σ(X
2
), ...σ(X
n
) sono mutuamente indipendenti.
& & &
Osservazione. Per alcuni risultati `e sufficiente che le v.a. X
j
siano a due a due indipendenti
e non necessariamente indipendenti (mutuamente).
3.2 Valor medio
Definizione. Sia X una v.a. Si dice valor medio o speranza matematica E(X) di X
l’integrale di X su Ω rispetto alla misura di probabilit` a P.
Tale integrale, se esiste, `e definto come limite di somme (o serie) integrali. Per esempio,
posto
A
k
n
= {ωǫΩ |
k
n
≤ X(ω) <
k + 1
n
} .
si ha
E(X) =
_

XdP = lim
n

kǫZ
k
n
P(A
k
n
) .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 53
Le serie che compaiono nella formula devono essere assolutamente convergenti (ricordiamo che
la convergenza assoluta `e condizione necessaria e sufficiente per l’indipendenza della somma
dall’ordine dei termini della serie: non vogliamo che la definizione di valor medio dipenda dal-
l’ordine con il quale i valori approssimanti (k/n nell’esempio) sono presi in esame).
Si indica l’integrale anche con la notazione
_

X(ω)dP(ω) .
Se X
n
`e la v.a. discreta che assume il valore k/n sull’insieme A
k
n
(le A
j
n
, jǫZ , costituis-
cono una partizione di Ω), X
n
converge uniformemente a X su Ω. Infatti per ogni ω risulta
|X
n
(ω) −X(ω)| <
1
n
.
Pi` u in generale possiamo considerare una qualunque successione di v.a. discrete X
n
tali che
1) X
n
→ X uniformemente in Ω :
∀ε > 0 ∃ν ∀n > ν ∀ωǫΩ |X
n
(ω) −X(ω)| < ε ;
2) X
n
ammette valor medio: E(X
n
) =

k
x
k
n
P(B
k
n
) ,
dove x
k
n
`e il valore costante assunto da X
n
su B
k
n
, le B
k
n
costituiscono una partizione di Ω e si
chiede che la serie converga assolutamente . Allora:
E(X) =
_

XdP = lim
n
E(X
n
).
Infatti `e facile verificare che:
a) la convergenza uniforme delle X
n
implica la convergenza delle E(X
n
), in quanto
|E(X
n
) −E(X
m
)| ≤
_

|X
n
−X
m
|dP ≤ ε se n, m ≥ ν opportuno ,
essendo X
n
di Cauchy; dunque E(X
n
) `e di Cauchy in R e quindi converge ad un limite l;
b) il limite non dipende dalla successione approssimante, perch`e se Y
n
converge uniforme-
mente ad X ed E(Y
n
) converge a m, anche la successione mista X
1
, Y
1
, X
2
, Y
2
, ... converge
unifomemente a X; pertanto la successione E(X
1
), E(Y
1
), ... deve convegere e allora necessaria-
mente a l = m.
`
E inoltre chiaro che se X `e discreta e prende i valori x
k
sugli eventi B
k
, il suo valor medio pu´ o
essere definito sia direttamente, sia come integrale:
E(X) =

k
x
k
P(B
k
) =
_

XdP ,
basta infatti pensare X come limite uniforme della successione approssimante costante X, X, ....
Universit`a di Torino, a.a. 2003-2004
54 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Le propriet` a di linearit` a si conservano nel passaggio al limite e dunque
E(λX +µY ) = λE(X) +µE(Y ) .
Inoltre, se indichiamo, ricorrendo al consueto abuso di linguaggio, con c la v.a. costante uguale
a c, abbiamo
E(1) = 1 , E(X −E(X)) = 0 .
Non `e vero in generale che il valor medio del prodotto sia uguale al prodotto dei valori medi,
ma una condizione sufficiente `e che X e Y siano indipendenti. In tal caso
E(XY ) = E(X)E(Y ) .
Dimostriamo che E(XY ) = E(X)E(Y ) se X e Y sono indipendenti, supponendo per semplicit` a
che siano v.a. limitate. Poniamo
B
j
n
= {
j
n
≤ X <
j + 1
n
} , C
k
n
= {
k
n
≤ Y <
k + 1
n
} ,
A
j,k
n
= B
j
n
∩ C
k
n
= {
j
n
≤ X <
j + 1
n
e
k
n
≤ Y <
k + 1
n
} ,
X
n
=
j
n
su B
j
n
, Y
n
=
k
n
su C
k
n
,
e quindi
X
n
Y
n
=
jk
n
2
su A
j,k
n
.
La v.a. X
n
Y
n
`e discreta e tende uniformemente a XY :
|XY −X
n
Y
n
| ≤ |X −X
n
||Y | +|X
n
||Y −Y
n
| ≤
1
n
(sup |X| + 1 + sup|Y |) ,
per n sufficientemente grande perch´e si abbia |X
n
| ≤ |X| + 1.
Poich`e X e Y sono indipendenti
P(A
j,k
n
) = P(B
j
n
)P(C
k
n
) e
E(X
n
Y
n
) =

j,k
jk
n
2
P(A
j,k
n
) =

j,k
jk
n
2
P(B
j
n
)P(C
k
n
) =
= (

j
j
n
P(B
j
n
))(

k
k
n
P(C
k
n
)) = E(X
n
)E(Y
n
)
(la famiglia di numeri jk/n
2
P(A
j,k
n
) `e sommabile) e quindi passando al limite si ottiene il risul-
tato. q.e.d.
La nozione di valor medio acquista particolare significato alla luce del
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 55
Legge forte dei grandi numeri (Kolmogorov). Siano X
1
, X
2
, ... v.a. indipendenti e
con la stessa distribuzione della v.a. X. Allora esiste µ ∈ R tale che
P( lim
n→+∞
X
1
+X
2
+... +X
n
n
= µ) = 1
se e solo se X ammette valor medio E(X) =
_

XdP. In tal caso E(X) = µ.
Osserviamo che, se due v.a. X e Y hanno la stessa distribuzione F, allora E(X) = E(Y ).
Infatti, per ogni n, k risulta
P({ωǫΩ |
k
n
≤ X(ω) <
k + 1
n
}) = P({ωǫΩ |
k
n
≤ Y (ω) <
k + 1
n
})
e basta allora riferirsi alla definizione dell’integrale di X e di Y .
3.3 Variabili aleatorie continue
La v.a. si dice continua se esiste una funzione reale di variabile reale f(x) integrabile (nel
senso di Lebesgue), detta densit` a di X, tale che per ogni intervallo [a, b[ si abbia
P(a ≤ X < b) =
_
b
a
f(x)dx .
`
E equivalente chiedere che per ogni xǫR si abbia
F(x) = P(X < x) =
_
x
−∞
f(t)dt .
Valgono ovviamente le seguenti propriet` a
f(x) ≥ 0 ,
_
+∞
−∞
f(x)dx = 1 ,
F `e continua (assolutamente) e P(a ≤ X < b) = F(b) − F(a) .
Se B `e un qualunque insieme Boreliano di R, risulta
P(XǫB) =
_
B
f(x)dx .
Essendo f integrabile, per l’assoluta continuit` a del’integrale, se la misura di B tende a 0 allora
P(XεB) tende a 0. Questo dimostra la continuit` a di F e permette di osservare che per ogni
valore x
P(X = x) = 0 .
Naturalmente, pur valendo l’additivit` a numerabile, ma non essendo numerabile l’insieme dei
punti di un intervallo [a, b[ di R, P([a, b[) pu` o essere diverso da 0 senza alcuna contraddizione.
Universit`a di Torino, a.a. 2003-2004
56 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Se la v.a. X ammette la densit` a f, risulta
E(X) =
_

XdP =
_
R
xf(x)dx .
Infatti, posto A
k
n
= {
k
n
≤ X <
k+1
n
}, si ha
_

XdP = lim
n

k
k
n
P(A
k
n
) = lim
n

k
k
n
_ k+1
n
k
n
f(x)dx ,
ma
|
k
n
_ k+1
n
k
n
f(x)dx −
_ k+1
n
k
n
xf(x)dx| ≤
1
n
_ k+1
n
k
n
f(x)dx ,
dunque, sommando su k e usando la disuguaglianza triangolare
|

k
k
n
_ k+1
n
k
n
f(x)dx −
_
R
xf(x)dx| ≤
1
n
_
R
f(x)dx =
1
n
.
Passando al limite per n →0 si ottiene il risultato.
3.4 Funzioni di variabili aleatorie
Sia H(x) una funzione reale di variabile reale Boreliana, cio`e tale che se B ⊆ R `e un Bore-
liano di R, allora H
−1
(B) `e ancora un Boreliiano di R. Perch`e H sia Boreliana `e sufficiente che
per ogni c H
−1
(]−∞, c[) sia un insieme di Borel.
`
E noto che le funzioni continue sono Boreliane.
Definiamo la v.a. H(X) “funzione della v.a. X mediante la relazione
H(X)(ω) = H(X(ω)) ovvero H(X) = H ◦ X .
Se X `e continua ed f `e la sua densit` a, il valor medio di H si pu` o calcolare nel modo seguente
E(H(X)) =
_
+∞
−∞
H(x)f(x)dx purch`e
_
+∞
−∞
|H(x)|f(x)dx < +∞ .
Sia infatti
B
j
n
= {ω|
j
n
≤ H(X(ω)) <
j + 1
n
} = {ω|X(ω) ∈ I
j
n
= H
−1
([
j
n
,
j + 1
n
[)}
e dunque
P(B
j
n
) =
_
I
j
n
f(x)dx ,
allora
|

j
j
n
P(B
j
n
) −

j
_
I
j
n
H(x)f(x)dx| ≤

j
_
I
j
n
|
j
n
−H(x)|f(x)dx ≤
1
n
,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 57
ma la prima serie converge a
_

H(X)dP, mentre la seconda, per la σ−additivit` a dell’integrale
`e uguale a
_
R
H(x)f(x)dx. Dunque per n →+∞ si ha
E(H(X)) =
_

H(X)dP =
_
R
H(x)f(x)dx .
La distribuzione di H `e G(y) = P(H(X) < y) .
Osservazione. Se due v.a. X e Y hanno la stessa distribuzione F e h `e una funzione
Boreliana da R in R (cio`e tale che per ogni Boreliano B si ha che h
−1
(B) `e un Boreliano) allora
le v.a. h(X) e h(Y ) hanno la stessa distribuzione.
Infatti, se B `e il Boreliano h
−1
(] −∞, c[))}, risulta
F
h(X)
(c) = P({h(X) < c}) = P({X
−1
(h
−1
(] −∞, c[)}) = P({X
−1
(B)}) =
P({Y
−1
(B)}) = P({Y
−1
(h
−1
(] −∞, c[)}) = P({h(Y ) < c}) = F
h(Y )
(c) ,
perch´e, avendo X e Y la stessa distribuzione, P({X ∈ B}) = P({Y ∈ B}), qualsiasi c ∈ R.
Di conseguenza E(h(X)) = E(h(Y )).
La distribuzione G di H(X) pu` o essere eventualmente continua ed ammettere una densit` a
g:
G(y) =
_
y
−∞
g(t)dt .
In tal caso, se si dispone di g, si pu` o calcolare E(H(X)) anche mediante la formula
E(H(X)) =
_
R
g(y)dy .
Se ad esempio H(x) = x
2
ed f `e la densit` a di X, per c > 0 si ha
G(c) = P(X
2
< c) = P(−

c < X < +

c) =
_
+

c


c
f(x)dx ,
e, posto y = x
2
, quindi x = ±

y , dy = 2xdx , dx = dy/(±2

y) :
G(c) = −
_
0
c
f(−

y)
2

y
dy +
_
c
0
f(

y)
2

y
dy =
_
c
0
f(

y) +f(−

y)
2

y
dy .
Dunque la densit` a di X
2
`e
g(y) =
_
0 y ≤ 0
f(

y)+f(−

y)
2

y
y > 0
.
Universit`a di Torino, a.a. 2003-2004
58 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Se X e Y sono v.a. reali indipendenti e f e g sono funzioni Boreliane da R in R, allora si
pu` o dimostrare che f(X) e g(Y ) sono indipendenti.
* * *
Indicando, come al solito, con B i Boreliani di R, si ha
σ(f(X)) = {(f ◦ X)
−1
(B)}
B∈B
= {X
−1
(f
−1
(B))}
B∈B
⊆ {X
−1
(B)}
B∈B
= σ(X) ,
perch´e gli eventi f
−1
(B) sono alcuni dei (in qulache caso tutti i) Boreliani.
Allora σ(f(X)) e σ(g(Y )) sono famiglie indipendenti in quanto sottofamiglie rispettivamente di
σ(X) e σ(Y ).
& & &
3.5 Varianza
Per variabili aleatorie reali X arbitrarie la varianza V (X) `e
V (X) = E((X −E(X))
2
) =
_

(X −E(X))
2
dP .
Se X `e continua, con densit` a f, indicando con µ la media di X, si ha
V (X) =
_
R
(x −µ)
2
f(x)dx .
La varianza si pu` o calcolare mediante la formula
V (X) = E(X
2
) −E(X)
2
.
Infatti
E((X −E(X))
2
) = E(X
2
−2XE(X) +E(X)
2
) = E(X
2
) −2E(X)E(X) +E(X)
2
.
Per la varianza valgono le propriet` a:
V (λX) = λ
2
V (X) ;
e se le v.a. X, Y sono indipendenti
V (X +Y ) = V (X) +V (Y ) .
Infatti
E((λX −E(λX))
2
) = E(λ
2
(X −E(X))
2
) ;
E((X+Y −E(X+Y ))
2
) = E((X−E(X))
2
)+2E((X−E(X))(Y −E(Y )))+E((Y −E(Y ))
2
) =
= E((X −E(X))
2
) +E((Y −E(Y ))
2
) ,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 59
perch`e il valor medio centrale, vista l’indipendenza di X, Y , `e il prodotto dei valori medi, en-
trambi nulli.
Affinch´e la varianza della somma di due v.a. X e Y sia uguale alla somma delle loro varianze `e
sufficiente (e necessario) che X e Y abbiano covarianza nulla:
Cov(X, Y )
def
= E((X −E(X))(Y −E(Y ))) = 0 .
Ovviamente, se X e Y sono indipendenti, esse hanno covarianza nulla.
Pi` u in generale, se X
1
, X
2
..., X
n
sono a due a due indipendenti, indicando la loro media
aritmentica con
M
n
=
X
1
+X
2
+... +X
n
n
,
si ha
E(M
n
) =
1
n

k
E(X
k
) , V (M
n
) =
1
n
2

k
V (X
k
) .
In particolare, se tutte le v.a. X
k
hanno la stessa media µ e varianza σ
2
E(M
n
) = µ , V (M
n
) =
σ
2
n
.
3.6 Disuguaglianza di Chebyshev
Se X `e una v.a. reale ≥ 0 e dotata di media µ > 0 finita, per ogni c > 0 vale la disuguaglianza
di Markov
P(X ≥ cµ) ≤
1
c
Infatti
µ =
_
{ω|X(ω)<cµ}
X(ω)dP(ω) +
_
{ω|X(ω)≥cµ}
X(ω)dP(ω) ≥
≥ cµ
_
{ω|X(ω)≥cµ}
dP(ω) = cµP(X ≥ cµ) .
Se X ammette la densit` a f si ha naturalmente
P(X ≥ cµ) =
_
+∞

f(x)dx ,
che si pu` o stimare in modo pi` u preciso disponendo di opportune approssimazioni di f .
La disuguaglianza di Chebychev per una v.a. dotata media µ e di varianza σ
2
finite,
afferma che
P(|X −µ| ≥ cσ) ≤
1
c
2
.
Essa si pu` o dedurre immediatamente ponendo Y = (X − µ)
2
, per la quale E(Y ) = σ
2
, e
applicando a Y la disuguaglianza di Markov, perch`e
P(|X −µ| ≥ cσ) = P(Y ≥ c
2
σ
2
) .
Universit`a di Torino, a.a. 2003-2004
60 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Se X ammette la densit` a f si ha naturalmente
P(|X −µ| ≥ cσ) =
_
µ−cσ
−∞
f(x)dx +
_
+∞
µ+cσ
f(x)dx .
Se ad esempio se X ∼ N(µ, σ
2
) (v. sezione 10), introducendo Y = σ
−1
(X−µ), che `e normale
standard, si trova
P(|X −µ| ≤ σ) = P(|Y | ≤ 1) = 1 −2Φ(−1) = 1 −2
_
−1
−∞
e

t
2
2


dt ∼ 0.6826 ,
P(|X −µ| ≤ 2σ) = P(|Y | ≤ 2) = 1 −2Φ(−2) = 1 −2
_
−2
−∞
e

t
2
2


dt ∼ 0.9544 ,
P(|X −µ| ≤ 3σ) = P(|Y | ≤ 3) = 1 −2Φ(−3) = 1 −2
_
−3
−∞
e

t
2
2


dt ∼ 0.9974 .
3.7 Funzione generatrice dei momenti
Per una v.a. X si indica con m
X
la funzione generatrice dei momenti , definita da
m
X
(t) = E(e
tX
) =
_

e
tX
dP ,
per tutti i valori di t per i quali l’integrale converge. Se X ammette la densit` a f, allora
m
X
(t) =
_
+∞
−∞
e
tx
f(x)dx .
Supponiamo che esista t
0
> 0 tale che l’integrale precedente converga per ±t
0
, allora m
X
(t) `e
definita in [−t
0
, t
0
] ed X ammette momenti E(X
k
) di qualsiasi ordine:
_
+∞
−∞
|x|
k
f(x)dx ≤
k!
t
k
0
(
_
0
−∞
e
−t0x
f(x)dx +
_
+∞
0
e
t0x
f(x)dx) .
Si osservi che
_
0
−∞
e
−t0x
f(x)dx +
_
+∞
0
e
t0x
f(x)dx =
_
+∞
−∞
e
|t0x|
f(x)dx ,
e che t
k
0
|x|
k
/k! ≤ e
|t0x|
. Inoltre si ha
E(e
tX
) =
+∞

0
t
k
k!
E(X
k
)
per il teorema sulla convergenza dominata:
|
n

0
(tx)
k
k!
| ≤
n

0
|tx|
k
k!
≤ e
|tx|
≤ e
|t0x|
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 61
Dunque, se m
X
(t) `e definita in un intorno di 0, essa `e analitica in t e si ha
E(X
k
) =
d
k
dt
k
m
X
(t)|
t=0
.
Si verificano immediatamente le seguenti regole di calcolo
1) Se Y = aX +b, dove a e b sono costanti
m
Y
(t) = e
bt
m
X
(at) ,
infatti
E(e
(aX+b)t
) = E(e
(at)X
e
bt
) .
2) Se X e Y sono indipendenti si ha
m
X+Y
(t) = m
X
(t)m
Y
(t) ,
infatti
E(e
t(X+Y )
) = E(e
tX
e
tY
) = E(e
tX
)E(e
tY
)
perch`e e
tX
e e
tY
sono indipendenti come X e Y .
Si pu` o dimostrare che due v.a. hanno la stessa distribuzione se hanno la stessa funzione
generatrice dei momenti.
Esempio di applicazione. Se X
1
e X
2
sono v.a. indipendenti con distribuzione di Poisson di
parametri λ
1
e λ
2
, allora X
1
+X
2
ha funzione generatrice dei momenti
e
λ1(e
t
−1)
e
λ2(e
t
−1)
= e
(λ1+λ2)(e
t
−1)
e dunque X
1
+X
2
`e una v.a. di Poisson di parametro (λ
1

2
).
3.8 Distribuzione uniforme
Si dice che la v.a. X ha una distribuzione uniforme sull’intervallo [a, b] se ammette una
densit` a f
X
costante su tale intervallo e nulla fuori di esso:
f
X
(x) =
_
0 x < a oppure x > b
1
b−a
a ≤ x ≤ b .
Il valore costante deve essere
1
b−a
perch`e l’ntegrale di f su R deve valere 1.
In particolare, se si considera l’intervallo [0, 1], la densit` a `e la funzione caratteristica dell’in-
tervallo
f
X
(x) = χ
[0,1]
(x) .
Universit`a di Torino, a.a. 2003-2004
62 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
0
0.1
0.2
0.3
0.4
0.5
-1 1 2 3 4 5
x
Figura 3.1: Densit`a uniforme, con a = 1, b = 3.
La distribuzione `e
F
X
(x) =
_
_
_
0 x < 0
x 0 ≤ x ≤ 1
1 x ≥ 1
.
Per ogni k il momento di ordine k `e
E(X
k
) =
_
1
0
x
k
dx =
1
k + 1
e quindi il valor medio, la varianza e la deviazione standard sono
E(X) =
1
2
, V (X) = E(X
2
) −E(X)
2
=
1
3

1
4
=
1
12
, σ
X
=
1
2

3
.
La funzione generatrice dei momenti `e
E(e
tX
) =
_
1
0
e
tx
dx =
e
t
−1
t
=
+∞

0
t
k
k!(k + 1)
.
I coefficienti della serie permettono di ritrovare immediatamente tutti i momenti di ordine k.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 63
3.9 Distribuzione di Cauchy
Sia A un punto del piano a distanza R > 0 da una retta r: ad esempio, in coordinate cartesiane,
sia r l’asse delle ascisse ed A(0, R). Si lanci un proiettile da A verso r in una direzione “casuale,
nel senso che la direzione di lancio forma con il semiasse negativo delle ordinate un angolo
aleatorio φ distribuito uniformemente nell’intervallo ] −π/2, +π/2[. Il proiettile colpisce r in un
punto di ascissa aleatoria X = R · tan(φ). Allora X `e funzione di φ e
P(a ≤ X < b) = P(arctan(a/R) ≤ φ < arctan(b/R)) =
=
1
π
(arctan(b/R) −arctan(a/R)) =
_
b
a
R
π(R
2
+x
2
)
dx .
0.05
0.1
0.15
0.2
0.25
0.3
-3 -2 -1 0 1 2 3
x
Figura 3.2: Densit`a di Cauchy, con R = 1.
Dunque X ha una distribuzione continua con densit` a
g(x) =
R
π(R
2
+x
2
)
.
Universit`a di Torino, a.a. 2003-2004
64 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
Si dice che X ha una distribuzione di Cauchy .
La v.a. X non ammette valor medio, perch`e l’integrale
_
+∞
−∞
R|x|
π(R
2
+x
2
)
dx
diverge a +∞. A maggior ragione X non ammette momenti di ordine superiore.
3.10 Distribuzione normale o di Gauss
Una v.a. si dice normale di parametri µ, σ
2
, dove σ > 0, se ammette la densit` a
f(x) =
1
σ


e

(x−µ)
2

2
.
Pertanto la distribuzione `e espressa dall’integrale
F(x) =
1
σ


_
x
−∞
e

(x−µ)
2

2
dt ,
che non si pu` o esplicitare in termini di trascendenti elementari.
Per indicare che una v.a. X ha una distribuzione normale di parametri µ, σ
2
si scrive
XǫN(µ, σ
2
) oppure X ∼ N(µ, σ
2
) .
Spesso conviene prendere in considerazione la v.a. ausiliaria normale standard
Y =
X −µ
σ
∼ N(0, 1) .
Infatti
P(a ≤ Y < b) = P(µ +aσ ≤ X < µ +bσ) =
1
σ


_
µ+bσ
µ+aσ
e

(x−µ)
2

2
dx
e quindi, posto y =
x−µ
σ
, dx = σdy, si ha
P(a ≤ Y < b) =
1


_
b
a
e

y
2
2
dy .
Dunque la densit`a normale standard `e
φ(x) =
1


e

x
2
2
e la distribuzione normale standard si indica con
Φ(x) =
1


_
x
−∞
e

t
2
2
dt .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 65
L’integrale improprio `e ovviamente convergente e tende a 0 per x → −∞. Inoltre
2πΦ(+∞)
2
=
_
+∞
−∞
e

x
2
2
dx
_
+∞
−∞
e

y
2
2
dy =
_
R
2
e

(x
2
+y
2
)
2
dxdy =
(ricorrendo a coordinate polari)
=
_

0

_
+∞
0
e

ρ
2
2
ρdρ = 2π[−e

ρ
2
2
]
+∞
0
= 2π .
Dunque Φ(+∞) = 1 e Φ `e effettivamente una distribuzione di probabilit` a.
Nel caso della densit` a normale standard
φ(x) = φ(−x) , φ(0) = (2π)

1
2
`e il valore massimo,
φ

(x) = −(2π)

1
2
xφ(x) , φ
′′
(x) = (2π)

1
2
(x
2
−1)φ(x)
e il grafico di φ ha due flessi simmetrici in ±1.
Nel caso generale, la funzione generatrice dei momenti `e data dall’integrale
m(t) =
1
σ


_
+∞
−∞
e
tx
e

(x−µ)
2

2
dx .
Riscriviamo l’esponente
tx −
(x −µ)
2

2
= −
1

2
(x
2
−2µx −2σ
2
tx +µ
2
) =
= −
1

2
[(x −(µ +σ
2
t))
2
−µ
2
−2µσ
2
t −σ
4
t
2

2
] .
Allora
m(t) = e
µt+
σ
2
t
2
2
1
σ


_
+∞
−∞
e

(x−(µ+σ
2
t))
2

2
dx
ed infine
m(t) = e
µt+
σ
2
t
2
2
Si ricava immediatamente
m

(t) = m(t)(µ +σ
2
t)
m
′′
(t) = m(t)(µ +σ
2
t)
2
+m(t)σ
2
.
Pertanto
E(X) = µ , E(X
2
) = µ
2

2
, V (X) = σ
2
ed i parametri µ e σ sono il valor medio e la deviazione standard di X.
Universit`a di Torino, a.a. 2003-2004
66 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
s=2
s=1
s=0.5
0
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4 6
x
Figura 3.3: Densit`a normali, per µ = −3, 0, 2 e s = σ = 0.5, 1, 2.
3.11 Distribuzione di Maxwell
In Teoria cinetica dei gas si ricorre, sotto opportune ipotesi (gas perfetto, stato di equilibrio,
temperatura costante) alla distribuzione di Maxwell, con densit` a
f(v) =
_
4/

πv
2
α
−3
exp(−v
2

2
) v ≥ 0
0 v < 0
,
dove v `e il modulo della velocit` a v della generica molecola del gas, α > 0 e α
2
= 2kT/m, m `e la
massa della molecola, k la costante di Boltzmann e T la temperatura assoluta.
`
E facile calcolare i momenti di una v.a. V che segue la distribuzione di Maxwell:
E(V
k
) =
_
+∞
0
v
k
f(v)dv ,
ricorrendo alla sostituzione
v = αy
1/2
, v
k
= α
k
y
k/2
, dv = αdy/2y
1/2
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 67
a=4
a=2
0
0.1
0.2
0.3
0.4
2 4 6 8 10
x
Figura 3.4: Densit`a di Maxwell, con a = α = 2, 4.
Allora si trova
E(V
k
) =

k

π
_
+∞
0
y
(k+1/2)
e
−y
dy =

k

π
Γ(
k + 3
2
) .
Dunque, ricordando che Γ(s + 1) = sΓ(s) e che Γ(1/2) =

π, si ottiene:
E(1) = 1 , E(V ) =


π
, E(V
2
) =

2
2
, E(V
4
) =
15α
4
4
.
L’energia cinetica `e definita da E
c
= mV
2
/2. Allora
V (V ) =
(3π −8)α
2

, V (V
2
) =
3
2
α
2
,
E(E
c
) =
m
2
E(V
2
) =
3
2
kT , V (E
c
) =
m
2
4
(
15
4

9
4

4
=
3
2
(kT)
2
.
3.12 Distribuzione esponenziale e processi di Poisson
Si consideri una situazione nella quale eventi di un determinato tipo si presentano ad istanti
casuali. Indichiamo con X(s, t) il numero di eventi che si presentano nell’intervallo [s, t[. Sup-
Universit`a di Torino, a.a. 2003-2004
68 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
porremo che siano soddisfatte le condizioni seguenti:
1) La situazione `e stazionaria nel senso che il numero e le modalit` a con le quali gli eventi si
presentano dipendono soltanto dall’ampiezza dell’intervallo e non dall’istante iniziale:
X(s, t) ∼ X(0, t −s) , cio`e le due v.a. hanno la stessa distribuzione .
2) La storia fino all’istante s (gli eventi che si sono presentati prima dell’istante s e le modalt` a
con le quali si sono presentati) non influiscono sugli eventi dell’intervallo [s, t[. Ad esempio
P(X(s, t) = k | X(0, s) = j) = P(X(s, t) = k) .
Per semplicit`a scriveremo X
t
in luogo di X(0, t).
3) La probabilit` a che due o pi` u eventi si verifichino in un intervallino di tempo ∆t `e
trascurabile rispetto a ∆t:
P(X(0, ∆t) > 1) = o(∆t) .
Se indichiamo con T la v.a. “tempo di attesa perch´e si verifichi un primo evento, abbiamo:
P(T ≥ t) = P(X
t
= 0) .
`
E facile verificare che la distribuzione di T `e
F(t) = P(T < t) = 1 −e
−λt
,
dove λ `e un numero positivo, detta distribuzione esponenziale di parametro λ. Infatti,
essendo T una v.a. non negativa ed essendo indipendenti eventi riguardanti intervalli di tempo
disgiunti, la funzione
g(t) = P(T ≥ t)
soddisfa all’equazione funzionale
g(t +s) = g(t)g(s) .
Infatti si ha
P(T ≥ t +s) = P(X(0, t +s) = 0) = P(X(0, t) = 0 ∧ X(t, t +s) = 0) =
= P(X
t
= 0)P(X
s
= 0) = P(T ≥ t)P(T ≥ s) .
Ma g(t), essendo ovviamente noncrescente, deve avere la forma indicata, perch`e, posto
g(1) = P(T ≥ 1) = P(X
1
= 0) = p ,
allora deve essere
g(
1
n
)
n
= p .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 69
Dunque
g(
1
n
) = p
1
n
, g(
k
n
) = p
k
n
.
Ma per
k −1
n
≤ t ≤
k
n
si ha
g(
k −1
n
) ≥ g(t) ≥ g(
k
n
)
Passando al limite con k ed n tendenti ad infinito in modo che
lim
n→+∞
k
n
= t
si ottiene
g(t) = p
t
.
Finalmente 0 ≤ p ≤ 1 e, non considerando i casi estremi, di poco interesse, si pu` o porre
p = e
−λ
,
dunque
g(t) = e
−λt
e finalmente
F(t) = 1 −g(t) = 1 −e
−λt
.
La densit` a della distribuzione esponenziale `e
f(x) =
_
λe
−λx
x ≥ 0
0 x < 0
e quindi F(t) =
_
t
0
λe
−λx
dx .
La funzione generatrice dei momenti `e
m(t) =
_
+∞
0
e
tx
λe
−λx
dx =
λ
λ −t
per t < λ .
Ovviamente m(0) = 1 e
E(T) = m

(0) =
λ
(λ −t)
2
|
t=0
=
1
λ
.
Inoltre
E(T
2
) = m
′′
(0) =

(λ −t)
3
|
t=0
=
2
λ
2
e quindi
V (T) =
2
λ
2

1
λ
2
=
1
λ
2
,
σ
T
=
1
λ
.
Universit`a di Torino, a.a. 2003-2004
70 Capitolo 3. Variabili aleatoreie reali di tipo generale e v.a.continue
l=1
l=2
0
0.5
1
1.5
2
1 2 3 4
x
Figura 3.5: Densit`a esponenziale, con l = λ = 1, 2.
Vediamo ora che nelle ipotesi fatte la v.a. X
t
ha una distribuzione di Poisson di parametro
λt. Infatti, posto p(t, k) = P(X
t
= k), si ha
p(t, 0) = P(X
t
= 0) = P(T ≥ t) = e
−λt
e per t →0 e
−λt
= 1 −λt +o(t) ,
p(dt, 1) = 1 −p(dt, 0) + o(dt)
e, per l’indipendenza degli eventi su intervalli disgiunti insieme alla trascurabilit` a rispetto a dt
della probabilit` a di pi` u eventi in un intervallo di ampiezza dt, si ha
p(t +dt, k + 1) = p(t, k + 1)p(dt, 0) +p(t, k)p(dt, 1) +o(dt) =
= p(t, k + 1)(1 −λdt) +p(t, k)λdt +o(dt) .
Dividendo per dt e passando al limite per dt → 0 si ottiene un sistema di infinite equazioni
differenziali lineari del primo ordine, che tuttavia si possono risolvere semplicemente in modo
iterativo, conoscendo p(t, 0) = exp(−λt) :
d
dt
p(t, k + 1) = −λp(t, k + 1) +λp(t, k) ,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 71
p(0, k + 1) = 0 .
`
E facile verificare per induzione che la soluzione `e data dalle formule
p(t, k) =
(λt)
k
k!
e
−λt
.
Universit`a di Torino, a.a. 2003-2004
Capitolo 4
Densit`a congiunta e funzioni di
pi` u variabili aleatorie reali
4.1 Densit`a congiunta (caso discreto)
Siano X e Y v.a. reali discrete (v.a. che possono assumere un numero finito o una infinit` a
numerabile di valori reali x ed y). Per trattare eventi che coinvolgono entrambe le variabili `e
sufficiente conoscere le probabilit` a
f
XY
(x, y) = P(X = x e Y = y) .
La funzione f
XY
(x, y) si dice densit` a congiunta di X e Y . Ovviamente
f
XY
(x, y) ≥ 0 per ogni coppia (x, y) e

x

y
f
XY
(x, y) = 1 .
4.2 Densit`a congiunta (caso continuo)
Siano X e Y v.a. reali. Per trattare eventi che coinvolgono entrambe le variabili `e sufficiente
conoscere le probabilit` a
P(a ≤ X < b e c ≤ Y < d)
per tutti i valori reali a, b, c, d.
Per calcolare tale probabilit` a `e sufficiente conoscere la distribuzione congiunta di X e Y :
F
XY
(x, y) = P(X < x ∧ Y < y) .
Infatti
[a, b[×[c, d[= [−∞, b[×[−∞, d[−[−∞, b[×[−∞, c[−([−∞, a[×[−∞, d[∪[−∞, a[×[−∞, c[)
72
A.Negro, Elementi di Calcolo delle Probabilit` a 73
e quindi
P(a ≤ X < b e c ≤ Y < d) = F(b, d) −F(b, c) −F(a, d) +F(a, c) .
Diremo che X e Y ammettono una densit` a congiunta se esiste una funzione integrabile
f
XY
(x, y) tale che
P(a ≤ X < b e c ≤ Y < d) =
_
b
a
_
d
c
f
XY
(x, y)dxdy .
Ovviamente
f
XY
(x, y) ≥ 0 ,
_
+∞
−∞
_
+∞
−∞
f
XY
(x, y)dxdy = 1 .
La densit` a congiunta f
XY
(x, y) `e separatamente integrabile rispetto ad x e y (per q.o. y
e rispettivamente per q.o. x) e X ed Y ammettono le densit` a f
X
(x) e f
Y
(y), dette densit` a
marginali, fornite dalle
f
X
(x) =
_
+∞
−∞
f
XY
(x, y)dy , f
Y
(y) =
_
+∞
−∞
f
XY
(x, y)dx .
Se X ed Y sono indipendenti e ammettono ciascuna densit` a f
X
(x), f
Y
(y),
P(a ≤ X < b e c ≤ Y < d) = P(a ≤ X < b)P(c ≤ Y < d) =
_
b
a
f
X
(x)dx
_
d
c
f
Y
(y)dy
e dunque f
X
f
Y
`e integrabile ed esiste la densit` a congiunta uguale al prodotto delle densit` a:
f
XY
(x, y) = f
X
(x)f
Y
(y) .
Viceversa, se vale la formula precedente, allora X e Y sono indipendenti.
In generale, se A `e un insieme Boreliano di R
2
ed E `e l’evento
E = {ωǫΩ | (X(ω), Y (ω))ǫA} ,
la probabilit` a di E si ottiene nel modo seguente
P(E) =
_ _
A
f
XY
(x, y)dxdy .
Tale risultato si potrebbe verificare facilmente tenendo conto: i) della possibilit` a di approssimare
A tanto bene quanto si vuole mediante unioni finite di rettangoli disgiunti del tipo [a, b[×[c, d[ ;
ii) del fatto che il risultato `e vero per gli eventi corrispondenti a tali rettangoli, vista la definizione
stessa di densit` a congiunta; iii) dell’additivit` a e dell’assoluta continuit` a dell’integrale.
Si osservi che E `e un evento perch`e X ed Y sono v.a. e i Boreliani di R
2
sono la σ-algebra
generata ad esempio dai rettangoli [a.b[×[c, d[.
Universit`a di Torino, a.a. 2003-2004
74 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
Esempio. Siano X ed Y v.a. indipendenti e uniformi in I = [0, 1[. Pertanto f
X
e f
Y
sono
entrambe la funzione caratteristica χ
I
di tale intervallo, mentre
f
XY
(x, y) = f
X
(x)f
Y
(y) = χ
I
(x)χ
I
(y) = χ
Q
(x, y) ,
dove Q = I ×I `e il quadrato unitario.
Si voglia calcolare la probabilit` a che la somma delle due variabili sia inferiore ad un valore
prefissato s. Si trova
P(X +Y < s) =
_ _
A={(x,y)|x+y<s}
χ
Q
(x, y)dxdy =
_ _
A∩Q
dxdy .
Al variare di s si ha la distribuzione F
S
della v.a. S = X + Y funzione di X ed Y , nel senso
usuale che per ogni ω
S(ω) = (X +Y )(ω) = X(ω) +Y (ω) .
Dei calcoli elementari forniscono
F
S
(s) =
_
¸
¸
_
¸
¸
_
0 s ≤ 0
s
2
2
0 ≤ s < 1
1 −
(2−s)
2
2
1 ≤ s < 2
1 2 ≤ s
.
Dunque S `e una v.a. continua con densit` a f
S
lineare a tratti
f
S
(s) =
_
¸
¸
_
¸
¸
_
0 s ≤ 0
s 0 ≤ s < 1
(2 −s) 1 ≤ s < 2
0 2 ≤ s
,
derivata della fuzione F
S
, che `e derivabile a tratti.
In modo analogo per esempio
P(X +Y ≤ s e Y < t) =
_ _
x + y ≤ s
y < t
(x, y) ∈ Q
dxdy .
Ancora nell’ambito di questo esempio consideriamo il prodotto T = XY . La sua funzione di
distribuzione F
T
(t) `e nulla per t < 0 e uguale a 1 per t ≥ 1, mentre per 0 ≤ t < 1 si ha
P(T < t) = P(XY < t) =
_ _
xy<t
χ
Q
dxdy =
_
t
0
dx
_
1
0
dy +
_
1
t
dx
_ t
x
0
dy =
= t +
_
1
t
t
x
dx = t +t[ln(x)]
1
t
= t(1 −ln(t)) .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 75
Dunque T `e una v.a. continua di densit` a
f
T
(s) =
_
_
_
0 t ≤ 0
−ln(t) 0 < t < 1
0 1 ≤ t
.
Si osservi che mentre F
T
`e continua f
T
non `e limitata (ma integrabile).
Proponiamo ancora un esempio riguardante v.a. di Cauchy.
Se X e Y sono due variabili di Cauchy indipendenti con densit` a
g
X
(x) =
R
π(R
2
+x
2
)
e g
Y
(y) =
S
π(S
2
+y
2
)
,
anche la loro somma Z = X +Y `e una v.a. di Cauchy. Infatti
P(Z < t) =
_ _
x+y<t
RS
π
2
(R
2
+x
2
)(S
2
+y
2
)
dxdy =
con la sostituzione x = x, z = x +y
=
RS
π
2
_
t
−∞
dz
_
+∞
−∞
dx
(R
2
+x
2
)(S
2
+ (z −x)
2
)
.
L’integrale interno si pu` o facilmente calcolare per ogni z fissato, ad esempio con il metodo dei
residui, fornendo
P(Z < t) =
_
t
−∞
R +S
π((R +S)
2
+ z
2
)
dz
e la densit` a di Z `e
g
Z
(z) =
R +S
π((R +S)
2
+z
2
)
.
Se X
1
, X
2
, ...X
n
, ... sono v.a. di Cauchy, indipendenti e di ugual densit` a (π(1 + x
2
))
−1
, le
loro somme
S
n
= X
1
+X
2
+... +X
n
sono v.a. di Cauchy con densit` a n(π(n
2
+x
2
))
−1
e in questo caso il teorema centrale del limite
che studieremo nel Capitolo successivo non vale.
Cambiamento di variabili.
siano X
1
, X
2
v.a. continue di densit` a congiunta f(x
1
, x
2
) e siano
Y
1
= H
1
(X
1
, X
2
) , Y
2
= H
2
(X
1
, X
2
)
due loro funzioni, con H
1
, H
2
regolari. Brevemente scriviamo Y = H(X). La distribuzione
congiunta di Y
1
, Y
2
si ottiene mediante l’integrale doppio
P(Y
1
< c
1
∧ Y
2
< c
2
) =
_
A
f(x
1
, x
2
)dx
1
dx
2
,
Universit`a di Torino, a.a. 2003-2004
76 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
dove
A = {(x
1
, x
2
) | H
1
(x
1
, x
2
) < c
1
∧ H
2
(x
1
, x
2
) < c
2
)} .
Se, posto B = {(y
1
, y
2
) | y
1
< c
1
∧ y
2
< c
2
} , la funzione H `e invertibile da B in A con inversa
K di classe C
1
, si pu` o effettuare il cambiamento di variabili x = K(y) e dunque
P(Y
1
< c
1
∧ Y
2
< c
2
) =
_
B
f(K(y))| det K

(y)|dy .
Se la sostituzione `e possibile per tutti i valori di c
1
, c
2
, si vede che le nuove v.a. Y
1
, Y
2
ammet-
tono la densit` a congiunta f(K(y))| det K

(y)| .
4.3 Covarianza e correlazione
Siano X ed Y due v.a. Si definisce la covarianza delle due variabili nel modo seguente
Cov(X, Y ) = E((X −E(X))(Y −E(Y ))) =
= E(XY ) −E(X)E(Y ) −E(X)E(Y ) +E(X)E(Y ) .
Quindi si pu` o calcolare la covarianza mediante la formula
Cov(X, Y ) = E(XY ) −E(X)E(Y ) .
Ovviamente se X = Y si ha V (X) = Cov(X, X). Inoltre
V (X +Y ) = V (X) +V (Y ) + 2Cov(X, Y ) .
Osservazione. Sia L
2
= L
2
(Ω, A, P; R) lo spazio delle v.a. che ammettono momento del
secondo ordine e quindi varianza. In L
2
la covarianza `e una forma bilineare simmetrica positiva
e la varianza `e la seminorma (il suo annullarsi dice che la v.a. `e costante) ad essa associata. Nel
sottospazio L
2
0
delle v.a. a media nulla Cov definisce una struttura di spazio di Hilbert.
Se le due variabili sono indipenenti, poich`e E(XY ) = E(X)E(Y ) , la covarianza si annulla.
Tuttavia l’annullarsi della covarianza non implica in generale che le due variabili siano in-
dipendenti. Ad esempio se X ha una densit` a pari: f(x) = f(−x) e ammette momenti fino al
terzo ordine, posto Y = X
2
E(X) =
_
+∞
−∞
xf(x)dx = 0 ,
E(Y ) = E(X
2
) = 2
_
+∞
0
x
2
f(x)dx > 0 ,
Cov(X, Y ) = E(X
3
) − E(X)E(X
2
) =
_
+∞
−∞
x
3
f(x)dx = 0 ,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 77
ma X ed Y ovviamente non sono indipendenti e Y `e funzione di X. Infatti ad esempio in
generale (cio`e tranne che per v.a. speciali o particolari valori di a) si ha
P({0 ≤ X
2
< a
2
} ∩ {−a ≤ X < a}) = P({−a ≤ X < a}) =
= P(0 ≤ X
2
< a
2
)P(−a ≤ X < a) = P(−a ≤ X < a)
2
.
Osservazione. L’evento A `e indipendente da s´e stesso se e solo se
P(A) = P(A ∩ A) = P(A)
2
,
dunque se e solo se P(A) = 1 oppure P(A) = 0 .
Una v.a X pu` o essere indipendente da s´e stessa solo se per ogni intervallo [a, b[ risulta P(X ∈
[a, b[) = 0 o = 1 .
Se le v.a. X e Y ammettono una densit` a comgiunta f
XY
(x, y), per la disuguaglianza di
Schwarz, posto per brevit` a µ = E(X) e ν = E(Y ),
|Cov(X, Y )|
2
= |
_ _
(x −µ)(y −ν)f
XY
(x, y)dxdy|
2


_ _
(x −µ)
2
f
XY
(x, y)dxdy
_ _
(y −ν)
2
f
XY
(x, y)dxdy =
=
_
+∞
−∞
(x −µ)
2
f
X
(x)dx
_
+∞
−∞
(y −ν)
2
f
Y
(y)dy .
Dunque
|Cov(X, Y )|
2
≤ V (X)V (Y ) .
La disuguaglianza precedente `e vera per v.a. arbitrarie, non essendo affatto necessaria l’e-
sistenza di una densit` a congiunta, ma solo medie e varianze finite.
Infatti si trova per ogni λ reale
0 ≤ V (Y −λX) = E((Y −λX −(ν −λµ))
2
) = E((λ(X −µ) −(Y −ν))
2
) =
= λ
2
V (X) −2λCov(X, Y ) +V (Y ) .
Considerando il discriminante del polinomio di secondo grado in λ si ottiene la disuguaglianza
in esame
|Cov(X, Y )| ≤
_
V (X)V (Y )
Se le varianze non si annullano, si pu` o introdurre il coefficiente di correlazione (di Pearson),
quale normalizzazione della covarianza
ρ = ρ
XY
=
Cov(X, Y )
_
V (X)V (Y )
,
Universit`a di Torino, a.a. 2003-2004
78 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
per il quale si ha
−1 ≤ ρ ≤ 1 .
Si pu` o interpretare |ρ| come indice della “propensione in media di scarti significativi simul-
tanei delle due v.a. dalla loro media, essendo tali scarti di segno uguale o contrario secondo la
positivit` a di ρ.
Si ha |ρ| = 1 se e solo se X ed Y sono “linearmente dipendenti
Y = aX +c ,
con a e c costanti opportune (c in effetti `e una v.a. costante con probabilit` a 1), perch´e in tal
caso
V (Y −λX) == λ
2
σ
2
X
−2λρσ
X
σ
Y

2
Y
≥ 0
che si pu` o annullare se e solo se |ρ| = 1. In tal caso
V (Y −λX) = (λσ
X
∓σ
Y
)
2
,
dove necessariamente deve essere
λ = a = ±
σ
Y
σ
X
e Y −λX = c
`e una v.a. costante.
Naturalmente si ha in modo simmetrico
X = a

Y +c

.
Coefficiente di regressione γ di Y rispetto a X.
Si pu` o generalizzare il tema precedente della dipendenza “lineare, cercando di scomporre Y in
una parte proporzionale a X e in una parte quanto pi` u possibibile prossima ad una costante:
Y = λX +Z(λ) .
La decomposizione ottimale si ha per il valore γ di λ che minimizza la varianza della v.a. Z:
V (Z(γ)) = min
λ
V (Z(λ)) = min
λ

2
σ
2
X
−2λρσ
X
σ
Y
+ σ
2
Y
) .
Il punto di minimo γ si trova risolvendo l’equazione
2λσ
2
X
−2ρσ
X
σ
Y
= 0 .
Pertanto
γ = ρ
σ
Y
σ
X
, V (Z(γ)) = (1 −ρ
2

2
Y
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 79
Il valore minimo V (Z(γ)) si annulla se e solo se ρ = ±1, nel qual caso Z `e una v.a. costante.
Osserviamo ancora che risulta
Cov(X, Z(γ)) = 0 .
Infatti, essendo E(Z) = E(Y ) −γE(X):
Cov(X, Z) = E((X −E(X))(Z −E(Z))) =
= E((X −E(X))(Y −γX −(E(Y ) −γE(X)))) =
= E((X −E(X))(Y −E(Y ))) −γE((X −E(X))
2
) = ρσ
X
σ
Y
−ρ
σ
Y
σ
X
σ
2
X
= 0 .
Quindi
V (Y ) = γ
2
V (X) +V (Z) = γ
2
σ
2
X
+ (1 − ρ
2

2
Y
= σ
2
Y
,
come deve essere.
Osservazione.
`
E equivalente studiare il problema della regressione nello spazio L
2
0
sottraendo
preventivamente a X e Y le loro medie. Si trova
Y
0
= γX
0
+Z
0
,
dove γX
0
`e la proiezione ortogonale (nel senso della forma bilineare Cov ) di Y
0
sul sottospazio
di dimensione 1 generato da X
0
e oviamente Z
0
`e a media nulla e ortogonale a tale sottospazio.
4.4 La distribuzione Gaussiana bivariata
Consideriamo due v.a. X e Y con densit` a congiunta
f(x, y) =
1

1
_
(1 −ρ
2

X
σ
Y
exp(−
1
2(1 −ρ
2
)
[
(x −µ
X
)
2
σ
X
2
−2ρ
(x −µ
X
)(y −µ
Y
)
σ
X
σ
Y
+
(y −µ
Y
)
2
σ
Y
2
]) ,
dove si suppone che ρ
2
< 1 e σ
X
σ
Y
= 0.
Se introduciamo la matrice di covarianza
Γ =
σ
X
2
ρσ
X
σ
Y
ρσ
X
σ
Y
σ
Y
2
=
V (X) Cov(X, Y )
Cov(X, Y ) V (Y )

ed il vettore delle medie µ = (µ
X
, µ
Y
), posto v = (x, y), si pu` o scrivere la densit` a nella forma
f(v) =
1

1

det Γ
e

1
2
(v−µ,Γ
−1
(v−µ))
.
Si potrebbe facilmente dimostrare che µ
X
, µ
Y
, σ
X
, σ
Y
, ρ sono rispettivamente la media di
X, la media di Y , la deviazione standard di X, la deviazione standard di Y , il coefficiente di
Universit`a di Torino, a.a. 2003-2004
80 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
-3
-2
-1
0
1
2
3
x
-6
-4
-2
0
2
4
6
y
0
0.02
0.04
0.06
0.08
Figura 4.1: Densit`a Gaussiana bivariata, con σ
X
= 1, σ
Y
= 2, ρ = 0.5.
correlazione di X ed Y .
Osserviamo che in questo caso se il coefficiente di correlazione ρ = 0, ovvero se Cov(X, Y ) =
0, allora le variabili X e Y sono indipendenti. Infatti la densit` a congiunta `e in questo caso
f(x, y) =
1

2πσ
X
exp (−
(x −µ
X
)
2

2
X
) ·
1

2πσ
Y
exp (−
(x −µ
Y
)
2

2
Y
) ,
ovvero il prodotto delle densit` a di X e Y . (Si ricordi che in generale per v.a. arbitrarie indipen-
denza implica correlazione nulla ma in caso di correlazione nulla non si ha automaticamente
indipendenza.)
Pi` u in generale sia Z una v.a. a valori in R
m
le cui componenti Z
1
, Z
2
, ..., Z
m
siano v.a.
indipendenti normali standard: Z
j
∼ N(0, 1). Sia A una matrice p × m e µ un vettore di
componenti µ
1
, µ
2
, ..., µ
p
e poniamo
Γ = AA

.
La v.a. X di componenti X
1
, X
2
, ..., X
p
data da
X = AZ +µ
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 81
ha una distribuzione (distribuzione congiunta delle X
j
) detta Gaussiana multivariata N
p
(µ, Γ).
Si pu` o vedere che µ `e la media di X, cio`e le variabili X
j
hanno media µ
j
, e Γ `e la matrice di
covarianza delle X
j
:
Γ
ij
= E((X
i
−µ
i
)(X
j
−µ
j
)) .
La distribuzione di X non dipende direttamente da A ma solo da Γ, dunque se
Y = BZ +µ con BB

= Γ
allora X e Y sono equidistribuite.
Nel caso in cui Γ sia invertibile, indicando con x il vettore di componenti x
1
, x
2
, ..., x
p
, la
densit` a congiunta delle X
j
`e
f(x) =
1
(2π)
n/2
1

det Γ
e

1
2
(x−µ,Γ
−1
(x−µ))
.
4.5 Variabili normali indipendenti
Se X
1
, X
2
, ..., X
n
sono v.a. normali indipendenti anche la loro somma segue una distribuzione
normale. Precisamente se
X
k
∼ N(µ
k
, σ
2
k
) e µ =

k
µ
k
, σ
2
=

k
σ
2
k
,
risulta
X =

k
X
k
∼ N(µ, σ
2
) .
Infatti essendo la funzione generatrice dei momenti di X
k
m
X
k
(t) = e
µ
k
t+σ
2
k
t
2
2
,
per l’indipendenza delle v.a.
m
X
(t) =

k
m
X
k
(t) = e
µt+σ
2 t
2
2
,
che `e la funzione generatrice di una v.a. normale di media µ e varianza σ
2
.
Osserviamo che, anche se le X
k
non fossero normali, per l’indipendenza si ha
E(X) =

k
E(X
k
) , V (X) =

k
V (X
k
) .
Universit`a di Torino, a.a. 2003-2004
82 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
In molti casi praticamente interessanti le v.a. X
k
hanno la stessa media µ e varianza σ
2
.In
tal caso si ha
X =

k
X
k
∼ N(nµ, nσ
2
) ,
X =
X
n
=

k
X
k
n
∼ N(µ,
σ
2
n
) ,
X −µ
σ/

n
∼ N(0, 1) .
Dumque la v.a. media X ha come media la stessa media µ delle singole X
k
, ma varianza
tanto minore quante pi` u sono le X
k
: σ
2
diviso n.
Questa osservazione `e fondamentale per le applicazioni statistiche. Si supponga infatti di
voler stimare la media incognita µ di una v.a. normale X, ipotizzando invece di conoscerne la
deviazione standard σ. Si effettuano n prove indipendenti a ciascuna delle quali `e associata una
v.a. X
k
copia identica di X (cio`e X
k
e X hanno la stessa distribuzione: X
k
∼ X. Prefissato
un livello α di rischio o equivalentemente un livello di confidenza 1 −α, si osserva il valore della
v.a. media X e si individua un corrispondente intervallo di confidenza [L
1
, L
2
], dove gli estremi
L
1
e L
2
sono v.a., tale che
P(L
1
≤ µ ≤ L
2
) = 1 −α .
Se Z ∼ N(0, 1) e per z
α/2
si ha
Φ(−z
α/2
) =
1


_
+∞
z
α/2
e
−x
2
/2
dx = α/2 ,
allora risulta
P(−z
α/2

X −µ
σ/

n
≤ z
α/2
) = 1 −α ,
ovvero
P(X −z
α/2
σ/

n ≤ µ ≤ X +z
α/2
σ/

n) = 1 −α .
Dunque l’intervallo aleatorio
[X −z
α/2
σ/

n, X +z
α/2
σ/

n]
`e un intervallo di confidenza per la stima di µ con un livello di confidenza pari a 1 −α.
Il fatto che la somma di v.a. normali indipendenti sia ancora normale pu` o essere controllato
direttamente, senza ricorrere alle funzioni generatrici. Per semplicit`a consideriamo due v.a. Y
1
ed Y
2
normali standard ed indipendenti. Posto Y = Y
1
+Y
2
, si ha
P(Y < s) = (
1


)
2
_ _
y1+y2<s
e
−(y
2
1
+y
2
2
)/2
dy
1
dy
2
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 83
Effettuando il cambiamento di variabili
y
1
= t −y
2
, y
2
= y
2
con Jacobiano uguale a 1
si trova
P(Y < s) = (
1


)
2
_
s
−∞
dt
_
+∞
−∞
dy
2
e
−[(t−y2)
2
+y
2
2
]/2
=
=
1


_
s
−∞
dte
−t
2
/4
1


_
+∞
−∞
dy
2
e
−(

2y2−
t

2
)
2
/2
=
mediante la sostituzione

2y
2

t

2
= z, con dy
2
= dz/

2
=
1



2
_
s
−∞
dte
−t
2
/4
1


_
+∞
−∞
dze
−z
2
/2
=
=
1



2
_
s
−∞
dte

1
2
t
2
/2
.
Dunque Y `e normale con media 0 e varianza 2.
4.6 Distribuzioni gamma
Si dice che una v.a. X segue una distribuzione gamma con parametri α e β se ammette la
densit` a
f(x) =
_
0 x ≤ 0
1/(Γ(α)β
α
)x
α−1
e
−x/β
0 < x
,
dove Γ(s) `e la funzione speciale definita da
Γ(s) =
_
+∞
0
z
s−1
e
−z
dz , s > 0 .
Alcune distribuzioni classiche, legate alla distribuzione normale, sono casi particolari della dis-
tribuzione gamma .
Ricordiamo alcune propriet` a notevoli della funzione speciale Γ.
Γ(1) = 1 ,
Γ(s + 1) = sΓ(s) e dunque Γ(n + 1) = n! ,
Γ(1/2) =

π .
Infatti
_
+∞
0
e
−z
dz = [−e
−z
]
+∞
0
= 1 ,
Γ(s) =
_
+∞
0
z
s−1
e
−z
dz = [z
s
e
−z
/s]
+∞
0
+
1
s
_
+∞
0
z
s
e
−z
dz =
1
s
Γ(s + 1) ,
Universit`a di Torino, a.a. 2003-2004
84 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
sostituendo z = t
2
/2 e quindi dz = tdt nell’espressione di Γ(s + 1) si trova
Γ(s + 1) =
_
+∞
0
2
−s
t
2s+1
e
−t
2
/2
dt ,
dunque per s = −1/2
Γ(1/2) = 2
1/2
_
+∞
0
e
−t
2
/2
dt =

2

2π/2 =

π .
Funzione generatrice per la distribuzione gamma .
m
X
(t) =
_
+∞
0
e
tx
1
Γ(α)β
α
x
α−1
e
−x/β
dx =
1
Γ(α)β
α
_
+∞
0
x
α−1
e
−(1/β−t)x
dx .
Con la sostituzione z = (1/β −t)x , quindi x = βz/(1 −βt) e dx = βdz/(1 −βt), con t < 1/β :
m
X
(t) =
1
Γ(α)(1 −βt)
α
_
+∞
0
z
α−1
e
−z
dz = (1 −βt)
−α
.
Derivando si trova
m

X
(t) = −α(1 −βt)
−α−1
(−β) = αβ(1 −βt)
−α−1
,
m
′′
X
(t) = α(α + 1)β
2
(1 −βt)
−α−2
.
Per t = 0 troviamo
E(X) = αβ , E(X
2
) = α(α + 1)β
2
, V (X) = αβ
2
.
4.7 Distribuzioni χ
2
Siano Y
1
, Y
2
, ..., Y
n
v.a. normali standard (∼ N(0, 1)) e indipendenti tra loro. Calcoliamo la
distribuzione (e la densit` a) della v.a.
χ
2
(n) = Y
2
1
+ Y
2
2
+... +Y
2
n
.
Per l’indipendenza, la densit` a congiunta delle Y
k
`e il prodotto delle loro densit` a e
−y
2
k
/2
, dunque
la densit` a comgiunta `e e
−(y
2
1
+y
2
2
+...+y
2
n
)/2
e quindi
P(χ
2
< u) = (2π)
−n/2
_ _
...
_
y
2
1
+y
2
2
+...+y
2
n
<u
e
−(y
2
1
+y
2
2
+...+y
2
n
)/2
dy
1
dy
2
...dy
n
.
Ricorrendo a coordinate polari ρ, S in R
n
P(χ
2
< u) = (2π)
−n/2
_
S
n−1
dS
_

u
0
e
−ρ
2
/2
ρ
n−1
dρ ,
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 85
dove S
n−1
`e l’ipersuperficie sferica unitaria in R
n
di misura
_
S
n−1
dS =

n/2
Γ(n/2)
.
Per trovare la densit` a si pu´ o procedere nel modo seguente. Si effettua la sostituzione ρ
2
= t e
quindi ρ = t
1/2
, dρ = t
−1/2
dt/2,
P(χ
2
< u) = (2π)
−n/2

n/2
Γ(n/2)
_
u
0
e
−t/2
t
(n−1)/2−1/2
dt/2 =
=
1
Γ(n/2)2
n/2
_
u
0
e
−t/2
t
n/2−1
dt .
Dunque χ
2
(n) segue una distribuzione gamma con parametri α = n/2 e β = 2. Ad esempio
E(χ
2
(n)) = n , V (χ
2
(n)) = 2n .
Si dice che χ
2
(n) `e un v.a. χ
2
con n gradi di libert`a .
Se X
1
, X
2
, ..., X
n
sono v.a. normali con la stessa distribuzione (X
k
∼ N(µ, σ
2
)) e indipenden-
ti tra loro e Y
1
, Y
2
, ..., Y
n
sono le corrispondenti v.a. normali standard (∼ N(0, 1)), indipendenti
tra loro)
Y
k
=
X
k
−µ
σ
,
allora
χ
2
=

k
(X
k
−µ)
2
σ
2
=

k
Y
2
k
.
ha una distribuzione χ
2
con n gradi di libert`a.
Si supponga di voler stimare la varianza incognita σ
2
di una v.a. normale X, ipotizzando di
conoscerne la media µ. Si effettuano n prove indipendenti a ciascuna delle quali `e associata una
v.a. X
k
copia identica di X. Si osserva quindi il valore della v.a. Q
2
=

k
(X
k
− µ)
2
. Q
2

2
ha una distribuzione χ
2
(n). Prefissato un livello α di rischio o equivalentemente un livello di
confidenza 1 −α, si individua un corrispondente intervallo di confidenza [S
1
, S
2
] tale che
P(S
1
≤ σ
2
≤ S
2
) = 1 −α .
Per esempio, se f
n
`e la densit` a di χ
2
(n) , trovato χ
2
α/2
tale che
_
χ
2
α/2
0
f
n
(u)du = 1 −α/2, cio`e
_
+∞
χ
2
α/2
f
n
(u)du = α/2
e χ
2
1−α/2
tale che
_
χ
2
1−α/2
0
f
n
(u)du = α/2, cio`e
_
+∞
χ
2
1−α/2
f
n
(u)du = 1 −α/2 ,
Universit`a di Torino, a.a. 2003-2004
86 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
n=9
n=5
n=1
0
0.05
0.1
0.15
0.2
2 4 6 8 10 12 14
x
Figura 4.2: Densit`a χ
2
(n), per n = 1, 5, 9.
risulta
P(χ
2
1−α/2
≤ Q
2

2
≤ χ
2
α/2
) = 1 −α .
Quindi
P(
Q
2
χ
2
α/2
≤ σ
2

Q
2
χ
2
1−α/2
) = 1 −α .
L’intervallo aleatorio
[
Q
2
χ
2
α/2
,
Q
2
χ
2
1−α/2
]
`e un intervallo di confidenza per la stima di σ
2
con livello di confidenza 1 −α.
4.8 Stima simultanea di media e varianza di una variabile normale
Con prove, o misure, indipendenti `e anche possibile stimare sia la media che la varianza
incognite di una v.a. X, ipotizzando come prima che X ∼ N(µ, σ
2
). Se X
k
sono le v.a.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 87
associate alle n prove, ciascuna copia identica di X, `e usuale considerare gli stimatori
X =
1
n

k
X
k
e
S
2
=
1
n −1

k
(X
k
−X)
2
.
Tali stimatori sono corretti, cio`e v.a. con media il parametro da stimare:
E(X) = µ , V (X) =
1
n
V (X) ,
E(S
2
) =
1
n −1
E(

k
(X
k
−µ −(X −µ))
2
=
=
1
n −1
(

k
E((X
k
−µ)
2
) −2E(

k
(X
k
−µ)(X − µ)) +

k
E((X −µ)
2
)) =
=
1
n −1
(nV (X) −2E(n(X −µ)(X −µ)) +n
1
n
V (X)) =
=
1
n −1
(nV (X) −2V (X) +V (X)) =
1
n −1
(n −1)V (X) = V (X) = σ
2
.
S
2
permette di ottenere intervalli di confidenza per σ
2
. Infatti la v.a.
C =
(n −1)S
2
σ
2
∼ χ
2
(n −1) ,
cio`e segue una distribuzione χ
2
con n −1 gradi di libert`a.
Per dimostrarlo conviene introdurre in primo luogo le variabili Y
k
normali standard associate
alle X
k
:
Y
k
=
X
k
−µ
σ
, Y =
1
n

k
Y
k
=
X −µ
σ
.
Allora
C =
(n −1)S
2
σ
2
=

k
Y
2
k
−nY
2
=

k
Y
2
k

1
n
(

k
Y
k
)
2
,
come si controlla svolgendo i calcoli seguenti
C =

k
(X
k
−X)
2
σ
2
=

k
((X
k
−µ) + (µ −X))
2
σ
2
=
=

k
(X
k
−µ)
2
σ
2
−2
(X −µ)
σ

k
(X
k
−µ)
σ
+

k
(X −µ)
2
σ
2
=
Universit`a di Torino, a.a. 2003-2004
88 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
=

k
(X
k
−µ)
2
σ
2
−2n
(X −µ)
2
σ
2
+n
(X −µ)
2
σ
2
.
La densit` a congiunta delle Y
k
`e
f(y
1
, y
2
, ..., y
n
) = (2π)
−n/2
e
−(

k
y
2
k
)/2
e per trovare la distribuzione di C si deve allora calcolare
P(C < u) = (2π)
−n/2
_ _
...
_

k
y
2
k

1
n
(

k
y
k
)
2
<u
e
−(

k
y
2
k
)/2
dy
1
dy
2
...dy
n
.
Conviene utilizzara una opportuna trasformazione lineare ortogonale delle variabili, che verr` a
effettuata per semplicit`a nel caso n = 2.
Poniamo
z
1
=
y
1
+y
2

2
, z
2
=
−y
1
+y
2

2
,
da cui segue
z
2
1
+z
2
2
= y
2
1
+y
2
2
e
y
2
1
+y
2
2

(y
1
+y
2
)
2
2
= z
2
1
+z
2
2
−z
2
1
= z
2
2
.
Allora
P(C < u) = (2π)
−1
_
+∞
−∞
e
−z
2
1
/2
dz
1
_
z
2
2
<u
e
−z
2
2
/2
dz
2
=
= (2π)
−1/2
_
+

u


u
e
−z
2
2
/2
dz
2
=
=
1

π2
1/2
_
u
0
t
1/2−1
e
−t/2
dt .
Dunque in questo caso C ha una distribuzione χ
2
con 2 −1 gradi di libert`a.
In generale, con un procedimento perfettamente simile, si vedrebbe che
(n−1)S
2
σ
2
ammette la
densit` a f
n−1
(t) nulla per t ≤ 0 e
f
n−1
(t) =
1
Γ(
n−1
2
)2
n−1
2
e
−t/2
t
(n−1)/2−1
,
cio`e segue come si era detto una distribuzione χ
2
con n −1 gradi di libert`a.
Come nel paragrafo precedente, fissato un livello di confidenza 1 − α, si trovano χ
2
α/2
=
χ
2
α/2
(n −1) tale che
_
+∞
χ
2
α/2
(n−1)
f
n−1
(u)du = α/2
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 89
e χ
2
1−α/2
= χ
2
1−α/2
(n −1) tale che
_
χ
2
1−α/2
(n−1)
0
f
n−1
(u)du = α/2 .
Allora risulta
P(χ
2
1−α/2

(n −1)S
2
σ
2
≤ χ
2
α/2
) = 1 −α .
Quindi
P(
(n −1)S
2
χ
2
α/2
≤ σ
2

(n −1)S
2
χ
2
1−α/2
) = 1 −α .
Osserviamo che le v.a. Y e χ
2
= (n − 1)S
2

2
sono indipendenti . Infatti, per esempio nel
caso n = 2, riprendendo i calcoli precedenti, essendo /Z
1
/sqrt2, si ha
P(a ≤ Y < b e χ
2
≤ u)) = (2π)
−1/2
_
b

2
a

2
e
−z
2
1
/2
dz
1
_
z
2
2
<u
e
−z
2
2
/2
dz
2
=
P(a ≤ Y < b)P(χ
2
≤ u) .
4.9 Distribuzioni t di Student
Al fine di determinare intervalli di confidenza per la media µ della v.a. X consideriamo le
v.a. indipendenti
Y =

n Y =
X −µ
σ/

n
e
χ
2
n−1
=
(n −1)S
2
σ
2
.
Fomiamo quindi la v.a.
T
n−1
=
Y
_
χ
2
n−1
n−1
=
X −µ
S/

n
e calcoliamone la distribuzione.
In generale siano Z e χ
2
q
due v.a. indipendenti, la prima normale standard e la seconda con
una distribuzione χ
2
a q gradi di libert`a, e si ponga
T
q
=
Z
_
χ
2
q
/q
.
Si dice che T
q
ha una distribuzione t di Student con q gradi di libert`a. Essa ha come densit` a
g(t) =
Γ((q + 1)/2)
(πq)
1/2
Γ(q/2)
(1 +
t
2
q
)
−(q+1)/2
.
Universit`a di Torino, a.a. 2003-2004
90 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
0
0.1
0.2
0.3
-4 -2 2 4
x
Figura 4.3: Densit`a di Student, con q = 9 gradi di libert`a.
Si osservi che la lettera t, nella frase precedente, prima `e il nome di una famiglia di distribuzioni,
poi serve a indicare una variabile reale.
Il risultato si ottiene ricorrendo alla distribuzione congiunta delle variabili Z e χ
2
q
f(z, x) = (2π)
−1/2
e
−z
2
/2
1
Γ(q/2)2
q/2
x
q/2−1
e
−x/2
per x > 0
e calcolando
P(T
q
< t) = C
_ _
z<t

x/q
x
q/2−1
e
−x/2
e
−z
2
/2
dxdz ,
dove
1
C
=

2πΓ(q/2)2
q/2
.
Allora
P(T
q
< t) = C
_
+∞
0
dx x
q/2−1
e
−x/2
_
t

x/q
−∞
dz e
−z
2
/2
=
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 91
con la sostituzione z = u

x nell’integrale interno
= C
_
+∞
0
dx x
(q−1)/2
e
−x/2
_
t/

q
−∞
du e
−u
2
x/2
=
= C
_
t/

q
−∞
du
_
+∞
0
dx x
(q−1)/2
e
−(1+u
2
)x/2
=
posto y = (1 +u
2
)x/2
= C
_
t/

q
−∞
du (
1 +u
2
2
)
−(1+q)/2
_
+∞
0
dy y
(q+1)/2−1
e
−y
=
= CΓ(
q + 1
2
)
_
t/

q
−∞
du (
1 +u
2
2
)
−(1+q)/2
.
Finalmente, ponendo s =

qu , du = q
−1/2
ds , u
2
= s
2
/q :
P(T
q
< t) = (2π)
−1/2
Γ(q/2)
−1
2
−q/2
Γ(
q + 1
2
)q
−1/2
2
(1+q)/2
_
t
−∞
ds (1 +
s
2
q
)
−(1+q)/2
=
=
Γ((q + 1)/2)
(πq)
1/2
Γ(q/2)
_
t
−∞
ds (1 +
s
2
q
)
−(1+q)/2
q.e.d..
`
E bene notare che la densit` a g `e simmetrica
g(−t) = g(t) .
Tornando alla determinazione di intervalli di confidenze per la media incognita µ, dato un livello
di confidenza desiderato 1 −α, determiniamo t
α/2
tale che
_
+∞
t
α/2
g(s)ds = α/2
e quindi
_
−t
α/2
−∞
g(s)ds = α/2 ,
essendo g = g
n−1
la densit` a t di Student con n −1 gradi di libert`a.
Allora
P(−t
α/2
≤ T
n−1
=
X −µ
S/

n
< t
α/2
) = 1 −α ,
pertanto
P(X −t
α/2
S/

n ≤ µ < X +t
α/2
S/

n) = 1 −α .
Universit`a di Torino, a.a. 2003-2004
92 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
L’intervallo aleatorio (in quanto i suoi estremi sono combinazione delle v.a. X e S)
[X −t
α/2
S/

n, X +t
α/2
S/

n]
`e un intervallo di confidenza per la stima della media µ della v.a. normale X , con livello di
confidenza 1 −α.
4.10 Le variabili F e z di Fisher.
Siano χ
2
p
e χ
2
q
due v.a. indipendenti che hanno una distribuzione χ
2
, rispettivamente con p e q
gradi di libetrt`a. Consideriamo un loro rapporto normalizzato:
F
p,q
=
χ
2
p
/p
χ
2
q
/q
=
q
p
χ
2
p
χ
2
q
,
che si dice variabile F con p e q gradi di libert`a.
Fisher introdusse una variabile z legata alla precedente dalle relazioni
e
2z
= F
p,q
, z =
1
2
lnF
p,q
.
Queste variabili si incontrano in numerose situazioni, particolarmente in test di analisi della
varianza.
Vogliamo determinare la distribuzione e la densit` a di F.
`
E sufficiente considerare la variabile
X =
Y
Z
, dove Y = χ
2
p
, Z = χ
2
q
.
La densit` a congiunta di Y e Z, per la loro indipendenza `e (considerando solo valori positivi delle
variabili):
g(y, z) = Cy
p/2−1
z
q/2−1
e
−(y+z)/2
,
dove
C =
1
Γ(p/2)2
p/2
Γ(q/2)2
q/2
.
La distribuzione di X risulta
P(X < x) = P(Y < xZ) =
_ _
z>0 , 0<y<xz
g(y, z)dydz =
= C
_
+∞
0
dz z
q/2−1
_
xz
0
dy y
p/2−1
e
−(y+z)/2
=
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 93
p=9, q=15
p=15, q=87
0
1
2
3
4
5
6
0.2 0.4 0.6 0.8 1
x
Figura 4.4: Densit`a di Fisher: v.a. X
p,q
con parametri p = 9, q = 15 e p = 15, q = 87.
posto y = uz , dy = zdu
= C
_
+∞
0
dz z
q/2
_
x
0
du (uz)
p/2−1
e
−(1+u)z/2
=
= C
_
x
0
du u
p/2−1
_
+∞
0
dz z
(p+q)/2−1
e
−(1+u)z/2
=
posto t = (1 +u)z/2 , z = 2t/(1 +u) , dz = 2dt/(1 +u)
= C
_
x
0
du u
p/2−1
(
2
1 +u
)
(p+q)/2
_
+∞
0
dt t
(p+q)/2−1
e
−t
=
= CΓ(
p +q
2
)2
(p+q)/2
_
x
0
du
u
p/2−1
(1 +u)
(p+q)/2
.
Dunque la densit` a di X
p,q
`e nulla per x ≤ 0 e uguale a
Γ((p +q)/2)
Γ(p/2)Γ(q/2)
x
p/2−1
(1 +x)
(p+q)/2
.
Universit`a di Torino, a.a. 2003-2004
94 Capitolo 4. Densit`a congiunta e funzioni di pi` u variabili aleatorie reali
Non sarebbe difficile calcolare media e varianza di F
p,q
(Cram´er [1], p.242):
E(F
p,q
) = q/(q −2) per q > 2
V (F
p,q
) =
2q
2
(p +q −2)
p(q −2)
2
(q −4)
per q > 4 .
Quaderni Didattici del Dipartimento di Matematica
Capitolo 5
Funzioni caratteristiche e
teorema del limite centrale
5.1 Funzione caratteristica
Sia X una v.a. reale. Si dice funzione caratteristica di X la funzione a valori complessi
ϕ
X
(t) = E(e
itX
) .
La variabile t `e reale; per t fissato itX `e una v.a. complessa (cio`e a vaori in C).
(Lo studio di una v.a. complessa Z, volendo, si pu` o ricondurre allo studio di due v.a. reali: la
sua parte reale e la sua parte immaginaria. Ad esempio:
E(Z) = E(ℜZ +iℑZ) = E(ℜZ) +iE(ℑZ) ).
Nel caso discreto, se x
k
sono i valori assunti da X e p
k
le corrispondenti probabilit` a
ϕ
X
(t) =

k
e
itx
k
p
k
.
Si noti che si tratta di una somma finita o di una serie assolutamente convergente perch`e
|e
itx
k
| = 1, p
k
≥ 0 e

k
p
k
= 1.
Nel caso continuo, se f
X
(x) `e la densit` a di X:
ϕ
X
(t) =
_
+∞
−∞
e
itx
f
X
(x)dx
e quindi la funzione caratteristica `e data dalla trasformata di Fourier della densit` a mediante la
formula: ϕ(t) = F(f)(−t).
95
96 Capitolo 5. Funzioni caratteristiche e teorema del limite centrale
Osservazione. Assumiamo come definizione della trasformata di Fourier
F(f)(t) =
_
+∞
−∞
e
−itx
f(x)dx ,
come ad esempio L.H¨ ormander. Nella letteratura si trovano varie definizioni, lievemente diverse,
che non danno luogo a modifiche delle propriet` a fondamentali: invece di exp(−itx) si pu` o trovare
exp(itx) (I.M.Gelfand-G.E.
ˇ
Silov), oppure exp(−2πitx) (L.Schwatz, E.M.Stein-G.Weiss), oppure
exp(−itx)/

2π (F.Riesz-B.Sz.Nagy, A.Kolmogorov-S.Fomin, K.Yosida).
L’integrale, essendo |e
itx
k
| = 1 ed f integrabile, `e ben definito.
Nel caso generale di una distribuzione F
X
, non continua ovunque n´e puramente discreta, si
dovrebbe usare un integrale di Stietjes per costruire ϕ da F.
Propriet`a fondamentali delle funzioni caratteristiche .
Con calcoli elementari nel caso discreto, o ricordando i risulati essenziali sulla trasformata
di Fourier, si dimostrano le propriet` a seguenti, valide anche per v.a. generali:
1) ϕ(0) = 1 e, per ogni t, ϕ(−t) = ϕ(t) e |ϕ(t)| ≤ 1.
2) ϕ `e una funzione uniformemente continua e se X ha momenti finiti fino all’ordine k,
propriet` a che nel caso continuo equivale alla convergenza degli integrali
_
+∞
−∞
x
j
f(x)dx , j = 0.1, ..., k ,
allora ϕ `e k volte derivabile con continuit` a. In tal caso i momenti di X sono forniti dalle formule
E(X
j
) =
1
i
j
ϕ
(j)
X
(0) .
3) Se X e Y hanno la stessa funzione caratteristica allora X e Y hanno la stessa distribuzione.
Si pu` o dimostrare che che, se i punti x + h e x − h ( h > 0 ) sono punti di continuit` a della
distribuzione F(x) alla quale corrisponde la funzione caratteristica ϕ(t) , allora
F(x +h) −F(x −h) = lim
T→+∞
1
π
_
T
−T
sin(ht)
t
e
−itx
ϕ(t)dt .
Inoltre, se |ϕ| `e integrabile, F `e derivabile e la sua derivata f si ottiene mediante la formula
f(x) =
1

_
+∞
−∞
e
−itx
ϕ(t)dt .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 97
4) Se Y = bX +a allora
ϕ
Y
(t) = e
iat
ϕ
X
(bt) .
5) Se X e Y sono indipendenti
ϕ
X+Y
(t) = ϕ
X
(t)ϕ
Y
(t) .
Esempi .
Se K `e una variabile che assume i valori 1 e 0 con probabilit` a rispettivamente p e q = 1 −p:
ϕ
K
(t) = q +pe
it
.
Quindi se B `e una variabile binomiale associata ad n prove indipendenti: B = K
1
+K
2
... +K
n
,
dove le K
j
sono copie indipendenti di K:
ϕ
B
(t) = (q +pe
it
)
n
.
Se X ∼ N(0, 1), allora
ϕ
X
(t) = (2π)
−1/2
_
+∞
−∞
e
itx
e
−x
2
/2
dx = (2π)
−1/2
_
+∞
−∞
e
−(x−it)
2
/2−t
2
/2
dx =
posto z = x −it
= e
−t
2
/2
(2π)
−1/2
_
R−it
e
−z
2
/2
dz = e
−t
2
/2
.
Infatti, essendo la funzione e
−z
2
/2
analitica in tutto C e rapidamente decrescente per x →±∞,
l’integrale sulla retta R−it risulta uguale a quello sul cammino omotopo R.
Ricordando la definizione della funzione generatrice dei momenti m
X
, si ha la relazione
ϕ
X
(t) = m
X
(it). Si osservi che, essendo e
it
limitata, ϕ
X
`e sempre definita, mentre la conver-
genza dell’integrale che fornisce m
X
dipende dal comportamento della distribuzione.
Nel caso di una v.a. normale X ∼ N(µ, σ
2
), poich´e E(e
zX
) `e definita per ogni numero
complesso z:
E(e
zX
) = (2π)
−1/2
σ
−1
_
R
e
zx
e
−(x−µ)
2
/(2σ
2
)
dx = e
µz+σ
2
z
2
/2
,
che `e una funzione analitica di z in tutto il piano complesso. Si ha dunque in particolare
ϕ
X
(t) = e
iµt+σ
2
(it)
2
/2
= e
iµt−σ
2
t
2
/2
.
La funzione caratteristica di una v.a. di Cauchy `e
ϕ
R
(t) =
1
π
_
+∞
−∞
Re
itx
R
2
+x
2
dx = e
−R|t|
,
come si pu` o vedere con un utile esercizio di applicazione del metodo dei residui.
Universit`a di Torino, a.a. 2003-2004
98 Capitolo 5. Funzioni caratteristiche e teorema del limite centrale
5.2 Il teorema di L´evy-Cram´er
Riportiamo senza dimostrazione (si veda ad esempio H.Cram´er [], p.96, oppure B.V.Gnedenko[])
il seguente risultato fondamentale:
Siano ϕ
n
(t) le funzioni caratteristiche delle distribuzioni F
n
(x) ed esista per ogni t
ϕ(t) = lim
n→+∞
ϕ
n
(t) .
Sia inoltre ϕ continua in 0. Allora ϕ(t) `e la funzione caratteristica di una distribuzione F(x) e
per ogni punto x nel quale F `e continua si ha
lim
n→+∞
F
n
(x) = F(x) .
Una dimostrazione molto interessante e paricolarmente istruttiva `e proposta da P.Billingsley.
Essa tuttavia richiede strumenti pi` u avanzati (convergenza in legge o convergenza debole di
misure, teorema di Stone-Weierstrass, famiglie “tight” di distribuzioni e compattezza relativa).
5.3 Comportamento asintotico della distribuzione binomiale
Utilizzando il teorema di L´evy-Cram´er possiamo fornire una nuova e semplice dimostrazione
del teorema del limite integrale di Laplace-De Moivre.
Teorema. Sia B
n
una variabile binomiale associata ad n prove indipendenti, in ciascuna
delle quali la probabilit` a di successo `e p. Poniamo
µ = E(B
n
) = np , σ
2
= V (B
n
) = npq , Y
n
=
B
n
−µ
σ
.
Allora
P(a ≤
B
n
−np

npq
< b) →
1


_
b
a
e

t
2
2
dt .
Dimostrazione. La funzione caratteristica di Y
n
`e
ϕ
n
(t) = e
−itµ/σ
(pe
it/σ
+q)
n
= e
−itµ/σ
(p(e
it/σ
−1) + 1)
n
.
Allora, poich`e
e
it/σ
−1 =
it
σ

1
2
t
2
σ
2
+O(n
−3/2
) (σ =

npq) ,
si trova
ln(1 +p(e
it/σ
−1)) =
itp
σ

1
2
p
t
2
σ
2
+O(n
−3/2
) −
1
2
p
2
(it)
2
σ
2
+O(n
−3/2
) =
=
itp
σ

1
2
(p −p
2
)
t
2
σ
2
+O(n
−3/2
) .
Ma
ln ϕ
n
(t) = −
itnp
σ
+nln(1 +p(e
it/σ
−1)) =
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 99
essendo n(p −p
2
) = σ
2
= −
itnp
σ
+
itnp
σ

1
2
t
2
+O(n
−1/2
) →−
1
2
t
2
.
Pertanto
lim
n→+∞
ϕ
n
(t) = e

1
2
t
2
.
La funzione limite `e continua ed `e precisamente la funzione caratteristica di una v.a. normale
standard, inoltre la distribuzione normale standard `e continua per ogni valore di x, dunque per
ogni x si ha quando n →+∞
P(
B
n
−np

npq
< x) →
1


_
x
−∞
e

t
2
2
dt .
Ne segue immediatamente il risultato di De Moivre-Laplace.
5.4 Il teorema del limite centrale
Il risultato precedente concernente le variabili binomiali `e un caso particolare del teorema cen-
trale del limite e pu` o essere ampiamente generalizzato. Esistono diversi teoremi, che con ipotesi
pi` u o meno forti, conducono alla stessa tesi. Gi` a intravisto da Laplace e Gauss, f` u dimostrato
nel 1901 da Liapunov; successivi risultati, che fanno uso di metodi diversi, sono associati ai nomi
di L´evy, Lindeberg, Khinchin, Feller.
Consideriamo in primo luogo un teorema concernente v.a. equidistribuite, la cui dimostrazione
segue il metodo usato per le variabili binomiali.
Teorema. (Lindeberg-L´evy) Siano X
1
, X
2
, ... v.a. mutuamente indipendenti aventi la
stessa distribuzione di media µ e varianza σ
2
. Allora la somma, v.a. dipendente da n,
S
n
= X
1
+X
2
+... +X
n
,
che ha media E(S
n
) = nµ e varianza V (S
n
) = nσ
2
, `e asintoticamente normale (nµ, nσ
2
) nel
senso che per ogni a e b si ha
lim
n→+∞
P(a ≤
S
n
−nµ
σ

n
< b) =
1


_
b
a
e

t
2
2
dt .
Dimostrazione. Solo per semplicit`a sia µ = 0 (ipotesi non restrittiva: altrimenti si ra-
gionerebbe sulle v.a. Z
k
= X
k
−µ). Sia inoltre φ(t) la funzione caratteristica della distribuzione
comune alle singole X
k
, per la quale dunque si ha
φ(t) = 1 −σ
2
t
2
/2 +o(t
2
) .
Poniamo poi
Y
n
=
S
n
σ

n
,
Universit`a di Torino, a.a. 2003-2004
100 Capitolo 5. Funzioni caratteristiche e teorema del limite centrale
che ha come funzione caratteristica
φ
Yn
(t) = φ(t/σ

n)
n
.
Allora, per ogni t
φ(t/σ

n) = 1 −t
2
/2n +o(1/n) ,
ln φ(t/σ

n) = −t
2
/2n +o(1/n) ,
ln φ
Yn
(t) = nln φ(t/σ

n) = −t
2
/2 +n · o(1/n) →−t
2
/2 .
Si osservi che, essendo t fisso e σ
2
dato, mentre n → +∞, scriviamo brevemente o(1/n) invece
di o(t
2
/nσ
2
).
Dunque
lim
n→+∞
ln φ
Yn
(t) = −t
2
/2 .
Ricorrendo al teorema di L´evy-Cram´er si conclude la dimostrazione. q.e.d.
Passando al caso di variabili non equidistribuite enunciamo ora, senza dimostrazione, il
Teorema di Liapunov. Sia X
1
, X
2
, ..., X
n
, ... una successione di v.a.
1) mutuamente indipendenti,
2) dotate di media e varianza finite:
E(X
k
) = µ
k
, V (X
k
) = σ
2
k
,
3) per le quali inoltre esista d > 0 tale che siano finite le quantit` a E(|X
k
−µ
k
|
2+d
) ed anzi, posto
m
n
= µ
1

2
+... +µ
n
, s
2
n
= V
n
= V (X
1
) +V (X
2
) +... +V (X
n
) ,
risulti
lim
n→+∞
1
s
2+d
n
n

k=1
E(|X
k
−µ
k
|
2+d
) = 0 ,
Allora la v.a.
S
n
= X
1
+X
2
+... +X
n
, per la quale E(S
n
) = m
n
e V (S
n
) = s
2
n
,
`e asintoticamente normale (m
n
, s
n
) :
lim
n→+∞
P(a ≤
S
n
−m
n
s
n
< b) =
1


_
b
a
e

t
2
2
dt .
O ancora, per ogni x
lim
n→+∞
P(

n
k=1
(X
k
−µ
k
)
_

n
k=1
σ
2
k
< x) =
1


_
x
−∞
e

t
2
2
dt .
Si pu` o vedere che il limite `e uniforme in x.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 101
Il significato delle varie condizioni imposte per dedurre il teorema del limite centrale `e
sostanzialmente la trascurabilit` a asintotica dei singoli addendi rispetto alla loro somma. Per
questo il teorema ha un ruolo centrale nel Calcolo delle probabilit` a, essendo frequenti le situ-
azioni in cui effetti o perturbazioni significative sono la risultante di numerosi effetti o pertur-
bazioni, ciascuna delle quali presa isolatamente sarebbe irrilevante.
A questo proposito, si consideri il seguente semplice esempio: sia K una v.a. che assume i
valori 1, 0 con probabilit` a p, q e Z = K −p. Allora Z ha media nulla e varianza uguale a quella
di K, ovvero σ
2
= pq. Siano poi N
1
, N
2
... v.a. aleatorie normali di media nulla e varianza σ
2
k
tali che
+∞

k=1
σ
2
k
= θ
2
< +∞
e supponiamo che tutte le v.a. Z, N
k
siano mutuamente indipendenti. Posto
R
n−1
= N
1
+N
2
... +N
n−1
, S
n
= Z +R
n−1
, θ
2
n−1
=
n−1

k=1
σ
2
k
risulta
E(S
n
) = 0 , s
2
n
= V (S
n
) = σ
2

2
n−1
→s
2
= σ
2

2
.
Studiamo allora il comportamento asintotico di Y
n
= S
n
/s
n
. Siano
ϕ
N
(t) = e
−t
2
/2
, ϕ
K
(t) = pe
it
+q
le funzioni caratteristiche di una normale standard N e di K. Allora
ϕ
N
k
(t) = ϕ
N

k
t) = e
−σ
2
k
t
2
/2
, ϕ
Z
(t) = e
−ipt
ϕ
K
(t) = pe
iqt
+qe
−ipt
,
ϕ
Yn
(t) = ϕ
Z
(
t
s
n
)
n−1

k=1
ϕ
N
(
σ
k
t
s
n
) =
= (pe
iqt/sn
+qe
−ipt/sn
)e
−θ
2
n−1
t
2
/2s
2
n
→(pe
iqt/s
+qe
−ipt/s
)e
−θ
2
t
2
/2s
2
,
funzione continua in t e dunque funzione caratteristica di una distribuzione, la quale tuttavia non
`e una normale standard, ma `e la distribuzione della somma T = U +V di due v.a. indipendenti:
U, che assume i valori q/s, −p/s con probabilit` a p, q e V , normale di media nulla e varianza
β
2
= θ
2
/s
2
. Dunque
P(T < c) =
p


_
c−q/s
−∞
e

v
2
β
2
dv +
q


_
c+p/s
−∞
e

v
2
β
2
dv ,
distribuzione continua, con densit` a
1


(pe

(x−q/s)
2
β
2
+qe

(x+p/s)
2
β
2
) .
Universit`a di Torino, a.a. 2003-2004
102 Capitolo 5. Funzioni caratteristiche e teorema del limite centrale
In questo caso, ovviamente, la condizione di Liapunov non `e soddisfatta:
E(|Z|
2+d
) +

n−1
k=1
E(|N
k
|
2+d
)

2

2
n−1
)
(2+d)/2

pq
2+d
+qp
2+d

2

2
)
(2+d)/2
> 0
e non pu` o quindi tendere a 0.
Se X
1
, X
2
, ...X
n
, ... sono v.a. di Cauchy, indipendenti e di ugual densit` a (π(1 + x
2
))
−1
, le
loro somme
S
n
= X
1
+X
2
+... +X
n
sono v.a. di Cauchy con densit` a n(π(n
2
+x
2
))
−1
e in questo caso il teorema del limite centrale
non vale.
Quaderni Didattici del Dipartimento di Matematica
Capitolo 6
La legge dei grandi numeri
6.1 La legge debole dei grandi numeri
Si dice che per una successione di v.a. X
1
, X
2
..., dotate di media, vale la legge debole dei
grandi numeri se
∀ε > 0 lim
n→+∞
P(|
1
n
n

k=1
X
k

1
n
n

k=1
E(X
k
)| < ε) = 1 .
Definizione. La successione X
n
di v.a. converge in probabilit` a alla v.a. X se e solo se
∀ε > 0 lim
n
P({ω ∈ Ω | |X
n
(ω) −X(ω)| < ε}) = 1 .
Equivalentemente
∀ε > 0 lim
n
P({ω ∈ Ω | |X
n
(ω) −X(ω)| ≥ ε}) = 0 .
Dunque la legge debole dei grandi numeri si pu` o formulare dicendo che
M
n
=
1
n
n

k=1
(X
k
−E(X
k
)) →0
in probabilit` a.
6.2 Convergenza quasi certa, convergenza debole e convergenza in legge
La convergenza in probabilit` a `e una convergenza pi` u debole della convergenza puntuale (∀ω ∈
Ω M
n
(ω) → 0), o anche solo della convergenza q.c. (lim
n
P({M
n
→ 0} = 0). Il termine legge
103
104 Capitolo 6. La legge dei grandi numeri
debole deriva dal fatto che debole `e la nozione di convergenza coinvolta.
Se X
n
e X sono v.a. (reali) in Ω e F
n
, F sono le loro distribuzioni, allora
Teorema. La convergenza in probabilit` a di X
n
ad X implica la convergenza di F
n
(c) a
F(c) in tutti i punti di continuit` a della funzione F, o, come si dice, implica la convergenza in
distribuzione (ovvero in legge) di X
n
ad X. Si scrive
X
n
D
→ X .
Osservazione. Si pu` o vedere che X
n
converge ad X in distribuzione se e solo se per ogni
funzione continua e limitata f
E(f(X
n
)) → E(f(X)) .
La convergenza delle distribuzioni F
n
a F nei punti di continuit` a di F equivale alla cosiddetta
convergenza debole delle corrispondenti misure di probabilit` a µ
n
a µ (leggi delle v.a. X
n
e X).
* * *
Dimostrazione. Per ogni n ed ε sia
A = A
ε
n
= { X −ε < X
n
< X +ε } .
Per l’ipotesi di convergenza in probabilit` a P(A) →1 e P(A
c
) →0 per n →+∞.
Su A
X < c −ε ⇒X +ε < c ⇒ X
n
< c ,
dunque
P(X < c −ε) = F(c −ε) ≤ P(X
n
< c) +P(A
c
) = F
n
(c) +P(A
c
)
e passando al limite per n →+∞ e poi per ε ↓ 0 si trova succesivamente
F(c −ε) ≤ liminf
n
F
n
(c) , F

(c) = F(c) ≤ liminf
n
F
n
(c) .
In modo analogo, su A,
X
n
< c ⇒X −ε < c ⇒X < c +ε
e dunque
F
n
(c) ≤ F(c +ε) +P(A
c
) .
e passando al limite per n →+∞ e poi per ε ↓ 0 si trova succesivamente
limsup
n
F
n
(c) ≤ F(c +ε) , limsup
n
F
n
(c) ≤ F
+
(c) .
Pertanto nei punti di continuit` a di F, dove F
+
(c) = F

(c) si ha effettivamente lim
n
F
n
(c) =
F(c). q.e.d.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 105
Al contrario, la convergenza delle distribuzioni non permette di avere alcuna informazione
sulla convergenza, anche solo in probabilit` a, delle v.a. corrispondenti. Si consideri ad esempio la
successione di v.a. definite nel seguente modo: sia Ω = [0, 1[ con P uguale alla misura standard
di Lebesgue; per ogni intero naturale n dividiamo Ω in 2
n
sottointervalli di uguale lunghezza
I
n
k
= [(k−1)/2
n
, k/2
n
[, k = 1, 2, ...2
n
(P(I
n
k
) = 1/2
n
); sia X
n
la v.a. che assume il valore 1 sugli
intervalli di indice dispari e 0 su quelli di indice pari. Tutte le X
n
hanno la stessa distribuzione:
P({X
n
= 1}) = 1/2 e P({X
n
= 0}) = 1/2, dunque F
n
(x) = 0 per x ≤ 0, F
n
(x) = 1/2 per
0 < x ≤ 1 e F
n
(x) = 1 per x > 1. Tuttavia la successione X
n
non converge in probabilit` a,
anzi nessuna sua sottosuccessione pu` o convergere in probabilit` a: infatti, presi due indici n ed
n +p, X
n
assume un valore costante (0 o 1) su ciascuno dei 2
n
intervalli I
n
k
, dove invece X
n+p
alterna con uguale probabilit` a i due valori sui successivi 2
p
sottointervallini di ampiezza 1/2
n+p
nei quali I
n
k
`e suddiviso. Allora
P({ |X
n
−X
n+p
| = 1 }) =
2
n

k=1
P({ |X
n
−X
n+p
| = 1 } ∩ I
n
k
) =
2
n

k=1
1
2
1
2
n
=
1
2
.
Del resto la distribuzione di una v.a. si occupa del peso probabilistico dei valori assunti dalla
v.a., prescindendo dai punti di Ω nei quali tali valori sono assunti. V.a. che assumono valori
diversi in ogni punto, posono avere la stessa distribuzione: ad esempio se X = 0 su A e X = 1
su A
c
, mentre P(A) = P(A
c
) = 1/2, allora Y = 1 − X ha la stessa distribuzione di X, ma `e
sempre X(ω) = Y (ω).
Segnaliamo tuttavia, senza dimostrazione, il seguente notevole risultato:
Teorema (Skorohod). Sia F
n
una successione di distribuzioni convergente alla distribuzione
F (F
n
(x) → F(x) in ogni punto di continuit` a di F). Allora esiste uno spazio di probabilit` a sul
quale sono definite v.a. X
n
e X, aventi distribuzione rispettivamente F
n
e F, tali che X
n
→X
quasi certamente.
& & &
6.3 Il teorema di Markov, i suoi corollari e il teorema di Khinchin
Teorema di Markov.
Sia X
1
, X
2
, ..., X
n
... una successione di v.a. dotate di media e e varianza, e tali che
lim
n→+∞
1
n
2
V (
n

k=1
X
k
) = 0 .
allora per ogni ε > 0
lim
n→+∞
P(|
1
n
n

k=1
X
k

1
n
n

k=1
E(X
k
)| < ε) = 1 ,
Universit`a di Torino, a.a. 2003-2004
106 Capitolo 6. La legge dei grandi numeri
cio`e per X
1
, X
2
, ... vale la legge debole dei grandi numeri.
Dimostrazione. Introduciamo la v.a.
Z
n
=
1
n
n

k=1
X
k
,
risulta
E(Z
n
) =
1
n
n

k=1
E(X
k
) , V (Z
n
) =
1
n
2
V (
n

k=1
X
k
)
e applicando la disuguaglianza di Chebychev (con ε > 0 arbitrario, ponendo c = ε/
_
V (Z
n
))
P(|Z
n
−E(Z
n
)| < ε) ≥ 1 −V (Z
n
)/ε
2
= 1 −
1
ε
2
1
n
2
V (
n

k=1
X
k
)
che tende a 1 per n →+∞. q.e.d.
Se le v.a. X
1
, X
2
, ... sono a due a due indipendenti la condizione di Markov diventa
lim
n→+∞
1
n
2
n

k=1
V (X
k
) = 0 .
Si ottiene allora immediatamente il seguente corollollario
Teorema di Chebychev. Sia X
1
, X
2
, ... una successione di v.a. a due a due indipendenti
aventi varianza finita e limitata da una stessa costante:
V (X
k
) ≤ C , k = 1, 2, ... ,
allora per ogni ε > 0 risulta
lim
n→+∞
P(|
1
n
n

k=1
X
k

1
n
n

k=1
E(X
k
)| < ε) = 1 .
Infatti in tal caso
1
n
2
n

k=1
V (X
k
) ≤
C
n
→0 .
Se inoltre tutte le v.a. hanno la stessa media E(X
k
) = µ allora
lim
n→+∞
P(|
1
n
n

k=1
X
k
−µ| < ε) = 1 .
Questo risultato `e il fondamento teorico della procedura di stima di una grandezza x mediante
la media aritmetica dei valori ottenuti in n misure indipendenti che, in presenza di perturbazioni
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 107
casuali con dispersione finita e limitata, ma in assenza di errori sistematici, forniscono i valori
x
1
, x
2
, ..., x
n
:
x ∼
x
1
+x
2
+... +x
n
n
.
Infatti ad ogni misura indipendente si pu` o associare una v.a. X
k
, supponendo che il suo valor
medio E(X
k
) sia uguale al valore vero x della grandezza e che i valori da essa assunti siano
distribuiti intorno ad x con una dispesione finita, limitata in modo uniforme: V (X
k
) ≤ C.
Un caso particolare del Teorema di Chebychev, con v.a. aventi tutte la stessa media, `e il
seguente
Teorema di Bernouilli. Si consideri una successione di prove indipendenti, in ciascuna
delle quali vi `e una probabilit` a p di successo e q = 1 − p di fallimento. Sia F
n
il numero di
successi in n prove e f
n
= F
n
/n la corrispondente frequenza relativa. Allora per ogni ε > 0
lim
n→+∞
P(|f
n
−p| < ε) = 1 .
Ovvero la frequenza relativa tende, in probabilit` a, alla probabilit` a p. Il risultato `e immediato
osservando che, associando ad ogni prova una v.a. K
j
che assume il valore 1 in caso di successo
e 0 in caso di fallimento, le K
j
sono indipendenti e
E(K
j
) = p , V (K
j
) = pq = p(1 −p) ≤ 1/4 .
Un poco pi` u generale `e il
Teorema di Poisson. Sempre nell’ipotesi precedente di prove indipendenti, ma con prob-
abilit` a di successo p
j
variabile nelle diverse prove, si ha
lim
n→+∞
P(|f
n

p
1
+p
2
+... +p
n
n
| < ε) = 1 .
Infatti, come sopra
E(K
j
) = p
j
, V (K
j
) = p
j
q
j
≤ 1/4 .
In tutti i risultati precedenti si considerano v.a. con varianza finita. Il seguente teorema
evita invece tale ipotesi, considerando per`o soltanto variabili equidistribuite.
Teorema di Khinchin. Se le v.a. X
1
, X
2
, ... sono a due a due indipendenti ed hanno la
stessa distribuzione con media finita µ, allora per ogni ε > 0
lim
n→+∞
P(|
1
n
n

k=1
X
k
−µ| < ε) = 1 .
Universit`a di Torino, a.a. 2003-2004
108 Capitolo 6. La legge dei grandi numeri
* * *
Dimostrazione. Dato η > 0 ed n intero positivo, per k = 1, 2...n scomponiamo X
k
nel modo
seguente:
X
k
= Y
k
+Z
k
,
avendo posto
_
Y
k
= X
k
Z
k
= 0 se |X
k
| < nη
Y
k
= 0 Z
k
= X
k
se |X
k
| ≥ nη
.
Per ipotesi tutte le v.a. hanno la stessa distribuzione, quella ad esempio di X = X
1
, con media
finita µ. Dunque converge l’integrale
a =
_

|X|dP .
Le v.a. Y
k
hanno media e varianza finite:
µ
n
= E(Y
k
) =
_
|X|<nη
XdP →µ per n →+∞ ,
σ
2
n
= V (Y
k
) =
_
|X|<nη
X
2
dP −µ
2
n
≤ nη
_
|X|<nη
|X|dP ≤ nηa .
Fissato ε > 0 arbitrario, per n > ν sar`a |µ
n
−µ| < ε e per la disuguaglianza di Chebychev
P(|
1
n
n

k=1
Y
k
−µ
n
| ≥ ε) ≤

ε
2
.
Infatti V = V (1/n

n
k=1
Y
k
) = n/n
2
σ
2
n
≤ aη e, se ε
2
= λ
2
V , si ha λ
−2
= V/ε
2
≤ aη/ε
2
.
Allora, per n > ν risulta
P(|
1
n
n

k=1
Y
k
−µ| ≥ 2ε) ≤

ε
2
.
Osserviamo inoltre che, per n > ν

opportuno,
nηP(Z
k
= 0) = nηP(|X| ≥ nη) ≤
_
|X|≥nη
|X|dP ≤ η
2
,
in considerazione della convergenza di
_
|X|≥nη
|X|dP a
_

|X|dP, e dunque P(Z
k
= 0) ≤ η/n.
Allora, essendo Z
k
≥ 0,
P(
1
n
n

k=1
Z
k
= 0) = P(
n

k=1
Z
k
= 0) ≤
n

k=1
P(Z
k
= 0) ≤

k
η/n = η .
Poniamo
A
n
= {|
1
n
n

k=1
X
k
−µ| ≥ 2ε} , B
n
= {|
1
n
n

k=1
Y
k
−µ| ≥ 2ε} , C
n
= {
1
n
n

k=1
Z
k
= 0} .
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 109
Ovviamente
A
n
⊆ (B
n
∩ C
c
n
) ∪ C
n
e dunque
P(A
n
) ≤ P(B
n
) +P(C
n
) ≤

ε
2
+η .
Per l’arbitrariet`a di η e ε si ha lim
n
P(A
n
) = 0 e il teorema `e dimostrato. q.e.d.
& & &
6.4 La legge forte dei grandi numeri
Si dice che per una successione X
1
, X
2
, ... di v.a. dotate di media vale la legge forte dei
grandi numeri se
P(ωǫΩ | lim
n→+∞
|
1
n
n

k=1
X
k
(ω) −
1
n
n

k=1
E(X
k
)| = 0) = 1 .
Definizione. Le v.a. X
n
convergono quasi certamente (q.c.) (a.s. in inglese: “almost
surely), o con probabilit` a 1, alla v.a. X se e solo se
P({ω ∈ Ω | X
n
(ω) →X(ω) } = 1 ,
ovvero
P({ω ∈ Ω | X
n
(ω) →X(ω) } = 0 .
Osservazione. In teoria della misura si usano le espressioni equivalenti “quasi ovunque (q.o.)
e “almost everywhere (a.e.).
Dunque vale la legge forte dei grandi numeri se e solo se
M
n
=
1
n
n

k=1
(X
k
−E(X
k
)) →0
quasi certamente.
Osservazione. Si dimostra che la convergenza quasi certa implica la convergenza in proba-
bilit` a. Invece la convergenza in probabilit` a di X
n
a X non implica che X
n
→ X q.c. Tuttavia
si pu` o sempre trovare una sottosuccessione X
n
k
che converge q.c. ad X.
* * *
Universit`a di Torino, a.a. 2003-2004
110 Capitolo 6. La legge dei grandi numeri
Teorema. Sia X
n
convergente q.c. ad X . Allora X
n
converge in probabilit` a ad X .
Dimostrazione. Sia C ⊆ Ω l’insieme sul quale X
n
converge ad X:
C = { ω | ∀k∃n∀p ≥ n |X
n
(ω) −X(ω)| <
1
k
} .
Allora, fissato comunque j, l’insieme
A
j
= ∩
n

p≥n
{ |X
p
−X| ≥
1
j
}
`e contenuto nel complementare di C (se ω ∈ A
j
, per infiniti indici p si ha |X
p
(ω)−X(ω)| ≥ 1/j e
non vi pu` o essere convergenza in ω). Essendo P(C) = 1, si ha P(A
j
) = 0. Ma per la decrescenza
dell’unione al crescere di n
0 = P(A
j
) = lim
n
P(∪
p≥n
{ |X
p
−X| ≥
1
j
}) ≥ lim
n
P({ |X
n
−X| ≥
1
j
}) .
Fissato ε, sia j tale che 1/j ≤ ε, allora
lim
n
P({ |X
n
−X| ≥ ε }) = 0
e la convergenza in probabilit` a `e stabilita. q.e.d.
Osservazione. Se X
n
→X in probabilit` a, non necessariamente X
n
→X q.c. Basta fornire un
controesempio: sia Ω = [0, 1[ con P uguale alla misura di Lebesgue standard su tale intervallo;
sia
χ
n,k
= χ
[(k−1)/n,k/n[
n = 1, 2, ... , k = 1, 2, ..., n .
Ordiniamo queste funzioni caratteristiche formando la successione X
p
= χ
n,k
, p = 1 +2 +...(n−
1) + k . Per ogni ω ∈ [0, 1[ vi sono infiniti indici p per i quali X
p
(ω) = 1 e infiniti per i quali
X
p
(ω) = 0 : quindi la successione X
p
non converge in nessun punto. Ma ovviamente per ogni
0 < ε < 1
P({ |χ
n,k
−0| ≥ ε}) =
1
n
→0
e le v.a. X
p
tendono a 0 in probabilit` a.
Teorema. Sia X
n
convergente in probabilit` a ad X . Allora esiste una sottosuccessione X
n
k
convergente q.c. ad X .
Dimostrazione. Siano α
n
e η
n
numeri positivi tali che
lim
n→+∞
α
n
= 0 e
+∞

n=1
η
n
< +∞ .
Selezioniamo, in virt` u dell’ipotesi di convergenza in probabilit` a, degli indici n
1
< n
2
< ... tali
che
P({|X
n
k
−X| ≥ α
k
}) < η
k
.
Siano infine
A
j
= ∪
+∞
k=j
{|X
n
k
−X| ≥ α
k
} e B = ∩
+∞
j=1
A
j
.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 111
Si ha A
j+1
⊆ A
j
e, per la continuit` a di P
+∞

k=j
η
k
≥ P(A
j
) → P(B) .
Poich´e il resto della serie tende a 0 si ottiene P(B) = 0 . Ma
∀ω ∈ Ω −B lim
k
X
n
k
(ω) = X(ω) .
Infatti se ω / ∈ B esiste j tale che ω / ∈ A
j
, cio`e per ogni k ≥ j
ω / ∈ {|X
n
k
−X| ≥ α
k
} ovvero |X
n
k
(ω) −X(ω)| < α
k
.
Ma α
k
→0 e il teorema `e dimostrato.
Osservazione. Spesso `e importante considerare convergeze di v.a. di tipo integrale,
principalmente in L
p
, p ≥ 1:
X
n
→X in L
p

_

|X
n
(ω) −X(ω)|
p
dP(ω) →0 .
`
E ben noto in teoria generale dell’integrazione che per misure finite, quali ovviamente sono le
misure di probabilit` a, se X
n
→X in L
p
e q < p allora X
n
→X in L
q
e che X
n
→ X in L
p
allora
esiste una sottosuccessione X
n
k
convergente quasi certamente (anche se l’intera successione in
generale non converge q.c.)
Inoltre la convergenza in L
p
implica la convergenza in probabilit` a: per la disuguaglianza di
Markov si ha
P({ |X
n
−X| ≥ ε }) = P({ |X
n
−X|
p
≥ ε
p
}) ≤
E(|X
n
−X|
p
)
ε
p
→0 .
& & &
Prima di riportare alcuni teoremi fondamentali sulla legge dei grandi numeri, premettiamo
qualche risultato di grande rilievo ed utilit` a in numerose questioni.
Lemma di Cantelli. Data una successione di eventi A
n
tali che
+∞

n=1
P(A
n
) < +∞ ,
posto
A = lim
n
A
n
= ∩
n

p>n
A
p
= {A
n
i.o. } ,
si ha P(A) = 0.
Osservazione. i.o. significa infinitely often , ovvero per infini valori dell’indice n. Infatti ω ∈ A
Universit`a di Torino, a.a. 2003-2004
112 Capitolo 6. La legge dei grandi numeri
se e solo se ω ∈ A
n
per infiniti valori di n.
Dimostrazione. Se E
n
= ∪
p>n
A
p
, allora E
n
⊇ E
n+1
, cio`e la successione E
n
`e generalmente
decrescente. Pertanto
P(A) = lim
n
P(E
n
), ma P(E
n
) ≤

p>n
P(A
p
) →0 per n →+∞ . q.e.d.
Il lemma di Cantelli pu` o essere integrato dal seguente risultato dovuto a Borel:
Lemma. Se gli eventi A
n
sono mutuamente indipendenti e

n
P(A
n
) = +∞ ,
allora, posto
A = lim
n
A
n
= ∩
n

p>n
A
p
= {A
n
i.o. } ,
si ha P(A) = 1.
Dimostrazione. Conviene considerare il complementare:
P(A
c
) = P(∪
n

p>n
A
c
p
) ≤

n
P(∩
p>n
A
c
p
) = 0 .
Perch´e per ogni n, per l’indipendenza delle A
p
, si ha
P(∩
p>n
A
c
p
) =

p>n
(1 −P(A
p
)) = 0 ,
in virt` u della divergenza della serie

p>n
P(A
p
). q.e.d.
Ricordiamo infatti che

n
(1 −x
n
) = exp(

n
ln(1 −x
n
)) →0 se

n
ln(1 −x
n
)) →−∞ ,
come avviene certamente se la serie maggiorante

n
−x
n
diverge a −∞.
L’insieme dei due risultati (lemma di Cantelli e lemma di Borel) sono spesso presentati con-
giuntamente come lemma di Borel-Cantelli
Molti casi interessanti di eventi per i quali si sa a priori che si verificano o con probabilit` a 1
o con probabilit` a 0 sono forniti dalla legge zero-uno di Kolmogorov.
Premettiamo alcune definizioni.
Definizione. Sia {X
γ
}
γ∈Γ
una famiglia arbitraria di v.a. Esse si dicono (mutuamente) in-
dipendenti se e solo se ogni sottofamiglia finita {X
1
, X
2
, ...X
N
} `e costituita da v.a. indipendenti,
dunque se le σ-algebre σ(X
1
), σ(X
2
), ...σ(X
N
) sono indipendenti.
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 113
Definizione. Sia {X
γ
}
γ∈Γ
una famiglia arbitraria di v.a. Con σ(X
γ
| γ ∈ Γ) si indica la
pi` u piccola σ-algebra generata dalla famiglia di insiemi {X
−1
γ
(B) | γ ∈ Γ , B ∈ B}.
Definizione. Sia X
1
, X
2
, ...X
n
, ... una successione di v.a. La σ-algebra
τ = ∩
+∞
n=1
σ(X
n
, X
n+1
...)
si dice σ-algebra di coda della successione.
Teorema zero-uno di Kolmogorov. Se le v.a. X
n
sono indipendenti, τ `e banale, cio`e se
A ∈ τ allora P(A) = 0 oppure P(A) = 1.
Dimostrazione. Sia A ∈ τ. Allora per ogni n si ha A ∈ σ(X
n+1
, X
n+2
, ...). Ma le famiglie
{ X
1
, X
2
...X
n
} e { X
n+1
, X
n+2
, ... } sono indipendenti e quindi per ogni n, A `e indipendente
da {X
1
, X
2
, ...X
n
} e dunque `e indipendente da {X
1
, X
2
, ...}. Ma A ∈ σ(X
1
, X
2
, ...) e dunque A
`e indipendente da s´e stesso: P(A) = P(A ∩ A) = P(A)
2
e P(A) = 0 oppure P(A) = 1. q.e.d.
Osservazione. Eventi concernenti le v.a.
X

= liminf
n
X
n
, X

= limsup
n
X
n
, X = lim
n
X
n
,
appartengono a τ. Infatti, per ogni n:
σ(X

) , σ(X

) , σ(X) ⊆ σ(X
n
, X
n+1
, ...) .
Ad esempio
{ liminf
n
X
n
≤ c } = { sup
n
inf
p≥n
X
p
≤ c } = ∩
n

p≥n
{ X
p
≤ c }
e l’ultima unione appartiene a σ(X
n
, X
n+1
, ...).
Teorema (criterio di convergenza q.c.). Se, per ogni intero positivo r, si ha
+∞

k=1
P(|X
n
−X| ≥
1
r
) < +∞ ,
allora X
n
→X quasi certamente.
Dimostrazione. Sia C l’insieme dove X
n
converge ad X e quindi C
c
l’insieme dove X
n
non
converge ad X. Per ω ∈ C
c
∃r∀ν∃n > ν |X
n
(ω) −X(ω)| ≥
1
r
,
ovvero, posto A
r
n
= {|X
n
−X| ≥ 1/r },
C
c
⊆ ∪
r

ν

n>ν
A
r
n
= ∪
r
A
r
, A
r
= lim
n
A
r
n
.
(In effetti i due insiemi coincidono).
Per l’ipotesi e il lemma di Cantelli P(A
r
) = 0. Allora, per la σ-subadditivit` a di P, si ha
Universit`a di Torino, a.a. 2003-2004
114 Capitolo 6. La legge dei grandi numeri
P(C
c
) = 0. q.e.d.
Teorema (generalizzazione del precedente criterio di convergenza q.c.). Se, per
ogni intero positivo r, esiste una successione di interi 1 = n
1
< n
2
< ...(→+∞) tale che
+∞

k=1
P( max
n
k
≤n<n
k+1
|X
n
−X| ≥
1
r
) < +∞ ,
allora X
n
→X quasi certamente.
Dimostrazione. Indicando sempre con C
c
l’insieme di non convergenza e ponendo E
r
k
= {max
n
k
≤n<n
k+1
|X
n

X| ≥ 1/r}, per ω ∈ C
c
∃r∀n
k
∃n > n
k
|X
n
(ω) −X(ω)| ≥
1
r
.
Dunque, se n `e tale che n
k
< n
p
≤ n < n
p+1
, ω ∈ E
r
p
e
C
c
⊆ ∪
r

k

p>k
E
r
p
= ∪
r
E
r
, E
r
= lim
n
E
r
n
.
Come nel teorema precedente, per l’ipotesi e il lemma di Cantelli P(E
r
) = 0. Allora, per la
σ-subadditivit` a di P, si ha P(C
c
) = 0. q.e.d.
Disuguaglianza di Kolmogorov. Siano X
1
, X
2
...X
k
...X
n
v.a. mutuamente indipendenti
con medie µ
k
e varianze σ
2
k
finite. Allora, per ogni ε > 0, posto
A
k
= {|
k

j=1
(X
j
−µ
j
)| < ε } , E
0
= A
1
∩ A
2
∩ ... ∩ A
n
,
si ha
P(E
0
) = P( max
1≤k≤n
|
k

j=1
(X
j
−µ
j
)| < ε) ≥ 1 −
1
ε
2
n

k=1
σ
2
k
.
Dimostrazione. Non `e restrittivo supporre per semplicit`a µ
k
= 0 (altrimenti si ragionerebbe
sulle v.a. Y
k
= X
k
−µ
k
). Poniamo
S
k
=
k

j=1
X
j
e dunque A
k
= {|S
k
| < ε} .
Poniamo inoltre
E
k
= A
1
∩ A
2
... ∩ A
k−1
∩ A
c
k
,
allora k `e il primo indice per il quale |S
j
| ≥ ε, gli eventi E
k
sono disgiunti e E
c
0
= ∪
n
k=1
E
k
.
Dunque
P( max
1≤k≤n
|S
k
| ≥ ε) =
n

k=1
P(E
k
) .
Ora
V (S
n
) =
_

S
2
n
dP =
n

k=0
_
E
k
S
2
n
dP ≥
n

k=1
_
E
k
S
2
n
dP =
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 115
=
n

k=1
_

χ
E
k
(S
2
k
+ 2

j>k
S
k
X
j
+ 2

i>j>k
X
i
X
j
+

j>k
X
2
j
)dP ≥
n

k=1
ε
2
P(E
k
) ,
perch`e

j>k
X
2
j
≥ 0, S
2
k
χ
E
k
≥ ε
2
, le v.a. X
j
, X
i
sono indipendenti da S
k
χ
E
k
, χ
E
k
e E(X
i
) =
E(X
j
) = 0. Pertanto
P( max
1≤k≤n
|S
k
| ≥ ε) ≤
1
ε
2
V (S
n
) . q.e.d.
Siamo ora in grado di dimostrare un risultato fondamentale sulla legge forte dei grandi nu-
meri.
Teorema di Kolmogorov. Se la successione X
1
, X
2
, ... di v.a. mutuamente indipendenti
soddisfa la condizione
+∞

k=1
V (X
k
)
k
2
< +∞ ,
allora per essa vale la legge forte dei grandi numeri.
* * *
Dimostrazione. Poniamo µ
k
= E(X
k
), σ
2
k
= V (X
k
) e
S
n
=
n

k=1
(X
k
−µ
k
) , s
n
=
1
n
S
n
.
In virt` u del secondo criterio di convergenza visto sopra, posto per ogni intero q
P
q
= P(max
n
|s
n
| ≥ ε , 2
q
≤ n < 2
q+1
) ,
basta far vedere che per ogni ε > 0 si ha
+∞

q=1
P
q
< +∞ .
Ma, ricorrendo alla disuguaglianza di Kolmogorov, si ottiene
P
q
≤ P(max
n
|S
n
| ≥ 2
q
ε , 2
q
≤ n < 2
q+1
) ≤
1
(2
q
ε)
2

j<2
q+1
σ
2
j
e dunque
+∞

q=1
P
q

+∞

q=1
1
(2
q
ε)
2

j<2
q+1
σ
2
j
=
Universit`a di Torino, a.a. 2003-2004
116 Capitolo 6. La legge dei grandi numeri
=
1
ε
2
+∞

j=1
σ
2
j

2
q+1
>j
2
−2q
.
Se 2
s
≤ j < 2
s+1
, allora

2
q+1
>j
2
−2q
=
+∞

q=s
=
4
3
2
−2s

16
3j
2
e pertanto
+∞

q=1
P
q

16

2
+∞

j=1
σ
2
j
j
2
< +∞ ,
per l’ipotesi del teorema. q.e.d.
& & &
Segue immediatamente come corollario il seguente teorema, gi` a dimostrato nel 1909:
Teorema di Borel. Si consideri uno schema binomiale di prove indipendenti, ciascuna con
probabilit` a p di successo e q = 1 − p di fallimento. Sia f
n
= la frequenza relativa dei sucessi
nelle prime n prove. Allora
P( lim
n→+∞
f
n
= p) = 1 .
Infatti la serie
+∞

k=1
pq
k
2
converge.
Ricordiamo infine il seguente risultato, gi` a segnalato precedentemete, anch’esso dovuto a
Kolmogorov.
Teorema. Per una successione di v.a. X
k
identicamente distribuite, cio`e tutte con la
distribuzione uguale a quella di una stessa v.a. X (X
k
∼ X), e mutuamente indipendenti vale
la legge forte dei grandi numeri se esse ammettono valor medio finito:
_

|X|dP < +∞ ⇒ P( lim
n→+∞
X
1
+X
2
+... +X
n
n
=
_

XdP) = 1 ,
e viceversa, se la loro media aritmetica (X
1
+X
2
+... +X
n
)/n converge quasi certamente ad un
limite finito, allora esse ammettono valor medio finito, uguale a tale limite:
P( lim
n→+∞
X
1
+X
2
+... +X
n
n
= µ) = 1 , µ ∈ R ⇒
_

|X|dP < +∞ e µ =
_

XdP .
* * *
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 117
Dimostrazione. Cominciando dalla seconda parte, osserviamo che X `e integrabile se (e solo
se)
+∞

n=1
P({|X| ≥ n }) ≤ +∞ .
Infatti in tal caso, essendo
+∞

n=0
P({|X| ≥ n }) =
+∞

n=0
+∞

k=n
P({k ≤ |X| < k + 1 }) =
+∞

k=0
(k + 1)P({k ≤ |X| < k + 1 }) ,
la v.a. discreta F(ω) = (k + 1) per ω ∈ {k ≤ |X| < k + 1 }, dominante X, risulta integrabile e
basta allora applicare il teorema sulla convergenza dominata. (Inversamente se X `e integrabile,
allora, essendo F −1 ≤ |X|, anche F `e integrabile e la prima serie converge).
Ma, ponendo S
n
= X
1
+X
2
+... +X
n
, si ha
S
n
n
→µ q.c. ⇒
X
n
n
=
S
n
−S
n−1
n
=
S
n
n

n −1
n
S
n−1
n −1
→0 q.c.
e allora, se A
n
= {|X
n
| ≥ n } = {|X
n
/n| ≥ 1 }, pu` o risultare che A
n
si verifichi per infiniti
indici n solo con probabilit` a 0:
P(∩
k

n≥k
A
n
) = 0 .
Allora, in considerazione del lemma di Borel-Cantelli e poich´e X
n
∼ X, deve essere
+∞

n=1
P({|X
n
| ≥ n }) =
+∞

n=1
P({|X| ≥ n }) < +∞
ed X ammette valor medio finito E(X). Quando avremo dimostrato la prima parte della tesi
risulter`a, in virt` u dell’unicit` a del limite, che necessariamente µ = E(X).
Per quanto concerne la prima parte, osserviamo in primo luogo che non `e restrittivo supporre
E(X) = 0, altrimenti ragioneremmo sulla successione X
n
− E(X). Usiamo poi un metodo di
troncamento simile a quello impiegato nella dimostrazione del teorema di Khintchin, ponendo
Y
n
=
_
X
n
se |X
n
| < n
0 se |X
n
| ≥ n
Allora, essendo le X
n
identicamente ditribuite (con la distribuzione di X):
V (Y
n
) ≤ E(Y
2
n
) ≤
n

k=0
(k + 1)
2
P({k ≤ |X| < k + 1 })
e quindi
+∞

n=1
V (Y
n
)
n
2

+∞

n=1
1
n
2
n

k=0
(k + 1)
2
P({k ≤ |X| < k + 1 }) =
=
+∞

k=0
(k + 1)
2
P({k ≤ |X| < k + 1 })

n≥max(k,1)
1
n
2
≤ 4
n

k=0
(k + 1)P({k ≤ |X| < k + 1 } < +∞ ,
Universit`a di Torino, a.a. 2003-2004
118 Capitolo 6. La legge dei grandi numeri
perch´e, per k ≥ 1:

n≥k
1
n
2

1
k
2
+

n>k
1
n(n −1)
=
1
k
2
+

n>k
(
1
(n −1)

1
n
) =
1
k
2
+
1
k

2
k
e 2(k + 1)
2
/k ≤ 4(k + 1). Dunque per la successione Y
n
vale la legge forte dei grandi numeri e
dunque, posto µ
k
= E(Y
k
):
P( lim
n→+∞
(Y
1
−µ
1
) + (Y
2
−µ
2
) +...(Y
n
−µ
n
)
n
= 0) = 1 .
L’esistenza di E(X) finita e il fatto che X
n
ha la stessa distribuzione di X implicano che,
indicando con χ
n
la funzione caratteristica di |x| < n:
µ
n
=
_
|Xn|<n
X
n
dP =
_

X
n
χ
n
(X
n
)dP =
=
_


n
(X)dP =
_
|X|<n
XdP →0 .
Dunque anche
lim
n→+∞
µ
1

2
+...µ
n
n
= 0 .
Sia C l’nsieme dove per infiniti valori dell’indice n si ha X
n
= Y
n
:
C = ∩
N

n≥N
{ X
n
= Y
n
} .
Allora risulta
P(C) = lim
N
P(∪
n≥N
{ X
n
= Y
n
}) ,
P(∪
n≥N
{ X
n
= Y
n
}) ≤

n≥N
P({ X
n
= Y
n
}) =

n≥N
P({|X
n
| ≥ n}) →0 ,
perch´e X `e integrabile e quindi la serie

n
P({|X
n
| ≥ n}) converge. Dunque P(C) = 0.
Ma sul complementare C
c
, che ha probabilit` a 1, si ha definitivamente X
n
= Y
n
e dunque
lim
n→+∞
Y
1
+Y
2
+...Y
n
n
= lim
n→+∞
X
1
+X
2
+...X
n
n
= 0 = E(X) .
q.e.d.
& & &
Osservazione. La legge dei grandi numeri, debole o forte, non fornisce alcuna “certezza sul
comportamento asintotico delle medie aritmetiche. I risultati indicano soltanto che la proba-
bilit` a di deviazioni significative dal valor medio sono “trascurabili. Nel caso della legge debole si
afferma che la probabilit` a di uno scostamento, comunque prefissato, della media aritmetica dal
suo valor medio pu` o essere resa arbitrariamente piccola per n sufficientemente grande. Nel caso
della legge forte si afferma che la probabilit` a di non convergenza della differenza della media
Quaderni Didattici del Dipartimento di Matematica
A.Negro, Elementi di Calcolo delle Probabilit` a 119
aritmetica dal suo valor medio `e nulla (ma non impossibile).
Anche se questi risultati “suggeriscono di interpretare la probabilit` a come limite della fre-
quenza, essi non “dimostrano che la probabilit` a si ottiene come limite (nel senso ordinario) della
frequenza.
Universit`a di Torino, a.a. 2003-2004
Bibliografia
[1] BILLINGSLEY, P.: Convergence of Probability Measures. John Wiley & Sons, New York,
1968.
[2] BORKAR, V.S.: Probability Theory. Springer-Verlag, New York, 1995.
[3] CRAM
´
ER, H.: Mathematical Methods of Statistics. Princeton University Press, Princeton,
1971.
[4] DOOB J.L.: Measure Theory. Springer-Verlag, New York 1993.
[5] GALAMBOS, J.: Introductory Probability Theory. Marcel Dekker, Ney York, 1984.
[6] GALAMBOS, J.: Advanced Probability Theory. Marcel Dekker, Ney York, 1988.
[7] GIHMAN, I.I.-SKOROHOD, A.V.: The Theory of Stochastic Processes I. Springer-Verlag,
Berlin, 1974.
[8] GNEDENKO, B.: The Theory of Probability. Mir Publishers, Moscow, 1973.
[9] KOLMOGOROV, A.N.: Grundbegriffe der Wahrscheinlichkeits-Rechnung. Verlag von
Julius Springer, Berlin,1933.
[10] ØKSENDAL, B.: Stochastic Differential Equations. Springer-Verlag, Berlin, 1989.
[11] NEGRO, A.: Teoria della Misura. Quaderni del Dipartimento di Matematica, Universit` a
di Torino, 2001.
[12] STONE, M.H.: The Theory of Representations for Boolean Algebras. Trans. Amer. Math.
Soc. 40 (1936), pp. 37-111.
[13] VAN DER WAERDEN, B.L.: Mathematical Statistics. Springer-Verlag, Berlin, 1969.
[14] VENTSEL, A.D.: Teoria dei processi stocastici. Editori Riuniti Edizioni Mir, Roma, 1983.
120

Prefazione

Questa breve monografia si propone di introdurre in modo piano e sintetico, ma con rigore logico e grande attenzione ad una definizione precisa delle strutture fondamentali, i primi elementi di Calcolo delle Probabilit` per il Corso di laurea in Matematica. a Pertanto si procede nella presentazione di concetti, schemi elementari e variabili aleatorie classiche, che formalizzano esperienze comuni e ipotesi ricorrenti nei modelli fisici, alternandoli con quadri concettuali di ampio orizzonte e con nozioni e risultati avanzati, particolarmente in connessione con gli sviluppi, che si studieranno in corsi successivi, della teoria generale della misura e dell’integrazione e con il confronto di convergenze differenti in spazi di funzioni misurabili. Molta parte del testo ` riservata alla descrizione delle variabili aleatorie discrete e di quelle e continue, ma si ` cercato di collocare con chiarezza tutti i risultati specifici nella cornice canone ica dello studio di variabili generali definite in arbitrari spazi di probabilit`, anche per fornire a il linguaggio adeguato ad eventuali studi successivi, ad esempio sui processi stocastici e sulle equazioni differenziali stocastiche. Sono quindi presenti vari approfondimenti e complementi pi` u avanzati che difficilmente possono essere proposti nelle lezioni previste e che non costituiscono parte del programma d’esame. Nel quarto capitolo si introduce un breve collegamento con i primi temi della statistica elementare attraverso esempi di stime intervallari di medie e varianze con prescritto livello di confidenza. Negli ultimi due capitoli sono presentati e parzialmente dimostrati i teoremi fondamentali del limite centrale e sulle leggi deboli e forti dei grandi numeri. Questo testo nasce da una riflessione sui principi fondamentali del Calcolo delle Probabilit` e a da una selezione di temi essenziali da parte di un docente di Analisi matematica, che per vari anni si ` trovato a svolgere, non come specialista, attivit` didattica in un settore disciplinare affine e a e affascinante. Il testo ` una rielaborazione, completamento ed estensione di appunti preparati e prima per un corso di Calcolo della Probabilit` (I modulo) del vecchio ordinamento e poi per a un corso di Calcolo delle Probabilit` I della nuova laurea triennale, entrambi tenuti per alcuni a anni presso il Corso di laurea in Matematica della Facolt` di Scienze M.F.N. dell’Universit` di a a Torino. Ringrazio vivamente tutti i Colleghi, docenti, ricercatori e dottorandi, del settore disciplinare di Calcolo delle Probabilit`, che, con grande pazienza e disponibilit`, mi hanno fornito indicazioni a a essenziali, assistenza continua, utili chiarimenti e cordiale incoraggiamento. Torino, dicembre 2004 ANGELO NEGRO

1

Universit` degli studi di Torino a 2 .

. . . . . .3 Esempi elementari . . 2. . . . . . . . . . . . . . . . . . . . 2. . . . . . . .11 Esempi di calcolo di medie. . . . . . a a 1. .7 Alcune regole di calcolo delle probabilit` . . . . . . .4 Funzioni di variabili aleatorie .1 Eventi . . . . . . . 2. . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . varianze e funzioni generatrici . . . 2. . . . . . . . . . . . . . .8 Valor medio (variabili discrete) . . . . . .1 Distribuzione. . . . . .13 Limite della distribuzione ipergeometrica per N → +∞ . . . . . . . . . . . . . . . . . . . . . 3. . . . . . 2. . . . . . . . . .5 Esempi di spazi di probabilit` . . 1. . . . . . . . . . . . . . . . . .3 Variabili aleatorie continue . . . . . . . . . . .2 σ-algebre di insiemi e spazi misurabili . . . . 1. . . . . . . . . . . . . . a 1. . . . . . . . . . . . . . . . . . . . . . . . . .2 Valor medio . . . . . . . . . . . . . . . . a 1.8 Probabilit` condizionale e indipendenza . . . . . . 2. . . . . . 3 Variabili aleatorie reali di tipo generale e 3. .4 Probabilit` (misura di probabilit`) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1. . . . . . . . . . . . . 3 variabili continue . . . . . . . . 3. . . . . 3. . . . . . . . . . . . . . . . . . indipendenza . .9 Esempi di applicazione delle regole elementari di calcolo . .4 I teoremi di DeMoivre-Laplace . . 2. . . . . . . . . .3 Distribuzione binomiale (Schema di Bernouilli) . . . . . . . .2 Variabili aleatorie reali discrete . . . . . . . . .12 Distribuzione ipergeometrica .5 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . 3. 2. . . . . . . . . . . . . . . . . . .Indice 1 Eventi e probabilit` a 1. . . . . 2. . . . . . . . . . . . . . . . . . . . a 1.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . .6 Disuguaglianza di Chebyshev . 5 5 6 7 8 8 12 13 14 18 25 25 26 27 28 31 32 33 34 36 38 38 42 46 46 47 47 52 55 56 58 59 2 Variabili aleatorie reali discrete 2. . . . . . . . . . . 2. . . . . 2. . . . . . . . . . . . 3.6 Distribuzione geometrica . . . . . . . . . . . . .6 Probabilit` e frequenza . . . . . . . . . . . . .14 Distribuzione di Poisson qual limite della distribuzione binomiale . . . . . . . . . . . . . . . . .10 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 Distribuzione binomiale negativa (di parametri p ed r) . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Variabili aleatorie reali . . . . . .9 Varianza e deviazione standard (variabili discrete) . . . . . . . . . . . . . 1. . . . . . . . . . . . . .

. . .5 Variabili normali indipendenti . . . . . .12 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . .3 Il teorema di Markov. . . . . . . . . . . . . . . . . .1 La legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . .10 3. .2 Densit` congiunta (caso continuo) . . . . . . . 6. . . . . . . . . . . . .2 Convergenza quasi certa. . . . . . . . . . . . . . . . . . . . . . .3 Comportamento asintotico della distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . .9 3. . a 4. . . . 5 Funzioni caratteristiche e teorema del limite centrale 5. . . . . . . . .6 Distribuzioni gamma . . . .1 Densit` congiunta (caso discreto) . . . . . . . . . . . . . . . 5. . . . . . . . . . . . . . . . . .2 Il teorema di L´vy-Cram´r . . e e 5. Distribuzione normale o di Gauss . . .3 Covarianza e correlazione . . . . . . . .7 3. . . . . . . . . .11 3. . . . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . . . . . . . . .8 3. . . . Bibliografia 4 . . . . . . . . . convergenza debole e convergenza in legge 6. . . 4. .4 Il teorema del limite centrale . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . . . .7 Distribuzioni χ2 . . . . . . . . . . . . . . . 6. . .9 Distribuzioni t di Student . . . . . . . . . . . . . . . . . . a 4. . . . . . . . . . . . . . . . . . . Distribuzione di Cauchy . . . . . 5. . . . . . . . . . . . 60 61 63 64 66 67 72 72 72 76 79 81 83 84 86 89 92 95 95 98 98 99 103 103 103 105 109 120 4 Densit` congiunta e funzioni di pi` variabili aleatorie reali a u 4. . . . . . . . . . . 4. . . . . . Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . Distribuzione uniforme . . .10 Le variabili F e z di Fisher. . . . . . . . . . . . . . 6 La legge dei grandi numeri 6. . . . . . . . . . . . . . . . . .8 Stima simultanea di media e varianza di una variabile normale 4. . . . . . . . . . . . . . . . . . . . .4 La legge forte dei grandi numeri . . . . .1 Funzione caratteristica . Distribuzione esponenziale e processi di Poisson . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . . . . . . . . . i suoi corollari e il teorema di Khinchin . . . . . .4 La distribuzione Gaussiana bivariata . . . . . . . . . . . . . . . . . . . . . . . . . 4. . . . . . . . . . .

essendo la realizzazione effettiva di ciascun risultato soggetta a una misura di incertezza. Pi` interessante ` il caso in cui connettendo un’infinit` numerabile u e a di proposizioni si ottengano ancora proposizioni della famiglia. e f AN D f = f . ` E opportuno studiare famiglie sufficientemente ampie. g ǫ F ⇒ ¬f. fγ .. mentre f XOR g ` vera se e solo se e e una sola delle due proposizioni f e g ` vera. ǫ F ⇒ f1 ∨ f2 ∨ f3 ∨ .. e quindi “dipendente dal caso. Ne segue che ogni elemento coincide con il proprio opposto 5 . la disgiunzione (non esclusiva). Eβ . “secondo il caso. fβ . a a si pu` pensare come un modello astratto di una famiglia di risultati possibili di un esperimento o S. ad esempio: f1 . ai quali verr` assegnata una probabilit`. la congiunzione. .} . Ad una famiglia di eventi si pu` far corrispondere una famiglia F = {fα . .. (f AN D g ` vera se e solo se f e g sono entrambe vere.. f2 .. ∧. e Ricordiamo che A ` un’algebra di Boole se e solo se ` un’algebra e ogni elemento ` ideme e e potente : a ∈ A implica a2 = a.} di o proposizioni che li descrivono e che possono risultare vere o false al termine dell’esperimento S. XOR funge da somma a a e AN D da prodotto. precisamente. . f ∨ g (e quindif ∧ g. Le operazioni f AN D g e f XOR g determinano in F una struttura di algebra di Boole (σalgebra. ǫ F .) ǫ F . f3 . ∨ indicano come al solito la negazione. tali che valga almeno l’implicazione f.1 Eventi Nel Calcolo delle probabilit` si opera su valutazioni numeriche normalizzate (probabilit`) di a a eventi. nel caso di ammissibilit` di un’infinit` numerabile di operazioni). I connettivi proposizionali ¬ ..Capitolo 1 Eventi e probabilit` a 1. considerando proposizioni che descrivono eventi.. Una famiglia di eventi E = {Eα .. f AN D g ha lo stesso significato di f ∧ g).. Eγ ..

f1 ∨ f2 ∨ f3 ∨ . 1936). n=1 Ne segue che se A. .2 σ-algebre di insiemi e spazi misurabili Sia Ω un insieme non vuoto ed A una famiglia non vuota di sottoinsiemi di Ω (A ⊆ P(Ω)). che si pu` assumere fondata con la memoria di a o A. b). Si dice che A ` una σ-algebra (di sottoinsiemi di Ω) e (Ω.. Aβ . si dice che A ` un’algebra.. ∅ = Ωc . .H. Se e f −→ A.. 3. sono formulate in termini di appartenenza di un elemento ω. Eventi e probabilit` a (a = −a) e che A risulta necessariamente commutativa (ab = ba per ogni coppia a. Stone. o i risultati dell’ esperimento che esse esprimono.} di sottoinsiemi di Ω. A − B. ` E sempre possibile rappresentare fedelmente una σ-algebra di Boole con una σ-algebra di sottoinsiemi di un opportuno insieme Ω (M. n=1 In generale. ∩+∞ An sono elementi di A. e Quaderni Didattici del Dipartimento di Matematica .. tra proposizioni composte mediante connettivi proposizionali e relativi insiemi costruiti mediante corrispondenti operazioni insiemistiche ` fornita dalle formule seguenti. 2. Qualche esempio di di corrispondenza. anche Ω = A ∪ Ac .. B. ⇒ ∪+∞ An ǫ A . Se in 2) ci si limita ad unioni finite. sottoinsieme di un insieme di riferimento o “sample space Ω: f = “ ω ǫ A ′′ . = ∪+∞ An n=1 1. Spesso le proposizioni che si considerano. allora: ¬ f −→ Ac (oppure − A. g −→ B. Gli eventi sono allora rappresentati da una famiglia A = {Aα .. che codifica gli esiti “elementari dell’esperimento S. ricorre sistematicamente a tale rappresentazione. −→ A1 ∪ A2 ∪ A3 ∪ . oppureA) f ∧ g −→ A ∩ B f XOR g −→ A △ B = (A − B) ∪ (B − A) f ∨ g −→ A ∪ B. A) ` uno spazio misurabile se valgono e e le propriet` seguenti: a 1) A ǫ A ⇒ Ac ǫ A 2) An ǫ A per n = 1.6 Capitolo 1. A ∩ B = (Ac ∪ B c )c . e quindi si pretende soltanto che A sia stabile quando si esegue un numero finito di operazioni insiemistiche. A △ B. indicata con “→. ad un insieme A... Aγ . An sono elementi di A..Kolmogorov del 1933. fk −→ Ak . un’infinit` numerabile di operazioni insiemistiche su elementi della σ-algebra proa duce un insieme ancora appartenente alla σ-algebra. La moderna teoria del Calcolo delle probabilit`.

Universit` di Torino. x2 .. s. l’affermazione ωǫA non fornisce informazioni sul risultato del primo tentativo. sf. sf }. a A0 = {∅. per ciascuno di essi due possibilit` s. f s}. e e 1) Esperimento S : due tentativi.ωkn = xn } . f s. Purtroppo. l’affermazione ωǫA fornisce informazioni sul numero di risultati. f (successo. {ss. Se x ` il punto e colpito. . s. interessano le proposizioni del tipo x ∈ A. (Anche in questo caso si vorrebbe A = P(Ω). f f}. ma allora non sarebbe possibile assegnare in modo utile e coerente una probabilit` ad ogni evento). l’affermazione ωǫA non fornisce informazioni sul risultato del secondo tentativo. Si pu` prendere provvisoriamente A = P(Ω) . {ss.. A3 = {∅. f f }. ma tuttavia sufficientemente ampie perch` in a u e esse siano presenti tutti i sottoinsiemi C (detti cilindrici) della forma C = { ω ∈ Ω | ωk1 = x1 . {sf.. f f }. nella maggior parte dei casi imporo tanti. mentre il risultato nelle altre prove della successione pu` essere qualunque. 2) Esperimento S : sucessione infinita di tentativi ripetuti ω : N+ −→ {s. f f }. L’insieme C ` quindi formato da tutte le successioni nelle quali ` prescritto il risultato (successo e e o fallimento) in un numero finito di prove (tentativi) esattamente individuate. Ω} : se AǫS ed ωǫΩ. f s}. . Ω = {ss.3 Esempi elementari Si osservi che se Ω ` finito ogni algebra ` una σ-algebra. Ω} : A2 = {∅. non sar` possibile assegnare in modo coerente una probabilit` ad ogni sottoinsieme di Ω. {ss}. f s}. f. o 3) Esperimento S : selezionare (colpire con un proiettile puntuale) un punto di un disco D (bersaglio) di centro O e raggio R. {sf. a... se AǫA1 ed ωǫΩ. {f f }. {ss. {sf.a. ωn vale s oppure f ].Negro. f. f. Si pu` prendere o Ω = D ed A = L(Ω). < kn che i valori e x1 .). . Ω} algebra banale. s.xn ∈ {s. a a Converr` allora limitarsi a σ-algebre pi` piccole. {ss. f f } A1 = {∅. insieme di tutti i sottoinsiemi A di D dotati di area (nel senso di Lebesgue)... 2003-2004 a . ωk2 = x2 .A. non sul fatto che essi siano stati ottenuti nel primo o nel secondo tentativo. f } [ esempio ω = (s. fallia mento). Elementi di Calcolo delle Probabilit` a 7 1. Ω} : se AǫA3 ed ωǫΩ.. {f s. sf. dove n ` un intero (finito) arbitrario e arbitrari sono sia gli indici k1 < k2 . f }. f s.

[Conviene richiedere l’additivit` numerabile. ha il modello proba abilistico? Tali problemi sono strettamente connessi con c) l’interpretazione pratica del concetto di probabilit`. a che a sua volta pu` suggerire o d) metodi di stime delle probabilit` ideali. dove A ` una σ-algebra in Ω a e e P una misura di probabilit` definita su A. P ). A. tranne l’esempio 3). dunque un’applicazione P : A −→ [0. ` un indice quantitativo del “grado di certezza dell’evento a e (casuale). sulla base di (poche) ipotesi a elementari. invece dell’additivit` semplice (cio` concernente a a e soltanto unioni finite). a L’esperimento ideale S ` un modello (probabilistico) di un esperimento reale (o di pi` esperie u menti reali). ` descritto da uno spazio di probae bilit` o spazio di misura con misura normalizzata ad 1. cio` tale che e P (Ω) = 1 e per ogni successione Ak di eventi disgiunti (Ai ∩ Aj = ∅) P( ∞ k=1 Ak ) = ∞ k=1 P (Ak ) . si a pongono i seguenti problemi: a) come assegnare le probabilit`. Si parla allora di probabilit` classica e valutazione delle probabilit` si riduce a questioni di cardinalit`. Ne a segue che la probabilit` di un evento A ` uguale al rapporto tra il numero di elementi di A (casi a e favorevoli ) e il numero complessivo di elementi di Ω (casi possibili ). che talvolta a a a Quaderni Didattici del Dipartimento di Matematica . P (A).4 Probabilit` (misura di probabilit`) a a Una misura di probabilit` P ` una valutazione degli eventi con un indice numerico. in modo razionale (coerente) ? b) quale utilit`. nell’analizzare l’esperimento e stimarne i risultati. con risultati “dipendenti dal caso.8 Capitolo 1. ed in particolare nella scelta della misura di probabilit`. 1] . a 1. Eventi e probabilit` a 1. (Ω.5 Esempi di spazi di probabilit` a Negli esempi che seguono. Una stessa σ-algebra pu` essere utilizzata per descrivere esperimenti S differenti ed in essa si o possono introdurre diverse misure di probabilit`. costituiti da un singolo elemento.] La probabilit` di un evento A. a e convenzionalmente compreso tra 0 e 1. Nella scelta del modello astratto. si assegna la stessa probabilit`. a Un esperimento S. efficacia. lo spazio di probabilit` Ω ` finito e a tutti a e gli eventi elementari {ω}. normalizzata e numerabilmente additiva. ovvero costruire la misura P .

. P (Ω) = Cost π R2 .. 3. C2 . (3. 36}. ... (1. Supponendo di estrarre “a caso un individuo ω della popolazione (tutti gli individui hanno la stessa probabilit` di essere estratti). assumiamo che e la pallina possa fermarsi con la stessa probabilit` su ogni numero. 2). 2. C1 . 6)} . card(Ω) . dunque per l’additivit`: a P (Ω) = 36 n=0 pn = 37p = 1 . 2).Negro. π R2 R 4) Frequenza di caratteri in una popolazione: Ω (popolazione) ` costituito da un insieme finito di individui. . 1. (2. . (2... p = pn = p card(A) 1 . A = P(Ω). la cui unione ` Ω. 1). A = L(Ω). 2. 2). l ).n = p = 1 . supponendo tutti i punti del disco equivalenti ed essendoci in Ω infiniti punti: P ({X}) = 0 e P (A) = Cost area(A).. A = P(Ω). degli altri numeri 18 sono neri e 18 rossi. Cl sono strati della e popolazione (sottoinsiemi disgiunti.. 37 P (A) = nǫA Cos` l’evento R = {nǫΩ/ n e “rosso′′ } ha probabilit` 18/37. 5). n)}) = pm. 3)... 3) Bersaglio circolare: Ω = {X = (x. 1)} ha probabilit` p card(A) = ı a 3/36 = 1/12. dunque Cost = 1/(πR2 ) e per A = {X = (x. P ({n}) = pn = p. y)ǫR2 / x2 + y 2 ≤ r2 } : P (A) = π r2 r = ( )2 .. (2. ı ` a 2) Due dadi (non truccati): Ω = {(1. a Ω = {0. degli individui che possiedono i caratteri e 1..a. P ({(m. Elementi di Calcolo delle Probabilit` a 9 non sono semplici e richiedono risultati di calcolo combinatorio. (6. 36 Cos` l’evento A = {(m. a. 1) Roulette (onesta): lo 0 ` verde.. dunque. .A. 2003-2004 a card(Ck ) .. 1). (6.. y)ǫR2 / x2 + y 2 ≤ R2 }. la probabilit` che si presenti il carattere k `: a a e P (Ck ) = Universit` di Torino. n)ǫΩ/ m + n = 4} = {(1..

Siano K1 (ω). . k2 dei quali con l2 ...kl ! B) Statistica classica con esclusione: n sistemi “distinguibilied l stati. indipendentemente dallo stato degli altri sistemi (oppure: n particelle distinguibili che possono assumere l livelli di energia “senza esclusione). dunque card(Ω) = l(l − 1)(l − 2).... − kl−2 ( Si osservi che k1 )( k2 ). K2 (ω). K2 (ω) = k2 .1kl = (1 + 1 + ... |k|=n n! 1k1 1k2 .. Allora P (A) = n! /ln .... k1 !k2 !.. k1 dei quali devono e essere etichettati con il carattere l1 (primo stato o livello).. quindi k2 posti tra gli n − k1 rimasti disponibili .. con l ≥ n. s2 .. kl con ll .. Le configurazioni sono applicazioni ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo stato numero sj ) corrispondente: ω = (s1 . . (l − n)! Quaderni Didattici del Dipartimento di Matematica . ciascuno dei quali pu` trovarsi in o uno qualunque di l stati. Dobbiamo selezionare k1 posti tra gli n disponibili...... in ciascuno dei quali pu` trovarsi al pi` un sistema (oppure: n particelle distinguibili che possono assumere l livo u elli di energia “con esclusione). dove 1 ≤ sj ≤ l . + kl = n. ..... k1 !k2 !. Kl (ω) = kl }.. Consideriamo. selezionando “a caso una configurazione qualunque. sn ). + 1)n = ln .kl ! . Le configurazioni sono applicazioni iniettive ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo stato numero sj ) corrispondente: ω = (s1 ..(l − n + 1) = l! .. Eventi e probabilit` a 5) Configurazioni in meccanica statistica: A) Statistica di Maxwell-Bolzmann: n sistemi “distinguibili.. s2 .. e dunque abbiamo n n − k1 n − k1 − ... Kl (ω) i numeri di occupazione dei vari stati: K1 (ω) + K2 (ω) + ...( kl−1 ) = n! k1 !k2 !.kl ! infatti si pensi a n posti (l’ordine con il quale li esaminiamo ` indifferente). sn ).. + Kl (ω) = n. dove k1 + k2 + .10 Capitolo 1. si = sj se i = j . dove 1 ≤ sj ≤ l .. l’evento A = {ωǫΩ|K1 (ω) = k1 .. dunque card(Ω) = ln . .

selezionando “a caso una configurazione qualunque. Kl (ω) = kl }..Negro. Sono equivalenti applicazioni con la stessa immagine (i sistemi sono indistinguibili) e sono quindi univocamente descritti dall’elenco degli stati occupati. ovvero ( n ). . Kl (ω) i numeri di occupazione dei vari stati: K1 (ω) + K2 (ω) + .. dove le kj sono assegnate e tali che: k1 + k2 + . + kl = n e kj = 0 oppure 1. a.. Dunque le kj = 1 sono esattamente n e individuano una selezione di n stati tra gli l possibili. l! . in ciascuno dei quali pu` trovarsi al pi` un sistema (oppure: n particelle indistinguibili che possono assumere o u l livelli di energia “con esclusione). Elementi di Calcolo delle Probabilit` a 11 Siano K1 (ω).a. Consideriamo. kl ) dove kj = 0 oppure 1 .. dove 1 ≤ sj ≤ l . sn ). .. allora le ω ∈ A descrivono la disposizione degli n sistemi negli n stati selezionati. n!(l − n)! l numero di sottoinsiemi di n elementi scelti tra l possibili. Le configurazioni sono classi di equivalenza di applicazioni.. l’evento A = {ωǫΩ|K1 (ω) = k1 . 1 oppure 0 rispettivamente se lostato j ` occupato o o e non occupato: ω = [(s1 . K2 (ω). Le configurazioni sono classi di equivalenza di applicazioni iniettive ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo lo stato numero sj ) corrispondente... + kl = n . k2 . si = sj se i = j] = = (k1 . k1 + k2 + . dunque card(Ω) = l! .. con l ≥ n. ciascuno dei quali pu` trovarsi in uno o qualunque di l stati (oppure: n particelle indistinguibili che possono assumere l livelli di energia “senza esclusione)... Pertanto card(A) = n! e quindi ovvero P (A) = ( P (A) = 1 l n!(l − n)! .... K2 (ω) = k2 . s2 .. ω che ad ogni sistema (diciamo il sistema numero j) associano lo stato (diciamo Universit` di Torino. risulta card(A) = 1 e quindi e P (A) = ( 1 l . . . ) n D) Statistica di Bose-Eistein: n sistemi “indistinguibili. ) n C) Statistica di Fermi-Dirac: n sistemi “indistinguibili ed l stati.A.. Se l’evento A ` definito come nel caso precedente. che pu` essere fatto assegnando un codice kj .. 2003-2004 a . + Kl (ω) = n e ogni K(ω) = 0 oppure 1. non necessariamente iniettive..

12

Capitolo 1. Eventi e probabilit` a

lo stato numero sj ) corrispondente. Sono equivalenti applicazioni con lo stesso numero ki di sistemi nel medesimo stato i (i sistemi sono indistinguibili): = (k1 , k2 , ..., kl ) dove ki ≥ 0, k1 + k2 + ... + kl = n . pptptpppttptp , che in qusto caso (n = 8 e l = 6) indica 2 particelle nel primo livello, 1 nel secondo, 3 nel terzo, 0 nel quarto, 1 nel quinto e 1 nel sesto. Sono scritture che debbono essere formate da l + n − 1 lettere, delle quali l − 1 sono la lettera t (tagli tra livelli) e n sono la lettera p. Queste scritture sono tante quanti i sottoinsiemi di l + n − 1 elementi (posti) formati da n elementi (lettere p). Dunque (l + n − 1)! card(Ω) = , n!(l − 1)! ovvero ( l+n−1 ω = [(s1 , s2 , ..., sn ), dove 1 ≤ sj ≤ l] =

Le ω si possono mettere in corrispondenza biunivoca con le scritture del tipo

n

).

Se l’evento A ` definito come ne caso precedente, risulta card(A) = 1 e quindi e P (A) =
( 1

l+n−1

.
)

n

1.6

Probabilit` e frequenza a

Supponiamo di ripetere un esperimento S n volte: S1 , S2 , S3 , ... , evitando che risultati precedenti influenzino esperimenti successivi. Si consideri un evento A di probabilit` P (A) = p; a sia Fn (frequenza) il numero di volte che A si verifica nel corso delle n prove indipendenti ed fn = Fn /n la frequenza relativa . Possiamo definire un esperimento unico Σ(n) = S1 × S2 × ... × Sn , che consiste nel ripetere indipendentemente n volte S, e possiamo coerentemente costruire una misura di probabilit` a P (n) associata a tale esperimento., come si comprender` meglio in seguito, dopo aver precisato a il concetto di indipendenza. Si pu` dimostrare che per ogni δ > o o p(1 − p) , nδ 2 che risulta minore di qualunque ε > 0 assegnato, purch` n sia sufficientemente grande, cio` e e maggiore di un opportuno N dipendente da ε. Dunque la frequenza relativa “converge in probabilit` alla probabilit` ideale p (caso particolare a a della legge debole dei grandi numeri ). In un certo senso un grado di fiducia p per un evento A implica al crescere di n un “sempre maggior grado di fiducia che lo scarto tra la frequenza relativa e la probabilit` ideale non superi a un livello prefissato δ (comunque piccolo). P (n) (|fn − p| ≥ δ) ≤

Quaderni Didattici del Dipartimento di Matematica

A.Negro, Elementi di Calcolo delle Probabilit` a

13

1.7

Alcune regole di calcolo delle probabilit` a

1) P (∅) = 0 , infatti P (A) = P (A ∪ ∅) = P (A) + P (∅). 2) P (Ac ) = 1 − P (A) , perch` A ∪ Ac = Ω, A ∩ Ac = ∅ e P (Ω) = 1. e 3) Se B ⊆ A , B, AǫA , allora P (B) ≤ P (A) (monotonia ). infatti A = B ∪ (A − B) e dunque, essendo B e A − B disgiunti, risulta P (A) = P (B) + P (A − B) ≥ P (B). Si ha inoltre P (B − A) = P (B) − P (A). 4) P (A ∪ B) = P (A) + P (B) − P (A ∩ B), infatti A ∪ B = A ∪ (B − A), B = (B − A) ∪ (A ∩ B), essendo le unioni disgiunte, e dunque P (A ∪ B) = P (A) + P (B − A), mentre P (B − A) + P (A ∩ B) = P (B). Si osservi che P (B) = P (B ∩ A) + P (B ∩ Ac ) e quindi per esempio P (B ∩ Ac ) = P (B) − P (B ∩ A). 5) Se per n = 1, 2, ... An ⊆ An+1 , allora (continuit` ) a P(
n

An ) = limn→+∞ P (An ) ,

infatti, posto A0 = ∅ , A = ∪n An = ∪n (An − An−1 ), e poich` l’ultima unione ` disgiunta, in e e virt` delle σ-additivit`: u a P (A) =
+∞ k=1

P (Ak − Ak−1 ) = limn→+∞

n k=1

P (Ak − Ak−1 ) = limn→+∞ P (An ).

6) Similmente se per n = 1, 2, ... An ⊇ An+1 , allora P(
n c

An ) = limn→+∞ P (An ) ,

c c infatti An ⊆ Ac n+1 , ∪n An = (∩n An ) , dunque

P(

n

An ) = 1 − P (

n

Ac ) = 1 − limn P (Ac ) = limn (1 − P (Ac )) = limn P (An ). n n n

Universit` di Torino, a.a. 2003-2004 a

14

Capitolo 1. Eventi e probabilit` a

1.8

Probabilit` condizionale e indipendenza a

Introduciamo due concetti che avranno un ruolo essenziale negli sviluppi successivi. Definizione. Siano A, BǫA e P (B) = 0: si dice probabilit` condizionale di A dato B il a rapporto P (A ∩ B) P (A|B) = . P (B) Ne segue che P (A ∩ B) = P (A|B)P (B) . L’uguaglianza precedente sarebbe ancora vera con P (B) = 0, se fosse definito (comunque) P (A|B). ` E facile dimostrare il seguente Teorema. (Ω, A, P (·|B)) ` uno spazio di probabilit`. Inoltre, posto AB = {A ∩ B | AǫA} e a e a e PB (E) = P (E|B) per E ∈ AB , (B, AB , PB ) ` uno spazio di probabilit` . Infatti AB ` una σ-algebra e, se A = A1 ∪ A2 ∪ ... con A1 , A2 , ... disgiunti, si avr` A ∩ B = e a (A1 ∩ B) ∪ (A2 ∩ B) ∪ ... con (A1 ∩ B), (A2 ∩ B), ... disgiunti, e quindi P (A ∩ B) = P (B) vale a dire P (A|B) = Ovviamente P (Ω|B) = P (B|B) = 1. Osservazione. Nel teorema precedente B ` fisso. Se al contrario si facesse variare B , tenedo e fisso A, non si avrebbe una misura. Infatti l’applicazione B → P (A|B) in generale non ` additiva. e Sia ad esempio B = B1 ∪ B2 , B1 ∩ B2 = ∅ , P (B1 ) > 0 , P (B2 ) > 0 . Allora P (A|B) = P (A|B1 ) P (A ∩ B) P (A ∩ B1 ) + P (A ∩ B2 ) = = P (B) P (B)
k k

P (Ak ∩ B) , P (B) P (Ak |B).

P (B1 ) P (B2 ) + P (A|B2 ) < P (A|B1 ) + P (A|B2 ) . P (B) P (B)

Regola dela probabilit` totale.Sia B1 , B2 , ..., Bn una partizione di Ω , allora a P (A) =
n k=1

P (A|Bk )P (Bk ).

Infatti A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ...(A ∩ Bn ) ` una unione disgiunta e quindi e P (A) =
k

P (A ∩ Bk ).

Quaderni Didattici del Dipartimento di Matematica

An . P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . Se A e B sono indipendenti. Lo stesso risultato vale per partizioni numerabili.) Osservazione 1. Indipendenza di due eventi. Teorema di Bayes. Se A ` indipendente sia da B che da C. . (L’informazione che l’evento B si ` verificato non cambia la probabilit` che si verifichi l’evento e a A. sono indipendenti. k = 1.A. n . Elementi di Calcolo delle Probabilit` a 15 La regola vale anche per partizioni Bk numerabili. 2. P (A ∩ (B ∪ C)) = P (A ∩ B) + P (A ∩ C) = P (A)P (B) + P (A)P (C) = P (A)(P (B ∪ C)) . Infatti P (Ac ∩ B) = P (B) − P (A ∩ B) = P (B) − P (B)P (A) = (1 − P (A))P (B) = P (Ac )P (B) . e e a P (Ck |D)P (D) = P (Ck ∩ D) = P (D|Ck )P (Ck ) .a. allora P (Ck |D) = P (D|Ck )P (Ck ) = P (D) P (D|Ck )P (Ck ) . Osservazione 2. Sia C1 . Cn una partizione di Ω e P (D) = 0.. Proposizione. C2 . . Universit` di Torino.Negro. P (A1 ) P (A1 ∩ A2 ) La proposizione si generalizza facilmente al caso di n eventi A1 . Dunque se ad esempio P (B) = 0 risulta P (A|B) = P (A) .. j P (D|Cj )P (Cj ) Infatti il secondo denominatore ` P (D) = 0. oppure A e B c . per la regola delle probabilit` totali. Infatti e P (A ∩ (B − C)) = P (A ∩ B) − P (A ∩ C) = P (A)P (B) − P (A)P (C) = P (A)(P (B) − P (C)) .. Pertanto Ac e B c sono indipendenti. allora e i) se B ⊇ C A ` indipendente da B − C. anche Ac e B .. e ii) se B e C sono disgiunti (B ∩ C = ∅) allora A ` indipendente da B ∪ C. ... Due eventi A e B si dicono indipendenti se P (A ∩ B) = P (A)P (B) .. 2003-2004 a . a. Infatti P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = P (A1 ) P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 ) ..

.P (Ajk ) . C c indipendenti.An sono mutuamente indipendenti. e Osservazione 1. .P (Ajk ) se nessuna delle js = 1. allora tutti gli eventi della pi` piccola u Quaderni Didattici del Dipartimento di Matematica . An si dicono mutuamente (congiuntamente) indipendenti (o semplicemente indipendenti. dunque 1 P (Ac ∩ Aj2 ∩ . e Pi` in generale gli eventi di un insieme infinito I si dicono mutuamente indipendenti se e u solo se ogni sottoinsieme finito di I ` costituito da eventi mutuamente indipendenti. Altrimenti sia ad esempio j1 = 1 e poniamo B = Aj2 ∩ . Si estrae a caso un biglietto (tutti i biglietti hanno la stessa probabilit` di essere estratti). A3 sono dunque a due a due indipendenti. ... A2 . 2. se il contesto non lascia dubbi) se e solo se per ogni 1 ≤ k ≤ n e per ogni scelta di indici 1 ≤ j1 < j2 . sono mutuamente indipendenti..16 Capitolo 1.. C. Essendo A1 e B indipendenti.3 e 123.. Se A1 . Osservazione 2. tali sono anche Ac e B ... Ma essi non sono mutuamente indipendenti perch` P (A1 ∩ A2 ∩ A3 ) = 1/4 e non 1/8 . B. se A.. Gli eventi A1 ..P (Ajk ) . Eventi e probabilit` a Ovviamente eventi indipendenti sono a due a due indipendenti. 123) si ha P (A1 ∩ (A2 ∪ A3 )) = 1 1 3 = P (A1 )P (A2 ∪ A3 )) = · . Se le Aj sono a due a due indipendenti. . esplicitando in questo caso particolare il calcolo sottointeso nell’osservazione precedente.. mentre si e vede che. < jk ≤ n si ha P (Aj1 ∩ Aj2 ∩ . ∩ Ajk ) = P (Ac ∩ B) = P (Ac )P (B) = P (Ac )P (Aj2 ). ∩ Ajk ) = P (Aj1 )P (Aj2 ). essendo A... A2 . Limitiamoci ad un esempio: siano A. A2 . il risultato ingenerale non vale: nell’esempio sopra riportato dell’urna con quattro biglietti (1. A2 ... Sia a Aj l’evento “` comparsa la cifra j. uno qualunque di essi ` e indipendente da ogni evento che si pu` ottenere mediante usuali operazioni insiemistiche sugli o altri.. B1 .An sono mutuamente indipendenti.An si sostituisce un numero arbitrario di eventi con u i loro complementari si ottiene ancora una sequenza di eventi mutuamente indipendenti. Un’urna contiene quattro biglietti.2.. .. Se A1 .... ∩ Ajk . A2 .. ma non mutuamente indipendenti. Infatti. anche Ac . A ` indipendente da B c ∩ C c . Allora P (Aj ) = 1/2 . 3 . P (A ∩ (B ∩ C)) = P (A ∩ B ∩ C) = P (A)P (B)P (C) = P (A)P (B ∩ C) e. . quando si affermava che A1 e B erano indipendenti. B c . Per rendersene conto si consideri il seguente semplice esempio: Eventi mutuamente indipendenti. A2 . 4 2 4 Dunque la famiglia I degli eventi indipendenti da A non ` in generale una σ-algebra. ∩ Ajk ) = P (Aj1 )P (Aj2 ). B2 . In generale non vale l’implicazione inversa. allora A ` indipendente e da B ∩ C e da B ∪ C... 1 1 1 1 Pi` in generale se nella sequenza A1 . cio` da B ∪ C. .. Infatti P (Aj1 ∩ Aj2 ∩ . mutuamente indipendenti.An sono 1 mutuamente indipendenti... sui quali compaiono rispettivamente i codici 1.. Ma allora A ` indipendente da e e e (B c ∩ C c )c .. P (Aj ∩ Ak ) = 1/4 per j = k e gli eventi e A1 .

allora Ac e B sono condizionatamente indipendenti dato C.. per l’indipendenza a condizionata valgono le stesse osservazioni presentate sopra per l’indipendenza (non condizionata)..j | i ≤ 3 } . P (A ∩ B|C) = P (A|C)P (B|C) e P (A ∩ B|C) = P (A|C)P (B|C) . Si considerino i seguenti semplici esempi. Ad esempio. a Essendo P e PC . ma 1 per ogni i e j 36 cio` A e B non sono indipendenti. . P (A ∩ B) = P (A)P (B) . ma lo sono condizionatamente dato C e anche dato C. . a.6 . si vede che A e B sono indipendenti.Negro. se e solo se P (A ∩ B | C) = P (A | C)P (B | C) .. 2003-2004 a C = { ωi. . o condizionatamente indipendenti (con C evento condizionante).) sono indipendenti da A. Eventi indipendenti possono non essere condizionatamente indipendenti ed eventi non indipendenti possono essere condizionatamente indipendenti.a. PC (A∩C) = P (A| C).j | (i ≤ 2 ∧ (j ≤ 2 ∨ j ≥ 5)) ∨ (i ≥ 5 ∧ j ≤ 2) } .. Universit` di Torino. Elementi di Calcolo delle Probabilit` a 17 σ-algebra alla quale appartengono B1 . ` E facile verificare che C = { ωi. e 2) Se invece si pone A = { ωi.j | (j = 1 ∧ i ≤ 3) ∨ i = 6 } .j | max(i.. A e B si dicono indipendenti dato C.. (o come si dice la σ-algebra generata da B1 . Basta osservare che A ∩ C e B ∩ C sono indipendenti in C e Ac ∩ C ` il complementare in C di A ∩ C e dunque indipendente in C da B ∩ C: e P (Ac ∩ B | C) = PC ((Ac ∩ C) ∩ (B ∩ C)) = PC (Ac ∩ C)PC (B ∩ C) = P (Ac | C)P (B | C) . B2 .. P (ωi. se A e B sono condizionatamente indipendenti dato C.j | i = 1 } . B = { ωi. An sono condizionatamente indipendenti dato C se e solo u se la probabilit` condizionata dell’intersezione di un numero arbitrario di essi ` il prodotto delle a e probabilit` condizionate degli eventi dei quali si fa l’intersezione. j) ≤ 2 } . 1) Siano A = { ωi. 3) Se prendiamo C = { ωi. B = { ωi. B2 . C = { ωi. ma non sono condizionatamente indipendenti dato C. .j }i.A.j | i = 1 ∨ (i > 3 ∧ j = 6 } . A2 .. Indipendenza condizionata.j | i > 3 } .j=1.j ) = (lancio di due dadi indipendenti non truccati). misure di probabilit` su Ω e su C. Osservazione. sono condizionatamente indipendenti dato C.. Pi` in generale. gli eventi A1 .j | j = 1 } . nei quali avremo sempre Ω = { ωi.

sia dato C. P (B) = . sia dato C. purch´ 0 < P (C) < 1. e Si rimette la pallina nell’urna. P (B|C) = q1 .5. Si ripetono una seconda volta tutte le operazioni precedenti. se A e B sono indipendenti e condizionatamente indipendenti.18 Capitolo 1. In generale.j | j ≤ 3 ∨ j = 6} . g = P (A ∩ B) = P (A|C)P (B|C)P (C) + P (A|C)P (B|C)P (C) = p1 q1 α + p2 q2 β g − f = αβ(p1 − p2 )(q1 − q2 ) . che sono scelte “a caso ovvero ciascuna con probabilit` 0. cio` B e C sono e e indipendenti. Quale delle due procedure ` pi` conveniente? e u Denotiamo con 1 e 2 gli eventi “selezione dell’urna numero 1 oppure 2 . P (A|C) = p2 . da essa si estrae una pallina e si registra se essa ` bianca. e nel secondo P (B) = q1 = P (B|C). Siano p1 = k1 /n1 e p2 = k2 /n2 le probabilit` di a a estrazione di una pallina bianca dalle due urne. P (B|C) = . P (B|C) = 6 3 4 2 e quindi A e B sono indipendenti e condizionatamente indipendenti sia dato C sia dato C. ii) Si sceglie a caso una delle due urne. posto P (A|C) = p1 . β = 1 − α . delle quali k1 e k2 bianche. Infatti. C = { ωi. e In ogni caso si vince se sono state registrate due estrazioni di pallina bianca. e e 4) Se A = { ωi. Eventi e probabilit` a allora. Indichiamo con B l’evento “registrazione di una pallina bianca in una estrazione e BB l’evento “registrazione di una pallina bianca in entrambe le estrazioni: Quaderni Didattici del Dipartimento di Matematica . si trova f = P (A)P (B) = (p1 α + p2 β)(q1 α + q2 β) .j | j ≤ 4 } .j | i = 1 } . allora P (A|C) = P (A|C) = P (A) = 1 1 2 3 . 1) Due urne contengono rispettivamente n1 ed n2 palline. 1. g = f se e solo se p1 = p2 oppure q1 = q2 . P (C) = α . e Si rimette la pallina nell’urna. Si considerano le seguenti due procedure: i) Si sceglie a caso una delle due urne. essi non sono condizionatamente indipendenti n´ dato C n´ dato C. allora uno almeno dei due eventi A e B deve essere indipendente e da C. restando ovviamente A e B indipendenti. cio` A e C sono indipendenti. essendo le rimanenti nere. da essa si estrae una pallina e si registra se essa ` bianca. Nel primo caso P (A) = p1 = P (A|C). Dunque. B = { ωi. Dalla stessa urna si estrae una seconda volta una pallina e si registra se essa ` bianca.9 Esempi di applicazione delle regole elementari di calcolo Presentiamo alcuni problemi che si propongono di illustrare il ruolo delle regole elementari di calcolo. P (B|C) = q2 . se 0 < α < 1 .

Consideriamo gli eventi Dk. P (Dk. se 0 < pk < 1). e u Se indichiamo con N l’evento estrazione di una pallina nera. 2 1 2 1 la seconda procedura ` pi` conveniente.. E facile verificare che la probabilit` di e ottenere esattamente una pallina nera ed una bianca (l’ordine non ha importanza) ` ovviamente e maggiore con la prima procedura che con la seconda.25(p1 + p2 )2 . sia dato Ck .5(p1 + p2 ))2 = 0.5(p2 + p2 ). ma ` messo in funzione senza ritardo } . otteniamo che anche P (N N ) ` a ` maggiore con la seconda procedura che con la prima. Sn . Elementi di Calcolo delle Probabilit` a 19 i) con la prima procedura abbiamo P (BB) = (P (B|1)P (1) + P (B|2)P (2))2 = (0.a. Sia pk = P (Ck ) e 1 − pk = P (Ck ). Due tecnici T1 e T2 eseguono controlli indipendenti su ciascun componente Sk . n e e siano dunque indipendenti gli eventi Ck = {Sk non ha difetti }. 2. 2 .. 2. e supponiamo che P (Dk.Negro... a. sia dato Ck . supponiamo che gli esiti dei due controlli su Sk siano condizionatamente indipendenti.j |Ck ) = 1 − qj e P (Dk.. Se almeno uni dei due tecnici scopre un difetto in almeno uno dei componenti il sistema S viene revisionato e messo in funzione con ritardo (evento E). j = 1.1 e Dk.j |Ck ) = 1 . . e e Si potrebbero considerare tutti i casi di non affidabilit` di S: S pu` essere difettoso perch` a o e un qualunque sottoinsieme non vuoto (ce ne sono 2n − 1) dei suoi componenti ` costituito da e Universit` di Torino. 2003-2004 a ..A. P (Dk. k = 1.. che e assumeremo indipendenti: Ck = {Sk ` difettoso }.2 non sono indipendenti. Trovare la probabilit` dell’evento a D = {S ` difettoso. Consideriamo gli eventi. 1 2 Poich` e p2 + p2 ≥ 2p1 p2 ⇒ 2(p2 + p2 ) ≥ (p1 + p2 )2 . . 2) Un sistema S ` costituito dai componenti S1 . k = 1.j = {Tj segnala un difetto in Sk } .j |Ck ) = 0 e quindi P (Dk. S2 . Inoltre. (Si osservi che Dk..j ) = qj pk + 0(1 − pk ) = qj pk .. n.j |Ck ) = qj > 0 . . ii) con la seconda procedura abbiamo P (BB) = P (B|1)2 P (1) + P (B|2)2 P (2) = 0.

a Si osservi che A = ∪k Rk .2 |Ck )P (Ck ) + P (Dk. P (F ) = 1 − P (E) = Πk P (Dk. F = N ∪ D (unione disgiunta) e P (D) = P (F ) − P (N ) . qk a grande indica elevata probabilit` di rilevare un difetto esistente..01). Consideriamo l’evento: F = {S ` messo in funzione senza ritardo. Il sistema ` controllato da n dispositivi automatici Tk .1 ∩ Dk. e allora E = F . (Per esempio potrebbe essere pk = 0. k = 1.2 ) . allora e e P (N ) = Πk (1 − pk ) . Tk controlla soltanto Sk e blocca tale componente se rileva un difetto.. abbia o no difetti } . Sia Rk = {Tk rivela un difetto in Sk } e siano note le probabilit` condizionali di Rk rispetto agli eventi Ck e Ck : a P (Rk |Ck ) = qk . Sia pk = P (Ck ) e 1 − pk = P (Ck ). .2 |Ck )P (Ck ) = = (1 − q1 )(1 − q2 )pk + 1 · 1 · (1 − pk ). Sn .. Se N ` l’evento {S non ` difettoso }.. 3) Come nel caso precedente. Eventi e probabilit` a componenti tutti difettosi.99 e ek = 0.2 ) . Quaderni Didattici del Dipartimento di Matematica . formula che risponde alla domanda proposta. 2.... ek piccola indica lieve probaa bilit` di segnalare per errore un difetto inesistente. ` u E pi` semplice seguire un altro procedimento. 2.1 |Ck )P (Dk. A = ∩k Rk . mentre gli altri componenti sono tutti affidabili.2 |Ck )P (Ck ) = = P (Dk.. In ciasuna di queste 2n − 1 circostanze disgiunte si dovrebbe valutare la probabilit` condizionale di non rilevare un a difetto. S2 . Consideriamo gli eventi. P (Dk. F = ∩k (Dk..1 ∩ Dk.1 ∩ Dk. che assumeremo indipendenti: Ck = {Sk ` difettoso }. ( ad esempio qk = 0. a Perch` si verifichi l’evento A = { il sistema si arresta } ` sufficiente che si verifichi almeno uno e e degli eventi Rk .1 ∩ Dk.1 |Ck )P (Dk.005 ) che qualificano la validit` del dispositivo di controllo. n e e Ck = {Sk non ha difetti } . i) Si chiede di calcolare la probabilit` di arresto. P (Rk |Ck ) = ek .1 ∩ Dk. sia S un sistema costituito dai componenti S1 .2 |Ck )P (Ck ) + P (Dk. k = 1.2 ) = P (Dk. . n che operano indipendentee mente.20 Capitolo 1.

calcolare la probabilit` (condizionale) che entrambi i genitori si trovino nella configurazione 4.5. che possono presentarsi nella forma a oppure b. C ` determinato dalla copia di geni g1 . in una delle configurazioni possibili e supponiamo inoltre che la probabilit` di eriditare il pimo o il secondo gene. Dunque P (A|Cj ) = qj + (1 − qj )(1 − = qj + (1 − qj )(1 − Naturalmente P (Ck |A) = i=j i=j P (Ri )) = [(1 − qi )pi + (1 − ei )(1 − pi )]) . P (2 = ba) = p2 . 4). g2 ereditati dal padre P e rispettie vamente dalla madre M .25 per j = 1. a. sapendo a che il sistema si ` arrestato. in tutti gli altri casi si presenta la variante B (A recessiva.Negro. Poich´ e A = Rj ∪ (Rj ∩ ∪i=j Ri ) . Supponendo di sapere che nel figlio il carattere C ha assunto la versione A. P (1 = bb) = p1 . unione disgiunta. Elementi di Calcolo delle Probabilit` a 21 quindi P (A) = 1 − P (A) = 1 − k P (Rk ) . e Per calcolare P (Ck |A) si pu` ricorrere al Teorema di Bayes. B dominante). 2. indipendentemente. e P ((Rj ∩ ∪i=j Ri ) ∩ Cj ) = P (Rj ∩ Cj )P (∪i=j Ri ) per l’indipendenza dei difetti e dei controlli relativi a componenti diversi. P (3 = ab) = p3 . sia da P che da M . 3. P (A|Cj )pj 4) Si considera un carattere C che pu` presentarsi in due varianti A e B (ad esempio occhi o azzurri o bruni). P (Rk ) = P (Rk |Ck )P (Ck ) + P (Rk |Ck )P (Ck ) = (1 − qk )pk + (1 − ek )(1 − pk ). Per quanto concerne la popolazione dei genitori le quattro configurazioni possibili hanno probabilit` assegnate: a P (4 = aa) = p4 . Allora P (A|Cj ) = P (Rj |Cj ) + P (Rj |Cj )P (∪i=j Ri ) = P (Rj |Cj ) + P (Rj |Cj )(1 − P (∩i=j Ri )) .A. ii) Si chiede inoltre di calcolare la probabilit` che il componente Sk sia difettoso. a def def def def Universit` di Torino. a siano eguali e quindi pari a 0. n j=1 P (A|Ck )pk . calcolando quindi in primo luogo o P (A|Cj ). Se g1 = a e anche g2 = a si presenta la variante A. 2003-2004 a .a. Supponiamo che P o M si trovino. (Ad esempio potrebbe essere pj = 0.

P (AF |44) = 1 .. Pensando di usare il Teorema di Bayes si devono calcolare le probabilit` condizionali P (AF |ij). e 1 se j = 2. c2 . cn e si considerino trasmissioni di parole casuali T formate da l lettere casuali (ad esempio 5) T1 T2 ..tl . a La trasmissione delle lettere sia soggetta a disturbi. indipendentemente dai caratteri presenti nelle altre posizioni e dalla trasmissione corretta o meno delle altre lettere. in qualunque posizione.Rl . 4). conoscendo gi` le P (ij) = e a pi pj (1/16 per esempio).. quindi per ogni j: n P (Rj = Tj ) = k=1 P (Rj = ck |Tj = ck )P (Tj = ck ) = n · p · 1 =p. a dove AF ` l’evento “il figlio F presenta la versione A del carattere C.j P (AF |ij)pi pj 1 1 · 16 1 1 1 1 = 4 (7 · 0 + 1 · 1 + 4 · 2 + 4 · 4 ) 16 5) Trasmissione di lettere: siano disponibili n (ad esempio 21) caratteri c1 .. 3. Trovare la probabilit` che sia stata trasmessa la stringa θ sapendo che ` stata ricevuta a e la stringa ρ (ad esempio θ = ROT T O . P (AF |1k) = P (AF |k1) = 0 . Si indichino con {T = t} e {R = r} gli eventi: “` stata trasmessa la stringa t ed “` stata ricevuta la stringa r. P (AF |j4) = P (AF |4j) = P (AF |ij) = Dunque P (44|AF ) = Nell’esempio P (44|AF ) = ` il risultato cercato.Tl . vi sia la stessa probabilit` (1/n) di essere uno qualunque dei caratteri disponibili.. 3. k = 1. i. 2. 4 . 4 P (AF |44)p2 4 . n In caso di errore venga ricevuto uno qualunque degli altri caratteri. Per ogni lettera trasmessa Tj . ciascuno con probabilit` a 1/(n− 1). per ogni carattere. In questo caso possiamo utilizzare la formula di Bayes nella versione pi` semplice: u P (T = θ|R = ρ) = P (R = ρ|T = θ)P (T = θ) . ρ = ROSSO). Eventi e probabilit` a Consideriamo le 16 coppie ij di configurazioni possibili i per P e j per M (i. 3 . e e a Si supponga che. ciascuna delle quali possa essere uno qualunque degli n caratteri disponibili. la probabilit` di trasmissione senza errore sia p (ad esempio 0. . 3 ... 2. P (R = ρ) Quaderni Didattici del Dipartimento di Matematica . Si indichi con R la parola ricevuta formata dalle lettere R1 R2 . 2 1 se i. j = 2.9).22 Capitolo 1. a Le lettere siano trasmesse indipendentemente. quindi per la parola trasmessa T vi sia la stessa probabilit` (1/N ) di essere una qualunque delle N = nl possibili stringhe t di l caratteri t1 t2 . j = 1...

x.Negro. Trovare la probabilit` che l’ago colpisca uno dei fili. 0 < y ≤ 2l . Ovviamente area(Ωr ) = 2πl ed il filo immediatamente “superiore all’asse x ` colpito se e e solo se l’ordinata di B supera 2l. E = {y + l · sin(ϑ) ≥ 2l} = {y ≥ 2l − l · sin(ϑ) } per il quale π π area(E) se E ⊆ Ωr . dalle coordinate x. nel senso di equivalenza dei punti (j. y dell’estremo A pi` “basso dell’ago e dall’angolo u ϑ formato dal segmento AB con il semiasse positivo delle x. 0 ≤ ϑ < π . 2lπ π Universit` di Torino. a. 2l] × [0. P (Z × R × E) = supponendo E dotato di area nel senso di Lebesgue: E ∈ L(Ωr ). n−1 dove i ` il numero di caratteri diversi tra θ e ρ. e Nel caso dell’esempio P (T = θ|R = ρ) = (0.A. Un segmento (ago) di lunghezza l viene lanciato “a caso sul piano. Interpretiamo la dizione “lancio a caso come assunzione di totale equivalenza delle posizioni possibili. P (R = ρ|T = θ) = pl−i ( 6) Ago di Buffon. parallalelamente ad esso. Ωr =]0. −∞ < x < +∞ . P (R = ρ) = ( p + (1 − p) ) = l . area(Ωr ) area(E) = 0 (2l − (2l − l · sin(ϑ)))dϑ = 0 l · sin(ϑ)dϑ = 2l . a Utilizziamo un riferimento cartesiano con l’asse x coincidente con il filo rj immediatamente “sotto la posizione dell’ago nell’istante in cui questo colpisce il piano. π[ . jǫZ . Ci interessa dunque l’evento Z × R × E . con distanza costante tra rette adiacenti pari a 2l. ϑ) e pi` precisamente ancora nel senso che: u Ω = Z × R × Ωr .000018225.1)2 20−2 == 0. y.9)3 (0. N n n n n−1 n 1−p i ) = P (T = θ|R = ρ) . Elementi di Calcolo delle Probabilit` a 23 Si vede facilmente che P (T = θ) = 1 1 1 n−1 1 l 1 = l . La posizione dell’ago ` e determinata dall’intero j. jǫZ. In un piano ` presente una griglia costituita da infinite rette parallele (fili) e rj . Dunque P (Z × R × E) = 2l 1 = . 2003-2004 a .a.

24 Capitolo 1. Eventi e probabilit` a Quaderni Didattici del Dipartimento di Matematica .

ovvero siano eventi. L’insieme sopra indicato si scriver` pi` semplicemente {X < c}. A. cio` tale che e ∀cǫR {ωǫΩ | X(ω) < c}ǫA. 25 .a. Pi` precisamente. I Boreliani costituiscono. dove B ` un qualunque insieme Boreliano di R. la pi` piccola σe u algebra alla quale appartengono tutti gli aperti. b[) appartengano ad A. A. o ancora X −1 (]a.1 Variabili aleatorie reali Una variabile aleatoria reale X ` una funzione che assume valori reali “dipendenti dal caso e e per la quale ` possibile assegnare una probabilit` ad ogni proposizione di una famiglia sufficiene a temente ampia di affermazioni coinvolgenti la funzione X. Una funzione X : Ω → R assume un valore X(ω) dipendente dal risultato ω ` dell’esperimento S. P ) uno spazio di probabilit`. Sia (Ω. E importante poter assegnare una probabilit` alle proposizioni “X assume a valori compresi tra a e b. dove a e b suno due numeri reali arbitrari. a u Sarebbe equivalente chiedere che {X > c} oppure {X ≤ c}. Consideriamo allora soltanto funzioni X tali che per ogni a ≤ b ∈ R l’insieme {ω ∈ Ω | a ≤ X(ω) < b} sia un evento. per ogni c ∈ R l’insieme {ω ∈ Ω | X(ω) < c} sia un evento. Si dice allora e che la funzione X ` misurabile. che immaginiamo associato ad un u a esperimento S. sono eventi tutti gli o insiemi {ω ∈ Ω | X(ω) ∈ B}. P ) uno spazio di probabilit`. si pu` vedere che. Arriviamo allora alla seguente Definizione. o {X ≥ c}.Capitolo 2 Variabili aleatorie reali discrete 2. Essendo A una σ-algebra. cio` e un insieme di A. che nel caso di R si possono sempre presentare come unione numerabile di intervalli (volendo disgiunti). per definizione. sia (Ω. D’altra parte si vede che ` sufficiente e chiedere che.) a reale ogni funzione X : Ω −→ R misurabile. in tal caso. Si dice variabile aleatoria (v.

k Si dice distribuzione (cumulativa) di X la funzione della variabile reale c FX (c) = P ({X < c}) .xn . . Indipendenza di variabili aleatorie discrete. si dice densit` di X o a la funzione fX (xk ) = pX = P (Ak ) ...... X e Y . ∧ Z = zm ) . si dice densit` a congiunta di X.. e a Quaderni Didattici del Dipartimento di Matematica . Dunque. { Xn = xn } sono mutuamente indipendenti.. X1 . sono indipendenti. Talvolta scriveremo pi` brevemente fX. ∩ { Xjm = xkm }) = = P ({ Xj1 = xk1 })P ({ Xj2 = xk2 }).. { Xj2 = xk2 }. Se X.. ..a. per gli eventi { Xj1 = xk1 }.Z (k..Y..l k l Osservazione. . l) ` il prodotto delle densit` fX (k) e fY (l). . si dicono mutuamente indipendenti se.26 Capitolo 2..a.. Se X e Y sono indipendenti.. .. Y. k. yl ...... si dicono indipendenti se per ogni coppia (k. . Variabili aleatoreie reali discrete 2.Z (xk .. . u Le v.zm ... { X2 = x2 }.Z sono v. fissati comunque gli indici 1 ≤ j1 < j2 . scelti arbitrariamente l’intero n e n valori ammissibili x1 .m). Si vede immediatamente che X e Y sono indipendenti se e solo se la densit` congiunta a fXY (k... anche X − c e Y − d.zm ) = P (X = xk ∧ Y = yl ∧ .Xn ..2 Variabili aleatorie reali discrete Si dice che X ` discreta se pu` assumere solo un numero finito o al pi` un’infinit` numerabile e o u a ` di valori distinti.a.. dove c e d sono costanti... gli eventi { X1 = x1 }.P ({ Xjm = xkm }) .xkm .. Ak = {ω ∈ Ω | X(ω) = xk } . E certamente questo il caso se Ω ` finito o numerabile. xk2 ..Y. . x2 . X2 . Definizione: le v.. Y. < jm e i valori ammissibili xk1 . .. yl . .Z la funzione fX. discrete che possono assumere i valori xk .. { Xjm = xkm } risulta: P ({ Xj1 = xk1 } ∩ { Xj2 = xk2 }. . e Se xk sono i valori distinti che la variabile aleatoria X pu` assumere.. che possono assumere i valori xk e yl . l. l) risulta: pXY = P (X = xk ∧ Y = yl ) = P (X = xk )P (Y = yl ) = pX pY .

In ogni prova un determinato evento E pu` verificarsi con probabilit` p (successo: s) o non verificarsi con probo a abilit` q = 1 − p (insuccesso o fallimento: f ). k = 1.. a Come insieme di riferimento Ω considiamo l’insieme delle scritture o stringhe del tipo ω = sf f sssf sf f (in questo esempio n = 10 ). 2003-2004 a . k Con Cn indichiamo l’usuale coefficiente binomiale k Cn = n k = n! . + ωn .. P (A) = P (ω). essendo i risultati di ciascuna prova indipendenti dai risultati delle altre).A.n. 2. L’insieme degli eventi ω con k componenti uguali a 1(s) ` infatti in corrispondenza biunivoca e con l’insieme dei sottoinsiemi S di {1. con le probabilit` a k f (k) = Cn pk q n−k . . .. n.. Ogni ω si pu` o considerare come la funzione caratteristice di un tale sottoinsieme S.. coerentemente con l’ipotesi fatta sulle singole prove. 1. ωǫA dove K(ω) ` il numero di successi in ω. scrivendo brevemente P (ω) in luogo di P ({ω}). k!(n − k)! che conta il numero di sottoinsiemi costituiti esattamente da k elementi di un insieme di n elementi. .. e per un arbitrario evento A: P (ω) = pK(ω) q n−K(ω) .. 2. Se invece e e dei simboli s ed f si usassero le cifre 0 ed 1. k infatti vi sono Cn elementi di Ω che hanno esattamente k successi e ciascuno di essi ha la stessa k n−k probabilit` p q a .. 2.n . K ` una variabile aleatoria discreta che pu` assumere i valori 0.. Si trova allora per un arbitrario ω. cio` il numero di caratteri s nella stringa ω. dove ωk indica la k-esima lettera (componente di ω. Essendo Ω finito possiamo prendere A = P(Ω) e introdurre una misura di probabilit` ponendo a P ({ ω | ωk = s }) = p . indicando sempre con ωk la k-esima componente di ω.3 Distribuzione binomiale (Schema di Bernouilli) Si considerano n prove (mutuamente) indipendenti (un esperimento S viene ripetuto n volte..Negro.. che indica un successo nella prima prova. si avrebbe K(ω) = ω1 + ω2 + .a. La probabilit` che K e o a assuma un valore determinato k ` e k P ({ωǫΩ | K(ω) = k}) = P (K = k) = Cn pk q n−k . 2. 1.. Universit` di Torino. Se siamo interessati solo al numero di successi.n} formati esattamente da k elementi. Elementi di Calcolo delle Probabilit` a 27 2. e assumendo che gli eventi { ω | ωk = s } siano mutuamente indipendenti. . lo spazio campione pu` essere ridotto all’insieme o Ω∗ = 0. un fallimento nella seconda e terza prova... a.

28

Capitolo 2. Variabili aleatoreie reali discrete

Si osservi che f (k) ≥ 0 e

n

f (k) = (p + q)n = 1.
k=0

f ` la densit` della variabile aleatoria K. La distribuzione (cumulativa) F della variabile aleatoria e a K : F (c) = P ({K < c}), ` data da e F (k) =
j=0 k k

f (j) =
j=0

j Cn pj q n−j

ed ` detta distribuzione binomiale . e

2.4

I teoremi di DeMoivre-Laplace

√ k = k(n) = k(n, x) ` quindi la parte intera di np + x npq e, posto e k − np x(n) = √ , npq

Teorema del limite locale (DeMoivre-Laplace). Sia Pn (k) la densit` binomiale e, con a 0 < p < 1 e q = 1 − p, fissato x ǫ ]a, b[, sia k l’intero definito da √ k ≤ np + x npq < k + 1 .

la differenza x − x(n) (non negativa e ≤ (npq)− 2 ) ` O(n− 2 ). e Allora: √ 1 x2 limn→+∞ npqPn (k(n, x)) = √ exp (− ) , 2 2π uniformemente per x ∈]a, b[ . Osservazione. Pi` in generale, se k(n) ` una successione tale che x(n) si mantiene limitata u e in ]a, b[, allora √ npqPn (k(n)) limn→+∞ =1 x(n)2 √1 exp (− 2 ) 2π uniformemente, nel senso che dato ε > 0 il rapporto dista da 1 meno di ε per n maggiore di una soglia dipendente soltanto da ε, a e b. Dimostrazione del teorema. Ricordiamo in primo luogo la formula di Stirling n! = Si ha √ 1 2πnnn exp (−n) exp (θn ) , |θn | ≤ . 12n

1

1

√ √ k = np + x(n) npq, n − k = nq − x(n) npq → +∞ Quaderni Didattici del Dipartimento di Matematica

A.Negro, Elementi di Calcolo delle Probabilit` a

29

per a < x < b, con a, b fissi . Pn (k) = dunque Pn (k) = ( dove θ = θn − θk − θn−k e quindi |θ| ≤
n k n−k n 1 n p q exp(θ) )2 k , 2πk(n − k) k (n − k)n−k k Cn pk q n−k

= √ 2πk

√ 2πn

nn exp (−n) exp (θn − θk − θn−k )pk q n−k , 2π(n − k) k k (n − k)n−k exp (−k) exp (−(n − k))

1 1 1 1 1 1 1 ( + + )≤ (1 + + ). 12 n k n − k 12n p + a pq/n q − b pq/n n 1 n )2 = ( k(n − k) np(1 + x(n) q/np)nq(1 − x(n) 1 = √ (1 + x(n) npq q −1 ) 2 (1 − x(n) np p −1 ) 2 nq
1

Dunque θ → 0 per n → +∞ , uniformemente in a < x < b e quindi exp(θ) → 1 uniformemente. Bn = ( p/nq) )2 =

e quindi

√ npqBn → 1 uniformemente in x. Inoltre ln An = ln k k (n nn pk q n−k np nq n−k = ln( )k + ln( ) = − k)n−k k n−k k n−k − (n − k) ln = np nq q √ ) − (nq − x(n) npq) ln(1 − x(n) np p )= nq

= −k ln

√ = −(np + x(n) npq) ln(1 + x(n) √ = −(np+x(n) npq)(x(n)

q x(n)2 q 3 √ − +O(n− 2 ))−(nq−x(n) npq)(−x(n) np 2np

p x(n)2 p 3 − +O(n− 2 )) = nq 2nq

1 1 x(n)2 q √ + O(n− 2 ) − x(n)2 q + O(n− 2 ) + ... = −x(n) npq + 2 x(n)2 p 1 1 √ +x(n) npq + + O(n− 2 ) − x(n)2 p + O(n− 2 ) + ... = 2 x(n)2 1 x2 1 x2 =− + O(n− 2 ) = − + O(n− 2 ) → − 2 2 2 uniformemente in x e dunque x2 An / exp(− ) → 1. 2 Pertanto exp(θ) √ 1 x2 √ npqPn (k) = √ npqBn An → √ exp(− ) q.e.d. 2 2π 2π

Universit` di Torino, a.a. 2003-2004 a

30

Capitolo 2. Variabili aleatoreie reali discrete

4

3

2

1

-4

-2

0

2 x

4

Figura 2.1: Densit` binomiale normalizzata, con n = 20 e p = 0.5 , e Normale standard a

Nella Figura 1 sono riportati, in scale opportune, i grafici della funzione costante a tratti 2 √ npqPn (k(n, x)), con p = 0.5 e n = 20, e della funzione limite √1 exp(− x ). I tratti hanno 2 2π √ ampiezza 1/ npq ∼ 0.447. = Valore massimo di Pn (k): dobbiamo studiare le disuguaglianze
k−1 k k+1 Cn pk−1 q n−k+1 ≤ Cn pk q n−k ≥ Cn pk+1 q n−k−1 ,

equivalenti alle disuguaglianze q n−k+1 q n−k ≤ , ≥ , p k p k+1 dalle quali si ricava np − q ≤ k ≤ np + p . Vi possono essere dunque uno o due argomenti k per i quali Pn (k) assume il valore massimo; per k ≤ np + p Pn (k) ` crescente, mentre per np − q ≤ k Pn (k) ` decrescente. e e Quaderni Didattici del Dipartimento di Matematica

. posto i = min An ....Negro..... 2003-2004 a n! pk1 pk2 . 2π e. q. Sia K il numero aleatorio di successi in n prove indipendenti. + pl = 1 e ovviamente 0 ≤ pj ≤ 1 . kl ) = Universit` di Torino.. El con probabilit` p1 . . xj √ Inoltre |a− xi |. 1 √ k = np + xk npq .5 Distribuzione multinomiale Si considerano ancora n prove indipendenti. se a∗ < a < b < b∗ . Elementi di Calcolo delle Probabilit` a 31 Teorema del limite integrale di DeMoivre-Laplace.. si introduca la funzione fn (x) = osservando che 0 x < xi−1 ∨ x ≥ xj+1 √ npqPn (k) xk ≤ x < xk+1 . j = max An .. a.a. i ≤ k < j . t2 Dimostrazione. essendo xi−1 < a ≤ xi < xj < b ≤ xj+1 j P (En ) = k=i b √ npqPn (k)(xk+1 − xk ) = xi b = a fn (x)dx − a fn (x)dx − fn (x)dx . dove k − np < b} An = {k | a ≤ xk (n) = √ npq e. Fissati a < b. b∗ [ . 2.e. pl : a p1 + p2 + . k2 . In ogni prova si possono presentare gli eventi disgiunti E1 . E2 .kl ! 1 2 . a kl = kl (n) occorrenze di El ( j kj = n ) ` data da e Pn (k1 . Si deve studiare il comportamento asintotico della probabilit` dell’evento En = a {K ∈ An }. |b − xj | ≤ 1/ npq → 0. p2 . si ha per n → +∞ K − np 1 P (a ≤ √ < b) → √ npq 2π b a e− 2 dt . .. Per la convergenza uniforme delle fn si trova il risultato. in ciascuna delle quali la probabilit` di successo ` p. Allora la probabilit` che si presentino nelle n prove esattamente k1 = k1 (n) occorrenze di E1 .pkl .. l k1 !k2 !..d.. xk+1 − xk = √ npq x2 √ 1 npqPn (k) → √ e− 2 uniformemente su ]a∗ . per il teorema del limite locale fn (x) = Allora..A. con a e 0 < p < 1.. che non sarebbe difficile estendere a a = −∞ ∨ b = +∞.

nel senso che dato ε > 0 il rapporto dista da 1 meno di ε per n maggiore di una soglia dipendente soltanto da ε. Se qj = 1 − pj e pj . Indicando con Kj la v. si mantengano limitati. si ottiene allora ˜ P (K1 = k1 ∧ K2 = k2 ) = n! pk1 pk2 (1 − p1 − p2 )n−k1 −k2 . 2 2 2 uniformemente. Per n = 2 si ritrova il risultato di DeMoivre-Laplace.32 Capitolo 2. b[. ed ovviamente q = 1 − p di fallimento in ogni prova. Infatti. 2.. ˜ ˜ k2 !(n − k1 − k2 )! 2 Osservando che 1 − p2 = (1 − p1 − p2 )/(1 − p1 ).. che conta il numero di esiti Ej nelle n prove. k1 !k2 !(n − k1 − k2 )! 1 2 e continuando in questo modo si giunge alla formula che si voleva dimostrare.. qj = 0. date l successioni kj (n) tali che l kj (n) = n j=1 e tali che le i loro valori normalizzati kj − npj xj = xj (n) = √ . se Ej ` l’evento “si ` verificato Ej e ˜ e e m m )/P (E m )) = P (E m )/P (E m )). Dunque (n − k1 )! P (K2 = k2 |K1 = k1 ) = pk2 (1 − p2 )n−k1 −k2 .a.6 Distribuzione geometrica Come nello schema di Bermouilli si considerano prove indipendenti con probabilit` p di suca cesso.. npj qj che soddisfino la relazione j √ xj pj qj = 0 .. le probabilit` condizionali degli altri esiti in a m ognuna delle prove rimanenti ` pj = pj /(1 − p1 ).. P (Ej |E1 ˜ j 1 1 j pj = 1..+ql xl )/2 = 1 . a e b. Questa volta il numero delle prove Quaderni Didattici del Dipartimento di Matematica . k1 !(n − k1 )! 1 P (K1 = k1 ∧ K2 = k2 ) = P (K1 = k1 )P (K2 = k2 |K1 = k1 ) . risulta n→+∞ lim nl−1 p1 p2 . diciamo in ]a. Variabili aleatoreie reali discrete come si dimostra facilmente con un percorso ad l stadi.pl Pn (k1 . kl )/ 1 (2π)(l−1)/2 e−(q1 x1 +q2 x2 . . Ma se esattamente k1 prove hanno avuto esito E1 . Si noti che nella prova m-esima e j = 1. k2 . si ha: P (K1 = k1 ) = n! pk1 (1 − p1 )n−k1 .

ed ovviamente q = 1 − p di fallimento in ogni prova. dove le f sono k − 1.A. ha per densit` f (k) = p(k) = pq k−1 e la distribuzione corrispondente: a n−1 F (n) = P (N < n) = k=1 pq k−1 si dice distribuzione geometrica (si dice anche che N ` una variabile aleatoria geometrica) . N si dice variabile binomiale negativa di parametri p e r e la sua distribuzione si dice distribuzione binomiale negativa . Si procede finch` non si ottengono esattamente r successi. Elementi di Calcolo delle Probabilit` a 33 non ` prefissato. 1−q La variabile aleatoria N . r−1 Vi sono Cn−1 scritture di questo tipo. f f f s. Poniamo.. Si osservi che p(k) ≥ 0.a. numero di prove per un primo successo (“tempo di attesa” di un primo sucesso). e e Prendiamo come spazio campione l’insieme di tutte le possibili “storie”: Ω = {s. Si procede finch` non si ottiene un primo successo. in considerazione dell’ipotesi di indipendenza: P (ω) = pr q n−r . nelle quali scrivere il carattere s.. ssf s.Negro.. +∞ +∞ pq k−1 = p k=1 j=0 qj = p = 1. f f s. 2003-2004 a . l’insieme delle scritture ω con 3 (in generale r) caratteri s. Universit` di Torino.} e per ogni ω sia N (ω) il numero di caratteri in ω. Il numero delle prove a non ` prefissato. f sss. e e Sia ad esempio r = 3.f s) = q k−1 p. f s. e con n− 3 (in generale n− r) caratteri f . uno dei quali nell’ultima posizione. Dunque in ω vi sono N (ω) − 1 lettere f e l’ultima lettera ` s. a. .7 Distribuzione binomiale negativa (di parametri p ed r) Come nel caso della distribuzione geometrica... perch` esse sono tante quanti i sottoinsiemi di r − 1 e posizioni selezionate arbitrariamente tra le prime n − 1 posizioni. Poniamo. Sia Ω = {sss.. Dunque la densit` di N `: a e r−1 f (n) = P ({ωǫΩ | N (ω) = n}) = Cn−1 pr q n−r . f f sss.}. f sf ss. sf ss. in considerazione dell’indipendenza delle prove: e p(k) = P (N = k) = P (f f. si considerano prove indipendenti con probabilit` p di successo. e 2. .

X pu` assumere e sia Ak = { ω | X(ω) = xk }. Linearit` del valor medio: a E(cX) = cE(X) .a. Possiamo allora definire il valor medio di una v.a. allora o E(H(X)) = j hj g(j) = ω∈Ω H(X(ω))p(ω) = k ω∈Ak H(X(ω))p(ω) = = k H(xk ) ω∈Ak p(ω) = k H(xk )f (k). dove hj sono i valori e a e a distinti che H pu` assumere. Il suo valor medio risulta E(H(X)) = ω∈Ω H(X(ω))p(ω). E(X + Y ) = E(X) + E(Y ). dove fX ` la densit` di X. possiamo considerare la variabile aleatoria e H(X) definita da H(X)(ω) = H(X(ω)) per ogni ω ∈ Ω. Variabili aleatoreie reali discrete 2. ωǫΩ dove p(ω) = P ({ω}).. Se H(x) ` una funzione reale di variabile reale. Se non vi ` convergenza assoluta si dice che X non ` dotata di media. Definizione. Se f (k) o ` la probabilit` del valore xk di X. discreta X la quantit` a E(X) = X(ω)p(ω) . necessariamente discreta. e a e e a risulta: +∞ +∞ +∞ E(X) = ω∈Ω X(ω)p(ω) = k=0 ω∈Ak X(ω)p(ω) = k=0 xk P (Ak ) = k=0 xk f (k). Quaderni Didattici del Dipartimento di Matematica . perch` E(X) non deve e e dipendere dall’ordine dei termini della serie: |X(ω)|p(ω) < +∞. Si dice valor medio (o anche valore atteso o speranza matematica) della v.a. nel modo seguente. Se f (k) ` la densit` di X e g(j) = P (H(X)) = hj ) ` la densit` di H.8 Valor medio (variabili discrete) Consideriamo in primo luogo il caso in cui Ω stesso ` finito o numerabile (e ogni {ω} sia un e evento). cio` se f (k) = P (Ak ) = fX (xk ).34 Capitolo 2. e e Siano xk i valori distinti che la v. ωǫΩ e In altre parole la famiglia di numeri {X(ω)}ω∈Ω ` sommabile. Se Ω non ` finito si pretende che la serie sia assolutamente convergente.

tranne eventualmente quelle di un sottoinsieme di probabilit` nulla.Negro. indipendenti si ha invece E(XY ) = E(X)E(Y ). e Valor medio del prodotto: in generale il valor medio del prodotto ` diverso dal prodotto dei valori medi di due v. Ma e nel caso particolare di v. Infatti gli eventi Akl = { ω| X(ω) = xk ∧ Y (ω) = yl } costituiscono una partizione di Ω e quindi. a Se si dovesse considerare soltanto la v. X E(X − E(X)) = 0 .a. X ≥ Y ⇒ E(X) ≥ E(Y ) . se la serie converge assolutamente.l k l E(XY ) = ω∈Ω X(ω)Y (ω)p(ω) = kl ω∈Akl X(ω)Y (ω)p(ω) = yl pY ) = E(X)E(Y ).a. Positivit` e monotonia del valor medio: a X ≥ 0 ⇒ E(X) ≥ 0 . discreta X che assume i valori xk con probabilit` f (k) = fX (xk ). si potrebbe sostituire Ω con lo spazio ridotto Ω∗ i cui elementi ω ∗ sono semplicemente gli interi k o i valori distinti xk . l = k l xk yl pXY = ( k.a.l k xk pX )( k l Nel caso di uno spazio Ω generale (non necessariamente numerabile). Elementi di Calcolo delle Probabilit` a 35 infatti (cX(ω) + Y (ω))p(ω) = c ω ω X(ω)p(ω) + ω Y (ω)p(ω).a.a. poich´ pXY = pX pY : e k. a Universit` di Torino.A. dove Ak = { ω | X(ω) = xk } si definisce il valore atteso mediante la e formula: +∞ +∞ E(X) = k=0 xk P (Ak ) = k=0 xk f (k). La prima a implicazione ` conseguenzza immediata della definizione (tutti i termini X(ω)p(ω) della somma e che fornisce E(X) sono non negativi). per una v. In modo analogo si interpreta la disuguaglianza X ≥ Y . Se ne deduce che per ogni v. associando a ciascuno di essi la probabilit` f (k). a e a cio` f (k) = P (Ak ).a. La seconda implicazione ` immediata perch´ X − Y ≥ 0 e e e il valor medio ` lineare e positivo. Si osservi che per una variabile costante c si ha E(c) = c. 2003-2004 a . e quindi per essa vale la propriet` commutativa. X. riconducendosi in tal modo al caso di uno spazio campione numerabile. dove fX ` la densit` di X. a. X ≥ 0 significa che X(ω) ≥ 0 per tutte le ω ∈ Ω.

o e e scarto quadratico medio.l (xk + yl )P (Ckl ) = k xk l P (Ckl ) + l yl k P (Ckl ) = = k xk P (Ak ) + l yl P (Bl ) = E(X) + E(Y ) . Sia X ≥ 0 (i suoi valori xk sono ≥ 0). sia µ = E(X) e c un numero reale positivo arbitrario. a per la σ-additivit` di P . k∈{k|xk ≥cµ} f (k) = cµP (X ≥ cµ). Dividendo per cµ si ottiene il risultato. si pone e 2 V (X) = σX = E((X − µX )2 ). Variabili aleatoreie reali discrete Molto spesso tuttavia ` importante considerare simultaneamente pi` v. La composizione e scomposizine delle somme ` lecita.d. e non seme u pre ` opporuno o possibile ricondursi ad un unico spazio campione numerabile..e. ..a. se X assume i valori a a xk sui sottoinsiemi Ak (che formano una partizione di Ω) e Y assume i valori yl sui sottoinsiemi Bl (che formano una partizione di Ω). positivit` e quindi monotonia).9 Varianza e deviazione standard (variabili discrete) Definizione.36 Capitolo 2. e Regole elementari di calcolo . X. Se V(X) ` finita.a. V (λX) = λ2 V (X) V (X) = E((X − E(X))2 ) = E(X 2 − 2XE(X) + E(X)2 ) = E(X 2 ) − E(X)2 Disuguaglianza di Markov. si dice che essa ` la varianza di X e σX si dice deviazione standard. di X. X ` dotata di media E(X) = µX . Ad esempio. ed X + Y ammette valor medio. allora P (X ≥ cµ) ≤ Dimostrazione. in virt` e u della convergenza assoluta delle serie che definiscono E(X) e E(Y ). Quaderni Didattici del Dipartimento di Matematica . Y. σX ` un indice importante di dispersione dei valori di X intorno alla sua media. Sia f la distribuzione di X: µ= k 1 . si ha: E(X + Y ) = k. c xk f (k) ≥ k∈{k|xk ≥cµ} xk f (k) ≥ cµ q. 2. Z. Se la v. e Anche nel caso generale si controlla la validit` delle propriet` fondamentali del valore atteso a a sopra considerate (linearit`. considerando la partizione pi` fine costituita dagli insiemi u Ckl = Ak ∩ Bl .

. In particolare. Si osservi che la v. q. + V (Xn ) . Elementi di Calcolo delle Probabilit` a 37 Disuguaglianza di Chebyshev.. se X e Y sono v. inoltre. X media (aritmetica) delle v... Posto Y = (X − µ)2 . Una codizione sufficiente affinch´ ci` avvenga ` che le v. X1 . Abbiamo gi` visto che: e a V (λX) = λ2 V (X). che invece ` presupposta (quale e condizione sufficiente.V ( ) = 2 (nσ 2 ) = .. siano indipendenti.. Y ) = 0 ⇔ V (X + Y ) = V (X) + V (Y ).. con media µX e µY . Y )..a.. si dice covarianza delle v..a. X2 .e. risulta E(X1 + X2 + .a.A. ma varianza σ 2 /n ridotta di un fattore 1/n e quindi tendete a 0 per n → +∞. + Xn X1 + X2 + . Xk ha lo stesso valor medio µ. n n n n I risultati riguardanti le medie non richiedono l’indipendenza. + Xn ) = V (X1 ) + V (X2 ) + . se le v...a. diviso per 2. X1 + X2 + . V (X1 + X2 + . si ha V (X1 + X2 + ..Negro.a... risulta Y ≥ 0 e E(Y ) = σ 2 e per la disuguaglianza di Markov 1 P (|X − µ| ≥ λσ) = P (Y ≥ λ2 σ 2 ) ≤ 2 . . X e Y e si indica con Cov(X..a. allora V (X + Y ) = E((X + Y ) − (µX + µY )2 ) = = E((X − µX )2 + (Y − µY )2 + 2(X − µX )(Y − µY )) = V (X) + V (Y ) + 2E((X − µX )(Y − µY )) L’ultimo addendo. X2 . 2003-2004 a . Infatti in tal e o e caso sono indipendenti X − E(X) e Y − E(Y ) e dunque Cov(X. + Xn 1 σ2 ) = µ . . E( Universit` di Torino. + Xn ) = nµ .a. + Xn ) = nσ 2 .a. ` uguale alla somma delle loro varianze se e solo se la e loro covarianza si annulla: Cov(X. dotata di media µ e varianza σ 2 e sia λ > 0 arbitrario: 1 P (|X − µ| ≥ λσ) ≤ 2 . a. Y ) = E((X − µX )(Y − µY )) = E(X − µX )E(Y − µY ) = 0 . Sia X una v. Xn sono a due a due indipendenti (non ` necessaria la mutua e indipendenza). λ Dimostrazione.a. Xn sono a due a due indipendenti ed hanno stessa media µ e varianza σ 2 .d. Se le v. X1 . La variaza della somma di due v...a. λ La varianza ovviamente non ` in generale un’operazione lineare. ma non necessaria) per dedurre i risultati precedenti sulle varianze.

con h sufficientemente piccolo. E(K) = k=0 k kCn pk q n−k = np. Inoltre. Infatti E(X) = X(ω)p(ω) = XdP ω∈Ω Ω e quindi.10 Funzione generatrice dei momenti Sia t un parametro reale. | k! N k=0 tk X k | ≤ eh|X| k! per ogni ω. si trova u E(e tX +∞ k )= k=0 t E(|X|k ) . I risultati precedenti si dimostrano facilmente ricorrendo alla teoria generale dell’integrazione. Ω− = { X < 0 }. k! 2. Si pone mX (t) = E(etX ) = E( +∞ j j=0 t j X ). posto Ω+ = { X ≥ 0 }. j! se il valor medio di etX esiste per |t| ≤ h (basta che esista per ±h). essendo N k=0 tk X k → etX . in virt` del teorema sulla convergenza dominata.38 Capitolo 2. Variabili aleatoreie reali discrete 2. e risulta: e E(etX ) = +∞ j j=0 t E(X j ). Ω k! h|X| e ⇒ E(|X|k ) = hk Ω |X|k dP < +∞ e pertanto esistono i momenti di ogni ordine. X. si ha E(e±hX ) < +∞ ⇒ Ma allora |X|k ≤ ±Ω e±hX dP < +∞ ⇒ eh|X| dP < +∞ . Si pu` o dimostrare che ` lecito permutare l’operatore E con la serie esponenziale.11 Esempi di calcolo di medie.a. j! dunque mX (t) ` sviluppabile in serie di Taylor nell’intorno dell’origine e e k E(X k ) = Dt mX (t)|t=0 . Quaderni Didattici del Dipartimento di Matematica . La funzione mX (t) si dice funzione generatrice dei momenti della v. varianze e funzioni generatrici n Variabili K(ω) binomiali.

y = q si trova il risultato.. mK (t) = Dunque mX (0) = (p + q)n = 1 . y = q n(n − 1)p2 = E(K 2 ) − E(K).a. Per quanto concerne la funzione generatrice: n n i eti Cn pi q n−i = i=0 i=0 i Cn (pet )i q n−i = (pet + q)n .a. che prende i valori u o e 1 e 0 con probabilit` p e q. x ∂φ = nx(x + y)n−1 = ∂x k kCn xk y n−k .a. D2 mK (t)|t=0 = n(n − 1)(pet + q)n−2 p2 e2t + n(pet + q)n−1 pet |t=0 = n(n − 1)p2 + np = E(K 2 ) . σ 2 = E(K 2 ) − E(K)2 = n2 p2 − np2 + np − n2 p2 = np(1 − p) = npq. Elementi di Calcolo delle Probabilit` a 39 Si consideri infatti la funzine ausiliaria φ(x. secondo che nella prova j-esima vi sia un successo o un fallimento. n n n . k Posto x = p . si ha V (Kj ) = E(Kj ) − E(Kj )2 = p − p2 = pq . Ma e 2 le v. Si potrebbe anche procedere nel modo seguente: x2 E posto x = p. ∂2φ = n(n − 1)x2 (x + y)n−2 = ∂x2 k k k(k − 1)Cn xk y n−k . Frequenza.Negro. a. DmK (t)|t=0 = n(pet + q)n−1 pet |t=0 = np . √ Per la deviazione standard si trova σK = npq.. E(K) = np . V( )= . dove Kj ` una v. V (K) = E(K 2 ) − E(K)2 = n(n − 1)p2 + np − n2 p2 = np(1 − p) = npq. 2003-2004 a K K pq )=p . Kj sono indipendenti e quindi V (K) = npq.Kn . Se consideriamo la frequenza (relativa) di successo in n prove: K/n .A. abbiamo E( Universit` di Torino. y) = (x + y)n = k k Cn xk y n−k . a Evidentemente E(Kj ) = 1p + 0q = p e quindi E(K) = j E(Kj ) = np. Pi` facilmente si pu` scrivere K = K1 + K2 + . 2 2 Poich` Kj = Kj e quindi E(Kj ) = p.

Gioco equo. t )2 (1 − qe (1 − qet )3 p p p2 σ2 = 1+q 1 q − 2 = 2. a = 1/p oppure a < 1/p . Dunque il “gioco ` vantaggioso. Dunque per n → +∞ tale probabilit` tende a 0 . Se ogni prova ha un costo C e in caso di successo si ottiene un pagamento uguale ad aC. la v. e secondo che sia a > 1/p . Dunque mN (t)|t=0 = DmN (t)|t=0 = ( = p =1. Variabili aleatoreie reali discrete Applicando la disuguaglianza di Chebychev. n ε n mN (t) = k=1 etk q k−1 p = p q +∞ (qet )k = k=1 pet . 1−q Dunque il tempo medio di attesa per un primo successo ` il reciproco della probabilit` di suce a cesso in una singola prova. Variabile N (ω) geometrica.a. equo o svantaggioso per chi sostiene il costo C in ogni prova. p2 p p Quaderni Didattici del Dipartimento di Matematica pet p 1 | = = = E(N ) . per ogni ε > 0 si ha P ({| Basta infatti ricavare λ dalla relazione ε = λσ = λ pq/n .40 Capitolo 2. guadagno complessivo: G = aCK − nC ha un valor medio E(G) = nC(ap − 1) . t )2 t=0 2 (1 − qe (1 − q) p pet pet qet + )|t=0 = 1 − qet (1 − qet )2 D2 mN (t)|t=0 = ( . pet 2pqe2t 1 2q 1+q + )|t=0 = + 2 = = E(N 2 ) . 1 − qet per t sufficientemente piccolo (qet < 1). La sua funzione generatrice dei momenti ` data da e +∞ K pq − p| ≥ ε}) ≤ 2 . Questa ` una prima formulazione di una legge a e (debole) dei grandi numeri.

.j(1 − z)−1−j . posto s = r − 1. Conviene allora considerare la funzione ausiliaria +∞ H(z) = j=0 r−1 Cj+r−1 z j = 1 1 z r−1 Dr−1 z j+r−1 = Dr−1 .. ad esempio o +∞ +∞ r−1 kCk−1 pr q k−r k=r E(N ) = =p r j=0 r−1 (j + r)Cj+r−1 q j = q r = pr (qH ′ (q) + rH(q)) = pr (rq(1 − q)−r−1 + r(1 − q)−r ) = r( + 1) = ... p p Analogamente per la funzione generatrice dei momenti: +∞ +∞ r−1 ekt Ck−1 pr q k−r = pr ert k=r j=0 r−1 Cj+r−1 (qet )j = pr ert H(qet ) = ( mN (t) = pet )r .. pertanto s H(z) = (1 − z)−1 i Cs 1i ( i=0 z s−i z s ) = (1 − z)−1 (1 + ) = (1 − z)−1−s = (1 − z)−r . (1 − qet ) Con un semplice esercizio di derivazione si trova E(N ) = DmN (t)|t=0 = Universit` di Torino. (r − 1)! (r − 1)! 1−z j=0 +∞ infatti Dr−1 z j+r−1 = (j + r − 1)(j + r − 2)... a.a.2. a) Metodo analitico.. Elementi di Calcolo delle Probabilit` a 41 Variabile N (ω) binomiale negativa (di parametri n e r). (1 − z)s−i+1 essendo Di z s = s(s − 1). 2003-2004 a r r(r + q) .1 z s−i . 1−z 1−z Dunque H(q) = (1 − q)−r = (p)−r e F (+∞) = pr (p)−r = 1. Allora.a.Negro.. La funzione H(z) pu` essere utilizzata per calcolare le caratteristiche della v. vista la formula di Leibniz: H(z) = 1 1 s s D (z (1 − z)−1 ) = s! s! s i=0 i Cs s(s − 1). F (n + 1) = avendo posto j = k − r ed essendo ovviamente n ≥ r.(s − i + 1)z s−i e Dj (1 − z)−1 = 1.(s − i + 1)(s − i). p p2 .A. La distribuzione di N ` data da e n n−r r−1 Ck−1 pr q k−r = pr k=r j=0 r−1 Cj+r−1 q j .. E(N 2 ) = D2 mN (t)|t=0 = . N .(j + 1)z j .

tutti i campioni di k individui possano essere estratti con la stessa probabilit`. r) ..a.. tempo di attesa per il prossimo succese so non ` condizionata dalla storia delle prove precedenti (da come si ` giunti all’ultimo successo). pi` semplici.42 Capitolo 2. Per l’estrazione in blocco ` evidente che. Chiaramente le Nk sono indipendenti ed hanno distribuzione geometrica. p p rq q V (N ) = V (N1 ) + V (N2 ) + . + E(Nr ) = r( ) = . ma quelli gi` estratti a non debbono essere pi` presi in considerazione per le estrazioni successive (“estrazioni senza u reimmissione”)..12 Distribuzione ipergeometrica Si considera una popolazione di N individui .. supponendo che. u rq .. n − s) ≤ x . 0 ≤ x .. x ≤ r . Pi` precisamente: in ogni estrazione tutti gli individui rimasti possono essere estratti a u con la stessa probabilit`. dove N1 ` il tempo di attesa (numero di prove) per un primo successo. Si estrae un campione di n individui: si possono estrarre gli elementi del campione successivamente. Variabili aleatoreie reali discrete pertanto V (N ) = σ 2 = E(N 2 ) − E(N )2 = b) Decomposizione in v. e e Allora 1 r E(N ) = E(N1 ) + E(N2 ) + . Tutti gli individui della popolazione possono essere estratti con ugual probabilit`. + Nr . N2 l’ulteriore tempo di ate tesa (ulteriore numero di prove) per un secondo successo.a. dei quali esattamente r hanno una determinata caratteristica χ. geometriche o indipendenti: N = N1 + N2 + ..V (Nr ) = r( 2 ) = 2 . 1 − qet 2. y = n − x ≤ s = N − r . n CN Quaderni Didattici del Dipartimento di Matematica .a.. qualsiasi k ≤ N . Siamo in presenza di una situazione dove non vi ` memoria e del passato (n´ influenza del futuro sul presente): la v..Nr t ) = E(eN1 t eN2 t .eNr t ) = ( pet r ) . X che assume quale valore il numero di individui del campione con la propriet` χ.a. Risulta dall’analisi seguente che ` equivalente procedere ad una “esa e trazione in blocco”. I valori possibili x di X sono vincolati da a x ≤ n . a Si considera la v.. considerando i casi possibili e quelli favorevoli: e P (X = x) = x y Cr Cs . e dunque x ≤ min(n... p2 La variabile binomiale negativa N pu` essere scritta come somma di r v. e dunque max(0. mentre gli altri s = N − r individui non hanno χ. p p mN (t) = E(eN t ) = E(eN1 t+N2 t+.

cosa che si pu` fare in Cr modi o diversi e poi completando il campione con y individui selezionati tra gli s privi della carattery x istica χ. i campioni favorevoli si costruiscono ad esempio e x prima selezionando x individui tra gli r con la caratteristica χ.. ipergeometrica X. u u Si immagina quindi di estrarre successivi elementi dalla popolazione.a. Meglio scome a porre X in v. ω2 . dunque il numero totale di campioni favorevoli si ottiene moltiplicando i due coefficienti binomiali. 0. Ac = {Xk = 0}: k P ({0.A. 1. semplici che si presentano naturalmente nel Caso dell’estrazioni successive senza reinserimento.Ac |Ac ∩ A2 ) = .dove R ` l’insieme dei sottoinsiemi formati o e da x elementi di un insieme di r elementi.a. 1.Ac |Ac ) = 1 4 5 1 5 1 P (Ac )P (A2 |Ac )P (A3 ∩ .. 2003-2004 a . Si pu` assegnare.. 1. N N −1 Nei calcolo precedenti si utilizza ripetutamente la regola di calcolo P (A ∩ B|C) = P (A|C)P (B|A ∩ C) .Negro..) k Se si conviene che Cn = 0 per k > n. Xk (ω) = ωk e gli eventi Ak = {Xk = 1}. ad esempio se n = 5: P ({(0. e S ` l’insieme dei sottoinsiemi formati da y elementi e di un insieme di s elementi. introducendo le v. 5 C52 Non ` facile calcolare le caratteristiche della v. X direttamente dalla densit`. a n Infatti CN ` il numero dei campioni possibili. (Il numero di campioni favorevoli si pu` mettere in corrispondenza biunivoca con R × S.. 0. indicando con ωk = 1. senza riimmissione. Per ciascuna delle prime Cr selezioni si ha o y sempre lo stesso numero Cs di seconde selezioni possibili.a. 0.ωn ). e a Esempio.. cosa che si pu` fare in Cs modi diversi. La probabilit` di avere tra le 5 carte esattamente 2 assi ` e 2 3 C4 C48 ∼ 0. = 1 1 5 1 r s . e la caratteristica χ. 0 il fatto che alla k-esima estrazione si ` selezionato un individuo con. in modo coerente con le ipotesi fatte.. 0.a... Universit` di Torino. N N −1N −2N −3N −4 Infatti. Introduciamo allora uno spazio di riferimento Ω analogo a quello introdotto per lo schema di Bernouilli Ω = {ω | ω = (ω1 . Elementi di Calcolo delle Probabilit` a 43 formula che fornisce la densit` della v. 0}) = .. o senza.0339.. Si estraggono casualmente da un mazzo di N = 52 carte n = 5 carte. 0}) = s r r−1 s−1 s−2 = P ({(1.. la formula precedente ` valida per qualunque valore di x. una probabilit` ad o a ogni ω. . a.a. 1. 0}) = P (Ac ∩ A2 ∩ A3 ∩ Ac ∩ Ac ) = P (Ac )P (A2 ∩ A3 . con al pi` r ωk = 1 e al pi` s ωk = 0}. 1.

n induce una bijezione π : Ω → Ω tale che P (ω) = P (π(ω)). Allora le v. N N Infatti. P (X = x) = Cn N (N − 1).... sempre per la permutabilit` delle ωk a parit` di probabilit`.(r − x + 1)s(s − 1). Variabili aleatoreie reali discrete che si verifica immediatamente.(N − n + 1) = Analogamente. N N N −1 Quaderni Didattici del Dipartimento di Matematica . si ha P (Xj = 1) = ω∈{ω|ωj =1} P (ω) = ω∈{ω|ωj =1} P (π(ω)) = ′ ω ′ ∈{ω ′ |ωk =1} P (ω ′ ) = P (Xk = 1) ... P (X1 = 0) = P (X1 = 1) = N N e quindi r r E(X1 ) = .. ricordando la definizione di probabilit` condizionata a P (A ∩ B ∩ C) P (A ∩ C) P (B ∩ (A ∩ C)) = ... per j = k a a a P (Xj Xk = 1) = P (X1 X2 = 1) = Allora essendo X = X1 + X2 + . E(X1 2 ) = E(X1 ) = . Xk (ω) = ωk hanno tutte la stessa distribuzione. N N −1 E(Xk ) = nr . + Xn ... dunque x r(r − 1). quella ad esempio di X1 : r s .a. N E(X 2 ) = E( k 2 Xk + i=j Xi Xj ) = n r r r−1 + n(n − 1) ..(s − y + 1) . x!(n − x)! N (N − 1).. come si verifica facilmente (x + y = n.(N − n + 1) r r−1 .44 Capitolo 2.(s − y + 1) . se ad esempio π scambia ωj con ωk e lascia fisse le altre componenti. P (C) P (C) P (A ∩ C) Si vede immediatamente che la probabilit` dell’esempio non dipende dall’ordine delle ωk . risulta E(X) = k n! r(r − 1). che coincide con il valore precedentemente calcolato per altra via. 2. a Quindi ogni permutazione degli indici 1. posto ω ′ = π(ω).. r + s = N ): r x N n = s y n!(N − n)! r! s! = N! x!(r − x)! y!(s − y)! x I campioni ω con lo stesso numero x di individui con la caratteristica χ sono in numero di Cn ...(r − x + 1)s(s − 1..

x2 elementi dal secodo strato . x1 !x2 !.xl ! (S1 − x1 )!(S2 − x2 )!. + Sl = N . l}) ..A.(S − l − xl )! S1 !S2 !. quindi: card(A) = La probabilit` richiesta ` dunque: a e S1 x1 S2 x2 N n . Sl xl . 2003-2004 a . . 2..Negro. Questa procedura produce una sola volta tutti gli elementi di A.. + Xl (ω) = n . risulti Xj (ω) = xj per ogni j. Lo spazio di riferimento Ω ` in questo caso l’insieme e di tutti i possibili campioni: N card(Ω) = . + xl = n si chiede la probabilit` P (A) che.. Ogni campione ω ∈ A si pu` costruire con o la procedura seguente: si selezionano arbitrariamente x1 elementi dal primo strato.. rispettivamente di S1 .a.. Si estrae “a caso un campione ω di n elementi (n ≤ N ) . Sl elementi: S1 + S2 + . N2 N − 1 nr (N (N − 1) + N (n − 1)(r − 1) − (N − 1)nr) = N 2 (N − 1) nr (N 2 − N + N nr − N r − N n + N − N nr + nr) = = 2 N (N − 1) nr = 2 (N (N − r) − n(N − r)) . r r−1 n2 r 2 r + n(n − 1) − = N N N −1 N2 P (A) = = ( n! (N − n)! N! )/ ... ` E sufficiente contare il numero di elementi ω di A.... a.a.. a eseguita l’estrazione... P ({ω}) = p = 1/ n Sia Xj (ω) la v. dove A = {ω | Xj (ω) = xj j = 1. N (N − 1) Pi` in generale si consideri la situazione seguente: una popolazione di N individui ` divisa u e in l strati ...... xl elementi dal l-esimo strato. S2 . Dati dei numeri 0 ≤ xj ≤ Sj tali che x1 + x2 + . n Dicendo che si procede ad una scelta casuale di un campione si intende che tutti i possibili campioni sono equiprobabili: N . che conta il numero di elementi di ω appartenenti allo strato j-esimo : X1 (ω) + X2 (ω) + ... Sl xl S1 x1 S2 x2 .Sl ! Universit` di Torino. Elementi di Calcolo delle Probabilit` a 45 V (X) = σ 2 = E(X 2 ) − E(X)2 = Infatti n = nrs N − n . ....

13 Limite della distribuzione ipergeometrica per N → +∞ Se facciamo crescere il numero N di individui della popolazione. E facile calcolarne a le caratteristiche: +∞ mX (t) = E(etX ) = k=0 etk λk −λ e = e−λ k! +∞ k=0 t (λet )k = eλ(e −1) .(s − y + 1) x → Cn px q y ... e quindi costante il rapporto (N −r)/N = q.14 Distribuzione di Poisson qual limite della distribuzione binomiale Facciamo tendere a +∞ il numero delle prove indipendenti. in modo che il prodotto np = λ resti costante: a k fn (k) = Cn pk q n−k = n(n − 1). σX = √ λ. N N N −1 restando n ed x costanti. facendo simultaneamente tendere a 0 la probabilit` di successo nella singola prova.(N − n + 1) E(X) = n r nrs N − n → np . V (X) = λ2 + λ − λ2 = λ .. 1.(1 − )(1 − )−k → φ(k) = e . V (X) = 2 → npq . k! ` Una variabile aleatoria X che abbia tale densit` si dice variabile di Poisson .. 2.. mantenendo il rapporto r/N = p costante. di parametri n e p: x Cn r(r − 1). DmX (t)|t=0 = λet mX (t)|t=0 = λ . Variabili aleatoreie reali discrete 2.(n − k + 1) λk λ (1 − )n−k = k k! n n λk λ 1 2 k−1 λ λk −λ (1 − )n (1 − )(1 − ). 2. N (N − 1). e quindi costante y = n − x. k! mX (0) = 1 .(r − x + 1)s(s − 1). . al limite troviamo la distribuzione binomiale... dunque E(X) = λ .. D2 mX (t)|t=0 = (λet )2 mX (t)|t=0 + λet mX (t)|t=0 = λ2 + λ .. k! n n n n n k! La funzione φ(k) ` una densit` e a = +∞ e−λ k=0 λk = e−λ eλ = 1 ...46 Capitolo 2.. k = 0. Quaderni Didattici del Dipartimento di Matematica .

Definizione.a. Inoltre ∅ = ∩n≥1 { X < −n } . cio` tale che e ∀cǫR {ωǫΩ | X(ω) < c}ǫA. si dice variabile aleatoria reale a (v. x→+∞ lim F (x) = 1 . ammette in ogni punto limite destro F (x + 0) e limite sinistro F (x − 0) e l’insieme dei punti di discontinuit` (salti) ` al pi` numerabile. La funzione reale di variabile reale F (x) = P (X < x) si dice distribuzione della v.) ogni funzione X : Ω −→ R misurabile. Con la a e u definizione adottata. A.Capitolo 3 Variabili aleatorie reali di tipo generale e variabili continue 3. X. L’insieme { X < x } non decresce al crescere di x e quindi F ` una funzione monotona non e decrescente.a. Essendo F (x) una funzione monotona. P ) uno spazio di probabilit`. indipendenza Ricordiamo che. se (Ω. n n 47 . Infatti per ogni successione di numeri positivi an tendenti a 0 in modo decrescente F (x) = P ({X < x}) = P (∪n {X < x − an }) = lim P ({X < x − an }) = lim F (x − an ) . Ω = ∪n≥1 { X < n } e per le propriet` di continuit` della misura di probabilit` a a a x→−∞ lim F (x) = 0 .1 Distribuzione. F risulta continua a sinistra: F (x) = F (x − 0).

si ha e e P (X −1 (Ac )) = P (X −1 (A)c ) = 1 − P (X −1 (A)) = = 1 − P (Y −1 (A)) = P (Y −1 (A)c ) = P (Y −1 (Ac )) . prefissati comunque gli intervalli [a. X e Y si dicono indipendenti se e solo se.48 Capitolo 3. La distribuzione determina univocamente la probabilit` di tutti gli eventi concernenti la v.a.e. * * * Dimostrazione. q. gli eventi B = {a ≤ X < b} e C = {c ≤ Y < d} sono indipendenti (P (B ∩ C) = P (B)P (C)). e Definizione. Se X e Y hanno la stessa distribuzione F . d[. con le An disgiunte. An ∈ P.a. per ogni Boreliano B di R (B ∈ B) risulta P ({ ω | X(ω) ∈ B}) = P ({ ω | Y (ω) ∈ B}) . Gli intervalli ] − ∞. Ma B ` la minima σ-algebra alla quale tali e intervalli appartengono e quindi B ⊆ P. perch´ se A. b[ e [c. La tesi si pu` scrivere nella forma P (X −1 (B)) = P (Y −1 (B)). a Pi` precisamente vale la u Proposizione. Si pu` vedere che ` sufficiente chiedere che gli eventi o e U (x) = {X < x} e V (y) = {Y < y} Quaderni Didattici del Dipartimento di Matematica . Essa ` una σ-algebra. Alcuni autori chiamano µ distribuzione di X e allora F funzione di distribuzione.continue per la monotonia della successione {X < x − an } e la continuit` di P . P (X −1 (∪n An )) = P (∪n X −1 (An )) = n P (X −1 (An )) = = n P (Y −1 (An )) = P (∪n Y −1 (An )) = P (Y −1 (∪n An )) .d. a Alcuni autori adottano la definizione: F (x) = P ({X ≤ x}). In tal caso F risulta continua a destra: F (x) = F (x + 0). c[ appartengono per ipotesi a P. Consideriamo o allora la famiglia di sottoinsiemi di R P = { A | P (X −1 (A)) = P (Y −1 (A)) } . & & & La misura µ definita sui Boreliani di R da µ(B) = P (X −1 (B)) ` la legge di X. Variabili aleatoreie reali di tipo generale e v.

Negro. allora ∩t∈T At ` e e e ancora una σ-algebra. 2003-2004 a . Universit` di Torino. ` una collezione di σ-algebre. Due v. In uno spazio topologico i Boreliani sono gli elementi della σ-algebra generata dagli aperti (o. (Si ossrvi che ad esempio B = U (b) − U (a) e U (a) ⊆ U (b)). In luogo di 2) si pu` invece chiedere o 2∗ ) Fn ∈ F . Premettiamo alla dimostrazione alcuni importanti risultati. Definizione. si indica con σ(F ) la pi` piccola σu e algebra contenete F . Proposizione. Allora si pu` dimostrare che o σ(X −1 (F )) = X −1 (σ(F )) . a.a. Sia X : Ω → S una applicazione ovunque definita e A una σ-algebra in S. data una famiglia F di sottoinsiemi. la σ-algebra generata da e e X ` definita da e σ(X) = σ(X −1 (B)) = X −1 (σ(B)) = X −1 (B) . 2) Fn ∈ F . * * * Ricordiamo che.A. Fn ⊆ Fn+1 ⇒ ∪n Fn ∈ F . Essa viene detta la σ-algebra generata da F . G ∈ F . Fj ∩ Fk = ∅ (j = k) ⇒ ∪n Fn ∈ F . reali X e Y sono indipendenti se e solo se σ(X) e σ(Y ) sono indipendenti. reale. dai chiusi) Se B ` la famiglia dei Boreliani di R e X : Ω → R ` una v. dove T ` un insieme arbitrario. equivalentemente. Elementi di Calcolo delle Probabilit` a 49 siano indipendenti per arbitrari varori reali di x e y. La defnizione ` corretta perch` si vede facilmente che: e 1) Se {At }t∈T . Allora si vede facilmente che anche X −1 (A) ` una σ-algebra in Ω .a. Una famiglia F di sottoinsiemi di Ω si dice che ` una λ-classe se e solo se e Ω ∈ F e: 1) F.a. 2) Esiste almeno una σ-algebra contenete F . e Dunque σ(F ) ` l’intersezione di tutte le σ-algebre contenenti F . Si dice che due famiglie di eventi F e G sono indipendenti se e solo se ogni F ∈ F e ogni G ∈ G sono indipendenti: P (F ∩ G) = P (F )P (G). e Sia X : Ω → S una applicazione ovunque definita. F ⊆ G ⇒ G − F ∈ F . ad esempio P(X) .

Una famiglia di eventi F si dice π-sistema se e solo se ` chiusa per intersezioni e finite: F. Sn+1 = Sn ∪ (An+1 − An+1 ∩ Sn ) .d. e Dimostrazione. In primo luogo osserviamo che Ω ` indipendente da C. Ma allora ∪n An = ∪n Sn ∈ F .e. si vede per induzione che Sn ∈ F (sono presenti soltanto intersezioni finite. P ((∪n Fn ) ∩ C) = P (∪n (Fn ∩ C)) = = n n P (Fn ∩ C) = q. e La dimostrazione consiste in verifiche immediate. con F ⊆ G e e gli Fn disgiunti: P ((G − F ) ∩ C) = P (G ∩ C − F ∩ C) = P (G ∩ C) − P (F ∩ C) = = P (G)P (C) − P (F )P (C) = P (G − F )P (C) . Fn ∈ FC . Siano poi G. e u Teorema. Se una famiglia di eventi F ` sia una λ-classe che un π-sistema. e e allora ∩t∈T Ft ` ancora una λ-classe.e. Si indica con λ(F ) la λ-classe generata da F . differenze tra un insieme ed un suo sottoinsieme e unioni disgiunte). e Proposizione.50 Capitolo 3.. F. Quaderni Didattici del Dipartimento di Matematica . Essendo F una λ-classe si ha A ∈ F ⇒ Ac = Ω − A ∈ F . allora essa e ` una σ-algebra. se An ∈ F. La famiglia F di tutti gli eventi che sono indipendenti da ogni elemento C ∈ C ` una λ-classe.d. Inoltre. Basta vedere che la famiglia FC degli eventi indipendenti da C ` una λ-classe. Proposizione. definendo S1 = A1 . cio` la pi` piccola λ-classe contenente F . Sia C una collezione arbitraria di eventi. G ∈ F ⇒ F ∩ G ∈ F . e q. Variabili aleatoreie reali di tipo generale e v. P (Fn )P (C) = P (∪n Fn )P (C) Definizione. ` una collezione di λ-classi.a. Se {Ft }t∈T . dove T ` un insieme arbitrario. e Dimostrazione. e perch` e F = ∩C∈C FC . perch` le Sn sono una successione monotona.continue Infatti gli insiemi Fn+1 −Fn ∈ F per 1) e la loro unione ` disgiunta e coincide con quella degli Fn .

con c reale arbitrario. Ovviamente λ(F ) ⊇ (H ⊇ F. K ⊆ M ⇒ M − K ∈ λ(F ) e ∀H ∈ λ(F ) (M − K) ∩ H = M ∩ H − K ∩ H ∈ λ(F ) . Hn ∈ H . H ⊆ G ⇒ G − H ∈ λ(F ) e ∀F ∈ F (G − H) ∩ F = G ∩ F − H ∩ F ∈ λ(F ) . Inoltre H ` una λ-classe: e G.e. cio` i Boreliani di e R sono generati da R. Sia poi K = { K ∈ H = λ(F ) | ∀H ∈ λ(F ) K ∩ H ∈ λ(F ) } . Allora K = λ(F ) e. K ` una σ-algebra contenete F . (reali) X e Y sono indipendenti allora σ(X) e σ(Y ) sono indipendenti. Sia R la famiglia degli intervalli aperti e semi-infiniti inferiormente di R. q. Hn ⊆ Hn+1 ⇒ ∪n Hn ∈ λ(F ) . a. poich´ K ` un π-sistema. si ha Y ⊇ λ(Y −1 (R)) = σ(Y −1 (R)) = Y −1 (σ(R)) = Y −1 (B) = σ(Y ) . Dimostrazione. Sia Y = { F | F ` indipendente da X −1 (R) } .a. Sia H = { H ∈ λ(F ) | ∀F ∈ F H ∩ F ∈ λ(F ) } . D’altra parte e e e ovviamente λ(F ) ⊆ σ(F ) (tutti gli insiemi della prima classe devono essere presenti nella seconda) e finalmente K = λ(F ) = σ(F ). Allora H = λ(F ). ∀F ∈ F (∪n Hn ) ∩ F = ∪n (Hn ∩ F ) ∈ λ(F ) . 2003-2004 a . e Universit` di Torino. Sia ora X = { E | E ` indipendente da σ(Y ) } . Se F ` un π-sistema allora λ(F ) = e σ(F ). quindi M − K ∈ K. H ∈ H . e Per la prima parte della dimostrazione K ⊇ F. quindi G − H ∈ H. σ(R) = B. ∀H ∈ λ(F ) (∪n Kn ) ∩ H = ∪n (Kn ∩ H) ∈ λ(F ) .a. Dimostrazione. K ∈ K . Inoltre K ` una λ-classe: M. Elementi di Calcolo delle Probabilit` a 51 Teorema (sulle λ-classi o sulle classi monotone).d. e Essendo Y una λ-classe contenete il π-sistema Y −1 (R).Negro. Ovviamente R ` un π-sistema e tali sono dunque le famiglie X −1 (R) e e Y −1 (R). Dunque X −1 (R) e σ(Y ) sono indipendenti. indipendenti per ipotesi. Kn ⊆ Kn+1 ⇒ ∪n Kn ∈ λ(F ) . precisamente la famiglia degli insiemi ] − ∞.A. c[. Possiamo ora dimostrare che se due v. Kn ∈ K .

[an .. * * * & Le famiglie Fj .. .U (xn ) = {Xn < xn } siano mutuamente indipendenti. ` E sufficiente chiedere che per valori reali arbitrari x1 . n n n si ha k E(X) = XdP = lim P (Ak ) . ...a.2 Valor medio Definizione..xn gli eventi U (x1 ) = {X1 < x1 }.. q. Dunque σ(X) e σ(Y ) sono indipendenti.52 Capitolo 3. gli eventi B1 = {a1 ≤ X1 < b1 } . b1 [.continue Essendo X una λ-classe contenete il π-sistema X −1 (R).d. Bn = {an ≤ Xn < bn } sono mutuamente indipendenti... n n n Ω kǫZ Quaderni Didattici del Dipartimento di Matematica . Le v. .. Si dice valor medio o speranza matematica E(X) di X l’integrale di X su Ω rispetto alla misura di probabilit` P . Xj siano a due a due indipendenti e e non necessariamente indipendenti (mutuamente).. si dicono mutuamente indipendenti se per ogni scelta di Aj ∈ Fj gli eventi A1 . ` definto come limite di somme (o serie) integrali. j = 1..An risultano mutuamente indipendenti.. Le v. X1 .e. σ(X2 )..Xn si dicono indipendenti (mutuamente) se e solo se prefissati comunque gli intervalli [a1 .σ(Xn ) sono mutuamente indipendenti.a. 2.a. A2 . B2 = {a2 ≤ X2 < b2 } .a. Per esempio. se esiste.. Sia X una v.Xn sono mutuamente indipendenti se e solo se le σ-algebre da esse generate σ(X1 ). si ha X ⊇ λ(X −1 (R)) = σ(X −1 (R)) = X −1 (σ(R)) = X −1 (B) = σ(X) . [a2 .. . a Tale integrale. & & & Osservazione.. & $ Pi` in generale: u Definizione. bn [ . (reali) X1 .n. Variabili aleatoreie reali di tipo generale e v. e posto k k+1 Ak = {ωǫΩ | ≤ X(ω) < }. X2 . . X2 . Per alcuni risultati ` sufficiente che le v.a.. b2 [. 3.. .

A. costituise n n cono una partizione di Ω). in quanto |E(Xn ) − E(Xm )| ≤ |Xn − Xm |dP ≤ ε se n. m ≥ ν opportuno . dunque E(Xn ) ` di Cauchy in R e quindi converge ad un limite l. ` e o E inoltre chiaro che se X ` discreta e prende i valori xk sugli eventi B k . e b) il limite non dipende dalla successione approssimante. . E(Y1 ).Negro. Elementi di Calcolo delle Probabilit` a 53 Le serie che compaiono nella formula devono essere assolutamente convergenti (ricordiamo che la convergenza assoluta ` condizione necessaria e sufficiente per l’indipendenza della somma e dall’ordine dei termini della serie: non vogliamo che la definizione di valor medio dipenda dall’ordine con il quale i valori approssimanti (k/n nell’esempio) sono presi in esame). X2 . X.a. sia come integrale: E(X) = k xk P (B k ) = Ω XdP . n Infatti ` facile verificare che: e a) la convergenza uniforme delle Xn implica la convergenza delle E(Xn ). perch` se Yn converge uniformee mente ad X ed E(Yn ) converge a m. Y1 .. Allora: E(X) = Ω xk n k Bn . pertanto la successione E(X1 ). deve convegere e allora necessariamente a l = m. 2003-2004 a .a. Ω essendo Xn di Cauchy. discrete Xn tali che u 1) Xn → X uniformemente in Ω : ∀ε > 0 ∃ν ∀n > ν ∀ωǫΩ |Xn (ω) − X(ω)| < ε .. discreta che assume il valore k/n sull’insieme Ak (le Aj . jǫZ .. .. Pi` in generale possiamo considerare una qualunque successione di v. il suo valor medio pu´ essere definito sia direttamente. Universit` di Torino.. 2) Xn ammette valor medio: E(Xn ) = k k xk P (Bn ) . anche la successione mista X1 . Ω Se Xn ` la v.a. k Bn costituiscono una partizione di Ω e si XdP = lim E(Xn ). basta infatti pensare X come limite uniforme della successione approssimante costante X. a. Xn converge uniformemente a X su Ω. Y2 . converge unifomemente a X. .. Si indica l’integrale anche con la notazione X(ω)dP (ω) . n dove ` il valore costante assunto da Xn su e le chiede che la serie converga assolutamente . Infatti per ogni ω risulta 1 |Xn (ω) − X(ω)| < n ..

Cn = { ≤ Y < }. limitate.k su An . Poniamo j Bn = { j j+1 k k+1 k ≤X< } . n n Xn Yn = jk j. e Poich` X e Y sono indipendenti e j k P (Aj.a. Dimostriamo che E(XY ) = E(X)E(Y ) se X e Y sono indipendenti. Yn = su Cn .d.continue Le propriet` di linearit` si conservano nel passaggio al limite e dunque a a E(λX + µY ) = λE(X) + µE(Y ) .k = Bn ∩ Cn = { n Xn = e quindi j k j k su Bn . n2 La v.k jk j k P (Bn )P (Cn ) = n2 =( j j j P (Bn ))( n k k k P (Cn )) = E(Xn )E(Yn ) n (la famiglia di numeri jk/n2 P (Aj.a. n n n n j j+1 k k+1 ≤X< e ≤Y < }. e ma una condizione sufficiente ` che X e Y siano indipendenti. abbiamo E(1) = 1 . Variabili aleatoreie reali di tipo generale e v. E(X − E(X)) = 0 .k ) = P (Bn )P (Cn ) e n E(Xn Yn ) = j. In tal caso e E(XY ) = E(X)E(Y ) .k ) ` sommabile) e quindi passando al limite si ottiene il risule n tato. ricorrendo al consueto abuso di linguaggio.54 Capitolo 3. con c la v.a. n per n sufficientemente grande perch´ si abbia |Xn | ≤ |X| + 1. q.k ) = n n2 j. Non ` vero in generale che il valor medio del prodotto sia uguale al prodotto dei valori medi. La nozione di valor medio acquista particolare significato alla luce del Quaderni Didattici del Dipartimento di Matematica . Inoltre.k jk P (Aj. costante uguale a c. supponendo per semplicit` a che siano v. Xn Yn ` discreta e tende uniformemente a XY : e |XY − Xn Yn | ≤ |X − Xn ||Y | + |Xn ||Y − Yn | ≤ 1 (sup |X| + 1 + sup |Y |) . n n n n j k Aj.e.a. se indichiamo.

e Se B ` un qualunque insieme Boreliano di R.a.. .a. indipendenti e con la stessa distribuzione della v. X2 . 2003-2004 a .3 Variabili aleatorie continue La v. Infatti. b[ si abbia a b P (a ≤ X < b) = ` E equivalente chiedere che per ogni xǫR si abbia f (x)dx . Elementi di Calcolo delle Probabilit` a 55 Legge forte dei grandi numeri (Kolmogorov).. risulta e P (XǫB) = B f (x)dx . X. a x F (x) = P (X < x) = −∞ f (t)dt . tale che per ogni intervallo [a. −∞ F ` continua (assolutamente) e P (a ≤ X < b) = F (b) − F (a) . Questo dimostra la continuit` di F e permette di osservare che per ogni a valore x P (X = x) = 0 . o Universit` di Torino. v. se due v. Osserviamo che. P ([a. a. Valgono ovviamente le seguenti propriet` a +∞ f (x) ≥ 0 . b[ di R. Naturalmente. per l’assoluta continuit` del’integrale. X e Y hanno la stessa distribuzione F . Essendo f integrabile. b[) pu` essere diverso da 0 senza alcuna contraddizione.a. k risulta P ({ωǫΩ | k k+1 k k+1 ≤ X(ω) < }) = P ({ωǫΩ | ≤ Y (ω) < }) n n n n e basta allora riferirsi alla definizione dell’integrale di X e di Y . allora E(X) = E(Y ). Allora esiste µ ∈ R tale che P ( lim n→+∞ X1 + X2 + . f (x)dx = 1 .Negro. 3.A. In tal caso E(X) = µ.a...a. pur valendo l’additivit` numerabile. detta densit` di X. si dice continua se esiste una funzione reale di variabile reale f (x) integrabile (nel senso di Lebesgue). + Xn = µ) = 1 n se e solo se X ammette valor medio E(X) = Ω XdP . se la misura di B tende a 0 allora a P (XεB) tende a 0. Siano X1 . ma non essendo numerabile l’insieme dei a punti di un intervallo [a. per ogni n.

Variabili aleatoreie reali di tipo generale e v. j 1 − H(x)|f (x)dx ≤ . Perch` H sia Boreliana ` sufficiente che ` per ogni c H −1 (]−∞. sommando su k e usando la disuguaglianza triangolare | k n k+1 n k n k f (x)dx − R xf (x)dx| ≤ 1 n f (x)dx = R 1 . si ha k P (Ak ) = lim n n n k+1 n k n XdP = lim Ω n k k k n k+1 n k n f (x)dx . 3. Sia infatti j Bn = {ω| j j+1 j j+1 j ≤ H(X(ω)) < } = {ω|X(ω) ∈ In = H −1 ([ . allora H −1 (B) ` ancora un Boreliiano di R. k n dunque. n Passando al limite per n → 0 si ottiene il risultato. XdP = R xf (x)dx . cio` tale che se B ⊆ R ` un Boree e e e e liano di R. posto Ak = { n ≤ X < n k+1 n }. X mediante la relazione H(X)(ω) = H(X(ω)) ovvero H(X) = H ◦ X . [)} n n n n j P (Bn ) = e dunque j In f (x)dx . c[) sia un insieme di Borel.a. Definiamo la v. H(X) “funzione della v.a.4 Funzioni di variabili aleatorie Sia H(x) una funzione reale di variabile reale Boreliana. ma k | n k+1 n k n f (x)dx − 1 xf (x)dx| ≤ n k+1 n f (x)dx . E noto che le funzioni continue sono Boreliane.a.56 Capitolo 3. n n allora | j j j P (Bn ) − n j j In H(x)f (x)dx| ≤ j j In | Quaderni Didattici del Dipartimento di Matematica . risulta a E(X) = Ω k Infatti.continue Se la v. Se X ` continua ed f ` la sua densit`. X ammette la densit` f . il valor medio di H si pu` calcolare nel modo seguente e e a o +∞ +∞ E(H(X)) = −∞ H(x)f (x)dx purch` e −∞ |H(x)|f (x)dx < +∞ .a.

√ √ e. Se due v. In tal caso. La distribuzione di H ` G(y) = P (H(X) < y) . Infatti.a. se si dispone di g. Elementi di Calcolo delle Probabilit` a 57 ma la prima serie converge a Ω H(X)dP . dx = dy/(±2 y) : 0 G(c) = − c √ f (− y) √ dy + 2 y c 0 √ f ( y) √ dy = 2 y c 0 √ √ f ( y) + f (− y) dy . avendo X e Y la stessa distribuzione. c[)}) = P ({X −1 (B)}) = P ({Y −1 (B)}) = P ({Y −1 (h−1 (] − ∞. c[)}) = P ({h(Y ) < c}) = Fh(Y ) (c) . √ 2 y Dunque la densit` di X 2 ` a e g(y) = 0 √ √ f ( y)+f (− y) √ 2 y y≤0 y>0 . se B ` il Boreliano h−1 (] − ∞. La distribuzione G di H(X) pu` essere eventualmente continua ed ammettere una densit` o a g: G(y) = −∞ y g(t)dt . posto y = x2 . quindi x = ± y . P ({X ∈ B}) = P ({Y ∈ B}). si pu` calcolare E(H(X)) anche mediante la formula o E(H(X)) = R g(y)dy .a. per c > 0 si ha e a √ √ G(c) = P (X < c) = P (− c < X < + c) = 2 √ + c √ − c f (x)dx . qualsiasi c ∈ R. e Di conseguenza E(h(X)) = E(h(Y )). dy = 2xdx . per la σ−additivit` dell’integrale a ` uguale a R H(x)f (x)dx. mentre la seconda. e Osservazione. Se ad esempio H(x) = x2 ed f ` la densit` di X. h(X) e h(Y ) hanno la stessa distribuzione. a.a. X e Y hanno la stessa distribuzione F e h ` una funzione e Boreliana da R in R (cio` tale che per ogni Boreliano B si ha che h−1 (B) ` un Boreliano) allora e e le v. Dunque per n → +∞ si ha e E(H(X)) = Ω H(X)dP = R H(x)f (x)dx . Universit` di Torino.A.Negro. risulta e Fh(X) (c) = P ({h(X) < c}) = P ({X −1 (h−1 (] − ∞. 2003-2004 a . perch´. c[))}.

58 Capitolo 3. Infatti E((X + Y − E(X + Y ))2 ) = E((X − E(X))2 ) + 2E((X − E(X))(Y − E(Y ))) + E((Y − E(Y ))2 ) = = E((X − E(X))2 ) + E((Y − E(Y ))2 ) . e Allora σ(f (X)) e σ(g(Y )) sono famiglie indipendenti in quanto sottofamiglie rispettivamente di σ(X) e σ(Y ). con densit` f . E((λX − E(λX))2 ) = E(λ2 (X − E(X))2 ) . Y sono indipendenti V (X + Y ) = V (X) + V (Y ) . o * * * Indicando. X. Ω Se X ` continua. indicando con µ la media di X. come al solito.continue Se X e Y sono v.a. reali indipendenti e f e g sono funzioni Boreliane da R in R.5 Varianza Per variabili aleatorie reali X arbitrarie la varianza V (X) ` e V (X) = E((X − E(X))2 ) = (X − E(X))2 dP . Quaderni Didattici del Dipartimento di Matematica .a. & & & 3. Variabili aleatoreie reali di tipo generale e v. perch´ gli eventi f −1 (B) sono alcuni dei (in qulache caso tutti i) Boreliani. La varianza si pu` calcolare mediante la formula o V (X) = E(X 2 ) − E(X)2 . allora si pu` dimostrare che f (X) e g(Y ) sono indipendenti. e se le v. si ha e a V (X) = R (x − µ)2 f (x)dx . con B i Boreliani di R. si ha σ(f (X)) = {(f ◦ X)−1 (B)}B∈B = {X −1 (f −1 (B))}B∈B ⊆ {X −1 (B)}B∈B = σ(X) . Per la varianza valgono le propriet`: a V (λX) = λ2 V (X) . Infatti E((X − E(X))2 ) = E(X 2 − 2XE(X) + E(X)2 ) = E(X 2 ) − 2E(X)E(X) + E(X)2 .a.

cµ che si pu` stimare in modo pi` preciso disponendo di opportune approssimazioni di f . per la quale E(Y ) = σ 2 .Negro. perch` e P (|X − µ| ≥ cσ) = P (Y ≥ c2 σ 2 ) .a. ene e trambi nulli. V (Mn ) = σ2 .a. se X1 ... ` il prodotto dei valori medi. Ovviamente. Affinch´ la varianza della somma di due v. Y . 2003-2004 a . afferma che 1 P (|X − µ| ≥ cσ) ≤ 2 .. Xn sono a due a due indipendenti. n n k k def In particolare. se X e Y sono indipendenti. esse hanno covarianza nulla.a. n si ha 1 1 E(Mn ) = E(Xk ) . se tutte le v.. + Xn Mn = . e o applicando a Y la disuguaglianza di Markov. indicando la loro media u aritmentica con X1 + X2 + . X2 .a. Elementi di Calcolo delle Probabilit` a 59 perch` il valor medio centrale. o u La disuguaglianza di Chebychev per una v. per ogni c > 0 vale la disuguaglianza e di Markov 1 P (X ≥ cµ) ≤ c Infatti µ= X(ω)dP (ω) + X(ω)dP (ω) ≥ {ω|X(ω)<cµ} {ω|X(ω)≥cµ} ≥ cµ {ω|X(ω)≥cµ} dP (ω) = cµP (X ≥ cµ) . vista l’indipendenza di X.A.a. Universit` di Torino.6 Disuguaglianza di Chebyshev Se X ` una v. a. Xk hanno la stessa media µ e varianza σ 2 E(Mn ) = µ . X e Y sia uguale alla somma delle loro varianze ` e e sufficiente (e necessario) che X e Y abbiano covarianza nulla: Cov(X. reale ≥ 0 e dotata di media µ > 0 finita. c Essa si pu` dedurre immediatamente ponendo Y = (X − µ)2 . dotata media µ e di varianza σ 2 finite.. n 3. V (Mn ) = 2 V (Xk ) . +∞ Se X ammette la densit` f si ha naturalmente a P (X ≥ cµ) = f (x)dx . Y ) = E((X − E(X))(Y − E(Y ))) = 0 . Pi` in generale.

σ 2 ) (v. per tutti i valori di t per i quali l’integrale converge.60 Capitolo 3. introducendo Y = σ −1 (X −µ). che ` normale e standard. Variabili aleatoreie reali di tipo generale e v. sezione 10).6826 . Se ad esempio se X ∼ N (µ. e che tk |x|k /k! 0 ≤e |t0 x| .continue Se X ammette la densit` f si ha naturalmente a µ−cσ +∞ P (|X − µ| ≥ cσ) = f (x)dx + −∞ µ+cσ f (x)dx . 2π t2 t2 t2 3.a.9544 . definita da mX (t) = E(etX ) = Ω etX dP . si trova P (|X − µ| ≤ σ) = P (|Y | ≤ 1) = 1 − 2Φ(−1) = 1 − 2 P (|X − µ| ≤ 2σ) = P (|Y | ≤ 2) = 1 − 2Φ(−2) = 1 − 2 P (|X − µ| ≤ 3σ) = P (|Y | ≤ 3) = 1 − 2Φ(−3) = 1 − 2 −1 −∞ −2 −∞ −3 −∞ e− 2 √ dt ∼ 0.9974 . Se X ammette la densit` f . X si indica con mX la funzione generatrice dei momenti . 2π e− 2 √ dt ∼ 0. Si osservi che 0 −∞ e−t0 x f (x)dx + 0 et0 x f (x)dx = +∞ −∞ e|t0 x| f (x)dx .7 Funzione generatrice dei momenti Per una v. Supponiamo che esista t0 > 0 tale che l’integrale precedente converga per ±t0 . t0 ] ed X ammette momenti E(X k ) di qualsiasi ordine: +∞ −∞ |x|k f (x)dx ≤ k! ( tk 0 0 −∞ +∞ e−t0 x f (x)dx + 0 +∞ et0 x f (x)dx) . allora mX (t) ` e definita in [−t0 . 2π e− 2 √ dt ∼ 0.a. allora a +∞ mX (t) = −∞ etx f (x)dx . Inoltre si ha E(etX ) = +∞ k 0 t E(X k ) k! per il teorema sulla convergenza dominata: n | 0 (tx)k |≤ k! n 0 |tx|k ≤ e|tx| ≤ e|t0 x| . k! Quaderni Didattici del Dipartimento di Matematica .

a. e 3. infatti E(e(aX+b)t ) = E(e(at)X ebt ) . perch` l’ntegrale di f su R deve valere 1. X ha una distribuzione uniforme sull’intervallo [a. dove a e b sono costanti mY (t) = ebt mX (at) .a. e Si pu` dimostrare che due v. Se X1 e X2 sono v. 2003-2004 a . hanno la stessa distribuzione se hanno la stessa funzione o generatrice dei momenti. b] se ammette una densit` fX costante su tale intervallo e nulla fuori di esso: a fX (x) = Il valore costante deve essere 1 b−a 0 1 b−a x < a oppure x > b a≤x≤b. Esempio di applicazione. di Poisson di parametro (λ1 + λ2 ). se mX (t) ` definita in un intorno di 0. la densit` ` la funzione caratteristica dell’inae tervallo fX (x) = χ[0. Elementi di Calcolo delle Probabilit` a 61 Dunque.a.8 Distribuzione uniforme Si dice che la v. indipendenti con distribuzione di Poisson di parametri λ1 e λ2 .A. se si considera l’intervallo [0.1] (x) .a.a. 1].a. allora X1 + X2 ha funzione generatrice dei momenti eλ1 (e t −1) λ2 (et −1) e = e(λ1 +λ2 )(e t −1) e dunque X1 + X2 ` una v. e In particolare.Negro. dtk Si verificano immediatamente le seguenti regole di calcolo 1) Se Y = aX + b. Universit` di Torino. infatti E(et(X+Y ) ) = E(etX etY ) = E(etX )E(etY ) perch` etX e etY sono indipendenti come X e Y . essa ` analitica in t e si ha e e E(X k ) = dk mX (t)|t=0 . 2) Se X e Y sono indipendenti si ha mX+Y (t) = mX (t)mY (t) .

continue 0.5 0. b = 3. 2 3 4 12 2 3 La funzione generatrice dei momenti ` e E(etX ) = 0 1 etx dx = et − 1 = t +∞ 0 tk .a. a La distribuzione ` e Per ogni k il momento di ordine k ` e   0 x FX (x) =  1 1 x<0 0≤x≤1 x≥1 1 k+1 . la varianza e la deviazione standard sono E(X) = 1 1 1 1 1 .62 Capitolo 3.3 0.1: Densit` uniforme.2 0. E(X k ) = 0 xk dx = e quindi il valor medio.4 0. Quaderni Didattici del Dipartimento di Matematica . con a = 1. σX = √ .1 -1 0 1 2 x 3 4 5 Figura 3. V (X) = E(X 2 ) − E(X)2 = − = . k!(k + 1) I coefficienti della serie permettono di ritrovare immediatamente tutti i momenti di ordine k. Variabili aleatoreie reali di tipo generale e v.

R).2: Densit` di Cauchy. con R = 1. Il proiettile colpisce r in un punto di ascissa aleatoria X = R · tan(φ). Elementi di Calcolo delle Probabilit` a 63 3.2 0.A. nel senso che la direzione di lancio forma con il semiasse negativo delle ordinate un angolo aleatorio φ distribuito uniformemente nell’intervallo ] − π/2. +π/2[. Allora X ` funzione di φ e e P (a ≤ X < b) = P (arctan(a/R) ≤ φ < arctan(b/R)) = = 1 (arctan(b/R) − arctan(a/R)) = π b a π(R2 R dx .Negro.25 0. a Dunque X ha una distribuzione continua con densit` a g(x) = Universit` di Torino. Si lanci un proiettile da A verso r in una direzione “casuale. 2003-2004 a R . in coordinate cartesiane. π(R2 + x2 ) .1 0. a.15 0.3 0.9 Distribuzione di Cauchy Sia A un punto del piano a distanza R > 0 da una retta r: ad esempio.05 -3 -2 -1 0 1 x 2 3 Figura 3. + x2 ) 0. sia r l’asse delle ascisse ed A(0.a.

si ha 1 P (a ≤ Y < b) = √ 2π b a e− y2 2 dy . σ 2 . Dunque la densit` normale standard ` a e x2 1 φ(x) = √ e− 2 2π e la distribuzione normale standard si indica con 1 Φ(x) = √ 2π x −∞ e− 2 dt .a. dove σ > 0. si dice normale di parametri µ. La v. che non si pu` esplicitare in termini di trascendenti elementari. 3. σ 2 ) .a. o Per indicare che una v.a.a. X −µ ∼ N (0. A maggior ragione X non ammette momenti di ordine superiore. σ 2 ) oppure X ∼ N (µ.a. X ha una distribuzione normale di parametri µ. perch` l’integrale e +∞ −∞ R|x| dx π(R2 + x2 ) diverge a +∞. ausiliaria normale standard Y = Infatti 1 P (a ≤ Y < b) = P (µ + aσ ≤ X < µ + bσ) = √ σ 2π e quindi. 1) . t2 Quaderni Didattici del Dipartimento di Matematica .continue Si dice che X ha una distribuzione di Cauchy . posto y = x−µ σ .10 Distribuzione normale o di Gauss Una v. σ µ+bσ µ+aσ e− (x−µ)2 2σ2 dx dx = σdy. Spesso conviene prendere in considerazione la v. σ 2 si scrive XǫN (µ. X non ammette valor medio. σ 2π Pertanto la distribuzione ` espressa dall’integrale e F (x) = 1 √ σ 2π x −∞ e− (x−µ)2 2σ2 dt .64 Capitolo 3. Variabili aleatoreie reali di tipo generale e v. se ammette la densit` a f (x) = (x−µ)2 1 √ e− 2σ2 .

Nel caso generale. e a Nel caso della densit` normale standard a φ(x) = φ(−x) . φ(0) = (2π)− 2 ` il valore massimo. e φ′ (x) = −(2π)− 2 xφ(x) . (x − µ)2 1 = − 2 (x2 − 2µx − 2σ 2 tx + µ2 ) = 2 2σ 2σ 1 [(x − (µ + σ 2 t))2 − µ2 − 2µσ 2 t − σ 4 t2 + µ2 ] .Negro. E(X 2 ) = µ2 + σ 2 .a. Pertanto E(X) = µ . a. 2003-2004 a σ2 t2 2 1 1 1 +∞ −∞ etx e− (x−µ)2 2σ2 dx .A. la funzione generatrice dei momenti ` data dall’integrale e 1 m(t) = √ σ 2π Riscriviamo l’esponente tx − =− Allora m(t) = eµt+ ed infine m(t) = eµt+ Si ricava immediatamente m′ (t) = m(t)(µ + σ 2 t) m′′ (t) = m(t)(µ + σ 2 t)2 + m(t)σ 2 . φ′′ (x) = (2π)− 2 (x2 − 1)φ(x) e il grafico di φ ha due flessi simmetrici in ±1. V (X) = σ 2 ed i parametri µ e σ sono il valor medio e la deviazione standard di X. 2σ 2 1 √ σ 2π +∞ −∞ σ2 t2 2 e− (x−(µ+σ2 t))2 2σ2 dx . Elementi di Calcolo delle Probabilit` a 65 L’integrale improprio ` ovviamente convergente e tende a 0 per x → −∞. 0 Dunque Φ(+∞) = 1 e Φ ` effettivamente una distribuzione di probabilit`. Inoltre e 2πΦ(+∞)2 = +∞ −∞ e− x2 2 +∞ dx −∞ e− y2 2 dy = R2 e− (x2 +y2 ) 2 dxdy = (ricorrendo a coordinate polari) 2π +∞ = 0 dθ 0 e− ρ2 2 ρdρ = 2π[−e− ρ2 2 ]+∞ = 2π . Universit` di Torino.

3: Densit` normali.11 Distribuzione di Maxwell In Teoria cinetica dei gas si ricorre. k la costante di Boltzmann e T la temperatura assoluta. stato di equilibrio. v k = αk y k/2 . sotto opportune ipotesi (gas perfetto. ricorrendo alla sostituzione v = αy 1/2 . a 3. Variabili aleatoreie reali di tipo generale e v. m ` la e a e massa della molecola. V che segue la distribuzione di Maxwell: E(V k ) = 0 +∞ v k f (v)dv .5.a. temperatura costante) alla distribuzione di Maxwell. 0.3 s=1 0. dove v ` il modulo della velocit` v della generica molecola del gas. 2 e s = σ = 0. ` E facile calcolare i momenti di una v. con densit` a f (v) = √ 4/ πv 2 α−3 exp(−v 2 /α2 ) 0 v≥0 v<0 .5 0.4 0. 2. α > 0 e α2 = 2kT /m. per µ = −3.1 -4 -2 0 2 x 4 6 Figura 3. Quaderni Didattici del Dipartimento di Matematica . 1.2 s=2 0.5 s=0.66 Capitolo 3.continue 0. dv = αdy/2y 1/2 .a.

4: Densit` di Maxwell. 2003-2004 a .Negro. Elementi di Calcolo delle Probabilit` a 67 0. con a = α = 2. V (V 2 ) = α2 . Indichiamo con X(s.a. V (Ec ) = ( − )α = (kT )2 . π 2 4 L’energia cinetica ` definita da Ec = mV 2 /2. a. Allora e V (V ) = E(Ec ) = (3π − 8)α2 3 . SupUniversit` di Torino. si ottiene: 2α 3α2 15α4 E(1) = 1 . a Allora si trova 2αk k + 3 y (k+1/2) e−y dy = √ Γ( ). 2 2 4 4 4 2 3. t) il numero di eventi che si presentano nell’intervallo [s. ricordando che Γ(s + 1) = sΓ(s) e che Γ(1/2) = π. E(V 4 ) = .4 0. π 2 0 √ Dunque.1 0 2 4 x 6 8 10 Figura 3. 2π 2 2αk E(V k ) = √ π +∞ m 3 m2 15 9 4 3 E(V 2 ) = kT . E(V ) = √ .A.2 a=4 0. 4. t[.3 a=2 0.12 Distribuzione esponenziale e processi di Poisson Si consideri una situazione nella quale eventi di un determinato tipo si presentano ad istanti casuali. E(V 2 ) = .

a 3) La probabilit` che due o pi` eventi si verifichino in un intervallino di tempo ∆t ` a u e trascurabile rispetto a ∆t: P (X(0. dove λ ` un numero positivo. s) = j) = P (X(s. detta distribuzione esponenziale di parametro λ.a. t) ∼ X(0. e 2) La storia fino all’istante s (gli eventi che si sono presentati prima dell’istante s e le modalt` a con le quali si sono presentati) non influiscono sugli eventi dell’intervallo [s. Infatti si ha P (T ≥ t + s) = P (X(0. perch`. deve avere la forma indicata. t − s) . t[. e essendo T una v. t + s) = 0) = P (X(0. essendo ovviamente noncrescente. ∆t) > 1) = o(∆t) . allora deve essere 1 g( )n = p . Se indichiamo con T la v. n Quaderni Didattici del Dipartimento di Matematica .continue porremo che siano soddisfatte le condizioni seguenti: 1) La situazione ` stazionaria nel senso che il numero e le modalit` con le quali gli eventi si e a presentano dipendono soltanto dall’ampiezza dell’intervallo e non dall’istante iniziale: X(s. t) = k | X(0. Per semplicit` scriveremo Xt in luogo di X(0. Variabili aleatoreie reali di tipo generale e v. Ma g(t). “tempo di attesa perch´ si verifichi un primo evento. cio` le due v. t) = 0 ∧ X(t. non negativa ed essendo indipendenti eventi riguardanti intervalli di tempo disgiunti. t + s) = 0) = = P (Xt = 0)P (Xs = 0) = P (T ≥ t)P (T ≥ s) .68 Capitolo 3. Ad esempio P (X(s. Infatti. la funzione g(t) = P (T ≥ t) soddisfa all’equazione funzionale g(t + s) = g(t)g(s) . ` E facile verificare che la distribuzione di T ` e F (t) = P (T < t) = 1 − e−λt . abbiamo: e P (T ≥ t) = P (Xt = 0) .a.a. t). t) = k) . hanno la stessa distribuzione . posto e g(1) = P (T ≥ 1) = P (X1 = 0) = p .a.

n n k−1 k ≤t≤ n n g( Ma per k−1 k ) ≥ g(t) ≥ g( ) n n Passando al limite con k ed n tendenti ad infinito in modo che n→+∞ si ha lim k =t n si ottiene g(t) = pt . λ2 λ λ 1 σT = . non considerando i casi estremi. dunque g(t) = e−λt e finalmente F (t) = 1 − g(t) = 1 − e−λt . Elementi di Calcolo delle Probabilit` a 69 Dunque 1 1 k k g( ) = p n . di poco interesse. si pu` porre o p = e−λ . (λ − t)2 λ 2λ 2 | = 2 3 t=0 (λ − t) λ E(T 2 ) = m′′ (0) = e quindi V (T ) = 2 1 1 − 2 = 2 .Negro.a. λ−t Ovviamente m(0) = 1 e E(T ) = m′ (0) = Inoltre λ 1 |t=0 = . La funzione generatrice dei momenti ` e +∞ m(t) = 0 etx λe−λx dx = λ per t < λ . Finalmente 0 ≤ p ≤ 1 e. g( ) = p n . La densit` della distribuzione esponenziale ` a e f (x) = λe−λx 0 x≥0 x<0 t e quindi F (t) = 0 λe−λx dx . 2003-2004 a .A. λ Universit` di Torino. a.

Variabili aleatoreie reali di tipo generale e v. Xt ha una distribuzione di Poisson di parametro λt. k)p(dt. Infatti. posto p(t. dt Quaderni Didattici del Dipartimento di Matematica . a Vediamo ora che nelle ipotesi fatte la v.continue 2 1. p(dt.70 Capitolo 3. con l = λ = 1. che tuttavia si possono risolvere semplicemente in modo iterativo. k + 1)p(dt.5 l=2 1 0. 0) + p(t. e. k) = P (Xt = k).a.5 l=1 0 1 2 x 3 4 Figura 3. k + 1) = p(t. 1) = 1 − p(dt.5: Densit` esponenziale. 0) = P (Xt = 0) = P (T ≥ t) = e−λt e per t → 0 e−λt = 1 − λt + o(t) . k + 1)(1 − λdt) + p(t. k + 1) = −λp(t. 2. k)λdt + o(dt) . 1) + o(dt) = = p(t. per l’indipendenza degli eventi su intervalli disgiunti insieme alla trascurabilit` rispetto a dt a della probabilit` di pi` eventi in un intervallo di ampiezza dt. k + 1) + λp(t. si ha p(t. k) . 0) + o(dt) Dividendo per dt e passando al limite per dt → 0 si ottiene un sistema di infinite equazioni differenziali lineari del primo ordine. si ha a u p(t + dt. 0) = exp(−λt) : d p(t.a. conoscendo p(t.

a. k + 1) = 0 . k! Universit` di Torino.Negro. ` E facile verificare per induzione che la soluzione ` data dalle formule e p(t. a. Elementi di Calcolo delle Probabilit` a 71 p(0. k) = (λt)k −λt e .A. 2003-2004 a .

a[×[−∞. c[) 72 . d. d[= [−∞. che possono assumere un numero finito o una infinit` a numerabile di valori reali x ed y). La funzione fXY (x. y) ≥ 0 per ogni coppia (x.a. y) = 1 .Capitolo 4 Densit` congiunta e funzioni di a pi` variabili aleatorie reali u 4. Infatti [a. Per calcolare tale probabilit` ` sufficiente conoscere la distribuzione congiunta di X e Y : ae FXY (x. b[×[−∞. Per trattare eventi che coinvolgono entrambe le variabili ` e sufficiente conoscere le probabilit` a fXY (x. reali discrete (v.1 Densit` congiunta (caso discreto) a Siano X e Y v. x y 4. a[×[−∞. y) = P (X < x ∧ Y < y) . b. b[×[c.2 Densit` congiunta (caso continuo) a Siano X e Y v.a. c. Ovviamente a fXY (x. y) = P (X = x e Y = y) . d[−[−∞. y) si dice densit` congiunta di X e Y . d[∪[−∞. b[×[−∞. Per trattare eventi che coinvolgono entrambe le variabili ` sufficiente e conoscere le probabilit` a P (a ≤ X < b e c ≤ Y < d) per tutti i valori reali a.a. c[−([−∞. reali. y) e fXY (x.

d) + F (a. la probabilit` di E si ottiene nel modo seguente a P (E) = A fXY (x.o. Tale risultato si potrebbe verificare facilmente tenendo conto: i) della possibilit` di approssimare a A tanto bene quanto si vuole mediante unioni finite di rettangoli disgiunti del tipo [a. d[ . y) ` separatamente integrabile rispetto ad x e y (per q.a. fY (y) = −∞ fXY (x. y)dxdy . y)dy . se A ` un insieme Boreliano di R2 ed E ` l’evento e e E = {ωǫΩ | (X(ω). allora X e Y sono indipendenti. iii) dell’additivit` e dell’assoluta continuit` dell’integrale. a c fXY (x. Diremo che X e Y ammettono una densit` congiunta se esiste una funzione integrabile a fXY (x. ii) del fatto che il risultato ` vero per gli eventi corrispondenti a tali rettangoli.Negro. Universit` di Torino. a. y)dxdy = 1 . a a a Si osservi che E ` un evento perch` X ed Y sono v. Y (ω))ǫA} . c) . fornite dalle +∞ +∞ fX (x) = −∞ fXY (x. d[. y) ≥ 0 . 2003-2004 a . y) tale che b d P (a ≤ X < b e c ≤ Y < d) = Ovviamente fXY (x. Viceversa.a. se vale la formula precedente. d) − F (b. a b d P (a ≤ X < b e c ≤ Y < d) = P (a ≤ X < b)P (c ≤ Y < d) = fX (x)dx a c fY (y)dy e dunque fX fY ` integrabile ed esiste la densit` congiunta uguale al prodotto delle densit`: e a a fXY (x. +∞ −∞ +∞ fXY (x. e i Boreliani di R2 sono la σ-algebra e e generata ad esempio dai rettangoli [a. −∞ La densit` congiunta fXY (x. x) e X ed Y ammettono le densit` fX (x) e fY (y). c) − F (a. fY (y).o. y)dxdy . Elementi di Calcolo delle Probabilit` a 73 e quindi P (a ≤ X < b e c ≤ Y < d) = F (b. y a e e rispettivamente per q.b[×[c. Se X ed Y sono indipendenti e ammettono ciascuna densit` fX (x). In generale. b[×[c. vista la definizione e stessa di densit` congiunta.A. y) = fX (x)fY (y) . dette densit` a a marginali. y)dx .

y)dxdy = A∩Q dxdy . S = X + Y funzione di X ed Y .a. Dei calcoli elementari forniscono   02  s  2 FS (s) = Dunque S ` una v. Siano X ed Y v. mentre fXY (x. y) = fX (x)fY (y) = χI (x)χI (y) = χQ (x.a. indipendenti e uniformi in I = [0.74 Capitolo 4. Si trova P (X + Y < s) = A={(x. mentre per 0 ≤ t < 1 si ha e t 1 1 P (T < t) = P (XY < t) = xy<t 1 χQ dxdy = 0 dx 0 dy + t dx 0 t x dy = =t+ t t 1 dx = t + t[ln(x)]t = t(1 − ln(t)) . . Al variare di s si ha la distribuzione FS della v. y<t (x. x Quaderni Didattici del Dipartimento di Matematica . Si voglia calcolare la probabilit` che la somma delle due variabili sia inferiore ad un valore a prefissato s. 1[. e In modo analogo per esempio P (X + Y ≤ s e Y < t) =  1−   1 (2−s)2 2 s≤0 0≤s<1 1≤s<2 2≤s . x + y ≤ s dxdy . y) ∈ Q Ancora nell’ambito di questo esempio consideriamo il prodotto T = XY .y)|x+y<s} χQ (x. Pertanto fX e fY sono entrambe la funzione caratteristica χI di tale intervallo. nel senso usuale che per ogni ω S(ω) = (X + Y )(ω) = X(ω) + Y (ω) . y) . e dove Q = I × I ` il quadrato unitario. che ` derivabile a tratti. La sua funzione di distribuzione FT (t) ` nulla per t < 0 e uguale a 1 per t ≥ 1. continua con densit` fS lineare a tratti e a  s≤0  0   s 0≤s<1 fS (s) =  (2 − s) 1 ≤ s < 2   0 2≤s derivata della fuzione FS . Densit` congiunta e funzioni di pi` variabili aleatorie reali a u Esempio.a.

+ Xn sono v.a. sono v. di Cauchy. Brevemente scriviamo Y = H(X). le a loro somme Sn = X1 + X2 + . X2 ) .a. di Cauchy. La distribuzione congiunta di Y1 . con H1 . Elementi di Calcolo delle Probabilit` a 75 Si osservi che mentre FT ` continua fT non ` limitata (ma integrabile).a. Se X e Y sono due variabili di Cauchy indipendenti con densit` a gX (x) = R S e gY (y) = . z = x + y = RS π2 t +∞ RS dxdy = π 2 (R2 + x2 )(S 2 + y 2 ) x+y<t dz −∞ −∞ (R2 + x2 )(S 2 dx .. continua di densit` e a  t≤0  0 −ln(t) 0 < t < 1 fT (s) =  0 1≤t ... X2 ) due loro funzioni. fornendo t R+S P (Z < t) = dz 2 2 −∞ π((R + S) + z ) e la densit` di Z ` a e gZ (z) = R+S .A. A . 2003-2004 a f (x1 . π(R2 + x2 ) π(S 2 + y 2 ) Dunque T ` una v. H2 regolari. di Cauchy.a.a. e e Proponiamo ancora un esempio riguardante v. Infatti e P (Z < t) = con la sostituzione x = x... di Cauchy con densit` n(π(n2 + x2 ))−1 e in questo caso il teorema centrale del limite a che studieremo nel Capitolo successivo non vale. + (z − x)2 ) L’integrale interno si pu` facilmente calcolare per ogni z fissato. siano X1 . x2 ) e siano a Y1 = H1 (X1 .. X2 . X2 v. π((R + S)2 + z 2 ) Se X1 . Cambiamento di variabili. Y2 si ottiene mediante l’integrale doppio P (Y1 < c1 ∧ Y2 < c2 ) = Universit` di Torino.a. . ad esempio con il metodo dei o residui. x2 )dx1 dx2 .Xn .Negro. . anche la loro somma Z = X + Y ` una v. continue di densit` congiunta f (x1 . Y2 = H2 (X1 .a. a. indipendenti e di ugual densit` (π(1 + x2 ))−1 .

Y ) = E((X − E(X))(Y − E(Y ))) = = E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y ) . si pu` effettuare il cambiamento di variabili x = K(y) e dunque o P (Y1 < c1 ∧ Y2 < c2 ) = f (K(y))| det K ′ (y)|dy . posto Y = X 2 +∞ E(X) = −∞ xf (x)dx = 0 . Osservazione. Quaderni Didattici del Dipartimento di Matematica . la funzione H ` invertibile da B in A con inversa e K di classe C 1 .76 Capitolo 4. Nel e e sottospazio L2 delle v. Y ) = E(XY ) − E(X)E(Y ) . e Tuttavia l’annullarsi della covarianza non implica in generale che le due variabili siano indipendenti. x2 ) < c2 )} . Inoltre V (X + Y ) = V (X) + V (Y ) + 2Cov(X. c2 .a. Y1 . 0 Se le due variabili sono indipenenti. a 4.a. X). Y2 ammete tono la densit` congiunta f (K(y))| det K ′ (y)| . x2 ) < c1 ∧ H2 (x1 . Y ) = E(X 3 ) − E(X)E(X 2 ) = x3 f (x)dx = 0 . +∞ 0 E(Y ) = E(X 2 ) = 2 x2 f (x)dx > 0 . Ovviamente se X = Y si ha V (X) = Cov(X. Se. poich` E(XY ) = E(X)E(Y ) . In L2 la covarianza ` una forma bilineare simmetrica positiva e e la varianza ` la seminorma (il suo annullarsi dice che la v. a media nulla Cov definisce una struttura di spazio di Hilbert. +∞ −∞ Cov(X. Sia L2 = L2 (Ω.a.3 Covarianza e correlazione Siano X ed Y due v. R) lo spazio delle v. la covarianza si annulla.a. che ammettono momento del secondo ordine e quindi varianza. A. Si definisce la covarianza delle due variabili nel modo seguente Cov(X. Quindi si pu` calcolare la covarianza mediante la formula o Cov(X. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u dove A = {(x1 . y2 ) | y1 < c1 ∧ y2 < c2 } . P . Y ) . Ad esempio se X ha una densit` pari: f (x) = f (−x) e ammette momenti fino al a terzo ordine. x2 ) | H1 (x1 . B Se la sostituzione ` possibile per tutti i valori di c1 . si vede che le nuove v. ` costante) ad essa associata.a. posto B = {(y1 .

Elementi di Calcolo delle Probabilit` a 77 ma X ed Y ovviamente non sono indipendenti e Y ` funzione di X. L’evento A ` indipendente da s´ stesso se e solo se e e P (A) = P (A ∩ A) = P (A)2 . b[ risulta P (X ∈ [a. Se le v.a X pu` essere indipendente da s´ stessa solo se per ogni intervallo [a.a. 2003-2004 a . y)dxdy = +∞ −∞ (x − µ)2 fXY (x. ma solo medie e varianze finite.a. La disuguaglianza precedente ` vera per v. Y )|2 ≤ V (X)V (Y ) . arbitrarie. y)dxdy|2 ≤ (y − ν)2 fXY (x. X e Y ammettono una densit` comgiunta fXY (x. Dunque |Cov(X. a Infatti si trova per ogni λ reale 0 ≤ V (Y − λX) = E((Y − λX − (ν − λµ))2 ) = E((λ(X − µ) − (Y − ν))2 ) = = λ2 V (X) − 2λCov(X. b[) = 0 o = 1 . Infatti ad esempio in e generale (cio` tranne che per v. a |Cov(X. Y ) + V (Y ) . dunque se e solo se P (A) = 1 oppure P (A) = 0 . Considerando il discriminante del polinomio di secondo grado in λ si ottiene la disuguaglianza in esame |Cov(X. non essendo affatto necessaria l’ee sistenza di una densit` congiunta. o quale normalizzazione della covarianza ρ = ρXY = Cov(X. o e Una v. Osservazione. per la disuguaglianza di a Schwarz. a. Y )|2 = | ≤ (x − µ)(y − ν)fXY (x. y)dxdy +∞ = −∞ (x − µ)2 fX (x)dx (y − ν)2 fY (y)dy . si pu` introdurre il coefficiente di correlazione (di Pearson). Y ) .Negro.a. y). posto per brevit` µ = E(X) e ν = E(Y ).A. speciali o particolari valori di a) si ha e P ({0 ≤ X 2 < a2 } ∩ {−a ≤ X < a}) = P ({−a ≤ X < a}) = = P (0 ≤ X 2 < a2 )P (−a ≤ X < a) = P (−a ≤ X < a)2 . Y )| ≤ V (X)V (Y ) Se le varianze non si annullano. V (X)V (Y ) Universit` di Torino.a.

a Si ha |ρ| = 1 se e solo se X ed Y sono “linearmente dipendenti Y = aX + c . Il punto di minimo γ si trova risolvendo l’equazione 2 2λσX − 2ρσX σY = 0 . dove necessariamente deve essere λ=a=± ` una v. con a e c costanti opportune (c in effetti ` una v. Si pu` interpretare |ρ| come indice della “propensione in media di scarti significativi simulo tanei delle due v. σX Quaderni Didattici del Dipartimento di Matematica . La decomposizione ottimale si ha per il valore γ di λ che minimizza la varianza della v. V (Z(γ)) = (1 − ρ2 )σY .78 Capitolo 4. Pertanto γ=ρ σY 2 .a.a. costante con probabilit` 1). Z: 2 2 V (Z(γ)) = minλ V (Z(λ)) = minλ (λ2 σX − 2λρσX σY + σY ) . perch´ in tal e a e caso 2 2 V (Y − λX) == λ2 σX − 2λρσX σY + σY ≥ 0 che si pu` annullare se e solo se |ρ| = 1. cercando di scomporre Y in o una parte proporzionale a X e in una parte quanto pi` possibibile prossima ad una costante: u Y = λX + Z(λ) .a. σY e Y − λX = c σX Coefficiente di regressione γ di Y rispetto a X. e Naturalmente si ha in modo simmetrico X = a ∗ Y + c∗ . essendo tali scarti di segno uguale o contrario secondo la positivit` di ρ.a. dalla loro media. Si pu` generalizzare il tema precedente della dipendenza “lineare. In tal caso o V (Y − λX) = (λσX ∓ σY )2 . costante. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u per il quale si ha −1 ≤ ρ ≤ 1 .

Negro. X e Y con densit` congiunta a f (x.a. µY ). Z(γ)) = 0 . ρ sono rispettivamente la media di X. la deviazione standard di X. nel qual caso Z ` una v. posto v = (x. y). Se introduciamo la matrice di covarianza Γ= σX 2 ρσX σY ρσX σY σY 2 = V (X) Cov(X.4 La distribuzione Gaussiana bivariata Consideriamo due v.A. a. Z) = E((X − E(X))(Z − E(Z))) = = E((X − E(X))(Y − γX − (E(Y ) − γE(X)))) = = E((X − E(X))(Y − E(Y ))) − γE((X − E(X))2 ) = ρσX σY − ρ Quindi 2 2 2 V (Y ) = γ 2 V (X) + V (Z) = γ 2 σX + (1 − ρ2 )σY = σY . µY . Infatti. la deviazione standard di Y . si pu` scrivere la densit` nella forma o a f (v) = −1 1 1 1 √ e− 2 (v−µ. dove γX0 ` la proiezione ortogonale (nel senso della forma bilineare Cov ) di Y0 sul sottospazio e di dimensione 1 generato da X0 e oviamente Z0 ` a media nulla e ortogonale a tale sottospazio. Elementi di Calcolo delle Probabilit` a 79 Il valore minimo V (Z(γ)) si annulla se e solo se ρ = ±1. e 4.a. 2π det Γ Si potrebbe facilmente dimostrare che µX . la media di Y . essendo E(Z) = E(Y ) − γE(X): Cov(X. Si trova Y0 = γX0 + Z0 . e Osserviamo ancora che risulta Cov(X. Y ) V (Y ) ed il vettore delle medie µ = (µX . 2003-2004 a . y) = 1 2π 1 (1 − ρ2 )σX σY exp(− 1 (x − µX )2 (x − µX )(y − µY ) (y − µY )2 [ − 2ρ + ]) . σX X come deve essere. σY . σX .Γ (v−µ)) . σY 2 σ =0. Y ) Cov(X.a. ` Osservazione. E equivalente studiare il problema della regressione nello spazio L2 sottraendo 0 preventivamente a X e Y le loro medie. costante. 2) 2 2(1 − ρ σX σX σY σY 2 dove si suppone che ρ2 < 1 e σX σY = 0. il coefficiente di Universit` di Torino.

1: Densit` Gaussiana bivariata. u indipendenti normali standard: Zj ∼ N (0. σY = 2..... µp e poniamo Γ = AA∗ . Sia A una matrice p × m e µ un vettore di componenti µ1 . Densit` congiunta e funzioni di pi` variabili aleatorie reali a u 0. 2 2 2σX 2σY 2πσX 2πσY ovvero il prodotto delle densit` di X e Y .. 1).80 Capitolo 4. µ2 . ρ = 0. Infatti la densit` congiunta ` in questo caso a e 1 (x − µX )2 1 (x − µY )2 f (x. a valori in Rm le cui componenti Z1 ...5.a. arbitrarie indipena denza implica correlazione nulla ma in caso di correlazione nulla non si ha automaticamente indipendenza..) Pi` in generale sia Z una v. a correlazione di X ed Y . (Si ricordi che in generale per v.a. Zm siano v. X di componenti X1 .04 -1 0. allora le variabili X e Y sono indipendenti. .a. X2 . ovvero se Cov(X. Z2 . La v.a. . Y ) = 0..08 0. y) = √ exp (− )· √ exp (− ). . con σX = 1. Osserviamo che in questo caso se il coefficiente di correlazione ρ = 0.02 0x 0 -6 -4 -2 0 y 2 2 4 6 3 1 -3 Figura 4. Xp data da X = AZ + µ Quaderni Didattici del Dipartimento di Matematica .06 -2 0.

σ 2 ) .a.. La distribuzione di X non dipende direttamente da A ma solo da Γ.5 Variabili normali indipendenti Se X1 .. a. Infatti essendo la funzione generatrice dei momenti di Xk mXk (t) = eµk t+σk per l’indipendenza delle v.a. x2 . σk ) e µ = µk . . per l’indipendenza si ha E(X) = k E(Xk ) . risulta X= k Xk ∼ N (µ. Γ). Universit` di Torino. mX (t) = k 2 t2 2 . indicando con x il vettore di componenti x1 . (2π)n/2 det Γ 4. Si pu` vedere che µ ` la media di X.a. X2 .. xp . che ` la funzione generatrice di una v.Γ (x−µ)) .. mXk (t) = eµt+σ 2 t2 2 . . la densit` congiunta delle Xj ` a e f (x) = −1 1 1 1 √ e− 2 (x−µ. Xn sono v. anche se le Xk non fossero normali.. cio` le variabili Xj hanno media µj .A. normali indipendenti anche la loro somma segue una distribuzione normale. σ 2 = k k 2 σk . e Γ ` la matrice di o e e e covarianza delle Xj : Γij = E((Xi − µi )(Xj − µj )) .a. Nel caso in cui Γ sia invertibile.. normale di media µ e varianza σ 2 . e Osserviamo che. Elementi di Calcolo delle Probabilit` a 81 ha una distribuzione (distribuzione congiunta delle Xj ) detta Gaussiana multivariata Np (µ. Precisamente se 2 Xk ∼ N (µk . dunque se Y = BZ + µ con BB ∗ = Γ allora X e Y sono equidistribuite. 2003-2004 a . V (X) = k V (Xk ) .Negro.

. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u In molti casi praticamente interessanti le v. Si supponga infatti di e voler stimare la media incognita µ di una v. Posto Y = Y1 + Y2 . y1 +y2 <s 2 2 Quaderni Didattici del Dipartimento di Matematica . ) . si osserva il valore della v. media X e si individua un corrispondente intervallo di confidenza [L1 .a.a. n n X −µ √ ∼ N (0. Prefissato e un livello α di rischio o equivalentemente un livello di confidenza 1 − α. media X ha come media la stessa media µ delle singole Xk . ma varianza tanto minore quante pi` sono le Xk : σ 2 diviso n. Si effettuano n prove indipendenti a ciascuna delle quali ` associata una e v. normali indipendenti sia ancora normale pu` essere controllato o direttamente. Y1 a ed Y2 normali standard ed indipendenti. √ √ P (X − zα/2 σ/ n ≤ µ ≤ X + zα/2 σ/ n) = 1 − α . σ/ n Dumque la v. tale che P (L1 ≤ µ ≤ L2 ) = 1 − α .a. L2 ]. nσ 2 ) .In tal caso si ha X= Xk ∼ N (nµ. si ha 1 P (Y < s) = ( √ )2 2π e−(y1 +y2 )/2 dy1 dy2 .82 Capitolo 4. 1) . k X= X = n k Xk σ2 ∼ N (µ. Xk copia identica di X (cio` Xk e X hanno la stessa distribuzione: Xk ∼ X. Se Z ∼ N (0. Xk hanno la stessa media µ e varianza σ 2 .a. X + zα/2 σ/ n] Dunque l’intervallo aleatorio ` un intervallo di confidenza per la stima di µ con un livello di confidenza pari a 1 − α. dove gli estremi L1 e L2 sono v.a.a. 1) e per zα/2 si ha 1 Φ(−zα/2 ) = √ 2π allora risulta P (−zα/2 ≤ ovvero X −µ √ ≤ zα/2 ) = 1 − α .a. e Il fatto che la somma di v. senza ricorrere alle funzioni generatrici. √ √ [X − zα/2 σ/ n. normale X.a. σ/ n +∞ zα/2 e−x 2 /2 dx = α/2 . ipotizzando invece di conoscerne la deviazione standard σ. Per semplicit` consideriamo due v. u Questa osservazione ` fondamentale per le applicazioni statistiche.

√ Γ(1/2) = π .6 Distribuzioni gamma Si dice che una v. e 4. con dy2 = dz/ 2 1 = √ √ 2π 2 s −∞ dte−t 2 /4 1 √ 2π +∞ −∞ 1 2 dze−z 2 /2 = 1 =√ √ 2π 2 s −∞ dte− 2 t /2 . Dunque Y ` normale con media 0 e varianza 2. Elementi di Calcolo delle Probabilit` a 83 Effettuando il cambiamento di variabili y1 = t − y2 .a. Alcune distribuzioni classiche. a. a Γ(1) = 1 . Γ(s + 1) = sΓ(s) e dunque Γ(n + 1) = n! .Negro. Ricordiamo alcune propriet` notevoli della funzione speciale Γ. Infatti 0 +∞ +∞ e−z dz = [−e−z ]+∞ = 1 . 0 1 s +∞ 0 Γ(s) = 0 z s−1 e−z dz = [z s e−z /s]+∞ + 0 z s e−z dz = 1 Γ(s + 1) .A. y2 = y2 con Jacobiano uguale a 1 si trova 1 P (Y < s) = ( √ )2 2π s +∞ dt −∞ −∞ dy2 e−[(t−y2 ) 2 2 +y2 ]/2 = s +∞ √ t 2 1 1 −( 2y2 − √ )2 /2 2 = =√ dte−t /4 √ dy2 e 2π −∞ 2π −∞ √ √ t mediante la sostituzione 2y2 − √2 = z. 2003-2004 a . 1/(Γ(α)β α )xα−1 e−x/β 0 < x dove Γ(s) ` la funzione speciale definita da e +∞ Γ(s) = 0 z s−1 e−z dz . legate alla distribuzione normale. s Universit` di Torino. sono casi particolari della distribuzione gamma . X segue una distribuzione gamma con parametri α e β se ammette la densit` a 0 x≤0 f (x) = .a. s>0.

quindi x = βz/(1 − βt) e dx = βdz/(1 − βt). con t < 1/β : mX (t) = Derivando si trova m′ (t) = −α(1 − βt)−α−1 (−β) = αβ(1 − βt)−α−1 . Quaderni Didattici del Dipartimento di Matematica .dyn .. 4. dunque a e a 2 2 2 la densit` comgiunta ` e−(y1 +y2 +.. normali standard (∼ N (0. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u sostituendo z = t2 /2 e quindi dz = tdt nell’espressione di Γ(s + 1) si trova +∞ Γ(s + 1) = 0 2−s t2s+1 e−t 2 /2 dt . + Yn .+yn)/2 e quindi a e P (χ2 < u) = (2π)−n/2 .+yn )/2 dy1 dy2 . Con la sostituzione z = (1/β − t)x . Calcoliamo la distribuzione (e la densit`) della v.. X Per t = 0 troviamo E(X) = αβ .. 1)) e indipendenti tra loro. a 2 χ2 (n) = Y12 + Y22 + ..7 Distribuzioni χ2 Siano Y1 .. 2 2 2 y1 +y2 +..84 Capitolo 4. 1 Γ(α)(1 − βt)α +∞ 0 z α−1 e−z dz = (1 − βt)−α . . V (X) = αβ 2 . 2 2 2 Ricorrendo a coordinate polari ρ.. Per l’indipendenza. Yn v.a. Y2 .. Funzione generatrice per la distribuzione gamma .. X m′′ (t) = α(α + 1)β 2 (1 − βt)−α−2 .. S in Rn P (χ < u) = (2π) 2 −n/2 S n−1 √ u dS 0 e−ρ 2 /2 n−1 ρ dρ . la densit` congiunta delle Yk ` il prodotto delle loro densit` e−yk /2 .... E(X 2 ) = α(α + 1)β 2 .a.+yn <u 2 e−(y1 +y2 +.. +∞ mX (t) = 0 etx 1 1 xα−1 e−x/β dx = α Γ(α)β Γ(α)β α +∞ 0 xα−1 e−(1/β−t)x dx . dunque per s = −1/2 Γ(1/2) = 21/2 0 +∞ e−t 2 /2 dt = √ √ √ 2 2π/2 = π .

Prefissato un livello α di rischio o equivalentemente un livello di confidenza 1 − α. Elementi di Calcolo delle Probabilit` a 85 dove S n−1 ` l’ipersuperficie sferica unitaria in Rn di misura e dS = S n−1 2π n/2 .. a. Γ(n/2) Per trovare la densit` si pu´ procedere nel modo seguente.. χ2 = = σ2 k k ha una distribuzione χ con n gradi di libert`. 2003-2004 a .A. Xk copia identica di X. cio` e 0 χ2 1−α/2 fn (u)du = 1 − α/2 . Si osserva quindi il valore della v. se fn ` la densit` di χ2 (n) .a. 1)). si individua un corrispondente intervallo di confidenza [S1 . Dunque χ2 (n) segue una distribuzione gamma con parametri α = n/2 e β = 2.a. Q2 /σ 2 ha una distribuzione χ2 (n). χ2 con n gradi di libert` . a Si supponga di voler stimare la varianza incognita σ 2 di una v.a. dρ = t−1/2 dt/2. Universit` di Torino..a.Negro. .. ipotizzando di conoscerne la media µ. Q2 = k (Xk − µ)2 .. σ 2 )) e indipendenti tra loro e Y1 . e a Se X1 . Xn sono v. Y2 .a. indipendenti tra loro) Xk − µ Yk = . Si dice che χ2 (n) ` un v. Si effettua la sostituzione ρ2 = t e a o quindi ρ = t1/2 . cio` e χ2 α/2 fn (u)du = α/2 e χ2 1−α/2 tale che χ2 1−α/2 +∞ fn (u)du = α/2. S2 ] tale che P (S1 ≤ σ 2 ≤ S2 ) = 1 − α . σ allora (Xk − µ)2 Yk2 . . Si effettuano n prove indipendenti a ciascuna delle quali ` associata una e v. normali standard (∼ N (0.a. trovato χ2 tale che e a α/2 χ2 α/2 0 fn (u)du = 1 − α/2. Yn sono le corrispondenti v. X2 . +∞ 2 Per esempio.a. normale X.. P (χ2 < u) = (2π)−n/2 = 2π n/2 Γ(n/2) u 0 u 0 e−t/2 t(n−1)/2−1/2 dt/2 = 1 Γ(n/2)2n/2 e−t/2 tn/2−1 dt . normali con la stessa distribuzione (Xk ∼ N (µ. Ad esempio E(χ2 (n)) = n . V (χ2 (n)) = 2n .

Quaderni Didattici del Dipartimento di Matematica .a.a.2 n=1 0. 2 χα/2 χ1−α/2 ` un intervallo di confidenza per la stima di σ 2 con livello di confidenza 1 − α.86 Capitolo 4.05 0 2 4 6 8 x 10 12 14 Figura 4. σ 2 ). 5. a risulta 2 2 2 P (χ2 1−α/2 ≤ Q /σ ≤ χα/2 ) = 1 − α . 2 ] 2 χα/2 χ1−α/2 Q2 Q2 ≤ σ2 ≤ 2 )=1−α . e 4.2: Densit` χ2 (n). Densit` congiunta e funzioni di pi` variabili aleatorie reali a u 0. per n = 1. o misure.15 n=5 0.1 n=9 0. Se Xk sono le v. X. indipendenti ` anche possibile stimare sia la media che la varianza e incognite di una v. Quindi P( L’intervallo aleatorio [ Q2 Q2 . 9.8 Stima simultanea di media e varianza di una variabile normale Con prove. ipotizzando come prima che X ∼ N (µ.

Elementi di Calcolo delle Probabilit` a 87 associate alle n prove. e a Per dimostrarlo conviene introdurre in primo luogo le variabili Yk normali standard associate alle Xk : Xk − µ 1 X −µ Yk = . Infatti la v. cio` v. ciascuna copia identica di X. n−1 n−1 = S 2 permette di ottenere intervalli di confidenza per σ 2 .a. n k (Xk − µ − (X − µ))2 = (Xk − µ)(X − µ)) + E((X − µ)2 )) = k E((Xk − µ)2 ) − 2E( k k 1 1 (nV (X) − 2E(n(X − µ)(X − µ)) + n V (X)) = n−1 n 1 1 = (nV (X) − 2V (X) + V (X)) = (n − 1)V (X) = V (X) = σ 2 . Tali stimatori sono corretti.a. ` usuale considerare gli stimatori e X= 1 n Xk e k S2 = 1 n−1 k (Xk − X)2 .a. a. 2003-2004 a .Negro. k come si controlla svolgendo i calcoli seguenti C= k (Xk − X)2 = σ2 k ((Xk − µ) + (µ − X))2 = σ2 (Xk − µ) + σ (X − µ)2 = σ2 = k (X − µ) (Xk − µ)2 −2 σ2 σ k k Universit` di Torino. Y = Yk = . σ2 cio` segue una distribuzione χ2 con n − 1 gradi di libert`.A. C= (n − 1)S 2 ∼ χ2 (n − 1) . con media il parametro da stimare: e E(X) = µ . V (X) = E(S 2 ) = = 1 ( n−1 1 E( n−1 1 V (X) . σ n σ k Allora C= (n − 1)S 2 = σ2 k Yk2 − nY = 2 k Yk2 − 1 ( n Yk )2 .

k 1 2 yk − n ( k k 2 yk )/2 e−( yk )2 <u k 2 yk )/2 dy1 dy2 .. Conviene utilizzara una opportuna trasformazione lineare ortogonale delle variabili. con un procedimento perfettamente simile.. yn ) = (2π)−n/2 e−( e per trovare la distribuzione di C si deve allora calcolare P (C < u) = (2π)−n/2 . σ2 σ2 σ2 La densit` congiunta delle Yk ` a e f (y1 . z2 = .. fissato un livello di confidenza 1 − α.. a In generale.88 Capitolo 4. e a χ2 (n α/2 Come nel paragrafo precedente. si vedrebbe che densit` fn−1 (t) nulla per t ≤ 0 e a fn−1 (t) = 1 n−1 Γ( n−1 )2 2 2 (n−1)S 2 σ2 ammette la e−t/2 t(n−1)/2−1 .. che verr` a effettuata per semplicit` nel caso n = 2. 0 Dunque in questo caso C ha una distribuzione χ2 con 2 − 1 gradi di libert`. . si trovano χ2 = α/2 − 1) tale che +∞ χ2 (n−1) α/2 fn−1 (u)du = α/2 Quaderni Didattici del Dipartimento di Matematica . y2 . 2 2 da cui segue 2 2 2 2 z1 + z2 = y1 + y2 e 2 2 y1 + y2 − (y1 + y2 )2 2 2 2 2 = z1 + z2 − z1 = z2 . Densit` congiunta e funzioni di pi` variabili aleatorie reali a u = k (Xk − µ)2 (X − µ)2 (X − µ)2 − 2n +n . cio` segue come si era detto una distribuzione χ2 con n − 1 gradi di libert`.dyn .. a Poniamo y1 + y2 −y1 + y2 √ z1 = √ .. 2 +∞ −∞ Allora P (C < u) = (2π)−1 e−z1 /2 dz1 √ + u 2 2 2 z2 <u e−z2 /2 dz2 = 2 = (2π) −1/2 √ − u u e−z2 /2 dz2 = 1 = √ 1/2 π2 t1/2−1 e−t/2 dt .

Tn−1 = e calcoliamone la distribuzione. 0 Allora risulta P (χ2 1−α/2 ≤ Quindi P( (n − 1)S 2 ≤ χ2 ) = 1 − α .9 Distribuzioni t di Student Al fine di determinare intervalli di confidenza per la media µ della v.a.a. e si ponga a Tq = Z χ2 /q q .a.Negro.a. X consideriamo le v.a. 2003-2004 a . per esempio nel caso n = 2. In generale siano Z e χ2 due v. indipendenti √ X −µ √ e Y = nY = σ/ n χ2 = n−1 Fomiamo quindi la v. essendo /Z1 /sqrt2. q (πq)1/2 Γ(q/2) Universit` di Torino. Infatti.a. α/2 σ2 (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ )=1−α . riprendendo i calcoli precedenti. a. 4. Y χ2 n−1 n−1 (n − 1)S 2 . Elementi di Calcolo delle Probabilit` a 89 2 e χ1−α/2 = χ2 1−α/2 (n − 1) tale che χ2 1−α/2 (n−1) fn−1 (u)du = α/2 . indipendenti. 2 χα/2 χ2 1−α/2 Osserviamo che le v.A. si ha √ b 2 P (a ≤ Y < b e χ2 ≤ u)) = (2π)−1/2 √ a 2 e−z1 /2 dz1 2 2 z2 <u e−z2 /2 dz2 = 2 P (a ≤ Y < b)P (χ2 ≤ u) . la prima normale standard e la seconda con q una distribuzione χ2 a q gradi di libert`. Y e χ2 = (n − 1)S 2 /σ 2 sono indipendenti . Essa ha come densit` a a g(t) = Γ((q + 1)/2) t2 (1 + )−(q+1)/2 . σ2 = X −µ √ S/ n Si dice che Tq ha una distribuzione t di Student con q gradi di libert`.

90 Capitolo 4. Il risultato si ottiene ricorrendo alla distribuzione congiunta delle variabili Z e χ2 q f (z. nella frase precedente. a a Si osservi che la lettera t.2 0. x) = (2π)−1/2 e−z e calcolando P (Tq < t) = C dove z<t 2 /2 1 xq/2−1 e−x/2 per x > 0 Γ(q/2)2q/2 √ xq/2−1 e−x/2 e−z x/q 2 /2 dxdz . con q = 9 gradi di libert`. C +∞ t Allora P (Tq < t) = C 0 dx x q/2−1 −x/2 √ x/q e dz e−z 2 /2 = −∞ Quaderni Didattici del Dipartimento di Matematica . prima ` il nome di una famiglia di distribuzioni.1 -4 -2 0 2 x 4 Figura 4. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u 0.3: Densit` di Student. e poi serve a indicare una variabile reale. √ 1 = 2πΓ(q/2)2q/2 .3 0.

2 √ Finalmente.a. a. u2 = s2 /q : P (Tq < t) = (2π)−1/2 Γ(q/2) −1 −q/2 2 Γ( q + 1 −1/2 (1+q)/2 )q 2 2 t t ds (1 + −∞ s2 −(1+q)/2 ) = q = q. Universit` di Torino. ponendo s = qu . determiniamo tα/2 tale che +∞ g(s)ds = α/2 tα/2 e quindi −tα/2 −∞ g(s)ds = α/2 ..A. Γ((q + 1)/2) (πq)1/2 Γ(q/2) ds (1 + −∞ s2 −(1+q)/2 ) q ` E bene notare che la densit` g ` simmetrica a e g(−t) = g(t) . dato un livello di confidenza desiderato 1 − α. Tornando alla determinazione di intervalli di confidenze per la media incognita µ. a a Allora X −µ √ < tα/2 ) = 1 − α . Elementi di Calcolo delle Probabilit` a √ con la sostituzione z = u x nell’integrale interno +∞ 91 =C 0 dx x √ t/ q (q−1)/2 −x/2 √ t/ q −∞ e du e−u 2 2 x/2 = +∞ =C −∞ du 0 dx x(q−1)/2 e−(1+u )x/2 = posto y = (1 + u2 )x/2 √ t/ q =C −∞ du ( 1 + u2 −(1+q)/2 ) 2 √ t/ q +∞ 0 dy y (q+1)/2−1 e−y = = CΓ( q+1 ) 2 du ( −∞ 1 + u2 −(1+q)/2 ) . 2003-2004 a .d.Negro. P (−tα/2 ≤ Tn−1 = S/ n pertanto √ √ P (X − tα/2 S/ n ≤ µ < X + tα/2 S/ n) = 1 − α . du = q −1/2 ds . essendo g = gn−1 la densit` t di Student con n − 1 gradi di libert`.e.

a. p q Z La densit` congiunta di Y e Z.q . 4. X + tα/2 S/ n] ` un intervallo di confidenza per la stima della media µ della v. Densit` congiunta e funzioni di pi` variabili aleatorie reali a u L’intervallo aleatorio (in quanto i suoi estremi sono combinazione delle v. 2 Siano χp e χ2 due v. indipendenti che hanno una distribuzione χ2 . Z = χ2 .q = χ2 /p q χ2 p p = . 2 Queste variabili si incontrano in numerose situazioni. χ2 /q p χ2 q q che si dice variabile F con p e q gradi di libert`. Consideriamo un loro rapporto normalizzato: a Fp. normale X . z = 1 lnFp. z) = Cy p/2−1 z q/2−1 e−(y+z)/2 .a. rispettivamente con p e q q gradi di libetrt`.a. E sufficiente considerare la variabile a X= Y . dove Y = χ2 . per la loro indipendenza ` (considerando solo valori positivi delle a e variabili): g(y. particolarmente in test di analisi della varianza.92 Capitolo 4. X e S) √ √ [X − tα/2 S/ n. ` Vogliamo determinare la distribuzione e la densit` di F . dove C= 1 . a Fisher introdusse una variabile z legata alla precedente dalle relazioni e2z = Fp.10 Le variabili F e z di Fisher.q . Γ(p/2)2p/2 Γ(q/2)2q/2 La distribuzione di X risulta P (X < x) = P (Y < xZ) = z>0 . con livello di e confidenza 1 − α. z)dydz = =C 0 dz z q/2−1 dy y p/2−1 e−(y+z)/2 = Quaderni Didattici del Dipartimento di Matematica . 0<y<xz +∞ xz 0 g(y.

Negro.2 0. Xp. Elementi di Calcolo delle Probabilit` a 93 6 5 4 3 p=15. a. q=15 1 0 0.6 0. (1 + u)(p+q)/2 Dunque la densit` di Xp. q = 87.A. q = 15 e p = 15. dy = zdu +∞ =C 0 x dz z q/2 0 x du (uz)p/2−1 e−(1+u)z/2 = dz z (p+q)/2−1 e−(1+u)z/2 = =C 0 du up/2−1 0 +∞ posto t = (1 + u)z/2 .q con parametri p = 9.4: Densit` di Fisher: v.a.8 1 Figura 4. 2003-2004 a .4 x 0. z = 2t/(1 + u) .a.q ` nulla per x ≤ 0 e uguale a a e Γ((p + q)/2) xp/2−1 . a posto y = uz . Γ(p/2)Γ(q/2) (1 + x)(p+q)/2 Universit` di Torino. dz = 2dt/(1 + u) x =C 0 du up/2−1 ( 2 (p+q)/2 ) 1+u x +∞ 0 dt t(p+q)/2−1 e−t = = CΓ( p + q (p+q)/2 )2 2 du 0 up/2−1 . q=87 2 p=9.

q ) = q/(q − 2) per q > 2 V (Fp.94 Capitolo 4. p(q − 2)2 (q − 4) Quaderni Didattici del Dipartimento di Matematica . Densit` congiunta e funzioni di pi` variabili aleatorie reali a u Non sarebbe difficile calcolare media e varianza di Fp. p.q ) = 2q 2 (p + q − 2) per q > 4 .242): e E(Fp.q (Cram´r [1].

a. volendo.a. pk ≥ 0 e k pk = 1. 95 . complessa Z. per t fissato itX ` una v. reale. Nel caso continuo. se fX (x) ` la densit` di X: e a +∞ ϕX (t) = −∞ eitx fX (x)dx e quindi la funzione caratteristica ` data dalla trasformata di Fourier della densit` mediante la e a formula: ϕ(t) = F (f )(−t).a. se xk sono i valori assunti da X e pk le corrispondenti probabilit` a ϕX (t) = k eitxk pk . Nel caso discreto. La variabile t ` reale. complessa (cio` a vaori in C).1 Funzione caratteristica Sia X una v. Si dice funzione caratteristica di X la funzione a valori complessi ϕX (t) = E(eitX ) . Si noti che si tratta di una somma finita o di una serie assolutamente convergente perch` e |eitxk | = 1. si pu` ricondurre allo studio di due v. e e e (Lo studio di una v.Capitolo 5 Funzioni caratteristiche e teorema del limite centrale 5.a. Ad esempio: E(Z) = E(ℜZ + iℑZ) = E(ℜZ) + iE(ℑZ) ). reali: la o sua parte reale e la sua parte immaginaria.

Yosida). E. generali: a 1) ϕ(0) = 1 e.Sz.Fomin.Stein-G. e propriet` che nel caso continuo equivale alla convergenza degli integrali a +∞ −∞ xj f (x)dx . se |ϕ| ` integrabile. si dimostrano le propriet` seguenti.Weiss). Nella letteratura si trovano varie definizioni.96 Capitolo 5.Silov). allora F (x + h) − F (x − h) = lim 1 T →+∞ π T −T sin(ht) −itx e ϕ(t)dt . o ricordando i risulati essenziali sulla trasformata di Fourier. . si e dovrebbe usare un integrale di Stietjes per costruire ϕ da F . A.M.Riesz-B. valide anche per v.Schwatz.E. 2) ϕ ` una funzione uniformemente continua e se X ha momenti finiti fino all’ordine k. e Nel caso generale di una distribuzione FX . ϕ(−t) = ϕ(t) e |ϕ(t)| ≤ 1. per ogni t.1. allora ϕ ` k volte derivabile con continuit`.. k . ij X 3) Se X e Y hanno la stessa funzione caratteristica allora X e Y hanno la stessa distribuzione.Gelfand-G. t Inoltre.. L’integrale. K. In tal caso i momenti di X sono forniti dalle formule e a E(X j ) = 1 (j) ϕ (0) .Nagy. oppure exp(−2πitx) (L..a.M. lievemente diverse. F ` derivabile e la sua derivata f si ottiene mediante la formula e e f (x) = 1 2π +∞ −∞ e−itx ϕ(t)dt . j = 0. Quaderni Didattici del Dipartimento di Matematica . non continua ovunque n´ puramente discreta. oppure √ exp(−itx)/ 2π (F. essendo |eitxk | = 1 ed f integrabile. Funzioni caratteristiche e teorema del limite centrale Osservazione. Si pu` dimostrare che che. −∞ come ad esempio L. ` ben definito. se i punti x + h e x − h ( h > 0 ) sono punti di continuit` della o a distribuzione F (x) alla quale corrisponde la funzione caratteristica ϕ(t) . a Con calcoli elementari nel caso discreto.H¨rmander. o che non danno luogo a modifiche delle propriet` fondamentali: invece di exp(−itx) si pu` trovare a o ˇ exp(itx) (I. Propriet` fondamentali delle funzioni caratteristiche .Kolmogorov-S. Assumiamo come definizione della trasformata di Fourier +∞ F (f )(t) = e−itx f (x)dx .

allora ϕX (t) = (2π)−1/2 posto z = x − it +∞ −∞ eitx e−x 2 /2 dx = (2π)−1/2 +∞ −∞ e−(x−it) 2 /2−t2 /2 dx = = e−t 2 /2 (2π)−1/2 R−it e−z 2 /2 dz = e−t 2 /2 . Si osservi che. Ricordando la definizione della funzione generatrice dei momenti mX . a. essendo la funzione e−z /2 analitica in tutto C e rapidamente decrescente per x → ±∞. di Cauchy ` e ϕR (t) = 1 π +∞ −∞ Reitx dx = e−R|t| . Se K ` una variabile che assume i valori 1 e 0 con probabilit` rispettivamente p e q = 1 − p: e a ϕK (t) = q + peit . essendo eit limitata. che ` una funzione analitica di z in tutto il piano complesso. Esempi . La funzione caratteristica di una v. 2003-2004 a . l’integrale sulla retta R − it risulta uguale a quello sul cammino omotopo R.a. o Universit` di Torino. Se X ∼ N (0. σ 2 ). poich´ E(ezX ) ` definita per ogni numero e e complesso z: E(ezX ) = (2π)−1/2 σ −1 R 2 ezx e−(x−µ) 2 /(2σ2 ) dx = eµz+σ 2 2 z /2 . Elementi di Calcolo delle Probabilit` a 97 4) Se Y = bX + a allora ϕY (t) = eiat ϕX (bt) . mentre la convere genza dell’integrale che fornisce mX dipende dal comportamento della distribuzione. si ha la relazione ϕX (t) = mX (it). Si ha dunque in particolare e ϕX (t) = eiµt+σ 2 (it)2 /2 = eiµt−σ 2 2 t /2 . 1). R2 + x2 come si pu` vedere con un utile esercizio di applicazione del metodo dei residui.a. Nel caso di una v.a. Infatti. e dove le Kj sono copie indipendenti di K: ϕB (t) = (q + peit )n ..A.. 5) Se X e Y sono indipendenti ϕX+Y (t) = ϕX (t)ϕY (t) .Negro. normale X ∼ N (µ. + Kn . Quindi se B ` una variabile binomiale associata ad n prove indipendenti: B = K1 + K2 . ϕX ` sempre definita.

Una dimostrazione molto interessante e paricolarmente istruttiva ` proposta da P. σ 2 σ itnp + n ln(1 + p(eit/σ − 1)) = σ Quaderni Didattici del Dipartimento di Matematica it 1 t2 √ − + O(n−3/2 ) (σ = npq) .Billingsley. teorema di Stone-Weierstrass. poich` e eit/σ − 1 = si trova ln(1 + p(eit/σ − 1)) = = Ma ln ϕn (t) = − itp 1 t2 1 (it)2 − p 2 + O(n−3/2 ) − p2 2 + O(n−3/2 ) = σ 2 σ 2 σ itp 1 t2 − (p − p2 ) 2 + O(n−3/2 ) .3 Comportamento asintotico della distribuzione binomiale Utilizzando il teorema di L´vy-Cram´r possiamo fornire una nuova e semplice dimostrazione e e del teorema del limite integrale di Laplace-De Moivre. σ 2 = V (Bn ) = npq .98 Capitolo 5.Gnedenko[]) e il seguente risultato fondamentale: Siano ϕn (t) le funzioni caratteristiche delle distribuzioni Fn (x) ed esista per ogni t ϕ(t) = lim ϕn (t) . Allora. 2 σ 2σ . in ciascuna delle quali la probabilit` di successo ` p. n→+∞ Sia inoltre ϕ continua in 0. σ e− 2 dt . Funzioni caratteristiche e teorema del limite centrale 5. oppure B.Cram´r []. Yn = Allora P (a ≤ Bn − np 1 < b) → √ √ npq 2π b a t2 Bn − µ .V. 5. Allora ϕ(t) ` la funzione caratteristica di una distribuzione F (x) e e per ogni punto x nel quale F ` continua si ha e n→+∞ lim Fn (x) = F (x) . p. Dimostrazione.2 Il teorema di L´vy-Cram´r e e Riportiamo senza dimostrazione (si veda ad esempio H. famiglie “tight” di distribuzioni e compattezza relativa). Teorema. e Essa tuttavia richiede strumenti pi` avanzati (convergenza in legge o convergenza debole di u misure. Sia Bn una variabile binomiale associata ad n prove indipendenti. Poniamo a e µ = E(Bn ) = np . La funzione caratteristica di Yn ` e ϕn (t) = e−itµ/σ (peit/σ + q)n = e−itµ/σ (p(eit/σ − 1) + 1)n .96.

Negro. per la quale dunque si ha φ(t) = 1 − σ 2 t2 /2 + o(t2 ) . equidistribuite. (Lindeberg-L´vy) Siano X1 . Poniamo poi Yn = Universit` di Torino. conducono alla stessa tesi. nσ 2 ) nel e senso che per ogni a e b si ha lim P (a ≤ Sn − nµ 1 √ < b) = √ σ n 2π b a n→+∞ e− 2 dt .a. che fanno uso di metodi diversi. 5. . normale e e standard. Gi` intravisto da Laplace e Gauss. inoltre la distribuzione normale standard ` continua per ogni valore di x. f` dimostrato u a u nel 1901 da Liapunov.a.a. t2 Dimostrazione. Lindeberg. Sn = X1 + X2 + . 2003-2004 a Sn √ . Elementi di Calcolo delle Probabilit` a 99 essendo n(p − p2 ) = σ 2 =− Pertanto n→+∞ itnp itnp 1 2 1 + − t + O(n−1/2 ) → − t2 .a.4 Il teorema del limite centrale Il risultato precedente concernente le variabili binomiali ` un caso particolare del teorema cene trale del limite e pu` essere ampiamente generalizzato. Solo per semplicit` sia µ = 0 (ipotesi non restrittiva: altrimenti si raa gionerebbe sulle v. dipendente da n. sono associati ai nomi di L´vy. Feller. Teorema. successivi risultati. + Xn . σ σ 2 2 lim ϕn (t) = e− 2 t . ` asintoticamente normale (nµ. dunque per e ogni x si ha quando n → +∞ Bn − np 1 P( √ < x) → √ npq 2π x e− 2 dt . Khinchin. che con ipotesi o pi` o meno forti.. che ha media E(Sn ) = nµ e varianza V (Sn ) = nσ 2 . σ n . 1 2 La funzione limite ` continua ed ` precisamente la funzione caratteristica di una v. v.a..a. X2 .A. mutuamente indipendenti aventi la e stessa distribuzione di media µ e varianza σ 2 . Sia inoltre φ(t) la funzione caratteristica della distribuzione comune alle singole Xk . v.. a. la cui dimostrazione segue il metodo usato per le variabili binomiali. e Consideriamo in primo luogo un teorema concernente v. Esistono diversi teoremi.. Allora la somma. Zk = Xk − µ). t2 −∞ Ne segue immediatamente il risultato di De Moivre-Laplace.

. + Xn ... √ ln φ(t/σ n) = −t2 /2n + o(1/n) . . V (Xk ) = σk .d.a. e e q. X2 . Sia X1 . posto a mn = µ1 + µ2 + . scriviamo brevemente o(1/n) invece di o(t2 /nσ 2 ). Funzioni caratteristiche e teorema del limite centrale che ha come funzione caratteristica √ φYn (t) = φ(t/σ n)n . .... senza dimostrazione. 2) dotate di media e varianza finite: 2 E(Xk ) = µk . n risulti n→+∞ lim 1 s2+d n n k=1 E(|Xk − µk |2+d ) = 0 . Passando al caso di variabili non equidistribuite enunciamo ora. Allora la v. per la quale E(Sn ) = mn e V (Sn ) = s2 ... 1) mutuamente indipendenti. Si osservi che. t2 Si pu` vedere che il limite ` uniforme in x. Xn . per ogni t √ φ(t/σ n) = 1 − t2 /2n + o(1/n) . + V (Xn ) . + µn .. mentre n → +∞. √ ln φYn (t) = n ln φ(t/σ n) = −t2 /2 + n · o(1/n) → −t2 /2 . Sn = X1 + X2 + . essendo t fisso e σ 2 dato. sn ) : e lim P (a ≤ Sn − mn 1 < b) = √ sn 2π b a n→+∞ e− 2 dt . n ` asintoticamente normale (mn .e. una successione di v.a. Dunque lim ln φYn (t) = −t2 /2 . 3) per le quali inoltre esista d > 0 tale che siano finite le quantit` E(|Xk − µk |2+d ) ed anzi.100 Capitolo 5. s2 = Vn = V (X1 ) + V (X2 ) + . Allora. per ogni x lim P ( n k=1 (Xk − µk ) n 2 k=1 σk n→+∞ 1 < x) = √ 2π x −∞ e− 2 dt . t2 O ancora. il Teorema di Liapunov.. n→+∞ Ricorrendo al teorema di L´vy-Cram´r si conclude la dimostrazione.. o e Quaderni Didattici del Dipartimento di Matematica .

N2 . la quale tuttavia non ` una normale standard. che assume i valori q/s. A questo proposito. Dunque p P (T < c) = √ 2π distribuzione continua. a. Elementi di Calcolo delle Probabilit` a 101 Il significato delle varie condizioni imposte per dedurre il teorema del limite centrale ` e sostanzialmente la trascurabilit` asintotica dei singoli addendi rispetto alla loro somma.a.a. con densit` a (x−q/s)2 (x+p/s)2 1 − − β2 β2 √ (pe + qe ). 2003-2004 a . aleatorie normali di media nulla e varianza σk tali che +∞ 2 σk = θ2 < +∞ k=1 e supponiamo che tutte le v. Nk siano mutuamente indipendenti.A. ma ` la distribuzione della somma T = U + V di due v.a. Posto n−1 2 Rn−1 = N1 + N2 . Per a questo il teorema ha un ruolo centrale nel Calcolo delle probabilit`. Z. indipendenti: e e U .. v. ciascuna delle quali presa isolatamente sarebbe irrilevante. essendo frequenti le situa azioni in cui effetti o perturbazioni significative sono la risultante di numerosi effetti o perturbazioni. 0 con probabilit` p. si consideri il seguente semplice esempio: sia K una v.Negro. −p/s con probabilit` p. Siano ϕN (t) = e−t 2 /2 . s2 = V (Sn ) = σ 2 + θn−1 → s2 = σ 2 + θ2 ... Allora ϕNk (t) = ϕN (σk t) = e−σk t 2 2 /2 .a. q e V .. + Nn−1 . ϕZ (t) = e−ipt ϕK (t) = peiqt + qe−ipt . ovvero σ 2 = pq.a. ϕK (t) = peit + q le funzioni caratteristiche di una normale standard N e di K. 2π c−q/s e −∞ v − β2 2 q dv + √ 2π c+p/s e −∞ v − β2 2 dv . Sn = Z + Rn−1 . Siano poi N1 . Universit` di Torino. che assume i valori 1. funzione continua in t e dunque funzione caratteristica di una distribuzione. n Studiamo allora il comportamento asintotico di Yn = Sn /sn . θn−1 = k=1 2 σk risulta 2 E(Sn ) = 0 . n−1 t ϕYn (t) = ϕZ ( ) sn = (peiqt/sn + qe−ipt/sn )e 2 −θn−1 t2 /2s2 n ϕN ( k=1 σk t )= sn 2 2 → (peiqt/s + qe−ipt/s )e−θ t /2s2 . q e Z = K − p. normale di media nulla e varianza a β 2 = θ2 /s2 . Allora Z ha media nulla e varianza uguale a quella a 2 di K.

102 Capitolo 5. di Cauchy.. n−1 Quaderni Didattici del Dipartimento di Matematica . la condizione di Liapunov non ` soddisfatta: e E(|Z|2+d ) + k=1 E(|Nk |2+d ) pq 2+d + qp2+d ≥ 2 >0 2 (σ 2 + θn−1 )(2+d)/2 (σ + θ2 )(2+d)/2 e non pu` quindi tendere a 0. X2 . sono v.a. di Cauchy con densit` n(π(n2 + x2 ))−1 e in questo caso il teorema del limite centrale a non vale.Xn .. ... Funzioni caratteristiche e teorema del limite centrale In questo caso. .. o Se X1 . + Xn sono v.. indipendenti e di ugual densit` (π(1 + x2 ))−1 . le a loro somme Sn = X1 + X2 + . ovviamente.a.

k=1 Definizione. vale la legge debole dei grandi numeri se ∀ε > 0 lim P (| 1 n n k=1 n→+∞ Xk − 1 n n E(Xk )| < ε) = 1 .c.1 La legge debole dei grandi numeri Si dice che per una successione di v. a 1 n n k=1 (Xk − E(Xk )) → 0 6.2 Convergenza quasi certa... Il termine legge 103 .. n Dunque la legge debole dei grandi numeri si pu` formulare dicendo che o Mn = in probabilit`. converge in probabilit` alla v.a. (limn P ({Mn → 0} = 0). o anche solo della convergenza q. dotate di media. convergenza debole e convergenza in legge La convergenza in probabilit` ` una convergenza pi` debole della convergenza puntuale (∀ω ∈ ae u Ω Mn (ω) → 0). X1 . La successione Xn di v. n Equivalentemente ∀ε > 0 lim P ({ω ∈ Ω | |Xn (ω) − X(ω)| ≥ ε}) = 0 .a. X2 .a.Capitolo 6 La legge dei grandi numeri 6. X se e solo se a ∀ε > 0 lim P ({ω ∈ Ω | |Xn (ω) − X(ω)| < ε}) = 1 .

a D * * * Dimostrazione. a Su A X < c − ε ⇒ X + ε < c ⇒ Xn < c . La legge dei grandi numeri debole deriva dal fatto che debole ` la nozione di convergenza coinvolta. Xn < c ⇒ X − ε < c ⇒ X < c + ε e dunque Fn (c) ≤ F (c + ε) + P (Ac ) . Si scrive Xn → X . e Se Xn e X sono v. lim sup Fn (c) ≤ F + (c) . dove F + (c) = F − (c) si ha effettivamente limn Fn (c) = a F (c). F sono le loro distribuzioni.e.a.d. n n In modo analogo. F − (c) = F (c) ≤ lim inf Fn (c) . e passando al limite per n → +∞ e poi per ε ↓ 0 si trova succesivamente lim sup Fn (c) ≤ F (c + ε) .104 Capitolo 6. Per ogni n ed ε sia A = Aε = { X − ε < Xn < X + ε } . allora Teorema. come si dice. La convergenza delle distribuzioni Fn a F nei punti di continuit` di F equivale alla cosiddetta a convergenza debole delle corrispondenti misure di probabilit` µn a µ (leggi delle v. n n Pertanto nei punti di continuit` di F . Si pu` vedere che Xn converge ad X in distribuzione se e solo se per ogni o funzione continua e limitata f E(f (Xn )) → E(f (X)) .a. implica la convergenza in a distribuzione (ovvero in legge) di Xn ad X. La convergenza in probabilit` di Xn ad X implica la convergenza di Fn (c) a a F (c) in tutti i punti di continuit` della funzione F . su A. n Per l’ipotesi di convergenza in probabilit` P (A) → 1 e P (Ac ) → 0 per n → +∞. Osservazione. dunque P (X < c − ε) = F (c − ε) ≤ P (Xn < c) + P (Ac ) = Fn (c) + P (Ac ) e passando al limite per n → +∞ e poi per ε ↓ 0 si trova succesivamente F (c − ε) ≤ lim inf Fn (c) . (reali) in Ω e Fn . Quaderni Didattici del Dipartimento di Matematica . Xn e X). o. q.

definite nel seguente modo: sia Ω = [0.a. corrispondenti. X2 . a anzi nessuna sua sottosuccessione pu` convergere in probabilit`: infatti.2n (P (Ik ) = 1/2n ). k/2n [.a.. Tutte le Xn hanno la stessa distribuzione: P ({Xn = 1}) = 1/2 e P ({Xn = 0}) = 1/2.. prescindendo dai punti di Ω nei diversi in ogni punto.. a. k=1 Universit` di Torino.Negro. ma ` e Segnaliamo tuttavia. Xn . tali che Xn → X quasi certamente.. V. 2. 2003-2004 a .a. sia Xn la v. delle v. Allora 2n 2n P ({ |Xn − Xn+p | = 1 }) = k=1 P ({ |Xn − Xn+p | = 1 } ∩ n Ik ) = k=1 1 1 1 = .A.a. Fn (x) = 1/2 per 0 < x ≤ 1 e Fn (x) = 1 per x > 1.a. n 22 2 Del resto la distribuzione di una v.. sempre X(ω) = Y (ω). senza dimostrazione.3 Il teorema di Markov. k=1 n→+∞ Xk − 1 n n E(Xk )| < ε) = 1 . posono avere la su Ac . e tali che 1 V( n→+∞ n2 lim allora per ogni ε > 0 lim P (| 1 n n k=1 n Xk ) = 0 . Xn assume un valore costante (0 o 1) su ciascuno dei 2n intervalli Ik . Sia X1 .. il seguente notevole risultato: Teorema (Skorohod). Si consideri ad esempio la a successione di v. i suoi corollari e il teorema di Khinchin Teorema di Markov. k = 1. Xn e X... aventi distribuzione rispettivamente Fn e F . presi due indici n ed o a n n + p. dunque Fn (x) = 0 per x ≤ 0. si occupa del peso probabilistico dei valori assunti dalla quali tali valori sono assunti. . la convergenza delle distribuzioni non permette di avere alcuna informazione sulla convergenza. che assumono valori stessa distribuzione: ad esempio se X = 0 su A e X = 1 allora Y = 1 − X ha la stessa distribuzione di X. per ogni intero naturale n dividiamo Ω in 2n sottointervalli di uguale lunghezza n n Ik = [(k − 1)/2n . . Sia Fn una successione di distribuzioni convergente alla distribuzione a a F (Fn (x) → F (x) in ogni punto di continuit` di F ). Elementi di Calcolo delle Probabilit` a 105 Al contrario. una successione di v.a. che assume il valore 1 sugli intervalli di indice dispari e 0 su quelli di indice pari. anche solo in probabilit`.a. Allora esiste uno spazio di probabilit` sul quale sono definite v.a. v. Tuttavia la successione Xn non converge in probabilit`. 1[ con P uguale alla misura standard di Lebesgue. dotate di media e e varianza. dove invece Xn+p p alterna con uguale probabilit` i due valori sui successivi 2 sottointervallini di ampiezza 1/2n+p a n e nei quali Ik ` suddiviso.a. mentre P (A) = P (Ac ) = 1/2. & & & 6.

X2 . Se le v. Zn = risulta E(Zn ) = 1 n 1 n n Xk . hanno la stessa media E(Xk ) = µ allora lim P (| 1 n n n→+∞ k=1 Xk − µ| < ε) = 1 . 2.. Questo risultato ` il fondamento teorico della procedura di stima di una grandezza x mediante e la media aritmetica dei valori ottenuti in n misure indipendenti che. . . e Dimostrazione. una successione di v.d. k=1 Infatti in tal caso 1 n2 k=1 V (Xk ) ≤ C →0. sono a due a due indipendenti la condizione di Markov diventa 1 n→+∞ n2 lim n 1 1 V( ε 2 n2 n Xk ) k=1 V (Xk ) = 0 . . allora per ogni ε > 0 risulta lim P (| 1 n n k=1 n n n→+∞ Xk − 1 n E(Xk )| < ε) = 1 . La legge dei grandi numeri cio` per X1 ... . Sia X1 ..a.e.. k=1 Si ottiene allora immediatamente il seguente corollollario Teorema di Chebychev..a.. X2 .106 Capitolo 6. Introduciamo la v. . n Se inoltre tutte le v.a. X2 . q.a. vale la legge debole dei grandi numeri. ponendo c = ε/ V (Zn )) P (|Zn − E(Zn )| < ε) ≥ 1 − V (Zn )/ε2 = 1 − che tende a 1 per n → +∞. k=1 n n E(Xk ) .. a due a due indipendenti aventi varianza finita e limitata da una stessa costante: V (Xk ) ≤ C . k = 1. V (Zn ) = k=1 1 V( n2 Xk ) k=1 e applicando la disuguaglianza di Chebychev (con ε > 0 arbitrario. X1 . in presenza di perturbazioni Quaderni Didattici del Dipartimento di Matematica .

associando ad ogni prova una v. Un caso particolare del Teorema di Chebychev. Elementi di Calcolo delle Probabilit` a 107 casuali con dispersione finita e limitata. ` il e seguente Teorema di Bernouilli. V (Kj ) = pj qj ≤ 1/4 . alla probabilit` p. X1 .. con v. In tutti i risultati precedenti si considerano v. Il risultato ` immediato a a e osservando che. limitata in modo uniforme: V (Xk ) ≤ C.. aventi tutte la stessa media. X2 . n Infatti ad ogni misura indipendente si pu` associare una v. Se le v. Ovvero la frequenza relativa tende. x2 .. .A.a. Sia Fn il numero di e a successi in n prove e fn = Fn /n la corrispondente frequenza relativa. . sono a due a due indipendenti ed hanno la stessa distribuzione con media finita µ. a. si ha a n→+∞ lim P (|fn − p1 + p2 + . allora per ogni ε > 0 1 lim P (| n→+∞ n n k=1 Xk − µ| < ε) = 1 . o Teorema di Khinchin. Universit` di Torino. + pn | < ε) = 1 . n Infatti. Il seguente teorema evita invece tale ipotesi. Allora per ogni ε > 0 n→+∞ lim P (|fn − p| < ε) = 1 . V (Kj ) = pq = p(1 − p) ≤ 1/4 . xn : x1 + x2 + .a. Sempre nell’ipotesi precedente di prove indipendenti. 2003-2004 a . + xn x∼ . supponendo che il suo valor o medio E(Xk ) sia uguale al valore vero x della grandezza e che i valori da essa assunti siano distribuiti intorno ad x con una dispesione finita.a. ma con probabilit` di successo pj variabile nelle diverse prove.. ma in assenza di errori sistematici.a..a.. come sopra E(Kj ) = pj .a. Kj che assume il valore 1 in caso di successo e 0 in caso di fallimento. in probabilit`.. forniscono i valori x1 . Xk . le Kj sono indipendenti e E(Kj ) = p .. considerando per` soltanto variabili equidistribuite.Negro. Si consideri una successione di prove indipendenti. Un poco pi` generale ` il u e Teorema di Poisson. con varianza finita.. in ciascuna delle quali vi ` una probabilit` p di successo e q = 1 − p di fallimento.

a.a. hanno la stessa distribuzione. ε2 2 Infatti V = V (1/n Yk ) = n/n2 σn ≤ aη e.n scomponiamo Xk nel modo seguente: Xk = Yk + Zk . essendo Zk ≥ 0. La legge dei grandi numeri * * * Dimostrazione. Bn = {| 1 n n k=1 Yk − µ| ≥ 2ε} . Dato η > 0 ed n intero positivo. per n > ν ∗ opportuno.. si ha λ−2 = V /ε2 ≤ aη/ε2 . |X|dP a n |X|dP . P (| n ε k=1 Osserviamo inoltre che. Cn = { 1 n n Zk = 0} .108 Capitolo 6. Yk hanno media e varianza finite: µn = E(Yk ) = |X|<nη 2 σn = V (Yk ) = XdP → µ per n → +∞ . per n > ν sar` |µn − µ| < ε e per la disuguaglianza di Chebychev a P (| n k=1 1 n n k=1 Yk − µn | ≥ ε) ≤ aη . con media finita µ.. e dunque P (Zk = 0) ≤ η/n. k Xk − µ| ≥ 2ε} . per n > ν risulta n 1 aη Yk − µ| ≥ 2ε) ≤ 2 . Dunque converge l’integrale a= Ω |X|dP . 2. se ε2 = λ2 V . avendo posto Yk = Xk Yk = 0 Zk = 0 Zk = Xk se |Xk | < nη se |Xk | ≥ nη . P( Poniamo An = {| 1 n n k=1 |X|≥nη |X|≥nη Ω |X|dP ≤ η 2 . quella ad esempio di X = X1 . nηP (Zk = 0) = nηP (|X| ≥ nη) ≤ in considerazione della convergenza di Allora. |X|dP ≤ nηa . per k = 1. 1 n n n Zk = 0) = P ( k=1 k=1 Zk = 0) ≤ k=1 P (Zk = 0) ≤ η/n = η . Per ipotesi tutte le v. k=1 Quaderni Didattici del Dipartimento di Matematica . Le v. |X|<nη X 2 dP − µ2 ≤ nη n |X|<nη Fissato ε > 0 arbitrario. Allora.

) e “almost everywhere (a.). a e P (An ) ≤ P (Bn ) + P (Cn ) ≤ & & & e dunque q.a. Xn convergono quasi certamente (q. ε2 Per l’arbitrariet` di η e ε si ha limn P (An ) = 0 e il teorema ` dimostrato. Elementi di Calcolo delle Probabilit` a 109 Ovviamente c An ⊆ (Bn ∩ Cn ) ∪ Cn aη +η .e.a.s.a. dotate di media vale la legge forte dei grandi numeri se P (ωǫΩ | lim | 1 n n k=1 n→+∞ Xk (ω) − 1 n n E(Xk )| = 0) = 1 .) (a. Osservazione. ovvero P ({ω ∈ Ω | Xn (ω) → X(ω) } = 0 .o. in inglese: “almost surely). X2 . a.d. . In teoria della misura si usano le espressioni equivalenti “quasi ovunque (q. Si dimostra che la convergenza quasi certa implica la convergenza in probabilit`. o * * * Universit` di Torino.c.. Dunque vale la legge forte dei grandi numeri se e solo se Mn = quasi certamente. Tuttavia a a si pu` sempre trovare una sottosuccessione Xnk che converge q. o con probabilit` 1.Negro. k=1 Definizione. Le v. ad X. di v.c.a.4 La legge forte dei grandi numeri Si dice che per una successione X1 .. Invece la convergenza in probabilit` di Xn a X non implica che Xn → X q.c. X se e solo se a P ({ω ∈ Ω | Xn (ω) → X(ω) } = 1 . 6.A. alla v. Osservazione. 2003-2004 a 1 n n k=1 (Xk − E(Xk )) → 0 .e.

a. allora lim P ({ |Xn − X| ≥ ε }) = 0 n e la convergenza in probabilit` ` stabilita. Allora esiste una sottosuccessione Xnk a convergente q..d. Basta fornire un a controesempio: sia Ω = [0.(n − 1) + k . k = 1. q.. Dimostrazione. l’insieme Aj = ∩n ∪p≥n { |Xp − X| ≥ 1 } j 1 }.c.c. degli indici n1 < n2 < . a Dimostrazione. sia j tale che 1/j ≤ ε. Sia C ⊆ Ω l’insieme sul quale Xn converge ad X: C = { ω | ∀k∃n∀p ≥ n |Xn (ω) − X(ω)| < Allora. k ` contenuto nel complementare di C (se ω ∈ Aj . Essendo P (C) = 1. n j j Fissato ε. .110 Capitolo 6. n . ad X . Selezioniamo. in virt` dell’ipotesi di convergenza in probabilit`.k − 0| ≥ ε}) = → 0 n e le v. Siano infine Aj = ∪+∞ {|Xnk − X| ≥ αk } e B = ∩+∞ Aj . sia χn. a Teorema.. . 1[ con P uguale alla misura di Lebesgue standard su tale intervallo. tali u a che P ({|Xnk − X| ≥ αk }) < ηk . Sia Xn convergente q. 2. Sia Xn convergente in probabilit` ad X .. per infiniti indici p si ha |Xp (ω)− X(ω)| ≥ 1/j e e non vi pu` essere convergenza in ω). Se Xn → X in probabilit`. p = 1 + 2 + .. fissato comunque j. j=1 k=j Quaderni Didattici del Dipartimento di Matematica . 2.k = χ[(k−1)/n. Xp tendono a 0 in probabilit`.e. ad X . non necessariamente Xn → X q.. si ha P (Aj ) = 0. Ordiniamo queste funzioni caratteristiche formando la successione Xp = χn.. 1[ vi sono infiniti indici p per i quali Xp (ω) = 1 e infiniti per i quali Xp (ω) = 0 : quindi la successione Xp non converge in nessun punto. Ma per la decrescenza o dell’unione al crescere di n 0 = P (Aj ) = lim P (∪p≥n { |Xp − X| ≥ n 1 1 }) ≥ lim P ({ |Xn − X| ≥ }) .k . Ma ovviamente per ogni 0<ε<1 1 P ({ |χn.. Per ogni ω ∈ [0. Siano αn e ηn numeri positivi tali che +∞ n→+∞ lim αn = 0 e n=1 ηn < +∞ .c..k/n[ n = 1. La legge dei grandi numeri Teorema. . Allora Xn converge in probabilit` ad X . ae Osservazione.

Ma e ∀ω ∈ Ω − B lim Xnk (ω) = X(ω) .c.a. per la continuit` di P a +∞ k=j ηk ≥ P (Aj ) → P (B) . |Xn (ω) − X(ω)|p dP (ω) → 0 .Negro. i. significa infinitely often . ` E ben noto in teoria generale dell’integrazione che per misure finite. e e Osservazione. Osservazione. Poich´ il resto della serie tende a 0 si ottiene P (B) = 0 . premettiamo qualche risultato di grande rilievo ed utilit` in numerose questioni. n si ha P (A) = 0. p ≥ 1: Xn → X in Lp ⇔ Ω di tipo integrale. n=1 posto A = limAn = ∩n ∪p>n Ap = {An i. principalmente in Lp . se Xn → X in Lp e q < p allora Xn → X in Lq e che Xn → X in Lp allora a esiste una sottosuccessione Xnk convergente quasi certamente (anche se l’intera successione in generale non converge q. Elementi di Calcolo delle Probabilit` a 111 Si ha Aj+1 ⊆ Aj e. / Ma αk → 0 e il teorema ` dimostrato. k Infatti se ω ∈ B esiste j tale che ω ∈ Aj . a Lemma di Cantelli.o.) Inoltre la convergenza in Lp implica la convergenza in probabilit`: per la disuguaglianza di a Markov si ha P ({ |Xn − X| ≥ ε }) = P ({ |Xn − X|p ≥ εp }) ≤ E(|Xn − X|p ) →0. ovvero per infini valori dell’indice n. Infatti ω ∈ A Universit` di Torino. a. } . εp & & & Prima di riportare alcuni teoremi fondamentali sulla legge dei grandi numeri.a. cio` per ogni k ≥ j / / e ω ∈ {|Xnk − X| ≥ αk } ovvero |Xnk (ω) − X(ω)| < αk .o. 2003-2004 a . Spesso ` importante considerare convergeze di v.A. Data una successione di eventi An tali che +∞ P (An ) < +∞ . quali ovviamente sono le misure di probabilit`.

Definizione.d. cio` la successione En ` generalmente e e decrescente. q. si ha e P (∩p>n Ac ) = p in virt` della divergenza della serie u Ricordiamo infatti che (1 − xn ) = exp( (1 − P (Ap )) = 0 . } . Sia {Xγ }γ∈Γ una famiglia arbitraria di v.o. X2 .. posto A = limAn = ∩n ∪p>n Ap = {An i. indipendenti. ma P (En ) ≤ n p>n P (Ap ) → 0 per n → +∞ . Esse si dicono (mutuamente) indipendenti se e solo se ogni sottofamiglia finita {X1 . p n Perch´ per ogni n. L’insieme dei due risultati (lemma di Cantelli e lemma di Borel) sono spesso presentati congiuntamente come lemma di Borel-Cantelli Molti casi interessanti di eventi per i quali si sa a priori che si verificano o con probabilit` 1 a o con probabilit` 0 sono forniti dalla legge zero-uno di Kolmogorov. per l’indipendenza delle Ap .a..a. Se En = ∪p>n Ap .XN } ` costituita da v.d.e. Se gli eventi An sono mutuamente indipendenti e P (An ) = +∞ .σ(XN ) sono indipendenti.112 Capitolo 6. e dunque se le σ-algebre σ(X1 ). ln(1 − xn )) → −∞ . p>n p>n P (Ap ). σ(X2 ).. Dimostrazione. Pertanto P (A) = lim P (En ). . Conviene considerare il complementare: P (Ac ) = P (∪n ∩p>n Ac ) ≤ p P (∩p>n Ac ) = 0 . a Premettiamo alcune definizioni. .. n allora. Dimostrazione. n n ln(1 − xn )) → 0 se n n come avviene certamente se la serie maggiorante −xn diverge a −∞. Quaderni Didattici del Dipartimento di Matematica . q. n si ha P (A) = 1. La legge dei grandi numeri se e solo se ω ∈ An per infiniti valori di n.e. Il lemma di Cantelli pu` essere integrato dal seguente risultato dovuto a Borel: o Lemma. allora En ⊇ En+1 .

A.Negro, Elementi di Calcolo delle Probabilit` a

113

Definizione. Sia {Xγ }γ∈Γ una famiglia arbitraria di v.a. Con σ(Xγ | γ ∈ Γ) si indica la −1 pi` piccola σ-algebra generata dalla famiglia di insiemi {Xγ (B) | γ ∈ Γ , B ∈ B}. u Definizione. Sia X1 , X2 , ...Xn , ... una successione di v.a. La σ-algebra τ = ∩+∞ σ(Xn , Xn+1 ...) n=1 si dice σ-algebra di coda della successione. Teorema zero-uno di Kolmogorov. Se le v.a. Xn sono indipendenti, τ ` banale, cio` se e e A ∈ τ allora P (A) = 0 oppure P (A) = 1. Dimostrazione. Sia A ∈ τ . Allora per ogni n si ha A ∈ σ(Xn+1 , Xn+2 , ...). Ma le famiglie { X1 , X2 ...Xn } e { Xn+1 , Xn+2 , ... } sono indipendenti e quindi per ogni n, A ` indipendente e da {X1 , X2 , ...Xn } e dunque ` indipendente da {X1 , X2 , ...}. Ma A ∈ σ(X1 , X2 , ...) e dunque A e ` indipendente da s´ stesso: P (A) = P (A ∩ A) = P (A)2 e P (A) = 0 oppure P (A) = 1. q.e.d. e e Osservazione. Eventi concernenti le v.a. X∗ = lim inf Xn , X ∗ = lim sup Xn , X = lim Xn ,
n n n

appartengono a τ . Infatti, per ogni n: σ(X∗ ) , σ(X ∗ ) , σ(X) ⊆ σ(Xn , Xn+1 , ...) . Ad esempio { lim inf Xn ≤ c } = { sup inf Xp ≤ c } = ∩n ∪p≥n { Xp ≤ c }
n n p≥n

e l’ultima unione appartiene a σ(Xn , Xn+1 , ...). Teorema (criterio di convergenza q.c.). Se, per ogni intero positivo r, si ha
+∞ k=1

P (|Xn − X| ≥

1 ) < +∞ , r

allora Xn → X quasi certamente. Dimostrazione. Sia C l’insieme dove Xn converge ad X e quindi C c l’insieme dove Xn non converge ad X. Per ω ∈ C c ∃r∀ν∃n > ν |Xn (ω) − X(ω)| ≥ ovvero, posto Ar = {|Xn − X| ≥ 1/r }, n C c ⊆ ∪r ∩ν ∪n>ν Ar = ∪r Ar , Ar = limAr . n n
n

1 , r

(In effetti i due insiemi coincidono). Per l’ipotesi e il lemma di Cantelli P (Ar ) = 0. Allora, per la σ-subadditivit` di P , si ha a Universit` di Torino, a.a. 2003-2004 a

114

Capitolo 6. La legge dei grandi numeri

P (C c ) = 0. q.e.d. Teorema (generalizzazione del precedente criterio di convergenza q.c.). Se, per ogni intero positivo r, esiste una successione di interi 1 = n1 < n2 < ...(→ +∞) tale che
+∞

P(
k=1

nk ≤n<nk+1

max

|Xn − X| ≥

1 ) < +∞ , r

allora Xn → X quasi certamente. r Dimostrazione. Indicando sempre con C c l’insieme di non convergenza e ponendo Ek = {maxnk ≤n<nk+1 |Xn − c X| ≥ 1/r}, per ω ∈ C 1 ∃r∀nk ∃n > nk |Xn (ω) − X(ω)| ≥ . r r Dunque, se n ` tale che nk < np ≤ n < np+1 , ω ∈ Ep e e
r r C c ⊆ ∪r ∩k ∪p>k Ep = ∪r E r , E r = limEn . n

Come nel teorema precedente, per l’ipotesi e il lemma di Cantelli P (E r ) = 0. Allora, per la σ-subadditivit` di P , si ha P (C c ) = 0. q.e.d. a Disuguaglianza di Kolmogorov. Siano X1 , X2 ...Xk ...Xn v.a. mutuamente indipendenti 2 con medie µk e varianze σk finite. Allora, per ogni ε > 0, posto
k

Ak = {| si ha

j=1

(Xj − µj )| < ε } , E0 = A1 ∩ A2 ∩ ... ∩ An ,
k n 2 σk . k=1

P (E0 ) = P ( max |
1≤k≤n

j=1

(Xj − µj )| < ε) ≥ 1 −

1 ε2

Dimostrazione. Non ` restrittivo supporre per semplicit` µk = 0 (altrimenti si ragionerebbe e a sulle v.a. Yk = Xk − µk ). Poniamo
k

Sk =
j=1

Xj e dunque Ak = {|Sk | < ε} .

Poniamo inoltre
c allora k ` il primo indice per il quale |Sj | ≥ ε, gli eventi Ek sono disgiunti e E0 = ∪n Ek . e k=1 Dunque n

Ek = A1 ∩ A2 ... ∩ Ak−1 ∩ Ac , k

P ( max |Sk | ≥ ε) =
1≤k≤n

P (Ek ) .
k=1 n

Ora V (Sn ) =
Ω 2 Sn dP =

n k=0 Ek 2 Sn dP ≥

k=1

Ek

2 Sn dP =

Quaderni Didattici del Dipartimento di Matematica

A.Negro, Elementi di Calcolo delle Probabilit` a
n n Ω 2 χEk (Sk + 2 j>k

115

=
k=1

Sk X j + 2
i>j>k

Xi Xj +
j>k

2 Xj )dP ≥

ε2 P (Ek ) ,
k=1

2 2 perch` j>k Xj ≥ 0, Sk χEk ≥ ε2 , le v.a. Xj , Xi sono indipendenti da Sk χEk , χEk e E(Xi ) = e E(Xj ) = 0. Pertanto 1 P ( max |Sk | ≥ ε) ≤ 2 V (Sn ) . q.e.d. 1≤k≤n ε

Siamo ora in grado di dimostrare un risultato fondamentale sulla legge forte dei grandi numeri. Teorema di Kolmogorov. Se la successione X1 , X2 , ... di v.a. mutuamente indipendenti soddisfa la condizione +∞ V (Xk ) < +∞ , k2
k=1

allora per essa vale la legge forte dei grandi numeri.

* * *
2 Dimostrazione. Poniamo µk = E(Xk ), σk = V (Xk ) e n

Sn =
k=1

(Xk − µk ) , sn =

1 Sn . n

In virt` del secondo criterio di convergenza visto sopra, posto per ogni intero q u Pq = P (max |sn | ≥ ε , 2q ≤ n < 2q+1 ) ,
n

basta far vedere che per ogni ε > 0 si ha
+∞

Pq < +∞ .
q=1

Ma, ricorrendo alla disuguaglianza di Kolmogorov, si ottiene Pq ≤ P (max |Sn | ≥ 2q ε , 2q ≤ n < 2q+1 ) ≤
n

1 (2q ε)2

2 σj j<2q+1

e dunque
+∞ q=1 +∞

Pq ≤

q=1

1 (2q ε)2

2 σj = j<2q+1

Universit` di Torino, a.a. 2003-2004 a

gi` segnalato precedentemete. cio` tutte con la e distribuzione uguale a quella di una stessa v.. q. ciascuna con probabilit` p di successo e q = 1 − p di fallimento.d. allora esse ammettono valor medio finito. + Xn = µ) = 1 .e. + Xn = n XdP ) = 1 .a. +∞ 2−2q = 2q+1 >j q=s = 4 −2s 16 2 ≤ 2 3 3j 2 σj < +∞ . Ω Ω * * * Quaderni Didattici del Dipartimento di Matematica . Per una successione di v.116 Capitolo 6. gi` dimostrato nel 1909: a Teorema di Borel. Ricordiamo infine il seguente risultato. Ω Ω n→+∞ e viceversa. La legge dei grandi numeri = Se 2s ≤ j < 2s+1 . Allora P ( lim fn = p) = 1 . X (Xk ∼ X). Sia fn = la frequenza relativa dei sucessi a nelle prime n prove.a. & & & Segue immediatamente come corollario il seguente teorema. Si consideri uno schema binomiale di prove indipendenti. Teorema. anch’esso dovuto a a Kolmogorov.. n→+∞ Infatti la serie +∞ k=1 pq k2 converge. µ ∈ R ⇒ n→+∞ n |X|dP < +∞ e µ = XdP .. uguale a tale limite: P ( lim X1 + X2 + . se la loro media aritmetica (X1 + X2 + . Xk identicamente distribuite. allora 1 ε2 +∞ 2 σj j=1 2q+1 >j 2−2q ... j2 e pertanto +∞ q=1 Pq ≤ 16 3ε2 +∞ j=1 per l’ipotesi del teorema. e mutuamente indipendenti vale la legge forte dei grandi numeri se esse ammettono valor medio finito: |X|dP < +∞ ⇒ P ( lim X1 + X2 + .. + Xn )/n converge quasi certamente ad un limite finito.

Cominciando dalla seconda parte. Universit` di Torino. la v. in virt` dell’unicit` del limite. osserviamo che X ` integrabile se (e solo e se) +∞ n=1 P ({|X| ≥ n }) ≤ +∞ . a. in considerazione del lemma di Borel-Cantelli e poich´ Xn ∼ X. deve essere e +∞ n=1 +∞ P ({|Xn | ≥ n }) = n=1 P ({|X| ≥ n }) < +∞ ed X ammette valor medio finito E(X). se An = {|Xn | ≥ n } = {|Xn /n| ≥ 1 }. e allora. anche F ` integrabile e la prima serie converge). essendo F − 1 ≤ |X|.1) k=0 (k + 1)P ({k ≤ |X| < k + 1 } < +∞ ..A. altrimenti ragioneremmo sulla successione Xn − E(X). ponendo Sn = X1 + X2 + .c. risulta integrabile e basta allora applicare il teorema sulla convergenza dominata. Usiamo poi un metodo di troncamento simile a quello impiegato nella dimostrazione del teorema di Khintchin. ponendo Yn = Xn 0 se |Xn | < n se |Xn | ≥ n Allora. essendo le Xn identicamente ditribuite (con la distribuzione di X): n V (Yn ) ≤ e quindi +∞ 2 E(Yn ) ≤ k=0 (k + 1)2 P ({k ≤ |X| < k + 1 }) V (Yn ) 1 ≤ 2 n n2 n=1 n=1 +∞ +∞ n k=0 (k + 1)2 P ({k ≤ |X| < k + 1 }) = 1 ≤4 n2 n = k=0 (k + 1)2 P ({k ≤ |X| < k + 1 }) n≥max(k. + Xn .c. e Ma. si ha Sn Xn Sn − Sn−1 Sn n − 1 Sn−1 → µ q. Quando avremo dimostrato la prima parte della tesi risulter`. a u a Per quanto concerne la prima parte. che necessariamente µ = E(X). ⇒ = = − → 0 q. essendo +∞ n=0 +∞ +∞ +∞ P ({|X| ≥ n }) = n=0 k=n P ({k ≤ |X| < k + 1 }) = k=0 (k + 1)P ({k ≤ |X| < k + 1 }) .a. n n n n n n−1 e allora. Allora.. (Inversamente se X ` integrabile.Negro.a. dominante X. 2003-2004 a . pu` risultare che An si verifichi per infiniti o indici n solo con probabilit` 0: a P (∩k ∪n≥k An ) = 0 . discreta F (ω) = (k + 1) per ω ∈ {k ≤ |X| < k + 1 }. Infatti in tal caso. Elementi di Calcolo delle Probabilit` a 117 Dimostrazione. osserviamo in primo luogo che non ` restrittivo supporre e E(X) = 0.

. N P (∪n≥N { Xn = Yn }) ≤ n≥N P ({ Xn = Yn }) = n≥N P ({|Xn | ≥ n}) → 0 . per k ≥ 1: e n≥k 1 1 ≤ 2+ n2 k n>k 1 1 = 2+ n(n − 1) k ( n>k 1 1 1 1 2 − )= 2 + ≤ (n − 1) n k k k e 2(k + 1)2 /k ≤ 4(k + 1). non fornisce alcuna “certezza sul comportamento asintotico delle medie aritmetiche..µn =0. indicando con χn la funzione caratteristica di |x| < n: µn = |Xn |<n Xn dP = Ω Xn χn (Xn )dP = XdP → 0 ..(Yn − µn ) = 0) = 1 .. e perch´ X ` integrabile e quindi la serie n P ({|Xn | ≥ n}) converge. La legge dei grandi numeri perch´. e Ma sul complementare C c . = Ω Xχn (X)dP = |X|<n µ1 + µ2 + .e. che ha probabilit` 1. & & & Osservazione.Yn X1 + X2 + . della media aritmetica dal a suo valor medio pu` essere resa arbitrariamente piccola per n sufficientemente grande. Dunque per la successione Yn vale la legge forte dei grandi numeri e dunque. si ha definitivamente Xn = Yn e dunque a n→+∞ lim Y1 + Y2 + ... Nel caso o della legge forte si afferma che la probabilit` di non convergenza della differenza della media a Quaderni Didattici del Dipartimento di Matematica . posto µk = E(Yk ): P ( lim n→+∞ (Y1 − µ1 ) + (Y2 − µ2 ) + .. n L’esistenza di E(X) finita e il fatto che Xn ha la stessa distribuzione di X implicano che. Dunque P (C) = 0. La legge dei grandi numeri.118 Capitolo 6. debole o forte. comunque prefissato. Allora risulta P (C) = lim P (∪n≥N { Xn = Yn }) .d. n Sia C l’nsieme dove per infiniti valori dell’indice n si ha Xn = Yn : n→+∞ Dunque anche lim C = ∩N ∪n≥N { Xn = Yn } . I risultati indicano soltanto che la probabilit` di deviazioni significative dal valor medio sono “trascurabili. n→+∞ n n q..Xn = lim = 0 = E(X) . Nel caso della legge debole si a afferma che la probabilit` di uno scostamento.

essi non “dimostrano che la probabilit` si ottiene come limite (nel senso ordinario) della a frequenza.a.Negro. a. Elementi di Calcolo delle Probabilit` a 119 aritmetica dal suo valor medio ` nulla (ma non impossibile). Universit` di Torino. e Anche se questi risultati “suggeriscono di interpretare la probabilit` come limite della frea quenza.A. 2003-2004 a .

[11] NEGRO. Ney York. Amer.I. Marcel Dekker.: Grundbegriffe der Wahrscheinlichkeits-Rechnung. 1984. J. [5] GALAMBOS. 1968. [2] BORKAR.-SKOROHOD. [10] ØKSENDAL. Quaderni del Dipartimento di Matematica. Springer-Verlag.: The Theory of Stochastic Processes I. John Wiley & Sons. New York.: Probability Theory. Trans.Bibliografia [1] BILLINGSLEY. [9] KOLMOGOROV. H. [13] VAN DER WAERDEN.: Mathematical Statistics.: Measure Theory. Universit` a di Torino.: The Theory of Probability. Ney York.: Teoria della Misura. 1988. B. 1969.: Teoria dei processi stocastici.N. New York. [4] DOOB J. 1983. A. [8] GNEDENKO. ´ [3] CRAMER. [12] STONE. Mir Publishers. 1971.L.: Convergence of Probability Measures. Springer-Verlag. [7] GIHMAN.1933.H. Springer-Verlag.S.: The Theory of Representations for Boolean Algebras. J.L. Roma. [6] GALAMBOS. Springer-Verlag. Math. 1989. M. A.: Introductory Probability Theory.V. 2001. Springer-Verlag. 1995.D. Berlin. New York 1993. Princeton University Press. Editori Riuniti Edizioni Mir. Berlin. 1973. I.: Mathematical Methods of Statistics. Berlin. A. 37-111. P. Moscow. A. B. 1974. B. 120 . Soc. 40 (1936). V.: Stochastic Differential Equations. Princeton. pp.: Advanced Probability Theory. Marcel Dekker. Verlag von Julius Springer. [14] VENTSEL. Berlin.