La probabilità e le sue interpretazioni

La probabilità di un evento è un numero compreso tra 0 e 1 (o, equivalentemente, tra
0 e 100%) che indica la possibilità che tale evento accada:
- 0 indica che l’evento non può accedere;
- 1 indica che l’evento accadrà sicuramente.
Ci sono tre principali interpretazioni della probabilità:
- classica (XVII sec.): si occupa di giochi ideali in cui ogni prova di un
esperimento viene fatta in perfette condizioni di uniformità (es. lancio di un
dado non truccato). Per ogni esperimento di un gioco ideale, l’evento A si verifica
se l’esperimento risulta negli esiti favorevole ad A. Quindi la probabilità
dell’evento A [detta P(A)] è il rapporto tra il numero dei possibili esiti favorevoli
(
A
N ) e il numero totale di possibili esiti per quell’esperimento (N):
( )
A
N
P A
N
=
- frequentistica (o empirica): ha senso in quanto sopperisce alle mancanze
dell’interpretazione classica (quest’ultima si può usare solo per esperimenti
ideali nei quali tutti i possibili esiti sono noti in precedenza e tutti ugualmente
probabili). Inoltre, se nell’interpretazione classica le probabilità sono
determinate prima che un esperimento sia fatto (a priori), nell’interpretazione
frequentistica le probabilità vengono determinate dai risultati dei precedenti
esperimenti (a posteriori). Secondo questa interpretazione, la probabilità di un
evento A [detta P(A)] è approssimativamente uguale al rapporto tra il
numero di volte che si è verificato l’evento A in una lunga sequenza di prove
(
A
n ) e il numero totale di prove della sequenza n:
( )
A
n
P A
n
≈ ( ) , solo se
A
n
P A n
n
⎛ ⎞
= →∞
⎜ ⎟
⎝ ⎠

Si parla anche di legge dei grandi numeri (teorema di Bernoulli). Questa
legge dice che, per un numero n di prove di un esperimento, se
A
n è il numero di
volte in cui si verifica A in quelle prove e P(A) è la probabilità che in una
qualsiasi prova si verifichi A, allora la frequenza relativa
A
n
n
si avvicinerà
sempre più a P(A) man mano che n cresce;
- insiemistica: vedi oltre
(1)
.

Definizione astratta o assiomatica della probabilità (Kolmogorov)

In ogni situazione probabilistica si fanno intervenire:
- uno spazio ambiente S (detto anche spazio campione);
- una famiglia E di sottoinsiemi di S, detti eventi (che si indicano con E,
maiuscola);
- una funzione f : E →
{ } 0
+
∪ R detta misura di probabilità.

Quella di E è detta sigma-algebra perché, applicate agli eventi le operazioni
conosciute di insiemistica, non uscirò mai da questo insieme. Affinché ciò avvenga
dobbiamo soddisfare 3 richieste: dato un insieme non vuoto S e una famiglia non vuota
E di sottoinsiemi di S, allora deve accadere che:
1) E ; S∈
2) E ; S E − ∈
3) la riunione di un numero finito o infinito di una famiglia numerabile di elementi di
E dev’essere ancora un elemento di E.

Insiemi, sottoinsiemi e spazio degli eventi

Un insieme è una particolare raccolta di oggetti; gli oggetti che “appartengono a” o
sono “contenuti in” un insieme si chiamano elementi dell’insieme e sono indicati
tramite un elenco o specificando la proprietà che li definisce.

Es. Insieme S = Numeri interi da 1 a 5.
Rappresentazione: S = {1, 2, 3, 4, 5} oppure S = { x | x è un intero e 1 5}. x ≤ ≤

Un sottoinsieme è ogni qualsiasi parte di un insieme.
Es. Sottoinsiemi di S: {1, 5}, {1, 2, 3}, {1, 3, 4}
NOTA: In un insieme di n elementi sono presenti sottoinsiemi. 2
n

Se un insieme non contiene nulla è detto insieme vuoto o nullo.
Abbiamo già detto che in statistica un esperimento è un qualsiasi processo che produce
una misura e ha uno spazio degli eventi: quest’ultimo altro non è che l’insieme i cui
elementi sono tutti gli esiti possibili dell’esperimento.
Lo spazio degli eventi può essere finito (esperimento lancio del dado) o infinito.

L’intera teoria degli insiemi
(1)
si basa su tre assiomi:
1) (la probabilità di un evento non può essere negativa). ( ) 0 P A ≥
2) (la probabilità applicata allo spazio degli eventi S è sempre 1). ( ) 1 P S =
3) Regola speciale di addizione (v. più avanti): ( ) ( ) ( P A B P A P B ∪ = + ) se A e B sono
mutuamente esclusivi.

Da questi assiomi derivano le note proprietà della probabilità classica e della
probabilità frequentistica, ovvero:
1) (è nulla la probabilità dell’evento vuoto di S). ( ) 0 P ∅ =
2) ( ) 0 P A ≤ 1 ≤
=
(la probabilità di un evento è compresa fra 0 e 1).
3) (la probabilità di un evento sommata a quella del suo
complementare è sempre 1).
( ) ( ) ' 1 P A P A +
4) Se gli eventi sono tutti mutuamente esclusivi allora si verifica che
1 2 3
, , ,...,
k
A A A A
( ) ( ) ( ) ( )
1 2 1 2
... ...
k k
P A A A P A P A P A ∪ ∪ ∪ = + + + .
5) Se S contiene n eventi semplici che hanno ciascuno una probabilità
i
e ( )
i
P e
allora . ( )
1
1
n
i
i
P e
=
=

6) Se un evento A contiene k eventi semplici allora .
i
e ( ) ( )
1
k
i
i
P e P A
=
=

7) Se S contiene N eventi semplici ugualmente possibili allora
i
e
( )
1
i
P e
N
= e ( )
( )
1
A
P A N
N
= .

Eventi

Ogni esito particolare (o gruppo di esiti) di un esperimento si chiama evento; in
particolare, grazie alla teoria degli insiemi, possiamo dire che un qualsiasi
sottoinsieme particolare dello spazio degli eventi è un evento.
Un evento semplice (o evento elementare) è un sottoinsieme che contiene un solo esito
(elemento) che non può essere suddiviso in un esito più semplice.
Un evento composto (indicato con la lettera maiuscola), invece, è definito come un
sottoinsieme dello spazio degli eventi che contiene più di un evento semplice.

Calcolo combinatorio

Il calcolo combinatorio è la parte della matematica che descrive il modo in cui si
possono contare il numero totale di eventi di un insieme, ed è molto utile per calcolare
le probabilità degli esiti ottenuti da una sequenza di prove di un esperimento.
Considereremo i seguenti tre argomenti:
- principio di moltiplicazione: determina il numero totale di eventi semplici
quando ci sono due o più prove di un esperimento. Se un esperimento ha due
prove consecutive in cui la prima prova ha esiti possibili e, dopo che questa è
stata fatta, la seconda prova ha esiti possibili, allora il numero totale di
eventi semplici è . Estendendo il principio di moltiplicazione per coprire più
di due prove: se un esperimento ha k prove consecutive con esiti possibili per
la prima prova, per la seconda, …, per la k-esima, allora il numero totale
di eventi semplici è dato da questa formula:
1
n
2
n
1 2
n n
1
n
2
n
k
n
1
k
eventi j
j
n n
=
=


- permutazioni: qualsiasi disposizione di oggetti in uno specifico ordine è una
permutazione degli oggetti. La permutazione è un caso particolare del principio
di moltiplicazione e ci dice il numero di specifici ordinamenti che si possono
avere prendendo gli oggetti uno dopo l’altro da un insieme. Abbiamo un insieme
di n oggetti distinti da cui scegliamo, uno dopo l’altro, r oggetti : nella
prima prova scegliamo dall’insieme intero, nella seconda volta l’oggetto scelto
nella prima prova non è più disponibile (numero oggetti rimasti: n – 1), in una
terza volta non abbiamo invece a disposizione i due oggetti pescati prima
(rimasti: n – 2), etc... Alla fine delle r prove rimarranno infine n – r + 1 oggetti.
(r n ≤ )
Il numero di possibili ordinamenti (permutazioni), quindi, degli n oggetti
distinti presi r alla volta è:
( ) ( )
,
1 ... 1
n r n r
P P n n n r = = − − +
Possiamo semplificare questa scrittura facendo uso della scrittura coi fattoriali:
( )
,
!
!
n r
n
P
n r
=


- combinazioni: se si ha un insieme di n oggetti distinti, e se ne scelgono r
, senza che ci interessi l’ordine in cui gli oggetti vengono disposti, allora
ogni gruppo distinto di r oggetti così scelti è una combinazione. Il numero di
possibili combinazioni di n distinti oggetti presi r alla volta è data dalla
seguente formula:
(r n ≤ )
( )
( )
,
1 ...( 1)
!
! !
n r n r
n n n r
n
C C
r r n
− − +
= = =
− ! r


Probabilità condizionata

Se abbiamo due eventi (A, B) e vogliamo determinare la probabilità dell’intersezione
, dobbiamo rispondere a questa domanda: qual è la probabilità che gli eventi
A e B si verifichino entrambi? Se, d’altra parte, vogliamo determinare una probabilità
condizionata, dobbiamo chiederci: qual è la probabilità che si verifichi A sapendo che si
è verificato B (o viceversa)?
( P A B ∩ )

Regola generale di moltiplicazione

Le regole di moltiplicazione della probabilità calcolano la probabilità che due eventi si
verifichino entrambi [ovvero calcolano la ( ) P A B ∩ ].
La regola generale di moltiplicazione si applica all’intersezione di eventi dipendenti e
quindi si usa il concetto di probabilità condizionata. L’espressione
(
P A B
)
, che indica
la probabilità che un evento A si verifichi dato che B si è verificato, può essere vista
come il numero di volte che due eventi (A e B) si verificano insieme, in rapporto al
numero totale di volte che può verificarsi B. In notazione:
( )
( )
( )
P A B
P A B
P B

=
( )
( )
( )
P A B
P B A
P A

=
Esplicitando : ( ) P A B ∩
( ) ( )
( ) P A B P A B P B ∩ = (regola generale
( ) ( )
( ) P A B P B A P A ∩ = di moltiplicazione)

Regola generale di moltiplicazione per k eventi:
( ) ( ) ( ) ( ) ( )
1 2 3 1 2 1 3 2 1 1
... ...
k k k k
P A A A A P A P A A P A A A P A A A

∩ ∩ ∩ ∩ = ∩ ⋅ ⋅ ∩

Eventi indipendenti e dipendenti

Due eventi si dicono indipendenti se il verificarsi di uno non influenza la probabilità
del verificarsi o meno del secondo. Questa affermazione per gli eventi indipendenti A e
B si può esprimere utilizzando la probabilità condizionata nel seguente modo:
( ) ( ) P A B P A =
( ) ( ) P B A P B =
In sostanza la probabilità condizionata di A (dato B) è uguale alla probabilità
incondizionata di A, e che la probabilità condizionata di B (dato A) è uguale alla
probabilità incondizionata di B. Per questo A e B sono indipendenti.

COROLLARIO: se abbiamo una famiglia di eventi indipendenti, e se a uno di questi
eventi vado a sostituire il suo complementare, tale famiglia rimane di eventi
indipendenti.

Regola speciale di moltiplicazione

Calcola la probabilità che due eventi indipendenti si verifichino entrambi.
L’indipendenza di tali eventi ci permette di semplificare la formula generale di
moltiplicazione (già esposta):
( ) ( ) ( ) ( ) ( ) P A B P A B P B P B P A ∩ = =
( ) ( ) ( ) ( ) ( ) P A B P B A P A P A P B ∩ = =

In breve (tenendo presente la commutatività della moltiplicazione):
( ) ( ) ( ) P A B P A P B ∩ =

Regola generale di addizione

Per l’unione di due eventi mutuamente esclusivi A e B abbiamo visto che l’addizione
consiste in: . ( ) ( ) ( ) P A B P A P B ∪ = +
Vogliamo però avere una regola generale che si applichi anche a eventi non esclusivi.
Trasformiamo la regola speciale di addizione:
( ) ( ) ( ) P A B P A P B ∪ = +
( )
1 1
A B
P A B N N
N N
⎛ ⎞ ⎛ ⎞
∪ = +
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠

questa equazione si applica solo all’unione di eventi mutuamente esclusivi perché
altrimenti gli eventi semplici (che stanno nell’intersezione dei due eventi) verrebbero
contati due volte. La modifica che possiamo fare è dunque aggiungere un termine:
( )
1 1
A B A B
P A B N N N
N N

⎛ ⎞ ⎛ ⎞ ⎛ ⎞
∪ = + −
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
1
N

E dunque:
( ) ( ) ( ) ( ) P A B P A P B P A B ∪ = + − ∩
(regola generale d’addizione)

Ovviamente, se gli eventi sono mutuamente esclusivi, ( ) P A B ∩ è pari a zero e ci
riconduciamo alla regola speciale di addizione.

Dimostrazione tramite I DIAGRAMMI DI VENN: abbiamo due insiemi, A e B, che si
intersecano all’interno dello spazio degli eventi.
Chiamiamo la parte “solo di A” Æ I
Chiamiamo la parte “solo di B” Æ III
Chiamiamo la parte nell’intersezione Æ II
In pratica si ha che


e che
A I II
B III II
= ∪
= ∪

A B I II III ∪ = ∪ ∪
Ora dimostriamo che se sommiamo senza particolare accorgimenti i due insiemi interi
otteniamo un termine in cui compare due volte l’intersezione (termine che dovrà essere
eliminato se vogliamo la somma che ci interessa):

( ) ( )
( ) ( )
( ) +
( ) =
P A P I P II
P B P II P III
= +
= +


( ) ( ) ( ) ( ) ( ) 2 P A P B P I P II P III + = + +

( ) ( ) ( ) ( ) P A P B P A B P A B + = ∪ + ∩
Dunque, “portando di là”: ( ) ( ) ( ) ( ) P A P B P A B P A B + − ∩ = ∪

Ragionando in maniera simile, possiamo trovare l’unione di tre eventi:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( P A B C P A P B P C P A B P B C P A C P A B C ∪ ∪ = + + − ∩ − ∩ − ∩ + ∩ ∩ )

Tabelle di contingenza, tabelle delle probabilità congiunte e
probabilità marginali

Prendiamo un esperimento in cui tutti gli esiti possibili possono essere disposti nelle
categorie mutuamente esclusive ed esaustive (totalmente inclusive) di due variabili.

Es.
Esperimento: un acquirente entra che entra in un concessionario d’auto.
Esito: compra o non compra una macchina.
Sesso dell’acquirente: maschio o femmina.

Tabella (di contingenza):

Sesso Acquista Non acquista
Probabilità
marginale
Uomo 40 30 70
Donna 10 20 30
TOTALE 50 50 100

Tabella (delle probabilità – si è diviso tutto per il numero totale di persone che sono
entrate in questo concessionario):

Sesso Acquista Non acquista
Probabilità
marginale
Uomo 0,4 0,3 0,7
Donna 0,1 0,2 0,3
TOTALE 0,5 0,5 1,0

LEGENDA:
Eventi-intersezione (Æ probabilità congiunte)
Probabilità marginale
NOTA: la probabilità che la prossima persona che entra sia un acquirente è
( ) (Acquista) (Acquista Uomo) Acquista Donna P P P = ∩ + ∩
Generalizzando i risultati: ( ) ( )
1
k
i
i
P B P A B
=
= ∩

O anche: ( ) ( ) ( )
1
k
i i
i
P B P A P B A
=
=



Probabilità marginali = probabilità congiunte


Teorema di Bayes (per la probabilità delle cause)

Il teorema di Bayes ci permette di fare considerazioni relative al passato, che vanno,
cioè, dall’effetto alla causa.
Sia B un evento che possa verificarsi in k modi mutuamente esclusivi ed esaustivi .
La probabilità che si verifichi un certo evento (preso fra gli i individuati da k) sarà
allora:
i
A
I
A
( )
( ) ( )
( ) ( )
1
I I
I
k
i i
i
P A P B A
P A B
P A P B A
=
=


DIMOSTRAZIONE:
Partiamo dalle formule generali per il calcolo della probabilità condizionata:
1)
( )
( )
1
1
, con ( ) 0
( )
P A B
P A B P B
P B

= ≠
2)
( )
( )
1
1 1
1
, con ( ) 0
( )
P A B
P B A P A
P A

= ≠
Esplicitiamo da entrambe il termine ( )
1
P A B ∩ :
1)
( ) ( )
1 1
( ) P A B P B P A B = ∩
2)
( ) ( )
1 1 1
( ) P B A P A P A B = ∩
Messe a sistema, queste due relazioni ci permettono di eguagliare:
( ) ( )
1 1
( ) ( ) P A B P B P A P B A =
1

Da qui, dividendo per P(B):
( )
( )
1 1
1
( )
( )
P A P B A
P A B
P B
=
Non ci rimane da fare altro che sostituire a P(B) l’espressione della formula della
probabilità marginale [ ( ) ( )
1
( )
k
i i
i
P B P A P B A
=
=

]
( )
( )
( ) ( )
1 1
1
1
( )
k
i i
i
P A P B A
P A B
P A P B A
=
=

.

Teorema dell’affidabilità di un sistema

In estrema sintesi, l’affidabilità di un sistema è la probabilità che il sistema funzioni.
Se abbiamo un sistema costituito da più parti (dette componenti) e se l’affidabilità di
tali parti elementari è nota, è possibile calcolare l’affidabilità “complessiva”?

S Æ Sistema di n componenti
k
a Æ Affidabilità del componente k

COMPONENTI CONNESSI IN SERIE:
affidabilità del sistema Æ
1
n
k
k
a
=


(il sistema funziona soltanto se tutti i singoli componenti funzionano)
DIMOSTRAZIONE: sia la probabilità che il componente k funzioni. Allora,
la probabilità dell’evento S = { il sistema funziona } si trova così:
k
A
1 2 3
...
n
S A A A A = ∩ ∩ ∩ ∩
Siccome, tuttavia, gli eventi sono fra loro indipendenti, possiamo sostituire il
segno intersezione con il segno moltiplicativo e sostituire gli eventi con la loro
probabilità.
k
A
( ) ( ) ( ) ( ) ( )
1 2 3
...
n
P S P A P A P A P A = ⋅ ⋅ ⋅ ⋅

COMPONENTI CONNESSI IN PARALLELO:
affidabilità del sistema Æ ( )
1
1 1
n
k
k
a
=
− −

(il sistema funzione se almeno uno dei componenti funziona)
DIMOSTRAZIONE:
( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) (
1 2
1 2 3
1 2 3
1 1 ...
1 ...
1 1 1 1 ... 1
C C C
n
C C C C
n
n
P S P S P A A A
P A P A P A P A
P A P A P A P A
= − = − ∩ ∩ ∩ =
= − ⋅ ⋅ ⋅ ⋅ =
= − − ⋅ − ⋅ − ⋅ ⋅ −
)
C


Variabili casuali (discrete e continue)

Una variabile casuale è una funzione a valori reali definita sullo spazio degli eventi di
un esperimento determinato casualmente.

ESEMPIO: due lanci di una moneta; variabile casuale = numero di teste nei due lanci.
Dominio (spazio degli eventi): { TT, TC, CT, CC }.
Immagine: S = { 0, 1, 2 }.

La legge di associazione per una variabile casuale assegna uno e un solo numero reale
ad ogni evento semplice dello spazio degli eventi. Le variabili casuali si indicano con le
lettere maiuscole e la probabilità che la variabile casuale X assuma il valore x si indica
con P(X = x).
Esistono due tipi di variabili casuali: continua e discreta. La relazione tra queste due
versioni è che hanno entrambe a che fare con valori di misura numerici che sono gli
esiti di un esperimento statistico. Passiamo ora alla differenza fondamentale: una
variabile casuale discreta ha uno spazio degli eventi S che è finito o infinito
numerabile; una variabile casuale continua ha – invece – uno spazio degli eventi che è
infinito e non numerabile.

DEFINIZIONE RIGOROSA:
S = spazio campione finito o infinito numerabile = .
1 2
{ , ,..., }
n
e e e
: P E { } 0
+
⎯⎯→ ∪ R
Una variabile aleatoria X è una funzione : X S A ⎯⎯→ ⊆ R
( ) ( ( ) valore numerico della v.a.
i i
e x
i
) v.a. discreta X =
I° CASO: X è una funzione 1-1 se per due eventi
i
j j
e x
e x
→ ⎧





, con , allora i j ≠
i j
x x ≠ .
Allora in tal caso posso scrivere: ( ) ( ) ( )
i i
P X x P e f x = = =
i
i
i

II° CASO: Se invece più eventi portano a , e quindi si ha che ,
dunque X regge una funzione suriettiva, allora
i
x
1 2
, ,...,
i i ik
e e e x →
( ) ( ) ( ) ( )
1 2
1
...
k
i i i ik ij
j
P X x P e e e P e f x
=
= = ∪ ∪ ∪ = =

.
NB: gli esiti sono mutuamente esclusivi e disgiunti.
In entrambi i casi ( )
i
f x è una funzione di probabilità discreta (o distribuzione di
probabilità discreta) e ha la rappresentazione di una probabilità: fra le sue proprietà,
quella di essere sempre maggiore o uguale a zero (le probabilità negative non hanno
senso); la somma di tutte le probabilità, cioè , è pari a 1. ( )
i
i
f x

Distribuzioni di probabilità discrete

Abbiamo già detto che una funzione di probabilità è una funzione matematica che
assegna dei numeri reali detti probabilità agli eventi di uno spazio degli eventi. Tale
funzione ha un dominio (eventi dello spazio degli eventi) e un’immagine (tutte le
probabilità assegnate a questi eventi).
Per le variabili casuali discrete il dominio della funzione di probabilità consiste di tutti
i valori che la variabile casuale può assumere (X = x) e l’immagine della funzione di
probabilità consiste di tutte le probabilità assegnate a questi valori [P(X = x)].
In questo caso, in cui lo spazio degli eventi è definito da una variabile casuale discreta,
la funzione di probabilità si può chiamare distribuzione di probabilità discreta.
Essa può essere presentata in quattro modi:
- come formula;
- come lista;
- come tabella;
- come grafico delle probabilità (ricavato dalla formula); es. istogramma,
diagramma a bastoncini...

Distribuzioni di probabilità continue

Una distribuzione (o funzione) di probabilità continua fa corrispondere

probabilità Æ eventi dello spazio degli eventi
(di una variabile casuale continua, che assume numero infinito
NON numerabile di valori specifici)

Esaminiamo alcune differenze importanti.
PROPRIETÁ VARIABILE DISCRETA (indicata da X) Æ DISTRIBUZIONE DI
PROBABILITÁ DISCRETA [indicata da f(x)]:
• per ogni valore “discreto”, indica il valore specifico che essa assume;
• il dominio della funzione è costituito da tutti gli eventi semplici (X = x) dello
spazio degli eventi definito da X e l’immagine è costituita dalle probabilità
assegnate a questi eventi semplici. Ciò significa che posso scrivere P(X = x) =
f(x) e trovare, per una determinata x, la probabilità corrispondente, che è
sempre maggiore o uguale di zero;
• sommando tutti i valori: ( ) ( ) 1
x
f x P S = =

.

PROPRIETÁ VARIABILE CONTINUA (ancora indicata da X) Æ DISTRIBUZIONE
DI PROBABILITÁ CONTINUA [indicata da f(x)]:
• per ogni valore fra tutti gli infiniti da scegliere nel dominio appropriato, indica
valori specifici che essa assume;
• sembra impossibile, ma P(X = x) = 0, e sempre. Questo perché esistono infiniti
valori (è un infinito non numerabile) che la nostra variabile può assumere, e le
possibilità che essa assuma un solo preciso e definito valore (fra tutti gli infiniti
altri) sono nulle (infinitesimali);
• non possiamo assegnare dei valori ad ogni evento semplice, ma solo assegnare
un numero reale detto densità di probabilità ad ogni evento semplice;
• essendo i valori infiniti, non facciamo una somma, bensì facciamo un integrale:
( ) ( ) d ( P X f x x P S
+∞
) 1
−∞
−∞ < < ∞ = = =

. Questo metodo che fa uso degli integrali è
sempre applicabile per scoprire qual è la probabilità che la variabile aleatoria
sia compresa fra gli estremi di integrazione a e b: ( ) ( ) d 0
b
a
P a X b f x x ≤ ≤ = ≥

.
Tale particolare ci fa capire meglio come sia impossibile che la variabile
continua assuma un preciso valore; l’area sotto la funzione delimitata da quel
singolo valore è infatti quella di un rettangolo degenere di area 0:
. Inoltre, le proprietà di tale calcolo integrale fanno sì
che:
( ) ( ) d 0
a
a
P a X a f x x ≤ ≤ = =

( ) ( ) ( ) ( ) P a X b P a X b P a X b P a X b < ≤ = ≤ ≤ = < < = ≤ <

Funzione di distribuzione (o ripartizione) di una variabile casuale
discreta

La funzione di distribuzione cumulata di una variabile casuale discreta è un modello
matematico della distribuzione cumulata cosiddetta “minore-uguale”: essa, infatti, dà
la probabilità che la variabile casuale X assuma un valore che è minore o uguale a un
certo valore.
Tale funzione, indicata con ( ) F x
( ) ( ) F x P X x = ≤
è definita per tutti i numeri reali ( ) x −∞< < +∞ .
Se X è una variabile casuale discreta e vogliamo conoscere ( ) P X a ≤ per ogni numero
reale a, questa probabilità si può calcolare con la formula
( ) ( )
x a
F a f x

=


Il grafico di una funzione di questo tipo è a “gradini” discreti (e “ascendenti”: la
funzione non può calare, ma cresce sempre o al limite rimane costante). La dimensione
del gradino a ogni valore della variabile casuale (X = x) è uguale a . ( ) ( ) P X x F x = =

Grazie alle proprietà di questa funzione possiamo scrivere:
1) ( ) ( ) ( P a X b F b F a < ≤ = − )
2) ( ) ( ) ( ) ( ) P a X b F b F a f a ≤ ≤ = − +
3) ( ) ( ) ( ) ( ) P a X b F b F a f b < < = − −
4) ( ) ( ) ( ) ( ) ( ) P a X b F b F a f a f b ≤ < = − + −

In queste formule il termine ( ) ... f + aggiunge uno degli estremi (il termine a), il
termine ne toglie uno (l’estremo b), il termine ( ) ... f − ( ) F a delimita l’intervallo da b ad
a (cavando i valori della distribuzione cumulata che stanno tutti a sinistra di a stesso).

Proprietà della funzione di ripartizione:
- è sempre positiva o, al limite, pari a zero;
- è sempre una funzione monotòna non decrescente;
- , ( ) 0 F −∞ = ( ) 1 F +∞ =
- F si dice “continua a destra”: infatti
1
lim ( ) (1)
x
F x f
+

= .

Funzione di distribuzione cumulata di una variabile casuale
continua

È l’analogo (per le variabili casuali continue) della funzione di distribuzione cumulata
già descritta per le variabili casuali discrete. Ha proprietà simili (cresce sempre, o al
limite rimane costante, etc…) ma com’è prevedibile, il valore di tale funzione in a si
definisce attraverso un integrale:
( ) ( ) d
a
F a f x x
−∞
=


Dunque, tale valore si determina trovando l’area che sta al di sotto del grafico di
densità di probabilità, compresa fra ( ) x a −∞< < .

È sempre vero che ( ) ( ) ( ) ( ) ( ) ( ) P a X b P a X b P a X b P a X b F b F a < ≤ = ≤ ≤ = < < = ≤ < = − ,
in quanto . ( ) 0 P X x = =

Alcune osservazioni:
- f(x) dev’essere Riemann-integrabile in senso generalizzato su , ma non deve
essere necessariamente continua;
R
- f(x) ha le dimensioni di una probabilità diviso una lunghezza;
- e, ovviamente, [ ] ( ) d P x f x
+∞
−∞
−∞ < < +∞ =

x
[ ] ( ) d
b
a
P a x b f x x < < =

;
-
( ) ( )
d
d
F a f a
a
= .

Valore atteso (speranza matematica, expectation) di una variabile
casuale discreta

Una distribuzione di probabilità ha una media che è conosciuta come valore atteso;
nelle distribuzioni che studiamo, questa media è uno dei due indicatori fondamentali
che misurano:
- la tendenza centrale: (valore atteso)
- la dispersione: (varianze, scarti quadratici)
Il valore atteso della distribuzione di probabilità di una variabile casuale discreta è
definito come segue: se X è la variabile casuale discreta che può assumere i valori
1 2
, , ... ,
k
x x x con le rispettive probabilità ( ) ( ) ( )
1 2
, , ... ,
k
f x f x f x , allora il valore atteso
di X, indicato da E (x), è
( ) ( )
1
( )
k
i i
i x
E X x f x x f μ
=
= = =
∑ ∑
x
Il valore atteso è considerato come una media per il fatto che indica che in molte
ripetizioni dell’esperimento potete “attendervi” che questo valore sia la media dei
risultati.

Bisogna fare una piccola precisazione sulla formula che abbiamo ora scritto. Il valore
atteso di una variabile casuale discreta è in principio considerato una media ponderata
della variabile; E(X) è la media ponderata di tutti i possibili valori che X può assumere
con ogni valore pesato dalla sua probabilità. Quindi:
1
1
( )
( )
( )
k
i i
i
x
k
i
i
x f x
E X
f x
μ μ
=
=
= = =



Tuttavia il termine al denominatore è sempre pari a 1, quindi ci riconduciamo alla
formula precedente.

Possiamo anche calcolare il valore atteso di una funzione di variabile casuale discreta.
X Æ variabile casuale discreta, che può assumere i valori
1 2
, , ... ,
k
x x x ;
( ) ( ) ( )
1 2
, , ... ,
k
f x f x f x Æ probabilità che la variabile casuale assuma i corrispettivi
valori
1 2
, , ... ,
k
x x x ;
g(X) Æ funzione di X
Valore atteso di g(x): ( ) ( ) ( ) ( ) ( )
1
k
i i
i x
E g X g x f x g x f x
=
⎡ ⎤ = =
⎣ ⎦
∑ ∑


Alcune osservazioni:
- Qual è il valore atteso di ? .
2
x
( )
( ) ( )
2 2 2
1
n
i i
i x
E x x f x x f x
=
= =
∑ ∑
- E il valore atteso di a ? bx + ( ) ( ) ( ) ( ) ( )
x x x
E a bx a bx f x a f x b xf x + = + = +
∑ ∑ ∑
=
. ( )
( ) ( )
x
a f x bE x a bE x = + = +

- Il valore atteso di una costante è la costante stessa.

Valore atteso di una variabile casuale continua

Il valore atteso E(X) della distribuzione di probabilità di una variabile casuale
continua è paragonabile al valore atteso E(X) di una variabile casuale discreta. La sola
differenza è che il valore atteso discreto è definito con la notazione di sommatoria
mentre il valore atteso continuo è definito con il calcolo integrale (la sommatoria è
infinita).

Se X è una variabile casuale continua con funzione di densità f(x), allora il valore
atteso di X è definito da
( ) ( ) d E X xf x μ
+∞
−∞
= =

x

Per variabili casuali continue, il valore atteso rappresenta, in un certo senso, il
baricentro di X.

Alcune osservazioni:
- Qual è il valore atteso di ? a bx + ( ) ( ) E a bx a bE x + = + .

Varianza e scarto quadratico medio di una variabile casuale
discreta

Un’importante misura di dispersione è la varianza di una variabile casuale discreta.
Per una variabile casuale discreta X, la varianza di X (e della sua distribuzione di
probabilità) è il valore atteso degli scarti quadratici di X dalla sua media. Quindi:
( ) ( )
2 2
2
Var( ) X E X E X E X σ μ
⎡ ⎤ ⎡ ⎤
= = − = −
⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦

Abbiamo determinato un paio di paragrafi fa che il valore atteso di g(X) [funzione di
variabile casuale discreta] è: ( ) ( ) ( )
1
k
i i
i
E g X g x f x
=
⎡ ⎤ =
⎣ ⎦

.
Ora applichiamo questa formula a:
X Æ variabile casuale discreta, che può assumere i valori
1 2
, , ... ,
k
x x x ;
( ) ( ) ( )
1 2
, , ... ,
k
f x f x f x Æ probabilità che la variabile casuale assuma i corrispettivi
valori
1 2
, , ... ,
k
x x x ;

VARIANZA di X: ( ) ( ) ( ) ( ) (
2 2
2
1
k
i i
i x
)
2
E X x f x x σ μ μ μ
=
⎡ ⎤
= − = − = −
⎢ ⎥
⎣ ⎦
∑ ∑
f x
)

SCARTO QUADRATICO MEDIO:
radice quadrata della varianza ( ) (
2
x
x f x σ μ = −



Alcune osservazioni e dimostrazione:
- Calcoliamo il valore atteso dello scarto della variabile aleatoria:
( ) ( ) ( )
( )
( ) ( )
x
x f x +

( ) ( )
2 2
2 2 2 2
2 2
x x x x
E x a x a f x x ax a xf f x a a x f x
⎡ ⎤
− = − = − + = −
⎢ ⎥
⎣ ⎦
∑ ∑ ∑ ∑

Quindi si ha che: ( )
( )
( )
2 2
2
2 ( ) 1 a a a g E x E a x
⎡ ⎤
− = + ⋅ − =
⎢ ⎥
⎣ ⎦
)
x
=
E x
Analogamente, utilizzando la definizione operativa di varianza:
DEFINIZIONE OPERATIVA: , con ( ) (
2
2
x f σ μ −

=
( )
( ) ( ) ( ) ( )
2 2 2 2 2
2 2
x x x
x x f x x f x f x x xf σ μ μ μ μ = − + = + −
∑ ∑ ∑ ∑

( ) ( ) ( ) ( )
( )
2 2 2 2 2 2 2 2 2
2 2 E x E x E x E x E x μ μ μ μ μ μ = + − = + − = − = − .

Formule di calcolo per la varianza e per lo scarto quadratico
medio di una variabile casuale discreta

La definizione di varianza di una distribuzione di probabilità discreta si può usare per
trovare una formula operativa di calcolo.

Definizione: ( ) ( )
2
2
x
x f x σ μ = − =


Sviluppiamo il binomio:
( )
( )
2 2
2
x
x x f x μ μ = − +

=
Distribuiamo la sommatoria:
( ) ( ) ( )
2 2
2
x x x
x f x x f x f x μ μ = − +
∑ ∑ ∑
=
Giunti a questo punto notiamo che:
( ) 1
x
f x =

( )
x
x f x μ =


Trasformiamo la nostra relazione tenendo conto di queste due uguaglianze:
( )
2 2
2
x
x f x μ μ = − +

2
=
( )
2 2
x
x f x μ = −

=
Sappiamo che ( ) E X μ = e che
( )
( )
2 2
x
E X x f =

x e possiamo ancora modificare la
nostra relazione:
( )
( )
2
2
E X E X ⎡ ⎤ = −
⎣ ⎦


INFINE: ( )
( )
( )
2
2 2 2
x
x f x E X E X σ μ ⎡ ⎤ = − = −
⎣ ⎦



Varianza e scarto quadratico medio di una variabile casuale
continua

Sono concetti analoghi a quelli di varianza e scarto medio di una variabile casuale
discreta. Come al solito, quando si passa al continuo, le sommatorie diventano infinite
e si trasformano in integrali.

DISCRETO CONTINUO
( ) ( ) (
2 2
2
Var( )
x
) X E X x f x σ μ μ
⎡ ⎤
= = − = −
⎢ ⎥
⎣ ⎦

( ) ( )
2
Var( ) d X x f x μ
+∞
x
−∞
= −


2
σ σ =
2
σ σ =

La varianza di una variabile aleatoria continua indica quanto sono dispersi o
accumulati i valori attorno al baricentro di X. Trattasi, fra le altre cose, dell’analogo di
ciò che in fisica è del momento di inerzia.

Osservazioni:
- varianza di : a bX +
( ) ( )
{ }
[ ]
{ }
2 2
E a bX E a bX a bX a bμ ⎡ ⎤ + − + = + − −
⎣ ⎦
=
)

( ) ( ) (
2 2
2 2 2
var E b x b E x b x μ μ
⎡ ⎤ ⎡ ⎤
= − = − =
⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦
;
- varianza di una costante = 0;
- dunque anche la varianza di bX è
( )
2
var b x .

Funzione indicatrice di un evento E:
1 se si verifica l'evento
0 se non si verifica l'evento
X



Anche il suo quadrato, ovviamente:
2
1 se si verifica l'evento
0 se non si verifica l'evento
X



Il valore atteso della nostra funzione è ( ) ( ) E x P E =
Siccome la varianza della nostra variabile continua è, in maniera analoga al caso
discreto, , la varianza della nostra funzione è:
( )
( )
2
2
⎡ −

E X E X ⎤

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
2 2
var 1 x E x E x P E P E P E P E P E P E ⎡ ⎤ = − = − = − =
⎣ ⎦
.

Alcune proprietà di varianza e valore atteso (valgono per
variabili qualsiasi)

VALORE ATTESO
Linearità del valore atteso: ( ) ( ) ( ) ( )
1 2 1 2
... ...
n n
E x x x E x E x E x + + + = + + +
Se sono indipendenti e con valore finito, allora si ha che
1 2
, ,...,
n
x x x
( ) ( ) ( ) ( )
1 2 1 2
... ...
n n
E x x x E x E x E x ⋅ ⋅ ⋅ = ⋅ ⋅ ⋅

VARIANZA
Linearità della varianza (solo per variabili indipendenti e con valore finito):
( ) ( ) ( ) ( )
1 2 1 2
var ... var var ... var
n n
x x x x x x + + + = + + +
L’indipendenza è importante!
Esempio (l’indipendenza non è qui soddisfatta):
( ) ( ) var var 2var( )
var( )
var(2 ) 4var( )
x x x
x x
x x
⎧≠ + =

+

= = ⎪




Disuguaglianza di Markov

Sia X una variabile aleatoria non negativa, allora 0 a ∀ > si ha che è
sicuramente minore di
( ) P x a ≥
( )
E x
a
.
In pratica:
( )
( ) E X
P x a
a
≥ ≤

DIMOSTRAZIONE:
( ) ( ) ( ) ( ) ( )
0 0
d d d d
a
a
x xf E x x x xf x x x x f x x f x
+∞ +∞ +∞
−∞
= = +
∫ ∫ ∫ ∫
=
x è sicuramente positiva per ipotesi (per lo stesso motivo abbiamo cambiato gli
estremi dell’integrale).
f(x) , ovvero la densità di probabilità, è sempre maggiore di zero per sua natura.
Quindi tutto l’integrale è positivo. In base a quanto detto possiamo stabilire che:
( ) ( ) ( ) ( )
0
d (positivo) d d ( è più grande di , va all d ' )
a
a a a
xf x x xf x x xf x x x a a f x x
+∞ +∞ +∞
+ ≥ ≥
∫ ∫ ∫ ∫

Quindi la catena di disuguaglianze è fra: ( ) ( ) d
a
f x x E x a
+∞



In questa formula compare il termine ( ) d
a
f x x
+∞

, che è pari a ( ) P x a ≥ .
Dunque
( ) ( )
( )
(
E x
E x aP x a P x a
a
≥ ≥ ⇒ ≥ ≥ )
, come volevasi dimostrare.

Teorema di Chebyshev e la regola empirica

Il teorema di Chebyshev descrive la relazione tra lo scarto quadratico medio di una
distribuzione e la concentrazione di valori intorno alla media della distribuzione.
Esso dice che per qualsiasi numero k 1, la probabilità che una variabile casuale X
con media

μ e scarto quadratico medio σ assuma un valore nell’intervallo k μ σ ± è
almeno
2
1
1
k
− .

Applicando questa relazione alle distribuzioni di probabilità normali (che sono
distribuzioni continue), la probabilità che una variabile casuale X con media μ e
scarto quadratico medio σ che ha una distribuzione di probabilità
(approssimativamente) normalmente distribuita, c’è una probabilità di:
- che X assuma un valore nell’intervallo 0, 68 ≈ μ σ ± ;
- che X assuma un valore nell’intervallo 0, 95 ≈ 2 μ σ ± ;
- che X assuma un valore nell’intervallo 1 ≈ 3 μ σ ± ;

DIMOSTRAZIONE RIGOROSA:

TESI: se X è una variabile aleatoria di media μ e varianza
2
σ , allora per ogni r
positiva si ha che
( )
2
2
1 P x r
r
σ
μ − < ≥ −

Tale tesi si può esprimere anche così:
x r r x μ μ μ − < ⇔ − < < + r perché
x r x r
x r x r
μ μ
μ μ
− < ⇒ < + ⎧

− + < ⇒ > − +


Se poniamo
( )
2
1
1 (semplicemente sostituendo) r k P x k
k
σ μ σ = ⇒ − < ≥ −

DIMOSTRAZIONE:
{ }
{ }
2
2
(sono equivalenti) x r x r μ μ − < = − <
( )
( ) ( )
2
2
2
2
1 P x r P x r P x r μ − ≥
( )
(Å l’evento complementare) μ μ − < = − < = −
( )
Confrontiamo ora con la disuguaglianza di Markov P x
X
a
E
a
≥ ≤
( )
2
2
2 E x
r
Dunque:
( )
2
2
2
1 1 P x r
r
σ
μ
⎡ ⎤

= −
⎢ ⎥
⎣ ⎦
μ − < ≥ −

Esperimenti e prove di Bernoulli

Le prove di Bernoulli sono esperimenti “speciali”, con queste caratteristiche:
1. hanno solo due esiti: successo e insuccesso. Essi sono determinati casualmente e
sono mutuamente esclusivi: ciò implica che, se la probabilità di successo è pari a
p, la probabilità di insuccesso è q = 1 – p;
2. sono una sequenza fissa di n repliche identiche dello stesso esperimento di
Bernoulli;
3. sono indipendenti;
4. la probabilità di successo p (e dunque quella di insuccesso q) è la stessa in ogni
prova.

ESEMPIO DI PROVA DI BERNOULLI: un’urna contiene 20 palline identiche tranne
nel colore (10 sono rosse e 10 verdi). Le estrazioni con re-inserimento sono prove
bernoulliane.

Calcolo della varianza e del valore atteso:
l’esperimento di Bernoulli ha due risultati:
- successo (S)
- insuccesso (S
C
)
La variabile aleatoria associabile può essere:
1 (1) ( )
0 (0) ( ) 1 ( )
C C
S f P S p
x
S f P S q P S
⇒ = = ⎧


⇒ = = = − ⎪

Dunque:
( ) 1 0
var( ) (1 )
E x p q p
x p p pq
⎡ ⎤ = ⋅ + ⋅ =
⎢ ⎥
= ⋅ − =
⎣ ⎦


Variabile casuale binomiale, esperimenti e funzioni di probabilità

VARIABILE CASUALE BINOMIALE: variabile casuale discreta X utilizzata per
contare il numero di successi che si verificano in n prove di Bernoulli (= esperimento
binomiale).
FUNZIONE DI DENSITÁ DI PROBABILITÁ BINOMIALE: funzione che assegna una
probabilità ad ogni elemento nello spazio campione (definito da una variabile casuale
binomiale).

Coefficiente binomiale

Serve per determinare il numero di possibili permutazioni che è possibile effettuare
con n oggetti; in questo numero n sono inclusi solo due tipi d’oggetti (più avanti, tali
oggetti li chiameremo successo e insuccesso), x di un tipo e n – x di un altro tipo.
Risulta che tale numero di permutazioni è dato dalla formula per il numero di
combinazioni di n oggetti presi a gruppi di x oggetti alla volta (senza tenere conto del
loro ordine):
( )
!
! !
n
n
k n k k
⎛ ⎞
=
⎜ ⎟

⎝ ⎠
.

Funzione di probabilità binomiale

La funzione di probabilità usata per calcolare i valori della probabilità per la
distribuzione binomiale è basata:
- sulla generalizzazione della regola d’addizione per k eventi mutuamente
esclusivi;
- sulla generalizzazione della regola di prodotto per k eventi mutuamente
esclusivi.

Essa è (e verrà illustrata meglio in seguito): ( )
n x x
n
f x q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠
p (x = 0, 1, 2, …, n).

Media, varianza e scarto quadratico medio della distribuzione di
probabilità binomiale

Per ogni distribuzione di probabilità si definiscono:
- valore medio (o valore atteso): ( ) ( )
x
E X x f x μ = =

;
- varianza:
( )
2 2
x
x f x
2
σ μ = −

.
Poniamo ( )
n x x
n
f x q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠
p e quindi cerchiamo valor medio e varianza:
- valore medio (o valore atteso): ( )
n x x
x
n
E X x q
x
μ

p
⎡ ⎤
⎛ ⎞
= =
⎢ ⎥ ⎜ ⎟
⎝ ⎠
⎣ ⎦

. Questa relazione
diventa più facile con qualche passaggio: ( ) E X np μ = = ;
- varianza:
2 2
( )
n x x
x
n
2
x q p np
x
σ

⎡ ⎤
⎛ ⎞
=
⎢ ⎥ ⎜ ⎟
⎝ ⎠
⎣ ⎦

− . Anche questa relazione ha una
versione più facile, ricavabile matematicamente:
2
npq npq σ σ = ⇒ = .

Sviluppo binomiale e teorema binomiale

La funzione di probabilità binomiale e la distribuzione binomiale prendono il loro
nome dalla relazione con lo sviluppo binomiale. Un’espressione algebrica binomiale ha
due termini, che chiamiamo a e b: la loro somma (a + b) elevata all’n-sima potenza
genera, quando viene sviluppata, una somma di termini chiamata, appunto, sviluppo
binomiale. Per trovarne tutti i termini esiste una formuletta:
( )
0

n
n
n x x
x
n
a b a b
x

=
⎛ ⎞
+ =
⎜ ⎟
⎝ ⎠


Dove:
!

( )!
n
n
x n x x
⎛ ⎞
=
⎜ ⎟

⎝ ⎠
!

ESEMPIO:
( )
3
3
3 3 0 2 1 1 2 0 3 3 2 2
0
3
3! 3! 3! 3!
3 3
3! 2!1! 1!2! 3!
x x
x
a b a b a b a b a b a b a a b ab b
x

=
⎛ ⎞
+ = = + + + = + + +
⎜ ⎟
⎝ ⎠

3
)


Nella teoria della probabilità questi coefficienti sono importanti perché ponendo:
a = q (probabilità di fallimento) b = p (probabilità di successo)
n = numero di prove di Bernoulli x = numero di successi
siamo in grado di vedere la relazione tra la funzione di probabilità binomiale e lo
sviluppo binomiale di ( : per ogni valore intero di x successi, la probabilità di x
corrisponde a un termine nello sviluppo binomiale.
n
q p +

OSSERVAZIONE: siccome successo e insuccesso sono i soli possibili risultati di ogni
prova bernoulliana, e siccome sono mutuamente esclusivi (non si può avere successo e
insuccesso contemporaneamente): 1 q p + = .
Dunque, siccome 1 alla n-sima potenza è sempre 1: ( )
0
1
n
n
n x x
x
n
q p q p
x

=
⎛ ⎞
+ = =
⎜ ⎟
⎝ ⎠

.
Dunque, come ci si aspetta, anche il teorema binomiale verifica le proprietà delle
distribuzioni di probabilità!

Triangolo di Pascal (Tartaglia)

È un modo per disporre i coefficienti binomiali dello sviluppo ( ) .
n
a b +
Il primo e l’ultimo numero di ogni riga di questo triangolo è un 1; ogni numero
all’interno della riga si ottiene sommando i due numeri immediatamente al di sopra
(quello in alto a destra + quello in alto a sinistra). La riga n contiene i coefficienti per il
binomio ( ) .
n
a b +
ESEMPIO:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
… … … … … … … … … … …

Famiglia delle distribuzioni binomiali

La funzione di probabilità binomiale ( )
n x x
n
f x q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠
p definisce un numero infinito di
specifiche distribuzioni di probabilità binomiali, una per ogni combinazione di numeri,
assegnati alle costanti n e p, che vengono detti parametri della distribuzione
binomiale.

Quando una funzione teoria può assumere diverse forme a seconda dei valori che si
assegnano ai suoi parametri, allora si dice che quella è una famiglia di funzioni.
In questo senso, la funzione di probabilità binomiale definisce una famiglia di
distribuzioni di probabilità binomiali infinita.

Se tracciamo i grafici di distribuzione binomiale, fissando:
- n: numero di prove;
- p: probabilità di successo;
- μ : valore medio;
- σ : scarto quadratico medio;
notiamo che:
- maggiore è lo scarto quadratico medio e più si “spalmano” i valori sull’asse dei
valori x (variabile casuale). La stessa cosa avviene all’aumentare del numero di
prove n;
- maggiore è il valore medio e più a destra sull’asse x si trova la nostra
distribuzione;
- la distribuzione è asimmetrica per p ≠ 0,5 e simmetrica per p = 0,5;
- se p è costante e n aumenta, allora sia μ che σ aumentano;
- se n è mantenuto costante e aumenta, allora μ cresce con p, ma σ cresce fino a p
= 0,5 e poi decresce in modo simmetrico (mentre p continua a crescere);
- tutti i grafici hanno una conformazione simile, a “piramide”.

La distribuzione binomiale si dice quasi riproducibile, perché esiste, per distribuzioni
binomiali con lo stesso parametro p, esiste la proprietà:
( )
1 1
, X B n p ∼ ( )
2 2
, X B n p ∼
( )
1 2 1 2
, X X B n n p + + ∼

Tavola delle probabilità cumulate della distribuzione binomiale

Serve quando si ha la necessità di determinare la probabilità che una variabile
binomiale (numero di successi di n prove) sia minore o uguale a un qualche numero
intero.

ESEMPIO: ottenere al massimo 2 teste (da qui il minore o uguale) in 7 lanci di una
moneta.

Per calcolare tale probabilità, si può usare la funzione di ripartizione (ovvero la
funzione delle probabilità cumulate) di una variabile casuale discreta per ogni numero
reale a
( ) ( )
x a
F a f x

=


dove F(a) è la probabilità che la variabile casuale assuma valori minori o uguali ad a e
( ) f x è la probabilità che la variabile casuale assuma valore x. La funzione di
ripartizione di una variabile casuale binomiale è calcolata sostituendo a ( ) f x la
formula
( )
n x x
n
f x q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠
p
Quel che otteniamo è:
( )
n x x
x a
n
F a q p
x


⎡ ⎤
⎛ ⎞
=
⎢ ⎥ ⎜ ⎟
⎝ ⎠
⎣ ⎦


Su questo principio si può costruire una tabella, che fornisce i valori delle probabilità
cumulate calcolati con l’equazione per una distribuzione binomiale, dove sono
presenti i valori dei parametri n (colonna sinistra) e p (riga in alto)
( ) F a

REGOLE PER USARE LE TAVOLE con p > 0.5
Scelta della RIGA: n – (a+1) (a Æ argomento della funzione di ripartizione; se è -1 si
usa, per convenzione, il valore 0)
Scelta della COLONNA: 1-p

Distribuzioni multivariate

Gli ingredienti sono due variabili aleatorie riguardanti qualche processo statistico
( ) ( ) ( ) , , F a b P X a Y b P X a Y b = ≤ ≤ = ≤ ∩ ≤

Come si può ottenere, da una tale distribuzione, la distribuzione cosiddetta
“marginale”, quella cioè che interessa solo X o solo Y?
In pratica, come possiamo trovare la funzione ( )
x
F a di ripartizione della sola
variabile X?

Ebbene, considerando in maniera intuitiva tutti i possibili valori che Y può assumere,
stabiliamo che ( ) ( ) ( ) ( ) , lim ,
x
b
F a P x a P x a y P x a y b
→∞
⎡ ⎤
= ≤ = ≤ ≤ +∞ = ≤ ≤
⎢ ⎥
⎣ ⎦

Assumendo che la funzione di probabilità sia continua, posso infatti scambiarla con il
limite sopra indicato. Possiamo comportarci in maniera analoga per trovare:
( ) ( ) ( )
( ) ( ) ( )
lim , ,
lim , ,
x
b
y
a
F a F a b F a
F b F a b F b
→+∞
→+∞
= =
= =
+∞
+∞


Ora calcoliamo, tramite passaggi elementari, ( ) , P x a y b > >
( ) ( , 1
C
P x a y b P x a y b > > = − > ∩ > ) Æ Formula di De Morgan ( )
C
C C
A B A B ∩ = ∪
( ) ( ) ( ) ( ) 1 1
C C
P x a y b P x a y b
⎡ ⎤
⎡ ⎤ = − > ∪ > = − ≤ ∪ ≤ =
⎣ ⎦
⎢ ⎥
⎣ ⎦

( ) ( ) ( )
( ) ( ) ( )
1
1 ,
,
x y
P x a y b
F a F b F a
P x a P y b
b
⎡ ⎤ = − − =
⎣ ⎦
= − −

+
+ ≤ ≤ ≤

VERDE: funzioni di ripartizione marginali
ROSSO: funzione di ripartizione congiunta

( ) ( ) ( ) ( ) ( )
1 2 1 2 2 2 1 1 1 2 2
, , , , P a x a b y b F a b F a b F a b F a b < ≤ < < = + − −
1
,
) )


Se X e Y sono variabili aleatorie congiunte discrete
( , f x y è esattamente ( , P X x Y y = =

Come si definisce, ora, la densità di probabilità tenendo fissa una delle due variabili e
muovendo l’altra a piacimento?
( ) ( )
( ) : , 0
,
x
y f x y
f x f x y
>
=

( ) ( )
( ) : , 0
,
y
x f x y
f y f x y
>
=

Se:
- x e y sono congiuntamente continue;
-
se esiste una funzione f(x,y) , non negativa e integrabile;

0 ≥
-
se prendiamo un insieme C di coppie x,y, che sta in R
2
ovvero ( ) { }
, : , C x y x A y B = ∈ ⊆ ∈ ⊆ R R
ALLORA possiamo scrivere una cosa del tipo
( ) ( ) ( )
( ) ,
, ,
x y C
P x y C f x y x y

∈ =
∫∫
d d
Ed, equivalentemente,
( ) ( ) ( ) , ,
A B
d d P x y C f x y x y ∈ =
∫ ∫


Esperimento multinomiale

CARATTERISTICHE:
- è fatto da n prove identiche;
- ogni prova può avere k risultati Æ eventi
1 2
, ,...,
k
A A A fra di loro mutuamente
esclusivi ed esaustivi, cioè
o (mutua esclusione), ,
i j
A A i ∩ = ∅ ≠ j
o
i
i
A S =

(esaustività);
- in ogni prova la probabilità dell’i-simo evento è pari a ( )

(costante)
i i
P A ; p =
- le prove sono fra di loro indipendenti;
- disponiamo di k variabili aleatorie discrete
1 2
, ,...,
k
X X X .

ESEMPIO: estrazione con reinserimento di palline da un urna contenente 4 sfere
rosse, 3 verdi e 3 blu. Effettuando 5 estrazioni, quante possibili sequenze di due
palline rosse, due verdi e una blu posso fare?


Coefficiente multinomiale:
1 2 1 2
!
, ,..., ! !... !
k k
n
n
x x x x x x
⎛ ⎞
=
⎜ ⎟
⎝ ⎠

Nel nostro caso:
5!

2!2!1!


FORMULA GENERALE
1 2
1 2
1 2
...
, ,...,
k
x x x
k
k
n
p p p
x x x
⎛ ⎞
⎜ ⎟
⎝ ⎠


Esaminiamo ora il valore atteso delle variabili aleatorie :
1 2
, ,...,
k
x x x
( ) ( ) ( ) 1 2
1 1 1 1
...
n
x x x x = + + + (es.
( ) 1
1
x vale )
1 se si verifica l'evento 1
0 se non si verifica l'evento 1



Dunque ( )
1 1 1 1 1
volte
...
n
E x p p p np
1
μ = + + + = =
.

Generalizzando
( )
volte
...
i i i i i
n
E x p p p n np μ = + + + = =
.
i

Esperimento ipergeometrico e relativa funzione di probabilità

L’esperimento ipergeometrico ricorda quello binomiale, con la differenza che
l’esperimento ipergeometrico implica il campionamento da una popolazione finita
senza reinserimento. Le prove non sono più indipendenti e la probabilità di successo
cambia poiché il campione estratto viene rimosso dalla popolazione.

Siccome non c’è re-immissione, l’esperimento è in maniera evidente ipergeometrico.
ELEMENTI DELL’ESPERIMENTO:
n = numero di prove effettuate
T
N = popolazione finita di oggetti
= oggetti di tipo “successo”
S
N
= oggetti di tipo “insuccesso”
I
N

La funzione di probabilità ipergeometrica determina la probabilità che si verifichino n
successi nelle n prove dell’esperimento ipergeometrico.
ESEMPIO:
Un urna contiene 20 palline (12 rosse e 8 verdi): se si estrae una pallina alla volta
senza reimmissione, qual è la probabilità di estrarre quattro palline rosse su sei
estrazioni?
Parametri dell’esperimento:
n = numero di prove effettuate Æ 6
T
N = popolazione finita di oggetti Æ 20
= oggetti di tipo “successo” Æ 12
S
N
= oggetti di tipo “insuccesso” Æ 8
I
N

P (estrarre quattro rosse) = P (X = 4) =

casi favorevoli numero totale di modi in cui possono essere pescate 4 rosse su 6
casi totali numero totale dei possibili esiti di sei estrazioni
modi in cui 4 rosse si estraggono da 12 modi in c
A
N
N
= = =

=
=
ui 2 palline verdi si estraggono da 6
numero di possibili esiti di sei estrazioni (casi totali)
=

( )
12 8
4 2
4 0, 3576
20
6
S I
T S I
N N
x n x
f x
N N N
n x n x
= = ⎛ ⎞⎛ ⎞
⎜ ⎟⎜ ⎟
= − =
⎝ ⎠⎝ ⎠
= = = =
= + = ⎛ ⎞
⎜ ⎟
= + − =
⎝ ⎠


In generale: ( )
S I
T
N N
x n x
f X x
N
n
⎛ ⎞⎛
⎜ ⎟⎜

⎝ ⎠⎝
= =
⎛ ⎞
⎜ ⎟
⎝ ⎠





Per n prove, K tipi di oggetti si ha
t
N
1
2
oggetti di tipo 1
oggetti di tipo 2
oggetti di tipo
t
k
N
N
N
N k



=




.

1 2
, , ...,
k
x x x = probabilità che si verifichino contemporaneamente più eventi

( )
1 2
1 2
1 2 1 2
...
( , , ..., ) , , ...,
k
k
k k
T
N N N
x x x
f x x x P X x X x X x
N
n
⎛ ⎞ ⎛ ⎞⎛ ⎞
⎜ ⎟ ⎜ ⎟⎜ ⎟
⎝ ⎠⎝ ⎠ ⎝ ⎠
= = = = =
⎛ ⎞
⎜ ⎟
⎝ ⎠

Vale infine che:
Distribuzione binomiale
0,05
T
n N ≤
←⎯⎯⎯⎯ Distribuzione ipergeometrica
↓ ↓
Distribuzione multinomiale Distribuzione ipergeometrica generalizzata

Esperimento ipergeometrico: varianza, media, scarto quadratico
medio

Senza dimostrazione:
VALORE ATTESO: ( )
S
T
nN
E X
N
μ = =
VARIANZA:
( )
( )
2
2
1
S I T
T T
nN N N n
N N
σ

=


SCARTO QUADRATICO MEDIO:
( )
( )
2
1
S I T
T T
nN N N n
N N
σ

=



Gli esperimenti, le variabili casuali e i processi di Poisson

La distribuzione di probabilità di Poisson calcola la probabilità che si verifichi un
evento casuale in unità continue di ampiezza fissa di tempo o di spazio.
La variabile casuale di Poisson è simile alla binomiale (conta il numero di volte in cui
si verifica uno dei due possibili esiti, ad es. “successo”) ma, mentre nella binomiale c’è
un numero finito di volte in cui il successo di presenza, nella distribuzione di Poisson
ci può essere un numero infinitamente grande di volte in cui l’evento successo si
verifica in una certa unità di tempo o spazio.

IPOTESI:
1) data una unità continua di tempo o di spazio, esiste una costante nota ed
empiricamente determinata, indicata con λ (tasso medio di occorrenza dei
successi nella data unità), che caratterizza il processo generatore dei successi
che si sta osservando ed è lo stesso per tutte le unità definite allo stesso modo;
2) per ogni sottounità di una data unità, il numero di successi che si verificano
nella sottounità è indipendente dal numero di successi verificatisi in ogni altra
sottounità non sovrapposta;
3) se l’unità data viene divisa in sottounità molto piccole indicate con h, allora la
probabilità di ottenere esattamente un successo in una sottounità h è molto
piccola ed è la stessa per tutte le sottounità, indipendentemente da quando (o
dove) esse si collochino;
4) la probabilità che si verifichi più di un successo nella sottounità h è
praticamente nulla.

Se λ è il tasso medio di occorrenza dei successi nella data unità, possiamo dire che il
tasso medio (atteso) di frequenza dei successi in ogni multiplo delle di tale unità,
indicato con t, è t λ .

Quindi, se ad esempio:
λ = difetti / [4 metri di cavo elettrico]
t λ = difetti / [ 4 λ ⋅ metri di cavo elettrico]

La funzione di probabilità di Poisson impiega questa costante t λ per determinare la
probabilità che si verifichino (X = x) successi in qualche multiplo t dell’unità definita
nell’esperimento di Poisson. Senza dimostrarla, la funzione è la seguente:
( )
( ) ( )
! !
x
t
x
t e
e
f x P X x
x x
λ
μ
λ
μ


= = = =
La distribuzione di Poisson ha:
MEDIA: ( ) E X t μ λ = =
VARIANZA:
2
t σ μ λ = =
DEVIAZIONE STANDARD: t σ λ =

La famiglia delle distribuzioni di probabilità di Poisson, e la sua
approssimazione della distribuzione binomiale

Dipende da un solo parametro, che è ( ) E X t μ λ = = . Al suo variare, e precisamente al
suo incrementarsi, il grafico si sposta verso destra e ha un andamento con salti meno
marcati.
La distribuzione di Poisson può essere un’approssimazione della distribuzione
binomiale; quest’ultima ha due parametri (n e p)

( )
x n x
n
f x p q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠

SE e , ma in modo che np = costante, n →∞ 0 p →
ALLORA la distribuzione binomiale è approssimabile con Poisson (con np μ = ).

Regole empiriche per determinare la bontà dell’approssimazione:

BUONA OTTIMA
20
0, 05
n
p
≥ ⎧



100
0, 01
n
p
≥ ⎧




DIMOSTRAZIONE:
( )
x n x
n
f x p q
x

⎛ ⎞
=
⎜ ⎟
⎝ ⎠
Æ Tende a Poisson per , 0, n p np μ → ∞ → =
Se np μ = allora p
n
μ
= e 1 1 q p
n
μ
= − = − . Sostituiamo e otteniamo

( )
( )
!
1
! !
x n x
n
f x
n x x n n
μ μ

⎛ ⎞ ⎛ ⎞
= −
⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠
( )
( )( ) ( )

fattori
1 2 ... 1
1 1
!
x
n x
x
x
n n n n x
f x
x n n
n
μ μ μ

− − − +
⎛ ⎞ ⎛ ⎞
= − −
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠

( )

( ) ( ) ( ) 1 2 1
1
... 1 1
!
n
x
x
n n n x
n
f x
n n n n x n
n
μ μ
μ


⎛ ⎞
− − − +
⎛ ⎞
⎜ ⎟
= − −
⎜ ⎟
⎜ ⎟
⎝ ⎠
⎜ ⎟
⎝ ⎠
( )
LIMITE NOTEVOLE
( ) ( ) ( ) 1 2 1
... 1
!
1
x
n n n x
n
f x
n n n n x
μ μ 1
x
n
n
μ
μ
μ



⎧ ⎫
n
⎛ ⎞
⎜ ⎟

⎨ ⎬
⎪ ⎪
⎪ ⎪
⎜ ⎟
⎜ ⎟
⎪ ⎪
− − − +
⎛ ⎞
= −
⎜ ⎟

⎝ ⎠
⎪ ⎪
⎩ ⎭


1
lim 1
x
x
e
x →±∞
⎛ ⎞
+ =
⎜ ⎟
⎝ ⎠

Applicando il limite otteniamo:
0
lim
n
p
→∞

( ) { } ( ) 1 1 1 ... 1 1
! !
x x
x e
f x e
x x
μ
μ μ μ

− −
= ⋅ ⋅ ⋅ ⋅ ⋅ = c.v.d.
Nota che:
( )
0
n
p
E x np μ
→∞

= ⎯⎯⎯→ ( ) ( )
0
var 1
n
p
x np p μ
→∞

= − ⎯⎯⎯→

Variabile casuale normale

È la distribuzione di probabilità più importante fra quelle viste perché:
- ha giocato un ruolo fondamentale nello sviluppo dell’inferenza statistica;
- molte variabili casuali reali seguono distribuzioni di frequenza che assomigliano
molto alla distribuzione normale;
- può essere utilizzata per approssimare molte altre distribuzioni di probabilità,
come la distribuzione binomiale e quella di Poisson.
La distribuzione di probabilità normale assume, per un certo valore X = x, la forma:
( )
( )
2
2
2
1
2
x
f x e
μ
σ
σ π
− −
= per x −∞ < < +∞

Se la nostra variabile aleatoria X viene dilatata (moltiplicata per un fattore) o traslata
(sommandovi un termine), ciò che otteniamo è un’altra variabile aleatoria Y che segue
una distribuzione normale. Se abbiamo infatti
( )
2
, X N μ σ ∼ e Y X α β = + (con
0 e , α α β ≠ R ∈ ), allora di conseguenza
( )
2 2
, Y N αμ β α σ + ∼
Un tipo speciale di gaussiana è quello che corrisponde ai parametri: 0 μ = e
2
1 σ = : il
suo grafico è simmetrico rispetto all’asse y e ha il massimo nel punto di ascissa 0.
Questa gaussiana corrisponde alla distribuzione normale standard.
È possibile dimostrare che ogni distribuzione normale può essere ricondotta ad una
distribuzione normale standard in questo modo:
( )
2
, X N μ σ ∼ è generica, Z così definita
(0,1
x
Z Z N )
μ
σ

⇒ ∼ ∼ (è standardizzata)

Funzione densità di probabilità della distribuzione normale standard (o
standardizzata): ( )
2
2
1
2
z
f z e
π

=
Funzione di ripartizione della distribuzione normale standard (o standardizzata):
( )
2
2
1
d
2
x
y
z e
π

−∞
Φ =

y


PROPRIETÀ DELLA FUNZIONE DI RIPARTIZIONE:
( ) 0 Φ −∞ = ( ) 1 Φ +∞ =
( )
1
0
2
Φ =
è monotona strettamente crescente Φ
( ) ( 1 x x Φ − = − Φ )
)
Per trovare l’area, sotto una gaussiana qualsiasi, che va da ad un estremo a,
per trovare ovvero la
−∞
( P x a < si può quindi ricorrere alla funzione di
ripartizione della variabile standardizzata
a μ
σ
− ⎛ ⎞
Φ
⎜ ⎟
⎝ ⎠
.
Se vogliamo invece trovare l’area compresa fra gli estremi a e b, con a < b, allora
possiamo comodamente calcolarci tramite le tabelle
b a μ μ
σ σ
− − ⎛ ⎞ ⎛
Φ − Φ
⎜ ⎟ ⎜
⎝ ⎠ ⎝



.
Valore atteso della v.a. Z: 0, anche perché la gaussiana è funzione pari.
Varianza della v.a. Z: 1.

Approssimazione della distribuzione binomiale con quella
normale, della distribuzione di Poisson con quella normale

Se ( , ) X B n p ∼ , variando i parametri n e p otteniamo i grafici della famiglia delle
distribuzioni binomiali.
Se p è prossimo a 0,5 allora la distribuzione è simmetrica; se invece n diventa grande e
p rimane costante, allora la f(x) risultante sarà sempre più simile alla gaussiana.
Fissando i seguenti criteri:
BUONA approssimazione 5 np ≥ 5 nq ≥
OTTIMA approssimazione 5 np > 5 nq >
Possiamo approssimare ( ) , X B n p ∼ a
( )
2
, X N np np μ σ = = ∼ q
Ricordiamo poi come si comporta la famiglia delle distribuzioni di Poisson ( ) X P μ ∼ :
per μ crescente, la curva di Poisson diventa sempre più simile alla gaussiana; dunque,
anche in questo caso possiamo (fissate alcune condizioni) approssimare Poisson con la
normale.

Criterio:
BUONA approssimazione 5 t μ λ = ≥
OTTIMA approssimazione 10 t μ λ = ≥
Se queste condizioni sono rispettate, ( ) X P μ ∼ diventa
( )
2
, X N t t μ λ σ λ = = ∼
CORREZIONE DI CONTINUITÀ: attenzione, il passaggio da discreto a continuo
comporta una certa perdita di precisione. Dunque il calcolo va effettuato cambiando
leggermente gli estremi. Ecco la regola generale:
( ) ( )
0,5 0,5
discreta continua
P a X b P a X b ≤ ≤ = − ≤ ≤ +

Distribuzione di probabilità uniforme discreta

La distribuzione di probabilità uniforme è caratterizzata dal fatto che tutti valori
della variabile casuale X hanno un’uguale probabilità di verificarsi.
In una distribuzione di probabilità uniforme discreta
( )
1
per 0,1,..., f x x
k
= = k
la variabile casuale X può assumere ogni valore da 1 a k e tutti i k valori hanno la
stessa probabilità di verificarsi.
Come si nota, questa distribuzione dipende da un unico parametro k: quindi possiamo
scrivere ( ) X U k ∼ .
OSSERVAZIONI:
In maniera evidente: ( )
1
1
1
k
x
f x k
k
=
= =


La sua media (valore atteso) sarà: ( )
( )
1 1
1
1 1
2 2
k k
x x
k k
k
xf x x
k k
μ
= =
+
+
= = = =
∑ ∑
1
.
La varianza:
2
2
1
12
k
σ

= (lo scarto quadratico medio, di conseguenza:
2
1
12
k
σ

= ).

Distribuzione di probabilità uniforme continua

Se la variabile casuale X può assumere uno qualunque dei valori nell’intervallo
ed esclusivamente questi valori, e se la funzione di densità di probabilità f(x)
è costante (uniforme) nell’intervallo e nulla al di fuori di tale intervallo, allora si dice
che X è uniformemente distribuita.
a x b ≤ ≤
La sua funzione di densità di probabilità sarà: ( )
1
per
0 altrove
a X b
f X b a

≤ ≤

= −




OSSERVAZIONI
( )
1
d d
b
a
b a
f x x x
b a b a
+∞
−∞

= =
− −
∫ ∫
1 =
Funzione di ripartizione: ( ) ( )
0 per
d
d
1 per
x x
a
X a
y x a
F X f y y a X b
b a b a
X b
−∞
< ⎧

− ⎪
= = = ≤

− −


>

∫ ∫

Valore atteso: ( )
( )
2 2
( ) d d
2 2
b
a
x b a b a
E X xf x x x
b a b a
+∞
−∞
− +
= = = =
− −
∫ ∫
.
Varianza: ( )
( )
( )
( )
2
2 2
Var
12
b a
X E X E X
2
σ

= − = =

Variabile aleatoria esponenziale

Una variabile aleatoria X si dice esponenziale se la: ( )
0
, 0
0 0
x
e x
f x
x
λ
λ
λ


≥ ⎪
= ∀ >

<



In tal caso si dice che ( ) X Es λ ∼
Calcoliamoci ora la funzione di ripartizione:
( ) ( )
0
0
d d 1
λ λ λ
λ
− −
−∞
⎡ ⎤
= = = − = −
⎣ ⎦
∫ ∫
x x
x
y y
F x f y y e y e e
− x



Il valore atteso è (utilizziamo sempre la definizione):
( ) ( )
( ) ( )
0
0 0
0 0
d d 1
1
0 d
x x x
x
x
d E x xf x x x e x x e e x
e
e x
λ λ λ
λ
λ
λ
μ
λ λ
+∞ +∞ +∞
+∞
− − −
−∞
+∞
+∞


⎡ ⎤
= = = − − −
⎣ ⎦
⎡ ⎤
= + − = = =
⎢ ⎥

⎢ ⎥
⎣ ⎦
∫ ∫ ∫

=


Infine, la varianza, e lo scarto quadratico medio:
( )
( )
( )
2 2
2 2 2
2 1 1
var X E x E x
2
σ
λ λ λ
= − = − = = (varianza)
1
σ
λ
= (scarto quad. medio)

Il significato fisico della variabile esponenziale è il seguente:
- se X è una variabile di un processo Poisson ( ) X P μ ⎡ ⎤
⎣ ⎦
∼ ,
- se t è l’intervallo di tempo (o spazio) in cui avviene tale processo, con media
t μ λ = , e
- se i e i+1 sono l’i-esimo e l’i+1-esimo evento di Poisson (trattasi di eventi
generici)
Allora, la variabile Y Æ tempo intercorrente tra l’evento i e i+1 è una variabile di tipo
esponenziale.

La distribuzione normale è riproducibile: ciò significa che la somma di variabili
aleatorie normali ed indipendenti è, essa stessa, una distribuzione normale.
(
2
1 1
, X N
) 1
μ σ ∼
( )
2
2 2
, X N
2
μ σ ∼
( )
2 2
1 2 1 2 1 2
, X X N μ μ σ σ + + + ∼

Anche la distribuzione di Poisson è riproducibile: la somma di v.a. poissoniane ed
indipendenti ha essa stessa distribuzione di Poisson.
( )
1 1
X P
σ
μ ∼ ( )
2 2
X P
σ
μ ∼
( )
1 2 1 2
X X P
σ
μ μ + + ∼

Pure la distribuzione binomiale ha una proprietà simile: essa è quasi riproducibile,
perché esiste, per distribuzioni binomiali con lo stesso parametro p, una proprietà
analoga, che è:
( )
1 1
, X B n p ∼ ( )
2 2
, X B n p ∼
( )
1 2 1 2
, X X B n n p + + ∼

E per la variabile aleatoria esponenziale?
Ebbene, si ha che per n variabili indipendenti ed esponenziali:
( )
( )
( )
( )
1 1
2 2
1 2
1
min , ,...,
n
n i
i
n n
X Es
X Es
Y x x x Y Es
X Es
λ
λ
λ
λ
=


⎛ ⎞

= =
⎜ ⎟ ⎬
⎜ ⎟
⎪ ⎝ ⎠






.


Dunque (ad esempio) il tempo di vita per un dispositivo formato da n componenti in
serie risulta essere: . ( )
1 2
min , ,..., tempo di vita
n
x x x =

Per concludere, un’altra proprietà della funzione esponenziale: se c > 0 allora
( ) X Es cX Es
c
λ
λ
⎛ ⎞

⎜ ⎟
⎝ ⎠
∼ ∼
DIMOSTRAZIONE: funzione di ripartizione della variabile cX Æ
( ) 1 1
λ
λ −
⎛ ⎞
≤ = ≤ = − = −
⎜ ⎟
⎝ ⎠
x
−x
c
x
P cX x P X e e
c
c
. Trovandosi essa nella sua forma corretta per
cX Es
c
λ ⎛ ⎞
⎜ ⎟
⎝ ⎠
∼ , possiamo dire che la variabile cX è proprio esponenziale.

La mancanza di memoria

Una variabile aleatoria X si dice priva di memoria se vale la seguente definizione

( ) ( ), , 0 P X X s t > + P s t X s t > ∀ > = ≥
A PAROLE:
X t > Æ sapendo che il dispositivo funziona senza guasti per un tempo uguale a t
qual è la probabilità che il dispositivo funzioni nell’intervallo successivo,
cioè entro t + s?
X s t > + Æ

Se un oggetto ha funzionato senza guasti per un tempo pari a t, la probabilità che
l’oggetto continui a funzionare per un tempo almeno pari a s è uguale alla probabilità
che l’oggetto funzioni per t + s: il dispositivo si dice allora senza usura.

Si può dimostrare che le variabili esponenziali sono variabili senza memoria: ma non
solo, si può dimostrare anche che le variabili senza memoria non possono essere altro
che esponenziali.

senza memoria esponenziale X X ⇔

Dimostriamo soltanto esponenziale senza memoria X X ⇒
( ) X Es λ ∼ Æ
( ) 1
x
F x e
λ −
= −
( ) ( ) ( ) 1 1 1 P X s t P X s P X t ⎡ ⎤ ⎡ − ≤ + = − ≤ − ≤
⎣ ⎦ ⎣





( ) ( ) ( ) 1 1 1 F s t F s F t ⎡ ⎤ ⎡ − + = − −
⎣ ⎦ ⎣

( )
1 1 1 1 1 1
s t
s t
e e
λ
e
λ λ
− +
− −
⎡ ⎤ ⎡
− + = − + − +
⎣ ⎦ ⎣



( ) s t
s t
e e e
λ
λ λ
− +
− −
⎡ ⎤ ⎡
=
⎣ ⎦ ⎣



( ) ( ) s t s t
e e
λ λ − + − +
= IDENTITÀ: la variabile esponenziale soddisfa le condizioni delle
variabili aleatorie senza memoria.

TEMPO DI VITA di:
- dispositivo CON USURA:
( ) ( ), , 0 P X s t X t P X s s t > + > < > ∀ ≥
- dispositivo CHE FUNZIONA MEGLIO COL PASSAR DEL TEMPO:
( ) ( ), , 0 P X s t X t P X s s t > + > > > ∀ ≥

Media campionaria

Abbiamo n variabili aleatorie indipendenti ed identicamente distribuite,
con media
1 2
, ,...,
n
x x x
μ e varianza
2
σ .
Si definisce media campionaria:
1 2
...
n
x x x
x
n
+ + +
=
La media campionaria ha:
- VALORE ATTESO:
[ ]
[ ] [ ] [ ]
1 2
1 2
...
...
n
n
E x E x E x
x x x
E x E
n n
+ + +
+ + + ⎡ ⎤
= =
⎢ ⎥
⎣ ⎦
=
n
n
μ
μ = =
- VARIANZA:
[ ]
[ ] [ ] [ ]
1 2
1 2
2
var var ... var
...
var var
n
n
x x x
x x x
x
n
n
+ + +
+ + + ⎡ ⎤
= =
⎢ ⎥
⎣ ⎦
=
2 2
2
n
n
n
σ σ
= =
Nota:
Il valore medio della somma delle variabili aleatorie
1 2
...
n
x x x + + + è nμ ;
La varianza della somma delle variabili aleatorie
1 2
...
n
x x x + + + è n
2
σ .

Teorema del limite centrale

Il teorema del limite centrale recita così: la somma X di un numero elevato n di
variabili aleatorie indipendenti ed identicamente distribuite (chiamiamole
), tutte con media
1 2
, ,...,
n
x x x μ e varianza
2
σ entrambe finite, tende ad avere
distribuzione approssimativamente normale
(
2
, X N n n
)
μ σ ∼ , con X =
1 2
...
n
x x x + + +
Possiamo rendere la distribuzione approssimativamente normale standard in questo
modo:
( )
1 2
...
0,1
n
x x x n
N
n
μ
σ
+ + + −

Si ha, per n grande e x qualsiasi, anche tale approssimazione:
( )
2
1 2
2
... 1
d
2
x
y
n
x x x n
P x x
n
μ
π
σ

e y
−∞
+ + + − ⎛ ⎞
≤ ≈ Φ =
⎜ ⎟
⎝ ⎠



Ovviamente è importante la questione di quanto debba essere la numerosità n affinché
la funzione normale sia sufficientemente valida: in effetti la risposta dipende dalla
distribuzione della variabili aleatorie indipendenti.
- Se sono NORMALI Æ n qualunque (perché una variabile normale è
riproducibile)
- Se sono NON-NORMALI Æ n (in maniera molto empirica) 30 ≥

OSSERVAZIONI:
- gli errori di misurazione delle grandezze fisiche seguono in genere la
distribuzione normale;
- se abbiamo un bersaglio piano (tipo quelli del tiro a segno), e fissiamo il suo
centro come origine delle coordinate, la variabile aleatoria X (ascissa del nostro
sistema di riferimento) segue una distribuzione normale: essa dipende da un
gran numero di fattori (errori elementari) che formano la deviazioni
1 2
(errori) ... (errori elementari: vento, mira, vibrazioni...)
n
x x x x = + + +
( )
2
,
i
i
x x N μ σ =



Variabile aleatoria di tipo gamma

E se l’n-simo evento avviene dopo che è terminato l’evento di Poisson, cioè a destra
dell’intervallo
[

Abbiamo un processo di Poisson nell’intervallo
[ ]
0,t , con tasso medio λ .
Supponiamo che all’interno di questo intervallo temporale avvengano n eventi e
chiamiamo
1
y il tempo intercorrente fra l’evento 0 e l’evento 1,
2
y il tempo
intercorrente fra l’evento 1 e l’evento 2, etc…

Allora se poniamo
1 2
...
n
y y y y
y è una variabile di TIPO GAMMA, e si scrive
= + + +
( ) , Y n λ Γ ∼
]
0,t
( ) ( )
( )
?
1
0
1 ( 1)
!
x
t
n
x
t e
P y t P x n F n
x
λ
λ


=
> = ≤ − = − =

( ) ( ( )
( )

Possiamo dunque ricavarci la funzione di ripartizione:
)
1
0
1 1
!
x
t
n
y
x
t e
F t P y P y t
x
t
λ
λ


=
= ≤ = − > = −

( )

Dalla quale possiamo ricavare la funzione di densità di probabilità:
( ) ( ) ( )
1
1
0
1 1
0
! !
n
x x y t t
y
x
dF
f t x t e t e
dt x x
λ λ
λ λ λ λ


− −
=
⎡ ⎤
= = − ⋅ ⋅ + ⋅ − ⋅ =
⎢ ⎥
⎣ ⎦

( )

( ) ( ) ( )
( )
( )
( )
1 2 2
1 1
0 0 0 1
2
1
0 1 1 ...
! ! 2 2 ! 1 !
x x n n
n n
t t
x x x x
x
x n
x t t t t t
e e t t
x x n n
λ λ
λ λ λ λ λ
λ λ λ λ
− − −
− −
− −
= = = =
=
= −
1
⎡ ⎤
⎡ ⎤ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ = − + = − + − + − + − − + =
− − ⎢ ⎥ ⎢ ⎥
⎣ ⎦
⎢ ⎥
⎣ ⎦
∑ ∑
..
.
.
( )

( )
( )
,
1
1
1 1 ! !
n
t n t
C
n
e e
n n
λ
n
t
t
λ λ
λ
λ
λ

− − −
=
− −
=

( )

Valore atteso e varianza della variabile di tipo gamma:


1 1 1
...
n
E y
λ λ λ λ
= + + = ( )
2 2 2 2
1 1 1
...
n
y var
λ λ λ λ
= + + =
( )
( )
( )
1 1
1 2 1 2
2 2
,
,
,
y n
y y y n n
y n
λ
λ
⎧ Γ

⇒ = + Γ +

Γ





( )
Infine, un’osservazione importante: maggiore è l’n, più la curva della densità di
probabilità della variabile aleatoria gamma si avvicina alla forma della normale.

λ Å Proprietà di riproducibilità
2
2
lim , ,
n
n n
Y n Y N λ μ σ
λ
λ
→+∞
⎛ ⎞
Γ = = =
⎜ ⎟
⎝ ⎠
∼ ∼
TABELLA RIASSUNTIVA: approssimazione con la distribuzione normale

DISTRIBUZIONE APPROSSIMANDA CONDIZIONI APPROSSIMAZIONE NORMALE
Binomiale
BUONA appross. 5 np ≥ 5 nq ≥
OTTIMA appross. 5 np > 5 nq >
( )
2
, X N np npq μ σ = = ∼
Poisson
BUONA appross. 5 t μ λ = ≥
OTTIMA appross. 10 t μ λ = ≥
( )
2
, X N t t μ λ σ λ = = ∼
Gamma n grande (?) ( )
2
2
lim , ,
n
n n
Y n Y N λ μ σ
λ
λ
→+∞
⎛ ⎞
Γ = = =
⎜ ⎟
⎝ ⎠
∼ ∼
Somma di n v.a.
1 2
...
n
x x x x = + + +
tutte con con media μ e varianza
2
σ
n (in maniera molto empirica) 30 ≥
( )
2
, X N n n μ σ ∼

TABELLA RIASSUNTIVA: calcolo combinatorio

QUANDO SI USA COME SI CALCOLA
Principio di moltiplicazione
Quando si hanno n prove, ognuna avente esiti
possibili
i
k
Esiti possibili totali:
1 2
...
n
k k k ⋅ ⋅ ⋅
Permutazioni
Quando vogliamo esaminare una qualsiasi
disposizione di oggetti in uno specifico ordine.
Abbiamo un insieme di n oggetti distinti, da cui
ne scegliamo r uno dopo l’altro. Qual è il numero
di possibili ordinamenti?
( )
,
!
n r
n
P =
! n r −

Combinazioni
Quando vogliamo esaminare una qualsiasi
disposizione di oggetti senza che ci interessi il loro
ordine. Abbiamo un insieme di n oggetti distinti,
da cui ne scegliamo r. Quali sono le combinazioni
di n distinti oggetti presi r alla volta?
( )
,
!
n r
n
C =
! ! r n r −


TABELLA RIASSUNTIVA: variabili aleatorie e distribuzioni

DISCRETE
PECULIARITÀ DENSITÀ DI
PROBABILITÀ f(x)
DISTRIB.
CUMULATA
VALORE
ATTESO
VARIANZA RIPROD.
Uniforme
Tutti i k valori della
v.a. X hanno un’uguale
probabilità di
verificarsi
1
k

( )
x
P X x
k
< =
1
2
k +

2
2
1
12
k
σ

= ?
Bernoulli
Le prove di Bernoulli
hanno solo due esiti
(successo-insuccesso,
eventi mutuamente
esclusivi e invarianti in
tutte le prove), e sono
caratterizzate da n
prove identiche e
indipendenti.
( )
1
1
x
x
p p


(questa formula è valida
solo per una prova)
? p p(1-p) ?
Binomiale
Estende Bernoulli a più
prove. Grazie ad essa è
possibile calcolare la
possibilità che vi siano
x successi in n prove di
Bernoulli.
( ) 1
n p
x
n
p p
x

⎛ ⎞

⎜ ⎟
⎝ ⎠
( ) ( )
0
k
x
P x k f x
=
< =


np np (1-p)
Sì,
( )
1 2
1 2
,
+
+
∼ X X
B n n p


Multinomiale
È fatta da n prove
identiche, e ogni prova
può avere k risultati
(mutuamente esclusivi
ed esaustivi) di
probabilità
, cui
corrispondono le
variabili aleatorie

1 2
, ,...,
k
p p p
1 2
, ,...,
k
x x x
1 2
1 2
1 2
!
...
! !... !
k
x x x
k
n
n
p p p
x x x
( )
1 i i
E x np n
?
μ = =
? ?
Ipergeometrica
È fatto da n prove, con
popolazione di
oggetti, di cui di
tipo “successo” e
di tipo “insuccesso”.
T
N
S
N
I
N
S I
T
N N
x n x
N
n
⎛ ⎞⎛ ⎞
⎜ ⎟⎜ ⎟

⎝ ⎠⎝ ⎠
⎛ ⎞
⎜ ⎟
⎝ ⎠

?
S
N
n μ =
T
N

( )
( )
2 S I T
nN N N n
σ
2
1
T T
N N

=


?
Poisson
Si ottiene come limite
della distribuzione
binomiale per
e .
È la distribuzione di
probabilità che misura
il numero di volte in cui
si verifica un evento
casuale in un dato
intervallo di
tempo/spazio.
n → +∞ 0 p →
!
x
e
x
μ
μ

t
?
μ λ =
2
t σ λ =
Sì,
( )
1 2 σ
1 2
μ μ + P
+ ∼ X X


CONTINUE
PECULIARITÀ DENSITÀ DI
PROBABILITÀ f(x)
FUNZIONE DI
RIPARTIZIONE
VALORE
ATTESO
VARIANZA RIPROD.
Uniforme
È come la sua
corrispondente in campo
discreto, ma la v.a. può
questa volta assumere
qualsiasi valore tra a e b.
1
per a x
b a
b ≤ ≤

0 altrove



0 per
per
1 per
x a
x a
a x b
b a
x a


< <



2
a b

( )
2
b a −
+
12

Solo se gli
estremi sono
gli stessi.
Esponenziale
La variabile esponenziale
è connessa ai tempi tra
due eventi ed è
strettamente correlata
con la v.a. di Poisson. La
variabile aleatoria
esponenziale è priva di
memoria.
per 0
x
e x
λ
λ

>
0 per 0 x ≤

1
t
e
λ −

1
λ

2
1
λ

Non
esattamente
(vedi appunti)
Normale
È la distribuzione di
probabilità più
importante fra quelle
studiate in statistica,
perché approssima
moltissime altre
distribuzioni (v. tabella)
( )
2
2
2
2
2
x
e
μ
σ
πσ
− −

Conviene ricondursi
alla standardizzata
facendo il cambio
X
Z
μ
σ

=
μ
2
σ
Sì,
1 2
1 2
2 2
1 2
( ,
)
σ
μ μ
σ σ
+
+
+
∼ X X
P
Normale
standardizzata
È la versione
standardizzata della
normale. Si può sempre
ottenere a partire da una
distribuzione normale.
2
2
2
z
e
π


Si usino le tabelle
apposite.
0 1
Come
sopra.
Gamma
Appartiene alla famiglia
esponenziale. La
variabile aleatoria nasce
dalla somma delle
variabili misuranti il
tempo di intercorrenza
fra i vari eventi di un
processo di Poisson.
( )
1
n
n t
t e
1 ! n
λ
λ
− −


( )
1
1
x
t
n
t e
0
!
x
x
λ
λ




=

n
λ

2
n
λ

?

Sign up to vote on this title
UsefulNot useful