Professional Documents
Culture Documents
M. Carmen Miguel
16 de febrer de 2018
1 Probabilitat
La teoria de probabilitats s’encarrega de l’estudi de fenòmens aleatoris, és a dir, esdeve-
niments i variables aleatòries o estocàstiques X que succeeixen o poden pendre diferents
valors dins un conjunt anomenat espai mostral SX = {x1 , x2 , . . .}. Aquests valors poden
ser un conjunt numerable, com quan llancem un dau Sdau = {1, 2, 3, 4, 5, 6} o una moneda
Smoneda = {cara, creu}, o podria ser un conjunt continu de valors, com per exemple, la velo-
citat d’una partı́cula en un gas Sv = {−∞ < vx , vy , vz < ∞}, o l’energia d’un electró en un
metall a temperatura zero Sε = {0 ≤ ε ≤ εf }.
Un succés A, és un subconjunt qualsevol de l’espai mostral S de tots els resultats possibles,
i.e. A ⊂ S, al que correspon una probabilitat P (A), p.e. Pdau (1) = 1/6 o Pdau (1, 3) = 1/3.
Les probabilitats han de satisfer les condicions següents:
3. Normalització: P (S) = 1; és a dir, el succés ha de prendre el seu valor dins l’espai
mostral S.
Des d’un punt de vista pràctic, es poden assignar probabilitats a un succés A de dues maneres
diferents:
NA
P (A) = lim
N →∞ N
Aquest últim tipus de probabilitats són les que farem servir més en la Fı́sica Estadı́stica.
1
1.1 Relacions útils entre les probabilitats de successos diferents
Denominarem:
(ii) P (A ∩ B): probabilitat de què tots dos successos A i B s’obtinguin com a resultat d’un
experiment.
(iii) P (A ∪ B): probabilitat de què el succés A, el succés B, o tots dos s’obtinguin com a
resultat d’un experiment.
Es verica:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Si tenim el cas de successos mútuament excloents es verifica A ∩ B = ∅, i la relació anterior
s’escriu
P (A ∪ B) = P (A) + P (B)
Si els successos A1 , A2 , . . . , An són mútuament excloents (A1 ∩A2 ∩. . .∩An = 0) i exhaustius
(A1 ∪ A2 ∪ A3 . . . ∪ An = S) aquests n successos formen una partició de l’espai mostral S en
n subconjunts. Aleshores
n
X
P (A1 ) + P (A2 ) + . . . + P (An ) = P (Ai ) = 1.
i=1
P (A ∩ B) = P (A) P (B)
És important no confondre independents amb mútuament excloents (P (A ∩ B) = ∅).
P (A ∩ B)
P (A|B) =
P (B)
2
1.3 Teorema de Bayes
En la teoria de la probabilitat el teorema de Bayes és un resultat enunciat per Thomas
Bayes al 1763 que expressa la probabilitat condicional d’un esdeveniment aleatori A donat
B en termes de la distribució de probabilitat condicional de cas B donat A i la distribució
de probabilitat marginal de A. Aquest teorema és d’una gran rellevància i té múltiples
aplicacions, per exemple, suposem que coneixem la probabilitat de tenir mal de cap si tenim
grip, doncs amb unes poques dades més podriem saber la probabilitat de tenir grip si es té
mal de cap.
El teorema s’enuncia de la següent manera:
P (Ai )P (B|Ai )
P (Ai |B) =
P (B)
Regla de Bayes
P (Ai )P (B|Ai )
P (Ai |B) = P
k P (Ak )P (B|Ak )
Hi ha controvèrsia amb el tipus de probabilitats que s’han de fer servir. Els seguidors de
l’estadı́stica tradicional només fan servir probabilitats basades en experiments repetibles i
que tinguin una confirmació empı́rica, mentre que els estadistes “bayesians” permeten pro-
babilitats subjectives.
Aquest teorema pot indicar com hem de modificar les nostres probabilitats subjectives quan
rebem informació addicional d’un experiment. Aquesta estadı́stica està demostrant ser útil
en certes estimacions basades en el coneixement subjectiu a priori i el fet de permetre re-
visar estimacions en funció de l’evidència empı́rica és el que està obrint noves formes de
fer coneixement. Una aplicació d’això són els classificadors “bayesians” que es fan servir
freqüentment com implementacions de correu brosa o spam, que s’adapten amb l’ús.
p(xi ) = P (X = xi )
3
p(xi ) ≥ 0 ⇒ Positivitat
X
p(xi ) = 1 ⇒ Normalització
i
Aquests moments són molt útils perquè donen informació sobre la forma de la funció de
distribució, i sovint són més accessibles. Els moments més importants són els d’ordre més
baix, per exemple:
(ii) La variança de X:
D E
2
σX ≡ (X − hXi)2 = X 2 − hXi2
que dóna una mesura de l’amplada de la distribució p(xi ). Si σx és molt petita, p(xi ) és
molt picada al voltant de hXi.
Suposem que existeix una funció f (x), contı́nua a trossos tal que la probabilitat P (a ≤ X ≤ b)
de que X prengui un valor dins l’interval [a, b] ve donada per l’àrea entre a i b sota la corba
f (x) i.e:
Z b
f (x)dx = P (a ≤ X ≤ b)
a
4
Aquesta funció f (x) és la densitat de probabilitat de X, és a dir:
dP (x)
f (x) = ⇒ f (x)dx = dP (x) = Prob(X ⊂ [x, x + dx])
dx
f (x) ≥ 0
Z
f (x)dx = 1
rang de X
També en aquest cas és útil definir els moments n-èssims de X. El moment n-èssim es
definiex:
Z
hX i = dx xn f (x)
n
També la mitja o valor esperat, variança i la desviació tı́pica es defineixen com abans i són
els moments més útils.
Ara bé, aquesta expansió en sèrie només té sentit si els moments hX n i d’ordre més alt són
prou petits per a què la sèrie convergeixi. De la definició es pot veure que la densitat de
probabilitat és la transformada de Fourier inversa de la funció caracterı́stica:
Z
1
f (x) = dk e−ikx φ(k)
2π
i si ens donen la funció caracterı́stica, podem calcular els moments per derivació:
1 dn φ(k)
hX n i = n
i dk n
k=0
5
hXic = hXi → mitja
hX 2 ic = hX 2 i − hXi2 → variança
Els cumulants descriuen d’una manera més compacta la densitat de probabilitat. El tercer
i quart cumulants descrits anteriorment caracteritzen la forma de la funció densitat de pro-
babilitat.
Per finalitzar aquesta secció, considerem ara el cas d’una funció F (X) de la variable es-
tocàstica X. La variable Y = F (X) és una nova variable estocàstica. Podem calcular, per
exemple, el valor esperat de la funció com
Z ∞
hF (X)i = dx f (x)F (x)
−∞
Però com que la funció F (x) és una variable estocàstica, té també associada una densitat de
probabilitat pròpia:
X X dx
fY (y)dy = f (xi )dxi ⇒ fY (y) = f (xi )
dy x=xi
i i
Aquest terme dx
dy és el jacobià associat al canvi de variables x → y.
Exemple:
f (x) = λ2 e−λ|x|
√
F (x) = x2 = y ⇒ x± = ± y amb dx = ± 1
√
dy
± 2 y
√ √
λ e−λ y
fY (y) = λ2 e−λ y 2√
1
y + −
1
2 y =
√ √
2 y
6
3 Distribucions de probabilitat més importants
3.1 Distribució binomial
Considerem un experiment que té únicament dos possibles resultats, ex. A i B; i que repetim
un gran nombre N de vegades. La probabilitat que en N experiments trobem NA cops el
resultat A ve donada per exemple per la distribució binomial,
N
PN (NA ) = pNA pN −NA
NA A B
Aquesta distribució està normalitzada, ja que el teorema del binomi ens permet escriure
N N
N
pNA pN −NA = (pA + pB )N = 1
X X
PN (NA ) =
NA A B | {z }
NA =0 NA =0 =1
1 dn φN
n
hNA i = n
i dk n k=0
1 dφN N N −1
ik ik
= N pA (pA + pB )N −1 = N pA
hNA i = = (pA e + pB ) ipA e
i dk k=0
i k=0
| {z }
=1
d2 φN
i
2 d h ik N −1 ik
NA = − =− iN pA (pA e + pB ) e
dk 2 k=0 dk k=0
h i
N −2
ik
= − iN pA (N − 1)(pA e + pB ) pA e2ik i + (pA eik + pB )N −1 eik i
k=0
7
La variància serà
NA2 − hNA i2 = N pA pB
N!
PN ({NA , . . . , NM }) = pNA . . . pNM
NA ! . . . NM ! A M
λNA −λ
PN (NA ) = e
NA !
La distribució de Poisson està normalitzada:
∞
X λNA −λ
e = e−λ eλ = 1
NA !
NA =0
Un exemple clàssic de fenòmen descrit mitjançant una distribució de Poisson és el decaiment
radioactiu d’un nucli, (p = αdt).
h iN ik
h i
φk (N ) = (pA eik + pB )N ⇒ lim 1 + pA (eik − 1) = epA N (e −1) = e−λ exp λeik
pA →0
Els primers moments es poden calcular com hem fet per la distribució binomial:
8
hNA
2
i = λ2
NA3 = λ3 + λ 2
NA = λ + 3λ + λ
La desviació tı́pica (a partir de la variància):
q
√
σ= NA2 − hNA i2 = λ
Aquesta distribució està completament determinada pel seu primer moment hNA i = λ.
f (x) = N e−αx
f (x) = αe−αx .
9
d2 1 d2 Z 1 dZ 2
d 1 dZ
ln Z(α) = = − 2 =
dα2 dα Z dα Z dα2 Z dα
R∞ 2 −αx R ∞ 2
0R dx x e dx xe−αx
= ∞ −αx
− R∞ 0
−αx
= hx2 i − hxi2 ≡ σ 2 .
0 dx e 0 dx e
Per tant, tota la informació rellevant pot extreure’s de les derivades de Z(α). N’hi ha prou
amb calcular aquesta funció
Z ∞
1
Z(α) = dx e−αx = ,
0 α
per obtenir ln Z = − ln α, i
d 1
hxi = − ln Z =
dα α
d2 1
σ2 = ln Z = 2 .
dα2 α
Aquest mètode simplifica molt els càlculs i sovint es pot generalitzar a altres densitats de
probabilitat.
(x − µ)2
1
f (x) = √ exp −
2πσ 2 2σ 2
on x pren valors en tota la recta real. Les constants µ i σ corresponen, respectivament, al
valor mig i a la desviació tı́pica de la variable X. La distribució gaussiana és simètrica al
voltant de µ.
Un cas particular de la distribució gaussiana és la distribució normal estàndard o tipificada
2
1 x
f (x) = √ exp −
2π 2
√
que correspon a una gaussiana amb µ = 0 i σ = 1. El factor 1/ 2π ens assegura la
normalització. Veiem que els moments senars de la distribució normal són nuls perquè
la funció és imparella al voltant del zero (simetria). Per altra banda, els moments parells
venen donats per
∞
2n/2
Z
1 2 n 1
n
hx i = dx x √ e−x /2 = √ Γ
n
+ = (n − 1)(n − 3) . . . 3 · 1.
−∞ 2π π 2 2
D’aquesta forma tenim que
10
Aquest segon moment de la distribució normal també pot calcular-se definint una funció de
partició com
Z ∞ r
−αx π
Z(α) = dx e =
−∞ α
on es pot verificar fàcilment que
d 1
hx2 i = − ln Z(α) =
dα 2α
que correspon amb el resultat hx2 i = 1 de la distribució normal quan α = 1/2.
En el cas més general
(x − µ)2
1
f (x) = √ exp −
2πσ 2 2σ 2
hxi = µ
hx2 i = µ2 + σ 2
hx3 i = µ3 + 3µσ 2
Notem com la distribució gaussiana ve determinada completament pels seus dos primers
moments.
hxic = µ
hx2 ic = σ 2
hx3 ic = hx4 ic = . . . = 0
on els dos primers especifiquen totalment la distribució.
p(xi , yi ) = P (X = xi , Y = yi )
11
f (x, y) > 0
ZZ
dxdy f (x, y) = 1
cov(X, Y )
corr(X, Y ) =
σx σy
f (x, y)
f (x|y) =
fY (y)
Z
& normalització N = dx f (x, y) = fY (y)
12
4.2 Teorema del lı́mit central
Donada una variable aleatòria X amb densitat de probabilitat fX (x), volem trobar la dis-
tribució de la variable aleatòria Y , definida com la suma normalitzada de N mesures de
X:
x1 + x2 + · · · + xN
yN =
N
Volem, per exemple, trobar la densitat de probabilitat fY (yN − hXi). La seva funció carac-
terı́stica es pot trobar:
Z
φ(k) = eik(yN −hXi) fY (yN − hXi) dyN =
Z
k
= ei N [(x1 −hXi)+(x2 −hXi)+···+(xN −hXi)] fX (xi )fX (x2 ) . . . fX (xN ) dx1 . . . dxN ,
k2 2
Z
k
φ(k/N ) = ei N (x1 −hXi) fX (x1 )dx1 = 1 − σ + ···
2N
↑
∞ n
X ik h(x1 − hXi)n i
N n!
n=0
ik
Cal fixar-se que com que e N x1 és una funció oscil·lant, la funció φ(k/N ) decau a mesura que
k augmenta. A més, [φ(k/N )] decaurà encara més ràpidament. Si la funció fX (x1 ) va prou
ràpidament a zero quan x1 → ∞, els moments seran finits i
3 N
k2 2
k 2 σ2
− k2N
φ(k) = 1 − σ + O −
− −−→ e
2N 2 N3 N →∞
Z
1
fY (yN − hXi) = dk e−ik(yN −hXi) φ(k) =
2π
r
N (yN − hXi)2
Z
1 −ik(yN −hXi) − k2N
σ2 2 N 1
= dk e e = exp −
2π 2π σ 2σ 2
13
N sigui prou gran.
Aquest resultat s’anomena teorema del lı́mit central i ens explica perquè molts fenòmens
que s’observen a la natura es poden descriure amb una distribució gaussiana.
5 Agraı̈ments
M. Carmen Miguel agraeix la inestimable ajuda i col·laboració de Ignacio López de Arbina,
Irene Roma, Samuel Rosende, Martı́ Segarra i Isaac del Toro a l’hora d’editar aquestes notes
de repàs de teoria de probabilitat per al curs de Fı́sica Estadı́stica.
14