Vademecum PROB ML

Capitolo 1
Concetti base
1.1 Regressione lineare

Supponiamo che la dimensione del nostro problema sia D e di avere a di-
sposizone N campioni (xi , yi ) con i = 1...N con xTi ∈ RD (ovvero xi e' un
vettore riga).
La regressione lineare e' la minimizzazione della funzione errore E(w) con
w ∈ RD
N
1 X
E(w) = (yi − wT xi )2
N i=1
Introduciamo la matrice X ∈ M (R)N,D con riga i il dato xi e il vettore
colonna Y ∈ RN con componenti le yi ; in questo modo:
1 1 1
E(w) = kY − Xwk2 = hY − Xw|Y − Xwi = (Y T Y −Y T Xw−wT X T Y −wT X T Xw)
N N N
Minimizzando rispetto a w:
1
∇w E(w) = (2X T Y − 2X T Xw) = 0
N
X T Xw = X T Y
w = (X T X)−1 X T Y
Se volessimo introdurre la regolarizzazione avremmo:
(X T X + λN I)w = X T Y
1
1.2 Decomposizione LU
Sia A una matrice quadrata n × n esistono due matrici L ed U triangolari
inferiore e superiore per cui:
A = LU
n
X
aij = lik ukj
k=1
Abbiamo n gradi di liberta' con cui scomporre A e imponiamo uii = 1;

dalla denizione abbiamo che lik 6= 0 se i ≥ k e che ukj 6= 0 per k ≤ j .
Se i ≥ j :
j j−1
X X
aij = lik ukj = lik ukj + lij
k=1 k=1
j−1
X
lij = aij − lik ukj
k=1
Se i < j :
i
X i−1
X
aij = lik ukj = lik ukj + lii uij
k=1 k=1
i−1
X
uij = lii−1 (aij − lik ukj )
k=1
Calcolo prima la riga i − esima di L e poi la colonna j − esima di U :

li1 , u1j ; li2 , u2j ...; lik−1 uk−1j ...
Per evitare singolarita' riarrangiare le colonne di A anche' le l'elemento
maggiore di ogni colonna sia sulla diagonale.
1.3 Discesa del gradiente

Sia E(w(t)) la funzione da minimizzare; sia w(0) il valore iniziale per i pesi.
Allora per t = 0, 1, 2, ...: calcolare gt = ∇w E(w(t)) e se ηkgt k > impostare
w(t + 1) = w(t) − ηgt . Praticamente aggiorno di volta in volta il mio peso
nche' la dierenza fra il peso al tempo t + 1 e al tempo t e' piccola a
piacere. Il numero η e' detto learning rate ed in principio puo' variare ad
ogni iterazione (qualcosa come adaptive gradient descent).
2
1.4 Regressione logistica
Iniziamo con l'introdurre la funzione logistica θ(s) = 1+e s la cui derivata e'
s
e
θ (s) = θ(s)(1 − θ(s)). Un classicatore logistico consiste in una mappa da

0
vettori riga di RD nell'intervallo [0, 1] in modo lineare, ovvero:
f : RD → [0, 1]
f (x)w = θ(wT x)
L'apprendimento in questo caso consiste nel massimizzare la likelihood:
P (y|x) = θ(ywT x)
ovvero nel minimizzare:
N
1 X T
E(w) = ln(1 + e−yn w xn )
N n=1
N N
1 X y n xn 1 X
∇w E(w) = − = −yn xn θ(−yn wT xn ) = 0
N n=1 1 + e−yn wT xn N n=1
3
1.5 Derivazione numerica
Sia f : R → D ⊂ R una funzione. La sua derivata e' denita come:
f (x0 + h) − f (x0 ) f (x0 ) − f (x0 − h) f (x0 + h) − f (x0 − h)

lim = lim = lim
h→0 h h→0 h h→0 2h
Il primo rapporto e' detto forward dierence, il secondo backward die-
rence ed il terzo central.
Consideriamo un sottinsieme discreto di punti a partire da un punto x0
dato un incremento h tale che: xi = x0 + ih. Introduciamo cosi' gli operatori
di traslazione:
T fi = fi+1 = T f (xi ) = f (xi + h) = f (xi+1 )

T −1 fi = fi−1 = T f (xi ) = f (xi − h) = f (xi−1 )
e gli operatori di forward, backward e central dierence:
∆+ = −I + T
∆− = I − T −1
∆c = T + T −1
Sviluppiamo in serie di Taylor fi+1 = f (xi + h):
fi00 2 D2 h2
fi+1 = fi + fi0 h + h + ... = [I + hD + + ...]fi = exp(hD)fi
2! 2!
fi−1 = exp(−hD)fi
dove D e' l'operatore derivata. In questo modo:
T = exp(hD) = I + ∆+
T −1 = exp(−hD) = I − ∆−
Adesso procediamo tramite serie formali di potenze, senza preoccuparci
di problemi di convergenza:
∆2+ ∆3+
hD = ln(1 + ∆+ ) = ∆+ − + − ...
2 3
∆2 ∆3
hD = −ln(1 − ∆− ) = ∆− + − + + + ...
2 3
4
In questo modo e' possibile ottenere derivata di ogni ordine con accura-
tezza qualsiasi.
Passiamo alle dierenze centrali:
∆c = 2sinh(hD)
Per cui:
∆c 1 ∆c 32 ∆c
hD = − ( )3 + ( )5 − ...
2 3! 2 5! 2
Usiamo solo formalmente le traslazioni di h/2 e −h/2 con cui deniamo
due nuovi operatori:
hD
δc = T 1/2 − T −1/2 = 2sinh( )
2
1 hD
µ = (T 1/2 + T −1/2 ) = cosh( )
2 2
∆c = 2µδc
E riscriviamo cosi' l'espressione nale per la derivata:
1 3 32 5
hD = µδc − µδ + µδ − ...
3! c 5! c
In generale si usa l'espressione di prima con la sostituzione ∆c /2 → δc e
moltiplicandone le potenze dispari per µ.
1.6 Implementazione di matrici

Cominciamo a descrivere le possibili tecniche di implementazioni di matrici,
con particolare attenzione all'ecienza in memoria e a quella computaziona-
le. In memoria abbiamo tre alternative per la memorizzazione: innestata,
row-major e column-major. La prima utilizza le matrici multidimensionali
che consistono in array di array e hanno posizioni in memoria sparse (non
contigue). Le altre due hanno un tipo di memorizzazione sequenziale: la row-
major memorizza le righe in sequenza, la column le colonne. Qui scegliamo
la row-major.
Una matrice m × n di double di 8 byte, ad esempio, occupa m ∗ n ∗ 8 bytes
di memoria. Quindi salviamo un array a m ∗ n. Per accedere all'elemento
(i, j) con i = 0...m − 1 e j = 0...n − 1 usiamo a[i ∗ n + j]. Per le matrici
simmetriche dobbiamo memorizzare, se n e' la dimensione della matrice, n
numeri in diagonale e n(n−1)
2
elementi fuori diagonale che in totale diventano
5
n(n+1)
2
elementi. Nell'array a mettiamo sempre in sequenza le righe: la prima
riga (i = 0) avra' n elementi, la seconda n − 1... Per localizzare la riga
i − esima dobbiamo saltare no all'indice i( 2n−i+1
2
) e aggiungere j − i per
la colonna. Tale implementazione vale per j ≥ i; per j < i basta restituire
l'elemento (j, i). Lo stesso vale per le triangolari superiori ed inferiori. Si
procede in modo analogo per le matrici antisimmetriche.
6
Capitolo 2
Equazione di Klein-Gordon e
campo scalare
Partiamo dalla condizione di mass shell E 2 = m2 c4 + p2 c2 e facciamo le

sostituzioni: E → i~∂t e p~ → −i~∇:
−~2 ∂t2 = −~2 ∇2 c2 + m2 c4
1 2 2 m2 c2
∂ − ∇ + =0
c2 t ~2
Ponendo c = ~ = 1:
(∂t2 − ∇2 + m2 )φ = 0
Introducendo ∂µ = (∂t , ∇)
∂µ ∂ µ φ + m2 φ = 0
Tramite la trasformata di Fourier:
Z
1
φ(t, ~x) = d3 k φ̂(t, ~k)eikx
(2π)3
∂t2 φ̂(t, ~k) = −(k 2 + m2 )φ̂(t, ~k)

Riconosciamo che il campo puo' essere disaccoppiato
√ in un numero innito
di oscillatori armonici di pulsazione ωk = k2 + m2 .
La Langragiana relativa e':
1 1
L = (∂µ φ)2 − φ2 − V (φ)
2 2
7
∂L
= φ̇ = π
∂ φ̇
1 1 1
H = π 2 − (∇φ)2 + φ2 + V (φ)
2 2 2
d3 p
Z
1
φ(~x) = p (ap eipx + a†p e−ikx )
(2π)3 2ωp
r
d3 p
Z
ωp
π(~x) = (−i) (ap eipx − a†p e−ipx )
(2π)3 2
L'Hamiltoniana diventa (avendo rimosso l'energia di punto zero, propor-
zionale a δ(0)):
d3 p
Z
H=H= ωp a†p ap
(2π)3
[H, a†p ] = ωp a†p
[H, ap ] = −ωp ap
8
Capitolo 3
Conjugate Priors
3.1 Normal
Known variance σ 2 ; the mean has a prior N (µ0 , σ02 ):
N (µ−µ0 )2
(x −µ)2 −
− i 2
Y 2
p(µ|X) ∝ ( e 2σ )e 2σ0
i=1
2 N 1
σ0 = ( 2
+ 2 )−1
σ σ0
2 µ0 N x̄
µ0 = σ 0 ( + 2)
σ02 σ
9
Capitolo 4
Tensori
4.1 Rotazioni
Troviamo le trasformazioni che mantengono la lunghezza del vettore: R
manda x in x0
x0 = Rx
Per cui:
T
hx0 |x0 i = x0 RT Rx0 = xT x
che implica RT R = 1 ovvero R−1 = RT
Applicando Binet abbiamo che detR = ±1. Le matrici con det = +1 sono
dette rotazione proprie e sono quelle connesse all'identita'. Ad esempio R3
rappresenta una rotazione antioraria rispetto l'asse z .
 
cosφ sinφ 0
R3 (φ) = −sinφ cosφ 0
0 0 1
Possiamo vedere le rotazioni in due modi; le attive mantengono gli assi
coordinanti ssi e ruotano solo il vettore mentre le passive ruotano gli assi
coordinanti
r0 = Ar
Nella versione attiva vediamo come trasforma A:
Br0 = BAr = (BAB −1 )Br
A0 = BAB −1
10
4.2 Rotazioni innitesime
Scriviamo una trasformazione come la somma dell'identita' e di un termine
innitesimo:
Rij = δij + ωij
T
δij = (δki + ωik )(δkj + ωkj )
ω + ωT = 0
ovvero le rotazioni sono generate da matrici antisimmetriche. Per le
rotazioni euclidee in 3D abbiamo come scelta:
 
0 0 0
ω1 = 0 0 1
0 −1 0
 
0 0 −1
ω2 = 0 0 0 
1 0 0
 
0 1 0
ω3 = −1 0 0
0 0 0
4.3 Quadritensori
Introduciamo qui i quadrivettori e i quadritensori, oggetti che trasformano
secondo il gruppo di Lorentz. Un elemento del gruppo di Lorentz deve man-
tenere invariato il tensore metrico dello spazio di Minkowski. In altre parole
il prodotto scalare deve rimanere nella stessa forma.
Il tensore metrico e':
 
1 0 0 0
0 −1 0 0
gµν = 
0 0 −1 0 
0 0 0 −1
Il prodotto scalare risulta percio': gµν dxµ dxν e nel cambio di sistema di
riferimento
11
µ ν
gµν dx0 dx0 = gµν Λµα dxα Λνβ dxβ
e risulta invariante in forma se:
gαβ = Λµα Λνβ gµν

Troviamo le trasformazioni innitesime:
gαβ = (δαµ + ωαµ )(δβν + ωβν )gµν
ωαβ + ωβα = 0
ovvero abbiamo 6 trasformazioni innitesime: 3 boost e 3 rotazioni indi-
pendenti.  
0 1 0 0
1 0 0 0
Kx = 0 0

0 0
0 0 0 0
 
0 0 0 0
0 0 1 0
Jz = 
0 −1

0 0
0 0 0 0
Dalla denizione cercavamo matrici antisimmetriche ma nel momento in
cui innalziamo la componente denotata sopra da α invertiamo il segno delle
componenti spaziali. Partendo ad esempio da una matrice:
 
0 −1 0 0
1 0 0 0
ω=
0 0 0 0

0 0 0 0
innalzando la riga abbiamo Kx . Queste scelte di generatori non sono

univoche; per riprodurre una trasformazione di Lorentz esponenziamo:
~ ~~
Λµν (η, θ) = e−~ηK+θJ
Adesso passiamo alla dinamica. Ricordiamo il concetto di tempo proprio:
(ds)2 = c2 dτ 2 = c2 (dt)2 − (d~x)2
1
dτ = dt
γ
12
con γ = √ 1 = q 1
2
il fattore di Lorentz.
1−β 2 1− v2
c
Ricaviamo tramite il principio di minima azione i momenti della particel-
la, imponendo l'invarianza dell'azione stessa e della Langragiana:
r
t2
v2
Z Z Z
S = −α ds = −α cdτ = −αc dt 1 −
t1 c2
r
v2
L = −αc 1−
c2
Per v → 0
v2
L → −αc + α
2c
Da cui otteniamo α = mc
r
2 v2
L = −mc 1−
c2
∂L
= m~v γ = p~
∂~v
Otteniamo cosi' anche l'Hamiltoniana H = ~v p~ − L:
H = mc2 γ
Introduciamo quindi il vettore quadrimomento come pµ = ( Hc , p~) per cui
pµ pµ = (mc)2 . Inne:
E 2 = p2 c2 + m2 c4
Applichiamo quello che abbiamo descritto in un decadimento M → m1 +
m2 . Descriviamo M nel suo centro di massa, ponendo c = 1: Ei = M . Per la
conservazione del momento abbiamo p~1 ∗ + p~2 ∗ = 0 ovvero p∗ 2 = |p∗1 |2 = |p∗2 |2 .
M = E1 + E2
E12 − m21 = E22 − m22
E12 − m21 = M 2 + E12 − 2M E1 − m22
M 2 + m21 − m22
E1 =
2M
13
M 2 − m21 + m22
E2 =
2M
Il momento e' immediatamente ricavato dalla mass shell. Passiamo dal
centro di massa al laboratori con un boost di velocita' −v
E1L = γ(v)(E1 + vp∗ cosθ∗ )

px1 = γ(v)(p∗ cosθ∗ + vE1 )
py1 = p∗ sinθ∗
E2L = γ(v)(E2 − vp∗ cosθ∗ )

px2 = γ(v)(−p∗ cosθ∗ + vE2 )
py2 = −p∗ sinθ∗
∗ γpy1
tanθ = x
p1 − vγE1
14

Vademecum PROB ML

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Vademecum PROB ML

Uploaded by

Copyright:

Available Formats

Capitolo 1

1.1 Regressione lineare

Abbiamo n gradi di liberta' con cui scomporre A e imponiamo uii = 1;

Calcolo prima la riga i − esima di L e poi la colonna j − esima di U :

1.3 Discesa del gradiente

θ (s) = θ(s)(1 − θ(s)). Un classicatore logistico consiste in una mappa da

vettori riga di RD nell'intervallo [0, 1] in modo lineare, ovvero:

f (x0 + h) − f (x0 ) f (x0 ) − f (x0 − h) f (x0 + h) − f (x0 − h)

T fi = fi+1 = T f (xi ) = f (xi + h) = f (xi+1 )

1.6 Implementazione di matrici

Partiamo dalla condizione di mass shell E 2 = m2 c4 + p2 c2 e facciamo le

−~2 ∂t2 = −~2 ∇2 c2 + m2 c4

∂t2 φ̂(t, ~k) = −(k 2 + m2 )φ̂(t, ~k)

[H, a†p ] = ωp a†p

Br0 = BAr = (BAB −1 )Br

Rij = δij + ωij

gαβ = Λµα Λνβ gµν

gαβ = (δαµ + ωαµ )(δβν + ωβν )gµν

innalzando la riga abbiamo Kx . Queste scelte di generatori non sono

(ds)2 = c2 dτ 2 = c2 (dt)2 − (d~x)2

E12 − m21 = E22 − m22

E12 − m21 = M 2 + E12 − 2M E1 − m22

E1L = γ(v)(E1 + vp∗ cosθ∗ )

E2L = γ(v)(E2 − vp∗ cosθ∗ )

You might also like

θ (s) = θ(s)(1 − θ(s)). Un classicatore logistico consiste in una mappa da