You are on page 1of 14

Capitolo 1

Concetti base

1.1 Regressione lineare


Supponiamo che la dimensione del nostro problema sia D e di avere a di-
sposizone N campioni (xi , yi ) con i = 1...N con xTi ∈ RD (ovvero xi e' un
vettore riga).
La regressione lineare e' la minimizzazione della funzione errore E(w) con
w ∈ RD
N
1 X
E(w) = (yi − wT xi )2
N i=1
Introduciamo la matrice X ∈ M (R)N,D con riga i il dato xi e il vettore
colonna Y ∈ RN con componenti le yi ; in questo modo:

1 1 1
E(w) = kY − Xwk2 = hY − Xw|Y − Xwi = (Y T Y −Y T Xw−wT X T Y −wT X T Xw)
N N N
Minimizzando rispetto a w:
1
∇w E(w) = (2X T Y − 2X T Xw) = 0
N

X T Xw = X T Y

w = (X T X)−1 X T Y
Se volessimo introdurre la regolarizzazione avremmo:

(X T X + λN I)w = X T Y

1
1.2 Decomposizione LU
Sia A una matrice quadrata n × n esistono due matrici L ed U triangolari
inferiore e superiore per cui:

A = LU

n
X
aij = lik ukj
k=1

Abbiamo n gradi di liberta' con cui scomporre A e imponiamo uii = 1;


dalla denizione abbiamo che lik 6= 0 se i ≥ k e che ukj 6= 0 per k ≤ j .
Se i ≥ j :
j j−1
X X
aij = lik ukj = lik ukj + lij
k=1 k=1
j−1
X
lij = aij − lik ukj
k=1

Se i < j :
i
X i−1
X
aij = lik ukj = lik ukj + lii uij
k=1 k=1
i−1
X
uij = lii−1 (aij − lik ukj )
k=1

Calcolo prima la riga i − esima di L e poi la colonna j − esima di U :


li1 , u1j ; li2 , u2j ...; lik−1 uk−1j ...
Per evitare singolarita' riarrangiare le colonne di A anche' le l'elemento
maggiore di ogni colonna sia sulla diagonale.

1.3 Discesa del gradiente


Sia E(w(t)) la funzione da minimizzare; sia w(0) il valore iniziale per i pesi.
Allora per t = 0, 1, 2, ...: calcolare gt = ∇w E(w(t)) e se ηkgt k >  impostare
w(t + 1) = w(t) − ηgt . Praticamente aggiorno di volta in volta il mio peso
nche' la dierenza fra il peso al tempo t + 1 e al tempo t e' piccola a
piacere. Il numero η e' detto learning rate ed in principio puo' variare ad
ogni iterazione (qualcosa come adaptive gradient descent).

2
1.4 Regressione logistica
Iniziamo con l'introdurre la funzione logistica θ(s) = 1+e s la cui derivata e'
s
e

θ (s) = θ(s)(1 − θ(s)). Un classicatore logistico consiste in una mappa da


0

vettori riga di RD nell'intervallo [0, 1] in modo lineare, ovvero:

f : RD → [0, 1]
f (x)w = θ(wT x)
L'apprendimento in questo caso consiste nel massimizzare la likelihood:

P (y|x) = θ(ywT x)
ovvero nel minimizzare:
N
1 X T
E(w) = ln(1 + e−yn w xn )
N n=1

N N
1 X y n xn 1 X
∇w E(w) = − = −yn xn θ(−yn wT xn ) = 0
N n=1 1 + e−yn wT xn N n=1

3
1.5 Derivazione numerica
Sia f : R → D ⊂ R una funzione. La sua derivata e' denita come:

f (x0 + h) − f (x0 ) f (x0 ) − f (x0 − h) f (x0 + h) − f (x0 − h)


lim = lim = lim
h→0 h h→0 h h→0 2h
Il primo rapporto e' detto forward dierence, il secondo backward die-
rence ed il terzo central.
Consideriamo un sottinsieme discreto di punti a partire da un punto x0
dato un incremento h tale che: xi = x0 + ih. Introduciamo cosi' gli operatori
di traslazione:

T fi = fi+1 = T f (xi ) = f (xi + h) = f (xi+1 )


T −1 fi = fi−1 = T f (xi ) = f (xi − h) = f (xi−1 )
e gli operatori di forward, backward e central dierence:

∆+ = −I + T
∆− = I − T −1
∆c = T + T −1
Sviluppiamo in serie di Taylor fi+1 = f (xi + h):

fi00 2 D2 h2
fi+1 = fi + fi0 h + h + ... = [I + hD + + ...]fi = exp(hD)fi
2! 2!
fi−1 = exp(−hD)fi
dove D e' l'operatore derivata. In questo modo:

T = exp(hD) = I + ∆+
T −1 = exp(−hD) = I − ∆−
Adesso procediamo tramite serie formali di potenze, senza preoccuparci
di problemi di convergenza:
∆2+ ∆3+
hD = ln(1 + ∆+ ) = ∆+ − + − ...
2 3
∆2 ∆3
hD = −ln(1 − ∆− ) = ∆− + − + + + ...
2 3

4
In questo modo e' possibile ottenere derivata di ogni ordine con accura-
tezza qualsiasi.
Passiamo alle dierenze centrali:

∆c = 2sinh(hD)
Per cui:
∆c 1 ∆c 32 ∆c
hD = − ( )3 + ( )5 − ...
2 3! 2 5! 2
Usiamo solo formalmente le traslazioni di h/2 e −h/2 con cui deniamo
due nuovi operatori:
hD
δc = T 1/2 − T −1/2 = 2sinh( )
2
1 hD
µ = (T 1/2 + T −1/2 ) = cosh( )
2 2
∆c = 2µδc
E riscriviamo cosi' l'espressione nale per la derivata:
1 3 32 5
hD = µδc − µδ + µδ − ...
3! c 5! c
In generale si usa l'espressione di prima con la sostituzione ∆c /2 → δc e
moltiplicandone le potenze dispari per µ.

1.6 Implementazione di matrici


Cominciamo a descrivere le possibili tecniche di implementazioni di matrici,
con particolare attenzione all'ecienza in memoria e a quella computaziona-
le. In memoria abbiamo tre alternative per la memorizzazione: innestata,
row-major e column-major. La prima utilizza le matrici multidimensionali
che consistono in array di array e hanno posizioni in memoria sparse (non
contigue). Le altre due hanno un tipo di memorizzazione sequenziale: la row-
major memorizza le righe in sequenza, la column le colonne. Qui scegliamo
la row-major.
Una matrice m × n di double di 8 byte, ad esempio, occupa m ∗ n ∗ 8 bytes
di memoria. Quindi salviamo un array a m ∗ n. Per accedere all'elemento
(i, j) con i = 0...m − 1 e j = 0...n − 1 usiamo a[i ∗ n + j]. Per le matrici
simmetriche dobbiamo memorizzare, se n e' la dimensione della matrice, n
numeri in diagonale e n(n−1)
2
elementi fuori diagonale che in totale diventano

5
n(n+1)
2
elementi. Nell'array a mettiamo sempre in sequenza le righe: la prima
riga (i = 0) avra' n elementi, la seconda n − 1... Per localizzare la riga
i − esima dobbiamo saltare no all'indice i( 2n−i+1
2
) e aggiungere j − i per
la colonna. Tale implementazione vale per j ≥ i; per j < i basta restituire
l'elemento (j, i). Lo stesso vale per le triangolari superiori ed inferiori. Si
procede in modo analogo per le matrici antisimmetriche.

6
Capitolo 2

Equazione di Klein-Gordon e
campo scalare

Partiamo dalla condizione di mass shell E 2 = m2 c4 + p2 c2 e facciamo le


sostituzioni: E → i~∂t e p~ → −i~∇:

−~2 ∂t2 = −~2 ∇2 c2 + m2 c4

1 2 2 m2 c2
∂ − ∇ + =0
c2 t ~2
Ponendo c = ~ = 1:

(∂t2 − ∇2 + m2 )φ = 0
Introducendo ∂µ = (∂t , ∇)

∂µ ∂ µ φ + m2 φ = 0
Tramite la trasformata di Fourier:
Z
1
φ(t, ~x) = d3 k φ̂(t, ~k)eikx
(2π)3

∂t2 φ̂(t, ~k) = −(k 2 + m2 )φ̂(t, ~k)


Riconosciamo che il campo puo' essere disaccoppiato
√ in un numero innito
di oscillatori armonici di pulsazione ωk = k2 + m2 .
La Langragiana relativa e':
1 1
L = (∂µ φ)2 − φ2 − V (φ)
2 2

7
∂L
= φ̇ = π
∂ φ̇
1 1 1
H = π 2 − (∇φ)2 + φ2 + V (φ)
2 2 2
d3 p
Z
1
φ(~x) = p (ap eipx + a†p e−ikx )
(2π)3 2ωp
r
d3 p
Z
ωp
π(~x) = (−i) (ap eipx − a†p e−ipx )
(2π)3 2
L'Hamiltoniana diventa (avendo rimosso l'energia di punto zero, propor-
zionale a δ(0)):
d3 p
Z
H=H= ωp a†p ap
(2π)3

[H, a†p ] = ωp a†p

[H, ap ] = −ωp ap

8
Capitolo 3

Conjugate Priors

3.1 Normal
Known variance σ 2 ; the mean has a prior N (µ0 , σ02 ):
N (µ−µ0 )2
(x −µ)2 −
− i 2
Y 2
p(µ|X) ∝ ( e 2σ )e 2σ0
i=1

2 N 1
σ0 = ( 2
+ 2 )−1
σ σ0
2 µ0 N x̄
µ0 = σ 0 ( + 2)
σ02 σ

9
Capitolo 4

Tensori

4.1 Rotazioni
Troviamo le trasformazioni che mantengono la lunghezza del vettore: R
manda x in x0

x0 = Rx
Per cui:
T
hx0 |x0 i = x0 RT Rx0 = xT x
che implica RT R = 1 ovvero R−1 = RT
Applicando Binet abbiamo che detR = ±1. Le matrici con det = +1 sono
dette rotazione proprie e sono quelle connesse all'identita'. Ad esempio R3
rappresenta una rotazione antioraria rispetto l'asse z .
 
cosφ sinφ 0
R3 (φ) = −sinφ cosφ 0
0 0 1
Possiamo vedere le rotazioni in due modi; le attive mantengono gli assi
coordinanti ssi e ruotano solo il vettore mentre le passive ruotano gli assi
coordinanti

r0 = Ar
Nella versione attiva vediamo come trasforma A:

Br0 = BAr = (BAB −1 )Br

A0 = BAB −1

10
4.2 Rotazioni innitesime
Scriviamo una trasformazione come la somma dell'identita' e di un termine
innitesimo:

Rij = δij + ωij

T
δij = (δki + ωik )(δkj + ωkj )

ω + ωT = 0
ovvero le rotazioni sono generate da matrici antisimmetriche. Per le
rotazioni euclidee in 3D abbiamo come scelta:
 
0 0 0
ω1 = 0 0 1
0 −1 0
 
0 0 −1
ω2 = 0 0 0 
1 0 0
 
0 1 0
ω3 = −1 0 0
0 0 0

4.3 Quadritensori
Introduciamo qui i quadrivettori e i quadritensori, oggetti che trasformano
secondo il gruppo di Lorentz. Un elemento del gruppo di Lorentz deve man-
tenere invariato il tensore metrico dello spazio di Minkowski. In altre parole
il prodotto scalare deve rimanere nella stessa forma.
Il tensore metrico e':
 
1 0 0 0
0 −1 0 0
gµν = 
0 0 −1 0 
0 0 0 −1
Il prodotto scalare risulta percio': gµν dxµ dxν e nel cambio di sistema di
riferimento

11
µ ν
gµν dx0 dx0 = gµν Λµα dxα Λνβ dxβ
e risulta invariante in forma se:

gαβ = Λµα Λνβ gµν


Troviamo le trasformazioni innitesime:

gαβ = (δαµ + ωαµ )(δβν + ωβν )gµν

ωαβ + ωβα = 0
ovvero abbiamo 6 trasformazioni innitesime: 3 boost e 3 rotazioni indi-
pendenti.  
0 1 0 0
1 0 0 0
Kx = 0 0

0 0
0 0 0 0
 
0 0 0 0
0 0 1 0
Jz = 
0 −1

0 0
0 0 0 0
Dalla denizione cercavamo matrici antisimmetriche ma nel momento in
cui innalziamo la componente denotata sopra da α invertiamo il segno delle
componenti spaziali. Partendo ad esempio da una matrice:
 
0 −1 0 0
1 0 0 0
ω=
0 0 0 0

0 0 0 0

innalzando la riga abbiamo Kx . Queste scelte di generatori non sono


univoche; per riprodurre una trasformazione di Lorentz esponenziamo:
~ ~~
Λµν (η, θ) = e−~ηK+θJ
Adesso passiamo alla dinamica. Ricordiamo il concetto di tempo proprio:

(ds)2 = c2 dτ 2 = c2 (dt)2 − (d~x)2

1
dτ = dt
γ

12
con γ = √ 1 = q 1
2
il fattore di Lorentz.
1−β 2 1− v2
c
Ricaviamo tramite il principio di minima azione i momenti della particel-
la, imponendo l'invarianza dell'azione stessa e della Langragiana:
r
t2
v2
Z Z Z
S = −α ds = −α cdτ = −αc dt 1 −
t1 c2
r
v2
L = −αc 1−
c2
Per v → 0
v2
L → −αc + α
2c
Da cui otteniamo α = mc
r
2 v2
L = −mc 1−
c2
∂L
= m~v γ = p~
∂~v
Otteniamo cosi' anche l'Hamiltoniana H = ~v p~ − L:

H = mc2 γ
Introduciamo quindi il vettore quadrimomento come pµ = ( Hc , p~) per cui
pµ pµ = (mc)2 . Inne:

E 2 = p2 c2 + m2 c4
Applichiamo quello che abbiamo descritto in un decadimento M → m1 +
m2 . Descriviamo M nel suo centro di massa, ponendo c = 1: Ei = M . Per la
conservazione del momento abbiamo p~1 ∗ + p~2 ∗ = 0 ovvero p∗ 2 = |p∗1 |2 = |p∗2 |2 .

M = E1 + E2

E12 − m21 = E22 − m22

E12 − m21 = M 2 + E12 − 2M E1 − m22

M 2 + m21 − m22
E1 =
2M
13
M 2 − m21 + m22
E2 =
2M
Il momento e' immediatamente ricavato dalla mass shell. Passiamo dal
centro di massa al laboratori con un boost di velocita' −v

E1L = γ(v)(E1 + vp∗ cosθ∗ )


px1 = γ(v)(p∗ cosθ∗ + vE1 )
py1 = p∗ sinθ∗

E2L = γ(v)(E2 − vp∗ cosθ∗ )


px2 = γ(v)(−p∗ cosθ∗ + vE2 )
py2 = −p∗ sinθ∗

∗ γpy1
tanθ = x
p1 − vγE1

14

You might also like