Bla Bla

Strojno učenje:
7. Logistička regresija II
Jan Šnajder, UNIZG FER, ak. god. 2019./2020.
Natuknice za predavanje 23. 10. 2019., v1.5
1 Alternative gradijentnom spustu
• Gradijentni spust s linijskim pretraživanjem ima cik-cak trajektoriju sporo
• Alternativa: optimizacija drugog reda, npr. Newtonov postupak
• Ideja: skok iz trenutačnog minimuma do minimuma kvadratne aproks. funkcije

minimum
apronnien
an
what
shoeno
i
• Kvadratna aproksimacija f x u točki xt razvojem u Taylorov red drugog reda:
T 1 T
f x fquad x f xt rf xt x xt x xt Ht x xt
2
1
Optimnacija druggyreda 0 Newton Raphsonov postopak
min f i
I E notch
Feta
Iz nOfc
aprotgimanja od th
Taylorovred ooholini take
the flat ftp.dcx alttY cx afifIfaICx a7 t
It
n
Has Hal l
x a
ranimer has huadratna a iderno do a

prox per
old flat Halt ftp.dcx ay itif cx at

u xD f E I f Ee t ofLEITE IH ICE xITH.IE
Hesseam matrica
neda
rmatricnparciiahrihdenuaa.la druggy
osimetriona matrices
gdje je Ht Hesseova matrica funkcije f x u točki xt
2f 2f 2f
fterrine
D R pognesha
x21 x1 x2 x1 xn
2f 2f 2f
x2 x1 x22 x2 xn
H rrf x .. .. ..
..
. . . .
dimovisi 2
o brogu
Hij
2f 2f 2f
xn x1 xn x2 x2n
wadajhi
• f x je konveksna
• Ažuriranje parametara: zxiaxjdaienes
H je pozitivno semi-definitna (ali ne nužno pozitivno definitna!)
toso.ti.vx o.xtnx.io
xt 1 xt ⌘Ht rf xt 1
ahoie THx 0
• Ne radi ako H nije invertibilna multikolinearnost treba regularizirati

• Specifično, za logističku regresiju:
H T
S dim H ntl x htt
Nx N
i i
Laonehaderivative dim S
gdje S diag h x 1 hx
• Pravilo ažuriranja:
1
w w H rE w D ⌘ 1
algoritam iteratively reweighted least squares (IRLS) breetreniranjelogreg
• Izračun Ht u svakom koraku je potencijalno skup
terndii se na derivaciyi2ogreda
Notional
Ggg• Alternativa: kvazi-Newtonovi postupci (BFSG, L-BFSG) – aproksimiraju Ht
www.haerox.aprox.Hesseouematn
cepomoevgraoijenta
• Uključivanje L2-regularizacije je jednostavno:
FwEmir
rER w D rE w D
gw za gradsport
HR H I
a a fakeeye Ito to O
• L1-regularizacija: podgradijentne metode (koordinatni spust, proksimalne metode)
A
EatenIdea rigethimodeli hompliciranije perwife dlereveiiabilno
ereenoa
2 Višeklasna logistička regresija

• OVO/OVR ne daje vjerojatnosnu distribuciju po klasama
• Funkcija softmax: softmax : Rn Rn , gdje za komponentu k vrijedi:
exp xk
softmaxk x1 , . . . , xn
j exp xj
normalizira tako da xk 1 te smanjuje male i povećava velike vrijednosti

• Multinomijalna logistička regresija (MNR, maximum entropy classifier):
exp wkT x
hk x; W T
P y k x, W
j exp wj x
gdje W w1 , . . . , wK
2
binarna LR t6
d
HE D occitoke
Harp wtf _My _th
Sho ako
je k 2
MULTINOMYAWA WhistIOWA REGRESIJA
Chlasikhoutormalsimalneentropije Marent
MODEL
suala od k Hasa ima WI
k Wasa
suffer poopienie sigmoid na
kn R
software xn Xn
sexpCxj
X
softmark
exp Wiedel
hee E W cxH
expcwj.to
P y klx
peY l pe1t
ypi tek1spej
Plylpe
pen peu t
P y help Time
toothfiemigin
4
• Izlaz je multinulijeva (kategorička) varijabla y y1 , y2 , . . . , yK T, s distribucijom:
K
bb
P yµ µykk nor
k 1
• Log-izglednost označenih primjera:

N N K i N K
y i
i i
ln P y X, W ln P y x ln µkk ln hk x i ; W yk
i 1 i 1k 1 i 1k 1
N K
i
yk ln hk x i ; W
i 1k 1
poopćena pogreška unakrsne entropije:

N K
i
E WD yk ln hk x i ; W
i 1k 1
E
E
ocean
goes
• Funkcija gubitka:
L y, hk x
K
yk ln hk x; W
bad k 1
OPTIMIZACYA
• Gradijent za klasu k:
N
i
rw k E W D hk x i ; W yk x i
i 1
gradijent je isti kao i za binarnu logističku funkciju
• On-line ažuriranje:
wk w ⌘ h x i ;w y i
x i
algoritam least-mean-squares (LMS) ili Widrow-Ho↵ovo pravilo
• Isto dobivamo za on-line optimizaciju linearne regresije
3 Poopćeni linearni modeli i eksponencijalna familija
• Unificirani pogled na tri poopćena linearna modela koja smo razmatrali
• Linearna regresija:
h x; w wT x
P y x, w N µ, 2
N hx, 2 DUA NAINAVEENA
L y, h x hx y 2 BATCH
rw L y, h x hx y x online
3
3 • Logistička regresija:
1
h x; w wT x P y 1 x, w
1 exp wT x
P y x, w µy 1 µ 1 y
hx y
1 hx 1 y
9
L y, h x y ln h x 1 y ln 1 hx
rw L y, h x hx y x
poopieni linearnimodel BATCH

I
• Multinomijalna logistička regresija:
grad
spust
Newton
Raph
son
exp wkT x
hk x; W softmax w T
x T
P y k x, w BFSa
j exp wj x
online
K K sad
P y x, w µykk hk x yk
k 1 k 1
K
L y, hk x yk ln hk x; W
k 1
rwk L yk , hk x hk x yk x
• Sve tri korištene distribucije pripadaju eksponencijalnoj familiji distribucija:
p x✓ h x exp ✓ T x A✓
• Ključno za poopćene linearne modele – distribucija odreduje aktivacijsku funkciju:
– Gauss funkcija identiteta, Bernoulli logistička, Multinoulli softmax
4 Adaptivne bazne funkcije vera izmed

olog.is
noteregresijeineeroushihmreEa
• Model s baznim funkcijama:

m
h x; w f wT x f wj j x
j 0
• Fiksne (u obliku i broju) adaptivne funkcije mogu biti ograničavajuće
• Parametrizirane bazne funkcije – svaka bazna funkcija je poopćeni linearan model:

m n
2 1 2 T 1
h x; w f wj f wji xi f w f W x
j 0 i 0
j x
• Dobili smo dvoslojnu neuronsku mrežu
4
• Složeniji model, ali ga je lakše pretrenirati te optimizacija nije konveksna

Bla Bla

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bla Bla

Uploaded by

Copyright:

Available Formats

Strojno učenje:

Jan Šnajder, UNIZG FER, ak. god. 2019./2020.

Natuknice za predavanje 23. 10. 2019., v1.5

1 Alternative gradijentnom spustu

• Gradijentni spust s linijskim pretraživanjem ima cik-cak trajektoriju sporo

• Alternativa: optimizacija drugog reda, npr. Newtonov postupak

• Ideja: skok iz trenutačnog minimuma do minimuma kvadratne aproks. funkcije

• Kvadratna aproksimacija f x u točki xt razvojem u Taylorov red drugog reda:

Taylorovred ooholini take

the flat ftp.dcx alttY cx afifIfaICx a7 t

ranimer has huadratna a iderno do a

old flat Halt ftp.dcx ay itif cx at

• Ne radi ako H nije invertibilna multikolinearnost treba regularizirati

2 Višeklasna logistička regresija

normalizira tako da xk 1 te smanjuje male i povećava velike vrijednosti

• Log-izglednost označenih primjera:

poopćena pogreška unakrsne entropije:

gradijent je isti kao i za binarnu logističku funkciju

algoritam least-mean-squares (LMS) ili Widrow-Ho↵ovo pravilo

• Isto dobivamo za on-line optimizaciju linearne regresije

3 Poopćeni linearni modeli i eksponencijalna familija

• Unificirani pogled na tri poopćena linearna modela koja smo razmatrali

poopieni linearnimodel BATCH

• Sve tri korištene distribucije pripadaju eksponencijalnoj familiji distribucija:

• Ključno za poopćene linearne modele – distribucija odreduje aktivacijsku funkciju:

– Gauss funkcija identiteta, Bernoulli logistička, Multinoulli softmax

4 Adaptivne bazne funkcije vera izmed

• Model s baznim funkcijama:

• Fiksne (u obliku i broju) adaptivne funkcije mogu biti ograničavajuće

• Parametrizirane bazne funkcije – svaka bazna funkcija je poopćeni linearan model:

• Dobili smo dvoslojnu neuronsku mrežu

You might also like