You are on page 1of 7

Strojno učenje:

7. Logistička regresija II

Jan Šnajder, UNIZG FER, ak. god. 2019./2020.

Natuknice za predavanje 23. 10. 2019., v1.5

1 Alternative gradijentnom spustu

• Gradijentni spust s linijskim pretraživanjem ima cik-cak trajektoriju sporo

• Alternativa: optimizacija drugog reda, npr. Newtonov postupak

• Ideja: skok iz trenutačnog minimuma do minimuma kvadratne aproks. funkcije


minimum
apronnien
an
what
shoeno
i

• Kvadratna aproksimacija f x u točki xt razvojem u Taylorov red drugog reda:

T 1 T
f x fquad x f xt rf xt x xt x xt Ht x xt
2

1
Optimnacija druggyreda 0 Newton Raphsonov postopak

min f i
I E notch
Feta
Iz nOfc
aprotgimanja od th

Taylorovred ooholini take

the flat ftp.dcx alttY cx afifIfaICx a7 t

It
n
Has Hal l
x a

ranimer has huadratna a iderno do a


prox per

old flat Halt ftp.dcx ay itif cx at


u xD f E I f Ee t ofLEITE IH ICE xITH.IE
Hesseam matrica
neda
rmatricnparciiahrihdenuaa.la druggy
osimetriona matrices
gdje je Ht Hesseova matrica funkcije f x u točki xt
2f 2f 2f
fterrine
D R pognesha
x21 x1 x2 x1 xn
2f 2f 2f
x2 x1 x22 x2 xn
H rrf x .. .. ..
..
. . . .
dimovisi 2
o brogu
Hij
2f 2f 2f
xn x1 xn x2 x2n
wadajhi
• f x je konveksna
• Ažuriranje parametara: zxiaxjdaienes
H je pozitivno semi-definitna (ali ne nužno pozitivno definitna!)
toso.ti.vx o.xtnx.io
xt 1 xt ⌘Ht rf xt 1
ahoie THx 0

• Ne radi ako H nije invertibilna multikolinearnost treba regularizirati


• Specifično, za logističku regresiju:

H T
S dim H ntl x htt

Nx N
i i
Laonehaderivative dim S
gdje S diag h x 1 hx
• Pravilo ažuriranja:
1
w w H rE w D ⌘ 1
algoritam iteratively reweighted least squares (IRLS) breetreniranjelogreg
• Izračun Ht u svakom koraku je potencijalno skup
terndii se na derivaciyi2ogreda
Notional
Ggg• Alternativa: kvazi-Newtonovi postupci (BFSG, L-BFSG) – aproksimiraju Ht
www.haerox.aprox.Hesseouematn
cepomoevgraoijenta
• Uključivanje L2-regularizacije je jednostavno:
FwEmir
rER w D rE w D
gw za gradsport
HR H I
a a fakeeye Ito to O
• L1-regularizacija: podgradijentne metode (koordinatni spust, proksimalne metode)
A
EatenIdea rigethimodeli hompliciranije perwife dlereveiiabilno
ereenoa

2 Višeklasna logistička regresija


• OVO/OVR ne daje vjerojatnosnu distribuciju po klasama
• Funkcija softmax: softmax : Rn Rn , gdje za komponentu k vrijedi:
exp xk
softmaxk x1 , . . . , xn
j exp xj

normalizira tako da xk 1 te smanjuje male i povećava velike vrijednosti


• Multinomijalna logistička regresija (MNR, maximum entropy classifier):
exp wkT x
hk x; W T
P y k x, W
j exp wj x

gdje W w1 , . . . , wK

2
binarna LR t6
d
HE D occitoke
Harp wtf _My _th
Sho ako
je k 2
MULTINOMYAWA WhistIOWA REGRESIJA
Chlasikhoutormalsimalneentropije Marent

MODEL
suala od k Hasa ima WI
k Wasa
suffer poopienie sigmoid na

kn R
software xn Xn
sexpCxj
X
softmark

exp Wiedel
hee E W cxH
expcwj.to
P y klx

peY l pe1t
ypi tek1spej
Plylpe
pen peu t

P y help Time
toothfiemigin
4
• Izlaz je multinulijeva (kategorička) varijabla y y1 , y2 , . . . , yK T, s distribucijom:
K

bb
P yµ µykk nor
k 1

• Log-izglednost označenih primjera:


N N K i N K
y i
i i
ln P y X, W ln P y x ln µkk ln hk x i ; W yk

i 1 i 1k 1 i 1k 1
N K
i
yk ln hk x i ; W
i 1k 1

poopćena pogreška unakrsne entropije:


N K
i
E WD yk ln hk x i ; W
i 1k 1

E
E
ocean
goes
• Funkcija gubitka:

L y, hk x
K
yk ln hk x; W
bad k 1
OPTIMIZACYA
• Gradijent za klasu k:
N
i
rw k E W D hk x i ; W yk x i

i 1

gradijent je isti kao i za binarnu logističku funkciju

• On-line ažuriranje:

wk w ⌘ h x i ;w y i
x i

algoritam least-mean-squares (LMS) ili Widrow-Ho↵ovo pravilo

• Isto dobivamo za on-line optimizaciju linearne regresije

3 Poopćeni linearni modeli i eksponencijalna familija

• Unificirani pogled na tri poopćena linearna modela koja smo razmatrali

• Linearna regresija:

h x; w wT x

P y x, w N µ, 2
N hx, 2 DUA NAINAVEENA

L y, h x hx y 2 BATCH

rw L y, h x hx y x online

3
3 • Logistička regresija:
1
h x; w wT x P y 1 x, w
1 exp wT x

P y x, w µy 1 µ 1 y
hx y
1 hx 1 y

9
L y, h x y ln h x 1 y ln 1 hx
rw L y, h x hx y x

poopieni linearnimodel BATCH


I
• Multinomijalna logistička regresija:
grad
spust
Newton
Raph
son
exp wkT x
hk x; W softmax w T
x T
P y k x, w BFSa
j exp wj x
online
K K sad
P y x, w µykk hk x yk

k 1 k 1

K
L y, hk x yk ln hk x; W
k 1

rwk L yk , hk x hk x yk x

• Sve tri korištene distribucije pripadaju eksponencijalnoj familiji distribucija:

p x✓ h x exp ✓ T x A✓

• Ključno za poopćene linearne modele – distribucija odreduje aktivacijsku funkciju:

– Gauss funkcija identiteta, Bernoulli logistička, Multinoulli softmax

4 Adaptivne bazne funkcije vera izmed


olog.is
noteregresijeineeroushihmreEa

• Model s baznim funkcijama:


m
h x; w f wT x f wj j x
j 0

• Fiksne (u obliku i broju) adaptivne funkcije mogu biti ograničavajuće

• Parametrizirane bazne funkcije – svaka bazna funkcija je poopćeni linearan model:


m n
2 1 2 T 1
h x; w f wj f wji xi f w f W x
j 0 i 0

j x

• Dobili smo dvoslojnu neuronsku mrežu

4
• Složeniji model, ali ga je lakše pretrenirati te optimizacija nije konveksna

You might also like