SU 7 Regresija PDF

Strojno učenje
7. Regresija
prof. dr. sc. Bojana Dalbelo Bašić

doc. dr. sc. Jan Šnajder
Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva
Ak. god. 2012/13.
Creative Commons Imenovanje–Nekomercijalno–Bez prerada 3.0 v1.1
1 / 34
Danas. . .
1 Uvod
2 Postupak najmanjih kvadrata
3 Poopćeni linearan model regresije
4 Odabir modela
5 Regularizirana regresija
2 / 34
Danas. . .
1 Uvod
4 Odabir modela
3 / 34
Regresija
D tpxpiq, ypiqqu, x P Rn , y PR
Hipoteza h aproksimira nepoznatu funkciju f : Rn ÑR
x – ulazna varijabla (nezavisna, prediktorska)
y – izlazna varijabla (zavisna, kriterijska)
Funkcija pogreške:
Ņ
2
E ph|Dq y piq hpxpiq q
1
2 i1
4 / 34
Regresija
Linearan model regresije:

h je linearna funkcija parametara w pw0 , . . . , wn q
Linearna regresija:
hpx|wq w0 w1 x1 w2 x2 wn x n
Polinomijalna regresija:
hpx|wq w0 w1 x w2 x2 wd xd pn 1q
hpx|wq w0 w1 x1 w2 x2 w3 x1 x2 w4 x21 w5 x22 pn 2, d 2q
Općenite bazne funkcije:
hpx|wq w0 w1 φ1 pxq wm φ m px q
5 / 34
Regresija
Broj ulaznih (nezavisnih) varijabli:

Univarijatna (jednostavna, jednostruka) regresija: n 1
Multivarijatna (višestruka, multipla) regresija: n ¡ 1
Broj izlaznih (zavisnih) varijabli:

Jednoizlazna regresija: f pxq y
Višeizlazna regresija: f pxq y
6 / 34
Danas. . .
1 Uvod
4 Odabir modela
7 / 34
Probabilistički model regresije
Ograničimo se BSO na univarijatnu (n 1) linearnu regresiju:
hpx|wq w0 w1 x w pw0 , w1 q
Zbog šuma u D:
y piq f pxpiqq ε
Prepostavka:
ε N p0, σ 2 q
Posjedično:
y |x N phpx|wq, σ 2 q
odnosno
ppy |xq N phpx|wq, σ 2 q
E ry |xs µ hpx|wq
8 / 34
Probabilistički model regresije
9 / 34
Log-izglednost
¹
N ¹
N
ln Lpw|Dq ln ppD|wq ln ppxpiq , y piq q ln ppy piq |xpiq qppxpiq q

i 1
i 1
¹
N ¹
N
ln ppy piq |xpiq q ln ppxpiq q

i 1
i 1
¹N ¹
N

ñ ln ppy piq |xpiq q ln N hpxpiq |wq, σ 2

i 1
i 1
2
¹
N ! y iq hpxpiq |wq )
p
ln ?1 exp 2σ 2

i 1
2πσ
? Ņ
2
N lnp 2πσ q y piq hpxpiq |wq
1
2σ 2
i 1
Ņ
2
ñ 21 y piq hpxpiq |wq

i 1
10 / 34
MLE i postupak najmanjih kvadrata
Uz pretpostavku Gaussovog šuma, maksimizacija izglednosti odgovara

minimizaciji funkcije pogreške definirane kao zbroj kvadratnih odstupanja:
argmax ln Lpw|Dq argmin E pw|Dq

w w
Ņ
2
E ph|Dq y piq hpxpiq |wq
1
2 i1

L y, hpx|wq 9 y hpx|wq 2
ñ Probabilističko opravdanje za kvadratnu funkciju gubitka

Rješenje MLE jednako je rješenju koje daje postupak najmanjih kvadrata!
11 / 34
Postupak najmanjih kvadrata
hpx|w0 , w1 q w0 w1 x
∇w0 ,w1 E ph|Dq 0
..
.
Ņ Ņ
y piq N w0 w1 x p iq (1.3) u skripti

i 1
i 1
Ņ Ņ Ņ
y piq xpiq w0 x p iq w1 pxpiqq2 (1.5) u skripti

i 1 i 1
i 1
Matrični oblik: Aw z
° p iq

° piq
A w z
N x w0 y
° p iq ° i piq 2 ° ipiq piq
ix i px q w1 iy x
Rješenje: w A1 z
12 / 34
Danas. . .
1 Uvod
4 Odabir modela
13 / 34
Bazne funkcije
Zanima nas poopćenje na n ¡ 1 koje obuhvaća sve multivarijatne linearne

modele regresije (univarijatna regresija, linearna regresija, polinomijalna
regresija, . . . ).
Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):

tφj pxqumj1 φj : Rn ÑR
(Dogovorno: φ0 pxq 1)
Funkcija preslikavanja (vektor baznih funkcija):

φ p x q φ 0 p x q, . . . , φ m p x q φ : Rn Ñ Rm
Poopćen linearan model:
m̧
hpx|wq wj φ j p x q w T φ px q

j 0
14 / 34
Poopćeni linearan model
m̧
hpx|wq wj φ j p x q w T φ px q

j 0
Linearna regresija:
φpxq p1, x1 , x2 , . . . , xn q
Univarijatna polinomijalna regresija:
φpxq p1, x, x2 , . . . , xm q
Polinomijalna regresija drugog stupnja:
φpxq p1, x1 , x2 , x1 x2 , x21 , x22 q
Gaussove bazne funkcije:
px 2σµ2 j q
! 2)
φj pxq exp
15 / 34
Gaussove bazne funkcije
(Općenito: radijalne bazne funkcije, RBF)
16 / 34
Preslikavanje značajki
Funkcija preslikavanja značajki φ : Rn Ñ Rm preslikava primjere iz

n-dimenzijskog ulaznog prostora (engl. input space) u m-dimenzijski
prostor značajki (engl. feature space).
Tipično je m ¡ n. Funkcija koja je linearna u prostoru značajki je
nelinearna u ulaznom prostoru.
sada možemo koristiti linearan model za nelinearne probleme

imamo jedinstven matematički tretman, neovisan o funkciji φ
17 / 34
Matrično rješenje najmanjih kvadrata
Dizajn-matrica:

1 φ1 pxp1q q ... φm pxp1q q φpxp1q qT
1 φ1 pxp2q q ... φm pxp2q q φpxp2q qT
Φ .

..
.. .
1 φ 1 px p N q q . . . φm pxpN q q φpxpN q qT N m
Vektor izlaznih vrijednosti:

y p1q
y p2q
y .

..
y pN q
Matrična jednadžba (N jednadžbi s m nepoznanica):
Φw y
18 / 34
Rješenje je w Φ1 y
Medutim, rješenja nema ili ono nije jedinstveno ako:

(1) Φ nije kvadratna, pa nema inverz. U pravilu:
N ¡m
ñ sustav je preodreden (engl. overdetermined) i nema rješenja
N m
ñ sustav je pododreden (engl. underdetermined) i ima
višestruka rješenja
(2) Φ jest kvadratna (N m), ali ipak nema inverz
ñ sustav je nekonzistentan
Približno rješenje možemo naći postupkom najmanjih kvadrata
ñ minimizacija kvadrata pogreške svake od jednadžbi
19 / 34
Funkcija pogreške:
Ņ
2
E pw|Dq wT φpxpiq q y piq
1
2 i1
Matrični oblik:
E pw|Dq pΦw yqTpΦw yq

1
2
12 pwTΦTΦw wTΦTy yTΦw yT yq
21 pwTΦTΦw 2yTΦw yTyq
20 / 34
E pw|Dq pw Φ Φw 2yTΦw yTyq

1 T T
2
1 T T
∇w E 2
w Φ Φ pΦT ΦqT 2yT Φ ΦT Φw ΦT y 0
x Ax xT pA AT q Ax A
d T d
dx dx
Sustav normalnih jednadžbi:
ΦT Φw ΦT y
Rješenje:
w pΦT Φq1 ΦT y Φ y
Φ pΦTΦq1ΦT je pseudoinverz (Moore-Penroseov inverz) matrice Φ

21 / 34
Danas. . .
1 Uvod
4 Odabir modela
22 / 34
Odabir modela
Linearan model regresije ima hiperparametre:

izgled baznih funkcija φj
broj baznih funkcija m (dimenzija prostora značajki)
Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba

dobro odabrati model. U suprotnom model može biti podnaučen ili
prenaučen. Ako model ima mnogo parametra, lako ga je prenaučiti.
Sprečavanje prenaučenosti:
(1) koristiti više primjera za učenje
(2) odabrati model unakrsnom provjerom
(3) regularizacija
(4) bayesovska regresija
23 / 34
Danas. . .
1 Uvod
4 Odabir modela
24 / 34
Regularizacija – motivacija
Opažanje: kod linearnih modela, što je model složeniji, to ima veće

vrijednosti parametara w.
Prenaučeni linearni modeli imaju:

(1) ukupno previše parametara (težina) i/ili
(2) prevelike vrijednosti pojedinačnih parametara.
Ideja: ograničiti rast vrijednosti parametara kažnjavanjem hipoteza s

visokim vrijednostima parametara.
Time se ostvaruje kompromis izmedu točnosti i jednostavnosti modela i to

već pri samom učenju modela. Efektivno se ograničava složenost modela i
sprečava se prenaučenost.
Cilj: što više parametara (težina) pritegnuti na nulu ñ rijetki modeli

(engl. sparse models).
25 / 34
Regularizacija
Složenost modela ugradena je u funkciju pogreške:
E1 empirijska pogreška λ složenost modela
E 1 pw|Dq E pw|Dq λEw pwq
Veća vrijednost regularizacijskog faktora λ uzrokuje smanjuje efektivne

složenost modela.
λ 0 ñ neregularizirana funkcija pogreške
Općenit regularizacijski izraz:

m̧
Ew pwq |wj |q
1
2 j 1
26 / 34
Regularizacija – primjer
27 / 34
Regularizirani linearni model regresije
L2-regularizacija (engl. ridge regularization) (q 2)

Ņ
2
E pw|Dq wT φpxpiq q y piq }w}2
1 λ
2 i1 2
L1-regularizacija (engl. LASSO regularization) (q 1)

Ņ
2
E pw|Dq wT φpxpiq q y piq }w}1
1 λ
2 i1 2
L0-regularizacija (q 0)
Ņ m̧
2
E pw|Dq wT φpxpiq q y piq 1 twj 0u
1 λ
2 i1 2 j 1
28 / 34
L2-regularizacija
Linearna regresija s L2-regularizacijom ima rješenje u zatvorenoj formi:
E 1 pw|Dq p Φw yqT pΦw yq

1 λ T
w w
2 2
pw Φ Φw 2yTΦw yTy λwTwq
1 T T
2
∇w E 1 ΦTΦw ΦTy λw
pΦTΦ λIqw ΦTy 0
w pΦT Φ λIq1 ΦT y
29 / 34
L2-regularizacija
Ima li L2-regularizirana pogreška probabilističku interpretaciju?
Umjesto MLE, izračunajmo MAP:
ppw|Dq9 ppD|wqppwq
Izglednost je normalna sa srednjom vrijednošću hpx|wq:
¹
N

ppD|wq N hpxpiq |wq, β 1 pβ 1{σ2q

i 1
Pretpostavimo da apriorna PDF parametara normalna sa srednjom

vrijednošću nula i izotropnom kov. matricom:
α m{2 ! )
ppwq N p0, α1 Iq exp α2 wTw pα 1{σ2q
2π
(α i β su hiperparametri modela)
30 / 34
L2-regularizacija
Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji

negativnog logaritma aposteriorne vjerojatnosti:

argmax ppD|wqppwq argmin ln ppD|wq ln ppwq
w w
Ņ
2
ln ppD|wq β2 y piq hpx|wq konst. ln ppwq α2 wTw

i 1
Dakle, pogreška koju minimiziramo je:

Ņ
2
y piq hpx|wq
β α T
w w
2
i 1
2
a to je upravo L2-regularizirana pogreška! (uz λ α{β)
31 / 34
Regularizacija – napomene
Iznos parametra wj odgovara važnosti značajke, a predznak upućuje

na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje složenost modela na način da prigušuje
vrijednosti pojedinih značajki, odnosno efektivno ih izbacuje (kada
wj Ñ 0). Ako je model nelinearan, to znači smanjivanje nelinearnosti
Težinu w0 treba izuzeti iz regularizacijskog izraza (jer ona definira
pomak) ili treba centrirati podatke tako da y 0, jer onda w0 Ñ 0
L2-regularizacija kažnjava težine proporcionalno njihovom iznosu
(velike težine više, a manje težine manje). Teško će parametri biti
pritegnuti baš na nulu. Zato L2-regularizacija ne rezultira rijetkim
modelima
L1-regularizacija rezultira rijetkim modelima, ali nema rješenja u
zatvorenoj formi (medutim mogu se koristiti iterativni optimizacijski
postupci)
32 / 34
Regularizacija – napomene
Regularizacija je korisna kod modela s puno parametara, jer je takve

modele lako prenaučiti
Regularizacija smanjuje mogućnost prenaučenosti, ali ostaje problem
odabira hiperparametra λ te drugih hiperparametara (broj i oblik
baznih funkcija). Taj se odabir najčešće radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za λ bismo dobili kada bismo optimizaciju
radili na skupu za učenje?
33 / 34
Sažetak
Linearan model regresije linearan je u parametrima

Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih
baznih funkcija (preslikavanjem ulaznog prostora u prostor značajki)
Uz pretpostavku normalno distribuiranog šuma, MLE je istovjetan
postupku najmanjih kvadrata, što daje probabilističko opravdanje
za uporabu kvadratne funkcije gubitka
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju
rješenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Regularizacija smanjuje prenaučenost ugradnjom dodatnog izraza
u funkciju pogreške kojim se kažnjava složenost modela
L2-regularizirana regresija istovjetna je MAP-procjeni parametara
(uz pretpostavku Gaussovog šuma) te ima rješenje u zatvorenoj formi
Sljedeća tema: Linearni diskriminativni modeli

34 / 34

SU 7 Regresija PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SU 7 Regresija PDF

Uploaded by

Copyright:

Available Formats

Strojno učenje

prof. dr. sc. Bojana Dalbelo Bašić

Ak. god. 2012/13.

Creative Commons Imenovanje–Nekomercijalno–Bez prerada 3.0 v1.1

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

Linearan model regresije:

Broj ulaznih (nezavisnih) varijabli:

Broj izlaznih (zavisnih) varijabli:

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

Ograničimo se BSO na univarijatnu (n  1) linearnu regresiju:

Uz pretpostavku Gaussovog šuma, maksimizacija izglednosti odgovara

argmax ln Lpw|Dq  argmin E pw|Dq

ñ Probabilističko opravdanje za kvadratnu funkciju gubitka

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

Zanima nas poopćenje na n ¡ 1 koje obuhvaća sve multivarijatne linearne

Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):

Funkcija preslikavanja (vektor baznih funkcija):

(Općenito: radijalne bazne funkcije, RBF)

Funkcija preslikavanja značajki φ : Rn Ñ Rm preslikava primjere iz

sada možemo koristiti linearan model za nelinearne probleme

Medutim, rješenja nema ili ono nije jedinstveno ako:

E pw|Dq  pΦw yqTpΦw yq

 21 pwTΦTΦw 2yTΦw yTyq

E pw|Dq  pw Φ Φw 2yTΦw yTyq

Sustav normalnih jednadžbi:

Φ  pΦTΦq1ΦT je pseudoinverz (Moore-Penroseov inverz) matrice Φ

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

Linearan model regresije ima hiperparametre:

Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

Opažanje: kod linearnih modela, što je model složeniji, to ima veće

Prenaučeni linearni modeli imaju:

Ideja: ograničiti rast vrijednosti parametara kažnjavanjem hipoteza s

Time se ostvaruje kompromis izmedu točnosti i jednostavnosti modela i to

Cilj: što više parametara (težina) pritegnuti na nulu ñ rijetki modeli

Složenost modela ugradena je u funkciju pogreške:

E1  empirijska pogreška λ složenost modela

E 1 pw|Dq  E pw|Dq λEw pwq

Veća vrijednost regularizacijskog faktora λ uzrokuje smanjuje efektivne

Općenit regularizacijski izraz:

L2-regularizacija (engl. ridge regularization) (q  2)

L1-regularizacija (engl. LASSO regularization) (q  1)

Linearna regresija s L2-regularizacijom ima rješenje u zatvorenoj formi:

E 1 pw|Dq  p Φw yqT pΦw yq

Ima li L2-regularizirana pogreška probabilističku interpretaciju?

Umjesto MLE, izračunajmo MAP:

Pretpostavimo da apriorna PDF parametara normalna sa srednjom

Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji

Dakle, pogreška koju minimiziramo je:

a to je upravo L2-regularizirana pogreška! (uz λ  α{β)

Iznos parametra wj odgovara važnosti značajke, a predznak upućuje

Regularizacija je korisna kod modela s puno parametara, jer je takve

Linearan model regresije linearan je u parametrima

Sljedeća tema: Linearni diskriminativni modeli

You might also like

Ograničimo se BSO na univarijatnu (n 1) linearnu regresiju:

argmax ln Lpw|Dq argmin E pw|Dq

E pw|Dq pΦw yqTpΦw yq

21 pwTΦTΦw 2yTΦw yTyq

E pw|Dq pw Φ Φw 2yTΦw yTyq

Φ pΦTΦq1ΦT je pseudoinverz (Moore-Penroseov inverz) matrice Φ

E1 empirijska pogreška λ složenost modela

E 1 pw|Dq E pw|Dq λEw pwq

L2-regularizacija (engl. ridge regularization) (q 2)

L1-regularizacija (engl. LASSO regularization) (q 1)

E 1 pw|Dq p Φw yqT pΦw yq

a to je upravo L2-regularizirana pogreška! (uz λ α{β)