You are on page 1of 35

Strojno učenje

7. Regresija

prof. dr. sc. Bojana Dalbelo Bašić


doc. dr. sc. Jan Šnajder

Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva

Ak. god. 2012/13.

Creative Commons Imenovanje–Nekomercijalno–Bez prerada 3.0 v1.1

1 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

2 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

3 / 34
Regresija

D  tpxpiq, ypiqqu, x P Rn , y PR
Hipoteza h aproksimira nepoznatu funkciju f : Rn ÑR
x – ulazna varijabla (nezavisna, prediktorska)
y – izlazna varijabla (zavisna, kriterijska)

Funkcija pogreške:

2
E ph|Dq  y piq  hpxpiq q
1
2 i1

4 / 34
Regresija

Linearan model regresije:


h je linearna funkcija parametara w  pw0 , . . . , wn q

Linearna regresija:
hpx|wq  w0 w1 x1 w2 x2  wn x n

Polinomijalna regresija:
hpx|wq  w0 w1 x w2 x2    wd xd pn  1q
hpx|wq  w0 w1 x1 w2 x2 w3 x1 x2 w4 x21 w5 x22 pn  2, d  2q
Općenite bazne funkcije:
hpx|wq  w0 w1 φ1 pxq  wm φ m px q

5 / 34
Regresija

Broj ulaznih (nezavisnih) varijabli:


Univarijatna (jednostavna, jednostruka) regresija: n  1
Multivarijatna (višestruka, multipla) regresija: n ¡ 1

Broj izlaznih (zavisnih) varijabli:


Jednoizlazna regresija: f pxq  y
Višeizlazna regresija: f pxq  y

6 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

7 / 34
Probabilistički model regresije

Ograničimo se BSO na univarijatnu (n  1) linearnu regresiju:

hpx|wq  w0 w1 x w  pw0 , w1 q

Zbog šuma u D:
y piq  f pxpiqq ε
Prepostavka:
ε  N p0, σ 2 q
Posjedično:
y |x  N phpx|wq, σ 2 q
odnosno
ppy |xq  N phpx|wq, σ 2 q

E ry |xs  µ  hpx|wq

8 / 34
Probabilistički model regresije

9 / 34
Log-izglednost
¹
N ¹
N
ln Lpw|Dq  ln ppD|wq  ln ppxpiq , y piq q  ln ppy piq |xpiq qppxpiq q

i 1 
i 1
¹
N ¹
N
 ln ppy piq |xpiq q ln ppxpiq q

i 1 
i 1
¹N ¹
N

ñ ln ppy piq |xpiq q  ln N hpxpiq |wq, σ 2

i 1 
i 1
2
¹
N ! y iq  hpxpiq |wq )
p
 ln ?1 exp  2σ 2

i 1
2πσ
? Ņ
2
 N lnp 2πσ q  y piq  hpxpiq |wq
1
2σ 2 
i 1

2
ñ  21 y piq  hpxpiq |wq

i 1
10 / 34
MLE i postupak najmanjih kvadrata

Uz pretpostavku Gaussovog šuma, maksimizacija izglednosti odgovara


minimizaciji funkcije pogreške definirane kao zbroj kvadratnih odstupanja:

argmax ln Lpw|Dq  argmin E pw|Dq


w w

2
E ph|Dq  y piq  hpxpiq |wq
1
2 i1
 
L y, hpx|wq 9 y  hpx|wq 2

ñ Probabilističko opravdanje za kvadratnu funkciju gubitka


Rješenje MLE jednako je rješenju koje daje postupak najmanjih kvadrata!

11 / 34
Postupak najmanjih kvadrata

hpx|w0 , w1 q  w0 w1 x
∇w0 ,w1 E ph|Dq  0
..
.
Ņ Ņ
y piq  N w0 w1 x p iq (1.3) u skripti

i 1 
i 1
Ņ Ņ Ņ
y piq xpiq  w0 x p iq w1 pxpiqq2 (1.5) u skripti

i 1 i 1  
i 1

Matrični oblik: Aw  z
 ° p iq

 ° piq

A w z
N x w0 y
° p iq ° i piq 2 ° ipiq piq
ix i px q w1 iy x

Rješenje: w  A1 z
12 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

13 / 34
Bazne funkcije

Zanima nas poopćenje na n ¡ 1 koje obuhvaća sve multivarijatne linearne


modele regresije (univarijatna regresija, linearna regresija, polinomijalna
regresija, . . . ).

Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):


tφj pxqumj1 φj : Rn ÑR
(Dogovorno: φ0 pxq  1)

Funkcija preslikavanja (vektor baznih funkcija):



φ p x q  φ 0 p x q, . . . , φ m p x q φ : Rn Ñ Rm
Poopćen linearan model:

hpx|wq  wj φ j p x q  w T φ px q

j 0

14 / 34
Poopćeni linearan model


hpx|wq  wj φ j p x q  w T φ px q

j 0

Linearna regresija:
φpxq  p1, x1 , x2 , . . . , xn q
Univarijatna polinomijalna regresija:
φpxq  p1, x, x2 , . . . , xm q
Polinomijalna regresija drugog stupnja:
φpxq  p1, x1 , x2 , x1 x2 , x21 , x22 q
Gaussove bazne funkcije:

 px 2σµ2 j q
! 2)
φj pxq  exp
15 / 34
Gaussove bazne funkcije

(Općenito: radijalne bazne funkcije, RBF)

16 / 34
Preslikavanje značajki

Funkcija preslikavanja značajki φ : Rn Ñ Rm preslikava primjere iz


n-dimenzijskog ulaznog prostora (engl. input space) u m-dimenzijski
prostor značajki (engl. feature space).
Tipično je m ¡ n. Funkcija koja je linearna u prostoru značajki je
nelinearna u ulaznom prostoru.

sada možemo koristiti linearan model za nelinearne probleme


imamo jedinstven matematički tretman, neovisan o funkciji φ

17 / 34
Matrično rješenje najmanjih kvadrata

Dizajn-matrica:
 
1 φ1 pxp1q q ... φm pxp1q q φpxp1q qT
1 φ1 pxp2q q ... φm pxp2q q   φpxp2q qT 
Φ  . 
   
.. 
 ..  .
1 φ 1 px p N q q . . . φm pxpN q q φpxpN q qT N m 
Vektor izlaznih vrijednosti:

y p1q
 y p2q 
y . 
 
 ..
y pN q
Matrična jednadžba (N jednadžbi s m nepoznanica):
Φw  y
18 / 34
Matrično rješenje najmanjih kvadrata

Rješenje je w  Φ1 y

Medutim, rješenja nema ili ono nije jedinstveno ako:


(1) Φ nije kvadratna, pa nema inverz. U pravilu:
N ¡m
ñ sustav je preodreden (engl. overdetermined) i nema rješenja
N  m
ñ sustav je pododreden (engl. underdetermined) i ima
višestruka rješenja
(2) Φ jest kvadratna (N  m), ali ipak nema inverz
ñ sustav je nekonzistentan
Približno rješenje možemo naći postupkom najmanjih kvadrata
ñ minimizacija kvadrata pogreške svake od jednadžbi

19 / 34
Matrično rješenje najmanjih kvadrata

Funkcija pogreške:

2
E pw|Dq  wT φpxpiq q  y piq
1
2 i1

Matrični oblik:

E pw|Dq  pΦw  yqTpΦw  yq


1
2
 12 pwTΦTΦw  wTΦTy  yTΦw yT yq

 21 pwTΦTΦw  2yTΦw yTyq

20 / 34
Matrično rješenje najmanjih kvadrata

E pw|Dq  pw Φ Φw  2yTΦw yTyq


1 T T
2
1 T T 
∇w E  2
w Φ Φ pΦT ΦqT  2yT Φ  ΦT Φw  ΦT y  0

x Ax  xT pA AT q Ax  A
d T d
dx dx

Sustav normalnih jednadžbi:

ΦT Φw  ΦT y

Rješenje:
w  pΦT Φq1 ΦT y  Φ y

Φ  pΦTΦq1ΦT je pseudoinverz (Moore-Penroseov inverz) matrice Φ


21 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

22 / 34
Odabir modela

Linearan model regresije ima hiperparametre:


izgled baznih funkcija φj
broj baznih funkcija m (dimenzija prostora značajki)

Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba


dobro odabrati model. U suprotnom model može biti podnaučen ili
prenaučen. Ako model ima mnogo parametra, lako ga je prenaučiti.

Sprečavanje prenaučenosti:
(1) koristiti više primjera za učenje
(2) odabrati model unakrsnom provjerom
(3) regularizacija
(4) bayesovska regresija

23 / 34
Danas. . .

1 Uvod

2 Postupak najmanjih kvadrata

3 Poopćeni linearan model regresije

4 Odabir modela

5 Regularizirana regresija

24 / 34
Regularizacija – motivacija

Opažanje: kod linearnih modela, što je model složeniji, to ima veće


vrijednosti parametara w.

Prenaučeni linearni modeli imaju:


(1) ukupno previše parametara (težina) i/ili
(2) prevelike vrijednosti pojedinačnih parametara.

Ideja: ograničiti rast vrijednosti parametara kažnjavanjem hipoteza s


visokim vrijednostima parametara.

Time se ostvaruje kompromis izmedu točnosti i jednostavnosti modela i to


već pri samom učenju modela. Efektivno se ograničava složenost modela i
sprečava se prenaučenost.

Cilj: što više parametara (težina) pritegnuti na nulu ñ rijetki modeli


(engl. sparse models).
25 / 34
Regularizacija

Složenost modela ugradena je u funkciju pogreške:

E1  empirijska pogreška λ  složenost modela

E 1 pw|Dq  E pw|Dq λEw pwq

Veća vrijednost regularizacijskog faktora λ uzrokuje smanjuje efektivne


složenost modela.
λ  0 ñ neregularizirana funkcija pogreške

Općenit regularizacijski izraz:



Ew pwq  |wj |q
1
2 j 1

26 / 34
Regularizacija – primjer

27 / 34
Regularizirani linearni model regresije

L2-regularizacija (engl. ridge regularization) (q  2)



2
E pw|Dq  wT φpxpiq q  y piq }w}2
1 λ
2 i1 2

L1-regularizacija (engl. LASSO regularization) (q  1)



2
E pw|Dq  wT φpxpiq q  y piq }w}1
1 λ
2 i1 2

L0-regularizacija (q  0)
Ņ m̧
2
E pw|Dq  wT φpxpiq q  y piq 1 twj  0u
1 λ
2 i1 2 j 1

28 / 34
L2-regularizacija

Linearna regresija s L2-regularizacijom ima rješenje u zatvorenoj formi:

E 1 pw|Dq  p Φw  yqT pΦw  yq


1 λ T
w w
2 2
 pw Φ Φw  2yTΦw yTy λwTwq
1 T T
2

∇w E 1  ΦTΦw  ΦTy λw
 pΦTΦ λIqw  ΦTy  0
w  pΦT Φ λIq1 ΦT y

29 / 34
L2-regularizacija

Ima li L2-regularizirana pogreška probabilističku interpretaciju?

Umjesto MLE, izračunajmo MAP:

ppw|Dq9 ppD|wqppwq
Izglednost je normalna sa srednjom vrijednošću hpx|wq:

¹
N

ppD|wq  N hpxpiq |wq, β 1 pβ  1{σ2q

i 1

Pretpostavimo da apriorna PDF parametara normalna sa srednjom


vrijednošću nula i izotropnom kov. matricom:
 α m{2 ! )
ppwq  N p0, α1 Iq  exp  α2 wTw pα  1{σ2q

(α i β su hiperparametri modela)
30 / 34
L2-regularizacija

Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji


negativnog logaritma aposteriorne vjerojatnosti:

argmax ppD|wqppwq  argmin  ln ppD|wq  ln ppwq
w w


2
 ln ppD|wq  β2 y piq  hpx|wq konst.  ln ppwq  α2 wTw

i 1

Dakle, pogreška koju minimiziramo je:



2
y piq  hpx|wq
β α T
w w
2 
i 1
2

a to je upravo L2-regularizirana pogreška! (uz λ  α{β)

31 / 34
Regularizacija – napomene

Iznos parametra wj odgovara važnosti značajke, a predznak upućuje


na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje složenost modela na način da prigušuje
vrijednosti pojedinih značajki, odnosno efektivno ih izbacuje (kada
wj Ñ 0). Ako je model nelinearan, to znači smanjivanje nelinearnosti
Težinu w0 treba izuzeti iz regularizacijskog izraza (jer ona definira
pomak) ili treba centrirati podatke tako da y  0, jer onda w0 Ñ 0
L2-regularizacija kažnjava težine proporcionalno njihovom iznosu
(velike težine više, a manje težine manje). Teško će parametri biti
pritegnuti baš na nulu. Zato L2-regularizacija ne rezultira rijetkim
modelima
L1-regularizacija rezultira rijetkim modelima, ali nema rješenja u
zatvorenoj formi (medutim mogu se koristiti iterativni optimizacijski
postupci)

32 / 34
Regularizacija – napomene

Regularizacija je korisna kod modela s puno parametara, jer je takve


modele lako prenaučiti
Regularizacija smanjuje mogućnost prenaučenosti, ali ostaje problem
odabira hiperparametra λ te drugih hiperparametara (broj i oblik
baznih funkcija). Taj se odabir najčešće radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za λ bismo dobili kada bismo optimizaciju
radili na skupu za učenje?

33 / 34
Sažetak

Linearan model regresije linearan je u parametrima


Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih
baznih funkcija (preslikavanjem ulaznog prostora u prostor značajki)
Uz pretpostavku normalno distribuiranog šuma, MLE je istovjetan
postupku najmanjih kvadrata, što daje probabilističko opravdanje
za uporabu kvadratne funkcije gubitka
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju
rješenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Regularizacija smanjuje prenaučenost ugradnjom dodatnog izraza
u funkciju pogreške kojim se kažnjava složenost modela
L2-regularizirana regresija istovjetna je MAP-procjeni parametara
(uz pretpostavku Gaussovog šuma) te ima rješenje u zatvorenoj formi

Sljedeća tema: Linearni diskriminativni modeli


34 / 34

You might also like