You are on page 1of 10

2.

Regresija
Zadaca
1. Koncepti regresije
(a) Definirajte tri komponente algoritma linearnog modela regresije.
● Model: linearna kombinacija znacajki
● Funkcija gubitka: MSE (a.k.a. L2 gubitak ili jednostavnije kvadratna
pogreska)
● Optimizacijski postupak: rjesenje je u zatvorenoj formi (<3)
(b) Objasnite zasto koristimo kvadratnu fuknciju gubitka a ne gubitak 0-1.
● Za kvadratni gubitak moguce je izvesti rjesenje u zatvorenoj formi, dok je
za 0-1 gubitak problem NP potpun, odnosno za veliki broj ulaznih znacajki
problem postaje 'intracktable'
(c) Objasnite zasto tezine ne mozemo izracunati kao rjesenje sustava jednadzbi
Xw = y
● To mozemo napraviti samo kada je matrica X kvadratna, i uz to punog
ranga (svi stupci i retci moraju biti meduvisno nezavisni). Ako to nije
slucaj, ne postoji inverz matrice X i ne mozemo provesti operaciju.
2. Regularizirana regresija
(a) Izvedite u matricnom obliku rjesenje za vektor w za neregulirani linearni
model regresije uz kvadratnu funkciju gubitka.
● (Snajdi, natuknice s predavanja br 3, treca strana dolje)
(b) Sto minimizira rjesenje w izvedeno pseudoinverzom? Sto ako takvih rjesenja
ima vise?
● Rjesenje w minizira L2 normu vektora Xw – y, odnosno minimizira zbroj
kvadrata razlika svakih pojedinih komponenti vektora y i vektora Xw.
● Rjesenje je uvijek nuzno jedinstveno (pseudo inverz je jedinstven <= to
dolazi od jedinstvenog minimuma kvadratne pogreske)
(c) Raspolazemo sljedecim skupom primjera za ucenje: D = {(x(i),y(i)}4i=1 = {(0,
4), (1, 1), (2, 2), (4, 5)}. Podatke zelimo modelirati polinomijalnom
regresijskom funkcijom drugog stupnja. Napisite jednadzbu iz (a) zadatka.
● Lijen sam stoga evo ('@' u numpy znaci matricno mnozenje):

(d) Jednadzba iz zadatka (a) daje rjesenje u zatvorenoj formi, medutim rjesenje
nije uvijek izracunljivo na taj nacin. Sto predstavlja problem? Pod kojim
uvjetom je rjesenje izracunljivo pomocu jednadzbe iz (a)? Mozemo li rjesenje
izracunati i kada taj uvjet nije ispunjen? Kako?
● Rjesenje u ovom obliku presutno pretpostavlja da je rang matrice X jednak
n+1 (n je broj znacajki, +1 dolazi zbog slobodnog clana w0). Ako tome nije
slucaj (recimo imamo 4 tocke a 8 parametara, ili imamo 8 tocaka i
parametara, ali su neke tocke linearno zavisne) tada dolazimo do problema i
onda se pseudoinverz racuna pomocu SVD (singular value decomposition)
(e) U situacijama kada je rjesenje izracunljivo jednadzbom iz zadataka (a), izracun
ponekad moze biti racunalno zahtjevan. Sto predstavlja problem? Je li problem
izrazen kada imamo mnogo primjera za ucenje ili kada imamo mnogo
znacajki?
● Problem je kada imamo puno znacajki, jer je dimenzija gramove matrice
XTX, one ciji se inverz treba izracunat, (n+1)x(n+1), a to je dosta skupa
operacija cija slozenost raste s trecom potencijom (O(n3))
(f) Rjesenje jednadzbe iz zadatka (a) moze biti izracunljivo ali numericki
nestabilno. Sto to znaci i kada ce to biti slucaj? Kako mozemo rjesiti taj
problem?
● Numericki nestabilna rjesenja dolaze kada se redovi velicine stupaca
matrice X znacajnije razlikuju. Primjerice, ako jedan redak ima red velicine
6 (npr milijuni eura za cijenu nekretnine) a drugi 1 (broj osoba koji zive u
kuci), gotovo sigurno ce doci do numericke nestabilnosti zbog ogranicene
memorije. Taj problem se rjesava tako da sve ulazne znacajke skaliramo da
imaju slicne redove velicine (primjerice, normalizacijom u interval [0, 1] ili
standardizacijom da joj je srednja vrijednost 0 a varijanca (disperzija) 1)
(g) Koristimo regresiju za predvidanje cijene nekretnine na temelju povrsine,
starosti i udaljenosti od glavne prometnice. Koliko primjera nam je minimalno
potrebno a da bi rjesenje bilo izracunljivo jednadzbom iz (a), ako pritom ne
koristimo preslikavanje? Koliko primjera nam je potrebno ako koristimo
preslikavanja s polinomom drugog stupnja i interakcijskim znacajkama? Sto bi
se dogodilo da kao znacajku dodamo godinu izgradnje nekretnine?
● Imamo tri znacajke plus jedan slobodni clan, dakle minimalno 4 primjera,
pod uvjetom da su linearno nezavisni.
● Ako bi koristili polinom drugog stupnja, broj znacajki bi narastao na
1+3+3+3 = 10 (jedan slobodni clan, tri linearne, 3 svaka na kvadrat i 3
kombinacije dvaju znacajki)
● Kad bismo dodali i godinu izgradnje, broj znacajki do drugog stupnja
porastao bi na 1+4+4+6=15. Ovo je poznati problem pod nazivom
"prokletstvo dimenzionalnosti"
3. L2 regularizacija
(a) Izvedite u matricnom obliku rjesenje za vektor w za hrbatnu (L2-
regulariziranu) regresiju.
● (Snajdi, natuknice br 4, cetvrta strana sredina)
(b) Napisite kako bi izgledala jednadzba iz zadatka 2.(a) uz regularizacijski faktor
lambda=10
● Uz iste varijable kao i na slici iznad:

(c) Komentirajte na koji nacin L2 regularizacija rjesava problem numericke


nestabilnosti rjesenja za w?
● S obzirom da dodavanje jedinicne matrice drugoj matrici "pojacava" njenu
dijagonalu, manje su sanse da su retci ili stupci linearno zavisni te se ujedno
rjesava i problem s razlicitim redovima velicina.

4. Nelinearno preslikavanje
(a) Regresijom zelimo aproksimirati funkciju jedne varijable y = 3*(x-2)2+1.
Skicirajte graf. Definirajte linearni model h(x) uz funkciju preslikavanja phi(x)
= (1, x, x2). Odredite vektor tezina (w0, w1, w2) tog modela.
● Parabolica okrenuta gore s minimumom u (2, 1).
● algebarskom manipulacijom dodemo do (w0, w1, w2) = (13, -12, 3)
(b) Skicirajte u prostoru (x1, x2) izokonture funkcije y. Naznacite u tom prostoru
tocke u koje se preslikavaju primjeri x(1) = 1, x(2)=2, x(3)=3. Koja je
vrijednost h(x) za navedene primjere?
● GeoGebra vraca ovo (x varijabla odgovara x iz dataseta, y varijabla
odgovara x2 iz dataseta):

● Konture ne znam
5. Regresijski model razlicite slozenosti Raspolazemo datasetom D {sin(pix), x e
0.25, 0.5, 1, 1.5, 2}
(a) Izracunati parametre uz (1, x), (1, x, x2), (1, x, x2, x3, x4) sa regularizacijom
L=1

(b) Koji je model naprikladniji?


● Bome nijedan. Da ne znam da je skup generiran sinusoidom, uzeo bih
najjednostavniji linearni model.
6. Probabilisticko tumacenje
(a) Pokazite da minimizacija izraza za kvadratnu pogresku istovjetna
maksimizaciji log-izglednosti uz pretpostavku normalno distribuiranog suma.
● (Snajdi, natuknice s predavanja br 3, cetvrta strana)
7. Faktor regularizacije
(a) Neka Hd,lambda oznacava model polinomijalne regresije stupnja d s L2
reg.parametrom lambda. Razmatramo 4 modela: H2,0, H5,0, H5,100, H5,1000
u ulaznom prostoru X=R. Pretpostavimo da su podatci u stvarnosti generirani
funkcijom koja je polinom treceg stupnja (d=3). Pretpostavite da imamo
razmjerno malo podataka i da je sum u podacima razmjerno velik. Na dva
odvojena crteza skicirajte regresijsku funkciju h(x) za sve modele i pogresku
ucenja za sve modele.



8. Utjecaj regularizacije na regresiju
(a) Objasnite koja je svrha regularizacije i na kojoj se pretpostavci temelji.
● Regularizacija se koristi za "pritezanje" tezina prema nuli. Temelji se na
empirijskoj cinjenici da prenauceni modeli imaju velike vrijednosti za
tezine.
(b) Koja je prednost regulariziranog modela u odnosi na nereguarizirani? Dolazi li
da prednost vise do izrazaja u slucajevima kada imamo puno primjera ili malo?
● Prednost regulariziranog modela je to sto on bolje generalizira. Ta prednost
dolazi najvise do izrazaja kada imamo malo primjera za ucenje.
(c) Visestruka regresija, skice izokonture, basically snajdi biljeske s predavanja
(d) Isto to
9. Tezina znacajki, vaznost znacajki, slozenost modela
(a) Treniramo model regresije uz nelinearnu funkciju preslikavanja, uz L2
regularizaciju. Kako biste odredili optimalan regularizacijski faktor lambda?
● Unakrsnom validacijom preko raznih parametara lambda, nademo onaj
lambda za koji model najbolje regularizira.
(b) Kako, nakon treniranja, mozemo provjeriti (1) koje su znacajke nebitne i (2) je
li izvorni model preslozen?
● Znacajke su nebitne ako im je tezina blizu nuli (prag odredujemo sami,
recime 1e-3)
● Izvorni model je preslozen ako ima znacajke kojima su pripadajuce tezine
blizu nuli.
(c) Kako bi se u ovom slucaju ponasao L1 model?
● Vise znacajki bi proglasio nebitnim, jer jace gura tezine prema 0.
(d) Pretpostavite da u podatcima postoji skup multikolinearnih znacajki koje su,
osim sto su reduntante, takoder i irelevantne. Ako model nije regulariziran,
koje su ocekivane tezine tih znacajki?
● Iako model nije regulariziran, ocekujemo da ce tezine biti oko 0 s obzirom
da znacajke nisu relevantne, i jedino je slucajni sum zasluzan ako su tezine
nezanemarive u odnosu na 0.

You might also like