You are on page 1of 18

19. Na primjeru određivanja parametara pravca objasnite princip RANSAC algoritma.

Koje su prednosti i nedostatci RANSAC algoritma?


RANSAC algoritam:
1. Odabire se nasumično određeni broj podatkovnih primjera iz dostupnog skupa
podataka
2. Procjena parametara modela na temelju odabranih primjera
3. Validacija modela odnosno prebrojavanje koliko podatkovnih primjera je u skladu s
modelom (tj. koliko ima inliers)
4. Ponavljaju se koraci 1. do 3. Model iz iteracije s najvećim brojem inliera smatra se
najbolji modelom.
5. Na temelju inliera iz koraka 4. procjenjuju se parametri modela („dorađuje” se
procjena parametara iz koraka 4.)
1. iteracija

2. iteracija
3. iteracija

4. iteracija

5. iteracija
6. iteracija

Prednosti algoritma – vrlo je robustan na prisustvo outliera, jednostavan je i efikasan

Nedostatci – potrebno je definirati parametre (poput broja iteracija i veličinu praga za


definiranje inliera), može biti potrajati (npr. Kod složenijih modela ili velikih skupova
podataka)
• Za detekciju pravca na slici potrebne su tri točke
• Za složenije modele poput krugova, elipsi i sl. potrebno je odabrati više točaka
20. Navedite tri primjera binarne klasifikacije i tri primjera višeklasne klasifikacije. Što
su moguće ulazne veličine u model u svakom navedenom primjeru?
Binarna klasifikacija – podatkovni primjer pripada u jednu od dvije moguće klase
Primjeri:
1. Dobivenu e-poštu klasificirajte kao neželjenu poštu ili kao željenu poštu.
2. S obzirom na podatke o transakciji, klasificirajte transakciju kao prijevaru ili regularnu
transakciju.
3. S obzirom na medicinske podatke, simptome i sl. klasificirajte pacijenta kao zdravog
ili bolesnog.
Višeklasna klasifikacija - problem gdje je cilj klasificirati ulazne primjere u jednu od nekoliko
mogućih klasa (više od dvije)
Primjeri:
1. Dani tekstualni document klasificirajte u jednu od nekoliko kategorija kao npr.
pozitivno, neutralno ili negativno (analiza sentimenta).
2. Sliku prometnog znaka, klasificirajte ga u jednu od nekoliko kategorija kao što su
znak STOP, znak za ograničenje brzine, itd.
3. Klasificirajte zvučni zapis u jedan od nekoliko glazbenih žanrova kao što su rock, pop,
klasična itd.

21. Objasnite logističku regresiju: model, kriterijska funkcija, optimizacija parametara.


1
Model je oblika: ℎ(𝑥 ) = 𝑔(𝜃 𝑇 𝑥 ) = 𝑇
1+𝑒 −𝜃 𝑥

Umjesto aktivacijske funkcije praga (step) koja se koristi kod perceptrona, odabire se
logistička funkcija ili sigmoidna funkcija
• Izlaz je ograničen na interval (0,1)
• Ova funkcija je glatka i derivabilna → važno sa stajališta optimizacijskog postupka
(jer u konačnici hoćemo koristiti gradijentnu metodu)

Ovo je binaran klasifikacijski model – granica između dvije klase definirana je hiperavninom
u ulaznom prostoru za koju vrijedi h(x)=0.5
Točnije, granica odluke je hiperravnina 𝜃 𝑇 𝑥=0 (za jednu ulaznu veličinu je skalar, za dvije
ulazne veličine pravac, za tri ulazne veličine ravnina, ...)
Stoga kriterijska funkcija na temelju koje se podešavaju parametri modela je ustvari
empirijska pogreška na skupu za učenje:
Rješenje ovog optimizacijskog problema ne postoji u zatvorenoj formi kao u slučaju linearne
regresije pa se moraju koristiti iterativne metode optimizacije (uveli smo nelinearnu funkciju
pa izlaz modela nelinearno ovisi o parametrima modela)
Dobra stvar je što je kriterijska funkcija konveksna što znači da ne postoje lokalni minimumi

22. Objasnite OvR i OvO pristup na jednostavnom (2D) problemu s tri klase i dvije
ulazne veličine. Koje su prednosti i nedostatci pojedinog pristupa?
"jedan naspram jedan" (engl. One-vs-One - OvO)
• potrebno je izgraditi K(K−1)/2 binarna klasifikatora
• Svaki binarni klasifikator modelira odnos između primjera koji pripadaju dvjema
različitim klasama
"jedan naspram ostalih" (engl. One-vs-Rest - OvR)
• potrebno je izgraditi K binarna klasifikatora
• svaki binarni klasifikator modelira odnos između primjera jedne klase u odnosu na sve
ostale primjere koji pripadaju ostalim klasama
Prednosti i nedostaci:
Kod OvR postoji puno manje područje gdje klasifikacija nije definirana nego kod OvO
Nadalje, kod OvR pristupa potrebno je izgraditi manje binarnih klasifikatora (ova razlika je
veća što je veći broj klasa). Npr. ako je K=5 OvR treba 5 klasifikatora, OvO treba 10
klasifikatora.
Najveći problem s OvR pristupom je moguća neuravnoteženost skupa (engl. class imbalance)
podataka kada se gradi pojedini binarni klasifikator. Ovo je čest problem u strojnom učenje i
to treba uzeti u obzir budući da većina modela nije namijenjena za ovakve skupove podataka
Primjer neuravnoteženog skupa je detekcija prevara kod transakcije (obično imamo jako puno
primjera dobrih transakcija, a prevara je najčešće manje od 1% primjera)

23. Kako izgleda model multinomijalne logističke regresije? Kako se kodira izlazna
veličina za potrebe učenja ovakvog modela (objasnite na primjeru klasifikacije rukom
pisanih znamenki). Koliko parametara ima model u ovom slučaju?
Drugi način rješavanja višeklasnih problema je korištenje multinomijalne logističke regresije
(jedan model više klasa)
Za svaku klasu postoji vektor parametara θk , a onda se rezultat propušta kroz tzv. softmax
aktivacijsku funkciju
Softmax aktivacijska funkcija radi sljedeće:
• osigurava da suma rezultata na izlazu bude jednaka 1
• pojačava veće vrijednosti, smanjuje manje vrijednosti
Znači model na izlazu daje vektor od K elemenata čije elemente interpretiramo kao
vjerojatnost da ulazni podatak pripada pojedinoj klasi
24. Skicirajte softmax regresiju u formi potpuno povezanog sloja sa softmax
aktivacijskom funkcijom. Napišite izraze za izračunavanje izlaznih vrijednosti.
25. Objasnite matricu zabune. Što predstavlja svaki njen element?

26. Objasnite točnost, preciznost, odziv i F1 mjeru. Što je preciznost-odziv krivulja i


ROC krivulja. Kako ih dobivamo?
27. Kako se izračunavaju metrike za evaluaciju u slučaju višeklasne klasifikacije?
Pokažite na vlastitom primjeru s tri klase.
Izračun:
MAKRO
Stvore se 3 nove matrice od te jedne 3x3 matrice za svaku novu klasu, te se za svaku novu
računaju preciznost i odziv te se izračuna prosjek.
Ova desno matrica se dobije na način tako da se uzme u obzir jedna klasa i gledaju se njezini
TP a ostali se zbrajaju. Ovdje se uzelo 1 kao klasa, TP je 7 jer je to stvarna klasa 1 i predvidio
ju je kao 1. Za TN se uzima sve što nema veze sa stvarnom klasom 1, to su drugi i treći redak
i stupac, presjek njihov, kada se zbroje ti svi elementi dobije se 15(6+1+2+6). Za FP se
uzimaju oni koji nisu klasa 1 ali ih je predvidio kao da jesu, to su u prvom stupcu 3+2. Te na
kraju za FN se uzimaju oni koji jesu klasa 1 ali ih je predvidio kao da nisu, u prvom retku 2+1
MIKRO
Sve one pojedine matrice se zbroje u jednu te se onda računaju preciznost i odziv
28. Objasnite regularizaciju. Na koji način se modificira kriterijska funkcija? Skicirajte
efekt regularizacije na jednostavnim primjerima (regresija i klasifikacija).
Regularizacija je jedan od načina sprječavanja pretjeranog usklađivanja na podatke za učenje
na način da se „automatski” sprječava odabir presloženih modela tijekom optimizacije
parametara.
Što su veće vrijednosti parametara (apsolutna vrijednost) to dobivamo složeniju granicu
odluke (nelinearniju) kod logističke regresije koja uključuje kvadratne, kubne članove itd.
Ideja regularizacija: spriječiti da parametri modela postignu velike vrijednosti penaliziranjem
modela s velikim vrijednostima parametara.
Regularizacijom se postiže kompromis između usklađivanja modela na podatke za učenje i
njegove složenosti.
Regresija

Klasifikacija
29. Objasnite algoritam K najbližih susjeda (KNN). Kako se najčešće definira mjera
udaljenosti? Kako broj susjeda utječe na rezultate KNN algoritma? Koje su prednosti i
nedostatci algoritma KNN?

Očito da se mora unaprijed definirati broj najbližih susjeda K – ovaj parametar algoritam se
često naziva hiperparametar modela.
30. Skicirajte princip određivanja optimalne vrijednosti nekog hiperparametra pomoću
jednostavne provjere (validacije). Koji su nedostatci ovakvog pristupa?

Nedostaci:

• procjena može biti vrlo osjetljiva s obzirom kako smo podijelili podatke na skup za
učenje i validaciju → procjena može varirati s različitom podjelom
• gubimo vrijedne podatke koje bismo mogli upotrijebiti za procjenu parametara
modela(Ovo je posebno važno kada nemamo veliki podatkovni skup)
Rješenje su metode ponovnog uzorkovanja koje nam omogućuju bolje iskorištenje
podatkovnog skupa

You might also like