Professional Documents
Culture Documents
2. iteracija
3. iteracija
4. iteracija
5. iteracija
6. iteracija
Umjesto aktivacijske funkcije praga (step) koja se koristi kod perceptrona, odabire se
logistička funkcija ili sigmoidna funkcija
• Izlaz je ograničen na interval (0,1)
• Ova funkcija je glatka i derivabilna → važno sa stajališta optimizacijskog postupka
(jer u konačnici hoćemo koristiti gradijentnu metodu)
Ovo je binaran klasifikacijski model – granica između dvije klase definirana je hiperavninom
u ulaznom prostoru za koju vrijedi h(x)=0.5
Točnije, granica odluke je hiperravnina 𝜃 𝑇 𝑥=0 (za jednu ulaznu veličinu je skalar, za dvije
ulazne veličine pravac, za tri ulazne veličine ravnina, ...)
Stoga kriterijska funkcija na temelju koje se podešavaju parametri modela je ustvari
empirijska pogreška na skupu za učenje:
Rješenje ovog optimizacijskog problema ne postoji u zatvorenoj formi kao u slučaju linearne
regresije pa se moraju koristiti iterativne metode optimizacije (uveli smo nelinearnu funkciju
pa izlaz modela nelinearno ovisi o parametrima modela)
Dobra stvar je što je kriterijska funkcija konveksna što znači da ne postoje lokalni minimumi
22. Objasnite OvR i OvO pristup na jednostavnom (2D) problemu s tri klase i dvije
ulazne veličine. Koje su prednosti i nedostatci pojedinog pristupa?
"jedan naspram jedan" (engl. One-vs-One - OvO)
• potrebno je izgraditi K(K−1)/2 binarna klasifikatora
• Svaki binarni klasifikator modelira odnos između primjera koji pripadaju dvjema
različitim klasama
"jedan naspram ostalih" (engl. One-vs-Rest - OvR)
• potrebno je izgraditi K binarna klasifikatora
• svaki binarni klasifikator modelira odnos između primjera jedne klase u odnosu na sve
ostale primjere koji pripadaju ostalim klasama
Prednosti i nedostaci:
Kod OvR postoji puno manje područje gdje klasifikacija nije definirana nego kod OvO
Nadalje, kod OvR pristupa potrebno je izgraditi manje binarnih klasifikatora (ova razlika je
veća što je veći broj klasa). Npr. ako je K=5 OvR treba 5 klasifikatora, OvO treba 10
klasifikatora.
Najveći problem s OvR pristupom je moguća neuravnoteženost skupa (engl. class imbalance)
podataka kada se gradi pojedini binarni klasifikator. Ovo je čest problem u strojnom učenje i
to treba uzeti u obzir budući da većina modela nije namijenjena za ovakve skupove podataka
Primjer neuravnoteženog skupa je detekcija prevara kod transakcije (obično imamo jako puno
primjera dobrih transakcija, a prevara je najčešće manje od 1% primjera)
23. Kako izgleda model multinomijalne logističke regresije? Kako se kodira izlazna
veličina za potrebe učenja ovakvog modela (objasnite na primjeru klasifikacije rukom
pisanih znamenki). Koliko parametara ima model u ovom slučaju?
Drugi način rješavanja višeklasnih problema je korištenje multinomijalne logističke regresije
(jedan model više klasa)
Za svaku klasu postoji vektor parametara θk , a onda se rezultat propušta kroz tzv. softmax
aktivacijsku funkciju
Softmax aktivacijska funkcija radi sljedeće:
• osigurava da suma rezultata na izlazu bude jednaka 1
• pojačava veće vrijednosti, smanjuje manje vrijednosti
Znači model na izlazu daje vektor od K elemenata čije elemente interpretiramo kao
vjerojatnost da ulazni podatak pripada pojedinoj klasi
24. Skicirajte softmax regresiju u formi potpuno povezanog sloja sa softmax
aktivacijskom funkcijom. Napišite izraze za izračunavanje izlaznih vrijednosti.
25. Objasnite matricu zabune. Što predstavlja svaki njen element?
Klasifikacija
29. Objasnite algoritam K najbližih susjeda (KNN). Kako se najčešće definira mjera
udaljenosti? Kako broj susjeda utječe na rezultate KNN algoritma? Koje su prednosti i
nedostatci algoritma KNN?
Očito da se mora unaprijed definirati broj najbližih susjeda K – ovaj parametar algoritam se
često naziva hiperparametar modela.
30. Skicirajte princip određivanja optimalne vrijednosti nekog hiperparametra pomoću
jednostavne provjere (validacije). Koji su nedostatci ovakvog pristupa?
Nedostaci:
• procjena može biti vrlo osjetljiva s obzirom kako smo podijelili podatke na skup za
učenje i validaciju → procjena može varirati s različitom podjelom
• gubimo vrijedne podatke koje bismo mogli upotrijebiti za procjenu parametara
modela(Ovo je posebno važno kada nemamo veliki podatkovni skup)
Rješenje su metode ponovnog uzorkovanja koje nam omogućuju bolje iskorištenje
podatkovnog skupa