You are on page 1of 15

Mašinsko učenje

Anja Buljević, Aleksandra Mitrović


Podsećanje

Mašinsko učenje (engl. Machine Learning) je oblast veštačke


inteligencije koja se bavi izgradnjom računarskih sistema koji
uče iz iskustva
Razvoj mašinskog učenja doveo je do pojave računarskih
sistema sa iznenadujućim peformansama koje prevazilaze
uspešnost ljudskog faktora u pojedinim domenima
Zasniva se na ideji kreiranja generičkih algoritama koji vrše
obradu skupa podataka i na osnovu toga izvršavaju odredenu
akciju, a da pri tome ne moramo da pišemo ponovo kod za
novi set podataka
U tom slučaju podaci se samo ubacuju u generički algoritam i
algoritam sam pravi logiku izvršavanja akcije na osnovu
dostupnih podataka.
Vrste mašinskog učenja

Postoje tri osnovna tipa mašinskog učenja


1 nadgledano učenje (engl. supervised learning)
2 nenadgledano učenje (engl. unsupervised learning)
3 učenje uslovljavanjem (engl. reinforced learning)
Nadgledano mašinsko učenje 1/2

Najznačajniji vid mašinskog učenja


Cilj nadgledanog učenja je obuka modela na osnovu trening
podataka koji omogućavaju predvidanje o nevidenim ili
budućim podacima
Termin nadgledani se odnosi na skup ulaznih (trening)
podataka gde su signali željenog izlaza (oznake, targeti) već
poznati.
Osnovna karakteristika mu je da se podaci sastoje iz parova
opisa onoga na osnovu čega se uči i onoga što je iz toga
potrebno naučiti.
Nadgledano mašinsko učenje 2/2

Kao što je poznato, nadgledano učenje se karakteriše time da


su uz vrednosti ulaza, date i vrednosti izlaza koje im
odgovaraju.
Potrebno je ustanoviti odnos koji važi izmedu ulaza i izlaza.
Na osnovu ovog odnosa se najčešće za neke buduće ulaze vrši
predvidanje izlaza.
Ulaz i izlaz se najčešće predstavljaju u vektorskom obliku i
označavaju sa x i y, pri čemu je x tipično vektor vrednosti
nekih promenljivih koje se nazivaju atributima (engl.
features), dok je y tipično jedna promenljiva koja se naziva
ciljnom promenljivom (engl. target variable).
Vrste nadgledanog učenja

Postoje dve osnovne vrste problema nadgledanog učenja:


1 regresija
2 klasifikacija
Regresija

Regresija je problem predvidanja neprekidne ciljne promenljive.


Postoji više vrste regresije: linearna, logistička,...
Primer 1. Predvidanje cene deonica na berzi na osnovu
njihovih cena u prethodnih nekoliko dana i globalnih
kvantitativnih pokazatelja tržišta.
Primer 2. Predvidanje količine teških metala u zemljištu na
osnovu udaljenosti od zagadivača, udaljenosti od vodenih
tokova, vrste zemljišnog pokrivača i slično.
Klasifikacija

Klasifikacija je problem predvidanja kategoričke ciljne


promenljive.
Kategoričkim promenljivim se smatraju promenljive koje
uzimaju konačan broj vrednosti medu kojima nema uredenja.
Tipovi klasifikacije: binarna i višeklasna.
Primer 1. Prepoznavanje jedne osobe iz skupa osoba koji se
nalaze na slici.
Primer 2. Prepoznavanje da li se novinski članak tičce
ekonomije, sporta ili politike.
Evaluacija i izbor modela

Evaluacija modela predstavlja kvantifikaciju njegove


sposobnosti predvidanja.
Ukoliko imamo na raspolaganju konačan broj modela, od kojih
je potrebno koristiti jedan, kako izabrati koji model
koristiti?
Evaluacija modela počiva na merama kvaliteta modela i na
tehnikama evaluacije modela.
Mere kvaliteta modela za klasifikaciju

Mere koje se najčešće koriste za klasifikaciju su:


1 tačnost klasifikacije (engl. classification accuracy)
2 preciznost (engl. precision)
3 odziv (engl. recall)
4 F1 mera
5 površina ispod ROC (receiver operating characteristic) krive
(engl. area under the curve – AUC).
Praktično sve često korišćene mere kvaliteta klasifikacije
počivaju na matrici konfuzije (engl. confusion matrix) i
pojmovima vezanim za nju.
Matrica konfuzije 1/3

Ovo je matrica C čiji element cij predstavlja broj elemenata


klase i koji su klasifikovani u klasu j.
Klasifikacija je najbolja kada je ova matrica dijagonalna, što
znači da je klasifikacija potpuno ispravna. Nedijagonalni
elementi označavaju greške.
U slučaju binarne klasifikacije, obično se jedna klasa naziva
pozitivnom, a druga negativnom.
Matrica konfuzije 2/3

Predvidene vrednosti
Negativne Pozitivne
Stvarne stvarno negativno lažno pozitivno
Negativne
vrednosti (TN) (FP)
lažno negativno stvarno pozitivno
Pozitivne
(FN) (TP)
Matrica konfuzije 3/3

Stvarno pozitivne (engl. true positive) instance su pozitivne


instance koje su od strane modela prepoznate kao pozitivne.
Stvarno negativne (engl. true negative) instance su
negativne instance koje su od strane modela prepoznate kao
negativne.
Lažno pozitivne (engl. false positive) instance su negativne
instance koje su od strane modela proglašene pozitivnim.
Lažno negativne (engl. false negative) instance su pozitivne
instance koje su od strane modela proglašene negativnim.
Mere kvaliteta modela za klasifikaciju - matematički

Tačnost klasifikacije predstavlja udeo tačno klasifikovanih instanci u ukupnom


broju instanci.

TP + TN
Acc =
TP + TN + FP + FN
Preciznost je udeo pozitivnih instanci u svim instancama koje su proglašene
pozitivnim.

TP
Prec =
TP + FP
Odziv je udeo pronadenih pozitivnih instanci u svim pozitivnim instancama.

TP
Rec =
TP + FN
F 1 mera predstavlja harominjsku sredinu preciznosti i odziva.

Prec · Rec
F1 = 2
Prec + Rec
Mere kvaliteta modela za regresiju

Mere koje se najčešće koriste za regresiju su:


1 srednja kvadratna greška (engl. mean square error)
2 koren srednje kvadratne greške (engl. root mean square error)
3 srednja relativna greška izražena u procentima (engl. mean
relative percentage error)
4 srednja apsolutna greška izražena u procentima (engl. mean
absolute percentage error)

You might also like