Masinsko Ucenje

Mašinsko učenje
Anja Buljević, Aleksandra Mitrović

Podsećanje
Mašinsko učenje (engl. Machine Learning) je oblast veštačke

inteligencije koja se bavi izgradnjom računarskih sistema koji
uče iz iskustva
Razvoj mašinskog učenja doveo je do pojave računarskih
sistema sa iznenadujućim peformansama koje prevazilaze
uspešnost ljudskog faktora u pojedinim domenima
Zasniva se na ideji kreiranja generičkih algoritama koji vrše
obradu skupa podataka i na osnovu toga izvršavaju odredenu
akciju, a da pri tome ne moramo da pišemo ponovo kod za
novi set podataka
U tom slučaju podaci se samo ubacuju u generički algoritam i
algoritam sam pravi logiku izvršavanja akcije na osnovu
dostupnih podataka.
Vrste mašinskog učenja
Postoje tri osnovna tipa mašinskog učenja

1 nadgledano učenje (engl. supervised learning)
2 nenadgledano učenje (engl. unsupervised learning)
3 učenje uslovljavanjem (engl. reinforced learning)
Nadgledano mašinsko učenje 1/2
Najznačajniji vid mašinskog učenja

Cilj nadgledanog učenja je obuka modela na osnovu trening
podataka koji omogućavaju predvidanje o nevidenim ili
budućim podacima
Termin nadgledani se odnosi na skup ulaznih (trening)
podataka gde su signali željenog izlaza (oznake, targeti) već
poznati.
Osnovna karakteristika mu je da se podaci sastoje iz parova
opisa onoga na osnovu čega se uči i onoga što je iz toga
potrebno naučiti.
Nadgledano mašinsko učenje 2/2
Kao što je poznato, nadgledano učenje se karakteriše time da

su uz vrednosti ulaza, date i vrednosti izlaza koje im
odgovaraju.
Potrebno je ustanoviti odnos koji važi izmedu ulaza i izlaza.
Na osnovu ovog odnosa se najčešće za neke buduće ulaze vrši
predvidanje izlaza.
Ulaz i izlaz se najčešće predstavljaju u vektorskom obliku i
označavaju sa x i y, pri čemu je x tipično vektor vrednosti
nekih promenljivih koje se nazivaju atributima (engl.
features), dok je y tipično jedna promenljiva koja se naziva
ciljnom promenljivom (engl. target variable).
Vrste nadgledanog učenja
Postoje dve osnovne vrste problema nadgledanog učenja:

1 regresija
2 klasifikacija
Regresija
Regresija je problem predvidanja neprekidne ciljne promenljive.

Postoji više vrste regresije: linearna, logistička,...
Primer 1. Predvidanje cene deonica na berzi na osnovu
njihovih cena u prethodnih nekoliko dana i globalnih
kvantitativnih pokazatelja tržišta.
Primer 2. Predvidanje količine teških metala u zemljištu na
osnovu udaljenosti od zagadivača, udaljenosti od vodenih
tokova, vrste zemljišnog pokrivača i slično.
Klasifikacija
Klasifikacija je problem predvidanja kategoričke ciljne

promenljive.
Kategoričkim promenljivim se smatraju promenljive koje
uzimaju konačan broj vrednosti medu kojima nema uredenja.
Tipovi klasifikacije: binarna i višeklasna.
Primer 1. Prepoznavanje jedne osobe iz skupa osoba koji se
nalaze na slici.
Primer 2. Prepoznavanje da li se novinski članak tičce
ekonomije, sporta ili politike.
Evaluacija i izbor modela
Evaluacija modela predstavlja kvantifikaciju njegove

sposobnosti predvidanja.
Ukoliko imamo na raspolaganju konačan broj modela, od kojih
je potrebno koristiti jedan, kako izabrati koji model
koristiti?
Evaluacija modela počiva na merama kvaliteta modela i na
tehnikama evaluacije modela.
Mere kvaliteta modela za klasifikaciju
Mere koje se najčešće koriste za klasifikaciju su:

1 tačnost klasifikacije (engl. classification accuracy)
2 preciznost (engl. precision)
3 odziv (engl. recall)
4 F1 mera
5 površina ispod ROC (receiver operating characteristic) krive
(engl. area under the curve – AUC).
Praktično sve često korišćene mere kvaliteta klasifikacije
počivaju na matrici konfuzije (engl. confusion matrix) i
pojmovima vezanim za nju.
Matrica konfuzije 1/3
Ovo je matrica C čiji element cij predstavlja broj elemenata

klase i koji su klasifikovani u klasu j.
Klasifikacija je najbolja kada je ova matrica dijagonalna, što
znači da je klasifikacija potpuno ispravna. Nedijagonalni
elementi označavaju greške.
U slučaju binarne klasifikacije, obično se jedna klasa naziva
pozitivnom, a druga negativnom.
Predvidene vrednosti
Negativne Pozitivne
Stvarne stvarno negativno lažno pozitivno
Negativne
vrednosti (TN) (FP)
lažno negativno stvarno pozitivno
Pozitivne
(FN) (TP)
Stvarno pozitivne (engl. true positive) instance su pozitivne

instance koje su od strane modela prepoznate kao pozitivne.
Stvarno negativne (engl. true negative) instance su
negativne instance koje su od strane modela prepoznate kao
negativne.
Lažno pozitivne (engl. false positive) instance su negativne
instance koje su od strane modela proglašene pozitivnim.
Lažno negativne (engl. false negative) instance su pozitivne
instance koje su od strane modela proglašene negativnim.
Mere kvaliteta modela za klasifikaciju - matematički
Tačnost klasifikacije predstavlja udeo tačno klasifikovanih instanci u ukupnom

broju instanci.
TP + TN
Acc =
TP + TN + FP + FN
Preciznost je udeo pozitivnih instanci u svim instancama koje su proglašene
pozitivnim.
TP
Prec =
TP + FP
Odziv je udeo pronadenih pozitivnih instanci u svim pozitivnim instancama.
TP
Rec =
TP + FN
F 1 mera predstavlja harominjsku sredinu preciznosti i odziva.
Prec · Rec
F1 = 2
Prec + Rec
Mere kvaliteta modela za regresiju
Mere koje se najčešće koriste za regresiju su:

1 srednja kvadratna greška (engl. mean square error)
2 koren srednje kvadratne greške (engl. root mean square error)
3 srednja relativna greška izražena u procentima (engl. mean
relative percentage error)
4 srednja apsolutna greška izražena u procentima (engl. mean
absolute percentage error)

Masinsko Ucenje

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Masinsko Ucenje

Uploaded by

Copyright:

Available Formats

Mašinsko učenje

Anja Buljević, Aleksandra Mitrović

Mašinsko učenje (engl. Machine Learning) je oblast veštačke

Postoje tri osnovna tipa mašinskog učenja

Najznačajniji vid mašinskog učenja

Kao što je poznato, nadgledano učenje se karakteriše time da

Postoje dve osnovne vrste problema nadgledanog učenja:

Regresija je problem predvidanja neprekidne ciljne promenljive.

Klasifikacija je problem predvidanja kategoričke ciljne

Evaluacija modela predstavlja kvantifikaciju njegove

Mere koje se najčešće koriste za klasifikaciju su:

Ovo je matrica C čiji element cij predstavlja broj elemenata

Stvarno pozitivne (engl. true positive) instance su pozitivne

Tačnost klasifikacije predstavlja udeo tačno klasifikovanih instanci u ukupnom

Mere koje se najčešće koriste za regresiju su:

You might also like