Machine Learning

Predavanje 1: Uvod u mašinsko učenje
Ovo predavanje je uvod u osnovne pojmove vezane za mašinsko učenje, tehnike i algoritme
mašinskog učenja kroz sljedeće tematske jedinice:
1. Uvod u oblast nauke o podacima i mašinskog učenja

2. Tehnike i algoritmi mašinskog učenja
3. Jezici za mašinsko učenje
1. Uvod u oblast nauke o podacima i mašinskog učenja

Mašinsko učenje (machine learning) je dio oblasti računarskih nauka (computer science) i
nauke o podacima (data science). Nauka o podacima je disciplina koja se bavi izučavanjem
velikih količina podataka. To je relativno nova nauka i raste sa razvojem i širokom
primjenom kompjutera. Uključuje veliki broj disciplina i koncepata. Neki od njih su veliki
podaci (big data), vještačka inteligencija (artificial intelligence AI), rudarenje podataka (data
mining), mašinsko učenje (machine learning).
Mašinsko učenje izgrađeno je na statističkom okviru. Pored toga mašinsko učenje obuhvaća i
veliki broj drugih područja matematike i računarskih nauka. Veza mašinskog učenja i
statistike će se biti jasnija nakon ovog kursa. Za sada možemo istaknuti da statističko
modeliranje se više bavi pronalaženjem odnosa između varijabli tih odnosa dok mašinsko
učenje pored toga u prvi plan stavlja i predviđanja (predikciju), evaulaciju tih predviđanja i
upotrebljivost sistema za predviđanje.
Mašinsko učenje se bavi razvojem algoritama koji da bi bili korisni se oslanjaju na kolekciju
primjeraka nekog fenomena. Kolekcije mogu poticati iz prirode, biti ručno izrađene od
strane ljudi ili generirane drugim algoritmom.
Mašinsko učenje se može također opisati kao proces rješavanja praktičnih problema koji se
sastoji od 1. kolektiranja i pohranjivanja skupova podataka i 2. algoritamske izgradnje
statističkih modela baziranih na skupovima podataka.
Mašinsko učenje fokusira se na razvoj algoritama koji mogu učiti iz podataka i na osnovu
toga vršiti razne predikcije. Nastalo je u okruženju u kojem su se dostupni podaci, statističke
metode i kompjuterska snaga brzo i istovremeno razvijali. Rast podataka zahtijevao je
dodatnu računarsku snagu, što je zauzvrat potaknulo razvoj metoda za analizu velikih
skupova podataka.
Pionir mašinskog učenja Arthur Samuel 1959, definira mašinsko učenje kao "polje učenja
koje daje kompjuterima sposobnost da uče bez eksplicitnog programiranja". Dok je radio za
IBM razvio je program koji uči igranje dame i vremenom poboljšava svoj način igranja.
1
Američki naučnik Tom Mitchell (rođen 1951, profesor na Carnegie Mellon University)
1997 godine je definirao mašinsko učenje kao: "A computer program is said to learn from
experience E with respect to some task T and some performance measure P, if its performance on
T, as measured by P, improves with experience E."
Računarski program uči iz iskustva E u vezi s nekim zadatkom T i nekom mjerom uspješnosti
P, ako se njegov učinak na T, mjeren s P, poboljšava s iskustvom E.
Slijedi pojašnjenje ove koncizne definicije na primjeru: Potrebno je izgraditi sistem

otkrivanja prevara na kreditnim karticama (credit card fraud detection system). Zadatak T
tog sistema je označiti transakcije kreditnih karticama kao lažne ili ne. Mjera uspješnosti P
mogao bi biti postotak otkrivenih lažnih transakcija. Sistem uči ako se postotak otkrivenih
lažnih transakcija s vremenom povećava. Ovdje je iskustvo E skup već obrađenih zapisa
transakcija. Nakon što se transakcija obradi, tada se zna da li je prijevara ili ne i ti podaci se
mogu prenijeti u sistem kako bi učio.
1.2. Proces mašinskog učenja

Proces razvijanja algoritama mašinskog učenja odnosno primjena mašinskog učenja na
stvarne zadatke sastoji se od sljedećih 5 koraka:
1.Prikupljanje (kolektiranje) podataka: Ovaj korak uključuje prikupljanje, kolektiranje
podataka i formiranje pogodnih skupova podataka (sekcija 1.3) za učenje koji će algoritam
koristiti za stvaranje djelotvornoga znanja. U većini slučajeva podaci dolaze iz više izvora
podataka i morati će se kombinirati u jedan izvor poput tekstualne datoteke, proračunske
tabele, baze podataka.
2.Istraživanje i priprema podataka: Kvalitet projekta mašinskog učenja uglavnom se

temelji na kvalitetu njegovih ulaznih podataka. Stoga je važno naučiti više o podacima i
njihovim karakteristikama tokom prakse koja se zove istraživanje podataka. Za pripremu
podataka za proces učenja potreban je dodatni rad. To uključuje čišćenje podataka, njihovu
modifikaciju, transformaciju i dodatne aktivnosti nad podacima što je objašnjeno u
predavanju 2.
3.Treniranje modela: Nakon što su podaci pripremljeni za analizu u najčešćem broju

slučajeva dobije se predstava o tome šta se može naučiti iz podataka. U okviru ovog koraka
se vrši odabir odgovarajućeg algoritma, a algoritam će na osnovu testnih podataka formirati
model. U narednim predavanje izučavaju se razne tehnike i algoritmi mašinskog učenja.
4.Procjena (evaluacija) modela:. Ako su klasifikacijska ili prediktivna svojstva prihvatljiva,

model se dodatno potvrđuje na neovisnom testnom skupu. Ovo je podskup izvornih podataka
uzoraka koje model prethodno nije vidio. Važno je izvršiti procjenu performansi modela
2
testnog skupa podataka primjenom specifičnih metrika ovisno od vrste modela. Više o
načinima evaluacije za različite tehnike mašinskog učenja će se raditi tokom kursa.
5.Poboljšanje modela: Potrebno je ispitati mogućnosti poboljšanja modela i ispitati

korištenje naprednijih strategija za povećanje performansi modela. Često je potrebno dodatno
istraživanje i priprema podataka. Ponekad je potrebno čak i potpuno prebacivanje na drugu
vrstu modela. Čitav postupak je iterativan. Obično su potrebne mnoge iteracije prije nego što
se odabere konačni model.
Za sam proces mašinskog učenja veoma je važna prezentacija i vizualizacija modela i

otkrivenog znanja uglavnom strukturalnih paterna u podacima. Vizualizacija podataka i
informacija je veoma aktualna oblast. Vizualizacija informacija omogućava korisnicima
upoznavanje i potpuniju predodžbu o znanju koje je otkriveno iz repozitorija podataka. Neke od
formi prezentacije znanja su: tabele, klasifikacijska pravila, asocijativna pravila, izvještaji,
dijagrami, grafovi, drvo odlučivanja, kocke, klasteri, linearni modeli, reprezentacije bazirane na
instanci Na slici 1 su prikazane neke od formi predstavljanja paterna kao što su drvo odlučivanja i
klasifikacijska pravila koje su osnovni stilovi predstavljanja znanja u mnogim metodama
mašinskog učenja, jer su veoma intuitivne forme prezentacije. Postoje i mnoge kompleksnije
varijante pravila i drveta odlučivanja, kao i adaptirane varijante za numeričke predikcije. Dodatna
pojašnjenja i dodatne forme prezentacije i vizualizacije podataka biti prikazane u narednim
poglavljima.
Pravila
starost(X,”mlad”) and zarada (X, “visoka”) => class (X, “A”)

starost(X,”mlad”) and zarada (X, “niska”) => class (X, “B”)
Drvo odlučivanja
Bar grafikon Starost

mlad star
Klasa B zarada Klasa C
Klasa visoka niska

Klasa Klasa
A B C
Klasa C
Klasa A Klasa B
Slika 1. Različite forme predstavljanja modela/paterna
3
1.3.Setovi podataka
Modeli i algoritmi mašinskog učenja su široko primjenjivi u mnogim domenima poslovanja i
naučnim istraživanjima. U principu mašinsko učenje može se primijeniti na bilo koju vrstu
informacijskog repozitorija. To uključuje između ostalog relacijske baze podataka, skladište
podataka, transakcijske baze podataka, prostorne, multimedijske podatke, datoteke, XML
dokumente, WWW, vremenske serije podataka, specifične setove podataka.
Mnogi istraživači rješavaju iste probleme i koriste javno dostupne setove podataka (eng.
datasets) koji su namjenski formirani za pojedinu oblast. Postoje setovi podataka za
medicinska, marketinška, meteorološka, finansijska i mnoga druga istraživanja. Ovi setovi su
uglavnom dobro dizajnirani u pogledu broja atributa (features) kojima se opisuje pojedini
koncept (primjerak, instanca, entitet). Naprimjer, za predikciju uspješnosti nekog kredita i
sličnih problema u bankarstvu dostupni su setovi podataka Australian,German, Japanese.
Koncept je obično osoba, predmet, transakcija, vremenski period, geografska regija i sl.
Ponekad se koncepti promatranja kombiniraju u cilju uspješnijih analiza. Npr. koncept
osoba-godine označavaju slučajeve u kojima se ista osoba(e) prati tokom više godina a takvi
skupovi podataka sastoje se od podataka o osobi za više godina. To omogućava razne
analize.
Iako se primjeri i značajke ne moraju prikupljati u bilo kojem određenom obliku, obično se
koristi matrični format, što znači da svaki primjer ima potpuno iste atribute (karakteristike,
značajke eng. features). U matričnoj formi svaki red je instanca a kolone su karakteristike.
Figura 1 predstavlja matrični zapis u kojem redovi indiciraju instance (primjerke) automobila
dok kolone označavaju karakteristike automobile kao što su cijena, kilometraža, boja, vrsta
prijenosa.
Karakteristike dolaze u različitim formama. Ako karakteristika predstavlja neku mjeru
izraženu u brojevima radi se o numeričkoj (numeric) karakteristici. Ako se za karakteristiku
veže skup kategorija tada se radi o kategoričkoj (categorical) ili nominalnoj (nominal)
karakteristici. Npr. spol.
Poseban slučaj kategorijskih varijabli su ordinalne varijable i specificiraju samo redoslijedni-
poredani popis vrijednosti i omogućavaju samo usporedbu vrijednosti. Primjeri ordinalnih
varijabli uključuju npr. veličinu cipela kao što su male, srednje ili velike; mjerenje
satisfakcije na skali "u potpunosti nezadovoljan" do "veoma zadovoljan" .
Važno je razmotriti što karakteristike predstavljaju jer značenja, vrsta i broj karakteristika u
skupu podataka pomaže u određivanju odgovarajućeg algoritma mašinskog učenja.
Godina Model Cijena Kilometraža Boja Mijenjač

2011 SEL 21992 7412 Žuta Auto
2011 SEL 20995 10926 Siva Auto
2012 SE 17500 8367 Bijela Manuel
…
Figura 1: Matrični zapis
4
1.4. Primjene mašinskog učenja
Svaka organizacija koja generira ili agregira podatke vjerovatno koristi barem jedan
algoritam mašinskog učenja. Mašinsko učenje najuspješnije je kada proširuje, umjesto da
zamjenjuje specijalizirana znanja domenskih stručnjaka.
Mašinsko učenje se uglavnom koristi za dva primarna taska. Prvi task je prognoza budućih
ishoda. Naprimjer, ukoliko je zadatak optimizacija sekvence semafora na prometnoj
saobraćajnici može se razviti algoritam mašinskog učenja za predviđanje protoka prometa pet
minuta unaprijed. Drugi task je klasifikacija objekata u specifične klase. Naprimjer, zrna kafe
obično se klasificiraju u jedan od četiri razreda (Special, Premium, Exchange, Standard).
Može se razviti algoritam mašinskog učenja za automatsko određivanje kategorije zrna kafe
na osnovu karakteristika zrna.
Sličnih primjena je jako mnogo. Neki od njih su:
• Identifikacija spam poruka u e-mailu
• Segmentacija ponašanja kupaca za ciljano oglašavanje
• Prognoze vremenskog ponašanja i dugoročnih klimatskih promjena
• Smanjivanje lažnih transakcija na kreditnim karticama
• Predikcija ishoda rezultata izbora
• Razvoj algoritama za automatsko pilotiranje bespilotnih letjelica i samovozećih
automobila
• Optimizacija korištenja energije u kućama i uredskim zgradama
• Projekcija područja u kojima je kriminalna aktivnost najvjerojatnija
• Otkrivanje genetskih sekvenci povezanih s bolestima
1.5. Pregled ostalih disciplina nauke o podacima
Slijede definicije i jedinstvene karakteristike drugih termina povezanih sa naukom o

podacima i mašinskim učenjem. Mašinsko učenje je kako je već naglašeno povezano sa
statistikom i u narednim predavanjima će se za istraživanje podataka i razne analize koristiti
statističke metode.
Popularna disciplina unutar nauke o podacima koja je usko povezana sa mašinskim učenjem
je data mining.
Data mining
Pregledom literature mogu se izdvojiti sljedeće zajedničke definicije za data mining.
- Data mining je skup procesa vezanih za analizu i otkrivanje znanja skrivenog duboko u
velikim količinama podataka. Za vrijeme tih procesa se koristi algoritmi mašinskog učenja.
-Data mining uključuje primjenu naprednih algoritama mašinskog učenja na ranije
nepoznate odnose, obrazce i pravilnosti iz vrlo velikog skupa podataka
5
- Data mining je proces otkrivanja skrivenog, prethodno nepoznatog znanja i korisnih
informacija iz velikog skupa podataka. Ove informacije se predstavljaju u kompaktnoj formi,
obično označenoj kao model.
- Data mining označava ekstrakciju ili „mining“ znanja iz velike količine podataka.
- Data mining je proces otkrivanja novih značajnih korelacija i trendova iz velike količine
podataka smještenih u skladištu podataka, korištenjem mašinskog učenja vještačke
inteligencije, statističkih i matematičkih metoda.
Iz definicija je vidljivo da data mining koristi za svoje taskove algoritme mašinskog učenja.
Uglavnom sistemi za analizu podataka koji ne upravljaju velikim količinama podataka se
kategoriziraju kao sistemi mašinskog učenja (eng. machine learning) i oni ne uključuje samo
učenje iz primjera, već i poboljšanje učenja i poboljšanje performansi agenata. S druge strane
data mining sistemi rade nad velikom količinom podataka i primjenom mašinskog učenja
pokušavaju doći do neotkrivenog znanja.
Veliki podaci (Big data)

Veliki podaci - big data je u zadnjih desetak godina izraz koji privlači najviše pažnje kad su u
pitanju digitalni podaci i spremanje podataka.
Veliki podaci (big data) je izraz koji se koristi za skupove podataka toliko velike da ih je
nemoguće procesirati standardnim alatima za procesiranje podataka u razumnom
vremenskom roku. Većina big data skupova podataka su nestrukturirani skupovi podataka
koji predstavljaju izazov za skladištenje i analiziranje.
Pod pojmom big Data se podrazumijeva informacioni resurs velike količine, velike brzine i
velike raznovrsnosti podataka koji zahtijeva nove i inovativne metode obrade i optimizacije
informacija, poboljšanje uvida u sadržaj podataka i donošenja odluka- definicija proistekla je
iz analize META Group-e (sadašnji Gartner) koja je rađena 2001. godine
Definicija koja je pokušaj objedinjenja više definicija:
„„Big Data je pojam koji označava smještanje i analizu velike, kompleksne strukture
podataka korištenjem niza tehnika, uključujući, ali ne ograničavajući se na tehnologije
NoSQL, MapReduce i mašinsko učenje”.
1.2. Tehnike i algoritmi mašinskog učenja
U okviru ove sekcije uvode se metode induktivnog učenja i klasifikacija tehnika i algoritama
mašinskog učenja.
1.2.1. Metode induktivnog učenja
Postoje dva tipa metoda induktivnog učenja poznate kao:

1. Nadgledano učenje(učenje sa učiteljem);
2. Nenadgledano učenje(učenje bez učitelja).
6
Nadgledano učenje koristi se da se procijeni nepoznata ovisnost od poznatih ulaznih-izlaznih
uzoraka. Klasifikacija i regresija su primjeri tehnika koje pripadaju grupi nadgledanog
učenja. Nadgledano učenje pretpostavlja postojanje učitelj—fitnes funkcije ili slične druge
eksterne metode za procjenjivanje predloženog modela. Izraz nadgledano označava da su
izlazne vrijednosti za trening uzorke poznate (tj., date sa "učiteljem" koji ima znanje o
okruženju). Neke tehnike nadgledanog učenja su: indukcija pravila, klasifikacijsko i
regresijsko drvo odlučivanja, SVM (Support Vector Machines), Bayesian Networks, neki
modeli neuralnih mreža, k-najbliži susjed.
Kod nenadgledane sheme učenja, samo uzorci sa ulaznim vrijednostima su dati sistemu za
učenje. Nenadgledano učenje eliminira učitelja i zahtijeva da učenik formira i procijeni
model. Cilj nenadgledanog učenja je otkrivanje “prirodne” strukture u ulaznim podacima.
Ovi rezultati se postižu sa klaster analizama (npr. k-means, EM-Exception Maximization),
pojedinim tipovima neuralnih mreža (npr. SOM (samo organizirajuće mape), ART (teorija
adaptivnih rezonanci)), asocijativnim pravilima, link analizama. Za problem redukcije
dimenzionalnosti, koji je izuzetno aktuelan, koriste se metode nenadgledanog učenja - analize
principijelnih komponenti, analize neovisnih komponenti.
Veliki broj je i statističkih metoda kao što su logistička regresija, Naive Bayes koeficijenti,
diskriminantne analize koje se koriste u mašinskom učenju i koje pripadaju gore navedenim
tipovima učenja. Statističke metode se često odvajaju u odvojenu skupinu izučavanja zbog
principa funkcioniranja.
Tu su i druge tehnike kao što su genetički algoritmi, grupni metodi upravljanja podataka,
fuzzy setovi.
1.2.2. Tehnike mašinskog učenja
Generalno induktivni problemi učenja mogu se podijeliti u grupu predikcijskih i deskriptivnih

metoda. Predikcijske metode koriste neke varijable da predvide nepoznate ili buduće
vrijednosti drugih varijabli. Deskriptivne metode identificiraju paterne ili relacije u podacima
i pronalaze paterne za opis podataka, koji su razumljivi ljudima. Najčešće tehnike mašinskog
učenja koje se ubrajaju u grupu predikcijskih metoda su klasifikacija, regresija, analiziranje
vremenskih serija, predikcija. Najčešće tehnike mašinskog učenja koje se ubrajaju u
deskriptivne modele su klastering, otkrivanje asocijativnih pravila, otkrivanje sekvencijalnih
pravila, sumiranje. Slijedi pregled pojedinih tehnika.
Klasifikacija
Klasifikacija na osnovu osobina podataka, smješta podatke u predefinirane grupe ili klase.
Često se označava kao nadgledano učenje jer klase su određene prije ispitivanja podataka.
Proces klasifikacije počinje od kolekcija slogova (podataka) koja se naziva trening set dat na
slici 1.2a. Uzorci podataka pripadaju različitim klasama koje su obilježene različitim
simbolima. Klase su označene na osnovu jednog od atributa podataka. Zadatak klasifikacije
7
je pronaći model za atribut klase kao funkciju vrijednosti od drugih atributa. Konačni rezultat
klasifikacije je linija prikazana na slici 1.2b, koja najbolje odvaja uzorke u dvije klase.
Korištenje ove funkcije, svaki novi uzorak, iako nije poznat izlazni rezultat (klasa kojoj
pripada), može se klasificirati korektno. Cilj klasifikacije je ustvari da se prethodno neviđeni
slogovi dodijele određenoj klasi. Kada se problem specificira sa više od dvije klase, to
rezultira u kompleksnije funkcije.
Uobičajno set podataka je podijeljen u trening i test podatke, trening set se koristi da izgradi
model a test set da se model validira. Klasifikacijske tehnike su tehnike bazirane na drvetu
odlučivanja, tehnike bazirane na pravilima, neuralne mreže, Naïve Bayes klasifikatori,
Bayesove mreže, mašine vektorske podrške. Tehnike klasifikacije objašnjavaju se u
posebnim predavanjima .
a) Trening set podataka b) Klasifikacijska funkcija
Slika 1.1: Grafička interpretacija klasifikacije
Regresija
Regresija je tehnika koja predviđa stvarnu vrijednost. Rezultat procesa učenja u ovom slučaju
je funkcija učenja koja mapira podatke u stvarnu vrijednost predikcijske varijable. Inicijalni
trening skup podataka je dat na slici 1.3a. Regresijska funkcija na slici 1.3b generirana je
bazirano na predefiniranim kriterijima. Bazirajući se na ovoj funkciji, moguće je procijeniti
vrijednost predikcijske varijable za svaki novi uzorak. Regresija pretpostavlja da se ciljani
podaci smjeste u poznati tip funkcije (npr., linearna, logistička) i poslije odredi najbolja
funkcija ovog tipa koja modelira date podatke.
8
Predikcijska varijabla
Novi uzorak
a) Trening set podataka b) Regresijska funkcija
Slika 11.2: Grafička interpretacija regresije
Klastering
Klastering je sličan klasifikaciji izuzev što grupe nisu predefinirane. Klastering se obično
postiže određivanjem sličnosti između podataka na osnovu unaprijed određenih atributa.
Najviše slični podaci se grupiraju u klastere. Klastering se alternativno referira kao
nenadgledano učenje ili segmentacija u grupe koje mogu ali ne moraju biti disjunktne. Slika
1.4a pokazuje inicijalne podatke, koji su grupirani u klase kako je pokazano na slici 1.4b,
koristeći standardnu mjeru udaljenosti za uzorke kao tačke u n-dimenzijskom prostoru.
Bazirajući se na rezultatima klastering procesa svaki novi uzorak, na osnovu sličnosti sa
klaster podacima, može se dodijeliti u jedan od prethodno pronađenih klastera. Tehnike
klasteringa se objašnjavaju u posebnom poglavlju.
a) Trening set podataka b) Klasteri
Slika 1.3: Grafička reprezentacija klastera
Asocijativna pravila
Asocijativna pravila predstavljaju skup relativno novih metodologija koje uključuju algoritme
kao što su analiza potrošačke korpe, Apriori algoritam, i WWW put-povezane paterne. To je
model koji identificira specifične tipove asocijacija među podacima. Ove asocijacije se
najčešće koriste u prodajnim zajednicama da identificiraju artikle koji se najčešće prodaju
zajedno.
9
Sumarizacija
Sumarizacija je također tipični deskriptivni zadatak koji koristi induktivni proces učenja bez
učitelja. Uključuje metode za pronalaženje kompaktnog opisa za skup (ili podskup) podataka
i mapiranje podataka u podskupove sa povezanim jednostavnim opisima. Sumarizacija se
također naziva karakterizacija ili generalizacija.
Otkrivanje sekvence paterna

Sekvencijalne analize ili otkrivanje sekvenci paterna koristi se da se odrede sekvencijalni
paterni u podacima odnosno paterni ponašanja i trendovi. Ovi paterni su bazirani na
vremenskoj sekvenci akcija. Ovi paterni su slični asocijacijama u podacima, ali u ovom
slučaju relacijske veze su bazirane na vremenu.
Analize vremenskih nizova

Sa analizama vremenskih nizova (serija), ispituje se kako varira vrijednost atributa u vremenu
(dnevno, sedmično, mjesečno, itd.).
Lista tehnika i algoritama nije ograničena na opisane iznad. U okviru predmeta mnoge
tehnike i algoritmi raditi će se detaljnije.
1.3.Jezici i alati za mašinsko učenje

Veliki je broj alata i okruženja za mašinsko učenje. Neki od njih su Phyton, R, Julia, Scala,
Ruby, Octave, MATLAB, SAS.
Dobar plan nije učiti npr. R, Phyton bez solidnog predznanja o statisticima i mašinskom
učenju. Naučnici nauke o podacima podacima nisu programeri. Mnogo važniji task u nauci
sa podacima je način kako se radi sa podacima: uvoz, čišćenje, priprema podataka,
inženjering karakteristika, selekcija karakterstika, formiranje modela, evaulacija i poboljšanje
modela. To je primarni fokus. Jezici i alati omogućavaju da se proces mašinskog učenja
automatizira i učini dostupnijim. U okviru ovog predmeta koristi će se R programski jezik
razvijen od strane Ross Ihaka i Robert Gentleman 1993 god. R posjeduje prošireni katalog
statističkih i grafičkih metoda. Njegovo primarno korištenje je statistika, vizualizacija i
mašinsko učenje R je napravljen od kolekcije biblioteka dizajniranih specifično za mašinsko
učenje. Uključuje algoritme mašinskog učenja, linearnu regresiju, analizu vremenskih serija,
statistiku i mnoge druge. Cijenjen je u akademskim krugovima a koriste ga i mnoge
kompanije – uključujući Uber, Google, Airbnb, Facebook itd. Sve biblioteke od R-a, su
smještene na CRAN. CRAN je besplatan i open source. Osnove R su izložene u okviru
dodatne prezentacije.
10

Machine Learning

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Machine Learning

Uploaded by

Copyright:

Available Formats

Predavanje 1: Uvod u mašinsko učenje

1. Uvod u oblast nauke o podacima i mašinskog učenja

1. Uvod u oblast nauke o podacima i mašinskog učenja

Slijedi pojašnjenje ove koncizne definicije na primjeru: Potrebno je izgraditi sistem

1.2. Proces mašinskog učenja

2.Istraživanje i priprema podataka: Kvalitet projekta mašinskog učenja uglavnom se

3.Treniranje modela: Nakon što su podaci pripremljeni za analizu u najčešćem broju

4.Procjena (evaluacija) modela:. Ako su klasifikacijska ili prediktivna svojstva prihvatljiva,

5.Poboljšanje modela: Potrebno je ispitati mogućnosti poboljšanja modela i ispitati

Za sam proces mašinskog učenja veoma je važna prezentacija i vizualizacija modela i

starost(X,”mlad”) and zarada (X, “visoka”) => class (X, “A”)

Bar grafikon Starost

Klasa B zarada Klasa C

Klasa visoka niska

Slika 1. Različite forme predstavljanja modela/paterna

Godina Model Cijena Kilometraža Boja Mijenjač

Figura 1: Matrični zapis

1.5. Pregled ostalih disciplina nauke o podacima

Slijede definicije i jedinstvene karakteristike drugih termina povezanih sa naukom o

Veliki podaci (Big data)

1.2. Tehnike i algoritmi mašinskog učenja

1.2.1. Metode induktivnog učenja

Postoje dva tipa metoda induktivnog učenja poznate kao:

1.2.2. Tehnike mašinskog učenja

Generalno induktivni problemi učenja mogu se podijeliti u grupu predikcijskih i deskriptivnih

a) Trening set podataka b) Klasifikacijska funkcija

Slika 1.1: Grafička interpretacija klasifikacije

Slika 11.2: Grafička interpretacija regresije

a) Trening set podataka b) Klasteri

Slika 1.3: Grafička reprezentacija klastera

Otkrivanje sekvence paterna

Analize vremenskih nizova

1.3.Jezici i alati za mašinsko učenje

You might also like