You are on page 1of 13

VISOKA POSLOVNA ŠKOLA STRUKOVNIH STUDIJA BLACE

Tema seminarskog :
Mašinsko učenje

Predmet:
Veštačka inteligencija

Profesor:

Student:

1
SADRŽAJ
Uvod................................................................................................................................................ 3
Definicija......................................................................................................................................... 3
Osobine Mašinskog učenja ............................................................................................................. 4
IR................................................................................................................................................. 4
ML............................................................................................................................................... 4
DM .............................................................................................................................................. 4
Vrste mašinskog učenja .................................................................................................................. 5
Nadgledano učenje ...................................................................................................................... 5
Nenadgledano učenje .................................................................................................................. 6
Problem prevelike podešenosti (overfitting) ................................................................................... 7
Problem nedovoljne podešenosti (underfitting) .............................................................................. 7
Razlika između prevelike podešenosti i nedovoljne podešenosti ................................................... 8
Klasifikacija .................................................................................................................................... 8
Predikcija ........................................................................................................................................ 9
Grupisanje ....................................................................................................................................... 9
Asocijacija..................................................................................................................................... 10
Proces mašinskog učenja .............................................................................................................. 11
Podaci ............................................................................................................................................ 11
Atributi (features).......................................................................................................................... 11
Atributi – primeri ...................................................................................................................... 11
Testiranje....................................................................................................................................... 12
TRAIN/VALIDATE/TEST ...................................................................................................... 12
Analiza greške ........................................................................................................................... 12
Reference ...................................................................................................................................... 13

2
Uvod
Predhodnih godina mašinsko učenje je dalo prilično dobre rezultate u olakšavanju određenih
poslova, predviđanju događaja i donelo velike uštede u različitim oblastima. Računare je danas
moguće naučiti da rade prilično veliki broj poslova gotovo podjednako efikasno kao i čovek. Iako
smo i dalje prilično daleko od jake mašinske inteligencije, koja bi bila uporediva sa čovekovom,
mnogi poslovi se mogu delegirati mašinama, bez bojazni da će ih ona uraditi gore od čoveka.

Mašinsko učenje je oblast koja proučava procese na kojima se zasniva učenje kod ljudi i kod
veštačkih sistema. U cilju obuhvatanja svih relavantnih aspekata, oslanja se na veliki broj
disciplina, uključujući veštačku inteligenciju, verovatnoću i statistiku, teoriju informacija,
psihologiju i neurobiologiju, teoriju upravljanja, filozofiju itd.

Definicija
Disciplina koja omogućava računarima da uče bez eksplicitnog programiranja (Arthur Samuel
1959).

 Generalizacija znanja na osnovu prethodnog iskustva (podataka o pojavama/entitetima koji


su predmet učenja)
 Dobijeno znanje koristi se kako bi se dali odgovori na pitanja za entitete/pojave koji nisu
ranije viđeni

Definicija (Tom Mitchell 1998) Za kompjuterski program se kaže da uči iz iskustva E (experience),
vezanog za zadatak T (task), i meru performansi P (performance), ukoliko se njegove performanse
na zadatku T, merene metrikama P, unapređuju sa iskustvom E

Primer

o Program koji označava kreditne zahteve kao dobre i loše


o Zadatak (T): klasifikacija zahteva na dobar/loš
o Iskustvo (E): zahtevi prethodno označeni kao dobri i loši kreditni rizici (stvarni ishodi)
o Performanse (P): procenat korektno klasifikovanih zahteva kao dobar/loš

3
Slika primera

Osobine Mašinskog učenja


o Vrlo je teško precizno (algoritamski) opisati neke vrste zadataka koje ljudi lako rešavaju.
Primeri: prepoznavanje lica (face detection), prepoznavanje govora (speech recognition)
o Za neke vrste zadataka mogu se definisati algoritmi za rešavanje, ali su ti algoritmi vrlo
složeni i/ili zahtevaju velike baze znanja Primer: automatsko prevođenje (MT)
o U mnogim oblastima se kontinuirano prikupljaju podaci sa ciljem da se iz njih “nešto
sazna”; npr:
 u medicini: podaci o pacijentima i terapijama
 u marketingu: o korisnicima/kupcima i tome šta su kupili, za šta su se
interesovali, kako su proizvode ocenili
o Analiza podataka ovog tipa zahteva pristupe koji će omogućiti da se otkriju pravilnosti,
zakonitosti u podacima koje nisu ni poznate, ni očigledne, a mogu biti korisne (Data
mining)

IR
Pretraživanje informacija (Information retrieval – IR) je pronalaženje postojećih informacija što je
brže moguće. Primer: veb pretraživač – pronaći stranicu u okviru (velikog) skupa postojećih
ML
Mašinsko učenje (Machine learning – ML ) je skup tehnika koje generalizuju postojeće znanje nad
novim podacima, što je moguće preciznije. Primer: prepoznavanje govora
DM
Data mining – DM se prvenstveno odnosi na otkrivanje nečega skrivenog unutar podataka, nekih
novih zakonitosti koje nisu ranije bile poznate. – Primer: CRM – analiza kupaca

4
Sve tri oblasti se ukrštaju i dele mnoge tehnike:

DM i IR koriste indeksne strukture kako bi ubrzale proces. DM koristi mnoge ML tehnike:

-Npr. zavisnost prepoznata u skupu podataka, koja predstavlja generalizaciju znanja, može biti i
neko novo znanje

Vrste mašinskog učenja


• Nadgledano učenje (supervised learning) – Klasifikacija, – Regresija

• Nenadgledano učenje (unsupervised learning)

Nadgledano učenje
algoritmu se daju podaci iz kojih uči i zeljeni izlazi. Algoritam treba da nauči da za date podatke
pruži odgovarajuće izlaze.
Program koji uči dobija:

o skup ulaznih podataka (x1, x2, …, xn) i


o skup željenih/tačnih vrednosti, tako da za svaki ulazni podatak xi, imamo
željeni/tačan izlaz yi
Zadatak programa je da “nauči” kako da novom, neobeleženom ulaznom podatku dodeli tačnu
izlaznu vrednost. Izlazna vrednost može biti:
o labela (nominalna vrednost) – reč je o klasifikaciji
o realan broj – reč je o regresiji

Nadgledano učenje primer – linearna regresija


Predikcija cena nekretnina na osnovu njihove površine .Podaci za učenje: površine (x) i cene (y)
nekretnina (slika 1i2)

Slika1

5
• Funkcija koju treba „naučiti“ (za jedan atribut): h(x) = a + bx
• a i b su koeficijenti koje program u procesu „učenja“ treba da proceni

Slika2
Nadgledano učenje Klasifikacija Primer:
 Prepoznavanje oblika (Pattern recognition)
 Prepoznavanje lica: Poza, osvetljenje, okluzija (naočare, brada), šminka, frizura
 Prepoznavanje znakova: štampani, rukom pisani.
 Prepoznavanje govora: Vremenske medjuzavisnosti parametara govora.
 Medicinska dijagnostika: Od simptoma ka bolestima
 Biometrija: Identifikacija/autentifikacija pomoću fizičkih karakteristika ili ponašanja: lice,
iris, potpis, otisak prstiju, način hoda

Nenadgledano učenje
algoritmu pružaju samo podaci bez izlaza. A Algoritam treba sam da uoči neke zakonitosti u
podacima koji su mu dati.

 Nemamo informaciju o željenoj izlaznoj vrednosti


 program dobija samo skup ulaznih podataka (x1, x2, …, xn)
 Zadatak programa je da otkrije skrivene strukture/zakonitosti u podacima

primer – grupisanje “određivanje konfekcijskih veličina na osnovu visine i težine ljudi (slika3)“

Slika3

6
Problem prevelike podešenosti (overfitting)
Situacija kada model savršeno nauči daprepoznaje instance iz trening skupa, ali nije u mogućnosti
da prepozna instance koje se i malo razlikuju od naučenih

– Training skup je nužno nepotpun i ne uključuje buduće podatke koje želimo da klasifikuje.

– Algoritam treba da bude “imun” na pamćenje celog trening skupa (već samo generalnog znanja)
Primer: Ako svi klijenti sa imenom “David” u trening skupu imaju visoka primanja
(slika4)

Slika4

Problem nedovoljne podešenosti (underfitting)


slučaj kad model ne uspeva da aproksimira podatke iz trening skupa, tako da ima slab učinak čak
i na trening skupu (slika5)

Slika5

7
Razlika između prevelike podešenosti i nedovoljne podešenosti

Optimalni nivo kompleksnosti modela je na minimalnoj stopi greške na validacionom skupu( slika 6)

o Naziva se još i odnosom pristrastnosti-varijanse (bias/variance)


o Preterano povećanje kompleksnosti modela dovodi do degradacije njegove generalnosti.

Oblasti primene
o Klasifikacija
o Predikcija
o Grupisanje
o Asocijacija

Klasifikacija
U klasifikaciji postoji ciljana kategorička promenljiva (atribut), čiju vrednost treba odrediti. •
Klasifikacija se odnosi na dodelu pojave/entitete u određenu kategoriju na osnovu vrednosti ostalih
atributa.

Osoba Starost Pol Zanimanje Primanja


001 26 F Inspektor visoka
002 23 M student mala
003 26 F Medicinska ses. srednja

8
Ostali primeri: Kategorizacija teksta prema temi (npr. sport, politika,...), iskazanim osećanjima,
itd.

Predikcija
Sličan postupak klasifikaciji, s tim što ciljani atribut predstavlja numeričku vrednost.

Predvidjanje cene akcije 3 meseca u budućnost (slika7)

Grupisanje
Grupisanje (Clustering) se odnosi na grupisanje pojava/entiteta u grupe (klastere) sličnih objekata.

Klaster je kolekcija pojava/entiteta koji su međusobno slični, a značajno se razlikuju od onih


pojava/entiteta u drugim klasterima.

Grupisanje se razlikuje od klasifikacije: ne postoji ciljni atribut za grupisanje.

Algoritam nastoji da segmentira ceo skup podataka u homogene podgrupe ili klastere:

– gde sličnost podataka u okviru klastera je maksimalna, a sličnost sa podacima izvan


klastera je sveden na minimum.

Grupisanje - primeri

 Grupisanje klijenata na osnovu demografskih podataka.


 Grupisanje reči iz dokumenata koje opisuju teme (topic modeling).(slika8)

9
Slika8 Topic Clouds (Mixed, Wikipedia, IUCN)

Asocijacija
Zadatak asocijacije je da pronađe koje pojave/entiteti „idu zajedno”.
Asocijacija otkriva pravila za kvantifikovanje odnosa između dva ili više atributa.
Dobijena pravila su u obliku “IF uslov THEN konsekvenca”. Sa merom zastupljenosti i
pouzdanosti za pravilo

Asocijacija – pirmer

U supermarketu od 500 kupaca, 200 su kupili hleb, i od tih 200 koji su kupili pelene, 75 je kupilo
jogurt. • Pravilo asocijacije će biti „IF hleb THEN jogurt“ – Uz zastupljenost 200/500 = 40% i
pouzdanost 75/200 = 37% .

10
Proces mašinskog učenja

Podaci
Potrebni su za trening, validaciju i testiranje modela

 Tipična podela na 60% za trening, 20% za validaciju i 20% za testiranje


 Izbor uzoraka treba uraditi na slučajan način (random selection)

Atributi (features)
Model treba da “verno” opisuje pojave/entitete. Zato prepoznajemo osobine i odnose u datom
domenu i predstavljamo ih atributima. Izazov je odabrati prave attribute

Atributi – primeri
Za kreditne zahteve: vrednost imovine podnosioca, primanja, zaposlenje, bračno stanje, itd

Za identifikaciju nepoželjne elektronske pošte (spam): naslov, prisustvo tipičnih reči (buy,
visit,…), dužina email-a, broj primalaca, itd.

11
Testiranje
1. Procena uspešnosti modela
2. Koriste se podaci kojima model nije imao pristup u fazi učenja (20-30% ukupnih podataka)
3. Uspešnost se utvrđuje različitim metrikama: tačnost, preciznost, odziv, …

TRAIN/VALIDATE/TEST
Pored treniranja i testiranja modela, najčešće se radi i validacija modela kako bi se:

a) izabrao najbolji model između više kandidata


b) odredila optimalna konfiguracija parametara modela
c) izbegli problemi over/under-fitting-a

Ukupan skup podataka se deli u odnosu 60/20/20 na podatake za trening, validaciju i testiranje •
Podaci za validaciju koriste se za poređenje performansi

a) različitih modela (a);


b) izabranog modela sa različitim vrednostima parametara (b)

Analiza greške
“ručno” pregledanje primera na kojima je model pogrešio

Pomaže da se stekne osećaj zbog čega model greši i šta bi se moglo uraditi da se greške otklone;
npr:

 identifikovati suvišne attribute


 identifikovati atribute koji nedostaju
 drugačije podesiti parametre modela

12
Reference
 Mašinsko učenje, Jelena Jovanović, Fakultet Organizacionih Nauka,
http://jelenajovanovic.net/
 https://www.coursera.org/course/ml
 https://sr.wikipedia.org/sr/Машинско_учење
 http://startit.rs/sta-je-masinsko-ucenje-i-kako-menja-poslovne-softvere/
 http://it-konekt.com/sr/blog/13-05-2015/uvod-u-masinsko-ucenje-klasifikacija-vesti-uz-
pomoc-radnog-okruzenja-weka-241

13

You might also like