Professional Documents
Culture Documents
Tema seminarskog :
Mašinsko učenje
Predmet:
Veštačka inteligencija
Profesor:
Student:
1
SADRŽAJ
Uvod................................................................................................................................................ 3
Definicija......................................................................................................................................... 3
Osobine Mašinskog učenja ............................................................................................................. 4
IR................................................................................................................................................. 4
ML............................................................................................................................................... 4
DM .............................................................................................................................................. 4
Vrste mašinskog učenja .................................................................................................................. 5
Nadgledano učenje ...................................................................................................................... 5
Nenadgledano učenje .................................................................................................................. 6
Problem prevelike podešenosti (overfitting) ................................................................................... 7
Problem nedovoljne podešenosti (underfitting) .............................................................................. 7
Razlika između prevelike podešenosti i nedovoljne podešenosti ................................................... 8
Klasifikacija .................................................................................................................................... 8
Predikcija ........................................................................................................................................ 9
Grupisanje ....................................................................................................................................... 9
Asocijacija..................................................................................................................................... 10
Proces mašinskog učenja .............................................................................................................. 11
Podaci ............................................................................................................................................ 11
Atributi (features).......................................................................................................................... 11
Atributi – primeri ...................................................................................................................... 11
Testiranje....................................................................................................................................... 12
TRAIN/VALIDATE/TEST ...................................................................................................... 12
Analiza greške ........................................................................................................................... 12
Reference ...................................................................................................................................... 13
2
Uvod
Predhodnih godina mašinsko učenje je dalo prilično dobre rezultate u olakšavanju određenih
poslova, predviđanju događaja i donelo velike uštede u različitim oblastima. Računare je danas
moguće naučiti da rade prilično veliki broj poslova gotovo podjednako efikasno kao i čovek. Iako
smo i dalje prilično daleko od jake mašinske inteligencije, koja bi bila uporediva sa čovekovom,
mnogi poslovi se mogu delegirati mašinama, bez bojazni da će ih ona uraditi gore od čoveka.
Mašinsko učenje je oblast koja proučava procese na kojima se zasniva učenje kod ljudi i kod
veštačkih sistema. U cilju obuhvatanja svih relavantnih aspekata, oslanja se na veliki broj
disciplina, uključujući veštačku inteligenciju, verovatnoću i statistiku, teoriju informacija,
psihologiju i neurobiologiju, teoriju upravljanja, filozofiju itd.
Definicija
Disciplina koja omogućava računarima da uče bez eksplicitnog programiranja (Arthur Samuel
1959).
Definicija (Tom Mitchell 1998) Za kompjuterski program se kaže da uči iz iskustva E (experience),
vezanog za zadatak T (task), i meru performansi P (performance), ukoliko se njegove performanse
na zadatku T, merene metrikama P, unapređuju sa iskustvom E
Primer
3
Slika primera
IR
Pretraživanje informacija (Information retrieval – IR) je pronalaženje postojećih informacija što je
brže moguće. Primer: veb pretraživač – pronaći stranicu u okviru (velikog) skupa postojećih
ML
Mašinsko učenje (Machine learning – ML ) je skup tehnika koje generalizuju postojeće znanje nad
novim podacima, što je moguće preciznije. Primer: prepoznavanje govora
DM
Data mining – DM se prvenstveno odnosi na otkrivanje nečega skrivenog unutar podataka, nekih
novih zakonitosti koje nisu ranije bile poznate. – Primer: CRM – analiza kupaca
4
Sve tri oblasti se ukrštaju i dele mnoge tehnike:
-Npr. zavisnost prepoznata u skupu podataka, koja predstavlja generalizaciju znanja, može biti i
neko novo znanje
Nadgledano učenje
algoritmu se daju podaci iz kojih uči i zeljeni izlazi. Algoritam treba da nauči da za date podatke
pruži odgovarajuće izlaze.
Program koji uči dobija:
Slika1
5
• Funkcija koju treba „naučiti“ (za jedan atribut): h(x) = a + bx
• a i b su koeficijenti koje program u procesu „učenja“ treba da proceni
Slika2
Nadgledano učenje Klasifikacija Primer:
Prepoznavanje oblika (Pattern recognition)
Prepoznavanje lica: Poza, osvetljenje, okluzija (naočare, brada), šminka, frizura
Prepoznavanje znakova: štampani, rukom pisani.
Prepoznavanje govora: Vremenske medjuzavisnosti parametara govora.
Medicinska dijagnostika: Od simptoma ka bolestima
Biometrija: Identifikacija/autentifikacija pomoću fizičkih karakteristika ili ponašanja: lice,
iris, potpis, otisak prstiju, način hoda
Nenadgledano učenje
algoritmu pružaju samo podaci bez izlaza. A Algoritam treba sam da uoči neke zakonitosti u
podacima koji su mu dati.
primer – grupisanje “određivanje konfekcijskih veličina na osnovu visine i težine ljudi (slika3)“
Slika3
6
Problem prevelike podešenosti (overfitting)
Situacija kada model savršeno nauči daprepoznaje instance iz trening skupa, ali nije u mogućnosti
da prepozna instance koje se i malo razlikuju od naučenih
– Training skup je nužno nepotpun i ne uključuje buduće podatke koje želimo da klasifikuje.
– Algoritam treba da bude “imun” na pamćenje celog trening skupa (već samo generalnog znanja)
Primer: Ako svi klijenti sa imenom “David” u trening skupu imaju visoka primanja
(slika4)
Slika4
Slika5
7
Razlika između prevelike podešenosti i nedovoljne podešenosti
Optimalni nivo kompleksnosti modela je na minimalnoj stopi greške na validacionom skupu( slika 6)
Oblasti primene
o Klasifikacija
o Predikcija
o Grupisanje
o Asocijacija
Klasifikacija
U klasifikaciji postoji ciljana kategorička promenljiva (atribut), čiju vrednost treba odrediti. •
Klasifikacija se odnosi na dodelu pojave/entitete u određenu kategoriju na osnovu vrednosti ostalih
atributa.
8
Ostali primeri: Kategorizacija teksta prema temi (npr. sport, politika,...), iskazanim osećanjima,
itd.
Predikcija
Sličan postupak klasifikaciji, s tim što ciljani atribut predstavlja numeričku vrednost.
Grupisanje
Grupisanje (Clustering) se odnosi na grupisanje pojava/entiteta u grupe (klastere) sličnih objekata.
Algoritam nastoji da segmentira ceo skup podataka u homogene podgrupe ili klastere:
Grupisanje - primeri
9
Slika8 Topic Clouds (Mixed, Wikipedia, IUCN)
Asocijacija
Zadatak asocijacije je da pronađe koje pojave/entiteti „idu zajedno”.
Asocijacija otkriva pravila za kvantifikovanje odnosa između dva ili više atributa.
Dobijena pravila su u obliku “IF uslov THEN konsekvenca”. Sa merom zastupljenosti i
pouzdanosti za pravilo
Asocijacija – pirmer
U supermarketu od 500 kupaca, 200 su kupili hleb, i od tih 200 koji su kupili pelene, 75 je kupilo
jogurt. • Pravilo asocijacije će biti „IF hleb THEN jogurt“ – Uz zastupljenost 200/500 = 40% i
pouzdanost 75/200 = 37% .
10
Proces mašinskog učenja
Podaci
Potrebni su za trening, validaciju i testiranje modela
Atributi (features)
Model treba da “verno” opisuje pojave/entitete. Zato prepoznajemo osobine i odnose u datom
domenu i predstavljamo ih atributima. Izazov je odabrati prave attribute
Atributi – primeri
Za kreditne zahteve: vrednost imovine podnosioca, primanja, zaposlenje, bračno stanje, itd
Za identifikaciju nepoželjne elektronske pošte (spam): naslov, prisustvo tipičnih reči (buy,
visit,…), dužina email-a, broj primalaca, itd.
11
Testiranje
1. Procena uspešnosti modela
2. Koriste se podaci kojima model nije imao pristup u fazi učenja (20-30% ukupnih podataka)
3. Uspešnost se utvrđuje različitim metrikama: tačnost, preciznost, odziv, …
TRAIN/VALIDATE/TEST
Pored treniranja i testiranja modela, najčešće se radi i validacija modela kako bi se:
Ukupan skup podataka se deli u odnosu 60/20/20 na podatake za trening, validaciju i testiranje •
Podaci za validaciju koriste se za poređenje performansi
Analiza greške
“ručno” pregledanje primera na kojima je model pogrešio
Pomaže da se stekne osećaj zbog čega model greši i šta bi se moglo uraditi da se greške otklone;
npr:
12
Reference
Mašinsko učenje, Jelena Jovanović, Fakultet Organizacionih Nauka,
http://jelenajovanovic.net/
https://www.coursera.org/course/ml
https://sr.wikipedia.org/sr/Машинско_учење
http://startit.rs/sta-je-masinsko-ucenje-i-kako-menja-poslovne-softvere/
http://it-konekt.com/sr/blog/13-05-2015/uvod-u-masinsko-ucenje-klasifikacija-vesti-uz-
pomoc-radnog-okruzenja-weka-241
13