You are on page 1of 2

Univerzitet u Sarajevu

Elektrotehnički fakultet Sarajevo

Predmet: Data mining 2018/2019

Projektni zadatak 2
Klasifikacijske i klastering metode

Task 1 (8 bodova)
a) Potrebno je da specificitrate hipotezu koju želite riješiti tehnikom klasifikacije, a koja je
zasnovana na data setu po Vašem izboru, ili sa nekog od repozitorija (npr. UCI Machine
Learning Repository ili Kaggle Datasets) ili iz realnog sektora. Na osnovu specificirane
hipoteze, odaberite dva adekvatna algoritma za rješavanje iste, od kojih barem jedan niste
radili na predavanjima ili vježbama. Prilagodite Vaš skup podataka odabranim algoritmima
primjenom metoda vizualizacije, deskriptivne statistike i tehnika za čišćenje i transformaciju
podataka. (3 boda)

b) U programskom jeziku R, implementirajte odabrane algoritme na Vaš data set.


Implementirajte dodatnu funkciju pomoću koje ćete izmjeriti tačnost, stepen greške,
osjetljivost, specifičnost i preciznost Vaših algoritama, a koristeći k-fold cross1 validaciju.
Obrazložite dobijene rezultate. Ukoliko postoji razlika u performansama dva algoritma,
objasnite zašto se to dešava. (5 bodova)

Task 2 (7 bodova)
a) Potrebno je da specificitrate hipotezu koju želite riješiti tehnikom klasteringa, a koja je
zasnovana na data setu po Vašem izboru, ili sa nekog od repozitorija (npr. UCI Machine
Learning Repository ili Kaggle Datasets) ili iz realnog sektora. Dokažite da je Vaš odabrani
skup podataka pogodan za primjenu klastering tehnika (procjenom klastering tendencije).
Na osnovu specificirane hipoteze, odaberite dva adekvatna algoritma za rješavanje iste,
od kojih barem jedan niste radili na predavanjima ili vježbama. Prilagodite Vaš skup
podataka odabranim algoritmima, primjenom metoda vizualizacije, deskriptivne statistike
i tehnika za čišćenje i transformaciju podataka. (3 boda)

b) U programskom jeziku R, primijenite odabrane algoritme (tj. već implementirane funkcije


odabranih algoritama) na Vaš data set. Implementirajte dodatnu funkciju kojom ćete
evaluirati Vaše klastering algoritame pomoću mjera za kvalitet klastera, npr. SSE, Silhouette,

1
Za više informacija o k-fold cross validaciji posjetite http://scikit-
learn.org/stable/modules/cross_validation.html
itd. Obrazložite dobijene rezultate. Ukoliko postoji razlika u performansama dva algoritma,
objasnite zašto se to dešava. (4 boda)

Seminarski rad (10 bodova)


Seminarski rad treba da sadrži sljedeće komponente za Task 1 i Task 2 zasebno:

1. Opis problema, odnosno hipoteze koja se rješava.

2. Detaljan opis rada odabranog algoritma, koji niste obrađivali na predavanjima ili vježbama
i prikazati ilustrativno rad istog nad “dummy” skupom podataka. U opisu je potrebno
predstaviti najmanje dva stručna/naučna rada koja koriste odabrani algoritam, te za koje
probleme se najčešće koristi dati algoritam.

3. Opisati postupak koji ste sproveli u sklopu projektnog zadatka, te dobijene rezultate
(analiza podataka - vizualizacija, deskriptivna statistika, čišćenje i transformacija; primjena
algoritama; rezultati evaluacije).

Naučno-istraživački rad (20 bodova)


Umjesto seminarskog rada, za drugi dio projektnog zadatka moguće je pisati naučno-istraživački
rad. Struktura i problematika drugog dijela projekta u ovom slučaju se dogovara sa predmetnim
asistentima. Potrebno je da donesete odluku o pisanju naučno-istraživackog rada do
19.04.2019. i obavijestite predmetnog asistenta (naknadna prijava nije dozvoljena).

Bitni datumi:
Datum objave projekta: 08.04.2019.

Rok za predaju postavljenih hipoteza


Za klasifikacija: 19.04.2019.
Za klastering: 06.05.2019.

Rok za odluku o pisanju naučnog rada: 19.04.2019.

Rok za predaju seminarskog / naučnog rada: 27.05.2019.

Projekat je obavezno raditi kontinuirano u skladu datim vremenskim rasporedom sa kojim trebate
kreirati i plan rada. Projekat se radi grupno (1, 2 ili 3 studenta), predaje se preko Zamger-a, pri
čemu nije moguće odstupati od postavljenih rokova.

You might also like