You are on page 1of 2

Data Mining – Zadaća 1

Zadaća se radi pojedinačno, predaje se preko zamgera.


Datum objave: 06.04.2018 Datum predaje: 25.04.2018. god. (preporučuje se da se zadaća
uradi do 1. parcijalnog ispita jer je ujedno i priprema za ispit).
Zadaća nosi ukupno 10 bodova.
Pitanja vezana za zadaću je dozvoljeno postavljati do 13.04.2018. Sva pitanja i odgovori će biti
objavljeni nakog tog datuma na courseware stranici predmeta.

Zadaća 1
Kompanija “DM Computers” se bavi uslugama prodaje računara i računarske
opreme. Korisnici iz bilo kojeg dijela države mogu da, preko web portala,
pregledaju i naručuju dostupne artikle. Kompanija nudi usluge dostave naručenih
artikala na kućnu adresu. Za svaku obavljenu kupovinu se kreiraju fakture koje se
čuvaju u .pdf datotekama kao i u sistemu, sa evidentiranim podacima o
transakcijama i ID kupaca. Iz faktura se takođe mogu očitati podaci da li su artikli
plaćeni, djelimično plaćeni, ili nisu plaćeni. Za kupce postoji posebna tabela koja
sadrži njihove demografske podatke (ime, prezime, mjesto stanovanja). Jedan od
glavnih razloga zašto su menadžeri tražili skladište podataka je i činjenica da im je
od velikog interesa mogućnost analize po raznim kriterijima (artikli, kupci,
lokacije...) radi poboljšanja poslovanja.

Podaci o svim aspektima poslovanja su se nalazili na serveru kompanije. Usljed


nepredviđenih okolnosti server je trajno izgubljen ali srećom su se uspjeli
djelimično spasiti podaci o fakturama i korisnicima u vidu Excel datoteka. Podaci
o valutama općinama i mjestima prebivališta su izgubljeni, ali ih je za potrebe
analize moguće generisati. Menadžerima je bitno da se ovi podaci uključe u
analizu.

Uz zadaću se nalazi prilog sa Excel datotekama KIF.xls i komitenti.xls.

TASK 1

Izvršiti analizu korisničkih zahtjeva koje se odnose na skladište podataka i napisati


dokument za inicijalizaciju skladišta podataka, dokument specifikacije korisničkih
zahtjeva, sa specificiranim poslovnim temama, potrebnim analizama, izvještajima,
ad-hoc upitima i korisnicima.

Analizirati postojeće softverske alate Microsoft, Oracle, Pentaho ili neki drugi po
izboru za implementaciju skladišta podataka i OLAP analiza. Implementacija
taska 2-5 se može uraditi primjenom R-a ili u okviru nekog od analiziranih alata za
BI. Studenti koji izvrše implementaciju i primjenom R-a i u okviru alata za BI
dobijaju 2 nagradna boda. 3 bod

TASK 2

Potrebno je generisati podatke za valute, mjesta i općine stanovanja kupaca.


Nacrtati ERD dijagram postojećeg transakcijskog sistema, koji uključuje i
generisane podatke. 1 bod

TASK3

Definirati multidimenzijski model podataka za skladište podataka tako da se ispuni


cilj i namjena implementacije skladišta podataka u naznačenoj kompaniji. Detaljno
obrazložiti model (tabele činjenica, dimenzija, veze, odabranu šemu). Među
dimenzijama treba obavezno biti jedna vremenska i prostorna dimenzija. Potrebno
je ukupno imati minimalno 3 dimenzije. 2 boda

TASK 4

Potrebno je na osnovu izvora podataka i modela uspostaviti zadatke i procedure


ETL procesa i objasniti ih. Potrebno je detaljno opisati korake izvršenih zadataka
ETL procesa. Također, ručno popunjavanje pri čišćenju nije dozvoljeno, tj.
potrebno je implementirati metode čišćenja i transformacije kroz R jezik. 2 boda

TASK 5

Implementirati skladište podataka na osnovu šeme taska 3. Definisati i


implementirati smislene OLAP operacije koje bi bile korisne osnovu postavljenih
zahtjeva. Potrebno je koristiti najmanje 3 OLAP operacije, te u R jeziku napisati
upite za njih. 2 boda

You might also like