You are on page 1of 2

PREDMET: Data Mining

AK. GOD. : 2017/2018


RESURS: Laboratorijska vježba 3
DATUM OBJAVE: 23.03.2018

LABORATORIJSKA VJEŽBA 3
ETL i obrada podataka u R-u

Cilj vježbi:
▪ Upoznavanje sa vektorima i data frame tipom podataka u R
▪ Upoznavanje sa ETL konceptom
▪ Import podataka u R iz više izvora
▪ Transformacija podataka u oblik pogodniji za obradu
▪ Osnovna obrada podataka u R-u
▪ Pohrana obrađenih podataka
Napomena: Prije izrade vježbe je obavezno pročitati predavanja vezana za tematiku vježbe i
upoznati se sa osnovnim konceptima ETL-a i R jezika radi poticanja diskusije na vježbama.
Cilj ovih vježbi jeste da se studentima koncepti izlagani na predavanju povežu sa konkretnim
primjerima zadataka i primjerima iz prakse.

Zadatak 1
U prilogu za prvi zadatak data su dva dataseta koji sadrže podatke o 56 svjetskih avio-
kompanija i njihovim nesrećama u periodima ’85-’99 i ’00-’14 respektivno. Prvi dataset je u
.csv, a drugi u .rds datoteci. Potrebno je izvršiti import oba dataseta u R. Nakon importa,
potrebno je:
▪ Uvezati dva učitana dataseta u jedan data frame
▪ Upoznati podatke i odrediti značenje svake kolone
▪ Dodati novu kolonu u kojoj će za svaku kompaniju biti zbir žrtava iz oba perioda
▪ Sortirati data frame po novokreiranoj koloni i utvrditi najsigurniju i najmanje sigurnu
aviokompaniju
▪ Iscrtati dijagram koji povezuje ASK kolonu i svaku od ostalih kolona. Šta se može
zaključiti? Postoji li neki trend?
▪ Eksportovati podatke u .csv datoteku.

Zadatak 2
U prilogu za drugi zadatak data su četri dataseta. Potrebno je izvršiti import svih datasetova u
R. Nakon importa, potrebno je:
▪ Odrediti kakve podatke sadrži svaki od njih i njihovo značenje
▪ U kontekstu skladišta podataka, odrediti šta svaki od datasetova predstavlja, te nacrtati
odgovarajuću star šemu
▪ Na osnovu nacrtane star šeme kreirati OLAP kocku iz učitanih podataka koristeći
komandu:
revenue_cube <- tapply(sales_fact$amount, sales_fact[,c("prod", "month", "year", "lo
c")], FUN=function(x){return(sum(x))})
▪ Interpretirati značenje prethodne komande
▪ Prikazati dimenzije i ćelije novokreirane OLAP kocke i odrediti pitanja na koja se može
odgovoriti

Zadatak 3
Potrebno je u MySQL bazu podataka importovati .sql datoteku korištenu u prve dvije vježbe.
Koristeći R, potrebno je kreirati konekciju na bazu (paketi DBI i RMySQL), te učitati svaku
tabelu u svoj data frame. Za ovako učitane podatke potrebno je:
▪ Pregledati svaki data frame i utvrditi informacije koje bi mogle biti korisne nekom
menadžmentu
▪ Identificirati podatke koji ulaze u tabelu činjenica, te kreirati tu tabelu
▪ Identificirati dimenzije, te kreirati tabele dimenzija. Uzeti u obzir da primarni ključ
svake dimenzije mora biti strani ključ u tabeli činjenica
▪ Iz ovih tabela, te koristeći komandu iz prethodnog zadatka, kreirati OLAP kocku
▪ Prikazati dimenzije i ćelije kreirane OLAP kocke
Šema baze podataka je prikazana na slici 1.

Slika 1 – ER šema baze podataka sistema iz koje se kreira OLAP kocka

You might also like