Professional Documents
Culture Documents
(DM) - 2017-2018-Vjezbe-03 - (R, ETL,)
(DM) - 2017-2018-Vjezbe-03 - (R, ETL,)
LABORATORIJSKA VJEŽBA 3
ETL i obrada podataka u R-u
Cilj vježbi:
▪ Upoznavanje sa vektorima i data frame tipom podataka u R
▪ Upoznavanje sa ETL konceptom
▪ Import podataka u R iz više izvora
▪ Transformacija podataka u oblik pogodniji za obradu
▪ Osnovna obrada podataka u R-u
▪ Pohrana obrađenih podataka
Napomena: Prije izrade vježbe je obavezno pročitati predavanja vezana za tematiku vježbe i
upoznati se sa osnovnim konceptima ETL-a i R jezika radi poticanja diskusije na vježbama.
Cilj ovih vježbi jeste da se studentima koncepti izlagani na predavanju povežu sa konkretnim
primjerima zadataka i primjerima iz prakse.
Zadatak 1
U prilogu za prvi zadatak data su dva dataseta koji sadrže podatke o 56 svjetskih avio-
kompanija i njihovim nesrećama u periodima ’85-’99 i ’00-’14 respektivno. Prvi dataset je u
.csv, a drugi u .rds datoteci. Potrebno je izvršiti import oba dataseta u R. Nakon importa,
potrebno je:
▪ Uvezati dva učitana dataseta u jedan data frame
▪ Upoznati podatke i odrediti značenje svake kolone
▪ Dodati novu kolonu u kojoj će za svaku kompaniju biti zbir žrtava iz oba perioda
▪ Sortirati data frame po novokreiranoj koloni i utvrditi najsigurniju i najmanje sigurnu
aviokompaniju
▪ Iscrtati dijagram koji povezuje ASK kolonu i svaku od ostalih kolona. Šta se može
zaključiti? Postoji li neki trend?
▪ Eksportovati podatke u .csv datoteku.
Zadatak 2
U prilogu za drugi zadatak data su četri dataseta. Potrebno je izvršiti import svih datasetova u
R. Nakon importa, potrebno je:
▪ Odrediti kakve podatke sadrži svaki od njih i njihovo značenje
▪ U kontekstu skladišta podataka, odrediti šta svaki od datasetova predstavlja, te nacrtati
odgovarajuću star šemu
▪ Na osnovu nacrtane star šeme kreirati OLAP kocku iz učitanih podataka koristeći
komandu:
revenue_cube <- tapply(sales_fact$amount, sales_fact[,c("prod", "month", "year", "lo
c")], FUN=function(x){return(sum(x))})
▪ Interpretirati značenje prethodne komande
▪ Prikazati dimenzije i ćelije novokreirane OLAP kocke i odrediti pitanja na koja se može
odgovoriti
Zadatak 3
Potrebno je u MySQL bazu podataka importovati .sql datoteku korištenu u prve dvije vježbe.
Koristeći R, potrebno je kreirati konekciju na bazu (paketi DBI i RMySQL), te učitati svaku
tabelu u svoj data frame. Za ovako učitane podatke potrebno je:
▪ Pregledati svaki data frame i utvrditi informacije koje bi mogle biti korisne nekom
menadžmentu
▪ Identificirati podatke koji ulaze u tabelu činjenica, te kreirati tu tabelu
▪ Identificirati dimenzije, te kreirati tabele dimenzija. Uzeti u obzir da primarni ključ
svake dimenzije mora biti strani ključ u tabeli činjenica
▪ Iz ovih tabela, te koristeći komandu iz prethodnog zadatka, kreirati OLAP kocku
▪ Prikazati dimenzije i ćelije kreirane OLAP kocke
Šema baze podataka je prikazana na slici 1.