Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

Panevropski univerzitet Apeiron
Banja Luka
Fakultet informacionih tehnologija

Odsjek: Poslovna informatika
Seminarski rad: Big Data

Predmet: Poslovna Inteligencija
Sran Ilji, 30-12/RPI
Prof. dr Gordana Radi
Sadraj:
1.
Uvod.................................................................................................................. 3
2.
Zato je vana upotreba Big data?.............................................................................. 4
3.
Izvori Big data...................................................................................................... 5
4.
Big data tehnologije............................................................................................... 6
5.
4.1.
MapReduce................................................................................................... 7
4.2.
Hadoop........................................................................................................ 7
4.3.
Big table....................................................................................................... 7
4.4.
Apache Spark................................................................................................. 8
Zakljuak............................................................................................................ 8
1. Uvod
Big data je popularni termin koji se koristi da bi se opisao eksponencijalni rast i dostupnost
struktuiranih i nestruktuiranih podataka. S obzirom da vei broj podataka dovodi do tanijih
analiza, big data ima veliki znaaj i za poslovanje i za drutvo, kao i sam internet.
Preciznije, odnosno tanije analize dovode do pouzdanijih odluka to moe znaiti veu
operativnu efikasnost, smanjenje trokova i smanjenje rizika. Sada ve uestala definicija
spominje 3V dimenzije Big data:
Ilustracija 1: 3V Big Data
1. Volume (koliina)
Mnogi faktori doprinose poveavanju obima podataka. Podaci bazirani na transakciji
pohranjivani tokom godina. Nestruktuirani podaci proizili iz drutvenih mrea. Poveanje
koliine senzora i machine-to-machine podataka koji se prikupljaju. U prolosti je postojao
problem skladitenja prekomjernog obima podataka. Ali sa smanjenjem trokova skladitenja
pojavljuju se druga pitanja, npr. kako odrediti relevantne u okviru velikog broja podataka i
kako koristiti analitiku za stvaranje vrijednosti od relevantnih podataka.
2. Velocity (brzina)
Podaci protiu nevienom brzinom i moraju se blagovremeno obraditi. RFID tagovi, senzori i
pametno mjerenje (smart metering) dovode do potrebe da se bave disperzijom podataka u
skoro realnom vremenu. Za mnoge organizacije je izazov da reaguju dovoljno brzo na brzinu
podataka.
3. Variety (raznovrsnost)
U dananje vrijeme podaci dolaze u razliitim formatima. Struktuirani, brojani podaci u
tradicionalnim bazama podataka. Informacije kreirane od line-of poslovnih aplikacija.
Nestruktuirani tekstualni dokumenti, e-mail, video, audio, podaci o dionicama i finansijske
transakcije. Upravljanje, spajanje i ureivanje razliitih vrsta podataka je neto sa ime se
mnoge organizacije jo uvijek bore.
Meutim, neki uzimaju u obzir jo dvije vrste dimenzija:

4. Variability (promjenljivost)
S obzirom na poveanje brzine i raznovrsnosti podataka, njihovi tokovi mogu biti u
nedoslijednosti sa periodinim rastom . Dnevni, sezonski i event-triggered nagli porast
protoka podataka mo biti izazovni za upravljanje. ak i vie ukoliko su nestrukutirani podaci
ukljueni.
5. Complexity (sloenost)
U dananje vrijeme podaci dolaze iz raznovrsnih izvora. Jo uvijek je veliki poduhvat
povezati, oistiti i transformisati podatke kroz sistem. Meutim, neophodno je da se podaci
poveu, da se hijerarhijski poredaju ili se mogu nai van kontrole.
2. Zato je vana upotreba Big data?

Osnovno pitanje nije dobijanje velike koliine podataka, ve upotreba podataka koji su
uraunati. Obeavajua vizija je da e organizacije moi uzimati podatke iz bilo kojeg izvora,
prikupiti relevantne podatke i analizirati ih da bi se pronali odgovori koji omoguavaju
smanjenje trokova, smanjivanje vremena, razvoj novih proizvoda i optimiziranje ponuda, kao
4
i pametnija odluivanja u toku poslovanja. Na primjer, kombinovanjem Big data i highpowered analitika, mogue je:
-Utvrditi uzroke neuspjeha, probleme i nedostatke u najbrem moguem periodu, te tako
potencijalno sauvati milione godinje;
-Optimizovati rute za hiljade dostavljakih vozila dok su jo na putu;
-Proizvesti maloprodajne kupone na mjestu prodaje na osnovu prolih i sadanjih kupovina
kupca;
-Poslati prilagoene preporuke na mobilne ureaje dok su kupci na pravom mjestu da
iskoriste prednosti te ponude;
-Preraunati kompletan rizik portofolija u nekoliko minuta;
-Brzo identifikovati najvanije kupce;
-Koristiti clickstream analizu i data mining za otkrivanje prevara.
Ilustracija 2: Proces analize Big Data
3.
Izvori Big data
Izvori Big data se svake godine poveavaju, ali uglavnom spadaju u jednu od tri grupe:
-Streaming data, to ukljuuje podatke koji dolaze do IT sistema sa mree ili povezanih
ureaja. Organizacija moe da analizira ove podatke im stignu i moe donositi odluke o tome
koje podatke da zadri, koje ne, te ta zahtijeva dalje analize.
-Podaci sa drutvenih mrea, koji predstavljaju sve atraktivniji izvor informacija, naroito
za marketing, prodaju i funkcije podrke. Ovi podaci su esto u
nestruktuiranim ili
polustruktuiranim oblicima, tako da i pored tolikog obima podataka analiza i koritenje

informacija predstavlja jedinstven izazov.
-Javno dostupni izvori, kao to su CIA World Factbook, ili Portal otvorenih podataka
Evropske Unije (European Union Open Data Portal) predstavljaju izvor ogromne koliine
podataka.
Ilustracija 3: Koliina podataka koja cirkulie na internetu
4. Big data tehnologije

Organizacijama je omogueno da koriste veliku koliinu podataka zahvaljujui velikom broju
tehnolokih dostignua. Big data tehnologije, pored toga to prikupljaju veliku koliinu
podataka, omoguavaju izvlaenje vrijednosti tih podataka kao i njihovo bolje razumijevanje.
Bilo je neophodno pronai tehnologije koje e imati sposobnost da efiksno obrade velike
6
koliine podataka, a da to ne zahtijeva velike trokove. Prvi koji su doli do rjeenja i

napravili proboj u tehnologiji Big data su Yahoo!, Google i Facebook i donijeli su promjene
na tritu upravljanja podacima. Pojavila se nova generacija u upravljanju podacima kojoj su
doprinijele MapReduce, Hadoop, Big Table i Apache Spark tehnologije.
4.1.
MapReduce
MapReduce predstavlja efikasno rjeenje za veliku koliinu podataka pomou distribuiranih,

paralelnih algoritama u klasteru. Map rukovodi programerskim zadacima tako to ih
balansirano rasporeuje i oporavlja od eventualnih greaka, dok reduce predstavlja funkciju
koja spaja sve elemente nazad zajedno. Ove dvije funkcije se esto koriste u funkcionalnom
programiranju, meutim njihova uloga u MapReduce sistemu nije ista kao inae. Map vri
sortiranje i filtriranje podataka, a reduce vri agregaciju. Ime MapReduce je prvobitno
bilo u vlasnitvu Google tehnologije, ali se od tada generalizovalo.
4.2.
Hadoop
Tehnologija koja se najee vezuje za Big data jeste Hadoop. Nastala je 2005. Godine i
dizajnirana je tako da radi na jeftinijim hardverskim resursima, kao to je commodity
hardver. Slui za skladitenje i procesiranje velike koliine podataka i sastoji se iz etiri
dijela:
-Hadoop common-niz biblioteka i konfiguracionih fajlova,
-HDFS-fajl sistem koji je zaduen za skladitenje podataka u klasteru,
-MapReduce-model za procesiranje podataka
-Yarn-zaduen za raspodjelu resursa i upravljanje poslovima
Osim ove etiri komponente Hadoop se oslanja na specijalizovane alate za prikupljanje
podataka (Flume, Kafka, Sqoop), procesiranje podataka (Pig, Hive, Storm), upravljanje
(Ambari, Falcon).
4.3.
Big table
Big table je rjeenje koje je predvieno da upravlja skalabilnim struktuiranim podacima koji
su organizovani u tabele. Predstavlja viedimenzionalnu mapu koja slui za mapiranje dva
7
proizvoljna stringa i vremenski trenutak u vezani niz bitova. Namjenjen je za uvanje velike
koliine podataka na obinim serverima. Big Table je predvien za rad na preko stotinu
hiljada maina. Omoguava jednostavno dodavanje novih maina u sistem i njihovo
momentalno ukljuenje u rad na nain koji ne zahteva nikakvo ponovno konfigurisanje ili
prekid u radu sistema. ( ovu reenicu sam kopirala, dakle nisam je mjenjala, pa ti vidi da
nekako izmjeni)
4.4.
Apache Spark
Apache Spark je platforma za obradu podataka, sa dodatnim modulima za mainsko uenje,

streaming i grafiku obradu. Obradu vri u radnoj memoriji, to znai da je jako brz. Ukoliko
podatci ne mogu da stanu u memoriju, Apache Spark ih premjeta na disk, to dovodi do bre
obrade nego da je samo na disku.
Koncept
Apache Spark-a je RDD (Resilient Distributed Datasets) - kolekcija objekata
rasprostranjenih kroz klaster RAM-u ili na disku, za koje je karakteristian paralelizam i

automatski oporavak. Python, Scala, Java i od skoro R su jezici u kojima mogu da se piu
Spark programi.
5. Zakljuak
Razvojem globalne internetske mree sve je lake dijeliti i sakupljati ogromne koliine
podataka. Sa sve monijim i brim alatima analitiari pokuavaju da idu u korak sa
svakodnevnim poveanjem koliine sirovih podataka i da ih efikasno obrade i primjene. Big
data dobija svoj puni poitencijal tek kada se pravilno obradi i iskoristi.

Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

Uploaded by

Copyright:

Available Formats

Panevropski univerzitet Apeiron

Fakultet informacionih tehnologija

Seminarski rad: Big Data

Sran Ilji, 30-12/RPI

Prof. dr Gordana Radi

Zato je vana upotreba Big data?.............................................................................. 4

Izvori Big data...................................................................................................... 5

Big data tehnologije............................................................................................... 6

Ilustracija 1: 3V Big Data

Meutim, neki uzimaju u obzir jo dvije vrste dimenzija:

2. Zato je vana upotreba Big data?

Ilustracija 2: Proces analize Big Data

Izvori Big data

polustruktuiranim oblicima, tako da i pored tolikog obima podataka analiza i koritenje

Ilustracija 3: Koliina podataka koja cirkulie na internetu

4. Big data tehnologije

koliine podataka, a da to ne zahtijeva velike trokove. Prvi koji su doli do rjeenja i

MapReduce predstavlja efikasno rjeenje za veliku koliinu podataka pomou distribuiranih,

Apache Spark je platforma za obradu podataka, sa dodatnim modulima za mainsko uenje,

Apache Spark-a je RDD (Resilient Distributed Datasets) - kolekcija objekata

rasprostranjenih kroz klaster RAM-u ili na disku, za koje je karakteristian paralelizam i

You might also like