Professional Documents
Culture Documents
Banja Luka
Sadraj:
1.
Uvod.................................................................................................................. 3
2.
3.
4.
5.
4.1.
MapReduce................................................................................................... 7
4.2.
Hadoop........................................................................................................ 7
4.3.
Big table....................................................................................................... 7
4.4.
Apache Spark................................................................................................. 8
Zakljuak............................................................................................................ 8
1. Uvod
Big data je popularni termin koji se koristi da bi se opisao eksponencijalni rast i dostupnost
struktuiranih i nestruktuiranih podataka. S obzirom da vei broj podataka dovodi do tanijih
analiza, big data ima veliki znaaj i za poslovanje i za drutvo, kao i sam internet.
Preciznije, odnosno tanije analize dovode do pouzdanijih odluka to moe znaiti veu
operativnu efikasnost, smanjenje trokova i smanjenje rizika. Sada ve uestala definicija
spominje 3V dimenzije Big data:
1. Volume (koliina)
Mnogi faktori doprinose poveavanju obima podataka. Podaci bazirani na transakciji
pohranjivani tokom godina. Nestruktuirani podaci proizili iz drutvenih mrea. Poveanje
koliine senzora i machine-to-machine podataka koji se prikupljaju. U prolosti je postojao
problem skladitenja prekomjernog obima podataka. Ali sa smanjenjem trokova skladitenja
pojavljuju se druga pitanja, npr. kako odrediti relevantne u okviru velikog broja podataka i
kako koristiti analitiku za stvaranje vrijednosti od relevantnih podataka.
2. Velocity (brzina)
Podaci protiu nevienom brzinom i moraju se blagovremeno obraditi. RFID tagovi, senzori i
pametno mjerenje (smart metering) dovode do potrebe da se bave disperzijom podataka u
skoro realnom vremenu. Za mnoge organizacije je izazov da reaguju dovoljno brzo na brzinu
podataka.
3. Variety (raznovrsnost)
U dananje vrijeme podaci dolaze u razliitim formatima. Struktuirani, brojani podaci u
tradicionalnim bazama podataka. Informacije kreirane od line-of poslovnih aplikacija.
Nestruktuirani tekstualni dokumenti, e-mail, video, audio, podaci o dionicama i finansijske
transakcije. Upravljanje, spajanje i ureivanje razliitih vrsta podataka je neto sa ime se
mnoge organizacije jo uvijek bore.
i pametnija odluivanja u toku poslovanja. Na primjer, kombinovanjem Big data i highpowered analitika, mogue je:
-Utvrditi uzroke neuspjeha, probleme i nedostatke u najbrem moguem periodu, te tako
potencijalno sauvati milione godinje;
-Optimizovati rute za hiljade dostavljakih vozila dok su jo na putu;
-Proizvesti maloprodajne kupone na mjestu prodaje na osnovu prolih i sadanjih kupovina
kupca;
-Poslati prilagoene preporuke na mobilne ureaje dok su kupci na pravom mjestu da
iskoriste prednosti te ponude;
-Preraunati kompletan rizik portofolija u nekoliko minuta;
-Brzo identifikovati najvanije kupce;
-Koristiti clickstream analizu i data mining za otkrivanje prevara.
3.
Izvori Big data se svake godine poveavaju, ali uglavnom spadaju u jednu od tri grupe:
-Streaming data, to ukljuuje podatke koji dolaze do IT sistema sa mree ili povezanih
ureaja. Organizacija moe da analizira ove podatke im stignu i moe donositi odluke o tome
koje podatke da zadri, koje ne, te ta zahtijeva dalje analize.
-Podaci sa drutvenih mrea, koji predstavljaju sve atraktivniji izvor informacija, naroito
za marketing, prodaju i funkcije podrke. Ovi podaci su esto u
nestruktuiranim ili
MapReduce
Hadoop
Tehnologija koja se najee vezuje za Big data jeste Hadoop. Nastala je 2005. Godine i
dizajnirana je tako da radi na jeftinijim hardverskim resursima, kao to je commodity
hardver. Slui za skladitenje i procesiranje velike koliine podataka i sastoji se iz etiri
dijela:
-Hadoop common-niz biblioteka i konfiguracionih fajlova,
-HDFS-fajl sistem koji je zaduen za skladitenje podataka u klasteru,
-MapReduce-model za procesiranje podataka
-Yarn-zaduen za raspodjelu resursa i upravljanje poslovima
Osim ove etiri komponente Hadoop se oslanja na specijalizovane alate za prikupljanje
podataka (Flume, Kafka, Sqoop), procesiranje podataka (Pig, Hive, Storm), upravljanje
(Ambari, Falcon).
4.3.
Big table
Big table je rjeenje koje je predvieno da upravlja skalabilnim struktuiranim podacima koji
su organizovani u tabele. Predstavlja viedimenzionalnu mapu koja slui za mapiranje dva
7
proizvoljna stringa i vremenski trenutak u vezani niz bitova. Namjenjen je za uvanje velike
koliine podataka na obinim serverima. Big Table je predvien za rad na preko stotinu
hiljada maina. Omoguava jednostavno dodavanje novih maina u sistem i njihovo
momentalno ukljuenje u rad na nain koji ne zahteva nikakvo ponovno konfigurisanje ili
prekid u radu sistema. ( ovu reenicu sam kopirala, dakle nisam je mjenjala, pa ti vidi da
nekako izmjeni)
4.4.
Apache Spark
5. Zakljuak
Razvojem globalne internetske mree sve je lake dijeliti i sakupljati ogromne koliine
podataka. Sa sve monijim i brim alatima analitiari pokuavaju da idu u korak sa
svakodnevnim poveanjem koliine sirovih podataka i da ih efikasno obrade i primjene. Big
data dobija svoj puni poitencijal tek kada se pravilno obradi i iskoristi.