You are on page 1of 10

Univerzitet u Beogradu

Matematiki fakultet

SEMINARSKI RAD
Metodologija strunog i naunog rada

Tema:

Big Data

Profesor:
dr Vladimir Filipovid

Studenti:
Nikola Stankovid, 1033/2012
Dragan urevid, 1059/2012
Marko Makarid, 1090/2012
Sran Terzid, 1054/2012

SADRAJ
1 UVOD.......................................................................................................................................................... 3
2 TA JE BIG DATA ......................................................................................................................................... 3
3 GDE SE KORISTI .......................................................................................................................................... 5
4 IZVORI PODATAKA...................................................................................................................................... 6
4.1 Izvori struktuiranih podataka .............................................................................................................. 6
4.2 Izvori nestruktuiranih podataka .......................................................................................................... 7
5 Tehnologija................................................................................................................................................. 7
5.1 MapReduce ......................................................................................................................................... 8
5.2 Big Table .............................................................................................................................................. 9
5.3 Hadoop ................................................................................................................................................ 9
6 ZAKLJUAK ................................................................................................................................................. 9
7 REFERENCE ............................................................................................................................................... 10

1 UVOD
Upravljanje i analiza podataka oduvek je predstavljala najvedi izazov za sve organizacije u svim
poljima industrije. Preduzeda su se dugo borila da pronau pragmatian pristup za sakupljanje
informacija o svojim klijentima, proizvodima i uslugama. Kada su kompanije imale samo aicu kupaca
koji su kupovali isti proizvod na isti nain stvari su bile prilino jasne i jednostavne. Vremenom,
preduzeda i trita su porasla pa je stvar postala mnogo komplikovanija. Da bi preivele ili stekle neku
prednost nad klijentima u odnosu na konkurenciju, ove kompanije su dodavale nove linije proizvoda i
menjale nain pruanja usluga.
Problemi oko podataka nisu ogranieni samo na polju preduzeda. Na primer, organizacije koje se
bave razvojem i istraivanjem imale su problema da dobiju dovoljno raunarske modi da bi pokrenule
sofisticirane modele ili obradile slike i druge izvore naunih podataka. Zaista, suoavamo se sa mnogo
problema kada je re o podacima. Neki podaci su struktuirani i sauvani u relacionim bazama podataka
dok su neki drugi podaci, ukljuujudi dokumenta, slike i video zapise, nestruktuirani. Kompanije takoe
moraju da razmotre nove izvore podataka koje generiu maine kao to su senzori. Drugi izvori
informacija su oni koji generiu ljudi kao to su podaci iz drutvenih medija i click-stream podaci dobijeni
sa raznih sajtova. Pored toga, dostupnost i prihvatanje novih, modnijih mobilnih ureaja, uz stalan
pristup globalnoj mrei dovede do novih izvora podataka.
Iako se svaki izvor podataka moe nezavisno upravljati i pretraivati, trenutno je za kompanije
najvedi izazov da nau smislen presek svih tih podataka razliitih tipova. Kada imate toliko informacija u
toliko razliitih oblika, nemogude je razmiljati o upravljanju podacima na tradicionalan nain. Iako smo
oduvek imali mnogo podataka, razlika je u tome to danas vedina toga postoji, a varira samo u vrsti i
nainu obrade. Organizacije, vie nego ikada ranije, pronalaze nain da iskoriste ove informacije. Dakle,
o upravljanju podacima mora se misliti drugaije i to je izazov, a ujedno i ansa, za big data-u.
Big data se moe definisati kao bilo koja vrsta izvora podataka koja ima najmanje sledede tri zajednike
karakteristike:
1. Izuzetno velika koliina podataka
2. Izuzetno velika brzina podataka
3. Izuzetno iroka raznovrsnost podataka
Big data je vana zato sto omogudava organizacijama da sakuplja, skladiti, upravlja i obrauje
velike koliine podataka velikom brzinom. Big data nije samostalna tehnologija, nego je to kombinacija
poslednjih 50 godina evolucije tehnologije.

2 TA JE BIG DATA
Big data ne predstavlja jedinstvenu tehnologiju, ved kombinaciju novih i starih tehnologija koje
pomau kompanijama da steknu delotvoran uvid u obraene podatke. U stvari, Big data predstavlja
mogudnost upravljanja velikim koliinama razliitih podataka razumnom brzinom i u odgovarajudem
vremenskom okviru da bi se omogudila analiza tih podataka u realnom vremenu. Kao to smo ranije
napomenuli, za big data su karakteristine tri stvari:

Koliina: Koliko podataka


Mnogo faktora doprinosi uvedanju obima podataka (transakcioni podaci skladiteni godinama,
tekstualni podaci koji konstantno nadolaze sa drutvenih mrea, itd.). U prolosti je prekomerna
koliina podataka stvarala probleme oko skladitenja, ali sa dananjim cenama memorijskih
ureaja to vie ne predstavlja problem. Ipak, drugi problemi se javljaju, ukljuujudi odreivanje
vanosti odreenih podataka u velikoj gomili.

Brzina: Koliko brzo su podaci obraeni


Brzina obrade podataka predstavlja dve stvari. Prva je brzina proizvodnje i generisanja podataka,
a druga je brzina kojom podaci moraju biti obraeni da bi zadovoljili odreene kriterijume.
Pravovremeno reagovanje i brza obrada podataka predstavljaju veliki izazov i za najvede
kompanije na svetu.

Raznovrsnost: Koliko razliitih tipova podataka imamo


Danas se podaci nalaze u velikom broju razliitih formata. Tu imamo tradicionalne baze
podataka, tekstualne fajlove, e-mail, video, audio, podatke o finansijskim transakcijama, itd.
Prema nekim procenama oko 80 procenata podataka nije numerikog tipa, ali oni i dalje moraju
biti ukljueni u procedure analize i donoenja odluka u vezi sa njima.

Takoe, kada govorimo o karakterisitkama, bitno je napomenuti jo dve bitne dimenzije:


-

Promenljivost: Koliko su podaci podloni promenama


Kao dodatak velikim koliinama i brzinama obrade podataka, tok podataka moe postati prilino
nepravilan sa vremenom. To se moe objasniti nekom popularnom pojavom u sredstvima javnog
informisanja, gde se jedan isti podatak ponavlja nebrojeno puta. Ovakvi izuzeci su jako teki za
obradu, pogotovu kad se uzme u obzir skoranji rast popularnosti socijalnih mrea.

Sloenost: Koliko su podaci teki za obradu


Kada se bavimo velikim koliinama podataka, oni uobiajeno dolaze iz razliitih izvora. U velikom
broju sluajeva je pogubno uparivati, proidavati i transformisati te podatke na bilo koji nain.
Ipak, neophodno je izvriti povezivanje odnosa meu podacima i hijerarhijama podataka, jer u
suprotnom koliina podataka moe da izmakne kontroli.

Podaci se dobavljaju iz gomile razliitih izvora i nalaze se u razliitim oblicima. Sa eksplozijom razvoja
senzora, pametnih ureaja i socijalnih mrea podaci su postali sloeni prvenstveno zato to sada ne
ukljuuju samo tradicionalne struktuirane podatke, ved i nestruktuirane ili polustruktuirane podatke.
Pod ovim nazivima podrazumevamo sledede:
-

Struktuirani podaci opisuju podatke koji su grupisani u relacione sheme(redovi i kolone u okviru
standardnih baza podataka). Organizacija ovih podataka daje mogudnost izvravanja
jednostavnih upita koji mogu vratiti korisne informacije za poslovanje.
Polustruktuirani podaci predstavljaju podatke za koje se ne moe redi da su grupisani u neku
fiksiranu shemu. Podaci su esto nerazdvojivi i sadre oznake koje pomau pri hijerarhijskom
organizovanju ovakvih podataka.
Nestruktuirani podaci su uglavnom podaci koje je teko ubaciti u relacione tabele baza podataka
radi analize ili ili izvravanja upita nad njima. Podaci ovakvog tipa predstavljaju slike, audio i
video fajlove.

3 GDE SE KORISTI
Razvoj tehnologija koje se koriste za obradu velikih koliina podataka doprineo je razvoju
pojedinih oblasti gde se takve analize mogu iskoristiti. Na primer, veliki napredak se vidi u oblasti
zdravstva ili saobradaja. U zdravstvu, moe se pratiti broj prevremeno roene dece i u zavisnosti od
dobijenih podataka procenjivati kada je potrebna odreena intervencija. Kod saobradaja, analizom
velike koliine podataka koje generiu kamere postavljene na autoputevima, mogude je predvideti i
regulisati guve i zakrenja. Takoe, moe se smanjiti broj saobradajnih nezgoda, tedeti gorivo , pa ak
voditi rauna i o zagaenju.
Ipak, glavni problem ne predstavlja prikupljanje velikih koliina podataka(oni su ved oko nas),
ved izvlaenje korisnih informacija iz tih podataka. Dananje tehnologije ne samo da podravaju
skladitenje ovih podataka ved daju mogudnost da se dobijeni podaci razumeju i da se iskoristi njihova
vrednost. Ovo pomae organizacijama da poprave svoje poslovanje i profit. Na primer, uz pomod ovih
tehnologija mogude je:
-

Analizirati milione trinih proizvoda da bi se odredila optimalna cena, uvedao profit ili
oslobodilo skladite.
Preraunavati rizike u minuti i na taj nain se prilagoavati promenama.
Istraivanje podataka vezanih za potroake navike i potrebe i na taj nain povedavanje profita,
podrke u izbornim kampanjama itd.
Identifikovanje najozbiljnijh kupaca.
Generisanje maloprodajnih kupona za potroae, baziranih na prethodnim kupovinama. Ovo
osigurava vedi otkup robe.
Slati adekvatne ponude mobilnih provajdera na mobilne telefone u pravom trenutku, kada de
korisnik modi da ih iskoristi na najbolji nain.
Analiziranje podataka sa sredstava javnog informisanja zbog sagledavanja trendova.
Odreivanje glavnih problema u funkcionisanju mrea i mainskih senzora.

Klasini primeri generisanja velikih koliina podataka:


-

Sistemi radio frekvencija generiu 1000 puta vie podataka od tradicionalnih bar kod sistema.
10 000 transakcija pladanja kreditnom karticom se obavi svake sekunde u svetu.
Walmart obrauje vie od milion korisnikih transakcija u satu.
340 miliona tvitova se poalje dnevno. To je priblino 4 000 tvitova u sekundi.
Facebook ima vie od 901 miliona aktivnih korisnika koji svakodnevno generiu podatke svojom
meusobnom interakcijom.
Vie od 5 milijardi ljudi zove, alje poruke tvituje i surfuje internetom na mobilnim ureajima.

4 IZVORI PODATAKA
4.1 Izvori struktuiranih podataka
Iako se ini da su struktuirani podaci dobro poznati, zapravo, struktuirani podaci u svetu Big data
pristupa dobijaju novu ulogu. Razvoj tehnologije omogudava pojavu novih izvora struktuiranih podataka
- esto u realnom vremenu i u velikim koliinama. Izvori podataka se dele u dve kategorije:
- Raunarski ili mainski generisani: pojam mainski generisanih podataka se obino odnosi na
podatke koje proizvodi maina bez ljudskog uticaja.
-

Ljudski generisani: ovo su podaci koje obezbeuju ljudi u interakciji sa raunarima.

Neki strunjaci tvrde da postoji i treda kategorija koja predstavlja hibrid izmedju dve navedene
kategorije. Medjutim, ovde de nas interesovati samo navedene.
Mainski generisani struktuirani podaci mogu da ukljuuju:
-

Senzorske podatke:
Primeri ukljuuju radio frekvencijske ID (RFID) oznake, pametne merae (npr. elektronska brojila
za merenje potronje elektrine energije), podatke medicinskih uredjaja, GPS podatke. Na
primer, RFID ubrzano postaje popularna tehnologija. Koriste se minijaturni raunarski ipovi da
bi se ureaji pratili sa udaljenosti. Primer ovoga je pradenje kontejnera sa proizvodima od jedne
do druge lokacije. Kada prijemnik dobije informacije one mogu biti prosleene serveru gde de
biti analizirane. Kompanije su zainteresovane za ovu tehnlogiju zbog upravljanja transportom
robe i kontrolu inventara. Jo jedan primer izvora senzornih podataka su pametni telefoni koji
imaju senzore kao sto je GPS koji mogu biti korideni za razumevanje ponaanja potroaa na
novi nain.

Web log podatke:


Kada serveri, aplikacije, mree i slino rade oni belee razliite podatke o svojoj aktivnosti.
Koliina ovih podataka moe postati ogromna, a ovi podaci mogu biti iskorideni za, na primer,
predvianje naruavanja bezbednosti.

Podatke u trenutku prodaje:


Kada radnik na kasi oita bar kod bilo kog proizvoda koji kupujete, generiu se svi podaci vezani
za proizvod. Ako se razmisli koliko ljudi svakodnevno kupuje razliite proizvode moe se shvatiti
koliko je koliina ovih podataka ogromna.

Finansijske podatke:
Dosta finansijskih sistema su danas programirani, njihov rad se zasniva na predefinisanom skupu
pravila to automatizuje proces. Podaci o trgovanju na berzi su dobar primer ovoga. Sadre
struktuirane podatke kao sto su oznaka kompanije i vrednost u dolarima. Neki od ovih podataka
su mainski generisani a neki ljudski generisani.

Primeri ljudski generisanih struktuiranih podataka mogu da ukljuuju:


6

Ulazne podatke: Ovo je bilo koji tip podataka koji ovek moe uneti u raunar, kao to je ime,
prezime, godine starosti, prihod, odgovori na ankete i slino. Ovi podaci mogu biti korideni za
razumevanje osnovnog ponaanja potroaa.

Klik podatke: svaki put kada se klikne na link na sajtu podaci se generiu. Ovi podaci mogu biti
analizirani da bi se odredilo ponaanje potroaa i obrasci kupovine.

Podatke vezane za igre: svaki potez koji se napravi u igri moe biti zabeleen. Ovi podaci mogu
biti korisni za razumevanje kako krajnji korisnici igraju igru.

Neki od ovih podataka ne moraju biti veliki sami po sebi, kao to su profilni podaci. Meutim, kada
se objedine podaci miliona korisnika koji alju informacije, koliina podataka postaje ogromna. Dodatno,
mnogo ovih podataka je vezano za vreme u kom se generiu to moe biti korisno za razumevanje
obrazaca koji imaju potencijal za predvianje ishoda. Poenta je da ove informacije mogu biti modne i
mogu biti koridene u razliite svrhe.

4.2 Izvori nestruktuiranih podataka


Nestruktuirani podaci su podaci koji ne prate neki definisani format. Ako je 20% podataka koji su
dostupni preduzedima struktuirano, preostalih 80% je nestruktuirano. Nestruktuirani podaci su zapravo
podaci koji se najede sredu. Do skoro, meutim, tehnologija nije podravala druge
naine rada sa ovim podacima osim skladitenja i rune obrade. Nestruktuirani podaci se mogu nadi
svuda. Zapravno, vedina ljudi i organizacija funkcionie na osnovu nestruktuiranih podataka. Kao i u
sluaju struktuiranih podataka i nestrukturirani podaci mogu biti mainski ili ljudski generisani. Neki
primeri mainski generisanih nestruktuiranih podataka su:
-

Satelitske slike: Ovo ukljuuje podatke o vremenskim prilikama ili podatke koje vlade prikupljaju
prilikom satelitskog nadgledanja. Na primer, GoogleEarth poseduje ogromnu koliinu satelitskih
snimaka koje obrauje i spaja na odgovarajudi nain.
Nauni podaci: ovo ukljuuje seizmike slike, atmosferske podatke, fiziku visokih energija, itd.

5 Tehnologija
Veliki broj novih tehnolokih dostignuda omogudava organizacijama da iskoriste veliku koliinu
podataka kao i da ih efikasno analiziraju. Neke od karakteristika su:
-

Jeftino i veliko skladite za podatke, uz mogudnost serverske obrade.


Bri procesori.
Dostupne mogudnosti za veliku memoriju, kao to je Hadoop.
Nove tehnologije vezane za skladitenje i obradu podataka, namenjene ba za velike i
obimne podatke, ukljuujudi i nestruktuirane podatke.
Paralelnu obradu, klasterovanje, MPP, virtualizaciju, velika grid okruenja, visok nivo
propusnosti i mogudnosti povezivanja
Rad u oblaku i druga fleksibilna reenja za rad sa resursima.

Tehnologije koje se svrstavaju pod Big data tehnologije ne podravaju samo mogudnost
prikupljanja velike koliine podataka, one daju mogudnost za razumevanje tih podataka kao i izvlaenje
nekih vrednosti. Glavni cilj svih organizacija koje imaju pristup kolekcijama velikih podataka trebalo bi da
bude to da iskoriste vedinu relevantnih podataka u svom poslovanju za donoenje raznih poslovnih
odluka.
Sa razvojem raunarskih tehnologija, danas je mogude upravljati ogromnim koliinama
podataka, koje su ranije mogle da se obrauju i koriste jedino uz pomod superraunara i to uz veliki
troak. Cene sistema su opale i kao rezultat nove tehnike za distribuiranu obradu su trenutno u fokusu
upotrebe. Pravi proboj u tehnologiji Big data desio se kada su kompanije kao to su Yahoo!, Google, i
Facebook dole do saznanja da mogu da zarade od velikih koliina podataka koje su njihovi proizvodi
generisali. Ove kompanije su bile pred zadatkom da nau nain u vidu nekih novih tehnologija koje de
im omoguditi da uvaju, pristupaju, obrauju i analiziraju ogromne koliine podataka u realnom
vremenu, na takav nain da mogu prilino da zarade i na pravi nain iskoriste koliinu podataka koju
poseduju i koji uestvuju u njihovim mreama. Njihova reenja koja su nastala su dovela do promena na
tritu upravljanja podacima. Posebno, novine koje su doneli MapReduce, Hadoop i Big Table pokazale
su se kao varnice koje su dovele do neke nove generacije upravljanja podacima. Ove tehnologije
apostrofiraju jedan od najfundamentalnijih problema, a to je sposobnost obrade velikih koliina
podataka na efikasan i blagovremen nain, na nain koji je isplativ i koji ne zahteva velike trokove.

5.1 MapReduce
MapReduce je reenje koje je predstavio Google kao nain efikasnog izvravanja skupa funkcija
nad ogromnim koliinama podataka na serijski nain. Komponenta map rasporeuje programerski
problem ili zadatak na veliki broj sistema i rukovodi postavljanju zadataka na nain koji podrazumeva
balansirano opteredenje i upravlja oporavkom od greaka. Nakon to zavri distribuirana obrada, poziva
se druga funkcija nazvana reduce, koja spaja sve elemente nazad zajedno, da bi obezbedila rezultat.
Jedan primer MapReduce upotrebe mogao bi da bude zadatak da se odredi koliko stranica knjige je
napisano na svakom od nekih 50 razliitih jezika. MapReduce je programerski model za obradu velikih
skupova podataka pomodu paralelnih, distribuiranih algoritama u klasteru. Jedan MapReduce program
obuhvata Map() proceduru koja vri filtriranje i sortiranje (na primer sortiranje studenata po imenu u
redove, po jedan red za svako ime) i Reduce() procedura koja vri operaciju agregacije (na primer broj
studenata u svakom redu). MapReduce sistem ( moe se redi i infrastruktura ili frejmvork) upravlja
distribuiranim serverima i uopteno celim procesom. Sistem izvrava razliite zadatke paralelno, upravlja
svim komunikacijama kao i prenosu podataka izmeu razliitih delova sistema, u isto vreme
obezbeujudi sistem od redundantnosti i greaka. Inspiracija za model je proistekla iz map i reduce
funkcija koje se esto koriste u funkcionalnom programiranju iako njihova uloga u MapReduce sistemu
nije ista kao to je u njihovom originalnom obliku. MapReduce biblioteke se piu na raznim programskim
jezicima. Besplatna implementacija koja je popularna je Hadoop organizacije Apache.

5.2 Big Table


Big Table je reenje razvijeno od strane kompanije Google, kao distribuirani sistem za
skladitenje podataka koji je predvien da upravlja veoma skalabilnim struktuiranim podacima. Podaci
su organizovani u tabele sa redovima i kolonama. Za razliku od tradicionalnog relacionog modela baze
podataka, Big Table predstavlja proreenu, distribuiranu i trajnu sortiranu viedimenzionu mapu. Big
Table je namenjen za uvanje velikih koliina podataka na obinim serverima. Big Table mapira dva
proizvoljna stringa ( klju koji se odnosi na red i klju koji se odnosi na kolonu) i vremenski trenutak
(dakle imamo trodimenzionalno mapiranje) u neki vezani niz bitova. Big Table je predvien da moe da
ide do nivoa petabajta, rad na preko stotinu hiljada maina koji omogudava jednostavno dodavanje
novih maina u sistem i njihovo momentalno ukljuenje u rad na nain koji ne zahteva nikakvo ponovno
konfigurisanje ili prekid u radu sistema.

5.3 Hadoop
Inovatori sistema za pretraivanje kao to su Yahoo! i Google su bili pred zadatkom da nau
nain kako da izvuku smisao i neku vrednost iz ogromnih koliina podataka koje njihovi sistemi
prikupljaju. Ove kompanije su bile pred izazovom da u isto vreme razumeju koje informacije prikupljaju,
kao i kako da te informacije uklope u svoje poslovanje i poboljaju svoje poslovanje, a samim tim i
prihode. Hadoop dozvoljava kompanijama da na lak nain upravljaju velikim koliinama podataka.
Hadoop omogudava da veliki problemi budu razbijeni na manje tako da analiza moe da se izvri brzo i
jeftino. Razbijanjem tih velikih problema na manje delove koje je posle mogude obraivati paralelno, i
po zavretku obrade te informacije se prikupljaju i grupiu radi izdavanja krajnjih rezultata. Hadoop je
softverski frejmvork izveden iz MapReduce i BigTable sistema. Hadoop dozvoljava aplikacijama
baziranim na MapReduce sistemu da se izvravaju na velikim klasterima obinog hardvera. Hadoop je
dizajniran da paralelizuje obradu podataka koristedi vorove za povedanje brzine izraunavanja i
smanjenje odziva. Hadoop se sastoji od dve glavne komponente, visoko skalabilnog distribuiranog fajl
sistema koji podrava i koliinu podataka koja se meri u petabajtima,dok je druga komponenta
MapReduce sistem.

6 ZAKLJUAK
Godinama su organizacija sakupljale transakciono struktuirane podatke i koristile batch obradu
da stave reprezentativne uzorke u tradicionalnu relacionu bazu podataka. Analiza ovakvih podataka je
retrospektivna i istraivanje se vri na skupovima podataka. Poslednjih nekoliko godina, nove tehnologije
su omogudile poboljano sakupljanje, skladitenje i analizu podataka po jeftinijoj ceni. Organizacije sada
mogu sakupiti vie podataka iz mnogo vie izvora (blogovi, audio i video fajlovi). Opcije za optimalno
skladitenje i obradu podataka su se drastino proirile i tehnologije, kao to su MapReduce i in-memory
computing, obezbeuju visoko optimizovane mogudnosti za razliite poslovne svrhe. Analiza podataka
moe biti izvrena u realnom vremenu ili veoma blizu realnog vremena obraujudi ceo skup podataka a
ne reprezentativne uzorke. Dodatno, broj opcija da se tumae i analiziraju podaci se takoe povedao uz
koridenje razliitih tehnologija za vizuelizaciju. Svi ovi izumi predstavljaju kontekst u koji je smeten big
data. Big data obino obuhvata skupove podataka veliine daleko vede za obradu od onih sa kojima rade
najede korideni softverski alati iji je cilj da prikupljaju, upravljaju i procesiraju podatke u odreenom
periodu vremena koje ima neki prag tolerantnosti. Veliine koje se pominju kada se pomene big data
9

predstavljaju neto slino kao pokretna meta, jer samo gledajudi 2012. godinu te veliine se kredu od
nekoliko hiljada terabajta do desetina petabajta podataka koji se nalaze u jednom skupu podataka. Ta
meta nastavlja da se krede zahvaljujudi konstantnom napretku i u tradicionalnim relacionim sistemima i
u novim bazama podataka kao to je NoSQL i njihovim sposobnostima da rukuju sa sve vedim koliinama
podataka.

7 REFERENCE
-

Judith Hurwitz, Alan Nugent, Dr. Fern Halper, Marcia Kaufman - Big Data for Dummies, 2013.
Srinath Perera, Thilina Gunarathne - Hadoop MapReduce Cookbook, 2013.
Wikipedia, Big Data page: http://en.wikipedia.org/wiki/Big_data
SAS Big Data page: http://www.sas.com/big-data/

10

You might also like