Professional Documents
Culture Documents
Big Data Koncept I Tehnologija
Big Data Koncept I Tehnologija
933
on Instagram
Video views on YouTube
E-mails sent
2,826,726
Skype calls
4,009
Figure 2. The current number of users from different sources, who are generating new data
Data source: Authors (Data downloaded from https://www.internetlivestats.com)
Big Data Koncept
• Sve te ogromne količine podataka je potrebno
negdje:
– pohraniti (skladištiti),
– obraditi,
– analizirati,
– prezentirati rezultate analize, a zatim
– predlagati konkretna poslovna rješenja na bazi tih
rezultata.
• Realizaciju tih aktivnosti u razumnom vremenu, te
izvođenje veoma često neočekivanih i iznenađujućih
zaključaka omogućava Big Data koncept.
Primjer
• Tom Cruise još 2002. u filmu “Minority Report”
djelomično nagovijestio aplikaciju nečeg što bi danas
najlakše mogli smjestiti u sferu Big Data koncepta i
prediktivne analitike.
• U tom filmu, snage sigurnosti, na osnovu softverskih
rješenja baziranih na različitim inputima projektuju
(predviđaju) mogućnost nastanka zločina, te provode
sistem preventivnih hapšenja ljudi prije nego što oni
postanu zločinci - ubice, provalnici, silovatelji i slično.
Pojam Big Data
● Big Data je karakterističan po mogućnostima
upravljanja velikim količinama različitih podataka
razumnom brzinom da bi se omogućila analiza tih
podataka u realnom vremenu.
● Koristi standardno hardwer okruženje i softverske
alate da prihvati, upravlja I procesira veliku količinu
podataka u realnom vremenu za različite korisnike
Osnove Big Data Koncepta
• Big Data koncept se zasniva na
– primjeni sofisticiranih statističkih i matematičkih metoda na
ogromnim količinama podataka sa ciljem:
• povećanja tačnosti, odnosno
• vjerovatnoće dobivenih rezultata.
• Big Data se temelji na predviđanjima, a poenta je:
– da sistem dobro radi zato što koristi velike količine podataka,
a sa:
• prolaskom vremena i
• korišćenjem novih podataka
– produkuje sve kvalitenije rezultate.
Uslovi za funkcionisanje Big Data koncepta
• Osnovni uslov za uspješno funkcionisanje koncepta:
– veoma velika količina podataka
• Dodatni uslov:
– velika procesorska snaga (brzina procesora, dužina
procesorske riječi) i memorijski prostor na kojem će se svi ti
podaci skladištiti, kao i
– posebne tehnologije efikasnijeg skladištenja, pristupa i
obrade tih podataka, a kasnije i
– analize i prezentacije dobivenih rezultata (Hadoop
tehnologije).
3V definicija Big Data
• Volume – velika količina podataka koji se prikupljaju,
skladište, obrađuju i distribuiraju za analizu
• Velocity – brzina kojom pristižu novi podaci je
ogromna i veća je od brzine obrade podataka, a radi
se o permanentnom prikupljanju velike količine
podataka u realnom vremenu
• Variety – podaci su dostupni u različitim formatima i
izvorima, a ustvari su najčešće nestrukturirani. Prema
IDC-ovom (engl. International Data Corporation)
izvještaju iz 2011. godine, nestrukturirani podaci čine
više od 90% svih podataka
Povećanje količine, raznolikosti i
kompleksnosti podataka
4V koncept
• Value – kao 4. karakteristika polazi od pretpostavke da
podaci sami po sebi posjeduju određenu vrijednost (engl.
value)
• Po nekim autorima (Janet Wiliamson1), 4. karakteristika nije
vrijednost (Value) nego Veracity, odnosno vjerodostojnost
(istinitost ili, pouzdanost, predvidljivost, tačnost podataka)
u smislu kvaliteta prikupljenih podataka koji može značajno
varirati i tako uticati na tačnost analize.
1 https://www.promptcloud.com/blog/The-4-Vs-of-Big-Data-for-Yielding-Invaluable-Gems-of-
Information/)
Novi V-ovi (karakteristike)
Vremenom su se u Big data koncept uključuju i neki novi V-
ovi poput:
• Vizije (nove ideje sa starim podacima),
• Verifikacije (mogućnost provjeravanja zadovoljavaju li
podaci određeni skup specifikacija - ovaj se proces odvija
prije nego što se podaci podvrgnu bilo kakvoj analizi),
• Validacije (provjera je li svrha podataka zadovoljena i
konzistentna tj. mogu li se isti tačni i prikladni zaključci
dobiti iz istoga skupa podataka bez obzira na broj
ponavljanja analiza) ili
• Varijabilnosti i Vjerodostojnosti
Karakteristike (dimenzije) Big Data
Izvor: https://www.edureka.co/blog/mapreduce-tutorial/#mapreduce_word_count_example
Jednostavan primjer Za MapReduce
Primjena Hadoop tehnologije
• Veliki je spektar oblasti gdje može da unaprijedi
poslovanje i poveća profit
• Najčešće se koristi u sljedećim oblastima: finansije,
marketing, prodaja, proizvodnja
• Nalazi se u 37% svih Open Source Big Date
tehnologija, te u 47% komercijalnih Big Date
tehnologija
• Hadoop danas distribuiraju u svojim proizvodima
Cloudera, Hortonworks, MapR, IBM, Microsoft,
Amazon Web Services