Professional Documents
Culture Documents
Big data:
• Big Data -Veliki podaci
• Skupovi podataka koji su tako veliki po obimu i tako složeni
da tradicionalni softverski proizvodi za obradu podataka nisu
u mogućnosti da preuzmu, upravljaju i obrađuju podatke u
razumnom vremenskom roku
• Koliko podataka zapravo predstavlja "Big Data“?
• Najveći projekti - u opsegu eksabajta. •Pojam Big data ne
treba identifikovati samo sa velikim količinama raznovrsnih
podataka već i sa tehnikama koje se koriste u obradi tih
podataka i načina donošenja zaključaka i važnih poslovnih
odluka na bazi toga
• Zbog ove karakteristike češće se koristi pojam Big Data
Analytics ili „analitika velikih količina podataka“, jer je njena
svrha da primenom naprednih tehnologija i statističkih tehnika
pronađe skrivene obrasce u podacima i generiše informacije
za donošenje važnih poslovnih odluka.
3V koncept:
• Baziran na tri osnovne dimenzije: „3V koncept“:
1. Volume(Obim)2. Variety(Raznovrsnost)3. Velocity(Brzina)
Obim:
• Velika brzina rasta količine novih podataka i čuvanje
postojećih dovodi do toga da se sada skladište stotine
terabajta, pa čak i mnogo više.
• Prema podacima iz kompanije IBM, 90% podataka koji
danas postoje kreirano je u poslednje dve godine.
• Prema podacima McKinsey Global Institute, očekuje se da
će količina generisanih podataka na globalnom nivou da raste
po prosečnoj godišnjoj stopi od 41% (u periodu od 2008. do
2020. godine ta količina je uvećana oko 44 puta, sa 0,8
zetabajta u 2008. godini, na 35 zetabajta u 2020. godini.
• Dnevno na Facebook-u se generiše 10, a na Twitter-u 7
terabajta podataka.
Raznovrsnost:
• Raznovrsnostpodataka–
višenijedovoljnočuvatisamostruktuiranepodatke,većislike,
podatke sa društvenih mreža, logove, senzorske podatke...
Tako se javljaju sledeći podaci:
• Nestrukturirani podaci – podaci sa kojima se ne mogu vršiti
klasične aritmetičke operacije. Čine preko 80% podataka. To
su razni podaci kao što su audio fajlovi, video- fajlovi,
tekstualni fajlovi, itd.
• Polustrukturirani podaci – čine oko 10% podataka. To su
uglavnom podaci koji se lako mogu transformisati u formu
pogodnu za vršenje klasičnih aritmetičkih operacija, kao što
su npr. podaci koji se dobijaju putem Web analitike.
• Strukturirani podaci – čine samo 10% podataka. To su
podaci koji nastaju upotrebom raznih analitičkih sredstava kao
što su poslovne analitike, baze podataka, itd.
Nestrukturirani podaci:
• U osnovi informacije koje ili nemaju unapred definisani
model podataka i/ili se dobro ne uklapaju u tradicionalnu bazu
podataka:
tekst, pdf dokument, video, slike, audio,
geoprostorni podaci, internet podaci, slick streams,
log fajlovi.
Polustrukturirani podaci:
•Za predstavljanje polustrukturiranih podataka koristi se XML
(eXtensible Markup Language) programski jezik koji je sličan
HTML-u a razvijen je od strane W3C (World Wide Web
Consortium) u cilju prevazilaženja ograničenja HTML-a.
XML je zamišljen kao programski jezik za opisivanje
podataka – podrazumevajući opis podataka, a ne njihov
izgled.
Strukturirani podaci:
• Ova vrsta podataka je najčešće smeštena u kompanijskim
bazama i/ili skladištima podataka.
• U poređenju sa „tradicionalnom“ statističkom
metodologijom, strukturirani podaci se mogu svrstati u
kategoriju metričkih ili numeričkih varijabli čija je obrada,
analiza i interpretacija veoma precizno definisana i relativno
jednostavna.
• Problem može predstavljati skladištenje i čuvanje velike
količine ovakvih podataka kako bi se oni koristili u analitičke
svrhe.
Brzina:
• Novi podaci nastaju velikom brzinom, što je daleko veće od
brzine obrade podataka. Primera radi, u okviru jednog minuta
u svetu:
obavi se preko 3500 transakcija na berzama, potroši se
preko 3 miliona dolara na online kupovinu, pošalje se preko
200 miliona e-mail-ova, obavi se preko 2 miliona pretraga
na Google-u (3,5 milijarde dnevno), postavi se preko 700
hiljada novih sadržaja na Facebook-u, preko 400 hiljada na
Twitter-u, postavi se preko 600 novih video-sadržaja na
Youtube-u, obavi se preko 400.000 minuta razgovara preko
Skype-a, i napiše se preko 1500 blog postova
6V koncept:
4. Pouzdanostpodataka(veracity),činećitako„4vkoncept“,
• Pojedini autori dodaju još i:
5. Dimenzijevrednosti(Value)i6. Delotvornosti(Viscosity)•
Čineći tako prošireni „6V koncept“.
• Optimizacijacena.KompanijemogudakoristeanalizuBigDatak
akobioptimizovalecene koje naplać́uju za proizvode i usluge,
što pomaže povećanju prihoda.
• Big Data se može koristiti i u zdravstvu za pronalaženje novih
lekova, za optimizaciju terapija pa čak i za predviđanja bolesti
pre pojave bilo kakvih fizičkih simptoma.
• Koriste se i za analizu i poboljšanje performansi
pojedinaca (u sportu, kod kuće ili na poslu), gde podaci iz
senzora u opremi i nosivih uređaja mogu biti u kombinaciji sa
video analitikom kako bi izvukli zaključke i saznanja koja se
ne mogu videti tradicionalnim pristupom.
• Policijske snage i bezbedonosne agencije koriste Big Data
da spreče sajber napade, da otkriju kriminal, prevare sa
kreditnim karticama, pa čak i da predvide kriminalne
aktivnosti.
• Koristi se takođe i za poboljšanje stanova, gradova, kao na
primer optimizovano grejanje ili osvetljenje u domovima,
protok saobraćaja u gradovima i slično.