You are on page 1of 10

12-Big Data

Big data:
• Big Data -Veliki podaci
• Skupovi podataka koji su tako veliki po obimu i tako složeni
da tradicionalni softverski proizvodi za obradu podataka nisu
u mogućnosti da preuzmu, upravljaju i obrađuju podatke u
razumnom vremenskom roku
• Koliko podataka zapravo predstavlja "Big Data“?
• Najveći projekti - u opsegu eksabajta. •Pojam Big data ne
treba identifikovati samo sa velikim količinama raznovrsnih
podataka već i sa tehnikama koje se koriste u obradi tih
podataka i načina donošenja zaključaka i važnih poslovnih
odluka na bazi toga
• Zbog ove karakteristike češće se koristi pojam Big Data
Analytics ili „analitika velikih količina podataka“, jer je njena
svrha da primenom naprednih tehnologija i statističkih tehnika
pronađe skrivene obrasce u podacima i generiše informacije
za donošenje važnih poslovnih odluka.

Definicija Big data:


1. Velike količine podataka, visoke brzine, kompleksne, i
varijabilne podatke koji zahtevaju napredne tehnike i
tehnologije kako bi se omogućilo snimanje, skladištenje,
distribucija, upravljanje i analiza tih informacija
2. Skup tehnika i tehnologija koje zahtevaju nove forme
integracije kako bi se otkrile velike skrivene vrednosti
podataka
Izvori podataka:
• Društvene mreže• Email, HTML• Slike, video, senzorski
podaci
• Relacione baze podataka• Mobilne mreže• Internet of Things
(IoT)
• Izvori sekundarnih administrativnih podataka – elektronski
zdravstveni kartoni, podaci o osiguranju, bankarski podaci,
banke hrane i sl.
• Komercijalni ili transakcioni podaci – onlajn i plaćanja
putem mobilnog telefona, transakcije platnih kartica
• Senzorni podaci – satelitski snimci, klimatski senzori,
saobraćajni senzori
• Podaci sa uređaja za praćenje – Global Positioning System
(GPS)

3V koncept:
• Baziran na tri osnovne dimenzije: „3V koncept“:
1. Volume(Obim)2. Variety(Raznovrsnost)3. Velocity(Brzina)

Obim:
• Velika brzina rasta količine novih podataka i čuvanje
postojećih dovodi do toga da se sada skladište stotine
terabajta, pa čak i mnogo više.
• Prema podacima iz kompanije IBM, 90% podataka koji
danas postoje kreirano je u poslednje dve godine.
• Prema podacima McKinsey Global Institute, očekuje se da
će količina generisanih podataka na globalnom nivou da raste
po prosečnoj godišnjoj stopi od 41% (u periodu od 2008. do
2020. godine ta količina je uvećana oko 44 puta, sa 0,8
zetabajta u 2008. godini, na 35 zetabajta u 2020. godini.
• Dnevno na Facebook-u se generiše 10, a na Twitter-u 7
terabajta podataka.

Raznovrsnost:
• Raznovrsnostpodataka–
višenijedovoljnočuvatisamostruktuiranepodatke,većislike,
podatke sa društvenih mreža, logove, senzorske podatke...
Tako se javljaju sledeći podaci:
• Nestrukturirani podaci – podaci sa kojima se ne mogu vršiti
klasične aritmetičke operacije. Čine preko 80% podataka. To
su razni podaci kao što su audio fajlovi, video- fajlovi,
tekstualni fajlovi, itd.
• Polustrukturirani podaci – čine oko 10% podataka. To su
uglavnom podaci koji se lako mogu transformisati u formu
pogodnu za vršenje klasičnih aritmetičkih operacija, kao što
su npr. podaci koji se dobijaju putem Web analitike.
• Strukturirani podaci – čine samo 10% podataka. To su
podaci koji nastaju upotrebom raznih analitičkih sredstava kao
što su poslovne analitike, baze podataka, itd.
Nestrukturirani podaci:
• U osnovi informacije koje ili nemaju unapred definisani
model podataka i/ili se dobro ne uklapaju u tradicionalnu bazu
podataka:
 tekst, pdf dokument, video, slike, audio,
geoprostorni podaci,  internet podaci, slick streams,
 log fajlovi.

Polustrukturirani podaci:
•Za predstavljanje polustrukturiranih podataka koristi se XML
(eXtensible Markup Language) programski jezik koji je sličan
HTML-u a razvijen je od strane W3C (World Wide Web
Consortium) u cilju prevazilaženja ograničenja HTML-a.
XML je zamišljen kao programski jezik za opisivanje
podataka – podrazumevajući opis podataka, a ne njihov
izgled.
Strukturirani podaci:
• Ova vrsta podataka je najčešće smeštena u kompanijskim
bazama i/ili skladištima podataka.
• U poređenju sa „tradicionalnom“ statističkom
metodologijom, strukturirani podaci se mogu svrstati u
kategoriju metričkih ili numeričkih varijabli čija je obrada,
analiza i interpretacija veoma precizno definisana i relativno
jednostavna.
• Problem može predstavljati skladištenje i čuvanje velike
količine ovakvih podataka kako bi se oni koristili u analitičke
svrhe.

Brzina:
• Novi podaci nastaju velikom brzinom, što je daleko veće od
brzine obrade podataka. Primera radi, u okviru jednog minuta
u svetu:
 obavi se preko 3500 transakcija na berzama, potroši se
preko 3 miliona dolara na online kupovinu, pošalje se preko
200 miliona e-mail-ova, obavi se preko 2 miliona pretraga
na Google-u (3,5 milijarde dnevno),  postavi se preko 700
hiljada novih sadržaja na Facebook-u, preko 400 hiljada na
Twitter-u, postavi se preko 600 novih video-sadržaja na
Youtube-u, obavi se preko 400.000 minuta razgovara preko
Skype-a, i napiše se preko 1500 blog postova

6V koncept:
4. Pouzdanostpodataka(veracity),činećitako„4vkoncept“,
• Pojedini autori dodaju još i:
5. Dimenzijevrednosti(Value)i6. Delotvornosti(Viscosity)•
Čineći tako prošireni „6V koncept“.

IT infrastruktura za podršku Big Data:



DabikoncepcijaBigDatafunkcionisala,organizacijemorajuimati
naraspolaganju infrastrukturu za prikupljanje i čuvanje
podataka, obezbeđivanje pristupa i osiguranje informacija dok
su u skladištu i u tranzitu.
• Navisokomnivou,touključujesistemezaskladištenjeiserverena
menjenezaBigData, softver za upravljanje podacima i
njihovom integracijom, softver za poslovnu inteligenciju i
analizu podataka i aplikacije za Big Data.
• Većinaoveinfrastrukturećeverovatnobitiuprostorijamaorganiza
cije,jerkompaniježeleu dalje da koriste svoje investicije u
centre podataka.
• Alisvevišeorganizacijaseoslanjanauslugeračunarstvauoblakud
abisenosilesavelikim delom njihovih zahteva za Big Data.
Prikupljanje podataka zahteva izvore za prikupljanje
podataka. Mnoge od njih - kao što su veb aplikacije, društveni
mediji, mobilne aplikacije i arhive e-pošte - već postoje.
• Pošto se IoT sve više utvrđuje, kompanije možda moraju za
prikupljanje podataka da koriste senzore na svim uređajima,
vozilima i proizvodima, kao i nove aplikacije koje generišu
korisničke podatke.
• Da bi se čuvali svi dolazni podaci, organizacije moraju imati
odgovarajuća skladišta podataka.
• Među opcijama za skladištenje su tradicionalna skladišta
podataka, jezera podataka i skladištenje u oblaku.
• Alati bezbednosne infrastrukture mogu uključivati šifrovanje
podataka, autentifikaciju korisnika i druge kontrole pristupa,
sisteme za praćenje, mrežne barijere, upravljanje mobilnošću
u preduzeću i druge proizvode za zaštitu sistema i podataka.
Tehnologije specifične za Big Data:
• Ekosistem Hadoop
• Hadoop je jedna od tehnologija koja je blisko povezana sa Big
Data. Projekat Apache Hadoop razvija softver otvorenog
koda za skalabilno, distribuirano računarstvo.
• Softverska biblioteka Hadoop predstavlja okvir koji
omogućava distribuiranu obradu velikih skupova podataka
preko klastera računara pomoću jednostavnih programskih
modela. Dizajniran je da se skalira od jednog servera pa sve
do hiljade servera, od kojih svaki nudi lokalno računanje i
skladištenje.
Apache Spark:
• Apache Spark je radni okvir otvorenog koda za klastersko
računarstvo koji
služi kao motor za obradu Big Data u okviru Hadoop-a.
• Spark je postao jedno od ključnih okruženja za distribuiranu
obradu podataka i može da se rasporedi na različite načine.
• On pruža izvorno povezivanje za jezike Java, Scala,
Python (pogotovo za distro Anaconda Python) i R
programske jezike (R je posebno pogodan za Big Data), a
podržava SQL, podatke u strimovanju, mašinsko obučavanje i
obradu grafova.
Jezera podataka:
• Jezera podataka su skladišta koja čuvaju izuzetno velike
količine sirovih podataka u izvornom formatu dok podaci ne
budu potrebni kod poslovnih korisnika.
• Pomoć u podsticanju rasta jezera podataka predstavljaju
inicijative digitalne transformacije i rast IoT-a. Jezera
podataka su dizajnirana da korisnicima olakšaju pristup
velikim količinama podataka kada se pojavi potreba.
NoSQL baze podataka:
• Konvencionalne SQL baze podataka su dizajnirane za
pouzdane transakcije i ad hoc upite, ali imaju ograničenja
kao što su rigidna šema koja ih čini manje pogodnim za neke
vrste aplikacija.
• NoSQL baze podataka rešavaju takva ograničenja tako što
čuvaju podatke i upravljaju njima na način koji omogućava
veliku brzinu rada i veliku fleksibilnost.
• Mnoge su razvijene u kompanijama koje su tražile bolje
načine za čuvanje sadržaja ili obradu podataka za velike web
stranice. Za razliku od SQL baza podataka, mnoge NoSQL
baze podataka mogu da se skaliraju horizontalno preko stotina
ili hiljada servera.

Baze podataka u memoriji:


• Baza podataka u memoriji (IMDB - in-memory data base) je
sistem za upravljanje bazama podataka koji se za skladištenje
podataka prvenstveno oslanja na glavnu memoriju, a ne na
disk.
• Baze podataka u memoriji su brže od baza podataka
optimizovanih za diskove, što je važno za analize Big Data i
stvaranje skladišta podataka (engl. warehouse) i centara
podataka (engl. data mart).
Veštine za Big Data:
• BigDataianalitikazaBigDatazahtevajuspecifičneveštine,biloda
suunutarorganizacijeili preko konsultanata.
• Mnogeodovihveštinasupovezanesaključnimkomponentamateh
nologijeBigData,kaoštosu Hadoop, Spark, NoSQL baze
podataka, baze podataka u memoriji i softver za analitiku.
• Drugesuspecifičnezadisciplinekaoštosunaukaopodacima,rud
arenjupodataka, statistička i kvantitativna analiza,
vizuelizacija podataka, opšte programiranje i struktura
podataka i algoritmi.
• Takođepostojipotrebazaljudimakojiimajusveobuhvatnemenad
žerskesposobnostidavode velike projekte podataka od početka
do kraja (Project Management).
• S obzirom na to kako su projekti analize Big Data postali
uobičajeni i na nedostatak ljudi na tržištu rada sa ovakvim
vrstama veština, pronalazak iskusnih profesionalaca može biti
jedan od najvećih izazova za organizacije.
Slučajevi korišćenja Big Data:
• BigDataianalitikamoguseprimenitinamnogeposlovneprobleme
islučajevekorišćenja.
• Primeri:
• Analitikaklijenata.Kompanijemoguispitatipodatkeoklijentim
akakobipoboljšaleiskustvo korisnika, poboljšale stope
konverzije (npr. posete web prodavnici u kupovinu) i
povećale zadržavanje.
• Operativnaanalitika.Poboljšanjeoperativnihperformansiibolj
ekorišćenjekorporativnih sredstava su ciljevi mnogih
kompanija. Analiza Big Data može pomoći preduzećima da
pronađu načine za efikasnije poslovanje i poboljšavanje
performansi.
• Prevencijaprevara.Analizapodatakamožepomoćiorganizacija
madaotkrijusumnjive aktivnosti i obrasce koji bi mogli
ukazivati na varljivo ponašanje i pomoći u ublažavanju rizika.

• Optimizacijacena.KompanijemogudakoristeanalizuBigDatak
akobioptimizovalecene koje naplać́uju za proizvode i usluge,
što pomaže povećanju prihoda.
• Big Data se može koristiti i u zdravstvu za pronalaženje novih
lekova, za optimizaciju terapija pa čak i za predviđanja bolesti
pre pojave bilo kakvih fizičkih simptoma.
• Koriste se i za analizu i poboljšanje performansi
pojedinaca (u sportu, kod kuće ili na poslu), gde podaci iz
senzora u opremi i nosivih uređaja mogu biti u kombinaciji sa
video analitikom kako bi izvukli zaključke i saznanja koja se
ne mogu videti tradicionalnim pristupom.
• Policijske snage i bezbedonosne agencije koriste Big Data
da spreče sajber napade, da otkriju kriminal, prevare sa
kreditnim karticama, pa čak i da predvide kriminalne
aktivnosti.
• Koristi se takođe i za poboljšanje stanova, gradova, kao na
primer optimizovano grejanje ili osvetljenje u domovima,
protok saobraćaja u gradovima i slično.

You might also like