You are on page 1of 33

POSLOVNA INTELIGENCIJA

Big data tehnologija

Prof. dr Savo Stupar


Uvod u Big Data Tehnologiju
Internet traffic

Twitts sent 77,052 GB


8,608
76,459
Google searches
Photos uploaded

933
on Instagram
Video views on YouTube

Tumblr posts 80,040


1,570

E-mails sent
2,826,726
Skype calls
4,009

Figure1. The amount of data generated every second.


Data Source: Authors (Data downloaded from
https://www.internetlivestats.com/)
Uvod u Big Data Tehnologiju
Facebook active users Google active users

2,289 mil. 733 mil.


Total number of
1,707 mil. 350 mil. Twitter active users
Websites
Big Data
Internet Users in 4,308 mil. 188 mil. Skype calls on daily
the world basis
3,720 mil. 43,5 mil.

Videos viewed daily Photos uploaded daily on


on YouTube Instagram

Figure 2. The current number of users from different sources, who are generating new data
Data source: Authors (Data downloaded from https://www.internetlivestats.com)
Big Data Koncept
• Sve te ogromne količine podataka je potrebno
negdje:
– pohraniti (skladištiti),
– obraditi,
– analizirati,
– prezentirati rezultate analize, a zatim
– predlagati konkretna poslovna rješenja na bazi tih
rezultata.
• Realizaciju tih aktivnosti u razumnom vremenu, te
izvođenje veoma često neočekivanih i iznenađujućih
zaključaka omogućava Big Data koncept.
Primjer
• Tom Cruise još 2002. u filmu “Minority Report”
djelomično nagovijestio aplikaciju nečeg što bi danas
najlakše mogli smjestiti u sferu Big Data koncepta i
prediktivne analitike.
• U tom filmu, snage sigurnosti, na osnovu softverskih
rješenja baziranih na različitim inputima projektuju
(predviđaju) mogućnost nastanka zločina, te provode
sistem preventivnih hapšenja ljudi prije nego što oni
postanu zločinci - ubice, provalnici, silovatelji i slično.
Pojam Big Data
● Big Data je karakterističan po mogućnostima
upravljanja velikim količinama različitih podataka
razumnom brzinom da bi se omogućila analiza tih
podataka u realnom vremenu.
● Koristi standardno hardwer okruženje i softverske
alate da prihvati, upravlja I procesira veliku količinu
podataka u realnom vremenu za različite korisnike
Osnove Big Data Koncepta
• Big Data koncept se zasniva na
– primjeni sofisticiranih statističkih i matematičkih metoda na
ogromnim količinama podataka sa ciljem:
• povećanja tačnosti, odnosno
• vjerovatnoće dobivenih rezultata.
• Big Data se temelji na predviđanjima, a poenta je:
– da sistem dobro radi zato što koristi velike količine podataka,
a sa:
• prolaskom vremena i
• korišćenjem novih podataka
– produkuje sve kvalitenije rezultate.
Uslovi za funkcionisanje Big Data koncepta
• Osnovni uslov za uspješno funkcionisanje koncepta:
– veoma velika količina podataka
• Dodatni uslov:
– velika procesorska snaga (brzina procesora, dužina
procesorske riječi) i memorijski prostor na kojem će se svi ti
podaci skladištiti, kao i
– posebne tehnologije efikasnijeg skladištenja, pristupa i
obrade tih podataka, a kasnije i
– analize i prezentacije dobivenih rezultata (Hadoop
tehnologije).
3V definicija Big Data
• Volume – velika količina podataka koji se prikupljaju,
skladište, obrađuju i distribuiraju za analizu
• Velocity – brzina kojom pristižu novi podaci je
ogromna i veća je od brzine obrade podataka, a radi
se o permanentnom prikupljanju velike količine
podataka u realnom vremenu
• Variety – podaci su dostupni u različitim formatima i
izvorima, a ustvari su najčešće nestrukturirani. Prema
IDC-ovom (engl. International Data Corporation)
izvještaju iz 2011. godine, nestrukturirani podaci čine
više od 90% svih podataka
Povećanje količine, raznolikosti i
kompleksnosti podataka
4V koncept
• Value – kao 4. karakteristika polazi od pretpostavke da
podaci sami po sebi posjeduju određenu vrijednost (engl.
value)
• Po nekim autorima (Janet Wiliamson1), 4. karakteristika nije
vrijednost (Value) nego Veracity, odnosno vjerodostojnost
(istinitost ili, pouzdanost, predvidljivost, tačnost podataka)
u smislu kvaliteta prikupljenih podataka koji može značajno
varirati i tako uticati na tačnost analize.
1 https://www.promptcloud.com/blog/The-4-Vs-of-Big-Data-for-Yielding-Invaluable-Gems-of-
Information/)
Novi V-ovi (karakteristike)
Vremenom su se u Big data koncept uključuju i neki novi V-
ovi poput:
• Vizije (nove ideje sa starim podacima),
• Verifikacije (mogućnost provjeravanja zadovoljavaju li
podaci određeni skup specifikacija - ovaj se proces odvija
prije nego što se podaci podvrgnu bilo kakvoj analizi),
• Validacije (provjera je li svrha podataka zadovoljena i
konzistentna tj. mogu li se isti tačni i prikladni zaključci
dobiti iz istoga skupa podataka bez obzira na broj
ponavljanja analiza) ili
• Varijabilnosti i Vjerodostojnosti
Karakteristike (dimenzije) Big Data

Figure 3. The 10 V’s of Big Data


(Data source: Authors adapted to http://houseofbots.com/news-detail/2819-1-the-10-v%27s-of-big-data)
Dimenzije Big Data (prevod)
Promjenjivost ili varijabilnost (Variability)
Promjenjivost se odnosi na nekoliko različitih stvari. Jedna od
njih je broj nedosljednosti u podacima. Na primjer u analizi
teksta, problem mogu predstavljati riječi, čije značenje nije
uvijek isto, nego zavisi od konteksta. Riječi nemaju svoja
statična značenja, pa se često moraju posmatrati u širem
kontekstu. Da bi riješile ovaj problem, kompanije moraju
razviti veoma sofisticirane računarske programe koji mogu
da razumiju kontekst riječi, da bi se greške svele na
minimum. Podaci, koji su osnov Big Data koncepta su
također promjenjivi i zbog mnoštva različitih karakteristika
istovrsnih podataka, koje su rezultat činjenice da potiču od
više različitih vrsta podataka i različitih izvora.
Valjanost ili kvalitet upravljanja podacima
(Validity)

Slično kao vjerodostojnost, valjanost se odnosi na to koliko su


podaci tačni i ispravni za njihovu namjeravanu upotrebu.
Naučnici za podatke (data scientists) provode značajan dio
vremena na čišćenju podataka prije nego što je moguće
praviti bilo kakve analize.
Koristi od analitike velike količine podataka značajne su
onoliko koliko i koristi od analitike malih količina podataka,
tako da bi kompanije trebale usvojiti dobre prakse upravljanja
podacima da bi obezbijedile dosljedan kvalitet podataka.
Ranjivost (Vulnerability)
Podaci koji su osnova Big Data koncepta nose sa sobom i nove
probleme sigurnosti. Narušavanje sigurnosti podataka, kada su u
pitanju velike količine podataka, možemo nazvati velikim
narušavanjem sigurnosti podataka. Ima mnogo primjera narušavanja
sigurnosti prilikom obrade velike količine podataka.
Jedan od poznatijih primjera 2016. godine "haker pod pseudonimom
Peace objavio je podatke na mračnom webu radi prodaje, koji su
navodno uključivali informacije o 167 miliona LinkedIn računa i 360
miliona e-poruka i lozinki za korisnike MySpace-a.“
Drugi svježiji primjer Facebook skandala 2018 godine sa Cambridge
Analyticom u kojem su od 87 miliona Facebook korisnika širom svijeta
prikupljeni lični podaci.
Nestalnost ili volatilnost (Volatility)
Ova dimenzija podataka, odnosi se na procjenu korisnosti podataka
koji se pohranjuju. Ukoliko se uz pomoć posebnih Big Data tehnologija
utvrdi, da su podaci koje bi trebalo pohraniti trenutno nebitni ili se
procjenjuje da će vrlo brzo postati beskorisni, odnosno da se ne mogu
iskoristiti čak ni za neke trenutno nepredvidive svrhe, onda se takvi
podaci neće ni pohranjivati da ne bi zauzimali prostor za pohranjivanje
korisnih podataka.
Zbog brzine i obima podataka u Big data konceptu, njihovu volatilnost
(korisnost) treba pažljivo razmotriti. Kompanije bi trebale, prije
neselektivnog pohranjivanja podataka, zbog povećanja troškova i
složenosti procesa skladištenja i preuzimanja podataka, provjeriti jesu
li oni jasno povezani sa njihovim poslovnim potrebama i procesima.
Vizuelizacija (Visualisation)
Vizualizacija je izuzetno važna u radu sa velikim količinama
podataka jer se tumači rezultata analize lako mogu izgubiti u
interpretaciji rezultata, čime svrha analize može postati upitna.
Kada postoji potreba za vizuelizacijom praćenja neke pojave kroz
nekoliko miliona zapisa i pri tome se koriste klasične metode
vizuelizacije, tada bi svaki zapis bio predstavljen jednom tačkom, a
grafikon bi se sastojao od nekoliko miliona tačaka, što bi takav
prikaz učinilo nečitljivim i ne bi saopštilo potrebne informacije na
dovoljno razumljiv način.
Razumljiviji prikaz moguće je dobiti klasterizacijom podataka
(grupisanjem u klastere ili grozdove po nekom kriteriju) pri čemu bi
manje grupe podataka, odnosno klasteri, bili predstavljeni jednom
tačkom na grafikonu.
Izvori podataka Big Data
Koje tehnologije omogućavaju realizaciju
Big Data koncepta?
Teorijski kocept koji se zasniva na mogućnosti da veliki
problemi budu razbijeni na manje dijelove, tako da se
analiza manjih dijelova problema može izvršiti brže i
jeftinije, realizovan je uz pomoć Hadoop tehnologije, čije su
karakteristike:
• Razbijanje tih velikih problema na manje dijelove
• Obrađivanje tih dijelova paralelno, odnosno istovremeno
• Međurezultate prikupiti i grupisati radi dobivanja krajnjih
rezultata,
Cilj je: ogromna ušteda na brzini procesiranja, odnosno
skraćenju vremena potrebnog za dobivanje krajnjih
rezultata.
Šta je Hadoop?
• Hadoop je open-source softverski framework Apache
fondacije (AFS)
• Njegov nastanak, odnosno njegova primjena je
omogućila prvu praktičnu realizaciju Big Data
koncepta
• To znači:
– mogućnost skladištenja i procesiranja velikih količina
podataka na lak i jednostavan način i
– dobivanje rezultata u realnom vremenu ili tačnije u
razumno potrebnom vremenu
Osnovne informacije o Hadoop-u
• Apache Hadoop-softverski okvir otvorenog koda namijenjen
za distribuiranu pohranu i obradu velikih podataka
• Iza 2000. godine, grupa softverskih entuzijasta (prije svih Doug
Cutting i Mike Cafarella) je radila na open source Web
pretraživaču pod imenom Nutch. Da bi riješili problem
skalabilnosti zbog popularnosti i rasta World Wide Web-a,
uvodeći indeksiranje radi olakšavanja pretraživanja
informacija u tekstualnom obliku, oni su imali ideju vraćanja
rezultata pretraživanja raspodjelom podataka, te obradama na
više računara, tako da više zadataka može biti urađeno
istovremeno.
• 2008. godine Hadoop pobjeđuje na takmičenju u sortiranju
terabajta podataka (209 sekundi, na klasteru od 910 čvorova)
• Mnogo kompanije ga koriste u edukacijske i produkcijske
svrhe (Facebook, LinkedIn, Amazon, Ebay, Spotify )
Osnovne informacije o Hadoop-u
• Yahoo! i Google su prve dvije kompanije koje su
raspolagale ogromnom količinom informacija, pa su se
potrudili da nađu način kako da najbolje iskoriste te
podatke, dajući im određeni smisao i vrijednost.
• Menadžeri ovih kompanija su među prvima shvatili koji
značaj može imati ta ogromna količina prikupljenih
informacija kada se one uklope u njihovo poslovanje.
• 2003. godine Google objavljuje dokument pod
nazivom Google File System (GFS) u kojem se detaljno
opisuje arhitektura distribuiranog fajl sistema koji su oni
već duže vrijeme koristili..
Osnovne informacije o Hadoop-u
• Nakon toga (2004. godine) Google objavljuje još jedan dokument pod
nazivom MapReduce: Simplified Data Processing on Large Clusters.
• Ubrzo nakon toga na NDFS – u (Nutch Distributed File System) koji je bio vrlo
sličan GFS – u i na MapReduce – u izgrađen je Nutch. Projekat Hadoop
nastaje iz Nutch – a, a svoju pravu podršku dobija kada se jedan od
osnivača, Doug Cutting pridružuje Yahoo – u 2006. godine.
• Web pretraživač se i dalje nazivao Nutch, a dio za paralelno procesiranje
nazvan je Hadoop (sin osnivača Doug-a Cutting-a imao je igračku malog
slona po imenu Hadoop).
• 2008. godine Yahoo je predstavio Hadoop kao open-source projekat. Danas,
Hadoop platformu i ekosistem tehnologija održava i njome upravlja
neprofitna Apache Software Fondacija (ASF)
• Zajedno sa Spark tehnologijom, Hadoop je praktično sinonim za BigData ili
za obradu velikih količina podataka koji se koristi u ogromnom broju
kompanija širom svijeta
Hadoop alati (komponente)
Hadoop je pisan u programskom jeziku Java, pa se smatra
računarskim okruženjem (ekosistemom) koje je bazirano
na:
• HDFS-u (Hadoop Distributed File System) kao osnovi za
skladištenje podataka na distribuiranim serverima prije
njihovog organizovanja.
• MapReduce-u koji predstavlja interfejs za paralelno
procesiranje velikih količina podataka skladištenih u
HDFS-u
HDFS (karakteristike)
• HDFS je Hadoop distribuirani fajl sistem, koji je nastao iz
Google fajl sistema (GFS). Karakteristike HDFS-a su:
• Maksimalno pojednostavljuje skalabilnost (proširivost).
• Pogodan je za skladištenje velike količine podataka.
• Veoma je otporan na greške (brzo i automatsko
otklanjanje grešaka)
• Nije hardverski zahtjevan. Dizajniran je tako da može da
radi na bilo kojoj hardverskoj platformi, što predstavlja
ogromnu prednost u odnosu na ostale fajl sisteme zbog
činjenice da mu nije potrebna skupa hardverska infra-
struktura već može da radi i na veoma jeftinim običnim
kućnim računarima.
HDFS Arhitektura
MapReduce (pojam i karakteristike)
Rješavanje problema obrade velike količine podataka, koji rezultira
značajno većom brzinom (skraćenjem vremena potrebnog za
odgovore na upite ili obradu), odnosno produktivnošću u smislu
manjeg angažovanja ljudskog rada, kao i manjim troškovima obrade
(ekonomičnošću u smislu manje potrošnje el. energije, korišćenje
jeftinijih računara, manje angažovanje ljudskog rada itd.).
Komponente (procesi) obrade su:
• Razbijanje velikih (složenih) problema ili poslova (jobs) na manje
(jednostavnije) podprobleme (po principu „divide and conquer” ili
„zavadi pa vladaj“).
• Nezavisne podprobleme (zadatke) dodjeljivati nezavisnim
„radnicima” (engl. workers) i rješavati ih paralelno, odnosno
istovremeno.
• Kombinovati (spajati) međurezultate od svakog nezavisnog „radnika”
da bi se dobio jedinstveni output ili krajnji rezultat.
MapReduce

Izvor: https://www.edureka.co/blog/mapreduce-tutorial/#mapreduce_word_count_example
Jednostavan primjer Za MapReduce
Primjena Hadoop tehnologije
• Veliki je spektar oblasti gdje može da unaprijedi
poslovanje i poveća profit
• Najčešće se koristi u sljedećim oblastima: finansije,
marketing, prodaja, proizvodnja
• Nalazi se u 37% svih Open Source Big Date
tehnologija, te u 47% komercijalnih Big Date
tehnologija
• Hadoop danas distribuiraju u svojim proizvodima
Cloudera, Hortonworks, MapR, IBM, Microsoft,
Amazon Web Services

You might also like