You are on page 1of 6

INFOTEH-JAHORINA Vol. 14, March 2015.

Tehnologije upravljanja podacima


Obrada podataka u realnom vremenu i analitike tehnologije sa novim vrstama baza
podataka

Daliborka Mainkovi
Informacione tehnologije
Fond zdravstvenog osiguranja Republike Srpske
Banja Luka, Republika Srpska, BiH
daliborka.macinkovic@teol.net

SadrajPotreba za razvojem novih tehnologija upravljanja Unutar osnovnih usluga cloud-a izdvojila se i usluga DBaaS
podacima uslovljena je okruenjem za rad sa velikom koliinom (Database as a Service) [2]. Neke od osnovnih zahtijeva koje bi
podataka poznatom kao Big Data, sve veim brojem usluga u trebale da imaju baze podatka koje treba da odgovore
raunarskom oblaku - Cloud Computing, rastuim brojem smart zahtjevima cloud okruenja su: visoka dostupnost, brzina,
objekata u internetu - Internet of Things. U sluajevima kada sigurnost i privatnost, pouzdanost, konzistentnost, skalabilnost,
relacione baze podataka ne mogu da osiguraju dovoljno dobre distribuiranost.
performanse pri radu sa ogromnom koliinom heterogenih
podataka razmatraju se NoSQL baze podataka. Nove vrste baza Internet of Things (IoT) je nova paradigma koja rapidno
podataka trebaju omoguiti visoku dostupnost, brzinu obrade, dobija na snazi u scenariju modernih beinih
sigurnost i privatnost, pouzdanost, konzistentnost, skalabilnost, telekomunikacija. Osnovna ideja ovog koncepta je prisustvo
distribuiranost. Sve vee izazove predstavljaju podaci nastali oko nas razliitih stvari ili objekata kao to su Radio-
interakciom izmeu ureaja (M2M machine-to-machine Frequency IDentification (RFID) tagovi, senzori, aktuatori,
interaction) i interneta stvari (IoT Internet of Things) koje mobilni telefoni itd. koji su u mogunosti, putem jedinsvenih
treba obraditi u realnom vremenu. Korienje tehnologija za adresinih ema, da ostvaruju interakciju i sarauju za postizanje
brzu obradu podataka u realnom vremenu, memorijske analitike zajednikih ciljeva [3]. Oekivanja su da e se broj smart
i analitike toka podataka, prua nove mogunosti. Poslovna ureaja do 2020. godine poveati na 50 milijardi, to
inteligencija omoguila je korisnicima da iz podataka poslovanja
predstavlja znaajno poveanje broja smart ureaja po
preduzea dobiju kljune informacije na temelju kojih e
osobi[4]. Senzori i drugi ureaji generiu ogromnu koliinu
donositi poslovne odluke. Odreena reaktivnost zahtijeva
napredak u analitikim tehnologijama prediktivne analitike,
podataka koja zahtijeva obradu toka podataka u realnom
kontekstualno svjesnih servisa, bihevioralne analitike, vremenu. Informacije sa novih izvora podataka treba uiniti
kompleksnog procesiranja dogaaja. vrijednim, sa mnotvom inteligencije i integrisati u ih u
poslovne sisteme za stvaranje novih vrijednosti. Prisutni
Kljune rijei- NoSQL baze podataka; memorijsko upravljanje koncepti poput data collection, data processing, data mining,
podacima; analitika toka podataka; prediktivna analitika; information sharing, information fusion, information
kompleksno procesiranje dogaaja (CEP) integration ukazuju na raznorodne aktivnosti koje treba obaviti
sa podacima u novonastalim okolnostima.
I. UVOD U dananjem procesu donoenja odluka, dostupnost
Ovaj rad predstavlja nove tehnologije za upravljanje podataka u realnom vremenu za precizne informacije su od
podacima i nove vrste baza podataka. Cilj jeste da se sagledaju kljunog znaaja. Uz sve vei obim podataka, iz sveprisutnih
pravci razvoja, trenutne tehnologije i izazovi za obradu i objekata, povezanih ureaja, drutvenih mrea, potrebe
uvanje podataka izazvani novim okolnostima. povezivanja sa podacima velikih ERP sistema, ispravno
donoenje odluka u velikoj mjeri oslanja se na napredak u
"Big Data" se definie kao koliina podataka koju treba sposobnosti analitikih tehnologija, koje trebaju donijeti
smijestiti, kojom treba upravljati i koju treba procesirati na inteligenciju u podacima. Novi oblici analitike su se pojavili da
efikasan nain [1]. Big Data karakteriu 3V kao koliina bi uklonili potrebu za prethodnim modelima metapodataka, to
podataka, (Volume), brzina kojom podaci dolaze i obrauju se je rezultovalo sa brim upitima i dinaminiom obradom
(Velocity), raznorodne strukture podataka (Variety), ali i podataka. Razni analitiki alati imaju za cilj da izdvoje
karakteristike kao to su vjerodostojnost u podacima relevantne informacije iz ogromnih koliina sirovih podataka i
(Veracity), neospornost podataka (Validity), nestalnost omogue bru obradu podataka u toku. In-memory analitika
(Volatility) i dr. keira velike koliine podataka u RAM memoriju umjesto na
Veliki pokreta primjene novih baza podatka i novih fizike diskove ime se smanjuje vrijeme upita nad podacima i
tehnologija upravljanja podacima je pojava Cloud Computinga. pojaava brzina donoenja odluka. Streaming analititika je

- 451 -
jedna od oblika analitike sa potrebom analize podataka u poboljaju relevantnost sadraja analitike. Predvia se da e
pokretu koje treba obraditi u realnom vremenu, tako da odluke budue aplikacije zahtijevati bre vrijeme odziva upita, gdje
mogu biti donesene u sekundama. in-memory analitika moe biti ugraena na nivou ipseta, dok
Rad je organizovan u etiri dijela. Nakon uvoda u drugom se tradicionalna skladita podataka mogu eventualno koristiti
dijelu opisuju se in-memory analitika sa tehnologijama, in- za podatke koji se esto ne zahtijevaju.
memory data management i in-memory low-latency a) In-memory analytics je omoguena sa nizom in-
messaging, i streaming analitika. Ukazuje se na tehnologije za memory tehnologija:
inteligentno donoenje odluka kao to su prediktivna analitika
sa pristupima zasnovanim na obrascima, pravilima i kontroli
In-memory data management (IMDBMS): Sistem za
statistikih procesa, bihevioralna analitika, kompleksno upravljanje in-memory bazom podataka pohranjuje
procesiranje dogaaja, konteksno-svjesni raunarski servisi. cijelu bazu podataka u raunarski RAM, negirajui
Posebno se predstavlja MapReduce. Tree poglavlje opisuje potrebu za disk I / O instrukcijama. To omoguava
karakteristike NoSQL baza podataka najee grupisane kao aplikacijama da se pokrenu u potpunosti u memoriji;
klju-vrijednost, orijentisane prema kolonama, dokumentno In-memory grid podataka (IMDG): prua
orijentisane, objektno orijentisane, bazirane na grafovima. U distribuirano in-memory smijetanje podataka u
etvrtom poglavlju daje se zakljuak o novim tehnologijama za kojoj viestruke, distribuirane aplikacije mogu
upravljanje podacima izazvane novim okolnostima. smjestiti i dohvatiti velike koliine podataka sa
objekata.
II. NOVE TEHNOLOGIJE UPRAVLJANJA PODACIMA b) In-memory low-latency messaging - Ova platforma
Obrada podataka generisanih interakciom izmeu ureaja prua mehanizam za aplikacije za razmjenu poruka to je bre
(M2M machine-to-machine interaction) i podataka sa novih mogue kroz direktnu komunikaciju memorije.
izvora interneta stvari (IoT Internet of Things) trai odreena 2) Streaming analytics - Analitika toka je nova paradigma
rjeenja. Nedostaci trenutnih Big Data rjeenja su nedostatak analize podataka koja ne zahtijeva uvanje podataka. Ona
rjeenja centralizovane brze obrade velikih koliina podataka obrauje podatke u letu, im stigu velikom brzinom toka, a
na distribuianim sistemima, paketno procesiranje (batch zatim ih odbacuje kako bi se oslobodio prostor za naknadne
processing), nedovoljno poznavanje posebih znanja za podatake. Podaci sa IoT senzora i ureaja se stalno mijenja, i
analitiku podataka, visoka latentncija, trokovi za infrastruktu i
ne mogu predstavljati promjene koje su smislene, npr
energiju za uvanje takvih podataka, nedovoljna skalabilnost
za podatake. periodino auriranje informacija temperature. Streaming
analitika se mora primijenjivati da izvue smislene promjene u
Kod obrade toka podataka podaci stiu kontinuirano, tok podacima, zatim za otkrivanje sloenih obrazaca i s vremenom
podataka je nepredvidive veliine, a podaci se mogu nakon doi do akcije koja e imati znaenje za sredinu. Neki primjeri
obrade sauvati ili odbaciti. Pri obradi toka podataka potrebno aplikacija u realnom vremenu koje zahtijevaju streaming
je identifikovati vane dogaaje. Potrebno je obraivati
analitiku ukljuuju mrene transportne podatke, telefonske
paralelno vie tokova podataka razliitih intenziteta. Sortiranje
se vri prema vremenu, te se izvode agregatne funkcije i unije razgovore, ATM transakcije i senzor podatake. Streaming
nad ulaznim tokom podataka. Nad tokom podataka izvravaju analitika koristi sloene algoritme za obradu trenutnih tokove
se kontinuirani upiti, dok jednokratne upite moe zahtijevati podataka o dogaajima koje prima iz jednog ili vie izvora.
korisnik. IoT zahtijeva analitiku koja e se izvoditi u realnom vremenu i
omoguuje velike koliine podataka koji se uvaju za kasnije
A. Tehnologije za brzu obradu podataka ( Speed of data analize.
processing technologie)[5]
1) In-memory analytics - Memorijska analitika je pristup B. Tehnologije za inteligentno donoenje odluka (Intelligent
podacima postavljanjem upita kada se podaci nalaze u decision-making technologies)[5]
memoriji sa sluajnim pristupom (RAM), za razliku od upita 1) Context-aware computing service- Kontekstno svjesni
nad podacima koji su pohranjeni na fizike diskove. Ovaj raunarski servisi su raunarska paradigma koja opisuje
pristup znatno skrauje vrijeme odziva, omoguavajui softver / hardver koji koristi kontekstualne informacije kako bi
poslovnu inteligenciju (BI) i analitiku za podrku brem se omoguilo da sistem predvia i djeluje u skladu sa profilom
donoenju odluka. Na tradicionalnoj disk-based analitikoj korisnika i predodreenim zahtjevima. Nakon to je sistem
platformi, metapodataci moraju biti kreirani prije samog prepoznao ''kontekst'' u kojem se odvija interakcija, ove
procesa odvijanja analitike. Nain gdje su metapodaci informacije mogu se koristiti za promjenu, pokretanje i
modelovani (po uzoru) zavisi od zahtijeva za analitikom. prilagoavanje ponaanja aplikacije i sistema. Dakle, kontekst
Mijenjanje naina za modelovanje metapodataka da bi se su sve informacije koje se mogu koristiti za opisivanje
ispunili novi zahtjevi trai dobar nivo tehnikog znanja. aktivnosti ili situacije entiteta, gdje je entitet osoba, mjesto ili
Memorijska analitika smanjuje ili eliminie potrebu za objekat koji se smatra relevantnim od strane aplikacije za
indeksiranjem i pohranjivanjem (unaprijed) pre-agregiranih korisnika.
podataka u OLAP kocke ili agregatne tablice. To omoguava 2) Predictive analytics- Prediktivna analitika je skup
developerima da uzmu u obzir sve mogue naine analize i statistikih i analitikih tehnika koje se koriste da otkriju

- 452 -
relacije (odnose) i obrasce (patterns) u okviru velike koliine dogaajima. Informacije unutar primitivnog dogaaja je
podataka, tako da se oni mogu koristiti za predvianje prilino ograniena. Idui naprijed sa IOT aplikacijama u
ponaanja ili dogaaja. Postoje tri metoda kao pristupi u realnom vremenu, informacije su sve sloenije i ukljuuju
prediktivnoj analitici: [6] poslovnu logiku i pravila; izvode korisne informacije,
a) Pattern-based approach (Pristup zasnovan na kombinaciom primitivnih dogaaja u kompleksne dogaaje. U
obrascu) - Ovaj pristup poredi performanse i konfiguracione proizvodnji, u procesima nadzora i kontrole, CEP sistemi su
podatke real-time sistema sa nestruktuiranim izvorima posebno korisni za niske latencije kod prikupljnja podataka i
podataka koji mogu ukljuivati poznate neuspjene profile, kako bi za senzore osigurali da se ovi procesi izvode
istorijske neuspjene zapise i konfiguracione podatke. Cilj je optimalno.
da se ekstrahuju statistiki obrasci u sklopu velikog 4) Behavioural analytics- Bihevioralna analitika je
vieslojnog skladita podataka, koristei mone korelacijske zasnovana na ponaanju i predstavlja kombinaciju strategija i
maine, kako bi se utvrdilo da li trenutni podaci konfiguracije i alata koja omoguuje identifikaciju npr. pojedinanih
performanse ukazuju na vjerovatnou neuspjeha. potroaa i njihovih preferencija potronje i ponaanja. Moe
b) Rule-based approach (Pristup zasnovan na se koristiti za identifikaciju izabranog korisnika ili korisnika
pravilima) - Definie se serija pravila, zasnovanih na kroz viestruke platforme u vremenu i najefikasnija je s
statistikim analizama istorijskih podataka o performansama, razliitim izvorima podataka, npr. mobilne mree ili pretplatu
prethodno identifikovnih neuspjenih naina i rezultata baze podataka. U IoT, jedan primjer bihevioralne analitike je
testiranja sistema. Svako pravilo moe se porediti u odnosu na praenje kretanja kupaca u maloprodaji kako bi se utvrdile
vie izvora podataka i drugih vanjskih faktora kao to su doba namjere kupovine. Trgovci mogu aktivno istraivati takve
dana, uslova rada i istovremene vanjske aktivnosti prema sisteme za mjerenje ponaanja kupaca i predloiti
definisanim pragovima. Krenje tih pravila zatim moe biti odgovarajue preporuke za ciljane kupce. Ostala podruja
prikupljeno i kao eskalacione rutine koriteno za utvrivanje primjene mogu biti u sistema nadzora visokog rizika, za
vjerovatnoe ozbiljnosti i uticaja na rezultate ili ispade. ograniena podruja. Sposobnost analitike moe pratiti
c) Statistical process control-based approach(Pristup obrasce ponaanja za vjerovatnost kriminalnih i teroristikih
zasnovan na kontroli statistikih procesa) - Control charts su aktivnosti. Tehnike filtriranja podataka kao to su anonimnost
se pokazale kao neprocjenjiva pomo u upravljanju podataka, integracija podataka i sinhronizacija podataka,
kompleksnim, procesom voenim sistema. Pojava retrofit - koriste se da sakriju detalje infrormacija pruajui samo
sposobnosti u realnom vremenu telemetrija i poboljanja u informacije prema zahtjevima. Uz korienje apstrakcije
prikupljanju podataka, rjeenja i kapaciteta mree za podrku podataka, informacije se mogu izdvojiti da prue zajedniki
velikih koliina podataka, znai statistike tehnike koje poslovni pogled pri emu se dobija vea agilnost u domenu.
poivaju na kvalitetu unutar proizvodnog prostora. Statistike Sigurnost je od najvee vanosti, integritet podataka
anomalije mogu se lako identifikovati i koristi za pokretanje omoguuje pouzdano i autentino donoenje odluka.
preventivnog djelovanja na odgovarajui nain kako bi se
osiguralo da utiu na performanse usluge. C. MapReduce
3) Complex event processing (CEP) - Kompleksno
je programski model i odgovarajua implementacija za
procesiranje dogaaja obuhvata naine za obradu dogaaja, u procesiranje i generisanje velikih skupova podataka. Korisnici
toku njihovog pojavljivanja i izvoenje obrazaca u definiu map funkciju koja procesira parove klju-vrijednost i
novopridolim podacima o dogaaju. To je raunarski stil koji generie, u meukoraku, skup klju-vrijednost parova i reduce
je implementiran od strane dogaajem voenih, kontinuiranih funkciju, koja obrauje sve vrijednosti iz meukoraka, koje su
inteligentnih sistema. CEP sistem koristi algoritme i pravila za vezane za isti klju [7]. Map i Reduce funkcije se piu imajui
obradu tokove podataka koje dobija sa jednog ili vie izvora, u vidu podatke struktuirane kao klju-vrijednost parove. Map
kao to su ERP aplikacije, financijske aplikacije, web i funkcija uzima parove iz jednog domena podataka i vraa
operativna analitika za generisanje uvida. To stvara nov saet parove iz drugog domena: map(k, v) -> <k', v'>
nivo injenica ili sloene dogaaje, i stavlja ih u kontekst za Map funkcija se izvrava paralelno za svaki ulazni skup
identifikovanje prijetnji i prilika. Ove informacije se zatim podataka, i kao izlaz daje listu (k, v) parova za svaki poziv.
koriste za odgovor u smislu poslovnih aktivnosti. Obrada Zatim MapReduce radni okvir skuplja sve parove sa istim
kompleksno procesiranih dogaaja se aktivira po prijemu kljuem iz svih listi, i grupie ih zajedno, tako kreirajui po
podataka o dogaajima. CEP sistemi smijetaju veliku jednu listu vrijednosti, za svaki od razliitih kljueva. Slijedi
koliinu dogaaja u memoriski prostor, agregiraju nepovezane Reduce funkcija, koja se takoe izvrava paralelno, i kao izlaz
dogaaje iz vie izvora i izvravaju vrlo sloene analize kada proizvodi kolekciju vrijednosti iz istog domena podataka:
podaci o dogaajima stignu. Rezultat koji se dobije CEP reduce (k, list (v)) list(v).
sistemom je znanje o kompleksnim distribuiranim incidentima MapReduce paradigma je pronala znaajnu primjenu u
koji se deavaju u sistemu. CEP je posebno koristan za IoT nerelacionim bazama podataka, gde se koristi za generisanje
brojne dogaaje koji se proizvode svakodnevno. Dogaaji kompleksnih izvjetaja, umjesto SQL upita. Simbioza
koje generiu RFID itai ili senzori smatraju se primitivnim MapReduce pristupa i nerelacionih baza je prirodna, jer

- 453 -
MapReduce forsira paralelno izvravanje, na vie radnih B. NoSQL baze podataka prate BASE svojstva [20]:
stanica, a ne-relacini sistemi za upravljanje podacima su 1) Basically Available (raspoloivost- veina podataka je
uglavnom dobro optimizovani za rad u klasteru, sa dostupna vei dio vremena)
particionisanim podacima, tako da se optereenje izvravanja 2) Soft state (ne mora biti konzistentna u svakom trenutku)
kompleksnih upita ravnomerno rasporeuje na sve vorove. 3) Eventually consistent. (tei se vremenskoj taki u kojoj
D. Dosadanja rjeenja i izazovi e svi vorovi imati konzistentne podatke)
Hadoop-ov HDFS (Hadoop Distributed File System) C. Za NoSQL baze podataka prema CAP teoremi (2000:
distribuirani sistem podataka i MapReduce tehnologija su Eric Brewer) samo dva od sljedea tri aspekta mogu biti
osmiljeni kako bi se efikasno mogle obraditi velike koliine garantovana u isto vrijeme u distribuiranom sisemu [21]:
podataka korienjem vie raunara vezanih u klaster. 1) Consistency (Konzistentnost) - Postoji ureeni redosljed
Trenutni izazovi su razvoj novih tehnologija za distribuirano u kojem se sve operacije izvravaju, tako da svaka operacija
izvravanje analiza online procesiranja umjesto paketnog proizvodi efekt kao da se izvrava momentalno, odnosno u
(batch processing) centraliziranog procesiranja kao efektivni jednom trenutku vremena. Ovo je ekvivalentno zahtjevu da se
nain brze obrade velikih senzorskih podataka za stvarnu real distribuirana, dijeljena memorija ponaa kao da se nalazi na
time obradu. Procesiranje dogaaja u velikim tokovima sa
jednom voru, i da obrauje zahtjeve jedan za drugim. Bitna
ugraenim tehnikama mainskog uenja ima za cilj
karakteristika ovakve dijeljene memorije je da e svaka
omoguavanje brzog uenja i odluivanja bez potrebe za
operacija itanja, koja se izvrava nakon operacije upisivanja,
uvanjem i agregiranjem dolazeih podataka. Razmatraju se
mogunosti brzih SQL upita bez pokretanja suvinih vratiti rezultat koji je proizvela operacija upisivanja.
MapReduce poslova, zatim identifikacija vanih dogaaje, za 2) Availability (Dostupnost)- Podaci uvijek moraju biti
brzu obradu i odluke. Rjeenja in-memory baza podataka, koji dostupni. Pod dostupnou se smatra da servis mora biti u
mogu obavljati visoke analitike i transakcijske obrade svakom trenutku operativan i u stanju da obrauje zahtjeve
predstavljaju velike kompanije kao to su SAP HANA, SAP klijenata. Pored toga, svaki zahtjev, koji primi neki vor
Sybase Stream [8], Oracle Exalytics In-Memory Machine, sistema, mora rezultovati odgovarajuim odgovorom, odnosno
SQL Connector for Hadoop [9], Microsoft[10], IBM[11], svaki algoritam, koji obrauje zahtjev, mora imati ogranieno
Teradata[12]. Neke od platformi za obradu toka podataka u vrijeme izvravanja i na kraju mora proizvesti adekvatan
realnom vremenu su: Aurora [13], Storm [14], Dryad [15], odgovor.
StreamCloud [16]. Primjeri upotrebe NoSQL baza o kojima se 3) Partition Tolerance (Otpornost na particionisanje)-
govori u narednom dijelu su Google i Amazon sa svojim Baza podataka radi normalno i u sluaju ispada u mrei ili
BigTable i Dynamo DB, zatim Facebook Cassandra DB, raunaru. Otpornost na particionisanje se odnosi na
Linkedin Voldemort DB. sposobnost sistema da funkcionie u uslovima mrenih otkaza,
odnosno kada postoje problemi u komunikaciji izmeu
III. NOVI OBLICI BAZA PODATAKA vorova sistema. Prema [21], Gilbert i Lin definiu otpornost
U sluajevima kada relacione baze podataka ne mogu da na particionisanje na sledei nain: Nijedan skup otkaza,
osiguraju dovoljno dobre performanse pri radu sa ogromnom osim otkaza kompletne mree ne smije da prouzrokuje
koliinom heterogenih podataka koriste se novi oblici baza nepravilno funkcionisanje sistema.
podataka. NoSQL definicija [17]: ''Sledea generacija baza
podataka koja se odnosi na svojstva: ne-relacione,
distribuirane, otvorenog koda i horizontalno skalabine''. esto
se navode i sljedee karakteristike: slobodne sheme (schema-
free), jednostavna podrka replikaciji, jednostavni API, BASE
(ne ACID, eventually consistent ), ogromne koliine podataka
itd. Termin NoSQL je dosta irok i obuhvata raznovrsne baze
podataka, zasnovane na razliitim arhitekturama i
tehnologijama, za koje je ipak mogue izvui zajednike
karakteristike, koje ih diferenciraju od relacionih baza. Ono to
je zajedniko svim nerelacionim bazama podataka jeste da ne
poivaju na relacionom modelu i prilagoene su radu sa
velikom koliinom nestruktuiranih podataka [18].

A. Relacione baze podataka [19] podravaju ACID svojstva


transakcija:
1) Atomnost (Atomicity),
2) Konzistentnost(Consistency),
3) Izolaciju (Isolation),
4) Trajnost (Durability). Slika 1. CAP teorema i NoSQL rjeenja [22]

- 454 -
Sutina Bruverove teorme je da ne mogu istovremeno biti Prisutne su podjele NoSQL baza [17] i na:
zadovoljena sva tri zahtjeva u potpunosti, odnosno neto se 6) Viemodelne baze podatka (Multimodel Databases) -
mora rtvovati, kako bi se dobila poboljanja na nekom ArangoDB, OrientDB, Datomic, FatDB, AlchemyDB.
drugom polju, i tu premisu treba imati na umu prilikom 7) Multidimenzione baze podataka (Multidimensional
projektovanja sistema. Na sl. 1. je prikazan odnos CAP
Databases)- Intersystems Cache, GT.M, SciDB, MiniMDB,
teoreme i primjera NoSQL baza podataka.
rasdaman.
D. Kategorije NoSQL (nerelacionih) baza podataka 8) Vievrijednosne baze podataka (Multivalue Databases)
1) Key-Value stores (Klju-vrijednost ) - Ovaj model U2, OpenInsight, TigerLogic PICK, Reality, OpenQM, Model
moemo uporediti sa tabelom u relacionom modelu koja ima 204 Database, ESENT, jBASE.
dvije kolone, klju i vrijednost. Podaci se uvaju u 9) Baze podatka nad mreom i u oblaku (Grid & Cloud
distribuiranim he mapama, gde klju najee predstavlja Database )- GigaSpaces, GemFire, Infinispan, Queplix,
neki string, a vrijednost moe biti neki od tipova koje Hazelcast.
podravaju svi programski jezici, kao to su stringovi, brojevi, 10) XML Databases - EMC Documentum, xDB, eXist,
nizovi ili objekti. Ove baze podataka uvaju raznorodne Sedna, BaseX, Qizx, Berkeley DB XML.
podatke, ali ne rade nikakve dodatne pretrage podataka po vie E. Prednosti i nedostaci relacionih i nerelacionih baza
kriterijuma. Najpopularniji predstavnici: Riak, Redis, podataka
Memcached, Amazon DynamoDB, Voldemort DB.
2) Column-oriented databases (Orijentisane prema Kada se radi sa ogromnom koliinom podataka nerelacione
kolonama.) - Za razliku od relacionih baza podataka, u kojima baze podataka esto pokazuju bolje performanse nego
se podaci grupiu kao redovi, ovdje se podaci grupiu kao relacione, sa istim hardverom i koliinom podataka [23].
kolone, ime se dobijaju bolje performanse kada postoji Nerelacione baze podataka bolje skaliraju, jer su prilagoene
za rad u distribuiranom okruenju. Ukoliko se pojavi potreba,
potreba za upitima koji treba da vrate samo odreene atribute,
korisnici mogu lako dodavati nove, jeftine maine u klaster,
a ne kompletne entitete. U ovim bazama podataka imamo
dok bi kod relacionih baza poveanje performansi
pojmove column i super column. Kolone imaju ime vrijednost
prouzrokovalo znaajno veu investiciju (dodavanje
i timestamp, znai nemamo potrebu definirati shemu. Najvee memorije, diskova). Znaajno je tee osigurati konzistentnost i
prednosti ove vrste baze podataka su brzina i skalabilanost. integritet podataka kod NoSQL baza (eventually consistency
Ogranienja su sloeni upiti, transakcije, postavljanje model), nego to je sluaj kod relacionih baza zahvaljujui
ogranienja. Najpopularniji predstavnici: BigTable, Hbase, ACID karakteristikama. Kod relacionih baza podataka
Sybase IQ, Cassandra DB. struktura i podaci su rigidni, dok kod NoSQL baza podataka
3) Document-oriented (Dokumentno orijentisane) - Podaci shema je fleksibilna (shema free) to znaajno olakava i
su organizovani kao kolekcije dokumenata, koji mogu imati pojednostavljuje dodavanje novih atributa ili promjenu tipa
razliitu strukturu, ime je podrano jednostavno dodavanje i atributa. Relacione baze su dugo prisutne i dobro provjerene
izbacivanje atributa. Ove baze uvaju XML, JSON, BSON na tritu te postoji veliki broj specijalista, kao i alata za
formate dokumenata. Podaci nisu normalizovani. njihovo odravanje. NoSQL baze podataka koriste specifine
Najpopularniji predstavnici: Apache CouchDB, MongoDB, jezike za operacije, koji su esto prilagoeni domenu i modelu
OrientDB, Terrastore DB. kojeg baza podataka podrava. NoSQL baza podataka u nekim
4) Graph databases (Bazirane na grafovima)- Podaci se sluajevima nisu najbolje prilagoeni za kompleksne upite.
predstavljaju u formi grafova, tako to su entiteti predstavljeni Evaluacija postojeih NoSQL baza podataka podrazumijeva
vorovima, a njihove relacije ivicama grafa. Svaka veza i vor dobro poznavanje karakteristika i funkcionisanja pojedinanih
nose odreenu informaciju na osnovu kojih se mogu vrsta baza, zajednikih karakteristika ovih baza, kao i
postavljati brzi upiti. Pretraivanje podataka po vezama specifinosti koje ih ine razliitim. U zavisnosti od
pokazuju velike prednosti performansi. Ogranienja mogu korisnikog zahtjeva mogu se razmotriti grupe NoSQL baza
predstavljati koliine podataka odnosno maksimalan broj podataka koje e najbolje odgovarati traenom zadatku. Pravci
vorova. Najpopularniji predstavnici: Neo4J, FlockDB, daljeg razvoja baza podataka idu u skladu sa zahtjevima
okruenja.
AllegroGraph, InfiniteGraph, VertexDB.
5) Object oriented databases (Objektne baze)- Podaci se IV. ZAKLJUAK
uvaju kao objekti, to je potpuno u skladu sa objektno-
Novo okruenje, sa uslugama u raunarskom oblaku (cloud
orijentisanom filozofijom. Na ovaj nain se eliminie potreba services), web podaci i korienje drutvenih mrea u poslovne
za konvertovanjem podataka iz objektnog u relacioni model, svrhe, smart objekti na internetu (Internet of Things), uslovili
svaki put kada se podaci itaju ili upisuju u bazu. su razvoj novih rjeenja upravljanja podacima. Sistemi za Big
Najpopularniji predstavnici: db4o, ObjectStore, GemStone/S. Data, memorijske baze podataka, obrada toka podatka,
Postojanje odreenih razlika izmeu graf baza podataka s kompleksni algoritmi za procesiranje podataka, NoSQL baze
jedne i klju-vrijednost, dokument, kolone orjentisane s druge podataka, sistemi za inteligentno poslovno odluivanje daju
iniciralo je u nekim radovima da graf baze podataka nisu nove mogunosti. Potreba da se radi efikasno sa velikom
navedene meu NoSQL baze podataka. koliinom podataka zahtijeva nove tehnologije i standarde.

- 455 -
Informacije sa novih izvora podataka kao to su senzori treba [13] D. Abadi, D. Carney, U. Cetintemel, M. Cherniack, C. Convey, S. Lee,
uiniti vrijednim, sa mnotvom inteligencije i integrisati ih u M. Stonebraker, N. Tatbul, S. Zdonik, Aurora: a new model and
architecture for data stream management. The VLDB Journal 2003;12
poslovne sisteme za stvaranje novih vrijednosti. U ovom radu (2):120139.
predstavljeni su neki od prepoznatih i grupisanih tehnologija za [14] Storm Project S. Storm: Distributed and fault-tolerant realtime
upravljanje podacima u realnom vremenu kao to su computation. http://storm-project.net/2012.
upravljanje memorijskim podacima, obrada podataka u toku, [15] M. Isard, M. Budiu, Y. Yu, A. Birrell, D. Fetterly, ''Dryad: distributed
streaming analitika, bihevioralna analitika, prediktivna data-parallel programs from sequential building blocks.'' 2nd ACM
analitika, kompleksno procesiranje dogaaja. Zatim su SIGOPS/EuroSys European Conference on Computer Systems
predstavljene NoSQL baza podataka prema podjelama koje se (EuroSys), EuroSys 07, 2007;5972
najee susreu u literaturama. NoSQL baze podataka su [16] V. Gulisano, R. Jimenez-Peris, M. Patino-Martinez, C. Soriente, and P.
Valduriez, Streamcloud: An elastic and scalable data streaming
nastale iz potreba za uvanjem i obradom velikih koliina system, Parallel and Distributed Systems, IEEE Transactions on, vol.
heterogenih podataka pri emu garantuju konstantne 23, no. 12, pp. 23512365, 2012.
performanse. Na osnovu predstavljenih karakteristika i [17] NoSQL datebase, http://nosql-database.org/ [Accessed 08. 2014]
prednosti NoSQL baza podataka, zajednikih karakteristika i [18] N. Leavitt, Will NoSQL Databases Live Up to Their Promise?,
specifinosti koje ih ine razliitim, mogue je izvriti Technology News, IEEE Computer Society, 2010.
evaluaciju ponuenih baza te razmotriti najbolji izbor u skladu [19] B. Lazarevi, Z. Marjanovi, N. Anii, S. Babarogi, Baze podataka,
sa korisnikim zahtjevom. Kako i jedne i druge vrste baze Fakultet organizacionih nauka, Beograd, 2003.
podataka (relacione i NoSQL) pokazuju prednosti i nedostatke [20] P.J. Sadalage, M. Fowler, (2012). NoSQL Distilled: A Brief Guide to the
jedno od moguih rjeenja jeste integracija heterogenih baza Emerging World of Polyglot Persistence. Crawfordsville, Indiana:
podataka. Ovo rjeenje zahtijeva detaljno planiranje naina i Pearson Education.
trokova, razvijanja, odravanja, neophodnih resursa za [21] S. Gilbert, N. Lynch, Brewers Conjecture and the Feasibility of
uspjeno funkcionisanje ovakvog rjeenja. Za krajnjeg Consistent, Available, Partition-Tolerant Web Services, ACM SIGACT
(Volume 33 Issue 2), 2002.
korisnika rjeenje bi trebalo biti predstavljeno kao jedinstvena
[22] The CAP theorem and the design of large scale distributed systems: Part
baza podataka, dok se zapravo na niim slojevima sastoji od I, Silvia Bonomi University of Rome La Sapienza,
vie raznorodnih baza. Dalja istraivanja odnose se na www.dis.uniroma1.it/~bonomi 2012/13.
predstavljanje rezultata korienja nove tehnologije za obradu [23] U. Bhat, S. Jadhav, Moving Towards Non-Relational Databases,
podatak u realnom vremenu na izabranoj platformi, bazi International Journal of Computer Applications (Volume 1 No. 13),
podataka i analitikim alatima u odreenom poslovnom 2010.
domenu.
ABSTRACT
LITERATURA The need for development of data management new
[1] S. Kaisler, F. Armour, J. Espinosa, J. and G.Washington,Big Data: technologies is conditioned by several factors: working
Issues and Challenges Moving Forward, 46th Hawaii Conference on environment with large amounts of data (known as Big
System Sciences, IEEE Computer Society, pp 9951004, 2013. Data), constantly increasing number of services in the
[2] M. Hogan,: Cloud Computing & Databases, ScaleDB Inc., 2008. computer cloud (Cloud Computing) and growing number of
[3] D. Giusto, A. Iera, G. Morabito, L. Atzori (Eds.), The Internet of Things, smart objects in the Internet (Internet of Things). In cases
Springer, 2010. ISBN: 978-1-4419-1673-0. when relational databases cannot provide good performance
[4] D. Evans. The Internet of Things: How the Next Evolution of the when they operate with vast amount of heterogeneous data,
Internet Is Changing Everything. 2011., [Online]: http://postscapes.com/ another types of databases are considered, such as NoSQL
cisco-internet-of-things-white-paper-how-the-next-evolution-of
theinternet - is-changing-everything%20 [Accessed 10. 2014].
database. New types of databases should provide high
availability, processing speed, security and privacy, reliability,
[5] InternetOfThings [Online]. https://www.ida.gov.sg/~/media/Files/
Infocomm%20Landscape/Technology/TechnologyRoadmap/ consistency, scalability and distribution possibility. Data which
InternetOfThings.pdf [Accessed 06. 2014.] are created in an interaction between devices (M2M - machine-
[6] R. Addy. Emerging Technology Analysis: Predictive Support Services. to-machine interaction) and the Internet of Things (IoT -
[Online] Available from: http://www.gartner.com/id=1875816 Internet of Things), which need to processed in real time,
[Accessed 10. 2014].
[7] J. Dean, S. Ghemawat, MapReduce: Simplified Data Processing on
represent the increasing challenges for the future period. New
Large Clusters, Google Inc., 2004. opportunities can be found in using technology for fast data
[8] SAP. SAP HANA redefines In-Memory. [Online] Available from: processing in real time, memory analytics and data flow
http://www.sap.com/solutions/technology/in-memory-computing- analytics. Business intelligence has enabled users to obtain
platform/index.epx [Accessed 10. 2014]. crucial information from the enterprise business data and use
[9] M. Rittman , In-Memory Big Data Analysis with Oracle Exalytic, Oracle them as a base for making business decisions. Certain
Openworld 2012, San Francisco, 2012. reactivity requires advances in analytical technologies of
[10] Microsoft Research-Database Group Projects [Online] Available from: predictive analytics, contextually-aware services, behavioral
http://research.microsoft.com/en-US/groups/db/projects.aspx [Accessed analytics and complex processing of events.
10.2014]
[11] IBM. IBM solidDB Fastest Data Delivery. [Online] Available from: DATA MANAGEMENT TECHNOLOGIES
http://www-01.ibm.com/software/data/soliddb/ [Accessed 09. 2014]. Data processing in real-time and analytical technologies
[12] Teradata. Teradata Database. [Online] Available from: with new types of databases
http://www.teradata.com/products-and-services/database/teradata-14/
[Accessed 09.2014].
Daliborka Macinkovic

- 456 -

You might also like