Professional Documents
Culture Documents
BigData - Vestacka Inteligencija
BigData - Vestacka Inteligencija
inteligencija
Dr Sonja D. Radenković
Great Wave of Data
• Digitalno doba – doba velikih talasa podataka
• Ogromna količina podataka, neophodna je
velika memorija za čuvanje
• „Informacija će biti nafta 21. veka“
Gartner, 2010
• „Podaci su gorivo nove digitalne ekonomije u
nastajanju“
The Economist
6. 05. 2017.
Upravljanje podacima u organizaciji
• Upravljanje podacima u organizaciji (Data
Governance) je pristup upravljanju
informacijama na nivou cele organizacije.
• Sastoji se od formalnih procedura i politika
koje su tako osmišljene da osiguravaju da
se podaci tretiraju na tačno definisan način.
• Upravljanje glavnim (osnovnim) podacima
(Master Data Management) je proces koji
obuhvata sve poslovne procese i aplikacije
jedne organizacije.
Različiti tipovi podataka
● Podaci koji se obrađuju mogu biti:
● kreirani od strane ljudi (ljudski-generisani podaci)
● automatski-generisani.
● Ljudski generisani podaci (human generated) su
rezultat interakcije ljudi sa računarima na online
servisima, ili digitalnim uređajima, kao npr.
● socijalne mreže,
● Blog-postovi,
● Emailovi,
● Deljenje slika, i poruka, ...
Primeri ljudski-generisanih
podataka
Mašinski-generisani podaci
● Mašinski-generisani podaci su podaci koje generiše
softver i hardverski uređaji kao odgovor na događaje iz
realnog sveta.
● U mašinski-generisane podatke spadaju:
● Log fajlovi
● Podaci iz POS terminala
● Podaci dobijeni iz različitih senzora
● Podaci generisani iz mobilnog telefona...
Primeri mašinski-generisanih
podataka
Tipovi podataka
● Osnovni tipovi podataka su:
● Struktuirani podaci
● Nestruktuirani podaci
● Polu-struktuirani podaci
Strkuirani podaci
● Stuktuirani podaci odgovaraju modelu podataka, ili
šemi i često su u tabelarnoj formi.
● Koriste se da stupe u relaciju između različitih entieta
i prema tome najčešće se čuvaju u relacionoj bazi.
● Prema zastupljenosti alata i bazama koje prirodno
podržavaju stuktruirane podatke, ovi podaci retko
zahtevaju specijalno razmatranje obrade ili čuvanja.
● Primeri struktuiranih podataka:
● Bankarske transakcije
● Fakture
● Zapisi kupaca...
9
Nestruktuirani podaci
● Podaci koji ne odgovaraju modelu podataka ili šemi
podataka su poznati kao nestruktuirani podaci
● Pretpostavlja se da nestruktuirani podaci čine 80%
podataka u svakom poslu.
● Nestruktuirani podaci imaju bržu stopu rasta od
struktuiranih
● Ova forma podataka je ili tekstualna, ili binarna i često su
samo-dovoljni i ne-relacioni.
● Tekstualni fajlovi mogu se sastojati od različitih tvitova, ili
blog postova.
● Binarni fajlovi su često medija fajlovi koji sadrže slike,
audio i video podatke.
Nestruktuirani podaci
● Za obradu i čuvanje nestruktuiranih podataka koristi se
specijalna namenska logika.
● Na primer, za izvođenje videa neohodno je da ispravan
codec bude dostupan.
● Nestruktuirani podaci ne mogu direktno da se
procesiraju ili vrši upit korišćenjem SQLa.
● Aleternativno, NON-only SQL (NoSQL) baza je ne-
relaciona baza koja se može koristiti za čuvanje
nestruktuiranih podataka zajedno sa stuktuiranim
podacima.
.
Polu-struktuirani podaci
● Polu-strukturiani podaci imaju definisan nivo
stuktuiranosti i kozistentnosti, ali nije relacionalan po
prirodi.
● Umesto toga, polu-struktuirani podaci su hijerarhijski
uređeni, ili zasnovani na grafu.
● Ovaj tip podataka se često čuva u fajlovima koji
sadrže tekst.
● Npr. XML podaci: zbog njihove tekstulne prirode i
pridržavanja nekog nivoa strukture, lakše ih je
obrađivati od nestruktuiranih podataka.
Polu-struktuirani podaci
● Izvori polu-struktuiranih podatka su:
● elektronska razmena podatka EDI (electronic data
interchange)
● fajlovi,
● spreadsheet (tabele),
● RSS feeds i
● podaci sa senzora.
● Polu-struktuirani podaci imaju predprocesuiranje, zahteve za
skladištenjem, posebno ako format nije baziran na tekstu.
● Primer pretprocesing polu-sturktuiranih podataka je
validacija XML fajla koji obezbeđuje da je prilagođeno
definiciji šeme.
Metapodaci
● Metapodaci obezbeđuju informacije o
karaktersitkama skupa podataka i strukturi.
● Ovaj tip podataka je uglavnom mašinski generisan i
može se dodati podacima.
● Praćenje metapodataka je veoma važno za Big Data
obradu, skladištenje i analizu pošto obezbeđuje
informaciju o poreklu podataka.
● Primeri metadapodataka:
● XML tags obezbeđuje autora i kreiranje datuma dokumenta
● Atributi koji pokazuju veličinu fajla i rezoluciju digitalne
fotografije.
Teškoće u upravljanju podacima
• Podaci se obrađuju u nekoliko etapa i često na
nekoliko različitih lokacija.
• Upravljanje podacima u organizaciji predstavlja
teškoću iz nekoliko razloga:
1. Količina podataka vremenom eksponencijalno
raste.
2. Podaci su razmešteni svuda po organizaciji i
prikupljaju ih mnogi pojedinci koji koriste različite
metode i uređaje.
3. Podaci potiču iz ličnih, internih i eksternih izvora.
Teškoće u upravljanju podacima
4. Neprestano se razvijaju novi izvori podataka.
5. Podaci vremenom zastarevaju.
6. Bezbednost podataka, njihov kvalitet i integritet
su od suštinskog značaja.
• Kao odgovor na te probleme organizacije
koriste baze podataka i skladišta podataka radi
efikasnosti upravljanja podacima.
Pojam baze podataka
• Korišćenje baza podataka otklanja mnoge probleme koji
su se javljali kod prethodnih metoda čuvanja i pristupanja
podacima.
• Baza podataka (eng. Database) je uređeni skup
međusobno povezanih podataka o jednoj, ili više tema,
predmeta i slika
• U širem smislu, bazu podataka možemo posmatrati kao
integrisani skup podataka o nekom sistemu, kao i skup
postupaka za njihovo održavanje i korišćenje, organizovan
prema potrebama korisnika.
Pojam baze podataka
• Bazu podataka potrebno je održavati, zato što je
istovremeno koristi više korisnika ili programa.
• Danas je veoma bitan i značajan koncept baze podataka
po kome je to, u stvari, zajednički resurs koga
istovremeno (konkurentno) koristi veći broj programa, jer
se pravi efekti baze podataka ispoljavaju tek kada se radi
u mrežnom okruženju.
• Kada govorimo o elektronskom zapisu, baza podataka je
skup podataka koji se sastoji od najmanje jedne datoteke
ili grupe integrisanih datoteka, koje se obično čuvaju na
jednom mestu i koje istovremeno može koristiti više
korisnika za različite aplikacije.
Hijerarhija podataka
• Podaci su organizovani u hijerarhije koje započinju
bitom i nastavljaju se sve do baze podataka.
• Bit je najmanja, fundamentalna, jedinica podataka.
Bitovi se grupišu u veće celine kako bi opisali složeniju
informaciju, ili prikazali veću količinu.
• Bajt se sastoji se od 8 bitova poređanih od krajnjeg
desnog do poslednjeg levog bita. Jednim bajtom
možemo da prikažemo 256 različitih informacija
(količina) od: 000000002 do 111111112, odnosno od 010
do 25610.
Hijerarhija podataka
Hijerarhija podataka
• Nizom bajtova u odgovarajućem formatu zapisuju se
vrednosti pojedinih podataka i predstavljaju jedno
polje baze podataka
• Niz polja se organizuje u zapise (rekorde).
• Zapisi istog formata se slažu i čine datoteke (ili
tabele), koje su fizički zapisane na disku.
• Logičko grupisanje srodnih datoteka čini bazu
podataka.
• Postoje i posebni podaci kojima se opisuju
pojedinačne datoteke i takvi podaci se zovu meta‐
podaci (metadata), tj. podaci o podacima.
Hijerarhija podataka
Sistem za upravljanje bazom podataka
• Sistem za upravljajnje bazom podataka - SUBP (eng.
Database Management System – DBMS) je softver
koji se koristi za prikupljanje podataka u računaru,
njihovu organizaciju prema potrebama korisnika,
sortiranje i izdvajanje delova informacija koji su od
interesa i generisanje odgovarajućih izveštaja.
• Termini baza podataka i upravljanje bazom podataka
se ponekad mešaju.
Sistem za upravljanje bazom podataka
Sistem za upravljanje bazom podataka
• SUBP minimizira sledeće probleme:
• redundantnost podataka (kada se isti podaci
čuvaju na više mesta),
• izolovanost podataka (kada aplikacije ne mogu
pristupati podacima koji su povezani sa drugim
aplikacijama),
• nekonzistencija podataka (kada se razne kopije
istih podataka ne podudaraju).
Sistem za upravljanje bazom podataka
• SUBP maksimizira:
• bezbednost podataka,
• integritet podataka (podaci moraju ispuniti
određene kriterijume, npr. da ne smeju da postoje
slova u polju gde se nalazi JMBG),
• nezavisnost podataka (aplikativni softver i podaci
ne zavise jedni od drugih tj.aplikacije i podaci nisu
međusobno povezani što znači da razne aplikacije
mogu pristupati istim podacima).
Kreiranje baze podataka
• Podaci moraju biti tako organizovani da korisnici
mogu da im pristupe, da ih analiziraju i da ih
razumeju.
• Baza podataka sastoji od podataka koji su
međusobno povezani na različite načine i njihove
vrednosti predstavljaju deo realnog sveta.
• Ključ za efikasno stvaranje baze podataka jeste model
podataka.
• Model podataka (Data Model) je dijagram koji
predstavlja entitete u bazi podataka i njihove
međusobne odnose.
Entitet
• Entitet (Entity) je osoba, mesto,stvar ili događaj (npr.
kupac, zaposleni ili proizvod) o kojima se čuvaju
informacije.
• Entitet (eng. Entity) je skup objekata iz realnog sveta koji
imaju neka zajednička svojstva.
• Svojstva entiteta se nazivaju atributi.
Entitet
• Uobičajeni prikaz entiteta kakav u praksi često nalazimo
je u tabelarnom obliku.
Entitet
• U entitetu mora postojati identifikator koji jednoznačno
definiše elemente entiteta. Ne mogu postojati dva
elementa sa istom vrednošću tog identifikatora.
• Jedinstveni identifikator za svaki element entiteta naziva
se Primarni ključ (eng. Primary key).
• U nekim slučajevima da bi se locirao određeni zapis
mora se koristiti i sekundarni ključ.
• Sekundarni ključ (Secondary Key) je drugo polje koje
sadrži neke identifikacione informacije, ali za njega je
karakteristično da može, a ne mora da identifikuje zapis
sa stoprocentnom tačnošću.
Entitet
• U sistemu baze podataka skupovi – entiteti su
međusobno povezani logičkim vezama relacijama.
GB, TB, EB
1. Volume
2. VELOCITY (brzina)
• U Big Data okruženju, podaci dolaze velikom
brzinom.
• Izuzetno veliki skupovi podataka se mogu napraviti
u veoma kratkom periodu vremena.
• Primer. Social media poruke koje se prenosi u
sekundi.
• Tehnologija omogućava analizu podataka dok se
oni generišu.
• Ime joj je in-memory analitika, bez skladištenja u
baze podataka.
2. VELOCITY (brzina)
• Velocity se odnosi na brzinu kojom su novi podaci
genersiani,kao i na brzinu kojom se oni prenose.
• Obezbediti veliki priliv podataka zahteva da
preduzeće kreira veoma elastičnu i dostupnu
obradu podataka, kao i odgovarajuće mogućnosti
skladišćenja podataka.
• U zavisnosti od izvora podataka, brzina ne mora
uvek da bude visoka.
• Npr, MRI slike frekvetno generisane kao logovi iz
frekvetnog saobraćaja web servera.
2. VELOCITY (brzina)
• Primeri:
• VELOCITY podrazumeva da sledeći skup podataka
može biti jednostavno generisan za minut:
• 350.000 tvitova
• 300h video upload-ova na YouTube-u
• 171 mil emailova
• 330GB podataka sa senzora
3. VARIETY (raznolikost)
• Raznolikost podataka odnosi se na brojne formate i tipove
podataka koji trebaju biti podržani.
• 80% podataka je nestruktuirano (teskt, slike, video, glas).
• Koristeći tehnologiju možemo analizirati i koristtit u isto vreme
podatke različitih tipova kao što su poruke, konverzacija sa
socijalnih medija, slike, podaci sa senzora, video ili snimanje
glasa.
3. VARIETY (raznolikost)
• Različiti tipovi izvora podataka:
• Relacione tabele
• Nizovi
• Dokumenta: nestruktuirana
(tekst), ili polustruktuirani (XML,
RDF)
• Grafovi (Socijalne mreže,
semantički web, mreže puteva...)
• Vremenske serije (video/audio
podaci, EEG..)
• Multimedijalni podaci
• Strimovi (podaci sa senzora,
RFID, ...)
4. VERASITY (kvalitet)
• Veracity – istinitost
• Podaci koji su dobijeni na kontrolisan način.
• Primer: Podaci dobijeni preko online registracije
korisnika.
• Ovi podaci obično sadrže manje buke, nego podaci
dobijeni posredstvom nekontrolisanih izvora, kao što
su blog-postovi.
• Veracity se odnosi na kvalitet ili pouzdanost
podataka
4. VERASITY (kvalitet)
• Podaci koji ulaze u Big Data okruženje je potrebno da
budu procenjeni kao kvalitetni.
• To uključuje obradu podataka da bi se rešili nevažeći
podaci i otklonio šum.
• Podaci mogu biti:
• signal - ima vrednost i vodi do značajne informacije) ili
• šum (noice) - nema vrednost.
• Podaci sa visokim signal-to-noise odnosom su kvalitetniji
nego oni sa nižim odnosom.
• Signal-to-noise odnos zavistan je od izvora podataka i
njihovog tipa.
4. VERASITY (kvalitet)
• U mnogim formama Big Data ikvalitet i tačnost
se teže kontrolišu.
• Tu spadaju postovi sa Tvitera sa hashtag-
ovima, skraćenice, žargon, itd.
• Tehnologija sada omogućava da se manipuliše
i tim tipovima podataka.
5. VALUE (Vrednost)
• Vrednost podataka definisana je kao korisnost
podataka za preduzeće.
• Karakteristika vrednosti je intuitivno povezana
sa karakteristikom veracity.
• Što su podaci pouzdaniji, veća im je vrednost.
• Vreme i vrednost su inverzno povezani: ako je
podacima potrebno duže vremena da postanu
značajna informacija, oni imaju manju vrednost
za kompaniju.
5. VALUE (Vrednost)
5. VALUE (Vrednost)
• Vrednost je takođe povezana i sa brzinom obrade
podataka.
• Analitički rezultati imaju shelf-life (rok trajanja), npr. 20
min kašnjenja ima malo, ili nimalo vrednosti za
trgovinu.
• Stari rezultati onemogućavaju kvalitet i brzinu
odlučivanja.
• Pristup BD nije dobar, ako ga ne pretočimo u vrednosti.
• Kompanije će početi da generišu ogromnu vrednost od
velikih podataka.
5. VALUE (Vrednost)
• Na vrednost utiču i sledeće stavke:
• Kako su podaci bili sačuvani?
• Da li su korisni atributi podataka uklonjeni tokom
čišćenja?
• Da li su odgovarajući tipovi pitanja postavljeni tokom
analize?
• Da li su rezultati analize tačno prezentovani
menadžerima?
Analiza podataka
• Analiza podataka je proces istraživanja
podataka da bi se otkrile stavke, relacije,
paterni i/ili trendovi.
• Glavni cilj analize je podrška boljem
odlučivanju.
• Jednostavan primer analize podataka je analiza prodaje
sladoleda da bi se odredile kako je povezana prodaja
sladoleda sa dnevnom temperaturom.
• Rezultat takve analize prikazuju koliko treba sladoleda
naručiti na osnovu vremenske prognoze.
• Analiza podataka pomaže u utvrđivanju paterna i relacija
između podataka koji su analizirani.
Analitika podataka (Data Analytics)
• Analitika podataka je širi pojam koji obuhvata analizu
podataka
• Disciplina koja uklučuje upravljanje
celokupnim životnim ciklusom podataka,
odnosno sakupljanjem, čišćenjem,
organizovanjem, čuvanjem, analizom i
upravljanjem podacima.
• Izraz uključuje razvoj metoda analize,
naučnih tehnika i automatizovane alate.
Analitika podataka (Data Analytics)
• U okruženju Big Data, analitika podataka razvila je
metode koji omogućavaju analizu podataka,
koja se odigrava preko visoko
skalalbilne distribuirane tehnoglogije
i okvira koji je sposoban za analizu
velike količine podataka iz različitih
izvora.
Životni ciklus analitike BD
• Životni ciklus analitike BD uključuje:
• identifikovanje,
• pribavljanje,
• priremu i
• analizu
velike količine sirovih, nestrutkurianih podataka da bi se
izvukle značajne informacije koje mogu da služe kao
ulaz za identifikovanje paterna, pobolljšanje postojećih
poslovnih podatka i pretraživanja.
Primeri korišćenja analitike podataka
• Organizacije koriste alate i tehnike BD na različite
načine:
• U poslovnom okruženju, analitika podataka može da
smanji operacione troškove i i olakša strateško
donošenje odluka.
• U naučnom domenu, može da pomogne u
identifikovanju uzroka fenomena i poboljšanju
tačnosti predviđanja.
• U service-based okruženju kao što je javni sektor
organizacije, može da pomogne u osnažnivanju i na
isporučivanju visoko-kvalitetnog servisa
smanjivanjem cene.
Odlučivanje vođeno podacima
• Analitika podataka omogućava odlučivanje vođeno
podacima (Data-Driven Decision-Making).
• Za ovaj vid odlučivanja postoji naučna podrška tako
da se odluka bazira na
činjenicama, a ne samo
na prošlom iskustvu, ili
intuiciji.
Kategorije analitike podataka
• Postoje četiri kategorije analitike koje se razlikuju
prema rezultatima koji proizvode:
1. Deskriptivna analitika
2. Dijagnostička analitika
3. Prediktivna analitika
4. Propisana (prescriptitve) analitika
• Različiti tipovi analitike obuhvataju različite tehnike i
algoritme analize.
• To znači da može doći do variranja u podacima,
skladištenju i zahtevu obrade da bi se ispunilo
isporučivanje višestrukih tipova analitičkih rezultata.
Prikaz analitike podataka
Veštačka
inteligencija u
poslovanju
Novi Inovacija
koncept
Veštačka inteligencija u analizi podataka
Mašinsko učenje – osnovni koncepti
• Mašinsko učenje (eng. Machine Learning) je
oblast veštačke inteligencije koja omogućava
aplikacijama da
samostalno uče na
osnovu podataka.
Mašinsko učenje – srž veštačke
inteligencije
Mašinsko učenje – srž veštačke
inteligencije