You are on page 1of 109

Big Data i veštačka

inteligencija

Dr Sonja D. Radenković
Great Wave of Data
• Digitalno doba – doba velikih talasa podataka
• Ogromna količina podataka, neophodna je
velika memorija za čuvanje
• „Informacija će biti nafta 21. veka“
Gartner, 2010
• „Podaci su gorivo nove digitalne ekonomije u
nastajanju“
The Economist
6. 05. 2017.
Upravljanje podacima u organizaciji
• Upravljanje podacima u organizaciji (Data
Governance) je pristup upravljanju
informacijama na nivou cele organizacije.
• Sastoji se od formalnih procedura i politika
koje su tako osmišljene da osiguravaju da
se podaci tretiraju na tačno definisan način.
• Upravljanje glavnim (osnovnim) podacima
(Master Data Management) je proces koji
obuhvata sve poslovne procese i aplikacije
jedne organizacije.
Različiti tipovi podataka
● Podaci koji se obrađuju mogu biti:
● kreirani od strane ljudi (ljudski-generisani podaci)
● automatski-generisani.
● Ljudski generisani podaci (human generated) su
rezultat interakcije ljudi sa računarima na online
servisima, ili digitalnim uređajima, kao npr.
● socijalne mreže,
● Blog-postovi,
● Emailovi,
● Deljenje slika, i poruka, ...
Primeri ljudski-generisanih
podataka
Mašinski-generisani podaci
● Mašinski-generisani podaci su podaci koje generiše
softver i hardverski uređaji kao odgovor na događaje iz
realnog sveta.
● U mašinski-generisane podatke spadaju:
● Log fajlovi
● Podaci iz POS terminala
● Podaci dobijeni iz različitih senzora
● Podaci generisani iz mobilnog telefona...
Primeri mašinski-generisanih
podataka
Tipovi podataka
● Osnovni tipovi podataka su:
● Struktuirani podaci
● Nestruktuirani podaci
● Polu-struktuirani podaci
Strkuirani podaci
● Stuktuirani podaci odgovaraju modelu podataka, ili
šemi i često su u tabelarnoj formi.
● Koriste se da stupe u relaciju između različitih entieta
i prema tome najčešće se čuvaju u relacionoj bazi.
● Prema zastupljenosti alata i bazama koje prirodno
podržavaju stuktruirane podatke, ovi podaci retko
zahtevaju specijalno razmatranje obrade ili čuvanja.
● Primeri struktuiranih podataka:
● Bankarske transakcije
● Fakture
● Zapisi kupaca...

9
Nestruktuirani podaci
● Podaci koji ne odgovaraju modelu podataka ili šemi
podataka su poznati kao nestruktuirani podaci
● Pretpostavlja se da nestruktuirani podaci čine 80%
podataka u svakom poslu.
● Nestruktuirani podaci imaju bržu stopu rasta od
struktuiranih
● Ova forma podataka je ili tekstualna, ili binarna i često su
samo-dovoljni i ne-relacioni.
● Tekstualni fajlovi mogu se sastojati od različitih tvitova, ili
blog postova.
● Binarni fajlovi su često medija fajlovi koji sadrže slike,
audio i video podatke.
Nestruktuirani podaci
● Za obradu i čuvanje nestruktuiranih podataka koristi se
specijalna namenska logika.
● Na primer, za izvođenje videa neohodno je da ispravan
codec bude dostupan.
● Nestruktuirani podaci ne mogu direktno da se
procesiraju ili vrši upit korišćenjem SQLa.
● Aleternativno, NON-only SQL (NoSQL) baza je ne-
relaciona baza koja se može koristiti za čuvanje
nestruktuiranih podataka zajedno sa stuktuiranim
podacima.
.
Polu-struktuirani podaci
● Polu-strukturiani podaci imaju definisan nivo
stuktuiranosti i kozistentnosti, ali nije relacionalan po
prirodi.
● Umesto toga, polu-struktuirani podaci su hijerarhijski
uređeni, ili zasnovani na grafu.
● Ovaj tip podataka se često čuva u fajlovima koji
sadrže tekst.
● Npr. XML podaci: zbog njihove tekstulne prirode i
pridržavanja nekog nivoa strukture, lakše ih je
obrađivati od nestruktuiranih podataka.
Polu-struktuirani podaci
● Izvori polu-struktuiranih podatka su:
● elektronska razmena podatka EDI (electronic data
interchange)
● fajlovi,
● spreadsheet (tabele),
● RSS feeds i
● podaci sa senzora.
● Polu-struktuirani podaci imaju predprocesuiranje, zahteve za
skladištenjem, posebno ako format nije baziran na tekstu.
● Primer pretprocesing polu-sturktuiranih podataka je
validacija XML fajla koji obezbeđuje da je prilagođeno
definiciji šeme.
Metapodaci
● Metapodaci obezbeđuju informacije o
karaktersitkama skupa podataka i strukturi.
● Ovaj tip podataka je uglavnom mašinski generisan i
može se dodati podacima.
● Praćenje metapodataka je veoma važno za Big Data
obradu, skladištenje i analizu pošto obezbeđuje
informaciju o poreklu podataka.
● Primeri metadapodataka:
● XML tags obezbeđuje autora i kreiranje datuma dokumenta
● Atributi koji pokazuju veličinu fajla i rezoluciju digitalne
fotografije.
Teškoće u upravljanju podacima
• Podaci se obrađuju u nekoliko etapa i često na
nekoliko različitih lokacija.
• Upravljanje podacima u organizaciji predstavlja
teškoću iz nekoliko razloga:
1. Količina podataka vremenom eksponencijalno
raste.
2. Podaci su razmešteni svuda po organizaciji i
prikupljaju ih mnogi pojedinci koji koriste različite
metode i uređaje.
3. Podaci potiču iz ličnih, internih i eksternih izvora.
Teškoće u upravljanju podacima
4. Neprestano se razvijaju novi izvori podataka.
5. Podaci vremenom zastarevaju.
6. Bezbednost podataka, njihov kvalitet i integritet
su od suštinskog značaja.
• Kao odgovor na te probleme organizacije
koriste baze podataka i skladišta podataka radi
efikasnosti upravljanja podacima.
Pojam baze podataka
• Korišćenje baza podataka otklanja mnoge probleme koji
su se javljali kod prethodnih metoda čuvanja i pristupanja
podacima.
• Baza podataka (eng. Database) je uređeni skup
međusobno povezanih podataka o jednoj, ili više tema,
predmeta i slika
• U širem smislu, bazu podataka možemo posmatrati kao
integrisani skup podataka o nekom sistemu, kao i skup
postupaka za njihovo održavanje i korišćenje, organizovan
prema potrebama korisnika.
Pojam baze podataka
• Bazu podataka potrebno je održavati, zato što je
istovremeno koristi više korisnika ili programa.
• Danas je veoma bitan i značajan koncept baze podataka
po kome je to, u stvari, zajednički resurs koga
istovremeno (konkurentno) koristi veći broj programa, jer
se pravi efekti baze podataka ispoljavaju tek kada se radi
u mrežnom okruženju.
• Kada govorimo o elektronskom zapisu, baza podataka je
skup podataka koji se sastoji od najmanje jedne datoteke
ili grupe integrisanih datoteka, koje se obično čuvaju na
jednom mestu i koje istovremeno može koristiti više
korisnika za različite aplikacije.
Hijerarhija podataka
• Podaci su organizovani u hijerarhije koje započinju
bitom i nastavljaju se sve do baze podataka.
• Bit je najmanja, fundamentalna, jedinica podataka.
Bitovi se grupišu u veće celine kako bi opisali složeniju
informaciju, ili prikazali veću količinu.
• Bajt se sastoji se od 8 bitova poređanih od krajnjeg
desnog do poslednjeg levog bita. Jednim bajtom
možemo da prikažemo 256 različitih informacija
(količina) od: 000000002 do 111111112, odnosno od 010
do 25610.
Hijerarhija podataka
Hijerarhija podataka
• Nizom bajtova u odgovarajućem formatu zapisuju se
vrednosti pojedinih podataka i predstavljaju jedno
polje baze podataka
• Niz polja se organizuje u zapise (rekorde).
• Zapisi istog formata se slažu i čine datoteke (ili
tabele), koje su fizički zapisane na disku.
• Logičko grupisanje srodnih datoteka čini bazu
podataka.
• Postoje i posebni podaci kojima se opisuju
pojedinačne datoteke i takvi podaci se zovu meta‐
podaci (metadata), tj. podaci o podacima.
Hijerarhija podataka
Sistem za upravljanje bazom podataka
• Sistem za upravljajnje bazom podataka - SUBP (eng.
Database Management System – DBMS) je softver
koji se koristi za prikupljanje podataka u računaru,
njihovu organizaciju prema potrebama korisnika,
sortiranje i izdvajanje delova informacija koji su od
interesa i generisanje odgovarajućih izveštaja.
• Termini baza podataka i upravljanje bazom podataka
se ponekad mešaju.
Sistem za upravljanje bazom podataka
Sistem za upravljanje bazom podataka
• SUBP minimizira sledeće probleme:
• redundantnost podataka (kada se isti podaci
čuvaju na više mesta),
• izolovanost podataka (kada aplikacije ne mogu
pristupati podacima koji su povezani sa drugim
aplikacijama),
• nekonzistencija podataka (kada se razne kopije
istih podataka ne podudaraju).
Sistem za upravljanje bazom podataka
• SUBP maksimizira:
• bezbednost podataka,
• integritet podataka (podaci moraju ispuniti
određene kriterijume, npr. da ne smeju da postoje
slova u polju gde se nalazi JMBG),
• nezavisnost podataka (aplikativni softver i podaci
ne zavise jedni od drugih tj.aplikacije i podaci nisu
međusobno povezani što znači da razne aplikacije
mogu pristupati istim podacima).
Kreiranje baze podataka
• Podaci moraju biti tako organizovani da korisnici
mogu da im pristupe, da ih analiziraju i da ih
razumeju.
• Baza podataka sastoji od podataka koji su
međusobno povezani na različite načine i njihove
vrednosti predstavljaju deo realnog sveta.
• Ključ za efikasno stvaranje baze podataka jeste model
podataka.
• Model podataka (Data Model) je dijagram koji
predstavlja entitete u bazi podataka i njihove
međusobne odnose.
Entitet
• Entitet (Entity) je osoba, mesto,stvar ili događaj (npr.
kupac, zaposleni ili proizvod) o kojima se čuvaju
informacije.
• Entitet (eng. Entity) je skup objekata iz realnog sveta koji
imaju neka zajednička svojstva.
• Svojstva entiteta se nazivaju atributi.
Entitet
• Uobičajeni prikaz entiteta kakav u praksi često nalazimo
je u tabelarnom obliku.
Entitet
• U entitetu mora postojati identifikator koji jednoznačno
definiše elemente entiteta. Ne mogu postojati dva
elementa sa istom vrednošću tog identifikatora.
• Jedinstveni identifikator za svaki element entiteta naziva
se Primarni ključ (eng. Primary key).
• U nekim slučajevima da bi se locirao određeni zapis
mora se koristiti i sekundarni ključ.
• Sekundarni ključ (Secondary Key) je drugo polje koje
sadrži neke identifikacione informacije, ali za njega je
karakteristično da može, a ne mora da identifikuje zapis
sa stoprocentnom tačnošću.
Entitet
• U sistemu baze podataka skupovi – entiteti su
međusobno povezani logičkim vezama relacijama.

• Veza između skupova‐entiteta ostvaruje se vezom


između pojedinih elemenata tih skupova.
Relacioni model podataka
• Relacioni model podataka zasniva se na ideji
dvodimenzionalne tabele.
• Relaciona baza podataka sastoji se od većeg
broja međusobno povezanih datoteka koje su
struktuirane u obliku tabela.
• Tabele u relacionim bazama podataka se
sastoje od redova i kolona.
Relacioni model podataka
• Redovi predstavljaju zapise (slogove), a kolone
polja.
• Relacije se odnose na veze između podataka
sačuvanim u različitim tabelama.
• Relacioni model baze podataka u velikoj meri
odgovara predstavljanju događaja stvarnog
sveta i podacima koje ti događaji generišu.
Relacioni model podataka
Normalizacija
• Redundansa je ponavljanje podataka u bazi
podataka.
• Da bi se efikasno koristile baze podataka
potrebno je analizirati podatke da bi se uklonili
elementi koji su redundantni.
• Normalizacija je postupak analize i sažimanja
relacione baze podataka da bi se uklonili
elementi koji su redundantni.
• Kada su podaci normalizovani, atributi u tabeli
zavise samo od primarnog ključa.
Normalizacija
Normalizacija
Normalizacija
Skladište podataka

• Skladište podataka (eng. Data Warehouse) je


repozitorijum svih prošlih baza
podataka, koje su
organizovane po
temama kako
bi pružale podršku
donosiocima odluka.
Skladište podataka

• Karakteristike skladišta podataka:


• Organizovanost prema poslovnoj dimenziji i temi
• Konzistentnost
• Istorijski trag
• Nepromenljivost
• Koristi se analitička obrada u realnom vremenu (OLAP
– Online Analitical Processing)
• Multidimenzionalnost
• Odnos sa relacionim bazama podataka.
Skladište podataka

• Prednosti skladišta podataka:


• Krajnji korisnici mogu lako pristupiti podacima
pomoću pretraživača
• Krajnji korisnici mogu vršiti sveobuhvatnu analizu
podataka
• Krajnji korisnici mogu imati konsolidovan pregled
podataka.
Skladište podataka
Skladište podataka
Lokalno skladište podataka

• Lokalno skladište podataka je malo skladište


podataka koje je projektovano za potrebe
krajnjih korisnika u strateškoj poslovnoj
jedinici.
• Lokalno skladište podataka je jeftinije od
skladišta podataka i lakše se realizuje.
Šta je Big Data (BD)
• Big Data je oblast koja se bavi analizom, obradom i
čuvanjem velike količine podataka koji često potiču iz
različitih izvora.
• Big Data rešenje se primenjuje kada tradicionalna analiza
podataka, obrada podataka i tehnike pretraživanja nisu
dovoljne.
• Specifično, BD se odnosi na različite zahteve, kao što je
kombinovanje više nepovezanih skupova podataka,
obrada velike količine nestrukturianih podataka nalaženje
skrivenih informacija u vremenski-zavisnim podacima.
• Skupovi podataka su sve veći i raznovrsniji
Analiza Big Data (BD)
• Analiza Big Data skupa podataka je
interdisciplinarna oblast koja obuhvata
matematiku, statitsiku, računarske nauke i
domensku ekspertizu.
• Količina Big Data se menja se u zavisnosti od
tehnologije (sw/hw)
Analiza Big Data (BD)
• Pre 30 godina 1GB podatka se smatrao Big
Data problemom i zahtevao je posebne
računarske resure.
• Danas je 1GB uobičajena količina podataka i
može se jednostavno prenositi, obrađivati i
čuvati na računarski orijentisanim podacima.
• Podaci u okviru BD okruženja su sakupljani u
okviru firmi preko aplikacija, senzora i eksternih
izvora.
Podaci
1000 Bytes = 1 Kilobyte 
· 1000 Kilobytes = 1 Megabyte 
· 1000 Megabytes = 1 Gigabyte 
· 1000 Gigabytes = 1 Terabyte 
· 1000 Terabytes = 1 Petabyte 
· 1000 Petabytes = 1 Exabyte
· 1000 Exabytes = 1 Zettabyte 
· 1000 Zettabytes = 1 Yottabyte 
Skupovi podataka
• Kolekcije ili grupe povezanih podataka se generalno zovu
data sets (skupovi podataka).
• Svaki član skupa ima isti skup atributa kao i drugi članovi
u istom skupu podataka.
• Neki primeri skupova podataka su:
• Tvitovi
• Kolekcija slika fajlova u direktorijumu
• Ekstrakt redova iz tabele baze podataka sačuvan u CSV
formatu
Karakteristike Big Data
• Da bi se skup podataka tretirao kao Big Data,
potrebno je da poseduje jednu, ili više
karakterisitika koju zahteva arhitektura za
analitičko okruženje.
• Većinu ovih karakteristika podataka su
inicijalno identifikovani od strane Doug Laney
2001. godine.
Karakteristike Big Data
• Pet V koje odvaja podatke kategorisane kao
Big Data od ostalih formi podataka su:
1. VOLUME (Količina)
2. VELOCITY (Brzina)
3. VARIETY (Raznolikost)
4. VERACITY (Kvalitet)
5. VALUE (Vrednost)
1. VOLUME (Količina)
• Volume se odnosi na veliku količinu podataka koja
se generiše svake sekunde.
• Ne pričamo o TB, već od ZettaB ili BrontoB.
• Ako uzmemo sve podatke generisane od počekta
od 2008, uskoro će ista količina informacija biti
genersiana svakog minuta.
• Ovo predstavlja problem za tradicionalu tehnologiju
baza podatka.
1. VOLUME
• Novi alati koriste distribuirane sisteme tako da može
da se čuva i analiziraju podaci preko baza podatka
koji se nalaze svuda.
• Organizacije i korisnici kreiraju preko 2,5 EB
podataka dnevno (Library of Congress trenutno ima
preko 300TB podataka: 65000DVD) ili 5 milijardi
DVDa
1. Volume

GB, TB, EB
1. Volume
2. VELOCITY (brzina)
• U Big Data okruženju, podaci dolaze velikom
brzinom.
• Izuzetno veliki skupovi podataka se mogu napraviti
u veoma kratkom periodu vremena.
• Primer. Social media poruke koje se prenosi u
sekundi.
• Tehnologija omogućava analizu podataka dok se
oni generišu.
• Ime joj je in-memory analitika, bez skladištenja u
baze podataka.
2. VELOCITY (brzina)
• Velocity se odnosi na brzinu kojom su novi podaci
genersiani,kao i na brzinu kojom se oni prenose.
• Obezbediti veliki priliv podataka zahteva da
preduzeće kreira veoma elastičnu i dostupnu
obradu podataka, kao i odgovarajuće mogućnosti
skladišćenja podataka.
• U zavisnosti od izvora podataka, brzina ne mora
uvek da bude visoka.
• Npr, MRI slike frekvetno generisane kao logovi iz
frekvetnog saobraćaja web servera.
2. VELOCITY (brzina)
• Primeri:
• VELOCITY podrazumeva da sledeći skup podataka
može biti jednostavno generisan za minut:
• 350.000 tvitova
• 300h video upload-ova na YouTube-u
• 171 mil emailova
• 330GB podataka sa senzora
3. VARIETY (raznolikost)
• Raznolikost podataka odnosi se na brojne formate i tipove
podataka koji trebaju biti podržani.
• 80% podataka je nestruktuirano (teskt, slike, video, glas).
• Koristeći tehnologiju možemo analizirati i koristtit u isto vreme
podatke različitih tipova kao što su poruke, konverzacija sa
socijalnih medija, slike, podaci sa senzora, video ili snimanje
glasa.
3. VARIETY (raznolikost)
• Različiti tipovi izvora podataka:
• Relacione tabele
• Nizovi
• Dokumenta: nestruktuirana
(tekst), ili polustruktuirani (XML,
RDF)
• Grafovi (Socijalne mreže,
semantički web, mreže puteva...)
• Vremenske serije (video/audio
podaci, EEG..)
• Multimedijalni podaci
• Strimovi (podaci sa senzora,
RFID, ...)
4. VERASITY (kvalitet)
• Veracity – istinitost
• Podaci koji su dobijeni na kontrolisan način.
• Primer: Podaci dobijeni preko online registracije
korisnika.
• Ovi podaci obično sadrže manje buke, nego podaci
dobijeni posredstvom nekontrolisanih izvora, kao što
su blog-postovi.
• Veracity se odnosi na kvalitet ili pouzdanost
podataka
4. VERASITY (kvalitet)
• Podaci koji ulaze u Big Data okruženje je potrebno da
budu procenjeni kao kvalitetni.
• To uključuje obradu podataka da bi se rešili nevažeći
podaci i otklonio šum.
• Podaci mogu biti:
• signal - ima vrednost i vodi do značajne informacije) ili
• šum (noice) - nema vrednost.
• Podaci sa visokim signal-to-noise odnosom su kvalitetniji
nego oni sa nižim odnosom.
• Signal-to-noise odnos zavistan je od izvora podataka i
njihovog tipa.
4. VERASITY (kvalitet)
• U mnogim formama Big Data ikvalitet i tačnost
se teže kontrolišu.
• Tu spadaju postovi sa Tvitera sa hashtag-
ovima, skraćenice, žargon, itd.
• Tehnologija sada omogućava da se manipuliše
i tim tipovima podataka.
5. VALUE (Vrednost)
• Vrednost podataka definisana je kao korisnost
podataka za preduzeće.
• Karakteristika vrednosti je intuitivno povezana
sa karakteristikom veracity.
• Što su podaci pouzdaniji, veća im je vrednost.
• Vreme i vrednost su inverzno povezani: ako je
podacima potrebno duže vremena da postanu
značajna informacija, oni imaju manju vrednost
za kompaniju.
5. VALUE (Vrednost)
5. VALUE (Vrednost)
• Vrednost je takođe povezana i sa brzinom obrade
podataka.
• Analitički rezultati imaju shelf-life (rok trajanja), npr. 20
min kašnjenja ima malo, ili nimalo vrednosti za
trgovinu.
• Stari rezultati onemogućavaju kvalitet i brzinu
odlučivanja.
• Pristup BD nije dobar, ako ga ne pretočimo u vrednosti.
• Kompanije će početi da generišu ogromnu vrednost od
velikih podataka.
5. VALUE (Vrednost)
• Na vrednost utiču i sledeće stavke:
• Kako su podaci bili sačuvani?
• Da li su korisni atributi podataka uklonjeni tokom
čišćenja?
• Da li su odgovarajući tipovi pitanja postavljeni tokom
analize?
• Da li su rezultati analize tačno prezentovani
menadžerima?
Analiza podataka
• Analiza podataka je proces istraživanja
podataka da bi se otkrile stavke, relacije,
paterni i/ili trendovi.
• Glavni cilj analize je podrška boljem
odlučivanju.
• Jednostavan primer analize podataka je analiza prodaje
sladoleda da bi se odredile kako je povezana prodaja
sladoleda sa dnevnom temperaturom.
• Rezultat takve analize prikazuju koliko treba sladoleda
naručiti na osnovu vremenske prognoze.
• Analiza podataka pomaže u utvrđivanju paterna i relacija
između podataka koji su analizirani.
Analitika podataka (Data Analytics)
• Analitika podataka je širi pojam koji obuhvata analizu
podataka
• Disciplina koja uklučuje upravljanje
celokupnim životnim ciklusom podataka,
odnosno sakupljanjem, čišćenjem,
organizovanjem, čuvanjem, analizom i
upravljanjem podacima.
• Izraz uključuje razvoj metoda analize,
naučnih tehnika i automatizovane alate.
Analitika podataka (Data Analytics)
• U okruženju Big Data, analitika podataka razvila je
metode koji omogućavaju analizu podataka,
koja se odigrava preko visoko
skalalbilne distribuirane tehnoglogije
i okvira koji je sposoban za analizu
velike količine podataka iz različitih
izvora.
Životni ciklus analitike BD
• Životni ciklus analitike BD uključuje:
• identifikovanje,
• pribavljanje,
• priremu i
• analizu
velike količine sirovih, nestrutkurianih podataka da bi se
izvukle značajne informacije koje mogu da služe kao
ulaz za identifikovanje paterna, pobolljšanje postojećih
poslovnih podatka i pretraživanja.
Primeri korišćenja analitike podataka
• Organizacije koriste alate i tehnike BD na različite
načine:
• U poslovnom okruženju, analitika podataka može da
smanji operacione troškove i i olakša strateško
donošenje odluka.
• U naučnom domenu, može da pomogne u
identifikovanju uzroka fenomena i poboljšanju
tačnosti predviđanja.
• U service-based okruženju kao što je javni sektor
organizacije, može da pomogne u osnažnivanju i na
isporučivanju visoko-kvalitetnog servisa
smanjivanjem cene.
Odlučivanje vođeno podacima
• Analitika podataka omogućava odlučivanje vođeno
podacima (Data-Driven Decision-Making).
• Za ovaj vid odlučivanja postoji naučna podrška tako
da se odluka bazira na
činjenicama, a ne samo
na prošlom iskustvu, ili
intuiciji.
Kategorije analitike podataka
• Postoje četiri kategorije analitike koje se razlikuju
prema rezultatima koji proizvode:
1. Deskriptivna analitika
2. Dijagnostička analitika
3. Prediktivna analitika
4. Propisana (prescriptitve) analitika
• Različiti tipovi analitike obuhvataju različite tehnike i
algoritme analize.
• To znači da može doći do variranja u podacima,
skladištenju i zahtevu obrade da bi se ispunilo
isporučivanje višestrukih tipova analitičkih rezultata.
Prikaz analitike podataka

Erl, T., Khattak, W., & Buhler, P. (2016). Big Data Fundamentals:


Concepts, Drivers & Techniques. Prentice Hall Press.
Longitudinalni pogled na evoluciju analitike

Izvor Real-World Data Mining: Applied Business Analytics and


Decision Making by Dursun Delen, Ph.D
Deskriptivna analitika
• Deskriptivna analitika ima za cilj da odgovori na
pitanja o događajima koji su se već desili.
• Ideja je da se od podataka dobiju informacije
• Primeri pitanja mogu da uključe:
• Koji je bio obim prodaje poslednjih 12 meseci?
• Koji je broj primljenih poziva kategorisanih prema ozbiljnosti
i geografskoj lokaciji?
• Koja je mesečna zarada svakog agnenta prodaje?
• Procenjuje se da je 80% generisanih analitičkih
rezultata deskriptivno po prirodi.
Deskriptivna analitika
• Deskripitvna analitika se izvršava preko ad-hoc
izveštavanja ili dashboards.
• Izveštaji su statični i predstavljaju istorijske podatke,
koji se predstavljaju u formi charts ili data grid.
• Upiti se izvršavaju nad operativnim podacima
sačuvanim u preduzeću, npr.
• CRM (Customer Relationship Management Systems) ili
• ERP (Enterprise Resource Planinning).
Deskriptivna analitika
• Dashboard: instrument tabla
• OLTP sistemi su većinom namenjeni korisnicima koji
ažuriraju tj. pretežno unose informacije (službenici, kupci
i sl.) - TRENUTNI PODACI
• OLAP sistemi su namenjeni korisnicima koji analiziraju
informacije. To su:
• menadžeri,
• upravljačko osoblje kompanija,
• vojni i raznorazni drugi analiticari, naučni radnici i sl.)
• ISTORIJSKI PODACI
Deskriptivna analitika

Erl, T., Khattak, W., & Buhler, P.


(2016). Big Data Fundamentals:
Concepts, Drivers & Techniques.
Prentice Hall Press.
Dijagnostička analitika (ZAŠTO)
• Dijagnostička analitika pokušava da otkrije uzrok
fenomena koji se desio u prošlosti korišćenjem pitanja koja
se odnose na razloge.
• Cilj je odrediti koje informacije se odnosi na dati fenomen
da bi se došlo do odgovora na pitanje zašto se nešto
desilo.
• Primeri:
• Zašto je manja prodaja u drugom kvartalu nego u prvom?
• Zašto ima više poziva iz Istočne Evrope nego iz Zapadne
Evrope?
• Zašto je zabeležen porast stope ponovnog prijema
pacijenata u prethodna tri meseca?
Dijagnostička analitika (ZAŠTO)
• Dijagnostička analitika obezbeđuje bolju
vrednosti nego deskriptivna analitika, ali
zahteva naprednije tehnike (skillsets).
• Dijagnostička analitika često zahteva
skupljanje podataka iz više izvora i čuva ih u
strukturama koje omogućavaju drill-down and
roll-up analizu.
• Drill-down - detaljni prikaz podataka
• Roll-up – pregled podataka sa manje detalja
(bigger picture)
Dijagnostička analitika (ZAŠTO)
• Dijagnostička analitika daje rezultat preko alata
interaktivne vizualizaicje koje omogućavaju
korisnicma da identifikuju trendove i paterne.
• Izvršeni upiti su kompleksniji u poređenju sa
deskriptivnom analitikom i izvršavaju se nad
multi-dimenzionalnim podacima u analitičkoj
obradi sistema.
Šta je OLAP?
• OLAP (Online Analytical Processing) baze
podataka omogućavaju realizaciju upita
poslovne inteligencije.
• OLAP je tehnologija baze podataka koja je
optimizovana za upite i pravljenje izveštaja, a
ne za obradu transakcija.
• Izvorni podaci za OLAP su OLTP (Online
Transactional Processing) baze podataka koje
se obično nalaze u skladištima podataka.
Šta je OLAP?
• OLAP podaci se dobijaju iz arhivskih podataka i
sakupljaju se u strukturama koje dozvoljavaju
složenu analizu.
• OLAP podaci se takođe hijerarhijski organizuju
i skladište u kocke, umesto u tabele.
• Reč je o naprednoj tehnologiji koja zahvaljujući
korišćenju višedimenzionalnih struktura
obezbeđuje brz pristup podacima za analizu.
Šta je OLAP?
• Ovakva organizacija olakšava prikazivanje
rezimea visokog nivoa u izveštajima izvedene
tabele, ili izvedenog grafikona.
• Primeri:
• ukupne vrednosti prodaje širom cele zemlje ili
regiona,
• detalje za one lokacije na kojima je prodaja
posebno dobra ili loša
Dijagnostička analitika

Izvor: Erl, T., Khattak, W., & Buhler, P. (2016). Big Data


Fundamentals: Concepts, Drivers & Techniques. Prentice Hall Press.
Prediktivna analitika
• Pokušaj predviđanja događaja u budućnosti
• Snaga i veličina asocijacije čine osnovu modela koji se
koriste da generišu buduće predikcije zasnovane na
prošlim događajima (okruženje)
• Data mining daje osnovu za prediktivnu analitiku i
poslovnu inteligenciju (BI).
• Važno je shvatiti da modeli koji se koriste za prediktivnu
analitiku imaju implicitne zavisnosti za uslove pod
kojima su se prošli događaji desili.
• Ako se ovi prethodni uslovi promene, tada će se i
modeli koji prave predikciju ažurirati.
Prediktivna analitika
• Pitanja se obično formulišu korišćenjem what-if
obrazloženja, npr:
• Koja će biti stopa izlečenja pancjenata, ako se koristi
lek B umesto leka A?
• Ako je kupac kupio proizvode A i B, koji su šanse da
će kupiti proizvod C?
• Koje su šanse da korisnik vrati kredit ako preskoči
mesečno plaćanje?
Prediktivna analitika
• Prediktivna analitika pokušava da predvidi izlaz
događaja.
• Predviđanja se prave bazirano na paternima,
trendovima i izuzecima nađenim u istorijskim i
trenutnim podacima.
• Ovo vodi do identifikacije rizika i mogućnosti.
Prediktivna analitika
• Prediktivna analitika uključuje korišćenje velikog
skupa podataka koji se sastoji od internih i
eksternim podataka i različitih tehnika analize
podataka.
• Prediktivna analitika daje veću vrednost i
zahteva naprednije veštine (tehnike) od
deskriptivne i dijagnostičke analitike.
Prediktivna analitika
• Korišćeni alati
najčešće
apstrahuju
statističku
zamršenost
obezbeđujući
user-friendly
front-end
interfejse
Prescriptive analitika
• Prescriptive analitika je napravljena na osnovu
rezultata prediktivne analitike predlaganjem
akcije koje treba izvesti.
• Fokus je ne samo koju predloženu opciju je
najbolje pratiti, nego i zašto.
• CILJ: ostvarivanje prednosti, ili smanjivanje
rizika.
Prescriptive analitika
• Obezbeđuje najveću vrednost i zahteva
najnapredniji skup veština, softvera i alata.
• Koriste se interni (tekući i istorijski podaci
prodaje) i eksterni podaci (socijalni medije,
vremenska prognoza, demografski podaci...)
• Primeri pitanja uključuju:
• Od tri leka, koji ima najbolje rezultate?
• Kada je najbolje vreme da se trguje određenim
zalihama?
Prescriptive vs. Prediktivna analitika
• Presktiptivna
analika uključuje
korišćenje poslovnih
pravila i veliku
količinu internih i
eksternih podataka
da bi se izvela
dubinska analiza.
Šta je to veštačka inteligencija?
• Računar, robot,
elektronski uređaj
koji DELUJE
(izgleda, radi)
inteligentno.
Veštačka inteligencija – osnovni pojmovi

• Veštačka inteligencija (eng. Artificial Intelligence) je


oblast računarstva čiji je cilj razvijanje programa
(softvera), koji će računarima omogućiti da se
• ponašaju na način koji bi se
• mogao okarakterisati kao
• inteligentan.
Veštačka inteligencija u poslovanju
Reforma

Veštačka
inteligencija u
poslovanju

Novi Inovacija
koncept
Veštačka inteligencija u analizi podataka
Mašinsko učenje – osnovni koncepti
• Mašinsko učenje (eng. Machine Learning) je
oblast veštačke inteligencije koja omogućava
aplikacijama da
samostalno uče na
osnovu podataka.
Mašinsko učenje – srž veštačke
inteligencije
Mašinsko učenje – srž veštačke
inteligencije

Ako su podaci novo


„gorivo“ digitalne
ekonomije, onda je
mašinsko učenje
„rafinerija“ koja to
gorivo pretvara u
mnoge korisne
stvari.
Primena tehnika dubokog učenja u
analizi podataka
• Posebna oblast mašinskog učenja – duboko
učenje (ili, izvorno, deep learning) ima
veoma veliku primenu u poslovanju
• Neuronske mreže iz kojih se sistemi
dubokog učenja sastoje, koriste iste principe
učenja kao i ljudski mozak.
Primena tehnika dubokog učenja u
analizi podataka
• Ljudski mozak se sastoji iz nervnih ćelija, koje se
nazivaju neuroni.
• Kada učimo, vlakna iz kojih se neuroni sastoje (i
koji se zovu dendriti) rastu i povezuju neurone
preko posebnih tačaka, koje se nazivaju sinapse.
• Tako povezani neuroni čine neuronsku mrežu koja
nam omogućava da u mozgu, prilikom učenja
povezujemo podatke i, učenjem, povećavamo
znanje.
Primena tehnika dubokog učenja u
analizi podataka
• Danas postoje veštačke neuronske mreže koje su
implementirane kao softver, koji takođe uči.
• Veštački neuroni nazivaju se perceptroni.
• Prvi perceptroni bili su implementirani kao žičana
logička kola.
• Današnji perceptroni su implementirani kao
softver.
• Povezani perceptroni grade veštačku neuronsku
mrežu koja, takođe, može da „uči“.
Primena tehnika dubokog učenja u
analizi podataka
• Na primer, neka imamo algoritam koji treba da
razlikuje psa od mačke.
• Ovaj algoritam primenjuje različite vektore (ulaze)
sa podacima koji trebaju da stvore linearnu
granicu između psa i mačke.
• Jednostavno rečeno, algoritam filtrira ulaze
(podatke), a kao izlaz dobija „jedan“ ako se
podatak odnosi na psa, ili „nula“, ako se podatak
odnosi na mačku.
Primena tehnika dubokog učenja u
analizi podataka
• Tokom vremena, algoritam može prilagoditi svoju
pristranost (pomeranje linearne granice) dok „uči“
da proizvodi sve više i više rezultata
• Tačno identifikovanje razlike između slike psa i
slike mačke vremenom postaje bolje i preciznije.
• Sposobnost razlikovanja psa od mačke postaje
realnost za korisnika koji primenjuje algoritme
veštačke inteligencije, mašinskog učenja i
dubokog učenja.
Primena tehnika dubokog učenja u
analizi podataka
Hvala!
sonja.radenkovic@bba.edu.rs

You might also like