You are on page 1of 10

          „Alles Leben ist Problemlösen“. Karl G.

 Popper 

Lekcija 6:Informacijski agent: prikupljanje informacije, odlučivanje  
Cilj: razmotriti kako si agent može olakšati „život“. 

Problemi s kojima se suočavaju  navodi ljude i na uporabu informacijskih sredstava, prije svega 
prikupljanjem podataka, za pojašnjenje date procesno‐korisničke dileme, poput optimiranja 
proizvodnje, resursa, nabave i prodaje. Da bi se prikupljenim podacima poslužili na ispravan način 
moraju se uočiti dati obrasci, njihovo značenje za problem koji se rješava, te na taj način kroz 
višestruka ponavljanja doći do potpune informacije – kao osnovice odluke o problemu.  

6.1 Prikupljanje i važnost prikupljene informacije 

Kvaliteta odluke na osnovi prikupljenih podataka značajno ovisi o kvaliteti raspoloživih podataka. 
Zaključci kojih se mogu izraziti računalskim postupcima iz sintaksnih oblika i semantičkih 
interpretacija njihovih vrijednosti su ograničeni /Limb, Meggs/. Predložene tehnike rijetko imaju 
svojstvo posluživanja znanja o problemskoj domeni i sigurno nemaju dostup do informacijske moći 
kojom raspolaže informatički analitičar. Stoga mora analitičar osigurati podatke najviše moguće 
kvalitete te sadržaja sa što više relevantne informacije.  

Kvalitetu podataka određuje njihova potpunost, njihova razdvojivost te opseg njihove razumljivosti za 
analitičara /Limb, Meggs/. Podaci su potpuni ako postoje svi traženi zapisi sa svim traženim 
atributima, tj kada nema nedostajućih zapisa i/ili podataka u njima. Postoje više načina za 
nadvladavanje ovog problema poput upotrebe umjetnih neuronskih mreža. Razdvojivost podataka 
odnosi se na lakoću kojom se mogu opisati klase podataka unutar prikupljenog skupa podataka. Traže 
se pogodne kombinacije opisa klase koji su orijentirani problemu s opisnim razlikama klasa koje 
potječu iz naoko „minornih“ atributa pojedine klase.  Zahtjev da su razlikovne osobine klasa dostupne 
analizi povezana je ideja projektantovog razumijevanja podataka. Bez tog razumijevanja projektant 
ne može osigurati dostupnost do tih obrazaca. Naravno da svaki projektant – analitičar pri tome 
unosi svoju paradigmu, model pogleda na rješenje problema. 

Razumijevanje podataka se kreće od poznavanja vrsta atributa do razumijevanja dobivenih 
statističkih svojstava obrada te samog informacijskog sadržaja – značenja informacije. Semantičko 
značenje atributa je poželjno, no bez poznavanja pripadnih ntologija teško se može koristiti za 
povećanje znanja domene. No već sama vizualizacija podataka omogućuje bolje razumijevanje skupa 
podatka koji se analiziraju. 

6.1.1 Vrste podataka 

Postoje dvije osnovne vrste podataka – brojčani i simbolički. Brojčani poput cijelih ili brojeva 
izraženih pokretnim zarezom izražavaju količinska svojstva nekog skupa ili atributa neke klase 
podataka. Deset knjiga je deset puta više od jedne knjige, no sadržaj te jedne knjige može biti 
informacijski puno važniji od sadržaja svih prvospomenutih deset knjiga. Dakle simbolički sadržaj 
može biti vrlo različit uz isti numerički sadržaj. Numeričkom sadržaju nedostaje semantika, kvaliteta. 
Naravno da je svaki stvarni podatak sinergija numeričkog, kvantitativnog i semantičkog, kvalitativnog 
sadržaja. 
No u obradi podataka se upravo pojedini vidovi stvarnog podatka mijenjaju – kada se postupci 
odnose na kvantitativni dio analize atributa npr. dječju dob onda promjena po atributu dobi od dvije 
na tri godine mijenja i kvalitetu u promatranom skupu  djeca od dvije godine se značajno razlikuju od 
djece od tri godine i ne uzimanje promjene u kvaliteti uz istodobnu analitiku po kvantiteti nekog 
atributa je krajnji analitički nemar /Anderberg1/. 

6.1.2 Vizualizacija podataka 

Veliki skupovi podataka, sa preko milijun podatkovnih jedinica,redaka, teško se interpretiraju jer se 
ne mogu smisleno prikazaivati analitičaru, niti korisniku. Pokazalo se da, kada podatkovni skup 
prijeđe 1000 redaka i ima više od tri atributa, jasnoća njegova prikaza postaje problematična. No 
svakako je prije svake ozbiljnije analize nužno izvesti grubi pregledpodataka ne bili se utvrdili neki 
očiti obrasci u njima.  

Na slici 6.1 dati su 2D i 3D prikazi istih podataka – vidi se mogućnost bolje analitike kod 3D prikaza za 
ovaj slučaj. Kada bi to bili podaci kvarova strojeva, programa onda bi bilo vidljivo postojanje četiriju 
načina kvarenja iz 3D a ne samo dva načina kvarenja kako je vidljivo iz 2D prikaza. 

6.2 Tehnike predobrade 

Predobrada podataka je važan korak u njihovom boljem prikazu korisniku, otkrivanju skrivenih 
svojstava i svođenju na oblik u kojem se mogu uspoređivati podaci iz različitih izvora. 

Postupci predobrade svode se na filtraciju, skaliranje, normalizaciju te regresiju dimenzije. No, bez 
obzira koji se postupak uvodi podaci nakon predobrade nisu više jednaki onim sirovim podacima.  

Budući da se radi o tome da ne znamo informacijski model na izvoru, niti mu možemo pristupiti, ne 
možemo doći do čistog informacijskog signala, a ne znamo ni model šuma niti mu možemo pristupiti 
a znamo samo mjerni signal, to je problem pristupu informaciji daleko teži nego što to izgleda. 

Naravno da predobradom samo smanjujemo neke od nepoznatih veličina, nikako sve.   

Model izvora informacije dat je slikom 6.2  

6.2.1 Filtriranje se može izraziti iz osnovne formule (Graupe, 176) 

yk = xk + nk          (54), 

gdje je yk mjerenje, sirovi podatak, xk je signal a nk je aditivno dodani šum, k je k‐ti vremenski interval. 
Filter daje procjenu, estimaciju xke signala xk samo na osnovici yk. Pri tome optimalni linearni filter 
zahtijeva poznavanje parametara modela signala i šuma. Linearni Wienerov filter u smislu minimuma 
kvadratnih odstupanja estimacije daje linearnu estimaciju xke informacijskog signala s obzirom na 
mjerenja tj  

xke = i* yk‐i  sumiranje od 0<i<M    (55), 

gdje su i parametri filtera koji se izračunavaju prema minimumu kvadrata odstupanja od estimacije, 
a M je dubina utjecaja na estimaciju. Kada doprinos estimaciji s porastom M padne ispod nekog 
iznosa onda se daljnje računanje po dubini više ne uzima u obzir. 
Možemo li za niz podataka 4,6,3,7 izračunati 0 i 1? 

6.2.2 Normiranje i skaliranje podataka  

Skaliranje je promjena mjerila podataka u smislu povećanja njihove razdvojivosti. Nakon skaliranja 
potrebno je često podatke podvrgnuti zajedničkom normiranju. Teorijski promatrano klasifikatori se 
mogu podučiti kako primijeniti odgovarajuće linearno ili nelinearno skaliranje podataka na svojim 
ulazima, što je vrlo složen postupak. 

 Uobičajeni postupci preobrade je pretvorba podataka u podatke sa srednjom vrijednosti jednakoj 
ništici te normiranje varijance ulaznih atributa. 

Uzmimo da posjedujemo dva niza podataka: m1 = 3, 4, 6, 4 te m2 = 11,14, 15, 12. Postavimo ih 
linearnom pretvorbom u skalu1 ‐ 10 Normiramo tako pretvorene podatke u nizove sa srednjom 
vrijednosti ništa. Pokušajmo ih pretvoriti u podatke s istom varijancom. Što opažamo? Kuda su 
nestale izvorne veličine? Možemo li ih obnoviti?  

6.2.3 Regresija  

Regresija je zajednički naziv za raznorodnu grupu postupaka kojima se smanjuje broj opisnih atributa 
promatranog skupa podataka. 

Uobičajeno je odrediti kolika je međusobna statistička ovisnost parametara, pa onda izostaviti one 
parametre koji su već dovoljno dobro predstavljeni drugim veličinama. Takvi međusobno neovisni 
parametri nazivaju se glavni parametri ili glavne analitičke komponente, GAK. Daljnja se obrada onda 
odvija na puno manjem broju GAK‐a što pojednostavljuje prikaz i smanjuje broj pretraga. No, ostaje 
osnovni problem ‐ kojom metodom to postići! Odnosno kakav model regresije rabiti. Linearna 
regresija tako svodi opis neke mjerne pojave y kao linearne kombinacije GAK‐a x1 , x2 ... Sljedećom 
shemom: 

Y = a1 X1 + a2 X2 + a3 X3 + o    (56), 

gdje je o oznaka za ostatak aproksimacije pojave. X1, X2 i X3 su tada GAK‐e.   

  Y X1 X2 X3 X4
  5 1 4 -3 2
  8 0.2 6 -2 3
  12 2 7 -1 2

 
15 0,6 10 1 1
-6 2 -3 2 0,6
 

Koeficijent korelacije niza y i x računa se prema izrazu  

r = 1/n * (xi‐ xsr)(yi ‐ ysr) / ( 1/n * (xi‐ xsr)2 )1/2) *  
( 1/n * (yi ‐ ysr)2) 1/2)        (57), 

gdje je n broj parova događaja, xi i yi su podaci i‐tog događaja xsr  i ysr su srednje vrijednosti svakog 
niza.  

Koeficijent korelacije rangiranih nizova y i x računa se prema izrazu  

rq = 1‐ 6  2/ n2 (n‐1)        (58), 

gdje je 2  kvadrat razlike rangova dvaju nizova. Izraz (58) vrijedi za nizove sa svim različitim 
rangovima u pojedinom nizu. 

Što možemo dobiti ispitujući podatke iz Primjera ovim relacijama? 

Možemo li možda postaviti regresijski izraz? 

Kako se ponašaju nizovi na rang korelaciju?  

6.3 Klasifikacijska tehnika 

Klasifikacija je postupak podjele ulaznih podataka prema krajnjem ishodu događaja. Moguća je 
postupcima samoorganizacije podatka ‐ dakle postupcima umjetne inteligencije poput umjetnih 
neuronskih (živčevnih) mreža, genetičkih algoritama, ili polukvalitativnih postupaka (Quacol algebra)‐ 
ili induktivnim postupcima ‐ stablom ili pravilom odlučivanja, te statističke ‐ CART metoda, statistička 
klasifikacija ili entropijska klasifikacija. 

Obradit ćemo samo neke od navedenih postupaka. Zajednička osobina svim metodama je unošenje 
jakih elemenata kvalitativnog u postupku donošenja odluke, pa ćemo na sklopu diskriminatora 
objasniti postupak pretvorbe kvantitativne u kvalitativnu veličinu. 

Drugi vrlo značajan element je pojačanje. Bilo da se radi o skaliranju ili normalizaciji, podaci su, kada 
uđu u postupak ili uređaj za klasifikaciju, izloženi značajnim pretvorbama. 

Takve pretvorbe vrlo je teško do kraja razumjeti, obrazložiti i interpretirati. Osobito kada se radi o 
samoorganiziranim postupcima obrade. 

6.3.1 Diskriminacijski sklop 

Sklop kojem se ulaz mijenja od ‐5V do 5V i koji ima prag okidanja smješten na 0V prikazan je 
shemom: 

Sklop pretvara ulazni niz koji je u rasponu +/‐ 5V u izlazni niz koji ima samo dva stanja + ili ‐ . Na ovaj 
način na izlazu ne znamo koliko točno iznosi ulazni niz, ali znamo da li je veći ili manji od ništice.Dakle 
podatak je iz kvantitativnog prešao u kvalitativno područje: veće / manje.  

6.3.2 Sklop za zbrajanje 

Sklop za zrajanje s postupkom skaliranja dat je na shemi: 

X ‐ ulaz, Y ‐ izlaz, W ‐ težinski udio, S ‐ zbrajalo  

Koliki je Y ako su X1=5, X2=7, W1=1, W2=10? Tko dominira? 
Kako možemo ovu shemu izvesti elektronički, elektromehanički? 

Kako možemo na elektroničkom sklopu promijeniti W, X?  

6.3.3 Samoorganizacija 

Promotrimo sklop na slici (strjelice označavaju podešavanja ulaznih struja u sumatore npr 
promjenom otpora): 

Za svaku ulaznu pobudu može se podešavanjem dobiti odgovarajući izlazni odziv. Ovo podešavanje 
naziva se samoorganizacija. 

6.3.4 Klasifikacija 

Klasifikacija samoorganizacijom  

Svaka samoorganizacija sastoji se od strukture, mogućnosti njene promjene i kriterija prilagodbe.  

Opisujemo tri takve klasifikacije: neuralnom mrežom, genetičkim algoritmom i Quacol 
algoritmom(Medusa).  

Neuralnoj mreži se ne mijenje struktura, promjena je na razini težinskih udjela a kriterij prilagodbe je 
minimum odstupanja izlaza za dati skup ulaza. Ta se samoorganizacija izvodi u etapi učenja. U etapi 
klasifikacije se dati obrazac propušta kroz mrežu i opaža njen učin ‐ tj kamo uzorak pripada po svojim 
atributima.   

Genetički algoritam polazi od skupa različitih struktura, ispituje prikladnost rješanja, uzima one 
najbolje, kombinira ih u nove strukture tako da u kombinaciji slučajnim izborom promijeni strukturu 
npr svakom stotom rješenju, pa dobivene strukture opet ispituje na prilagođenost.  

Quacol (algebra kvalitativne korelacije) rangira ulazne podatke, normira i rangira njihove algebarske 
kombinacije čime generira različite algebarske strukture, pa one koje su kvalitativno najsličnije ciljnoj 
funkciji bira za nove algebarske strukture. 

Što je zajedničko svim samoorganiziranim postupcima? 

Pretvorba kvantitativno u kvalitativno odvija se u više uzastopnih koraka (cikličnost informacije!):  

1. Kod neuronske mreže se na diskriminatoru izvodi pretvorba kvantitativno ‐ kvalitativno a na ulazu 
u sumator obrnuto. 

2. Kod genetičkog algoritma su rekombinacija i mutacija kvalitativni koraci, a određivanje rezultata i 
biranje potomaka je kvalitativne prirode  

3.Kod Quacol algebre je rangiranje kvalitativni postupak, a određivanje rezultata i biranje 
najpovoljnijih algebarskih struktura je kvantitativan postupak.  

6.3.5 Induktivne metode klasifikacije 

Induktivne metode   

Dvije su induktivne metode: stablo indukcije i indukcijsko pravilo  
Kod indukcijskog stabla računa se grananje na stablu u grupi podataka po principu podjele u dvije 
grupe. Podaci se ispituju prema nekoj vrijednosti atributa npr X13 u ovisnosti o ishodu npr Y=7. 
Ispituju se svi podaci. Ide se sve prema finijoj podjeli podataka sve dok se ne dosegnu kriteriji 
zaustavljanja. Često se računa informacijska dobit, kao kod ID3 postupka, pa kada je više nema onda 
se klasifikacija zaustavlja. 

Indukcijsko pravilo rabi mali skup prostornih i logičkih konstrukata, poput “NA”, “I”, “U DOTICAJU”, 
“ILI” koji tvore početni skup pravila zasnovan na nekom početnom kriteriju. Tim se pravilima 
klasificiraju podaci ‐ uzorci I mjeri učinak klasifikacije. Nova se pravila dobivaju poopćenjima, 
specijalizacijama i opet ispituju…Poznat je sustav AQ‐11 za klasifikaciju bolesti soje.     

6.3.6 Statističke metode klasifikacije 

Statistička klasifikacija podataka  

Statistička parametarska klasifikacija: Podaci se dijele linijom u 2D prostoru (ravninom u 3D), tako da 
ona prolazi područjem gdje je u oba podijeljena skupa minimum kvadrata razlike od njegovog centra 
a maksimum razlike između podataka različitih grupa. Ako je potrebno jedan se od parametara 
skalira da bi se dobili traženi maksimumi, odnosno minimumi. Vodi se računa o tipu funkcije razdiobe 
vjerojatnosti  

Neparametarska statistička klasifikacija: izvodi se na sličan način kao parametarska, ali ne vodi računa 
o tipu raspodjele, već računa centre okupljanja (K‐najbliži susjed) tako da postižu minimume razmaka 
untar grupe i maksimum između članova različitih grupa. 

CART(Classification And Regression Tree) metoda: dijeli skup podataka prema sve homogenijem 
sastavu do ispunjenja određenog kriterija. Svaka dioba ovisi samo o jednoj vrijednosti jednog atributa 
i binarnog je tipa.Kada su parametri opisni onda se podjela izvodi po njima a kada su numerički 
određuju se regresijska pravila.       

Entropijska klasifikacija  

Metoda se zasniva na grupiranju podataka prema parametru koji posjeduje maksimum informacije, 
odnosno minimum entropije.  

Računaju se udio entropije uvjetne vjerojatnosti p(cj/ai) da ishod bude cj ako je ulazni parametar a 
ima iznos ai, tj  

H*(cj/ai) = ‐  p(cj/ai) log p(cj/ai), za sve ai od 1 do n (59), 

gdje je n ukupan broj kombinacija ishoda cj i klasa atributa A. Taj se udio množi težinskim udjelom 
svakog iznosa ai ukupnom parametru A tj  

H(A) =  p(ai) H*(cj/ai)  1<ai<k    (60), 

k je broj klasa atributa A. Odabiranjem najinformativnijeg atributa otvara se stablo klasifikacije za 
ostale atribute. 

Kriteriji odrezivanja na stablu odlučivanja  
Dva su kriterija odrezivanja: kada broj slučajeva padne ispod nekog iznosa koji je značajan za 
donošenje odluke ili kada padne do iznosa kada se događa da u neku klasu više ne dospijeva nijedan 
slučaj. Nedogađanje slučaja izaziva umjetni pad entropije i “ruši” metodu, jer pad entropije tada ne 
predstavlja smanjenje nereda već nedostatak pojave! 

Ako imamo c slučaja u datoj klasi a g ishoda ( npr. porast snage, pad snage motora) te jednoliku 
raspodjelu gustoće vjerojatnosti ishoda tada je vjerojatnost dobivanja jedne ništice unutar nekog od 
ishoda jednaka  

P( jedan ishod =0) = ((g‐1)/g)c        ( 61). 

Za slučaj c=15, g=4 vjerojatnost u (61) jednaka je 0,01336. Računamo li pad entropije za slučaj g=4, 
c=15 npr iz obrasca  

n H(5,5,4,1)=0,54956 na H(5,5,5,0)=0,47712 on iznosi H=0,07244 ili 15,8%, što je zamjetno.  

Ako kao razumnu granicu za odrezivanje stabla uzmemo klase s 2% ili manje slučajeva od ukupnog 
broja, tada npr za se sve klase s manje od 740*0,02 15 slučajeva dalje ne klasificiramo. Ovo može 
biti drugi kriterij ‐ potpuno pragmatički. 

6.3.7 Analiza klasifikacijskih postupaka  

Nema “najbolje “ klasifikacijske tehnike. Prema svakom slučaju se mora posebno postupiti, 
prilagoditi. Ipak klasificiranje po maksimumu sličnosti i potpuno odvajanje klasa kakvo je u 
entropijskoj klasifikaciji daje joj prednost. No za veliki broj parametara i ova klasifikacija gubi 
uvjerljivost. 

Izračunajte koliko klasa ima u skupini podataka obilježenih s 10 parametara ako svaki ima dvije 
veličine!(1024 klasa) 

Koja najvrjednije informatičko svojstvo krije u sebi postupak klasifikacije? (selekcija) 

6.4 Postklasifikacijska analiza 

Klasifikacija je samo jedan dio posla. Drugi je odgovarajući prikaz rezultata klasifikacije i njegovo 
opravdanje. 

6.4.1 Analiza dobrote klasifikatora  

1. Analiza postupka učenja  

1.1 Uzima se samo jedan dio podataka i klasificira. Kada se klasifikator “uvježba” onda se njime 
klasificira pokusna skupina podataka (od 9:1 do 1:1). Pretrenirani klasifikator nema svojstvo 
generalizacije. 

1.2 Uzima se n skupina uzoraka za učenje i testiranje. Računa se križna validacija s nasumce izabranim 
parovima uzoraka. Ispituje se statistička značajnost razlike postignutih rezultata. 
1.3 Stvaraju se nove skupine uzoraka iz starih odgovarajućim zamjenama ‐ nešto slično slučaju 1.2. 
Tada se izvodi validacija postignutog i računaju odstupanja. Ova metoda ima nedostatak u pojavi 
predrasudnih ocjena. 

2. Ubacivanje funkcije troška  

Procjenjuje se cijena neispravne klasifikacije ‐ ovo je dosta teško vrednovati. 

3. Analiza statističke značajnosti rezultata klasifikacije  

Matrica smušenosti  
Massy-jeva A klas. Bklas.
  matrica

  Apredv. N11 N12

  Bpredv. N21 N22

N11 ‐ broj primjera klase A ispravno klasificiranih  

N12 ‐ broj primjeraka klase B neispravno klasificiranih  

N21 ‐ broj primjeraka klase A neispravno klasificiranih  

N22 ‐ broj primjeraka klase B ispravno klasificiranih  

vrijedi N = N11+N12+N21+N22 

χ‐kvadrat test se rabi za testiranje statističke značajnosti rezultata klasifikacije. Zasniva se na razlici 
između opaženih (O) i očekivanih (E) frekvencija pojava: 

2 =   (O‐E)2 / E  za svih N slučajeva.  (62).  

Za veliki 2 odbacuje s tzv nulta hipoteza da je razlika slučajna, pa je i klasifikacija statistički značajna. 

6.5 Odlučivanje 

Odlučivanje je nekada bilo pitanje časti – danas se izgleda svelo na ekonomiju. Ekonomija bi dakle 
bila znanost o odlučivanju (a financije bi se trebale baviti novcem). Vidjeti etički kod inženjera!  

Za pripomoć u odlučivanju često se rabi softver. 

Softver za odlučivanje zasniva se na multikriterijskoj analizi odluke (MCDA) i njezinim odvjetcima 
poput: procesa analitičke hijerarhije (AHP), višeatributnoj teoriji vrijednosti (MAVT), višeatributnoj 
teoriji korisnosti (MAUT), višeatributnom općem zaključivanju o kvaliteti (MAGIQ) i sl. 
Problem odlučivanja se prvo rastavi na hijerarhiju lakše razumljivih potproblema koji se onda mogu 
neovisno rješavati. Elementi hijerarhije mogu se odnositi na bilo koji vid problema odlučivanja – 
mjerljiv ili nemjerljiv, brižljivo mjeren ili grubo mjeren, slabo ili dobro shvaćen. 

Kada se jednom izgradi stablo odluke, osoba koja odlučuje ocjenjuje sve elemente koristeći 
konkretne podatke za elemente ili svoje vlastito procjenjivanje elemenata prema odnosnom značenju 
i važnosti. 

U konačnom koraku procesa, računaju se numeričke preferencije za svaku inačicu odluke. U analizi 
odluke se stablo odluke i s njime vezan dijagram utjecajnosti koriste kao vizualna analitičkapotpora 
odlučivanju, pri čemu se izračunavaju očekivane vrijednosti ili korisnosti suprotstavljenih inačica.   

Stabla odluke se kreiraju tradicijski skicom kao u sljedećem primjeru: 

Stablo odluke sastoji se od tri vrste čvorova:

1. Čvorovima odluka, predstavljen kvadratićima


2. Čvorovima mogućnosti, predstavljanim kružićima
3. Krajnjim čvorovima, predstavljenim trokutićima
Literatura:

1. Limb P.R., Meggs G. J. Data mining – tools and techniques. BT Technol. J. Vol. 12. No.4.
October 1994. pp 32 – 41.

2. 1. Jagnjić, Željko; Bogunović, Nikola; Pižeta, Ivanka; Jović, Franjo.


Time series classification based on qualitative space fragmentation. // Advanced Engineering
Informatics. 23 (2009) , 1; 116-129.

You might also like