Professional Documents
Culture Documents
Lekcija 6
Lekcija 6
Popper
Lekcija 6:Informacijski agent: prikupljanje informacije, odlučivanje
Cilj: razmotriti kako si agent može olakšati „život“.
Problemi s kojima se suočavaju navodi ljude i na uporabu informacijskih sredstava, prije svega
prikupljanjem podataka, za pojašnjenje date procesno‐korisničke dileme, poput optimiranja
proizvodnje, resursa, nabave i prodaje. Da bi se prikupljenim podacima poslužili na ispravan način
moraju se uočiti dati obrasci, njihovo značenje za problem koji se rješava, te na taj način kroz
višestruka ponavljanja doći do potpune informacije – kao osnovice odluke o problemu.
6.1 Prikupljanje i važnost prikupljene informacije
Kvaliteta odluke na osnovi prikupljenih podataka značajno ovisi o kvaliteti raspoloživih podataka.
Zaključci kojih se mogu izraziti računalskim postupcima iz sintaksnih oblika i semantičkih
interpretacija njihovih vrijednosti su ograničeni /Limb, Meggs/. Predložene tehnike rijetko imaju
svojstvo posluživanja znanja o problemskoj domeni i sigurno nemaju dostup do informacijske moći
kojom raspolaže informatički analitičar. Stoga mora analitičar osigurati podatke najviše moguće
kvalitete te sadržaja sa što više relevantne informacije.
Kvalitetu podataka određuje njihova potpunost, njihova razdvojivost te opseg njihove razumljivosti za
analitičara /Limb, Meggs/. Podaci su potpuni ako postoje svi traženi zapisi sa svim traženim
atributima, tj kada nema nedostajućih zapisa i/ili podataka u njima. Postoje više načina za
nadvladavanje ovog problema poput upotrebe umjetnih neuronskih mreža. Razdvojivost podataka
odnosi se na lakoću kojom se mogu opisati klase podataka unutar prikupljenog skupa podataka. Traže
se pogodne kombinacije opisa klase koji su orijentirani problemu s opisnim razlikama klasa koje
potječu iz naoko „minornih“ atributa pojedine klase. Zahtjev da su razlikovne osobine klasa dostupne
analizi povezana je ideja projektantovog razumijevanja podataka. Bez tog razumijevanja projektant
ne može osigurati dostupnost do tih obrazaca. Naravno da svaki projektant – analitičar pri tome
unosi svoju paradigmu, model pogleda na rješenje problema.
Razumijevanje podataka se kreće od poznavanja vrsta atributa do razumijevanja dobivenih
statističkih svojstava obrada te samog informacijskog sadržaja – značenja informacije. Semantičko
značenje atributa je poželjno, no bez poznavanja pripadnih ntologija teško se može koristiti za
povećanje znanja domene. No već sama vizualizacija podataka omogućuje bolje razumijevanje skupa
podatka koji se analiziraju.
6.1.1 Vrste podataka
Postoje dvije osnovne vrste podataka – brojčani i simbolički. Brojčani poput cijelih ili brojeva
izraženih pokretnim zarezom izražavaju količinska svojstva nekog skupa ili atributa neke klase
podataka. Deset knjiga je deset puta više od jedne knjige, no sadržaj te jedne knjige može biti
informacijski puno važniji od sadržaja svih prvospomenutih deset knjiga. Dakle simbolički sadržaj
može biti vrlo različit uz isti numerički sadržaj. Numeričkom sadržaju nedostaje semantika, kvaliteta.
Naravno da je svaki stvarni podatak sinergija numeričkog, kvantitativnog i semantičkog, kvalitativnog
sadržaja.
No u obradi podataka se upravo pojedini vidovi stvarnog podatka mijenjaju – kada se postupci
odnose na kvantitativni dio analize atributa npr. dječju dob onda promjena po atributu dobi od dvije
na tri godine mijenja i kvalitetu u promatranom skupu djeca od dvije godine se značajno razlikuju od
djece od tri godine i ne uzimanje promjene u kvaliteti uz istodobnu analitiku po kvantiteti nekog
atributa je krajnji analitički nemar /Anderberg1/.
6.1.2 Vizualizacija podataka
Veliki skupovi podataka, sa preko milijun podatkovnih jedinica,redaka, teško se interpretiraju jer se
ne mogu smisleno prikazaivati analitičaru, niti korisniku. Pokazalo se da, kada podatkovni skup
prijeđe 1000 redaka i ima više od tri atributa, jasnoća njegova prikaza postaje problematična. No
svakako je prije svake ozbiljnije analize nužno izvesti grubi pregledpodataka ne bili se utvrdili neki
očiti obrasci u njima.
Na slici 6.1 dati su 2D i 3D prikazi istih podataka – vidi se mogućnost bolje analitike kod 3D prikaza za
ovaj slučaj. Kada bi to bili podaci kvarova strojeva, programa onda bi bilo vidljivo postojanje četiriju
načina kvarenja iz 3D a ne samo dva načina kvarenja kako je vidljivo iz 2D prikaza.
6.2 Tehnike predobrade
Predobrada podataka je važan korak u njihovom boljem prikazu korisniku, otkrivanju skrivenih
svojstava i svođenju na oblik u kojem se mogu uspoređivati podaci iz različitih izvora.
Postupci predobrade svode se na filtraciju, skaliranje, normalizaciju te regresiju dimenzije. No, bez
obzira koji se postupak uvodi podaci nakon predobrade nisu više jednaki onim sirovim podacima.
Budući da se radi o tome da ne znamo informacijski model na izvoru, niti mu možemo pristupiti, ne
možemo doći do čistog informacijskog signala, a ne znamo ni model šuma niti mu možemo pristupiti
a znamo samo mjerni signal, to je problem pristupu informaciji daleko teži nego što to izgleda.
Naravno da predobradom samo smanjujemo neke od nepoznatih veličina, nikako sve.
Model izvora informacije dat je slikom 6.2
6.2.1 Filtriranje se može izraziti iz osnovne formule (Graupe, 176)
yk = xk + nk (54),
gdje je yk mjerenje, sirovi podatak, xk je signal a nk je aditivno dodani šum, k je k‐ti vremenski interval.
Filter daje procjenu, estimaciju xke signala xk samo na osnovici yk. Pri tome optimalni linearni filter
zahtijeva poznavanje parametara modela signala i šuma. Linearni Wienerov filter u smislu minimuma
kvadratnih odstupanja estimacije daje linearnu estimaciju xke informacijskog signala s obzirom na
mjerenja tj
xke = i* yk‐i sumiranje od 0<i<M (55),
gdje su i parametri filtera koji se izračunavaju prema minimumu kvadrata odstupanja od estimacije,
a M je dubina utjecaja na estimaciju. Kada doprinos estimaciji s porastom M padne ispod nekog
iznosa onda se daljnje računanje po dubini više ne uzima u obzir.
Možemo li za niz podataka 4,6,3,7 izračunati 0 i 1?
6.2.2 Normiranje i skaliranje podataka
Skaliranje je promjena mjerila podataka u smislu povećanja njihove razdvojivosti. Nakon skaliranja
potrebno je često podatke podvrgnuti zajedničkom normiranju. Teorijski promatrano klasifikatori se
mogu podučiti kako primijeniti odgovarajuće linearno ili nelinearno skaliranje podataka na svojim
ulazima, što je vrlo složen postupak.
Uobičajeni postupci preobrade je pretvorba podataka u podatke sa srednjom vrijednosti jednakoj
ništici te normiranje varijance ulaznih atributa.
Uzmimo da posjedujemo dva niza podataka: m1 = 3, 4, 6, 4 te m2 = 11,14, 15, 12. Postavimo ih
linearnom pretvorbom u skalu1 ‐ 10 Normiramo tako pretvorene podatke u nizove sa srednjom
vrijednosti ništa. Pokušajmo ih pretvoriti u podatke s istom varijancom. Što opažamo? Kuda su
nestale izvorne veličine? Možemo li ih obnoviti?
6.2.3 Regresija
Regresija je zajednički naziv za raznorodnu grupu postupaka kojima se smanjuje broj opisnih atributa
promatranog skupa podataka.
Uobičajeno je odrediti kolika je međusobna statistička ovisnost parametara, pa onda izostaviti one
parametre koji su već dovoljno dobro predstavljeni drugim veličinama. Takvi međusobno neovisni
parametri nazivaju se glavni parametri ili glavne analitičke komponente, GAK. Daljnja se obrada onda
odvija na puno manjem broju GAK‐a što pojednostavljuje prikaz i smanjuje broj pretraga. No, ostaje
osnovni problem ‐ kojom metodom to postići! Odnosno kakav model regresije rabiti. Linearna
regresija tako svodi opis neke mjerne pojave y kao linearne kombinacije GAK‐a x1 , x2 ... Sljedećom
shemom:
Y = a1 X1 + a2 X2 + a3 X3 + o (56),
gdje je o oznaka za ostatak aproksimacije pojave. X1, X2 i X3 su tada GAK‐e.
Y X1 X2 X3 X4
5 1 4 -3 2
8 0.2 6 -2 3
12 2 7 -1 2
15 0,6 10 1 1
-6 2 -3 2 0,6
Koeficijent korelacije niza y i x računa se prema izrazu
r = 1/n * (xi‐ xsr)(yi ‐ ysr) / ( 1/n * (xi‐ xsr)2 )1/2) *
( 1/n * (yi ‐ ysr)2) 1/2) (57),
gdje je n broj parova događaja, xi i yi su podaci i‐tog događaja xsr i ysr su srednje vrijednosti svakog
niza.
Koeficijent korelacije rangiranih nizova y i x računa se prema izrazu
rq = 1‐ 6 2/ n2 (n‐1) (58),
gdje je 2 kvadrat razlike rangova dvaju nizova. Izraz (58) vrijedi za nizove sa svim različitim
rangovima u pojedinom nizu.
Što možemo dobiti ispitujući podatke iz Primjera ovim relacijama?
Možemo li možda postaviti regresijski izraz?
Kako se ponašaju nizovi na rang korelaciju?
6.3 Klasifikacijska tehnika
Klasifikacija je postupak podjele ulaznih podataka prema krajnjem ishodu događaja. Moguća je
postupcima samoorganizacije podatka ‐ dakle postupcima umjetne inteligencije poput umjetnih
neuronskih (živčevnih) mreža, genetičkih algoritama, ili polukvalitativnih postupaka (Quacol algebra)‐
ili induktivnim postupcima ‐ stablom ili pravilom odlučivanja, te statističke ‐ CART metoda, statistička
klasifikacija ili entropijska klasifikacija.
Obradit ćemo samo neke od navedenih postupaka. Zajednička osobina svim metodama je unošenje
jakih elemenata kvalitativnog u postupku donošenja odluke, pa ćemo na sklopu diskriminatora
objasniti postupak pretvorbe kvantitativne u kvalitativnu veličinu.
Drugi vrlo značajan element je pojačanje. Bilo da se radi o skaliranju ili normalizaciji, podaci su, kada
uđu u postupak ili uređaj za klasifikaciju, izloženi značajnim pretvorbama.
Takve pretvorbe vrlo je teško do kraja razumjeti, obrazložiti i interpretirati. Osobito kada se radi o
samoorganiziranim postupcima obrade.
6.3.1 Diskriminacijski sklop
Sklop kojem se ulaz mijenja od ‐5V do 5V i koji ima prag okidanja smješten na 0V prikazan je
shemom:
Sklop pretvara ulazni niz koji je u rasponu +/‐ 5V u izlazni niz koji ima samo dva stanja + ili ‐ . Na ovaj
način na izlazu ne znamo koliko točno iznosi ulazni niz, ali znamo da li je veći ili manji od ništice.Dakle
podatak je iz kvantitativnog prešao u kvalitativno područje: veće / manje.
6.3.2 Sklop za zbrajanje
Sklop za zrajanje s postupkom skaliranja dat je na shemi:
X ‐ ulaz, Y ‐ izlaz, W ‐ težinski udio, S ‐ zbrajalo
Koliki je Y ako su X1=5, X2=7, W1=1, W2=10? Tko dominira?
Kako možemo ovu shemu izvesti elektronički, elektromehanički?
Kako možemo na elektroničkom sklopu promijeniti W, X?
6.3.3 Samoorganizacija
Promotrimo sklop na slici (strjelice označavaju podešavanja ulaznih struja u sumatore npr
promjenom otpora):
Za svaku ulaznu pobudu može se podešavanjem dobiti odgovarajući izlazni odziv. Ovo podešavanje
naziva se samoorganizacija.
6.3.4 Klasifikacija
Klasifikacija samoorganizacijom
Svaka samoorganizacija sastoji se od strukture, mogućnosti njene promjene i kriterija prilagodbe.
Opisujemo tri takve klasifikacije: neuralnom mrežom, genetičkim algoritmom i Quacol
algoritmom(Medusa).
Neuralnoj mreži se ne mijenje struktura, promjena je na razini težinskih udjela a kriterij prilagodbe je
minimum odstupanja izlaza za dati skup ulaza. Ta se samoorganizacija izvodi u etapi učenja. U etapi
klasifikacije se dati obrazac propušta kroz mrežu i opaža njen učin ‐ tj kamo uzorak pripada po svojim
atributima.
Genetički algoritam polazi od skupa različitih struktura, ispituje prikladnost rješanja, uzima one
najbolje, kombinira ih u nove strukture tako da u kombinaciji slučajnim izborom promijeni strukturu
npr svakom stotom rješenju, pa dobivene strukture opet ispituje na prilagođenost.
Quacol (algebra kvalitativne korelacije) rangira ulazne podatke, normira i rangira njihove algebarske
kombinacije čime generira različite algebarske strukture, pa one koje su kvalitativno najsličnije ciljnoj
funkciji bira za nove algebarske strukture.
Što je zajedničko svim samoorganiziranim postupcima?
Pretvorba kvantitativno u kvalitativno odvija se u više uzastopnih koraka (cikličnost informacije!):
1. Kod neuronske mreže se na diskriminatoru izvodi pretvorba kvantitativno ‐ kvalitativno a na ulazu
u sumator obrnuto.
2. Kod genetičkog algoritma su rekombinacija i mutacija kvalitativni koraci, a određivanje rezultata i
biranje potomaka je kvalitativne prirode
3.Kod Quacol algebre je rangiranje kvalitativni postupak, a određivanje rezultata i biranje
najpovoljnijih algebarskih struktura je kvantitativan postupak.
6.3.5 Induktivne metode klasifikacije
Induktivne metode
Dvije su induktivne metode: stablo indukcije i indukcijsko pravilo
Kod indukcijskog stabla računa se grananje na stablu u grupi podataka po principu podjele u dvije
grupe. Podaci se ispituju prema nekoj vrijednosti atributa npr X13 u ovisnosti o ishodu npr Y=7.
Ispituju se svi podaci. Ide se sve prema finijoj podjeli podataka sve dok se ne dosegnu kriteriji
zaustavljanja. Često se računa informacijska dobit, kao kod ID3 postupka, pa kada je više nema onda
se klasifikacija zaustavlja.
Indukcijsko pravilo rabi mali skup prostornih i logičkih konstrukata, poput “NA”, “I”, “U DOTICAJU”,
“ILI” koji tvore početni skup pravila zasnovan na nekom početnom kriteriju. Tim se pravilima
klasificiraju podaci ‐ uzorci I mjeri učinak klasifikacije. Nova se pravila dobivaju poopćenjima,
specijalizacijama i opet ispituju…Poznat je sustav AQ‐11 za klasifikaciju bolesti soje.
6.3.6 Statističke metode klasifikacije
Statistička klasifikacija podataka
Statistička parametarska klasifikacija: Podaci se dijele linijom u 2D prostoru (ravninom u 3D), tako da
ona prolazi područjem gdje je u oba podijeljena skupa minimum kvadrata razlike od njegovog centra
a maksimum razlike između podataka različitih grupa. Ako je potrebno jedan se od parametara
skalira da bi se dobili traženi maksimumi, odnosno minimumi. Vodi se računa o tipu funkcije razdiobe
vjerojatnosti
Neparametarska statistička klasifikacija: izvodi se na sličan način kao parametarska, ali ne vodi računa
o tipu raspodjele, već računa centre okupljanja (K‐najbliži susjed) tako da postižu minimume razmaka
untar grupe i maksimum između članova različitih grupa.
CART(Classification And Regression Tree) metoda: dijeli skup podataka prema sve homogenijem
sastavu do ispunjenja određenog kriterija. Svaka dioba ovisi samo o jednoj vrijednosti jednog atributa
i binarnog je tipa.Kada su parametri opisni onda se podjela izvodi po njima a kada su numerički
određuju se regresijska pravila.
Entropijska klasifikacija
Metoda se zasniva na grupiranju podataka prema parametru koji posjeduje maksimum informacije,
odnosno minimum entropije.
Računaju se udio entropije uvjetne vjerojatnosti p(cj/ai) da ishod bude cj ako je ulazni parametar a
ima iznos ai, tj
H*(cj/ai) = ‐ p(cj/ai) log p(cj/ai), za sve ai od 1 do n (59),
gdje je n ukupan broj kombinacija ishoda cj i klasa atributa A. Taj se udio množi težinskim udjelom
svakog iznosa ai ukupnom parametru A tj
k je broj klasa atributa A. Odabiranjem najinformativnijeg atributa otvara se stablo klasifikacije za
ostale atribute.
Kriteriji odrezivanja na stablu odlučivanja
Dva su kriterija odrezivanja: kada broj slučajeva padne ispod nekog iznosa koji je značajan za
donošenje odluke ili kada padne do iznosa kada se događa da u neku klasu više ne dospijeva nijedan
slučaj. Nedogađanje slučaja izaziva umjetni pad entropije i “ruši” metodu, jer pad entropije tada ne
predstavlja smanjenje nereda već nedostatak pojave!
Ako imamo c slučaja u datoj klasi a g ishoda ( npr. porast snage, pad snage motora) te jednoliku
raspodjelu gustoće vjerojatnosti ishoda tada je vjerojatnost dobivanja jedne ništice unutar nekog od
ishoda jednaka
P( jedan ishod =0) = ((g‐1)/g)c ( 61).
Za slučaj c=15, g=4 vjerojatnost u (61) jednaka je 0,01336. Računamo li pad entropije za slučaj g=4,
c=15 npr iz obrasca
n H(5,5,4,1)=0,54956 na H(5,5,5,0)=0,47712 on iznosi H=0,07244 ili 15,8%, što je zamjetno.
Ako kao razumnu granicu za odrezivanje stabla uzmemo klase s 2% ili manje slučajeva od ukupnog
broja, tada npr za se sve klase s manje od 740*0,02 15 slučajeva dalje ne klasificiramo. Ovo može
biti drugi kriterij ‐ potpuno pragmatički.
6.3.7 Analiza klasifikacijskih postupaka
Nema “najbolje “ klasifikacijske tehnike. Prema svakom slučaju se mora posebno postupiti,
prilagoditi. Ipak klasificiranje po maksimumu sličnosti i potpuno odvajanje klasa kakvo je u
entropijskoj klasifikaciji daje joj prednost. No za veliki broj parametara i ova klasifikacija gubi
uvjerljivost.
Izračunajte koliko klasa ima u skupini podataka obilježenih s 10 parametara ako svaki ima dvije
veličine!(1024 klasa)
Koja najvrjednije informatičko svojstvo krije u sebi postupak klasifikacije? (selekcija)
6.4 Postklasifikacijska analiza
Klasifikacija je samo jedan dio posla. Drugi je odgovarajući prikaz rezultata klasifikacije i njegovo
opravdanje.
6.4.1 Analiza dobrote klasifikatora
1. Analiza postupka učenja
1.1 Uzima se samo jedan dio podataka i klasificira. Kada se klasifikator “uvježba” onda se njime
klasificira pokusna skupina podataka (od 9:1 do 1:1). Pretrenirani klasifikator nema svojstvo
generalizacije.
1.2 Uzima se n skupina uzoraka za učenje i testiranje. Računa se križna validacija s nasumce izabranim
parovima uzoraka. Ispituje se statistička značajnost razlike postignutih rezultata.
1.3 Stvaraju se nove skupine uzoraka iz starih odgovarajućim zamjenama ‐ nešto slično slučaju 1.2.
Tada se izvodi validacija postignutog i računaju odstupanja. Ova metoda ima nedostatak u pojavi
predrasudnih ocjena.
2. Ubacivanje funkcije troška
Procjenjuje se cijena neispravne klasifikacije ‐ ovo je dosta teško vrednovati.
3. Analiza statističke značajnosti rezultata klasifikacije
Matrica smušenosti
Massy-jeva A klas. Bklas.
matrica
N11 ‐ broj primjera klase A ispravno klasificiranih
N12 ‐ broj primjeraka klase B neispravno klasificiranih
N21 ‐ broj primjeraka klase A neispravno klasificiranih
N22 ‐ broj primjeraka klase B ispravno klasificiranih
vrijedi N = N11+N12+N21+N22
χ‐kvadrat test se rabi za testiranje statističke značajnosti rezultata klasifikacije. Zasniva se na razlici
između opaženih (O) i očekivanih (E) frekvencija pojava:
2 = (O‐E)2 / E za svih N slučajeva. (62).
Za veliki 2 odbacuje s tzv nulta hipoteza da je razlika slučajna, pa je i klasifikacija statistički značajna.
6.5 Odlučivanje
Odlučivanje je nekada bilo pitanje časti – danas se izgleda svelo na ekonomiju. Ekonomija bi dakle
bila znanost o odlučivanju (a financije bi se trebale baviti novcem). Vidjeti etički kod inženjera!
Za pripomoć u odlučivanju često se rabi softver.
Softver za odlučivanje zasniva se na multikriterijskoj analizi odluke (MCDA) i njezinim odvjetcima
poput: procesa analitičke hijerarhije (AHP), višeatributnoj teoriji vrijednosti (MAVT), višeatributnoj
teoriji korisnosti (MAUT), višeatributnom općem zaključivanju o kvaliteti (MAGIQ) i sl.
Problem odlučivanja se prvo rastavi na hijerarhiju lakše razumljivih potproblema koji se onda mogu
neovisno rješavati. Elementi hijerarhije mogu se odnositi na bilo koji vid problema odlučivanja –
mjerljiv ili nemjerljiv, brižljivo mjeren ili grubo mjeren, slabo ili dobro shvaćen.
Kada se jednom izgradi stablo odluke, osoba koja odlučuje ocjenjuje sve elemente koristeći
konkretne podatke za elemente ili svoje vlastito procjenjivanje elemenata prema odnosnom značenju
i važnosti.
U konačnom koraku procesa, računaju se numeričke preferencije za svaku inačicu odluke. U analizi
odluke se stablo odluke i s njime vezan dijagram utjecajnosti koriste kao vizualna analitičkapotpora
odlučivanju, pri čemu se izračunavaju očekivane vrijednosti ili korisnosti suprotstavljenih inačica.
Stabla odluke se kreiraju tradicijski skicom kao u sljedećem primjeru:
1. Limb P.R., Meggs G. J. Data mining – tools and techniques. BT Technol. J. Vol. 12. No.4.
October 1994. pp 32 – 41.