Professional Documents
Culture Documents
Orange Skripta PDF
Orange Skripta PDF
Milo Jovanovid
Radna povrina
Radna povrina programa je prikazana na Slici 1 i se sastoji od: povrine za razvoj procesa za data-mining
(1); skupa vorova za procesiranje, podeljenih u grupe (2); glavnog menija za konfiguraciju programa i
osnovne funkcije sa projektom (3).
su, na primer, vorovi File i Classification Tree kompatibilni, jer izlaz prvog je definisan kao ulaz drugog,
te je mogude ulanati ih (Slika 2). Opis i definiciju ulaza i izlaza vora mogude je videti zadravanjem
strelice mia na nekom voru.
neke verzije programa imaju problema (bug-ove) sa uitavanjem csv formata podataka, to je mogude zaobidi konverzijom
podataka u kompatibilni tab format.
Uitane podatke u proces je mogude videti pomodu vora DataTable iz grupe Data. vor na ulazu
zahteva sluajeve (Examples), pa je mogude povezati ga sa vorom File, to je prikazano na Slici 3.
Validacija modela
Pre upotrebe modela, poeljno je ispitati kvalitet istog, kako bi se dobio nivo sigurnosti sa kojim se
model moe primenjivati. Proces u kome se kvalitet modela testira upotrebom nad podacima se zove
validacija.
Kvalitet modela se najede meri procentom greke klasifikacije, kada se primeni nad podacima za koje
se unapred zna kojoj klasi pripadaju. Tada se uporede prava klasa sa procenjenom od strane modela i
izrauna na uzorku greka klasifikacije, kao procentualni odnos neispravno klasifikovanih sluajeva
prema ispravno klasifikovanim. Postoje i sloenije mere kvaliteta, to de se videti u programu, ali to ovaj
tekst nede obraivati.
Za potrebe validacije, najede se iz poetnog skupa podataka izdvaja jedan deo podataka koji se zove
Test podaci (Test Set), nasuprot ostatku podataka koji se nazivaju Trening podaci (Training set). Ovim se
omogudava da validacija bude ispravnija, poto se model testira na podacima na kojimi nije graen. Tako
se testira generalizacija modela, to predstavlja osobinu da model daje dobre procene na novim
sluajevima u bududnosti.
Za validaciju se u ovom programu koristi vor Test Learners, iz grupe Evaluate. Ovaj vor na ulazu
zahteva tri stvari: podatke za uenje (Training set), model za klasifikaciju (Learner) i podatke za testiranje
(Test set). Primer toka za validaciju prikazan je na Slici 8.
koji sluajevi su sliniji, poto su se ranije spojili u manji klaster prilikom izgradnje vedih klastera. Prikaz
dodeljenih sluajeva klasterima se takoe moe videti Data Table vorom, slino kao sa Slike 14.
conf A
B
A
Podrka je druga mera kvaliteta koja procenjuje koliko je pravilo upotrebljivo, tako to rauna
verovatnodu da se ispune uslovi iz uzroka pravila. Ta mera ukazuje na to u kolikoj relativnoj meri de biti
mogude primeniti pravilo, a rauna se po slededoj formuli:
supp A
A
S
U programu su u listi pravila ukljuene i mere kvaliteta, prdruene svakom pravilu, to se vidi na Slici 18
(oznake conf i supp). Pravila je mogude i sortirati po merama kvaliteta (jednostavnim pritiskom na
zaglavlje), to moe olakati izdvajanje relevantnih pravila iz skupa svih pronaenih pravila.
Uz listu pravila se na levoj strani prikaza (Slika 18) vidi i mogudnost filtriranja pravila po merama
kvaliteta, i to kroz matricu koja na vertikalnoj dimenziji ima poverenje, a na horizontalnoj dimezniji
podrku otkrivenih pravila.
Dodatno, uz poverenje i podrku, pravila se mogu opisati i drugim merama kvaliteta, meu kojima je i
mera Lift. Lift predstavlja meru koja ocenjuje neoekivanost pravila, a rauna se po slededoj formuli:
A
lift A
B
A
B
S
Poto algoritam za pronalaenje asocijativnih pravila moe biti dugotrajan jer pretrauje veliki prostor
pravila, moe se uticati na nekoliko naina na efikasnost algoritma. Jedan nain je da se odrede donji
pragovi kvalita pravila, to je mogude podesiti otvaranjem vora Association Rules, a to je prilazano na
Slici 19. Dodatno, efikasnost se moe poboljati izborom podskupa atributa od poetnog skupa, kako bi
algoritam istraio asocijacije na samo tom izabranom podskupu. Ovo je mogude uraditi vorom Select
Attributes, pre vora Association Rules. Kao posledica ove tenje za efikasnodu moe biti umanjenje
efektivnosti algoritma u pronalaenju svih relevantnih pravila, ali to je kompromis koji je potrebno svesti
na pravu meru.
Pretprocesiranje podataka
Zadaci otkrivanja zakonitosti u podacima otkrivaju znanje koje moe biti potencijalno korisno za
unapreenje poslovnih procesa. Naalost, otkriveno znanje moe imati i suvie niske pokazatelje
kvaliteta da bi bilo primenljivo, to moe biti posledica vie uzroka.
Jedan od znaajnih uzroka kvaliteta znanja jeste i kvalitet podataka na osnovu kojih se otkriva znanje.
Kvalitet podataka zavisi od broja sluajeva, broja atributa, izbora pravih atributa a zanemarivanja
nepotrebnih, od greaka u podacima, nestandardnih sluajeva, nedostajudih podataka, itd. Neke od ovih
nedostataka u podacima se mogu otkriti i ispraviti pre procesa za izgradnju modela, to se postie
tehnikama pretprocesiranja podataka.
Jedan od mogudih problema u podacima su nedostajudi podaci. Sluajevi sa vrednostima atributa koje
nedostaju ne mogu biti korideni za izgradnju modela, a kod nekih algoritama mogu i da zaustave ili
ometu proces. Zato je poeljno reiti taj problem pre putanja algoritama za izgranju modela. U
programu se ovaj problem reava vorom Impute Data, koji na ulazu ima sluajeve (Examples) sa
nedostajudim podacima, a na izlazu takoe sluajeve, ali bez tog problema, koji se moe reiti na vie
naina. Otvaranjem vora Impute Data se mogu definisati naini za reavanje, a neki od njih su:
- izbacivanje sluajeva koji imaju nedostajudu vrednost atributa,
- popunjavanje nedostajudih vrednosti sa prosenim vrednostima atributa,
- popunjavanje nedostajudih vrednosti sa sluajnim vrednostima.
Tok za reavanje problema nedostajudih podataka, kao i izbora tehnike za to, je prikazan na Slici 20.
Zakljuak
Program Orange predstavlja platformu za izgradnju procesa otrkivanja zakonitosti u podacima koja je
dosta jednostavna, ali i modna i vrlo ilustrativna za potrebe uenja ove oblasti. Iako je program
akademski i besplatan, okruenje dosta podseda na komercijalne alate i merljivo je sa njima. Jedini
nedostatak programa je izostanak kvalitetne dokumentacije, kao i zajednice koja bi ovaj program
podstakla na bri razvoj.