Professional Documents
Culture Documents
0809 p2 z10 Prezentacija
0809 p2 z10 Prezentacija
Osnovna ideja
Umjesto jednog klasifikatora imami ih mnogo
Svaki klasifikator pojedinano je openito slab klasifikator
Kada treba klasificirati novi primjer:
Osnovna ideja
Konstrukcija stabla
DTree(Primjeri, Atributi)
Kreiraj osnovni vor stabla
Ako su svi primjeri iste klase i => stablo je osnovni vor s oznakom i
Ako su svi atributi iskoriteni => vrati osnovni vor s oznakom najbrojnije klase
Inae
Dok atributi >0
Ai = Odredi atribut koji najbolje klasificira skup primjera
Za svaku vrijednost vj od Ai
Dodaj novu granu ispod vora, koja korespondira s testom Ai = vj
Neka su Primjeri(Ai = vj) onaj skup primjera koji zadovoljava Ai = vj
Ako primjeri (Ai=vj)=0
Dodaj oznaku c = najea klasa u skupu Primjeri
Inae za novu granu dodaj novo podstablo
DTree(Primjeri(Ai=vj),Atributi-Ai)
5
Konstrukcija ume
Neka ne n broj primjera, k broj stabala i m zadani
parametar
Za svako ok K stabala
Odaberemo na sluajan nain n primjera za uenje s
preklapanjem
Konstruirmo stablo tako da na svakom voru odaberemo
m atributa i radimo najbolju podjelu po tih m atributa
Stablo raste do maksimalne veliine nema rezanja
Klasifikacija
Kada elimo klasificirati novi primjer:
pustimo primjer niz svako stablo
stablo zasebno donosi odluku o klasi (kaemo da
stabla glasaju za klasu)
primjer e biti klasificiran klasom koja dobije najvie
glasova
7
Parametar m
Greka sluajne ume ovisi o dvije veliine:
koreliranost izmeu stabala- poveanje koreliranosti poveava greku
stabla.
jakost svakog pojedinog stabla stabla u umi- stablo s niskim stupnjem
pogreke ima veliku jakost; poveanje jakosti svakog pojedinog stabla
smanjuje greku cijele ume.
Smanjenjem varijable m smanjuje i koreliranost i jakost. Poveanje
poveava i koreliranost i jakost. Negdje na sredini se nalazi optimalan
interval za m (obino dosta irok). Koritenje oob stope pogreke
optimalan interval za m se moe brzo nai. To je jedini podesivi
parametar (osim broja stabla) na koji je sluajna uma osjetljiva.
8
Mogunosti
Vrlo toan na nekim skupovima podataka
Efikasna na velikim skupovima podataka
Efikasna za velik broj atributa
Daje procjenu koje varijable su vane za klasifikaciju
Daje unutranju nepristranu procjenu ope greke tijekom procesa
rasta ume
6. Ima uinkovitu metodu procjene nepotpunih podataka i zadrava
tonost i kada mnogo podataka nedostaje
7. Jedno narasla uma moe se spremiti za buduu upotrebu
8. Prototipovi se izraunavaju koji daju procjenu o odnosu varijabli i
klasifikacije
9. Rauna udaljenosti izmeu parova primjera koje se mogu koristiti u
klasterima, pronalaenju outlinera i daje zanimljiv prikaz podataka.
Ovo se moe proiriti na neklasificirane podatke koje vodi
nenadgledanom uenju
10. Prua eksperimentalnu metodu za otkrivanje interakcije meu
varijablama
1.
2.
3.
4.
5.
10
Vanost atributa
U svakom izgraenom stablu, testiramo oob primjere
i brojimo broj tonih glasova. Sada sluajno
permutiramo vrijednosti atributa m u oob primjerima
i ponovimo test. Oduzmimo broj tonih klasifikacija
za prave i permutirane primjere. Prosjek tog broja po
svim stablima u umi je priblina vanost atributa m.
Oekujemo da broj tonih glasova nee mnogo
razlikovati ako je atribut nebitan, dok e se za vaan
atribut znatno razlikovati
11
12
Udaljenosti (proximities)
Najkorisniji alat u sluajnim umama je raunanje
udaljenosti.
Udaljenosti originalno tvore N x N matricu.
Nakon rasta stabla, sve primjere i oob i ne-oob
pustimo niz stablo. Ako primjeri m i n zavre u istom
listu njihova udaljenost se poveava za 1.
Na kraju se sve udaljenosti normaliziraju brojem
stabala.
Udaljenosti se koriste za skaliranje, prototipove,
dopunjavanje nepoznatih vrijednosti, pronalaenje
outlinera
13
Prototipovi
Prototipovi su nain da saznamo kako su atributi
povezane s klasifikacijom.
Za j-tu klasu, naemo primjer koji ima najvie j
klasifikacija meu svojih k najbliih susjeda.
Susjede odreujemo koristei udaljenosti.
Meu tih k sluajeva naemo medijan, 25 i 75
percentil za svaki atribut.
Medijani su prototipovi za j-tu klasu, a percentili nam
daju procjenu stabilnosti.
14
15
Outliners - primjer
16
Vie informacija
Za vie informacija o
Skaliranju
Nadopunjavanju nepotpunih podataka iz skupa za
uenje i skupa za testiranje
Lokalnoj vanosti varijabli
Nenadgledanom uenju
Balansiranju greke
www.stat.berkeley.edu/~breiman/RandomForests/cc_h
ome.htm
17
Testiranja parametar m
18
Testiranja parametar m
19
20
21
Usporedba
22
Zakljuak
Random forest je dobar klasifikator za velike skupove
podataka s velikim brojem atributa.
Prua velike mogunosti u analizi podataka.
Mane su mu vremenska i prostorna sloenost s
obzirom na jednostavnije klasifikatore.
23