0809 p2 z10 Prezentacija

Goran Repinc
Zagreb, veljaa, 2009.
Sluajna uma (random forest)

Sluajna uma (random forest ) je klasifikacijski
algoritam koji su razvili Leo Breiman i Adele Cutler.
Termin sluajna uma odluivanja (random decision
forest) je prvi predloio Tin Kam Ho iz Bell Labs 1995.
Algoritam spaja Breimanovu ''bagging'' ideju s
Hoovom ''random subspace method'' da bi stvorio
skup stabla odluivanja s kontroliranim varijacijama.
2
Osnovna ideja
Umjesto jednog klasifikatora imami ih mnogo
Svaki klasifikator pojedinano je openito slab klasifikator
Kada treba klasificirati novi primjer:
Svaki klasifikator neovisno od drugih izvodi klasifikaciju

Primjeru se dodjeljuje ona klasa koju je dalo najvie
klasifikatora
3
Osnovna ideja
Konstrukcija stabla
DTree(Primjeri, Atributi)
Kreiraj osnovni vor stabla
Ako su svi primjeri iste klase i => stablo je osnovni vor s oznakom i
Ako su svi atributi iskoriteni => vrati osnovni vor s oznakom najbrojnije klase
Inae
Dok atributi >0
Ai = Odredi atribut koji najbolje klasificira skup primjera
Za svaku vrijednost vj od Ai
Dodaj novu granu ispod vora, koja korespondira s testom Ai = vj
Neka su Primjeri(Ai = vj) onaj skup primjera koji zadovoljava Ai = vj
Ako primjeri (Ai=vj)=0
Dodaj oznaku c = najea klasa u skupu Primjeri
Inae za novu granu dodaj novo podstablo
DTree(Primjeri(Ai=vj),Atributi-Ai)
5
Konstrukcija ume
Neka ne n broj primjera, k broj stabala i m zadani
parametar
Za svako ok K stabala
Odaberemo na sluajan nain n primjera za uenje s
preklapanjem
Konstruirmo stablo tako da na svakom voru odaberemo
m atributa i radimo najbolju podjelu po tih m atributa
Stablo raste do maksimalne veliine nema rezanja
Klasifikacija
Kada elimo klasificirati novi primjer:
pustimo primjer niz svako stablo
stablo zasebno donosi odluku o klasi (kaemo da
stabla glasaju za klasu)
primjer e biti klasificiran klasom koja dobije najvie
glasova
7
Parametar m
Greka sluajne ume ovisi o dvije veliine:
koreliranost izmeu stabala- poveanje koreliranosti poveava greku
stabla.
jakost svakog pojedinog stabla stabla u umi- stablo s niskim stupnjem
pogreke ima veliku jakost; poveanje jakosti svakog pojedinog stabla
smanjuje greku cijele ume.
Smanjenjem varijable m smanjuje i koreliranost i jakost. Poveanje
poveava i koreliranost i jakost. Negdje na sredini se nalazi optimalan
interval za m (obino dosta irok). Koritenje oob stope pogreke
optimalan interval za m se moe brzo nai. To je jedini podesivi
parametar (osim broja stabla) na koji je sluajna uma osjetljiva.
8
Oob procjena pogreke

Kod sluajne ume, nema potrebe za validacijom ili odvojenim
testovima da bi se dobila nepristrana procjena greke. Greka se

procjenjuje interno, tijekom rasta ume.
Svako stablo se gradi koristei drugaiji skup primjera. Oko jedne
treine primjera se ne koristi za konstrukciju stabla.

Svaki takav podatak se pusti kroz stablo da bi se izvrila klasifikacija.
Na taj nain svaki primjer se testira u otprilike treini stabala. Na kraju

izvoenja, uzmimo j da bude klasa koja je dobila najvie glasova svaki
put kada je primjer n bio oob. Omjer broja puta kada j nije jednak
pravoj klasi i prosjek svih n-ova daje oob procjenu pogreke. Pokazalo
se da je to nepristrana procjena u mnogim testovima.
9
Mogunosti
Vrlo toan na nekim skupovima podataka
Efikasna na velikim skupovima podataka
Efikasna za velik broj atributa
Daje procjenu koje varijable su vane za klasifikaciju
Daje unutranju nepristranu procjenu ope greke tijekom procesa
rasta ume
6. Ima uinkovitu metodu procjene nepotpunih podataka i zadrava
tonost i kada mnogo podataka nedostaje
7. Jedno narasla uma moe se spremiti za buduu upotrebu
8. Prototipovi se izraunavaju koji daju procjenu o odnosu varijabli i
klasifikacije
9. Rauna udaljenosti izmeu parova primjera koje se mogu koristiti u
klasterima, pronalaenju outlinera i daje zanimljiv prikaz podataka.
Ovo se moe proiriti na neklasificirane podatke koje vodi
nenadgledanom uenju
10. Prua eksperimentalnu metodu za otkrivanje interakcije meu
varijablama
1.
2.
3.
4.
5.
10
Vanost atributa
U svakom izgraenom stablu, testiramo oob primjere
i brojimo broj tonih glasova. Sada sluajno
permutiramo vrijednosti atributa m u oob primjerima
i ponovimo test. Oduzmimo broj tonih klasifikacija
za prave i permutirane primjere. Prosjek tog broja po
svim stablima u umi je priblina vanost atributa m.
Oekujemo da broj tonih glasova nee mnogo
razlikovati ako je atribut nebitan, dok e se za vaan
atribut znatno razlikovati
11
Vanost atributa - primjer
12
Udaljenosti (proximities)
Najkorisniji alat u sluajnim umama je raunanje
udaljenosti.
Udaljenosti originalno tvore N x N matricu.
Nakon rasta stabla, sve primjere i oob i ne-oob
pustimo niz stablo. Ako primjeri m i n zavre u istom
listu njihova udaljenost se poveava za 1.
Na kraju se sve udaljenosti normaliziraju brojem
stabala.
Udaljenosti se koriste za skaliranje, prototipove,
dopunjavanje nepoznatih vrijednosti, pronalaenje
outlinera
13
Prototipovi
Prototipovi su nain da saznamo kako su atributi
povezane s klasifikacijom.
Za j-tu klasu, naemo primjer koji ima najvie j
klasifikacija meu svojih k najbliih susjeda.
Susjede odreujemo koristei udaljenosti.
Meu tih k sluajeva naemo medijan, 25 i 75
percentil za svaki atribut.
Medijani su prototipovi za j-tu klasu, a percentili nam
daju procjenu stabilnosti.
14
Outliners (stree vrijednosti)

Outlineri se openito definiraju kao primjeri koji su
odvojeni od glavnog dijela podataka.
To se moe prevesti kao: outlineri su oni sluajevi ije
su udaljenosti prema ostalima sluajevima male.
Koristan dodatak je promatrati outlinere relativno
prema njihovoj klasi. Dakle, outliner klase j je primjer
ije su udaljenosti prema ostalim primjerima klase j
male.
15
Outliners - primjer
16
Vie informacija
Za vie informacija o
Skaliranju
Nadopunjavanju nepotpunih podataka iz skupa za
uenje i skupa za testiranje
Lokalnoj vanosti varijabli
Nenadgledanom uenju
Balansiranju greke
www.stat.berkeley.edu/~breiman/RandomForests/cc_h
ome.htm
17
Testiranja parametar m
18
Testiranja parametar m
19
Testiranja broj stabala
20
Testiranja oob greka
21
Usporedba
22
Zakljuak
Random forest je dobar klasifikator za velike skupove
podataka s velikim brojem atributa.
Prua velike mogunosti u analizi podataka.
Mane su mu vremenska i prostorna sloenost s
obzirom na jednostavnije klasifikatore.
23

0809 p2 z10 Prezentacija

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

0809 p2 z10 Prezentacija

Uploaded by

Copyright:

Available Formats

Goran Repinc

Zagreb, veljaa, 2009.

Sluajna uma (random forest)

Svaki klasifikator neovisno od drugih izvodi klasifikaciju

Oob procjena pogreke

testovima da bi se dobila nepristrana procjena greke. Greka se

treine primjera se ne koristi za konstrukciju stabla.

Na taj nain svaki primjer se testira u otprilike treini stabala. Na kraju

Vanost atributa - primjer

Outliners (stree vrijednosti)

Testiranja broj stabala

Testiranja oob greka

You might also like