You are on page 1of 23

Goran Repinc

Zagreb, veljaa, 2009.

Sluajna uma (random forest)


 Sluajna uma (random forest ) je klasifikacijski
algoritam koji su razvili Leo Breiman i Adele Cutler.
 Termin sluajna uma odluivanja (random decision
forest) je prvi predloio Tin Kam Ho iz Bell Labs 1995.
 Algoritam spaja Breimanovu ''bagging'' ideju s
Hoovom ''random subspace method'' da bi stvorio
skup stabla odluivanja s kontroliranim varijacijama.
2

Osnovna ideja
 Umjesto jednog klasifikatora imami ih mnogo
 Svaki klasifikator pojedinano je openito slab klasifikator
 Kada treba klasificirati novi primjer:

Svaki klasifikator neovisno od drugih izvodi klasifikaciju


Primjeru se dodjeljuje ona klasa koju je dalo najvie
klasifikatora
3

Osnovna ideja

Konstrukcija stabla
DTree(Primjeri, Atributi)
Kreiraj osnovni vor stabla
Ako su svi primjeri iste klase i => stablo je osnovni vor s oznakom i
Ako su svi atributi iskoriteni => vrati osnovni vor s oznakom najbrojnije klase
Inae
Dok atributi >0
Ai = Odredi atribut koji najbolje klasificira skup primjera
Za svaku vrijednost vj od Ai
Dodaj novu granu ispod vora, koja korespondira s testom Ai = vj
Neka su Primjeri(Ai = vj) onaj skup primjera koji zadovoljava Ai = vj
Ako primjeri (Ai=vj)=0
Dodaj oznaku c = najea klasa u skupu Primjeri
Inae za novu granu dodaj novo podstablo
DTree(Primjeri(Ai=vj),Atributi-Ai)
5

Konstrukcija ume
 Neka ne n broj primjera, k broj stabala i m zadani
parametar
 Za svako ok K stabala
 Odaberemo na sluajan nain n primjera za uenje s
preklapanjem
 Konstruirmo stablo tako da na svakom voru odaberemo
m atributa i radimo najbolju podjelu po tih m atributa
 Stablo raste do maksimalne veliine nema rezanja

Klasifikacija
Kada elimo klasificirati novi primjer:
 pustimo primjer niz svako stablo
 stablo zasebno donosi odluku o klasi (kaemo da
stabla glasaju za klasu)
 primjer e biti klasificiran klasom koja dobije najvie
glasova
7

Parametar m
Greka sluajne ume ovisi o dvije veliine:
 koreliranost izmeu stabala- poveanje koreliranosti poveava greku

stabla.
 jakost svakog pojedinog stabla stabla u umi- stablo s niskim stupnjem
pogreke ima veliku jakost; poveanje jakosti svakog pojedinog stabla
smanjuje greku cijele ume.
Smanjenjem varijable m smanjuje i koreliranost i jakost. Poveanje
poveava i koreliranost i jakost. Negdje na sredini se nalazi optimalan
interval za m (obino dosta irok). Koritenje oob stope pogreke
optimalan interval za m se moe brzo nai. To je jedini podesivi
parametar (osim broja stabla) na koji je sluajna uma osjetljiva.
8

Oob procjena pogreke


 Kod sluajne ume, nema potrebe za validacijom ili odvojenim

testovima da bi se dobila nepristrana procjena greke. Greka se


procjenjuje interno, tijekom rasta ume.
 Svako stablo se gradi koristei drugaiji skup primjera. Oko jedne

treine primjera se ne koristi za konstrukciju stabla.


 Svaki takav podatak se pusti kroz stablo da bi se izvrila klasifikacija.

Na taj nain svaki primjer se testira u otprilike treini stabala. Na kraju


izvoenja, uzmimo j da bude klasa koja je dobila najvie glasova svaki
put kada je primjer n bio oob. Omjer broja puta kada j nije jednak
pravoj klasi i prosjek svih n-ova daje oob procjenu pogreke. Pokazalo
se da je to nepristrana procjena u mnogim testovima.
9

Mogunosti
Vrlo toan na nekim skupovima podataka
Efikasna na velikim skupovima podataka
Efikasna za velik broj atributa
Daje procjenu koje varijable su vane za klasifikaciju
Daje unutranju nepristranu procjenu ope greke tijekom procesa
rasta ume
6. Ima uinkovitu metodu procjene nepotpunih podataka i zadrava
tonost i kada mnogo podataka nedostaje
7. Jedno narasla uma moe se spremiti za buduu upotrebu
8. Prototipovi se izraunavaju koji daju procjenu o odnosu varijabli i
klasifikacije
9. Rauna udaljenosti izmeu parova primjera koje se mogu koristiti u
klasterima, pronalaenju outlinera i daje zanimljiv prikaz podataka.
Ovo se moe proiriti na neklasificirane podatke koje vodi
nenadgledanom uenju
10. Prua eksperimentalnu metodu za otkrivanje interakcije meu
varijablama
1.
2.
3.
4.
5.

10

Vanost atributa
 U svakom izgraenom stablu, testiramo oob primjere
i brojimo broj tonih glasova. Sada sluajno
permutiramo vrijednosti atributa m u oob primjerima
i ponovimo test. Oduzmimo broj tonih klasifikacija
za prave i permutirane primjere. Prosjek tog broja po
svim stablima u umi je priblina vanost atributa m.
 Oekujemo da broj tonih glasova nee mnogo
razlikovati ako je atribut nebitan, dok e se za vaan
atribut znatno razlikovati
11

Vanost atributa - primjer

12

Udaljenosti (proximities)
 Najkorisniji alat u sluajnim umama je raunanje
udaljenosti.
 Udaljenosti originalno tvore N x N matricu.
 Nakon rasta stabla, sve primjere i oob i ne-oob
pustimo niz stablo. Ako primjeri m i n zavre u istom
listu njihova udaljenost se poveava za 1.
 Na kraju se sve udaljenosti normaliziraju brojem
stabala.
 Udaljenosti se koriste za skaliranje, prototipove,
dopunjavanje nepoznatih vrijednosti, pronalaenje
outlinera
13

Prototipovi
 Prototipovi su nain da saznamo kako su atributi
povezane s klasifikacijom.
 Za j-tu klasu, naemo primjer koji ima najvie j
klasifikacija meu svojih k najbliih susjeda.
 Susjede odreujemo koristei udaljenosti.
 Meu tih k sluajeva naemo medijan, 25 i 75
percentil za svaki atribut.
 Medijani su prototipovi za j-tu klasu, a percentili nam
daju procjenu stabilnosti.

14

Outliners (stree vrijednosti)


 Outlineri se openito definiraju kao primjeri koji su
odvojeni od glavnog dijela podataka.
 To se moe prevesti kao: outlineri su oni sluajevi ije
su udaljenosti prema ostalima sluajevima male.
 Koristan dodatak je promatrati outlinere relativno
prema njihovoj klasi. Dakle, outliner klase j je primjer
ije su udaljenosti prema ostalim primjerima klase j
male.

15

Outliners - primjer

16

Vie informacija
Za vie informacija o
 Skaliranju
 Nadopunjavanju nepotpunih podataka iz skupa za
uenje i skupa za testiranje
 Lokalnoj vanosti varijabli
 Nenadgledanom uenju
 Balansiranju greke
www.stat.berkeley.edu/~breiman/RandomForests/cc_h
ome.htm
17

Testiranja parametar m

18

Testiranja parametar m

19

Testiranja broj stabala

20

Testiranja oob greka

21

Usporedba

22

Zakljuak
 Random forest je dobar klasifikator za velike skupove
podataka s velikim brojem atributa.
 Prua velike mogunosti u analizi podataka.
 Mane su mu vremenska i prostorna sloenost s
obzirom na jednostavnije klasifikatore.

23

You might also like