You are on page 1of 34

Odlučivanje zasnovano na

pravilima K najbližih suseda


Milan M.Milosavljević

Materijal je pripremljen delimičnim korišćenjem materijala sa kursa:


Introduction to Pattern Analysis, Ricardo Gutierrez-Osuna
Texas A&M University
Neparametarska estimacija raspodele
gustina verovatnoće
• Iz prethodnih razmatranja sledi, da ukoliko znamo da dovoljno
dobro procenimo raspodele gustina verovatnoće𝑓(𝑥|𝜔𝑖 ), uz
procenu ili poznavanje apriornih verovatnoća klasa 𝑃(𝜔𝑖 ),
dolazimo do tzv. Plug-in Bajesovog klasifikatora.
• Ukoliko procenjene vrednosti teže asimptotski istinitim
vrednostima, kada se dužina obučavajućih skupova
neograničeno povećava, Plug-in Bajesov klasifikator teži
optimalnom Bajeosvom klasifikatoru minimalne moguće
greške klasifikacije.
• U neparametarskom pristupu, raspodele gustina verovatnoća
se procenjuju direktno iz obučavajućih skupova, bez ikakve
restriktivne pretpostavke o pripadanju nekom unapred
zadatoj parametarskoj familiji raspodela.
Neparametarska estimacija raspodele
gustina verovatnoće
Metod histograma
• Najprostiji metod za procenu raspodela verovatnoće je metod
histograma: Celokupan prostor uzoraka se podeli na odredjeni
broj ćelija (binova), a gustine verovatnoće se procenjuju u
centrima svakog bina srazmerno broju uzoraka obučavajućeg
skupa koji upada u dati bin.
1 𝑏𝑟𝑜𝑗 𝑢𝑧𝑜𝑟𝑎𝑘𝑎 𝑢 𝑏𝑖𝑛𝑢 𝑢 𝑘𝑜𝑚𝑒 𝑗𝑒 𝑥
𝑃𝑁 𝑥 =
𝑁 𝑣𝑒𝑙𝑖č𝑖𝑛𝑎 𝑏𝑖𝑛𝑎 𝑘𝑜𝑗𝑖 𝑠𝑎𝑑𝑟ž𝑖 𝑥

Dva slobodna parametra:


Širina bina i startna pozicija
Prvog bina
Metod histograma
• Metod histograma ima dve ozbiljne mane:
• Estimacija gustine verovatnoće zavisi od startne pozicije
binova
• Diskontinuitet procena nastaje usled različite pozicije
binova
• Prokletstvo dimenzija (curse of dimensionality), budući da
broj binova raste eksponencijalno u odnosu na broj
dimenzija. U prostoru visoke dimenzionalnosti potrebno je
imati znatno više uzoraka. U protivnom, većina binova će
biti prazna.
• Stoga metoda histograma uglavnom služi za brzu vizualizaciju.
Prokletstvo dimenzija
Zapremeine suseda i broj uzoraka teže nuli sa porastom dimenzija. Za d=10, da bi se
ispunilo 10% zapremine jedinične kocke, već zahteva dužinu stranice 0.8.
Uslovi konvergencije
• To estimate the density of x, we form a sequence of
regions R1, R2,… containing x: the first region contains
one sample, the second two samples and so on.
• Let Vn be the volume of Rn, kn the number of samples
falling in Rn and pn(x) be the nth estimate for p(x):
pn(x) = (kn/n)/Vn
• Three necessary conditions should apply if we want
pn(x) to converge to p(x):

1) lim Vn  0 2) lim kn   3) lim kn / n  0


n  n  n 
Zavisnost kNN greške od broja klasa i Bayesove greške

Zavisnost kNN greške od k i Bayesove greške

Byes optimalni izbor za k


Nearest-Neighbor Fit

Major limitations:
(1) Very in inefficient in high dimension
(2) Could be unstable (wiggly)
(3) If training data is scarce, may not be the right choice

You might also like