Materijal je pripremljen delimičnim korišćenjem materijala sa kursa:
Introduction to Pattern Analysis, Ricardo Gutierrez-Osuna Texas A&M University Neparametarska estimacija raspodele gustina verovatnoće • Iz prethodnih razmatranja sledi, da ukoliko znamo da dovoljno dobro procenimo raspodele gustina verovatnoće𝑓(𝑥|𝜔𝑖 ), uz procenu ili poznavanje apriornih verovatnoća klasa 𝑃(𝜔𝑖 ), dolazimo do tzv. Plug-in Bajesovog klasifikatora. • Ukoliko procenjene vrednosti teže asimptotski istinitim vrednostima, kada se dužina obučavajućih skupova neograničeno povećava, Plug-in Bajesov klasifikator teži optimalnom Bajeosvom klasifikatoru minimalne moguće greške klasifikacije. • U neparametarskom pristupu, raspodele gustina verovatnoća se procenjuju direktno iz obučavajućih skupova, bez ikakve restriktivne pretpostavke o pripadanju nekom unapred zadatoj parametarskoj familiji raspodela. Neparametarska estimacija raspodele gustina verovatnoće Metod histograma • Najprostiji metod za procenu raspodela verovatnoće je metod histograma: Celokupan prostor uzoraka se podeli na odredjeni broj ćelija (binova), a gustine verovatnoće se procenjuju u centrima svakog bina srazmerno broju uzoraka obučavajućeg skupa koji upada u dati bin. 1 𝑏𝑟𝑜𝑗 𝑢𝑧𝑜𝑟𝑎𝑘𝑎 𝑢 𝑏𝑖𝑛𝑢 𝑢 𝑘𝑜𝑚𝑒 𝑗𝑒 𝑥 𝑃𝑁 𝑥 = 𝑁 𝑣𝑒𝑙𝑖č𝑖𝑛𝑎 𝑏𝑖𝑛𝑎 𝑘𝑜𝑗𝑖 𝑠𝑎𝑑𝑟ž𝑖 𝑥
Dva slobodna parametra:
Širina bina i startna pozicija Prvog bina Metod histograma • Metod histograma ima dve ozbiljne mane: • Estimacija gustine verovatnoće zavisi od startne pozicije binova • Diskontinuitet procena nastaje usled različite pozicije binova • Prokletstvo dimenzija (curse of dimensionality), budući da broj binova raste eksponencijalno u odnosu na broj dimenzija. U prostoru visoke dimenzionalnosti potrebno je imati znatno više uzoraka. U protivnom, većina binova će biti prazna. • Stoga metoda histograma uglavnom služi za brzu vizualizaciju. Prokletstvo dimenzija Zapremeine suseda i broj uzoraka teže nuli sa porastom dimenzija. Za d=10, da bi se ispunilo 10% zapremine jedinične kocke, već zahteva dužinu stranice 0.8. Uslovi konvergencije • To estimate the density of x, we form a sequence of regions R1, R2,… containing x: the first region contains one sample, the second two samples and so on. • Let Vn be the volume of Rn, kn the number of samples falling in Rn and pn(x) be the nth estimate for p(x): pn(x) = (kn/n)/Vn • Three necessary conditions should apply if we want pn(x) to converge to p(x):
1) lim Vn 0 2) lim kn 3) lim kn / n 0
n n n Zavisnost kNN greške od broja klasa i Bayesove greške
Zavisnost kNN greške od k i Bayesove greške
Byes optimalni izbor za k
Nearest-Neighbor Fit
Major limitations: (1) Very in inefficient in high dimension (2) Could be unstable (wiggly) (3) If training data is scarce, may not be the right choice