Professional Documents
Culture Documents
U ovom radu se analizira problem mašinskog učenja veštačke neuronske mreže sa radijalnim akti-
vacionim funkcijama Gausovog tipa na bazi Kalmanovog filtra. Prikazana su tri nova sekvencijalna
algoritma mašinskog učenja: prvi algoritam direktno primenjuje linearizovani Kalmanov filtar kao
algoritam mašinskog učenja, drugi algoritam primenjuje dual Kalmanovom filtru pod nazivom line-
arizovani informacioni filtar, dok treći algoritam na poseban način aproksimira prvi i drugi moment
Gausove raspodele. U radu se naglašavaju osnovne prednosti koje pomenuti algoritmi imaju u po-
ređenju sa konvencionalnim vidovima mašinskog učenja. Za sva tri algoritma razvijen je odgovarajući
matematički model veštačke neuronske mreže sa radijalnim aktivacionim funkcijama Gausovog tipa.
Analizirane su osnovne postavke izvedenih algoritama u cilju njihove primene na složene probleme u
inženjerskoj praksi.
Ključne reči: mašinsko učenje, veštačke neuronske mreže, Kalmanov filtar
N
y i w ij f xi , μ j , j
j 1
(1)
Osnovni parametri su:
vektor težinskih parametara veštačke neuronske
mreže w ij ;
vektor prototipova (repera) μ j nx , gde n x
označava broj dimenzija ulaznog vektora;
radijalne distance j ; j 1 ;
f , , je aktivaciona funkcija veštačke
neuronske mreže,
n
x i nx i y i y su ulazni i izlazni vektor (res- Slika 1 - Tipovi aktivacionih funkcija: a) Gausova
pektivno) koji formiraju skup za optimizaciju. aktivaciona funkcija; b) Inverzna kvadratna
Postoji više mogućnosti izbora aktivacione funk- aktivaciona funkcija; c) Kvadratna aktiva-
cije, a sam izbor zavisi od problema za koji se razvija ciona funkcija; d) Logaritamska
ovaj tip veštačke neuronske mreže. Mogući tipovi U slučaju Gausove i inverzne kvadratne akti-
aktivacionih funkcija su: vacione funkcije, aktivacija neurona je veća ukoliko
Gausova aktivaciona funkcija: je ξ ij opada. U slučaju kvadratne aktivacione funk-
1 cije i logaritamske aktivacione funkcije aktivacija ne-
f xi exp 2 ξ Tij ξ ij urona se povećava sa porastom ξ ij . Moguće je uočiti
2
j (2) i da je izlazna vrednost aktivacione funkcije (aktiva-
Inverzna kvadratna aktivaciona funkcija: cija neurona) uvek pozitivna veličina
f x i ξ Tij ξ ij 2j
1 2 f xi 0, xi nx
.
(3)
U ovom istraživanju izabrana je veštačka neuro-
Kvadratna aktivaciona funkcija: nska mreža sa radijalnim aktivacionim funkcijama u
vidu aktivacionih funkcija Gausovog tipa. Osnovni
f x i ξ Tij ξ ij 2j
12
Nakon ovog postupka, primenjuje se nadgledani vid
mašinskog učenja u kome se uzimaju u obzir i ulazni wi 0 wi1 wij f Ј (xi , J , J )
(6)
i izlazni parovi iz skupa za optimizaciju. Proces
optimizacije centara i radijalnih distanci aktivacionih odnosno, zapisano u matričnom obliku
funkcija se može nastaviti i u drugom koraku ali ih y i Wi j G J 1
možemo i smatrati za konstantne parametre. Primeri (7)
ovakvog kombinovanog mašinskog učenja se mogu gde Wi j predstavlja matricu svih težinskih para-
videti u [7], [8]. Optimizacija parametara veštačke ne-
uronske mreže može biti sprovedena primenom me- metara, a G J 1 vektor aktivacije koga čine sve akti-
tode najmanjeg gradijenta [9], [10], ili rekurzivne vacione funkcije. Vektor stanja sistema čine svi para-
metode najmanjih kvadrata [4]. Moguće je sprovesti i metri veštačke neuronske mreže koje je potrebno op-
optimizaciju parametara i simultano menjati broj neu- timizovati u odnosu na zadati kriterijum. Znajući da
rona uzimajući u obzir grešku učenja [2], [11], [12], je svaka vrsta matrice težinskih parametara Wi j po-
[13]. Primena ovog pristupa rezultira bržom optimi-
zacijom i za rezultat ima optimalne arhitekture u po- seban vektor, polazna matrica se može napisati i u
gledu broja neurona, sa poboljšanom tačnošću i pre- sledećem obliku:
ciznošću [2], [11]. w10 w11 w1J w1T
U ovom radu su razvijena tri sekvencijalna algo- w w21 w2 J w T2
Wij
20
ritma nadgledanog tipa mašinskog učenja. Za potrebe
optimizacije parametara veštačke neuronske mreže
analizirani su sledeći algoritmi: wi 0 wi1 wij w Ti
(8)
T E ε k 0 ; E ε k εTk 1 Q k ,k 1
w w1T w T2 w Ti
(9) E ω k 0 ; E ω k ωTk 1 R k ,k 1
Preostali elementi vektora stanja čine prototip
gde je k , k 1 Kronekerov delta simbol. U nastavku su
vektori μ J i sve radijalne distance J koje određuju
detaljno predstavljeni razvijeni sekvencijalni
pripadnost j -tom prototip vektoru, odnosno: algoritmi mašinskog učenja bazirani na Kalmanovom
T filtru.
t μ1T μ T2 μ TJ 1T 2T JT (10)
3.1 Mašinsko učenje primenom linearizovanog
Dakle, vektor stanja čine svi težinski parametri Kalmanovog filtra
veštačke neuronske mreže Wi j i parametri svih Algoritam optimizacije parametara na bazi LKF
aktivacionih funkcija t algoritma prikazan je u Algoritmu 1.
T Algoritam 1 - Pseudokod linearizovanog Kalma-
λ wT tT
(11) novog filtra za optimizaciju parametara veštačke neu-
w1T wT2 ... wTi μ1T μT2 ...μTJ 1T 2T ... JT
T
ronske mreže sa radijalnim aktivacionim funkcijama
Gausovog tipa.
Ukupan broj parametara N p veštačke neuronske 1. Algoritam LKF_RGAF (λˆ k 1| k 1 , Pk 1| k 1 , x k , y k )
mreže, a time i broj dimenzija vektora stanja sistema
E λ 0|0 λˆ 0|0 λ 0|0 λˆ 0|0 P
T
2.E λ 0|0 λˆ 0|0 ;
λ je: 0|0
6. Pk | k 1 P k 1| k 1 Q
Funkcija dim() određuje broj dimenzija odgova-
rajućeg argumenta, x i y predstavljaju ulazni i iz-
7.
yˆ k g λˆ k | k 1 , x k
8. H k λ yˆ w g (, ) μ g (, ) g(, )
i
lazni vektor veštačke neuronske mreže respektivno, a k
stanja shodno informaciji y k . U redu broj 5 i redu računaru „predstaviti” količinu našeg znanja/neznanja
o sistemu na sledeći način:
broj 6 se vrši predikcija vektora stanja λˆ k |k 1 i ma-
P0 Ι
trice kovarijansi Pk | k 1 . Red br. 7 definiše predviđa- P Ι0 (15)
nje merenja, što predstavlja izlazni vektor veštačke
neuronske mreže. S obzirom na nelinearnost senzo- Dakle, imajući u vidu (15), slučaj kada je naše
rskog modela, neophodno je izvršiti linearizaciju neznanje o sistemu veliko ( P ) prelaskom u in-
razvojem u Tejlorov red. Jakobijan veštačke neuro- formacioni prostor se jednostavno algebarski definiše
kao Ι 0 . Linearni dinamički sistem u diskretnom
nske mreže yˆ k g λˆ k | k 1 , x k u odnosu na elemente
obliku je formulisan jednačinom (13). Osnovne pret-
vektora stanja λ̂ je dat u redu br. 8. Matrica postavke koje su usvojene tom prilikom važe i u
pojačanja filtra je data u redu br. 9, dok se korak ovom slučaju. Pseudokod linearizovanog informacio-
korekcije sprovodi u redu br. 10 za vektor stanja si- nog filtra je dat u Algoritmu 2. Inicijalizacija
stema i u redu br.11 za matricu kovarijansi. Vektor algoritma započinje u redu br. 2 i redu br. 3, gde se
inovacije y k yˆ k predstavlja razliku između st- određuju početne vrednosti vektora stanja λ̂ 0|0 i
varne izlazne vrednosti y k i predviđanja veštačke početne matrice kovarijansi P0|0 , kao i kovarijanse
neuronske mreže yˆ k g λˆ k | k 1 , x k , koje je funkcija šuma sistema Q i šuma merenja R . Predikcija stanja
sistema se obavlja u redovima br. 5 i br. 6. Predikcija
ocene vektora stanja sistema λˆ k |k 1 i ulaznog vektora vektora stanja je identična kao i prilikom primene
x k . Vremenski indeks k označava da se u jednoj algoritma linearizovanog Kalmanovog filtra. Prva
iteraciji koristi jedan i samo jedan element iz skupa razlika se može videti u redu broj 6, gde se predviđa
ulazno-izlaznih parova koji se koriste za optimizaciju nova vrednost informacione matrice. Treba obratiti
parametara. Nakon sprovedene korekcije, izračunava pažnju da ova operacija podrazumeva dvostruku
se nova vrednost greške optimizacije za novu ocenu inverziju odgovarajućih matrica. Jakobijan veštačke
neuronske mreže je dat u redu broj 8. Korak korekcije
vektora stanja g λˆ k | k , x i svih ulaznih vektora iz sku-
algoritma započinje određivanjem informacione
pa za optimizaciju. Obratiti pažnju da vrednost greške matrice Ι k | k u trenutku k | k i pojačanja filtra K k .
Er predstavlja kvadratnu formu formiranu od svih Na kraju, u redu br. 11 se vrši modifikacija vektora
ulaznih primera i svih odziva mreže. stanja sistema na osnovu vektora inovacije
3.2. Mašinsko učenje primenom linearizovanog y k yˆ k . Određivanje trenutne greške učenja je
informacionog filtra dato u redu broj 12.
Za razliku od Kalmanovog filtra koji Gausovu Algoritam 2 - Pseudokod linearizovanog infor-
raspodelu modelira prvim i drugom momentom, macionog filtra za optimizaciju parametara veštačke
informacioni filtar u rekurzivnu estimacionu formu neuronske mreže sa radijalnim aktivacionim funkcija-
uvodi inverziju matrice kovarijansi P koja se naziva ma Gausovog tipa.
informaciona matrica i definiše se kao: 1. Algoritam LIF_RGAF (λˆ k 1| k 1 , Pk 1| k 1 , x k , y k )
Ι P 1
1
(14)
E λ 0|0 λˆ 0|0 λ 0|0 λˆ 0|0
T
2.E λ 0|0 λˆ 0|0 ; Ι 0|0
Matrica P predstavlja meru neodređenosti stanja 3.Q diag dim λ ; R diag dim y k
sistema, a velike vrednosti nam ukazuju na to da po- 4. while Er Ermin
stoji značajna neodređenost u pogledu ocene vektora 5. λˆ λˆ
k | k 1 k 1| k 1
ređuje (uslovno) matematičko očekivanje izlazne vre- ćanje matrice šuma merenja R direktno utiče na „po-
dnosti veštačke neuronske mreže na osnovu izraču- verenje” filtra u merenje. Ukoliko je R veliko, filtar
natih svih izlaznih vrednosti uvođenjem sigma tačaka. će više verovati koraku predikcije; ukoliko je R malo,
Ocenjivanje parametara se nastavlja određivanjem onda će filtar „imati poverenja” u merenje y(k).
kovarijanse Pyˆ k yˆ k u redu br. 10 i kroskovarijanse Kao i svi iterativni postupci određivanja minimu-
ma funkcije cilja, i Kalamanov filtar može odrediti
Pλˆ yˆ u redu broj 11, kao i izračunavanjem Kalmano-
k k jedan od mogućih višestrukih lokalnih minimuma
vog pojačanja Kk u redu broj 12. umesto globalnog minimuma. Međutim, Kalmanov
1.Algoritam ASAM_RGAF ( λˆ k 1| k 1 , Pk 1| k 1 , x k , y k ) filtar je algoritam drugog reda tačnosti, s obzirom na
to da uzima u obzir i lokalnu zakrivljenost funkcije
E λ 0|0 λˆ 0|0 λ 0|0 λˆ 0|0 P
T
2.E λ 0|0 λˆ 0|0 ; cilja. Ova činjenica je od važnosti za izbegavanje lo-
0|0
kalnog minimuma.
3.Q diag dim λ ; R diag dim y k U drugom delu ovog rada prikazani su eksperi-
4. while Er Ermin mentalni rezultati ostvareni primenom veštačke neu-
ronske mreže sa radijalnim aktivacionim funcijama
5. λˆ λˆ
k | k 1 k 1| k 1
Gausovog tipa, čiji parametri su određeni pomoću
6. Pk | k 1 P k 1| k 1 Q uvedenih sekvencijalnih algoritama mašinskog učenja
7. Σi λˆ k | k 1 λˆ k | k 1 P λˆ k | k 1 P
na bazi Kalmanovog filtra, za modeliranje četiri real-
na problema iz inženjerske prakse.
8. Ψ i , k |k 1 g Σi , x k
2dim x
ZAHVALNOST
9. yˆ k
i 1
Wi Ψ i , k |k 1 E g λˆ k |k 1 , xk
m
Rad je nastao u okviru istraživanja na projektu
2dim x
„Inovativni pristup u primeni inteligentnih tehnolo-
Wi k Ψ i , k |k 1 yˆ k Ψ i , k |k 1 yˆ k R ških sistema za proizvodnju delova od lima zasnovan
T
10. Pyˆ k yˆ k i 1 na ekološkim principima“ (TR-35004), koji je po-
2dim x držan od strane Ministarstva prosvete, nauke i tehno-
Ψ yˆ k
T
11. Pλˆ ˆk
Wi k Σi λˆ k i , k |k 1 loškog razvoja Vlade Republike Srbije.
ky
i 1
P
1
12. K k Pλˆ ˆk yˆ k yˆ k LITERATURA
ky
[6] Lazaro, M., Santamari I., Pantaleo C., A new EM- [10] Simon, D, Training Radial Basis Function Neural
based training algorithm for RBF networks, Neural Networks with the Extended Kalman Filter, Neuro-
Networks, 16, pp. 69-77, 2003. computing, 48, pp. 455-475, 2001.
[7] Schwenker, F., Kestler, H.A., Palm, G., Three lear- [11] Huang, G. B., Saratchandran, P., Sundararajan, N.,
ning phases for radial-basis-function networks. Ne- A generalized growing and pruning RBF (GGAP-
ural Networks, 1(4-5), pp. 439-58, 2001. RBF) neural network for function approximation.
IEEE Transactions on Neural Networks, 16(1), pp.
[8] Vuković, N., Miljković, Z., Babić, B., Čović, N., 57–67, 2005.
Towards implementation of intelligent mobile robo-
ts in a manufacturing environment, Proceedings of [12] Bortman, M., Aladjem M., A Growing and Pruning
the 4th International Conference on Manufacturing Method for Radial Basis Function Networks, IEEE
Engineering (ICMEN 2011), pp 367-376, Thessalo- Transactions on Neural Networks, 20(6), pp. 1039-
niki, Greece, 2011. 1045, 2009.
[9] Karayiannis, N. B., Reformulated Radial Basis Ne- [13] Han, H. G., Chen, Q. L., Qiao, J. F., An efficient
ural Networks Trained by Gradient Descent, IEEE self-organizing RBF neural network for water qua-
Transactions on Neural Networks, 10(3), pp. 657– lity prediction. Neural Networks, 24(7), pp. 717-
671, 1999. 725, 2011.
SUMMARY
MACHINE LEARNING OF RADIAL BASIS FUNCTION NEURAL NETWORK BASED ON
KALMAN FILTER - INTRODUCTION
This paper analyzes machine learning of radial basis function neural network based on Kalman fi-
ltering. Three algorithms are derived: linearized Kalman filter, linearized information filter and un-
scented Kalman filter. We emphasize basic properties of these estimation algorithms, demonstrate how
their advantages can be used for optimization of network parameters, derive mathematical models and
show how they can be applied to model problems in engineering practice.
Key words: machine learning, artificial neural network, Kalman filter