Mašinsko Učenje Veštačke Neuronske Mreže Sa Radijalnim Aktivacionim Funkcijama Gausovog Tipa Na Bazi Kalmanovog Filtra - Teorijske Osnove

N. VUKOVIĆ i dr. MAŠINSKO UČENJE VEŠTAČKE NEURONSKE MREŽE SA RADIJALNIM...
Mašinsko učenje veštačke neuronske mreže sa radijalnim aktivacionim

funkcijama Gausovog tipa na bazi Kalmanovog filtra – teorijske osnove
NAJDAN L. VUKOVIĆ, Univerzitet u Beogradu, Originalni naučni rad

Inovacioni centar Mašinskog fakulteta, Beograd UDC: 004.85:004.032.26]:681.5.015.44
ZORAN Đ. MILJKOVIĆ, Univerzitet u Beogradu,
Mašinski fakultet, Beograd
U ovom radu se analizira problem mašinskog učenja veštačke neuronske mreže sa radijalnim akti-
vacionim funkcijama Gausovog tipa na bazi Kalmanovog filtra. Prikazana su tri nova sekvencijalna
algoritma mašinskog učenja: prvi algoritam direktno primenjuje linearizovani Kalmanov filtar kao
algoritam mašinskog učenja, drugi algoritam primenjuje dual Kalmanovom filtru pod nazivom line-
arizovani informacioni filtar, dok treći algoritam na poseban način aproksimira prvi i drugi moment
Gausove raspodele. U radu se naglašavaju osnovne prednosti koje pomenuti algoritmi imaju u po-
ređenju sa konvencionalnim vidovima mašinskog učenja. Za sva tri algoritma razvijen je odgovarajući
matematički model veštačke neuronske mreže sa radijalnim aktivacionim funkcijama Gausovog tipa.
Analizirane su osnovne postavke izvedenih algoritama u cilju njihove primene na složene probleme u
inženjerskoj praksi.
Ključne reči: mašinsko učenje, veštačke neuronske mreže, Kalmanov filtar
1. UVOD  optimizacija parametara veštačke neuronske mre-

Veštačke neuronske mreže predstavljaju mate- že-mašinsko učenje;
matičko-softverski alat namenjen za modeliranje  validacija kvaliteta obučenosti mreža;
problema koje je teško ili nemoguće definisati  testiranje „performansi” dobijenih modela.
matematički. Veštačke neuronske mreže su tokom Korak broj 1 potpuno je definisan polaznim pro-
niza godina razvoja uspešno primenjene na različite blemom. Poznavanje fizičkih osnova izučavanog pro-
probleme iz inženjerske prakse [1], [2], [3], [4]. blema predstavlja osnovu za primenu veštačkih neu-
Prednosti razvoja modela problema primenom ronskih mreža. Na ovaj način se koraci br. 2, i br. 3
veštačkih neuronskih mreža ogledaju se u mogućnosti jednostavno sprovode poznavanjem fizičkog uticaja
modeliranja kompleksnih problema bez potrebe za jednih veličina na druge. U koraku br. 4 se vrši
poznavanjem eksplicitnog matematičkog modela. skaliranje eksperimentalnih podataka koje za cilj ima
Razvoj modela problema primenom veštačkih preslikavanje polaznog eksperimentalnog skupa u
neuronskih mreža podrazumeva sledeće korake: neki od uobičajenih opsega promene. Nakon pretpro-
 definisanje ulaznih i izlaznih veličina; cesiranja eksperimentalnih podataka potrebno je iza-
 izbor sistema za generisanje potrebnih podataka; brati tip veštačke neuronske mreže, tip aktivacione
 akvizicija eksperimentalnih podataka; funkcije i broj neurona, kao i broj slojeva ako je u
 pretprocesiranje eksperimentalnih podataka; pitanju višeslojna mreža [1], [4]. Navedeni parametri
direktno utiču na performanse i kvalitet predikcije. U
 izbor veštačke neuronske mreže, arhitekture i tipa
koracima broj 6 i broj 7 treba definisati vid mašin-
aktivacionih funkcija;
skog učenja koji direktno zavisi od polaznog pro-
 izbor tipa mašinskog učenja (nadgledano ili ne- blema, kao i algoritam učenja. Od sedmog koraka
nadgledano) i odgovarajućeg algoritma učenja; započinje iterativni postupak koji se sastoji od
__________________ optimizacije parametara i provere „naučenog” (koraci
Adresa autora: Najdan Vuković, Univerzitet u Beogradu, broj 8 i broj 9). U ovom radu analizirana je primena
Inovacioni centar Mašinskog fakulteta, Beograd, Kraljice
tri algoritma u cilju optimizacije parametara veštačke
Marije 16
Rad primljen: 07.05.2014.
neuronske mreže sa radijalnim aktivacionim funkcija-
Rad prihvaćen: 12.06.2014. ma Gausovog tipa.
TEHNIKA – MAŠINSTVO 63 (2014) 4 613

2. VEŠTAČKA NEURONSKA MREŽA SA tematičke formulacije aktivacionih funkcija, kao i na

RADIJALNIM AKTIVACIONIM FUNKCIJAMA osnovu njihovog grafičkog prikaza, može se zaključiti
GAUSOVOG TIPA da odziv neurona na ulazni vektor x i  nx direktno
Veštačka neuronska mreža sa radijalnim aktiva- zavisi od razlike ξ ij između ulaznog vektora
cionim funkcijama predstavljena je sledećim izrazom n
[1], [2], [5]: x i   i vektora prototipa μ j   x .
nx
N
y i   w ij f  xi , μ j ,  j 
j 1
(1)
Osnovni parametri su:
 vektor težinskih parametara veštačke neuronske
mreže w ij ;
 vektor prototipova (repera) μ j  nx , gde n x
označava broj dimenzija ulaznog vektora;
 
radijalne distance  j ;  j  1 ; 
 f  , ,   je aktivaciona funkcija veštačke
neuronske mreže,
n
x i  nx i y i   y su ulazni i izlazni vektor (res- Slika 1 - Tipovi aktivacionih funkcija: a) Gausova
pektivno) koji formiraju skup za optimizaciju. aktivaciona funkcija; b) Inverzna kvadratna
Postoji više mogućnosti izbora aktivacione funk- aktivaciona funkcija; c) Kvadratna aktiva-
cije, a sam izbor zavisi od problema za koji se razvija ciona funkcija; d) Logaritamska
ovaj tip veštačke neuronske mreže. Mogući tipovi U slučaju Gausove i inverzne kvadratne akti-
aktivacionih funkcija su: vacione funkcije, aktivacija neurona je veća ukoliko
 Gausova aktivaciona funkcija: je ξ ij opada. U slučaju kvadratne aktivacione funk-
 1  cije i logaritamske aktivacione funkcije aktivacija ne-
f  xi   exp   2 ξ Tij ξ ij  urona se povećava sa porastom ξ ij . Moguće je uočiti
 2 
 j  (2) i da je izlazna vrednost aktivacione funkcije (aktiva-
 Inverzna kvadratna aktivaciona funkcija: cija neurona) uvek pozitivna veličina
f  x i    ξ Tij ξ ij   2j 
1 2 f  xi   0, xi  nx
.
(3)
U ovom istraživanju izabrana je veštačka neuro-
 Kvadratna aktivaciona funkcija: nska mreža sa radijalnim aktivacionim funkcijama u
vidu aktivacionih funkcija Gausovog tipa. Osnovni
f  x i    ξ Tij ξ ij   2j 
12
(4) razlog za izbor Gausove aktivacione funkcije je pre

svega u postavci, koja obezbeđuje veću aktivaciju
 Logaritamska aktivaciona funkcija:
neurona ukoliko ξ ij opada i manju aktivaciju ukoliko
f  xi   ξTij ξ ij ln  ξ ij  ξ ij raste. Potrebno je naglasiti i osnovnu razliku re-
(5)
prezentacije skupa podataka modeliranjem primenom

gde je ξ ij  xi  μ j ; ξ ij  nx  razlika između i -tog višeslojne perceptron veštačke neuronske meže i ve-
ulaznog vektora xi i j -tog prototip vektora μ j . Pa- štačke neuronske mreže sa radijalnim aktivacionim
funkcijama. Naime, višeslojni perceptron uspostavlja
rametar  j određuje širinu aktivacione funkcije, od- klasifikacionu granicu između odgovarajućih eleme-
nosno graničnu vrednost pripadnosti i -tog ulaznog nata skupa, dok radijalne aktivacione funkcije uspo-
vektora xi skupu čiji je predstavnik j -ti prototip ve- stavljaju sličnost između elemenata ulaznog skupa
podataka [1]. U tom smislu, na slici 2 je dat prikaz
ktor μ j . Na slici 1 su grafički prikazane četiri karak- Gausove aktivacione funkcije za različite vrednosti
teristične aktivacione funkcije f  xi  . Na osnovu ma- radijalne distance  i
614 TEHNIKA – MAŠINSTVO 63 (2014) 4

 Linearizovani Kalmanov filtar (LKF);

 Linearizovani informacioni filtar (LIF);
 Algoritam specifične aproksimacije momenata
(ASAM).
Primena LKF algoritma za potrebe optimizacije
odgovarajućih parametara veštačke neuronske mreže
je sprovedena u [10] i predstavlja (skoro) „standar-
dni” postupak. Međutim, osnovna razlika pomenutih
rezultata u odnosu na algoritam prikazan u ovom radu
ogleda se u sekvencijalnoj obradi podataka koji je pri-
menjen u ovom radu (on line režim), kao i različitom
tipu aktivacionih funkcija. Po saznanjima autora, pri-
mena linearizovanog informacionog filtra za ove po-
trebe nije uobičajeni postupak i pretraživanjem refe-
Slika 2 - Gausova aktivaciona funkcija za različite rentnih izvora nisu pronađeni odgovarajući rezultati.
Algoritam specifične aproksimacije momenata prime-
vrednosti parametra  i : a)  i  0,1 ; b) njen je u nekoliko referentnih izvora u cilju optimi-
 i  1 ; c)  i  5 ; d)  i  10 . Sa porastom zacije odgovarajućih parametara, međutim s obzirom
 i povećava se opseg aktivacione funkcije. na to da ASAM predstavlja relativno nov koncept u
teoriji ocenjivanja (potpuno zaokružen na teoretskom
nivou početkom 2000. godine) njegova primena za
3. OPTIMIZACIJA PARAMETARA VEŠTAČKE
različite inženjerske probleme nije dovoljno analizi-
NEURONSKE MREŽE SA RADIJALNIM rana i istražena. Prethodna činjenica predstavlja osno-
AKTIVACIONIM FUNKCIJAMA GAUSOVOG vnu ideju zbog koje je izabran razvoj algoritma obu-
TIPA – MAŠINSKO UČENJE
čavanja na bazi specifične aproksimacije momenata.
Osnovna prednost veštačke neuronske mreže sa Pre nego što uvedemo izabrane algoritme neop-
radijalnim aktivacionim funkcijama je u mogućnosti hodno je formirati vektor stanja s obzirom na to da
razdvajanja optimizacije parametara aktivacionih fun- sva tri algoritma počivaju na ovakvoj formulaciji. Na
kcija i težinskih parametara same veštačke neuronske osnovu jednačine (1) veštačka neuronska mreža sa ra-
mreže. Npr. moguće je primeniti nenadgledani vid dijalnim aktivacinim funkcijama je data kao:
mašinskog učenja [6], [7] za optimizaciju centara i  w10 w11  w1J   1 
radijalnih distanci na osnovu isključivo ulaznih po- w 
w21  w2 J  f1 (xi , 1 , 1 ) 

dataka x i  nx iz celokupnog skupa za optimizaciju. yi    
20
       
Nakon ovog postupka, primenjuje se nadgledani vid   
mašinskog učenja u kome se uzimaju u obzir i ulazni  wi 0 wi1  wij  f Ј (xi ,  J , J ) 
(6)
i izlazni parovi iz skupa za optimizaciju. Proces
optimizacije centara i radijalnih distanci aktivacionih odnosno, zapisano u matričnom obliku
funkcija se može nastaviti i u drugom koraku ali ih y i  Wi  j G J 1
možemo i smatrati za konstantne parametre. Primeri (7)
ovakvog kombinovanog mašinskog učenja se mogu gde Wi  j predstavlja matricu svih težinskih para-
videti u [7], [8]. Optimizacija parametara veštačke ne-
uronske mreže može biti sprovedena primenom me- metara, a G J 1 vektor aktivacije koga čine sve akti-
tode najmanjeg gradijenta [9], [10], ili rekurzivne vacione funkcije. Vektor stanja sistema čine svi para-
metode najmanjih kvadrata [4]. Moguće je sprovesti i metri veštačke neuronske mreže koje je potrebno op-
optimizaciju parametara i simultano menjati broj neu- timizovati u odnosu na zadati kriterijum. Znajući da
rona uzimajući u obzir grešku učenja [2], [11], [12], je svaka vrsta matrice težinskih parametara Wi  j po-
[13]. Primena ovog pristupa rezultira bržom optimi-
zacijom i za rezultat ima optimalne arhitekture u poseban vektor, polazna matrica se može napisati i u
gledu broja neurona, sa poboljšanom tačnošću i pre- sledećem obliku:
ciznošću [2], [11].  w10 w11  w1J   w1T 
U ovom radu su razvijena tri sekvencijalna algo- w w21  w2 J   w T2 
Wij  
20
ritma nadgledanog tipa mašinskog učenja. Za potrebe 
        
optimizacije parametara veštačke neuronske mreže    
analizirani su sledeći algoritmi:  wi 0 wi1  wij   w Ti 
(8)

Da bi se formirao vektor stanja neophodno je na-

 
E  λ 0|0  λˆ 0|0 λ 0|0  λˆ 0|0  P
T
E  λ 0|0   λˆ 0|0 ;
pisati težinske parametre u vektorskom obliku:   0|0
T E ε k   0 ; E ε k εTk 1   Q k ,k 1
w   w1T w T2  w Ti 
(9) E ω k   0 ; E ω k ωTk 1   R k ,k 1
Preostali elementi vektora stanja čine prototip
gde je  k , k 1 Kronekerov delta simbol. U nastavku su
vektori μ J i sve radijalne distance  J koje određuju
detaljno predstavljeni razvijeni sekvencijalni
pripadnost j -tom prototip vektoru, odnosno: algoritmi mašinskog učenja bazirani na Kalmanovom
T filtru.
t  μ1T μ T2  μ TJ  1T  2T   JT  (10)
3.1 Mašinsko učenje primenom linearizovanog
Dakle, vektor stanja čine svi težinski parametri Kalmanovog filtra
veštačke neuronske mreže Wi  j i parametri svih Algoritam optimizacije parametara na bazi LKF
aktivacionih funkcija t algoritma prikazan je u Algoritmu 1.
T Algoritam 1 - Pseudokod linearizovanog Kalma-
λ   wT tT  
(11) novog filtra za optimizaciju parametara veštačke neu-
  w1T wT2 ... wTi μ1T μT2 ...μTJ  1T  2T ... JT 
T
ronske mreže sa radijalnim aktivacionim funkcijama
Gausovog tipa.
Ukupan broj parametara N p veštačke neuronske 1. Algoritam LKF_RGAF (λˆ k 1| k 1 , Pk 1| k 1 , x  k  , y  k )
mreže, a time i broj dimenzija vektora stanja sistema

E  λ 0|0  λˆ 0|0 λ 0|0  λˆ 0|0   P
T
2.E  λ 0|0   λˆ 0|0 ;
λ je:   0|0
3.Q  diag  dim  λ   ; R  diag  dim  y k  

N p  dim  λ   4. while Er  Ermin
 nneurona (dim(x)  dim(y )  1) 5. λˆ  λˆ
(12) k | k 1 k 1| k 1
6. Pk | k 1  P k 1| k 1  Q
Funkcija dim() određuje broj dimenzija odgova-
rajućeg argumenta, x i y predstavljaju ulazni i iz-
7. 
yˆ k  g λˆ k | k 1 , x  k  
8. H k   λ yˆ   w g (, )  μ g (, )  g(, ) 
i
lazni vektor veštačke neuronske mreže respektivno, a k
nneurona je ukupan broj neurona. 9. K k  Pk | k 1HTk (H k Pk | k 1H Tk  R ) 1

10. λˆ k | k  λˆ k | k 1  K k (y  k   yˆ k )
Nakon definisanja vektora stanja sistema moguće
je nastaviti uvođenje linearizovanog Kalmanovog 11. Pk | k  (I  K k H k )Pk | k 1
filtra, linearizovanog informacionog filtra i algoritma 1
    y  g  λˆ 
T
12. Er y  g λˆ k | k , x ,x
specifične aproksimacije momenata, kao izabranih
k |k
2
algoritama za sekvencijalnu optimizaciju parametara 13. endwhile
veštačke neuronske mreže sa radijalnim aktivacionim 14. return λˆ , P k |k k |k
funkcijama Gausovog tipa. Na osnovu poznatih karakteristika analiziranog

Linearni dinamički sistem u diskretnom obliku problema, potrebno je usvojiti početne vrednosti
dat je sledećim jednačinama:
sledećih veličina: vektora stanja sistema λ̂ 0|0 , matrice
λ k  λ k 1| k 1  ε kovarijansi P0|0 , kovarijanse šumova sistema Q i
y k  g  λ k | k 1 , x k   ω merenja R . Ulazne veličine u algoritam su ocena
(13) vektora stanja sistema λˆ k 1| k 1 , matrica kovarijansi
g  λ k | k 1 , xk  je veštačka neuronska mreža. ε i ω su vektora stanja Pk  1|k  1 u trenutku k  1| k  1 i želje-
odgovarajući beli šumovi ( ε ~ N  ε, Q  i na izlazna vrednost kao primer iz skupa za optimi-
ω ~ N  ω, R  ); y k je željeni izlazni vektor. Kao što se
zaciju y  k  . Može se primetiti da u ovakvoj postavci
može videti, optimizacija parametara podrazumeva Kalmanovog filtra željena vrednost y  k  iz skupa za
linearan sistem, što je predstavljeno identičnim pre- optimizaciju predstavlja „merenje”. Dakle, za zadate
slikavanjem λ k 1| k 1  λ k . Uvode se sledeće pret- početne uslove i usvojenu očekivanu grešku opti-
postavke: mizacije Ermin algoritam rekurzivno ocenjuje vektor

stanja shodno informaciji y  k  . U redu broj 5 i redu računaru „predstaviti” količinu našeg znanja/neznanja
o sistemu na sledeći način:
broj 6 se vrši predikcija vektora stanja λˆ k |k 1 i ma-
P0  Ι
trice kovarijansi Pk | k 1 . Red br. 7 definiše predviđa- P  Ι0 (15)
nje merenja, što predstavlja izlazni vektor veštačke
neuronske mreže. S obzirom na nelinearnost senzo- Dakle, imajući u vidu (15), slučaj kada je naše
rskog modela, neophodno je izvršiti linearizaciju neznanje o sistemu veliko ( P   ) prelaskom u in-
razvojem u Tejlorov red. Jakobijan veštačke neuro- formacioni prostor se jednostavno algebarski definiše
kao Ι  0 . Linearni dinamički sistem u diskretnom
 
nske mreže yˆ k  g λˆ k | k 1 , x  k  u odnosu na elemente
obliku je formulisan jednačinom (13). Osnovne pret-
vektora stanja λ̂ je dat u redu br. 8. Matrica postavke koje su usvojene tom prilikom važe i u
pojačanja filtra je data u redu br. 9, dok se korak ovom slučaju. Pseudokod linearizovanog informacio-
korekcije sprovodi u redu br. 10 za vektor stanja si- nog filtra je dat u Algoritmu 2. Inicijalizacija
stema i u redu br.11 za matricu kovarijansi. Vektor algoritma započinje u redu br. 2 i redu br. 3, gde se
inovacije  y  k   yˆ k  predstavlja razliku između st- određuju početne vrednosti vektora stanja λ̂ 0|0 i
varne izlazne vrednosti y  k  i predviđanja veštačke početne matrice kovarijansi P0|0 , kao i kovarijanse
 
neuronske mreže yˆ k  g λˆ k | k 1 , x  k  , koje je funkcija šuma sistema Q i šuma merenja R . Predikcija stanja
sistema se obavlja u redovima br. 5 i br. 6. Predikcija
ocene vektora stanja sistema λˆ k |k 1 i ulaznog vektora vektora stanja je identična kao i prilikom primene
x  k  . Vremenski indeks k označava da se u jednoj algoritma linearizovanog Kalmanovog filtra. Prva
iteraciji koristi jedan i samo jedan element iz skupa razlika se može videti u redu broj 6, gde se predviđa
ulazno-izlaznih parova koji se koriste za optimizaciju nova vrednost informacione matrice. Treba obratiti
parametara. Nakon sprovedene korekcije, izračunava pažnju da ova operacija podrazumeva dvostruku
se nova vrednost greške optimizacije za novu ocenu inverziju odgovarajućih matrica. Jakobijan veštačke
neuronske mreže je dat u redu broj 8. Korak korekcije
 
vektora stanja g λˆ k | k , x i svih ulaznih vektora iz sku-
algoritma započinje određivanjem informacione
pa za optimizaciju. Obratiti pažnju da vrednost greške matrice Ι k | k u trenutku k | k i pojačanja filtra K k .
Er predstavlja kvadratnu formu formiranu od svih Na kraju, u redu br. 11 se vrši modifikacija vektora
ulaznih primera i svih odziva mreže. stanja sistema na osnovu vektora inovacije
3.2. Mašinsko učenje primenom linearizovanog  y  k   yˆ k  . Određivanje trenutne greške učenja je
informacionog filtra dato u redu broj 12.
Za razliku od Kalmanovog filtra koji Gausovu Algoritam 2 - Pseudokod linearizovanog infor-
raspodelu modelira prvim i drugom momentom, macionog filtra za optimizaciju parametara veštačke
informacioni filtar u rekurzivnu estimacionu formu neuronske mreže sa radijalnim aktivacionim funkcija-
uvodi inverziju matrice kovarijansi P koja se naziva ma Gausovog tipa.
informaciona matrica i definiše se kao: 1. Algoritam LIF_RGAF (λˆ k 1| k 1 , Pk 1| k 1 , x  k  , y  k )
Ι  P 1  
1
(14)  
E  λ 0|0  λˆ 0|0 λ 0|0  λˆ 0|0  
T
2.E  λ 0|0   λˆ 0|0 ;  Ι 0|0
 
Matrica P predstavlja meru neodređenosti stanja 3.Q  diag  dim  λ   ; R  diag  dim  y k  
sistema, a velike vrednosti nam ukazuju na to da po- 4. while Er  Ermin
stoji značajna neodređenost u pogledu ocene vektora 5. λˆ  λˆ
k | k 1 k 1| k 1
stanja. Ukoliko P   to nam govori da nemamo

 
1
Ι k | k 1   Ι k 1| k 1   Q
1
6.
nikakvo predznanje o sistemu. Naravno, kada P  0
imamo „idealnu” situaciju, znamo sve potrebne in- 7. 
yˆ k  g λˆ k | k 1 , x  k  
formacije o sistemu. Problem koji se javlja prilikom 8. H k   λ yˆ ik   w g ()  μ g ()  g () 
ocenjivanja u slučaju kada nemamo dovoljno infor- 9. Ι k | k  Ι k | k 1  HTk R k1H k
macija o sistemu je kada P   . U praktičnim prime- 10. K k   Ι k | k  HTk R k1
1
nama Kalmanovog filtra nemoguće je računaru pre-

11. λˆ k | k  λˆ k | k 1  K k  y  k   yˆ k 
dočiti ovu situaciju na optimalan način. Zbog toga se
1
    y  g  λˆ 
T
uvodi ocenjivanje u informacionom prostoru, koji 12. Er  y  g λˆ k | k , x k |k ,x
2
podrazumeva informacioni vektor i informacionu 13. endwhile
matricu. Inverzijom matrice kovarijansi moguće je 14. return λˆ , Ι k |k k |k

3.3. Mašinsko učenje primenom algoritma prethodnog znanja da promenljiva x podleže

specifične aproksimacije momenata Gausovoj raspodeli sa očekivanom vrednošću x i
Linearizacija nelinearnih jednačina modela siste- kovarijansom P.
ma i senzorskog modela razvijanjem u Tejlorov red Očekivana vrednost (prvi moment) i kovarijansa
rezultira uvođenjem grešaka u proces ocenjivanja, s (drugi moment) promenljive y su:
obzirom na to da odgovarajući Jakobijani ne mogu sa 2dim  x 
dovoljnom tačnošću da modeliraju promenu stanja y  Wi m Ψ i
nelinearnog sistema. Ove greške dovode do naru- i 0
2dim  x 
šavanja optimalnosti (time i tačnosti) i mogu izazvati
 Wi k  Ψ i  y  Ψ i  y 
T
P
divergenciju filtra. Algoritam specifične aproksima- i 0 (19)
cije momenata (ASAM) ne vrši linearizaciju neli-
nearnog sistema razvijanjem jednačina modela siste- a konstantni težinski koeficijenti su
ma i senzorskog modela u Tejlorov red. Osnovna ide-
ja ASAM-a počiva na intuiciji da je jednostavnije ap-
W0m    dim  x    
roksimirati poznatu gustinu raspodele stohastičke pro- W0k    dim  x      1      2
menljive nego polazne nelinearne modele [1]. Al-

Wi m  W  1  2  dim  x      ,
k
goritam počiva na specifičnoj transformaciji nelinea- i
rne funkcije stohastičke promenljive. i  1,..., 2dim  x 

(20)
Neka je data proizvoljna nelinearna funkcija
y  f  x  i neka argument funkcije x podleže Gau- Optimalna vrednost konstantnog parametra  za
sovoj raspodeli sa poznatim statistikama x i P . Gausovu raspodelu je   2 [1]. Prikazana aproksi-
Potrebno je izračunati nepoznate statistike promenlji- macija momenata promenljive y , koja je nelinearna
ve y nakon što je primenjena nelinearna funkcija funkcija nekih drugih stohastičkih promenljivih, višeg
f  na argument x . Prvo je potrebno formirati je reda tačnosti od linearizacije ostvarene razvijanjem
u Tejlorov red.
matricu sigma tačaka Σ na sledeći način:
Nakon uvođenja osnovne transformacije na kojoj
Σ0  x ASAM počiva, moguće je pokazati kako se ova ideja
Σi  x    dim  x     P  i
,
može primeniti na problem mašinskog učenja.
Algoritam optimizacije baziran je na osnovnoj reku-
i  1,...,dim  x  rzivnoj formulaciji linearizovanog Kalmanovog filtra.
Međutim, u ASAM algoritmu nema potrebe za izra-
Σi  x    dim  x     P  i  dim  x 
, čunavanjem Jakobijana. Algoritam je prikazan u Al-
i  dim  x   1,.., 2  dim  x 
goritmu 3.
(16) Algoritam 3 - Pseudokod algoritma ocenjivanja
 je skalarni parametar koji određuje širinu opsega parametara veštačke neuronske mreže sa radijalnim
aktivacionim funkcijama Gausovog tipa baziran na
tačaka Σi i izračunava se kao
Kalmanovom filtru i specifičnoj aproksimaciji mome-
   2  dim  x      dim  x  nata.
(17) Algoritam započinje inicijalizacijom u redu br. 2 i
Ostali skalarni parametri su   104 ,1 ; redu br. 3, gde se definišu početne vrednosti vektora
stanja λ̂ 0|0 , početne matrice kovarijansi P0|0 , kova-
  0,dim  x  . Vektori kolone pomoću kojih se vr-
ijanse šuma sistema Q i šuma merenja R . U redo-
ši aproksimacija nelinearne funkcije nazivaju se vima broj 5 i broj 6 vrši se predikcija ocene vektora
sigma tačke. Dakle, matricu Σ čini 2dim  x   1 si- stanja λˆ k |k 1 i matrice kovarijansi Pk | k 1 .
gma tačaka. Nakon formiranja matrice sigma tačaka
Prva razlika u odnosu na LKF može se videti u
Σi , na njene vektor kolone se primenjuje nelinearna
redu broj 7 gde se određuje matrica Σi , čije su kolo-
funkcija f  , odnosno:
ne sigma tačke. Kao što se može videti, u redu br. 8
Ψ i  f  Σi  , i  0,..., 2dim  x  se određuje izlazna vrednost veštačke neuronske
(18) mreže, na osnovu mogućih vrednosti koje mogu imati
Matrica Ψi je matrica svih mogućih vrednosti parametri mreže (vrednosti određene sigma tačkama)
koje promenljiva y  f  x  može da ima na osnovu i poslednjeg ulaznog vektora x k . U redu br. 9 se od-

ređuje (uslovno) matematičko očekivanje izlazne vre- ćanje matrice šuma merenja R direktno utiče na „po-
dnosti veštačke neuronske mreže na osnovu izraču- verenje” filtra u merenje. Ukoliko je R veliko, filtar
natih svih izlaznih vrednosti uvođenjem sigma tačaka. će više verovati koraku predikcije; ukoliko je R malo,
Ocenjivanje parametara se nastavlja određivanjem onda će filtar „imati poverenja” u merenje y(k).
kovarijanse Pyˆ k yˆ k u redu br. 10 i kroskovarijanse Kao i svi iterativni postupci određivanja minimu-
ma funkcije cilja, i Kalamanov filtar može odrediti
Pλˆ yˆ u redu broj 11, kao i izračunavanjem Kalmano-
k k jedan od mogućih višestrukih lokalnih minimuma
vog pojačanja Kk u redu broj 12. umesto globalnog minimuma. Međutim, Kalmanov
1.Algoritam ASAM_RGAF ( λˆ k 1| k 1 , Pk 1| k 1 , x  k  , y  k ) filtar je algoritam drugog reda tačnosti, s obzirom na
to da uzima u obzir i lokalnu zakrivljenost funkcije

E  λ 0|0  λˆ 0|0 λ 0|0  λˆ 0|0   P
T
2.E  λ 0|0   λˆ 0|0 ; cilja. Ova činjenica je od važnosti za izbegavanje lo-
  0|0
kalnog minimuma.
3.Q  diag  dim  λ   ; R  diag  dim  y k   U drugom delu ovog rada prikazani su eksperi-
4. while Er  Ermin mentalni rezultati ostvareni primenom veštačke neu-
ronske mreže sa radijalnim aktivacionim funcijama
5. λˆ  λˆ
k | k 1 k 1| k 1
Gausovog tipa, čiji parametri su određeni pomoću
6. Pk | k 1  P k 1| k 1  Q uvedenih sekvencijalnih algoritama mašinskog učenja
7. Σi   λˆ k | k 1 λˆ k | k 1   P λˆ k | k 1   P 
na bazi Kalmanovog filtra, za modeliranje četiri real-
na problema iz inženjerske prakse.
8. Ψ i , k |k 1  g  Σi , x  k  
2dim  x 
ZAHVALNOST
9. yˆ k  
i 1
Wi Ψ i , k |k 1  E g λˆ k |k 1 , xk 
m
    Rad je nastao u okviru istraživanja na projektu
2dim  x 
„Inovativni pristup u primeni inteligentnih tehnolo-
Wi k  Ψ i , k |k 1  yˆ k  Ψ i , k |k 1  yˆ k   R ških sistema za proizvodnju delova od lima zasnovan
T
10. Pyˆ k yˆ k  i 1 na ekološkim principima“ (TR-35004), koji je po-
2dim  x  držan od strane Ministarstva prosvete, nauke i tehno-
 Ψ  yˆ k 
T
11. Pλˆ ˆk
  Wi k Σi  λˆ k i , k |k 1 loškog razvoja Vlade Republike Srbije.
ky
i 1
P 
1
12. K k  Pλˆ ˆk yˆ k yˆ k LITERATURA
ky
13. λˆ k | k  λˆ k | k 1  K k (y  k   yˆ k ) [1] Vuković, N., Razvoj mašinskog učenja inteligen-

14. Pk | k  Pk | k 1  K k Pyˆ k yˆ k K T tnog mobilnog robota baziran na sistemu veštačkih
k
neuronskih mreža, doktorska disertacija, Univerzitet
1
     y  g  λˆ 
T
15. Er y  g λˆ k | k , x ,x u Beogradu - Mašinski fakultet, 2012. (DOI:
k |k
2 10.2298/BG20120928VUKOVIC)
16. endwhile
[2] Vuković, N., Miljković, Z., A Growing and Pruning
17. return λˆ , P k |k k |k Sequential Learning Algorithm of Hyper Basis Fun-
Nakon svih sprovedenih koraka, korekcija vek- ction Neural Network for Function Approximation,
tora stanja i greške ocene je data u redu broj 13 i redu Neural Networks, 46C, pp. 210-226, 2013. (DOI:
10.1016/j.neunet.2013.06.004)
broj 14. Određivanje trenutne vrednosti greške opti-
mizacije je dato u poslednjem redu. [3] Miljković, Z., Sistemi veštačkih neuronskih mreža u
proizvodnim tehnologijama, Univerzitet u Beogradu
4. DISKUSIJA - Mašinski fakultet, Beograd 2003.
Na kraju ove analize bi trebalo izvršiti poređenje
parametara razvijenih algoritama mašinskog učenja sa [4] Miljković, Z., Aleksendrić, D., Veštačke neuronske
mreže - zbirka rešenih zadataka sa izvodima iz teo-
poznatim algoritmima mašinskog učenja [4]. U tim
rije, Univerzitet u Beogradu - Mašinski fakultet, Be-
algoritmima se uvode konstantni parametri poznatiji
ograd 2009.
kao parametri učenja pomoću kojih se kontroliše br-
zina optimizacije. Analogno ovim parametrima, od- [5] Vuković, N., Miljković, Z., Babić, B., Bojović, B.,
govarajuće matrice Kalmanovog filtra imaju sličnu Training of Radial Basis Function Networks with
ulogu. Matrica šuma sistema Q direktno utiče na oce- H∞ Filter-Initial Simulation Results, Proceedings of
nu kovarijanse sistema. Povećavanjem matrice šuma the 6th International Working Conference ”Total
sistema možemo kontrolisati dužinu inkrementalnih Quality Management – Advanced and Intelligent
koraka, odnosno brzinu konvergencije filtra. Pove- Approaches”, pp. 163-168,Belgrade, Serbia, 2011.

[6] Lazaro, M., Santamari I., Pantaleo C., A new EM- [10] Simon, D, Training Radial Basis Function Neural
based training algorithm for RBF networks, Neural Networks with the Extended Kalman Filter, Neuro-
Networks, 16, pp. 69-77, 2003. computing, 48, pp. 455-475, 2001.
[7] Schwenker, F., Kestler, H.A., Palm, G., Three lear- [11] Huang, G. B., Saratchandran, P., Sundararajan, N.,
ning phases for radial-basis-function networks. Ne- A generalized growing and pruning RBF (GGAP-
ural Networks, 1(4-5), pp. 439-58, 2001. RBF) neural network for function approximation.
IEEE Transactions on Neural Networks, 16(1), pp.
[8] Vuković, N., Miljković, Z., Babić, B., Čović, N., 57–67, 2005.
Towards implementation of intelligent mobile robo-
ts in a manufacturing environment, Proceedings of [12] Bortman, M., Aladjem M., A Growing and Pruning
the 4th International Conference on Manufacturing Method for Radial Basis Function Networks, IEEE
Engineering (ICMEN 2011), pp 367-376, Thessalo- Transactions on Neural Networks, 20(6), pp. 1039-
niki, Greece, 2011. 1045, 2009.
[9] Karayiannis, N. B., Reformulated Radial Basis Ne- [13] Han, H. G., Chen, Q. L., Qiao, J. F., An efficient
ural Networks Trained by Gradient Descent, IEEE self-organizing RBF neural network for water qua-
Transactions on Neural Networks, 10(3), pp. 657– lity prediction. Neural Networks, 24(7), pp. 717-
671, 1999. 725, 2011.
SUMMARY
MACHINE LEARNING OF RADIAL BASIS FUNCTION NEURAL NETWORK BASED ON
KALMAN FILTER - INTRODUCTION
This paper analyzes machine learning of radial basis function neural network based on Kalman fi-
ltering. Three algorithms are derived: linearized Kalman filter, linearized information filter and un-
scented Kalman filter. We emphasize basic properties of these estimation algorithms, demonstrate how
their advantages can be used for optimization of network parameters, derive mathematical models and
show how they can be applied to model problems in engineering practice.
Key words: machine learning, artificial neural network, Kalman filter

Mašinsko Učenje Veštačke Neuronske Mreže Sa Radijalnim Aktivacionim Funkcijama Gausovog Tipa Na Bazi Kalmanovog Filtra - Teorijske Osnove

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mašinsko Učenje Veštačke Neuronske Mreže Sa Radijalnim Aktivacionim Funkcijama Gausovog Tipa Na Bazi Kalmanovog Filtra - Teorijske Osnove

Uploaded by

Copyright:

Available Formats

N. VUKOVIĆ i dr. MAŠINSKO UČENJE VEŠTAČKE NEURONSKE MREŽE SA RADIJALNIM...

Mašinsko učenje veštačke neuronske mreže sa radijalnim aktivacionim

NAJDAN L. VUKOVIĆ, Univerzitet u Beogradu, Originalni naučni rad

1. UVOD  optimizacija parametara veštačke neuronske mre-

TEHNIKA – MAŠINSTVO 63 (2014) 4 613

2. VEŠTAČKA NEURONSKA MREŽA SA tematičke formulacije aktivacionih funkcija, kao i na

(4) razlog za izbor Gausove aktivacione funkcije je pre

614 TEHNIKA – MAŠINSTVO 63 (2014) 4

 Linearizovani Kalmanov filtar (LKF);

TEHNIKA – MAŠINSTVO 63 (2014) 4 615

Da bi se formirao vektor stanja neophodno je na-

3.Q  diag  dim  λ   ; R  diag  dim  y k  

nneurona je ukupan broj neurona. 9. K k  Pk | k 1HTk (H k Pk | k 1H Tk  R ) 1

funkcijama Gausovog tipa. Na osnovu poznatih karakteristika analiziranog

616 TEHNIKA – MAŠINSTVO 63 (2014) 4

stanja. Ukoliko P   to nam govori da nemamo

nama Kalmanovog filtra nemoguće je računaru pre-

TEHNIKA – MAŠINSTVO 63 (2014) 4 617

3.3. Mašinsko učenje primenom algoritma prethodnog znanja da promenljiva x podleže

menljive nego polazne nelinearne modele [1]. Al-

rne funkcije stohastičke promenljive. i  1,..., 2dim  x 

618 TEHNIKA – MAŠINSTVO 63 (2014) 4

13. λˆ k | k  λˆ k | k 1  K k (y  k   yˆ k ) [1] Vuković, N., Razvoj mašinskog učenja inteligen-

TEHNIKA – MAŠINSTVO 63 (2014) 4 619

620 TEHNIKA – MAŠINSTVO 63 (2014) 4

You might also like