Professional Documents
Culture Documents
Neuronske Mreze
Neuronske Mreze
1.UVOD
Neuronske mree Obuavanje (uenje na osnovu primera) 1 zasnovano na podeavanju jaine knekcionih veza, pragova i strukture 2 Memorijski i procesni elementi su
Fon Nojmanov digitalni raunar Programiranje kroz instrukcije (ako-onda analiza zasnovana na logici) Memorija i procesiranje su separisani 2
3 4 5 6 7 8
kolocirani Paralelni i asinhroni rad (kontinualni ili diskretni) Otporan na greke usled distribuirane reprezentacije i velike redudanse Smoorganizovanje u toku obuavanja Kodovano znanje je adaptibilno. Prezentovano je interkonekcijama izmedju neurona Procesiranje je anarhino Osnovni vremenski ciklus obrade je reda milisekundi
Sekvencijalni ili serijski rad, sinhronisan zajednikim taktom Nije otporan na greke Zavisan od programa Znanje je memorisano u adresibilnoj memoriji i striktno je replikabilno Procesiranje je autokratino Osnovni vremenski ciklus obrade je reda nanosekundi
Tabela 1.1 Slinosti i razlike izmedju neuronskih mrea i Fon Nojmaovog raunara.
6. Otpornost na otkaz. 7. Mogunost realizacije u VLSI (Very Large Scale Integration) tehnologiji. 8. Uniformnost analize i sinteze. Neuron je zajedniki element za sve tipove neuronskih mree. Modularne neuronske mree se mogu formirati integracijom pojedinih celina-modula. Za reavanje razliitih praktinih problema koriste se iste teorijske postavke i algoritmi obuavanja. 9. Neurobioloke analogije. Neurobiolozi gledaju na neuronske mree kao istraivaki alat za interpretaciju neurobiolokih fenomena, i obrnuto, inenjeri gledaju na neurobiologiju kao oblast iz koje mogu da izvlae nove ideje za reavanje kompleksnijih problema od onih koji se mogu reiti klasinim hardversko-softverskim tehnikama.
4. MODELI NEURONA
Model neurona ine tri bazina elementa: Skup sinaptikih teina {wij }. Pozitivne teine odgovaraju ekscitirajuim sinaptikim vezama, a negativne inhibitornim. Sumator (linearni kombajner) formira teinsku sumu ulaza. Aktivaciona funkcija limitira amplitudu izlaznog signala neurona. Tipino se uzima normalizacija izlaza na interval [0,1] ili [-1,1]. Jednaine modela sa sl.4.1
u k = wkj x j
j =1 m
(4.1)
x1
wk 1
x2
xm
wk 2
uk
yk
wkm
k
Sl.4.1. Nelinearni model neurona
y k = a(u k k )
(4.2)
Alternativni zapis
v k = wkj x j ,
y k = a(v k ) , x0 = 1, wk 0 = k .
(4.3)
x0 = 1
wk 0 = k
x1
wk 1
x2
xm
wk 2
uk
yk
wkm
Sl.4.2. Nelinearni model neurona sa proirenim ulazom i prenosom praga u sinaptiku teinu. Ako stavimo da je x0 = 1, a wk 0 = bk , tada se bk naziva bajas, videti sl.3.3.
x0 = 1
wk 0 = bk
x1
wk 1
x2
xm
wk 2
uk
yk
wkm
Sl.3.3. Nelinearni model neurona sa proirenim ulazom i bajasom u obliku sinaptike teine.
1, v 0 a (v ) = 0, v < 0
0 v
Sl.3.4. Aktivaciona funkcija tipa praga. Neuron sa ovom aktivacionom funkcijom je poznat kao Mek Kulo Pitasov model neurona (1943)
a(v)
U delovima linearna
1, v 1 / 2 a (v) = 1 / 2 + v, 1 / 2 < v < 1 / 2 0, v 1 / 2
-1/2 1
v 1/2
Sigmoidalna (logistika)
1
a(v) b1
b2
a (v ) =
1 1 + exp(bv)
b1 > b2
Sl.4.6. Sigmoidalna (logistika) aktivaciona funkcija. Parametar b je parametar nagiba. Ukoliko se izlaz neurona normira na interval [-1,1], tada dobijamo
a(v) 1
-1
1, v 0 a (v) = 0, v = 0 1, v < 0
Sl.4.7. Bipolarna aktivaciona funkcija tipa znaka (sgn(v))
a(v) 1 b1
b2 b1 > b2
Sl.4.8. Bipolarna aktivaciona funkcija tipa tangensa hiperbolinog (sigmoidalna aktivaciona funkcija)
ulazni sloj
izlazni sloj
ulazni sloj
izlazni sloj
Za razliku od vieslojnih neuronskih mrea, rekurentne neuronske mree poseduju zatvorene petlje povratnih sprega.
z 1
z 1
z 1
Sl.4.11. Rekurentna neuronska mrea bez sopstvenih povratnih sprega i skrivenih slojeva. Operator z 1 ima znaenje jedininog vremenskog kanjenja.
z 1
t e x t
t e x t
z 1
t e x t
t e x t
izlaz
z 1
t e x t
t e x t
z 1
t e x t t e
t e x t
t e x t
ulaz
x t
t e x t
Neuronske mree su direktno bazirane na podacima i daju implicitni model okruenja uz istovremeno obavljanje eljenog procesiranja. Znanje o okruenju u neuronskim mreama je kodovano kroz konkretne vrednosti slobodnih parametara dobijenih kroz obuavanje. Teko je bilo ta konkretno rei o reprezentaciji samog znanja unutar neuronske mree. Postoje etiri pravila o reprezentaciji znanja u neuronskim mreama, koji su opte prirode. Pravilo 1. Slini ulazi slinih klasa prouzrokuju slinu unutranju reprezentaciju. Pravilo 2. Primeri koji pripadaju razliitim klasama treba da budu predstavljeni razliitim unutranjim reprezentacijama. Pravilo 3. Apriorne informacije se ugradjuju direktno u neuronsku mreu bez procesa obuavanja (specijalizacija strukture). Ovo se postie ili restrikcijom arhitekture (lokalne konekcije) restrikcijom izbora sinaptikihh teina (weight shearing metoda zajednikih sinaptikih teina). Specijalizacijom strukture se postie: manji broj slobodnih parametara manji potrebni obuavajui skupovi bre obuavanje bolja generalizacija ubrzana je prenos signala kroz restriktovanu neuronsku mreu cena realizacije je manja.
signal greke
eljeni signal
10
signal kritike
signal podsticanja
Sl.6.1.b.Obuavanje sa podsticanjem
x ulaz y izlaz
Neuronska mrea
Sl.6.1.c.Samoobuavanje Kod obuavanja sa uiteljem prisutan je obuavajui skup u formi parova X ( i ) , d ( i ) , gde je X ( i ) ulaz, a d (i ) eljeni izlaz. Kod obuavanja sa podsticanjem, neuronska mrea dobija rudimentirane informacije o tome kakav izlaz produkuje, najee samo u formi jednog bita informacije tipa {dobar, lo}. Analogno obuavanju sa uiteljem, ova forma obuavanja se moe tretirati na isti nain s tim to umesto uitelja, koji egzaktno ukazuje kakav odziv neuronske mree treba da bude, u ovom sluaju imamo kritiara koji daje grublju ocenu odziva neuronske mree. Samoobuavanje je karakterisano odsustvom bilo kakve povratne sprege od okruenja.
11
x1
wi1
wi 2
+ yi
x2
wi m 1
Wi
x m 1
X
wim =
x m = 1
di
Na osnovu opte jednaine (6.3), generisani su mnogi zakoni obuavanja, dominantno variranjem naina generisanja signala obuavanja r.
r = y i , wi = y i x.
(6.4)
Hebovo uenje je u osnovi samoobuavajue, budui da nije prisutan signal eljenog izlaza. U skalarnoj formi (6.4), ima formu wij = y i x j , i = 1,2,..., n, j = 1,2,..., m (6.5)
Ako je ulazno-izlazni korelacioni lan y i x j pozitivan, wij se poveava (u suprotnom se smanjuje), usled ega se poveava izlaz. Stoga e ulaz koji se najee pojavljuje, imati najvei uticaj na promenu teina, i na kraju e produkovati najvei izlaz, to i jeste ideja Hebovog postulata.
{( x
m
(1)
(7.1)
w x
j =1 j
(k ) j
= d ( k ) , k = 1,2,..., p
(7.2)
E ( w) =
w = w E (w) , odnosno w j = E = w j
(d
k =1
(k )
W T x ( k ) ) x (jk ) ,
Ukoliko se ove promene obavljaju individualno za svaki ulazni signal x (k ) , nalazimo da je w j = (d ( k ) W T x ( k ) ) x (jk ) , (7.6) to je poznato Vidrov-Hofovo pravilo obuavanja. Ono se susree i pod nazivom LMS pravilo (pravilo najmanjih kvadrata, Least Mean Square).
13
Akoelimo da Vidrov-Hofovo pravilo obuavanja izvedemo iz opte jednaine obuavanja, neophodno je staviti za signal uenja (7.7) r = d y = d W T x . Budui da je E(w) hiperparabolina povr u prostoru sinaptikih teina w, sa jedinstvenim globalnim ekstremumom (minimumom), postupak konvergira ka njemu bez obzira na poetne uslove, pod uslovom da je dovoljno malo.
E(w)
E(w) w
Emin
w =
w0
w(n + 1)
E (e) w
w(n)
8. JEDNOSLOJNI PERCEPTRON
Prethodni rezultat se lako moe generalisati na sluaj opte nelinearne diferencijabilne aktivacione funkcije a( ). Razmotrimo strukturu jednoslojnog perceptrona.
14
x1
w11
y1
d1
x2
w12
w1 m 1
e1
wn1
wn 2
x m1
x m = 1
w1m
n
yn
dn
wnm
en
Sl.8.1. Jednoslojni perceptron
gde je
WiT = [wi1 , wi 2 , K , wim ]
T
(8.2)
vektor teina pridruen neuronu i. Ako definiemo kriterijumsku funkciju kao matematiko oekivanje greke na izlazu neuronske mree, odnosno u sluaju konanih obuavajuih skupova u obliku ukupne kvadratne greke na obuavajuem skupu, dobijamo
1 p n E ( w) = d ik y i( k ) 2 k =1 i =1
)] (
(8.3)
net i( k ) = WiT x ( k ) - ulaz u i-ti neuron kada je k-ti ulazni vektor prisutan. a (net
' (k ) i
a(net i( k ) ) ) = net (k ) . i
(8.4)
15
] (
(8.5)
i naziva se Delta pravilo obuavanja (delta learning rule), koje se iz opteg pravila obuavanja dobija stavljanjem r = d i a( wiT x) a ' ( wiT x) .
(8.6)
Opisana procedura konvergira ka nekom od lokalnih ekstremuma. Budui da kriterijum obuavanja poseduje vie lokalnih ekstremuma, gradijentna procedura (8.5) ne garantuje globalni, ve samo neki od lokalnih ekstremuma, zavisno od poetnih uslova i parametara obuavanj.
9. VIESLOJNI PERCEPTRON
Vieslojni perceptron (feed forward artificial neural networks FFANN), predstavlja jednu od najvanijih neuronskih struktura, kako zbog optosti preslikavanja koju potencijalno moe restaurisati, tako i zbog efikasnog algoritma obuavanja poznato pod nazivom algoritam propagacije greke unazad (backpropagation algorithm).
Vieslojna neuronska mrea sa najmanje jednim skrivenim slojem i aktivacionom funkcijom koja poseduje sledea svojstva 1. lim a( ) = 1
2.
lim a( ) = 0 (1)
3. a( ) je neopadajua funkcija aproksimira bilo koju Borel merljivu funkciju na kompaktnim skupovima, sa proizvoljnom tanou, pod uslovom da je na raspolaganju dovoljan broj neurona u skrivenom sloju.
16
Borel merljive funkcije na kompaktnim skupovima obuhvataju sve neprekidne i u delovima neprekidne funkcije (sa konano ili prebrojivo mnogo diskontinuiteta na skupovima mere nula). Odavde sledi da je FFANN univerzalni aproksimator. Stoga neuspeh FFANN da u nekom konkretnom sluaju restaurie preslikavanje implicitno zadato obuavajuim skupom, potie ili od neadekvatnog izbora arhitekture, parametara obuavanja, obuavajuih skupova i drugih faktora, ali ne i od samog osnovnog restauratorskog principa FFANN. Za mnoge praktine probleme, pokazuje se da uprkos HSV teoremi jedan skriveni sloj nije dovoljan, budui da zahteva neprihvatljivo velik broj neurona. raktino bolji rezultati se esto dobijaju razmetanjem manjeg broja neurona u dva ili vie skrivenih slojeva.
y1
yi
yn
w1q
wiq
q
wnq
v q1
v qj
v qm
x1
xj
xm
Neka je neuronskoj mrei sa sl.9.1 prezentovan par (x,d) iz zadatog obuavajueg skupa. Uvedimo sledee oznake net q - ulazni signal u neuron q u skrivenom sloju,
net q = v qj x j ,
j =1 m
Ulaz u i-ti neuron u izlaznom sloju dat je sa l l m net i = wiq z q = wiq a v qj x j . q =1 q =1 j =1 Izlazi neurona u izlaznom sloju dati su sa l m l y i = a(net i ) = a wiq z q = a wiq a v qj x j . q =1 j =1 q =1 Ovim je opisana prva faza, propagacija ulaynog signala. Kriterijumska funkcija obuavanja ima oblik
l 1 n 1 n 1 n 2 2 E ( w) = (d i y i ) = [d i a(net i )] = d i a wiq z q . 2 i =1 2 k =1 2 i =1 q =1 U skladu sa gradijentnim postupkom ekstremizacije, korekcija teina izmedju skrivenog i izlaznog sloja je data sa E , wiq = wiq odnosno uzimajui u obzir relaciju o prostiranju unapred i lanano pravilo parcijalnih izvoda za E / wiq , imamo
E y net i = [d i y i ][a (net i )] z q = 0i z q , wiq = i y i net i wiq gde je sa 0i oznaen signal greke
2
[ ]
E y E = i = [d i y i ] [a (net i )] , net i y i net i gde je net i ulaz u neuron i u izlaznom sloju, dok je a (net i ) a (net i ) = . net i Rezultat je u potpunosti identian Delta pravilu za jednoslojni perceptron iji je ulaz z q
0i =
18
Korekcija teina izmedju neurona j u ulaznom i ineurona q u skrivenom sloju je data sa n E E net q E z q net q v qj = = = = (d i y i )a (net i )wiq a (net q )x j . i =1 v qj net q v qj z q net q v qj Korienjem izraza za signal greke 0i , dobijamo
v qj = 0i wiq a (net q )x j = hq x j
n i =1
hq =
Izraz za hq pokazuje da se ovaj signal greke za neuron q u skrivenom sloju dobija propagiranjem unazad od izlaznog sloja signala greke 0i pridruenih izlaznim neuronima. Ovo svojstvo pokazuje vanu lokalnu osobinu algoritma, naime, da bi se izraunala korekcija koeficijenata zadate grane potrebne su samo veliine (signali) na oba kraja ove grane. Ova razmatranja se lako mogu proiriti na perceptron sa proizvoljnim brojem slojeva, sukcesivnom primenom pravilom ulanavanja za diferenciranje. U optem sluaju, za proizvoljan broj slojeva, pravilo korekcije teina u algoritmu propagacije greke unazad ima formu wij = i x j = output i xinput j , gde se output-i i input-j odnose na dva kraja konekcije neurona j ka neuronu i. Sumarno, algoritam propagacije greke unazad se moe opisati kroz sledee korake. Neka vieslojni perceptron ima Q slojeva, q=1,2,...,Q i neka je q net i - net ulaz za i-ti neuron u q-tom sloju
q
Neka postoji m ulaznih i n izlaznih vorova. Neka q wij oznaava teinu veze izmedju
q 1
ULAZ: Skup parova {(x ( k ) , d ( k ) ) , k = 1,2,..., p} E max (maksimalna prihvatljiva KORAK 0: (Inicijalizacija) Izabrati > 0 i greka).Inicijalizovati sve sinaptike teine malim sluajnim vrednostima. E=0, k=1. KORAK 1. Primeniri k-ti obuavajui vektor na ulaz (q=1): q y i =1y i = xi( k ) , za sve i. KORAK 2. (Propagacija unapred). Propagirati signal unapred do izlaza po formuli q y i = a ( q net i ) = a q wij q 1 y j i, q j Q sve dok se ne dobije izlaz y i . KORAK 3: (Raunanje izlazne greke Q i )
y j i q yi .
19
1 n E = (d i( k ) Q y i ) + E , 2 i =1 Q y i = (d i( k ) Q y i ) a ( Q net i ) . KORAK 4: (Propagacija greke unazad). Propagacija greke unazad u cilju korigovanja teina i sraunavanja greke q 1 i za prethodni sloj:
q wij = q iq 1 y j
q 1
i = a ( q 1 net i ) q w ji q j
j
, za q = Q, Q 1,...,2.
KORAK 5. Provera da li su svi uzorci iz obuavajueg skupa jednom proli proceduru. Ako je k<p, tada je k=k+1 i prelazi se na korak 1. U suprotnom prelazi se na korak 6. KORAK 6. (Provera ukupne greke). Da li je ukupna akumulirana greka prihvatljiva? Ako je E < E max , prekida se proces obuke, u suprotnom E=0, k=1, prei na korak 1. END algoritam propagacije greke unazad. Ova varijanta algoritma propagacije greke unazad je tzv. inkrementalna, tj. teine se koriguju nakon predstavljanja svakog uzorka iz obuavajueg skupa. Alternativni pristup je tzv. blokovski (batch mod training) algoritam, po kome se teine menjaju nakon to su svi uzorci u obuavajuem skupu prezentovani.
20
9.5.1.Inicijalizacija teina
Poetne vrednosti izuzetno utiu na krajnji rezultat obuavanja. Tipina inicijalizacija je malim sluajnim vrednostima. Velike vrednosti vode u zasienje i zaglavljivanje u lokalnim ekstremumima bliskim startnoj poziciji. Praktina preporuka za inicijalizaciju je 3 3 izbor poetnih teina u opsegu , , gde je k i broj ulaznih konekcija u neuron ki ki i. 9.5.2.Koeficijent obuavanja. (learning constant) Velike vrednost za mogu da ubrzaju konvergenciju, ali i da dovedu do premaaja cilja, dok isuvie male vrednosti imaju suprotan efekat. Dosadanja praksa pokazuje da se moe kretati, zavisno od konkretnog problema u opsegu od 0.001 do 10. Dobra strategija je adaptivna promena za , npr. po sledeem zakonu
a , E < 0 , konzistent no = b , E > 0 0 , u osta lim slu luaje a
, a,b>0
Konzistentno, moe da ima znaenje ili npr. K uzastopnih koraka ili teinsko pokretno usrednjavanje E .
9.5.3.Funkcija cilja
Kvadratna funkcija nije jedini mogui izbor. promenom ove funkcije menja se samo signal greke 0i u izlaznom sloju, dok ostale jednaine ostaju nepromenjene. Mogui izbori funkcije greke su L p norma 1 (d i yi ) p p i ebievljeva norma L = sup d i y i .
E=
i
, 1 p < ,
9.5.4.Momentum.
Jedan od naina da se konstanta obuavanja povea, a da ne dodje do divergentnog oscilovanja je dodavanje tzv. momentum lana. Momentum je u stvari dodatni inercijalni lan koji omoguava odvijanje procesa obuavanja u pravcu srednje sile na dole. Ovo se moe ostvariti ukljuivanjem prethodnih promena teina u trenutnu promenu, npr. na sledei nain
w(t ) = E (t ) + w(t 1) , , [0,1] ,
21
gde je momentum parametar (uobiajena praktina vrednost je 0.9). Na sl.9.2. prikazana je analiza uticaja momentuma na proces korekcije teina neuronske mree u toku obuavanja. Elipse prikazuju izohipse hipotetike povrine greke (error surface) kvadratnog tia. Primer AA ilustruje sluaj dobrog usmerenja vektora korekcije teina. Korekcija momentumom u ovom sluaju poboljava usmerenje korekcije teina. Priner BB ilustruje sluaj pogreno usmerenog vektora korekcije teina (prebaaj). Korekcija momentumom preusmerava ovaj vektor u dobrom pravcu. Ovi primeri pokazuju da momentup tipino ubrzava konvergenciju.
w(t )
A w(t )
A
B
w(t )
E (t + 1) E (t + 1) + w(t )
E (t + 1) E (t + 1) + w(t )
B
w(t )
9.5.5.Pravila korekcije.
Do sada analizirano pravilo gradijentnog spusta. Dobro efikasnijih tehnika. Prvo kriterijumske funkcije. Ako korekcije teina se zasnivalo na najjednostavnijem postupku razvijena teorija optimizacije nudi niz daleko razvijenijih i poboljanje se moe uiniti ukljuivanjm viih redova E (w) razvijemo u tajlorov red dobijamo 1 T E ( w) = E ( w0 ) + ( w w0 ) T E ( w0 ) + ( w w0 ) T H ( w)( w w0 ) + L 2
2
22
E ( w) = E ( w0 ) + H ( w0 )( w w0 ) + L = 0 . Ako zanemarimo lanove reda veeg od dva u gornjem razvoju, dobijamo w = w0 H 1 ( w)E ( w0 ) , ili u iterativnoj proceduri w ( k +1) = w ( k ) H 1 ( w ( k ) )E ( w ( k ) ) , to je poznat Njutnov metod korekcije teina, za koga se dokazuje da u sluaju konveksnih kriterijumskih funkcija E, konvergira kvadratno ka reenju. Medjutim i dalje procedura ima niz nedostataka: raunarska kompleksnost zahteva dobro poetno pogadjanje za ne konveksne kriterijumske funkcije moe da konvergira ka lokalnom ekstremumu i sedlastim takama. Raunarski relaksirana metoda pogodna za implementaciju je npr. kvazi Njutnova metoda ili algoritam konjugovanih pravaca.
{ (xi , di ) }
se zamenjuje sa
{ (x + ) , d }, j = 1,Km,
i j i
i = 1,K, p.
Druga mogunost postizanja slinog efekta smanjivanja osetljivosti mree u odnosu na ulazne signale je dodavanje novog lana standardnoj kriterijumskoj funkciji oblika 2 2 2 E f 1 E f E f + +L+ Eb = x , 2 x1 x2 n gde je E f funkcional greke u standardnom algoritmu obuavanja. Razlog za ukljuivanje Eb je da njegova minimizacija u stvari znai, prema gornjoj definiciji, malu osetljivost E f na varijacije ulaza, to je i bio cilj. 23
b.Regularizacija. Ovaj metod se svodi na proirivanje kriterijumske funkcije tzv. regularizacionim lanom ~ E = E + gde je E standardni kriterijum, je parametar kojim se kontrolie uticaj dodatnog lana , koji je u direktnoj vezi sa kompleksnou neuronske mree. Na taj nain, ~ minimizacijom ukupnog kriterijuma E postie se uslovna ekstremizacija standardnog kriterijuma E uz uslov minimalne kompleksnosti neuronske mree, koja je osnovni uzrok overfittinga. Najee korien oblik regularizacionog lana je 1 = wi2 , 2 i poznat pod nazivom weight decay smanjivanje teina, pri emu se suma odnosi na sve teine i bajase u mrei. Praksa pokazuje da se na ovaj nain postie znaajno poboljanje generalizacije. Mogue heuristiko objanjenje ovog efekta se svodi na sledee rezonovanje. Ukoliko su teine mree velike, aktivacije neurona su u predelu zasienja, dakle nelinearnih oblasti koje upravo prouzrokuju kompleksna preslikavanja mree, i obrnuto, za male vrednosti teina aktivacije su u predelu linearnosti aktivacionih funkcija i kompleksnost mree je mala, ime se smanjuje verovatnoa overfitinga za fiksiranu duinu obuavajueg skupa. c.Rano zaustavljanje (early stopping).
Tokom tipine procedure obuavanja greka obuavanja (vrednost kriterijumske funkcije) po pravilu opada sa brojem iteracija obuavanja. Medjutim greka merena na skupu podataka nezavisnih od obuavajueg skupa (test ili validacioni skup) po pravilu opada do jedne odredjene vrednosti iteracia, a zatim poinje da raste. Ovaj rast je vezan za pojavu overfittinga, pa je stoga celishodno proceduru obuavanja zaustaviti u toj taki, iako kriterijumska funkcija na obuavajuem skupu i dalje opada. Otuda naziv ove metode rano zaustavljanje.
24
Greka validacije
Trenutak obucavanja
Minimalna greka validacije
Greka obuke
0.6 0.4 0.2
10
12
14
16
18
d. Kresanje (Prunning)
Budui da je generalizacija vezana za adekvatan odnos izmedju broja slobodnih parametara (bogatstvo arhitekture) i sloenosti modelovane pojave (struktura i duina obuavajueg skupa), ideja kresanja se temelji na principu ostvarivanja to boljih performansi sa to siromanijom arhitekturom. Operativno se ovo moe postii sledeom klasom procedura:
korak.1. Izabrati poetnu bogatu arhitekturu neuronske mree. Obuiti zatim. neuronsku mreu na obuavajuem skupu i testirati na validacionom skupu. Neka su vrednosti ovih kriterijuma Eobuka i Evalid . korak.2. Saobrazno nekom od unapred usvojenih kriterijuma znaajnosti parametra, izraunati znaajnost svih parametara obuene neuronske mree i sortirati ih po rastuim vrednostima, tako da se na prvom mestu nalazi najneznaajniji parametar. korak.3. Izbaciti granu lil bajas koji odgovara najneznaajnijem parametru. Na ovaj nain smo smanjili sloenost arhitekture i broj slobodnih parametara
25
korak.4. Za novu arhitekturu izvriti novu sluajnu inicijalizaciju mree i novo obuavanje. Izraunati ponovo Evalid . Ako je Evalid Evalid , staviti da je Evalid = Evalid i prei na korak 2., u suprotnom zaustaviti proceduru.
Nakon zavretka rada ovog algoritma, posedovaemo neuronsku mreu najsiromanije arhitekture i minimalne vrednosti kriterijumske funkcije na validacionom skupu, to i jeste bio cilj. Postavlja se pitanje izbora kriterijuma znaajnosti. Jedan od ee korienih je tzv. kriterijum oteenja mozga (brain demage), po kome je znaajniji onaj parametar za koga je vezana vea promena kriterijumske funkcije nakon njegovog uklanjanja. Pored ovog kriterijuma i njegovih razliitih varijanti, razvijeni su i drugi, vezani prevashodno za razliite statistike testove znaajnosti nelinearnih parametarskih modela.
U nardnoj seriji slika dat je primer izbora arhitekture sa dobrim generalizacionim svojstvima, u problemu predvidjanja broja sunevih pega.
26
27
28
U sluaju N m m , vai M max = 2 N m , odnosno N m = log 2 M max . Podsetimo se da je broj disjunktnih particija u izlazno prostoru neuronske mree u direktnoj vezi sa maksimalnim brojem koncepata (klasa) koje ta mrea moe da prepozna.
10.Literatura
[1] C.M. Bishop, Neural Networks for Pattern Recognition, Oxford university press, 2000. [2] C.T. Lin, C.S.George Lee, Neural Fuzzy Systems, Prentice Hall, 1996.
29