You are on page 1of 29

NEURONSKE MREE

radni materijal uz predmet Ekspertni sistemi i Vetaka inteligencija i neuronske mree

Milan M. Milosavljevi Elektrotehniki fakultet Beogradskog Univerziteta januar 2005.

1.UVOD

Neuronske mree Obuavanje (uenje na osnovu primera) 1 zasnovano na podeavanju jaine knekcionih veza, pragova i strukture 2 Memorijski i procesni elementi su

Fon Nojmanov digitalni raunar Programiranje kroz instrukcije (ako-onda analiza zasnovana na logici) Memorija i procesiranje su separisani 2

3 4 5 6 7 8

kolocirani Paralelni i asinhroni rad (kontinualni ili diskretni) Otporan na greke usled distribuirane reprezentacije i velike redudanse Smoorganizovanje u toku obuavanja Kodovano znanje je adaptibilno. Prezentovano je interkonekcijama izmedju neurona Procesiranje je anarhino Osnovni vremenski ciklus obrade je reda milisekundi

Sekvencijalni ili serijski rad, sinhronisan zajednikim taktom Nije otporan na greke Zavisan od programa Znanje je memorisano u adresibilnoj memoriji i striktno je replikabilno Procesiranje je autokratino Osnovni vremenski ciklus obrade je reda nanosekundi

Tabela 1.1 Slinosti i razlike izmedju neuronskih mrea i Fon Nojmaovog raunara.

2.DEFINICIJA NEURONSKIH MREA


Neuronske mree simuliraju nain rada ljudskog mozga pri obavljanju datog zadatka ili neke funkcije. Neuronska mrea je masovno paralelizovan distribuirani procesor sa prirodnom sposobnou memorisanja iskustvenog znanja i obezbedivanja njegovog korienja. Vetake neuronske mree podseaju na ljudski mozak u dva pogleda: 1. Neuronska mrea zahvata znanje kroz proces obuavanja 2. Teine medjuneuronskih veza (jaina sinaptikih veza) slue za memorisanje znanja. Procedura kojom se obavlja obuavanje je algoritam obuavanja. Kroz ovu se procesuru se na algoritamski (sistematian) nain menjaju sinaptike teine u cilju dostizanja eljenih performansi mree. Osnovnu raunarsku snagu neuronskih mrea ini masivni paralelizam, sposobnost obuavanja i generalizacija. Generalizacija predstavlja sposobnost produkovanja zadovoljavajueg izlaza neuronske mree i za ulaze koji nisu bili prisutni u toku obuavanja.

3. SVOJSTVA NEURONSKIH MREA


1. 2. 3. 4. Nelinearnost, koja je u osnovi distribuirana. Ulazno-izlazno preslikavanje, koje se restaurie kroz proces obuavanja Adaptivnost-sposobnost menjanja jaine sinaptikih veza. Evidencionalni odziv. Neuronska mrea kao izlaz moe da produkuje i stepen uverenja o datoj odluci. 5. Kontekstualna informacija. Svaki neuron u neuronskoj mrei je pod uticajem globalne aktivnosti ostalih neurona. Stoga je kontekstualna informacija prirodno imanentna ovim strukturama

6. Otpornost na otkaz. 7. Mogunost realizacije u VLSI (Very Large Scale Integration) tehnologiji. 8. Uniformnost analize i sinteze. Neuron je zajedniki element za sve tipove neuronskih mree. Modularne neuronske mree se mogu formirati integracijom pojedinih celina-modula. Za reavanje razliitih praktinih problema koriste se iste teorijske postavke i algoritmi obuavanja. 9. Neurobioloke analogije. Neurobiolozi gledaju na neuronske mree kao istraivaki alat za interpretaciju neurobiolokih fenomena, i obrnuto, inenjeri gledaju na neurobiologiju kao oblast iz koje mogu da izvlae nove ideje za reavanje kompleksnijih problema od onih koji se mogu reiti klasinim hardversko-softverskim tehnikama.

4. MODELI NEURONA
Model neurona ine tri bazina elementa: Skup sinaptikih teina {wij }. Pozitivne teine odgovaraju ekscitirajuim sinaptikim vezama, a negativne inhibitornim. Sumator (linearni kombajner) formira teinsku sumu ulaza. Aktivaciona funkcija limitira amplitudu izlaznog signala neurona. Tipino se uzima normalizacija izlaza na interval [0,1] ili [-1,1]. Jednaine modela sa sl.4.1
u k = wkj x j
j =1 m

(4.1)

x1

wk 1

x2
xm

wk 2

uk

yk

wkm

k
Sl.4.1. Nelinearni model neurona

y k = a(u k k )

(4.2)

Alternativni zapis

v k = wkj x j ,

y k = a(v k ) , x0 = 1, wk 0 = k .

(4.3)

x0 = 1
wk 0 = k

x1

wk 1

x2
xm

wk 2

uk

yk

wkm

Sl.4.2. Nelinearni model neurona sa proirenim ulazom i prenosom praga u sinaptiku teinu. Ako stavimo da je x0 = 1, a wk 0 = bk , tada se bk naziva bajas, videti sl.3.3.

x0 = 1
wk 0 = bk

x1

wk 1

x2
xm

wk 2

uk

yk

wkm

Sl.3.3. Nelinearni model neurona sa proirenim ulazom i bajasom u obliku sinaptike teine.

4.1. TIPOVI AKTIVACIONIH FUNKCIJA


Razlikujemo sledee najee tipove aktivacionih funkcija. Funkcija praga
a(v) 1

1, v 0 a (v ) = 0, v < 0
0 v

Sl.3.4. Aktivaciona funkcija tipa praga. Neuron sa ovom aktivacionom funkcijom je poznat kao Mek Kulo Pitasov model neurona (1943)
a(v)

U delovima linearna
1, v 1 / 2 a (v) = 1 / 2 + v, 1 / 2 < v < 1 / 2 0, v 1 / 2
-1/2 1

v 1/2

Sl.3.5. U delovima linearna aktivaciona funkcija

Sigmoidalna (logistika)
1

a(v) b1
b2

a (v ) =

1 1 + exp(bv)

b1 > b2

Sl.4.6. Sigmoidalna (logistika) aktivaciona funkcija. Parametar b je parametar nagiba. Ukoliko se izlaz neurona normira na interval [-1,1], tada dobijamo
a(v) 1

-1

1, v 0 a (v) = 0, v = 0 1, v < 0
Sl.4.7. Bipolarna aktivaciona funkcija tipa znaka (sgn(v))
a(v) 1 b1
b2 b1 > b2

v 1 exp(v) a (v) = tanh( ) = 2 1 + exp(v)


-1

Sl.4.8. Bipolarna aktivaciona funkcija tipa tangensa hiperbolinog (sigmoidalna aktivaciona funkcija)

4.2. ARHITEKTURE NEURONSKIH MREA


Jednoslojne neuronske mree sa prostiranjem signala unapred (feed forward single layer neural network)

ulazni sloj

izlazni sloj

Sl.4.9. Jednoslojni perceptron sa prostiranjem unapred


Vieslojne neuronske mree sa prostiranjem signala unapred (feedforward multilayer neural network)
skriveni sloj

ulazni sloj

izlazni sloj

Sl.4.10. Vieslojna neuronska mrea sa prostiranjem unapred


Rekurentske neuronske mree

Za razliku od vieslojnih neuronskih mrea, rekurentne neuronske mree poseduju zatvorene petlje povratnih sprega.

z 1

z 1

z 1

Sl.4.11. Rekurentna neuronska mrea bez sopstvenih povratnih sprega i skrivenih slojeva. Operator z 1 ima znaenje jedininog vremenskog kanjenja.

z 1

t e x t

t e x t

z 1

t e x t

t e x t

izlaz

z 1

t e x t

t e x t

z 1
t e x t t e

t e x t

t e x t

ulaz

x t

t e x t

Sl.4.12. Rekurentna neuronska mree sa skrivenim slojem

5. PREZENTACIJA ZNANJA U NEURONSKIM MREAMA


Znanje o okruenju je generalno dvojako 1. Poznata znanja o okruenju, izraena kroz injenice o tome ta je poznato apriorno znanje. 2. Observacije (merenja) dobijena od razliitih senzora kao odraz stanja okruenja. Na osnovu ovih observacija se kreiraju obuavajui skupovi za obuavanje neuronskih mrea. Svaki primer u njemu se sastoji od parova (ulaz, izlaz). Obuavajui skupovi predstavljaju znanje o okruenju od interesa. U klasinom procesiranju, prirodno je prvo kreirati matematiki model observacija, izvriti validaciju ovog modela na realnim podacima

Neuronske mree su direktno bazirane na podacima i daju implicitni model okruenja uz istovremeno obavljanje eljenog procesiranja. Znanje o okruenju u neuronskim mreama je kodovano kroz konkretne vrednosti slobodnih parametara dobijenih kroz obuavanje. Teko je bilo ta konkretno rei o reprezentaciji samog znanja unutar neuronske mree. Postoje etiri pravila o reprezentaciji znanja u neuronskim mreama, koji su opte prirode. Pravilo 1. Slini ulazi slinih klasa prouzrokuju slinu unutranju reprezentaciju. Pravilo 2. Primeri koji pripadaju razliitim klasama treba da budu predstavljeni razliitim unutranjim reprezentacijama. Pravilo 3. Apriorne informacije se ugradjuju direktno u neuronsku mreu bez procesa obuavanja (specijalizacija strukture). Ovo se postie ili restrikcijom arhitekture (lokalne konekcije) restrikcijom izbora sinaptikihh teina (weight shearing metoda zajednikih sinaptikih teina). Specijalizacijom strukture se postie: manji broj slobodnih parametara manji potrebni obuavajui skupovi bre obuavanje bolja generalizacija ubrzana je prenos signala kroz restriktovanu neuronsku mreu cena realizacije je manja.

6. OBUAVANJE NEURONSKIH MREA


Obuavanje je proces adaptiranja slobodnih parametara neuronske mree, koji se obavlja kroz stimulaciju okruenja u kome se neuronska mrea nalazi. Proces obuavanja je klasifikovan u tri kategorije: 1. obuavanje sa uiteljem (nadzorom), (supervized learning) 2. obuavanje sa podsticanjem (reinforcement learning) 3. samoobuavanje (obuavanje bez uitelja), (unsupervised learning)
x ulaz Neuronska mrea y izlaz

signal greke

Generator signala greke

eljeni signal

10

Sl.6.1.a Obuavanje sa uiteljem


x ulaz Neuronska mrea y izlaz

signal kritike

Generator signala kritike

signal podsticanja

Sl.6.1.b.Obuavanje sa podsticanjem
x ulaz y izlaz

Neuronska mrea

Sl.6.1.c.Samoobuavanje Kod obuavanja sa uiteljem prisutan je obuavajui skup u formi parova X ( i ) , d ( i ) , gde je X ( i ) ulaz, a d (i ) eljeni izlaz. Kod obuavanja sa podsticanjem, neuronska mrea dobija rudimentirane informacije o tome kakav izlaz produkuje, najee samo u formi jednog bita informacije tipa {dobar, lo}. Analogno obuavanju sa uiteljem, ova forma obuavanja se moe tretirati na isti nain s tim to umesto uitelja, koji egzaktno ukazuje kakav odziv neuronske mree treba da bude, u ovom sluaju imamo kritiara koji daje grublju ocenu odziva neuronske mree. Samoobuavanje je karakterisano odsustvom bilo kakve povratne sprege od okruenja.

11

6.1. OPTA FORMA PRAVILA OBUAVANJA

x1

wi1
wi 2
+ yi

x2

wi m 1

Wi

x m 1

X
wim =
x m = 1

di

Sl.6.1.Opta ema obuavanja i-tog neurona

wi = ( wi1 , wi 2 ,..., wim ) T

, i = 1,2,..., n - vektor sinaptikih teina i-tog neurona wi (t ) = r x(t ) , (6.1)

- koeficijent obuavanja pozitivna konstanta.


r signal obuavanja, u optem sluaju funkcija oblika r = f r ( wi , x, d i ) , wi (t + 1) = wi (t ) + f r ( wi (t ), x(t ), d i (t )) x(t ) , (6.2) (6.3)

Na osnovu opte jednaine (6.3), generisani su mnogi zakoni obuavanja, dominantno variranjem naina generisanja signala obuavanja r.

6.2 HEBOVO UENJE


Hebov princip uenja je jedan od najstarijih i najpoznatijih. Zasniva se na Hebovom postulatu: Kada je akson neurona A dovoljno blizu neurona B, tako da ga moe eksitovati, i ako se to ponavlja dovoljno esto, deavaju se takve promene i metaboliki procesi u obe elije da je efikasnost uticaja neurona A na neuron B poveana.
12

r = y i , wi = y i x.

(6.4)

Hebovo uenje je u osnovi samoobuavajue, budui da nije prisutan signal eljenog izlaza. U skalarnoj formi (6.4), ima formu wij = y i x j , i = 1,2,..., n, j = 1,2,..., m (6.5)

Ako je ulazno-izlazni korelacioni lan y i x j pozitivan, wij se poveava (u suprotnom se smanjuje), usled ega se poveava izlaz. Stoga e ulaz koji se najee pojavljuje, imati najvei uticaj na promenu teina, i na kraju e produkovati najvei izlaz, to i jeste ideja Hebovog postulata.

7. ADALINA (Adaptive Linear Element)


Neuron sa linearnom aktivacionom funkcijom se naziva linearni neuron. Neka je na raspolaganju obuavajui skup

{( x
m

(1)

, d (1) ),..., ( x ( p ) .d ( p ) )}.

(7.1)

Cilj obuavanja je izraunavanje teina wi , koje zadovoljavaju relaciju

w x
j =1 j

(k ) j

= d ( k ) , k = 1,2,..., p

(7.2)

i pri tome se minimizira kriterijum performansi


m 1 p 1 p 1 p (d ( k ) y ( k ) ) 2 = (d ( k ) W T x ( k ) ) 2 = (d ( k ) w j x (jk ) ) 2 . (7.3) 2 k =1 2 k =1 2 k =1 j =1 Ekstremizaciju kriterijuma (7.3) moemo obaviti gradijentnom metodom. datom sa

E ( w) =

w = w E (w) , odnosno w j = E = w j

(7.4) j = 1,2,..., m (7.5)

(d
k =1

(k )

W T x ( k ) ) x (jk ) ,

Ukoliko se ove promene obavljaju individualno za svaki ulazni signal x (k ) , nalazimo da je w j = (d ( k ) W T x ( k ) ) x (jk ) , (7.6) to je poznato Vidrov-Hofovo pravilo obuavanja. Ono se susree i pod nazivom LMS pravilo (pravilo najmanjih kvadrata, Least Mean Square).

13

Akoelimo da Vidrov-Hofovo pravilo obuavanja izvedemo iz opte jednaine obuavanja, neophodno je staviti za signal uenja (7.7) r = d y = d W T x . Budui da je E(w) hiperparabolina povr u prostoru sinaptikih teina w, sa jedinstvenim globalnim ekstremumom (minimumom), postupak konvergira ka njemu bez obzira na poetne uslove, pod uslovom da je dovoljno malo.

E(w)
E(w) w

Emin

w =
w0
w(n + 1)

E (e) w

w(n)

Sl.7.1. Ilustracija Vidrov-Hofovog pravila obuavanja za jedan koeficijent sinaptikih teina w.

8. JEDNOSLOJNI PERCEPTRON
Prethodni rezultat se lako moe generalisati na sluaj opte nelinearne diferencijabilne aktivacione funkcije a( ). Razmotrimo strukturu jednoslojnog perceptrona.

14

x1

w11

y1

d1

x2

w12
w1 m 1

e1
wn1
wn 2

x m1
x m = 1

w1m

n
yn
dn

wnm

en
Sl.8.1. Jednoslojni perceptron

(w1m = 1 , w2 m = 2 , ..., wnm = n )


m broj ulaza n brj izlaza p duina obuavajueg skupa
m y i( k ) = a WiT x ( k ) = a wij x (jk ) = d i( k ) , j =1

i = 1,2, K , n, k = 1,2, K. p. (8.1)

gde je
WiT = [wi1 , wi 2 , K , wim ]
T

(8.2)

vektor teina pridruen neuronu i. Ako definiemo kriterijumsku funkciju kao matematiko oekivanje greke na izlazu neuronske mree, odnosno u sluaju konanih obuavajuih skupova u obliku ukupne kvadratne greke na obuavajuem skupu, dobijamo
1 p n E ( w) = d ik y i( k ) 2 k =1 i =1

m 2 1 p n 1 p n = d i( k ) a( wiT x ( k ) ) = d i( k ) a wij x (jk ) . 2 k =1 i =1 2 k =1 i =1 j =1

p E = d i( k ) a net i( k ) a ' net i( k ) x (jk ) wij k =1

)] (

(8.3)

net i( k ) = WiT x ( k ) - ulaz u i-ti neuron kada je k-ti ulazni vektor prisutan. a (net
' (k ) i

a(net i( k ) ) ) = net (k ) . i

(8.4)

15

Korekcija wij nakon prezentacije k-tog obuavajueg uzorka je


wij = E = d i( k ) a (net i( k ) ) a ' net i( k ) x (jk ) wij

] (

(8.5)

i naziva se Delta pravilo obuavanja (delta learning rule), koje se iz opteg pravila obuavanja dobija stavljanjem r = d i a( wiT x) a ' ( wiT x) .

(8.6)

Opisana procedura konvergira ka nekom od lokalnih ekstremuma. Budui da kriterijum obuavanja poseduje vie lokalnih ekstremuma, gradijentna procedura (8.5) ne garantuje globalni, ve samo neki od lokalnih ekstremuma, zavisno od poetnih uslova i parametara obuavanj.

9. VIESLOJNI PERCEPTRON
Vieslojni perceptron (feed forward artificial neural networks FFANN), predstavlja jednu od najvanijih neuronskih struktura, kako zbog optosti preslikavanja koju potencijalno moe restaurisati, tako i zbog efikasnog algoritma obuavanja poznato pod nazivom algoritam propagacije greke unazad (backpropagation algorithm).

9.2. HORNIK STINCHOMBE WHITE-OVA TEOREMA (1989)


HSW Teorema

Vieslojna neuronska mrea sa najmanje jednim skrivenim slojem i aktivacionom funkcijom koja poseduje sledea svojstva 1. lim a( ) = 1

2.

lim a( ) = 0 (1)

3. a( ) je neopadajua funkcija aproksimira bilo koju Borel merljivu funkciju na kompaktnim skupovima, sa proizvoljnom tanou, pod uslovom da je na raspolaganju dovoljan broj neurona u skrivenom sloju.

16

Borel merljive funkcije na kompaktnim skupovima obuhvataju sve neprekidne i u delovima neprekidne funkcije (sa konano ili prebrojivo mnogo diskontinuiteta na skupovima mere nula). Odavde sledi da je FFANN univerzalni aproksimator. Stoga neuspeh FFANN da u nekom konkretnom sluaju restaurie preslikavanje implicitno zadato obuavajuim skupom, potie ili od neadekvatnog izbora arhitekture, parametara obuavanja, obuavajuih skupova i drugih faktora, ali ne i od samog osnovnog restauratorskog principa FFANN. Za mnoge praktine probleme, pokazuje se da uprkos HSV teoremi jedan skriveni sloj nije dovoljan, budui da zahteva neprihvatljivo velik broj neurona. raktino bolji rezultati se esto dobijaju razmetanjem manjeg broja neurona u dva ili vie skrivenih slojeva.

9.3. ALGORITAM PROPAGACIJE GREKE UNAZAD


Ovaj algoritam obuhvata dve faze: 1. ulazni vektor x (k ) propagira od ulaznog ka izlaznom sloju, produkujui izlaz y (k ) . 2. sinal greke, zatim u drugoj fazi propagira unazad od izlaznog ka ulaznom sloju u cilju korigovanja teina wij . U cilju ilustracije rada algoritma propagacije greke unazad (BP algoriram) razmotrimo vieslojni perceptron tipa m l n sa jednim skrivenim slojem.

y1

yi

yn

w1q

wiq
q

wnq

v q1

v qj

v qm

x1

xj

xm

Sl.9.1. Vieslojni perceptron sa jednim skrivenim slojem 17

Neka je neuronskoj mrei sa sl.9.1 prezentovan par (x,d) iz zadatog obuavajueg skupa. Uvedimo sledee oznake net q - ulazni signal u neuron q u skrivenom sloju,
net q = v qj x j ,
j =1 m

z q - izlazni signal neurona q


m z q = a (net q ) = a v qj x j j =1

Ulaz u i-ti neuron u izlaznom sloju dat je sa l l m net i = wiq z q = wiq a v qj x j . q =1 q =1 j =1 Izlazi neurona u izlaznom sloju dati su sa l m l y i = a(net i ) = a wiq z q = a wiq a v qj x j . q =1 j =1 q =1 Ovim je opisana prva faza, propagacija ulaynog signala. Kriterijumska funkcija obuavanja ima oblik
l 1 n 1 n 1 n 2 2 E ( w) = (d i y i ) = [d i a(net i )] = d i a wiq z q . 2 i =1 2 k =1 2 i =1 q =1 U skladu sa gradijentnim postupkom ekstremizacije, korekcija teina izmedju skrivenog i izlaznog sloja je data sa E , wiq = wiq odnosno uzimajui u obzir relaciju o prostiranju unapred i lanano pravilo parcijalnih izvoda za E / wiq , imamo
E y net i = [d i y i ][a (net i )] z q = 0i z q , wiq = i y i net i wiq gde je sa 0i oznaen signal greke
2

[ ]

E y E = i = [d i y i ] [a (net i )] , net i y i net i gde je net i ulaz u neuron i u izlaznom sloju, dok je a (net i ) a (net i ) = . net i Rezultat je u potpunosti identian Delta pravilu za jednoslojni perceptron iji je ulaz z q

0i =

jednak izlazu neurona iz skrivenog sloja.

18

Korekcija teina izmedju neurona j u ulaznom i ineurona q u skrivenom sloju je data sa n E E net q E z q net q v qj = = = = (d i y i )a (net i )wiq a (net q )x j . i =1 v qj net q v qj z q net q v qj Korienjem izraza za signal greke 0i , dobijamo

v qj = 0i wiq a (net q )x j = hq x j
n i =1

gde je hq signal greke za neuron q u skrivenom sloju i definie se kao


n E z q E = = a (net q ) 0i wiq net q i =1 z q net q gde je net q ulaz u neuron q.

hq =

Izraz za hq pokazuje da se ovaj signal greke za neuron q u skrivenom sloju dobija propagiranjem unazad od izlaznog sloja signala greke 0i pridruenih izlaznim neuronima. Ovo svojstvo pokazuje vanu lokalnu osobinu algoritma, naime, da bi se izraunala korekcija koeficijenata zadate grane potrebne su samo veliine (signali) na oba kraja ove grane. Ova razmatranja se lako mogu proiriti na perceptron sa proizvoljnim brojem slojeva, sukcesivnom primenom pravilom ulanavanja za diferenciranje. U optem sluaju, za proizvoljan broj slojeva, pravilo korekcije teina u algoritmu propagacije greke unazad ima formu wij = i x j = output i xinput j , gde se output-i i input-j odnose na dva kraja konekcije neurona j ka neuronu i. Sumarno, algoritam propagacije greke unazad se moe opisati kroz sledee korake. Neka vieslojni perceptron ima Q slojeva, q=1,2,...,Q i neka je q net i - net ulaz za i-ti neuron u q-tom sloju
q

y i - izlaz neurona i u q-tom sloju.

Neka postoji m ulaznih i n izlaznih vorova. Neka q wij oznaava teinu veze izmedju
q 1

ULAZ: Skup parova {(x ( k ) , d ( k ) ) , k = 1,2,..., p} E max (maksimalna prihvatljiva KORAK 0: (Inicijalizacija) Izabrati > 0 i greka).Inicijalizovati sve sinaptike teine malim sluajnim vrednostima. E=0, k=1. KORAK 1. Primeniri k-ti obuavajui vektor na ulaz (q=1): q y i =1y i = xi( k ) , za sve i. KORAK 2. (Propagacija unapred). Propagirati signal unapred do izlaza po formuli q y i = a ( q net i ) = a q wij q 1 y j i, q j Q sve dok se ne dobije izlaz y i . KORAK 3: (Raunanje izlazne greke Q i )

y j i q yi .

19

1 n E = (d i( k ) Q y i ) + E , 2 i =1 Q y i = (d i( k ) Q y i ) a ( Q net i ) . KORAK 4: (Propagacija greke unazad). Propagacija greke unazad u cilju korigovanja teina i sraunavanja greke q 1 i za prethodni sloj:
q wij = q iq 1 y j
q 1

new olld wij = q wij + q wij ,

i = a ( q 1 net i ) q w ji q j
j

, za q = Q, Q 1,...,2.

KORAK 5. Provera da li su svi uzorci iz obuavajueg skupa jednom proli proceduru. Ako je k<p, tada je k=k+1 i prelazi se na korak 1. U suprotnom prelazi se na korak 6. KORAK 6. (Provera ukupne greke). Da li je ukupna akumulirana greka prihvatljiva? Ako je E < E max , prekida se proces obuke, u suprotnom E=0, k=1, prei na korak 1. END algoritam propagacije greke unazad. Ova varijanta algoritma propagacije greke unazad je tzv. inkrementalna, tj. teine se koriguju nakon predstavljanja svakog uzorka iz obuavajueg skupa. Alternativni pristup je tzv. blokovski (batch mod training) algoritam, po kome se teine menjaju nakon to su svi uzorci u obuavajuem skupu prezentovani.

9.4 PROBLEM KONVERGENCIJE


Povrina na kojoj se trai ekstremum (error surface povrina greke) nije deterministika. Algoritam ustvari pripada klasi algoritama stohastike aproksimacije. Za povrinu greke se znaju tri bazina svojstva: veliki broj lokalnih minimuma, budui da postoji veliki broj kombinatornih permutacija teina koje daju isti izlaz mree. postojanje lokalnih minimuma iznad nivoa globalnog minimuma postojanje viestrukih platoa sa malim nagibima. Ovo je direktna posledica zasienja aktivacionih funkcija u domenu velikih signala, kada su izlazi neosetljivi na male promene teina. Postojanje ovakvih delova povrine greke prouzrokuje sporu konvergenciju algoritma propagacije greke unazad.

9.5 FAKTORI KOJI UTIU NA OBUAVANJE ALGORITMA PROPAGACIJE GREKE UNAZAD

20

9.5.1.Inicijalizacija teina
Poetne vrednosti izuzetno utiu na krajnji rezultat obuavanja. Tipina inicijalizacija je malim sluajnim vrednostima. Velike vrednosti vode u zasienje i zaglavljivanje u lokalnim ekstremumima bliskim startnoj poziciji. Praktina preporuka za inicijalizaciju je 3 3 izbor poetnih teina u opsegu , , gde je k i broj ulaznih konekcija u neuron ki ki i. 9.5.2.Koeficijent obuavanja. (learning constant) Velike vrednost za mogu da ubrzaju konvergenciju, ali i da dovedu do premaaja cilja, dok isuvie male vrednosti imaju suprotan efekat. Dosadanja praksa pokazuje da se moe kretati, zavisno od konkretnog problema u opsegu od 0.001 do 10. Dobra strategija je adaptivna promena za , npr. po sledeem zakonu
a , E < 0 , konzistent no = b , E > 0 0 , u osta lim slu luaje a

, a,b>0

Konzistentno, moe da ima znaenje ili npr. K uzastopnih koraka ili teinsko pokretno usrednjavanje E .

9.5.3.Funkcija cilja
Kvadratna funkcija nije jedini mogui izbor. promenom ove funkcije menja se samo signal greke 0i u izlaznom sloju, dok ostale jednaine ostaju nepromenjene. Mogui izbori funkcije greke su L p norma 1 (d i yi ) p p i ebievljeva norma L = sup d i y i .
E=
i

, 1 p < ,

9.5.4.Momentum.
Jedan od naina da se konstanta obuavanja povea, a da ne dodje do divergentnog oscilovanja je dodavanje tzv. momentum lana. Momentum je u stvari dodatni inercijalni lan koji omoguava odvijanje procesa obuavanja u pravcu srednje sile na dole. Ovo se moe ostvariti ukljuivanjem prethodnih promena teina u trenutnu promenu, npr. na sledei nain
w(t ) = E (t ) + w(t 1) , , [0,1] ,

21

gde je momentum parametar (uobiajena praktina vrednost je 0.9). Na sl.9.2. prikazana je analiza uticaja momentuma na proces korekcije teina neuronske mree u toku obuavanja. Elipse prikazuju izohipse hipotetike povrine greke (error surface) kvadratnog tia. Primer AA ilustruje sluaj dobrog usmerenja vektora korekcije teina. Korekcija momentumom u ovom sluaju poboljava usmerenje korekcije teina. Priner BB ilustruje sluaj pogreno usmerenog vektora korekcije teina (prebaaj). Korekcija momentumom preusmerava ovaj vektor u dobrom pravcu. Ovi primeri pokazuju da momentup tipino ubrzava konvergenciju.

trajektorija bez momentuma trajektoraija sa momentumom

w(t )

A w(t )
A

B
w(t )

E (t + 1) E (t + 1) + w(t )

E (t + 1) E (t + 1) + w(t )

B
w(t )

Sl.9.2. Uticaj momentuma na konvergenciju teina u toku obuavanja

9.5.5.Pravila korekcije.
Do sada analizirano pravilo gradijentnog spusta. Dobro efikasnijih tehnika. Prvo kriterijumske funkcije. Ako korekcije teina se zasnivalo na najjednostavnijem postupku razvijena teorija optimizacije nudi niz daleko razvijenijih i poboljanje se moe uiniti ukljuivanjm viih redova E (w) razvijemo u tajlorov red dobijamo 1 T E ( w) = E ( w0 ) + ( w w0 ) T E ( w0 ) + ( w w0 ) T H ( w)( w w0 ) + L 2
2

gde je 2E H ( w) = E ( w) , H ij = . wi w j Da bi smo nali minimum od E(w), stavljamo E ( w) = 0 , odnosno

22

E ( w) = E ( w0 ) + H ( w0 )( w w0 ) + L = 0 . Ako zanemarimo lanove reda veeg od dva u gornjem razvoju, dobijamo w = w0 H 1 ( w)E ( w0 ) , ili u iterativnoj proceduri w ( k +1) = w ( k ) H 1 ( w ( k ) )E ( w ( k ) ) , to je poznat Njutnov metod korekcije teina, za koga se dokazuje da u sluaju konveksnih kriterijumskih funkcija E, konvergira kvadratno ka reenju. Medjutim i dalje procedura ima niz nedostataka: raunarska kompleksnost zahteva dobro poetno pogadjanje za ne konveksne kriterijumske funkcije moe da konvergira ka lokalnom ekstremumu i sedlastim takama. Raunarski relaksirana metoda pogodna za implementaciju je npr. kvazi Njutnova metoda ili algoritam konjugovanih pravaca.

9.5.6.Obuavajui skup i generalizacija.


Algoritam propagacije greke umazad ima dobra svojstva generalizacije. Neuronska mrea dobro generalizuje ukoliko daje dobre interpolacije za nove ulaze, koji nisu bili prisutni u postupku obuavanja. Neuronska mrea sa isuvie slobodnih parametara za zadati obuavajui skup moe biti dobro obuena, sa velikom verovatnoom loe generalizacije. Ovaj fenomen se naziva overfitting. Ukoliko medjutim mrea ima isuvie malo slobodnih parametara, nije u stanju da se obui na obuavajuem skupu, a samim tim ima loe performanse i na test skupu ( skup za testiranje obuhvata primere koji ne pripadaju obuavajuem skupu). Budui da generalizacija predstavlja vano svojstvo, razvijeno je vie procedura za njeno poboljanje.
a.Smanjivanje osetljivosti mree. Da bi neuronska mrea posedovala dobra svojstva generalizacije, potrebno je da male promene ulaznih signala ne izazivaju velike promene na izlazu neuronske mree. Jedan od moguih naina za poboljanje generalizacije direktnom primenom ovog principa je proirivanje obuavajueg skupa varijacijama ulaznih signala, recimo dodavanjem uma niskog nivoa oko svakog elementa obuavajueg skupa. Formalno, obuavajui skup

{ (xi , di ) }

se zamenjuje sa

{ (x + ) , d }, j = 1,Km,
i j i

i = 1,K, p.

Druga mogunost postizanja slinog efekta smanjivanja osetljivosti mree u odnosu na ulazne signale je dodavanje novog lana standardnoj kriterijumskoj funkciji oblika 2 2 2 E f 1 E f E f + +L+ Eb = x , 2 x1 x2 n gde je E f funkcional greke u standardnom algoritmu obuavanja. Razlog za ukljuivanje Eb je da njegova minimizacija u stvari znai, prema gornjoj definiciji, malu osetljivost E f na varijacije ulaza, to je i bio cilj. 23

b.Regularizacija. Ovaj metod se svodi na proirivanje kriterijumske funkcije tzv. regularizacionim lanom ~ E = E + gde je E standardni kriterijum, je parametar kojim se kontrolie uticaj dodatnog lana , koji je u direktnoj vezi sa kompleksnou neuronske mree. Na taj nain, ~ minimizacijom ukupnog kriterijuma E postie se uslovna ekstremizacija standardnog kriterijuma E uz uslov minimalne kompleksnosti neuronske mree, koja je osnovni uzrok overfittinga. Najee korien oblik regularizacionog lana je 1 = wi2 , 2 i poznat pod nazivom weight decay smanjivanje teina, pri emu se suma odnosi na sve teine i bajase u mrei. Praksa pokazuje da se na ovaj nain postie znaajno poboljanje generalizacije. Mogue heuristiko objanjenje ovog efekta se svodi na sledee rezonovanje. Ukoliko su teine mree velike, aktivacije neurona su u predelu zasienja, dakle nelinearnih oblasti koje upravo prouzrokuju kompleksna preslikavanja mree, i obrnuto, za male vrednosti teina aktivacije su u predelu linearnosti aktivacionih funkcija i kompleksnost mree je mala, ime se smanjuje verovatnoa overfitinga za fiksiranu duinu obuavajueg skupa. c.Rano zaustavljanje (early stopping).

Tokom tipine procedure obuavanja greka obuavanja (vrednost kriterijumske funkcije) po pravilu opada sa brojem iteracija obuavanja. Medjutim greka merena na skupu podataka nezavisnih od obuavajueg skupa (test ili validacioni skup) po pravilu opada do jedne odredjene vrednosti iteracia, a zatim poinje da raste. Ovaj rast je vezan za pojavu overfittinga, pa je stoga celishodno proceduru obuavanja zaustaviti u toj taki, iako kriterijumska funkcija na obuavajuem skupu i dalje opada. Otuda naziv ove metode rano zaustavljanje.

24

Greke obuke i validacije


1.6 1.4 1.2 1 0.8

Greka validacije

Trenutak obucavanja
Minimalna greka validacije

Greka obuke
0.6 0.4 0.2

Broj iteracija obuavanja

10

12

14

16

18

Sl.9.3. Tipini oblik zavisnosti greke obuavanja i validacije

d. Kresanje (Prunning)

Budui da je generalizacija vezana za adekvatan odnos izmedju broja slobodnih parametara (bogatstvo arhitekture) i sloenosti modelovane pojave (struktura i duina obuavajueg skupa), ideja kresanja se temelji na principu ostvarivanja to boljih performansi sa to siromanijom arhitekturom. Operativno se ovo moe postii sledeom klasom procedura:
korak.1. Izabrati poetnu bogatu arhitekturu neuronske mree. Obuiti zatim. neuronsku mreu na obuavajuem skupu i testirati na validacionom skupu. Neka su vrednosti ovih kriterijuma Eobuka i Evalid . korak.2. Saobrazno nekom od unapred usvojenih kriterijuma znaajnosti parametra, izraunati znaajnost svih parametara obuene neuronske mree i sortirati ih po rastuim vrednostima, tako da se na prvom mestu nalazi najneznaajniji parametar. korak.3. Izbaciti granu lil bajas koji odgovara najneznaajnijem parametru. Na ovaj nain smo smanjili sloenost arhitekture i broj slobodnih parametara

25

korak.4. Za novu arhitekturu izvriti novu sluajnu inicijalizaciju mree i novo obuavanje. Izraunati ponovo Evalid . Ako je Evalid Evalid , staviti da je Evalid = Evalid i prei na korak 2., u suprotnom zaustaviti proceduru.

Nakon zavretka rada ovog algoritma, posedovaemo neuronsku mreu najsiromanije arhitekture i minimalne vrednosti kriterijumske funkcije na validacionom skupu, to i jeste bio cilj. Postavlja se pitanje izbora kriterijuma znaajnosti. Jedan od ee korienih je tzv. kriterijum oteenja mozga (brain demage), po kome je znaajniji onaj parametar za koga je vezana vea promena kriterijumske funkcije nakon njegovog uklanjanja. Pored ovog kriterijuma i njegovih razliitih varijanti, razvijeni su i drugi, vezani prevashodno za razliite statistike testove znaajnosti nelinearnih parametarskih modela.

U nardnoj seriji slika dat je primer izbora arhitekture sa dobrim generalizacionim svojstvima, u problemu predvidjanja broja sunevih pega.

26

27

28

9.5.7.Broj skrivenih neurona


Pitanje broja neurona u skrivenom sloju je fundamentalno pitanje koje se nezaobilazno javlja gotovo u svakoj primeni vieslojnog perceptrona. Egzaktnu analizu je teko sprovesti, budui da je preslikavanje koje ostvaruje vieslojni perceptron veoma komleksno, kao i usled stohastike prirode veine algoritama obuavanja. Praktine preporuke se svode na princip: probaj sa poetnim brojem neurona u skrivenom sloju znatno manjim od dimenzije ulaznog sloja. Ako je obuavanje zadovoljavajue, pokuati sa daljnjim smanjivanjem, u suprotnom, inkrementalno poveavati njihov broj. postoje i odredjene analitiki zasnovane analize o ovom broju. Ekvivalentrirajmo pitanje odgovarajueg broja neurona u sk rivenom sloju sa pitanjem koliko je tih neurona potrebno da bi se u m dimenzionom ulaznom prostoru formiralo M disjunktnih oblasti na kojima mrea ima konstantne izlaze, razdeljene medjusobno hiperravnima. Ako taj broj obeleimo sa N m , tada je u vanosti N N N m + 1 M m , gde je m = 0 , za N m < j . j j =0 j Maksimalan broj linearno separabilnih oblasti upotrebom N m skrivenih neurona u mdimenzionom prostoru, M max je dat sa
m

N ( N 1)L( N m j + 1) N N ( N 1) M max = m = 1 + N m + m m +L+ m m , za N m > m. j 2! m! j =0


m

U sluaju N m m , vai M max = 2 N m , odnosno N m = log 2 M max . Podsetimo se da je broj disjunktnih particija u izlazno prostoru neuronske mree u direktnoj vezi sa maksimalnim brojem koncepata (klasa) koje ta mrea moe da prepozna.

10.Literatura
[1] C.M. Bishop, Neural Networks for Pattern Recognition, Oxford university press, 2000. [2] C.T. Lin, C.S.George Lee, Neural Fuzzy Systems, Prentice Hall, 1996.

29

You might also like