You are on page 1of 163

SVEUILITE U ZAGREBU

Fakultet elektrotehnike i raunarstva


Zavod za automatiku i raunalno
inenjerstvo

SVEUILITE U ZAGREBU
F A K U L T E T
E L E K T R OT E H N I K E
I RAUNARSTVA

Prof. dr. sc. Ivan PETROVI


Prof. dr. sc. Nedjeljko PERI

INTELIGENTNO UPRAVLJANJE SUSTAVIMA


2. dio: NEURONSKO UPRAVLJANJE
3. dio: GENETIKI ALGORITMI

Zagreb, ak. god. 2007./2008.

2. Osnove neuronskih mrea

2. OSNOVE NEURONSKIH MREA


Istraivanja i razvoj umjetnih neuronskih mrea motivirana su spoznajama o grai i nainu
funkcioniranja ljudskog mozga te njegovim nevjerojatno velikim sposobnostima u rjeavanju
sloenih problema. Dva su osnovna cilja tih istraivanja: prvi je razvoj novih struktura umjetnih
neuronskih mrea koje bi funkcionirale na analogan nain kao to funkcionira ljudski mozak i koje
bi mogle oponaati barem neke njegove funkcije, a drugi je njihova primjena u rjeavanju
praktinih problema.
Razvijeno je mnotvo razliitih struktura neuronskih mrea koje se u osnovi mogu podijeliti
na statike i dinamike neuronske mree. U ovom se radu istrauje primjena statikih neuronskih
mrea u identifikaciji nelinearnih dinamikih procesa. Sa stajalita primjene u identifikaciji procesa
njihovo je najvanije svojstvo sposobnost aproksimacije proizvoljnih kontinuiranih funkcija.
U nastavku se, u potpoglavlju 2.1, daje kratki pregled razvoja neuronskih mrea te osnovne
strukture najee koritenih mrea s glavnim svojstvima, a zatim se, u potpoglavlju 2.2, opisuju
dvije najvanije strukture statikih neuronskih mrea, njihova aproksimacijska svojstva te
mogunosti primjene u identifikaciji nelinearnih dinamikih procesa.

2.1. Osnove neuronskih mrea


U ovom se potpoglavlju daje kratki pregled razvoja i sadanjeg stanja na podruju umjetnih
neuronskih mrea. Prvo se opisuje osnovni princip rada bilokih neuronskih sustava, a zatim se
kratkim povijesnim pregledom razvoja umjetnih neuronskih mrea prikazuje utjecaj biolokih na
umjetne neuronske sustave. Prikazuju se, nadalje, osnovni modeli umjetnih neurona i najvanije
strukture neuronskih mrea.

2.1.1. Bioloka osnova razvoja neuronskih mrea


Ljudski je mozak previe sloen da bi se postojeim metodama neurofiziologije mogao
potpuno opisati i razumjeti nain njegova djelovanja. Ipak, dosta je njegovih funkcionalnih
aktivnosti ve objanjeno. Sastoji se od oko 1011 osnovnih ivanih stanica (neurona) organiziranih
u module (slojeve, engl. layers) i meusobno povezanih u sloenu mreu s nekih 1015 meusobnih
veza. Zbog tako velikoga broja veza meu neuronima jo nema pravih spoznaja o broju modula i
nainu na koji su oni organizirani. Ovako gusto povezana mrea neurona osigurava izuzetno veliku
raunsku i memorijsku mo ljudskoga mozga. Sve ovjekove aktivnosti i njegovo ponaanje
uvjetovane su procesima koji se zbivaju unutar ove mone bioloke neuronske mree (Kosko,
1992).

2. Osnove neuronskih mrea

Bioloki neuron, kao osnovna gradivna jedinica ove bioloke neuronske mree, prima i
obrauje informacije od drugih neurona i/ili od osjetilnih organa. Sa stajalita obradbe signala, bez
ulaenja u opisivanje elektrokemijskih procesa koji se dogaaju pri prijenosu i obradbi signala,
bioloki se neuron moe pojednostavljeno prikazati kao stanica sastavljena od tijela (soma),
mnotva dendrita i aksona (Sl. 2.1.). Akson se moe zamisliti kao tanka cjevica iji je jedan kraj
povezan na tijelo neurona, a drugi je razdijeljen na mnotvo grana. Krajevi ovih grana zavravaju
malim zadebljanjima koja najee dodiruju dendrite, a rjee tijelo drugoga neurona. Mali razmak
izmeu zavretka aksona prethodnoga neurona i dendrita sljedeega neurona naziva se sinapsa.
Akson jednoga neurona formira sinaptike veze s mnotvom drugih neurona. Impulsi, koji se
generiraju u tijelu neurona, putuju kroz akson do sinapsi. Ovisno o uinkovitosti svakoga
pojedinanoga sinaptikoga prijenosa, signali razliita intenziteta dolaze do dendrita. Uinkovitost
sinaptikoga prijenosa kroz neku sinapsu ovisi o njezinome elektrokemijskom stanju, koje je
rezultat prethodnih sinaptikih prijenosa kroz nju. Sinapse, dakle, predstavljaju memorijske lanove
bioloke neuronske mree. Signali se od sinapsi dendritima proslijeuju do tijela neurona, gdje se
prikupljaju i obrauju. Ovi signali mogu za tijelo neurona biti pobuujui (engl. excitatory) ili
smirujui (engl. inhibitory). Matematiki gledano, pobuujui i smirujui signali imaju suprotan
predznak. Ako je njihova kumulativna vrijednost tijekom kratkog vremenskog intervala vea od
praga osjetljivosti neurona (engl. treshold value), tijelo neurona generira impulse (tzv. aktivacijske
potencijale) koji se alju du aksona prema drugim neuronima, a ako je manja, neuron ostaje
nepobuen i ne generira impulse.

Signali od drugih
neurona ili od osjetila

soma
dendriti

akson
izlazi prema
drugim neuronima
smjer toka
signala

sinapsa

Sl. 2.1. Shematski prikaz biolokoga neurona.

Na osnovi ovoga opisa funkcioniranja biolokoga neurona moe se zakljuiti da se obradba signala
u njemu odvija kroz dvije odvojene operacije:
sinaptika operacija: daje odreeni znaaj (teinu) svakom ulaznom signalu u neuron;
somatska operacija: prikuplja sve oteane ulazne signale, te ako je njihova kumulativna
vrijednost vea od praga osjetljivosti neurona, generira impulse koje alje prema drugim
neuronima.

2. Osnove neuronskih mrea

2.1.2. Povijesni pregled razvoja umjetnih neuronskih mrea


Istraivanja iz podruja umjetnih neuronskih mrea nisu nova, ali su tek zadnjih desetak
godina postala intenzivna. Prve radove o umjetnim neuronskim mreama objavili su McCulloh i
Pitts (1943 i 1947). Oni su koristili vrlo jednostavan model neurona koji, kao i bioloki neuron,
obrauje signale kroz sinaptiku i somatsku operaciju (Sl. 2.2.). Ovaj vrlo jednostavan model
neurona nazvan je perceptron. Sinaptika je operacija predstavljena mnoenjem svakog ulaznog
signala xi s teinskim koeficijentom wi. Tako se oteani ulazni signali zbrajaju i njihov se zbroj
usporeuje s pragom osjetljivosti neurona wn+1 (engl. treshold). Ako je zbroj oteanih signala vei
od praga osjetljivosti neurona, nelinearna aktivacijska funkcija generira izlazni signal neurona y
iznosa jedan, a ako je manji, izlaz neurona je nula.
McCulloh i Pitts su smatrali da je povezivanjem velikog broja perceptrona mogue modelirati
ljudski mozak. Meutim, iako po svojoj organizaciji podsjea na bioloki neuron, perceptron je
prejednostavan, pa stoga ima ograniene sposobnosti predstavljanja. Rosenblatt (1962) je dokazao
znaajan teorem o uenju perceptrona:
Dendriti
Sinapse
x1(t)

prag
osjetljivosti

w1

ulazni x2(t)
signali

w2

xn(t)

wn

wn+1
+

v(t)

Nelinearna
aktivacijska
funkcija

prikupljanje
signala

Sinaptika
operacija

y(t)

prema
drugim
neuronima

Izlaz neurona
(akson)

Somatska
operacija

Sl. 2.2. Shematski prikaz perceptrona.


perceptron moe nauiti sve to moe predstaviti. Pri tome je predstavljanje sposobnost
aproksimiranja odreene funkcije, a uenje postupak koji sustavnim podeavanjem parametara
mree postie da ona postane zadovoljavajua aproksimacija te funkcije. Rosenblat (1959) je
primijenio Hebbianov algoritam za podeavanje sinaptikih teinskih koeficijenata perceptrona. To
je bila prva umjetna neuronska mrea koja je imala sposobnost uenja. Widrow i Hoff (1960) su
modificirali perceptron tako da su umjesto diskontinuirane primijenili kontinuiranu linearnu
aktivacijsku funkciju. Za podeavanje sinaptikih teinskih koeficijenata primijenili su algoritam
najmanjih kvadrata. Ovaj je model nazvan ADALINE (engl. ADAptive LInear NEuron). Sve je ovo
dovelo do euforinoga istraivanja na ovome podruju. Meutim, uslijedilo je razoaranje kada je
uoena nesposobnost perceptrona pri rjeavanju jednostavnih zadataka, kao to je, primjerice,
realizacija funkcije iskljuivo ili. Minsky i Papert (1969) su u svojoj knjizi Perceptrons dokazali da

2. Osnove neuronskih mrea

postoje ozbiljna ogranienja sposobnosti predstavljanja jednoslojnih perceptronskih neuronskih


mrea te sugerirali da bi istraivanje vieslojnih neuronskih mrea bilo beskorisno jer je nemogue
rijeiti problem podeavanja sinaptikih koeficijenata unutarnjih slojeva mree. Njihovi
obeshrabrujui rezultati doveli su do stagnacije istraivakih napora na podruju razvoja umjetnih
neuronskih mrea.
Zastoj u napretku potrajao je sve do 1986. godine kada je PDP (Parallel Distributed
Processing) grupa autora objavila niz poticajnih rezultata i algoritama o umjetnim neuronskim
mreama (McClelland i Rumelhart, 1986), meu kojima je najvaniji algoritam povratnog
prostiranja izlazne pogreke (engl. backpropagation algorithm - BP). Ovaj je algoritam rijeio
problem uenja vieslojnih neuronskih mrea. Kasnije se pokazalo da je algoritam primijenjen i u
nekim ranijim radovima (Werbos, 1974). Ovakva podudarnost u istraivakim naporima posljedica
je interdisciplinarnosti umjetnih neuronskih mrea.
Nakon proboja barijere to ga je napravio BP algoritam iroka je znanstvena zajednica
usmjerila istraivake aktivnosti u prouavanje i razvoj neuronskih mrea. Paralelno s istraivanjem
neuronskih mrea istrauju se i mogunosti njihove primjene u rjeavanju praktinih problema kao i
tehnologije njihove implementacije.
Glavnina istraivakih aktivnosti na podruju neuronskih mrea moe se svrstati u neko od
sljedeih potpodruja istraivanja4) :
razvoj modela umjetnih neurona koji dobro opisuju funkcioniranje biolokih neurona;
razvoj struktura neuronskih mrea i modela sinaptikih veza;
razvoj algoritama uenja, tj. postupaka podeavanja parametara mree;
razvoj tehnologija implementacije;
razvoj sustava zasnovanih na primjeni neuronskih mrea.
U nastavku se ukratko opisuju najvaniji rezultati iz svakog od ovih podruja istraivanja
neuronskih mrea.

2.1.3. Osnovni modeli umjetnih neurona


Opis biolokoga neurona u toki 2.1.1 samo naelno prikazuje nain njegova funkcioniranja.
U stvarnosti je funkcioniranje biolokoga neurona znatno sloenije. K tomu, do danas su
neurofiziolozi otkrili stotinjak razliitih vrsta biolokih neurona u ljudskome mozgu, tako da je
izradba modela koji vjerno opisuju njihove sloene karakteristike vrlo sloen zadatak. S druge
strane, sa stajalita primjene neuronskih mrea uglavnom i nije potrebno koristiti sloene modele
neurona. Stoga, veina dosad razvijenih modela umjetnih neurona samo svojom strukturom
podsjea na bioloke neurone, bez pretenzija da budu njihovi stvarni modeli.
4)

Ova potpodruja istraivanja neuronskih mrea ni u kojem sluaju nisu meusobno neovisna.

2. Osnove neuronskih mrea

Unato velikome broju razliitih modela neurona, mogue ih je svrstati u dvije osnovne
skupine: statike i dinamike modele neurona.

Statiki modeli neurona


McCulloh-Pittsov umjetni neuron (perceptron) ima skromne mogunosti predstavljanja (vidi
toku 2.1.2.), to je u najveoj mjeri posljedica diskontinuiteta aktivacijske funkcije. Osim toga,
zbog diskontinuiteta aktivacijske funkcije oteano je uenje mree, jer veina algoritama uenja za
podeavanje teinskih koeficijenata unutarnjih slojeva mree zahtijeva izraunavanje derivacije
aktivacijskih funkcija. Ova se ogranienja perceptrona mogu prevladati primjenom kontinuirane,
derivabilne aktivacijske funkcije. Iako mnoge funkcije zadovoljavaju ovaj uvjet, kao aktivacijske se
funkcije najee koriste funkcije koje pripadaju klasi sigmoidalnih funkcija5) , jer je dokazano da
neuronske mree izgraene od najmanje tri sloja neurona sa sigmoidalnim aktivacijskim funkcijama
mogu predstaviti (aproksimirati) proizvoljnu kontinuiranu funkciju (vidi toku 2.2.3.). Prema tome,
umjetni neuron sa sigmoidalnom aktivacijskom funkcijom, iako jednostavan, predstavlja vrlo
korisnu aproksimaciju biolokoga neurona.
Opisani model neurona ne sadri dinamike lanove pa njegov izlaz ovisi iskljuivo o
trenutnim vrijednostima ulaznih signala i teinskim koeficijentima. Stoga se ovaj neuron u literaturi
najee naziva statikim neuronom. Meutim, s obzirom da postoje i drugi modeli neurona koji ne
sadre dinamike lanove, a opisani neuron predstavlja poopenje McCulloh-Pittsova perceptrona,
esto ga se naziva i perceptronom. Veliki je broj neuronskih mrea izgraen od perceptrona
organiziranih u tri ili vie slojeva. Te se mree u ovome radu nazivaju vieslojnim perceptronskim
mreama (engl. MultiLayer Perceptron networks, u nastavku rada koristi se i kratica MLP mree),
iako se u literaturi esto nazivaju unaprijednim neuronskim mreama (engl. Feedforward Neural
Networks - FNN), a ponekad i vieslojnim neuronskim mreama (engl. MultiLayer Neural
Networks - MLNN). Meutim, s obzirom da postoje unaprijedne, vieslojne neuronske mree
graene od drukijih modela neurona, naziv vieslojne perceptronske mree najpreciznije odreuje
ovu vrstu neuronskih mrea.
Matematiki se perceptron moe opisati sljedeim izrazima (Sl. 2.2.):
n

v( t ) = wi ( t ) xi ( t ) wn +1 ,

(2-1)

y( t ) = ( v ) ,

(2-2)

i =1

gdje je:
xu(t)= [x1(t), ... ,xn(t)] - vektor ulaznih signala neurona, pobudni vektor;
5)

Funkcija pripada klasi sigmoidalnih funkcija ako ispunjava sljedee uvjete: a) monotono je rastua funkcija od v(t) u
intervalu (-,), b) asimptotski se pribliava donjoj graninoj vrijednosti kako v(t) tei -, odnosno gornjoj kako
v(t) tei i c) ima samo jednu toku infleksije.

2. Osnove neuronskih mrea

ws(t)=[w1(t), ... ,wn(t)] - vektor sinaptikih teinskih koeficijenata;

wn+1

- prag osjetljivosti neurona;

v(t)

- izlaz operacije konfluencije - mjera slinosti ulaznih signala sa


sinaptikim teinskim koeficijentima;

(v)

- nelinearna aktivacijska funkcija;

y(t)

- izlaz neurona.

Ako se vektor ulaza proiri lanom xn+1=1, mogue je izraz (2-1) napisati na sljedei nain:
n +1

v( t ) = wi ( t ) xi ( t ) = wT ( t )x( t ) ,

(2-3)

i =1

gdje je:

x(t)= [x1(t), ... ,xn(t),xn+1]

- proireni vektor ulaznih signala neurona;

w(t)=[w1(t), ... ,wn(t),wn+1]

- vektor teinskih koeficijenata neurona - vektor sinaptikih


teinskih koeficijenata proiren pragom osjetljivosti

neurona.
Izraz (2-3) opisuje sinaptiku operaciju i prve dvije somatske operacije (prikupljanje oteanih
ulaznih signala i usporedbu njihova zbroja s pragom osjetljivosti). Ove tri operacije zajedno ine
tzv. operaciju konfluencije (lat. confluere -stjecati se, skupiti se), a izraz (2-2) opisuje nelinearnu
aktivacijsku funkciju. Dakle, s matematikoga se stajalita umjetni neuron dijeli na operaciju
konfluencije i nelinearnu aktivacijsku funkciju.

Operacija konfluencije
S biolokoga je stajalita operacija konfluencije pridjeljivanje teine ulaznim signalima x(t) u
ovisnosti o akumuliranom znanju u sinapsama w(t) i prostorno-vremensko prikupljanje oteanih
signala. S matematikoga je stajalita operacija konfluencije (2-3) skalarni umnoak vektora x(t) i

w(t), pa se moe promatrati kao linearno, teinsko preslikavanje iz (n+1)-dimenzinalnog ulaznog


prostora neurona x(t)n+1 u jednodimenzionalni prostor v(t)1. Skalarni izlaz operacije
konfluencije v(t) predstavlja mjeru slinosti izmeu proirenog ulaznog vektora x(t) i vektora
teinskih koeficijenata w(t). Grafiki se skalarni umnoak (2-3) moe prikazati kao projekcija
ulaznog vektora x(t) na vektor teinskih koeficijenata w(t), (Sl. 2.3.).

2. Osnove neuronskih mrea

7
x(t) - nove vrijednosti
ulaznih signala

w(t) - memorirano znanje


u sinapsama

v(t) - mjera slinosti izmeu novih


ulaznih signala i memoriranog
znanja u sinapsama

Sl. 2.3. Grafiki prikaz mjere slinosti izraene skalarnim umnokom.


Velika je veina neuronskih mrea izgraena od neurona sa skalarnim umnokom kao
operacijom konfluencije. Izuzetak su esto primjenjivane RBF neuronske mree (engl. Radial Basis
Function neural networks) kod kojih se umjesto skalarnog umnoka izraunava Euklidska
udaljenost izmeu vektora x(t) i w(t):
v( t ) = x( t ) w( t ) =

b g b g wb t g x b t g .

x t w t

(2-4)

Grafiki prikaz mjere slinosti izraene preko Euklidske udaljenosti dan je na slici 2.4.
x(t) - nove vrijednosti ulaznih signala
v(t) - mjera slinosti izmeu x(t) i w(t)

w(t) - memorirano znanje u sinapsama

Sl. 2.4. Grafiki prikaz mjere slinosti izraene Euklidskom udaljenosti.


U zadnjih se petnaestak godina paralelno odvijaju vrlo intenzivne istraivake aktivnosti iz
podruja neizrazite logike (engl. fuzzy logic) i iz podruja neuronskih mrea. Dok neuronske mree
aproksimiraju grau i funkcioniranje ljudskoga mozga, neizrazita logika aproksimira procese
razmiljanja i zakljuivanja. Dosta znanstvenika istrauje naine integracije neizrazite logike i
neuronskih mrea. Razvijeni se modeli najee nazivaju neizrazite neuronske mree (engl. fuzzy
neural networks). Ukljuivanjem koncepta neizrazite logike u neuronske mree oekuje se daljnje
poboljanje njihovih sposobnosti u rjeavanju problema u nestrukturiranom i neodreenom
okruenju.
Osnovni je gradivni element neizrazitih neuronskih mrea neizraziti neuron. Graen je na
slian nain kao i perceptron, osim to odraava svoju neizrazitu prirodu i ima sposobnost obradbe
neizrazitih informacija. Temeljna je razlika izmeu neizrazitog neurona i perceptrona u operaciji
konfluencije. Kod neizrazitog je neurona operacija konfluencije dvodimenzionalna neizrazita
relacija izmeu sinaptikih teinskih koeficijenata i ulaza u neuron (Gupta i Qi, 1991). Primjerice,
ako se skalarni umnoak u izrazu (2-3) zamijeni neizrazitim relacijama mnoenja i zbrajanja, dobije
se neizrazita aritmetika operacija konfluencije:

2. Osnove neuronskih mrea

8
n +1

v( t ) = ( + ) wi () xi ,

(2-5)

i =1

gdje je:

(+)

- operator neizrazitog zbrajanja,

()

- operator neizrazitog mnoenja.

Izraz (2-5) predstavlja neizrazitu aritmetiku operaciju konfluencije. Alternativno je mogue


koristiti neizrazite logike operacije, kao to su OR, AND, NOT, ili njihove poopene verzije. Opis
neizrazitih operacija moe se nai u onlagi i koautori (1994).

Nelinearna aktivacijska funkcija


Nelinearna aktivacijska funkcija (v), izraz (2-2), preslikava izlaznu vrijednost
operacije konfluencije v(t) [-, ] u izlazni signal neurona y(t) ogranienoga iznosa. Iznos
izlaznoga signala neurona najee je ogranien u podruju [0, 1] za unipolarne signale i [-1, 1] za
bipolarne signale. Iako je veliki broj raznih funkcija koje omoguuju da neuronska mrea
aproksimira proizvoljnu kontinuiranu funkciju, neke su funkcije prihvaene kao standardne
aktivacijske funkcije. U tablici 2.1 prikazane su najee koritene aktivacijske funkcije
perceptrona: logsig i tansig funkcije. Aktivacijsko se pojaanje ga uobiajeno izabire jedininog
iznosa, ali se u nekim radovima predlae njegovo podeavanje (Corwin et al., 1994 ). U tablici 2.1
prikazana je i linearna aktivacijska funkcija (purelin), jer se ona esto koristi kod neurona u
izlaznome sloju mree.
U tablici 2.2 prikazane su funkcije s krunom osnovicom koje se najee koriste u ulaznom
sloju RBF neuronskih mrea (vidi potpoglavlje 2.2.2.). Ove se aktivacijske funkcije koriste zajedno
s operacijom konfluencije (3-4) koja mjeri Euklidsku udaljenost. U izlaznom sloju RBF neuronskih
mrea koriste se perceptroni s linearnom aktivacijskom funkcijom.
Aktivacijska funkcija neizrazitoga neurona moe biti neka sigmoidalna funkcija kao i kod
perceptrona, ali se najee koristi neka neizrazita relacija.

Dinamiki modeli neurona

Statiki neuroni ne uzimaju u obzir dinamika svojstva biolokih neurona, pa je prirodno


proiriti model neurona dinamikim lanovima. Razvijeno je vie dinamikih modela umjetnih
neurona, ali se veina njih moe dobiti pojednostavljenjem poopenoga dinamikoga modela
neurona prikazanoga na slici 2.5 (Gupta i Rao, 1994). Poopeni se dinamiki model neurona sastoji
od konfluencijske operacije (skalarni umnoak kao kod perceptrona), diskretnoga dinamikoga
lana drugoga reda, nelinearne aktivacijske funkcije promjenjiva nagiba te povratnoga signala s
izlaza neurona.

2. Osnove neuronskih mrea

Tablica 2.1. Najee koritene aktivacijske funkcije kod MLP neuronskih mrea.
Naziv funkcije

Izraz za funkciju i njezinu derivaciju

Grafiki prikaz funkcije i derivacije


1

Logsig

( v ) =

1
1 + e ga v

0.6
0.4
0.2
0
-10

e ga v
= ga ( 1 )
( 1 + e ga v )2

' ( v ) = ga

0.8

-8

-6

-4

-2

10

-8

-6

-4

-2

10

0.25

'

0.2
0.15
0.1
0.05
0
-10

Tansig

( v ) =

' ( v ) = ga

2
1
1 + e2 ga v

0.5
0
-0.5
-1
-10

4e 2 ga v
= ga ( 1 2 )
( 1 + e 2 ga v )2

-8

-6

-4

-2

10

-8

-6

-4

-2

10

-8

-6

-4

-2

10

-8

-6

-4

-2

10

'

0.8
0.6
0.4
0.2
0
-10

10

Linearna

( v ) = ga v

5
0
-5

(purelin)

-10
-10

' ( v ) = ga

'

1.5
1
0.5
0
-10

Napomena: ga > 0 - aktivacijsko pojaanje; U primjerima ga = 1.

a0
x1(k)

w1

x2(k)

w2

xn(k)

..
.
wn

a1

xn+1 =1 wn+1

v1(k) +

+ -

z-1

a2

v(k)

y(k)
ga

[]

b1
b2
c1

Konfluencijska
operacija

z-1

z-1

Neuronska dinamika

Nelinearna aktivacijska
funkcija promjenjivog nagiba

Sl. 2.5. Popoeni dinamiki model neurona.

2. Osnove neuronskih mrea

10

Tablica 2.2. Najee koritene aktivacijske funkcije kod RBF neuronskih mrea.
Naziv funkcije

Izraz za funkciju i njezinu derivaciju

Grafiki prikaz funkcije i derivacije


1

Gaussova
funkcija

( v ) = e

v2
2 2

0.8
0.6
0.4
0.2
0
-5

-4

-3

-2

-1

-4

-3

-2

-1

-4

-3

-2

-1

-4

-3

-2

-1

-8

-6

-4

-2

10

-8

-6

-4

-2

10

-8

-6

-4

-2

10

-8

-6

-4

-2

10

' ( v ) =

v2
2 2

'

0.5
0
-0.5
-1
-5

20

Thin-platespline
funkcija

( v ) = v ln( v )
2

15
10
5
0
-5
-5

' ( v ) = 2v ln( v ) + v

20

'

10
0
-10
-20
-5

12

Viekvadratina
funkcija

( v ) = ( v2 + 2 )

10
8
6
4
2
0
-10

' ( v ) =

(v +2 )
2

'

0.5
0
-0.5
-1
-10

Inverzna
viekvadratina
funkcija

( v ) =

1
(v + )
2

0.8
0.6
0.4
0.2
0
-10

0.4

' ( v ) =
Napomena:

'

v
(v + )
2

2 3/ 2

0.2
0
-0.2
-0.4
-10

v 0, > 0; U primjerima = 1.

Matematiki se poopeni dinamiki model neurona moe opisati sljedeim izrazima:


n +1

v1( k ) = wi ( k ) xi ( k ) ,

(2-6a)

i =1

v( k ) = a0 v1( k ) + a1v1( k 1 ) + a2 v1( k 2 ) + c1a0 y( k 1 ) +


+ c1a1 y( k 2 ) + c1a2 y( k 3 )
y ( k ) = ga v ( k ) ,

b1
b
v( k 1 ) 2 v( k 2 ),
a2
a2

(2-6b)
(2-6c)

2. Osnove neuronskih mrea

11

gdje je k indeks diskretnog vremena.


Pridruivanjem nepromjenljivih vrijednosti nekim od parametara poopenoga modela
dinamikoga neurona dobiju se modeli neurona sljedeih, vrlo esto koritenih neuronskih mrea
(Sl. 2.6.):
MLP mree:

a0=1, a1=a2=b1=b2=c1=0, ga=1;

povratne neuronske mree:

a0=1, a1=a2=b1=b2= 0, ga=1;

neuronske mree s vremenskim kanjenjem:

b1=b2=c1=0, ga=1;

dinamike neuronske mree:

c1=0.

2.1.4. Klasifikacija neuronskih mrea


Istraivanjima neuronskih mrea bavi se veliki broj znanstvenika iz raznih znanstvenih
disciplina. Rezultat je tih istraivakih aktivnosti veliki broj razliitih vrsta neuronskih mrea koje
se meusobno razlikuju i/ili po modelima umjetnih neurona od kojih su graene i/ili po nainu
organizacije neurona u mrei i/ili po primijenjenom algoritmu uenja. Zbog velikoga broja vrsta
neuronskih mrea teko ih je sustavno klasificirati. Ipak, u literaturi se moe nai vie pokuaja
klasifikacije mrea. U ovom je radu, na slici 2.6, prikazna klasifikacija koju su nainili Gupta i Rao
(1994).
Sa strukturnoga se stajalita neuronske mree standardno dijele na statike (unaprijedne, engl.
feedforward) i dinamike (povratne, engl. feedback), ovisno o modelu neurona od kojeg su graene
te o nainu prostiranja signala kroz mreu. Gupta i Rao kao zasebne strukture navode neizrazite
neuronske mree (engl. fuzzy neural networks) iako i one mogu biti statike ili dinamike. Razlog
izdvajanja neizrazitih neuronskih mrea izvan standardne podjele treba traiti u elji da se posebno
istakne smjer istraivanja koji se bavi integriranjem koncepata neizrazite logike i neuronskih mrea.
Kao nestandardne strukture navedene su neuronske mree kod kojih neuroni imaju histereznu
karakteristiku te CMAC (engl. Cerrebellar Model Articulation Controller) mree koje
aproksimaciju nelinearne funkcije obavljaju na naelu kodiranja.
Neuroni se u neuronskoj mrei najee organiziraju u slojeve, pa se razlikuju jednoslojne i
vieslojne neuronske mree. Mogua je podjela neuronskih mrea i po nainu prostiranja
sinaptikih veza: samo unaprijedno (statike neuronske mree), samo lateralno (Aditivne,
Hopfieldove i shuntirajue mree), topoloki odreeno (LVQ mree), unaprijedno/povratno (BAM i
ART mree) ili mjeovito (cellularne, time-dely i counterpropagation mree) prostiranje
sinaptikih veza.
Na slici 2.6. uz svaki je tip neuronske mree naznaeno podruje njezine najee primjene.
Tu su kategorizaciju Gupta i Rao nainili na osnovi analize broja referenci o primjeni tipova mrea
u svakome navedenom podruju primjene. Naravno da primjena nekog tipa mree nije ograniena
samo na naznaeno podruje primjene.

2. Osnove neuronskih mrea

12
UMJETNE NEURONSKE MREE

statike (unaprijedne)

jednoslojne vieslojne
[a , b]

dinamike (povratne)

jednoslojne

neizrazite nekonvencionalne

vieslojne

Connective
Fuzzy
model (T i S) ART
operatori
[a]
[a , c]

Perceptron Radial Basis


[a , b , c] Function (RBF)
[a , c , d]

unaprijedno /
povratne

mjeovite

pobuujui/ CMAC Neuron


smirujui
[a , c , d]
s
neuronski sustav
histerezom
[a , b]

celularne s vremenskim Counter


[a , d] kanjenjem Propagation
[a , c]
[a , b]

Dvosmjerna
adaptivna
dinamika
asocijativna
resonantna prvog reda
memorija (BAM) teorija (ART) [a , b]
[a , b]
[a , b]

topoloki
odreene

lateralno
povezane

dinamika
drugog reda
[c , d]

a: prepoznavanje i
klasifikacija uzoraka;

Learning Vector
aditivne Hopfield-Tank Shunting
Quantization (LVQ)
model
[a , b]
[a , b]
[a , b]
[a , b]

b: obrada slike i vizija;


c: identifikacija i upravljanje
procesima;
d: obradba signala.

Sl. 2.6. Klasifikacija umjetnih neuronskih mrea.

2. Osnove neuronskih mrea

13

Za primjenu u identifikaciji i upravljanju nelinearnim dinamikim procesima najee se


koriste vieslojne statike neuronske mree. Od dinamikih neuronskih mrea uglavnom se koriste
vieslojne neuronske mree s elementima za kanjenje (engl. Time Delay Neural Networks), kao to
su Elmanove i NARX neuronske mree. U novije se vrijeme pojavljuje sve vie radova koji
obrauju primjenu neizrazitih neuronskih mrea (s T i S operatorom) kao i CMAC neuronskih
mrea.
U ovome se radu detaljnije obrauju MLP i RBF statike neuronske mree (potpoglavlje
2.2.) te Hopfieldove, Elmanove i NARX dinamike neuronske mree (potpoglavlje 2.3.). Opis
ostalih vrsta neuronskih mrea sa slike 2.6 moe se nai u literaturi, primjerice Kosko (1992), Kung
(1993), Cichocki i Unbehauen (1993) te Gupta i Rao (1994).

2.1.5. Osnovna svojstva neuronskih mrea


Unato velikome broju vrsta, sve neuronske mree imaju neka zajednika svojstva koja
posjeduju bioloki sustavi, a koja se ne mogu nai kod konvencionalnih raunskih tehnika.
Nekoliko najvanijih svojstava neuronskih mrea su:
Paralelno raspodijeljena obradba informacija (engl. parallel distributed processing). Za razliku
od konvencionalnih raunskih tehnika, neuronske mree prihvaaju vie ulaza paralelno i
dobivene informacije obrauju na raspodijeljen nain (engl. distributed processing). Drugim
rijeima, informacija spremljena u neuronsku mreu raspodijeljena je na vie raunskih jedinica,
to je potpuno suprotno konvencionalnome spremanju informacija u memoriju gdje je svaka
posebna informacija (podatak) spremljena u svoj vlastiti memorijski prostor. Svojstvo
raspodijeljenoga spremanja informacija daje neuronskim mreama vie prednosti, od kojih je

najvanija redundantnost, to jest otpornost na kvar (Phatak i Koren, 1995). Redundantnost se


moe postii i kod klasinih raunskih tehnika, ali je kod neuronskih mrea ona inherentno
svojstvo, slino kao kod biolokih sustava. Prema tome, neuronska e mrea raditi ak ako se i
uniti neki njezin dio.
Uenje i adaptacija (engl. lerning and adaptive abilities). Svojstvo uenja i adaptacije ini
neuronske mree sposobnima obraivati neprecizne i loe uuvane podatke u nestrukturiranom i
neodreenom okruenju. Na odgovarajui nain nauena neuronska mrea ima svojstvo
poopavanja kada se na njezinome ulazu pojave podaci koji nisu bili u uzorku na osnovi kojeg je

mrea nauena.
Univerzalni aproksimator. Svojstvo neuronskih mrea da aproksimiraju proizvoljnu
kontinuiranu nelinearnu funkciju do eljene tonosti njihovo je najvanije svojstvo sa stajalita
modeliranja, identifikacije i upravljanja nelinernim procesima.
Vievarijabilni sustavi. Neuronske su mree po svojoj strukturi vievarijabilni sustavi to ih ini
lako primjenjivim za modeliranje, identifikacijiu i upravljanje vievarijabilnim procesima.

2. Osnove neuronskih mrea

14

Sklopovska implementacija. Vie je proizvoaa razvilo specijalizirane sklopove za


implementaciju neuronskih mrea koji omoguuju paralelnu raspodijeljenu obradbu u stvarnome
vremenu.

2.1.6. Uenje neuronskih mrea


Veina neuronskih mrea prikazanih na slici 2.6 zahtijeva uenje, to jest primjenu algoritama
koji podeavaju iznose sinaptikih teinskih koeficijenata. Ciljevi uenja mree ovise o njezinoj
primjeni, pa tako i izbor odgovarajueg algoritma uenja. Iako je razvijen veliki broj raznih
algoritama uenja neuronskih mrea, mogue ih je po nainu uenja mree podijeliti na algoritme
uenja temeljene na pogreci (engl. error-based learning algorithms), algoritme uenja temeljene na
izlazu mree (engl. output-based learning algorithms) i algoritme uenja s ojaanjem (engl.
reinforcement learning algorithms).
Algoritmi uenja temeljeni na pogreci esto se nazivaju i algoritmi s uiteljem (engl.
supervised algorithms) jer zahtijevaju vanjski referentni signal (uitelj - engl. teacher) s kojim
usporeuju dobiveni odziv neuronske mree generirajui signal pogreke. Na temelju signala

pogreke algoritam uenja mijenja sinaptike teinske koeficijente neuronske mree s ciljem
poboljanja njezina vladanja, to jest smanjenja pogreke. Shematski prikaz uenja neuronske mree
primjenom algoritama utemeljenih na pogreci prikazan je na slici 2.7.a). Prema tome, ovi se
algoritmi mogu primijeniti samo ako je unaprijed poznato eljeno vladanje neuronske mree, to jest
podaci na osnovi kojih se mrea ui moraju sadravati parove vrijednosti ulazno-izlaznih signala.
Algoritmi uenja temeljeni na izlazu mree nazivaju se i algoritmi bez uitelja (engl.
unsupervised algorithms) jer ne zahtijevaju vanjski referentni signal. Podaci na osnovi kojih mrea

ui sadre samo vrijednosti ulaznih signala u mreu. Shematski prikaz uenja neuronske mree
primjenom algoritama utemeljenih na izlaznom signalu prikazan je na slici 2.7.b).

Promjena teinskih
W( t )
koeficijenata
Ulazni x(t)
podaci

eljeni izlaz mree


(uitelj)
y(t)

Neuronska
mrea

ym(t)
- +
Izlaz iz
mree

Algoritam
uenja

Promjena teinskih
koeficijenata
Ulazni x(t)
podaci

Promjena teinskih
koeficijenata

W( t )

Neuronska
mrea

Signal
pogreke
e(t)

Izlaz iz
mree ym(t)

Ulazni x(t)
podaci

W( t )

Neuronska
mrea

Algoritam
uenja

Izlaz iz
mree ym(t)

Algoritam
uenja

r(t)
Signal
ojaanja

a)

b)

c)

Sl. 2.7. Shematski prikaz uenja neuronske mree primjenom algoritama temeljenih na pogreci a),
algoritama temeljenih na izlazu iz mree b) i algoritama s ojaanjem c).

2. Osnove neuronskih mrea

15

Algoritmi uenja s ojaanjem zasnivaju se na tzv. signalu ojaanja koji daje kvalitativnu
ocjenu vladanja neuronske mree. Primjenjuje se u sluajevima kada vanjski referentni signal koji
definira eljeno vladanje neuronske mree nije dostupan, ali je dostupan signal koji predstavlja
kritiku ocjenu njezinog vladanja u smislu dobro/loe.

Gotovo svi algoritmi uenja neuronskih mrea pripadaju u jednu od ovih kategorija ili su
njihova varijacija. Neke neuronske mree imaju fiksne vrijednosti teinskih koeficijenata, a uenje
se odvija mijenjanjem razine aktiviteta neurona.

2.1.7. Naini implementacije neuronskih mrea


Paralelno s istraivanjima struktura neuronskih mrea istrauju se i naini njihove
implementacije koji osiguravaju optimalno iskoritavanje svojstava neuronskih mrea (vidi toku
2.1.5.). Pri implementaciji neuronskih mrea treba imati u vidu sljedee tri karakteristike:
Neuronske su mree raunski vrlo zahtijevne. Izlaz svakog neurona rezultat je zbrajanja vie
umnoaka i izraunavanja nelinearne aktivacijske funkcije.
Raunska brzina neuronske mree odreena je brojem matematikih operacija pojedinog
neurona, a ne itave mree. Naime, svaki sloj mree ima paralelnu grau, to jest svaki se neuron
u sloju moe promatrati kao lokalni procesor koji radi paralelno s ostalim neuronima.
Neuronske mree zahtijevaju veliki memorijski prostor. Naime, svaki pojedini neuron ima vie
sinaptikih veza, a svakoj je od njih pridruen teinski koeficijent koji mora biti spremljen u
memoriju. Poveanjem broja neurona u mrei memorijski zahtjevi rastu s kvadratom broja
neurona.

U posljednje je vrijeme razvijeno vie programskih i sklopovskih implementacija neuronskih


mrea koje vie ili manje uspjeno iskoritavaju paralelnu strukturu neuronskih mrea. Programske
implementacije neuronskih mrea uglavnom su na postojeim raunalskim sustavima koji nisu
projektirani iskljuivo za implementaciju neuronskih mrea. Superraunala, masivno paralelna
raunala te konvencionalna digitalna raunala mogu biti programirana na odgovarajui nain tako
da simuliraju funkcije neuronskih mrea za razne primjene. Veina neuronskih mrea u primjeni
implementirana je na konvencionalnim raunalima. Brzina njihova izvoenja znatno je nia od
brzine koja se moe oekivati kada se implementiraju u specijalizirano sklopovlje.
Pravo iskoritenje svih dobrih svojstava neuronskih mrea moe se oekivati tek kada bude
dostupno kvalitetno sklopovlje, specijalizirano za njihovu implementaciju. Glavnina istraivakih
aktivnosti iz ovog podruja usmjerena je u razvoj specijaliziranih elektronikih i optikih odnosno
optoelektronikih implementacija. Elektronike se implementacije neuronskih mrea zasnivaju na
sabirniki orijentiranim procesorima, koprecesorima, CCD-ovima (engl. Charge Coupled Device
technology) i VLSI (engl. Very Large Scale Integrated) sklopovima, a optike/optoelektronike
implementacije na optikim ili mjeovito optikim i elektronikim komponentama.

2. Osnove neuronskih mrea

16

Znaajno je ogranienje elektronike tehnologije implementacije neuronskih mrea veliki broj


veza potrebnih za meusobno povezivanje neurona, a koje zauzimaju veliki prostor. Nasuprot tome,
kod optike tehnologije neuroni su povezani svjetlovodima koji mogu slobodno prolaziti jedan kroz
drugi, tako da je isti broj veza mogue ostvariti u znatno manjem prostoru.

2.2. Statike neuronske mree


Statike su neuronske mree najee koritene neuronske mree, osobito u primjenama kao
to su identifikacija i upravljanje procesima, obradba signala te prepoznavanje oblika. Osnovni
gradivi element statikih neuronskih mrea jest statiki neuron (opis osnovnih statikih neurona dan
je u toki 2.1.3.). Iako i samo jedan neuron moe aproksimirati jednostavnije nelinearne funkcije,
openito se aproksimacijska mo mree poveava poveanjem broja neurona. Kod statikih su
neuronskih mrea neuroni organizirani na tzv. unaprijedni nain (zato se ove mree esto nazivaju i
unaprijedne neuronske mree), to znai da svaki neuron moe biti povezan s ulazima u mreu i/ili
s drugim neuronima, ali tako da se pri povezivanju ne formiraju povratne veze. Prema tome,
statike neuronske mree ne sadre nikakve dinamike lanove, a to ih ini strukturno stabilnima.
Ovo je svojstvo njihova najvanija prednost u odnosu na dinamike mree.
U nastavku se opisuju najee koritene statike neuronske mree: vieslojne perceptronske
mree (MLP mree) i mree zasnovane na funkcijama s krunom osnovicom (RBF mree).

2.2.1. Vieslojne perceptronske mree


Vieslojne su perceptronske neuronske mree izgraene od perceptron neurona organiziranih
u serijski povezane slojeve (Sl. 2.8.). Slojevi se najee oznauju brojevima 0, 1, 2, ..., L. Nulti sloj
samo proslijeuje vektor ulaza u mreu na ulaz prvog sloja. L-ti je sloj ujedno i izlazni sloj mree, a
slojevi izmeu njih nazivaju se unutarnjim ili skrivenim slojevima (engl. hidden layers) jer ne daju i
ne primaju vanjske signale. Neki autori nulti sloj ukljuuju u brojenje slojeva mree, dok ga drugi
autori ne ukljuuju. Za prve autore neuronska mrea ima L+1 sloj, a za druge L slojeva. U ovome
se radu za oznaavanje broja slojeva mree koristi drugi pristup.
Svi neuroni u nekom sloju povezani su sa svim neuronima u dva susjedna sloja preko
jednosmjernih, unaprijednih veza. Druge veze nisu doputene, to jest nema veza izmeu neurona u
istom sloju niti izmeu neurona koji nisu u susjednim slojevima. Veze izmeu neurona susjednih
slojeva predstavljene su sinaptikim teinskim koeficijentima koji djeluju kao pojaala signala na
odgovarajuim vezama. Iznosi sinaptikih teinskih koeficijenata odreuju vladanje mree,
odnosno njezinu sposobnost aproksimacije nelinearne
odgovarajuih iznosa ostvaruje se algoritmima uenja.

funkcije.

Izraunavanje

njihovih

Iako nema teoretskoga ogranienja na broj unutarnjih slojeva neurona, uglavnom se koriste
MLP mree s jednim ili s dva unutarnja sloja, to jest dvoslojne ili troslojne MLP mree. Teoretski

2. Osnove neuronskih mrea

17

je dokazano da MLP mrea s jednim unutarnjim slojem moe aproksimirati proizvoljnu,


kontinuiranu nelinearnu funkciju (vidi toku 2.2.3.).

y0

x1

y0,1 = x1,1

x1

W1

1(v1 ) y1

v1
v1,1

w1,1,1

y1,1 = x2,1

1,1

w1,2,1

yL-1

x2

xL

y L-1,1= x L,1

WL

vL

wL,1,1

vL,1

L(vL) yL

L,1

yL,1

w1,n(1),1
x2

y0,2 = x1,2

v1,2

xn(x)

y0,n(0) = x1,n(0)

y1,2 = x2,2

1,2

v1,n(1)

vL,2

y L-1,2= x L,2

y1,n(1) = x2,n(1) y L-1,n(L-1) = x L,n(L-1)


1,n(1)

vL,n(L)

L,2

L,n(L)

yL,2

yL,n(L)

w1,1,n(0)+1
1 = x 1,n(0)+1

w1,n(1),n(0)+1

1=x2,n(1)+1

1=x L,n(L-1)+1

wL,n(L),n(L-1)+1

Sl. 2.8. Vieslojna perceptronska mrea (MLP mrea).


Matematiki se MLP mrea moe opisati sljedeim izrazima:
y0 = x

,
T

x l = y l 1 1

(2-7)

1 l L,

(2-8)

v l = Wl x l

1 l L,

(2-9)

yl = l ( vl )

1 l L,

(2-10)

gdje je:
x = x1 , x2 ,

, xn( x )

- vektor ulaza u mreu, dimenzije n(x);

y 0 = y0 ,1 , y0 ,2 ,..., y0 ,n( 0 )

- vektor izlaza iz 0-tog sloja mree, dimenzije n(0);


T

x l = xl ,1 , xl ,2 ,..., xl ,n( l 1 ) , xl ,n( l 1 )+1 - vektor ulaza u l-ti sloj mree (ulaz xl,n(l-1)+1=1 pomnoen
odgovarajuim

teinskim

koeficijentom

skalarni
pomak (engl. bias) neuronima l-tog sloja);

v l = vl ,1 , vl ,2 ,..., vl ,n( l )
y l = yl ,1 , yl ,2 ,..., yl ,n( l )

- vektor izlaza operacije konfluencije l-tog sloja mree;


- vektor izlaza l-tog sloja mree;

daje

2. Osnove neuronskih mrea

LM w
M
W =M w
MM
MNw

18

l ,1,1

wl ,1, j

wl ,1,n ( l 1 )

wl ,1,n ( l 1 )+1

l ,i ,1

wl ,i , j

wl ,i ,n ( l 1 )

wl ,i ,n ( l 1 )+1

l ,n ( l ),1

wl ,n ( l ), j

wl ,n ( l ),n ( l 1 )

wl ,n ( l ),n ( l 1 )+1

sinaptikih

veza

OP
PP
PP
PQ

- matrica teinskih koeficijenata

l-tog

sloja

mree,

dimenzije

n(l)(n(l)+1);
l(vl)=[l,1(vl,1),l,2(vl,2),...,l,n(l)(vl,n(l))]T - vektor aktivacijskih funkcija l-tog sloja (uobiajeno
je l,1 = l,2 =...= l,n(l) );

- ukupan broj slojeva mree.

Najee koritene aktivacijske funkcije neurona kod MLP mrea ve su dane u tablici 2.1. U
skrivenim slojevima to su tansig ili logsig aktivacijska funkcija te purelin aktivacijska funkcija u
izlaznome sloju mree. Obino se koriste s jedininim aktivacijskim pojaanjem.

2.2.2. RBF neuronske mree

RBF neuronske mree dvoslojne su statike neuronske mree (Sl. 2.9.). Kao i kod MLP mrea
nulti (ulazni) sloj samo proslijeuje ulaze u mreu na ulaz prvoga sloja sainjena od neurona s
aktivacijskim funkcijama s krunom osnovicom (RBF neurona, vidi tablicu 2.2.) i predstavlja
njezino tzv. receptivno polje. Drugi se sloj mree, koji je ujedno i njezin izlazni sloj, sastoji od
perceptrona s linearnom aktivacijskom funkcijom jedininog aktivacijskog pojaanja.
0

y0 x1

x1

y0,1= x1,1

v1,1

y1 x2

W2

v2

y1,1= x2,1

w2,1,1

v2,1

y2,1= yL,1

2 ( v2 )

y2 = yL

w2,2,1
y0,2= x1,2
.
.
.
y0,n(0)= x1,n(0)

w1,2

v1,2

.
.
.
.
.
.
w1,n(1)
v 1,n(1)

y1,2= x2,2

w2,2,2

v2,2

y2,2= yL,2

.
.
.

.
.
.

.
.
.

.
.
.

v 2,n(2)

y2,n(2)= yL,n(2)

2,1
,n(
1)

.
.
.
x n(x)

w1,1

1 ( v1 )

v1

x2

W1

y1,n(1)= x2,n(1)

1 = x2,n(1)+1

w 2,n(2

1
1)+
),n(

Sl.2.9. RBF neuronska mrea.


Matematiki se RBF neuronska mrea moe opisati sljedeim izrazima:
x1 = y 0 = x ;

(2-11)

2. Osnove neuronskih mrea

19

v1,i = x1 w1,i =

n( 0 )

( x

1, j

w1,i , j )2 ,

i = 1,

, n( 1 ) ;

(2-12)

j =1

y1 = 1( v1 ) ;

(2-13)

x 2 = y1 1 ;

(2-14)

v 2 = W2x 2 ;

(2-15)

y2 = yL = 2( v2 ) .

(2-16)

gdje je:
x = x1 , x2 ,

, x n( x )

x1 = x1,1 , x1,2 ,..., x1,n( 0 )

- vektor ulaza u mreu, dimenzije n(x);


T

- vektor ulaza u prvi sloj mree;


T

x 2 = x2 ,1 , x2 ,2 ,..., x2 ,n( 1 ) , x2 ,n( 1 )+1 - vektor ulaza u drugi sloj mree (ulaz x2,n(1)+1=1 pomnoen
odgovarajuim teinskim koeficijentom daje skalarni
(engl. bias) neuronima drugoga sloja);

pomak
v l = vl ,1 , vl ,2 ,..., vl ,n( l )
y l = yl ,1 , yl ,2 ,..., yl ,n( l )
W1
W2

T
T

- vektor izlaza operacije konfluencije l-tog sloja mree;


- vektor izlaza l-tog sloja mree, l=0, 1, 2;
- matrica koordinata sredita RBF neurona, dimenzije
n(1)n(0);
- matrica teinskih koeficijenata sinaptikih veza drugog sloja
mree, dimenzije n(2)(n(1)+1);

l(vl)=[l,1(vl,1),l,2(vl,2),...,l,n(l)(vl,n(l))]T - vektor aktivacijskih funkcija l-tog sloja mree.

Najee koritene aktivacijske funkcije u prvom sloju RBF neuronskh mrea prikazane su u tablici
2.2. U ovome se radu koriste Gaussove aktivacijske funkcije, pa se i odgovarajue neuronske mree
nazivaju Gaussove RBF neuronske mree.
Kao i RBF mree i MLP mree imaju sposobnost aproksimacije proizvoljne kontinuirane
nelinearne funkcije (vidi toku 2.2.3.). Njihova aproksimacijska sposobnost odreena je poloajem
sredita RBF neurona, varijancom njihovih aktivacijskih funkcija te iznosima teinskih
koeficijenata izlaznoga sloja mree. Izraunavanje odgovarajuih vrijednosti ovih parametara RBF
mree ostvaruje se algoritmima uenja (opisani u etvrtom poglavlju).
RBF neuronske mree predstavljaju znaajnu alternativu MLP mreama, osobito u sluaju
aproksimacije jednostavnih i vremenski malo promjenljivih nelinearnosti kada je mogue unaprijed
na odgovarajui nain rasporediti sredita i odrediti iznose varijanci RBF neurona, a uenje mree
svesti samo na podeavanje teinskih koeficijentata izlaznoga sloja. U tom sluaju vladanje RBF

2. Osnove neuronskih mrea

20

neuronske mree postaje linearno ovisno o parametrima, za razliku od MLP mrea ije je vladanje
nelinearno ovisno o parametrima.
Raspored sredita RBF neurona znaajno odreuje svojstva RBF mree. Tradicionalno se
RBF funkcije koriste za interpolaciju nelinearnih vievarijabilnih funkcija (Powell, 1987), pri emu
je broj sredita jednak broju podataka (u svaki se ulazni podatak postavlja po jedno sredite).
Meutim, aproksimaciju proizvoljne nelinearne kontinuirane funkcije mogue je postii i s manjim
brojem dobro rasporeenih sredita. Broomhead i Lowe (1988) su predloili da se sredita postave
u sluajno odabrane ulazne podatke. Druga je mogunost jednoliki raspored sredita u prostoru
ulaznih podataka. Varijance aktivacijskih funkcija manje utjeu na vladanje mree i obino se
izabiru kao drugi korijen umnoka udaljenosti neurona od dva najblia susjedna neurona (Moody i
Darken, 1989).
RBF mree i sa sluajnim i s jednolikim rasporedom sredita RBF neurona mogu
aproksimirati proizvoljnu kontinuiranu nelinearnu funkciju, meutim, potrebni broj RBF neurona
moe biti jako velik. Smanjenje broja RBF neurona moe se postii proirenjem postupka uenja
mree i na podeavanje poloaja sredita te varijanci RBF neurona. U tom sluaju vladanje RBF
mree postaje nelinearno ovisno o paramterima, kao i MLP mree, ali i s usporedivim
aproksimacijskim svojstvima.

2.2.3. Aproksimacija nelinearnih funkcija statikim neuronskim mreama


Teorija aproksimacije funkcija klasina je matematika disciplina. Uenje neuronskih mrea
na osnovi ulazno-izlaznih podataka nelinearoga procesa moe se promatrati kao problem
aproksimacije nelinearnih funkcija. Stoga je poznavanje i primjena teorije aproksimacije funkcija
od temeljne vanosti pri prouavanju neuronskih mrea. U ovoj se toki daje njezin osnovni
koncept s kratkim objanjenjima aproksimacijskih teorema na kojima se temelji teoretska analiza
aproksimacijskih svojstava neuronskih mrea.
Definicija problema aproksimacije funkcije. Neka je f(x) kontinuirana, vievarijabilna, nelinearna
funkcija, definirana na skupu xRn(x), funkcija koju treba aproksimirati aproksimacijskom
funkcijom fN(,x), gdje je Rn() vektor parametara aproksimacijske funkcije koji se podeavaju.
Problem je aproksimacije odreivanje optimalnih vrijednosti parametara =* uz koje je funkcija
fN najbolja aproksimacija funkcije f.

Matematiki se problem aproksimacije moe izraziti na sljedei nain:

f N ( * ,x ), f ( x ) f N ( ,x ), f ( x ) , R n( ) ,

(2-17)

gdje je funkcija mjere kakvoe aproksimacije.


Kao funkcija mjere kakvoe aproksimacije uglavnom se koristi funkcija udaljenosti definirana Lp
normom (najee se koristi L2 norma, tj. p = 2):

2. Osnove neuronskih mrea

21

f N ( ,x ), f ( x ) = f ( x ) f N ( ,x ) p

R
U
= S z f ( x ) f ( , x ) dx V
T
W
p

1
p

(2-18)

Budui da se funkcija f aproksimira na temelju konanoga skupa njezinih ulazno-izlaznih


vrijednosti, umjesto izraza (2-18) mogue je koristiti praktiniji izraz za mjeru kakvoe
aproksimacije (p = 2):
N

=1

2
f ( x( )) f N ( * , x( )) f ( x( )) f N ( , x( )) ,

(2-19)

=1

gdje je:

redni broj vektora mjernih podataka,

ukupan broj vektora mjernih podataka.

Optimalne se vrijednosti parametara aproksimacijske funkcije * mogu definirati kao argument koji
minimizira desnu stranu izraza (2-19):
N

* = argmin f( x( ) ) f N ( , x( ) )
=1

argmin e T ( , ) e( , ) .

(2-20)

=1

gdje je e(,) - vektor pogreke na -tom mjernom uzorku, dimenzije n(L).


Za vektor parametara * kae se da je najbolje rjeenje problema aproksimacije, odnosno da daje
najbolju aproksimaciju funkcije. Sa stajalita teorije aproksimacije treba znati postoji li rjeenje
koje daje najbolju aproksimaciju, te, ako postoji, je li jednoznano, kako je karakterizirano i kako
ga odrediti. Ovo su vrlo strogi zahtjevi koje je teko ispuniti. Primjerice, da je odreeno rjeenje
najbolje i da je jednoznano, mogue je tvrditi samo ako je funkcija (2-20) unimodalna. Meutim, s
inenjerskog se stajalita problem aproksimacije moe ublaiti tako da se umjesto traenja
najboljeg, jednoznanog rjeenja * (rjeenja koje daje najbolju aproksimaciju) trai bilo koje
rjeenje koje daje zadovoljavajuu aproksimaciju.
Nelinearno preslikavanje iz ulaznog u izlazni prostor statikom neuronskom mreom moe se
opisati nelinearnom funkcijom:
y L = f N ( x , ) ,

(2-21)

gdje je vektor parametara mree koji se podeavaju. Vektor parametara MLP neuronske mree
sadri sinaptike teinske koeficijente mree wl,i,j (vidi toku 2.2.1.):
= 1 , 2 ,..., n( )

= w1,1,1 ,..., w1,n( 1 ),n( 0 )+1 ,..., wL ,1,1 ,..., wL ,n( L ),n( L1 )+1 ,

(2-22)

gdje je n( ) = n( l ) [n( l 1 ) + 1] ukupan broj parametara MLP mree, a vektor parametara RBF
l =1

neuronske mree sadri teinske koeficijente drugog (izlaznog) sloja mree w2,i,j te koordinate
sredita w1,i,j,i varijance 1,i RBF neurona u prvom sloju mree (vidi toku 2.2.2.):

2. Osnove neuronskih mrea

22

= 1 , 2 ,..., n( )

= w1,1,1 ,..., w1,n( 1 ),n( 0 ) , 1,1 ,..., 1,n( 1 ) , w2 ,1,1 ,..., w2 ,n( 2 ),n( 1 )+1 ,

(2-23)

gdje je n( ) = n( 1 ) n( 0 ) + n( 1 ) + n( 2 ) [n( 1 ) + 1] ukupan broj parametara RBF mree.


Prema tome, statika se neuronska mrea (i MLP i RBF mrea) moe promatrati kao
aproksimacijska funkcija pri emu se problem aproksimacije svodi na uenje neuronske mree da
na osnovi ulazno-izlaznih podataka aproksimira eljenu nelinearnu funkciju. Algoritmi uenja
iterativno odreuju optimalne vrijednosti parametara mree s ciljem minimiziranja funkcije
kakvoe aproksimacije (2-20). Postupak uenja neuronske mree s ciljem aproksimacije nelinearne
funkcije prikazan je na slici 2.10.
Objavljen je veliki broj radova u kojima se dokazuje da je vieslojnim statikim neuronskim
mreama mogue aproksimirati proizvoljne kontinuirane funkcije do eljene tonosti, koja je
odreena iznosom konstante u izrazu (2-21). Kao teoretsku osnovu pri dokazivanju
aproksimacijskih sposobnosti statikih neuronskih mrea neki autori koriste Stone-Weierstrassov
(Funahashi, 1989; Hornik et al., 1989; Cybenko, 1989; Cotter, 1990; Blum i Lee, 1991), a neki
Kolmogorov teorem (Hecht-Nielsen, 1987; Cotter i Guillerm, 1992; Kurkova, 1992).

Stone-Weierstrassov teorem (Stone, 1948) dokazuje da za bilo koji > 0 i bilo koju
kontinuiranu funkciju f(x), x Rn(x), postoji funkcija fN(x) za koju vrijedi nejednadba
f ( x ) f N ( x ) < za x Rn(x) , gdje je mali realni broj.
Kolmogorov teorem (Kolmogorov, 1957) dokazuje da se proizvoljna kontinuirana funkcija,
definirana na n(x)-dimenzionalnoj hiperkocki, moe aproksimirati superpozicijom konanoga broja
kontinuiranih funkcija jedne varijable.

eljena nelinearna
funkcija

Funkcija kakvoe
aproksimacije
y

f(x)

( )

neuronska
mrea

f N ( x , )

promjena
parametara mree

algoritam
uenja

Sl. 2.10. Postupak uenja statike neuronske mree s ciljem aproksimacije nelinearne funkcije.
Sposobnost aproksimacije proizvoljnih, kontinuiranih funkcija najvanije je svojstvo
neuronskih mrea. Meutim, jo su uvijek mnoga pitanja ostala otvorenima (Webb, 1994).
Primjerice, kakva je veza izmeu tonosti aproksimacije i broja skrivenih slojeva i/ili broja
neurona? Iako ne postoji sustavan pristup rjeavanju ovoga problema, ipak i na tom podruju ima

2. Osnove neuronskih mrea

23

odreenih rezultata. Tako Chester (1990) i Villiers i Barnard (1992) tvrde da MLP neuronske mree
s dva skrivena sloja osiguravaju bolju tonost aproksimacije i bolja svojstva poopoavanja nego
mree s jednim slojem, to je vano znati osobito kada je funkcija koja se aproksimira izrazito
nelinearna. Nadalje, Poggio i Girosi (1990) su dokazali da RBF mree imaju svojstvo najbolje
aproksimacije, dok MLP mree nemaju to svojstvo. To znai da kod RBF postoji najbolja
aproksimacija i da je jedinstvena, a kod MLP mrea ne postoji. Meutim, cijena postizanja najbolje
aproksimacije moe biti veliki broj neurona, to nikako nije praktino.

2.2.4. Primjena statikih neuronskih mrea u modeliranju nelinearnih dinamikih procesa

Kako je teorija aproksimacije nelinearnih funkcija statikim neuronskim mreama dobro


razraena (vidi toku 2.2.3.), opravdano je razmotriti mogunosti njihove primjene u modeliranju i
identifikaciji nelinearnih dinamikih procesa (Narendra i Parthasarathy, 1990; Chen et al., 1990a;
Haesloop i Holt, 1990; Billings et al., 1992; Chu i Shoureshi, 1992; Kuschewski et al., 1993;
Jagannathan i Lewis, 1996). S obzirom da statike neuronske mree ne sadre dinamike lanove
(vidi potpoglavlje 2.2.), one ne mogu modelirati dinamiku procesa, pa je potrebno dodati vanjske
dinamike lanove. Dodavanjem vanjskih dinamikih lanova u problem se uvodi vremenska
dimenzija, tako da izlaz mree ovisi i o stanju procesa u proteklom vremenu. Odgovarajuim
izborom vanjskih dinamikih lanova problem modeliranja nelinearnih dinamikih procesa
statikim neuronskim mreama svodi se na problem aproksimacije statike nelinearne funkcije (vidi
potpoglavlje 3.2.).

2.3. Dinamike neuronske mree


Statike neuronske mree, opisane u prethodnom potpoglavlju, ne sadre dinamike lanove
pa njihov odziv ovisi iskljuivo o trenutanom stanju ulaza i vrijednostima parametara mree. Ovo
svojstvo ini statike neuronske mree strukturno stabilnima. Meutim, u nekim sluajevima
primjena statikih neuronskih mrea ne zadovoljava. Primjerice, ako je potrebno da neuronska
mrea sauva neku informaciju neodreeni vremenski period, tada statika mrea s vanjskim
dinamikim lanovima ne zadovoljava jer ona ima konani impulsni odziv (engl. Finite Impulse
Response, FIR). Takav se problem javlja kod modeliranja procesa s velikim mrtvim vremenom. U
tim je sluajevima opravdano koristiti dinamike (povratne) neuronske mree (engl. dynamic,
recurrent or feedback neural networks), koje u svojoj strukturi, osim unaprijednog, imaju i povratno
djelovanje, koje im osigurava neogranieni impulsni odziv (engl. Infinite Impulse Response, IIR).
Razlika izmeu FIR i IIR modela ilustrirana je na slici 2.11. Uoava se da model s povratnim
djelovanjem i jednim polom predstavlja IIR model, dok model bez povratnog djelovanja predstavlja
FIR model n-tog. Ova dva modela postaju ekvivalentna kada n.

2. Osnove neuronskih mrea

24

x(k)
z-1

x(k-1)

x(k) +

y(k)

y(k+1)

z-1

y(k)

-1

x(k-2)

y( k ) = x( k i )

y( k + 1 ) = x( k ) + y( k )

i= 0

z-1

Y( z )
= 1 + z 1 + z 2 + + z n
X( z )

Y( z )
1
=
= 1 + z 1 + z 2 + + z n ;
X ( z ) 1 z 1
n ; z < 1

x(k-n)

a)

b)

Sl. 2.11. FIR model n-tog reda a) i IIR model b).


Meutim, uz navedenu prednost dinamikih neuronskih mrea, one imaju i niz nedostataka.
Prije svega, za razliku od statikih mrea, stabilnost dinamikih neuronskih mrea nije
zagarantirana. Nadalje, uenje dinamikih mrea je znatno sloenije, zbog ovisnosti izlaza mree o
njenim prolim stanjima. Zbog prisutnosti povratnih veza u dinamikim neuronskim mreama, kod
procesa uenja javlja se efekt opadajueg gradijenta kriterijske funkcije po parametrima mree, to
znatno usporava proces uenja (Bengio et al., 1994; Horne et al., 1996). Problem kod primjene
dinamikih neuronskih mrea predstavlja i ovisnost izlaza mree o njenim poetnim stanjima. Tako
e mrea koja je dobro nauena dati loe rezultate u sluaju da poetna stanja mree nisu dobro
odabrana. Konano, za razliku od statikih mrea, za koje je dokazano da mogu aproksimirati
proizvoljnu nelinearnu funkciju, aproksimacijska svojstva dinamikih mrea nisu dovoljno
istraena. U nastavku se opisuju Hopfieldove, Elmanove i NARX dinamike neuronske mree.

2.3.1. Hopfieldove neuronske mree

Hopfieldove su neuronske mree jednoslojne mree s povratnim djelovanjem s izlaza na


ulaz mree. Na ulaz svakog neurona dolaze izlazni signali svih neurona u sloju osim njega samoga.
Na slici 2.12. prikazana je struktura diskretne Hopfieldove neuronske mree. Prema slici, diskretna
Hopfieldova neuronska mrea moe se matematiki opisati izrazima:
n

vi = wi , j y j + xi w0 ,i ,

(2-24)

yi = i ( vi ) ( i = 1,2, , n ) ,

(2-25)

i =1
ji

odnosno izrazom:
n

yi = i ( wi , j y j + xi w0 ,i ) ( i = 1,2, , n ) .
i =1
i j

(2-26)

2. Osnove neuronskih mrea

25

y(k-1)

v
w0,1

y1(k-1)

w1,2

y2(k-1)

w 2 ,1

yn(k-1)

x
x1

+
w0,2

x2

w n ,1

w0,n
xn

v1
v2

vn

y(k)

1
2

y1(k)
y2(k)

yn(k)

z-1

Sl. 2.12. Hopfieldova neuronska mrea.


Izrazi (2-24)-(2-25) mogu se napisati u matrinom obliku:
v = Wy + x w 0 ,

(2-27)

y = ( v ) ,

(2-28)

gdje je:
x = x1 , x2 , , xn

- vektor vanjskih ulaza u mreu;

v = v1 , v2 , , vn

- vektor izlaza operacije konfluencije;

y = y1 , y2 , , yn

- vektor izlaza mree;

w 0 = w0 ,1 , w0 ,2 , , w0 ,n

LM 0
MMww
W=
MM
MNw

w1,2

w1,3

3,1

0
w3,2

w2 ,3
0

n ,1

wn ,2

wn ,3

2 ,1

- vektor pragova osjetljivosti neurona;

OP
w
P
w PPP
0 PQ
w1,n

2 ,n
3,n

matrica teinskih koeficijenata (engl. Connectivity

matrix).
Opisana Hopfieldova neuronska mrea bit e stabilna ako je matrica teinskih koeficijenata W
simetrina, to jest ako je wi,j = wj,i uz wi,i = 0 (Cichocki i Unbehauen, 1993). Hopfieldove su
neuronske mree zanimljive prije svega s teoretskog stajalita, a u praksi se rijetko koriste. Najvie
primjera njihove primjene je iz podruja optimiranja.

2. Osnove neuronskih mrea

26

2.3.2. Elmanove neuronske mree


Elmanove su neuronske mree vieslojne dnamike neuronske mree. Neuroni u izlaznom
sloju imaju linearnu aktivacijsku funkciju (purelin), a neuroni u skrivenim slojenima sigmoidalnu
(tansig ili logsig). Ulazi u mreu ujedno su i ulazi u prvi sloj mree dok ostali slojevi kao ulaze
primaju izlazne signale iz prethodnog sloja. Svi slojevi, osim izlaznog, imaju povratnu vezu po
svome izlazu. Najee se primjenjuje dvoslojna Elmanova neuronska prikazana na slici 2.13.

y0,1 = x1

b1,1
v1,1

y 0 , 2 = x2

b1,2
v1,2

y0,n ( x ) = xn ( x )

b1,n (1)
v1,n (1)

y1,1 ( k 1)

y1,2 ( k 1)

y1,n (1) ( k 1)

b2 ,1
y1,1

1,1

y2 ,1

b2 ,2
y1,2

1,2

y1,n (1)

1,n

y2 , 2

b2 ,n ( 2 )

y2 ,n ( 2 )

z 1

z 1

z 1

Sl. 2.13. Dvoslojna Elmanova neuronska mrea.


Dvoslojna Elmanova mrea sa slike 2.13 moe se opisati sljedeim izrazima:

y0 = x ,
x1 = y 0

(2-29)
T

y1( k 1 ) ,

(2-30)

x 2 = y1 ,

(2-31)

v l = Wl x l bl ( l = 1,2 ) ,

(2-32)

y l = l ( v l ) ( l = 1,2 ) ,

(2-33)

gdje je:

W1 - matrica teinskih koeficijenata prvog sloja, dimenzije [n(0)+n(1)]*n(1);


W2 - matrica teinskih koeficijenata drugog (izlaznog) sloja, dimenzije n(1)*n(2);
bl - vektor pragova osjetljivosti neurona l-tog sloja mree, dimenzije n(l);

2. Osnove neuronskih mrea

27

l - vektor aktivacijskih funkcija l-tog sloja, dimenzije n(l).


Uenje Elmanove neuronske mree ostvaruje se podeavanjem njezinih parametara, to jest
teinskih koeficijenata i pragova osjetljivosti (algoritmi uenja opisani su u treem poglavlju).
Parametri dvoslojne Elmanove mree mogu se zapisati u vektorskom obliku:
= 1 , 2 ,..., n( )

= w1,1,1 , , w1,n( 1 ),n( 0 )+ n( 1 ) , b1,1 , , b1,n( 1 ) , w2 ,1,1 ,..., w2 ,n( 2 ),n( 1 )+1 , b2 ,1 , , b2 ,n( 2 ) .
(2-34)

2.3.3. NARX neuronske mree

Ove neuronske mree sastoje se od MLP neuronske mree kojoj je izvana dodano povratno
djelovanje i to tako da se na ulaz mree dovode vrijednosti izlaznih signala mree iz prethodnog
koraka uzorkovanja (Sl. 2.14). U literaturi se najee nazivaju NARX mreama (Horne et al.,
1996) zato to im struktura odgovara NARX modelu (Nonlinear AutoRegressive model with
eXogenous inputs) nelinearnih dinamikih procesa u simulacijskom nainu rada. Moda bi
ispravniji naziv za ove neuronske mree bio NOE mree jer one u stvari odgovaraju NOE modelu
(Nonlinear Output Error model) nelinearnih dinamikih procesa u svim nainima rada (vidi
potpoglavlje 3.2.).
x(k)
yL(k-na)

MLP neuronska
mrea

yL(k)

yL(k-2)
yL(k-1)

z-1

z-1

z-1

Sl. 2.14. NARX neuronska mrea.


Matematiki opis NARX mree zasniva se na matematikom opisu MLP mree, koji je dan
izrazima (2-7)-(2-10). Izrazi (2-8)-(2-10) ostaju identini, a mijenja se samo izraz (2-7), koji
poprima sljedei oblik:
(2-35)
y0 = x y L ( k 1) .

Vektor parametara koji se podeavaju identian je vektoru parametara MLP mree danom izrazom
(2-22). Meutim, uenje NARX mree znatno je sloenije, zbog povratnog djelovanja.

b g
bk 1g

y L ,1 k 1
y L ,2

3. Algoritmi uenja neuronskih mrea

28

3. ALGORITMI UENJA NEURONSKIH MREA


Neuronska je mrea u potpunosti odreena tek kada je uz njezinu strukturu (odreena brojem,
tipom i organizacijom neurona u mrei) definiran i algoritam uenja. Algoritam uenja podeava
parametre mree s ciljem postizanja njezinog eljenog vladanja. U identifikaciji i upravljanju
nelinearnim dinamikim procesima najee je poznato eljeno vladanje neuronske mree pa se za
njezino uenje primjenjuju algoritmi temeljeni na pogreci (vidi toku 2.1.6.). Zbog toga se u ovom
poglavlju obrauje samo ta grupa algoritama. Kao mjera pogreke koristi se neka kriterijska
funkcija (kriterij kakvoe) (), koja moe biti bilo koja pozitivna skalarna funkcija ovisna o
parametrima neuronske mree . Algoritam uenja podeava parametre mree dok kriterij kakvoe
ne poprimi minimalni iznos odnosno iznos manji od unaprijed zadanog iznosa. Dakle, problem
podeavanja parametara neuronske mree svodi se na problem nelinearnoga optimiranja s
kriterijskom funkcijom () kao ciljnom funkcijom. Optimiranje se provodi na temelju skupa
ulazno-izlaznih podataka dobivenih eksperimentom na stvarnom procesu, odnosno funkciji koju
neuronska mrea treba aproksimirati. Dobar pregled postupaka nelinearnog optimiranja s
primjenom za uenje neuronskih mrea dali su, primjerice, Brent (1991), Barnard (1992), Cichocki
i Umbehauen (1993) te Kung (1993).
Osnovni problem koji kod primjene postupaka nelinearnog optimiranja za uenje neuronskih
mrea treba razrijeiti jest izraunavanje gradijenta kriterijske funkcije po parametrima mree. Taj
je problem dulje vrijeme usporavao istraivanja i primjenu neuronskih mrea, ali je uspjeno
razrijeen primjenom algoritma povratnoga prostiranja izlazne pogreke kroz mreu (engl. BackPropagation algorithm, opisan u toki 3.2.5.).

3.1. Osnovni pojmovi i definicije


Kao to je naprijed reeno, algoritmi uenja podeavaju parametre neuronske mree s ciljem
pronalaenja minimuma funkcije (). Minimum funkcije ( ) moe se formalno definirati
njezinim razvojem u Taylorov red u okolini toke minimuma * i zanemarenjem tree i viih
potencija:

( ) (* ) + T ( ) = * +

1
T H( ) = * ,
2

(3-1)

gdje je:
= * ;
()

- gradijentni vektor kriterijske funkcije:

L ()
( ) = M
MN
1

( ) ( )

2
n ( )

OP
PQ

(3-2)

3. Algoritmi uenja neuronskih mrea


H()=2()

29

- Hessian matrica kriterijske funkcije:

LM ()
MM
( )
M
H( ) = ( ) = M
MM
MM ()
MN

2 ( )
2 ( )

1 2
1 n ( )

2 ( )
2 ( )

2 2
2 n ( )

n( )

2 ( )

n ( ) 2

2 ( )
2 n ( )

OP
PP
PP .
PP
PP
PQ

(3-3)

Kao kriterijska funkcija najee se koristi modificirana funkcija definirana izrazima (2-17)-(2-20):
( ) =

1 N T
1 N n( L) 2
1 T
e
(

e
(

)
=
ei ( , ) = e* ( ) e* ( ) ,

2 =1
2 =1 i=1
2

(3-3a)

gdje je e*() vektor pogreaka na itavom skupu mjernih podataka, dimenzije Ne=N*n(L).
Za kriterijsku funkciju definiranu izrazom (3-3a) gradijentni vektor i Hessian matrica poprimaju
sljedee oblike:
( ) = J T ( ) e* ( ) ,

(3-4)
Ne

H ( ) = 2 ( ) = J T ( )J ( ) + ei* ( ) 2ei* ( ), ,

(3-5)

i =1

gdje je:
J() - Jacobian matrica:

LM e ( )
MM
e ( )
e () M
J( ) =
=
MM

MM e ( )
MN
1

e1* ( )
2
e2* ( )
2

eN * ( )
2

*
1

Ne

OP
PP
PP
P
e ( ) P
PPQ

e1* ( )
n( )
e2* ( )
n( ) ,

(3-6)

Ne

n( )

U toki =* bit e minimum funkcije () ako su ispunjeni sljedei uvjeti:


= * = 0 ,

(3-7)

T H > 0 .

(3-8)

Ispunjenje uvjeta (3-7) ukazuje da je u toki * ekstrem kriterijske funkcije, meutim ne moe se
zakljuiti je li minimum, maksimum ili sedlo. Ako je (*) minimum funkcije (), mala
promjena u okolini * izazvat e pozitivni prirast funkcije () bez obzira u kojem je smjeru
pomak nainjen, iz ega proizlazi potreba za ispunjenjem i uvjeta (3-8). Taj e uvjet biti ispunjen
ako je Hessian matrica H pozitivno definitna, u protivnom je u dobivenoj toki maksimum ili sedlo
kriterijske funkcije. Ako je matrica H pozitivno definitna u itavom podruju, tada je kriterijska

3. Algoritmi uenja neuronskih mrea

30

funkcija unimodalna, to jest ima samo jedan minimum (globalni minimum). Kriterijska funkcija
moe biti i multimodalna, to znai da uz globalni minimum ima i lokalnih minimuma.
Numeriki postupci minimiziranja funkcije () osiguravaju konvergenciju samo u lokalni
minimum, to znai da minimizacijiom dobivene vrijednosti parametara ne moraju biti jednake
optimalnim vrijednostima *. Meutim, za veinu praktinih primjena nije niti nuno pronai
parametre *, koji daju globalni minimum, ve se zadovoljavajuim smatraju bilo koje vrijednosti
parametara za koje kriterijska funkcija poprima dovoljno mali iznos, to jest za koje vrijedi:
( ) ,

(3-9)

gdje je R mala pozitivna konstanta.


Pri primjeni neuronskih mrea u identifikaciji dinamikih procesa, kojima je inherentno
svojstvo prisutnost uma, globalni minimum kriterijske funkcije uglavnom i nije optimalno rjeenje.
Naime, eventualnim dolaskom u globalni minimum neuronska mrea naui i sami um koji nema
neku zakonitost ve je sluajnog karaktera, pa njegovim uenjem neuronska mrea odnosno
identificirani model procesa gubi svojstva poopavanja. Stoga je esto potrebno algoritam uenja
mree zaustaviti znatno ranije (vidi poglavlje 4.).
Meutim, problem "zaglavljivanja" algoritma minimiziranja funkcije () u neki od njezinih
lokalnih minimuma nije do kraja izbjegnut jer se lokalni minimum moe pojaviti prije ispunjenja
kriterija (3-9). Neke mogunosti poboljanja konvergencije algoritama uenja koje smanjuju
vjerojatnost pojave ovakvih lokalnih mimimuma ili pomau njihovu prevladavanju dane su u toki
3.2.6.
Dva su osnovna naina minimiziranja funkcije () na kojima se temelje algoritmi uenja
neuronskih mrea: nerekurzivni i rekurzivni.
Prema nerekurzivnom se nainu funkcija () minimizira tako da se promjene parametara
mree akumuliraju preko svih N vektora mjernih podataka (preko bloka podataka) i tek nakon toga
se stvarno promijene parametri mree. Algoritmi uenja neuronskih mrea utemeljeni na ovome
pristupu nazivaju se nerekurzivnim algoritmima uenja (engl. batch, off-line or block-data learning
algorithms). Ovi su algoritmi obraeni u potpoglavlju 3.2.
Prema rekurzivnom se nainu funkcija () minimizira na temelju lokalne kriterijske
funkcije (), to jest parametri mree mijenjaju se nakon svakog vektora mjernih podataka.
Algoritmi uenja neuronskih mrea utemeljeni na ovom pristupu nazivaju se rekurzivnim
algoritmima uenja (engl. recursive, on-line, adaptive or data learning algorithms). Ovi su algoritmi
obraeni u potpoglavlju 3.3.
Ako su svi mjerni podaci funkcije koja se aproksimira na raspolaganju prije poetka postupka
uenja mree, za njezino se uenje mogu primijeniti i rekurzivni i nerekurzivni algoritmi. Meutim,
ako svi uzorci nisu dostupni prije poetka postupka uenja ve se prikupljaju tijekom uenja,
mogue je primijeniti samo rekurzivne algoritme uenja.

3. Algoritmi uenja neuronskih mrea

31

Prije nego se pristupi opisu algoritama uenja, vano je definirati znaenje indeksa koji se koriste
pri njihovu izvodu. Osnovni indeks koji se koristi jest indeks iteracije (korak izvoenja) algoritma
k. Meutim, njegovo znaenje ovisi o vrsti algoritma i o njegovoj primjeni. Na slici 3.1.a) prikazano
je znaenje indeksa iteracije algoritma za nerekurzivne, a na slikama 3.1.b) i 3.1.c) za rekurzivne
algoritme. Kod nerekurzivnih algoritama indeks iteracije algoritma k oznaava iteraciju bloka
podataka. To znai da se u svakoj iteraciji algoritma obrauju svi mjerni podaci. Kod rekurzivnih se
algoritama indeks iteracije algoritma k mijenja pri svakoj pojavi novog vektora mjernih podataka na
ulazu mree. Ako se rekurzivni algoritmi primjenjuju za uenje mree na temelju bloka podataka,
indeks k nema vremensko znaenje ve oznaava samo to da se parametari mree mijenjaju nakon
svakog vektora podataka. Nakon to je na ulazu mree bio posljednji (N-ti) vektor iz bloka mjernih
podataka izraunava se iznos funkcije () i na ulaz se mree ponovo dovodi prvi vektor istog
bloka podataka. Zbog toga to se funkcija () izraunava nakon prolaska algoritma uenja kroz
itavi blok podataka uveden je poseban indeks iteracije bloka podataka kb koji omoguuje njezino
izraunavanje. U sluaju uenja mree na temelju podataka koji u vremenskom slijedu pristiu
tijekom procesa uenja, indeks iteracije algoritma k oznaava diskretno vrijeme. U ovome se
sluaju svaki mjerni podatak pojavljuje samo jedanput na ulazu mree .

3.2. Nerekurzivni algoritmi uenja neuronskih mrea


Veina nerekurzivnih algoritama uenja temelji se na klasinim postupcima nelinearnog
optimiranja koji minimum ciljne funkcije trae na nerekurzivan nain. Ciljna funkcija koju
algoritmi uenja neuronskih mrea trebaju minimizirati jest kriterijska funkcija (). Algoritmi
uenja minimiziraju funkciju () podeavanjem iznosa parametara mree . Najee koriteni
algoritmi uenja neuronskih mrea zasnivaju se na iterativnom postupku:
( k + 1) = ( k ) + ( k ) = ( k ) + ( k )s d ( k ) ,

(3-10)

gdje je:
sd(k) - smjer traenja minimuma u k-toj iteraciji (zasniva se na informaciji o funkciji ());
(k) - koeficijent uenja u k-toj iteraciji (odreuje duljinu koraka u smjeru traenja).

3. Algoritmi uenja neuronskih mrea

32

=1

=2

...

=N

=1

=2

...

=N

k=1

k=2

=1

=2

...

k=k

a) nerekurzivni algoritmi
k=1
=1

k=2
=2

kb=1

k - indeks iteracije algoritma,


indeks bloka podataka,

..
.
=N

..
.
k=N
=N

...

- indeks mjernog uzorka,


k=N+1
=1

k=N+2
=2

kb=2

k=2N
=N

...

k - indeks iteracije algoritma,


kb - indeks iteracije bloka podataka,

..
.
k=(kb-1)N+1
=1
=2

kb=kb

- indeks mjernog uzorka,

...

k=kb*N
=N

.
..
b) rekurzivni algoritmi, dostupni svi podaci

=1
=2 . . .
...
k=1
k=2
k
T

2T

kT

- indeks mjernog uzorka,


k = kT - diskretno vrijeme, (k=),
T - period uzorkovanja.

c) rekurzivni algoritmi, podaci pristiu tijekom procesa uenja

Sl. 3.1. Znaenja indeks u izrazima algoritama uenja neuronskih mrea: a) nerekurzivnih, b)
rekurzivnih kada se uenje odvija na temelju bloka podataka i c) rekurzivnih kad podaci
pristiu tijekom procesa uenja.

Ovisno o informacijama na kojima se zasniva odreivanje smjera traenja sd(k), numeriki se


postupci minimizacije dijele na postupke izravnoga traenja minimuma (engl. direct search
methods) i gradijentne postupke (engl. gradient methods). Postupci izravnoga traenja minimuma
za odreivanje smjera traenja sd(k) koriste samo informacije o iznosu funkcije (), dok
gradijentni postupci, osim o njezinu iznosu, koriste informacije i o njezinim parcijalnim
derivacijama po parametrima mree koji se podeavaju (npr. Himmelblau 1972; Turk i Budin,
1978).

3. Algoritmi uenja neuronskih mrea

33

Postupci izravnog traenja minimuma openito sporije konvergiraju od gradijentnih


postupaka. Meutim, ponekad je analitiko izraunavanje gradijenta i Hessian matrice kriterijske
funkcije nemogue, ili je zbog velikoga broja parametara mree raunski vrlo zahtijevno, pa je u
tim sluajevima opravdano koristiti izravne postupke traenja. Druga je mogunost primjena
gradijentnih postupaka s numerikim, umjesto analitikoga izraunavanja vrijednosti gradijenta i
Hesssian matrice kriterijske funkcije. Meutim, pri tome treba biti oprezan jer numerikim
postupcima dobivene aproksimacije mogu biti loe, osobito u sluaju vrlo velikih i vrlo malih
promjena parametara, te na taj nain znaajno naruiti svojstva algoritma. Dodatna prednost
izravnih postupaka jest da ne zahtijevaju derivabilnost kriterijske funkcije.
Iz naprijed navedenoga moe se zakljuiti da izravni postupci traenja minimuma imaju
odreenih prednosti u odnosu na postupke koji koriste deriviranje pri optimiranju velikih
neuronskih mrea (npr. mrea s nekoliko stotina neurona), ali da zbog sporije konvergencije nisu
prikladni za uenje neuronskih mrea s manjim brojem parametara. Za potrebe identifikacije i
upravljanja nelinearnim dinamikim procesima obino je dovoljno koristiti mree s do nekoliko
desetaka neurona, to uz mogunost analitikog izraunavanja gradijenta i Hessian matrice funkcije
() opravdava koritenje gradijentnih postupaka za podeavanje njezinih parametara. Stoga se
postupci izravnoga traenja minimuma vie ne obrauju.
Gradijentni postupci najee su koriteni postupci nelinearnoga optimiranja. Mogu se
primijeniti uz uvjet da gradijentni vektor i Hessian matrica funkcije () postoje i da se mogu
izraunati analitiki. Prema nainu odreivanja smjera traenja minimuma sd(k) gradijentni se
postupci nelinearnoga optimiranja dijele u etiri osnovne grupe:
Postupci najbrega spusta:

s d ( k ) : = ( ( k )) ;

Konjugirani postupci:

s d ( k ) : = (( k )) + ( k ) s d ( k 1) , gdje je (k)
skalarni

parametar

koji

osigurava

konjugiranost;
1

Newtonovi postupci:

s d ( k ) : = 2 (( k ))

( ( k )) ;

Kvazi-Newtonovi postupci:

s d ( k ) : = S( k )( ( k )) , gdje je S( k ) 2 ( ( k ))

U nastavku se, u tokama 3.2.1 do 3.2.4 obrauju neki od vanijih nerekurzivnih algoritama uenja
neuronskih mrea zasnovani na navedenim gradijentnim postupcima nelinearnoga optimiranja6) .
Zajedniko je svojstvo svih tih algoritama potreba za izraunavanjem gradijenta kriterijske funkcije
() po parametrima neuronske mree. Izraunavanje gradijenta ( ( k )) za statike (MLP i
RBF) i dinamike (Elmanove i NARX) neuronske mree opisano je u toki 3.2.5.

6)

Algoritmi uenja neuronskih mrea nazivaju se po postupku nelinearnog optimiranja koji koriste. Dakle: algoritmi
najbrega spusta, konjugirano gradijentni algoritmi, Newtonovi algoritmi i kvazi-Newtonovi algoritmi.

3. Algoritmi uenja neuronskih mrea

34

3.2.1. Algoritmi najbrega spusta


Gradijent kriterijske funkcije ( ) u bilo kojoj toki odreenoj vrijednostima parametara
mree jest vektor u smjeru njezinoga najveeg lokalnog poveanja. Prema tome, najvee
smanjenje kriterijske funkcije moe se oekivati u smjeru negativnoga gradijenta (smjer najbrega
spusta, engl. the steepest descent direction) kriterijske funkcije, pa izraz (3-10) poprima oblik:
( k + 1) = ( k ) ( k )( ( k )),

(3-11)

Negativni gradijent kriterijske funkcije odreuje smjer traenja minimuma, ali ne i iznos koraka
traenja. Iznos koraka traenja odreen je iznosom koeficijenta uenja (k), pa se ovisno o nainu
odreivanja koeficijenta uenja dobivaju razni postupci minimizacije u smjeru najbrega spusta.
Openito se minimum kriterijske funkcije ne moe postii u jednom koraku pa se jednadba (3-11)
mora izvoditi iterativno dok se ne pronae minimum. Pri minimizaciji kvadratine funkcije cilja
algoritmom najbreg spusta gradijent ( ( k + 1)) ortogonalan je prethodnom smjeru traenja
(Bazaraa, 1993).
Kod osnovnoga algoritma koeficijent uenja jest skalar nepromjenljiva iznosa. Budui da je to
prvi razvijeni algoritam uenja neuronskih mrea zasnovan na algoritmu povratnoga prostiranja
izlazne pogreke, esto se u literaturi i sam tako naziva. Da bi se osigurala konvergentnost
algoritma (3-11), koeficijent uenja mora biti vei od nule. Njegov iznos mora biti paljivo izabran:
ako je premali, algoritam konvergira suvie sporo tako da u veini sluajeva ne uspijeva ispuniti
kriterij (3-9) u dopustivom broju iteracija. Poveanje koeficijenta uenja poveava brzinu
konvergencije, ali moe rezultirati pojavom parazitnih oscilacija u okolini minimuma kriterijske
funkcije, a pretjerano veliki iznos moe prouzroiti i divergentnost algoritma. Dodatni je nedostatak
algoritma najbrega spusta velika vjerojatnost "zaglavljivanja" u lokalnom minimumu.
Meutim, osim navedenih nedostataka, algoritam najbrega spusta ima i znaajnih prednosti u
odnosu na ostale algoritme uenja. Jednostavan je i zahtijeva manje raunske moi i memorijskog
prostora od ostalih algoritama. Osim toga, njegova velika prednost sa stajalita primjene za uenje
neuronskih mrea jest paralelna struktura (zasebna jednadba za uenje svakog parametra mree)
to ga ini kompatibilnim paralelnoj strukturi neuronskiih mrea. Zbog navedenih razloga
znanstvenici intenzivno prouavaju ovaj algoritam i pokuavaju ga uiniti uinkovitijim.
U literaturi se moe nai veliki broj postupaka poboljanja osnovnoga algoritma koji s vie ili
manje uspjeha rjeavaju njegove, naprijed navedene, nedostatke (Park et al., 1991; Choi et al. 1992;
Quin et al., 1992; Xu et al., 1992; Chen i Jain, 1994; Parlos et al., 1994; Piche, 1994; Ergezinger i
Thomsen, 1995; Yu et al., 1995). Veina postupaka poboljanja iskustvenog (engl. heuristic) su
karaktera. Neki su od njih raunski i memorijski vrlo zahtijevni, tako da ponitavaju glavnu
prednost osnovnog algoritma pa se u ovom radu razmatraju samo najjednostavniji postupci. Svi se
oni mogu predstaviti kao specijalni sluajevi sljedeega opeg oblika algoritma:
( k ) = ( k )( ( k )) + m ( k )( k 1) ,

(3-12)

3. Algoritmi uenja neuronskih mrea

35

gdje je:

m(k) - momentni koeficijent, (m > 0).


Dodavanjem momentnog lana moe se ubrzati konvergencija uenja uz istodobno priguenje
parazitnih oscilacija. Ako se minimizacija trenutno odvija po glatkom dijelu kriterijske funkcije,
tada je njezin gradijent priblino konstantnog iznosa ( ( ) const.) , pa se izraz (3-12) moe
pisati na sljedei nain:
( k )

(k )
( ( k )) .
1 m(k )

(3-13)

Prema tome, stvarni se koeficijent uenja poveao 1/(1-m) puta. U sluaju pojave parazitnih
oscilacija momentni lan pomae njihovom smirivanju. U nastavku se opisuje nekoliko postupaka
podeavanja koeficijenata (k) i m(k). Osnovni je postupak da se oba koeficijenta dre
konstantnima cijelo vrijeme postupka uenja, primjerice na iznosima (k)=0.001-0.01 i m(k)=0.80.9 (Phansalkar i Sastry, 1994).
S ciljem poveanja brzine konvergencije algoritma najbrega spusta u poetnoj fazi uenja i
izbjegavanja parazitnih oscilacija u zavrnoj fazi uenja (u okolini minimuma kriterijske funkcije),
Darken i Moody (1991) predloili su primjenu jednoga od dva sljedea izraza koji tijekom postupka
minimizacije postupno smanjuju koeficijent uenja:

(k ) = o

1
1+

k
ko

(3-14)

odnosno
1+

(k ) = o

1+

ck
o ko

ck
k
+ ko ( )2
ko
o ko

(3-15)

gdje su o > 0, c > 0, ko >> 1 (tipino izmeu 100 i 500) parametri vrijednosti kojih treba odabrati.
U prvoj fazi uenja, dok je k << k0, koeficijent uenja opada sporo i priblino je jedanak poetnoj
vrijednosti o, a nakon toga, kad je k >> ko, naglo opada, priblino po zakonu 1/k. Veliki je
nedostatak opisanoga postupka podeavanja koeficijenta uenja (k) to ne koristi povratne
informacije o napretku postupka minimizacije. Zbog toga, osobito ako parametri u izrazu (3-14)
odnosno (3-15) nisu dobro odabrani, postupak minimizacije moe vrlo lako postati divergentan.
Bolji se rezultati mogu oekivati ako se podeavanje koeficijenta uenja temelji na spoznaji o
napretku postupka minimizacije. Jedan od najjednostavnijih postupaka koji se pokazao vrlo
uinkovitim predloili su Vogl et al.(1988). Proces minimizacije zapoinje s malim koeficijentom
uenja (tipino (0) =10-3) i s ukljuenim momentnim lanom (tipino m=0.9), a zatim se oni
tijekom procesa minimizacije mijenjaju na sljedei nain:

3. Algoritmi uenja neuronskih mrea

R| ( k 1),
( k ) = S ( k 1),
|T ( k 1),
i

36

m ( k ) = m ( 0),
m ( k ) = 0,
m ( k ) = m ( k 1)

za (( k )) < ( ( k 1)),
za ( ( k )) ( ( k 1)),

(3-16)

inae.

Vogel et al. predlau sljedee vrijednosti parametara u izrazu (3-16): i = 1.05 , d = 0.7, = 1.03.
Dakle, koeficijent se uenja mijenja u skladu s promjenom iznosa kriterijske funkcije u tekuem
iteracijskome koraku u odnosu na njezin iznos u prethodnome koraku. Ako joj se iznos smanji,
koeficijent uenja se povea, a ako se povea za vie od puta, koeficijent uenja se smanji i
iskljui se momentni lan.
Chan i Fallside (1987) predloili su postupak podeavanja koeficijenta uenja i momentnog
koeficijenta na osnovi kuta izmeu aktualnoga smjera traenja i smjera traenja iz prethodnoga
koraka. Njihov algoritam glasi:
( k ) = ( k ) ( ( k )) + ( k )( k 1) ,

(3-17)

gdje je:

(k ) = 0

( ( k )) 2
,
( k 1) 2

( k ) = ( k 1) 1 + a cos ( k ) ,
cos ( k ) =

( ( k ))T ( k 1)
,
( ( k )) 2 ( k 1) 2

a - konstanta iznosa izmedu 0.1 i 0.5.

3.2.2. Konjugirani gradijentni algoritmi

Kod algoritama najbrega spusta novi smjer traenja minimuma kriterijske funkcije jednak
je njezinom negativnom gradijentu u tekuem koraku i ne ovisi o smjerovima traenja u prethodnim
koracima. Potrebni broj iteracija za odreivanje minimuma kriterijske funkcije moe se znatno
smanjiti ako se novi smjer traenja izabire tako da bude konjugiran prethodnim smjerovima
traenja. Zbog toga se ovi algoritmi i nazivaju konjugiranim gradijentnim (engl. Conjugate
Gradient, skraeno CG) algoritmima.
Openito je skup n linearno neovisnih smjerova traenja sd(0), sd(1),...,sd(n-1) konjugiran u
odnosu na neku pozitivno definitnu matricu Q ako vrijedi:
sTd ( i )Qs d ( j ) = 0,

0 i j n 1.

(3-18)

Standardno se kod konjugiranih gradijentnih algoritama smjerovi traenja izabiru konjugirani u


odnosu na Hessian matricu H kriterijske funkcije (). Ako je () kvadratna funkcija od n()
parametara mree (u izrazu (3-1) umjesto znaka vrijedi znak =), smjerovi traenja konjugirani u
odnosu na Hessian matricu i stvarno su konjugirani, pa se minimum kriterijske funkcije moe
odrediti u n() iteracija. Za algoritme se kae da imaju kvadratnu konvergentnost ako im za

3. Algoritmi uenja neuronskih mrea

37

pronalaenje minimuma kvadratne funkcije treba tono odreen broj iteracija. Prema tome,
konjugirani gradijentni algoritmi spadaju u kvadratno konvergentne algoritme. Meutim, openito
je () sloenijeg oblika od kvadratnoga pa smjerovi traenja konjugirani u odnosu na Hessian
matricu ne moraju biti i stvarno konjugirani, te je za odreivanje minimuma kriterijske funkcije
potreban vei broj iteracija od n(), ali ipak znatno manji od broja iteracija kod algoritama
najbrega spusta.
Iako se u literaturi moe nai vie varijanti konjugiranih gradijentnih algoritama, najee se
koriste algoritmi kod kojih se smjer traenja minimuma u k-toj iteraciji sd(k) odreuje kao linearna
kombinacija trenutne vrijednosti negativnoga gradijenta kriterijske funkcije -((k)) i prethodnih
smjerova traenja sd(0), sd(1),..., sd(k-1) (Himmelblau, 1972):
k 1

s d ( k ) = ( ( k )) + ( l )s d ( l ) .

(3-19)

l=0

Konjugiranost smjera sd(k) s prethodnim smjerovima postie se odgovarajuim izborom teinskih


koeficijenata (l) za prethodne smjerove traenja. S obzirom da je izraz (3-19) iterativan, mogue je
pronai odgovarajui koeficijent (k) koji e omoguiti izraunavanje smjera sd(k) kao linearne
kombinacije trenutne vrijednosti negativnoga gradijenta kriterijske funkcije -((k)) i
prethodnoga smjera traenja sd(k-1), osiguravajui pri tome njihovu konjugiranost:
s d ( k ) = ( ( k )) + ( k )s d ( k 1) .

(3-20)

Koeficijent (k) odreuje se iz uvjeta da smjerovi sd(k) i sd(k-1) budu konjugirani u odnosu na
Hessian matricu. Na osnovi izraza (3-18) moe se zakljuiti da e oni biti konjugirani u odnosu na
Hessian matricu ako je ispunjen sljedei uvjet:
sTd ( k )Hs d ( k 1) = 0 .

(3-21)

Provjera ispunjenja uvjeta (3-21) uz tono izraunavanje Hessian matrice uinilo bi ovaj algoritam
previe sloenim u odnosu na njegovu brzinu konvergencije pa se Hessian matrica obino estimira
na temelju poznatih gradijenata. Razvojem gradijentne funkcije () u Taylorov red i
zanemarivanjem tree i viih potencija dobije se:

( ( k )) (( k 1)) + 2 ( ( k 1)) ( k ) ( k 1) .

(3-22)

Prema izrazu (3-12) je (k) - (k -1) = (k -1)sd(k -1), to uvrteno u izraz (3-22) daje:
( ( k )) = (( k 1)) + H ( k 1)s d ( k 1) .

(3-23)

Izluenjem sd(k-1) iz izraza (3-23) i njegovim uvrtenjem u (3-21) uzimajui u obzir izraz (3-20),
dobije se sljedei izraz (Hestenes-Stiefelov izraz) za izraunavanje koeficijenta (k):
T

( ( k )) ( ( k 1)) (( k ))
.
(k ) = T
s d ( k 1) ( ( k )) ( ( k 1))

(3-24)

esto se umjesto izraza (3-24) koriste pojednostavljeni izrazi utemeljeni na pretpostavci da je


kriterijska funkcija priblino kvadratnoga oblika, to jest da je izraz (3-8) njezina zadovoljavajue

3. Algoritmi uenja neuronskih mrea

38

dobra aproksimacija. Na temelju uvjeta konjugiranosti (3-18) moe se pokazati da za kvadratni


oblik kriterijske funkcije vrijedi (Himmelblau,1972):
sTd ( i )( ( j )) = 0,

0 i j 1.

(3-25)

Uvrtenjem uvjeta (3-25) u izraz (3-24) dobije se sljedei pojednostavljeni izraz (Polak-Ribiereov
izraz) za izraunavanje koeficijenta (k):
T

( ( k )) ( ( k 1)) (( k ))
.
(k ) =
T (( k 1))( ( k 1))

(3-26)

Ako je ispunjen uvjet (3-25), tada i umnoak T((k-1))((k)) tei k nuli, pa se koeficijent
(k) esto izraunava po dodatno pojednostavljenom izrazu (Fletcher-Reevesov izraz):
T (( k ))( ( k ))
.
(k ) =
T ( ( k 1))( ( k 1))

(3-27)

Nakon izraunavanja iznosa koeficijenta (k) jednim od izraza (3-25)-(3-27), a potom


odreivanja smjera traenja minimuma u k-toj iteraciji algoritma prema izrazu (3-20), potrebno je
odrediti i duljinu koraka u smjeru traenja. Ona se odreuje iznosom koeficijenta uenja (k) u
izrazu (3-10), prema kojemu se izraunavaju nove vrijednosti parametara neuronske mree. Iznos
koeficijenta uenja (k) odreuje se nekim od postupaka minimizacije funkcije jedne varijable.
Primjerice, postupkom zlatnoga reza ili postupcima zasnovanim na kvadratnoj odnosno kubnoj
interpolaciji funkcije (npr. Bazaraa et al., 1993). Minimizira se funkcija
( ( k )) = [( k ) + ( k )s d ( k )]

(3-28)

po koeficijentu (k) u smjeru sd(k). Bazaraa et al. (1993) dokazuju da je konvergencija


konjugiranoga gradijentnog algoritma u velikoj mjeri ovisna o tonosti odreivanja optimalnoga
iznosa koeficijenta (k). Charalambous (1992) je predloio vrlo uinkovit postupak odreivanja
optimalnoga iznosa koeficijenta uenja, zasnovan na kubnoj interpolaciji funkcije (3-28).
Poetni se smjer traenja izraunava kao negativni gradijent kriterijske funkcije po
parametrima mree, to jest sd(0)=-((0)). Osim toga, nakon svakih se n() iteracija CG
algoritam ponovo pokree (engl. restart of the algorithm) s traenjem minimuma u smjeru
negativnoga gradijenta (Leonard i Kramer, 1990). To je potrebno initi jer je n() najvei mogui
broj konjugiranih smjerova u odnosu na Hessian matricu H, koja je dimenzija n()n().

3.2.3. Newtonovi algoritmi

Za razliku od algoritama najbrega spusta koji za odreivanje smjera traenja minimuma


kriterijske funkcije koriste informacije o njezinim prvim parcijalnim derivacijama po parametrima
mree, Newtonovi algoritmi koriste i informacije o njezinim drugim parcijalnim derivacijama.
Drugim rijeima, algoritmi najbrega spusta zasnivaju se na linearnoj, a Newtonovi algoritmi na
kvadratnoj aproksimaciji kriterijske funkcije u okolini toke (k). Kvadratna aproksimacija

3. Algoritmi uenja neuronskih mrea

39

funkcije () dobije se njezinim razvojem u Taylorov red u okolini toke (k) i zanemarenjem
tree i viih potencija reda:
1
( ) (( k )) + T ( ( k ))( ( k )) + ( ( k ))T 2 ( ( k ))( ( k )) .
2

(3-29)

Gradijent kriterijske funkcije u toki minimuma poprima iznos nula (vidi izraz (3-7)) pa se toka
koja minimizira izraz (3-29) dobije njegovim deriviranjem po vektoru parametara i
izjednaenjem dobivena izraza s nulom:

= ( k ) + 2 (( k )) ( k ) = 0 .

(3-30)

Uvrtenjem =(k+1) u izraz (3-30) uz uvjet da postoji inverzija Hessian matrice, dobije se
iterativni izraz za izraunavanje vrijednosti parametara mree:
( k + 1) = ( k ) 2 (( k ))

(( k )) .

(3-31)

Iz izraza (3-12) i (3-31) vidi se da je smjer traenja minimuma kod Newtonovih algoritama:
s d ( k ) = 2 ( k )

( k ) = H 1 (( k ))( ( k )) .

(3-32)

Ako je funkcija () kvadratnog oblika, Newtonov algoritam, definiran izrazom (3-31),


izraunava njezin minimum u jednoj iteraciji. Prema tome, Newtonov algoritam ima, kao i
konjugirano gradijentni algoritmi, kvadratnu konvergenciju, s tim da konvergira znatno bre
(umjesto n() potrebna mu je samo jedna iteracija). Openito je funkcija () sloenijeg oblika od
kvadratnog pa je za odreivanje njezina minimuma potrebno vie iteracija, ali uglavnom znatno
manje nego za algoritme najbrega spusta i konjugirane gradijentne algoritme. Meutim, iz uvjeta
(3-10) proizlazi da e smjer traenja sd(k) biti usmjeren prema minimumu funkcije () samo ako
je Hessian matrica pozitivno definitna, a ona je pozitivno definitna samo za strogo konveksne
funkcije. Prema tome, ako kriterijska funkcija nije strogo konveksna, Newtonov algoritam moe
divergirati. Zbog toga je za Newtonov algoritam vrlo vano izabrati poetne vrijednosti parametara
(0) dovoljno blizu toke minimuma da se osigura pozitivna definitnost Hessian matrice odnosno
konvergentnost algoritma. Za razliku od Newtonova algoritma, algoritam najbrega spusta
konvergira neovisno o poetnim uvjetima (uz uvjet da je Jacobian matrica svugdje nesingularna),
naravno samo s linearnom konvergentnou.
Osim to ne osigurava pozitivnu definitnost Hessian matrice u podruju daleko od minimuma,
izraz (3-5) je i raunski vrlo zahtijevan (u svakoj je iteraciji potrebno izraunavati sve lanove
matrice 2e*((k)) pa ga je i iz toga razloga poeljno modificirati. Pri tome treba voditi rauna da
se to manje narue svojstva kvadratne konvergentnosti (Dennis, 1977). Dakle, treba pronai
matricu koja e biti pozitivno definitna u itavom podruju vrijednosti kriterijske funkcije (), a
ujedno dobro aproksimirati Hessian matricu.
Jedan od najvie koritenih i najboljih algoritama za odreivanje aproksimacijske matrice,
koja je pozitivno definitna u itavom podruju vrijednosti funkcije () a zadrava svojstva
kvadratne konvergentnosti, jest Levenberg-Marquardtov algoritam (Levenberg, 1944; Marquardt,

3. Algoritmi uenja neuronskih mrea

40

1963). Stoga se u nastavku ovaj algoritam detaljno obrauje, a uvodi se i njegova modifikacija
kojom se osigurava vea ili barem jednaka brzina konvergencije (vidi potpoglavlje 3.3.) uz
istodobno smanjenje vremena prorauna.

Levenberg-Marquardtov algoritam

Levenberg-Marquardtov algoritam zasniva se na pretpostavci da se pogreka e*() u okolini


toke (k) moe zadovoljavajue dobro aproksimirati s prva dva lana Taylorova reda:
(3-33)
e* ( ) ~e * ( ) = e* ( ( k )) + e* ( ( k )) ( ( k )) .
Zatim se umjesto minimiziranja kriterijske funkcije (3-3a) minimizira njezina aproksimacija:
~
1 T
( ) = ~e * ( ) ~e * ( ) .
2

(3-34)

~
Iz uvjeta ( ) = 0 dobije se sljedei izraz koji minimizira funkciju (3-34):
J T ( ( k )) J( ( k )) ( ( k )) + J T ( ( k )) e* ( ( k )) = 0 .

(3-35)

Uvrtenjem izraza (3-4) u izraz (3-35) te dodavanjem koeficijenta uenja (k), uz =(k+1),
dobije se sljedei izraz za izraunavanje parametara mree:
( k + 1) = ( k ) ( k ) J T ( ( k )) J ( ( k ))

J T ( ( k ) ) e* ( ( k )) .

(3-36)

U literaturi se izraz (3-36) naziva Gauss-Newtonov algoritam za (k)=1 odnosno prigueni GaussNewtonov algoritam za promjenljivi (k) <1 (Denis-Schnabel, 1983; Ljung, 1987). Usporedbom
izraza (3-31) i (3-36) vidi se da je Hessian matrica zamijenjena matricom
~
(3-37)
H(( k )) = J T (( k ))J (( k )) ,
~
koja je jednaka prvom lanu Hessian matrice definirane izrazom (3-5). Matrica H je pozitivno
semidefinitna, to je dovoljan uvjet da algoritam (3-36) ne divergira. Meutim, ako mjerni podaci
~
nisu dovoljno informativni ili ako neuronska mrea ima preveliki broj neurona, matrica H moe
postati loe kondicionirana, to jest skoro singularna ili singularna, to ima za posljedicu numeriku
~
nestabilnost algoritma. Za prevladavanje ovih problema potrebno je matricu H dodatno promijeniti
da se dobije pozitivno definitna matrica u itavom podruju vrijednosti kriterijske funkcije.
Pojavljuje se i dodatni problem: pri velikim promjenama apsolutnih iznosa parametara (k)
= - (k) aproksimacija pogreke Taylorovim redom prema izrazu (3-33) ne zadovoljava, pa
~
smanjenje iznosa funkcije ( ) ne mora dovesti i do smanjenja iznosa funkcije ( ) . S ciljem
poboljanja uvedene Taylorove aproksimacije pogreke odnosno poveanja vjerojatnosti smanjenja
~
kriterijske funkcije ( ) smanjenjem aproksimacijske funkcije ( ) , Levenberg (1944) je
predloio ograniavanje apsolutnih iznosa promjene parametara te minimizaciju aproksimacijske
funkcije uz uvedena ogranienja. Apsolutni iznos promjena parametara kao i iznos pogreke
ograniavaju se primjenom postupka najmanjih kvadrata za minimizaciju sljedee funkcije:

3. Algoritmi uenja neuronskih mrea

41

LM
0
M
MM
N0

~
( ) = ( ) + T

0
0

n ( )

OP
PP ,
PQ

(3-38)

gdje je:

- pozitivni skalar, odnosno teinski koeficijent koji izraava relativni znaaj ogranienja
promjene i-tog parametra;

- pozitivni skalar, koji izraava relativni znaaj i pogreke i promjena parametara u


postupku minimzacije.

Iz uvjeta ( ) = 0 dobije se sljedei izraz, koji minimizira funkciju (3-38):


H(( k )) ( ( k )) + J T ( ( k )) e* ( ( k )) = 0 .

(3-39)

gdje je:
H( ( k ))

- Levenbergova aproksimacijska matrica Hessian matrice:

LM
1 0
H (( k )) = J ( ( k )) J( ( k )) + M
M
MN 0

0
0

n ( )

OP
PP .
PQ

(3-40)

~
Matrica H (( k )) ima isti oblik kao matrica H( ( k )) . Razlikuju se samo lanovi na glavnoj
dijagonali koji su uveani proporcionalno iznosima teinskih koeficijenata i. Aproksimacijska je
matrica H(( k )) simetrina kao i izvorna Hessian matrica H((k)), a odgovarajuim se izborom
iznosa koeficijenata i i osigurava njezina dobra kondicioniranost odnosno pozitivna definitnost.
Ova svojstva matrice H(( k )) omoguuju primjenu pojednostavljenih postupaka rjeavanja
sustava jednadbi (3-39), bez izravnoga izraunavanja inverzne matrice (Chen et al., 1989).
Rjeavanjem sustava jednadbi (3-39) dobije se vektor parametara koji minimizira funkciju
( ) , a moe se dokazati da odgovarajuim izborom koeficijenata i i isti vektor minimizira i
stvarnu kriterijsku funkciju (). Dokaz slijedi.
Ako se toka minimuma funkcije ( ) za bilo koji pozitivni iznos koeficijenta oznai s
i desni lan izraza (3-38) s ( ) uz pretpostavku da toka (k) nije toka minimuma, moe se
~
~
~
~
pisati ( ) < ( ) + ( ) = ( ) < ( ( k )) = ( ( k )) + ( ( k )) = ( ( k )) , odakle
proizlazi:
~
~
( ) < (( k )) .

(3-41)

~
Nadalje, ako se s oznai toka minimuma funkcije ( ) , moe se pisati
~
~
~
( ) + ( ) = ( ) < ( ) = ( ) + ( ) < ( ) + ( ) , odakle proizlazi

3. Algoritmi uenja neuronskih mrea

42
( ) < ( ) .

(3-42)

Nejednadba (3-41) pokazuje da se minimiziranjem funkcije (3-38) minimizira i funkcija (3-34), a


nejednadba (3-42) da se promjene parametara u odnosu na Gauss-Newtonov algoritam
ograniavaju smanjenjem zbroja njihovih kvadrata .
Ako koeficijent , izraz (3-39) prelazi u Gauss-Newtonov algoritam (3-36), koji se, prema
tome, moe smatrati specijalnim sluajem Levenbergova algoritma.
Rjeavanjem sustava jednadbi (3-39) za u okolici nule i deriviranjem dobivena vektora
parametara po koeficijentu , uz =0 dobije se (Levenberg, 1944):

LM 1 0
MM 1
0
= MM
MM
MM0 0
N
1

d
d

=0

OP
PP
0 P
PP J ()e () .
1 PP
PQ
0

(3-43)

n( )

Na osnovi izraza (3-43) i (3-4) dobije se sljedei izraz za izraunavanje derivacije stvarne
kriterijske funkcije () po parametru :

LM 1 0
MM 1
MM0
MM
MM0 0
N
1

d
d

=0

d
= J T ( )e* ( )
d

OP
PP
0 P
PP J ()e () .
1 PP
PQ
0

(3-44)

n( )

Iz izraza (3-44) vidi se da je derivacija kriterijske funkcije po koeficijentu negativna (za =0), to
jest da se njezin iznos smanjuje. Prema tome, postoji iznos koeficijenta (0,) uz koji e se iznos
funkcije pogreke () smanjivati.
Teoretski se najbolji iznos koeficijenta dobije rjeavanjem jednadbe:
d( ( k ), )
= 0.
d

(3-45)

Zbog sloenosti rjeavanja jednadbe (3-45) u praksi se obino koriste jednostavniji postupci za
izraunavanje iznosa koeficijenta . Mogue je koeficijent zadati kao parametar konstantnoga
iznosa. Tada njegov iznos mora biti dovoljno velik da se osigura pozitivna definitnost
Levenbergove matrice u svakoj toki kriterijske funkcije. Meutim, u tom se sluaju naruava
kvadratna konvergentnost algoritma, to znaajno poveava potrebni broj iteracija. Zbog toga je
koeficijent najee skalarna funkcija ovisna o lokalnim svojstvima kriterijske funkcije u tekuoj
iteraciji.

3. Algoritmi uenja neuronskih mrea

43

Levenberg (1944) je predloio izraunavanje koeficijenta na temelju sljedeega izraza:


( ( k + 1), ) ( ( k )) +

FG d(( k ), )IJ
H d K

(3-46)

=0

Pod pretpostavkom da su poetne vrijednosti parametara (0) dobro odabrane tako da je funkcija
() priblino kvadratinog oblika, tada e ( ( k + 1), ) biti malog iznosa. Njegovim
izjednaenjem s nulom iz izraza (3-46) dobije se sljedei izraz za izraunavanje koeficijenta :

( ( k ))
.
d
d = 0

(3-47)

Pri izvoenju izraza za izraunavanje koeficijenta nisu uzimani u obzir iznosi koeficijenata
i, osim to je pretpostavljeno da su vei od nule. Levenberg (1944) predlae da se koeficijenti i
odrede iz uvjeta da usmjerena derivacija (engl. directional derivative) funkcije ( ) du krivulje i
= i, za = 0 ima minimalnu vrijednost:

d
d

R|
S|
T

F d I
GH d JK

n( )

i =1

U|
V| =
W

F d
GH d

n( )
i =1

i = i

IJ
K

(3-48)

(3-49)

Uvrtenjem izraza (3-44), (3-43) i (3-4) u (3-48) dobije se:

F
GH

*
1 e j *
ej

i =1 j =1 i i

n( ) Ne

I
JK

F e I
GH e JK

n( ) Ne

*
j

i =1 j =1

*
j

Oigledno je da i = 1 predstavlja rjeenje jednadbe (3-49), to uvrteno u izraz (3-40) daje


sljedei izraz za Levenbergovu matricu:
H (( k )) = J T ( ( k )) J ( ( k )) + I ,

(3-50)

gdje je =1/.
Prema tome, Levenbergova se aproksimacijska matrica H( ) dobije jednostavnim dodavanjem
~
iznosa koeficijenta dijagonalnim lanovima matrice H ( ) . Zamjenom Hessian matrice u izrazu
(3-31) Levenbergovom matricom (3-50) dobije se izraz za izraunavanje parametara mree:
( k + 1) = ( k ) H 1 ( ( k ))J T ( ( k ))e* ( ( k )) .

(3-51)

Iz izraza (3-44) i (3-47), uz i = 1 i = 1/, dobije se sljedei izraz za izraunavanje


koeficijenta :

e*T ( ( k )) J ( ( k )) J T ( ( k )) e*T ( ( k ))
.
( ( k ))

(3-52)

Za kriterijsku funkciju oblika sloenijeg od kvadratnog pretpostavka da je ( ( k + 1), ) = 0


nije realna, pa su iznosi koeficijenta dobiveni prema izrazu (3-52) preveliki, tako da se algoritam
previe udaljava od Gauss-Newtonova algoritma a pribliava algoritmu najbrega spusta, gubei
znaajno na brzini konvergencije.

3. Algoritmi uenja neuronskih mrea

44

Vrlo uspjean i najee koriten, postupak odreivanja koeficijenta , razradio je Marquardt


(1963), pa se u literaturi algoritam najee i naziva Levenberg-Marquardtovim algoritmom. U
svakoj se iteraciji algoritma koeficijent (k) odreuje drugim iterativnim postupkom. Poetni iznos
koeficijenta (k) odreuje se mnoenjem njegova optimalnog iznosa iz prethodne iteracije
algoritma koeficijentom smanjenja d (d < 1), tj. (k) = d(k-1), osim u prvoj iteraciji kada se
koristi poetna vrijednost 0 koju zadaje korisnik. Uz taj se iznos koeficijenta (k) izraunava
kriterijska funkcija i usporeuje s njezinim iznosom u prethodnoj iteraciji. Ako se iznos kriterijske
funkcije smanjio, iznos koeficijenta (k) smatra se optimalnim i prelazi se na sljedeu iteraciju
algoritma uenja mree, a ako se iznos kriterijske funkcije poveao, iznos koeficijenta (k)
poveava se iterativno, mnoenjem s koeficijentom poveanja i (i > 1) u svakom koraku, dok ne
doe do smanjenja iznosa kriterijske funkcije. Ovim postupkom podeavanja iznosa koeficijenta
(k) postie se dobro priblienje algoritma Gauss-Newtonovu algoritmu uz istodobno osiguranje
njegove konvergentnosti i numerike stabilnosti. Marquardt je predloio sljedee iznose
koeficijenata: 0=0.001, d=0.1 i i=10. Pseudokod Levenberg-Marquardtova algoritma s opisanim
postupkom izraunavanja koeficijenta (k) dan je u tablici 3.1 (str. 47).
Za male se iznose koeficijenta (k) Levenberg-Marquardtov algoritam pribliava GaussNewtonovu algoritmu, a za velike iznose algoritmu najbrega spusta s koeficijentom uenja 1/(k).
Prema tome, poveanjem iznosa koeficijenta (k) osigurava se konvergencija algoritma iz bilo koje
poetne toke (to je svojstveno algoritmu najbrega spusta) koja moe biti izvan podruja
konvergencije Gauss-Newtonova algoritma, dok se smanjenjem njegova iznosa u podruju
konvergencije Gauss-Newtonova algoritma osigurava kvadratna konvergentnost kao i kod GaussNewtonova algoritma. Na taj nain algoritam iskoritava dobra svojstva oba navedena algoritma,
osiguravajui postupan prijelaz iz jednoga u drugi.
Potreban broj iteracija (u pseudokodu oznaenih s l) postupka izraunavanja optimalnog
iznosa koeficijenta (k) Marquardtovim postupkom u svakoj iteraciji (k-toj) samoga algoritma ovisi
o lokalnim svojstvima funkcije () tako da je u nekim iteracijama algoritma dovoljna samo jedna,
a u nekima moe biti potreban veliki broj iteracija postupka izraunavanja koeficijenta (k). Zbog
toga se vrijeme prorauna novih vrijednosti parametara mree moe znatno razlikovati od iteracije
do iteracije algoritma, dok ukupno vrijeme trajanja postupka minimizacije kriterijske funkcije i uz
mali broj iteracija algoritma moe postati predugo.

Modificirani Levenberg-Marquardtov algoritam

Kao rjeenje navedenoga nedostatka Levenberg-Marquardtova algoritma u ovom se radu


predlae novi, vrlo jednostavan jednokorani postupak izraunavanja koeficijenta (k). Izraz za
izraunavanje koeficijenta (k) glasi (Petrovi et al., 1998a):

3. Algoritmi uenja neuronskih mrea

R| ( k 1),
( k ) = S ( k 1),
|T( k 1),
d

45

za ( ( k )) < (1 h ) ( ( k 1));
za (( k )) > (1 + h ) ( ( k 1))

min = ( ( k ))

za (1 h ) (( k 1)) ( ( k )) (1 + h ) (( k 1)) ( ( k )) min


(3-53)

Grafika ilustracija postupka izraunavanja koeficijenta (k) prikazana je na slici 3.2. Dakle, iznos
se koeficijenta smanjuje dok se smanjuje i iznos kriterijske funkcije (d < 1), pribliujui
algoritam postupno Gauss-Newtonovu algoritmu. Kada se dogodi poveanje iznosa kriterijske
funkcije, povea se i koeficijent (i > 1). Prema tome, kod predloenog modificiranog LevenbergMarquardtova algoritma (MLM) nuno dolazi do povremenih oscilacija kriterijske funkcije, to je i
za oekivati, jer je postupak izraunavanja koeficijenta (k) jednokorani. Konvergentnost
algoritma bit e osigurana ako je ispunjen uvjet id > 1.
Oscilacije kriterijske funkcije ((k)) kod MLM algoritma mogu se na prvi pogled initi
njegovim nedostatkom u odnosu na izvorni LM algoritam, meutim, one mogu poveati
vjerojatnost izlaska iz lokalnih minimuma (vidi toku 3.2.6.) pa je u tom smislu MLM algoritam u
prednosti u odnosu na izvorni LM algoritam. Uvoenjem uskoga pojasa histereze (irina histereze
odreena iznosom koeficijenta h) u algoritam izraunavanja koeficijenta smanjuju se oscilacije
funkcije kakvoe aproksimacije u blizini njezina minimuma, ime se omoguuje tonije
odreivanje toke minimuma.

( k ) = i ( k 1 )
( k ) = d ( k 1 );
min = ( ( k ))

( k ) = ( k 1 )
( k ) = d ( k 1 ); min = ( ( k ))

( k ) = ( k 1 )

Sl. 3.2. Ilustracija postupka izraunavanja koeficijenta (k) u ovisnosti o tijeku funkcije ((k)).
Preporua se koeficijenate MLM algoritma izabrati u podruju vrijednosti: d=0.5-0.9,
i=1.2/d, 0=0.001 ili 0.01 i h=0.0-0.01. Pseudokod modificirana Levenberg-Marquardtova
algoritma dan je u tablici 3.1 usporedo s pseudokodom izvornog LM algoritma.

Implementacija Newtonovih algoritama

Osnovni su nedostaci svih Newtonovih algoritama, pa i predloena modificirana LM


algoritma, veliki zahtjevi za memorijskim prostorom te potreba izraunavanja inverzije Hessian
matrice odnosno njezinih aproksimacijskih matrica, to se vidi iz izraza (3-31), (3-36) i (3-51).
Prema tome, Newtonovi su algoritmi prikladni za uenje neuronskih mrea s manjim brojem
parametara (negdje do 200 parametara). Meutim, zahvaljujui svojstvu pozitivne definitnosti i

3. Algoritmi uenja neuronskih mrea

46

simetrinosti ovih matrica, mogue je izbjei izraunavanje njihove inverzne matrice primjenom
nekog od numerikih postupaka dekompozicije (Bierman, 1977).
Primjenom postupaka ortogonalne dekompozicije mogue je postii numeriki robusnu
implementaciju algoritma i u sluaju loe kondicioniranosti aproksimacijske Hessian matrice, pa su
ovi postupci prikladni za implementaciju Gauss-Newtonova algoritma, to jest za rjeavanje sustava
jednadbi (3-36). Mor (1977) je pokazao da se primjenom Givensovog postupka ortogonalne
dekompozicije za rjeavanje sustava jednadni (3-36) postie robustan algoritam s dobrim
svojstvima konvergencije. Meutim, algoritmi ortogonalne dekompozicije raunski su barem
dvostruko zahtijevniji od Choleskyeva algoritma dekompozicije, koji takoer osigurava robusnu
implementaciju, pod uvjetom da je aproksimacijska Hessian matrice dobro kondicionirana (Chen et
al., 1989). Zbog toga se za implementaciju LM i MLM algoritama kod kojih je osigurana pozitivna
definitnost i dobra kondicioniranost aproksimacijske matrice H( ) moe primijeniti jednostavniji
Choleskyev algoritam dekompozicije (Ralston i Rabinowitz, 1978; Hagan i Menhaj, 1994).
Dodatna je prednost primjene Choleskyeva algoritma mogunost smanjenja potrebnoga
memorijskoga prostora.
Uvoenjem oznake b = J Te * izraz (3-51) moe se prikazati kao sustav od n() jednadbi s
n() varijabli:
H = b .

(3-54)

Primjenom Choleskeyeva algoritma dekompozicije matrica H jednoznano se rastavlja na


umnoak dviju trokutnih matrica:
H = LU ,
gdje je:

LM l
l
L= M
MM
Nl

1,1

2,1

l2, 2

0
0

n ( ),1

ln ( ), 2

ln ( ),n ( )

LM1
0
U=M
MM
N0

u1,2

u1,n ( )

u2,n ( )

OP
PP
PQ

(3-55)

OP
PP - donje trokutna matrica,
PQ
- gornje trokutna matrica s jedinicama na dijagonali.

Dakle, sustav jednadbi (3-54) rastavlja se u dva, lako rjeiva, trokutna sustava jednadbi:
b = Lc,

(3-56)

U = c,

(3-57)

Postupak rjeavanja polaznoga sustava jednadbi (3-54) odvija se u dvije glavne programske petlje.

3. Algoritmi uenja neuronskih mrea

47

Tablica 3.1. Pseudokod Levenberg-Marquardtova algoritma a) i


Modificiranoga Levenberg-Marquardtova algoritma b).
a) Levenberg-Marquardtov (LM) algoritam
inicijalizacija:
zadavanje parametara: 0 ; d; i; max, e, kmax ;
postavljanje poetnih vrijednosti: k = 0; l = 0; (k,l) = 0; (0); ((0));
iteriranje algoritma:
dok je ( ( k )) >

& 0 k kmax

izraunaj: ( k + 1, l = 0 ) = ( k ) J T ( ( k )) J( ( k )) + ( k , l = 0) I

J T ( ( k )) e* ( ( k )) ; (( k + 1, l = 0)) ;

dok je ( ( k + 1, l )) ( ( k ))

(k, l+1) = (k, l) i;


ako je (k, l+1) > max
ispii poruku: NE KONVERGIRA;
l = l + 1;
izraunaj nove vrijednosti (k+1,l), ((k+1,l));
k = k +1; (k,0) = (k-1, l) d;

( k ) = ( k , l ) ; ((k)) = ((k,l)); l = 0;

kraj

b) Modificirani Levenberg-Marquardtov (MLM) algoritam


inicijalizacija:
zadavanje parametara:

0; d; i; min; max; e; kmax;

postavljanje poetnih vrijednosti:

k = 0; (k) = 0; (0); ((0)); min=((0))

iteriranje algoritma:
dok je ( ( k )) > & 0 k kmax
izraunaj: ( k + 1) = ( k ) J T ( ( k )) J ( ( k )) + ( k ) I

J T ( ( k )) e* ( ( k )) ;

ako je (1 h )(( k )) ( ( k + 1)) (1 + h )( ( k )) ( ( k )) min

(k +1) = (k);
inae
ako je ( ( k + 1)) > (1 + h )( ( k ))

(k +1) = (k) i;
ako je (k+1) > max
ispii poruku: NE KONVERGIRA;
inae

(k+1) = (k) d; min=((k));


k = k +1;
kraj

((k+1));

3. Algoritmi uenja neuronskih mrea

48

U prvoj se izraunavaju iznosi lanova trokutnih matrica L i U, a zatim prema izrazu (3-56) i
lanova vektora c, a u drugoj se iz izraza (3-57) povratnom supstitucijom izraunavaju iznosi
promjena parametara mree . Pseudokod algoritma dan je u tablici 3.2.
Opisani
3

Choleskyev

algoritam

rjeavanja

sustava

jednadbi

(3-51)

zahtijeva

n() /6+O(n() ) mnoenja, dok samo inverzija matrice dimenzije n()n() zahtijeva n()3
mnoenja. Algoritam omoguuje i utedu memorijskoga prostora smjetanjem matrica L i U u
zajedniku matricu:

LM l
l
=M
MM
Nl

2 ,1

u1, 2
l2, 2

u1,n ( )
u2,n ( )

n ( ),1

ln ( ), 2

ln ( ),n ( )

1,1

L\U

OP
PP .
PQ

(3-58)

Paralelna izvedba Newtonovih algoritama

Newtonovi algoritmi minimizacije kriterijske funkcije imaju znatno bru konvergenciju


(barem za red veliine) od algoritama najbrega spusta i konjugiranih algoritama, ali su i raunski
znatno sloeniji. S obzirom na potpunu popunjenost Hessian matrice (3-3) i njezine aproksimacije
(3-37) i (3-50), Newtonovi algoritmi zahtijevaju centralizirano izraunavanje novih vrijednosti
parametara mree. Prema tome, ako se eli primijeniti paralelna implementacija neuronske
mree, nije mogue koristiti Newtonove algoritme uenja. Stoga je potrebno pronai
odgovarajuu matricu, koja e omoguiti paralelno (decentralizirano) izraunavanje novih
vrijednosti parametara mree, a da se pri tome to manje narue svojstva konvergentnosti
Newtonovih algoritama. U nastavku se opisuje postupak paralelne izvedbe Newtonovih algoritama
kojim se izraz (3-51) razlae na nn (nn je ukupan broj neurona u mrei) neovisnih izraza od kojih
svaki odgovara jednom neuronu mree, izraunavajui iznose njegovih parametara.
Ako se vektor parametara mree dimenzije n() rastavi na nn vektora i dimenzije n(i)
(n(i) je jednako n(l-1)), Jacobian matrica (3-6) poprima sljedei oblik:
J ( ) = J1 ( ) J 2 ( )
gdje je:

LM
MM
M
e ( ) M
J ( ) =
=M

MM
MM
MN
*

J nn ( ) ,

(3-59)

e1*
i,1
e*2
i,1

e1*
i , 2
e*2
i , 2

e1*
i ,n ( )
e*2
i ,n ( )

e*N
i,1

e*N
i , 2

e*N
i ,n ( )

OP
PP
PP
PP .
PP
PP
Q

(3-60)

3. Algoritmi uenja neuronskih mrea

49

Tablica 3.2. Pseudokod Choleskyeva algoritma za izraunavanje parametara


neuronske mree prema izrazu (3-51).
za i = 1 do n()
za j = i do n()
ako je i = 1

l j ,1 = h j ,1 ;
inae
i 1

l j ,i = a j ,i li,k uk ,i ;
k =1

za j = i+1 do n()
ako je i = 1

h1, j

u1, j =

l1,1

inae

ui, j =

i 1
1
( ai, j li ,k uk , j ) ;*)
li,i
k =1

ako je i = 1

c1 =

b1
;
l1,1

ci =

i 1
1
( bi li ,k bk ) ;
li ,i
k =1

inae

n() = cn();
za i = n() -1 do 1

i = ci

n( )

i ,k

k ;

k = i +1

kraj
*)

Zbog simetrinosti matrice H proraun ui,j dodatno se pojednostavljuje (Salvadori i Baron, 1961):

ui, j =

1
l j ,i .
li,i

Uvrtenjem izraza (3-59) u (3-50) dobije se sljedei izraz za Levenbergovu matricu:

LM H
H
H( ) = M
MM
MN H

1,1

H1, 2

H1,nn

2,1

H 2, 2

H 2,nn

nn ,1

H nn ,1

H nn ,1

OP
PP ,
PP
Q

(3-61)

gdje je H i, j matrica dimenzije n(i)n(j):


H i, j = J Ti J j + i, j I .

(3-62)

3. Algoritmi uenja neuronskih mrea

50

Ako se u matrici (3-61) zanemare sve podmatrice H i, j , i j (Kollias i Anastassiou, 1989; Chen et

al., 1990), dobije se sljedea kvazi-dijagonalna matrica (radi saetijeg zapisa indeksi i,i zamijenjeni
su indeksima i):

LM
H( ) = M
MM
N

J1T J1 + 1I
0

0
J J 2 + 2I

T
2

0
0

J Tnn J nn + nn

OP
PP .
P
IQ

(3-63)

Prema tome, izraz za izraunavanje parametara mree (3-51) razlae se na nn sljedeih izraza:

i ( k + 1) = i ( k ) J Ti ( ( k ))J i ( ( k )) + i ( k )I

J Ti ( ( k ))e* ( ( k )), i = 1,2,, nn .

(3-64)

Koeficijenti i(k) utjeu na konvergenciju algoritma (3-64) na isti nain kao to koeficijent (k)
utjee na konvergenciju LM i MLM algoritama. Dva su osnovna pristupa izraunavanja
koeficijenata i(k): raspodijeljeni i centralizirani. Prvi se pristup temelji na odreivanju doprinosa
svakog pojedinog neurona smanjenju kriterijske funkcije () i izraunavanju iznosa
odgovarajueg koeficijenta i(k). Takav je pristup primijenjen u Kollias i Anastassiou (1989). Drugi
se pristup temelji na primjeni jedinstvena koeficijenta (k) za sve neurone. Ovaj je pristup raunski
znatno jednostavniji od prvoga jer ne zahtijeva odreivanje pojedinanih doprinosa neurona, ali
algoritmi, openito, sporije konvergiraju. Meutim, vrijeme trajanja jedne iteracije algoritama s
raspodijeljenim izraunavanjem koeficijenata i(k) uglavnom je znatno due, tako da ukupno
vrijeme potrebno za postizanje eljene tonosti moe biti due nego kod algoritama s jedinstvenim
koeficijentom (k). Paralelni algoritam s jedinstvenim koeficijentom (k) koji se izraunava istim
postupkom kao kod LM odnosno MLM algoritma, nazva se Paralelnim Levenberg-Marquardtovim
(PLM) odnosno Paralelnim Modificiranim Levenberg-Marquardtovim (PMLM) algoritmom.

3.2.3. Kvazi-Newtonovi algoritmi


Izraz za izraunavanje novih vrijednosti parametara mree (3-10) za kvazi-Newtonove
algoritme poprima oblik:

( k + 1) = ( k ) ( k )S(( k ))( ( k )) ,

(3-65)

gdje je S((k)) tzv. matrica smjera koja predstavlja aproksimaciju inverzne Hessian matrice
S((k)) H-1((k)), kao i kod Newtonovih algoritama. Meutim, dok se kod Newtonovih
algoritama aproksimacija inverzne Hessian matrice izraunava eksplicitno u svakoj iteraciji
algoritma minimizacije na osnovi drugih parcijalnih derivacija funkcije () po parametrima
mree, kod kvazi-Newtonovih se algoritama aproksimacija inverzne Hessian matrice S((k))
izraunava iterativno na osnovi prvih parcijalnih derivacija kriterijske funkcije po parametrima
mree. Na taj se nain pokuava zadrati dobra konvergencija algoritma minimizacije svojstvena
Newtonovim algoritmima, uz znatno smanjenje sloenosti raunanja.

3. Algoritmi uenja neuronskih mrea

51

Razvojem gradijentne funkcije () u okolini toke (k) u Taylorov red uz zanemarenje


tree i viih potencija reda te uvrtenjem =(k+1) i mnoenjem s H-1((k)) dobije se:

( k + 1) ( k ) = ( k ) = H 1 ( ( k )) (( k + 1)) (( k )) .

(3-66)

Izraz (3-66) moe se promatrati kao sustav n() linearnih jednadbi s n() nepoznatih parametara
koje treba estimirati da bi se odredila aproksimacija matrice H-1((k)). Estimacija se provodi na
osnovi vrijednosti (), () i iz prethodnih koraka iteracije algoritma. Sustav jednadbi (366) moe se rijeiti raznim postupcima, to dovodi do raznih kvazi-Newtonovih algoritama.
U veini se algoritama matrica H-1((k+1)) aproksimira na osnovi vrijednosti u k-toj iteraciji
(Himmelblau, 1972):
H 1 ( ( k + 1)) S(( k + 1)) = S( ( k )) + S( ( k )) ,

(3-67)

gdje je:

- koeficijent normiranja, obino jedininog iznosa;

S((k))

- matrica promjena smjera u k-toj iteraciji algoritma.

Konvergencija algoritma bit e osigurana ako je matrica S((k+1)) pozitivno definitna i ako
jednadba (3-66) ostaje zadovoljena kada se matrica H-1((k)) zamijeni matricom S((k+1)).
Provoenjem ove zamjene u izrazu (3-66) i primjenom izraza (3-67) dobije se:

S( ( k ))g( k ) =

( k ) S(( k ))g( k ) ,

(3-68)

gdje je g( k ) = ( ( k + 1)) ( ( k )) .
Rjeenje jednadbe (3-68) po S((k)) glasi:

S( ( k )) =

1 ( k )r T S( ( k ))g ( k )qT
,

r T g( k )
qT g( k )

(3-69)

gdje su r i q proizvoljni vektori dimenzije n()1.


Razliitim izborom vektora r i q u izrazu (3-69) dobiju se razliiti kvazi-Newtonovi algoritmi
(Bazaraa et al., 1993). Dva su najee koritena kvazi-Newtonova algoritma DFP (DavidonFletcher-Powell) algoritam i BFGS (Broyden-Fletcher-Goldfarb-Shanno) algoritam koji se dobiju
sljedeim izborom vektora r i q (za oba je algoritma =1): r = D(k), q = S((k))Dg(k) za DFP
algoritam i r = q = D(k)-S((k))Dg(k) za BFGS algoritam. Uvrtenjem ovako definiranih vektora
r i q u izraz (3-69) dobije se izraz za izraunavanje matrice promjena smjera za DFP algoritam:
S( ( k )) =

( k )( k )T S(( k ))g( k )g ( k )T S( ( k ))
,

( k )T g( k )
g ( k )T S( ( k ))g ( k )

(3-70)

odnosno za BFGS algoritam:


S(( k )) =

LM
N

OP
Q

( k )( k )T
g ( k )T S(( k ))g( k )
S( ( k ))g( k )( k )T + ( k )g( k )T S( ( k ))
1
+

.
( k )T g( k )
( k )T g( k )
g ( k )T S(( k ))g( k )

(3-71)

3. Algoritmi uenja neuronskih mrea

52

Poetna matrica smjera S(0) moe biti bilo koja pozitivno definitna matrica, a najee se izabire
jedinina matrica (S(0)=I). Smjerovi traenja minimuma s d ( k ) = S(( k ))( ( k )) kod DFP i
BFGS algoritama meusobno su konjugirani za funkciju () kvadratnoga oblika, pa je za
odreivanje njezina minimuma dovoljno n() iteracija. Naravno, za funkciju () sloenijeg
oblika potrebno je vie iteracija pa se algoritam ponovo pokree svakih n() iteracija s poetnom
matricom smjera, analogno kao kod CG algoritma (vidi toku 3.2.2.).
Kada je odreen smjer traenja minimuma sd(k) potrebno je odrediti i optimalni iznos
koeficijenta uenja a(k) u izrazu (3-65). On se odreuje minimizacijom funkcije (3-28) po (k),
primjerice postupkom minimizacije zasnovanom na kubnoj interpolaciji (Bazaraa et al., 1993).
Pozitivna definitnost matrice smjera bila bi osigurana samo u sluaju egzaktnog odreivanja
minimuma funkcije (3-28) u svakom koraku iteracije, to je, openito, neostvarivo. Zbog toga je
potrebno provjeravati definitnost matrice smjera. Ako je matrica smjera negativno definitna, postavi
se na iznos poetne matrice smjera.

3.2.5. Izraunavanje gradijenta kriterijske funkcije po parametrima neuronske mree


Svi se algoritmi uenja neuronskih mrea, opisani u tokama 3.2.1 do 3.2.4, zasnivaju na
gradijentu kriterija kakvoe po parametrima mree () koji se izraunava primjenom algoritma
povratnoga prostiranja izlazne pogreke (BP algoritam, vidi toku 3.1.2.). Prvi je BP algoritam
primijenio Werbos (1974) za izraunavanje gradijenta kriterija kakvoe za MLP neuronske mree
(zbog toga se ove mree u literaturi ponekad nazivaju i BP mreama), dok je njegova intenzivna
primjena zapoela tek 1986. godine kada su ga objavili Rumelhart et al. (McClelland i Rumelhart,
1986).
Openito je gradijent kriterija kakvoe po parametrima neuronske mree () definiran
izrazom (3-2). BP algoritam izraunava parcijalne derivacije kriterija kakvoe po parametrima
mree rekurzivnim postupkom koji se odvija povratno kroz mreu od izlaznoga prema ulaznom
sloju mree (zbog toga se algoritam i naziva algoritmom povratnoga prostiranja). Algoritam se
temelji na pretpostavci da je prostiranje derivacije pogreke kroz mreu linearno.
Za kriterij kakvoe definiran izrazom (3-3a) gradijent se moe izraunavati i prema izrazu (34), to jest kao umnoak Jacobian matrice J() i vektora pogreke e*(). U tom sluaju BP
algoritam izraunava lanove Jacobian matrice, a zatim se gradijent () dobije njezinim
mnoenjem s vektorom pogreke.
Algoritmi najbrega spusta, konjugirani gradijentni algoritmi i kvazi-Newtonovi algoritmi ne
zahtijevaju formiranje Jacobian matrice pa je pri njihovoj implementaciji bolje primijeniti BP
algoritam za izravno izraunavanje gradijenta. Na taj se nain znatno tedi memorijski prostor jer je
za neuronske mree Jacobian matrica obino velikih dimenzija (dimJ()=n(L)Nn() ). Meutim,
Newtonovi algoritmi zahtijevaju formiranje Jacobian matrice pa se pri njihovoj implementaciji BP
algoritam koristi za izraunavanje lanova Jacobian matrice.

3. Algoritmi uenja neuronskih mrea

53

U nastavku se izvode izrazi za izraunavanje gradijenta () za statike (MLP i RBF) i


dinamike (Elmanove i NARX) neuronske mree na oba naina. Primjena algoritma povratnog
prostiranja za izraunavaje gradijenta kriterijske po parametrima dinamikih neuronskih mrea
znatno je sloenija. Naime, zbog povratnih veza u mrei gradijent ovisi i o prolim stanjima mree
(Pich, 1994).

Izraunavanje gradijenta() za MLP neuronske mree

Vektor parametara MLP mree sadri sinaptike teinske koeficijente wl,i,j (vidi izraz (2-22)).
Za implementaciju algoritama koji ne zahtijevaju formiranje Jacobian matrice izraz za
izraunavanje gradijenta kriterija kakvoe po parametrima wl,i,j glasi (Werbos, 1989):

(( k )) N ( ( k )) N ( ( k )) dyl ,i ( ) vl ,i ( )
=
=

=
dvl ,i ( ) wl ,i , j
wl ,i , j
wl ,i , j
= 1
=1 yl ,i ( )
(( k ))
=
l ,i ( vl ,i ( )) xl , j ( ).
yl ,i ( )
=1
N

U izrazu (3-72) preostaje jo rijeiti problem izraunavanja parcijalnih derivacija

(3-72)

( ( k ))
. Za
yl ,i ( )

izlazni sloj mree, uz kriterij kakvoe definiran izrazom (3-3a), moe se pisati:

( ( k ))
= yL,i ( ) yi ( ) .
yL,i ( )

(3-73)

Za unutarnje slojeve mree, uz pretpostavku linearnog prostiranja derivacije pogreke kroz mreu,
( ( k ))
to je pretpostavka na kojoj se temelji BP algoritam, parcijalne se derivacije
yl ,i ( )
izraunavaju prema rekurzivnom izrazu:

( ( k )) n ( l +1) ( ( k )) dyl +1, p ( ) vl +1, p ( )


,
=

yl ,i ( )
yl +1, p ( ) dvl +1, p ( ) yl ,i ( )
p =1

(3-74)

koji se moe napisati i u sljedeem obliku:

(( k )) n ( l +1) (( k ))
=
l +1, p ( vl +1, p ( )) wl +1, p ,i .
yl ,i ( )
p =1 yl +1, p ( )

(3-75)

Indeksi u izrazima (3-72)-(3-75) poprimaju vrijednosti: l = 1,...,L; i = 1,...,n(l); j = 1,...,n(l-1)+1.


Za algoritme koji zahtijevaju formiranje Jacobian matrice (3-6) BP algoritam izraunava
njezine lanove. Za vektor parametara definiran izrazom (2-22) lanovi Jacoban matrice mogu se
napisati u nekom od sljedea dva oblika:

e(* 1)n( L ) + m ( ( k )) em (, ( k ) )
,

wl ,i , j
wl ,i , j

(3-76)

3. Algoritmi uenja neuronskih mrea

54

gdje je = 1,...,N; m = 1,...,n(L); l = 1,...,L; i = 1,...,n(l); j = 1,...,n(l-1)+1.


Prvi je oblik zapisa lanova Jacobian matrice sukladan oznakama koritenim u izrazima (33a)-(3-6), ali se u izrazima koji slijede koristi drugi oblik jer poveava njihovu preglednost, to je
jako vano pri implementaciji. Koristei drugi oblik zapisa lanova Jacobian matrice J((k)), izraz
za njihovo izraunavanje moe se napisati u sljedeam obliku:

em (, ( k )) em (, ( k )) vl ,i ( ) em (, ( k ))
=

=
xl , j ( ) .
wl ,i, j
vl ,i ( )
wl ,i , j
vl ,i ( )
Za izlazni se sloj mree parcijalna derivacija

(3-77)

em (, ( k ))
u izrazu (3-77) izraunava prema
vl ,i ( )

izrazu:

RS
T

L,i ( vL,i ( )) za i = m
em (, ( k ))
,
=
0
za i m
vL,i ( )

(3-78)

a za unutarnje slojeve prema rekurzivnom izrazu:


n(l )
em (, ( k ))
e (, ( k ))
.
= l 1,i ( vl 1,i ( )) wl , p ,i m
vl 1,i ( )
vl ,i ( )
p =1

(3-79)

Nakon to se prema izrazima (3-77)-(3-79) izraunaju svi lanovi Jacobian matrice (njih Nen()),
dobivena se matrica mnoi vektorom pogreke e*((k)) prema izrazu (3-4), dajui kao rezultat
gradijent kriterijske funkcije po parametrima MLP mree.

Izraunavanje gradijenta() za RBF neuronske mree

Vektor parametara RBF neuronske mree sadri teinske koeficijente drugoga (izlaznoga)
sloja mree w2,i,j te koordinate sredita w1,i,j,i varijance 1,i RBF neurona u prvome sloju mree (vidi
izraz (2-23)). Za implementaciju algoritama koji ne zahtijevaju formiranje Jacobian matrice izrazi
za izraunavanje gradijenta kriterija kakvoe po navedenim parametrima RBF mree glase:

(( k )) N ( ( k )) dy2,i ( ) v2,i ( ) N
= y2,i ( ) yi ( ) x2, j ( ) ,
=

w2,i , j
dv2,i ( ) w2,i , j
=1 y2,i ( )
=1

(3-80)

v ( )
(( k )) N ( ( k )) dy1,i ( ) v1,i ( ) N ( ( k ))
,
=
1,i ( v1,i ( )) 1,i
=

w1,i, j
w1,i , j
dv1,i ( ) w1,i , j
=1 y1,i ( )
=1 y1,i ( )

(3-81)

(( k )) N (( k )) dy1,i ( )
.
=

1,i
d 1,i
=1 y1,i ( )

(3-82)

Parcijalne se derivacije kriterija kakvoe po izlazima RBF neurona mree

( ( k ))
u izrazima
y1,i ( )

(3-81) i (3-82) izraunavaju prema izrazu:

( ( k )) n ( 2 ) ( ( k )) dy2, p ( ) v2, p ( ) n ( 2 )
=

= ( y2,i ( ) yi ( )) w2, p ,i .
y1,i ( )
d v2, p ( ) y1, p ( ) p =1
p =1 y2, p ( )

(3-83)

3. Algoritmi uenja neuronskih mrea

55

Indeksi u izrazu (3-80) poprimaju vrijednosti: i = 1,...,n(2); j = 1,...,n(1)+1, a u izrazima (3-81)-(383) i = 1,...,n(1); j = 1,...,n(0).
Za RBF mree s Gaussovim aktivacijskim funkcijama (vidi tablicu 3.2.) izraz (3-81) postaje:

x ( ) w1,i , j
(( k )) N n ( 2 )
,
= ( y2,i ( ) yi ( )) w2, p ,i y1,i ( ) 1, j
w1,i , j
12,i
=1 p =1

(3-84)

a izraz (3-82):
n( 0 )

(( k )) N n ( 2 )
= ( y2,i ( ) yi ( )) w2, p ,i y1,i ( ) m=1
1,i
=1 p =1

( x1,m ( ) w1,i ,m )2

13,i

(3-85)

Za algoritme koji zahtijevaju formiranje Jacobian matrice (3-6) BP algoritam izraunava


njezine lanove prema sljedeim izrazima (uz em(,(k)) e*(-1)n(L)+m((k))):

RS
T

x2, j ( )) za i = m
em (, ( k ))
,
=
za i m
0
w2,i , j ( )

(3-86)

v ( )
em (, ( k ))
,
= w2,m,i 1,i ( v1,i ( )) 1,i
w1,i , j
w1,i, j

(3-87)

dy ( )
em (, ( k ))
.
= w2,m,i 1,i
d 1,i
1,i

(3-88)

Indeksi u izrazu (3-86) poprimaju vrijednosti: m = 1,...,n(2); i = 1,...,n(2); j = 1,...,n(1)+1, a u


izrazima (3-87) i (3-88) m = 1,...,n(2); i = 1,...,n(1); j = 1,...,n(0).
Za RBF mree s Gaussovim aktivacijskim funkcijama izraz (3-87) postaje:
x ( ) w1,i , j
em (, ( k ))
,
= w2,m,i y1,i ( ) 1, j
12,i
w1,i , j

(3-89)

a izraz (3-88):
n( 0 )

em (, ( k ))
= w2,m,i y1,i ( ) m=1
1,i

( x1,m ( ) w1,i ,m )2

13,i

(3-90)

Kao i kod MLP mree, gradijent kriterijske funkcije po parametrima RBF mree dobije se
mnoenjem Jacobian matrice vektorom pogreke e*((k)), prema izrazu (3-4).

Izraunavanje gradijenta() za dvoslojnu Elmanovu neuronsku mreu


Vektor parametara dvoslojne Elmanove neuronske mree sadri teinske koeficijente (w2,i,j) i
pragove osjetljivosti (b2,i) drugoga (izlaznoga) sloja mree te teinske koeficijente (w1,i,j) i pragove
osjetljivosti (b1,i) prvoga sloja mree (vidi izraz (2-34)). Za implementaciju algoritama koji ne

3. Algoritmi uenja neuronskih mrea

56

zahtijevaju formiranje Jacobian matrice izrazi za izraunavanje gradijenta kriterija kakvoe po


parametrima drugog sloja mree glase:

(( k )) N ( ( k )) dy2,i ( ) v2,i ( ) N

=
= y2,i ( ) yi ( ) x2, j ( ) ,
w2,i , j
dv2,i ( ) w2,i , j
=1 y2,i ( )
=1
(( k )) N ( ( k )) dy2,i ( ) v2,i ( ) N
= y2,i ( ) yi ( ) .
=

b2,i
dv2,i ( ) b2,i
=1 y2,i ( )
=1

(3-91)
(3-91a)

Zbog povratnog djelovanja u prvome sloju dvoslojne Elmanove neuronske mree (vidi toku
2.3.2.), gradijent kriterijske funkcije po parametrima prvoga sloja ovisi i o prolim stanjima mree,
to se mora uzeti u obzir. Izrazi za izraunavanje gradijenta kriterija kakvoe po parametrima
prvoga sloja glase:

(( k )) N (( k )) + y1,i ( )
,
=

w1,i , j
w1,i, j
=1 y1,i ( )
(( k )) N ( ( k )) + y1,i ( )
,
=

b1,i
b1,i
=1 y1,i ( )

(3-92)
(3-92a)

gdje je:

+ y1,i ( )
- redne parcijalne derivacije (engl. ordered partial derivatives) izlaza prvog sloja
w1,i, j
po teinskom koeficijentu w1,i,j,

+ y1,i ( )
- redne parcijalne derivacije (engl. ordered partial derivatives) izlaza prvog sloja
b1,i
po pragu osjetljivosti b1,i.
Redne parcijalne derivacije izraunavaju se prema sljedeim rekurzivnim izrazima (Pich, 1994):

+ y1,i ( ) y1,i ( )
y1,i ( ) + y1,i ( 1)
,
=
+

w1,i, j
w1,i, j
y1,i ( 1)
w1,i , j
+ y1,i ( ) y1,i ( )
y1,i ( ) + y1,i ( 1)
,
=
+

b1,i
b1,i
y1,i ( 1)
b1,i
gdje

je

+ y1,i ( 0)
= 0,
w1,i , j

+ y1,i ( 0)
= 0,
b1,i

(3-93)
(3-93a)

y1,i (, ( k ))
= 1,i ( v1,i ( )) x1, j ( ) ,
w1,i , j

y1,i (, ( k ))
= 1,i ( v1,i ( )) .
b1,i
Parcijalne derivacije kriterija kakvoe po izlazima prvoga sloja, u izrazima (3-92) i (3-92a),
izraunavaju se prema izrazu:

( ( k )) n ( 2 ) ( ( k )) dy2, p ( ) v2, p ( ) n ( 2 )
=

= ( y2,i ( ) yi ( )) w2, p ,i ,
y1,i ( )
d v2, p ( ) y1, p ( ) p =1
p =1 y2, p ( )

(3-94)

3. Algoritmi uenja neuronskih mrea

57

Za algoritme koji zahtijevaju formiranje Jacobian matrice (3-6) BP algoritam izraunava


njezine lanove prema sljedeim izrazima (uz em(,(k)) e*(-1)n(L)+m((k))):

RS
T
e (, ( k )) R 1
=S
b ( )
T0

x2, j ( )) za i = m
em (, ( k ))
,
=
za i m
0
w2,i , j ( )
m

za

i=m

(3-95)

(3-95a)

+ y1,i ( )
em (, ( k ))
,
= w2,m,i
w1,i , j
w1,i , j

(3-96)

2 ,i

za i m

+ y1,i ( )
em (, ( k ))
.
= w2,m,i
b1,i
b1,i

(3-96a)

Izraunavanje gradijenta() za NARX neuronsku mreu


Vektor parametara NARX neuronske mree jednak je vektoru parametara MLP mree, koji je
definiran izrazom (2-22). Meutim, zbog povratnog djelovanja s izlaza na ulaz NARX mree (vidi
toku 2.3.3.), gradijent kriterijske funkcije po parametrima mree ovisi i o njezinim prolim
stanjima, to se mora uzeti u obzir pri njegovu izraunavanju.
Za implementaciju algoritama koji ne zahtijevaju formiranje Jacobian matrice izraz za
izraunavanje gradijenta kriterija kakvoe po parametrima NARX mree glasi:

+ yL,i ( )
(( k )) N ( ( k )) + yL,i ( ) N
,
=

= [ yL,i ( ) y,i ( )]
wl ,i , j
wl ,i , j
wl ,i, j
=1 y L,i ( )
=1

(3-97)

Zbog povratnih veza s izlaza na ulaz mree, izlaz mree u k-tom trenutku nije samo funkcija ulaza u
mreu i parametara mree ve i na prolih vrijednosti izlaza mree. Primjenom pravila za
deriviranje sloene funkcije dobije se izraz za izraunavanje rednih parcijalnih derivacija izlaza
mree po nezinim parametrima (Pich, 1994):

+ yL,i ( ) yL,i ( ) na yL,i ( ) + yL,i ( p )


,
=
+

wl ,i , j
w1,i , j
wl ,i , j
p =1 y L,i ( p )
gdje je

(3-98)

+ yL,i ( p )
yL,i ( )
yL,i ( )
i
u izrazu (3-98)
= 0 za < na . lanovi
wl ,i, j
wl ,i, j
yL,i ( p )

izraunavaju se standardnim BP algoritmom za statike neuronske mree.


Za algoritme koji zahtijevaju formiranje Jacobian matrice (3-6) BP algoritam izraunava
njezine lanove prema sljedeem izrazu (uz em(,(k)) e*(-1)n(L)+m((k))):

+ yL,i ( )
em (, ( k ))
,
=
wl ,i , j
wl ,i , j

(3-99)

3. Algoritmi uenja neuronskih mrea

58

3.2.6. Neke mogunosti poboljanja kovergencije algoritama uenja


BP algoritam izraunavanja gradijenta kriterijske funkcije po parametrima neuronske mree
uinio je jednostavnom primjenu algoritama uenja neuronskih mrea zasnovanih na gradijentnim
postupcima nelinearnoga optimiranja. Zbog toga, kao i zbog bre konvergencije u odnosu na ostale
grupe algoritama (npr. stohastike algoritme), ovi su algoritmi najee koriteni algoritmi za
uenje neuronskih mrea (Cichocki i Unbehauen, 1993). Meutim, kao to je ve reeno u
potpoglavlju 3.1, njihov je glavni nedostatak da osiguravaju konvergenciju samo u lokalni
minimum. U stvarnosti kriterijska funkcija (3-3a) obino ima velik broj lokalnih minimuma u
okolici globalnoga minimuma, ali ima i lokalnih minimuma daleko od globalnoga minimuma
(Wessels i Barnard, 1992). Ako algoritam uenja konvergira u bilo koji od lokalnih minimuma u
okolici globalnoga minimuma, moe se smatrati uspjenim i dobiveni se parametri mree mogu
smatrati optimalnim. Meutim, ako algoritam uenja konvergira u neki lokalni minimum koji je
daleko od globalnoga minimuma, ne moe se smatrati uspjenim.
Problemu "zaglavljivanja" algoritama uenja u neki od lokalnih minimuma daleko od
globalnoga minimuma i njegovu rjeavanju pridaje se sve vea pozornost, osobito posljednjih
godina kada se s istog akademskog izuavanja neuronskih mrea sve vie prelazi na njihovu
praktinu primjenu. Tri su osnovna pristupa rjeavanju ovoga problema: 1) adaptacija kriterijske
funkcije; 2) adaptacija postupka optimiranja i 3) odgovarajui izbor poetnih vrijednosti parametara
neuronske mree.

Adaptacija kriterijske funkcije


Najvie algoritama uenja neuronskih mrea zasniva se na primjeni kriterijske funkcije (33a). Meutim, u nekim se sluajevima bra konvergencija i poveana vjerojatnost prevladavanja
lokalnih minimuma kriterijske funkcije moe postii ako se kriterijska funkcija (3-3a) modificira ili
ako se primijeni neki drugi oblik kriterijske funkcije. Pregled modifikacija kriterijske funkcije (33a) i alternativnih kriterijskih funkcija moe se nai u Cichocki i Unbehauen (1993). Jednu od
najznaajnijih modifikacija kriterijske funkcije predloili su Karayiannis i Venetsanopoulos (1992):

( ( k )) = (1 ( k ) )1 ( ( k )) + ( k ) 2 ( ( k )) ,

(3-100)

gdje je:
1 (( k )) =

n( L) N

ln(cosh( e / )),

=
i,

i =1

0 < << 1 ;

2 ( ( k )) - kriterijska funkcija (3-3a);

(k ) = e

( ( ( k )))2

, > 0.

U poetnoj je fazi uenja funkcija 1 ( ( k )) dominantna ( ( k ) 1 za k << ), a kako proces


uenja napreduje, sve znaajnijom postaje funkcija 2 ( ( k )) , da bi pri kraju postupka uenja ona
postala dominantnom ( ( k ) 0 za k >> ). Na taj su nain ouvane sve prednosti koje kriterijska

3. Algoritmi uenja neuronskih mrea

59

funkcija (3-3a) ima u analizi rezultata uenja (vidi potpoglavlje 2.3.), uz istodobno poveanje
vjerojatnosti prevladavanja lokalnih minimuma i ubrzanje konvergencije algoritama uenja.

Adaptacija postupka optimiranja


Jednadba diferencije (3-10), prema kojoj algoritmi zasnovani na gradijentnim postupcima
minimizacije izraunavaju nove vrijednosti parametara mree, deterministika je jednadba. Zbog
toga ovi algoritmi niti na koji nain ne mogu osigurati konvergenciju u globalni minimum. Globalni
algoritmi optimizacije uglavnom su stohastike naravi (npr. algoritam zasnovan na simulaciji
hlaenja metala - engl. simulated annealing, Kung, 1993). Meutim, stohastiki algoritmi
konvergiraju znatno sporije od deterministikih algoritama. Zbog toga se razvijaju tzv.
deterministiko-stohastiki algoritmi koji dodaju um u izraz (3-10), primjerice na sljedei nain
(Cichocki i Unbehauen, 1993):

( k + 1) = ( k ) + ( k )s d ( k ) + n ( k )n( k ) ,

(3-101)

gdje je:

n = [n1, n2, ..., nn()]T


n(k)

- vektor neovisnih izvora uma visoke frekvencije;


- parametar kojim se kontrolira amplituda uma.

Ako se amplituda uma kontrolira na odgovarajui nain, mogue je u velikoj mjeri poveati
vjerojatnost konvergencije u globalni minimum. U poetnoj fazi uenja razina uma mora biti
dovoljno velika da se osigura to uinkovitije prevladavanje lokalnih minimuma, dok se u blizini
globalnoga minimuma um mora iskljuiti da bi se dobilo to tonije rjeenje (Aluffi-Pentini et al.,
1985; Chiang et al., 1987; Hoptroff i Hall, 1989; Schoen, 1991). Ovo je mogue ostvariti na
razliite naine. Vrlo uinkovit nain kontroliranja amplitude uma zasniva se na simulaciji procesa
pri hlaenju metala (Gelfand i Mitter, 1991), iz ega proizlazi sljedei izraz za izraunavanje
koeficijenta n(k):

n ( k ) = 2T ( k ) ,

(3-102)

gdje je:
T ( k ) = T0 / ln( 2 + k ) - parametar koji odgovara temperaturi metala (raunska temperatura);
T0

- poetna temperatura (mora se izabrati dovoljno velikom).

Izbor poetnih vrijednosti parametara neuronske mree


Poetne vrijednosti parametara neuronske mree u velikoj mjeri utjeu na brzinu
konvergencije algoritama uenja, osobito kada se neuronska mrea koristi za aproksimaciju vrlo
sloenih nelinearnih funkcija. Vrlo je vano izabrati poetne vrijednosti parametara uz koje e se
smanjiti pojava lokalnih minimuma u kriterijskoj funkciji. Lokalni minimumi u kriterijskoj funkciji
najee su posljedica sljedeih uzroka (Wessels i Barnard, 1992): 1) neki su neuroni neaktivni u
itavom podruju vrijednosti ulaznih signala mree; 2) dva ili vie neurona opisuju istu funkciju i 3)
u nekim podrujima vrijednosti ulaznih signala niti jedan neuron nije aktivan. U nastavku se

3. Algoritmi uenja neuronskih mrea

60

obrauje izbor poetnih vrijednosti za MLP i RBF mree s osobitom pozornou da se izborom
poetnih vrijednosti to vie smanje navedeni uzroci pojave lokalnih minimuma u kriterijskoj
funkciji. Za izbor poetnih vrijednosti Elmanovih i NARX mrea moe se primijeniti isti postupak
kao i za izbor poetnih vrijednosti MLP mrea.

Izbor poetnih vrijednosti parametara MLP mrea


Poetne vrijednosti parametara MLP neuroskih mrea najee se izabiru kao mali sluajni
brojevi. Malim poetnim vrijednostima parametara nastoji se osigurati da svi neuroni poetno budu
u aktivnom podruju, to jest u linearnom dijelu aktivacijske funkcije (vidi tablicu 3.1.). U tom je
podruju derivacija aktivacijske funkcije najvea pa je i neuron najosjetljiviji na uenje. Nasuprot
tome, neuroni koji su u zasienju za sve mjerne uzorke nisu osjetljivi na uenje jer derivacija
aktivacijske funkcije tei k nuli (neaktivno podruje neurona). Izborom sluajnih vrijednosti
parametara u definiranom podruju malih vrijednosti nastoji se izbjei da dva ili vie neurona u
mrei opisuju iste funkcije. Naravno, potrebno je precizno rei to se podrazumijeva pod pojmom
malih poetnih vrijednosti parametara. Uz pretpostavku, koja je obino ispunjena, da su ulazni
signali mree normirani tako da poprimaju vrijednosti u podruju (-1, 1 ili 0, 1), poetne vrijednosti
parametara obino se izabiru kao sluajni brojevi u podruju vrijednosti (-0.5, 0.5).
Izborom malih sluajnih poetnih vrijednosti parametara MLP mree uzroci pojave lokalnih
minimuma samo se djelomino izbjegavaju u kriterijskoj funkciji. Naime, zbog sluajnoga izbora
vrijednosti parametara moe se dogoditi da je u nekim podrujima vrijednosti ulaznih signala mree
aktivno vie neurona, a da u nekima uope nema aktivnih neurona. Problemi nastupaju osobito kada
neuronska mrea treba aproksimirati sloene nelinearne funkcije, to jest kada ima veliki broj
parametara. Zbog toga se istrauju napredniji postupci izbora poetnih vrijednosti parametara
mree.
Najznaajniji rezultati postignuti su za dvoslojne MLP neuronske mree s linearnim
aktivacijskim funkcijama u izlaznom sloju (Nguyen i Widraw, 1990; Wessels i Barnard, 1992;
Karayiannis, 1996). Nguyen i Widrow (1990) predloili su jedan idejno vrlo jasan postupak (u
nastavku se oznaava kao NW postupak) izbora poetnih vrijednosti parametara unutarnjeg sloja
dvoslojne MLP neuronske mree s tansig aktivacijskim funkcijama (vidi tablicu 3.1.) u unutarnjem
sloju mree. Osnovna ideja NW postupka jest u podjeli podruja vrijednosti ulaznih signala na
onoliko malih potpodruja koliko ima neurona u unutarnjem sloju mree i pridruivanju po jednog
neurona svakom potpodruju. Time se osigurava prekrivanje itavog podruja vrijednosti ulaznih
signala aktivnim neuronima, a izbjegava se da neki neuroni opisuju jednake funkcije.
Dvoslojna MLP mrea s linearnim aktivacijskim funkcijama u izlaznom sloju moe se
matematiki opisati sljedeim izrazom (vidi toku 3.2.1.):
n ( 2 ) n (1)

y 2 = w2,i , j 1, j ( w1T, j x + w1, j ,n ( 0 )+1 ) + w2,i , j .


i =1 j =1

(3-103)

3. Algoritmi uenja neuronskih mrea

61

Doprinos j-tog neurona unutarnjeg sloja i-tom izlazu neuronske mree iznosi:
y2,i, j = w2,i , j 1, j ( w1T, j x + w1, j ,n ( 0 )+1 ) = w2,i , j 1, j ( v1, j ) ,

(3-104)

gdje y2,i,j predstavlja izlaz j-tog skrivenog neurona pomnoen teinskim koeficijentom w2,i,j. Iz
tablice 3.1 vidljivo je da se za ulazne vrijednosti -1< v1,j <1, tansig aktivacijska funkcija moe
aproksimirati linearnom aktivacijskom funkcijom jedininoga nagiba. Uvoenjem ove
aproksimacije izraz (3-104) poprima oblik:
n( x )

y2,i , j = w2,i , j ( w1T, j x + w1, j ,n ( 0 )+1 ) = w2,i , j w1, j , p x p + w1, j ,n ( 0 )+1 .

(3-105)

p =1

Uz pretpostavku da mrea ima samo jedan ulazni signal izraz (3-105) moe se napisati kako slijedi:
y2,i , j = w2,i , j ( w1, j ,1 x1 + w1, j ,2 ) = w2,i, j v1, j .

(3-106)

irina podruja vrijednosti ulaznog signala x1 za koji vrijedi funkcija (3-106) odreena je iznosom
koeficijenta w1,j,1 (vei w1,j,1 daje ue podruje vrijednosti), dok je poloaj sredine podruja
vrijednosti odreen iznosom koeficijenta w1,j,2:
xs =

w1, j ,2
w1, j ,1

(3-107)

Nagib funkcije y2,i,j u definiranom podruju vrijednosti odreen je umnokom w2,i,jw1,j,1. Dakle, za
definirani w1,j,1 nagib je odreen teinskim koeficijentom izlaznog sloja w2,i,j.
Ako se podruje vrijednosti ulaznoga signala x1 razdijeli na n(1) potpodruja te ako se s xm
oznai najmanji, a s xM najvei iznos koji ulazni signal x1 moe poprimiti, tada je svaki neuron
pridruen podruju vrijednosti:

(xM - xm)/n(1),

(3-108)

gdje je koeficijent preklapanja podruja vrijednosti (preporua se = 1-1.5, za = 1 nema


preklapanja).
Budui da se linearna aproksimacija tansig funkcije moe primijeniti u podruju -1< v1,j <1,
na osnovi izraza (3-106) moe se pisati (j = 1,..., n(1)):
1 < ( w1, j ,1 x1 + w1, j , 2 ) < 1 ,

(3-109)

odakle se dobije irina podruja vrijednosti ulaznoga signala za svaki pojedini neuron u skrivenom
sloju:
1 / w1, j ,1 w1, j ,2 < x1 < 1 / w1, j ,1 w1, j , 2 .

(3-110)

Dakle, irina podruja pojedinoga neurona iznosi 2/w1,j,1, to izjednaeno s podrujem predvienim
izrazom (3-108) daje vrijednost teinskih koeficijenta w1,j,1 (j = 1,..., n(1)):
w1, j ,1 =

2 n(1)
.
( x M xm )

(3-111)

3. Algoritmi uenja neuronskih mrea

62

Nakon odreivanja iznosa teinskih koeficijenta w1,j,1 izabiru se koeficijenti w1,j,2 kao sluajni
brojevi u podruju vrijednosti definiranim izrazom (3-106) i podrujem vrijednosti ulaznog signala
xm < x1 < xM. Prema tome, koeficijenti w1,j,2 (j = 1,..., n(1)) izabiru se kao sluajni brojevi u intervalu
(-1-xMw1,j,1; 1-xmw1,j,1).
Za neuronske mree s vie ulaznih signala analiza postaje sloenija. Nguyen i Widrow
pokazuju da se primjenom Fourierove i inverzne Fourierove transformacije funkcija y2(x),
definirana izrazom (3-103), moe razdijeliti na odsjeke (engl. slices) koji su funkcija jedne
varijable w1,j,pxp (p=1,...,n(x)). Svaki se odsjeak tada moe aproksimirati neuronskom mreom s
jednim ulaznim signalom s izabranim poetnim vrijednostima teinskih koeficijenata na naprijed
opisani nain, to jest svaki se odsjeak dalje moe podijeliti na potpodruja vrijednosti
odgovarajueg ulaznog signala xp sa irinom odreenom iznosima teinskih koeficijenta w2,j,p, a
poloajem odreenim koeficijentima w2,j,n(x)+1.
MLP mrea s n(1) neurona u skrivenom sloju moe podijeliti podruje vrijednosti ulaznih
signala na ukupno n(1) potpodruja vrijednosti. Ako se pretpostavi da su ova potpodruja
vrijednosti jednoliko rasporeena na S odsjeaka s P potpodruja vrijednosti po odsjeku, moe se
pisati:
n(1)=SP.

(3-112)

Kao to je naprijed reeno, svaki je odsjeak funkcija jednog ulaznog signala, pa se za


izraunavanje teinskog koeficijenta w1,j,p moe primijeniti izraz (3-111), s tim to se umjesto n(1)
treba uvrstiti broj potpodruja po odsjeku P. Meutim, nemogue je prije postupka uenja odrediti
koliko e odsjeaka mrea kreirati, pa dakle i koliko je potpodruja vrijednosti po odsjeku.
Nguyen i Widrow predlau da se poetne vrijednosti parametara izaberu tako da broj odsjeaka
iznosi S=Pn(x)-1, to uvrteno u izraz (3-112) daje n(1)=Pn(x), odnosno P=n(1)1/n(x). Prema tome, izraz
za izraunavanje poetnih vrijednosti parametara w1,j,p (p=1,,n(x)) za MLP mreu s vie ulaznih
signala glasi:
w1, j , p =

2 n(1)1/ n ( x )
.
( x M xm )

(3-113)

Analogno kao kod mrea s jednim ulaznim signalom, koeficijenti w1,j,p+1 (j = 1,..., n(1)) izabiru se
kao sluajni brojevi u intervalu (-1-xMw1,j,p; 1-xmw1,j,p).

Izbor poetnih vrijednosti parametara RBF mrea


Kod RBF neuronskih mrea treba izabrati poetne vrijednosti sredita i varijanci RBF
neurona te sinaptikih teinskih koeficijenata izlaznoga sloja mree. Sredita i varijance neurona
treba izabrati tako da itavo podruje vrijednosti ulaznih signala bude prekriveno aktivnim
dijelovima RBF neurona (vidi tablicu 3.2.) te da svaki pojedini neuron ima svoje potpodruje.
Uobiajeno se sredita rasporeuju sluajno u podruju vrijednosti ulaznih signala, koji se svi

3. Algoritmi uenja neuronskih mrea

63

normiraju tako da poprime vrijednosti unutar jednakih intervala (xm,xM). Nakon toga se izraunaju
varijance neurona prema sljedeem izrazu (Sbarbaro Hofer, 1992; Chen et al., 1993):

1,i = d1,i d2,i , i=1,,n(1),

(3-114)

gdje su d1,i i d2,i - udaljenosti dva najblia neurona od i-tog neurona.


Sinaptiki teinski koeficijenti izlaznog sloja w2,i,j izabiru s kao sluajni brojevi, obino u
intervalu (-0.5, 0.5).

3.3. Rekurzivni algoritmi uenja neuronskih mrea


Veliki broj procesa ima vremenski promjenljive karakteristike. Da bi model procesa mogao
pratiti te promjene moraju mu se neprekidno estimirati parametri tijekom normalnoga rada procesa,
to jest na osnovi stalno pristiuih mjernih vrijednosti ulaznih i izlaznih signala procesa (on-line
identifikacija). Nerekurzivni algoritmi uenja (opisani u potpoglavlju 3.2.) izraunavaju nove
vrijednosti parametara na temelju skupa mjernih vrijednosti ulaznih i izlaznih signala procesa pa se
ne mogu primijeniti za on-line identifikaciju, ve se moraju koristiti rekurzivni algoritmi koji
izraunavaju nove vrijednosti parametara modela procesa, u ovom sluaju neuronske mree, nakon
svakog novog vektora mjernih uzoraka ulaznih i izlaznih signala procesa. Rekurzivni se algoritmi
mogu primijeniti i za off-line identifikaciju procesa. U tom sluaju algoritam prolazi vie puta
preko istoga skupa mjernih podataka. Rekurzivni su algoritmi raunski i memorijski manje
zahtijevni od nerekurzivnih pa njihova primjena pri off-line identifikaciji postaje posebno vana
kada se estimira veliki broj parametara modela procesa (Ljung, 1987). S obzirom da neuronske
mree imaju veliki broj parametara, esto se za njihovo uenje primjenjuju rekurzivni algoritmi
uenja i u sluajevima kada je mogue primijeniti nerekurzivne algoritme.
U nastavku se obrauju rekurzivni algoritam najbrega spusta i rekurzivni Gauss-Newtonov
algoritam koji predstavljaju rekurzivne aproksimacije odgovarajuih nerekurzivnih algoritama
uenja neuronskih mrea.

3.3.1. Rekurzivni algoritam najbrega spusta


Rekurzivni algoritam najbrega spusta (u literaturi najee nazivan rekurzivni algoritam
povratnog prostiranja, engl. Recursive Back Propagation algorithm, RBP algoritam) predstavlja
rekurzivnu aproksimaciju nerekurzivnog algoritma najbreg spusta definiranoga izrazom (3-12).
Osnovna je razlika u periodu promjene parametara. Dok se kod nerekurzivnog algoritma nove
vrijednosti parametara izraunavaju nakon prolaska kroz itavi skup (matricu) podataka, kod
rekurzivnog se algoritma izraunavaju nakon svakog vektora mjernih podataka. Prema tome, izraz
(3-12) za RBP algoritam poprima oblik:
( k ) = ( k ) ( ( k )) + m ( k ) (( k 1)) ,

(3-115)

3. Algoritmi uenja neuronskih mrea

64

gdje je ( ( k )) - gradijent lokalne kriterijske funkcije na -tom vektoru mjernih uzorka (vidi
izraz (3-3a)) u k-toj iteraciji algoritma uenja.
Kada se RBP algoritam primjenjuje za on-line identifikaciju procesa, tada se svaki vektor
mjernih uzoraka na ulazu mree pojavljuje samo jedanput pa je = k, a kada se primjenjuje za offline identifikaciju tada je k=(kb-1)N+ (vidi sliku 3.1.).
Gradijent ( ( k )) izraunava se prema izrazima (3-72), (3-73) i (3-75) za MLP mree, a
prema izrazima (3-80)-(3-83) za RBF mree.
Dobra su svojstva RBP algoritma numerika jednostavnost i paralelnost strukture. Meutim,
njegov je veliki nedostatak spora konvergencija.

3.3.2. Rekurzivni Gauss-Newtonov algoritam


Rekurzivni Gauss-Newtonov (RGN) algoritam predstavlja aproksimaciju nerekurzivnoga
Gauss-Newtonova algoritma (3-36). Izvod RGN algoritma moe se nai u Ljung (1987), a ovdje se
daju samo konani izrazi:

F
P( k 1)J (( k ))J ( ( k ))P( k 1) I
,
P( k ) = G P( k 1)
H
I + J ( ( k ))P( k 1)J ( ( k )) JK
1

(3-107)

( k ) = ( k 1) + P( k )J ( ( k ))e( , ( k )) .

(3-108)

gdje je:

P(k) - matrica kovarijanci (predstavlja rekurzivnu aproksimaciju inverzne Hessian matrice);

- faktor zaboravljanja (0 < < 1);

LM e ( , ( k ))
MM e (, ( k ))
e( , ( k ))
=M
J ( ( k )) =
( k )
MM
MM e (, ( k ))
N
1

e1 ( , ( k ))
2
e2 ( , ( k ))
2

en (L) ( , ( k ))
2

n (L)

OP
PP
PP e ( , ( k )) P
PP

Q
e1 ( , ( k ))
n( )
e2 ( , ( k ))
n( )
n (L)

n( )

- Jacobian matrica za -ti vektor mjernih uzoraka.


U nekim se sluajevima brzina konvergencije RGN algoritma moe poveati dodavanjem
momentnog lana u izraz (3-108) koji tada postaje (Chen et al., 1990):
( k ) = ( k 1) + P( k ) ( k )J ( ( k ))e( , ( k )) + m ( k 1) .

(3-109).

Za (k)=1 i (k)=0 izraz (3-109) postaje jednak izvornome izrazu (3-108). Nadalje, ako se matrica
kovarijanci P(k) postavi trajno na iznos P(k)=I, izraz (3-109) postaje jednak izrazu (3-106), to jest
RGN algoritam prelazi u RBP algoritam.

3. Algoritmi uenja neuronskih mrea

65

Pri implementaciji RGN algoritma potrebno je zadati poetne vrijednosti matrice kovarijanci
te iznos faktora zaboravljanja. Najee se matrica P(0) izabire kao dijagonalna matrica s
dijagonalnim lanovima iznosa 102-104 (Billings i Jamaluddin, 1991). Iznosi dijagonalnih lanova
ne utjeu znaajno na svojstva algoritma. Vei iznosi ubrzavaju promjene parametara samo u
nekoliko prvih iteracija algoritma. Faktor zaboravljanja u velikoj mjeri utjee na svojstva algoritma.
Njegovim se iznosom odreuje doprinos pojedinih mjernih uzoraka estimiranim vrijednostima
parametara. Za =1 svi mjerni uzorci imaju jednak doprinos, a za <1 noviji mjerni uzorci imaju
vei doprinos od starijih. Ako se RGN algoritam primjenjuje za off-line identifikaciju ispravno je
izabrati =1, dok se pri on-line identifikaciji vremenski promjenljivih procesa treba koristiti <1 da
bi model procesa mogao pratiti te promjene.
Matrica kovarijanci P(k) odreuje asimptotski tonost estimiranih vrijednosti parametara. Za
=1 iznosi lanova matrice P(k) postupno opadaju tijekom postupka uenja (vidi izraz (3-107)).
Meutim, za <1 moe doi do neogranienog rasta lanova matrice P(k), to vodi algoritam uenja
u nestabilnost. Ovo se najbolje moe ilustrirati u stacionarnom stanju odreenom s
J ( ( k )) 0 i e( ( k )) 0 . Tada se izraz (3-107) moe pisati kao P(k)=P(k-1)/, odakle jasno
proizlazi da za <1 P(k) neprekidno raste. U literaturi se moe nai vie postupaka za spreavanje
ove nepoeljne pojave (Sripada, Fisher, 1987; Salgado et al., 1988). U ovom se radu koristi
postupak koji odrava konstantnim trag matrice kovarijanci P(k):
P( k ) =

FG P( k 1) P( k 1)J (( k ))J (( k ))P( k 1)IJ ,


H
I + J ( ( k ))P( k 1)J ( ( k )) K
1

P( k ) =

(3-110)

K0
P( k ), K 0 > 0 .
tragP( k )

(3-111)

Primjenom ovoga postupka ograniavaju se karakteristine vrijednosti matrice P(k).


Opisani RGN algoritam omoguuje znatno bru konvergenciju od RBP algoritma (vidi
potpoglavlje 3.3.), ali je i raunski znatno zahtjevniji. Osim toga, RGN algoritam moe se
implementirati samo centralizirano pa se njegovom primjenom ne mogu iskoristiti prednosti
paralelne strukture neuronskih mrea.

Paralelna izvedba rekurzivnog Gauss-Newtonovog algoritma

Paralelni rekurzivni Gauss-Newtonov (PRGN) algoritam predstavlja rekurzivnu


aproksimaciju nerekurzivnog algoritma (3-64), uz =0. Primjenom iste procedure kao i za
rekurzivni Gauss-Newtonov algoritam (Ljung, 1987) dobiju se sljedei izrazi:
i ( k ) = ( k )J ,i ( i ( k ))e( , i ( k )) + m ( k ) i ( k 1) ,
Pi ( k ) =

(3-112)

F P ( k 1) P ( k 1)J ( ( k ))J ( ( k ))P ( k 1)I ,


GH
I + J ( ( k ))P ( k 1)J ( ( k )) JK
T

,i

,i

,i

,i

(3-113)

3. Algoritmi uenja neuronskih mrea

66

K0
Pi ( k ), K 0 > 0 ,
tragPi ( k )

(3-114)

i ( k ) = i ( k 1) + Pi ( k ) i ( k ) ,

(3-115)

Pi ( k ) =

gdje je i =1,..., nn (nn - broj neurona u mrei).


PRGN algoritam (3-112)-(3-115) moe se promatrati kao nn paralelnih RGN algoritama
primijenjenih za svaki neuron zasebno. Prema tome, algoritam omoguuje iskoritenje paralelne
strukture neuronskih mrea. Osim toga, PRGN algoritam je i raunski znatno manje zahtijevan od
RGN algoritma. Naime, matrica P(k) ima znatno vei broj lanova od nn Pi(k) matrica:

n( )

F
I
= G n( )J
H
K
nn

i =1

nn

>> n( i ) .
i =1

(3-116)

PRGN algoritam raunski je jo uvijek zahtijevniji od RBP algoritma, ali znatno bre
konvergira (Billings et al., 1991).

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

67

4. PRIMJENA NEURONSKIH MREA U IDENTIFIKACIJI NELINEARNIH


DINAMIKIH PROCESA
Teorija dinamikih sustava ima vanu ulogu u suvremenoj znanosti. Ona omoguuje
rjeavanje mnotva problema iz raznih podruja znanosti (npr. tehnika, ekonomija, sociologija,
biologija, ekologija itd). Zakonitosti vladanja nekog dinamikog sustava najee se opisuju
matematikim modelom, koji predstavlja osnovu za projektiranje njegovog sustava upravljanja i/ili
dijagnostike ili pomae pri simulaciji i predvianju budueg vladanja sustava. Matematiki se
model sustava odreuje teoretskom ili eksperimentalnom analizom ili njihovom kombinacijom.
Ako se promatraju tehniki sustavi, teoretskom se analizom dobivaju tzv. fizikalni
matematiki modeli sustava, koji fizikalne zakonitosti njegova vladanja opisuju matematikim
jednadbama. Taj se postupak naziva modeliranjem sustava. Eksperimentalna analiza
podrazumijeva odreivanje tzv. eksperimentalnog matematikog modela sustava na temelju skupa
mjernih vrijednosti ulaznih i izlaznih signala sustava. Ovaj se postupak naziva identifikacijom
sustava. Meutim, kada se istraivanja odnose ponajprije na identifikaciju tehnikih procesa, esto
se koristi i naziv identifikacija procesa.
Teoretskom analizom dobiveni fizikalni model prua dobar uvid u unutarnja zbivanja u
procesu, ali je obino previe sloen i s nedovoljno tonim vrijednostima parametara, tako da nije
prikladan za primjene u projektiranju sustava upravljanja i u predvianju budueg vladanja procesa.
Identifikacijom procesa dobiveni eksperimentalni model obino ne daje uvid u fizikalnost zbivanja
u procesu, ali je jednostavniji od fizikalnog modela i bolje opisuje ulazno-izlazno vladanje procesa,
to ga ini prikladnim za projektiranje sustava upravljanja kao i za predvianje budueg vladanja
procesa.
Eksperimentalni matematiki modeli mogu biti parametarski i neparametarski. Parametarski
su modeli openito u obliku parametriranih funkcija, a neparametarski u tablinom ili grafikom
obliku bez eksplicitnog uvida u parametre procesa. Kod identifikacije linearnih dinamikih procesa
primjenjuju se obje vrste modela (iako se znatno ee primjenjuju parametarski modeli), dok se
kod identifikacije nelinearnih dinamikih procesa gotovo iskljuivo koriste parametarski modeli
(Haber i Unbehauen, 1990; Isermann et al., 1992). U nastavku se pod pojmom modela procesa
uvijek podrazumijeva parametarski model.
Postupak identifikacije procesa prikazan je blokovskom shemom na slici 4.1.a) te dijagramom
toka na slici 4.1.b). Kao to se sa slika vidi, postupak se identifikacije odvija u nekoliko osnovnih
koraka:
1) prikupljanje ulazno-izlaznih podataka, tj. mjernih vrijednosti ulaznih i izlaznih signala
procesa;
2) izbor strukture modela procesa;
3) izbor kriterija kakvoe modela procesa;

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

68

4) estimacija parametara modela procesa;


5) izbor optimalne dimenzije modela i njegovo vrednovanje.
signali smetnje
ulazni signali procesa
(pobudni signali)

u(k)

mjereni izlazni
signali procesa

PROCES

y( k )

MODEL

y(k)

izlazni signali
modela

e(k)
signali
pogreke

Kriterij
kakvoe
( e( k ), )

estimirane vrijednosti
parametara modela
Numeriki postupak
estimacije parametara
modela s ciljem
minimizacije iznosa
kriterija kakvoe, tj.
signala pogreke

a)
Znanja o
procesu
Prikupljanje
ulazno-izlaznih
podataka

Izbor strukture
modela procesa
Izbor kriterija
kakvoe

Numeriki postupak estimacije parametara modela

Vrednovanje
modela

Model ne zadovoljava

Model zadovoljava: kraj


postupka identifikacije

b)

Sl. 4.1. Blokovska shema a) i dijagram toka postupka identifikacije procesa b).
Ukratko, postupak se identifikacije odvija na sljedei nain: na ulaz procesa i modela izabrane
strukture i poetnih vrijednosti parametara, dovedu se pobudni signali u(k)1) i izraunaju se izlazni
1)

k oznaava vremenski trenutak t=kT, gdje je T period uzorkovanja nepromjenljivog iznosa.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

69

signali modela y( k ) i usporeuju s mjerenim vrijednostima izlaznih signala procesa y(k),

generirajui signale pogreke e(k). Na osnovi signala pogreke izraunava se iznos kriterija kakvoe
(e(k),) (engl. performance criterion ili performance index), koji predstavlja mjeru iznosa
pogreke, a ujedno iskazuje njezinu ovisnost o parametrima modela procesa . Zatim se nekim od
iterativnih numerikih postupaka minimizacije trae (estimiraju) vrijednosti parametara modela
koje zadovoljavaju postavljeni kriterij kakvoe, odnosno uz koje signali pogreke poprimaju
najmanje vrijednosti. Na kraju postupka dobiveni se model procesa podvrgava testu vrednovanja.
Ponekad se umjesto jednoga modela identificiraju parametri grupe modela. U tom se sluaju
najprije izabire najbolji model izmeu njih, a zatim se on podvrgava testu vrednovanja.
Vrlo je vjerojatno da model procesa dobiven u prvoj iteraciji nee proi test vrednovanja pa
se neki koraci postupka identifikacije moraju ponoviti vie puta. Prema tome, postupak se
identifikacije gotovo uvijek provodi iterativno. Razlozi zbog kojih model procesa ne zadovoljava
test vrednovanja mogu biti u svakom koraku postupka identifikacije:
prikupljeni mjerni podaci nisu dovoljno informativni da bi se na temelju njih mogao dobiti
dobar model, to jest identifikacijski eksperiment nije dobro proveden;
izabrana struktura modela ne sadri niti jedan model koji moe dovoljno dobro opisati
vladanje procesa;
kriterij za ocjenu kakvoe modela nije dobro izabran;
numeriki postupak estimacije parametara modela nije uspio pronai parametre modela uz
koje bi on zadovoljio postavljeni kriterij kakvoe.

Glavnina posla pri provoenju postupka identifikacije procesa sastoji se u rjeavanju navedenih
problema. U nastavku se stoga opisuju svi koraci postupka identifikacije, pri emu se osobita
pozornost pridaje problemima koji se pojavljuju kod identifikacije nelinearnih dinamikih procesa i
specifinostima koje unosi primjena neuronskih mrea u tvorbi modela procesa.

4.1. Prikupljanje ulazno-izlaznih podataka


Identifikacija se procesa zasniva na mjernim vrijednostima ulaznih i izlaznih signala procesa,
tzv. ulazno-izlaznim podacima. Ulazno-izlazni podaci najee se prikupljaju za vrijeme posebno
pripremljenog identifikacijskog eksperimenta, a postupak odreivanja modela procesa provodi se
naknadno bez interakcije s procesom (off-line identifikacija). Kada je god mogue identifikacijski
se eksperiment na procesu provodi u otvorenoj petlji. Meutim, ponekad se iz sigurnosnih razloga
(npr. proces je nestabilan pa ne smije raditi u otvorenoj petlji) ili iz proizvodnih razloga (da se
eksperimentom ne narui kvaliteta proizvoda) identifikacijski eksperiment provodi u zatvorenoj
regulacijskoj petlji. S druge strane, esto je neophodno ili korisno imati model procesa tijekom
normalnoga rada procesa. Primjerice, kod adaptivnoga upravljanja procesima s promjenljivim
karakteristikama model procesa sastavni je dio sustava adaptivne regulacije i mora se identificirati

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

70

tijekom rada procesa. U tom se sluaju identifikacija modela procesa provodi na temelju stalno
pristiuih ulazno-izlaznih podataka tijekom normalnoga rada procesa (on-line identifikacija).
Kada se identifikacija provodi na temelju podataka prikupljenih eksperimentom, vrlo je vano
eksperiment temeljito pripremiti i paljivo provesti, tako da dobiveni podaci budu maksimalno
informativni (npr. Goodwin i Payne, 1977) u okviru ogranienja koja se moraju potivati tijekom
provoenja eksperimenta. U ozbiljnome pristupu identifikaciji procesa u dananje je vrijeme
opravdano oekivati da se koristi oprema koja sama po sebi ne ograniava provoenje
eksperimenta, tako da se u pripremi eksperimenta prije svega trebaju razmatrati fizikalna
ogranienja procesa te svojstva raspoloivih mjernih osjetila i eventualna ugradnja dodatnih
mjernih osjetila neophodnih za dobro provoenje identifikacijskoga eksperimenta. Osoba koja
provodi eksperiment svakako mora znati barem fizikalna ogranienja procesa, kako se tijekom
eksperimenta ne bi naruavalo normalno odvijanje procesa. Vanost dobre pripreme eksperimenta
oituje se i u injenici da se podaci prikupljeni loe provedenim eksperimentom ne mogu popraviti,
ve se mora provesti novi eksperiment, to moe biti i skupo i vremenski zahtijevno.
Kao to je ve reeno, dobar je onaj eksperiment koji daje maksimalno informativne podatke
u okviru fizikalnih ogranienja procesa. Informativni se podaci dobivaju izborom pobudnih signala
koji imaju svojstvo stalnosti pobude (engl. persistence of excitation) dovoljnoga reda, zatim dobrim
izborom perioda uzimanja mjernih uzoraka te po potrebi filtriranjem mjernih signala prije uzimanja
uzoraka, kao i naknadnom obradbom podataka (npr. Ljung, 1987). Pravilan izbor navedenih
mogunosti, pa dakle i uspjenost eksperimenta, u velikoj mjeri ovisi o stupnju poznavanja procesa
u fazi pripreme eksperimenta.
Kada se eksperiment provodi u otvorenoj petlji, pobudni signal za linearni sustav n-tog reda
mora imati stalnost pobude najmanje reda 2n (Sderstrm i Stoica, 1989). To znai da spektar
pobudnoga signala mora biti razliit od nule u 2n toaka. Ovo svojstvo zadovoljava pobudni signal
koji je zbroj n sinusoida razliitih frekvencija te pseudosluajni binarni signal (engl. Pseudo
Random Binary Signal, PRBS) s periodom M=2n. Pobudni signal u obliku bijelog uma ima
neogranien red stalnosti pobude. Zbog vrlo jednostavne realizacije (primjenom posmanog registra
s m stupnjeva) te zbog autokorelacijske funkcije koja je, za dovoljno veliki period PRBS signala
M=2m-1, dobra aproksimacija autokorelacjeske funkcije signala bijelog uma jedinine varijance,
PRBS signal najee je koriteni pobudni signal pri identifikaciji linearnih dinamikih procesa.
Meutim, Thomson et al. (1996) su pokazali da primjenom PRBS signala za pobuivanje
nelinearnih dinamikih procesa determinanta informacijske matrice sustava (odnosno Hessian
matrice kod metoda minimizacije kvadratne predikcijske pogreke) moe postati singularna, ime
se gubi svojstvo identifikativnosti (engl. identifiability) procesa. Zbog toga se kao pobudni signal za
nelinearne procese najee koristi pseudosluajni signal ogranienog frekvencijskog podruja
(engl. Band Limited White Noise Signal, BLWNS). BLWNS se signal sastoji od generatora
sluajnih brojeva po zakonu normalne razdiobe i ekstrapolatora nultoga reda koji brojevima daje
odgovarajuu energetsku vrijednost, neophodnu za pobudu procesa. Ako se eksperiment provodi u
zatvorenoj petlji, onda je osim stalnosti pobude pobudnoga signala, neophodno da regulator bude

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

71

dovoljno sloen (npr. nelinearan ili vremenski promjenljiv) kako bi postojali uvjeti da dobiveni
podaci budu dovoljno informativni (Ljung, 1987; Sderstrm i Stoica, 1989).
Pri provoenju eksperimenta vrlo je vano dobro izabrati i vrijeme uzorkovanja mjernih
signala. Sa stajalita teorije informacija poeljno je imati to krai period uzorkovanja jer ee
uzimanje uzoraka poveava informativnost podataka. Meutim, sa stajalita dobivanja to boljeg
modela procesa moe biti korisno poveati period uzorkovanja. Naime, za suvie kratki period
uzorkovanja numeriki postupak estimacije parametara modela moe postati numeriki nestabilan,
model se procesa moe previe koncentrirati na opisivanje visokofrekvencijskoga podruja (to jest
uma) na utrb kvalitetnoga opisa relevantne dinamike procesa. Drugim rijeima, uz prekratki
period uzorkovanja slabo je priguenje uma u izlaznim signalima procesa pa podaci mogu biti
manje informativni od podataka dobivenih s duljim periodom uzorkovanja. Prema tome, dobar
izbor perioda uzorkovanja rezultat je kompromisa izmeu zadovoljavajueg priguenja uma i
dovoljne informativnosti podataka za dobivanje modela procesa koji dobro opisuje relevantnu
dinamiku procesa. Period uzorkovanja obino se izabire tako da frekvencija uzorkovanja bude
desetak puta vea od oekivane gornje granine frekvencije procesa. Gornju graninu frekvenciju
nelinearnih procesa mogue je procijeniti na temelju vremena porasta odziva procesa na male
skokovite promjene upravljake veliine u vie radnih toaka. S obzirom da ovaj postupak moe
biti dugotrajan, a na nekim procesima i neprimjenjiv, najee se pri provoenju eksperimenta
ulazno-izlazni podaci snimaju s kratkim periodom uzorkovanja, a naknadno se uzimanjem svakog itog uzorka podeava optimalni period uzorkovanja.
to se tie broja mjernih uzoraka, poeljno je da ih je to vie tako da se mogu primijeniti
zakon velikih brojeva i centralni granini teorem (Paue, 1993), odnosno da se estimirane
vrijednosti parametara modela procesa mogu smatrati konzistentnima (Ljung, 1987).
esto je podatke prikupljene eksperimentom potrebno obraditi prije primjene postupaka
estimacije parametara modela. Nepoeljne komponente u podacima najee su oblika:
visokofrekvencijskog uma, povremenih neregularnih pojedinanih skokovitih promjena u mjernim
signalima (engl. outliers), drifta, offseta, trendova te niskofrekvencijskih, uglavnom periodikih
smetnji. Za uklanjanje visokofrekvencijskog uma koriste se niskopropusni filtri, dok se outlieri
najee izbacuju runo, zamjenom pogrene vrijednosti mjernog uzorka interpoliranom
vrijednou na osnovi nekoliko susjednih vrijednosti. Driftovi, trendovi i niskofrekvencijske
periodike smetnje obino dolaze od vanjskih izvora i na osobi je koja provodi postupak
identifikacije da procijeni treba li ih eliminirati iz podataka ili ne treba. Pri identifikaciji linearnoga
modela svakako se iz podataka mora eliminirati offset, jer prisustvo offseta nepoznatog iznosa u
podacima moe prouzroiti pojavu posmaka (engl. bias) u estimiranim vrijednostima parametara.
Offset se eliminira unaprijednom obradom mjernih podataka ili primjenom modela s integracijom
(Ljung, 1987). Pri identifikaciji nelinearnog modela procesa ne vrijedi naelo superpozicije pa se
offset ne smije eliminirati iz podataka, ve se mora modelirati (Peyton-Jones i Billings, 1993).
Primjerice, da bi neuronske mree mogle modelirati offset u mjernim podacima, svim se neuronima

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

72

u mrei (ili barem dijelu njih) dodaje tzv. offset ulaz, iji se iznos podeava tijekom postupka
podeavanja ostalih parametara mree.
Zbog nemogunosti utjecaja na oblik pobudnog signala, pri on-line identifikaciji procesa
potrebno je nadzirati stalnost pobude ulaznih signala procesa, koje kao upravljake signale generira
regulator, te provoditi postupak identifikacije samo u vremenskim periodima kada su oni dovoljno
pobuujui (Isermann et al., 1992). Osim toga, period uzorkovanja obino mora biti isti kao i
period uzorkovnja regulatora.

4.2. Izbor strukture modela nelinearnih dinamikih procesa


Izbor strukture modela procesa jest najvaniji i najsloeniji korak postupka identifikacije
procesa. Pri izboru strukture modela vrlo je dragocjeno imati na raspolaganju odreene spoznaje o
procesu (tu moe pomoi teoretska analiza procesa). Ako je vrlo malo a priori znanja dostupno,
uobiajeno se koristi opi model (tzv. model crne kutije, engl. black-box model). Opi je model
standardna, fleksibilna struktura koja moe dobro opisati iroku klasu razliitih procesa.
U stvarnosti je nemogue dobiti strukturu modela koja moe tono opisati proces, pa je esto
potrebno initi razumne pretpostavke o procesu tako da pretpostavljena struktura modela procesa
dovoljno dobro opisuje proces sa stajalita predviene primjene. Uobiajena je pretpostavka u
identifikaciji procesa da je proces koji se identificira linearan i vremenski nepromjenljiv. Svi su
procesi u prirodi, pa tako i tehniki procesi, u odreenoj mjeri nelinearni i vremenski promjenljivi,
ali je kod velikog broja procesa nelinearnost blago izraena i vremenska promjenljivost dovoljno
spora da se linearnim vremenski nepromjenljivim modelom moe dobro opisati njihovo vladanje.
Teorija lineranih sustava dobro je razvijena tako da postoji veliki broj metoda koje se mogu
primijeniti za dobivanje linearnoga modela procesa (npr. Ljung, 1987; Sderstrm i Stoica, 1989).
Meutim, kod nekih je procesa nelinearnost jako izraena tako da linearni modeli nisu
dovoljno dobri za opis njihova vladanja, ve se moraju primijeniti nelinearni modeli. Primjenom
nelinearnih modela postupak identifikacije znatno se uslonjava. Najveu potekou predstavlja
izbor strukture modela jer za nelinearni model ima neusporedivo vei broj mogunosti nego za
linearni. Rezultat je to injenice da nelinearna funkcija moe biti nelinearna na mnotvo razliitih
naina. Kao posljedica toga moe se zakljuiti da opi nelinearni model mora biti znatno
fleksibilniji od opega linearnog modela, a to znai da mora imati i znatno vei broj parametara.
Meutim, veliki broj parametara moe stvarati probleme, jer se poveavanjem broja parametara
poveava doprinos varijance pogreci modela (vidi toku 4.5.1.), a znatno se uslonjava i postupak
estimacije parametara modela.

4.2.1. Postupci provjere linearnosti/nelinearnosti procesa

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

73

Iz naprijed reenoga jasno je da je identifikacija nelinearnoga modela znatno sloenija od


identifikacije linearnoga modela pa je opravdano primijeniti linearni model procesa kad je god to
mogue. Dakle, prvi korak pri izboru strukture modela svakako bi trebao biti provjera
linearnosti/nelinearnosti funkcijske ovisnosti izlaznih o ulaznim signalima procesa (Haber i
Unbehauen, 1990). Haber (1985) i Thomson et al. (1996) predloili su dva jednostavna postupka
provjere linearnosti/nelinearnosti procesa.
Prvi se postupak zasniva na meusobnoj usporedbi odziva procesa na vie razliitih
skokovitih promjena ulaznoga signala procesa. Proces se prvo dovede u radnu toku na sredini
oekivanoga radnog podruja procesa [u0(k), y0(k)]. Zatim se ulazni signal skokovito promijeni za
iznos u(1) i snimi se odziv izlaznoga signala procesa y(1)(k). Proces se ponovo vrati u poetnu
radnu toku pa se ulazni signal skokovito promijeni za iznos u(2) koji je u puta vei od prethodne
promjene (u(2) = uu(1)) i snimi se odziv izlaznoga signala procesa y(2)(k). Zatim se izrauna
omjer izmeu promjene izlaznoga signala u drugom i u prvom pokusu:

y ( k ) =

y (2) ( k ) y0
.
y (1) ( k ) y0

(4-1)

Ako je y konstantnog iznosa i ako je jednak u proces je linearan, dok je u protivnom proces
nelinearan i treba ga modelirati nelinearnim modelom. Postupak je potrebno provesti najmanje
dvaput, jedanput za pozitivnu a drugi puta za negativnu promjenu ulaznoga signala u odabranoj
radnoj toki. Osim toga, zbog standardno prisutnog uma mjerenja, dobro je svaku skokovitu
promjenu ponoviti nekoliko puta te usrednjiti odzive izlaznog signala prije analize. Ovaj je
postupak mogue primijeniti samo na procesima koji su stabilni te mogu raditi u otvorenoj petlji.
Drugi se postupak zasniva na izraunavanju korelacijske funkcije izlaznoga signala viega
reda. Na ulaz procesa dovede se signal u(k), koji se sastoji od istosmjernoga offseta u0 i njemu
superponiranog pobudnog signala u(k), i snimi se odziv izlaznog signala procesa y(k). Zatim se iz
izlaznoga signala eliminira oekivanje y ( k ) = y(k) - E[y(k)] te izrauna korelacijska funkcija
viega reda:
Ry y 2 = E y ( k + )( y ( k ))2 ,

(4-2)

gdje je pomak u diskretnom vremenu.


Proces je linearan ako je ispunjen uvjet (Billings i Voon, 1983):
R y y 2 = 0 .

(4-3)

Osnovne su pretpostavke na kojima se temelji ovaj postupak da su pobudni signal u(k) i um (k)
u izlaznom signalu procesa meusobno neovisni signali srednjih vrijednosti nula te da su svi njihovi
neparni momenti jednaki nuli, dok svi parni momenti postoje. U potpoglavlju 4.1 navedeni pobudni
signali (zbroj sinusoida razliitih frekvencija te PRBS i BLWNS signali) ispunjavaju ove uvjete.
Drugi se postupak moe provesti i s pobudnim signalom jednakim nuli (u(k)=0), odnosno s
ulaznim signalom procesa konstantnog iznosa u0 (Billings i Voon, 1983). Istosmjerni je offset u0

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

74

superponiran pobudnom signalu u(k) radi pobuivanja svih nelinearnosti u procesu koje mogu
doprinijeti iznosu korelacijske funkcije Ry , y , 2 (Billings i Voon, 1983).
Opisani su postupci izravno primjenjivi za provjeru linearnosti/nelinearnosti procesa s jednim
ulaznim i jednim izlaznim signalom (SISO procesi), ali se mogu primijeniti i za provjeru
linearnosti/nelinearnosti procesa s vie ulaza i vie izlaza (MIMO procesi), tako da se provedu
zasebno za svaki par ulaznih i izlaznih signala.
Postupci provjere linearnosti/nelinearnosti omoguuju donoenje odluke o primjeni linearnog
ili nelinearnog modela, ali ne omoguuju izbor odreene strukture modela procesa. Zbog toga se u
nastavku obrauju strukture modela procesa, s naglaskom na strukture nelinearnih modela koje
omoguuju jednostavnu primjenu neuronskih mrea za modeliranje nelinearnosti procesa.

4.2.2. Opi model nelinearnih dinamikih procesa


iroka se klasa nelinearnih dinamikih procesa moe opisati sljedeim diskretnim
jednadbama u prostoru stanja:
x( k + 1) = g ( k , x( k ), u( k ), w( k )) ,
y( k ) = h( k , x( k ), u( k )) + ( k ) ,

(4-4)

gdje je:
u(k) - vektor ulaznih signala procesa dimenzije n(u);
x(k) - vektor varijabli stanja procesa dimenzije n(x);
y(k) - vektor izlaznih signala procesa dimenzije n(y);
g
- vektorska funkcija koja opisuje dinamiku procesa;
h
- vektorska funkcija koja opisuje ovisnost izlaznih signala procesa o
varijablama stanja;
w(k) - vektor sluajnih varijabli sa svojstvima Gaussovog bijelog uma
oekivanja E[w(k)]=0
i varijance E[w2(k)]=w2, tzv. procesni um (engl. process noise);
(k) - vektor sluajnih varijabli sa svojstvima Gaussovog bijelog uma
oekivanja E[(k)]=0
i varijance E[2(k)]=2, tzv. mjerni um (engl. measurement noise);
Meutim, u teoriji je sustava od primarne vanosti poznavanje funkcije koja opisuje ulazno-izlazno
vladanje procesa, jer se sva interakcija s procesom odvija preko ulaznih i izlaznih signala. Ako je
nelinearni sustav konano ostvariv, to jest ako ga se moe opisati konanim brojem varijabla
stanja, onda je opisu u prostoru stanja (4-4) ekvivalentan ulazno-izlazni opis (Jazwinski, 1970;
Anderson i Moore, 1979; Leontaritis i Billings, 1985a,b):
y( k ) = f ( k , u k 1 , y k 1 ) + ( k ) ,

(4-5)

gdje je:
f

- vektorska funkcija koja opisuje ovisnost izlaznih signala procesa o ulaznim signalima;

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa


u k 1 = u(1),,, u( k 1)

= u1 (1),

, un (u) (1),

, u1 ( k 1),

75
T

, un (u) ( k 1) -

- vektor dostupnih mjernih vrijednosti ulaznih signala procesa u (k-1)-om trenutku,


dimenzije (k-1)n(u);
y k 1 = y(1),

, y( k 1)

= y1 (1),

, y n (y) (1),

, y1 ( k 1),

, yn (y) ( k 1)

- vektor dostupnih mjernih vrijednosti izlaznih signala procesa u (k-1)-om trenutku,


dimenzije (k-1)n(y);
Prvi je lan u izrazu (4-5) funkcija prolih mjernih vrijednosti ulaznih i izlaznih signala procesa, a
drugi je lan neovisan o njima pa se ne moe niti identificirati. Problem se identifikacije, dakle,
svodi na pronalaenje aproksimacijske funkcije funkciji f (o aproksimaciji funkcija vidjeti u toki
2.2.3.). Kao aproksimacijska funkcija uobiajeno se primjenjuje funkcija parametrirana konanodimenzionalnim vektorom parametara :
f N ( k , u k 1 , y k 1 , ) .

(4-6)

Parametriranjem funkcije fN odreena je struktura modela procesa:


y( k ) = f N ( k , u k 1 , y k 1 , ) .

(4-7)

Vektor izlaznih signala modela procesa y( k ) izraunava se u (k-1)-om koraku, na osnovi u tom
trenutku dostupnih mjernih vrijednosti ulaznih i izlaznih signala procesa [uk-1, yk-1]. Dakle, vektor
y( k ) predstavlja procijenjenu vrijednost vektora izlaznih signala procesa u k-tom koraku y(k),
izraunanu jedan korak unaprijed, u (k-1)-om koraku. Zbog toga se model (4-7) naziva
predikcijskim modelom procesa ili jednostavno prediktorom, a vektor signala pogreki izmeu
izlaznih signala procesa i modela

e( k ) = y( k ) y( k )

(4-8)

vektorom predikcijskih pogreaka2).


Kada je odabrana parametrirana struktura modela (4-7) potrebno je estimirati vrijednosti
parametara modela =* uz koje je predikcijska pogreka najmanja, odnosno uz koje izlaz modela
predstavlja oekivanje izlaza procesa:

y( k ) = f N ( k , u k 1 , y k 1 , * ) = E y( k ) .

(4-9)

Za estimaciju vrijednosti parametara modela uz koje je predikcijska pogreka najmanja


potrebno je definirati funkciju koja predstavlja dobru mjeru njezina iznosa, a ujedno izraava i
njezinu ovisnost o parametrima modela procesa. U literaturi se ta funkcija naziva kriterijskom
funkcijom (engl. criterion function), funkcijom kakvoe (engl. performance function), funkcijom
gubitaka (engl. loss function) ili najee kriterijem kakvoe (engl. performance criterion or
performance index). Kada je zadan kriterij kakvoe, optimalne se vrijednosti parametara modela

2)

U nastavku se, gdje god to ne naruava jasnou izriaja, umjesto naziva vektor izlaznih signala modela, vektor
izlaznih signala procesa i vektor predikcijskih pogreaka koriste odgovarajui krai nazivi: izlaz modela, izlaz
procesa i predikcijska pogreka.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

76

estimiraju numerikim postupcima koji trae njegov minimum, a time i minimum predikcijske
pogreke. Izbor kriterija kakvoe razmatra se u potpoglavlju 4.3, a numeriki postupci estimacije
parametara modela, zasnovani na minimizaciji kriterija kakvoe u potpoglavlju 4.4.
Sa stajalita izbora strukture modela i estimacije parametara modela korisno je nelinearnu
funkciju (4-6) prikazati kao kompoziciju dviju funkcija: jedne, koja preslikava stalno rastui prostor
prolih uzoraka [uk-1, yk-1] u konano-dimenzionalni vektor (k) i druge, koja preslikava vektor (k)
u izlazni prostor y( k ) :
y( k ) = f N ( k , u k 1 , y k 1 , ) = f N ( k , ( u k 1 , y k 1 ), ) = f N ( k , ( k ), ) .

(4-10)

U statistici se predikcijski model (4-10) naziva nelinearnom regresijom, vektor (k) regresijskim
vektorom, dok se njegove komponente nazivaju regresorima.
Kada se razmatraju nelinearni procesi vremenski nepromjenljivih ili sporo promjenljivih
karakteristika, predikcijski se model (4-10) moe napisati u sljedeem obliku:
y( k ) = f N ( u k 1 , y k 1 , ) = f N ( ( k ), ) .

(4-11)

U opem sluaju i sami regresori mogu biti parametrirani, to jest mogu ovisiti o nekim ili o
svim parametrima modela procesa:
(k)= ( uk-1,yk-1,)= ( k,),

(4-12)

gdje je vektor parametara . Zbog ovisnosti o parametrima modela vektor (k,) naziva se
pseudoregresijskim vektorom, a model
y( k ) = f N ( ( k , ), ) ,

(4-13)

nelinearnom pseudoregresijom. Model (4-13) predstavlja opi predikcijski model nelinearnih,


vremenski nepromjenljivih procesa. Njegova blokovska shema prikazana je na slici 4.2. Ovisnost
regresijskoga vektora o parametrima modela najee je posljedica primjene prolih vrijednosti
predikcijske pogreke ek-1 i/ili izlaza modela procesa y k 1 kao regresora (vidi toku 4.2.3.).
PROCES
u(k)

f(uk-1,yk-1)

M
M

(k)
+
+ +

y(k)

yk-1
uk-1

(uk-1,yk-1,)

(k)

fN((k,),)

y(k) -

+
+

e(k)
predikcijska
pogreka

OPI PREDIKCIJSKI MODEL

Sl. 4.2. Blokovska shema opeg predikcijskog modela procesa.


(M - memorijski lan koji pamti prole vrijednosti signala).
Razdvajanjem funkcije (4-6) u kompoziciju dviju funkcija razdvaja se i problem izbora
strukture opega nelinearnog modela procesa na dva zasebna problema:

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

77

1) izbor regresijskoga vektora (k), odnosno funkcije (uk-1,yk-1) koja preslikava prostor prolih
mjernih vrijednosti ulaznih i izlaznih signala procesa u regresijski prostor i
2) izbor funkcije fN(, ) koja preslikava regresijski prostor u izlazni prostor modela procesa.

Prvi se problem, problem izbora regresijskog vektora, pojavljuje i kod identifikacije linearnih
i nelinearnih procesa, dok se drugi problem pojavljuje samo kod identifikacije nelinearnih procesa.
Naime, kod opega je linearnog modela funkcija fN(, ) linearna po (k) pa je njegova struktura u
cijelosti definirana izborom regresijskoga vektora, koji, takoer, linearno ovisi o izabranim
regresorima. Regresori se izabiru unaprijed i ne mijenjaju se tijekom postupka identifikacije. Prema
tome, za linearne procese nelinearna regresija (4-11) postaje linearnom regresijom:
y( k ) = T ( k ) .

(4-14)

Ako se koriste regresori koji ovise o parametrima modela, linearna regresija (4-14) postaje
pseudolinearnom regresijom:
y( k ) = T ( k , ) .

(4-15)

Kod identifikacije nelinearnih procesa obje funkcije, i (uk-1,yk-1) i fN(, ), mogu biti
nelinearne. U tom je sluaju fleksibilnost modela raspodijeljena izmeu njih (takav je sluaj kod
modela u prostoru stanja, vidi toku 4.2.4.). Meutim, u identifikaciji nelinearnih procesa ee se
koriste modeli kod kojih je jedna funkcija linearna a druga nelinearna. Tada je sva fleksibilnost
modela sadrana u nelinearnoj funkciji. Ako je funkcija fN(, ) linearna, a funkcija (uk-1,yk-1)
nelinearna, model nelinearnog procesa je oblika (pseudo)linearne regresije (4-14) odnosno (4-15).
Nelinearna funkcija (uk-1,yk-1) najee je polinomskog oblika, gdje su regresori monomi
konanog broja prolih mjernih vrijednosti ulaznih i izlaznih signala procesa (Chen et al., 1989;
Thomson et al., 1996). Dobro je svojstvo ovoga modela linearnost po parametrima, to omoguuje
primjenu numerikih postupaka estimacije parametara koji se koriste u identifikaciji linearnih
procesa. Meutim, ova struktura modela nije prikladna za primjenu neuronskih mrea, jer je teko
definirati kriterij na osnovi kojega bi se neuronska mrea uila.
Sa stajalita primjene neuronskih mrea najzanimljiviji su modeli nelinearnih procesa kod
kojih je (uk-1,yk-1) linearna funkcija po izabranim regresorima, kao i kod linearnih modela, dok je
fN(, ) nelinearna funkcija. Funkcija fN(, ) moe biti nelinearna na mnotvo naina i u naelu
se razlikuje od procesa do procesa, pa je za njezinu aproksimaciju najprikladnije koristiti
aproksimatore sa svojstvima univerzalnoga aproksimatora, kao to su, primjerice, neuronske mree
(vidi toku 2.2.3.). Na taj se nain dobije najfleksibilnija struktura modela za zadani regresijski
vektor. Openito, fleksibilniji model ima vei broj parametara, to moe negativno utjecati na
kakvou modela. Naime, varijanca pogreke modela raste proporcionalno s brojem parametara
modela uz mogue beznaajno smanjenje posmaka pogreke (vidi toku 4.5.1.). Ovo ima za
posljedicu pogoranje svojstava poopavanja modela, to jest poveanje pogreke modela kada mu
na ulaz pristiu novi mjerni podaci. Prema tome, u nekim je sluajevima bolje ograniiti

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

78

fleksibilnost nelinearnoga modela procesa s ciljem dobivanja modela sa to manjim brojem


parametara koji zadovoljavajue dobro opisuje dinamiko vladanje procesa. Ovo se naelo naziva
naelom tedljivosti (engl. parsimony principle). Ogranienje fleksibilnosti nelinearnoga modela
procesa ostvaruje se uvoenjem ogranienja na nelinearnu funkciju fN(, ).
Uvoenje ogranienja na funkciju fN(, ) vrlo je prirodno. Kao to je ve reeno, kada se
pristupa identifikaciji nekog procesa, logino je prvo pokuati primijeniti linearni model pa tek ako
se pokae da on ne zadovoljava primijeniti nelinearni model. Meutim, to ne znai da se odmah
mora primijeniti opi nelinearni model, ve se mogu razmotriti mogunosti primjene jednostavnijih
modela s manjim brojem parametara. Primjerice, preslikavanje iz regresijskog u izlazni prostor
moe biti linearno po nekim regresorima. Dva su pristupa ograniavanju funkcije fN(, ). Prvi se
pristup zasniva na uvoenju strukturnih pretpostavki o procesu, a drugi na uvoenju pretpostavki o
svojstvima smetnje na proces.
Prvi je pristup koriten kod klasinih postupaka identifikacije nelinearnih procesa, to je
rezultiralo razvojem veeg broja razliitih struktura modela (Isermann et al., 1992). Strukture
modela temeljene na polinomskom razvoju ulazno-izlazne funkcije procesa f (modeli u obliku
Volterraovog reda te racionalni i output-affine modeli) mogu opisati iroku klasu nelinearnih
dinamikih procesa, ali je postupak estimacije parametara modela sloen, tako da ovi modeli nisu
nali iru primjenu (Leontaritis i Billings, 1985b; Chen i Billings, 1989b; Billings i Chen, 1989).
Zbog sloenosti postupaka estimacije parametara navedenih modela, kod klasinih se postupaka
identifikacije nelinearnih dinamikih procesa uglavnom koriste jednostavnije strukture modela (npr.
bilinearni model i tzv. blokovski modeli), dobivene uvoenjem strukturnih pretpostavki o procesu.
Bilinearni model se najee koristi za modeliranje dinamikih procesa u kontinuiranom podruju,
dok je njegova primjena u diskretnom podruju znatno rjea jer diskretni bilinearni model moe
opisati znatno uu klasu procesa od odgovarajueg kontinuiranog modela (Chen i Billings, 1989b).
Blokovski su modeli sainjeni od kaskada statikih nelinearnosti i linearnih dinamikih modela s
jednim ulazom i jednim izlazom (Haber i Unbehauen, 1990). Ovi se modeli mogu primijeniti samo
za modeliranje SISO procesa kod kojih je mogue razdvojiti statike nelinearnosti od linearnih
dinamikih lanova. Najee koriteni modeli blokovske strukture su Hammersteinov model,
Wienerov model i Wiener-Hammersteinov model (Leontaritis i Billings, 1985b). Sa stajalita
primjene neuronskih mrea, navedeni modeli nisu zanimljivi jer je u njihovu strukturu vrlo teko ili
nemogue ukljuiti neuronske mree.
Za razliku od modela procesa nastalih uvoenjem strukturnih ogranienja na proces, modeli
koji se dobiju uvoenjem pretpostavki na svojstva smetnje vrlo malo naruavaju svojstva i strukturu
opega modela (modela crne kutije), uz moguu znatnu utedu u broju parametara modela
(Sjberg et al., 1995). K tome, struktura je ovih modela takva da omoguuje jednostavno
ukljuivanje neuronskih mrea i potpuno iskoritavanje njihovih dobrih svojstava (vidi toku
2.1.5.). Zbog navedenih se prednosti u nastavku istrauju strukture modela koje se dobivaju iz
opega modela, uvoenjem pretpostavki na svojstva smetnje.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

79

Prvo se, u toki 4.2.3, opisuju ulazno-izlazni modeli procesa, a zatim u toki 4.2.4 modeli
procesa u prostoru stanja. Vea je pozornost pridana ulazno-izlaznim modelima jer oni omoguuju
jednostavnu primjenu standardnih struktura neuronskih mrea, dok modeli u prostoru stanja
uglavnom zahtijevaju primjenu specijalnih struktura neuronskih mrea. Osim toga, svi su modeli u
prostoru stanja s povratnim djelovanjem pa primijenjene neuronske mree moraju pripadati klasi
dinamikih mrea. Naprotiv, najznaajniji su ulazno-izlazni modeli bez povratnoga djelovanja pa
omoguuju primjenu statikih neuronskih mrea, to u velikoj mjeri pojednostavnjuje postupak
estimacije parametara modela, a dobiveni su modeli strukturno stabilni (neuronske su mree
opisane u drugom poglavlju).

2.2.3. Ulazno-izlazni modeli nelinearnih dinamikih procesa zasnovani na opem modelu


Kao to je ve u toki 4.2.2 reeno, problem izbora strukture modela nelinearnih procesa
moe se razdvojiti na izbor (pseudo)regresijskog vektora (k) i izbor aproksimatora nelinearnoga
preslikavanja iz regresijskoga prostora u izlazni prostor fN(, ). Sa stajalita primjene neuronskih
mrea najzanimljiviji su modeli kod kojih je regresijski vektor (k) linearno ovisan o izabranim
regresorima. Kod ulazno-izlaznih modela, regresijski se vektor unaprijed zadaje i njegova se
dimenzija tijekom postupka estimacije parametara vie ne mijenja. Dakle, sva je fleksibilnost
modela sadrana u nelinearnoj funkciji fN(, ).
Poeljno je da regresijski vektor (k) ima to manju dimenziju te da ne ovisi o parametrima
modela . Iako su ova dva svojstva regresijskoga vektora esto u kontradikciji, oni se postavljaju
kao glavni cilj pri izboru strukture modela nelinearnoga procesa. Naime, smanjenjem dimenzije
regresijskoga vektora smanjuje se dimenzija nelinearnoga preslikavanja fN(, ), a time i sloenost
problema estimacije parametara modela. S druge strane, ako regresijski vektor ne ovisi o
parametrima modela, nema povratnog djelovanja u modelu pa je on strukturno stabilan.
Izborom regresijskog vektora odreena je struktura modela procesa, ili, preciznije, grupa
modela iste strukture. Razliiti modeli unutar tako dobivene grupe modela dobiju se uvoenjem
ogranienja na nelinearnu funkciju fN(, ). Glavni je cilj izbora aproksimatora nelinearne funkcije
fN(, ) pronalaenje aproksimatora koji s najmanjim brojem parametara daje zadovoljavajuu
aproksimaciju, a da se pri tome u veoj mjeri ne narui svojstvo openitosti modela.
Bilo koja informacija o procesu moe se koristiti kao regresor. U nekim je sluajevima
dostupno odgovarajue znanje o procesu na temelju kojega se lako odluuje koje je varijable
najbolje koristiti kao regresore. Meutim, takvo je znanje o procesu rijetko dostupno, pa je izboru
regresora potrebno pristupiti openito, bez ulaenja u fizikalne zakonitosti vladanja procesa. Pri
izboru regresora za nelinearne modele procesa korisno je kao polazite uzeti najee koritene
regresore pri identifikaciji linearnih modela procesa. U nastavku se, stoga, najprije daje pregled
linearnih modela procesa s pripadnim regresorima, a zatim se razmatranja poopavaju na nelinearne
procese.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

80

Linearni modeli dinamikih procesa


Opi model linearnih, vremenski nepromjenljivih dinamikih procesa s aditivnom smetnjom
glasi (Ljung, 1987):
y( k ) = G ( q )u( k ) + H ( q ) ( k ) ,

gdje je:
q

(4-16)

- operator vremenskog pomaka (npr. qu(k)=u(k+1), q-1u(k)=u(k-1)) ;

G( q ) = g( k )q k

- prijenosni operator sustava (engl. system transfer operator);

k =1

H( q ) = I + h( k )q k - prijenosni operator smetnje.


k =1

Prediktor za opi linarani model procesa (4-91) glasi:


y( k ) = H 1 ( q, )G( q, )u( k ) + [I H( q, )]y( k ) .

(4-17)

Prediktor (4-17) na izlazu daje procijenjenu vrijednost izlaza procesa na temelju prolih vrijednosti
ulaznoga i izlaznoga signala procesa. Zbog neograniene dimenzije vektora g(k) i h(k), pa prema
tome i vektora parametara , ovaj oblik modela procesa nije prikladan, pa se koriste modeli koji
omoguuju opis procesa na osnovi konanoga broja parametara, kao to su konano-dimenzionalni
modeli u prostoru stanja te ulazno-izlazni modeli s prijenosnim operatorima G(q) i H(q) prikazanim
u obliku razlomljenih racionalnih funkcija, s tim da koeficijenti brojnika i nazivnika predstavljaju
parametre modela. U nastavku se opisuje grupa ulazno-izlaznih modela procesa koji na taj nain
parametriraju operatore G(q) i H(q). Opisuju se modeli linearnih MIMO procesa u punom
polinomskom obliku (Ljung, 1987; Sderstrm i Stoica, 1989).
Najjednostavniji ulazno-izlazni model linearnih procesa je FIR model (engl. Finite Impulse
Response model), koji predstavlja linearnu regresiju nad prolim mjernim uzorcima ulaznih
signala3):
y( k ) = B( q )u( k ) + ( k ) = B1u( k 1)+ + B nb u( k nb ) + ( k ) ,

(4-18)

gdje je:
B(q) = B1q-1 + B2q-2 ++ Bnbq-nb - matrini polinom po q-1, to jest matrica iji su lanovi
polinomi po q-1;
Bi
- matrice dimenzije n(y)n(u);
i = n (u)

nb = max( nb( ui )) - maksimalni broj koritenih prolih vrijednosti nekog od ulaznih signala.
i =1

Prediktor za model (4-18) glasi (Sl. 4.3.):

y( k ) = B( q )u( k ) = B1u( k 1)+ + B nb u( k nb ) .


3)

Varijable u(k) i y(k) u linearnim modelima procesa predstavljaju ulazne odnosno izlazne signale procesa bez
istosmjernih komponenti, tj. s oduzetim srednjim vrijednostima E[u(k)] odnosno E[y(k)] od stvarnih mjerenih
vrijednosti. Naprotiv, u nelinearnim modelima one predstavljaju stvarne mjerene vrijednosti.

(4-19)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

81

Prediktor (4-19) ima oblik linearne regresije (4-14) s regresijskim vektorom


(k) = u(k) = [u(k-1), , u(k-nb)]T

(4-20)

dimenzije n() = n(u) = n(u)nb i matricom parametara = [B1, , Bnb]T dimenzije n()n(y).
u(k)

z-1
z-1

z-1

u(k-1)
u(k-2)

u(k- nb)

u(k)

B1
B2

y( k )

Bnb
B(q)

Sl. 4.3. Blokovska shema prediktora FIR modela procesa.


Model (4-19) moe opisati dinamiku svakog linearnog dinamikog procesa, ali ne moe
opisati karakter dodatne smetnje (k) jer nije ukljuena u regresijski vektor. Osim toga, potrebna
dimenzija regresijskoga vektora n() moe biti vrlo velika.
Zbog ovih nedostataka FIR modela znatno se ee koristi ARX model (engl. AutoRegressive
model with eXogenous inputs):
A ( q ) y ( k ) = B ( q ) u( k ) + ( k ) ,

(4-21)

gdje je:
A(q) = I + A1q-1 + A2q-2 ++ Anaq-na matrini polinom po q-1;
Ai - matrice dimenzije n(y)n(y);
i = n (y)

na = max( na( yi )) - maksimalni broj koritenih prolih mjernih vrijednosti nekog od izlaznih
i =1

signala procesa.
Prediktor za (4-21) glasi (Sl. 4.4.a)):
y( k ) = [I A( q )]y( k ) + B( q )u( k )

(4-22)

odnosno u razvijenom obliku (Sl. 4.4.b)):


y( k ) = A1y( k 1) A na y( k na ) + B1u( k 1)+ + B na u( k na )

(4-23)

Prediktor (4-12) ima oblik linearne regresije (4-14) s regresijskim vektorom


(k)= [y(k), u(k)]=[-y(k-1), , -y(k-na), u(k-1), , u(k-nb)]T

(4-24)

dimenzije n() = n(y)na+n(u)nb i matricom parametara = [A1, , Ana, B1, , Bnb]T dimenzije
n()n(y).

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

y(k)
-1

z-1
z-1

z-1

y(k)

-y(k-1)
-y(k-2)

-y(k-nb)

I-A(q)
y( k )

+
u(k)

y(k)
u(k)

B(q)

z-1
z-1

z-1

u(k-1)
u(k-2)

u(k-nb)

u(k)

a)

82

A1
A2

Anb
A(q)

y( k )

B1
B2

Bnb
B(q)

b)

Sl. 4.4. Blokovska shema prediktora ARX modela u kompaktnom a) i razvijenom obliku b).
Model ARX strukture moe opisati svaki linearni proces, ukljuivo i dodatnu smetnju (Ljung
i Wahlberg, 1992) pa se moe smatrati opim modelom linearnih procesa. Iako je potrebna
dimenzija regresijskoga vektora n() znatno manja nego kod FIR modela, ipak moe biti vea nego
to ju zahtijeva dinamika procesa. Osim toga, ARX model modelira smetnju kao dio dinamike
procesa, a ponekad se zasebnim modeliranjem smetnje moe znatno smanjiti dimenzija
regresijskoga vektora, a time i dimenzija modela. Vie razliitih struktura modela omoguuje
dobivanje zasebnoga modela smetnje, a najee koritena, vjerojatno i najbolja struktura je
ARMAX (engl. AutoRegressive Moving Avrage with eXogenous inputs) struktura modela:
A( q )y( k ) = B( q )u( k ) + C( q ) ( k ) ,

(4-25)

gdje je:
C(q) = I + C1q-1 + C2q-2 ++ Cncq-nc matrini polinom po q-1;
Ci

- matrice dimenzije n(y)n();


i= n( )

nc = max( nc( i )) - maksimalni broj koritenih prolih vrijednosti nekog od signala smetnje.
i =1

Prediktor za model (4-25) glasi (Sl. 4.5.):

y( k ) = [I A( q )]y( k ) + B( q )u( k ) + [C( q ) I ]e( k ) ,

(4-26)

odnosno u razvijenom obliku:


y( k ) = A1y( k 1) A na y( k na ) + B1u( k 1)+ + B nb u( k nb ) +
(4-27)
+ C1e( k 1)+ + C nce( k nc ).

Prediktor (4-14) ima oblik pseudolinearne regresije (4-15) s regresijskim vektorom

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

83

(k)= [y(k), u(k), e(k)]=[-y(k-1), , -y(k-na), u(k-1), , u(k-nb), e(k-1), , e(k-nc)]T

(4-28)

dimenzije n() = n(y)na+n(u)nb+ n(e)nc i matricom parametara = [A1, , Ana, B1, , Bnb, C1,
, Cnc)]T dimenzije n()n(y).
Osim prolih vrijednosti ulaznih i izlaznih signala procesa, kao regresori se u regresijskom
vektoru (4-28) koriste i prole vrijednosti signala predikcijske pogreke, umjesto nedostupnih
prolih vrijednosti signala smetnje (k).
y(k)

y( k )

I-A(q)
y(k)
u(k)
B(q)

e(k)

y( k )

+
-

e(k)

C(q)-I

Sl. 4.5. Blokovska shema prediktora ARMAX modela procesa.


Kod ARX i ARMAX modela prijenosne matrice procesa u odnosu na ulazni signal i u odnosu
na signal smetnje imaju zajedniki nazivnik A(q). Prirodnim se ini parametrirati ove dvije
prijenosne matrice odvojeno. Najee koriteni model koji zadovoljava ovaj zahtjev jest OE model
(engl. Output Error model):
y( k ) =

B( q )
u( k ) + ( k ) ,
F( q )

(4-29)

gdje je:
F(q) = I + F1q-1 + F2q-2 ++ Fnfq-nf matrini polinom po q-1;
Fi

- matrice dimenzije n( y )n( y );


i = n (y)

nf = max( nf ( yi )) - maksimalni broj kanjenja nekog od izlaznih signala modela procesa.


i =1

Prediktor za (4-29) glasi (Sl. 4.6.):


y( k ) = B1u( k 1)+ + B nb u( k nb ) F1y( k 1) Fnf y( k nf ) .

(4-30)

Prediktor (4-30) ima oblik pseudolinearne regresije (4-15) s pseudoregresijskim vektorom

( k , ) = u ( k ), y ( k , ) = u( k 1), , u( k nb ), y( k 1), , y( k nf ),

(4-31)

dimenzije n() = n(u)nb+ n( y )nf i matricom parametara = [B1, , Bnb, F1, , Fnf]T dimenzije
n()n(y).
OE model (4-29) moe opisati dinamiku svakog linearnog dinamikog procesa s priblino
jednakom dimenzijom regresijskog vektora kao i ARX model. Meutim, on, kao i FIR model, ne

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

84

moe opisati svojstva dodatne smetnje (k). S ciljem dobivanja modela koji moe opisati i svojstva
smetnje, OE model (4-29) moe se proiriti i zasebno parametriranom prijenosnom matricom
smetnje:
y( k ) =

B( q )
C( q )
( k ) ,
u( k ) +
F( q )
D( q )

(4-32)

gdje je:
D(q) = I + D1q-1+ + Dndq-nd matrini polinom po q-1.
Di

- matrice dimenzije n(y)n(es);

i = n (e s )

nd = max( nd( es,i )) - maksimalni broj kanjenja tzv. simulirane predikcijske pogreke
i =1

definirane izrazom (4-37).

u(k)

B(q)

y( k )

+
e(k)

I-F(q)

Sl. 4.6. Blokovska shema prediktora OE modela procesa.


Model (4-32) prvi su predloili Box i Jenkins (1970) pa se naziva Box-Jenkinsovim (BJ) modelom.
Prediktor za BJ model (4-32) glasi:
y( k ) =

D( q )B( q )
C( q ) D( q )
u( k ) +
y( k ) .
C( q )F( q )
C( q )

(4-33)

Izraz (4-33) moe se napisati i na sljedei nain:


C( q )F( q )y( k ) = F( q ) C( q ) D( q ) y( k ) + D( q )B( q )u( k ) .

(4-34)

Za prediktor (4-34) izraz za predikcijsku pogreku (4-8) poprima oblik:

e( k ) =

OP
Q

LM
N

D( q )
B( q )
y( k )
u( k ) .
C( q )
F( q )

(4-35)

Uvoenjem pomonih varijabli


ys ( k ) =

B( q )
u( k )
F( q )

e s ( k ) = y( k ) y s ( k ) ,
izraz (4-35) poprima oblik:

(4-36)
(4-37)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa


e ( k ) = y( k ) y( k ) =

D( q )
es (k ) .
C( q )

85
(4-38)

Izborom regresijskog vektora:

( k , ) = u ( k ), y ( k , ), e ( k , ), e ( k , ) =
s

= u( k 1),

, u( k nb ), y s ( k 1),

, y s ( k nf ), e( k 1),

, e( k nc ), e s ( k 1),

, e s ( k nd )
(4-39)

dimenzije n() = n(u)nb+n( ys )nf+n(e)nc+n(es)nd i matrice parametara = [B1, , Bnb, F1, ,


Fnf, C1, , Cnc, D1, , Dnd]T dimenzije n()n(y), prediktor (4-33) moe se napisati u sljedeem
obliku (Sl. 4.7.):
y( k ) = B( q )u( k ) + I F( q ) y s ( k ) + C( q ) I e( k ) + I D( q ) e s ( k ) .

(4-40)

Pomona varijabla y s ( k ) predstavlja tzv. simulirani izlaz procesa, to jest izlaz procesa uz
zanemarenu smetnju, a izraunava se prema izrazu (4-40), primjenom prva dva lana. Moe se
uoiti da simulirani izlaz procesa ustvari predstavlja izlaz njegovog OE modela.

y(k)
u(k)

B(q)

ys( k )

+
-

es(k)

y( k )
ys( k )

y(k)

I-F(q)
+

es(k)

e(k)

y( k ) -

+
+

e(k)

I-D(q)

C(q)-I

Sl. 4.7. Blokovska shema prediktora BJ modela procesa.

Nelinearni modeli dinamikih procesa


Kao to se iz izraza (4-20), (4-24), (4-28) i (4-39) moe vidjeti, kod linearnih se modela
dinamikih procesa koriste sljedei regresori:
prole vrijednosti ulaza procesa u(k-i);
prole vrijednosti izlaza procesa y(k-i);
prole vrijednosti izlaza modela procesa y( k i ) ;
prole vrijednosti predikcijske pogreke e(k-i);

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

86

prole vrijednosti tzv. simuliranog izlaza procesa y s ( k i ) ;


prole vrijednosti tzv. simulirane predikcijske pogreke es(k-i).
Primjenom istih regresora i istog naina tvorbe naziva za nelinearne kao i za linearne modele,
dobiju se odgovarajui nelinearni modeli procesa (Sjberg et al., 1995; Juditsky et al., 1995):
NFIR modeli (engl. Nonlinear FIR models), koriste u(k-i) kao regresore;
NARX modeli (engl. Nonlinear ARX models), koriste u(k-i) i y(k-i) kao regresore;
NOE modeli (engl. Nonlinear OE models), koriste u(k-i) i y( k i ) kao regresore;
NARMAX modeli (engl. Nonlinear ARMAX models), koriste u(k-i), y(k-i) i e(k-i) kao
regresore;
NBJ modeli (engl. Nonlinear BJ models), koriste u(k-i), y s ( k i ) , e(k-i) i es(k-i) kao
regresore.
Dok je struktura linearnih modela u potpunosti odreena izabranim regresorima, struktura
nelinearnih modela dodatno ovisi i o karakteristikama nelinearne funkcije fN(, ). Prema tome,
navedeni su nelinearni modeli ustvari grupe modela. Unutar svake grupe modela mogue je dobiti
neogranien broj modela ovisno o pretpostavkama na nelinearnu funkciju fN(, ). U tablici 4.1
usporedo je dan pregled linearnih modela procesa i grupa nelinearnih modela procesa, u ovisnosti o
koritenim regresorima.
Tablica 4.1. Pregled regresora te odgovarajuih linearnih modela i grupa nelinearnih
modela procesa.
Regresori

Linearni model

Grupa nelinearnih modela

u(k-i)

FIR model

NFIR modeli

u(k-i), y(k-i)

ARX model

NARX modeli

u(k-i) i y( k i )

OE model

NOE modeli

u(k-i), y(k-i), e(k-i)

ARMAX model

NARMAX modeli

u(k-i), y s ( k i ) , e(k-i) i es(k-i)

BJ model

NBJ modeli

NFIR modeli
NFIR modeli opisuju proces kao nelinearnu funkciju prolih vrijednosti ulaznih signala:
y( k ) = f ( u k 1 ) + ( k ) .

(4-41)

Prediktor za model (4-41) glasi (Sl. 4.8.):


y( k ) = f N ( ( k ), ) = f N ( u ( k ), ) ,
gdje je:
(k) = u(k) = [u(k-1),, u(k-nb)] -

(4-42)

(4-43)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

87

n (u)

- regresijski vektor dimenzije n( ) = nb( u j )


j =1

nb=[nb(u1),,nb(un(u))] - vektor broja koritenih prolih vrijednosti ulaznih signala procesa.


Budui da regresijski vektor sadri samo prole mjerne vrijednosti ulaznih signala, NFIR model je
stabilan u svim uvjetima. Meutim, nedostaci su mu, kao i FIR modela, potrebna velika dimenzija
regresijskoga vektora te nemogunost modeliranja signala smetnje.
u(k)

z-1
z-1

z-1

u(k-1)
u(k-2)

y( k )

f( u(k),)
u(k-nb)

u(k)

Sl. 4.8. Blokovska shema prediktora NFIR modela procesa.


NARX modeli
Najopenitiji se NARX model dobije primjenom nelinerne regresije nad prolim mjernim
uzorcima izlaznih i ulaznih signala procesa (Parker i Perry, 1981):
y( k ) = f ( y k 1 , u k 1 ) + ( k ) .

(4-44)

Prediktor za model (4-44) glasi (Sl. 4.9.):


y( k ) = f N ( ( k ), ) = f N ([ y ( k ), u ( k )], ) .
gdje je:
(k)= [y(k), u(k)]=[y(k-1), , y(k-na), u(k-1), , u(k-nb)]T -

(4-45)

(4-46)

n (y)

n (u)

i =1

j =1

- regresijski vektor dimenzije n( ) = na( yi ) + nb( u j ) ;


na=[na(y1),,na(yn(y))] - vektor broja koritenih prolih vrijednosti izlaznih signala procesa u
regresijskom vektoru.
NARX model ima istu ulogu u modeliranju nelinearnih procesa koju ARX model ima u modeliranju
linearnih procesa. Dok je ARX model opi model linearnih procesa, NARX model (4-44) moe se
smatrati opim modelom nelinearnih procesa. Naime, Leontaritis i Billings (1985) su dokazali da se
NARX modelom moe opisati svaki nelinearni proces koji ispunjava sljedee uvjete:
1) proces se u prostoru stanja moe opisati konanim brojem varijabli stanja;
2) linearizirani model procesa u okolici radne toke ima maksimalni mogui red.
Prvi je uvjet praktiki nerestriktivan i iskljuuje samo procese s raspodijeljenim (distribuiranim)
parametrima, dok je drugi neto restriktivniji i zahtijeva da se vladanje procesa u ukolici radne
toke moe dovoljno dobro opisati odgovarajuim linearnim modelom, ime su iskljueni procesi s

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

88

histereznim i memorijskim nelinearnostima. Meutim, ova su dva uvjeta samo dovoljni uvjeti, tako
da je mogue da se i proces koji ih ne ispunjava moe opisati NARX modelom.
Osim to je opi model nelinearnih procesa, NARX model (4-44) je i model bez povratnih veza
(engl. feedforward or non-recurrent model), to jest njegovi regresori ne ovise o parametrima
modela. Ovo svojstvo ini NARX modele strukturno stabilnim, a numerike postupke estimacije
parametara modela jednostavnijim nego kod modela s povratnim djelovanjem (engl. feedback or
recurrent models). Nadalje, NARX struktura modela omoguuje jednostavnu primjenu statikih
neuronskih mrea za aproksimaciju nelinearne funkcije fN(, ) (vidi potpoglavlje 3.3.).
Nedostaci su NARX modela isti kao i ARX modela: smetnja se modelira kao dio dinamike
procesa pa nema zasebnoga modela smetnje, a zbog toga i potrebna dimenzija regresijskoga vektora
moe biti znatno vea nego to ju zahtijeva dinamika procesa.
y(k)

z-1
z-1

y(k)

z-1

y(k)
fN((k),)

u(k)

y( k )

y(k-1)
y(k-2)

y(k-nb)

y(k)

u(k)
(k)

u(k)

z-1
z-1

z-1

fN((k),)

y( k )

u(k-1)
u(k-2)

u(k-nb)

u(k)

a)

b)

Sl. 4.9. Blokovska shema prediktora opeg NARX modela procesa u kompaktnom a) i razvijenom
obliku b).
Kao to je ve reeno, model (4-44) predstavlja najopenitiji NARX model. Meutim,
potrebni broj parametara modela moe biti velik, to ima vie negativnih posljedica (npr. sloenost
estimacije parametara, prevelika varijanca modela). Zbog toga je smisleno pokuati pronai
nelinearni model koji moe zadovoljavajue dobro opisati proces s manjim brojem parametara,
dakle jednostavniji, manje fleksibilni model. Da bi se model (4-44) mogao razlikovati od ostalih
NARX modela, koji se obrauju u nastavku, pridruuje mu se oznaka NARX1. Modeli NARX
strukture, koji se obrauju u nastavku, dobiju se iz opega modela (4-44) uvoenjem raznih
pretpostavki na signal smetnje.
Stvarna svojstva signala smetnje kod nelinearnih procesa uglavnom su nepoznata. Stoga
modele procesa koji se dobiju na osnovi raznih pretpostavki koje se odnose na signal smetnje treba

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

89

promatrati kao mogue razumne prijedloge modela s ciljem modeliranja procesa sa to je mogue
jednostavnijim modelom, a ne kao modele koji opisuju stvarna svojstva signala smetnje.
Prva pretpostavka koja se mogla smisleno primijeniti jest da je signal smetnje aditivan, ne
nuno i sa svojstvima bijelog uma. Tada se proces moe opisati sljedeim izrazom:
y( k ) = f ( u k 1 ) + z( k ) ,

(4-47)

gdje je z(k) vektor signala smetnji sa svojstvima obojenog uma. Najee se signali smetnje
opisuju MA (engl.Moving Average) modelom signala sa svojstvima bijelog uma (Ljung, 1987):
z( k ) = C( q ) ( k ) .

(4-48)

Prediktor za model dan izrazima (4-47) i (4-48) glasi:


y( k ) = [I C1 ( q )]y( k ) + C1 ( q ) f N 2 ( u ( k ), 2 ) .

(4-49)

Izraz (4-49) nee izgubiti na openitosti, ako se linearni filter C-1(q) ukljui u nelinearnu funkciju
fN2(u(k),2). To znai da se, uz A(q) = C-1(q), izraz (4-49) moe napisati i na sljedei nain:
y( k ) = [I A( q )]y( k ) + f N 2 ( u ( k ), 2 ) = A1y( k 1) A na y( k na ) + f N 2 ( u ( k ), 2 ) . (4-50)
Prema tome, model (4-50), nazvat emo ga NARX2 modelom, linearan je po prolim mjernim
uzorcima izlaznih signala procesa (Sl. 4.10.a)). Drugim rijeima, prvi je dio modela (4-50) linearna
regresija s regresijskim vektorom
y(k) = [-y(k-1),,-y(k-na)]T

(4-51)

dimenzije n() = n(y)na i matricom parametara y = [A1, , Ana]T dimenzije n()n(y), dok je
drugi dio modela jednak NFIR modelu (4-41), to jest predstavlja nelinearnu regresiju nad prolim
mjernim uzorcima ulaznih signla.
U usporedbi s NARX1 modelom, NARX2 model znatno je jednostavniji. Budui da je
linearan u jednom dijelu parametara, postupak estimacije tih parametara postaje znatno
jednostavniji. Osim toga, broj parametara modela se smanjuje, a i nelinearni dio modela postaje
manje dimenzije pa se pojednostavljuje i estimacija njegovih parametara. Najvanija je prednost
NARX2 modela mogunost osiguravanja njegove stabilnosti kada se koristi za simulaciju procesa
ili za predikciju vladanja procesa vie koraka unaprijed, to je, primjerice, potrebno kada se model
koristi kao sastavni dio sustava prediktivnog upravljanja procesom. Naime, u ovim se primjenama
na ulaz modela umjesto izlaza iz procesa dovodi izlaz iz modela. Zbog nelinearnosti NARX1
modela teko je provjeriti je li njegovo vladanje u takvim sluajevima stabilno, dok je stabilnost
NARX2 modela jednostavno odrediti provjerom poloaja polova linearnog dijela modela.
Nelinearni se dio NARX2 modela moe promatrati kao promjenljivo pojaanje linearnog dijela
modela. Sva navedena svojstva ine NARX2 model prvim nelinearnim modelom kojega treba
isprobati, nakon to se testovima nelinearnosti (toka 4.2.1.) utvrdi da nije mogue koristiti linearni
model.
Ako NARX2 model ne daje zadovoljavajui opis procesa mogue je, prije primjene opeg
NARX1 modela (4-44), pokuati primijeniti model procesa koji je, kao i NARX2 model, zasnovan

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

90

na pretpostavci da je smetnja aditivna, ali dodatno i na pretpostavci da je varijanca smetnje


promjenljiva, to jest da ovisi o radnoj toki u kojoj se proces nalazi. Ova je pretpostavka razumna
jer u nekim radnim tokama razina smetnje moe biti prilino mala, a u drugim moe biti i vrlo
velika. Uz ovu pretpostavku, model smetnje (4-48) poprima oblik:
z( k ) = C( q, u k 1 ) ( k ) ,

(4-52)

gdje je C(q,uk-1) linearni filter s parametrima ovisnim o radnoj toki procesa.


Prediktor za model dan izrazima (4-47) i (4-52) glasi:
y( k ) = [I C1 ( q, u k 1 )]y( k ) + C1 ( q, u k 1 ) f N 2 ( u ( k ), 2 ) .

(4-53)

Ovisnost je filtra C(q,uk-1) o radnoj toki openito nelinearna, pa se i prvi dio prediktora (4-53)
mora promatrati kao nelinearna funkcija prolih mjernih vrijednosti ulaznih i izlaznih signala
procesa. Prema tome, prediktor (4-53) predstavlja zbroj dvaju nelinearnih dijelova, odnosno dviju
nelinearnih regresija:
y( k ) = f N 1 ([ y ( k ), u ( k )], 1 ) + f N 2 ( u ( k ), 2 ) .

(4-54)

Prvi dio modela (4-54) ima isti oblik kao model (4-44), pa ovaj model izgleda openitiji od NARX1
modela. Ipak, ponekad i njegova primjena moe biti opravdana, jer funkcije fN1(y(k),1) i
fN2(u(k),2) mogu imati manju dimenziju od funkcije fN((k),) kod NARX1 modela. Osim toga,
ako je ovisnost funkcije fN1 o u(k) slabo izraena, prediktor (4-54) moe se svesti na znatno
prihvatljiviji oblik:
y( k ) = f N 1 ( y ( k ), 1 ) + f N 2 ( u ( k ), 2 ) .

(4-55)

Model (4-55) takoer je NARX model i nazvat emo ga NARX3 modelom (Sl. 4.10.b)). Model
NARX3 je po sloenosti, pa dakle i po fleksibilnosti, izmeu NARX2 i NARX1 modela. Osim to
moe modelirati proces s manjim brojem parametara od NARX1 modela, glavna mu je prednost to
omoguuje jednostavnije projektiranje regulatora zasnovanih na modelu procesa, primjerice
prediktivnih regulatora (Gomm et al., 1997). Naime, pri projektiranju takvih regulatora potrebno je
izraunavati derivaciju izlaza modela procesa po trenutanoj vrijednosti ulaza u model, a to je
znatno jednostavnije kod NARX3 nego kod NARX1 modela.
y(k)

y(k)

I - A(q)
+

u(k)

u(k)

fN2((k),2)

a)

y(k)

fN1((k),1)

y( k )

+
u(k)

u(k)

fN2((k),2)

b)

Sl. 4.10. Blokovska shema prediktora NARX2 a) i NARX3 b) modela procesa.

y( k )

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

91

Strukture NARX modela procesa oblika (4-50) i (4-55) predloili su takoer Narendra i
Parthasarthy (1990). Dodatno, oni su predloili i strukturu modela koja je nelinearna po prolim
vrijednostima izlaznih signala procesa, a linearna po prolim vrijednostima ulaznih signala procesa.
Meutim, njihovo se polazite nije temeljilo na pretpostavkama vezanim za svojstva smetnje, ve
na ad hock pretpostavkama vezanim za strukturu procesa.
Uvodei razne pretpostavke, mogue je doi do velikog broja raznih modela NARX strukture.
Meutim, predloeni su samo modeli koji smanjuju sloenost postupka estimacije parametara
modela u odnosu na opi NARX1 model, uz ouvanje jednostavnosti primjene statikih neuronskih
mrea.

NOE modeli
NOE modeli se dobiju iz NARX modela zamjenom vektora izlaznih signala procesa y(k)
vektorom izlaznih signala modela procesa y( k ) . Dakle, na osnovi opeg NARX1 modela (4-44)
dobije se opi NOE model (model NOE1):
y( k ) = f ( u k 1 , y k 1 ) + ( k ) ,

(4-56)

odnosno odgovarajui prediktor (Sl. 4.11.):


y( k ) = f N ( ( k , ), ) = f N ([ u ( k ), y ( k , )], ) ,
gdje je:
( k , ) = u ( k ), y ( k , ) = u( k 1),

(4-57)
T

, u( k nb), y( k 1),

, y( k nf ), n (u)

n (y)

j =1

i =1

(4-58)

- regresijski vektor dimenzije n( ) = nb( u j ) + nf( yi ) ;


nf = [nf( y1 ),

, nf( yn (y) )] - vektor broja koritenih prolih vrijednosti izlaznih signala procesa
u regresijskom vektoru.
y( k )

y ( k , )

fN((k,),)
u(k)

y( k )

u(k)
(k,)

Sl. 4.11. Blokovska shema prediktora opeg NOE modela (NOE1 modela) procesa.
Na isti se nain svi predloeni NARX modeli mogu pretvoriti u odgovarajue NOE modele. Iz
NARX2 modela (4-50) dobije se odgovarajui NOE2 model (Sl. 4.12.a)):

y( k ) = [I F( q )]y( k ) + f N 2 ( u ( k ), 2 ) = F1y( k 1) Fnf y( k nf ) + f N 2 ( u ( k ), 2 ) , (4-59)


a iz NARX3 modela (4-55) odgovarajui NOE3 model (Sl. 4.12.b)):
y( k ) = f N 1 ( y ( k , 1 ), 1 ) + f N 2 ( u ( k ), 2 ) .

(4-60)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

92

Budui da NOE modeli modeliraju samo dinamiku procesa, a ne i smetnju, razlika meu njima
moe biti samo rezultat razliitih pretpostavki na strukturu procesa, a nikako na svojstva smetnje.
y( k )

y( k )

I - F(q)
+

u(k)

u(k)

fN2(u(k),2)

y ( k , )

fN1(y(k),1)

y( k )

+
u(k)

u(k)

a)

y( k )

fN2(u(k),2)

b)

Sl. 4.12. Blokovska shema prediktora NOE2 a) i NOE3 b) modela procesa.


NOE1 model strukturno odgovara NARX dinamikim neuronskim mreama, NOE3 model
zahtijeva primjenu dviju neuronskih mrea (jedne statike, a druge dinamike), a najjednostavniji je
NOE2 model (4-59) kod kojega se povratno djelovanje odvija preko linearnog dijela modela
kojemu je lako provjeravati stabilnost, dok mu nelinearni dio odgovara NFIR modelu, koji se moe
aproksimirati statikom neuronskom mreom.

NARMAX i NBJ modeli


Kao to je ve reeno, NARX se modeli mogu smatrati opim modelima nelinearnih
dinamikih procesa jer opisuju i svojstva smetnje. Meutim, oni modeliraju smetnju zajedno s
dinamikom procesa, to moe rezultirati u potrebi primjene veeg broja regresora nego to zahtijeva
dinamika procesa, odnosno u modelu s velikim brojem parametara. Zasebnim modeliranjem
smetnje mogue je dobiti modele s manjim brojem regresora, odnosno parametara modela. Zasebno
modeliranje smetnje omoguuju modeli NARMAX i NBJ strukture, koji predstavljaju poopenja
lineranih modela ARMAX i BJ strukture.
Opi NARMAX model (NARMAX1 model) dobije se proirenjem opeg NARX modela (444), tako da se nelinearna regresija primijeni, osim na prolim vrijednostima izlaznih i ulaznih
signala procesa, i na prolim vrijednostima signal smetnje:
y( k ) = f ( y k 1 , u k 1 , k 1 ) + ( k ) .

(4-61)

y( k ) = f N ( ( k , ), ) = f N ([ y ( k ), u ( k ), e ( k , )], ) ,

(4-62)

Prediktor za (4-61) glasi (Sl. 4.13):

gdje je:
(k)= [y(k), u(k), e(k)]=[y(k-1),, y(k-na), u(k-1),, u(k-nb), e(k-1),, e(k-nc)]Tn (y)

n (u)

n (e)

i =1

j =1

l =1

(4-63)

- regresijski vektor dimenzije n( ) = na( yi ) + nb( u j ) + nc( el ) ;


nc=[nc(e1),,nc(en(e))] - vektor broja koritenih prolih vrijednosti predikcijske pogreke u

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

93

regresijskom vektoru.
Kao regresori u prediktoru NARMAX modela koriste se prole vrijednosti predikcijske
pogreke umjesto prolih vrijednosti signala smetnje, jer su ove nedostupne (nemjerljive).
Postupak estimacije parametara NARMAX1 modela (4-62) znatno je sloeniji nego model
NARX strukture, to je posljedica ovisnosti grupe regresora e ( k , ) o parametrima modela.
y( k )

y(k)
u(k)

M
M
M

y(k)
u(k)

y(k)

y( k ) fN((k,),)

+
+

e(k)

e(k,)
(k,)

Sl. 4.13. Blokovska shema prediktora NARMAX modela procesa.


S obzirom da je znatno tee dobiti dobar model smetnje nego dinamike procesa, vanije je i
ograniiti njegovu fleksibilnost. Uvoenjem pretpostavke da su signali smetnje aditivni, ne nuno
sa svojstvima bijelog uma, ali s nepromjenljivom varijancom, NARMAX model (4-61) poprima
oblik:
y( k ) = f1 ( y k 1 , u k 1 ) + C( q ) ( k ) ,

(4-64)

a prediktor (4-62):
y( k ) = f N 1 ([ y ( k ), u ( k )], 1 ) + [C( q ) I ]e( k ) .

(4-65)

Model (4-64) odnosno (4-65) nazvat emo NARMAX2 modelom (Sl. 4.14.a)). On se moe
promatrati kao model NARX strukture s linarnim modelom smetnje dodanim na izlazu. Isti linearni
model smetnje koristili su Chen i Billings (1989a) pri izgradnji nelinearnoga modela polinomske
strukture. Naravno, u modelu (4-64) mogue je koristiti bilo koji model iz grupe NARX modela.
Primjerice, ako se koristi NARX2 model, prediktor (4-65) poprima sljedei oblik (model
NARMAX3, Sl. 4.14.b)):
y( k ) = f N 2 ( u ( k ), 2 ) + [I - A( q )]y( k ) + [C( q ) I ]e( k ) .

e(k)

e(k)
y(k)
u(k)

C(q) - I

C(q) - I
M
M

y(k)

u(k) fN2((k),2)

a)

y( k )

y(k)
u(k)

(4-66)

I - A(q)
M

u(k)

fN2((k),2)

b)

Sl. 4.14. Blokovska shema prediktora NARMAX2 a) i NARMAX3 modela procesa b).

y( k )

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

94

NBJ model se dobije proirenjem NOE modela (4-56) tako da se nelinearna regresija
primijeni, osim na prolim vrijednostima ulaza procesa i izlaza modela procesa, i na prolim
vrijednostima signal smetnje:

y( k ) = f ( u k 1 , y s
gdje je y s

k 1

k 1

, k 1 ) + ( k ) ,

(4-67)

tzv. simulirani izlaz procesa, odnosno izlaz NOE modela procesa.

Primjenom istih regresora kao i za BJ model, dobije se prediktor za NBJ model (Sl. 4.15.):
y( k ) = f N ( ( k , ), ) = f N ([ u ( k ), ys ( k , ), e ( k , ), es ( k , )], ) ,

(4-68)

gdje je:

( k , ) = u ( k ), y ( k , ), e ( k , ), e ( k , ) =
s

= u( k 1),

, u( k nb), y s ( k 1),

, y s ( k nf ), e( k 1),

, e( k nc ), e s ( k 1),

, e s ( k nd )

(4-69)
n (u)

n (y s )

i =1

j =1

- regresijski vektor dimenzije n( ) = nb( ui ) +


nd = [nd( es,1 ),

nf( y

s, j

n (e)

n (e s )

l =1

q =1

) + nc( el ) +

nd(e

s ,q

);

, nf( es,n (es ) )] - vektor broja koritenih prolih vrijednosti simulirane predikcijske
pogreke (4-37) u regresijskom vektoru.

Usporedbom blokovskih prikaza NBJ modela (Sl. 4.15.) i NOE modela (Sl. 4.11.) jasno se vidi da
pomona varijabla y s ( k ) predstavlja izlaz NOE modela procesa, a izraunava se prema izrazu (468) s tim da se na mjestu regresora e(k-i) i es(k-1) upiu nule.
Razliite modele NBJ grupe modela mogue je dobiti na isti nain kao to su dobiveni
razliiti modeli ostalih grupa modela.
u(k)

u(k)

M
M

ys ( k )

u(k)
ys ( k )
(k,)

fN((k,),)

ys( k ) -

es(k)

+
+
y(k)

e(k)

M
M
M
M

u(k)

y( k )

ys ( k )
es ( k )

y(k)
fN((k,),)

+
y( k ) -

e(k)

e(k,)
(k,)

Sl. 4.15. Blokovska shema prediktora NBJ modela procesa.


Iz provedenih razmatranja jasno proizlazi da NFIR i NARX modeli nemaju povratnog
djelovanja, to jest regresijski im vektori ne ovise o parametrima modela. Drugim rijeima, signali se
kroz model prostiru iskljuivo od ulaza prema izlazu modela. Prema tome, NFIR i NARX modeli
strukturno odgovaraju statikim (unaprijednim) neuronskim mreama i omoguuju njihovu
jednostavnu primjenu.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

95

Za razliku od NFIR i NARX modela, NOE, NARMAX i NBJ modeli jesu modeli s povratnim
djelovanjem jer im dio regresora ovisi o parametrima modela. Prema tome, ovi modeli strukturno
odgovaraju povratnim neuronskim mreama (engl. recurrent neural networks, vidi potpoglavlje
2.1.). Kao to je ve reeno, znatno je tee raditi s povratnim neuronskim mreama. Prije svega,
teko je odrediti uvjete stabilnosti dobivenoga predikcijskoga modela. K tome, postupak estimacije
parametara modela postaje znatno sloeniji jer se uslonjava izraunavanje gradijenta kriterija
kakvoe po parametrima modela (neuronske mree), koji kod povratnih modela postaje dinamika
funkcija (Narendra i Parthasarathy, 1991).
Ipak, statike je neuronske mree mogue primijeniti i za dobivanje nekih modela s
povratnim djelovanjem. To se prije svega odnosi na NOE2 i NARMAX2 modele, kod kojih je
povratno djelovanje ostvareno kao pseudolinearna regresija, dok je nelinearna regresija
primijenjena samo nad regresorima koji ne ovise o parametrima modela.

4.2.4. Modeli nelinearnih dinamikih procesa u prostoru stanja


U identifikaciji procesa najee se koriste ulazno-izlazni modeli procesa. Meutim, ponekad
moe biti prikladnije koristiti model procesa u prostoru stanja. Za nelinearne vremenski
nepromjenljive procese opi model procesa u prostoru stanja (4-4) poprima oblik:
x( k + 1) = g ( x( k ), u( k ), w( k )) ,
y( k ) = h( x ( k ), u( k )) + ( k ) .

(4-70)

Problem identifikacije procesa opisanog modelom (4-70) svodi se na pronalaenje parametriranih


aproksimacijskih funkcija funkcijama g i h. Prediktor za model (4-70) glasi:
x( k + 1) = g N ( x( k , g ), u( k ), g ) ,
y( k ) = hN ( x( k , g ), u( k ), h ) .

(4-71)

Dva su glavna problema kod realizacije modela (4-71): izbor varijabli stanja x i povratno djelovanje
u prvoj jednadbi modela. Prvi problem ini izbor strukture modela u prostoru stanja znatno
sloenijim od izbora strukture ulazno-izlaznih modela, dok drugi problem ini znatno sloenijim
postupak estimacije parametara nego, primjerice, kod NARX modela. Postavlja se pitanje: ima li
model u prostoru stanja nekih prednosti koje kompenziraju ove njegove nedostatke ?
Korisno je najprije usporediti model u prostoru stanja s ulazno-izlaznim modelima za linearne
dinamike procese. Linearni model u prostoru stanja glasi:
x( k + 1) = x( k ) + u( k ) ,
y( k ) = Cx( k ) + Du( k ) .

(4-72)

Ovaj se model moe, kao i ulazno-izlazni OE, ARMAX i BJ modeli, prikazati kao pseudolinearna
regresija (4-15), ako se varijable stanja prikau kao tzv. virtualni izlazi procesa koji se koriste samo

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

96

za generiranje regresora. Dodajui vektor varijabli stanja vektoru stvarnih izlaza procesa dobije se
novi, proireni vektor izlaza:
o( k ) =

LM o ( k )OP = LM y( k ) OP .
No ( k )Q Nx( k + 1)Q
1

(4-73)

Uvrtenjem (4-72) u (4-73) slijedi:


o( k ) =

LMC DOP LM x( k )OP = LMC DOP LMo ( k 1)OP =


N Q N u( k )Q N Q N u( k ) Q
2

(k, ) .

(4-74)

Vidljivo je da se virtualni izlazi o2 koriste samo kao regresori. Ovime je pokazano da se linearni
model u prostoru stanja moe promatrati kao specijalni ulazno-izlazni model. Meutim, u usporedbi
s linearnim ulazno-izlaznim modelima, model u prostoru stanja moe, u nekim sluajevima, opisati
vladanje procesa s manjim brojem regresora, odnosno parametara modela, uz numeriki stabilniji
postupak estimacije parametara modela (Sjberg, 1995). Sjberg tvrdi da iste prednosti mogu imati
i nelinearni modeli u prostoru stanja.
Kao to je pokazano u toki 4.2.3, ulazno-izlazni NARX model (4-45) moe opisati iroku
klasu nelinearnih dinamikih procesa, pa je zanimljivo usporediti ga s modelom u prostoru stanja
(4-71). Radi pojednostavljenja oznaavanja usporedit emo modele za SISO procese. Model (4-45)
za SISO procese moe se napisati na sljedei nain:
y ( k ) = f N ( ( k ), ) ,

(4-75)

(k)= [y(k-1), , y(k-na), u(k-1), , u(k-nb)]T.

(4-76)

Ako se definira vektor varijabli stanja:


x( k ) =

LMx ( k ) OP = LM[ y( k 1),


Nx ( k )Q MN[u( k 1),
1

, y ( k na )]T

, u( k nb )]T

NARX model u prostoru stanja poprima oblik:

LM0
1
x ( k + 1) = M
MM
N0
LM0
1
x ( k + 1) = M
MM
N0

0
0

LM1OP
OP
P0P x ( k ) + MM0PP y( k ) ,
MN0PQ
P
0Q
0O
LM1OP
PP
0
x ( k ) + M P u( k ) ,
MM PP
0P
P0Q
N 0Q

(4-77)

1
0
0

y ( k ) = f N ( x( k ), ) .

OP ,
PQ

(4-78)

(4-79)

(4-80)

Na isti se nain mogu i ostali ulazno-izlazni modeli pretvoriti u odgovarajue modele u prostoru
stanja.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

97

Model (4-77)-(4-80) predstavlja specijalni sluaj opega modela u prostoru stanja (4-71), pa
se sa sigurnou moe tvrditi da opi model u prostoru stanja (4-71) moe opisati najmanje istu
klasu nelinearnih procesa kao i NARX model. Kao to je vidljivo, jednadbe (4-78) i (4-79) su
linearne i s nepromjenljivim parametrima pa se ne mogu smatrati pravim jednadbama stanja, ve
samo jednim od naina izbora regresora za ulazno-izlazni model opisan izlaznom jednadbom (480). Pod pravim se nelinearnim modelom u prostoru stanja moe smatrati samo onaj model kod
kojega, osim izlazne jednadbe, i jednadbe stanja sadre promjenljive parametre, kao to je sluaj
kod opega modela u prostoru stanja (4-71). Prema tome, fleksibilnost modela u prostoru stanja
raspodijeljena je izmeu jednadbi stanja i izlazne jednadbe, za razliku od ulazno-izlaznih modela
kod kojih su regresori unaprijed izabrani, a sva je fleksibilnost modela sadrana u izlaznoj
jednadbi.
Vodei se naelom tedljivosti, ponekad je bolje ograniiti fleksibilnost primijenjenog modela
procesa. Fleksibilnost opega nelinearnog modela procesa u prostoru stanja (4-71) moe se
ograniiti uvoenjem istih pretpostavki koje su koritene za ograniavanje fleksibilnosti ulaznoizlaznih modela, to jest uvoenjem pretpostavki na svojstva smetnje ili na strukturu procesa.
Sjberg (1995) navodi grupu nelinearnih modela procesa u prostoru stanja dobivenu uvoenjem
pretpostavki na svojstva smetnje. Svi su modeli u prostoru stanja s povratnim djelovanjem pa se
moraju koristiti dinamike neuronske mree i to uglavnom mree nestandardnih struktura
(Matthews, 1990; Sjberg, 1995). Zbog toga se modeli u prostoru stanja vie ne obrauju.

4.3. Izbor kriterija kakvoe


Nakon to je izabrana struktura modela procesa pristupa se estimaciji parametara modela s
ciljem pronalaenja vrijednosti parametara uz koje predikcijska pogreka poprima najmanji iznos.
Estimacija se parametara provodi na temelju skupa mjernih podataka ulaznih i izlaznih signala
procesa = 1,...,N prikupljenih eksperimentom. Vektor predikcijske pogreke za -ti vektor mjernih
podataka e(,) definiran je izrazom (3-3a), s tim da je indeks k zamijenjen indeksom . Meutim,
model procesa moe se smatrati dobrim tek kada ukupna predikcijska pogreka e*() na itavom
skupu mjernih podataka poprimi najmanji iznos. Ukupna se predikcijska pogreka moe prikazati
kao vektor dimenzije Ne = n(y)N koji se dobije slaganjem vektor e(,):

e *( ) = eT (1, ),

, eT ( N , ) = e1 (1, ),

, en (y) (1, ),

, e1 ( N , ),

, en (y) ( N , ) .

(4-81)

Iznos ukupne predikcijske pogreke mjeri se kriterijem kakvoe, koji moe biti bilo koja norma u
prostoru definiranom vektorom (4-81). Najee je kriterij kakvoe definiran normom sljedeeg
oblika (Ljung, 1987):
N

=1

=1

( ) = ( ) = l ( e( , )) ,

(4-82)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

98

gdje je:
() - iznos kriterijske funkcije na -tom mjernom uzorku, tzv. lokalna funkcija gubitaka;
l()

- skalarna, obino pozitivna, funkcija.

Standardno se funkcija l() izabire kao kvadratna norma l( e( , )) =

1
e( , ) , uz koju kriterij
2

kakvoe postaje Euklidska, odnosno L2 - norma:


( ) =

1 N T
1 N n( L) 2
1 T
e
(

e
(

)
=
ei ( , ) = e* ( ) e* ( ) .

2 =1
2 =1 i =1
2

(4-83)

Dakle, kriterij kakvoe modela procesa (4-83) ima isti oblik kao i kriterij kakvoe (3-3a). Dobra su
svojstva ovako definirana kriterija kakvoe, koja ga ine najee primjenjivanim kriterijem,
dvostruka derivabilnost po parametrima modela te jednostavnost analize dobivenih rezultata. Loe
mu je svojstvo to daje optimalno rjeenje samo u sluaju Gaussovog bijelog uma u izlaznim
signalima procesa. Osobito loe rezultate daje kada su u mjernim podacima prisutni outlieri, pa se
tada moraju koristiti robusnije norme (Cichocki i Unbehauen, 1993) ili se outlieri moraju ukloniti
iz podataka prije postupka estimacije parametara modela. U ovom se radu pretpostavlja da su
outlieri uklonjeni iz podataka (vidi potpoglavlje 4.1.), pa se koristi kriterij kakvoe (4-83).
Ponekad se u kriterij kakvoe dodaje teinski faktor () koji omoguuje da se nekim
(pouzdanijim) mjernim podacima pridaje vee, a nekim (manje pouzdanim) manje, znaenje:
( ) =

1 N
( ) eT ( , ) e( , ) .

2 =1

(4-84)

Primjerice, kada se identifikacija procesa odvija tijekom normalnog rada procesa na temelju stalno
pristiuih mjernih podataka (on-line identifikacija), obino se koristi sljedei kriterij kakvoe
(Ljung, 1987):
( k , ) =

1 k
1 k k i T
T

(
i
,
k
)

e
(

e
(

)
=

e ( , ) e( , ) ,
2 i =1
2 i =1

(4-85)

gdje je tzv. faktor zaboravljanja ( < 1).


Primjena faktora zaboravljanja osobito je vana pri identifikaciji vremenski promjenljivih
procesa jer se njegovim pravilnim izborom moe pomoi algoritmu estimacije parametara modela
da to bolje prati promjene karakteristika procesa.

4.4. Numeriki postupci estimacije parametara procesa


Zadaa je postupaka estimacije parametara modela pronalaenje optimalnih vrijednosti
parametara modela * uz koje je predikcijska pogreka najmanja. S obzirom da kriterij kakvoe
( ) predstavlja mjeru iznosa predikcijske pogreke, problem se estimacije parametara svodi na

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

99

traenje njegova minimuma. Dakle, optimalne se vrijednosti parametara modela procesa * mogu
definirati kao argument koji minimizira kriterij kakvoe:
* = argmin ( ) .

(4-86)

Kod struktura modela procesa koje se zasnivaju na jednom nelinearnom preslikavanju


fN((k),) iz regresijskog prostora i u izlazni prostor (NFIR, NARX1, NOE1, NARMAX1 i NB
strukture modela), parametri neuronske mree koja aproksimira to nelinearno preslikavanje ujedno
su i jedini parametri modela, pa je za odreivanje njihovih optimalnih vrijednosti parametara
mogue izravno primijeniti neki od algoritama uenja neuronskih mrea (opisani u treem
poglavlju). Kod struktura modela procesa koje se zasnivaju na zbroju dva ili vie preslikavanja iz
regresijskog prostora u izlazni prostor (NARX2, NARX3, NOE2, NOE3, NARMAX2 i
NARMAX3 strukture modela), potrebno je primijeniti zaseban algoritam za optimiranje parametara
svakog od preslikavanja. Pri tome je, takoer, mogue koristiti algoritme opisane u treem
poglavlju, uz odgovarjuu prilagodbu algoritma povratnog prostiranja karakteristikama
preslikavanja kojemu se podeavaju parametri.

4.5. Izbor optimalne dimenzije modela procesa


U potpoglavlju 4.2. detaljno su obraene strukture nelinearnih modela dinamikih procesa s
preporukama za izbor optimalne strukture modela procesa. Meutim, za primjenu postupaka
estimacije parametara modela potrebno je, osim strukture, izabrati i dimenziju modela procesa. Pri
tome je vrlo vano da izabrana dimenzija modela procesa bude optimalna. Odreivanje optimalne
dimenzije modela procesa sloen je problem, osobito ako se radi o nelinearnim modelima. Naime,
poveanjem dimenzije modela procesa poveavaju se numeriki problemi estimacije parametara
modela te, to je jo nepovoljnije, poveava se varijanca predikcijske pogreke, a to za posljedicu
ima pogoranje svojstava poopavanja modela (vidi toku 4.5.1.). S druge strane, model procesa
premale dimenzije nije dovoljno fleksibilan da modelira svu relevantnu dinamiku procesa. Dakle,
pod optimalnom dimenzijom modela procesa smatra se ona dimenzija koja model ini dovoljno
fleksibilnim da moe modelirati svu relevantnu dinamiku procesa, ali koja previe ne poveava
iznos varijance predikcijske pogreke.
U ovome se potpoglavlju opisuju postupci odreivanja optimalne dimenzije ulazno-izlaznih
modela nelinearnih dinamikih procesa uz pretpostavku da se za aproksimaciju nelinearne funkcije
f((k)), koja preslikava regresijski prostor u izlazni prostor modela procesa, koriste neuronske mree.
Dimenzija ovih modela odreena je dimenzijom regresijskoga vektora i dimenzijom (brojem
parametara) neuronske mree. Nadalje, pretpostavlja se da dimenziju regresijskoga vektora zadaje

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

100

korisnik na temelju svoga znanja o procesu8) , pa se izbor optimalne dimenzije modela procesa svodi na
izbor optimalne dimenzije neuronske mree, odnosno na izbor optimalnoga broja parametara mree.
Postupci odreivanja optimalne dimenzije neuronske mree mogu se podijeliti na postupke
smanjivanja dimenzije mree (engl. network pruning) i postupke postupnoga poveavanja dimenzije
mree (engl. network growing), koji se nazivaju i izgradbenim algoritmima uenja mrea (engl.
constructive learning algorithms).
Postupci smanjivanja dimenzije neuronske mree odreuju njezinu optimalnu dimenziju
odbacivanjem suvinih parametara iz poetne mree velike dimenzije9). Pri tome se razlikuju off-line i
on-line postupci smanjivanja dimenzije mree. Kod off-line postupka prvo se naui mrea velike
dimenzije, a zatim se naknadno odbacuju suvini parametri (npr. Kung, 1993). Nasuprot tome, on-line
postupci odreuju optimalnu dimenziju mree tijekom postupka uenja mree (vidi toku 4.5.2.). Offline i on-line postupke odreivanja optimalne dimenzije neuronske mree mogue je koristiti i u
kombinaciji, to jest tijekom uenja mree koristi se neki od on-line postupaka, a zatim se po zavretku
uenja primijeni neki od off-line postupaka za dodatno smanjenje dimenzije mree. Zbog velikoga
broja parametara neuronskih mrea primjena off-line postupaka smanjenja dimenzije mree
zahtijeva usporedbu velikoga broja mrea koje su podmodeli nauene velike mree, to ove
postupke ini prilino nepraktinima. Stoga se znatno ee koriste on-line postupci koji iz velike
mree ne izbacuju suvine parametre ve samo smanjuju njihov utjecaj na vladanje mree.
Za razliku od postupaka smanjivanja dimenzije neuronske mree koji ue veliku neuronsku
mreu odbacujui suvine parametre tijekom ili nakon uenja, postupci postupnoga poveavanja
dimenzije neuronske mree (u literaturi se esto nazivaju i izgradbenim algoritmima uenja neuronskih
mrea, engl. constructive learning algorithms) zapoinju s mreom male dimenzije, a zatim joj
postupno poveavaju dimenziju dok ne pronau optimalnu. Najee koriteni postupci postupne
izgradnje neuronske mree jesu kaskadni korelacijski postupci (Petrovi et al., 1998) i ortogonalni
postupci (Chen et al., 1991).
U identifikaciji nelinearnih dinamikih procesa se za odreivanje optimalne dimenzije modela
procesa najee koriste on-line postupci smanjivanja dimenzije modela procesa, jer su najjednostavniji
i vrlo uinkoviti. Zbog toga se u nastavku (u toki 4.5.2.) i obrauju samo ovi postupci. Prije toga se u
potpoglavlju 4.5.1 definira se kriterij za izbor optimalne dimenzije modela procesa.

4.5.1. Definicija kriterija za izbor optimalne dimenzije modela procesa


Problem odreivanja optimalne dimenzije ulazno-izlaznog modela procesa zadane strukture i
zadane dimenzije regresijskoga vektora svodi se na odreivanje optimalnoga broja parametara
modela n(). Openito je model s veim brojem parametara fleksibilniji pa omoguuje postizanje
8)
9)

Kao dobar orijentir pri izboru dimenzije regresijskoga vektora moe posluiti red najboljega linearnog modela.
Pod mreom velike dimenzije smatra se mrea koja ima vie parametara (neurona) nego to je potrebno za
aproksimaciju zadane nelinearne funkcije.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

101

manjih vrijednosti kriterija kakvoe definiranog izrazom (4-83). Meutim, to ne znai da je za


zadanu strukturu i zadani regresijski vektor model procesa s veim brojem parametara bolji od
modela s manjim brojem parametara. Postavlja se pitanje koji je optimalni broj parametara i kako
ga odrediti.
Najbolji, tzv. idealni, predikcijski model procesa jest onaj model iji izlazni signali
predstavljaju oekivanje izlaznih signala stvarnoga procesa, to jest za koji je y( k ) = E y( k ) (vidi
izraz (4-9)). Ako se pretpostavi da za zadanu strukturu modela i zadanu dimenziju regresijskoga
vektora postoji idealni model procesa:
y( k ) = f N 0 ( ( k )) + ( k ) ,

(4-87)

tada cilj minimizacije kriterija kakvoe (), definirana izrazom (4-83), postaje odreivanje
vrijednosti parametara modela za koje estimirani model procesa dobro odgovara idealnome
modelu (4-87). Prema tome, umjesto minimizacije kriterija kakvoe (4-83) zapravo bi trebalo
minimizirati kriterij kakvoe:
( ) = E f N 0 ( ( ) f N ( ( ), )

1
N N

= lim

f N 0 ( ( ) f N ( ( ), ) .

(4-88)

=1

Kriterij kakvoe (4-88) ovisi o izabranome regresoru pa omoguuje estimaciju modela samo za
zadani regresijski vektor. Prema tome, unutar zadane strukture modela i zadanoga regresora najbolji
model, parametriran vektorom parametara dimenzije n(), jest onaj za koji kriterij (4-88)
poprima minimum:
0 = arg min ( ) .
(4-89)
Meutim, idealni je model procesa f N 0 ( ( k )) nepoznat pa se kriterij kakvoe (4-88) ne moe
koristiti za odreivanje optimalnih vrijednosti parametara modela procesa, ve se i dalje koristi
kriterij kakvoe (4-83). Kriterij kakvoe (4-83) poprima minimum za vrijednosti parametara modela
=* (vidi izraz (4-86)). Za provjeru predikcijskih svojstava estimiranoga modela procesa (to jest
njegovih sposobnosti poopavanja) treba provjeriti kakvo je njegovo slaganje s idealnim modelom
procesa (4-87) na novom skupu podataka, to jest na podacima koji nisu koriteni za estimaciju
parametara modela (tzv. podaci za vrednovanje). Dakle, treba izraunati oekivanje kriterija (4-88)
za vrijednosti parametara =* na podacima za vrednovanje:
E ( ) = E f N 0 ( ( ) f N ( ( ), )

(4-90)

Razvojem funkcije ( ) u Taylorov red u okolini toke 0 moe se pokazati da vrijedi (Ljung,
1987):
E ( ) E f N 0 ( ( )) f N ( ( ), 0 )
" pomak "

+ E f N ( ( ), 0 ) f N ( ( ), )

.(4-91)

var ijanca

Prema tome, predikcijska svojstva modela procesa odreena su pomakom i varijancom kriterija
kakvoe (4-90). Odstupanje estimiranih vrijednosti parametara modela procesa od optimalnih

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

102

vrijednosti 0 opisano je matricom kovarijanci. To odstupanje vrijednosti parametara modela unosi


varijancu u izrazu (4-90), koja za SISO procese iznosi10) (Sjberg et al. 1995):
E f N ( ( ), 0 ) f N ( ( ), )

n( )
.
N

(4-92)

Kada je broj mjernih uzoraka ulaznih i izlaznih signala procesa velik (N ), varijanca (4-92) tei
k nuli pa estimirane vrijednosti parametara tee optimalnim vrijednostima (*0). U tom je
sluaju iznos kriterija kakvoe (4-90) odreen samo "pomakom". Dakle, estimirani model tei
idealnome modelu u najveoj mjeri u kojoj moe za zadanu strukturu i dimenziju modela. Za
konani broj mjernih uzoraka varijanca raste proporcionalno broju parametara modela procesa
n().
Kao to je ve reeno, izraz (4-91) predstavlja oekivanu vrijednost predikcijske pogreke
modela na podacima za vrednovanje. Na osnovi izraza (4-83), (4-91) i (4-92) moe se pisati:
n( )
1
.
E[( * )] 2 + E[ ( 0 )] + 2
N
N

(4-93)

Za zadanu strukturu modela procesa funkcija E[ ( 0 )] nerastua je funkcija od broja parametara


modela n(), to jest "pomak" se smanjuje poveanjem broja parametara. Meutim, ako se
dodavanjem novoga parametra "pomak" smanji za iznos manji od n()/N, poveava se ukupni
iznos funkcije (4-93) odnosno pogorava se kakvoa modela procesa. Prema tome, takvi su
parametri nepoeljni i trebaju se ukloniti iz modela procesa. Ovi se parametri u literaturi obino
nazivaju suvinim parametrima (engl. superfluous), a uinak koji izazivaju naziva se sukobom
"pomaka" i varijance (engl. bias versus variance).
Problem sukoba "pomaka" i varijance analizira se i u literaturi koja opisuje identifikaciju
linearnih dinamikih procesa. Meutim, ne pridaje mu se prevelika pozornost jer linearni modeli
uglavnom imaju zanemarivo mali broj parametara (obino do 10) u usporedbi s brojem mjernih
uzoraka (obino nekoliko stotina) pa ovaj sukob nije jako izraen. Naprotiv, nelinearni modeli
procesa obino imaju veliki broj parametara pa problem sukoba "pomaka" i varijance postaje vrlo
neugodan sa stajalita dobivanja modela procesa s dobrim predikcijskim svojstvima. Zbog velikoga
broja parametara na kojima neuronske mree zasnivaju svoju sposobnost aproksimacije nelinearnih
funkcija, problem sukoba "pomaka" i varijance postaje najveim problemom kod njihove primjene
u identifikaciji nelinearnih dinamikih procesa. Neke mogunosti ublaavanja ovoga problema
opisane su u nastavku.

4.5.2. On-line postupci smanjivanja dimenzije neuronske mree


On-line postupci smanjivanja dimenzije neuronske mree ne izbacuju suvine parametre iz
velike mree ve samo smanjuju njihov utjecaj na vladanje mree. Osnovni postupak razluivanja
parametara neuronske mree na vane i suvine parametre zasniva se na tzv. regularizaciji,
10)

Za MIMO procese varijancu 2 u izrazu (4-92) zamjenjuje inverzija matrice kovarijanci signala smetnje (k).

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

103

odnosno na dodavanju kaznenoga lana (engl. penalty term) kriteriju kakvoe (2-83). Kazneni
se lan moe zadati u vie oblika (Reed, 1993), a najee se koristi oblik (Moody, 1992):
2

r ( ) = ( ) + kr ,

(4-94)

gdje je kr koeficijent regularizacije (obino iznosa u podruju vrijednosti kr = 10-6 do 10-2). Zamisao
ovoga postupka jest da se kaznenim lanom suvini parametri mree, to jest parametri koji ne
utjeu znaajno na prvi lan izraza (4-94), dre na to manjim iznosima, a da se pri tome znaajno
ne utjee na vane parametre mree (Sjberg et al., 1995).
Ako se umjesto kriterija kakvoe (4-83) minimizira kriterij (4-94), moe se pokazati da se
stvarni broj parametara neuronske mree n() smanji na efektivni broj parametara (Sjberg i Ljung,
1994):
n( , kr ) =

n( )

hi2
,

2
i =1 ( hi + kr )

(4-95)

gdje su hi karakteristine vrijednosti (singularne vrijednosti) Hessian matrice H() kriterija


kakvoe (4-83). Naime, kao to se iz izraza (4-95) vidi, doprinos karakteristinih vrijednosti hi koje
su znatno manjeg iznosa od koeficijenta kr efektivnom broju parametara moe se zanemariti, dok se
na doprinos karakteristinih vrijednosti hi koje su znatno veeg iznosa od koeficijenta kr gotovo ne
utjee. Karakteristine vrijednosti Hessian matrice poprimaju iznose u vrlo irokom rasponu
vrijednosti (Saarinen et al., 1993), tako da je najvei broj njih ili daleko veeg ili daleko manjeg
iznosa od koeficijenta regularizacije. Dakle, uvoenjem koeficijenta regularizacije neuronska se
mrea s velikim brojem parametara vlada kao neuronska mrea s manjim brojem parametara, a to
znai da se uz njegov optimalni iznos dobije mrea s optimalnim brojem parametara, odnosno
mrea optimalne dimenzije.
Meutim, kao to je ve reeno, pomak u kriterijskoj funkciji (4-91) nerastua je funkcija
od broja parametara neuronske mree, pa se smanjenjem broja parametara obino poveava njegov
iznos. Prema tome, to je vei iznos koeficijenta kr, varijanca je manja a pomak vei i obratno.
Traenje optimalnoga iznosa koeficijenta regularizacije provodi se vrednovanjem dobivene
neuronske mree odnosno modela procesa na podacima za vrednovanje.
Slian regularizacijski uinak moe se postii i ako se umjesto dodavanja kaznenoga lana
postupak uenja zaustavi prije postizanja minimuma kriterija kakvoe (). Osnovni cilj teorije
nelinearnoga optimiranja jest pronalaenje algoritama koji osiguravaju konvergenciju u globalni
minimum ciljne funkcije, koja je u sluaju identifikacije procesa kriterij kakvoe (). Meutim,
kao to je reeno u potpoglavlju 4.1, u identifikaciji dinamikih procesa kojima je inherentno
svojstvo postojanje uma, globalni minimum kriterijske funkcije nije optimalno rjeenje jer ne
osigurava najbolja svojstva poopavanja modela procesa. Naime, u prvoj fazi uenja neuronske
mree smanjenjem iznosa kriterija kakvoe () na estimacijskim podacima smanjuje se i iznos
ukupne kvadratne pogreke modela v() na podacima za vrednovanje (v() se izraunava po
istom izrazu kao i ()). Meutim, nakon odreenoga broja itearcija kvadratna pogreka v()

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

104

poinje rasti iako se () i dalje smanjuje (Sjberg i Ljung, 1994). Ova se pojava moe objasniti na
sljedei nain:
U poetku postupka uenja algoritam uenja bre mijenja vane parametre mree jer je
gradijent kriterijske funkcije po njima vei od njezinoga gradijenta po suvinim parametrima
( )
, i = 1, , n( ) . Nakon to je algoritam uenja
mree, a prema izrazu (4-10) je i ~

mree podesio vane parametre, poinje podeavati suvine, to jest poinje uiti um.
Meutim, um je sluajnog karaktera pa nema globalna ve samo lokalna svojstva. Zbog toga
se daljnjim podeavanjem parametara mree naruavaju njezina svojstva poopavanja, to jest
poveava se iznos ukupne kvadratne pogreke na podacima za vrednovanje v().
Ova razmatranja izravno ukazuju da je problem mogue rijeiti zaustavljanjem postupka uenja u
trenutku kada se ukupna kvadratna pogreka na podacima za vrednovanje poinje poveavati.
Dakle, u svakoj se iteraciji algoritma uenja neuronske mree paralelno s izraunavanjem iznosa
funkcije ((k)) izraunava i iznos funkcije v((k)), a njihov se iznos usporeuje s iznosom iz
prethodne (k-1)-ve iteracije. Postupak se uenja zaustavlja kada su ispunjeni uvjeti:
v ( ( k )) > v ( ( k 1))

( ( k )) < ( ( k 1)) .

(4-96)
(4-97)

Sjberg (1995) koristi samo prvi uvjet za zaustavljanje postupka uenja. Meutim, ako se za uenje
mree koriste algoritmi koji doputaju i povremena poveavanja kriterija kakvoe tijekom uenja
(iz razloga prevladavanja lokalnih minimuma, vidi potpoglavlje 4.2), potrebno je uvesti i drugi
uvjet. Osim toga, radi poveanja pouzdanosti postupka poeljno je zaustaviti uenje mree nakon
ispunjenih uvjeta (4-96) i (4-97) zaredom u dvije iteracije.
Postupak regularizacije dodavanjem kaznenoga lana kriteriju kakvoe naziva se
eksplicitnom regularizacijom, a postupak regularizacije prekidanjem postupka uenja implicitnom
regularizacijom. Slinost uinka ovih postupak regularizacije moe se pokazati i matematiki, to
su uinili Sjberg i Ljung (1994).
Postavlja se pitanje koji postupak regularizacije primijeniti. Na temelju opisa postupaka
regularizacije, bez ulaenja u dublju analizu njihovih svojstava, moe se zakljuiti sljedee:
Postupak implicitne regularizacije jednostavniji je za koritenje jer ne zahtijeva zadavanje
nikakvih parametara, dok kod eksplicitne regularizacije treba zadati iznos koeficijenta
regularizacije kr;
Kada nisu raspoloivi podaci za vrednovanje, primjerice pri on-line identifikaciji procesa,
mogue je primijeniti samo eksplicitnu regularizaciju jer implicitna regularizacija zahtijeva
raspoloivost i podataka za vrednovanje.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

105

4.6. Postupci vrednovanja modela procesa


Postupci vrednovanja modela procesa (engl. model validation) predstavljaju zavrnu fazu
postupka identifikacije procesa (vidi sliku 4.1.). Njihova je zadaa objektivno vrednovati
identificirani model procesa, odnosno ocijeniti stupanj podudarnosti njegova vladanja s vladanjem
stvarnoga procesa. Usporedbu vladanja modela procesa i stvarnoga procesa treba provoditi na
podacima koji nisu koriteni za estimaciju parametara modela (podaci za vrednovanje). Za
vrednovanje modela procesa koriste se parametarski i korelacijski postupci.
Parametarski postupci vrednovanja modela vrednuju identificirani model procesa
usporeujui ga s modelom vee dimenzije. Pri tome se model vee dimenzije ne identificira, ve se
postupci vrednovanja zasnivaju na procjeni iznosa kriterija kakvoe modela vee dimenzije na
temelju iznosa kriterija kakvoe identificiranoga modela (npr. Leontaritis i Billings, 1987).
Korelacijski postupci vrednovanja modela temelje se na izraunavanju autokorelacijske
funkcije predikcijske pogreke i meukorelacijskih funkcija odreenih kombinacija raspoloivih
signala procesa. Iako parametarski postupci vrednovanja modela procesa imaju veu snagu testa
(Bohlin, 1978), ee se primjenjuju korelacijski postupci jer su jednostavniji. Ta njihova prednost
posebno dolazi do izraaja kada se primjenjuju za vrednovanje modela procesa s velikim brojem
parametara, kao to su modeli procesa zasnovani na primjeni neuronskih mrea. Zbog toga se u
nastavku opisuju samo korelacijski postupci vrednovanja modela procesa, i to proireni klasini
korelacijski postupak (toka 4.6.1.) i korelacijski postupak zasnovan na 2 testu (toka 4.6.2.).
Ocjena modela korelacijskom analizom temelji se na izraunavanju autokorelacijskih i
meukorelacijskih funkcija nad odreenim kombinacijama raspoloivih signala. Openito se
autokorelacijska funkcija izraunava prema izrazu:
Rxx ( ) =

1
N

x( k ) x( k + ) ,

1
N

x( k ) y( k + ) ,

(4-98)

k =1

a meukorelacijska prema izrazu:


Rxy ( ) =

(4-99)

k =1

gdje je:

- broj koraka zaostajanja.

4.6.1. Proireni klasini korelacijski postupak


Ako se identificira linearni model linearnoga procesa17) za njegovo je vrednovanje dovoljno
izraunati autokorelacijsku funkciju predikcijske pogreke modela Ree() i meukorelacijsku
17)

Linearnost procesa utvrena je nekim od postupaka opisanih u toki 4.2.1.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

106

funkciju izmeu predikcijske pogreke i ulaznoga signala modela Reu() (Sderstrm i Stoica,
1989). Ako one poprime iznose:
Ree() = ()

(4-100)

Reu() = 0,

(4-101)

model je linearnoga procesa ispravan. Meutim, ako je proces koji se identificira nelinearan, tada
uvjeti (4-100) i (4-101) nisu dovoljni za vrednovanje modela procesa, neovisno o tome koristi li se
linearni ili nelinearni model procesa (Billings i Voon, 1983). Osnovni je uzrok nedovoljnosti ovih
uvjeta u karakteru i mjestu djelovanja smetnje na proces, koja se kod nelinearnih procesa, za razliku
od linearnih procesa, openito ne moe prikazati kao aditivna smetnja izlaznome signalu procesa.
Nelinearni se proces, na koji djeluje nelinearna smetnja koja ulazi "unutar" procesa, moe
opisati sljedeim izrazom:
y ( k ) = G u [u( k )]+ G u [u( k ), ( k )]+ G [ ( k )] ,

(4-102)

gdje je:
Gu[u(k)]

- funkcija koja opisuje ovisnost izlaznoga o ulaznom signalu u(k) procesa;

G[(k)]

- funkcija koja opisuje ovisnost izlaznoga signala procesa o signalu smetnje (k);

Gu[u(k), (k)]

- funkcija koja opisuje spregnuto djelovanje signala u(k) i (k).

Izostanak bilo kojeg lana iz jednadbe (4-102) u estimiranome modelu procesa moe se detektirati
pomou sljedea tri korelacijska testa (Billings i Voon, 1986):
Ree = ( ) ,

(4-103)

Rue ( ) = 0 ,

(4-104)

Re( eu ) ( ) = 0 1 .

(4-105)

Korelacijski su testovi (4-103)-(4-104) dovoljni samo za vrednovanje modela procesa kod kojih se
zasebno estimira model smetnje (npr. estimiraju se NARMAX ili NBJ modeli).
Kada se estimira neki od FIR, NARX ili NOE modela, estimira se samo dio procesa Gu[u(k)], pa
se oni mogu koristiti samo za modeliranje procesa koji se mogu opisati izrazom:
y ( k ) = G u [u( k )]+ G [ ( k )]

(4-106)

Za ove je modele, dakle, potrebno primijeniti testove vrednovanja koji mogu detektirati prisutnost
lanova od Gu i Gu u predikcijskoj pogreci modela. Detekcija G nije potrebna jer je za modele kod
kojih se ne estimira model smetnje e(k) = G [(k)]. Meukorelacijskim testom
Ru2 e2 ( ) = 0 ,

(4-107)

gdje je u2 ( k ) = u2 ( k ) E{u2 ( k )} , mogu se detektirati svi lanovi od Gu i Gu (Billings i Voon, 1986)


pa se model koji ispunjava uvjet (4-107) moe smatrati ispravnim modelom procesa.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

107

Ako uvjet (4-107) nije ispunjen, tada je pri identifikaciji polinomskoga modela procesa
(Thomson et al., 1996) korisno znati jesu li u Gu prisutni parni ili neparni polinomski lanovi, jer se na
temelju toga moe donijeti odluka koje polinomske lanove ukljuiti u model kao regresore. Ako su
neparni momenti ulaznog signala u(k) jednaki nuli, korelacijska funkcija Rue() detektira neparne
polinomske lanove u Gu, dok je za detekciju parnih polinomskih lanova u Gu potrebno izraunati
korelacijsku funkciju Ru2 e ( )
Iako se spoznaja o prisutnosti parnih ili neparnih polinomskih lanova pri identifikaciji modela
procesa zasnovanog na primjeni neuronskih mrea ne moe iskoristiti za izbor nove strukture modela,
ipak je korisno provjeriti i iznos i korelacijske funkcije Ru2 e ( ) . Naime, ponekad su u2(k) i e2(k) tako
malog iznosa da je uvjet (4-107) ispunjen, iako je e(k) stvarno koreliran s u(k).
Na temelju gornjih razmatranja moe se zakljuiti da je za vrednovanje modela potrebno
izraunati pet korelacijskih funkcija i provjeriti njihove vrijednosti. Dakle, model procesa moe se
smatrati valjanim ako su ispunjeni sljedei uvjeti:
Ree ( ) = ( ) ;

(4-108)

Reu ( ) = 0 ,

(4-109)

Re( eu ) ( ) = 0 ,

1;

(4-110)

Ru2 e ( ) = 0 ,

(4-111)

Ru 2 e 2 ( ) = 0 ,

(4-112)

Naravno, uvjeti (4-108)-(4-112) ne mogu biti egzaktno ispunjeni. Model se moe smatrati
ispravnim ako se iznosi korelacijskih funkcija nalaze unutar odreenih podruja povjerenja.
U praktinim se implementacijama korelacijskih postupaka izraunavaju normirane
korelacijske funkcije, ime se osigurava da poprime vrijednosti u podruju [-1 1]. Normirana se
autokorelacijska funkcija izraunava prema izrazu:
Rxxn ( ) =

Rxx ( )
,
Rxx ( 0)

(4-113)

a normirana meukorelacijska funkcija prema izrazu:


Rxyn ( ) =

Rxy ( )
Rxx ( 0 ) Rxy ( 0 )

(4-114)

Za pouzdanost testa od 95% podruja povjerenja normiranih korelacijskih funkcija iznose (Billings
et al., 1983):
za autokorelacijsku funkciju:

za meukorelacijsku funkciju:

196
.
N

(4-115)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

108

max

196
.
N

Rxx ( 0 ) Ryy ( 0 ) + Rxx ( ) Ryy ( )


=1

Rxx ( 0 ) Ryy ( 0 )

(4-116)

gdje je:

max - maksimalni broj koraka zaostajanja za koje se rauna normirana meukorelacijska


funkcija.

4.6.2. Korelacijski postupak zasnovan na 2-testu


Da bi model procesa bio valjan, njegova predikcijska pogreka mora biti nekorelirana s
mjernim vrijednostima ulaznih i izlaznih signala procesa, to se moe izraziti na sljedei nain:
E[e( k )| yk-1 , uk ] = 0 .

(4-117)

Budui da je ek-1 funkcija od yk-1 i uk-1, uvjetna vjerojatnost u izrazu (4-117) moe se pisati kao:
E[e( k )| yk-1 , uk ,e k 1 ] = 0 ,

(4-118)

E[e( k )| x k ] = 0 ,

(4-119)

odnosno u kraem obliku:

gdje je x k = y k 1 u k e k 1

vektor koji sadri sve prole vrijednosti izlaza i ulaza procesa te

predikcijske pogreke.
Vrlo je teko izravno provjeriti uvjetno oekivanje (4-119), ali se na osnovi njega moe
izvesti ekvivalentan uvjet koji se zatim jednostavno provjerava (Leontaritis i Billings, 1987). Izvod
slijedi.
Ako se matrica kovarijanci R predikcijske pogreke faktorizira na sljedei nain:

R= E[e( k ) eT ( k )|x k ] = ST S ,

(4-120)

predikcijska se pogreka moe normirati tako da se dobije odgovarajua sluajna varijabla (k) s
jedininom matricom kovarijanci:

( k ) = S-T e( k ) .

(4-121)

Zatim se moe definirati matrica Z(k) u kojoj je svaki lan ovisan iskljuivo o vektoru xk , to jest:

Z ( k ) =Z ( x k ) .

(4-122)

Dimenzija matrice Z(k) je nssn(y), gdje je nss proizvoljno odabrani broj. Pretpostavlja se da matrica
Z(k) zadovoljava zakon velikih brojeva (Paue, 1993), to jest da vrijedi:
1
N

Z ( )Z

( ) = T .

=1

Drugim rijeima, to znai da za svaki lan zi,j matrice Z()ZT() vrijedi:

(4-123)

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa


lim P[( z i, j - E ( zi , j )) < ] = 1,

gdje je P - oznaka za vjerojatnost, a

z i, j =

1
N

i, j

109
(4-124)

( ) . Dakle, za dovoljno veliki broj mjernih

=1

uzoraka N moe se rei da su srednje vrijednosti svih lanova zi,j() priblino jednake njihovim
matematikim oekivanjima.
Nadalje, moe se definirati sljedei vektor sluajnih varijabli dimenzije nss:

1
N

Z ( ) ( ) ,

(4-125)

=1

za koji se moe pretpostaviti da vrijedi centralni granini teorem (Paue, 1993), to jest da za dovoljno
velik broj mjernih uzoraka, bez obzira na njihovu statistiku razdiobu, razdioba lanova vektora tei k
normalnoj razdiobi oekivanja
E[ ] = 0

(4-126)

i varijance
E[ ] =
T

1 T

N

(4-127)

Slijedi dokaz svojstava vektora sluajnih varijabli iskazanih izrazima (4-126) i (4-127).

Dokaz izraza (4-126):


Oekivanje vektora sluajnih varijabli definirana izrazom (4-125) iznosi:
E[ ] = E[

1
N

Z(x ) ( )] =
=1

1
N

E[Z ( x ) ( )] ,

(4-128)

=1

S obzirom da za dvostruko oekivanje vrijedi (Paue, 1993):


E[E[ ( )|x ]] = E[ ( )| x ] ,

(4-129)

izraz (4-128) moe se napisati i na sljedei nain:


E[ ] =

1
N

E[Z ( x ) E[ ( )| x ]] = 0 .

(4-130)

=1

Budui da je () samo normirana predikcijska pogreka, ona je nekorelirana s vektorom x, to jest


vrijedi: E[()x]=0, to potvruje ispravnost izraza (4-126).

Dokaz izraza (4-127):


Varijanca vektora definirana izrazom (4-125) iznosi:
E[T ] = E[

1
N

Z( ) ( )
=1

1
N

T (r ) ZT (r )] =
r=1

1 N N
E[Z ( ) ( ) T ( r )Z T ( r )] . (4-131)
2
N =1 r=1

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

110

Za > r vektor x sadri sve lanove vektora xr, a za r > vektor xr sadri sve lanove vektora x pa se
moe pisati:
E[ ( ) T ( r )|x ,x r ] = E[ ( ) T ( r )|x max(,r ) ] .

(4-132)

Primjenom pravila dvostrukoga oekivanja (4-129) i pravila (4-132) na izraz (4-131) dobije se:
E[ T ] =

1
N

E[Z( )E[ ( )

( r )|x max( ,r )] ZT ( r )] .

(4-133)

=1 r=1

Budui da je vektor (k) samo normirani vektor predikcijske pogreke e(k), vrijedi:
E[ ( ) T ( r )| x max( ,r )] = 0 , za r ,

(4-134)

to uvrteno u izraz (4-133) daje:


E[T ] =

1
N

E[Z ( )Z

( )] .

(4-135)

=1

Nadalje, kako je E[Z ( )Z T ( )] = Z ( )Z T ( ) izraz (4-135) poprima oblik:


E[ ] =
T

1 T
,
N

(4-136)

ime je izraz (4-127) dokazan.


Normiranjem vektora , analogno normiranju vektora predikcijskih pogreki (vidi izraz (4-121)),
dobije se sluajna varijabla

= N 1/2 -T ,

(4-137)

koja ima jedininu matricu kovarijanci.


Ako se definira skalarna sluajna varijabla:
d= T ,

(4-138)

ona je raspodijeljena po zakonu gama razdiobe s nss stupnjeva slobode (Pavli, 1965) pa se, uzimajui u
obzir izraz (4-126), moe pisati:

2 = d = T = N T ( T ) 1 .

(4-139)

Ako je iznos sluajne varijable d u kritinom podruju, vrednovani se model smatra nevaljanim, a ako
je u podruju prihvaanja, model se smatra valjanim i postupak identifikacije se zavrava. Za zadani je
prag znaajnosti podruje prihvaanja odreeno kritinom vrijednou 2-razdiobe s nss stupnjeva
slobode:
d < k(nss).

(4-140)

Kod primjene ovoga postupka vrednovanja modela procesa potrebno je zadati matricu Z(k).
Pouzdanost postupka u velikoj mjeri ovisi o ovoj matrici pa se njezinu izboru posveuje posebna
pozornost. Za izbor optimalne matrice Z(k) ne postoje analitika pravila, ve se ona izabire na temelju
iskustvenih preporuka.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

111

Radi jednostavnijega oznaavanja i zornijega prikaza razmatraju se SISO procesi, a sva


razmatranja vrijede i za MIMO procese. Za SISO procese matrica Z(k) postaje vektor z(k) pa se izraz
(4-139) moe napisati u sljedeem obliku:

FG z( )e( )IJ LM z( ) z ( )OP FG z( )e( )IJ .


=d=N
H
KN
K
QH
e ( )
1

=1

=1

(4-141)

=1

=1

Najee se izraz (4-141) izraunava s vie razliitih vektora z(k) i model se smatra valjanim ako je za
svaki od njih zadovoljen uvjet (4-140). Ako se izaberu18)

z( k ) = e( k 1) e( k 2) ... e( k max )

(4-142)

z( k ) = u( k ) u( k 1) ... u( k max )

(4-143)

test (4-141) odgovara klasinome korelacijskom testu za linearne modele procesa (vidi izraze (4-100) i
(4-101)). Bohlin (1978) je pokazao da za procese s velikim vremenskim konstantama ovaj test, za z(k)
definirane izrazima (4-142) i (4-143), ima znatno manju snagu od parametarskih testova te da se
njegova snaga moe bitno poveati primjenom vektora z(k) koji sadri mjerne uzorke izlaznoga signala
procesa:
T

z( k ) = y ( k 1) y ( k 2) ... y ( k max ) .

(4-144)

Ako se vrednuje nelinearni model procesa, izbor lanova vektora z(k) postaje znatno sloeniji. Vie
nije dovoljno kao lanove vektora z(k) koristiti prole vrijednosti signala predikcijske pogreke i
ulaznoga i izlaznoga signala procesa, ve je potrebno koristiti nelinearne funkcije ovih signala.
Tipovi nelinearnih funkcija mogu biti proizvoljni, ali se najee koriste monomi:
T

z( k ) = m( k ) m( k 1) ... m( k max ) .

(4-145)

Test se obino provodi za vie razliitih monoma i model se smatra valjanim ako je za svaki od njih
zadovoljen uvjet (4-140). U ovom se radu kao elementi vektora z(k) koriste sljedei monomi (Chen
et al., 1990):
m(k) = e(k)u(k) ,

(4-146)

m(k) = e2(k)u(k) ,

(4-147)

m(k) = e(k)e(k) ,

(4-148)

m(k) = e(k)y(k) .

(4-149)

Billings i Tao (1991) primjenjuju slian test vrednovanja, koji se od naprijed opisana testa razlikuje
samo po izrazu za izraunavanje sluajne varijable . Umjesto izraza (4-125) oni koriste izraz:

18)

S koritenim brojem prolih uzoraka max odreen je broj stupnjeva slobode 2-razdiobe: nss=max.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

1
N

z( ) ( ) =

=1

e ( )

z( )e

( ) ,

112

(4-150)

=1

=1

gdje je ( ) = ( ) E[ ( )] , odnosno e ( ) = e ( ) E[e ( )] . Dokazali su da je uz ovako


2

definiranu sluajnu varijablu mogue detektirati sve nemodelirane nelinearnosti u predikcijskoj


pogreci modela ako se vektor z(k) izabere prema sljedeem izrazu:
T

z( k ) = e2 ( k 1) e2 ( k 2) ... e2 ( k max ) .

(4-151)

4.7. Primjer: Identifikacija pH procesa primjenom MLP neuronskih mrea


U ovome se poglavlju opisuju eksperimentalni rezultati identifikacije modela pH procesa.
Identifikacija je provedena u skladu s postupkom opisanim u prethodnim potpoglavljima ovoga
poglavlja. Dakle, na procesu su prvo provedeni eksperimenti kojima su prikupljene mjerne
vrijednosti ulaznog i izlaznog signala procesa. Istraivane su strukture modela procesa iz grupe
NARX modela, a za aproksimaciju nelinearnoga preslikavanja primijenjene su MLP neuronske
mree. Osim eksperimentalnih istraivanja raznih struktura modela, istraivan je i utjecaj izbora
poetnih vrijednosti parametara neuronske mree te utjecaj eksplicitne i implicitne regularizacije na
svojstva poopavanja modela.

4.7.1. Opis pH procesa


Problem odravanja eljene pH vrijednosti javlja se kod mnogih kemijskih i industrijskih
procesa. Jo od davnina, pri proizvodnji sapuna, trebalo je voditi rauna o doziranju luine koja je
reagirala s mau. Proizvoai kozmetikih proizvoda sve ee istiu njihovu pH neutralnost ili pH
vrijednost identinu pH vrijednosti zdrave koe. Razumljivo je da se nakon brojnih spoznaja o
utjecaju kiselosti odnosno lunatosti na zdravlje ljudi, te na biljni i ivotinjski svijet, ovome
problemu pridaje velika pozornost. Poglavito se u posljednje vrijeme istie potreba osiguranja pH
neutralnosti otpadnih voda, kako bi se izbjeglo zagaivanje okolia.
U literaturi se obrauju razni procesi u kojima je potrebno regulirati pH vrijednost.
Primjerice:
pH neutralizacija smjese u proizvodnji sapuna ili masnih kiselina (Austin, 1984);
regulacija pH vrijednosti u biolokim sustavima za poboljanje rasta stanica (npr.
proizvodnja kvasca) (Bailey i Ollis, 1980);
pH neutralizacija kiselih ili lunatih otpadnih voda (Metry, 1980) radi spreavanja korozije
i/ili oteenja konstrukcijskih materijala, ili zatite vodenoga svijeta i ljudskoga okolia, ili

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

113

kao preliminarna priprema koja e omoguiti efektivne procese biolokoga tretmana, ili pH
neutralizacija vode za recikliranje ili procesne vode.
Regulacija pH vrijednosti teak je problem zbog izrazito nelinearne prirode pH procesa.
Istrauju se i primjenjuju razni sustavi upravljanja pH procesa, ali najbolji se rezultati postiu
primjenom sustava upravljanja koji se temelje na modelu pH procesa. Budui da je proces izrazito
nelinearan, poeljno je primijeniti nelinarni model (Wright i Kravaris, 1991; Wright et al., 1991). U
ovome se radu istrauje primjena nelinearnih ulazno-izlaznih modela procesa sa statikim
neuronskim mreama za aproksimciju nelinearnoga preslikavanja iz regresijskoga u izlazni prostor.
Istraivanja se provode na matematikom modelu pH procesa prikazanog na slici 4.16. U
reaktoru se nalazi smjesa volumena V [m3]=konst. kojoj je potrebno odravati eljenu pH
vrijednost. U reaktor utjeu procesni tok qp [m3/s], s koncentracijama iona i-te vrste ci [mol/dm3] i
titrirajui tok qt [m3/s], s koncentracijama iona i [mol/dm3], a iz reaktora istjee izlazni tok qi
[m3/s], s totalnom koncentracijom iona xi [mol/dm3], to je rezultat kiselinsko-luinskih reakcija u
reaktoru (Filipovi i Lipanovi, 1991).

qp

qt

ci

titrirajui tok

procesni tok

qi = q p + q t
xi
V
Sl. 4.16. Naelna shema pH procesa.
Matematiki model opisanoga procesa izvodi se iz osnovnih naela kemijske ravnotee i
ravnotee tvari (McAvoy, 1972), a ovdje se daju gotovi izrazi. Jednadba kemijske ravnotee (tzv.
pH jednadba) glasi:
n

a ( pH) x
i

+ A ( pH ) = 0 ,

(4-152)

i =1

gdje je:
ai

- koeficijent koji ovisi o svojstvima i-te kiseline, odnosno luine;

A(pH) = 10-pH - Kw 10pH ;


KW = [H+][OH-] = 10-14 mol2/dm6 - ionski produkt vode.
Neka se u spremniku nalazi smjesa volumena V1 s totalnim koncentracijama iona i-te vrste
(kiseline, odnosno luine) x1i , i = 1,2,..., n. Titriranjem te smjese volumenom V2 s totalnim

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

114

koncentracijama iona i-te vrste x2i , i = 1,2,..., n dobiju se nove koncentracije iona u ukupnom
volumenu V = V1+V2 :

xi =

V1 x1i + V2 x2i
=
V1 + V2

V2
x
V1 2i
.
V2
1+
V1

x1i +

(4-153)

Uvrtenjem izraza (4-153) u izraz (4-152) dobije se:


n

A ( pH ) + ai ( pH )
i =1

V2
x 2i
V1
=0 ,
V2
1+
V1

x1i +

(4-154)

odnosno

V n
V
A ( pH ) 1 + 2 + ai ( pH ) x1i + 2
V1 i =1
V1

a ( pH ) x
i

2i

= 0.

(4-155)

i =1

Izraz (4-155) moe se napisati na sljedei nain:


n

T( pH ) =

V2
=
V1

A(pH ) + ai ( pH ) x1i
i =1
n

A(pH ) + ai ( pH ) x 2i

(4-156)

i =1

Krivulja ovisnosti pH vrijednosti o volumenu V2, za dani V1=konst., naziva se titrirajuom


krivuljom pH procesa (to jest titrirajua krivulja je pH = f(V2)V1=const ). Prema tome, T(pH) u
izrazu (4-156) predstavlja inverznu titrirajuu krivulju (titrirajuu krivulju rotiranu za 90). Na slici
4.17 prikazana je titrirajua krivulja pH procesa kod kojega se procesni tok sastoji od octene
kiseline (CH3COOH) koncentracije 0.2 mol/l, a titrirajui tok od natrij-hidroksida (NaOH)
koncentracije 2 mol/l. Vidi se izrazita nelinearnost titrirajue krivulje.

Sl. 4.17. Titrirajua krivulja za CH3COOH titriranu s NaOH.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

115

Uz pretpostavku konstantnoga volumena i idealnoga mijeanja (Sl. 4.16.), jednadba ravnotee


tvari glasi (McAvoy, 1972):
V dxi/dt = qp(ci - xi) + qt(i - xi),

i = 1,2,.., n .

(4-157)

Izraz (4-157) opisuje dinamiko vladanje procesa i zajedno s pH jednadbom (4-152) daje opi
matematiki model bilo kojega pH procesa.
U ovome je radu kao primjer pH procesa izabran relativno jednostavan proces titriranja slabe
kiseline (octena kiselina CH3COOH) jakom luinom (natrij-hidroksid NaOH), za koji se takoer
moe uoiti jaka nelinearnost titrirajue krivulje (vidi sliku 4.17.).
Jednadbe (4-152) i (4-157) sadre pH vrijednost smjese implicitno pa se moraju izvriti
odreene transformacije da se dobiju jednadbe koje kao izlaz daju pH vrijednost procesa. Za
navedeni primjer pH procesa dobiju se sljedee jednadbe koje opisuju model procesa (Baoti,
1997):
dx 1 1
q p (c1 x1 ) qt x1 ,
=
dt
V

(4-158)

1 A( pH ) + a1 ( pH ) c1 q p + A( pH ) + 2 qt
d pH
,
=
da1 ( pH )
d A( pH )
dt
V
x +
d pH 1
d pH

(4-159)

gdje je:
d A(pH)
= log 10 (10 pH + 10 pH-14 ) ;
d pH

A(pH) = 10 pH 10 pH-14 ;
a1 (pH) =

1
1 + 10( pKa pH )

a 2 (pH) = 1 ;

10( pKa pH )
da1 ( pH)
= log 10
;
d pH
( 1 + 10( pKa pH ) )2

da 2 ( pH)
= 0.
d pH

Model pH procesa titriranja octene kiseline natrij-hidrosidom prikazan je na slici 4.18. Ovaj je
model pH procesa implementiran u programskom paketu Matlab-Simulink i na njemu su provedeni
identifikacijski eksperimenti. Koriteni su sljedei parametri procesa:
pKa = 4.75

- konstanta ionizacije kiseline (CH3COOH);

2 = 2 [mol/l]

- koncentracija luine (NaOH) u titrirajuem toku;

qp = 1 [l/min]

- procesni protok;

V = 10 [l]

- volumen spremnika;

x10 = 0.02 [mol/l] - poetna vrijednost koncentracije iona kiseline u izlaznom toku;
pH0 = 7

- poetna pH vrijednost.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

116

c1

1
1 + 10

10

10

pH

pH

( pKa pH )

10

10

pH-14

pH-14

+ 2

+
qp
+

qt

x
y

1
s

pH

x
log 10

10( pKa pH )

( 1 + 10( pKa pH ) )2

log 10 ( 10

pH

+ 10

pH-14

Sl. 4.18. Model pH procesa titriranja octene kiseline natrijevim-hidroksidom.

Eksperiment i test linearnosti/nelinearnosti


Na ulaz procesa (titrirjui tok qt) doveden je BLWNS pobudni signal (vidi potpoglavlje 4.1.) i
sniman je odziv pH vrijednosti na izlazu procesa. U proces su, takoer, ukljueni i signali smetnje u
obliku bijeloga uma. Jedan je signal smetnje djelovao na signal koncentracije procesnoga toka c1
(tzv. procesni um), a drugi je djelovao na izlazu procesa pribrajajui se mjernome signalu pH
vrijednosti (tzv. mjerni um). Na slici 4.19 prikazan je pobudni signal qt i izlazni signal pH snimljen
pri jednom tipinom eksperimentu. Prikupljeno je 10000 uzoraka s periodom uzimanja uzoraka od
1s. Dio ovih podataka koriten je za estimaciju parametara modela, a dio za njegovo vrednovanje.
Za estimaciju parametara modela procesa (uenje mree) koritena su N=373 mjerna uzoraka.
Vrijeme uzorkovanja izabrano je T = 4s. Vrednovanje modela provedeno je na drugom skupu od,
takoer, 373 mjerna uzorka i uz isto vrijeme uzorkovanja. Za vrednovanje modela procesa koriteni
su korelacijski testovi (vidi potpoglavlje 4.6.), a izraunavane su i postignute RMS vrijednosti na
podacima za estimaciju i podacima za vrednovanje.
Da bi se pokazala opravdanost primjene nelinearnoga modela, najprije se prikazuju rezultati
dobiveni najboljim linearnim modelom ARX strukture (na=2, nb=1, nk=1). Dobiveni odzivi
prikazani su na slici 4.20. Vidi se da linearni model ne moe zadovoljavajue opisati vladanje pH
procesa, to potvruju i rezultati korelacijskoga testa, takoer prikazani na slici 4.20. RMS
vrijednosti predikcijske pogreke na podacima za estimaciju i podacima za vrednovanje iznose:
RMSe = 0.0729, RMSv = 0.0991. Potreba primjene nelinearnoga modela proizlazi i iz rezultata

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

117

provjere linearnosti/nelinearnosti procesa izraunavanjem korelacijske funkcije Ry y 2 ( ) , koja


poprima vrijednosti znatno izvan podruja povjerenja (Sl. 4.20.).

qt [l/min]

0.014
0.012
0.01
0.008
0.006
0

2000

4000

2000

4000

6000

8000

10000

6000

8000

10000

pH

12
10
8
6

Sl. 4.19. Mjerni podaci ulaznoga signala qt i izlaznoga signala pH prikupljeni eksperimentom na
matematikom modelu pH procesa.

7.1.1. Rezultati identifikacije pH procesa primjenom MLP mrea


U ovoj se toki opisuju rezultati eksperimentalnih istraivanja primjene dvoslojnih MLP
neuronskih mrea u identifikaciji pH procesa. MLP mree koriste se za tvorbu NARX1, NARX2, i
NARX3 modela. Istraen je utjecaj poetnih vrijednosti parametara MLP mrea na kakvou
modela. Poetne su vrijednosti birane na tri naina: 1) sluajni brojevi u irokom podruju
vrijednosti (VPV parametara); 2) sluajni brojevi u uskom podruju vrijednosti ([-0.5, 0.5], MPV
parametara) i 3) prema Nguyen-Widrow preporukama (NWPV parametara, vidi toku 4.2.6.).
Nadalje, za svaki su nain postavljanja poetnih vrijednosti parametara mree provedena
istraivanja utjecaja eksplicitne i implicitne regularizacije (vidi toku 4.5.2.).

Rezultati identifikacije NARX1 modelom


Na slikama 4.21 do 4.31 i u tablicama 4.2 i 4.3 prikazani su rezultati identifikacije modela pH
procesa primjenom NARX1 modela s dvoslojnom MLP mreom. Na slikama 4.21 do 4.29 i u
tablici 4.2 prikazani su rezultati s MLP mreom koja u skrivenom sloju ima pet neurona (n(1)=5) s
tansig aktivacijskom funkcijom jedininoga pojaanja. Na slikama 4.30 i 4.31 te u tablici 4.3
prikazani su rezultati s MLP mreom s 25 neurona iste aktivacijske funkcije. U oba je sluaja
dimenzija regresijskoga vektora bila jednaka n()=[na nb]=[2 2].
Slike 4.21 do 4.23 prikazuju rezultate dobivene uz poetne vrijednosti parametara birane
sluajno u irokom podruju vrijednosti. Pregledom slike 4.21 teko je uoiti neku veu razliku
izmeu odziva dobivenih bez regularizacije ili uz eksplicitnu ili implicitnu regularizaciju. Zorno se
uoava jedino jedan impulsni skok u izlaznome signalu modela procesa nauenoga bez

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa


y( ) - pod. za est.

y() - pod. za est.


0.25

0.25

0.2

0.2

0.15

0.15

e() - pod. za est.


0.15
0.1
0.05

0.1

0.1

0.05

0.05

-0.05

-0.05
-0.05

-0.1

-0.1

-0.1
-0.15

-0.15

-0.15
0

50

100

150

200

250

300

350

400

-0.2

-0.2

50

100

150

200

250

300

350

400

0.25

0.3

0.2

0.25

100

150

200

250

300

350

400

0.15
0.1

0.15
0.1

50

e() - pod. za vred.

0.2

0.15

0.05

0.1

0.05

0.05

0
-0.05

-0.05

-0.05

-0.1

-0.1

-0.1

-0.15
0

50

100

150

200

250

300

350

400

-0.2

-0.15

50

100

Ree ( )
1

0.6
0.4
0.2
0

10

200

250

300

350

400

50

100

15

20

1
0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

-0.8

-1
-10

-1

-5

10

Ru 2 e2 ( )

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

150

200

250

300

350

400

Re( eu ) ( )

0.8

Ru 2 e ( )

-1
-10

150

Reu ( )

0.8

-0.2

y( ) - pod. za vred.

y() - pod. za vred.

-0.15

118

10

15

20

10

20

Ry y 2 ( )
1

0.5

-0.5

-0.8
-5

10

-1
-10

-5

10

-1
-20

-10

Sl. 4.20. Rezultati identifikacije pH procesa linearnim ARX modelom.

regularizacije, kada se on primijeni na podatke za vrednovanje. Naravno, taj se impuls prenosi i u


signal predikcijske pogreke. Usporedbom rezultata modificiranoga klasinoga korelacijskoga testa
vrednovanja (Sl. 4.22.) vidi se da je valjan samo model procesa dobiven uz primjenu eksplicitne
regularizacije (kr=0.001). Meutim, test vrednovanja zasnovan na 2-testu pokazuje da je model
dobiven bez regularizacije daleko najbolji, a da i model dobiven uz eksplicitnu regularizaciju daje
prihvatljive rezultate. Nadalje, analizom RMS vrijednosti danih u tablici 7.1 (str. 151) vidi se
da su RMSv vrijednosti bez

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

EKSPLICITNA
REGULARIZACIJA
kr=0.001

119

IMPLICITNA
REGULARIZACIJA

a) Podaci za estimaciju

y()

0.95

0.95

0.9

0.9

0.85

0.85

0.8

0.8

0.75

0.75

0.7

0.7

0.65

0.65

0.6
0

y( )

50

100

150

200

250

300

350

400

0.6
0

0.95

0.95

0.9

0.9

0.95
0.9
0.85
0.8
0.75
0.7
0.65

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

150

200

250

300

350

400

0.95
0.9

0.85

0.85

0.6
0

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.7

0.65

0.65
0.6
0

e()

0.65

0.6

50

100

150

200

250

300

350

400

0.55
0

50

100

150

200

250

300

350

400

0.6

0.1

0.1

0.1

0.08

0.08

0.08

0.06

0.06

0.06

0.04

0.04

0.04

0.02

0.02

0.02

-0.02

-0.02

-0.02

-0.04

-0.04

-0.04

-0.06

-0.06

-0.08

-0.08

50

100

150

200

250

300

350

400

50

100

-0.06
0

50

100

150

200

250

300

350

400

-0.08

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

b) Podaci za vrednovanje

y()

0.95

0.95

0.95

0.9

0.9

0.9

0.85

0.85

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.7

0.65

0.65

0.65

0.6

0.6

0.55

50

100

150

200

250

300

350

400

0.9

y( )

0.55

0.6
0.55
0

50

100

150

200

250

300

350

400

0.95

0.9

0.95

0.85

0.9

0.8

0.85

0.8

0.7

0.6

0.75

0.8

0.7

0.75

0.65

0.7

0.6

0.65

0.5

0.4
0

50

100

150

200

250

300

350

400

0.25

0.55

50

100

150

200

250

300

350

400

0.08

0.6

0.08

0.06
0.2

0.06
0.04

e()

0.02

0.15

0.04

0
0.1

0.02
-0.02
-0.04

0.05

-0.06
0

-0.02
-0.08

-0.05

50

100

150

200

250

300

350

400

-0.1
0

50

100

150

200

250

300

350

400

-0.04

Sl. 4.21. Izlaz procesa y(), izlaz MLP mree y( ) i predikcijska pogreka e() na podacma za
estimaciju a) i podacima za vrednovanje b) modela procesa za VPV parametara.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

Ree ( )

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

10

15

20

10

15

20

-0.2

0.8

0.8

0.6

0.6

0.4

0.4

0.4

0.2

0.2

-0.4
-0.6
-0.8
-1
-10

0
-0.2

-0.4

-0.4

-0.6

-0.6

10

-1
-10

-5

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.8

-0.8
5

10

15

20

-1

10

15

20

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

-0.2
-0.4

-1
-10

0
-0.2

10

-1
-10

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.8
-1
-10

-0.8
-5

10

10

10

15

20

-5

10

-5

10

-0.8

-5

0.8

-0.6

-0.6

-0.8

-5

-5

-0.4

-0.6

-0.8

20

0.2

0
-0.2
-0.4

-0.6

15

-0.8
-1

0.8

10

-0.8

-0.8

-5

0.2

0
-0.2

0.8

-1
0

Ru2 e2 ( )

0.6

-0.2

Ru 2 e ( )

-0.2
0

0.8

Re( eu ) ( )

IMPLICITNA
REGULARIZACIJA

0.8

-0.2
0

Reu ( )

EKSPLICITNA
REGULARIZACIJA
kr=0.001

120

-1
-10

-0.8

-5

10

-1
-10

Sl. 4.22. Rezultati modificiranoga klasinoga korelacijskoga testa za VPV parametara.

regularizacije i uz implicitnu regularizaciju znatno vee od RMSv vrijednosti s eksplicitnom


regularizacijom, dok za RMSe vrijednosti vrijedi obratno. Prema tome, moe se zakljuiti da se uz
velike poetne vrijednosti parametara MLP mree samo uz eksplicitnu regularizaciju postie valjan
model. Meutim, postavlja se pitanje zato 2-test prihvaa model dobiven bez regularizacije, iako
on nije valjan. Odgovor je sljedei: iz izraza (4-141) vidi se da je sluajna varijabla d normirana
zbrojem kvadrata predikcijske pogreke, koji zbog velikoga impulsnoga skoka predikcijske
pogreke

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

EKSPLICITNA
REGULARIZACIJA kr=0.001

40

40

35

35

30

30

25

25

20

20

15

15

121

IMPLICITNA
REGULARIZACIJA
60

50

2
e ,eu

40

30

20

10

10

5
0
0

10

5
5

10

15

20

0
0

40

40

35

35

30

30

25

25

20

20

15

15

10

15

20

10

15

20

10

15

20

0
0

10

15

20

10

15

20

10

15

20

50
45
40
35

2e ,e 2 u

2e ,ee

10

15

20

0
0

5
0
5

10

15

20

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

10

15

20

0
0

5
5

10

15

20

40

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

15

20

0
0

10
5
5

10

15

20

40

40

70

35

35

10

40

0
0

2
e 2 ,e 2

20

10

0
0

2e ,e y

25

15

10

0
0

30

60

30

30

25

25

20

20

15

15

30

10

10

20

0
0

50

10

15

20

0
0

40

10
5

10

15

20

0
0

Sl. 4.23. Rezultati korelacijskoga testa zasnovanog na 2-testu za VPV parametara.

poprima vrlo veliki iznos, to za posljedicu ima veliko smanjenje iznosa sluajne varijable d, zbog
ega 2-test prihvaa model, iako on nije valjan.
Pregledom rezultata sa slika 4.24 do 4.29 vidi se da za MPV i NWPV parametara mree
modeli dobiveni uz eksplicitnu i implicitnu regularizaciju zadovoljavaju sve testove vrednovanja,
pa se mogu smatrati valjanim modelima. Naprotiv, model bez regularizacije ne zadovoljava testove
vrednovanja.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

122

IMPLICITNA
REGULARIZACIJA

a) Podaci za estimaciju

y()

0.95

0.95

0.9

0.9

0.9

0.85

0.85

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.65

0.65

0.6
0

y( )

0.95

50

100

150

200

250

300

350

400

0.6
0

0.7
0.65

50

100

150

200

250

300

350

400

0.6

0.95

0.95

0.9

0.9

0.95

0.85

0.85

0.9

0.8

0.85

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

0.8

0.75

0.8

0.7

0.75

0.75
0.7
0.65
0.6

e()

0.65

0.7

0.6

0.65

0.55
0

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

0.6

0.1

0.1

0.1

0.08

0.08

0.08

0.06

0.06

0.06

0.04

0.04

0.04

0.02

0.02

-0.02

-0.02

-0.04

-0.04

-0.02
-0.04
-0.06
-0.08

0.02

-0.06

-0.06

50

100

150

200

250

300

350

400

-0.08

50

100

150

200

250

300

350

400

-0.08
0

b) Podaci za vrednovanje

y()

0.95

0.95

0.95

0.9

0.9

0.9

0.85

0.85

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.7

0.65

0.65

0.65

0.6
0.55

y( )

50

100

150

200

250

300

350

400

0.55

0.55
0

50

100

150

200

250

300

350

400

0.9

0.95

0.95

0.85

0.9

0.9
0.85

0.95

0.8

0.85

0.75

0.8

0.8

0.7

0.75

0.75

0.65

0.7

0.7

0.6

0.65

0.65

0.5

0.6

0.6

0.55

0.55
0

50

100

150

200

250

300

350

400

0.55
0

50

100

150

200

250

300

350

400

0.12

0.08

0.05

0.1

0.06

0.04

0.04

0.03

0.02

0.02

0.08

e()

0.6

0.6
0

0.06

0.01

0
0.04
-0.02

-0.04

-0.01

-0.06

-0.02

-0.02

-0.08

0.02

-0.04

50

100

150

200

250

300

350

400

-0.1
0

-0.03

50

100

150

200

250

300

350

400

-0.04
0

Sl. 4.24. Izlaz procesa y(), izlaz MLP mree y( ) i predikcijska pogreka e() na podacma za
estimaciju a) i podacima za vrednovanje b) modela procesa za MPV parametara.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

Ree ( )

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.2

0.2

0.2

0
-0.2

10

15

20

10

15

20

-0.2

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6
-0.8

-0.8
-5

10

-5

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

-0.2
-0.4
-0.6

-1
0

10

15

20

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-1

10

15

20

-1
0

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.8

-0.8
-5

10

-1
-10

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.8

-0.8
-5

10

20

-5

10

10

15

20

-5

10

-5

10

-0.8
-5

0.8

-1
-10

15

-0.8
5

0.8

-1
-10

10

0.2

-0.8

-0.8

-1
-10

0.8

-0.8

Ru2 e2 ( )

Ru2 e ( )

0.4

0.8

-1
-10

Re( eu ) ( )

IMPLICITNA
REGULARIZACIJA

0.8

-0.2
0

Reu ( )

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

123

-1
-10

0.2

-0.8
-5

10

-1
-10

Sl. 4.25. Rezultati modificiranoga klasinoga korelacijskoga testa za MPV parametara.

Ponovo se moe uoiti da zbog impulsa u izlaznom signalu modela dobivenoga uz MPV mree i
bez regularizacije (Sl. 4.24.), 2-test prihvaa model kao valjan (Sl. 4.26.), to je neispravno.
Usporedbom RMSe i RMSv vrijednosti u tablici 4.2 vidi se da one potvruju svojstva
modela utvrena modificiranim klasinim korelacijskim testom. Dakle, ako se parametri

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

124

IMPLICITNA
REGULARIZACIJA
50

40

40

35

35

30

30

35

25

25

30

20

20

15

15

10

10

45
40

25
20

2
e ,eu

15

0
0

10

15

20

10
5

10

15

20

0
0

10

15

20

10

15

20

10

15

20

10

15

20

0
0

10

15

20

50

40

40

35

35

30

30

35

25

25

30

20

20

25

15

15

10

10

45
40

2e ,e 2 u

15

0
0

2e ,ee

10

15

20

5
5

10

15

20

0
0

40

40

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

35

10

15

20

0
0

5
5

10

15

20

0
0

40

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

10

15

20

10

15

20

40

60

35

35

50

30

30

40

25

25

20

20

30

15

15

20

10

10

10

5
0

0
0

40

2e2 ,e 2

0
0

10

40

2e ,e y

20

0
0

10

15

20

10

15

20

Sl. 4.26. Rezultati korelacijskog testa zasnovanog na 2-testu za MPV parametara.

modela estimiraju bez regularizacije postiu se najmanje RMSe vrijednosti, ali se kao posljedica
toga dobivaju najvee RMSv vrijednosti. To ukazuje da model bez regularizacije ima slabije
poopavanje od modela s regularizacijom. Takoer, kao to je i korelacijskim testom utvreno,
model dobiven uz VPV parametara mree i implicitnu regularizaciju ne daje zadovoljavajui
rezultat. Uzrok je u zasienju pojedinih neurona, to je posljedica velikih vrijednosti parametara
mree. Uenjem mree bez regularizacije i uz implicitnu regularizaciju ti neuroni ostaju i dalje u
zasienju, to ih ini

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

125

IMPLICITNA
REGULARIZACIJA

a) Podaci za estimaciju

y()

0.95

0.95

0.9

0.9

0.9

0.85

0.85

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.7

0.65

0.65

0.65

0.6
0

y( )

50

100

150

200

250

300

350

400

0.6
0

50

100

150

200

250

300

350

400

0.6

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

-0.1
0

50

100

150

200

250

300

350

400

0.95

0.95

0.9

0.95

0.9

0.85

0.9

0.85

0.8

0.85

0.8

0.75

0.8

0.75

0.7

0.75

0.7

0.7

0.65

0.65

0.6

0.65

0.6
0.55

0.6

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

0.55

0.1

0.1

0.1

0.08

0.08

0.08

0.06

0.06

0.06

e()

0.95

0.04

0.04

0.04

0.02

0.02

0.02
0

-0.02

-0.02

-0.02

-0.04

-0.04

-0.06

-0.04

-0.08

-0.06

-0.1
0

50

100

150

200

250

300

350

400

-0.08

-0.06
-0.08

50

100

150

200

250

300

350

400

-0.1

b) Podaci za vrednovanje

y()

0.95

0.95

0.95

0.9

0.9

0.9

0.85

0.85

0.85

0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.7

0.65

0.65

0.65

0.6
0.55

y( )

0.6
50

100

150

200

250

300

350

400

0.95

0.95

0.9

0.9

0.85

0.85

0.6
50

100

150

200

250

300

350

400

0.55

0.95
0.9
0.85
0.8

0.8

0.8

0.75

0.75

0.75

0.7

0.7

0.65

0.65

0.55
0

0.7
0.65
0.6

0.6

0.6
0.55

50

100

150

200

250

300

350

400

50

100

150

200

250

300

350

400

0.55

0.06

0.08

0.06

0.04

0.06

0.04

0.04

0.02

e()

0.55

0.02

0.02

0
-0.02

-0.02

-0.02

-0.04

-0.06

-0.08

-0.08

-0.1

-0.04

-0.04

-0.06

50

100

150

200

250

300

350

400

-0.1
0

-0.06
-0.08
50

100

150

200

250

300

350

400

Sl. 4.27. Izlaz procesa y(), izlaz MLP mree y( ) i predikcijska pogreka e() na podacma za
estimaciju a) i podacima za vrednovanje b) modela proces za NWPV parametara.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

Ree ( )

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

-0.2

15

10

15

20

20

-0.2

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6
-0.8

-0.8
-5

10

-1
-10

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2
0

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.8

-0.8
5

10

15

20

-1
0

-1
10

15

20

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.2

-0.4

-0.4

-0.4

-0.6

-0.6

-0.6

-0.8

-0.8
0

10

-1
-10

10

-1
-10

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2
0

-0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

-1
-10

-5

10

-1
-10

10

10

15

20

-5

10

-5

10

0.2

-0.8

-5

-0.8
-5

-0.6

20

0.2

0.8

-0.4

15

-0.8
5

0.8

-5

10

0.2

0
-0.2

-0.8

-5

0.8

-1
-10

Ru2 e2 ( )

10

-1

Ru 2 e ( )

0.8

-1
-10

Re( eu ) ( )

0.2

-0.2
0

Reu ( )

IMPLICITNA
REGULARIZACIJA

0.8

0.2

126

-0.8
-5

10

-1
-10

Sl. 4.28. Rezultati modificiranog klasinog korelacijskog testa za NWPV parametara.

nesposobnima za uenje, pa se mrea vlada kao da ovih neurona i nema. Ovaj je problem prikazan
na slici 4.30. Vidi se da je neuron, nakon uenja bez regularizacije i uenja uz implicitnu
regularizaciju, iz poetnoga stanja otiao jo dublje u zasienje, a da je uz eksplicitnu regularizaciju
izaao iz zasienja i uao u aktivno podruje.
Na osnovi naprijed reenoga moe se zakljuiti da eksplicitna regularizacija model ini manje
osjetljivim (ili gotovo neosjetljivim) na poetne vrijednosti parametara mree. Meutim, problem

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

BEZ REGULARIZACIJE

2e ,eu

2e ,e 2 u

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

5
0
0

15

20

10

15

20

10

15

20

10

15

20

10

15

20

10

15

20

10

15

20

40

40

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

10

15

0
0

20

10

15

20

40

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

10

15

0
0

20

10

15

20

40

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

0
0

2e2 ,e 2

10

35

2e ,e y

40

0
0

2
e ,ee

IMPLICITNA
REGULARIZACIJA

EKSPLICITNA
REGULARIZACIJA
kr=0.00075

40

10

15

0
0

20

10

15

0
0

20

40

40

40

35

35

35

30

30

30

25

25

25

20

20

20

15

15

15

10

10

10

10

15

20

127

5
0
0

10

15

20

Sl. 4.29. Rezultati korelacijskog testa zasnovanog na 2-testu za NWPV parametara.


a)

b)

c)
1

0.8

0.9
0.9

0.6
0.4
0

200

400

0.8

0.8
0

200

400

0.7
0

200

400

Sl. 4.30. Izlaz jednoga neurona skrivenoga sloja mree uz VPV parametara prije uenja a), nakon
uenja bez regularizacije i uz implicitnu regularizaciju b) i nakon uenja uz eksplicitnu
regularizaciju c).

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

128

Tablica 4.2. RMSe i RMSv vrijednosti predikcijske pogreke NARX1 modela pH procesa za MLP
mreu s 5 neurona u skrivenom sloju.

NARX1
model procesa

Veliki poetni uvjeti

Mali poetni uvjeti

N.W. poetni uvjeti

B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
-3
-3
-3
-3
-3
-3
-3
-3
10
10
10
10
10
10
10
10
10-3
9.9533 14.060 9.7587 9.5626 13.939 14.517 12.668 13.819 14.712
RMSe
14.233 13.079 16.049 14.172 13.196 12.636 14.680 13.290 12.657
RMSv
Dimenzije modela na=2, nb=2, n(1)=5, n()=31, kr=0.001.
B. R. - bez regularizacije; E. R. eksplicitna regularizacija; I. R. - implicitna regulaNapomene:
rizacija ni=[47 32 23]; ni - broj iteracija algoritma uz implicitnu regularizaciju.

je kod primjene eksplicitne regularizacije u potrebi izbora vrijednosti koeficijenta regularizacije kr.
Zbog toga je opravdano primijeniti implicitnu regularizaciju i izabrati parametre modela dovoljno
malih vrijednosti ili prema N&W izrazima. Osim to ne zahtijeva zadavanje parametara, implicitna
regularizacija skrauje i proces uenja (vidi tablicu 4.2.).
Najbolji se rezultati mogu oekivati primjenom NWPV parametara mree i implicitne
regularizacije. Naime, NWPV parametara vie su deterministikoga karaktera od MPV parametara
pa su i rezultati vie deterministiki, odnosno ponovljivi.
Opisani uinci postaju jo jae izraenima ako se primijeni neuronska mrea s veim brojem
neurona. Svi naprijed navedeni pokusi ponovljeni su s dvoslojnom MLP mreom s 25 neurona u
skrivenom sloju. U tablici 4.3 dane su RMSe i RMSv vrijednosti. Vidi se da razlike izmeu
rezultata bez regularizacije i uz regularizaciju postaju jo izraenije. Naime, kod vee su mree
RMSe vrijednosti manje i bez regularizacije i uz regularizaciju, dok su RMSv vrijednosti bez
regularizacije vee, a uz regularizaciju neto manje. Ovi primjeri jasno ukazuju na veliku vanost
primjene regularizacije. Utjecaj regularizacije moe se vidjeti i iz krivulje RMSe i RMSv
vrijednosti predikcijske pogreke modela procesa tijekom procesa uenja mree (Sl. 4.31.). Kao to
se sa slike vidi, RMSv vrijednosti predikcijske pogreke modela nakon odreenoga broja iteracija
algoritma bez regularizacije poinju rasti, dok se eksplicitnom i implicitnom regularizacijom ovaj
negativni uinak spreava. Nadalje, slika 4.31a) jasno pokazuje da za VPV parametara implicitna
regularizacija ne osigurava minimalni iznos RMSv vrijednosti.
Tablica 4.3. RMSe i RMSv vrijednosti predikcijske pogreke NARX1 modela pH procesa za MLP
mreu s 25 neurona u skrivenom sloju.

NARX1
model procesa
RMSe
RMSv
Dimenzije modela
Napomene:

Veliki poetni uvjeti

Mali poetni uvjeti

N.W. poetni uvjeti

B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
6.3013 10.860 9.320
9.428
10.890 10.404 9.438
10.899 10.925
29.341 10.659 15.764 14.729 10.131 10.032 18.647 9.999 10.335
na=2, nb=2, n(1)=25, n()=151, kr=0.0001.
B. R. bez regularizacije; E. R. eksplicitna regularizacija; I. R. - implicitna regularizacija ni=[20 26 42]; ni - broj iteracija algoritma uz implicitnu regularizaciju.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

RMSe(k)

RMSv(k)

10

10

10

-2

10

-4

10

10

10

10

-1

10

-2

129

BR
ER
IR

20

40

60

80

100

120

20

40

60

80

100

120

a) Velike poetne vrijednosti parametara (VPV).

RMSe(k)

RMSv(k)

10

10

10

-1

10

-2

10

-3

10

10

10

-1

10

-2

10

-3

BR
ER
IR

20

40

60

80

100

120

20

40

60

80

100

120

b) Male poetne vrijednosti parametara (MPV).

RMSe(k)

RMSv(k)

10

10

10

-2

10

-4

10

10

10
10

BR
ER
IR

20

40

60

80

100

120

20

40

60

80

100

120

-2

-4

c) Poetne vrijednosti parametara prema N & W (NWPV).


Sl. 4.31. RMSe i RMSv vrijednosti predikcijske pogreke modela pH procesa tijekom uenja mree.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

130

Rezultati identifikacije NARX2 i NARX3 model


NARX1 model najopenitiji je model procesa koji doputa primjenu statikih neuronskih
mrea. Meutim, kao to je u potpoglavlju 4.2 objanjeno, opravdano je pokuati primijeniti
jednostavnije modele procesa, ako zadovoljavajue dobro opisuju vladanje procesa. U nastavku se
daju razultati dobiveni primjenom NARX2 i NARX3 modela procesa. Na slici 4.32 dani su rezultati
vrednovanja svih triju modela (uz NWPV parametara i implicitnu regularizaciju) modificiranim
klasinim korelacijskim testom, koji pokazuju da se NARX2 i NARX3 modeli mogu smatrati
valjanima.

NARX2
Ree ( )

NARX3

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2
0

Reu ( )

10

15

20

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8
-5

10

1
0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

10

15

20

-1
0

0.8

0.8

0.6

0.6

0.4

0.4

15

20

-5

10

10

15

20

-5

10

-5

10

0.2

0.2
0

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6
-0.8

-0.8
-1
-10

Ru2 e2 ( )

10

-0.8

-0.8

Ru 2 e ( )

-1
-10

0.8

-1

-0.8

-1
-10

Re( eu ) ( )

-0.2
0

-5

10

-1
-10

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8
-1
-10

-0.8

-5

10

-1
-10

Sl. 4.32. Rezultati modificiranoga klasinoga korelacijskoga testa za NARX2, NARX3 i ARXNARX1 modele procesa uz NWPV parametara i implicitnu regularizaciju.

4. Primjena neuronskih mrea u identifikaciji nelinearnih dinamikih procesa

131

U tablicama 4.4 i 4.5 dane su RMSe i RMSv vrijednosti predikcijskih pogreaka i parametri
koji odreuju strukturu NARX2 i NARX3 modela. S obje su strukture modela postignuti slini
rezultati identifikacije. Ipak, paljivim pregledom rezultata korelacijskih testova NARX1 (Sl.
4.28.), NARX2 i NARX3 (Sl. 4.32.) modela moe se zakljuiti da NARX2 model predstavlja
najbolji model. Naime, autokorelacijska funkcija predikcijske pogreke Ree ( ) za =1 upada u
podruje povjerenja samo za NARX2 model.
Tablica 4.4. RMSe i RMSv vrijednosti predikcijske pogreke NARX2 modela pH procesa s
MLP mreom.

NARX2
model procesa

Veliki poetni uvjeti

Mali poetni uvjeti

N.W. poetni uvjeti

B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
13.090 13.755 12.515 12.966 13.755 14.290 13.872 13.753 14.033
RMSe
14.236 13.836 15.558 14.296 13.837 13.009 14.288 13.841 13.498
RMSv
Dimenzije modela na=2, nb=2, n(1)=5, n()=15.
B. R. - bez regularizacije; E. R. eksplicitna regularizacija; I. R. - implicitna reguNapomene:
larizacija ni=[22 12 11]; ni - broj iteracija algoritma uz implicitnu regularizaciju.

Tablica 4.5. RMSe i RMSv vrijednosti predikcijske pogreke NARX3 modela pH procesa s
MLP mreom.

NARX3
model procesa

Veliki poetni uvjeti

Mali poetni uvjeti

N.W. poetni uvjeti

B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
B. R.
E. R.
I. R.
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
10-3
11.701 14.283 12.537 13.805 14.015 14.012 13.683 14.065 14.034
RMSe
14.921 12.991 14.916 14.197 13.234 13.263 14.267 13.392 13.346
RMSv
Dimenzije modela Prva mrea: nb=2, n(1)(1)=2, n()(1)=9;
Druga mrea: na=2, n(1) (2)=2, n() (2)=9.
B. R. - bez regularizacije; E. R. eksplicitna regularizacija; I. R. - implicitna reguNapomene:
larizacija ni=[82 62 84]; ni - broj iteracija algoritma uz implicitnu regularizaciju.

5. Strukture upravljanja zasnovane na neuronskim mreama

132

5. STRUKTURE UPRAVLJANJA ZASNOVANE NA


NEURONSKIM MREAMA
Meu najznaajnije primjene umjetnih neuronskih mrea ubraja se njihova primjena u
upravljanju nelinearnim procesima. U literaturi se moe pronai veliki broj struktura upravljanja
zasnovanih na primjeni neuronskih mrea. U nastavku se obrauju etiri strukture upravljanja koje
su sa stajalita teorije upravljanja dobro utemeljene i svojstva kojih su dobro istraena. To su
strukture:
Inverzno upravljanje (engl. Inverse Control);
Upravljanje s referentnim modelom (engl. Model Reference Control);
Upravljanje s unutarnjim modelom (engl. Internal Model Control) i
Prediktivno upravljanje (engl. Predictive Control).

Zajednika je znaajka svih ovih struktura upravljanja zasnovanost na identificiranome


neuronskome modelu procesa, koji se identificira postupkom opisanim u etvrtom poglavlju. Kod
prve se tri strukture, osim modela procesa, identificira i inverzni model procesa.

5.1. Inverzno upravljanje


Inverzno se upravljanje zasniva na primjeni inverznog modela procesa koji se spaja u seriju s
procesom (Sl. 5.1.), tvorei na taj nain sustav s trenutanim odzivom jedininog pojaanja izmeu
ulaza u inverzni model (yr) i izlaza iz procesa (y). Dakle, inverzni model procesa, predstavljen
neuronskom mreom, djeluje kao regulator. Koncepcijski, ovo je najosnovnija struktura upravljanja
s neuronskim regulatorom.
yr

Inverzni
model
procesa

Proces

Sl. 5.1. Principna shema inverznog upravljanja.


NARX model procesa (4-44) moe se napisati u sljedeem obliku (zbog jednostavnosti zapisa
pretpostavlja se proces s jednim ulazom i jednim izlazom):

y ( k + 1) = f ( y ( k ),", y ( k na + 1), u( k ), u( k 1),", u( k nb + 1)) .

(5-1)

Inverzni model procesa opisanog izrazom (5-1), koji kao izlaz daje upravljaki signal u(k), glasi:
u( k ) = f 1 ( y ( k + 1), y ( k ),", y ( k na + 1), u( k 1),", u( k nb + 1)) .

(5-2)

5. Strukture upravljanja zasnovane na neuronskim mreama

133

Inverzni model procesa (5-2) takoer je NARX strukture. Primjenom neuronske mree za
aproksimaciju funkcije f 1 () dobije se tzv. inverzni neuronski regulator. Prema izrazu (5-2), izlaz
inverznog modela procesa u k-tom koraku ovisi i o vrijednosti izlaznog signala procesa u (k+1)vom koraku y(k+1), koja u k-tom koraku nije dostupna. Meutim, u k-tom je koraku dostupna
eljena (referentna) vrijednost izlaznog signala procesa yr(k+1) pa se ona korisiti za realizaciju
inverznog neuronskog regulatora. Prema tome, inverzni neuronski regulator moe se opisati
sljedeim izrazom:
u( k ) = f R ( yr ( k + 1), y ( k ),", y( k na + 1), u( k 1),", u( k nb + 1), R ) ,

(5-3)

gdje je fR(,R) parametrirana aproksimacijska funkcija (npr. neuronska mrea) funkcije f 1 () s


vektorom parametara R. Blokovska shema sustava inverznog upravljanja s neuronskim
regulatorom prikazna je na slici 5.2.
q-1
q-1

u(k-1)
u(k-2)

u(k-nb+1) Neuronska
mrea
yr(k+1)
fR(.,R)

q-1

q-1
q-1
q-1

y(k-na+1)
y(k-1)

(Inverzni
neuronski
regulator)

u(k)

Proces

y(k+1)

yr(k+1)
M

Neuronska
mrea
fR(.,R)

u(k)

(Inverzni
neuronski
regulator)

Proces

y(k+1)

y(k)

Sl. 5.2. Sustav inverznog upravljanja s neuronskim regulatorom.


Osnovni problem kod inverznog upravljanja vezan je uz invertibilnost modela procesa.
Naime, ako nelinearni operator, koji predstavlja proces, vie ulaznih vrijednosti preslikava u istu
izlaznu vrijednost, tada ne postoji jedinstveno rjeenje inverznog problema. Nadalje, problem se
javlja i kada proces predstavlja neminimalno-fazni sustav, pa je njegov inverzni model nestabilan.
Za linearne se sustave provjeravanjem pozicije nula prijenosne funkcije moe lako odrediti je li
sustav neminimalno-fazni, dok je za nelinearne sustave to mnogo tee ustanoviti. Linearizacijom
nelinearnog sustava oko radne toke mogue ga je, uz odreena ogranienja, analizirati kao linearni
sustav. Drugi pristup kod provjeravanja je li sustav nemiminimalno-fazni poiva na odreivanju tzv.
nulte dinamike sustava tj. dinamike sustava kada se izlaz iz sustava postavlja na nulu pomou
ulaznog signala. Slino kao za linearne sustave i za nelinearne sustave vrijedi da je inverzni model
sustava stabilan ako je njegova nulta dinamika asimptotski stabilna.
Da bi neuronski regulator (5-3) dobro aproksimirao inverzni model procesa (5-2) potrebno ga
je nauiti, to jest potrebno je podesiti njegove parametre na odgovarajue vrijednosti. Prema nainu
uenja inverznog neuronskog regulatora razlikuju se neposredno uenje (engl. direct or generalized
training) i posredno uenje (engl. indirect or specialized training). Kod neposrednog se uenja
parametri regulatora odreuju bez prethodne identifikacije modela procesa, a kod posrednog se
uenja prvo identificira model procesa koji se zatim koristi pri uenju parametara regulatora.

5. Strukture upravljanja zasnovane na neuronskim mreama

134

5.1.1. Neposredno uenje inverznog neuronskog regulatora

Neposredno uenje inverznog neuronskog regulatora obavlja se bez interakcije s procesom


(off-line). Uenje regulatora obavlja se na temelju mjernih podataka dobivenih identifikacijskim
eksperimentom opisanim u potpoglavlju 4.1. Proces se, dakle, pobudi BLWNS signalom i snimi se
N mjernih parova ulazno-izlaznih signala {u, y}. Zatim se nekim od nerekurzivnih algoritama
uenja, opisanim u potpoglavlju 3.2, odreuju optimalne vrijednosti inverznog neuronskog
regulatora (5-3). Minimizira se sljedei kriterij kakvoe:

R ( R ( k )) =

1 N
( u( ) u( , R ( k )))2 .

2 =1

(5-4)

Gradjent kriterija kakvoe (5-4) izraunava se primjenom algoritma povratnog prostiranja izlazne
pogreke (vidi toku 3.2.5.). Da bi neuronski regulator to bolje opisivao inverzni model procesa,
pri njegovu uenju treba koristiti postupke regularizacije modela (vidi potpoglavlje 4.5) i postupke
vrednovanja modela (vidi potpoglavlje 4.6) na nain kao to su koriteni pri uenju modela procesa
u potpoglavlju 4.7.
Naueni inverzni neuronski regulator spaja se u kaskadu s procesom, kako je prikaznao na
slici 5.2. Meutim, primjena inverznog modela procesa kao regulatora u idealnome sluaju rezultira
trenutanim odzivom sustava s jedininim pojaanjem. To moe imati za posljedicu velike
amplitude upravljakoga signala u dinamikim stanjima, koje se zbog fizikalanih ogranienja
procesa ne mogu ostvariti. Zbog toga se u referentnu granu obino uvodi filter koji usporava
promjene referentnog signala yr, a time usporava i dinamiku sustava.

5.1.2. Posredno uenje inverznog neuronskog regulatora

Posredno uenje inverznog neuronskog regulatora zasniva se na identificiranome modelu


procesa, koji se koristi za izraunavanje gradijenta kriterija kakvoe po parametrima regulatora. Na
slici 5.3 prikazana je blokovska shema sustava inverznog upravljanja s posrednim uenjem
regulatora. Uenje regulatora moe se provoditi off-line i on-line, to jest bez interakcije s procesom
(preklopke na slici 5.3 su u poloaju B) i u interakciji s procesom (preklopke na slici 5.3 su u
poloaju A). U nastavku se za oba naina uenja pretpostavlja da je neuronski model procesa
unaprijed identificiran off-line postupkom identifikacije i da se zatim ne mijenja. Nadalje,
pretpostavlja se da je identificirani model procesa NARX strukture:

y ( k + 1) = f M ( y ( k ),", y( k na + 1), u( k ), u( k 1),", u( k nb + 1), M ) .

(5-5)

5. Strukture upravljanja zasnovane na neuronskim mreama

135
A

y ( k + 1)
y( k + 1)

Algoritam
uenja
yr(k+1)

Neuronski
regulator
fR(.,R)

M
M

A
B

y ( k + 1)
y( k + 1)

u( k )

Proces
A

M
M

B
Neuronski
model
procesa
fM(.,M)

y ( k + 1)
y ( k + 1)
y( k + 1)

y( k + 1)

Sl. 5.3. Sustav inverznog upravljanja s posrednim uenjem neuronskog regulatora.


Off-line postupak posrednog uenja inverznog neuronskog regulatora provodi se bez
interakcije s procesom. NARX model procesa (5-5) izvodi se u tzv. simulacijskom nainu rada, koji
odgovara NOE modelu procesa. Drugim rijeima, regresori y(k-i) u izrazu (5-5) zamjenjuju se
regresorima y ( k i ) pa on poprima oblik:
y ( k + 1) = f M ( y ( k ),", y ( k na + 1), u( k ), u( k 1),", u( k nb + 1), M ) .

(5-6)

Inverzni neuronski regulator, dobiven inverzijom modela (5-6) i zamjenom izlaza modela procesa
y ( k + 1) referentnom vrijednou yr(k+1), moe se opisati sljedeim izrazom:
u( k ) = f R ( y ( k + 1), y ( k ),", y ( k na + 1), u( k 1),", u( k nb + 1), R ) .

(5-7)

Optimalne vrijednosti parametara inverznog neuronskog regulatora u k-tom koraku uenja dobivaju
se minimiziranjem kriterija kakvoe
R ( R ( k )) =

1 N 1
( yr ( + 1) y ( + 1, R ))2
2 =0

(5-8)

nekim od nerekurzivnih algoritama uenja, opisanim u potpoglavlju 3.2. Svaki od tih algoritama
uenja zahtijeva izraunavanje gradijenta kriterija kakvoe (5-8) po parametrima regulatora R, koji
se izraunava algoritmom povratnog prostiranja izlazne pogreke (vidi toku 3.2.5.). Inverzni
neuronski regulator ima izravno povratno djelovanje sa svoga izlaza te posredno povratno
djelovanje s izlaza modela procesa. Uzimanjem u obzir ovih povratnih djelovanja dobije se sljedei
izraz za izraunavanje gradijenta kriterija kakvoe (5-8) po parametrima regulatora u k-tom koraku
uenja:
R ( R ( k )) N 1
y ( v + 1) + u( v )
= y ( v + 1, R ) yr ( v + 1)

,
R
u( v )
R
v=0
gdje je

(5-9)

+ u( v )
redna parcijalna derivacija izlaza neuronskog regulatora po njegovim parametrima.
R

Izraz za njezino izraunavanje glasi:


+ u( v ) u( v ) nb 1 u( v ) + u( v p ) na 1 u( v ) + y ( v r )
,
=
+

(v r)
R
R
R
R
p =1 u( v p )
r = 0 y

(5-10)

5. Strukture upravljanja zasnovane na neuronskim mreama

gdje je
lan

136

+ u( v p )
+ y ( v r )
= 0 za v < nb -1 i
= 0 za v < na -1.
R
R

y ( v + 1)
u( v )
u( v )
u( v )
i
u izrazu (5-10) izraunavaju
,
u izrazu (5-9) te lanovi
u( v )
R u( v p ) y ( v r )

se standardnim statikim BP algoritmom.


Nakon to je inverzni neuronski regulator nauen spaja ga se u kaskadu s procesom na isti
nain kao to se spaja regulator nauen neposrednim uenjem (Sl. 5.2.). Dakle, model procesa nije
sastavni dio sustava upravljanja, ve slui samo za uenje neuronskog regulatora.
Off-line posredno uenje inverznog neuronskog regulatora znatno je sloenije od neposrednog
uenja. Meutim, ono ima opravdanja u nekim sluajevima. Primjerice, ako nelinearnost procesa
nije bijektivna neposrednim se uenjem moe dobiti krivi inverzni model, dok se kod posrednog
uenja izborom poetnih vrijednosti parametara neuronskog regulatora moe osigurati dobivanje
inverznog modela sa eljenim svojstvima. Tipino se izabiru male poetne vrijednosti parametara
regulatora, ime se osigurava dobivanje inverznog modela koji daje najmanje iznose upravljakog
signala. Nadalje, prednost posrednog uenja nad neposrednim jest i njegova usmjerenost
eksplicitnom cilju, koji u kontekstu upravljanja podrazumijeva eljeno vladanje izlaznog signala
procesa. Naime, za razliku od neposrednog uenja, posredno se uenje zasniva na minimizaciji
pogreke izmeu eljenog vladanja i stvarnog vladanja izlaza procesa, odnosno njegova modela
(vidi izraz (5-8)). Ovo svojstvo ini posredno uenje posebno prikladnim za optimiranje neuronskog
regulatora u primjenama u kojima je unaprijed poznata itava trajektorija eljenog vladanja izlaznog
signala procesa (npr. u robotici). Meutim, pri projektiranju inverznog regulatora na opisani nain
treba biti oprezan jer model procesa za vrijeme uenja regulatora moe otkliziti iz radne toke ili
ak postati nestabilan. Uzrok ovoj pojavi jest u identifikaciji NARX modela koji predstavlja
prediktor za samo jedan korak unaprijed, a tijekom uenja se izvodi kao NOE model koji
predstavlja simulator, odnosno prediktor beskonanog broja koraka. Svaka pogreka
identificiranoga modela se s izlaza vraa na ulaz preko njegove nelinearnosti koja moe biti takva
da tu pogreku dalje pojaava. Zbog toga bi za ovakav nain uenja inverznog regulatora bilo bolje
identificirati model procesa NOE strukture.
Zbog navedenih problema off-line posrednog uenja ee se primjenjuje on-line postupak
posrednoga uenja, koji se odvija tijekom normalnoga rada procesa. Pri tome model procesa slui
samo za izraunavanje gradijenta kriterija kakvoe po parametrima regulatora. Parametri inverznog
regulatora izraunavaju se nekim od rekurzivnih algoritama, opisanim u potpoglavlju 3.3, koji
minimiziraju kriterij kakvoe
R ( R ( k )) =

1 k
( yr ( i ) y ( i ))2 ,

2 i = k

(5-11)

gdje je broj prolih mjernih uzoraka koji se uzimaju u obzir.


Primjenom algoritma povratnog prostiranja dobije se izraz za izraunavanje gradijenta kriterija
kakvoe (5-11) po parametrima regulatora:

5. Strukture upravljanja zasnovane na neuronskim mreama


k
R ( R ( k ))
y ( i ) + u( i 1)
.

= y ( i ) yr ( i )
R
u( i 1)
R
i = k

lan

137

(5-12)

+ u( i 1)
u izrazu (5-12) izraunava se prema izrazu (5-10) zamjenom indeksa iteracije
R

indeksom i-1.
Poetne vrijednosti parametara inverznog neuronskog regulatora koji se ui on-line posrednim
postupkom mogue je postaviti nekim od postupaka opisanih u toki 3.2.6. Meutim, s obzirom da i
tijekom uenja regulatora proces treba biti upravljan, smisleno je prvo provesti neposredno uenje
regulatora i dobivene vrijednosti parametara postaviti kao poetne vrijednosti za on-line posredno
uenje. U tom se sluaju on-line posredno uenje moe promatrati kao poboljanje regulatora
nauenog off-line, neposrednim uenjem. Postupak uenja regulatora zaustavlja se kada kriterij (511) poprimi zadani mali iznos.
Inverzno upravljanje jest upravljanje u otvorenoj petlji. To je njegov veliki nedostatak jer ne
osigurava kompenzaciju vanjskog poremeaja. Ovaj se nedostatak moe djelomino ublaiti, ako se
postupak uenja parametara regulatora provodi trajno tijekom rada procesa (adaptivno upravljanje).
Naime, uenjem regulatora, prema izrazima (5-11) i (5-12), pogreka izmeu stvarne i eljene
vrijednosti izlaza procesa svest e se na nulu. Meutim, regulator vie nee predstavljati inverzni
model procesa. Brzina kompenzacije poremeaja ovisi o svojstvima algoritma uenja regulatora.
Ako nelinearnost upravljanoga procesa nije globalno invertibilna, ve samo lokalno oko radne
toke, treba primijeniti on-line postupak koji odreuje inverzni model procesa lokalno za svaku
radnu toku. Primjerice, moe se koristiti algoritam sukcesivne aproksimacije, koji optimalni iznos
upravljakog signal u(k) odreuje iterativno, prema sljedeem izrazu:
ul +1 ( k ) = ul ( k ) + ( yr ( k + 1) y ( k + 1)) ,

(5-13)

gdje je > 0 koficijent uenja kojega zadaje korisnik.

5.2. Upravljanje s referentnim modelom


Kao to je ve reeno u prethodnom potpoglavlju, primjena inverznog modela procesa kao
regulatora u idealnome sluaju rezultira trenutanim odzivom sustava s jedininim pojaanjem. Ako
neuronski regulator ne predstavlja idealni inverzni model procesa, vladanje regulacijskog sustava
moe se znaajno naruiti. Primjenom on-line posrednog uenja neuronskog regulatora moe se
postii da on prilino dobro opisuje inverzni model procesa. Meutim, za postizanje trenutanog
odziva mogu biti potrebne velike amplitude upravljakoga signala u dinamikim stanjima, koje se
zbog fizikalanih ogranienja procesa ne mogu ostvariti. Ove se nepoeljne pojave mogu znaajno
ublaiti uvoenjem referentnog modela, kojim se definira eljeno vladanje sustava. Pri izboru
referentnog modela treba voditi rauna o fizikalnim ogranienjima upravljanoga procesa.

5. Strukture upravljanja zasnovane na neuronskim mreama

138

Blokovska shema sustava upravljanja s referentnim modelom i neuronskim regulatorom prikazna je


na slici 5.4.
Kao referentni model moe se odabrati bilo koji stabilni model definiran ulazno-izlaznim
vrijednostima {yr(k), yrm(k)}. U praksi se najee kao referentni model koristi linearni sustav
drugog reda jer kod sustava drugog reda postoji egzaktna veza izmeu parametara prijenosne
funkcije i pokazatelja kvalitete odziva u vremenskom podruju. Jednadba diferencija koja opisuje
diskretni, linearni sustav drugog reda dana glasi:
yrm ( k ) = (1 + p1 + p2 ) yr ( k ) + p1 yrm ( k 1) + p2 yrm ( k 2) ,

(5-14)

gdje je:
p1 = 2e nT cos( nT 1 2 );
p2 = e 2 nT ;

n =

tp 1 2

t p - vrijeme prvog maksimuma, [s];

- faktor priguenja.
Korisnik zadaje vrijeme prvog maksimuma t p i faktor priguenja eljenog odziva sustava
upravljanja.
Referentni
model

yrm(k+1)

Algoritam
uenja
yr(k+1)
M
M

Neuronski
regulator
fR(.,R)

u( k )

y ( k + 1)

Proces

M
M

Neuronski
model
procesa
fM(.,M)

y( k + 1)

Sl. 5.4. Sustav upravljanja s referentnim modelom uz neuronski model procesa i neuronski
regulator.
Uenje neuronskog regulatora obavlja se on-line posrednim postupkom opisanim u toki
5.1.2, pri emu se u izrazima (5-11) i (5-12) referentni signal yr(i) zamjenjuje izlaznim signalom
referentnog modela yrm(i). Prema tome, upravljanje s referentnim modelom predstavlja poopenje
inverznog upravljanja s on-line posrednim uenjem regulatora. Za referentni model jedinine
prijenosne funkcije upravljanje s referentnim modelom postaje jednako inverznom upraljanju s online posrednim uenjem. to se tie kompenzacije poremeaja, upravljanje s referentnim modelom
ima jednaka svojstva kao i inverzno upravljanje s on-line posrednim uenjem.

5. Strukture upravljanja zasnovane na neuronskim mreama

139

5.3. Upravljanje s unutarnjim modelom


Upravljanje s unutarnjim modelom (IMC upravljanje) zasniva se, kao i strukture upravljanja
opisane u potpoglavljima 5.1 i 5.2, na modelu procesa i na inverznom modelu procesa. Meutim, za
razliku od prethodne dvije strukture upravljanja, IMC upravljanje se odvija u zatvorenoj petlji. U
strukturu upravljanja ukljuena je povratna veza po signalu razlike izmeu procesa i njegovog
modela, a rezultat je kompenzacija vanjskog poremeaja. Naelna shema IMC upravljanja s
neuronskim modelom procesa i neuronskim regulatorom prikazana je na slici 5.5.
yr(k+1) +

Filter F
-

yrf(k+1)

M
M

Neuronski
regulator
fR(.,R)

u( k )

y ( k + 1)

Proces

M
M

Neuronski
model
procesa
fM(.,M)

y( k + 1) -

Sl. 5.5. Naelna shema IMC upravljanja s neuronskim modelom procesa i neuronskim regulatorom.
IMC upravljanje moe se primijeniti iskljuivo za upravljanje procesima koji su stabilni u
otvorenoj petlji. Ipak, IMC upravljanje ima nekoliko svojstva koja ga ine iznimno prikladnim za
upravljanje industrijskim procesima:
1) ako su proces i regulator stabilni te ako je model procesa idealno nauen, zatvoreni je
sustav takoer stabilan;
2) ako postoji inverzni model modela procesa (tj. ako je f R (, R ) = f M1 (, M ) ) i ako se
koristi kao regulator te ako je s tim regulatorom zatvoreni sustav stabilan, upravljanje je
idealno, to jest u svakom trenutku vrijedi y = yr bez obzira na vanjske poremeaje;
3) sinteza sustava upravljanja je jasna i jednostavna.
Navedena svojstva IMC upravljanja vrijede uz pretpostavku da su model procesa i regulator
idealno naueni. U stvarnosti je, naravno, nemogue dobiti idealan model procesa, a idealno bi
upravljanje zahtijevalo beskonano pojaanje regulatora pa bi se pojavili problemi sa stabilnou
strukture. Zbog toga se u strukturu upravljanja uvodi filter F koji se projektira tako da se smanjuje
pojaanje zatvorenog regulacijskog kruga, ime se poveava robustnost sustava upravljanja uz
istodobno udaljavanje vladanja sustava od idealnoga. Ne postoji razraena teorija za izbor filtra F
kod IMC upravljanja nelinearnim procesima. Obino se koristi linearni filter prvoga reda. Ako je
ispunjen uvjet iz drugog svojstva IMC upravljanja, uz jedinino pojaanje filtra dobije se y = yr, bez
obzira na odstupanje izmeu izlaza procesa i njegova modela, a ako uvjet nije ispunjen pojaanje
filtra mora se korigirati, to se obavlja eksperimentalno. Vremenska konstanta filtra odreuje se,
takoer, eksperimentalno.

5. Strukture upravljanja zasnovane na neuronskim mreama

140

Neuronski model procesa identificira se postupkom opisanim u etvrtom poglavlju, kao i kod
inverznog upravljanja i kod upravljanja s referentnim modelom. Prema uvjetima iz 2) svojstva IMC
upravljanja neophodno je da regulator to bolje opisuje inverzni model modela procesa, kako bi se
postigla kompenzacija poremeaja bez statike pogreke. Dakle, uenjem regulatora treba
minimizirati odstupanje izmeu ulaznog signala regulatora yrf i izlaznog signala modela procesa y .
Uenje regulatora moe se provoditi off-line posrednim uenjem ili on-line posrednim uenjem uz
modifikaciju kriterija kakvoe (5-8) i (5-11) tako da se umjesto referentne vrijednosti yr(+1)
koristi ulazna vrijednost u regulator yrf(+1), a u kriteriju kakvoe (5-11) se takoer i izlazni signal
procesa y(k) zamjenjuje izlaznim signalom njegova modela y . Ako je regulator nauen off-line,
model procesa mora biti NOE strukture da bi se osigurala kompenzacija poremeaja.

5.4. Neuronsko prediktivno upravljanje


Prediktivno upravljanje jest jedan od koncepata upravljanja zasnovanih na modelu procesa.
Model procesa slui za predvianje (predikciju) buduih vrijednosti izlaza procesa vie koraka
unaprijed. Na temelju tih predvienih vrijednosti i na temelju eljenih vrijednosti koje definira
refereni model izraunavaju se optimalne vrijednosti upravljakoga signala, primjenom postupka
optimizacije neke kriterijske funkcije. Blokovska shema sustava neuronskog prediktivnog
upravljanja prikazana je na slici 5.6. Neuronska mrea koristi se za tvorbu modela procesa.
'

y r (k )

y r (k )

Referentni y rf (k )
Optimizacija
model

u max

u'(k)

u(k)

umin

Process

y(k)

y
y( k )

Filter

Sl. 5.6. Neuronski prediktivni regulator.

Upravljaki signal u(k) izraunava se tako da budue vrijednosti izlaza procesa y(k+i) prate
eljenu raferentnu trajektoriju yrf. Budue vrijednosti izlaza procesa estimiraju se pomou
neuronskog NARX modela procesa. Postupak izraunavanja upravljakog signala svodi se na
minimiziranje kriterijske funkcije:
( k ) =

N2

Nc

2
Q(i ) yrf ( k + i ) y ( k + i) + R(i) u( k + i 1) u( k + i 2) ,

i = N1

(5-15)

i =1

gdje je yrf(k+i) eljeno (referentno) vladanje procesa, y ( k + i ) estimirano budue vladanje procesa,
N1 i N2 su prvi i drugi predikcijski horizont, a Nc upravljaki horizont. Q(i) i R(i) su teinski faktori.

5. Strukture upravljanja zasnovane na neuronskim mreama

141

Minimizacija kriterijske funkcije (15) provodi se nekim od gradijentnih postupaka opisanih u


etvrtom poglavlju. Rezultat minimizacije je upravljaki vektor bez ogranienja u=[u(k),...,
u(k+N2-N1+1)], odnosno odgovarajui upravljaki vektor u s vrijednostima unutar granica [umin,
umax]. Kao upravljaki signal u k-tom koraku koristi se samo prva komponenta izraunatog
upravljakog vektora u. U iduem koraku izraunava se nova vrijednost vektora u i cijeli se
postupak ponavlja. Odstupanje izmeu stvarnog procesa i modela realiziranog neuronskom mreom
kompenzira se uvoenjem dodatne povratne veze (Sl. 5.6.) preko niskopropusnog filtra. Tom se
povratnom vezom korigira referentna trajektorija. Za generiranje referentne trajektorije obino se
koristi filter 1. ili 2. reda. Filterom 2. reda formira se referentna trajektorija opisana izrazom:
yrf ( k + i ) = (1 + p1 + p2 ) y 'r ( k + i ) p1 yrf ( k + i 1) p2 yrf ( k + i 2) ,

(5-16)

gdje je

p1 = 2e nT cos( nT 1 2 ; p1 = e2 nTs ; n =

tp 1 2

tp je vrijeme prvog maksimuma, je faktor priguenja, a T vrijeme diskretizacije.


Podeavanje parametara prediktivnog regulatora obuhvaa odabir vrijednosti za:

predikcijske horizonte (N1 i N2) : N1 se odabire tako da priblino odgovara mrtvom


vremenu procesa u koracima uzorkovanja (ili 1, ako je mrtvo vrijeme zanemarivo).
Vrijeme uzorkovanja uzima kao 1/20-1/15 srednjeg vremena porasta zatvorenog
regulacijskog kruga. Drugi predikcijski horizont obino se odabire tako da njime bude
obuhvaena cijela prijelazna pojava.

upravljaki horizont Nc: uvoenjem upravljakog horizonta ograniavaju se nagle


promjene upravljakog signala ime se poboljava kvaliteta upravljanja, no istovremeno
se smanjuje brzina odziva. Poveanjem Nc mogu se priguiti i eventualne oscilacije u
odzivu. Poetno se odabire vrijednost Nc = 1 te se postupno poveava ako je potrebno.

koeficijente Q i R : za Q se obino uzima jedinini vektor, dok se za vektor R odabiru


vrijednosti reda veliine 10-3 10-2.

vrijeme porasta referentne trajektorije ili vrijeme prvog maksimuma i priguenje.

Za minimiziranje kriterijske funkcije (15) koristi se neki od gradijentnih postupaka opisanih u


etvrtom poglavlju.

Inteligentno upravljanje sustavima


III. dio: GENETIKI ALGORITMI

2
E. Evolucijski algoritmi

(Postupci traenja i optimiranja koji se zasnivaju na biolokoj i


fizikalnoj evoluciji.)

Ovi algoritmi odgovaraju inenjerskom nainu razmiljanja, tj. polazei od nekog poetnog
rjeenja kompleksnog problema, potrebno je pronai poboljano, ali ne i bezuvjetno teoretski
optimalno rjeenje.
Postoji vie razliitih tipova postupaka traenja i optimiranja.
E.1. Klasifikacija postupaka traenja i optimiranja
Temeljna zadaa ovdje promatrane klase problema traenja i optimiranja moe se
formulirati na sljedei nain. Potrebno je pronai (parametarski) vektor x S n uz koji
funkcija cilja poprima supremum. S pri tome oznaava podruje traenja. Oznai li se traena
*
vrijednost x , tada vrijedi:
*

x = arg sup F (x) .


x S

(E-1)

Openito vrijedi da supremum kontinuirane funkcije cilja lei u unutranjosti podruja traenja
ili na njegovom rubu. To ilustrira primjer prikazan na slici E. 1.
F
x2*

x1*

x
S1
S2

Sl. E.1. Kontinuirana funkcija cilja F(x) i razliita podruja traenja Si.
Prema slici E.1 je u podruju traenja S1 supremum od F(x) jednak maksimumu pa vrijedi:
sup F ( x ) = max F ( x )
x S1

x S1

3
*

U ovom sluaju x 1 lei u unutranjosti od S1. Za podruje traenja S2 supremum od F(x) lei na
*

mjestu x 2 , tj. na rubu od S2.


Postupci traenja i optimiranja naelno se mogu klasificirati u: analitike postupke,
specifikacijske postupke i stohastike postupke.
E.1.1. Analitiki postupci
Analitiki se postupci zasnivaju na nunim i/ili dovoljnim uvjetima koje mora zadovoljiti
*
kontinuirana funkcija cilja F(x) na mjestu x = x . Ovi se postupci dijele na neposredne
(direktne) i posredne (indirektne) metode.

a) Posredne metode
Kod posrednih metoda ispituje se gradijentna funkcija F ( x ) kao nuni uvjet za ekstrem
od F(x) unutar podruja traenja (lokalni maksimum, lokalni minimum ili toka sedla). Mogui
kandidati za x dobiju se kao rjeenja nelinearnog sustava jednadbi:
F ( x ) = 0 .

(E-2)
*

Iz skupa rjeenja (kandidata) potom se odreuje globalni maksimum x .


b) Neposredne metode s gradijentom
Kod neposrednih metoda odreuje se analitiki ili numeriki lokalni gradijent F ( x k ) koji
potom slui u gradijentnom postupku za traenje maksimuma. Gradijentni postupci imaju
sljedei opi oblik:
x k +1 = x k + s k ( x k ),

k = 0,1, 2,.....,

(E-3)

gdje je:

>0

- promjenljiva irina koraka ( = k );

sk ( x k )

- trenutani smjer traenja u n .

U velikom mnotvu varijanti gradijentnih postupaka tipine su: metoda najstrmijeg porasta i
konjugirana gradijentna metoda.

Metoda najstrmijeg porasta zapoinje s poetnom vrijednou x 0 prema (E-3) i sa smjerom


traenja
s k ( x k ) = F ( x k ) .

(E-4)

Ovakvim iterativnim traenjem pronalazi se stacionarna toka u podruju oko x0. Metoda
najstrmijeg porasta sporo konvergira i ima tendenciju prema nestabilnosti u blizini
maksimuma.

Konjugirana gradijentna metoda predstavlja poboljanje metode najstrmijeg porasta u


pogledu konvergencije i stabilnosti. Ovdje se koriste za smjerove traenja u (E-3) sljedee
vrijednosti:
s 0 = F ( x 0 ),
s k = F ( x k ) k s k 1

(E-5)

k = 1,2,3...

gdje je:
F T ( x k ) F ( x k )
.
F T ( x k 1 ) F ( x k 1 )

k =

Prema tome, smjer traenja kod konjugirane gradijentne metode rauna se na spregnuti
(konjugirani) nain na temelju trenutanih i prethodnih gradijenata.
Nedostatak je analitikih postupaka da funkcija cilja F(x) mora biti u eksplicitnom obliku
te da je najmanje jedanput derivabilna. Zahtjev u pogledu derivabilnosti predstavlja u praksi
veliko ogranienje (npr. u cjelobrojnim ili kombinatornim problemima optimiranja).
c) Neposredne metode bez gradijenta
Primjer klasine metode traenja, koja ne koristi gradijente, jest Hooke-Jevesova metoda,
odnosno metoda traenja uzoraka (engl. Pattern Search Method). Algoritam traenja zasnovan
na ovoj metodi cikliki uzorkuje prostor parametara prema odreenom uzorku, ispituje lokalni
smjer porasta te nastavlja traenje u smjeru toga porasta. U osnovi se radi o ispitivanju
vrijednosti funkcije cilja F(x) s obzirom na vrijednost x S n . Pretpostavi li se da se
komponenta x1 vektora x uvea za duljinu koraka , dobije se F + ( x1 + , x 2 ,... x n ) . Ako je
F + ( x1 + , x 2 ,... x n ) >F(x), onda je smjer traenja uspjean i postavlja se x = ( x1 + , x 2 ,... x n ) .
Ako pak to nije sluaj, onda se ispituje F ( x1 , x 2 ,... x n ) > F ( x ) . Ako ova nejednakost
1

vrijedi, postavlja se x = ( x1 , x2 ,...xn ) . Ako nije ispunjen nijedan od ovih dvaju sluajeva,
1

postavlja se x = x . Uz x1 odreen na jedan od prethodnih naina prelazi se na odreivanje, na


1

analogan nain, x do x .
Na temelju izloenog slijedi postupak odreivanja maksimuma funkcije cilja F(x) prema
Hook-Jeevesovom algoritmu:
1. Odrediti poetnu toku x, duljinu koraka te 0 < < 1 ;
2. Ispitati x duljinom koraka i usporednom vrijednou F(x). Ako je x=xn, tj. ako se ne
postigne poboljanje s , postaviti := i vratiti se na 2.; inae nastaviti s 3.
3. Ispitati xn+(xn-x) (= promjena poetne toke ispitivanja) sa (starim) i usprednom
vrijednou F(xn). Ako je xn+(xn-x)=[ xn+(xn-x)]n postaviti x:=xn, := i vratiti se na 2.,
inae nastaviti s 3.
Maksimum je pronaen ako vrijedi x= xn prema 2. i ako je postao dovoljno malim.

E.1.2. Specifikacijske tehnike


Postupcima traenja koji se zasnivaju na specifikacijskim tehnikama izraunavaju se
funkcijske vrijednosti F(x) za sve x S te se meu izraunatim funkcijskim vrijednostima
odabire najvea. U problemima s kontinuiranim varijablama potrebno je prostor traenja S
uzorkovati (rasterirati). Ovakav je postupak uporabljiv samo za manje dimenzije problema,
budui da se s rastuim brojem dimenzija dolazi do kombinatorske eksplozije.
Iako dinamiko programiranje sistematizira ovaj postupak, i nadalje ostaju izraene
potekoe u opsenim problemima. Prednost je specifikacijskih tehnika u odnosu na analitike
postupke jer ne zahtijevaju eksplicitno poznavanje funkcije cilja F(x).
E.1.3. Stohastiki postupci traenja i optimiranja
Ova vrsta sluajnih tehnika traenja prikladna je i za najtee probleme optimiranja. Pri
tome se esto radi o heuristikim postupcima, kao to je sluajno traenje, koje istrauje prostor
traenja pomou potpuno sluajnog uzorkovanja, ili o evolucijskim postupcima, koji kombiniraju
sluajno traenje s mehanizmom porasta koji je usmjeren cilju. Ovi se postupci poglavito
zasnivaju na fizikalnoj i biolokoj evoluciji. Oni se mogu promatrati i kao oblik nenadgledanog
uenja (samoorganizacije).
Stohastiki postupci traenja i optimiranja slue za rjeavanje standardnog problema:
x* =

arg sup F ( x ).
x S n

(E-6)

Pri tome je polazite da se na funkciju cilja F(x) postavljaju minimalni zahtjevi, odnosno F(x) ne
treba biti niti analitika niti derivabilna funkcija.
U narednim razmatranjima analizirani su jednostavniji stohastiki postupci traenja i
optimiranja:

mutacijsko-selekcijski postupak;
metoda simuliranog kaljenja (hlaenja metala) (engl. simulated annealing);
binarno kodirani postupci porasta.
E.1.3.1. Mutacijsko-selekcijski postupak
Funkcija cilja F(x) se u ovom postupku oznaava, kao to je uobiajeno u genetici,
funkcijom sposobnosti preivljavanja (engl. fitness function). Rjeenje (kandidat) x S n
prema (E-6) naziva se kromozomom. Bazini algoritam mutacijsko-selekcijskog (MS) postupka
odvija se u sljedeim koracima:
1. Izbor sluajnog poetnog kromozoma x S .
2. Odreivanje njegove funkcije sposobnosti F(x).

6
3. Promjena x u x ' = x + S (primitivna mutacija), pri emu je varijacija
= z,
z Q n - vektor sluajnih brojeva jednako raspodijeljenih u
hiperkvadru uz 1 z i +1 ; - duljina koraka.
4. Odreivanje F(x).
5. Odreivanje d = F(x)- F(x).
6. Ako je d > 0, tada se kromozomom x nadomjeta kromozom x (primitivna
selekcija).
7. Ako nije ispunjen kriterij prekida, povrat na 3.
U 3. i 6. koraku radi se o genetikim operacijama mutacije i selekcije; ovdje primijenjeni
oblik selekcije predstavlja primitivni oblik Darwinovog naela probirka najboljih. Kriterij
prekida u 7. koraku moe se zasnivati na nedostizanju unaprijed zadane granice pogreke d <
ili na prekoraenju maksimalnog broja iteracijskih koraka.
Ovaj bazini algoritam openito osigurava odreivanje lokalnog maksimuma. Opisani
bazini MS algoritam moe se poboljati na nekoliko naina, to u primjenama moe biti od
koristi. Mogua su poboljanja:

Poboljanje smanjenjem duljine koraka . Za globalno traenje poetno se koristi velika


duljina koraka koja se tijekom traenja smanjuje, doprinosei na taj nain zahtjevanoj
konanoj tonosti lokalnog maksimuma.

Poboljanje modifikacijom mutacijskog postupka. Procesi traenja odvijaju se uzdu


pojedinih koordinatnih osi, tj. u svakom koraku traenja mijenja se samo jedna
kompomenta xi kromozoma x za iznos i.

Poveanjem vjerojatnosti pronalaenja globalnog maksimuma (supremuma) funkcije


cilja F(x). To se postie na vie naina, a najei je metoda simuliranog kaljenja.
E.1.3.2. Simulirano kaljenje
Za predodbu virtualnog procesa hlaenja slui prijelaz iz kapljevinske u krutu fazu poznat
iz fizike krutog stanja (uz oslobaanje toplinske energije). Ovaj prijelaz podrazumijeva hlaenje
uvjetovano oslobaanjem slobodne energije. ista kristalna struktura karakterizirana je
energetskim minimumom (ista kristalna struktura postie se sporim hlaenjem). U ovom
sluaju lokalne energetske fluktuacije uzrokuju gibanje estica koje takoer omoguuju
naputanje lokalnog energetskog minimuma. Pri brzom hlaenju postoji opasnost dobivanja
neistog kristala; struktura tada ostaje u nekom lokalnom energetskom minimumu. Energetski
minimumi za neistu i istu kristalnu strukturu prikazani su na slici E.2, gdje se sporim
hlaenjem postie naputanje lokalnog energetskog minimuma (A) i time postizanje iste
kristalne strukture (B).

7
E
barijera

A
B

neist

Struktura
kristala

ist

Sl. E.2. Naputanje lokalnog energetskog minimuma (A) i postizanje iste kristalne strukture(B).
Proces brzog i sporog hlaenja kristalne strukture prikazan je i u vremenskom podruju (Sl.
E.3.).
T, E

T, E
T(t)

T(t)
A

E(t)

E(t)

B
t

a)

b)

Sl. E.3. Proces hlaenja kristalne strukture;


a) brzo hlaenje, b) sporo hlaenje.
Procesi hlaenja mogu se, dakle, smatrati vrstom fizikalne evolucije iji je cilj optimalno
strukturiranje kristala.
Ako se ove spoznaje primjene na MS postupak, u kojem se kromozomima x, izloenim
lokalnom pogoranju uvjeta odranja, dopusti odreena ansa preivljavanja, tada se time povea
vjerojatnost pronalaenja globalnog maksimuma funkcije cilja F(x).

Modifikacija MS postupka
Proirenje MS postupka u smislu simuliranog kaljenja mijenja korak selekcije (6. korak u
bazinom MS algoritmu). Naime, umjesto dosad prakticiranog deterministikog izbora novoga
kromozoma x u sluaju poboljanja funkcije sposobnosti, tj. uz d>0, izabire se vjerojatnost:
p( d ) =

1
,
1 + e d /T

(E-7)

8
gdje je:
T virtualna temperatura.

Funkcija razdiobe p(d) naelno je prikazana na slici E.4. u ovisnosti o parametru T.


p(d)
1
0,5

0,1
T
10

Sl. E.4. Ovisnost gustoe razdiobe o temperaturi T.


Prema slici E.4. moe se razjasniti utjecaj smanjenja T na sposobnost preivljavanja.
1. T :

Za vrlo visoke vrijednosti T selektira se poboljanje ili pogoranje s


vjerojatnou 0,5.

2. T

S opadajuim T selektiraju se poboljanja u prosjeku ee nego


pogoranja.

3. T0

Poboljanja se selektiraju s vjerojatnou 1, dok se pogoranja


selektiraju s vjerojatnou 0.

Neovisno o temperaturi vrijedi da se vjerojatnost selekcije poveava s rastuim poboljanjem


(d>0), te da se smanjuje s rastuim pogoranjem (d<0).
Modificirani MS algoritam (sa simuliranim kaljenjem) odvija se u sljedeim koracima:
1. Izbor sluajnog poetnog kromozom x S .
2. Odreivanje njegove funkcije sposobnosti F(x).
3. Promjena x u x ' = x + S (mutacija), pri emu je = z , gdje su elementi zi
iz jednako raspodijeljenih sluajnih brojeva 1 zi 1; - duljina koraka.
4. Odreivanje F(x).
5. Odreivanje d= F(x)- F(x).
6.1. Izraunavanje p(d) za odabrani T.
6.2. Generiranje sluajnog broja 0 z 1.
6.3. Ako je z < p, tada je x: = x ' = x + (inae zadrati x).
6.4. Smanjivanje T.
7. Ako nije ispunjen kriterij prekida, povrat na 3.
Pri implementaciji modificiranog MS algoritma korisno je imati na umu njegova sljedea
svojstva. Poetak s virtualnom temperaturom T >>10 vodi na selekciju koja je u znatnoj mjeri
neovisna o tijeku funkcije sposobnosti F(x). S viom temperaturom provodi se kvalitativno
globalno traenje supremuma od F(x). Postupnim smanjenjem T ostvaruje se traenje s veom

9
vjerojatnou u blizini supremuma. (Ovo traenje ima oscilatorni karakter.). Traenje uz
smanjeni T odgovara kvantitativnom lokalnom traenju, iji se rezultat zamrzava za T 0 .
I za bazini i za modificirani MS postupak (algoritam) zajedniko je:

neznatni zahtjevi na funkciju sposobnosti;


jednostavna realizacija;
prikladnost za primjene na kombinatorskim optimiranjima (npr. odreivanje
optimalnih redoslijeda);

veliki broj iteracijskih koraka kao posljedica sekvencijskog naina rada.


Ako se razmatraju postupci stohastikog traenja i optimiranja s binarno kodiranim varijablama,
prikladni su binarno kodirani postupci porasta.
E.1.3.3. Binarno kodirani postupci porasta
Ovi postupci slue, takoer, stohastikom traenju parametara u n . Obradimo za poetak
skalarni sluaj s varijablom x S na koju se postavlja ogranienje:
x min < x < x max .

(E-8)

Ova se varijabla naziva fenotipom (engl. phenotype). Ova varijabla pretvorena (kodirana) u niz
bitova ili binarni broj:
x = bm bm1

b1b0 ,

l q

b j 0,1

(E-9)

naziva se genotipom (engl. genotype).


Za pretvorbu realnih brojeva u binarne brojeve i obrnuto koriste se sljedea pravila:

Pretvorba realnih brojeva u binarne:


Ako se realni broj x , s ogranienjem prema (E-8), predstavi pomou niza bitova s
rezolucijom 1 m+1 , tada slijedi potrebna duljina niza bitova (m+1) iz relacije:
2
2 m < x max x min 10 k < 2 m+1 ,
gdje je:
k broj decimalnih mjesta iza decimalnog zareza

Pretvorba binarnih brojeva u realne:


Za pretvorbu binarnog broja u decimalni vrijedi sljedea relacija:

(E-10)

10
m

x = x min + bi 2 i
i=0

x max x min
.
2 m+1 1

(E-11)

Primjer:

Naelni postupak pretvorbe brojeva ilustriran je na jednostavnom primjeru optimiranja:


x* =

Funkcija F ( x ) =

arg inf
x 1;5,9

RSsin x UV.
Tx W

sin x
prikazana je za promatrani interval na slici E.5.
x
F(x)
1

x*=?

Sl. E.5. Infimum funkcije F(x).


Ako se zahtijeva da decimalni x ima 2 mjesta iza decimalnog zareza, slijedi:
x max x min 10 k = 5,9 + 1 10 2 = 690 .

Prema (E-10) dobije se:


29 < 690 < 210( = m+1) .
Prema tome duljina niza bitova iznosti (m+1)=10.
Da bi se problem traenja minimuma sveo na standardni problem traenja maksimuma,
razmatra se ekvivalentni problem:
x* =

arg sup F ( x ) ,
x 1;5,9

F( x) =

sin x
.
x

E.1.3.4. Davisov algoritam


Davisov algoritam (u literaturi poznat i pod nazivom, engl. bit-climber-algorithm) je
binarno kodirani mutacijsko-selekcijski algoritam. On je vrlo slian bazinom MS algoritmu i
odvija se u sljedeim koracima:

11
1. Izbor sluajnog poetnog niza x = bm bm1

b1b0 .

2. Dekodiranje x i izraunavanje F(x).


3. Promjena (sluajna) jednog bita u nizu, tj. x ' = bm bm1

bi

b1b0 (mutacija).

4. Izraunavanje F(x).
5. Odreivanje d=F(x)-F(x).
6. Ako je d>0, tada se nadomjeta x s x (selekcija).
7. Povrat na 3., sve dotle dok promjena bita poboljava vrijednost od F(x).
Davisov algoritam osnova je za mnoge varijante binarno kodiranih algoritama traenja i
optimiranja. Primjerice, mogue je u 3. koraku generirati iz x vie (npr. 10) novih nizova x, iz
kojih se onda odabire najbolji (xopt) s kojim se nastavlja u 4. koraku.
Davisov algoritam, kao i bazini MS algoritam u osnovi se zavravaju u lokalnom
maksimumu. Stoga je potrebno koristiti ove standardne postupke na nain da se povea
vjerojatnost dostizanja globalnog maksimuma. Jedan od naina je da se postupak ponavlja s
razliitim poetnim nizovima.
Na temelju izloenog moe se zakljuiti da je Davisov algoritam specijalni oblik MS
algorima koji ima na raspolaganju (m+1) moguih smjerova traenja. Zbog ove diskretizacije
prostora traenja moe se ispitati 2(m+1) kombinacija, to predstavlja ogranienje na tonost
traenja varijable x*.
Dosadanja razmatranja vezana uz Davisov algoritam odnosila su se na skalarne probleme.
U sluaju F(x), gdje je x n , komponente xi (i = 1,, n) s realnim vrijednostima binarno se
prikazuju pomou n nizova, iz ega se dobije rezultirajui niz (lanac):
n

xr = xi .

(E-12)

i =1

Na rezultirajui niz xr potom se primjeni Davisov algoritam na prethodno opisan nain.


Davisov algoritam moe se takoer modificirati (analogno MS algoritmu) u smislu simuliranog
kaljenja. Davisov algoritam vrlo je srodan genetikim algoritmima. On je ak i u prednosti pred
genetikim algoritmima za manje sloene funkcije sposobnosti F(x), tj. lokalizira traeni
maksimum u manje iteracijskih koraka.
E.2. Genetiki algoritmi

Pod pojmom genetiki algoritmi (GA) podrazumijevaju se postupci traenja i optimiranja


koji pripadaju veoj skupini evolucijskih algoritama (EA).
Genetiki algoritmi slue za rjeavanje standardnog problema:

l q

x * = arg sup F ( x ) ,
x S

uz

F( x) 0 ,

(E-13)

tj. za pronalaenje supremuma nenegativne funkcije sposobnosti F(x). Ako postoji funkcija
sposobnosti F(x), koja moe poprimiti i negativne vrijednosti, onda se F(x) moe izraziti na
sljedei nain:

F ( x ) = C + F ' ( x ) 0,

C = konst.

(E-14)

12
Genetiki algoritmi zasnivaju se na procesima bioloke evolucije. Stoga se primjenjuju kao i kod
mutacijsko-selekcijskih postupaka kombinacija sluajnog traenja i postupaka porasta. Dodatno
k tome, genetiki algoritmi provode masivno paralelno traenje. To se postie razmatranjem
populacija potencijalnih rjeenja kao i primjenom sloenih genetikih operacija za mutaciju i
rekombinaciju.
E.2.1. Osnovni pojmovi iz genetike i njihova primjena u genetikim algoritmima

Jedinka (engl. individual): potencijalno rjeenje razmatranog problema optimizacije.


Fenotip (engl. phenotype): znaajke jedinke koje se mogu interpretirati na razini
problema.

Genotip (engl. genotype): kodiranje fenotipa na gene; u pravilu se primjenjuje binarno


kodiranje.

Kromozom (engl. chromosome): kromozom (niz ili lanac) predstavlja u podruju GA


jedinku: sastoji se od gena linearno poredanih jedan iza drugoga.

Poloaj u nizu (engl. locus): gen u nizu ima definirani poloaj.


Populacija (engl. population): skup svih kromozoma (jedinki) iste duljine niza u
generaciji.

Generacija (engl. generation): populacija u diskretnom trenutku.


Na slici E.6. pojanjeni su neki od prethodno navedenih pojmova u meusobnom odnosu.

Populacija: N=3

Gen
Kromozom
(jedinka)

Duljina niza: m+1=8

Sl. E.6. Uz objanjenje pojmova GA.


Nakon objanjenja osnovnih pojmova slijedi objanjenje bitnih mehanizama odvijanja GA.
Izvoenje GA zahtijeva najprije kodiranje varijabli (fenotipova), odnosno dobivanje varijabli GA
(genotipova), tj. kromozoma ili jedinki.
Na poetku traenja i optimiranja moraju se odrediti poetna rjeenja. U tu svrhu potrebno
je imati mehanizam za postavljanje poetne populacije.

13
Vrednovanje sposobnosti preivljavanja jedinki u odreenim okolinim uvjetima, tj. za
konkretni problem optimiranja, provodi se pomou evaluacijske funkcije (funkcije sposobnosti
preivljavanja).
Na osnovi funkcije preivljavanja odabire se mehanizam selekcije koji daje prednost za
reprodukciju jedinkama s veom sposobnou.
Reprodukcija, tj. prijelaz s generacije roditelja na generaciju djece, sastoji se od niza
transformacija kojima su jedinke podvrgnute. U te transformacije spadaju mutacija jedinki, kao
jednostavan operator, i krianje ili rekombinacija (engl. crossover, recombination), kao sloeni
operator.
Konano, moraju se definirati i vrijednosti parametara koji su specifini rjeavanom
problemu, a to su: duljina niza (m), veliina populacije (N) i razliite vjerojatnosti izbora (p) u
procesu selekcije.
E.2.2. Osnovna struktura GA
Cilj je GA da se kroz vie generacijskih ciklusa promijene svojstva poetne populacije tako
da se mutacijom i krianjem u populaciji dobije ona jedinka koja predstavlja najbolje rjeenje.
Pri tome se ne trai superjedinka, nego se tei dobiti populaciju koja posjeduje visoku
sposobnost. Na taj nain GA sadre elemente procesa samoorganiziranja (engl. self-organizing)
ili nenadgledanog uenja (engl. unsupevised learning).
Genetiki se algoritmi mogu promatrati kao specijalni oblik evolucijskih algoritama.
Osnovna algoritamska struktura evolucijskih algoritama vidljivo je iz sljedee sheme koraka
odvijanja:
1. Postavljanje sluajne poetne populacije P koja je sastavljena od jedinki xi, gdje je i =
1, 2,, N.
2. Odreivanje sposobnosti F svih jedinki iz P.
3. Selekcija parova roditelja iz P za stvaranje sljedee generacije, tj. P:=Selekcija (P).
4. Stvaranje populacije potomaka (djece) pomou genetikih operatora:

krianje, tj.
P: = Krianje (P);

mutacija, tj.
P: = Mutacija (P).
Napomena: Obje ove operacije (krianje i mutacija) uspijevaju sa specifinim
vjerojatnostima pc i pm. Pri tome nastaju nove jedinke.

5. Odreivanje sposobnosti svih jedinki u P: =P;


6. Povrat na 3., sve dotle dok se ne ispune uvjeti prekida.

Primjer primjene GA:


Za ilustraciju GA potrebno je pronai maksimalnu vrijednost ''poprene'' sume niza bitova
duljine (m+1) = 10. S obzirom da je veliina koja slui za optimiranje ve digitalno kodirana,
genotip je jednak fenotipu.

14
U razmatranome sluaju funkcija sposobnosti glasi:
9

F ( x ) = bi ,
i=0

gdje su: bi binarni brojevi prema (E-9).


Ova funkcija sposobnosti funkcija je diskretne varijable i ima vie lokalnih minimuma i
maksimuma (Sl. E.7.).
F(x)
10

3
2
1
1 2

3 4

5 6

7 8 9 10

1023

Sl. E.7. Diskretna funkcija sposobnosti preivljavanja.


Neka proces traenja zapone sljedeom poetnom populacijom:

P0 = x10 , x 20 , x30 , x 40 ,
gdje je:
Populacija P0 s N=4 jedinke

Normirana sposobnost 0 f =

x10 :

0000011100

0,3

0
2

x :

0110101011

0,6

0
3

x :

0110101011

0,6

0
4

1111111011

0,9

x :

F( x)
1
Fmax

U narednom se koraku selektiraju iz poetne populacije oni roditelji koji su sposobni za


reprodukciju, to se zakljuuje na temelju normirane sposobnosti. Tako nastaje meupopulacija
P0 ' kopiranjem sposobnih jedinki; x10 se odbacuje, x 20 i x30 su zastupljene po jedanput u
meupopulaciji, dok se x 40 pojavljuje dvaput.
P:=Selekcija (P)

x1'0 :

1000011111

0, 6

x2'0 :

1000011111

0, 6

x3'0 :

1111111011

0,9

x4'0 :

1111111011

0,9

15
Za krianje (rekombinaciju) tvore se sluajni parovi, npr.:
Par 1:

( x1'0 , x4'0 )

Par 2:

( x2'0 , x3'0 )

Odabrani se parovi podvrgavaju krianju na sluajan nain, elei se pri tome postii
odgovarajuu vjerojatnost krianja pc (rekombinacije). Neka je u razmatranom primjeru sluajno
odabran Par 1 i neka je pc=0,5. Jednostavnosti radi, pretpostavlja se jednostavno krianje
(jednotokasto krianje), tj. sluajno se odabire razdjelno mjesto u jedinci (nizu), a potom
slijedi izmjena dijelova niza. U razmatranom primjeru odabrano je razdjelno mjesto izmeu b4 i
b5 (oznaeno s: I). Nakon zamjene preuzimaju se u daljnju meupopulaciju promijenjeni Par 1 i
nepromijenjeni Par 2.
Neka je sluajno odabran Par 1 i neka je pc = 0,5 .
P0'' := Krianje (P0')

(pc=0,5)
x1''0 :

10000 11011

0,5

x2''0 :

0110101011

0, 6

x3''0 :

1111111011

0,9

x4''0 :

11111 11111

1, 0

Polazei od ove meupopulacije, provodi se mutacija, tj. promjena vrijednosti odreenih


bitova u nizovima, uz definiranu vjerojatnost mutacije pM. Ako se, primjerice, odabere pM=0,05,
onda se prosjeno mogu promijeniti 2 bita od ukupno 410=40 bitova. Na taj se nain dobije
sljedea meupopulacija:
P0''' := Mutacija (P0'')

(pM=0,05)
x1''' 0 :

1000011011

0,5

x 2''' 0 :

0110111011

0,7

''' 0
3

x :

1111111011

0,9

''' 0
4

0111111111

0,9

x :

Ova meupopulacija predstavlja prvu generaciju potomaka P1 := P0'''. U prvom potpuno


provedenom generacijskom ciklusu prosjena sposobnost
f =

1 4
f ( xi )
4 i =1

poveala se od 0,6 na 0,75.


Na temelju prethodnog razmatranja uoava se da se s etvrtom jedinkom (x4''0) u populaciji
P0'' dolo do optimalnog rjeenja. Meutim, mutacijom je ovoj jedinki neznatno smanjena
sposobnost. Ovakav se sluaj moe poopiti; dobre jedinke koje su se pojavile u prethodnim
generacijama mogu se u daljnjem tijeku traenja izgubiti. Za razliku od bioloke stvarnosti, u
GA se uvijek mogu memorirati jedinke prethodnih generacija s najveom sposobnou. Ove se
jedinke mogu koristiti u svrhe usporedbe.

16
Kao uvjeti za prekid ciklusa moe se koristiti maksimalni broj generacija K ili nastanak
jedinke s vrlo velikom sposobnou. Isto tako, moe se postaviti kao uvjet za zavretak ciklusa
postizanje visokog stupnja homogenosti sposobnosti svih jedinki populacije.
Izbor parametara GA ovisan je o specifinostima problema koji se rjeava. Za standardne
probleme naelno se mogu koristiti sljedea iskustvena pravila (preporuke):

veliina populacije N=50-100;

vjerojatnost krianja (mjera rekombinacije) pc > 0,5, tipino pc = 0,6;

vjerojatnost mutacije (mjera mutacije) pM vrlo mala, tipino p M

1
.
N

E.2.3. Operatori u genetikim algoritmima

Selekcija (P P'):

Metode selekcije koriste se da bi se izabrale sposobne jedinke na poetku generacijskog


ciklusa za reprodukciju, a u skladu s njihovom sposobnou kao roditelja (Darwinovo naelo).
Sa stajalita osiguranja potomstva operator selekcije moe se zvati i operatorom reprodukcije
(selektira jedinke za reprodukciju). Meu vie shema selekcije ire su rasprostranjene:
a) Selekcija temeljena na sluajnim brojevima:
U ovoj se selekcijskoj metodi primjenjuju u svakom selekcijskom koraku dva cijela sluajna
broja z1 , z 2 1,2, , N za izbor dviju jedinki iz populacije P i potom se preuzme za

l q

meupopulaciju P' ona jedinka x i z1 , z 2 koja ima veu sposobnost (valjanost) F(xi). Ovaj se
proces ponavlja N puta. S obzirom da je izraunavanje sposobnosti jednostavno, ovaj je postupak
lagan za implementaciju.
b) Selekcija temeljena na igri ruleta:
Ova selekcijska metoda provodi se analogno igri ruleta. Najprije se izraunaju vrijednosti
sposobnosti (valjanosti) svih xi u populaciji P:

i = 1,2,

F ( x i ),

Iz zbroja ovih vrijednosti sposobnosti F(xi) dobije se ukupna vrijednost sposobnosti populacije:
N

F = F ( x i ) .

(E-15)

i =1

(Ovdje treba imati u vidu da je prema (E-13) F(xi) > 0).


Ako se F(xi) normira na F, dobije se sljedea diskretna vjerojatnost selekcije:

pi = p( x i ) =

F ( xi )
,
F

gdje je 0 <pi <1. Iz N vjerojatnosti prema (E-16) dobiju se kumulativne vjerojatnosti:

(E-16)

17
i

qi = p j ,

j = 1,2,

,N .

(E-17)

j =1

Pri tome se uzima da je q0 = 0.


Na slici E.8. prikazane su kumulativne vjerojatnosti i emu odgovara proporcionalno
podjela kotaa ruleta u sektore.
qi

q5

1
x5
q4

0,5

x4
q3

1 2

3 4 N=5

q1

x1

x2
x3

q2

Sl. E.8. Kumulativne vjerojatnosti i kota ruleta.


Oigledno je da vrijedi:
N

qN = p j = 1 .

(E-18)

j =1

S obzirom na selekciju proporcionalno relativnoj sposobnosti u populaciji, kota ruleta se


zavrti N puta i pri tome se nakon njegovoga zaustavljanja oita vrijednosti xi koja odgovara qi
sektoru. Implementacija ovoga postupka selekcije obavlja se tako da se generira realni sluajni
broj z 0,1 te odabere xi tako da je:

x1, ako je z < q1


xi, ako je qi-1 <z qi;

i = 1, 2, , N.

Ovaj selekcijski postupak daje ansu i osrednjim xi, dok slabe xi potiskuje.

Krianje (P' P''):

Iz meupopulacije P' dobivene selekcijom izabiru se potencijalni roditelji za krianje


(rekombinaciju). Izbor se obavlja u skladu s vjerojatnou pc. Pri tome se generira za svaku
jedinku xi iz populacije P' realni sluajni broj z 0, 1 i ako je z < pc jedinka xi se podvrgava
N
parenju. Oekivani broj parova je pc . Krianje moe biti jednotokasto krianje (engl. one2
point crossover) i vietokasto krianje (engl. multiple-point crossover). U vietokastom
krianju definira se broj toaka krianja Nc. Ako je Nc = 1, vietokasto krianje postaje
jednotokasto. Za Nc = 2 dobije se dvotokasto krianje.

a) Jednotokasto krianje

18
Za svaki par koji dolazi u obzir za krianje odreuje se razdjelno mjesto u nizovima para
(brojeno odlijeva). To se postie tako da se generira broj iz skupa jednakoraspodijeljenih cijelih
sluajnih brojeva z 1,2, , m (m+1 je duljina niza).
Zamjena desnih dijelova nizova tada tvore potomstvo za populaciju P''. Primjerice, za z=3
nastaje iz para
110 10
001 00
nakon krianja
110 00
001 10.
Vrijednosti xi iz populacije P' koje nisu izabrane za parenje preuzimaju se nepromijenjeno u
populaciji P''.
b) Dvotokasto krianje

Vietokasto krianje omoguava dobivanje kvalitetnijih potomaka u odnosu na


jednotokasto krianje. Za dvotokasto krianje odabire se Nc = 2, tj. nizovi roditelja dijele se u
tri dijela. To se postie generiranjem dvaju sluajnih brojeva z1 i z2 za odreivanje mjesta
dijeljenja.
Neka je par roditelja
11 01 0
00 10 0
i neka su generirani brojevi z1 = 2 i z2 = 4. Tada se dobije potomstvo:
11 10 0
00 01 0.

Mutacija (P'' P'''):

Iako selekcija i krianje generiraju nove nizove, oni ne uvode nove informacije u
populaciju na razini bita. Mutacija se uvodi kao izvor novih bitova, tj. pojedini bitovi jedinki u
populaciji P'' mijenjaju se s vjerojatnou mutacije pM. U konkretnim primjerima to znai da je
potrebno generirati realni sluajni broj z 0, 1 i tada promijeniti bit bj ako je z < pM. Ovaj se
korak provodi N(m+1) puta. Oekivani broj mutirajuih bitova iznosi pMN(m+1).

19
Mutacija unosi u populaciju nove aspekte tako da nastaju novi smjerovi traenja. Time se
stvaraju uvjeti za sprjeavanje "zadravanja" u lokalnom maksimumu. To odgovara iskustvu da i
prirodna evolucija ima skokove na temelju rjeih nesvakidanjih dogaaja.
U nastavku slijedi razmatranje utjecaja mijenjanja parametara prethodno opisanih
operatora na funkcionalnost GA.
a) vjerojatnost krianja (mjera rekombinacije) pc:

Poveanje vjerojatnosti krianja poveava stupanj krianja starih elemenata u nizovima u


skladu s tzv. teorijom shema (engl. schemata). Meutim, pri tome se takoer poveava stupanj
unitenja jedinki s veom sposobnou.
b) vjerojatnost mutacije (mjera mutacije) pM:

Poveanjem vjerojatnosti mutacije remeti se ravnotea izmeu postupaka porasta i


sluajnog traenja. Za pM = 1 obavlja se isto sluajno traenje. Mala vjerojatnost mutacije
pomae da se genetiki materijal izgubljen tijekom traenja ponovo stavi u proces evolucije.
Time se poveava ansa da se pronae globalni maksimum.
c) Veliina populacije N:

Poveanjem populacije poveava se raznovrsnost ime se smanjuje vjerojatnost ulaska u


lokalni maksimum. Vea populacija ima za posljedicu vee zahtjeve na raunalo i dulje vrijeme
traenja.
Sva nastojanja dana u a), b) i c) mogu se utemeljiti pomou teorije shema za GA. Pri tome
shema predstavlja sve nizove jedne populacije koji (nizovi) imaju iste bitove s iznimkom bitova
oznaenih sa simbolom irelevantnosti (engl. =dont care).
U svrhu pojanjenja sheme dan je sljedei primjer:

R|1110 00
0110 00
||1110
||01100101
*110 ** S
||111010
011010
||111011
|T011011

Iz teorije shema slijedi da se sheme s veom sposobnou ire (umnaaju) nadproporcionalnom


brzinom, dakle invarijantne su u odnosu na djelovanje genetikih operatora.
Iz ovoga slijedi vaan zakljuak za primjene GA. Pri kodiranju nekog problema traenja
trebaju se stalno uzimati u obzir unutarnji odnosi izmeu varijabli. Dakle, ako varijable imaju
zajedniko djelovanje na promatrani problem traenja, one se trebaju kodirati susjedno u niz
bitova.

20
D.

Uenje dinamikih neuronskih mrea genetikim algoritmom

Primjena deterministikih algoritama za uenje dinamikih neuronskih mrea ima odreene


nedostatatke:
* Zbog prisutnosti povratnih veza u strukturi mree javlja se tzv. efekt opadajueg
gradijenta ili zasienja gradijenta, to za posljedicu ima zaglavljivanje algoritma daleko
od globalnog minimuma ili vrijednosti koja se smatra zadovoljavajuom.
* Proraun gradijenta i Hessian matrice kriterijske funkcije je znatno sloeniji i memorijski
zahtjevniji nego za sluaj kod statikih neuronskih mrea.

Iz ovih razloga se u posljednje vrijeme za uenje dinamikih neuronskih mrea sve vie
afirmiraju nedeterministiki algoritmi kao to su algoritmi zasnovani na oponaanju procesa
hlaenja metala (engl. simulated annealing), genetiki algoritmi (engl. genetic algorithms),
viemrena metoda sluajnog traenja (engl. multi-grid random search) itd.

Genetiki algoritam ui zadanu dinamiku neuronsku mreu, koja predstavlja model


odreenog sustava, tako da trai najbolji skup teinskih koeficijenata mree iz prostora
rjeenja kako bi mrea bila to vjerniji model sustava.

Problem traenja skupa teinskih koeficijenata iz prostora rjeenja je viedimenzijski


problem za genetiki algoritam (dimenzija problema jednaka je broju teinskih koeficijenata
koji se trebaju nai).

to je dimenzija problema vea, genetiki algoritam u naelu postie slabije rezultate, jer ima
za odrediti vie nepoznanica. Poveanjem broja iteracija postiu se bolji rezultati, ali se tada
vrijeme izvoenja algoritma proporcionalno poveava.

Pri uenju dinamikih neuronskih mrea, genetiki algoritam ima veu vjerojatnost nalaenja
podruja globalnog minimuma ciljne funkcije ( ) , ali ima puno manju vjerojatnost tonog
nalaenja globalnog minimuma zbog dimenzija problema.

Deterministiki algoritmi puno sporije nau podruje globalnog minimuma ciljne funkcije
( ) , ali zato jako brzo nau globalni minimum ukoliko se algoritam nalazi u podruju
globalnog minimuma.

Empirijska istraivanja su pokazala da kombinacija genetikih algoritama i deterministikih


metoda puno bre daju dobre rezultate (Sl. D1.).

Takav hibridni algoritam se esto naziva GANN (engl. Genetic Algorithm and Neural
Network).

21

Pogreka

Deterministika metoda

GA

GANN
Broj iteracija

Sl. D1. Brzina nalaenja globalnog minimuma.

Slika D2. prikazuje osnovnu strukturu GANN algoritma.


1. Generiraj poetnu populaciju moguih rjeenja (kromosoma)
1. Generiraj poetnu populaciju moguih rjeenja (kromosoma)

2. Simuliraj neuronsku mreu


2. Simuliraj neuronsku mreu

3. Ui neuronsku mreu koritenjem deterministike metode


3. Ui neuronsku mreu koritenjem deterministike metode

4. Odredi sposobnost svake neuronske mree (kromosoma) u populaciji


4. Odredi sposobnost svake neuronske mree (kromosoma) u populaciji

Nastavi sve dok nije


Nastavi sve dok nije
zadovoljen unaprijed
zadovoljen
unaprijed
odreen uvjet
odreen uvjet

5. Generiraj nove kromosome koristei genetike operatore


5. Generiraj nove kromosome koristei genetike operatore

6. Odbaci nepoeljne jedinke (kromosome) populacije


6. Odbaci nepoeljne jedinke (kromosome) populacije

7. Ukljui nove kromosome u populaciju da se stvori nova populacija


7. Ukljui nove kromosome u populaciju da se stvori nova populacija

Sl. D2. Osnovna struktura GANN.

Za uenje dinamike neuronske mree (npr. "NOE" neuronske mree) na raspolaganju je


MATLAB toolbox-GAOT (engl. Genetic Algorithms for Optimization Toolbox).

You might also like