Capitolul 2

REŢELE NEURONALE ARTIFICIALE
2.1. Consideraţii generale
Reţelele Neuronale Artificiale (RNA) sunt sisteme dinamice de
prelucrare a informaţiei, formate dintr-un număr mare de neuroni
(elemente de prelucrare elementară) puternic interconectaţi
Deşi preocupările privind studiul reţelelor neuronale datează din
anii 19!, interesul pentru acestea cunoaşte o adevărată e"plozie
#ncep$nd cu anii 19%!&
Dintre cele mai importante caracteristici ale RNA se
menţionează'
• Prelucrarea paralelă care permite construirea unor ar(itecturi
deose)it de performante capa)ile să ofere răspunsuri rapide,
#n timp real*
• Învăţarea din exemple a fenomenului pentru care se
antrenează& +rocesul de #nvăţare poate fi supervizat sau
nesupervizat*
• Permit modelarea unor procese complexe ale căror le,i de
funcţionare sunt fie prea complicate, fie nu pot fi
al,oritmizate& +rin urmare, procesul analizat nu tre)uie
descris prin re,uli clare&
• Capacitatea de a asocia datele de intrare cu setul sau
seturile de date de antrenare cu care ”rezonează” cel mai
bine& Această caracteristică asi,ură un comportament )un
c(iar #n condiţiile unor seturi de date de intrare incomplete
sau parţial ,reşite&
• Memorarea distribuită a informaţiei ceea ce asi,ură o
funcţionarea relativ corectă şi #n situaţia #n care anumiţi
neuroni se -defectează.& /iecare neuron participă la formarea
ieşirilor pentru toate seturile de vectori de intrare0antrenare&
Deteriorarea unui anumit neuron #nrăutăţeşte doar #ntr-o mică
măsură funcţionarea ,lo)ală, datorită aportului distri)uit, dat
de toţi ceilalţi neuroni valizi (desi,ur numărul de neuroni
tre)uie să fie suficient de mare)& Acest mecanism al
memorării distri)uite a informaţiei este cel care e"plică şi
funcţionarea corectă de durată a creierului uman, #n care
celulele nervoase ce mor nu afectează funcţia de ,$ndire #n
,eneral şi totodată nu afectează nici noţiunile memorate&
+ornind de la o mulţime reprezentativă de e"emple de instruire, o
RNA construieşte sin,ură al,oritmul pentru rezolvarea unei
pro)leme& Astfel, #ntr-o primă etapă, numită etapa de antrenare, ea
e"tra,e informaţia prezentată #n mulţimea de e"emple, numită
mulţime de antrenare, şi o memorează #n ponderile cone"iunilor
dintre neuroni& 1n faza de lucru reţeaua va folosi informaţia
ac(iziţionată #n etapa de antrenare pentru a trata situaţii de aceeaşi
natură cu cele conţinute #n mulţimea de antrenare&
2apacitatea RNA de a rezolva pro)leme practice comple"e
utiliz$nd o mulţime (uneori restr$nsă) de e"emple, conferă un
potenţial de aplica)ilitate e"trem de lar,&
3pectrul aplicaţiilor cuprinde'
• sisteme informatice de recunoaştere a caracterelor, utilizate
#n trierea corespondenţei*
• sisteme informatice de recunoaştere a semnăturilor, folosite
#n sistemul )ancar*
• sistemele informatice de recunoaştere a vorbirii, utilizate #n
traficul aerian*
• piloţi automaţi*
• sisteme în timp real pentru controlul unor procese
complexe&
2alculul neuronal reprezintă actualmente un domeniu de
cercetare fascinant şi o provocare intelectuală şi te(nolo,ică ma4oră&
RNA au modificat ima,inea noastră asupra proceselor de calcul şi
aspectelor al,oritmice ale inteli,enţei artificiale şi au furnizat
psi(olo,iei un model al proceselor mentale&
2.2. Analogia dintre structura sistemului neros !i reţelele
neuronale arti"iciale
RNA preiau caracteristicile de )ază ale structurii sistemului
nervos uman alcătuit, #n medie, din 1!
1!
51!
11
celule nervoase (fi,&
6&1), numite neuroni, str$ns interconectate, care sunt dispuse pe mai
multe straturi sau niveluri&
N u c l e u
D e n d r i t e
A " o n
3 i n a p s a
+ r o c e s o r
e l e m e n t a r i
+ o n d e r e a
c o n e " i u n i i s i n a p t i c e W i j
+ r o c e s o r
e l e m e n t a r j
( N e u r o n ) i ( 3 i n a p s a ) ( N e u r o n ) j
7 n f o r m a i a
d e i n t r a r
ţ
e 7 e i r e ş 7 e i r e ş
( A " o n )
7 n t r a r e
( D e n d r i t a )
/i,& 6&1& 3tructura celulei nervoase&
2elula nervoasă este constituită din'
• mai multe dendrite ramificate prin care recepţionează diferite
informaţii de la alţi neuroni* acestea constituie intrările #n
celula nervoasă&
• corpul celulei sau nucleul care realizează o prelucrare a
stimulilor
1
,eneraţi de informaţiile primite şi ela)orează
răspunsul*
• un axon 8 o fi)ră unică care transmite răspunsul ela)orat
către alte celule*
• sinapse 8 ramificaţii ale a"onului care realizează le,ături cu
alţi neuroni (a"onul unei celule umane realizează #n medie 1!
9
le,ături sinaptice cu alţi neuroni)&
7mpulsurile prezente la intrarea neuronului #l pot e"cita cea ce
face ca acesta să ,enereze un impuls ce se transmite mai departe spre
neuronii cu care este conectat& :e,ăturile dintre neuroni sunt
ponderate, iar fiecare neuron aplică o transformare asupra impulsului
,enerat #nainte de a-l transmite mai departe&
2.#. $odele ale neuronului arti"icial
2.#.1. Neuronul "ormal
Neuronul formal are o structură asemănătoare neuronului uman&
;l este o unitate elementară de procesare care realizează o operaţie
simplă pe un set de mărimi de intrare, reprezentate prin vectorul
( )
1
,&&& ,&&&
T
i n
x x x · % , pentru a produce o mărime de ieşire j
y
&
7ntrările unui neuron artificial oarecare j sunt alcătuite din
semnalele venite de la alţi neuroni sau din mediul #ncon4urător şi sunt
reprezentate, #n ,eneral, prin numere reale& /iecare intrare
i
x are
asociată o valoare reală , j i
w
, numită pondere sinaptică, care are rolul
de a pondera semnalul de intrare& Dacă ,
!
j i
w >
atunci ponderea este
e"citatoare, iar dacă ,
!
j i
w <
atunci ponderea este in(i)itoare&
1
3timul 8 2uv$nt de ori,ine latină (.stimulus.)& Defineşte un factor e"terior care
determină e"citaţia (activarea) de scurtă durată a unui or,an sau a unei funcţii
)iolo,ice, care declanşează un proces fiziolo,ic& 1n conte"tul reţelelor neuronale
artificiale prin stimul se va #nţele,e informaţia recepţionată de către neuronul
artificial (unitatea de procesare) prin una din cone"iunile de intrare&
<ectorul ponderilor
( ) ,1 , ,
,&&& ,&&&
T
j j j i j n
w w w · & reprezintă .memoria.
neuronului, iar corpul acestuia este constituit dintr-un sumator, un
pra, de activare j
T
şi o funcţie de activare j
f
(fi,& 6&6)&
/ u n c ţ i a
d e a c t i v a r e
Σ
y
j
x
1
x
i
x
n
x = -
n + 1
1
w
1 , j
w
i , j
w
n , j
w = T
n + , j j 1
n e t - T
j j
2 o r p u l n e u r o n u l u i j
/i,& 6&6& 3tructura neuronului formal&
3tarea neuronului se actualizează periodic după următorul
mecanism'
1& se determină potenţialul neuronal j
net
, denumit şi starea
internă sau activarea totală, ca fiind suma ponderată a intrărilor
i
x , adică
,
1
n
T
j j i i
i
net w x
·
· ·

& %
(6&1)
6& se compară potenţialul neuronal j
net
cu pra,ul de activare al
neuronului j
T
, adică se calculează diferenţa'
j j
net T −
(6&6)
9& asupra e"presiei (6&6) se aplică o funcţie de activare j
f
rezult$nd
valoarea ieşirii neuronului respectiv'
( )
j j j j
y f net T · −
Dacă se consideră
!
j
T ·
, atunci ( )
j j j
y f net ·
&
1n ,eneral, pra,ul de activare este nenul şi poate fi #ncorporat #n
vectorul ponderilor consider$nd o intrare suplimentară
1
1
n
x
+
· −
căreia i se asociază ponderea , 1 j n j
w T
+
·
&
/uncţiile de activare pot fi liniare sau neliniare (fi,& 6&9)&
a . b . c . d . e .
F ( ) x F ( ) x F ( ) x F ( ) x F ( ) x
n e t n e t n e t n e t n e t
1
!
1
!
1
!
1
!
1 - 1
- 1
! , =
> γ
- γ
f x ( )
f x ( ) f x ( ) f x ( ) f x ( )
7dentitate
( ) f x x ·
?reaptă
( )
1, !
!, !
x
f x
x
≥ ¹
·
'
<
¹
Rampă 3i,moid
( )
1
1
x
f x
e
−α
·
+
( )
( ) t(
x x
x x
e e
f x
e e
x
α − α
α − α

· ·
+
· α
/i,& 6&9& ?ipuri de funcţii de transfer&
• /uncţia de activare liniară este de forma
( ) f x ax b · +
Dacă 1 a · şi ! b · se o)ţine funcţia de activare identitate (fi,&
6&9, a)&
• /uncţia de activare treaptă (fi,& 6&9, b)
( )
1 daca !
! daca !
x
f x
x
≥ ¹
·
'
<
¹
• /uncţia de activare rampă (fi,& 6&9, c), constituie o com)inaţie
#ntre funcţiile liniară şi treaptă&
( ) [ ]
! daca
1 1
daca ,
6 6
1 daca
x
f x x x
x
¹ < −γ
¹
¹
· + ∈ −γ γ
'
γ
¹
¹
> γ
¹
(6&,c)
1n principiu, funcţia rampă sta)ileşte limitele ma"imă şi minimă
pentru ieşirea neuronului, asi,ur$nd o variaţie liniară #ntre acestea pe
intervalul [ ] , −γ γ &
• /uncţia de activare sim!id corespunde unor forme netezite ale
funcţiei rampă& /uncţiile si,moid, denumite astfel după forma #n 3 a
reprezentării lor ,rafice, sunt funcţii continue, deriva)ile şi monotone
pe #ntre, intervalul de definiţie& Aceste proprietăţi sunt esenţiale
dacă se doreşte aplicarea unor al,oritme de #nvăţare performante şi
eficiente& 2ele mai răsp$ndite funcţii si,moid sunt'
− sim!idul l!istic (fi,& 6&9, d), numit şi si,moid unipolar, care
ia valori #n intervalul (!, 1)*
( )
1
1
x
f x
e
−α
·
+
(6&,d)
− sim!idul tanent "iperb!lic (fi,& 6&9, e), numit şi si,moid
)ipolar, care ia valori #n intervalul (-1, 1)&
( ) ( ) t(
x x
x x
e e
f x x
e e
α −α
α −α

· · α
+
(6&,e)
1n concluzie, funcţionarea unui neuron j, văzut ca element de
procesare #n intervale discrete de timp, este descrisă de relaţiile'
( ) ( )
,
1
n
T
j j i i j j j
i
T
j j j j j j
net w x T T
y f net f T
·
· − · −
· · −

& %
& %
unde' [ ]
1
,&&&, ,&&&
T
i n
x x x · % este vectorul de intrare*
j
T
8 pra,ul corespunzător neuronului*
j
f
8 funcţia de activare (treaptă, si,moid etc&)&
Modelul McCullochPitts 'MCP(, reprezintă primul model
formal al neuronului şi a fost propus de către @& Ac2ulloc( şi 3&
+itts #n anul 199& 1n cadrul acestui model, at$t intrările, c$t şi ieşirea
sunt de tip )inar, iar funcţia de activare este funcţia treaptă&
+rin urmare, funcţionarea A2+ este descrisă de relaţiile'
( )
1
1, !
!, altfel
n
i i
i
net w x T
net
y f net
·
· −
≥ ¹
· ·
'
¹

!bs& /iind vor)a de un sin,ur neuron s-a renunţat la indicele j
care-l desemnează&
Acest model are meritul istoric că a pus #n evidenţă o structură
simplă, la care relaţia funcţională intrare-ieşire este codificată su)
forma unor valori numerice corespunz$nd ponderilor& :a acea dată
răm$nea #nsă desc(isă pro)lema sta)ilirii unui al!ritm de antrenare
pentru determinarea valorilor acestor ponderi&
2.#.2. Neuronul clasi"icator sau )erce)tronul
+ornind de la modelul A2+, psi(olo,ul Rosen)latt a introdus, #n
anul 19=%, noţiunea de perceptron sau neuron clasificator&
+erceptronul este asemănător neuronului A2+ (fi,& 6&) şi a fost
dezvoltat din dorinţa de a modela funcţia de percepţie vizuală a
retinei&
Σ
y
j
x
1
x
i
x
n
x = -
n + 1
1
1
w
1
w
i
w
n
w = T
n + 1 j
n e t - T
j j
/i,& 6&& Aodelul perceptronului&
;cuaţiile de funcţionare ale perceptronului sunt ecuaţiile (6&B) ale
modelului A2+& Deose)irea provine din faptul că de această dată
intrările sunt valori reale şi nu valori )inare de tipul 1 sau !& /uncţia
de activare este tot de tipul treaptă şi, prin urmare, ieşirea este )inară&
;voluţia perceptronului este descrisă de'
( )
1
1, !
!, altfel
n
T
i i
i
net w x T
net
y f net
·
· · −
≥ ¹
· ·
'
¹

& %
(6&C)
#n care'
( )
1
1 1
,&&& ,&&& , 1
T n
i n n
x x x x #
+
+
· · − ∈ % este vectorul de intrare e"tins
care include şi intrarea aferentă pra,ului'
( )
1
1 1
,&&& ,&&& ,
T n
i n n
w w w w T #
+
+
· · ∈ & - vectorul ponderilor e"tins
care include şi pra,ul T
;cuaţia
!
T
net · · & % (6&%)
este ecuaţia unui (iperplan care #mparte spaţiul vectorilor (punctelor)
de intrare #n două re,iuni de decizie& Astfel, vectorii aflaţi #n partea
pozitivă caracterizaţi de
!
T
net · > & % (6&9)
aparţin clasei A, iar vectorii situaţi #n partea ne,ativă caracterizaţi de
!
T
net · < & % (6&1!)
aparţin clasei D&
+entru a dezvolta modelul matematic şi al,oritmul de
instruire0antrenare, se efectuează o normalizare de semn a vectorilor
de intrare not$nd'
daca
daca
$
%
∈ ¹
·
'
− ∈
¹
% %
*
% %
(6&11)
1n aceste condiţii, (iperplanul !
T
net · · & * corespunzător
ecuaţiei (6&%) separă clasele A şi D dacă şi numai dacă e"istă
ine,alitatea'
!
T
$ % > ∀ ∈ ∪ & * * (6&16)
"efiniţie' Dacă pentru două clase de o)iecte reprezentate prin
vectori din spaţiul
n
#
e"istă un (iperplan de separare,
atunci cele două clase se numesc liniar separa)ile&
De e"emplu, pentru nE6 ecuaţia
1 1 6 6
!
T
w x w x T · + − · & *
defineşte o dreaptă #n planul ( )
1 6
, x x care-l #mparte #n două re,iuni
de decizia A şi D (fi,& 6&=)&
2 l a s a $
x
1
x
6
2 l a s a %
D r e a p t a d e
d e c i z i e
/i,& 6&=& 3epararea planului #n zone de decizie&
+ro)lema care se pune constă #n ,ăsirea unui al,oritm de
#nvăţare care să determine vectorul ponderilor & astfel #nc$t
frontiera să a4un,ă să separe corect elementele celor două clase& 2u
alte cuvinte, ieşirea neuronului să fie y E1 sau y E!, după cum
intrarea aparţine clasei A sau clasei +&
Răspunsul la această pro)lemă a fost dat, #ntr-o primă etapă, de
către Rosen)latt& Al,oritmul propus de acesta, cunoscut su)
denumirea de al#oritmul standard de antrenare a perceptronuli,
modifică valorile ponderilor ori de c$te ori la intrarea reţelei este
prezentată o confi,uraţie (formă sau pattern) incorect clasificată&
+rocedura de instruire este o metodă iterativă de #nvăţare
supervizată care are ca o)iectiv minimizarea distanţelor punctelor
eronat clasificate faţă de (iperplanul de separare&
3e consideră că mulţimea de antrenare, numită şi mulţimea de
e"emple, este constituită din m perec(i de forma '
( ) ( ) ( )
1 1
, ,&&&, , ,&&&, ,
& & m m
d d d * * *
#n care d& este răspunsul corect, adică'
1
!
&
&
&
daca $
d
daca %
∈ ¹
·
'

¹
*
*
Notăm cu ( ) ' & mulţimea vectorilor (punctelor) din setul de
antrenare clasificaţi eronat de către vectorul pondere & curent, adică'
{ }
( ) 0 !
T
' · < & * & * (6&19)
Dacă ( )
&
' ∈ * & , atunci eroarea de clasificare
&
e este dată de
distanţa punctului corespunzător vectorului
&
* , la (iperplanul de
decizie $ definit de ecuaţia'
!
T
· & *
(6&1)
adică
( , )
& &
e ( ) · * (6&1=)
!bservaţii%
1& 3e reaminteşte faptul că ecuaţia unui (iperplan oarecare F, care
trece prin punctul
!
* şi este perpendicular pe vectorul U este'
( )
!
!
T
− · U * * (6&1B)
6& 1n ipoteza că 1 · U , distanţa de la punctul corespunzător unui
vector oarecare
G
*
la (iperplanul F este dată de'
( )
G G
!
, ( )
T
( ) * * · − * U (6&1C)
2ompar$nd relaţia (6&1) cu (6&1B) rezultă că (iperplanul de
separare $ trece prin ori,ine şi este perpendicular pe vectorul
ponderilor& +rin urmare, #n ipoteza că 1 · & , eroarea de clasificare,
definită de relaţia (6&1=), este'
( ) ( , ) !
T T T
& & & & &
e ( ) · · − · · − * & * & * & * (6&1%)
1n sta)ilirea formei finale a relaţiei (6&1%) s-a ţinut seama de
faptul că ( )
&
' ∈ * & , adică !
T
&
< & *
1n concluzie, scopul al,oritmului de antrenare este de a
determina vectorul ponderilor & pentru care suma'
( )
( )
T
'
+

· −

*
& & *
(6&19)
este minimă&
Deoarece
( )
1
1 1
,&&& ,&&& ,
T n
i n n
w w w w T #
+
+
· · ∈ & , rezultă că'
1
'
n
+ # #
+


iar pentru determinarea minimului se foloseşte o metodă de ,radient&
Astfel, pornind de la o estimare iniţială
!
& a vectorului ponderilor
se ,enerează un şir de vectori
1 6
, ,&&&, ,&&&
t
& & & folosind relaţia de
recurenţă'
1 t t t +
· + ∆ & & & (6&6!)
#n care
t t
η ∆ · & , (6&61)
sunt corecţiile la pasul t&
1n relaţia (6&61), specifică metodelor de ,radient,
η
este o
valoare pozitivă, numită rata sau viteza de #nvăţare, care reprezintă
mărimea deplasării faţă de
t
& #n direcţia dată de
t
, & 1n cazul unei
pro)leme de minimizare, direcţia de deplasare este direcţia de
co)or$re, adică direcţia contrară ,radientului& +rin urmare'
( )
( )
t
t
+
+
·

· −∇ · −

& &
&
, &
&
(6&66)
Av$nd #n vedere că
( )
( )
T
'
+

· −

*
& & *
şi ţin$nd cont de re,ula
de derivare a produsului scalar
( )
T

·

% - -
%
, rezultă că'
( )
( )
t t
t
'
+
+ c
∈ ·

· −∇ · − ·


* & &
&
, *
&
(6&69)
#n care
{ }
0 !
T
t t
' · < * & * este mulţimea vectorilor0punctelor
clasificate eronat de către vectorul curent al ponderilor
t
& &
1n concluzie, corecţiile ponderilor sunt direct proporţionale cu
vectorii clasificaţi eronat&
+entru a simplifica al,oritmul, la fiecare pas se consideră toate
e"emplele din mulţimea de antrenare şi se modifică ponderile doar #n
cazul e"emplelor clasificate eronat conform următoarelor re,ului'
(i) dacă pentru un e"emplu ( ) ,
& &
d % perceptronul se activează
c$nd ar tre)ui să răm$nă inactiv, adică dacă 1
&
y · şi !
&
d · ,
atunci se reduc ponderile cu o valoare proporţională cu
&
% *
(ii) dacă pentru un e"emplu ( ) ,
& &
d % perceptronul nu se
activează deşi ar tre)ui să o facă, adică dacă !
&
y · şi 1
&
d · ,
atunci se cresc ponderile cu o valoare proporţională cu
&
% &
3intetiz$nd cele două re,uli rezultă următoarea e"presie ,enerală
pentru corecţia ponderilor'
( )
t & & &
d y η ∆ · − & % (6&6)
iar relaţia (6&6!) devine
( )
1 t t & & &
d y η
+
· + − & & % (6&6=)
adică'
( )
, 1 , ,
1,
i t i t & & & i
w w d y x i n η
+
· + − · (6&6B)
respectiv
( )
1, 1 1 , 1 n t t t & & & n
w T T d y x η
+ + + +
· · + − (6&6C)
!bservaţii%
1& Dacă
& &
d y · , adică e"emplul a fost clasificat corect, atunci
conform relaţiei (6&6) ponderile nu se modifică&
6& 1n teoria dezvoltată
1
1
n
x
+
· − şi, #n conformitate cu relaţia (6&6C)
pra,ul se modifică adău,$nd sau scăz$nd pe
η
la valoarea
anterioară& 1n unele variante ale al,oritmului corecţia pra,ului se
face cu o cantitate proporţională cu valoarea lui, #n sensul sta)ilit
de re,ulile anterioare, adică'
( ) ( ) ( )
1
1
t t & & t & & t
T T d y T d y T η η
+
· + − · + − (6&6%)
9& <iteza de #nvăţare ( ) !,1 η ∈ & H valoare prea mare a lui
η
poate
conduce la omiterea unui vector de ponderi corect, #n timp ce o
valoare prea mică poate mări e"cesiv timpul de calcul&
& 2iclul de operaţii care vizează parcur,erea tuturor e"emplelor #n
vederea modificării ponderilor poartă numele de epocă&
=& 1n cazul #n care mulţimea de antrenare este constituită dintr-un
număr de e"emple liniar separa)ile, al,oritmul de antrenare al
perceptronului este conver,ent #ntr-un anumit număr de epoci,
adică va identifica un vector al ponderilor care clasifică corect
toate e"emplele&
&l#oritmul de antrenare al perceptronului
,asul 1' 7niţializează ponderile ( ,! i
w
) şi valoarea pra,ului de activare
!
T la momentul ! t · cu valori aleatoare mici, de o)icei #n
intervalul I-!,1* !,1J&
,asul 6' 3electează valoarea vitezei de #nvăţare ( ) !,1 η ∈
,asul 9' ?estează conver,enţa&
.AC/
toate e"emplele au fost clasificate corect, adică
1,
& &
y d & m · ∀ · , respectiv -!nt!r.+r!areE!
ATUNCI
3top
ALTFEL
3etează -!nt!r.+r!areE! şi trece la pasul
,asul ' +entru fiecare e"emplu 1, 6,&&&, & m · repetă
&1& 2alculează ieşirea reală ,enerată de perceptron
, ,
1
n
T
& t t & i t i t
i
y w x T
·
· · −

& %
&6& 2ompară
, & t
y
cu
&
d
.AC/
, & t &
y d ≠
ATUNCI
7ncrementează -!nt!r.+r!are şi modifică ponderile,
respectiv pra,ul conform relaţiilor'
( )
, 1 , ,
1,
i t i t & & & i
w w d y x i n η
+
· + − ·
( ) ( ) ( )
1
1
t t & & t & & t
T T d y T d y T η η
+
· + − · + −
,asul =' Repetă de la pasul 9
'xemplu
3e consideră perceptronul cu trei intrări şi setul de = e"emple
prezentate #n fi,ura 6&B& +entru acest perceptron se ale, aleator
valorile iniţiale ale ponderilor' 1,!
!,1 w ·
* 6,!
!,1 w ·
* 9,!
!,1 w ·
, valoarea
de pra, !
!, !6 T ·
şi valoarea vitezei de #nvăţare
!, = η ·
&
! , 1

! , 1

! , 6

i e i r e ş

! , 6
! ,
! , 9
! , =
! , 1
! ,
! , 9
! , =
! , 1
! , 9
! ,
! , =
!
!
1
1
1
x
1
x
1
w
1
w
6
w
9
x
6
x
6
x
9
x
9
?
7 e i r e ş

/i,& 6&B& ;"emplu de perceptron şi mulţimea de antrenare&

+entru e"emplul 1 ieşirea perceptronului se determină astfel'
( ) ( )
9
,! !
1
1
!,1 !,1 !,1 !,1 !,1 !, 6 !, !6 !, !6
!, !6 1
i i
i
net w x T
y f net f
·
· − · × + × + × − ·
· · ·

Deoarece ieşirea furnizată de perceptron
1
1 y · , este diferită de
cea dorită
1
1 d · , e"emplul este clasificat ,reşit, iar ponderile vor fi
modificate conform relaţiilor'
[ ]
[ ]
[ ]
[ ]
1,1 1,! 1 1 1
6,1 6,! 1 1 6
9,1 9,! 1 1 9
1 ! 1 1 !
!,1 !, != !, !=
!,1 !, != !, !=
!, !1 !, !1 !
!, !6 !, !1 !, !1
w w d y x
w w d y x
w w d y x
T T d y T
· + η× − × · − ·
· + η× − × · − ·
· +η× − × · − ·
· + η× − × · − ·
+entru e"emplul 6 ieşirea perceptronului este'
( )
9
6 ,1 1
1
!, !!= 1
i i
i
y f w x T f
·
¸ _
· − · ·
÷
¸ ,

Deoarece aceasta este diferită de cea dorită
6
! d · , e"emplul
este clasificat ,reşit şi, prin urmare, ponderile vor fi modificate
rezult$nd'

( ) [ ]
( ) [ ]
( ) [ ]
[ ]
1,6 1,1 6 6 1
6,6 6,1 6 6 6
9, 6 9, 6 6 6 9
6 1 6 6 1
1 !, != !,1 !, !=
1 !, != !, != !
1 ! !, != !, !=
!, !1 !, !!= !&!!=
w w d y x
w w d y x
w w d y x
T T d y T
· + η× − × · − · −
· + η× − × · − ·
· + η× − × · − · −
· + η× − × · − ·
1n mod similar, pentru e"emplul 9 ieşirea perceptronului este'
( )
9
9 ,6 6
1
!, ! !
i i
i
y f w x T f
·
¸ _
· − · − ·
÷
¸ ,

Deoarece aceasta este diferită ieşirea dorită
9
1 d · , e"emplul
este clasificat ,reşit, iar ponderile vor fi modificate astfel'
( ) [ ]
( ) [ ]
( ) [ ]
[ ]
1,9 1,6 9 9 1
6,9 6,6 9 9 6
9,9 9,6 9 9 9
9 6 9 9 6
6 !, != !&6 !,1=
6 ! !, 6 !, 6
6 !, != !,1= !,1
!, !!= !&!!6= !, !!C=
w w d y x
w w d y x
w w d y x
T T d y T
· + η× − × · − + ·
· + η× − × · + ·
· + η× − × · − + ·
· + η× − × · + ·
+entru e"emplul , ieşirea perceptronului este'
( )
9
,9 9
1
!,19C= 1
i i
i
y f w x T f
·
¸ _
· − · ·
÷
¸ ,

Deoarece aceasta este identică cu cea dorită

1 d · , e"emplul
este clasificat corect, iar ponderile nu se modifică& +rin urmare'
[ ]
[ ]
[ ]
[ ]
1, 1,9 1 1,9
6, 6,9 6 6,9
9, 9,9 9 9,9
9 9 9
!,1=
!, 6
!,1
!, !!C=
w w d y x w
w w d y x w
w w d y x w
T T d y T T
· + η× − × · ·
· + η× − × · ·
· + η× − × · ·
· + η× − × · ·
+entru e"emplul =,ieşirea perceptronului rezultă'
( )
9
= ,
1
!, 61C= 1
i i
i
y f w x T f
·
¸ _
· − · ·
÷
¸ ,

1ntruc$t aceasta este identică cu cea dorită
=
1 d · , e"emplul este
clasificat corect, iar ponderile nu se modifică& +rin urmare'
[ ]
[ ]
[ ]
[ ]
1,= 1, 1 1,
6,= 6, 6 6,
9,= 9, 9 9,
=
!,1=
!, 6
!,1
!, !!C=
w w d y x w
w w d y x w
w w d y x w
T T d y T T
· + η× − × · ·
· + η× − × · ·
· + η× − × · ·
· + η× − × · ·
1n acest stadiu s-a #nc(eiat o epocă dar, pentru că nu toate
e"emplele au fost clasificate corect, se reia procesul de modificare al
ponderilor, adică se efectuează un nou ciclu& +rocesul se repetă p$nă
c$nd toate e"emple sunt clasificate corect&
 Limitele )erce)tronului
1n numeroase pro)leme concrete de clasificare intervin clase de
o)iecte care nu sunt liniar separa)ile& +rin urmare, utilizarea
perceptronului ca atare este sever limitată& H analiză a limitărilor
perceptronului a fost efectuată de cercetătorii AinsKL şi +apert #n
19B9& ;i furnizează cele)rul e"emplu care evidenţiază limitările
perceptronului şi anume pro)lema #nvăţării ta)elei de adevăr a
funcţiei lo,ice /0# (ta)elul 1)&
?a)elul 1& /uncţia lo,ică /0#

1 6
! ! !
! 1 1
1 ! 1
1 1 !
x x /0#
2onsider$nd un perceptron cu două intrări (fi,& 6&C) şi funcţia de
activare standard
1 daca - !
! daca - !
net T
y
net T
≥ ¹
·
'
<
¹
(6&6%)
al,oritmul de antrenare nu va putea determina valorile
1
w ,
6
w şi T
astfel #nc$t ieşirea perceptronului să furnizeze valorile funcţiei /0#&
w
1
x
1
x
6
w
6
T
y
/i,& 6&C& 3tructura perceptronului cu două intrări
1ntr-adevăr, reprezent$nd #n plan cele patru puncte
corespunzătoare celor patru vectori de intrare posi)ili ai
perceptronului se o)servă că nu e"istă nici o dreaptă av$nd ecuaţia'
1 1 6 6
! w x w x T + − · (6&69)
care să separe cele două clase de o)iecte (cele a căror ieşire este 1,
respectiv cele care au ieşirea !)&
+entru a putea să rezolve pro)lema, reţeaua neuronală artificială
ar tre)ui să realizeze separarea planului #n trei re,iuni de decizie (fi,&
6&%)&
( ! , ! )
( ! , 1 )
( 1 , 1 )
( 1 , 1 )
R
i e ş i r e a 1
1
#
6
i e ş i r e a !
#
6
i e ş i r e a !
x
1
x
6
/i,& 6&%& 3epararea planului #n re,iuni de decizie multiplă
H astfel de partiţionare poate fi realizată folosind o reţea cu mai
multe straturi denumită perceptronul multistrat sau multi la(er
perceptron M)P #n terminolo,ia en,lezească&
2.0. 1tructuri ale RNA
2.0.1. 1tructura general2 !i clasi"ic2ri ale RNA
2ele prezentate #n para,raful precedent evidenţiază faptul că
limitele perceptronului nu sunt datorate al,oritmului de instruire, ci
structurii foarte simple a acestuia, care asi,ură doar #mpărţirea
spaţiului intrărilor #n două semiplane& +rin urmare, utilizarea RNA #n
rezolvarea pro)lemelor reale necesită creşterea comple"ităţii
topolo,iei acestora&
1n ,eneral RNA sunt formate din neuroni (structuri elementare
de procesare) le,aţi prin c!nexiuni sinaptice (căile de transmitere a
informaţiei #ntre neuroni caracterizate de anumite p!nderi) or,anizaţi
pe straturi succesive& 1n fi,ura 6&9 este prezentată structura tipică a
unei RNA cu patru straturi&
y
1
y
m
x
6
x
1
x
n
7 n t r r i ă
7 e i r i ş
3 t r a t u l a s c u n s
3 t r a t u r i a s c u n s e
3 t r a t u l d e
i n t r a r e
3 t r a t u l d e
i e ş i r e
&
& & &
&
& & &
&
& & &
/i,& 6&9& Ar(itectura tipică a unei RNA&
+rimul strat, numit stratul de intrare, este format din neuroni
liniari care nu realizează nici un proces de calcul& Rolul lui este acela
de a diri4a componentele
1
,&&&, ,&&&,
i n
x x x ale vectorului de intrare %
către neuronii de calcul din primul strat& Mltimul strat de prelucrare
este stratul de ieşire şi poate fi constituit din unul sau mai mulţi
neuroni& 1n ,eneral, topolo,ia unei reţele neuronale poate cuprinde
unul sau mai mute straturi intermediare, numite şi straturi ascunse&
:e,ăturile dintre straturile RNA se realizează prin cone"iuni
sinaptice p!nderate& 1n cazul structurii prezentată #n fi,& 6&9 fiecare
neur!n dintr-un strat este leat cu t!ţi neur!nii din stratul următ!r şi
e"istă le,ături doar #ntre straturile consecutive H astfel de structură se
numeşte c!mplet c!nectată şi corespunde clasei de RNA numită
A:+ (Aulti :aLer +erceptron), adică perceptronul multistrat&
3tructura RNA este descrisă complet de matricele p!nderil!r
c!nexiunil!r dintre două straturi consecutive, ale căror elemente
indică influenţa pe care ieşirea neuronului i din stratul inferior o are
asupra activării neuronului j din stratul următor& 2a şi in cazul
perceptronului clasic, ponderile pozitive au caracter e"citatoriu,
ponderile ne,ative au caracter in(i)itoriu, iar ponderile nule indică
a)senţa cone"iunii #ntre cei doi neuroni& ;vident, cu c$t valoarea
a)solută a ponderii este mai mare, cu at$t influenţa neuronului i
asupra neuronului j este mai pre,nantă&
Ansam)lul ponderilor constituie memoria RNA, adică parametrii
ce caracterizează, #ntr-o manieră a)solută, procesul modelat de
reţeaua neuronală artificială& +rin urmare, antrenarea reţelei necesită
o strateie de ajustare a ponderilor, respectiv un al,oritm de
antrenare sau #nvăţare #n cadrul căruia se prezintă reţelei neuronale un
număr de exemple formate din perec(i (intrare 8 ieşire dorită), ale
căr!r atribute sunt cun!scute şi reprezentative pentru procesul
modelat& Acestea formează mulţimea de antrenare&
3tructura prezentată #n fi,ura 6&9, prezintă următoarele
proprietăţi, specifice unei lar,i cate,orii de reţele neuronale'
(i) fiecare neuron acţionează independent de ceilalţi neuroni
din acelaşi strat (ieşirea neuronului depinde numai de
semnalele ce se aplică pe cone"iunile sale sinaptice de
intrare)*
(ii) activarea fiecărui neuron depinde numai de inf!rmaţii cu
caracter l!cal (informaţia prelucrată de neuron provine
numai de pe cone"iunile adiacente, nefiind necesară
cunoaşterea stărilor neuronilor care nu au le,ături directe
cu neuronul considerat)*
(iii) numărul mare de c!nexiuni e"istente asi,ură un ,rad
ridicat de rezervare şi uşurează reprezentarea distri)uită a
informaţiei&
+rimele două proprietăţi permit funcţi!narea eficientă a RNA 1n
paralel, iar ultima proprietate le conferă ! sensibilitate redusă faţă
de p!sibilele perturbaţii, respectiv calităţi de enerali2are ,reu de
o)ţinut cu sistemele clasice de calcul&
Clasi"icarea reţelelor neuronale poate fi făcută pe )aza mai
multor criterii care ţin cont de tipul parametrilor de intrare, modul de
#nvăţare, e"istenţa le,ăturilor de reacţie inversă, numărul de straturi
etc&
$3 -lasificarea #4$ 1n funcţie de tipul parametril!r de intrare
1n funcţie de tipul parametrilor de intrare reţelele neuronale sunt'
• reţele cu intrări binare5
• reţele cu intrări reale* #n acest caz, valorile parametrilor de
intrare tre)uie mapate (scalate) #n domeniul I-1, 1J&
-lasificarea reţelel!r neur!nale pe ba2a m!dului de 1nvăţare
:e,ea de #nvăţare a unei RNA este o relaţie care specifică modul
#n care se modifică toate sau numai o parte din ponderile unui neuron
ca răspuns la semnalele de intrare şi valorile furnizate de funcţia de
activare0transfer& Această relaţie permite reţelei să #nveţe, adică să se
adapteze la e"emplele furnizate, or,aniz$ndu-şi informaţia privind
topolo,ia şi ponderile care se modifică #n mod dinamic pe parcursul
procesului de #nvăţare&
1n funcţie de modul de #nvăţare se distin, două tipuri de reţele
neuronale'
• reţele neuronale artificiale cu învăţare supervizată*
• reţele neuronale artificiale cu învăţare nesupervizată&
1n cazul instruirii supervizate reţeaua prime6te at7t datele
(vect!rii) de intrare dintr-un set sau mulţime de instruire, c7t 6i
datele de ie6ire c!respun2ăt!are (răspunsuri c!recte sau răspunsuri
d!rite)& După fiecare e"emplu, reţeaua compară propria-i ieşire cu
răspunsurile corecte, corectează diferenţele şi #ncearcă din nou,
proced$nd #n mod iterativ p$nă c$nd eroarea răspunsului de ieşire
a4un,e su) nivelul impus& Aetoda de antrenare supervizată mai
poartă denumirea de 1nvăţare neadaptivă&
1n cazul instruirii nesupervizate, reţeaua dispune de datele de
intrare, dar nu mai prime6te nici ! inf!rmaţie privind ie6irea c!rectă&
1n sc(im), după fiecare #ncercare i se dă o notă 8 un scor de
performanţă 8 care cuantifică corectitudinea rezultatului& Reţeaua se
or,anizează numai #n funcţie de intrare, deci se autoor,anizează,
,rup$nd setul de vectori de antrenare #n zone (clustere) pe )aza unui
concept de similitudine& Din această cauză, instruirea nesupervizată
mai poartă denumirea de aut!!rani2are sau 1nvăţare adaptivă&
8e menţi!nea2ă faptul că 1nvăţarea nesupervi2ată este calitativ
superi!ară 1nvăţării supervi2ate3
+e )aza celor două criterii menţionate 8 tipul parametrilor de
intrare şi modul de #nvăţare se poate realiza clasificarea prezentată #n
fi,ura 6&1!& #n care se evidenţiază şase dintre modelele RNA mai des
#nt$lnite&
R e e a
F o p f i e l d
ţ R e e a
F a m m i n ,
ţ
2 l a s i f i c a t o r
2 a r p e n t e r -
N r o s s ) e r ,
+ e r c e p t r o n
+ e r c e p t r o n
m u l t i n i v e l
R e e l e
O o ( o n e n
ţ
1 n v a r e
s u p e r v i z a t
ă ţ
ă
1 n v a r e
n e s u p e r v i -
z a t
ă ţ
ă
1 n v a r e
n e s u p e r v i -
z a t
ă ţ
ă
1 n v a r e
s u p e r v i z a t
ă ţ
ă
7 n t r r i
) i n a r e
ă
7 n t r r i
r e a l e
ă
R e e l e n e u r o n a l e a r t i f i c i a l e ţ
/i,& 6&1!& 2lasificarea RNA&
Reţelele cu #nvăţare supervizată, cum ar fi reţeaua Fopfield şi
perceptronii sunt utilizate mai ales ca memorii asociative sau ca
structuri de clasificare& Reţelele cu #nvăţare nesupervizată, cum ar fi
(ărţile cu auto-or,anizare Oo(onen, sunt folosite mai ales pentru
formarea confi,uraţiilor de memorii asociative&
Această clasificare este departe de a indica toate modelele
neuronale e"istente, clasificarea făc$ndu-se şi pe )aza altor criterii&
-lasificarea #4$ pe ba2a leăturil!r de reacţie inversă
Mn al treilea criteriu de clasificare se referă la existenţa sau
absenţa leăturil!r de reacţie inversă #ntre neuronii din diversele
straturi ale reţelei& Astfel, se distin, patru tipuri de RNA'
• RNA ne3uclate (reţele feedforPard)& 1n asemenea reţele
inf!rmaţia circulă 1ntr-un sinur sens, de la intrare către ie6ire& :a
un moment dat, starea unui neuron depinde numai de starea din
acelaşi moment a neuronilor de la care primeşte semnale (fi,& 6&11,
a)& RNA ne)uclate sunt structuri statice, folosite cu precădere pentru
rezolvarea unor pro)leme de clasificare sau de identificare a
proceselor statice& Din această cate,orie fac parte reţelele de tipul
perceptr!n multistrat, a cărei ar(itectură a fost prezentată anterior&
j
&
j
&
a .
b .
i
i
+
+
,
,
/i,& 6&11& 2lasificarea reţelelor neuronale pe )aza
e"istenţei0ine"istenţei reacţiei inverse'
a 8 RNA ne)uclate (feedforPard)* b 8 RNA )uclate (feed)acK)&
• RNA 3uclate (reţele feed)acK) sunt acele reţele ale căror
,rafuri de cone"iuni conţin cicluri* circulaţia inf!rmaţiei are loc de
această dată 1n ambele sensuri (intrare-ieşire, respectiv ieşire-intrare),
astfel #nc$t starea neuronilor la un moment dat este determinată de
starea curentă şi de starea la momentul anterior (fi,& 6&11, b)& +rin
urmare, RNA )uclate au proprietăţile unor sisteme dinamice* ele sunt
utilizate ca memorii asociative şi pentru identificarea sau controlul
sistemelor dinamice& Mn e"emplu de reţea )uclată #l constituie
reţelele Fopfield&
• RNA de ti) mi4t este o reţea ce foloseşte at$t le,ături
feedforPard c$t şi le,ături feed)acK& H reţea (i)ridă, care foloseşte
at$t le,ături feedforPard c$t şi le,ături feed)acK este reţeaua
Fammin, &
• RNA de ti) celular ')las2( constau din neuroni artificiali
numiţi celule, or,anizaţi #ntr-o plasă )idimensională, neuroni care
comunică direct doar cu alţi neuroni aflaţi #n imediata vecinătate a
lor& Neuronii neconectaţi se pot influenţa unul pe celălalt indirect din
cauza propa,ării semnalelor #n timpul procesului de antrenare& Mn
e"emplu de astfel de reţea este reţeaua Oo(onen&
-lasificarea #4$ pe ba2a numărului de straturi ascunse
Mn alt criteriu de clasificare a RNA are #n vedere numărul de
neur!ni din reţea& Din acest punct de vedere se distin,'
• RNA cu un singur strat& 1n acest caz stratul unic 4oacă rol
du)lu intrare-ie6ire3 ?otodată, a)senţa altor straturi impune ca aceste
RNA să ai)ă o t!p!l!ie buclată& 1n această cate,orie se #nscriu
reţelele Fopfield, precum şi variante ale acestora, care se deose)esc
#n funcţie de modul de conectare a neuronilor& Reţele cu un sin,ur
strat sunt folosite pentru completarea modelelor, filtrarea unor
semnale sau rezolvarea unor pro)leme de optimizare*
• RNA cu dou2 straturi. 1n acest caz, primul strat este stratul de
intrare, iar al doilea cel de ieşire, nee"ist$nd un strat ascuns& Reţelele
din această cate,orie sunt folosite cu precădere ca reţele
clasificat!are3 1n funcţie de topolo,ia lor, se distin, RNA
feedforPard (fi,& 6&16) şi RNA (i)ride feedforPard-feed)acK (fi,&
6&19)&
y
1
y
6
y
n
x
6
x
1
x
n
x
6 y
6
x
1 y
1
x
n y
n
/i,& 6&16& RNA cu două straturi de
tip feedforPard&
/i,& 6&19& RNA cu două straturi de
tip (i)rid&
• RNA multistrat. Reţelele din această cate,orie pot avea, #n
principiu, un număr nelimitat de straturi3 ?oate straturile, cu
e"cepţia primului şi ultimului, sunt straturi ascunse& 3tructura
,enerală a unei asemenea RNA a fost prezentată #n fi,ura 6&9&
Aa4oritatea RNA multistrat utilizate #n diverse aplicaţii practice fac
parte din cate,oria reţelelor feedforPard (ne)uclate), iar răsp$ndirea
cea mai mare o are perceptr!nul multistrat3 +rincipalele aplicaţii ale
acestui tip de reţea au #n vedere pro)leme de clasificare precum şi de
apro"imare euristică a unor funcţii matematice&
2.0.2. 5erce)tronul multistrat $L5
3e consideră o reţea neuronală artificială de tip A:+ cu un
sin,ur strat ascuns (fi,& 6&1) şi se fac notaţiile'
i
n - numărul neuronilor de pe stratul de intrare*
j
n
- numărul neuronilor de pe stratul ascuns*
&
n - numărul neuronilor de pe stratul de ieşire*
[ ] & - matricea ponderilor neuronilor de pe stratul ascuns ale cărei
elemente ji
w
sunt ponderile cone"iunilor sinaptice dintre
neuronul j de pe stratul ascuns şi neuronul i de pe stratul de
intrare*
[ ] 6 - matricea ponderilor neuronilor de pe stratul de ieşire ale cărei
elemente &j
v
sunt ponderile cone"iunilor sinaptice dintre
neuronul & de pe stratul de ieşire şi neuronul j de pe stratul
de ascuns*
e
n - numărul de e"emple, adică numărul de perec(i ( ) ,
m m
d %
care alcătuiesc mulţimea de antrenare*
( ) m
&
y - ieşirea neuronului & de pe stratul de ieşire c$nd la intrare se
prezintă e"emplul m*
( ) m
j
y - ieşirea neuronului j de pe stratul ascuns c$nd la intrare se
prezintă e"emplul m*
1
1
6
i
j
1
n
j
n
&
n
i
x
1
y
1
x
i
y
n &
x
n i
&
%
-
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
/i,& 6& 1& Reţea A:+ cu un sin,ur strat ascuns
2.0.2.1. Algoritmul 3ac7)ro)agation 8 +5. Regula delta
generali9at2
+erceptronii multistrat cu mai multe ieşiri şi funcţii de transfer
si,moidale se mai numesc şi reţele bac&pr!paati!n& Denumirea
provine de la al,oritmul de #nvăţare utilizat de aceste structuri şi
anume al!ritmul bac&pr!paati!n 9 -P sau al!ritmul de
pr!paare 1nap!i a er!rii, respectiv al!ritmul retr!pr!paării
introdus de Rumel(art şi mem)rii ,rupului .,arallel (istributed
,r!cessin. +D+ #n 19%B& Acest al,oritm poate depăşi limitările
perceptronului enumerate de AinsL şi +apert #n 19B9 şi a fost
considerat un mare succes care a contri)uit la relansarea calculului
neuronal #n 7A&
Al,oritmul -P urmăreşte minimizarea erorii pătratice printr-o
metodă de ,radient& Din acest motiv funcţiile de activare sau transfer
ale neuronilor tre)uie să fie continue şi deriva)ile pe tot domeniul de
definiţie, cerinţe satisfăcute de funcţiile si,moidale şi funcţia liniară&
:a fel ca şi #n cazul perceptronilor, ,enerarea unei reţele A:+
cuprinde două etape'
• etapa de învăţare #n care, pe )aza mulţimii de antrenare, se
sintetizează ponderile şi valorile pra,urilor de activare ale
neuronilor*
• etapa de testare, #n care reţeaua este utilizată pentru a clasifica
mulţimi de forme necunoscute, dar similare celor din mulţimea de
antrenare&
Al,oritmul )acKpropa,ation de #nvăţare al reţelelor A:+ constă
#n următorii doi paşi'
1) parcur#erea directă a reţelei, de la intrări spre ieşiri, #n care se
determină ieşirile ,enerate de reţea pentru e"emplele din
mulţimea de antrenare*
6) parcur#ere înapoi a reţelei, de la ieşiri spre intrări, #n care
ieşirile calculate se compară cu ieşirile dorite pentru fiecare
e"emplu şi se determină eroarea care, printr-un proces de
propa,are #napoi, este utilizată la actualizarea ponderilor&
:e,ea de antrenare sau re,ula de modificare a ponderilor poartă
denumirea re#ula delta #eneralizată şi este descrisă de următoarele
trei propoziţii'
(i) +entru fiecare e"emplu ( ) , , 1,
m m e
m n · % d din mulţimea de
antrenare corecţia ponderii dintre neuronul j şi neuronul i din
stratul precedent este proporţională cu un termen de eroare
( ) m
j
δ
asociat neuronului j, adică'
( ) ( ) m m
ji j i
w y ∆ ·ηδ (6&9!)
#n care'
η
este rata de #nvăţare*

( ) m
i
y - ieşirea neuronului i din stratul precedent&
(ii) Dacă neuronul j se află #n stratul de ieşire (fi,& 6&1=,a) termenul
de eroare este proporţional cu diferenţa dintre valoarea dorită şi
cea furnizată de reţeaua neuronală şi se calculează cu relaţia'
( ) ( )
( ) ( ) ( ) ( ) Q m m m m
j j j j
d y f net δ · − (6&91)
#n care'
( )
( ) ( ) m m
j j
d y − este diferenţa dintre valoarea dorită şi cea
furnizată de reţeaua neuronală pentru e"emplul m*
( )
( ) Q m
j
f net - derivata funcţiei de activare a neuronului j #n
raport cu potenţialul său neuronal
( ) m
j
net corespunzător
e"emplului m considerat*
(iii) Dacă neuronul j se află #n stratul ascuns (fi,& 6&1=,b) fiind le,at
prin cone"iunile sinaptice &j
v
cu neuronii din stratul de ieşire,
termenul de eroare este proporţional cu suma ponderată a
termenilor de eroare asociaţi neuronilor de ieşire şi se calculează
cu relaţia'
( )
( ) ( ) ( ) Q m m m
&j j j &
&
v f net
¸ _
· ÷
÷
¸ ,

δ δ (6&96)
#n care
( ) m
&
δ se determină cu relaţia precedentă (6&91) aplicată
neuronilor & de pe stratul de ieşire&
i
j
y
i
w
j i
y
j * d
j
* δ
j
( ) m
( ) m ( ) m ( ) m
i
&
j
y
i
w
j i
v
& j
y
j
y
&
* d
j
* d
&
* δ
j
* δ
&
( ) m
( ) m
( ) m
( ) m
( ) m
( ) m
( ) m
a) ))
/i,& 6&1=& Aplicarea re,ulii delta #n funcţie de poziţia neuronului'
a) neuronul se află pe stratul de ieşire
)) neuronul se află pe stratul ascuns
După cum se poate o)serva, erorile
( )
( ) ( ) m m
j j
d y − , identificate
la ieşire, sunt transmise #napoi către intrare pentru a corecta
ponderile sinaptice dintre straturile succesive cu valori proporţionale
cu aceste erori&
Re,ulile enunţate se referă numai la ponderile neuronale fără a
se specifica nimic despre pra,urile ce se pot asocia fiecărui neuron
din straturile de prelucrare& Această formalizare nu e"clude utilizarea
pra,urilor care pot fi tratate ca ponderi ale cone"iunilor cu un neuron
din stratul precedent av$nd ieşirea 81&
2.0.2.2. Antrenarea $L5
H reţea neuronală de tip A:+ poate fi antrenată pentru
apro"imarea unei funcţii
'
i &
n n
F # # →
sau pentru asocierea,
respectiv clasificarea formelor de intrare&
+rocesul de antrenare constă #n modificarea iterativă a ponderilor
şi pra,urilor neuronilor de pe straturile de prelucrare #n scopul
minimizării funcţiei de performanţă a reţelei& Aceasta poate fi'
• A)aterea pătratică parţială'
( )
( )
6
( ) ( ) ( )
1
,
&
n
m m m
& &
&
+ d y
·
· −

& 6 (6&99)
• A)aterea pătratică medie parţială'
( )
( )
6
( ) ( ) ( )
1
1
,
&
n
m m m
& &
&
&
+ d y
n
·
· −

& 6 (6&9)
• A)aterea pătratică totală'
( )
( )
6
( ) ( )
1 1
,
e &
n n
m m
& &
m &
+ d y
· ·
· −
∑ ∑
& 6 (6&9=)
• A)aterea pătratică medie totală'
( )
( )
6
( ) ( )
1 1
1
,
e &
n n
m m
& &
e &
m &
+ d y
n n
· ·
· −
∑ ∑
& 6 (6&9B)
1n ,eneral funcţia de performanţă utilizată este a)aterea pătratică
medie multiplicată, din considerente de simplificare a e"presiilor de
calcul, cu factorul
1
6
&
7mplementarea al,oritmului se poate efectua #n două moduri'
(i) modul incremental 'incremental mode( #n care corecţiile
ponderilor se efectuează după fiecare e"emplu, iar funcţia de
performanţă este a)aterea pătratică medie parţială*
(ii) modul #lobal 'batch mode( #n care corecţiile ponderilor se
efectuează după ce toate e"emplele din mulţimea de
antrenare au fost prezentate reţelei, adică la sf$rşitul unei
epoci, iar funcţia de performanţă este a)aterea pătratică
medie totală&
Determinarea matricelor ponderilor
G
&
şi
G
6
care asi,ură
minimul funcţiei de performanţă se efectuează impun$nd condiţiile'
!* !, 1, , 1, , 1,
i j &
ji &j
+ +
i n j n & n
w v
∂ ∂
· · · · ·
∂ ∂
(6&9C)
Acestea conduc la un sistem de ecuaţii neliniare care se rezolvă
iterativ printr-o metodă de ,radient&
2.0.2.2.1. $etoda gradientului descendent
2ea mai simplă metodă de determinare a unui punct de e"trem
local
G
x
pentru funcţia ( ) y f x · constă #n anularea derivatei
( )
Q
!
df
f x
dx
· · (6&9C)
1n cazul unei funcţii neliniare, cu o formă comple"ă, rezolvarea
directă a ecuaţiei (6&9C) nu este posi)ilă şi din acest motiv se recur,e
la o metodă iterativă& Astfel, pentru a determina minimul se porneşte
de la o apro"imaţie iniţială
!
x şi se ,enerează un şir de apro"imaţii
succesive folosind relaţia de recurenţă'
( )
Q
1
t
t t t t
x x
df
x x x f x
dx
η η
+
·
· − · −
(6&9%)
care defineşte aşa numita metodă a ,radientului descendent&
1n această relaţie
η
este un parametru pozitiv utilizat pentru a
amplifica sau atenua deplasarea #n lun,ul direcţiei ( )
Q
df
f x
dx
· & 1n
cazul unor valori mari punctul de minim poate fi depăşit, iar #n cazul
unor valori prea mici apropierea de punctul de minim căutat poate
deveni prea lentă&
1n cazul al,oritmului )acKpropa,ation pentru care funcţia de
performanţă, al cărei minim este căutat, depinde de mai multe
varia)ile (ponderile cone"iunilor sinaptice ji
w
şi &j
v
) relaţia de
recurenţă (6&9%) se aduce la forma vectorială #nlocuind derivata cu
,radientul& Rezultă, astfel, următoarele relaţii, specifice metodei
,radientului descendent, pentru determinarea ponderilor
cone"iunilor sinaptice ale neuronilor de pe stratul ascuns'
( )
1 t t t
+ η
+
· − ∇ & & & (6&99,a)
respectiv ale celor de pe stratul de ieşire'
( )
1 t t t
+ η
+
· − ∇ 6 6 6 (6&99,))
#n care
η
este viteza de #nvăţare&
2.0.2.2.2. $etoda Ne:ton de ordinul II
1n metoda ,radientului descendent procesul de căutare a
punctului de minim al funcţiei de performanţă a reţelei A:+ constă
#n deplasarea după direcţia anti,radientului pe o lun,ime
proporţională cu rata de #nvăţare
η
a cărei valoare este selectată #n
mod ar)itrar de către utilizator& H conver,enţă mai rapidă a
procesului iterativ de calcul către punctul de minim căutat este
posi)ilă atunci c$nd se cunosc detalii suplimentare privind funcţia
( ) y f x · , detalii care să permită estimarea unei valori optime
pentru viteza de #nvăţare
η
&
/iind cunoscută o estimare oarecare
t
x a punctului de e"trem
căutat se pune pro)lema determinării corecţiei
t
x ∆ astfel #nc$t
1 t t
x x x x
+
· + ∆ · să constituie soluţia pro)lemei, adică '
( ) ( ) ( )
Q Q Q
1
!
t t
f x f x x f x
+
· + ∆ · · (6&!)
1n acest sens, se dezvoltă #n serie ?aLlor ( ) f x #n 4urul punctului
t
x şi se reţin termenii p$nă la ordinul 7& Rezultă'
( ) ( ) ( ) ( )
Q
t
t t x x
f x f x x f x f x x
·
· + ∆ ≅ + ∆ (6&6)
Aplic$nd acestei e"presii operatorul de derivare şi admiţ$nd că noua
apro"imare
1 t t t
x x x x
+
· + ∆ · este soluţia căutată se o)ţine'
( ) ( ) ( ) ( ) ( )
R Q Q R
1
!
t t
t t t t
x x x x
f x x f x f x f x x x
+
· ·
∆ + · + − ·
(6&9)
din care rezultă relaţia de recurenţă'
( )
( )
1
Q
QQ
t
t t
t
f x
x x
f x
+
· −
(6&)
2ompar$nd relaţia (6&) cu relaţia (6&9%) din metoda
,radientului descendent rezultă că
( )
R
1
t
f x
reprezintă o estimare a
vitezei de #nvăţare #n punctul
t
x &
1n cazul unei funcţii de mai multe varia)ile '
n
f # # → ,
( ) y f · % relaţia (6&) capătă forma vectorială'
( ) ( )
1
1 t t t t
f

+
1 · − ∇
¸ ]
% % ; % % (6&=)
#n care'
[ ]
1 6
, ,&&&,
T
n
x x x · % *
( )
t
; % este matricea (esian, iar ( )
t
f ∇ % ,radientul funcţiei
#n punctul
t
· % % &
Adaptarea metodei NePton de ordinul 77 la antrenarea reţelelor
A:+ conduce la următoarele relaţii de recurenţă pentru modificarea
ponderilor'
( ) ( )
1
1 t t t t

+
1 · − ∇
¸ ]
& & ; & E & (6&B,a)
( ) ( )
1
1 t t t t

+
1 · − ∇
¸ ]
6 6 ; 6 E 6 (6&B,))
Mtilizarea relaţiilor (6&B) #n cadrul procesului de antrenare a
unei reţele neuronale de tip A:+, impune vectorizarea matricelor
& şi 6 , adică transformarea acestora #n vectori de forma'

11 1 1
,&&&, ,&&&, ,&&&,
i j j i
T
n n n n
w w w w
1
·
¸ ]
&
respectiv
11 1 1
,&&&, ,&&&, ,&&&,
j & & j
T
n n n n
v v v v
1
·
¸ ]
6
După cum se poate o)serva adaptarea ponderilor se realizează
folosind viteze de #nvăţare distincte pentru fiecare pondere, care, #n
plus, se modifică de la o iteraţie la alta&

2.0.2.2.#. $etoda gradientului con<ugat
Aetodele de ,radient con4u,at utilizate #n pro)lemele de
determinare a unui punct de e"trem al unei funcţii de mai multe
varia)ile '
n
f # # → , pornesc de la o apro"imaţie iniţială
!
% şi
determină un şir de apro"imaţii succesive prin deplasarea #n n paşi
după n direcţii ; con4u,ate&
După cum este cunoscut, doi vectori ,
n
# ∈ % - care satisfac
relaţia

!
T
· % -
(6&C)
se numesc canonic con4u,aţi&
Relaţia (6&C) se poate scrie şi su) forma'
!
T
n
· % I - (6&%)
#n care
n
I este matricea unitate de ordinul n&
Neneraliz$nd, dacă pentru o matrice oarecare ; de ordinul n,
vectorii ,
n
# ∈ % - satisfac relaţia
!
T
× × · % ; -
(6&9)
atunci aceştia se numesc ; con4u,aţi&
+entru a determina minimul funcţiei ( ) ' ,
n
f # # y f → · %
folosind metoda ,radientului con4u,at, se porneşte din punctul iniţial
!
% şi se ale,e deplasarea
!
∆% #n sensul anti,radientului& +entru
simplificarea e"punerii deplasarea ∆% se va nota cu -& +rin
urmare, ( )
! ! !
f ∆ · · −∇ % - % &
1n continuare procesul de căutare se desfăşoară #n n paşi, după n
direcţii ; con4u,ate,conform relaţiei'
( )
1 1 t t t t
f β
+ +
· −∇ + - % - (6&=!)
#n care'
1 t t t t t t t
η η
+
· + ∆ · + % % % % - este o apro"imaţie
intermediară, iar
t
β un scalar care se determină astfel #nc$t vectorii
1 t +
- şi
t
- să fie ; con4u,aţi, adică'
1
!
T
t t +
× × · - ; - (6&=1)
Av$nd #n vedere relaţia (6&=!) relaţia (6&=1) devine'
( )
( )
1
1
!
T
t t t t
T
T
t t t t t
f
f
β
β
+
+
1 −∇ + × × ·
¸ ]
1 − ∇ × × + × × ·
¸ ]
% - ; -
% ; - - ; -
(6&=6)
din care rezultă'
( )
1
1
T
T
t t t t t
f β

+
1
1 · × × ∇ × ×
¸ ]
¸ ]
- ; - % ; - (6&=9)
+entru a utiliza metoda ,radientului con4u,at la antrenarea
reţelelor neuronale de tip A+: funcţia f este #nlocuită cu funcţia de
performanţă, iar vectorul % cu vectorul U format prin vectorizarea
simultană a matricelor ponderilor sinaptice & şi 6, adică'
11 1 1 11 1 1
,&&&, ,&&&, ,&&&, , ,&&&, ,&&&, ,&&&,
i j j i j & & j
T
n n n n n n n n
w w w w v v v v
1
·
¸ ]
U
7mplementarea acestei metode implică rezolvarea următoarelor
două pro)leme suplimentare'
./ 0electarea vitezei de învăţare
t
η
H metodă de determinare a unei valori pentru rata de #nvăţare
t
η
constă #n apro"imarea variaţiei funcţiei de performanţă #n raport cu
η
printr-un polinom de ,radul 77, adică'
( )
6
+ $ % - η η η · + + (6&=)
din care, prin anularea derivatei, rezultă valoarea optimă
G
6
%
$
η · − (6&==)
1n cadrul fiecărui pas de calcul, coeficienţii $, % şi - se
determină evalu$nd funcţia de performanţă #n trei puncte distincte,
astfel'
• pentru ! η · rezultă
1 t t t
η · + · U U - U , respectiv
1 1
( ) - + + · · U (6&=B,a)
• pentru !&= η · rezultă
6
!&=
t t
· + U U - , respectiv
6 6
1 1
( )
6
$ % - + + + + · · U (6&=B,))
• pentru 1 η · rezultă
9 t t
· + U U - , respectiv
9 9
( ) $ % - + + + + · · U (6&=B,c)
Rezolv$nd sistemul de ecuaţii format din relaţiile (6&=B,a,),c) se
o)ţin coeficienţii $, % şi -, iar din relaţia (6&==) valoarea vitezei de
#nvăţare&
2/ 0electarea matricei $ pentru calculul factorului
t
β
Aatricea ; din e"presia (6&=9) a factorului
t
β ar putea fi
Fessianul funcţiei de performanţă +& ?otuşi, pentru reducerea
timpului de calcul se evită calculul matricei Fessian& 1n acest sesns,
dezvolt$nd #n serie ?aLlor ,radientul ( )
1 t
+ :
+
∇ şi adopt$nd o serie
de ipoteze simplificatoare se poate demonstra că'
( ) ( )
1
0
t t t t
+ + η
+
1 × ≅ ∇ −∇
¸ ]
; - U U (6&=C)
1nlocuind relaţia (6&=C) #n (6&=9) rezultă'
( ) ( )
{ }
( ) ( ) ( )
1
1
1 1

T
t t t t
T
t t t
+ +
f + +
β

+
+ +
1
1 · × ∇ −∇ ×
¸ ]
¸ ]
1 1 ∇ × ∇ −∇
¸ ] ¸ ]
- U U
% U U
(6&=%)
2.0.#. Reţele neuronale arti"iciale =o,onen
Reţelele neuronale Oo(onen numite (ărţi de trăsături cu auto-
or,anizare, sunt inspirate din modul #n care este or,anizat corte"ul
cere)ral care, după cum este cunoscut, are rolul de a coordona
funcţiile or,anismului& ;l poate fi asemuit cu o p$nză su)ţire, de
#ntindere relativ mare (apro"imativ !,= m
6
), pliată astfel #nc$t să
poată ocupa suprafaţa din interiorul craniului, pe care se realizează o
proiecţie deformată a #ntre,ului corp uman& +entru a asi,ura
coordonarea funcţiilor or,anismului #n scopul asi,urării unităţii
funcţionale a acestuia şi al adaptării la mediu, corte"ul sau scoarţa
cere)rală posedă proprietăţi topolo,ice0or,anizatorice remarca)ile&
De e"emplu, zona corespunzătoare m$inii se află l$n,ă zona
corespunzătoare )raţului şi aşa mai departe&
+ornind de la aceste o)servaţii, Oo(onen a pus )azele teoriei
(ărţilor de trăsături cu auto-or,anizare, care sunt reţele neuronale
artificiale cu #nvăţare nesupervizată şi cu ieşiri continue, cunoscute şi
ca reţele neuronale 1ohonen&
Auto-or,anizarea se defineşte ca fiind capacitatea unui sistem de
a descoperi şi #nvăţa structura datelor de intrare c(iar şi atunci c$nd
nu e"istă informaţii referitoare la această structură& /ără a i se
specifica răspunsul corect pentru fiecare e"emplu prezentat la
intrare, reţeaua neuronală artificială cu auto-or,anizare #nvaţă
sin,ură& 2u alte cuvinte, ea descoperă trăsături caracteristice ale
datelor de intrare pe care le or,anizează şi le memorează #ntr-o
manieră specifică& 1n acest conte"t, setul sau mulţimea de antrenare
conţine numai mărimile de intrare
&
% şi nu perec(i de tipul intrare
8 ie6ire d!rită ( ) ,
& &
d % &
7nformaţiile privind trăsăturile specifice mulţimii datelor de
antrenare sunt sintetizate #n cursul procesului de #nvăţare
nesupervizată şi sunt memorate #n vectorii cone"iunilor sinaptice ale
căror componente nu mai reprezintă ponderile ci componentele aşa
numiţilor vect!ri pr!t!tip& /iecare neuron al reţelei artificiale
corespunde unui prototip, iar ieşirea defineşte relaţia dintre intrarea
curentă şi aceste prototipuri memorate&
+articularitatea reţelelor Oo(onen este aceea că neuronii nu mai
sunt aşezaţi pe straturi (de intrare, de ieşire şi ascuns), ci #n nodurile
unei plase )idimensionale de dimensiune ( m & × ) (fi, 6&1B), numită
,rila suport&
1n această structură e"istă cone"iuni doar #ntre intrarea
[ ]
1 6
, ,&&&,
T
n
x x x · % şi fiecare neuron, prin intermediul vectorilor
1, , ,
,&&& ,&&& 1, 6,&&&
T
j j i j n j
w w w j m & 1 · · ×
¸ ]
& , iar ponderile le,ăturilor
dintre neuroni ,rilei suport nu au nici o relevanţă& /iecare neuron
este asociat unei clase, motiv pentru care se utilizează şi termenul
neur!n clasă, şi este caracterizat de'
• vectorul
1, , ,
,&&& ,&&& 1, 6,&&&
T
j j i j n j
w w w j m & 1 · · ×
¸ ]
& numit
vector prototip asociat*
• poziţia sa pe ,rila suport, adică coordonatele
x
r şi y
r
&
1
&
n
7 n t r a r e
x
1
x
6
x
n
m
/i,& 6& 1B& 3tructura unei reţele neuronale Oo(onen&
7nteracţiunea dintre neuroni depinde de distanţa dintre aceştia&
Distanţa dintre doi neuroni r şi s poate fi definită ca fiind distanţa
euclidiană'
( ) ( ) ( )
6 6
,
x x y y
d r s r s r s · − + −
sau distanţa Aan(attan'
( , )
x x y y
d r s r s r s · − + −
& (6&B!)
:a #nceputul procesului de antrenare al reţelei, componentele
, i j
w
ale vectorilor prototip sunt iniţializate aleator urm$nd a fi
adaptate #ntr-o manieră care să asi,ure faptul că neuronii apropiaţi
din punct de vedere topolo,ic, să fie sensi)ili la intrări apropiate&
Astfel, după iniţializarea aleatoare a valorilor ponderilor , i j
w
,
reţelei i se prezintă la intrare c$te un e"emplu , 1, 6,&&&,
m e
m n · % din
mulţimea de antrenare, care este comparat cu toţi vectorii prototip
1, 6,&&&,
j
j m & · × &
#n scopul determinării neuronului c$şti,ător&
Acesta este neuronul al cărui vector prototip este cel mai apropiat de
vectorul
m
% prezentat la intrare, adică neuronul
G j
care satisface
relaţia'
G
minS T, 1, 6,&&&,
j j
j
d d j m & · · ×
(6&B!)
#n care
( )
6
,
1
, 1, 6&&&,
n
j i i j
i
d x w j m &
·
· − · ×

& (6&B1)
După ce a fost determinat c$şti,ătorul competiţiei, are loc
procesul de actualizare a ponderilor& 1n acest sens, se utilizează
conceptul de vecinătate& <ecinătatea unui neuron j, notată ( ) ; j este
formată din acei neuroni pentru care distanţa dintre ei şi neuronul j nu
depăşeşte o valoare presta)ilită& <ecinătatea unui neuron depinde de
tipul de distanţă utilizată& +entru e"emplificare, #n fi,ura 6&1C sunt
prezentate vecinătatea de dimensiune 6 a unui neuron #n situaţia
utilizării distanţei euclidiene (6&1C, a), respectiv a distanţei
Aan(attan (6&1C, b)&
Actualizarea ponderilor se face utiliz$nd relaţia'
( ) ( ) , G
ij ij i ij
w w j j x w ¬ + ηΛ −
(6&B6)
unde'
η
este viteza de #nvăţare*
( ) , G j j Λ 8 funcţia de #nvecinare definită de relaţia'
( )
( ) 1, dacă G
, G
!, altfel
j ; j
j j
¹ ∈
Λ ·
'
¹
(6&B9)
+entru a eficientiza procesul de antrenare, valoarea vitezei de
#nvăţare şi a funcţiei de #nvecinare sunt modificate #n timp folosind #n
acest sens relaţiile'
( ) , ! 1 t t
−α
η · < α ≤ (6&B)
şi
( )
( )
( )
6
, G
, G, e"p
6
dist j j
j j t
t
¸ _

÷ Λ ·
÷
σ
¸ ,
(6&B=)
unde ( ) , ! 1 t t
−β
σ · < β ≤ &
+rocesul de antrenare se #nc(eie atunci c$nd ponderile ataşate
tuturor neuronilor nu se mai modifică semnificativ&
a .
b .
/i,& &1C& <ecinătate de dimensiune 6 #n cazul utilizării'
a 8 distanţei euclidiene* b 8 distanţei Aan(attan&
După prezentarea unui număr suficient de vectori de intrare, neuronii
clasă din reţea vor evidenţia ,rupări de puncte su) forma unor nori
sau clustere care partiţionează spaţiul de intrare& 2u alte cuvinte
reţeaua #ncearcă să proiecteze ,rila suport #n spaţiul de intrare astfel
#nc$t fiecare vector de antrenare să fie c$t mai apropiat de un
prototip, iar ,rila suport să fie c$t mai puţin posi)il deformată&

Sign up to vote on this title
UsefulNot useful