You are on page 1of 61

Inteligen artificial

12-13. Reele neuronale

Dan Glea, Florin Leon


Universitatea Tehnic Gh. Asachi Iai Facultatea de Automatic i Calculatoare http://eureka.cs.tuiasi.ro/~fleon/curs_ia.htm

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

Introducere

Preocuparea pentru reelele neuronale artificiale, denumite n mod curent reele neuronale, a fost motivat de recunoaterea faptului c modul n care calculeaz creierul fiinelor vii este complet diferit de cel al calculatoarelor numerice convenionale Spre deosebire de mainile von Neumann, unde exist o unitate de procesare care execut instruciunile stocate n memorie n mod serial, numai o instruciune la un moment dat, reelele neuronale utilizeaz n mod masiv paralelismul Fiind modele simplificate ale creierului uman, ele dein capacitatea de a nva, spre deosebire de calculatoarele convenionale, care rmn totui mai eficiente pentru sarcinile bazate pe operaii aritmetice precise i rapide Reelele neuronale nu dispun de uniti de procesare puternice, dimpotriv, acestea sunt caracterizate printr-o simplitate extrem, ns interaciunile lor pe ansamblu produc rezultate complexe datorit numrului mare de conexiuni

Sistemul nervos biologic


Pentru a nelege mai bine aceast abordare, trebuie precizat modul de funcionare al sistemului nervos Constituienii structurali ai creierului sunt neuronii, conectai prin sinapse Se estimeaz c n cortexul uman exist circa 10 miliarde de neuroni i 60 de trilioane de sinapse Trebuie precizat ns c neuronii nu sunt cele mai numeroase celule din creier Celulele gliale sunt de 10 ori mai multe n mod tradiional, se considera c acestea au numai funcii de nutriie i protecie, ns n ultimul timp au demarat cercetri privitoare la influena lor potenial asupra activitii de procesare a neuronilor

Neuronul

Neuronul const n principal din trei componente: corpul celulei (soma), dendrite i axon Dendritele (numite astfel datorit asemnrii cu un copac, dendron n greac) sunt intrrile neuronului, fibre scurte ramificate, de civa milimetri, care primesc impulsuri Axonul (axn, ax), ieirea, este o fibr mai lung, de civa centimetri, putnd ajunge ns la 11,5 metri Fiecare neuron are un singur axon i mai multe (1020) de dendrite

Neuronul

Sinapse

Neuronii nu se ating n mod direct, ci sunt separai prin spaii numite sinapse Acestea sunt uniti structurale i funcionale elementare care mediaz interaciunile dintre neuroni Tipul cel mai rspndit de sinaps este sinapsa chimic, ce opereaz astfel: un proces presinaptic elibereaz o substan transmitoare, care difuzeaz peste jonciunea sinaptic dintre neuroni i apoi acioneaz asupra unui proces postsinaptic Astfel, o sinaps convertete un semnal electric presinaptic ntr-un semnal chimic (ioni de sodiu i potasiu) i apoi din nou ntr-un semnal electric postsinaptic

Propagarea semnalelor

n descrierile tradiionale ale organizrii neuronale, se consider c o sinaps este o conexiune simpl care poate impune excitare sau inhibare, dar nu ambele, neuronului receptor Ambele efecte sunt locale; ele se propag pe o distan mic n corpul celulei i sunt nsumate la nivelul axonului Dac suma potenialelor de excitare depete un anumit prag, atunci neuronul este activat i transmite un impuls mai departe

Plasticitatea

Cea mai important trstur a reelei neuronale biologice este plasticitatea Ca rspuns la stimulrile primite, la nivelul conexiunilor se produc schimbri pe termen lung, astfel nct conexiunile care ajut la obinerea de rezultate pozitive sunt ntrite, iar cele care determin rezultate nedorite sunt slbite De asemenea, neuronii pot forma n timp noi conexiuni cu ali neuroni Aceste mecanisme stau la baza capacitii de adaptare a creierului la stimulii primii, pe care o numim n mod convenional nvare

Reele neuronale artificiale

n mod analog funcioneaz i o reea neuronal artificial. n cea mai general form a sa, o reea neuronal este o main proiectat pentru a modela felul n care creierul rezolv o anumit problem sau execut o funcie cu un anumit scop; reeaua este de obicei implementat folosindu-se componente electronice sau simulat printr-un program

Definiie

Simon Haykin consider c o reea neuronal este un procesor masiv paralel, distribuit, care are o tendin natural de a nmagazina cunotine experimentale i de a le face disponibile pentru utilizare Ea se aseamn cu creierul n dou privine:

Cunotinele sunt cptate de reea printr-un proces de nvare Cunotinele sunt depozitate nu n unitile de procesare (neuroni), ci n conexiunile interneuronale, cunoscute drept ponderi sinaptice

Algoritm de nvare

Procedura folosit pentru a executa procesul de nvare se numete algoritm de nvare, funcia cruia este de a modifica ponderile sinaptice ale reelei ntr-un stil sistematic pentru a atinge obiectivul dorit de proiectare Printre numeroasele proprietai interesante ale unei reele neuronale, cea mai semnificativ este abilitatea acesteia de a nva prin intermediul mediului nconjurtor, i prin aceasta s-i mbunteasc performanele; creterea performanelor are loc n timp i conform cu unele reguli prestabilite O reea neuronal i nva mediul printr-un proces iterativ de ajustri aplicate conexiunilor i pragurilor sale sinaptice n mod ideal, reeaua devine mai inteligent dup fiecare iteraie a procesului de nvare

nvarea

n contextul reelelor neuronale vom defini astfel nvarea: un proces prin care parametrii variabili ai unei reele neuronale se adapteaz prin continua stimulare din partea mediului n care este inclus Tipul de nvare este determinat de modul n care au loc schimbrile parametrilor Aadar, nvarea n contextul unei reele neuronale se caracterizeaz prin urmtoarele elemente:

Reeaua neuronal este stimulat de un mediu Reeaua neuronal sufer schimbri datorit acestor stimulri Reeaua neuronal rspunde n mod diferit mediului datorit schimbrilor care au aprut n structura sa intern

Avantaje

Cu toate c asemnarea ntre sistemul nervos biologic i reelele neuronale artificiale este relativ mic, reelele neuronale artificiale prezint un numr surprinztor de caracteristici ale creierului De exemplu, acestea pot nva din experien, generaliza din anumite exemple altele noi i sintetiza caracteristicile eseniale din intrri ce conin i date irelevante Un mare avantaj al reelelor neuronale este c pot s descrie o problem i s o rezolve n acelai timp, prin auto-organizarea lor i nu prin programul explicit Acest proces de auto-organizare are loc pe parcursul nvrii datorate topologiei iniiale, unor reguli de nvare i unui numr mare de antrenamente

Caracteristici

Caracteristicile cele mai importante ale reelelor neuronale sunt: Capacitatea de a nva: Reelele neuronale artificiale nu necesit programe puternice, ci sunt mai degrab rezultatul unor antrenamente asupra unui set de date. Reelele neuronale artificiale au un algoritm de nvare, dup care ponderile conexiunilor sunt ajustate pe baza unor modele prezentate. Cu alte cuvinte, reelele neuronale nva din exemple, la fel cum nva copiii s recunoasc un obiect pe baza mai multor instane ale acelui tip de obiect Capacitatea de generalizare: Dac au fost instruite corespunztor, reelele sunt capabile s dea rspunsuri corecte i pentru intrri diferite fa de cele cu care au fost antrenate, atta timp ct aceste intrri nu sunt foarte diferite Capacitatea de sintez: Reelele neuronale artificiale pot lua decizii sau trage concluzii cnd sunt confruntate cu informaii afectate de zgomot, irelevante sau pariale

Deziderate

Datorit acestor trsturi ale prelucrrii informaiei, reelele neuronale pot rezolva probleme complexe care sunt dificil de abordat prin metode clasice Cu toate acestea, cercettorii recunosc c mai au un drum lung de parcurs pn vor ajunge s construiasc un calculator care s imite creierul omenesc Inteligena la care au ajuns n prezent cele mai sofisticate reele neuronale este sub nivelul unui copil de civa ani Cu toate acestea nu trebuie minimizat sau ignorat importana reelelor neuronale artificiale i este posibil ca pe viitor, cu ajutorul lor s se ajung la o cunoatere mai aprofundat a fenomenelor ce au loc n creierul uman Ceea ce recomand reelele neuronale artificiale este raportul favorabil performan-complexitate, aflat ntr-o continu cretere i care este superior sistemelor de inteligen artificial implementate prin alte tehnologii

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

nceputurile

nceputul reelelor neuronale artificiale este legat de problema clasificrii unor obiecte definite de o serie de atribute Cel mai simplu model era funcia I logic ntre anumite atribute (prezente sau absente), care s determine o anumit clas Totui, unele clase pot avea atribute comune, iar unele valori, n cazul n care provin dintr-un mecanism perceptual, pot fi afectate de zgomot Soluia s-a bazat pe faptul de bun sim c unele atribute sunt mai importante dect altele pentru determinarea unei anumite clase O clas era determinat dac sumarea valorilor ponderate depea un anumit prag, n bun concordan cu legea biologic totul sau nimic (dac un impuls nu depete un prag minim, el nu produce nici un rspuns)

Modelul McCulloch-Pitts

Warren McCulloch i Walter Pitts (1943) au propus un astfel de model, care rmne pn n prezent fundamentul structural pentru majoritatea reelelor neuronale

Ponderi, prag, funcie de activare

Antrenarea perceptronului

Se punea acum problema determinrii automate a acestor ponderi, n cazul n care neuronului i erau prezentate mai multe obiecte, mpreun cu clasa creia i aparineau acestea Rezolvarea a fost adus de Frank Rosenblatt (1960), care a imaginat un algoritm de nvare pentru aa-numitul perceptron, o reea cu un singur neuron, la fel ca aceea din figura anterioar Ideea principal este de a face mici ajustri ale ponderilor pentru a reduce diferena dintre ieirea real a perceptronului i ieirea dorit Ponderile iniiale sunt iniializate aleatoriu (n general n intervalul [-0.5, 0.5]) i apoi actualizate treptat astfel nct ieirea s se apropie de valorile dorite Exemplele de antrenare sunt prezentate succesiv, n orice ordine

Antrenarea perceptronului

Probleme liniar separabile


Cu ajutorul perceptronului pot fi nvate de exemplu funcii binare elementare, precum I, SAU etc. Pe abscis i ordonat sunt reprezentate valorile celor dou intrri, iar culoarea cercurilor reprezint rezultatul operaiei (alb = 0, negru = 1)

Probleme liniar separabile


Perceptronul mparte planul n dou regiuni de decizie (datorit pragului funciei de activare); n cazul n-dimensional, spaiul soluiilor va fi divizat tot n dou regiuni de un hiperplan Acestea sunt probleme liniar separabile Aici poate fi observat i utilitatea pragului: n lipsa acestuia, hiperplanul separator ar trece ntotdeauna prin origine, ceea ce nu este de dorit n orice situaie

Avantaje

Algoritmul de antrenare garanteaz clasificarea corect a dou clase pe baza setului de antrenare, cu condiia ca acele clase s fie liniar separabile Scopul iniial al perceptronului era recunoaterea optic a caracterelor Rosenblatt a reuit s construiasc n 1968 un sistem bazat pe implementarea sa hardware, Mark I Perceptron, care e considerat primul neurocomputer funcional

Probleme neseparabile liniar

Foarte multe probleme sunt ns liniar neseparabile, de exemplu funcia XOR nu poate fi nvat de un perceptron simplu Minsky i Papert (1969) au demonstrat limitrile serioase ale reelelor de tip perceptron n aceste situaii i c sunt imposibile generalizrile globale pe baza exemplelor nvate local De asemenea, ei au studiat posibilitatea utilizrii perceptronilor pentru calculul predicatelor, demonstrndu-le limitele n comparaie cu maina Turing

Adaline

O alt arhitectur de mare importan istoric este adaline (adaptive linear element, Widrow, 1962), prezentat la scurt timp dup publicarea algoritmului lui Rosenblatt Spre deosebire de perceptron, ieirea nu este discret, ci continu, deoarece folosete funcia de activare liniar: f(s) = s De asemenea, algoritmul de antrenare este diferit conceptual, bazndu-se pe metoda celor mai mici ptrate, sau regula delta Scopul este minimizarea erorii ptratice medii dintre ieirea real i cea dorit cu ajutorul unei metode de tip gradient descendent numit coborrea cea mai abrupt (engl. steepest descent) Actualizarea ponderilor se face dup aceeai formul ca la perceptron, cu precizarea c eroarea e are acum valori reale

Convergena Adaline

Din punctul de vedere al comportamentului, spre deosebire de perceptron, adaline converge repede i nvarea e n general stabil chiar n probleme de clasificare neseparabile liniar Dezavantajul su principal este faptul c nu poate garanta separarea celor dou clase, chiar dac acestea sunt liniar separabile

Madaline

Widrow a generalizat modelul la o arhitectur cu mai multe straturi numit madaline (many adalines) Aceasta const dintr-un strat de neuroni adaline care pot fi antrenai i ale cror ieiri sunt conectate ntr-un al doilea strat, stratul de ieire, format din neuroni care funcioneaz ca pori logice: I, SAU sau vot majoritar Ponderile neuronilor din acest strat de ieire nu sunt antrenabile, ci fixate, ceea ce conduce la clasificarea arhitecturii madaline tot ca o reea cu un singur strat

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

Perceptronul multistrat

ncercrile de rezolvare a problemelor neseparabile liniar au condus la diverse variante privind numrul de straturi de neuroni i funciile de activare utilizate Perceptronul multistrat este tipul de reea neuronal cel mai cunoscut i mai des folosit De cele mai multe ori, semnalele se transmit n interiorul reelei ntr-o singur direcie: de la intrare spre ieire; nu exist bucle, ieirea fiecrui neuron neafectnd neuronul respectiv. Aceast arhitectur se numete cu propagare nainte (engl. feed-forward)

Perceptronul multistrat

Straturile care nu sunt conectate direct la mediu se numesc ascunse Exist n literatura de specialitate o controvers privind considerarea primului strat (de intrare) ca strat propriu-zis n reea, de vreme ce singura sa funcie este transmiterea semnalelor de intrare spre straturile superioare, fr a face vreo prelucrare asupra intrrilor n cele ce urmeaz, am ales s numrm numai straturile formate din neuroni propriu-zii, ns spunem c intrrile sunt grupate n stratul de intrare

Reele recurente

Exist i reele recurente (engl. feed-back), n care impulsurile se pot transmite n ambele direcii, datorit unor conexiuni de reacie n reea Aceste tipuri de reele sunt foarte puternice i pot fi extrem de complicate Sunt dinamice, starea lor schimbndu-se permanent, pn cnd reeaua ajunge la un punct de echilibru iar cutarea unui nou echilibru are loc la fiecare schimbare a intrrii

Regiunile de decizie ale perceptronilor multistrat

Introducerea mai multor straturi a fost determinat de necesitatea creterii complexitii regiunilor de decizie Un perceptron cu un singur strat i o ieire genereaz regiuni de decizie de forma unor semiplane Adugnd nc un strat, fiecare neuron se comport ca un perceptron standard asupra ieirii neuronilor din stratul anterior i astfel ieirea reelei poate aproxima regiuni de decizie convexe, rezultate din intersecia semiplanelor generate de neuroni. La rndul su, un perceptron cu trei straturi poate genera zone de decizie arbitrare

Funcii de activare

Din punctul de vedere al funciei de activare a neuronilor, s-a constatat c reelele multistrat nu asigur o cretere a puterii de calcul n raport cu reelele cu un singur strat dac funciile de activare rmn liniare, deoarece o funcie liniar de funcii liniare este tot o funcie liniar Puterea perceptronului multistrat provine tocmai din funciile de activare neliniare Aproape orice funcie neliniar poate fi folosit n acest scop, cu excepia funciilor polinomiale

Funcii de activare

Funcii de activare

Proprieti

Se poate constata c funciile sigmoide se comport aproximativ liniar pentru valori absolute mici ale argumentului i se satureaz, prelund oarecum rolul de prag, pentru valori absolute mari ale argumentului S-a demonstrat (Cybenko, 1989) c o reea (posibil infinit) cu un singur strat ascuns este capabil s aproximeze orice funcie continu Astfel se justific proprietatea perceptronului multistrat de aproximator universal De asemenea, aplicnd teorema Stone-Weierstrass n domeniul reelelor neuronale, s-a demonstrat c acestea pot calcula anumite expresii polinomiale: dac exist dou reele care calculeaz exact dou funcii f1, respectiv f2, atunci exist o reea mai mare care calculeaz exact o expresie polinomial de f1 i f2

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

Generaliti

Algoritmul backpropagation este cel mai cunoscut i utilizat algoritm de nvare supervizat Numit i algoritmul delta generalizat deoarece extinde modalitatea de antrenare a reelei adaline (regula delta), el se bazeaz pe minimizarea diferenei dintre ieirea dorit i ieirea real, tot prin metoda gradientului descendent (gradientul ne spune cum variaz o funcie n diferite direcii) Metoda a fost propus pentru prima dat de Bryson i Ho (1969), dar atunci a fost practic ignorat, deoarece presupunea un volum de calcule prea mare pentru vremea respectiv A fost redescoperit apoi de Werbos (1974), ns abia la mijlocul anilor 80 a fost lansat de Rumelhart, Hinton i Williams (1986) ca instrument general acceptat de antrenare a perceptronului multistrat Ideea de baz este gsirea minimului funciei de eroare e(w) n raport cu ponderile conexiunilor

Pasul 1: Iniializarea

Pasul 2: O nou epoc de antrenare

Pasul 3: Propagarea semnalului nainte

Pasul 4: Propagarea erorilor napoi i ajustarea ponderilor

Pasul 4: Propagarea erorilor napoi i ajustarea ponderilor

Pasul 5. O nou iteraie

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

Motivaie

Antrenarea unui perceptron multistrat este deseori destul de lent, necesitnd mii sau zeci de mii de epoci pentru probleme complexe Cele mai cunoscute metode de accelerare a nvrii sunt: metoda momentului i aplicarea unei rate de nvare variabile

Metoda momentului

Metoda ratei de nvare variabile

Reele neuronale
1. Introducere. Modelul biologic 2. Reele cu un singur strat 3. Perceptronul multistrat 3.1. Algoritmul backpropagation 3.2. Metode de accelerare a nvrii 4. Modele nesupervizate 4.1. nvarea hebbian 4.2. Harta de auto-organizare 5. Concluzii

nvarea nesupervizat

nvarea nesupervizat are ca scop clusterizarea datelor de intrare, adic gruparea obiectelor similare i separarea celor diferite, n lipsa unor informaii a priori n acest sens De cele mai multe ori, reelele neuronale care utilizeaz aceast paradigm de nvare sunt foarte simple, cu un singur strat Neexistnd un instructor, reeaua trebuie s se auto-organizeze n conformitate cu unele reguli interne ca rspuns la stimulii din mediul extern

nvarea hebbian

Regula Oja

Harta de auto-organizare

Algoritmul Kohonen

Clusterizare

La sfritul procesului, vectorii ponderilor indic centrele de greutate ale claselor descoperite:

Observaii

Reeaua poate fi antrenat numai dac clasele sunt liniar separabile de hiperplane care trec prin origine Pentru a asigura separabilitatea acestora, nvarea se poate face cu un numr excesiv de mare de neuroni n timpul antrenrii, unii neuroni nu-i vor dezvolta ponderile sau acestea vor evolua n mod haotic; ei nu vor fi luai n considerare la final Ponderile celorlali neuroni se vor stabiliza la valorile care indic clusterele

Concluzii

Reelele neuronale i dovedesc n principal utilitatea n rezolvarea unor probleme dificile, cum sunt cele de estimare, identificare i predicie sau de optimizare complex Datorit independenei efecturii operaiilor din interiorul componentelor fa de celelalte componente din sistem, modelele conexioniste au un potenial mare de paralelism

Concluzii

Modul de memorare i procesare a datelor difereniaz reelele neuronale artificiale de programele clasice, care urmeaz instruciunile ntr-o ordine secvenial predefinit, iar informaia este memorat n zone bine definite Datorit capacitii lor de a rezolva probleme complexe pe baza unei mulimi consistente de exemple, sistemele conexioniste au un spectru larg de aplicabilitate: de la sisteme de recunoatere de forme (caractere, semnturi, etc.) sau de semnale sonore, pn la sisteme pentru controlul unor procese complexe, cum ar fi sistemele de auto-reglare sau piloii automai

You might also like