Professional Documents
Culture Documents
31.Svibanj.2020
1 Uvod
Istraživanjima neuronskih mreža pridaje se sve veća pozornost posljednjih god-
ina. Od 1943. kada su Warren McCulloch i Walter Pitts predstavili prvi model
umjetnog neurona, novi i sofisticiraniji prijedlozi predstavljaju se iz desetljeća u
desetljeće. Matematičkom analizom rješavaju se neki misteriji koje postavljaju
novi modeli, ali postoje mnoga pitanja otvorena za buduća istraživanja. Um-
jetne neuronske mreže mogu se smatrati samo još jednim računskim modelom.
Neuronske mreže obično rade u dvije faze: fazi učenja traženog svojstva gdje
na temelju zadanih podataka neuronska mreža pokušava naučiti veze između
ulaznih i izlaznih značajki te fazi predviđanja u kojoj se naučeni model na
temelju ulaznih značajki pokušava predvidjeti izlaznu značajku. Pronalaskom
metoda poput Backpropagation, Boltzmann i AR−P metode zajedno s pokaza-
teljima njihove sposobnosti u odabranim problemima učenja vrijeme potrebno za
njihovo učenje proučeno je samo empirijski. Međutim, analitički dokaz njihove
učinkovitosti nije ponuđen. Iz toga odmah proizlazi pitanje postoji li učinkovit
algoritam za učenje neuronskih mreža. "Učinkovit" bi u teoriji složenosti po-
drazumijevalo da je vrijeme za učenje u najgorem slučaju za mreža veličine n
ograničeno polinomom u n. Dokazati ne postojanja takvog algoritma nije ni-
malo lako te u ovome radu želimo pokazati da je problem učenja pripada klasi
NP-potpunih problema, što je široko prihvačeno kao pokazatelj ne postojanja
"učinkovitog" algortima za riješavanje problema.
2 Neuronske mreže
Neuronske mreže koje ćemo promatrati moraju biti definirane na precizan način
u smislu njihove arhitekture. Važno je formalizirati računski model da bi mogli
analizirati složenost učenja. Tip učenja koje proučavamo u ovom seminarskom
radu naziva se nadzirano učenje, što podrazumijeva da su neuronskoj mreži
ulazni podaci (podražaji) predstavljeni tako da su upareni sa željenim izlaznim
podacima (odgovorima). Cilj našeg modela biti će "zapamtiti" primjere viđene
tokom faze učenja (treniranja), tako da u budućem korištenju neuronska mreža
u mogućnosti reproducirati odgovarajući izlazni podatak za zadani ulazni po-
datak.
1
Slika. 1: Prikaz opće računske jedinice (neuron)
(x1 , x2 , ..., xn ) i y = (y1 , y2 , .., yn ) vrijedi da je f (x) ≥ f (y) kad god je broj jedinica u ulazu
y podskup jedinica na ulazu x.
2
1 x≥0
dok za aktivacijsku funkciju koriste sgn(x) = funkciju. Uko-
0 x<0
liko je skup ulaznih vrijednosti S = {0, 1}, odnosno ulazne vrijednosti su
vrijednosti Bulovske varijable tada se ovaj neuron naziva Bulovski granični
neuron. U ovom radu pokazati ćemo da za mreže koje kao računsku jed-
incu koriste ovu vrstu neurona, učenje odnosno, pronalazak odgovara-
jučih težina (w1 , ...wn ) sa kojima neurnoska mreža pamti zadatak, je NP-
potpuno.
4. I\ILI neuroni podvrsta Bulovski linearnih graničnih neurona koje za in-
tegracijsku funkciju g koriste težinsku sumu sa zadanim težinama w1 , w2 , ..., wn
i oduzetom konstantom θ = n ukoliko govorimo o I-neuronu, dok za ILI-
neuron θ = 1,
R(0, 0) = sgn(−θ) = 0
R(1, 0) = sgn(w1 − θ) = 1
R(0, 1) = sgn(w2 − θ) = 1
R(1, 1) = sgn(w1 + w2 − θ) = 0
Sada iz definicije funkcije sgn proizlaze sljedeće nejednakosti.
0<θ
w1 ≥ θ, w2 ≥ θ
3
w1 + w2 < θ
iz toga dobivamo w1 + w2 ≥ 2θ > θ < w1 + w2 što je kontradikcija.
4
Zadatak bi trebalo biti moguće proširiti do neke funkcije f : {0, 1}s →
{0, 1}r , matematički pod time podrazumijevamo da postoji funkcija f koju uko-
liko gledamo kao skup uređenih parova vrijedi da je T ⊆ f .
5
Napomena 1. Ukoliko nije posebno navedeno smatra se da je skup ulaznih
transformacija DS , skup k-tih projekcija k ∈ {1, ..., s}, te svaki put kada dajemo
primjer neuronske arhitekture i konfiguracije smatrati ćemo da je KS (ik ) = ak
gdje je ik : {0, 1}s → {0, 1} projekcije k-tog bita ulaznog podatka σ te je ak
element iz S.
Kao što smo vidjeli u Propoziciji.1 logički veznik nije moguće izračunati
XOR pomoću jednog linearnog graničnog neurona. Za neuronsku mreže kon-
figuriranu Bulovim linearnim graničnim neuronima to je moguće što ćemo vid-
jeti u slijedećem primjeru. U [2] pokazuje se da su sve Bulove funkcije moguće
izračunati neurnskim mrežama konfiguriranim Bulovim linearnim neuronima.
Primjer 3. Nekoliko primjera arhitektura A(s, r, m) = (P, V, S, R, E) i
konfiguracija K
• 1.) Definirajmo tražene skupove arhitekture A(1, 1, 1) na sljedeći način:
P = {a, b}, S = {a}, V = {b}
R = {b}, E = {(a, b)}
Kao u Napomeni 1. smatramo da je DS je skup koji sadrži samo i1 ,
trivijalna funkcija koja vraća 1. bit niza bitova duljine 1 DS = {i1 } dok
DV = {f1 } sada su funkcije KV i KS konfiguracije definirane na sljedeći
način
KS (i1 ) = a, KV (f1 ) = b
6
Slika. 3: Prikaz arhitekture i konfiguracije koja računa 2-mjesni veznik OR
7
Jasno je da bi ovakvo strogo definiranje arhitekture i konfiguracije za kom-
pleksnije primjere bilo izrazito tehičko i nepotrebno kompleksno te uvodimo kon-
venciju da konfigurirane neuronske mreže prikazujemo na sljedeći način, vrhovi
kojima je pridružena funkcija identiteta prikazani su crnom bojom te ulazna
vrijednost kroz njih samo prolazi te se sa njom ništa ne računa, dok su funkcije
pridružene vrhovima napisane unutar bijelog kruga (koji simbolizira neuron)
kao izlaz imaju napisanu funkciju koja za ulaz uzima povezane bridove.
Za sada se samo bavimo učenjem koje treba samo pamtiti zadane vrijednosti.
Veliki dio fascinacije neuronskim mrežama proizlazi iz njihove mogućnosti gen-
eralizacije (točno predviđanje za još ne viđene podatke), pokažemo li da je teško
postići samo pamćenje, može se pokazati da je također teško dobiti i general-
izaciju na još ne poznatim podražajima.
Uz ovu napomenu definiramo problem učenja neuronske mreže.
8
Teorem 1. Neka je A arhitektura neuronske mreže, te neka je T zadatak tada
je učenje u AOFns NP-potpuno.
Dokaz: Pošto je u [1] dokazano da je 3-SAT NP-potpun želimo pokazati
da je 3-SAT polinomijano reducibilan na problem učenja u AOFns . Zamislimo
da smo dobili instancu problema 3SAT, F koja je 3-knf te sadrži m disjunkcija,
dok je broj propozicijonalnih varijbli w, te skup svih propozicijonalnih varijabli
koje se nalaze u F označavamo sa Z = {P1 , P2 , .., Pw }.
F = C1 ∧ C2 ∧ ... ∧ Cm
Da bi formula F bila ispunjiva mora postojati parcijalna interpretacija I :
Z → {0, 1} takva da je F istinita. Sada konstruiramo arhitekturu A na slijedeći
način:
A = (P, V, S, R, E)
S = {a, b, d, e}
V = {ui , vi , wi , xi , yi , zi : 1 ≤ i ≤ w} ∪ {cj : 1 ≤ j ≤ m}
R = {ui , xi , yi , vi : 1 ≤ i ≤ w} ∪ {cj : 1 ≤ j ≤ m}
P =S∪V
E = {(a, wi ), (a, zi ), (b, wi ), (b, zi ),
(wi , ui ), (wi , xi ), (wi , yi ), (zi , xi ), (zi , yi ),
(zi , vi ), (d, ui ), (d, vi ) : 1 ≤ i ≤ w}
∪{(wi , cj ) : 1 ≤ i ≤ w, 1 ≤ j ≤ m t.d. je Pi u disjunkciji Cj }
∪{zi , cj ) : 1 ≤ i ≤ w, 1 ≤ j ≤ m t.d. je ¬Pi u disjunkciji Cj }∪{(e, Cj ) : 1 ≤ j ≤ m}
Također definiramo i zadatak T :
T = {I1 , I2 , I3 }
I1 = (001, (0000)w 0m )
I2 = (111, (1111)w 0m )
I2 = (010, (0010)w 1m )
9
Slika. 5: Djelomična arhitektura A0 za pojedinačnu varijablu Pi
Ti0 = {I1 , I2 , I3 }
I1i = (001, 0000)
I2i = (111, 1111)
I2i = (010, 0010)
Uvrštavanjem I1 i I2 u A0 dobivamo
te zaključujemo da je:
fw (0, 0) 6= fw (1, 1) (2)
slično dobivamo i za fz :
fz (0, 0) 6= fz (1, 1) (3)
Daljnjim uvrštavanjem i usporedbom I2 i I3 dobivamo sljedeću nejednakost
fx (fw (1, 1), fz (1, 1)) = 1 6= 0 = fu (fw (0, 1), fz (0, 1))
iz čega proizlazi da
10
Daljnjom usporedbom I1 i I3 dobivamo slijedeći rezultat:
fw1 (0, 0) 6= fw (0, 1) ili fz2 (0, 0) 6= fz2 (0, 1) ili fz3 (0, 0) 6= fz3 (0, 1) (6)
11
Slika. 6: Arhitektura A za formulu F = P1 ∨ ¬P2 ∨ ¬P3
12
Dokažimo sada drugi smjer neka je F ispunjiva i neka je I interpretacija
takva da je definiramo konfiguraciju na sljedeći način
ILI I(Pi ) = 1 I I(Pi ) = 1
fwi = i fzi =
I I(Pi ) = 0 ILI I(Pi ) = 0
4 Zaključak
U ovom radu smo pokazali da posao memoriziranje skupa uređenih parova bitova
koje zahtijeva samo linearno vrijeme u von-Neumannovom stroju, postaje izraz-
itno kompleksna kada je isti zadatak predstavljen Feed-foward neuronskoj mreži.
Neuronske mreže predstavljaju se kao prirodniji i sposobniji način učenja od
tradicionalnih AI sustava učenja. Svakako, postoji i razlog za ovo vjerovanje,
naime lako je zamisliti da će promjena u nekolicini težina mreže dovesti do prom-
jene u ponašanju, odnosno do boljeg ponašanja cijele mreže. Bez obzira jeli ovaj
argument istinit ili nije, pokazuje se da bi iskoristiti ovu kvalitetu nježne pri-
lagodbe neuronskih mreža, još uvijek moramo puno više naučiti o njima, kako
ih dizajnirati, kako ih programirati i za koje aplikacije koristiti.
Još jedno pitanje povlači se kroz učenje neuronskih mreža, a to je odabir
skupa neurona koje treba koristiti tokom učenja. Pokazali smo, što se pokazuje
13
i u literaturi da je učenje teško neovisno o odabiru vrste neurona te ništa ne
pokazuje prednost jedne vrste nad drugom. Neovisnost o skupu računskih je-
dinica govori nam da je učenje ne zbog neurona nego zbog načina njihova um-
režavanja.
References
[1] Mladen Vuković - Složenost algoritama - predavanja i vježbe (2019)
[2] Raul Rojas - Neural Networks A Systematic Introduction-Springer (1996)
[3] Hong, Jai-wei. On Connectionist Models. University of Chicago, Chicago,
Illinois, May 1987.
14