Professional Documents
Culture Documents
26 marca 2014
1
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
1/16
metoda
momentum
metoda
LevenbergaMarquardta
resilient
propagation
metody
heurystyczne
druga pochodna
funkcji .kosztu
po wagach
.
.
metoda
Newtona
metody quasinewtonowskie
2
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
2/16
H=
2E(w)
w2
3
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
3/16
Metoda momentum
w(n) =
E(w(n))
+ w(n 1)
w(n)
4
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
4/16
metody heurystyczne
1. metoda deltadelta
1.1 jaki jest wpyw parametru nauczania na warto E(w)?
E
1.2 znajdujc (n)
otrzymujemy wyraenie
E(n) E(n 1)
wji (n) wji (n 1)
!
1.3 niestabilne numerycznie
1.3.1 modykacje przez dodawanie (dla zwikszenia ) i dzielenie (dla zmniejszenia
(metoda deltabardelta)
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
5/16
ji (n) =
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
6/16
metoda Newtona
g(n) + H(n)w(n) = 0
1.2 to daje w(n) = H 1 (n)g(n)
1.3 H musi by dodatnio okrelona
1.4 jest zoona obliczeniowo
7
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
7/16
metody quasiNewtonowskie
1. to metody gradientowe o postaci w(n) = (n)s(n)
1.1 s(n) = S(n)g(n) ma aproksymowa kierunek spadku metody Newtona
H 1 g
1.2 S(n) jest dodatnio okrelona i aktualizowana w kadym kroku
1.3 metoda nie wymaga rzeczywistej znajomoci Hesjanu
(
)
1.4 std przybliona informacja o krzywinie q(n) w
g(n) w(n)
1.5 to pozwala zgrubnie aproksymowa Hesjan i jego odwrotno
1.6 lepsze s inkrementacyjne procedury poprwiania S(n) (np. BFGS, jedna z
najlepszych)
1.7 w okolicach minimum pozwala na znaczne przyspieszenie zbienoci
1.8 wspczynnik (n) jest znajdywany przez liniow optymalizacj i metoda
jest mao wraliwa na jej dokadno
1.9 jej zoono jest rzdu O(|W |2 ), co dla duych W jest zabjcze
8
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
8/16
metoda LevenbergaMarquardta
1. to poczenie wykorzystujce
1.1 szybko zbienoci metody Newtona w okolicach minimum,
1.2 pewno metody gradientowej przy wyborze wielkoci kroku (ale
powolnej)
2. krok w = [H + I]1 g
2.1 zapewnia dodatni okrelono (H + I)
2.2 pozwala take sterowa metod
2.2.1 mae : redukcja do metody Newtona
2.2.2 due : metoda gradientowa
2.3
2.4
2.5
2.6
2.7
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
9/16
prosty
model
weight decay
nieodporno
na przeksztacenia
liniowe
.
regularyzacja
bdy
aproksymacji
klasykacji
.
.
optimal brain
damage
optimal brain
surgeon
10
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
10/16
weight decay
Denicja funkcji kosztu jako
1
E(w) = E(w) + wT w
2
tic
1. w sekwencyjnym nauczaniu zmusza zer.
wagi do minimalizacji wartoci o ile
nie jest to poparte danymi uczcymi
11
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
11/16
weight decay
problemy
yj = (
wji yi + wj0 )
yk =
wkj yj + wk0
w
ji =
1
wji
a
w
j0 = wj0
b
wji
a i
w
kj = cwkj
w
k0 = cwk0 + d
12
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
12/16
weight decay
problemy
yj = (
wji yi + wj0 )
yk =
wkj yj + wk0
w
ji =
1
wji
a
w
j0 = wj0
b
wji
a i
w
kj = cwkj
w
k0 = cwk0 + d
igor.podolak@uj.edu.pl
sieci wielowarstwowe
12
/16
12/16
weight decay
problemy
1 2 2 2
w +
w
2 wW
2 wW
1
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
13/16
wczesne zatrzymywanie
ang. early stopping
14
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
14/16
E = E(w + w) E(w) =
1
wT Hw
2
1Ti w + wi = 0
15
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
15/16
w =
wi
H 1 1i
[H 1 ]ii
Si =
wi2
2[H 1 ]ii
igor.podolak@uj.edu.pl
sieci wielowarstwowe
16
/16
16/16
w =
wi
H 1 1i
[H 1 ]ii
Si =
wi2
2[H 1 ]ii
igor.podolak@uj.edu.pl
sieci wielowarstwowe
16
/16
16/16