Sn14 04 Hessian

.
Wpyw drugiej pochodnej na nauczanie.

Regularyzacja
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie
26 marca 2014
1
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/16
1/16
metoda
momentum
metoda
LevenbergaMarquardta
resilient
propagation
metody
heurystyczne
druga pochodna
funkcji .kosztu
po wagach
.
.
metoda
Newtona
metody quasinewtonowskie
2
/16
2/16
macierz Hesjanu funkcji kosztu
H=
2E(w)
w2
1. wartoci wasne H maj duy wpyw na dynamik nauczania

1.1 H ma zwykle mao duych i maych wartoci wasnych
1.2 duo wartoci wasnych o rednich wartociach
2. macierz H 1 stanowi podstaw do usuwania wag

2.1 metody OBD (!), OBS
3. H pozwala na zdeniowanie metod nauczania drugiego rzdu

4.
5. jednak moemy uy heurystyk, by osign rozwizania zblione
3
/16
3/16
Metoda momentum
w(n) =
E(w(n))
+ w(n 1)
w(n)
1. jeli kierunek kolejnych poprawek jest ten sam, to algorytm wzmacnia

prdko
2. jeli jest przeciwny, to hamuje wygaszajc oscylacje
3. to bardzo zgrubne przyblienie informacji zawartych w drugiej
pochodnej
4
/16
4/16
metody heurystyczne
1. metoda deltadelta
1.1 jaki jest wpyw parametru nauczania na warto E(w)?
E
1.2 znajdujc (n)
otrzymujemy wyraenie
E(n) E(n 1)
wji (n) wji (n 1)
!
1.3 niestabilne numerycznie
1.3.1 modykacje przez dodawanie (dla zwikszenia ) i dzielenie (dla zmniejszenia
(metoda deltabardelta)
2. take metody Silvy i Almeidy, dynamicznej adaptacji kroku, etc.

3. wszystkie bardzo zgrubnie przybliaj informacj o drugiej pochodnej
3.1 blisko minimum zwalniaj modykacje
3.2 daleko od minimum przyspieszaj
5
/16
5/16
resilient backpropagation RProp

1. obserwacja wartoci gradientu s bardzo zmienne i powoduj
niestabilno dziaania algorytmu
2. postulat nie wykorzystujmy w ogle wartoci gradientu, a jedynie jego
znak
3. rozwizanie
wji (n) = ji (n)sgn(ji E(n))

4. prdkoci nauczania steruje jedynie modykowany heurystycznie
parametr ji (n)
{
ji (n) =
min(u ji (n 1), max ) jeli ji E(n)ji E(n 1) > 0

max(d ji (n 1), min ) jeli ji E(n)ji E(n 1) < 0
dla u > 1, d < 1

5. jeden z najefektywniejszych algorytmw
6. ji przyblia informacj o drugiej pochodnej
6
/16
6/16
metoda Newtona
E(w(n)) = E(w(n + 1)) E(w(n)) g T (n)w(n)

1
+ wT (n)H(n)w(n)
2
1. Hesjan H = 2 E(w) jest macierz drugich pochodnych czstkowych
1.1 E(w(n + 1)) ze wzgldu na w: wyraenie minimalne gdy
g(n) + H(n)w(n) = 0
1.2 to daje w(n) = H 1 (n)g(n)
1.3 H musi by dodatnio okrelona
1.4 jest zoona obliczeniowo
7
/16
7/16
metody quasiNewtonowskie
1. to metody gradientowe o postaci w(n) = (n)s(n)
1.1 s(n) = S(n)g(n) ma aproksymowa kierunek spadku metody Newtona
H 1 g
1.2 S(n) jest dodatnio okrelona i aktualizowana w kadym kroku
1.3 metoda nie wymaga rzeczywistej znajomoci Hesjanu
q(n) = g(n + 1) g(n)
w(n) = w(n + 1) w(n)
(
)
1.4 std przybliona informacja o krzywinie q(n) w
g(n) w(n)
1.5 to pozwala zgrubnie aproksymowa Hesjan i jego odwrotno
1.6 lepsze s inkrementacyjne procedury poprwiania S(n) (np. BFGS, jedna z
najlepszych)
1.7 w okolicach minimum pozwala na znaczne przyspieszenie zbienoci
1.8 wspczynnik (n) jest znajdywany przez liniow optymalizacj i metoda
jest mao wraliwa na jej dokadno
1.9 jej zoono jest rzdu O(|W |2 ), co dla duych W jest zabjcze
8
/16
8/16
metoda LevenbergaMarquardta
1. to poczenie wykorzystujce
1.1 szybko zbienoci metody Newtona w okolicach minimum,
1.2 pewno metody gradientowej przy wyborze wielkoci kroku (ale
powolnej)
2. krok w = [H + I]1 g
2.1 zapewnia dodatni okrelono (H + I)
2.2 pozwala take sterowa metod
2.2.1 mae : redukcja do metody Newtona
2.2.2 due : metoda gradientowa
2.3
2.4
2.5
2.6
2.7
oblicz E(w(n 1))

= 103 (rednia warto)
oblicz w(n) i E(w(n 1) + w(n))
jeli E(w(n 1) + w(n)) E(w(n 1)) to = 10 i powtrz
jeli E(w(n 1) + w(n)) < E(w(n 1)) to = /10 i powtrz
2.8 konieczna regua stopu, ktra zabezpieczy przed ugrzniciem w

minimalnych zmianach
9
/16
9/16
prosty
model
weight decay
nieodporno
na przeksztacenia
liniowe
.
regularyzacja
bdy
aproksymacji
klasykacji
.
.
optimal brain
damage
optimal brain
surgeon
10
/16
10/16
weight decay
Denicja funkcji kosztu jako
1
E(w) = E(w) + wT w
2
tic
1. w sekwencyjnym nauczaniu zmusza zer.
wagi do minimalizacji wartoci o ile
nie jest to poparte danymi uczcymi
2. w oglnej postaci funkcja kosztu ma

posta
(yn (wt (xn )))2 +

|wj |q
2 n
2 j
gdzie q jest dodatnim wykadnikiem
2.1 przy q = 1 dla duych cz
wspczynnikw jest zerowana
dajc model rzadki (ang. sparse)
(za Ch. M. Bishop, Pattern Recognition and Machin

Learning)
11
/16
11/16
weight decay
problemy
yj = (
wji yi + wj0 )
yk =
wkj yj + wk0
1. zamy liniow transformacj danych wejciowych ayi + b

2. mona osign takie samo mapowanie yj przez transformacj wag
w
ji =
1
wji
a
w
j0 = wj0
b
wji
a i
3. podobnie transformacja wyj cyk + d przez mapowanie
w
kj = cwkj
w
k0 = cwk0 + d
12
/16
12/16
weight decay
problemy
yj = (
wji yi + wj0 )
yk =
wkj yj + wk0
1. zamy liniow transformacj danych wejciowych ayi + b

2. mona osign takie samo mapowanie yj przez transformacj wag
w
ji =
1
wji
a
w
j0 = wj0
b
wji
a i
3. podobnie transformacja wyj cyk + d przez mapowanie
w
kj = cwkj
w
k0 = cwk0 + d
4. mona oczekiwa, by uczc dla jednych i drugich danych osign

spjne ze sob rozwizania rnice si jedynie liniowym wyjciem
5. weight decay traktujc wszystkie wagi identycznie nie spenia tego
wymagania
12
/16
12/16
weight decay
problemy
1. weight decay nie spenia warunku inwariantnoci na liniowe

trasformacje
1.1 wagi i bias-u musz by traktowane osobno
1.2 analogicznie niezalenie naley traktowa wagi w rnych warstwach
1 2 2 2
w +
w
2 wW
2 wW
1
gdzie W1 , W2 to wagi w kolejnych warstwach, a biasy s wyczone ze wzoru

1.3 osobna regularyzacja biasw moe by KONIECZNA ze wzgldu na
stabilno
2. mona podzieli wag na eicej nizezalenie regularyzowanych grup

2.1 czc w osobne bloki wag wszystkie wagi zwizane z pojedynczym
wejciem osigniemy automatyczn metod kontroli istotnoci atrybutw!
13
/16
13/16
wczesne zatrzymywanie
ang. early stopping
1. po szybkim spadku bdu model zwykle zaczyna si nadmiernie

dopasowywa (ang. overt)
2. przerwa nauczanie w miejscu, gdzie bd walidacji zaczyna wzrasta
2.1 w trakcie nauczania liczba stopni swobody ronie
2.2 to stale zwiksza zoono modelu
2.3 early stopping przerywa nauczanie gdy zoono nie jest zbyt wysoka
3. wczesne zatrzymywanie przypomina zachowanie z weight decay

3.1 t (iteracja i wspczynnik nauczania) odpowiada odwrotnoci
parametru regularyzacji
14
/16
14/16
Optimal Brain Surgeon OBS

1
E(w + w) = E(w) + g T (w)w + wT Hw + O(w3 )
2
1. usuwanie wag gdy proces nauczania zbieg
1.1 parametry odpowiadaj minimum (lokalnemu lub globalnemu)
1.2 gradient g moe by wyzerowany a czynnik g T (w)w moe by
zaniedbany
1.3 w przeciwnym wypadku wspczynniki istotnoci nie bd nic mwiy
2. zakadamy, e ksztat powierzchni bdu wok minimum jest prawie

kwadratowy
2.1 moemy wtedy przybliy
E = E(w + w) E(w) =
1
wT Hw
2
bo czynnik O(w3 ) moe by zignorowany
3. OBS usuwa pojedyncze wagi wi w celu zminimalizowania wzrostu E
1Ti w + wi = 0
15
/16
15/16

1
2
1
E = E(w + w) E(w) = wT Hw
2
1. OBS minimalizuje 12 wT Hw ze wzgldu na w z ograniczeniem na
1Ti w + wi = 0, a nastpnie minimalizuje wynikow warto wzrostu
ze wzgldu na indeks wagi i
1.1 Langrangian S = 12 wT Hw (1Ti w + wi )
1.2 optymalne
w =
wi
H 1 1i
[H 1 ]ii
Si =
wi2
2[H 1 ]ii
1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi

1.4 si wi2 : mae wagi maj may wpyw
1.5 si odwrotnie proporcjonalne do [H 1 ]ii : jeli ta warto jest maa, to
nawet mae wagi maj wpyw i mog by usunite
2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do

16
/16
16/16

1
2
1
E = E(w + w) E(w) = wT Hw
2
1. OBS minimalizuje 12 wT Hw ze wzgldu na w z ograniczeniem na
1Ti w + wi = 0, a nastpnie minimalizuje wynikow warto wzrostu
ze wzgldu na indeks wagi i
1.1 Langrangian S = 12 wT Hw (1Ti w + wi )
1.2 optymalne
w =
wi
H 1 1i
[H 1 ]ii
Si =
wi2
2[H 1 ]ii
1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi

1.4 si wi2 : mae wagi maj may wpyw
1.5 si odwrotnie proporcjonalne do [H 1 ]ii : jeli ta warto jest maa, to
nawet mae wagi maj wpyw i mog by usunite
2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do1560!

16
/16
16/16

Sn14 04 Hessian

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sn14 04 Hessian

Uploaded by

Copyright:

Available Formats

.

Wpyw drugiej pochodnej na nauczanie.

macierz Hesjanu funkcji kosztu

1. wartoci wasne H maj duy wpyw na dynamik nauczania

2. macierz H 1 stanowi podstaw do usuwania wag

3. H pozwala na zdeniowanie metod nauczania drugiego rzdu

1. jeli kierunek kolejnych poprawek jest ten sam, to algorytm wzmacnia

2. take metody Silvy i Almeidy, dynamicznej adaptacji kroku, etc.

resilient backpropagation RProp

wji (n) = ji (n)sgn(ji E(n))

min(u ji (n 1), max ) jeli ji E(n)ji E(n 1) > 0

dla u > 1, d < 1

E(w(n)) = E(w(n + 1)) E(w(n)) g T (n)w(n)

q(n) = g(n + 1) g(n)

w(n) = w(n + 1) w(n)

oblicz E(w(n 1))

2.8 konieczna regua stopu, ktra zabezpieczy przed ugrzniciem w

2. w oglnej postaci funkcja kosztu ma

(yn (wt (xn )))2 +

(za Ch. M. Bishop, Pattern Recognition and Machin

1. zamy liniow transformacj danych wejciowych ayi + b

3. podobnie transformacja wyj cyk + d przez mapowanie

1. zamy liniow transformacj danych wejciowych ayi + b

3. podobnie transformacja wyj cyk + d przez mapowanie

4. mona oczekiwa, by uczc dla jednych i drugich danych osign

1. weight decay nie spenia warunku inwariantnoci na liniowe

gdzie W1 , W2 to wagi w kolejnych warstwach, a biasy s wyczone ze wzoru

2. mona podzieli wag na eicej nizezalenie regularyzowanych grup

1. po szybkim spadku bdu model zwykle zaczyna si nadmiernie

3. wczesne zatrzymywanie przypomina zachowanie z weight decay

Optimal Brain Surgeon OBS

2. zakadamy, e ksztat powierzchni bdu wok minimum jest prawie

bo czynnik O(w3 ) moe by zignorowany

3. OBS usuwa pojedyncze wagi wi w celu zminimalizowania wzrostu E

Optimal Brain Surgeon OBS

1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi

2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do

Optimal Brain Surgeon OBS

1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi

2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do1560!

You might also like