You are on page 1of 18

.

Wpyw drugiej pochodnej na nauczanie.


Regularyzacja
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie

26 marca 2014
1
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

1/16

metoda
momentum

metoda
LevenbergaMarquardta

resilient
propagation

metody
heurystyczne

druga pochodna
funkcji .kosztu
po wagach

.
.

metoda
Newtona

metody quasinewtonowskie

2
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

2/16

macierz Hesjanu funkcji kosztu

H=

2E(w)
w2

1. wartoci wasne H maj duy wpyw na dynamik nauczania


1.1 H ma zwykle mao duych i maych wartoci wasnych
1.2 duo wartoci wasnych o rednich wartociach

2. macierz H 1 stanowi podstaw do usuwania wag


2.1 metody OBD (!), OBS

3. H pozwala na zdeniowanie metod nauczania drugiego rzdu


4.
5. jednak moemy uy heurystyk, by osign rozwizania zblione

3
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

3/16

Metoda momentum

w(n) =

E(w(n))
+ w(n 1)
w(n)

1. jeli kierunek kolejnych poprawek jest ten sam, to algorytm wzmacnia


prdko
2. jeli jest przeciwny, to hamuje wygaszajc oscylacje
3. to bardzo zgrubne przyblienie informacji zawartych w drugiej
pochodnej

4
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

4/16

metody heurystyczne
1. metoda deltadelta
1.1 jaki jest wpyw parametru nauczania na warto E(w)?
E
1.2 znajdujc (n)
otrzymujemy wyraenie

E(n) E(n 1)
wji (n) wji (n 1)
!
1.3 niestabilne numerycznie
1.3.1 modykacje przez dodawanie (dla zwikszenia ) i dzielenie (dla zmniejszenia
(metoda deltabardelta)

2. take metody Silvy i Almeidy, dynamicznej adaptacji kroku, etc.


3. wszystkie bardzo zgrubnie przybliaj informacj o drugiej pochodnej
3.1 blisko minimum zwalniaj modykacje
3.2 daleko od minimum przyspieszaj
5
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

5/16

resilient backpropagation RProp


1. obserwacja wartoci gradientu s bardzo zmienne i powoduj
niestabilno dziaania algorytmu
2. postulat nie wykorzystujmy w ogle wartoci gradientu, a jedynie jego
znak
3. rozwizanie

wji (n) = ji (n)sgn(ji E(n))


4. prdkoci nauczania steruje jedynie modykowany heurystycznie
parametr ji (n)
{

ji (n) =

min(u ji (n 1), max ) jeli ji E(n)ji E(n 1) > 0


max(d ji (n 1), min ) jeli ji E(n)ji E(n 1) < 0

dla u > 1, d < 1


5. jeden z najefektywniejszych algorytmw
6. ji przyblia informacj o drugiej pochodnej
6
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

6/16

metoda Newtona

E(w(n)) = E(w(n + 1)) E(w(n)) g T (n)w(n)


1
+ wT (n)H(n)w(n)
2
1. Hesjan H = 2 E(w) jest macierz drugich pochodnych czstkowych
1.1 E(w(n + 1)) ze wzgldu na w: wyraenie minimalne gdy

g(n) + H(n)w(n) = 0
1.2 to daje w(n) = H 1 (n)g(n)
1.3 H musi by dodatnio okrelona
1.4 jest zoona obliczeniowo

7
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

7/16

metody quasiNewtonowskie
1. to metody gradientowe o postaci w(n) = (n)s(n)
1.1 s(n) = S(n)g(n) ma aproksymowa kierunek spadku metody Newtona
H 1 g
1.2 S(n) jest dodatnio okrelona i aktualizowana w kadym kroku
1.3 metoda nie wymaga rzeczywistej znajomoci Hesjanu

q(n) = g(n + 1) g(n)

w(n) = w(n + 1) w(n)

(
)
1.4 std przybliona informacja o krzywinie q(n) w
g(n) w(n)
1.5 to pozwala zgrubnie aproksymowa Hesjan i jego odwrotno
1.6 lepsze s inkrementacyjne procedury poprwiania S(n) (np. BFGS, jedna z
najlepszych)
1.7 w okolicach minimum pozwala na znaczne przyspieszenie zbienoci
1.8 wspczynnik (n) jest znajdywany przez liniow optymalizacj i metoda
jest mao wraliwa na jej dokadno
1.9 jej zoono jest rzdu O(|W |2 ), co dla duych W jest zabjcze
8
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

8/16

metoda LevenbergaMarquardta
1. to poczenie wykorzystujce
1.1 szybko zbienoci metody Newtona w okolicach minimum,
1.2 pewno metody gradientowej przy wyborze wielkoci kroku (ale
powolnej)

2. krok w = [H + I]1 g
2.1 zapewnia dodatni okrelono (H + I)
2.2 pozwala take sterowa metod
2.2.1 mae : redukcja do metody Newtona
2.2.2 due : metoda gradientowa

2.3
2.4
2.5
2.6
2.7

oblicz E(w(n 1))


= 103 (rednia warto)
oblicz w(n) i E(w(n 1) + w(n))
jeli E(w(n 1) + w(n)) E(w(n 1)) to = 10 i powtrz
jeli E(w(n 1) + w(n)) < E(w(n 1)) to = /10 i powtrz

2.8 konieczna regua stopu, ktra zabezpieczy przed ugrzniciem w


minimalnych zmianach
9
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

9/16

prosty
model

weight decay

nieodporno
na przeksztacenia
liniowe

.
regularyzacja

bdy
aproksymacji
klasykacji

.
.

optimal brain
damage
optimal brain
surgeon

10
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

10/16

weight decay
Denicja funkcji kosztu jako

1
E(w) = E(w) + wT w
2
tic
1. w sekwencyjnym nauczaniu zmusza zer.
wagi do minimalizacji wartoci o ile
nie jest to poparte danymi uczcymi

2. w oglnej postaci funkcja kosztu ma


posta

(yn (wt (xn )))2 +


|wj |q
2 n
2 j
gdzie q jest dodatnim wykadnikiem
2.1 przy q = 1 dla duych cz
wspczynnikw jest zerowana
dajc model rzadki (ang. sparse)

(za Ch. M. Bishop, Pattern Recognition and Machin


Learning)

11
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

11/16

weight decay
problemy

yj = (

wji yi + wj0 )

yk =

wkj yj + wk0

1. zamy liniow transformacj danych wejciowych ayi + b


2. mona osign takie samo mapowanie yj przez transformacj wag

w
ji =

1
wji
a

w
j0 = wj0

b
wji
a i

3. podobnie transformacja wyj cyk + d przez mapowanie

w
kj = cwkj

w
k0 = cwk0 + d

12
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

12/16

weight decay
problemy

yj = (

wji yi + wj0 )

yk =

wkj yj + wk0

1. zamy liniow transformacj danych wejciowych ayi + b


2. mona osign takie samo mapowanie yj przez transformacj wag

w
ji =

1
wji
a

w
j0 = wj0

b
wji
a i

3. podobnie transformacja wyj cyk + d przez mapowanie

w
kj = cwkj

w
k0 = cwk0 + d

4. mona oczekiwa, by uczc dla jednych i drugich danych osign


spjne ze sob rozwizania rnice si jedynie liniowym wyjciem
5. weight decay traktujc wszystkie wagi identycznie nie spenia tego
wymagania
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

12

/16

12/16

weight decay
problemy

1. weight decay nie spenia warunku inwariantnoci na liniowe


trasformacje
1.1 wagi i bias-u musz by traktowane osobno
1.2 analogicznie niezalenie naley traktowa wagi w rnych warstwach

1 2 2 2
w +
w
2 wW
2 wW
1

gdzie W1 , W2 to wagi w kolejnych warstwach, a biasy s wyczone ze wzoru


1.3 osobna regularyzacja biasw moe by KONIECZNA ze wzgldu na
stabilno

2. mona podzieli wag na eicej nizezalenie regularyzowanych grup


2.1 czc w osobne bloki wag wszystkie wagi zwizane z pojedynczym
wejciem osigniemy automatyczn metod kontroli istotnoci atrybutw!
13
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

13/16

wczesne zatrzymywanie
ang. early stopping

1. po szybkim spadku bdu model zwykle zaczyna si nadmiernie


dopasowywa (ang. overt)
2. przerwa nauczanie w miejscu, gdzie bd walidacji zaczyna wzrasta
2.1 w trakcie nauczania liczba stopni swobody ronie
2.2 to stale zwiksza zoono modelu
2.3 early stopping przerywa nauczanie gdy zoono nie jest zbyt wysoka

3. wczesne zatrzymywanie przypomina zachowanie z weight decay


3.1 t (iteracja i wspczynnik nauczania) odpowiada odwrotnoci
parametru regularyzacji

14
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

14/16

Optimal Brain Surgeon OBS


1
E(w + w) = E(w) + g T (w)w + wT Hw + O(w3 )
2
1. usuwanie wag gdy proces nauczania zbieg
1.1 parametry odpowiadaj minimum (lokalnemu lub globalnemu)
1.2 gradient g moe by wyzerowany a czynnik g T (w)w moe by
zaniedbany
1.3 w przeciwnym wypadku wspczynniki istotnoci nie bd nic mwiy

2. zakadamy, e ksztat powierzchni bdu wok minimum jest prawie


kwadratowy
2.1 moemy wtedy przybliy

E = E(w + w) E(w) =

1
wT Hw
2

bo czynnik O(w3 ) moe by zignorowany

3. OBS usuwa pojedyncze wagi wi w celu zminimalizowania wzrostu E

1Ti w + wi = 0
15
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/16

15/16

Optimal Brain Surgeon OBS


1
E(w + w) = E(w) + g T (w)w + wT Hw + O(w3 )
2
1
E = E(w + w) E(w) = wT Hw
2
1. OBS minimalizuje 12 wT Hw ze wzgldu na w z ograniczeniem na
1Ti w + wi = 0, a nastpnie minimalizuje wynikow warto wzrostu
ze wzgldu na indeks wagi i
1.1 Langrangian S = 12 wT Hw (1Ti w + wi )
1.2 optymalne

w =

wi
H 1 1i
[H 1 ]ii

Si =

wi2
2[H 1 ]ii

1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi


1.4 si wi2 : mae wagi maj may wpyw
1.5 si odwrotnie proporcjonalne do [H 1 ]ii : jeli ta warto jest maa, to
nawet mae wagi maj wpyw i mog by usunite

2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do


Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

16

/16

16/16

Optimal Brain Surgeon OBS


1
E(w + w) = E(w) + g T (w)w + wT Hw + O(w3 )
2
1
E = E(w + w) E(w) = wT Hw
2
1. OBS minimalizuje 12 wT Hw ze wzgldu na w z ograniczeniem na
1Ti w + wi = 0, a nastpnie minimalizuje wynikow warto wzrostu
ze wzgldu na indeks wagi i
1.1 Langrangian S = 12 wT Hw (1Ti w + wi )
1.2 optymalne

w =

wi
H 1 1i
[H 1 ]ii

Si =

wi2
2[H 1 ]ii

1.3 istotno si (ang. saliency) okrela wzrost kosztu po usuniciu wagi


1.4 si wi2 : mae wagi maj may wpyw
1.5 si odwrotnie proporcjonalne do [H 1 ]ii : jeli ta warto jest maa, to
nawet mae wagi maj wpyw i mog by usunite

2. OBS zredukowao ponad 18 tysicy wag sieci NETtalk do1560!


Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

16

/16

16/16

You might also like