sn14 03 Costfunction

.
Funkcja kosztu, elementy statystycznej teorii nauczania

Igor T. Podolak
Uniwersytet Jagielloski w Krakowie
26 luty i 12 marca 2014
1
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
1/30
porwnywanie
model
bdy
aproksymacji
klasykacji
.
.
eksperymenty
dekompozycja
bdu
walidacja
krzyowa
.
melody
bootstrap
funkcje . ryzyka
i kosztu
.
spojrzenie
statystyczne
modele
uczenia
2
/30
2/30
Ryzyko i koszt
.
Denicja
.
Niech (x, y, f (x)) X Y Y bdzie trjk wektor wejciowy x,
odpowied y i predykcja f (x). Wtedy mapowanie
c : X Y Y [0, ) speniajce c(x, y, y) = 0 x y nazywamy
funkcj
kosztu (loss function).
.
.
Uwaga
.
Koszt jest ograniczony od dou, a std nigdy nie otrzymamy dodatkowego
zysku
za jak niezwyk predykcj.
.
3
/30
3/30
Klasykacja binarna
.
Denicja
.
Bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest klasykowany
niepoprawnie
{
c(x, y, f (x)) =
0,
1,
jeli f (x) = y
w przeciwnym przypadku
.
.
Uwaga
.
.Nie rozrnia midzy rnymi bdami typu false positive i false negative
4
/30
4/30
Klasykacja binarna
.
Denicja
.
Asymetryczny bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest
klasykowany niepoprawnie biorc pod uwag
{
c(x, y, f (x)) =
0,
c(x),
jeli f (x) = y
w przeciwnym przypadku
gdzie
c() moe by funkcj zalen od zadanego wejcia.
.
.
Uwaga
.
.A rozrnianie kamieni od diamentw?
.
Uwaga
.
Mona
uzaleni bd od oczekiwanej odpowiedzi.
.
5
/30
5/30
Soft margin
.
Denicja
.
Niech etykiet klasy bdzie okrelona przez sgn(f (x)). Bd typu soft margin
bierze pod uwag odlego od hiperpaszczyny rozdzielajcej
{
0,
jeli f (x) y
c(x, y, f (x)) = max(0, 1yf (x))
1 yf (x), w przeciwnym przypadku
.
.
Uwaga
.
Dla
. wygodnych oblicze brana jest pod uwag take kwadratowa posta.
.
Denicja
.
Bd
logistyczny deniujemy jako c(x, y, f (x)) = ln(1 + exp(yf (x)))
.
6
/30
6/30
Bd dla problemu regresji

.
Denicja
.
Bd
regresji c(x, y, f (x)) = c(f (x) y)
.
.
Denicja
.
Kwadratowy
bd regresji c(x, y, f (x)) = (f (x) y)2
.
.
Denicja
.
.Dla = (f (x) y)) bd regresji c() = max(|| , 0) = ||
.
Uwaga
.
.Taka denicja nie bierze pod uwag bdw mniejszych od .
.
Denicja
.
.Dla = 0 bd redukuje si do bdu 1 .
7
/30
7/30
Bd testowania
.
Denicja
.
Jeli poza zbiorem uczcy jest take dostpny zbir testujcy {x1 , . . . , xm }
dla ktrego bdziemy przewidywa y , to naszym celem jest minimalizacja
oczekiwanego bdu
m
1
Rtest [f ] =
c(x , y, f (x ))dP (y|x )
m i=1 Y
.
.
Denicja
.
[Oczekiwane ryzyko] Jeli nie ma wiedzy o przykadach testujcych, to celem
jest minimalizacja oczekiwanego bdu dla wszystkich moliwych zbiorw
przykadw
R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =
X Y
c(x, y, f (x))dP (y|x)

8
/30
8/30
Ryzyko empiryczne
1. niestety wszystko co jest dostpne w trakcie nauczania to dane uczce
2. prawdziwy rozkad P (x, y) moemy aproksymowa
pemp (x, y) =
m
1
x (x)yi (y)
m i=1 i
.
Denicja
.
Ryzyko empiryczne deniujemy jako
Remp [f ] =
.
X Y
c(x, y, f (x))pemp (x, y)dxdy =
m
1
c(xi , yi , f (xi ))
m i=1
9
/30
9/30
Spojrzenie statystyczne
likelihood i log-likelihood
1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]

interesuje nas take rozkad y przy danym x, tj. P (y|x)
2. moemy si wic stara znale f , ktra jest najbardziej
prawdopodobna, e generuje dane y na podstawie danych x
.
Denicja
.
Likelihood prbki (x1 , y1 ), . . . , (xm , ym ) dla zalenoci funkcyjnej f jest
dane przez
m
p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =

p(xi , yi |f ) =
p(yi |f, xi )p(xi )
i=1
i=1
.
3. p(xi ) s niezalene od f , jeli wemiemy ln to maksymalizacja likelihood
bdzie w problemach regresji rwnowana minimalizacji log-likelihood
L[f ] =
ln p(yi |f, xi )
i=1
10
/30
10/30
Model bdu a funkcja bdu

L[f ] =
ln p(yi |f, xi )
i=1
1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu

wybierzemy zgodnie z c(x, y, f (x)) = ln p(y|x, f )
2. w problemach klasykacji interesuje nas modelowanie P (y|f (x)), gdzie
y jest etykiet ze skoczonego zbioru. Dla binarnego problemu
klasykacji mamy odpowiedni funkcj kosztu bdzie
1+y
1y
ln P (y = 1|f (x)) +
ln P (y = 1|f (x))
2
2
= ln P (y|f (x)) dla y {1, +1}
c(x, y, f (x)) =
3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)

11
/30
11/30
Funkcja bdu a gsto rozkadu bdu

2.5
Gaussian
squared loss
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
Huber
Huber loss
1.0
0.5
0.0
0.0
3
(yf(x))
1 2
2
2
1
p(y f (x)) = exp( )
2
2
c(x, y, f (x)) =
(yf(x))
{
c(x, y, f (x)) =
1 2
2
|| 2
{
p(y f (x)) =
|| <
w.p.p.
2
)
exp( 2
exp( 2 ||)
|| <
w.p.p.
12
/30
12/30
Funkcja bdu a gsto rozkadu bdu

2.5
Laplacian
wart. bezwzgl.
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
rozklad
- insensitive
1.0
0.5
0.0
0.0
3
(yf(x))
c(x, y, f (x)) = ||
1
p(y f (x)) = exp(||)
2
(yf(x))
c(x, y, f (x)) = max(|| , 0)

p(y f (x)) =
exp( max(|| , 0)
2(1 + )
13
/30
13/30
Entropia krzyowa
E(w) =
tk log yk + (1 tk ) log yk
1. dla problemu klasykacji, gdy naley x zaklasykowa do jednej z K klas

2. yk oraz tk traktujemy jako prawdopodobiestwo przynalenoci do
danej klasy o indeksie k
14
/30
14/30
Minimalizacja ryzyka
podstawowe podejcia
1. dla nieograniczonego zbioru uczcego zawsze mona

1.1 znale f, ktra bezbdnie rozpoznaje wszystkie etykiety przykadw
uczcych,
1.2 a jednoczenie niepoprawnie przewiduje wszystkie inne eytkiety
1.3 tak sytuacj nazywamy zbytnim dopasowaniem (ang. overtting)
15
/30
15/30
podstawowe podejcia
1. dla nieograniczonego zbioru uczcego zawsze mona

1.1 znale f, ktra bezbdnie rozpoznaje wszystkie etykiety przykadw
uczcych,
1.2 a jednoczenie niepoprawnie przewiduje wszystkie inne eytkiety
1.3 tak sytuacj nazywamy zbytnim dopasowaniem (ang. overtting)
2. minimalizacja ryzyka empirycznego po wybraniu przestrzeni modeli M

i minimalizacja ryzyka empirycznego
f = arg minR[f ]
f M
2.1 oczywicie najlepiej by poszukiwana funkcja naleaa do M

2.2 zwikszanie przestrzeni modeli zwiksza szans zbytniego dopasowania
2.3 to najczsciej stosowany model
15
/30
15/30
podstawowe podejcia
1. strukturalna minimalizacja ryzyka
1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }

1.2 minimalizacja ryzyka empirycznego z dodan funkcj kary
f = arg min [R[f ] + P(k)]
f Mk ,kN
gdzie P(k) preferuje modele o niskiej zoonoci

1.3 model kocowy moe by sum modeli czstkowych
1.4 przykadem takiego algorytmu jest Adaboost
16
/30
16/30
podstawowe podejcia
1. strukturalna minimalizacja ryzyka
1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }

1.2 minimalizacja ryzyka empirycznego z dodan funkcj kary
f = arg min [R[f ] + P(k)]
f Mk ,kN
gdzie P(k) preferuje modele o niskiej zoonoci

1.3 model kocowy moe by sum modeli czstkowych
1.4 przykadem takiego algorytmu jest Adaboost
2. regularyzacja
2.1 wybr duej przestrzeni modeli M

2.2 zdeniowanie regularyzatora f w przestrzeni M i minimalizacja
f = arg minR[f ] + f 2
f M
2.3 parametr regularyzacji pozwala na wybr midzy dokadnoci

dopasowania a zoonoci modelu
2.4 znalezienie waciwego wymaga dodatkowej walidacji
2.5 dla SN jest to zwykle jakie podejcie polegajce na ograniczaniu wag i
usuwaniu zbdnych
Igor T. Podolak,
UJ igor.podolak@uj.edu.pl
2.6 WMiI
bardzo
skuteczne
16
/30
16/30
Weight decay
(Hinton, 1989)
1. prosta metoda ograniczania wag
EC (w) = w2 =
wi2
wi
2. wymusza minimalizacj czci wag

2.1 wagi, ktre maj duy wpyw na skuteczno sieci
2.1.1 w BP s stale wzmacniane
2.1.2 osigaj due wartoci
2.2 wagi, ktre maj minimalny wpyw na skuteczno sieci

2.2.1 ich warto bezwzgldna stale malej
2.2.2 bez regularyzacji przyjmuj przypadkowe wartoci le wpywajc na
generalizacj
2.2.3 mog by usuwane dojciu blisko zera
2.2.4 proces usuwania wag musi by kontrolowany, np. przez walidacj
3. istnieje szereg bardziej precyzyjnych metod

17
/30
17/30
Eksperymenty
1, 2, 3 i 5 neuronw
8
6
6
6
6
18
/30
18/30
Eksperymenty
7, 9, 12 i 16 neuronw
8
6
6
6
6
19
/30
19/30
Eksperymenty
21x9 oraz 17x11 neuronw
8
6
6
1. na pewno naley minimalizowa liczb parametrw

1.1 model prostszy jest szybszy i atwiejszy w nauczaniu
1.2 model z mniejsz liczb parametrw powinien dawa lepszy poziom
generalizacji
1.3 Brzytwa Ockhama (12851347) Entia non sunt multiplicanda praeter
necessitatem (Nie naley mnoy bytw ponad potrzeb)
20
/30
20/30
Eksperymenty
cele porwnywania modeli
1. bd nauczania to zwykle redni koszt klasykacji przykadw

1 N
i=1 c(x, y, f (x))
N
2. bd testowania albo generalizacji to oczekiwana warto koszt
klasykacji przykadw R[f ] = E[L(X, Y, f )], gdzie X , Y s losowane
z ich cznego rozkadu
3. w trakcie nauczania mamy dwa podstawowe cele
3.1 okrelenie jakoci dziaania rnych modeli tak, by mona byo wybra
najlepszy z nich,
3.2 po wyborze modelu, okrelenie jego bdu generalizacji na nowych danych
4. podzia zbioru danych

4.1 jeli mamy duo danych, najlepszym wyborem bdzie jego podzia na czci
4.1.1 trenujc do nauczania modelu,
4.1.2 walidujc do okrelania najlepszych meta-parametrw modelu,
4.1.3 testujc do okrelania bdu generalizacji
21
/30
21/30
Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]
gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

sieci
22
/30
22/30
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]

sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)
= (E[y|x] Ef(x)) + (Ef(x) f(x))
22
/30
22/30
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]

sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)
= (E[y|x] Ef(x)) + (Ef(x) f(x))

3. obliczajc teraz E[(f (x) f(x))2 ] znajdujemy, e
E[(f (x) f(x))2 ] = Bias2 (w) + V ar(w)
22
/30
22/30
Bias-variance decomposition
High Variance
4. bd testowania ma
wysoki bias, ktry
maleje ze zoonoci
0.6
0.4
Prediction Error
0.8
1.0
Low Bias
Low Variance
0.2
3. bd testowania
zaczyna w pewnym
momencie rosn
High Bias
0.0
2. bd nauczania err
maleje
1.2
1. modele
wygenerowane ze
zwikszajcym si
stopniem zoonoci
10
15
20
25
30
35
Model Complexity (df)
5. odwrotnie wariancja
ronie ze zoonoci
(za Hastie et al., The elements of statistical learning, 2nd ed.)
23
/30
23/30
Bias-variance decomposition
Closest fit in population
1. MODEL SPACE to
obszar wszystkich
predykcji dla zaoonego
modelu
2. niebieskie koo to obszar
bdu z jakim widzimy
prawdziwe dane poprzez
zbir uczcy
Realization
Closest fit
Truth
Model bias
Estimation Bias
Shrunken fit
Estimation
Variance
RESTRICTED
MODEL SPACE
3. czarne kropki oznaczaj

znalezione rozwizania
4. te okrgi okrelaj
wariancj znalezionego
rozwizania
MODEL
SPACE
(za Hastie et al., The elements of statistical learning)
5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem

prawdziwej funkcji
6. regularyzacja rozwizania spowoduje zmian i dodatkowy bias estymacji
24
/30
24/30
Ocena modelu
1. jeli dostpnych jest wiele danych mona podzieli zbir na dane

1.1 uczce do uczenia parametrw modelu,
1.2 walidujce do szukania meta-parametrw, np. okrelania warunku stopu,
1.2.1 nie wolno uywa tu zbioru testujcego!
1.3 testujce do oceny bdu nauczonego modelu
2. typowy podzia to 50% 25% 25%
25
/30
25/30
Walidacja krzyowa
1. potrzebujemy metody okrelania bdu generalizacji gdy danych jest
ograniczona ilo
2. algorytm walidacji krzyowej
2.1 podziel zbir przykadw uczcych na K czci; zwykle K = 10 lub 5
2.2 dla k = 1, . . . , K
2.2.1 zbuduj model fk na zbiorze uczcym bez czci k
2.2.2 oblicz bd generalizacji na czci k-tej
2.3 oblicz bd walidacji krzyowej CV =
1
N
i=1
L(xi , yi , f k(i) )
3. jeli K = N , to procedur nazywamy one-out-of-n

3.1 taki estymator jest nie zbiasowany
3.2 ma wysok wariancj, bo zbiory s bardzo podobne do caego zbioru
4. dla K = 5 wariancja jest niska, ale bias moe ju stanowi problem

5. zwykle K = 10 jest dobrym kompromisem
26
/30
26/30
Metody bootstrap
1. idea polega na losowaniu, z N -elementowego zbioru danych Z , ze

zwracaniem B (np. B = 100) zbiorw bootstrap
1.1 pojedyncze przykady wystpuj wielokrotnie we wszystkich zbiorach
1.2 prawdopodobiestwo, e i-ty przykad jest w zbiorze b
(
)N
1
P (i Z ) = 1 1
1 e1 0.632
N
b
2. z kadego zbioru obliczany jest jaki model (czy predykcja) S(Z b )

3. to pozwala przyblia lepiej pewne statystyki, np.
1 B
2
S(Z b )/B
Vd
ar[S(Z)] = B1
b=1 (S() S ) gdzie S =
b
27
/30
27/30
Bd ze zbiorw bootstrap
1.
d boot =
Err
1.1
N
B
1 1
L(xi , yi , fb (xi ))
B N b=1 i=1
P (i Z b ) 1 e1 0.632
1.2 zbiory b nakadaj si, wic estymacja bdu bdzie zbyt optymistyczna
1.3 klasykator binarny z rwn liczb przykadw w kadej klasie, z etykietami
niezalenymi od wej: oczekiwana warto 0.5 (1 0.632) = 0.184
2.
d
Err
(1)
1
1
L(xi , yi , fb (xi ))
N i=1 |C 1 |
1
bC
3.
d
Err
(.632)
d
= 0.368 err + 0.632 Err
(1)
gdzie err jest bdem na zbiorze uczcym

28
/30
28/30
Receiver Operating Characteristic ROC

1. ROC: dziaanie binarnego klasykatora w
zalenoci od wybranego progu
1.1
1.2
1.3
1.4
1.5
TP true positives
TN true negatives
FP false positives
FP false positives
TPR true positive rate: frakcja TP/(TP+FN)
(sensitivity, recall rate)
1.6 FPR false positive rate: frakcja FP/(FP+TN)
(fall-out rate)
1.7 PPV positive precision value: frakcja
TP/(TP+FP) (precision)
1.8 ACC frakcja (TP+TN)/(P+N): dokadno
(accuracy)
(za Wikipedia)
2. AUC area under the curve: obrazuje szans, e klasykator zaliczy

raczej jako positive losowo wybrany przykad pozytywny ni losowo
wybrany przykad negatywny
3. rozszerzenie do problemw wieloklasowych jest trudne
29
/30
29/30
Matthews correlation coefcient, F1 score

1. ocena jakoci klasykatorw binarnych
TP TN FP FN
M CC =
(T P + F P )(T P + F N )(T N + F P )(T N + F N )
1.1 wygodna miara, gdy liczba przykadw w klasach nie jest wyrwnana
1.2 korelacja midzy prawdziwymi a przewidywanymi wartociami
1.2.1 +1 doskonaa, 1 przeciwna, 0 brak korelacji
2. miara F1 (F-score, F-measure)
F1 = 2
precision recall
precision + recall
F1 = (1+ 2 )
( 2
precision recall
precision) + recall
30
/30
30/30

sn14 03 Costfunction

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

sn14 03 Costfunction

Uploaded by

Copyright:

Available Formats

.

Funkcja kosztu, elementy statystycznej teorii nauczania

26 luty i 12 marca 2014

Bd dla problemu regresji

R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =

c(x, y, f (x))dP (y|x)

Igor T. Podolak, WMiI UJ

c(x, y, f (x))pemp (x, y)dxdy =

1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]

p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =

Model bdu a funkcja bdu

1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu

3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)

Funkcja bdu a gsto rozkadu bdu

Igor T. Podolak, WMiI UJ

Funkcja bdu a gsto rozkadu bdu

c(x, y, f (x)) = max(|| , 0)

1. dla problemu klasykacji, gdy naley x zaklasykowa do jednej z K klas

1. dla nieograniczonego zbioru uczcego zawsze mona

1. dla nieograniczonego zbioru uczcego zawsze mona

2. minimalizacja ryzyka empirycznego po wybraniu przestrzeni modeli M

2.1 oczywicie najlepiej by poszukiwana funkcja naleaa do M

1. strukturalna minimalizacja ryzyka

1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }

gdzie P(k) preferuje modele o niskiej zoonoci

1. strukturalna minimalizacja ryzyka

1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }

gdzie P(k) preferuje modele o niskiej zoonoci

2.1 wybr duej przestrzeni modeli M

2.3 parametr regularyzacji pozwala na wybr midzy dokadnoci

1. prosta metoda ograniczania wag

2. wymusza minimalizacj czci wag

2.2 wagi, ktre maj minimalny wpyw na skuteczno sieci

3. istnieje szereg bardziej precyzyjnych metod

Igor T. Podolak, WMiI UJ

Igor T. Podolak, WMiI UJ

1. na pewno naley minimalizowa liczb parametrw

1. bd nauczania to zwykle redni koszt klasykacji przykadw

4. podzia zbioru danych

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= (E[y|x] Ef(x)) + (Ef(x) f(x))

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= (E[y|x] Ef(x)) + (Ef(x) f(x))

Model Complexity (df)

(za Hastie et al., The elements of statistical learning, 2nd ed.)

3. czarne kropki oznaczaj

(za Hastie et al., The elements of statistical learning)

5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem

1. jeli dostpnych jest wiele danych mona podzieli zbir na dane

1.3 testujce do oceny bdu nauczonego modelu

2. typowy podzia to 50% 25% 25%

2.3 oblicz bd walidacji krzyowej CV =

3. jeli K = N , to procedur nazywamy one-out-of-n

4. dla K = 5 wariancja jest niska, ale bias moe ju stanowi problem

1. idea polega na losowaniu, z N -elementowego zbioru danych Z , ze

2. z kadego zbioru obliczany jest jaki model (czy predykcja) S(Z b )

gdzie err jest bdem na zbiorze uczcym

Receiver Operating Characteristic ROC

2. AUC area under the curve: obrazuje szans, e klasykator zaliczy