You are on page 1of 34

.

Funkcja kosztu, elementy statystycznej teorii nauczania


Igor T. Podolak
Uniwersytet Jagielloski w Krakowie

26 luty i 12 marca 2014

1
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

1/30

porwnywanie
model

bdy
aproksymacji
klasykacji

.
.

eksperymenty

dekompozycja
bdu

walidacja
krzyowa

.
melody
bootstrap

funkcje . ryzyka
i kosztu

.
spojrzenie
statystyczne

modele
uczenia

2
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

2/30

Ryzyko i koszt

.
Denicja
.
Niech (x, y, f (x)) X Y Y bdzie trjk wektor wejciowy x,
odpowied y i predykcja f (x). Wtedy mapowanie
c : X Y Y [0, ) speniajce c(x, y, y) = 0 x y nazywamy
funkcj
kosztu (loss function).
.
.
Uwaga
.
Koszt jest ograniczony od dou, a std nigdy nie otrzymamy dodatkowego
zysku
za jak niezwyk predykcj.
.

3
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

3/30

Klasykacja binarna

.
Denicja
.
Bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest klasykowany
niepoprawnie
{

c(x, y, f (x)) =

0,
1,

jeli f (x) = y
w przeciwnym przypadku

.
.
Uwaga
.
.Nie rozrnia midzy rnymi bdami typu false positive i false negative

4
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

4/30

Klasykacja binarna
.
Denicja
.
Asymetryczny bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest
klasykowany niepoprawnie biorc pod uwag
{

c(x, y, f (x)) =

0,
c(x),

jeli f (x) = y
w przeciwnym przypadku

gdzie
c() moe by funkcj zalen od zadanego wejcia.
.
.
Uwaga
.
.A rozrnianie kamieni od diamentw?
.
Uwaga
.
Mona
uzaleni bd od oczekiwanej odpowiedzi.
.
5
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

5/30

Soft margin
.
Denicja
.
Niech etykiet klasy bdzie okrelona przez sgn(f (x)). Bd typu soft margin
bierze pod uwag odlego od hiperpaszczyny rozdzielajcej
{

0,
jeli f (x) y
c(x, y, f (x)) = max(0, 1yf (x))
1 yf (x), w przeciwnym przypadku
.
.
Uwaga
.
Dla
. wygodnych oblicze brana jest pod uwag take kwadratowa posta.
.
Denicja
.
Bd
logistyczny deniujemy jako c(x, y, f (x)) = ln(1 + exp(yf (x)))
.

6
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

6/30

Bd dla problemu regresji


.
Denicja
.
Bd
regresji c(x, y, f (x)) = c(f (x) y)
.
.
Denicja
.
Kwadratowy
bd regresji c(x, y, f (x)) = (f (x) y)2
.
.
Denicja
.
.Dla = (f (x) y)) bd regresji c() = max(|| , 0) = ||
.
Uwaga
.
.Taka denicja nie bierze pod uwag bdw mniejszych od .
.
Denicja
.
.Dla = 0 bd redukuje si do bdu 1 .
7
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

7/30

Bd testowania
.
Denicja
.
Jeli poza zbiorem uczcy jest take dostpny zbir testujcy {x1 , . . . , xm }
dla ktrego bdziemy przewidywa y , to naszym celem jest minimalizacja
oczekiwanego bdu
m
1
Rtest [f ] =
c(x , y, f (x ))dP (y|x )
m i=1 Y

.
.
Denicja
.
[Oczekiwane ryzyko] Jeli nie ma wiedzy o przykadach testujcych, to celem
jest minimalizacja oczekiwanego bdu dla wszystkich moliwych zbiorw
przykadw

R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =

X Y

c(x, y, f (x))dP (y|x)


8

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

8/30

Ryzyko empiryczne
1. niestety wszystko co jest dostpne w trakcie nauczania to dane uczce
2. prawdziwy rozkad P (x, y) moemy aproksymowa

pemp (x, y) =

m
1
x (x)yi (y)
m i=1 i

.
Denicja
.
Ryzyko empiryczne deniujemy jako

Remp [f ] =
.

X Y

c(x, y, f (x))pemp (x, y)dxdy =

m
1
c(xi , yi , f (xi ))
m i=1

9
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

9/30

Spojrzenie statystyczne
likelihood i log-likelihood

1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]


interesuje nas take rozkad y przy danym x, tj. P (y|x)
2. moemy si wic stara znale f , ktra jest najbardziej
prawdopodobna, e generuje dane y na podstawie danych x
.
Denicja
.
Likelihood prbki (x1 , y1 ), . . . , (xm , ym ) dla zalenoci funkcyjnej f jest
dane przez
m

p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =


p(xi , yi |f ) =
p(yi |f, xi )p(xi )
i=1
i=1
.
3. p(xi ) s niezalene od f , jeli wemiemy ln to maksymalizacja likelihood
bdzie w problemach regresji rwnowana minimalizacji log-likelihood

L[f ] =

ln p(yi |f, xi )

i=1
10
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

10/30

Model bdu a funkcja bdu


L[f ] =

ln p(yi |f, xi )

i=1

1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu


wybierzemy zgodnie z c(x, y, f (x)) = ln p(y|x, f )
2. w problemach klasykacji interesuje nas modelowanie P (y|f (x)), gdzie
y jest etykiet ze skoczonego zbioru. Dla binarnego problemu
klasykacji mamy odpowiedni funkcj kosztu bdzie

1+y
1y
ln P (y = 1|f (x)) +
ln P (y = 1|f (x))
2
2
= ln P (y|f (x)) dla y {1, +1}

c(x, y, f (x)) =

3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)


11
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

11/30

Funkcja bdu a gsto rozkadu bdu


2.5

Gaussian
squared loss

2.0

2.0

1.5

1.5
c(x,y,f(x))

c(x,y,f(x))

2.5

1.0
0.5

Huber
Huber loss

1.0
0.5

0.0

0.0
3

(yf(x))

1 2

2
2
1
p(y f (x)) = exp( )
2
2

c(x, y, f (x)) =

(yf(x))

{
c(x, y, f (x)) =

1 2
2
|| 2

{
p(y f (x)) =

|| <
w.p.p.
2

)
exp( 2
exp( 2 ||)

|| <
w.p.p.
12

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

12/30

Funkcja bdu a gsto rozkadu bdu


2.5

Laplacian
wart. bezwzgl.

2.0

2.0

1.5

1.5
c(x,y,f(x))

c(x,y,f(x))

2.5

1.0
0.5

rozklad
- insensitive

1.0
0.5

0.0

0.0
3

(yf(x))

c(x, y, f (x)) = ||
1
p(y f (x)) = exp(||)
2

(yf(x))

c(x, y, f (x)) = max(|| , 0)


p(y f (x)) =

exp( max(|| , 0)
2(1 + )

13
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

13/30

Entropia krzyowa

E(w) =

tk log yk + (1 tk ) log yk

1. dla problemu klasykacji, gdy naley x zaklasykowa do jednej z K klas


2. yk oraz tk traktujemy jako prawdopodobiestwo przynalenoci do
danej klasy o indeksie k

14
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

14/30

Minimalizacja ryzyka
podstawowe podejcia

1. dla nieograniczonego zbioru uczcego zawsze mona


1.1 znale f, ktra bezbdnie rozpoznaje wszystkie etykiety przykadw
uczcych,
1.2 a jednoczenie niepoprawnie przewiduje wszystkie inne eytkiety
1.3 tak sytuacj nazywamy zbytnim dopasowaniem (ang. overtting)

15
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

15/30

Minimalizacja ryzyka
podstawowe podejcia

1. dla nieograniczonego zbioru uczcego zawsze mona


1.1 znale f, ktra bezbdnie rozpoznaje wszystkie etykiety przykadw
uczcych,
1.2 a jednoczenie niepoprawnie przewiduje wszystkie inne eytkiety
1.3 tak sytuacj nazywamy zbytnim dopasowaniem (ang. overtting)

2. minimalizacja ryzyka empirycznego po wybraniu przestrzeni modeli M


i minimalizacja ryzyka empirycznego

f = arg minR[f ]
f M

2.1 oczywicie najlepiej by poszukiwana funkcja naleaa do M


2.2 zwikszanie przestrzeni modeli zwiksza szans zbytniego dopasowania
2.3 to najczsciej stosowany model
15
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

15/30

Minimalizacja ryzyka
podstawowe podejcia

1. strukturalna minimalizacja ryzyka

1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }


1.2 minimalizacja ryzyka empirycznego z dodan funkcj kary
f = arg min [R[f ] + P(k)]
f Mk ,kN

gdzie P(k) preferuje modele o niskiej zoonoci


1.3 model kocowy moe by sum modeli czstkowych
1.4 przykadem takiego algorytmu jest Adaboost

16
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

16/30

Minimalizacja ryzyka
podstawowe podejcia

1. strukturalna minimalizacja ryzyka

1.1 wybieramy sekwencj przestrzeni modeli {Mk , k = 1, 2, . . . , }


1.2 minimalizacja ryzyka empirycznego z dodan funkcj kary
f = arg min [R[f ] + P(k)]
f Mk ,kN

gdzie P(k) preferuje modele o niskiej zoonoci


1.3 model kocowy moe by sum modeli czstkowych
1.4 przykadem takiego algorytmu jest Adaboost

2. regularyzacja

2.1 wybr duej przestrzeni modeli M


2.2 zdeniowanie regularyzatora f w przestrzeni M i minimalizacja

f = arg minR[f ] + f 2
f M

2.3 parametr regularyzacji pozwala na wybr midzy dokadnoci


dopasowania a zoonoci modelu
2.4 znalezienie waciwego wymaga dodatkowej walidacji
2.5 dla SN jest to zwykle jakie podejcie polegajce na ograniczaniu wag i
usuwaniu zbdnych
Igor T. Podolak,
UJ igor.podolak@uj.edu.pl
sieci wielowarstwowe
2.6 WMiI
bardzo
skuteczne

16

/30

16/30

Weight decay
(Hinton, 1989)

1. prosta metoda ograniczania wag

EC (w) = w2 =

wi2

wi

2. wymusza minimalizacj czci wag


2.1 wagi, ktre maj duy wpyw na skuteczno sieci
2.1.1 w BP s stale wzmacniane
2.1.2 osigaj due wartoci

2.2 wagi, ktre maj minimalny wpyw na skuteczno sieci


2.2.1 ich warto bezwzgldna stale malej
2.2.2 bez regularyzacji przyjmuj przypadkowe wartoci le wpywajc na
generalizacj
2.2.3 mog by usuwane dojciu blisko zera
2.2.4 proces usuwania wag musi by kontrolowany, np. przez walidacj

3. istnieje szereg bardziej precyzyjnych metod


17
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

17/30

Eksperymenty
1, 2, 3 i 5 neuronw
8

6
6

6
6

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

18

/30

18/30

Eksperymenty
7, 9, 12 i 16 neuronw
8

6
6

6
6

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

19

/30

19/30

Eksperymenty
21x9 oraz 17x11 neuronw
8

6
6

1. na pewno naley minimalizowa liczb parametrw


1.1 model prostszy jest szybszy i atwiejszy w nauczaniu
1.2 model z mniejsz liczb parametrw powinien dawa lepszy poziom
generalizacji
1.3 Brzytwa Ockhama (12851347) Entia non sunt multiplicanda praeter
necessitatem (Nie naley mnoy bytw ponad potrzeb)
20
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

20/30

Eksperymenty
cele porwnywania modeli

1. bd nauczania to zwykle redni koszt klasykacji przykadw


1 N
i=1 c(x, y, f (x))
N
2. bd testowania albo generalizacji to oczekiwana warto koszt
klasykacji przykadw R[f ] = E[L(X, Y, f )], gdzie X , Y s losowane
z ich cznego rozkadu
3. w trakcie nauczania mamy dwa podstawowe cele
3.1 okrelenie jakoci dziaania rnych modeli tak, by mona byo wybra
najlepszy z nich,
3.2 po wyborze modelu, okrelenie jego bdu generalizacji na nowych danych

4. podzia zbioru danych


4.1 jeli mamy duo danych, najlepszym wyborem bdzie jego podzia na czci
4.1.1 trenujc do nauczania modelu,
4.1.2 walidujc do okrelania najlepszych meta-parametrw modelu,
4.1.3 testujc do okrelania bdu generalizacji
21
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

21/30

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci

22
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

22/30

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)

= (E[y|x] Ef(x)) + (Ef(x) f(x))

22
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

22/30

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 ))2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)

= (E[y|x] Ef(x)) + (Ef(x) f(x))


3. obliczajc teraz E[(f (x) f(x))2 ] znajdujemy, e
E[(f (x) f(x))2 ] = Bias2 (w) + V ar(w)
22
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

22/30

Bias-variance decomposition
High Variance

4. bd testowania ma
wysoki bias, ktry
maleje ze zoonoci

0.6
0.4

Prediction Error

0.8

1.0

Low Bias

Low Variance

0.2

3. bd testowania
zaczyna w pewnym
momencie rosn

High Bias

0.0

2. bd nauczania err
maleje

1.2

1. modele
wygenerowane ze
zwikszajcym si
stopniem zoonoci

10

15

20

25

30

35

Model Complexity (df)

5. odwrotnie wariancja
ronie ze zoonoci

(za Hastie et al., The elements of statistical learning, 2nd ed.)

23
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

23/30

Bias-variance decomposition
Closest fit in population

1. MODEL SPACE to
obszar wszystkich
predykcji dla zaoonego
modelu
2. niebieskie koo to obszar
bdu z jakim widzimy
prawdziwe dane poprzez
zbir uczcy

Realization
Closest fit
Truth
Model bias
Estimation Bias

Shrunken fit

Estimation
Variance

RESTRICTED
MODEL SPACE

3. czarne kropki oznaczaj


znalezione rozwizania
4. te okrgi okrelaj
wariancj znalezionego
rozwizania

MODEL
SPACE

(za Hastie et al., The elements of statistical learning)

5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem


prawdziwej funkcji
6. regularyzacja rozwizania spowoduje zmian i dodatkowy bias estymacji
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

24

/30

24/30

Ocena modelu

1. jeli dostpnych jest wiele danych mona podzieli zbir na dane


1.1 uczce do uczenia parametrw modelu,
1.2 walidujce do szukania meta-parametrw, np. okrelania warunku stopu,
1.2.1 nie wolno uywa tu zbioru testujcego!

1.3 testujce do oceny bdu nauczonego modelu

2. typowy podzia to 50% 25% 25%

25
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

25/30

Walidacja krzyowa
1. potrzebujemy metody okrelania bdu generalizacji gdy danych jest
ograniczona ilo
2. algorytm walidacji krzyowej
2.1 podziel zbir przykadw uczcych na K czci; zwykle K = 10 lub 5
2.2 dla k = 1, . . . , K
2.2.1 zbuduj model fk na zbiorze uczcym bez czci k
2.2.2 oblicz bd generalizacji na czci k-tej

2.3 oblicz bd walidacji krzyowej CV =

1
N

i=1

L(xi , yi , f k(i) )

3. jeli K = N , to procedur nazywamy one-out-of-n


3.1 taki estymator jest nie zbiasowany
3.2 ma wysok wariancj, bo zbiory s bardzo podobne do caego zbioru

4. dla K = 5 wariancja jest niska, ale bias moe ju stanowi problem


5. zwykle K = 10 jest dobrym kompromisem

26
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

26/30

Metody bootstrap

1. idea polega na losowaniu, z N -elementowego zbioru danych Z , ze


zwracaniem B (np. B = 100) zbiorw bootstrap
1.1 pojedyncze przykady wystpuj wielokrotnie we wszystkich zbiorach
1.2 prawdopodobiestwo, e i-ty przykad jest w zbiorze b

(
)N
1
P (i Z ) = 1 1
1 e1 0.632
N
b

2. z kadego zbioru obliczany jest jaki model (czy predykcja) S(Z b )


3. to pozwala przyblia lepiej pewne statystyki, np.
1 B
2
S(Z b )/B
Vd
ar[S(Z)] = B1
b=1 (S() S ) gdzie S =
b

27
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

27/30

Bd ze zbiorw bootstrap
1.
d boot =
Err
1.1

N
B
1 1
L(xi , yi , fb (xi ))
B N b=1 i=1

P (i Z b ) 1 e1 0.632

1.2 zbiory b nakadaj si, wic estymacja bdu bdzie zbyt optymistyczna
1.3 klasykator binarny z rwn liczb przykadw w kadej klasie, z etykietami
niezalenymi od wej: oczekiwana warto 0.5 (1 0.632) = 0.184

2.
d
Err

(1)

1
1
L(xi , yi , fb (xi ))
N i=1 |C 1 |
1
bC

3.

d
Err

(.632)

d
= 0.368 err + 0.632 Err

(1)

gdzie err jest bdem na zbiorze uczcym


28
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

28/30

Receiver Operating Characteristic ROC


1. ROC: dziaanie binarnego klasykatora w
zalenoci od wybranego progu
1.1
1.2
1.3
1.4
1.5

TP true positives
TN true negatives
FP false positives
FP false positives
TPR true positive rate: frakcja TP/(TP+FN)
(sensitivity, recall rate)
1.6 FPR false positive rate: frakcja FP/(FP+TN)
(fall-out rate)
1.7 PPV positive precision value: frakcja
TP/(TP+FP) (precision)
1.8 ACC frakcja (TP+TN)/(P+N): dokadno
(accuracy)

(za Wikipedia)

2. AUC area under the curve: obrazuje szans, e klasykator zaliczy


raczej jako positive losowo wybrany przykad pozytywny ni losowo
wybrany przykad negatywny
3. rozszerzenie do problemw wieloklasowych jest trudne
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

29

/30

29/30

Matthews correlation coefcient, F1 score


1. ocena jakoci klasykatorw binarnych

TP TN FP FN
M CC =
(T P + F P )(T P + F N )(T N + F P )(T N + F N )
1.1 wygodna miara, gdy liczba przykadw w klasach nie jest wyrwnana
1.2 korelacja midzy prawdziwymi a przewidywanymi wartociami
1.2.1 +1 doskonaa, 1 przeciwna, 0 brak korelacji

2. miara F1 (F-score, F-measure)

F1 = 2

precision recall
precision + recall

F1 = (1+ 2 )

( 2

precision recall
precision) + recall

30
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/30

30/30

You might also like