Professional Documents
Culture Documents
1
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
1/30
porwnywanie
model
bdy
aproksymacji
klasykacji
.
.
eksperymenty
dekompozycja
bdu
walidacja
krzyowa
.
melody
bootstrap
funkcje . ryzyka
i kosztu
.
spojrzenie
statystyczne
modele
uczenia
2
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
2/30
Ryzyko i koszt
.
Denicja
.
Niech (x, y, f (x)) X Y Y bdzie trjk wektor wejciowy x,
odpowied y i predykcja f (x). Wtedy mapowanie
c : X Y Y [0, ) speniajce c(x, y, y) = 0 x y nazywamy
funkcj
kosztu (loss function).
.
.
Uwaga
.
Koszt jest ograniczony od dou, a std nigdy nie otrzymamy dodatkowego
zysku
za jak niezwyk predykcj.
.
3
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
3/30
Klasykacja binarna
.
Denicja
.
Bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest klasykowany
niepoprawnie
{
c(x, y, f (x)) =
0,
1,
jeli f (x) = y
w przeciwnym przypadku
.
.
Uwaga
.
.Nie rozrnia midzy rnymi bdami typu false positive i false negative
4
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
4/30
Klasykacja binarna
.
Denicja
.
Asymetryczny bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest
klasykowany niepoprawnie biorc pod uwag
{
c(x, y, f (x)) =
0,
c(x),
jeli f (x) = y
w przeciwnym przypadku
gdzie
c() moe by funkcj zalen od zadanego wejcia.
.
.
Uwaga
.
.A rozrnianie kamieni od diamentw?
.
Uwaga
.
Mona
uzaleni bd od oczekiwanej odpowiedzi.
.
5
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
5/30
Soft margin
.
Denicja
.
Niech etykiet klasy bdzie okrelona przez sgn(f (x)). Bd typu soft margin
bierze pod uwag odlego od hiperpaszczyny rozdzielajcej
{
0,
jeli f (x) y
c(x, y, f (x)) = max(0, 1yf (x))
1 yf (x), w przeciwnym przypadku
.
.
Uwaga
.
Dla
. wygodnych oblicze brana jest pod uwag take kwadratowa posta.
.
Denicja
.
Bd
logistyczny deniujemy jako c(x, y, f (x)) = ln(1 + exp(yf (x)))
.
6
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
6/30
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
7/30
Bd testowania
.
Denicja
.
Jeli poza zbiorem uczcy jest take dostpny zbir testujcy {x1 , . . . , xm }
dla ktrego bdziemy przewidywa y , to naszym celem jest minimalizacja
oczekiwanego bdu
m
1
Rtest [f ] =
c(x , y, f (x ))dP (y|x )
m i=1 Y
.
.
Denicja
.
[Oczekiwane ryzyko] Jeli nie ma wiedzy o przykadach testujcych, to celem
jest minimalizacja oczekiwanego bdu dla wszystkich moliwych zbiorw
przykadw
X Y
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
8/30
Ryzyko empiryczne
1. niestety wszystko co jest dostpne w trakcie nauczania to dane uczce
2. prawdziwy rozkad P (x, y) moemy aproksymowa
pemp (x, y) =
m
1
x (x)yi (y)
m i=1 i
.
Denicja
.
Ryzyko empiryczne deniujemy jako
Remp [f ] =
.
X Y
m
1
c(xi , yi , f (xi ))
m i=1
9
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
9/30
Spojrzenie statystyczne
likelihood i log-likelihood
L[f ] =
ln p(yi |f, xi )
i=1
10
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
10/30
ln p(yi |f, xi )
i=1
1+y
1y
ln P (y = 1|f (x)) +
ln P (y = 1|f (x))
2
2
= ln P (y|f (x)) dla y {1, +1}
c(x, y, f (x)) =
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
11/30
Gaussian
squared loss
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
Huber
Huber loss
1.0
0.5
0.0
0.0
3
(yf(x))
1 2
2
2
1
p(y f (x)) = exp( )
2
2
c(x, y, f (x)) =
(yf(x))
{
c(x, y, f (x)) =
1 2
2
|| 2
{
p(y f (x)) =
|| <
w.p.p.
2
)
exp( 2
exp( 2 ||)
|| <
w.p.p.
12
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
12/30
Laplacian
wart. bezwzgl.
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
rozklad
- insensitive
1.0
0.5
0.0
0.0
3
(yf(x))
c(x, y, f (x)) = ||
1
p(y f (x)) = exp(||)
2
(yf(x))
exp( max(|| , 0)
2(1 + )
13
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
13/30
Entropia krzyowa
E(w) =
tk log yk + (1 tk ) log yk
14
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
14/30
Minimalizacja ryzyka
podstawowe podejcia
15
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
15/30
Minimalizacja ryzyka
podstawowe podejcia
f = arg minR[f ]
f M
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
15/30
Minimalizacja ryzyka
podstawowe podejcia
16
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
16/30
Minimalizacja ryzyka
podstawowe podejcia
2. regularyzacja
f = arg minR[f ] + f 2
f M
16
/30
16/30
Weight decay
(Hinton, 1989)
EC (w) = w2 =
wi2
wi
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
17/30
Eksperymenty
1, 2, 3 i 5 neuronw
8
6
6
6
6
igor.podolak@uj.edu.pl
sieci wielowarstwowe
18
/30
18/30
Eksperymenty
7, 9, 12 i 16 neuronw
8
6
6
6
6
igor.podolak@uj.edu.pl
sieci wielowarstwowe
19
/30
19/30
Eksperymenty
21x9 oraz 17x11 neuronw
8
6
6
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
20/30
Eksperymenty
cele porwnywania modeli
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
21/30
Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
22
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
22/30
Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
22
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
22/30
Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
22/30
Bias-variance decomposition
High Variance
4. bd testowania ma
wysoki bias, ktry
maleje ze zoonoci
0.6
0.4
Prediction Error
0.8
1.0
Low Bias
Low Variance
0.2
3. bd testowania
zaczyna w pewnym
momencie rosn
High Bias
0.0
2. bd nauczania err
maleje
1.2
1. modele
wygenerowane ze
zwikszajcym si
stopniem zoonoci
10
15
20
25
30
35
5. odwrotnie wariancja
ronie ze zoonoci
23
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
23/30
Bias-variance decomposition
Closest fit in population
1. MODEL SPACE to
obszar wszystkich
predykcji dla zaoonego
modelu
2. niebieskie koo to obszar
bdu z jakim widzimy
prawdziwe dane poprzez
zbir uczcy
Realization
Closest fit
Truth
Model bias
Estimation Bias
Shrunken fit
Estimation
Variance
RESTRICTED
MODEL SPACE
MODEL
SPACE
igor.podolak@uj.edu.pl
sieci wielowarstwowe
24
/30
24/30
Ocena modelu
25
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
25/30
Walidacja krzyowa
1. potrzebujemy metody okrelania bdu generalizacji gdy danych jest
ograniczona ilo
2. algorytm walidacji krzyowej
2.1 podziel zbir przykadw uczcych na K czci; zwykle K = 10 lub 5
2.2 dla k = 1, . . . , K
2.2.1 zbuduj model fk na zbiorze uczcym bez czci k
2.2.2 oblicz bd generalizacji na czci k-tej
1
N
i=1
L(xi , yi , f k(i) )
26
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
26/30
Metody bootstrap
(
)N
1
P (i Z ) = 1 1
1 e1 0.632
N
b
27
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
27/30
Bd ze zbiorw bootstrap
1.
d boot =
Err
1.1
N
B
1 1
L(xi , yi , fb (xi ))
B N b=1 i=1
P (i Z b ) 1 e1 0.632
1.2 zbiory b nakadaj si, wic estymacja bdu bdzie zbyt optymistyczna
1.3 klasykator binarny z rwn liczb przykadw w kadej klasie, z etykietami
niezalenymi od wej: oczekiwana warto 0.5 (1 0.632) = 0.184
2.
d
Err
(1)
1
1
L(xi , yi , fb (xi ))
N i=1 |C 1 |
1
bC
3.
d
Err
(.632)
d
= 0.368 err + 0.632 Err
(1)
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
28/30
TP true positives
TN true negatives
FP false positives
FP false positives
TPR true positive rate: frakcja TP/(TP+FN)
(sensitivity, recall rate)
1.6 FPR false positive rate: frakcja FP/(FP+TN)
(fall-out rate)
1.7 PPV positive precision value: frakcja
TP/(TP+FP) (precision)
1.8 ACC frakcja (TP+TN)/(P+N): dokadno
(accuracy)
(za Wikipedia)
igor.podolak@uj.edu.pl
sieci wielowarstwowe
29
/30
29/30
TP TN FP FN
M CC =
(T P + F P )(T P + F N )(T N + F P )(T N + F N )
1.1 wygodna miara, gdy liczba przykadw w klasach nie jest wyrwnana
1.2 korelacja midzy prawdziwymi a przewidywanymi wartociami
1.2.1 +1 doskonaa, 1 przeciwna, 0 brak korelacji
F1 = 2
precision recall
precision + recall
F1 = (1+ 2 )
( 2
precision recall
precision) + recall
30
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/30
30/30