Professional Documents
Culture Documents
PRACA DYPLOMOWA
Rafaª Topolnicki
sªowa kluczowe:
estymacja semiparametryczna
streszczenie:
Praca zawiera opis wybranych metod estymacji krzywej ROC ze
szczególnym uwzgl¦dnieniem estymatorów semiparametrycznych w modelu
binormalnym. Zaproponowano modykacje istniej¡cych w literaturze
estymatorów oraz porównano ich efektywno±ci.
Wrocªaw 2014
Spis treści
Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Rozdział 1. Krzywa ROC – definicja i własności . . . . . . . . . . . 3
Rozdział 2. Estymacja krzywej ROC . . . . . . . . . . . . . . . . . . . 7
2.1. Estymacja nieparametryczna . . . . . . . . . . . . . . . . . . . . . 8
2.1.1. Empiryczna krzywa ROC . . . . . . . . . . . . . . . . . . . 8
2.1.2. Wygładzony estymator krzywej ROC . . . . . . . . . . . . 9
2.2. Estymacja semiparametryczna w modelu binormalnym . . . . . . . 11
2.2.1. Uogólniona metoda najmniejszych kwadratów – GLS . . . 11
2.2.2. Estymator najmniejszej odległości – MDE . . . . . . . . . 17
2.2.3. Estymator Davidova – DAV . . . . . . . . . . . . . . . . . 18
2.3. Modyfikacje estymatorów semiparametrycznych . . . . . . . . . . . 22
Rozdział 3. Porównanie estymatorów krzywej ROC . . . . . . . . . 25
3.1. Estymatory semiparametryczne . . . . . . . . . . . . . . . . . . . . 25
3.2. Estymatory nieparametryczne i semiparametryczne . . . . . . . . . 30
3.3. Odporność estymatorów na niespełnienie założenia o normalności . 34
Rozdział 4. Estymacja krzywej ROC w pakiecie R. Analiza
danych rzeczywistych . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Wstęp
Krzywe ROC (Receiver Operating Characteristic) są szeroko stosowa-
nym narzędziem do oceny poprawności wszelkiego rodzaju klasyfikatorów
binarnych, procedur i testów diagnostycznych. Krzywe te znajdują swoje
zastosowanie również w teorii wykrywania sygnałów, uczeniu maszynowym
oraz przy przeprowadzaniu pewnych analiz dyskryminacyjnych [2]. Historia
wykorzystania krzywych ROC sięga czasów drugiej wojny światowej kiedy to
były one używane w celu określenia jak dobrze odbiorniki radarowe rozróżniają
sygnały emitowane przez nieprzyjacielskie samoloty od przypadkowych zakłó-
ceń. Obecnie krzywe ROC stosowane są w wielu dziedzinach nauki i techniki
począwszy od nauk technicznych, finansowych przez medyczne aż do nauk
społecznych. Ze względu na swoje szerokie zastosowanie w tematyka związana
z krzywymi ROC zagościła nawet na łamach czasopism popularnonaukowych
[10].
Załóżmy, że dysponujemy dwiema niezależnymi próbami losowymi Xm =
(X1 , . . . , Xm ) oraz Yn = (Y1 , . . . , Yn ) opisującymi obiekty należące do dwóch
klas. Przykładowo, może to być wynik testu medycznego w odpowiednio
grupie osób zdrowych i grupie osób chorych. Zakładamy przy tym, że ob-
serwacje te pochodzą z tych samych (w ramach klasy) absolutnie ciągłych
rozkładów opisanych przez nieznane dystrybuanty, odpowiednio F i G. W
przytoczonym przykładzie estymator krzywej ROC może być wykorzystany
do przeprowadzenia analizy jakości stosowanego testu w problemie klasyfikacji
do grupy osób zdrowych albo chorych.
W pracy omówiony zostanie głównie problem semiparametrycznej esty-
macji krzywej ROC w modelu binormalnym. W rozdziale 1 przedstawiony
zostanie rozważany model matematyczny, definicja krzywej ROC oraz jej
podstawowe własności. Rozdział 2 poświęcony jest różnym metodą estyma-
cji krzywej ROC – w podrozdziale 2.1 przedstawione zostanie nieparame-
tryczne podejście do zagadnienia estymacji krzywej ROC a w podrozdziale
2.2 omówione zostaną semiparametryczne metody estymacji ze szczególnym
uwzględnieniem modelu binormalnego. W pracy będą rozważane trzy metody
semiparametrycznej estymacji krzywej ROC – estymator uogólnionej metody
najmniejszych kwadratów, estymator najmniejszej odległości oraz pewna jego
modyfikacja, tzw. estymator Davidova.
W podrozdziale 2.3 zaproponowane zostaną własne modyfikacje estymato-
rów semiparametrycznych spotykanych w literaturze.
W rozdziale 3 zajmiemy się symulacyjnym porównaniem wszystkich roz-
ważanych estymatorów. Przebadana zostanie efektywność rozważanych esty-
matorów przy zmiennej liczności prób oraz zmiennych parametrach modelu
binormalnego. W podrozdziale 3.3 przedstawione zostaną wyniki dotyczące
2 Wstęp
1.0
0.8
0.8
0.6
0.6
SE
SP
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1−SP 1−SE
n→∞
sup |ROCm,n (t) − ROC(t)| −−−→ 0 p.n.
0¬t¬1
2.1. Estymacja nieparametryczna 9
gdzie
0, gdy x < 0,
T (x) = r(x), gdy 0 ¬ x ¬ 1,
1, gdy x > 1
oraz r : [0, 1] → [0, 1] jest ciągłą, ściśle rosnącą funkcją taką, że r(0) = 0
i r(1) = 1. Tak zdefiniowane estymatory dystrybuant są ciągłe. Dodatkowo na
przedziale [L, U ] są ściśle rosnące oraz osiągają wszystkie wartości z przedziału
[0, 1]. Różniczkowalność estymatorów F̂m i Ĝn na tym samym przedziale
możemy zapewnić poprzez odpowiedni wybór funkcji r jako różniczkowalnej
0 0
oraz takiej, że r+ (0) = r− (1) = 0.
Podamy dwa fakty mówiące o własnościach wygładzonego estymatora
dystrybuanty.
Fakt 2. Dla każdego x ∈ R zachodzi
1 1
|F̂m (x) − Fm (x)| ¬ , |Ĝn (x) − Gn (x)| ¬ .
m n
Fakt 3. Zachodzą następujące równości
! !
P lim sup |F̂m (x) − F (x)| = 0 = 1, P
m→∞ x∈R
lim sup |Ĝn (x) − G(x)| = 0 = 1.
n→∞ x∈R
Wprost z powyższego równania widać, że F̂m−1 (t) jest ciągła i ściśle rosnąca dla
t ∈ [0, 1]. Ponieważ estymator Ĝn (t) jest ściśle rosnący na [L, U ], to złożenie
Ĝn (F̂m−1 (t)) jest ściśle rosnące na [0, 1]. Stąd otrzymujemy, że wygładzony
estymator krzywej ROC postaci
[ m,n (t) = 1 − Ĝn F̂m−1 (1 − t) , t ∈ [0, 1]
ROC (2.4)
sup |ROC
[ m,n (t) − ROC(t)| → 0,
t∈[0,1]
gdzie
Σ = C[λΣ1 + Σ2 ]C, (2.8)
a C jest macierzą diagonalną postaci
gdzie A = [δij σφ(µ+σΦ−1 (αi ))/φ(Φ−1 (αi ))]i,j=1,2,...,k jest macierzą diagonalną,
Σ0 = [min{αi , αj } − αi αj ]i,j=1,2,...,k , δij to delta Kroneckera a funkcja φ to
gęstość standardowego rozkładu normalnego.
Dowód. Dla prostoty zapisu przyjmijmy oznaczenie
√ √ β̂i − βi
n(Φ−1 (β̂i ) − Φ−1 (βi )) = n (n)
.
φ(Φ−1 (ηi ))
√ √
n(Φ−1 (β̂i ) − Φ−1 (βi )) = nC (n) (β̂ − β).
n→∞
Z twierdzenia 2 wiemy, że β̂i = ROCm,n (αi ) −−−→ ROC(αi ) = βi p.n., więc
(n) n→∞ n→∞
ηi −−−→ βi p.n. Stąd C (n) −−−→ C p.n., gdzie C jest macierzą określoną
wzorem (2.9). W świetle udowodnionej wcześniej zbieżności (2.12), w oparciu
o twierdzenie Słuckiego, przy n → ∞ otrzymujemy drugą część lematu,
mianowicie
√ −1
D
n Φ (β̂) − Φ−1 (β) −−→ N (0, C[λΣ1 + Σ2 ]C).
Okazuje się, że asymptotyczny rozkład wektora [µ̂, σ̂]T jest taki, jak gdyby
macierz kowariancji Σ była znana. Mówi o tym następujące twierdzenie.
Twierdzenie 5. Przy założeniach lematu 1, przy n → ∞,
√ µ̂ − µ D
" #
n −−→ N 0, (M T Σ−1 M )−1 .
σ̂ − σ
2.2. Estymacja semiparametryczna w modelu binormalnym 15
Dowód. Oznaczmy przez θ wektor [µ, σ]T i podobnie niech θ̂ = [µ̂, σ̂]T . Gdy-
by macierz Σ była znana, to estymator uogólnionej metody najmniejszych
kwadratów byłby postaci
1.0
1.0
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
● ●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
0.8
0.8
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.6
0.6
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
SE
SE
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
0.4
0.4
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.2
0.2
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●●
●
●●
●
●●
●
●
● ●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
0.0
0.0
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1−SP 1−SP
Rysunek 2.1: Przykład estymatorów krzywej ROC dla tych samych prób losowych
o licznościach n = m = 100. Niebieska linia na lewym panelu przedstawia esty-
mator uzyskany przy wyborze 9 równoodległych wartości αi (niebieskie znaczniki
przedstawiają punkty (αi , β̂i )). Na prawym panelu czerwoną zaznaczono natomiast
estymator krzywej ROC uzyskany przy adaptacyjnym wyborze punktów αj dla
q = 8 (czerwone znaczniki przedstawiają punkty (αj , β̂j )).
Z bh
∂I i
= −2 Φ−1 (ROCm,n (t)) − (µ + σΦ−1 (t)) Φ−1 (t)dt.
∂σ a
∂µ2 ∂µ∂σ
" #
1 Ŝ3
H=
= 2(b − a) .
∂ 2I ∂ 2I
Ŝ3 Ŝ4
∂µ∂σ ∂σ 2
Z twierdzenia Jensena wynika, że wyznacznik macierzy H jest dodatni
!2
Z b
2 1 −1 2 1 Z b −1
det(H) = 4(b − a) (Φ (t)) dt − Φ (t)dt > 0.
b−a a b−a a
Ponieważ pierwszy minor macierzy H również jest dodatni, punkt (µ̂, σ̂) jest
rozwiązaniem problemu minimalizacyjnego (2.18).
W dalszej części tego podrozdziału zbadamy właściwości asymptotyczne
estymatorów µ̂ i σ̂. Podobnie jak w przypadku estymatorów z rozdziału 2.2.1,
uzyskanych uogólnioną metodą najmniejszych kwadratów, zakładać będziemy,
że rozmiary prób losowych powiązane są ze sobą w taki sposób, że
n/m → λ > 0, gdy n → ∞. (2.21)
Oznacza to, że zarówno estymatory µ̂, σ̂ jak i wartości a i b zależą od m,
będziemy je więc oznaczać przez odpowiednio µ̂m , σ̂m , am i bm . Podobnie
zamiast ROCm,n (·) będziemy pisali ROCm (·). Poniższy lemat i twierdzenie
mówią o asymptotycznym własnościach tych wielkości.
20 Rozdział 2. Estymacja krzywej ROC
otrzymujemy
S1 = µ, S2 = σ, S3 = 0, S4 = 1.
Pokażemy jedynie pierwszą z tych równości bowiem drugą dowodzi się podob-
nie a dwie ostatnie wynikają bezpośrednio z (2.23).
Z 1 Z 1
S1 = Φ−1 (ROC(t)))dt = Φ−1 (1 − G(F −1 (1 − t)))dt
0Z 0
1 Z 1
−1 −1
=− Φ (G(F (1 − t)))dt − Φ−1 (G(F −1 (t)))dt
Z01 µ !! 0
−1 F −1 (t) − Z −1
=− Φ Φ 1
σ
dt = − (σF −1 (t) − µ)dt
0 σ 0
= −(σ · 0 − µ) = µ
Z
bm Z bm
¬ Φ−1 (ROCm (t)) − Φ−1 (ROC(t))dt
am am
Z
bm Z 1
+ Φ−1 (ROC(t))dt − Φ−1 (ROC(t))dt .
am 0
¬ max{Φ̇−1 (ROC(am )), Φ̇−1 (ROC(bm ))} sup |ROCm (t) − ROC(t)|
0¬t¬1
√
Oczywiście Φ̇−1 (ROC(am )) → ∞, pokażemy jednak że
jest rzędu OP (1/ n). √
Φ̇−1 (ROC(am )) = oP √
( m), co oznacza, że zbieżność ta jest na tyle wolna, że po
pomnożeniu przez 1/ m wyrażenie zbiega do 0 według prawdopodobieństwa.
Dowód dla Φ̇−1 (ROC(bm )) jest analogiczny.
Dowód
√ przeprowadzimy w dwóch krokach. Najpierw √ pokażemy, że am =
OP (1/ m) a następnie, że Φ̇−1 (ROC(am )) = oP ( m).
Krok 1: Wróćmy do rozkładu am przedstawionego w równaniu (2.22). Wyra-
żenie w nawiasie kwadratowym, na mocy nierówności Dvoretzkiego-Kiefera-
-Wolfowitza, zbiega w tempie wykładniczym do zera według prawdopodobień-
stwa. Człon 1/m również zbiega do zera więc wystarczy zająć się zbieżnością
wyrażenia 1 − F (Ym:m ). Ponieważ jednak
√ 1 − F (Ym:m ) > 0 musimy pokazać
jedynie, że E(1 − F (Ym:m )) = O(1/ m). Mamy
Z ∞
E(1 − F (Ym:m )) = 1 − E(F (Ym:m )) = 1 − (1 − ΦY (t))m φ(t)dt
Z ∞ Z ∞−∞
= ΦY (t)m φ(t)dt = Φ(σt − µ)m φ(t)dt
Z−∞
1
−∞
ROCMDE
m,n µMDE MDE
m,n , σm,n
estymatory najmniejszej odległości, wzór
MDE (2.17), ROCDAV wykorzystuje we wzorze
[
ROC µ̂MDE MDE
m,n , σ̂m,n
m,n
DAV
[
(2.15) empiryczną a ROC wygładzoną
krzywą ROC
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
ROC(t)
ROC(t)
ROC(t)
0.4
0.4
0.4
0.2
0.2
0.2
AUC = 0.6726 AUC = 0.6381 AUC = 0.5884
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t t t
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
ROC(t)
ROC(t)
ROC(t)
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t t t
µ σ n m parametr ROCGLS
m,n q = 5 ROCGLS
m,n q = 10 ROCDAV
m,n ROCMDE
m,n
1/2 1/2 50 50 µ 0.07285 (0.04500) 0.07081 (0.04869) 0.01013 (0.03265) 0.00760 (0.03363)
σ 0.04646 (0.02892) 0.04316 (0.02959) 0.00568 (0.01019) 0.00113 (0.01040)
100 100 µ 0.05911 (0.02383) 0.03173 (0.01967) 0.00484 (0.01556) 0.00320 (0.01611)
σ 0.01390 (0.01875) 0.02930 (0.01593) 0.00486 (0.00473) 0.00187 (0.00498)
500 500 µ 0.17474 (0.05460) 0.07470 (0.02262) 0.00126 (0.00305) 0.00106 (0.00322)
σ −0.06211 (0.01400) −0.02099 (0.00918) 0.00081 (0.00082) 0.00000 (0.00094)
1/2 1 50 50 µ 0.09846 (0.07142) 0.09454 (0.07512) 0.00079 (0.04527) 0.00989 (0.05190)
3.1. Estymatory semiparametryczne
3/2 1 100 100 µ 0.13539 (0.09134) 0.11558 (0.08732) 0.01095 (0.04299) 0.02578 (0.05802)
σ 0.12089 (0.09993) 0.06213 (0.06615) −0.01894 (0.02495) 0.00716 (0.02994)
28
Tabela 3.2: Obciążenie i średni błąd kwadratowy (podany w nawiasach) parametrów µ i σ dla semiparametrycznych estymatorów bazujących na
wygładzonym estymatorze krzywej ROC. Wyniki dla 5 modeli binormalnych i różnych liczności prób.
GLS GLS DAV MDE
µ σ n m parametr [
ROC q=5 [
ROC q = 10 [
ROC [
ROC
1/2 1/2 50 50 µ 0.02005 (0.03830) 0.02249 (0.04167) 0.00812 (0.03213) 0.00814 (0.03431)
σ 0.04841 (0.02920) 0.04992 (0.02660) 0.00742 (0.00993) 0.02154 (0.01014)
100 100 µ 0.02743 (0.02454) 0.00521 (0.01989) 0.00409 (0.01547) 0.00350 (0.01631)
σ 0.02448 (0.01931) 0.03367 (0.01563) 0.00601 (0.00467) 0.01176 (0.00492)
500 500 µ 0.12761 (0.04178) 0.04584 (0.02072) 0.00111 (0.00305) 0.00089 (0.00323)
σ −0.03005 (0.01207) 0.00010 (0.00931) 0.00124 (0.00082) 0.00184 (0.00094)
1/2 1 50 50 µ 0.01615 (0.06626) 0.03134 (0.05789) 0.00465 (0.04493) 0.00836 (0.05165)
σ 0.07377 (0.09105) 0.04942 (0.07426) 0.00616 (0.02505) 0.01697 (0.03586)
100 100 µ 0.00493 (0.05226) 0.00185 (0.03727) 0.00472 (0.02187) 0.00561 (0.02444)
σ 0.05093 (0.06659) 0.05169 (0.05322) 0.00428 (0.01223) 0.00752 (0.01750)
500 500 µ −0.00701 (0.09337) −0.00515 (0.04420) 0.00222 (0.00426) 0.00080 (0.00468)
σ 0.03187 (0.05178) 0.02470 (0.03463) 0.00348 (0.00241) 0.00148 (0.00327)
1/2 2 50 50 µ 0.04145 (0.14137) 0.04890 (0.15934) −0.06024 (0.08812) 0.01618 (0.14764)
σ 0.04456 (0.33350) 0.10664 (0.39774) −0.18452 (0.08876) 0.06607 (0.23763)
100 100 µ 0.04207 (0.07090) 0.02857 (0.06711) −0.05361 (0.04595) 0.00927 (0.06801)
σ −0.00554 (0.20762) 0.03234 (0.17982) −0.16762 (0.05415) 0.03392 (0.10053)
500 500 µ 0.07500 (0.04899) 0.03285 (0.02555) −0.04193 (0.01124) 0.00186 (0.01293)
σ −0.08259 (0.14155) −0.02639 (0.09013) −0.14023 (0.02596) 0.00642 (0.01802)
0 1 100 100 µ −0.01236 (0.09211) −0.03460 (0.06580) 0.00098 (0.02105) 0.00088 (0.02303)
σ 0.06230 (0.08100) 0.07849 (0.06958) 0.00743 (0.01129) 0.01007 (0.01700)
−1/2 1 100 100 µ −0.00456 (0.13972) −0.04865 (0.10310) −0.00732 (0.02206) −0.00744 (0.02478)
σ 0.04228 (0.08934) 0.06553 (0.07760) 0.00316 (0.01227) 0.00698 (0.01742)
Rozdział 3. Porównanie estymatorów krzywej ROC
3/2 1 100 100 µ 0.04620 (0.05364) 0.05323 (0.06585) −0.01081 (0.03234) 0.03798 (0.06082)
σ 0.03295 (0.06702) 0.03713 (0.05875) −0.04317 (0.01759) 0.02616 (0.02888)
Tabela 3.3: Porównanie efektywności rozważnych nieparametrycznych i semiparametrycznych estymatorów krzywej ROC. Wyniki uzyskano na
podstawie 1000 realizacji Monte-Carlo.
µ σ estymator MISE AUC Bias AUC MSE estymator MISE AUC Bias AUC MSE
1/2 1/2 ROCm,n 0.005603 0.000447 0.003425 [
ROC −6.9% −0.001852 −2.3%
GLS
ROCGLS
m,n −83.3% 0.015371 +24.9% [
ROC +64.9% −0.000037 +23.2%
DAV
ROCDAV
m,n +26.8% 0.000944 +23.2% [
ROC +25.1% 0.000152 −0.8%
MDE
ROCMDE
m,n +29.2% 0.000189 +1.7% [
ROC +26.2% −0.001238 +0.9%
1/2 1 ROCm,n 0.006716 −0.000083 0.003357 [
ROC −5.7% −0.001078 −1.5%
GLS
ROCGLS
m,n −88.7% 0.016395 +21.5% [
ROC −9.7% 0.003459 +9.2%
DAV
ROCDAV
m,n −30.7% −0.000537 +9.2% [
ROC −31.8% −0.000545 −4.0%
3.1. Estymatory semiparametryczne
MDE
ROCMDE
m,n −22.2% −0.000334 +3.8% [
ROC −23.0% −0.001054 +3.3%
1/2 2 ROCm,n 0.009206 −0.000255 0.003736 [
ROC −4.7% −0.001434 −2.4%
GLS
ROCGLS
m,n −89.8% 0.019077 +21.9% [
ROC −41.1% 0.005027 +7.4%
DAV
ROCDAV
m,n −51.4% −0.000223 +7.4% [
ROC −56.9% −0.004280 −10.3%
MDE
ROCMDE
m,n −46.1% −0.000242 +4.9% [
ROC −46.5% −0.000838 +4.2%
0 1 ROCm,n 0.007161 −0.000034 0.003757 [
ROC −5.2% −0.000026 −1.5%
GLS
ROCGLS
m,n −87.5% 0.015573 +33.2% [
ROC −1.9% 0.004340 +19.2%
DAV
ROCDAV
m,n −31.5% −0.000326 +19.2% [
ROC −31.7% −0.000170 −4.0%
MDE
ROCMDE
m,n −22.3% 0.000410 +3.3% [
ROC −23.2% 0.000078 +2.5%
−1/2 1 ROCm,n 0.006817 0.000228 0.003410 [
ROC −6.0% 0.001299 −1.7%
GLS
ROCGLS
m,n −86.0% 0.017802 +43.5% [
ROC +24.6% 0.002203 +43.7%
DAV
ROCDAV
m,n −29.7% 0.000747 +43.7% [
ROC −31.3% 0.000818 −3.3%
MDE
ROCMDE
m,n −22.3% 0.001163 +3.4% [
ROC −23.4% 0.001320 +2.6%
29
0.008
1.5 1.5
σ
σ
0
0.006
1.0 1.0
0.004
−50
0.5 0.5
0.002
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Estymator DAV bazujący na empirycznej krzywej ROC Estymator MDE bazujący na empirycznej krzywej ROC
2.5 2.5
2.0 50 2.0 50
1.5 1.5
σ
0 0
1.0 1.0
−50 −50
0.5 0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Estymator DAV bazujący na wygładzonej krzywej ROC Estymator MDE bazujący na wygładzonej krzywej ROC
2.5 2.5
2.0 50 2.0 50
1.5 1.5
σ
0 0
1.0 1.0
−50 −50
0.5 0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Rysunek 3.2: Mapy wartości δ tj. średniego scałkowanego błędu kwadratowego dla
estymatorów ROCm,n , ROC,
[ Davidova i MDE względem estymatora empirycznego,
obliczone zgodnie z równaniem (3.2) w zależności od wartości parametrów µ i σ.
Dla estymatora estymatora empirycznego podano wartość MISE.
3.2. Estymatory nieparametryczne i semiparametryczne 33
●
emp. GLS DAV MDE emp. GLS DAV MDE
0.020
0.020
●
● ●
●
● ●
● ● ●
● ●
● ●
● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ●
● ● ● ●
ν= 1 ν= 10
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
0.005
0.005
● ● ● ●
● ●
MISE
MISE
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
● ●
● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
●
0.001
0.001
● ● ● ●
● ● ●
● ● ●
● ●
●
● ● ●
●
●
●
wygł. GLS DAV MDE ● wygł. GLS DAV MDE
0.020
0.020
●
●
●
● ● ●
● ●
● ●
● ● ●
● ● ●
● ●
● ●
●
● ● ●
● ● ●
ν= 1 ν= 10
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ●
●
●
0.005
0.005
● ● ●
● ●
MISE
MISE
● ●
● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ●
●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ●
●
● ●
● ●
● ●
● ● ●
●
● ●
● ●
● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ● ●
0.001
0.001
● ● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
●
●
n = m = 50 n = m = 500
0.2
0.2
0.1
0.1
AUC Bias
AUC Bias
0.0
0.0
−0.1
−0.1
−0.2
−0.2
ROCm,n
ROCGLS
ROCGLS
ROCDAV
ROCDAV
ROCMDE
ROCMDE
ROCm,n
ROCGLS
ROCGLS
ROCDAV
ROCDAV
ROCMDE
ROCMDE
m,n
m,n
m,n
m,n
m,n
m,n
ROC
ROC
Rysunek 3.4: Obciążenie AUC w zależności od przyjętego estymatora krzywej ROC
dla prób o licznościach 50 i 500.
Tabela 4.1: Opis oraz lokalizacja wybranych funkcji znajdujących się w skrycie.
Tabela 4.2: Oszacowane wartości parametrów oraz pola pod krzywą dla danych
DMD.
parametr parametr
estymator µ̂ σ̂ [
AUC estymator µ̂ σ̂ [
AUC
ROCm,n – – 0.8629 [
ROC – – 0.8650
GLS
ROCGLS
m,n q=5 1.3941 0.7884 0.8631 [ q=5
ROC 1.4500 0.8204 0.8688
GLS GLS
ROCm,n q=10 1.3924 0.8015 0.8613 [ q=10
ROC 1.4495 0.7412 0.8778
DAV
ROCDAV
m,n 1.3099 0.6584 0.8630 [
ROC 1.3287 0.6476 0.8676
MDE MDE
ROCm,n 1.2775 0.6205 0.8611 [
ROC 1.3402 0.6867 0.8653
0.4
Estymator empiryczny
0.2
Estymator wygładzony
GLS
DAV
MDE
0.0
1−SP
Rysunek 4.1: Wybrane krzywe ROC dla danych Duchenne Muscular Dystrophy.
39