Praca Dyplomowa: Wydzia Podstawowych Problemów Techniki

Wydziaª Podstawowych Problemów Techniki
PRACA DYPLOMOWA
Semiparametryczna estymacja krzywej ROC
(Semiparametric estimation of ROC curve)
Rafaª Topolnicki
Promotor: dr hab. Alicja Jokiel-Rokita
sªowa kluczowe:
krzywa ROC, model binormalny,
estymacja semiparametryczna
streszczenie:
Praca zawiera opis wybranych metod estymacji krzywej ROC ze
szczególnym uwzgl¦dnieniem estymatorów semiparametrycznych w modelu
binormalnym. Zaproponowano modykacje istniej¡cych w literaturze
estymatorów oraz porównano ich efektywno±ci.
Wrocªaw 2014
Spis treści
Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Rozdział 1. Krzywa ROC – definicja i własności . . . . . . . . . . . 3
Rozdział 2. Estymacja krzywej ROC . . . . . . . . . . . . . . . . . . . 7
2.1. Estymacja nieparametryczna . . . . . . . . . . . . . . . . . . . . . 8
2.1.1. Empiryczna krzywa ROC . . . . . . . . . . . . . . . . . . . 8
2.1.2. Wygładzony estymator krzywej ROC . . . . . . . . . . . . 9
2.2. Estymacja semiparametryczna w modelu binormalnym . . . . . . . 11
2.2.1. Uogólniona metoda najmniejszych kwadratów – GLS . . . 11
2.2.2. Estymator najmniejszej odległości – MDE . . . . . . . . . 17
2.2.3. Estymator Davidova – DAV . . . . . . . . . . . . . . . . . 18
2.3. Modyfikacje estymatorów semiparametrycznych . . . . . . . . . . . 22
Rozdział 3. Porównanie estymatorów krzywej ROC . . . . . . . . . 25
3.1. Estymatory semiparametryczne . . . . . . . . . . . . . . . . . . . . 25
3.2. Estymatory nieparametryczne i semiparametryczne . . . . . . . . . 30
3.3. Odporność estymatorów na niespełnienie założenia o normalności . 34
Rozdział 4. Estymacja krzywej ROC w pakiecie R. Analiza
danych rzeczywistych . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Wstęp
Krzywe ROC (Receiver Operating Characteristic) są szeroko stosowa-
nym narzędziem do oceny poprawności wszelkiego rodzaju klasyfikatorów
binarnych, procedur i testów diagnostycznych. Krzywe te znajdują swoje
zastosowanie również w teorii wykrywania sygnałów, uczeniu maszynowym
oraz przy przeprowadzaniu pewnych analiz dyskryminacyjnych [2]. Historia
wykorzystania krzywych ROC sięga czasów drugiej wojny światowej kiedy to
były one używane w celu określenia jak dobrze odbiorniki radarowe rozróżniają
sygnały emitowane przez nieprzyjacielskie samoloty od przypadkowych zakłó-
ceń. Obecnie krzywe ROC stosowane są w wielu dziedzinach nauki i techniki
począwszy od nauk technicznych, finansowych przez medyczne aż do nauk
społecznych. Ze względu na swoje szerokie zastosowanie w tematyka związana
z krzywymi ROC zagościła nawet na łamach czasopism popularnonaukowych
[10].
Załóżmy, że dysponujemy dwiema niezależnymi próbami losowymi Xm =
(X1 , . . . , Xm ) oraz Yn = (Y1 , . . . , Yn ) opisującymi obiekty należące do dwóch
klas. Przykładowo, może to być wynik testu medycznego w odpowiednio
grupie osób zdrowych i grupie osób chorych. Zakładamy przy tym, że ob-
serwacje te pochodzą z tych samych (w ramach klasy) absolutnie ciągłych
rozkładów opisanych przez nieznane dystrybuanty, odpowiednio F i G. W
przytoczonym przykładzie estymator krzywej ROC może być wykorzystany
do przeprowadzenia analizy jakości stosowanego testu w problemie klasyfikacji
do grupy osób zdrowych albo chorych.
W pracy omówiony zostanie głównie problem semiparametrycznej esty-
macji krzywej ROC w modelu binormalnym. W rozdziale 1 przedstawiony
zostanie rozważany model matematyczny, definicja krzywej ROC oraz jej
podstawowe własności. Rozdział 2 poświęcony jest różnym metodą estyma-
cji krzywej ROC – w podrozdziale 2.1 przedstawione zostanie nieparame-
tryczne podejście do zagadnienia estymacji krzywej ROC a w podrozdziale
2.2 omówione zostaną semiparametryczne metody estymacji ze szczególnym
uwzględnieniem modelu binormalnego. W pracy będą rozważane trzy metody
semiparametrycznej estymacji krzywej ROC – estymator uogólnionej metody
najmniejszych kwadratów, estymator najmniejszej odległości oraz pewna jego
modyfikacja, tzw. estymator Davidova.
W podrozdziale 2.3 zaproponowane zostaną własne modyfikacje estymato-
rów semiparametrycznych spotykanych w literaturze.
W rozdziale 3 zajmiemy się symulacyjnym porównaniem wszystkich roz-
ważanych estymatorów. Przebadana zostanie efektywność rozważanych esty-
matorów przy zmiennej liczności prób oraz zmiennych parametrach modelu
binormalnego. W podrozdziale 3.3 przedstawione zostaną wyniki dotyczące
2 Wstęp
odporności rozważanych estymatorów semiparametrycznych na niespełnienia

założenia o normalności rozkładów.
Rozdział 4 poświęcony jest zastosowaniu rozważanych metod estymacji
krzywej ROC do rzeczywistych danych. Znajdują się tam również informacje
o tym jak korzystać z dołączonych do pracy programów komputerowych, napi-
sanych w języku R, stanowiących implementację rozważanych estymatorów.
Rozdział 1
Krzywa ROC – definicja i własności

Załóżmy, że dysponujemy parą zmiennych losowych (U, L) ∈ R × {0, 1},
gdzie U jest zmienną losową o rozkładzie absolutnie ciągłym a L reprezentuje
etykietę binarną. Często zmienną U traktujemy jako wyniki pewnego testu
diagnostycznego, dla którego im większa zaobserwowana wartość u tym większe
prawdopodobieństwo zakwalifikowania obserwacji do grupy o etykiecie L = 1.
Możemy wtedy przyjąć, że reguła klasyfikacyjna jest postaci
(
1, gdy u > c,
dc (u) = (1.1)
0, gdy u ¬ c,
gdzie c ∈ [−∞, ∞] to pewna ustalona wartość progowa (threshold), nazywa

również punktem odcięcia (cutoff ).
Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości zmiennej
U na dwa rozłączne podzbiory. Interesować nas będzie jej rozkład w każdej
z tych zbiorów. Oznaczmy więc przez X = (U |L = 0) i Y = (U |L = 1)
zmienne losowe opisujące rozkład badanej cechy w grupach o etykietach
odpowiednio 0 i 1. Przez F i G oznaczmy dystrybuanty rozkładów X i Y,
a przez f i g odpowiadające im gęstości.
Podstawową charakterystyką skuteczności testu diagnostycznego jest praw-
dopodobieństwo prawidłowego zakwalifikowania konkretnego przypadku do
grupy o odpowiedniej etykiecie. W przypadku binarnej reguły diagnostycznej
(1.1) określamy:
— czułość (sensitivity) jako prawdopodobieństwo, że przypadek o etykiecie 1
zostanie zakwalifikowany do grupy o etykiecie 1,
— specyficzność (specifity) jako prawdopodobieństwo, że przypadek o etykie-
cie 0 zostanie zakwalifikowany do grupy o etykiecie 0.
Przy ustalonej wartości progowej c, czułość zwykło się oznaczać przez SE(c),
a specyficzność przez SP (c). Korzystając z tych oznaczeń możemy zdefiniować
krzywą ROC.
Definicja 1. Krzywą ROC nazywamy zbiór punktów w kwadracie jednost-
kowym [0, 1] × [0, 1] spełniających równanie
ROC(·) = {(1 − SP (c), SE(c)) : −∞ ¬ c ¬ ∞}. (1.2)
Jeśli wyrazimy czułość oraz specyficzność za pomocą rozkładów warunko-

wych X i Y
SE(c) = P (dc (U ) = 1|L = 1) = P (U > c|L = 1) = 1 − G(c),

SP (c) = P (dc (U ) = 0|L = 0) = P (U ¬ c|L = 0) = F (c),
4 Rozdział 1. Krzywa ROC – definicja i własności
to krzywą ROC można zapisać w postaci
ROC(·) = {(1 − F (c), 1 − G(c)) : −∞ ¬ c ¬ ∞}.
Jeżeli oznaczymy t = 1 − F (c), skąd mamy c(t) = F −1 (1 − t), to krzywą ROC

możemy zapisać w wygodnej postaci parametrycznej
ROC(t) = 1 − G(F −1 (1 − t)), t ∈ [0, 1], (1.3)
która bywa czasami podawana jako definicja tej krzywej.
Krzywa ROC Krzywa ODC

1.0
1.0
0.8
0.8
0.6
0.6
SE
SP
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1−SP 1−SE
Rysunek 1.1: Przykładowa krzywa ROC i odpowiadająca jej krzywa ODC.
Powróćmy na chwilę do interpretacji omawianej krzywej. Ponieważ F (∞) =

G(∞) = 1 oraz F (−∞) = G(−∞) = 0, więc łączy ona ze sobą wierzchołki
kwadratu jednostkowego, tak jak pokazano to na rysunku 1.1. Punkt (1, 1)
uzyskany jest, gdy wszystkim obserwacją przyporządkowana zostanie etykieta
L = 1, a punkt (0, 0), gdy wszystkie obserwacje będą klasyfikowane do grupy
o etykiecie L = 0. Jeżeli krzywa ROC przechodzi przez punkt (0, 1) oznacza to,
że cecha U jest idealnie dyskryminująca. Jeśli natomiast krzywa ROC leży na
przekątnej kwadratu jednostkowego oznacza to, że rozkład zmiennych X i Y
jest taki sam (F ≡ G) a więc, że badana cecha U jest nieinformująca. W prak-
tyce najczęściej spotykana jest sytuacja pośrednia, gdy krzywa ROC leży
powyżej przekątnej (a więc gdy G(c) < F (c)) i poniżej krzywej odpowiadającej
cesze idealnie dyskryminującej. Krzywą ROC możemy interpretować również
w języku teorii testowania hipotez. Jeśli rozpatrzymy problem testowania
hipotezy zerowej H0 : E = 1 przeciwko hipotezie alternatywnej H1 : E = 0,
za pomocą testu (1.1) z obszarem odrzucenia {u : u ¬ c}, to krzywa ROC
jest wykresem prawdopodobieństwa nie popełnienia błędu I rodzaju w funk-
cji prawdopodobieństwa popełnienia błędu II rodzaju. Rozpatrywany test
diagnostyczny d(u) jest więc tym lepszy im krzywa ROC leży bliżej lewej
i górnej krawędzi kwadratu jednostkowego, wtedy bowiem minimalizowane są
jednocześnie błędy obu rodzajów.
W dalszej części pracy szczególnie ważny będzie przypadek, gdy X i Y są
rozkładami normalnymi. Krzywa ROC ma wtedy szczególnie prostą postać
o czym mówi następujący fakt.
5
Fakt 1. Jeżeli X ∼ N (µ1 , σ12 ) oraz Y ∼ N (µ2 , σ22 ), to

µ2 − µ1 σ1 −1

ROC(t) = Φ + Φ (t) , t ∈ [0, 1]
σ2 σ2
gdzie Φ to dystrybuanta standardowego rozkładu normalnego.
Dowód. Niech, podobnie jak poprzednio, t = 1 − F (c), wtedy
c − µ1 µ1 − c

t = 1 − F (c) = 1 − P (X ¬ c) = 1 − Φ =Φ .
σ1 σ1
Stąd c = µ1 − σ1 Φ−1 (t). Z drugiej strony jednak c = F −1 (1 − t), więc
F −1 (1 − t) = µ1 − σ1 Φ−1 (t). Wstawiając ostatnią równość do wzoru (1.3)
otrzymamy
ROC(t) = 1 − G(F −1 (1 − t)) = 1 − G(µ −1
! 1 − σ1 Φ (t))
µ1 − σ1 Φ−1 (t) − µ2 µ2 − µ1 σ1 −1

=1−Φ =Φ + Φ (t) ,
σ2 σ2 σ2
co należało pokazać.
Następujące twierdzenie, o niezmienniczości krzywej ROC na ściśle rosnące
przekształcenia, ma niebagatelne znaczenia dla celowości dalszych rozważań,
w szczególności dla omawianego modelu semiparametrycznego.
Twierdzenie 1. Niech X1 i Y1 będą zmiennymi losowymi o rozkładach ab-
solutnie ciągłych. Niech h : R → R będzie ściśle rosnącą funkcją oraz niech
X2 = h(X1 ) i Y2 = h(Y1 ). Wtedy krzywa ROC1 (t) odpowiadająca zmiennym
X1 i Y1 pokrywa się z krzywą ROC2 (t) dla zmiennych X2 i Y2 .
Dowód. Niech F1 i G1 oraz F2 i G2 oznaczają odpowiednio dystrybuanty
zmiennych X1 i Y1 oraz X2 i Y2 . Dla dowolnego x ∈ R zachodzi
F2 (x) = P (X2 ¬ x) = P (h(X1 ) ¬ x) = P (X1 ¬ h−1 (x))
= F1 (h−1 (x)) = (F1 ◦ h−1 )(x).
Dla dowolnego t ∈ (0, 1) mamy ponadto
F2−1 (t) = (F1 ◦ h−1 )−1 (t) = (h ◦ F1−1 )(t) = h(F1−1 (t)).
Analogiczne związki zachodzą między dystrybuantami G1 i G2 . Stąd dla
dowolnego t ∈ (0, 1) otrzymujemy
ROC2 (t) = 1 − G2 (F2−1 (1 − t)) = 1 − G2 (h(F1−1 (1 − t)))
= 1 − G1 (h−1 (h(F1−1 (1 − t)))) = 1 − G1 (F1−1 (1 − t))
= ROC1 (t).
Tezę twierdzenia otrzymamy po zauważeniu, że z własności krzywych ROC
wynikają równości ROC1 (0) = ROC2 (0) = 0 oraz ROC1 (1) = ROC2 (1) =
1.
Inne własności krzywych ROC, które nie będą wykorzystywane w tej pracy,
można znaleźć m.in. w książkach Krzyśki [7] i Krzanowskiego [6].
Krzywą ROC rozważa się zamiennie z krzywą ODC (Ordinal Dominance
Curve) zdefiniowaną jako F (G−1 (t)), t ∈ [0, 1]. Krzywa ta przedstawia zmianę
specyficzności SP (c) w funkcji 1 − SE(c) i możemy ją uzyskać z krzywej
ROC poprzez odwrócenie i zamianę osi – patrz rysunek 1.1.
Rozdział 2
Estymacja krzywej ROC

W praktyce nie znamy dystrybuant F i G rozkładów X i Y . W związku z
tym nie znamy postaci funkcyjnej (1.3) krzywej ROC. Wyróżnić możemy trzy
podejścia do jej estymowania – estymację nieparametryczną, parametryczną
i semiparametryczną.
W przypadku pierwszej metody nie czynimy żadnych założeń odnośnie
postaci dystrybuant F i G. Dwa rozważane w tej pracy estymatory niepa-
rametryczne zostały opisane w podrozdziale 2.1. W przypadku estymacji
parametrycznej sytuacja jest odwrotna – przyjmujemy, że F i G są dystry-
buantami znanych rozkładów o nieznanych parametrach, co powoduje, że
problem estymowania krzywej ROC sprowadza się do znacznie prostszego
problemu estymacji tych nieznanych parametrów. W tej kategorii problemów,
szczególnie istotny jest przypadek, w którym zakładamy, że zmienne X i Y
opisane są rozkładami normalnymi tj. F ∼ N (µ1 , σ12 ) i G ∼ N (µ2 , σ22 ).
Postać krzywej ROC wynika wtedy z faktu 1 i do wyznaczenia jej zgodnego
estymatora wystarczy zastąpić nieznane parametry µ1 , µ2 , σ1 , σ2 przez ich
dowolne zgodne estymatory µ̂1 , µ̂2 , σ̂1 , σ̂2 .
Wadą podejścia parametrycznego jest konieczność posiadania dużej wie-
dzy o rozkładach, z których pochodzą próby losowe Xm i Yn . Podejściem
pośrednim między parametrycznym a nieparametrycznym jest metoda se-
miparametryczna w której przyjmujemy ogólniejsze założenia polegające
na przyjęciu określonego modelu, takiego jak np. model liniowy. Metoda
przedstawiona w pracy [8] opiera się na obserwacji
ROC(t) = 1 − G(F −1 (1 − t)) = P (Y > F −1 (1 − t))

= P (Y > X|X = F −1 (1 − t)) = P (Y > X|F (X) = 1 − t),
że krzywa ROC jest zbiorem prawdopodobieństw, że Y > X pod warunkiem,

że wartość X jest równa kwantylowi rzędu (1 − t) z grupy o etykiecie 0.
Załóżmy dalej, że krzywą ROC można zapisać w postaci parametrycznej
K
!
X
ROCγ (t) = g γk hk (t) , (2.1)
i=1
gdzie g jest pewną funkcją wiążącą, h1 , . . . , hK wybranymi funkcjami bazo-

wymi a γ nieznanym K-wymiarowym parametrem. Przykładowo, jeśli za g
przyjmiemy funkcję probitową g = Φ, a za h1 i h2 odpowiednio funkcję stałą
h1 (t) = 1 oraz kwantylową h2 (t) = Φ−1 , to otrzymamy wspomniany wcze-
śniej model parametryczny, gdzie X i Y są opisane rozkładami normalnymi.
Najczęściej stosowanym w problemie estymacji krzywej ROC modelem semi-
parametrycznym jest model binormalny. Model ten opiera się na założeniu, że
8 Rozdział 2. Estymacja krzywej ROC
istnieje pewne ściśle rosnące przekształcenie transformujące rozkłady X i Y

do rozkładów normalnym. Ten najpopularniejszy model będzie głównym
przedmiotem pracy. W podrozdziale 2.2 zdefiniowane zostaną trzy estymato-
ry w modelu binormalnym. Następnie w rozdziale 3 estymatory te zostaną
porównane między sobą oraz z estymatorami nieparametrycznymi. Zapropono-
wane zostaną również pewne modyfikacje estymatorów semiparametrycznych
obecnych w literaturze.
2.1. Estymacja nieparametryczna
Celem tej pracy nie jest szczegółowe omówienie metod nieparametrycz-

nej estymacji krzywej ROC. Nieparametryczne estymatory zostaną jednak
później wykorzystane do budowy estymatorów semiparametrycznych, co ozna-
cza, że poznanie własności tych drugich nie będzie możliwe bez poznania
własności tych pierwszych. W tym podrozdziale przedstawione zostaną więc
różne metody estymacji nieparametrycznej – estymator empiryczny, estymator
wygładzony oraz estymator wygładzony przy założeniu porządku między dys-
trybuantami F i G. Wszystkie twierdzenia pozostawimy jednak bez dowodów,
które można znaleźć w pracy [4] (dowody odnośnie estymatora empirycznego)
oraz w pracy [5] (dowody odnośnie estymatorów wygładzonych).
2.1.1. Empiryczna krzywa ROC
Empiryczną krzywą ROC otrzymujemy zastępując we wzorze (1.3) niezna-

ne dystrybuanty F i G przez odpowiednie dystrybuanty empiryczne. Niech
więc Xm = (X1 , X2 , . . . , Xm ) i Yn = (Y1 , Y2 , . . . , Yn ) będą niezależnymi pró-
bami losowymi pochodzącymi z rozkładów dystrybuantach F i G oraz niech
Fm (x) = m1 m 1 Pn
P
i=1 I(−∞,x] (Xi ) i Gn (y) = n i=1 I(−∞,y] (Yi ) będą dystrybuanta-
mi empirycznymi zbudowanymi w oparciu o próby Xm i Yn . Estymatorem
typu plug-in krzywej ROC jest empiryczna krzywa ROCm,n określona równa-
niem
ROCm,n (t) = 1 − Gn (Fm−1 (1 − t)), t ∈ [0, 1]. (2.2)
gdzie Fm−1 (t) = inf{x : Fm (x) t} jest empiryczną funkcją kwantylową.

Od tej pory będziemy zakładali, że rozmiary prób m i n są powiązane
ze sobą w taki sposób, że n/m → λ > 0, gdy n → ∞. Zakładamy ponadto,
że dystrybuanty F i G mają ciągłe gęstości oraz, że odpowiednio f i g oraz
iloraz g(F −1 (t))/f (F −1 (t)) jest ograniczony na każdym otwartym odcinku
(a, b) ⊂ [0, 1]. W pracy [4] udowodniono następujące twierdzenia.
Twierdzenie 2. Jeśli spełnione są powyższe założenia to,
n→∞
sup |ROCm,n (t) − ROC(t)| −−−→ 0 p.n.
0¬t¬1
2.1. Estymacja nieparametryczna 9
Twierdzenie 3. Przy powyższych założeniach, istnieje przestrzeń probabili-

styczna na której możemy zdefiniować ciąg dwóch niezależnych mostów Browna
(n) (n)
{B1 , B2 , 0 ¬ t ¬ 1} dla których
√ √ (n) −1 (1−t)) (n)
n(ROCm,n (t) − ROC(t)) = λB1 (G(F −1 (1 − t)) + fg(F B (1 − t)
(F −1 (1−t)) 2
+o(n−1/2 (log n)2 ) p.n.

jednostajnie na [a, b].
Empiryczny estymator krzywej ROC, jako estymator podstawienia, dzie-
dziczy własności asymptotyczne po empirycznym estymatorze dystrybuanty.
W szczególności jest on więc zbieżny do teoretycznej krzywej ROC w dość
silnym sensie. Niewątpliwymi zaletami tego estymatora są ponadto jego
koncepcyjna prostota, łatwość zaimplementowania w dowolnym pakiecie sta-
tystycznym oraz mała złożoność obliczeniowa. Estymator ten ma jednak
również wady na tyle silne, że stały się one powodem poszukiwań lepszych
rozwiązań. Do najważniejszych mankamentów należą brak ciągłości oraz nie-
zadowalające dopasowanie do estymowanej krzywej w przypadku niewielkiej
ilości danych. Ponadto ROCm,n , w przeciwieństwie do krzywej ROC, nie jest
ściśle rosnący. Naturalnym ulepszeniem estymatora empirycznego wydaje się
być zastąpienie nieciągłych dystrybuant Fn i Gm przez ich ciągłe odpowiedniki.
Najpopularniejszym ciągłym nieparametrycznym estymatorem dystrybuanty
jest estymator jądrowy
m
1 X x − Xj

Fmkern (x) = K ,
m i=1 hm
t R
gdzie hm to odpowiednio dobrana dodatnia wartość, K(t) = −∞ k(u)du
a funkcja k jest nieujemna, symetryczna względem 0 oraz całkuje się do
jedynki. W pracy [12] pokazano jednak, że estymator ten ma gorsze własności
asymptotyczne niż Fm . Okazuje się bowiem, że supx∈R |Fmkern (x) − F (x)| nie
zbiega do zera według prawdopodobieństwa jednostajnie względem F ∈ F,
gdzie F to klasa wszystkich ciągłych dystrybuant.
W dwóch kolejnych rozdziałach zostaną przedstawione ciągłe i ściśle ro-
snące estymatory krzywych ROC, które wprowadzone zostały po raz pierwszy
w pracy [5].
2.1.2. Wygładzony estymator krzywej ROC

Przez X1:m ¬ X2:m ¬ . . . ¬ Xm:m i Y1:n ¬ Y2:n ¬ . . . ¬ Yn:n oznaczmy
kolejne statystyki pozycyjne odpowiednio prób losowych Xm i Yn . Niech L i U
będą dowolnymi zmiennymi losowymi takimi, że z prawdopodobieństwem 1
zachodzi L ¬ min{X1:m , Y1:n } i U max{Xm:m , Yn:n }. Oznaczmy dalej
X0:m = 2L − X1:m , X(m+1):m = 2U − Xm:m
oraz
X(j−1):m + Xj:m
Qj (Xm ) = , j = 1, 2, . . . , m + 1,
2
Rj (Xm ) = Qj+1 (Xm ) − Qj (Xm ), j = 1, 2, . . . , m.

W analogiczny sposób możemy zdefiniować statystyki Y0:m , Y(n+1):n , Qj (Yn ),

j = 1, 2, . . . , n + 1 oraz Rj (Yn ), j = 1, 2, . . . , n. Korzystając z powyższych
oznaczeń definijuemy nieparametryczne estymatory dystrybuant
m n
! !
1 X x − Qj (Xm ) 1X x − Qj (Yn )
F̂m (x) = T , Ĝn (x) = T , (2.3)
m i=1 Rj (Xm ) n i=1 Rj (Yn )
gdzie 

0, gdy x < 0,
T (x) =  r(x), gdy 0 ¬ x ¬ 1,

1, gdy x > 1
oraz r : [0, 1] → [0, 1] jest ciągłą, ściśle rosnącą funkcją taką, że r(0) = 0
i r(1) = 1. Tak zdefiniowane estymatory dystrybuant są ciągłe. Dodatkowo na
przedziale [L, U ] są ściśle rosnące oraz osiągają wszystkie wartości z przedziału
[0, 1]. Różniczkowalność estymatorów F̂m i Ĝn na tym samym przedziale
możemy zapewnić poprzez odpowiedni wybór funkcji r jako różniczkowalnej
0 0
oraz takiej, że r+ (0) = r− (1) = 0.
Podamy dwa fakty mówiące o własnościach wygładzonego estymatora
dystrybuanty.
Fakt 2. Dla każdego x ∈ R zachodzi
1 1
|F̂m (x) − Fm (x)| ¬ , |Ĝn (x) − Gn (x)| ¬ .
m n
Fakt 3. Zachodzą następujące równości
! !
P lim sup |F̂m (x) − F (x)| = 0 = 1, P
m→∞ x∈R
lim sup |Ĝn (x) − G(x)| = 0 = 1.
n→∞ x∈R
Skonstruowane estymatory dystrybuant są więc ciągłe, zgodne w sensie

normy supremum i odwracalne na przedziale [L, U ] (na przedziale (−∞, L)
i (U, ∞) są one równe stale odpowiednio 0 i 1 przez co nie są odwracalne na
całej dziedzinie). Funkcja odwrotna do F̂m na przedziale [L, U ] jest postaci


 L, dla t = 0,
F̂m−1 (t) =  r−1 (mt − (k − 1))Rk (Xm ) + Qk (Xm ) dla k−1
m
<t¬ k
m
,

k = 1, . . . , m.
Wprost z powyższego równania widać, że F̂m−1 (t) jest ciągła i ściśle rosnąca dla
t ∈ [0, 1]. Ponieważ estymator Ĝn (t) jest ściśle rosnący na [L, U ], to złożenie
Ĝn (F̂m−1 (t)) jest ściśle rosnące na [0, 1]. Stąd otrzymujemy, że wygładzony
estymator krzywej ROC postaci

[ m,n (t) = 1 − Ĝn F̂m−1 (1 − t) , t ∈ [0, 1]
ROC (2.4)
jest ciągły i ściśle rosnący. Jego różniczkowalność zależy od spełnienia wspo-

mnianych wcześniej warunków odnośnie funkcji r.
Następujące twierdzenie, którego dowód można znaleźć w pracy [5], mówi
o zgodności (2.4) z estymowaną krzywą ROC.
2.2. Estymacja semiparametryczna w modelu binormalnym 11
Twierdzenie 4. Niech Xm = (X1 , . . . , Xm ) i Yn = (Y1 , . . . , Yn ) będą nieza-

leżnymi próbami losowymi z rozkładów o ciągłych dystrybuantach, odpowiednio
F i G. Niech ROC
b
m,n (t) oznacza zdefiniowany w równaniu (2.4) wygładzony
estymator krzywej ROC. Wtedy
sup |ROC
[ m,n (t) − ROC(t)| → 0,
t∈[0,1]
prawie na pewno gdy n → ∞.
2.2. Estymacja semiparametryczna w modelu

binormalnym
W podejściu semiparametrycznym, w przeciwieństwie do estymacji para-
metrycznej, nie jest jednak pełna znajomość postaci rozkładów zmiennych
losowych X i Y . W semiparametrycznej estymacji krzywej ROC szczególnie
istotny jest model binormalny czyli taki, w którym zakłada się, że istnieje
ściśle rosnące przekształcenie h takie że zmienne losowe h(X) i h(Y ) mają
rozkłady normalne.
Bez straty ogólności możemy przyjąć, że h(X) ∼ N (0, 1)
µ 1
a h(Y ) ∼ N σ , σ2 . W takiej parametryzacji, na podstawie faktu 1, krzywa
ROC jest szczególnie prostej postaci
ROC(t) = Φ(µ + σΦ−1 (t)), t ∈ [0, 1], (2.5)
i problem jej estymowania sprowadza się do znalezienia estymatorów nie-
znanych parametrów µ i σ. Na mocy twierdzenia 1 wiemy, że krzywa (2.5)
pokrywa się z krzywą ROC dla zmiennych X i Y o nieznanych rozkładach.
Warto zauważyć, że funkcja h nie występuje we wzorze (2.5), tak więc nie
musimy znać jej postaci i wystarczy nam sama wiedza o jej istnieniu.
2.2.1. Uogólniona metoda najmniejszych kwadratów – GLS

Niech k będzie ustaloną liczbą naturalną oraz niech 0 < α1 < α2 < . . . <
αk < 1 będzie zadanym podziałem odcinka [0, 1]. W modelu binormalnym
estymowana krzywa jest postaci (2.5). Zdefiniujemy więc
βi = ROC(αi ) = Φ(µ + σΦ−1 (αi )), i = 1, 2, . . . , k. (2.6)
Niech β̂i postaci
β̂i = ROCm,n (αi ) = 1 − Gn (Fm−1 (1 − αi )), i = 1, 2, . . . , k, (2.7)
gdzie Fm i Gn oznaczają dystrybuanty empiryczne będą nieparametrycz-
nymi estymatorami βi , i = 1, . . . , k. Asymptotyczny rozkład wektora β̂ =
(β̂1 , β̂2 , . . . , β̂k ) wynika z twierdzenia 3 i własności zdefiniowanych tam mostów
Browna.
Lemat 1. Dla ustalonego podziału 0 < α1 < α2 < . . . < αk < 1, przy
przyjętych w rozdziale 2.1.1 założeniach, gdy n → ∞, zachodzi
√ D
n(β̂ − β) −−→ N (0, λΣ1 + Σ2 )
√
D
n Φ−1 (β̂) − Φ−1 (β) −−→ N (0, Σ)
gdzie
Σ = C[λΣ1 + Σ2 ]C, (2.8)
a C jest macierzą diagonalną postaci
C = [φ(µ + σΦ−1 (αi ))δij ]i,j=1,2,...,k , (2.9)
a macierze Σ1 i Σ2 zadane są równaniami
Σ1 = [min{βi , βj } − βi βj ]i,j=1,2,...,k (2.10)

Σ2 = AΣ0 A (2.11)
gdzie A = [δij σφ(µ+σΦ−1 (αi ))/φ(Φ−1 (αi ))]i,j=1,2,...,k jest macierzą diagonalną,
Σ0 = [min{αi , αj } − αi αj ]i,j=1,2,...,k , δij to delta Kroneckera a funkcja φ to
gęstość standardowego rozkładu normalnego.
Dowód. Dla prostoty zapisu przyjmijmy oznaczenie
g(F −1 (1 − αi )) σφ(µ + σΦ−1 (1 − αi ))

ξi = = .
f (F −1 (1 − αi )) φ(Φ−1 (1 − αi ))
Z twierdzenia 3 wiemy, że z prawdopodobieństwem 1 zachodzi równość

√ √ (n) (n)
n(β̂i − βi ) = λB1 (G(F −1 (1 − αi ))) + ξi B2 (1 − αi ) + o(n−1/2 (log n)2 ),
√ √
co oznacza, że n(β̂ − β) = n(β̂1 − β1 , . . . , β̂k − βk ) jest w granicy wektorem
gaussowskim. Wyznaczmy odpowiadający mu wektor wartości oczekiwanych
oraz macierz kowariancji Σ. Dla dowolnych i, j = 1, 2, . . . , k zachodzi
√ √ (n) (n)
E[ n(β̂i − βi )] = λE[B1 (1 − βi )] + ξi E[β2 (1 − αi )] + o(n−1/2 (log n)2 )
= o(n−1/2 (log n)2 )
√ √ h √ √ i
Σij = Cov[ n(β̂i − βi ), n(β̂j − βj )] = E ( n(β̂i − βi ))( n(β̂j − βj ))
h√ √ i
(n) (n) (n) (n)
=E λB1 (1 − βi ) + ξi B2 (1 − αi ) λB1 (1 − βj ) + ξj B2 (1 − αj )
h i h i
(n) (n) (n) (n)
= λE B1 (1 − βi )B1 (1 − βj ) + ξi ξj E B2 (1 − αi )B2 (1 − αj )
= λ (min{1 − βi , 1 − βj } − (1 − βi )(1 − βj ))
+ ξi ξj (min{1 − αi , 1 − αj } − (1 − αi )(1 − αj )) ,
ostatnia równość wynika z faktu, że dla dowolnego mostu Browna {Bt } mamy
Cov(Bt1 , Bt2 ) = min{t1 , t2 } − t1 t2 . Prostym rachunkiem, można pokazać, że
min{1 − αi , 1 − αj } − (1 − αi )(1 − αj ) = min{αi , αj } − αi αj
oraz analogicznie dla βi i βj . Element macierzy Σ wyraża się więc wzorem
Σij = λ (min{βi , βj } − βi βj ) + ξi ξj (min{αi , αj } − αi αj ) .

√
Macierz kowariancji Σ wektora gaussowskiego n(β̂ − β) można więc zapisać
w postaci λΣ1 +Σ2 gdzie macierze Σ1 i Σ2 określone są wzorami (2.10) i (2.11).
Stąd √
n(β̂ − β) ∼ N (o(n−1/2 (log n)2 ), λΣ1 + Σ2 ).
√
Asymptotyczny rozkład wektora n(β̂ − β) otrzymany w granicy n → ∞
jest taki jak w tezie lematu tj.
√ D
n(β̂ − β) −−→ N (0, λΣ1 + Σ2 ) (2.12)
Przejdźmy teraz do drugiej części lematu. Z twierdzenia Lagrange’a wynika,

(n)
że dla każdego i = 1, 2, . . . , k, istnieje punkt ηi leżący wewnątrz odcinka
otwartego o końcach w punkach βi i β̂i taki, że zachodzi równość
√ √ β̂i − βi
n(Φ−1 (β̂i ) − Φ−1 (βi )) = n (n)
.
φ(Φ−1 (ηi ))
Jeśli przez C (n) oznaczmy macierz diagonalną o elementach diagonalnych

(n)
cii = 1/φ(Φ−1 (ηi )), to powyższą równość możemy
√ zapisać w postaci macie-
rzowej dla wszystkich składowych wektora n(Φ (β̂i ) − Φ−1 (βi )) jako
−1
√ √
n(Φ−1 (β̂i ) − Φ−1 (βi )) = nC (n) (β̂ − β).
n→∞
Z twierdzenia 2 wiemy, że β̂i = ROCm,n (αi ) −−−→ ROC(αi ) = βi p.n., więc
(n) n→∞ n→∞
ηi −−−→ βi p.n. Stąd C (n) −−−→ C p.n., gdzie C jest macierzą określoną
wzorem (2.9). W świetle udowodnionej wcześniej zbieżności (2.12), w oparciu
o twierdzenie Słuckiego, przy n → ∞ otrzymujemy drugą część lematu,
mianowicie
√ −1
D
n Φ (β̂) − Φ−1 (β) −−→ N (0, C[λΣ1 + Σ2 ]C).
Następujący lemat jest niezbędny dla poprawności dalszych rozważań.

Lemat 2. Występująca w lemacie 1 macierz kowariancji Σ jest nieosobliwa.
Dowód. Punkty αi , i = 1, 2, . . . , k tworzą ciąg ściśle rosnący. Podobnie war-
tości βi = Φ(µ + σΦ−1 (αi )) są ściśle rosnące. Zauważmy ponadto, że macierze
Σ0 = [min{αi , αj } − αi αj ]i,j=1,2,...,k i Σ1 = [min{βi , βj } − βi βj ]i,j=1,2,...,k są
symetryczne oraz dodatnio określone. Istotnie, niech x = (x1 , . . . , xk )T będzie
dowolnym niezerowym wektorem z przestrzeni Rk , wtedy
k
X k
X
T
x Σ0 x = xi (Σ0 )ij xj = (min{αi , αj } − αi αj )xi xj
i,j=1 i,j=1
k k
(αi − αi2 )x2i +
X X
= (min{αi , αj } − αi αj )xi xj
i=1 i6=j
k k
αi )x2i
X X
= αi (1 − +2 αi (1 − αj )xi xj
i=1 i<j
k k
x2i + 2α1 (1 − αk )
X X
α1 (1 − αk ) xi xj
i=1 i<j
k
!2
X
= α1 (1 − αk ) xi > 0.
i=1
Podobne rozumowanie możemy powtórzyć dla macierzy Σ1 pokazując, że

również ona jest dodatnio określona. Zauważmy, że wszystkie elementy diago-
nalne macierzy A są dodatnie, tak więc jest ona odwracalna i pełnego rzędu
oraz A∗ = A. Wynika stąd, że macierz Σ2 = AΣ0 A również jest dodatnio
określona (zobacz Observation 7.1.6 w [3]). W związku z tym λΣ1 + Σ2 jako
suma macierzy dodatnio określonych, również jest dodatnio określona więc jej
wyznacznik jest dodatni. Stąd mamy, że macierz Σ jest odwracalna, bowiem
det Σ = det(C[λΣ1 + Σ2 ]C) = (det C)2 det(λΣ1 + Σ2 ) > 0.
Dzięki lematowi 1, po nałożeniu na obie strony równania (2.6) funkcji Φ−1 ,

otrzymujemy uogólniony model liniowy
Φ−1 (β̂i ) = µ + σΦ−1 (αi ) + εi , i = 1, 2, . . . , k, (2.13)

√ √
gdzie nε = n(ε1 , . . . , εk )T ma asymptotyczny rozkład normalny o zero-
wym wektorze wartości oczekiwanych i macierzy kowariancji Σ. W postaci
macierzowej model ten możemy zapisać jako
√
Φ−1 (β̂) = M [µ, σ]T + ε, nε ∼ AN (0, Σ),
gdzie M jest macierzą eksperymentu

" #T
1 ... 1
M = −1 .
Φ (α1 ) . . . Φ−1 (αk )
Problem stanowi fakt, że macierz kowariancji Σ zależy od nieznanych pa-

rametrów µ i σ. W celu estymacji tych parametrów musimy więc posłużyć
się metodą iteracyjną. W pierwszym kroku korzystając z klasycznej meto-
dy najmniejszych kwadratów znajdujemy pierwsze przybliżenie do wartości
nieznanych parametrów,
[µ̂0 , σ̂0 ]T = (M T M )−1 M T Φ−1 (β̂).
Następnie zastępujemy nieznane parametry µ i σ występujące we wzorze na

Σ uzyskanymi uprzednio estymatorami µ̂0 i σ̂0 otrzymując zgodny estymator
Σ̂ macierzy kowariancji Σ. Możemy teraz zdefiniować estymator uogólnionej
metody najmniejszych kwadratów postaci
[µ̂, σ̂]T = (M T Σ̂−1 M )−1 M T Σ̂−1 Φ−1 (β̂). (2.14)
Okazuje się, że asymptotyczny rozkład wektora [µ̂, σ̂]T jest taki, jak gdyby
macierz kowariancji Σ była znana. Mówi o tym następujące twierdzenie.
Twierdzenie 5. Przy założeniach lematu 1, przy n → ∞,
√ µ̂ − µ D
" #

n −−→ N 0, (M T Σ−1 M )−1 .
σ̂ − σ
Dowód. Oznaczmy przez θ wektor [µ, σ]T i podobnie niech θ̂ = [µ̂, σ̂]T . Gdy-
by macierz Σ była znana, to estymator uogólnionej metody najmniejszych
kwadratów byłby postaci
θ̂NMK = (M T Σ−1 M )−1 M T Σ−1 Φ−1 (β̂).
Możemy oczywiście zapisać

√ √ √
n(θ̂ − θ) = n(θ̂NMK − θ) + n(θ̂ − θ̂NMK ),
pokażemy, że pierwszy wyraz zbiega do rozkładu z tezy twierdzenia, a drugi

dąży do zera według prawdopodobieństwa. Rozpatrzmy na początku różnicę
między estymatorem θ̂NMK a parametrem θ
√ √
n(θ̂NMK − θ) = n (M T Σ−1 M )−1 M T Σ−1 Φ−1 (β̂) − (M T Σ−1 M )−1 (M T Σ−1 M )θ
√
= (M T Σ−1 M )−1 M T Σ−1 n(Φ−1 (β̂) − M θ) .
√
Z lematu 1 wynika, że n(Φ−1 (β̂)−M θ) ∼ AN (0, Σ). Korzystając z własności
rozkładu asymptotycznie normalnego, otrzymujemy
√
h i h iT
T −1 −1 T −1 T −1 −1 T −1
n(θ̂NMK − θ) ∼ AN 0, (M Σ M ) M Σ Σ (M Σ M ) M Σ

= AN 0, (M T Σ−1 M )−1 .
Ostatnia równość jest następstwem uproszczenia macierzy kowariancji

h i h iT
(M T Σ−1 M )−1 M T Σ−1 Σ (M T Σ−1 M )−1 M T Σ−1
T
= (M T Σ−1 M )−1 M T Σ−1 Σ(Σ−1 )T M (M Σ−1 M )−1
−1
= (M T Σ−1 M )−1 M T (Σ−1 )T M (M Σ−1 M )T
−1
= (M T Σ−1 M )−1 (M T Σ−1 M )T (M T Σ−1 M )T
= (M T Σ−1 M )−1 .
W granicy n → ∞ otrzymujemy zbieżność według rozkładu

√ D

n(θ̂NMK − θ) −−→ N 0, (M T Σ−1 M )−1 .
√
Pozostaje nam pokazać, że n(θ̂ − θ̂NMK ) dąży do zera według prawdopodo-
bieństwa, gdy n → ∞. Estymator θ̂0 , uzyskany w pierwszym kroku procedury
iteracyjnej, jest zgodnym estymatorem parametru θ. Co więcej
!
T −1 T −1 T −1 T 1
θ̂0 = (M M ) M Φ (β̂) = θ + (M M ) M ε = θ + OP √ .
n
Estymator Σ̂−1 uzyskaliśmy poprzez podstawienie w macierzy Σ−1 estymatora

−1 −1
θ̂0 w miejsce nieznanego
√ parametru θ. Oznacza to, że Σ̂ = Σ + Γn , gdzie
Γn jest rzędu OP (1/ n). Estymator θ̂NMK możemy zapisać jako
θ̂NMK = (M T Σ̂−1 M )−1 M Σ̂−1 Φ−1 (β̂)

= (M T Σ−1 M + M T Γn M )−1 (M T Σ−1 + M Γn )Φ−1 (β̂).
Stosując rozwinięcie Taylora do pierwszego wyrazu i zatrzymując się na

wyrazach liniowych w Γn otrzymamy
h i
θ̂NMK = (M T Σ−1 M )−1 − (M T Σ−1 M )−1 (M T Γn M )(M T Σ−1 M )−1 + OP 1
n

× M T Σ−1 + M T Γn Φ−1 (β̂)
h
= θ̂ + (M T Σ−1 M )−1 M T Γn − (M T Σ−1 M )−1 (M T Γn M )(M T Σ−1 M )M T Σ−1 +
i
+ OP 1
n
Φ−1 (β̂).

Wstawiając do powyższego równania Φ−1 (β̂) = M θ+OP √1
n
oraz pamiętając
√
że Γn jest rzędu OP (1/ n), otrzymamy
θ̂NMK = θ̂ + (M T Σ−1 M )−1 M T Γn M θ

−(M T Σ−1 M )−1 (M T Γn M )(M T Σ−1 M )(M T Σ−1 M )θ + OP n1

1
= θ̂ + OP n
.
√
Ostatnia równość oznacza, że n(θ̂ − θ̂NMK ) dąży do zera według prawdopo-
dobieństwa, gdy n → ∞, co kończy dowód.
Zastosowanie przedstawionej powyżej uogólnionej metody najmniejszych
kwadratów do problemu estymacji krzywej ROC w modelu binormalnym
wymaga zadania podziału odcinka 0 < α1 < α2 < . . . < αk < 1. Naturalnym
wydaje się przyjęcie k równoodległych punktów. Jeżeli krzywa ROC jest stro-
ma, to taki podział może prowadzić do bardzo dużego obciążenia estymatora.
Efekt taki można prosto wytłumaczyć. Na rysunku 2.1 czarną przerywaną
linią zaznaczono empiryczną krzywą ROC w modelu binormalnym z parame-
trami µ = 0 i σ = 2 uzyskaną na podstawie stuelementowych prób losowych
(n = m = 100) a ciągłą linią zaznaczono teoretyczną krzywą ROC. Na lewym
panelu przedstawiono krzywą ROC uzyskaną dla k = 9 równoodległych
punktów αi . Niebieskimi punktami zaznaczono wartości (αi , β̂i ), k = 1, . . . , k
na podstawie których zbudowano estymatory parametrów µ i σ. Widzimy,
że prawie połowa wartości αi przypada na płaską część krzywej ROC, gdzie
odpowiadające im wartości β̂i są bliskie 0 lub 1. Nałożenie na te wartości funk-
cji Φ−1 prowadzi do niestabilności rozwiązań uogólnionego modelu liniowego
i w efekcie do ich dużego obciążenia i wariancji. W pracy [4] przedstawiono
możliwe rozwiązanie tego problemu, polegające na adaptacyjnym wyborze
punktów podziału w taki sposób aby większość z nich przypadała na stromą
część krzywej ROC. Algorytm wygląda następująco:
1. wybieramy liczbę naturalną q,
2. przyjmujemy α̃1 = min{j/n : ROCm,n (j/n) q/m, j = 1, . . . , n},
3. przyjmujemy i = 1,
4. na podstawie α̃i wyliczamy
α̃i+1 = min{j/n : ROCm,n (j/n) − ROCm,n q/m, j = 1, . . . , n}
5. procedurę z punktu 4 powtarzamy dla wszystkich i = 1, . . . , k(q), gdzie

k(q) to największa liczba naturalna taka, że α̃k(q) < 1.
Z konstrukcji algorytmu wynika, że k jest odwrotnie proporcjonalne do q
dlatego w przypadku bardzo stromych krzywych ROC należy stosować małe
Ustalony podział odcinka Procedura adaptacyjna
1.0
1.0
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
● ●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
0.8
0.8
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.6
0.6
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
SE
SE
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
0.4
0.4
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.2
0.2
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●●
●
●●
●
●●
●
●
● ●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
0.0
0.0
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
● ●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1−SP 1−SP
Rysunek 2.1: Przykład estymatorów krzywej ROC dla tych samych prób losowych
o licznościach n = m = 100. Niebieska linia na lewym panelu przedstawia esty-
mator uzyskany przy wyborze 9 równoodległych wartości αi (niebieskie znaczniki
przedstawiają punkty (αi , β̂i )). Na prawym panelu czerwoną zaznaczono natomiast
estymator krzywej ROC uzyskany przy adaptacyjnym wyborze punktów αj dla
q = 8 (czerwone znaczniki przedstawiają punkty (αj , β̂j )).
wartości q bo przekłada się na to większą liczbę obserwacji i przez to daje

lepsze dopasowanie. W swojej pracy autorzy nie podają jednak żadnego
sposoby wyboru optymalnej wartości q zauważając jedynie, że wybór zbyt
małej wartości może prowadzić do niespełnienia założeń o strukturze błędów
w uogólnionym modelu liniowym. Na prawym panelu rysunku 2.1 przed-
stawiono estymator krzywej ROC przy wyborze punktów podziału zgodnie
z przedstawionym powyżej algorytmem. Widzimy, że faktycznie punkty te
rozłożone są w obszarze największej zmienności estymowanej krzywej, po pro-
wadzi do znacznej poprawy estymatora (porównaj linię niebieską na lewym
wykresie i czerwoną na prawym z czarną linią odpowiadającą teoretycznej
krzywej ROC).
2.2.2. Estymator najmniejszej odległości – MDE

Opisany w poprzednim rozdziale uogólniony estymator najmniejszych
kwadratów, ze względu na podział odcinka [0, 1], wymagał w pewnym sen-
sie grupowania i dyskretyzacji ciągłych danych. Model liniowy jest bowiem
konstruowany jedynie na podstawie wartości empirycznej krzywej ROC w k
punktach α1 , . . . , αk . Z samej konstrukcji tego estymatora wynika więc, że
tracimy część dostępnej informacji. Przykładem estymatora, który nie wymaga
grupowania danych jest estymator najmniejszej odległości (minimum distance
estimator MDE), który powstaje przez takie dopasowanie paramaterów µ i σ
aby krzywa ROC była jak najbliższa empirycznej krzywej ROCm,n w pew-
nej ustalonej metryce. Niech, jak poprzednio, θ oznacza wektor parametrów
θ = [µ, σ]T oraz niech
γm,n (t, θ) = ROCm,n (t) − Φ(µ + σΦ−1 (t)). (2.15)

W dalszej części pracy

Z 1
kγm,n (θ)k = γm,n (t, θ)2 dt. (2.16)
0
Estymatorem MDE, oznaczonym przez θMDE , nazywamy taką wartość para-

metru θ, która minimalizuje powyższą odległość tj.
kγm,n (θMDE )k = inf kγm,n (θ)k.
θ
W bardziej bezpośrednim zapisie estymator MDE dany jest równaniem

Z 1h i2
θMDE = argminµ,σ ROCm,n (t) − Φ(µ + σΦ−1 (t)) dt. (2.17)
0
W pracy [4] można znaleźć informacje na temat własności tak zdefiniowanego

estymatora. Nie zostały do tej pory opracowane żadne metody pozwalające
znaleźć jawną postać estymatora MDE w modelu binormalnym. Z tego powodu
w dalszej części pracy estymator ten będzie wyznaczany numerycznie przez
bezpośrednie minimalizowanie odległości (2.16).
2.2.3. Estymator Davidova – DAV

W ostatnim akapicie pracy [4] autorzy zaproponowali modyfikację (2.15)
polegającą na nałożeniu transformacji Φ−1 osobno na każdy człon występujący
po prawej stronie tego równania, czyli zarówno na ROCm,n (t) jak i na Φ(µ +
σΦ−1 (t)). Otrzymany model jest wtedy ciągłym odpowiednikiem opisanej
wcześniej uogólnionej metody najmniejszych kwadratów, która wymagała
dyskretyzacji danych. Takie podejście do problemu estymacji krzywej ROC
w modelu semiparametrycznym zostało rozważone w pracy [1] i z tego powodu
otrzymany w ten sposób estymator będzie nazywany estymatorem Davidova.
Co więcej warto jednak zauważyć, że ze względu na fakt, że przekształcenie
Φ−1 zostało nałożone na każdy człon z osobna, otrzymany w tej procedurze
estymator nie jest estymatorem najmniejszej odległości w myśl definicji (2.16).
Rozważmy więc estymator (µ̂, σ̂) postaci:
Z bh i2
(µ̂, σ̂) = argminµ,σ Φ−1 (ROCm,n (t)) − (µ + σΦ−1 (t)) dt. (2.18)
a
Granice całkowania 0 < a < b < 1 zostały odsunięte od granic przedziału

[0, 1] ze względu na złe zachowanie funkcji podcałkowej w pobliżu 0 i 1. Dla
t dostatecznie bliskich 0 mamy, ROCm,n (t) = 0 ⇒ Φ−1 (ROCm,n (t)) = −∞,
podobny problem pojawia się dla t bliskich 1. Oczywiście za a przyjmujemy
najmniejszą możliwą wartość, a za b największą możliwą wartość, które pozwolą
uniknąć tych problemów. Mamy więc
a = min{i/m : ROCm,n (i/m) > 0, i = 1, . . . , m}, (2.19)
b = max{i/m : ROCm,n (i/m) < 1, i = 1, . . . , m}.
Oznaczmy przez I(µ, σ) wyrażenie podlegające minimalizacji w równaniu
(2.18), tj.
Z bh i2
I(µ, σ) = Φ−1 (ROCm,n (t)) − (µ + σΦ−1 (t)) dt.
a
Zauważmy, że I jest gładką funkcją ze względu na µ i σ. Możemy dzięki temu

prosto znaleźć wartości µ̂ i σ̂ minimalizujące I. Obliczmy
Z bh
∂I i
= −2 Φ−1 (ROCm,n (t)) − (µ + σΦ−1 (t)) dt,
∂µ a
Z bh
∂I i
= −2 Φ−1 (ROCm,n (t)) − (µ + σΦ−1 (t)) Φ−1 (t)dt.
∂σ a
Przyrównując powyższe pochodne cząstkowe do zera znajdujemy jedyne roz-

wiązanie,
Ŝ2 − Ŝ1 Ŝ3
µ̂ = Ŝ1 − σ̂ Ŝ3 , σ̂ = , (2.20)
Ŝ4 − Ŝ32
gdzie
1 Z b −1 1 Z b −1
Ŝ1 = Φ (ROCm,n (t))dt, Ŝ3 = Φ (t)dt,
b−a a b−a a
1 Z b −1 −1 1 Z b −1
Ŝ2 = Φ (ROCm,n (t))Φ (t)dt, Ŝ4 = (Φ (t))2 dt.
b−a a b−a a
Następujący fakt gwarantuje nam, że znalezione wartości µ̂ i σ̂, faktycznie
minimalizują I(µ, σ).
Fakt 4. Punkt (µ̂, σ̂) jest minimum globalnym funkcji I(µ, σ).
Dowód. Ponieważ punkt (µ̂, σ̂) jest jedynym punktem, w którym zerują się
pochodne cząstkowe ∂I/∂µ i ∂I/∂σ pozostaje sprawdzić, że jest to minimum.
W tym celu obliczmy macierz drugich pochodnych
∂ 2I ∂ 2I
 
 ∂µ2 ∂µ∂σ 
 " #
 1 Ŝ3
H= 


 = 2(b − a) .

 ∂ 2I ∂ 2I

 Ŝ3 Ŝ4
∂µ∂σ ∂σ 2
Z twierdzenia Jensena wynika, że wyznacznik macierzy H jest dodatni
 !2 
Z b
2 1 −1 2 1 Z b −1
det(H) = 4(b − a) (Φ (t)) dt − Φ (t)dt  > 0.
b−a a b−a a
Ponieważ pierwszy minor macierzy H również jest dodatni, punkt (µ̂, σ̂) jest
rozwiązaniem problemu minimalizacyjnego (2.18).
W dalszej części tego podrozdziału zbadamy właściwości asymptotyczne
estymatorów µ̂ i σ̂. Podobnie jak w przypadku estymatorów z rozdziału 2.2.1,
uzyskanych uogólnioną metodą najmniejszych kwadratów, zakładać będziemy,
że rozmiary prób losowych powiązane są ze sobą w taki sposób, że
n/m → λ > 0, gdy n → ∞. (2.21)
Oznacza to, że zarówno estymatory µ̂, σ̂ jak i wartości a i b zależą od m,
będziemy je więc oznaczać przez odpowiednio µ̂m , σ̂m , am i bm . Podobnie
zamiast ROCm,n (·) będziemy pisali ROCm (·). Poniższy lemat i twierdzenie
mówią o asymptotycznym własnościach tych wielkości.
Lemat 3. Przy powyższych założeniach, odnośnie związku (2.21) między n i m,

zachodzi am → 0 i bm → 1 prawie na pewno, gdy m → ∞.
Dowód. Niech Yn:n = max{Y1 , . . . , Yn }. Z definicji modelu binormalnego wy-

nika, że nośniki zmiennych Xi i Yj są takie same. Niech więc α oznacza
supremum tego wspólnego nośnika (α może być równa ∞). Dla dowolnego
y < α mamy P (Yn:n ¬ y) = P (Y1 ¬ x)n = G(x)n więc n P (Yn:n ¬ y) < ∞,
P
stąd na podstawie lematu Borela-Cantelliego mamy, że P (Yn:n ¬ y n.c.) = 0.

Po prostych przekształceniach okazuje się, że definicję am podaną w równaniu
(2.19), można zapisać w równoważnej postaci
m
1 1 X 1
am = +1− I(−∞,Yn:n ] (Xi ) = + 1 − Fm (Yn:n )
m m i=1 m (2.22)
1
= + 1 − F (Yn:n ) − [Fm (Yn:n ) − F (Yn:n )]
m
Na mocy twierdzenia Gliwienki-Cantellego ostatni wyraz w powyższym
równaniu zbiega do 0 p.n. Ponadto, ponieważ Yn:n → α p.n., mamy że
F (Yn:n ) → 1 p.n. Stąd wnioskujemy, że am → 0 p.n., gdy m → ∞. W podobny
sposób, możemy pokazać, że bm → 1 prawie na pewno, gdy m → ∞.
Twierdzenie 6. Przy powyższych założeniach, odnośnie związku (2.21) mię-

dzy n i m, estymatory (2.20) są zgodne, tzn. µ̂m → µ i σ̂m → σ według
prawdopodobieństwa.
Dowód. Niech S1 , . . . , S4 oznaczają wielkości Ŝ1 , . . . , Ŝ4 otrzymane po podsta-

wieniu w miejsce estymatora ROCm,n (t) dokładnej wartości ROC(t) a w miej-
sce parametrów a i b wartości odpowiednio 0 i 1. Wielkości S1 , . . . , S4 są więc
w pełni deterministyczne. Korzystając z następujących związków
Z 1 Z 1 2
Φ−1 (t)dt = 0, Φ−1 (t) dt = 1, (2.23)
0 0
otrzymujemy
S1 = µ, S2 = σ, S3 = 0, S4 = 1.
Pokażemy jedynie pierwszą z tych równości bowiem drugą dowodzi się podob-
nie a dwie ostatnie wynikają bezpośrednio z (2.23).
Z 1 Z 1
S1 = Φ−1 (ROC(t)))dt = Φ−1 (1 − G(F −1 (1 − t)))dt
0Z 0
1 Z 1
−1 −1
=− Φ (G(F (1 − t)))dt − Φ−1 (G(F −1 (t)))dt
Z01 µ !! 0
−1 F −1 (t) − Z −1
=− Φ Φ 1
σ
dt = − (σF −1 (t) − µ)dt
0 σ 0
= −(σ · 0 − µ) = µ
Pokażemy, że Ŝ1 → S1 według prawdopodobieństwa. W podobny sposób

P
można pokazać, że Ŝi −−→ Si dla i = 2, 3, 4 a stąd otrzymamy tezę twierdzenia.
Człon 1/(bm − am ) występujący we wszystkich Ŝi w myśl lematu 3 zbiega
do 1 prawie p.n., więc może być pominięty w kolejnych rozważaniach. Na

podstawie nierówności trójkąta mamy
Z
bm Z 1
−1 −1
|Ŝ1 − S1 | =
Φ (ROCm (t))dt − Φ (ROC(t))dt

am 0
Z
bm Z bm
¬ Φ−1 (ROCm (t)) − Φ−1 (ROC(t))dt

am am
Z
bm Z 1
+ Φ−1 (ROC(t))dt − Φ−1 (ROC(t))dt .

am 0
Wykorzystując ponownie lemat 3 stwierdzamy, że drugi człon zbiega do 0

p.n. a więc tym bardziej według prawdopodobieństwa. Zostaje nam pokazać,
że pierwszy człon zbiega do 0 według prawdopodobieństwa. Niech Φ̇−1 (x) =
d
dx
Φ−1 (x) = 1/φ(Φ−1 (x)), gdzie φ jest gęstością standardowego rozkładu
normalnego. Φ̇−1 jest ograniczona na [ROC(am ), ROC(bm )] więc osiąga na
tym przedziale swoje kresy. Co więcej z własności funkcji kwantylowej Φ−1
wynika, że maksimum funkcji Φ̇−1 osiągane jest w jednym z końców tego
odcinka. Mamy więc następujące oszacowanie
bm bm bm
Z Z Z
−1 −1
−1
Φ (ROCm (t))dt − Φ (ROC(t))dt ¬ Φ (ROCm (t))dt − Φ−1 (ROC(t)) dt ¬

am am am
¬ sup |Φ−1 (ROCm (t)) − Φ−1 (ROC(t))| ¬

am ¬t¬bm
¬ max{Φ̇−1 (ROC(am )), Φ̇−1 (ROC(bm ))} sup |ROCm (t) − ROC(t)|
0¬t¬1
Zgodnie z twierdzeniem 3 asymptotyczna zbieżność wyrażenia
sup |ROCm (t) − ROC(t)|

0¬t¬1
√
Oczywiście Φ̇−1 (ROC(am )) → ∞, pokażemy jednak że
jest rzędu OP (1/ n). √
Φ̇−1 (ROC(am )) = oP √
( m), co oznacza, że zbieżność ta jest na tyle wolna, że po
pomnożeniu przez 1/ m wyrażenie zbiega do 0 według prawdopodobieństwa.
Dowód dla Φ̇−1 (ROC(bm )) jest analogiczny.
Dowód
√ przeprowadzimy w dwóch krokach. Najpierw √ pokażemy, że am =
OP (1/ m) a następnie, że Φ̇−1 (ROC(am )) = oP ( m).
Krok 1: Wróćmy do rozkładu am przedstawionego w równaniu (2.22). Wyra-
żenie w nawiasie kwadratowym, na mocy nierówności Dvoretzkiego-Kiefera-
-Wolfowitza, zbiega w tempie wykładniczym do zera według prawdopodobień-
stwa. Człon 1/m również zbiega do zera więc wystarczy zająć się zbieżnością
wyrażenia 1 − F (Ym:m ). Ponieważ jednak
√ 1 − F (Ym:m ) > 0 musimy pokazać
jedynie, że E(1 − F (Ym:m )) = O(1/ m). Mamy
Z ∞
E(1 − F (Ym:m )) = 1 − E(F (Ym:m )) = 1 − (1 − ΦY (t))m φ(t)dt
Z ∞ Z ∞−∞
= ΦY (t)m φ(t)dt = Φ(σt − µ)m φ(t)dt
Z−∞
1
−∞
= Φ(σΦ−1 (s) − µ)m ds.

0
W ostatnim kroku zrobiliśmy podstawienie s = Φ(t). Oznaczmy teraz funkcję

występującą pod całką jako J(s) = Φ(σΦ−1 (s) − µ), oczywiście J(1) = 1.
Bez straty ogólności możemy przyjąć, że σ > 1 i wtedy bezpośrednim ra-
chunkiem można pokazać, że J 0 (1) = 0 oraz J 00 (1) < 0. Przypadek σ < 1
możemy sprowadzić do σ > 1 poprzez zamianę miejscami zmiennych X i Y .
Dalej mamy

d m d2 m
m
J (1) = 1, J (s) = 0, 2
J (s) = mJ 00 (1).
ds
s=1
ds
s=1
Rozwijając funkcję podcałkową w szereg Taylora wokół s = 1 otrzymamy

Z 1 Z 1
E(1 − F (Ym:m )) = J(s)m ds √ J m (s)ds
Z01 1−1/ m
1

= √ J (1) + mJ 00 (1)(s − 1)2 + O((s − 1)3 ds
m
1−1/ m 2!
mJ 00 (1)
!
1 1 1
=√ + +O =O √ .
m 6m3/2 m m
√
Pokazaliśmy, że am = OP (1/ m).
Krok 2: Z nierówności 1 − Φ(x) ¬ φ(x)/x, x > 0 wynika, że Φ(x) = o(φ(x))
√
dla x → −∞, a stąd mamy x = o(φ(Φ−1 (x))), x → 0+ . Przyjmując x = 1/ m
otrzymamy
1 √ √
√ = Φ̇−1 (1/ m) = o( m), m → ∞. (2.24)
φ(Φ−1 (1/ m))
Ponieważ krzywa ROC jest wypukła w pobliżu
√ 0 (wynika to z przyjętego
założenia σ 1) mamy ROC(am ) = OP (1/ m), co w połączeniu z równaniem
(2.24) daje √
Φ̇−1 (ROC(am )) = oP ( m).
Udowodniliśmy tym samym zbieżność Ŝ1 → S1 . Dowód zbieżności Ŝ2 → S2
jest bardzo podobny, a zbieżności Ŝ3 → S3 i Ŝ4 → S4 są oczywiste.
2.3. Modyfikacje estymatorów semiparametrycznych

Wszystkie przedstawione do tej pory estymatory krzywej ROC w modelu
semiparametrycznym były zbudowane w oparciu o empiryczną krzywą ROC.
W przypadku uogólnionej metody najmniejszych kwadratów (rozdział 2.2.1)
nieparametryczny estymator krzywej ROC został wykorzystany w równa-
niu (2.7) do estymowania wartości krzywej w punktach podziału α1 , . . . , αk .
Estymator najmniejszej odległości został zbudowany w taki sposób aby mini-
malizować odległość między teoretyczną i empiryczną krzywą ROC, zgodnie
z równaniem (2.17). Przy konstrukcji estymatora Davidova empiryczna krzywa
ROC została wykorzystana do obliczenia całek Ŝ1 , . . . , Ŝ4 za pomocą których
wyrażone są estymatory paramaterów w modelu binormalnym (równanie
(2.20)).
W pracy tej proponujemy, aby przy konstrukcji wyżej wymienionych
estymatorów semiparametrycznych w miejsce empirycznego estymatora użyć
2.3. Modyfikacje estymatorów semiparametrycznych 23
Tabela 2.1: Analizowane w pracy nieparametryczne i semiparametryczne estymatory

krzywej ROC
estymator parametry opis

ROCm,n – empiryczny estymator, wzór (2.2)
[
ROC – wygładzony estymator, wzór (2.4)
ROCGLS
m,n
GLS GLS
µm,n , σm,n estymatory uogólnionej metody najmniej-
GLS szych kwadratów określone wzorami (2.7)
[
ROC µ̂GLS GLS
m,n , σ̂m,n
i (2.13), ROCGLS
m,n wykorzystuje empiryczną,
GLS
[
a ROC wygładzoną krzywą ROC
ROCDAV
m,n µDAV DAV
m,n , σm,n
estymatory Davidova określone wzorami
DAV (2.20), ROCDAV
m,n wykorzystuje empiryczną
[
ROC µ̂DAV DAV
m,n , σ̂m,n DAV
[
a ROC wygładzoną krzywą ROC
ROCMDE
m,n µMDE MDE
m,n , σm,n
estymatory najmniejszej odległości, wzór
MDE (2.17), ROCDAV wykorzystuje we wzorze
[
ROC µ̂MDE MDE
m,n , σ̂m,n
m,n
DAV
[
(2.15) empiryczną a ROC wygładzoną
krzywą ROC
wygładzonego nieparametrycznego estymatora krzywej ROC określonego

[ jest, tak jak empirycz-
wzorem (2.4). Ponieważ wygładzony estymator ROC
na krzywa ROCm,n , zgodnym estymatorem krzywej ROC, więc wszystkie
twierdzenia dotyczące asymptotycznych własności estymatorów semipara-
metrycznych pozostają słuszne. Tabela 2.1 zawiera zestawienie wszystkich
estymatorów rozpatrywanych w niniejszej pracy. Porównanie efektywności
tych estymatorów będzie przedmiotem rozdziału 3.
Rozdział 3
Porównanie estymatorów krzywej

ROC
W celu porównania efektywności rozważanych estymatorów na drodze sy-
mulacji rozpatrzymy sześć modeli binormalnych w których (µ, σ) ∈ {(1/2, 1/2),
(1/2, 1), (1/2, 2), (0, 1), (−1/2, 1), (3/2, 1)}. Rozważane krzywe ROC zostały po-
kazane na rysunku 3.1.
µ= 0.5 σ= 0.5 µ= 0.5 σ= 1.0 µ= 0.5 σ= 2.0
1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
ROC(t)
ROC(t)
ROC(t)
0.4
0.4
0.4
0.2
0.2
0.2
AUC = 0.6726 AUC = 0.6381 AUC = 0.5884
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t t t
µ= 0.0 σ= 1.0 µ= −0.5 σ= 1.0 µ= 1.5 σ= 1.0

1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
ROC(t)
ROC(t)
ROC(t)
0.4
0.4
0.4
0.2
0.2
0.2
AUC = 0.5 AUC = 0.3618 AUC = 0.8555

0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
t t t
Rysunek 3.1: Krzywe ROC estymowane w tym rozdziale.
3.1. Estymatory semiparametryczne

W pierwszej kolejności porównujemy estymatory semiparametryczne krzy-
wej ROC poprzez porównanie estymatorów parametru θ, który determinuje
krzywą. Miarą dokładności dopasowania estymatora θ̂ = [µ̂, σ̂]T do wartości
teoretycznej θ będzie obciążenie (Bias) oraz średni błąd kwadratowy (MSE)
zdefiniowane jako:

Bias(θ̂) = θ̂ − θ, MSE(θ̂) = E (θ̂ − θ)2 = Bias(θ̂)2 + Var(θ̂). (3.1)
Wyniki uzyskane dla estymatorów zbudowanych w oparciu o empiryczną

krzywą ROC (zgodnie z oznaczeniami wprowadzonymi w tabeli 2.1 są to
estymatory ROCGLS DAV MDE
m,n , ROCm,n oraz ROCm,n ) przedstawiono w tabeli 3.1.
Analogiczne rezultaty uzyskane w oparciu o wygładzony estymator krzywej
26 Rozdział 3. Porównanie estymatorów krzywej ROC
ROC przedstawiono w tabeli 3.2. Wyniki przedstawione w obu tabelach uzyska-

no na podstawie 1000 replikacji Monte Carlo. Rozważamy próby o licznościach
m = n ∈ {50, 100, 500}. Analizując wyniki dla estymatorów zbudowanych w
oparciu o empiryczną krzywą ROC dochodzimy do wniosku, że we wszyst-
kich przypadkach błąd średniokwadratowy jest najmniejszy dla estymatora
Davidova ROCDAV m,n , zarówno przy estymowaniu µ jak i σ. Obciążenie dla
tego estymatora jest najmniejsze w połowie przypadków – w drugiej połowie
najmniejsze obciążenie zaobserwowano dla estymatora najmniejszej odległości
ROCMDE
m,n . Estymator uogólnionej metody najmniejszych kwadratów, zarówno
dla q = 5 jak i q = 10, okazał się we wszystkich przypadkach mniej efektywny.
W przypadku estymatorów ROCDAV MDE
m,n i ROCm,n zarówno obciążenie jak i błąd
średniokwadratowy maleją wraz ze wzrostem liczności prób, co nie jest regułą
dla estymatora ROCGLS m,n . Podobne wnioski możemy wyciągnąć na podstawie
tabeli 3.2. W prawie wszystkich przypadkach estymator Davidova wykazał się
najmniejszym błędem średniokwadratowym (jedyny wyjątek to parametr σ
dla prób n = m = 500). Podobnie jak poprzednio w połowie przypadków esty-
mator ten charakteryzował się również najmniejszym obciążeniem – w drugiej
połowie natomiast lepszy pod tym względem okazał się estymator najmniejszej
odległości. Ciekawe okazuje się porównanie odpowiadających sobie wyników
GLS
w tabelach 3.1 i 3.2. W większości sytuacji estymatory ROC [ uzyskane
uogólnioną metodą najmniejszych kwadratów na podstawie wygładzonego
estymatora krzywej ROC wykazują się mniejszym obciążeniem i błędem śred-
niokwadratowym niż analogiczne estymatory ROCGLS m,n zbudowane w oparciu o
empiryczną krzywą ROC. W przypadku estymatorów Davidova te zbudowane
w oparciu o wygładzoną krzywą ROC charakteryzują się mniejszym błędem
średniokwadratowym w 18 na 24 przypadki, a mniejszym obciążeniem w
jedynie siedmiu przypadkach. Dla estymatorów najmniejszej odległości wyko-
rzystanie wygładzonego estymatora krzywej ROC prowadzi do zmniejszenia
błędu średniokwadratowego w 16 na 22 przypadkach a spadek obciążenia
DAV MDE
zaobserwowano dla dziesięciu przypadków. Estymatory ROC [ [
i ROC
zdają się być efektywniejsze od ROCDAV MDE
m,n i ROCm,n szczególnie dla prób
o małych licznościach.
Tabela 3.1: Obciążenie i średni błąd kwadratowy (podany w nawiasach) parametrów µ i σ dla semiparametrycznych estymatorów bazujących na
empirycznej krzywej ROC. Wyniki dla 5 modeli binormalnych i różnych liczności prób.
µ σ n m parametr ROCGLS
m,n q = 5 ROCGLS
m,n q = 10 ROCDAV
m,n ROCMDE
m,n
1/2 1/2 50 50 µ 0.07285 (0.04500) 0.07081 (0.04869) 0.01013 (0.03265) 0.00760 (0.03363)
σ 0.04646 (0.02892) 0.04316 (0.02959) 0.00568 (0.01019) 0.00113 (0.01040)
100 100 µ 0.05911 (0.02383) 0.03173 (0.01967) 0.00484 (0.01556) 0.00320 (0.01611)
σ 0.01390 (0.01875) 0.02930 (0.01593) 0.00486 (0.00473) 0.00187 (0.00498)
500 500 µ 0.17474 (0.05460) 0.07470 (0.02262) 0.00126 (0.00305) 0.00106 (0.00322)
σ −0.06211 (0.01400) −0.02099 (0.00918) 0.00081 (0.00082) 0.00000 (0.00094)
1/2 1 50 50 µ 0.09846 (0.07142) 0.09454 (0.07512) 0.00079 (0.04527) 0.00989 (0.05190)
σ 0.07412 (0.09422) 0.08336 (0.09661) −0.01053 (0.02518) 0.01460 (0.03691)

100 100 µ 0.04925 (0.04121) 0.04142 (0.03228) 0.00281 (0.02179) 0.00641 (0.02447)
σ 0.07287 (0.07393) 0.05879 (0.05558) −0.00424 (0.01210) 0.00644 (0.01767)
500 500 µ 0.01037 (0.07201) −0.00079 (0.04024) 0.00200 (0.00426) 0.00136 (0.00468)
σ 0.04183 (0.05268) 0.03811 (0.03852) 0.00131 (0.00235) 0.00095 (0.00327)
1/2 2 50 50 µ 0.15176 (0.18454) 0.15276 (0.20529) −0.01605 (0.11231) 0.02034 (0.14979)
σ 0.15486 (0.40013) 0.17978 (0.50884) −0.09550 (0.12749) 0.07575 (0.24450)
100 100 µ 0.07630 (0.07884) 0.07461 (0.07729) −0.00647 (0.05521) 0.01114 (0.06825)
σ 0.13509 (0.21773) 0.10800 (0.19478) −0.05103 (0.05765) 0.03664 (0.10100)
500 500 µ 0.00603 (0.02255) 0.00626 (0.01811) −0.00152 (0.01130) 0.00295 (0.01294)
σ 0.10161 (0.10043) 0.08257 (0.07902) −0.01707 (0.01149) 0.00610 (0.01800)
0 1 100 100 µ 0.06457 (0.06686) 0.02769 (0.04223) 0.00110 (0.02097) 0.00145 (0.02308)
σ 0.03184 (0.07785) 0.04759 (0.05779) 0.00229 (0.01094) 0.00980 (0.01711)
−1/2 1 100 100 µ 0.12347 (0.11611) 0.04456 (0.04456) −0.00555 (0.02207) −0.00720 (0.02478)
σ −0.04789 (0.07934) 0.00759 (0.00759) −0.00451 (0.01207) 0.00639 (0.01761)
27
3/2 1 100 100 µ 0.13539 (0.09134) 0.11558 (0.08732) 0.01095 (0.04299) 0.02578 (0.05802)
σ 0.12089 (0.09993) 0.06213 (0.06615) −0.01894 (0.02495) 0.00716 (0.02994)
28
Tabela 3.2: Obciążenie i średni błąd kwadratowy (podany w nawiasach) parametrów µ i σ dla semiparametrycznych estymatorów bazujących na
wygładzonym estymatorze krzywej ROC. Wyniki dla 5 modeli binormalnych i różnych liczności prób.
GLS GLS DAV MDE
µ σ n m parametr [
ROC q=5 [
ROC q = 10 [
ROC [
ROC
1/2 1/2 50 50 µ 0.02005 (0.03830) 0.02249 (0.04167) 0.00812 (0.03213) 0.00814 (0.03431)
σ 0.04841 (0.02920) 0.04992 (0.02660) 0.00742 (0.00993) 0.02154 (0.01014)
100 100 µ 0.02743 (0.02454) 0.00521 (0.01989) 0.00409 (0.01547) 0.00350 (0.01631)
σ 0.02448 (0.01931) 0.03367 (0.01563) 0.00601 (0.00467) 0.01176 (0.00492)
500 500 µ 0.12761 (0.04178) 0.04584 (0.02072) 0.00111 (0.00305) 0.00089 (0.00323)
σ −0.03005 (0.01207) 0.00010 (0.00931) 0.00124 (0.00082) 0.00184 (0.00094)
1/2 1 50 50 µ 0.01615 (0.06626) 0.03134 (0.05789) 0.00465 (0.04493) 0.00836 (0.05165)
σ 0.07377 (0.09105) 0.04942 (0.07426) 0.00616 (0.02505) 0.01697 (0.03586)
100 100 µ 0.00493 (0.05226) 0.00185 (0.03727) 0.00472 (0.02187) 0.00561 (0.02444)
σ 0.05093 (0.06659) 0.05169 (0.05322) 0.00428 (0.01223) 0.00752 (0.01750)
500 500 µ −0.00701 (0.09337) −0.00515 (0.04420) 0.00222 (0.00426) 0.00080 (0.00468)
σ 0.03187 (0.05178) 0.02470 (0.03463) 0.00348 (0.00241) 0.00148 (0.00327)
1/2 2 50 50 µ 0.04145 (0.14137) 0.04890 (0.15934) −0.06024 (0.08812) 0.01618 (0.14764)
σ 0.04456 (0.33350) 0.10664 (0.39774) −0.18452 (0.08876) 0.06607 (0.23763)
100 100 µ 0.04207 (0.07090) 0.02857 (0.06711) −0.05361 (0.04595) 0.00927 (0.06801)
σ −0.00554 (0.20762) 0.03234 (0.17982) −0.16762 (0.05415) 0.03392 (0.10053)
500 500 µ 0.07500 (0.04899) 0.03285 (0.02555) −0.04193 (0.01124) 0.00186 (0.01293)
σ −0.08259 (0.14155) −0.02639 (0.09013) −0.14023 (0.02596) 0.00642 (0.01802)
0 1 100 100 µ −0.01236 (0.09211) −0.03460 (0.06580) 0.00098 (0.02105) 0.00088 (0.02303)
σ 0.06230 (0.08100) 0.07849 (0.06958) 0.00743 (0.01129) 0.01007 (0.01700)
−1/2 1 100 100 µ −0.00456 (0.13972) −0.04865 (0.10310) −0.00732 (0.02206) −0.00744 (0.02478)
σ 0.04228 (0.08934) 0.06553 (0.07760) 0.00316 (0.01227) 0.00698 (0.01742)
Rozdział 3. Porównanie estymatorów krzywej ROC
3/2 1 100 100 µ 0.04620 (0.05364) 0.05323 (0.06585) −0.01081 (0.03234) 0.03798 (0.06082)
σ 0.03295 (0.06702) 0.03713 (0.05875) −0.04317 (0.01759) 0.02616 (0.02888)
Tabela 3.3: Porównanie efektywności rozważnych nieparametrycznych i semiparametrycznych estymatorów krzywej ROC. Wyniki uzyskano na
podstawie 1000 realizacji Monte-Carlo.
µ σ estymator MISE AUC Bias AUC MSE estymator MISE AUC Bias AUC MSE
1/2 1/2 ROCm,n 0.005603 0.000447 0.003425 [
ROC −6.9% −0.001852 −2.3%
GLS
ROCGLS
m,n −83.3% 0.015371 +24.9% [
ROC +64.9% −0.000037 +23.2%
DAV
ROCDAV
m,n +26.8% 0.000944 +23.2% [
ROC +25.1% 0.000152 −0.8%
MDE
ROCMDE
m,n +29.2% 0.000189 +1.7% [
ROC +26.2% −0.001238 +0.9%
1/2 1 ROCm,n 0.006716 −0.000083 0.003357 [
ROC −5.7% −0.001078 −1.5%
GLS
ROCGLS
m,n −88.7% 0.016395 +21.5% [
ROC −9.7% 0.003459 +9.2%
DAV
ROCDAV
m,n −30.7% −0.000537 +9.2% [
ROC −31.8% −0.000545 −4.0%
MDE
ROCMDE
m,n −22.2% −0.000334 +3.8% [
ROC −23.0% −0.001054 +3.3%
1/2 2 ROCm,n 0.009206 −0.000255 0.003736 [
ROC −4.7% −0.001434 −2.4%
GLS
ROCGLS
m,n −89.8% 0.019077 +21.9% [
ROC −41.1% 0.005027 +7.4%
DAV
ROCDAV
m,n −51.4% −0.000223 +7.4% [
ROC −56.9% −0.004280 −10.3%
MDE
ROCMDE
m,n −46.1% −0.000242 +4.9% [
ROC −46.5% −0.000838 +4.2%
0 1 ROCm,n 0.007161 −0.000034 0.003757 [
ROC −5.2% −0.000026 −1.5%
GLS
ROCGLS
m,n −87.5% 0.015573 +33.2% [
ROC −1.9% 0.004340 +19.2%
DAV
ROCDAV
m,n −31.5% −0.000326 +19.2% [
ROC −31.7% −0.000170 −4.0%
MDE
ROCMDE
m,n −22.3% 0.000410 +3.3% [
ROC −23.2% 0.000078 +2.5%
−1/2 1 ROCm,n 0.006817 0.000228 0.003410 [
ROC −6.0% 0.001299 −1.7%
GLS
ROCGLS
m,n −86.0% 0.017802 +43.5% [
ROC +24.6% 0.002203 +43.7%
DAV
ROCDAV
m,n −29.7% 0.000747 +43.7% [
ROC −31.3% 0.000818 −3.3%
MDE
ROCMDE
m,n −22.3% 0.001163 +3.4% [
ROC −23.4% 0.001320 +2.6%
29
3/2 1 ROCm,n 0.004539 −0.000402 0.001368 [

ROC −17.7% −0.004980 −4.2%
GLS
ROCGLS
m,n −88.1% 0.011657 +21.1% [
ROC −12.8% −0.000843% +7.5%
DAV
ROCDAV
m,n −31.2% −0.001459 +7.5% [
ROC −38.4% −0.001941% +1.0%
MDE
ROCMDE
m,n −27.7% −0.002402 +1.2% [
ROC −30.6% −0.003811% +1.3%
3.2. Estymatory nieparametryczne i

semiparametryczne
W tabeli 3.3 przedstawiono porównanie efektywności wszystkich rozważa-
nych w pracy estymatorów krzywej ROC dla prób o licznościach n = m = 50.
Estymatory GLS zbudowane zostały z wykorzystaniem procedury adapta-
cyjnej dla wartości parametru q = 10. W czwartej i ósmej kolumnie podano
oszacowaną wartość średniego scałkowanego błędu kwadratowego MISE daną
równaniem
Z 1
[ =E
MISE(ROC) [ − ROC(t))2 dt ,
(ROC(t)
0
[ to rozważany estymator. Wartość MISE podano jedynie dla

gdzie ROC
empirycznej krzywej ROC. Dla wszystkich pozostałych estymatorów podano
wartość błędu względem ROCm,n tj. wielkość
 
[
[ =  MISE(ROC) − 1 · 100%.
δ(ROC) (3.2)
MISE(ROCm,n )
I tak, na przykład, zastąpienie empirycznej krzywej ROC przez estymator

[ powoduje zmniejszenie błędu MISE o 6, 9% dla parametrów
wygładzony ROC
µ = σ = 1/2. Uzyskane wyniki pokazują, że najmniejszą wartość MISE ma
estymator GLS. Jest to wynik zgodny z oczekiwaniami bowiem metoda GLS,
jako metoda najmniejszych kwadratów, powinna minimalizować średni błąd
kwadratowy. Uzyskane wyniki pokazują jednak, że zastąpienie estymatora
empirycznego ROCm,n estymatorem ROC[ prowadzi do znacznego zwiększenia
MISE – w pierwszym przypadku estymator GLS wykazuje się najmniejszym
błędem spośród wszystkich rozważanych w drugim przypadku natomiast jego
błąd jest zawsze największy. W większości przypadków drugą najefektyw-
niejszą metodą estymacji (w sensie minimalizowania MISE) jest estymator
Davidova, najmniejszy spadek błędu został odnotowany dla estymatora naj-
mniejszej odległości. Porównanie wyników w kolumnach czwartej i ósmej
pokazuje, że we wszystkich przypadkach (oprócz GLS) zbudowanie estymato-
rów w oparciu o wygładzoną krzywą ROC prowadzi do zmniejszenia błędu
średniokwadratowego w porównaniu z analogiczną metodą wykorzystującą
empiryczną krzywą ROC. Na podstawie przeprowadzonej analizy możemy
również wyciągnąć wniosek, że im większa wartość parametru σ tym większy
zysk z zastosowania estymatorów semiparametrycznych.
W szeregu zastosowań praktycznych interesuje nas nie tyle sama krzywa
ROC co pole pod tą krzywą, zdefiniowane jako
Z 1
AUC = ROC(t)dt. (3.3)
0
AUC charakteryzuje zdolności klasyfikacyjne reguły decyzyjnej (1.1) [6].

W modelu binormalnym (2.5) √AUC wyraża się szczególnie prostym wzo-
rem, mianowicie AUC = Φ(µ/ 1 + σ 2 ). W kolumnach piątej i dziewiątej
tabeli 3.3 podano średnie obciążenie wartości AUC. Widzimy, że w większości
3.2. Estymatory nieparametryczne i semiparametryczne 31
przypadków estymatory nieparametryczne charakteryzują się mniejszym obcią-

żeniem niż estymatory semiparametryczne. Sytuacja wygląda jednak inaczej,
gdy pod uwagę weźmiemy średni błąd kwadratowy (3.1) podany w szóstej i
dziesiątej kolumnie omawianej tabeli. Podobnie jak poprzednio, wartość błędu
została podana tylko dla estymatora nieparametrycznego, a dla pozostałych
podano względną różnicę wartości MSE obliczoną podobnie jak wielkości
δ(ROC),
[ patrz wzór (3.2). W prawie wszystkich przypadkach najmniejszym
DAV
błędem MSE charakteryzuje się estymator Davidova ROC [ zbudowany
w oparciu o wygładzoną krzywą ROC – jedynie w przypadku µ = σ = 1/2
lepsza pod tym względem jest sama wygładzona krzywa ROC. Co więcej jest
to jedyny estymator semiparametryczny, który zapewnia mniejszy błąd niż
ROCm,n . W przypadku semiparametrycznych estymatorów ROCGLS DAV
m,n , ROCm,n
i ROCMDE
m,n zbudowanych w oparciu o empiryczną krzywą ROC błąd MSE
jest zawsze większy niż dla samego estymatora ROCm,n . Warto przy tym
zauważyć, że pole pod empiryczną krzywą ROC, jest równe wartości statystyki
U Manna-Whitneya [6].
Na rysunku 3.2 przedstawiono mapy porównujące średni scałkowany błąd
kwadratowy wybranych estymatorów w zależności od wartości parametrów µ
i σ. W pierwszym wierszu przedstawiono wyniki dla estymatorów nieparame-
[ w drugim dla estymatorów semiparametrycznych
trycznych ROCm,n i ROC,
DAV MDE
ROCm,n , ROCm,n a w trzecim dla estymatorów semiparametrycznych zbu-
DAV MDE
dowanych w oparciu o wygładzoną krzywą ROC tj. ROC [ [
i ROC .
Wyniki uzyskano na podstawie 100 realizacji Monte-Carlo dla prób o licz-
nościach n = m = 50. Dla estymatora empirycznego przedstawiono wartość
błędu MISE a w pozostałych przypadkach wartość względną obliczoną zgodnie
z równaniem (3.2). Skale na wszystkich wykresach, oprócz pierwszego, są takie
same i symetryczne względem zera. Kolor niebieski odpowiada więc tym warto-
ścią parametrów µ i σ dla których rozważany estymator jest efektywniejszy od
estymatora nieparametrycznego. Kolor żółty określa sytuację przeciwstawną
a kolor zielony obrazuje obszar w którym efektywności obu estymatorów są
podobne. Widzimy, że dla estymatora ROCm,n wartość MISE maleje wraz
ze wzrostem µ i rośnie wraz ze wzrostem σ. Wynik ten jest zgodny z ocze-
kiwaniami. Zastąpienie estymatora empirycznego ROCm,n przez estymator
wygładzony ROC[ powoduje spadek efektywności w dość szerokim pasie dla
dużych µ i małych σ. Dla większych wartości parametru σ obserwujemy jednak
spadek wartości MISE. Wyniki przedstawione w drugim wierszu pokazują,
że w większości przypadków zastosowanie modelu binormalnego prowadzi
do zmniejszenia wartości MISE – obserwacja taka jest zgodna z wynikami
przedstawionymi w tabeli 3.3. Dla estymatora Davidova ROCDAV m,n spadek
wartości MISE obserwowany jest dla prawie wszystkich wartości parametrów,
a poprawa efektywności jest szczególnie dobrze widoczna dla dużych wartości
σ. Estymator najmniejszej odległości ROCMDE m,n radzi sobie gorzej dla dużych
wartości σ (zielony obszar zamiast błękitnego jak miało to miejsce w przypadku
estymatora Davidova), ale obserwujemy bardzo duży spadek MISE dla dużych
wartości µ przy małych wartościach σ. Co więcej w obszarze tym nie udało się
wyznaczyć estymatora Davidova, co zostało przedstawione jako biała plama
Estymator empiryczny Estymator wygladzony
2.5 0.012 2.5
2.0 0.010 2.0 50
0.008
1.5 1.5
σ
σ
0
0.006
1.0 1.0
0.004
−50
0.5 0.5
0.002
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Estymator DAV bazujący na empirycznej krzywej ROC Estymator MDE bazujący na empirycznej krzywej ROC
2.5 2.5
2.0 50 2.0 50
1.5 1.5
σ
0 0
1.0 1.0
−50 −50
0.5 0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Estymator DAV bazujący na wygładzonej krzywej ROC Estymator MDE bazujący na wygładzonej krzywej ROC
2.5 2.5
2.0 50 2.0 50
1.5 1.5
σ
0 0
1.0 1.0
−50 −50
0.5 0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
µ µ
Rysunek 3.2: Mapy wartości δ tj. średniego scałkowanego błędu kwadratowego dla
estymatorów ROCm,n , ROC,
[ Davidova i MDE względem estymatora empirycznego,
obliczone zgodnie z równaniem (3.2) w zależności od wartości parametrów µ i σ.
Dla estymatora estymatora empirycznego podano wartość MISE.
3.2. Estymatory nieparametryczne i semiparametryczne 33
w dolnym prawym rogu wykresu – do tego wątku wrócimy jeszcze później.

Jedynym przypadkiem w którym estymator najmniejszej odległości jest mniej
efektywny niż estymator empiryczny jest bardzo wąski obszar gdy µ jest
zbliżone do 3, podczas gdy σ ≈ 0.1. Obszar ten odpowiada niezwykle stromej
krzywej ROC i przez to jest nieinteresujący z aplikacyjnego punktu widzenia.
W ostatnim wierszu wykresów na rysunku 3.2 przedstawiono wyniki uzyskane
dla estymatorów semiparametrycznych zbudowanych w oparciu o wygładzoną
DAV MDE
krzywą ROC tj. ROC[ [
i ROC . Wyniki uzyskane dla tego pierwszego
mają podobny charakter do tych uzyskanych dla standardowego estymatora
Davidova ROCDAV m,n . Różnice manifestują się tylko dla dużych wartości µ i σ
gdy estymator bazujący na wygładzonej krzywej ROC jest mniej efektywny.
DAV
Warto zauważyć, że w przypadku ROC [ biały obszar w którym chociaż raz
nie udało się wyznaczyć estymatora jest znacznie mniejszy. Ogólnie można
więc powiedzieć, że zastosowania estymatora wygładzonego polepsza własności
MDE
estymatora Davidova. Wyniki uzyskane dla ROC [ różnią się jednak znaczą-
MDE
co od tych dla ROCm,n . Wartości MISE są generalnie większe. W obszarze
gdzie efektywność tego drugiego estymatora była największa, estymator wy-
korzystujący wygładzoną krzywą ROC wykazuje się wartością MISE większą
nawet od najprostszego estymatora empirycznego. W świetle przeprowadzonej
analizy, można więc zaryzykować stwierdzenie, że zastosowanie estymatora
wygładzonego w najlepszym przypadku nie poprawia własności estymatora
najmniejszej odległości.
Powróćmy teraz do zagadnienia uniwersalności rozważanych estymato-
rów semiparametrycznych. Estymatory nieparametryczne możemy zbudować
niezależnie od rozkładów z których pochodzą obserwacje i niezależnie od
liczności prób. Możliwości zbudowania estymatora najmniejszej odległości
w modelu binormalnym ograniczone są jedynie przez możliwości numeryczne-
go rozwiązania problemu minimalizacyjnego (2.17). Jest to jednak problem
minimalizowania gładkiej funkcji dwóch zmiennych, tak więc nie powinien on
przysparzać problemów. Zupełnie inaczej wygląda jednak sytuacja w przypad-
ku estymatora uogólnionej metody najmniejszych kwadratów i estymatora
Davidova, których może nie dać się wyznaczyć, gdy jednocześnie wartość
µ jest duża, wartość σ jest mała, a liczności prób nie są dostatecznie duże.
Źródłem problemów jest w obu przypadkach przekształcenie Φ−1 (·) – patrz
(2.13) i (2.18). Dla tak dobranych parametrów bowiem krzywa ROC jest
bardzo stroma w okolicy 0 a następnie bardzo płaska o wartości bliskiej 1 –
porównaj przykładowe krzywe przedstawione na rysunku 3.1. Wtedy może
się zdarzyć, że ROCm,n (xi ) = 1, i = 1, 2, . . . , k, gdzie k to liczba punktów w
których estymujemy krzywą. Wtedy we wzorze (2.19) będziemy mieli a = b
co spowoduje, że Ŝ1 = . . . = Ŝ4 = 0 i ostatecznie nie uda się wyznaczyć esty-
matora Davidova (2.20). Tłumaczy to występowanie białych plam na rysunku
3.2. Odpowiadają one tym obszarom, w których chociaż raz (na 100 prób) nie
udało się wyznaczyć estymatora Davidova. Oczywiście im więcej replikacji
Monte-Carlo lub im mniejsze liczności prób tym większe szanse, że chociaż
raz zajdzie sytuacja opisana powyżej i nie uda się wyznaczyć estymatora
Davidova. Zastąpienie estymatora empirycznego przez estymator wygładzony
polepsza nieznacznie sytuację, tzn. przy ustalonej liczności prób poszerza
dozwolony zbiór wartości parametrów µ i σ – biały obszar jest mniejszy dla

DAV
[
ROC niż dla ROCDAV
m,n . Podobna sytuacja ma mniejsce dla estymatorów
GLS
uogólnionej metody najmniejszych kwadratów ROCGLS [
m,n i ROC i dlatego nie
przedstawiono wyników dla tych estymatorów. W przypadku bardzo stromej
krzywej ROC dużo punktów αi będzie przepadało na obszar krzywej gdzie
krzywa empiryczna przyjmuje wartość 0 lub 1. Warunkiem koniecznym do
rozwiązania równania (2.13) jest to, aby przynajmniej dwie wartości β̂i były
różne od 0 i 1.
3.3. Odporność estymatorów na niespełnienie

założenia o normalności
Omawiane w tej pracy semiparametryczne metody estymacji krzywej
ROC zakładają, że obserwacje Xm = (X1 , . . . , Xm ) i Yn = (Y1 , . . . , Yn )
na skutek nałożenie pewnego nieznanego przekształcenia h będą opisane
rozkładami normalnymi. Celem tego podrozdziału jest sprawdzenia na ile
niespełnienie tego założenie wpływa na efektywność estymatorów semipa-
rametrycznych. Rozpatrzmy więc przypadek, w którym próba losowa Xm
pochodzi ze standardowego rozkładu normalnego N (0, 1), ale próba losowa Yn
pochodzi z rozkładu Studenta o ν stopniach swobody. Zakładamy ponadto, że
liczności obu prób są takie same (n = m). Rozkład Studenta został wybrany
z trzech powodów. Po pierwsze rozkład ten jest często spotykany w rzeczy-
wistych problemach. Po drugie w przypadku prób o małych licznościach lub
w przypadku prób pochodzący z rozkładu Studenta o dużej liczbie stopni
swobody najpopularniejsze testy normalności (np. test Shapiro-Wilka) często
nie dają podstaw do odrzucenia hipotezy o normalności rozkładu. Zmieniając
wartość parametru ν możemy zmieniać podobieństwo rozkładu obserwacji
Yn do rozkładu normalnego – im większa wartość parametru ν tym bardziej
rozkład Studenta jest podobny do rozkładu N (0, 1). Na rysunku 3.3 przedsta-
wiono zależność błędu MISE rozważanych estymatorów nieparametrycznych
i semiparametrycznych binormalnych w przypadku, gdy G ∼ Student(ν) dla
ν = 1 i ν = 10 w zależności od liczności próby n. W pierwszym wierszu
podano wyniki uzyskane dla estymatorów bazujących na empirycznej krzywej,
a w drugim – na wygładzonej krzywej ROC. emp. oznacza estymator empi-
rycznym a wygł. estymator wygładzony ROC.[ Wyniki uzyskane na podstawie
1000 realizacji Monte-Carlo. Widzimy, że we wszystkich przypadkach, za
wyjątkiem estymatora uogólnionej metody najmniejszych kwadratów, błąd
MISE maleje wraz z licznością próby. Dla ν = 1 i małych wartości n błędy
MISE dla estymatorów semiparametrycznych są mniejsze niż dla estymatorów
nieparametrycznych (zarówno empirycznego jak i wygładzonego), ale dla
odpowiednio dużej liczności prób sytuacja ulega odwróceniu co jest zgodne
z oczekiwaniem. Dla małych wartości n błąd estymatorów nieparametrycznych
jest większy ze względu na ich ogólne słabe dopasowanie dla małych prób.
Wraz ze wzrotem liczność próby błąd estymatorów nieparametrycznych maleje
(bo są to estymatory zgodne). Błąd estymatorów DAV i GLS nie maleje jednak
do zera, ze względu na przyjęty model binormalny – przedstawione na wykresie
3.3. Odporność estymatorów na niespełnienie założenia o normalności 35
Estymatory bazujące na krzywej empirycznej Estymatory bazujące na krzywej empirycznej
●
emp. GLS DAV MDE emp. GLS DAV MDE
0.020
0.020
●
● ●
●
● ●
● ● ●
● ●
● ●
● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ●
● ● ● ●
ν= 1 ν= 10
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
0.005
0.005
● ● ● ●
● ●
MISE
MISE
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
● ●
● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
●
0.001
0.001
● ● ● ●
● ● ●
● ● ●
● ●
●
● ● ●
●
●
50 100 200 50 100 200
Liczność prób n=m Liczność prób n=m
Estymatory bazujące na krzywej wygładzonej Estymatory bazujące na krzywej wygładzonej
●
wygł. GLS DAV MDE ● wygł. GLS DAV MDE
0.020
0.020
●
●
●
● ● ●
● ●
● ●
● ● ●
● ● ●
● ●
● ●
●
● ● ●
● ● ●
ν= 1 ν= 10
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ●
●
●
0.005
0.005
● ● ●
● ●
MISE
MISE
● ●
● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ●
●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ●
●
● ●
● ●
● ●
● ● ●
●
● ●
● ●
● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ● ●
0.001
0.001
● ● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
●
●
50 100 200 50 100 200
Liczność prób n=m Liczność prób n=m
Rysunek 3.3: Średni scałkowany błąd kwadratowy (MISE) w zależności od liczności

prób losowych.
wartości błędów MISE są o rząd wielkości większe niż minimalna możliwa

wartość. Oznacza to, że dla odpowiednio dużej wartości n błąd estymatorów
nieparametrycznych musi być mniejszych od błędu estymatorów semipara-
metrycznych. Warto zauważyć, że dla ν = 10, gdy rozkład Yn jest bardziej
zbliżony do rozkładu normalnego, w badanym zakresie wartości n zawsze
błędy estymatorów semiparametrycznych DAV i MDE były mniejsze niż
estymatorów nieparametrycznych – gdyby jednak zwiększyć zakres wartości
n sytuacja byłaby podobna do przypadku ν = 1. Co ciekawe wyniki uzyskane
dla estymatorów bazujących na wygładzonej krzywej ROC są praktycznie
takie same jak w przypadku estymatorów bazujących na empirycznej krzywej
ROC. Pozostaje wytłumaczyć zachowanie estymatora uogólnionej metody
najmniejszych kwadratów (GLS). Początkowo błąd MISE zgodnie z ocze-
kiwaniami maleje (więcej obserwacji umożliwia lepsze dopasowanie modelu
liniowego), ale później zaczyna rosnąć. Rozkład Studenta odróżnia od rozkładu
normalnego między innymi wolniejsza zbieżność na ogonach (co odpowiada za
istnienie momentów tylko do rzędu ν − 1). Wraz ze wzrostem liczności prób
rośnie prawdopodobieństwo wylosowania obserwacji odstającej. W metodzie
GLS nakładamy transformację Φ−1 (·) (patrz wzór (2.13)) która powoduje duży
rozrzut skajnych wartości zmiennej objaśnianej i w konsekwencji przekłada
się na numeryczną niestabilność rozwiązania równania (2.14) i odpowiada za
dużą wartość błędu MISE.
Na rysunku 3.4 umieszczono wykresy pudełkowe przedstawiające rozkład
obciążenia wyestymowanej wartości AUC w zależności od użytego estymatora.
Szare pudełka przedstawiają wyniki uzyskane dla rozkładu Studenta o dziesię-
ciu stopniach swobody ν = 10, podczas gdy białe pudełka odpowiadają ν = 1.
W środku każdego pudełka znajduje się pozioma linia określająca wartość
n = m = 50 n = m = 500
0.2
0.2
0.1
0.1
AUC Bias
AUC Bias
0.0
0.0
−0.1
−0.1
−0.2
−0.2
ROCm,n
ROCGLS
ROCGLS
ROCDAV
ROCDAV
ROCMDE
ROCMDE
ROCm,n
ROCGLS
ROCGLS
ROCDAV
ROCDAV
ROCMDE
ROCMDE
m,n
m,n
m,n
m,n
m,n
m,n
ROC
ROC
Rysunek 3.4: Obciążenie AUC w zależności od przyjętego estymatora krzywej ROC
dla prób o licznościach 50 i 500.
mediany. Wąsy mają długość równą półtorej wartości rozstępu ćwiartkowego.

Na podstawie wyników dla n = 50 stwierdzamy, że obciążenie AUC było
mniejsze w przypadku rozkładu o dziesięciu stopniach swobody przy czym
różnice nie były duże. Dla wszystkich rozważanych estymatorów rozrzut obcią-
żenia był podobny i mniejszy w przypadku ν = 10. Zgodnie z oczekiwanymi
zwiększenie liczności próby do n = 500 przełożyło się na spadek obciążenia
oraz jego wariancji. Uwaga ta nie dotyczy jednak estymatorów uogólnionej
GLS
metody najmniejszych kwadratów tj. ROCGLS m,n i [
ROC . W przypadku tych
estymatorów zwiększenie liczności próby przełożyło się na dramatyczny wzrost
zarówno obciążenia jak i wariancji estymowanej wartości AUC, przy czym
zgodnie z oczekiwaniami obciążenie jest większe dla ν = 1 niż dla ν = 10.
Przedstawiona powyżej analiza odporności rozważanych estymatorów semi-
parametrycznych na niespełnienie założenie o normalności rozkładów pokazuje,
że estymatory bazujące na metodzie najmniejszej odległości, czyli estymatory
DAV GLS
ROCDAVm,n , ROC
[ , ROCGLS
m,n , ROC
[ , są znacznie odporniejsze niż estymato-
MDE
ry uogólnionej metody najmniejszych kwadratów ROCMDE [
m,n i ROC . Warto
zauważyć, że w rozważanym problemie zastąpienia rozkładu normalnego przez
rozkład Studenta, estymatory semiparametryczne w większości przypadków
sprawują się co najmniej tak samo dobrze jak estymatory nieparametryczne.
Należy przy tym pamiętać, że może nie mieć to miejsca w przypadku gdy
rozkład normalny np. rozkładem astymetrycznym. Zgodnie z oczekiwaniami,
wykorzystanie wygładzonej krzywej ROC przy konstrukcji estymatorów semi-
parametrycznych nie ma wpływu na polepszenie ich własności w przypadku
niespełnienia założeń o normalności rozkładów.
Rozdział 4
Estymacja krzywej ROC w pakiecie R.

Analiza danych rzeczywistych
Estymatory krzywej ROC, jako szeroko stosowanego narzędzia do oceny
jakości klasyfikatorów oraz wykorzystywanego w wielu obszarach analizy
danych, zostały zaimplementowane w wielu pakietach statystycznych. W przy-
padku programu R na szczególną uwagę zasługują pakiety rocR oraz pROC
w których zaimplementowano między innymi empiryczny estymator krzywej
ROC oraz estymatory wartości AUC. Nie udało się znaleźć jednak ani jednego
pakietu zawierającego implementację wygładzonego estymatora krzywej ROC
lub estymatorów semiparametrycznych. Do pracy dołączony jest kod źródło-
wy skryptów będących implementacją wszystkich rozważanych estymatorów.
Skrypt został napisany w języku R, a kod źródłowy dostarczony jest w dwóch
plikach roc.R oraz semiroc.R. Opis wszystkich znajdujących się tam funkcji
zawarty jest w tabeli 4.1 oraz w postaci komentarzy w kodzie.
Tabela 4.1: Opis oraz lokalizacja wybranych funkcji znajdujących się w skrycie.
funkcja plik estymator

roc.emp roc.RROCm,n
roc.hat roc.R[
ROC
GLS
binormal.gls semiroc.R ROCGLS
m,n , ROC
[
DAV
binormal.dav semiroc.R ROCDAV
m,n , ROC
[
MDE
binormal.mde semiroc.R ROCMDE
m,n , ROC
[
MDE
Estymatory najmniejszej odległości, ROCMDE [
m,n i ROC , wyznaczane są
poprzez numeryczne rozwiązanie problemu optymalizacyjnego (2.17). Korzy-
stamy przy tym z metody Neldera-Meada wyznaczania ekstremum funkcji
wielu zmiennych (w naszym przypadku jest to funkcja dwóch zmiennych
(µ, σ)) zaimplementowanej w pakiecie R w funkcji optim{stats}. Algorytm
kończy pracę, gdy wartość minimalizowanej funkcji w dwóch kolejnych krokach
zmniejsza się o mniej niż δ(|fi | + δ) gdzie fi to jej
√ wartość w ostatnim kroku.
Za δ przyjmujemy domyślą wartość, równą δ = ε gdzie wartość ε, zależna
od platformy, to najmniejsza liczba zmiennoprzecinkowa taka że, 1 + ε 6= 1.
Rozwiązywany numerycznie problem (2.17) dotyczy minimalizowania funkcji
tylko dwóch zmiennych i z tego powodu podczas implementacji zdecydowano
się na wybór domyślnego algorytmu odpornego na zły wybór warunków
początkowych.
W celu zilustrowania zachowania rozważanych estymatorów w przypadku
analizy rzeczywistych danych rozpatrzmy dane Duchenne Muscular Dystrophy
pochodzące oryginalnie z pracy [9] i będące dostępne za darmo jako dodatek
38Rozdział 4. Estymacja krzywej ROC w pakiecie R. Analiza danych rzeczywistych
Tabela 4.2: Oszacowane wartości parametrów oraz pola pod krzywą dla danych
DMD.
parametr parametr
estymator µ̂ σ̂ [
AUC estymator µ̂ σ̂ [
AUC
ROCm,n – – 0.8629 [
ROC – – 0.8650
GLS
ROCGLS
m,n q=5 1.3941 0.7884 0.8631 [ q=5
ROC 1.4500 0.8204 0.8688
GLS GLS
ROCm,n q=10 1.3924 0.8015 0.8613 [ q=10
ROC 1.4495 0.7412 0.8778
DAV
ROCDAV
m,n 1.3099 0.6584 0.8630 [
ROC 1.3287 0.6476 0.8676
MDE MDE
ROCm,n 1.2775 0.6205 0.8611 [
ROC 1.3402 0.6867 0.8653
do książki [11]. Z oryginalnych danych usunięto niekompletne rekordy. Dane

zawierają między innymi poziom kinazy kreatynowej (CK) w grupie zdrowych
kobiet (127 obserwacji) oraz w grupie nosicieli (67 obserwacji). Celem badań
było sprawdzenie czy poziom CK, którego oznaczenie jest tanie w porównaniu
z testami genetycznymi, może wskazywać na bycie nosicielem choroby DMD.
W tabeli 4.2 podano oszacowane wartości parametrów µ i σ dla wszystkich
rozważanych estymatorów semiparametrycznych, a oszacowanie pola pod
krzywą podano dodatkowo również dla estymatorów nieparametrycznych.
Widzimy, że o ile oszacowania parametrów różnią się znacząco w zależności
od zastosowanej metody estymacji, o tyle oszacowania wartości pola pod
krzywą są podobne i wahają się od 0.8611 do 0.8688. Warto zauważyć, że
rozkład zmiennej CK w żadnej z grup nie jest normalny oraz że nie znamy
przekształcenia H, które znormalizowałby te dane. Nie przeszkadza jednak w
budowie skutecznego modelu binormalnego. Na rysunku 4.1 przedstawiono
nieparametryczne estymatory krzywej ROC oraz estymatory semiparametrycz-
ne zbudowane w oparciu o empiryczną krzywą ROC. Zgodnie z oczekiwaniami,
ze względu na relatywnie dużą liczbę obserwacji, otrzymane krzywe ROC nie
różnią się od siebie znacząco.
1.0
0.8
0.6
SE
0.4
Estymator empiryczny
0.2
Estymator wygładzony
GLS
DAV
MDE
0.0
0.0 0.2 0.4 0.6 0.8 1.0
1−SP
Rysunek 4.1: Wybrane krzywe ROC dla danych Duchenne Muscular Dystrophy.
39
Do pracy, oprócz wspomnianych kodów źródłowych, dołączony jest w

pliku dmd.csv zbiór danych Duchenne Muscular Dystrophy. Na poniższym
wydruku sesji pakietu R przedstawiono przykładowy sposób w jaki do tych
danych można wykorzystać napisane estymatory. W przykładzie pokazano
użycie wygładzonego nieparametrycznego estymatora ROC[ (zapisanego w
wektorze hat) oraz semiparametrycznego binormalnego estymatora Davidova
ROCDAV
m,n (oszacowane wartości parametry µ i σ zapisane są w nazwanym
wektorze dav.param). Funkcja roc.binormal znajduje wartości estymatora
binormalnego przekazanego w pierwszym argumencie we wszystkich punkach
przekazanych jako drugi argument. W zupełnie analogiczny sposób można
wykorzystać dowolny inny estymator z tabeli 4.1.
Program 4.1: Przykładowe użycie zaimplementowanych estymatorów.

> source ( ’ semiroc . R ’)
> t = read . csv ( ’ dmd . csv ’)
> t0 = t $ ck [ t $ carrier ==0]
> t1 = t $ ck [ t $ carrier ==1]
> x = seq (0 ,1 , by =0.01)
> hat = roc . hat ( t0 , t1 , x )
> ( dav . param = binormal . dav ( t0 , t1 ))
mu sigma
1.309943 0.658359
> dav = roc . binormal ( dav . param , x )
> plot (x , hat , type = ’l ’)
> lines (x , dav , col = ’ red ’)
Podsumowanie
Celem pracy było przedstawienie i porównanie semiparametrycznych
estymatorów krzywej ROC. W rozdziale 1 zdefiniowano krzywą ROC oraz
przedstawiono jej podstawowe własności. Rozdział 2 został natomiast poświę-
cony estymacji krzywej ROC, zarówno w podejściu nieparametrycznym jak
i semiparametrycznym. W pracy rozważono dwa estymatory nieparametrycz-
ne, estymator empiryczny oraz estymator wygładzony, a także trzy rodzaje
estymatorów semiparametrycznych: uogólnionej metody najmniejszych kwa-
dratów (GLS), najmniejszej odległości (MDE) oraz tzw. estymator Davidova.
W podrozdziale 2.3 zaproponowano własne modyfikacje wyżej wymienionych
estymatorów semiparametrycznych.
W rozdziale 3 przedstawiono i omówiono wyniki symulacyjnego porównania
wszystkich rozważanych estymatorów. Wyniki przedstawione w podrozdziale
3.1, dotyczące porównania oszacowań parametrów µ i σ w modelu binormal-
nym pokazują, że w prawie wszystkich przypadkach najmniejszym błędem
średniokwadratowym charakteryzował się estymator Davidova, a największym
błędem estymator GLS. W większości przypadków zaproponowane modyfika-
cje estymatorów przyczyniły się do zmniejszenia błędu średniokwadratowego.
W podrozdziale 3.2 porównano efektywności estymatorów semiparametrycz-
nych i nieparametrycznych. Najefektywniejszym estymatorem semiparame-
trycznym okazał się estymator uogólnionej metody najmniejszych kwadratów,
a w większości przypadków drugim najefektywniejszym estymatorem był
estymator Davidova. We wszystkich przypadkach, oprócz estymatora GLS,
zaproponowane modyfikacje estymatorów semiparametrycznych charakte-
ryzowały się większą efektywnością. W rozdziale tym poruszono również
kwestię uniwersalności rozważanych estymatorów, rozumianą jako możliwość
ich wyznaczenia. Spośród estymatorów semiparametrycznych najbardziej
uniwersalny jest estymator najmniejszej odległości, następnie estymator Da-
vidova, a na końcu estymator uogólnionej metody najmniejszych kwadra-
tów. Pokazano również, że zastosowanie zaproponowanych w podrozdziale
2.3 modyfikacji przyczynia się do polepszenia uniwersalności estymatorów
semiparametrycznych. Przedstawiona w podrozdziale 3.3 analiza odporności
estymatorów semiparametrycznych na niespełnienie założenia o normalności
rozkładów pokazała, że estymatory Davidova i najmniejszej odległości są
zdecydowanie odporniejsze niż estymator GLS.
W rozdziale 4 zaprezentowano zastosowanie rozważanych metod estymacji
do analizy rzeczywistych danych – przedstawiono zarówno wyniki jak i sposób
w jaki zostały otrzymane z wykorzystaniem załączonych do pracy kodów
źródłowych.
Bibliografia
[1] O. Davidov, Y. Nov. Improving an estimator of Hsieh and Turnbull for the
binormal ROC curve. J. Statist. Plann. Inference, 142, 872-877, 2012.
[2] T. Fawcett. An introduction to ROC analysis. Pattern. Recogn. Lett., 27,
861-874, 2006.
[3] R. A. Horn, C. R. Johnson. Matrix Analysis. Cambridge University Press,
1990.
[4] F. Hsieh, B. W. Turnbull. Nonparametric and semiparametric estimation of
the receiver operating curve. Ann. Statist, 24, 25-40, 1996.
[5] A. Jokiel-Rokita, M. Pulit. Nonparametric estimation of the ROC curve based
on smoothed empirical distribution functions. Stat. Comput., 23, 703-712,
2013.
[6] W. K. Krzanowski, D. J. Hand. ROC Curves for Continuous Data. Taylor
and Francis Group, 2009.
[7] M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut. Systemy uczące się.
Rozpoznawanie wzorów, analiza skupień i redukcja wymiaru. WNT, Warszawa,
2008.
[8] M. S. Pepe. An Interpretation for the ROC Curve and Inference Using GLM
Procedures. Biometrics, 56, 352-359, 2000.
[9] M. E. Percy, D. F. Andrews, M. W. Thomson. Duchenne muscular dystrophy
carrier detection using logistic discrimination: serum creatine kinase, hemope-
xin, pyruvate kinase, and lactate dehydrogenase in combination. Am. J. Med.
Genet., 13, 27-38, 1982.
[10] J. A. Swets, R. M. Dawes, J. Monahan. Better decisions through science.
Scientific American, 283, 82-87, 2000.
[11] B. Vidakovic. Statistics for Bioengineering Sciences. Springer, 2011.
[12] A. Zieliński. Kernel estimators and the Dvoretzky-Kiefer-Wolfowitz inequality.
Appl. Math., 34, 401-404, 2012.

Praca Dyplomowa: Wydzia Podstawowych Problemów Techniki

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Praca Dyplomowa: Wydzia Podstawowych Problemów Techniki

Uploaded by

Copyright:

Available Formats

Wydziaª Podstawowych Problemów Techniki

Semiparametryczna estymacja krzywej ROC

(Semiparametric estimation of ROC curve)

Promotor: dr hab. Alicja Jokiel-Rokita

krzywa ROC, model binormalny,

odporności rozważanych estymatorów semiparametrycznych na niespełnienia

Krzywa ROC – definicja i własności

gdzie c ∈ [−∞, ∞] to pewna ustalona wartość progowa (threshold), nazywa

ROC(·) = {(1 − SP (c), SE(c)) : −∞ ¬ c ¬ ∞}. (1.2)

Jeśli wyrazimy czułość oraz specyficzność za pomocą rozkładów warunko-

SE(c) = P (dc (U ) = 1|L = 1) = P (U > c|L = 1) = 1 − G(c),

to krzywą ROC można zapisać w postaci

ROC(·) = {(1 − F (c), 1 − G(c)) : −∞ ¬ c ¬ ∞}.

Jeżeli oznaczymy t = 1 − F (c), skąd mamy c(t) = F −1 (1 − t), to krzywą ROC

ROC(t) = 1 − G(F −1 (1 − t)), t ∈ [0, 1], (1.3)

która bywa czasami podawana jako definicja tej krzywej.

Krzywa ROC Krzywa ODC

Rysunek 1.1: Przykładowa krzywa ROC i odpowiadająca jej krzywa ODC.

Powróćmy na chwilę do interpretacji omawianej krzywej. Ponieważ F (∞) =

Fakt 1. Jeżeli X ∼ N (µ1 , σ12 ) oraz Y ∼ N (µ2 , σ22 ), to

Estymacja krzywej ROC

ROC(t) = 1 − G(F −1 (1 − t)) = P (Y > F −1 (1 − t))

że krzywa ROC jest zbiorem prawdopodobieństw, że Y > X pod warunkiem,

gdzie g jest pewną funkcją wiążącą, h1 , . . . , hK wybranymi funkcjami bazo-

istnieje pewne ściśle rosnące przekształcenie transformujące rozkłady X i Y

2.1. Estymacja nieparametryczna

Celem tej pracy nie jest szczegółowe omówienie metod nieparametrycz-

2.1.1. Empiryczna krzywa ROC

Empiryczną krzywą ROC otrzymujemy zastępując we wzorze (1.3) niezna-

gdzie Fm−1 (t) = inf{x : Fm (x) ­ t} jest empiryczną funkcją kwantylową.

Twierdzenie 2. Jeśli spełnione są powyższe założenia to,

Twierdzenie 3. Przy powyższych założeniach, istnieje przestrzeń probabili-

+o(n−1/2 (log n)2 ) p.n.

2.1.2. Wygładzony estymator krzywej ROC

Rj (Xm ) = Qj+1 (Xm ) − Qj (Xm ), j = 1, 2, . . . , m.

W analogiczny sposób możemy zdefiniować statystyki Y0:m , Y(n+1):n , Qj (Yn ),

Skonstruowane estymatory dystrybuant są więc ciągłe, zgodne w sensie

jest ciągły i ściśle rosnący. Jego różniczkowalność zależy od spełnienia wspo-

Twierdzenie 4. Niech Xm = (X1 , . . . , Xm ) i Yn = (Y1 , . . . , Yn ) będą nieza-

prawie na pewno gdy n → ∞.

2.2. Estymacja semiparametryczna w modelu

2.2.1. Uogólniona metoda najmniejszych kwadratów – GLS

C = [φ(µ + σΦ−1 (αi ))δij ]i,j=1,2,...,k , (2.9)

a macierze Σ1 i Σ2 zadane są równaniami

Σ1 = [min{βi , βj } − βi βj ]i,j=1,2,...,k (2.10)

g(F −1 (1 − αi )) σφ(µ + σΦ−1 (1 − αi ))

Z twierdzenia 3 wiemy, że z prawdopodobieństwem 1 zachodzi równość

min{1 − αi , 1 − αj } − (1 − αi )(1 − αj ) = min{αi , αj } − αi αj

oraz analogicznie dla βi i βj . Element macierzy Σ wyraża się więc wzorem

Σij = λ (min{βi , βj } − βi βj ) + ξi ξj (min{αi , αj } − αi αj ) .

Przejdźmy teraz do drugiej części lematu. Z twierdzenia Lagrange’a wynika,

Jeśli przez C (n) oznaczmy macierz diagonalną o elementach diagonalnych

Następujący lemat jest niezbędny dla poprawności dalszych rozważań.

Podobne rozumowanie możemy powtórzyć dla macierzy Σ1 pokazując, że

det Σ = det(C[λΣ1 + Σ2 ]C) = (det C)2 det(λΣ1 + Σ2 ) > 0.

Dzięki lematowi 1, po nałożeniu na obie strony równania (2.6) funkcji Φ−1 ,

Φ−1 (β̂i ) = µ + σΦ−1 (αi ) + εi , i = 1, 2, . . . , k, (2.13)

gdzie M jest macierzą eksperymentu

Problem stanowi fakt, że macierz kowariancji Σ zależy od nieznanych pa-

[µ̂0 , σ̂0 ]T = (M T M )−1 M T Φ−1 (β̂).

Następnie zastępujemy nieznane parametry µ i σ występujące we wzorze na

[µ̂, σ̂]T = (M T Σ̂−1 M )−1 M T Σ̂−1 Φ−1 (β̂). (2.14)

θ̂NMK = (M T Σ−1 M )−1 M T Σ−1 Φ−1 (β̂).

gdzie Fm−1 (t) = inf{x : Fm (x) t} jest empiryczną funkcją kwantylową.

θ̂NMK = θ̂ + (M T Σ−1 M )−1 M T Γn M θ

α̃i+1 = min{j/n : ROCm,n (j/n) − ROCm,n q/m, j = 1, . . . , n}