You are on page 1of 60

Autor: Daniel Kosiorowski

Tel:
E-mail: daniel.kosiorowski@uek.krakow.pl

WSTĘP DO STATYSTYKI ODPORNEJ

KURS Z WYKORZYSTANIEM ŚRODOWISKA R

Daniel Kosiorowski
Kosiorowski / Wstęp do Statystyki Odpornej… / 2

Wprowadzenie 3 
1. Aspekty odporności procedury statystycznej 5 
1.1 Bardzo krótkie wprowadzenie do R 5 
1.2 Metody badania odporności procedury statystycznej 11 
1.3 Pomiar odporności procedury statystycznej 14 
1.4 Odporność w ekonomii 18 
2. Wybrane zagadnienia statystyki jednowymiarowej 24 
2.1 Metody wykrywania jednostek odstających 24 
2.2 Odporne miary położenia i rozrzutu zmiennej losowej 28 
3.     Wybrane zagadnienia statystyki wielowymiarowej 37 
3.1 Odporna miara położenia i rozrzutu wektora losowego 37 
2.2 Regresja odporna 44 
3.3 Odporność w badaniu szeregów czasowych. 49 
Literatura 600 

2
Kosiorowski / Wstęp do Statystyki Odpornej… / 3

WPROWADZENIE

W naukach ekonomicznych za model rozważanego zjawiska przyjmuje się jedno bądź


wielowymiarową zmienną losową, rodzinę takich zmiennych indeksowaną np. czasem. Na
ogół rozkład prawdopodobieństwa generujący dane jest znany jedynie częściowo.
Zasadniczym celem zastosowania w schemacie poznawczym procedur statystycznych jest
uzyskanie wiedzy o rozmiarach niepewności rządzącej zjawiskiem. Wiedza o
charakterystykach mechanizmu losowego rządzącego zjawiskiem przyczynia się do
podejmowania właściwych decyzji gospodarczych.
Każdą procedurę statystyczną konstruuje się przy założeniu spełnienia szeregu warunków
formalizujących wiedzę statystyka o mechanizmie losowym generującym dane. Przykładowo
zakłada się, że dane są generowane przez rozkład normalny, elementy próby pobierane są
losowo i niezależnie od siebie itd.
Niestety bardzo często w praktyce mamy do czynienia z odstępstwem od przyjmowanych
założeń. Przykładowo próba zawiera kilka obserwacji w znaczący sposób odbiegających od
głównej części danych z założenia wygenerowanych przez rozkład normalny. W takiej
sytuacji, jakość stosowanej procedury statystycznej może się istotnie obniżyć. Mamy tu na
uwadze utratę efektywności estymatora, wzrost jego obciążenia, wysoki poziom błędu
drugiego rodzaju, odbiegający od zakładanego poziom błędu pierwszego rodzaju itd.
Podejście odporne w modelowaniu statystycznym i analizie danych ma na celu
zaproponowanie procedur statystycznych dających wiarygodne oszacowania, stanowiące
użyteczne testy nie tylko w sytuacji, gdy dane generowane są przez zakładany przez
procedurę rozkład, ale także w sytuacji, gdy rozkład generujący dane nieco odbiega od
zakładanego rozkładu. Procedura powinna posiadać dobre własności zarówno, gdy w próbie
nie ma jednostek odbiegających od głównej części chmury danych (tzw. jednostek
odstających), ale także w sytuacji, gdy takie jednostki występują.
Odporność procedury statystycznej ma wiele odcieni: stosunkowo najlepiej poznana jest
odporność na odstępstwo od zakładanego rozkładu prawdopodobieństwa, w dalszym ciągu
istnieje szereg otwartych kwestii związanych z badaniem odporności na odstępstwo od
niezależności obserwacji, losowości próby, z badaniem odporności w przypadkach
brakujących danych itd. Metodologie oraz centralne zagadnienia studiów nad odpornością w
przypadkach poszczególnych działów statystyki jak np. statystyka wielowymiarowa, analiza
regresji, badanie szeregów czasowych czy podejście bayesowskie często się różną.

3
Kosiorowski / Wstęp do Statystyki Odpornej… / 4

Często myli się odporność procedury statystycznej z jej nieparametrycznością. Otóż


procedurę określa się mianem nieparametrycznej, jeżeli można ją wykorzystać w szerokiej
(niesparametryzowanej) rodzinie populacji (rozkładów generujących dane). Zauważmy, że
zarówno średnia z próby jak i mediana są nieparametrycznymi estymatorami wartości
oczekiwanej populacji. Średnia nie jest odpornym estymatorem natomiast jest nim mediana.
Należy zauważyć, że termin odporny (ang. robust - niewrażliwy na niewielkie odstępstwa
od założeń) został wprowadzony do statystyki przez bayesistę George Boxa. Box odkrył, że
test równości wielu wariancji przy odstępstwie od założenia normalności populacji ma
istotnie wyższy poziom błędu pierwszego rodzaju niż w przypadku spełnienia założenia
normalności populacji. Oczywiście poszczególne zagadnienia związane z odpornością znane
były wiele lat wcześniej. Już w osiemnastym wieku fizycy i astronomowie podnosili brak
odporności średniej i wariancji na jednostki odstające. W roku 1757 Boskovitch analizując
eksperymenty mające na celu scharakteryzowanie kształtu kuli ziemskiej zaproponował
metodę estymacji alternatywną do metody najmniejszych kwadratów.
Szczególny postęp w studiach nad odpornością nastąpił w latach 60 – tych i wczesnych
latach 70 – tych ubiegłego wieku za sprawą prac i talentów popularyzatorskich Johna
Tukey’a, Petera Hubera i Franka Hampela. We wspomnianym okresie wprowadzono szereg
pojęć i koncepcji związanych z pomiarem odporności procedury statystycznej, które
wykorzystywane są współcześnie. Kolejne przyspieszenie dokonało się za sprawą
zwiększenia prędkości komputerów w latach 90 – tych ubiegłego wieku.
Z formalnego punktu widzenia procedury odporne rozpatruje się obecnie jako
funkcjonały statystyczne definiowane na pewnej przestrzeni funkcji rozkładu. Statystyk
analizuje zachowanie się procedury w pewnym otoczeniu zakładanego przez procedurę
rozkładu. Rozpatrywane w badaniu funkcje rozkładu precyzują wiedzę statystyka na temat
mechanizmu losowego rządzącego zjawiskiem. Otoczenie zakładanego przez procedurę
rozkładu ujmuje możliwe odstępstwa od przyjmowanych założeń odnośnie zjawiska.
Odstępstwa mogą dotyczyć występowania pośród danych obserwacji obarczonych sporym
błędem, błędną specyfikację rozpatrywanego zjawiska itd. Otoczenia konstruowane są z
wykorzystaniem stosownej odległości pomiędzy rozkładami prawdopodobieństwa.
Wprowadzenie stosownej odległości pomiędzy rozkładami umożliwia rozważania nt
ciągłości i różniczkowalności funkcjonałów a w konsekwencji pomiar i porównywanie pod

4
Kosiorowski / Wstęp do Statystyki Odpornej… / 5

względem odporności alternatywnych względem danego zagadnienia procedur


statystycznych.
Niniejszy skrypt ma na celu wprowadzenie czytelnika w podstawowe zagadnienia
statystyki odpornej oraz wskazanie mu możliwości prowadzenia odpornej analizy
statystycznej za pomocą darmowej platformy do obliczeń statystycznych jakim jest
środowisko R. Skrypt może stanowić uzupełnienie podstawowego kursu statystyki i
statystyki matematycznej wykładanych na uczelniach ekonomicznych.

1. Aspekty odporności procedury statystycznej

1.1 Bardzo krótkie wprowadzenie do R

Przedsięwzięcie określane obecnie mianem Projektu R zostało zapoczątkowane przez


pracowników Uniwersytetu w Auckland Roberta Gentlemana i Rossa Ihake. Gentleman i
Ihake stworzyli program do obliczeń statystycznych, który miał służyć jako pomoc
dydaktyczna. Wzorowali się na języku S opracowanym w laboratoriach Bell’a.
R to zarówno program do obliczeń statystycznych jak też środowisko programistyczne
wyposażone w interpreter języka R. Obecnie rozwojem R zarządza zespół specjalistów
nazywanych core team w ramach fundacji „The R Foundation for Statistical Computing”.
R jest językiem interpretowanym a nie kompliowanym. Polecenia wpisujemy za pomocą
klawiatury wiersz po wierszu bądź zestawiamy je w postaci skryptu (plik tekstowy
zawierający polecenia). Środowisko R jest nieodpłatnie udostępniane na zasadzie licencji
GNU na stronach Projektu R:
http://www.r-project.org/
Istnieje szereg mniej lub bardziej elementarnych publikacji ułatwiających naukę
posługiwania się systemem R. Zdaniem autora skryptu warto zapoznać się z elektroniczną
publikacją autorstwa Emmanuela Paradis pt. „R for Beginners” dostępną w formacie PDF na
stronach projektu, warto także zwrócić uwagę na krótkie wprowadzenie pt. „An
Introduction to R”, do którego mamy dostęp z poziomu pomocy programu R. Także

5
Kosiorowski / Wstęp do Statystyki Odpornej… / 6

elektroniczna publikacja pt. „Econometrics in R” autorstwa Granta V. Farnswortha może


zainteresować czytelników, zwłaszcza tych którzy zamierzają wykorzystać środowisko R w
ekonometrii. W odniesieniu do literatury polskojęzycznej warto zajrzeć np. do Bicek (2009),
gdzie znajdziemy szereg użytecznych kwestii technicznych bądź np. do Kosiorowski (2008)
gdzie znajdziemy opisy procedur statystycznych wykorzystywanych w konkretnym dziale
statystyki.
Aby korzystać ze środowiska R należy ściągnąć plik instalacyjny ze strony projektu
wybierając download CRAN, następnie wybierając serwer najbliższy swojej lokalizacji np.
Poland>University of Wrocław. Pliki instalacyjne dostępne są w wersjach przeznaczonych
dla systemów operacyjnych Linux, Mac OS X, Windows. Wybieramy właściwy system a
następnie katalog base. Plik instalacyjny dla systemu Windows w chwili przygotowywania
niniejszej pracy nazywał się R – 2.12.1 – win32.exe. Użytkownicy szczególnie przywiązani
do okienkowego sposobu komunikowania się z komputerem (np. MS Word, MS Excel) mogą
zainstalować sobie nakładkę na środowisko R np. pakiet Rcmdr.

Przypuśćmy, że zamierzamy dodać do siebie dwa wektory x = (2, 3, 4, 4, 5, 7, 4)t oraz

y = (101,1, 3, 4,2, 3, 4)t . Wpiszmy w tym celu


x<-c(2,3,4,4,7,7,4)
y<-c(101,1,3,4,2,3,4)
x+y
[1] 103 4 7 8 9 10 8
Wpisując
2^x
4 8 16 16 128 128 16
otrzymamy ciąg liczb będących wynikami podniesienia liczby 2 do potęg będących
współrzędnymi wektora x. Wpisując
round(x/y)
[1] 0 3 1 1 4 2 1
otrzymamy ciąg liczb będących wynikami dzielenia odpowiednich współrzędnych wektorów
x i y zaokrąglonych do najbliższej liczby całkowitej.
Przypuśćmy, że zamierzamy porównać rozkład z próby 12 – elementowej średniej
arytmetycznej z próby oraz mediany z próby.
Wpiszmy
A<-matrix(nrow=100,ncol=12) #deklarujemy macierz o 100 wierszach i 12 kolumnach#

6
Kosiorowski / Wstęp do Statystyki Odpornej… / 7

for (i in 1: 100) {
A[i,]<-rnorm(12,10,2)} #tworzymy pętlę umieszczającą w i-tym wierszy macierzy A próbę z

rozkładu normalnego N(10,2)#


srednie<-apply(A,1,mean) #tworzymy wektor którego każda współrzędna jest średnią
odpowiedniego wiersza macierz A#
mediany<-apply(A,1,median) #tworzymy wektor którego każda współrzędna jest średnią

odpowiedniego wiersza macierz A#


boxplot(srednie,mediany,main="średia vs mediana z 12 elementowej próby z N(10,2)") #rysunek

ramka wąsy porównujący średnią i medianę z 12- elementowej próby z N(10,2)#

Rys. 1: Porównanie średniej i mediany z Rys. 2: Porównanie średniej i mediany z


próby 12 elementowej za pomocą próby 12 elementowej za pomocą
wykresów pudełkowych. histogramów.

Źródło: Obliczenia własne Źródło: Obliczenia własne

library(MASS) #wgrywamy pakiet MASS#

library(lattice) #wgrywamy pakiet lattice#

par(mfrow=c(2,1)) #dzielimy okno graficzne na dwie równe części#


hist.FD(srednie,breaks=10,main="rozkład średniej",ylab="częśtość",col="green")
hist.FD(mediany,breaks=10,main="rozkład mediany",ylab="częstość",col="blue")
#estymator jądrowy funkcji gęstości#
densityplot(srednie,main="oszacowanie gęstości średniej", ylab="gęstość", col="green", lwd=2)
densityplot(mediany,main="oszacowanie gęstości mediany", ylab="gęstość", col="blue", lwd=2)

7
Kosiorowski / Wstęp do Statystyki Odpornej… / 8

Rys. 3: Oszacowanie gęstości mediany z Rys. 4: Oszacowanie gęstości średniej z


próby 12 elementowej próby 12 elementowej

Źródło: Obliczenia własne Źródło: Obliczenia własne

par(mfrow=c(2,1))
sdys<-ecdf(srednie) #wektor częstości skumulowanych – dystrybuanta empiryczna#

mdys<-ecdf(mediany) #wektor częstości skumulowanych – dystrybuanta empiryczna#


plot(sdys,main="oszacowanie dystrybuanty średniej",ylab="częstość
skumulowana",col="green",lwd=2) #rysujemy dystrybuantę dla średniej z próby#
plot(mdys,main="oszacowanie dystrybuanty mediany",ylab="częstość
skumulowana",col="blue",lwd=2) #rysujemy dystrybuantę dla mediany z próby#

Rys. 5: Oszacowania dystrybuant średniej Rys. 6: Oszacowania gęstości mieszaniny


i mediany z próby 12 elementowej. rozkładów N(10,1)[90%] i N(20,3)[10%].

Źródło: Obliczenia własne Źródło: Obliczenia własne


8
Kosiorowski / Wstęp do Statystyki Odpornej… / 9

#tworzymy prowizoryczny symulator obserwacji z mieszaniny rozkładów#


x1<-rnorm(8000,10,1)
x2<-rnorm(2000,20,3)
urna1<-c(x1,x2)
m1<-sample(urna1, 300, replace = FALSE)
y1<-rt(6000,2)
y2<-rt(2000,2)-5
y3<-rt(2000,2)+5
urna2<-c(y2,y1,y3)
m2<-sample(urna2,300,replace = FALSE)
densityplot(m1,main="oszacowanie gęstości mieszaniny 1", ylab="gęstość", col="blue", lwd=2)

Rys. 7: Oszacowania gęstości mieszaniny Rys. 8: Oszacowania gęstości odchylenia


rozkładów trzech rozkładów t Studenta. standardowego z próby z mieszaniny
rozkładów t Studenta

#interesuje nas rozkład odchylenia standartowego z próby#


sdzproby<-c()
for (i in 1:100) sdzproby[i]<-sd(sample(urna1,20, replace = FALSE))
densityplot(sdzproby,main="oszacowanie odch. std. z próby", ylab="gęstość", col="red", lwd=2)

Tab. 1: Wybrane funkcje służące do operowania rozkładami prawdopodobieństwa.

ROZKŁAD DYSTRYBUANTA KWANTYL GĘSTOŚĆ GENERATOR PARAMETRY


normalny pnorm qnorm dnorm rnorm Srednia,odchsts
log-normalny plnorm qlnorm dlnorm rlnorm Logsrednia,
logodchsd
t-Studenta pt qt dt rt St sw.,
niecentralność
wykładniczy pexp qexp dexp rexp intensywność
gamma pgamma qgamma dgamma rgamma Kształt,
intensywność

9
Kosiorowski / Wstęp do Statystyki Odpornej… / 10

x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2) #zaburzenie losowe o rozkładzie t(2)#
y<-2*x+1+eps
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red") #dopasowujemy prostą regresję do wygenerowanych punktów#

Rys. 9: Diagram rozrzutu wraz z Rys. 10: Diagram rozrzutu wraz z


dopasowaniem NK dopasowaniem NK

x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2)
eps1<-cumsum(eps) #bardziej złośliwe zaburzenie losowe#
y<-2*x+1+eps1
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red")

Aby przekonać się o możliwościach graficznych program R wpiszmy


library(lattice)
demo(lattice)
library(rgl)
demo(rgl)

10
Kosiorowski / Wstęp do Statystyki Odpornej… / 11

W niniejszym skrypcie wykorzystujemy pakiety dodatkowe środowiska R {robustbase},


{MASS}, {lattice} zawierające szereg procedur odpornych,{fBasic} i {fGarch} służące do
analizy szeregów czasowych. Ostatnie dwa pakiety musimy ściągnąć ze stron projektu a
następnie je zainstalować.

1.2 Metody badania odporności procedury statystycznej

Interesujące ekonomistę zjawisko opisywane jest za pomocą jedno bądź


wielowymiarowej zmiennej losowej X nazywanej modelem bądź populacją. Najczęściej o
interesującej ekonomistę charakterystyce populacji wnioskuje się w oparciu o n – krotną
realizację modelu tzn. w oparciu o próbę X1,..., Xn . W klasycznym modelu statystycznym

próba Xn = (X1,..., Xn ) może przyjmować wartości w przestrzeni prób  , której

podzbiory reprezentują ważne dla badacza zdarzenia. Pośród podzbiorów przestrzeni prób
wyróżnia się pewną specjalną rodzinę szczególnie ważnych dla ekonomisty zdarzeń, tzw.
s - ciało zdarzeń  . Niepewność związana z przebiegiem zjawiska X wyraża rozkład
prawdopodobieństwa P , który jest funkcją zbioru na  . Trójka { , , Pq : q Î Q} to
parametryczny model statystyczny (por. Krzyśko (2004)).
W badaniach odporności pewnej procedury1 statystycznej T wprowadza się pewną miarę
odległości pomiędzy rozkładami prawdopodobieństwa na przestrzeni prób  bądź
odległości bezpośrednio pomiędzy populacjami. Następnie porównuje się zachowanie
procedury T przy ustalonym rozkładzie prawdopodobieństwa (oczekiwanym, mającym
uzasadnienie teoretyczne, typowym itd.) oraz przy występowaniu odstępstw od ustalonego
modelu. Wielkość odstępstwa ujmowana jest za pomocą wspomnianej odległości pomiędzy
rozkładami prawdopodobieństwa. Poniżej przedstawiamy trzy miary odległości pomiędzy
rozkładami prawdopodobieństwa.

1
Przez procedurę statystyczną rozumie się algorytm, którego wejściem są dane bądź parametry a wyjście
obejmuje liczby, wykresy, funkcje po obrazy. Procedura statystyczna nie oznacza analizy statystycznej, która
obejmuje na ogół kilka procedur statystycznych. Szerzej idee procedury statystycznej omawia np. Davies
(2002).

11
Kosiorowski / Wstęp do Statystyki Odpornej… / 12

Niech  =  jest prostą rzeczywistą i F ,G będą dystrybuantami rozkładów P,Q ,


wtedy odległość Kołmogorowa pomiędzy P i Q definiujemy:
(1.1) dK (F ,G ) = supx Î F (x ) - G (x ) .

Niech  =  oznacza zbiór liczb rzeczywistych oraz niech F ,G oznaczają


dystrybuanty rozkładów P,Q , wtedy odległość Hellingera pomiędzy P i Q definiujemy:

{ò }
1/2
2
(1.2) dH (P,Q ) =

( dP - dQ ) .

dP dQ
Jeżeli f = ig = są gęstościami P,Q względem pewnej miary m , wtedy
dm dm
odległość Hellingera może zostać przepisana w postaci

( )
2
(1.3) (dH (P,Q ))2 = ò ( )
f - g dm = 2 1 - ò

fgd m .

Jeżeli przez p, q oznaczymy gęstości rozkładów prawdopodobieństwa względem pewnej


miary m (Lebesque’a na prostej rzeczywistej bądź miary liczącej), wtedy dystans Kullbaka
– Leiblera definiujemy jako
q(x )
(1.4) dKL (Q, P ) = ò q(x )ln p(x ) d m(x )

Dystans Kullbaka – Leibera nie jest odległością, nie jest symetryczny względem P i Q oraz
spełnia nierówności trójkąta.

Przykład R
#Za pomocą środowiska R możemy w przybliżony sposób odległości pomiędzy
rozkładami prawdopodobieństwa. Często wystarcza to do badania odporności interesującej
nas procedury statystycznej#
#Obliczanie wprowadzonych wcześniej odległości pokażemy na przykładach rozkładu
dwumianowego B(n=100, p=0.01) (rys. 11), rozkładu Poissona lambda=1 (rys.12), rozkładu
N(0,1) (rys. 13), rozkładu Studenta t(1) (rys. 14), rozkładu gamma(3,1) (rys.15) i rozkładu
gamma(1,3) (rys.16)#

12
Kosiorowski / Wstęp do Statystyki Odpornej… / 13

Rys. 11: Gęstość rozkładu Rys. 13: Gęstość rozkładu


dwumianowego Poissona

Rys. 14: Gęstość rozkładu Rys. 15: Gęstość rozkładu t(2)


N(0,1)

Rys. 15: Gęstość rozkładu Rys. 16: Gęstość rozkładu


gamma. gamma.

max(abs(pbinom(0:100,100,0.01)-ppois(0:100,1))) #odległość Kołmogorowa#


[1] 0.0018471

13
Kosiorowski / Wstęp do Statystyki Odpornej… / 14

max(abs(pnorm(seq(-5,5, by=0.01),0,1)- pt(seq(-5,5, by=0.01),1))) #odleglość Kołmogorowa#


[1] 0.1255822
max(abs(pgamma(seq(0,8, by=0.01),3,1)- pgamma(seq(0,8, by=0.01),1,3))) #odległość

Kołmogorowa#
[1] 0.8708176
sqrt(sum((sqrt(dbinom(0:100,100,0.01))-sqrt(dpois(0:100,1)))^2)) #odległość Hellingera#
[1] 0.003562329
sqrt(sum((sqrt(dnorm(seq(-5,5, by=0.01),0,1))-sqrt(dt(seq(-5,5, by=0.01),1)))^2)) #odległość

Hellingera#
[1] 3.025973
sqrt(sum((sqrt(dgamma(seq(0,8, by=0.01),3,1))-sqrt(dgamma(seq(0,8, by=0.01),1,3)))^2)) #odległość

Hellingera#
[1] 11.78569
sum(dpois(0:100,1)*log(dpois(0:100,1)/dbinom(0:100,100,0.01))) #dystans Kullbaka-Leibera#
[1] 2.551112e-05

1.3 Pomiar odporności procedury statystycznej

W ciągu ostatnich 40 lat zaproponowano szereg koncepcji odporności procedury


statystycznej, które kładły akcent na pewien szczególny typ odstępstwa od zakładanego
modelu generującego dane. Wspomnijmy dla przykładu o oryginalnych propozycjach
polskiego statystyka R. Zielińskiego z lat 70–tych. Niemniej jednak większość propozycji
ustąpiło pod względem popularności prezentowanej poniżej koncepcji P. Hubera. Koncepcji
częściowo zbieżnej z ideami F. Hampela zawartymi w jego rozprawie doktorskiej.
Teoretyczne tło przedstawionych poniżej zagadnień można znaleźć np. w Huber i Ronchettii
(2009), Jureckova i Picek (2006), Maronna i in. (2006).
Istnieje co najmniej kilka, po części alternatywnych, a po części komplementarnych
podejść do pomiaru odporności procedury statystycznej. Znane są też podejścia mające
charakter wyłącznie jakościowy. Historycznie pierwsza własność procedury, która została
wykorzystana do pomiaru jej odporności wiązała się z pojęciem efektywności względnej

14
Kosiorowski / Wstęp do Statystyki Odpornej… / 15

estymatora w pewnym zakresie rozpatrywanych modeli. Obecnie centralną rolę odgrywają


pojęcia: funkcji wpływu Hampela oraz punktu załamania i punktu załamania próby
skończonej Donoho i Hubera.
W latach 60, w dużej mierze za sprawą talentu popularyzatorskiego Johna Tukey’a,
powszechnie zaczęto sobie uświadamiać, że o ile w przypadku modelu normalnego
asymptotyczna efektywność względna (ARE2) mediany względem średniej wynosi 0.64, to
jest nieskończona dla rozkładu Studenta o liczbie stopni swobody mniejszej bądź równej od
2, wynosi 1.621 dla trzech stopni swobody. Natomiast w przypadku mieszaniny dwóch

rozkładów normalnych N (m, s 2 ) z udziałem 1 - e oraz N (m, 9s 2 ) z udziałem e , już dla


e > 0.03 efektywność mediany w stosunku do średniej jest wyższa od jedności. W latach
osiemdziesiątych ubiegłego wieku argumenty Tukey’a przypomniał P. Huber pokazując, że
efektywność względna odchylenia standardowego i odchylenia absolutnego dla modelu
mieszaniny3 postaci F (x ) = (1 - e)F(x ) + eF(x / 3) , gdzie F oznacza dystrybuantę
mieszaniny, F oznacza dystrybuantę standardowego rozkładu normalnego jest dwukrotnie
wyższa na korzyść odchylenia absolutnego już w przypadku 5% udziału „zaburzenia”
F(x / 3) .
Przypuśćmy, że zastanawiamy się na wpływem na wartość pewnej statystyki
Tn -1 = T (x1,..., x n ) zmieszania zbioru obserwacji x1,..., x n -1 z obserwacją odstającą x .

Oznaczmy taki zmieszany zbiór danych jako x1,..., x n -1, x oraz wartość statystyki przy takim

zmieszaniu Tn = T (x1,..., x n , x) . Wpływ x na wartość statystyki w przedstawionej sytuacji


można mierzyć za pomocą zaproponowanej przez Tukey’a krzywej wrażliwości.
Krzywą wrażliwości (ang. sensitivity curve ) nazywamy
(1.5) SC n (x) = n(Tn - Tn -1 ) .

Z definicji wynika natychmiast, że

2
Dla statystyk Tn i Tn definiujemy asymptotyczną efektywność względną ( por. Serfling (2010)) jako

var(Tn ) E 2 (Tn )
ARE = lim , gdzie var oznacza wariancję, E wartość oczekiwaną.
n ¥ var(Tn ) E 2 (Tn )
3
Warto zwrócić uwagę na kwestię związane z symetrią modelu mieszaniny, który jest modelem danych
obarczonych błędem. Kwestie te mają zasadniczy związek z obciążeniem i efektywnością rozpatrywanego
estymatora.

15
Kosiorowski / Wstęp do Statystyki Odpornej… / 16

(1.6) Tn = Tn -1 + 1 n SC n (x)

Niezmiernie popularna obecnie funkcja wpływu jest wersją krzywej wrażliwości w


przypadku populacji. Funkcja wpływu została zaproponowana przez F. Hampela.

Rozważmy mieszaninę dwóch rozkładów Fe = (1 - e)F + edX , gdzie dX oznacza


rozkład skoncentrowany w punkcie. Możemy określić jakościowo odporność procedury
porównując T (F ) i T (Fe ) w sytuacji, gdy e  0 . Aby ująć odporność ilościowo wygodnie

jest posłużyć się funkcją wpływu (ang. influence function) definiowaną:


T (Fe ) - T (F )
(1.7) IF (x;T , F ) = lim .
e0 e

Funkcja wpływu jest jedną z najważniejszych charakterystyk funkcjonału statystycznego,


estymatora. Wartość IF (x ;T , P ) mierzy efekt zakłócenia funkcjonału T poprzez pojedynczą
wartość x . Odporny funkcjonał T powinien mieć ograniczoną4 funkcję wpływu. W
oparciu o funkcję wpływu konstruuje się pochodne miary odporności. Najważniejsze z ich to
bez wątpienia tzw. czułość na błędy grube (ang. gross error sensitivity) definiowana:
(1.8) GES (T , F ) = sup IF (x,T , F ) ,
x

Jest to maksymalna absolutna wartość funkcji wpływu w punkcie przy założonej funkcji
rozkładu F . Szczególnie pożądane są takie statystyki, które odznaczają się względnie
małymi wartościami GES.
Drugą popularną miarą odporności budowaną w oparciu o funkcję wpływu jest tzw.
lokalna czułość na przesunięcia (ang. local shift sensitivity) definiowana:
IF (y;T , P ) - IF (x ;T , P )
(1.9) LSS = sup
x ,y ;x ¹y y -x

Miara ujmuje ilościowo wpływ zastąpienia wartości x wartością y na statystykę T .


Dla ilustracji zauważmy, że średnia arytmetyczna z próby nie jest odporna na błędy grube
jednak jest odporna na lokalne zmiany wartości danych, natomiast wariancja jest nieodporna
zarówno na wielkie jak i małe (lokalne) zmiany. Wykorzystując średnią dozwolone jest

4
Funkcja wpływu jest zwykłą funkcją rzeczywistą. Jej ograniczoność, różniczkowalność, gładkość należy
rozumieć analogicznie jak odpowiednie własności funkcji np. sin.,

16
Kosiorowski / Wstęp do Statystyki Odpornej… / 17

zaokrąglanie, niedozwolone są np. duże błędy we wpisywaniu danych. Średnia arytmetyczna,


wariancja, odchylenie standardowe mają nieograniczone funkcje wpływu w przypadku próby
wygenerowanej np. przez standardowy rozkład normalny, mediana, mediana odchyleń
absolutnych od mediany (MAD), rozstęp kwartylowy (IQR) mają ograniczone funkcje
wpływu.
Podsumowując, od odpornego estymatora oczekujemy, że będzie miał ograniczoną, bądź
więcej, ograniczoną i gładką5 funkcję wpływu, niewielkie GES i LSS. Zaznaczmy jednakże,
że bardzo napotykamy zależność odwrotną pomiędzy odpornością i efektywnością
estymatora. Im bardziej odporny estymator, tym większym rozrzutem wskazań się odznacza.
W wielu sytuacjach praktycznych warto jednakże poświęcić nieco efektywności na rzecz
zabezpieczenia się przez wpływem odstępstw od modelu.
Bez wątpienia najciekawszą (patrz Davies (2002)) z praktycznego punktu widzenia miarą
odporności procedury statystycznej jest wersja koncepcji punktu załamania odnosząca się do
prób skończonych a mianowicie tzw. punkt załamania próby skończonej wprowadzony
przez Donoho i Hubera6.

Przypuśćmy, że dysponujemy próbą  n = {x1,..., x n } złożoną z n obserwacji

generowanych przez zakładany model oraz niech  m = {y1,..., ym } oznacza m dowolnych

(być może szczególnie odstających) obserwacji. Oznaczmy przez  n +m =  n È  m próbę


powstałą z połączenia powyższych zbiorów obserwacji. Określimy ją mianem em zmieszanej

m
próby gdzie em = .
n +m

Wielkość T ( n È  m ) - T ( n ) oznacza obciążenie statystyki natomiast maksymalne

obciążenie statystyki T powstające przy em zmieszaniu oznaczymy jako

(1.10) B(em ,T ,  n ) = sup T ( n È  m ) - T ( n ) .


m

Punkt załamania próby skończonej (Donoho i Huber (1983)) definiujemy jako

(1.12) BP (T ,  n ) = inf { em : B(em ,T ,  n ) = ¥ } .

5
Przez gładką funkcję wpływu rozumiemy taką funkcje, która ma ciągłą pochodną (funkcję klasy C1).
6
Należy podkreślić, że koncepcja punktu załamania ma wiele często istotnie różniących się wariantów. Mamy
tutaj m.in. zastosowanie pojęcia w przypadku prób zależnych, szeregów czasowych itd.

17
Kosiorowski / Wstęp do Statystyki Odpornej… / 18

Punkt załamania próby skończonej posiada odpowiednik w populacji. Przypuśćmy, że


otoczenia rozkładu generującego dane definiujemy z wykorzystaniem odległości mieszaniny
dwóch rozkładów. Niech F oznacza zakładany rozkład natomiast H oznacza rozkład
reprezentujący błąd, zaburzenie (odstępstwo od modelu). Rozważamy model mieszaniny
postaci Fe = (1 - e)F + eH . Wprowadzając pojęcie maksymalnego obciążenia przy tego
rodzaju e - zmieszaniu tzn.:
(1.13) B(e,T , F ) = sup T (Fe ) - T (F ) ,
H

otrzymamy definicję punktu załamania procedury statystycznej F. Hampela:

(1.14) e* (T , F ) = inf{e : B(e,T , F ) = ¥} .

Punkt załamania próby skończonej wskazuje na maksymalną frakcję obserwacji


odstających w próbie, która nie sprawia, że procedura statystyczna „łamie się” – np.
obciążenie wskazania estymatora staje się nieakceptowane. Koncepcja punktu załamania
zależy od odległości wykorzystywanej do konstruowania otoczeń zakładanego rozkładu
generującego obserwacje. Zależy także od zagadnienia, do którego się stosuje. Czymś
odmiennym jest „załamanie się” estymatora położenia centrum, estymatora
wielowymiarowego rozrzutu czy estymatora parametrów funkcji regresji.

1.4 Odporność w ekonomii

The method of the least squares is seen to be our best course when we have thrown
overboard a certain portion of our data – a sort of sacrifice which has often to be
made by those who sail the stormy seas of Probability.
Francis Ysidoro Edgeworth (1887)

It is the one sphere of life and activity where victory, security and success is always
to the minority and never to the majority. When you find any one agreeing with you,
change your mind. When I can persuade the Board of my Insurance Company to buy
a share, that, I am learning from experience, is the right moment for selling it.
John Maynard Keynes

Za prekursora odpornego podejścia do badań ekonomicznych uznaje się pioniera


ekonomii matematycznej brytyjskiego ekonomistę Francisa Ysidoro Edgewortha, który

18
Kosiorowski / Wstęp do Statystyki Odpornej… / 19

krytykował metodę najmniejszych kwadratów jako narzędzie ujmowania zależności


pomiędzy zmiennymi ekonomicznymi. Intuicje związane z odpornością można dostrzec w
prawie Kopernika – Greshema głoszącym, że zły pieniądz wypiera dobry w typowych
warunkach wymiany. Także wiele z wypowiedzi sławnego ekonomisty Johna Maynarda
Keynesa dotyczących metod inwestowania na rynkach finansowych można poczytać jako
świadomość pojęcia jednostki odstającej.
Zagadnienia odporności wiążą się niemalże z każdą procedurą statystyczną
wykorzystywaną w ekonomii (por. Maddala (2006)), dotyczą badań ekonometrycznych
prowadzonych na zlecenie ministra finansów, prognoz inflacji wykonywanych przez centrum
badawcze NBP, codziennej pracy analityka rynku paliw, publicznej dyskusji nt
sprawiedliwości społecznej. Wobec faktu, że statystyka pojawia się w ekonomii na poziomie
zarówno pojęciowym jak i metodologicznym łatwo wywnioskować jak ważna dla ekonomii
jest statystyka odporna. Mamy tu na uwadze przykładowo zasadniczą kwestię czy dane
empiryczne potwierdzają czy przeczą wysuwanej przez ekonomistę hipotezie badawczej,
słuszność decyzji o przyznaniu kredytu przedsiębiorcy, podniesieniu stóp procentowych
przez Radę Polityki Pieniężnej. W odniesieniu do wykorzystywanych w ekonomii pojęć
przywołajmy dla przykładu pojęcia inflacji, dobrobytu społecznego, atrakcyjności na rynku
pracy, zdolności kredytowej, dyskryminacji płacowej.
W wykorzystywanym w ekonomii tzw. prostym modelu pomiaru z błędem o rozkładzie
normalnym Xi + ei , gdzie ei to błąd pomiaru stosuje się średnią z próby (dla przykładu

badamy tygodniowe wydatki na żywność gospodarstwa domowego). Średnia jest


estymatorem największej wiarygodności. Średnia jest najlepszym nieobciążonym
estymatorem położenia, jest estymatorem minimaksowym i asymptotycznie efektywnym.
Wiemy jednakże, że estymator ten nie jest odporny na niewielkie odstępstwa od zakładanego
rozkładu normalnego błędu. Jeżeli błędy pomiaru zamiast być realizacją rozkładu
normalnego są realizacją mieszaniny rozkładów normalnych (model Tukey’a), średnia
przestaje być dobrym estymatorem położenia gdyż obserwacje odstające mogą całkowicie
zdeterminować wartość średniej wyznaczając niewłaściwe oszacowanie centrum. Jeżeli
rozkład błędu nie jest symetryczny oszacowanie będzie obciążone. Nawet jeśli rozkład błędu
będący mieszaniną jest symetryczny wokół zera to będziemy mieli do czynienia ze
znaczącym wzrostem wariancji średniej. Doświadczenie badaczy zajmujących się
zastosowaniami statystyki w ekonomii sugeruje, że udział rozkładu zaburzającego rzędu

19
Kosiorowski / Wstęp do Statystyki Odpornej… / 20

e = 1 - 10% zdarza się bardzo często ( np. w szwajcarskich tablicach życia występuje 6%
błędów – patrz Hampel i in. (1986)).
Zdaniem autora przy wyborze odpornych procedur statystycznych dla zastosowań w
ekonomii warto zdaniem autora kierować się oceną procedury z wykorzystaniem trzech
pojęć: funkcji wpływu, punktu załamania próby skończonej i maksymalnego obciążenia.
Funkcja wpływu ujmuje lokalne aspekty odporności procedury statystycznej. Funkcja
wpływu bądź krzywa wpływu estymatora ma dwa główne zastosowania w statystyce.
Pierwszym jest pomiar wrażliwości statystyki na pojedynczą obserwację, drugie stanowi
policzenie asymptotycznej wariancji statystyki przy pewnych warunkach regularności.
Kształt funkcji wpływu dostarcza informacji o odporności statystyki. Przykładowo średnia z
próby jest czuła na duże wartości obserwacji, co ma odzwierciedlenie w fakcie, że funkcja
wpływu nie jest ograniczona. Funkcjonał statystyczny z ograniczoną funkcją wpływu nie jest
wrażliwy na ekstremalne obserwacje tym samym jest na nie odporny. Funkcje wpływu
mediany odchyleń absolutnych od mediany (MAD) bądź odstępu międzykwartylowego
(IQR) w przypadku danych generowanych przez rozkład normalny są ograniczone w
przeciwieństwie do funkcji wpływu odchylenia standardowego (SD). Szacując ryzyko
pewnego przedsięwzięcia w oparciu o dane pośród których występuje jedna obserwacja
znacząco odbiegająca od reszty rozsądniej wybrać MAD bądź IQR niż SD.
W oparciu o funkcję wpływu konstruuje się pochodne miary odporności procedury jak
np. czułość na błędy grube czy lokalna czułość na przesunięcia. Funkcja wpływu ujmuje
efekt dodania jednej obserwacji do dużej próby. W badaniach ekonomicznych zaleca się
stosowanie statystyk o ograniczonych funkcjach wpływu. Dla przykładu klasyczne metody
wielowymiarowej analizy statystycznej jak np. analiza czynnikowa czy funkcja
dyskryminacyjna Fishera opierają się o wektor przeciętnych i macierz kowariancji,
optymalne miary położenia i rozrzutu przy wielowymiarowej normalności. Jest powszechnie
wiadomo, że niewielka frakcja obserwacji odstających niszczy analizę prowadzoną z
wykorzystaniem tych miar. Ma to odzwierciedlenie w postaci ich funkcji wpływu, które nie
są ograniczone. W sytuacji występowania jednostek odstających powinniśmy wybrać np.
estymator minimalnej elipsoidy objętości, jako estymator położenia i macierz kowariancji
policzoną z obserwacji należących do obszaru centralnego rzędu 90%, jako estymator
wielowymiarowego rozrzutu. Estymatory te mają ograniczone funkcje wpływu.

20
Kosiorowski / Wstęp do Statystyki Odpornej… / 21

Obserwacje w wielowymiarowych próbach, które odstają od zasadniczego wzorca


wyznaczonego przez większość danych to obserwacje odstające. Bardziej formalną definicję
jednostki odstającej uzyskamy przy założeniu konkretnego modelu generującego dane.

Rys. 1.17: Dwuwymiarowa jednostka odstające niekoniecznie


jest odstająca zważywszy na jednowymiarowe współrzędne.

Źródło: Obliczenia własne

Jednakże czy z perspektywy intuicyjnej czy modelowej, obserwacje odstające w pewien


sposób odbiegają od zasadniczej chmury danych. Warto podkreślić, że wielowymiarowa
obserwacja odstająca nie musi być jednostką odstającą zważywszy na jej jednowymiarowe
współrzędne. Ilustrację takiej sytuacji znajdziemy rysunku 1.17 gdzie pokazano łączne
procentowe dzienne zmiany cen dwóch spółek giełdowych, notowanie odstające od
zasadniczego wzorca zaznaczono jako romb. Zauważmy notowanie odstające nie jest
odstające, jeżeli patrzymy na każdą ze spółek oddzielnie. Jednostki odstające przesuwają
oszacowanie centrum oraz zwiększają oszacowanie rozrzutu. To ważna obserwacja z punktu
widzenia budowy portfela inwestycyjnego.
Zaznaczmy zatem, że funkcja wpływu w przypadku wielowymiarowym na ogół nie jest
prostym uogólnieniem przypadku jednowymiarowego.
Kolejną użyteczną charakterystyką odporności procedury statystycznej jest tzw. krzywa
maksymalnego obciążenia. Krzywa przedstawia najgorszy przypadek obciążenia wskazań
procedury statystycznej T jako funkcję udziału e rozkładu zaburzającego populację
(rozważamy tu mieszaninę zakładanej populacji z udziałem 1 - e oraz rozkładu

21
Kosiorowski / Wstęp do Statystyki Odpornej… / 22

zaburzającego z udziałem e ). Na ogół rozkłady stanowiące zaburzenie stanowią pewną


rodzinę rozkładów charakterystyczną dla rozważanego zagadnienia np. rodzinę rozkładów
normalnych o ustalonej wariancji, rodzinę rozkładów skośnych t itd. Taka funkcja
(maksymalne obciążenie) jest niemalejąca względem e , dla umiarkowanych wartości e
powinna przyjmować umiarkowane wartości. Ma to miejsce przykładowo dla mediany
wskazującej centrum tygodniowych wydatków na żywność gospodarstwa domowego przy

zaburzeniu będącym rozkładem c2 o dwóch stopniach swobody. Zwróćmy uwagę na


umowność określenia „wskazanie procedury obarczone jest umiarkowanym obciążeniem”.
Zaznaczmy też, że o ile przez obciążenie estymatora na ogół rozumiemy różnicę
pomiędzy oczekiwaną wartością estymatora a wartością szacowanego parametru populacji, to
można też mówić o obciążeniu związanym ze specyfikacją modelu - gdy próba nie pochodzi
z założonego modelu, oraz o obciążeniu testu7.
Zdaniem autora szczególnie użyteczną miarę odporności w badaniach ekonomicznych
stanowi koncepcja punktu załamania próby skończonej Donoho – Hubera. Punkt
załamania estymatora to minimalna frakcja zanieczyszczonych danych, która prowadzi do
całkowicie nieinformatywnego (bezużytecznego) wyniku estymacji. Punkt załamania próby
skończonej wywodzi się z koncepcji tolerancji zaproponowanej przez Hodgesa, stanowi
łatwiejszą w zastosowaniach wersję punktu załamania zaproponowaną przez Hampela. Punkt
załamania próby skończonej pewnej procedury informuje nas o tym jaki procent obserwacji
w próbie może być niewiarygodna bez zasadniczej utraty jakości wskazań tejże procedury.
Punkt załamania próby skończonej w przypadku MAD wynosi 50%, w przypadku IQR
wynosi 25%, w przypadku SD wynosi 0%. Szacując ryzyko na pewnym przedsięwzięciu w
oparciu o dane z przeszłości rozsądniej wybrać MAD bądź IQR w sytuacji gdy
podejrzewamy, że część danych jest niewiarygodna. Wybierając w takiej sytuacji SD
możemy albo przeszacować albo niedoszacować ryzyko.
Warto zaznaczyć, że bardzo często napotykamy odwrotny związek pomiędzy odpornością
procedury statystycznej a jej efektywnością i/lub złożonością obliczeniową. Ze względów
praktycznych często rozsądniej jest wybrać procedurę o nieco niższym od maksymalnego
punkcie załamania próby skończonej i akceptowalnej złożoności obliczeniowej. Niebagatelną
kwestię stanowi też szybkość zbieżności z próby wybranej przez nas procedury statystycznej.

7
Mówimy, że test jest obciążony, gdy prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej jest
większe od odrzucenia pewnej innej hipotezy, która jest prawdziwa.

22
Kosiorowski / Wstęp do Statystyki Odpornej… / 23

Szybkość zbieżności wiąże się bezpośrednio z wielkością próby niezbędnej do wnioskowania


o ustalonym poziomie ryzyka. Im mniejsza próba tym mniejsze koszty.
Zaznaczmy też różnicę pomiędzy różnego rodzaju metodami odrzucania jednostek
odstających a następnie stosowaniem klasycznych procedur a stosowaniem bezpośrednio
procedur odpornych. Przykładem wspomnianych metod jest heurystyczna metoda
wykrywania obserwacji odstających opierająca się o kryterium odległości Mahalanobisa
obserwacji od centrum chmury danych. Metoda ta nie radzi sobie z tzw. zjawiskiem
maskowania, należy jej unikać, gdy w zbiorze danych występuje więcej niż jedna obserwacja
odstająca. Inny przykład stanowią tzw. formalne metody wykrywania odstających, najlepiej
poznane dla wielowymiarowego rozkładu normalnego. Metody te stanowią swego rodzaju
proces weryfikacji pewnego układu hipotez. Hipoteza zerowa głosi, że w próbie nie
występują obserwacje ostające, hipotezy alternatywne głoszą, że pewna obserwacja pochodzi
z rozkładu normalnego o różnym od zakładanego wektorze przeciętnych, innej macierzy
kowariancji. Metody formalne sprawują się dobrze, gdy dysponujemy wiedzę o możliwej
naturze odstawania, w przypadku odstępstwa od założeń na ogół drastycznie spada ich moc.
Zdaniem autora zarówno heurystyczne jak i formalne metody odrzucania obserwacji
odstających w obecnej formie nie nadają się do zastosowań w badaniach rzeczywistych
układów ekonomicznych.
Podsumowując zalecamy stosowanie w badaniach ekonomicznych procedur statystycznych o
ograniczonej funkcji wpływu, umiarkowanej krzywej maksymalnego obciążenia oraz
wysokim punkcie załamania próby skończonej. To lepsza strategia aniżeli diagnostyka
wykonywana po doświadczeniu. Diagnostyka jest na ogół droższa oraz co może wydać się
paradoksalne jest nieodporna.
Zwracamy też uwagę czytelnika na konieczność wyważenia wysokiej odporności
procedury jej efektywności i dobrego zachowania się w przypadku małej próby.
Wspomnijmy też o napotykanym w praktyce dylemacie związany z wyborem pomiędzy
prostszą procedurą odporną wymagającą mniejszej próby a bardziej skomplikowaną
procedurą wymagającą dużej próby – np. wybór pomiędzy prostą odporną regresją liniową a
zastosowaniem pewnego modelu nieliniowego.

23
Kosiorowski / Wstęp do Statystyki Odpornej… / 24

2. Wybrane zagadnienia statystyki jednowymiarowej

2.1 Metody wykrywania jednostek odstających

Obserwacja odstająca jest takim elementem próby, który w pewien sposób odbiega od
wzorca wyznaczonego przez większość elementów próby. Na odstawanie obserwacji
możemy spojrzeć na dwa sposoby. Albo definiujemy je w kategoriach pozycji obserwacji w
próbie bez odwoływania się do mechanizmu losowego, który próbę wygenerował. Albo
zakładamy pewien model odstawania. To czy obserwacja zostaje uznana za odstającą zależy
od zakładanego przez nas modelu odstawania.
Najprostszym wykorzystywanym w ekonomii probabilistycznym modelem obserwacji
jest tzw. model położenia. W modelu tym zakładamy, że każda obserwacja x i odpowiada

prawdziwej wartości badanego zjawiska m zaburzonej przez pewien proces losowy ei :

(2.1) x i = m + ei (i = 1,..., n ) ,
gdzie błędy są zmiennymi losowymi.
Jeżeli obserwacje są niezależnymi powtórzeniami tego samego eksperymentu w takich
samych warunkach możemy założyć, że zaburzenia e1,..., en są niezależnymi zmiennymi

losowymi o tym samym rozkładzie. Oznaczmy dystrybuantę tego rozkładu jako F0 ,

natomiast dystrybuantę rozkładu obserwacji przez F . Często w modelu położenia zakłada


się, że nie mamy do czynienia z tzw. błędem systematycznym (np. systematycznie nie
przeszacowujemy wartości obserwacji) formalizuje się przyjmując, że zaburzenia ei oraz

-ei maja taki sam rozkład, co w konsekwencji oznacza F0 (x ) = 1 - F0 (-x ) . Można założyć

jeszcze więcej np. że F0 ma rozkład normalny z przeciętną 0 i odchyleniem standardowym

s . Modelem obserwacji jest wówczas rozkład normalny N (m, s) .


Najprostszy model odstawania stanowi model mieszaniny zaproponowany przez Tukey’a.
Zakładamy mianowicie, że 1 - p obserwacji generowane jest przez rozkład normalny, zaś
porcja p przez pewien nieznany mechanizm, p Î [0,1] tzn. F = XG + (1 - X )H ,
G = N (m, s) , H jest dowolnym rozkładem, X jest zmienną losową zero jedynkową

24
Kosiorowski / Wstęp do Statystyki Odpornej… / 25

P (X = 1) = 1 - p , P (X = 0) = p . W modelu tym rozkład H reprezentuje działanie


mechanizmu losowego generującego obserwacje odstające. Chcielibyśmy oczyścić dane
będące przedmiotem naszego zainteresowania z obserwacji odstających wygenerowanych
przez rozkład H . Usunięcie obserwacji z analizowanego przez nas zbioru danych wiąże się z
szeregiem dylematów. Wymieńmy kilka z nich:
 Kiedy usunięcie obserwacji odstającej jest uprawnione?
 Kiedy obserwacja jest wystarczająco odstająca, aby zostać usunięta?
 Zawsze istnieje niepewność czy obserwacja jest istotnie atypowa, istnieje ryzyko
usunięcia dobrej obserwacji – skutkuje to np. niedoszacowaniem zmienności danych.

Powszechnie wykorzystywaną miarą „odstawania” obserwacji x i względem próby jest


iloraz odległości obserwacji do średniej z próby i odchylenia standardowego:
xi - x
(2.2) ti = ,
s

gdzie x oznacza średnią, s to odchylenie standardowe.

W powszechnie wykorzystywanej regule trzech sigm obserwacje dla których ti > 3

określa się jako podejrzane. Reguła opiera się o obserwację, że przy założeniu normalności
P ( t ³ 3) = 0.003 dla zmiennej losowej o standardowym rozkładzie normalnym.

Reguła trzech sigm posiada szereg wad. Po pierwsze w dużych próbach np. rzędu 1000
obserwacji należy się spodziewać obserwacji z ti > 3 . Po drugie w małych próbach reguła

n -1
jest nieefektywna, można pokazać, że ti < . Bez wątpienia najpoważniejsza wada
n
reguły trzech sigm wiąże się ze zjawiskiem maskowania. W przypadku, gdy mamy kilka
obserwacji odstających mogą one wejść w interakcje powodującą maskowanie jednostek
odstających. Rozważmy dla przykładu następujący zbiór danych w którym występują dwie
obserwacje odstające -44 i -2 (rys. 2.1):
x<-c(28,26,33,24,34,-44,27,16,40,-2,29,22,24,21,25,30,23,29,31,19)
Stosując regułę trzech sigm otrzymamy następujące wartości miary odstawania

25
Kosiorowski / Wstęp do Statystyki Odpornej… / 26

t<-c( 0.35, 0.24, 0.64, 0.13, 0.69, -3.72, 0.29, -0.32, 1.03, -1.34, 0.41, 0.01, 0.12, -
0.04, 0.18, 0.46, 0.07, 0.41, 0.52, -0.15)
Łatwo zauważyć, że reguła wskazuje obserwację -44 natomiast pomija obserwację -2.
Odstawanie obserwacji -2 zostało zamaskowane przez obserwację odstającą -44.

Rys. 2.1: Przykładowy zbiór danych Rys. 2.2: Wykres kwantyl – kwantyl.

Możemy wyeliminować opisaną wadę reguły trzech sigm poprzez zastąpienie x i s za


pomocą odpornych odpowiedników Med i MAD
x i - Med (x)
(2.3) ti* = ,
MAD(x)

gdzie MAD(x) = MAD(x1, x 2 ,..., x n ) = Med { x - Med (x) }

Zauważmy, że mad(x) = 5.9304 ; sd(x) = 17.62736. Stosując poprawioną regułę otrzymamy:


t*<-c(0.42, 0.08, 1.26, -0.25, 1.43, -11.71, 0.25, -1.60, 2.44, -4.63, 0.59, -0.59, -0.25, -
0.75, -0.08, 0.75, -0.42, 0.59, 0.92, -1.09)
Tym razem obie obserwacje odstające zostają wskazane właściwie.
Przypomnijmy, że w przypadku jednowymiarowym kwantyle są punktami brzegowymi
oddzielającymi oznaczoną górną i dolną frakcję populacji. Każdy punkt x Î  ma

interpretację kwantylową polegającą na tym, że można go wyrazić jako F -1(p) dla pewnego

p Î (0,1) , gdzie F -1 oznacza funkcję odwrotną do dystrybuanty rozkładu.W przypadku

26
Kosiorowski / Wstęp do Statystyki Odpornej… / 27

jednowymiarowym medianę danego rozkładu definiujemy jako F -1(1 / 2) . Zwróćmy uwagę,


że możemy zdefiniować „obszar centralny” rzędu p definiowany jest jako domknięty

przedział é F -1 ( 1 - p 2 ) , F -1 ( 1 - 1 - p 2 ) ù , na którym skoncentrowane jest


ëê úû
prawdopodobieństwo p . Każdy punkt x Î  posiada interpretację kwantylową mianowicie
jest punktem brzegowym pewnego p tego obszaru centralnego. Parametr p odpowiada
wielkości odstawania x Î  .
Rozważmy zorientowaną na medianę jednowymiarową funkcję kwantylową QF (u ) z

u = 2p - 1 , -1 < u < 1 oraz medianą M = QF (0) zdefiniowaną przez

æ 1 + u ö÷
(2.4) QF (u ) = F -1 çç ÷.
çè 2 ÷ø

Znak parametru u odpowiada kierunkowi od mediany M . Odwrotność funkcji

kwantylowej QF (⋅) tzn. QF-1(x ) = 2F (x ) - 1 , x Î  nazywana jest wycentrowaną funkcją


rangową.

Wielkość QF-1(x ) = 2F (x ) - 1 można traktować jako jednowymiarową miarę

odstawania punktu zważywszy na generujący punkt rozkład.

Przykład R
x1<-rnorm(20,10,2)
x2<-rnorm(3,15,2)
x3<-rnorm(2,25,3)
x<-c(x1,x2,x3)
x<-round(x)
x
10 7 11 7 12 10 8 10 10 9 7 9 12 10 5 14 11 10 7 10 17 14 14 22 25
z<-(x-mean(x))/sd(x) #miara odstawania#
round(z, digits = 2)
-0.27 -0.92 -0.05 -0.92 0.17 -0.27 -0.71 -0.27 -0.27 -0.49 -0.92 -0.49 0.17 -0.27 -1.36 0.60 -0.05 -
0.27 -0.92 -0.27 1.26 0.60 0.60 2.35 3.00
z1<-(x-median(x))/mad(x) #poprawiona miara odstawania#
round(z1,digits=2)

27
Kosiorowski / Wstęp do Statystyki Odpornej… / 28

0.00 -1.01 0.34 -1.01 0.67 0.00 -0.67 0.00 0.00 -0.34 -1.01 -0.34 0.67 0.00 -1.69 1.35 0.34 0.00
-1.01 0.00 2.36 1.35 1.35 4.05 5.06
round(abs(2*pnorm(x,10,2)-1),digit=2) #funkcja rangowa przy założeniu N(10,2)#
0.68 0.87 0.00 0.00 0.00 0.00 0.87 0.87 0.99 0.38 0.38 0.38 0.38 0.68 0.38
0.87 0.00 0.38 0.00 0.38 1.00 1.00 1.00 1.00 1.00

2. 2 Odporne miary położenia i rozrzutu zmiennej losowej

Przywołajmy przedstawiony w poprzednim podrozdziale model położenia (2.1).


Rozważmy pewien estymator T będący pewną funkcją obserwacji
T = T (x1,..., x n ) = T (x) służący do oszacowania interesującej nas charakterystyki

liczbowej populacji. W odniesieniu do modelu położenia szukamy estymatora, który T » m


z dużym prawdopodobieństwem. Aby zmierzyć jakość takiej aproksymacji można
wykorzystać średni błąd kwadratowy (MSE). Średni błąd kwadratowy estymatora
definiujemy jako

(2.5) MSE (T ) = E (T - m)2 .

Łatwo zauważyć, że MSE można zdekomponować w postaci dwóch członów

(2.6) MSE (T ) = D 2 (T ) + bias(T )2 ,


gdzie bias(T ) = E (T ) - m . (wariancja estymatora + jego obciążenie)
Można pokazać, że przy założeniu normalności błędu w modelu położenia średnia
minimalizuje MSE, jest estymatorem najefektywniejszym. Można powiedzieć, że jest
lepszym estymatorem niż mediana. Zakładając rozkład błędu F0 = N (0, s) można łatwo

æ s ö÷ æ 1.57s ö÷
pokazać, że X ~ N çç m, ÷÷ , oraz Med ~ N ççç m, ÷÷ . Jednakże jeżeli rozważamy
çè n ø ç
è n ø÷
model mieszaniny generujący obserwacje odstające w modelu położenia

F = (1 - p)N (m,1) + pN (m, t 2 ) , to okazuje się że wariancja średniej wynosi

(1 - p) + p t 2 p
D 2 (X ) = , natomiast wariancja mediany D 2 (Med ) » .
n 2n(1 - p + p / t )2
Zatem w przypadku udziału zaburzenia rzędu p = 5% przewaga średniej nad medianą

28
Kosiorowski / Wstęp do Statystyki Odpornej… / 29

całkowicie znika. Wykorzystując wprowadzone wcześniej miary odporności powiemy, że


średnia ma nieograniczoną funkcję wpływu, jej punkt załamania wynosi zero. Mediana ma
ograniczoną funkcję wpływu i punkt załamania bliski 50%. Historycznie rzecz biorąc
pierwszą własnością estymatora wykorzystywaną w ocenie jego odporności był właśnie jego
średni błąd kwadratowy oraz jego wariancja.
Prezentację odpornych estymatorów położenia rozpoczniemy od M- estymatorów.
Przyjmijmy, że X1,..., Xn oznacza próbę natomiast X(1) £ X(2) £  X(n )

uporządkowane obserwacje próby.


M – estymator Tn jest definiowany jako rozwiązanie zagadnienia minimalizacji
n
(2.7) å r(Xi , q) := min względem q Î Q ,
i =1

bądź równoważnie
(2.8) EP [r(X , q)] = min względem q Î Q
n

gdzie E oznacza wartość oczekiwaną, Pn oznacza rozkład empiryczny, r(,⋅ ⋅) jest stosownie
wybraną funkcją mającą na celu zmniejszyć wpływ obserwacji odstających.
Przykładem M – estymatora jest estymator metody największej wiarygodności
parametru q w modelu parametrycznym  = {Pq , q Î Q} ; jeżeli f (x , q) jest gęstością Pq ,

wtedy estymator NW jest rozwiązaniem minimalizacji


n
(2.9) å (- log f (Xi , q)) = min , q Î Q .
i =1


Jeżeli r jest różniczkowalna względem q z ciągła pochodną y(,⋅ q) = r (⋅, q ) wtedy
¶q
Tn jest pierwiastkiem równania
n
(2.10) å y(Xi , q) = 0 , q Î Q
i =1

stąd

29
Kosiorowski / Wstęp do Statystyki Odpornej… / 30

n
1
(2.11) å y(Xi , q) = Pn [y(X ,Tn )] = 0 ,Tn Î Q .
n i =1

W literaturze znanych jest szereg funkcji mających na celu zmniejszenie wpływu obserwacji
odstających. Równanie (2.12) przedstawia jedną z propozycji Hubera
ìï t t <b
(2.12) y(t ) = ïí ,
ïïb sgn(t ) t ³b
î
gdzie sgn(x)=1 dla x>0, sgn(x)=-1 dla x<0 i sgn(x)=0 dla x=0.
Natomiast równanie (2.13) przedstawia propozycję Hampela
ì
ï t t <a
ï
ï
ï
ï a sgn(t ) a £ t <b
(2.13) y(t ) = ï
í .
ï
ï {(c - t ) / (c - b)}a sgn(t ) b £ t £ c
ï
ï
ï
ï 0 p.p.
î

Ładując pakiet {robustbase} wykorzystując komendy tukeyChi oraz tukeyPsi1


otrzymamy kolejne propozycje które wraz z pochodnymi przedstawiono na rys. (2.3) i (2.4).

Rys. 2.3: Wykresy funkcji Tukey’a. Rys. 2.4: Wykresy funkcji Tukey’a.

Przykład R
library{robustbase}
delivery #zbiór danych dotyczących czasów dostarczenia przesyłki przez kuriera w zależności

od odległóści#

30
Kosiorowski / Wstęp do Statystyki Odpornej… / 31

huberM(delivery[,3]) #wskazanie M-estymatora#


18.65
mean(delivery[,3]) #wskazanie średniej arytmetycznej#
22.384

Kolejną ważną klasę jednowymiarowych estymatorów położenia i rozrzutu stanowią L-


estymatory, które opierają się o uporządkowane obserwacje w próbie Xn :1 £ ... £ Xn :n .
Ogólna postać L - estymatora może zostać zapisana w postaci
n k
(2.14) Tn = å cnih(Xn :i ) + å a j h *(Xn :[npj ]+1) ,
i =1 
 j =1

I II

gdzie cn 1,..., cnn i a1,..., ak są danymi współczynnikami, 0 < p1 < ... < pk < 1 oraz h(⋅) i

h * (⋅) są danymi funkcjami.

Współczynniki cni , 1 £ i £ n generowane są przez ograniczoną funkcję wagową

J : [0,1]   w następujący sposób


i
n
(2.15) cni = ò J (s )ds , i = 1,..., n
i -1
n

bądź w sposób przybliżony


1 æç i ö÷
(2.16) cni = Jç ÷ , i = 1,..., n
n èç n + 1 ÷ø

Pierwszy składnik L - estymatora ogólnie rzecz biorąc wykorzystuje statystyki


porządkowe, drugi składnik jest liniową kombinacją kilku (skończenie wielu) kwantyli z
próby. Wiele ze znanych L - estymatorów przyjmuje postać pierwszego albo drugiego –
mówimy o L-estymatorach I-typu bądź o estymatorach II-typu odpowiednio.
Najprostszym przykładem L - estymatora położenia są mediana z próby Med
oraz środek rozstępu
1
(2.17) Tn = (X n :1 + X n :n ) ,
2

31
Kosiorowski / Wstęp do Statystyki Odpornej… / 32

popularnym L - estymatorem rozrzutu jest


(2.18) Rn = Xn :n - Xn :1

oraz przeciętna różnica Gini’ego


n
1 2
(2.19) Gn = å
n(n - 1) i, j =1
Xi - X j = å (2i - n - 1)Xn :i .
n(n - 1) i =1

Przykład R
midrange<-function(x) #funkcja służąca do obliczenia środka rozstępu#
{
(max(x)+min(x))/2
}
midrange(delivery[,3]) #wykorzystujemy tę funkcję#
sample.range<-function(x) #funkcja służąca do obliczenia rozstępu#
{
max(x)-min(x)
}
sample.range(delivery[,3]) #wykorzystujemy tę funkcję#
gini.mean.difference<-function(x) #funkcja służąca do obliczenia przeciętnej różnicy Gini’ego#
{
x <-sort(x[!is.na(x)])
n<-length(x)
na<-seq((1-n),(n-1),by=2)
2*sum(na*x)/n/(n-1)
}
gini.mean.difference(delivery[,3]) #wykorzystujemy tę funkcję#

W wielu przypadkach podanie jawnej postaci funkcji wpływu estymatora oraz dokładne
oszacowanie jego punktu załamania jest zadaniem niezmiernie skomplikowanym. Często w
takim przypadku zadowalamy się oszacowaniem ich postaci za pomocą symulacji
komputerowej. W przypadku L-estymatorów potrafimy podać jasną postać funkcji wpływu.
Rozważmy L-estymator pierwszego typu Tn posiadający całkowalną funkcję wagową J ,
1
spełniająca warunek ò J (u)du = 1 . Wprowadźmy empiryczny funkcjonał kwantylowy
0

(2.20) Qn (t ) = Fn-1(t ) = inf{x : Fn (x ) ³ t } , 0 < t < 1 ,

który jest empirycznym odpowiednikiem funkcji kwantylowej

(2.21) Q(t ) = F -1(t ) = inf{x : F (x ) ³ t } , 0 < t < 1

i jest równy

32
Kosiorowski / Wstęp do Statystyki Odpornej… / 33

ìï i -1 i
ïï X ... <t £
n :i
(2.22) Qn (t ) = ïí n n , i = 1,..., n - 1 .
ïï n -1
ïï Xn :n ... <t £1
î n

Wykorzystując empiryczną funkcję kwantylową (…) i funkcję kwantylową (…) mamy


postać L - estymatora:
1
(2.23) Tn = ò J (s )h(Qn (s ))ds ,
0

1
(2.24) T = ò J (s )h(Q(s ))ds ,
0

gdzie

Funkcja wpływu L-estymatora przyjmuje postać


¥ ¥
(2.25) IF (x ,T , F ) = ò F (y )h ¢(y )J (F (y ))dy - ò h ¢(y )J (F (y ))dy .
-¥ x

Jeżeli L - estymator Tn przycina obserwacje w takim sensie, że jego funkcja wagowa

spełnia J (u ) = 0 dla 0 < u £ a i 1 - a £ u < 1 , i BPn jest jego punktem załamania w n

– elementowej próbie, wtedy limn ¥ BPn = a .

Przykładem L-estymatora jest a - przycięta przeciętna (0 < a < 1 2) będąca

przeciętną kwantyli centralnych:


n -[n a ]
1
(2.26) Xn a = å X .
n - 2[n a ] i =[n a ]+1 n :i

W jej przypadku współczynniki przyjmują postać


ì
ï 1
ï
ï ... [n a ] + 1 £ i £ n - [n a ]
cni = í n - [n a ] ,
ï
ï
ï
ï 0 ... p.p
î
Funkcja wagowa może zostać wyrażona jako

33
Kosiorowski / Wstęp do Statystyki Odpornej… / 34

1
J (u ) = I [a £ u £ 1 - a ] ,
1 - 2a
Wykorzystując funkcję kwantylową możemy ją zapisać
1-a
1
Tn = T (Fn ) =
1 - 2a ò Fn-1(u )du ,
a

1-a
1
T (F ) =
1 - 2a ò F (u )du .
a

Jeżeli BPn jest jego punktem załamania tej średniej w n – elementowej próbie, wtedy

limn ¥ BPn = a . Jako ćwiczenie proponujemy czytelnikowi szacować funkcję wpływu tej
średniej za pomocą symulacji.
Następnym przykładem L-estymatora jest a - przeciętna Windsora. Poniżej
przedstawiamy ją w ogólnej postaci z dwoma składowymi

1 ìïï üï
n -[n a ]
ï
(2.27) Wn a = T (Fn ) =

í
ï
[n a ]X n :[n a ]+1 + å X n :i + [n a X
] n :n -[n a ] ý
ï
î i =[n a ]+1 þï

1-a
= aFn-1(a) + ò Fn-1(u )du + aFn-1(1 - a) .
a

Zwróćmy uwagę, że w przypadku tej średniej ekstremalne kwantyle nie zastają odcięte
jak poprzednio lecz zostają zastąpione kwantylami Xn :[n a ]+1 i Xn :n -[n a ] .

Kolejnym przykładem odpornego estymatora położenia jest ważona średnia Sena:

æ n ö÷-1 n æ i - 1 öæ ÷÷ çç n - 1 ö÷÷
(2.28) Tn,k = ççç ÷÷ å çç ÷÷ ç k ÷÷ Xn :i ,
çè 2k + 1 ÷ø i =1 çèç k øè ç ø

n -1
gdzie 0 < k < .
2
Zauważmy, że Tn,0 = Xn oraz Tn,k jest medianą z próby, gdy n jest parzyste i

n n -1
k = - 1 albo n jest nieparzyste i k = .
2 2

34
Kosiorowski / Wstęp do Statystyki Odpornej… / 35

Naszą krótką prezentację odpornych estymatorów położenia zakończymy głośnym


estymatorem Hodgesa – Lehmanna.
Niech Ri będzie rangą obserwacji Xi w próbie X1,..., Xn , i = 1,..., n gdzie

X1,..., Xn jest losową próbą z populacji o ciągłej dystrybuancie. Ranga Ri może zostać
wyrażona jako
n
(2.29) Ri = å I [X j £ Xi ] , i = 1,..., n ,
j =1

stąd Ri = nFn (Xi ) , i = 1,..., n , Fn jest dystrybuanta empiryczna X1,..., Xn

Hodges i Lehmann (1963) zaproponowali klasę estymatorów nazywanych R-


estymatorami, które można traktować jako odwrotność testów rangowych. Najbardziej
znany reprezentant tej klasy estymatorów ma postać:
ì
ï Xi + X j ü
ï
(2.30) TnH = med ï
í : 1 £ i £ j £ n ï
ý.
ï
ï 2 ï
ï
î þ

Punkt załamania tego estymatora wynosi w przybliżeniu 29%. Estymator ten jest
efektywniejszy od mediany w przypadku próby z rozkładu normalnego.

Przykład R
library(MASS) #ładujemy pakiet MASS#

ssaki<-mammals #dane dotyczące wagi i wielkości mózgu dla 62 gatunków ssaków#


plot(ssaki,cex=3)
mean(ssaki[,1])#liczymy średnią#

median(ssaki[,1]) #liczymy medianę#

mean(ssaki[,1], trim=0.05) #liczymy 5% przyciętą średnią#


mean(ssaki[,1], trim=0.10)
winsorized.mean(ssaki[,1], trim=0.05) #liczymy 5% średnią Winsora#
winsorized.mean(ssaki[,1], trim=0.10)

sen.weight.mean<-function(x,k=0) #tworzymy funkcję liczącą średnią Sena#


{
x <- x[!is.na(x)]
n<-length(x)

35
Kosiorowski / Wstęp do Statystyki Odpornej… / 36

if ((k < 0) | (k>=(n-1)/2) )


stop("cannot estimate: k<0 or k>=(n-1)/2")
if (trunc(k)!=k)
stop("cannot estimate: k is not integer")
sum(choose(0:(n-1),k)*choose((n-1):0,k)*sort(x))/choose(n,2*k+1)
}

hodges.lehmann<-function(x) #tworzymy funkcję liczącą estymator H-L#


{
x <-x[!is.na(x)]
n<-length(x)
xa<-c()
for (i in 1:n) for(j in i:n) xa<-append(xa,(x[i]+x[j])/2)
median(xa)
}
sen.weight.mean(ssaki[,1],1) #liczymy średnią Sena dla k=1#
sen.weight.mean(ssaki[,1],2)
sen.weight.mean(ssaki[,1],3)
hodges.lehmann(ssaki[,1]) #liczymy estymator H-L#

hubers(ssaki[,1]) #liczymy M-estymator położenia#

Najczęściej wykorzystywanym estymatorem rozrzutu wartości zmiennej losowej jest


odchylenie standardowe z próby. Nie jest to estymator odporny. W charakterze jego
odpornych konkurentów przywołajmy medianę odchylenia absolutnego od mediany
(MAD) oraz rozstęp kwartylowy (IQR)
(2.31) MAD = 1.48 * Med { x i - Med {x i } ,

(2.32) IQR = 0.74 * x( ê 0.75*n ú ) - x( ê 0.25*n ú ) ,


ë û ë û

gdzie współczynniki 1.48 i 0.74 wiążą się z dopasowaniem miar do rozkładu normalnego,
ê x ú oznacza najmniejszą liczbę całkowitą nieprzekraczającą x.
ë û
Punkt załamania MAD jest bliski 50%, punkt załamania IQR jest bliski 25%. W ramach
ćwiczenia proponujemy czytelnikowi zbadać za pomocą symulacji efektywność tych
estymatorów w porównaniu do odchylenia standardowego dla kilku wybranych rozkładów
prawdopodobieństwa. Proponujemy też zbadać odporność przeciętnej różnicy Gini’ego.

36
Kosiorowski / Wstęp do Statystyki Odpornej… / 37

Przykład R
boxplot(ssaki[,2],cex=2)
sd(ssaki[,2])
0.74*IQR(ssaki[,2])
1.48*mad(ssaki[,2])
gini.mean.difference(ssaki[,2])
library(robustbase)
Qn(ssaki[,2], finite.corr = FALSE) #efektywniejsza alternatywa dla MAD#

scaleTau2(ssaki[,2]) #efektywniejsza alternatywa dla MAD#

3. Wybrane zagadnienia statystyki wielowymiarowej

3.1 Odporna miara położenia i rozrzutu wektora losowego

Wielowymiarowa analiza statystyczna oferuje ekonomiście niezmiernie bogate spektrum


metod badawczych znajdujących zastosowanie zarówno w praktyce jak i w teorii ekonomii.
Znajomość metod statystyki wielowymiarowej przyczynia się do lepszego zrozumienia
mechanizmów gospodarczych, natury współzależności złożonych układów ekonomicznych,
jest nieodzowna w wielu sferach działalności gospodarczej.
Analiza statystyczna prowadzona w wielu wymiarach niesie ze sobą szereg złożonych
kwestii, których nie spotyka się w analizie jednowymiarowej. Wiele uznanych procedur
jednowymiarowych nie posiada uogólnienia na wiele wymiarów, względnie jednoznaczne
pojęcia znane ze statystyki jednowymiarowej (np. jednostka odstająca, symetria) w statystyce
wielowymiarowej nabierają wielu znaczeń. Statystyka wielowymiarowa na ogół wymaga
większych prób, wraz ze wzrostem wymiaru wielkość próby często rośnie lawinowo. W
przypadku wielowymiarowym na „ogonach” rozkładu zgromadzone jest relatywnie więcej
masy probabilistycznej niż w przypadku jednowymiarowym. W przypadku
wielowymiarowym trudniej jest wskazać obserwacje odstające w zbiorze danych.
W wielu zastosowaniach zainteresowani jesteśmy wskazaniem centrum i charakterystyki
rozrzutu wokół tego centrum.

37
Kosiorowski / Wstęp do Statystyki Odpornej… / 38

Przypuśćmy, że analizujemy zbiór danych Xn = {(x11, x12 ,..., x1p ),...,(x n 1, x n 2 ,..., x np )} ,

n punktów w p wymiarach, Xn = {x1,..., xn } . Powiemy, że estymator T jest statystyką,


która jest ekwiwariantna względem przesunięć jeżeli

(3.1) T (x1 + b,..., xn + b) = T (x1,..., xn ) + b , b Î  p .

Najlepiej znany wielowymiarowy estymator położenia centrum to średnia arytmetyczna


po współrzędnych (wektor średnich):
n
1
(3.2) T (X ) = x = åx .
n i =1 i

n
2
Wektor średnich jest to estymatorem NK ponieważ minimalizuje å xi - T , gdzie
i =1

⋅ jest zwykłą normą. Wektor średnich nie jest odpornym estymatorem położenia.

Powiemy, że estymator T jest statystyką która jest afinicznie niezmiennicza wtedy i


tylko wtedy gdy
(3.3) T (x1A + b,..., xn A + b) = T (x1,..., xn )A + b ,

gdzie A oznacza nieosobliwą macierz działającą z lewej, b Î  p .


Wydaje się, że najprostszą metodą skonstruowania odpornego estymatora w przypadku
wielowymiarowym jest wykorzystanie jednowymiarowego odpornego estymatora dla każdej
współrzędną oddzielnie. Dla każdej zmiennej j , j = 1,..., p zbiór liczb x1 j , x 2 j ,..., x nj może

być rozważany jako jednowymiarowy zbiór danych złożony z n punktów. Przykładem


takiego rozumowania może być mediana po współrzędnych:
(3.4) MED = (med x i1, med x i 2,..., med x ip ) .
i i i

Łatwo ją policzyć, ma BP bliski 50% jednak nie spełnia pewnych naturalnych postulatów
np. może nie leżeć musi leżeć w powłoce wypukłej próby. Dla przykładu weźmy p
wektorów jednostkowych (1, 0,..., 0) , (0,1,..., 0) ,…, (0, 0,...,1) , mediana po współrzędnych
wynosi (0, 0,..., 0) . Czy jest to estymator afinicznie niezmienniczy?

38
Kosiorowski / Wstęp do Statystyki Odpornej… / 39

Kolejnym przykładem wielowymiarowego estymatora położenia jest L1 estymator


położenia nazywany też medianą przestrzenną. Estymator ten definiujemy jako
rozwiązanie zagadnienia minimalizacji
n
(3.5) SM = min å xi - T .
T
i =1

Estymator ten wprawdzie jest mniej wrażliwy niż wektor średnich na obserwacje
odstające jednakże także ma nieograniczoną funkcję wpływu i punkt załamania BP
wynoszący 0%. Poprzez analogię z M-estymatorami można zaproponować jego modyfikację
n
(3.6) min å r ( xi - T ),
T
i =1

gdzie r jest stosownie dobraną funkcją odległości mającą na celu zabezpieczenie przed
obserwacjami odstającymi.
W kontekście proponowania odpornych estymatorów położenia można zadać pytanie
dlaczego nie zastosować prostej zasady polegającej na wstępnej eliminacji obserwacji
odstających by następnie policzyć np. wektor średnich. Podejście takie rozwijano w latach
siedemdziesiątych ubiegłego wieku. Obecnie określa się je mianem naiwnego m. in. z
powodu, że częstokroć paradoksalnie okazywało się nie być odpornym, nie są znane
statystyczne własności takiego postępowania. Za przykład tego podejścia weźmy
wykorzystanie do odrzucania obserwacji odstających kwadratu odległości Mahalanobisa:

(3.7) MD 2 (xi , X) = (xi - T (X))C (X)-1(xi - T (X))¢ ,

gdzie T (X) jest miarą położenia np. wektor średnich, C (X)-1 jest macierzą kowariancji.
Kwadrat odległości Mahalanobisa obliczamy dla każdej obserwacji. Punkty dla których

MD 2 (xi , X ) przyjmuje dużą wartość zostają odrzucone. W oparciu o resztę obserwacji

obliczamy wartość klasycznego estymatora położenia. Podejście to jest godne polecenia


jedynie w przypadku występowania pojedynczych obserwacji odstających. Podejście nie
radzi sobie ze zjawiskiem maskowania.
Pierwszy afinicznie ekwiwariantny wielowymiarowy estymator położenia z punktem
załamania bliskim 50% został zaproponowany niezależnie przez Stahela (1981) i Donoho
(1982). Estymator ten nazywany jest średnią ważoną odstawaniem. Jego konstrukcja

39
Kosiorowski / Wstęp do Statystyki Odpornej… / 40

przedstawia się następująco. Dla każdej obserwacji xi liczymy miarę odstawania tej

obserwacji xi :

xi v ¢ - med ( x j v ¢ )
j
(3.8) ui = sup ,
v =1 med xk v ¢ - med (x j v ¢)
k j

gdzie med ( x j v ¢ ) jest medianą projekcji danych x j w kierunku wektora v , mianownik jest
j

medianą odchyleń absolutnych tych projekcji. Wykorzystując policzone miary odstawania


obserwacji ważona odstawaniem średnia przyjmuje postać
n

å w(ui )xi
i =1
(3.9) T (X) =
n

å w(ui )
i =1

gdzie w(u ) jest ściśle dodatnią i malejąca funkcja u ³ 0 , taką że uw(u ) jest ograniczona.

Zwróćmy uwagę, że miara odstawania (…) jest afinicznie ekwiwariantna, ui nie zmienia

się gdy xi zastąpimy przez xi A + b . Donoho (1982) pokazał że punkt załamania ważonej
odstawaniem średniej jest bliski 50%.
Warto zauważyć, że kwadrat odległości Mahalanobisa może zostać zapisany w postaci:
æ 1
n ö÷
çç
çç x i v ¢ -
n
å i ÷÷÷÷
x v ¢
ç i =1 ÷÷ .
(3.10) MD 2 (xi , X ) = çç sup
çç v =1 SD(x1v ¢,..., xn v ¢) ÷÷÷
çç ÷÷
çèç ÷÷
ø

W liczniku (…) dostrzegamy średnią arytmetyczną a w mianowniku odchylenie standardowe.


Chcąc uodpornić tę miarę odstawania możemy zastosować medianą i MAD bądź np.
jednowymiarowe M – estymatory położenia i rozrzutu.
Drugi afinicznie niezmienniczy estymator o punkcie załamania bliskim 50% został
zaproponowany przez Rousseeuw w 1983 roku. Jego propozycja nazywana jest
estymatorem elipsoidy minimalnej objętości (por. rys. (3.1)).
Definiujemy go jako

40
Kosiorowski / Wstęp do Statystyki Odpornej… / 41

(3.11) MVE (Xn ) = centrum elipsoidy o minimalnej objętości pokrywającej

przynajmniej h punktów Xn ,

gdzie h = éê n / 2 ùú + 1 , Xn = {x1,..., xn } .

Przykład R
library(car)
data.ellipse(Prestige$income, Prestige$education, levels=0.1*1:9, lty=2)

Rys. 3.1: Elipsoidy koncentracji. Rys. 3.2: Wektor średnich, MVE, MDE.

Obliczanie wartości estymatora minimalnej elipsoidy objętości rozpoczynamy od próbki


(p + 1) różnych obserwacji indeksowanych przez J = {i1,..., ip +1} . Dla tej podróbki

wyznaczamy średnią arytmetyczną i odpowiadającą macierz kowariancji, dane przez


1 1
xJ = å
p + 1 i ÎJ
xi oraz CJ = å (xi - xJ )¢ (xi - xJ ) ,
p i ÎJ

gdzie macierz CJ jest nieosobliwa, gdy xi ,..., xi znajdują się w ogólnej pozycji.
1 p +1

W kolejnym kroku powiększamy lub pomniejszamy elipsoidę tak, aby zawierała


dokładnie h punktów, liczymy

mJ2 = med (xi - xJ )C J-1(xi - xJ )¢ ,


i =1,...,n

Objętość elipsoidy odpowiadającej mJ2 CJ jest proporcjonalna do

41
Kosiorowski / Wstęp do Statystyki Odpornej… / 42

(det(mJ2 CJ ))1/2 = (det(CJ ))1/2 (mJ )p .

Powtarzamy powyższe operacje dla wielu J aż osiągamy minimum, wtedy liczymy

MVE (X ) = xJ i MVECOV (X ) = (cp2,0.50 )-1mJ2 CJ

Zwróćmy uwagę, że w wyniku przeprowadzenia operacji prowadzących do estymatora


minimalnej elipsoidy objętości uzyskujemy również odporne oszacowanie macierzy
kowariancji wektora losowego.
Kolejną propozycję wielowymiarowego estymatora położenia o wysokim punkcie
załamania stanowi estymator minimalnego wyznacznika macierzy kowariancji.
Definiujemy go jako

(3.12) MDE (Xn ) = średnia z h punktów próby Xn dla których


wyznacznik
macierzy kowariancji jest minimalny,

gdzie h jest ustalone.


Zauważmy, że możemy policzyć macierz kowariancji ograniczając się do wybranych h
punktów minimalizujących powyższe kryterium

Przykład R
#Estymatory MVE i MDE możemy policzyć za pomocą pakietu MASS#
Library(MASS)
x<-c(0.0, 0.2, 0.4, 0.6, 0.8, 1, 1.2, 1.4, 1.6, 1.8, 2, 2.2, 2.4, 2.6, 2.8, 3, 3.2, 3.4, 3.6, 3.8, 4,
4.2, 4.4, 4.6, 4.8, 5, 5.2, 5.4,5.6, 5.8, 9.32, 9.3, 8, 11.53, 8.4, 9, 8, 12,11)
y<-c(0.97, 1.46, 2.75, 3.57, 4.78, 3.56, 2.88, 4.18, 5.34, 5.01, 5.53, 6.21, 8.06, 6.63, 8.04,
9.25, 7.53, 10.69, 8.82, 9.35, 9.75, 9.52, 10.21, 11.33, 11.08, 11.26, 12.34, 14.98, 13.24, 13.50,
6.23, 2, 3.92, 1.54, 5.78, 3, 4,0,1)
z<-cbind(x,y)
scatterplot(y~x, reg.line=FALSE, smooth=FALSE, labels=FALSE, boxplots='xy', span=0.5, xlab="x",
ylab="y", cex=2, cex.axis=2, cex.lab=2, pch=13,data=z)
cov.rob(z, method = "mve", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnej elipsoidy objętości#
cov.rob(z, method = "mcd", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnego wyznacznika macierzy kowariancji#
cov.rob(z, method = "classical", nsamp = "best")
#liczymy zwykłą macierz kowariancji#

42
Kosiorowski / Wstęp do Statystyki Odpornej… / 43

points(2.86, 7.45, cex=2, pch=15,col="blue")


points(2.88, 7.43, cex=2, pch=16,col="green")
points(4.45, 6.64, cex=2, pch=17,col="brown")
#dajemy czytelnikowi pod rozwagę klasę odpornych estymatorów macierzy kowariancji,
które można policzyć za pomocą pakietu {robustbase}#
library(robustbase)
cO1 <- covOGK(z, sigmamu = scaleTau2)
cO2 <- covOGK(z, sigmamu = s_Qn)
cO3 <- covOGK(z, sigmamu = s_Sn)
cO4 <- covOGK(z, sigmamu = s_mad)
cO5 <- covOGK(z, sigmamu = s_IQR)
CO1$cov
CO2$cov
CO3$cov
C04$cov
C05
mcd<-covMcd(z) #zalecamy czytelnikowi uważne przestudiowanie wykresów diagnostycznych

dostępnych w pakiecie {robustbase}#


plot(mcd, which = "distance", classic = TRUE)# 2 plots
plot(mcd, which = "dd")
plot(mcd, which = "tolEllipsePlot", classic = TRUE)
op <- par(mfrow = c(2,3))
plot(mcd) ## -> which = 3 (5 plots)
par(op)
Rys. 3.3: Wykresy diagnostyczne Rys. 3.4: Elipsoidy koncentracji.

43
Kosiorowski / Wstęp do Statystyki Odpornej… / 44

2.2 Regresja odporna

Przypuśćmy, że w oparciu o dane Zn = {(yi , xi ),...,(yn , xn )} , gdzie yi Î  oznaczają

odpowiedzi, xi Î  p oznaczają zmienne objaśniające zamierzamy przewidywać Y za

pomocą Xt  . Oznaczmy reszty ri () = yi - xti  . Powszechnie wiadomo, że estymator

metody najmniejszych kwadratów wektora parametrów  będąc uogólnieniem średniej


arytmetycznej na zagadnienie regresji jest bardzo wrażliwy na obserwacje odstające.
Pierwszy krok w kierunku estymatora odpornego wykonał Edgeworth (1887),
poprawiając propozycję Boscovicha. Jego kryterium najmniejszych wartości absolutnych L1

jest postaci
n
(3.13) min å ri .
b
i =1

Kryterium (3.13) uogólnia jednowymiarową medianę, regresja wyznaczona jest


jednoznacznie. Jednak o ile BP zwykłej mediany wynosi 50%, można pokazać, że regresja
L1 ma BP=0% jak metoda najmniejszych kwadratów (NK). Chociaż regresja L1 zabezpiecza

nas przed obserwacjami odstającymi yi , nie radzi sobie z tzw. punktami drabinowymi (ang.
leverage points) tzn. odstającymi wartościami zmiennych objaśniających.
Za pierwszą próbę wprowadzenia odpornego estymatora regresji uznaje się
zaproponowanie M estymatora regresji polegające na uogólnienieniu estymatora
największej wiarygodności uzyskiwanego poprzez minimalizację funkcji celu
n
(3.14) min å r(ri ()) ,

i =1

gdzie r(r ) = r(-r ) i r jest monotonicznie malejącą funkcją dla r ³ 0 .

Kryterium takie nie jest niezmiennicze względem powiększenia rozrzutu błędu. Często
zatem szacujemy położenie i rozrzut łącznie:
n
(3.15) å y(ri / sˆ)xi = 0,
i =1

44
Kosiorowski / Wstęp do Statystyki Odpornej… / 45

n
(3.16) å c(ri / sˆ) = 0 ,
i =1

gdzie y jest pochodną r i c jest funkcją symetryczną.


Huber proponuje przykładowo y(u ) = min(k, max(u, -k )) , k »~ 1.5 . Jego

estymator jest efektywniejszy niż estymator L1 w przypadku prostej regresji z niezależnymi

błędami o identycznym rozkładzie normalnym. Punkt załamania jego propozycji wynosi zero
z powodu punktów drabinowych.
M- estymatory starano się uodpornić na punkty drabinowe proponując uogólnione M-
estymatory (GM). Aby zmniejszyć wpływ takich punktów stosuje się pewną funkcję
wagową. Przykładowo Mallows (1975) proponuje następujący GM estymator (minimalizację
poniższej funkcji kryterium)
n
(3.17) å w(xi )y(ri / sˆ)xi = 0.
i =1

Punkt załamania estymatorów GM wynosi w przybliżeniu 1 / (p + 1) , gdzie p to

wymiar xi

Na przełomie lat 70-tych i 80-tych ubiegłego wieku postawiono pytanie o to czy w ogóle
możliwy jest estymator parametrów regresji o najwyższym z możliwych punktów załamania.
Jako pierwszy odpowiedzi twierdzącej udzielił Siegel (1982). Estymator zaproponowany
przez Siegla posiadał punkt załamania równy 50% jednak nie był regresyjnie ekwiwariantny8
oraz odznaczał się wielką złożonością obliczeniową.
Zadano wówczas pytanie czy możliwy jest regresyjnie ekwiwariantny estymator o
wysokim BP. Pozytywnej odpowiedzi udzielili Rousseeuw (1984) i Hampel (1984).
Rousseeuw zaproponował estymator najmniejszej mediany kwadratów (LMS) jako
rozwiązanie zagadnienia minimalizacji

(3.18) ˆ = min Med { r ()2 : i = 1,..., n } ,


 i

Alternatywnie

8
Przypomnijmy, że estymator wektora parametrów regresji jest afinicznie ekwiwariantny jeżeli z tego, że
(
wyjściowe dane przekształcimy za pomocą (Yi , Xi )  aYi , At Xi ) dla skalara a Î  i nieosobliwej
macierzy A wynika, że wektor parametrów przekształca się bˆ  aA-1
ˆ.

45
Kosiorowski / Wstęp do Statystyki Odpornej… / 46

(3.19) min MAD { ri ()} .


Rousseeuw (1984) pokazał, że estymator ten ma punkt załamania 50%, jest to estymator
zgodny. Świadomość istnienia takich estymatorów skłoniła statystyków do badań szybkości
3
ich zbieżności. Okazało się wówczas, że estymator LMS, nie jest n a jedynie n zgodny

to znaczy ˆ-  ¥,
n  3 ˆ -  = O (1) , ponadto estymator nie jest lokalnie
n 
p p

stabilny. Fakty te stanowiły istotne ograniczenie stosowalności estymatora LMS – jego


zastosowanie praktyczne wymagały wielkich prób.
Zauważy, że w przypadku regresji odpornej dobroć dopasowania można tu mierzyć za
pomocą zamiennika dla (nieodpornego) współczynnika determinacji:
æ med ri ö÷
(3.20) R2 = 1 - ççç ÷÷ .
çè MAD(yi ) ÷ø

Rozpoczęto poszukiwania lepszych estymatorów to znaczy zarówno odpornych jak i


efektywnych oraz mających zastosowanie w przypadku umiarkowanie licznych prób. W
1984 roku Rousseeuw i Yohai (1984) zaproponowali klasę tzw. S estymatorów regresji
wprowadzając kryterium min S (ri ()) , gdzie S oznacza miarę rozrzutu (dla S = MAD

otrzymujemy estymator LMS, dla S = SD otrzymujemy estymator NK). Autorzy jako


miarę rozrzutu zaproponowali ograniczony monotoniczny M estymator rozrzutu, dzięki

czemu ich estymator regresji okazał się n zgodny i asymptotycznie normalny.


Rousseeuw zaproponował także estymator najmniejszych przyciętych kwadratów
(ang. least trimmed squares) (LTS) jako minimum
h
(3.21) min å (r 2 )i :n ,
ˆ
b
i =1

gdzie hn = [n / 2] + [(p + 1) / 2] oraz [a ] oznacza część całkowitą a,

(r 2 )1:n £  £ (r 2 )i :n to uporządkowane kwadraty reszt regresji.

Szybkość zbieżności z próby estymatora LTS wynosi n , jego punkt załamania BP jest
bliski 50%. Zauważmy, że zarówno LMS jak i LTS estymator konstruuje się stosując
odporną miarę rozrzutu reszt regresji. Zasadnicza cecha metod LMS i LTS to dopasowanie
regresji do WIĘKSZOŚCI danych.

46
Kosiorowski / Wstęp do Statystyki Odpornej… / 47

Rys. 3.4: Odporne i nieodporne Rys. 3.5: Odporne i nieodporne


dopasowania funkcji regresji do danych. dopasowania funkcji regresji do danych.

Rys. 3.6: Odstawanie co do zmiennej Rys. 3.7: Odstawanie co do zmiennej


objaśnianej. objaśniającej (ang. leverage point)

Przykład R

library (robustbase)
data(starsCYG)
plot(starsCYG,cex=2)
WYN1<-lm(starsCYG[,1]~starsCYG[,2]) #NK#
summary(WYN1)
abline(WYN1,lwd=2,col="red")

47
Kosiorowski / Wstęp do Statystyki Odpornej… / 48

WYN2<-rlm(starsCYG [,1]~ starsCYG [,2]) #M-estymator#


summary(WYN2)
abline(WYN2,lwd=2,col="blue")
deviance(WYN2)
WYN3<-rlm(starsCYG [,1]~ starsCYG [,2], method="MM") #MM-estymator#
summary(WYN3)
abline(WYN3,lwd=2,col="brown")

Rys. 3.8: Dobra jednostka odstająca. Rys. 3.9: Typowy przykład.

rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.huber) #wybór funkcji psi#


rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.hampel)
rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.bisquare)
WYKORZYSTAMY PAKIET MASS
###LMS###
WYN4<-lqs(starsCYG [,1]~ starsCYG [,2],method="lms") #mediana kwadratów#

WYN5<-lqs(starsCYG [,1]~ starsCYG [,2],method="lts") #przycięte kwadraty#


WYN4
WYN5
abline(WYN4,lwd=2,col="green")
abline(WYN5,lwd=2,col="pink")
{pakiet robust base} #LTS#
WYN6<-ltsReg(starsCYG [,1]~ starsCYG [,2])
WYN6
data(starsCYG, package = "robustbase")
plot(starsCYG,cex=2)

48
Kosiorowski / Wstęp do Statystyki Odpornej… / 49

lmST <- lm(log.light ~ log.Te, data = starsCYG)


RlmST <- lmrob(log.light ~ log.Te, data = starsCYG) ##MM-estymator##
abline(lmST, col = "red",lwd=2)
abline(RlmST, col = "blue",lwd=2)
summary(RlmST)
vcov(RlmST)
stopifnot(all.equal(fitted(RlmST),predict(RlmST, newdata = starsCYG),tol = 1e-14))

3.3 Odporność w badaniu szeregów czasowych.

Pojęcie jednostki odstającej w przypadku szeregów czasowych jest szczególnie złożone


m. in. za sprawą zależności obserwacji od czasu, za sprawą „pamięci” procesu generującego
szereg czasowy. Obserwacje odstające w przypadku szeregów czasowych traktowane są jako
realizacja pewnego procesu odstawania. Warto podkreślić, że w przypadku modelowania
szeregów czasowych pojedyncza jednostka odstająca może wielokrotnie wpływać na
oszacowanie parametrów modelu generującego szereg. Dla przykładu izolowana jednostka
odstająca pojawia sie dwukrotnie w szeregu pierwszych różnic (patrz rys. (3.9) i rys. (3.10)).
W odpornej analizie szeregów czasowych najczęściej wyróżnia się: izolowane jednostki
odstające, ścieżki jednostek odstających (ang. patchy outliers – patrz rys. 3.11), lokalne
przesunięcia średniej (ang. level shifts in mean value – patrz rys. 3.12). Jednostki odstające
w przypadku szeregów czasowych mogą negatywnie wpływać na oszacowania parametrów
modeli szeregów czasowych, przy czym postać wpływu zależy od typu odstawania.
Szczegółowe wprowadzenie w tematykę znaleźć można m. in. w Maronna i in (2006).
Powszechnie wykorzystywane narzędzia analizy szeregów czasowych9 na ogół nie są
odporne na występowanie obserwacji odstających. Dla przykładu przywołajmy często
wykorzystywaną autokorelację rzędu k
Cov(yt +k , yt ) C (k )
(3.22) r(k ) = = ,
2 C (0)
D (yt )

9
Mamy tutaj na uwadze korelogram sporządzony z wykorzystaniem współczynnika korelacji cząstkowej, miary
dobroci dopasowania modeli do danych empirycznych .

49
Kosiorowski / Wstęp do Statystyki Odpornej… / 50

gdzie Cov oznacza kowariancję.


Rozważmy dla ilustracji zagadnienie oszacowania autokowariancji r(1) w oparciu o

próbę y1, y2 ,..., yT obserwowanych wartości szeregu czasowego, załóżmy dla prostoty, że

m = Ey = 0 . W takiej sytuacji naturalny estymator autokowariancji rzędu jeden ma postać


T -1

(3.23) rˆ(1) =
åt =1 yt yt +1 .
T
åt =1 yt2
Rys. 3.9: Izolowana jednostka odstająca. Rys. 3.10: Izolowana jednostka
odstająca pojawia się dwukrotnie w
szeregu pierwszych różnic.

Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne

Rys. 3.11: Ścieżka jednostek Rys. 3.12: Izolowana jednostka odstająca


odstających oraz lokalne przesunięcia średniej.

Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne

Przypuśćmy, że w pewnym momencie t0 , zastępujemy prawdziwą wartość szeregu przez

dowolną (niekorzystną) wartość A , gdzie 2 £ t0 £ T - 1 . W takim przypadku estymator


przyjmie postać:

50
Kosiorowski / Wstęp do Statystyki Odpornej… / 51

T -1

(3.24) rˆ(1) =
åt =1 ytyt +1I (t Ï {t0 - 1, t0 }) + yt -1A + Ayt +1 .
0 0
T T
åt =1 yt2I (t ¹ t0 ) + A2 åt =1 yt2(t ¹ t0 ) + A2
Zauważmy A pojawia się w kwadracie w mianowniku i liniowo w liczniku zatem rˆ(1)

zmierza do zera, gdy A  ¥ dla wszystkich innych wartości yt ustalonych dla t ¹ t0 .

Wartość odstająca yt = A powoduje obciążenie rˆ(1) w kierunku zera.


0

Z punktu widzenia modelu generującego dane na ogół wyróżnia się trzy typy
jednostek odstających: proces dodający jednostki odstające (ang. additive outliers) (AO),
proces zastępujący jednostkami odstającymi (ang. replacement outliers) (RO) oraz proces
innowacji zależny od modelu generującego szereg (ang. innovation outliers) (IO).
Modelowanie odstawania w przypadku szeregów czasowych jest zagadnieniem stosunkowo
słabo upowszechnionym w literaturze polskojęzycznej. Przywołajmy, zatem za Maronna i in.
(2006) trzy podstawowe modele odstawania w przypadku szeregów czasowych.
Niech xt oznacza zasadniczy w danych rozważaniach proces stacjonarny w szerszym

sensie (nie zmienia się jego wartość oczekiwana i wariancja, kowariancja zależy jedynie od
opóźnienia), niech vt oznacza stacjonarny proces odstawania. Niech P (vt = 0) = 1 - e , co

oznacza, że „niezerowa” część procesu vt pojawia się z prawdopodobieństwem e .

W modelu AO, zamiast xt obserwujemy yt = xt + vt przy czym zakłada się, że

procesy xt i vt są wzajemnie niezależne. Dla przykładu niech xt ~ N (0, sx2 ) ,

vt ~ (1 - e)d0 + eN (mv , sv2 ) , oraz załóżmy, że sv2 >> sx2 . AO można określić, jako proces

błędów grubych, obserwacje odstające na ogół są izolowane.

Rys. 3.13: Realizacja procesu AR(2) + AO Rys. 3.14: Realizacja procesu AR(2) + RO

Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne 51
Kosiorowski / Wstęp do Statystyki Odpornej… / 52

W przypadku procesu zastępującego jednostkami odstającymi (RO) na obserwacje


patrzymy z punktu widzenia modelu yt ~ (1 - zt )xt + zt wt , gdzie zt jest procesem zero-

jedynkowym, wt jest procesem zastępowania obserwacji, niekoniecznie niezależnym od

oryginalnego procesu xt .

Trzecim z przywoływanych przez nas typem jednostek odstających są jednostki odstające


dotyczące innowacji (błędów losowych, zaburzeń) typowych dla ustalonego typu procesu
stochastycznego generującego szereg czasowy. Modele IO pojawiają się w obrębie
specjalnych procesów jak AR, ARMA, ARIMA, ARCH, GARCH, CHARMA itd., jednostka
odstająca typu IO wpływa nie tylko na obserwację w danej ustalonej chwili, ale także na
obserwacje po niej następujące. W dalszej części niniejszego rozdziału rozważamy odporną
estymację procesów ARMA i GARCH. Wspomnijmy zatem dla przykładu, że w przypadku
stacjonarnego modelu autoregresyjnego pierwszego rzędu AR(1) danego przez

xt = fxt -1 + ut , gdzie proces innowacji ut oznacza niezależne zmienne o tym samym

rozkładzie o przeciętnej zero i skończonej wariancji oraz f < 1 obserwacja odstająca typu

IO dotyczy procesu ut . Jednostka odstająca typu IO działa niczym impuls – jej wpływ na
proces utrzymuje się dłużej niż w przypadku AO i RO, długość trwania wpływu zależy od
parametrów procesu (tu do f ). Warto zaznaczyć, że występowanie IO może poprawić
precyzje oszacowania f .
Autoregresyjne procesy średnich ruchomych ARMA(p, q ) stanowią szeroką klasę
elastycznych modeli szeregów czasowych powszechnie wykorzystywanych w ekonomii
(patrz np. Maddala (2006)). Otóż szereg czasowy {xt ; t = 0, 1, 2,...} generowany jest
przez model ARMA(p,q) jeżeli jest stacjonarny oraz
(3.25) xt = a + f1xt -1 + ... + fp xt -p + ut + q1ut -1 + ... + qq ut -q ,

gdzie fp ¹ 0 , qq ¹ 0 , su2 > 0 , parametry p i q nazywane są rzędami procesów

odpowiednio autoregresyjnego i średnich ruchomych, a = m(1 - f1 - ... - fp ) , gdzie m

oznacza przeciętną xt , {wt ; t = 0, 1, 2,...} jest (zazwyczaj) gaussowskim białym szumem

(procesem zaburzeń, reszt, innowacji).

52
Kosiorowski / Wstęp do Statystyki Odpornej… / 53

Wielkości f1,..., fp , q1,..., qq , m są parametrami do oszacowania na podstawie danych.

W modelu zakłada się ponadto, że innowacje ut są niezależne od przeszłych wartości

procesu xt .
Statystyczne własności procesu ARMA obejmujące warunki jego stacjonarności znaleźć
można w szeregu publikacji z zakresu ekonometrii np. w Maddala (2006) oraz z zakresu
analizy szeregów czasowych np. w Box i in. (1994), Tsay (2010).
Istnieją dwa główne podejścia do estymacji modelu ARMA w przypadku występowania
obserwacji odstających. W pierwszym podejściu należy rozpocząć estymację modelu metodą
największej wiarygodności (NW), następnie zaleca się analizę reszt za pomocą pewnej
procedury diagnostycznej w celu wykrycia obserwacji odstających. Niestety procedury
diagnostyczne nie radzą sobie z problemem maskowania tzn. z sytuacją, gdy wobec
współistnienia kilku obserwacji odstających o podobnym wpływie niektóre z nich nie zostają
wykryte.
W przypadku drugiego podejścia wykorzystuje się odporne estymatory, na które
jednostki odstające mają niewielki wpływ. Dla przykładu można wykorzystać estymator
najmniejszej mediany kwadratów (LMS) bądź najmniejszych przyciętych kwadratów (LTS).
Zwróćmy jednak uwagę na fakt, że w przypadku modelu ARMA(p, 0) jednostka odstająca
występująca w chwili t może wpłynąć na obserwacje odpowiadające okresowi t ¢ ,
t £ t ¢ £ t + p ; w przypadku modelu ARMA(p, q ) modelu z q > 0 jednostka odstająca
może zaburzyć wartości obserwacji odpowiadające wszystkim okresom t ¢ ³ t . Wiele metod
estymacji opiera się o reszty predykcji – kwadraty różnic pomiędzy wartościami
obserwowanymi a generowanymi przez model. Obserwacja odstająca w chwili t wpływa na
reszty predykcji w kolejnych chwilach. Z tego powodu estymatory opierające się o zwykłe
reszty (M- bądź S- estymatory) nie są zbyt odporne. Dla przykładu BP M- estymatora nie jest
większy niż 0.5 / (p + 1) . Zaznaczmy, że znane są w literaturze przykłady rozmaitych
filtrowanych M- estymatorów. Estymatory takie są jednakże asymptotycznie obciążone, nie
istnieje także asymptotyczna teoria ich rozkładów, zatem nie są dostępne dla nich procedury
wnioskowania, przedziały ufności itd.
W celu sprawdzenia ilustracji przedstawionych powyżej pojęć wygenerowano 100 razy
po pięć trajektorii złożonych z 500 obserwacji procesu ARMA(1,1) z f1 = 0.9 , q1 = -0.5 ,
s = 1 każda. W przypadku dwóch z pięciu generowanych trajektorii występowało 20%
53
Kosiorowski / Wstęp do Statystyki Odpornej… / 54

jednostek odstających typu AO. Rysunek 3.15 przedstawia przykładowe 5 trajektorii bez
jednostek odstających natomiast rysunek 3.16 przedstawia 5 przykładowych trajektorii gdzie
2 trajektorie zawierają 20 procent jednostek odstających typu AO.
W tabeli 2 pokazano różnice oszacowań parametrów modelu w przypadku każdej z
przykładowych pięciu trajektorii. Nasuwa się zatem prosta myśl, aby w opisanej sytuacji
najpierw wybrać trajektorię będącą medianą a następnie zastosować klasyczne estymatory
procesu ARMA . Jak można zdefiniować taką medianę?

Rys. 3.15: Przykładowe trajektorie procesu Rys. 3.16: Przykładowe trajektorie procesu
ARMA(1,1) bez jednostek odstających. ARMA(1,1) z 20% jednostek odstających
typu AO w dwóch trajektoriach.

Źródło: Obliczenia własne, dane Money.pl Źródło: Obliczenia własne, dane Money.pl

Tab. 2: Oszacowania parametrów modelu ARMA(1,1) dla pięciu trajektorii generowanych


z modelu ARMA(1,1) z f1 = 0.9 , q1 = -0.5 , s = 1 . W przypadku dwóch trajektorii
występuje 20% ostających typu AO.

trajektoria  AR  MA Sigma^2 AIC GL 


X1_odst 0.998(0.003) ‐0.98(0.015) 38.41 3250.53 0.1684 
X2_odst 0.989(0.016) ‐0.95(0.044) 30.97 3142.06 0.1820 
X3  0.889 (0.033) ‐0.56 (0.061) 0.9687 1409.6 0.2208 
X4  0.910 (0.025) ‐0.52(0.054) 0.9391 1394.32 0.2162 
X5  0.924 (0.022) ‐0.55(0.047) 0.9252 1386.95 0.2126 

Źródło: Obliczenia własne, dane Money.pl

54
Kosiorowski / Wstęp do Statystyki Odpornej… / 55

Można wskazać wiele ekonomicznych szeregów czasowych, które wykazują okresy


niezwykłej zmienności, po których następuje względny spokój. W ostatnich latach uznaje się,
że nie jest zasadnym modelować te szeregi przy założeniu, że wariancja jest stała w czasie.
Powszechnie stosuje się modele warunkowe zamiast tworzyć prognozy długoterminowe.
Zauważmy, że warunkowy błąd prognozy jest na ogół mniejszy niż błąd bezwarunkowy.
Podejście takie zostało zapoczątkowane artykułem Engle’a10 (1982), który wprowadził
model autoregresyjny warunkowej heteroskedastyczności (ARCH). Modele ARCH były
pierwszą dużą rodziną heteroskedastycznych modeli szeregów czasowych. Z czasem zaczęto
dostrzegać pewne niedostatki procesów ARCH. W związku z tym faktem zaproponowano
szereg uogólnień11 procesu ARCH. Najbardziej znane uogólnienie nazywane GARCH
zostało wprowadzone przez Bollersleva (1986).
Zaznaczmy, że jeżeli x t jest wartością akcji w chwili t , wtedy przyrost, zwrot12 bądź

zysk względny yt na akcji w chwili t definiowany jest yt = (xt - xt -1 ) xt -1 , z definicji

wynika, że xt = (1 + yt )xt -1 . Modele ARCH i GARCH a także szereg innych należących do

tzw. klasy procesów zmienności stochastycznej13 (SV) wykorzystuje się do modelowania


zachowania szeregów yt bądź logarytmów yt .
Pokażmy zaledwie kilka szczególnych postaci modelu GARCH. Czytelnika
zainteresowanego szerszym tłem teoretycznym odsyłamy np. do Tsay (2010). Rozważmy
mianowicie
(3.26) yt = st e t

(3.27) st2 = a0 + a1yt2-1

(3.28) st2 = a0 + a1yt2-1 + ... + am yt2-m

(3.29) st2 = a0 + a1yt2-1 + b1st2-1


m r
(3.30) st2 = a0 + å aj yt2- j + å b j st2- j
j =1 j =1

10
R. Engle jest laureatem nagrody Nobla z ekonomii.
11
Przegląd uogólnień procesu ARCH, alternatyw dla procesu GARCH znaleźć można np. w Tsay (2010).
12
Istnieją inne alternatywne definicje zwrotu, szerzej traktują o tym zagadnieniu podręczniki ekonometrii
finansowej.
13
W przypadku procesu GARCH ewolucją warunkowej zmienności zwrotu funkcja deterministyczna, w
przypadku procesów SV ewolucją rządzi równanie stochastyczne. Procesy SV są bardziej elastyczne, jednak
uznaje się, że ich estymacja jest bardziej złożona niż estymacja procesów GARCH.

55
Kosiorowski / Wstęp do Statystyki Odpornej… / 56

gdzie ai ³ 0 , 1 £ i £ m , bi ³ 0 , 1 £ i £ r oraz a0 > 0 , et is (na ogół)


m r
standardowym gaussowskim białym szumem. Zakładamy å i =1 ai + å i =1 bi < 1 dla

ścisłej stacjonarności procesu.


Równania 3.26 i 3.27 definiują łącznie model ARCH(1), równania 3.26 i 3.28 model
ARCH(m), równania 3.26 i 3.29 model GARCH(1,1), równania 3.26 i 3.30 model
GARCH(m,r).
W praktyce modele GARCH(m,r) wykorzystywane są przez ekonomistów w celu
uzyskania pewnego rodzaju wglądu w związek pomiędzy przyszłą zmiennością względnego
zysku wycenianej inwestycji oraz obserwowaną zmiennością i obserwowanymi poziomami
zysków (danymi historycznymi). Wgląd taki uzyskuje się poprzez zastosowanie prostej
predykcji
m r
(3.31) sˆt2+1 = aˆ0 + å aˆj yt2+1- j + å bˆj sˆt2+1- j .
j =1 j =1

W takim kontekście ekonomista stara się odkryć generalną tendencję ujawnianą przez
dane historyczne.
Rysunki 3.17 i 3.18 przedstawiają przykładowe pięć wygenerowanych trajektorii
odpowiednio w sytuacji, gdy te nie zawierają jednostek odstających i gdy dwie z nich
zawierają 10% jednostek odstających typu AO.

Rys. 3.17: Pięć przykładowych trajektorii Rys. 3.18: Pięć przykładowych trajektorii
procesu GARCH(1,1) bez jednostek procesu w sytuacji, gdy dwie z pięciu
odstających. zawierają 10% odstających typu AO.

Źródło: Obliczenia własne. Źródło: Obliczenia własne.

56
Kosiorowski / Wstęp do Statystyki Odpornej… / 57

Przykład R #wprowadzenie#

x<-rnorm(120,0,1)
y<-seq(0,12,by=0.1)
x.ts<-ts(x,start=c(2010,10),frequency=12) #tworzymy obiekt szereg czasowy#
plot(x.ts)
points(x.ts,pch="*")
grid()
y<-y[1:120]
xy.ts<-x+y #dodajemy trend#
xy.ts<-ts(xy.ts,start=c(2010,10),frequency=12)
plot(xy.ts)
xydif.ts<-diff(xy.ts,lag=1,differences=1) #różnicowanie szeregu#
plot(xydif.ts)
srednia6<-filter(xy.ts,sides=2,rep(1,6)/6) #średnia ruchoma 6-elementowa#
srednia12<-filter(xy.ts,sides=2,rep(1,12)/12)
plot(xy.ts)
lines(srednia6,col="blue",lty="dashed",lwd=2)
z<-sin(y)
w<-x+y+3*z
w.ts<-ts(w,start=c(2010,10),frequency=12)
plot(w.ts)
dek<-decompose(w.ts,type="additive") #dekompozycja szeregu#
lines(dek$trend,col="red")
lines(dek$seasonal,col="blue")

Przykład R #symulacja i estymacja modeli ARMA#

#generujemy 1000 obserwacji z modelu MA(2) o parametrach tet1=0.3, tet2=-0.6, SD=0.2#


ma2<-arima.sim(1000,model=list(order=c(0,0,2),ma=c(0.3,-0.6),sd=0.2))
plot(ma2)
ar3<-arima.sim(1000,model=list(order=c(3,0,0),ar=c(0.3,-0.3,0.8),sd=0.2))
plot(ar3)
dop1<-arima(ar3,order=c(3,0,0)) #szacujemy model#
dop2<-arima(ma2,order=c(1,0,1))
dop1
dop2

57
Kosiorowski / Wstęp do Statystyki Odpornej… / 58

Przykład R #analiza szeregów klasy GARCH#

library(fBasic)
library(fGarch)

# AR(1)#
spec1 = garchSpec(model = list(ar = 0.5, alpha = 0, beta = 0))
ar1<-garchSim(spec1, n = 1000)
seriesPlot(ar1,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(ar1,pch="*")

Rys. 3.19: Ilustracja działania Rys. 3.20: Ilustracja działania


symulatora procesu GARCH. symulatora procesu GARCH.

#GACH(2,1)#
spec2 = garchSpec(model = list(alpha = c(0.2, 0.4), beta = 0.3))
garch21<-garchSim(spec2, n = 1000)
seriesPlot(garch21,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(garch21,pch="*")

ESTYMACJA<-garchFit(~garch(2,1),data=garch21, cond.dist = c("norm", "snorm", "ged", "sged",


"std", "sstd","snig", "QMLE"), include.mean = TRUE)

ESTYMACJA1<-garchFit(~garch(1,2),data=garch21, cond.dist = c("norm", "snorm", "ged", "sged",


"std", "sstd","snig", "QMLE"), include.mean = TRUE)

RESZTY= residuals(ESTYMACJA)

58
Kosiorowski / Wstęp do Statystyki Odpornej… / 59

RES<-as.timeSeries(RESZTY)
seriesPlot(RES,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(RES,pch="*")
acf(RESZTY) #autokowariancja#

pacf(RESZTY) #autokowariancja cząstkowa#


densityPlot(RES,title=FALSE,xlab="czas",ylab="wartość",labels=TRUE,lwd=2,cex.axis=1.4)
qqnormPlot(RES, labels=FALSE,lwd=2,ylab="uporządkowane wartości",xlab="kwanyle rozkładu
normalnego",title=FALSE)

Rys. 3.21: Estymacja jądrowa gęstości Rys. 3.22: Wykres kwanty – kwantyl
reszt oszacowanego modelu. reszt oszacowanego modelu.

predict(ESTYMACJA, n.ahead = 10)


predict(ESTYMACJA, n.ahead = 10,mse="uncond", plot=TRUE,conf=.9,nx=100)
predict(ESTYMACJA1, n.ahead = 10, plot=TRUE, crit_val=2)

Rys. 3.23: Przewidywanie za pomocą Rys. 3.24: Przewidywanie za pomocą


oszacowanego modelu. oszacowanego modelu.

59
Kosiorowski / Wstęp do Statystyki Odpornej… / 60

Literatura

Biecek, P. (2009). Przewodnik po Pakiecie R. Wrocław: Oficyna Wydawnicza GIS.


Davies, P. L. (2002). Statistical Procedures and Robust Statistics,
http://wwwstat.mathematik.uni-essen.de/~davies/statproc.ps.gz
Edgeworth, F. Y. (1888) On a New Method of Reducing Observations Relating to Several
Quantities. Philosophical Magazine 25, strony 184 – 191.
Engle, F. R. (1982). Autoregressive Conditionall Heteroskedasticity with Estimates of the
Variance of the United Kingdom Inflation. Econometrica (50).
Gatnar, E., Walesiak M. (2009) Statystyczna Analiza Danych z Wykorzystaniem Programu
R, PWN, Warszawa
Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust Statistics:
The approach based on influence functions. Nowy York: John Wiley & Sons.
Huber, P., Ronchettii, E. M. (2009). Robust Statistics. John Wiley & Sons. New York
Jureckova, J., Picek, J. (2006). Robust Statistical Methods with R. Boca Raton: Chapman &
Hall/CRC.
Kosiorowski, D. (2008c). Wstęp do Wielowymiarowej Analizy Statystycznej - Kurs z
Wykorzystaniem Środowiska R. Kraków: Wydawnictwo UEK w Krakowie.
Krzyśko, M. (2000). Wykłady z Teorii Prawdopodobieństwa. WNT: Warszawa.
Krzyśko, M. (2004). Statystyka Matematyczna. Poznań: Wydawnictwo Uniwersytetu im.
Adama Mickiewicza w Poznaniu.
Maddala, S. G. (2006). Ekonometria. Warszawa: PWN.
Maronna, R. A., Martin, R. D., Yohai, V. J. (2006). Robust Statistics - Theory and Methods.
Chichester: John Wiley & Sons Ltd.
Rousseeuw, P. J., Leroy, A. M. (1987). Robust Regression and Outlier Detection. Wiley,
New York
Tsay R. S. (2010), Analysis of Financial Time Series, Wiley – Interscience, Hoboken, New -
Yersey

60

You might also like