60str SO

Autor: Daniel Kosiorowski
Tel:
E-mail: daniel.kosiorowski@uek.krakow.pl
WSTĘP DO STATYSTYKI ODPORNEJ
KURS Z WYKORZYSTANIEM ŚRODOWISKA R
Daniel Kosiorowski
Kosiorowski / Wstęp do Statystyki Odpornej… / 2
Wprowadzenie 3
1. Aspekty odporności procedury statystycznej 5
1.1 Bardzo krótkie wprowadzenie do R 5
1.2 Metody badania odporności procedury statystycznej 11
1.3 Pomiar odporności procedury statystycznej 14
1.4 Odporność w ekonomii 18
2. Wybrane zagadnienia statystyki jednowymiarowej 24
2.1 Metody wykrywania jednostek odstających 24
2.2 Odporne miary położenia i rozrzutu zmiennej losowej 28
3. Wybrane zagadnienia statystyki wielowymiarowej 37
3.1 Odporna miara położenia i rozrzutu wektora losowego 37
2.2 Regresja odporna 44
3.3 Odporność w badaniu szeregów czasowych. 49
Literatura 600
2
WPROWADZENIE
W naukach ekonomicznych za model rozważanego zjawiska przyjmuje się jedno bądź

wielowymiarową zmienną losową, rodzinę takich zmiennych indeksowaną np. czasem. Na
ogół rozkład prawdopodobieństwa generujący dane jest znany jedynie częściowo.
Zasadniczym celem zastosowania w schemacie poznawczym procedur statystycznych jest
uzyskanie wiedzy o rozmiarach niepewności rządzącej zjawiskiem. Wiedza o
charakterystykach mechanizmu losowego rządzącego zjawiskiem przyczynia się do
podejmowania właściwych decyzji gospodarczych.
Każdą procedurę statystyczną konstruuje się przy założeniu spełnienia szeregu warunków
formalizujących wiedzę statystyka o mechanizmie losowym generującym dane. Przykładowo
zakłada się, że dane są generowane przez rozkład normalny, elementy próby pobierane są
losowo i niezależnie od siebie itd.
Niestety bardzo często w praktyce mamy do czynienia z odstępstwem od przyjmowanych
założeń. Przykładowo próba zawiera kilka obserwacji w znaczący sposób odbiegających od
głównej części danych z założenia wygenerowanych przez rozkład normalny. W takiej
sytuacji, jakość stosowanej procedury statystycznej może się istotnie obniżyć. Mamy tu na
uwadze utratę efektywności estymatora, wzrost jego obciążenia, wysoki poziom błędu
drugiego rodzaju, odbiegający od zakładanego poziom błędu pierwszego rodzaju itd.
Podejście odporne w modelowaniu statystycznym i analizie danych ma na celu
zaproponowanie procedur statystycznych dających wiarygodne oszacowania, stanowiące
użyteczne testy nie tylko w sytuacji, gdy dane generowane są przez zakładany przez
procedurę rozkład, ale także w sytuacji, gdy rozkład generujący dane nieco odbiega od
zakładanego rozkładu. Procedura powinna posiadać dobre własności zarówno, gdy w próbie
nie ma jednostek odbiegających od głównej części chmury danych (tzw. jednostek
odstających), ale także w sytuacji, gdy takie jednostki występują.
Odporność procedury statystycznej ma wiele odcieni: stosunkowo najlepiej poznana jest
odporność na odstępstwo od zakładanego rozkładu prawdopodobieństwa, w dalszym ciągu
istnieje szereg otwartych kwestii związanych z badaniem odporności na odstępstwo od
niezależności obserwacji, losowości próby, z badaniem odporności w przypadkach
brakujących danych itd. Metodologie oraz centralne zagadnienia studiów nad odpornością w
przypadkach poszczególnych działów statystyki jak np. statystyka wielowymiarowa, analiza
regresji, badanie szeregów czasowych czy podejście bayesowskie często się różną.
3
Często myli się odporność procedury statystycznej z jej nieparametrycznością. Otóż

procedurę określa się mianem nieparametrycznej, jeżeli można ją wykorzystać w szerokiej
(niesparametryzowanej) rodzinie populacji (rozkładów generujących dane). Zauważmy, że
zarówno średnia z próby jak i mediana są nieparametrycznymi estymatorami wartości
oczekiwanej populacji. Średnia nie jest odpornym estymatorem natomiast jest nim mediana.
Należy zauważyć, że termin odporny (ang. robust - niewrażliwy na niewielkie odstępstwa
od założeń) został wprowadzony do statystyki przez bayesistę George Boxa. Box odkrył, że
test równości wielu wariancji przy odstępstwie od założenia normalności populacji ma
istotnie wyższy poziom błędu pierwszego rodzaju niż w przypadku spełnienia założenia
normalności populacji. Oczywiście poszczególne zagadnienia związane z odpornością znane
były wiele lat wcześniej. Już w osiemnastym wieku fizycy i astronomowie podnosili brak
odporności średniej i wariancji na jednostki odstające. W roku 1757 Boskovitch analizując
eksperymenty mające na celu scharakteryzowanie kształtu kuli ziemskiej zaproponował
metodę estymacji alternatywną do metody najmniejszych kwadratów.
Szczególny postęp w studiach nad odpornością nastąpił w latach 60 – tych i wczesnych
latach 70 – tych ubiegłego wieku za sprawą prac i talentów popularyzatorskich Johna
Tukey’a, Petera Hubera i Franka Hampela. We wspomnianym okresie wprowadzono szereg
pojęć i koncepcji związanych z pomiarem odporności procedury statystycznej, które
wykorzystywane są współcześnie. Kolejne przyspieszenie dokonało się za sprawą
zwiększenia prędkości komputerów w latach 90 – tych ubiegłego wieku.
Z formalnego punktu widzenia procedury odporne rozpatruje się obecnie jako
funkcjonały statystyczne definiowane na pewnej przestrzeni funkcji rozkładu. Statystyk
analizuje zachowanie się procedury w pewnym otoczeniu zakładanego przez procedurę
rozkładu. Rozpatrywane w badaniu funkcje rozkładu precyzują wiedzę statystyka na temat
mechanizmu losowego rządzącego zjawiskiem. Otoczenie zakładanego przez procedurę
rozkładu ujmuje możliwe odstępstwa od przyjmowanych założeń odnośnie zjawiska.
Odstępstwa mogą dotyczyć występowania pośród danych obserwacji obarczonych sporym
błędem, błędną specyfikację rozpatrywanego zjawiska itd. Otoczenia konstruowane są z
wykorzystaniem stosownej odległości pomiędzy rozkładami prawdopodobieństwa.
Wprowadzenie stosownej odległości pomiędzy rozkładami umożliwia rozważania nt
ciągłości i różniczkowalności funkcjonałów a w konsekwencji pomiar i porównywanie pod
4
względem odporności alternatywnych względem danego zagadnienia procedur

statystycznych.
Niniejszy skrypt ma na celu wprowadzenie czytelnika w podstawowe zagadnienia
statystyki odpornej oraz wskazanie mu możliwości prowadzenia odpornej analizy
statystycznej za pomocą darmowej platformy do obliczeń statystycznych jakim jest
środowisko R. Skrypt może stanowić uzupełnienie podstawowego kursu statystyki i
statystyki matematycznej wykładanych na uczelniach ekonomicznych.
1. Aspekty odporności procedury statystycznej
1.1 Bardzo krótkie wprowadzenie do R
Przedsięwzięcie określane obecnie mianem Projektu R zostało zapoczątkowane przez

pracowników Uniwersytetu w Auckland Roberta Gentlemana i Rossa Ihake. Gentleman i
Ihake stworzyli program do obliczeń statystycznych, który miał służyć jako pomoc
dydaktyczna. Wzorowali się na języku S opracowanym w laboratoriach Bell’a.
R to zarówno program do obliczeń statystycznych jak też środowisko programistyczne
wyposażone w interpreter języka R. Obecnie rozwojem R zarządza zespół specjalistów
nazywanych core team w ramach fundacji „The R Foundation for Statistical Computing”.
R jest językiem interpretowanym a nie kompliowanym. Polecenia wpisujemy za pomocą
klawiatury wiersz po wierszu bądź zestawiamy je w postaci skryptu (plik tekstowy
zawierający polecenia). Środowisko R jest nieodpłatnie udostępniane na zasadzie licencji
GNU na stronach Projektu R:
http://www.r-project.org/
Istnieje szereg mniej lub bardziej elementarnych publikacji ułatwiających naukę
posługiwania się systemem R. Zdaniem autora skryptu warto zapoznać się z elektroniczną
publikacją autorstwa Emmanuela Paradis pt. „R for Beginners” dostępną w formacie PDF na
stronach projektu, warto także zwrócić uwagę na krótkie wprowadzenie pt. „An
Introduction to R”, do którego mamy dostęp z poziomu pomocy programu R. Także
5
elektroniczna publikacja pt. „Econometrics in R” autorstwa Granta V. Farnswortha może

zainteresować czytelników, zwłaszcza tych którzy zamierzają wykorzystać środowisko R w
ekonometrii. W odniesieniu do literatury polskojęzycznej warto zajrzeć np. do Bicek (2009),
gdzie znajdziemy szereg użytecznych kwestii technicznych bądź np. do Kosiorowski (2008)
gdzie znajdziemy opisy procedur statystycznych wykorzystywanych w konkretnym dziale
statystyki.
Aby korzystać ze środowiska R należy ściągnąć plik instalacyjny ze strony projektu
wybierając download CRAN, następnie wybierając serwer najbliższy swojej lokalizacji np.
Poland>University of Wrocław. Pliki instalacyjne dostępne są w wersjach przeznaczonych
dla systemów operacyjnych Linux, Mac OS X, Windows. Wybieramy właściwy system a
następnie katalog base. Plik instalacyjny dla systemu Windows w chwili przygotowywania
niniejszej pracy nazywał się R – 2.12.1 – win32.exe. Użytkownicy szczególnie przywiązani
do okienkowego sposobu komunikowania się z komputerem (np. MS Word, MS Excel) mogą
zainstalować sobie nakładkę na środowisko R np. pakiet Rcmdr.
Przypuśćmy, że zamierzamy dodać do siebie dwa wektory x = (2, 3, 4, 4, 5, 7, 4)t oraz
y = (101,1, 3, 4,2, 3, 4)t . Wpiszmy w tym celu

x<-c(2,3,4,4,7,7,4)
y<-c(101,1,3,4,2,3,4)
x+y
[1] 103 4 7 8 9 10 8
Wpisując
2^x
4 8 16 16 128 128 16
otrzymamy ciąg liczb będących wynikami podniesienia liczby 2 do potęg będących
współrzędnymi wektora x. Wpisując
round(x/y)
[1] 0 3 1 1 4 2 1
otrzymamy ciąg liczb będących wynikami dzielenia odpowiednich współrzędnych wektorów
x i y zaokrąglonych do najbliższej liczby całkowitej.
Przypuśćmy, że zamierzamy porównać rozkład z próby 12 – elementowej średniej
arytmetycznej z próby oraz mediany z próby.
Wpiszmy
A<-matrix(nrow=100,ncol=12) #deklarujemy macierz o 100 wierszach i 12 kolumnach#
6
for (i in 1: 100) {
A[i,]<-rnorm(12,10,2)} #tworzymy pętlę umieszczającą w i-tym wierszy macierzy A próbę z
rozkładu normalnego N(10,2)#

srednie<-apply(A,1,mean) #tworzymy wektor którego każda współrzędna jest średnią
odpowiedniego wiersza macierz A#
mediany<-apply(A,1,median) #tworzymy wektor którego każda współrzędna jest średnią
odpowiedniego wiersza macierz A#

boxplot(srednie,mediany,main="średia vs mediana z 12 elementowej próby z N(10,2)") #rysunek
ramka wąsy porównujący średnią i medianę z 12- elementowej próby z N(10,2)#
Rys. 1: Porównanie średniej i mediany z Rys. 2: Porównanie średniej i mediany z

próby 12 elementowej za pomocą próby 12 elementowej za pomocą
wykresów pudełkowych. histogramów.
Źródło: Obliczenia własne Źródło: Obliczenia własne
library(MASS) #wgrywamy pakiet MASS#
library(lattice) #wgrywamy pakiet lattice#
par(mfrow=c(2,1)) #dzielimy okno graficzne na dwie równe części#

hist.FD(srednie,breaks=10,main="rozkład średniej",ylab="częśtość",col="green")
hist.FD(mediany,breaks=10,main="rozkład mediany",ylab="częstość",col="blue")
#estymator jądrowy funkcji gęstości#
densityplot(srednie,main="oszacowanie gęstości średniej", ylab="gęstość", col="green", lwd=2)
densityplot(mediany,main="oszacowanie gęstości mediany", ylab="gęstość", col="blue", lwd=2)
7
Rys. 3: Oszacowanie gęstości mediany z Rys. 4: Oszacowanie gęstości średniej z

próby 12 elementowej próby 12 elementowej
par(mfrow=c(2,1))
sdys<-ecdf(srednie) #wektor częstości skumulowanych – dystrybuanta empiryczna#
mdys<-ecdf(mediany) #wektor częstości skumulowanych – dystrybuanta empiryczna#

plot(sdys,main="oszacowanie dystrybuanty średniej",ylab="częstość
skumulowana",col="green",lwd=2) #rysujemy dystrybuantę dla średniej z próby#
plot(mdys,main="oszacowanie dystrybuanty mediany",ylab="częstość
skumulowana",col="blue",lwd=2) #rysujemy dystrybuantę dla mediany z próby#
Rys. 5: Oszacowania dystrybuant średniej Rys. 6: Oszacowania gęstości mieszaniny

i mediany z próby 12 elementowej. rozkładów N(10,1)[90%] i N(20,3)[10%].

8
#tworzymy prowizoryczny symulator obserwacji z mieszaniny rozkładów#

x1<-rnorm(8000,10,1)
x2<-rnorm(2000,20,3)
urna1<-c(x1,x2)
m1<-sample(urna1, 300, replace = FALSE)
y1<-rt(6000,2)
y2<-rt(2000,2)-5
y3<-rt(2000,2)+5
urna2<-c(y2,y1,y3)
m2<-sample(urna2,300,replace = FALSE)
densityplot(m1,main="oszacowanie gęstości mieszaniny 1", ylab="gęstość", col="blue", lwd=2)
Rys. 7: Oszacowania gęstości mieszaniny Rys. 8: Oszacowania gęstości odchylenia

rozkładów trzech rozkładów t Studenta. standardowego z próby z mieszaniny
rozkładów t Studenta
#interesuje nas rozkład odchylenia standartowego z próby#

sdzproby<-c()
for (i in 1:100) sdzproby[i]<-sd(sample(urna1,20, replace = FALSE))
densityplot(sdzproby,main="oszacowanie odch. std. z próby", ylab="gęstość", col="red", lwd=2)
Tab. 1: Wybrane funkcje służące do operowania rozkładami prawdopodobieństwa.
ROZKŁAD DYSTRYBUANTA KWANTYL GĘSTOŚĆ GENERATOR PARAMETRY

normalny pnorm qnorm dnorm rnorm Srednia,odchsts
log-normalny plnorm qlnorm dlnorm rlnorm Logsrednia,
logodchsd
t-Studenta pt qt dt rt St sw.,
niecentralność
wykładniczy pexp qexp dexp rexp intensywność
gamma pgamma qgamma dgamma rgamma Kształt,
intensywność
9
x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2) #zaburzenie losowe o rozkładzie t(2)#
y<-2*x+1+eps
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red") #dopasowujemy prostą regresję do wygenerowanych punktów#
Rys. 9: Diagram rozrzutu wraz z Rys. 10: Diagram rozrzutu wraz z

dopasowaniem NK dopasowaniem NK
x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2)
eps1<-cumsum(eps) #bardziej złośliwe zaburzenie losowe#
y<-2*x+1+eps1
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red")
Aby przekonać się o możliwościach graficznych program R wpiszmy

library(lattice)
demo(lattice)
library(rgl)
demo(rgl)
10
W niniejszym skrypcie wykorzystujemy pakiety dodatkowe środowiska R {robustbase},

{MASS}, {lattice} zawierające szereg procedur odpornych,{fBasic} i {fGarch} służące do
analizy szeregów czasowych. Ostatnie dwa pakiety musimy ściągnąć ze stron projektu a
następnie je zainstalować.
1.2 Metody badania odporności procedury statystycznej
Interesujące ekonomistę zjawisko opisywane jest za pomocą jedno bądź

wielowymiarowej zmiennej losowej X nazywanej modelem bądź populacją. Najczęściej o
interesującej ekonomistę charakterystyce populacji wnioskuje się w oparciu o n – krotną
realizację modelu tzn. w oparciu o próbę X1,..., Xn . W klasycznym modelu statystycznym
próba Xn = (X1,..., Xn ) może przyjmować wartości w przestrzeni prób  , której
podzbiory reprezentują ważne dla badacza zdarzenia. Pośród podzbiorów przestrzeni prób
wyróżnia się pewną specjalną rodzinę szczególnie ważnych dla ekonomisty zdarzeń, tzw.
s - ciało zdarzeń  . Niepewność związana z przebiegiem zjawiska X wyraża rozkład
prawdopodobieństwa P , który jest funkcją zbioru na  . Trójka { , , Pq : q Î Q} to
parametryczny model statystyczny (por. Krzyśko (2004)).
W badaniach odporności pewnej procedury1 statystycznej T wprowadza się pewną miarę
odległości pomiędzy rozkładami prawdopodobieństwa na przestrzeni prób  bądź
odległości bezpośrednio pomiędzy populacjami. Następnie porównuje się zachowanie
procedury T przy ustalonym rozkładzie prawdopodobieństwa (oczekiwanym, mającym
uzasadnienie teoretyczne, typowym itd.) oraz przy występowaniu odstępstw od ustalonego
modelu. Wielkość odstępstwa ujmowana jest za pomocą wspomnianej odległości pomiędzy
rozkładami prawdopodobieństwa. Poniżej przedstawiamy trzy miary odległości pomiędzy
rozkładami prawdopodobieństwa.
1
Przez procedurę statystyczną rozumie się algorytm, którego wejściem są dane bądź parametry a wyjście
obejmuje liczby, wykresy, funkcje po obrazy. Procedura statystyczna nie oznacza analizy statystycznej, która
obejmuje na ogół kilka procedur statystycznych. Szerzej idee procedury statystycznej omawia np. Davies
(2002).
11
Niech  =  jest prostą rzeczywistą i F ,G będą dystrybuantami rozkładów P,Q ,

wtedy odległość Kołmogorowa pomiędzy P i Q definiujemy:
(1.1) dK (F ,G ) = supx Î F (x ) - G (x ) .
Niech  =  oznacza zbiór liczb rzeczywistych oraz niech F ,G oznaczają

dystrybuanty rozkładów P,Q , wtedy odległość Hellingera pomiędzy P i Q definiujemy:
{ò }
1/2
2
(1.2) dH (P,Q ) =

( dP - dQ ) .
dP dQ
Jeżeli f = ig = są gęstościami P,Q względem pewnej miary m , wtedy
dm dm
odległość Hellingera może zostać przepisana w postaci
( )
2
(1.3) (dH (P,Q ))2 = ò ( )
f - g dm = 2 1 - ò

fgd m .
Jeżeli przez p, q oznaczymy gęstości rozkładów prawdopodobieństwa względem pewnej

miary m (Lebesque’a na prostej rzeczywistej bądź miary liczącej), wtedy dystans Kullbaka
– Leiblera definiujemy jako
q(x )
(1.4) dKL (Q, P ) = ò q(x )ln p(x ) d m(x )
Dystans Kullbaka – Leibera nie jest odległością, nie jest symetryczny względem P i Q oraz
spełnia nierówności trójkąta.
Przykład R
#Za pomocą środowiska R możemy w przybliżony sposób odległości pomiędzy
rozkładami prawdopodobieństwa. Często wystarcza to do badania odporności interesującej
nas procedury statystycznej#
#Obliczanie wprowadzonych wcześniej odległości pokażemy na przykładach rozkładu
dwumianowego B(n=100, p=0.01) (rys. 11), rozkładu Poissona lambda=1 (rys.12), rozkładu
N(0,1) (rys. 13), rozkładu Studenta t(1) (rys. 14), rozkładu gamma(3,1) (rys.15) i rozkładu
gamma(1,3) (rys.16)#
12
Rys. 11: Gęstość rozkładu Rys. 13: Gęstość rozkładu

dwumianowego Poissona
Rys. 14: Gęstość rozkładu Rys. 15: Gęstość rozkładu t(2)

N(0,1)
Rys. 15: Gęstość rozkładu Rys. 16: Gęstość rozkładu

gamma. gamma.
max(abs(pbinom(0:100,100,0.01)-ppois(0:100,1))) #odległość Kołmogorowa#

[1] 0.0018471
13
max(abs(pnorm(seq(-5,5, by=0.01),0,1)- pt(seq(-5,5, by=0.01),1))) #odleglość Kołmogorowa#

[1] 0.1255822
max(abs(pgamma(seq(0,8, by=0.01),3,1)- pgamma(seq(0,8, by=0.01),1,3))) #odległość
Kołmogorowa#
[1] 0.8708176
sqrt(sum((sqrt(dbinom(0:100,100,0.01))-sqrt(dpois(0:100,1)))^2)) #odległość Hellingera#
[1] 0.003562329
sqrt(sum((sqrt(dnorm(seq(-5,5, by=0.01),0,1))-sqrt(dt(seq(-5,5, by=0.01),1)))^2)) #odległość
Hellingera#
[1] 3.025973
sqrt(sum((sqrt(dgamma(seq(0,8, by=0.01),3,1))-sqrt(dgamma(seq(0,8, by=0.01),1,3)))^2)) #odległość
Hellingera#
[1] 11.78569
sum(dpois(0:100,1)*log(dpois(0:100,1)/dbinom(0:100,100,0.01))) #dystans Kullbaka-Leibera#
[1] 2.551112e-05
1.3 Pomiar odporności procedury statystycznej
W ciągu ostatnich 40 lat zaproponowano szereg koncepcji odporności procedury

statystycznej, które kładły akcent na pewien szczególny typ odstępstwa od zakładanego
modelu generującego dane. Wspomnijmy dla przykładu o oryginalnych propozycjach
polskiego statystyka R. Zielińskiego z lat 70–tych. Niemniej jednak większość propozycji
ustąpiło pod względem popularności prezentowanej poniżej koncepcji P. Hubera. Koncepcji
częściowo zbieżnej z ideami F. Hampela zawartymi w jego rozprawie doktorskiej.
Teoretyczne tło przedstawionych poniżej zagadnień można znaleźć np. w Huber i Ronchettii
(2009), Jureckova i Picek (2006), Maronna i in. (2006).
Istnieje co najmniej kilka, po części alternatywnych, a po części komplementarnych
podejść do pomiaru odporności procedury statystycznej. Znane są też podejścia mające
charakter wyłącznie jakościowy. Historycznie pierwsza własność procedury, która została
wykorzystana do pomiaru jej odporności wiązała się z pojęciem efektywności względnej
14
estymatora w pewnym zakresie rozpatrywanych modeli. Obecnie centralną rolę odgrywają

pojęcia: funkcji wpływu Hampela oraz punktu załamania i punktu załamania próby
skończonej Donoho i Hubera.
W latach 60, w dużej mierze za sprawą talentu popularyzatorskiego Johna Tukey’a,
powszechnie zaczęto sobie uświadamiać, że o ile w przypadku modelu normalnego
asymptotyczna efektywność względna (ARE2) mediany względem średniej wynosi 0.64, to
jest nieskończona dla rozkładu Studenta o liczbie stopni swobody mniejszej bądź równej od
2, wynosi 1.621 dla trzech stopni swobody. Natomiast w przypadku mieszaniny dwóch
rozkładów normalnych N (m, s 2 ) z udziałem 1 - e oraz N (m, 9s 2 ) z udziałem e , już dla

e > 0.03 efektywność mediany w stosunku do średniej jest wyższa od jedności. W latach
osiemdziesiątych ubiegłego wieku argumenty Tukey’a przypomniał P. Huber pokazując, że
efektywność względna odchylenia standardowego i odchylenia absolutnego dla modelu
mieszaniny3 postaci F (x ) = (1 - e)F(x ) + eF(x / 3) , gdzie F oznacza dystrybuantę
mieszaniny, F oznacza dystrybuantę standardowego rozkładu normalnego jest dwukrotnie
wyższa na korzyść odchylenia absolutnego już w przypadku 5% udziału „zaburzenia”
F(x / 3) .
Przypuśćmy, że zastanawiamy się na wpływem na wartość pewnej statystyki
Tn -1 = T (x1,..., x n ) zmieszania zbioru obserwacji x1,..., x n -1 z obserwacją odstającą x .
Oznaczmy taki zmieszany zbiór danych jako x1,..., x n -1, x oraz wartość statystyki przy takim
zmieszaniu Tn = T (x1,..., x n , x) . Wpływ x na wartość statystyki w przedstawionej sytuacji

można mierzyć za pomocą zaproponowanej przez Tukey’a krzywej wrażliwości.
Krzywą wrażliwości (ang. sensitivity curve ) nazywamy
(1.5) SC n (x) = n(Tn - Tn -1 ) .
Z definicji wynika natychmiast, że
2
Dla statystyk Tn i Tn definiujemy asymptotyczną efektywność względną ( por. Serfling (2010)) jako
var(Tn ) E 2 (Tn )
ARE = lim , gdzie var oznacza wariancję, E wartość oczekiwaną.
n ¥ var(Tn ) E 2 (Tn )
3
Warto zwrócić uwagę na kwestię związane z symetrią modelu mieszaniny, który jest modelem danych
obarczonych błędem. Kwestie te mają zasadniczy związek z obciążeniem i efektywnością rozpatrywanego
estymatora.
15
(1.6) Tn = Tn -1 + 1 n SC n (x)
Niezmiernie popularna obecnie funkcja wpływu jest wersją krzywej wrażliwości w

przypadku populacji. Funkcja wpływu została zaproponowana przez F. Hampela.
Rozważmy mieszaninę dwóch rozkładów Fe = (1 - e)F + edX , gdzie dX oznacza

rozkład skoncentrowany w punkcie. Możemy określić jakościowo odporność procedury
porównując T (F ) i T (Fe ) w sytuacji, gdy e  0 . Aby ująć odporność ilościowo wygodnie
jest posłużyć się funkcją wpływu (ang. influence function) definiowaną:

T (Fe ) - T (F )
(1.7) IF (x;T , F ) = lim .
e0 e
Funkcja wpływu jest jedną z najważniejszych charakterystyk funkcjonału statystycznego,

estymatora. Wartość IF (x ;T , P ) mierzy efekt zakłócenia funkcjonału T poprzez pojedynczą
wartość x . Odporny funkcjonał T powinien mieć ograniczoną4 funkcję wpływu. W
oparciu o funkcję wpływu konstruuje się pochodne miary odporności. Najważniejsze z ich to
bez wątpienia tzw. czułość na błędy grube (ang. gross error sensitivity) definiowana:
(1.8) GES (T , F ) = sup IF (x,T , F ) ,
x
Jest to maksymalna absolutna wartość funkcji wpływu w punkcie przy założonej funkcji
rozkładu F . Szczególnie pożądane są takie statystyki, które odznaczają się względnie
małymi wartościami GES.
Drugą popularną miarą odporności budowaną w oparciu o funkcję wpływu jest tzw.
lokalna czułość na przesunięcia (ang. local shift sensitivity) definiowana:
IF (y;T , P ) - IF (x ;T , P )
(1.9) LSS = sup
x ,y ;x ¹y y -x
Miara ujmuje ilościowo wpływ zastąpienia wartości x wartością y na statystykę T .

Dla ilustracji zauważmy, że średnia arytmetyczna z próby nie jest odporna na błędy grube
jednak jest odporna na lokalne zmiany wartości danych, natomiast wariancja jest nieodporna
zarówno na wielkie jak i małe (lokalne) zmiany. Wykorzystując średnią dozwolone jest
4
Funkcja wpływu jest zwykłą funkcją rzeczywistą. Jej ograniczoność, różniczkowalność, gładkość należy
rozumieć analogicznie jak odpowiednie własności funkcji np. sin.,
16
zaokrąglanie, niedozwolone są np. duże błędy we wpisywaniu danych. Średnia arytmetyczna,

wariancja, odchylenie standardowe mają nieograniczone funkcje wpływu w przypadku próby
wygenerowanej np. przez standardowy rozkład normalny, mediana, mediana odchyleń
absolutnych od mediany (MAD), rozstęp kwartylowy (IQR) mają ograniczone funkcje
wpływu.
Podsumowując, od odpornego estymatora oczekujemy, że będzie miał ograniczoną, bądź
więcej, ograniczoną i gładką5 funkcję wpływu, niewielkie GES i LSS. Zaznaczmy jednakże,
że bardzo napotykamy zależność odwrotną pomiędzy odpornością i efektywnością
estymatora. Im bardziej odporny estymator, tym większym rozrzutem wskazań się odznacza.
W wielu sytuacjach praktycznych warto jednakże poświęcić nieco efektywności na rzecz
zabezpieczenia się przez wpływem odstępstw od modelu.
Bez wątpienia najciekawszą (patrz Davies (2002)) z praktycznego punktu widzenia miarą
odporności procedury statystycznej jest wersja koncepcji punktu załamania odnosząca się do
prób skończonych a mianowicie tzw. punkt załamania próby skończonej wprowadzony
przez Donoho i Hubera6.
Przypuśćmy, że dysponujemy próbą  n = {x1,..., x n } złożoną z n obserwacji
generowanych przez zakładany model oraz niech  m = {y1,..., ym } oznacza m dowolnych
(być może szczególnie odstających) obserwacji. Oznaczmy przez  n +m =  n È  m próbę

powstałą z połączenia powyższych zbiorów obserwacji. Określimy ją mianem em zmieszanej
m
próby gdzie em = .
n +m
Wielkość T ( n È  m ) - T ( n ) oznacza obciążenie statystyki natomiast maksymalne
obciążenie statystyki T powstające przy em zmieszaniu oznaczymy jako
(1.10) B(em ,T ,  n ) = sup T ( n È  m ) - T ( n ) .

m
Punkt załamania próby skończonej (Donoho i Huber (1983)) definiujemy jako
(1.12) BP (T ,  n ) = inf { em : B(em ,T ,  n ) = ¥ } .
5
Przez gładką funkcję wpływu rozumiemy taką funkcje, która ma ciągłą pochodną (funkcję klasy C1).
6
Należy podkreślić, że koncepcja punktu załamania ma wiele często istotnie różniących się wariantów. Mamy
tutaj m.in. zastosowanie pojęcia w przypadku prób zależnych, szeregów czasowych itd.
17
Punkt załamania próby skończonej posiada odpowiednik w populacji. Przypuśćmy, że

otoczenia rozkładu generującego dane definiujemy z wykorzystaniem odległości mieszaniny
dwóch rozkładów. Niech F oznacza zakładany rozkład natomiast H oznacza rozkład
reprezentujący błąd, zaburzenie (odstępstwo od modelu). Rozważamy model mieszaniny
postaci Fe = (1 - e)F + eH . Wprowadzając pojęcie maksymalnego obciążenia przy tego
rodzaju e - zmieszaniu tzn.:
(1.13) B(e,T , F ) = sup T (Fe ) - T (F ) ,
H
otrzymamy definicję punktu załamania procedury statystycznej F. Hampela:
(1.14) e* (T , F ) = inf{e : B(e,T , F ) = ¥} .
Punkt załamania próby skończonej wskazuje na maksymalną frakcję obserwacji

odstających w próbie, która nie sprawia, że procedura statystyczna „łamie się” – np.
obciążenie wskazania estymatora staje się nieakceptowane. Koncepcja punktu załamania
zależy od odległości wykorzystywanej do konstruowania otoczeń zakładanego rozkładu
generującego obserwacje. Zależy także od zagadnienia, do którego się stosuje. Czymś
odmiennym jest „załamanie się” estymatora położenia centrum, estymatora
wielowymiarowego rozrzutu czy estymatora parametrów funkcji regresji.
1.4 Odporność w ekonomii
The method of the least squares is seen to be our best course when we have thrown
overboard a certain portion of our data – a sort of sacrifice which has often to be
made by those who sail the stormy seas of Probability.
Francis Ysidoro Edgeworth (1887)
It is the one sphere of life and activity where victory, security and success is always
to the minority and never to the majority. When you find any one agreeing with you,
change your mind. When I can persuade the Board of my Insurance Company to buy
a share, that, I am learning from experience, is the right moment for selling it.
John Maynard Keynes
Za prekursora odpornego podejścia do badań ekonomicznych uznaje się pioniera

ekonomii matematycznej brytyjskiego ekonomistę Francisa Ysidoro Edgewortha, który
18
krytykował metodę najmniejszych kwadratów jako narzędzie ujmowania zależności

pomiędzy zmiennymi ekonomicznymi. Intuicje związane z odpornością można dostrzec w
prawie Kopernika – Greshema głoszącym, że zły pieniądz wypiera dobry w typowych
warunkach wymiany. Także wiele z wypowiedzi sławnego ekonomisty Johna Maynarda
Keynesa dotyczących metod inwestowania na rynkach finansowych można poczytać jako
świadomość pojęcia jednostki odstającej.
Zagadnienia odporności wiążą się niemalże z każdą procedurą statystyczną
wykorzystywaną w ekonomii (por. Maddala (2006)), dotyczą badań ekonometrycznych
prowadzonych na zlecenie ministra finansów, prognoz inflacji wykonywanych przez centrum
badawcze NBP, codziennej pracy analityka rynku paliw, publicznej dyskusji nt
sprawiedliwości społecznej. Wobec faktu, że statystyka pojawia się w ekonomii na poziomie
zarówno pojęciowym jak i metodologicznym łatwo wywnioskować jak ważna dla ekonomii
jest statystyka odporna. Mamy tu na uwadze przykładowo zasadniczą kwestię czy dane
empiryczne potwierdzają czy przeczą wysuwanej przez ekonomistę hipotezie badawczej,
słuszność decyzji o przyznaniu kredytu przedsiębiorcy, podniesieniu stóp procentowych
przez Radę Polityki Pieniężnej. W odniesieniu do wykorzystywanych w ekonomii pojęć
przywołajmy dla przykładu pojęcia inflacji, dobrobytu społecznego, atrakcyjności na rynku
pracy, zdolności kredytowej, dyskryminacji płacowej.
W wykorzystywanym w ekonomii tzw. prostym modelu pomiaru z błędem o rozkładzie
normalnym Xi + ei , gdzie ei to błąd pomiaru stosuje się średnią z próby (dla przykładu
badamy tygodniowe wydatki na żywność gospodarstwa domowego). Średnia jest

estymatorem największej wiarygodności. Średnia jest najlepszym nieobciążonym
estymatorem położenia, jest estymatorem minimaksowym i asymptotycznie efektywnym.
Wiemy jednakże, że estymator ten nie jest odporny na niewielkie odstępstwa od zakładanego
rozkładu normalnego błędu. Jeżeli błędy pomiaru zamiast być realizacją rozkładu
normalnego są realizacją mieszaniny rozkładów normalnych (model Tukey’a), średnia
przestaje być dobrym estymatorem położenia gdyż obserwacje odstające mogą całkowicie
zdeterminować wartość średniej wyznaczając niewłaściwe oszacowanie centrum. Jeżeli
rozkład błędu nie jest symetryczny oszacowanie będzie obciążone. Nawet jeśli rozkład błędu
będący mieszaniną jest symetryczny wokół zera to będziemy mieli do czynienia ze
znaczącym wzrostem wariancji średniej. Doświadczenie badaczy zajmujących się
zastosowaniami statystyki w ekonomii sugeruje, że udział rozkładu zaburzającego rzędu
19
e = 1 - 10% zdarza się bardzo często ( np. w szwajcarskich tablicach życia występuje 6%
błędów – patrz Hampel i in. (1986)).
Zdaniem autora przy wyborze odpornych procedur statystycznych dla zastosowań w
ekonomii warto zdaniem autora kierować się oceną procedury z wykorzystaniem trzech
pojęć: funkcji wpływu, punktu załamania próby skończonej i maksymalnego obciążenia.
Funkcja wpływu ujmuje lokalne aspekty odporności procedury statystycznej. Funkcja
wpływu bądź krzywa wpływu estymatora ma dwa główne zastosowania w statystyce.
Pierwszym jest pomiar wrażliwości statystyki na pojedynczą obserwację, drugie stanowi
policzenie asymptotycznej wariancji statystyki przy pewnych warunkach regularności.
Kształt funkcji wpływu dostarcza informacji o odporności statystyki. Przykładowo średnia z
próby jest czuła na duże wartości obserwacji, co ma odzwierciedlenie w fakcie, że funkcja
wpływu nie jest ograniczona. Funkcjonał statystyczny z ograniczoną funkcją wpływu nie jest
wrażliwy na ekstremalne obserwacje tym samym jest na nie odporny. Funkcje wpływu
mediany odchyleń absolutnych od mediany (MAD) bądź odstępu międzykwartylowego
(IQR) w przypadku danych generowanych przez rozkład normalny są ograniczone w
przeciwieństwie do funkcji wpływu odchylenia standardowego (SD). Szacując ryzyko
pewnego przedsięwzięcia w oparciu o dane pośród których występuje jedna obserwacja
znacząco odbiegająca od reszty rozsądniej wybrać MAD bądź IQR niż SD.
W oparciu o funkcję wpływu konstruuje się pochodne miary odporności procedury jak
np. czułość na błędy grube czy lokalna czułość na przesunięcia. Funkcja wpływu ujmuje
efekt dodania jednej obserwacji do dużej próby. W badaniach ekonomicznych zaleca się
stosowanie statystyk o ograniczonych funkcjach wpływu. Dla przykładu klasyczne metody
wielowymiarowej analizy statystycznej jak np. analiza czynnikowa czy funkcja
dyskryminacyjna Fishera opierają się o wektor przeciętnych i macierz kowariancji,
optymalne miary położenia i rozrzutu przy wielowymiarowej normalności. Jest powszechnie
wiadomo, że niewielka frakcja obserwacji odstających niszczy analizę prowadzoną z
wykorzystaniem tych miar. Ma to odzwierciedlenie w postaci ich funkcji wpływu, które nie
są ograniczone. W sytuacji występowania jednostek odstających powinniśmy wybrać np.
estymator minimalnej elipsoidy objętości, jako estymator położenia i macierz kowariancji
policzoną z obserwacji należących do obszaru centralnego rzędu 90%, jako estymator
wielowymiarowego rozrzutu. Estymatory te mają ograniczone funkcje wpływu.
20
Obserwacje w wielowymiarowych próbach, które odstają od zasadniczego wzorca

wyznaczonego przez większość danych to obserwacje odstające. Bardziej formalną definicję
jednostki odstającej uzyskamy przy założeniu konkretnego modelu generującego dane.
Rys. 1.17: Dwuwymiarowa jednostka odstające niekoniecznie

jest odstająca zważywszy na jednowymiarowe współrzędne.
Źródło: Obliczenia własne
Jednakże czy z perspektywy intuicyjnej czy modelowej, obserwacje odstające w pewien

sposób odbiegają od zasadniczej chmury danych. Warto podkreślić, że wielowymiarowa
obserwacja odstająca nie musi być jednostką odstającą zważywszy na jej jednowymiarowe
współrzędne. Ilustrację takiej sytuacji znajdziemy rysunku 1.17 gdzie pokazano łączne
procentowe dzienne zmiany cen dwóch spółek giełdowych, notowanie odstające od
zasadniczego wzorca zaznaczono jako romb. Zauważmy notowanie odstające nie jest
odstające, jeżeli patrzymy na każdą ze spółek oddzielnie. Jednostki odstające przesuwają
oszacowanie centrum oraz zwiększają oszacowanie rozrzutu. To ważna obserwacja z punktu
widzenia budowy portfela inwestycyjnego.
Zaznaczmy zatem, że funkcja wpływu w przypadku wielowymiarowym na ogół nie jest
prostym uogólnieniem przypadku jednowymiarowego.
Kolejną użyteczną charakterystyką odporności procedury statystycznej jest tzw. krzywa
maksymalnego obciążenia. Krzywa przedstawia najgorszy przypadek obciążenia wskazań
procedury statystycznej T jako funkcję udziału e rozkładu zaburzającego populację
(rozważamy tu mieszaninę zakładanej populacji z udziałem 1 - e oraz rozkładu
21
zaburzającego z udziałem e ). Na ogół rozkłady stanowiące zaburzenie stanowią pewną

rodzinę rozkładów charakterystyczną dla rozważanego zagadnienia np. rodzinę rozkładów
normalnych o ustalonej wariancji, rodzinę rozkładów skośnych t itd. Taka funkcja
(maksymalne obciążenie) jest niemalejąca względem e , dla umiarkowanych wartości e
powinna przyjmować umiarkowane wartości. Ma to miejsce przykładowo dla mediany
wskazującej centrum tygodniowych wydatków na żywność gospodarstwa domowego przy
zaburzeniu będącym rozkładem c2 o dwóch stopniach swobody. Zwróćmy uwagę na

umowność określenia „wskazanie procedury obarczone jest umiarkowanym obciążeniem”.
Zaznaczmy też, że o ile przez obciążenie estymatora na ogół rozumiemy różnicę
pomiędzy oczekiwaną wartością estymatora a wartością szacowanego parametru populacji, to
można też mówić o obciążeniu związanym ze specyfikacją modelu - gdy próba nie pochodzi
z założonego modelu, oraz o obciążeniu testu7.
Zdaniem autora szczególnie użyteczną miarę odporności w badaniach ekonomicznych
stanowi koncepcja punktu załamania próby skończonej Donoho – Hubera. Punkt
załamania estymatora to minimalna frakcja zanieczyszczonych danych, która prowadzi do
całkowicie nieinformatywnego (bezużytecznego) wyniku estymacji. Punkt załamania próby
skończonej wywodzi się z koncepcji tolerancji zaproponowanej przez Hodgesa, stanowi
łatwiejszą w zastosowaniach wersję punktu załamania zaproponowaną przez Hampela. Punkt
załamania próby skończonej pewnej procedury informuje nas o tym jaki procent obserwacji
w próbie może być niewiarygodna bez zasadniczej utraty jakości wskazań tejże procedury.
Punkt załamania próby skończonej w przypadku MAD wynosi 50%, w przypadku IQR
wynosi 25%, w przypadku SD wynosi 0%. Szacując ryzyko na pewnym przedsięwzięciu w
oparciu o dane z przeszłości rozsądniej wybrać MAD bądź IQR w sytuacji gdy
podejrzewamy, że część danych jest niewiarygodna. Wybierając w takiej sytuacji SD
możemy albo przeszacować albo niedoszacować ryzyko.
Warto zaznaczyć, że bardzo często napotykamy odwrotny związek pomiędzy odpornością
procedury statystycznej a jej efektywnością i/lub złożonością obliczeniową. Ze względów
praktycznych często rozsądniej jest wybrać procedurę o nieco niższym od maksymalnego
punkcie załamania próby skończonej i akceptowalnej złożoności obliczeniowej. Niebagatelną
kwestię stanowi też szybkość zbieżności z próby wybranej przez nas procedury statystycznej.
7
Mówimy, że test jest obciążony, gdy prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej jest
większe od odrzucenia pewnej innej hipotezy, która jest prawdziwa.
22
Szybkość zbieżności wiąże się bezpośrednio z wielkością próby niezbędnej do wnioskowania

o ustalonym poziomie ryzyka. Im mniejsza próba tym mniejsze koszty.
Zaznaczmy też różnicę pomiędzy różnego rodzaju metodami odrzucania jednostek
odstających a następnie stosowaniem klasycznych procedur a stosowaniem bezpośrednio
procedur odpornych. Przykładem wspomnianych metod jest heurystyczna metoda
wykrywania obserwacji odstających opierająca się o kryterium odległości Mahalanobisa
obserwacji od centrum chmury danych. Metoda ta nie radzi sobie z tzw. zjawiskiem
maskowania, należy jej unikać, gdy w zbiorze danych występuje więcej niż jedna obserwacja
odstająca. Inny przykład stanowią tzw. formalne metody wykrywania odstających, najlepiej
poznane dla wielowymiarowego rozkładu normalnego. Metody te stanowią swego rodzaju
proces weryfikacji pewnego układu hipotez. Hipoteza zerowa głosi, że w próbie nie
występują obserwacje ostające, hipotezy alternatywne głoszą, że pewna obserwacja pochodzi
z rozkładu normalnego o różnym od zakładanego wektorze przeciętnych, innej macierzy
kowariancji. Metody formalne sprawują się dobrze, gdy dysponujemy wiedzę o możliwej
naturze odstawania, w przypadku odstępstwa od założeń na ogół drastycznie spada ich moc.
Zdaniem autora zarówno heurystyczne jak i formalne metody odrzucania obserwacji
odstających w obecnej formie nie nadają się do zastosowań w badaniach rzeczywistych
układów ekonomicznych.
Podsumowując zalecamy stosowanie w badaniach ekonomicznych procedur statystycznych o
ograniczonej funkcji wpływu, umiarkowanej krzywej maksymalnego obciążenia oraz
wysokim punkcie załamania próby skończonej. To lepsza strategia aniżeli diagnostyka
wykonywana po doświadczeniu. Diagnostyka jest na ogół droższa oraz co może wydać się
paradoksalne jest nieodporna.
Zwracamy też uwagę czytelnika na konieczność wyważenia wysokiej odporności
procedury jej efektywności i dobrego zachowania się w przypadku małej próby.
Wspomnijmy też o napotykanym w praktyce dylemacie związany z wyborem pomiędzy
prostszą procedurą odporną wymagającą mniejszej próby a bardziej skomplikowaną
procedurą wymagającą dużej próby – np. wybór pomiędzy prostą odporną regresją liniową a
zastosowaniem pewnego modelu nieliniowego.
23
2. Wybrane zagadnienia statystyki jednowymiarowej
2.1 Metody wykrywania jednostek odstających
Obserwacja odstająca jest takim elementem próby, który w pewien sposób odbiega od
wzorca wyznaczonego przez większość elementów próby. Na odstawanie obserwacji
możemy spojrzeć na dwa sposoby. Albo definiujemy je w kategoriach pozycji obserwacji w
próbie bez odwoływania się do mechanizmu losowego, który próbę wygenerował. Albo
zakładamy pewien model odstawania. To czy obserwacja zostaje uznana za odstającą zależy
od zakładanego przez nas modelu odstawania.
Najprostszym wykorzystywanym w ekonomii probabilistycznym modelem obserwacji
jest tzw. model położenia. W modelu tym zakładamy, że każda obserwacja x i odpowiada
prawdziwej wartości badanego zjawiska m zaburzonej przez pewien proces losowy ei :
(2.1) x i = m + ei (i = 1,..., n ) ,
gdzie błędy są zmiennymi losowymi.
Jeżeli obserwacje są niezależnymi powtórzeniami tego samego eksperymentu w takich
samych warunkach możemy założyć, że zaburzenia e1,..., en są niezależnymi zmiennymi
losowymi o tym samym rozkładzie. Oznaczmy dystrybuantę tego rozkładu jako F0 ,
natomiast dystrybuantę rozkładu obserwacji przez F . Często w modelu położenia zakłada

się, że nie mamy do czynienia z tzw. błędem systematycznym (np. systematycznie nie
przeszacowujemy wartości obserwacji) formalizuje się przyjmując, że zaburzenia ei oraz
-ei maja taki sam rozkład, co w konsekwencji oznacza F0 (x ) = 1 - F0 (-x ) . Można założyć
jeszcze więcej np. że F0 ma rozkład normalny z przeciętną 0 i odchyleniem standardowym
s . Modelem obserwacji jest wówczas rozkład normalny N (m, s) .

Najprostszy model odstawania stanowi model mieszaniny zaproponowany przez Tukey’a.
Zakładamy mianowicie, że 1 - p obserwacji generowane jest przez rozkład normalny, zaś
porcja p przez pewien nieznany mechanizm, p Î [0,1] tzn. F = XG + (1 - X )H ,
G = N (m, s) , H jest dowolnym rozkładem, X jest zmienną losową zero jedynkową
24
P (X = 1) = 1 - p , P (X = 0) = p . W modelu tym rozkład H reprezentuje działanie

mechanizmu losowego generującego obserwacje odstające. Chcielibyśmy oczyścić dane
będące przedmiotem naszego zainteresowania z obserwacji odstających wygenerowanych
przez rozkład H . Usunięcie obserwacji z analizowanego przez nas zbioru danych wiąże się z
szeregiem dylematów. Wymieńmy kilka z nich:
 Kiedy usunięcie obserwacji odstającej jest uprawnione?
 Kiedy obserwacja jest wystarczająco odstająca, aby zostać usunięta?
 Zawsze istnieje niepewność czy obserwacja jest istotnie atypowa, istnieje ryzyko
usunięcia dobrej obserwacji – skutkuje to np. niedoszacowaniem zmienności danych.
Powszechnie wykorzystywaną miarą „odstawania” obserwacji x i względem próby jest

iloraz odległości obserwacji do średniej z próby i odchylenia standardowego:
xi - x
(2.2) ti = ,
s
gdzie x oznacza średnią, s to odchylenie standardowe.
W powszechnie wykorzystywanej regule trzech sigm obserwacje dla których ti > 3
określa się jako podejrzane. Reguła opiera się o obserwację, że przy założeniu normalności
P ( t ³ 3) = 0.003 dla zmiennej losowej o standardowym rozkładzie normalnym.
Reguła trzech sigm posiada szereg wad. Po pierwsze w dużych próbach np. rzędu 1000
obserwacji należy się spodziewać obserwacji z ti > 3 . Po drugie w małych próbach reguła
n -1
jest nieefektywna, można pokazać, że ti < . Bez wątpienia najpoważniejsza wada
n
reguły trzech sigm wiąże się ze zjawiskiem maskowania. W przypadku, gdy mamy kilka
obserwacji odstających mogą one wejść w interakcje powodującą maskowanie jednostek
odstających. Rozważmy dla przykładu następujący zbiór danych w którym występują dwie
obserwacje odstające -44 i -2 (rys. 2.1):
x<-c(28,26,33,24,34,-44,27,16,40,-2,29,22,24,21,25,30,23,29,31,19)
Stosując regułę trzech sigm otrzymamy następujące wartości miary odstawania
25
t<-c( 0.35, 0.24, 0.64, 0.13, 0.69, -3.72, 0.29, -0.32, 1.03, -1.34, 0.41, 0.01, 0.12, -
0.04, 0.18, 0.46, 0.07, 0.41, 0.52, -0.15)
Łatwo zauważyć, że reguła wskazuje obserwację -44 natomiast pomija obserwację -2.
Odstawanie obserwacji -2 zostało zamaskowane przez obserwację odstającą -44.
Rys. 2.1: Przykładowy zbiór danych Rys. 2.2: Wykres kwantyl – kwantyl.
Możemy wyeliminować opisaną wadę reguły trzech sigm poprzez zastąpienie x i s za

pomocą odpornych odpowiedników Med i MAD
x i - Med (x)
(2.3) ti* = ,
MAD(x)
gdzie MAD(x) = MAD(x1, x 2 ,..., x n ) = Med { x - Med (x) }
Zauważmy, że mad(x) = 5.9304 ; sd(x) = 17.62736. Stosując poprawioną regułę otrzymamy:

t*<-c(0.42, 0.08, 1.26, -0.25, 1.43, -11.71, 0.25, -1.60, 2.44, -4.63, 0.59, -0.59, -0.25, -
0.75, -0.08, 0.75, -0.42, 0.59, 0.92, -1.09)
Tym razem obie obserwacje odstające zostają wskazane właściwie.
Przypomnijmy, że w przypadku jednowymiarowym kwantyle są punktami brzegowymi
oddzielającymi oznaczoną górną i dolną frakcję populacji. Każdy punkt x Î  ma
interpretację kwantylową polegającą na tym, że można go wyrazić jako F -1(p) dla pewnego
p Î (0,1) , gdzie F -1 oznacza funkcję odwrotną do dystrybuanty rozkładu.W przypadku
26
jednowymiarowym medianę danego rozkładu definiujemy jako F -1(1 / 2) . Zwróćmy uwagę,

że możemy zdefiniować „obszar centralny” rzędu p definiowany jest jako domknięty
przedział é F -1 ( 1 - p 2 ) , F -1 ( 1 - 1 - p 2 ) ù , na którym skoncentrowane jest

ëê úû
prawdopodobieństwo p . Każdy punkt x Î  posiada interpretację kwantylową mianowicie
jest punktem brzegowym pewnego p tego obszaru centralnego. Parametr p odpowiada
wielkości odstawania x Î  .
Rozważmy zorientowaną na medianę jednowymiarową funkcję kwantylową QF (u ) z
u = 2p - 1 , -1 < u < 1 oraz medianą M = QF (0) zdefiniowaną przez
æ 1 + u ö÷
(2.4) QF (u ) = F -1 çç ÷.
çè 2 ÷ø
Znak parametru u odpowiada kierunkowi od mediany M . Odwrotność funkcji
kwantylowej QF (⋅) tzn. QF-1(x ) = 2F (x ) - 1 , x Î  nazywana jest wycentrowaną funkcją

rangową.
Wielkość QF-1(x ) = 2F (x ) - 1 można traktować jako jednowymiarową miarę
odstawania punktu zważywszy na generujący punkt rozkład.
Przykład R
x1<-rnorm(20,10,2)
x2<-rnorm(3,15,2)
x3<-rnorm(2,25,3)
x<-c(x1,x2,x3)
x<-round(x)
x
10 7 11 7 12 10 8 10 10 9 7 9 12 10 5 14 11 10 7 10 17 14 14 22 25
z<-(x-mean(x))/sd(x) #miara odstawania#
round(z, digits = 2)
-0.27 -0.92 -0.05 -0.92 0.17 -0.27 -0.71 -0.27 -0.27 -0.49 -0.92 -0.49 0.17 -0.27 -1.36 0.60 -0.05 -
0.27 -0.92 -0.27 1.26 0.60 0.60 2.35 3.00
z1<-(x-median(x))/mad(x) #poprawiona miara odstawania#
round(z1,digits=2)
27
0.00 -1.01 0.34 -1.01 0.67 0.00 -0.67 0.00 0.00 -0.34 -1.01 -0.34 0.67 0.00 -1.69 1.35 0.34 0.00
-1.01 0.00 2.36 1.35 1.35 4.05 5.06
round(abs(2*pnorm(x,10,2)-1),digit=2) #funkcja rangowa przy założeniu N(10,2)#
0.68 0.87 0.00 0.00 0.00 0.00 0.87 0.87 0.99 0.38 0.38 0.38 0.38 0.68 0.38
0.87 0.00 0.38 0.00 0.38 1.00 1.00 1.00 1.00 1.00
2. 2 Odporne miary położenia i rozrzutu zmiennej losowej
Przywołajmy przedstawiony w poprzednim podrozdziale model położenia (2.1).

Rozważmy pewien estymator T będący pewną funkcją obserwacji
T = T (x1,..., x n ) = T (x) służący do oszacowania interesującej nas charakterystyki
liczbowej populacji. W odniesieniu do modelu położenia szukamy estymatora, który T » m

z dużym prawdopodobieństwem. Aby zmierzyć jakość takiej aproksymacji można
wykorzystać średni błąd kwadratowy (MSE). Średni błąd kwadratowy estymatora
definiujemy jako
(2.5) MSE (T ) = E (T - m)2 .
Łatwo zauważyć, że MSE można zdekomponować w postaci dwóch członów
(2.6) MSE (T ) = D 2 (T ) + bias(T )2 ,

gdzie bias(T ) = E (T ) - m . (wariancja estymatora + jego obciążenie)
Można pokazać, że przy założeniu normalności błędu w modelu położenia średnia
minimalizuje MSE, jest estymatorem najefektywniejszym. Można powiedzieć, że jest
lepszym estymatorem niż mediana. Zakładając rozkład błędu F0 = N (0, s) można łatwo
æ s ö÷ æ 1.57s ö÷
pokazać, że X ~ N çç m, ÷÷ , oraz Med ~ N ççç m, ÷÷ . Jednakże jeżeli rozważamy
çè n ø ç
è n ø÷
model mieszaniny generujący obserwacje odstające w modelu położenia
F = (1 - p)N (m,1) + pN (m, t 2 ) , to okazuje się że wariancja średniej wynosi
(1 - p) + p t 2 p
D 2 (X ) = , natomiast wariancja mediany D 2 (Med ) » .
n 2n(1 - p + p / t )2
Zatem w przypadku udziału zaburzenia rzędu p = 5% przewaga średniej nad medianą
28
całkowicie znika. Wykorzystując wprowadzone wcześniej miary odporności powiemy, że

średnia ma nieograniczoną funkcję wpływu, jej punkt załamania wynosi zero. Mediana ma
ograniczoną funkcję wpływu i punkt załamania bliski 50%. Historycznie rzecz biorąc
pierwszą własnością estymatora wykorzystywaną w ocenie jego odporności był właśnie jego
średni błąd kwadratowy oraz jego wariancja.
Prezentację odpornych estymatorów położenia rozpoczniemy od M- estymatorów.
Przyjmijmy, że X1,..., Xn oznacza próbę natomiast X(1) £ X(2) £  X(n )
uporządkowane obserwacje próby.

M – estymator Tn jest definiowany jako rozwiązanie zagadnienia minimalizacji
n
(2.7) å r(Xi , q) := min względem q Î Q ,
i =1
bądź równoważnie
(2.8) EP [r(X , q)] = min względem q Î Q
n
gdzie E oznacza wartość oczekiwaną, Pn oznacza rozkład empiryczny, r(,⋅ ⋅) jest stosownie
wybraną funkcją mającą na celu zmniejszyć wpływ obserwacji odstających.
Przykładem M – estymatora jest estymator metody największej wiarygodności
parametru q w modelu parametrycznym  = {Pq , q Î Q} ; jeżeli f (x , q) jest gęstością Pq ,
wtedy estymator NW jest rozwiązaniem minimalizacji

n
(2.9) å (- log f (Xi , q)) = min , q Î Q .
i =1
¶
Jeżeli r jest różniczkowalna względem q z ciągła pochodną y(,⋅ q) = r (⋅, q ) wtedy
¶q
Tn jest pierwiastkiem równania
n
(2.10) å y(Xi , q) = 0 , q Î Q
i =1
stąd
29
n
1
(2.11) å y(Xi , q) = Pn [y(X ,Tn )] = 0 ,Tn Î Q .
n i =1
W literaturze znanych jest szereg funkcji mających na celu zmniejszenie wpływu obserwacji
odstających. Równanie (2.12) przedstawia jedną z propozycji Hubera
ìï t t <b
(2.12) y(t ) = ïí ,
ïïb sgn(t ) t ³b
î
gdzie sgn(x)=1 dla x>0, sgn(x)=-1 dla x<0 i sgn(x)=0 dla x=0.
Natomiast równanie (2.13) przedstawia propozycję Hampela
ì
ï t t <a
ï
ï
ï
ï a sgn(t ) a £ t <b
(2.13) y(t ) = ï
í .
ï
ï {(c - t ) / (c - b)}a sgn(t ) b £ t £ c
ï
ï
ï
ï 0 p.p.
î
Ładując pakiet {robustbase} wykorzystując komendy tukeyChi oraz tukeyPsi1

otrzymamy kolejne propozycje które wraz z pochodnymi przedstawiono na rys. (2.3) i (2.4).
Rys. 2.3: Wykresy funkcji Tukey’a. Rys. 2.4: Wykresy funkcji Tukey’a.
Przykład R
library{robustbase}
delivery #zbiór danych dotyczących czasów dostarczenia przesyłki przez kuriera w zależności
od odległóści#
30
huberM(delivery[,3]) #wskazanie M-estymatora#

18.65
mean(delivery[,3]) #wskazanie średniej arytmetycznej#
22.384
Kolejną ważną klasę jednowymiarowych estymatorów położenia i rozrzutu stanowią L-

estymatory, które opierają się o uporządkowane obserwacje w próbie Xn :1 £ ... £ Xn :n .
Ogólna postać L - estymatora może zostać zapisana w postaci
n k
(2.14) Tn = å cnih(Xn :i ) + å a j h *(Xn :[npj ]+1) ,
i =1 
 j =1

I II
gdzie cn 1,..., cnn i a1,..., ak są danymi współczynnikami, 0 < p1 < ... < pk < 1 oraz h(⋅) i
h * (⋅) są danymi funkcjami.
Współczynniki cni , 1 £ i £ n generowane są przez ograniczoną funkcję wagową
J : [0,1]   w następujący sposób

i
n
(2.15) cni = ò J (s )ds , i = 1,..., n
i -1
n
bądź w sposób przybliżony

1 æç i ö÷
(2.16) cni = Jç ÷ , i = 1,..., n
n èç n + 1 ÷ø
Pierwszy składnik L - estymatora ogólnie rzecz biorąc wykorzystuje statystyki

porządkowe, drugi składnik jest liniową kombinacją kilku (skończenie wielu) kwantyli z
próby. Wiele ze znanych L - estymatorów przyjmuje postać pierwszego albo drugiego –
mówimy o L-estymatorach I-typu bądź o estymatorach II-typu odpowiednio.
Najprostszym przykładem L - estymatora położenia są mediana z próby Med
oraz środek rozstępu
1
(2.17) Tn = (X n :1 + X n :n ) ,
2
31
popularnym L - estymatorem rozrzutu jest

(2.18) Rn = Xn :n - Xn :1
oraz przeciętna różnica Gini’ego

n
1 2
(2.19) Gn = å
n(n - 1) i, j =1
Xi - X j = å (2i - n - 1)Xn :i .
n(n - 1) i =1
Przykład R
midrange<-function(x) #funkcja służąca do obliczenia środka rozstępu#
{
(max(x)+min(x))/2
}
midrange(delivery[,3]) #wykorzystujemy tę funkcję#
sample.range<-function(x) #funkcja służąca do obliczenia rozstępu#
{
max(x)-min(x)
}
sample.range(delivery[,3]) #wykorzystujemy tę funkcję#
gini.mean.difference<-function(x) #funkcja służąca do obliczenia przeciętnej różnicy Gini’ego#
{
x <-sort(x[!is.na(x)])
n<-length(x)
na<-seq((1-n),(n-1),by=2)
2*sum(na*x)/n/(n-1)
}
gini.mean.difference(delivery[,3]) #wykorzystujemy tę funkcję#
W wielu przypadkach podanie jawnej postaci funkcji wpływu estymatora oraz dokładne
oszacowanie jego punktu załamania jest zadaniem niezmiernie skomplikowanym. Często w
takim przypadku zadowalamy się oszacowaniem ich postaci za pomocą symulacji
komputerowej. W przypadku L-estymatorów potrafimy podać jasną postać funkcji wpływu.
Rozważmy L-estymator pierwszego typu Tn posiadający całkowalną funkcję wagową J ,
1
spełniająca warunek ò J (u)du = 1 . Wprowadźmy empiryczny funkcjonał kwantylowy
0
(2.20) Qn (t ) = Fn-1(t ) = inf{x : Fn (x ) ³ t } , 0 < t < 1 ,
który jest empirycznym odpowiednikiem funkcji kwantylowej
(2.21) Q(t ) = F -1(t ) = inf{x : F (x ) ³ t } , 0 < t < 1
i jest równy
32
ìï i -1 i
ïï X ... <t £
n :i
(2.22) Qn (t ) = ïí n n , i = 1,..., n - 1 .
ïï n -1
ïï Xn :n ... <t £1
î n
Wykorzystując empiryczną funkcję kwantylową (…) i funkcję kwantylową (…) mamy

postać L - estymatora:
1
(2.23) Tn = ò J (s )h(Qn (s ))ds ,
0
1
(2.24) T = ò J (s )h(Q(s ))ds ,
0
gdzie
Funkcja wpływu L-estymatora przyjmuje postać

¥ ¥
(2.25) IF (x ,T , F ) = ò F (y )h ¢(y )J (F (y ))dy - ò h ¢(y )J (F (y ))dy .
-¥ x
Jeżeli L - estymator Tn przycina obserwacje w takim sensie, że jego funkcja wagowa
spełnia J (u ) = 0 dla 0 < u £ a i 1 - a £ u < 1 , i BPn jest jego punktem załamania w n
– elementowej próbie, wtedy limn ¥ BPn = a .
Przykładem L-estymatora jest a - przycięta przeciętna (0 < a < 1 2) będąca
przeciętną kwantyli centralnych:

n -[n a ]
1
(2.26) Xn a = å X .
n - 2[n a ] i =[n a ]+1 n :i
W jej przypadku współczynniki przyjmują postać

ì
ï 1
ï
ï ... [n a ] + 1 £ i £ n - [n a ]
cni = í n - [n a ] ,
ï
ï
ï
ï 0 ... p.p
î
Funkcja wagowa może zostać wyrażona jako
33
1
J (u ) = I [a £ u £ 1 - a ] ,
1 - 2a
Wykorzystując funkcję kwantylową możemy ją zapisać
1-a
1
Tn = T (Fn ) =
1 - 2a ò Fn-1(u )du ,
a
1-a
1
T (F ) =
1 - 2a ò F (u )du .
a
Jeżeli BPn jest jego punktem załamania tej średniej w n – elementowej próbie, wtedy
limn ¥ BPn = a . Jako ćwiczenie proponujemy czytelnikowi szacować funkcję wpływu tej
średniej za pomocą symulacji.
Następnym przykładem L-estymatora jest a - przeciętna Windsora. Poniżej
przedstawiamy ją w ogólnej postaci z dwoma składowymi
1 ìïï üï
n -[n a ]
ï
(2.27) Wn a = T (Fn ) =
nï
í
ï
[n a ]X n :[n a ]+1 + å X n :i + [n a X
] n :n -[n a ] ý
ï
î i =[n a ]+1 þï
1-a
= aFn-1(a) + ò Fn-1(u )du + aFn-1(1 - a) .
a
Zwróćmy uwagę, że w przypadku tej średniej ekstremalne kwantyle nie zastają odcięte
jak poprzednio lecz zostają zastąpione kwantylami Xn :[n a ]+1 i Xn :n -[n a ] .
Kolejnym przykładem odpornego estymatora położenia jest ważona średnia Sena:
æ n ö÷-1 n æ i - 1 öæ ÷÷ çç n - 1 ö÷÷
(2.28) Tn,k = ççç ÷÷ å çç ÷÷ ç k ÷÷ Xn :i ,
çè 2k + 1 ÷ø i =1 çèç k øè ç ø
n -1
gdzie 0 < k < .
2
Zauważmy, że Tn,0 = Xn oraz Tn,k jest medianą z próby, gdy n jest parzyste i
n n -1
k = - 1 albo n jest nieparzyste i k = .
2 2
34
Naszą krótką prezentację odpornych estymatorów położenia zakończymy głośnym

estymatorem Hodgesa – Lehmanna.
Niech Ri będzie rangą obserwacji Xi w próbie X1,..., Xn , i = 1,..., n gdzie
X1,..., Xn jest losową próbą z populacji o ciągłej dystrybuancie. Ranga Ri może zostać
wyrażona jako
n
(2.29) Ri = å I [X j £ Xi ] , i = 1,..., n ,
j =1
stąd Ri = nFn (Xi ) , i = 1,..., n , Fn jest dystrybuanta empiryczna X1,..., Xn
Hodges i Lehmann (1963) zaproponowali klasę estymatorów nazywanych R-

estymatorami, które można traktować jako odwrotność testów rangowych. Najbardziej
znany reprezentant tej klasy estymatorów ma postać:
ì
ï Xi + X j ü
ï
(2.30) TnH = med ï
í : 1 £ i £ j £ n ï
ý.
ï
ï 2 ï
ï
î þ
Punkt załamania tego estymatora wynosi w przybliżeniu 29%. Estymator ten jest
efektywniejszy od mediany w przypadku próby z rozkładu normalnego.
Przykład R
library(MASS) #ładujemy pakiet MASS#
ssaki<-mammals #dane dotyczące wagi i wielkości mózgu dla 62 gatunków ssaków#

plot(ssaki,cex=3)
mean(ssaki[,1])#liczymy średnią#
median(ssaki[,1]) #liczymy medianę#
mean(ssaki[,1], trim=0.05) #liczymy 5% przyciętą średnią#

mean(ssaki[,1], trim=0.10)
winsorized.mean(ssaki[,1], trim=0.05) #liczymy 5% średnią Winsora#
winsorized.mean(ssaki[,1], trim=0.10)
sen.weight.mean<-function(x,k=0) #tworzymy funkcję liczącą średnią Sena#

{
x <- x[!is.na(x)]
n<-length(x)
35
if ((k < 0) | (k>=(n-1)/2) )

stop("cannot estimate: k<0 or k>=(n-1)/2")
if (trunc(k)!=k)
stop("cannot estimate: k is not integer")
sum(choose(0:(n-1),k)*choose((n-1):0,k)*sort(x))/choose(n,2*k+1)
}
hodges.lehmann<-function(x) #tworzymy funkcję liczącą estymator H-L#

{
x <-x[!is.na(x)]
n<-length(x)
xa<-c()
for (i in 1:n) for(j in i:n) xa<-append(xa,(x[i]+x[j])/2)
median(xa)
}
sen.weight.mean(ssaki[,1],1) #liczymy średnią Sena dla k=1#
sen.weight.mean(ssaki[,1],2)
sen.weight.mean(ssaki[,1],3)
hodges.lehmann(ssaki[,1]) #liczymy estymator H-L#
hubers(ssaki[,1]) #liczymy M-estymator położenia#
Najczęściej wykorzystywanym estymatorem rozrzutu wartości zmiennej losowej jest

odchylenie standardowe z próby. Nie jest to estymator odporny. W charakterze jego
odpornych konkurentów przywołajmy medianę odchylenia absolutnego od mediany
(MAD) oraz rozstęp kwartylowy (IQR)
(2.31) MAD = 1.48 * Med { x i - Med {x i } ,
(2.32) IQR = 0.74 * x( ê 0.75*n ú ) - x( ê 0.25*n ú ) ,

ë û ë û
gdzie współczynniki 1.48 i 0.74 wiążą się z dopasowaniem miar do rozkładu normalnego,
ê x ú oznacza najmniejszą liczbę całkowitą nieprzekraczającą x.
ë û
Punkt załamania MAD jest bliski 50%, punkt załamania IQR jest bliski 25%. W ramach
ćwiczenia proponujemy czytelnikowi zbadać za pomocą symulacji efektywność tych
estymatorów w porównaniu do odchylenia standardowego dla kilku wybranych rozkładów
prawdopodobieństwa. Proponujemy też zbadać odporność przeciętnej różnicy Gini’ego.
36
Przykład R
boxplot(ssaki[,2],cex=2)
sd(ssaki[,2])
0.74*IQR(ssaki[,2])
1.48*mad(ssaki[,2])
gini.mean.difference(ssaki[,2])
library(robustbase)
Qn(ssaki[,2], finite.corr = FALSE) #efektywniejsza alternatywa dla MAD#
scaleTau2(ssaki[,2]) #efektywniejsza alternatywa dla MAD#
3. Wybrane zagadnienia statystyki wielowymiarowej
3.1 Odporna miara położenia i rozrzutu wektora losowego
Wielowymiarowa analiza statystyczna oferuje ekonomiście niezmiernie bogate spektrum

metod badawczych znajdujących zastosowanie zarówno w praktyce jak i w teorii ekonomii.
Znajomość metod statystyki wielowymiarowej przyczynia się do lepszego zrozumienia
mechanizmów gospodarczych, natury współzależności złożonych układów ekonomicznych,
jest nieodzowna w wielu sferach działalności gospodarczej.
Analiza statystyczna prowadzona w wielu wymiarach niesie ze sobą szereg złożonych
kwestii, których nie spotyka się w analizie jednowymiarowej. Wiele uznanych procedur
jednowymiarowych nie posiada uogólnienia na wiele wymiarów, względnie jednoznaczne
pojęcia znane ze statystyki jednowymiarowej (np. jednostka odstająca, symetria) w statystyce
wielowymiarowej nabierają wielu znaczeń. Statystyka wielowymiarowa na ogół wymaga
większych prób, wraz ze wzrostem wymiaru wielkość próby często rośnie lawinowo. W
przypadku wielowymiarowym na „ogonach” rozkładu zgromadzone jest relatywnie więcej
masy probabilistycznej niż w przypadku jednowymiarowym. W przypadku
wielowymiarowym trudniej jest wskazać obserwacje odstające w zbiorze danych.
W wielu zastosowaniach zainteresowani jesteśmy wskazaniem centrum i charakterystyki
rozrzutu wokół tego centrum.
37
Przypuśćmy, że analizujemy zbiór danych Xn = {(x11, x12 ,..., x1p ),...,(x n 1, x n 2 ,..., x np )} ,
n punktów w p wymiarach, Xn = {x1,..., xn } . Powiemy, że estymator T jest statystyką,

która jest ekwiwariantna względem przesunięć jeżeli
(3.1) T (x1 + b,..., xn + b) = T (x1,..., xn ) + b , b Î  p .
Najlepiej znany wielowymiarowy estymator położenia centrum to średnia arytmetyczna

po współrzędnych (wektor średnich):
n
1
(3.2) T (X ) = x = åx .
n i =1 i
n
2
Wektor średnich jest to estymatorem NK ponieważ minimalizuje å xi - T , gdzie
i =1
⋅ jest zwykłą normą. Wektor średnich nie jest odpornym estymatorem położenia.
Powiemy, że estymator T jest statystyką która jest afinicznie niezmiennicza wtedy i

tylko wtedy gdy
(3.3) T (x1A + b,..., xn A + b) = T (x1,..., xn )A + b ,
gdzie A oznacza nieosobliwą macierz działającą z lewej, b Î  p .

Wydaje się, że najprostszą metodą skonstruowania odpornego estymatora w przypadku
wielowymiarowym jest wykorzystanie jednowymiarowego odpornego estymatora dla każdej
współrzędną oddzielnie. Dla każdej zmiennej j , j = 1,..., p zbiór liczb x1 j , x 2 j ,..., x nj może
być rozważany jako jednowymiarowy zbiór danych złożony z n punktów. Przykładem

takiego rozumowania może być mediana po współrzędnych:
(3.4) MED = (med x i1, med x i 2,..., med x ip ) .
i i i
Łatwo ją policzyć, ma BP bliski 50% jednak nie spełnia pewnych naturalnych postulatów
np. może nie leżeć musi leżeć w powłoce wypukłej próby. Dla przykładu weźmy p
wektorów jednostkowych (1, 0,..., 0) , (0,1,..., 0) ,…, (0, 0,...,1) , mediana po współrzędnych
wynosi (0, 0,..., 0) . Czy jest to estymator afinicznie niezmienniczy?
38
Kolejnym przykładem wielowymiarowego estymatora położenia jest L1 estymator

położenia nazywany też medianą przestrzenną. Estymator ten definiujemy jako
rozwiązanie zagadnienia minimalizacji
n
(3.5) SM = min å xi - T .
T
i =1
Estymator ten wprawdzie jest mniej wrażliwy niż wektor średnich na obserwacje
odstające jednakże także ma nieograniczoną funkcję wpływu i punkt załamania BP
wynoszący 0%. Poprzez analogię z M-estymatorami można zaproponować jego modyfikację
n
(3.6) min å r ( xi - T ),
T
i =1
gdzie r jest stosownie dobraną funkcją odległości mającą na celu zabezpieczenie przed
obserwacjami odstającymi.
W kontekście proponowania odpornych estymatorów położenia można zadać pytanie
dlaczego nie zastosować prostej zasady polegającej na wstępnej eliminacji obserwacji
odstających by następnie policzyć np. wektor średnich. Podejście takie rozwijano w latach
siedemdziesiątych ubiegłego wieku. Obecnie określa się je mianem naiwnego m. in. z
powodu, że częstokroć paradoksalnie okazywało się nie być odpornym, nie są znane
statystyczne własności takiego postępowania. Za przykład tego podejścia weźmy
wykorzystanie do odrzucania obserwacji odstających kwadratu odległości Mahalanobisa:
(3.7) MD 2 (xi , X) = (xi - T (X))C (X)-1(xi - T (X))¢ ,
gdzie T (X) jest miarą położenia np. wektor średnich, C (X)-1 jest macierzą kowariancji.
Kwadrat odległości Mahalanobisa obliczamy dla każdej obserwacji. Punkty dla których
MD 2 (xi , X ) przyjmuje dużą wartość zostają odrzucone. W oparciu o resztę obserwacji
obliczamy wartość klasycznego estymatora położenia. Podejście to jest godne polecenia

jedynie w przypadku występowania pojedynczych obserwacji odstających. Podejście nie
radzi sobie ze zjawiskiem maskowania.
Pierwszy afinicznie ekwiwariantny wielowymiarowy estymator położenia z punktem
załamania bliskim 50% został zaproponowany niezależnie przez Stahela (1981) i Donoho
(1982). Estymator ten nazywany jest średnią ważoną odstawaniem. Jego konstrukcja
39
przedstawia się następująco. Dla każdej obserwacji xi liczymy miarę odstawania tej
obserwacji xi :
xi v ¢ - med ( x j v ¢ )
j
(3.8) ui = sup ,
v =1 med xk v ¢ - med (x j v ¢)
k j
gdzie med ( x j v ¢ ) jest medianą projekcji danych x j w kierunku wektora v , mianownik jest
j
medianą odchyleń absolutnych tych projekcji. Wykorzystując policzone miary odstawania

obserwacji ważona odstawaniem średnia przyjmuje postać
n
å w(ui )xi
i =1
(3.9) T (X) =
n
å w(ui )
i =1
gdzie w(u ) jest ściśle dodatnią i malejąca funkcja u ³ 0 , taką że uw(u ) jest ograniczona.
Zwróćmy uwagę, że miara odstawania (…) jest afinicznie ekwiwariantna, ui nie zmienia
się gdy xi zastąpimy przez xi A + b . Donoho (1982) pokazał że punkt załamania ważonej
odstawaniem średniej jest bliski 50%.
Warto zauważyć, że kwadrat odległości Mahalanobisa może zostać zapisany w postaci:
æ 1
n ö÷
çç
çç x i v ¢ -
n
å i ÷÷÷÷
x v ¢
ç i =1 ÷÷ .
(3.10) MD 2 (xi , X ) = çç sup
çç v =1 SD(x1v ¢,..., xn v ¢) ÷÷÷
çç ÷÷
çèç ÷÷
ø
W liczniku (…) dostrzegamy średnią arytmetyczną a w mianowniku odchylenie standardowe.

Chcąc uodpornić tę miarę odstawania możemy zastosować medianą i MAD bądź np.
jednowymiarowe M – estymatory położenia i rozrzutu.
Drugi afinicznie niezmienniczy estymator o punkcie załamania bliskim 50% został
zaproponowany przez Rousseeuw w 1983 roku. Jego propozycja nazywana jest
estymatorem elipsoidy minimalnej objętości (por. rys. (3.1)).
Definiujemy go jako
40
(3.11) MVE (Xn ) = centrum elipsoidy o minimalnej objętości pokrywającej
przynajmniej h punktów Xn ,
gdzie h = éê n / 2 ùú + 1 , Xn = {x1,..., xn } .
Przykład R
library(car)
data.ellipse(Prestige$income, Prestige$education, levels=0.1*1:9, lty=2)
Rys. 3.1: Elipsoidy koncentracji. Rys. 3.2: Wektor średnich, MVE, MDE.
Obliczanie wartości estymatora minimalnej elipsoidy objętości rozpoczynamy od próbki

(p + 1) różnych obserwacji indeksowanych przez J = {i1,..., ip +1} . Dla tej podróbki
wyznaczamy średnią arytmetyczną i odpowiadającą macierz kowariancji, dane przez

1 1
xJ = å
p + 1 i ÎJ
xi oraz CJ = å (xi - xJ )¢ (xi - xJ ) ,
p i ÎJ
gdzie macierz CJ jest nieosobliwa, gdy xi ,..., xi znajdują się w ogólnej pozycji.
1 p +1
W kolejnym kroku powiększamy lub pomniejszamy elipsoidę tak, aby zawierała

dokładnie h punktów, liczymy
mJ2 = med (xi - xJ )C J-1(xi - xJ )¢ ,

i =1,...,n
Objętość elipsoidy odpowiadającej mJ2 CJ jest proporcjonalna do
41
(det(mJ2 CJ ))1/2 = (det(CJ ))1/2 (mJ )p .
Powtarzamy powyższe operacje dla wielu J aż osiągamy minimum, wtedy liczymy
MVE (X ) = xJ i MVECOV (X ) = (cp2,0.50 )-1mJ2 CJ
Zwróćmy uwagę, że w wyniku przeprowadzenia operacji prowadzących do estymatora

minimalnej elipsoidy objętości uzyskujemy również odporne oszacowanie macierzy
kowariancji wektora losowego.
Kolejną propozycję wielowymiarowego estymatora położenia o wysokim punkcie
załamania stanowi estymator minimalnego wyznacznika macierzy kowariancji.
Definiujemy go jako
(3.12) MDE (Xn ) = średnia z h punktów próby Xn dla których

wyznacznik
macierzy kowariancji jest minimalny,
gdzie h jest ustalone.

Zauważmy, że możemy policzyć macierz kowariancji ograniczając się do wybranych h
punktów minimalizujących powyższe kryterium
Przykład R
#Estymatory MVE i MDE możemy policzyć za pomocą pakietu MASS#
Library(MASS)
x<-c(0.0, 0.2, 0.4, 0.6, 0.8, 1, 1.2, 1.4, 1.6, 1.8, 2, 2.2, 2.4, 2.6, 2.8, 3, 3.2, 3.4, 3.6, 3.8, 4,
4.2, 4.4, 4.6, 4.8, 5, 5.2, 5.4,5.6, 5.8, 9.32, 9.3, 8, 11.53, 8.4, 9, 8, 12,11)
y<-c(0.97, 1.46, 2.75, 3.57, 4.78, 3.56, 2.88, 4.18, 5.34, 5.01, 5.53, 6.21, 8.06, 6.63, 8.04,
9.25, 7.53, 10.69, 8.82, 9.35, 9.75, 9.52, 10.21, 11.33, 11.08, 11.26, 12.34, 14.98, 13.24, 13.50,
6.23, 2, 3.92, 1.54, 5.78, 3, 4,0,1)
z<-cbind(x,y)
scatterplot(y~x, reg.line=FALSE, smooth=FALSE, labels=FALSE, boxplots='xy', span=0.5, xlab="x",
ylab="y", cex=2, cex.axis=2, cex.lab=2, pch=13,data=z)
cov.rob(z, method = "mve", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnej elipsoidy objętości#
cov.rob(z, method = "mcd", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnego wyznacznika macierzy kowariancji#
cov.rob(z, method = "classical", nsamp = "best")
#liczymy zwykłą macierz kowariancji#
42
points(2.86, 7.45, cex=2, pch=15,col="blue")

points(2.88, 7.43, cex=2, pch=16,col="green")
points(4.45, 6.64, cex=2, pch=17,col="brown")
#dajemy czytelnikowi pod rozwagę klasę odpornych estymatorów macierzy kowariancji,
które można policzyć za pomocą pakietu {robustbase}#
library(robustbase)
cO1 <- covOGK(z, sigmamu = scaleTau2)
cO2 <- covOGK(z, sigmamu = s_Qn)
cO3 <- covOGK(z, sigmamu = s_Sn)
cO4 <- covOGK(z, sigmamu = s_mad)
cO5 <- covOGK(z, sigmamu = s_IQR)
CO1$cov
CO2$cov
CO3$cov
C04$cov
C05
mcd<-covMcd(z) #zalecamy czytelnikowi uważne przestudiowanie wykresów diagnostycznych
dostępnych w pakiecie {robustbase}#

plot(mcd, which = "distance", classic = TRUE)# 2 plots
plot(mcd, which = "dd")
plot(mcd, which = "tolEllipsePlot", classic = TRUE)
op <- par(mfrow = c(2,3))
plot(mcd) ## -> which = 3 (5 plots)
par(op)
Rys. 3.3: Wykresy diagnostyczne Rys. 3.4: Elipsoidy koncentracji.
43
2.2 Regresja odporna
Przypuśćmy, że w oparciu o dane Zn = {(yi , xi ),...,(yn , xn )} , gdzie yi Î  oznaczają
odpowiedzi, xi Î  p oznaczają zmienne objaśniające zamierzamy przewidywać Y za
pomocą Xt  . Oznaczmy reszty ri () = yi - xti  . Powszechnie wiadomo, że estymator
metody najmniejszych kwadratów wektora parametrów  będąc uogólnieniem średniej

arytmetycznej na zagadnienie regresji jest bardzo wrażliwy na obserwacje odstające.
Pierwszy krok w kierunku estymatora odpornego wykonał Edgeworth (1887),
poprawiając propozycję Boscovicha. Jego kryterium najmniejszych wartości absolutnych L1
jest postaci
n
(3.13) min å ri .
b
i =1
Kryterium (3.13) uogólnia jednowymiarową medianę, regresja wyznaczona jest

jednoznacznie. Jednak o ile BP zwykłej mediany wynosi 50%, można pokazać, że regresja
L1 ma BP=0% jak metoda najmniejszych kwadratów (NK). Chociaż regresja L1 zabezpiecza
nas przed obserwacjami odstającymi yi , nie radzi sobie z tzw. punktami drabinowymi (ang.
leverage points) tzn. odstającymi wartościami zmiennych objaśniających.
Za pierwszą próbę wprowadzenia odpornego estymatora regresji uznaje się
zaproponowanie M estymatora regresji polegające na uogólnienieniu estymatora
największej wiarygodności uzyskiwanego poprzez minimalizację funkcji celu
n
(3.14) min å r(ri ()) ,

i =1
gdzie r(r ) = r(-r ) i r jest monotonicznie malejącą funkcją dla r ³ 0 .
Kryterium takie nie jest niezmiennicze względem powiększenia rozrzutu błędu. Często
zatem szacujemy położenie i rozrzut łącznie:
n
(3.15) å y(ri / sˆ)xi = 0,
i =1
44
n
(3.16) å c(ri / sˆ) = 0 ,
i =1
gdzie y jest pochodną r i c jest funkcją symetryczną.

Huber proponuje przykładowo y(u ) = min(k, max(u, -k )) , k »~ 1.5 . Jego
estymator jest efektywniejszy niż estymator L1 w przypadku prostej regresji z niezależnymi
błędami o identycznym rozkładzie normalnym. Punkt załamania jego propozycji wynosi zero
z powodu punktów drabinowych.
M- estymatory starano się uodpornić na punkty drabinowe proponując uogólnione M-
estymatory (GM). Aby zmniejszyć wpływ takich punktów stosuje się pewną funkcję
wagową. Przykładowo Mallows (1975) proponuje następujący GM estymator (minimalizację
poniższej funkcji kryterium)
n
(3.17) å w(xi )y(ri / sˆ)xi = 0.
i =1
Punkt załamania estymatorów GM wynosi w przybliżeniu 1 / (p + 1) , gdzie p to
wymiar xi
Na przełomie lat 70-tych i 80-tych ubiegłego wieku postawiono pytanie o to czy w ogóle
możliwy jest estymator parametrów regresji o najwyższym z możliwych punktów załamania.
Jako pierwszy odpowiedzi twierdzącej udzielił Siegel (1982). Estymator zaproponowany
przez Siegla posiadał punkt załamania równy 50% jednak nie był regresyjnie ekwiwariantny8
oraz odznaczał się wielką złożonością obliczeniową.
Zadano wówczas pytanie czy możliwy jest regresyjnie ekwiwariantny estymator o
wysokim BP. Pozytywnej odpowiedzi udzielili Rousseeuw (1984) i Hampel (1984).
Rousseeuw zaproponował estymator najmniejszej mediany kwadratów (LMS) jako
rozwiązanie zagadnienia minimalizacji
(3.18) ˆ = min Med { r ()2 : i = 1,..., n } ,

 i

Alternatywnie
8
Przypomnijmy, że estymator wektora parametrów regresji jest afinicznie ekwiwariantny jeżeli z tego, że
(
wyjściowe dane przekształcimy za pomocą (Yi , Xi )  aYi , At Xi ) dla skalara a Î  i nieosobliwej
macierzy A wynika, że wektor parametrów przekształca się bˆ  aA-1
ˆ.
45
(3.19) min MAD { ri ()} .


Rousseeuw (1984) pokazał, że estymator ten ma punkt załamania 50%, jest to estymator
zgodny. Świadomość istnienia takich estymatorów skłoniła statystyków do badań szybkości
3
ich zbieżności. Okazało się wówczas, że estymator LMS, nie jest n a jedynie n zgodny
to znaczy ˆ-  ¥,
n  3 ˆ -  = O (1) , ponadto estymator nie jest lokalnie
n 
p p
stabilny. Fakty te stanowiły istotne ograniczenie stosowalności estymatora LMS – jego

zastosowanie praktyczne wymagały wielkich prób.
Zauważy, że w przypadku regresji odpornej dobroć dopasowania można tu mierzyć za
pomocą zamiennika dla (nieodpornego) współczynnika determinacji:
æ med ri ö÷
(3.20) R2 = 1 - ççç ÷÷ .
çè MAD(yi ) ÷ø
Rozpoczęto poszukiwania lepszych estymatorów to znaczy zarówno odpornych jak i

efektywnych oraz mających zastosowanie w przypadku umiarkowanie licznych prób. W
1984 roku Rousseeuw i Yohai (1984) zaproponowali klasę tzw. S estymatorów regresji
wprowadzając kryterium min S (ri ()) , gdzie S oznacza miarę rozrzutu (dla S = MAD

otrzymujemy estymator LMS, dla S = SD otrzymujemy estymator NK). Autorzy jako

miarę rozrzutu zaproponowali ograniczony monotoniczny M estymator rozrzutu, dzięki
czemu ich estymator regresji okazał się n zgodny i asymptotycznie normalny.

Rousseeuw zaproponował także estymator najmniejszych przyciętych kwadratów
(ang. least trimmed squares) (LTS) jako minimum
h
(3.21) min å (r 2 )i :n ,
ˆ
b
i =1
gdzie hn = [n / 2] + [(p + 1) / 2] oraz [a ] oznacza część całkowitą a,
(r 2 )1:n £  £ (r 2 )i :n to uporządkowane kwadraty reszt regresji.
Szybkość zbieżności z próby estymatora LTS wynosi n , jego punkt załamania BP jest
bliski 50%. Zauważmy, że zarówno LMS jak i LTS estymator konstruuje się stosując
odporną miarę rozrzutu reszt regresji. Zasadnicza cecha metod LMS i LTS to dopasowanie
regresji do WIĘKSZOŚCI danych.
46
Rys. 3.4: Odporne i nieodporne Rys. 3.5: Odporne i nieodporne

dopasowania funkcji regresji do danych. dopasowania funkcji regresji do danych.
Rys. 3.6: Odstawanie co do zmiennej Rys. 3.7: Odstawanie co do zmiennej

objaśnianej. objaśniającej (ang. leverage point)
Przykład R
library (robustbase)
data(starsCYG)
plot(starsCYG,cex=2)
WYN1<-lm(starsCYG[,1]~starsCYG[,2]) #NK#
summary(WYN1)
abline(WYN1,lwd=2,col="red")
47
WYN2<-rlm(starsCYG [,1]~ starsCYG [,2]) #M-estymator#

summary(WYN2)
abline(WYN2,lwd=2,col="blue")
deviance(WYN2)
WYN3<-rlm(starsCYG [,1]~ starsCYG [,2], method="MM") #MM-estymator#
summary(WYN3)
abline(WYN3,lwd=2,col="brown")
Rys. 3.8: Dobra jednostka odstająca. Rys. 3.9: Typowy przykład.
rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.huber) #wybór funkcji psi#

rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.hampel)
rlm(starsCYG [,1]~ starsCYG [,2], psi=psi.bisquare)
WYKORZYSTAMY PAKIET MASS
###LMS###
WYN4<-lqs(starsCYG [,1]~ starsCYG [,2],method="lms") #mediana kwadratów#
WYN5<-lqs(starsCYG [,1]~ starsCYG [,2],method="lts") #przycięte kwadraty#

WYN4
WYN5
abline(WYN4,lwd=2,col="green")
abline(WYN5,lwd=2,col="pink")
{pakiet robust base} #LTS#
WYN6<-ltsReg(starsCYG [,1]~ starsCYG [,2])
WYN6
data(starsCYG, package = "robustbase")
plot(starsCYG,cex=2)
48
lmST <- lm(log.light ~ log.Te, data = starsCYG)

RlmST <- lmrob(log.light ~ log.Te, data = starsCYG) ##MM-estymator##
abline(lmST, col = "red",lwd=2)
abline(RlmST, col = "blue",lwd=2)
summary(RlmST)
vcov(RlmST)
stopifnot(all.equal(fitted(RlmST),predict(RlmST, newdata = starsCYG),tol = 1e-14))
3.3 Odporność w badaniu szeregów czasowych.
Pojęcie jednostki odstającej w przypadku szeregów czasowych jest szczególnie złożone

m. in. za sprawą zależności obserwacji od czasu, za sprawą „pamięci” procesu generującego
szereg czasowy. Obserwacje odstające w przypadku szeregów czasowych traktowane są jako
realizacja pewnego procesu odstawania. Warto podkreślić, że w przypadku modelowania
szeregów czasowych pojedyncza jednostka odstająca może wielokrotnie wpływać na
oszacowanie parametrów modelu generującego szereg. Dla przykładu izolowana jednostka
odstająca pojawia sie dwukrotnie w szeregu pierwszych różnic (patrz rys. (3.9) i rys. (3.10)).
W odpornej analizie szeregów czasowych najczęściej wyróżnia się: izolowane jednostki
odstające, ścieżki jednostek odstających (ang. patchy outliers – patrz rys. 3.11), lokalne
przesunięcia średniej (ang. level shifts in mean value – patrz rys. 3.12). Jednostki odstające
w przypadku szeregów czasowych mogą negatywnie wpływać na oszacowania parametrów
modeli szeregów czasowych, przy czym postać wpływu zależy od typu odstawania.
Szczegółowe wprowadzenie w tematykę znaleźć można m. in. w Maronna i in (2006).
Powszechnie wykorzystywane narzędzia analizy szeregów czasowych9 na ogół nie są
odporne na występowanie obserwacji odstających. Dla przykładu przywołajmy często
wykorzystywaną autokorelację rzędu k
Cov(yt +k , yt ) C (k )
(3.22) r(k ) = = ,
2 C (0)
D (yt )
9
Mamy tutaj na uwadze korelogram sporządzony z wykorzystaniem współczynnika korelacji cząstkowej, miary
dobroci dopasowania modeli do danych empirycznych .
49
gdzie Cov oznacza kowariancję.

Rozważmy dla ilustracji zagadnienie oszacowania autokowariancji r(1) w oparciu o
próbę y1, y2 ,..., yT obserwowanych wartości szeregu czasowego, załóżmy dla prostoty, że
m = Ey = 0 . W takiej sytuacji naturalny estymator autokowariancji rzędu jeden ma postać

T -1
(3.23) rˆ(1) =
åt =1 yt yt +1 .
T
åt =1 yt2
Rys. 3.9: Izolowana jednostka odstająca. Rys. 3.10: Izolowana jednostka
odstająca pojawia się dwukrotnie w
szeregu pierwszych różnic.
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne
Rys. 3.11: Ścieżka jednostek Rys. 3.12: Izolowana jednostka odstająca

odstających oraz lokalne przesunięcia średniej.
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne
Przypuśćmy, że w pewnym momencie t0 , zastępujemy prawdziwą wartość szeregu przez
dowolną (niekorzystną) wartość A , gdzie 2 £ t0 £ T - 1 . W takim przypadku estymator

przyjmie postać:
50
T -1
(3.24) rˆ(1) =
åt =1 ytyt +1I (t Ï {t0 - 1, t0 }) + yt -1A + Ayt +1 .
0 0
T T
åt =1 yt2I (t ¹ t0 ) + A2 åt =1 yt2(t ¹ t0 ) + A2
Zauważmy A pojawia się w kwadracie w mianowniku i liniowo w liczniku zatem rˆ(1)
zmierza do zera, gdy A  ¥ dla wszystkich innych wartości yt ustalonych dla t ¹ t0 .
Wartość odstająca yt = A powoduje obciążenie rˆ(1) w kierunku zera.

0
Z punktu widzenia modelu generującego dane na ogół wyróżnia się trzy typy
jednostek odstających: proces dodający jednostki odstające (ang. additive outliers) (AO),
proces zastępujący jednostkami odstającymi (ang. replacement outliers) (RO) oraz proces
innowacji zależny od modelu generującego szereg (ang. innovation outliers) (IO).
Modelowanie odstawania w przypadku szeregów czasowych jest zagadnieniem stosunkowo
słabo upowszechnionym w literaturze polskojęzycznej. Przywołajmy, zatem za Maronna i in.
(2006) trzy podstawowe modele odstawania w przypadku szeregów czasowych.
Niech xt oznacza zasadniczy w danych rozważaniach proces stacjonarny w szerszym
sensie (nie zmienia się jego wartość oczekiwana i wariancja, kowariancja zależy jedynie od
opóźnienia), niech vt oznacza stacjonarny proces odstawania. Niech P (vt = 0) = 1 - e , co
oznacza, że „niezerowa” część procesu vt pojawia się z prawdopodobieństwem e .
W modelu AO, zamiast xt obserwujemy yt = xt + vt przy czym zakłada się, że
procesy xt i vt są wzajemnie niezależne. Dla przykładu niech xt ~ N (0, sx2 ) ,
vt ~ (1 - e)d0 + eN (mv , sv2 ) , oraz załóżmy, że sv2 >> sx2 . AO można określić, jako proces
błędów grubych, obserwacje odstające na ogół są izolowane.
Rys. 3.13: Realizacja procesu AR(2) + AO Rys. 3.14: Realizacja procesu AR(2) + RO
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne 51
W przypadku procesu zastępującego jednostkami odstającymi (RO) na obserwacje

patrzymy z punktu widzenia modelu yt ~ (1 - zt )xt + zt wt , gdzie zt jest procesem zero-
jedynkowym, wt jest procesem zastępowania obserwacji, niekoniecznie niezależnym od
oryginalnego procesu xt .
Trzecim z przywoływanych przez nas typem jednostek odstających są jednostki odstające

dotyczące innowacji (błędów losowych, zaburzeń) typowych dla ustalonego typu procesu
stochastycznego generującego szereg czasowy. Modele IO pojawiają się w obrębie
specjalnych procesów jak AR, ARMA, ARIMA, ARCH, GARCH, CHARMA itd., jednostka
odstająca typu IO wpływa nie tylko na obserwację w danej ustalonej chwili, ale także na
obserwacje po niej następujące. W dalszej części niniejszego rozdziału rozważamy odporną
estymację procesów ARMA i GARCH. Wspomnijmy zatem dla przykładu, że w przypadku
stacjonarnego modelu autoregresyjnego pierwszego rzędu AR(1) danego przez
xt = fxt -1 + ut , gdzie proces innowacji ut oznacza niezależne zmienne o tym samym
rozkładzie o przeciętnej zero i skończonej wariancji oraz f < 1 obserwacja odstająca typu
IO dotyczy procesu ut . Jednostka odstająca typu IO działa niczym impuls – jej wpływ na
proces utrzymuje się dłużej niż w przypadku AO i RO, długość trwania wpływu zależy od
parametrów procesu (tu do f ). Warto zaznaczyć, że występowanie IO może poprawić
precyzje oszacowania f .
Autoregresyjne procesy średnich ruchomych ARMA(p, q ) stanowią szeroką klasę
elastycznych modeli szeregów czasowych powszechnie wykorzystywanych w ekonomii
(patrz np. Maddala (2006)). Otóż szereg czasowy {xt ; t = 0, 1, 2,...} generowany jest
przez model ARMA(p,q) jeżeli jest stacjonarny oraz
(3.25) xt = a + f1xt -1 + ... + fp xt -p + ut + q1ut -1 + ... + qq ut -q ,
gdzie fp ¹ 0 , qq ¹ 0 , su2 > 0 , parametry p i q nazywane są rzędami procesów
odpowiednio autoregresyjnego i średnich ruchomych, a = m(1 - f1 - ... - fp ) , gdzie m
oznacza przeciętną xt , {wt ; t = 0, 1, 2,...} jest (zazwyczaj) gaussowskim białym szumem
(procesem zaburzeń, reszt, innowacji).
52
Wielkości f1,..., fp , q1,..., qq , m są parametrami do oszacowania na podstawie danych.
W modelu zakłada się ponadto, że innowacje ut są niezależne od przeszłych wartości
procesu xt .
Statystyczne własności procesu ARMA obejmujące warunki jego stacjonarności znaleźć
można w szeregu publikacji z zakresu ekonometrii np. w Maddala (2006) oraz z zakresu
analizy szeregów czasowych np. w Box i in. (1994), Tsay (2010).
Istnieją dwa główne podejścia do estymacji modelu ARMA w przypadku występowania
obserwacji odstających. W pierwszym podejściu należy rozpocząć estymację modelu metodą
największej wiarygodności (NW), następnie zaleca się analizę reszt za pomocą pewnej
procedury diagnostycznej w celu wykrycia obserwacji odstających. Niestety procedury
diagnostyczne nie radzą sobie z problemem maskowania tzn. z sytuacją, gdy wobec
współistnienia kilku obserwacji odstających o podobnym wpływie niektóre z nich nie zostają
wykryte.
W przypadku drugiego podejścia wykorzystuje się odporne estymatory, na które
jednostki odstające mają niewielki wpływ. Dla przykładu można wykorzystać estymator
najmniejszej mediany kwadratów (LMS) bądź najmniejszych przyciętych kwadratów (LTS).
Zwróćmy jednak uwagę na fakt, że w przypadku modelu ARMA(p, 0) jednostka odstająca
występująca w chwili t może wpłynąć na obserwacje odpowiadające okresowi t ¢ ,
t £ t ¢ £ t + p ; w przypadku modelu ARMA(p, q ) modelu z q > 0 jednostka odstająca
może zaburzyć wartości obserwacji odpowiadające wszystkim okresom t ¢ ³ t . Wiele metod
estymacji opiera się o reszty predykcji – kwadraty różnic pomiędzy wartościami
obserwowanymi a generowanymi przez model. Obserwacja odstająca w chwili t wpływa na
reszty predykcji w kolejnych chwilach. Z tego powodu estymatory opierające się o zwykłe
reszty (M- bądź S- estymatory) nie są zbyt odporne. Dla przykładu BP M- estymatora nie jest
większy niż 0.5 / (p + 1) . Zaznaczmy, że znane są w literaturze przykłady rozmaitych
filtrowanych M- estymatorów. Estymatory takie są jednakże asymptotycznie obciążone, nie
istnieje także asymptotyczna teoria ich rozkładów, zatem nie są dostępne dla nich procedury
wnioskowania, przedziały ufności itd.
W celu sprawdzenia ilustracji przedstawionych powyżej pojęć wygenerowano 100 razy
po pięć trajektorii złożonych z 500 obserwacji procesu ARMA(1,1) z f1 = 0.9 , q1 = -0.5 ,
s = 1 każda. W przypadku dwóch z pięciu generowanych trajektorii występowało 20%
53
jednostek odstających typu AO. Rysunek 3.15 przedstawia przykładowe 5 trajektorii bez
jednostek odstających natomiast rysunek 3.16 przedstawia 5 przykładowych trajektorii gdzie
2 trajektorie zawierają 20 procent jednostek odstających typu AO.
W tabeli 2 pokazano różnice oszacowań parametrów modelu w przypadku każdej z
przykładowych pięciu trajektorii. Nasuwa się zatem prosta myśl, aby w opisanej sytuacji
najpierw wybrać trajektorię będącą medianą a następnie zastosować klasyczne estymatory
procesu ARMA . Jak można zdefiniować taką medianę?
Rys. 3.15: Przykładowe trajektorie procesu Rys. 3.16: Przykładowe trajektorie procesu
ARMA(1,1) bez jednostek odstających. ARMA(1,1) z 20% jednostek odstających
typu AO w dwóch trajektoriach.
Źródło: Obliczenia własne, dane Money.pl Źródło: Obliczenia własne, dane Money.pl
Tab. 2: Oszacowania parametrów modelu ARMA(1,1) dla pięciu trajektorii generowanych

z modelu ARMA(1,1) z f1 = 0.9 , q1 = -0.5 , s = 1 . W przypadku dwóch trajektorii
występuje 20% ostających typu AO.
trajektoria AR MA Sigma^2 AIC GL

X1_odst 0.998(0.003) ‐0.98(0.015) 38.41 3250.53 0.1684
X2_odst 0.989(0.016) ‐0.95(0.044) 30.97 3142.06 0.1820
X3 0.889 (0.033) ‐0.56 (0.061) 0.9687 1409.6 0.2208
X4 0.910 (0.025) ‐0.52(0.054) 0.9391 1394.32 0.2162
X5 0.924 (0.022) ‐0.55(0.047) 0.9252 1386.95 0.2126
Źródło: Obliczenia własne, dane Money.pl
54
Można wskazać wiele ekonomicznych szeregów czasowych, które wykazują okresy

niezwykłej zmienności, po których następuje względny spokój. W ostatnich latach uznaje się,
że nie jest zasadnym modelować te szeregi przy założeniu, że wariancja jest stała w czasie.
Powszechnie stosuje się modele warunkowe zamiast tworzyć prognozy długoterminowe.
Zauważmy, że warunkowy błąd prognozy jest na ogół mniejszy niż błąd bezwarunkowy.
Podejście takie zostało zapoczątkowane artykułem Engle’a10 (1982), który wprowadził
model autoregresyjny warunkowej heteroskedastyczności (ARCH). Modele ARCH były
pierwszą dużą rodziną heteroskedastycznych modeli szeregów czasowych. Z czasem zaczęto
dostrzegać pewne niedostatki procesów ARCH. W związku z tym faktem zaproponowano
szereg uogólnień11 procesu ARCH. Najbardziej znane uogólnienie nazywane GARCH
zostało wprowadzone przez Bollersleva (1986).
Zaznaczmy, że jeżeli x t jest wartością akcji w chwili t , wtedy przyrost, zwrot12 bądź
zysk względny yt na akcji w chwili t definiowany jest yt = (xt - xt -1 ) xt -1 , z definicji
wynika, że xt = (1 + yt )xt -1 . Modele ARCH i GARCH a także szereg innych należących do
tzw. klasy procesów zmienności stochastycznej13 (SV) wykorzystuje się do modelowania

zachowania szeregów yt bądź logarytmów yt .
Pokażmy zaledwie kilka szczególnych postaci modelu GARCH. Czytelnika
zainteresowanego szerszym tłem teoretycznym odsyłamy np. do Tsay (2010). Rozważmy
mianowicie
(3.26) yt = st e t
(3.27) st2 = a0 + a1yt2-1
(3.28) st2 = a0 + a1yt2-1 + ... + am yt2-m
(3.29) st2 = a0 + a1yt2-1 + b1st2-1

m r
(3.30) st2 = a0 + å aj yt2- j + å b j st2- j
j =1 j =1
10
R. Engle jest laureatem nagrody Nobla z ekonomii.
11
Przegląd uogólnień procesu ARCH, alternatyw dla procesu GARCH znaleźć można np. w Tsay (2010).
12
Istnieją inne alternatywne definicje zwrotu, szerzej traktują o tym zagadnieniu podręczniki ekonometrii
finansowej.
13
W przypadku procesu GARCH ewolucją warunkowej zmienności zwrotu funkcja deterministyczna, w
przypadku procesów SV ewolucją rządzi równanie stochastyczne. Procesy SV są bardziej elastyczne, jednak
uznaje się, że ich estymacja jest bardziej złożona niż estymacja procesów GARCH.
55
gdzie ai ³ 0 , 1 £ i £ m , bi ³ 0 , 1 £ i £ r oraz a0 > 0 , et is (na ogół)

m r
standardowym gaussowskim białym szumem. Zakładamy å i =1 ai + å i =1 bi < 1 dla
ścisłej stacjonarności procesu.

Równania 3.26 i 3.27 definiują łącznie model ARCH(1), równania 3.26 i 3.28 model
ARCH(m), równania 3.26 i 3.29 model GARCH(1,1), równania 3.26 i 3.30 model
GARCH(m,r).
W praktyce modele GARCH(m,r) wykorzystywane są przez ekonomistów w celu
uzyskania pewnego rodzaju wglądu w związek pomiędzy przyszłą zmiennością względnego
zysku wycenianej inwestycji oraz obserwowaną zmiennością i obserwowanymi poziomami
zysków (danymi historycznymi). Wgląd taki uzyskuje się poprzez zastosowanie prostej
predykcji
m r
(3.31) sˆt2+1 = aˆ0 + å aˆj yt2+1- j + å bˆj sˆt2+1- j .
j =1 j =1
W takim kontekście ekonomista stara się odkryć generalną tendencję ujawnianą przez
dane historyczne.
Rysunki 3.17 i 3.18 przedstawiają przykładowe pięć wygenerowanych trajektorii
odpowiednio w sytuacji, gdy te nie zawierają jednostek odstających i gdy dwie z nich
zawierają 10% jednostek odstających typu AO.
Rys. 3.17: Pięć przykładowych trajektorii Rys. 3.18: Pięć przykładowych trajektorii
procesu GARCH(1,1) bez jednostek procesu w sytuacji, gdy dwie z pięciu
odstających. zawierają 10% odstających typu AO.
Źródło: Obliczenia własne. Źródło: Obliczenia własne.
56
Przykład R #wprowadzenie#
x<-rnorm(120,0,1)
y<-seq(0,12,by=0.1)
x.ts<-ts(x,start=c(2010,10),frequency=12) #tworzymy obiekt szereg czasowy#
plot(x.ts)
points(x.ts,pch="*")
grid()
y<-y[1:120]
xy.ts<-x+y #dodajemy trend#
xy.ts<-ts(xy.ts,start=c(2010,10),frequency=12)
plot(xy.ts)
xydif.ts<-diff(xy.ts,lag=1,differences=1) #różnicowanie szeregu#
plot(xydif.ts)
srednia6<-filter(xy.ts,sides=2,rep(1,6)/6) #średnia ruchoma 6-elementowa#
srednia12<-filter(xy.ts,sides=2,rep(1,12)/12)
plot(xy.ts)
lines(srednia6,col="blue",lty="dashed",lwd=2)
z<-sin(y)
w<-x+y+3*z
w.ts<-ts(w,start=c(2010,10),frequency=12)
plot(w.ts)
dek<-decompose(w.ts,type="additive") #dekompozycja szeregu#
lines(dek$trend,col="red")
lines(dek$seasonal,col="blue")
Przykład R #symulacja i estymacja modeli ARMA#
#generujemy 1000 obserwacji z modelu MA(2) o parametrach tet1=0.3, tet2=-0.6, SD=0.2#

ma2<-arima.sim(1000,model=list(order=c(0,0,2),ma=c(0.3,-0.6),sd=0.2))
plot(ma2)
ar3<-arima.sim(1000,model=list(order=c(3,0,0),ar=c(0.3,-0.3,0.8),sd=0.2))
plot(ar3)
dop1<-arima(ar3,order=c(3,0,0)) #szacujemy model#
dop2<-arima(ma2,order=c(1,0,1))
dop1
dop2
57
Przykład R #analiza szeregów klasy GARCH#
library(fBasic)
library(fGarch)
# AR(1)#
spec1 = garchSpec(model = list(ar = 0.5, alpha = 0, beta = 0))
ar1<-garchSim(spec1, n = 1000)
seriesPlot(ar1,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(ar1,pch="*")
Rys. 3.19: Ilustracja działania Rys. 3.20: Ilustracja działania

symulatora procesu GARCH. symulatora procesu GARCH.
#GACH(2,1)#
spec2 = garchSpec(model = list(alpha = c(0.2, 0.4), beta = 0.3))
garch21<-garchSim(spec2, n = 1000)
seriesPlot(garch21,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(garch21,pch="*")
ESTYMACJA<-garchFit(~garch(2,1),data=garch21, cond.dist = c("norm", "snorm", "ged", "sged",

"std", "sstd","snig", "QMLE"), include.mean = TRUE)
ESTYMACJA1<-garchFit(~garch(1,2),data=garch21, cond.dist = c("norm", "snorm", "ged", "sged",

"std", "sstd","snig", "QMLE"), include.mean = TRUE)
RESZTY= residuals(ESTYMACJA)
58
RES<-as.timeSeries(RESZTY)
seriesPlot(RES,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(RES,pch="*")
acf(RESZTY) #autokowariancja#
pacf(RESZTY) #autokowariancja cząstkowa#

densityPlot(RES,title=FALSE,xlab="czas",ylab="wartość",labels=TRUE,lwd=2,cex.axis=1.4)
qqnormPlot(RES, labels=FALSE,lwd=2,ylab="uporządkowane wartości",xlab="kwanyle rozkładu
normalnego",title=FALSE)
Rys. 3.21: Estymacja jądrowa gęstości Rys. 3.22: Wykres kwanty – kwantyl
reszt oszacowanego modelu. reszt oszacowanego modelu.
predict(ESTYMACJA, n.ahead = 10)

predict(ESTYMACJA, n.ahead = 10,mse="uncond", plot=TRUE,conf=.9,nx=100)
predict(ESTYMACJA1, n.ahead = 10, plot=TRUE, crit_val=2)
Rys. 3.23: Przewidywanie za pomocą Rys. 3.24: Przewidywanie za pomocą

oszacowanego modelu. oszacowanego modelu.
59
Literatura
Biecek, P. (2009). Przewodnik po Pakiecie R. Wrocław: Oficyna Wydawnicza GIS.

Davies, P. L. (2002). Statistical Procedures and Robust Statistics,
http://wwwstat.mathematik.uni-essen.de/~davies/statproc.ps.gz
Edgeworth, F. Y. (1888) On a New Method of Reducing Observations Relating to Several
Quantities. Philosophical Magazine 25, strony 184 – 191.
Engle, F. R. (1982). Autoregressive Conditionall Heteroskedasticity with Estimates of the
Variance of the United Kingdom Inflation. Econometrica (50).
Gatnar, E., Walesiak M. (2009) Statystyczna Analiza Danych z Wykorzystaniem Programu
R, PWN, Warszawa
Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust Statistics:
The approach based on influence functions. Nowy York: John Wiley & Sons.
Huber, P., Ronchettii, E. M. (2009). Robust Statistics. John Wiley & Sons. New York
Jureckova, J., Picek, J. (2006). Robust Statistical Methods with R. Boca Raton: Chapman &
Hall/CRC.
Kosiorowski, D. (2008c). Wstęp do Wielowymiarowej Analizy Statystycznej - Kurs z
Wykorzystaniem Środowiska R. Kraków: Wydawnictwo UEK w Krakowie.
Krzyśko, M. (2000). Wykłady z Teorii Prawdopodobieństwa. WNT: Warszawa.
Krzyśko, M. (2004). Statystyka Matematyczna. Poznań: Wydawnictwo Uniwersytetu im.
Adama Mickiewicza w Poznaniu.
Maddala, S. G. (2006). Ekonometria. Warszawa: PWN.
Maronna, R. A., Martin, R. D., Yohai, V. J. (2006). Robust Statistics - Theory and Methods.
Chichester: John Wiley & Sons Ltd.
Rousseeuw, P. J., Leroy, A. M. (1987). Robust Regression and Outlier Detection. Wiley,
New York
Tsay R. S. (2010), Analysis of Financial Time Series, Wiley – Interscience, Hoboken, New -
Yersey
60

60str SO

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

60str SO

Uploaded by

Copyright:

Available Formats

Autor: Daniel Kosiorowski

WSTĘP DO STATYSTYKI ODPORNEJ

KURS Z WYKORZYSTANIEM ŚRODOWISKA R

W naukach ekonomicznych za model rozważanego zjawiska przyjmuje się jedno bądź

Często myli się odporność procedury statystycznej z jej nieparametrycznością. Otóż

względem odporności alternatywnych względem danego zagadnienia procedur

1. Aspekty odporności procedury statystycznej

1.1 Bardzo krótkie wprowadzenie do R

Przedsięwzięcie określane obecnie mianem Projektu R zostało zapoczątkowane przez

elektroniczna publikacja pt. „Econometrics in R” autorstwa Granta V. Farnswortha może

Przypuśćmy, że zamierzamy dodać do siebie dwa wektory x = (2, 3, 4, 4, 5, 7, 4)t oraz

y = (101,1, 3, 4,2, 3, 4)t . Wpiszmy w tym celu

rozkładu normalnego N(10,2)#

odpowiedniego wiersza macierz A#

ramka wąsy porównujący średnią i medianę z 12- elementowej próby z N(10,2)#

Rys. 1: Porównanie średniej i mediany z Rys. 2: Porównanie średniej i mediany z

Źródło: Obliczenia własne Źródło: Obliczenia własne

library(MASS) #wgrywamy pakiet MASS#

library(lattice) #wgrywamy pakiet lattice#

par(mfrow=c(2,1)) #dzielimy okno graficzne na dwie równe części#

Rys. 3: Oszacowanie gęstości mediany z Rys. 4: Oszacowanie gęstości średniej z

Źródło: Obliczenia własne Źródło: Obliczenia własne

mdys<-ecdf(mediany) #wektor częstości skumulowanych – dystrybuanta empiryczna#

Rys. 5: Oszacowania dystrybuant średniej Rys. 6: Oszacowania gęstości mieszaniny

Źródło: Obliczenia własne Źródło: Obliczenia własne

#tworzymy prowizoryczny symulator obserwacji z mieszaniny rozkładów#

Rys. 7: Oszacowania gęstości mieszaniny Rys. 8: Oszacowania gęstości odchylenia

#interesuje nas rozkład odchylenia standartowego z próby#

Tab. 1: Wybrane funkcje służące do operowania rozkładami prawdopodobieństwa.

ROZKŁAD DYSTRYBUANTA KWANTYL GĘSTOŚĆ GENERATOR PARAMETRY

Rys. 9: Diagram rozrzutu wraz z Rys. 10: Diagram rozrzutu wraz z

Aby przekonać się o możliwościach graficznych program R wpiszmy

W niniejszym skrypcie wykorzystujemy pakiety dodatkowe środowiska R {robustbase},

1.2 Metody badania odporności procedury statystycznej

Interesujące ekonomistę zjawisko opisywane jest za pomocą jedno bądź

próba Xn = (X1,..., Xn ) może przyjmować wartości w przestrzeni prób  , której

Niech  =  jest prostą rzeczywistą i F ,G będą dystrybuantami rozkładów P,Q ,

Niech  =  oznacza zbiór liczb rzeczywistych oraz niech F ,G oznaczają

Jeżeli przez p, q oznaczymy gęstości rozkładów prawdopodobieństwa względem pewnej

Rys. 11: Gęstość rozkładu Rys. 13: Gęstość rozkładu

Rys. 14: Gęstość rozkładu Rys. 15: Gęstość rozkładu t(2)

Rys. 15: Gęstość rozkładu Rys. 16: Gęstość rozkładu

max(abs(pbinom(0:100,100,0.01)-ppois(0:100,1))) #odległość Kołmogorowa#

max(abs(pnorm(seq(-5,5, by=0.01),0,1)- pt(seq(-5,5, by=0.01),1))) #odleglość Kołmogorowa#

1.3 Pomiar odporności procedury statystycznej

W ciągu ostatnich 40 lat zaproponowano szereg koncepcji odporności procedury

estymatora w pewnym zakresie rozpatrywanych modeli. Obecnie centralną rolę odgrywają

rozkładów normalnych N (m, s 2 ) z udziałem 1 - e oraz N (m, 9s 2 ) z udziałem e , już dla

zmieszaniu Tn = T (x1,..., x n , x) . Wpływ x na wartość statystyki w przedstawionej sytuacji

Z definicji wynika natychmiast, że

Niezmiernie popularna obecnie funkcja wpływu jest wersją krzywej wrażliwości w

Rozważmy mieszaninę dwóch rozkładów Fe = (1 - e)F + edX , gdzie dX oznacza

jest posłużyć się funkcją wpływu (ang. influence function) definiowaną:

Funkcja wpływu jest jedną z najważniejszych charakterystyk funkcjonału statystycznego,

Miara ujmuje ilościowo wpływ zastąpienia wartości x wartością y na statystykę T .

zaokrąglanie, niedozwolone są np. duże błędy we wpisywaniu danych. Średnia arytmetyczna,

Przypuśćmy, że dysponujemy próbą  n = {x1,..., x n } złożoną z n obserwacji

generowanych przez zakładany model oraz niech  m = {y1,..., ym } oznacza m dowolnych

(być może szczególnie odstających) obserwacji. Oznaczmy przez  n +m =  n È  m próbę

Wielkość T ( n È  m ) - T ( n ) oznacza obciążenie statystyki natomiast maksymalne

obciążenie statystyki T powstające przy em zmieszaniu oznaczymy jako

(1.10) B(em ,T ,  n ) = sup T ( n È  m ) - T ( n ) .

Punkt załamania próby skończonej (Donoho i Huber (1983)) definiujemy jako