Professional Documents
Culture Documents
Tel:
E-mail: daniel.kosiorowski@uek.krakow.pl
Daniel Kosiorowski
Kosiorowski / Wstęp do Statystyki Odpornej… / 2
Wprowadzenie 3
1. Aspekty odporności procedury statystycznej 5
1.1 Bardzo krótkie wprowadzenie do R 5
1.2 Metody badania odporności procedury statystycznej 11
1.3 Pomiar odporności procedury statystycznej 14
1.4 Odporność w ekonomii 18
2. Wybrane zagadnienia statystyki jednowymiarowej 24
2.1 Metody wykrywania jednostek odstających 24
2.2 Odporne miary położenia i rozrzutu zmiennej losowej 28
3. Wybrane zagadnienia statystyki wielowymiarowej 37
3.1 Odporna miara położenia i rozrzutu wektora losowego 37
2.2 Regresja odporna 44
3.3 Odporność w badaniu szeregów czasowych. 49
Literatura 600
2
Kosiorowski / Wstęp do Statystyki Odpornej… / 3
WPROWADZENIE
3
Kosiorowski / Wstęp do Statystyki Odpornej… / 4
4
Kosiorowski / Wstęp do Statystyki Odpornej… / 5
5
Kosiorowski / Wstęp do Statystyki Odpornej… / 6
6
Kosiorowski / Wstęp do Statystyki Odpornej… / 7
for (i in 1: 100) {
A[i,]<-rnorm(12,10,2)} #tworzymy pętlę umieszczającą w i-tym wierszy macierzy A próbę z
7
Kosiorowski / Wstęp do Statystyki Odpornej… / 8
par(mfrow=c(2,1))
sdys<-ecdf(srednie) #wektor częstości skumulowanych – dystrybuanta empiryczna#
9
Kosiorowski / Wstęp do Statystyki Odpornej… / 10
x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2) #zaburzenie losowe o rozkładzie t(2)#
y<-2*x+1+eps
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red") #dopasowujemy prostą regresję do wygenerowanych punktów#
x<-seq(-10,10,by=0.2)
n<-length(x)
eps<-rt(n,2)
eps1<-cumsum(eps) #bardziej złośliwe zaburzenie losowe#
y<-2*x+1+eps1
wyn<-lm(y~x)
summary(wyn)
plot(x,y,lwd=2,pch=3,cex.axis=1.8)
abline(wyn,lwd=2,col="red")
10
Kosiorowski / Wstęp do Statystyki Odpornej… / 11
podzbiory reprezentują ważne dla badacza zdarzenia. Pośród podzbiorów przestrzeni prób
wyróżnia się pewną specjalną rodzinę szczególnie ważnych dla ekonomisty zdarzeń, tzw.
s - ciało zdarzeń . Niepewność związana z przebiegiem zjawiska X wyraża rozkład
prawdopodobieństwa P , który jest funkcją zbioru na . Trójka { , , Pq : q Î Q} to
parametryczny model statystyczny (por. Krzyśko (2004)).
W badaniach odporności pewnej procedury1 statystycznej T wprowadza się pewną miarę
odległości pomiędzy rozkładami prawdopodobieństwa na przestrzeni prób bądź
odległości bezpośrednio pomiędzy populacjami. Następnie porównuje się zachowanie
procedury T przy ustalonym rozkładzie prawdopodobieństwa (oczekiwanym, mającym
uzasadnienie teoretyczne, typowym itd.) oraz przy występowaniu odstępstw od ustalonego
modelu. Wielkość odstępstwa ujmowana jest za pomocą wspomnianej odległości pomiędzy
rozkładami prawdopodobieństwa. Poniżej przedstawiamy trzy miary odległości pomiędzy
rozkładami prawdopodobieństwa.
1
Przez procedurę statystyczną rozumie się algorytm, którego wejściem są dane bądź parametry a wyjście
obejmuje liczby, wykresy, funkcje po obrazy. Procedura statystyczna nie oznacza analizy statystycznej, która
obejmuje na ogół kilka procedur statystycznych. Szerzej idee procedury statystycznej omawia np. Davies
(2002).
11
Kosiorowski / Wstęp do Statystyki Odpornej… / 12
{ò }
1/2
2
(1.2) dH (P,Q ) =
( dP - dQ ) .
dP dQ
Jeżeli f = ig = są gęstościami P,Q względem pewnej miary m , wtedy
dm dm
odległość Hellingera może zostać przepisana w postaci
( )
2
(1.3) (dH (P,Q ))2 = ò ( )
f - g dm = 2 1 - ò
fgd m .
Dystans Kullbaka – Leibera nie jest odległością, nie jest symetryczny względem P i Q oraz
spełnia nierówności trójkąta.
Przykład R
#Za pomocą środowiska R możemy w przybliżony sposób odległości pomiędzy
rozkładami prawdopodobieństwa. Często wystarcza to do badania odporności interesującej
nas procedury statystycznej#
#Obliczanie wprowadzonych wcześniej odległości pokażemy na przykładach rozkładu
dwumianowego B(n=100, p=0.01) (rys. 11), rozkładu Poissona lambda=1 (rys.12), rozkładu
N(0,1) (rys. 13), rozkładu Studenta t(1) (rys. 14), rozkładu gamma(3,1) (rys.15) i rozkładu
gamma(1,3) (rys.16)#
12
Kosiorowski / Wstęp do Statystyki Odpornej… / 13
13
Kosiorowski / Wstęp do Statystyki Odpornej… / 14
Kołmogorowa#
[1] 0.8708176
sqrt(sum((sqrt(dbinom(0:100,100,0.01))-sqrt(dpois(0:100,1)))^2)) #odległość Hellingera#
[1] 0.003562329
sqrt(sum((sqrt(dnorm(seq(-5,5, by=0.01),0,1))-sqrt(dt(seq(-5,5, by=0.01),1)))^2)) #odległość
Hellingera#
[1] 3.025973
sqrt(sum((sqrt(dgamma(seq(0,8, by=0.01),3,1))-sqrt(dgamma(seq(0,8, by=0.01),1,3)))^2)) #odległość
Hellingera#
[1] 11.78569
sum(dpois(0:100,1)*log(dpois(0:100,1)/dbinom(0:100,100,0.01))) #dystans Kullbaka-Leibera#
[1] 2.551112e-05
14
Kosiorowski / Wstęp do Statystyki Odpornej… / 15
Oznaczmy taki zmieszany zbiór danych jako x1,..., x n -1, x oraz wartość statystyki przy takim
2
Dla statystyk Tn i Tn definiujemy asymptotyczną efektywność względną ( por. Serfling (2010)) jako
var(Tn ) E 2 (Tn )
ARE = lim , gdzie var oznacza wariancję, E wartość oczekiwaną.
n ¥ var(Tn ) E 2 (Tn )
3
Warto zwrócić uwagę na kwestię związane z symetrią modelu mieszaniny, który jest modelem danych
obarczonych błędem. Kwestie te mają zasadniczy związek z obciążeniem i efektywnością rozpatrywanego
estymatora.
15
Kosiorowski / Wstęp do Statystyki Odpornej… / 16
(1.6) Tn = Tn -1 + 1 n SC n (x)
Jest to maksymalna absolutna wartość funkcji wpływu w punkcie przy założonej funkcji
rozkładu F . Szczególnie pożądane są takie statystyki, które odznaczają się względnie
małymi wartościami GES.
Drugą popularną miarą odporności budowaną w oparciu o funkcję wpływu jest tzw.
lokalna czułość na przesunięcia (ang. local shift sensitivity) definiowana:
IF (y;T , P ) - IF (x ;T , P )
(1.9) LSS = sup
x ,y ;x ¹y y -x
4
Funkcja wpływu jest zwykłą funkcją rzeczywistą. Jej ograniczoność, różniczkowalność, gładkość należy
rozumieć analogicznie jak odpowiednie własności funkcji np. sin.,
16
Kosiorowski / Wstęp do Statystyki Odpornej… / 17
m
próby gdzie em = .
n +m
5
Przez gładką funkcję wpływu rozumiemy taką funkcje, która ma ciągłą pochodną (funkcję klasy C1).
6
Należy podkreślić, że koncepcja punktu załamania ma wiele często istotnie różniących się wariantów. Mamy
tutaj m.in. zastosowanie pojęcia w przypadku prób zależnych, szeregów czasowych itd.
17
Kosiorowski / Wstęp do Statystyki Odpornej… / 18
The method of the least squares is seen to be our best course when we have thrown
overboard a certain portion of our data – a sort of sacrifice which has often to be
made by those who sail the stormy seas of Probability.
Francis Ysidoro Edgeworth (1887)
It is the one sphere of life and activity where victory, security and success is always
to the minority and never to the majority. When you find any one agreeing with you,
change your mind. When I can persuade the Board of my Insurance Company to buy
a share, that, I am learning from experience, is the right moment for selling it.
John Maynard Keynes
18
Kosiorowski / Wstęp do Statystyki Odpornej… / 19
19
Kosiorowski / Wstęp do Statystyki Odpornej… / 20
e = 1 - 10% zdarza się bardzo często ( np. w szwajcarskich tablicach życia występuje 6%
błędów – patrz Hampel i in. (1986)).
Zdaniem autora przy wyborze odpornych procedur statystycznych dla zastosowań w
ekonomii warto zdaniem autora kierować się oceną procedury z wykorzystaniem trzech
pojęć: funkcji wpływu, punktu załamania próby skończonej i maksymalnego obciążenia.
Funkcja wpływu ujmuje lokalne aspekty odporności procedury statystycznej. Funkcja
wpływu bądź krzywa wpływu estymatora ma dwa główne zastosowania w statystyce.
Pierwszym jest pomiar wrażliwości statystyki na pojedynczą obserwację, drugie stanowi
policzenie asymptotycznej wariancji statystyki przy pewnych warunkach regularności.
Kształt funkcji wpływu dostarcza informacji o odporności statystyki. Przykładowo średnia z
próby jest czuła na duże wartości obserwacji, co ma odzwierciedlenie w fakcie, że funkcja
wpływu nie jest ograniczona. Funkcjonał statystyczny z ograniczoną funkcją wpływu nie jest
wrażliwy na ekstremalne obserwacje tym samym jest na nie odporny. Funkcje wpływu
mediany odchyleń absolutnych od mediany (MAD) bądź odstępu międzykwartylowego
(IQR) w przypadku danych generowanych przez rozkład normalny są ograniczone w
przeciwieństwie do funkcji wpływu odchylenia standardowego (SD). Szacując ryzyko
pewnego przedsięwzięcia w oparciu o dane pośród których występuje jedna obserwacja
znacząco odbiegająca od reszty rozsądniej wybrać MAD bądź IQR niż SD.
W oparciu o funkcję wpływu konstruuje się pochodne miary odporności procedury jak
np. czułość na błędy grube czy lokalna czułość na przesunięcia. Funkcja wpływu ujmuje
efekt dodania jednej obserwacji do dużej próby. W badaniach ekonomicznych zaleca się
stosowanie statystyk o ograniczonych funkcjach wpływu. Dla przykładu klasyczne metody
wielowymiarowej analizy statystycznej jak np. analiza czynnikowa czy funkcja
dyskryminacyjna Fishera opierają się o wektor przeciętnych i macierz kowariancji,
optymalne miary położenia i rozrzutu przy wielowymiarowej normalności. Jest powszechnie
wiadomo, że niewielka frakcja obserwacji odstających niszczy analizę prowadzoną z
wykorzystaniem tych miar. Ma to odzwierciedlenie w postaci ich funkcji wpływu, które nie
są ograniczone. W sytuacji występowania jednostek odstających powinniśmy wybrać np.
estymator minimalnej elipsoidy objętości, jako estymator położenia i macierz kowariancji
policzoną z obserwacji należących do obszaru centralnego rzędu 90%, jako estymator
wielowymiarowego rozrzutu. Estymatory te mają ograniczone funkcje wpływu.
20
Kosiorowski / Wstęp do Statystyki Odpornej… / 21
21
Kosiorowski / Wstęp do Statystyki Odpornej… / 22
7
Mówimy, że test jest obciążony, gdy prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej jest
większe od odrzucenia pewnej innej hipotezy, która jest prawdziwa.
22
Kosiorowski / Wstęp do Statystyki Odpornej… / 23
23
Kosiorowski / Wstęp do Statystyki Odpornej… / 24
Obserwacja odstająca jest takim elementem próby, który w pewien sposób odbiega od
wzorca wyznaczonego przez większość elementów próby. Na odstawanie obserwacji
możemy spojrzeć na dwa sposoby. Albo definiujemy je w kategoriach pozycji obserwacji w
próbie bez odwoływania się do mechanizmu losowego, który próbę wygenerował. Albo
zakładamy pewien model odstawania. To czy obserwacja zostaje uznana za odstającą zależy
od zakładanego przez nas modelu odstawania.
Najprostszym wykorzystywanym w ekonomii probabilistycznym modelem obserwacji
jest tzw. model położenia. W modelu tym zakładamy, że każda obserwacja x i odpowiada
(2.1) x i = m + ei (i = 1,..., n ) ,
gdzie błędy są zmiennymi losowymi.
Jeżeli obserwacje są niezależnymi powtórzeniami tego samego eksperymentu w takich
samych warunkach możemy założyć, że zaburzenia e1,..., en są niezależnymi zmiennymi
-ei maja taki sam rozkład, co w konsekwencji oznacza F0 (x ) = 1 - F0 (-x ) . Można założyć
24
Kosiorowski / Wstęp do Statystyki Odpornej… / 25
określa się jako podejrzane. Reguła opiera się o obserwację, że przy założeniu normalności
P ( t ³ 3) = 0.003 dla zmiennej losowej o standardowym rozkładzie normalnym.
Reguła trzech sigm posiada szereg wad. Po pierwsze w dużych próbach np. rzędu 1000
obserwacji należy się spodziewać obserwacji z ti > 3 . Po drugie w małych próbach reguła
n -1
jest nieefektywna, można pokazać, że ti < . Bez wątpienia najpoważniejsza wada
n
reguły trzech sigm wiąże się ze zjawiskiem maskowania. W przypadku, gdy mamy kilka
obserwacji odstających mogą one wejść w interakcje powodującą maskowanie jednostek
odstających. Rozważmy dla przykładu następujący zbiór danych w którym występują dwie
obserwacje odstające -44 i -2 (rys. 2.1):
x<-c(28,26,33,24,34,-44,27,16,40,-2,29,22,24,21,25,30,23,29,31,19)
Stosując regułę trzech sigm otrzymamy następujące wartości miary odstawania
25
Kosiorowski / Wstęp do Statystyki Odpornej… / 26
t<-c( 0.35, 0.24, 0.64, 0.13, 0.69, -3.72, 0.29, -0.32, 1.03, -1.34, 0.41, 0.01, 0.12, -
0.04, 0.18, 0.46, 0.07, 0.41, 0.52, -0.15)
Łatwo zauważyć, że reguła wskazuje obserwację -44 natomiast pomija obserwację -2.
Odstawanie obserwacji -2 zostało zamaskowane przez obserwację odstającą -44.
Rys. 2.1: Przykładowy zbiór danych Rys. 2.2: Wykres kwantyl – kwantyl.
interpretację kwantylową polegającą na tym, że można go wyrazić jako F -1(p) dla pewnego
26
Kosiorowski / Wstęp do Statystyki Odpornej… / 27
æ 1 + u ö÷
(2.4) QF (u ) = F -1 çç ÷.
çè 2 ÷ø
Przykład R
x1<-rnorm(20,10,2)
x2<-rnorm(3,15,2)
x3<-rnorm(2,25,3)
x<-c(x1,x2,x3)
x<-round(x)
x
10 7 11 7 12 10 8 10 10 9 7 9 12 10 5 14 11 10 7 10 17 14 14 22 25
z<-(x-mean(x))/sd(x) #miara odstawania#
round(z, digits = 2)
-0.27 -0.92 -0.05 -0.92 0.17 -0.27 -0.71 -0.27 -0.27 -0.49 -0.92 -0.49 0.17 -0.27 -1.36 0.60 -0.05 -
0.27 -0.92 -0.27 1.26 0.60 0.60 2.35 3.00
z1<-(x-median(x))/mad(x) #poprawiona miara odstawania#
round(z1,digits=2)
27
Kosiorowski / Wstęp do Statystyki Odpornej… / 28
0.00 -1.01 0.34 -1.01 0.67 0.00 -0.67 0.00 0.00 -0.34 -1.01 -0.34 0.67 0.00 -1.69 1.35 0.34 0.00
-1.01 0.00 2.36 1.35 1.35 4.05 5.06
round(abs(2*pnorm(x,10,2)-1),digit=2) #funkcja rangowa przy założeniu N(10,2)#
0.68 0.87 0.00 0.00 0.00 0.00 0.87 0.87 0.99 0.38 0.38 0.38 0.38 0.68 0.38
0.87 0.00 0.38 0.00 0.38 1.00 1.00 1.00 1.00 1.00
æ s ö÷ æ 1.57s ö÷
pokazać, że X ~ N çç m, ÷÷ , oraz Med ~ N ççç m, ÷÷ . Jednakże jeżeli rozważamy
çè n ø ç
è n ø÷
model mieszaniny generujący obserwacje odstające w modelu położenia
(1 - p) + p t 2 p
D 2 (X ) = , natomiast wariancja mediany D 2 (Med ) » .
n 2n(1 - p + p / t )2
Zatem w przypadku udziału zaburzenia rzędu p = 5% przewaga średniej nad medianą
28
Kosiorowski / Wstęp do Statystyki Odpornej… / 29
bądź równoważnie
(2.8) EP [r(X , q)] = min względem q Î Q
n
gdzie E oznacza wartość oczekiwaną, Pn oznacza rozkład empiryczny, r(,⋅ ⋅) jest stosownie
wybraną funkcją mającą na celu zmniejszyć wpływ obserwacji odstających.
Przykładem M – estymatora jest estymator metody największej wiarygodności
parametru q w modelu parametrycznym = {Pq , q Î Q} ; jeżeli f (x , q) jest gęstością Pq ,
¶
Jeżeli r jest różniczkowalna względem q z ciągła pochodną y(,⋅ q) = r (⋅, q ) wtedy
¶q
Tn jest pierwiastkiem równania
n
(2.10) å y(Xi , q) = 0 , q Î Q
i =1
stąd
29
Kosiorowski / Wstęp do Statystyki Odpornej… / 30
n
1
(2.11) å y(Xi , q) = Pn [y(X ,Tn )] = 0 ,Tn Î Q .
n i =1
W literaturze znanych jest szereg funkcji mających na celu zmniejszenie wpływu obserwacji
odstających. Równanie (2.12) przedstawia jedną z propozycji Hubera
ìï t t <b
(2.12) y(t ) = ïí ,
ïïb sgn(t ) t ³b
î
gdzie sgn(x)=1 dla x>0, sgn(x)=-1 dla x<0 i sgn(x)=0 dla x=0.
Natomiast równanie (2.13) przedstawia propozycję Hampela
ì
ï t t <a
ï
ï
ï
ï a sgn(t ) a £ t <b
(2.13) y(t ) = ï
í .
ï
ï {(c - t ) / (c - b)}a sgn(t ) b £ t £ c
ï
ï
ï
ï 0 p.p.
î
Rys. 2.3: Wykresy funkcji Tukey’a. Rys. 2.4: Wykresy funkcji Tukey’a.
Przykład R
library{robustbase}
delivery #zbiór danych dotyczących czasów dostarczenia przesyłki przez kuriera w zależności
od odległóści#
30
Kosiorowski / Wstęp do Statystyki Odpornej… / 31
gdzie cn 1,..., cnn i a1,..., ak są danymi współczynnikami, 0 < p1 < ... < pk < 1 oraz h(⋅) i
31
Kosiorowski / Wstęp do Statystyki Odpornej… / 32
Przykład R
midrange<-function(x) #funkcja służąca do obliczenia środka rozstępu#
{
(max(x)+min(x))/2
}
midrange(delivery[,3]) #wykorzystujemy tę funkcję#
sample.range<-function(x) #funkcja służąca do obliczenia rozstępu#
{
max(x)-min(x)
}
sample.range(delivery[,3]) #wykorzystujemy tę funkcję#
gini.mean.difference<-function(x) #funkcja służąca do obliczenia przeciętnej różnicy Gini’ego#
{
x <-sort(x[!is.na(x)])
n<-length(x)
na<-seq((1-n),(n-1),by=2)
2*sum(na*x)/n/(n-1)
}
gini.mean.difference(delivery[,3]) #wykorzystujemy tę funkcję#
W wielu przypadkach podanie jawnej postaci funkcji wpływu estymatora oraz dokładne
oszacowanie jego punktu załamania jest zadaniem niezmiernie skomplikowanym. Często w
takim przypadku zadowalamy się oszacowaniem ich postaci za pomocą symulacji
komputerowej. W przypadku L-estymatorów potrafimy podać jasną postać funkcji wpływu.
Rozważmy L-estymator pierwszego typu Tn posiadający całkowalną funkcję wagową J ,
1
spełniająca warunek ò J (u)du = 1 . Wprowadźmy empiryczny funkcjonał kwantylowy
0
i jest równy
32
Kosiorowski / Wstęp do Statystyki Odpornej… / 33
ìï i -1 i
ïï X ... <t £
n :i
(2.22) Qn (t ) = ïí n n , i = 1,..., n - 1 .
ïï n -1
ïï Xn :n ... <t £1
î n
1
(2.24) T = ò J (s )h(Q(s ))ds ,
0
gdzie
33
Kosiorowski / Wstęp do Statystyki Odpornej… / 34
1
J (u ) = I [a £ u £ 1 - a ] ,
1 - 2a
Wykorzystując funkcję kwantylową możemy ją zapisać
1-a
1
Tn = T (Fn ) =
1 - 2a ò Fn-1(u )du ,
a
1-a
1
T (F ) =
1 - 2a ò F (u )du .
a
Jeżeli BPn jest jego punktem załamania tej średniej w n – elementowej próbie, wtedy
limn ¥ BPn = a . Jako ćwiczenie proponujemy czytelnikowi szacować funkcję wpływu tej
średniej za pomocą symulacji.
Następnym przykładem L-estymatora jest a - przeciętna Windsora. Poniżej
przedstawiamy ją w ogólnej postaci z dwoma składowymi
1 ìïï üï
n -[n a ]
ï
(2.27) Wn a = T (Fn ) =
nï
í
ï
[n a ]X n :[n a ]+1 + å X n :i + [n a X
] n :n -[n a ] ý
ï
î i =[n a ]+1 þï
1-a
= aFn-1(a) + ò Fn-1(u )du + aFn-1(1 - a) .
a
Zwróćmy uwagę, że w przypadku tej średniej ekstremalne kwantyle nie zastają odcięte
jak poprzednio lecz zostają zastąpione kwantylami Xn :[n a ]+1 i Xn :n -[n a ] .
æ n ö÷-1 n æ i - 1 öæ ÷÷ çç n - 1 ö÷÷
(2.28) Tn,k = ççç ÷÷ å çç ÷÷ ç k ÷÷ Xn :i ,
çè 2k + 1 ÷ø i =1 çèç k øè ç ø
n -1
gdzie 0 < k < .
2
Zauważmy, że Tn,0 = Xn oraz Tn,k jest medianą z próby, gdy n jest parzyste i
n n -1
k = - 1 albo n jest nieparzyste i k = .
2 2
34
Kosiorowski / Wstęp do Statystyki Odpornej… / 35
X1,..., Xn jest losową próbą z populacji o ciągłej dystrybuancie. Ranga Ri może zostać
wyrażona jako
n
(2.29) Ri = å I [X j £ Xi ] , i = 1,..., n ,
j =1
Punkt załamania tego estymatora wynosi w przybliżeniu 29%. Estymator ten jest
efektywniejszy od mediany w przypadku próby z rozkładu normalnego.
Przykład R
library(MASS) #ładujemy pakiet MASS#
35
Kosiorowski / Wstęp do Statystyki Odpornej… / 36
gdzie współczynniki 1.48 i 0.74 wiążą się z dopasowaniem miar do rozkładu normalnego,
ê x ú oznacza najmniejszą liczbę całkowitą nieprzekraczającą x.
ë û
Punkt załamania MAD jest bliski 50%, punkt załamania IQR jest bliski 25%. W ramach
ćwiczenia proponujemy czytelnikowi zbadać za pomocą symulacji efektywność tych
estymatorów w porównaniu do odchylenia standardowego dla kilku wybranych rozkładów
prawdopodobieństwa. Proponujemy też zbadać odporność przeciętnej różnicy Gini’ego.
36
Kosiorowski / Wstęp do Statystyki Odpornej… / 37
Przykład R
boxplot(ssaki[,2],cex=2)
sd(ssaki[,2])
0.74*IQR(ssaki[,2])
1.48*mad(ssaki[,2])
gini.mean.difference(ssaki[,2])
library(robustbase)
Qn(ssaki[,2], finite.corr = FALSE) #efektywniejsza alternatywa dla MAD#
37
Kosiorowski / Wstęp do Statystyki Odpornej… / 38
Przypuśćmy, że analizujemy zbiór danych Xn = {(x11, x12 ,..., x1p ),...,(x n 1, x n 2 ,..., x np )} ,
n
2
Wektor średnich jest to estymatorem NK ponieważ minimalizuje å xi - T , gdzie
i =1
⋅ jest zwykłą normą. Wektor średnich nie jest odpornym estymatorem położenia.
Łatwo ją policzyć, ma BP bliski 50% jednak nie spełnia pewnych naturalnych postulatów
np. może nie leżeć musi leżeć w powłoce wypukłej próby. Dla przykładu weźmy p
wektorów jednostkowych (1, 0,..., 0) , (0,1,..., 0) ,…, (0, 0,...,1) , mediana po współrzędnych
wynosi (0, 0,..., 0) . Czy jest to estymator afinicznie niezmienniczy?
38
Kosiorowski / Wstęp do Statystyki Odpornej… / 39
Estymator ten wprawdzie jest mniej wrażliwy niż wektor średnich na obserwacje
odstające jednakże także ma nieograniczoną funkcję wpływu i punkt załamania BP
wynoszący 0%. Poprzez analogię z M-estymatorami można zaproponować jego modyfikację
n
(3.6) min å r ( xi - T ),
T
i =1
gdzie r jest stosownie dobraną funkcją odległości mającą na celu zabezpieczenie przed
obserwacjami odstającymi.
W kontekście proponowania odpornych estymatorów położenia można zadać pytanie
dlaczego nie zastosować prostej zasady polegającej na wstępnej eliminacji obserwacji
odstających by następnie policzyć np. wektor średnich. Podejście takie rozwijano w latach
siedemdziesiątych ubiegłego wieku. Obecnie określa się je mianem naiwnego m. in. z
powodu, że częstokroć paradoksalnie okazywało się nie być odpornym, nie są znane
statystyczne własności takiego postępowania. Za przykład tego podejścia weźmy
wykorzystanie do odrzucania obserwacji odstających kwadratu odległości Mahalanobisa:
gdzie T (X) jest miarą położenia np. wektor średnich, C (X)-1 jest macierzą kowariancji.
Kwadrat odległości Mahalanobisa obliczamy dla każdej obserwacji. Punkty dla których
39
Kosiorowski / Wstęp do Statystyki Odpornej… / 40
przedstawia się następująco. Dla każdej obserwacji xi liczymy miarę odstawania tej
obserwacji xi :
xi v ¢ - med ( x j v ¢ )
j
(3.8) ui = sup ,
v =1 med xk v ¢ - med (x j v ¢)
k j
gdzie med ( x j v ¢ ) jest medianą projekcji danych x j w kierunku wektora v , mianownik jest
j
å w(ui )xi
i =1
(3.9) T (X) =
n
å w(ui )
i =1
gdzie w(u ) jest ściśle dodatnią i malejąca funkcja u ³ 0 , taką że uw(u ) jest ograniczona.
Zwróćmy uwagę, że miara odstawania (…) jest afinicznie ekwiwariantna, ui nie zmienia
się gdy xi zastąpimy przez xi A + b . Donoho (1982) pokazał że punkt załamania ważonej
odstawaniem średniej jest bliski 50%.
Warto zauważyć, że kwadrat odległości Mahalanobisa może zostać zapisany w postaci:
æ 1
n ö÷
çç
çç x i v ¢ -
n
å i ÷÷÷÷
x v ¢
ç i =1 ÷÷ .
(3.10) MD 2 (xi , X ) = çç sup
çç v =1 SD(x1v ¢,..., xn v ¢) ÷÷÷
çç ÷÷
çèç ÷÷
ø
40
Kosiorowski / Wstęp do Statystyki Odpornej… / 41
przynajmniej h punktów Xn ,
gdzie h = éê n / 2 ùú + 1 , Xn = {x1,..., xn } .
Przykład R
library(car)
data.ellipse(Prestige$income, Prestige$education, levels=0.1*1:9, lty=2)
Rys. 3.1: Elipsoidy koncentracji. Rys. 3.2: Wektor średnich, MVE, MDE.
gdzie macierz CJ jest nieosobliwa, gdy xi ,..., xi znajdują się w ogólnej pozycji.
1 p +1
41
Kosiorowski / Wstęp do Statystyki Odpornej… / 42
Przykład R
#Estymatory MVE i MDE możemy policzyć za pomocą pakietu MASS#
Library(MASS)
x<-c(0.0, 0.2, 0.4, 0.6, 0.8, 1, 1.2, 1.4, 1.6, 1.8, 2, 2.2, 2.4, 2.6, 2.8, 3, 3.2, 3.4, 3.6, 3.8, 4,
4.2, 4.4, 4.6, 4.8, 5, 5.2, 5.4,5.6, 5.8, 9.32, 9.3, 8, 11.53, 8.4, 9, 8, 12,11)
y<-c(0.97, 1.46, 2.75, 3.57, 4.78, 3.56, 2.88, 4.18, 5.34, 5.01, 5.53, 6.21, 8.06, 6.63, 8.04,
9.25, 7.53, 10.69, 8.82, 9.35, 9.75, 9.52, 10.21, 11.33, 11.08, 11.26, 12.34, 14.98, 13.24, 13.50,
6.23, 2, 3.92, 1.54, 5.78, 3, 4,0,1)
z<-cbind(x,y)
scatterplot(y~x, reg.line=FALSE, smooth=FALSE, labels=FALSE, boxplots='xy', span=0.5, xlab="x",
ylab="y", cex=2, cex.axis=2, cex.lab=2, pch=13,data=z)
cov.rob(z, method = "mve", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnej elipsoidy objętości#
cov.rob(z, method = "mcd", nsamp = "best", quantile.used = floor((nrow(z) + ncol(z) + 1)/2))
#liczymy estymator minimalnego wyznacznika macierzy kowariancji#
cov.rob(z, method = "classical", nsamp = "best")
#liczymy zwykłą macierz kowariancji#
42
Kosiorowski / Wstęp do Statystyki Odpornej… / 43
43
Kosiorowski / Wstęp do Statystyki Odpornej… / 44
jest postaci
n
(3.13) min å ri .
b
i =1
nas przed obserwacjami odstającymi yi , nie radzi sobie z tzw. punktami drabinowymi (ang.
leverage points) tzn. odstającymi wartościami zmiennych objaśniających.
Za pierwszą próbę wprowadzenia odpornego estymatora regresji uznaje się
zaproponowanie M estymatora regresji polegające na uogólnienieniu estymatora
największej wiarygodności uzyskiwanego poprzez minimalizację funkcji celu
n
(3.14) min å r(ri ()) ,
i =1
Kryterium takie nie jest niezmiennicze względem powiększenia rozrzutu błędu. Często
zatem szacujemy położenie i rozrzut łącznie:
n
(3.15) å y(ri / sˆ)xi = 0,
i =1
44
Kosiorowski / Wstęp do Statystyki Odpornej… / 45
n
(3.16) å c(ri / sˆ) = 0 ,
i =1
błędami o identycznym rozkładzie normalnym. Punkt załamania jego propozycji wynosi zero
z powodu punktów drabinowych.
M- estymatory starano się uodpornić na punkty drabinowe proponując uogólnione M-
estymatory (GM). Aby zmniejszyć wpływ takich punktów stosuje się pewną funkcję
wagową. Przykładowo Mallows (1975) proponuje następujący GM estymator (minimalizację
poniższej funkcji kryterium)
n
(3.17) å w(xi )y(ri / sˆ)xi = 0.
i =1
wymiar xi
Na przełomie lat 70-tych i 80-tych ubiegłego wieku postawiono pytanie o to czy w ogóle
możliwy jest estymator parametrów regresji o najwyższym z możliwych punktów załamania.
Jako pierwszy odpowiedzi twierdzącej udzielił Siegel (1982). Estymator zaproponowany
przez Siegla posiadał punkt załamania równy 50% jednak nie był regresyjnie ekwiwariantny8
oraz odznaczał się wielką złożonością obliczeniową.
Zadano wówczas pytanie czy możliwy jest regresyjnie ekwiwariantny estymator o
wysokim BP. Pozytywnej odpowiedzi udzielili Rousseeuw (1984) i Hampel (1984).
Rousseeuw zaproponował estymator najmniejszej mediany kwadratów (LMS) jako
rozwiązanie zagadnienia minimalizacji
Alternatywnie
8
Przypomnijmy, że estymator wektora parametrów regresji jest afinicznie ekwiwariantny jeżeli z tego, że
(
wyjściowe dane przekształcimy za pomocą (Yi , Xi ) aYi , At Xi ) dla skalara a Î i nieosobliwej
macierzy A wynika, że wektor parametrów przekształca się bˆ aA-1
ˆ.
45
Kosiorowski / Wstęp do Statystyki Odpornej… / 46
Rousseeuw (1984) pokazał, że estymator ten ma punkt załamania 50%, jest to estymator
zgodny. Świadomość istnienia takich estymatorów skłoniła statystyków do badań szybkości
3
ich zbieżności. Okazało się wówczas, że estymator LMS, nie jest n a jedynie n zgodny
to znaczy ˆ- ¥,
n 3 ˆ - = O (1) , ponadto estymator nie jest lokalnie
n
p p
Szybkość zbieżności z próby estymatora LTS wynosi n , jego punkt załamania BP jest
bliski 50%. Zauważmy, że zarówno LMS jak i LTS estymator konstruuje się stosując
odporną miarę rozrzutu reszt regresji. Zasadnicza cecha metod LMS i LTS to dopasowanie
regresji do WIĘKSZOŚCI danych.
46
Kosiorowski / Wstęp do Statystyki Odpornej… / 47
Przykład R
library (robustbase)
data(starsCYG)
plot(starsCYG,cex=2)
WYN1<-lm(starsCYG[,1]~starsCYG[,2]) #NK#
summary(WYN1)
abline(WYN1,lwd=2,col="red")
47
Kosiorowski / Wstęp do Statystyki Odpornej… / 48
48
Kosiorowski / Wstęp do Statystyki Odpornej… / 49
9
Mamy tutaj na uwadze korelogram sporządzony z wykorzystaniem współczynnika korelacji cząstkowej, miary
dobroci dopasowania modeli do danych empirycznych .
49
Kosiorowski / Wstęp do Statystyki Odpornej… / 50
próbę y1, y2 ,..., yT obserwowanych wartości szeregu czasowego, załóżmy dla prostoty, że
(3.23) rˆ(1) =
åt =1 yt yt +1 .
T
åt =1 yt2
Rys. 3.9: Izolowana jednostka odstająca. Rys. 3.10: Izolowana jednostka
odstająca pojawia się dwukrotnie w
szeregu pierwszych różnic.
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne
50
Kosiorowski / Wstęp do Statystyki Odpornej… / 51
T -1
(3.24) rˆ(1) =
åt =1 ytyt +1I (t Ï {t0 - 1, t0 }) + yt -1A + Ayt +1 .
0 0
T T
åt =1 yt2I (t ¹ t0 ) + A2 åt =1 yt2(t ¹ t0 ) + A2
Zauważmy A pojawia się w kwadracie w mianowniku i liniowo w liczniku zatem rˆ(1)
Z punktu widzenia modelu generującego dane na ogół wyróżnia się trzy typy
jednostek odstających: proces dodający jednostki odstające (ang. additive outliers) (AO),
proces zastępujący jednostkami odstającymi (ang. replacement outliers) (RO) oraz proces
innowacji zależny od modelu generującego szereg (ang. innovation outliers) (IO).
Modelowanie odstawania w przypadku szeregów czasowych jest zagadnieniem stosunkowo
słabo upowszechnionym w literaturze polskojęzycznej. Przywołajmy, zatem za Maronna i in.
(2006) trzy podstawowe modele odstawania w przypadku szeregów czasowych.
Niech xt oznacza zasadniczy w danych rozważaniach proces stacjonarny w szerszym
sensie (nie zmienia się jego wartość oczekiwana i wariancja, kowariancja zależy jedynie od
opóźnienia), niech vt oznacza stacjonarny proces odstawania. Niech P (vt = 0) = 1 - e , co
vt ~ (1 - e)d0 + eN (mv , sv2 ) , oraz załóżmy, że sv2 >> sx2 . AO można określić, jako proces
Rys. 3.13: Realizacja procesu AR(2) + AO Rys. 3.14: Realizacja procesu AR(2) + RO
Źródło: Obliczenia własne, dane umowne Źródło: Obliczenia własne, dane umowne 51
Kosiorowski / Wstęp do Statystyki Odpornej… / 52
oryginalnego procesu xt .
rozkładzie o przeciętnej zero i skończonej wariancji oraz f < 1 obserwacja odstająca typu
IO dotyczy procesu ut . Jednostka odstająca typu IO działa niczym impuls – jej wpływ na
proces utrzymuje się dłużej niż w przypadku AO i RO, długość trwania wpływu zależy od
parametrów procesu (tu do f ). Warto zaznaczyć, że występowanie IO może poprawić
precyzje oszacowania f .
Autoregresyjne procesy średnich ruchomych ARMA(p, q ) stanowią szeroką klasę
elastycznych modeli szeregów czasowych powszechnie wykorzystywanych w ekonomii
(patrz np. Maddala (2006)). Otóż szereg czasowy {xt ; t = 0, 1, 2,...} generowany jest
przez model ARMA(p,q) jeżeli jest stacjonarny oraz
(3.25) xt = a + f1xt -1 + ... + fp xt -p + ut + q1ut -1 + ... + qq ut -q ,
oznacza przeciętną xt , {wt ; t = 0, 1, 2,...} jest (zazwyczaj) gaussowskim białym szumem
52
Kosiorowski / Wstęp do Statystyki Odpornej… / 53
procesu xt .
Statystyczne własności procesu ARMA obejmujące warunki jego stacjonarności znaleźć
można w szeregu publikacji z zakresu ekonometrii np. w Maddala (2006) oraz z zakresu
analizy szeregów czasowych np. w Box i in. (1994), Tsay (2010).
Istnieją dwa główne podejścia do estymacji modelu ARMA w przypadku występowania
obserwacji odstających. W pierwszym podejściu należy rozpocząć estymację modelu metodą
największej wiarygodności (NW), następnie zaleca się analizę reszt za pomocą pewnej
procedury diagnostycznej w celu wykrycia obserwacji odstających. Niestety procedury
diagnostyczne nie radzą sobie z problemem maskowania tzn. z sytuacją, gdy wobec
współistnienia kilku obserwacji odstających o podobnym wpływie niektóre z nich nie zostają
wykryte.
W przypadku drugiego podejścia wykorzystuje się odporne estymatory, na które
jednostki odstające mają niewielki wpływ. Dla przykładu można wykorzystać estymator
najmniejszej mediany kwadratów (LMS) bądź najmniejszych przyciętych kwadratów (LTS).
Zwróćmy jednak uwagę na fakt, że w przypadku modelu ARMA(p, 0) jednostka odstająca
występująca w chwili t może wpłynąć na obserwacje odpowiadające okresowi t ¢ ,
t £ t ¢ £ t + p ; w przypadku modelu ARMA(p, q ) modelu z q > 0 jednostka odstająca
może zaburzyć wartości obserwacji odpowiadające wszystkim okresom t ¢ ³ t . Wiele metod
estymacji opiera się o reszty predykcji – kwadraty różnic pomiędzy wartościami
obserwowanymi a generowanymi przez model. Obserwacja odstająca w chwili t wpływa na
reszty predykcji w kolejnych chwilach. Z tego powodu estymatory opierające się o zwykłe
reszty (M- bądź S- estymatory) nie są zbyt odporne. Dla przykładu BP M- estymatora nie jest
większy niż 0.5 / (p + 1) . Zaznaczmy, że znane są w literaturze przykłady rozmaitych
filtrowanych M- estymatorów. Estymatory takie są jednakże asymptotycznie obciążone, nie
istnieje także asymptotyczna teoria ich rozkładów, zatem nie są dostępne dla nich procedury
wnioskowania, przedziały ufności itd.
W celu sprawdzenia ilustracji przedstawionych powyżej pojęć wygenerowano 100 razy
po pięć trajektorii złożonych z 500 obserwacji procesu ARMA(1,1) z f1 = 0.9 , q1 = -0.5 ,
s = 1 każda. W przypadku dwóch z pięciu generowanych trajektorii występowało 20%
53
Kosiorowski / Wstęp do Statystyki Odpornej… / 54
jednostek odstających typu AO. Rysunek 3.15 przedstawia przykładowe 5 trajektorii bez
jednostek odstających natomiast rysunek 3.16 przedstawia 5 przykładowych trajektorii gdzie
2 trajektorie zawierają 20 procent jednostek odstających typu AO.
W tabeli 2 pokazano różnice oszacowań parametrów modelu w przypadku każdej z
przykładowych pięciu trajektorii. Nasuwa się zatem prosta myśl, aby w opisanej sytuacji
najpierw wybrać trajektorię będącą medianą a następnie zastosować klasyczne estymatory
procesu ARMA . Jak można zdefiniować taką medianę?
Rys. 3.15: Przykładowe trajektorie procesu Rys. 3.16: Przykładowe trajektorie procesu
ARMA(1,1) bez jednostek odstających. ARMA(1,1) z 20% jednostek odstających
typu AO w dwóch trajektoriach.
Źródło: Obliczenia własne, dane Money.pl Źródło: Obliczenia własne, dane Money.pl
54
Kosiorowski / Wstęp do Statystyki Odpornej… / 55
10
R. Engle jest laureatem nagrody Nobla z ekonomii.
11
Przegląd uogólnień procesu ARCH, alternatyw dla procesu GARCH znaleźć można np. w Tsay (2010).
12
Istnieją inne alternatywne definicje zwrotu, szerzej traktują o tym zagadnieniu podręczniki ekonometrii
finansowej.
13
W przypadku procesu GARCH ewolucją warunkowej zmienności zwrotu funkcja deterministyczna, w
przypadku procesów SV ewolucją rządzi równanie stochastyczne. Procesy SV są bardziej elastyczne, jednak
uznaje się, że ich estymacja jest bardziej złożona niż estymacja procesów GARCH.
55
Kosiorowski / Wstęp do Statystyki Odpornej… / 56
W takim kontekście ekonomista stara się odkryć generalną tendencję ujawnianą przez
dane historyczne.
Rysunki 3.17 i 3.18 przedstawiają przykładowe pięć wygenerowanych trajektorii
odpowiednio w sytuacji, gdy te nie zawierają jednostek odstających i gdy dwie z nich
zawierają 10% jednostek odstających typu AO.
Rys. 3.17: Pięć przykładowych trajektorii Rys. 3.18: Pięć przykładowych trajektorii
procesu GARCH(1,1) bez jednostek procesu w sytuacji, gdy dwie z pięciu
odstających. zawierają 10% odstających typu AO.
56
Kosiorowski / Wstęp do Statystyki Odpornej… / 57
Przykład R #wprowadzenie#
x<-rnorm(120,0,1)
y<-seq(0,12,by=0.1)
x.ts<-ts(x,start=c(2010,10),frequency=12) #tworzymy obiekt szereg czasowy#
plot(x.ts)
points(x.ts,pch="*")
grid()
y<-y[1:120]
xy.ts<-x+y #dodajemy trend#
xy.ts<-ts(xy.ts,start=c(2010,10),frequency=12)
plot(xy.ts)
xydif.ts<-diff(xy.ts,lag=1,differences=1) #różnicowanie szeregu#
plot(xydif.ts)
srednia6<-filter(xy.ts,sides=2,rep(1,6)/6) #średnia ruchoma 6-elementowa#
srednia12<-filter(xy.ts,sides=2,rep(1,12)/12)
plot(xy.ts)
lines(srednia6,col="blue",lty="dashed",lwd=2)
z<-sin(y)
w<-x+y+3*z
w.ts<-ts(w,start=c(2010,10),frequency=12)
plot(w.ts)
dek<-decompose(w.ts,type="additive") #dekompozycja szeregu#
lines(dek$trend,col="red")
lines(dek$seasonal,col="blue")
57
Kosiorowski / Wstęp do Statystyki Odpornej… / 58
library(fBasic)
library(fGarch)
# AR(1)#
spec1 = garchSpec(model = list(ar = 0.5, alpha = 0, beta = 0))
ar1<-garchSim(spec1, n = 1000)
seriesPlot(ar1,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(ar1,pch="*")
#GACH(2,1)#
spec2 = garchSpec(model = list(alpha = c(0.2, 0.4), beta = 0.3))
garch21<-garchSim(spec2, n = 1000)
seriesPlot(garch21,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(garch21,pch="*")
RESZTY= residuals(ESTYMACJA)
58
Kosiorowski / Wstęp do Statystyki Odpornej… / 59
RES<-as.timeSeries(RESZTY)
seriesPlot(RES,title=FALSE,xlab="czas",ylab="wartość",labels="FALSE",lwd=2,cex.axis=1.4)
points(RES,pch="*")
acf(RESZTY) #autokowariancja#
Rys. 3.21: Estymacja jądrowa gęstości Rys. 3.22: Wykres kwanty – kwantyl
reszt oszacowanego modelu. reszt oszacowanego modelu.
59
Kosiorowski / Wstęp do Statystyki Odpornej… / 60
Literatura
60