Prezentacja Szeregi

Wprowadzenie:
W przeszłości proponowano wiele miar dokładności prognoz, a kilku autorów, zajmujących się
badaniem szeregów czasowych, przedstawiło zalecenia dotyczące tego, co należy stosować przy
porównywaniu trafności metody prognoz do jednowymiarowych danych szeregów czasowych.
wiele z tych zaproponowanych miar dokładności prognoz nie mają ogólnego zastosowania,
mogą być nieskończone lub nieokreślone i mogą dawać mylące wyniki. Z artykułu podamy takie
miary, które można zastosować w porównaniach empirycznych. W szczególności nie jest
zalecane stosowanie żadnego ze środków miary dokładności prognoz, które były używane w
konkurencji M i konkurencji M3 (M-makridakis, baza szeregów czasowych).
Aby zademonstrować nieadekwatność wielu miar dokładności prognoz, podajemy trzy
przykłady rzeczywistych danych na rysunku 1. Pokazują one serię N0472 z M3-competition
, miesięczny zwrot akcji dla Walt Disney Corporation i miesięczna sprzedaż produktu
smarowego w dużych pojemnikach. Należy zauważyć, że zarówno seria zwrotów Disneya, jak i
seria sprzedaży smarów zawierają dokładne zerowe obserwacje, a seria Disneya zawiera
wartości ujemne. Przerywana linia oddziela zbiór treningowy (wykorzystany do dopasowania
modelu i konstrukcji prognoz) od zbioru testowego (wykorzystany do oceny dokładności prognoz).
Załóżmy, że jesteśmy zainteresowani porównaniem dokładności prognozy czterech prostych
metod: (1) średniej historycznej wykorzystując dane o najnowszych obserwacjach; (2) metoda
„naıve” lub metoda błądzenia losowego na podstawie najnowszych obserwacji; (3) proste
wygładzanie wykładnicze (czyli exponentioal smoothing) oraz (4) metoda Holta. Nie
sugerujemy, że są to najlepsze metody dla tych danych, ale wszystkie te metody są szeroko
stosowane. Porównujemy wydajność metod w próbie (w zbiorze uczącym) oraz wyniki poza
próbą (w zbiorze testowym).

Tabele 1–3 przedstawiają niektóre miary błędów predykcji dla tych metod zastosowanych w
przykładowych danych. Akronimy są zdefiniowane poniżej, ale my wyraźnie będziemy
definiować te kryteria w sekcjach 2 i 3. Wszystkie miary względne są obliczane względem
metody naiwnej (błądzenia losowego).
W tych tabelach uwzględniliśmy kryteria, które były wcześniej zalecane do stosowania
w porównywaniu dokładności prognoz w wielu seriach. Większość podręczników zaleca
korzystanie z MAPE (np. Hanke i Reitsch, 1995, s.120 oraz Bowerman, O’Connell i Koehler, 2004,
s.18) i było to główne kryterium w M-competition (Makridakis, et al., 1982). Natomiast
Makridakis, Wheelwright i Hyndman (1998, s.45) ostrzegają przed użyciem MAPE
w niektórych okolicznościach, w tym te, które występują w tych przykładach. Armstrong i
Collopy (1992) zalecili stosowanie GMRAE, MdRAE i MdAPE. Fildes (1992) również zalecił
stosowanie MdAPE i GMRAE. MdRAE, sMAPE i sMdAPE były stosowane dla M3-competition
(Makridakis i Hibon, 2000). M i M3 również wykorzystywały rankingi wśród konkurencyjnych
metod. Nie uwzględniamy ich tutaj, ponieważ są one zależne od liczby rozważanych metod. Nie
podają też żadnej informacji o wielkości błędów prognozy. Podobnie dla obu konkursów
uwzględniono miary oparte na odsetku przypadków, gdy jedna metoda była lepsza niż metoda
benchmark. Ponownie, takie miary nie są tutaj uwzględnione, ponieważ nie wskazują na rozmiar
błędu.
Według wiedzy artykułu MASE nie była wcześniej proponowana. Uważana jest za najlepszą
dostępną miarę trafności prognoz i argumentowana jest w Rozdziale 3.
Zauważmy, że w tabelkach istnieje wiele nieskończonych wartości z powodu dzielenia przez
zero. Dzielenie przez liczby bliskie zeru również daje bardzo duże liczby. Niezdefiniowane
wartości powstają z powodu dzielenia zera przez zero. Niektóre z nich wynikają z obliczeń
formy Yt/(Yt − Yt−1) gdzie Yt−1 = Yt = 0 a inne wynikają z obliczeń postaci (Yt − Yt−1)/(Yt −
Yt−1) gdzie Yt = Yt−1. W tym drugim przypadku można algebraicznie skreślić licznik i
mianownik, chociaż wyniki liczbowe będą nieokreślone. Zwróćmy też uwagę, że sMAPE może
przyjmować wartości ujemne, chociaż ma to być „bezwzględny błąd procentowy”.
Zauważmy, że w przypadku prognoz błądzenia losowego wyniki w zbiorze treningowym dla
MASE i wszystkie wyniki dla MdRAE i GMRAE są z definicji 1, ponieważ wymagają porównania z
prognozami naiwnymi. Jednak niektóre wartości MdRAE i GMRAE są niezdefiniowane, jak
wyjaśniono na poprzednim slajdzie.
Spośród miar w tabelach 1–3 tylko MASE może być użyty dla tych szeregów ze względu na
występowanie wartości nieskończonych i niezdefiniowanych. Te trzy szeregi nie są
zdegenerowane ani nietypowe — dane o popycie przerywanym często zawierają zera i wiele
szeregów czasowych, interesujących prognostów bierze negatywne obserwacje. Przyczyną
problemów z serią M3 N0472 jest wystąpienie kolejnych obserwacji o tej samej wartości, co
zdarza się bardzo często w przypadku real data.
Krytyczny przegląd miar dokładności:
Niech Yt oznacza obserwację w czasie t, a Ft prognozę Yt. Następnie definiujemy błąd predykcji
et = Yt − Ft. Prognozy mogą być obliczane na podstawie wspólnego czasu bazowego i mogą mieć
różne horyzonty prognoz. W ten sposób możemy obliczyć prognozy poza próbą Fn+1, . . . , Fn+m
na podstawie danych od czasów t = 1, . . . , n. Alternatywnie, prognozy mogą pochodzić z różnych
czasów bazowych i mieć spójny horyzont prognozy. Oznacza to, że możemy obliczyć prognozy
F1+h ,. . . , Fm+h gdzie każdy Fj+h opiera się na danych z czasów t = 1, . . . , J. Prognozy w próbie w
powyższych przykładach były na podstawie drugiego scenariusza z h = 1. Trzeci scenariusz
powstaje, gdy chcemy porównać dokładność metod w wielu szeregach w jednym horyzoncie
prognozy. Następnie obliczamy pojedynczy Fn+h na podstawie danych z czasów t = 1, . . . , n dla
każdego z m różnych serii.

W tym artykule nie rozróżniamy tych scenariuszy. Tutaj po prostu przyglądamy się sposobom
podsumowania dokładności prognoz, zakładając, że mamy m prognoz i obserwujemy dane w
każdym okresie prognozy. Używamy notacji mean(xt) do oznaczenia średniej próbki {xt} w
okresie zainteresowania (lub nad szeregiem zainteresowania). Analogicznie używamy
median(xt) jako mediany próbki i gmean(xt) dla średniej geometrycznej.
Miary zależne od skali:
Istnieje kilka powszechnie stosowanych miar dokładności, których skala zależy od skali
danych. Są one przydatne przy porównywaniu różnych metod na tym samym zestawie danych,
nie powinny być stosowane, na przykład, podczas porównywania zbiorów danych, które mają
różne skale. Niemniej jednak MSE został użyty przez Makridakisa i wsp., 1985, w M-competition.
To nieodpowiednie stosowanie MSE było szeroko krytykowane (np. Chatfield, 1988; Armstrong i
Collopy, 1992). Najczęściej używane miary zależne od skali są oparte na błędzie bezwzględnym
lub błędzie kwadratowym.
MSE-błąd średniokwadratowy, RMSE-podstawowy błąd średniokwadratowy, MAE- średni błąd
bezwzględny, MdAE- mediana błędu bezwzględnego.
Często RMSE jest preferowany w stosunku do MSE, ponieważ ma tę samą skalę co dane.
Historycznie RMSE i MSE były popularne, głównie ze względu na ich teoretyczne znaczenie w
modelowaniu statystycznym. Są jednak bardziej wrażliwe na wartości odstające niż MAE lub
MdAE, które skłoniło niektórych autorów (np. Armstrong, 2001) do odradzania ich stosowania
w dokładności oceny prognoz.

Miary oparte na błędach procentowych
Błąd procentowy wyraża się wzorem pt = 100et/Yt . Błędy procentowe mają tę zaletę, że są
niezależne od skali, dlatego są często używane do porównywania wydajności prognozy w
różnych zestawach danych. Najczęściej stosowane miary to:
- Średni bezwzględny błąd procentowy (MAPE),
- Mediana bezwzględnego błędu procentowego (MdAPE),
- Pierwiastek ze średniej kwadratu błędu procentowego (RMSPE)
- Pierwiastek z mediany kwadratu błędu procentowego (RMdSPE)
(?) Miary te mają tę wadę, że są nieskończone lub niezdefiniowane, jeśli Yt = 0 dla dowolnego t w
okresie zainteresowania i mają bardzo skrzywiony rozkład, gdy dowolny Yt
jest blisko do zera. (?) Oznacza to na przykład, że MAPE jest często znacznie większy niż MdAPE.
Gdy dane obejmują małe liczby (co jest powszechne w przypadku danych o nieciągłym
zapotrzebowaniu) nie można zastosować tych miar, ponieważ występują często zerowe wartości
Yt. Nadmiernie duże (lub nieskończone) MAPE uniknięto w M3-competition tylko przez
dane, które były pozytywne (Makridakis i Hibon, 2000, s. 462). Jest to jednak
sztuczne rozwiązanie niemożliwe do zastosowania w praktycznych sytuacjach.
Kolejną wadą metod opartych na błędach procentowych jest to, że zakładają one znaczące zero.
Na przykład nie mają one sensu w mierzeniu błędu prognozy dla temperatur na
Skale Fahrenheita lub Celsjusza.
MAPE i MdAPE mają również tę wadę, że nakładają cięższą karę na wynik pozytywny
błędów niż błędów ujemnych. Ta obserwacja doprowadziła do zastosowania tzw.
„symetrycznej” miary (Makridakis, 1993) zdefiniowana następująco

- Symetryczny średni bezwzględny błąd procentowy (sMAPE) = mean(200|Yt − Ft
|/(Yt + Ft))
- Symetryczna mediana bezwzględnego błędu procentowego (sMdAPE) = median(200|Yt − Ft
|/(Yt + Ft))
Problemy wynikające z małych wartości Yt mogą być mniej dotkliwe dla sMAPE i sMdAPE.
Jednak zawsze tam, gdzie Yt jest bliskie zeru, Ft prawdopodobnie będzie również bliski zera. Tak
więc miara nadal wiąże się z dzieleniem przez liczbę bliską zeru.
Jak widać na przykładach w rozdziale 1, sMAPE i sMdAPE mogą przyjmować wartości ujemne.
Bardziej naturalne wydawałoby się definiowanie ich wartościami bezwzględnymi w
mianowniku, a więc uniknięcie tego problem. Co więcej, środki te nie są tak „symetryczne”, jak
sugeruje ich nazwa. Dla tej samej wartości Yt, wartość 2|Yt − Ft
|/(Yt + Ft) ma większa karę, gdy prognozy są niskie w porównaniu do sytuacji, gdy prognozy są
wysokie.
Niektórzy autorzy (np. Swanson i in., 2000) zauważyli, że miary oparte na błędach
procentowych są często bardzo skośne, dlatego przekształcenia (takie jak logarytmy) mogą je
spowodować bardziej stabilnymi.
Miary oparte na błędach względnych

Alternatywnym sposobem skalowania jest podzielenie każdego błędu przez błąd uzyskany przy
użyciu innej standardowej metody prognozowania. Niech rt = et/e* t oznacza błąd względny,
gdzie e*T jest prognozowanym błędem uzyskany z metody porównawczej. Zazwyczaj metoda
porównawcza jest błądzeniem losowym gdzie Ft równa się ostatniej obserwacji; to właśnie
zostało użyte w przykładach w Sekcji 1.

Możemy zdefiniować:
-Mean Relative Absolute Error (MRAE) = mean(|rt |)
- Median Relative Absolute Error (MdRAE) = median(|rt |)
-Geometric Mean Relative Absoluate Error (GMRAE) = gmean(|rt |)
i tak dalej. Armstrong i Collopy (1992) zalecili stosowanie względnych błędów bezwzględnych,
zwłaszcza GMRAE i MdRAE. Fildes (1992) również preferuje GMRAE, chociaż wyraża go w
równoważnej (ale bardziej złożonej) formie jako pierwiastek kwadratowy ze średniej
geometrycznej kwadratów błędów względnych. Wydaje się, że ta równoważność nie została
zauważona przez żadnego z dyskutanci w komentarzu Ahlburg et al. (1992). Poważną wadą
miar błędów względnych jest to, że e*T może być mały. W rzeczywistości rt ma nieskończoność
wariancja, ponieważ e*t ma dodatnią gęstość prawdopodobieństwa równą 0. Jednym z
powszechnych przypadków specjalnych jest sytuacja, gdy et i e*T mają rozkład normalny, w
którym to przypadku rt ma rozkład Cauchy'ego. Armstrong i Collopy (1992) zalecają stosowanie
„winsorizingu” w celu obniżenia wartości ekstremalnych. Pozwoli to uniknąć trudności
związanych z małymi wartościami e*T, ale dodaje trochę złożoności do należy określić
obliczenia i poziom arbitralności jako ilość przycinania.

Prezentacja Szeregi

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prezentacja Szeregi

Uploaded by

Copyright:

Available Formats

Wprowadzenie:

porównywaniu trafności metody prognoz do jednowymiarowych danych szeregów czasowych.

miary, które można zastosować w porównaniach empirycznych. W szczególności nie jest

konkurencji M i konkurencji M3 (M-makridakis, baza szeregów czasowych).

Aby zademonstrować nieadekwatność wielu miar dokładności prognoz, podajemy trzy

przykłady rzeczywistych danych na rysunku 1. Pokazują one serię N0472 z M3-competition

wartości ujemne. Przerywana linia oddziela zbiór treningowy (wykorzystany do dopasowania

modelu i konstrukcji prognoz) od zbioru testowego (wykorzystany do oceny dokładności prognoz).

Załóżmy, że jesteśmy zainteresowani porównaniem dokładności prognozy czterech prostych

próbą (w zbiorze testowym).

przykładowych danych. Akronimy są zdefiniowane poniżej, ale my wyraźnie będziemy

definiować te kryteria w sekcjach 2 i 3. Wszystkie miary względne są obliczane względem

metody naiwnej (błądzenia losowego).

W tych tabelach uwzględniliśmy kryteria, które były wcześniej zalecane do stosowania

w porównywaniu dokładności prognoz w wielu seriach. Większość podręczników zaleca

s.18) i było to główne kryterium w M-competition (Makridakis, et al., 1982). Natomiast

Makridakis, Wheelwright i Hyndman (1998, s.45) ostrzegają przed użyciem MAPE

w niektórych okolicznościach, w tym te, które występują w tych przykładach. Armstrong i

(Makridakis i Hibon, 2000). M i M3 również wykorzystywały rankingi wśród konkurencyjnych

dostępną miarę trafności prognoz i argumentowana jest w Rozdziale 3.

Zauważmy, że w tabelkach istnieje wiele nieskończonych wartości z powodu dzielenia przez

przyjmować wartości ujemne, chociaż ma to być „bezwzględny błąd procentowy”.

Zauważmy, że w przypadku prognoz błądzenia losowego wyniki w zbiorze treningowym dla

prognozami naiwnymi. Jednak niektóre wartości MdRAE i GMRAE są niezdefiniowane, jak

wyjaśniono na poprzednim slajdzie.

występowanie wartości nieskończonych i niezdefiniowanych. Te trzy szeregi nie są

szeregów czasowych, interesujących prognostów bierze negatywne obserwacje. Przyczyną

zdarza się bardzo często w przypadku real data.

Krytyczny przegląd miar dokładności:

na podstawie danych od czasów t = 1, . . . , n. Alternatywnie, prognozy mogą pochodzić z różnych

powyższych przykładach były na podstawie drugiego scenariusza z h = 1. Trzeci scenariusz

prognozy. Następnie obliczamy pojedynczy Fn+h na podstawie danych z czasów t = 1, . . . , n dla

każdego z m różnych serii.

podsumowania dokładności prognoz, zakładając, że mamy m prognoz i obserwujemy dane w

okresie zainteresowania (lub nad szeregiem zainteresowania). Analogicznie używamy

median(xt) jako mediany próbki i gmean(xt) dla średniej geometrycznej.

Miary zależne od skali:

lub błędzie kwadratowym.

MSE-błąd średniokwadratowy, RMSE-podstawowy błąd średniokwadratowy, MAE- średni błąd

bezwzględny, MdAE- mediana błędu bezwzględnego.

w dokładności oceny prognoz.

niezależne od skali, dlatego są często używane do porównywania wydajności prognozy w

różnych zestawach danych. Najczęściej stosowane miary to:

- Średni bezwzględny błąd procentowy (MAPE),

- Mediana bezwzględnego błędu procentowego (MdAPE),

- Pierwiastek ze średniej kwadratu błędu procentowego (RMSPE)

- Pierwiastek z mediany kwadratu błędu procentowego (RMdSPE)

okresie zainteresowania i mają bardzo skrzywiony rozkład, gdy dowolny Yt

sztuczne rozwiązanie niemożliwe do zastosowania w praktycznych sytuacjach.

Skale Fahrenheita lub Celsjusza.

błędów niż błędów ujemnych. Ta obserwacja doprowadziła do zastosowania tzw.

„symetrycznej” miary (Makridakis, 1993) zdefiniowana następująco

- Symetryczna mediana bezwzględnego błędu procentowego (sMdAPE) = median(200|Yt − Ft

Bardziej naturalne wydawałoby się definiowanie ich wartościami bezwzględnymi w

spowodować bardziej stabilnymi.

Miary oparte na błędach względnych

zostało użyte w przykładach w Sekcji 1.

-Mean Relative Absolute Error (MRAE) = mean(|rt |)

- Median Relative Absolute Error (MdRAE) = median(|rt |)

-Geometric Mean Relative Absoluate Error (GMRAE) = gmean(|rt |)

równoważnej (ale bardziej złożonej) formie jako pierwiastek kwadratowy ze średniej

geometrycznej kwadratów błędów względnych. Wydaje się, że ta równoważność nie została

wariancja, ponieważ e*t ma dodatnią gęstość prawdopodobieństwa równą 0. Jednym z