You are on page 1of 7

Wprowadzenie:

W przeszłości proponowano wiele miar dokładności prognoz, a kilku autorów, zajmujących się

badaniem szeregów czasowych, przedstawiło zalecenia dotyczące tego, co należy stosować przy

porównywaniu trafności metody prognoz do jednowymiarowych danych szeregów czasowych.

wiele z tych zaproponowanych miar dokładności prognoz nie mają ogólnego zastosowania,

mogą być nieskończone lub nieokreślone i mogą dawać mylące wyniki. Z artykułu podamy takie

miary, które można zastosować w porównaniach empirycznych. W szczególności nie jest

zalecane stosowanie żadnego ze środków miary dokładności prognoz, które były używane w

konkurencji M i konkurencji M3 (M-makridakis, baza szeregów czasowych).

Aby zademonstrować nieadekwatność wielu miar dokładności prognoz, podajemy trzy

przykłady rzeczywistych danych na rysunku 1. Pokazują one serię N0472 z M3-competition

, miesięczny zwrot akcji dla Walt Disney Corporation i miesięczna sprzedaż produktu

smarowego w dużych pojemnikach. Należy zauważyć, że zarówno seria zwrotów Disneya, jak i

seria sprzedaży smarów zawierają dokładne zerowe obserwacje, a seria Disneya zawiera

wartości ujemne. Przerywana linia oddziela zbiór treningowy (wykorzystany do dopasowania

modelu i konstrukcji prognoz) od zbioru testowego (wykorzystany do oceny dokładności prognoz).

Załóżmy, że jesteśmy zainteresowani porównaniem dokładności prognozy czterech prostych

metod: (1) średniej historycznej wykorzystując dane o najnowszych obserwacjach; (2) metoda

„naıve” lub metoda błądzenia losowego na podstawie najnowszych obserwacji; (3) proste

wygładzanie wykładnicze (czyli exponentioal smoothing) oraz (4) metoda Holta. Nie

sugerujemy, że są to najlepsze metody dla tych danych, ale wszystkie te metody są szeroko

stosowane. Porównujemy wydajność metod w próbie (w zbiorze uczącym) oraz wyniki poza

próbą (w zbiorze testowym).


Tabele 1–3 przedstawiają niektóre miary błędów predykcji dla tych metod zastosowanych w

przykładowych danych. Akronimy są zdefiniowane poniżej, ale my wyraźnie będziemy

definiować te kryteria w sekcjach 2 i 3. Wszystkie miary względne są obliczane względem

metody naiwnej (błądzenia losowego).

W tych tabelach uwzględniliśmy kryteria, które były wcześniej zalecane do stosowania

w porównywaniu dokładności prognoz w wielu seriach. Większość podręczników zaleca

korzystanie z MAPE (np. Hanke i Reitsch, 1995, s.120 oraz Bowerman, O’Connell i Koehler, 2004,

s.18) i było to główne kryterium w M-competition (Makridakis, et al., 1982). Natomiast

Makridakis, Wheelwright i Hyndman (1998, s.45) ostrzegają przed użyciem MAPE

w niektórych okolicznościach, w tym te, które występują w tych przykładach. Armstrong i

Collopy (1992) zalecili stosowanie GMRAE, MdRAE i MdAPE. Fildes (1992) również zalecił

stosowanie MdAPE i GMRAE. MdRAE, sMAPE i sMdAPE były stosowane dla M3-competition

(Makridakis i Hibon, 2000). M i M3 również wykorzystywały rankingi wśród konkurencyjnych

metod. Nie uwzględniamy ich tutaj, ponieważ są one zależne od liczby rozważanych metod. Nie

podają też żadnej informacji o wielkości błędów prognozy. Podobnie dla obu konkursów

uwzględniono miary oparte na odsetku przypadków, gdy jedna metoda była lepsza niż metoda

benchmark. Ponownie, takie miary nie są tutaj uwzględnione, ponieważ nie wskazują na rozmiar

błędu.

Według wiedzy artykułu MASE nie była wcześniej proponowana. Uważana jest za najlepszą

dostępną miarę trafności prognoz i argumentowana jest w Rozdziale 3.

Zauważmy, że w tabelkach istnieje wiele nieskończonych wartości z powodu dzielenia przez

zero. Dzielenie przez liczby bliskie zeru również daje bardzo duże liczby. Niezdefiniowane

wartości powstają z powodu dzielenia zera przez zero. Niektóre z nich wynikają z obliczeń

formy Yt/(Yt − Yt−1) gdzie Yt−1 = Yt = 0 a inne wynikają z obliczeń postaci (Yt − Yt−1)/(Yt −
Yt−1) gdzie Yt = Yt−1. W tym drugim przypadku można algebraicznie skreślić licznik i

mianownik, chociaż wyniki liczbowe będą nieokreślone. Zwróćmy też uwagę, że sMAPE może

przyjmować wartości ujemne, chociaż ma to być „bezwzględny błąd procentowy”.

Zauważmy, że w przypadku prognoz błądzenia losowego wyniki w zbiorze treningowym dla

MASE i wszystkie wyniki dla MdRAE i GMRAE są z definicji 1, ponieważ wymagają porównania z

prognozami naiwnymi. Jednak niektóre wartości MdRAE i GMRAE są niezdefiniowane, jak

wyjaśniono na poprzednim slajdzie.

Spośród miar w tabelach 1–3 tylko MASE może być użyty dla tych szeregów ze względu na

występowanie wartości nieskończonych i niezdefiniowanych. Te trzy szeregi nie są

zdegenerowane ani nietypowe — dane o popycie przerywanym często zawierają zera i wiele

szeregów czasowych, interesujących prognostów bierze negatywne obserwacje. Przyczyną

problemów z serią M3 N0472 jest wystąpienie kolejnych obserwacji o tej samej wartości, co

zdarza się bardzo często w przypadku real data.

Krytyczny przegląd miar dokładności:

Niech Yt oznacza obserwację w czasie t, a Ft prognozę Yt. Następnie definiujemy błąd predykcji

et = Yt − Ft. Prognozy mogą być obliczane na podstawie wspólnego czasu bazowego i mogą mieć

różne horyzonty prognoz. W ten sposób możemy obliczyć prognozy poza próbą Fn+1, . . . , Fn+m

na podstawie danych od czasów t = 1, . . . , n. Alternatywnie, prognozy mogą pochodzić z różnych

czasów bazowych i mieć spójny horyzont prognozy. Oznacza to, że możemy obliczyć prognozy

F1+h ,. . . , Fm+h gdzie każdy Fj+h opiera się na danych z czasów t = 1, . . . , J. Prognozy w próbie w

powyższych przykładach były na podstawie drugiego scenariusza z h = 1. Trzeci scenariusz

powstaje, gdy chcemy porównać dokładność metod w wielu szeregach w jednym horyzoncie

prognozy. Następnie obliczamy pojedynczy Fn+h na podstawie danych z czasów t = 1, . . . , n dla

każdego z m różnych serii.


W tym artykule nie rozróżniamy tych scenariuszy. Tutaj po prostu przyglądamy się sposobom

podsumowania dokładności prognoz, zakładając, że mamy m prognoz i obserwujemy dane w

każdym okresie prognozy. Używamy notacji mean(xt) do oznaczenia średniej próbki {xt} w

okresie zainteresowania (lub nad szeregiem zainteresowania). Analogicznie używamy

median(xt) jako mediany próbki i gmean(xt) dla średniej geometrycznej.

Miary zależne od skali:

Istnieje kilka powszechnie stosowanych miar dokładności, których skala zależy od skali

danych. Są one przydatne przy porównywaniu różnych metod na tym samym zestawie danych,

nie powinny być stosowane, na przykład, podczas porównywania zbiorów danych, które mają

różne skale. Niemniej jednak MSE został użyty przez Makridakisa i wsp., 1985, w M-competition.

To nieodpowiednie stosowanie MSE było szeroko krytykowane (np. Chatfield, 1988; Armstrong i

Collopy, 1992). Najczęściej używane miary zależne od skali są oparte na błędzie bezwzględnym

lub błędzie kwadratowym.

MSE-błąd średniokwadratowy, RMSE-podstawowy błąd średniokwadratowy, MAE- średni błąd

bezwzględny, MdAE- mediana błędu bezwzględnego.

Często RMSE jest preferowany w stosunku do MSE, ponieważ ma tę samą skalę co dane.

Historycznie RMSE i MSE były popularne, głównie ze względu na ich teoretyczne znaczenie w

modelowaniu statystycznym. Są jednak bardziej wrażliwe na wartości odstające niż MAE lub

MdAE, które skłoniło niektórych autorów (np. Armstrong, 2001) do odradzania ich stosowania

w dokładności oceny prognoz.


Miary oparte na błędach procentowych
Błąd procentowy wyraża się wzorem pt = 100et/Yt . Błędy procentowe mają tę zaletę, że są

niezależne od skali, dlatego są często używane do porównywania wydajności prognozy w

różnych zestawach danych. Najczęściej stosowane miary to:

- Średni bezwzględny błąd procentowy (MAPE),

- Mediana bezwzględnego błędu procentowego (MdAPE),

- Pierwiastek ze średniej kwadratu błędu procentowego (RMSPE)

- Pierwiastek z mediany kwadratu błędu procentowego (RMdSPE)

(?) Miary te mają tę wadę, że są nieskończone lub niezdefiniowane, jeśli Yt = 0 dla dowolnego t w

okresie zainteresowania i mają bardzo skrzywiony rozkład, gdy dowolny Yt

jest blisko do zera. (?) Oznacza to na przykład, że MAPE jest często znacznie większy niż MdAPE.

Gdy dane obejmują małe liczby (co jest powszechne w przypadku danych o nieciągłym

zapotrzebowaniu) nie można zastosować tych miar, ponieważ występują często zerowe wartości

Yt. Nadmiernie duże (lub nieskończone) MAPE uniknięto w M3-competition tylko przez

dane, które były pozytywne (Makridakis i Hibon, 2000, s. 462). Jest to jednak

sztuczne rozwiązanie niemożliwe do zastosowania w praktycznych sytuacjach.

Kolejną wadą metod opartych na błędach procentowych jest to, że zakładają one znaczące zero.

Na przykład nie mają one sensu w mierzeniu błędu prognozy dla temperatur na

Skale Fahrenheita lub Celsjusza.

MAPE i MdAPE mają również tę wadę, że nakładają cięższą karę na wynik pozytywny

błędów niż błędów ujemnych. Ta obserwacja doprowadziła do zastosowania tzw.

„symetrycznej” miary (Makridakis, 1993) zdefiniowana następująco


- Symetryczny średni bezwzględny błąd procentowy (sMAPE) = mean(200|Yt − Ft

|/(Yt + Ft))

- Symetryczna mediana bezwzględnego błędu procentowego (sMdAPE) = median(200|Yt − Ft

|/(Yt + Ft))

Problemy wynikające z małych wartości Yt mogą być mniej dotkliwe dla sMAPE i sMdAPE.

Jednak zawsze tam, gdzie Yt jest bliskie zeru, Ft prawdopodobnie będzie również bliski zera. Tak

więc miara nadal wiąże się z dzieleniem przez liczbę bliską zeru.

Jak widać na przykładach w rozdziale 1, sMAPE i sMdAPE mogą przyjmować wartości ujemne.

Bardziej naturalne wydawałoby się definiowanie ich wartościami bezwzględnymi w

mianowniku, a więc uniknięcie tego problem. Co więcej, środki te nie są tak „symetryczne”, jak

sugeruje ich nazwa. Dla tej samej wartości Yt, wartość 2|Yt − Ft

|/(Yt + Ft) ma większa karę, gdy prognozy są niskie w porównaniu do sytuacji, gdy prognozy są

wysokie.

Niektórzy autorzy (np. Swanson i in., 2000) zauważyli, że miary oparte na błędach

procentowych są często bardzo skośne, dlatego przekształcenia (takie jak logarytmy) mogą je

spowodować bardziej stabilnymi.

Miary oparte na błędach względnych


Alternatywnym sposobem skalowania jest podzielenie każdego błędu przez błąd uzyskany przy

użyciu innej standardowej metody prognozowania. Niech rt = et/e* t oznacza błąd względny,

gdzie e*T jest prognozowanym błędem uzyskany z metody porównawczej. Zazwyczaj metoda

porównawcza jest błądzeniem losowym gdzie Ft równa się ostatniej obserwacji; to właśnie

zostało użyte w przykładach w Sekcji 1.


Możemy zdefiniować:

-Mean Relative Absolute Error (MRAE) = mean(|rt |)

- Median Relative Absolute Error (MdRAE) = median(|rt |)

-Geometric Mean Relative Absoluate Error (GMRAE) = gmean(|rt |)

i tak dalej. Armstrong i Collopy (1992) zalecili stosowanie względnych błędów bezwzględnych,

zwłaszcza GMRAE i MdRAE. Fildes (1992) również preferuje GMRAE, chociaż wyraża go w

równoważnej (ale bardziej złożonej) formie jako pierwiastek kwadratowy ze średniej

geometrycznej kwadratów błędów względnych. Wydaje się, że ta równoważność nie została

zauważona przez żadnego z dyskutanci w komentarzu Ahlburg et al. (1992). Poważną wadą

miar błędów względnych jest to, że e*T może być mały. W rzeczywistości rt ma nieskończoność

wariancja, ponieważ e*t ma dodatnią gęstość prawdopodobieństwa równą 0. Jednym z

powszechnych przypadków specjalnych jest sytuacja, gdy et i e*T mają rozkład normalny, w

którym to przypadku rt ma rozkład Cauchy'ego. Armstrong i Collopy (1992) zalecają stosowanie

„winsorizingu” w celu obniżenia wartości ekstremalnych. Pozwoli to uniknąć trudności

związanych z małymi wartościami e*T, ale dodaje trochę złożoności do należy określić

obliczenia i poziom arbitralności jako ilość przycinania.

You might also like