5 Szelekció

Változók és modellek szelekciója
Lehetséges megközelítések a modellépítés során
• Elmélet- vagy adatvezérelt?

• Specific-to-general = elmélet által diktált, minél kevesebb változó:
• elméleti koherencia
• téves specifikáció kockázata
• General-to-specific = adatvezérelt, minden ami relevánsnak tűnik:
• statisztikailag helyesebb
• túlillesztés kockázata illetve nehezebb elméleti értelmezhetőség
• A legjobb modellt keressük, vagy együtt élünk a téves specifikációval?

• Az ideális („igazi”) modellt és előrejelzését keressük: klasszikus
ökonometria szemlélete
• Modelleket illetve előrejelzéseiket kombináljuk: bayesi szemlélet; a
legjobb modell nem ismerhető meg (pl. kevés adat, előrejelezhetetlen
strukturális törések miatt)
Az elmélet szerepe a változók kiválasztásában, adatbányász eljárások
VÁLTOZÓ SZELEKCIÓ
Az elmélettől az adatokig, vagy fordítva?
• Specific-to-general: theory first (reality second?)
• Axiomatikus elmélet, az ökonometria feladata az elméletileg
releváns (strukturális) paraméterek mérése, az elmélet tesztelése
• Probléma: ha a modell feltevései nem teljesülnek, abból még nem
derül ki, hogyan lehetne javítani a helyzeten
• Azokat a változókat használjuk előrejelzésre, amelyek az elmélet
szerint fontosak
• General-to-specific: reality first (aka „LSE módszer”)
• A helyes redukált formájú statisztikai modellből (pl. VAR, VECM)
kell kiindulni, ez jelölje ki, hogy az elméletnek milyen jelenségeket
kell magyaráznia
• Azokat a változókat használjuk, amelyek működnek, az elméleti
relevancia másodlagos
Egy figyelmeztető példa: Juselius-Franchi (2007)
• Ireland (2004)
• Loglinearizált RBC modellt becsül (ML), a technológiai sokk AR(1) folyamatot
követ. Az autokorreláció felszívhatja a mérési hibákat és az egyéb sokkok
hatásait
• Az elmélet szerint a technológiai sokk az egyetlen sztochasztikus trend
(kointegráló kapcsolat) forrása
• Felteszi, hogy minden változó trendstacioner.
• Az AR paraméter 0.9987
• Juselius-Franchi (2007)
• Nézzük meg, hogy az adatok teljesítik-e Ireland implicit feltevéseit!
• Az RBC-t átírják VECM modellé
• A paraméterek időben nem tűnnek stabilnak
• A munkaórák száma nem stacioner
• Nem egy, hanem két sztochasztikus trendet találnak, melyek a fogyasztás és
a munka permanens sokkjaival függnek össze (és nem a TFP-vel)
Mi a haszna a közgazdasági elméletnek előrejelző
modellek építése során? (Giacomini, 2015)
• Empirikus tapasztalatok áttekintése
• Makro és pénzügyi változók előrejelzése havi vagy alacsonyabb
frekvencián
• „Elmélet” lazán értelmezve
• Nemzeti számlás azonosságoktól DSGE modellekig
• Hogyan építhetjük be az elméletet?
• Változók kiválasztása
• Paraméter korlátozások vagy prior eloszlások
• Elméleti és redukált modellek kombinálása
• Elméleti (DSGE) modellel készített előrejelzés
Mi nem működik?
• DSGE modellek
• Ökonometriai modellek és elemzői felmérések jobban
teljesítenek az infláció és kamat, valamint rövidtávon a GDP
előrejelzésében
• DSGE modellek publikálása után romlik az előrejelzési
teljesítményük…
• Hibrid DSGE-ket még nem tesztelték szisztematikusan
• Elmélet vezérelt változószelekció
• Pl. Phillips-görbe, PPP
Mi működik?
• Rövid és hosszú távú előrejelzés szétválasztása

• Ami rövidtávon beválik, hosszú távon nem feltétlenül működik, és fordítva
• Úgy tűnik, rövidtávon az segít, ha
• hatékonyan tudunk nagy mennyiségű adatból releváns információt kinyerni
(pl. faktormodell), és a módszerünk robusztus a strukturális instabilitásokra
• Egyikhez sem kell elmélet
• Hosszú távon a trendek közti együttmozgások jó megragadása lehet a
kulcs
• Nem triviális, hogy a kointegrációra tett megkötések segítenek-e
• A DSGE teljesítményét a trendszűrés is befolyásolja
Mi működik? (folyt.)
• Elemzői (survey) előrejelzések

• Különösen rövidtávon nehéz verni őket
• Az elemzők könnyebben megragadnak olyan tényezőket, amik
kimaradnak a modellekből
• Hosszú távon a modellek relatíve jobban teljesítenek: az elemzők sem
tudnak jobb modellt, csak a valós idejű információ feldolgozásában
hatékonyabbak
• Elméleti modellek és survey-k kombinálása is hatékony lehet
• Számviteli azonosságok és dezaggregálás
• Pl. GDP vagy CPI tétel szintű előrejelzések aggregálása
Példa: orosz inflációs előrejelzés dezaggregálása
• 42 termékcsoportra egyenként illesztünk optimális ARIMA modellt
• Rekurzív mintán előrejelzéseket készítünk
• Ezeket aggregáljuk a CPI tételek súlyaival
• Hogyan teljesít a legjobb aggregált előrejelzésekhez képest?
Modell RMSE 1 hó RMSE 6 hó RMSE 12 hó Előrejelzés,
2017. dec.
ARIMA 0.39% 2.54% 4.44% 7.2%
(aggregált)
ARIMA 0.50% 2.25% 3.75% 7.2%
(dezaggregált)
DFM 0.75% 2.34% 4.15% 7.0%
Szakértői 0.33% 2.63% 5.42% 4.3%

Hogyan választhatjuk ki a releváns változókat
pusztán az adatok alapján?
1. Nyers erővel
2. Legjobb részhalmaz kiválasztása
3. Shrinkage módszerek
1. Nyers erő
• Minden lehetséges modellt megbecslünk, majd

kiválasztjuk a legjobb(ak)at. Lehetséges kritériumok:
• Információs kritériumok, pl. AIC, HQ, SIC
• Bayesi modell átlagolás
• Minden lehetséges modellhez rendelhető egy valószínűség a
megfigyelt adatok fényében.
• A relatív valószínűségekkel súlyozhatjuk az egyes modelleket és
előrejelzéseiket (bővebben lásd jövő hét)
• Probléma: számításigényes (2N lehetséges kombináció)
2. Legjobb részhalmaz kiválasztása
• A lehetséges változók egy részhalmazát keressük, a többi

paramétere 0 („hard thresholding”). Példák:
• Backward/forward selection/stepwise (egyenként
kidobunk/bevonunk változókat, stepwise esetben később újra
vissza/kikerülhetnek)
• Autometrics: általános, kongruens modellből dobál ki változókat,
több úton indul el, közben teszteli, hogy kongruens marad-e a
modell
• Probléma: multikollinearitásra, magyarázó változók
endogenitására, nemlinearitásokra érzékenyek
3. Shrinkage
• Minden változót felhasználunk, de a kevésbé relevánsak paramétereit
0 felé szorítjuk („soft thresholding”). Példák:
• Ridge regresszió:
2
𝑁 𝑝 𝑝
𝛽መ 𝑟𝑖𝑑𝑔𝑒 = argmin ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝑥𝑖𝑗 𝛽𝑗 + 𝜆 ෍ 𝛽𝑗2 = 𝑋 ′ 𝑋 + 𝜆𝐼 −1 𝑋 ′ 𝑦

𝛽
𝑖=1 𝑗=1 𝑗=1
• LASSO:
2
𝑁 𝑝 𝑝
𝛽መ 𝐿𝐴𝑆𝑆𝑂 = argmin ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝑥𝑖𝑗 𝛽𝑗 + 𝜆 ෍ |𝛽𝑗 |

𝛽
𝑖=1 𝑗=1 𝑗=1
• Főkomponens/faktormodellek: a változókat közös komponensre és egyedi

zajra dekomponáljuk, az utóbbit dobjuk ki
• Partial Least Squares: a főkomponenseket úgy rotálja, hogy maximalizálja a
korrelációt egy célváltozóval
Tapasztalatok
• A statisztikai alapú változószelekciós módszerek jellemzően
segítenek
• Példák:
• Bai-Ng (2008): soft thresholding segítségével kiválasztott néhány
tucat változóval javul a faktormodellek (inflációs) előrejelző
képessége
• Groen-Kapetanios (2016): PLS felülmúlja a standard
faktormodelleket
• Castle-Qin-Reed (2013): nincs egyértelműen legjobb algoritmus az
optimális részhalmaz kiválasztására, Autometrics viszonylag jól
teljesít
• Új, gyorsan fejlődő terület
Ha nem ismerjük az ideális modellt
ELŐREJELZÉSEK KOMBINÁLÁSA
Modellek illetve előrejelzések kombinálása
• Hasonló a kiinduló probléma mindkét esetben

• Úgy szeretnénk következtetéseket levonni, hogy nem ismerjük az
igazi adatgeneráló folyamatot
• Ezért különféle, bevallottan rosszul specifikált modellt kombinálunk
• Különbségek
• Modell átlagolásnál a cél a strukturális paraméterek valódi
értékének meghatározása (jövő héten még lesz szó róla), ehhez a
mintán belüli illeszkedésre koncentrálunk
• Előrejelzés átlagolásánál a redukált modellek előrejelző
teljesítményét szeretnénk optimalizálni, ehhez a mintán kívüli
előrejelző képességet használjuk fel
Előrejelzések kombinálása
• Miért?
• Előfordul, hogy nincs egyértelműen legjobb modell, illetve időben változó
teljesítmény
• Diverzifikációs előnyök
• Milyen esetekben?
• Ha az egyedi modellek félrespecifikáltak
• Ha bizonytalan a gazdasági környezet
• Ha rövid a kiértékeléshez használható minta
• Mit?
• Különböző információs halmazokon készített előrejelzéseket
• Különböző típusú modelleket (pl. lineáris, nemlineáris)
• Szakértői felméréseket és modelleket
• Hogyan?
Alapok
• Nagyobb számú előrejelzés információtartalmát sűrítjük egyetlen
mutatóba
• Pontelőrejelzéssel foglalkozunk majd, de alkalmazható intervallumra,
eloszlásra is
• Az ideális kombináció olyan súlyokat választ, ami minimalizálja a
kombinált előrejelzés veszteségét
• A pontosabb előrejelzések nagyobb súlyt kapnak
• A súlyok tükrözik az előrejelzések közti korrelációt
• A becslési hiba is szerepet játszik
• Irrelevancia tétel: ha jól specifikált modellünk lenne, végtelen mintánk,
és fel tudnánk használni az összes szóba jövő modell információs
halmazát, akkor nem lenne értelme az előrejelzések kombinálásának.
De a gyakorlatban sosem ez a helyzet.
A probléma formálisan
• Az egyedi modellek (különböző információs halmazokon készített)
1 𝑚
előrejelzései: 𝑧𝑡 = 𝑓መ𝑡+ℎ|𝑡 , … 𝑓መ𝑡+ℎ|𝑡
• Az optimális kombináció az alábbi problémát oldja meg:
1 𝑚
min 𝐸[ℒ 𝑤 𝑓መ𝑡+ℎ|𝑡 , … , 𝑓መ𝑡+ℎ|𝑡 , 𝑦𝑡+ℎ |𝑍𝑡 ]
𝑤 ∙
• Az optimális kombináció csak az előrejelzések realizációitól függ, nem

ezek információs halmazaitól
• Ha 𝑔(∙) lineáris, akkor a megoldás egy súlyvektor lesz; jellemzően azt
is elvárjuk, hogy a súlyok az előrejelzések konvex kombinációját
állítsák elő
• A súlyokat a múltbeli adatokból kell becsülnünk. A gyakorlatban
általában nincs egyértelműen legjobb súlyvektor.
Lehetséges súlyozási sémák
• Egyszerű sémák:
1 (𝑖)
• Egyenlő súly: 𝑓𝑡+ℎ|𝑡 = 𝑚 σ𝑚
𝑖=1 𝑓𝑡+ℎ|ℎ
𝑚
𝑖
• Medián: 𝑓𝑡+ℎ|𝑡 = 𝑄0.5 𝑓𝑡+ℎ|ℎ
𝑖=1
• Trimmelt átlag: növekvő sorba rendezzük az egyedi előrejelzéseket, a
legalsó/legfelső 𝜆% elhagyásával számolnuk átlagot
𝑀𝑆𝐸𝑖−1
• RMSE rangsor alapján: 𝜔𝑖 = σ𝑖 𝑀𝑆𝐸𝑖−1
,
𝑅𝑎𝑛𝑘(𝑀𝑆𝐸)−1
• illetve ennek robusztusabb változata 𝜔𝑖 = 𝑖
σ𝑖 𝑅𝑎𝑛𝑘(𝑀𝑆𝐸)−1
𝑖
• Bonyolultabbak:
• Bates-Granger (1969): regresszióval becsülve (azzal a korlátozással hogy a
súlyok összege 1, a konstans pedig 0)
exp(𝑆𝐼𝐶𝑖−1 )
• Bayesi modell átlagolás-szerű: 𝜔𝑖 = σ𝑖 exp(𝑆𝐼𝐶𝑖−1 )
• Stb. (akár időben változó)
Melyik súlyozási sémát válasszuk?
• A kombinált előrejelzés általában jobban teljesít a legjobb egyedi

előrejelzésnél
• Az egyszerű technikákat nehéz empirikusan legyőzni
• Az optimális súlyok becslési hibái nagyok és/vagy az optimális súlyok
használatából származó nyereség kicsi
• Csak akkor igaz, ha az egyedi modellek hibája hasonló nagyságrendű
• Gyakran szükség van a legrosszabb modellek kirostálására
• Az irodalom a legrosszabb 5-20% kiszűrését javasolja
• Shrinkage gyakran segít
• Optimális súly és egyenlő súlyozás keverése (bayesi)
• Segíthet, ha a súlyozás időben enyhén változik
Példa időben változó súlyozásra: Drechsel-Maurin
(2011)
• GDP nowcast valós idejű adatokon
A különféle típusú indikátorok optimális
• Különféle indikátorokkal becsült ARX
előrejelzéseket kombinálnak
súlya a GDP nowcast során
• Többféle sémát vizsgálnak, most csak AIC
alapú súlyozást nézünk
• 6 előrejelzési forduló minden negyedév
adatra:
1. M1 vége
2. M2 vége
3. M3 közepe
4. M3 (és negyedév) vége = T
5. T+15
6. T+30
(előzetes GDP T+45-ben érkezik)
Példa: orosz inflációs előrejelzések kombinálása
• Az eddig megismert modellek 1 és 12 hónapos előrejelzéseit
kombináljuk (10 illetve 11 eszköz)
• Néhány egyszerű súlyozást nézünk csak meg:
• Egyenlő súlyok (átlagolás)
• Csonkolt átlag
• Statisztikai alapon (legrosszabb 10/30/50%-ot kidobjuk)
• Csak néhány modellt választunk ki „szakértői” alapon. Azt mérlegeljük majd, hogy
melyik modellnek mekkora az (RMSE) hibája, és a hiba mennyire korrelál a többi
modellével.
Az 1 hónapos előrejelzési hibák korrelációi
alacsonyak, gyakran negatívak
Átlag ARIMA 12M
RW Átlag (SA) (med) LT (12M) ARIMA TVP-AR VAR VECM DFM dezagg. RMSE
RW 1.000 0.96%
Átlag (SA) 0.778 1.000 0.66%
Átlag (med) -0.383 0.023 1.000 0.77%
LT (12M) 0.164 0.229 -0.071 1.000 0.48%
ARIMA 0.605 0.770 0.053 -0.080 1.000 0.39%
TVP-AR 0.589 0.741 0.045 -0.001 0.964 1.000 0.39%
VAR 0.552 0.660 0.046 0.010 0.746 0.749 1.000 0.35%
VECM 0.510 0.623 0.068 0.038 0.814 0.762 0.854 1.000 0.38%
DFM -0.611 -0.387 0.113 0.477 -0.332 -0.279 -0.303 -0.208 1.000 0.76%
ARIMA
0.501 0.725 0.050 0.325 0.469 0.414 0.373 0.334 -0.160 1.000 0.51%
dezagg.
A 12 hónapos hibák korrelációi magasabbak
Átlag ARIMA Survey 12M

RW Átlag (SA) (med) LT (12M) ARIMA TVP-AR VAR VECM DFM dezagg. RMSE
RW 1.000 6.83%
Átlag (SA) 0.918 1.000 5.11%
Átlag (med) 0.865 0.993 1.000 5.34%
LT (12M) 0.250 0.106 0.068 1.000 16.34%
ARIMA 0.921 0.987 0.975 0.235 1.000 4.50%
TVP-AR 0.947 0.980 0.958 0.248 0.995 1.000 5.01%
VAR 0.849 0.863 0.840 0.533 0.912 0.918 1.000 4.33%
VECM 0.826 0.869 0.856 0.536 0.924 0.918 0.961 1.000 4.69%
DFM 0.905 0.982 0.975 0.179 0.980 0.973 0.878 0.890 1.000 4.24%
ARIMA
0.864 0.985 0.992 0.177 0.981 0.963 0.878 0.898 0.976 1.000 3.75%
dezagg.
Survey 0.711 0.865 0.884 -0.117 0.831 0.807 0.620 0.677 0.860 0.858 1.000 5.42%
Mit látunk a hibák korrelációiból?
• 1 hónapos horizonton
• Jó hedge-nek tűnnek azok a modellek, amelyek hibája negatívan van csak
gyengén korrelál a többi modellel (NSA medián, lokális trend, DFM)
• 12 hónapos horizonton
• A korrelációk jóval magasabbak, első ránézésre nem nyilvánvaló, van-e jó hedge
a modellek közt
• A lokális trend hibája gyengén korrelál, de az RMSE borzasztó nagy. Vajon ez
probléma lesz-e?
• A Bloomberg survey korrelációja a jól teljesítő idősoros modellekkel a gyengébbek
közé tartozik. Vajon elegendő ortogonális információt tartalmaz ahhoz, hogy
informatív legyen?
A kombinálás eredményei
Kombinálási séma 1M RMSE 12M RMSE
Memo: legjobb egyedi modell 0.348% (VAR) 3.753% (ARIMA dezagg.)
Összes modell átlaga 0.302% 4.673%
Legjobb 90% 0.283% 4.593%
Legjobb 50% 0.295% 4.370%
Top 3 0.345% (VAR, VECM, TVP-AR) 3.937% (VAR, DFM, ARIMA dezagg.)
Legjobb modell + hedge 0.299% (VAR, LT) 8.688% (ARIMA dezagg., LT)
Legjobb egyváltozós, többváltozós + hedge 0.281% (TVP-AR, VAR, LT) 6.463% (ARIMA, ARIMA dezagg., LT)
Legjobb modell + szakértői NA 4.220%
Top 3 átlag + szakértői NA 4.403%

Összegzés
• Változók kiválasztása
• A közgazdasági elmélet csak jól lehatárolt esetekben használ
• Szigorú közgazdasági struktúra keveset javít a pontosságon
• Rövidtávon az információ feldolgozás hatékonysága fontos (survey!)
• Ami beválhat: dezaggregálás, számviteli összefüggések
• Léteznek statisztikai megközelítések az optimális változóhalmaz kiválasztására
• Ígéretesek, új terület
• Előrejelzések átlagolása
• Védelmet nyújthat a rossz specifikáció, strukturális instabilitás ellen
• Általában javítja az előrejelző teljesítményt
• Ha az egyedi modellek hasonlóan teljesítenek, akkor az egyenlő súlyok is jók
lehetnek; a bonyolultabb sémák nem mindig lényegesen jobbak
• Szükség lehet a leggyengébb modellek kiszűrésére

5 Szelekció

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

5 Szelekció

Uploaded by

Copyright:

Available Formats

Változók és modellek szelekciója

Lehetséges megközelítések a modellépítés során

• Elmélet- vagy adatvezérelt?

• A legjobb modellt keressük, vagy együtt élünk a téves specifikációval?

• Rövid és hosszú távú előrejelzés szétválasztása

• Elemzői (survey) előrejelzések

Szakértői 0.33% 2.63% 5.42% 4.3%

• Minden lehetséges modellt megbecslünk, majd

• A lehetséges változók egy részhalmazát keressük, a többi

𝛽መ 𝑟𝑖𝑑𝑔𝑒 = argmin ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝑥𝑖𝑗 𝛽𝑗 + 𝜆 ෍ 𝛽𝑗2 = 𝑋 ′ 𝑋 + 𝜆𝐼 −1 𝑋 ′ 𝑦

𝛽መ 𝐿𝐴𝑆𝑆𝑂 = argmin ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝑥𝑖𝑗 𝛽𝑗 + 𝜆 ෍ |𝛽𝑗 |

• Főkomponens/faktormodellek: a változókat közös komponensre és egyedi

• Hasonló a kiinduló probléma mindkét esetben

• Az optimális kombináció csak az előrejelzések realizációitól függ, nem

• A kombinált előrejelzés általában jobban teljesít a legjobb egyedi

Átlag (SA) 0.778 1.000 0.66%

Átlag (med) -0.383 0.023 1.000 0.77%

LT (12M) 0.164 0.229 -0.071 1.000 0.48%

ARIMA 0.605 0.770 0.053 -0.080 1.000 0.39%

TVP-AR 0.589 0.741 0.045 -0.001 0.964 1.000 0.39%

VAR 0.552 0.660 0.046 0.010 0.746 0.749 1.000 0.35%

Átlag ARIMA Survey 12M

Átlag (SA) 0.918 1.000 5.11%

Átlag (med) 0.865 0.993 1.000 5.34%

LT (12M) 0.250 0.106 0.068 1.000 16.34%

ARIMA 0.921 0.987 0.975 0.235 1.000 4.50%

TVP-AR 0.947 0.980 0.958 0.248 0.995 1.000 5.01%

VAR 0.849 0.863 0.840 0.533 0.912 0.918 1.000 4.33%

Memo: legjobb egyedi modell 0.348% (VAR) 3.753% (ARIMA dezagg.)

Összes modell átlaga 0.302% 4.673%

Legjobb 90% 0.283% 4.593%

Legjobb 50% 0.295% 4.370%

Legjobb modell + szakértői NA 4.220%

Top 3 átlag + szakértői NA 4.403%

You might also like