Professional Documents
Culture Documents
Simon-Kristóf HC119A Szakdolgozat 2020-21-2
Simon-Kristóf HC119A Szakdolgozat 2020-21-2
Társadalomtudományi Kar
MESTERKÉPZÉS SZAKDOLGOZAT
Konzulens: Készítette:
Dr. Kmetty Zoltán Simon Kristóf
HC119A
Survey statisztika és
adatanalitika MSc
2021. április
Tartalomjegyzék
1. Előszó .................................................................................................................................. 4
6. Köszönetnyilvánítás .......................................................................................................... 54
7. Irodalomjegyzék ................................................................................................................ 55
2
7.1. Források ..................................................................................................................... 55
7.2. Adatforrás .................................................................................................................. 57
7.3. Egyéb források ........................................................................................................... 57
8. Melléklet ........................................................................................................................... 58
3
Imputing one value for a missing datum
cannot be correct in general, because we
don’t know what value to impute with
certainty (if we did, it wouldn’t be missing).
Donald B. Rubin
1. Előszó
A statisztikai jellegű adatgyűjtések több évszázados múltra tekintenek vissza, Magyarországon
az első hivatalos statisztikai szolgálatot 1867-ben alapították (a mai KSH őse)1. Az
adatgyűjtések pedig mint egy „járulékos” – egyre növekvő - problémája, hogy egyes
potenciális válaszadók vagy egyáltalán (unit nonresponse) vagy pedig tételesen (item
nonresponse) nem kívánnak információt szolgáltatni. Utóbbiból következtethető, hogy még
akkor sincs nyert ügye a kutatóknak, ha a válaszadó együttműködik, hisz előfordulhatnak olyan
ún. szenzitív kérdések, amelyekre az alany nem kíván válaszolni. Ennek oka, hogy a válaszadó
úgy érezheti, hogy ez az információ egyszerűen nem tartozik a kutatókra (Yan és Jans, 2010).
Szenzitív kérdés lehet például a válaszadó jövedelme vagy politikai hovatartozása. Ilyenkor
jellemzően arra számíthatunk, hogy a válaszadók hozzávetőlegesen 15-20%-a nem válaszol az
adott kérdésre (Yan és Jans, 2010) (Kmetty, 2018).
1
https://www.ksh.hu/nepszamlalas/magyarorszagi_nepszamlalasok_tortenete
4
Dolgozatomban a többszörös imputáció hatékonyságát tesztelem olyan - sajnos - gyakorta
alkalmazott eljárással szemben, mint az elérhető esetek elemzése, illetve összevetem
egyszerű (átlag imputálás) és összetett (lineáris modell alapú) imputációs technikákkal is. A
dolgozat célja, hogy jelen összevetést, ne a már sokan mások által tanulmányozott szokásos
eljárás szerint, egy generált adathiány mintán kivitelezzem. Hanem 100 különböző szimulált
MAR – jövedelem – adathiányon történjen az imputációs módszerek hatékonyságának
tesztelése, ezáltal megteremtve az eredmények robusztusságát. A dolgozat kitűzött célja
továbbá, hogy az igen hatékonynak mutatkozó MICE (Multivariate Imputation by Chained
Equations) algoritmus előnyét is szemléltesse. Ez egy komplexebb – nem kizárólag jövedelem
– adathiányon kerül modellezésre.
• Hogyan teljesít a MICE algoritmuson alapuló többszörös imputáció egy komplex több
változóra kiterjedő adathiányon?
5
2. Elméleti háttér ismertetése
2.1. Kitekintés az adathiánnyal kapcsolatos általános tendenciákra,
fogalmakra
A bevezetőben említettek szerint első körben egy rövid kitekintést ejtek a válaszadási
tendenciák és az unit nonresponse irányába. Jelen rövid fejezet célja, hogy a dolgozat a
tárgyalt témakör szélesebb perspektívájára is kitekintést nyújtson.
100%
80%
40%
20%
0%
2002 2004 2006 2008 2010 2012 2014 2016 2018
2
https://www.europeansocialsurvey.org/data/deviations_index.html
6
A globális ESS átlagot tekintve az láthatjuk, hogy az 1. hullámtól kezdve (2002) 60% körüli
válaszadási arány jellemző (a megcélzott a 70% volt), - a maximum pedig 2006-ban volt
63,36%. A törés a 2012-es 7. hullám után következett be, ettől kezdve fokozatos csökkenést
tapasztalhatunk, a 9. hullám (2018) során már az átlagos válaszadási arány 50,75% volt
(legalacsonyabb Németország 27,6%, legmagasabb Bulgária 69,4%).
Ugyanakkor hiába gondoljuk, hogy ha már valakit sikeresen bevonunk a kérdezés folyamatába
onnan már nyert ügyünk van. Hisz a kérdezés során felmerülhetnek olyan kérdések, amelyekre
az alany nem kíván választ adni. Az így keletkező adathiányt nevezzük item nonresponsenak.
3
http://old.tarki.hu/hu/research/hm/2016/monitor2015_gyorsjelentes_1_kotet.pdf
7
2.2. Az item nonresponse fogalma és az adathiány mögött álló
mechanizmusok
2.2.1. Item nonresponse
Az item nonresponse alatt tehát azt értjük amikor nem minden szükséges információ kerül
begyűjtésre a kérdezés során (Kalton és Kasprzyk, 1982). Ennek oka többféle lehet, egyrészről
előfordulhat, hogy az interjúkészítő nem teszi fel a kérdést (pl. véletlenül átsiklik felette) vagy
rögzítési probléma miatt adatvesztés lép fel, másrészről pedig a kérdezett megtagadhatja az
adott kérdésre történő válaszadást (pl. túl szenzitív a kérdés számára) (Durrant, 2005). Az ilyen
jellegű válaszmegtagadások leginkább a politikával és az anyagi helyzettel kapcsolatban
szoktak jelentkezni. Ezért is érdekes megemlíteni, hogy Kmetty Zoltán az ESS adatfelvételeit
tanulmányozva arra jutott, hogy az adathiányok tekintetében pozitív tendencia figyelhető
meg. Az általuk vizsgált 8 politikai attitűdöket mérő változó esetében globálisan az 1.
hullámnál 20% körül volt az adathiány, ez a 7. hullámra 13,5%-ra csökkent. Magyarországon a
7. hullám adatai alapján az esetek 17,4%-ában volt legalább egy ilyen jellegű kérdésnél
adathiány (Kmetty, 2018). Az item nonresponse jelensége, habár a fentebbi adatok alapján
bizonyos esetekben csökkenő mértékben – köszönhetően főleg a számítógéppel támogatott
adatfelvétel elterjedésének -, de rendszeresen előfordul. A probléma vele pedig az, hogy
akadályozza az egyszerű adatelemzést és rontja a mérés minőségét (Huisman, 1999). Az item
nonresponse kezelésére különféle imputációs eljárásokat alkalmazhatunk, azonban mielőtt
ezeket részletesebben is megismernénk fontos, hogy kitérjünk az adathiány mögött álló
mechanizmusokra is.
Különösen fontos, hogy elemzésünk során próbáljuk megérteni az adathiány mivoltát, hisz az
esetleges kezelés sikeressége múlhat rajta. Abban az esetben, ha jól meghatározzuk az
adathiányunk eredetét és megfelelő kezelést választunk annak pótlására imputációnk sikeres
lehet. De milyen adathiány mechanizmusokat is különböztethetünk meg? Az adathiány
mechanizmusok tipizálása Donald B. Rubinhoz köthető, egy 1976-ban megjelent írásában
foglalkozott először a témakörrel.
4
Természetesen csak a kisebb esetszám hátrányai mellett.
5
https://www.ibm.com/support/knowledgecenter/SSLVMB_24.0.0/spss/tutorials/mva_describe_rerun_mcarte
st.html
9
Not Missing at Random (NMAR): A nem véletlenszerű adathiány esetén az adathiány nem
véletlenszerű, és önmagában más változókkal sem becsülhető, mert közvetlenül az adathiányt
tartalmazó változóval is kapcsolatban van (Oravecz, 2008). NMAR adathiány esetében külső
információforrás nélkül az adatbázis hordozta információtartalom nem elegendő a torzítás
csökkentését célzó imputáláshoz (Máder, 2005). A fentebb említett jövedelem változót jelen
esetben tehát a meglevő adatok alapján nem lehetne megfelelően imputálni és nem élhetünk
azzal a feltevéssel sem, hogy a válaszadók és a nem válaszadók között nincs eltérés.
Kijelenthető tehát, hogy az NMAR mechanizmusú adathiány megléte számos problémát von
maga után. A probléma kezelésére egy ideig ígéretes megoldásnak tűnt, Heckman kétlépcsős
probit modellje, de ezt később számos kritika illette. Napjainkban a leghatékonyabb
megoldásnak a pótlólagos adatgyűjtés tűnik, ha ez nem lehetséges felmerülhet, hogy
kevesebb problémát okoz az a modellezési megoldás, ha szűkítünk a nemhiányos adatokra -
bár ez igen drasztikus megoldásnak tekinthető - (Hámori, 2014).
10
Az MCAR típusú adathiányt tehát szemléletesen úgy képzelhetjük el, hogy a kutya (az
adathiány mechanizmus) teljesen véletlenszerűen eszik a házi feladatokból. Ezzel szemben az
MAR adathiánynál a kutya a diákok (szerintem szemléletesebb lenne még valami külső
elkülönítő jelzőt is alkalmazni pl. „kékszemű diákok”) házi feladatait eszi meg, ezáltal az
adathiányt nyomon tudjuk követni. NMAR esetében azonban az, hogy a kutya melyik házi
feladatok eszi meg, már közvetlenül az adathiányt tartalmazó változóval van kapcsolatban.
Tehát a kutya a rossz házi feladatokat eszi meg, mi pedig külső változók által nem tudjuk
megjósolni melyek lesznek azok.
2.3.1. Megelőzés
2.3.2. Imputáció
11
Komplett esetek elemzése (complete cases – cc): Jelen esetben az adathiánymentes esetek
alkotják az elemzés tárgyát, míg az adathiányt tartalmazó esetek kimaradnak az elemzésből
(Máder, 2005). Abban az esetben, ha egy független változóban az adathiányos egyedek
hányada számottevő (>50%) megfontolandó a változó elhagyása a modellezésből. Ez az
elhagyás leginkább akkor nem jelent problémát, ha az adatbázisunkban rendelkezésre áll az
adathiányos változóval erősen korreláló hiánytalan változók is (Hámori, 2014).
Elérhető esetek elemzése (available cases - ac): Ebben az esetben az aktuálisan vizsgált változó
elérhető (adathiány nélküli) esetei kerülnek felhasználásra az elemzés során. Ez a módszer az
alapértelmezett gyakorlatilag minden statisztikai szoftverben (Allison, 2009).
Joggal merülhet fel, hogy a fentebbi két módszer inkább amputáció, mint imputáció, hisz az
adathiányok nem pótlásra, hanem törlésre kerülnek. Azonban mindenképp fontos velük
foglalkozni, mivel egyrészről nagyon elterjedt a használatuk, másrészről mégis egyfajta
adathiány-kezelési módszerről beszélhetünk. A továbbiakban a valós imputációs eljárások
következnek:
Random értékekkel történő imputálás: Ebben az esetben vesszük az adott változó minimumát
és maximumát6, majd a két érték közé random eseteket generálunk, például egyenletes
eloszlás mentén (Máder, 2005). Az így kapott értékekkel pótoljuk az adott változó adathiányos
eseteit.
6
Itt dönthetünk úgy is, hogy nem a minimumot és a maximumot vesszük alapul, hanem egy a kutatói megfontolás
alapján lehetségesnek tartott sávot. Pl. életkor esetében 18-80 év között generálunk adatokat.
12
(Durrant, 2005). A regressziós modellek változékonyságának javítása érdekében gyakori
eljárás az is, hogy a becsléshez hozzáadásra kerül egy véletlen hibatag. Ez általában 0 átlagú
és szórása a regressziónál tapasztalt lokális szórással azonos mértékű.
HOT DECK: A hot deck szintén a kedvelt és gyakran használt imputációs eljárások közé
sorolható. Ebben az esetben a hiányzó adatot a leginkább hasonló hiánymentes esetek
adataival pótolják. A hasonlóság mértékének megítélésére különböző módszerek
használhatók, mint például az euklideszi távolságon alapuló legközelebbi szomszéd értéke. A
hot deck eljárás rokonának tekinthető a cold deck imputációs metódus, mely során nem belső
(mintabeli) adatokat, hanem külső értékeket használunk az imputációhoz, mint például:
múltbeli hasonló felmérések adatai (Oravecz, 2008) (Máder, 2005).
7
Educational Testing Service
13
Mint már korábban is taglaltam általában minden „survey-es” adatbázis (vagy Rubin
megfogalmazásában „public-use” adatbázis) tartalmaz valamilyen mértékben hiányzó
értékeket. Általában a végfelhasználók pedig sem ismerettel, sem eszközzel nem rendelkeznek
ezen adatproblémák kezelésére (Rubin, 1996). Ezáltal akár aggályaink is merülhetnek fel úgy
általánosan az imputációval és különösen az MI-vel kapcsolatban. Megvalósítható?
Elfogadhatóak a részben szimulációval kapott válaszok? Nem keletkezik tőle extra zaj?
Általánosságban ezekre a kérdésekre az a válasz adható, hogy bár egy gondosan megtervezett
imputáció - különösen, ha MI - munkaigényes mégis sokat nyerhetünk vele. Hogy Rubint
idézzem: „Too much work relative to doing what?" (Rubin, 1996:480). Összefoglalva tehát az
MI eredmények „kézi” kombinálása valóban megterhelő, de mégis megtérülő munka,
szemben azzal mintha érvénytelen módon kezelnénk az adathiányt. Fontos kiemelni, hogy az
„átlag imputálás, a figyelmen kívül hagyás vagy a rendelkezésre álló esetek elemzése
statisztikailag semmilyen általánosságban nem érvényesek, még az átlagok, varianciák stb.
pontbecslésére sem” (saját fordítás, Rubin, 1996:480).
Nézzünk egy egyszerű példát az átlag imputálásra, amivel egy később tárgyalt többszörös
imputációs eljárást készítek elő. Vegyünk hat embert, akiknek ismerjük a korát (év),
tudományos munkatapasztalatát (év) és a fizetését (aranytallér), ezek a következőképp
alakulnak (bal oldali táblázat):
14
Vegyük úgy, hogy nem vagyunk jártassak az imputációs eljárások kapcsán és úgy gondoljuk
kipróbáljuk az átlag imputálást:
Ahhoz tehát, hogy vizuálisan jobban el tudjuk képzelni a többszörös imputációt érdemes
szemügyre vennünk a következő ábrát:
15
3. ábra: A többszörös imputáció logikája
Mint ahogy a fentebbi ábrán is látható a többszörös imputáció során a hiányzó értékek (?-el
jelölve) helyére m darab (az imputációk számának megfelelő) imputált érték kerül. Az
imputációs eljárás eredménye m darab különböző adatbázis, amelyekkel megragadhatóvá
válik az adatokban rejlő bizonytalanság.
16
A fentebbi táblázat értékeit a következő képlettel számolhatjuk ki:
𝛾 −1
(1 + )
𝑚
(1 + 𝑚−1 )𝐵
𝛾=
𝑇
8
A véges m miatt korrigált
17
elmondható, hogy az eddigi vizsgálatok szerint jellemzően már 10-20 iteráció is elegendő erre
(Wilson, 2020) (Buuren és Groothuis-Oudshoorn, 2011).
Ahhoz, hogy könnyeben átlátható legyen a MICE algoritmus működése vegyünk egy egyszerű
gyakorlati áttekintést – folytatva a korábban vizsgált és teljesítésében erősen sántító átlag
imputálásnál felhozott példát (Toshniwal, 2020 alapján): Van tehát 6 válaszadó koráról
(évben), munkatapasztalatáról (évben) és jövedelméről (aranytallérban) adatunk, azonban
sajnálatos módon az adatmátrixunk nem teljen, mindhárom változó tartalmaz 1-1 hiányzó
értéket. Mi ezeket imputálni szeretnénk, azonban láttuk, hogy az egyszerű átlag imputálással
erősen mellé lövünk a valóságnak (emlékezzünk a korábbiakra: most abban a szerencsés
helyzetben vagyunk, hogy ismerjük a hiányzó adatokat9). Korábbi tapasztalatunk alapján így a
MICE algoritmus alkalmazása mellett döntünk.
1. iteráció
Kiindulásként vegyük újra az átlag imputálást, az így felöltött adatbázist zéró adatkészletnek
nevezzük.
9
Az 1-es azonosítóval rendelkező válaszadónak 1 éves a munkatapasztalata, a 2-es azonosítóval rendelkező
válaszadónak 80 aranytallér a jövedelem, míg a 6-os azonosítóval rendelkező válaszadó 35 éves.
18
jövedelem változót felhasználva becslést adunk az 1-es válaszadó munkatapasztalatára. Ez
1,8538 év. Utolsó lépésként pedig a jövedelemre adunk becslést a kor és a munkatapasztalat
változó felhasználására, úgy, hogy azok természetesen már az imputált értékükkel vesznek
részt a lineáris regresszióban. A 2-es válaszadó prediktált jövedelme 72,7748 aranytallér.
19
iteráció eredményeként született adatkészletet. Ezután a 3. iteráció során a 2. iteráció válik
„zéró” adatkészletté, mígnem elérünk a 4. iterációig10:
Érdemes megvizsgálni azt is, hogy a valóságos adatokhoz -amiket most szerencsések vagyunk
hisz ismerünk- milyen közel kerültünk. Az 6-os válaszadó életkora 35 év, az imputált értéke
pedig 34,9998. A 1-es válaszadó 1 éves munkapasztalattal rendelkezik, imputált értéke pedig
10
Mivel jelen dolgozatnak nem tartalmi célja, hogy végig vezessen egy MICE iterálási folyamatot ezért kicsit előre
ugrottam és már csak a 4. iteráció adatait szemléltetem
20
0,9999. Végezetül pedig a 2-es válaszadó bevétele 80 aranytallér, míg imputált értéke
80,0007. Ez igen meggyőző!
Az egyszerűen átlátható szemléltető után ássunk kicsit mélyebbre (Stef van Buuren és Karin
Groothuis-Oudshoorn alapján):
Tegyük fel, hogy 𝑌 egy véletlen minta a 𝑝 – változós többváltozós eloszlásból 𝑃(𝑌|𝜃).
Feltételezzük, hogy Y többváltozós eloszlását megadja egy teljes ismeretlen paraméterekből
álló vektor 𝜃. A megoldandó probléma, hogy megkapjuk 𝜃 többváltozós eloszlását akár
explicit, akár implicit módon. A MICE algoritmus a 𝜃 poszterior eloszlását a feltételes
eloszlásokból való iteratív mintavételezésből állapítja meg a következőképpen:
𝑃(𝑌1 |𝑌−1 , 𝜃1 )
.
.
.
𝑃(𝑌𝑝 |𝑌−𝑝 , 𝜃𝑝 )
.
.
.
11
A Gibbs-mintavétel az „MCMC forradalom” egyik „zászlóshajója”, lehetővé teszi bonyolult sokdimenziós
problémák lebontását, kisebb egyszerűbb feladatokra Markov-láncok felhasználásával. A megoldandó probléma,
hogy az együttes eloszlás (a poszterior) marginális eloszlásainak (egyes paraméterek) jellemzőit szeretnénk
meghatározni. Az integrálás azonban sok esetben nem vagy nehezen oldható meg. A Gibbs-mintavétellel az
együttes eloszlásból mintát veszünk a feltételes eloszlások segítségével (Kehl és Várpalotai, 2013).
21
∗(𝑡) (𝑡) (𝑡)
𝜃𝑝 ∼ 𝑃(𝜃𝑝 |𝑌𝑝𝑜𝑏𝑠 , 𝑌1 , … , 𝑌𝑝−1 )
(𝑡)
ahol 𝑌𝑗 = (𝑌𝑗𝑜𝑏𝑠 , 𝑌𝑗∗(𝑡) ) a 𝑗-edik imputált változó a 𝑡-edik iteráció során. Lássuk be, hogy az
előző 𝑌𝑗∗(𝑡−1) imputációk csak a többi változóval való kapcsolatuk révén lépnek be 𝑌𝑗∗(𝑡) –be és
nem közvetlenül. Ebből következik, hogy a konvergencia meglehetősen gyorsan
bekövetkezhet, szemben sok más MCMC módszerrel (Buuren és Groothuis-Oudshoorn, 2011).
22
Polytomous logisztikus
nominális
regresszió
Lineáris diszkriminancia analízis nominális
A predictive mean matching a hot deck imputációs eljárások közé sorolható. Az eljárás során
prediktáljuk16 Y célváltozó értékeit, majd minden egyes hiányzó érték esetében kijelölünk kis
számú donor csoportot (általában d = 3-10 főt17) az adathiány mentes esetekből. A donorokat
úgy választjuk ki, hogy a prediktált értékeik a legközelebb legyenek az adathiányos eseteknél
prediktált értékekhez. Ezután véletlenszerűen kiválasztunk egyet a donorok közül és az ő Y
változón felvett valós értékével helyettesítjük a hiányzó értéket (Buuren, 2018). Tehát:
12
https://cran.r-project.org/web/packages/mice/mice.pdf
13
A korrektség jegyében természetesen a már végleges formula szerint 100 szimulált adathiányon
14
Marshall, Altman, Royston és Holder is hasonló eredményekre jutott 2010-ben szimulált adatokon történő
vizsgálatuk során
15
Kétségkívül nagyon izgalmas lenne tüzetesebben – nem csak említés szintjén - végig vizsgálni az összes releváns
imputációs eljárás hatékonyságát, ez azonban egy jóval nagyobb hangvételű elemzés kereteit igényelné.
16
Erre a MICE alapbeállítás szerint lineáris modellt használ
17
A MICE esetében alapbeállítás szerint d = 5
23
Azt a d darab válaszadót keressük, ahol |𝑦̂𝑖 − 𝑦̂𝑗 | minimális és közülük véletlenszerűen
választunk egyet, majd az ő értékével kezeljük az adott adathiányt18. Annak orvoslására, hogy
az imputált értékünk ne legyen egyenlő a donortól kölcsönzöttel Tim P. Morris, Ian R. White
és Patrick Royston a következő javaslattal állt elő: vegyük a |𝑦̂𝑖 − 𝑦̂𝑗 |-nél keletkezett
maradékot és ezt adjuk hozzá az imputált értékhez. Ezzel megoldhatjuk az imputációk
változékonyságával kapcsolatos aggályokat (Morris et al., 2014).
A predictive mean matching előnye, hogy széles körben használható – alacsony és magas
mérési szinten is -, az imputálás során pedig reális, valós értékek kerülnek a hiányzó értékek
helyére19. További előnye, hogy a módszer kellőképpen robusztus, így nem érzékeny Y változó
transzformációjára pl. logaritmizálás. Hátránya azonban, hogy kis minta esetében megnő egy
adott donorérték túlhasználásának a veszélye- ezt a donorkészlet (d) méretének
csökkentésével próbálhatjuk kezelni. Szintén problémát okozhat még, ha nagyon nagy méretű
(>50%) az adathiány, - ez azonban már jellegzetesen minden imputációs technika számára
akadályt jelent - (Buuren, 2018).
18
A predictive mean matching során a megfelelő donor kiválasztására létezik pár másik, de a fő gondolatmenettől
lényegesen nem eltérő eljárás is. Ezekről bővebben ír Stef van Buuren – Flexible Imputation of Missing Data,
Second Edition c. könyvében Univariate missing data c. fejezetében
19
Szemben pl. regressziós imputáció során könnyen kaphatunk nem valós, értelmetlen, akár negatív értéket is
24
3. Az adatok előkészítése
A többszörös imputáció szimulációs vizsgálatára a TÁRKI Háztartás Monitor 2015-ös
adatbázisát használtam fel. Jelen adatbázist a tervezett vizsgálathoz megfelelően
előkészítettem, majd az adatbázisból származtatott szimulált adathiányon teszteltem a
többszörös imputáció hatékonyságát. A többszörös imputáció hatékonyságát egyrészről más
imputációs technikákhoz (elérhető esetek, átlag, lineáris regresszió és PMM nem MI
keretében), másrészről pedig a valós adatoktól való eltéréshez képest mértem. Az
imputáláshoz a jövedelem változót választottam. Ennek oka, hogy a személyes és háztartás
jövedelemre vonatkozó kérdéseknél gyakran fordul elő item nonresponse, így rendszeresen
előtérbe kerülő problémáról beszélhetünk. Továbbá szinte minden survey felmérés tartalmaz
valamilyen az anyagi helyzetre vonatkozó kérdéskört, az itt fellépő adathiány pedig torzítja a
jövedelem megoszlásának becslését.
Annak oka, hogy valaki nem szolgáltat információt a jövedelméről kettős lehet, egyrészről
lehet, hogy nem akarja elárulni a kutatók számára anyagi helyzetét. Másrészről azonban –
főképp a háztartásjövedelem esetében – előfordulhat, hogy nincs pontos képe a kérdésről és
nem akar pontatlan adatot szolgáltatni, így inkább nem válaszol (Yan és Jans, 2010). A
jövedelmet mérő kérdéseket a szenzitív kérdésekhez soroljuk, hisz a „válaszadók úgy
érezhetik, hogy ez egyszerűen nem tartozik a kutatóra” (saját fordítás, Yan és Jans, 2010:146).
25
Első körben a TÁRKI adatbázisán kiszűrtem azokat a válaszadókat, akiknek nincs jövedelme (n
= 955), mivel egy olyan etalon adatbázis létrehozása volt a cél, ahol a célváltozó minden
válaszadó esetében releváns. Azon válaszadók körében, akik feltehetően rendelkeznek
jövedelemmel (n = 5266) 18,6%-os adathiány volt jelen (megtagadja a válaszolást vagy nem
tudta a választ). Az ő válaszaik is törlésre kerültek, a fentebb említett kritérium végett,
valamint törlésre került minden olyan eset is, amely tartalmazott adathiányt a jövedelmet -
általam meghatározott - magyarázó változók valamelyikén20. Szerencsére a TÁRKI Háztartás
Monitor egy nagymintás kutatás, így még ezen tisztítás után is 3966 válaszadó bőséges adata
állt rendelkezésemre. Ezt az adatbázist tekintem a továbbiakban az „eredeti” viszonyítási
pontnak, avagy etalon adatbázisnak. Jelen adatbázis a téma szempontjából a következő
releváns változókat tartalmazza:
20
Nem, kor, iskolai végzettség, háztartás mérete, település típusa
21
Természetesen az imputálás során a teltip változó dummy-ként került bevonásra a lineáris modellekbe
26
Életszínvonallal
eletsz való Alacsony 11
elégedettség
A következőkben ezen adatbázison egy MAR típusú adathiány generálását céloztam meg a
kérdezett jövedelmével kapcsolatban, ennek generálási folyamatához egyrészről a TÁRKI
adatbázisban rejlő mintázatokra, másrészről szakirodalmi háttérre támaszkodtam.
22
Ők az SCA adatait vizsgálták, ahol elmondásaik alapján jellemző a némileg alacsonyabb az item nemválaszolási
arány
27
változóvá alakítottam - ennek a későbbiekben lesz jelentősége. A bináris logisztikus regresszió
eredménye a következő23:
23
Referencia kategória: életkor esetében az idős, nem esetében a nő, iskolai végzettség esetében az alapfokú,
településtípus esetében Budapest, míg háztartás méretét tekintve a kisméretű.
28
élőkhöz képest a nagy háztartásban élők már 1,4-szer akkora eséllyel tagadják meg a
válaszadást a jövedelmüket érintő kérdésre. Településtípus esetében azt láthatjuk, hogy a
Budapesten élők osztják meg legnyíltabban a jövedelmi helyzetüket, velük szemben a
megyeszékhelyen vagy városban élők 2,4-szer, míg a községben élők 2,3-szor akkora eséllyel
tagadják meg a válaszadást.
Hasonló tendenciákat figyelt meg Ting Yan és Matt Jans (2010), valamint Regina T. Riphah és
Oliver Serfling (2004) amikor a jövedelemmel kapcsolatos nemválaszolás jelenségét vizsgálták.
Fontos azonban megemlíteni, hogy az általam készített bináris logisztikus regresszió
magyarázó ereje viszonylag alacsony, a Nagelkerke R Square értéke 0,074. Ennek oka lehet,
hogy a jövedelemmel kapcsolatos item nonresponse más külső, nem vizsgált változókkal is
összefüggésében lehet, illetve függhet magától a jövedelmi helyzettől is.
24
Itt a súlyváltozó alatt nem a „klasszikus súlyváltozót” értem, hanem egy olyan valószínűségi változót, ami az
esetek az adatbázisból történő kidobásának valószínűségét határozza meg
25
A kor, az iskolai végzettség, a háztartás mérete és a település típusa esetében
29
Súly változó
Változó Kategória
értéke
Fiatal (-30 éves) 0,22
Középkorú (31-
Életkor 0,15
50)
Idős (+51 éves) 0,02
Nő 0,03
Neme
Férfi 0,12
Alapfokú 0,02
Iskolai
Középfokú 0,15
végzettsége
Felsőfokú 0,3
Kisméretű (1-2
0,01
fő)
Háztartás
Közepes (3-4 fő) 0,1
mérete
Nagyméretű (+5
0,2
fő)
Budapest 0,02
Település Megyeszékhely
0,1
típusa - város
Község 0,16
30
8%
7%
6%
5%
4%
3%
2%
1%
0%
0,1 1
A súly változó értékei
Mint ahogy az ábrán is látható meglehetősen nagyszámú súly jött létre különböző arányokban.
A súly változó értéke minél inkább 1, annál valószínűbb, hogy az adott válaszadó megtagadta
a jövedelem kérdésre történő válaszadást. A komplex jövedelem súly változó megalkotását
azért is tartottam különösen fontosnak, mert több korábbi tanulmány áttekintésénél
tapasztaltam azt, hogy viszonylag egyszerű paraméterek mentén kerül megalkotásra a MAR
adathiány. Ezért én szerettem volna egy komplexebb, a valós folyamatokat jobban megragadó
adathiány mintázatot létrehozni. Így jelen súlyváltozó megalkotására különös figyelmet
fordítottam.
A fentebb taglalt súlyváltozó mellett létrehoztam egy kevésbé összetett súlyt is (szintén SPSS-
ben), ezt a többváltozós adathiány esetében használtam fel a demográfiai változókon. Jelen
„súly” úgy működik, hogy a nem és a település típusa szerint valószínűsíti a válaszmegtagadást
a kor, iskolai végzettség és a háztartás méretére vonatkozóan. Azért a nem és a település
típusa került itt kiválasztásra, mivel ezek jellemzően olyan paraméterek, amik automatikusan
kérdezés nélkül rögzítésre kerülnek. Jelen demográfiai súly változót úgy határoztam meg, hogy
a férfiak kétszer akkora eséllyel tagadták meg a koruk, iskolai végzettségük vagy háztartásuk
méretének megosztását. Település típus tekintetében a községen élőket vettem a
31
legnyitottabbnak ilyen szempontból, hozzájuk képest egy városban elő ¾, egy
megyeszékhelyen elő ½, míg egy budapesti ¼ akkora valószínűséggel osztotta meg
demográfiai adatait. Itt 6 különböző súly jött létre.
Az adathiány generálását már az előző fejezet során szóba hoztam, itt már R-ben dolgoztam
és a Sample parancsra támaszkodtam. A jövedelem esetében az 1. számú súly változó szerint
mintát vettem a kérdezett jövedelmét rögzítő változó elemeiből, majd a kiválasztott értékek
helyére adathiányt (NA) rögzítettem. Ezt a folyamatot egy for ciklus keretében százszor
végeztem el és az adathiányt 100 esetben öt féle eljárás szerint imputáltam. Az imputációk
hatékonyságát az adathiányos esetek két mérete szerint is megvizsgáltam, első körben a
jellemzőnek tekinthető 20%-os adathiányon, míg második körben egy extrémebb 30%-os
adathiányon is modelleztem.
32
4. A többszörös imputáció szimulációs vizsgálata
4.1. Kiértékelési szempontok
Mint korábban említésre került a jövedelem adathiány imputálásának sikerességét az etalon
adatoktól való eltérés mértékében fogom mérni, de mik is a jövedelem változó fő paraméterei,
amiket vizsgálni fogok?
Mutató Érték
Átlag 117767,51
Szórás 60098,472
Korreláció 0,437
Egyrészről fontos figyelembe vennünk a változó átlagát, hisz az imputációk során az a célunk,
hogy minél pontosabb (torzítatlanabb) becslést tudjunk adni – jelen esetben a jövedelemre.
Szintén törekednünk kell arra, hogy a valós értékektől – pl. adott kérdezett jövedelme - a
lehető legkevésbé lőjünk félre az imputált értékeinkkel. Másrészről fontos a változó szórása
is, hisz az imputáció során a változékonyságban rejlő információn nem szeretnénk csorbítani
– ez például az egyik jelentős hátránya az egyszerű átlag imputációnak. Valamint fontos, hogy
eredetileg milyen volt a kapcsolata – együttjárása – a kezelt változónknak, egy külső, az
imputációban részt nem vevő változóval. Az imputáció során cél, hogy ez az együttjárás
lényegesen (én ezt a határt 0,05-nél húztam meg) ne változzon meg, hisz azzal falssá tennénk
az adatok eredeti mintázatát. Az etalon adatbázisban a jövedelem változó átlaga 117767,51
forint, szórása 60098,472 forint, míg a korrelációja az életszínvonallal való elégedettséggel
0,437. Az imputációk eredményeként tehát azt szeretnénk, hogy ezeket az értékeket optimális
esetben reprodukáljuk, vagy legalábbis minél inkább közelítsük őket. Ebből kifolyólag én
egyrészről megvizsgálom, hogy az egyes imputációkkal mennyire sikerül visszaadni a:
• jövedelem átlagát
• jövedelem szórását
• jövedelem és életszínvonal korrelációját
33
• abszolút átlagos eltérés az eredeti értéktől
• átlagok közötti abszolút eltérés
• szórások közötti abszolút eltérés
• külső változóval vett korreláció közötti abszolút eltérés
A fentebbi mutatókat azért érdemes abszolút értékben véve vizsgálni, mert így nem tudják a
negatív és pozitív értékek kiegyenlíteni egymást. Jelen elemzés során én 100 imputáció adatait
elemzem egyidejűleg az egyes mutatók átlagát nézve (95%-os bootstrap konfidencia
intervallummal), itt könnyen előfordulhatna, hogy pl. egy adott imputációs technika néha a
valódi érték felé néha alá lőne. Ez átlagban akár tökéletesnek hathatna, szemben egy olyan
eljárással, ami konzekvensen egy egész kicsivel, de mindig a valós érték pl. szórás, átlag felé
lő. Habár az első felvázolt esetben a szélesebb konfidencia intervallum árulkodó lehet
számunkra, de az abszolút értékben vett eltérés által sokkal tisztább képet kapunk.
Fontos még egyszer hangsúlyozni, hogy abban a rettentő kellemes helyzetben vagyunk, hogy
az etalon adatbázisnak hála ismerjük a valóságot. Egy éles helyzetben történő imputáció során
erre egyáltalán nincs lehetőségünk, így a fentebb taglalt mutatók egyikére se tudnánk
támaszkodni abban, hogy helyesen imputáltunk-e. Ugyanakkor jelen elemzés által képet
kaphatunk arról, hogy élesben milyen imputációs eljárással kezelhetünk hatékonyan egy
jövedelem adathiányt. Természetesen az adatok forrásából adódóan ez leginkább a TÁRKI
háztartáspanel adatbázisain kamatoztatható, de úgy gondolom, hogy az eredmények kellő
megfontolás mellett más adatokra is átültethetők.
Jelen elemzés során a szimpla jövedelem adathiány keretében én 5 imputációs eljárást fogok
szemléltetni – amikről már mind írtam a dolgozat elméleti szakaszában -, ezek a következők:
34
• PMM: Széles körben használt komplex eljárás, amiről úgy gondoltam korrekt lenne
nem csak a többszörös imputáció keretében vizsgálni, hisz így jelentős erőforrást
spórolhatunk meg - ez természetesen némi áldozattal is jár.
• MI + PMM: A predictive mean matching többszörös imputáció keretében.
35
4.2. A MAR jövedelem adathiány imputálása
Jelen fejezetben az kerül bemutatására, hogy a különböző imputációs technikák hogyan
teljesítenek a szimpla jövedelem adathiányon.
Első körben egy jellemzőnek tekinthető 20%-os MAR adathiányt hoztam létre a jövedelem
változón, majd ezeket a fentebb taglalt eljárásokkal imputáltam. Az eredményeket 100
imputáció átlagaként szemléltettem 95%-os konfidencia intervallummal. Vegyük szemügyre,
hogy az 5 imputációs technikával milyen képet kapunk a jövedelem átlagáról, szórásáról és a
külső változóval vett korrelációjáról26:
Elérhető esetek
116161 58250 0,4386
elemzése
116067 -
CI. 95% 58005 - 58494 0,4371 - 0,44
116255
116067 -
CI. 95% 51882 - 52319 0,3906 - 0,3935
116255
Lineáris
118010 54664 0,4273
regresszió
117929 -
CI. 95% 54446 - 54883 0,4261-0,4286
118092
Predictive mean
117659 59608 0,4016
matching
117537 -
CI. 95% 59266 - 59951 0,3997-,4035
117782
26
Az ábrákon – a korreláció kivételével – a tizedesjegyek nem kerültek feltüntetésre, hogy segítsem a nagy
mennyiségű számadat áttekinthetőségét.
36
MI + PMM 117604 59513 0,4016
117516 -
CI. 95% 59212 - 59815 0,4001-0,4032
117693
13. táblázat: 20%-os jövedelem adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal
Mint ahogy a fentebbi táblázatban is látható abban az esetben amikor csak a meglevő
adathiány mentes esetekre koncentrálunk – tehát figyelmen kívül helyeztük az adathiányt -,
mind a jövedelem változó átlagáról, mind pedig szórásáról torz képet kaptunk. Mind a 100
vizsgált esetben alulbecsüljük a jövedelem átlagát, amit így átlagosan 116160,7 forintra
tehetünk (CI. 95% 116066,6-116254,8). Hasonlókép a változó szóródását is alulbecsüljük, ez a
100 vizsgált adathiány szerint átlagosan 58249,7525 forint, 95%-os konfidencia intervallum
szerint pedig 58005,4 és 58494,1 forint közé eshet. Egyedül a külső változóval való korreláció
tekintetében teljesít meggyőzően a módszer, itt mindössze minimálisan lövünk a valós érték
felé (CI. 95% 0,437-0,44). Elmondható tehát, hogy az elérhető esetek elemzése már egy
egyszerű 20%-os MAR adathiány esetében sem jó megoldás, hisz torzításhoz vezet, így
indokolt az adathiányt imputálni.
37
együttjárást a valósnál (0,437). Jelentősebben alá becsülte ugyanakkor a lineáris regresszió a
jövedelem változó szórását 54664,5 (CI. 95% 54446,4-54882,6), itt persze joggal felmerülhet
bennünk, hogy miért nem alkalmazunk akkor valamilyen véletlenítést tartalmazó, komplexebb
lineáris regressziós eljárást pl. bayesiánus lineáris regressziót? Ebben az esetben azt
várhatnánk, hogy a változó szórásáról is torzítatlanabb képet kapunk, ennek ugyanakkor ára
is lenne. Egyrészről a korreláció, másrészről pedig az egyes valós értékektől vett abszolút
eltérés tekintetében – ebben pedig az egyszerű lineáris regresszió teljesített a legjobban (lásd
14. táblázat). Továbbá egy ilyen összetetteb lineáris regressziós imputáció kivitelezése már
pontosan ugyanakkora szakértelmet kívánna, mint a predictive mean matching megvalósítása
– és mint arról korábban szó esett utóbbi jelen adathiány struktúrán jobban teljesített. Így az
eddig taglaltakból kifolyólag döntöttem amellett, hogy a bizonyos tekintetében megnyerően
teljesítő egyszerű lineáris regresszió kerül szemléltetésre szakdolgozatomban.
Rátérve a PMM-re elmondható, hogy a 100 imputációt tekintve a valós jövedelem átlag
(117767,51) beleesik a 95%-os konfidencia intervallumba (CI. 95% 117659,2-117782,7), tehát
a jövedelem átlag becslésére jellemzően minimálisan torzító vagy akár torzítatlan becslést is
kaphatunk. Szintén jól sikerült reprodukálni a változó valódi szórását is (CI. 95% 59265,9-
59951,1), ugyanakkor a módszer hátrányának mutatkozott, hogy a korrelációnál a változók
együttjárását gyengítette (CI. 95% 0,399-0,403) – de még így is az előzőleg meghatározott
0,05-ös eltérés alatt maradunk (14. táblázat).
Ha többszörös imputáció keretében vizsgáljuk a PMM-et azt láthatjuk, hogy nincsenek jelentős
eltérések a többször imputáció javára (lásd 13. táblázat), így joggal felmerülhet bennük, hogy
miért is járnánk a nehezebb utat? A kérdésre a válasz azonban roppant egyszerű. Jelen
helyzetben 100 imputációt vizsgálunk együttesen, így minden módszer köré tudunk
konfidencia intervallumot állítani. Azonban, ha egy egyszeri PMM-et állítanánk szembe egy
többszörös imputáció keretében kivitelezett PMM-el, akkor már lényegében egy pontbecslés
állna szemben egy intervallummal becsléssel. Pontbecslést tenni pedig igen erős állítás, hisz
elég reménytelen, hogy pontosan eltaláljuk a valóságot – éles imputáció során pedig nem
tudjuk mi a valóság. Azáltal tehát, hogy többszörösen imputálunk jóval nagyobb esélyünk van
közel kerülni a valósághoz, mintha csak egyszer kezelnénk az adathiányt. Példának okáért
egyszeri PMM-el azt kapjuk, hogy a jövedelem változó átlaga 117995,11 forint, szórása
62009,76 forint, külső változóval vett korrelációja 0,39. Ezzel szemben a többszöri imputáció
38
keretein belül már azt mondhatjuk, hogy 95%-os megbízhatósági szint mellett a jövedelem
változó átlaga 117499,17-118989,89 forint, szórása 59535,18-62286,76 forint, korrelációja
pedig 0,386-0,402 közé esik – itt történesen a korreláció kivételével mindegyik konfidencia
intervallum magába foglalja a valódi értéket is. Így - utalva arra, amit Rubin mondott - a
gyakorlatban is beláthattuk, hogy egyetlen egy imputáció nem lehet jó megoldás, hisz nem
ismerjük mi a valóság.
Most pedig vegyük szemügyre, hogy az egyes imputációs technikák hogyan teljesítettek
abszolút értékben vett mutatók szerint:
Szórások Korrelációk
Értékek közötti Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés abs. eltérés
eltérés eltérés
Elérhető esetek
- 1607 1879 0,0058
elemzése
CI. 95% 45819 - 46401 1513 - 1701 7780 - 8217 0,0433 - 0,0463
Lineáris
36473 366 5434 0,0099
regresszió
Predictive mean
49104 486 1402 0,0352
matching
39
14. táblázat: 20%-os jövedelem adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
Az átlagok (valós és imputált jövedelem átlag) közötti abszolút eltérés esetében a lineáris
regresszió, a PMM és a MI is egyaránt meggyőzően teljesített, jellemzően ~300-600 forint
körüli eltérést tapasztalhatunk. A három módszer ilyen szempontú hatékonyságában nem
térnek el szignifikánsan egymástól, hisz 95%-os megbízhatósági szint mellett a konfidencia
intervallumok összeérnek. Abban az esetben pedig, ha nem megfelelően imputálunk vagy az
elérhető esetek elemzésére hagyatkozunk megközelítőleg mintegy négyszer nagyobb eltérést
kapunk.
40
regresszió is, itt 0,0088-0,011 közötti eltérés valószínűsíthető. A korrelációnál tapasztalható
eltérés másik végpontját az átlag imputálás adja, itt tapasztalhatjuk a legnagyobb eltéréseket.
A PMM és a MI + PMM a „középmezőnyben” helyezkedik el átlagosan 0,035-ös eltérést
produkálva.
Elérhető esetek
115030 57099 0,4397
elemzése
114898 -
CI. 95% 56797 - 57401 0,4377 - 0,4418
115161
114898 -
CI. 95% 47515 - 48021 0,3658-0,3695
115161
Lineáris
118095 51803 0,4223
regresszió
117964 -
CI. 95% 51542 - 52064 0,4206-0,4241
118227
Predictive mean
117477 59228 0,3838
matching
117319 -
CI. 95% 58794 - 59661 0,3814-0,3862
117635
117331 -
CI. 95% 58880 - 59607 0,3820-0,3856
117621
41
15. táblázat: 30%-os jövedelem adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal
Az átlag imputációra nem térnék ki részletesebben, mint ahogy a 15. táblázaton is látható a
jövedelem átlagára, szórására és korrelációjára sem tudunk általa torzítatlan vagy akár
kevéssé torz becslést adni.
A lineáris regresszió bár továbbra is kicsivel felül becsüli a jövedelem átlagot a 100 imputált
adathiány alapján nem szállt el, lényegében tudja hozni az előző 20%-os adathiánynál
tapasztalt teljesítményt. Jelentősebben alul becsüli azonban a változó szóródékonyságát, itt
már lényegesen alul marad a predictive mean matchinggel, sőt még az elérhető esetek
elemzésével szemben is. Ugyanakkor a valós imputációs technikák tekintetében még mindig a
legkisebb torzítással adja vissza külső változóval vett korrelációt (CI. 95% 0,421-0,424).
Szórások Korrelációk
Értékek közötti Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés abs. eltérés
eltérés eltérés
Elérhető esetek
- 2738 3004 0,0089
elemzése
42
Átlag imputáció 45745 2738 12330 0,0691
Lineáris
36080 610 8295 0,0148
regresszió
Predictive mean
49012 645 1884 0,0530
matching
16. táblázat: 30%-os jövedelem adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
A valódi és az imputált jövedelem átlagok között azonban már minden esetben romlást
tapasztalhatunk. Abszolút értékben nézve az elérhető esetek és az átlag imputáció 100
adathiány alapján átlagosan már mintegy 2737,8 forintos eltérést produkál (CI. 95% 2606,01-
2869,58). Ezzel szemben a lineáris regresszió, a PMM és a MI+PMM jóval mintegy 4,5-szer
kisebb 600 forint körüli átlagos eltérést eredményez. Némiképp tehát ezen módszerek
megbízhatósága is romlott a 20%-os adathiányhoz képest, de a produkált eltérés így sem
jelentősen torz.
Szórás tekintetében az átlag imputáció ekkora adathiány esetében már radikálisan rosszul
teljesít az abszolút átlagos eltérés mértéke CI. 95% 12077,44-12583 közé esik. Jelentősen
43
félrehord ilyen szempontból még a lineáris regressziós imputáció (CI. 95% 8034,45-8556,51)
és az elérhető esetek elemzése is nagyobb eltérést eredményezett (CI. 95% 2703,7-3304,32).
A szórást legpontosabban a PMM (CI. 95% 1607,72-2161,14) és MI + PMM (CI. 95% 1365,75-
1849,25) tudták visszaadni az imputációk során.
44
4.3. A komplex adathiány kezelése
Az egyszeri jövedelem adathiányon túl egy komplexebb, összetettebb terepen is
megmérettem a többszörös imputáció hatékonyságát. Azonban a nehezített terep fejlettebb
eszközkészletet is igényel, így itt már kizárólag a többszörös imputáció került tesztelésre27
(elkerülve az almát körtével szituációt28) azzal szemben, hogy figyelmen kívül hagyjuk az
adathiányt (elérhető esetek elemzése). Jelen fejezet során nem csak a jövedelem változó
tartalmazott adathiányt, hanem egyes demográfiai változók is, jelesül a kor, az iskolai
végzettség és a háztartás mérete. A demográfiai változókon szintén MAR típusú adathiányt
generáltam – a már szemléltetett módon -, azonban az adathiány mértéket a jövedelem
adathiány felére redukáltam. Ennek oka abban keresendő, hogy a demográfiai kérdések nem
tartoznak a szenzitív kategóriában, így az ezzel kapcsolatos adathiány kevésbé
valószínűsíthető.
Első körben a jellemzőnek tekinthető 20%-os MAR jövedelem adathiányt egészítettem ki egy
10%-os MAR demográfiai adathiánnyal, ismét 100 adathiányt imputálva az eredmények a
következők:
Elérhető esetek
116132 58137 0,4398
elemzése
27
Természetesen pl. az egyszeri PMM is bevethető ilyen szituációban, de már korábban beláthattuk, hogy ha
lehetőségünk van rá érdemesebb a többszörös imputációt választani. Így jelen fejezetben már kizárólag erre
koncentrálok.
28
Más nem MICE alapú imputációs technikákat - mint már korábban tárgyalására került - azért nem lenne korrekt
versenyeztetni a MICE módszerrel, mert pl. egy lineáris regresszió nem lenne képes egyidejűleg kezelni az összes
jelenlevő adathiányt és így hátrébbról indulna, mint a képzeletbeli startmező.
45
17. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal
Szórások Korrelációk
Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés
eltérés eltérés
Elérhető esetek
1636 2029 0,0079
elemzése
18. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
46
Azt láthatjuk, hogy a MI + PMM átlag és szórás tekintetében is szignifikánsan kisebb abszolút
eltérést produkál, mint az elérhető esetek elemzése és csak a külső változóval vett korreláció
tekintetében marad alul, azonban itt is még az előzetesen meghatározott 0,05-ös határon
belül. Joggal felmerülhet bennünk, hogy az eljárás hogyan teljesített az egyes demográfiai
változók konkrét értékének eltalálásában is, ehhez vegyük szemügyre a következő táblázatot:
Iskolai Háztartás
Módszer Kor Jövedelem
végzettség mérete
CI. 95% 16,99 - 17,12 1,82 - 1,84 1,35 - 1,367 49894 - 50322
19. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
A kor esetében abszolút értékben nézve a 100 imputáció alapján átlagosan 17,06 évet
tévedünk (CI. 95% 16,99-17,12), az iskolai végzettség esetében 1,83 kategóriát (CI. 95% 1,82-
1,84), míg a háztartás mérete esetében 1,36 főt (CI. 95% 1,35-1,37). A jövedelem esetében
pedig a már korábban tapasztalt 50000 forint körüli eltérésre számíthatunk egy összetettebb
adathiány esetében is. De hogyan alakulna ez egy még jelentősebb adathiánynál?
Elérhető esetek
115078 57009 0,44
elemzése
47
117147 -
CI. 95% 58372 -59065 0,377-0,3808
117410
20. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal
Szórások Korrelációk
Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés
eltérés eltérés
Elérhető esetek
2690 3100 0,0088
elemzése
21. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
48
Iskolai Háztartás
Módszer Kor Jövedelem
végzettség mérete
CI. 95% 17,1 - 17,21 1,85 - 1,87 1,357 - 1,369 49905 - 50194
22. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal
A kor, iskolai végzettség, háztartás mérete és jövedelem valódi értékeitől vett átlagos abszolút
eltérés tekintetében pedig azt láthatjuk, hogy a növelt adathiány ellenére nem történt lényegi
elmozdulás. Érdekességképp megjegyzendő, hogy a MI + PMM még drasztikus 50%-os
adathiány esetében is tudja hozni ezeket a paramétereket, azonban természetesen ilyen
mértékű adathiány irreálisnak tekinthető, így ez nem került kanonizálásra a dolgozatban.
49
5. Összegzés
Jelen dolgozat végéhez érve első körben az eredmények összegzésére, valamint az azokból
levonható következtetésekre térnék ki. A gyakorlati rész első felében megvizsgáltam, hogy egy
egyváltozós MAR típusú jövedelem adathiányt hogyan kezelhetünk különböző imputációs
technikákkal, különös figyelmet fordítva a többszörös imputációban és a predictive mean
matching-ben rejlő lehetőségekre. A szakdolgozatom gyakorlati részének másik felét a
komplex többváltozós adathiány modern technikákkal történő kezelése képezte, itt a MICE
algoritmusban rejlő lehetőségeket tárgyaltam. Mindkét esetben a következtetéseim 100
imputáció egyidejű vizsgálatából vontam le, ezáltal megteremtve az eredmények kellő
robusztusságát.
A gyakorlati rész második felében azt is beláthattuk, hogy a MICE algoritmussal (MI + PMM)
nagy hatékonysággal kezelhetünk komplex többváltozós adathiányokat is. Ezzel kapcsolatban
érdemes még egyszer áttekinteni az ezzel kapcsolatos adatokat (az ábrák a jellemzőbbnek
tekinthető a 10/20%-os komplex adathiány alapján készültek):
50
6. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a jövedelem változó
átlaga 95%-os konfidencia intervallummal, valamint a valós jövedelem átlag (piros vonal)
Láthattuk, hogy még komplex adathiány esetében is a MI + PMM kevéssé torzított képet ad a
jövedelem változó átlagáról (piros vonal), szemben az elérhető esetek elemzésével.
7. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a jövedelem változó
szórása 95%-os konfidencia intervallummal, valamint az eredeti szórás (piros vonal)
51
Hasonlóképp a szórás esetében is megfigyelhettük, hogy a többszörös imputációval
pontosabban visszakapjuk az eredeti változó szórását (piros vonal), azzal szemben mintha
figyelmen kívül hagynánk az adathiányt – valamint az egyváltozós adathiány esetében
korábban láthattuk, hogy a PMM más eljárásokkal szemben is igen hatékony.
8. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a külső változóval
vett korreláció értéke 95%-os konfidencia intervallummal, valamint az eredetileg megfigyelt
korreláció (piros vonal)
52
Holder). Miszerint a megfelelően kivitelezett predictive mean matching az egyik legjobban
teljesítő (többszörös) imputációs technikának tekinthető.
Természetesen ugyanakkor fontos szót ejteni az eredmények érvényességi korlátairól is. Jelen
adathiány generálást és imputálást én a TÁRKI Háztartás Monitor adatbázisan végeztem,
főként az abban rejlő adathiány mintázatokra támaszkodva. Ezáltal az eredmények
általánosíthatósága korlátozott, mindezek ellenére én úgy vélem a PMM hatékonysága
kellőképp megalapozott. Összefoglalva tehát meglátásom szerint a PMM használata indokolt
jövedelem adathiány imputálása során, de ezt más adatbázison (nem TÁRKI Háztartás
Monitor) történő alkalmazása előtt érdemes lehet validálni – értem ez alatt azt, hogy hasonló
szisztéma szerint kialakított mesterséges adathiányon tesztelni az éles bevetés előtt.
Végezetül a téma további felhasználásában úgy gondolom sok lehetőség rejlik, egyrészről
mindenképp izgalmasnak tartanám – mint ahogy arra korábban utaltam is- valós
adatkészleten a többi – igen széles körű – fejlett imputációs technikák tesztelést. Másrészről
szintén érdemes lehet a PMM más adatbázison, más változón történő vizsgálata – különösen
egy friss kutatás nyomán keletkezett valós adathiányon is.
53
6. Köszönetnyilvánítás
Szeretnék köszönetet mondani mindazoknak, akik segítségemre voltak abban, hogy
szakdolgozatom jelen formájában elkészülhessen. Külön köszönet illeti konzulensemet Dr.
Kmetty Zoltán-t, akinek szakmai iránymutatása és gyakorlati támogatása nélkülözhetetlen
segítséget nyújtott. Páratlan tanácsai és ötletei hozzásegítettek ahhoz, hogy az engem
foglalkoztató témakört a megfelelő nézőpontból vizsgálhassam. Szintén köszönet illeti Tátrai
Annamáriát, aki a témában való elmélyülésem kezdeti lépeseit támogatta. Továbbá külön
köszönöm a TÁRKI-nak, hogy az elemzés alapjául szolgáló adatbázist készséggel
rendelkezésemre bocsájtották.
54
7. Irodalomjegyzék
7.1. Források
Andrea Marshall, Douglas G. Altman, Patrick Royston, Roger L. Holder (2010): Comparison of
techniques for handling missing covariate data within prognostic modelling studies: a
simulation study. BMC Medical Research Methodology 10/7.
Donald B. Rubin (1987): Multiple Imputation for Nonresponse in Surveys. New York, John
Wiley & Sons.
Donald B. Rubin (1996): Multiple Imputation After 18+ Years. Journal of the American
Statistical Association, 91/434, 473-489.
Gabriele B. Durrant (2005): Imputation Methods for Handling Item-Nonresponse in the Social
Sciences: A Methodological Review. Elérhető:
https://pdfs.semanticscholar.org/d506/44d5056c2538d5ebae33e30b67f7b6b41c29.pdf
(Letöltve 2020.10.14)
Graham Kalton és Daniel Kasprzyk (1982): Imputing for missing survey responses
https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf
(Letöltve 2020.10.14)
Hámori Gábor (2014): Predikciós célú klasszifikáló statisztikai modellek gyakorlati kérdései.
Elérhető: http://real-phd.mtak.hu/369/1/2015.007-%C3%A9tekez%C3%A9s.pdf (Letöltve
2020.10.14)
Joseph L.Schafer és Maren K.Olsen (1998): Multiple Imputazion for Multivariate Missing- Data
Problems: A Data Analyst’s Perspective. Multivariate Behavioral Research, 33/4, 545-571.
55
Kehl Dániel és Várpalotai Viktor (2013): A modern bayesi elemzések eszköztársa és
alkalmazása. Statisztikai Szemle, 91/10, 971-992.
Koen Buellens, Geert Loosveldt, Caroline Vandenplas, Ineke Stoop (2018): Response Rates in
the European Social Survey: Increasing, Decreasing, or a Matter of Fieldwork Efforts? Elérhető:
https://surveyinsights.org/?p=9673 (Letöltve: 2020.10.14)
Máder Miklós Péter (2005): Az imputálási eljárások hatékonysága. Statisztikai Szemle, 83/7,
628-643.
Mark Huisman (1999): Item nonresponse: occurrence, causes, and imputation of missing
answers to test items. Elérhető:
https://www.researchgate.net/profile/Mark_Huisman3/publication/268312247_Item_nonre
sponse_occurrence_causes_and_imputation_of_missing_answers_to_test_items/links/593e
a53e0f7e9bf167c02eae/Item-nonresponse-occurrence-causes-and-imputation-of-missing-
answers-to-test-items.pdf (Letöltve 2020.10.14)
Paul D. Allison (2009): Missing Data. The Sage handbook of quantitative methods in
psychology, 72-89.
Paul Zhang (2003): Multiple Imputation: Theory and Method. International Statistical Review,
71/3, 581-592.
Regina T. Riphahn és Oliver Serfling (2004): Item non-response on income and wealth
questions. Empiral Economics, 30/2, 521-538.
Stef van Buuren (2018): Flexible Imputation of Missing Data, Second Edition. Chapman and
Hall/CRC.
56
Tim P. Morris, Ian R White, Patrick Royston (2014): Tuning multiple imputation by predictive
mean matching and local residual draws. BMC Medical Research Methodology, 14/75.
Ting Yan és Matt Jans (2010): Trends in Income Nonresponse Over Two Decades. Journal of
Official Statistics, 26/1, 145-164.
7.2. Adatforrás
TÁRKI Alapítvány – TDATA-I22: TÁRKI Háztartás Monitor 2015. A magyarországi háztartások
anyagi és munkaerőpiaci helyzete. adatlap. Verzió: 2018-02-05
57
8. Melléklet
A dolgozathoz kapcsolódó kódok és adatfájlok elérhetők GitHub-on:
https://github.com/simonkristof/szakdolgozat-2021.
58