You are on page 1of 58

Eötvös Loránd Tudományegyetem

Társadalomtudományi Kar
MESTERKÉPZÉS SZAKDOLGOZAT

Az item nonresponse imputációs lehetőségei


A többszörös imputáció szimulációs vizsgálata

Konzulens: Készítette:
Dr. Kmetty Zoltán Simon Kristóf
HC119A
Survey statisztika és
adatanalitika MSc

2021. április
Tartalomjegyzék
1. Előszó .................................................................................................................................. 4

2. Elméleti háttér ismertetése ................................................................................................ 6

2.1. Kitekintés az adathiánnyal kapcsolatos általános tendenciákra, fogalmakra ............. 6


2.1.1. Válaszadási tendenciák ........................................................................................ 6
2.1.2. Unit nonresponse ................................................................................................. 7
2.2. Az item nonresponse fogalma és az adathiány mögött álló mechanizmusok ............ 8
2.2.1. Item nonresponse ................................................................................................ 8
2.2.2. Az adathiány mögött álló mechanizmusok .......................................................... 8
2.3. Az item nonresponse kezelése .................................................................................. 11
2.3.1. Megelőzés .......................................................................................................... 11
2.3.2. Imputáció............................................................................................................ 11
2.4. A többszörös imputáció (MI, multiple imputation): .................................................. 13
2.4.1. A MICE algoritmus logikája ................................................................................. 17
2.4.2. Predictive mean matching.................................................................................. 23
3. Az adatok előkészítése ...................................................................................................... 25

3.1. Az adatbázis előkészítése .......................................................................................... 25


3.2. A MAR típusú jövedelem adathiány tervezési folyamata ......................................... 27
3.2.1. A súly változó(k) megalkotása ............................................................................ 29
3.2.2. Az adathiány generálása..................................................................................... 32
4. A többszörös imputáció szimulációs vizsgálata ................................................................ 33

4.1. Kiértékelési szempontok............................................................................................ 33


4.2. A MAR jövedelem adathiány imputálása .................................................................. 36
4.2.1. 20%-os adathiány ............................................................................................... 36
4.2.2. 30%-os adathiány ............................................................................................... 41
4.3. A komplex adathiány kezelése .................................................................................. 45
4.3.1. 10/20%-os adathiány ......................................................................................... 45
4.3.2. 15/30%-os adathiány ......................................................................................... 47
5. Összegzés .......................................................................................................................... 50

6. Köszönetnyilvánítás .......................................................................................................... 54

7. Irodalomjegyzék ................................................................................................................ 55

2
7.1. Források ..................................................................................................................... 55
7.2. Adatforrás .................................................................................................................. 57
7.3. Egyéb források ........................................................................................................... 57
8. Melléklet ........................................................................................................................... 58

3
Imputing one value for a missing datum
cannot be correct in general, because we
don’t know what value to impute with
certainty (if we did, it wouldn’t be missing).
Donald B. Rubin

1. Előszó
A statisztikai jellegű adatgyűjtések több évszázados múltra tekintenek vissza, Magyarországon
az első hivatalos statisztikai szolgálatot 1867-ben alapították (a mai KSH őse)1. Az
adatgyűjtések pedig mint egy „járulékos” – egyre növekvő - problémája, hogy egyes
potenciális válaszadók vagy egyáltalán (unit nonresponse) vagy pedig tételesen (item
nonresponse) nem kívánnak információt szolgáltatni. Utóbbiból következtethető, hogy még
akkor sincs nyert ügye a kutatóknak, ha a válaszadó együttműködik, hisz előfordulhatnak olyan
ún. szenzitív kérdések, amelyekre az alany nem kíván válaszolni. Ennek oka, hogy a válaszadó
úgy érezheti, hogy ez az információ egyszerűen nem tartozik a kutatókra (Yan és Jans, 2010).
Szenzitív kérdés lehet például a válaszadó jövedelme vagy politikai hovatartozása. Ilyenkor
jellemzően arra számíthatunk, hogy a válaszadók hozzávetőlegesen 15-20%-a nem válaszol az
adott kérdésre (Yan és Jans, 2010) (Kmetty, 2018).

Probléma ez? Mindenképp igen. Egyrészről, ha az adathiány még teljesen véletlenszerű is –


ami ritkán fordul elő – a kisebb esetszám csökkenti a statisztikai erőt. Másrészről, ha az
adathiány nem véletlenszerű az item nonrespone torzításhoz vezet(het). Ezen probléma
kezelésére különböző imputációs eljárásokat alkalmazhatunk, amelyek célja, hogy torzítatlan,
vagy kevéssé torzított becslést adhassunk a minta alapján.

A modern imputációs technikák megalkotása főként Donald B. Rubin amerikai statisztikus


nevéhez fűződnek, aki az 1970-es évek elején fektette le a témakör alapjait (Rubin, 1987).
Akkoriban azonban a számítástechnikai háttér még igen nehézkessé tette a komplex
imputációs technikák gyakorlati alkalmazását, napjainkban azonban ez már egyáltalán nem
jelent gondot.

1
https://www.ksh.hu/nepszamlalas/magyarorszagi_nepszamlalasok_tortenete

4
Dolgozatomban a többszörös imputáció hatékonyságát tesztelem olyan - sajnos - gyakorta
alkalmazott eljárással szemben, mint az elérhető esetek elemzése, illetve összevetem
egyszerű (átlag imputálás) és összetett (lineáris modell alapú) imputációs technikákkal is. A
dolgozat célja, hogy jelen összevetést, ne a már sokan mások által tanulmányozott szokásos
eljárás szerint, egy generált adathiány mintán kivitelezzem. Hanem 100 különböző szimulált
MAR – jövedelem – adathiányon történjen az imputációs módszerek hatékonyságának
tesztelése, ezáltal megteremtve az eredmények robusztusságát. A dolgozat kitűzött célja
továbbá, hogy az igen hatékonynak mutatkozó MICE (Multivariate Imputation by Chained
Equations) algoritmus előnyét is szemléltesse. Ez egy komplexebb – nem kizárólag jövedelem
– adathiányon kerül modellezésre.

Jelen dolgozat során a következő kérdésekre keresem a választ:

• Hogyan teljesít a többszörs imputációs eljárás MAR típusú (szimulált) jövedelem


adathiány esetében, az elérhető esetek elemzése, átlag és lineáris modell alapú
imputációs eljárásokhoz képest?

• Hogyan teljesít a MICE algoritmuson alapuló többszörös imputáció egy komplex több
változóra kiterjedő adathiányon?

A dolgozat során a téma széles spektrumú áttekintéséhez röviden szemléltetem a


válaszadással kapcsolatos főbb tendenciákat és fogalmakat, majd az elemzés fő vázát és
gerincét az item nonrespone és ennek imputációs megoldásainak mélyreható vizsgálata képzi.

5
2. Elméleti háttér ismertetése
2.1. Kitekintés az adathiánnyal kapcsolatos általános tendenciákra,
fogalmakra
A bevezetőben említettek szerint első körben egy rövid kitekintést ejtek a válaszadási
tendenciák és az unit nonresponse irányába. Jelen rövid fejezet célja, hogy a dolgozat a
tárgyalt témakör szélesebb perspektívájára is kitekintést nyújtson.

2.1.1. Válaszadási tendenciák

Alapvetően a kutatók világszerte egyetértenek abban, hogy a nemzetközi tendencia a


csökkenő válaszadási arány felé mutat, azonban országonként más-más tendenciát
figyelhetünk meg. Magyarországon az „irányadó” nemzetközi tendenciának megfelelő
csökkenés tapasztalható a válaszadási arányok (response rate) tekintetében (K. Beullens et al.,
2018). Magyarország esetében az ESS 9. hullámában ez az arány már jóval 50% alatti volt
(40,7%), míg ezzel szemben az 1. hullámban még 70% nem utasította vissza a válaszadást.

100%

80%

61,56% 63,36% 62,21% 61,83%


60,57% 60,16%
60% 56,09% 55,37%
50,75%

40%

20%

0%
2002 2004 2006 2008 2010 2012 2014 2016 2018

ESS - response rates

1. ábra: Átlagos válaszadási tendenciák az ESS felmérések során (2002-2018)

Forrás: Saját szerkesztés az ESS adati alapján2

2
https://www.europeansocialsurvey.org/data/deviations_index.html

6
A globális ESS átlagot tekintve az láthatjuk, hogy az 1. hullámtól kezdve (2002) 60% körüli
válaszadási arány jellemző (a megcélzott a 70% volt), - a maximum pedig 2006-ban volt
63,36%. A törés a 2012-es 7. hullám után következett be, ettől kezdve fokozatos csökkenést
tapasztalhatunk, a 9. hullám (2018) során már az átlagos válaszadási arány 50,75% volt
(legalacsonyabb Németország 27,6%, legmagasabb Bulgária 69,4%).

A szakdolgozatomban is vizsgált 2015-ös TÁRKI Háztartás Monitor esetében a válaszadási


arány 39%, míg például 1999-ben ez még 58%-on állt3. Elmondható tehát, hogy egy
hagyományos survey esetében jellemzően a megcélzott minta 50-60%-át sikerül lekérdezni,
míg egy háztartási minta esetében ez valamivel kisebb. A fennmaradó 40-50% véleménye
tehát lényegében ismeretlen marad számunkra. Az így keletkező válaszhiányt nevezzük unit
nonresponsenak.

2.1.2. Unit nonresponse

Az unit nonresponse esetében tehát a mintába beválasztott személy lekérdezése meghiúsul,


ez egyrészről fakadhat abból, hogy a minta tagjai nem akarnak részt venni a kutatásban, vagy
felmerülhet, hogy a válaszadás más okból nem lehetséges (Durrant, 2005). Ilyen lehet például,
hogy a terepmunka során a célszemélyt nem sikerül megtalálni (pl. nem volt otthon,
elköltözött) vagy akár abból is, hogy a kiválasztott személy nem képes válaszolni a kutatás
kérdéseire (pl. pszichológiai problémák miatt) (Kmetty, 2018). Ha azt feltételezzük, hogy azok,
akik válaszait ilyen formán nem sikerült megismerni úgy gondolkozhatnak, mint azok, akik
készséggel válaszolnak, eredményeink közlésekor vészesen félre lőhetünk. Gyakran
emlegetett példa erre az, hogy 1992. április 9-én a Konzervatív Párt megnyerte a brit
választásokat, holott a közvélemény kutatók a Munkáspárt győzelmét várták. A félremérés
oka a nemválaszolók figyelmen kívül hagyása volt (Oravecz, 2008).

Ugyanakkor hiába gondoljuk, hogy ha már valakit sikeresen bevonunk a kérdezés folyamatába
onnan már nyert ügyünk van. Hisz a kérdezés során felmerülhetnek olyan kérdések, amelyekre
az alany nem kíván választ adni. Az így keletkező adathiányt nevezzük item nonresponsenak.

3
http://old.tarki.hu/hu/research/hm/2016/monitor2015_gyorsjelentes_1_kotet.pdf

7
2.2. Az item nonresponse fogalma és az adathiány mögött álló
mechanizmusok
2.2.1. Item nonresponse

Az item nonresponse alatt tehát azt értjük amikor nem minden szükséges információ kerül
begyűjtésre a kérdezés során (Kalton és Kasprzyk, 1982). Ennek oka többféle lehet, egyrészről
előfordulhat, hogy az interjúkészítő nem teszi fel a kérdést (pl. véletlenül átsiklik felette) vagy
rögzítési probléma miatt adatvesztés lép fel, másrészről pedig a kérdezett megtagadhatja az
adott kérdésre történő válaszadást (pl. túl szenzitív a kérdés számára) (Durrant, 2005). Az ilyen
jellegű válaszmegtagadások leginkább a politikával és az anyagi helyzettel kapcsolatban
szoktak jelentkezni. Ezért is érdekes megemlíteni, hogy Kmetty Zoltán az ESS adatfelvételeit
tanulmányozva arra jutott, hogy az adathiányok tekintetében pozitív tendencia figyelhető
meg. Az általuk vizsgált 8 politikai attitűdöket mérő változó esetében globálisan az 1.
hullámnál 20% körül volt az adathiány, ez a 7. hullámra 13,5%-ra csökkent. Magyarországon a
7. hullám adatai alapján az esetek 17,4%-ában volt legalább egy ilyen jellegű kérdésnél
adathiány (Kmetty, 2018). Az item nonresponse jelensége, habár a fentebbi adatok alapján
bizonyos esetekben csökkenő mértékben – köszönhetően főleg a számítógéppel támogatott
adatfelvétel elterjedésének -, de rendszeresen előfordul. A probléma vele pedig az, hogy
akadályozza az egyszerű adatelemzést és rontja a mérés minőségét (Huisman, 1999). Az item
nonresponse kezelésére különféle imputációs eljárásokat alkalmazhatunk, azonban mielőtt
ezeket részletesebben is megismernénk fontos, hogy kitérjünk az adathiány mögött álló
mechanizmusokra is.

2.2.2. Az adathiány mögött álló mechanizmusok

Különösen fontos, hogy elemzésünk során próbáljuk megérteni az adathiány mivoltát, hisz az
esetleges kezelés sikeressége múlhat rajta. Abban az esetben, ha jól meghatározzuk az
adathiányunk eredetét és megfelelő kezelést választunk annak pótlására imputációnk sikeres
lehet. De milyen adathiány mechanizmusokat is különböztethetünk meg? Az adathiány
mechanizmusok tipizálása Donald B. Rubinhoz köthető, egy 1976-ban megjelent írásában
foglalkozott először a témakörrel.

Missing completely at random (MCAR): Az első megemlítendő adathiány mechanizmus az


MCAR, amit magyarul leginkább teljesen véletlenszerű adathiánynak szoktak fordítani. Az
8
elnevezés beszédességéből adódóan ebben az esetben a megfigyelt adataink teljesen
véletlenszerűek és nem függenek össze az egyes elemekkel (Huisman, 1999). Annak a
valószínűsége tehát, hogy bármelyik változó hiányos, nem függhet semmilyen másik
változótól (Allison, 2009). Azáltal pedig, hogy hogy az adathiány, az adatbázisban rögzített
minden változótól független, nincs a megfigyelt és a hiányos értékekkel rendelkező változók
között szisztematikus eltérés. (Máder, 2005) A válaszadók és nem válaszadók tehát semmilyen
szempontból nem különböznek egymástól (Kmetty, 2018). Oravecz Beatrix szemléletes
példájával élve ez olyan, mintha egy válaszadó érmedobással döntene arról, hogy válaszol-e
az adott kérdésre (Oravecz, 2008). Abból a kellemes tulajdonságból adódóan, hogy a
válaszadók és nem válaszadók között nem lényegi a különbség, ebben az esetben a
válaszmegtagadást nyugodt szívvel figyelmen kívül hagyhatjuk az elemzés során4. Felmerülhet
a kérdés, hogy - hogyan állapítható meg, hogy ilyen mechanizmusú adathiánnyal van dolgunk?
-. Ennek a kérdésnek a megválaszolására dolgozta ki Roderick J. A. Little egy próbát, ami Little's
test néven terjedt el. A Little’s test a társadalomtudományok terén talán leginkább elterjedt
SPSS adatelemző szoftverben is elérhető (Missing Value Analysis – EM5).

Missing at Random (MAR): A véletlenszerű adathiány esetében az adathiány a megfigyelt


változókkal összefügg (Allison, 2009). Ez nem azt jelenti, hogy a hiányzó adatokat tartalmazó
változók nem térnek el a hiánytalan egységektől, de az adathiány nyomon követhető, az
adatbázis más változói által imputálható (Oravecz, 2008). A jövedelem például becsülhető
olyan változók segítségével, mint az: életkor, nem, foglalkozás és iskolai végzettség. MAR
esetben tehát pl. a fiatalok eltérhetnek az idősektől válaszadási hajlandóságban, de úgy
gondoljuk, hogy az azonos csoportba tartozó válaszadók és válaszmegtagadók között nincs
különbség – ezért tudunk jól imputálni. Illetve, ha nem imputálnánk az adathiányt az
torzításhoz vezethetne, hisz nem minden csoportban ugyan az a válaszadási arány. A MAR
mechanizmusú adathiány léte ugyanakkor az MCAR-hoz képest statisztikailag nem tesztelhető
(Allison, 2009). Az MAR típusú adathiány a legtöbb imputációs eljárás alapfeltevése, ebben az
esetben ugyanis a rendelkezésünkre álló változó szettekkel az adathiány pótolható. De milyen
esetekben nem áll ez fent?

4
Természetesen csak a kisebb esetszám hátrányai mellett.
5
https://www.ibm.com/support/knowledgecenter/SSLVMB_24.0.0/spss/tutorials/mva_describe_rerun_mcarte
st.html

9
Not Missing at Random (NMAR): A nem véletlenszerű adathiány esetén az adathiány nem
véletlenszerű, és önmagában más változókkal sem becsülhető, mert közvetlenül az adathiányt
tartalmazó változóval is kapcsolatban van (Oravecz, 2008). NMAR adathiány esetében külső
információforrás nélkül az adatbázis hordozta információtartalom nem elegendő a torzítás
csökkentését célzó imputáláshoz (Máder, 2005). A fentebb említett jövedelem változót jelen
esetben tehát a meglevő adatok alapján nem lehetne megfelelően imputálni és nem élhetünk
azzal a feltevéssel sem, hogy a válaszadók és a nem válaszadók között nincs eltérés.
Kijelenthető tehát, hogy az NMAR mechanizmusú adathiány megléte számos problémát von
maga után. A probléma kezelésére egy ideig ígéretes megoldásnak tűnt, Heckman kétlépcsős
probit modellje, de ezt később számos kritika illette. Napjainkban a leghatékonyabb
megoldásnak a pótlólagos adatgyűjtés tűnik, ha ez nem lehetséges felmerülhet, hogy
kevesebb problémát okoz az a modellezési megoldás, ha szűkítünk a nemhiányos adatokra -
bár ez igen drasztikus megoldásnak tekinthető - (Hámori, 2014).

Az adathiány mechanizmusok szemléletes és könnyen érhető áttekintésére készített frappáns


ábrát Richard McElreath. Az adathiány mechanizmusok összegzését McElreath alapján én is a
kutya és a hiányzó házifeladatok alapján ragadnám meg:

2. ábra: Adathiány mechanizmusok

Forrás: Richard McElreath (2019)

10
Az MCAR típusú adathiányt tehát szemléletesen úgy képzelhetjük el, hogy a kutya (az
adathiány mechanizmus) teljesen véletlenszerűen eszik a házi feladatokból. Ezzel szemben az
MAR adathiánynál a kutya a diákok (szerintem szemléletesebb lenne még valami külső
elkülönítő jelzőt is alkalmazni pl. „kékszemű diákok”) házi feladatait eszi meg, ezáltal az
adathiányt nyomon tudjuk követni. NMAR esetében azonban az, hogy a kutya melyik házi
feladatok eszi meg, már közvetlenül az adathiányt tartalmazó változóval van kapcsolatban.
Tehát a kutya a rossz házi feladatokat eszi meg, mi pedig külső változók által nem tudjuk
megjósolni melyek lesznek azok.

2.3. Az item nonresponse kezelése


Mint ahogy korábban láthattuk fontos, hogy a nemválaszolást és ezen belül az item
nonresponse-t valamilyen formában kezeljük. Valamint szintén fontos pontja kellene, hogy
legyen elemzésünknek az is, hogy elgondolkodunk az adathiány mögött álló mechanizmusról.
Az item nonresponse kezelésének egyik lehetősége természetesen az, hogy megpróbáljuk
megelőzni azt. Mivel jelen tanulmány célja nem a megelőzés, hanem az imputációs módszerek
alkalmazásának bemutatása ezért előbbire csak röviden térek ki.

2.3.1. Megelőzés

Egyrészről a kérdezőbiztosok képzésével törekedhetünk arra, hogy az adathiányt csökkentsük,


azonban fontos szem előtt tartani azt, hogy ha túl rámenős a kérdezőbiztos az akár fals
eredményeket is szülhet. Másrészről a kérdőív összeállítása során is kalkulálhatunk azzal mi
mekkora adathiányt eredményezhet, mennyire bonyolult/szenzitív/szakértelmet stb. igénylő
a kérdés. Valamint természetesen maga a kérdezési módszertan (PAPI, CAPI stb.), a kérdezési
környezet és a megkérdezettek jellemzői (pl. életkor, anyagi helyzet) is hatással lehetnek a
válaszadási hajlandóság alakulására (Kmetty, 2018).

2.3.2. Imputáció

A már létrejött adathiányt különböző imputációs eljárások segítségével próbálhatjuk meg


kiküszöbölni. Fontosnak tartom hangsúlyozni, hogy az imputációs eljárások célja nem a
hiánytalan könnyen elemezhető adatbázis megalkotása vagy az, hogy megjósoljuk mi lehet az
adott esetre vonatkozó érték. Az imputációs eljárások valódia célja az, hogy torzítatlan, vagy
kevéssé torzított becslést tudjunk adni a minta adatai alapján.

11
Komplett esetek elemzése (complete cases – cc): Jelen esetben az adathiánymentes esetek
alkotják az elemzés tárgyát, míg az adathiányt tartalmazó esetek kimaradnak az elemzésből
(Máder, 2005). Abban az esetben, ha egy független változóban az adathiányos egyedek
hányada számottevő (>50%) megfontolandó a változó elhagyása a modellezésből. Ez az
elhagyás leginkább akkor nem jelent problémát, ha az adatbázisunkban rendelkezésre áll az
adathiányos változóval erősen korreláló hiánytalan változók is (Hámori, 2014).

Elérhető esetek elemzése (available cases - ac): Ebben az esetben az aktuálisan vizsgált változó
elérhető (adathiány nélküli) esetei kerülnek felhasználásra az elemzés során. Ez a módszer az
alapértelmezett gyakorlatilag minden statisztikai szoftverben (Allison, 2009).

Joggal merülhet fel, hogy a fentebbi két módszer inkább amputáció, mint imputáció, hisz az
adathiányok nem pótlásra, hanem törlésre kerülnek. Azonban mindenképp fontos velük
foglalkozni, mivel egyrészről nagyon elterjedt a használatuk, másrészről mégis egyfajta
adathiány-kezelési módszerről beszélhetünk. A továbbiakban a valós imputációs eljárások
következnek:

Középértékkel való imputálás: Az imputációs eljárások talán legegyszerűbb esete, ekkor a


hiányzó értékeket valamilyen középérték mutatóval pótoljuk, mint: átlag, medián, módusz.
Előnye az, hogy igen egyszerű, azonban az elemek változékonyságát alul becsüli. Ez
valamelyest javítható, ha pl. nem a változó globális átlagával, hanem csoportokon belüli
részátlagokkal imputálunk (Oravecz, 2008).

Random értékekkel történő imputálás: Ebben az esetben vesszük az adott változó minimumát
és maximumát6, majd a két érték közé random eseteket generálunk, például egyenletes
eloszlás mentén (Máder, 2005). Az így kapott értékekkel pótoljuk az adott változó adathiányos
eseteit.

Regressziós imputálás: Az imputációs eljárásoknak egy gyakori és széles osztálya a regressziós


modell alapján történő adatpótlás. Jelen imputációs eljárás során építünk egy regressziós
modellt, amiben független változók segítségével megpróbáljuk „megjósolni” az adott függő
változó lehetséges - és számunkra ismeretlen - értékeit. A numerikus (magas mérési szintű)
változókra általában lineáris, míg a kategoriális változókra a logisztikus regresszió használatos

6
Itt dönthetünk úgy is, hogy nem a minimumot és a maximumot vesszük alapul, hanem egy a kutatói megfontolás
alapján lehetségesnek tartott sávot. Pl. életkor esetében 18-80 év között generálunk adatokat.

12
(Durrant, 2005). A regressziós modellek változékonyságának javítása érdekében gyakori
eljárás az is, hogy a becsléshez hozzáadásra kerül egy véletlen hibatag. Ez általában 0 átlagú
és szórása a regressziónál tapasztalt lokális szórással azonos mértékű.

HOT DECK: A hot deck szintén a kedvelt és gyakran használt imputációs eljárások közé
sorolható. Ebben az esetben a hiányzó adatot a leginkább hasonló hiánymentes esetek
adataival pótolják. A hasonlóság mértékének megítélésére különböző módszerek
használhatók, mint például az euklideszi távolságon alapuló legközelebbi szomszéd értéke. A
hot deck eljárás rokonának tekinthető a cold deck imputációs metódus, mely során nem belső
(mintabeli) adatokat, hanem külső értékeket használunk az imputációhoz, mint például:
múltbeli hasonló felmérések adatai (Oravecz, 2008) (Máder, 2005).

A továbbiakban a hagyományos egyszeri imputációkon túlmutató technikáról lesz szó, ami


nem más, mint a többszörös imputáció.

2.4. A többszörös imputáció (MI, multiple imputation):


„A többszörös imputáció egy olyan statisztikai technika, amely kihasználja a modern
számítástechnikában rejlő lehetőségeket az adathiány kezelésére” (saját fordítás, Rubin,
1987:5). A hiányzó értéket kettő vagy több imputált érték váltja fel, ezáltal reprezentálva az
adatokban rejtő bizonytalanságot. A többszörös imputáció gondolata Donald B. Rubin
amerikai statisztikusban merült fel először az 1970-es évek elején, amikor ETS7-el kapcsolatos
nemválaszolás problémáján dolgozott. A többszörös imputáció jelentős lendületet azonban
csak évekkel később kapott (Rubin, 1987). A többszörös imputációs következtetés elméletét –
legtöbbször Bayes-i modellből származtatjuk (Zhang, 2003).

A többszörös imputációs eljárást eredetileg komplex surveyekhez tartották a


legmegfelelőbbnek, de az évek során más környezetben is hatékonynak bizonyult (Rubin,
1996) – magyar vonatkozásban például Danis Ildikó számolt be arról, hogy egészségügyi
adatokon használnak MI imputációt biztató eredményekkel (Danis, 2012) -. Természetesen ez
nem azt jelenti, hogy az MI minden esetben megfelelő választás, hisz - mint bármely
statisztikai eljárás esetében - előfordulhat olyan is, hogy alkalmazása megkérdőjelezhető.

7
Educational Testing Service

13
Mint már korábban is taglaltam általában minden „survey-es” adatbázis (vagy Rubin
megfogalmazásában „public-use” adatbázis) tartalmaz valamilyen mértékben hiányzó
értékeket. Általában a végfelhasználók pedig sem ismerettel, sem eszközzel nem rendelkeznek
ezen adatproblémák kezelésére (Rubin, 1996). Ezáltal akár aggályaink is merülhetnek fel úgy
általánosan az imputációval és különösen az MI-vel kapcsolatban. Megvalósítható?
Elfogadhatóak a részben szimulációval kapott válaszok? Nem keletkezik tőle extra zaj?

Általánosságban ezekre a kérdésekre az a válasz adható, hogy bár egy gondosan megtervezett
imputáció - különösen, ha MI - munkaigényes mégis sokat nyerhetünk vele. Hogy Rubint
idézzem: „Too much work relative to doing what?" (Rubin, 1996:480). Összefoglalva tehát az
MI eredmények „kézi” kombinálása valóban megterhelő, de mégis megtérülő munka,
szemben azzal mintha érvénytelen módon kezelnénk az adathiányt. Fontos kiemelni, hogy az
„átlag imputálás, a figyelmen kívül hagyás vagy a rendelkezésre álló esetek elemzése
statisztikailag semmilyen általánosságban nem érvényesek, még az átlagok, varianciák stb.
pontbecslésére sem” (saját fordítás, Rubin, 1996:480).

Nézzünk egy egyszerű példát az átlag imputálásra, amivel egy később tárgyalt többszörös
imputációs eljárást készítek elő. Vegyünk hat embert, akiknek ismerjük a korát (év),
tudományos munkatapasztalatát (év) és a fizetését (aranytallér), ezek a következőképp
alakulnak (bal oldali táblázat):

ID Kor Tapasztalat Fizetés ID Kor Tapasztalat Fizetés


1 25 1 50 1 25 ? 50
2 27 3 80 2 27 3 ?
3 29 5 110 3 29 5 110
4 31 7 140 4 31 7 140
5 33 9 170 5 33 9 170
6 35 11 200 6 ? 11 200

1. táblázat: A „valóság” (balra) és az adathiányos esetek (jobbra)

Forrás: Toshniwal (2020) alapján saját szerkesztés


Most tekintsük úgy, hogy nem ismerjük az 1-es válaszadó munkatapasztalatának hosszát, a 2-
es válaszadó fizetését és a 6-os válaszadó életkorát (jobb oldali táblázat).

14
Vegyük úgy, hogy nem vagyunk jártassak az imputációs eljárások kapcsán és úgy gondoljuk
kipróbáljuk az átlag imputálást:

ID Kor Tapasztalat Fizetés


1 25 7 50
2 27 3 134
3 29 5 110
4 31 7 140
5 33 9 170
6 29 11 200

2. táblázat: Az átlag imputálás eredménye

Forrás: Toshniwal (2020) alapján saját szerkesztés


Még abban az esetben is, ha nem ismerjük az eredeti értékeket (most abban a nem szokványos
helyzetben vagyunk, hogy még erre is rálátásunk van) érezhetjük, hogy ez az imputálási eljárás
sántít. Nézzük például az 1-es válaszadót, 25 évesen nehezen lehet valakinek 7 év tudományos
munkatapasztalata és 7 év tapasztalat mellé igen szerény 50 aranytalléros fizetése (itt 6 évvel
lőttünk az eredeti érték mellé). A 2-es válaszadónak pedig a szerény 3 éves munkatapasztalata
mellé igen busás juttatás tartozik, itt 54 aranytallért tévedünk az imputálás által. Az 1-es
válaszadóhoz hasonlóan a 6-os válaszadó szintén szemtelenül fiatal 11 év tudományos
munkatapasztalathoz, itt 6 évvel lőttünk alá. Természetesen, ha esetleg csak a változók átlagát
nézzük, vagy végig gondoljuk az előbbi gondolatmenetet az adatok csak a meglévő – elérhető
- értékek mentén történő elemzésével, láthatjuk, hogy egyik út sem kecsegtető. Ez máris
eggyel több ok arra, hogy még jobban meg akarjuk ismerni a többszörös imputálásban rejlő
lehetőségeket – sőt hamarosan az eddig tárgyalt példát is folytathatjuk.

Ahhoz tehát, hogy vizuálisan jobban el tudjuk képzelni a többszörös imputációt érdemes
szemügyre vennünk a következő ábrát:

15
3. ábra: A többszörös imputáció logikája

Forrás: Schafer és Olsen, 1998:547

Mint ahogy a fentebbi ábrán is látható a többszörös imputáció során a hiányzó értékek (?-el
jelölve) helyére m darab (az imputációk számának megfelelő) imputált érték kerül. Az
imputációs eljárás eredménye m darab különböző adatbázis, amelyekkel megragadhatóvá
válik az adatokban rejlő bizonytalanság.

Rubin számításai alapján a többszörös imputáció hatékonyságáról egy szemléletes ábrát is


láthatunk (γ a hiányzó információk aránya és m az imputációk száma):

4. ábra: A többszörös imputáció hatékonysága

Forrás: Schafer és Olsen, 1998:548

Mint az ábrán is láthatjuk egészen jelentős információhiány esetén is meggyőző relatív


hatékonyságot érhetünk el – végtelen számú imputáció hatékonyságához képest - a
többszörös imputáció alkalmazásával. Azonban az is észrevehető, hogy csekély
információhiány esetén a hatékonyság növekedése sem jelentős, tehát ekkor vagy dönthetünk
úgy, hogy kevesebbszer végezzük el az imputációt, vagy ha indokoltnak látjuk választhatunk
másik imputációs technikát is.

16
A fentebbi táblázat értékeit a következő képlettel számolhatjuk ki:

𝛾 −1
(1 + )
𝑚

Itt – mint már korábban említésre került - γ a nemválaszolásból származtatott hiányzó


információk becsült aránya és m az imputációk száma. De hogyan származtatható γ? Ez
lényegében nem más, mint az imputációk közötti (B) és a teljes variancia8 (T) hányadosa.
(Oravecz, 2008) (Schafer és Olsen, 1998) Tehát:

(1 + 𝑚−1 )𝐵
𝛾=
𝑇

Visszakanyarodva a többszörös imputáció elvégzésére: erre különféle eljárásokat


alkalmazhatunk, azonban természetesen fontos megjegyezni, hogy kizárólag olyan technikát
érdemes választani, ami tartalmaz valamilyen „véletlenítést”. Hiszen például egy hibatag
nélküli imputáció (pl. átlag imputáció) minden egyes esetben ugyanazt az eredményt adná, így
ismétlése felesleges volna. A többszörös imputáció tehát nem egyfajta módszerként (mint pl.
középérték imputáció), hanem inkább, mint módszertani megközelítésként írható le, amely
arra törekszik, hogy úgy kezelje az adathiányt, hogy ezáltal megragadja az adatokban rejlő
bizonytalanságot is. Széles körben használt MI eljárás például az MCMC (Markov chain Monte
Carlo) (Zhang, 2003).

2.4.1. A MICE algoritmus logikája

Jelen dolgozat keretében én a MICE eljárást fogom mélyrehatóbban ismertetni, egyrészről


mivel igen széleskörben elterjedt eszközkészletről van szó, másrészről mivel a gyakorlati
részben én is ezen módszert magába foglaló R csomaggal dolgozom. A módszer természetesen
nem a közismert rágcsálóról kapta a nevét, hanem a következő fogalmat rejti magában:
Multivariate Imputation by Chained Equations. Az eljárást úgy kell elképzelni, hogy az
algoritmus végigfut az adatkészleten és oly módon imputálja az adathiányt, hogy a soron
következő változók imputálásához a már előzőleg imputált változók kerülnek felhasználásra.
Ez a folyamat (iteráció) optimális esetben addig tart míg be nem áll a konvergencia, tehát az
iterációk közötti eltérések már minimálisnak tekinthetők. Azért optimális esetben, mert nincs
egyértelmű módszer annak meghatározására, hogy konvergált-e az algoritmus, ugyanakkor

8
A véges m miatt korrigált

17
elmondható, hogy az eddigi vizsgálatok szerint jellemzően már 10-20 iteráció is elegendő erre
(Wilson, 2020) (Buuren és Groothuis-Oudshoorn, 2011).

Ahhoz, hogy könnyeben átlátható legyen a MICE algoritmus működése vegyünk egy egyszerű
gyakorlati áttekintést – folytatva a korábban vizsgált és teljesítésében erősen sántító átlag
imputálásnál felhozott példát (Toshniwal, 2020 alapján): Van tehát 6 válaszadó koráról
(évben), munkatapasztalatáról (évben) és jövedelméről (aranytallérban) adatunk, azonban
sajnálatos módon az adatmátrixunk nem teljen, mindhárom változó tartalmaz 1-1 hiányzó
értéket. Mi ezeket imputálni szeretnénk, azonban láttuk, hogy az egyszerű átlag imputálással
erősen mellé lövünk a valóságnak (emlékezzünk a korábbiakra: most abban a szerencsés
helyzetben vagyunk, hogy ismerjük a hiányzó adatokat9). Korábbi tapasztalatunk alapján így a
MICE algoritmus alkalmazása mellett döntünk.

1. iteráció

Kiindulásként vegyük újra az átlag imputálást, az így felöltött adatbázist zéró adatkészletnek
nevezzük.

ID Kor Tapasztalat Jövedelem


1 25 7 50
2 27 3 134
3 29 5 110
4 31 7 140
5 33 9 170
6 29 11 200

3. táblázat: A zéró adatkészlet

Forrás: Toshniwal (2020) alapján saját szerkesztés


Ezután töröljük a kor változó sárgával jelölt átlag imputált értékét és lineáris regresszióval a
kor-t függő, a munkatapasztalatot és a jövedelmet független változóként használva becsüljük
meg a 6-os azonosítóval rendelkező válaszdó életkorát. Ez: 36,2532 év. A becsült értéket
rögzítjük a táblázat megfelelő cellájába, majd törüljük a munkatapasztalat átlag imputált
értékét (mindig balról jobbra haladunk) és szintén lineáris regresszió segítségével a kor és a

9
Az 1-es azonosítóval rendelkező válaszadónak 1 éves a munkatapasztalata, a 2-es azonosítóval rendelkező
válaszadónak 80 aranytallér a jövedelem, míg a 6-os azonosítóval rendelkező válaszadó 35 éves.

18
jövedelem változót felhasználva becslést adunk az 1-es válaszadó munkatapasztalatára. Ez
1,8538 év. Utolsó lépésként pedig a jövedelemre adunk becslést a kor és a munkatapasztalat
változó felhasználására, úgy, hogy azok természetesen már az imputált értékükkel vesznek
részt a lineáris regresszióban. A 2-es válaszadó prediktált jövedelme 72,7748 aranytallér.

Az iterációs folyamat lezárásaként vesszük a prediktált értékeket tartalmazó adatkészletünk


és a zéró adatkészlet különbségét tehát:

ID Kor Tapasztalat Jövedelem ID Kor Tapasztalat Jövedelem


1 25 1,8538 50 1 25 7 50
2 27 3 72.7748 2 27 3 134
3 29 5 110 mínusz 3 29 5 110
4 31 7 140 4 31 7 140
5 33 9 170 5 33 9 170
6 36,2532 11 200 6 29 11 200

4. táblázat: Az 1. iterációs (balra) és a zéró adatkészlet (jobbra)

Forrás: Toshniwal (2020) alapján saját szerkesztés


Ez nem más mint:

ID Kor Tapasztalat Jövedelem


1 0 -5,1462 0
2 0 0 -61,2252
3 0 0 0
4 0 0 0
5 0 0 0
6 7,2532 0 0

5. táblázat: Az első iteráció és a zéró adatkészlet különbség mátrixa

Forrás: Toshniwal (2020) alapján saját szerkesztés


Mint ahogy a fentebbi mátrixon is láthatjuk az „első” és a „zéró” adatkészletünk különbsége
még igen jelenős -ott, ahol imputálás történt -. Az iterációs folyamatot egészen addig kell az
eddig szemléltetett módon folytatni, amíg ez a különbség a 0-hoz konvergál. A 2. iterációnál
azonban már az „első” adatkészletünk válik a „zéró” adatkészletté, így ebből vonjuk ki a 2.

19
iteráció eredményeként született adatkészletet. Ezután a 3. iteráció során a 2. iteráció válik
„zéró” adatkészletté, mígnem elérünk a 4. iterációig10:

ID Kor Tapasztalat Jövedelem ID Kor Tapasztalat Jövedelem


1 25 1,0015 50 1 25 0,9999 50
2 27 3 79,9876 2 27 3 80,0007
3 29 5 110 - 3 29 5 110
4 31 7 140 4 31 7 140
5 33 9 170 5 33 9 170
6 35,0019 11 200 6 34,9998 11 200

6. táblázat: A 3. (balra) és a 4.(jobbra) iteráció adatmátrixa

Forrás: Toshniwal (2020) alapján saját szerkesztés


Különbség mátrixuk pedig:

ID Kor Tapasztalat Jövedelem


1 0 0,0016 0
2 0 0 0,0131
3 0 0 0
4 0 0 0
5 0 0 0
6 0,002 0 0

7. táblázat: A 4. iterációnál kapott különbség mátrix

Forrás: Toshniwal (2020) alapján saját szerkesztés


Jól láthatóan a 3. és a 4. iteráció különbsége már minimális, ilyen kisméretű könnyen átlátható
adatstruktúrán azt mondhatjuk, hogy az adatok lényegében konvergáltak.

Érdemes megvizsgálni azt is, hogy a valóságos adatokhoz -amiket most szerencsések vagyunk
hisz ismerünk- milyen közel kerültünk. Az 6-os válaszadó életkora 35 év, az imputált értéke
pedig 34,9998. A 1-es válaszadó 1 éves munkapasztalattal rendelkezik, imputált értéke pedig

10
Mivel jelen dolgozatnak nem tartalmi célja, hogy végig vezessen egy MICE iterálási folyamatot ezért kicsit előre
ugrottam és már csak a 4. iteráció adatait szemléltetem

20
0,9999. Végezetül pedig a 2-es válaszadó bevétele 80 aranytallér, míg imputált értéke
80,0007. Ez igen meggyőző!

Az egyszerűen átlátható szemléltető után ássunk kicsit mélyebbre (Stef van Buuren és Karin
Groothuis-Oudshoorn alapján):

Tegyük fel, hogy 𝑌 egy véletlen minta a 𝑝 – változós többváltozós eloszlásból 𝑃(𝑌|𝜃).
Feltételezzük, hogy Y többváltozós eloszlását megadja egy teljes ismeretlen paraméterekből
álló vektor 𝜃. A megoldandó probléma, hogy megkapjuk 𝜃 többváltozós eloszlását akár
explicit, akár implicit módon. A MICE algoritmus a 𝜃 poszterior eloszlását a feltételes
eloszlásokból való iteratív mintavételezésből állapítja meg a következőképpen:

𝑃(𝑌1 |𝑌−1 , 𝜃1 )

.
.
.
𝑃(𝑌𝑝 |𝑌−𝑝 , 𝜃𝑝 )

A 𝜃1 , … , 𝜃𝑝 paraméterek az adott feltételes sűrűségfüggvényekre vonatkoznak és nem


feltétlenül az „igazi” együttes eloszlás 𝑃(𝑌|𝜃) faktorizációjának eredményei. Kezdő lépésként
a marginális eloszlásokból véletlenszerűen kezdődik meg az imputálás, a t-edik iteráció során
a láncolt egyenletek iterációja egy Gibbs-mintavétel11, mely egymást követően a következő
lépeseket hajtja végre:

∗(𝑡) (𝑡−1) (𝑡−1)


𝜃1 ∼ 𝑃(𝜃1 |𝑌1𝑜𝑏𝑠 , 𝑌2 , … , 𝑌𝑝 )

∗(𝑡) (𝑡−1) (𝑡−1)


𝑌1 ∼ 𝑃(𝑌1 |𝑌1𝑜𝑏𝑠 , 𝑌2 , … , 𝑌𝑝 , 𝜃1∗(𝑡) )

.
.
.

11
A Gibbs-mintavétel az „MCMC forradalom” egyik „zászlóshajója”, lehetővé teszi bonyolult sokdimenziós
problémák lebontását, kisebb egyszerűbb feladatokra Markov-láncok felhasználásával. A megoldandó probléma,
hogy az együttes eloszlás (a poszterior) marginális eloszlásainak (egyes paraméterek) jellemzőit szeretnénk
meghatározni. Az integrálás azonban sok esetben nem vagy nehezen oldható meg. A Gibbs-mintavétellel az
együttes eloszlásból mintát veszünk a feltételes eloszlások segítségével (Kehl és Várpalotai, 2013).

21
∗(𝑡) (𝑡) (𝑡)
𝜃𝑝 ∼ 𝑃(𝜃𝑝 |𝑌𝑝𝑜𝑏𝑠 , 𝑌1 , … , 𝑌𝑝−1 )

∗(𝑡) (𝑡) (𝑡)


𝑌𝑝 ∼ 𝑃(𝑌𝑝 |𝑌𝑝𝑜𝑏𝑠 , 𝑌1 , … , 𝑌𝑝 , 𝜃𝑝∗(𝑡) )

(𝑡)
ahol 𝑌𝑗 = (𝑌𝑗𝑜𝑏𝑠 , 𝑌𝑗∗(𝑡) ) a 𝑗-edik imputált változó a 𝑡-edik iteráció során. Lássuk be, hogy az

előző 𝑌𝑗∗(𝑡−1) imputációk csak a többi változóval való kapcsolatuk révén lépnek be 𝑌𝑗∗(𝑡) –be és
nem közvetlenül. Ebből következik, hogy a konvergencia meglehetősen gyorsan
bekövetkezhet, szemben sok más MCMC módszerrel (Buuren és Groothuis-Oudshoorn, 2011).

A MICE további előnye, hogy módszertanilag igen széleskörű, lényegében bármely


változószetthez találhatunk megfelelő imputációs függvényt – többet is. Táblázatba rendezve
láthatjuk, hogy tényleg igen széles a paletta az imputációs eljárások tekintetében:

Módszer Változó mérési szintje


Predictive mean matching
bármilyen
(súlyozott is)
Véletlen minta a megfigyelt
bármilyen
értékekből
Döntési és regressziós fák bármilyen
Random forrest bármilyen
Átlag imputáció numerikus
Lineáris regresszió (ignoring
model
numerikus
error/bootstrap/predicted
values)
Bayesi lineáris regresszió numerikus
Imputation of quadratic terms numerikus
Random indicator for
numerikus
nonignorable data
Ordinális logit modell ordinális
Logisztikus regresszió (bootsrap-
dichotóm
el is)

22
Polytomous logisztikus
nominális
regresszió
Lineáris diszkriminancia analízis nominális

8. táblázat: A MICE csomag imputációs függvényei

Forrás: Saját szerkesztés a MICE csomag leírása alapján12

Ahhoz, hogy az általam vizsgált problémához megtaláljam a legmegfelelőbb imputációs


függvényt mintegy tucat eljárást teszteltem azzal kapcsolatban, hogy hogyan teljesítenek a
szimulált jövedelem adathiányon13. Végül minden szempontból a predictive mean matching
teljesített a legjobban14, vele szemben szoros küzdelemben maradt végül alul a bayesi lineáris
regresszió. A predictive mean matching fő előnyének bizonyult – szemben a többi tesztelt
eljárással szemben15 -, hogy pontosabban vissza tudta adni a jövedelem változó szóródását,
kisebb abszolút eltérés mellett – de erről bővebben a gyakorlati fejezetben. Most viszont
fontos kitérnünk arra, hogy mi is az a „Predictive mean matching?”

2.4.2. Predictive mean matching

A predictive mean matching a hot deck imputációs eljárások közé sorolható. Az eljárás során
prediktáljuk16 Y célváltozó értékeit, majd minden egyes hiányzó érték esetében kijelölünk kis
számú donor csoportot (általában d = 3-10 főt17) az adathiány mentes esetekből. A donorokat
úgy választjuk ki, hogy a prediktált értékeik a legközelebb legyenek az adathiányos eseteknél
prediktált értékekhez. Ezután véletlenszerűen kiválasztunk egyet a donorok közül és az ő Y
változón felvett valós értékével helyettesítjük a hiányzó értéket (Buuren, 2018). Tehát:

12
https://cran.r-project.org/web/packages/mice/mice.pdf
13
A korrektség jegyében természetesen a már végleges formula szerint 100 szimulált adathiányon
14
Marshall, Altman, Royston és Holder is hasonló eredményekre jutott 2010-ben szimulált adatokon történő
vizsgálatuk során
15
Kétségkívül nagyon izgalmas lenne tüzetesebben – nem csak említés szintjén - végig vizsgálni az összes releváns
imputációs eljárás hatékonyságát, ez azonban egy jóval nagyobb hangvételű elemzés kereteit igényelné.
16
Erre a MICE alapbeállítás szerint lineáris modellt használ
17
A MICE esetében alapbeállítás szerint d = 5

23
Azt a d darab válaszadót keressük, ahol |𝑦̂𝑖 − 𝑦̂𝑗 | minimális és közülük véletlenszerűen
választunk egyet, majd az ő értékével kezeljük az adott adathiányt18. Annak orvoslására, hogy
az imputált értékünk ne legyen egyenlő a donortól kölcsönzöttel Tim P. Morris, Ian R. White
és Patrick Royston a következő javaslattal állt elő: vegyük a |𝑦̂𝑖 − 𝑦̂𝑗 |-nél keletkezett
maradékot és ezt adjuk hozzá az imputált értékhez. Ezzel megoldhatjuk az imputációk
változékonyságával kapcsolatos aggályokat (Morris et al., 2014).

A predictive mean matching előnye, hogy széles körben használható – alacsony és magas
mérési szinten is -, az imputálás során pedig reális, valós értékek kerülnek a hiányzó értékek
helyére19. További előnye, hogy a módszer kellőképpen robusztus, így nem érzékeny Y változó
transzformációjára pl. logaritmizálás. Hátránya azonban, hogy kis minta esetében megnő egy
adott donorérték túlhasználásának a veszélye- ezt a donorkészlet (d) méretének
csökkentésével próbálhatjuk kezelni. Szintén problémát okozhat még, ha nagyon nagy méretű
(>50%) az adathiány, - ez azonban már jellegzetesen minden imputációs technika számára
akadályt jelent - (Buuren, 2018).

18
A predictive mean matching során a megfelelő donor kiválasztására létezik pár másik, de a fő gondolatmenettől
lényegesen nem eltérő eljárás is. Ezekről bővebben ír Stef van Buuren – Flexible Imputation of Missing Data,
Second Edition c. könyvében Univariate missing data c. fejezetében
19
Szemben pl. regressziós imputáció során könnyen kaphatunk nem valós, értelmetlen, akár negatív értéket is

24
3. Az adatok előkészítése
A többszörös imputáció szimulációs vizsgálatára a TÁRKI Háztartás Monitor 2015-ös
adatbázisát használtam fel. Jelen adatbázist a tervezett vizsgálathoz megfelelően
előkészítettem, majd az adatbázisból származtatott szimulált adathiányon teszteltem a
többszörös imputáció hatékonyságát. A többszörös imputáció hatékonyságát egyrészről más
imputációs technikákhoz (elérhető esetek, átlag, lineáris regresszió és PMM nem MI
keretében), másrészről pedig a valós adatoktól való eltéréshez képest mértem. Az
imputáláshoz a jövedelem változót választottam. Ennek oka, hogy a személyes és háztartás
jövedelemre vonatkozó kérdéseknél gyakran fordul elő item nonresponse, így rendszeresen
előtérbe kerülő problémáról beszélhetünk. Továbbá szinte minden survey felmérés tartalmaz
valamilyen az anyagi helyzetre vonatkozó kérdéskört, az itt fellépő adathiány pedig torzítja a
jövedelem megoszlásának becslését.

Annak oka, hogy valaki nem szolgáltat információt a jövedelméről kettős lehet, egyrészről
lehet, hogy nem akarja elárulni a kutatók számára anyagi helyzetét. Másrészről azonban –
főképp a háztartásjövedelem esetében – előfordulhat, hogy nincs pontos képe a kérdésről és
nem akar pontatlan adatot szolgáltatni, így inkább nem válaszol (Yan és Jans, 2010). A
jövedelmet mérő kérdéseket a szenzitív kérdésekhez soroljuk, hisz a „válaszadók úgy
érezhetik, hogy ez egyszerűen nem tartozik a kutatóra” (saját fordítás, Yan és Jans, 2010:146).

A jövedelem kérdésnél keletkező item nonresponse-t megpróbálhatjuk megelőzni, például


úgy, hogy a nyitott kérdésre érkező nemleges válasz után megpróbálkozunk zárt kategoriális
kérdéssel is. Ugyanakkor, ha nem sikerül megelőznünk a problémát, kezelnünk kell és
természetesen jelen dolgozatban erre koncentrálok.

3.1. Az adatbázis előkészítése


Ahhoz, hogy a többszörös imputáció gyakorlati alkalmazását megvizsgálhassam, először egy
megfelelő adatbázist kellett előkészítenem. Egy olyan etalon adatbázist hoztam létre, amely
teljes mértékben adathiány mentes, majd ezen adatbázison mesterséges – de az előzetesen
felállított szempontoknak megfelelő – adathiányt hoztam létre. Az etalon adatbázisnak
köszönhetően a koordinált adathiányon végrehajtott többszörös imputáció jóságát mérni
tudtam.

25
Első körben a TÁRKI adatbázisán kiszűrtem azokat a válaszadókat, akiknek nincs jövedelme (n
= 955), mivel egy olyan etalon adatbázis létrehozása volt a cél, ahol a célváltozó minden
válaszadó esetében releváns. Azon válaszadók körében, akik feltehetően rendelkeznek
jövedelemmel (n = 5266) 18,6%-os adathiány volt jelen (megtagadja a válaszolást vagy nem
tudta a választ). Az ő válaszaik is törlésre kerültek, a fentebb említett kritérium végett,
valamint törlésre került minden olyan eset is, amely tartalmazott adathiányt a jövedelmet -
általam meghatározott - magyarázó változók valamelyikén20. Szerencsére a TÁRKI Háztartás
Monitor egy nagymintás kutatás, így még ezen tisztítás után is 3966 válaszadó bőséges adata
állt rendelkezésemre. Ezt az adatbázist tekintem a továbbiakban az „eredeti” viszonyítási
pontnak, avagy etalon adatbázisnak. Jelen adatbázis a téma szempontjából a következő
releváns változókat tartalmazza:

Változónév Leírás Mérési szint Szintek száma


A kérdezett
eazon15 egyéni Nincs Nincs
azonosítója
A háztartás
htsz Magas Nincs
létszáma
A kérdezett
neme Alacsony 2
neme
A kérdezett
isk iskolai Alacsony 11
végzettsége
A kérdezett
kor Magas Nincs
életkora
A kérdezett
jov Magas Nincs
jövedelme
A település
teltip21 Alacsony 4
típusa

20
Nem, kor, iskolai végzettség, háztartás mérete, település típusa
21
Természetesen az imputálás során a teltip változó dummy-ként került bevonásra a lineáris modellekbe

26
Életszínvonallal
eletsz való Alacsony 11
elégedettség

9. táblázat: Az etalon adatbázis szerkezete

A következőkben ezen adatbázison egy MAR típusú adathiány generálását céloztam meg a
kérdezett jövedelmével kapcsolatban, ennek generálási folyamatához egyrészről a TÁRKI
adatbázisban rejlő mintázatokra, másrészről szakirodalmi háttérre támaszkodtam.

3.2. A MAR típusú jövedelem adathiány tervezési folyamata


Ting Yan és Matt Jans időbeli elemzése szerint a kétezres évek elején javulásnak indult a
jövedelem kérdéseknél tapasztalható item nonresponse aránya. A 20 évet felölelő (1986-
2005) vizsgálat szerint a kétezres évek közepén nyitott kérdések esetén 15% körüli, míg zárt
kérdések esetén körülbelül fele ekkora mértékű item nonresponse volt megfigyelhető22 (Yan
és Jans, 2010). Ahhoz, hogy a jövedelemhez kapcsolódó adathiány mintázatokat jobban
megismerjem a TÁRKI adatbázisban bináris logisztikus regressziós elemzést végeztem. Azért
is a logisztikus regresszióra esett a választásom mivel így nyomon tudom követni a
nemválaszolás valószínűségét is az Exp(B) alias odds ratio alapján.

Az elemzéshez készítettem egy dummy változót, aminek az értékei a következők:

0 – nincs adathiány a jövedelem változóval kapcsolatban


1 – adathiány van jelen a jövedelem változóval kapcsolatban

Ezután lefuttattam a regressziót a következő független változók felhasználásával: nem, kor,


iskolai végzettség, háztartás mérete és település típusa – mivel a szakirodalmi háttér alapján
főként ezen (számomra is elérhető) változók mentén lehet megragadni a jövedelemmel
kapcsolatos nemválaszolást – és ez az én elemzésem során is beigazolódott -. Fontos még
megemlíteni, hogy jelen változószettet (a nem kivételével) három kategóriájú ordinális

22
Ők az SCA adatait vizsgálták, ahol elmondásaik alapján jellemző a némileg alacsonyabb az item nemválaszolási
arány

27
változóvá alakítottam - ennek a későbbiekben lesz jelentősége. A bináris logisztikus regresszió
eredménye a következő23:

Változó Kategória Odds ratio Sig.


Fiatal (-30 éves) 2,127 0,000
Életkor Középkorú (31-50) 1,164 0,086
Idős (+51 éves) - -
Nő - -
Neme
Férfi 1,233 0,004
Alapfokú - -
Iskolai végzettsége Középfokú 1,597 0,000
Felsőfokú 2,405 0,000
Kisméretű (1-2 fő) - -
Háztartás mérete Közepes (3-4 fő) 0,984 0,850
Nagyméretű (+5 fő) 1,370 0,006
Budapest - -
Megyeszékhely-
Település típusa 2,401 0,000
város
Község 2,285 0,000

10. táblázat: A logisztikus regresszió eredményei

Az eredményeim szerint életkor tekintetében az idősekhez képest a fiatalkorúakra a


legjellemzőbb a válaszmegtagadás. Ők 2,1-szer akkora eséllyel nem válaszolnak, mint az idős
kérdezettek (míg, a középkorúak és az idősek között nincs szignifikáns eltérés). A férfiak
szintén kisebb valószínűséggel adnak választ a jövedelmükkel kapcsolatos kérdésre, a nőkhöz
képest a válaszmegtagadás esélye 1,2-szeres. Iskolai végzettség tekintetében elmondható,
hogy minél magasabban kvalifikált valaki, annál valószínűbb, hogy megtagadja a válaszadást.
Itt azt láthatjuk, hogy az alapfokú végzettséghez képest a középfokú végzettséggel rendelkező
válaszadók körében 1,6, a felsőfokú végzettséggel rendelkezők körében pedig már 2,4-szeres
a válaszmegtagadás esélye. A háztartás méretének tekintetében a kis és közepes méretű
háztartások között nem láthatunk szignifikáns különbséget, ugyanakkor a kis háztartásokban

23
Referencia kategória: életkor esetében az idős, nem esetében a nő, iskolai végzettség esetében az alapfokú,
településtípus esetében Budapest, míg háztartás méretét tekintve a kisméretű.

28
élőkhöz képest a nagy háztartásban élők már 1,4-szer akkora eséllyel tagadják meg a
válaszadást a jövedelmüket érintő kérdésre. Településtípus esetében azt láthatjuk, hogy a
Budapesten élők osztják meg legnyíltabban a jövedelmi helyzetüket, velük szemben a
megyeszékhelyen vagy városban élők 2,4-szer, míg a községben élők 2,3-szor akkora eséllyel
tagadják meg a válaszadást.

Hasonló tendenciákat figyelt meg Ting Yan és Matt Jans (2010), valamint Regina T. Riphah és
Oliver Serfling (2004) amikor a jövedelemmel kapcsolatos nemválaszolás jelenségét vizsgálták.
Fontos azonban megemlíteni, hogy az általam készített bináris logisztikus regresszió
magyarázó ereje viszonylag alacsony, a Nagelkerke R Square értéke 0,074. Ennek oka lehet,
hogy a jövedelemmel kapcsolatos item nonresponse más külső, nem vizsgált változókkal is
összefüggésében lehet, illetve függhet magától a jövedelmi helyzettől is.

3.2.1. A súly24 változó(k) megalkotása

A fentebbiekből kifolyólag a feltárt összefüggéseket mintegy viszonyítási pontként használtam


az adathiány generálásához. Az adathiány szimulálásához két súly változót készítettem, ebből
egyiket kizárólag a komplex adathiány létrehozásánál alkalmaztam – erről később ejtek szót.
A jövedelem adathiány létrehozásához R-ben a Sample parancsot használtam egy olyan súly
változó alkalmazásával, ami a logisztikus regressziós elemzésem és a szakirodalmi hattér
eredményein alapul – a súly változót SPSS-ben készítettem el -. Ahogy korábban említettem
az eredeti változók kategóriái szűkítésre kerültek25 (három kategóriával rendelkező alacsony
mérési szintű változókat képeztem), ennek fő oka az volt, hogy a súly változó értékeinek
megalkotása így vált menedzselhetővé. A súly változó értéke maximum 1, és a nem, kor, iskolai
végzettség, háztartás mérete és a település típusa alapján áll elő a következő módon:

24
Itt a súlyváltozó alatt nem a „klasszikus súlyváltozót” értem, hanem egy olyan valószínűségi változót, ami az
esetek az adatbázisból történő kidobásának valószínűségét határozza meg
25
A kor, az iskolai végzettség, a háztartás mérete és a település típusa esetében

29
Súly változó
Változó Kategória
értéke
Fiatal (-30 éves) 0,22
Középkorú (31-
Életkor 0,15
50)
Idős (+51 éves) 0,02
Nő 0,03
Neme
Férfi 0,12
Alapfokú 0,02
Iskolai
Középfokú 0,15
végzettsége
Felsőfokú 0,3
Kisméretű (1-2
0,01
fő)
Háztartás
Közepes (3-4 fő) 0,1
mérete
Nagyméretű (+5
0,2
fő)
Budapest 0,02
Település Megyeszékhely
0,1
típusa - város
Község 0,16

11. táblázat: A súly változó értékeinek meghatározása

Az egyes értékek meghatározásánál támaszkodtam a korábban feltárt eredményekre, de


némileg ráerősítettem az ott tapasztalt mintázatokra, hogy egy tényleg kihívást jelentő terep
elé állíthassam az egyes imputációs technikákat. Az öt változó mentén az adatbázisban
meglévő kombinációk alapján végül 95 különböző súly jött létre, amelyek megoszlása a
következő:

30
8%

7%

6%

5%

4%

3%

2%

1%

0%
0,1 1
A súly változó értékei

5. ábra: A súly változó értékeinek megoszlása (%)

Mint ahogy az ábrán is látható meglehetősen nagyszámú súly jött létre különböző arányokban.
A súly változó értéke minél inkább 1, annál valószínűbb, hogy az adott válaszadó megtagadta
a jövedelem kérdésre történő válaszadást. A komplex jövedelem súly változó megalkotását
azért is tartottam különösen fontosnak, mert több korábbi tanulmány áttekintésénél
tapasztaltam azt, hogy viszonylag egyszerű paraméterek mentén kerül megalkotásra a MAR
adathiány. Ezért én szerettem volna egy komplexebb, a valós folyamatokat jobban megragadó
adathiány mintázatot létrehozni. Így jelen súlyváltozó megalkotására különös figyelmet
fordítottam.

A fentebb taglalt súlyváltozó mellett létrehoztam egy kevésbé összetett súlyt is (szintén SPSS-
ben), ezt a többváltozós adathiány esetében használtam fel a demográfiai változókon. Jelen
„súly” úgy működik, hogy a nem és a település típusa szerint valószínűsíti a válaszmegtagadást
a kor, iskolai végzettség és a háztartás méretére vonatkozóan. Azért a nem és a település
típusa került itt kiválasztásra, mivel ezek jellemzően olyan paraméterek, amik automatikusan
kérdezés nélkül rögzítésre kerülnek. Jelen demográfiai súly változót úgy határoztam meg, hogy
a férfiak kétszer akkora eséllyel tagadták meg a koruk, iskolai végzettségük vagy háztartásuk
méretének megosztását. Település típus tekintetében a községen élőket vettem a

31
legnyitottabbnak ilyen szempontból, hozzájuk képest egy városban elő ¾, egy
megyeszékhelyen elő ½, míg egy budapesti ¼ akkora valószínűséggel osztotta meg
demográfiai adatait. Itt 6 különböző súly jött létre.

3.2.2. Az adathiány generálása

Az adathiány generálását már az előző fejezet során szóba hoztam, itt már R-ben dolgoztam
és a Sample parancsra támaszkodtam. A jövedelem esetében az 1. számú súly változó szerint
mintát vettem a kérdezett jövedelmét rögzítő változó elemeiből, majd a kiválasztott értékek
helyére adathiányt (NA) rögzítettem. Ezt a folyamatot egy for ciklus keretében százszor
végeztem el és az adathiányt 100 esetben öt féle eljárás szerint imputáltam. Az imputációk
hatékonyságát az adathiányos esetek két mérete szerint is megvizsgáltam, első körben a
jellemzőnek tekinthető 20%-os adathiányon, míg második körben egy extrémebb 30%-os
adathiányon is modelleztem.

A komplex adathiány esetében hasonlóképp jártam el. A jövedelem változón adathiányt


generáltam az 1. számú súly változó szerint, míg a kor, iskolai végzettség és háztartás mérete
változókon a 2-es számú súlyt szerint hagytam el értékeket. Fontos megjegyezni, hogy minden
változó adathiányát külön paramétereztem, így például attól, hogy még valaki nem árulta el a
háztartása méretét, elárulhatta a korát, iskolai végzettségét vagy épp fordítva. Az összetett
adathiány esetében is két méret szerint vizsgáltam az imputációk hatékonyságát. Itt első
körben egy 10%-os demográfiai 20%-os jövedelem, második körben pedig egy 15%-os
demográfiai és 30%-os jövedelem adathiányt hoztam létre.

32
4. A többszörös imputáció szimulációs vizsgálata
4.1. Kiértékelési szempontok
Mint korábban említésre került a jövedelem adathiány imputálásának sikerességét az etalon
adatoktól való eltérés mértékében fogom mérni, de mik is a jövedelem változó fő paraméterei,
amiket vizsgálni fogok?

Mutató Érték
Átlag 117767,51
Szórás 60098,472
Korreláció 0,437

12. táblázat: A jövedelem változó paraméterei az etalon adatbázis szerint

Egyrészről fontos figyelembe vennünk a változó átlagát, hisz az imputációk során az a célunk,
hogy minél pontosabb (torzítatlanabb) becslést tudjunk adni – jelen esetben a jövedelemre.
Szintén törekednünk kell arra, hogy a valós értékektől – pl. adott kérdezett jövedelme - a
lehető legkevésbé lőjünk félre az imputált értékeinkkel. Másrészről fontos a változó szórása
is, hisz az imputáció során a változékonyságban rejlő információn nem szeretnénk csorbítani
– ez például az egyik jelentős hátránya az egyszerű átlag imputációnak. Valamint fontos, hogy
eredetileg milyen volt a kapcsolata – együttjárása – a kezelt változónknak, egy külső, az
imputációban részt nem vevő változóval. Az imputáció során cél, hogy ez az együttjárás
lényegesen (én ezt a határt 0,05-nél húztam meg) ne változzon meg, hisz azzal falssá tennénk
az adatok eredeti mintázatát. Az etalon adatbázisban a jövedelem változó átlaga 117767,51
forint, szórása 60098,472 forint, míg a korrelációja az életszínvonallal való elégedettséggel
0,437. Az imputációk eredményeként tehát azt szeretnénk, hogy ezeket az értékeket optimális
esetben reprodukáljuk, vagy legalábbis minél inkább közelítsük őket. Ebből kifolyólag én
egyrészről megvizsgálom, hogy az egyes imputációkkal mennyire sikerül visszaadni a:

• jövedelem átlagát
• jövedelem szórását
• jövedelem és életszínvonal korrelációját

Valamint, hogy az egyes imputációk objektíven hogyan teljesítenek egymáshoz képest a


következő paraméterek szerint:

33
• abszolút átlagos eltérés az eredeti értéktől
• átlagok közötti abszolút eltérés
• szórások közötti abszolút eltérés
• külső változóval vett korreláció közötti abszolút eltérés

A fentebbi mutatókat azért érdemes abszolút értékben véve vizsgálni, mert így nem tudják a
negatív és pozitív értékek kiegyenlíteni egymást. Jelen elemzés során én 100 imputáció adatait
elemzem egyidejűleg az egyes mutatók átlagát nézve (95%-os bootstrap konfidencia
intervallummal), itt könnyen előfordulhatna, hogy pl. egy adott imputációs technika néha a
valódi érték felé néha alá lőne. Ez átlagban akár tökéletesnek hathatna, szemben egy olyan
eljárással, ami konzekvensen egy egész kicsivel, de mindig a valós érték pl. szórás, átlag felé
lő. Habár az első felvázolt esetben a szélesebb konfidencia intervallum árulkodó lehet
számunkra, de az abszolút értékben vett eltérés által sokkal tisztább képet kapunk.

Fontos még egyszer hangsúlyozni, hogy abban a rettentő kellemes helyzetben vagyunk, hogy
az etalon adatbázisnak hála ismerjük a valóságot. Egy éles helyzetben történő imputáció során
erre egyáltalán nincs lehetőségünk, így a fentebb taglalt mutatók egyikére se tudnánk
támaszkodni abban, hogy helyesen imputáltunk-e. Ugyanakkor jelen elemzés által képet
kaphatunk arról, hogy élesben milyen imputációs eljárással kezelhetünk hatékonyan egy
jövedelem adathiányt. Természetesen az adatok forrásából adódóan ez leginkább a TÁRKI
háztartáspanel adatbázisain kamatoztatható, de úgy gondolom, hogy az eredmények kellő
megfontolás mellett más adatokra is átültethetők.

Jelen elemzés során a szimpla jövedelem adathiány keretében én 5 imputációs eljárást fogok
szemléltetni – amikről már mind írtam a dolgozat elméleti szakaszában -, ezek a következők:

• elérhető esetek elemzése: Ez természetesen nem tekinthető valós imputációs


megoldásnak, ugyanakkor mégis széles körben használt. Az elemzés során szeretném
bemutatni, hogy ez miért helytelen.
• átlag imputáció: Szemléltetéséül annak, hogy ha már imputálunk akkor azt csináljuk
jól – ne a legegyszerűbb megoldást válasszuk.
• lineáris regresszió: Közismert és egyszerű eljárás, az elemzés során az előnyei és a
hátrányai is feltárása kerülnek.

34
• PMM: Széles körben használt komplex eljárás, amiről úgy gondoltam korrekt lenne
nem csak a többszörös imputáció keretében vizsgálni, hisz így jelentős erőforrást
spórolhatunk meg - ez természetesen némi áldozattal is jár.
• MI + PMM: A predictive mean matching többszörös imputáció keretében.

A komplex adathiány esetében ugyanakkor kénytelen voltam szűkíteni az összehasonlítási


palettán, hisz nem lenne korrekt olyan imputációs eljárásokat versenyeztetni, amik nem
tudják egyidejűleg kezelni a komplex adathiányt (pl. lineáris regresszió), olyanokkal, amik ezt
gond nélkül elvégzik (PMM). Ezen szakaszban tehát kizárólag az elérhető esetek elemzését
fogom összevetni a többszörös imputációval. A vizsgált mutatókat azonban tovább bővítem
aszerint, hogy mennyire sikerül eltalálni a kérdezett életkorát, iskolai végzettségét és
háztartásának méretét, hisz egy komplex adathiány kezelésénél a fő cél, hogy az összes
jelenlevő adathiányt egyidejűleg tudjuk megfelelően kezelni.

35
4.2. A MAR jövedelem adathiány imputálása
Jelen fejezetben az kerül bemutatására, hogy a különböző imputációs technikák hogyan
teljesítenek a szimpla jövedelem adathiányon.

4.2.1. 20%-os adathiány

Első körben egy jellemzőnek tekinthető 20%-os MAR adathiányt hoztam létre a jövedelem
változón, majd ezeket a fentebb taglalt eljárásokkal imputáltam. Az eredményeket 100
imputáció átlagaként szemléltettem 95%-os konfidencia intervallummal. Vegyük szemügyre,
hogy az 5 imputációs technikával milyen képet kapunk a jövedelem átlagáról, szórásáról és a
külső változóval vett korrelációjáról26:

Módszer Átlag Szórás Korreláció

Elérhető esetek
116161 58250 0,4386
elemzése
116067 -
CI. 95% 58005 - 58494 0,4371 - 0,44
116255

Átlag imputáció 116161 52100 0,392

116067 -
CI. 95% 51882 - 52319 0,3906 - 0,3935
116255
Lineáris
118010 54664 0,4273
regresszió
117929 -
CI. 95% 54446 - 54883 0,4261-0,4286
118092
Predictive mean
117659 59608 0,4016
matching
117537 -
CI. 95% 59266 - 59951 0,3997-,4035
117782

26
Az ábrákon – a korreláció kivételével – a tizedesjegyek nem kerültek feltüntetésre, hogy segítsem a nagy
mennyiségű számadat áttekinthetőségét.

36
MI + PMM 117604 59513 0,4016

117516 -
CI. 95% 59212 - 59815 0,4001-0,4032
117693

13. táblázat: 20%-os jövedelem adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal

Mint ahogy a fentebbi táblázatban is látható abban az esetben amikor csak a meglevő
adathiány mentes esetekre koncentrálunk – tehát figyelmen kívül helyeztük az adathiányt -,
mind a jövedelem változó átlagáról, mind pedig szórásáról torz képet kaptunk. Mind a 100
vizsgált esetben alulbecsüljük a jövedelem átlagát, amit így átlagosan 116160,7 forintra
tehetünk (CI. 95% 116066,6-116254,8). Hasonlókép a változó szóródását is alulbecsüljük, ez a
100 vizsgált adathiány szerint átlagosan 58249,7525 forint, 95%-os konfidencia intervallum
szerint pedig 58005,4 és 58494,1 forint közé eshet. Egyedül a külső változóval való korreláció
tekintetében teljesít meggyőzően a módszer, itt mindössze minimálisan lövünk a valós érték
felé (CI. 95% 0,437-0,44). Elmondható tehát, hogy az elérhető esetek elemzése már egy
egyszerű 20%-os MAR adathiány esetében sem jó megoldás, hisz torzításhoz vezet, így
indokolt az adathiányt imputálni.

Ugyanakkor, ha szemügyre vesszük az átlag imputáció eredményeit láthatjuk, hogy egyáltalán


nem mindegy hogyan tesszük ezt. Az átlag imputáció által ugyanis iszonyúan félre hordtuk a
változó szórását, ami így 100 imputáció szerint átlagosan 52100,2 forint (CI. 95% 51881,6-
52318,7) – emlékeztetőül az eredeti érték 600098 forint -, illetve a külső változóval vett
korreláción is erős csorbát ejtettünk, ez átlagosan 0,392-re jött ki. A tanulság könnyű szerrel
levonható, ne alkalmazzunk túl egyszerű imputációs technikákat, mert azzal csak ronthatunk
azon, amin javítani szeretnénk.

A következő vizsgált technika a lineáris regresszió, ami bár az egyszerűbb és közismertebb


eljárások közé tehető a jövedelem átlagának rekonstruálásában mégis meglehetősen
megbízhatóan teljesített. A 100 imputáció alapján átlagosan 118010,4 forintra volt tehető a
jövedelem változó átlaga, tehát itt enyhe felfelé történő torzításról beszélhetünk (CI. 95%
117929-118091,8). Viszonylag épségben maradt a jövedelem külső változóval vett korrelációja
is, ez átlagosan 0,427 (CI. 95% 0,426-0,4286), tehát némiképp gyengébbnek látjuk az

37
együttjárást a valósnál (0,437). Jelentősebben alá becsülte ugyanakkor a lineáris regresszió a
jövedelem változó szórását 54664,5 (CI. 95% 54446,4-54882,6), itt persze joggal felmerülhet
bennünk, hogy miért nem alkalmazunk akkor valamilyen véletlenítést tartalmazó, komplexebb
lineáris regressziós eljárást pl. bayesiánus lineáris regressziót? Ebben az esetben azt
várhatnánk, hogy a változó szórásáról is torzítatlanabb képet kapunk, ennek ugyanakkor ára
is lenne. Egyrészről a korreláció, másrészről pedig az egyes valós értékektől vett abszolút
eltérés tekintetében – ebben pedig az egyszerű lineáris regresszió teljesített a legjobban (lásd
14. táblázat). Továbbá egy ilyen összetetteb lineáris regressziós imputáció kivitelezése már
pontosan ugyanakkora szakértelmet kívánna, mint a predictive mean matching megvalósítása
– és mint arról korábban szó esett utóbbi jelen adathiány struktúrán jobban teljesített. Így az
eddig taglaltakból kifolyólag döntöttem amellett, hogy a bizonyos tekintetében megnyerően
teljesítő egyszerű lineáris regresszió kerül szemléltetésre szakdolgozatomban.

Rátérve a PMM-re elmondható, hogy a 100 imputációt tekintve a valós jövedelem átlag
(117767,51) beleesik a 95%-os konfidencia intervallumba (CI. 95% 117659,2-117782,7), tehát
a jövedelem átlag becslésére jellemzően minimálisan torzító vagy akár torzítatlan becslést is
kaphatunk. Szintén jól sikerült reprodukálni a változó valódi szórását is (CI. 95% 59265,9-
59951,1), ugyanakkor a módszer hátrányának mutatkozott, hogy a korrelációnál a változók
együttjárását gyengítette (CI. 95% 0,399-0,403) – de még így is az előzőleg meghatározott
0,05-ös eltérés alatt maradunk (14. táblázat).

Ha többszörös imputáció keretében vizsgáljuk a PMM-et azt láthatjuk, hogy nincsenek jelentős
eltérések a többször imputáció javára (lásd 13. táblázat), így joggal felmerülhet bennük, hogy
miért is járnánk a nehezebb utat? A kérdésre a válasz azonban roppant egyszerű. Jelen
helyzetben 100 imputációt vizsgálunk együttesen, így minden módszer köré tudunk
konfidencia intervallumot állítani. Azonban, ha egy egyszeri PMM-et állítanánk szembe egy
többszörös imputáció keretében kivitelezett PMM-el, akkor már lényegében egy pontbecslés
állna szemben egy intervallummal becsléssel. Pontbecslést tenni pedig igen erős állítás, hisz
elég reménytelen, hogy pontosan eltaláljuk a valóságot – éles imputáció során pedig nem
tudjuk mi a valóság. Azáltal tehát, hogy többszörösen imputálunk jóval nagyobb esélyünk van
közel kerülni a valósághoz, mintha csak egyszer kezelnénk az adathiányt. Példának okáért
egyszeri PMM-el azt kapjuk, hogy a jövedelem változó átlaga 117995,11 forint, szórása
62009,76 forint, külső változóval vett korrelációja 0,39. Ezzel szemben a többszöri imputáció

38
keretein belül már azt mondhatjuk, hogy 95%-os megbízhatósági szint mellett a jövedelem
változó átlaga 117499,17-118989,89 forint, szórása 59535,18-62286,76 forint, korrelációja
pedig 0,386-0,402 közé esik – itt történesen a korreláció kivételével mindegyik konfidencia
intervallum magába foglalja a valódi értéket is. Így - utalva arra, amit Rubin mondott - a
gyakorlatban is beláthattuk, hogy egyetlen egy imputáció nem lehet jó megoldás, hisz nem
ismerjük mi a valóság.

Most pedig vegyük szemügyre, hogy az egyes imputációs technikák hogyan teljesítettek
abszolút értékben vett mutatók szerint:

Szórások Korrelációk
Értékek közötti Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés abs. eltérés
eltérés eltérés
Elérhető esetek
- 1607 1879 0,0058
elemzése

CI. 95% - 1513 - 1701 1643 -2114 0,0048 - 0,0067

Átlag imputáció 46110 1607 7998 0,0448

CI. 95% 45819 - 46401 1513 - 1701 7780 - 8217 0,0433 - 0,0463

Lineáris
36473 366 5434 0,0099
regresszió

CI. 95% 36224 - 36723 306 - 427 5216 -5652 0,0088-0,011

Predictive mean
49104 486 1402 0,0352
matching

CI. 95% 48764 - 49444 408 - 564 1181 - 1622 0,0334-0,0371

MI + PMM 49294 385 1199 0,0352

CI. 95% 49099 - 49488 331 - 440 981 - 1416 0,0336-0,0367

39
14. táblázat: 20%-os jövedelem adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

A valódi és az imputált értékek közötti eltérés esetében átlagosan a lineáris regresszió


teljesített a legjobban. Abszolút értékben nézve itt a legalacsonyabb az említett eltérés (CI.
95% 36224,2-36772,52). Ezt némileg meglepő módon az átlag imputáció követi (CI. 95%
45819,33-46400,58), míg a PMM és a MI+PMM esetében szignifikánsan nagyobb 49000 forint
körüli átlagos eltéréssel kell számolnunk. Amikor tehát imputációs technikát választunk
figyelembe kell vennünk azt, hogy a véletlenítést alkalmazó technikáknak árnyoldala is van, ez
pedig a valódi értékektől nagyobb átlagos eltérésben és a külső változókkal vett
együttjárásban is megmutatkozik. Az elérhető esetek elemzése ilyen szempontból
természetesen értékelhetetlen, hisz itt nem végzünk valódi imputációt, hanem az adathiányt
egyszerűen figyelmen kívül hagyjuk.

Az átlagok (valós és imputált jövedelem átlag) közötti abszolút eltérés esetében a lineáris
regresszió, a PMM és a MI is egyaránt meggyőzően teljesített, jellemzően ~300-600 forint
körüli eltérést tapasztalhatunk. A három módszer ilyen szempontú hatékonyságában nem
térnek el szignifikánsan egymástól, hisz 95%-os megbízhatósági szint mellett a konfidencia
intervallumok összeérnek. Abban az esetben pedig, ha nem megfelelően imputálunk vagy az
elérhető esetek elemzésére hagyatkozunk megközelítőleg mintegy négyszer nagyobb eltérést
kapunk.

Szórás tekintetében kiemelkedően a PMM és a PMM + MI teljesít a legjobban, mindkét eljárás


szignifikánsan kisebb eltérést produkálva, mint az elérhető esetek elemzése. Az elérhető
esetek elemzése esetében 1643,45-2113,53 forint körüli eltérést tapasztalhatunk a valódi
szóráshoz képest. Ennél jelentősen rosszabb mutatóval rendelkezik a lineáris regresszió (CI.
95% 5215,89-5652,1), míg legmegbízhatatlanabbnak az átlag imputálás bizonyult (CI. 95%
7779,8-8216,83).

A korreláció tekinthető az egyetlen olyan mutatónak, ahol az elérhető esetek elemzése


meggyőzen teljesít – ennek oka abban kereshető, hogy az adathiány mérete nem olyan
jelentős, hogy erőteljesen befolyásolja a két változó kapcsolatát – ugyanakkor a többi
imputációs technika által imputált értékek már jelentősebb hatást fejtenek ki megváltoztatva
az adatszerkezetet. Az AC esetében tehát az abszolút értékben vett eltérés igen csekély,
0,0048-0,0067 közé tehető a 100 vizsgált adathiány alapján. Hasonlóan jól teljesített a lineáris

40
regresszió is, itt 0,0088-0,011 közötti eltérés valószínűsíthető. A korrelációnál tapasztalható
eltérés másik végpontját az átlag imputálás adja, itt tapasztalhatjuk a legnagyobb eltéréseket.
A PMM és a MI + PMM a „középmezőnyben” helyezkedik el átlagosan 0,035-ös eltérést
produkálva.

4.2.2. 30%-os adathiány

A következőkben emeltem a hiányos adatok arányán, 30%-ra tornázva az adathiány mértékét.


A cél az volt, hogy megvizsgáljam, hogy egy tovább nehezített terepen hogyan teljesítenek az
egyes eljárások.

Módszer Átlag Szórás Korreláció

Elérhető esetek
115030 57099 0,4397
elemzése
114898 -
CI. 95% 56797 - 57401 0,4377 - 0,4418
115161

Átlag imputáció 115030 47768 0,3677

114898 -
CI. 95% 47515 - 48021 0,3658-0,3695
115161
Lineáris
118095 51803 0,4223
regresszió
117964 -
CI. 95% 51542 - 52064 0,4206-0,4241
118227
Predictive mean
117477 59228 0,3838
matching
117319 -
CI. 95% 58794 - 59661 0,3814-0,3862
117635

MI + PMM 117476 59243 0,3838

117331 -
CI. 95% 58880 - 59607 0,3820-0,3856
117621

41
15. táblázat: 30%-os jövedelem adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal

Elmondható, hogy az elérhető esetek elemzésének „módszere” a nagyobb adathiány hatására


még megbízhatatlanabb lett. A jövedelem változó átlagát a 100 vizsgált adathiány alapján
114897,92-115161,49 forint közé, míg szórását 56796,97-57401,27 forint közé tehetnénk,
holott a valódi értékek több ezer forinttal magasabbak: 117767,51, valamint 60098,472 forint.
Ugyanakkor a jövedelem és az életszínvonal változó korrelációját továbbra is meglehetősen
megbízhatóan sikerült eltalálni, itt 0,438-0,0442 közé tennénk az értéket, ami csak enyhén
felfelé torzított a valódi értékhez (0,437) képest.

Az átlag imputációra nem térnék ki részletesebben, mint ahogy a 15. táblázaton is látható a
jövedelem átlagára, szórására és korrelációjára sem tudunk általa torzítatlan vagy akár
kevéssé torz becslést adni.

A lineáris regresszió bár továbbra is kicsivel felül becsüli a jövedelem átlagot a 100 imputált
adathiány alapján nem szállt el, lényegében tudja hozni az előző 20%-os adathiánynál
tapasztalt teljesítményt. Jelentősebben alul becsüli azonban a változó szóródékonyságát, itt
már lényegesen alul marad a predictive mean matchinggel, sőt még az elérhető esetek
elemzésével szemben is. Ugyanakkor a valós imputációs technikák tekintetében még mindig a
legkisebb torzítással adja vissza külső változóval vett korrelációt (CI. 95% 0,421-0,424).

A PMM és a MI továbbra is kicsivel alá lő a jövedelem átlagnak, de teljesítményük nem


csökkent jelentősen a 20%-os adathiányhoz képest, hasonlóan igaz ez a szórás esetében is.
Ugyanakkor fontos megemlíteni, hogy a korrelációnál tapasztalható együttjárás mértéke már
jelentősebben alacsonyabb, de ehhez előbb vegyük szemügyre a 16. táblázatot:

Szórások Korrelációk
Értékek közötti Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés abs. eltérés
eltérés eltérés
Elérhető esetek
- 2738 3004 0,0089
elemzése

CI. 95% - 2606 - 2870 2704 - 3304 0,0078-0,0101

42
Átlag imputáció 45745 2738 12330 0,0691

CI. 95% 45532 - 45961 2606 - 2870 12077 - 12583 0,0673-0,0710

Lineáris
36080 610 8295 0,0148
regresszió

CI. 95% 35911 - 36250 528 - 692 8034 - 8556 0,0131-0,0164

Predictive mean
49012 645 1884 0,0530
matching

CI. 95% 48771 - 49254 536 -754 1608 - 2161 0,0506-0,0554

MI + PMM 48915 621 1607 0,0530

CI. 95% 48770 - 49060 526 - 716 1366 - 1849 0,0512-0,0548

16. táblázat: 30%-os jövedelem adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

Az eredeti és az imputált értékek közötti eltérések körében egyik imputációs technika


esetében sem történt lényegi elmozdulás a 20%-os adathiányhoz képest (lásd 14. táblázat), az
tehát, hogy az adathiány mértéke 10%-kal emelkedett nem gyakorolt negatív hatást ezirányú
teljesítményükre.

A valódi és az imputált jövedelem átlagok között azonban már minden esetben romlást
tapasztalhatunk. Abszolút értékben nézve az elérhető esetek és az átlag imputáció 100
adathiány alapján átlagosan már mintegy 2737,8 forintos eltérést produkál (CI. 95% 2606,01-
2869,58). Ezzel szemben a lineáris regresszió, a PMM és a MI+PMM jóval mintegy 4,5-szer
kisebb 600 forint körüli átlagos eltérést eredményez. Némiképp tehát ezen módszerek
megbízhatósága is romlott a 20%-os adathiányhoz képest, de a produkált eltérés így sem
jelentősen torz.

Szórás tekintetében az átlag imputáció ekkora adathiány esetében már radikálisan rosszul
teljesít az abszolút átlagos eltérés mértéke CI. 95% 12077,44-12583 közé esik. Jelentősen

43
félrehord ilyen szempontból még a lineáris regressziós imputáció (CI. 95% 8034,45-8556,51)
és az elérhető esetek elemzése is nagyobb eltérést eredményezett (CI. 95% 2703,7-3304,32).
A szórást legpontosabban a PMM (CI. 95% 1607,72-2161,14) és MI + PMM (CI. 95% 1365,75-
1849,25) tudták visszaadni az imputációk során.

Korreláció tekintetében még mindig az elérhető esetek elemzése produkálja a legkisebb


abszolút eltérést (CI. 95% 0,0078-0,0101), míg legnagyobbat az átlag imputáció (CI. 95%
0,0673-0,071). Jól teljesít ilyen szempontból a lineáris regresszió is (CI. 95% 0,0131-0,00164),
ugyanakkor a PMM és MI + PMM esetében már egy jelentősebb eltérést tapasztalhatunk.
Mindkét esetében az abszolút eltérés mértéke kicsivel meghaladja (lásd 16. táblázat) az
előzetesen általam meghúzott 0,05-ös eltérést, egy jelentősebb adathiány esetében tehát
ezzel mindenképp érdemes kalkulálni – szerencsére ugyanakkor napjainkban a hatékonyabb
kérdezési módszereknek hála már a szenzitív kérdések esetében sem szokott előfordulni
ekkora (30%) adathiány.

44
4.3. A komplex adathiány kezelése
Az egyszeri jövedelem adathiányon túl egy komplexebb, összetettebb terepen is
megmérettem a többszörös imputáció hatékonyságát. Azonban a nehezített terep fejlettebb
eszközkészletet is igényel, így itt már kizárólag a többszörös imputáció került tesztelésre27
(elkerülve az almát körtével szituációt28) azzal szemben, hogy figyelmen kívül hagyjuk az
adathiányt (elérhető esetek elemzése). Jelen fejezet során nem csak a jövedelem változó
tartalmazott adathiányt, hanem egyes demográfiai változók is, jelesül a kor, az iskolai
végzettség és a háztartás mérete. A demográfiai változókon szintén MAR típusú adathiányt
generáltam – a már szemléltetett módon -, azonban az adathiány mértéket a jövedelem
adathiány felére redukáltam. Ennek oka abban keresendő, hogy a demográfiai kérdések nem
tartoznak a szenzitív kategóriában, így az ezzel kapcsolatos adathiány kevésbé
valószínűsíthető.

4.3.1. 10/20%-os adathiány

Első körben a jellemzőnek tekinthető 20%-os MAR jövedelem adathiányt egészítettem ki egy
10%-os MAR demográfiai adathiánnyal, ismét 100 adathiányt imputálva az eredmények a
következők:

Módszer Átlag Szórás Korreláció

Elérhető esetek
116132 58137 0,4398
elemzése

CI. 95% 116021 -116242 57861 - 58413 0,4379-0,4416

MI + PMM 117552 59310 0,4

CI. 95% 117464 -117640 59005 -59617 0,3983-0,4017

27
Természetesen pl. az egyszeri PMM is bevethető ilyen szituációban, de már korábban beláthattuk, hogy ha
lehetőségünk van rá érdemesebb a többszörös imputációt választani. Így jelen fejezetben már kizárólag erre
koncentrálok.
28
Más nem MICE alapú imputációs technikákat - mint már korábban tárgyalására került - azért nem lenne korrekt
versenyeztetni a MICE módszerrel, mert pl. egy lineáris regresszió nem lenne képes egyidejűleg kezelni az összes
jelenlevő adathiányt és így hátrébbról indulna, mint a képzeletbeli startmező.

45
17. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal

Az elérhető esetek elemzésénél természetesen nem várunk eltérést a korábbi eredményekhez


(13. táblázat) képest. Hisz e módszer tekintetében lényegében annyi változás történt, hogy
100 új, de megegyező szisztematikával létrejövő jövedelem adathiányra tekintünk. Ha
összevetjük a két táblázatot jól láthatjuk, hogy mindössze hajszálnyi eltéréseket
tapasztalhatunk – jelen esetben az értékek természetesen azért lettek újra számolva az AC
esetében is, hogy megegyező adathiányról kapott mutatókkal kerülhessen összevetésre a
többszörös imputációval.

A többszörös imputációnak ugyanakkor egy nehezebb terepen kellett megméretettnie, hisz a


predikcióhoz felhasznált változószett egy része maga is adathiányos volt. Bár elmondható,
hogy átlagosan némileg csökkent a teljesítménye az egyszeri adathiányon mérthez, de ez nem
tekinthető lényeges változásnak. A komplex adathiányon a jövedelem változó átlagát 95%-os
megbízhatósági szint mellett 117464,53-117640,4 forint, szórását 59005,1-59616 forint, míg
korrelációját átlagosan 0,4-re tehetjük. Elmondható tehát, hogy a MI + PMM egy komplexebb
adathiányon is meggyőzően teljesít. Az eltéréseket abszolút értékben nézve:

Szórások Korrelációk
Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés
eltérés eltérés
Elérhető esetek
1636 2029 0,0079
elemzése

CI. 95% 1525 - 1746 1773 - 2285 0,0068 - 0,0090

MI + PMM 399 1384 0,0369

CI. 95% 343 - 456 1180 - 1589 0,0351 - 0,0386

18. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

46
Azt láthatjuk, hogy a MI + PMM átlag és szórás tekintetében is szignifikánsan kisebb abszolút
eltérést produkál, mint az elérhető esetek elemzése és csak a külső változóval vett korreláció
tekintetében marad alul, azonban itt is még az előzetesen meghatározott 0,05-ös határon
belül. Joggal felmerülhet bennünk, hogy az eljárás hogyan teljesített az egyes demográfiai
változók konkrét értékének eltalálásában is, ehhez vegyük szemügyre a következő táblázatot:

Iskolai Háztartás
Módszer Kor Jövedelem
végzettség mérete

MI + PMM 17,06 1,83 1,36 50108

CI. 95% 16,99 - 17,12 1,82 - 1,84 1,35 - 1,367 49894 - 50322

19. táblázat: 10/20%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

A kor esetében abszolút értékben nézve a 100 imputáció alapján átlagosan 17,06 évet
tévedünk (CI. 95% 16,99-17,12), az iskolai végzettség esetében 1,83 kategóriát (CI. 95% 1,82-
1,84), míg a háztartás mérete esetében 1,36 főt (CI. 95% 1,35-1,37). A jövedelem esetében
pedig a már korábban tapasztalt 50000 forint körüli eltérésre számíthatunk egy összetettebb
adathiány esetében is. De hogyan alakulna ez egy még jelentősebb adathiánynál?

4.3.2. 15/30%-os adathiány

Az utolsó vizsgált adatkészleten a demográfiai változók adathiányát 15%-ra, míg a jövedelem


adathiányt 30%-ra emeltem.

Módszer Átlag Szórás Korreláció

Elérhető esetek
115078 57009 0,44
elemzése

CI. 95% 114945 -115211 56712 -57306 0,4379-0,4422

MI + PMM 117278 58718,2343 0,3789

47
117147 -
CI. 95% 58372 -59065 0,377-0,3808
117410

20. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák által
kapott átlagok, szórások és korrelációk 100 imputáció átlagaként 95%-os konfidencia
intervallummal

Az eredmények alapján azt mondhatjuk, hogy a többszörös imputáció és a predictive mean


matching párosával sikeresen befoltozhatunk egy nagyobb adathiányt és így közelebb
kerülhetünk a megcélzott torzítatlansághoz. Sőt, ha összevetjük az egyszeri (15. táblázat) és a
komplex adathiánynál tapasztalt értékeket, azt mondhatjuk, hogy a MI+PMM jelen esetben is
megbízhatóan teljesít.

Szórások Korrelációk
Átlagok közötti
Módszer közötti abs. közötti abs.
abs. eltérés
eltérés eltérés
Elérhető esetek
2690 3100 0,0088
elemzése

CI. 95% 2556 - 2823 2807 - 3393 0,0075 - 0,0102

MI + PMM 647 1757 0,0579

CI. 95% 546 - 747 1487 - 2027 0,056 - 0,0598

21. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

A 15/30% összetett adathiány esetében az abszolút mutatók figyelembe véve sem


tapasztalhatunk lényegi eltérést átlag és szórás tekintetében az egyszeri adathiányhoz képest
(16. táblázat) a MI + PMM-nél. Valamint láthatjuk, hogy torzítatlanabb becslésre vagyunk
képesek általa, mint az elérhető esetek elemzésével. Azt érdemes ugyanakkor figyelembe
venni, hogy a külső változóval vett korreláció már átlagosan 0,0579-cel tért el a valódi értéktől.

48
Iskolai Háztartás
Módszer Kor Jövedelem
végzettség mérete

MI + PMM 17,16 1,86 1,36 50049

CI. 95% 17,1 - 17,21 1,85 - 1,87 1,357 - 1,369 49905 - 50194

22. táblázat: 15/30%-os komplex adathiány esetében az egyes imputációs technikák abszolút
értékben vett eltérése 100 imputáció átlagaként 95%-os konfidencia intervallummal

A kor, iskolai végzettség, háztartás mérete és jövedelem valódi értékeitől vett átlagos abszolút
eltérés tekintetében pedig azt láthatjuk, hogy a növelt adathiány ellenére nem történt lényegi
elmozdulás. Érdekességképp megjegyzendő, hogy a MI + PMM még drasztikus 50%-os
adathiány esetében is tudja hozni ezeket a paramétereket, azonban természetesen ilyen
mértékű adathiány irreálisnak tekinthető, így ez nem került kanonizálásra a dolgozatban.

49
5. Összegzés
Jelen dolgozat végéhez érve első körben az eredmények összegzésére, valamint az azokból
levonható következtetésekre térnék ki. A gyakorlati rész első felében megvizsgáltam, hogy egy
egyváltozós MAR típusú jövedelem adathiányt hogyan kezelhetünk különböző imputációs
technikákkal, különös figyelmet fordítva a többszörös imputációban és a predictive mean
matching-ben rejlő lehetőségekre. A szakdolgozatom gyakorlati részének másik felét a
komplex többváltozós adathiány modern technikákkal történő kezelése képezte, itt a MICE
algoritmusban rejlő lehetőségeket tárgyaltam. Mindkét esetben a következtetéseim 100
imputáció egyidejű vizsgálatából vontam le, ezáltal megteremtve az eredmények kellő
robusztusságát.

Az egyváltozós jövedelem adathiány vizsgálata alapján összegzésképp elmondható, hogy az


adatok pótlásánál fontos, hogy kellően átgondolt megfelelő imputációs függvényt válasszunk.
Az én eredményeim szerint a PMM tűnik a legoptimálisabb választásnak, hisz mind átlagban,
mind szórásban nagyon kis mértékű torzítással kell számolnunk, valamint a jellemzőnek
tekinthető item nonresponse gyakoriság (~20%) mellett a külső változóval vett kapcsolatok
sem rendeződnek át drasztikus mértékben. Továbbá elmondható, hogy amennyiben
erőforrásaink engedik érdemes a többszörös imputáció mellett dönteni, hisz nem ismerjük az
adatok eredeti mivoltát, de a MI által sokkal nagyobb bizonyosságunk van helyesen
meghatározni őket.

A gyakorlati rész második felében azt is beláthattuk, hogy a MICE algoritmussal (MI + PMM)
nagy hatékonysággal kezelhetünk komplex többváltozós adathiányokat is. Ezzel kapcsolatban
érdemes még egyszer áttekinteni az ezzel kapcsolatos adatokat (az ábrák a jellemzőbbnek
tekinthető a 10/20%-os komplex adathiány alapján készültek):

50
6. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a jövedelem változó
átlaga 95%-os konfidencia intervallummal, valamint a valós jövedelem átlag (piros vonal)

Láthattuk, hogy még komplex adathiány esetében is a MI + PMM kevéssé torzított képet ad a
jövedelem változó átlagáról (piros vonal), szemben az elérhető esetek elemzésével.

7. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a jövedelem változó
szórása 95%-os konfidencia intervallummal, valamint az eredeti szórás (piros vonal)

51
Hasonlóképp a szórás esetében is megfigyelhettük, hogy a többszörös imputációval
pontosabban visszakapjuk az eredeti változó szórását (piros vonal), azzal szemben mintha
figyelmen kívül hagynánk az adathiányt – valamint az egyváltozós adathiány esetében
korábban láthattuk, hogy a PMM más eljárásokkal szemben is igen hatékony.

8. ábra: 10/20%-os komplex adathiány esetében 100 imputáció alapján a külső változóval
vett korreláció értéke 95%-os konfidencia intervallummal, valamint az eredetileg megfigyelt
korreláció (piros vonal)

A véletlenítést alkalmazó imputációs eljárások hátrányaként mutatkozott azonban, hogy a


külső változóval való kapcsolatot – korrelációt – gyengíti az eljárás. Mint ahogy az ábrán is
láthatjuk a MI + PMM-el történő imputáció során alul becsüljük a két változó korrelációját –
azonban ez a 10/20%-os komplex adathiány esetében nem éri el az előzetesen meghatározott
0,05-ös küszöböt.

Mindezek által az eredményeim alapján én is meg tudom erősíteni a korábbi imputációval


foglalkozó tanulmányokat, miszerint az adathiányt kezelni kell, de ezt kellően átgondolt
formában kell kivitelezni (szerencsére napjainkban erre már számos eszköz áll rendelkezésre
és a számítástechnikai háttér is adott). Továbbá – és amit a dolgozat fő erényének tartok –
sikerült valós, eltérő területről származó (háztartás panel – jövedelem) adatokkal
alátámasztani, azt a korábban szimuláción és újramintavételezésen alapuló, egészségügyi
adatokon tett megállapítást (Andrea Marshall, Douglas G. Altman, Patrick Royston és Roger L.

52
Holder). Miszerint a megfelelően kivitelezett predictive mean matching az egyik legjobban
teljesítő (többszörös) imputációs technikának tekinthető.

Természetesen ugyanakkor fontos szót ejteni az eredmények érvényességi korlátairól is. Jelen
adathiány generálást és imputálást én a TÁRKI Háztartás Monitor adatbázisan végeztem,
főként az abban rejlő adathiány mintázatokra támaszkodva. Ezáltal az eredmények
általánosíthatósága korlátozott, mindezek ellenére én úgy vélem a PMM hatékonysága
kellőképp megalapozott. Összefoglalva tehát meglátásom szerint a PMM használata indokolt
jövedelem adathiány imputálása során, de ezt más adatbázison (nem TÁRKI Háztartás
Monitor) történő alkalmazása előtt érdemes lehet validálni – értem ez alatt azt, hogy hasonló
szisztéma szerint kialakított mesterséges adathiányon tesztelni az éles bevetés előtt.

Végezetül a téma további felhasználásában úgy gondolom sok lehetőség rejlik, egyrészről
mindenképp izgalmasnak tartanám – mint ahogy arra korábban utaltam is- valós
adatkészleten a többi – igen széles körű – fejlett imputációs technikák tesztelést. Másrészről
szintén érdemes lehet a PMM más adatbázison, más változón történő vizsgálata – különösen
egy friss kutatás nyomán keletkezett valós adathiányon is.

53
6. Köszönetnyilvánítás
Szeretnék köszönetet mondani mindazoknak, akik segítségemre voltak abban, hogy
szakdolgozatom jelen formájában elkészülhessen. Külön köszönet illeti konzulensemet Dr.
Kmetty Zoltán-t, akinek szakmai iránymutatása és gyakorlati támogatása nélkülözhetetlen
segítséget nyújtott. Páratlan tanácsai és ötletei hozzásegítettek ahhoz, hogy az engem
foglalkoztató témakört a megfelelő nézőpontból vizsgálhassam. Szintén köszönet illeti Tátrai
Annamáriát, aki a témában való elmélyülésem kezdeti lépeseit támogatta. Továbbá külön
köszönöm a TÁRKI-nak, hogy az elemzés alapjául szolgáló adatbázist készséggel
rendelkezésemre bocsájtották.

54
7. Irodalomjegyzék
7.1. Források
Andrea Marshall, Douglas G. Altman, Patrick Royston, Roger L. Holder (2010): Comparison of
techniques for handling missing covariate data within prognostic modelling studies: a
simulation study. BMC Medical Research Methodology 10/7.

Andrea Marshall, Douglas G. Altman, Roger L. Holder (2010): Comparison of imputation


methods for handling missing covariate data when fitting a Cox proportional hazards model:
a resampling study. BMC Medical Research Methodology 10/112.

Danis Ildikó (2012): Az adathelyettesítés modern technikája– „multiple imputation (MI)”.


Alkalmazott Pszichológia 2012/2, 56-70.

Donald B. Rubin (1987): Multiple Imputation for Nonresponse in Surveys. New York, John
Wiley & Sons.

Donald B. Rubin (1996): Multiple Imputation After 18+ Years. Journal of the American
Statistical Association, 91/434, 473-489.

Gabriele B. Durrant (2005): Imputation Methods for Handling Item-Nonresponse in the Social
Sciences: A Methodological Review. Elérhető:
https://pdfs.semanticscholar.org/d506/44d5056c2538d5ebae33e30b67f7b6b41c29.pdf
(Letöltve 2020.10.14)

Graham Kalton és Daniel Kasprzyk (1982): Imputing for missing survey responses
https://pdfs.semanticscholar.org/58f9/8fcc52333348a63b9e6dd5fabbdcc6fefe0e.pdf
(Letöltve 2020.10.14)

Hámori Gábor (2014): Predikciós célú klasszifikáló statisztikai modellek gyakorlati kérdései.
Elérhető: http://real-phd.mtak.hu/369/1/2015.007-%C3%A9tekez%C3%A9s.pdf (Letöltve
2020.10.14)

Joseph L.Schafer és Maren K.Olsen (1998): Multiple Imputazion for Multivariate Missing- Data
Problems: A Data Analyst’s Perspective. Multivariate Behavioral Research, 33/4, 545-571.

55
Kehl Dániel és Várpalotai Viktor (2013): A modern bayesi elemzések eszköztársa és
alkalmazása. Statisztikai Szemle, 91/10, 971-992.

Kmetty Zoltán (2018): Temporális és regionális összehasonlítások lehetséges torzításai Hogyan


kezeljük a nem-válaszolást? socio.hu, 8/2, 95-118.

Koen Buellens, Geert Loosveldt, Caroline Vandenplas, Ineke Stoop (2018): Response Rates in
the European Social Survey: Increasing, Decreasing, or a Matter of Fieldwork Efforts? Elérhető:
https://surveyinsights.org/?p=9673 (Letöltve: 2020.10.14)

Máder Miklós Péter (2005): Az imputálási eljárások hatékonysága. Statisztikai Szemle, 83/7,
628-643.

Mark Huisman (1999): Item nonresponse: occurrence, causes, and imputation of missing
answers to test items. Elérhető:
https://www.researchgate.net/profile/Mark_Huisman3/publication/268312247_Item_nonre
sponse_occurrence_causes_and_imputation_of_missing_answers_to_test_items/links/593e
a53e0f7e9bf167c02eae/Item-nonresponse-occurrence-causes-and-imputation-of-missing-
answers-to-test-items.pdf (Letöltve 2020.10.14)

Oravecz Beatrix (2008): Hiányzó adatok és kezelésük a statisztikai elemzésekben. Statisztikai


Szemle, 86/4, 365-384.

Paul D. Allison (2009): Missing Data. The Sage handbook of quantitative methods in
psychology, 72-89.

Paul Zhang (2003): Multiple Imputation: Theory and Method. International Statistical Review,
71/3, 581-592.

Regina T. Riphahn és Oliver Serfling (2004): Item non-response on income and wealth
questions. Empiral Economics, 30/2, 521-538.

Stef van Buuren és Karin Groothuis-Oudshoorn (2011): mice: Multivariate Imputation by


Chained Equations in R. Journal of Statistical Software, 45/3.

Stef van Buuren (2018): Flexible Imputation of Missing Data, Second Edition. Chapman and
Hall/CRC.

56
Tim P. Morris, Ian R White, Patrick Royston (2014): Tuning multiple imputation by predictive
mean matching and local residual draws. BMC Medical Research Methodology, 14/75.

Ting Yan és Matt Jans (2010): Trends in Income Nonresponse Over Two Decades. Journal of
Official Statistics, 26/1, 145-164.

7.2. Adatforrás
TÁRKI Alapítvány – TDATA-I22: TÁRKI Háztartás Monitor 2015. A magyarországi háztartások
anyagi és munkaerőpiaci helyzete. adatlap. Verzió: 2018-02-05

7.3. Egyéb források


Rachit Toshniwal (2020): Multivariate Imputation By Chained Equations (MICE) algorithm for
missing values. Elérhető: https://www.youtube.com/watch?v=WPiYOS3qK70 (Megtekintve
2021.01.25.)

Richard McElreath (2019): Missing data types. Elérhető:


https://twitter.com/rlmcelreath/status/1101435108995805185 (Letöltve 2021.01.25.)

European Social Survey: Notes on data and fieldwork. Elérhető:


https://www.europeansocialsurvey.org/data/deviations_index.html (Letöltve 2021.01.08.)

Sam Wilson (2020): The MICE Algorithm. Elérhető: https://cran.r-


project.org/web/packages/miceRanger/vignettes/miceAlgorithm.html (Letöltve 2021.01.25.)

57
8. Melléklet
A dolgozathoz kapcsolódó kódok és adatfájlok elérhetők GitHub-on:
https://github.com/simonkristof/szakdolgozat-2021.

Az R nevű mappa tartalmazza az imputációhoz használt R kódokat, az SPSS nevű mappa a


„súlyozáshoz” használt kódot, míg a data mappában az imputációk eredményeit gyűjtő
adatfájlok találhatók.

Természetesen a (módosított) TÁRKI Háztartás Monitor adatbázist adatvédelmi okokból nincs


lehetőségem megosztani, azonban a dolgozatban foglaltak alapján – az eredeti adatbázis
birtokában - ez a fájl könnyen reprodukálható.

58

You might also like