You are on page 1of 2

Fakta om metoden multipel imputering

Der er tre grunde til, at man bruger imputering Hvad er ideen i multipel imputering?
i PISA – og i stikprøveundersøgelser generelt: Et eksempel på, hvornår mutipel imputering er
nyttig, er, når en respondent i en spørgeske-
1. Det giver mulighed for at stille mange test-
maundersøgelse har sprunget besvarelsen af et
spørgsmål og dermed dække flere områder
spørgsmål, fx indkomst, over. Man kan, ud fra
af elevernes færdigheder og dermed øge
de andre svar denne person har givet om fx
målingssikkerheden.
køn, uddannelse, arbejdstid, branche, ancienni-
2. Det reducerer den statistiske stikprøveusik-
tet og stilling, give et godt skøn for, om perso-
kerhed og øger dermed den statistiske infe-
nen har en indkomst over eller under gennem-
rens, hvilket vil sige, at man fx kan afgøre,
snitsindkomsten. Man har i praksis tre mulighe-
om de opnåede resultater for forskellige
der:
grupper af elever er forskellige.
3. Det øger brugernes muligheder for at lave 1. Man kan smide besvarelsen væk, men det
analyser og tilgå data. svarer til, man lader de andre besvarelsers
gennemsnit bestemme gennemsnittet for
den gruppe, som personen tilhører, og der-
Internationalt har imputering været brugt de
med mister man information.
sidste 50 år i moderne statistik og surveyforsk-
ning. Vi skal helt tilbage til 1977, hvor profes- 2. Man kan beholde besvarelsen men udelade
sor Rubin fra Harvard Universitet kom med respondenten, når der laves analyser om
centrale bidrag til dette forskningsområde med indkomst. Men det har med hensyn til ind-
EM algoritmen. Senere har professor Rubin komst samme betydning som den første
sammen med en række medforfattere udgivet mulighed – man benytter ikke al informati-
adskillige artikler og bøger om emnet ”non- on.
response” multipel imputering. Multipel impute- 3. Man kan ud fra andre respondenters (med
ring er altså en ”gammel” og anerkendt meto- det samme køn, uddannelse, arbejdstid,
de, som i dag benyttes i langt de fleste stikprø- branche, anciennitet og stilling) besvarelser
veundersøgelser over hele verden, hvor de give et skøn (ud fra imputering) over ind-
førende institutioner ligger i USA, Canada og komsten. Er der fx 20 besvarelser fra andre
Australien. respondenter med samme køn, uddannelse,
arbejdstid, branche, anciennitet og stilling,
I Danmark foregår forskningen i surveymeto-
kan man tage gennemsnitsindkomsten for
der, dvs. sampling, stikprøveteori, imputering,
disse 20 og lægge dette gennemsnit ind
vægtning, non-response bl.a. på CBS, hvor
som svaret for den person, der ikke har
man arbejder med imputering, missing data og
svaret. Denne metode er fin til at beregne
EM algoritmen. Der er også forskningsmiljøer
summer og gennemsnit med, men kan ikke
inden for dette område på bl.a. Økonomisk
bruges til analyser af, hvor stor en andel,
institut, København Universitet og på Danmarks
der fx har under 200.000 kr. i årsindtægt.
Statistik. Multipel imputering er i dag indført
Man kan også vælge et af de 20 andre re-
som standardværktøjer i de anerkendte og be-
spondenters svar tilfældigt og sætte det i
nyttede statistikprogrammer, fx SPSS, SAS, R
stedet for det udeladte svar. Det vil i det
eller STATA, som benyttes verden over i kvanti-
store perspektiv, når man analyserer hele
tative analyser.
datamaterialet, i gennemsnit give det rigti-
ge svar. Men ved denne løsning har man ik-
ke brugt muligheden for imputering fuldt
ud, og man kan ikke lave statistisk inferens,
fordi man ikke kan medregne usikkerhed fra Ved at benytte multipel imputering udnyttes al
imputeringen. Her kommer de gentagende information fra datasættet på optimal vis, såle-
imputeringer, multipel imputering, som bl.a. des at elevernes færdigheder inden for flere
professor Rubin har forsket i, ind som en fagområder – og flere dimensioner inden for
mulighed. Hvis man fx fem gange valgte en disse fagområder – dækkes. Desuden bliver
af de 20 andre besvarelser tilfældigt, analy- den statistiske stikprøve-usikkerhed betydeligt
serede dem hver for sig, og bagefter lagde reduceret, når multipel imputering benyttes,
resultaterne sammen, så kan man reducere fordi man med imputering udnytter graden af
usikkerheden. Dette øger altså sikkerheden forklaret variation med hensyn til de variabler,
af det nye erstattede svar (imputeringen) der imputeres efter, svarende til den reduktion,
og giver samtidig mulighed for at lave stati- man opnår i en tilsvarende flerdimensionel sta-
stiske analyser, fordi sikkerheden af impu- tistisk analyse. Og endelig, så kan forskeren
teringen kan beregnes og dermed medreg- bruge hele datasættet uden at skulle korrigere
nes. for spørgsmål, der er sprunget over.

Principperne i eksemplet ovenfor kan udbygges


til at gælde generelt for, hvor der er manglende Yderligere information:
svar. I PISA, hvor eleverne har svaret på for- Peter Linde, kontorchef i Danmarks Statistik
skellige delopgaver, men ikke dem alle, kan E-mail: pli@dst.dk
man altså ligeledes imputere svarene fra de,
der har svaret. Man imputerer blandt de elever,
der minder mest om dem, der mangler at sva-
re, og overtager altså deres svar. Det ændrer
ikke på, at statistikken er repræsentativ. Man
deler bare svarene på flere. Det kan selvfølgelig
ikke bruges til at bestemme præcist, hvad den
enkelte konkrete elev ville have svaret. Man
kan aldrig sige noget om den enkelte elevs
præstationer. Men det kan bruges til at lave
statistiske analyser – altså til at sige noget om
gennemsnit for forskellige elevgrupper og til at
bestemme, om der er forskelle i præstationerne
mellem disse grupper.

You might also like