You are on page 1of 5

Institut for Statskundskab Aarhus Universitet Sren Risbjerg Thomsen

Marts 1997

Om anvendelse af signifikanstests i ikke-stikprve situationer


Alle tests i Agresti og Finlay bygger p den antagelse, at observationssttet kan opfattes som en simpel tilfldig stikprve fra en bagvedliggende population. Der kan dog ogs anvises andre situationer, hvor disse signifikanstests kan anvendes med eller uden visse reservationer. I sidste instans forudstter anvendelsen af signifikanstest, at det i den givne situation er meningsfuldt at anvende en statistisk model, som ikke forklarer al variation i et datamateriale, men betragter en del af variationen som stokastisk, dvs. tilfldig, uforudsigelig eller ureproducerbar. Dette betyder ikke, at den uforklarede variation under enhver synsvinkel ndvendigvis er tilfldig, men kun at den er tilfldig under rimelig hensyntagen til den forhndenvrende viden. Fra min synsvinkel vil det f.eks. vre rimeligt at antage, at der kun er en vis ringe sandsynlighed for, at jeg fr en tagsten i hovedet i morgen, mens den for mig ukendte morderbanden, som planlgger min udslettelse camoufleret som hndeligt uheld opererer uden dette tilfldighedsmoment. I ikke-stikprve situationer kan den tilfldige variation tilskrives to forskellige kilder. Den ene kilde er knyttet til selve det studerede objekt, dvs. vedrrer tilfldige hndelser for det, man iagttager, mens den anden kilde er knyttet til mleprocessen, dvs. vedrrer tilfldige mlefejl (til forskel fra systematiske mlefejl (: bias). I det frste tilflde taler man om, at det studerede objekt undergr en stokastisk proces, dvs. kommer ud for hndelser, der kan betragtes som rent tilfldige (givet den forhndenvrende viden). Betragtningsmden er meget anvendt i eksperimentelle situationer, hvor en lang rkke rsagsfaktorer udenfor eksperimentatorens kontrol virker i hver sin retning, men ved gentagne eksperimenter ikke har nogen systematisk pvirkning (dvs. pvirkning i en bestemt retning) i forhold til de rsager, der kontrolleres i eksperimentet. I en model for en stokastisk proces specificeres, hvorledes de forklarende faktorer systematisk indvirker p resultatet af eksperimentet, den uforklarede variation beskrives med en sandsynlighedsfordeling, og endelig antages det, at der - givet de forklarende faktorer - er stokastisk uafhngighed mellem de enkelte eksperimentudfald. Et eksempel p en eksperimentel stokastisk proces er flere kast med en terning. En lang rkke faktorer, s som hvilken side der vendte op i starten, hvor hurtigt den snurres rundt, hvor hjt den kastes osv., vil determinere det enkelte udfald, men i det lange lb vil kun kontrollerbare rsager som terningens indre vgtfordeling og fladernes strrelse have betydning for, hvor ofte en bestemt side kommer op. For den samme terning vil der endvidere vre uafhngighed mellem de enkelte udfald. For ikke-eksperimentelle samfundsfnomener er den stokastiske betragtningsmde mere problematisk. Da det i reglen er ugrligt at redegre for alle de sociale rsager, som har en systematisk indflydelse p et bestemt forlb, kan det vre vanskeligt at skelne mellem systematisk og tilfldig variation. Det er nok en rimelig antagelse, at der altid er et vist tilfldighedsmoment, dvs. tilstedevrelse af varierende men ikke systematiske rsagsfaktorer, som det ikke er praktisk muligt at tage hjde for, men hvor stort dette tilfldighedsmoment er afhnger meget af det konkrete fnomen. Trafikulykker er et godt eksempel p sociale hndelser med et stort stokastisk

moment (isr inden for den samme risikogruppe), mens svar p et sprgsml om holdning til indvandrere har et mindre stokastisk moment. Det skal dog nvnes, at der inden for psykometrien faktisk arbejdes med modeller, som antager samme sandsynlighed for et bestemt svar samt stokastisk uafhngighed mellem svar p holdningssprgsml, givet at svarpersonerne tilhrer den samme holdningsgruppe. Som nvnt er den anden kilde til tilfldig variation knyttet til selve mleprocessen. Selvom der ikke ndvendigvis er knyttet nogen tilfldig variation til selve objektet (som det f.eks. er tilfldet ved geodtiske mlinger) kan der godt i selve mleprocessen vre et stokastisk moment p grund af en rkke fejlkilder: unjagtighed i mleredskab, forkert indstilling, unjagtig iagttagelse osv. Det er imidlertid vigtigt at vre opmrksom p, at nogle fejl kan vre af systematisk karakter, ssom dem der fremkommer med en afstandsmler, som altid mler en for kort afstand i relation til den sande afstand. Disse systematiske fejl giver ikke nogen tilfldighedsvariation, men en konstant afvigelse i forhold til den sande vrdi: en bias. For at opn et gyldigt analyseresultat m de systematiske fejl p en eller anden mde indarbejdes i den statiske model; men det er kun den tilfldige fejlvariation, der beskrives med en sandsynlighedsfordeling. Det antages endvidere, at der er stokastisk uafhngighed mellem de enkelte tilfldige fejl. Vi kan alts forelbig konkludere, at der findes en rkke ikke-stikprve situationer, hvor det er meningsfuldt at operere med modeller, som skelner mellem systematisk og tilfldig variation. Anvendelse af statistiske modeller Det kendetegner de modeller, der omtales i Agresti og Finlay, at den vrdi, som tildeles en stokastisk variabel Y for hver case i datamaterialet, kan opdeles i hhv. en systematisk komponent og en stokastisk komponent e, dvs. Y=+e hvor er defineret som den forventede vrdi af den stokastiske variabel Y: E (Y) = dvs. den forventede vrdi af e er E(e) = E(Y) - = 0 (3) (2) (1)

e kan f.eks. vre den tilfldige variation omkring et gennemsnit eller den tilfldige variation omkring en regressionslinie. Det kendetegner endvidere modellerne, at e antages at have samme sandsynlighedsfordeling for alle cases i datamaterialet, samt at der er stokastisk uafhngighed mellem hver case. Dette er jo netop egenskaben ved en simpel tilfldig stikprve, at alle cases har samme sandsynlighedsfordeling, og at der er uafhngighed mellem de enkelte udtrk fra populationen. Men hvad gr man ikke-stikprve situationer? Hvis man i en sdan situation anvender en passende statistisk model, er det nok rimeligt i frste omgang at kalde den variation, som ikke forklares med den systematiske komponent, for den uforklarede variation og derefter overveje, hvorvidt denne ikke forklarede variation har samme sandsynlighedsfordeling for alle cases, og hvorvidt der er uafhngighed mellem de enkelte

cases. Som et konkret eksempel vil vi se p en totaltlling af frafald i gymnasiet blandt en bestemt afgangsrgang af drenge i rhus Kommune. Vi ser i frste omgang bort fra egentlige mlefejl og antager, at der i den undersgte population af drenge faktisk er en andel Pd = 0,1 som forlader gymnasiet fr studentereksamen. Da det er en totaltlling, er der ikke nogen tilfldighedsvariation p grund af stikprveusikkerhed, men sprgsmlet er, om det er meningsfuldt, at definere en sand frafaldshyppighed d hvor omkring den faktiske frafaldshyppighed Pd kan variere. Dette sprgsml kan umiddelbart virke absurd, da der ikke er tale om en eksperiment-situation, som man kan gentage for at studere en mulig tilfldighedsvariation. Sprgsmlet fr imidlertid mere mening, hvis vi nsker at sammenligne frafaldshyppigheden Pd blandt drenge med frafaldshyppigheden Pp blandt piger og vil vurdere, hvorvidt en evt. forskel kunne forklares med tilfldigheder. Vi skal nu se p to hypotetiske situationer, som efter min mening begge er urealistiske. Den frste situation svarer fuldstndig til den, der glder for en simpel tilfldig stikprve, nemlig at alle drenge har njagtig samme sandsynlighed for at falde fra i undersgelsesperioden, og at der er stokastisk uafhngighed mellem de enkelte drenges eventuelle frafald. Denne situation er urealistisk, da vi f.eks. ved fra anden side, at allerede nr drengene forlader folkeskolen, kan de p grundlag af skolens egnethedsudtalelser opdeles i forskellige risikogrupper med forskellig sandsynlighed for at falde fra. Antagelsen om stokastisk uafhngighed mellem de enkelte drenges skbne er nok mere realistisk, men man kunne dog tnke sig, at et tilfldigt stort frafald i en klasse kunne pvirke de vrige elevers chance for at fortstte. Den anden situation, vi skal se p, er den fuldstndig deterministiske, hvor der ikke er nogen tilfldighedsvariation. Det antages her, at det er muligt at inddele drengene i to risikogrupper. I den ene gruppe, som udgr 10 pct. af drengene, er der 100 pct. sandsynlighed for at falde fra, mens der i den anden gruppe er 0 pct. sandsynlighed for at falde fra. I denne situation udelukker vi forekomsten af tilfldige hndelser af betydning for den enkeltes frafald ssom forldres uventede ddsfald, uventede tilbud om erhvervsarbejde, uheld ved eksamen osv. En mere realistisk tredje opfattelse af den konkrete situation er efter min mening, at eleverne kan inddeles i forskellige risikogrupper med varierende frafaldssandsynlighed, men at der inden for hver risikogruppe er samme sandsynlighed for at falde fra. Iflge statistikkens teori er det sledes, at frafaldshyppigheden i den frste situation flger sandsynlighedsfordelingen for hyppigheden i en binomialfordeling, mens frafaldshyppigheden i den anden situation ikke har nogen tilfldighedsvariation. Efter den tredje opfattelse vil variansen p tilfldighedsvariationen vre mindre end for binomialhyppigheden,1 men strre end 0. Dette vil dog kun glde, hvis der er stokastisk uafhngighed mellem drengene. Hvis der er positiv stokastisk afhngighed (det ene frafald river det andet med sig), vil variansen blive noget strre. Min konklusion p diskussionen af denne konkrete situation vil vre, at hvis binomialfordelingen vlges som en passende statistisk model for antal frafaldne drenge, vil man vre tilbjelig til at overdrive den tilfldige variation. Det glder dog kun, hvis der ikke er en strk positiv stokastisk afhngighed mellem de enkelte skbner. Hvad betyder nu dette for anvendelsen af signifikanstest med binomialfordelingen som model for eksempel for forskellen mellem drenge og pigers frafaldshyppighed? Antages 1 .Det skal for fuldstndighedens skyld nvnes, at hvis sandsynligheden i alle risikogrupper er lille (under 10 pct.), vil variansen ikke vre ret meget mindre end for binomialhyppigheden (jf. additionsstningen for poisson-fordelte stokastiske variable).

det, at vi med denne model i praksis overdriver den tilfldige variation, betyder det, at der ved afprvning af en hypotese om, at der ikke er nogen forskel p den gennemsnitlige sandsynlighed for hhv. drenge og piger, bliver beregnet for brede grnser for den tilladelige tilfldighedsvariation i forskellen mellem de to hyppigheder. Vi risikerer alts at komme til at godkende en hypotese om, at der ikke er nogen forskel p drenge og piger, selvom der i virkeligheden er det. P den anden side vil vi med en forkastelse af hypotesen vre p den sikre side, men blot underdrive signifikansniveauet. Et sdant test kaldes ogs for et konservativt test. Det er ikke helt uanvendeligt, men det er lidt for tilbjeligt til at fastholde en uholdbar 0-hypotese (fejl af type 2). Der kan gennemfres en diskussion, der er fuldstndig analog med den ovenstende, for den situation, hvor der er tilfldige mlefejl. Man nsker f.eks. at sammenligne gennemsnittet for to normalfordelte populationer med en hypotese om, at der p grund af mlefejl i virkeligheden ikke er forskel p de to populationer. Anvendes Agresti og Finlays test for difference in means, fr man et tilsvarende konservativt test, hvis man anvendes den gennemsnitlige varians for de to populationer som skn over tilfldighedsvariationen p den enkelte observation. Med denne fremgangsmde opfatter man nemlig al variation inden for hver population som tilfldige mlefejl. Konklusion: Statistiske tests, som bygger p en antagelse om simpel tilfldig udvlgelse, kan godt anvendes p populationsdata. Man skal blot vre opmrksom p at man undertiden kommer til at godtage en forkert 0-hypotese. Er der derimod tale om at 0-hypotesen bliver forkastet med en given signifikans kan man normalt regne med, at forkastelsen er endnu mere signifikant end det fremgr af testen. Om ikke-statistisk generalisering2 Selvom der kan argumenteres for, at signifikanstest kan anvendes i ikke-stikprve situationer, er det vigtigt at vre opmrksom p, at det naturligvis ikke altid er meningsfuldt at anvende signifikanstest p et givet datamateriale. Et signifikanstest forudstter, at det er muligt at foretage en statistisk induktion fra data til bagvedliggende sande parametre, hvad enten disse parametre kendetegner en population, hvorfra der er udtaget en stikprve, eller kendetegner ikke-tilfldige egenskaber ved en stokastisk proces. Det er f.eks. problematisk at foretage en statistisk induktion fra data om gymnasieelevers frafaldsmnster i rhus i et givet r til bestemte sandsynligheder for frafald i hele Danmark. Dette ville bygge p den urealistiske antagelse, at rhus kunne betragtes som et eksakt miniature-billede af hele det danske samfund. Ligeledes ville det vre problematisk at foretage en statistisk induktion fra et r til en lngere tidsperiode.3 Disse problemer med statistisk induktion i tid og rum betyder imidlertid ikke, at undersgelsesresultater fra et bestemt omrde eller et bestemt r ikke kan anvendes til at sige noget mere generelt. En afgrnset undersgelse kan nemlig meget vel opfattes som en afprvning af generelle hypoteser, som antages at glde for et bredere teoretisk univers. 2 .Se ogs Hellevik, pp. 323-325. 3 .Jf. de foregende bemrkninger kan der nok argumenteres for at anvende signifikanstest ved afprvning af en hypotese om, at der ikke er forskel p frafaldshyppigheden i to forskellige byer eller i to forskellige r, hvis der foreligger populationsdata fra to forskellige byer eller fra to forskellige r. Det er derimod meget problematisk at anvende data fra rhus til at estimere frafaldet i hele landet eller anvende data fra et r til at estimere frafaldet i en lngere rrkke.

rhus-undersgelsen kunne f.eks. opfattes som en afprvning af en mere generel teori om knsrollers betydning for uddannelsesforlb. Dette ville dog kun have mening for et teoretisk univers, hvor knsrollerne og uddannelserne har en bestemt karakter, som ikke varierer for meget i tid og rum. For at foretage en ikke-statistisk generalisering af rhusundersgelsens resultater, m der derfor argumenteres for, at de sociale forhold, som bestemmer forskelle mellem knnene og uddannelsernes forlb, ikke varierer for meget inden for det teoretiske univers, som f.eks. kunne vre danske lokalsamfund i 1970erne. Den type af teoretiske pstande, som det ikke-statistisk er meningsfuldt at generalisere til, vil i reglen have en mindre prcis og mere relativ formulering, end det glder for statistiske hypoteser. rhus-undersgelsens beskrivelse af forskel p drenge og pigers gymnasiefrafald kan f.eks. opfattes som et undersgelsesresultat, der ikke forkaster en generel antagelse om, at der i 1970ernes Danmark i de fleste lokalsamfund er et strre skolefrafald blandt drenge end blandt piger. Konklusion: Vil man generalisere til en population der er bredere end den som undersgelsen omfatter, kan denne generalisering ikke foretages ved hjlp af et statistisk test.

You might also like