You are on page 1of 117

Idiotsikre noter

statistik og kvantitative forskningsdesign 1

Københavns Universitet

1. semester
Indholdsfortegnelse:
Kapitel 1: Introduktion til statistik................................................................................................7
Definitioner på generelle begreber:......................................................................................................7
Statistik:................................................................................................................................................................... 7
Population:...............................................................................................................................................................7
Sample/stikprøve:....................................................................................................................................................7
Variable og data:...................................................................................................................................7
Variable:................................................................................................................................................................... 7
Data:........................................................................................................................................................................ 7
Parametre og statistikker:.....................................................................................................................8
Parameter:............................................................................................................................................................... 8
Statistik:................................................................................................................................................................... 8
Deskriptive og inferentielle statistiske metoder:....................................................................................8
Deskriptiv statistik:...................................................................................................................................................8
Inferentiel statistik:..................................................................................................................................................8
Sampling error:........................................................................................................................................................ 8
Correlational method/korrelationsmetode:.............................................................................................................9
Exterimental method/eksperimentalmetode:..........................................................................................................9
Control condition og experimental condition:..........................................................................................................9
Quasi-uafhængig variabel:.......................................................................................................................................9
Constructs og operational definition:....................................................................................................9
Constructs/konstruktioner:......................................................................................................................................9
Operational definition:.............................................................................................................................................9
Kategoriske/diskrete og kontinuerte variabale:...................................................................................10
Diskret variabel:.....................................................................................................................................................10
Kontinuerlig variabel:.............................................................................................................................................10
Reelle grænser:...................................................................................................................................................... 10
Skalatyper:.........................................................................................................................................10
Nominel skala:........................................................................................................................................................10
Ordinal skala:......................................................................................................................................................... 10
Interval skala:.........................................................................................................................................................10
Ratio skala:.............................................................................................................................................................10
Symboler for statistik:.........................................................................................................................11
Kapitel 2: Frekvensfordelinger...................................................................................................12
Frekvensfordeling:..............................................................................................................................12
Grupperet frekvensfordeling:..............................................................................................................13
Til interval eller ratio data:..................................................................................................................13
Histogrammer:.......................................................................................................................................................13
Modificeret histogram:.......................................................................................................................................... 14
Polygon:................................................................................................................................................................. 14
Til nominal eller ordinal data:.............................................................................................................14
Bar graf:................................................................................................................................................................. 14
Til befolkningsfordelinger:..................................................................................................................15

Side 1 af 117
Relative frekvenser:................................................................................................................................................15
Smooth curves:......................................................................................................................................................15
Formen på en frekvensfordeling:.........................................................................................................16
Symmetrisk fordeling:............................................................................................................................................16
Skæv fordeling:...................................................................................................................................................... 16
Fordelingens hale:..................................................................................................................................................16
Positivt eller negativt skæv?...................................................................................................................................16

Kapitel 3: Central tendens..........................................................................................................17


Overblik:.............................................................................................................................................17
Central tendens:.....................................................................................................................................................17
Gennemsnit/middelværdi:..................................................................................................................17
Det vægtede gennemsnit:......................................................................................................................................18
Ændring af scorer ifht. gennemsnit:.......................................................................................................................18
Multiplikation eller division af en score ifht. gennemsnit:.....................................................................................18
Median:..............................................................................................................................................18
Modus (højeste punkt på tæthedsfunktion):.......................................................................................19
Valg af mål for central tendens:...........................................................................................................19
Hvornår bør man anvende medianen?..................................................................................................................20
Hvornår bør man anvende modus?........................................................................................................................20
Central tendens og formen af fordelingen:..........................................................................................21
Symmetrisk distribution/fordeling:........................................................................................................................21
Skæv distribution/fordeling:..................................................................................................................................21

Kapitel 4: Variabilitet.................................................................................................................22
Introduktion til variabilitet:.................................................................................................................22
Variabilitet:.............................................................................................................................................................22
Rækkevidde/range:................................................................................................................................................22
Definition af standardafvigelse og varians:..........................................................................................23
Måling af varians og standardafvigelse for en population:...................................................................24
SS - sum of squares................................................................................................................................................24
Population varians................................................................................................................................................. 25
Populationens standardafvigelse...........................................................................................................................25
Måling af varians og standardafvigelse for et sample:.........................................................................26
Forskelle på population og sample:.....................................................................................................28
Sample varians som en ikke-biased statistik:..........................................................................................................28
Mere om varians og standartafvigelse:................................................................................................28
Kapitel 5: z-Scores......................................................................................................................30
Introduktion til z-Scores:.....................................................................................................................30
z-Scores og placeringer i en distribution:.............................................................................................30
Bestemmelse af x-værdi ud fra z-scores:..............................................................................................31
Andre forhold mellem z, X, µ og σ:......................................................................................................32
Brug af z-scores til at standardisere en distribution:............................................................................33

Side 2 af 117
Andre standardiserede distributioner baseret på z-scores:..................................................................34
Beregning af z-scores ved samples:.....................................................................................................34
Formel for z-scores ved samples:...........................................................................................................................34
Formel for udregning af z-scores til x-værdier:.......................................................................................................34
Standardisering af en sample distribution:............................................................................................................35
Et kig mod inferential statistik:............................................................................................................35
Kapitel 6: Sandsynlighed............................................................................................................36
Introduktion til sandsynlighed:............................................................................................................36
Sandsynlighed:.......................................................................................................................................................36
Uafhængig tilfældig sample:..................................................................................................................................36
Sandsynlighed og frekvensfordelinger:..................................................................................................................37
Sandsynlighed og normalfordelingen:.................................................................................................37
The Unit Normal Table:..........................................................................................................................................37
Sandsynligheder og proportioner for scores fra en normalfordeling:...................................................38
Find proportioner/sandsynligheder placeret mellem to scores:............................................................................39
Find scorer til specifikke sandsynligheder:.............................................................................................................40
Et kig mod inferentiel statistik:............................................................................................................40
Kapitel 7: Sandsynlighed og samples - fordelingen af sample gennemsnit.................................41
Samples, populationer og fordelingen af sample gennemsnit:.............................................................41
Sampling error:...................................................................................................................................................... 41
Fordelingen af sample gennemsnit:.......................................................................................................................41
Sample fordeling:...................................................................................................................................................41
Fordelingen af sample gennemsnit for enhver population og enhver sample størrelse:.......................42
Central Limit Theorem/central grænseværdisætning:............................................................................................42
Formen af fordelingen for sample gennemsnit:.....................................................................................................42
Den forventede værdi af M:...................................................................................................................................42
Standard error af M:.............................................................................................................................................. 42
Størrelsen på sample:............................................................................................................................................43
Standardafvigelsen på population:.........................................................................................................................43
Formlen for standard error ved populations standardafvigelse:............................................................................43
Formlen for standard error ved populations varians:.............................................................................................43
3 forskellige fordelinger:.....................................................................................................................44
Sandsynlighed og fordelingen af sample gennemsnit:.........................................................................45
En z-score for sample gennemsnit:......................................................................................................45
Mere om standard error:.......................................................................................................................................46
Et kig mod inferentiel statistik:............................................................................................................46
Kapitel 8: Introduktion til Hypotese testning..............................................................................47
Logikken bag hypotese testning:.........................................................................................................47
Logikken bag hypotese testning i punktform:.........................................................................................................47
Generelle begreber inden for hypotesetesning:.....................................................................................................48
Nulhypotesen:........................................................................................................................................................48
Alternativ hypotese:...............................................................................................................................................48
Signifikansniveauet/Alpha level:............................................................................................................................48
Det kritiske område:...............................................................................................................................................49
Grænserne for det kritiske område:.......................................................................................................................49

Side 3 af 117
De 4 steps inden for hypotese testning:...............................................................................................49
Z-score statistik:..................................................................................................................................................... 50
Usikkerhed og fejl i hypotese testning:................................................................................................50
Type 1 fejl/error:....................................................................................................................................................51
Type 2 fejl/error:....................................................................................................................................................51
Valg af signifikansniveau:....................................................................................................................52
Mere om hypotese testning:...............................................................................................................52
Signifikant:............................................................................................................................................................. 52
Faktorer der påvirker en hypotese testning:..........................................................................................................53
Variabilitet af scorerne:..........................................................................................................................................53
Antallet af scorer i samplet:...................................................................................................................................53
Forudsætninger for hypotesetest med z-scorer:....................................................................................................54
Retningsbestemt (en-halede) hypotesetest:........................................................................................54
En-halet test:..........................................................................................................................................................54
Hypoteser for retningsbestemte tests:...................................................................................................................54
Det kritiske område for retningsbestemte tests:....................................................................................................55
Sammenligning af en-halet og to-halet tests:.........................................................................................................56
Bekymringer om hypotese testning: Måling af effektstørrelse.............................................................56
Måling af effektstørrelse:.......................................................................................................................................56

Kapitel 9: t-statistik....................................................................................................................58
t-statistik: Et alternativ til z.................................................................................................................58
Problemet ved z-scorer:.........................................................................................................................................58
Introduktion til t-statistik:......................................................................................................................................58
Den estimerede standard error (SM):......................................................................................................................59
t statistik:............................................................................................................................................................... 59
Frihedsgrader og t statistik:....................................................................................................................................60
t fordelingen:......................................................................................................................................................... 60
Formen på en t fordeling:.......................................................................................................................................60
Bestemmelse af proportioner og sandsynligheder for t-fordelinger:.....................................................................61
Hypotese test med t statistik:..............................................................................................................62
Den ukendte population:.......................................................................................................................................62
Udregning af t statistik – hypotesetestning, to-halet...........................................................................63
Forudsætninger for t-test:......................................................................................................................................65
Indflydelsen af sample-størrelse og sample-varians:..............................................................................................65
Måling af effektstørrelse for t-statistikken:............................................................................................................65
Måling af procentdelen af varians, r2:...................................................................................................................66
Formel for r2:.........................................................................................................................................................66
Konfidensintervaller til estimering af μ:.................................................................................................................67
Faktorer, der påvirker bredden af et konfidensinterval:.........................................................................................68
Udregning af t statistik – hypotesetestning, en-halet...........................................................................68
Kapitel 10: t-test for to uafhængige samples..............................................................................70
Introduktion til independent measures design:...................................................................................70
Independent-measures design...............................................................................................................................70
Repeated-measures design....................................................................................................................................70
Nulhypotesen og independent measures t Statistik:............................................................................71
Hypoteserne for en test af independent measures:...............................................................................................71
Formlerne for hypotesetestning - independent measures:....................................................................................71

Side 4 af 117
Den estimerede standard error:.............................................................................................................................72
Fortolkning af den estimerede standardfejl:..........................................................................................................72
Beregning af den estimerede standard error:........................................................................................................72
Pooled varians:...................................................................................................................................73
Den estimerede standard error:.............................................................................................................................73
Den endelige formel og frihedsgraderne:..............................................................................................................74
Oversigt over formler – t statistik:.......................................................................................................74
Hypotesetests med independent measures t statistic:.........................................................................75
Antagelser, der ligger til grund for independent measures t formel:.....................................................................77
Hartley´s F-Max test:...........................................................................................................................77
Effektstørrelse og konfidensintervaller for independent measures t statistik:......................................78
Konfidensintervaller for at estimere μ1 – μ2:.........................................................................................79
Rollen af sample-varians og sample-størrelse i independent measures t test:......................................79
Kapitel 11: t-test for to relaterede samples................................................................................81
Introduktion til repeated-measures designs:.......................................................................................81
Repeated-measures design:...................................................................................................................................81
Matched-subjects design:......................................................................................................................................81
t-statistikken til repeated-subjects research design:............................................................................82
Difference scorer: Data for repeated-subjects design............................................................................................82
Hypoteserne for related-samples test:...................................................................................................................82
Formel for repeated sample:..................................................................................................................................83
Hypotesetests for repeated-measures design:.....................................................................................84
Retningshypoteser og en-halet test:....................................................................................................85
Forudsætninger for related-samples t test:............................................................................................................85
Effektstørrelse og konfidens intervaller for repeated-measures t:........................................................86
Den procentvise varians, der tages højde for, r2.....................................................................................................86
Konfidensintervaller for at estimere 𝛍D.................................................................................................................87

Sammenligning af repeated- og independent-measures design:..........................................................88


Tidsrelaterede forskelle:.........................................................................................................................................88

Kapitel 17: Chi-Square-statistikken - Tests for goodness of fit og uafhængighed........................89


Introduktion for Chi-Square test:.........................................................................................................89
Parametriske tests:.................................................................................................................................................89
Ikke-parametriske tests:.........................................................................................................................................89
Hvornår er det bedst at ændre data fra numerisk til kategorisk?...........................................................................89
Chi-Square test for goodness of fit:.....................................................................................................90
Nulhypotesen for Goodness-of-fit test:..................................................................................................................90
No-preference hypotesen......................................................................................................................................90
No-difference hypotese..........................................................................................................................................91
Data for Goodness-of-Fit test:................................................................................................................................91
Forventede frekvenser:..........................................................................................................................................91
Chi-Square statistikken:..........................................................................................................................................92
Et eksempel på Chi-Square Test for Goodness of Fit:............................................................................93
Lokalisering af den kritiske region for Chi-Square test:..........................................................................................94

Side 5 af 117
En komplet Chi-Square Test for Goodness of Fit:...................................................................................................94
Chi-Square test for uafhængighed:......................................................................................................96
Nulhypotesen for test for uafhængighed:..............................................................................................................96
Ligestilling af version 1 og 2:..................................................................................................................................97
Observerede og forventede frekvenser:................................................................................................................97
Chi-Square statistik og frihedsgrader:....................................................................................................................98
Eksempel på Chi-Square Test for uafhængighed:.................................................................................99
Effektstørrelse og antagelser for Chi-Square Tests:.............................................................................101
Cohen´s w:........................................................................................................................................................... 101
Eksempel på beregning af effektstørrelse:...........................................................................................................102
Sample-størrelsens rolle:.....................................................................................................................................103
Chi-Square og w:..................................................................................................................................................103
Phi-koefficienten og Cramer´s V:.......................................................................................................103
Phi-koefficienten:.................................................................................................................................................103
Cramer´s V:...........................................................................................................................................................104
Antagelser og begrænsninger for chi-square tests:..............................................................................................105
Særlige anvendelser af Chi-Square tests:.............................................................................................................105

Sandsynlighed + binomial fordeling:........................................................................................106


Sandsynlighed:..................................................................................................................................106
Event:...................................................................................................................................................................106
Uafhængige events:.............................................................................................................................................106
Gensidigt udelukkende events:............................................................................................................................106
Exhaustive:...........................................................................................................................................................106
Additions-lov for sandsynlighed:..........................................................................................................................106
Multiplikations-lov for sandsynlighed:.................................................................................................................106
Sampling med udskiftning:...................................................................................................................................106
Sampling uden udskiftning:..................................................................................................................................106
Fælles sandsynlighed:..........................................................................................................................................106
Betinget sandsynlighed:.......................................................................................................................................106
Binomial-fordelingen:.......................................................................................................................107
Binomial-koefficienten:........................................................................................................................................107
Bruge binomialfordeling til at teste hypoteser:....................................................................................................107
Formel:.................................................................................................................................................................107
Binomial test:...................................................................................................................................107
Permutationer:.....................................................................................................................................................107
Permutationer (binære begivenheder):...............................................................................................................108
Binomialtest:........................................................................................................................................................109

Mann-Whitney test:.................................................................................................................110
Power (binomial og t test):......................................................................................................111
Missing data:...........................................................................................................................112

Side 6 af 117
Kapitel 1: Introduktion til statistik

Definitioner på generelle begreber:

Statistik:
Termen statistik refererer til et sæt af matematiske procedurer for at organisere summere og tolke
information.

Population:
En population er sættet af alle de individer af interesse i en given undersøgelse.

Sample/stikprøve:
Et sample, eller også kaldet en stikprøve, er et sæt af individer udvalgt af en population, der som
regel skal repræsentere selve populationen i en undersøgelse.

Her ses forholdet mellem en population og en sample/stikprøve:

Variable og data:

Variable:
En variabel er en egenskab eller tilstand som ændrer sig eller har forskellige værdier for forskellige
individer. Fx højde, vægt, køn eller temperatur, tidspunkt osv.

Data:
Data (flertal) er målinger eller observationer.
Et data sæt er en samling af målinger eller observationer.
Et datum (ental) er en enkel måling eller observation, og bliver ofte kaldt score.

Side 7 af 117
Parametre og statistikker:

Parameter:
En parameter er en værdi, ofte en talværdi/nummer, som beskriver en population. En parameter
er ofte afledt af målinger af individerne i populationen.

Statistik:
En statistik er en værdi, ofte en talværdi/nummer, som beskriver et sample/stikprøve. En statistik
er ofte afledt af målinger af individerne i samplet/stikprøven.

Deskriptive og inferentielle statistiske metoder:

Deskriptiv statistik:
Statistiske procedurer der anvendes til at summere, organisere og forenkle data.

Inferentiel statistik:
Den inferentielle statistik består af teknikker, der giver os mulighed for at undersøge
samples/stikprøver og drage generalisationer om den population, de er udvalgt fra.

Sampling error:
Sampling error/fejl er den naturligt forekommende uoverensstemmelse eller fejl, der eksisterer
mellem en sample statistik og den tilsvarende populationsparameter.

Eksempel på en sampling error:

Side 8 af 117
Correlational method/korrelationsmetode:
Ved denne metode, observeres to forskellige variabler med henblik på at bestemme hvorvidt der
er et forhold mellem dem.
Fx tidspunkt man står op og akademisk/læremæssig performance.
Præsterer man bedre fagligt, hvis man står op på et bestemt tidspunkt?

Exterimental method/eksperimentalmetode:
Ved denne metode, manipuleres 1 variabel mens en 2. variabel observeres og måles. For at
etablere et cause-and-effect forhold mellem de to variabler, forsøger denne metode at kontrollere
variablerne for at forhindre disse i at påvirke resultaterne.

 Den uafhængige variabel: Den variabel som er manipuleret af forskeren.


 Den afhængige variabel: Den variabel som observeres og måles for at konkludere effekten.
Også kaldet outcome, endpoint, measured variable.

Control condition og experimental condition:


Særligt inden for undersøgelser i psykologi eller medicin er der tale om såkaldte kontroltilstand og
eksperimental tilstand.
Ved kontroltilstanden modtager individerne ikke den eksperimentelle medicin. De modtager fx
placebo-medicin eller neutral medicin. Dette giver et grundlag for sammenligning med den
eksperimentelle tilstand.

Quasi-uafhængig variabel:

Side 9 af 117
Når undersøgelsen er ikke-eksperimentel, vil den uafhængige variabel, der bruges til at skabe de
forskellige grupper af score, blive kaldt quasi-uafhængig variabel eller quasi-independent variable.

Constructs og operational definition:

Constructs/konstruktioner:
Interne egenskaber eller karakteristika, som ikke kan observeres eller måles direkte, men som
stadig er nyttige til at beskrive og forklare en adfærd.

Operational definition:
Identificerer en måle-gruppe (et sæt operationer) til måling af ekstern adfærd, og bruger
målingerne som en definition og en måling af en hypotetisk construct/konstruktion.
Operational definition har to komponenter:
Først beskriver den et sæt operationer til måling af en construct.
For det andet definerer den construct i form af de resulterede målinger.

Kategoriske/diskrete og kontinuerte variabale:

Diskret variabel:
En diskret variabel består af separate, udelelige kategorier.
Der kan ikke eksistere nogen værdier mellem to kategorier.

Kontinuerlig variabel:
For en kontinuerlig variabel er der et uendeligt antal mulige værdier, der falder mellem to
observerede værdier. En kontinuerlig variabel er delelig i et uendeligt antal brøkdele.
Fx kan tid opdeles i timer, minutter, sekunder, brøkdele af et sekund.

Reelle grænser:
Reelle grænser er grænserne for intervaller for scorer, der er repræsenteret på en kontinuert
tallinje. Den reelle grænse, der adskiller to tilstødende scoringer, er placeret nøjagtigt halvvejs
mellem scoringerne. Hver score har to reelle grænser. Den øvre reelle grænse er øverst i
intervallet, og den nedre reelle grænse er nederst.

Skalatyper:

Nominel skala:
En nominel skala består af et sæt kategorier, der har forskellige navne. Målinger på en nominel
skala mærker og kategoriserer observationer, men foretager ingen kvantitative skel mellem
observationer.
Fx køn eller farver, blå, grøn, rød

Ordinal skala:

Side 10 af 117
En ordinal skala består af et sæt kategorier, der er organiseret i en ordnet rækkefølge. Målinger på
en ordinal skala rangerer observationer med hensyn til størrelse.
Fx tøjstørrelser - small, medium, large eller Likert skalaen - meget uenig, uenig, neutral, enig,
meget enig

Interval skala:
En intervalskala består af ordnede kategorier, der alle er intervaller af nøjagtig samme størrelse.
Lige forskelle mellem tal på skalaen afspejler lige store forskelle i størrelse. Men nulpunktet på en
intervalskala er vilkårligt og angiver ikke en nul-mængde af den variable, der måles.

Ratio skala:
En ratio skala er en intervalskala med den ekstra funktion af et absolut nulpunkt. Med en ratio
skala afspejler forholdet mellem tal størrelsesforhold.

Symboler for statistik:

N: Antal scorer i en population


n: Antal scorer i en stikprøve
X: Variabel, observationer af et enkelt individ - x værdier
Y: Variabel, også observationer af et enkelt individ - y værdier
Σ: Sigma - står for summering. Bruges til summen af et sæt af scorer. Altid efterfulgt af et symbol
eller matematisk udtryk.
ΣX: Summen af alle scorer for variablen X.

Eksempel på scores:

10, 6, 7, 4
ΣX = 27 og N = 4

Side 11 af 117
Kapitel 2: Frekvensfordelinger
Frekvensfordeling:
En frekvensfordeling er en organiseret tabulering (opstilling i fx skema, kolonner) af antallet af
individer placeret i hver kategori på måleskalaen.
Kan vises enten i en tabel eller graf.

Symbolet for frekvensfordeling: f

Eksempel på frekvensfordeling:

Her optræder værdierne fra den laveste 4, til den højeste 10.
10 optræder 2 gange, 9 optræder 5 gange osv.

Ved at ligge alle frekvenserne sammen, kan summen af populationen, altså N, findes.
Σf =N

Proportioner og procenter:
Proportion måler den brøkdel af den samlede gruppe, der er knyttet til hver score.

f
proportion= p=
N

Proportionen beskriver frekvensen i forhold til det totale tal (N). Derfor kaldes de også ofte
relative frekvenser.

Brøken kan naturligvis også omregnes til procent:

f
procent= p ( 100 )= ( 100 )
N

Eksempel på proportion og procent:

Side 12 af 117
Grupperet frekvensfordeling:

Når man grupperer data. Dette kunne eksempelvis være alle elever der har fået en score i 80'erne,
90'erne osv. De grupper, eller intervaller, kaldet class intervals eller klasseintervaller.
Der bør være omkring 10 klasseintervaller. Hvis der er mere end 10, bliver det uoverskueligt. Hvis
der er for få, mister man informationer om scorerne. Intervallerne skal desuden være lige store.

Eksempel på grupperet frekvensfordeling:

Målingerne er på x-aksen
Frekvenser er på y-aksen

Til interval eller ratio data:

Når data er af numerisk værdi, kan man anvende følgende:

Histogrammer:
Sæt de numeriske værdier på x-aksen
Højden på hver bar/klods er frekvensen.

Side 13 af 117
Modificeret histogram:
Samme som et almindeligt histogram, men her består de af klodser. Hver klods repræsenterer et
individ. Derfor er antal klodser = frekvensen for scoren. Det kan gøre det nemmere at se
frekvensen ved brug af denne figur.

Polygon:
Sæt de numeriske værdier på x-aksen. Derefter kommer der en prik over hver værdi, som svarer til
frekvensen. Der tegnet en linje fra prik til prik. Linjen slutter ved x-aksen (0 frekvenser)

Til nominal eller ordinal data:

Bar graf:
Da værdierne ofte er af ikke-numerisk værdi, er den eneste mulighed for at vise
frekvensfordelingen en bar graf. En bar graf er egentlig det samme som et histogram, udover der
er mellemrum mellem barerne. Kategorierne placeres på x-aksen, frekvensen på y-aksen.

Side 14 af 117
Til befolkningsfordelinger:

Relative frekvenser:
Det kan være svært at sige præcise ting om en meget stor population, fx en IQ på 110 i en hel
befolkning eller antallet af kvinder i hele USA. Det kaldes relativ frekvens, når vi estimerer at fx
andelen af mænd og kvinder er omtrent lige store.

Smooth curves:
Det kan være smart at anvende en kurvemodel, ved fx måling af IQ. Så slipper man for at anvende
det meget "kantede" histogram. Her vises den forskel der er fra en score til en anden.
Det mest "normale" ses i midten her, mens ekstremerne ses i siderne.

Side 15 af 117
Formen på en frekvensfordeling:

Symmetrisk fordeling:
I en symmetrisk fordeling er det muligt at tegne en lodret linje gennem midten, så den ene side af
fordelingen er et spejlbillede af den anden.

Skæv fordeling:
I en skæv fordeling har scorerne en tendens til at hobe sig op mod den ene ende af skalaen og
gradvist aftage i den anden ende

Fordelingens hale:
Den del, hvor scorerne tilspidser mod den ene ende af en fordeling, kaldes fordelingens hale.

Positivt eller negativt skæv?


En skæv fordeling med halen på højre side er positivt skæv, fordi halen peger mod den positive
(over nul) ende af X-aksen. Hvis halen peger mod venstre, er fordelingen negativt skæv.

Side 16 af 117
Side 17 af 117
Kapitel 3: Central tendens
Overblik:

Desværre er der ikke en enkelt standardprocedure til at bestemme central tendens. Problemet er,
at ingen enkelt måling producerer en central, repræsentativ værdi i enhver situation.

For at håndtere disse problemer har statistikere udviklet tre forskellige metoder til at måle central
tendens: middelværdien, medianen og modus.

Central tendens:
Central tendens er et statistisk mål til at bestemme en enkelt score, der definerer centrum for en
fordeling. Målet med den centrale tendens er at finde den enkelte score, der er mest typisk eller
mest repræsentativ for hele gruppen.

Gennemsnit/middelværdi:

Middelværdien, også kendt som det aritmetiske gennemsnit, beregnes ved at lægge alle scorerne i
fordelingen sammen og dividere med antallet af scores.
_
Symbol: M eller X

Middelværdien for en fordeling er summen af scorerne divideret med antallet af scores.

Formlen for gennemsnit:

Eksempel på gennemsnit:

Side 18 af 117
Det vægtede gennemsnit:
Find gennemsnittet af to sæt scorer.

Ændring af scorer ifht. gennemsnit:


Tilføjelse af en ny score til en fordeling, eller fjernelse af en eksisterende score, vil normalt ændre
middelværdien. Undtagelsen er, når den nye score (eller den fjernede score) er nøjagtigt lig med
gennemsnittet.

Multiplikation eller division af en score ifht. gennemsnit:


Hvis hver score i en fordeling multipliceres med (eller divideres med) en konstant værdi, vil
middelværdien ændre sig på samme måde.

Median:

Hvis scorerne i en fordeling er anført i rækkefølge fra mindste til største, er medianen midten af
listen. Mere specifikt er medianen det punkt på måleskalaen, under hvilket 50 % af scorerne i
fordelingen er placeret.

Side 19 af 117
Medianen kan være lig med en score på listen, eller den kan være mellem to scores.

Middelværdien og medianen er begge metoder til at definere og måle central tendens. Selvom de
begge definerer midten af fordelingen, bruger de forskellige definitioner af udtrykket "midt".

Modus (højeste punkt på tæthedsfunktion):

I en frekvensfordeling er modus den score eller kategori, der har den største frekvens.
Modus er derfor den mest populære score.

Definitionen af tilstanden er den samme for en population og for en stikprøvefordeling.

Eksempel på modus:

Her ses modus som værende Luigi´s, da der er flest scorer på den restaurant.

Selvom en fordeling kun vil have én middelværdi/gennemsnit og kun én median, er det muligt at
have mere end én modus.

En fordeling med to modus siges at være bimodal, og en fordeling med mere end to tilstande
kaldes multimodal.

Valg af mål for central tendens:

Valget af hvilken måleform, der er bedst at bruge for central tendens, afhænger af flere faktorer.

Udover at være en god repræsentant har middelværdien den ekstra fordel, at den er tæt
forbundet med varians og standardafvigelse.

Side 20 af 117
Hvornår bør man anvende medianen?

 Når en fordeling har nogle få ekstreme scorer, scorer der er meget forskellige i værdi fra de
fleste andre, så er gennemsnit ikke en god repræsentant for størstedelen af fordelingen.
Her ville man anvende median.

 Ved ubestemte og ukendte scorer, fx hvis en person aldrig færdiggøre et forsøg.

 Når en distribution ikke har nogen øvre eller nedre grænse - fx ved "5 eller mere" i et
forsøg.

 Ved ordinal data.

Hvornår bør man anvende modus?

Modus kan både anvendes som et alternativ til middelværdien, eller i forbindelse med den.

 Ved en nominal skala, da nominal skala ikke anvender kvantitative data. Derfor kan der
ikke udregnes en middelværdi eller en median, hvorfor der skal anvendes modus.

 Ved diskrete variable, fx antal børn i en familie eller antal rum i et hus. Tallet kan kun være
et helt tal, hvorfor middelværdien ikke ville være optimal at anvende. Modus vi her
resulterer i et helt tal.

 Ved beskrivelse af en form

Side 21 af 117
Central tendens og formen af fordelingen:

Middelværdi, median og modus er tæt forbundet - der vil endda være tilfælde, hvor alle 3 vil have
samme værdi. Forholdet mellem dem afhænger af formen af fordelingen. Generelt findes der to
typer af distributioner/fordelinger:

Symmetrisk distribution/fordeling:
Højre side er en spejling af venstre side. Her vil medianen være præcis i midten, og det samme vil
middelværdien, da alle værdier er lige fordelt.

Skæv distribution/fordeling:
Ved skæve fordelinger, vil modus, middelværdi og median ofte være adskilte.

Side 22 af 117
Kapitel 4: Variabilitet
Introduktion til variabilitet:

Begrebet variabilitet har stort set samme betydning i statistik, som det har i dagligdags sprog; at
sige, at ting er variable, betyder, at de ikke alle er ens.

Hvis der er små forskelle mellem scores, så er variabiliteten lille, og hvis der er store forskelle
mellem scores, så er variabiliteten stor.

Variabilitet:
Variabilitet giver et kvantitativt mål for forskellene mellem scores i en fordeling og beskriver i
hvilken grad scorerne er spredt ud eller klynget sammen.

Variabilitet måler, hvor godt en individuel score (eller gruppe af scores) repræsenterer hele
fordelingen.

Rækkevidde/range:
Afstanden fra den mindste score til den største score.

En almindeligt anvendt definition af range måler simpelthen forskellen mellem den største score
(X max) og den mindste score (X min).

Når scorerne er målinger af en kontinuerlig variabel, kan range defineres som forskellen mellem
den øvre reelle grænse (URL) for den største score (X max) og den nedre reelle grænse (LRL) for
den mindste score (X min).

Side 23 af 117
Definition af standardafvigelse og varians:

Standardafvigelsen er det mest almindeligt anvendte og det vigtigste mål for variabilitet.

Standardafvigelse bruger gennemsnittet af fordelingen som referencepunkt og måler variabilitet


ved at tage afstanden mellem hver score og middelværdien i betragtning.

Afvigelsen er afstand fra middelværdien: X - μ

Man anvender tegnet µ for gennemsnittet.

Eksempel på standartafvigelse:

N = 4 scorer
∑X (summen af scores) = 12
Gennemsnit: 12/4 = 3

Varians er lig med gennemsnittet af de kvadrerede afvigelser. Varians er den gennemsnitlige


kvadratiske afstand fra gennemsnittet.

Standardafvigelse er kvadratroden af variansen og giver et mål for standarden eller den


gennemsnitlige afstand fra middelværdien.

Eksempel på guide til udregning af varians og standartafvigelse:

Side 24 af 117
Eksempel på beregning af varians og standartafvigelse:

For dette sæt af N = 5 scores, er summen af de kvadrerede afvigelser 40

Gennemsnittet af de kvadrerede afvigelser, nemlig variansen, er 40/5 = 8

Dermed er standartafvigelsen kvadratroden af variansen √8 = 2,83.

Gennemsnit, standardafvigelse og varians bør kun bruges med numeriske score fra interval- eller
ratioskalaer.

Måling af varians og standardafvigelse for en population:

Værdien i tælleren af denne ligning, summen af de kvadrerede afvigelser, er en grundlæggende


komponent af variabilitet, og derfor vil et stort fokus være på denne:

SS - sum of squares er summen af de kvadrerede afvigelsesscorer.

For at finde frem til SS, skal der gøres følgende:

1. Find hver afvigelsesscore: (X - μ)


2. Opløft hver afvigelsesscore i 2: (X - μ)^2
3. Læg de kvadrerede afvigelser sammen

Resultatet vil være SS - altså summen af de kvadrerede afvigelser.

Alternativet, kendt som beregningsformlen/computational formula, udfører beregninger med


scorerne (ikke afvigelserne) og minimerer derfor komplikationerne med decimaler og brøker:

Side 25 af 117
Eksempel på udregning af summen af de kvadrerede afvigelser:

Bemærk, at de to formler giver nøjagtig den samme værdi for SS.


Selvom formlerne ser anderledes ud, er de faktisk ligeværdige.

Husk, at varians er defineret som den gennemsnitlige kvadrerede afvigelse. Gennemsnittet er


summen af de kvadrerede afvigelser divideret med N, så ligningen for populationsvariansen er:

Standardafvigelse er kvadratroden af varians, så ligningen for populationen standardafvigelsen er:

Symbol for population varians: σ 2


Symbol for population standardafvigelse: σ

Population varians har symbolet σ 2 og er lig med middelkvadratafstanden fra gennemsnittet.


Population varians udregnes ved at dividere summen af kvadrerede med N.

Populationens standardafvigelse er repræsenteret ved symbolet σ og er lig med kvadratroden af


populationsvariansen.

Side 26 af 117
Måling af varians og standardafvigelse for et sample:

Målet med inferentiel statistik er at bruge den begrænsede information fra samples/stikprøver til
at drage generelle konklusioner om populationer.

Beregningerne af varians og standardafvigelse for et sample følger de samme trin, som blev brugt
til at finde populationsvarians og standardafvigelse.

Beregn først summen af kvadrerede afvigelser (SS).


Udregn derefter variansen.
Derefter skal du finde kvadratroden af variansen, som så er standardafvigelsen.

Ændringerne i symboler:
Brug af M for sample gennemsnittet i stedet for µ,
Brug af n (i stedet for N) for antallet af scoringer.

Sample varians er repræsenteret ved symbolet s2 og er lig med den gennemsnitlige kvadrerede
afstand fra middelværdien. Sample varians opnås ved at dividere summen af kvadrater med n - 1.

Sample standardafvigelse er repræsenteret ved symbolet s og er lig med kvadratroden af


prøvevariansen.

Bemærk, at sample-formlerne dividerer med n - 1 i modsætning til populationsformlerne, som


dividerer med N.

Dette er den justering, der er nødvendig for at korrigere for usikkerheden i sample variabiliteten.

Side 27 af 117
Eksempel på beregning af varians og standartafvigelse ved sample:

Først ses alle observationerne (X).


Summen af disse findes = 52.

Herefter tages hver enkelt score og opløftes i 2., så scoren ganges med sig selv.
Summen af disse findes = 386.

Vi har nu 2 summer, som i indsætter i den såkaldte computational formel:

SS er "sum of the squared deviations" eller summen af de kvadrerede afvigelsen.

Vi indsætter nu tallene i formlen:

Dermed har vi nu udregnet af SS = 48.

Med dette tal kan vi nu udregne sample variansen:

Slutteligt findes standartafvigelsen ved at tage kvadratroden af variansen:

Side 28 af 117
Forskelle på population og sample:

Ved en population finder du afvigelsen for hver score ved at måle dens afstand fra populationens
gennemsnit.
Ved et sample er værdien af µ på den anden side ukendt, og du skal derfor måle afstande fra
sample gennemsnittet.

For et sample på n scores defineres frihedsgraderne eller df for sample-variansen som df = n - 1.


Frihedsgraderne bestemmer antallet af scores i stikprøven, der er uafhængige og frie til at variere.

Sample varians som en ikke-biased statistik:

En sample statistik er ikke-biased, hvis gennemsnitsværdien af statistikken er lig med


populationsparameteren. (Den gennemsnitlige værdi af statistikken er opnået fra alle de mulige
prøver for en specifik prøvestørrelse, n.)

En sample statistik er biased, hvis gennemsnitsværdien af statistikken enten undervurderer eller


overvurderer den tilsvarende populationsparameter.

Mere om varians og standartafvigelse:

I frekvensfordelingsgrafer identificerer vi gennemsnittets position ved at tegne en lodret linje og


markere den med µ eller M.

Side 29 af 117
Hvad sker der hvis man ændrer på scorerne, fx lægger en konstant til eller ganger med en
konstant?

 Tilføjelse af en konstant til hver score ændrer ikke standardafvigelsen.

 At gange hver score med en konstant får standardafvigelsen til at blive ganget med den
samme konstant.

Standardafvigelse er primært et beskrivende mål; den beskriver, hvor varierende eller hvor spredt
scorerne er i en fordeling. Forskere og psykologer skal beskæftige sig med den variabilitet, der
kommer af at studere mennesker og dyr.

Mennesker er jo ikke alle ens; de har forskellige holdninger, meninger, talenter, IQ'er og
personligheder. Derfor er standartafvigelse vigtigt for psykologi.

Variabilitet spiller en vigtig rolle i at undersøge, om der eksisterer en klar tendens i undersøgelsen.
I forbindelse med inferential statistik betegnes den varians, der findes i et sæt sample data, ofte
som "error variance". Dette bruges til at angive, at sample variansen repræsenterer uforklarlige og
ukontrollerede forskelle mellem scores.

Side 30 af 117
Kapitel 5: z-Scores

Introduktion til z-Scores:

Man bruger gennemsnit og standartafvigelse til at transformere hver score, altså x-værdierne, til
såkaldte z-scores eller standart scores.

Formålet med z-scores, eller standardscores, er at identificere og beskrive den nøjagtige placering
af hver score i en fordeling.

For at gøre rå værdier mere meningsfulde, omdannes de ofte til nye værdier, der indeholder mere
information.

Processen med at transformere X-værdier til z-scores har to nyttige formål:

 Hver z-score fortæller den nøjagtige placering af den oprindelige X-værdi i fordelingen.

 Z-scorerne danner en standardiseret fordeling, der direkte kan sammenlignes med andre
fordelinger, der også er blevet transformeret til z-score.

z-Scores og placeringer i en distribution:

En z-score angiver den præcise placering af hver X-værdi i en fordeling.


Fortegnet for z-scores (+ eller −) angiver, om scoren er over gennemsnittet (positiv) eller under
gennemsnittet (negativ).

Den numeriske værdi af z-scoren angiver afstanden fra middelværdien ved at tælle antallet af
standardafvigelser mellem X og μ.

I en fordeling af IQ-scores med μ = 100 og σ = 15, ville en score på X = 130 blive transformeret til z
= +2,00. Z-scoren angiver, at scoren er placeret over gennemsnittet (+) med en afstand på 2
standardafvigelser (30 point).

Side 31 af 117
Eksempel på graf for z-scorer:

Bemærk, at en z-score altid består af to dele: et fortegn (+ eller −) og en størrelse.

Begge dele er nødvendige for at beskrive, hvor en x-værdi er placeret i en distribution. Alle z-
scores over gennemsnittet er positive, og alle z-scores under gennemsnittet er negative.

Formel for z-Scores:

Eksempel på udregning af z-scorer:

Vi har en x-værdi på 130. Gennemsnittet i distributionen er 100. Standartafvigelsen er 10.

Bestemmelse af x-værdi ud fra z-scores:

Vi har en z-score på -1,50. Gennemsnittet er 60. Standartafvigelsen er 8.


Hvordan udregner vi x-værdien ud fra z-scoren?

Formel for bestemmelse af x-værdi ud fra z-scores:

Z-scoren indikerer at vores x-værdi ligger under vores gennemsnit med 1,5 standartafvigelse. Hvis
standartafvigelsen er 8, så vil x-værdien ligge 12 point under gennemsnittet, da 8 x 1,5 = 12.

Vores kendte værdier indsættes i formlen:

Dermed er den til z-scoren tilhørende x-værdi beregnet til at være 48.

Side 32 af 117
Andre forhold mellem z, X, µ og σ:

I de fleste tilfælde omdanner vi simpelthen scores (X-værdier) til z-scores, eller ændrer z-scores
tilbage til X-værdier. En z-score etablerer en sammenhæng mellem score, gennemsnit og
standardafvigelse. Sammenhængen/forholdet kan bruges til at besvare en række forskellige
spørgsmål om scores og de fordelinger, de er placeret i.

Eksempel på forholdet mellem z, X, µ og σ :

Vores x-værdi er 54, og den tilhørende z-score er +2,00.


Vores anden x-værdi er 42, og den tilhørende z-score er -1,00.

Vi vil nu finde gennemsnittet og standartafvigelsen:


Det er vigtigt at fokusere på afstanden mellem de to scorer.

Afstanden fra den ene x-værdi på 54 til den anden på 42 er 12.


Standen mellem den ene z-score på +2,00 til den anden på -1,00 er 3.

Det vil altså sige, at 3 gange standartafvigelse svarer til 12, og dermed er én standartafvigelse 4, da
12/3 = 4

Side 33 af 117
Brug af z-scores til at standardisere en distribution:

Hvis hver X-værdi omdannes til en z-score, vil fordelingen af z-score have følgende egenskaber:

1: Form
Fordelingen af z-scores vil have nøjagtig samme form som den oprindelige fordeling af scorerne.
Fordi hver enkelt score forbliver i sin samme position inden for fordelingen, ændres fordelingens
overordnede form ikke.

2: Gennemsnittet
Z-score fordelingen vil altid have et gennemsnit på nul.

3: Standartafvigelsen
Fordelingen af z-scores vil altid have en standardafvigelse på 1. Fordelen ved at have en
standardafvigelse på 1 er, at den numeriske værdi af en z-score er nøjagtig den samme som
antallet af standardafvigelser fra gennemsnittet.

Fordi alle z-score-fordelinger har samme gennemsnit og samme standardafvigelse, kaldes z-score-
fordelingen en standardiseret fordeling.

Standardiseret fordeling/distribution:
En standardiseret fordeling er sammensat af scores, der er blevet transformeret til at skabe
forudbestemte værdier for μ og σ. Standardiserede fordelinger bruges til at gøre ikke-
sammenlignelige fordelinger sammenlignelige.

Brug af z-scores til at lave sammenligninger:

Hvis to scores kommer fra forskellige fordelinger, er det normalt umuligt at foretage nogen direkte
sammenligning mellem dem. Når scorerne omregnes til z-scores, kan man sammenligne forskellige
scores fra forskellige distributioner.

Side 34 af 117
Andre standardiserede distributioner baseret på z-scores:

Det er almindeligt at standardisere en fordeling, ved at transformere scorerne til en ny fordeling


med et forudbestemt gennemsnit og standardafvigelse, der er hele runde tal.

Fordi de fleste IQ-tests er standardiserede, så de har samme gennemsnit og standardafvigelse -


dermed er det muligt at sammenligne IQ-scores, selvom de kan komme fra forskellige tests.

Proceduren for at standardisere en fordeling for at skabe nye værdier for μ og σ er en


to-trins proces:

1. De originale x-værdier/rå scores omdannes til z-scores.

2. Z-scorerne transformeres derefter til nye X-værdier, så de specifikke μ og σ opnås.

Beregning af z-scores ved samples:

Selvom z-scores oftest bruges i forbindelse med en population, kan de samme principper bruges til
at identificere individuelle lokationer i et sample.

Udtrykt som en formel kan hver X-værdi i en prøve transformeres til en z-score som følger:

Formel for z-scores ved samples:

På samme måde kan hver z-score transformeres tilbage til en X-værdi, som følger:

Formel for udregning af z-scores til x-værdier:

Formlerne er præcis de samme som ved beregning i en population, udover at der bruges M og s i
stedet for μ and σ.

Side 35 af 117
Standardisering af en sample distribution:

Udregning sker på samme vis som ved en population.

1: Samplet af z-scores vil have samme form som den oprindelige prøve af scores.

2: Samplet af z-scores vil have et gennemsnit på Mz = 0.

3: Samplet af z-scores vil have en standardafvigelse på sz = 1.

Et kig mod inferential statistik:

Inferentiel statistik er teknikker, der bruger oplysningerne fra prøver til at besvare spørgsmål om
populationer. Fordi det normalt er umuligt at undersøge en hel population, udvælger forskeren et
sample og administrerer behandlingen til individerne i prøven.

Hvis individerne i samplet er mærkbart forskellige fra individerne i den oprindelige population, har
forskeren dokumentation for, at behandlingen har haft en effekt.

En teknik til at afgøre, om en prøve er mærkbart anderledes, er at bruge z-scores. Vi kan bruge z-
score til at afgøre, om behandlingen har forårsaget en ændring. Hvis de personer, der modtager
behandlingen, afslutter forskningsstudiet med ekstreme z-scores, kan vi konkludere, at
behandlingen ser ud til at have en effekt.

Side 36 af 117
Kapitel 6: Sandsynlighed

Introduktion til sandsynlighed:

Forholdet mellem samples og populationer er normalt defineret i form af sandsynlighed. Ved at


kende sammensætningen af en population kan vi bestemme sandsynligheden for at opnå
specifikke samples.

På den måde giver sandsynlighed os en sammenhæng mellem populationer og samples, og denne


sammenhæng er grundlaget for, at den inferentiel statistik kan præsenteres.

Sandsynlighed:
For en situation, hvor flere forskellige udfald er mulige, er sandsynligheden for et specifikt udfald
defineret som en brøkdel eller en andel af alle de mulige udfald.
Hvis de mulige udfald identificeres som A, B, C, D og så videre, så vil formlen være:

Bemærk, at sandsynlighed er defineret som en andel eller en del af helheden.


Denne definition gør det muligt at gentage ethvert sandsynlighedsproblem som et
proportionsproblem.

Sandsynlighed kan både skrives som procent, decimaltal og brøk.

Uafhængig tilfældig sample:


En uafhængig tilfældig sample kræver, at hvert individ har lige stor chance for at blive udvalgt, og
at sandsynligheden for at blive udvalgt forbliver konstant fra den ene selektion til den næste, hvis
mere end et individ er udvalgt.

Side 37 af 117
1
For en population med N individer skal hvert individ have samme sandsynlighed, p = , for at
N
blive udvalgt.

Sandsynlighed og frekvensfordelinger:
Hvis du tænker på, at grafen repræsenterer hele befolkningen, repræsenterer forskellige dele af
grafen forskellige dele af befolkningen.

Fordi sandsynligheder og proportioner er ækvivalente, svarer en bestemt del af grafen til en


bestemt sandsynlighed i populationen.

Sandsynlighed og normalfordelingen:

Normalfordelingen er symmetrisk, med den højeste frekvens i midten, og frekvenserne aftager, når du
bevæger dig mod begge yderpunkter.

Når en fordeling omdannes til z-scores, bliver gennemsnittet nul og standardafvigelsen bliver 1.

The Unit Normal Table:

Tabellen viser proportioner af normalfordelingen for et komplet udvalg af mulige z-score-værdier. The Unit
Normal Table findes i appendiks B, tabel B.1

Kolonne (A) viser z-score-værdier svarende til forskellige positioner i en normalfordeling.


Kolonne B viser andelen i "body" (den største del)
Kolonne C viser andelen i "halen" (den mindste del)

Side 38 af 117
Kolonne D identificerer andelen af fordelingen, der er placeret mellem gennemsnittet og z-scoren.

Eksempel på at finde z-scorer i tabel:

Sandsynligheder og proportioner for scores fra en normalfordeling:

IQ-scorer danner en normalfordeling med μ = 100 og σ = 15.


Hvad er sandsynligheden for tilfældigt at vælge et individ med en IQ-score mindre end 120?

Transformer X-værdierne til z-scorer.


Brug tabellen til at slå de proportioner op, der svarer til z-score værdier.

Først transformerer vi vores x-værdi på 120 til en z-score:

Derefter slår vi vores z-score på 1,33 op i tabellen for at finde den tilsvarende procent.

Side 39 af 117
Find proportioner/sandsynligheder placeret mellem to scores:

Færdselsstyrelsen gennemførte en undersøgelse, der målte kørehastigheder på en lokal del af en


motorvej. De fandt en gennemsnitshastighed på μ = 58 miles i timen med en standardafvigelse på
σ = 10.

Hvor stor en andel af bilerne kører mellem 55 og 65 miles i timen?

Vi udregner først z-scoren for begge x-værdier:

Ved at bruge kolonne D i tabellen er disse to proportioner 0,1179 og 0,2580.

Side 40 af 117
Find scorer til specifikke sandsynligheder:

Den omvendte proces, af hvad der er gennemgået opover, giver os mulighed for at finde den score
(X-værdi), der svarer til en bestemt andel i fordelingen.

1. Find procenten i tabellen og den tilsvarende z-score i kolonne A.


2. Transformer Z-scoren til en x-værdi.

Et kig mod inferentiel statistik:

Side 41 af 117
Sandsynlighed danner en direkte forbindelse mellem samples og de populationer, de kommer fra.
Man bruger fx sandsynlighed til at måle, om en behandling/medicin har virket eller ej.

Eksempel på anvendelse:

Side 42 af 117
Kapitel 7: Sandsynlighed og samples - fordelingen af sample
gennemsnit

Samples, populationer og fordelingen af sample gennemsnit:

De fleste undersøgelser involverer meget større samples, såsom n = 25 børnehavebørn eller n =


100 American Idol-deltagere. I disse situationer bruges sample gennemsnittet mere end en enkelt
score til at besvare spørgsmål om populationen.

En forsker er i stand til at beregne en z-score, der beskriver en hel prøve

Som altid indikerer en z-score-værdi nær nul en central, repræsentativ sample. En z-værdi på over
+2,00 eller –2,00 indikerer en ekstrem sample.

Generelt er vanskeligheden ved at arbejde med samples, at et sample giver et ufuldstændigt


billede af populationen.

Forskellen eller "usikkerheden" mellem sample statistikker og de tilsvarende


populationsparametre kaldes sample error.

Sampling error:
Sample fejl er den naturlige uoverensstemmelse, eller mængden af fejl, mellem en sample statistik
og dens tilsvarende populationsparameter.

Fordelingen af sample gennemsnit:


Er indsamlingen af sample gennemsnit for alle de mulige tilfældige samples af en bestemt
størrelse (n), der kan opnås fra en population.

Sample fordeling:
Er en fordeling af statistik opnået ved at udvælge alle mulige samples af en bestemt størrelse fra
en population.

Karakteristika for fordelingen af sample gennemsnit:

1. Sample gennemsnittene bør hobe sig op omkring populationsgennemsnittet.


2. Bunken af samples bør have en tendens til at danne en normalfordeling.
3. Generelt gælder det, at jo større samplestørrelsen er, jo tættere bør sample gennemsnittet
være på populationsgennemsnittet, μ

Side 43 af 117
Fordelingen af sample gennemsnit for enhver population og enhver sample størrelse:

Central Limit Theorem/central grænseværdisætning:


En matematisk proposition, kendt som den centrale grænseværdisætning, giver en præcis
beskrivelse af fordelingen, der ville blive opnået, hvis du valgte alle mulige samples, beregnede
hvert sample gennemsnit og konstruerede fordelingen af sample gennemsnittet.

For enhver population med gennemsnittet μ og standardafvigelsen σ vil fordelingen af sample


σ
gennemsnit for samplestørrelsen n have et gennemsnit på μ og en standardafvigelse på
√n
og vil nærme sig en normalfordeling, når n nærmer sig uendeligt.

Formen af fordelingen for sample gennemsnit:


Fordelingen af sample gennemsnit har en tendens til at være en normalfordeling. Faktisk er denne
fordeling næsten perfekt normalfordelt, hvis en af følgende to betingelser er opfyldt:

1. Den population, som samplerne er udvalgt fra, er en normalfordeling.


2. Antallet af scores (n) i hvert sample er relativt stor - omkring 30 eller mere.

Den forventede værdi af M:


Gennemsnitsværdien af alle sample gennemsnit er nøjagtigt lig med værdien af populations
gennemsnit. Dette gennemsnit kaldes den forventede værdi af M.
I almindeligt sprog "forventes" et sample gennemsnit at være tæt på dets populationsgennemsnit.

Gennemsnittet af fordelingen af sample gennemsnittet er lig med gennemsnittet af populationen


af antal scores, μ, og kaldes den forventede værdi af M.

Standard error af M:
Standardafvigelsen er givet ved symbolet σM og kaldes standard error for M.

Standardafvigelsen af fordelingen af sample gennemsnit, σM, kaldes standard error af M. Standard


error giver et mål for, hvor stor afstand der i gennemsnit forventes at være mellem et sample
gennemsnit (M) og populationsgennemsnittet (μ).

1. Standard error beskriver fordelingen af sample gennemsnit. Det giver et mål for, hvor stor
forskel der forventes fra et sample til et andet. Når standard error er lille, er alle sample
gennemsnit tæt på hinanden og har lignende værdier. Hvis standard error er stor, er

Side 44 af 117
sample gennemsnittene spredt over et bredt område, og der er store forskelle fra et
sample til et andet.

2. Standard error måler, hvor godt et individuelt sample gennemsnit repræsenterer hele
fordelingen. Specifikt giver det et mål for, hvor meget afstand der er rimeligt at forvente
mellem et sample gennemsnit og det overordnede gennemsnit for fordelingen af sample
gennemsnittet.
Husk, at et sample ikke forventes at give en fuldstændig nøjagtig afspejling af dens population.
Selvom et sample gennemsnit l bør være repræsentativt for populationsgennemsnittet, er der
typisk en vis usikkerhed mellem sample og populationen.

Størrelsen på sample:
Et stort sample bør være mere nøjagtig end et lille sample.
Generelt, når samplestørrelsen øges, bør usikkerheden/error mellem samplegennemsnittet og
populationsgennemsnittet falde.

"Loven om store tal" siger, at jo større samplestørrelse (n), jo mere sandsynligt er det at sample
gennemsnittet vil være tæt på populationsgennemsnittet.

Standardafvigelsen på population:
I det helt yderste tilfælde opstår det mindst mulige sample (og den største standard error), når
samplet består af n = 1 score.

I dette tilfælde er standardafvigelsen for fordelingen af sample gennemsnit, som er standard error,
identisk med standardafvigelsen for fordelingen af scores.

Når n = 1, σM = σ (standard error = standardafvigelse).

Formlen for standard error udtrykker dette forhold mellem standardafvigelse og sample størrelse
(n).

Formlen for standard error ved populations standardafvigelse:

Formlen for standard error ved populations varians:

Eksempel på graf – standard error:

Side 45 af 117
3 forskellige fordelinger:

1. For det første har vi den oprindelige population af score. Denne population indeholder
scorerne for tusinder eller millioner af individuelle mennesker, og den har sin egen form,
gennemsnit og standardafvigelse.

2. Dernæst har vi et sample, der er udvalgt fra populationen. Samplet består af et lille sæt
scores for nogle få personer, der er blevet udvalgt til at repræsentere hele populationen.

3. Den tredje fordeling er fordelingen af sample gennemsnit. Dette er en teoretisk fordeling,


der består af sample gennemsnit opnået fra alle mulige tilfældige samples af en bestemt
størrelse.

Eksempel på alle 3 fordelinger:

Side 46 af 117
Sandsynlighed og fordelingen af sample gennemsnit:

Den primære anvendelse af fordelingen af sample gennemsnit er at finde sandsynligheden


forbundet med et specifikt sample.

Eksempel på udregning af sample gennemsnit:

Populationen af scorer på SAT danner en normalfordeling med μ = 500 og σ = 100.


Hvis man tager et tilfældigt sample på n = 16 elever, hvad er sandsynligheden for at sample
gennemsnittet bliver større end M = 525?

1. Fordelingen er normalfordelt, fordi populationen af SAT-score er normal.

2. Fordelingen har et gennemsnit på 500, fordi populationsgennemsnittet er μ = 500.

Side 47 af 117
3. For n = 16 har fordelingen en standard error på σM = 25:

Vi starter med at finde en z-score der kan vise den præcise lokation af M = 525.

525 ligger præcist 25 point over gennemsnittet på 500, hvilket svarer til 1 standardafvigelse (her
standard error).

Z-scoren for M = 525 vil derfor være +1,00.

Da fordelingen er normalfordelt, kan vi bruge vores tabel og finde den tilhørende procent til +1,00.
Tabellen viser at 0,1587 af fordelingen er lokaliseret i halen af fordelingen efter z-scoren på +1,00.

Det svarer til 15,87%.

Konklusionen er altså, at der er 15,87% chance for at trække et tilfældigt sample med et
gennemsnit højere end 525.

En z-score for sample gennemsnit:

1. Fortegnet fortæller, om placeringen er over (+) eller under (–) middelværdien.


2. Tallet fortæller afstanden mellem placeringen og gennemsnittet i form af antallet af
standardafvigelser.

Først finder vi placeringen for et sample gennemsnit (M) i stedet for en score (X)
Derefter er standardafvigelsen for fordelingen af sample gennemsnittet standard error, σ M

Derfor vil formlen for z-score se således ud:

Ligesom hver score (X) har en z-score, der beskriver dens position i fordelingen af scores, har hver
sample gennemsnit (M) en z-score, der beskriver dens position i fordelingen af sample
gennemsnit.

Mere om standard error:

1. Vi bruger nu fordelingen af sample gennemsnit i stedet for en fordeling af scores.


2. Vi bruger nu standard error i stedet for standardafvigelsen.

Side 48 af 117
Hver gang du arbejder med et sample gennemsnit, skal du bruge standard error!

Et kig mod inferentiel statistik:

 Inferentiel statistik er metoder, der bruger sampledata som grundlag for at drage generelle
konklusioner om populationer.

 Der vil være en vis usikkerhed eller uoverensstemmelse mellem en sample statistik og den
tilsvarende populationsparameter.

 Der er altid en usikkerhed, der skal tages i betragtning, når en forsker bruger et sample
gennemsnit som grundlag for at drage en konklusion om et populationsgennemsnit.

1. Standard error kan ses som et mål for pålideligheden af et sample gennemsnit.

 Hvis du ser et sample som en "måling" af en population, så er et sample et "mål" af et


populationsgennemsnit.

Kapitel 8: Introduktion til Hypotese testning

Logikken bag hypotese testning:

Hypotese testning er en statistisk procedure, der giver forskere mulighed for at bruge sample data
til at drage konklusioner om populationen af interesse.

Vi kombinerer begreberne z-score, sandsynlighed og fordelingen af sample gennemsnit for at


skabe en ny statistisk procedure kendt som en hypotese testning.

Hypotese testning:
En hypotesetest er en statistisk metode, der bruger sample data til at evaluere en hypotese om en
population.

Side 49 af 117
Logikken bag hypotese testning i punktform:

1. Først opstiller vi en hypotese om en population. Normalt vedrører hypotesen værdien af en


populationsparameter.

2. Før vi udvælger et sample, bruger vi hypotesen til at forudsige de egenskaber, som samplet
skal have.

3. Dernæst vælger vi et tilfældigt sample fra populationen.

4. Til sidst sammenligner vi de opnåede prøvedata med forudsigelsen, der blev lavet ud fra
hypotesen.

Målet med hypotesetesten er at afgøre, om behandlingen har nogen effekt på individerne i


populationen.

Generelle begreber inden for hypotesetesning:

Nulhypotesen:
Nulhypotesen (H0) siger, at i den generelle population er der ingen forandring, ingen forskel eller
ingen sammenhæng. I forbindelse med et eksperiment forudsiger H0, at den uafhængige variabel
(behandlingen) ikke har nogen effekt på den afhængige variabel (scorerne) for populationen.

Alternativ hypotese:
Den alternative hypotese (H1) siger, at der er en ændring, en forskel eller et forhold for den
generelle population. I forbindelse med et eksperiment forudsiger H1, at den uafhængige variabel
(behandlingen) har en effekt på den afhængige variabel (scorerne).

Signifikansniveauet/Alpha level:

Side 50 af 117
For at finde de grænser, der adskiller samples med høj sandsynlighed fra samples med lav
sandsynlighed, skal vi definere nøjagtigt, hvad der menes med "lav" sandsynlighed og "høj"
sandsynlighed.

Dette opnås ved at vælge en specifik sandsynlighedsværdi, som er kendt som signifikansniveauet
eller alfaniveauet for hypotesetesten.

For eksempel, med α = .05, adskiller vi de mest usandsynlige 5 % af sample gennemsnittene (de
ekstreme værdier) fra de mest sandsynlige 95 % af sample gennemsnittene (de centrale værdier).

De ekstremt usandsynlige værdier, som defineret af signifikansniveauet, udgør det, der kaldes det
kritiske område.

Når dataene fra en forskningsundersøgelse producerer et sample gennemsnit, der er placeret i det
kritiske område, konkluderer vi, at dataene ikke stemmer overens med nulhypotesen, og vi afviser
derfor nulhypotesen.

Det kritiske område:


Det kritiske område er sammensat af de ekstreme sampleværdier, der er meget usandsynlige (som
defineret af signifikansniveauet), hvis nulhypotesen er sand. Grænserne for det kritiske område
bestemmes af signifikansniveauet. Hvis sampledata falder i det kritiske område, afvises
nulhypotesen.

Grænserne for det kritiske område:


For at bestemme den nøjagtige placering for grænserne, der definerer det kritiske område, bruger
vi signifikansniveauet og tabellen på side 642.

I de fleste tilfælde er fordelingen af sample gennemsnit normalfordelt, og tabellen giver den


præcise z-scoreplacering for grænserne for kritiske områder.

Side 51 af 117
Fordi de yderste 5% er delt mellem to haler af fordelingen, er der præcis 2,5% (eller 0,0250) i hver
hale.
For enhver normalfordeling er de yderste 5 % i halerne af fordelingen over z = +1,96 og z = -1,96.

Disse værdier definerer grænserne for det kritiske område for en hypotesetest ved brug af α = .05

De 4 steps inden for hypotese testning:

Step 1: Angiv hypotesen


Processen med hypotese testning starter med at opstille en hypotese om den ukendte population.
Faktisk angiver vi to modsatrettede hypoteser:

Den første og vigtigste af de to hypoteser kaldes nulhypotesen. Nulhypotesen siger, at


behandlingen ikke har nogen effekt. Nulhypotesen er identificeret med symbolet H 0

Den anden hypotese er faktisk det modsatte af nulhypotesen, og den kaldes den videnskabelige,
eller alternative, hypotese (H1). Denne hypotese siger, at behandlingen har en effekt på den
afhængige variabel.

Step 2: Sæt kriterierne for en beslutning


Dataene vil enten understøtte nulhypotesen eller have en tendens til at afvise nulhypotesen.
Vi bestemmer nøjagtigt hvilke sample gennemsnit, der stemmer overens med nulhypotesen, og
hvilke sample gennemsnit, der er i modstrid med nulhypotesen.

1. Sample gennemsnit, der sandsynligvis vil blive opnået, hvis H0 er sand; dvs. sample
gennemsnit, der er tæt på nulhypotesen.

2. Sample gennemsnit, der er meget usandsynlige at blive opnå, hvis H0 er sand; det vil sige
sample gennemsnit, der er meget forskellige fra nulhypotesen.

Step 3: Indsaml data og udregn sample statistik


Dataene indsamles, efter at forskeren har opstillet hypoteserne og fastlagt kriterierne for en
beslutning.

Dernæst opsummeres rådata fra samplet med den relevante statistik.


Dette er kernen i hypotesetesten: at sammenligne dataene med hypotesen.

Formel for z-score for sample gennemsnit ved hypotesetesning:

Step 4: Tag beslutning

Side 52 af 117
I det sidste trin bruger forskeren z-score-værdien opnået i trin 3 til at træffe en beslutning om
nulhypotesen i henhold til kriterierne fastsat i trin 2.

Der er her to forskellige udfald:

1. Sample data er lokaliseret i det kritiske område. Nul-hypotesen afvises. Behandlingen har
effekt.
2. Sample data er ikke lokaliseret i det kritiske område. Nul-hypotesen afvises ikke.
Behandlingen har ikke effekt.

Z-score statistik:

Z-score-statistikken, der bruges i hypotesetesten, er det første specifikke eksempel på det, der
kaldes en teststatistik.

Udtrykket teststatistik angiver blot at sample dataene konverteres til en enkelt, specifik statistik,
der bruges til at teste hypoteserne.

Usikkerhed og fejl i hypotese testning:

Hypotese testning er en inferentiel proces, hvilket betyder, at den bruger begrænset information
som grundlag for at nå frem til en generel konklusion.

I denne situation er der altid mulighed for, at der bliver draget en forkert konklusion.

I en hypotesetest er der to forskellige slags fejl, der kan laves:

Type 1 fejl/error:

Det er muligt, at dataene vil få dig til at afvise nulhypotesen, når behandlingen faktisk ikke har
nogen effekt.

Hvis en forsker tilfældigt udvælger en af disse ekstreme samples, kan data fra samplet give indtryk
af en stærk behandlingseffekt, selvom der ikke er nogen reel effekt.

En Type 1-fejl opstår, når en forsker afviser en nulhypotese, der faktisk er sand.
I en typisk forskningssituation betyder en Type 1-fejl, at forskeren konkluderer, at en behandling
har en effekt, mens den faktisk ikke har nogen effekt.

Sandsynligheden for Type-1 fejl/error:

Side 53 af 117
Signifikansniveauet bestemmer sandsynligheden for en Type-1 fejl.

Signifikansniveauet for en hypotesetest er sandsynligheden for, at testen vil føre til en Type-1 fejl.
Det vil sige, at signifikansniveauet bestemmer sandsynligheden for at opnå sample data i det
kritiske område, selvom nulhypotesen er sand.

Heldigvis er risikoen for en Type-1 fejl lille og er under forskerens kontrol. Specifikt er
sandsynligheden for en Type-1 fejl lig med signifikansniveauet.

Type 2 fejl/error:

En Type-2 fejl opstår, når en forsker undlader at afvise en nulhypotese, der virkelig er falsk.
I en typisk forskningssituation betyder en Type-2 fejl, at hypotesetesten ikke har kunnet påvise en
reel behandlingseffekt.

En type II fejl opstår, når sample gennemsnittet ikke er i det kritiske område, selvom behandlingen
har en effekt på prøven. Ofte sker dette, når effekten af behandlingen er relativt lille.

Konsekvenserne af en Type-2 fejl er normalt ikke så alvorlige som konsekvenserne af en Type-1


fejl.
I modsætning til en Type-1 fejl er det umuligt at bestemme en enkelt, nøjagtig sandsynlighed for
en Type-2 fejl.

Sandsynligheden for en Type-2 fejl er repræsenteret ved symbolet β, det græske bogstav beta.

Valg af signifikansniveau:

Signifikansniveauet hjælper med at bestemme grænserne for det kritiske område ved at definere
begrebet "meget usandsynlige" udfald. Samtidig bestemmer signifikansniveauet sandsynligheden
for en Type-1 fejl.

Når du vælger en værdi for signifikansniveauet i begyndelsen af en hypotesetest, påvirker din


beslutning begge disse funktioner.

Et lavere signifikansniveau betyder mindre risiko for en Type-1 fejl, men det betyder også, at
hypotesetesten kræver mere evidens fra forskningsresultaterne.

Side 54 af 117
Afvejningen mellem risikoen for en Type-1 fejl og kravene til testen styres af grænserne for det
kritiske område.

Generelt forsøger forskere at opretholde en balance mellem risikoen for en Type 1- fejl og
hypotesetestens krav.

Signifikansniveauer på .05, .01 og .001 anses for at være rimeligt gode værdier, fordi de giver en
lav risiko for fejl uden at stille for store krav til forskningsresultaterne.

Mere om hypotese testning:

I statistiske test betyder et signifikant resultat, at nulhypotesen er blevet forkastet, hvilket


betyder, at resultatet er meget usandsynligt, at det kun er opstået tilfældigt.

Signifikant:
Et resultat siges at være signifikant eller statistisk signifikant, hvis det er meget usandsynligt, at det
opstår, når nulhypotesen er sand. Det vil sige, at resultatet er tilstrækkeligt til at forkaste
nulhypotesen. En behandling har således en væsentlig effekt, hvis beslutningen fra hypotesetesten
er at afvise H0.

Når en hypotesetest udføres ved hjælp af et computerprogram, indeholder udskriften ofte ikke
kun en z-score-værdi, men også en nøjagtig værdi for p, sandsynligheden for, at resultatet er sket
uden nogen behandlingseffekt. I dette tilfælde opfordres forskere til at rapportere den nøjagtige
p-værdi i stedet for at bruge mindre-end eller større-end notationen.

Når man bruger nøjagtige værdier for p, skal man dog stadig opfylde det traditionelle kriterium for
signifikans: specifikt skal p-værdien være mindre end 0,05 for at blive betragtet som statistisk
signifikant.

Faktorer der påvirker en hypotese testning:

Den mest oplagte faktor, der påvirker størrelsen af z-score, er forskellen mellem sample
gennemsnittet og det hypoteserede populationsgennemsnit fra H0.

Side 55 af 117
Ud over forskellen på gennemsnit, er størrelsen af z-scoren dog også påvirket af standard error,
som bestemmes af scorernes variabilitet (standardafvigelse eller varians) og antallet af scores i
stikprøven (n).

Derfor er disse to faktorer også med til at bestemme, om z-score vil være stor nok til at afvise H 0.

Variabilitet af scorerne:
I en hypotesetest kan højere variabilitet reducere chancerne for at finde en signifikant
behandlingseffekt.

Den øgede variabilitet betyder at sample dataene ikke længere er tilstrækkelige til at konkludere,
at behandlingen har en signifikant effekt.

Hvis andre faktorer holdes konstante, jo større variabiliteten er, jo mindre er sandsynligheden for
at finde en signifikant behandlingseffekt.

Antallet af scorer i samplet:


Forøgelse af antallet af scores i samplet giver en mindre standard error og en større værdi for z-
score.

Hvis alle andre faktorer holdes konstante, jo større samplestørrelsen er, jo større er
sandsynligheden for at finde en signifikant behandlingseffekt.

Forudsætninger for hypotesetest med z-scorer:


Den matematik, der bruges til en hypotesetest, er baseret på et sæt antagelser.
Når disse antagelser er opfyldt, kan du være sikker på, at testen giver en berettiget konklusion.

Tilfældig sampling:
Det antages, at deltagerne brugt i undersøgelsen er udvalgt tilfældigt.

Uafhængige observationer:
Værdierne i samplet skal bestå af uafhængige observationer. I daglig tale er to observationer
uafhængige, hvis der ikke er et konsistent, forudsigeligt forhold mellem den første observation og
den anden.

Side 56 af 117
Standard error er uændret af behandlingen:
En kritisk del af z-score-formlen i en hypotesetest er standard error, σM.
For at beregne værdien for standard error skal vi kende sample størrelsen (n) og populationens
standardafvigelse (σ). Vi antager, at standardafvigelsen for den ukendte population (efter
behandling) er den samme, som den var for populationen før behandling. Tilføjelse (eller
subtrahering) af en konstant ændrer middelværdien, men har ingen effekt på standardafvigelsen.

Sample normalfordeling:
For at evaluere hypoteser med z-score har vi brugt tabellen bag i bogen til at identificere det
kritiske område. Denne tabel kan kun bruges, hvis fordelingen af sample gennemsnit er
normalfordelt.

Retningsbestemt (en-halede) hypotesetest:

Normalt begynder en forsker et eksperiment med en specifik forudsigelse om retningen af


behandlingseffekten.

Resultatet er en retningsbestemt test, eller hvad der almindeligvis kaldes en en-halet test.

En-halet test:
I en retningsbestemt hypotesetest, eller en en-halet test, angiver de statistiske hypoteser (H 0 og
H1) enten en stigning eller et fald i populationsgennemsnittet. Det vil sige, at de udtaler sig om
retningen af effekten.

Hypoteser for retningsbestemte tests:


Fordi der forventes en bestemt retning for behandlingseffekten, er det muligt for forskeren at
udføre en retningsbestemt test.

Nulhypotesen siger at der ikke er nogen behandlingseffekt, og at den alternative hypotese siger at
der er en effekt.

Eksempel på retningsbestemt test:

Vi ved, at den generelle population har et gennemsnit på μ = 15,8 og H 1 angiver, at denne værdi vil
blive øget med den røde skjorte.

Derfor, udtrykt i symboler, siger H1:

Nulhypotesen siger, at den røde skjorte ikke øger drikkepenge. I symboler:

Side 57 af 117
Det kritiske område for retningsbestemte tests:

Det kritiske område er defineret af sample resultater, der er meget usandsynlige, hvis
nulhypotesen er sand (det vil sige, hvis behandlingen ikke har nogen effekt).

For en retningsbestemt test er begrebet "overbevisende bevis" den enkleste måde at bestemme
placeringen af det kritiske område.

Vi begynder med alle de mulige sample gennemsnit, der kunne opnås, hvis nulhypotesen er sand.
Dette er fordelingen af sample gennemsnit, og den vil være normalfordelt.

For dette eksempel forventes behandlingen at øge testresultaterne:

Hvis den almindelige population af mandlige kunder giver et gennemsnitligt bidrag på μ = 15,8
procent, så ville et sample, der er væsentligt mere end 15,8 give overbevisende bevis for, at den
røde skjorte virkede på drikkepengene.

Det kritiske område er således placeret helt i den højre hale af fordelingen svarende til sample
gennemsnit meget større end μ = 15,8.

Bemærk også, at andelen angivet af signifikansniveauet ikke er delt mellem to haler, men nu er i
en hale. Ved at bruge α = .05 for eksempel, er hele 5% placeret i en hale.

Bemærk, at en retningsbestemt (en-halet) test kræver to ændringer i den trinvise


hypotesetestprocedure:

1. I hypotesetestens første trin er retningsforudsigelsen inkorporeret i


hypoteseformuleringen.
2. I det andet trin af processen er det kritiske område placeret helt i den ene ende af
fordelingen.

Efter disse to ændringer fortsætter en en-halet test nøjagtigt som en almindelig to-halet test.
Sammenligning af en-halet og to-halet tests:

Den største forskel mellem en-halede og to-halede test er i de kriterier, de bruger til at afvise H 0.

En en-halet test giver dig mulighed for at afvise nulhypotesen, når forskellen mellem samplet og
populationen er relativt lille.

En to-halet test kræver derimod en relativt stor forskel uafhængig af retning.

Generelt bør to-halede tests bruges i forskningssituationer, hvor der ikke er nogen stærk
retningsbestemt forventning, eller når der er to konkurrerende forudsigelser.

Side 58 af 117
En-halede tests bør kun anvendes i situationer, hvor den retningsbestemte forudsigelse er lavet
før forskningen udføres, og der er en stærk begrundelse for at foretage den retningsbestemte
forudsigelse.

Hvis en to-halet test ikke opnår signifikans, bør man aldrig følge op med en en-halet test som et
andet forsøg på at redde et signifikant resultat for de samme data.

Bekymringer om hypotese testning: Måling af effektstørrelse

En lille behandlingseffekt kan stadig være statistisk signifikant. Hvis stikprøvestørrelsen er stor nok,
kan enhver behandlingseffekt, uanset hvor lille den er, være nok til, at vi forkaster nulhypotesen.

Måling af effektstørrelse:

En bekymring med hypotesetestning er, at en hypotesetest ikke rigtig evaluerer den absolutte
størrelse af en behandlingseffekt.

Når forskere rapporterer en statistisk signifikant effekt, giver de også en rapport om


effektstørrelsen.

Målet er at måle og beskrive den absolutte størrelse af behandlingseffekten på en måde, der ikke
er påvirket af antallet af scores i stikprøven.

Et mål for effektstørrelse er beregnet til at give en måling af den absolutte størrelse af en
behandlingseffekt, uafhængigt af størrelsen af prøven/prøverne, der anvendes.

En af de enkleste og mest direkte metoder til at måle effektstørrelse er Cohens d:

Standardafvigelsen er inkluderet i beregningen for at standardisere størrelsen af middelforskellen


på nogenlunde samme måde, som z-scores standardiserer placeringer i en fordeling.

Side 59 af 117
Bemærk, at Cohens d måler størrelsen af behandlingseffekten i forhold til standardafvigelsen. For
eksempel indikerer en værdi på d = 0,50, at behandlingen ændrede middelværdien med halvdelen
af en standardafvigelse.

Side 60 af 117
Kapitel 9: t-statistik
t-statistik: Et alternativ til z

Et sample gennemsnit (M) forventes at tilnærme sit populationsgennemsnit (μ). Dette giver os
mulighed for at bruge sample gennemsnittet til at teste en hypotese om
populationsgennemsnittet.

Standard error giver et mål for, hvor godt et sample gennemsnit tilnærmer sig
populationsgennemsnittet.

Specifikt bestemmer standard error, hvor stor forskel der er rimeligt at forvente mellem et sample
gennemsnit (M) og populationsgennemsnittet (μ).

For at kvantificere vores konklusioner om populationen, sammenligner vi det opnåede sample


gennemsnit (M) med det hypoteserede populationsgennemsnit (μ) ved at beregne en z-score-
teststatistik.

Problemet ved z-scorer:

Manglen ved at bruge en z-score til hypotesetestning er, at z-score-formlen kræver mere
information, end der normalt er tilgængelig.

Hele grunden til at lave en hypotesetest er at få viden om en ukendt population.

Når variansen (eller standardafvigelsen) for populationen ikke er kendt, bruger vi den tilsvarende
stikprøveværdi i stedet for.

Introduktion til t-statistik:

Husk, at formlerne for sample varians og sample standardafvigelse er som følger:

Side 61 af 117
Ved hjælp af prøveværdierne kan vi nu estimere standardfejlen:

Nu estimerer vi standard error ved blot at erstatte sample variansen eller standardafvigelsen i
stedet for den ukendte populationsværdi:

Bemærk, at symbolet for den estimerede standardfejl for M er SM stedet for σM, hvilket indikerer,
at den estimerede værdi er beregnet ud fra sample data snarere end fra den faktiske
populationsparameter.

Den estimerede standard error (SM):

Den estimerede standard error anvendes som et estimat af den reelle standard error σ M, når
værdien af σ er ukendt. Den beregnes ud fra sample variansen eller sample standardafvigelsen og
giver et estimat af standardafstanden mellem et sample gennemsnit M og populationsgennemsnit
μ.

På dette tidspunkt flytter vi imidlertid vores fokus til formlen baseret på varians:

Nu kan vi erstatte den estimerede standard error i nævneren af z-score formlen.


Resultatet er en ny teststatistik kaldet en t-statistik:

t statistik:

T statistik bruges til at teste hypoteser om et ukendt populationsgennemsnit, μ, når værdien af σ


er ukendt. Formlen for t-statistikken har samme struktur som z-score-formlen, bortset fra at t-
statistikken bruger den estimerede standard error i nævneren.

Side 62 af 117
Den eneste forskel mellem t-formlen og z-score-formlen er, at z-score bruger den faktiske
populationsvarians, σ2 (eller standardafvigelsen), og t-formlen bruger den tilsvarende sample
varians (eller standardafvigelse), når populationens værdi ikke kendes.

Frihedsgrader og t statistik:

For at bestemme, hvor godt en t-statistik tilnærmer en z-score, skal vi bestemme, hvor godt
sample-variansen tilnærmer populations-variansen.

Værdien n – 1 kaldes frihedsgrader (eller df) for sample-variansen.

Frihedsgrader beskriver antallet af scores i et sample, der er uafhængige og frie til at variere.
Fordi sample-gennemsnittet sætter en begrænsning på værdien af én score i stikprøven, er der
n – 1 frihedsgrader for en prøve med n antal scores.

Jo større værdien af df for en stikprøve er, jo bedre repræsenterer stikprøvevariansen, s2,


populationsvariansen, σ2, og jo bedre tilnærmer t-statistikken z-score

Frihedsgraderne forbundet med s2 beskriver også, hvor godt t repræsenterer z.

t fordelingen:

En t-fordeling er det komplette sæt af t-værdier beregnet for hver mulig tilfældig sample for en
specifik samplestørrelse (n) eller specifikke frihedsgrader (df).
t-fordelingen tilnærmer formen af en normalfordeling.

Man kan beregne t-statistik for hver sample, og hele sættet af t-værdier vil danne en t-fordeling

Hvor godt en t-fordeling tilnærmer sig en normalfordeling bestemmes af frihedsgrader.


Generelt gælder det, at jo større sample-størrelsen (n) er, jo større er frihedsgraderne (n – 1), og jo
bedre tilnærmer t-fordelingen en normalfordeling.

Formen på en t fordeling:

Den præcise form på en t fordeling ændrer sig med frihedsgraderne.

Det vil sige, at der er en forskellig samplingsfordeling af t (en fordeling af alle mulige sample t-
værdier) for hvert muligt antal frihedsgrader.

Side 63 af 117
Når df bliver meget stor, kommer t-fordelingen tættere på en normal z-score-fordeling.

t-fordelingen har mere variabilitet end en normal z-fordeling, især når df-værdierne er små.

Det er således kun tælleren i z-score-formlen, der varierer, men både tælleren og nævneren for t-
statistikken varierer.

Som et resultat er t-statistikker mere variable end z-score, og t-fordelingen er fladere og mere
spredt. Når sample-størrelsen og df stiger, falder variabiliteten i t-fordelingen, og den minder mere
om en normalfordeling.

Bestemmelse af proportioner og sandsynligheder for t-fordelinger:

Den komplette t-fordelingstabel er præsenteret i appendiks B, side 703, og en del af denne tabel er
gengivet i tabel 9.1.

De to rækker øverst i tabellen viser proportioner af t-fordelingen indeholdt i enten en eller to haler,
afhængigt af hvilken række der bruges. Den første kolonne i tabellen viser frihedsgrader for t-
statistikken. Endelig er tallene i tabellens brødtekst de t-værdier, der markerer grænsen mellem
halerne og resten af t-fordelingen.

Når df stiger, bliver proportionerne i en t-fordeling mere som proportionerne i en normalfordeling.

Side 64 af 117
Hypotese test med t statistik:

I den hypotese-testende situation begynder vi med en population med et ukendt gennemsnit og


en ukendt varians, ofte en population der har fået en vis form for behandling. Målet er at bruge et
sample fra den behandlede population (et behandlet sample) som grundlag for at afgøre, om
behandlingen har nogen effekt.

Nulhypotesen giver en specifik værdi for det ukendte populationsmiddel.

Sample-dataene giver en værdi for samplegennemsnittet.

Til sidst beregnes variansen og den estimerede standard error ud fra sample-dataene. Når disse
værdier bruges i t-formlen, bliver resultatet:

Tælleren måler den faktiske forskel mellem stikprøvedataene (M) og populationshypotesen (μ).

Den estimerede standardfejl i nævneren måler, hvor stor forskel der er rimeligt at forvente
mellem et stikprøvemiddel og populationsmiddelværdien.

Når forskellen på data og hypotese er lille, opnår vi en t statistik når 0, og så forkastes


nulhypotesen ikke.

Når forskellen på data og hypotese er større, opnår vi en t statistik som er stor (både negativ eller
positiv), og nulhypotesen forkastes.

Den ukendte population:

Hypotesetest vedrører ofte en population, der har modtaget en behandling.

Spørgsmålet er, om behandlingen påvirker scorerne og får gennemsnittet til at ændre sig. I dette
tilfælde er den ukendte population den, der eksisterer efter at behandlingen er gennemført, og
nulhypotesen siger blot, at værdien af gennemsnittet ikke ændres af behandlingen.

Specifikt kræver t-testen ingen forudgående viden om populationsgennemsnittet eller


populationsvariansen.

Alt du behøver for at beregne en t-statistik er en nulhypotese og et sample fra den ukendte
population.

En t-test kan bruges i situationer, hvor nulhypotesen er opnået ud fra en teori, en logisk
forudsigelse eller blot ønsketænkning.

Side 65 af 117
Udregning af t statistik – hypotesetestning, to-halet

Følgende forskningssituation demonstrerer procedurerne for hypotesetestning med t-statistikken.

Eksemplet går ud på, at små børn hellere vil kigge på et attraktivt ansigt frem for et der ikke er
attraktivt.

De har 20 sekunder i alt, og bliver præsenteret for to billeder.

Der er 9 børn i alt.

Bemærk, at alle tilgængelige oplysninger kommer fra et sample. Konkret kender vi ikke
populationsgennemsnittet eller populationens standardafvigelse

Step 1: Angiv hypoteserne og vælg et alfaniveau

Selvom vi ikke har nogen information om populationen af scorerne, er det muligt at danne en
logisk hypotese om værdien af μ.

Nulhypotese: Børn har ikke en præference hvad der angår et pænt ansigt eller ej.
Her skal de altså kigge i ca. 10 sekunder på hvert billede.

Alternativ hypotese: Børn har en præference hvad der angår et pænt ansigt eller ej.

Vi sætter signifikansniveauet til α = .05 for to-halet test.

Step 2: Lokaliser den kritiske region:

Teststatistikken er en t-statistik, fordi populationsvariansen ikke er kendt.


Derfor skal værdien for frihedsgrader bestemmes, før det kritiske område kan lokaliseres.
Til denne sample:

For en to-halet test med signifikansniveauet 0,05 og med 8 frihedsgrader består den kritiske region
af t-værdier større end +2,306 eller mindre end –2,306.

Side 66 af 117
Step 3: Udregn t statistik

t-statistikken kræver typisk mere beregning end nødvendigt for en z-score.

Udregningen deles derfor op i 3 forskellige trin:

1: Udregn sample varians


Husk, at populationsvariansen er ukendt, og du skal bruge sampleværdien i stedet for. (Det er
derfor, vi bruger en t-statistik i stedet for en z-score.)

2: Beregn den estimerede standardfejl


Brug stikprøvevariansen (s2) og stikprøvestørrelsen (n) til at beregne den estimerede standardfejl.

Denne værdi er nævneren for t-statistikken og måler, hvor stor forskel der er rimeligt at forvente
ved en tilfældighed mellem et sample-gennemsnit og det tilsvarende populationsgennemsnit.

3: Beregn t statistik for sample data

4: Beslut hvilken af hypoteserne der forkastes


Den opnåede t-statistik på 3,00 falder i det kritiske område på højre side af t-fordelingen.

Vores statistiske beslutning er at afvise nulhypotesen og konkludere, at babyer viser en


præference, når de får valget mellem et attraktivt og et uattraktivt ansigt.

Side 67 af 117
Forudsætninger for t-test:

To grundlæggende antagelser er nødvendige for hypotesetest med t-statistikken:

1. Værdierne i stikprøven skal bestå af uafhængige observationer.

2. Den population, som sample tages af, skal være normal. Hvis du har grund til at
mistænke, at populationsfordelingen ikke er normal, skal du bruge en større sample
for at være sikker.

Indflydelsen af sample-størrelse og sample-varians:

Antallet af scores i samplet og størrelsen af sample-variansen har begge stor effekt på t-statistikken
og påvirker derved den statistiske beslutning.

Strukturen af t-formlen gør disse faktorer lettere at forstå:

Fordi den estimerede standard error, sM, optræder i formlens nævner, giver en større værdi for sM
en mindre værdi (tættere på nul) for t.

Enhver faktor, der påvirker standard error, påvirker således også sandsynligheden for at forkaste
nulhypotesen og finde en signifikant behandlingseffekt – og de to faktorer, der bestemmer
størrelsen af standard error, er sample-variansen, s2, og sample-størrelsen, n.

Måling af effektstørrelse for t-statistikken:

For hypotesetest, der anvender t-statistikken, er populationsgennemsnittet uden behandling


værdien angivet af nulhypotesen. Populationsgennemsnittet med behandling og
standardafvigelsen er begge ukendte.

Derfor bruger vi gennemsnittet for den behandlede sample og standardafvigelsen for samplet efter
behandling som estimater af de ukendte parametre.

Med disse substitutioner bliver formlen til at estimere Cohens d:

Side 68 af 117
En estimeret d på 1,00 indikerer, at størrelsen af behandlingseffekten svarer til én
standardafvigelse.

Det følgende eksempel viser, hvordan den estimerede d bruges til at måle effektstørrelsen for en
hypotesetest ved hjælp af en t-statistik:

Babyerne brugte i gennemsnit M = 13 ud af 20 sekunder at se på det attraktive ansigt. Det giver en


forskel på 3 sekunder fra det gennemsnit, som var hypotesen.

Standartafvigelsen er:

Derfor er Cohen´s d:

Måling af procentdelen af varians, r2:

En alternativ metode til at måle effektstørrelse er at bestemme, hvor meget af variabiliteten i


scorerne, der forklares af behandlingseffekten.

Konceptet bag dette mål er, at behandlingen får scorerne til at stige (eller falde), hvilket betyder, at
behandlingen får scorerne til at variere. Hvis vi kan måle, hvor meget af variabiliteten, der
skyldes/forklares af behandlingen, får vi et mål for størrelsen af behandlingseffekten.

Fjerner man behandlingseffekten, reducerer variabiliteten med 52,94 %


Denne værdi kaldes den procentdel af varians, som behandlingen udgør, og identificeres som r2

Formel for r2: Udregning fra tidligere eksempel:

Side 69 af 117
Konfidensintervaller til estimering af μ:

Konstruktionen af et konfidensinterval begynder med den observation, at hvert sample


gennemsnit har en tilsvarende t-værdi defineret af ligningen:

Selvom værdierne for M og sM er tilgængelige fra sample-dataene, kender vi ikke værdierne for t
eller for μ. Vi kan dog estimere t-værdien.

t-værdierne hober sig op omkring t = 0 i vores eksempel, så vi kan estimere, at t-værdien for vores
prøve bør have en værdi omkring 0.

Bemærk, at vi er i stand til at estimere værdien af t med et specifikt sikkerhedsniveau.

For at konstruere et konfidensinterval for μ sætter vi den estimerede t-værdi ind i t-ligningen, og så
kan vi beregne værdien af μ.

Den ene ende af intervallet er placeret ved M + t*sM og den anden ende er ved M - t*sM

Det mest almindeligt anvendte konfidensniveau er sandsynligvis 95 %, men værdier på 80 %, 90 %


og 99% er også almindelige.

I eksemplet bruges et konfidensniveau på 80%, hvilket betyder, at vi vil konstruere


konfidensintervallet, så vi er 80 % sikre på, at populationsgennemsnittet faktisk eksisterer i
intervallet.

Fordi vi bruger et konfidensniveau på 80 %, kaldes det resulterende interval: 80 %


konfidensintervallet for μ.

Side 70 af 117
Faktorer, der påvirker bredden af et konfidensinterval:

To karakteristika ved konfidensintervallet skal bemærkes:

For at få mere tillid til dit estimat, skal du øge bredden af intervallet. Omvendt, for at have et
mindre, mere præcist interval, skal du opgive konfidens. Hvis vi skulle øge konfidensniveauet til
95%, ville det være nødvendigt at øge intervallet af t-værdier og derved øge bredden af intervallet.

Jo større samplet (n) er, jo mindre er intervallet. Et større sample giver dig flere oplysninger om
populationen og giver dig mulighed for at lave et mere præcist skøn (et smallere interval).

Udregning af t statistik – hypotesetestning, en-halet

Den ikke-retningsbestemte (to-halede) test er mere almindeligt brugt end den retningsbestemte
(en-halede) alternativ.

Følgende eksempel demonstrerer en retningsbestemt hypotesetest med en t-statistik, der bruger


den samme eksperimentelle situation om børnene:

Specifikt testede forskeren et sample på n = 9 spædbørn og opnåede et gennemsnit på M = 13


sekunder ved at se på det attraktive ansigt med SS = 72.

Step 1: Angiv hypoteserne og vælg et alfaniveau


For denne undersøgelse siger nulhypotesen, at spædbørn ikke vil bruge mere end halvdelen af de
20 sekunder på at se på det attraktive ansigt.

Den alternative hypotese siger, at behandlingen vil virke. I dette tilfælde oplyser H1, at spædbørn vil
bruge mere end halvdelen af tiden på at se på det attraktive ansigt.

Vi sætter signifikansniveauet til at være α = .01.

Step 2: Lokaliser den kritiske region


Det kritiske område for den ensidede test vil bestå af positive t-værdier placeret i den højre hale af
fordelingen.

For at finde den kritiske værdi skal du kigge i t-fordelingstabellen ved hjælp af en-hale
proportionerne. Med et sample på n = 9 vil t-statistikken have df = 8; ved at bruge α = .01, bør du
finde en kritisk værdi på t = 2,896.

Side 71 af 117
Step 3: Beregn t statistik
Beregningen af t-statistikken er den samme for enten en et-halet eller en to-halet test.

Step 4: Tag en beslutning


Teststatistikken er i det kritiske område, så vi afviser nulhypotesen.

I en forskningsrapport vil resultaterne blive præsenteret som følger:

Tiden brugt på at se på det attraktive ansigt var væsentligt større, end man ville forvente, hvis der
ikke var nogen præference, t(8) = 3,00, p < 0,01, et-halet.

Side 72 af 117
Kapitel 10: t-test for to uafhængige samples
Introduktion til independent measures design:

De fleste forskningsstudier kræver sammenligning af to (eller flere) sæt data.

Når scorerne er numeriske værdier, vedrører forskningsspørgsmålet en gennemsnitlig forskel


mellem to sæt data.

De forskningsdesign, der bruges til at opnå de to sæt data, kan klassificeres i to generelle
kategorier:

1. De to sæt data kunne komme fra to helt adskilte grupper af deltagere. Dette kunne fx være
mænd og kvinder.
2. De to sæt data kunne komme fra den samme gruppe af deltagere. Dette kunne fx være
måling af depression før og efter behandling.

Independent-measures design eller between-subjects design er test af to forskellige samples/sæt


af data, som IKKE stammer fra samme population. Det svarer altså til punkt 1 ovenfor.

To separate samples bruges til at opnå to sæt af scoringer til at repræsentere


to populationer eller to behandlingstilstande som fx depression, der sammenlignes.

Repeated-measures design eller within-subjects design er test af to forskellige samples/sæt af


data, som stammer fra same population og deltagere.

Figur af independent-measures design:

Side 73 af 117
Nulhypotesen og independent measures t Statistik:

Det er vigtigt at kunne skelne mellem data fra de to forskellige samples.

Antallet af scorer i det første sample vil blive identificeret med n1 og for det anden sample er
antallet af scorer n2.

Sample-gennemsnittet vil blive identificeret ved M1 og M2.

Summen af kvadrater ville være SS1 og SS2.

Hypoteserne for en test af independent measures:

Målet med en independent measures undersøgelse er at evaluere den gennemsnitlige forskel


mellem to populationer (eller mellem to behandlingstilstande).

Gennemsnittet for den første population er μ1, og den anden befolkningsmiddelværdi er μ2.

Nulhypotesen vil derfor have formlen:

Den alternative hypotese vil have formlen:

Formlerne for hypotesetestning - independent measures:

Hypotesetesten for independent measures bruger en anden version af t-statistikken.


Den formlen der beskrives i kapitel 9 refereres til som single-case t statistik.
Den nuværende formel refereres til som independent measures t statistik.

1: Den grundlæggende struktur af t-statistikken er den samme for både independent measures og
hypotesetestene med single-sample hypotese test. I begge tilfælde er formlen:

2: Independent measures t statistik er dybest set en to-sample t statistik, der fordobler alle
elementerne i enkel-sample t-formlerne. Independent measures t statistik bruger forskellen
mellem to sample-gennemsnit til at evaluere en hypotese om forskellen mellem to
populationsgennemsnit. Således er den uafhængige-mål t-formel:

Side 74 af 117
M 1 og 2 bliver fundet i sample data, mens μ 1 og 2 kommer fra nulhypotesen. Når nulhypotesen
sætter populationernes gennemsnits forskel til 0, kan formlen gøres mere simpel:

Den estimerede standard error:

I single-sample t-formlen måler standard error mængden af fejl, der forventes for et sample-
gennemsnit og er repræsenteret ved symbolet sM.

For independent measures t-formlen måler standard error mængden af fejl, der forventes, når du
bruger en sample-gennemsnitsforskel (M1 – M2) til at repræsentere en populations-
gennemsnitsforskel (μ1 – μ2). Standard error er her symboliseret ved s(M1-M2).

I hvert tilfælde fortæller standard error, hvor meget uoverensstemmelse der er rimeligt at forvente
mellem samplestatistikken og den tilsvarende populationsparameter.

Fortolkning af den estimerede standardfejl:

Der er to måder at fortolke den estimerede standardfejl på (M1 − M2):

1. Den måler afstanden mellem (M1 − M2) og (μ1 − μ2)


2. Den måler standarden eller den gennemsnitlige størrelse af (M1 − M2), hvis
nulhypotesen er sand. Det vil sige, det måler, hvor stor forskel der er rimeligt at
forvente mellem de to sample-gennemsnit.

Beregning af den estimerede standard error:

For at danne formlen for s(M1-M2) skal vi følge 3 punkter:

1. Hver af de to sample-gennemsnit repræsenterer sit eget populationsgennemsnit, men i


begge tilfælde der er en standard error.

2. Mængden af standard error forbundet med hvert sample-gennemsnit måles ved den
estimerede standard error på M.

3. Vi ønsker at kende den samlede mængde standard error, der er involveret i at bruge to
sample-gennemsnit til at tilnærme sig de to populationsgennemsnit. For at gøre dette vil vi
finde standard error fra hvert sample separat og derefter lægge de to error’s sammen.
Den resulterende formel for standard error er:

Side 75 af 117
Pooled varians:

Variansen opnået fra et stort sample er et mere nøjagtigt estimat af σ2 end variansen opnået fra et
lille sample.

En metode til at korrigere ”skævheden” i standard error er at kombinere de to sample-varianser til


en enkelt værdi kaldet den samlede eller pooled varians.

Når der kun er 1 sample, er formlen for sample varians:

For statistikken independent measures er der to SS-værdier og to df-værdier (en fra hver sample).

Når der er 2 samples, er formlen for pooled varians:

Eksempel på beregning af pooled varians:

Pooled varians:

Hvis det ene sample er større end det andet, vil det vægte og trække pooled varians i den retning.
Pooled varians ligger altid et sted mellem de to sample varianser.

Den estimerede standard error:

Ved at bruge pooled varians i stedet for de individuelle samplevarianser, kan vi nu opnå et upartisk
mål for standard error for en sample-gennemsnitsforskel.

Formlen for standard error med pooled varians:

Side 76 af 117
Den endelige formel og frihedsgraderne:

Den endelige formel for independent measures t statistik er følgende:

Frihedsgraderne for independent measures t-statistikker bestemmes af df-værdierne for de to


separate samples:

Værdien for frihedsgraderne for independent measures t statistik er altså følgende:

Der trækkes 2 point fra – 1 fra hvert sample.

Den generelle struktur for t statistik kan vises som følgende:

Oversigt over formler – t statistik:

Side 77 af 117
Hypotesetests med independent measures t statistic:

Nedenfor vil fremgå et eksempel på udregning af en hypotesetest med to separate samples – en


independent measures t statistik.

Eksempel på hypotesetest - independent measures t statistik:

Undersøgelser viser at folk er mere uærlige og egoistiske i et mørkt rum frem for et lyst.
Deltagere skal løse et puslespil med 20 brikker, og de får 50 cent for hvert der er løst inden for 5
minutter. Det er muligt at snyde.

Vi vil undersøge, om folk har større tildens til at snyde i mørke frem for lys.

Data:

Step 1: Sæt hypoteserne og vælg alpha-niveau

Alpha-niveauet sættes til α = .05.

Step 2: Udregn frihedsgraderne

Med vores alpha-niveau på α = .05 er den kritiske region 5% af fordelingen.


Når vi slår op i tabellen, vil vores t værdier være + 2.145 og - 2.145.

Side 78 af 117
Step 3: Udregn t statistik

Først udregner vi variansen. Fordi vi har med to samples at gøre, udregner vi pooled varians:

Derefter bruger vi den udregnede pooled varians = 9 til at udregne standard error:

Derefter kan vi udregne vores t statistik:

Vores t = - 2.67

Step 4: Tag beslutning om hypoteser

Vores t-værdi på – 2,67 er i den kritiske region. Derfor forkaster vi vores nulhypotese, og
konkluderer at der er signifikant forskel på scorerne i et mørkt rum og lyst rum.

Side 79 af 117
Antagelser, der ligger til grund for independent measures t formel:

Der er tre forudsætninger, der skal være opfyldt, før du bruger independent measures
t formel for hypotesetestning:

1. Observationerne inden for hvert sample skal være uafhængige.


2. De to populationer, som samples er udvalgt fra, skal være normale.
3. De to populationer, som samples er udvalgt fra, skal have lige store varianser.

Hartley´s F-Max test:

Hvis de to populationsvarianser er ens, så burde de to sample-varianser være meget ens. Men hvis
den ene sample-varians er mere end tre eller fire gange større end den anden, er der grund til
bekymring.

Selvom der er mange forskellige statistiske metoder til at bestemme, om antagelsen om


homogenitet af varians er opfyldt, er Hartleys F-max test en af de enkleste at beregne og forstå.

F-max testen er baseret på princippet om, at en samplevarians giver et upartisk estimat af


populationsvariansen. Nulhypotesen for denne test siger, at populationsvarianserne er ens, derfor
bør samplevarianserne være meget ens.

Proceduren for at bruge F-max testen er som følger:

Step 1: Udregn sample varians for begge samples

Step 2: Udvælg den største og mindste varians og udregn F-max

En stor værdi indikerer stor forskel på sample-varianserne. En lille værdi (omkring 1.00) indikerer at
sample-varianserne er nogenlunde ens og at homogenitet er forsvarligt.

Step 3: Sammenlign F-Max værdien med den kritiske værdi i Tabel B.3, Appendix B.

Hvis værdien er større end den i tabellen, er varianserne for forskellige og de er ikke homogene.
For at finde den kritiske værdi, skal man kende:

 K = antallet af samples, her 2

 df = n − 1 for hver sample varians

Side 80 af 117
 Alpha-niveauet på enten .05 eller .01

Effektstørrelse og konfidensintervaller for independent measures t statistik:

Cohen’s d:

Når vi har med independent measures t at gøre, ser Cohen’s d lidt anderledes ud:

Cohen’s d for independent measures t:

Det bliver typisk en positiv værdi, fx d = 1,33.

r2 måler, hvor meget af variabiliteten i scorerne, der kan forklares med behandlingseffekterne. Ved
at måle præcis hvor meget af variabiliteten der kan forklares, kan vi få et mål for hvor stor
behandlingseffekten faktisk er.

Beregningen af r2 for independent measures t er nøjagtig den samme som den var for single-
sample t:

Side 81 af 117
Konfidensintervaller for at estimere μ1 – μ2:

Det er muligt at beregne et konfidensinterval som en alternativ metode til at måle og beskrive
størrelsen af behandlingseffekten.

For single-sample t brugte vi et enkelt sample-gennemsnit, M, til at estimere et enkelt


populationsgennemsnit.

For independent measures t bruger vi en sample-gennemsnitsforskellen, M1 − M2, til at estimere


populationsgennemsnitsforskellen, μ1 − μ2.

Vi kender M1 – M2 samt s(m1-m2).


Vi kan estimere t-værdien ved hjælp af frihedsgraderne, df.

Det giver os et interval af værdier mellem:

Side 82 af 117
Rollen af sample-varians og sample-størrelse i independent measures t test:

To faktorer, der spiller vigtige roller, er variabiliteten af scoringerne og størrelsen af samples. Begge
faktorer påvirker størrelsen af den estimerede standard error i nævneren af t-statistikken.

Standard error er direkte relateret til samplevarians, således at større varians fører til større fejl.

Som et resultat producerer større varians en mindre værdi for t-statistikken (tættere på nul) og
reducerer sandsynligheden for at finde et signifikant resultat.
I modsætning hertil er standard error omvendt relateret til samplestørrelsen (større størrelse fører
til mindre fejl).

Således producerer et større sample en større værdi for t-statistikken (længere fra nul) og øger
sandsynligheden for at afvise nulhypotesen.

Side 83 af 117
Kapitel 11: t-test for to relaterede samples
Introduktion til repeated-measures designs:

Repeated-measures designs er det samme som within-subjects design.

Med et design med gentagne målinger måles en gruppe af deltagere i to forskellige


behandlingsbetingelser, så der er to separate scores for hvert individ i samplet.

Fx kan en gruppe patienter måles inden behandling og efter behandling.

Den samme variabel måles altså to gange for samme sæt af individer. Vi gentager målingerne på et
sample. Der er således ingen risiko for, at deltagerne i én behandling er væsentligt forskellige fra
deltagerne i en anden.

Repeated-measures design:
Den afhængige variabel måles 2 eller flere gange for hvert individ i en enkelt sample.

Matched-subjects design:
Et matched-subjects design involverer to separate samples, men hvert individ i det ene sample
matches en-til-en med en person i det anden sample.

Individerne skal være forholdsvis ens i betragtning af variablen. Det kan også være flere variabler,
fx køn, alder osv.

I et repeated-measures design eller et matched-subjects design, der sammenligner to


behandlingsbetingelser, består dataene af to sæt scores, som er grupperet i sæt af to, svarende til
de to scores opnået for hver enkelt person eller hvert matchede par af fag.

Side 84 af 117
t-statistikken til repeated-subjects research design:

t-statistikken for repeated-subjects research design ligner strukturelt de andre t-statistikker, vi har
undersøgt.

Difference scorer: Data for repeated-subjects design

Når man måler scores to eller flere gange for same person, skrives de
som X1 og X2. Det kan fx være før og efter behandling.

Formlen for differencescoren er:

Differencen D kan både være positiv eller negativ, afhængigt af hvordan


behandlingen virker.

For at lave t statistik, bruger vi differencescorerne som data for samplet.

Her bruges antallet af D scores (n), samt gennemsnittet (MD) osv.

Hypoteserne for related-samples test:

Forskerens mål er at bruge sample af differencescore til at besvare spørgsmål om den generelle
population. Forskeren vil især gerne vide, om der er forskel på de to behandlingstilstande for den
almindelige population. Vi er altså interesserede i en population af differencescorer (alle er målt to
gange).

Nulhypotesen angiver at der ikke er forskel efter behandlingen:

Den alternative hypotese angiver at der er en forskel efter behandlingen:

Side 85 af 117
t-statistikken for related samples:

Vi har en population, for hvilken gennemsnittet og standardafvigelsen er ukendte, og vi har et


sample, der vil blive brugt til at teste en hypotese om den ukendte population.

Formlen for single-sample t statistik:

Sample genemsnit, M, er beregnet ud fra data mens populationsgennemsnittet er beregnet vha.


nulhypotesen. Den estimerede standard error er også beregnet ud fra data.

Når vi anvender related samples, sætter vi D bag ved symbolet.

Formel for repeated sample:

Den estimerede standard error er beregnet på samme måde som ved single-sample.

Vi udregner først variansen for samplet af D-scorer:

Derefter bruger vi sample variansen samt sample størrelsen n:

Side 86 af 117
Hypotesetests for repeated-measures design:

Hypotesetests med repeated-measures t-statistikken følger den samme fire-trins proces, som vi
har brugt til andre test.

Step 1: Sæt hypoteserne og vælg alpha-niveau

Vi sætter alphaniveauet til .05 for denne test.

Step 2: Lokaliser den kritiske region


N = 9, derfor har t statistikken df = n - 1 = 8
Når alphaniveauet er .05, er den kritiske værdi +- 2.306.

Step 3: Beregn t statistik

Vi starter med at beregne sample variansen:

Derefter bruger vi sample variansen til at beregne den estimerede standard error:

Slutteligt bruger vi sample gennemsnit og det hypoteserede populationsgennemsnit sammen med


standard error til at beregne en værdi for t statistikken:

Step 4: Tag en beslutning


Vores udregnede værdi på -3.00 ligger i den kritiske region. Derfor forkastes nulhypotesen.

Side 87 af 117
Retningshypoteser og en-halet test:

I eksemplet anvendes samme data som ovenfor:

Step 1: Sæt hypoteserne og vælg alphaniveau

Nulhypotese:

Alternativ hypotese:

Vi bruger alphaniveauet .01

Step 2: Lokaliser den kritiske region


Med n = 9, er vores df = 8.

Dermed får vi en kritisk værdi på t = 2,896 for en-halet test med a = .01

Derfor vil enhver t-statistik over 2,896 (både positiv og negativ) resultere i, at nulhypotesen
forkastes.

Step 3: Beregn t statistik


I tidligere eksempel udregnede vi t = -3.00

Step 4: Tag en belustning


Den udregnede t-værdi er over den kritiske grænse. Derfor forkastes nulhypotesen.

Forudsætninger for related-samples t test:


Statistikken for related-samples kræver to grundlæggende antagelser.

1. Observationerne inden for en behandlingstilstand skal være uafhængige. Bemærk,


at antagelsen om uafhængighed refererer til scorerne inden for hver behandling.
Inden for hver behandling opnås scorerne fra forskellige individer og bør være
uafhængige af hinanden.

2. Populationsfordelingen af forskelsscore (D-værdier) skal være normal.

Side 88 af 117
Effektstørrelse og konfidens intervaller for repeated-measures t:

Som vi bemærkede med andre hypotesetest, anbefales det, når en behandlingseffekt er beregnet
til at være statistisk signifikant, at du også rapporterer et mål for effektens absolutte størrelse.

Man kan her bruge 3 forskellige måder at måle effektens størrelse:


 Cohen’s d
 Den procentvise varians, der tages højde for – r2
 Konfidensintervaller for at estimere 𝛍D

Cohen´s d:

Formlen for at beregne Cohen´s d for repeated-measures:

Fordi populationens gennemsnit og standardafvigelse begge er ukendte, bruger vi i stedet


sampleværdierne.

Samplegennemsnittet, MD, er det bedste estimat af den faktiske gennemsnitsforskel og samplet


standardafvigelse giver os det bedste estimat af den rigtige standardafvigelse.

Derfor er formlen for d:

Her beregnes den estimerede Cohen´s d:

Den procentvise varians, der tages højde for, r2

Procentdel af varians beregnes ved hjælp af den opnåede t-værdi og df-værdien fra
hypotesetesten, nøjagtigt som det blev gjort for single-sample t:

Side 89 af 117
Konfidensintervaller for at estimere 𝛍D

Det er muligt at beregne et konfidensinterval som en alternativ metode til at måle og beskrive
størrelsen af behandlingseffekten.

Vi løser først t-statistikken for den ukendte parameter:

I ligningen er værdierne for MD og for sMD opnået fra sampledataene.

Selvom værdien for t-statistikken er ukendt, kan vi bruge frihedsgrader for t-statistikken og t-
fordelingstabellen til at estimere t-værdien.

Vi bruger samme eksempel fra tidligere til beregning:

Med et sample på n = 9 deltagere har repeated-measures statistikken df = 8.

Vi har udregnet MD til at være = -2 point.


Den estimerede standard error for gennemsnitsdifferencen er = 0,667

For at have 95 % konfidens estimerer vi blot, at t-statistikken for samplegennemsnitsforskellen er


placeret et sted i de midterste 95 % af alle de mulige t-værdier.

Dette giver os et resultat på - 3,538 til - 0,462.

Vi er derfor 95% sikre på, at vores gennemsnitsforskel ligger inden for dette interval.

Konklusionen kan opstilles således:

Side 90 af 117
Sammenligning af repeated- og independent-measures design:

I mange forskningssituationer er det muligt at bruge enten et design repeated-measures design


eller et independent-measures design til at sammenligne to behandlingsforhold.

Independent-measures design ville bruge to separate samples (et i hver behandlingstilstand).

Repeated-measures design ville kun bruge ét sample med de samme individer, der deltog i begge
behandlinger. Generelt har dette design flere fordele.

Antallet af personer, n:
Repeated-measures design kræver typisk færre emner end independent-measures design.

Repeated-measures design bruger forsøgspersonerne mere effektivt, fordi hvert individ måles i
begge behandlingsbetingelser.

Undersøgelsesændringer over tid:


Repeated-measures design er særligt velegnet til at studere læring, udvikling eller andre
ændringer, der finder sted over tid.

Husk, at dette design ofte involverer måling af individer på én gang og derefter vende tilbage for at
måle de samme individer på et senere tidspunkt. På denne måde kan en forsker observere adfærd,
der ændrer sig eller udvikler sig over tid.

Individuelle forskelle:
Den primære fordel ved repeated-measures design er, at det reducerer eller eliminerer problemer
forårsaget af individuelle forskelle.

Individuelle forskelle er karakteristika som alder, IQ, køn og personlighed, der varierer fra individ til
individ. Disse individuelle forskelle kan påvirke scoren opnået i en forskningsundersøgelse, og de
kan påvirke resultatet af en hypotesetest.

Tidsrelaterede forskelle:
Den primære ulempe ved repeated-measures design er, at designets struktur giver mulighed for, at
andre faktorer end behandlingseffekten får en deltagers score til at ændre sig fra den ene
behandling til den næste.

Side 91 af 117
Kapitel 17: Chi-Square-statistikken - Tests for goodness of fit
og uafhængighed

Introduktion for Chi-Square test:

Alle de statistiske test, vi har undersøgt indtil videre, er designet til at teste hypoteser om
specifikke populationsparametre.

For eksempel brugte vi t-tests til at vurdere hypoteser om en populationsgennemsnit (μ) eller den
gennemsnitlige forskel (μ1 – μ2).

Parametriske tests:
Populationsfordelingerne antages at være normale, og der kræves varianshomogenitet.
Fordi disse tests alle vedrører parametre og kræver antagelser om parametre, kaldes de
parametriske tests.

Et andet generelt kendetegn ved parametriske test er, at de kræver en numerisk score for hver
enkelt person i samplet. Scoringerne tilføjes derefter, kvadreres, gennemsnittet og på anden måde
manipuleres ved hjælp af grundlæggende aritmetik.

Parametriske tests kræver data fra interval eller ratio skala – dvs. numerisk data.

Ikke-parametriske tests:
Kaldes nogle gange for distributions-frie tests.

Der er flere hypotesetestningsteknikker, der giver alternativer til parametriske tests.


Disse alternativer kaldes ikke-parametriske tests.

Herfra lægges fokus på de ikke-parametriske tests. Der findes to eksempler på brug af disse, og
begge slags tests er baseret på en statistik kaldet Chi-Square.
Der anvendes sample data til at evaluere hypoteserne.

Ikke-parametriske tests kræver oftest data fra nominal eller ordinal data, og ikke numeriske
værdier. Deltagerne er ofte klassificeret i kategorier som demokrat og republikaner, eller høj,
medium og lav IQ.

Hvornår er det bedst at ændre data fra numerisk til kategorisk?


 Det kan nogle gange virke mere overskueligt og nemmere.
 De originale scores kan være i modstrid med nogle af de grundlæggende antagelser, der
ligger til grund for visse statistiske procedurer.
 De originale scores kan have en usædvanlig høj varians.
 Ved en ubestemt eller uendelig scorer – fx hvis opgaven aldrig løses.

Side 92 af 117
Chi-Square test for goodness of fit:

Der er situationer, hvor en forsker har spørgsmål om proportionerne eller relative frekvenser for en
fordeling. Dette kunne fx være:

 Er Coca Cola eller Pepsi mest populært i Danmark blandt befolkningen?


 Hvor mange kvinder er advokater i forhold til antal mænd?

Bemærk, at hvert af de foregående eksempler stiller et spørgsmål om proportioner i befolkningen.


Vi måler ikke en numerisk score for hver enkelt person.

Chi-square-testen for god pasform er specifikt designet til at besvare denne type spørgsmål.

Generelt bruger denne chi-square-test proportionerne opnået for sample-data til at teste
hypoteser om de tilsvarende andele i populationen.

Nulhypotesen for Goodness-of-fit test:

Testen kaldes Chi-Square of goodness of fit.

Chi-Square of goodness of fit testen angiver nulhypotesen andelen (eller procentdelen) af


populationen i hver kategori. Dette kunne fx være at halvdelen af advokater er mænd, og den
anden halvdel er kvinder.

Nulhypotesen kan kalde ind under 2 kategorier:

No-preference hypotesen, lige fordelinger:

Nulhypotesen siger ofte, at der ikke er nogen præference blandt de forskellige kategorier.
For eksempel vil en hypotese om, at der ikke er nogen præference blandt de tre førende mærker af
læskedrikke, specificere en populationsfordeling som følger:

No-preference-hypotesen bruges i situationer, hvor en forsker ønsker at afgøre, om der er


præferencer blandt kategorierne, eller om proportionerne er forskellige fra den ene kategori til den
anden.

Den alternative hypotese angiver simpelt så, at populationsfordelingen har en anden form end den
i nulhypotesen.

Side 93 af 117
No-difference hypotese:
Nulhypotesen kan sige at proportionerne for én population er ikke forskellig fra proportionerne,
som der vides at eksistere for en anden population.

No-difference hypotesen bruges, når en specifik befolkningsfordeling allerede er kendt.

Man kan have en kendt fordeling for én population (fx chauffører), og spørgsmålet er, om en anden
population (fx fartbøder) har de samme proportioner.

Den alternative hypotese (H1) siger egentlig blot, at populationsandelene ikke er lig med
værdierne angivet af nulhypotesen.

Data for Goodness-of-Fit test:


Dataene for en chi-square-test er meget enkle.
Der er ingen grund til at beregne et sample-gennemsnit eller SS. Du vælger bare et udsnit af n
antal individer og tæller, hvor mange der er i hver kategori.

De værdier kaldes observerede frekvenser. Symbolet er

Eksempel på observerede data:

Summen af alle observerede data svarer til sample-størrelsen. Meget simpelt.

Forventede frekvenser:
Målet er at bestemme, hvor godt dataene passer til fordelingen specificeret i H0 - deraf navnet
goodness of fit.

Det første trin i chi-square-testen er at konstruere en hypotetisk sample, der repræsenterer,


hvordan samplefordelingen ville se ud, hvis den var i perfekt overensstemmelse med
proportionerne angivet i nulhypotesen. Dette kunne se således ud:

Side 94 af 117
Hvis nulhypotesen er sand, og vi har 40 individer, ser beregningen således ud:

Den frekvens der er forudsagt af nulhypotesen kaldes de forventede frekvenser.


Symbolet er

Den forventede frekvens har formlen:

p er andelen angivet i nulhypotesen, og n er sample størrelse.

Chi-Square statistikken:

Chi-Square-statistikken måler simpelthen, hvor godt dataene f0 passer til hypotesen fe. Symbolet
for chi-square-statistikken er χ2.

Formlen for chi-kvadratstatistikken er:

Værdien af chi-square findes med følgende steps:

1. Find forskellen mellem f0 (data) og fe (hypotesen) for hver kategori.

2. Kvadrer forskellen, så alle værdier er positive.

3. Divider den kvadrerede forskel med fe

4. Læg summen af værdierne sammen for alle kategorierne.

Side 95 af 117
Et eksempel på Chi-Square Test for Goodness of Fit:

Andele eller observerede frekvenser i samplet forventes ikke at være nøjagtigt lig med andele i
populationen.

Så hvis der er små uoverensstemmelser mellem f0- og fe-værdierne, får vi en lille værdi for chi-
square, og vi konkluderer, at der er en god pasform mellem data og hypotese (kan ikke afvise H 0).

Men når der er store uoverensstemmelser mellem f0 og fe, får vi en stor værdi for chi-square og
konkluderer, at dataene ikke passer til hypotesen (afvis H0).

For at afgøre, om en bestemt chi-square-værdi er "stor" eller "lille", skal vi henvise til en chi-
square-fordeling.

Denne fordeling er sættet af chi-square værdier for alle de mulige tilfældige samples, når
nulhypotesen er sand. Således er alle chi-square værdier nul eller større.

1. Formlen for chi-square involverer at tilføje kvadratiske værdier, så du aldrig kan


opnå en negativ værdi.

2. Når nulhypotesen er sand, forventer du, at data (f0-værdier) er tæt på hypotesen (fe-
værdier). Vi forventer således, at chi-square værdier er små, når nulhypotesen er
sand.

Den typiske chi-square fordeling er positivt skæv.

Der er en anden faktor, der spiller en rolle i den nøjagtige form af chi-square fordelingen, nemlig
antallet af kategorier. Jo flere kategorier du har, jo mere sandsynligt er det, at du får en stor sum
for chi-square værdien.

Teknisk set er hver specifik chi-square fordeling identificeret ved frihedsgrader (df) i stedet for
antallet af kategorier. For goodness-of-fit test bestemmes frihedsgraderne af formlen:

C = antallet af kategorier.

Side 96 af 117
Lokalisering af den kritiske region for Chi-Square test:

For at afgøre, om en bestemt chi-square-værdi er væsentligt stor, skal du kigge i tabellen med titlen
Chi-square-fordelingen (bilag B).

En komplet Chi-Square Test for Goodness of Fit:

Undersøgelsen omhandler et maleri, som ikke tydeligt viser hvad der er top og bund af maleriet.
Det kan altså vendes alle 4 sider af de 50 deltagende. Vi undersøger, hvilken side de deltagende
vælger skal være opad.

Step 1: Angiv hypoteserne og vælg alpha-niveau


Nulhypotese: Der er ingen præference for hvad side der skal vende opad.

Alternativ hypotese: Der er en præference for hvilken side der skal vende opad, og dermed vil en af
valgmulighederne være foretrukken.

Vi sætter alphaniveauet til at være a = .05

Step 2: Lokaliser den kritiske region


Vi beregner først vores frihedsgrader.

Frihedsgraderne vil altid være 1 mindre end antallet af kategorier.


Vi har nu df = 3 samt a = .05.

Side 97 af 117
Vi slår vores kritiske grænse op i tabellen.
X2 har en kritisk grænse på 7,81

Step 3: Beregn Chi-Square statistik


Beregningen er en 2-step proces.

Først beregnes de forventede frekvenser for nulhypotesen hvorefter værdien af Chi-Square


beregnes.

Nu har vi både de observerede frekvenser samt de forventede (nulhypotese) frekvenser:

Når vi har alle disse værdier, kan vi beregne vores Chi-Square statistik:

Vores værdi er beregnet til at være 8,08.

Step 4: Beslut og konkluder

Vores beregnede værdi er i den kritiske værdi, og derfor forkastes nulhypotesen.

The participants showed significant preferences among the four orientations for hanging the
painting, χ2(3, n = 50) = 8.08, p < .05.

Side 98 af 117
Chi-Square test for uafhængighed:

Chi-square-statistikken kan også bruges til at teste, om der er en sammenhæng mellem to variable.
I denne situation bliver hvert individ i samplet målt eller klassificeret på to separate variable.

En gruppe studerende kan fx være introverte eller ekstroverte, samt at de også har en
yndlingsfarve.

Normalt præsenteres dataene fra denne klassifikation i form af en matrix, hvor rækkerne svarer til
kategorierne af en variabel, og kolonnerne svarer til kategorierne for den anden variabel.

Disse data er tilstrækkelige til at konkludere, at der er en signifikant sammenhæng mellem


personlighed og farvepræference i populationen af studerende.

Proceduren for at bruge samplefrekvenser til at evaluere hypoteser vedrørende relationer mellem
variabler involverer en anden test ved hjælp af chi-square-statistikken.
I denne situation kaldes testen dog chi-square-testen for uafhængighed/independence.

Nulhypotesen for test for uafhængighed:

Version 1 af nulhypotese:
For denne version af nulhypotesen ses dataene som et enkelt sample med hver enkelt målt på to
variable. Målet med chi-square-testen er at evaluere sammenhængen mellem de to variable.
Er der sammenhæng mellem personlighed og yndlingsfarve?

Nulhypotesen er, at der ingen sammenhæng er.


Den alternative hypotese er, at der en sammenhæng mellem de to variable.

Version 2 af nulhypotese:
For denne version af nulhypotesen ses dataene som to (eller flere) separate samples, der
repræsenterer to (eller flere) populationer eller behandlingsbetingelser. Målet med chi-square-
testen er at afgøre, om der er signifikante forskelle mellem populationerne.

Nulhypotesen er, at andelene i fordelingen af farvepræferencer for introverte er ikke forskellige fra
proportionerne i fordelingen af farvepræferencer for ekstroverte. De to fordelinger har samme
form (samme proportioner).
Den alternative hypotese er, at populationerne har forskellige andele. Fordelingen vil ikke være den
samme.

Side 99 af 117
Ligestilling af version 1 og 2:

Selvom vi har præsenteret to forskellige udsagn af nulhypotesen, er disse to versioner ækvivalente.

Den første version siger, at den foretrukne farve ikke har noget med personlighed at gøre. Hvis 60%
af de introverte har farven rød som yndlingsfarve, vil 60% af de ekstroverte have det samme.

Når vi finder de samme proportioner/andele, er der ingen intet forhold.

To variable er altså uafhængige, når der intet forhold er mellem dem.

Version 1 siger, at der intet forhold er mellem de to variable.


Version 2 siger, at fordelingerne vil have lige store andele.

Observerede og forventede frekvenser:

Chi-square-testen for uafhængighed bruger den samme grundlæggende logik, som blev brugt til
goodness-of-fit-testen.

Først udvælges et sample, og hvert individ klassificeres eller kategoriseres. Fordi testen for
uafhængighed overvejer to variable, klassificeres hvert individ på begge variabler, og den
resulterende frekvensfordeling præsenteres som en todimensionel matrix.

Når de forventede frekvenser er opnået, beregner vi en chi-square-statistik for at bestemme, hvor


godt dataene (observerede frekvenser) passer til nulhypotesen (forventede frekvenser).

For at finde de forventede frekvenser bestemmer vi først den overordnede fordeling af


farvepræferencer og anvender derefter denne fordeling på begge kategorier af personlighed.

For de introverte (n=50), vil beregningerne af de forventede frekvenser for nulhypotesen være:

Side 100 af 117


For de ekstroverte (n=150), vil beregningerne af de forventede frekvenser for nulhypotesen være:

Derefter kan de forventede frekvenser indsættes i vores frekvens-distribution:

Formel for beregningen af forventede frekvenser:


Der er en simpel formel, der bestemmer fe for enhver celle i frekvensfordelingsmatrixen.

fc er den samlede sum af frekvenser for kolonnen.


fr er den samlede sum af frekvenser for rækken.

Chi-Square statistik og frihedsgrader:

Chi-square-testen for uafhængighed bruger nøjagtig den samme chi-square-formel som testen
for goodness of fit:

Som før målte formlen uoverensstemmelsen mellem dataene (fo værdier) og hypotesen (fe
værdier).

For at afgøre, om en bestemt chi-square-statistik er signifikant stor, skal du først bestemme


frihedsgrader (df) for statistikken og derefter tjekke chi-square-fordelingen i tabellen.

Side 101 af 117


Hvis R er antallet af rækker og C er antallet af kolonner, og du fjerner den sidste kolonne og den
nederste række fra matricen, står du tilbage med en mindre matrix, der har C – 1 kolonner og R – 1
rækker.

Antallet af celler i den mindre matrix bestemmer df-værdien. Således er det samlede antal fe-
værdier, som du frit kan vælge, (R – 1) (C – 1), og frihedsgraderne for chi-square-testen for
uafhængighed er givet af formlen:

Eksempel på Chi-Square Test for uafhængighed:

Følgende eksempel viser den komplette hypotesetestprocedure for chi-square test for
uafhængighed.

Undersøgelsen:
Mange unge får lov at drikke lidt sammen med en voksen, mens andre ikke gør. Har det indflydelse
på alkoholrelaterede problemer som blackouts, slåskampe osv?

Data:

Step 1: Angiv hypotese og vælg signifikansniveau

Nulhypotese:
I den generelle population er der ingen sammenhæng mellem forældres regler for alkoholforbrug
og udviklingen af alkoholrelaterede problemer.

Alternativ hypotese:
Der er et forhold og en sammenhæng mellem forældres regler for alkoholforbrug og udviklingen af
alkoholrelaterede problemer.

Signifikansniveau:
Vi bruger a = .05

Side 102 af 117


Step 2: Bestem frihedsgraderne og lokaliser den kritiske region

Frihedsgraderne:

R er antallet af rækker og C er antallet af kolonner

Når df = 1 og a = .05, kan vi se i tabellen at værdien for chi-square er 3,84

Step 3: Bestem de forventede frekvenser og beregn chi-square statistik

Dem der ikke fik lov at drikke:

Dem der fik lov at drikke:

Nu kan vi udfylde vores skema/matrix:

Nu beregner vi vores chi-square statistik til at måle uoverensstemmelsen mellem dataene (de
observerede frekvenser) og nulhypotesen, der blev brugt til at generere de forventede frekvenser.

Side 103 af 117


Vores udregnede værdi for chi-square er 6,381

Step 4: Tag en beslutning vedrørende hypotese

Vores udregnede værdi på 6,381 overstiger den kritiske værdi på 3,84. Derfor forkaster vi
nulhypotesen.

Resultatet for undersøgelsen kan skrives som følgende:

χ2(1, n = 200) = 6.381, p < .05

Effektstørrelse og antagelser for Chi-Square Tests:

Cohen´s w:

Hypotesetests, ligesom chi-square-testen for goodness of fit eller for uafhængighed, evaluerer den
statistiske signifikans af resultaterne fra en forskningsundersøgelse.

Specifikt er hensigten med testen at bestemme, om det er sandsynligt, at de mønstre eller


sammenhænge, der er observeret i sampledataene, kunne være opstået uden tilsvarende mønstre
eller sammenhænge i populationen.

Cohen (1992) introducerede en statistik kaldet w, der giver et mål for effektstørrelsen for en af chi-
square-testene. Formlen for Cohens w er meget lig chi-square-formlen, men bruger proportioner i
stedet for frekvenser.

Formel for Cohen´s w:

I formlen er P0-værdierne de observerede proportioner i dataene og opnås ved


dividere hver observeret frekvens med det samlede antal deltagere.

Formel for observeret proportion:

Side 104 af 117


Tilsvarende er Pe-værdierne de forventede proportioner, der er specificeret i nulhypotesen.

Formlen kan deles op på følgende måde:

1. Beregn forskellen mellem den observerede proportion/andel og den forventede


andel for hver celle (kategori).
2. For hver celle skal du kvadrere forskellen og dividere med den forventede andel.
3. Tilføj værdierne fra trin 2 og tag kvadratroden af summen.

Eksempel på beregning af effektstørrelse:

Undersøgelse:
Vi vil undersøge, om 40 studerende har et foretrukket pizzeria.

Data:

Nulhypotese:
Der er ingen præference af pizzeria.

Den forventede proportion er P = 0,25 for hver.

De observerede proportioner er 6/40 = 0,15 for butik A, 12/40 = 0,30 for butik B, 8/40 = 0,20 for
butik C og 14/40 = 0,35 for butik D.

Udregningerne for Cohen´s w:

Værdier nær 0,10 indikerer en lille effekt


Værdier nær 0,30 indikerer en mellem effekt
Værdier nær 0,50 indikerer en stor effekt

Vores udregnede Cohen´s w har en mellem effekt.

Side 105 af 117


Sample-størrelsens rolle:

Sample-størrelse har ingen betydning for w.


Sample-størrelse har dog en stor betydning for udfaldet af en hypotesetest.

Chi-Square og w:

Selvom chi-square-statistikken og effektstørrelsen målt ved w er beregnet til forskellige formål og


påvirkes af forskellige faktorer, er de algebraisk relaterede.

Den del af formlen for w, der er under kvadratroden, kan opnås ved at dividere formlen for chi-
square med n.

Som et resultat kan du bestemme værdien af w direkte fra chi-square-værdien ved hjælp af
følgende ligning:

Phi-koefficienten og Cramer´s V:

2 andre mål er udviklet specifikt til denne hypotesetest.


Disse to mål, kendt som Phi-koefficienten og Cramérs V, tager højde for størrelsen af data-matricen
og anses for at være en del bedre i forhold til w, især med meget store data-matricer.

Phi-koefficienten:
Phi er en korrelation som måler styrken af sammenhængen, snarere end signifikansen, og giver
dermed et mål for effektstørrelsen. Den bruges ved 2 x 2 matrix.

Værdien for phi-koefficienten kan beregnes direkte fra chi-square ved følgende formel:

For phi:

0,10 er en lille effekt


0,30 er en medium effekt
0,50 er en stor effekt

Side 106 af 117


Cramer´s V:

Når matrixen er større end 2 x 2, kan Cramer´s V bruges til at måle effektstørrelse.

Formel for Cramer´s V:

df*-værdien er ikke den samme som frihedsgraderne for chi-square-testen, men den er relateret.
For Cramérs V er værdien af df* den mindste af enten (R – 1) eller (C – 1).

For undersøgelsen i eksemplet opnåede vi χ2 = 6,381 for et sample på n = 200 deltagere.


Fordi dataene danner en 2 × 2 matrix, er phi-koefficienten det passende mål for effektstørrelsen,
og dataene producerer:

I en rapport ville konklusionen lyde som følgende:

The results showed a significant relationship between parents’ rules about alcohol and subsequent
alcohol-related problems, χ2(1, n = 200) = 6.381, p < .05, φ = 0.179.

Specifically, teenagers whose parents allowed supervised drinking were more likely to experience
problems.

Side 107 af 117


Antagelser og begrænsninger for chi-square tests:

For at bruge en chi-square test for goodness-of-fit eller en test af uafhængighed skal flere
betingelser være opfyldt. For enhver statistisk test sår overtrædelse af antagelser og
begrænsninger tvivl om resultaterne.

1. Uafhængighed af observationer. En konsekvens af uafhængige observationer er, at


hver observeret frekvens genereres af et andet individ. En chi-square-test ville være
uhensigtsmæssig, hvis en person kunne producere svar, der kan klassificeres i mere
end én kategori eller bidrage med mere end én frekvenstælling til en enkelt
kategori.

2. Størrelsen af forventede frekvenser. En chi-square-test bør ikke udføres, når den


forventede frekvens af en celle er mindre end 5.

Særlige anvendelser af Chi-Square tests:

Generelt bruges ikke-parametriske tests som afløser til parametriske test, hvor en af følgende
forekommer:

 Dataene opfylder ikke de forudsætninger, der er nødvendige for en standard parametrisk


test.
 Dataene består af nominelle eller ordinale målinger, så det er umuligt at beregne standard
deskriptiv statistik såsom middelværdi og standardafvigelse.

Side 108 af 117


Sandsynlighed + binomial fordeling:
Sandsynlighed:

Når en begivenhed kan ske i A måde og ikke skal i B måder, mens alle mulige scenarier er mulige,
så er sandsynligheden for begivenheden A/(A+B). Sandsynligheden for at fejre er B/(A+B).

Event:
Sandsynligheden for noget

Uafhængige events:
To events, hvis eksistens ikke påvirker den anden.

Gensidigt udelukkende events:


To events, som udelukker sandsynligheden for hinanden.

Exhaustive:
Et sæt af events med alle mulige outcomes.

Additions-lov for sandsynlighed:


Ved et sæt af gensidigt udelukkende events, vil sandsynligheden for forekomsten af et event eller
et andet være lige med summen af deres separate sandsynlighed. Hvis en M&M er blå, så kan den
ikke være grøn.

Multiplikations-lov for sandsynlighed:


Sandsynligheden for den samlede forekomst af to eller flere uafhængige events er produktet af
deres individuelle sandsynlighed. Hvad er sandsynligheden for at trække to blå M&M i træk?

Sandsynligheden for at trække 1 M&M er 24/100 = 0,24.


Sandsynligheden for at trække 2 M&M er 0,24 x 0,24 = 0,0576

Sampling med udskiftning:


Når der trækkes 1 blå M&M, vil der ikke være 24 ud af 100 M&M tilbage – men 23 ud af 99.

Sampling uden udskiftning:


Når der trækkes 1 blå M&M, vil den lægges tilbage, og der vil stadig være 24 ud af 100 til næste
forsøg.

Fælles sandsynlighed:
Sandsynligheden for den samtidige forekomst af to eller flere events.

Betinget sandsynlighed:
Sandsynligheden for at et event sker, når et andet event er sket.

Side 109 af 117


Binomial-fordelingen:

Binomial fordelingen kan bruges til at teste hypoteser.

Binomial fordelingen håndterer situationer, hvor hvert af et nummer af uafhængige forsøg


resulterer i 1 ud af 2 gensidigt lukkende udfald. Sådan et forsøg kaldes Bernoulli Trail.

Det kunne fx være at kaste en mønt. Der er kun to udfald.


Det kunne fx være at 20 ud af 30 patienter med kræft overlever.

Man kan kun få hele tal. Man kan fx ikke sige at 22,5 ud af 30 overlever. Eller mønten kan ikke falde
3,5 / 5 gange på den samme side.

Binomial-koefficienten:

Antallet af kombinationer

Bruge binomialfordeling til at teste hypoteser:

Binomialfordelingen er en særlig fordeling som beskriver sandsynligheden for x “succeser” for N


(uafhængige) patienter, hvor hver patient har en sandsynlighed for succes på 𝜋.

Formel:

Binomial test:

𝜋 (pi) står for en ukendtsandsynlighed

Permutationer:

Hvis man skelner mellem alle individer, er antallet af unikke


permutationer for 𝑁 patienter 𝑁!
(”!”betyder ”fakultet”)

𝑁! = 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ 𝑁

Side 110 af 117


Permutationer (binære begivenheder):
For at bestemme effektiviteten af behandlingen, er vi kun
interesseret i antallet af succeser, ikke i de individuelle resultater.

Lad os antage, at 𝑥 patienter havde succes af behandlingen


hvorimod 𝑁 − 𝑥 ikke havde. I sådan en situation reduceres
antallet af kombinationer:

Ved 𝑁 = 3 og en succes (𝑥 = 1), har vi kun 3 forskellige


kombinationer tilbage (jf. kombination 1, 3 og 4). De resterede 3
kombinationer er ikke .længere unikke.

Hvis behandlingen af en patient kun kan være en succes eller fiasko, reduceres antallet af unikke
kombinationer.

Denne reduktion betyder, at antallet af alle permutationer (𝑁!) divideres med antallet af
permutationer for (begge) binære begivenheder.

Funktionen kaldes for Binomialkoefficient, som skrives:

Binomialkoefficienten angiver antallet af unikke kombinationer for binære begivenheder med 𝑥


succeser ud af 𝑁 delforsøg.

Sandsynligheden for x succeser:

Side 111 af 117


Binomialtest:

Step 1: Opsæt nulhypotesen og vælg N og


signifikansniveauet a.

Step 2: Bestem punktsandsynlighederne P(X=x) for X = 0


osv N succeser.

Step 3: Opsummer punktsandsynligheder så længe


summen er mindre end a. Dette definerer den region hvor
nulhypotesen forkastes.

Step 4: Kør studiet

Step 5: xobs er antallet af observerede succeser. Ligger den


i regionen for afvisning af nulhypotesen?

Side 112 af 117


Mann-Whitney test:
Den ikke-parametrisk test vi benytter til at sammenligne to uafhængige (independent) grupper
blev udviklet af Wilcoxon (1945) og videreudviklet af Mann og Whitney (1947) og vi kalder den
derfor Wilcoxon-Mann-Whitney testen (eller blot Mann-Whitney testen).

Mann-Whitney testen bruges ved ordinal data med 2 grupper.

U test:

Forskningsspørgsmål:
Er der forskel på fordeling af karakterer i de to grupper?

Nulhypotesen:
Fordelingen af karakterer i de to grupper er ens.

Alternativ hypotese:
Der er en forskel på fordelingen af karakterer i de to grupper.

Mann-Whitney U statistikken:
Grupperne konkurrerer mod hinanden om at tage flest stik. U
angiver antallet af gange den mindst
succesfulde gruppe vinder over den anden gruppe.

U=1

Side 113 af 117


Side 114 af 117
Power (binomial og t test):
Power er sandsynligheden for at finde en signifikant forskel på om den effekt der søges er ægte.

Det er en funktion af signifikansniveauet a - sandsynligheden for en type 1 fejl, den ægte


alternative hypotese, sample størrelse og den specifikke test der skal laves.

Side 115 af 117


Missing data:
I nogle undersøgelser kan man komme ud for, at der af den ene eller anden grund kommer til at
mangle data fra 1 eller flere forsøgspersoner.

Side 116 af 117

You might also like