You are on page 1of 11

INDUKTIV STATISTIK af Finn H. Kristiansen, Th.

Langs HF og VUC

Vi skal nu beskftige os med den gren af statistikken, som kaldes induktiv statistik. I kender
allerede deskriptive statistik, som udelukkende beskftiger sig med at beskrive, som navnet ogs
siger. I den deskriptive statistik beskriver man datast v.hj. af deskriptorer som fx middeltal,
median og kvartiler og man laver grafiske fremstillinger p grundlag af datasttet. Mlet er frst og
fremmest at skaffe sig overblik over store datast.
Den induktive statistik bruger man, nr man nsker at trffe beslutninger. Det uddyber jeg
nrmere om lidt. Den induktiv statistik trkker strkt p sandsynlighedsregningen, idet man for
at kunne trffe de nskede beslutninger har brug for at kunne udregne, hvor sandsynlige
forskellige hndelser er.

Eksempel med mntkast


For at afgre om en mnt er symmetrisk, s den egner sig til at sl plat og krone med, afprver man
den ved at kaste med den 100 gange. Hvis den er symmetrisk, s burde man f plat hhv. krone ca 50
gange hver. Men s pnt gr det sjldent, som I skal se her.
Mske har I prvet at arbejde med simulatoren, KUGLESIM, som egner sig fint til at undersge
100 kast med en mnt. Hvis man lader KUGLESIM foretage 100000 simulationer med 100
mntkast pr gang, kan man se i KUGLESIM, at i ca 1,7% af gangene fr man krone under 40
gange ud af de 100 og i ca 1,7% af gangene fr man krone over 60 gange ud af de 100. KUGLESIM
viser ogs, at man kun fr prcist 50 gange krone i ca 8% af gangene. Hvis vi kalder et resultat med
under 40 gange krone eller over 60 gange krone, for ekstreme resultater, s er der alts 1,7% +
1,7% = 3,4% chance for at f et ekstremt resultat.
Man kunne nu sprge, om I ville have tillid til en mnt, som fx kun gav krone 39 gange ud af 100
og plat hele 61 gange? Mon ikke de fleste ville kassere mnten? Jeg ville. Det virker i hvert fald
sandsynligt, at mnten har en strre tendens til vise plat end krone.
Men tallene fra KUGLESIM siger, at det sker i 3,4% af tilfldene, at vi fr et ekstremt resultat,
selvom mnten er helt symmetrisk (alts lige stor chance for at vise krone og plat)! P den anden
side sker det kun 8% af gangene, at vi fr krone i prcist halvdelen af gangene. S det kan man ikke
regne med. Lg ogs mrke til flgende: Hvis vi vlger at kassere mnten, nr resultatet er
ekstremt, s kasserer vi i 3,4% af tilfldene fejlagtigt en mnt, som er helt ok. Dette viser tydeligt
det dilemma, man str i i den induktive statistik. (Find KUGLESIM p matx.gyldendal.dk, eller p
math.ital.dk)

Lidt statistisk terminologi


I ovenstende eksempel skulle vi trffe beslutning, om vi ville bruge mnten, eller vi ville forkaste
den. I induktiv statistik taler man om hypoteser. Hypotesen ville her vre, at mnten er
symmetrisk. Med andre ord er hypotesen, at chancen for krone er 0,50. Man skriver undertiden:

H: p=0,50

Alts hypotesen er, at sandsynligheden for krone (p) er 50%


I den induktive statistik vil man argumentere sledes: Vi har valgt vores hypotese, fordi vi tror p
den. Hvis vi skal forkaste den, s skal der vre vgtige grunde til det. Vi vil derfor frst forkaste
den, hvis vi fr et resultat, som er temmelig usandsynligt.
I eksemplet her kunne vi vlge at sige, at hvis vi fr et ekstremt resultat, s vlger vi at tro at
hypotesen er forkert i stedet for at tro p, at der er sket et mirakel (mirakel = usandsynligt resultat).

1
Tallet 3,4% er lidt tilfldigt valgt. I statistik vlger man undertiden at sige, at de resultater, som
skal fre til, at man forkaster hypotesen, skal have en sandsynlighed p 5% eller derunder,
undertiden siger man 10% eller derunder. Men der er ingen faste grnser. Hvis vi forkaster vores
hypotese, nr vi fr under 40 eller over 60 gange krone, s siger resultaterne fra KUGLESIM, at s
vil vi i 3,4% af gangene fejlagtigt forkaste en rigtig hypotese, alts begr vi en fejl i 3,4% af
tilfldene. Det at forkaste en rigtig hypotese kalder statistikere at beg fejl af frste art. Der er
desvrre ogs en anden mulighed for at beg fejl. Vi kunne godtage hypotesen (eller rettere: vlge
ikke at forkaste den), selvom den er forkert. Det at godtage en forkert hypotese kaldes at beg fejl
af anden art. Lad os antage, at mnten faktisk er skv, s chancen for at f krone kun er 0,42. I
dette tilflde er det meget sandsynligt, at vi ikke fr krone under 40 gange, nr vi tester mnten ved
at kaste den 100 gange. I den situation vil vi alts acceptere hypotesen, selvom den er forkert.

Flere eksempler
Der findes mange anvendelser, hvor man kan bruge en metode, som denne. Hvis man skal
undersge, om et nyt medicinsk prparat har en virkning, s udfrer man undertiden en test, hvor
man som hypotese har, at prparatet er virkningslst. Kun hvis en test frer til forkastelse af denne
hypotese, godtager man prparatet som virkningsfuldt. Man vil med andre ord se overbevisende tal
for at medicinen virker, fr man godtager prparatet.
Et andet eksempel kunne vre en kvalitetskontrol i industrien. Mske vil man i en industriel
produktion acceptere, at en lav procentdel af de producerede enheder er defekte. Med mellemrum
udtager man derfor et antal enheder til nrmere undersgelse (tnkt fx p produktion af beslag af
en eller anden slags). Her vil hypotesen vre, at produktionen overholder kravene. Men hvis
stikprven indeholder et antal defekte enheder, der er s stort, at sandsynligheden for at dette sker er
under 5%, s forkaster man hypotesen om, at kravene er overholdt. Man er derfor ndt til at standse
produktionen for at rette op p forholdet. Mske skal maskinerne justeres.

KHI-KVADRAT TEST
Nu da I kender lidt til de grundlggende principper i induktiv statistik, gr vi over til hovedemnet
for dette oplg, nemlig den skaldte Khi-kvadrat-test, ogs kaldet Khi-i-anden-test (khi er navnet
p det grske bogstav , Khi-i-anden skrives ogs 2).
De tests, som har vret omtalt indtil nu, har kun kunnet hndtere enten/eller situationer, s som
virker medicinen eller virker den ikke? eller er enheden defekt eller er den ikke defekt? Men tit
er situationen mere kompliceret.

Som eksempel herp vil vi nu undersge, om en terning, som skal bruges til hasardspil, er
symmetrisk. Med andre ord: giver den i det lange lb 1ere, 2ere, 3ere, 4ere, 5ere og 6ere lige
mange gange?
Hypotesen er her H: de seks jental forekommer lige hyppigt.

Kun hvis et forsg giver et usandsynligt resultat forkaster vi H.


Vi vlger at kaste terningen 60 gange, og forventer derfor, at de seks jental forekommer hver 10
gange. Vi bruger betegnelserne f1, f2, f3, f4, f5 og f6 for de seks forventede resultater, som alts alle
er 10. Tilsvarende bruger vi betegnelserne o1, o2, o3, o4, o5 og o6 for de resultater, vi faktisk
observerer. (I kan sikkert let forestille jer, at det er sjldent at disse alle er 10). Lad os sige, at de 6
oberverede hyppigheder af jentallerne er:
7, 12, 8, 14, 10, 9.
Vi beregner nu strrelsen:

2
(o1 f1 ) 2 (o2 f 2 ) 2 (o f 6 ) 2
2 = ....... 6
f1 f2 f6
(1) Lav beregningen, og kontroller, at bliver 3.4.
2

Lad os diskutere denne strrelse lidt. Tllerne udregner forskellen imellem det forventede og det
observerede, men oplftet til anden. Grunden hertil er, at hvis vi ikke oplftede til anden, s ville
nogle af de seks led vre positive og andre negative. De ville have en tendens til at ophve
hinanden, s resultatet gav 0. Det ville vre uinteressant. Hvert led er yderligere divideret med det
forventede. Herved mler hvert led afvigelsen i anden i forhold til det forventede, alts den relative
afvigelse. For at forst dette lidt bedre, s forstil dig, at vi i et eller andet forsg (det behver ikke
vre noget med terningkast) fr en forskel i tlleren p 8 (som s kvadreret bliver til 64). Er det nu
meget eller lidt? Ja, det afhnger af, hvad det forventede var. Hvis vi forventede 5, men fik 13, s er
det langt vrre, end hvis vi forventede 100 og fik 108. I frste eksempel ville bidraget fra leddet
(13 5) 2 (108 100) 2
vre 12.8. I det andet eksempel ville bidraget kun vre 0.64. Sdan
5 100
skulle det jo ogs helst vre, da det frste eksempel giver den strste relative afvigelse.
Alle leddene i den sum, som giver 2 , er positive eller 0. 2 er derfor altid positiv eller 0. Hvis
2 giver 0, s er det fordi alle tllerne giver nul. I dette tilflde er der fuldstndig
overensstemmelse imellem det forventede og det observerede. Jo drligere de observerede tal
passer med de forventede, jo strre bliver 2 selvflgelig.

(2) Overvej og diskutr det foregende afsnit grundigt, s I forstr princippet bag udregningen af
2. De fire sidste linjer er srligt vigtige!

Vi laver nu yderligere tre serier hver af 60 terningkast. Resultaterne ses i nedenstende skema, hvor
serie 1 er den, der blev brugt lige fr.
JENTAL 1 2 3 4 5 6 I ALT 2
forventet 10 10 10 10 10 10 60
Serie 1 7 12 8 14 10 9 60 3.4
Serie 2 12 11 10 8 10 9 60 1.0
Serie 3 13 10 11 9 9 8 60 1.6
Serie 4 16 12 8 12 8 4 60 8.8
Tabel 1. Fire serie af 60 kast med en symmetrisk terning
(3) Kontroller beregningen af 2 for mindst n af de nye serier.

Sprgsmlet er nu selvflgelig, om disse resultater giver anledning til at forkaste hypotesen om, at
terningen er helt ok?

(4) Hvad synes I selv? Kik p resultaterne i hver af de fire serier. Ser det kritisk ud?

De oplysninger, som de enkelte delresultater i hver serie giver, er komprimeret i et eneste tal,
nemlig 2 . 2 kaldes en testor, og det er den vi skal bruge til at afgre, om vi tror p terningen.
Sprgsmlet er nu bare: er fx 1.0 en stor eller en lille vrdi af 2 ? Er 8.8?

3
For at afgre dette sprgsml, kunne vi udfre eksperimentet med yderligere et stort antal serier.
Efter hver serie kunne vi beregne2 . Det letteste ville vre at stte en computer til at simulere
forsget et meget stort antal gange - mske 10.000 - og dermed skaffe os 10.000 vrdier af 2.
Opskrevet kunne de vrdier vre: 3.4, 1.0, 1.6, 8.8, 2.7, 6.6, 9.3, 2.9, 11.8, osv.
For at danne os et overblik over dem, kunne vi inddele observationerne i intervallerne:
0-1, 1-2, 2-3, 3-4, osv.
Dernst kunne vi udregne frekvenserne for hvert interval og tegne et histogram over dem. Det ville
give et histogram af dette udseende:

Hver sjle er afbildet med en hjde svarende til frekvensen af det pgldende interval. Da alle
sjlerne er rektangler og har en bredde p 1, s er arealet af en sjle (lngde gange bredde) lig med
frekvensen for intervallet. Dermed bliver det samlede areal af sjlerne lig med 1.

(5) I skal sikre jer, at I forstr de ovenstende tre linjer!

Hvis vi nu gjorde intervallerne smallere og smallere i forhold til startbredden 1, og hele tiden
srgede for, at arealet af sjlen over et interval svarede til frekvensen af intervallet, kunne vi tegne
en graf igennem toppen af de smalle sjler. Arealet under denne graf ville vre (nsten) det
sammen som arealet af sjlerne, alts 1. Med andre ord, hvis vi kalder grafens tilhrende funktion

for f5(x), s ville vi have: f


0
5 ( x)dx 1
. (en forklaring p 5-tallet flger senere!)

(6) I skal igen sikre jer, at I forstr de ovenstende fem linjer!

Sprgsmlet er nu, hvilken regneforskrift ovenstende funktion har. Det frer langt ud over, hvad vi
kan redegre for her, men f5 er givet ved:
x

f 5 ( x) 0.132981 x1.5 e 2

f5 kaldes tthedsfunktionen for 2-fordelingen med 5 frihedsgrader.

4
Ordet tthed kommer af, at der, hvor grafen nr hjest op, ligger der flest observationer af 2-
strrelsen, fordi hjest op svarer til hjeste sjle i histogrammet.

(7 )Brug CAS til at vise, at f


0
5 ( x)dx 1

Arealet af sjlerne i det frste histogram kan alts findes ved at udregne integraler. Arealet af den
frste sjle findes derfor ved at integrere f5 fra 0 til 1.

(8) Find dette integral, og kontroller, at tallet ser ud til at passe med arealet (hjden) af den
tilhrende sjle. (Det skal give ca 0,0374.)

Lad os igen forbinde disse udregninger af integraler med det oprindelige eksperiment: Tallet 0,0374
= 3,74% er alts chancen for, at vores 2 -strrelse lander imellem 0 og 1, nr vi laver
eksperimentet med de 60 terningkast

(9) Udregn sandsynligheden for at 2 lander:


a) imellem 0 og 8.8
b) imellem 0 og 12
c) over 15

Lg mrke til, at over 15 m vre et ekstremt resultat, da det kun sker i ca 1% af tilfldene. S
hvis vi fr en 2 p over 15, s er der grund til at tvivle p vores terning. Men I kan ogs se ud af de
beregninger, I lige lavede, at blandt de frste fire serier i forsget med 60 terningkast var ikke
engang 2 = 8.8 kritisk!
Hvis vi vil udfre en test af vores terning, s skal vi afgre hvor store de 5% strste 2-strrelser er.
Rammer vores 2-strrelse i dette omrde, s forkaster vi hypotesen om, at terningen en fair. Det
kaldes at laven en test p signifikansniveau 95%.

(10) Brug CAS til at afgre, hvor stor 2 skal vre, fr vi forkaster hypotesen p
signifikansniveau 95%. (Vink: integrr fra 0 til et tal, hvor resultatet giver 0,95. Prv dig frem).

Frihedsgrader
Tallet 5 i f5 kommer af, at vores tabel med observerede resultater har 6 felter (6 indgange)! Vi ved
jo, at vi udfrer 60 terningkast, s nr vi kender resultaterne for 5 af de 6 jental, s giver det sjette
sig selv, da summen jo skal give 60. Vi har med andre ord kun frihed til at vlge de 5 tal. Typisk
har en 2-test, som er baseret p en tabel med n indgange, derfor n-1 frihedsgrader. Man siger, at
den test, vi tilrettelagde ovenfor, er en 2-test med 5 frihedsgrader.

Tthedsfunktionen for 2-fordelingen med n frihedsgrader beregnes med:

n2 x
1
f n ( x) n
x 2
e 2 , x 0, n N , hvor funktionen (z ) er givet ved:
n
2 ( )
2
2

( z ) x z 1 e x dx ,zR
0

5
Andre 2-funktioner end f5

(11) P side 4 nederst er vist tthedsfunktionen for 2-fordelingen med 5 frihedsgrader. Brug
formlen i boksen ovenfor til at kontrollere, at formlen p side 4 er korrekt. (Vink: udregn frst
5
( ) )
2
(12) Lav en regneforskrift for f11 , idet du skriver den p samme form, som f5 (se f5 p side 4) .
(Vi skal bruge denne regneforskrift i opgave 1 og 2).

P side 206 i lrebogen er vist tthedsfunktioner for forskellige 2-fordelinger.

Vi vil nu, som en lille parentes, kikke p, hvad funktionen (k ) egentlig udregner. Det kan man
faktisk forklare ved hjlp af kombinatorik:
n! betyder n (n 1) (n 2) ...... 2 1, nr n er et naturligt tal.
For eksempel er 5! = 5 4 3 2 1 120 .
En tolkning af 5! er fx, at det er antal mder, som 5 personer kan opstilles p en rkke. Der findes
alts 120 forskellige mder at opstille 5 personer p en rkke.
Der glder, at (n) = (n-1)! , nr n er et naturligt tal.

(13) Udregn (5) med formlen fra s.5 og udregn 4! som ovenfor. Vis derved, at (5) = 4!

OPGAVE 1
I lbet af 1960erne blev Amerika dybere og dybere involveret i krigen i Vietnam. Behovet for
soldater blev efterhnden strre, end den professionelle amerikanske hr kunne imdekomme, og
man begyndte at indkalde vrenpligtige, sledes som den amerikanske forfatning bner mulighed
for. I 1969 udsendte davrende prsiden Nixon en ordre om, at udvlgelsen af vrnepligtige
skulle foreg ved hjlp af tilfldig udtagelse af fdselsdatoer blandt den rgang af unge mnd,
som stod for. Vrnepligts-lotteriet for 1970 blev afholdt 1. december 1969.
Dette lotteri blev selvflgelig i bogstaveligste forstand livsvigtig for en hel rgang af unge mnd,
da en indkaldelse let kunne betyde dden.
Lotteriet foregik ved, at 366 fdselsdatoer (366 i stedet 365, da den indkaldte rgang var fdt i et
skudr, hvor februar jo har 29 dage) blev skrevet p et stykke papir. Hvert stykke papir blev anbragt
i en cylinderformet beholder, og alle cylinderne blev puttet i kasse, hvor de blev rystet flere gange.
Derefter blev de hldt over i en stor guldfiskeskl. Denne skl blev ikke rystet.
Udtagelsen gik herefter i gang. Den frste dato, som blev udtaget, var 14. september, som blev
tildelt nummeret 1. Nste dato blev 24. april, som fik nr. 2, osv. P nste side kan du se et skema,
som viser numrene for samtlige 366 fdselsdatoer. Det var besluttet, at man startede indkaldelsen
med de laveste numre frst, s hvis man var fdt p en dato, som fik et lavt nummer, var man sikker
p at blive indkaldt. Trak man derimod et hjt nummer, var man sikker p ikke at blive indkaldt.
Hvis blandingen ikke blev foretaget grundigt, kunne man forvente, at der var en ujvn fordeling af
hje og lave tal ud over ret, da datoerne blev skrevet ned i rkkeflge. Hvis udtagelsen blot blev
foretaget fra toppen af sklen, ville en drlig blanding i kassen blive afspejlet i numrenes fordeling
p datoerne.
Det forelbige sprgsml, vi nu stiller os er: Var kapslerne ordentligt blandet?

6
Resultatet er lotteriet er vist p side 8, hvor der ogs er vist et plot over fordelingen af numre for
samtlige datoer. (Her er der klumper af prikker rundt omkring, men sdan noget er faktisk i
overensstemmelse med de statistiske love).

(14) Studr plottet for at sikre dig, at du forstr det. Er du enig i, at det er umiddelbart svrt at
se noget tydeligt mnster?

For at kunne regne p disse datoer er vi ndt til at foretage en forenkling, s vi definerer nu begrebet
lavt nummer, som et nummer fra 1 til 183, og et hjt nummer som et nummer fra 184 til 366. S
har vi delt numrene i to lige store kategorier. Her er et skema, som viser fordelingen af hje og lave
numre over mnederne:

lavt nummer hjt nummer i alt


januar 12 19 31
februar 12 17 29
marts 10 21 31
april 11 19 30
maj 14 17 31
juni 14 16 30
juli 14 17 31
august 19 12 31
september 17 13 30
oktober 13 18 31
november 21 9 30
december 26 5 31

Nu er vi p hjemmebane! Her har vi nemlig 24 observerede tal, som vi kan sammenholde med de
forventede tal. Hvis en mned har 30 dage, ville vi selvflgelig forvente 15 lave og 15 hjre numre,
en mned med 31 dage skulle have 15.5 lave og 15.5 hje (selvom 15.5 ikke kan forekomme, da det
ikke er et helt tal, skal vi bruge det alligevel). Endelig skulle februar med 29 dage levere 14.5 lave
og 14.5 hje tal (den indkaldte rgang var fdt i et skudr).

(15) Udregn 2 for disse 24 tal.

(16) Den tilhrende 2-fordeling har 11 frihedsgrader. Prv at argumentere for dette (ls igen
side 5 om frihedsgrader).

(17) Udregn sandsynligheden for at n op p den strrelse af 2, som I fandt her, eller endnu
lngere op. (I skal bruge formlen for 2-fordelingen med 11 frihedsgrader, udregnet i spg. 12).

(18) Lav til slut en konklusion p jeres test af hypotesen:

H: Lotteriet gav en retfrdig udtagelse af vrnepligtige.

I kom forhbentlig frem til, at H skal forkastes! Det gjorde statistikere i USA ogs. Det rejste
selvflgelig stor kritik, som ogs fandt vej til medierne. Havde man snydt, eller var kapslerne blot
ikke ordentligt blandede?

7
8
OPGAVE 2
ret efter prvede man at gre det bedre. Nu njedes man ikke med at skrive 365 fdselsdatoer
(ikke skudr) og putte dem i kapsler. Man skrev ogs tallene fra 1 til 365 p sedler og puttede dem i
kapsler. De to typer kapsler blev derp anbragt i to store tromler, som begge blev roteret i et kvarter.
Nu udtog man samtidigt en kapsel med en fdselsdato og en kapsel med et nummer. Hermed fik
man tildelt et nummer til den pgldende dato. Sdan fortsatte man indtil samtlige 365 datoer var
parret med de 365 tal. Resultaterne kan du se i skemaet her under.

(19) Lav en test af samme hypotese som fr, men med 1971-tallene.

(20) Hvad konkluderer I?

9
OPGAVE 3
Den strigske munk Gregor Mendel, som levede midt i 1800-tallet, var en af pionererne indenfor
arvelighedslren. Mendel var den frste, som opdagede, at arvelige egenskaber fra hvert af
forldrene overfres ved befrugtningen ved, at t gen (ud af to) for en bestemt egenskab overfres
til afkommet. Han opdagede ogs, at det er tilfldigt, hvilket af de to gener, som overfres. Dermed
er arvelighed underkastet tilfldigheder, og man kan derfor bruge sandsynlighedsregning til at
undersge forhold omkring arvelighed.

Mendel arbejdede bl.a. men rteplanter. Hos en bestemt art kan rterne have to forskellige farver:
gul eller grn, og rternes overflade kan vre glat eller rynket. Farven bestemmes af t par af
gener, og overfladen bestemmes af et andet par. En rteplante stter rteblge, som kun
indeholder n bestemt type rter ud af fire mulige (se tabellen nedenfor).
I et bestemt forsg kendte Mendel forldreplanternes gener. Her ville det - iflge den teori, som
Mendel opstillede vre sdan, at antallet af rteplanter, som kommer ud af at krydse de to
forldreplanter, ville fordele sig p de fire typer i forholdet 9:3:3:1 . Alts 9/16 af planterne ville
vre glatte og gule, osv.
Mendel udfrte mange sdanne forsg. Nogle af dem blev offentliggjort for at kunne understtte
hans teori. I tabellen nedenfor er gengivet resultaterne at et af hans eksperimenter, hvor de to
forldreplanter avlede 556 planter i nste generation.
Som man umiddelbart kan se, er der en flot overensstemmelse imellem de observerede og de
forventede. Det gjaldt alle de resultater, som Mendel offentliggjorde. Faktisk er overensstemmelsen
for flot. Det skal vi se nrmere p.

TYPE Observeret antal Forventet antal


glat og gul 315 312,75
rynket og gul 101 104,25
glat og grn 108 104,25
rynket og grn 32 34,75
I ALT 556 556

P Mendels tid var sandsynlighedsregningen p et meget primitivt niveau, og statistiske metoder,


som dem vi arbejder med her, var slet ikke opfundet. Det skete frst fra omkring r 1900. Mendel
vidste godt, at man ikke kunne forvente fuld overensstemmelse, da han egen teori sagde, at der var
tilfldigheder med i spillet. Men da han intet kendte til moderne statistiske metoder (og sikkert
heller ikke til egentlig sandsynlighedsregning), s har han enten har pyntet p sine resultater, eller
ogs har han udvalgt de forsg, som gav de mest overbevisende resultater. I dag er man i stand til at
udregne, at det er aldeles usandsynligt, at han igen og igen - kunne f s flotte resultater, som han
pstod!

(21) Hvordan er de forventede tal regnet ud?

(22) Udregn 2 for tabellen ovenfor.

(23) Bestem antallet af frihedsgrader for tabellen ovenfor og bestem regneforskriften for den
tilhrende tthedsfunktion.

(24) Hvad er sandsynligheden for at f en 2-strrelse imellem 0 og den udregnede vrdi?

10
(25) Hvad vil en typisk 2 -vrdi vre for en tabel som den ovenfor? Med andre ord: find den
2-vrdi, hvor sandsynligheden er 50% for at ramme over (og dermed ogs 50% for at ramme
under. Prv jer frem).

(26) Overvej, hvorfor jeres udregninger kunne tyde p, at Mendel har snydt.1

OPGAVE 4
Hvert r bliver der efter sommereksamen p HF lavet statistik over de skriftlige karakterer p bde
C-niveau og B-niveau.
I skemaet her er vist procentfordelingen for hele landet for de syv forskellige karakterer ved den
skriftlige eksamen p B-niveau i 2009. I nederste rkke er vist procentfordelingen for de 39 elever
p Th.Langs HF- og VUC, som gik op til denne eksamen. Vi vil bruge tallene til en 2-test.

KARAKTER -3 00 02 4 7 10 12
Procentfordeling 2,2 13,9 7,3 16,0 26,4 23,0 11,3
Hele landet
Procentfordeling 0,0 2,6 2,6 17,9 35,9 28,2 12,8
Th.Langs

(27) Overvej, om det er procentfordelingen for hele landet, eller for Th.Langs, som er de
forventede tal.

(28) Bestem antallet af frihedsgrader for tabellen ovenfor og bestem regneforskriften for den
tilhrende tthedsfunktion.

(29) Lav en test af hypotesen H: Procentfordelingen for Th.Langs er reprsentativ for


procentfordelingen for hele landet. (med andre ord: flger tallene for Th.Langs samme mnster
som for hele landet?).

(30) Kan man ud fra testresultatet alene konkludere, om Th.Langs-eleverne har klaret sig bedre
eller drligere end de har p landsplan?

1
Kilde til opgave 1, 2 og 3: Mosteller, Kruskal, m.fl.: Statistics by Example Addison-Wesley 1973

11