Professional Documents
Culture Documents
4. Udgave
Michael Srensen
26. juni 2003
Forord
Til 2. udgave
Disse forelsningsnoter trkker i betydelig grad p
a noter udarbejdet
af en rkke kolleger. Det glder ikke mindst Tue Tjurs forelsningsnoter Sandsynlighedsregning, som i mange
ar blev benyttet til Statistik 0 undervisningen, og som har vret udgangspunkt for nrvrende
noter. Visse steder er hele passager taget nsten ordret fra Tue Tjurs
noter, ligesom hovedparten af opgaverne stammer derfra. Jeg har imidlertid ogs
a hentet mange ideer, formuleringer, eksempler og opgaver fra
forelsningsnoter af Jrgen Hoffmann-Jrgensen, Preben Blsild, Svend
Erik Graversen og Ernst Hansen.
I forhold til den frste udgave er de vsentlige ndringer en rkke
nye eksempler, opgaver og figurer. Endvidere er der tilfjet et appendiks
om mngdelre, og en del trykfejl og uheldige formuleringer er blevet
rettet. Endelig er de fleste kapitler blevet forsynet med en kort sammenfatning.
Kbenhavn, juli 2001
Michael Srensen
Til 3. og 4. udgave
I forhold til 2. udgave er der kun foretaget mindre ndringer. Et antal
trykfejl er blevet rettet, og enkelte steder er forklaringer blevet uddybet
eller omformuleret.
Kbenhavn, juni 2003
Michael Srensen
Indhold
Forord
1 Sandsynlighedsregningens grundlag
1.1 Indledning . . . . . . . . . . . . . .
1.2 Det endelige sandsynlighedsfelt . .
1.3 Det generelle sandsynlighedsfelt . .
1.4 Betingede sandsynligheder . . . . .
1.5 Stokastisk uafhngighed . . . . . .
1.6 Sammenfatning . . . . . . . . . . .
1.7 Opgaver . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
12
16
23
30
39
39
2 Stokastiske variable
2.1 Stokastiske variable og deres fordeling
2.2 Fordelingsfunktionen . . . . . . . . .
2.3 Fler-dimensionale stokastiske variable
2.4 Uafhngige stokastiske variable . . .
2.5 Sammenfatning . . . . . . . . . . . .
2.6 Opgaver . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
49
56
58
61
62
.
.
.
.
.
.
.
65
66
68
72
75
78
82
87
3 Fordelinger p
a endelige mngder
3.1 Sandsynlighedsfunktioner . . . . .
3.2 Binomialfordelingen . . . . . . . .
3.3 Den hypergeometriske fordeling .
3.4 Transformation af fordelinger . .
3.5 Polynomialfordelingen . . . . . .
3.6 Uafhngige stokastiske variable .
3.7 Middelvrdi og varians . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDHOLD
3.8 Kovarians og korrelation . . . . . . . . . . . . . . . . . .
3.9 Sammenfatning . . . . . . . . . . . . . . . . . . . . . . .
3.10 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
104
105
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
114
114
124
126
130
138
139
140
141
. . . .
. . . .
. . . .
p
a IR
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
145
156
162
165
172
173
.
.
.
.
.
.
.
.
.
179
179
183
187
187
191
197
200
202
203
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDHOLD
8 Normalfordelingens teori
8.1 2 -fordelingen og -fordelingen . . . . . . . . . . . . .
8.2 F-fordelingen og t-fordelingen . . . . . . . . . . . . . .
8.3 Den fler-dimensionale normalfordeling . . . . . . . . . .
8.3.1 Den fler-dimensionale standard normalfordeling
8.3.2 Den generelle fler-dimensionale normalfordeling
8.3.3 Den to-dimensionale normalfordeling . . . . . .
8.4 Sammenfatning . . . . . . . . . . . . . . . . . . . . . .
8.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
221
221
225
229
229
233
235
239
239
249
A Om mngder
251
A.1 Mngder og mngdeoperationer . . . . . . . . . . . . . . 251
A.2 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
B Om
B.1
B.2
B.3
B.4
B.5
kombinatorik
Fakultetsfunktionen . .
Nedadstigende faktoriel
Binomialkoefficienter .
Polynomialkoefficienter
Opgaver . . . . . . . .
C Om uendelige rkker
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
258
258
259
259
261
262
263
D Om integraler
266
D.1 Funktioner af en variabel . . . . . . . . . . . . . . . . . . 266
D.2 Funktioner af flere variable . . . . . . . . . . . . . . . . . 270
E Tabeller
275
E.1 Standard normalfordelingen . . . . . . . . . . . . . . . . 276
E.2 2 -fordelingen . . . . . . . . . . . . . . . . . . . . . . . . 277
E.3 t-fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . 278
INDHOLD
E.4 F-fordelingen . . . . . . . . . . . . . . . . . . . . . . . .
E.5 Det grske alfabet . . . . . . . . . . . . . . . . . . . . .
Indeks
279
282
283
Kapitel 1
Sandsynlighedsregningens
grundlag
1.1
Indledning
I den menneskelige tilvrelse forekommer der mange tilfldige og uforudsigelige begivenheder. Sknt dette utvivlsomt gr livet interessant, har
man dog i mange situationer brug for metoder til, s
a vidt det nu er
muligt, at h
andtere s
adanne usikkerhedsmomenter. Det er baggrunden
for, at sandsynlighedsregningen og statistikken er blevet udviklet. Disse
fags metoder har i vore dage fundet meget bred anvendelse, for eksempel
inden for forsikring, finansiering, planlgning og analyse af alle former
for data, som er behftet med usikkerhed.
Sandsynlighedsregningen har sin oprindelse i menneskets spilleglde.
I 40.000
ar gamle kkkenmddinger har man fundet betydelige mngder
astragalus knogler fra hov- og klovdyr, der kan benyttes til terningspil,
ligesom et gyptisk gravmaleri fra det frste gyptiske dynasti (ca. 3000
f. Kr. ) viser en adelsmand og hans kone, der benytter astragalus knogler
i forbindelse med et brdtspil. Astragalus knoglen har fire sider. N
ar
den kastes forekommer de to af siderne med sandsynlighed 1/10, mens
de to andre forekommer med sandsynlighed 2/5. Spil med astragalus
terninger var meget udbredt i antikken, hvor de efterh
anden ofte blev
lavet af brndt ler, marmor eller bronze. Den frste sekssidede terning,
man kender, er fundet i det nordlige Irak. Den er fra omkring 3000 f. Kr.
Sandsynlighedsregningens grundlag
1.1 Indledning
10
Sandsynlighedsregningens grundlag
1.1 Indledning
11
12
Sandsynlighedsregningens grundlag
statistikken kommer ind i billedet. For eksempel vil vi, for at kunne beregne sandsynligheden for, at der i en klasse med 25 brn er mindst to
brn med samme fdselsdag, gre nogle antagelser. Vi vil blandt andet
antage, at brnenes fdselsdage er uafhngige af hinanden, og at antal
fdsler per dag ikke varierer i lbet af
aret. S
adanne antagelser er ikke
ndvendigvis helt korrekte. For eksempel varierer antallet af fdsler per
dag lidt med
arstiden. Antagelserne skal blot vre tilstrkkelig tt p
a
tingenes faktiske tilstand til, at de beregnede sandsynligheder kan anvendes i praksis. N
ar man prsenteres for et sandsynlighedsudsagn, br
man derfor altid sprge hvilke antagelser, der ligger bag. S
a kan man,
hvis man har forstand p
a sandsynlighedsregning, selv vurdere, om det er
rimelige antagelser. Et andet eksempel, som vi skal se p
a, er beregning
af sandsynligheden for, at en mand, som overlever sine frste 20
ar, vil
opn
a at blive 60
ar. For at beregne denne sandsynlighed, som er af stor
interesse i forbindelse med livsforsikring, m
a man gre antagelser, b
ade
for at kunne anvende sandsynlighedsregningens regler og for at kunne
inddrage data fra Statistisk
Arbog.
1.2
I det tilflde, hvor der kun er endeligt mange mulige udfald, er det
problemlst, at opstille en sandsynlighedsteoretisk model. Alt hvad vi
behver er en liste over samtlige mulige udfald og en angivelse af sandsynligheden for ethvert af disse. Dette kan formaliseres p
a flgende m
ade.
Ved et endeligt sandsynlighedsfelt forst
as en endelig mngde E =
{e1 , . . . , ek }, som kaldes udfaldsrummet, og en funktion p fra E ind i
intervallet [0, 1], som opfylder, at
k
X
p(ej ) = 1.
(1.2.1)
j=1
13
1
for alle x E,
36
14
Sandsynlighedsregningens grundlag
p(x).
(1.2.2)
xA
(1.2.3)
(1.2.4)
(1.2.5)
1
]A
=
,
]E
xA k
(1.2.6)
15
1/36
1/18
1/12
1/9
5/36
1/6.
0.00
0.05
0.10
0.15
0.20
p(2) = p(12)
p(3) = p(11)
p(4) = p(10)
p(5) = p(9)
p(6) = p(8)
p(7)
10
12
16
Sandsynlighedsregningens grundlag
1.3
Man har ofte brug for sandsynlighedsfelter med uendeligt mange mulige
udfald, og i den situation er det mere kompliceret at definere en sandsynlighedsteoretisk model. Hvis antallet af mulige udfald er uendeligt, er
det ikke altid tilstrkkeligt blot at angive alle udfald og deres sandsynligheder. Lad os illustrere problemet med et eksempel.
Eksempel 1.3.1 Lad os tnke os, at vi trkker et tilfldigt tal mellem
nul og en. Vi vlger alts
a som udfaldsrum intervallet E = [0, 1], som
i hvert fald ikke er en endelig mngde. Det er m
aske p
a nuvrende
tidspunkt ikke helt klart, hvad vi mener med at trkke et tilfldigt tal
i E, men i hvert fald m
a alle tal e i E have samme sandsynlighed for
at blive udtrukket. Lad os betegne denne sandsynlighed med p. Hvad er
sandsynligheden for at udtrkke et tal i mngden {1/n, 2/n, . . . , (n
1)/n, 1}, hvor n er et vilk
arligt positivt helt tal? Hvis vi forlanger, at
formel (1.2.5) ogs
a skal glde for uendelige sandsynlighedsfelter, ses det
ved at benytte denne formel n 1 gange, at
P ({1/n, 2/n, . . . , (n 1)/n, 1}) =
P ({1/n}) + + P ({(n 1)/n}) + P ({1}) = np.
Da P ({1/n, 2/n, . . . , (n 1)/n, 1}) skal vre en sandsynlighed, d.v.s.
0 P ({1/n, 2/n, . . . , (n 1)/n, 1}) 1,
flger det, at der for alle positive hele tal n glder, at
0p
1
.
n
17
Ved at lade n g
a mod uendelig ses det, at p = 0. I denne situation er det
alts
a ikke srlig nyttigt at angive sandsynligheden for alle mulige udfald.
S
aledes er udsagnet, at P ({e}) = 0 for alle e [0, 1], helt uanvendeligt til
at sige noget om for eksempel sandsynligheden for at trkke et tal mellem
1/4 og 3/4. Denne sandsynlighed br naturligvis vre lig en halv.
Det er klart, at vi m
a g
a en anden vej for at definere et sandsynlighedsfelt p
a en brugbar m
ade. Vi vil i stedet definere sandsynligheden
for at udtrkke et tal i et delinterval I af E. En naturlig definition af
tilfldig udtrkning af et tal mellem nul og en er at krve, at sandsynligheden for at trkke et tal i intervallet I er proportional med lngden
af I. Vi antager derfor, at der finds et reelt tal c 0, s
a
P (I) = c|I|,
hvor |I| betegner lngden af I. Vi vil ogs
a fremover benytte denne notation for lngden af intervaller og af andre delmgder af den reelle akse,
for hvilke det giver mening at tale om lngden. Det er let at bestemme
strrelsen af c, da
1 = P ([0, 1]) = c|[0, 1]| = c.
Det ser alts
a ud til, at vi kan definere tilfldig udtrkning af et tal
mellem nul og en p
a en fornuftig m
ade ved at specificere, at
P (A) = |A|,
(1.3.1)
for alle delmngder A af [0, 1], for hvilke det giver mening at tale om
lngden. Udover intervaller, kan det f. eks. vre foreningsmngden af
to eller flere intervaller. Da et-punktsmngden {e} kan betragtes som et
udartet interval [e, e] med lngde nul, er (1.3.1) i overensstemmelse med
resultatet P ({e}) = 0, som vi fandt ovenfor.
2
Da det, som vi netop har set, ikke altid er nok at angive samtlige udfald og deres sandsynligheder, m
a man i stedet angive sandsynligheden for
at f
a et udfald i enhver delmngde af udfaldsrummet (eller i det mindste
nogle af delmngderne). Man kan ikke bare angive disse sandsynligheder helt som man har lyst: Sandsynlighederne for forskellige hndelser
skal passe sammen. Vi definerer derfor et generelt sandsynlighedsfelt p
a
flgende m
ade.
18
Sandsynlighedsregningens grundlag
(1.3.2)
(1.3.3)
19
1
0
1A (x)3x2 dx,
(1.3.4)
hvor 1A er den s
akaldte indikatorfunktion for A, som er defineret ved
1A (x) =
1 hvis x A
0 hvis x
/ A.
(1.3.5)
b
a
3x2 dx = b3 a3 .
a
3
3x dx +
d
c
3x2 dx
20
Sandsynlighedsregningens grundlag
1
0
1
0
1AB (x)3x2 dx
1A (x)3x2 dx +
(1.3.6)
Z
1
0
(1.3.8)
(1.3.10)
(1.3.11)
P (A B) P (A) + P (B).
(1.3.12)
4)
og
21
22
Sandsynlighedsregningens grundlag
s
aledes at (1.2.6) giver, at
P (E\A) =
(1.3.13)
(1.3.14)
P (B An )
P (B) + P (An )
P (A1 An1 ) + P (An )
P (A1 ) + + P (An1 ) + P (An ).
1.4
23
Betingede sandsynligheder
Eksempel 1.2.1 (fortsat). Vi betragter igen kast med to terninger. Antag at terningerne er blevet kastet uset af os, og at vi kun f
ar oplyst,
at de to terninger viser det samme antal jne. Hvad kan vi p
a den baggrund sige om sandsynligheden for at summen af jnene er mindst 11?
Det er klart, at den oplysning, vi har f
aet, m
a p
avirke vores udsagn om
sandsynligheden, s
a svaret er nok ikke 1/12.
Udfaldsrummet
E = {1, . . . , 6} {1, . . . , 6}
best
ar af 36 elementer, som alle har sandsynlighed 1/36, men nu har vi jo
f
aet af vide, at de to terninger viser det samme, d.v.s. at udfaldet tilhrer
hndelsen
A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}.
Det er derfor fristende, at betragte A som et nyt udfaldsrum. Da elementerne i det oprindelige udfaldsrum E havde samme sandsynlighed, m
a
det samme glde for A, s
a hvert af de 6 elementer i A m
a have sandsynlighed 1/6. Da (6, 6) er det eneste udfald i A med sum strre end eller
lig 11, er et godt bud p
a den sgte sandsynlighed jensynligt 1/6.
Lad os forsge os med en frekvensfortolkning. Vi tnker os, at vi n
gange udfrer det forsg, som best
ar i at sl
a med to terninger. Med NA
betegner vi antallet af forsg, i hvilke udfaldet tilhrte A, og med NAB
betegner vi antallet af forsg, i hvilke udfaldet tilhrte b
ade hndelsen A
og hndelsen, at summen er strre end eller lig 11. Den sidste hndelse
betegner vi fra nu af med B. Antallet NAB er alts
a bare antal forsg
med udfaldet (6, 6). Den relative hyppighed af hndelsen B blandt de
forsg, hvor de to terninger viste det samme, er da
fAB
NAB
=
,
NA
fA
hvor fAB = NAB /n og fA = NA /n betegner den relative hyppighed
af de to hndelser A B og A blandt alle n forsg. Strrelserne fAB
og fA svarer til vores intuitive opfattelse af sandsynlighederne P (A B)
24
Sandsynlighedsregningens grundlag
P (A B)
.
P (A)
(1.4.1)
25
Da A best
ar af 10 elementer, mens
A B = {(5, 5), (6, 6)}
best
ar af 2 elementer, er
P (B|A) =
2/36
1
P (A B)
=
= .
P (A)
10/36
5
2
Vi vil i resten af dette afsnit give nogle nyttige regneregler for betingede sandsynligheder. I det flgende tnker vi os hele tiden, at et
sandsynlighedsfelt med udfaldsrum E og sandsynlighedsm
al P er givet.
Stning 1.4.2 Lad A1 , A2 , . . . , An vre n hndelser, som opfylder, at
P (A1 An1 ) > 0. Da er
P (A1 An ) =
(1.4.2)
P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) P (An |A1 An1 ).
Bevis: Bemrk frst, at betingelsen P (A1 An1 ) > 0 medfrer, at
alle de betingede sandsynligheder er veldefinerede (overvej dette). Indst
definitionen af betinget sandsynlighed overalt p
a hjre side. Derved opn
as
et produkt af brker, hvor hver tller (bortset fra den sidste) forkorter
ud mod nste brks nvner. Tilbage st
ar det nskede resultat.
2
Eksempel 1.4.3 I dette eksempel betragtes livslngden for en dansker
af hankn fdt i 1980. Som udfaldsrum er det naturligt at vlge E =
IIN0 = {0, 1, 2, . . .}, alts
a de ikke-negative hele tal. Da vi endnu ikke
rigtigt har diskuteret, hvordan man definerer et sandsynlighedsm
al p
a
en uendelig mngde som IIN0 , vil vi i stedet vlge E = {0, 1, 2, . . . 500}
som udfaldsrum. Det burde ikke give problemer.
Lad os diskutere, hvordan man beregner sandsynligheden for, at en
mand, som overlever sine frste 20
ar, ogs
a vil vre i live 40
ar senere, og
alts
a vil opleve sin 60
ars fdselsdag. Sprgsm
al af denne art interesserer pensionskasser meget. Lad Ak betegne hndelsen, at manden bliver
26
Sandsynlighedsregningens grundlag
mindst k
ar gammel, d.v.s. Ak = {k, k + 1, , 500}. Den omtalte sandsynlighed er da den betingede sandsynlighed
P (A60 |A20 ) =
P (A60 A20 )
P (A60 )
=
,
P (A20 )
P (A20 )
n
X
j=1
P (B|Aj )P (Aj ).
(1.4.3)
27
n
X
j=1
P (Aj B).
Da endvidere
P (Aj B) =
P (Aj B)
P (Aj ) = P (B|Aj )P (Aj ),
P (Aj )
er stningen vist.
2
Eksempel 1.4.5 P
a et bord st
ar to kasser. Den ene indeholder 50 rde
og 50 hvide kugler. Den anden indeholder 20 rde, 80 hvide og 50 sorte
kugler. Ved tilfldig lodtrkning (f. eks. med en rlig mnt) vlges
en kasse, og en kugle fra denne udtages tilfldigt. Hvad er sandsynligheden for at trkke en rd kugle? Som udfaldsrum kan vi tage E =
{1, 2} {rd, hvid, sort}, hvor 1 og 2 nummererer kasserne. Lad Ki vre
hndelsen, at vi vlger kasse nummer i, d.v.s. Ki = {i}{rd, hvid, sort}
for i = 1, 2. Lad tilsvarende R, H og S betegne hndelserne, at vi trkker
henholdsvis en rd, en hvid og en sort kugle (f.eks. er R = {1, 2}{rd}).
a klart, at
Vi kan umiddelbart sige, at P (K1 ) = P (K2 ) = 12 . Det er ogs
det er smart at dele op i de to tilflde, hvor vi har valgt henholdsvis kasse
nummer et og kasse nummer to. Det er nemlig let at angive sandsynligheden for at trkke en kugle af en bestemt farve, hvis vi ved hvilken kasse,
der trkkes fra. Men det betyder netop, at vi let kan angive flgende
betingede sandsynligheder:
P (R|K1 ) =
50
1
=
100
2
P (R|K2 ) =
20
2
=
150
15
P (H|K1 ) =
50
1
=
100
2
P (H|K2 ) =
80
8
=
150
15
P (S|K1 ) =
0
=0
100
P (S|K2 ) =
50
1
=
150
3
28
Sandsynlighedsregningens grundlag
P (A)
P (B|A).
P (B)
(1.4.4)
P (A) P (A B)
P (A)
P (A B)
=
=
P (B|A).
P (B)
P (B) P (A)
P (B)
2
Eksempel 1.4.5 (fortsat). Lad os fortstte diskussionen af kugler i kasser. Vi forstiller os nu, at en person uset af os udfrer det omtalte eksperiment, men at vedkommende kun fortller os farven p
a den udtrukne
kugle, ikke hvilken kasse der blev valgt. Da giver det mening at sprge
om den betingede sandsynlighed for, at kasse nr. 1 blev valgt, givet at
kuglen er rd? Formel (1.4.4) giver, at
P (K1 |R) =
1/2 1
15
P (K1 )
P (R|K1 ) =
=
= 0.7895.
P (R)
19/60 2
19
Denne problemstilling illustrerer et vsentligt aspekt af begrebet betinget sandsynlighed. Uden kendskab til forsgets udfald ville vi naturligvis
sige, at sandsynligheden for at kuglen kommer fra kasse nr. 1 er 1/2.
29
Men n
ar vi modtager den ekstra information, at kuglen er rd, ndres
denne vurdering, fordi en rd kugle er et mere sandsynligt resultat af en
udtrkning fra kasse 1 end fra kasse 2. Man kan sige, at kuglens farve
indeholder information om, hvilken kasse den kommer fra. En betinget
sandsynlighed er en sandsynlighed, der er udregnet under hensyn til den
information, der ligger i, at den hndelse, vi betinger med, er indtruffet.
2
Ved at kombinere de to foreg
aende stninger opn
ar man flgende
nyttige regneregel, som er kendt under navnet Bayes formel.
Stning 1.4.7 Lad A1 , A2 , . . . , An vre indbyrdes disjunkte hndelser,
som opfylder, at E = A1 A2 An , og at P (Ai ) > 0 for i = 1, . . . , n.
For en hndelse B med P (B) > 0 glder for ethvert k = 1, . . . , n, at
P (B|Ak )P (Ak )
P (Ak |B) = Pn
.
j=1 P (B|Aj )P (Aj )
(1.4.5)
P (Ak |B) =
P (B|Ak )P (Ak )
,
P (B)
(1.4.6)
30
Sandsynlighedsregningens grundlag
P (B C|A) =
2
Sandsynlighedsm
alet givet ved (1.4.6) kaldes den betingede fordeling
givet A. Et sandsynlighedsm
al kaldes somme tider en sandsynlighedsfordeling; isr n
ar udfaldsrummet er IR eller IRn .
1.5
Stokastisk uafhngighed
(1.5.1)
P (A B)
1/4
1
=
= = P (B).
P (A)
1/2
2
31
= P (B1 ) P (B2 ).
=
36
36
36
P (B1 B2 ) = P (A1 A2 ) =
32
Sandsynlighedsregningens grundlag
1
1
1
, s
a P (A) P (C) =
, mens P (A C) = ,
26
104
52
s
a A og C er ikke uafhngige. Vi ser videre, at
P (C|A) =
1/52
1
=
> P (C).
1/4
13
33
Eksempel 1.5.3 En mnt kastes n gange. I dette tilflde er udfaldsrummet E = {P, K}n , og sandsynlighedsfunktionen tillgger alle 2n udfald samme sandsynlighed, nemlig 2n . Lad A vre hndelsen b
ade
plat og krone forekommer og B hndelsen der er hjst en plat. Er
A og B uafhngige? Lad os frst finde P (A). Dette er en meget stor
hndelse, men den komplementre hndelse best
ar kun af to elementer:
E\A = {KK K, P P P } (med en forh
abentlig indlysende notation). Derfor er
P (A) = 1 P (E\A) = 1 2 2n .
Da B = {KK K, P K K, KP K K, . . . , KK KP }, som har
n + 1 elementer, er
P (B) = (n + 1) 2n .
Endelig er A B hndelsen der er prcis en plat, d.v.s. A B =
{P K K, KP K K, . . . , KK KP }, som har n elementer, s
a
P (A B) = n 2n .
Da alts
a
P (A) P (B) = (n + 1)(1 2n+1 )2n ,
kommer vi til den lidt overraskende konklusion, at A og B er uafhngige,
hvis n = 3, mens de ikke er uafhngige, n
ar n = 2, 4, 5, 6, . . .. Man skal
vre varsom med hurtige konklusioner i sandsynlighedsregning.
2
Vi vil nu se p
a, hvordan man definerer uafhngighed af mere end to
hndelser. Flgende eksempel illustrerer, at man skal passe lidt p
a.
Eksempel 1.5.2 (fortsat). Igen udtages et kort tilfldigt fra et spil kort.
Lad D1 og D2 vre som tidligere, og definer
D3 = { vi trkker en spar eller en hjerter }.
At D3 og D2 er uafhngige, vises p
a helt samme m
ade, som vi viste, at
D1 og D2 er uafhngige. At ogs
a D1 og D3 er uafhngige, ses igen p
a
samme m
ade. Vi har alts
a, at de tre hndelser D1 , D2 og D3 parvist
34
Sandsynlighedsregningens grundlag
1
P (D1 D3 ) P (D2 ) = P (D1 ) P (D3 ) P (D2 ) = .
8
Det er alts
a ikke rimeligt at sige, at hndelserne D1 , D2 og D3 er uafhngige.
2
Ovenst
aende eksempel viser, at det for tre hndelser A, B og C ikke
i almindelighed glder, at ligningerne
P (A B) = P (A)P (B), P (A C) = P (A)P (C), P (B C) = P (B)P (C)
medfrer at
P (A B C) = P (A)P (B)P (C).
Den sidste ligning m
a medtages i definitionen af stokastisk uafhngighed
af A, B og C. Vi har flgende generelle definition.
Definition 1.5.4 De n hndelser A1 , . . . , An (n 2) siges at vre indbyrdes stokastisk uafhngige, hvis der for enhver delmngde {i1 , . . . , ik }
af {1, . . . , n} glder at
P (Ai1 Aik ) = P (Ai1 ) P (Aik ).
Hvis n er stor er der tale om ganske mange ligninger. Som regel udelader man ordet stokastisk, og siger bare, at A1 , . . . , An er indbyrdes
uafhngige.
Eksempel 1.5.3 (fortsat). Da vi fr diskuterede mntkast, sagde vi, at
udfaldsrummet er E = {P, K}n , og sandsynlighedsfunktionen er konstant
lig 2n , hvilket jo ogs
a er yderst rimeligt. Nu kan vi ogs
a argumentere p
a
en anden m
ade. I stedet for fra starten at antage, at sandsynlighedsfunktionen er konstant p
a E, kan vi kan nemlig antage at mntkastene er indbyrdes uafhngige i den forstand at, hvis A1 , . . . , An er hndelser, hvor
35
(1.5.3)
36
Sandsynlighedsregningens grundlag
=
=
=
=
N
ar personen frst har valgt f.eks. kasse nummer et, er der jo bare tale
om to identiske og uafhngige forsg, som hvert best
ar i at trkke en
kugle. Derfor er hndelserne A og B betinget uafhngige givet K1 , og
P (A B|K1 ) = P (A|K1 ) P (B|K1 ) =
1 1
1
= .
2 2
4
=
>
= P (A)P (B).
=
2 2 2 15 15 2
3600
3600
Dette kommer ikke som en overraskelse. Vi s
a tidligere, at den oplysning,
at den frste kugle er rd, indeholder information om, hvilken kasse vi
har valgt, og dermed ogs
a om sandsynligheden for, at den anden kugle
er rd.
2
Vi kan naturligvis ogs
a definere betinget uafhngighed af mange hndelser.
37
Definition 1.5.7 Lad A1 , . . . , An (n 2) og C vre hndelser. Da siges A1 , . . . , An at vre betinget uafhngige givet C, hvis der for enhver
delmngde {i1 , . . . , ik } af {1, . . . , n} glder at
P (Ai1 Aik |C) = P (Ai1 |C) P (Aik |C).
(1.5.4)
N
X
k=1
For at komme videre antages det yderligere, at det faktum, at forsikringstager nr. k har haft et uheld i et
ar, ikke influerer p
a sandsynligheden for,
at han f
ar uheld et andet
ar. Vi antager alts
a, at hndelserne A1 , . . . , Am
er betinget uafhngige givet Bk , s
a
P (A1 Am |Bk ) = P (A1 |Bk ) P (Am |Bk ) = pm
k .
Dermed er
P (A1 Am ) =
N
1 X
pm .
N k=1 k
(1.5.5)
38
Sandsynlighedsregningens grundlag
Specielt f
as for m = 1, at
P (A1 ) =
N
1 X
pk .
N k=1
N
1 X
pk .
N k=1
N
P (A1 A2 )
1 X
p2 .
=
P (A1 )
pN k=1 k
= p
= p
= p1
= p1
N
1 X
p2 p2
N k=1 k
N
1 X
p2k + p2 2
p2
N k=1
N
N
1 X
1 X
2
2
p + p 2
p
pk
N k=1 k
N k=1
N
1 X
(p2k + p2 2
ppk )
N k=1
N
1 X
(pk p)2 0.
N k=1
1.6 Sammenfatning
39
ar ikke influerer p
a hinanden, men der er faktisk tale om helt det samme
fnomen, som vi s
a, da vi trak to kugler fra en tilfldig kasse i Eksempel
1.4.5 ovenfor. Hvis den tilfldigt udvalgte forsikringstager har et uheld
frste
ar, s
a tyder denne information p
a at vedkommende hrer til blandt
de mindre heldige.
2
1.6
Sammenfatning
1.7
Opgaver
40
Sandsynlighedsregningens grundlag
1.7 Opgaver
41
42
Sandsynlighedsregningens grundlag
1) Hvad er den betingede sandsynlighed for, at summen af jnene
er 12, givet at summen er mindst 11?
2) Hvad er den betingede sandsynlighed for, at de to terninger viser
det samme, givet at summen er 7?
3) Hvad er den betingede sandsynlighed for, at den hvide terning
viser 3, givet at den sorte terning viser 5?
4) Hvad er den betingede sandsynlighed for, at terningen med det
mindste antal jne viser 2, givet at terningen med det strste antal
jne hjst viser 5?
1.7 Opgaver
43
=
=
=
=
=
44
Sandsynlighedsregningens grundlag
Kapitel 2
Stokastiske variable
Ofte er vi egentlig ikke synderligt interesserede i det store basale udfaldsrum E. I stedet er interessen koncentreret om visse aspekter ved udfaldet,
som kan udtrykkes ved tal. Det s
a vi eksempler p
a i Kapitel 1. Hvis vi
for eksempel kaster en mnt n gange, og kun interesserer os for antallet
af plat og krone, s
a er vi egentlig helst fri for at beskftige os med de
n
2 sekvenser af n K-er og P -er, hvis det er muligt. Helt galt bliver det,
hvis vi, som vi senere vil gre, forstiller os, at vi kaster mnten uendelig
mange gange. I dette kapitel vil vi indfre begrebet en stokastisk variabel, som formaliserer den meget almindelige situation, at det aspekt ved
et stokastiske fnomen, som vi interesserer os for, kan udtrykkes ved et
tal eller eventuelt ved en vektor i IRn . N
ar man frst har vnnet sig til
at arbejde med stokastiske variable, er de et uhyre nyttigt hjlpemiddel ved opbygningen og analysen af matematiske modeller for tilfldige
fnomener.
2.1
46
Stokastiske variable
(2.1.1)
2
47
alt om, hvad E er, og vi vil komme med udsagn som lad X vre en
stokastisk variabel med fordeling .... Hvis man vil have formalismen p
a
plads, kan man i s
adanne situationer definere E = IR og lade X vre
den identiske afbildning. Til andre tider, har man derimod brug for E
for at kunne argumentere for, hvad fordelingen af X er. Ogs
a n
ar man
betragter flere stokstiske variable, er det nyttigt at have dem defineret p
a
et flles bagvedliggende E, n
ar man skal studere sammenhngen mellem
dem.
Eksempel 1.5.3 (fortsat). Vi kaster en mnt n gange, og lader X vre
den stokastiske variabel givet ved (2.1.1), som angiver antallet af kast med
udfaldet krone. Det er klart at X m
a tilhre mngden {0, 1, . . . , n}. Vi
kan derfor angive Xs fordeling ved at angive sandsynlighederne P (X = k)
for k = 0, 1, . . . , n. Da alle udfald i E har samme sandsynlighed, skal vi
for at finde P (X = k) bare finde ud af, hvor mange af disse der har
udfaldet krone prcis k gange. Dette er et kombinatorisk sprgsm
al,
som er behandlet i Appendix B. Det er nemlig antallet af m
ader, vi kan
udtage en delmngde med k elementer
af en mngde med n elementer.
Svaret er binomialkoefficienten nk , s
a Xs fordeling er givet ved
!
n n
2 , k = 0, 1, . . . , n.
P (X = k) =
k
2
Lad os lige give nogle flere meget enkle eksempler p
a stokastiske variable.
Eksempel 1.2.1 (fortsat). Vi kaster endnu en gang to terninger, den ene
rd og den anden sort. Udfaldsrummet kan skrives som E = {(r, s)|r, s =
1, . . . , 6}. Her flger nogle eksempler p
a stokastiske variable.
R(r, s)
S(r, s)
X(r, s)
Y (r, s)
Z(r, s)
=r
=s
=r+s
=rs
=rs
antal jne p
a den rde terning
antal jne p
a den sorte terning
summen af jnene
det mindste antal jne
det strste antal jne
48
Stokastiske variable
(2.1.3)
2.2 Fordelingsfunktionen
49
2.2
Fordelingsfunktionen
for x IR.
(2.2.1)
Eksempel 2.2.1 Lad X vre den stokastiske variable, som angiver antallet af jne ved kast med en terning. Da X antager vrdierne {1, 2, 3, 4,
50
Stokastiske variable
F (x) =
0 hvis
1
6 hvis
2
6 hvis
3
6 hvis
4
6 hvis
5
6 hvis
1 hvis
x<1
1x<2
2x<3
3x<4
4x<5
5x<6
6x
0.0
0.2
0.4
0.6
0.8
1.0
Fordelingefunktionen vokser i spring fra 0 til 1. Den er kontinuert bortset fra springpunkterne, hvor den er kontinuert fra hjre, men ikke fra
venstre. Da P (X = i) = F (i) F (i 1) for i = 1, . . . , 6 er det her klart,
at F fuldstndigt specificerer fordelingen af X.
2.2 Fordelingsfunktionen
51
0 hvis x < 0
F (x) = x hvis 0 x 1
1 hvis x > 1.
0.0
0.2
0.4
0.6
0.8
1.0
(2.2.2)
0.5
0.0
0.5
1.0
1.5
52
Stokastiske variable
(2.2.3)
lim F (n) = 0,
(2.2.4)
og
n
men det vil vi ikke vise generelt. Vi skal senere se, at disse grnseresultater holder for to vigtige typer af fordelinger.
Det kan omvendt bevises, at enhver funktion F fra IR ind i [0, 1],
som er svagt voksende, og som opfylder (2.2.3) og (2.2.4) bestemmer et
sandsynlighedsm
al p
a IR (eller en delmngde af IR). Det vil vi dog ikke
bevise.
Eksempel 2.2.2 I dette eksempel skal vi se, hvordan vi kan bruge fordelingsfunktionen til at argumentere os frem til, hvad fordelingen af en bestemt stokastisk variabel er. Vi betragter udsendelse af -partikler fra et
radioaktivt materiale. Lad X vre den stokastiske variable, som angiver
ventetiden mellem udsendelsen af to p
a hinanden flgende -partikler.
Her er det bedst ikke at tnke for meget over, hvad det bagved liggende
udfaldsrum er. Det er givetvis meget komplekst.
I hvert fald er X > 0. Endvidere m
a det vre rimeligt at antage, at
atomerne i det radioaktive materiale ikke kan huske, hvor lang tid der
er g
aet, siden den sidste -partikel blev udsendt. Det kan matematisk
formuleres s
aledes:
P (X > t + s|X > t) = P (X > s)
(2.2.5)
for alle t, s 0. Sagt med ord: Hvis vi ved, at der ikke er udsendt nogen -partikel i tidsintervallet [0, t], s
a er sandsynligheden for, at der
2.2 Fordelingsfunktionen
53
P (X > t + s)
,
P (X > t)
G(t + s)
,
G(t)
s
a
G(t + s) = G(t)G(s)
for alle t, s 0. St nu L(x) = log(G(x)), hvilket kan gres, da G(x) > 0.
Vi har da, at
L(t + s) = L(t) + L(s)
for alle t, s 0, og da G(0) = P (X > 0) = 1, er L(0) = 0, s
a for ethvert
t > 0 er
L(t + h) L(t)
L(h) L(0)
=
(2.2.6)
h
h
for alle h > 0. Hvis vi antager, at L er differentiabel i 0 med differentialkvotient (da L er aftagende, er 0), finder vi ved at lade h g
a
0
mod nul i (2.2.6), at L er differentiabel for alle t > 0 med L (t) = .
Derfor er
L(t) = t + c
for en eller anden konstant c. Da imidlertid L(0) = 0, er c = 0, s
a L(t) =
t for t > 0. Vi kan nu regne tilbage til F , idet F (x) = 1 exp(L(x)).
Fordelingsfunktionen for X er alts
a
F (x) =
1 ex hvis x > 0
0
hvis x 0.
54
Stokastiske variable
0.0
0.2
0.4
0.6
0.8
1.0
Eksponentialfordelingen
Fordelingen med denne fordelingsfunktion kaldes eksponentialfordelingen med parameter . Lg mrke til, at vi i udledningen af eksponentialfordelingen benyttede at en stokastisk variabel, som beskriver en
ventetid med denne fordeling, ikke har nogen hukommelse om, hvor lnge
vi har ventet. Man siger somme tider lidt lst, at eksponentialfordelingen
ikke har nogen hukommelse.
2
Der findes ogs
a en transformationsstning for fordelingsfunktioner,
som for strengt monotone funktioner t giver sammenhngen mellem fordelingsfunktionerne for de stokastiske variable X og Y = t(X), som vi
betegner med FX og FY . Der mindes om, at FX (x) = P (X x) og
FY (x) = P (Y x). Antag, at P (X I) = 1 for et interval I IR. Intervallet I kan vre endeligt eller uendeligt og lukket,
abent eller halv
abent.
Om t antages det, at den er en strengt monoton kontinuert funktion fra
2.2 Fordelingsfunktionen
55
FY (y) =
hvis y < v
(2.2.7)
hvis y > h.
FY (y) =
hvis y < v
(2.2.8)
hvis y > h.
2
Det er her egentlig vigtigere at mrke sig bevisteknikken end selve
resultatet. Den er ofte nyttig. Stning 2.2.3 glder ogs
a, n
ar t ikke er
kontinuert, men i s
a fald er J ikke noget interval, og FY er konstant
udenfor J.
56
Stokastiske variable
y) = FX ( y) = y,
2.3
16
36
= 49 ,
57
mens
P (R 4, T 4) = P (R {3, 4}) = 31 .
(vis disse udsagn). Her bruger vi den forenklede notation P (R 4, S 4)
i stedet for at skrive P ({R 4} {S 4}) eller det, der er vrre. Det
vil vi som regel gre, ogs
a ved hjere-dimensionale stokastiske vektorer.
2
Ovenst
aende eksempel viser, at to stokastiske vektorer (X1 , X2 ) og
(Y1 , Y2 ) sagtens kan have den egenskab, at X1 og Y1 har samme fordeling,
og X2 og Y2 har samme fordeling, men at der findes en delmngde A af
IR2 , s
a
P ((X1 , X2 ) A) 6= P ((Y1 , Y2 ) A).
Det betyder, at sandsynligheden P ((X1 , X2 ) A) ikke kan beregnes ud
fra fordelingerne af X1 og X2 . Dette er baggrunden for, at vi definerer
den simultane fordeling for den stokastiske vektor X = (X1 , . . . , Xn ) som
sandsynlighedsm
alet p
a IRn givet ved
PX (A) = P ((X1 , . . . , Xn ) A),
hvor A er en delmngde af IRn . At PX (A) er et sandsynlighedsm
al indses
p
a samme m
ade som ved en en-dimensional stokastisk variabel.
De n fordelinger af de enkelte koordinater X1 , . . . , Xn , betragtet separat som en-dimensionale stokastiske variable, kaldes for de marginale
fordelinger af X1 , . . . , Xn for at understrege, at de ikke er hele sandheden
om den stokastiske vektor X = (X1 , . . . , Xn ).
Eksempel 1.2.1 (fortsat). Betragt igen de stokastiske variable R, S
og T . Den simultane fordeling af (R, S) er en ligefordeling p
a mngden {1, 2, 3, 4, 5, 6} {1, 2, 3, 4, 5, 6}, d.v.s. alle elementer i mngden har
samme sandsynlighed. Derimod er den simultane fordeling af (R, T ) en
ligefordeling p
a mngden {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Alle de
marginale fordelinger er, som tidligere nvnt, ligefordelinger p
a mngden {1, 2, 3, 4, 5, 6}.
2
58
Stokastiske variable
(2.3.1)
2.4
(2.4.1)
]A1 ]A2
= P (R A1 )P (S A2 )
36
59
(2.4.2)
Bevis: Dette er en enkel konsekvens af definitionen af betinget sandsynlighed og af (2.4.1). Hvis nemlig X1 og X2 er uafhngige, er
P (X1 A1 , X2 A2 ) = P (X1 A1 )P (X2 A2 ),
(2.4.3)
60
Stokastiske variable
Dermed er 1) vist.
Vi vil her kun vise 2), n
ar hver af de stokastiske variable X1 , . . . , Xn
kun kan antage endeligt mange vrdier. Lad M vre den endelige delmngde af IRnk , i hvilken den stokastiske vektor (Xk+1 , . . . , Xn ) antager sine vrdier, og lad A1 , . . . , Ak , A vre delmngder af IR. Da best
ar
1
1
(A)M kun af endeligt mange elementer. Det vil sige, at (A)M
(j)
kan skrives p
a formen {(xk+1 , . . . , xn(j) )|j = 1, . . . , N }. Derfor f
ar vi ved
at anvende (1.3.14) to gange, at
P (X1 A1 , . . . , Xk Ak , (Xk+1 , . . . , Xn ) A)
= P (X1 A1 , . . . , Xk Ak , (Xk+1 , . . . , Xn ) 1 (A))
=
N
X
j=1
N
X
j=1
(j)
= P (X1 A1 ) P (Xk Ak )
N
X
(j)
j=1
2.5 Sammenfatning
61
Dermed er 2) vist.
2
Vi vil senere give et bevis for punkt 2) i Stning 2.4.3 for de to
vigtigste typer af fordelinger.
2.5
Sammenfatning
62
2.6
Stokastiske variable
Opgaver
2.1 Betragt kast med to terninger. Hvad er fordelingerne af de to stokastiske variable, som angiver antallet af jne p
a henholdsvis terningen
med det mindste antal jne og terningen med det strste antal jne?
Dette er de to stokastiske variable, som i Eksempel 1.2.1 i Afsnit
2.1 blev kaldt Y og Z.
2.2 Tre personer udvlges tilfldigt. Hvad er fordelingen af antallet
blandt disse, som er fdt p
a en sndag?
2.3 Lad X vre en stokastisk variabel, hvis fordeling er givet ved
P (X = 1) = 0.12 P (X = 2) = 0.08 P (X = 3) = 0.20
P (X = 4) = 0.11 P (X = 5) = 0.19 P (X = 6) = 0.14
P (X = 7) = 0.06 P (X = 8) = 0.10,
mens P (X = x) = 0, n
ar x
/ {1, 2, 3, 4, 5, 6, 7, 8}. Lad t vre en
funktion fra IR ind i IR, som opfylder, at
t(1)
t(4)
t(6)
t(8)
=
=
=
=
t(2) = t(3) = 1
t(5) = 2
t(7) = 3
4.
Hvordan t er defineret udenfor mngden {1, 2, 3, 4, 5, 6, 7, 8} er ligegyldigt. Definer en ny stokastisk variabel ved Y = t(X). Hvad er
fordelingen af Y ? Tegn fordelingsfunktionen for Y .
2.4 Lad X vre en stokastisk variabel, som kun kan antage vrdierne
1,2 og 3, og hvis fordeling er givet ved P (X = 1) = P (X = 2) =
P (X = 3) = 13 . Tegn fordelingsfunktionen for X og for den stokastiske variable Y = 1/X.
2.5 Lad X1 og X2 vre stokastiske variable, som begge kun kan antage vrdierne 0 og 1. Lad deres marginale fordelinger vre givet
ved P (X1 = 0) = 0.4, P (X1 = 1) = 0.6, P (X2 = 0) = 0.3 og
P (X2 = 1) = 0.7. Antag frst at den simultane fordeling af den
2.6 Opgaver
63
64
Stokastiske variable
1 for y a
0 for y < a.
Kapitel 3
Fordelinger p
a endelige
mngder
I dette kapitel vil vi studere stokastiske variable, som kun kan antage
endeligt mange vrdier, og deres fordeling. Ved i frste omgang at njes
med at diskutere s
adanne stokastiske variable, undg
ar vi nogle matematiske komplikationer. Vi kan derfor indfre en rkke vigtige begreber uden
at det vsentlige drukner i tekniske detaljer. I de flgende kapitler bliver
vi s
a ndt til at tage h
and om disse tekniske problemer. I indevrende
kapitel vil vi ogs
a indfre og behandle nogle vigtige fordelinger, som ofte
forekommer i praksis.
Lad os begynde med nogle ikke srligt dybsindige betragtninger om
et forhold, som det er vigtigt at gre sig klart. Lad P vre et sandsynlighedsm
al p
a IRn og lad M vre en delmngde af IRn . Vi siger, at P
er koncentreret p
a M , hvis P (M ) = 1. Tilsvarende siges en stokastisk
variabel eller vektor X at vre koncentreret p
a M , hvis dens fordeling er
koncentreret p
a M , alts
a hvis P (X M ) = 1. Hvis P er koncentreret p
a
M , er det nok at angive sandsynligheden for alle delmngder af M . For en
vilk
arlig B IRn er nemlig P (B) = P (B\M )+P (BM ) = P (BM ), da
B\M IRn \M og dermed P (B\M ) P (IRn \M ) = 1 P (M ) = 0. Det
er let at vise, at hvis vi kun betragter P som en funktion af delmngderne
af M , s
a er P et sandsynlighedsm
al p
a M (overvej). Omvendt kan man
udvide et sandsynlighedsm
al P p
a M til et sandsynlighedsm
al p
a hele IRn
n
ved for en vilk
arlig delmngde B IR at definere P (B) = P (B M ).
66
Fordelinger p
a endelige mngder
3.1
Sandsynlighedsfunktioner
p(x) = 1
(3.1.1)
xM
kaldes en sandsynlighedsfunktion p
a M.
P
as,
Med xM p(x) menes summen over alle de vrdier af p(x), som opn
P
n
ar x gennemlber M , d.v.s. ki=1 p(xi ).
(3.1.3)
3.1 Sandsynlighedsfunktioner
67
p(x) =
p(x) +
xA
xAB
xB
p(xi ) =
k
X
i=1
P ({xi }) = P (M ) = 1.
Alts
a er p en sandsynlighedsfunktion p
a M . Hvis vi ud fra denne sandsynlighedsfunktion p konstruerer et sandsynlighedsm
al ved (3.1.2), er det
klart, at vi genfinder det sandsynlighedsm
al, som vi startede med.
2
Bemrk, at vi ogs
a kan skrive (3.1.2) p
a flgende m
ade
P (A) =
k
X
i=1
68
Fordelinger p
a endelige mngder
3.2
Binomialfordelingen
I dette afsnit betragter vi situationen, hvor et forsg med to mulige udfald gentages n gange uafhngigt af hinanden. Vi er specielt interesserede
i fordelingen af antallet af gange det ene af de to udfald forekommer.
Fordelingen af dette antal kaldes en binomialfordeling. Et eksempel er
antal krone i n kast med en mnt. Et andet er antal defekte produkter i en stikprve p
a n fra en lbende produktion. Der vil blive givet
flere eksempler i kursets statistikdel. Her kommer en prcis definition af
binomialfordelingen.
Definition 3.2.1 Lad X1 , X2 , . . . , Xn vre uafhngige stokastiske variable med vrdier i {0, 1}, som alle har samme fordeling givet ved
P (Xi = 1) = p, P (Xi = 0) = 1 p
for et givet tal p mellem 0 og 1. Fordelingen af summen S = X1 +
X2 + . . . + Xn kaldes da binomialfordelingen med antalsparameter n og
sandsynlighedsparameter p.
Det er klart, at binomialforelingen er koncentreret p
a mngden {0, 1,
. . . , n}.
Eksempel 3.2.2 En mnt kastes 20 gange. Antallet af kast med udfaldet
krone er binomialfordelt med antalsparameter 20 og sandsynlighedsparameter 1/2.
2
For at finde sandsynlighedsfunktionen for binomialfordelingen, finder
vi frst sandsynlighedsfunktionen for den stokastiske vektor (X1 , . . . , Xn ),
som er koncentreret p
a mngden {0, 1}n . For xi {0, 1} er
P (Xi = xi ) = pxi (1 p)1xi ,
3.2 Binomialfordelingen
69
hvor i = 1, . . . , n, og da X1 , . . . , Xn er uafhngige, er
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) P (Xn = xn )
= px1 ++xn (1 p)n(x1 ++xn )
Lad nu t vre funktionen givet ved t(x1 , . . . xn ) = x1 + + xn . Vi skal
da finde fordelingen af den stokastiske variable S = t(X1 , . . . , Xn ). For
s {0, . . . , n} er
P (S = s) = P (X1 , . . . , Xn ) t1 ({s})
=
P ((X1 , . . . , Xn ) = (x1 , . . . , xn ))
(x1 ,...,xn
)t1 ({s})
ps (1 p)ns
n x
p(x) =
p (1 p)nx ,
x
for x {0, 1, . . . , n}.
P
(3.2.1)
Da S er koncentreret p
a {0, 1, . . . , n}, m
a ni=0 ni pi (1 p)ni = 1,
hvilket er i overensstemmelse med binomialformlen, se Appendix B.
70
Fordelinger p
a endelige mngder
10
0.30383 (1 0.3038)103 = 0.2667.
3
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Binomialfordelingen
10
Figur 3.2.1: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 10 og sandsynlighedsparameter 0.3038. I Eksempel 3.2.4
er det fordelingen af antal es-lse hnder i 10 spil.
2
Eksempel 3.2.5 En person s
ar 25 planter, som hver med sandsynlighed
1
f
ar bl
a blomster og med sandsynlighed 43 f
ar gule blomster. Da er
4
3.2 Binomialfordelingen
71
25
315 425 = 0.0417.
10
0.00
0.05
0.10
0.15
0.20
Binomialfordelingen
10
15
20
25
Figur 3.2.2: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 25 og sandsynlighedsparameter 14 . I Eksempel 3.2.5 er det
fordelingen af antal planter med bl
a blomster.
2
Stning 3.2.6 Lad S1 og S2 vre uafhngige stokastiske variable, hvor
Si er binomialfordelt med antalsparameter ni og sandsynlighedsparameter
p, i = 1, 2. Da er S1 + S2 binomialfordelt med antalsparameter n1 + n2
og sandsynlighedsparameter p.
Bevis: Se Opgave 3.5.
2
72
Fordelinger p
a endelige mngder
3.3
Den model, som blev studeret i forrige afsnit dkker den situation, hvor
man udtager et antal stikprver, som alle har samme sandsynlighed for de
to mulige udfald. Af og til kommer man ud for, at stikprver udtrkkes af
sm
a populationer og at en person eller genstand, som er blevet udtrukket
en gang ikke igen kan udtrkkes. Da vil det faktum, at der allerede
er udtrukket et vist antal stikprver, p
avirke fordelingen af den nste
udtrkning. Denne type situation, som kaldes stikprveudtagning uden
tilbagelgning, kan formuleres ved hjlp af farvede kugler p
a flgende
m
ade.
En kasse indeholder N kugler, af hvilke R er rde og H = N R
er hvide. En stikprve p
a n kugler udtages. Vi skal studere fordelingen
af antallet af rde kugler i denne stikprve. Denne fordeling kaldes den
hypergeometriske fordeling med parametre N , R og n. Bemrk, at hvis
vi n gange havde trukket en kugle og derefter lagt den tilbage i kassen fr vi trak igen, s
a ville antallet af rde kugler blandt n udtrukne
have vret binomialfordelt med antalsparameter n og sandsynlighedsparameter R/N (overvej hvorfor denne p
astand er rigtig). Dette kaldes
stikprveudtagning med tilbagelgning. Pointen i dette afsnit er at undersge effekten af ikke at lgge de udtrukne kugler tilbage i kassen. I
resten af afsnittet betragtes alts
a situationen uden tilbagelgning.
Lad X betegne antallet af rde kugler blandt de n udtrukne kugler. Da
er X en stokastisk variabel som er koncentreret p
a mngden {0, 1, . . . , n}.
Det er ikke altid, at X kan antage alle disse vrdier. Det kan X kun n
ar
n R og n H. Hvis for eksempel n > R, er der ikke tilstrkkeligt
mange rde kugler i kassen til, at X kan antage vrdien n.
Lad os nu finde sandsynlighedsfunktionen for den hypergeometriske
fordeling. Sandsynligheden for hndelsen {X = x} er nul, hvis x > R
eller hvis n x (antal hvide kugler i stikprven) er strre end N R.
Vi vil derfor antage, at (n (N R)) 0 x R. Da rkkeflgen af
de udtagne kugler ikke spiller nogen rolle, kan vi opfatte stikprven som
73
R
x
N R
nx
N
n
(3.3.1)
P (X = x) =
13 13(7) 39(6)
= 0.0088.
7
52(13)
2
74
Fordelinger p
a endelige mngder
5 1000(2) 2000(3)
(1000 999) (2000 1999 1998)
= 10
= 0.3295.
(5)
2
3000
3000 2999 2998 2997 2996
Det er ret oplagt, at man i nstsidste udtryk kan erstatte 999 med 1000,
1999 med 2000 osv. uden at ndre ret meget p
a resultatet. Hvis vi gr
det, opn
ar vi flgende approksimative resultat
2 3
1
10002 20003
= 10
P (X = 2) ' 10
5
3000
3
2
3
= 0.3292,
n x
p (1 p)nx .
P (X = x)
x
Bevis: Vi finder efter en simpel omskrivning, at
!
R
n
R1
Rx+1
P (X = x) =
x
N
N 1
N x+1
"
!#
N R
N R1
N R (n x) + 1
.
N x
N x1
N n+1
75
Da
R1
Rx+1
N 1
N !x + 1
!
!#
x "
1 2R1
1 (x 1)R1
R
1 R1
=
N
1 N 1
1 2N 1
1 (x 1)N 1
R
N
og
N R
N R1
N R (n x) + 1
N R nx
=
N x
N x1
N n+1
N
!
!#
"
1 (N R)1
1 (n x 1)(N R)1
1
1 xN 1
1 (x + 1)N 1
1 (n 1)N 1
ses det, at under grnseovergangen vil den frste af de kantede parenteser
i udtrykket for P (X = x) g
a imod px , medens den anden kantede parentes
nx
konvergerer mod (1 p) . Dette viser stningen.
2
3.4
Transformation af fordelinger
x2 T2
p(x1 , x2 )
(3.4.1)
76
Fordelinger p
a endelige mngder
og
p2 (x2 ) =
p(x1 , x2 ).
(3.4.2)
x1 T1
p(x1 , x2 ) =
p(x, x2 ).
x2 T2
2
Der glder flgende transformationsstning for fordelinger p
a endelige mngder, som Stning 3.4.1 er et specialtilflde af.
Stning 3.4.2 Lad (X1 , . . . , Xn ) vre en n-dimensional stokastisk vektor koncentreret p
a den endelige mngde T IRn . Betegn den simultane sandsynlighedsfunktion med p, og lad vre en afbildning fra T
ind i IRk . Da er sandsynlighedsfunktionen for den stokastiske vektor Y =
(X1 , . . . , Xn )er givet ved
q(y) =
p(x1 , . . . , xn ) hvis y (T ).
(3.4.3)
p(x1 , . . . , xn ).
2
I beviset for Stning 3.2.3 forkom faktisk en anvendelse af Stning
3.4.2. Prv at g
a gennem dette bevis igen. Her flger endnu to eksempler.
77
n
q(z) = p z (1 p)n z for z Te .
z
2
Den nste vigtige stning flger ogs
a af transformationsstningen
Stning 3.4.2.
Stning 3.4.4 Lad (X1 , X2 ) vre en to-dimensional stokastisk vektor,
hvor Xi s fordeling er koncentreret p
a {0, 1, . . . ni } (ni IIN), i = 1, 2. Lad
endvidere p vre sandsynlighedsfunktionen for den simultane fordeling af
(X1 , X2 ). Da er den stokastiske variable Y = X1 + X2 koncentreret p
a
mngden {0, 1, . . . , n1 + n2 }, og dens sandsynlighedsfunktion er givet ved
q(y) =
y
X
j=0
p(j, y j),
(3.4.4)
n
ar y {0, 1, . . . , n1 + n2 }.
Bevis: Resultatet flger af Stning 3.4.2 med (x1 , x2 ) = x1 + x2 , idet
1 ({y}) = {(0, y), (1, y 1), . . . , (y 1, 1)(y, 0)}.
2
78
Fordelinger p
a endelige mngder
3.5
Polynomialfordelingen
3.5 Polynomialfordelingen
79
Kantede
Gule Grnne
3/16
1/16
Mendel dyrkede 556 rter, hvis typer kan betragtes som uafhngige.
Hvis Si er antallet af rter blandt de dyrkede, som viste sig at vre af den
ite type, er den stokastiske vektor (S1 , S2 , S3 , S4 ) polynomialfordelt med
antalsparameter 556 og sandsynlighedsparametre 9/16, 3/16, 3/16, 1/16.
I Mendels forsg blev udfaldet af den stokastiske vektor (315, 108, 101, 32).
Man kan med metoder fra statistikken undersge, om dette udfald er i
overensstemmelse med Mendels teori.
2
For at opskrive polynomialfordelingens sandsynlighedsfunktion, er det
ndvendigt at benytte polynomialkoefficienterne
n
s1 , . . . , sk
n!
,
s1 ! sk !
n
n
=
s
s, n s
80
Fordelinger p
a endelige mngder
P (X1 = x1 , . . . , Xn = xn )
ps11 pskk
n
ps11 pskk ,
s1 , . . . , sk
3.5 Polynomialfordelingen
81
jfr. Appendiks B.
2
Flgende stning kan ret let vises ud fra definitionen af polynomialfordelingen. Overvej resultatets intuitive indhold.
Stning 3.5.5 Antag, at (S1 , . . . , Sk ) er polynomialfordelt med antalsparameter n og sandsynlighedsparametre p1 , . . . , pk . For en delmnde I
P
af {1, 2 . . . , k} er S = iI Si binomialfordelt med antalsparameter n
P
og sandsynlighedparameter iI pi . Lad mere generelt I1 , . . . , Im vre
disjunkte delmngder af {1, 2 . . . , k}, som opfylder, at I1 Im =
{1, 2, . . . , k}, og definer
Tj =
iIj
Si og qj =
pi ,
iIj
82
Fordelinger p
a endelige mngder
3.6
(3.6.1)
(3.6.2)
83
p(x1 , x2 ) = g1 (x1 )
p(x1 , x2 ) = g2 (x2 )
x2 T2
og
p2 (x2 ) =
1=
g2 (x2 ),
g1 (x1 ).
x2 T2
x1 T1
x1 T1
Da
p1 (x1 ) =
x1 T1
x1 T1
g1 (x1 )
x1 T1
x2 T2
g1 (x1 )
g2 (x2 )
x2 T2
g2 (x2 ) ,
flger det, at
p1 (x1 )p2 (x2 ) = g1 (x1 )g2 (x2 ) = p(x1 , x2 ),
hvilket netop er (3.6.1).
Endelig skal vi til slut antage, at 2) er opfyldt, og vise at X1 og X2
s
a er uafhngige. Lad derfor A1 og A2 vre vilk
arlige delmngder af de
reelle tal, og definer B1 = A1 T1 og B2 = A2 T2 . Vi har da, at
P (X1 A1 , X2 A2 )
= P ((X1 , X2 ) B1 B2 ) =
X
x1 B1
p1 (x1 )
x2 B2
p(x1 , x2 )
x1 B1
p2 (x2 ) =
x2 B2
x1 B1
p1 (x1 )P (X2 B2 )
84
Fordelinger p
a endelige mngder
85
X1 + X2 koncentreret p
a mngden {0, 1, . . . , n1 + n2 }, og dens sandsynlighedsfunktion er givet ved
q(y) =
y
X
j=0
p1 (j)p2 (y j)
(3.6.3)
n
ar y {0, 1, . . . , n1 + n2 }.
Sandsynlighedsfunktionen q givet ved (3.6.3) kaldes foldningen af de
to sandsynlighedsfunktioner p1 og p2 . Man kalder derfor ofte fordelingen
af X1 + X2 foldningen af de to marginale fordelinger.
Lad os slutte dette afsnit med det i mange statistiske analyser vigtige
begreb betinget uafhngighed af to stokastiske variable givet en tredie.
Definition 3.6.4 Lad X1 , X2 og X3 vre tre stokastiske variable, som
er koncentreret p
a de endelige mngder T1 , T2 og T3 . Da siges X1 og
X2 at vre betinget uafhngige givet X3 , hvis der for alle (x1 , x2 , x3 )
T1 T2 T3 , hvor P (X3 = x3 ) > 0 glder, at
P (X1 = x1 , X2 = x2 |X3 = x3 ) =
P (X1 = x1 |X3 = x3 )P (X2 = x2 |X3 = x3 ).
(3.6.4)
86
Fordelinger p
a endelige mngder
(3.6.5)
(3.6.6)
x1 T1 x2 T2
p13 (x1 , x3 ) =
p(x1 , x2 , x3 ) =
X
x1 T1
g(x1 , x3 )
p(x1 , x2 , x3 ) = g(x1 , x3 )
x1 T1
x2 T2
h(x2 , x3 ) ,
h(x2 , x3 ),
x2 T2
x2 T2
p23 (x2 , x3 ) =
p(x1 , x2 , x3 ) = h(x2 , x3 )
g(x1 , x3 ),
x1 T1
3.7
87
Middelvrdi og varians
k
X
ai p(ai ).
(3.7.1)
i=1
88
Fordelinger p
a endelige mngder
henfres til det engelske ord expectation eller til det tyske ord Erwartungswert. Bemrk, at middelvrdi i disse noter skrives ikke-kursiveret E for
at undg
a forveksling med udfaldsrummet E.
Lg mrke til, at middelvrdien af en stokastisk variabel X kun
afhnger af fordelingen af X. Den er alts
a egentlig en egenskab ved fordelingen, og vi omtaler ogs
a E(X) som fordelingens middelvrdi. Vi skal
senere i dette afsnit finde middelvrdierne af de fordelinger, som vi tidligere i dette kapitel har indfrt.
Eksempel 3.7.2 Lad X vre en stokastisk variabel, som er koncentreret
p
a mngden {0, 1}, hvis fordeling er givet ved P (X = 1) = p og P (X =
0) = 1 p. Da er
E(X) = 0 (1 p) + 1 p = p.
(3.7.2)
89
E((X)) =
(x1 , . . . , xn )p(x1 , . . . , xn ).
(3.7.3)
(x1 ,...,xn )T
q(y) =
p(x1 , . . . , xn )
og er koncentreret p
a den endelige mngde (T ). Iflge Definition 3.7.1
er middelvrdien af den stokastiske variable Y = (X)
E(Y ) =
yq(y)
y(T )
y(T )
p(x1 , . . . , xn )
(x1 , . . . , xn )p(x1 , . . . , xn )
(x1 , . . . , xn )p(x1 , . . . , xn ).
(x1 ,...,xn )T
2
Eksempel 3.7.4 Lad (X1 , X2 ) vre den stokastiske vektor, som angiver
udfaldet af et kast med to terninger. Definer en stokastisk variabel ved
Z = X1 X2 , d.v.s. antallet af jne p
a den terning, som viser det strste
antal jne. Vi har nu to m
ader at beregne denne middelvrdi p
a. Den
ene er at benytte definitionen (3.7.1). For at gre det, skal vi frst finde
sandsynlighedsfunktionen for Z. Det er ikke vanskeligt at se, at den er
givet ved flgende tabel.
z
p(z)
1
2
3
4
5
6
1/36 1/12 5/36 7/36 1/4 11/36
90
Fordelinger p
a endelige mngder
Iflge (3.7.1) er
E(Z) = 1
1
1
5
7
1
11
+2
+3
+4
+5 +6
= 4.472.
36
12
36
36
4
36
(3.7.4)
(a + bxi )p(xi ) = a
i=1
k
X
p(xi ) + b
i=1
k
X
xi p(xi ) = a + bE(X).
i=1
2
Stning 3.7.6 Lad (X1 , X2 ) vre en to-dimensional stokastisk vektor
p
a en endelig mngde, som opfylder, at X1 X2 . Da er E(X1 ) E(X2 ).
Specielt glder for en stokastisk variabel X, at
|E(X)| E(|X|).
(3.7.5)
(x1 ,x2 )T
x1 p(x1 , x2 )
(x1 ,x2 )T
x2 p(x1 , x2 ) = E(X2 ),
91
(3.7.6)
(3.7.7)
og
E(X1 + X2 ) =
(x1 + x2 )p(x1 , x2 )
x1 p(x1 , x2 ) +
(x1 ,x2 )T
(x1 ,x2 )T
x2 p(x1 , x2 )
(x1 ,x2 )T
E(X1 ) + E(X2 ).
(x1 ,x2 )T
x1 x2 p(x1 , x2 )
92
Fordelinger p
a endelige mngder
x2 T2
x1 T1
x1 T1
x1 p1 (x1 )
x2 T2
x2 T2
x2 p2 (x2 )
x1 T1
x1 p1 (x1 )
n
.
N
Hvis X er antallet af rde kugler i stikprven, er
E(1A1 ) =
n
R
=n .
N
N
2
93
Var(X) = E [X E(X)]2 .
(3.7.8)
Hvis X er koncentreret p
a mngden T og har sandsynlighedsfunktion
p, kan variansen iflge Stning 3.7.3 beregnes ved formlen
Var(X) =
xT
(x E(X))2 p(x).
Da
[X E(X)]2 = X 2 + E(X)2 2XE(X),
flger den nyttige formel for variansen af X
Var(X) = E(X 2 ) (E(X))2 ,
(3.7.9)
(3.7.10)
= E b2 [X E(X)]2 = b2 Var(X).
94
Fordelinger p
a endelige mngder
(3.7.11)
95
og da E(X) = c, er
Var(X) = (E(X) E(X))2 p(E(X)) = 0.
Antag omvendt, at Var(X) = 0, og lad T vre den endelige mngde,
hvorp
a X er koncentreret. Da
X
xT
(x E(X))2 p(x) = 0
3.8
Kovarians og korrelation
(3.8.1)
96
Fordelinger p
a endelige mngder
Ved at regne p
a hjresiden af (3.8.1), er det er ikke vanskeligt at indse,
at vi har flgende formel, som ofte er nyttig til beregning af kovariansen
Cov(X, Y ) = E(XY ) E(X)E(Y ).
(3.8.2)
Bemrk, at
Cov(X, X) = Var(X).
Lad X, Y og Z vre tre stokastiske variable, og lad a, b, c og d vre
reelle tal. Flgende regneregler for kovarians vises lige s
a let som (3.7.10)
ved at regne efter.
Cov(a + bX, c + dY ) = bd Cov(X, Y )
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
Cov(X, Y ) = Cov(Y, X)
(3.8.3)
(3.8.4)
(3.8.5)
97
(3.8.6)
= E (X1 E(X1 ))2 + (X2 E(X2 ))2 + 2(X1 E(X1 ))(X2 E(X2 ))
= Var(X1 ) + Var(X2 ) + 2Cov(X1 , X2 ).
98
Fordelinger p
a endelige mngder
n
X
Var(Xi ) + 2
n X
i1
X
Cov(Xi , Xj ).
(3.8.7)
i=2 j=1
i=1
n
n
Var (1Ai ) =
1
.
N
N
For i 6= j er
E(1Ai 1Aj ) = E(1Ai Aj ) = P (Ai Aj )
n n1
= P (Aj )P (Ai |Aj ) =
.
N N 1
n
n n1
Cov(1Ai , 1Aj ) =
N N 1
N
2
n(n N )
,
N 2 (N 1)
s
a iflge (3.8.7) er
n
n
n(n N )
Var(X) = R
1
+ 2[ 12 R(R 1)] 2
N
N
N (N 1)
R
R N n
.
= n
1
N
N N 1
99
Cov(X, Y )
Var(X)Var(Y )
(3.8.8)
Y E(Y )
Y0 = q
,
Var(Y )
idet
Cov(X0 , Y0 ) = E(X0 Y0 ) =
Var(X) Var(Y )
= corr(X, Y ).
100
Fordelinger p
a endelige mngder
2
1
2 X0
+ 21 Y02 = 1,
Var(X0 Y0 ) = E (X0 Y0 )2
101
(3.8.9)
(3.8.10)
Binomialfordelingen med antalsparameter 100 og sandsynlighedsparameter 0.5, som giver positiv sandsynlighed til alle hele tal mellem nul og 100,
har middelvrdi
100 0.5 = 50, og alts
a varians 100 0.5 0.5 = 25 og
spredning 25 = 5.
102
Fordelinger p
a endelige mngder
pi pj
,
(1 pi )(1 pj )
2
103
as s
aledes,
tildele hvert observationspar sandsynligheden n1 . Det skal forst
at hvis to eller flere af disse talpar er sammenfaldende, s
a f
ar det tilsvarende punkt i IR2 sandsynlighed lig antal sammenfaldende observationer
divideret med n. En stokastisk variabel (X, Y ) med denne fordeling kan
opfattes som en observation, der er tilfldigt udvalgt blandt de n givne.
For en s
adan stokastisk variabel glder, at
1
(x1 + . . . + xn ),
n
1
E(Y ) = y =
(y1 + . . . + yn ),
n
n
1X
Var(X) =
(xi x)2 ,
n i=1
n
1X
(yi y)2 ,
Var(Y ) =
n i=1
E(X) = x =
n
1X
Cov(X, Y ) =
(xi x)(yi y),
n i=1
Pn
(xi x)(yi y)
.
corr(X, Y ) = qP i=1
Pn
n
2
2
(x
)
(y
)
i
i
i=1
i=1
104
Fordelinger p
a endelige mngder
3.9
Sammenfatning
3.10 Opgaver
3.10
105
Opgaver
for i {1, 2, . . . , N }.
ns
p
P (S = s).
s+1 1p
(b) Vis at
P (S = s + 1) > P (S = s) s < (n + 1)p 1
P (S = s + 1) = P (S = s) s = (n + 1)p 1
106
Fordelinger p
a endelige mngder
3.10 Opgaver
107
3.9 Formuler det til Stning 3.4.1 svarende resultat for hjere-dimensionale fordelinger, og diskuter, hvordan det kan vises. Overvej ogs
a
at resultatet er et specialtilflde af Stning 3.4.2.
3.10 Vis ved at kombinere resultaterne i Stning 3.2.6 og Korollar 3.6.3
at
!
!
!
i
X
n1 + n 2
n1
n2
=
,
i
j
ij
j=0
hvor n1 og n2 er vilk
arlige positive hele tal, og i er et helt tal
mellem 0 og n1 + n2 . Prv at give en kombinatorisk fortolkning af
den fundne formel.
3.11 En terning kastes 12 gange.
(a) Hvad er sandsynligheden for netop at f
a 2 1ere, 2 2ere, . . . , 2
6ere?
(b) Hvad er sandsynligheden for netop at f
a 2 1ere og 2 6ere?
3.12 Lad (S1 , . . . , S5 ) vre polynomialfordelt af orden 5 med antalsparameter n og sandsynlighedsparametre p1 , . . . , p5 . De flgende
sprgsm
al besvares lettest ved direkte anvendelse af polynomialfordelingens definition (Definition 3.5.1).
(a) Vis at S1 er binomialfordelt med antalsparameter n og sandsynlighedsparameter p1 .
(b) Vis at S1 + S2 er binomialfordelt med antalsparameter n og
sandsynlighedsparameter p1 + p2 .
(c) Vis at (S1 + S2 , S3 + S4 , S5 ) er polynomialfordelt af orden 3 med
antalsparameter n og sandsynlighedsparametre p1 + p2 , p3 + p4 og
p5 .
(d) Vis til slut Stning 3.5.5, som (a), (b) og (c) er specialtilflde
af.
3.13 Lad X og Y vre uafhngige stokastiske variable, som begge er
ligefordelte p
a mngden {0, 1, . . . , N }. Find P (X Y ) og P (X =
Y ). Find dernst sandsynlighedsfunktionerne for de stokastiske variable X Y , X Y og |X Y |.
108
Fordelinger p
a endelige mngder
x2
x1
-1
0
2
6
3
0
0
1/9 4/27
1 2/9
0
1/9 1/9
-2 1/9 1/27 1/27 1/9
x2
x1
-1
0
1
1 0.11 0.10 0.15
0 0.14 0.12 0.14
-1 0.09 0.08 0.07
3.10 Opgaver
109
n
X
(1)k+1
k=1
P (Ai1 . . . Aik ).
n
X
k=1
(1)k+1
1 A i1 . . . 1 A ik .
110
Fordelinger p
a endelige mngder
3.18 Benyt Opgave 3.17 til at lse flgende klassiske problem, kaldet rencontreproblemet: n breve, nummereret 1, . . . , n, lgges tilfldigt i
n konvolutter, ligeledes nummereret 1, . . . , n. Hvad er sandsynligheden for, at ikke et eneste brev kommer i konvolutten med samme
nummer? Vink: Lad Ai betegne hndelse at det ite brev kommer
i konvolut nr. i; s
a er det ikke svrt at beregne sandsynligheder for
hndelser af formen Ai1 . . . Aik .
Det mest interessante ved dette problem er dets lsning. Den nskede sandsynlighed viser sig at blive
1
1
1
1
1 1 + + . . . (1)n
,
2! 3! 4!
n!
som kan vises (eksponentialfunktionens rkkeudvikling) at konvergere mod e1 = 0.36788 for n . Konvergensen er meget hurtig.
I praksis er lsningen uafhngig af n, n
ar blot n er strre end ca.
7.
3.19 Vis, at der for ethvert a > 0 glder, at
P (|X| a)
E|X|
.
a
3.10 Opgaver
111
Var(Y )
ba
.
2
2
)2 ba
Vink: Ang
aende den sidste ulighed, vis at E (Y a+b
,
2
2
og benyt Opgave 3.22. For hver af disse uligheder, hvorn
ar glder
der lighedstegn?
3.24 En stokastisk variabel X har middelvrdi 5 og varians 2. Hvad er
E(7 + 8X + X 2 )?
3.25 Vis p
astandene i Eksempel 3.8.11. Vink: Iflge Stning 3.5.5 er Si ,
Sj og Si + Sj binomialfordelte med antalsparameter n og sandsynlighedsparametre henholdsvis pi , pj og pi + pj . Udtryk Var(Si + Sj )
ved varianserne af Si og Sj og kovariansen mellem disse.
Hvorn
ar er korrelationen mellem Si og Sj lig -1?
3.26 Lad X1 , . . . , Xn vre uafhngige, identisk fordelte stokastiske vari = 1 (X1 + . . . + Xn ),
able med middelvrdi og varians 2 . St X
n
og definer den empiriske varians s2 ved
s2 =
n
1 X
2.
(Xi X)
n 1 i=1
Vis at E(s2 ) = 2 .
3.27 Lad X1 , X2 og X3 vre identisk fordelte, uafhngige stokastiske
variable med strengt positiv varians. Vis at
1
corr(X1 + X2 , X2 + X3 ) = .
2
112
Fordelinger p
a endelige mngder
p(0) = 1/2,
p(1) = 1/4.
Definer desuden Y = X 2
(a) Bestem middelvrdi og varians for X.
(b) Bestem sandsynlighedsfunktionen for Y , samt middelvrdi og
varians for Y .
(c) Vis at X og Y er ukorrelerede, d.v.s. Cov(X, Y ) = 0.
(d) Bestem sandsynlighedsfunktionen for (X, Y ), og vis at X og Y
ikke er uafhngige.
3.29 For en stokastisk vektor (X1 , . . . , Xk ) defineres kovariansmatricen
som k k-matricen V = {vij }, hvor vii = Var(Xi ), i = 1, . . . , k,
og hvor vij = Cov(Xi , Xj ), n
ar i 6= j. Kovariansmatricen er alts
a
symmetrisk (vij = vji ).
(a) En symmetrisk k k-matrix V = {vij } kaldes positiv semidefinit, hvis
k X
k
X
i=1 j=1
ai aj vij 0
for alle (a1 , . . . , ak ) IRk . Vis, at kovariansmatricen er positiv semidefinit. Vink: Beregn variansen af a1 X1 + + ak Xk .
ai aj vij = 0
i=1 j=1
3.10 Opgaver
113
Kapitel 4
Generelle diskrete fordelinger
4.1
Diskrete fordelinger
115
116
omskrivning
n
x
pxn (1 pn )nx
(npn )x
(1 pn )n .
x!
0.00
0.05
0.10
0.15
0.20
0.25
0.30
= [1 1/n] [1 (x 1)/n](1 pn )x
10
Figur 4.1.1: Som en illustration af Stning 4.1.2 er her sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 60 og sandsynlighedsparameter 1/20 tegnet som fede lodrette streger, mens grnsevrdien givet ved (4.1.1) er angivet ved siden af med tyndere streger.
Det er klart, at
[1 1/n] [1 (x 1)/n](1 pn )x 1,
og at
(npn )x x
117
n
ar n , men vi m
a se lidt nrmere p
a (1 pn )n . Da den naturlige
logaritme er differentiabel i 1 med differentialkoefficient 1, ser vi at
log(1 pn )n = npn
log(1) log(1 pn )
,
pn
n
ar n , s
a (1 pn )n e .
Tilfldet x = 0 er lettere. Her er binomialsandsynligheden lig (1
n
pn ) , som vi lige har set konvergerer mod e . Alts
a glder (4.1.1) ogs
a
for x = 0.
2
Stning 4.1.2 siger, at hvis Xn er binomialfordelt med antalsparameter n og sandsynlighedsparameter pn , hvor pn er som beskrevet i stningen, s
a vil
x
P (Xn = x) e
x!
n
ar n . For et givet n er de mulige vrdier for Xn mngden
{0, 1, . . . n}, som jo vokser op mod IIN0 , n
ar n . Man m
a derfor
sprge sig, om man p
a en eller anden m
ade kan lade grnsevrdien i
(4.1.1) definere en sandsynlighedsfordeling p
a IIN0 . Med pn = 3/n (og
dermed = 3) ville vi derved f
a en tilfredsstillende model i Eksempel
4.1.1. Det viser sig, at det kan man godt, men vi har endnu ikke behandlet fordelinger p
a en uendelig mngde som IIN0 , s
a det m
a vi lige have p
a
plads frst.
Vi vil definere sandsynlighedsm
al p
a mngder, som kan skrives p
a
formen
T = {xi | i IIN}.
(4.1.2)
Man kan kort sige, at man skal kunne tlle elementerne i T . Elementerne
xi behver ikke vre reelle tal; de kan for eksempel godt tilhre IRn .
Vigtige eksempler p
a mngder af denne type er IIN, ZZ og IIN k . At ZZ kan
skrives p
a formen (4.1.2) ses p
a flgende m
ade. Hvis vi definerer
xi =
i1
2
2i
hvis i er ulige
hvis i er lige,
118
snedig m
ade at tlle elementerne i IINk p
a. Vi njes her med at antyde,
hvordan man kan tlle elementerne i IIN2 :
..
.
..
.
9
5 8
2 4 7
10
6
3
1
p(xi ) = 1,
(4.1.3)
i=1
kaldes en sandsynlighedsfunktion p
a T.
Uendelige summer som den i (4.1.3) er behandlet i Appendix C. Den
vsentlige forskel mellem dette kapitel og Kapitel 3 er, at man skal vre
lidt mere p
apasselig med uendelige summer end med endelige summer.
Eksempel 4.1.4 Funktionen
p(x) =
x
e ,
x!
x IIN0 ,
119
yn
y2 y3 y4
=1+y+
+
+
+ ,
2
6
24
n=0 n!
n
e = 1.
n=0 n!
S
a mangler vi bare at indse, at p(x) 1, men det flger af, at p(x)
n=0 p(n) = 1 for alle x IIN0 , da alle led i summen er positive.
2
x IIN0 ,
(1 )i =
1 (1 )n+1
1 (1 )n+1
=
,
1 (1 )
flger det, at
X
i=0
(1 )i = lim
n
X
1
(1 )i = = 1,
i=0
xA
p(x) =
X
i=1
(4.1.4)
120
hvor A er en vilk
arlig delmngde af T . I den sidste sum betegner 1A
indikatorfunktionen for mngden A, som er defineret ved (A.1.15). Der
mindes om, at 1A (x) er lig en, hvis x tilhrer A, og at 1A (x) ellers er lig
nul. Summen i (4.1.4) har ofte uendelig mange led, men da p(xi )1A (xi )
p(xi ), flger det af (4.1.3), at summen konvergerer. Hvis et sandsynlighedsm
al er givet ved (4.1.4), siger vi, at det har sandsynlighedsfunktion
p.
Lad os nu vise, at P er et sandsynlighedsm
al p
a T . Frst bemrkes
det, at P (A) 0, da alle led i summen (4.1.4) er positive, og at P (A)
P
i=1 p(xi ) = 1. Da
P (T ) =
i=1
i=1
X
i=1
i=1
i=1
s
a ogs
a (1.3.3) holder. Vi har her brugt, at 1AB (x) = 1A (x) + 1B (x)
(overvej hvorfor dette er rigtigt).
En stokastisk variabel eller vektor, hvis fordeling er en diskret fordeling, kaldes en diskret stokastisk variabel eller vektor. For en diskret
stokastisk variabel eller vektor X, hvis fordeling har sandsynlighedsfunktionen p (man siger kort, at X har sandsynlighedsfunktion p), glder,
at
P (X = x) = p(x)
for alle x T . Dette flger umiddelbart af (4.1.4) ved at stte A = {x}.
Man kalder derfor ogs
a p(x) for punktsandsynligheden i x.
Der skal lige erindres om, at man godt kan opfatte en diskret fordeling
p
a en tllelig mngde T IRn som en fordeling p
a hele IRn ved for en
n
vilk
arlig delmngde A IR at stte P (A) = P (A T ), se diskussionen
i begyndelsen af Kapitel 3. For en diskret stokastisk variabel eller vektor
X koncentreret p
a den tllelige mngde T med sandsynlighedsfunktion
121
p(x) =
P (X = x),
(4.1.5)
xAT
xAT
hvor A er en vilk
arlig delmnge af IR eller IRn .
Eksempel 4.1.4 (fortsat). Vi s
a ovenfor, at funktionen
x
e , x IIN0 ,
(4.1.6)
x!
hvor > 0, er en sandsynlighedsfunktion p
a IIN0 . Den diskrete fordeling
p
a IIN0 defineret ved sandsynlighedsfunktion (4.1.6) kaldes Poissonfordelingen med parameter . Eksempel 4.1.1 sammen med Stning 4.1.2
p(x) =
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Poissonfordelingen
10
12
122
mange andre situationer, hvor man kan give argumenter, som er helt
analoge til argumentet i Eksempel 4.1.1, for at et observeret antal er udfald af en Poissonfordelt stokastisk variabel. Eksempler p
a strrelser, som
ofte kan antages at vre Poissonfordelte, er antallet af skadesanmeldelser
af en bestemt type til et forsikringsselskab i en bestemt periode, antal
trafikulykker per dag af en given type i et givet omr
ade, og antal fdsler
per dag i et givet omr
ade. I nogle tilflde er det ikke tiden, men derimod
rummet, der deles op i sm
a delmngder, n
ar der skal argumenteres for
at en strrelse er Poissonfordelt. S
aledes er antallet af bakterier af en
bestemt type i en vandprve ofte Poissonfordelt.
2
Lad os lige kort betragte fordelingsfunktionen for en diskret fordeling.
Vi njes med at betragte en diskret fordeling, som er koncentreret p
a IIN 0 .
Lad p betegne dens sandsynlighedsfunktion. Da er fordelingsfunktionen
F for P givet ved
F (x) =
p(i)1(,x] (i) =
i=0
[x]
X
i=0
p(i) for x 0,
(4.1.7)
hvor [x] betegner heltalsdelen af x (dvs. det strste hele tal, der er mindre
end eller lig x), mens F (x) = 0, n
ar x < 0, og at
F (n) =
n
X
i=0
p(i)
p(i) = 1,
i=0
n
ar n . Funktionen F er konstant, n
ar x IR\IIN0 , mens den har et
spring opad af strrelse p(i) i de i IIN0 , for hvilke p(i) > 0. I springpunkterne er F kontinuert fra hjre, men ikke fra venstre. Hermed menes, at
limn F (i + n1 ) = F (i), mens limn F (i n1 ) = F (i 1) 6= F (i).
Bemrk, at vi kan finde sandsynlighedsfunktionen ud fra fordelingsfunktionen, idet
p(x) = F (x) F (x 1) for x IIN0 .
(4.1.8)
123
x IIN0 ,
(4.1.9)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
10
12
Betragt et forsg med to mulige udfald K og U , hvor sandsynligheden for udfaldet K er (0, 1). Uafhngige gentagelser af dette forsg
udfres, indtil frste gang resultatet K opn
as. Lad T vre den stokastiske
variable, som angiver ventetiden p
a udfaldet K. Hermed menes det antal
forsg med udfaldet U , der skal udfres inden udfaldet K opn
as. Med
andre ord er T = t, hvis de frste t forsg har udfaldet U , mens forsg
nummer t + 1 har udfaldet K. Den stokastiske variabel T antager kun
124
(4.1.10)
i
X
j=0
(1 )j ,
alts
a, at F er af formen (4.1.7). Det vil sige, at T s fordeling er den
geometriske fordeling med parameter .
2
4.2
x2 T2
p(x1 , x2 )
(4.2.1)
125
p(x1 , x2 ).
(4.2.2)
x1 T1
p(x1 , x2 ) =
x1 A x2 T2
p1 (x1 ).
x1 A
p(x1 , . . . , xn ) for y (T ).
P
(4.2.3)
p(x1 , . . . , xn )
126
yA
p(x1 , . . . , xn )
q(y).
yA
2
Eksempel 4.2.3 Lad X vre Poisson fordelt med parameter . Da er
Y = X/c, hvor c er et positivt reelt tal, en diskret stokastisk variabel
koncentreret p
a mngden T = {i/c | i IIN0 } med sandsynlighedsfunktion
cy
e
for y T.
q(y) =
(cy)!
Videre er Z = X 2 en diskret stokastisk variabel koncentreret p
a mngden
Te = {i2 | i IIN0 } med sandsynlighedsfunktion
z
q(z) = e for z Te .
( z)!
y
X
j=0
p(j, y j),
(4.2.4)
for y IIN0 .
4.3
127
Stning 4.3.1 Lad (X1 , . . . , Xn ) vre en n-dimensional diskret stokastisk vektor, hvor Xi er koncentreret p
a den tllelige mngde Ti , i =
1, . . . , n, og antag, at den simultane fordeling af (X1 , . . . , Xn ) har sandsynlighedsfunktion p : T 7 [0, 1], hvor T = T1 Tn . Lad endelig
pi : Ti 7 [0, 1], vre sandsynlighedsfunktionen for den marginale fordeling af Xi , i = 1, . . . , n. Da er flgende tre udsagn kvivalente:
1) X1 , . . . , Xn er stokastisk uafhngige,
2) For alle (x1 , . . . , xn ) T er
p(x1 , . . . , xn ) = p1 (x1 ) pn (xn ),
(4.3.1)
(4.3.2)
128
x1 , . . . , Xk = xk , Xk+1 = xk+1 , . . . , Xn = xn )
P (X1 =
(xk+1 ,...,xn ) 1 ({x})T
P (X1 =
(xk+1 ,...,xn ) 1 ({x})T
=
= P (X1 = x1 ) P (Xk = xk )
(xk+1 ,...,xn
P (Xk+1 = xk+1 , . . . , Xn = xn )
) 1 ({x})T
y
X
j=0
p1 (j)p2 (y j)
(4.3.3)
129
for y IIN0 .
Sandsynlighedsfunktionen q givet ved (4.3.3) kaldes, som tidligere
nvnt, foldningen af de to sandsynlighedsfunktioner p1 og p2 , ligesom
man kalder fordelingen af X1 + X2 foldningen af de to marginale fordelinger.
Stning 4.3.4 (Poissonfordelingens foldningsegenskab). Lad X1 , . . . , Xn
vre uafhngige, Poissonfordelte stokastiske variable med parametre 1 ,
. . . , n . Da er X1 + + Xn Poissonfordelt med parameter 1 + + n .
Bevis: Vi kan njes med at vise stningen for n = 2, da det generelle
resultat da flger ved induktion (idet X1 + + Xn = [X1 + + Xn1 ] +
Xn ). For n = 2 flger resultatet af (4.3.3). For y IIN0 er
(yj)
j1 1 2
P (X1 + X2 = y) =
e
e2
j!
(y
j)!
j=0
y
X
y
e(1 +2 ) X
y j (yj)
=
1 2
y!
j=0 j
(1 + 2 )y (1 +2 )
e
,
y!
(4.3.4)
130
Beviset for flgende stning er identisk med beviset for Stning 3.6.5
Stning 4.3.6 Lad (X1 , X2 , X3 ) vre en tre-dimensional diskret stokastisk vektor med simultan sandsynlighedsfunktion p. Antag, at Xi er koncentreret p
a den tllelige mngde Ti , i = 1, 2, 3. Betegn den simultane
sandsynlighedsfunktion for (Xi , Xj ) med pij , og sandsynlighedsfunktionen
for X3 med p3 . Da er flgende tre udsagn kvivalente:
1) X1 og X2 er betinget uafhngige givet X3 ,
2) For alle (x1 , x2 , x3 ) T1 T2 T3 , glder, at
p(x1 , x2 , x3 )p3 (x3 ) = p13 (x1 , x3 )p23 (x2 , x3 ),
(4.3.5)
(4.3.6)
4.4
Middelvrdi og varians
X
i=1
(4.4.1)
131
og vi definerer i s
a fald middelvrdien af X som
E(X) =
xi p(xi ).
(4.4.2)
i=1
xi 0
xi p(xi ) = og
xi <0
xi p(xi ) = .
Hvis T IR+ , kan dette ikke ske, hvorfor man ofte i dette tilflde tillader
sig at skrive E(X) = , n
ar (4.4.1) ikke er opfyldt.
Lad os lige nvne et tilflde, hvor man altid kan vre sikker p
a at
middelvrdien eksisterer. Antag, at X er koncentreret p
a en begrnset mngde, d.v.s. at der findes et c > 0, s
a T [c, c] (og dermed
P (X [c, c]) = 1). En stokastisk variabel med denne egenskab kaldes
begrnset. N
ar T [c, c], er
X
i=1
|xi |p(xi )
X
i=1
cp(xi ) = c
X
i=1
p(xi ) = c < ,
s
a X har middelvrdi. Bemrk, at en fordeling p
a en endelig mngde
er et specialtilflde.
Eksempel 4.1.4 (fortsat). Middelvrdien i Poissonfordelingen findes
ved flgende udregning:
X
X
i
(i1)
j
i X
i e =
e =
e =
e = ,
i=0 i!
i=1 (i 1)!
i=1 (i 1)!
j=0 j!
132
ip(1 p) = (1 p)
i=0
= (1 p)
X
i=1
X
i=1
(i 1)p(1 p)
= (1 p)(E(X) + 1),
ip(1 p)i1
i1
X
i=1
p(1 p)
i1
1p
.
p
Man br naturligvis frst overveje, om middelvrdien er endelig, for ellers
er ovenst
aende udledning fejlagtig. At summen konvergerer flger af, at
(1 p)i g
ar eksponentielt hurtigt mod nul, mens i kun g
ar linert hurtigt
mod uendelig.
Det forventede antal plat fr frste krone i en serie af mntkast er
= 1, og det forventede antal slag fr frste sekser i en serie af
alts
a 10.5
0.5
= 5. Begge dele lyder jo trovrdigt.
terningkast er 11/6
1/6
2
E(X) =
(x1 ,...,xn )T
(4.4.3)
(4.4.4)
og i s
a fald er
E((X)) =
(x1 ,...,xn )T
(x1 , . . . , xn )p(x1 , . . . , xn ).
133
y (T ). Iflge Definition 4.4.1 har den stokastiske variabel (X) middelvrdi, netop n
ar dens sandsynlighedsfunktion opfylder (4.4.1), d.v.s.
n
ar
X
|y|q(y) < .
y(T )
y(T )
|y|q(y) =
=
=
=
y(T )
|y|
p(x1 , . . . , xn )
|y|p(x1 , . . . , xn )
|(x1 , . . . , xn )|p(x1 , . . . , xn )
(x1 ,...,xn )T
|(x1 , . . . , xn )|p(x1 , . . . , xn ).
(4.4.5)
X
i=1
134
X
i=1
Ved hjlp af Stning 4.4.2 kan vi derfor slutte, at a+bX har middelvrdi,
som kan beregnes ved
i=1
xi pi (xi ) = a + bE(X).
i=1
2
Stning 4.4.4 Lad (X1 , X2 ) vre en to-dimensional diskret stokastisk
vektor, som opfylder, at X1 X2 , samt at X1 og X2 har middelvrdi.
Da er E(X1 ) E(X2 ). Specielt glder for en stokastisk variabel X, som
har middelvrdi, at
|E(X)| E(|X|).
(4.4.6)
Beviset er nrmest identisk med beviset for Stning 3.7.6 og udelades
derfor.
Stning 4.4.5 Lad (X1 , X2 ) vre en diskret to-dimensional stokastisk
vektor, som opfylder, at X2 har middelvrdi, samt at |X1 | |X2 |. Da
har ogs
a X1 middelvrdi.
Bevis: Lad T vre den tllelige mngde, p
a hvilken (X1 , X2 ) er koncentreret, og lad p betegne sandsynlighedsfunktionen for (X1 , X2 ). Da
X2 har middelvrdi, har vi iflge Stning 4.4.2, at
X
(x1 ,x2 )T
(x1 ,x2 )T
|x1 |p(x1 , x2 )
(x1 ,x2 )T
135
(4.4.7)
(x1 ,x2 )T
(x1 ,x2 )T
hvorfor den stokastiske variable X1 + X2 iflge Stning 4.4.2 har middelvrdi, som kan beregnes ved
X
(x1 + x2 )p(x1 , x2 ) =
(x1 ,x2 )T
x1 p(x1 , x2 ) +
(x1 ,x2 )T
x2 p(x1 , x2 )
(x1 ,x2 )T
E(X1 ) + E(X2 ).
(x1 ,x2 )T
|x1 x2 |p(x1 , x2 ) =
x2 T2
x1 T1
136
x2 T2
x1 T1
x1 T1
x2 T2
x1 x2 p(x1 , x2 )
(x1 ,x2 )T
x2 T2
x1 T1
x1 T1
x1 p1 (x1 )
x2 T2
x2 T2
x2 p2 (x2 )
x1 T1
x1 p1 (x1 )
2
For at sikre, at variansen af en diskret fordeling eksisterer, m
a vi
krve mere end for middelvrdien.
Definition 4.4.7 Lad X vre en diskret stokastisk variabel, som er koncentreret p
a den tllelige mngde T = {xi | i IIN}, og som har sandsynlighedsfuktion p. Da siges X at have varians, hvis
X
i=1
(4.4.9)
og vi definerer i s
a fald variansen af X ved
Var(X) = E [X E(X)]2 .
(4.4.10)
Frst m
a vi lige overveje, at variansen er veldefineret. Da |X| X 2 +
1, medfrer (4.4.9) iflge Stning 4.4.5, at X har middelvrdi, og da
[X E(X)]2 = X 2 + E(X)2 2XE(X)
137
sikrer Stning 4.4.6, at den stokastiske variable [X E(X)]2 har middelvrdi. Betingelsen (4.4.9) kan kort skrives som E(X 2 ) < .
Det er klart, at formlerne (3.7.9) og (3.7.10) ogs
a glder for generelle
diskrete fordelinger. For disse kaldes kvadratroden af variansen naturligvis ogs
a spredningen eller standardafvigelsen .
Eksempel 4.1.4 (fortsat). Poissonfordelingens varians kan udregnes p
a
flgende m
ade. Lad X vre Poissonfordelt med parameter . Da er
E(X(X 1)) =
X
i=0
= 2
i(i 1)
i
e
i!
X
j
i2
e = 2
e = 2 ,
(i
2)!
j!
j=0
i=2
X
i=0
i2 p(1 p)i = (1 p)
= (1 p)
+2
X
i=1
i2 p(1 p)i1
i=1
X
i=1
(i 1)p(1 p)i1
= (1 p) E(X 2 ) + 1 + 2E(X) .
Da vi i afsnit 4.4 s
a, at E(X) = (1 p)/p, er
1 p 2(1 p)2
E(X ) =
+
,
p
p2
2
X
i=1
p(1 p)i1
138
s
aledes at
Var(X) =
1p
1 p (1 p)2
+
=
.
p
p2
p2
2
i
At rkken
i=0 i p(1 p) er konvergent, kan man overbevise sig om
p
a omtrent samme m
ade som i forbindelse med middelvrdien af en
geometrisk fordeling.
2
4.5
Kovarians og korrelation
og
E(Y 2 ) < .
(4.5.1)
Vi s
a i forrige afsnit, at dette medfrer, at middelvrdien af X og Y ogs
a
eksisterer. Da
(X E(X))(Y E(Y )) = XY XE(Y ) Y E(X) + E(X)E(Y )
og
|XY | 21 (X 2 + Y 2 ),
139
4.6
Betingede fordelinger
(4.6.1)
xA
p(x|A) =
1 X
p(x) = 1.
P (A) xA
Endvidere er
X
p(x|A) =
xB
X
1
P (A B)
p(x) =
= P (B|A).
P (A) xAB
P (A)
p(x1 , a)
P (X1 = x1 , X2 = a)
=
P (X2 = a)
p2 (a)
for x1 T1 , (4.6.2)
140
p(x1 , x2 |X1 + X2 = y) = Py
P
(4.6.3)
1
p(1 p)x1 p(1 p)x2
=
,
2
y
p (1 p) (y + 1)
y+1
4.7
Sammenfatning
4.8 Opgaver
141
4.8
Opgaver
P (X = x).
x+1
(b) Vis, at Poissonfordelingens sandsynlighedsfunktion har et entydigt maksimum hvis og kun hvis ikke er et positivt heltal, og
at dette maksimum i s
a fald antages i punktet x = [] (hvor []
betegner heltalsdelen af , dvs. det strste hele tal som er mindre
end eller lig ).
4.2 Lad X1 og X2 vre uafhngige Poisson fordelte stokastiske variable
med parametre 1 og 2 . St Y = (X1 + X2 )/2.
(a) Find mngden F af mulige vrdier af Y .
(b) Find q(y) = P (Y = y) for y F .
4.3 Lad X1 og X2 vre uafhngige Poisson fordelte stokastiske variable
med parametre m1 og m2 . St Y = (X1 + X2 )/(m1 + m2 ).
(a) Find mngden F af mulige vrdier af Y .
(b) Find q(y) = P (Y = y) for y F .
4.4 A st
ar ved en lidet trafikeret vej og h
aber p
a at fange en ledig taxa.
Der kommer i gennemsnit en hver halve time. Vi antager derfor, at
antal taxaer pr. minut er Poissonfordelt med parameter 1/30, og at
disse antal er uafhngige fra minut til minut.
142
4.8 Opgaver
143
1
.
1+
4.12 Lad (X, Y ) vre en diskret stokastisk vektor i IR2 med sandsynlighedsfunktion
p(x, y) =
y e2
x!(yx)!
n
ar (x, y) M
ellers,
x=0
y
x
= 2y .
P (X > n).
n=0
144
1
,
n(n + 1)
n IIN,
1
n(n+1)
1
n
1
.
n+1
Kapitel 5
En-dimensionale kontinuerte
fordelinger
I mange situationer er det naturligt at benytte en sandsynlighedsteoretisk model, hvor alle tal i et interval eller p
a hele den reelle akse er mulige
udfald. Eksempler er lngdem
alinger med m
alefejl, vgten af en tilfldigt udvalgt person eller ventetiden mellem to tilfldige begivenheder,
for eksempel anmeldelsen af skader til et forsikringsselskab. I s
adanne
situationer har man behov for modeller, hvor sandsynlighedsmassen er
fordelt ud over alle reelle tal i et interval og ikke koncentreret p
a en endelig eller tllelig delmngde, som den er for diskrete fordelinger. S
adanne
fordelinger, der kaldes kontinuerte fordelinger, er emnet for dette kapitel.
5.1
Vi s
a to eksempler p
a kontinuerte fordelinger i Kapitel 1. I Eksempel
1.3.1 udledte vi en model for udtrkning af et tilfldigt tal i intervallet
[0, 1]. Sandsynligheden for et udfald i et interval I [0, 1] er i dette
tilflde lngden af intervallet |I|. Vi kan skrive dette som
P (I) =
1
0
1I (x)dx,
hvor 1I betegner indikatorfunktionen for I, se (1.3.5). Her er sandsynlighedsmassen fordelt jvnt ud over intervallet [0, 1]. I Eksempel 1.3.3
146
var
P (I) =
1
0
1I (x)3x2 dx.
t2
t1
ex dx.
147
kaldes en sandsynlighedstthed p
a I.
1A (x)p(x)dx =
p(x)dx,
(5.1.2)
hvor A er en vilk
arlig delmngde af I (eller i hvert fald en delmngde, for
hvilken man kan give mening til integralet), og hvor 1A er indikatorfunktionen for A, se (A.1.15). Bemrk analogien til (4.1.4), som definerer
en diskret fordeling. Den eneste forskel er, at summen i (4.1.4) her er
erstattet med et integral og sandsynlighedsfunktionen med en sandsynlighedstthed.
Lad os overbevise os om, at P er et sandsynlighedsm
al p
a I. Hvis A
er en delmngde af I, er for alle x I
0 1A (x)p(x) p(x),
hvoraf det flger ved integration over I at 0 P (A) 1. Endvidere er
iflge (5.1.1)
Z
P (I) = p(x)dx = 1,
I
s
a (1.3.2) er opfyldt. Lad endelig A og B vre disjunkte delmngder af
I. Da
1AB (x)p(x) = 1A (x)p(x) + 1B (x)p(x),
flger det, at
P (A B) =
=
ZI
I
1AB (x)p(x)dx
1A (x)p(x)dx +
148
s
aledes at (1.3.3) er opfyldt. Vi har dermed godtgjort, at P defineret ved
(5.1.2) er et sandsynlighedsm
al p
a I.
Et sandsynlighedsm
al, der er defineret ved (5.1.2) ud fra en sandsynlighedstthed p kaldes en kontinuert fordeling, og man siger, at det har
sandsynlighedstthed p. Som diskuteret i begyndelsen af Kapitel 3 kan
man opfatte P som en fordeling p
a hele den reelle akse ved for B IR
at stte P (B) = P (B I). Dette svarer til at definere P (B) ved (5.1.2),
hvor p(x) er sat lig nul for x
/ I. Man definerer ofte p
a denne m
ade p(x)
for alle x IR, selv om fordelingen er koncentreret p
a et mindre interval.
En stokastisk variabel, hvis fordeling er kontinuert, kaldes en kontinuert stokastisk variabel. Hvis X er en kontinuert stokastisk variabel, hvis
fordeling har sandsynlighedstthed p, er
P (X A) =
1A (x)p(x)dx
1{a} (x)p(x)dx = 0
en sandsynlighedstthed p
a I. Den tilsvarende kontinuerte fordeling kaldes ligefordelingen p
a [a, b]. Den kaldes ogs
a den rektangulre fordeling
eller den uniforme fordeling p
a [a, b]. Denne fordeling svarer til at trkke
et tal tilfldigt i intervallet [a, b]. Man kan p
a tilsvarende m
ade definere
en ligefordeling p
a enhver delmngde af IR, som kan tilskrives en endelig
lngde, f.eks. (a, b) eller (a, b) [c, d], hvor a < b < c < d.
2
149
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Ligefordeling
0.5
0.0
0.5
1.0
1.5
x>0
(5.1.4)
er en sandsynlighedstthed p
a intervallet (0, ). Det tilsvarende kontinuerte fordeling kaldes eksponentialfordelingen med parameter . Vi kan
alts
a sige, at T er eksponentialfordelt med parameter . N
ar = 1 kaldes
fordelingen standard eksponentialfordelingen eller den normerede eksponentialfordeling.
2
Eksempel 5.1.4 Funktionen
p(x) = x1 ,
x (0, 1),
(5.1.5)
150
0.0
0.2
0.4
0.6
0.8
1.0
Eksponentialfordelingen
x0 +
x0
151
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.5
0.0
0.5
1.0
1.5
p(y)dy.
(5.1.6)
152
intervallet (a, b) er
F (x) =
1(a,b) (y)
dy =
ba
0
xa
ba
for x a
for a < x < b
for x b,
0.0
0.2
0.4
0.6
0.8
1.0
0.5
0.0
0.5
1.0
1.5
Figur 5.1.4: Fordelingsfunktionen for fordelingen med sandsynlighedstthed givet ved (5.1.5).
y 1 1(0,1) (y)dy =
0 for x 0
x for 0 < x < 1
1 for x 1.
153
p(y)dy =
samt at
lim F (n) =
p(y)dy = 1,
= 1 lim
n n
p(y)dy = 1
p(y)dy = 0.
(5.1.7)
Vi ser, at i hvert fald for kontinuerte fordelinger med kontinuert sandsynlighedstthed bestemmer fordelingsfunktionen sandsynlighedsttheden
og dermed fordelingen. Dette resultat blev allerede nvnt i Afsnit 2.2.
Nu flger et par resultater, som er nyttige, hvis en fordelingsfunktion er givet, og man ud fra denne nsker at afgre, om den tilsvarende
fordeling er kontinuert.
Stning 5.1.5 Antag, at en fordelingsfunktion F har formen
F (x) =
f (y)dy,
(5.1.8)
f (x)dx = n
lim
f (x)dx = n
lim F (n) = 1,
154
for alle n IIN og for alle reelle x n, flger det af (2.2.4) ved at
lade n g
a mod uendelig, at F opfylder (5.1.8). Derfor flger stningen af
Stning 5.1.5.
2
Hvis a eller b er endelige tal, kan man definere p(a) og p(b) som man
har lyst til.
Eksempel 5.1.1 (fortsat). I Eksempel 2.2.2 udledte vi fordelingsfunktionen
(
1 ex hvis x > 0
F (x) =
0
hvis x 0
P |X|
2
3
= P X 1, 23
=
=
2
3
,2
i
F ( 32 ) F (1) + F (2) F ( 23 )
1
9
0 + 1
5
9
5
9
.
2
3
) = 0.
155
0.0
0.2
0.4
0.6
0.8
1.0
Lad os slutte dette afsnit med at nvne, at der findes andre fordelinger p
a den reelle akse end de diskrete og de kontinuerte. Dels findes
der nogle meget sre fordelinger, som er koncentreret p
a lige s
a sre delmngder af IR, dels findes der de mere medgrlige fordelinger af blandet
type, som ikke sjldent optrder i praksis. Vi giver et eksempel p
a den
sidste type, som vi derefter ikke vil beskftige os yderligere med i disse
noter.
1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.0
0
1
2
1
y
2
for y < 0
for 0 y 1,
for 1 < y.
156
5.2
Middelvrdi og varians
Ogs
a for mange kontinuerte fordelinger kan man definere strrelserne
middelvrdi og varians. Definitionen af en kontinuert fordeling ligner
definitionen af en diskret fordeling bortset fra, at summen er erstattet
med et integral og sandsynlighedsfunktionen med en sandsynlighedstthed. P
a tilsvarende m
ade definerer vi middelvrdi og varians for en kontinuet fordeling ved at erstatte summen med et integral og sandsynlighedsfunktionen med en sandsynlighedstthed i definitionerne for en diskret
fordeling. Da sandsynlighedsttheden angiver sandsynlighedsmasse per
m
aleenhed, har middelvrdi og varians for kontinuerte fordelinger samme
fortolkning som for diskrete fordelinger. Resultater og beviser er helt
parallelle til, hvad vi tidligere har set, men med summation erstattet
med integration. Ligesom vi for diskrete fordelinger skulle sikre os, at de
indg
aende summer konvergerer, m
a vi her passe lidt p
a med integralerne.
Definition 5.2.1 Lad X vre en kontinuert stokastisk variabel, som har
sandsynlighedstthed p. Da siges X at have middelvrdi, hvis
Z
|x|p(x)dx < ,
(5.2.1)
og vi definerer i s
a fald middelvrdien af X som
E(X) =
xp(x)dx < .
(5.2.2)
Her er p defineret p
a hele IR. Hvis fordelingen af X er koncentreret p
a
et delinterval I af den reelle akse, stter vi som sdvanlig p(x) = 0,
n
ar x
/ I. I s
adanne tilflde, er det naturligvis nok at integrere over
intervallet I.
Hvis (5.2.1) ikke er opfyldt, siger man, at X ikke har middelvrdi,
eller at middelvrdien ikke er defineret. N
ar vi krver, at (5.2.1) er
opfyldt, er det for at udelukke den ubehagelige situation, hvor
Z
xp(x)dx = og
xp(x)dx = .
Hvis X er koncentreret p
a et interval I IR+ , kan dette ikke ske, hvorfor
man ofte i dette tilflde tillader sig at skrive E(X) = , n
ar (5.2.1) ikke
157
|x|p(x)dx =
|x|p(x)dx
s
a X har middelvrdi.
Eksempel 5.1.3 (fortsat). Middelvrdien for ligefordelingen p
a [a, b] er
1
ba
b
a
xdx =
b2 a 2
a+b
1 h 1 2 ib
=
=
,
x
2
a
ba
2(b a)
2
alts
a midtpunktet af intervallet [a, b], hvilket giver god mening.
n
0
xe
dx =
h
x e
= ne
in
0
1
n
0
ex dx
+ (1 en ) 1
for n .
n
1
xx
(+1)
dx =
n
1
"
x+1
dx =
+ 1
#n
1
xx2 dx = [log(x)]n1 ,
158
Ogs
a for kontinuerte stokastiske variable kan man p
a enkel vis beregne
middelvrdien af en transformeret stokastisk variabel.
Stning 5.2.3 Lad X vre en kontinuert stokastisk variabel, som er
koncentreret p
a intervallet I, og som har sandsynlighedstthed p. Lad
endvidere t vre en funktion fra I ind i IR. Da har den stokastiske variable
t(X) middelvrdi hvis og kun hvis
Z
|t(x)|p(x)dx < ,
og i s
a fald er
E(t(X)) =
t(x)p(x)dx.
(5.2.3)
(5.2.4)
Vi vil ikke vise denne stning generelt. I Afsnit 5.4 vil den blive vist
i det specialtilflde, hvor afbildningen t er strengt monoton og kontinuert differentiabel. Bemrk, at vi ikke kan vre sikre p
a, at fordelingen
af t(X) er kontinuert eller diskret, se Eksempel 5.1.7. Stning 5.2.3 er
i disse noter mest nyttig, n
ar t(X) har en fordeling af en type, for hvilken vi har defineret middelvrdien, d.v.s. n
ar t(X) er kontinuert eller
diskret. I andre tilflde kan vi eventuelt tage (5.2.4) som definition af
middelvrdien.
Eksempel 5.1.4 (fortsat). Lad X vre en stokstisk variabel, hvis fordeling har tthed (5.1.5), og definer en ny stokastisk variabel ved Y = 1/X.
Da
"
#
Z 1
x1
1
1
x x dx =
1
0
for 6= 1, og da
1
0
x1 dx = [log(x)]10 ,
.
1
2
159
(5.2.5)
(5.2.6)
|t1 (x)|p(x)dx +
t1 (x)p(x)dx +
t2 (x)p(x)dx
Stningens sidste p
astand flger af en velkendt egenskab ved integralet.
2
Stning 5.2.5 Lad X vre en kontinuert stokastisk variabel, som har
middelvrdi, og lad a og b vre vilk
arlige reelle tal. Da har ogs
a den
stokastiske variable a + bX middelvrdi, og
E(a + bX) = a + bE(X)
(5.2.7)
|bx|p(x)dx = |b|
|x|p(x)dx < ,
160
s
a t2 opfylder (5.2.3). At t1 opfylder (5.2.3) er klart. Iflge Stning 5.2.4
har a + bX derfor middelvrdi, som kan beregnes ved
Z
ap(x)dx+
bxp(x)dx = a
p(x)dx+b
xp(x)dx = a+bE(X).
2
Bemrk, at det flger af resultaterne i Stningerne 5.2.4 og 5.2.5, at
der som for diskrete fordelinger glder, at |E(X)| E(|X|).
De vrige resultater for middelvrdi, som vi har vist for diskrete
fordelinger, involverer mere end en stokastisk variabel. Da vi frst vil definere kontinuerte stokastiske vektorer i Kapitel 6, m
a vi vente til denne
definition er p
a plads, fr vi kan vise de tilsvarende resultater om middelvrdi for kontinuerte stokastiske variable.
Definition 5.2.6 Lad X vre en kontinuert stokastisk variabel, som har
sandsynlighedstthed p. Da siges X at have varians, hvis
Z
x2 p(x)dx < ,
og vi definerer i s
a fald variansen af X ved
(5.2.8)
Var(X) = E [X E(X)]2 .
(5.2.9)
Z
h
x2 ex dx
i
0
2x ex dx
= 0 + 21 E(X) = 22 ,
161
s
a eksponentialfordelingen har varians, og iflge (3.7.9) er
Var(X) = E(X 2 ) (E(X))2 = 22 2 = 2 .
Vi har her vret lidt hurtigere end tidligere ved beregningen af integralet
over intervallet (0, ), men det er naturligvis stadig defineret som en
grnsevrdi.
2
Eksempel 5.1.3 (fortsat). Variansen for ligefordelingen p
a [a, b] er
Z
(ba)/2
1
[x (a + b)/2] dx =
y 2 dy
b a (ba)/2
a
Z (ba)/2
2
=
y 2 dy
ba 0
!3
ba
(b a)2
2
.
=
=
3(b a)
2
12
1
ba
x x
(+1)
dx =
for 6= 2, og for = 2 f
as
Z
+1
"
x+2
dx =
+ 2
#
1
x2 2x3 dx = [log(x)]
1 = .
,
x2 x(+1) dx =
2
1
s
a i det tilflde er variansen iflge (3.7.9) lig
2
1
2
.
( 2)( 1)2
2
162
5.3
Normalfordelingen
x IR,
(5.3.1)
n
n
ex
2 /2
dx = 2
n
0
ex
< 2+2
2 /2
dx < 2 1 +
n
1
ex
1
2 /2
dx
ex/2 dx = 2 + 4(e 2 e 2 n ).
R
n
Da det sidste udtryk konvergerer, m
a ogs
a den voksende flge n
ex /2 dx
R x2 /2
konvergere.
Grnsevrdien er lig integralet e
dx. At integralet er
lig 2, s
aledes at er en sandsynlighedstthed, vil vi ikke vise her. Det
vil blive vist i Opgave 6.1 i Kapitel 6. Fordelingsfunktionen for standard
normalfordelingen betegnes , d.v.s.
(x) =
(y)dy.
(5.3.2)
Der findes ikke noget eksplicit udtryk for ved simple funktioner, s
a
vrdierne af (x) m
a findes enten ved tabelopslag eller ved hjlp af
regnemaskine eller computer.
For standard normalfordelingen er E(|X|k ) < for alle k IIN.
Specielt eksisterer b
ade middelvrdi og varians. At
Z
|x|k ex
2 /2
dx <
kan for eksempel ses af, at man kan vise, at der findes et reelt tal K > 0,
2
2
2
s
a |x|k ex /2 < Kex /4 for alle x IR. At ex /4 er integrabel, ses p
a
x2 /2
samme m
ade, som vi brugte til at vise, at e
er integrabel.
5.3 Normalfordelingen
163
0.0
0.1
0.2
0.3
0.4
Standard normalfordelingen
Lad os s
a finde middelvrdi og varians af standard normalfordelingen.
Da er en lige funktion (d.v.s. (x) = (x)), er middelvrdien nul:
1
xex
2 /2
Z
0
1
2
2
xex /2 dx
dx =
xex /2 dx +
0
2
Z
Z
1
2
x /2
x2 /2
=
xe
dx +
xe
dx = 0.
0
0
2
164
Da 0 (n) 0 for n , er
Z
Z
Z +n
1 x2 /2
00
e
dx =
(x 1)
(x)dx = lim
00 (x)dx
n
n
2
0
0
= lim ( (n) (n)) = 0.
Dermed er
Z
1
2
x2 ex /2 dx =
1
2
ex /2 dx = 1.
2
0.0
0.2
0.4
0.6
0.8
1.0
Standard normalfordelingen
165
normalfordelt med middelvrdi og varians 2 . At Y har denne middelvrdi og varians ses af regneregler for middelvrdi og varians, (5.2.7) og
(3.7.10). Fordelingsfunktionen for normalfordelingen med middelvrdi
og varians 2 er
F (y) = P (Y y) = P ( + X y)
y
y
= P X
=
.
(5.3.4)
1
(y )2
1
y
=
exp
F (y) =
.
2 2
2 2
0
1
(y )2
p(y) =
exp
,
2 2
2 2
y IR.
(5.3.5)
5.4
Vi skal i dette afsnit behandle fordelingen af t(X), hvor X er en kontinuert stokastisk variabel, og t er en reel funktion. Vi s
a i Eksempel 5.1.6,
166
q(y) =
d 1
t (y) hvis y (v, h)
p(t1 (y)) dy
hvis y
/ (v, h).
(5.4.1)
167
(5.4.2)
hvis y
/ (v, h).
Bevis: Bemrk frst, at betingelsen, at t0 (x) 6= 0 for alle x (a, b), dels
sikrer, at t er strengt monoton, dels at t1 er kontinuert differentiabel
med afledet
1
d 1
t (x) = 0 1
.
dx
t (t (x))
Dette viser, at de to udtryk for q er identiske, samt at FX (t1 (x)) er
kontinuert differentiabel p
a (v, h). Iflge transformationsstningen for
fordelingsfunktioner, Stning 2.2.3, er fordelingsfunktionen for Y , FY (y),
enten lig FX (t1 (y)) eller lig 1FX (t1 (y)) afhngigt af, om t er voksende
eller aftagende. I begge tilflde er FY alts
a kontinuert differentiabel p
a
(v, h), s
aledes at Y iflge Stning 5.1.6 er en kontinuert stokastisk variabel med sandsynlighedstthed q(y) = FY0 (y) for y (v, h). Hvis t0 > 0,
er
d
d
p(t1 (y))
FY0 (y) = FX (t1 (y)) = F 0 (t1 (y)) t1 (y) = 0 1
dy
dy
t (t (y))
for alle y (v, h). Tilsvarende er
FY0 (y) =
p(t1 (y))
d
d
1 FX (t1 (y)) = F 0 (t1 (y)) t1 (y) =
dy
dy
t0 (t1 (y))
2
Man kan godt forst
a resultatet i Stning 5.4.1 intuitivt. Hvis nemlig
h > 0 er et lile tal, er t(x + h) ' t(x) + t0 (x)h, s
a hvis y = t(x), og hvis t
er voksende, er
P (Y [y, y + t0 (x)h]) ' P (t(X) [t(x), t(x + h)])
= P (X [x, x + h]) ' p(x)h = p(t1 (y))h.
Dermed er
q(y) '
P (Y [y, y + t0 (x)h])
p(t1 (y))
'
.
t0 (x)h
t0 (t1 (y))
168
1
ya
q(y) = p
.
|b|
b
(5.4.3)
e y
q(y) = ,
2 y
y > 0.
169
170
1
1 n x
|x|
dx
dx
(1 + x2 )
1 1 + x2
n
1Zn x
1
1 Zn1
dx =
log(n).
dx
=
2
1 2x
2 1 x
2
n
2
Vi kan nu bevise Stning 5.2.3 i det tilflde, hvor den stokastiske
variable X og transformationen t er som i Stning 5.4.1. Vi njes med
beviset, hvor t er voksende. Lseren kan let selv klare det aftagende
tilflde. Da sandsynlighedsttheden for fordelingen af t(X) er givet ved
(5.4.1), har t(X) middelvrdi, n
ar flgende integral er endeligt:
Z
h
v
d
|y|p(t (y)) t1 (y)dy =
dy
1
b
a
|t(x)|p(x)dx,
171
= P ( z X z) = FX ( z) FX ( z).
Da Z 0, og da FZ er kontinuert differentiabel p
a (0, ), er Z iflge
Stning 5.1.6 en kontinuert stokastisk variabel med sandsynlighedtthed
d
d
p( z) + p( z)
0
q(z) = FZ (z) = FX ( z) FX ( z) =
dz
dz
2 z
for z > 0. For z 0 er sandsynlighedsttheden naturligvis lig med nul.
Lad os til slut betragte det specialtilflde,
hvor X er standard nor
x2 /2
a det er ikke vanskeligt at se, at
malfordelt. Da er p(x) = e
/ 2, s
ttheden for X 2 er
z/2
/ 2z hvis z > 0
e
q(z) =
(5.4.5)
0
hvis z 0.
Denne fordeling kaldes 2 -fordelingen med en frihedsgrad. Vi vil vende
tilbage til 2 -fordelingerne i Kapitel 8.
2
Man kommer af og til i den situation, at man gerne vil finde fordelingen af en ikke-monoton transformation af en kontinuert stokastisk
variabel. Stning 5.4.1 kan alts
a ikke anvendes, men man kan ofte lse
problemet ved at g
a via fordelingsfunktionen i lighed med, hvad der blev
gjort i Eksempel 5.4.6.
172
y+1
ex dx = (e )y (1 e ),
5.5
Sammenfatning
I Kapitel 5 har vi indfrt og studeret en-dimensionale kontinuerte fordelinger. Det er fordelinger, hvor sandsynligheden er fordelt s
a jvnt ud
over den reelle akse eller et delinterval af denne, at fordelingen ikke kan
beskrives ved en sandsynlighedsfunktion, som vi gjorde det for de diskrete
fordelinger. I stedet benyttes en sandsynlighedstthed: Sandsynligheden
for at f
a et udfald i en delmngde A af IR beregnes som integralet af sandsynlighedsttheden over A. Sandsynlighedsttheden kan (i sine kontinuitetspunkter) fortolkes som sandsynlighed per lngdeenhed. Definitioner
og mange resultater for kontinuerte fordelinger minder om dem, vi har set
for diskrete fordelinger, idet dog alle summer er erstattet med integraler.
Det glder ikke mindst resultaterne om middelvrdi og varians.
Et centralt resultat i dette kapitel er transformationsstningen for
en-dimensionale kontinuerte fordelinger, som anvendes til at beregne fordelingen af en funktion af en grundliggende stokastisk variabel, hvis fordeling man kender. Stningen kan vises ved at udnytte, at man som
5.6 Opgaver
173
5.6
Opgaver
F (x) =
for x 0
x/3
for 0 < x 1
(2x 1)/3
for 1 < x 2
for x > 2.
1
x
+
,
2 2(|x| + 1)
x IR.
174
x IR,
er en sandsynlighedstthed p
a IR. Den tilsvarende fordeling kaldes
Laplace-fordelingen eller den tosidede eksponentialfordeling.
(b) Find fordelingsfunktionen.
(c) Vis, at fordelingen har middelvrdi og varians, og find disse
strrelser.
5.6 (a) Vis, at
1
p(x) =
1 x2
x (1, 1),
er en sandsynlighedstthed p
a intervallet (1, 1). Vink: Det er en
god ide at skifte integrationsvariabel til v givet ved x = sin(v). Den
tilsvarende fordeling kaldes arcus-sinus fordelingen.
(b) Find fordelingsfunktionen. Fordelingsfunktionen forklarer fordelingens navn.
(c) Beregn fordelingens middelvrdi og varians.
5.7 Vis, at fordelingen med sandsynlighedstthed givet ved (5.1.5) har
middelvrdi /( + 1). Hvad er variansen?
5.8 Lad X vre exponentialfordelt med parameter . Hvad er
(a) E(X 3 ) ?
(b) E (exp(aX)) ?
5.9 St
In =
xn ex dx,
hvor n IIN0 .
5.6 Opgaver
175
aledes en
Funktionen pn : [0, ) 7 IR givet ved pn (x) = n!1 xn ex er s
sandsynlighedstthed. Den tilsvarende fordeling kaldes en Erlang
fordeling efter en dansk matematiker, se ogs
a Opgave 6.7. Denne
fordeling er et specialtilflde af -fordelingerne, som vil blive behandlet grundigt i Kapitel 8.
(c) Udregn middelvrdi og varians af fordelingen med sandsynlighedstthed pn .
5.10 Vis, at funktionen
p(x) =
er en sandsynlighedstthed, og find den tilsvarende fordelingsfunktion. Undersg, om fordelingen har middelvrdi og varians, og angiv i bekrftende fald disse strrelser.
5.11 Vis den sidste p
astand i Stning 5.2.4.
5.12 (a) Antag at X er standard normalfordelt. Vis, at E(X 3 ) = 0 og
at E(X 4 ) =
3. Vink til E(X 4 ): Ved hjlp af partiel integration kan
R 4
integralet x (x) dx udtrykkes ved E(X 2 ).
(b) Antag at Y er normalfordelt med middelvrdi og varians 2 .
Bestem E(Y 3 ) og E(Y 4 ). Vink: Binomialformlen kan vre nyttig.
exp(X).
(b)
X
(c) 1/X
(d) X 2 .
(e) Antag til slut, at X kan antage vrdier p
a hele den reelle akse
fraregnet nul. Hvad er da ttheden for fordelingen af 1/X? Hvad
er svaret, hvis ogs
a nul er en mulig vrdi for X?
176
5.14 Lad X vre en kontinuert stokastisk variabel med sandsynlighedstthed (5.1.5). Hvad er ttheden for fordelingen af 1/X. Diskuter
derefter, hvordan Eksempel 5.2.2 og den del af Eksempel 5.1.4, som
st
ar lige efter Stning 5.2.3, hnger sammen.
5.15 Lad X vre normalfordelt med middelvrdi og varians 2 . Fordelingen af Y = exp(X) kaldes den logaritmiske normalfordeling med
parametre (, 2 ).
(a) Find ttheden for fordelingen af Y .
(b) Vis, at hvis Y er logaritmisk normalfordelt, s
a er ogs
a Y logaritmisk normalfordelt for ethvert > 0. En klasse af fordelinger
med denne egenskab kaldes skalainvariant. Opskriv den formel, som
viser, hvorledes den logaritmiske normalfordelings parametre ndrer sig ved en s
adan skalatransformation.
(c) Vis, at middelvrdien i den
logaritmiske normalfordeling med
parametre = 0 og 2 = 1 er e = 1.6487.
5.16 (a) Vis, at fordelingsfunktionen for Cauchy-fordelingen er
1
2
tan1 (x).
5.6 Opgaver
177
q(y) =
n
ar n er lige, og
p(y n )+p(y n
ny 1n1
for y > 0
for y 0,
p(y n )
q(y) =
n|y|1n1
1
for y 6= 0,
n
ar n er ulige.
5.21 Lad X vre ligefordelt i [0, 2], og st Y = sin(X). Vis, at Y er
arcus-sinus fordelt (se Opgave 5.6).
5.22 Inge stiller sin cykel fra sig efter en lngere tur. Hvad er fordelingen
af baghjulsventilens hjde over jorden.
5.23 Med [x] betegnes som sdvanligt heltalsdelen af det reelle tal x,
d.v.s. det strste hele tal som er mindre end eller lig x. Lad X
178
=
=
=
=
..
.
[2X]
[4X 2X1 ]
[8X 4X1 2X2 ]
[16X 8X1 4X2 2X3 ]
Kapitel 6
Fler-dimensionale kontinuerte
fordelinger
I praksis er det sjldent nok at betragte en enkelt stokastisk variabel af
gangen. For eksempel betragter man i statistik som regel mange observationer, der antages at vre et udfald af hver sin stokastiske variable. Vi
er derfor tvunget til at definere kontinuerte fordelinger p
a IRn og kontinuerte stokastiske vektorer, hvilket teknisk er lidt svrere end fordelinger
p
a IR, da vi bliver ndt til at integrere i IRn .
6.1
Ttheder og fordelinger p
a IRn
kaldes en sandsynlighedstthed p
a B.
Integration i IRn diskuteres i Appendix D.
(6.1.1)
180
hvor A B. At P er et sandsynlighedsm
al vises p
a helt samme m
ade,
som det i Kapitel 5 blev gjort for den reelle akse. En fordeling af denne
type kaldes en kontinuert fordeling, og en stokastisk vektor (X1 , . . . , Xn ),
hvis fordeling er kontinuert, kaldes en kontinuert stokastisk vektor. Hvis
Xs fordeling har sandsynlighedstthed p er alts
a
P ((X1 , . . . , Xn ) A) =
1B (x1 , . . . , xn )
,
|B|
(6.1.2)
181
(6.1.3)
for alle (
x1 , . . . , xn ) A, hvor
A = [x1 , x1 + ] [xn , xn + ].
Ved overalt i (6.1.3) at gange med 1A (
x1 , . . . , x
n ) og integrere med hensyn
til (
x1 , . . . , xn ) finder vi, at
(p(x1 , . . . , xn ) )|A| =
ZIR
ZIR
IRn
(p(x1 , . . . , xn ) )1A (
x1 , . . . , xn )d
x1 d
xn
1A (
x1 , . . . , xn )p(
x1 , . . . , xn )d
x1 d
xn
(p(x1 , . . . , xn ) + )1A (
x1 , . . . , xn )d
x1 d
xn
= (p(x1 , . . . , xn ) + )|A|,
hvor |A| betegner det n-dimensionale volumen af A, se (D.2.6) Da P (A) =
x1 , . . . , xn )p(
x1 , . . . , xn )d
x1 d
xn , ser vi, at
IRn 1A (
(6.1.4)
182
IR2
IR
IR
Z
IR
1A (x)
Z
IR
Stning 6.1.3 Lad (X1 , . . . , Xn ) vre en stokastisk vektor med sandsynlighedstthed p(x1 , . . . , xn ). Da er den stokastiske vektor (X1 , . . . , Xk ),
hvor k < n, kontinuert med sandsynlighedsttheden
q(x1 , . . . , xk ) =
IRnk
(6.1.6)
ZIR Z
Z
IRk
ZIR
IR
1A (x1 , . . . , xk )
k
IRk
IR
6.2 Uafhngighed
183
IR
2 1B (x, y)dy = 2
dy = 2x,
6.2
Uafhngighed
(6.2.1)
(6.2.2)
184
ZIR Z
ZIR
IR2
IR
IR
1A1 (x1 )1A2 (x2 )p1 (x1 )p2 (x2 )dx2 dx1
IR2
s
a ved ovenst
aende regnestykke i omvendt rkkeflge ses det, at
P ((X1 , X2 ) A1 A2 ) = P (X1 A1 )P (X2 A2 ).
Alts
a er X1 og X2 er uafhngige, jfr. Definition 2.4.1.
At 2) medfrer 3) er klart.
Lad os nu antage, at 3) holder og vise, at det medfrer 2). Iflge
Stning 6.1.3 er
p1 (x1 ) =
p2 (x2 ) =
og
Da
1=
IR
IR
IR
p1 (x1 )dx1 =
=
IR
Z
IR
g1 (x1 )
IR
g1 (x1 )dx1
IR
IR
g2 (x2 )dx2 ,
g1 (x1 )dx1 .
IR
g2 (x2 )dx2 ,
6.2 Uafhngighed
185
flger det, at
p1 (x1 )p2 (x2 ) = g1 (x1 )g2 (x2 )
Z
IR
g2 (y2 )dy2
Z
IR
g1 (y1 )dy1
1.0
0.5
0.0
0.5
1.0
1.0
0.5
0.0
0.5
1.0
186
1
2
IR
1K (x1 , x2 )dx2 =
1
2
1|x1 |
|x1 |1
1 dx2 = 1 |x1 |
IR
Z
IR
Z
IRnk
Z
IR
187
s
aledes, at de k + 1 stokastiske variable er uafhngige.
2
Stning 2.4.3 indeholder endnu to resultater, som imidlertid flger
af 2), s
a disse [d.v.s. 1) og 3)] er nu ogs
a vist for kontinuerte stokastiske
variable.
6.3
6.3.1
Reelle transformationer
p(x, z x)dx.
(6.3.1)
Z
Z
zx
p(x, y)dy dx =
p(x, u x)dx du =
Z
z
p(x, u x)du dx
q(u)du.
188
Det nste resultat, som vedrrer fordelingen af summen af to uafhngige stokastiske variable, flger af Stning 6.3.1 ved at benytte at
den simultane tthedfunktion i denne situation er produktet af de to
marginale tthedfunktioner, jfr. Stning 6.2.1.
Korollar 6.3.2 Lad X og Y vre to uafhngige kontinuerte stokastiske
variable med marginale ttheder p1 og p2 , og definer en ny stokastisk
variabel ved Z = X + Y . Da er Z en kontinuert stokastisk variabel med
sandsynlighedstthed
q(z) =
p1 (x)p2 (z x)dx.
(6.3.2)
z
0
2 e(x+(zx)) dx = 2 ez
z
0
dx = 2 zez .
(6.3.3)
189
Z z
zf (x)
Z z
Z
p(x, y)dy dx
q(u)du.
Vi har foretaget substitutionen y = f (x)u i det inderste integral og dernst ombyttet integrationsordenen. Da fordelingsfunktionen for Z opfylder (5.1.8), flger stningen af Stning 5.1.5.
2
Bemrk, at hvis X er koncentreret p
a en mngde M , er det egentlig
er nok, at f (x) > 0 for x M .
De flgende trevigtige specialtilflde vises ved at stte f lig henholdsvis 1/x, x og x.
Korollar 6.3.5 Lad (X, Y ) vre en to-dimensional kontinuert stokastisk vektor med simultan sandsynlighedstthed p, hvor X > 0. Da er den
stokastiske variable Z = X Y kontinuert med tthedsfunktion
q(z) =
p(x, z/x)
dx.
x
(6.3.4)
Korollar 6.3.6 Lad (X, Y ) vre en to-dimensional kontinuert stokastisk vektor med simultan sandsynlighedstthed p, hvor X > 0. Da er den
stokastiske variable Z = Y /X kontinuert med tthedsfunktion
q(z) =
p(x, zx)xdx.
(6.3.5)
Korollar 6.3.7 Lad (X, Y ) vre en to-dimensional kontinuert stokastisk vektor med simultan sandsynlighedstthed
p, hvor X > 0. Da er den
p(x, z x) xdx.
(6.3.6)
190
ex(1+z) xdx =
1
(1 + z)2
yey dy =
1
,
(1 + z)2
(6.3.7)
n
ar z > 0. Vi har her sat y = x(1 + z) og brugt, at 0 yey dy er middelvrdien af en standard eksponentialfordeling, som vi tidligere har set
er lig en. N
ar z 0 er q(z) = 0. Fordelingen med sandsynlighedstthed
givet ved (6.3.7) er et specialtilflde af den s
akaldte F-fordeling, som vi
skal vende tilbage til i Kapitel 8.
2
Vi har her kun behandlet nogle f
a, men vigtige, eksempler p
a reelle transformationer af kontinuerte stokastiske vektorer. Vi slutter med
et eksempel p
a en transformation, som ikke er dkket af ovenst
aende
resultater, men hvor man alligevel kan komme igennem via fordelingsfunktionen.
Eksempel 6.3.9 Antag, at X1 , . . . , Xn er uafhngige stokastiske variable, som alle er ligefordelte p
a [0, 1]. Lad X(1) vre den stokastiske
variable, som angiver det mindste udfald blandt de n variable, alts
a
X(1) = X1 X2 Xn = min{X1 , . . . , Xn }.
Fordelingsfunktionen for X(1) er for x (0, 1)
F1 (x) = P (X(1) x) = 1 P (X(1) > x) = P (X1 > x, . . . , Xn > x)
= P (X1 > x) P (Xn > x) = 1 (1 x)n .
Da F1 er kontinuert differentiabel p
a (0, 1) er sandsynlighedsttheden
for X(1) (Stning 5.1.6)
f1 (x) = F10 (x) = n(1 x)n1 ,
x (0, 1).
Vi kan ogs
a klare fordelingen af den kte mindste blandt X1 , . . . , Xn
(1 k n). Lad os betegne denne stokastiske variable med X(k) . Dens
191
n
X
1[0,x] (Xi ),
i=1
n
X
i=k
n i
x (1 x)ni .
i
Ogs
a Fk er kontinuert differentiabel p
a (0, 1), s
a sandsynlighedsttheden
for X(k) er for x (0, 1)
fk (x) =
=
Fk0 (x)
i=k
i
n h i1
ix (1 x)ni (n i)xi (1 x)ni1
i
n
kxk1 (1 x)nk
k
+
n
X
i=k+1
n
X
n1
X n
n
ixi1 (1 x)ni
(n i)xi (1 x)n(i+1)
i
i
i=k
n
kxk1 (1 x)nk ,
k
6.3.2
192
normalfordelte observationer. Vi begynder med en to-dimensional stokastisk vektor (X1 , X2 ), d.v.s. med transformationer af formen
t(X1 , X2 ) = A
X1
X2
hvor A er en 2 2-matrix.
Stning 6.3.10 Lad (X1 , X2 ) vre en to-dimensional kontinuert stokastisk vektor med simultan sandsynlighedstthed p, og definer nye stokastiske variable ved
Y1 = a11 X1 + a12 X2
Y2 = a21 X1 + a22 X2 ,
hvor a11 , a12 , a21 og a22 er reelle tal, som opfylder, at determinanten af
matricen
(
)
a11 a12
A=
a21 a22
er forskellig fra nul (d.v.s. det(A) = a11 a22 a12 a21 6= 0). Da er (Y1 , Y2 ) en
to-dimensional kontinuert stokastisk vektor med simultan sandsynlighedstthed
q(y1 , y2 ) = p(t1 (y1 , y2 ))|det(A1 )|,
(6.3.8)
hvor
1
t (y1 , y2 ) = A
y1
y2
p(t1 (y1 , y2 ))
|det(A)|
(6.3.9)
Bevis: Nedenst
aende er ikke noget helt korrekt bevis, men giver ikke
desto mindre et rigtigt godt indtryk af, hvorfor stningen er rigtig.
Flgende notation vil blive brugt:
X=
X1
X2
, x=
x1
x2
, Y =
Y1
Y2
og y =
y1
y2
193
hvor Y = AX, y = Ax og x = A1 y.
Vi begynder med at minde om approximationen
q(y1 , y2 ) '
P (Y Kh )
,
h2
A y+A
h
0
, A y+A
0
h
og A y + A
h
h
s
a A1 Kh er udspndt af vektorerne
A
h
0
b11 h
b21 h
og A
0
h
b12 h
b22 h
b11 b12
b21 b22
194
X1
.
t(X1 , . . . , Xn ) = A ..
Xn
X1
.
X = ..
x=
Xn
x1
Y1
y1
..
Y = .. y = .. .
.
.
.
xn
Yn
yn
p(A1 y)
|det(A)|
(6.3.11)
195
(6.3.12)
V1
V2
U1
U2
196
1
12 + 22
U1 + q
12 + 22 U,
2
12 + 22
U2 .
197
6.4
og i s
a fald er
E((X)) =
IRn
(6.4.2)
Vi kan ikke p
a dette kursus bevise Stning 6.4.1. Som i det endimensionale tilflde kan vi ikke vre sikre p
a, at fordelingen af (X) er
af en type, for hvilken vi har defineret middelvrdien. Stningen er derfor mest nyttig for os, n
ar fordelingen af (X) er kontinuert eller diskret.
For i det mindste at antyde, at Stning 6.4.1 er korrekt, vil vi se p
a
tilfldet = 1B , hvor B IRn :
Z
IRn
198
(6.4.3)
(6.4.4)
IR2
IR2
IR2
IR2
hvorfor den stokastiske variable X1 + X2 iflge Stning 6.4.1 har middelvrdi, som kan beregnes ved
Z
IR2
=
=
IR2
E(X1 ) + E(X2 ).
IR2
199
IR2
IR
Z
IR
IR
Z
Z
IR
IR
Z
IR
og
E(Y 2 ) < ,
200
Formlen for variansen af en sum af stokastiske variable (3.8.7) og Stningerne 3.8.3 og 3.8.8 glder ogs
a for kontinuerte stokastiske variable.
Det skal bare altid antages, at alle indg
aende stokastiske variable har
vararians, alts
a opfylder (5.2.8). Beviserne i Afsnit 3.8 bruger slet ikke,
at de stokastiske variable i det afsnit er diskrete; kun generelle regneregler for middelvrdi, som glder for s
avel diskrete som kontinuerte
stokastiske variable.
Korrelationen mellem to kontinuerte stokastiske variable X og Y med
varians defineres ved (3.8.8). Ogs
a for kontinuerte stokastiske variable kan
korrelationen fortolkes som kovariansen mellem standardiserede variable,
og Stning 3.8.7 holder ogs
a her. Specielt er |corr(X, Y )| 1.
6.5
(6.5.1)
IRn
1 Z
P (A)
=
1A (x1 , . . . , xn )p(x1 , . . . , xn )dx1 dxn =
= 1.
n
P (A) IR
P (A)
Endvidere er
Z
IRn
P (A B)
1 Z
1AB (x1 , . . . , xn )p(x1 , . . . , xn )dx1 dxn =
.
=
n
P (A) IR
P (A)
201
Betragt en kontinuert stokastisk variabel X med sandsynlighedstthed p, og lad A vre en delmngde af IR. Da har den betingede fordeling
af X givet X A sandsynlighedstthed lig p(a)1A (x)/P (X A)
Eksempel 6.5.1 Antag, at X er eksponentialfordelt med parameter .
Da er P (X > a) = ea for a > 0, s
a den betingede fordeling af X givet
at X > a har sandsynlighedsttheden
q(x) = e(xa) .
Dermed er sandsynlighedsttheden for den betingede fordeling af X a
givet at X > a
q(x + a) = ex ,
jfr. (5.4.2a).
Eksponentialfordelingen bruges ofte som model for ventetiden p
a en
tilfldigt ankommende hndelse. Vi ser, at denne model har den egenskab, at den betingede fordeling af ventetiden, givet at man allerede har
ventet a tidsenheder, er prcis den samme som den ubetingede fordeling. S
adan br det ogs
a vre, hvis hndelserne virkelig kommer helt
tilfldigt.
2
For en to-dimensional kontinuert stokastisk vektor (X, Y ) har man
jvnligt brug for at betinge med at X = x, men det g
ar jo tilsyneladende
ikke, for P (X = x) = 0! Det viser sig imidlertid, at man alligevel kan
definere en betinget fordeling af Y givet at X = x. Her giver vi kun en
heuristisk udledning. Lad alts
a (X, Y ) vre en to-dimensional kontinuert
stokastisk vektor med sandsynlighedstthed p(x, y), og betragt et reelt
tal x0 , for hvilket P (X [x0 , x0 + ]) > 0 for alle > 0. For at lette
notationen stter vi K = [x0 , x0 + ]. Da har den betingede fordeling af
(X, Y ) givet at X K sandsynlighedsttheden
q(x, y|K) =
IR
q(x, y|K)dx =
R x0 +
p(x, y)dx
P (X K )
x0
202
'
p(x0 , y)
p(x0 , y)
=
,
p1 (x0 )
p1 (x0 )
hvor p1 er den marginale tthed for X, som (igen iflge (6.1.6)) er givet
ved
Z
p1 (x) =
p(x, y)dy.
IR
Motiveret af disse beregninger, definerer vi for alle x, for hvilke p1 (x) > 0,
den betingede fordeling af Y givet at X = x som den kontinuerte fordeling
med sandsynlighedstthed
q(y) =
p(x, y)
.
p1 (x)
(6.5.2)
6.6
Sammenfatning
6.7 Opgaver
203
6.7
Opgaver
Z
et(1+x ) dt dx =
1
dx = /2.
1 + x2
Z
t(1+x2 )
dx dt = 2c2 ,
(1 F (x))dx.
3xy 2 n
ar x (0, 1) og y (1, 3)
0
ellers.
204
z
for z (0, 1]
2 z for z (1, 2)
0
ellers.
x > 0.
6.7 Opgaver
205
q(z) =
1
2z 2
n
ar z 1
1
2
n
ar 0 < z < 1
n
ar z 0.
f (x, y) =
ellers.
206
6.15 Vis resultatet (6.3.1) ved at kombinere Stning 6.3.10 med (6.1.5).
6.16 Lad X1 og X2 vre uafhngige stokastiske variable, som begge er
eksponentialfordelte. Definer
M = min{X1 , X2 } = X1 X2 ,
S = max{X1 , X2 } = X1 X2 .
Angiv sandsynlighedstthederne for fordelingerne af M og S.
6.17 Lad X1 , . . ., Xn vre uafhngige, identisk fordelte stokstiske variable med en tthed p, som er strengt positiv p
a et interval og nul
udenfor intervallet. Intervallet kan vre hele den reelle akse. Lad F
betegne den tilhrende fordelingsfunktion. Lad X(k) vre defineret
som i Eksempel 6.3.9. Vis, at fordelingen af X(k) har ttheden
!
n
kF (x)k1 (1 F (x))nk p(x).
q(x) =
k
Vink: De tranformerede variable Ri = F (Xi ) er ligefordelte p
a
(0, 1), og fordelingen af R(k) = F (X(k) ) er derfor den, der blev
udledt i Eksempel 6.3.9.
6.18 Vis, at to kontinuerte eller diskrete stokastiske variable X og Y er
uafhngige hvis og kun hvis E(g(X)h(Y )) = E(g(X))E(h(Y )) for
ethvert par af begrnsede reelle funktioner g og h.
6.19 Lad X1 og X2 vre uafhngige, identiske fordelte (diskrete eller
kontinuerte) stokastiske variable p
a (0, ). Betragt flgende stokastiske variable
Y1 =
X1
X1 + X 2
og Y2 =
X2
.
X1 + X 2
6.7 Opgaver
207
()
Approksimationen (*) og approksimationen (**) nedenfor er i fagene fysik og kemi kendt under det noget pompse navn fejlophobningsloven (propagation of error) .
(b) Betragt k uafhngige stokastiske variable X1 , . . . , Xk med middelvrdier i og varianser i2 , i = 1, . . . , k. Vis, at man for enhver
to gange differentiabel funktion g : IRk 7 IR har flgende approksimation
Var(g(X1 , . . . , Xk )) '
k
X
i=1
i2
f
(1 , . . . , k )
xi
!2
()
208
Kapitel 7
Grnseresultater for
stokastiske variable
I dette kapitel behandles to af sandsynlighedsregningens vigtigste resultater, som begge drejer sig om, hvordan gennemsnittet af n stokastiske
variable opfrer sig, n
ar n g
ar mod uendelig.
7.1
Store tals lov siger, at for n ukorrelerede stokastiske variable med middelvrdi og varians vil gennemsnittet med stor sandsynlighed ligge nr
middelvrdien, n
ar n er stor. Dette resultat vises ved hjlp af Chebychevs ulighed.
Stning 7.1.1 (Chebychevs ulighed). Lad X vre en diskret eller kontinuert stokastisk variabel med middelvrdi og varians 2 . Da glder,
for ethvert a > 0, at
2
P (|X | a) 2 .
(7.1.1)
a
Bevis: Definer for a > 0 mngden
A = {x IR| |x | a}.
Da er
(x )2 1A (x) a2 1A (x)
210
2 = E (X )2
E (X )2 1A (X)
n | < = 1 P |X
n |
1 P |X
n)
2
Var(X
=
1
1,
1
2
n2
for n .
211
1A (Y1 ) + + 1A (Yn )
n
212
7.2
Betragt en flge af uafhngige diskrete eller kontinuerte stokastiske variable X1 , X2 , . . ., som alle har samme fordeling med middelvrdi og
varians 2 . De store tals lov fortller os da, at gennemsnittet af de n
frste stokastiske variable
n
X
n = 1
Xi
X
n i=1
er tt p
a , n
ar n er stor. Gennemsnittet er jo en stokastisk variabel, s
a
det er naturligt at sprge, hvad dets fordeling er, n
ar n er stor. Variansen
er meget lille, s
a det varierer kun lidt i nrheden af . Imidlertid kan
man studere gennemsnittets stokastiske variation ved at betragte den
standardiserede variabel
n
X
.
Un =
(7.2.1)
/ n
n ) = og Var(X
n ) = 2 /n, har Un middelvrdi nul og varians
Da E(X
(7.2.2)
n
ar n . Som sdvanlig betegner fordelingsfunktionen for standard
normalfordelingen givet ved (5.3.2).
Vi har p
a dette kursus ikke de ndvendige tekniske hjlpemidler til
at bevise den centrale grnsevrdistning. Med de rette hjlpemidler
er stningen faktisk ikke svr at vise.
Der er mange gode grunde til, at normalfordelingen dukker op her.
Hvis Xi -erne er normalfordelte, flger det af Stning 6.3.12, at Un er
standard normalfordelt for alle n. Hvis stningen skal vre sand, m
a
213
u (u),
(7.2.3)
P
n
n
ar n . Vi kan alts
a ogs
a opfatte den centrale grnsevrdistning
som et udsagn om fordelingen af summen Sn , n
ar n er stor.
Den centrale grnsevrdistning giver en forklaring p
a, hvorfor det
i praksis s
a ofte viser sig, at observationer kan antages at vre normalfordelte. Vi kan f. eks. tnke os, at man skal m
ale en strrelse, som har
vrdien , men at en rkke tilfldige forhold indvirker p
a m
alingen, s
a
den ikke bliver helt njagtig. Det, der faktisk m
ales, kan derfor antages at vre Y = + X1 + + Xn , hvor Xi -erne er virkningen af de
forskellige kilder til m
alefejl. Hvis Xi -erne opfylder betingelserne i den
centrale grnsevrdistning, kan fordelingen af m
alingen Y tilnrmes
med en normalfordeling med middelvrdi + n og varians n 2 . Ved
gode m
alinger er lig nul eller i hvert fald meget lille.
Der findes andre udgaver af den centrale grnsevrdistning med
vsentligt svagere betingelser, som gr overst
aende argument for, at
m
alefejl ofte er normalfordelte, mere overbevisende. De stokastiske variable Xi behver s
aledes ikke at have samme fordeling; ikke engang
samme middelvrdi og varians. De behver heller ikke at vre uafhngige. Det vsentlige er, at de alle er sm
a i forhold til summen Sn , og at
afhngigheden mellem dem ikke er for stor.
Den form for konvergens, som udtrykkes ved (7.2.2) kaldes konvergens i fordeling. Et andet eksempel p
a denne form for konvergens s
a vi i
Stning 4.1.2. Udforskningen af konvergens i fordeling spiller en central
rolle i sandsynlighedsregningen og dens anvendelser i statistik.
Ikke sjldent ser man, at et interval af typiske vrdier for en stokastisk variabel angives som middelvrdien plus/minus 2 gange spredningen. Hvis vi kan bruge den centrale grnsevrdistning til at argumentere for, at fordelingen af den stokastiske variable kan tilnrmes
214
godt med en normalfordeling, giver dette god mening. For en normalfordeling glder nemlig, at 95 procent af sandsynligheden ligger indenfor
grnserne givet ved middelvrdien 1.96 gange spredningen.
Den centrale grnsevrdistning kan benyttes til at vise, at nogle
af de fordelinger, vi har beskftiget os med, under visse omstndigheder kan tilnrmes med en normalfordeling. Det ser vi nrmere p
a i de
flgende eksempler.
Eksempel 7.2.2 Lad X1 , X2 , . . . vre uafhngige stokastiske variable
med vrdier i {0, 1}, som alle har samme fordeling givet ved at P (Xi =
1) = p og P (Xi = 0) = 1 p, hvor p (0, 1). St Sn = X1 + + Xn .
Da E(Xi ) = p og Var(Xi ) = p(1 p) (se Eksemplerne 3.7.2 og 3.7.11),
glder iflge den centrale grnsevrdistning at
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Sn np
u (u),
P q
np(1 p)
10
Figur 7.2.1: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 10 og sandsynlighedsparameter 0.5 tegnet som histogram
og sandsynlighedsttheden for normalfordelingen med middelvrdi 5 og
varians 2.5.
215
0.00
0.05
0.10
0.15
0.20
0.25
0.30
10
0.00
0.05
0.10
0.15
0.20
Figur 7.2.2: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 10 og sandsynlighedsparameter 0.3 tegnet som histogram
og sandsynlighedsttheden for normalfordelingen med middelvrdi 3 og
varians 2.1.
10
15
20
Figur 7.2.3: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 20 og sandsynlighedsparameter 0.5 tegnet som histogram
og sandsynlighedsttheden for normalfordelingen med middelvrdi 10
og varians 5.
0.00
0.05
0.10
0.15
0.20
216
10
15
Figur 7.2.4: Sandsynlighedsfunktionen for binomialfordelingen med antalsparameter 20 og sandsynlighedsparameter 0.3 tegnet som histogram
og sandsynlighedsttheden for normalfordelingen med middelvrdi 6 og
varians 4.2.
n
ar n . Da Sn er binomialfordelt med antalsparameter n og sandsynlighedsparameter p, kan vi konkludere, at denne fordeling, n
ar n er
stor, ligner en normalfordeling med middelvrdi np og varians np(1 p)
i den forstand, at
u np
Sn np
u np
q
P (Sn u) = P q
' q
.
np(1 p)
np(1 p)
np(1 p)
i + 21 np
P (Sn = i) ' q
np(1 p)
1
2
np
np(1 p)
217
Eksempel 7.2.3 Antag, at X1 , X2 , . . . vre uafhngige stokastiske variable, som alle er Poisson fordelte med parameter , og st Sn =
X1 + + Xn . Da E(Xi ) = Var(Xi ) = (se Afsnit 4.4), glder iflge
den centrale grnsevrdistning at
P
Sn n
u (u),
n
n
ar n . Da Sn er Poisson fordelt med parameter n (se Stning
4.3.4), kan vi konkludere, at denne fordeling, n
ar n er stor, ligner en
normalfordeling med middelvrdi n og varians n i den forstand, at
!
0.00
0.05
0.10
0.15
0.20
0.25
u n
.
P (Sn u) '
n
10
12
14
Figur 7.2.5: Sandsynlighedsfunktionen for Poissonfordelingen med parameter 5 tegnet som histogram og sandsynlighedsttheden for normalfordelingen med middelvrdi 5 og varians 5.
Vi kan ogs
a udtrykke dette resultat ved at sige, at en Poisson fordeling
med parameter kan approksimeres med en normalfordeling med middelvrdi og varians , n
ar er stor. Hvis Y er Poisson fordelt med
0.00
0.05
0.10
0.15
0.20
218
10
15
20
0.00
0.02
0.04
0.06
0.08
0.10
Figur 7.2.6: Sandsynlighedsfunktionen for Poissonfordelingen med parameter 10 tegnet som histogram og sandsynlighedsttheden for normalfordelingen med middelvrdi 10 og varians 10.
10
20
30
40
Figur 7.2.7: Sandsynlighedsfunktionen for Poissonfordelingen med parameter 20 tegnet som histogram og sandsynlighedsttheden for normalfordelingen med middelvrdi 20 og varians 20.
7.3 Opgaver
219
parameter , er alts
a
!
i + 12
i 21
P (Y = i) '
for i IIN, n
ar er stor.
7.3
Opgaver
7.1 Lad p (0, 1) vre givet. Find ved hjlp af Chebychevs ulighed et
tal c > 0, s
a der for en stokastisk variabel
X glder, at sandsynq
lighedsmassen i intervallet E(X) c Var(X) er strre end eller lig
p. Hvad er svaret, n
ar p = 0.95?
P
7.2 Betragt en stokastisk variabel X = ni=1 Yi , hvor Yi erne er uafhngige, identisk fordelte stokastiske variable, som har middelvrdi og
varians. Giv et svar p
a sprgsm
alene i Opgave 7.1 ved hjlp af den
centrale grnsevrdistning.
7.3 Lad X vre en stokastisk variabel, som er Poissonfordelt med parameter . Benyt Chebychevs ulighed til at vise de flgende to
uligheder:
P X
2
1
4
og P (X 2) .
7.4 Lad X vre en diskret stokastisk variabel med sandsynlighedsfunktion givet ved p(1) = p(3) = 1/18 og p(2) = 8/9. Vis, at der findes
en vrdi af a > 0, for hvilken P (|X E(X)| a) = Var(X)/a2 .
Generelt kan Chebychevs ulighed alts
a ikke forbedres.
7.5 Lad X1 , X2 , . . . vre en flge af uafhngige, identisk fordelte stokastiske variable med middelvrdi og varians 2 . Vis, at den
empiriske varians s2n for de frste n variable (se opgave 3.26) konvergerer i sandsynlighed mod 2 , forudsat at EX14 < . Vink: Det
bliver lidt enklere, hvis man ved definitionen af s2 benytter fakto1
ren n1 i stedet for n1
. I grnsen er dette uden betydning. Udtryk
P
P
1
2
2
s ved n Xi og X = n1 Xi .
220
7.6 En mnt kastes 1000 gange. Giv en approksimation til sandsynligheden for at f
a mindst 550 plat?
7.7 Lad X1 , X2 , . . . vre en flge af ukorrelerede diskrete eller kontinuerte stokastiske variable, som alle har samme middelvrdi .
Antag, at der findes et reelt tal K > 0, s
a Var(Xi ) K for alle
i IIN. Vis, at der for ethvert > 0 glder, at
P
for n .
X1
+ . . . + Xn
< 1
n
Kapitel 8
Normalfordelingens teori
Dette kapitels frste to afsnit behandler nogle fordelinger, som spiller
en vigtig rolle i statistisk teori, ikke mindst i teorien for normalfordelte
observationer. Dernst behandles den fler-dimensionale normalfordeling.
8.1
2-fordelingen og -fordelingen
Definition 8.1.1 Lad U1 , . . . , Uk vre uafhngige standard normalfordelte stokastiske variable. Fordelingen af U12 + + Uk2 kaldes da 2 fordelingen med k frihedsgrader.
Stning 8.1.2 Sandsynlighedsttheden for 2 -fordelingen med k frihedsgrader er
k
x 2 1 ex/2
p(x) =
,
(8.1.1)
k
2 2 ck
n
ar x > 0, og lig nul n
ar x 0. I denne formel
er c1 = , mens
ck = ( k2 1)! n
ar k er lige og ck = ( k2 1) 21 , hvis k = 3, 5, 7 . . ..
For k = 1 viste vi (8.1.1) i Eksempel 5.4.6, se (5.4.5). Fr vi viser
(8.1.1) for et generelt k, er det nyttigt at studere den mere generelle
klasse af fordelinger med tthed
p(x) =
x1 ex/
()
(8.1.2)
222
Normalfordelingens teori
0.0
0.2
0.4
0.6
0.8
1.0
Gammafordelingen
10
223
Z
h
y ey dy
y
y (e )
= ().
i
0
y 1 (ey )dy
(8.1.3)
ey dy = 1,
ses det ved gentagen brug af (8.1.3), at der for et positivt helt tal n
glder, at
(n) = (n 1)!
Vi har som nvnt vist, at q i (5.4.5) er en sandsynlighedstthed, og da
q er et specialtilflde af (8.1.2) med = 21 og = 2, flger det, at
( 12 ) = .
Ved gentagen brug af (8.1.3) ses det derfor, at
( k2 ) = ( k2 1) 21 ,
n
ar k er et ulige helt tal strre end eller lig 3. Vi har dermed indset,
at (8.1.1) er en sandsynlighedstthed, n
ar ck er defineret som beskrevet
ovenfor.
Vi vil nu vise, at summen af uafhngige -fordelte stokastiske variable
med samme skalaparameter igen er -fordelt. Dette resultat kaldes ofte
-fordelingens foldningsegenskab.
224
Normalfordelingens teori
R1
0
y 1 1 (1 y)2 1 dy
.
(1 )(2 )
Da vi ved, at q er en sandsynlighedstthed, er
1=
q(z)dz = c
(1 +2 ) z 1 +2 1 ez/ dz = c (1 + 2 ),
s
aledes at
c=
1
.
(1 + 2 )
1
0
y 1 1 (1 y)2 1 dy =
(1 )(2 )
.
(1 + 2 )
225
8.2
F-fordelingen og t-fordelingen
226
Normalfordelingens teori
p(x) =
x > 0,
(8.2.1)
hvilket flger af Korollar 6.3.6. Ved at benytte (8.2.1), er det ikke vanskeligt at indse, at X har middelvrdi hvis og kun hvis f2 > 2. N
ar denne
betingelse er opfyldt, kan det vises, at
E(X) =
f2
.
f2 2
(8.2.2)
0.0
0.2
0.4
0.6
0.8
Ffordelingen
227
Bemrk til slut, at hvis U1 , . . . , Un er uafhngige standard normalfordelte stokastiske variable og k < n, s
a er
(U12 + + Uk2 )/k
2
(Uk+1
+ + Un2 )/(n k)
F-fordelt med (k, n k) frihedsgrader.
Hvis U er en standard normalfordelt stokastisk variabel, der er uafhngig af den stokastiske variable Z, som er 2 -fordelt med f frihedsgrader, s
a kaldes fordelingen af
T =q
U
Z/f
((f + 1)/2)
,
f (f /2)(1 + t2 /f )(f +1)/2
t IR,
(8.2.3)
(8.2.4)
Det kan videre vises, at T har varians hvis og kun hvis f > 2, og at i s
a
fald
f
.
(8.2.5)
Var(T ) =
f 2
1
,
(1 + t2 )
228
Normalfordelingens teori
0.0
0.1
0.2
0.3
0.4
tfordelingen
Figur 8.2.2: Sandsynlighedsttheden for t-fordelingen med 1 (fuldt optrukket kurve), 3 (prikket og stiplet kurve) og 10 frihedsgrader (stiplet
kurve). Endvidere er standard normalfordelingens sandsynlighedstthed
indtegnet (prikket kurve).
T =q
U0
(U12 + + Un2 )/n
229
8.3
8.3.1
Hvis U1 , . . . , Un er uafhngige standard normalfordelte stokastiske variable, kaldes fordelingen af den stokastiske vektor (U1 , . . . , Un ) den ndimensionale standard normalfordeling. Sandsynlighedsttheden for den
n-dimensionale standard normalfordeling er iflge Stning 6.2.1
n
(8.3.1)
for alle (x1 , . . . , xn ) IRn . Som sdvanlig betegner sandsynlighedsttheden for den en-dimensionale standard normalfordeling, der er givet
ved (5.3.1). Fordelingen med tthed (8.3.1) kaldes ogs
a den normerede
fler-dimensionale normalfordeling.
I dette underafsnit vil vi vise nogle resultater, som er vigtige i forbindelse med statistiske normalfordelingsmodeller. Det vil bl.a. vise sig,
hvorledes 2 -fordelingen og t-fordelingen dukker op. Vi f
ar brug for nogle
resultater fra liner algebra, som vi frst vil minde om.
Vi vil altid opfatte elementerne i IRn som sjlevektorer, d.v.s. som
n 1 matricer. Koordinaterne af x IRn betegnes med x1 , . . . , xn . N
ar vi
n
har brug for at skrive x IR som en rkkevektor, benytter vi transponeringsoperatoren. Den transponerede af x er en 1 n matrix, der betegnes
med xt . Ogs
a den transponerede af en matrix M betegnes med M t . Vi
benytter det sdvanlige indre produkt i IRn , det s
akaldte prik-produkt.
For x og y IRn er det givet ved
x y = x1 y1 + . . . + xn yn = xt y,
1 for i = j
0 for i 6= j.
230
Normalfordelingens teori
Bemrk ogs
a, at da M 1 = M t , er M M t = I, s
aledes at M t ogs
a er en
ortonormalmatrix. Vi ser, at M er en ortonormalmatrix hvis og kun hvis
dens rkker udgr en ortonormalbasis for IRn .
Den linere funktion, som svarer til en ortonormalmatrix M (alts
a
n
funktionen x 7 M x), bevarer det indre produkt. For x og y i IR er
(M x) (M y) = (M x)t M y = xt M t M y = xt y = x y.
Specielt bevarer funktionen ogs
a normen
kM xk =
(M x) (M x) =
x x = kxk.
x IRn .
(8.3.2)
231
n
1
n
1
p(M 1 y)
t
2
2
= (2) 2 e 2 kM yk = (2) 2 e 2 kyk ,
| det(M )|
hvilket iflge (8.3.2) netop er sandsynlighedsttheden for den n-dimensionale standard normalfordeling.
2
Stning 8.3.1 kan ogs
a udtrykkes s
aledes:
Korollar 8.3.2 Lad U1 , . . . , Un vre uafhngige standard normalfordelte stokastiske variable, og lad {e1 , . . . , en } vre en ortonormalbasis
for IRn . St U = (U1 , . . . , Un )t . Da er de stokastiske variable Vi = ei U ,
i = 1, . . . , n, uafhngige og standard normalfordelte.
Bevis: Lad M vre ortonormalmatricen, som opfylder, at sjlerne i M t
er vektorerne e1 , . . . , en , og anvend Stning 8.3.1.
2
Stning 8.3.3 Lad X1 , . . . , Xn vre uafhngige stokastiske variable,
som alle er normalfordelte med middelvrdi og varians 2 . Definer
og kvadratafvigelsessummen SSD ved
gennemsnittet X
= 1 (X1 + . . . + Xn ),
X
n
SSD =
n
X
i=1
2.
(Xi X)
232
Normalfordelingens teori
e1 =
!t
1
1
U1 + + Un
= +
n
n
n
= + V1 / n,
og da
2 + + (Xn X)
2
SSD = (X1 X)
= 2 (U1 U )2 + + (Un U )2
2 2U1 U ) + + (U 2 + U 2 2Un U )
= 2 (U12 + U
n
2
2
2
2
= (U1 + . . . + Un nU )
2
= 2 kU k2 U1 / n + + Un / n
= 2 kM t V k2 V12
= 2 kV k2 V12
= 2 (V22 + . . . + Vn2 ),
233
nU
2
et estimat for og s2 = SSD/(n 1)
I statistisk sammenhng er X
er et estimat for 2 . Strrelsen T benyttes til test af hypotesen om, at
middelvrdien har en bestemt vrdi.
8.3.2
Lad den stokastiske vektor U = (U1 , . . . , Un ) vre n-dimensionalt standard normalfordelt. Den generelle n-dimensionale normalfordeling defineres da som fordelingen af en stokastisk vektor p
a formen
X = + CU,
hvor IRn , og hvor C er en n n matrix. Bemrk, at denne definition er analog til definitionen af en generel normal fordeling p
a IR, idet
positionsparameteren blot er blevet til en vektor, og skalaparameteren
er blevet erstattet med en matrix C.
Frst bemrker vi, at hver koordinat af X er normalfordelt. Idet
Xi = i + ci1 U1 + + cin Un ,
flger det af Stning 6.3.12, at Xi er normalfordelt med middelvrdi i
og varians c2i1 + + c2in .
Vi kan nu finde sandsynlighedsttheden q for X, n
ar C er inverterbar (ikke-singulr), ved hjlp af (6.3.13). Lad p vre sandsynlighedsttheden for den n-dimensionale standard normalfordeling, som er givet
ved (8.3.2). Da er
234
Normalfordelingens teori
q(x) =
p(C 1 (x ))
| det(C)|
= q
= q
= q
= q
1
(2)n | det(C)|
1
(2)n | det(C)|
1
(2)n | det(C)|
1
(2)n | det(C)|
exp 21 kC 1 (x )k2
exp
21
(x )
t
(x )
exp 21 (x )t (C 1 )t C 1 (x )
exp 21 (x )t (CC t )1 (x ) .
1
(2)n
det()
exp 21 (x )t 1 (x ) ,
x IRn . (8.3.3)
E (X )(X )t
= E CU (CU )t = E CU U t C t
= CE U U t C t = CIC t = CC t = ,
235
8.3.3
Lad U1 og U2 vre uafhngige standard normalfordelte stokastiske variable. Den stokastiske vektor (X1 , X2 ) givet ved
X1 = 1 + c11 U1 + c12 U2 ,
X2 = 2 + c21 U1 + c22 U2 ,
(8.3.4)
c11 c12
c21 c22
V1
V2
(8.3.5)
U1
U2
236
Normalfordelingens teori
og
22 = b2 + c2 .
Endvidere er
Cov(X1 , X2 ) = E((X1 1 )(X2 2 )) = E(aV1 (bV1 + cV2 ))
= abE(V12 ) + ac E(V1 V2 ) = ab,
s
aledes, at korrelationen mellem X1 og X2 , som vi vil betegne med , er
givet ved
ab
= 2
.
|a| b + c2
For at opskrive sandsynlighedsttheden for den to-dimensionale normalfordeling p
a formen (8.3.3), skal vi finde matricen
=
a 0
b c
a b
0 c
a2
ab
2
ab b + c2
12
1 2
1 2
22
237
Bemrk, at er kovariansmatricen for (X1 , X2 ), som vist i forrige delafsnit. Da det() = 12 22 (1 2 ), er inverterbar, hvis vi forudstter,
at || 6= 1, og
1 =
1 2
12
11 21
11 21
22
exp
q(x, y) =
1 , y 2 )
1
exp 2(1
2)
(2)2 det()
(x1 )2
12
(y2 )2
22
x 1
y 2
!!
2)
2 (x11)(y
2
2 12 22 (1 2 )
(8.3.6)
Niveaukurverne for denne funktion af to variable er koncentriske, ligedannede ellipser med centrum i (1 , 2 ). Disse ellipsers form og orientering i forhold til akserne bestemmes af parametrene 1 , 2 og . For
= 0 f
as ellipser med hovedakser, der er parallelle med koordinatakserne. Forholdet mellem lngden af den vandrette og den lodrette akse
er 1 /2 . For 6= 0 f
as ellipser, som ligger skvt i forhold til koordinatsystemet. Hldningen af den lngste hovedakse har samme fortegn som
, og hovedreglen er, at vrdier af nr 1 svarer til langstrakte ellipser, som ligger tydeligt skvt i forhold til akserne. I tilfldet 1 = 2
har den lngste hovedakse hldning 1 (med samme fortegn som ).
Ellipsens fladtrykthed er i detteq
tilflde givet ved at forholdet mellem
lngste og korteste hovedakse er (1 + ||)/(1 ||). Det ekstreme tilflde = 1, hvor kovariansmatricen er singulr, svarer til, at der
er en liner sammenhng mellem X1 og X2 , s
aledes at fordelingen af
(X1 , X2 ) er koncentreret p
a en linie,
Korrelationens fortolkning som et m
al for graden af samvariation mellem de to variable fremg
ar tydeligt af ovenst
aende. Bemrk ogs
a, at hvis
korrelationen er lig nul, er
238
Normalfordelingens teori
s
aledes at X1 og X2 er uafhngige. N
ar den simultane fordeling af (X1 ,
X2 ) er en normalfordeling, er ukorrelerethed alts
a ensbetydende med uafhngighed. For simultant normalfordelte stokastiske variable, er korrelationen et nyttigt begreb, som er let at fortolke.
En alternativ beskrivelse af, hvordan korrelationen bestemmer samvariation mellem X1 og X2 , f
ar man ved at se p
a, hvorledes den betingede
fordeling af X2 , givet X1 = x, afhnger af x. Iflge (6.5.2) er sandsynlighedsttheden for den betingede fordeling af X2 givet at X1 = x
1
exp 2(1
2)
(x1 )2
12
(y2 )2
22
2)
2 (x11)(y
2
1)
2 12 22 (1 2 ) exp 21 (x
2
q
/ 212
1
1)
+
(1 2 ) (x
exp 2(1
2)
2
exp
=
222 (1
1
22 (1
2)
2
(y2 )
2
1)
(x
1
1)
2 ) exp 21 (x
2
y (2 +
12 (x
222 (1 2 )
1 ))
2
2
Vi ser, at denne betingede fordeling er en normalfordeling med middelvrdi 2 + 21 (x1 ) og varians 22 (12 ). Bemrk, at denne varians
ikke afhnger af x. For 6= 0 er variansen mindre end variansen 12 i den
marginale fordeling af X2 , hvilket intuitivt har den forklaring, at kendskab til X1 stter os i stand til at forudsige X2 mere prcist end det
er muligt uden kendskab til X1 . Middelvrdien 2 + 21 (x 1 ) i den
betingede fordeling kan fortolkes som det bedst mulige gt p
a vrdien af
X2 , baseret p
a en observeret vrdi x af X1 . Denne betingede middelvrdi
(som den kaldes) afhnger linert af x. Dette er, ligesom den ovenfor
bemrkede egenskab at variansen i den betingede fordeling er konstant,
noget helt specielt for den to-dimensionale normalfordeling. Hldningen
12 af den linie, der beskriver X2 s betingede middelvrdi som funktion
af x, kaldes regressionskoefficienten. Bemrk at den har samme fortegn
som , og for 1 = 2 simpelthen er lig med . Heri ligger en klar bekrftelse af korrelationens relevans som et m
al for graden af samvariationen
for den todimensionale normalfordeling.
8.4 Sammenfatning
8.4
239
Sammenfatning
I Kapitel 8 har indfrt og studeret nogle fordelinger, der spiller en vigtig rolle i den statistiske teori, ikke mindst teorien for normalfordelte
observationer. Det drejer sig om 2 -fordelingen, -fordelingen (som 2 fordelingen er et specialtilflde af), F -fordelingen og t-fordelingen.
Videre har vi defineret den fler-dimensionale standard normalfordeling og set, at hvis en s
adan fordeling transformeres med en ortonormalmatrix opn
as en fordeling af samme slags. Dette resultat blev benyttet til
at vise nogle vigtige fordelings- og uafhngighedsresultater for strrelser,
der optrder i den statistiske teori for normalfordelte observationer. Endelig blev sandsynlighedsttheden for den generelle fler-dimensionale
normalfordeling udledt, og den to-dimensionale normalfordeling blev studeret mere detaljeret.
8.5
Opgaver
x
P (X x) '
,
n 2
n
ar er stor. Som altid betegner fordelingsfunktionen for standard normalfordelingen Vink: Den centrale grnsevrdistning.
8.4 Lad X vre -fordelt med formparameter og skalaparameter .
Vis, at 1/X har middelvrdi hvis og kun hvis > 1, samt at i s
a
fald
1
E(1/X) =
.
( 1)
240
Normalfordelingens teori
8.5 Vis (8.2.1) og (8.2.2). Vink til (8.2.1): Korollar 6.3.6. Vink til (8.2.2):
Opgave 8.4.
8.6 Vis (8.2.3), (8.2.4) and (8.2.5). Vink til (8.2.3): Korollar 6.3.7. Vink
til (8.2.5): Opgave 8.4.
8.7 Lad X1 og X2 vre uafhngige gammafordelte stokastiske variable,
hvor fordelingen af Xi har formparameter i , i = 1, 2, mens begge
fordelinger har samme skalaparameter .
(a) Find den simultane sandsynlighedstthed for (X1 + X2 , X1 ).
(b) Vis, at sandsynlighedsttheden for
Z=
er
p(z) =
X1
X1 + X 2
z 1 1 (1 z)2 1 (1 + 2 )
,
(1 )(2 )
z (0, 1).
f2 Z
f1 (1 Z)
Kapitel 9
Nogle stokastiske modeller
9.1
Aktier
242
i
X
log(Rj )
j=1
Iflge (3.7.3) er
E(log(Ri )) =
=
s
a
1
2
1
2
log(2 + 1 ) + 21 log(/2 + 1 )
log 1 + 12 (1 ) ,
243
Der kan vre gode grunde til at maksimere E(log(Xi )). Her er en.
St m = log(Ri ). Iflge store tals lov (Stning 7.1.3) har vi for ethvert
> 0, at
P x0 e(m)n Xn x0 e(m+)n
n
1 X
log(Rj ) m
n j=0
1,
9.2
Poisson processen
244
t
0
n xn1 ex
dx.
(n 1)!
t
0
(nxn1 xn )ex dx
n h n x it
(t)n t
x e
=
e .
0
n!
n!
Endvidere er
P (N (t) = 0) = P (X1 > t) = 1 P (X1 t) = 1 (1 et ) = et .
Vi ser s
aledes, at N (t) er Poisson-fordelt med parameter t, og har dermed endnu et argument for at benytte Poissonfordelingen som model for
tilfldigt ankommende begivenheder.
Vi har her defineret en hel familie af stokastiske variable {N (t) | t
0}. En s
adan familie af stokastiske variable kaldes en stokastisk proces.
245
s
0
s
0
s
0
n xm1 (y x)nm1 ey
dy dx
(m 1)!(n m 1)!
Z
Z
tx
0
246
s
0
Z
tx
0
+ x kz
k1
}e
(x+z)
dz dx
tx
0
xm ex
= mx
{kz k1 z k }ez dz
tx
m1 x
tx
0
k z 0
(z e
m x
) dz x e
tx
0
(kz k1 ez )0 dz
.
=
m!k!
m!
k!
0
Vi mangler at behandle tilfldene m = 0 og k = 0, 1. Disse tilflde er
lettere og overlades til lseren. Resultatet bliver det samme. Da alts
a
P (N (s) = m, N (t) N (s) = k) er et produkt af to Poissonsandsynligheder, kan vi konkluderede af Stning 4.3.1, at de stokastiske variable
N (s) og N (t) N (s) er uafhngige, samt at N (s) er Poisson fordelt med
parameter s (det vidste vi allerede), og at N (t)N (s) er Poisson fordelt
med parameter (t s).
9.3
Brownsk bevgelse
247
Til tid 0 befinder partiklen sig i punktet (0, 0). Lad partiklens position
en tidsenhed senere vre (X1 , X2 ). Det er rimeligt at antage, at X1 og
X2 er uafhngige, og at de har samme marginale fordeling. Lad os endvidere forudstte, at fordelingen af (X1 , X2 ) er kontinuert med simultan
sandsynlighedstthed f , og lad os betegne den flles marginale tthed
for X1 og X2 med p. Til slut vil vi antage, at ingen retninger i planen er
foretrukket af partiklen, hvilket vi kan formulere prcist ved at antage,
at ttheden f (x, y) kun afhnger af (x, y)s afstand til (0, 0), d.v.s. at
der findes en funktion g fra [0, ) ind i [0, ), s
a
f (x, y) = g
q
x2
y2
q
x2 + y 2
q
x2
y2
for alle (x, y) IR2 . Vi vil nu antage, at p(x) > 0 for alle x IR, og stte
k(x) = log(p(x)). Da er
k(x) + k(y) = k(0) + k
q
x2
y2
as
Sttes x = (s + t)/ 2 og y = (s t)/ 2, f
s2 + t2 = k(s) + k(t).
k((s + t)/ 2) + k((s t)/ 2) = k(0) + k
248
(9.3.2)
2 /2
for alle x IR. Denne funktion kan kun vre integrabel, hvis c > 0, og
konstanten eb skal vre s
adan, at integralet af p over IR er lig en. Stter
vi c = 1/ 2 , genkender vi normalfordelingen med middelvrdi nul og
varians 2 , s
a der m
a glde, at
p(x) =
1
2
2
ex /(2 )
2
2
Kapitel 10
Efterskrift
Det er p
a sin plads at slutte med et par bemrkninger om nogle mangler
ved disse noters fremstilling af den elementre sandsynlighedsregning.
Nogle lsere har m
aske tnkt over, om det virkelig er ndvendigt at
gennemg
a stort set den samme teori to gange: frst for diskrete fordelinger, s
a for kontinuerte fordelinger. Det er faktisk ikke ndvendigt. Hvis
man baserer fremstillingen af sandsynlighedsregningen p
a m
alteorien, kan
man klare disse to tilflde - plus mange andre - p
a en gang. Det er
imidlertid ikke nogen god m
ade at starte bekendtskabet med sandsynlighedsregningen p
a, og det ville ivrigt vre for svrt for et frste-
ars
kursus. Form
alet i disse noter har vret at give en vis fortrolighed med
nogle af sandsynlighedsregningens grundlggende begreber samt velse
i at lse enkle sandsynlighedsteoretiske problemer. Fremstillingen har s
a
m
attet forenkles lidt her og der. Det skal nvnes, at vi i definitionen af
et sandsynlighedsm
al kun har krvet, at (1.3.3) er opfyldt, mens man
normalt krver, at (1.3.14) holder ikke blot for endeligt mange disjunkte
mngder, men for tlleligt mange. Vores krav til et sandsynlighedsm
al
er alts
a svagere end det sdvanlige. Til gengld er vi blevet sparet for
nogle m
alteoretiske detaljer, som ville have kunnet overskygge form
alet
med disse noter. I forbindelse med kontinuerte fordelinger, har vi tilladt
os at integrere over vilk
arlige delmngder af IR eller IRn . Der findes imidlertid delmngder af IR og IRn , som er s
a aparte, at man ikke kan definere
integralet over dem. Hvis man holder sig til en klasse af delmngder af
IR eller IRn , som kaldes Borelmngderne, og som ikke inkluderer disse
sregne mngder, er man p
a den sikre side. Egentlig burde vi derfor alle
250
Efterskrift
P (B|X = x) = lim
men selv n
ar denne grnsevrdi eksisterer, er den helt umulig. Da P (X =
x) = 0, er
P ({X 6= x} {|X x| < }) = P ({|X x| < }\{X = x})
= P (|X x| < ) P (X = x) = P (|X x| < ),
s
aledes at ovenst
aende definition giver P (X 6= x|X = x) = 1. Dette
er oplagt noget vrvl. Det krver en del arbejde, at indfre betingede
sandsynligheder generelt.
Alle de problemer, som er nvnt her, vil naturligvis blive behandlet
i et mere avanceret kursus i sandsynlighedsteori.
Appendiks A
Om mngder
A.1
Mngder og mngdeoperationer
252
Om mngder
af alle tal p
a formen n2 , hvor n er et positivt helt tal. Et andet eksempel
er
{x IR | sin(x) > 21 }
som best
ar af de reelle tal x, for hvilke udsagnet sin(x) > 12 er sandt.
Hvis A er en mngde, kan man generelt definere en ny mngde ved
{x A | x opfylder en betingelse}.
Den nye mngde best
ar af de elementer i A, som opfylder betingelsen.
To mngder A og B er identiske, hvis de har de samme elementer.
Hvis det er tilfldet, skriver man A = B. For eksempel er {1, 2, 3, 4} =
{4, 1, 3, 2}. En mngde A siges at vre en delmngde af en anden mngde
B, hvis ethvert element i A ogs
a tilhrer B. Det skrives p
a denne m
ade:
A B eller B A. Man siger ogs
a at A er indeholdt i B eller at B
indeholder A. Tegnet kaldes en inklusion. Bemrk, at A = B hvis
og kun hvis A B og B A. Man kan ofte vise, at to mngder er
identiske ved at bevise disse to modsatrettede inklusioner. Hvis A er en
delmngde af B, og B indeholder et element, som ikke tilhrer A, kaldes
A en gte delmngde af B, hvilket skrives A B eller B A.
I nsten alle sammenhnge findes der en stor mngde E, som er
basis for vores mngdeoperationer i den forstand, at vi kun interesserer
os for delmngder af E. Mngden E kunne da kaldes vores univers. Hvad
vi vlger som vores univers vil typisk variere fra gang til gang afhngigt
af sammenhngen. Hvis A og B er to delmngder af E, defineres deres
foreningsmngde, der skrives A B, ved
A B = {x E | x A eller x B},
hvor eller betyder mindst et af de to udsagn er korrekte, muligvis dem
begge. Foreningsmngden best
ar alts
a af de elementer i E, som tilhrer
mindst en af mngderne A og B. Bemrk, at A E = E, A = A og
A A = A. Fllesmngden af A og B, som skrives A B, defineres ved
A B = {x E | x A og x B}.
Det vil sige, at fllesmngden best
ar af de elementer i E, der tilhrer
b
ade A og B. Bemrk, at A E = A, A = og A A = A. Hvis to
253
(A.1.1)
AB = BA
(A.1.2)
A (B C) = (A B) C
(A.1.3)
A (B C) = (A B) C
(A.1.4)
A (B C) = (A B) (A C)
(A.1.5)
A (B C) = (A B) (A C)
(A.1.6)
(A B)c = Ac B c
(A.1.7)
(A B)c = Ac B c .
(A.1.8)
254
Om mngder
255
Originalmngden best
ar alts
a af de elementer i A, som afbildes ind i
D, n
ar man anvender t p
a dem. Originalmngden kaldes ogs
a somme
tider urbilledet af D ved t. P
a trods af notationen kan originalmngden
defineres for enhver afbildning t, uanset om t har en invers afbildning
eller ej. I tilflde hvor t har en invers afbilding t1 , er originalmngden
lig billedmngden af D ved afbildningen t1 .
Eksempel A.1.1 Lad A = B = IR, og betragt funktionen t(x) = x2 .
Da er t(IR) = [0, ), t1 ((, 4]) = [2, 2], t1 ([0, 4]) = [2, 2] og
t1 ([1, 4]) = [2, 1] [1, 2].
2
Originalmngdedannelse passer (i modstning til billedmngdedannelse) fint sammen med mngdeoperationerne. Der glder s
aledes flgende
mngdeidentiteter, hvor C1 og C2 er delmngder af A:
t1 (B) = A
(A.1.10)
(A.1.11)
(A.1.12)
(A.1.13)
t1 (C1c ) = t1 (C1 )c .
(A.1.14)
256
Om mngder
1 hvis x A
0 hvis x
/ A.
(A.1.15)
(A.1.16)
(A.1.17)
(A.1.18)
(A.1.19)
Hvis A og B er disjunkte, er
1AB (x) = 1A (x) + 1B (x).
A.2
Opgaver
A.2 Opgaver
257
Appendiks B
Om kombinatorik
I hvor mange forskellige rkkeflger kan de 52 kort i et almindeligt kortspil lgges op, s
aledes at der aldrig ligger to af samme kulr (hermed
menes klr, ruder, hjerter eller spar) ved siden af hinanden? Hvor mange
synligt forskellige placeringer af 7 rde og 20 hvide kugler i 5 kasser er
mulige? Det er eksempler p
a sprgsm
al, hvis lsning hrer ind under det
felt der kaldes kombinatorik. Generelt kan man sige, at kombinatorikken
(i hvert fald i den snvre forstand, vi taler om den her) handler om
optlling af kombinationsmuligheder. I denne paragraf skal vi diskutere
lsningen af nogle meget simple kombinatoriske problemer, og indfre
nogle betegnelser i relation hertil.
B.1
Fakultetsfunktionen
(B.1.1)
B.2
259
Nedadstigende faktoriel
For 0 k n defineres
n(k) = n (n 1) (n k + 1).
(B.2.1)
B.3
n!
.
(n k)!
Binomialkoefficienter
For 0 k n defineres
n!
n
n(k)
=
.
=
k!
k! (n k)!
k
(B.3.1)
Denne strrelse kaldes n over k. Tal af denne art er hele tal og kaldes
binomialkoefficienter. Det er m
aske ikke oplagt, at der er tale om hele tal,
men
det flger af deres kombinatoriske fortolkning: Binomialkoefficienten
n
er antallet af delmngder med netop k elementer af en mngde
k
E med n elementer (f.eks. E = {1, . . . , n}). For at indse dette kan vi
bemrke, at antallet af ordnede st, best
aende af k forskellige elementer
fra en mngde E med n elementer, jo er n(k) . Ethvert s
adant st giver
p
a naturlig m
ade anledning til en delmngde af E med k elementer,
best
aende af de elementer, der forekommer i sttet. Men ved optllingen
af de ordnede k-st f
ar vi hver k-delmngde talt med k! gange, nemlig en
gang for hver mulig ordning af dens
elementer. Antallet af k-delmngder
n
(k)
af E bliver s
aledes n /k! = k .
260
Om kombinatorik
n(n 1)
n
=
.
2
2
n
= n og
1
n
n
= 1,
=
n
0
1
1
1
1
1
4
5
10
15
10
20
5
15
1
6
n1
n1
n
.
=
+
k
k1
k
(B.3.2)
n
n
n
,
,...,
.
0
1
n
Binomialkoefficienterne er nok bedst kendt fra binomialformlen
n
(x + y) =
n
X
k=0
n k nk
x y ,
k
(B.3.3)
B.4 Polynomialkoefficienter
261
B.4
Polynomialkoefficienter
n!
.
x1 ! x k !
(B.4.2)
1
m
ader.
de resterende n x1 elementer i M . Dette kan gres p
a nx
x2
S
aledes fortstter man udvlgelsen af elementerne i mngderne Mi . N
ar
elementerne i Mk1 skal vlges, er der n (x1 + + xk2 ) elementer
262
Om kombinatorik
k2 )
m
ader at vlge
tilbage at vlge iblandt, hvorfor der er n(x1 x++x
k1
elementerne i Mk1 p
a. Der er nu n (x1 + + xk1 ) = xk elementer
tilbage, som alts
a udgr Mk . Det nskede antal er produktet af de fundne
antal muligheder for de enkelte delmngder, alts
a
n
x1
n x1
x2
n (x1 + + xk2 )
n x1 x2
xk1
x3
n!
(n x1 )!
(n x1 x2 )!
B.5
Opgaver
B.1 Vis formel (B.3.2). Overvej den kombinatoriske fortolkning af Pascals trekant.
B.2 Vis binomialformlen (B.3.3), f.eks. ved induktion.
B.3 Vis at
n
n
=
x1 , . . . , x k
xk
n xk
.
x1 , . . . xk1
Forklar denne relation kombinatorisk. Skitser et bevis for polynomialkoefficientens kombinatoriske fortolkning ved induktion efter
k.
Appendiks C
Om uendelige rkker
Lad {x1 , x2 , x3 , . . .} vre en flge af reelle tal, og definer
sn =
n
X
xi .
i=1
xi = s.
i=1
i=1
xi er konvergent, m
a der glde, at xn 0.
P
2) Antag xi 0, og at rkken
x er konvergent. Hvis |yi | xi for
P i=1 i
alle i IIN, er ogs
a rkken i=1 yi konvergent.
3) Hvis rkkerne
tal, er
i=1
xi og
i=1
yi er konvergente, og a og b er reelle
(axi + byi ) = a
i=1
X
i=1
xi + b
X
i=1
yi .
264
Om uendelige rkker
4) Lad {xij |i IIN, j IIN} vre en reel dobbelt talflge, for hvilken
xij 0 for alle i og j. Da er
X
X
xij ) =
X
X
xij ),
j=1 i=1
i=1 j=1
xij = s.
i,j
N
ar dobbeltrkken er konvergent med sum s, glder det yderligere for
enhver bijektion n 7 (i(n), j(n)) af IIN p
a IIN2 , at
xi(n)j(n) = s.
n=1
5) Lad {xij |i IIN, j IIN} vre en reel dobbelt talflge, for hvilken
P
i,j |xij | er konvergent. Da er
X
xij ) =
i=1 j=1
xij ),
j=1 i=1
xi(n)j(n) = s.
n=1
i=1 j=1
xij ) =
j=1 i=j
xij ).
265
Eksempel C.1 For ethvert reelt tal a 6= 1 er
sn =
n
X
ai =
i=0
1 an+1
,
1a
X
1
.
ai =
1a
i=0
Hvad er
i=1
(C.0.1)
P
i=0
ai
ai ?
Eksempel C.2 Det kan vises, at der for ethvert reelt tal x glder, at
X
i=0
xi
= exp(x).
i!
2
1
log(n + 1),
i=1 i
er rkken
1
i=1 i
ikke konvergent.
2
Appendiks D
Om integraler
D.1
Funktioner af
en variabel
ba
ba
ba
<a+2
< . . . < a + (n 1)
< b,
n
n
n
d.v.s.
Z
b
a
n
baX
f a + i 21 (b a)/n .
n
n i=1
f (x)dx = lim
b
a
f (x)dx =
n Z
X
ai
i=1 ai1
f (x)dx
D.1 Funktioner af
en variabel
267
og stykvis kontinuert p
a ethvert af intervallerne [n, n], n = 1, 2, . . ..
Hvis den voksende flge
Z n
f (x)dx
n
n n
n
0
f (x)dx.
Hvis f er defineret p
a intervaller af formen (, a] eller [a, ) kan man
forsge sig med en tilsvarende fremgangsm
ade.
Eksempel D.1.1 Funktion f (x) = ex er kontinuert og afbilder [0, )
ind i [0, 1]. Da
Z
n
ex dx = 1 en 1,
n
ar n , er f integrabel p
a [0, ), og
Z
ex dx = 1.
2
268
Om integraler
er f ikke integrabel p
a [0, ).
4) Ogs
a funktioner, som er defineret
a et begrnset interval, kan give
p
problemer. Funktionen f (x) = 1/ x defineret p
a (0, 1] er et eksempel.
Den er ikke begrnset. Lad mere generelt f vre en ikke-negativ funktion
defineret p
a intervallet (a, b], som er kontinuert p
a (a, b], men for hvilken
f (x) , n
ar x a. Da eksisterer integralerne
Z
b
1
a+ n
f (x)dx.
Rb
a
1
1
n
1
2
dx = 2 2
x
n
for n , er f alts
a integrabel p
a (0, 1] med integralet 2.
for 6= 1, og da
1
1
n
1
1
n
1 n1
dx =
1
x1 dx = log(n),
D.1 Funktioner af
en variabel
269
For endelige intervaller, hvor der er problemer i den anden ende eller
i begge ender, kan en tilsvarende metode anvendes.
5) Lad os nu betragte funktioner, som ogs
a kan antage negative vrdier.
Her skal man passe lidt p
a, som flgende eksempel viser.
Eksempel D.1.5 Funktionen f (x) = x/(1 + x2 ) opfylder, at
Z
n
n
x/(1 + x2 )dx = 0
for alle n, da f er en ulige funktion. Man kunne derfor fristes til at mene,
at f er integrabel p
a IR. P
a den anden side, er
Z
n
0
for n , s
a f er ikke integrabel p
a [0, ). P
a lignende m
ade indses
det, at f heller ikke er integrabel p
a (, 0]. Det er derfor urimeligt at
sige, at f er integrabel p
a IR.
2
For at undg
a urimeligheder, som at kalde funktionen i Eksempel C.5
integrabel, siger vi, at en reel funktion f er integrabel, hvis den ikkenegative funktion |f | er integrabel. Hvis |f | er integrabel, kan vi uden
problemer definere integralet af f , som vi ovenfor gjorde for ikke-negative
funktioner.
Eksempel D.1.6 Funktionen f (x) = x(1 + x2 )2 opfylder, at
Z
n
0
x(1 + x2 )2 dx = 12 (1 (1 + n2 )1 )
1
2
270
Om integraler
1
|x|3
for |x| 1
for |x| > 1,
D.2
Vi har ogs
a brug for at integrere funktioner af flere variable. For at lette
notationen betragter vi i dette appendiks hovedsagelig funktioner af to
variable.
Vi vil ikke bevise noget her, kun forsge at motivere en definition af
integration i IR2 . Betragt en kontinuert funktion f : [a1 , a2 ][b1 , b2 ] 7 IR.
Det er naturligt at definere integralet af f over A = [a1 , a2 ] [b1 , b2 ] som
en grnsevrdi:
Z
n X
n
X
f (xi , yj )
i=1 j=1
(a2 a1 )(b2 b1 )
.
n2
(D.2.1)
f (xi , yj )
j=1
(b2 b1 )
n
b2
b1
f (xi , y)dy.
271
Definer funktionen
Z
f1 (x) =
b2
b1
x [a1 , a2 ].
f (x, y)dy,
n
X
n
X
(b2 b1 ) (a2 a1 )
n
X
f1 (xi )
i=1
a2
a1
(a2 a1 )
n
f1 (x)dx,
idet summen i nstsidste linie er en middelsum, som approksimerer integralet i sidste linie. Vi har dermed givet et intuitivt argument for, at
integralet af f over A kan beregnes ved formlen
Z
f (x, y)dxdy =
a2
a1
b2
b1
(D.2.2)
alts
a som et s
akaldt dobbeltintegral. Frst holdes x fast, og der integreres
med hensyn til y. Derved opn
as en funktion af x, som dernst integreres
over [a1 , a2 ]. Det er sjldent, man ulejliger sig med at skrive parentesen
omkring det indre integral.
Det er klart, at vi lige s
a godt kunne have defineret integralet af f
over A ved
Z
Z Z
A
f (x, y)dxdy =
b2
b1
a2
a1
(D.2.3)
1
0
(x y)dy =
x
0
ydy +
1
x
272
Om integraler
er
(x y)dxdy =
1
0
(x x2 /2)dx = 31 .
2
Vi kan definere integralet af f over A ved (D.2.2) for enhver funktion f , for hvilken de to integrationer kan udfres. Hvis for eksempel
funktionen f opfylder, at y 7 f (x, y) er en begrnset stykvis
kontinuert
R b2
funktion for enhver fastholdt vrdi af x, og hvis x 7 b1 f (x, y)dy er af
samme type, kan vi definere integralet af f over A ved (D.2.2).
Eksempel D.2.2 Betragt funktionen f defineret p
a A = [0, 1] [0, 1]
ved f (x, y) = 1B (x, y), hvor B = {(x, y) A|x y}. Da
f1 (x) =
er
1
0
1B (x, y)dy =
1B (x, y)dxdy =
x
0
1dy +
1
1
x
0dy = x,
xdx = 21 .
konvergerer for n . I s
a fald defineres
Z
IR2
n An
f (x, y)dxdy.
(D.2.4)
273
IR2
f (x, y)dxdy =
Z
f (x, y)dy dx =
Z
IR2
(D.2.5)
IRn
Z
Z
IR3
lig Bs volumen (rumfang). Generelt kan vi definere volumenet af en delmngde B af IRn som
|B| =
IRn
(D.2.6)
274
Om integraler
IRn
Appendiks E
Tabeller
I dette appendiks gives nogle tabeller vedrrende normalfordelingen, 2 fordelingen, t-fordelingen og F-fordelingen, som er nyttige i forbindelse
med test af statistiske hypoteser. Endvidere angives det grske alfabet.
276
E.1
Tabeller
Standard normalfordelingen
u
0.000
0.025
0.050
0.075
0.100
0.126
0.151
0.176
0.202
0.228
0.253
0.279
0.305
0.332
0.358
0.385
0.412
0.440
0.468
0.496
0.524
0.553
0.583
0.613
0.643
0.674
0.706
0.739
0.772
0.806
0.842
0.878
0.915
0.954
0.994
1.036
1.080
1.126
1.175
1.227
1.282
1.341
1.405
1.476
1.555
p
0.050
0.049
0.048
0.047
0.046
0.045
0.044
0.043
0.042
0.041
0.040
0.039
0.038
0.037
0.036
0.035
0.034
0.033
0.032
0.031
0.030
0.029
0.028
0.027
0.026
0.025
0.024
0.023
0.022
0.021
0.020
0.019
0.018
0.017
0.016
0.015
0.014
0.013
0.012
0.011
0.010
0.009
0.008
0.007
0.006
u
1.645
1.655
1.665
1.675
1.685
1.695
1.706
1.717
1.728
1.739
1.751
1.762
1.774
1.787
1.799
1.812
1.825
1.838
1.852
1.866
1.881
1.896
1.911
1.927
1.943
1.960
1.977
1.995
2.014
2.034
2.054
2.075
2.097
2.120
2.144
2.170
2.197
2.226
2.257
2.290
2.326
2.366
2.409
2.457
2.512
p
0.0050
0.0049
0.0048
0.0047
0.0046
0.0045
0.0044
0.0043
0.0042
0.0041
0.0040
0.0039
0.0038
0.0037
0.0036
0.0035
0.0034
0.0033
0.0032
0.0031
0.0030
0.0029
0.0028
0.0027
0.0026
0.0025
0.0024
0.0023
0.0022
0.0021
0.0020
0.0019
0.0018
0.0017
0.0016
0.0015
0.0014
0.0013
0.0012
0.0011
0.0010
0.0009
0.0008
0.0007
0.0006
u
2.576
2.583
2.590
2.597
2.605
2.612
2.620
2.628
2.636
2.644
2.652
2.661
2.669
2.678
2.687
2.697
2.706
2.716
2.727
2.737
2.748
2.759
2.770
2.782
2.794
2.807
2.820
2.834
2.848
2.863
2.878
2.894
2.911
2.929
2.948
2.968
2.989
3.011
3.036
3.062
3.090
3.121
3.156
3.195
3.239
p
0.000500
0.000490
0.000480
0.000470
0.000460
0.000450
0.000440
0.000430
0.000420
0.000410
0.000400
0.000390
0.000380
0.000370
0.000360
0.000350
0.000340
0.000330
0.000320
0.000310
0.000300
0.000290
0.000280
0.000270
0.000260
0.000250
0.000240
0.000230
0.000220
0.000210
0.000200
0.000190
0.000180
0.000170
0.000160
0.000150
0.000140
0.000130
0.000120
0.000110
0.000100
0.000090
0.000080
0.000070
0.000060
u
3.291
3.296
3.302
3.308
3.314
3.320
3.326
3.333
3.339
3.346
3.353
3.360
3.367
3.374
3.382
3.390
3.398
3.406
3.414
3.423
3.432
3.441
3.450
3.460
3.470
3.481
3.492
3.503
3.515
3.527
3.540
3.554
3.568
3.583
3.599
3.615
3.633
3.652
3.673
3.695
3.719
3.746
3.775
3.808
3.846
p
0.000050
0.000049
0.000048
0.000047
0.000046
0.000045
0.000044
0.000043
0.000042
0.000041
0.000040
0.000039
0.000038
0.000037
0.000036
0.000035
0.000034
0.000033
0.000032
0.000031
0.000030
0.000029
0.000028
0.000027
0.000026
0.000025
0.000024
0.000023
0.000022
0.000021
0.000020
0.000019
0.000018
0.000017
0.000016
0.000015
0.000014
0.000013
0.000012
0.000011
0.000010
0.000009
0.000008
0.000007
0.000006
u
3.891
3.895
3.900
3.906
3.911
3.916
3.921
3.927
3.933
3.938
3.944
3.950
3.957
3.963
3.970
3.976
3.983
3.990
3.998
4.005
4.013
4.021
4.029
4.038
4.046
4.056
4.065
4.075
4.085
4.096
4.107
4.119
4.132
4.145
4.159
4.173
4.189
4.206
4.224
4.244
4.265
4.288
4.314
4.344
4.378
E.2 2 -fordelingen
E.2
277
2-fordelingen
p = 0.05
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
44.985
46.194
47.400
48.602
49.802
50.998
52.192
53.384
54.572
55.758
56.942
58.124
59.304
60.481
61.656
p = 0.01
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
52.191
53.486
54.776
56.061
57.342
58.619
59.893
61.162
62.428
63.691
64.950
66.206
67.459
68.710
69.957
p = 0.005
7.879
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
55.003
56.328
57.648
58.964
60.275
61.581
62.883
64.181
65.476
66.766
68.053
69.336
70.616
71.893
73.166
p = 0.001
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.124
27.877
29.588
31.264
32.909
34.528
36.123
37.697
39.252
40.790
42.312
43.820
45.315
46.797
48.268
49.728
51.179
52.620
54.052
55.476
56.892
58.301
59.703
61.098
62.487
63.870
65.247
66.619
67.985
69.346
70.703
72.055
73.402
74.745
76.084
77.419
78.750
80.077
p = 0.0001
15.137
18.421
21.108
23.513
25.745
27.856
29.878
31.828
33.720
35.564
37.367
39.134
40.871
42.579
44.263
45.925
47.566
49.189
50.795
52.386
53.962
55.525
57.075
58.613
60.140
61.657
63.164
64.662
66.152
67.633
69.106
70.571
72.030
73.481
74.926
76.365
77.798
79.225
80.646
82.062
83.473
84.879
86.281
87.677
89.070
278
E.3
Tabeller
t-fordelingen
p = 0.05
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.717
1.711
1.706
1.701
1.697
1.694
1.691
1.688
1.686
1.684
1.679
1.676
1.673
1.671
1.667
1.664
1.662
1.660
1.657
1.655
1.654
1.653
1.650
1.649
1.648
1.645
p = 0.025
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.074
2.064
2.056
2.048
2.042
2.037
2.032
2.028
2.024
2.021
2.014
2.009
2.004
2.000
1.994
1.990
1.987
1.984
1.979
1.976
1.974
1.972
1.968
1.966
1.965
1.960
p = 0.01
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.508
2.492
2.479
2.467
2.457
2.449
2.441
2.434
2.429
2.423
2.412
2.403
2.396
2.390
2.381
2.374
2.368
2.364
2.357
2.351
2.348
2.345
2.339
2.336
2.334
2.326
p = 0.001
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
3.505
3.467
3.435
3.408
3.385
3.365
3.348
3.333
3.319
3.307
3.281
3.261
3.245
3.232
3.211
3.195
3.183
3.174
3.157
3.145
3.137
3.131
3.118
3.111
3.107
3.090
p = 0.0001
3183.099
70.700
22.204
13.034
9.678
8.025
7.063
6.442
6.010
5.694
5.453
5.263
5.111
4.985
4.880
4.791
4.714
4.648
4.590
4.539
4.452
4.382
4.324
4.275
4.234
4.198
4.167
4.140
4.116
4.094
4.049
4.014
3.986
3.962
3.926
3.899
3.878
3.862
3.832
3.813
3.799
3.789
3.765
3.754
3.747
3.719
E.4 F-fordelingen
E.4
279
F-fordelingen
95 procent fraktiler.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
f2 15
16
18
20
25
30
35
40
50
60
70
80
90
100
200
500
1
2
3
4
5
6
7
f2 8
9
10
11
12
13
14
15
1
161
18.5
10.1
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4.84
4.75
4.67
4.60
4.54
4.49
4.41
4.35
4.24
4.17
4.12
4.08
4.03
4.00
3.98
3.96
3.95
3.94
3.89
3.86
16
246
19.4
8.69
5.84
4.60
3.92
3.49
3.20
2.99
2.83
2.70
2.60
2.51
2.44
2.38
2
200
19.0
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
3.98
3.89
3.81
3.74
3.68
3.63
3.55
3.49
3.39
3.32
3.27
3.23
3.18
3.15
3.13
3.11
3.10
3.09
3.04
3.01
18
247
19.4
8.67
5.82
4.58
3.90
3.47
3.17
2.96
2.80
2.67
2.57
2.48
2.41
2.35
3
216
19.2
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.59
3.49
3.41
3.34
3.29
3.24
3.16
3.10
2.99
2.92
2.87
2.84
2.79
2.76
2.74
2.72
2.71
2.70
2.65
2.62
20
248
19.5
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77
2.65
2.54
2.46
2.39
2.33
4
225
19.3
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.36
3.26
3.18
3.11
3.06
3.01
2.93
2.87
2.76
2.69
2.64
2.61
2.56
2.53
2.50
2.49
2.47
2.46
2.42
2.39
25
249
19.5
8.63
5.77
4.52
3.83
3.40
3.11
2.89
2.73
2.60
2.50
2.41
2.34
2.28
5
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
3.20
3.11
3.03
2.96
2.90
2.85
2.77
2.71
2.60
2.53
2.49
2.45
2.40
2.37
2.35
2.33
2.32
2.31
2.26
2.23
30
250
19.5
8.62
5.75
4.50
3.81
3.38
3.08
2.86
2.70
2.57
2.47
2.38
2.31
2.25
6
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
3.09
3.00
2.92
2.85
2.79
2.74
2.66
2.60
2.49
2.42
2.37
2.34
2.29
2.25
2.23
2.21
2.20
2.19
2.14
2.12
35
251
19.5
8.60
5.73
4.48
3.79
3.36
3.06
2.84
2.68
2.55
2.44
2.36
2.28
2.22
7
237
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
3.01
2.91
2.83
2.76
2.71
2.66
2.58
2.51
2.40
2.33
2.29
2.25
2.20
2.17
2.14
2.13
2.11
2.10
2.06
2.03
40
251
19.5
8.59
5.72
4.46
3.77
3.34
3.04
2.83
2.66
2.53
2.43
2.34
2.27
2.20
f1
8
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.95
2.85
2.77
2.70
2.64
2.59
2.51
2.45
2.34
2.27
2.22
2.18
2.13
2.10
2.07
2.06
2.04
2.03
1.98
1.96
f1
50
252
19.5
8.58
5.70
4.44
3.75
3.32
3.02
2.80
2.64
2.51
2.40
2.31
2.24
2.18
9
241
19.4
8.81
6.00
4.77
4.10
3.68
3.39
3.18
3.02
2.90
2.80
2.71
2.65
2.59
2.54
2.46
2.39
2.28
2.21
2.16
2.12
2.07
2.04
2.02
2.00
1.99
1.97
1.93
1.90
60
252
19.5
8.57
5.69
4.43
3.74
3.30
3.01
2.79
2.62
2.49
2.38
2.30
2.22
2.16
10
242
19.4
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98
2.85
2.75
2.67
2.60
2.54
2.49
2.41
2.35
2.24
2.16
2.11
2.08
2.03
1.99
1.97
1.95
1.94
1.93
1.88
1.85
70
252
19.5
8.57
5.68
4.42
3.73
3.29
2.99
2.78
2.61
2.48
2.37
2.28
2.21
2.15
11
243
19.4
8.76
5.94
4.70
4.03
3.60
3.31
3.10
2.94
2.82
2.72
2.63
2.57
2.51
2.46
2.37
2.31
2.20
2.13
2.07
2.04
1.99
1.95
1.93
1.91
1.90
1.89
1.84
1.81
80
253
19.5
8.56
5.67
4.41
3.72
3.29
2.99
2.77
2.60
2.47
2.36
2.27
2.20
2.14
12
244
19.4
8.74
5.91
4.68
4.00
3.57
3.28
3.07
2.91
2.79
2.69
2.60
2.53
2.48
2.42
2.34
2.28
2.16
2.09
2.04
2.00
1.95
1.92
1.89
1.88
1.86
1.85
1.80
1.77
90
253
19.5
8.56
5.67
4.41
3.72
3.28
2.98
2.76
2.59
2.46
2.36
2.27
2.19
2.13
13
245
19.4
8.73
5.89
4.66
3.98
3.55
3.26
3.05
2.89
2.76
2.66
2.58
2.51
2.45
2.40
2.31
2.25
2.14
2.06
2.01
1.97
1.92
1.89
1.86
1.84
1.83
1.82
1.77
1.74
100
253
19.5
8.55
5.66
4.41
3.71
3.27
2.97
2.76
2.59
2.46
2.35
2.26
2.19
2.12
14
245
19.4
8.71
5.87
4.64
3.96
3.53
3.24
3.03
2.86
2.74
2.64
2.55
2.48
2.42
2.37
2.29
2.22
2.11
2.04
1.99
1.95
1.89
1.86
1.84
1.82
1.80
1.79
1.74
1.71
200
254
19.5
8.54
5.65
4.39
3.69
3.25
2.95
2.73
2.56
2.43
2.32
2.23
2.16
2.10
15
246
19.4
8.70
5.86
4.62
3.94
3.51
3.22
3.01
2.85
2.72
2.62
2.53
2.46
2.40
2.35
2.27
2.20
2.09
2.01
1.96
1.92
1.87
1.84
1.81
1.79
1.78
1.77
1.72
1.69
500
254
19.5
8.53
5.64
4.37
3.68
3.24
2.94
2.72
2.55
2.42
2.31
2.22
2.14
2.08
280
Tabeller
99 procent fraktiler.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
f2 15
16
18
20
25
30
35
40
50
60
70
80
90
100
200
500
1
2
3
4
5
6
7
f2 8
9
10
11
12
13
14
15
1
4052
98.5
34.1
21.2
16.3
13.8
12.3
11.3
10.6
10.0
9.65
9.33
9.07
8.86
8.68
8.53
8.29
8.10
7.77
7.56
7.42
7.31
7.17
7.08
7.01
6.96
6.93
6.90
6.76
6.69
16
6170
99.4
26.8
14.2
9.68
7.52
6.28
5.48
4.92
4.52
4.21
3.97
3.78
3.62
3.49
2
5000
99.0
30.8
18.0
13.3
10.9
9.55
8.65
8.02
7.56
7.21
6.93
6.70
6.51
6.36
6.23
6.01
5.85
5.57
5.39
5.27
5.18
5.06
4.98
4.92
4.88
4.85
4.82
4.71
4.65
18
6192
99.4
26.8
14.1
9.61
7.45
6.21
5.41
4.86
4.46
4.15
3.91
3.72
3.56
3.42
3
5403
99.2
29.5
16.7
12.1
9.78
8.45
7.59
6.99
6.55
6.22
5.95
5.74
5.56
5.42
5.29
5.09
4.94
4.68
4.51
4.40
4.31
4.20
4.13
4.07
4.04
4.01
3.98
3.88
3.82
20
6209
99.5
26.7
14.0
9.55
7.40
6.16
5.36
4.81
4.41
4.10
3.86
3.66
3.51
3.37
4
5625
99.3
28.7
16.0
11.4
9.15
7.85
7.01
6.42
5.99
5.67
5.41
5.21
5.04
4.89
4.77
4.58
4.43
4.18
4.02
3.91
3.83
3.72
3.65
3.60
3.56
3.53
3.51
3.41
3.36
25
6240
99.5
26.6
13.9
9.45
7.30
6.06
5.26
4.71
4.31
4.01
3.76
3.57
3.41
3.28
5
5764
99.3
28.2
15.5
11.0
8.75
7.46
6.63
6.06
5.64
5.32
5.06
4.86
4.69
4.56
4.44
4.25
4.10
3.85
3.70
3.59
3.51
3.41
3.34
3.29
3.26
3.23
3.21
3.11
3.05
30
6261
99.5
26.5
13.8
9.38
7.23
5.99
5.20
4.65
4.25
3.94
3.70
3.51
3.35
3.21
6
5859
99.3
27.9
15.2
10.7
8.47
7.19
6.37
5.80
5.39
5.07
4.82
4.62
4.46
4.32
4.20
4.01
3.87
3.63
3.47
3.37
3.29
3.19
3.12
3.07
3.04
3.01
2.99
2.89
2.84
35
6276
99.5
26.5
13.8
9.33
7.18
5.94
5.15
4.60
4.20
3.89
3.65
3.46
3.30
3.17
7
5928
99.4
27.7
15.0
10.5
8.26
6.99
6.18
5.61
5.20
4.89
4.64
4.44
4.28
4.14
4.03
3.84
3.70
3.46
3.30
3.20
3.12
3.02
2.95
2.91
2.87
2.84
2.82
2.73
2.68
40
6287
99.5
26.4
13.8
9.29
7.14
5.91
5.12
4.57
4.17
3.86
3.62
3.43
3.27
3.13
f1
8
5981
99.4
27.5
14.8
10.3
8.10
6.84
6.03
5.47
5.06
4.74
4.50
4.30
4.14
4.00
3.89
3.71
3.56
3.32
3.17
3.07
2.99
2.89
2.82
2.78
2.74
2.72
2.69
2.60
2.55
f1
50
6303
99.5
26.4
13.7
9.24
7.09
5.86
5.07
4.52
4.12
3.81
3.57
3.38
3.22
3.08
9
6022
99.4
27.4
14.7
10.2
7.98
6.72
5.91
5.35
4.94
4.63
4.39
4.19
4.03
3.89
3.78
3.60
3.46
3.22
3.07
2.96
2.89
2.78
2.72
2.67
2.64
2.61
2.59
2.50
2.44
60
6313
99.5
26.3
13.7
9.20
7.06
5.82
5.03
4.48
4.08
3.78
3.54
3.34
3.18
3.05
10
6056
99.4
27.2
14.6
10.1
7.87
6.62
5.81
5.26
4.85
4.54
4.30
4.10
3.94
3.80
3.69
3.51
3.37
3.13
2.98
2.88
2.80
2.70
2.63
2.59
2.55
2.52
2.50
2.41
2.36
70
6321
99.5
26.3
13.6
9.18
7.03
5.80
5.01
4.46
4.06
3.75
3.51
3.32
3.16
3.02
11
6083
99.4
27.1
14.5
9.96
7.79
6.54
5.73
5.18
4.77
4.46
4.22
4.02
3.86
3.73
3.62
3.43
3.29
3.06
2.91
2.80
2.73
2.63
2.56
2.51
2.48
2.45
2.43
2.34
2.28
80
6326
99.5
26.3
13.6
9.16
7.01
5.78
4.99
4.44
4.04
3.73
3.49
3.30
3.14
3.00
12
6106
99.4
27.1
14.4
9.89
7.72
6.47
5.67
5.11
4.71
4.40
4.16
3.96
3.80
3.67
3.55
3.37
3.23
2.99
2.84
2.74
2.66
2.56
2.50
2.45
2.42
2.39
2.37
2.27
2.22
90
6331
99.5
26.3
13.6
9.14
7.00
5.77
4.97
4.43
4.03
3.72
3.48
3.28
3.12
2.99
13
6126
99.4
27.0
14.3
9.82
7.66
6.41
5.61
5.05
4.65
4.34
4.10
3.91
3.75
3.61
3.50
3.32
3.18
2.94
2.79
2.69
2.61
2.51
2.44
2.40
2.36
2.33
2.31
2.22
2.17
100
6334
99.5
26.2
13.6
9.13
6.99
5.75
4.96
4.41
4.01
3.71
3.47
3.27
3.11
2.98
14
6143
99.4
26.9
14.3
9.77
7.60
6.36
5.56
5.01
4.60
4.29
4.05
3.86
3.70
3.56
3.45
3.27
3.13
2.89
2.74
2.64
2.56
2.46
2.39
2.35
2.31
2.29
2.27
2.17
2.12
200
6350
99.5
26.2
13.5
9.08
6.93
5.70
4.91
4.36
3.96
3.66
3.41
3.22
3.06
2.92
15
6157
99.4
26.9
14.2
9.72
7.56
6.31
5.52
4.96
4.56
4.25
4.01
3.82
3.66
3.52
3.41
3.23
3.09
2.85
2.70
2.60
2.52
2.42
2.35
2.31
2.27
2.24
2.22
2.13
2.07
500
6360
99.5
26.2
13.5
9.04
6.90
5.67
4.88
4.33
3.93
3.62
3.38
3.19
3.03
2.89
E.4 F-fordelingen
281
2
3
4
5
6
7
8
9
10
11
12
13
14
f2 15
16
18
20
25
30
35
40
50
60
70
80
90
100
200
500
2
3
4
5
6
7
f2 8
9
10
11
12
13
14
15
1
999
167
74.1
47.2
35.5
29.3
25.4
22.9
21.0
19.7
18.6
17.8
17.1
16.6
16.1
15.4
14.8
13.9
13.3
12.9
12.6
12.2
12.0
11.8
11.7
11.6
11.5
11.2
11.0
16
999
127
46.6
25.8
17.5
13.2
10.8
9.15
8.05
7.24
6.63
6.16
5.78
5.46
2
999
149
61.3
37.1
27.0
21.7
18.5
16.4
14.9
13.8
13.0
12.3
11.8
11.3
11.0
10.4
9.95
9.22
8.77
8.47
8.25
7.96
7.77
7.64
7.54
7.47
7.41
7.15
7.00
18
999
127
46.3
25.6
17.3
13.1
10.6
9.01
7.91
7.11
6.51
6.03
5.66
5.35
3
999
141
56.2
33.2
23.7
18.8
15.8
13.9
12.6
11.6
10.8
10.2
9.73
9.34
9.01
8.49
8.10
7.45
7.05
6.79
6.59
6.34
6.17
6.06
5.97
5.91
5.86
5.63
5.51
20
999
126
46.1
25.4
17.1
12.9
10.5
8.90
7.80
7.01
6.40
5.93
5.56
5.25
4
999
137
53.4
31.1
21.9
17.2
14.4
12.6
11.3
10.4
9.63
9.07
8.62
8.25
7.94
7.46
7.10
6.49
6.12
5.88
5.70
5.46
5.31
5.20
5.12
5.06
5.02
4.81
4.69
25
999
126
45.7
25.1
16.9
12.7
10.3
8.69
7.60
6.81
6.22
5.75
5.38
5.07
5
999
135
51.7
29.8
20.8
16.2
13.5
11.7
10.5
9.58
8.89
8.35
7.92
7.57
7.27
6.81
6.46
5.89
5.53
5.30
5.13
4.90
4.76
4.66
4.58
4.53
4.48
4.29
4.18
30
999
125
45.4
24.9
16.7
12.5
10.1
8.55
7.47
6.68
6.09
5.63
5.25
4.95
6
999
133
50.5
28.8
20.0
15.5
12.9
11.1
9.93
9.05
8.38
7.86
7.44
7.09
6.80
6.35
6.02
5.46
5.12
4.89
4.73
4.51
4.37
4.28
4.20
4.15
4.11
3.92
3.81
35
999
125
45.2
24.7
16.5
12.4
10.0
8.45
7.37
6.59
6.00
5.54
5.17
4.86
7
999
132
49.7
28.2
19.5
15.0
12.4
10.7
9.52
8.66
8.00
7.49
7.08
6.74
6.46
6.02
5.69
5.15
4.82
4.59
4.44
4.22
4.09
3.99
3.92
3.87
3.83
3.65
3.54
40
999
125
45.1
24.6
16.4
12.3
9.92
8.37
7.30
6.52
5.93
5.47
5.10
4.80
f1
8
999
131
49.0
27.7
19.0
14.6
12.1
10.4
9.20
8.35
7.71
7.21
6.80
6.47
6.19
5.76
5.44
4.91
4.58
4.36
4.21
4.00
3.86
3.77
3.70
3.65
3.61
3.43
3.33
f1
50
999
125
44.9
24.4
16.3
12.2
9.80
8.26
7.19
6.42
5.83
5.37
5.00
4.70
9
999
130
48.5
27.2
18.7
14.3
11.8
10.1
8.96
8.12
7.48
6.98
6.58
6.26
5.98
5.56
5.24
4.71
4.39
4.18
4.02
3.82
3.69
3.60
3.53
3.48
3.44
3.26
3.16
60
999
124
44.8
24.3
16.2
12.1
9.73
8.19
7.12
6.35
5.76
5.30
4.94
4.64
10
999
129
48.1
26.9
18.4
14.1
11.5
9.89
8.75
7.92
7.29
6.80
6.40
6.08
5.81
5.39
5.08
4.56
4.24
4.03
3.87
3.67
3.54
3.45
3.39
3.34
3.30
3.12
3.02
70
999
124
44.7
24.3
16.2
12.1
9.67
8.13
7.07
6.30
5.71
5.26
4.89
4.59
11
999
129
47.7
26.7
18.9
13.9
11.4
9.72
8.59
7.76
7.14
6.65
6.26
5.94
5.67
5.25
4.94
4.42
4.11
3.90
3.75
3.55
3.42
3.33
3.27
3.22
3.18
3.00
2.91
80
999
124
44.6
24.2
16.1
12.0
9.63
8.09
7.03
6.26
5.68
5.22
4.86
4.56
12
999
128
47.4
26.4
18.0
13.7
11.2
9.57
8.45
7.63
7.00
6.52
6.13
5.81
5.55
5.13
4.82
4.31
4.00
3.79
3.64
3.44
3.32
3.23
3.16
3.11
3.07
2.90
2.81
90
999
124
44.5
24.2
16.1
12.0
9.60
8.06
7.00
6.23
5.65
5.19
4.83
4.53
13
999
128
47.2
26.2
17.8
13.6
11.1
9.44
8.32
7.51
6.89
6.41
6.02
5.71
5.44
5.03
4.72
4.22
3.91
3.70
3.55
3.35
3.23
3.14
3.07
3.02
2.99
2.82
2.72
100
999
124
44.5
24.1
16.0
12.0
9.57
8.04
6.98
6.21
5.63
5.17
4.81
4.51
14
999
128
47.0
26.1
17.7
13.4
10.9
9.33
8.22
7.41
6.79
6.31
5.93
5.62
5.35
4.94
4.64
4.13
3.82
3.62
3.47
3.27
3.15
3.06
3.00
2.95
2.91
2.74
2.64
200
999
124
44.3
24.0
15.9
11.8
9.45
7.93
6.87
6.10
5.52
5.07
4.71
4.41
15
999
127
46.8
25.9
17.6
13.3
10.8
9.24
8.13
7.32
6.71
6.23
5.85
5.54
5.27
4.87
4.56
4.06
3.75
3.55
3.40
3.20
3.08
2.99
2.93
2.88
2.84
2.67
2.58
500
999
124
44.1
23.9
15.8
11.8
9.38
7.86
6.81
6.04
5.46
5.01
4.65
4.35
282
E.5
Tabeller
Lille
bogstav
A
B
E
Z
H
I
K
M
N
T
Y
,
, %
,
Navn
alfa
beta
gamma
delta
epsilon
zeta
eta
theta
iota
kappa
lambda
my
ny
xi
omikron
pi
ro
sigma
tau
ypsilon
fi
chi
psi
omega
Indeks
aktier, 241243
antal besg til en web-site, 114
115
antal ordnede st, 259
antallet ef delmngder, 259
arcus-sinus fordelingen, 174, 177
Bayes formel, 29
begrnset stokastisk variabel, 131
Beta-fordelingen, 19, 149, 152, 158,
225, 240
Beta-funktionen, 225
betinget fordeling, 2930, 139140,
200202
betinget middelvrdi, 238
betinget sandsynlighed, 24
betinget uafhngighed, 35
af diskrete stokastiske variable,
8586, 129130
billedmngde, 254
binomialfordelingen, 6872, 7475,
78, 88, 92, 94, 101, 114,
115, 214
binomialformlen, 260
binomialkoefficient, 259261
Brownsk bevgelse, 910, 246
248
Cauchy-fordelingen, 169, 176, 227
centrale grnsevrdistning, 212
284
dobbeltintegral, 271
ddelighedstavle, 25
eksponentialfordelingen, 5254, 146,
149, 154, 157, 160, 169,
172, 190, 201, 222, 243
empirisk
fordeling, 102
korrelation, 103
kovarians, 103
middelvrdi, 103
varians, 103, 111
Erlang-fordelingen, 175, 204
et tilfldigt tal mellem nul og en,
1617, 51, 56, 169
fakultetfunktionen, 258
fejlophobningsloven, 207
F-fordelingen, 190, 226
fler-dimensionalt volumen, 273
foldning
af binomialfordelinger, 71
af diskrete fordelinger, 8485,
128
af eksponentialfordelinger, 188,
204
af -fordelinger, 224
af geometriske fordelinger, 142
af kontinuerte fordelinger, 188
af normalfordelinger, 195
af Poissonfordelinger, 129
af sandsynlighedsfunktioner,
85
af sandsynlighedsttheder, 188
fordeling
af stokastisk variabel, 46
af stokastisk vektor, 57
INDEKS
diskret, 118
kontinuert, 148, 180
marginal, 57
simultan, 57
fordeling af blandet type, 155
fordelingsfunktion
for en fordeling p
a IIN0 , 122
for en kontinuert fordeling, 151
for en stokastisk variabel, 49
52
for en stokastisk vektor, 58
marginal, 58
foreningsmngde, 252
fraktil, 176
frihedsgrader, 221, 226, 227
fllesmngde, 252
fdselsdage i en klasse, 13, 21
-fordelingen, 222, 244
-funktionen, 223
Gauss-fordelingen, 162
geometriske fordeling, 119, 123
124, 131132, 137138, 140,
142, 172
hypergeometriske fordeling, 72
75, 92, 98
hndelse, 12, 14, 18
indikatorfunktionen, 256
kast med en terning, 4951, 79,
81
kast med to terninger, 13, 15, 23,
24, 31, 47, 5658, 89
komplementrmngde, 253
koncentreret, 65
kontinuert differentiabel, 153
INDEKS
kontinuert fordeling, 148, 180
kontinuert stokastisk variabel, 148
kontinuert stokastisk vektor, 180
konvergens i fordeling, 213
konvergens i sandsynlighed, 211
korrelation, 99, 138139, 200, 237
238
kovarians, 95, 138139, 199
kovariansmatrix, 112, 234
kugler i to kasser, 27, 28, 35, 85
kvadratet af en kontinuert stokastisk variabel, 171
kvotienten mellem to kontinuerte
stokastiske variable, 189
Laplace-fordelingen, 174
ligefordelingen
p
a en begrnset mngde, 180
p
a en endelig mngde, 14, 51,
63, 67
p
a et begrnset interval, 148,
151, 154, 157, 161
logaritmiske normalfordeling, 176
marginal fordeling, 57
for diskret stokastisk variabel,
124
for kontinuert stokastisk variabel, 182
for stokastisk variabel p
a en
endelig mngde, 75
marginal fordelingsfunktion, 58
marginal kontinuert fordeling, 182
marginal sandsynlighedstthed, 182
Markovs ulighed, 110
median, 176
Mendel, 79, 81
285
middelvrdi
af binomialfordelingen, 92
af den geometriske fordeling,
131132
af den hypergeometriske fordeling, 92
af eksponentialfordelingen, 157
af en diskret stokastisk variabel, 87, 130
af en kontinuert stokastisk variabel, 156
af en sum af stokastiske variable, 91, 135, 198
af en transformeret diskret stokastisk variabel, 89, 132
af en transformeret kontinuert stokastisk variabel, 158
af en transformeret kontinuert stokastisk vektor, 197
af et produkt af uafhngige
stokastiske variable, 91, 135,
198
af F-fordelingen, 226
af -fordelingen, 239
af ligefordelingen, 157
af normalfordelingen, 163
af Poissonfordelingen, 131
af t-fordelingen, 227
multinomialfordelingen, 7882, 84,
102
multinomialkoefficient, 79, 261
262
mngdedifferens, 253
mntkast, 33, 34, 45, 47, 68
n-dimensionale normalfordeling, 229,
233235
286
nedadstigende faktoriel, 259
negative binomialfordeling, 142
normalfordelingen, 162165, 195,
212, 248
den fler-dimensionale, 229, 233
235
den to-dimensionale, 236238
originalmngde, 254
ortonormal transformation af en
normalfordeling, 230
Pareto-fordelingen, 157, 161
Pascals trekant, 9, 260
planintegral, 270
Poisson processen, 245
Poissonfordelingen, 115, 118, 121,
129, 131, 137, 146, 217,
244
polynomialfordelingen, 7882, 84,
102
polynomialkoefficient, 79, 261262
positionsparameter, 168
produktet af to kontinuerte stokastiske variable, 189
produktmngde, 254
punktsandsynlighed, 12, 120
regressionskoefficient, 238
rektangulre fordeling, 148, 151,
154, 157, 161, 180
rencontreproblemet, 110
sandsynlighedsfelt
endeligt, 12
generelt, 18
sandsynlighedsfunktion, 12, 66
67, 118
INDEKS
sandsynlighedsm
al, 18
sandsynlighedsregningens frekvensfortolkning, 9, 11, 102, 211
sandsynlighedstthed, 20, 147, 179
simulation, 169
simultan fordeling, 57
simultan fordelingsfunktion, 58
skadesforsikring, 37, 243
skalaparameter, 168
spredning, 93, 137, 160
standardafvigelse, 93, 137, 160
stikprveudtagning
med tilbagelgning, 72
uden tilbagelgning, 7275
stokastisk proces, 245
stokastisk uafhngighed
af diskrete stokastiske variable,
82, 127
af kontinuerte stokastiske variable, 183, 186
af n hndelser, 34, 37
af stokastiske variable, 58
af to hndelser, 31
store tals lov, 9, 210
sum af
binomialfordelinger, 71
eksponentialfordelinger, 188,
204
-fordelinger, 224
geometriske fordelinger, 142
normalfordelinger, 195
Poissonfordelinger, 129
to diskrete stokastiske variable, 77, 126
to kontinuerte stokastiske variable, 187
INDEKS
to uafhngige kontinuerte stokastiske variable, 188
uafhngige diskrete stokastiske variable, 84, 128
terningkast, 13, 15, 23, 24, 31, 47,
4951, 5658, 79, 81, 89
t-fordelingen, 227, 231
to-dimensionale normalfordeling,
236238
tosidede eksponentialfordeling, 174
transformation
af generelle stokastiske variable, 49
transformationsstningen
for diskrete fordelinger, 125
for en-dimensionale kontinuerte fordelinger, 166
for fordelinger, 49
for fordelinger p
a endelige mngder, 76
for fordelingsfunktioner, 54
55
for n-dimensionale kontinuerte
fordelinger, 194
for to-dimensionale kontinuerte fordelinger, 192
tllelig mngde, 118
tthedsfunktion, 147, 179
uafhngighed
af diskrete stokastiske variable,
82, 127
af kontinuerte stokastiske variable, 183, 186
af n hndelser, 34, 37
af stokastiske variable, 58
287
af to hndelser, 31
betinget, 35
udartede fordeling, 95
udartet stokastisk variabel, 95
udfaldsrum, 12, 18
udtrkning af kort, 31, 33, 70, 73
u-fordelingen, 162
ukorrelerede stokastiske variable,
100
uniforme fordeling, 148, 151, 154,
157, 161, 180
varians
af binomialfordelingen, 101
af den geometriske fordeling,
137138
af den hypergeometriske fordeling, 98
af eksponentialfordelingen, 160
af en diskret stokastisk variabel, 93, 136
af en kontinuert stokastisk variabel, 160
af en sum af stokastiske variable, 98
af en sum af ukorrelerede stokastiske variable, 101
af -fordelingen, 239
af ligefordelingen, 161
af normalfordelingen, 163
af Poissonfordeligen, 137
af t-fordelingen, 227
volatility pumping, 243
volumen, 273
Wiener processen, 248