Slides HFSTK 8 Acadjaar 20192020

Hoofdstuk 8: Bivariate inferentie
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 85

Inleiding
Bivariate inferentie
(X , Y ) twee
toevalsvariabelen
› inferentie voor twee kwalitatieve variabelen
proporties vergelijken in twee groepen
● onafhankelijkheid tussen twee kwalitatieve variabelen testen
› combinatie van een kwantitatieve en een kwalitatieve variabele
● het vergelijken van gemiddeldes en varianties van een normaal
verdeelde variabele in twee groepen
● vergelijken van de verdeling van een variabele in twee groepen
› inferentie voor twee kwantitatieve variabelen

● hypothesetesten voor het
nagaan van bivariate verschil van twee
normaliteit variabelen
●
correlatie tussen twee variabelen testen

Twee kwalitatieve variabelen Inferentie omtrent twee proporties
Twee kwalitatieve variabelen

Inferentie omtrent twee proporties


Voorbeeld: pollutie data, steden met een laag en een hoog aantal
handarbeiders (laag dwz minder dan 45% handarbeiders)
● interesse gaat uit naar twee regio’s:
het Noordoosten van de VS en het Zuiden van de VS
● vraag : is de populatieproportie van steden met een laag aantal
handarbeiders lager in het Noordoosten dan in het Zuiden van de
VS ?
Tabel: Kruistabel met voorwaardelijke frequenties voor ‘Regio’ en ‘Arbeid’.

Arbeid
Regio hoog laag Totaal
NO 8/19 11/19 (58%) 1
Z 6/16 10/16 (62.5%) 1


Vraag : is de populatieproportie van steden met een laag aantal
handarbeiders lager in het NO dan in het Z ?
● X = groeperingsvariabele: X =1 (regio =‘NO’), en X =2 (
regio=‘Z’). n1 =19 en n2 =16

● Y =Bernoulli variabele: Y =0 als ‘Arbeid = hoog’, en Y =1 als
‘Arbeid = laag’
Y (Arbeid)
X (Regio) 0 (hoog) 1 (laag) Totaal
1 (NO) 8/19 11/19 (58%) 1
2 (Z) 6/16 10/16 (62.5%) 1
›in groep/regio 1: Y1,1 , Y1,2, . . . , Y1,19 ∼ B(1, p1),

p =P(Y =1) de ‘succeskans’
met1
› in groep/regio 2: Y2,1 , Y2,2 , . . . , 2,16
Y ∼ 1, p2 )
B (
We stellen ons de vraag of p p 1< 2
proporties vergelijken in twee groepen: algemeen kader

● X = groeperingsvariabele: X =1 (groep 1), en X =2 (groep 2).
Y =Bernoulli variabele: Y =0, Y =1
in groep 1: Y ∼ B(1, p 1) in groep 2: Y ∼ B(1, p2)
●●
metingen
Y1,1, Y 1,2
,...,Y ∼ 1, p1 ) als X = 1 (groep 1)
1
●YB1,n
( , Y 2,2
2,1 ,...,Y 2 ∼ 1, p2 ) als X = 2 (groep 2)
● de
B2,n
( metingen in de ene groep zijn o n a f h a n k e l i j k van de
metingen in de andere groep
●● aantal metingen hoeft niet hetzelfde te zijn in elke groep
● het vergelijken van de twee populatieproporties zal gebeuren door
de steekproefproporties
1 n1 1 n2
P̂ 1 = 1,i P̂ 2 2,i
n Σ Y en
= n Σ Y
1 i =1 2 i =1
te vergelijken
Vergelijken van 2 proporties
Wat kunnen we zeggen over de verdeling van P ˆ− ˆ

1 P ?
2
› E (Pˆ1 − Pˆ2) =p1 −
p2 p1 (1 − p1 ) p (1 − p2 )
› Var(Pˆ 1− P ˆ ) = Var( Pˆ1) + Var(Pˆ 2) 2 +
2 = n1 n2
(Pˆ 1−ˆ P 2)−( p 1−p
2 )
› Z . ≈ N(0, ) (als n 1en n voldoende groot)
p1(1− p 1) p (1−p )
= + 2 1 2
2 n n2
1

Vergelijken van 2 proporties, Betrouwbaarheidsinterval

Opstellen van een betrouwbaarheidsinterval voor p − 1 p
(Pˆ 1−ˆ P 2)−(p −p
1 2 ) 2
› Z =. ≈ N(0, 1) (als n1en n voldoende groot zijn)
p1( 1−p1) p ( 2 1−p )
+ 2
2 n n2
1
› (1 − 100% benaderend BI voor p1 − p :

α) < . 2 =
ı pˆ − pˆ ± z pˆ1 (1 − 1pˆ ) pˆ2 (1 − pˆ ı
+
ı 1 2 ) 2 n1
> α/2 n2
Voorbeeld: Stel een 95%BI op voor p − 1 p , met
2 p deı kans op laag
1
aantal handarbeiders in NO en p2 de kans op laag aantal z
handarbeiders in Z.
< ‚
11 8 10 6 =
11 ı , 19 19 16
− ± + =[−0.37,
ı 10 16 ı
ı 19 1.96 19 ı
16 z 0.28]
>16
Kunnen we zeggen dat de kans op laag aantal handarbeiders
verschillend is in beide regio’s?
Vergelijken van 2 proporties, hypothese testen

1. Formuleer H0 en H1 , kies α (meestal = 0.05)
tweezijdig: H0 ∶ p1 =p2 versus H1 ∶ p1 ≠ p2
› rechtséénzijdig: H 0∶ p ™1p versus H ∶ p 1>p 1
2 2
› linkséénzijdig: H 0∶ p “1 p versus H ∶ p 1<p 1
2 2
2. Kies teststatistiek Z :
(P̂ 1 − Pˆ 2)
Z =. Pˆ 1( 1−Pˆ1 ) ˆ ˆ
n1
+ P22 ( 1−P
n
)
2
onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot

2
of kies teststatistiek met een groter onderscheidingsvermogen
(Pˆ 1 − P
ˆ )
Z =. 2
Pˆ0( 1 − Pˆ0 )(+n11 ) n
1 2

Teststatistiek met een groter onderscheidingsvermogen.
Als H 0waar is (p =1p =p

2 ) , dan kan een betere schatter voor p 0
bekomen
0 worden door de gepoolde succeskans:
n1Pˆ1 + n 2P2ˆ
Pˆ0
= n1 + n2
Bijgevolg
(Pˆ 1− Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n1 + 1n )
1 2
Onder H0 geldt dat Z ≈ N(0, 1) als

n1p1 ≥5, n1(1 − p1) ≥5, n2p2 ≥5, n2(1 − p2) ≥5.

1. Formuleer H0(p1 =p2) en H1 , kies α (meestal = 0.05)
2. Kies teststatistiek Z :
(P̂ 1 − Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n11 + n )
1 2
onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot.

2
3. Bepaal de geobserveerde waarde van de teststatistiek: zobs
4. Bepaal ofwel
P-waarde
› Aanvaardingsgebie
d
5. Formuleer het besluit

Vergelijken van 2 proporties
Voorbeeld; vraag : is de populatieproportie van steden met een laag

aantal handarbeiders lager in het Noordoosten dan in het Zuiden van
de VS ?
testprobleem: H0 ∶ p1 =p2 versus H1 ∶ p1 <p2
› de teststatistiek levert de testwaarde
.
(pˆ1 − 2pˆ ) −1(p −2 p ) 11 21 14 1 1
z = 10
. = ( )/ ( + ) = 0.277
1
pˆ0 (1 − pˆ 1)( + ) 19 35 35−19
−
0 n1 n2 16 16
bijbehorende P-waarde P(Z ≤−0.277) = 0.39
› de P-waarde is groter dan α, dus kan H0 niet verworpen
op dit significantieniveau
worden
› we mogen dus niet besluiten dat de kans op een klein aantal
handarbeiders in het Noordoosten kleiner is dan in het Zuiden
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen
Twee kwalitatieve variabelen

Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen
H0 ∶ de toevalsvariabelen X en Y zijn onafhankelijk

H1 ∶ de toevalsvariabelen X en Y zijn afhankelijk
basisidee : vergelijken van de geobserveerde frequenties en de

verwachte aantallen onder onafhankelijkheid

Onafhankelijkheid van twee variabelen testen: voorbeeld
Voorbeeld: pollutie data, onafhankelijkheid tussen regio en inkomen?
Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van

absolute frequenties.
Inkomen
Regio2 1 2 3 4 Totaal
1 (NO & W; vnl kuststeden) 4 7 6 9 26
2 (andere; vnl binnenlandse steden) 12 8 7 7 34
Totaal 16 15 13 16 60
noem X = regio2, en Y = inkomen; stel nu

P (X = 1) ≈26
dat 60 P (X =2) 34 60
≈
P(Y =1) 60 P(Y =2) 15
16
60 P(Y =3) ≈
13
60
P(Y =4) 16
60
≈ ≈ ≈

Voorbeeld: pollutie data, onafhankelijkheid tussen regio en inkomen?
● indien X en Y onafhankelijk zouden zijn dan is

P(X =mx, Y =m ) =P ( X =mx) P ( Y = my ) ∀mxen m
y 26 16 26 y
en dus, bijvoorbeeld P(X =1, Y =1) = 60 60
≈ 225
26
het verwachte aantal in die cel van de tabel is dus 60 × 225
=6.933

verwachte absolute frequentie.
Inkomen
1 6.933 6.500 5.633 6.933 26
2 9.067 8.500 7.367 9.067 34
Totaal 16 15 13 16 60

basisidee : vergelijken van de geobserveerde frequenties en de
verwachte aantallen onder onafhankelijkheid
Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis

van
absolute frequentie.
Regio2 1 Inkomen
2 3 4 Totaal
1 4 7 6 9 26
2 12 8 7 7 34
Totaal 16 15 13 16 60

verwachte absolute frequenties.
Inkomen
1 6.933 6.500 5.633 6.933 26
2 9.067 8.500 7.367 9.067 34
Totaal 16 15 13 16 60

Onafhankelijkheid van twee variabelen testen: algemeen
Tabel: Algemene notatie voor een kruistabel van twee kwalitatieve variabelen
op basis van absolute frequenties.
Y
X … Totaal
my,1 my,2 my,3
…
mx,1 n n12 n13 n1k n1+
mx,2 my,k11 n22 n23 … 2 n2
⋮n 21 ⋮ ⋮ n ⋮ k ⋮ +⋮
⋮ … nr
mx,r nr 1 nr 2 nr 3 nrk
Totaal … +n
n+1 n+2 n+3
● de statistiek die de
n+kverschillen in geobserveerde absolute
frequenties en verwachte aantallen meet:
2
2 (geobserveerde absolute frequentie − verwachte
X =Σ waarde) verwachte waarde
met verwachte waarde = (rijtotaal ×
kolomtotaal)/n
Onafhankelijkheid van twee variabelen testen: algemeen

● de geobserveerde relatieve frequenties
+ n+j
fij = n ij fi i f+j =
nn =+ n
n
● de chi-kwadraat (X 2)-teststatistiek is dan gedefinieerd als
2 r k (nij− nf fi +) 2
X =Σ Σ nfi +f+j
i =1
j=1 +j
● onder de nulhypothese: X 2 heeft
benaderend een χ2-verdeling
met het aantal vrijheidsgraden gegeven door
ν =r k − aantal geschatte parameters − 1 =r k − (r − 1) − (k − 1)

=
−1 2
dus X 2 ≈
H 0 χv met v = (r − 1)(k − 1)
(r − 1)(k − 1)
Voorbeeld: pollutie data, onafhankelijkheid tussen regio2 en

inkomen?
● de waarde van de teststatistiek :
(4 − 6.933)2 (7 − 2
(7 − 2
χ2 + +... =
6.933 6.500) 9.067)
9.06
= + 3.39
6.500
● aantal vrijheidsgraden = (2 − 1)(4 − 1) =
7
●3benaderende P-waarde: P (X 2>3.39) >0.25 met X ∼2 χ 2 3
● de nulhypothese van onafhankelijkheid kan bijgevolg niet
verworpen worden op significantieniveau 0.05
● de verschillen die we merken tussen de kruistabellen zijn dus niet
significant

Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen
Een kwantitatieve en een kwalitatieve variabele

Het gemiddelde van een variabele vergelijken voor twee
groepen

Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen
Vergelijken van 2 normaal verdeelde groepen: voorbeeld

Voorbeeld: pollutie data;
› gemiddelde temperatuur in juli vergelijken in twee regio’s;
vraag 1: is de gemiddelde julitemperatuur in de Midwest regio
groter, kleiner, gelijk aan die in het Zuiden?
› de uitkomsten voor de regio’s zijn enkel MW en Z, en worden
gebruikt om de gegevens op te delen in twee groepen
› vraag 2: regent het gemiddeld meer in de Midwest dan in het
Zuiden ?
(a) (b)
80
85
Regen
JulT
30 40 50 60
70
75
MW Z MW Z
Regio Regio
Figuur: Boxplots van (a) ‘JulT’ en (b) ‘Regen’ in de Midwest en het Zuiden.
(a) 85
(b)
60
80
Regen
JulT
40
50
75
30
70
MW Z MW Z
Regio Regio
steekproefgemiddelde=rode ruit n1 =18 en n2 =16

Boxplots “JulT”: Boxplots “Regen”:
Midwest: y¯ 1 = 74.3 Midwest: y¯1 =33.61 inches
° F
Zuiden: y¯2 =79.6 F ° Zuiden: y¯2 =46.19 inches
Midwest: s12 = 11.65 F)2 Midwest: s 12=16.13 (inches) 2
2
2
(Zuiden: s2 = 13.18 F)
° Zuiden: s 22=91.36 (inches) 2
°(
is de kwalitatieve variabele in de twee groepen normaal

verdeeld? =⇒ normale kwantielplots; voor ‘JulT’
(a) (b)
● ● ● ●
84
●
80
●
● ●
78
●
●
● ●
JulT (MW)
76
JulT (Z)
● ●
74 76 78 80 82
● ● ● ● ●
● ●
74
●
●
● ●
72
● ● ● ●
● ●
70
72
● ●
−2 −1 0 1 2 −2 −1 0 1 2
Standaardnormale kwantielen Standaardnormale kwantielen
voor ‘MW’: rQ = voor ‘Z’: rQ =

0.964 0.975
normaliteitsaanname wordt niet verworpen

is de kwalitatieve variabele in de twee groepen normaal

verdeeld? =⇒ normale kwantielplots; voor ‘Regen’
(c) (d)
40
● ●
● ●
●
● ● ●
●
35
● ● ●
Regen (MW)
30 35 40 45 50 55 60 65
Regen (Z)
●
●
●
●
●
●
● ● ● ●
●
30
● ● ● ●
●
●
●
25
● ●
−2 −1 0 1 2 −2 −1 0 1 2
voor ‘MW’: rQ = voor ‘Z’:rQ =

0.985 0.988
normaliteitsaanname wordt niet verworpen

Vergelijken van 2 normaal verdeelde groepen: ongepaarde

metingen
2
Y1,1 , Y1,2, . . . , Y1,n1 ∼ N(µ 1, σ 1) als X =1
2
Y2,1, Y2,2, . . . , Y2,n2 ∼ N( µ2, σ2 ) als X =2
Y1,1 , Y1,2, . . . , Y1,n1 en Y2,1 , Y2,2, . . . , Y2,n2

onafhankelijk
● n1 observaties uit groep 1
● n2 observaties uit groep 2
● niet zinvol om een meting uit groep 1 te koppelen aan een
specifieke meting uit groep 2, aangezien de metingen
onafhankelijk zijn van elkaar
● we spreken van ongepaarde metingen (of waarnemingen)
Vergelijken van gemiddeldes van 2 normaal verdeelde

groepen
2
Y1,1, Y1,2, . . . , Y1,n1 ∼ N(µ1 , 1 als X =1
σ)
Y2,1 , Y2,2 , . . . , Y2,n2 ∼ µ2, σ22) als X =2
N(
Y1,1 , Y1,2 , . . . , Y1,n1 en Y2,1 , Y2,2, . . . , Y2,n2 o n a f h a n k e l i j k
hypotheses van de vorm:

H0 ∶ µ1 = µ2 (H0 ∶ µ1 − µ2 = H0 ∶ µ1 ™ µ2 H0 ∶ µ1 “ µ2
0) H1 ∶ µ1 > µ2 H 1 ∶ µ1 < µ 2
H1 ∶ µ1 ≠ µ2 (H1 ∶ µ1 − µ2 ≠
0) ● we gebruiken Y¯1and Y om
2 respectievelijk µ en1µ te schatten:
¯ 2
¯ 1 n1 1 n2
Y1 Σ Y 1,i en Y¯2 Σ Y 2,i
= n1 i =1= n
2i
=1
●
we gebruiken Y¯1−Y¯2om µ1 −µ2 te schatten

groepen
●
E (Y¯1− Y¯2) =E (Y¯1) − E (Y¯2) =µ1 −
µ2 Y¯1− Y is
=⇒ 2 een onvertekende schatter voor µ − 1µ
¯2onafhankelijkheid tussen de twee groepen:
● wegens
Var(Y¯1 − Y¯ ) = Var(Y ¯1 ) + Var(Y ) = σ21 σ2

2n n2
¯2 + 2 1
¯
● de toevalsvariabele Y 1 − Y is een lineaire combinatie van
onafhankelijke normaal ¯2 verdeelde variabelen, en is dus ook
normaal verdeeld
● we bekomen ¯1Y − Y ∼ N µ1 − µ ,σ21 σ 2)
2n1 n2
( ¯2 +2
Y¯1 − Y 2 − (µ 1− µ )
of ook ¯ . 2 ∼ N(0,
σ21 + σ2 1)
n12 n
2

groepen
Y¯1 − Y 2 − (µ 1− µ 2)
● ¯ . ∼ N(0,
2
σ + σ
1 2 1)
n12 n
● onder H 0∶ µ1 − µ2 =0 geldt
2
Y¯1 −
Z = . Y¯2
∼H0 N(0,
σ21 + σ2 1)
n2 1 n2
● we moeten volgende situaties onderscheiden:
2
●● de populatievarianties σ en
1 σ zijn gekend : gebruik de
2
teststatistiek Z 2
2 2
1 σ zijn gelijk maar niet gekend:
σ122=σ =22 σ 2
; σ niet gekend2; we spreken van
homoscedasticiteit
2
1 σ kunnen niet gelijk verondersteld
2
worden, en zijn niet gekend;
2 we spreken van heteroscedasticiteit

Vergelijken van gemiddeldes : gelijke varianties

● σ122=σ =2 σ ; σ2 niet gekend hoe kunnen we σ2 schatten?
● steekproefvarianties
2 van de afzonderlijke groepen:
1 n1 ¯ 2 en S2 1 n2
S 12 1,i Y − Y¯2 )2
( 2,i
n1− 1 Σ (Y −Y ) 2 n2− 1 Σ
= i 1 = i
=12 2 2 2 =1
we weten E (S 12) =σ =σ en E (S )22 =σ =σ
● m a a r , schat σ12best met de gepoolde
2 variantie S : p
2
› beschouw een gewogen gemiddelde van S en2 2
1 S , rekening
houdend met de grootte van de twee steekproeven =⇒ de
2
gepoolde variantie S 2p gegeven door
∑ 1 (Y 1,i − ¯ ) 2+ ∑ i n2 (Y 2,i − Y )2
2 2 n
(n1− 1)S +
1 ( n2− 1)S 2
S 2p
= = i=1 Y ¯1
n1+ n − 2 n1+ n − 2=1 2
2 2
› is dit een onvertekende schatter voor σ ? 2
n1− 1 n −1
E (Sp2 ) E (S12) 2 E (S222 ) = ja!
= n 1 +n2 −2
+ n 1 +n2 −2
σ
› schatter voor σ2: de gepoolde variantie

(n1− 1)S +2
12 ( n 2 − 1)S
n1
(Y 1,i − ¯1 ) 2 + ni (Y 2,i − ¯2 )2
S 2p
= 2
= ∑ i=1Y 2 ∑
n1+ n −2 2 n 1+ n − 2=1 Y
2
› S 2is gebaseerd op n + n gegevens (meer gegevens)
p 1 2
› men kan aantonen: S heeft
p
2
een kleinere variantie dan S en12dan
S2
Y¯1 − Y 2 − (µ 1− µ 2)
●
¯ . ∼ N(0,
2
σ + σ
1 2 1)
n21 n
benader
.
2
de standaardfout van Y¯1− Y , namelijk
. ¯2. 1
σ21 + σ22 = 1
n1 n2 n11 + n , met S p n11 + n
σ 2 2

● men kan aantonen dat
p2
(n1 + n − 2)S ∼ 2
n1+n2−2
χ 2 σ2
● er volgt dan
(Y¯1 − Y ) − µ1− µ )
T ¯2 ( √ 2 ∼ n1+n2−2
= S p /n1+ 1/n2 t
1
● 100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 ?

● en hoe dan verder voor hypothesetesten ?

100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 ?
ƒ (Y¯1− Y ) − ( µ1− µ ) ⎞
1 − α = P −t
n +n −2,α/2 ¯2 √ 2 ™ n1+n2 −2,α/2
™ ⎞ 12 Sp 1/n 1 + / 2 t J
1 √ n
1/n1 + 1/n2™ µ −1 µ ™
=P ((Y¯1 −Y¯2) − tn1+n2−2,α/2Sp
√ 2
¯ ¯
(Y −Y ) + t S 1/n 1 + 1/n2)
1 2 n1+n2−2,α/2 p
een 100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 is dus :

< . =
1
ı y¯ − y¯ ± t p + ı
ı 1 2 n1+n2−2,α/2 1
n ı
s 1 2 z
n
>

voor het uitvoeren van hypothesetesten
gebruik dat onder H0 ∶ µ1 − µ2 =0
(Y¯1− Y )
¯ ∼H0 n1+n2−2
T = .2
S p n11 + n t
1 2
we spreken van een t-test (voor 2 groepen)

verder zoals bij de univariate t-testen
H0 ∶ µ1 = µ2 Teststatistiek P-
¯ ¯ waarde
T √Y 1− Y ∼H0n t+n1 −2
2
2
1/n +1/n
= Sp /
2
1
(n 1−1)S 2+ ( n2−1)S 2
met S =
2
1 2 n −2
als σ 12=σ 22
H1 ∶ µ1 ≠ µ2 2P(T > |
H1 ∶ µ1 >µ2 t|)P(T >
H1 ∶ µ1 <µ2 t) <
P(T
t)
Vergelijken van gemiddeldes : ongelijke varianties

› wat als de populatievarianties niet gekend zijn, en niet
gelijk zijn?
› wat is dan de verdeling van een gepaste gestandaardiseerde versie
van Y¯1− Y¯2 ?
›
een optimale meest efficiënte procedure is niet gekend:
Behrens Fisher probleem
Y¯ − Y
› T =. ¯12 ≈ r
H0
S12 + S t
22
n1 n2
2 2 2
( S+1 2)S
› met r n1 n2
2 2
(S 2ƒ n1 ) ( S2ƒ n2)
1 + 2n −1
= n1− 1
2
100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ ?

2
› en hoe dan verder voor hypothesetesten ?
Vergelijken van gemiddeldes : ongelijke varianties
› een gerealiseerd 100(1 − α)% benaderend

betrouwbaarheidsinterval voor µ1 − µ2 is dan:
< ‚ =
s2
ıı y¯
1 − y¯2 ı, s 2 1+ ı
tr,α/2 ı
ı± 2 n1 2 ı
n z
› voor hypothesetesten:
> zie de tabel
H0 ∶ µ1 = µ2 Teststatistiek P-
Y¯1−¯2Y waarde
T . ≈
S12 S
H0 r
22
= +
n1 n 2
t
als σ 12≠σ 22
H1 ∶ µ1 ≠ µ2 2P(T > |
H1 ∶ µ1 >µ2 t|)P(T >
H1 ∶ µ1 <µ2 t) <
P(T
t)
Vergelijken van gemiddeldes : voorbeeld

verschilt de gemiddelde julitemperatuur in de Midwest regio van
die van de Zuidelijke regio?
● test: H0 ∶ µ1 − µ2 = 0 versus H1 ∶ µ1 − µ2 =/ 0
● we testen op het significantieniveau 0.05
● we gingen al na dat er aan de normaliteitsvoorwaarden voldaan is
● zijn de populatievarianties voor beide groepen van steden gelijk ?
(de gelijkheid van de varianties kan niet verworpen worden: zie
later)
2
● we stellen dus dat σ =
1
2
σ , en voeren een t-test uit
2
● de gerealiseerde waarde van de T -statistiek:
y¯
1 − 2y¯ 74.33 − 79.62
. =
t= . 1 =. 2 2
17×3.41 15×3.63 1 1
sp n11 n2 + 32 18 + −4.38
+ 16

● P-waarde = 2P(T >| − 4.38|) =2P(T >4.38) met T ∼ t32

de P-waarde ≈ 0 =⇒
we kunnen de nulhypothese verwerpen op significantieniveau 0.05
● besluit: de gemiddelde julitemperatuur in de Midwest en in het

Zuiden zijn verschillend

is de gemiddelde hoeveelheid neerslag in het Zuiden groter dan

in de Midwest?
● test: H0 ∶ µ1 − µ2 ≥ 0 versus H1 ∶ µ1 − µ2 < 0
● we testen op het significantieniveau 0.05
● we gingen al na dat er aan de normaliteitsvoorwaarden voldaan is
● zijn de populatievarianties voor beide groepen van steden gelijk ?
(de gelijkheid van de varianties kan verworpen worden: zie later)
● de stellen dus dat de twee varianties ongelijk zijn
● de gerealiseerde waarde van de test statistiek:

y¯
1− 2 33.61 −
4.8
t =. y¯. = 46.19
16.13 =−
2 s1 + s2
18 + 91.36 9
n1
2 n2
16

● P-waarde voor de t-test ?; gebaseerd op een t-verdeling met

r =19.652, of afgerond 20 vrijheidsgraden
benaderende P-waarde: P (T <−4.89) met T ∼ t20
de gevonden benaderende P-waarde is ongeveer 0
● de nulhypothese van gelijke gemiddeldes kan in dit geval

verworpen worden
● we besluiten dat de gemiddelde hoeveelheid neerslag groter is in
het Zuiden dan in de Midwest

Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen

De variantie van een variabele vergelijken voor twee
groepen

Vergelijken van varianties van twee groepen
› hoe weten we of σ 12≠σ ?

2
2
2
› test: H 0 ∶ σ12 = σ H 1∶ σ 122=/ σ
versus2 2
› of ook H0 ∶ σ21 =1 versus H 1∶ σ21 ≠1
σ22 σ22
› F -test; teststatistiek: F =S 12/ S
2
2
› verdeling onder H 0(en normaliteit !): F ∼ F n1−1,n2−1
(n1− 1)S 12
› ∼ χn1−1
2
σ21
(n2− 1 )S 22
› ∼ χn2−1
2
σ2
› als S 12en S onafhankelijk
2
2

› hoe weten we of σ 12≠σ ?

2
2
2
› test: H 0 ∶ σ12 = σ H 1∶ σ 122=/ σ
versus2 2
› of ook H0 ∶ σ21 =1 versus H 1∶ σ21 ≠1
σ2 σ2
› F -test; teststatistiek: F =S 12/ S
2
2
› verdeling onder H 0(en normaliteit !): F ∼ F n1−1,n2−1
› testwaarde f s12
s22
=

Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen
de F -verdelingen zijn rechtsscheve verdelingen
1.5
f20,30 f50,50
1.0
Dichtheid
f2,3
f4,4
f10,5
0.5
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5


s1 2
› teststatistiek F =S 12/S testwaarde f
2 s22
2 =
2P ( >f ) als f > QFn 1−1,n −1 0.5
(2 )
Fn −1,n −1
› P-waarde= { 2P (Fn1 −1,n2−1 < ™ Fn1−1,n −1 (0.5
1
2
Q 2 )
(a) (b)
F ∼ Fn1 −1,n2 −1 F ∼ Fn1 −1,n2 −1
P (F < f )
P (F > f )
0 f 0f
Figuur: Overschrijdingskans voor de F -test wanneer (a) f >QFn1 −1,n2 −1 (0.5)

en (b) f <QFn1 −1,n2 −1 (0.5).

ook éénzijdig testen kan

› zie tabel voor overzicht
Tabel: Teststatistiek en P-waarden bij de verschillende hypothesetesten

omtrent het verschil in varianties van twee normaal verdeelde variabelen.
H0 ∶ σ =12σ 2
2 Teststatistiek P-
F =S 122/ S waarde
∼H0 F n1−1,n −1
2
2
H1 ∶ σ ≠12σ 2
2 2P(F > f ) als f > F (0.5
n1 −1,n2 −1
Q ) (
n1− 1,n 2−1
H1 ∶ σ >12σ 2
2 2P(F < f ) als f < F P(F >f )
H1 ∶ σ <12σ 2
2 Q P(F <f )

Vergelijken van varianties van twee groepen: voorbeeld

Boxplots “JulT”; steekproefgemiddelde=rode ruit
85
Midwest: s 12=11.65
80
JulT
75
Zuiden: s 22=13.18
70
MW Z
Regio
2
› we testen H 0∶ σ = 1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =11.65/13.18 =
0.88
› P-waarde (berekend met software) is gelijk aan
2P(F <0.88) =0.79 indien F ∼ F 17,15
› P-waarde groter dan de gangbare significantieniveaus =⇒ geen
aanleiding tot het verwerpen van de gelijkheid van de
populatievarianties
Vergelijken van varianties van twee groepen: voorbeeld

Boxplots “Regen”; steekproefgemiddelde=rode ruit
Midwest: s 12=16.13
Regen
30 40 50 60
Zuiden: s 22=91.36
MW Z
Regio
2
› we testen H 0∶ σ =1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =16.13/91.36 =
› P-waarde
0.18 (berekend met software) is gelijk aan
2P(F <0.18) =0.001 indien F ∼ F 17,15
› P-waarde kleiner dan α voor α ≥
0.001
=⇒ populatievariantie van de variabele ‘Regen’ verschillend in
beide groepen (Midwest en Zuiden)
Testen omtrent gemiddeldes van twee groepen:

samenvattend
werkwijze:
nagaan dat de gegevens ongepaard zijn
› normaliteit nagaan (kwantielplot, Shapiro-Wilk test) voor beide
groepen apart
› indien σ 12en σ gekend
2 zijn, z -test gebruiken
2
› indien σ 12en σ ongekend
2
zijn, F -test of de varianties gelijk zijn
of niet (met
2 tabel of software)
› als H 0niet verworpen wordt, dan t-test met gepoolde variantie
uitvoeren
› als H 0verworpen wordt, dan t-test met ongelijke varianties
uitvoeren
› P-waarde berekenen en besluit nemen
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

De verdeling van een variabele vergelijken voor twee
groepen

Vergelijken van 2 ongepaarde groepen:

niet-parametrisch
› wanneer Y 1en/of Y niet normaal verdeeld is, en ook geen

transformatie
2 kan gevonden worden die leidt tot normaliteit,
moet men overgaan op een niet-parametrische methode
› in dat geval zijn µ 1=E (Y )1 en µ =2E ( Y ) niet noodzakelijk
geschikte maten om 2 het centrum te vergelijken van de twee
variabele
n
›
zoals bij de Spearman correlatiecoëfficiënt, maakt de Wilcoxon rang-som
test gebruik van rangen

Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen
Vergelijken van verdelingen: niet-parametrisch
Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee

regio’s: de Midwest regio en het Zuiden
nagaan van de normaliteit van de variabele voor de twee regio’s:
(a) Midwest (b) Zuiden

● ●
●
60
●
50
30
●
40
NOx Pot  MW 
NO x Pot Z
●
20
●
●
20 30
●
● ●
●
●
10
● ●
● ● ● ●
●
10
● ●
● ● ●
●
● ● ●
● ● ● ● ●
0
0
−2 −1 0 1 2 −2 −1 0 1 2


regio’s: de Midwest regio en het Zuiden
› P-waarden Shapiro-Wilk test voor normaliteit: 0.0005 voor ‘MW’
en 0.03 voor ‘Z’
variabele ‘NOx Pot’ is niet normaal verdeeld, voor de beide
› regio’s
niet zinvol om gemiddeldes te vergelijken
› we werken met de rangen
● voeg de gegevens voor de variabele ‘NO Pot’
x van de twee groepen
samen
●sorteer de gegevens
geef rangen aan devan klein naar groot
gegevens
●
rekening houden met samenvallende waarden (knopen, ties); we
geven al deze observaties eenzelfde rang, namelijk de gemiddelde
waarde van de rangen

Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee regio’s
Stad Regio NOx Pot Rang Stad Regio NOx Pot Rang
Dallas Z 1 2.0 Minneapolis MW 11 18.5
Fort Worth Z 1 2.0 Wilmington Z 11 18.5
Miami Hialeah Z 1 2.0 Youngstown MW 13 20.0
Wichita MW 2 4.0 Nashville Z 14 21.0
GrandRapids MW 3 5.5 Akron MW 15 22.5
Greensboro Z 3 5.5 St Louis MW 15 22.5
Dayton MW 4 8.0 New Orleans Z 17 24.0
Flint MW 4 8.0 Memphis Z 18 25.0
KansasCity MW 4 8.0 Cleveland MW 21 26.0
Houston Z 5 10.0 Milwaukee MW 23 27.0
Canton MW 7 12.0 Cincinnati MW 26 28.0
Indianapolis MW 7 12.0 WashingtonDC Z 28 29.0
Toledo MW 7 12.0 Birmingham Z 32 30.0
Atlanta Z 8 14.5 Detroit MW 35 31.0
Chattanooga Z 8 14.5 Louisville Z 37 32.0
Columbus MW 9 16.5 Baltimore Z 38 33.0
Richmond Z 9 16.5 Chicago MW 63 34.0

Voorbeeld: pollutie data; variabele ‘Regen’ vergelijken voor twee regio’s
Stad Regio Regen Rang Stad Regio Regen Rang
Minneapolis MW 25 1.0 Columbus MW 37 18.0
Wichita MW 28 2.0 Youngstown MW 38 19.0
Flint MW 30 4.0 Indianapolis MW 39 20.0
Milwaukee MW 30 4.0 Cincinnati MW 40 21.0
Louisville Z 30 4.0 Greensboro Z 42 22.5
Detroit MW 31 7.5 WashingtonDC Z 42 22.5
GrandRapids MW 31 7.5 Baltimore Z 43 24.0
Toledo MW 31 7.5 Richmond Z 44 25.0
Fort Worth Z 31 7.5 Nashville Z 45 26.0
Chicago MW 33 10.0 Houston Z 46 27.0
St Louis MW 34 11.0 Atlanta Z 47 28.0
Cleveland MW 35 13.0 Memphis Z 50 29.0
KansasCity MW 35 13.0 Chattanooga Z 52 30.0
Dallas Z 35 13.0 Birmingham Z 53 31.0
Akron MW 36 16.0 New Orleans Z 54 32.0
Canton MW 36 16.0 Miami Hialeah Z 60 33.0
Dayton MW 36 16.0 Wilmington Z 65 34.0


Voorbeeld: pollutie data; variabele ‘NOx Pot’; en de variable ‘Regen’
vergelijken voor twee regio’s
empirische verdelingsfuncties
(a) ‘NOx Pot’ (b) ‘Regen’
1.0
1.0
0.8
0.8
0.6
0.4 0.6
F^nx
F^ n
0.4x
MW MW
0.2
0.2
Z Z
0.0
0.0
0 10 20 30 40 50 60 20 30 40 50 60 70
NOxPot Regen


› de Wilcoxon test is ontwikkeld om verschillen te ontdekken
waarbij de ene verdelingsfunctie systematisch boven of onder de
andere ligt
› krijgt globaal bekeken het Zuiden een grotere hoeveelheid
regen te verwerken dan de MidWest ?
› noem Y 1= regen in de Midwest
Y2 = regen in het Zuiden
zij F1 de cumulatieve verdelingsfunctie van Y1
F2 de cumulatieve verdelingsfunctie van Y 2
› testprobleem
H0 ∶ F1(x ) = F2(x ) voor alle x ∈
IR H1 ∶ F1(x ) > F2(x ) voor alle x ∈
IR
› F 1(x ) =P { Y 1≤x } >P { Y 2≤x } =F (x )
2 noemen Y stochastisch kleiner dan Y
we 1 2
andere testproblemen
›
H1 ∶
IR F1(x ) > F2(x ) voor alle x ∈
› IR
H
IR1 ∶ F 1(x ) < F (x ) voor alle x ∈
IR2
onder H1 : we noemen Y 1 stochastisch groter dan Y2
› tweezijdige test:
H0 ∶ F (x )voor
= F2alle
(x )x ∈IR,
voor
of
H1 ∶ F1(x ) < F2(x1
alle x ∈ IR voor alle x ∈
) F1(x ) >
F2(x ) IR

F1 een lognormale verdeling en Y 2 =Y1 + c
F2(y ) = P{Y 2 ≤ y } = P{Y 1 + c ≤ y } = P{Y 1 ≤ y − c} = F1(y

− c)
f2(y ) =f1(y − c)
(a) (b)
1 0.4 f1
F1
0.5 F2 0.2 f2
0 0
c c


F1 ∼ Exp(λ1) en F2 ∼ Exp(λ2) met λ 1 >λ2
dan is F1 (x ) = 1 −−λ e 12x > 1 − −λ

e x =F (x
2 )
F2 is niet louter een verschuiving van F1
(c) (d)
1 2
F1
F2
0.5 1
f1
f2
0 0

de Wilcoxon test is niet geschikt om volgende verschillen te detecteren

Y 1∼ N(µ , σ 1)22 en Y ∼ 2
2 N( µ 2, σ2 ) , met µ 1=µ en σ « 1
2
σ
1 2 2
(e) (f)
1 0.8
F1
F2 f1
0.5 0.4
f2
0 0

Vergelijken van verdelingen: de Wilcoxon teststatistiek

› hoe rangen vergelijken?
voorbeeld 1 voorbeeld 2
groep 1: -4, -3, -2, 0 groep 1: -3, -1, 1, 4
groep 2: -1, 1, 2, 3 groep 2: -2, 0, 2, 3
. . e . e e e . e e .
. 0 1 2 . e 0 1 2 3 4
-4 -3 e› -2 -3 -2 -
−1 3
teststatistiek W =som van de rangen
.
voor groep 1
› voorbeeld 1: w =1 + 2 + 3 + 5 =111
› voorbeeld 2: w =1 + 3 + 5 + 8 =
17 ) de rang van Y in de volledige dataset
› zij R(Y 1, i 1,i
› de Wilcoxon rangsom W gelijk aan de som van de rangen van
n1
de gegevens in groep 1, namelijk W =Σ R ( Y ) 1,i

i=
1

n1
W =Σ R ( Y1,i)
i =1
●
als de gegevens van beide groepen door elkaar liggen,
na
ordening, dan zal W ongeveer gelijk zijn aan n ×1 de gemiddelde
rang
● wat is die gemiddelde
rang?
1 n1+n2
1 (n1 +n 2)(n 1+ n 2 + 1) n1 + n 2+ 1
=
Σ
n1+ n i 1 i n1+ n 2 2
=
2 2
● onder H 0∶ F (= x ) =F2 (x ) voor alle x ∈IR, verwachten we dus dat
1
n1+ n + 1
E (W ) = 1 2
n 2
● de exacte verdeling onder H 0is gekend als er geen knopen
aanwezig zijn in de gegevens
● exacte P-waarden berekenen met software, volgens volgende tabel
Tabel: Teststatistiek en exacte P-waarden bij hypothesetesten omtrent het

vergelijken van twee verdelingen.
H0 ∶ F 1 = F2 Teststatistiek Exacte P-waarde
n1
R(Y )
1,i
W =∑ i
H1 ∶ F1 <F2 of F1 >F2 =1 2P(W >w ) als w n1(n1 2+n2 +1)
2P(W <w ) als w n1(n1 n+22 + 1)
>
H1 ∶ F1 <F2 < P(W >
H 1∶ F >1F P(W
w) <
2 w)
verwerp de nulhypothese als P-waarde kleiner is dan α
● benaderende verdeling gekend als geen (of weinig) knopen en n ,1
n2 voldoende groot:
n1(n 1 2+n +1)
W 2
.
− ≈H0N(0, 1)
n1n2 (1 2n +n +1)
12


● benaderende verdeling onder H0
●meestal doet men ook nog een continu¨ıteitscorrectie
› zie tabel hieronder
Tabel: Teststatistiek en benaderende P-waarden bij hypothesetesten omtrent

het vergelijken van twee verdelingen.
H 0 ∶ F 1 = F2 Teststatistiek Benaderende P-
waarde n1
W = ∑i
R(Y 1,i)
=1 |w −n (n +n +1)/2|
H1 ∶ F1 <F2 of F1 >F2 2 − 2Φ −0.5
, 11 2 )
n1n2 (1 2n +n +1)/12
( w n1(n 1 2+n +1)/2
H1 ∶ F1 < F2 1 − Φ −0.5−
, )
n1n2(n1+n2+1)/12
(
H1 ∶ F1 > F2 Φ w ,
+0.5−n
+1)/2
1 1(n
2 +n
)
n1n2(n1+n2+1)/12
(

regio’s
is de verdeling van ‘NOx Pot’ verschillend in de Midwest en in
het Zuiden ?
› in geval van gelijke verdeling verwachten we een waarde van W
(=de som van de rangen van de regio Midwest) een waarde die
dicht ligt bij n181 (1n2 +n +1) (18+16+1)
=
› =
testwaarde is: w = 315.5
2
315
d
2
√ it ligt dicht bij het verwachte
√ gemiddelde hierboven ....
› n1 n2 (n1 + n + 1)/12 = 840 =
› we28.98
vinden
2 een P-waarde voor de tweezijdige hypothesetest die
gelijk is aan
315.5 − 315 −
2P(W >w ) ≈ 2P (Z ) = Z >0) =
0.5
> 2P( 1
28.98
› er is geen reden om te twijfelen aan de nulhypothese

Voorbeeld: pollutie data; variabele ‘Regen’ vergelijken voor twee
regio’s
krijgt globaal bekeken het Zuiden (Y 2 ) een grotere hoeveelheid
regen te verwerken dan de MidWest (Y 1 )?
éénzijdige hypothesetest: H0 ∶ F1 = F2 versus H1 ∶ F1 >
› F2
› verwachte
testwaardewaarde
is: w =van W onder H0 : zoals voorheen (315)
206.5
dit
√ ligt duidelijk lager dan√het verwachte gemiddelde hierboven ....
› n1n 2(n +
1 n + 1 )/12 = 840 =
› we vinden
2 volgende28.98
P-waarde voor de éénzijdige hypothesetest
206.5 + 0.5 −
P(W <w ) ≈ P (Z ) =P(Z <−3.75) ≈
315
< 0
28.98 stochastisch lager in de
› de hoeveelheid regen is dus significant
Midwest dan in het Zuiden
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen
Twee kwantitatieve variabelen

Het verschil van twee variabelen vergelijken

Twee kwantitatieve variab el en Het verschil van twee variabelen vergelijken
› beschouw één populatie; en zij X en Y twee kwantitatieve

variabelen die gemeten worden in diezelfde populatie
› voorbeeld: julitemperaturen en januaritemperaturen in
Amerikaanse steden (per stad dus die 2 opmetingen)
› we hebben dus een X -meting en een Y -meting van eenzelfde
onderzoekseenheid
we spreken van gepaarde metingen
› in het algemeen zullen gepaarde metingen afhankelijk zijn
› gebaseerd op een steekproef (X 1, Y 1) , . . . , (X
n , nY ) uit (X, Y
),
willen we een uitspraak doen over de verschilvariabele
V =X −
Y
› vraagstelling is dus rond V , één toevalsvariabele

variabelen
vraagstelling rond V =X − Y
› onderscheid maken tussen:
V is normaal verdeeld
● V is niet normaal verdeeld
› opgelet, aangezien X en Y afhankelijk zijn, volstaat het niet dat

X en Y normaal verdeeld zijn, om V =X − Y ook normaal
verdeeld te hebben

Verschil variabele is normaal verdeeld

V normaal verdeeld: V ∼ N(µ ,vσ )v2
● testprobleem
H0 ∶
µv = 0
● onder H 0, is E (V ) =µ =H 01 ∶
● teststatistiek
v (gebaseerd op de metingen X i − Yi , i =1, . . . ,
µv ≠ 0 n)
V¯ 1 n
T testen
éénzijdige = waarbij Sv2
√ook mogelijk ( V i −V¯ )2
S v/ n= n− Σ i
1 =1
● verwerp H0 voor de tweezijdige test, op significantieniveau α,
indien de P-waarde 2P(T > |t|) <α, met T ∼ tn−
● 100(1 − α)%-betrouwbaarheidsinterval voor µv = 1 E ( X ) − E (Y )
sv sv is
[v¯ − n−1,α/
t √ , v¯ + t n−1,α/ √ ]
2 n 2 n
variabelen
› als V niet normaal verdeeld is, is het meestal niet erg zinvol om
een transformatie g (V ) te zoeken die tot normaliteit leidt
› immers, een besluit omtrent het gemiddelde van g (V ) is in het
algemeen niet om te vormen tot een besluit omtrent het verschil
tussen de gemiddelden van X en Y (of tussen een zekere
transformatie van X en Y )
› het is daarom nuttiger eenzelfde transformatie g te zoeken voor

X en voor Y zodat
V = g (X ) − g
(Y )
normaal verdeeld is

variabelen
Verschil variabele is niet normaal verdeeld: mediaan test
› indien V niet normaal verdeeld is, en er ook geen geschikte

transformatie voor X en Y kan gevonden worden, dient men over
te gaan op een niet-parametrische test
› we beschouwen weer V =X − Y en voeren dan een mediaantest
uit


Voorbeeld: pollutie data; verschil tussen juli temperatuur en januari
temperatuur in Amerikaanse steden
X = ‘JulT’ Y = ‘JanT’ V =X − Y
› H 0∶ Med(V ) ≤0 versus H ∶ Med( V ) >
› V 1normaal verdeeld ? 0
●
● ●
●●● ● ● ●
●●●
●●● ●
●● ●
●
V=JulT−JanT
●
●●●
●●● ●
●
●●●
●●●● ●
●●●
●
●
●●
●●
●●
20 30 40 50 60
●
●
●
●
●●
●
● ● ● ●
−2 −1 0 1 2
Standaardnormale kwantielen
Figuur: Normale kwantielplot voor de verschilvariabele V =‘JulT’ − ‘JanT’.
› r = 0.905;
Q P-waarde Shapiro-Wilk test < α =⇒ niet normaal verdeeld
variabelen

Voorbeeld: pollutie data; verschil tussen juli temperatuur en januari
temperatuur in Amerikaanse steden
› éénzijdige testhypothese
H 0∶ Med(V ) ≤0 versus H ∶ Med( V ) >
› mediaantest:
1 0
●A gerealiseerde
= aantal observaties vanAV(op
waarde van groter dan
basis van0 de steekproef): a =60
●
voor elke van de 60 steden is de julitemperatuur immers hoger dan
de januaritemperatuur
● we kunnen H0 dus verwerpen, zodat we besluiten dat de mediaan
van ‘JulT − JanT’ significant groter is dan 0
● zinvoller zou zijn bijvoorbeeld de toevalsvariabelen
X en Y + 40
te beschouwen
Tw e e k w a n t i t a t i e v e Bivariate normaliteit nagaan
variabelen

Bivariate normaliteit nagaan
beknopte behandeling

variabelen
Onafhankelijkheid bij kwantitatieve X en Y : bivariate

normaliteit nagaan
› een noodzakelijke voorwaarde voor bivariate normaliteit van

(X , Y ) is de normaliteit van X en Y
› normaliteit van de marginale verdelingen kunnen we nagaan
(kwantielplot, Shapiro-Wilk test)
› omdat we bivariate normaliteit (nog) niet kunnen testen, is het

steeds aangewezen een scatterplot van de gegevens te maken
› indien (X, Y ) bivariaat normaal verdeeld zijn, zou je op de
scatterplot een elliptische puntenwolk moeten herkennen
ook mogelijke uitschieters kunnen hierop gevonden worden
› het is immers mogelijk dat X en Y afzonderlijk normaal verdeeld
zijn en ongecorreleerd zijn (zie test voor correlatie hierna), maar
toch niet bivariaat normaal verdeeld zijn

variabelen
Onafhankelijkheid bij kwantitatieve X en Y : bivariate

normaliteit nagaan
elliptische puntenwolk geen elliptische puntenwolk

Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

De correlatie tussen twee variabelen testen

variabelen
De correlatie tussen twee kwantitatieve variabelen testen
› twee kwantitatieve toevalsvariabelen X en Y
› X en Y zijn onafhankelijk
⇐⇒
› Cov (X, Y ) = E ((X − E (X ))(Y − E (Y ))) = E (XY ) − E

(X )E (Y )
› ρ(X, Y ) √ Cov (X,Y )
= Var(X )Var(Y )
als X en Y onafhankelijk zijn, dan is Cov (X, Y ) =0 = X ,
ρ( onderscheiden twee situaties:
› we Y)
▷ de variabelen (X, Y ) zijn bivariaat normaal verdeeld
▷ de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld

Twee kwantitatieve variab el en De correlatie tussen twee variabelen testen

de variabelen (X, Y ) zijn bivariaat normaal verdeeld
H0 ∶ ρ=
het testprobleem
0
H1 ∶ ρ≠
is dan equivalent met0
H0 ∶ X en Y
zijn
H1 ∶ onafhankelijk X en Y zijn lineair afhankelijk
● steekproef: (X 1 , Y 1 ), . . . , (X n , Y n )
●teststatistiek is gebaseerd op de steekproefcorrelatiecoëfficient

n
X i − X¯ )(Yi −
Σ (
i Y) ¯ r =gerealiseerde waarde van R
R =‚ n=1 n
ı, ¯ 2 ¯ 2
Σ
i
( X i − X )(−
Σ
i=
Yi Y
=1
I. Gijbels & D. Vanpaemel (KU )
1
Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 80 / 85
variabelen
› testprobleem H0 ∶ ρ =0 versus H1 ∶ ρ ≠0
√
› teststatistiek: T = R
√ n− 2
1− 2
R
› T ∼ tn−2 onder H als bivariate normaliteit voldaan is
0 √
› testwaarde t r√n− 2
met r de gerealiseerde waarde van de
1− 2
= r
empirische Pearson correlatiecoëfficiënt
› verwerp H0 als t ‘te ver’ afligt van 0
› P-waarde = 2P(T “ |t|)

variabelen
Voorbeeld: pollutie data; zijn de variabelen Mortaliteit’ en

‘log(NOx Pot)’ afhankelijk?
› als er 5 uitschieters uit de dataset worden verwijderd, dan kan de

verdeling van (X, Y ) goed benaderd worden door een bivariaat
normale verdeling ...
› r =0.64√
› t r n− 2 =
√ 1−r 2
= 6.08
P-waarde = 2P(T >6.08) ≈ 0 met T ∼ t53
› verwerp H 0op significantieniveau α =0.05
› we verwerpen ρ =0 en besluiten dat Mortaliteit’ en
‘log(NOx Pot)’ (lineair) afhankelijk zijn


de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld
›
test met behulp van de Spearman correlatiecoëfficiënt
H 0∶ ρ =
s 0 versus H ∶ ρ 1 ≠0
s
met ρs de populatie versie van de Spearman correlatiecoëfficiënt
noem F en G de verdelingsfuncties van X en Y
› stel U =F (X ) en V =G (Y ), Cov
dan (U,
is V )
ρs= √
Var (U)Var
(V )
› we testen niet op lineaire (on)afhankelijkheid tussen X en Y ,
maar wel
H 0∶ er is geen monotoon verband tussen X en Y
versus
H1 ∶ er is een mate van monotoon verband tussen X en Y
de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld
› testprobleem H0 ∶ ρs =0 versus H1 ∶ ρs ≠0
√
› teststatistiek: T = R
√S 2
n−1− 2
S
R
met RS de empirische Spearman correlatiecoëfficiënt
› T ≈tn−2 onder√ H0
› testwaarde t r√ 2
S
n−1− 2
met rSde gerealiseerde waarde van de
= r
S
empirische Spearman correlatiecoëfficiënt
› verwerp H0 als t ‘te ver’ afligt van 0
› P-waarde = 2P(T “ |t|)

variabelen
wat nog volgt

Hoofdstuk 9: lineaire regressie
● korte toelichting verloop examen (vbn examenvragen), en
gelegenheid tot vragen stellen
● later deze week: opdracht projectwerk !

Slides HFSTK 8 Acadjaar 20192020

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Slides HFSTK 8 Acadjaar 20192020

Uploaded by

Copyright:

Available Formats

Hoofdstuk 8: Bivariate inferentie

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 85

› inferentie voor twee kwantitatieve variabelen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 85

Twee kwalitatieve variabelen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 3 / 85

proporties vergelijken in twee groepen

Tabel: Kruistabel met voorwaardelijke frequenties voor ‘Regio’ en ‘Arbeid’.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 4 / 85

proporties vergelijken in twee groepen

regio=‘Z’). n1 =19 en n2 =16

›in groep/regio 1: Y1,1 , Y1,2, . . . , Y1,19 ∼ B(1, p1),

proporties vergelijken in twee groepen: algemeen kader

Vergelijken van 2 proporties

Wat kunnen we zeggen over de verdeling van P ˆ− ˆ

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 7 / 85

Vergelijken van 2 proporties, Betrouwbaarheidsinterval

› (1 − 100% benaderend BI voor p1 − p :

Vergelijken van 2 proporties, hypothese testen

onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 85

Vergelijken van 2 proporties, hypothese testen

Teststatistiek met een groter onderscheidingsvermogen.

Als H 0waar is (p =1p =p

Onder H0 geldt dat Z ≈ N(0, 1) als

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 10 / 85

Vergelijken van 2 proporties, hypothese testen

1. Formuleer H0(p1 =p2) en H1 , kies α (meestal = 0.05)

onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 85

Vergelijken van 2 proporties

Voorbeeld; vraag : is de populatieproportie van steden met een laag

Twee kwalitatieve variabelen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 13 / 85

Onafhankelijkheid van twee variabelen testen

H0 ∶ de toevalsvariabelen X en Y zijn onafhankelijk

basisidee : vergelijken van de geobserveerde frequenties en de

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 14 / 85

Onafhankelijkheid van twee variabelen testen: voorbeeld

Voorbeeld: pollutie data, onafhankelijkheid tussen regio en inkomen?

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van

noem X = regio2, en Y = inkomen; stel nu

Onafhankelijkheid van twee variabelen testen: voorbeeld

● indien X en Y onafhankelijk zouden zijn dan is

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van

Onafhankelijkheid van twee variabelen testen: voorbeeld

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 17 / 85

Onafhankelijkheid van twee variabelen testen: algemeen

Onafhankelijkheid van twee variabelen testen: algemeen

ν =r k − aantal geschatte parameters − 1 =r k − (r − 1) − (k − 1)

Onafhankelijkheid van twee variabelen testen: voorbeeld

Voorbeeld: pollutie data, onafhankelijkheid tussen regio2 en

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 85

Een kwantitatieve en een kwalitatieve variabele

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 85

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

steekproefgemiddelde=rode ruit n1 =18 en n2 =16

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

is de kwalitatieve variabele in de twee groepen normaal

Standaardnormale kwantielen Standaardnormale kwantielen