You are on page 1of 86

Hoofdstuk 8: Bivariate inferentie

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 85


Inleiding

Bivariate inferentie

(X , Y ) twee
toevalsvariabelen
› inferentie voor twee kwalitatieve variabelen
proporties vergelijken in twee groepen
● onafhankelijkheid tussen twee kwalitatieve variabelen testen
› combinatie van een kwantitatieve en een kwalitatieve variabele
● het vergelijken van gemiddeldes en varianties van een normaal
verdeelde variabele in twee groepen
● vergelijken van de verdeling van een variabele in twee groepen

› inferentie voor twee kwantitatieve variabelen


● hypothesetesten voor het
nagaan van bivariate verschil van twee
normaliteit variabelen

correlatie tussen twee variabelen testen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Twee kwalitatieve variabelen


Inferentie omtrent twee proporties

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 3 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

proporties vergelijken in twee groepen


Voorbeeld: pollutie data, steden met een laag en een hoog aantal
handarbeiders (laag dwz minder dan 45% handarbeiders)
● interesse gaat uit naar twee regio’s:
het Noordoosten van de VS en het Zuiden van de VS
● vraag : is de populatieproportie van steden met een laag aantal
handarbeiders lager in het Noordoosten dan in het Zuiden van de
VS ?

Tabel: Kruistabel met voorwaardelijke frequenties voor ‘Regio’ en ‘Arbeid’.


Arbeid
Regio hoog laag Totaal
NO 8/19 11/19 (58%) 1
Z 6/16 10/16 (62.5%) 1

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 4 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

proporties vergelijken in twee groepen


Vraag : is de populatieproportie van steden met een laag aantal
handarbeiders lager in het NO dan in het Z ?
● X = groeperingsvariabele: X =1 (regio =‘NO’), en X =2 (

regio=‘Z’). n1 =19 en n2 =16


● Y =Bernoulli variabele: Y =0 als ‘Arbeid = hoog’, en Y =1 als
‘Arbeid = laag’
Y (Arbeid)
X (Regio) 0 (hoog) 1 (laag) Totaal
1 (NO) 8/19 11/19 (58%) 1
2 (Z) 6/16 10/16 (62.5%) 1

›in groep/regio 1: Y1,1 , Y1,2, . . . , Y1,19 ∼ B(1, p1),


p =P(Y =1) de ‘succeskans’
met1
› in groep/regio 2: Y2,1 , Y2,2 , . . . , 2,16
Y ∼ 1, p2 )
B (
We stellen ons de vraag of p p 1< 2
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 5 / 85
Twee kwalitatieve variabelen Inferentie omtrent twee proporties

proporties vergelijken in twee groepen: algemeen kader


● X = groeperingsvariabele: X =1 (groep 1), en X =2 (groep 2).
Y =Bernoulli variabele: Y =0, Y =1
in groep 1: Y ∼ B(1, p 1) in groep 2: Y ∼ B(1, p2)
●●
metingen
Y1,1, Y 1,2
,...,Y ∼ 1, p1 ) als X = 1 (groep 1)
1
●YB1,n
( , Y 2,2
2,1 ,...,Y 2 ∼ 1, p2 ) als X = 2 (groep 2)
● de
B2,n
( metingen in de ene groep zijn o n a f h a n k e l i j k van de
metingen in de andere groep
●● aantal metingen hoeft niet hetzelfde te zijn in elke groep
● het vergelijken van de twee populatieproporties zal gebeuren door
de steekproefproporties

1 n1 1 n2
P̂ 1 = 1,i P̂ 2 2,i
n Σ Y en
= n Σ Y
1 i =1 2 i =1

te vergelijken
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 6 / 85
Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties

Wat kunnen we zeggen over de verdeling van P ˆ− ˆ


1 P ?
2
› E (Pˆ1 − Pˆ2) =p1 −
p2 p1 (1 − p1 ) p (1 − p2 )
› Var(Pˆ 1− P ˆ ) = Var( Pˆ1) + Var(Pˆ 2) 2 +
2 = n1 n2
(Pˆ 1−ˆ P 2)−( p 1−p
2 )
› Z . ≈ N(0, ) (als n 1en n voldoende groot)
p1(1− p 1) p (1−p )
= + 2 1 2
2 n n2
1

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 7 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties, Betrouwbaarheidsinterval


Opstellen van een betrouwbaarheidsinterval voor p − 1 p
(Pˆ 1−ˆ P 2)−(p −p
1 2 ) 2
› Z =. ≈ N(0, 1) (als n1en n voldoende groot zijn)
p1( 1−p1) p ( 2 1−p )
+ 2
2 n n2
1

› (1 − 100% benaderend BI voor p1 − p :


α) < . 2 =
ı pˆ − pˆ ± z pˆ1 (1 − 1pˆ ) pˆ2 (1 − pˆ ı
+
ı 1 2 ) 2 n1
> α/2 n2
Voorbeeld: Stel een 95%BI op voor p − 1 p , met
2 p deı kans op laag
1
aantal handarbeiders in NO en p2 de kans op laag aantal z
handarbeiders in Z.
< ‚
11 8 10 6 =
11 ı , 19 19 16
− ± + =[−0.37,
ı 10 16 ı
ı 19 1.96 19 ı
16 z 0.28]
>16
Kunnen we zeggen dat de kans op laag aantal handarbeiders
verschillend is in beide regio’s?
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 8 / 85
Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties, hypothese testen


1. Formuleer H0 en H1 , kies α (meestal = 0.05)
tweezijdig: H0 ∶ p1 =p2 versus H1 ∶ p1 ≠ p2
› rechts´e´enzijdig: H 0∶ p ™1p versus H ∶ p 1>p 1
2 2
› links´e´enzijdig: H 0∶ p “1 p versus H ∶ p 1<p 1
2 2
2. Kies teststatistiek Z :
(P̂ 1 − Pˆ 2)
Z =. Pˆ 1( 1−Pˆ1 ) ˆ ˆ
n1
+ P22 ( 1−P
n
)
2

onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot


2
of kies teststatistiek met een groter onderscheidingsvermogen
(Pˆ 1 − P
ˆ )
Z =. 2
Pˆ0( 1 − Pˆ0 )(+n11 ) n
1 2

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties, hypothese testen

Teststatistiek met een groter onderscheidingsvermogen.

Als H 0waar is (p =1p =p


2 ) , dan kan een betere schatter voor p 0
bekomen
0 worden door de gepoolde succeskans:

n1Pˆ1 + n 2P2ˆ
Pˆ0
= n1 + n2
Bijgevolg
(Pˆ 1− Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n1 + 1n )
1 2

Onder H0 geldt dat Z ≈ N(0, 1) als


n1p1 ≥5, n1(1 − p1) ≥5, n2p2 ≥5, n2(1 − p2) ≥5.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 10 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties, hypothese testen

1. Formuleer H0(p1 =p2) en H1 , kies α (meestal = 0.05)

2. Kies teststatistiek Z :
(P̂ 1 − Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n11 + n )
1 2

onder H 0geldt dat Z ≈N(0, 1 ) als n 1en n voldoende groot.


2
3. Bepaal de geobserveerde waarde van de teststatistiek: zobs
4. Bepaal ofwel
P-waarde
› Aanvaardingsgebie
d
5. Formuleer het besluit

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 85


Twee kwalitatieve variabelen Inferentie omtrent twee proporties

Vergelijken van 2 proporties

Voorbeeld; vraag : is de populatieproportie van steden met een laag


aantal handarbeiders lager in het Noordoosten dan in het Zuiden van
de VS ?
testprobleem: H0 ∶ p1 =p2 versus H1 ∶ p1 <p2
› de teststatistiek levert de testwaarde
.
(pˆ1 − 2pˆ ) −1(p −2 p ) 11 21 14 1 1
z = 10
. = ( )/ ( + ) = 0.277
1
pˆ0 (1 − pˆ 1)( + ) 19 35 35−19

0 n1 n2 16 16
bijbehorende P-waarde P(Z ≤−0.277) = 0.39
› de P-waarde is groter dan α, dus kan H0 niet verworpen
op dit significantieniveau
worden
› we mogen dus niet besluiten dat de kans op een klein aantal
handarbeiders in het Noordoosten kleiner is dan in het Zuiden
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 12 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Twee kwalitatieve variabelen


Onafhankelijkheid van twee variabelen testen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 13 / 85


Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen

H0 ∶ de toevalsvariabelen X en Y zijn onafhankelijk


H1 ∶ de toevalsvariabelen X en Y zijn afhankelijk

basisidee : vergelijken van de geobserveerde frequenties en de


verwachte aantallen onder onafhankelijkheid

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 14 / 85


Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: voorbeeld

Voorbeeld: pollutie data, onafhankelijkheid tussen regio en inkomen?

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van


absolute frequenties.
Inkomen
Regio2 1 2 3 4 Totaal
1 (NO & W; vnl kuststeden) 4 7 6 9 26
2 (andere; vnl binnenlandse steden) 12 8 7 7 34
Totaal 16 15 13 16 60

noem X = regio2, en Y = inkomen; stel nu


P (X = 1) ≈26
dat 60 P (X =2) 34 60

P(Y =1) 60 P(Y =2) 15
16
60 P(Y =3) ≈
13
60
P(Y =4) 16
60
≈ ≈ ≈
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 15 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: voorbeeld


Voorbeeld: pollutie data, onafhankelijkheid tussen regio en inkomen?

● indien X en Y onafhankelijk zouden zijn dan is


P(X =mx, Y =m ) =P ( X =mx) P ( Y = my ) ∀mxen m
y 26 16 26 y
en dus, bijvoorbeeld P(X =1, Y =1) = 60 60
≈ 225
26
het verwachte aantal in die cel van de tabel is dus 60 × 225
=6.933

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van


verwachte absolute frequentie.
Inkomen
Regio2 1 2 3 4 Totaal
1 6.933 6.500 5.633 6.933 26
2 9.067 8.500 7.367 9.067 34
Totaal 16 15 13 16 60
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 16 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: voorbeeld


basisidee : vergelijken van de geobserveerde frequenties en de
verwachte aantallen onder onafhankelijkheid

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis


van
absolute frequentie.
Regio2 1 Inkomen
2 3 4 Totaal
1 4 7 6 9 26
2 12 8 7 7 34
Totaal 16 15 13 16 60

Tabel: Kruistabel voor de variabelen ‘Regio2’ en ‘Inkomen’ op basis van


verwachte absolute frequenties.
Inkomen
Regio2 1 2 3 4 Totaal
1 6.933 6.500 5.633 6.933 26
2 9.067 8.500 7.367 9.067 34
Totaal 16 15 13 16 60

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 17 / 85


Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: algemeen

Tabel: Algemene notatie voor een kruistabel van twee kwalitatieve variabelen
op basis van absolute frequenties.
Y
X … Totaal
my,1 my,2 my,3

mx,1 n n12 n13 n1k n1+
mx,2 my,k11 n22 n23 … 2 n2
⋮n 21 ⋮ ⋮ n ⋮ k ⋮ +⋮
⋮ … nr
mx,r nr 1 nr 2 nr 3 nrk
Totaal … +n
n+1 n+2 n+3
● de statistiek die de
n+kverschillen in geobserveerde absolute
frequenties en verwachte aantallen meet:
2
2 (geobserveerde absolute frequentie − verwachte
X =Σ waarde) verwachte waarde
met verwachte waarde = (rijtotaal ×
kolomtotaal)/n
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: algemeen


● de geobserveerde relatieve frequenties
+ n+j
fij = n ij fi i f+j =
nn =+ n
n
● de chi-kwadraat (X 2)-teststatistiek is dan gedefinieerd als

2 r k (nij− nf fi +) 2
X =Σ Σ nfi +f+j
i =1
j=1 +j
● onder de nulhypothese: X 2 heeft
benaderend een χ2-verdeling
met het aantal vrijheidsgraden gegeven door

ν =r k − aantal geschatte parameters − 1 =r k − (r − 1) − (k − 1)


=
−1 2
dus X 2 ≈
H 0 χv met v = (r − 1)(k − 1)
(r − 1)(k − 1)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 19 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen

Onafhankelijkheid van twee variabelen testen: voorbeeld

Voorbeeld: pollutie data, onafhankelijkheid tussen regio2 en


inkomen?
● de waarde van de teststatistiek :
(4 − 6.933)2 (7 − 2
(7 − 2
χ2 + +... =
6.933 6.500) 9.067)
9.06
= + 3.39
6.500
● aantal vrijheidsgraden = (2 − 1)(4 − 1) =
7
●3benaderende P-waarde: P (X 2>3.39) >0.25 met X ∼2 χ 2 3
● de nulhypothese van onafhankelijkheid kan bijgevolg niet
verworpen worden op significantieniveau 0.05
● de verschillen die we merken tussen de kruistabellen zijn dus niet
significant

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Een kwantitatieve en een kwalitatieve variabele


Het gemiddelde van een variabele vergelijken voor twee
groepen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van 2 normaal verdeelde groepen: voorbeeld


Voorbeeld: pollutie data;
› gemiddelde temperatuur in juli vergelijken in twee regio’s;
vraag 1: is de gemiddelde julitemperatuur in de Midwest regio
groter, kleiner, gelijk aan die in het Zuiden?
› de uitkomsten voor de regio’s zijn enkel MW en Z, en worden
gebruikt om de gegevens op te delen in twee groepen
› vraag 2: regent het gemiddeld meer in de Midwest dan in het
Zuiden ?
(a) (b)
80
85

Regen
JulT

30 40 50 60
70
75

MW Z MW Z

Regio Regio

Figuur: Boxplots van (a) ‘JulT’ en (b) ‘Regen’ in de Midwest en het Zuiden.
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

(a) 85
(b)

60
80

Regen
JulT

40
50
75

30
70

MW Z MW Z

Regio Regio

steekproefgemiddelde=rode ruit n1 =18 en n2 =16


Boxplots “JulT”: Boxplots “Regen”:
Midwest: y¯ 1 = 74.3 Midwest: y¯1 =33.61 inches
° F
Zuiden: y¯2 =79.6 F ° Zuiden: y¯2 =46.19 inches
Midwest: s12 = 11.65 F)2 Midwest: s 12=16.13 (inches) 2
2
2
(Zuiden: s2 = 13.18 F)
° Zuiden: s 22=91.36 (inches) 2
°(
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 23 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

is de kwalitatieve variabele in de twee groepen normaal


verdeeld? =⇒ normale kwantielplots; voor ‘JulT’

(a) (b)
● ● ● ●

84

80


● ●
78



● ●
JulT (MW)

76

JulT (Z)
● ●

74 76 78 80 82
● ● ● ● ●

● ●
74



● ●
72

● ● ● ●

● ●
70

72
● ●

−2 −1 0 1 2 −2 −1 0 1 2

Standaardnormale kwantielen Standaardnormale kwantielen

voor ‘MW’: rQ = voor ‘Z’: rQ =


0.964 0.975
normaliteitsaanname wordt niet verworpen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van 2 normaal verdeelde groepen: voorbeeld

is de kwalitatieve variabele in de twee groepen normaal


verdeeld? =⇒ normale kwantielplots; voor ‘Regen’

(c) (d)
40

● ●

● ●

● ● ●

35

● ● ●
Regen (MW)

30 35 40 45 50 55 60 65
Regen (Z)






● ● ● ●

30

● ● ● ●



25

● ●

−2 −1 0 1 2 −2 −1 0 1 2

Standaardnormale kwantielen Standaardnormale kwantielen

voor ‘MW’: rQ = voor ‘Z’:rQ =


0.985 0.988
normaliteitsaanname wordt niet verworpen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 25 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van 2 normaal verdeelde groepen: ongepaarde


metingen
2
Y1,1 , Y1,2, . . . , Y1,n1 ∼ N(µ 1, σ 1) als X =1
2
Y2,1, Y2,2, . . . , Y2,n2 ∼ N( µ2, σ2 ) als X =2

Y1,1 , Y1,2, . . . , Y1,n1 en Y2,1 , Y2,2, . . . , Y2,n2


onafhankelijk
● n1 observaties uit groep 1
● n2 observaties uit groep 2
● niet zinvol om een meting uit groep 1 te koppelen aan een
specifieke meting uit groep 2, aangezien de metingen
onafhankelijk zijn van elkaar
● we spreken van ongepaarde metingen (of waarnemingen)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 26 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes van 2 normaal verdeelde


groepen
2
Y1,1, Y1,2, . . . , Y1,n1 ∼ N(µ1 , 1 als X =1
σ)
Y2,1 , Y2,2 , . . . , Y2,n2 ∼ µ2, σ22) als X =2
N(
Y1,1 , Y1,2 , . . . , Y1,n1 en Y2,1 , Y2,2, . . . , Y2,n2 o n a f h a n k e l i j k

hypotheses van de vorm:


H0 ∶ µ1 = µ2 (H0 ∶ µ1 − µ2 = H0 ∶ µ1 ™ µ2 H0 ∶ µ1 “ µ2
0) H1 ∶ µ1 > µ2 H 1 ∶ µ1 < µ 2
H1 ∶ µ1 ≠ µ2 (H1 ∶ µ1 − µ2 ≠
0) ● we gebruiken Y¯1and Y om
2 respectievelijk µ en1µ te schatten:
¯ 2
¯ 1 n1 1 n2
Y1 Σ Y 1,i en Y¯2 Σ Y 2,i
= n1 i =1= n
2i
=1

we gebruiken Y¯1−Y¯2om µ1 −µ2 te schatten
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 27 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes van 2 normaal verdeelde


groepen

E (Y¯1− Y¯2) =E (Y¯1) − E (Y¯2) =µ1 −
µ2 Y¯1− Y is
=⇒ 2 een onvertekende schatter voor µ − 1µ
¯2onafhankelijkheid tussen de twee groepen:
● wegens

Var(Y¯1 − Y¯ ) = Var(Y ¯1 ) + Var(Y ) = σ21 σ2


2n n2
¯2 + 2 1
¯
● de toevalsvariabele Y 1 − Y is een lineaire combinatie van
onafhankelijke normaal ¯2 verdeelde variabelen, en is dus ook
normaal verdeeld
● we bekomen ¯1Y − Y ∼ N µ1 − µ ,σ21 σ 2)
2n1 n2
( ¯2 +2
Y¯1 − Y 2 − (µ 1− µ )
of ook ¯ . 2 ∼ N(0,
σ21 + σ2 1)
n12 n
2
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 28 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes van 2 normaal verdeelde


groepen
Y¯1 − Y 2 − (µ 1− µ 2)
● ¯ . ∼ N(0,
2
σ + σ
1 2 1)
n12 n
● onder H 0∶ µ1 − µ2 =0 geldt
2

Y¯1 −
Z = . Y¯2
∼H0 N(0,
σ21 + σ2 1)
n2 1 n2
● we moeten volgende situaties onderscheiden:
2
●● de populatievarianties σ en
1 σ zijn gekend : gebruik de
2
teststatistiek Z 2
2 2
●● de populatievarianties σ en
1 σ zijn gelijk maar niet gekend:
σ122=σ =22 σ 2
; σ niet gekend2; we spreken van
homoscedasticiteit
2
●● de populatievarianties σ en
1 σ kunnen niet gelijk verondersteld
2
worden, en zijn niet gekend;
2 we spreken van heteroscedasticiteit

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 29 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : gelijke varianties


● σ122=σ =2 σ ; σ2 niet gekend hoe kunnen we σ2 schatten?
● steekproefvarianties
2 van de afzonderlijke groepen:
1 n1 ¯ 2 en S2 1 n2
S 12 1,i Y − Y¯2 )2
( 2,i
n1− 1 Σ (Y −Y ) 2 n2− 1 Σ
= i 1 = i
=12 2 2 2 =1
we weten E (S 12) =σ =σ en E (S )22 =σ =σ
● m a a r , schat σ12best met de gepoolde
2 variantie S : p
2
› beschouw een gewogen gemiddelde van S en2 2
1 S , rekening
houdend met de grootte van de twee steekproeven =⇒ de
2
gepoolde variantie S 2p gegeven door
∑ 1 (Y 1,i − ¯ ) 2+ ∑ i n2 (Y 2,i − Y )2
2 2 n
(n1− 1)S +
1 ( n2− 1)S 2
S 2p
= = i=1 Y ¯1
n1+ n − 2 n1+ n − 2=1 2
2 2
› is dit een onvertekende schatter voor σ ? 2

n1− 1 n −1
E (Sp2 ) E (S12) 2 E (S222 ) = ja!
= n 1 +n2 −2
+ n 1 +n2 −2
σ
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 30 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : gelijke varianties

› schatter voor σ2: de gepoolde variantie


(n1− 1)S +2
12 ( n 2 − 1)S
n1
(Y 1,i − ¯1 ) 2 + ni (Y 2,i − ¯2 )2
S 2p
= 2
= ∑ i=1Y 2 ∑
n1+ n −2 2 n 1+ n − 2=1 Y
2
› S 2is gebaseerd op n + n gegevens (meer gegevens)
p 1 2
› men kan aantonen: S heeft
p
2
een kleinere variantie dan S en12dan
S2

Y¯1 − Y 2 − (µ 1− µ 2)

¯ . ∼ N(0,
2
σ + σ
1 2 1)
n21 n
benader
.
2
de standaardfout van Y¯1− Y , namelijk
. ¯2. 1
σ21 + σ22 = 1
n1 n2 n11 + n , met S p n11 + n
σ 2 2

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : gelijke varianties

● men kan aantonen dat

p2
(n1 + n − 2)S ∼ 2
n1+n2−2
χ 2 σ2
● er volgt dan

(Y¯1 − Y ) − µ1− µ )
T ¯2 ( √ 2 ∼ n1+n2−2
= S p /n1+ 1/n2 t
1

● 100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 ?


● en hoe dan verder voor hypothesetesten ?

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 32 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : gelijke varianties

100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 ?

ƒ (Y¯1− Y ) − ( µ1− µ ) ⎞
1 − α = P −t
n +n −2,α/2 ¯2 √ 2 ™ n1+n2 −2,α/2
™ ⎞ 12 Sp 1/n 1 + / 2 t J
1 √ n
1/n1 + 1/n2™ µ −1 µ ™
=P ((Y¯1 −Y¯2) − tn1+n2−2,α/2Sp
√ 2
¯ ¯
(Y −Y ) + t S 1/n 1 + 1/n2)
1 2 n1+n2−2,α/2 p

een 100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ2 is dus :


< . =
1
ı y¯ − y¯ ± t p + ı
ı 1 2 n1+n2−2,α/2 1
n ı
s 1 2 z
n
>
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 33 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : gelijke varianties


voor het uitvoeren van hypothesetesten
gebruik dat onder H0 ∶ µ1 − µ2 =0
(Y¯1− Y )
¯ ∼H0 n1+n2−2
T = .2
S p n11 + n t
1 2

we spreken van een t-test (voor 2 groepen)


verder zoals bij de univariate t-testen
H0 ∶ µ1 = µ2 Teststatistiek P-
¯ ¯ waarde
T √Y 1− Y ∼H0n t+n1 −2
2
2
1/n +1/n
= Sp /
2
1
(n 1−1)S 2+ ( n2−1)S 2
met S =
2
1 2 n −2
als σ 12=σ 22
H1 ∶ µ1 ≠ µ2 2P(T > |
H1 ∶ µ1 >µ2 t|)P(T >
H1 ∶ µ1 <µ2 t) <
P(T
t)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 34 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : ongelijke varianties


› wat als de populatievarianties niet gekend zijn, en niet
gelijk zijn?
› wat is dan de verdeling van een gepaste gestandaardiseerde versie
van Y¯1− Y¯2 ?

een optimale meest effici¨ente procedure is niet gekend:
Behrens Fisher probleem
Y¯ − Y
› T =. ¯12 ≈ r
H0
S12 + S t
22
n1 n2
2 2 2
( S+1 2)S
› met r n1 n2
2 2
(S 2ƒ n1 ) ( S2ƒ n2)
1 + 2n −1
= n1− 1
2

100(1 − α)%-betrouwbaarheidsinterval voor µ1 − µ ?


2
› en hoe dan verder voor hypothesetesten ?
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 35 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : ongelijke varianties

› een gerealiseerd 100(1 − α)% benaderend


betrouwbaarheidsinterval voor µ1 − µ2 is dan:
< ‚ =
s2
ıı y¯
1 − y¯2 ı, s 2 1+ ı
tr,α/2 ı
ı± 2 n1 2 ı
n z
› voor hypothesetesten:
> zie de tabel

H0 ∶ µ1 = µ2 Teststatistiek P-
Y¯1−¯2Y waarde
T . ≈
S12 S
H0 r
22
= +
n1 n 2
t
als σ 12≠σ 22
H1 ∶ µ1 ≠ µ2 2P(T > |
H1 ∶ µ1 >µ2 t|)P(T >
H1 ∶ µ1 <µ2 t) <
P(T
t)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 36 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : voorbeeld


verschilt de gemiddelde julitemperatuur in de Midwest regio van
die van de Zuidelijke regio?
● test: H0 ∶ µ1 − µ2 = 0 versus H1 ∶ µ1 − µ2 =/ 0
● we testen op het significantieniveau 0.05
● we gingen al na dat er aan de normaliteitsvoorwaarden voldaan is
● zijn de populatievarianties voor beide groepen van steden gelijk ?
(de gelijkheid van de varianties kan niet verworpen worden: zie
later)
2
● we stellen dus dat σ =
1
2
σ , en voeren een t-test uit
2
● de gerealiseerde waarde van de T -statistiek:

1 − 2y¯ 74.33 − 79.62
. =
t= . 1 =. 2 2
17×3.41 15×3.63 1 1
sp n11 n2 + 32 18 + −4.38
+ 16

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 37 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : voorbeeld

● P-waarde = 2P(T >| − 4.38|) =2P(T >4.38) met T ∼ t32


de P-waarde ≈ 0 =⇒
we kunnen de nulhypothese verwerpen op significantieniveau 0.05

● besluit: de gemiddelde julitemperatuur in de Midwest en in het


Zuiden zijn verschillend

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 38 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : voorbeeld

is de gemiddelde hoeveelheid neerslag in het Zuiden groter dan


in de Midwest?
● test: H0 ∶ µ1 − µ2 ≥ 0 versus H1 ∶ µ1 − µ2 < 0
● we testen op het significantieniveau 0.05
● we gingen al na dat er aan de normaliteitsvoorwaarden voldaan is
● zijn de populatievarianties voor beide groepen van steden gelijk ?
(de gelijkheid van de varianties kan verworpen worden: zie later)
● de stellen dus dat de twee varianties ongelijk zijn

● de gerealiseerde waarde van de test statistiek:



1− 2 33.61 −
4.8
t =. y¯. = 46.19
16.13 =−
2 s1 + s2
18 + 91.36 9
n1
2 n2
16

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 39 / 85


Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen

Vergelijken van gemiddeldes : voorbeeld

● P-waarde voor de t-test ?; gebaseerd op een t-verdeling met


r =19.652, of afgerond 20 vrijheidsgraden
benaderende P-waarde: P (T <−4.89) met T ∼ t20
de gevonden benaderende P-waarde is ongeveer 0

● de nulhypothese van gelijke gemiddeldes kan in dit geval


verworpen worden
● we besluiten dat de gemiddelde hoeveelheid neerslag groter is in
het Zuiden dan in de Midwest

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 40 / 85


Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen

Een kwantitatieve en een kwalitatieve variabele


De variantie van een variabele vergelijken voor twee
groepen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 41 / 85


Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen

› hoe weten we of σ 12≠σ ?


2
2
2
› test: H 0 ∶ σ12 = σ H 1∶ σ 122=/ σ
versus2 2
› of ook H0 ∶ σ21 =1 versus H 1∶ σ21 ≠1
σ22 σ22
› F -test; teststatistiek: F =S 12/ S
2
2
› verdeling onder H 0(en normaliteit !): F ∼ F n1−1,n2−1

(n1− 1)S 12
› ∼ χn1−1
2
σ21
(n2− 1 )S 22
› ∼ χn2−1
2
σ2
› als S 12en S onafhankelijk
2
2

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 42 / 85


Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen

› hoe weten we of σ 12≠σ ?


2
2
2
› test: H 0 ∶ σ12 = σ H 1∶ σ 122=/ σ
versus2 2
› of ook H0 ∶ σ21 =1 versus H 1∶ σ21 ≠1
σ2 σ2
› F -test; teststatistiek: F =S 12/ S
2
2
› verdeling onder H 0(en normaliteit !): F ∼ F n1−1,n2−1

› testwaarde f s12
s22
=

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 42 / 85


Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen

de F -verdelingen zijn rechtsscheve verdelingen

1.5
f20,30 f50,50
1.0
Dichtheid

f2,3

f4,4
f10,5
0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 43 / 85


Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen


s1 2
› teststatistiek F =S 12/S testwaarde f
2 s22
2 =
2P ( >f ) als f > QFn 1−1,n −1 0.5
(2 )
Fn −1,n −1
› P-waarde= { 2P (Fn1 −1,n2−1 < ™ Fn1−1,n −1 (0.5
1
2
Q 2 )
(a) (b)
F ∼ Fn1 −1,n2 −1 F ∼ Fn1 −1,n2 −1

P (F < f )
P (F > f )

0 f 0f

Figuur: Overschrijdingskans voor de F -test wanneer (a) f >QFn1 −1,n2 −1 (0.5)


en (b) f <QFn1 −1,n2 −1 (0.5).

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 44 / 85


Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen

ook ´e´enzijdig testen kan


› zie tabel voor overzicht

Tabel: Teststatistiek en P-waarden bij de verschillende hypothesetesten


omtrent het verschil in varianties van twee normaal verdeelde variabelen.

H0 ∶ σ =12σ 2
2 Teststatistiek P-
F =S 122/ S waarde
∼H0 F n1−1,n −1
2
2
H1 ∶ σ ≠12σ 2
2 2P(F > f ) als f > F (0.5
n1 −1,n2 −1
Q ) (
n1− 1,n 2−1

H1 ∶ σ >12σ 2
2 2P(F < f ) als f < F P(F >f )
H1 ∶ σ <12σ 2
2 Q P(F <f )

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 45 / 85


Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen: voorbeeld


Boxplots “JulT”; steekproefgemiddelde=rode ruit

85

Midwest: s 12=11.65
80
JulT

75

Zuiden: s 22=13.18
70

MW Z

Regio

2
› we testen H 0∶ σ = 1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =11.65/13.18 =
0.88
› P-waarde (berekend met software) is gelijk aan
2P(F <0.88) =0.79 indien F ∼ F 17,15
› P-waarde groter dan de gangbare significantieniveaus =⇒ geen
aanleiding tot het verwerpen van de gelijkheid van de
populatievarianties
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 46 / 85
Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen

Vergelijken van varianties van twee groepen: voorbeeld


Boxplots “Regen”; steekproefgemiddelde=rode ruit

Midwest: s 12=16.13
Regen

30 40 50 60

Zuiden: s 22=91.36
MW Z

Regio

2
› we testen H 0∶ σ =1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =16.13/91.36 =
› P-waarde
0.18 (berekend met software) is gelijk aan
2P(F <0.18) =0.001 indien F ∼ F 17,15
› P-waarde kleiner dan α voor α ≥
0.001
=⇒ populatievariantie van de variabele ‘Regen’ verschillend in
beide groepen (Midwest en Zuiden)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 47 / 85
Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen

Testen omtrent gemiddeldes van twee groepen:


samenvattend
werkwijze:
nagaan dat de gegevens ongepaard zijn
› normaliteit nagaan (kwantielplot, Shapiro-Wilk test) voor beide
groepen apart
› indien σ 12en σ gekend
2 zijn, z -test gebruiken
2
› indien σ 12en σ ongekend
2
zijn, F -test of de varianties gelijk zijn
of niet (met
2 tabel of software)
› als H 0niet verworpen wordt, dan t-test met gepoolde variantie
uitvoeren
› als H 0verworpen wordt, dan t-test met ongelijke varianties
uitvoeren
› P-waarde berekenen en besluit nemen
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 48 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Een kwantitatieve en een kwalitatieve variabele


De verdeling van een variabele vergelijken voor twee
groepen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 49 / 85


Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van 2 ongepaarde groepen:


niet-parametrisch

› wanneer Y 1en/of Y niet normaal verdeeld is, en ook geen


transformatie
2 kan gevonden worden die leidt tot normaliteit,
moet men overgaan op een niet-parametrische methode
› in dat geval zijn µ 1=E (Y )1 en µ =2E ( Y ) niet noodzakelijk
geschikte maten om 2 het centrum te vergelijken van de twee
variabele
n

zoals bij de Spearman correlatieco¨effici¨ent, maakt de Wilcoxon rang-som
test gebruik van rangen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 50 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch

Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee


regio’s: de Midwest regio en het Zuiden
nagaan van de normaliteit van de variabele voor de twee regio’s:

(a) Midwest (b) Zuiden


● ●

60


50

30

40
NOx Pot  MW 

NO x Pot Z

20


20 30


● ●

10
● ●
● ● ● ●

10

● ●
● ● ●

● ● ●
● ● ● ● ●
0
0

−2 −1 0 1 2 −2 −1 0 1 2

Standaardnormale kwantielen Standaardnormale kwantielen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 51 / 85


Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch

Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee


regio’s: de Midwest regio en het Zuiden
› P-waarden Shapiro-Wilk test voor normaliteit: 0.0005 voor ‘MW’
en 0.03 voor ‘Z’
variabele ‘NOx Pot’ is niet normaal verdeeld, voor de beide
› regio’s
niet zinvol om gemiddeldes te vergelijken
› we werken met de rangen
● voeg de gegevens voor de variabele ‘NO Pot’
x van de twee groepen
samen
●sorteer de gegevens
geef rangen aan devan klein naar groot
gegevens

rekening houden met samenvallende waarden (knopen, ties); we
geven al deze observaties eenzelfde rang, namelijk de gemiddelde
waarde van de rangen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 52 / 85


Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch

Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee regio’s
Stad Regio NOx Pot Rang Stad Regio NOx Pot Rang
Dallas Z 1 2.0 Minneapolis MW 11 18.5
Fort Worth Z 1 2.0 Wilmington Z 11 18.5
Miami Hialeah Z 1 2.0 Youngstown MW 13 20.0
Wichita MW 2 4.0 Nashville Z 14 21.0
GrandRapids MW 3 5.5 Akron MW 15 22.5
Greensboro Z 3 5.5 St Louis MW 15 22.5
Dayton MW 4 8.0 New Orleans Z 17 24.0
Flint MW 4 8.0 Memphis Z 18 25.0
KansasCity MW 4 8.0 Cleveland MW 21 26.0
Houston Z 5 10.0 Milwaukee MW 23 27.0
Canton MW 7 12.0 Cincinnati MW 26 28.0
Indianapolis MW 7 12.0 WashingtonDC Z 28 29.0
Toledo MW 7 12.0 Birmingham Z 32 30.0
Atlanta Z 8 14.5 Detroit MW 35 31.0
Chattanooga Z 8 14.5 Louisville Z 37 32.0
Columbus MW 9 16.5 Baltimore Z 38 33.0
Richmond Z 9 16.5 Chicago MW 63 34.0
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 53 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


Voorbeeld: pollutie data; variabele ‘Regen’ vergelijken voor twee regio’s
Stad Regio Regen Rang Stad Regio Regen Rang
Minneapolis MW 25 1.0 Columbus MW 37 18.0
Wichita MW 28 2.0 Youngstown MW 38 19.0
Flint MW 30 4.0 Indianapolis MW 39 20.0
Milwaukee MW 30 4.0 Cincinnati MW 40 21.0
Louisville Z 30 4.0 Greensboro Z 42 22.5
Detroit MW 31 7.5 WashingtonDC Z 42 22.5
GrandRapids MW 31 7.5 Baltimore Z 43 24.0
Toledo MW 31 7.5 Richmond Z 44 25.0
Fort Worth Z 31 7.5 Nashville Z 45 26.0
Chicago MW 33 10.0 Houston Z 46 27.0
St Louis MW 34 11.0 Atlanta Z 47 28.0
Cleveland MW 35 13.0 Memphis Z 50 29.0
KansasCity MW 35 13.0 Chattanooga Z 52 30.0
Dallas Z 35 13.0 Birmingham Z 53 31.0
Akron MW 36 16.0 New Orleans Z 54 32.0
Canton MW 36 16.0 Miami Hialeah Z 60 33.0
Dayton MW 36 16.0 Wilmington Z 65 34.0

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 54 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


Voorbeeld: pollutie data; variabele ‘NOx Pot’; en de variable ‘Regen’
vergelijken voor twee regio’s

empirische verdelingsfuncties
(a) ‘NOx Pot’ (b) ‘Regen’
1.0

1.0
0.8

0.8
0.6

0.4 0.6
F^nx
F^ n

0.4x

MW MW
0.2

0.2
Z Z
0.0

0.0

0 10 20 30 40 50 60 20 30 40 50 60 70

NOxPot Regen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 55 / 85


Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


› de Wilcoxon test is ontwikkeld om verschillen te ontdekken
waarbij de ene verdelingsfunctie systematisch boven of onder de
andere ligt
› krijgt globaal bekeken het Zuiden een grotere hoeveelheid
regen te verwerken dan de MidWest ?
› noem Y 1= regen in de Midwest
Y2 = regen in het Zuiden
zij F1 de cumulatieve verdelingsfunctie van Y1
F2 de cumulatieve verdelingsfunctie van Y 2
› testprobleem
H0 ∶ F1(x ) = F2(x ) voor alle x ∈
IR H1 ∶ F1(x ) > F2(x ) voor alle x ∈
IR
› F 1(x ) =P { Y 1≤x } >P { Y 2≤x } =F (x )
2 noemen Y stochastisch kleiner dan Y
we 1 2
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 56 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch

andere testproblemen

H0 ∶ F1(x ) = F2(x ) voor alle x ∈
H1 ∶
IR F1(x ) > F2(x ) voor alle x ∈
› IR
H0 ∶ F1(x ) = F2(x ) voor alle x ∈
H
IR1 ∶ F 1(x ) < F (x ) voor alle x ∈
IR2
onder H1 : we noemen Y 1 stochastisch groter dan Y2

› tweezijdige test:

H0 ∶ F (x )voor
= F2alle
(x )x ∈IR,
voor
of
H1 ∶ F1(x ) < F2(x1
alle x ∈ IR voor alle x ∈
) F1(x ) >
F2(x ) IR
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 57 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


F1 een lognormale verdeling en Y 2 =Y1 + c

F2(y ) = P{Y 2 ≤ y } = P{Y 1 + c ≤ y } = P{Y 1 ≤ y − c} = F1(y


− c)
f2(y ) =f1(y − c)

(a) (b)
1 0.4 f1

F1
0.5 F2 0.2 f2

0 0
c c

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 58 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


F1 ∼ Exp(λ1) en F2 ∼ Exp(λ2) met λ 1 >λ2

dan is F1 (x ) = 1 −−λ e 12x > 1 − −λ


e x =F (x
2 )
F2 is niet louter een verschuiving van F1

(c) (d)
1 2
F1
F2
0.5 1
f1
f2
0 0

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 59 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch

de Wilcoxon test is niet geschikt om volgende verschillen te detecteren


Y 1∼ N(µ , σ 1)22 en Y ∼ 2
2 N( µ 2, σ2 ) , met µ 1=µ en σ « 1
2
σ
1 2 2

(e) (f)
1 0.8
F1
F2 f1

0.5 0.4

f2

0 0

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 60 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: de Wilcoxon teststatistiek


› hoe rangen vergelijken?

voorbeeld 1 voorbeeld 2
groep 1: -4, -3, -2, 0 groep 1: -3, -1, 1, 4
groep 2: -1, 1, 2, 3 groep 2: -2, 0, 2, 3
. . e . e e e . e e .
. 0 1 2 . e 0 1 2 3 4

-4 -3 e› -2 -3 -2 -
−1 3
teststatistiek W =som van de rangen
.
voor groep 1
› voorbeeld 1: w =1 + 2 + 3 + 5 =111
› voorbeeld 2: w =1 + 3 + 5 + 8 =
17 ) de rang van Y in de volledige dataset
› zij R(Y 1, i 1,i
› de Wilcoxon rangsom W gelijk aan de som van de rangen van
n1

de gegevens in groep 1, namelijk W =Σ R ( Y ) 1,i


i=
1
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 61 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: de Wilcoxon teststatistiek


n1

W =Σ R ( Y1,i)
i =1

als de gegevens van beide groepen door elkaar liggen,
na
ordening, dan zal W ongeveer gelijk zijn aan n ×1 de gemiddelde
rang
● wat is die gemiddelde
rang?
1 n1+n2
1 (n1 +n 2)(n 1+ n 2 + 1) n1 + n 2+ 1
=
Σ
n1+ n i 1 i n1+ n 2 2
=
2 2
● onder H 0∶ F (= x ) =F2 (x ) voor alle x ∈IR, verwachten we dus dat
1
n1+ n + 1
E (W ) = 1 2
n 2
● de exacte verdeling onder H 0is gekend als er geen knopen
aanwezig zijn in de gegevens
● exacte P-waarden berekenen met software, volgens volgende tabel
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 62 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: de Wilcoxon teststatistiek

Tabel: Teststatistiek en exacte P-waarden bij hypothesetesten omtrent het


vergelijken van twee verdelingen.
H0 ∶ F 1 = F2 Teststatistiek Exacte P-waarde
n1
R(Y )
1,i
W =∑ i
H1 ∶ F1 <F2 of F1 >F2 =1 2P(W >w ) als w n1(n1 2+n2 +1)
2P(W <w ) als w n1(n1 n+22 + 1)
>
H1 ∶ F1 <F2 < P(W >
H 1∶ F >1F P(W
w) <
2 w)
verwerp de nulhypothese als P-waarde kleiner is dan α
● benaderende verdeling gekend als geen (of weinig) knopen en n ,1

n2 voldoende groot:
n1(n 1 2+n +1)
W 2
.
− ≈H0N(0, 1)
n1n2 (1 2n +n +1)
12

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 63 / 85


Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: de Wilcoxon teststatistiek


● benaderende verdeling onder H0
●meestal doet men ook nog een continu¨ıteitscorrectie
› zie tabel hieronder

Tabel: Teststatistiek en benaderende P-waarden bij hypothesetesten omtrent


het vergelijken van twee verdelingen.

H 0 ∶ F 1 = F2 Teststatistiek Benaderende P-
waarde n1
W = ∑i
R(Y 1,i)
=1 |w −n (n +n +1)/2|
H1 ∶ F1 <F2 of F1 >F2 2 − 2Φ −0.5
, 11 2 )
n1n2 (1 2n +n +1)/12
( w n1(n 1 2+n +1)/2
H1 ∶ F1 < F2 1 − Φ −0.5−
, )
n1n2(n1+n2+1)/12
(
H1 ∶ F1 > F2 Φ w ,
+0.5−n
+1)/2
1 1(n
2 +n
)
n1n2(n1+n2+1)/12
(
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 64 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee
regio’s
is de verdeling van ‘NOx Pot’ verschillend in de Midwest en in
het Zuiden ?
› in geval van gelijke verdeling verwachten we een waarde van W
(=de som van de rangen van de regio Midwest) een waarde die
dicht ligt bij n181 (1n2 +n +1) (18+16+1)
=
› =
testwaarde is: w = 315.5
2
315
d
2
√ it ligt dicht bij het verwachte
√ gemiddelde hierboven ....
› n1 n2 (n1 + n + 1)/12 = 840 =
› we28.98
vinden
2 een P-waarde voor de tweezijdige hypothesetest die
gelijk is aan
315.5 − 315 −
2P(W >w ) ≈ 2P (Z ) = Z >0) =
0.5
> 2P( 1
28.98
› er is geen reden om te twijfelen aan de nulhypothese
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 65 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen

Vergelijken van verdelingen: niet-parametrisch


Voorbeeld: pollutie data; variabele ‘Regen’ vergelijken voor twee
regio’s
krijgt globaal bekeken het Zuiden (Y 2 ) een grotere hoeveelheid
regen te verwerken dan de MidWest (Y 1 )?
´e´enzijdige hypothesetest: H0 ∶ F1 = F2 versus H1 ∶ F1 >
› F2
› verwachte
testwaardewaarde
is: w =van W onder H0 : zoals voorheen (315)
206.5
dit
√ ligt duidelijk lager dan√het verwachte gemiddelde hierboven ....
› n1n 2(n +
1 n + 1 )/12 = 840 =
› we vinden
2 volgende28.98
P-waarde voor de ´e´enzijdige hypothesetest
206.5 + 0.5 −
P(W <w ) ≈ P (Z ) =P(Z <−3.75) ≈
315
< 0
28.98 stochastisch lager in de
› de hoeveelheid regen is dus significant
Midwest dan in het Zuiden
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 66 / 85
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen

Twee kwantitatieve variabelen


Het verschil van twee variabelen vergelijken

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 67 / 85


Twee kwantitatieve variab el en Het verschil van twee variabelen vergelijken

Het verschil van twee variabelen vergelijken

› beschouw ´e´en populatie; en zij X en Y twee kwantitatieve


variabelen die gemeten worden in diezelfde populatie
› voorbeeld: julitemperaturen en januaritemperaturen in
Amerikaanse steden (per stad dus die 2 opmetingen)
› we hebben dus een X -meting en een Y -meting van eenzelfde
onderzoekseenheid
we spreken van gepaarde metingen
› in het algemeen zullen gepaarde metingen afhankelijk zijn
› gebaseerd op een steekproef (X 1, Y 1) , . . . , (X
n , nY ) uit (X, Y
),
willen we een uitspraak doen over de verschilvariabele

V =X −
Y
› vraagstelling is dus rond V , ´e´en toevalsvariabele

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 68 / 85


Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen

Het verschil van twee variabelen vergelijken

vraagstelling rond V =X − Y
› onderscheid maken tussen:
V is normaal verdeeld
● V is niet normaal verdeeld

› opgelet, aangezien X en Y afhankelijk zijn, volstaat het niet dat


X en Y normaal verdeeld zijn, om V =X − Y ook normaal
verdeeld te hebben

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 69 / 85


Twee kwantitatieve variab el en Het verschil van twee variabelen vergelijken

Verschil variabele is normaal verdeeld


V normaal verdeeld: V ∼ N(µ ,vσ )v2
● testprobleem
H0 ∶

µv = 0
● onder H 0, is E (V ) =µ =H 01 ∶
● teststatistiek
v (gebaseerd op de metingen X i − Yi , i =1, . . . ,
µv ≠ 0 n)
V¯ 1 n
T testen
´e´enzijdige = waarbij Sv2
√ook mogelijk ( V i −V¯ )2
S v/ n= n− Σ i
1 =1
● verwerp H0 voor de tweezijdige test, op significantieniveau α,
indien de P-waarde 2P(T > |t|) <α, met T ∼ tn−
● 100(1 − α)%-betrouwbaarheidsinterval voor µv = 1 E ( X ) − E (Y )

sv sv is
[v¯ − n−1,α/
t √ , v¯ + t n−1,α/ √ ]
2 n 2 n
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 70 / 85
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen

Het verschil van twee variabelen vergelijken

› als V niet normaal verdeeld is, is het meestal niet erg zinvol om
een transformatie g (V ) te zoeken die tot normaliteit leidt
› immers, een besluit omtrent het gemiddelde van g (V ) is in het
algemeen niet om te vormen tot een besluit omtrent het verschil
tussen de gemiddelden van X en Y (of tussen een zekere
transformatie van X en Y )

› het is daarom nuttiger eenzelfde transformatie g te zoeken voor


X en voor Y zodat

V = g (X ) − g
(Y )

normaal verdeeld is

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 71 / 85


Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen

Verschil variabele is niet normaal verdeeld: mediaan test

› indien V niet normaal verdeeld is, en er ook geen geschikte


transformatie voor X en Y kan gevonden worden, dient men over
te gaan op een niet-parametrische test
› we beschouwen weer V =X − Y en voeren dan een mediaantest
uit

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 72 / 85


Twee kwantitatieve variab el en Het verschil van twee variabelen vergelijken

Verschil variabele is niet normaal verdeeld: mediaan test


Voorbeeld: pollutie data; verschil tussen juli temperatuur en januari
temperatuur in Amerikaanse steden
X = ‘JulT’ Y = ‘JanT’ V =X − Y
› H 0∶ Med(V ) ≤0 versus H ∶ Med( V ) >
› V 1normaal verdeeld ? 0

● ●
●●● ● ● ●
●●●
●●● ●
●● ●

V=JulT−JanT


●●●
●●● ●

●●●
●●●● ●
●●●


●●
●●
●●
20 30 40 50 60




●●

● ● ● ●

−2 −1 0 1 2

Standaardnormale kwantielen

Figuur: Normale kwantielplot voor de verschilvariabele V =‘JulT’ − ‘JanT’.

› r = 0.905;
Q P-waarde Shapiro-Wilk test < α =⇒ niet normaal verdeeld
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 73 / 85
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen

Verschil variabele is niet normaal verdeeld: mediaan test


Voorbeeld: pollutie data; verschil tussen juli temperatuur en januari
temperatuur in Amerikaanse steden
› ´e´enzijdige testhypothese
H 0∶ Med(V ) ≤0 versus H ∶ Med( V ) >
› mediaantest:
1 0
●A gerealiseerde
= aantal observaties vanAV(op
waarde van groter dan
basis van0 de steekproef): a =60

voor elke van de 60 steden is de julitemperatuur immers hoger dan
de januaritemperatuur
● we kunnen H0 dus verwerpen, zodat we besluiten dat de mediaan
van ‘JulT − JanT’ significant groter is dan 0
● zinvoller zou zijn bijvoorbeeld de toevalsvariabelen

X en Y + 40

te beschouwen
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 74 / 85
Tw e e k w a n t i t a t i e v e Bivariate normaliteit nagaan
variabelen

Twee kwantitatieve variabelen


Bivariate normaliteit nagaan

beknopte behandeling

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 75 / 85


Tw e e k w a n t i t a t i e v e Bivariate normaliteit nagaan
variabelen

Onafhankelijkheid bij kwantitatieve X en Y : bivariate


normaliteit nagaan

› een noodzakelijke voorwaarde voor bivariate normaliteit van


(X , Y ) is de normaliteit van X en Y
› normaliteit van de marginale verdelingen kunnen we nagaan
(kwantielplot, Shapiro-Wilk test)

› omdat we bivariate normaliteit (nog) niet kunnen testen, is het


steeds aangewezen een scatterplot van de gegevens te maken
› indien (X, Y ) bivariaat normaal verdeeld zijn, zou je op de
scatterplot een elliptische puntenwolk moeten herkennen
ook mogelijke uitschieters kunnen hierop gevonden worden
› het is immers mogelijk dat X en Y afzonderlijk normaal verdeeld
zijn en ongecorreleerd zijn (zie test voor correlatie hierna), maar
toch niet bivariaat normaal verdeeld zijn

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 76 / 85


Tw e e k w a n t i t a t i e v e Bivariate normaliteit nagaan
variabelen

Onafhankelijkheid bij kwantitatieve X en Y : bivariate


normaliteit nagaan

elliptische puntenwolk geen elliptische puntenwolk

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 77 / 85


Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

Twee kwantitatieve variabelen


De correlatie tussen twee variabelen testen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 78 / 85


Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

De correlatie tussen twee kwantitatieve variabelen testen

› twee kwantitatieve toevalsvariabelen X en Y

› X en Y zijn onafhankelijk
⇐⇒

› Cov (X, Y ) = E ((X − E (X ))(Y − E (Y ))) = E (XY ) − E


(X )E (Y )
› ρ(X, Y ) √ Cov (X,Y )
= Var(X )Var(Y )
als X en Y onafhankelijk zijn, dan is Cov (X, Y ) =0 = X ,
ρ( onderscheiden twee situaties:
› we Y)
▷ de variabelen (X, Y ) zijn bivariaat normaal verdeeld
▷ de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 79 / 85


Twee kwantitatieve variab el en De correlatie tussen twee variabelen testen

De correlatie tussen twee kwantitatieve variabelen testen


de variabelen (X, Y ) zijn bivariaat normaal verdeeld
H0 ∶ ρ=
het testprobleem
0
H1 ∶ ρ≠
is dan equivalent met0
H0 ∶ X en Y
zijn
H1 ∶ onafhankelijk X en Y zijn lineair afhankelijk

● steekproef: (X 1 , Y 1 ), . . . , (X n , Y n )

●teststatistiek is gebaseerd op de steekproefcorrelatieco¨efficient


n
X i − X¯ )(Yi −
Σ (
i Y) ¯ r =gerealiseerde waarde van R
R =‚ n=1 n
ı, ¯ 2 ¯ 2
Σ
i
( X i − X )(−
Σ
i=
Yi Y
=1
I. Gijbels & D. Vanpaemel (KU )
1
Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 80 / 85
Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

De correlatie tussen twee kwantitatieve variabelen testen

› testprobleem H0 ∶ ρ =0 versus H1 ∶ ρ ≠0

› teststatistiek: T = R
√ n− 2
1− 2
R
› T ∼ tn−2 onder H als bivariate normaliteit voldaan is
0 √
› testwaarde t r√n− 2
met r de gerealiseerde waarde van de
1− 2
= r
empirische Pearson correlatieco¨effici¨ent

› verwerp H0 als t ‘te ver’ afligt van 0

› P-waarde = 2P(T “ |t|)

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 81 / 85


Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

De correlatie tussen twee kwantitatieve variabelen testen

Voorbeeld: pollutie data; zijn de variabelen Mortaliteit’ en


‘log(NOx Pot)’ afhankelijk?

› als er 5 uitschieters uit de dataset worden verwijderd, dan kan de


verdeling van (X, Y ) goed benaderd worden door een bivariaat
normale verdeling ...

› r =0.64√
› t r n− 2 =
√ 1−r 2
= 6.08
P-waarde = 2P(T >6.08) ≈ 0 met T ∼ t53
› verwerp H 0op significantieniveau α =0.05
› we verwerpen ρ =0 en besluiten dat Mortaliteit’ en
‘log(NOx Pot)’ (lineair) afhankelijk zijn

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 82 / 85


Twee kwantitatieve variab el en De correlatie tussen twee variabelen testen

De correlatie tussen twee kwantitatieve variabelen testen


de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld

test met behulp van de Spearman correlatieco¨effici¨ent
H 0∶ ρ =
s 0 versus H ∶ ρ 1 ≠0
s
met ρs de populatie versie van de Spearman correlatieco¨effici¨ent
noem F en G de verdelingsfuncties van X en Y

› stel U =F (X ) en V =G (Y ), Cov
dan (U,
is V )
ρs= √
Var (U)Var
(V )
› we testen niet op lineaire (on)afhankelijkheid tussen X en Y ,
maar wel
H 0∶ er is geen monotoon verband tussen X en Y
versus
H1 ∶ er is een mate van monotoon verband tussen X en Y
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 83 / 85
Twee kwantitatieve variab el en De correlatie tussen twee variabelen testen

De correlatie tussen twee kwantitatieve variabelen testen

de variabelen (X, Y ) zijn niet bivariaat normaal verdeeld

› testprobleem H0 ∶ ρs =0 versus H1 ∶ ρs ≠0

› teststatistiek: T = R
√S 2
n−1− 2
S
R

met RS de empirische Spearman correlatieco¨effici¨ent

› T ≈tn−2 onder√ H0
› testwaarde t r√ 2
S
n−1− 2
met rSde gerealiseerde waarde van de
= r
S

empirische Spearman correlatieco¨effici¨ent

› verwerp H0 als t ‘te ver’ afligt van 0

› P-waarde = 2P(T “ |t|)


I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 84 / 85
Tw e e k w a n t i t a t i e v e De correlatie tussen twee variabelen testen
variabelen

wat nog volgt


Hoofdstuk 9: lineaire regressie
● korte toelichting verloop examen (vbn examenvragen), en
gelegenheid tot vragen stellen

● later deze week: opdracht projectwerk !

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 85 / 85

You might also like