Professional Documents
Culture Documents
Slides HFSTK 8 Acadjaar 20192020
Slides HFSTK 8 Acadjaar 20192020
Bivariate inferentie
(X , Y ) twee
toevalsvariabelen
› inferentie voor twee kwalitatieve variabelen
proporties vergelijken in twee groepen
● onafhankelijkheid tussen twee kwalitatieve variabelen testen
› combinatie van een kwantitatieve en een kwalitatieve variabele
● het vergelijken van gemiddeldes en varianties van een normaal
verdeelde variabele in twee groepen
● vergelijken van de verdeling van een variabele in twee groepen
1 n1 1 n2
P̂ 1 = 1,i P̂ 2 2,i
n Σ Y en
= n Σ Y
1 i =1 2 i =1
te vergelijken
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 6 / 85
Twee kwalitatieve variabelen Inferentie omtrent twee proporties
n1Pˆ1 + n 2P2ˆ
Pˆ0
= n1 + n2
Bijgevolg
(Pˆ 1− Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n1 + 1n )
1 2
2. Kies teststatistiek Z :
(P̂ 1 − Pˆ )
Z =. 2
Pˆ0( 1 − ˆP0 )(n11 + n )
1 2
Tabel: Algemene notatie voor een kruistabel van twee kwalitatieve variabelen
op basis van absolute frequenties.
Y
X … Totaal
my,1 my,2 my,3
…
mx,1 n n12 n13 n1k n1+
mx,2 my,k11 n22 n23 … 2 n2
⋮n 21 ⋮ ⋮ n ⋮ k ⋮ +⋮
⋮ … nr
mx,r nr 1 nr 2 nr 3 nrk
Totaal … +n
n+1 n+2 n+3
● de statistiek die de
n+kverschillen in geobserveerde absolute
frequenties en verwachte aantallen meet:
2
2 (geobserveerde absolute frequentie − verwachte
X =Σ waarde) verwachte waarde
met verwachte waarde = (rijtotaal ×
kolomtotaal)/n
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 85
Twee kwalitatieve variabelen Onafhankelijkheid van twee variabelen testen
2 r k (nij− nf fi +) 2
X =Σ Σ nfi +f+j
i =1
j=1 +j
● onder de nulhypothese: X 2 heeft
benaderend een χ2-verdeling
met het aantal vrijheidsgraden gegeven door
Regen
JulT
30 40 50 60
70
75
MW Z MW Z
Regio Regio
Figuur: Boxplots van (a) ‘JulT’ en (b) ‘Regen’ in de Midwest en het Zuiden.
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e Het gemiddelde van een variabele vergelijken voor twee groepen
(a) 85
(b)
60
80
Regen
JulT
40
50
75
30
70
MW Z MW Z
Regio Regio
(a) (b)
● ● ● ●
84
●
80
●
● ●
78
●
●
● ●
JulT (MW)
76
JulT (Z)
● ●
74 76 78 80 82
● ● ● ● ●
● ●
74
●
●
● ●
72
● ● ● ●
● ●
70
72
● ●
−2 −1 0 1 2 −2 −1 0 1 2
(c) (d)
40
● ●
● ●
●
● ● ●
●
35
● ● ●
Regen (MW)
30 35 40 45 50 55 60 65
Regen (Z)
●
●
●
●
●
●
● ● ● ●
●
30
● ● ● ●
●
●
●
25
● ●
−2 −1 0 1 2 −2 −1 0 1 2
Y¯1 −
Z = . Y¯2
∼H0 N(0,
σ21 + σ2 1)
n2 1 n2
● we moeten volgende situaties onderscheiden:
2
●● de populatievarianties σ en
1 σ zijn gekend : gebruik de
2
teststatistiek Z 2
2 2
●● de populatievarianties σ en
1 σ zijn gelijk maar niet gekend:
σ122=σ =22 σ 2
; σ niet gekend2; we spreken van
homoscedasticiteit
2
●● de populatievarianties σ en
1 σ kunnen niet gelijk verondersteld
2
worden, en zijn niet gekend;
2 we spreken van heteroscedasticiteit
n1− 1 n −1
E (Sp2 ) E (S12) 2 E (S222 ) = ja!
= n 1 +n2 −2
+ n 1 +n2 −2
σ
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 30 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen
Y¯1 − Y 2 − (µ 1− µ 2)
●
¯ . ∼ N(0,
2
σ + σ
1 2 1)
n21 n
benader
.
2
de standaardfout van Y¯1− Y , namelijk
. ¯2. 1
σ21 + σ22 = 1
n1 n2 n11 + n , met S p n11 + n
σ 2 2
p2
(n1 + n − 2)S ∼ 2
n1+n2−2
χ 2 σ2
● er volgt dan
(Y¯1 − Y ) − µ1− µ )
T ¯2 ( √ 2 ∼ n1+n2−2
= S p /n1+ 1/n2 t
1
ƒ (Y¯1− Y ) − ( µ1− µ ) ⎞
1 − α = P −t
n +n −2,α/2 ¯2 √ 2 ™ n1+n2 −2,α/2
™ ⎞ 12 Sp 1/n 1 + / 2 t J
1 √ n
1/n1 + 1/n2™ µ −1 µ ™
=P ((Y¯1 −Y¯2) − tn1+n2−2,α/2Sp
√ 2
¯ ¯
(Y −Y ) + t S 1/n 1 + 1/n2)
1 2 n1+n2−2,α/2 p
H0 ∶ µ1 = µ2 Teststatistiek P-
Y¯1−¯2Y waarde
T . ≈
S12 S
H0 r
22
= +
n1 n 2
t
als σ 12≠σ 22
H1 ∶ µ1 ≠ µ2 2P(T > |
H1 ∶ µ1 >µ2 t|)P(T >
H1 ∶ µ1 <µ2 t) <
P(T
t)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 36 / 85
Een kwantitatieve en een kwalitatieve variabele Het gemiddelde van een variabele vergelijken voor twee groepen
(n1− 1)S 12
› ∼ χn1−1
2
σ21
(n2− 1 )S 22
› ∼ χn2−1
2
σ2
› als S 12en S onafhankelijk
2
2
› testwaarde f s12
s22
=
1.5
f20,30 f50,50
1.0
Dichtheid
f2,3
f4,4
f10,5
0.5
0.0
P (F < f )
P (F > f )
0 f 0f
H0 ∶ σ =12σ 2
2 Teststatistiek P-
F =S 122/ S waarde
∼H0 F n1−1,n −1
2
2
H1 ∶ σ ≠12σ 2
2 2P(F > f ) als f > F (0.5
n1 −1,n2 −1
Q ) (
n1− 1,n 2−1
H1 ∶ σ >12σ 2
2 2P(F < f ) als f < F P(F >f )
H1 ∶ σ <12σ 2
2 Q P(F <f )
85
Midwest: s 12=11.65
80
JulT
75
Zuiden: s 22=13.18
70
MW Z
Regio
2
› we testen H 0∶ σ = 1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =11.65/13.18 =
0.88
› P-waarde (berekend met software) is gelijk aan
2P(F <0.88) =0.79 indien F ∼ F 17,15
› P-waarde groter dan de gangbare significantieniveaus =⇒ geen
aanleiding tot het verwerpen van de gelijkheid van de
populatievarianties
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 46 / 85
Een kwantitatieve en een kwalitatieve v a ri a b e l e De variantie van een variabele vergelijken voor twee groepen
Midwest: s 12=16.13
Regen
30 40 50 60
Zuiden: s 22=91.36
MW Z
Regio
2
› we testen H 0∶ σ =1
2
σ 2 versus H1 ∶ σ 221=/ σ
› testwaarde voor de2tweezijdige hypothesetest is
f =16.13/91.36 =
› P-waarde
0.18 (berekend met software) is gelijk aan
2P(F <0.18) =0.001 indien F ∼ F 17,15
› P-waarde kleiner dan α voor α ≥
0.001
=⇒ populatievariantie van de variabele ‘Regen’ verschillend in
beide groepen (Midwest en Zuiden)
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 47 / 85
Een kwantitatieve en een kwalitatieve variabele De variantie van een variabele vergelijken voor twee groepen
●
50
30
●
40
NOx Pot MW
NO x Pot Z
●
20
●
●
20 30
●
● ●
●
●
10
● ●
● ● ● ●
●
10
● ●
● ● ●
●
● ● ●
● ● ● ● ●
0
0
−2 −1 0 1 2 −2 −1 0 1 2
Voorbeeld: pollutie data; variabele ‘NOx Pot’ vergelijken voor twee regio’s
Stad Regio NOx Pot Rang Stad Regio NOx Pot Rang
Dallas Z 1 2.0 Minneapolis MW 11 18.5
Fort Worth Z 1 2.0 Wilmington Z 11 18.5
Miami Hialeah Z 1 2.0 Youngstown MW 13 20.0
Wichita MW 2 4.0 Nashville Z 14 21.0
GrandRapids MW 3 5.5 Akron MW 15 22.5
Greensboro Z 3 5.5 St Louis MW 15 22.5
Dayton MW 4 8.0 New Orleans Z 17 24.0
Flint MW 4 8.0 Memphis Z 18 25.0
KansasCity MW 4 8.0 Cleveland MW 21 26.0
Houston Z 5 10.0 Milwaukee MW 23 27.0
Canton MW 7 12.0 Cincinnati MW 26 28.0
Indianapolis MW 7 12.0 WashingtonDC Z 28 29.0
Toledo MW 7 12.0 Birmingham Z 32 30.0
Atlanta Z 8 14.5 Detroit MW 35 31.0
Chattanooga Z 8 14.5 Louisville Z 37 32.0
Columbus MW 9 16.5 Baltimore Z 38 33.0
Richmond Z 9 16.5 Chicago MW 63 34.0
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 53 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen
empirische verdelingsfuncties
(a) ‘NOx Pot’ (b) ‘Regen’
1.0
1.0
0.8
0.8
0.6
0.4 0.6
F^nx
F^ n
0.4x
MW MW
0.2
0.2
Z Z
0.0
0.0
0 10 20 30 40 50 60 20 30 40 50 60 70
NOxPot Regen
andere testproblemen
›
H0 ∶ F1(x ) = F2(x ) voor alle x ∈
H1 ∶
IR F1(x ) > F2(x ) voor alle x ∈
› IR
H0 ∶ F1(x ) = F2(x ) voor alle x ∈
H
IR1 ∶ F 1(x ) < F (x ) voor alle x ∈
IR2
onder H1 : we noemen Y 1 stochastisch groter dan Y2
› tweezijdige test:
H0 ∶ F (x )voor
= F2alle
(x )x ∈IR,
voor
of
H1 ∶ F1(x ) < F2(x1
alle x ∈ IR voor alle x ∈
) F1(x ) >
F2(x ) IR
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 57 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen
(a) (b)
1 0.4 f1
F1
0.5 F2 0.2 f2
0 0
c c
(c) (d)
1 2
F1
F2
0.5 1
f1
f2
0 0
(e) (f)
1 0.8
F1
F2 f1
0.5 0.4
f2
0 0
voorbeeld 1 voorbeeld 2
groep 1: -4, -3, -2, 0 groep 1: -3, -1, 1, 4
groep 2: -1, 1, 2, 3 groep 2: -2, 0, 2, 3
. . e . e e e . e e .
. 0 1 2 . e 0 1 2 3 4
-4 -3 e› -2 -3 -2 -
−1 3
teststatistiek W =som van de rangen
.
voor groep 1
› voorbeeld 1: w =1 + 2 + 3 + 5 =111
› voorbeeld 2: w =1 + 3 + 5 + 8 =
17 ) de rang van Y in de volledige dataset
› zij R(Y 1, i 1,i
› de Wilcoxon rangsom W gelijk aan de som van de rangen van
n1
W =Σ R ( Y1,i)
i =1
●
als de gegevens van beide groepen door elkaar liggen,
na
ordening, dan zal W ongeveer gelijk zijn aan n ×1 de gemiddelde
rang
● wat is die gemiddelde
rang?
1 n1+n2
1 (n1 +n 2)(n 1+ n 2 + 1) n1 + n 2+ 1
=
Σ
n1+ n i 1 i n1+ n 2 2
=
2 2
● onder H 0∶ F (= x ) =F2 (x ) voor alle x ∈IR, verwachten we dus dat
1
n1+ n + 1
E (W ) = 1 2
n 2
● de exacte verdeling onder H 0is gekend als er geen knopen
aanwezig zijn in de gegevens
● exacte P-waarden berekenen met software, volgens volgende tabel
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 62 / 85
Een kwantitatieve en een kwalitatieve v a r i a b e l e De verdeling van een variabele vergelijken voor twee groepen
n2 voldoende groot:
n1(n 1 2+n +1)
W 2
.
− ≈H0N(0, 1)
n1n2 (1 2n +n +1)
12
H 0 ∶ F 1 = F2 Teststatistiek Benaderende P-
waarde n1
W = ∑i
R(Y 1,i)
=1 |w −n (n +n +1)/2|
H1 ∶ F1 <F2 of F1 >F2 2 − 2Φ −0.5
, 11 2 )
n1n2 (1 2n +n +1)/12
( w n1(n 1 2+n +1)/2
H1 ∶ F1 < F2 1 − Φ −0.5−
, )
n1n2(n1+n2+1)/12
(
H1 ∶ F1 > F2 Φ w ,
+0.5−n
+1)/2
1 1(n
2 +n
)
n1n2(n1+n2+1)/12
(
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 64 / 85
Een kwantitatieve en een kwalitatieve variabele De verdeling van een variabele vergelijken voor twee groepen
V =X −
Y
› vraagstelling is dus rond V , ´e´en toevalsvariabele
vraagstelling rond V =X − Y
› onderscheid maken tussen:
V is normaal verdeeld
● V is niet normaal verdeeld
µv = 0
● onder H 0, is E (V ) =µ =H 01 ∶
● teststatistiek
v (gebaseerd op de metingen X i − Yi , i =1, . . . ,
µv ≠ 0 n)
V¯ 1 n
T testen
´e´enzijdige = waarbij Sv2
√ook mogelijk ( V i −V¯ )2
S v/ n= n− Σ i
1 =1
● verwerp H0 voor de tweezijdige test, op significantieniveau α,
indien de P-waarde 2P(T > |t|) <α, met T ∼ tn−
● 100(1 − α)%-betrouwbaarheidsinterval voor µv = 1 E ( X ) − E (Y )
sv sv is
[v¯ − n−1,α/
t √ , v¯ + t n−1,α/ √ ]
2 n 2 n
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 70 / 85
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen
› als V niet normaal verdeeld is, is het meestal niet erg zinvol om
een transformatie g (V ) te zoeken die tot normaliteit leidt
› immers, een besluit omtrent het gemiddelde van g (V ) is in het
algemeen niet om te vormen tot een besluit omtrent het verschil
tussen de gemiddelden van X en Y (of tussen een zekere
transformatie van X en Y )
V = g (X ) − g
(Y )
normaal verdeeld is
● ●
●●● ● ● ●
●●●
●●● ●
●● ●
●
V=JulT−JanT
●
●●●
●●● ●
●
●●●
●●●● ●
●●●
●
●
●●
●●
●●
20 30 40 50 60
●
●
●
●
●●
●
● ● ● ●
−2 −1 0 1 2
Standaardnormale kwantielen
› r = 0.905;
Q P-waarde Shapiro-Wilk test < α =⇒ niet normaal verdeeld
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 73 / 85
Tw e e k w a n t i t a t i e v e Het verschil van twee variabelen vergelijken
variabelen
X en Y + 40
te beschouwen
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 74 / 85
Tw e e k w a n t i t a t i e v e Bivariate normaliteit nagaan
variabelen
beknopte behandeling
› X en Y zijn onafhankelijk
⇐⇒
● steekproef: (X 1 , Y 1 ), . . . , (X n , Y n )
› testprobleem H0 ∶ ρ =0 versus H1 ∶ ρ ≠0
√
› teststatistiek: T = R
√ n− 2
1− 2
R
› T ∼ tn−2 onder H als bivariate normaliteit voldaan is
0 √
› testwaarde t r√n− 2
met r de gerealiseerde waarde van de
1− 2
= r
empirische Pearson correlatieco¨effici¨ent
› r =0.64√
› t r n− 2 =
√ 1−r 2
= 6.08
P-waarde = 2P(T >6.08) ≈ 0 met T ∼ t53
› verwerp H 0op significantieniveau α =0.05
› we verwerpen ρ =0 en besluiten dat Mortaliteit’ en
‘log(NOx Pot)’ (lineair) afhankelijk zijn
› stel U =F (X ) en V =G (Y ), Cov
dan (U,
is V )
ρs= √
Var (U)Var
(V )
› we testen niet op lineaire (on)afhankelijkheid tussen X en Y ,
maar wel
H 0∶ er is geen monotoon verband tussen X en Y
versus
H1 ∶ er is een mate van monotoon verband tussen X en Y
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 83 / 85
Twee kwantitatieve variab el en De correlatie tussen twee variabelen testen
› testprobleem H0 ∶ ρs =0 versus H1 ∶ ρs ≠0
√
› teststatistiek: T = R
√S 2
n−1− 2
S
R
› T ≈tn−2 onder√ H0
› testwaarde t r√ 2
S
n−1− 2
met rSde gerealiseerde waarde van de
= r
S