Professional Documents
Culture Documents
Slides H2 Aca 20192020 NVersie
Slides H2 Aca 20192020 NVersie
Titanic&_sfm_cases=4+59943
nummer gegevens
●kolom ivm
benaming 2 208
variabele opvarenden, en mbt 14 variabelen
beschrijving
of variabele
1 Name Naam van de opvarende
2 Survived heeft het overleefd of niet (2 niveau’s): “Alive” or “Dead”
3 waar aan boord gekomen (Belfast, Southampton, Cherbourg of Queenstown)
4 Boarded ticket in welke Klasse (1, 2, 3 of ‘Crew’)
5 Class M=‘man’, W=‘Woman’, C= ‘Child’
6 MWC leeftijd van de passagier (uitgedrukt in jaren)
7 Adut
Age −or−Chld 2 niveau’s: ‘Adult’, of ‘Child’
8 Sex ’Female’ of ‘Male’
9 Paid prijs betaald voor het ticket (in Britse Ponden)
10 nummer van het ticket
Ticket No
−
11 Boat−or− Body plaats waar het lichaam werd gevonden
12 Job de taak van het bemanningslid
13 meer gedetailleerd gegeven rond klasse passagier en locatie crew
Class−Dept
14 een meer gedetailleerde “Class”variabele
Class−Full
●opvarenden
je vindt dezedie geen lid vandata
gereduceerde de bemanning
op Toledo, zijn
in de
T
bestanden
itanic.txt of Titanic.cvs ... (zie Documenten → Zelfstudiepakketten
→
Datasets)
● deze gereduceerde matrix van gegevens bevat 1 315 rijen en 10 kolommen
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 8 / 117
De‘Titanic’, de data en beschrijvende statistiek hiervan
k f1 f
Σ fj = + + . . . k =
j= n fn
+ 2 1.
1 n
n
Deze frequenties kunnen samengevoegd worden in een
frequentietabel.
(a) (b)
0.76%
20.46%
750
Belfast
Cherbourg
9.35%
Queenstown
500 Southampton
69.43%
250
staafdiagram, taartdiagram,. . . .
klasse fj /
]0,10]
klassemiddens mj 5 fj 100 n 315
100/1
]10,20] 15 218 218/1 315
]20,30] 25 464 464/1 315
]30,40] 35 264 264/1 315
]40,50] 45 165 165/1 315
]50,60] 55 69 69/1 315
]60,70] 65 31 31/1 315
]70,80] 75 4 4/1 315
0.3
Relatieve frequentie
0.2
0.1
0.0
0 20 40 60 80
Leeftijd
0.15
0.10
Relatieve frequentie
0.05
0.00
0 20 40 60 80
Leeftijd
Soms wil men klassen gebruiken die niet van gelijke lengte zijn,
bijvoorbeeld omdat sommige delen van de uitkomstenverzameling S
minder dik bezet zijn. Een grotere klassebreedte is daar dus gewenst
om een niet al te gepiekte figuur te bekomen. Het verticaal uitzetten
van absolute of relatieve frequenties geeft dan geen correct beeld.
0.8 0.8
0.6 0.6
Relatieve frequentie
Relatieve frequentie
0.4 0.4
0.2 0.2
0.0 0.0
0 100 150 200 250 300 350 400 450 500 550 0 50 100 550
50 Betaald Betaald
De tweede figuur geeft een vrij pessimistische indruk omtrent de verdeling van de
betaalde ticket prijzen. Men heeft de neiging om het aantal tickets die meer kosten
dan 100 gdp te overschatten.
j
hj = h(m j) f jn
= ∆
Frequentiedichtheid
0.010
0.005
0.000
0 50 100 550
Betaald
klasse ∆j fj / hj
]0,10] f10
j 100 n 315
100/1 100/13 150
]10,20] 10 218 218/1 315 218/13 150
]20,30] 10 464 464/1 315 464/13 150
]30,40] 10 264 264/1 315 264/13 150
]40,50] 10 165 165/1 315 165/13 150
]50,60] 10 69 69/1 315 69/13 150
]60,70] 10 31 31/1 315 31/13 150
]70,80] 10 4 4/1 315 4/13 150
Symmetrische verdelingen
0 10 20 30 40 50 0 1 2 3 4 5 6
5 7 9 11 13 1 2 3 4 5 6
0.02
Frequentiedichtheid
0.01
0.00
0 20 40 60 80
Leeftijd Klasse 1
-3 -2 -1 0 1 2 3
n = 20 n = 150 n = 1500
0.30
0.30
0.30
0.20
0.20
0.20
0.10
0.10
0.10
0.00
0.00
0.00
3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17
0.03
0.02
Frequentiedichtheid
0.02
Frequentiedichtheid
0.01
0.01
0.00
0.00
0 20 40 60 80
0 20 40 60 80
L ee f t ij d K l as s e 1 Leeftijd Klasse 2
0.015
Frequentiedichthei
0.010
d
0.005
0.000
0 50 100 150 200 250 300 350 400 450 500 550
Betaald
−20 −10 0 10 20 30 40 50
Ras
Bimodale verdelingen
Bij aanwezigheid van twee deelgroepen in de gegevens kunnen twee
toppen (of modi) voorkomen in een histogram.
Histogram van de variabele ‘Age’ (in de Titanic data set). Onder
andere, twee duidelijke grotere leeftijdsgroepen: de babies en de
jonge twintigers
200
150
Absolute frequentie
100
50
0 20 40 60 80
Leeftijd
Soms hoort ´e´en getal of een relatief klein aantal getallen niet echt bij
de rest van de gegevensgroep: uitschieters (outliers). Het is
belangrijk de oorzaken te achterhalen van het voorkomen van
uitschieters.
0.015
Frequentiedichtheid
0.010
0.005
0.000
0 50 100 150 200 250 300 350 400 450 500 550
Betaald
vier passagiers betaalden voor hun ticket meer dan 512 gdp, terwijl
al de andere passagiers minder dan 300 gdp betaalden.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 34 / 117
Cumulatieve verdelingsfunctie
Voorbeeld 1:
5 metingen x1 = 1, x2 = 4, x3 = 3, x4 = 7 en x5 = 6.
› De geordende steekproef:
x (1) = 1, x (2) = 3, x (3) = 4, x (4) = 6 en x (5) = 7.
› frequenties, relatieve frequenties en cumulatieve relatieve
frequenties
x(i ) fi fi / F ˆn
1 n
1
1/5
1/5
3
1
1/5
2/5
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 37 / 117
Cumulatieve verdelingsfunctie
F ˆn 5/.5
1 4/.5 c
3/.5 c
2/.5 c
1/.5
0
x4
x1 x3
x5
x2 de sprongen: 1 /5 = 1/n, omdat elke observatie
De hoogte van
1 keer voorkomt. slechts
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 38 / 117
Cumulatieve verdelingsfunctie
F ˆn 6/.6
1 5/.6 c
4/.6
c
c
1/2/
.
6.6 c
0
x1 x3x =x
2 x4
5 x6
0.75
0.50
0.25
0.00
0 20 40 60
Leeftijd
1.00
0.75
0.50
0.25
0.00
0 20 40
60
0.03
Frequentiedichtheid
0.02
0.01
0.00
0 20 40 60 80
Leeftijd
› Fˆnlevert voor elk re¨eel getal een percentage p op. Omgekeerde vraag: gegeven
een bepaald percentage 0 <p ™1, welk re¨eel getal x situeert zich dan in
de overeenkomstige
steekproef ? positie in de
Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=
x = Qˆn (p)
Merk op dat Qˆn(p) = x (4) voor elke 3/5 < p ™ 4/5. Algemeen geldt
i− i
Qˆ n( p) = (ix ) indien <p
1
≤
n n
waarbij x(i ) het i -de kleinste getal voorstelt: x (1) ≤ x (2) ™ . . . ™ x ( n) .
›
Dit is een logische naamgeving aangezien resp. een kwart, de
helft en drie kwart van de gegevens kleiner is dan resp.
Qˆn(0.25), Qˆn(0.5) en Qˆn(0.75).
1 1n
x¯ (x 1+ ... + x )n = Σ xi
= n ni
=1
exe1x2 ex
/\
1ex1.5
3 x¯ = 5 10
4
7.5
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 50 / 117
Steekproefgemiddelde
k
x¯ 1Σ mj j
= n j= f
1
Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=
x = Qˆn (p)
Indien yi = ax +i b (
i =1, ..., n), met a, b re¨elegetallen, dan geldt
dat
y¯ = ax¯ + b med
(y ) = a med (x ) + b.
c mec c
d
−1 3.
verschuiven 5
me
0.5x¯ c c c
xi + 3 d
2 3.5 6.
verbreden c med x¯
5
c c
xi x 2
− 1 7
2 x¯
750
500
250
150
Aantal overlevers
100
50
1 2 3
Klasse
Voorbeeld:
steekproef 1: 71, 211.5, 55, 7.55, 8.2, 26.55, 15, 134.5 gbp
steekproef 2: 57.75, 59.4, 60, 65, 66.6, 69.55, 71, 80 gbp
Dus: nood aan kenmerken die weergeven hoe ver of hoe dicht de
overige punten rond een centrummaat gespreid liggen.
De steekproefstandaarddeviatie of standaardafwijking:
‚
1 n
s ı, Σ (x i −
2
n− i
= x¯)
1 =1
2 1 n 2
Het kwadraat van de standaarddeviatie s = Σ (x i − ) is de
n − i x¯
(steekproef)variantie. 1 =1
= 2
beide kwadraten echter gelijk aan (x1−x 2
) . We kunnen dus
2
slechts het gemiddelde nemen over n − 1 = 1 waarde. We
hebben 1 vrijheidsgraad verloren: van de n termen zijn er dus
slechts n − 1 onafhankelijke termen.
1 k
s2 mj − x¯)2 j
= n − jΣ= ( f
1 1
Bij normaal verdeelde gegevens geldt dat, wat ook de waarde van
het gemiddelde en de standaarddeviatie is:
› ongeveer twee-derden van de gegevens binnen een afstand
van
› ´e´en standaarddeviatie aan weerszijden van het gemiddelde
ligt.
ongeveer 95% van de gegevens binnen een afstand van twee
standaarddeviaties aan weerszijden van het gemiddelde ligt.
R = x (n) − x (1) .
Nadelen:
Indien yi =axi +b (i =1, ..., n), met a, b re¨ele getallen, dan geldt
sy x
SaSs 2 2
s2y = a sx .
› resp. Qˆ n( 0.75)
de snorharen (whiskers) vanbijdede
en stoppen boxplot:
kleinste,vertrekken bij Qˆn(0.25)
resp. de grootste
observatie die geen uitschieter is.
^ b ^
uitschieters
+3 IQR
b
7
^
+1.5 IQR
ˆ n( 0.75)
Q
7 7
Med ^IQR
7
Qˆn (0.25)
^ ^
-1.5 IQR
7
^ b -3 IQR
uitschieters
7 7
extreme
uitschieters
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 78 / 117
Boxplot
‘Age’:
60
40
Age
20
−0 . 4 − 0. 2 0.0 0.2
0.4
‘Paid’:
500
400
300
Paid
200
100
(a) (b)
500
60
400
300
Leeftijd
40
Betaald
200
20
100
0 0
1 2 3 Alive D ead
Klasse
Figuur: Boxplots van (a) ‘Leeftijd’ per Klasse en (b) ‘Paid’ voor de groep
van overlevenden en de groep van niet-overlevenden.
0.02
Frequentiedichtheid
0.01
0.00
0 20 40 60 80
0.4
0.2
0.0
−0.2
−0.4
0 20 40 60 80
Leeftijd klasse 1
0.015
Frequentiedichtheid
0.010
0.005
0.000
0 2 00 4 00
Betaald
0.4
0.2
0.0
−0.2
−0.4
0 10 0 2 00 30 0 40 0 5 00
Paid
Voorbeelden
: Is er een relatie tussen de leeftijd en prijs ticket ?
› Is de leeftijd van een passagier hoger in eerste klasse dan in
tweede klasse?
› Is er een verband tussen de variabelen ‘Boarded’ en ‘Class’?
x1, x2, . . . , xn
y1, y2, . . . , yn
400
Absolu te fre que
300
200
100
ntie
0
0
100
200
0
Be
300 20
ta
al
400 40
d
ijd
500 60 L ee ft
80
‘log(Betaald)’ en ‘Leeftijd’:
250
Abs olute freq
200
150
100
uentie
50
0
0
2
lo
0
g(
Be
4 20
ta
40
al
ftijd
d)
6 60 Le e
80
Gladdere voorstelling:
‘Betaald’ en ‘Leeftijd’ ‘log(Betaald)’ en ‘Leeftijd’
400 250
Absolute freq
200
Abso lute freq
300
150
200
100
uentie
uentie
100 50
0
0 0
1
100 2
log
200 3
(B
20
et
300
Be
20 4
aa
40
ta
40
ld)
400
al
5 ijd
ti jd Leeft
d
60 L e ef 60
500 6
(450,500]
(400,450] (5,6]
(350,400]
(4,5]
400
(300,350]
log(Betaald)
300 200
Betaald
(250,300] (3,4]200
100
100
(200,250]
0 0
(2,3]
(150,200]
(100,150] (1,2]
(50,100]
[0,1]
[0,50]
[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] [0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80]
Leeftijd Leeftijd
500
400
300
Betaald in £
200
100
0 20 40 60
Leeftijd
1.0
●
●
●
0.8 ●
●
0.6
● ●●
● ● ●
0.4
●
●
●
●
●
(x y ) ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●●
● ● ● ●
● ●●● ● ● ●
●
●
●●
●● ● ●
● ●
● ● ● ● ●
●● ●
y
y
● ● ● ●
● ●
● ● ●
●
● ●
● ●
● ●
● ●● ● ●●
● ● ●
●
● ● ●
●
●● ●● ●
●
● ●
●
● ● ● ● ●
x ●● x
●
●
Σ ( x i −x¯)(y −
i y¯)
i
=1
positief is.
Negatieve associatie → negatieve som.
Steekproefcovariantie:
1 n
cov (x, y ) x − )(y i −
( i
n− Σ x¯ y¯).
= i
1 =1
Dan geldt dat
cov (x, x ) =x2
s .
Titanic data set en efficient gebruik van de reddingssloepen:
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’. Dan
geldt cov (x, y ) = 0.0018. De twee variabelen zijn dus zwak positief
geassocieerd.
1 n
cov (x, 12y ) x − x¯)(12yi −
n− Σ ( i
= i 12y¯)
112 =1 n
= x − )(y i − y¯) = 12 cov x,
n− Σ ( i
i x¯ ( y ).
1 =1
In het algemeen geldt dat als u = i a x1 +i b en
1 v = ai y 2 i + b2 met
Voorbeelden:
-3 -2 -1 0 1 2 3
-4 -2 0 2 4 6 8 10
1 2 3 4 5 6 1 2 4 5 6
0 0.
4
4
2
2
0
6
0
6
1 2 3 4 5 6 1 2 3 4 5 6
r= r=
0.6 0.8
4
2
2 4 6 8 10
0
6
1 2 3 4 5 6 1 2 3 4 5 6
r= r=
0.9 0.95
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 105 / 117
Covariantie en correlatiecoeffici¨ent
Titanic data set
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’.
› dan geldt cov (x, y ) =
0.0018 is sx = 0.47 en sy = 0.26
› bovendien
› dit levert r = 0.0145
› zonder de 2 metingen rechtsonder, vinden we r = 0.55
Boat launching time and Boat
launching
load−efficiency
time and load−efficiency
● ● ● ●
1.0
1.0
● ●
●
● ●
●
● ●
● ● ●
● ●
0.8
0.8
●
● ●
●
0.6
● ●
● ●
0.6
● ●
● ● ●
0.4
● ● ●
0.4
●
●
● ●
›
De Pearson correlatieco¨effici¨ent r is anderzijds een maat voor lineaire
associatie. Wanneer die dicht bij 1 (resp. -1) ligt, zal ook rs
groot (resp. klein zijn). Het omgekeerde is echter niet
noodzakelijk waar.
› rswijzigt niet wanneer we een monotoon stijgende
transformatie doorvoeren op X en/of Y (omdat de
rangnummers niet wijzigen).
0.75
150
Absolute frequentie
0.25
50
0 0.00
2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 0 20 40 60
Leeftijd Leeftijd
60 60
40 40
Leeftijd
Leeftijd
20 20
0 0
Alive Dead 1 2 3
Klasse
Belfast 4 6 0 10
Cherbourg 144 26 99 269
Queenstown 3 7 113 123
Southampton 172 246 495 913
Totaal 323 285 707 1 315
500
400
300
200
100
0 3
Southampton
2
Queenstown
Cherbourg
1
Belfast
(a 500
) 400 400
Absolute frequentie
Absolute frequentie
300 300 Haven
Klasse
Belfast
1
Cherbourg
2
Queenstown
3
200 200 Southampton
100 100
0 0
(a) 1.00
( b) 1.00
0.75 0.75
Absolute frequentie
Absolute frequentie
Haven
Klasse
Belfast
1
0.50 0.50 Cherbourg
2
Queenstown
3
Southampton
0.25 0.25
0.00 0.00
hoe zouden de figuren eruit zien indien de klasse niet afhangt van de
inscheephaven?
onderzoek van afhankelijkheid tussen twee kwalitatieve variabelen:
zie Hoofdstuk 8
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 117 / 117