Slides H2 Aca 20192020 NVersie

Hoofdstuk 2: Beschrijvende statistiek
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 117

Inleiding
Doel van beschrijvende statistiek: de gegevens (bijvoorbeeld uit een

steekproef) op een duidelijke en verantwoorde manier voorstellen en
samenvatten.
› voor elke variabele de frequenties, die aanduiden hoe vaak de
verschillende uitkomsten voorkomen, in tabellen weergeven.
› grafische methoden, zoals staafdiagrammen en
histogrammen,. . . .
› samenvattende numerieke getallen, zoals het
steekproefgemiddelde, steekproefmediaan, ...
› verbanden tussen meerdere variabelen voorstellen, d.m.v.
puntenwolken en kruistabellen.

De pollutie data set en de ‘Titanic’ data set
◇ Op een vroegere versie van de slides vinden jullie de beschrijving

van de pollutie data set; en bespreking van beschrijvende
statistiek analyses van deze gegevens
◇ Op deze slides behandelen we een ander data voorbeeld: de
Titanic data.....

Het ‘Titanic’ verhaal en de data
● data ivm de Titanic kan je vinden op, bijvoorbeeld,
https://dasl.datadescription.com/datafile/titanic/?_sf_s=
Titanic&_sfm_cases=4+59943
nummer gegevens
●kolom ivm
benaming 2 208
variabele opvarenden, en mbt 14 variabelen
beschrijving
of variabele
1 Name Naam van de opvarende
2 Survived heeft het overleefd of niet (2 niveau’s): “Alive” or “Dead”
3 waar aan boord gekomen (Belfast, Southampton, Cherbourg of Queenstown)
4 Boarded ticket in welke Klasse (1, 2, 3 of ‘Crew’)
5 Class M=‘man’, W=‘Woman’, C= ‘Child’
6 MWC leeftijd van de passagier (uitgedrukt in jaren)
7 Adut
Age −or−Chld 2 niveau’s: ‘Adult’, of ‘Child’
8 Sex ’Female’ of ‘Male’
9 Paid prijs betaald voor het ticket (in Britse Ponden)
10 nummer van het ticket
Ticket No
−
11 Boat−or− Body plaats waar het lichaam werd gevonden
12 Job de taak van het bemanningslid
13 meer gedetailleerd gegeven rond klasse passagier en locatie crew
Class−Dept
14 een meer gedetailleerde “Class”variabele
Class−Full
● dit geeft dus een gegevens matrix van 2 208 rijen en 14

kolommen
De ‘Titanic’ data
● we werken met een gereduceerde versie van de data; na
verwijdering van “Name”, de kolom met de namen van
slachtoffers (!), en het verwijderen van een aantal niet zo
relevante variabelen zoals “Ticket −No”, “Boat or−−Body” en
“Job”
● dan blijft er nog een matrix over van 2 208 rijen en 10 variabelen
● voor sommige opvarenden zijn bepaalde gegevens niet

beschikbaar (bv voor ‘Crew’ leden is er geen betaling van
tickets, dus een missing waarde voor de variabele “Paid”)
● voor onze beperkte analyse hier, beperken we ons tot de
●opvarenden
je vindt dezedie geen lid vandata
gereduceerde de bemanning
op Toledo, zijn
in de
T
bestanden
itanic.txt of Titanic.cvs ... (zie Documenten → Zelfstudiepakketten
→
Datasets)
● deze gereduceerde matrix van gegevens bevat 1 315 rijen en 10 kolommen
De‘Titanic’, de data en beschrijvende statistiek hiervan
je kan in de data set bijvoorbeeld eens opvragen wat de minimum en

maximum prijs was betaald door de opvarenden:
minimum van ‘Paid’ = 0 Britse Ponden (gdp)
maximum van ‘Paid’ = 512,329 Britse Ponden (gdp)
◇ tickets per klasse schommelden rond de volgende bedragen:
13 gdp voor een derde klasse ticket
20 gdp voor de tweede klasse
87 gdp voor de eerste klasse
◇ om tijdens de overtocht in een van de grootste suites te
verblijven, moest men echter heel wat geld neertellen
◇ er reisden ook heel wat passagiers mee in lage klassen (grote
groepen emigranten in die tijd, die emigreerden naar de VS)

Frequenties
Hoe zijn de uitkomsten van een variabele in een (steekproef)groep

verdeeld ?
We vertrekken dus van de metingen x1, . . . , xn voor een bepaalde

variabele. De bedoeling is dan om een antwoord te formuleren op
vragen als:
Zijn de gegevens ongeveer gelijk, of sterk verschillend?
› Indien sterk verschillend, hoe sterk?
Op welke manier verschillen ze?
› Kunnen we patronen of trends
terugvinden?
› Zijn er meerdere subgroepen of clusters te onderkennen?

Verschillen enkele getallen sterk van de andere?
Frequentietabellen voor kwalitatieve variabelen
Kwalitatieve variabele: de uitkomstenverzameling is dan van de

vorm S = {m1 , . . . , k
m }.
De absolute frequentie fj van de uitkomst mj is gelijk aan het
aantal uitkomsten xi in de steekproef die gelijk zijn aan mj .
De relatieve frequenties: f j/n.

Uiteraard geldt dan dat
k f1 f
Σ fj = + + . . . k =
j= n fn
+ 2 1.
1 n
n
Deze frequenties kunnen samengevoegd worden in een
frequentietabel.

Frequentietabellen voor kwalitatieve variabelen
Titanic data set: voor de variabele ‘Boarded’ zijn er 4 mogelijke

uitkomsten: m1=‘Belfast’, m2=‘Cherbourg’, m3=‘Queenstown’,
m4=‘Southampton’. Uit deze data set blijkt dat 269 van de 1 315
opvarenden (enkel passagiers) inscheepten in de haven van
Cherbourg, zodat de frequentie f 2= 269 is en de relatieve frequentie
269/1 315.
uitkomst absolute frequentie relatieve frequentie
mj , j = fj fj /n
1, . .Belfast
.,4 10 10/1 315 ≈ 0.0076= 0.76 %
Cherbourg 269 269/1 315 ≈ 0.2046 = 20.46 %
Queenstown 123 123/1 315 ≈ 0.0935 = 9.35 %
Southampton 913 913/1 315 ≈ 0.6943 =69.43 %
Merk op dat inderdaad

10/1315 + 269/1315 + 123/1315 + 913/1315
= 1.
Staafdiagram en taartdiagram
Een frequentietabel kan grafisch worden weergegeven met behulp
van een staafdiagram. Op de horizontale as: de mogelijke
uitkomsten mj , op de verticale as: de waarde van fj of fj n./
(a) (b)
0.76%
20.46%
750
Belfast
Cherbourg
9.35%
Queenstown
500 Southampton
69.43%
250
Belfast Cherbourg Queenstown Southampton
Taartdiagram. De relatieve frequenties van de uitkomsten in de

steekproef bepalen hoe de taart verdeeld wordt. Aangezien 20.46 %
procent van de uitkomsten de waarde ‘Cherbourg’ heeft, zal deze
uitkomst dus ongeveer één vijfde van de taart innemen.
Frequentietabellen voor kwantitatieve variabelen
Bij kwantitatieve gegevens kan de uitkomstenverzameling ofwel een
eindig aantal, ofwel een oneindig aantal elementen bevatten.
Uitkomstenverzameling eindig ⇒ frequenties(tabel),
staafdiagram, taartdiagram,. . . .
Uitkomstenverzameling oneindig ⇒ zinloos om voor elk waarde in

de uitkomstenverzameling S na te gaan hoeveel maal het voorkomt.
Oplossing: discretisatie of groepering van de gegevens. Deel S op in

een aantal aangrenzende deelintervallen of klassen. Soms zijn de
klassen van gelijke breedte ∆, de klassebreedte.
Men bekomt dus eigenlijk een nieuwe discrete uitkomstenverzameling

S = {m 1 , ..., mk }, waarbij mj (j = 1, . . . , k) de klassemiddens zijn,
met k het aantal klassen ⇒ fj en fj /n.
Frequentietabellen voor kwantitatieve variabelen
Titanic data set

Een mogelijkheid om de variabele ‘Age’ te discretiseren is door
gebruik te maken van de klassen: ]0,10], ]10,20], ]20,30], ]30,40],
]40,50], ]50,60], ]60,70] en ]70,80].
Klassebreedte: ∆ = 10.
klasse fj /
]0,10]
klassemiddens mj 5 fj 100 n 315
100/1
]10,20] 15 218 218/1 315
]20,30] 25 464 464/1 315
]30,40] 35 264 264/1 315
]40,50] 45 165 165/1 315
]50,60] 55 69 69/1 315
]60,70] 65 31 31/1 315
]70,80] 75 4 4/1 315

Klassiek histogram
= de continue tegenhanger van het staafjesdiagram.

Boven een klassemidden mj wordt een balk geplaatst met als basis ∆
en met als hoogte hj de overeenkomstige fj of fj /n, zodat
fj
hj =
. n
0.3
Relatieve frequentie
0.2
0.1
0.0
0 20 40 60 80
Leeftijd

Klassiek histogram
Opmerking: er kunnen erg verschillende indrukken bekomen worden

bij verschillende keuzen van de klassebreedte ∆ .
Bijvoorbeeld: ∆ = 4
0.15
0.10
0.05
0.00
0 20 40 60 80
Leeftijd

Dichtheidshistogram
Soms wil men klassen gebruiken die niet van gelijke lengte zijn,
bijvoorbeeld omdat sommige delen van de uitkomstenverzameling S
minder dik bezet zijn. Een grotere klassebreedte is daar dus gewenst
om een niet al te gepiekte figuur te bekomen. Het verticaal uitzetten
van absolute of relatieve frequenties geeft dan geen correct beeld.
Titanic data set: ’Paid’ (betaalde prijs voor een ticket)

(a) een klassiek histogram met ∆ = 50 Britse Ponden (gbp)
(b) relatieve frequenties, met grotere klassebreedte voor de hogere
kosten (duurdere tickets)

Dichtheidshistogram
klasse ∆j fj f j /n klasse ∆j fj f j /n hj = f j / ( ∆ j
[0,
n) 50] 50 1076 0.8183 [0, 50] 50 1076 0.8183 0.0163
]50, 100] 50 156 0.1186 ]50, 100] 50 156 0.1186 0.0024
]100, 150] 50 32 0.0243 ]100, 550] 450 83 0.0631 0.0001
]150, 200] 50 13 0.0099
]200, 250] 50 21 0.0160
]250, 300] 50 13 0.0099
]300, 350] 50 0 0
]350, 400] 50 0 0
]400, 450] 50 0 0
]450, 500] 50 0 0
]500, 550] 50 4 0.0030
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
0 100 150 200 250 300 350 400 450 500 550 0 50 100 550
50 Betaald Betaald

Dichtheidshistogram
De tweede figuur geeft een vrij pessimistische indruk omtrent de verdeling van de
betaalde ticket prijzen. Men heeft de neiging om het aantal tickets die meer kosten
dan 100 gdp te overschatten.
Dichtheidshistogram: het histogram wordt verticaal herschaald

door de hoogte van de balk boven een klasse gelijk te nemen aan de
relatieve frequentie van die klasse gedeeld door de overeenkomstige
klassebreedte, of,
0.015
j
hj = h(m j) f jn
= ∆
Frequentiedichtheid
0.010
0.005
0.000
0 50 100 550
Betaald

Dichtheidshistogram
Bij een dichtheidshistogram geeft de oppervlakte, en dus niet meer

de hoogte hj , van de balken aan hoe vaak bepaalde uitkomsten
voorkomen. Immers,
opp = ∆ j .hj = j
f /n
zodat de totale oppervlakte van de ruimte tussen de horizontale as
en het dichtheidshistogram gelijk is aan 1. Immers,
k
k fj
totale opp =Σ ∆ j hj =Σ
j =1 n =
j =1
1.
Dit is een belangrijk feit voor het vervolg: Dichtheidshistogrammen
stellen relatieve frequenties voor door middel van oppervlaktes, niet
in termen van hoogtes.

Dichtheidshistogram
Wanneer alle klassen eenzelfde breedte bezitten is een verticale as

niet vereist op een histogram. Voorbeeld: ’Age’ (leeftijd).

Dichtheidshistogram
klasse ∆j fj / hj
]0,10] f10
j 100 n 315
100/1 100/13 150
]10,20] 10 218 218/1 315 218/13 150
]20,30] 10 464 464/1 315 464/13 150
]30,40] 10 264 264/1 315 264/13 150
]40,50] 10 165 165/1 315 165/13 150
]50,60] 10 69 69/1 315 69/13 150
]60,70] 10 31 31/1 315 31/13 150
]70,80] 10 4 4/1 315 4/13 150

Vormen van verdelingen
Symmetrische verdelingen
0 10 20 30 40 50 0 1 2 3 4 5 6
5 7 9 11 13 1 2 3 4 5 6

Vormen van verdelingen
Meestal zullen we ons in de praktijk tevreden moeten stellen met

benaderende symmetrie, zoals bijvoorbeeld in het histogram van
’Leeftijd’ voor de passagiers in eerste klasse:
0.02
Frequentiedichtheid
0.01
0.00
0 20 40 60 80
Leeftijd Klasse 1

Normale verdelingsvorm
De normale of Gaussische verdeling is een symmetrische verdeling

met een duidelijk maximum in het midden, ook wel klok-curve
genoemd (Gauss, 1777-1855).
0.0 0.1 0.2 0.3 0.4
-3 -2 -1 0 1 2 3

Succes van de normale verdelingsvorm:

› vaak kan de vorm gebruikt worden als een goede
beschrijvingsvorm (maar niet zo vaak als sommigen hopen of
geloven). Telkens wanneer een uitkomst beschouwd kan worden
als het resultaat van een som van tal van afzonderlijke
resultaten, is de verdeling van dergelijke uitkomsten benaderend
normaal verdeeld is (en men ziet dan ook graag denkbeeldige
sommen achter steekproefresultaten).
› veel theoretische berekeningen zijn voor deze normale situatie
zonder noemenswaardige problemen uitgevoerd, in tegenstelling
tot veel andere gevallen.

Omdat het histogram nogal gevoelig is aan de keuze van de

klassebreedte en door de aanwezigheid van toevalsaspecten, kan het
moeilijk zijn de klokcurve in een histogram te herkennen, vooral bij
kleine steekproefgroottes.
n = 20 n = 150 n = 1500
0.30
0.30
0.30
0.20
0.20
0.20
0.10
0.10
0.10
0.00
0.00
0.00
3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17

Titanic data set

› Leeftijd van passagiers, apart voor eerste en tweede klasse
0.03
0.02
Frequentiedichtheid
0.02
Frequentiedichtheid
0.01
0.01
0.00
0.00
0 20 40 60 80
0 20 40 60 80
L ee f t ij d K l as s e 1 Leeftijd Klasse 2
› Het histogram is niet de meest aangewezen techniek om

normaliteit na te gaan!
De vraagstelling ivm een normale verdelingsvorm nemen we op in
Hoofdstuk 4 (zie Normale kwantielplot) en in Hoofdstuk 6 (Testen
van normaliteit).
Andere verdelingsvormen
Scheve (niet-symmetrische) verdelingen

Indien een verdeling aan één zijde trager neervalt of afzwakt dan aan
de andere kant. Voorbeeld: ’Paid’ is een rechtsscheve verdelingen.
0.015
Frequentiedichthei
0.010
d
0.005
0.000
0 50 100 150 200 250 300 350 400 450 500 550
Betaald

Verdelingen met zware (of lange) staarten

Een verdeling kan symmetrisch zijn maar toch niet normaal. Dit kan
bijvoorbeeld optreden wanneer de staarten trager naar nul vallen dan
het geval is bij de klokvorm van de normale verdeling. Dit trager
verval kan ook optreden bij scheve verdelingen aan de zijde naar waar
de scheefheid wordt genoemd.
Frequentiedichtheid
0.00 0.01 0.02 0.03 0.04 0.05
−20 −10 0 10 20 30 40 50
Ras

Verdelingen met lichte (of korte) staarten

Soms kunnen we moeilijk over staarten spreken, zoals bij een
histogram horende bij de ogen gegooid bij n worpen met een
dobbelsteen. Ook de linkerstaart van de variabele ‘Ras’ (uit de
Pollutie data set) heeft een lichtere staart dan de normale verdeling.

Bimodale verdelingen
Bij aanwezigheid van twee deelgroepen in de gegevens kunnen twee
toppen (of modi) voorkomen in een histogram.
Histogram van de variabele ‘Age’ (in de Titanic data set). Onder
andere, twee duidelijke grotere leeftijdsgroepen: de babies en de
jonge twintigers
200
150
Absolute frequentie
100
50
0 20 40 60 80
Leeftijd

Uitschieters
Soms hoort één getal of een relatief klein aantal getallen niet echt bij
de rest van de gegevensgroep: uitschieters (outliers). Het is
belangrijk de oorzaken te achterhalen van het voorkomen van
uitschieters.
0.015
Frequentiedichtheid
0.010
0.005
0.000
0 50 100 150 200 250 300 350 400 450 500 550
Betaald
vier passagiers betaalden voor hun ticket meer dan 512 gdp, terwijl
al de andere passagiers minder dan 300 gdp betaalden.
Cumulatieve verdelingsfunctie
Metrische gegevens: empirische (cumulatieve) verdelingsfunctie

als alternatief voor frequentietabellen. Voor een willekeurige waarde
x bepaalt men de relatieve positie binnenin de steekproef.
Titanic data set

Een passagier is 15 jaar oud.
› Is dit eerder een jonge leeftijd in vergelijking met de rest van de
steekproef?
› Tel het aantal passagiers met leeftijd kleiner of gelijk is aan 15
jaar ⇒ 131 of 131/1 315 = 0.0996 ≈ 0.1 of 10%.
› De passagier behoort tot de groep van 10% jongste passagiers.

Fˆ n( x ) is gelijk aan het aantal steekproefuitslagen xi die niet groter

zijn dan x , gedeeld door n:
1
Fˆ n( x ) (aantal xi ≤ x ; i = 1, ...,
= n n).
Fˆ n( x ) kan dus gezien worden als een cumulatieve relatieve frequentie

van de uitkomsten van het experiment die kleiner dan of gelijk zijn
aan x .
De cumulatieve verdelingsfunctie kunnen we berekenen in elke reële waarde: we

hoeven ons dus niet te beperken tot de steekproefuitkomsten xi .

Voorbeeld 1:
5 metingen x1 = 1, x2 = 4, x3 = 3, x4 = 7 en x5 = 6.
› De geordende steekproef:
x (1) = 1, x (2) = 3, x (3) = 4, x (4) = 6 en x (5) = 7.
› frequenties, relatieve frequenties en cumulatieve relatieve
frequenties
x(i ) fi fi / F ˆn
1 n
1
1/5
1/5
3
1
1/5
2/5
Algemene eigenschappen: de functie begint bij de waarde 0, stijgt

trapsgewijs en eindigt bij 1.
F ˆn 5/.5
1 4/.5 c
3/.5 c
2/.5 c
1/.5
0
x4
x1 x3
x5
x2 de sprongen: 1 /5 = 1/n, omdat elke observatie
De hoogte van
1 keer voorkomt. slechts
Voorbeeld 2: Steekproef met metingen 1, 4, 3, 6, 4, 7
F ˆn 6/.6
1 5/.6 c
4/.6
c
c
1/2/
.
6.6 c
0
x1 x3x =x
2 x4
5 x6

Titanic data set
Grotere steekproeven (groter aantal gegevens): exacte of

benaderende methode.
Exact voor ‘Leeftijd’: de sprongen zijn nu slechts 1/1 315
hoog.
1.00
0.75
0.50
0.25
0.00
0 20 40 60
Leeftijd

Benadering van de grafiek: maak gebruik van de frequentietabel

waarin we de leeftijdgegevens gediscretiseerd hebben in klassen.
klasse klassemiddens mj fj j Fˆn

f]0,10]
/n 5 100 100/1 315 100/1 315
]10,20] 15 218 218/1 315 318/1 315
]20,30] 25 464 464/1 315 782/1 315
]30,40] 35 264 264/1 315 1 046/1
]40,50] 45 165 165/1 315 315
]50,60] 55 69 69/1 1 211/1 315
]60,70] 65 315 1 280/1
]70,80] 75 31 31/1 315
315 1 311/1 315
1 211 van de 1 315 passagiers (ofwel zo’n 92 percent) 1is 315/1
4 4/1 jonger dan
315 315
50 jaar of net 50 jaar, of Fˆn(50)=1 211/1 315.
1.00
0.75
0.50
0.25
0.00
0 20 40
60
Deze curve is een goede maar groveLeeftijd

benadering voor de exacte
cumulatieve verdelingsfunctie (lijn met fijnere trapjes).
De empirische verdelingsfunctie kan ook aangeduid worden op het
dichtheidshistogram.
1 046 van de 1 315 passagiers (ofwel zo’n 79.5 percent) is jonger
dan 40 jaar of net 40 jaar, of F ˆ n( 40)=1 046/1 315 (de som van de
oppervlaktes van alle grijs gekleurde rechthoeken)
0.03
Frequentiedichtheid
0.02
0.01
0.00
0 20 40 60 80
Leeftijd

Kwantielfunctie
› Fˆnlevert voor elk reëel getal een percentage p op. Omgekeerde vraag: gegeven
een bepaald percentage 0 <p ™1, welk reëel getal x situeert zich dan in
de overeenkomstige
steekproef ? positie in de
› Nemen we bijvoorbeeld p = 1/4 bij de variabele ‘Leeftijd’, dan

zoeken we die waarde (leeftijd) waarvoor we weten dat 1/4 van
de passagiers jonger zijn. Voor p = 1/2 zoeken we de middelste
waarde.
› We willen dus de inverse van de cumulatieve verdelingsfunctie

bepalen. Deze noemen we de (empirische) kwantielfunctie
Qˆn.

Kwantielfunctie
Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=
x(1) x(2) x(3) x(4) x(5)
x = Qˆn (p)

Kwantielfunctie
Hoe definiëren we deze inverse functie?
Hypothetisch voorbeeld: p = 1/2. Er is geen enkele x -waarde

ˆ n( 1/2) =
waarvoor
Q Fˆn(xexact gelijkx(is3)aan
3) omdat = 41/2. Daaromgetal
het kleinste stellen we
is waarvoor Fˆ n
minstens 1/2 is.
Voor p = 4/5 hanteren we dezelfde definitie. Nu is er een heel

interval van x -waarden, namelijk [x (4) , x ( 5) [ waarvoor Fˆn(x ) =
4/5. We kiezen hiervan de kleinste waarde, dus Qˆn(4/5) = x (4) =
6.

Kwantielfunctie
In het algemeen stellen we dus dat voor elke 0 < p ™ 1
Qˆn(p) is het kleinste getal x waarvoor Fˆn(x ) “ p.
Merk op dat Qˆn(p) = x (4) voor elke 3/5 < p ™ 4/5. Algemeen geldt
i− i
Qˆ n( p) = (ix ) indien <p
1
≤
n n
waarbij x(i ) het i -de kleinste getal voorstelt: x (1) ≤ x (2) ™ . . . ™ x ( n) .

Kwantielfunctie
› De kwantielen Qˆ n( 0.25), Qˆ n ( 0.5) en Qˆ n( 0.75) worden vaak

beschouwd.
› Zij hebben daarom een aparte naam gekregen:

Qˆn (0.25): het eerste kwartiel
Qˆn (0.5): het tweede kwartiel of de mediaan

Qˆn(0.75): het derde kwartiel
›
Dit is een logische naamgeving aangezien resp. een kwart, de
helft en drie kwart van de gegevens kleiner is dan resp.
Qˆn(0.25), Qˆn(0.5) en Qˆn(0.75).

Centrumkenmerken
Samenvatten van gegevens: belangrijk maar voorzichtig mee

omspringen.
De eenvoudigste vorm van samenvatten: reductie tot één getal. Een

dergelijk getal dient typisch te zijn voor de totale gegevensgroep en
zou zich dus best dicht bij het centrum of het midden van de
verdeling bevinden.
Voor symmetrisch verdeelde variabelen: het centrum is het centrum

van symmetrie. Voor scheve verdelingen? De methodes hanteren een
verschillend concept van ‘centrum’ en resulteren in sterk verschillende
getallen. Ook zullen de verschillende methoden anders reageren op de
aanwezigheid van uitschieters.

Steekproefgemiddelde
Het steekproefgemiddelde x¯ (of x¯n) wordt het meest gebruikt

om het centrum van een verdeling aan te duiden:
1 1n
x¯ (x 1+ ... + x )n = Σ xi
= n ni
=1
Interpretatie: het evenwichtspunt van een balk waarop gelijke

gewichten geplaatst zijn en dit op de posities gegeven door de
waarden xi .
exe1x2 ex
/\
1ex1.5
3 x¯ = 5 10
4
7.5
Titanic data set

’Boarded’: nominale variabele, zinloos.
‘Age’: x¯ = 29.49 jaar. In de gegeven steekproef is de leeftijd van de

passagiers gemiddeld gelijk aan 29.49 jaar.
Discrete gegevens, of gegroepeerde continue gegevens:
k
x¯ 1Σ mj j
= n j= f
1
(Als S aftelbaar oneindig is, dan is k gelijk aan oneindig.)

Titanic data set

Gediscretiseerde ‘Age’:
1
x¯ (5 × 100 + 15 × 218 + 25 × 464 + 35 ×
= 1 264
315 +45 × 165 + 55 × 69 + 65 × 31 +
75 × 4)
≈
29.01 jaar.
Continue versie: x¯ = 29.49 jaar.
Merk op dat 29.01 een vrij goede benadering is voor 29.49.

Het gemiddelde is zeer populair, ook omwille van theoretische
beschouwingen die later aan bod zullen komen, maar het heeft een
nadeel. Het gemiddelde is erg gevoelig aan uitschieters.
Voorbeeld:
Datapunten: 6, 3, 10, 7 en 8
Steekproefgemiddelde: 8.5
Datapunten met kopieerfout: 6, 3, 100, 7 en 8.
Steekproefgemiddelde: 24.8.
Titanic data set
We hebben vier uitschieters gedetecteerd voor de variabele ‘Paid’. Het
gemiddelde van de variabele ‘Paid’ op basis van alle 1 315 passagiers is
x¯= 33.05 gdp per ticket.
Zonder de uitschieters: x¯= 31.59 gdp per ticket.
Relatief weinig effect van uitschieters op het steekproefgemiddelde
hier.
Mediaan
‘Robuust’ alternatief voor het steekproefgemiddelde: de
steekproefmediaan.
Dit is de middelste waarde van de geordende steekproef. Ofwel het

punt waar evenveel steekproefelementen links en rechts van te vinden
zijn: r x
((n+1)/2) (n
ı
med x ) = oneven)
x + ((n/2)+1)
( { ı (n/2) (n even).
ı› x 2
Voorbeeld:
Datapunten: 6, 3, 10, 7 en 8; na ordening: 3, 6, 7, 8, 10
Mediaan: 7
Datapunten met kopieerfout: 6, 3, 100, 7 en 8;
na ordening: 3, 6, 7, 8, 100
Mediaan: 7
Mediaan
Bijvoorbeeld, voor n = 7, is med (x ) =( 4)x , wat inderdaad exact de

middelste waarde van de geordende steekproef is.
x +x
Voor n = 8 stellen we med (x ) (4) 2(5) . Op deze manier zijn er 4
=
observaties kleiner of gelijk aan de mediaan, en tegelijk zijn er ook 4
waarnemingen groter dan de mediaan. (Indien x( 4) = (x5) , zijn het
er
5 langs iedere zijde.)
Ingeval n oneven is, kan de mediaan teruggevonden worden als het

beeld van het punt p = 0.5 onder de empirische kwantielfunctie! Of
med (x ) =ˆ nQ 1/2). Voor n even vinden we met Q ˆ(n 1/2) een
( de mediaan benadert.
die waarde

Mediaan
Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=
x(1) x(2) x(3) x(4) x(5)
x = Qˆn (p)

Mediaan
Titanic data set

n = 1 315 is oneven. De mediaan voor “Paid”: het middelste getal in de
rij van de geordende metingen, of med (x ) = 14.4 gbp.
Anderzijds is x¯=33.05 gbp.
Aangezien er een viertal tickets zijn met extreem hoge kostprijs,
hebben deze waarden een grote invloed op de gemiddelde prijs.
Bij rechtsscheve verdelingen zal het gemiddelde dus groter zijn dan de
mediaan, terwijl bij linksscheve verdelingen de mediaan het grootst is.
Voor de variable “Age” is de mediaan gelijk aan 28, terwijl de
gemiddelde leeftijd x¯=29.49 jaar is. Gemiddelde en mediaan liggen hier
dus vrij dicht bij elkaar.

Mediaan
Hoewel we meestal een methode wensen te gebruiken die zo gevoelig

mogelijk is voor alle gegevens, voornamelijk indien ze verzameld zijn
ten koste van veel moeite, kan het gebruik van een niet-robuuste
samenvattingsmethode soms nadelig zijn omdat het te veel aandacht
besteedt aan een te beperkt deel van de gegevens.

Centrummaten en lineaire transformaties
Eigenschap van deze centrummaten:
indien we de gegevens xi verschuiven over een afstand b, en/of

herschalen met een factor a, dan verschuift en herschaalt de
centrummaat zich op gelijke wijze.
Indien yi = ax +i b (
i =1, ..., n), met a, b reëlegetallen, dan geldt
dat
y¯ = ax¯ + b med
(y ) = a med (x ) + b.

Deze centrummaten zijn translatie- en schaal equivariant.
c mec c
d
−1 3.
verschuiven 5
me
0.5x¯ c c c
xi + 3 d
2 3.5 6.
verbreden c med x¯
5
c c
xi x 2
− 1 7
2 x¯

Deze eigenschap laat toe over te gaan op andere meeteenheden. Zo

kunnen we bijvoorbeeld overgaan van metingen in cm naar metingen
in mm (dan is yi = 10xi ). Een ander voorbeeld is de omzetting
5
van
graden Fahrenheit naar graden Celcius: T =
C ( T − 32) .9
Nog een voorbeeld is de omzetting van gdpF in Euros (aan de huidige
wisselkoers): 1 Britse Pond (gbp) = 1.13 Euro, of nog 1 Euro =
1/1.13 gdp ≈ 0.885 gdp.
Titanic data set

’Paid’: x¯ = 33.05 gdp en med (x ) = 14.4 gdp.
Omzetten van gdp naar Euro, volgens de huidige wisselkoers
Dus x¯Euro = 0.885 × 33.05 = 29.25 Euro en
med (x )Euro = 0.885 × 14.4 = 12.74 Euro.

Modus
Nominale en ordinale gegevens: gemiddelde is onberekenbaar of niet

zo zinvol.
Meestal blijft als mogelijk centrumkenmerk nog de modus over: dit

is (zo die bestaat en uniek is) het element uit de
uitkomstenverzameling dat het meest voorkomt in de steekproef, of
dat met andere woorden de hoogste frequentie vertoont. Bij een
histogram gebaseerd op continue gegevens wordt de modus
gedefinieerd als het klassemidden waar het gekozen histogram de
hoogste waarde bereikt.

Modus
Titanic data set

“Boarded’: modus geven door ‘Southampton’ aangezien de
meeste passagiers aan boord gingen in Southampton.
750
500
250
Belfast Cherbourg Queenstown Southampton

Modus
Titanic data set

‘Class’ waarbij we ons beperken tot de groep van de
overlevenden: modus wordt gegeven door ’Class=1’ omdat de
meeste overlevenden van de Titanic eerste klasse passagiers
waren.
200
150
Aantal overlevers
100
50
1 2 3
Klasse

Spreidingskenmerken
Een centrummaat alleen verschaft te weinig informatie omtrent de

verdeling van de steekproefgegevens.
Voorbeeld:
steekproef 1: 71, 211.5, 55, 7.55, 8.2, 26.55, 15, 134.5 gbp
steekproef 2: 57.75, 59.4, 60, 65, 66.6, 69.55, 71, 80 gbp
Beide hebben x¯ = 66.1625 gbp, maar in de tweede steekproef zijn

bijna alle metingen ongeveer gelijk (vergelijkbare prijs), maar nergens
hoge pieken. In het eerste voorbeeld zijn er een aantal vrij lage en
hoge bedragen te bemerken.
Dus: nood aan kenmerken die weergeven hoe ver of hoe dicht de
overige punten rond een centrummaat gespreid liggen.

› Merk allereerst op dat:
1n
x − x¯) =
nΣ ( i
i 0
=1
› Average Distance to the Mean

Logische keuze: Average Distance to the Mean
1n
S
A D M = n ΣSxi −
i .
=1
x¯
Maar dit wordt niet vaak gebruikt (onder andere omdat de
absolute waarde een lastige wiskundige bewerking is: de
afgeleide hiervan bestaat niet overal.)

Standaardafwijking en variantie
De steekproefstandaarddeviatie of standaardafwijking:
‚
1 n
s ı, Σ (x i −
2
n− i
= x¯)
1 =1
2 1 n 2
Het kwadraat van de standaarddeviatie s = Σ (x i − ) is de
n − i x¯
(steekproef)variantie. 1 =1
De variantie bezit bijzonder goede eigenschappen wanneer de data

(tenminste benaderend) normaal verdeeld zijn (zie Hoofdstuk 5).

Waarom delen door n − 1?
› n = 1: het ene steekproefelement is meteen ook het

steekproefgemiddelde. Delen door n levert dan s = 0, maar dit
betekent determinisme en in de statistiek analyseren we enkel
situaties waarin het toeval meespeelt.
Delen door n − 1: de spreiding is ‘onbepaald’ (0/0)
› n = 2 → het gemiddelde van (x 1− ) 2en (x − x¯) geeft een
2
x¯ over de spreiding van de gegevens.
idee 2 Omdat x¯ x1+x2 , zijn
2
= 2
beide kwadraten echter gelijk aan (x1−x 2
) . We kunnen dus
2
slechts het gemiddelde nemen over n − 1 = 1 waarde. We
hebben 1 vrijheidsgraad verloren: van de n termen zijn er dus
slechts n − 1 onafhankelijke termen.

Discrete gegevens, of gegroepeerde continue gegevens:
1 k
s2 mj − x¯)2 j
= n − jΣ= ( f
1 1
Titanic data set ‘Paid’: s = 51.9604 gbp, s2 = 2699.883 (gbp) 2
Gediscretiseerde ’Paid’: s = 50.01209 gbp (vrij goede benadering).

Interpretatie: hoe excentrisch is een steekproefwaarde ten opzichte

van het centrumkenmerk, hier het steekproefgemiddelde.
Het meest centrale gedeelte van het histogram: deze mogelijke

uitkomstwaarden die op hoogstens één standaarddeviatie van het
gemiddelde liggen:
[x¯ − s, x¯ + s]
‘Age’: [29.49 − 13.78, 29.49 + 13.78] = [15.71, 43.27].
Dit interval bevat ongeveer twee-derden, 23 1315 = 877 van

alle
gegevens/leeftijden van passagiers, dus ongeveer 877/11315 ≈ 67 %
van de passagiers was tussen 15 en 43 jaar oud.

Bij normaal verdeelde gegevens geldt dat, wat ook de waarde van
het gemiddelde en de standaarddeviatie is:
› ongeveer twee-derden van de gegevens binnen een afstand
van
› één standaarddeviatie aan weerszijden van het gemiddelde
ligt.
ongeveer 95% van de gegevens binnen een afstand van twee
standaarddeviaties aan weerszijden van het gemiddelde ligt.

De standaarddeviatie bezit optimaliteitseigenschappen bij

afwezigheid van ‘abnormale’ gegevens, maar is erg gevoelig aan
uitschieters, aangezien deze in de berekening van s2 een te groot
(kwadratisch) gewicht krijgen.
Titanic data set:

‘Paid’: s = 51.9604 gbp.
Verwijder de vier uitschieters: s = 44.77274 gbp.
Dit is aan aanzienlijk verschil.

Bereik
Het bereik (range) R: de afstand tussen de grootste x ( n) en de

kleinste waarneming x (1) :
R = x (n) − x (1) .
Nadelen:
› te weinig informatief omdat slechts twee waarnemingen gebruikt

worden
› erg afhankelijk van de steekproefgrootte n: hoe groter n, hoe
groter men R verwacht
› erg gevoelig aan uitschieters

Interkwartielafstand
De interkwartielafstand IQR: de lengte van een gebied rond de

mediaan gelegen, dat ongeveer de helft van de gegevens omvat:
IQR = Qˆn(0.75) − Qˆn(0.25).
Titanic data set

› ‘Age’: Qˆn(0.75) = 38.00 en Qˆn(0.25) = 21.00, dus IQR =
›17‘Paid’: s = 51.9604 (alle data), s = 44.77274 (zonder
(terwijl s = 13.78).
uitschieters)
IQR = Q ˆ n ( 0.75) − Qˆ n (0.25) = 31.137500 − 7.895833 ≈
23.24
(met uitschieters)
IQR = Q ˆ n ( 0.75) − ˆQn (0.25) = 30.847917 − 7.895833 ≈
22.95
(zonder uitschieters)
De interkwartielafstand is dus weinig gevoelig voor uitschieters.
Interkwartielafstand
Merk op: s en IQR zijn van een andere ordegrootte:

‘Age’: IQR/s = 1.23.
‘Paid’ (zonder uitschieters): IQR/s = 0.51.
Voor normaal verdeelde gegevens (dus zonder uitschieters) geldt

dat:
IQR
∼
s 1.34.

Spreidingsmaten en lineaire transformaties
Indien yi =axi +b (i =1, ..., n), met a, b reële getallen, dan geldt
sy x
SaSs 2 2
s2y = a sx .
Titanic data set

‘Paid’: s = 51.9604 Britse Ponden,
of 0.885 × 51.9604 = 45.98495
Euro.

Boxplot
Grafische voorstelling van de belangrijke kenmerken van een

verdeling van steekproefelementen.
› horizontale lijn bij de mediaan, ev. een symbool (bv. diamant)
voor het steekproefgemiddelde
› doos (box) van het eerste kwartiel Qˆn(0.25) tot het derde
kwartiel Qˆ n( 0.75). Lengte = IQR.
› gebied waartussen we de reguliere punten verwachten:
[Qˆ n( 0.25) − 1.5 IQR, Qˆ n (0.75) + 1.5

IQR]
Punten die buiten dit interval vallen, worden aangeduid met een
speciaal symbool.

Boxplot
› Soms nog een onderscheid tussen ‘gewone’ en ‘extreme’

uitschieters, bv. buiten het interval
[Qˆn(0.25) − 3 IQR, Qˆn(0.75) + 3 IQR].
› resp. Qˆ n( 0.75)
de snorharen (whiskers) vanbijdede
en stoppen boxplot:
kleinste,vertrekken bij Qˆn(0.25)
resp. de grootste
observatie die geen uitschieter is.

Boxplot
extreme
uitschieters
^ b ^
uitschieters
+3 IQR
b
7
^
+1.5 IQR
ˆ n( 0.75)
Q
7 7
Med ÎQR
7
Qˆn (0.25)
^ ^
-1.5 IQR
7
^ b -3 IQR
uitschieters
7 7
extreme
uitschieters
Boxplot
De boxplot levert informatie over de verdeling:
centrum: mediaan, gemiddelde

› spreiding: IQR = lengte van de doos
› scheefheid: bij symmetrie ligt de mediaan in het midden van de
doos, bij rechtsscheve verdelingen in de onderste helft. In dat
geval zijn ook de bovenste whiskers langer.
› zwaarte van de staarten: veel uitschieters → zwaarstaartige
verdeling (want lengte van de snorharen gebaseerd op de
normale verdeling).
Nadeel: geen bimodaliteit zichtbaar.

Boxplot
‘Age’:
60
40
Age
20
−0 . 4 − 0. 2 0.0 0.2
0.4
› symmetrische verdeling, mediaan valt bijna samen met

gemiddelde
› geen uitschieters
med(Age)= 28 jaar mean(Age)= 29.49 jaar

Boxplot
‘Paid’:
500
400
300
Paid
200
100
−0.4 −0.2 0.0 0.2 0.4
› rechtsscheve verdeling, mediaan veel kleiner dan gemiddelde,

onderste snorhaan veel kleiner dan bovenste
› uitschieters ....
med(Paid)= 14.4 gbp < mean(Paid)= 33.05 gbp
Nog wat meer voorstellingen met boxplots
(a) (b)
500
60
400
300
Leeftijd
40
Betaald
200
20
100
0 0
1 2 3 Alive D ead
Klasse
Figuur: Boxplots van (a) ‘Leeftijd’ per Klasse en (b) ‘Paid’ voor de groep
van overlevenden en de groep van niet-overlevenden.

0.02
Frequentiedichtheid
0.01
0.00
0 20 40 60 80
0.4
0.2
0.0
−0.2
−0.4
0 20 40 60 80
Leeftijd klasse 1
Figuur: Histogram tezamen met boxplot van ‘Leeftijd’ van Klasse 1

passagiers.
enkele samenvattende statistieken

minimum 1ste kwartiel mediaan derde kwartiel maximum
0.92 29.00 39.00 48.00 71.00
gemiddelde = 39.09 jaar standaard deviation = 13.63 jaar
0.015
Frequentiedichtheid
0.010
0.005
0.000
0 2 00 4 00
Betaald
0.4
0.2
0.0
−0.2
−0.4
0 10 0 2 00 30 0 40 0 5 00
Paid
Figuur: Histogram tezamen met boxplot van ‘Paid’.
enkele samenvattende statistieken

minimum 1ste kwartiel mediaan derde kwartiel maximum
0.000 7.896 14.400 31.137 512.329
gemiddelde = 33.05 gbp standaard deviation = 51.96 gbp
Verbanden tussen twee variabelen
Voorbeelden
: Is er een relatie tussen de leeftijd en prijs ticket ?
› Is de leeftijd van een passagier hoger in eerste klasse dan in
tweede klasse?
› Is er een verband tussen de variabelen ‘Boarded’ en ‘Class’?
Steekproef van de twee variabelen:
x1, x2, . . . , xn
y1, y2, . . . , yn
Verschillende technieken nodig zijn, afhankelijk van de types

variabelen.
Tweedimensionaal histogram
Voor twee kwantitatieve (metrische) variabelen: de twee

variabelen worden opgedeeld in klassen en de frequenties worden
berekend voor elke combinatie van klassen. Dit levert een kruistabel
met leeftijd in kolom 1 (en 3 kolommen met enkel nullen weggelaten).
Betaald
[0,50] ]50,100] ]100, 150] ]150, 200] ]200, 250] ]250, 300] ]300, 350] ]500, 550]
[0,10] 93 4 1 2 0 0 … 0 ... 0
]10,20] 190 19 3 1 2 3 0 ... 0
]20, 30] 406 38 7 4 5 4 0 ... 0
]30, 40] 208 37 8 3 4 1 0 ... 3
]40, 50] 114 32 9 1 7 2 0 ... 0
]50, 60] 41 19 4 2 1 1 0 ... 1
]60, 70] 20 7 0 0 2 2 0 ... 0
]70, 80] 4 0 0 0 0 0 0 ... 0

Grafische voorstelling: tweedimensionale histogram (gebaseerd op

frequenties of relatieve frequenties)
‘Betaald’ en ‘Leeftijd’:
400
Absolu te fre que
300
200
100
ntie
0
0
100
200
0
Be
300 20
ta
al
400 40
d
ijd
500 60 L ee ft
80

‘log(Betaald)’ en ‘Leeftijd’:
250
Abs olute freq
200
150
100
uentie
50
0
0
2
lo
0
g(
Be
4 20
ta
40
al
ftijd
d)
6 60 Le e
80

Gladdere voorstelling:
‘Betaald’ en ‘Leeftijd’ ‘log(Betaald)’ en ‘Leeftijd’
400 250
Absolute freq
200
Abso lute freq
300
150
200
100
uentie
uentie
100 50
0
0 0
1
100 2
log
200 3
(B
20
et
300
Be
20 4
aa
40
ta
40
ld)
400
al
5 ijd
ti jd Leeft
d
60 L e ef 60
500 6

Voorstelling m.b.v. kleuren:

(500,550]
(6,7]
(450,500]
(400,450] (5,6]
(350,400]
(4,5]
400
(300,350]
log(Betaald)
300 200
Betaald
(250,300] (3,4]200
100
100
(200,250]
0 0
(2,3]
(150,200]
(100,150] (1,2]
(50,100]
[0,1]
[0,50]
[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] [0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80]
Leeftijd Leeftijd

Covariantie en correlatiecoefficiënt
Andere voorstelling van data: puntenwolk of scatterplot.
500
400
300
Betaald in £
200
100
0 20 40 60
Leeftijd
zwakke positieve associatie tussen ‘Betaald’ en ‘Leeftijd’

De ‘Titanic’ en de reddingsboten
● Om 00u45, 65 minuten na de aanvaring met de ijsberg, werden

de eerste reddingssloepen te water gelaten
● tijdens het Amerikaanse en Britse onderzoek na de ramp
kwamen cijfers aan het licht mbt de bezetting van de
reddingsboten bij tewaterlating
● uit die cijfers blijkt dat van de 1 178 plaatsen in de
reddingssloepen er slechts 823 werden benut

tijdstip tewaterlating nominale capaciteit inzittenden bij

tewaterlating
00.45 65 28
00.55 65 28
00.55 65 41
01.00 65 40
01.10 40 12
01.10 65 28
01.20 65 55
01.20 65 56
01.25 65 70
01.25 65 43
01.30 65 60
01.35 65 56
01.35 65 64
01.35 65 70
01.40 47 39
01.45 40 25
01.55 65 40
02.05 47 44
02.17 47 12*
02.17 47 12**

● efficientie capaciteitsgebruik= gebruikte capaciteit / nominale

capaciteit
● indien deze maat kleiner is dan 1 dan werd de capaciteit van de
reddingsboot niet ten volle benut ...
● we vragen ons af er er een evolutie is in het efficient gebruik van
de reddingsboten naargelang de tijd verstreek na de ramp ....

Boat launching time and
load−efficiency
● ●
1.0
●
●
●
Life boat load−efficiency

● ●
●
●
0.8 ●
●
0.6
● ●●
● ● ●
0.4
●
●
●
0.5 1.0 1.5 2.0

Life Boat launching time
positieve associatie tussen de tijd en de efficientie capaciteitsgebruik
opmerkelijk zijn de 2 data punten rechts onder in de scatter plot

Een puntenwolk leert ons:

› of de variabelen positief (y stijgt met stijgende x ) of negatief (y
daalt met stijgende x ) geassocieerd zijn
› hoe sterk de associatie is.
Sterke associatie: de kennis van één van de variabelen helpt de
andere goed voorspellen.
Zwakke associatie: informatie omtrent de éne variabele vertelt
weinig over de waarde van de andere variabele.
Associatie leidt dus tot de indruk dat er afhankelijkheid optreedt

tussen de twee variabelen.

Hoe kunnen we deze informatie over de associatie tussen twee

variabelen X en Y meten, of weergeven in één getal ? We zullen dit
trachten te doen indien de associatie lineair is.
Deel de scatterplot op in vier kwadranten rond ¯, ¯ .
●
●
(x y ) ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●●
● ● ● ●
● ●●● ● ● ●
●
●
●●
●● ● ●
● ●
● ● ● ● ●
●● ●
y
y
● ● ● ●
● ●
● ● ●
●
● ●
● ●
● ●
● ●● ● ●●
● ● ●
●
● ● ●
●
●● ●● ●
●
● ●
●
● ● ● ● ●
x ●● x
●
●

Bereken voor elke i = 1, . . . , n de

score
(x i − )(y i −
x¯ y¯)
Deze score is positief voor punten in de linksonder en rechtsboven
kwadranten, en negatief voor de overige twee kwadranten.
Positieve associatie: meer observaties in de linksonder en
rechtsboven kwadranten, zodat de som
n
Σ ( x i −x¯)(y −
i y¯)
i
=1
positief is.
Negatieve associatie → negatieve som.

Steekproefcovariantie:
1 n
cov (x, y ) x − )(y i −
( i
n− Σ x¯ y¯).
= i
1 =1
Dan geldt dat
cov (x, x ) =x2
s .
Titanic data set en efficient gebruik van de reddingssloepen:
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’. Dan
geldt cov (x, y ) = 0.0018. De twee variabelen zijn dus zwak positief
geassocieerd.

De covariantie tussen X en Y is afhankelijk van de meeteenheden
van X en Y !
Stel dat we de ‘leeftijd’ niet uitdrukken in jaren, maar in aantal
maanden, waardoor we alle y -waarden met 12 moeten
vermenigvuldigen. Dan wordt
1 n
cov (x, 12y ) x − x¯)(12yi −
n− Σ ( i
= i 12y¯)
112 =1 n
= x − )(y i − y¯) = 12 cov x,
n− Σ ( i
i x¯ ( y ).
1 =1
In het algemeen geldt dat als u = i a x1 +i b en
1 v = ai y 2 i + b2 met
a1, a2 en b1, b2 willekeurige reële getallen, dat
cov (u, v ) = a1a2cov (x, y

I. Gijbels (KU Leuven) ).
G0N11C-STATISTIEK & DATA-ANALYSE 100 / 117
Op basis van de covarianties kunnen we dus niet besluiten of het om
een sterke of zwakke associatie gaat!
Oplossing: standardizeer de covariantie zodat die onafhankelijk
wordt van de meeteenheden. (Pearson) correlatiecoëfficiënt r (x, y ), of
kortweg r :
cov (x, y )
r = r (x, y )
= sx sy
als sx > 0 en sy > 0. Er geldt dat n

∑i (x i − )(y i −
r (x, y ) =1 x¯ y¯)
= ( ∑ni =1(xi − x¯)2 ni (y i − 2)1/2
∑
1=1 n xi − x¯ yi
− y¯y¯)
= n − i Σ1 ( sx ) ( sy
) . 1 =
Men kan nu aantonen dat voor deze herschaalde waarde
−1 ™ r (x, y ) ™ 1
en dat bovendien Sr (u, v )S = Sr (x, y )S. Dit volgt uit su = Sa1Ssx
sen
v= Sa 2Ss
y .
Als de puntenwolk ‘fijner’ is, nadert de correlatiecoëfficiënt naar de extremen -1

of 1. Indien alle punten op een rechte liggen, dan is
r = −1 indien het een dalende rechte betreft, of r = 1 bij een
stijgende rechte.
Immers als yi = axi + b geldt dat
2
cov (x, y ) = cov (x, ax + b) = ax, x ) = x
terwijl s = cov
yaSs( . Bijgevolg is,
x
as
S
asx2
r (x, y ) = teken(
sx S s
= x a).
I. Gijbels (KU Leuven)
aS & DATA-ANALYSE
G0N11C-STATISTIEK 102 / 117
Indien er geen associatie tussen de variabelen X en Y voorkomt, dan
ligt r dicht bij 0.
Merk op dat de omgekeerde redenering (bij associatie is r duidelijk
verschillend van 0) niet geldt: het is dus mogelijk dat r ≈ 0, terwijl er
toch een niet-lineaire associatie is tussen X en Y . Voorbeeld:
r = 0.07, terwijl toch een manifeste kwadratisch verband optreedt
tussen de twee variabelen. Het is dus niet zinvol om deze figuur
samen te vatten in het ene kenmerk r !

Kijk dus steeds eerst naar de scatterplot, en enkel ingeval van

lineaire associatie (of afhankelijkheid) is het zinvol deze te meten
met behulp van r .
De correlatiecoëfficiënt is dus een maat voor lineaire associatie!
Voorbeelden:
-3 -2 -1 0 1 2 3
-4 -2 0 2 4 6 8 10
1 2 3 4 5 6 1 2 4 5 6
0 0.
4

4
2
2
0
6
0
6
1 2 3 4 5 6 1 2 3 4 5 6
r= r=
0.6 0.8
4
2
2 4 6 8 10
0
6
1 2 3 4 5 6 1 2 3 4 5 6
r= r=
0.9 0.95
Titanic data set
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’.
› dan geldt cov (x, y ) =
0.0018 is sx = 0.47 en sy = 0.26
› bovendien
› dit levert r = 0.0145
› zonder de 2 metingen rechtsonder, vinden we r = 0.55
Boat launching time and Boat
launching
load−efficiency
time and load−efficiency
● ● ● ●
1.0
1.0
● ●
●
● ●
●

● ●
● ● ●
● ●
0.8
0.8
●
● ●
●
0.6
● ●
● ●
0.6
● ●
● ● ●
0.4
● ● ●
0.4
●
●
● ●
0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0

Life Boat launching time Life Boat launching time

Spearman correlatiecoëfficiënt
●De Pearson correlatiecoeffici¨¨ ent r bevat e

stekpore
gfem
dd
idls en
ee
standaarddeviaties welke erg gevoelig zijn aan uitschieters. Zulke
ongewone waarnemingen kunnen dan ook een groot effect hebben
op de Pearson correlatiecoeffici¨¨ ent.
● Een robuuste maat van associatie (die dit effect vermindert)

wordt bekomen door de geobserveerde waarden voor x en y te
vervangen door hun rangnummers.
Men ordent de twee gegevensgroepen apart om in elk van de
groepen rangen toe te kennen. De kleinste observatie krijgt
rang 1, de tweede kleinste rang 2, enzovoort. Wanneer twee of
meer observaties dezelfde waarde aannemen (knoop, tie):
gemiddelde waarde van de rangen. Als bijvoorbeeld, na
ordening, de vierde en de vijfde observatie gelijk zijn, krijgen
beide
I. Gijbels (KU observaties
Leuven) de rang 4.5.& DATA-ANALYSE
G0N11C-STATISTIEK 107 / 117
De Spearman correlatiecoëfficiënt rs wordt vervolgens bekomen als de Pearson
correlatiecoëfficiënt berekend op basis van deze rangen.Interpretatie en

eigenschappen:
enkel waarden tussen -1 en 1 kunnen voorkomen
› positieve (resp. negatieve) waarden duiden aan dat de ene
variabele de neiging heeft om te stijgen (resp. te dalen) als de
andere variabele toeneemt. De Spearman correlatiecoëfficiënt meet bijgevolg
in welke mate de twee variabelen een stijgende (of dalende)
curve vertonen. Een waarde dicht bij 1 of dicht bij
-1 duidt dan op een sterk monotoon stijgend (resp. dalend)
verband.

›
De Pearson correlatiecoëfficiënt r is anderzijds een maat voor lineaire
associatie. Wanneer die dicht bij 1 (resp. -1) ligt, zal ook rs
groot (resp. klein zijn). Het omgekeerde is echter niet
noodzakelijk waar.
› rswijzigt niet wanneer we een monotoon stijgende
transformatie doorvoeren op X en/of Y (omdat de
rangnummers niet wijzigen).

Boxplots voor verschillende groepen
Verband tussen kwantitatieve en kwalitatieve variabele:

histogrammen en cumulatieve verdelingsfuncties
‘Leeftijd’ en ‘Survived’:
(a) 200
(b) 1.00
0.75
150
Absolute frequentie
Alive 0.50 Alive

100
Dead Dead
0.25
50
0 0.00
2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 0 20 40 60
Leeftijd Leeftijd

Boxplots voor verschillende groepen
Meerdere groepen: boxplots.

(a) (b)
‘Leeftijd’ en ‘Survived’ ‘Leeftijd’ en ‘Klasse’
60 60
40 40
Leeftijd
Leeftijd
20 20
0 0
Alive Dead 1 2 3
Klasse

Kruistabel
Verband tussen twee kwalitatieve variabelen: kruistabel.

‘Boarded’ en ‘Klasse’:
Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ op basis van

absolute frequenties.
Class
Boarded 1 2 3 Totaal
Belfast 4 6 0 10
Cherbourg 144 26 99 269
Queenstown 3 7 113 123
Southampton 172 246 495 913
Totaal 323 285 707 1 315

Bivariaat staafdiagram
500
400
300
200
100
0 3
Southampton
2
Queenstown
Cherbourg
1
Belfast
Figuur: Bivariaat staafdiagram van ‘Boarded’ en ‘Class’.

Duidelijker voorstelling via groepering
(a 500
) 400 400
Absolute frequentie
Absolute frequentie
300 300 Haven
Klasse
Belfast
1
Cherbourg
2
Queenstown
3
200 200 Southampton
100 100
0 0
Belfast Cherbourg Queenstown Southampton 1 2 3

Haven Klasse

Kruistabellen met relatieve frequenties
Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ op basis van

relatieve frequenties.
Class
Belfast 0.0030 0.0046 0.0000 0.0076

Cherbourg 0.1095 0.0198 0.0753 0.2046
Queenstown 0.0023 0.0053 0.0859 0.0935
Southampton 0.1308 0.1871 0.3764 0.6943
Totaal 0.2456 0.2168 0.5376 1

Kruistabellen met voorwaardelijke frequenties
Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ met
voorwaardelijke frequenties per haven boarded (ingescheept) (rij).
Class
Belfast 0.4000 0.6000 0.0000 1

Cherbourg 0.5353 0.9670 0.3680 1
Queenstown 0.0024 0.0057 0.9187 1
Southampton 0.1884 0.2694 0.5422 1
Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ met

voorwaardelijke frequenties per klasse (kolom).
Class
Boarded 1 2 3
Belfast 0.0124 0.0211 0.0000
Cherbourg 0.4458 0.0912 0.1400
Queenstown 0.0093 0.0246 0.1598
Southampton 0.5325 0.8632 0.7001
Totaal 1 1 1
grafische voorstellingen
(a) 1.00
( b) 1.00
0.75 0.75
Absolute frequentie
Absolute frequentie
Haven
Klasse
Belfast
1
0.50 0.50 Cherbourg
2
Queenstown
3
Southampton
0.25 0.25
0.00 0.00
Belfast Cherbourg Queenstown Southampton 1 2 3

Haven Klasse
Figuur: Staafdiagrammen van de voorwaardelijke frequenties in de vorige

kruistabellen volgens (a) haven en (b) klasse.
hoe zouden de figuren eruit zien indien de klasse niet afhangt van de
inscheephaven?
onderzoek van afhankelijkheid tussen twee kwalitatieve variabelen:
zie Hoofdstuk 8

Slides H2 Aca 20192020 NVersie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Slides H2 Aca 20192020 NVersie

Uploaded by

Copyright:

Available Formats

Hoofdstuk 2: Beschrijvende statistiek

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 117

Doel van beschrijvende statistiek: de gegevens (bijvoorbeeld uit een

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 117

◇ Op een vroegere versie van de slides vinden jullie de beschrijving

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 3 / 117

● dit geeft dus een gegevens matrix van 2 208 rijen en 14

● voor sommige opvarenden zijn bepaalde gegevens niet

je kan in de data set bijvoorbeeld eens opvragen wat de minimum en

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 117

Hoe zijn de uitkomsten van een variabele in een (steekproef)groep

We vertrekken dus van de metingen x1, . . . , xn voor een bepaalde

› Zijn er meerdere subgroepen of clusters te onderkennen?

Kwalitatieve variabele: de uitkomstenverzameling is dan van de

De relatieve frequenties: f j/n.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 117

Titanic data set: voor de variabele ‘Boarded’ zijn er 4 mogelijke

Merk op dat inderdaad

Belfast Cherbourg Queenstown Southampton

Taartdiagram. De relatieve frequenties van de uitkomsten in de

Uitkomstenverzameling oneindig ⇒ zinloos om voor elk waarde in

Oplossing: discretisatie of groepering van de gegevens. Deel S op in

Men bekomt dus eigenlijk een nieuwe discrete uitkomstenverzameling

Titanic data set

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 15 / 117

= de continue tegenhanger van het staafjesdiagram.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 16 / 117

Opmerking: er kunnen erg verschillende indrukken bekomen worden

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 17 / 117

Titanic data set: ’Paid’ (betaalde prijs voor een ticket)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 117

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 19 / 117

Dichtheidshistogram: het histogram wordt verticaal herschaald

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 117

Bij een dichtheidshistogram geeft de oppervlakte, en dus niet meer

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 117

Wanneer alle klassen eenzelfde breedte bezitten is een verticale as

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 117

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 23 / 117

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 117

Meestal zullen we ons in de praktijk tevreden moeten stellen met

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 25 / 117

De normale of Gaussische verdeling is een symmetrische verdeling

0.0 0.1 0.2 0.3 0.4

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 26 / 117

Succes van de normale verdelingsvorm:

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 27 / 117

Omdat het histogram nogal gevoelig is aan de keuze van de

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 28 / 117

Titanic data set

› Het histogram is niet de meest aangewezen techniek om

Scheve (niet-symmetrische) verdelingen

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 30 / 117

Verdelingen met zware (of lange) staarten

0.00 0.01 0.02 0.03 0.04 0.05

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 117

Verdelingen met lichte (of korte) staarten

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 32 / 117

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 33 / 117

Metrische gegevens: empirische (cumulatieve) verdelingsfunctie

Titanic data set

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 35 / 117

Fˆ n( x ) is gelijk aan het aantal steekproefuitslagen xi die niet groter