You are on page 1of 115

Hoofdstuk 2: Beschrijvende statistiek

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 117


Inleiding

Doel van beschrijvende statistiek: de gegevens (bijvoorbeeld uit een


steekproef) op een duidelijke en verantwoorde manier voorstellen en
samenvatten.
› voor elke variabele de frequenties, die aanduiden hoe vaak de
verschillende uitkomsten voorkomen, in tabellen weergeven.
› grafische methoden, zoals staafdiagrammen en
histogrammen,. . . .
› samenvattende numerieke getallen, zoals het
steekproefgemiddelde, steekproefmediaan, ...
› verbanden tussen meerdere variabelen voorstellen, d.m.v.
puntenwolken en kruistabellen.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 117


De pollutie data set en de ‘Titanic’ data set

◇ Op een vroegere versie van de slides vinden jullie de beschrijving


van de pollutie data set; en bespreking van beschrijvende
statistiek analyses van deze gegevens
◇ Op deze slides behandelen we een ander data voorbeeld: de
Titanic data.....

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 3 / 117


Het ‘Titanic’ verhaal en de data
● data ivm de Titanic kan je vinden op, bijvoorbeeld,
https://dasl.datadescription.com/datafile/titanic/?_sf_s=

Titanic&_sfm_cases=4+59943
nummer gegevens
●kolom ivm
benaming 2 208
variabele opvarenden, en mbt 14 variabelen
beschrijving
of variabele
1 Name Naam van de opvarende
2 Survived heeft het overleefd of niet (2 niveau’s): “Alive” or “Dead”
3 waar aan boord gekomen (Belfast, Southampton, Cherbourg of Queenstown)
4 Boarded ticket in welke Klasse (1, 2, 3 of ‘Crew’)
5 Class M=‘man’, W=‘Woman’, C= ‘Child’
6 MWC leeftijd van de passagier (uitgedrukt in jaren)
7 Adut
Age −or−Chld 2 niveau’s: ‘Adult’, of ‘Child’
8 Sex ’Female’ of ‘Male’
9 Paid prijs betaald voor het ticket (in Britse Ponden)
10 nummer van het ticket
Ticket No

11 Boat−or− Body plaats waar het lichaam werd gevonden
12 Job de taak van het bemanningslid
13 meer gedetailleerd gegeven rond klasse passagier en locatie crew
Class−Dept
14 een meer gedetailleerde “Class”variabele
Class−Full

● dit geeft dus een gegevens matrix van 2 208 rijen en 14


kolommen
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 7 / 117
De ‘Titanic’ data
● we werken met een gereduceerde versie van de data; na
verwijdering van “Name”, de kolom met de namen van
slachtoffers (!), en het verwijderen van een aantal niet zo
relevante variabelen zoals “Ticket −No”, “Boat or−−Body” en
“Job”
● dan blijft er nog een matrix over van 2 208 rijen en 10 variabelen

● voor sommige opvarenden zijn bepaalde gegevens niet


beschikbaar (bv voor ‘Crew’ leden is er geen betaling van
tickets, dus een missing waarde voor de variabele “Paid”)
● voor onze beperkte analyse hier, beperken we ons tot de

●opvarenden
je vindt dezedie geen lid vandata
gereduceerde de bemanning
op Toledo, zijn
in de
T
bestanden
itanic.txt of Titanic.cvs ... (zie Documenten → Zelfstudiepakketten

Datasets)
● deze gereduceerde matrix van gegevens bevat 1 315 rijen en 10 kolommen
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 8 / 117
De‘Titanic’, de data en beschrijvende statistiek hiervan

je kan in de data set bijvoorbeeld eens opvragen wat de minimum en


maximum prijs was betaald door de opvarenden:
minimum van ‘Paid’ = 0 Britse Ponden (gdp)
maximum van ‘Paid’ = 512,329 Britse Ponden (gdp)
◇ tickets per klasse schommelden rond de volgende bedragen:
13 gdp voor een derde klasse ticket
20 gdp voor de tweede klasse
87 gdp voor de eerste klasse
◇ om tijdens de overtocht in een van de grootste suites te
verblijven, moest men echter heel wat geld neertellen
◇ er reisden ook heel wat passagiers mee in lage klassen (grote
groepen emigranten in die tijd, die emigreerden naar de VS)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 117


Frequenties

Hoe zijn de uitkomsten van een variabele in een (steekproef)groep


verdeeld ?

We vertrekken dus van de metingen x1, . . . , xn voor een bepaalde


variabele. De bedoeling is dan om een antwoord te formuleren op
vragen als:
Zijn de gegevens ongeveer gelijk, of sterk verschillend?
› Indien sterk verschillend, hoe sterk?
Op welke manier verschillen ze?
› Kunnen we patronen of trends
terugvinden?

› Zijn er meerdere subgroepen of clusters te onderkennen?


Verschillen enkele getallen sterk van de andere?
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 10 / 117
Frequentietabellen voor kwalitatieve variabelen

Kwalitatieve variabele: de uitkomstenverzameling is dan van de


vorm S = {m1 , . . . , k
m }.
De absolute frequentie fj van de uitkomst mj is gelijk aan het
aantal uitkomsten xi in de steekproef die gelijk zijn aan mj .

De relatieve frequenties: f j/n.


Uiteraard geldt dan dat

k f1 f
Σ fj = + + . . . k =
j= n fn
+ 2 1.
1 n
n
Deze frequenties kunnen samengevoegd worden in een
frequentietabel.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 117


Frequentietabellen voor kwalitatieve variabelen

Titanic data set: voor de variabele ‘Boarded’ zijn er 4 mogelijke


uitkomsten: m1=‘Belfast’, m2=‘Cherbourg’, m3=‘Queenstown’,
m4=‘Southampton’. Uit deze data set blijkt dat 269 van de 1 315
opvarenden (enkel passagiers) inscheepten in de haven van
Cherbourg, zodat de frequentie f 2= 269 is en de relatieve frequentie
269/1 315.
uitkomst absolute frequentie relatieve frequentie
mj , j = fj fj /n
1, . .Belfast
.,4 10 10/1 315 ≈ 0.0076= 0.76 %
Cherbourg 269 269/1 315 ≈ 0.2046 = 20.46 %
Queenstown 123 123/1 315 ≈ 0.0935 = 9.35 %
Southampton 913 913/1 315 ≈ 0.6943 =69.43 %

Merk op dat inderdaad


10/1315 + 269/1315 + 123/1315 + 913/1315
= 1.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 12 / 117
Staafdiagram en taartdiagram
Een frequentietabel kan grafisch worden weergegeven met behulp
van een staafdiagram. Op de horizontale as: de mogelijke
uitkomsten mj , op de verticale as: de waarde van fj of fj n./

(a) (b)
0.76%
20.46%
750

Belfast
Cherbourg
9.35%
Queenstown
500 Southampton
69.43%

250

Belfast Cherbourg Queenstown Southampton

Taartdiagram. De relatieve frequenties van de uitkomsten in de


steekproef bepalen hoe de taart verdeeld wordt. Aangezien 20.46 %
procent van de uitkomsten de waarde ‘Cherbourg’ heeft, zal deze
uitkomst dus ongeveer ´e´en vijfde van de taart innemen.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 13 / 117
Frequentietabellen voor kwantitatieve variabelen
Bij kwantitatieve gegevens kan de uitkomstenverzameling ofwel een
eindig aantal, ofwel een oneindig aantal elementen bevatten.
Uitkomstenverzameling eindig ⇒ frequenties(tabel),

staafdiagram, taartdiagram,. . . .

Uitkomstenverzameling oneindig ⇒ zinloos om voor elk waarde in


de uitkomstenverzameling S na te gaan hoeveel maal het voorkomt.

Oplossing: discretisatie of groepering van de gegevens. Deel S op in


een aantal aangrenzende deelintervallen of klassen. Soms zijn de
klassen van gelijke breedte ∆, de klassebreedte.

Men bekomt dus eigenlijk een nieuwe discrete uitkomstenverzameling


S = {m 1 , ..., mk }, waarbij mj (j = 1, . . . , k) de klassemiddens zijn,
met k het aantal klassen ⇒ fj en fj /n.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 14 / 117
Frequentietabellen voor kwantitatieve variabelen

Titanic data set


Een mogelijkheid om de variabele ‘Age’ te discretiseren is door
gebruik te maken van de klassen: ]0,10], ]10,20], ]20,30], ]30,40],
]40,50], ]50,60], ]60,70] en ]70,80].
Klassebreedte: ∆ = 10.

klasse fj /
]0,10]
klassemiddens mj 5 fj 100 n 315
100/1
]10,20] 15 218 218/1 315
]20,30] 25 464 464/1 315
]30,40] 35 264 264/1 315
]40,50] 45 165 165/1 315
]50,60] 55 69 69/1 315
]60,70] 65 31 31/1 315
]70,80] 75 4 4/1 315

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 15 / 117


Klassiek histogram

= de continue tegenhanger van het staafjesdiagram.


Boven een klassemidden mj wordt een balk geplaatst met als basis ∆
en met als hoogte hj de overeenkomstige fj of fj /n, zodat
fj
hj =
. n

0.3
Relatieve frequentie

0.2

0.1

0.0

0 20 40 60 80
Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 16 / 117


Klassiek histogram

Opmerking: er kunnen erg verschillende indrukken bekomen worden


bij verschillende keuzen van de klassebreedte ∆ .
Bijvoorbeeld: ∆ = 4

0.15

0.10
Relatieve frequentie

0.05

0.00

0 20 40 60 80

Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 17 / 117


Dichtheidshistogram

Soms wil men klassen gebruiken die niet van gelijke lengte zijn,
bijvoorbeeld omdat sommige delen van de uitkomstenverzameling S
minder dik bezet zijn. Een grotere klassebreedte is daar dus gewenst
om een niet al te gepiekte figuur te bekomen. Het verticaal uitzetten
van absolute of relatieve frequenties geeft dan geen correct beeld.

Titanic data set: ’Paid’ (betaalde prijs voor een ticket)


(a) een klassiek histogram met ∆ = 50 Britse Ponden (gbp)
(b) relatieve frequenties, met grotere klassebreedte voor de hogere
kosten (duurdere tickets)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 117


Dichtheidshistogram
klasse ∆j fj f j /n klasse ∆j fj f j /n hj = f j / ( ∆ j
[0,
n) 50] 50 1076 0.8183 [0, 50] 50 1076 0.8183 0.0163
]50, 100] 50 156 0.1186 ]50, 100] 50 156 0.1186 0.0024
]100, 150] 50 32 0.0243 ]100, 550] 450 83 0.0631 0.0001
]150, 200] 50 13 0.0099
]200, 250] 50 21 0.0160
]250, 300] 50 13 0.0099
]300, 350] 50 0 0
]350, 400] 50 0 0
]400, 450] 50 0 0
]450, 500] 50 0 0
]500, 550] 50 4 0.0030

0.8 0.8

0.6 0.6
Relatieve frequentie

Relatieve frequentie
0.4 0.4

0.2 0.2

0.0 0.0

0 100 150 200 250 300 350 400 450 500 550 0 50 100 550
50 Betaald Betaald

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 19 / 117


Dichtheidshistogram

De tweede figuur geeft een vrij pessimistische indruk omtrent de verdeling van de
betaalde ticket prijzen. Men heeft de neiging om het aantal tickets die meer kosten
dan 100 gdp te overschatten.

Dichtheidshistogram: het histogram wordt verticaal herschaald


door de hoogte van de balk boven een klasse gelijk te nemen aan de
relatieve frequentie van die klasse gedeeld door de overeenkomstige
klassebreedte, of,
0.015

j
hj = h(m j) f jn
= ∆
Frequentiedichtheid

0.010

0.005

0.000

0 50 100 550
Betaald

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 117


Dichtheidshistogram

Bij een dichtheidshistogram geeft de oppervlakte, en dus niet meer


de hoogte hj , van de balken aan hoe vaak bepaalde uitkomsten
voorkomen. Immers,
opp = ∆ j .hj = j
f /n
zodat de totale oppervlakte van de ruimte tussen de horizontale as
en het dichtheidshistogram gelijk is aan 1. Immers,
k
k fj
totale opp =Σ ∆ j hj =Σ
j =1 n =
j =1
1.
Dit is een belangrijk feit voor het vervolg: Dichtheidshistogrammen
stellen relatieve frequenties voor door middel van oppervlaktes, niet
in termen van hoogtes.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 117


Dichtheidshistogram

Wanneer alle klassen eenzelfde breedte bezitten is een verticale as


niet vereist op een histogram. Voorbeeld: ’Age’ (leeftijd).

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 117


Dichtheidshistogram

klasse ∆j fj / hj
]0,10] f10
j 100 n 315
100/1 100/13 150
]10,20] 10 218 218/1 315 218/13 150
]20,30] 10 464 464/1 315 464/13 150
]30,40] 10 264 264/1 315 264/13 150
]40,50] 10 165 165/1 315 165/13 150
]50,60] 10 69 69/1 315 69/13 150
]60,70] 10 31 31/1 315 31/13 150
]70,80] 10 4 4/1 315 4/13 150

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 23 / 117


Vormen van verdelingen

Symmetrische verdelingen

0 10 20 30 40 50 0 1 2 3 4 5 6

5 7 9 11 13 1 2 3 4 5 6

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 117


Vormen van verdelingen

Meestal zullen we ons in de praktijk tevreden moeten stellen met


benaderende symmetrie, zoals bijvoorbeeld in het histogram van
’Leeftijd’ voor de passagiers in eerste klasse:

0.02
Frequentiedichtheid

0.01

0.00

0 20 40 60 80
Leeftijd Klasse 1

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 25 / 117


Normale verdelingsvorm

De normale of Gaussische verdeling is een symmetrische verdeling


met een duidelijk maximum in het midden, ook wel klok-curve
genoemd (Gauss, 1777-1855).

0.0 0.1 0.2 0.3 0.4

-3 -2 -1 0 1 2 3

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 26 / 117


Normale verdelingsvorm

Succes van de normale verdelingsvorm:


› vaak kan de vorm gebruikt worden als een goede
beschrijvingsvorm (maar niet zo vaak als sommigen hopen of
geloven). Telkens wanneer een uitkomst beschouwd kan worden
als het resultaat van een som van tal van afzonderlijke
resultaten, is de verdeling van dergelijke uitkomsten benaderend
normaal verdeeld is (en men ziet dan ook graag denkbeeldige
sommen achter steekproefresultaten).
› veel theoretische berekeningen zijn voor deze normale situatie
zonder noemenswaardige problemen uitgevoerd, in tegenstelling
tot veel andere gevallen.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 27 / 117


Normale verdelingsvorm

Omdat het histogram nogal gevoelig is aan de keuze van de


klassebreedte en door de aanwezigheid van toevalsaspecten, kan het
moeilijk zijn de klokcurve in een histogram te herkennen, vooral bij
kleine steekproefgroottes.

n = 20 n = 150 n = 1500
0.30

0.30

0.30
0.20

0.20

0.20
0.10

0.10

0.10
0.00

0.00

0.00
3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 28 / 117


Normale verdelingsvorm

Titanic data set


› Leeftijd van passagiers, apart voor eerste en tweede klasse

0.03

0.02

Frequentiedichtheid
0.02
Frequentiedichtheid

0.01

0.01

0.00
0.00

0 20 40 60 80
0 20 40 60 80
L ee f t ij d K l as s e 1 Leeftijd Klasse 2

› Het histogram is niet de meest aangewezen techniek om


normaliteit na te gaan!
De vraagstelling ivm een normale verdelingsvorm nemen we op in
Hoofdstuk 4 (zie Normale kwantielplot) en in Hoofdstuk 6 (Testen
van normaliteit).
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 29 / 117
Andere verdelingsvormen

Scheve (niet-symmetrische) verdelingen


Indien een verdeling aan ´e´en zijde trager neervalt of afzwakt dan aan
de andere kant. Voorbeeld: ’Paid’ is een rechtsscheve verdelingen.

0.015
Frequentiedichthei

0.010
d

0.005

0.000

0 50 100 150 200 250 300 350 400 450 500 550
Betaald

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 30 / 117


Andere verdelingsvormen

Verdelingen met zware (of lange) staarten


Een verdeling kan symmetrisch zijn maar toch niet normaal. Dit kan
bijvoorbeeld optreden wanneer de staarten trager naar nul vallen dan
het geval is bij de klokvorm van de normale verdeling. Dit trager
verval kan ook optreden bij scheve verdelingen aan de zijde naar waar
de scheefheid wordt genoemd.
Frequentiedichtheid

0.00 0.01 0.02 0.03 0.04 0.05

−20 −10 0 10 20 30 40 50

Ras

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 117


Andere verdelingsvormen

Verdelingen met lichte (of korte) staarten


Soms kunnen we moeilijk over staarten spreken, zoals bij een
histogram horende bij de ogen gegooid bij n worpen met een
dobbelsteen. Ook de linkerstaart van de variabele ‘Ras’ (uit de
Pollutie data set) heeft een lichtere staart dan de normale verdeling.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 32 / 117


Andere verdelingsvormen

Bimodale verdelingen
Bij aanwezigheid van twee deelgroepen in de gegevens kunnen twee
toppen (of modi) voorkomen in een histogram.
Histogram van de variabele ‘Age’ (in de Titanic data set). Onder
andere, twee duidelijke grotere leeftijdsgroepen: de babies en de
jonge twintigers
200

150
Absolute frequentie

100

50

0 20 40 60 80
Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 33 / 117


Andere verdelingsvormen
Uitschieters

Soms hoort ´e´en getal of een relatief klein aantal getallen niet echt bij
de rest van de gegevensgroep: uitschieters (outliers). Het is
belangrijk de oorzaken te achterhalen van het voorkomen van
uitschieters.
0.015
Frequentiedichtheid

0.010

0.005

0.000

0 50 100 150 200 250 300 350 400 450 500 550
Betaald

vier passagiers betaalden voor hun ticket meer dan 512 gdp, terwijl
al de andere passagiers minder dan 300 gdp betaalden.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 34 / 117
Cumulatieve verdelingsfunctie

Metrische gegevens: empirische (cumulatieve) verdelingsfunctie


als alternatief voor frequentietabellen. Voor een willekeurige waarde
x bepaalt men de relatieve positie binnenin de steekproef.

Titanic data set


Een passagier is 15 jaar oud.
› Is dit eerder een jonge leeftijd in vergelijking met de rest van de
steekproef?
› Tel het aantal passagiers met leeftijd kleiner of gelijk is aan 15
jaar ⇒ 131 of 131/1 315 = 0.0996 ≈ 0.1 of 10%.
› De passagier behoort tot de groep van 10% jongste passagiers.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 35 / 117


Cumulatieve verdelingsfunctie

Fˆ n( x ) is gelijk aan het aantal steekproefuitslagen xi die niet groter


zijn dan x , gedeeld door n:
1
Fˆ n( x ) (aantal xi ≤ x ; i = 1, ...,
= n n).

Fˆ n( x ) kan dus gezien worden als een cumulatieve relatieve frequentie


van de uitkomsten van het experiment die kleiner dan of gelijk zijn
aan x .

De cumulatieve verdelingsfunctie kunnen we berekenen in elke re¨ele waarde: we


hoeven ons dus niet te beperken tot de steekproefuitkomsten xi .

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 36 / 117


Cumulatieve verdelingsfunctie

Voorbeeld 1:
5 metingen x1 = 1, x2 = 4, x3 = 3, x4 = 7 en x5 = 6.
› De geordende steekproef:
x (1) = 1, x (2) = 3, x (3) = 4, x (4) = 6 en x (5) = 7.
› frequenties, relatieve frequenties en cumulatieve relatieve
frequenties
x(i ) fi fi / F ˆn
1 n
1
1/5
1/5
3
1
1/5
2/5
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 37 / 117
Cumulatieve verdelingsfunctie

Algemene eigenschappen: de functie begint bij de waarde 0, stijgt


trapsgewijs en eindigt bij 1.

F ˆn 5/.5
1 4/.5 c
3/.5 c
2/.5 c
1/.5

0
x4
x1 x3
x5
x2 de sprongen: 1 /5 = 1/n, omdat elke observatie
De hoogte van
1 keer voorkomt. slechts
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 38 / 117
Cumulatieve verdelingsfunctie

Voorbeeld 2: Steekproef met metingen 1, 4, 3, 6, 4, 7

F ˆn 6/.6
1 5/.6 c
4/.6

c
c
1/2/
.
6.6 c

0
x1 x3x =x
2 x4
5 x6

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 39 / 117


Cumulatieve verdelingsfunctie
Titanic data set

Grotere steekproeven (groter aantal gegevens): exacte of


benaderende methode.
Exact voor ‘Leeftijd’: de sprongen zijn nu slechts 1/1 315
hoog.
1.00

0.75

0.50

0.25

0.00

0 20 40 60
Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 40 / 117


Cumulatieve verdelingsfunctie

Benadering van de grafiek: maak gebruik van de frequentietabel


waarin we de leeftijdgegevens gediscretiseerd hebben in klassen.

klasse klassemiddens mj fj j Fˆn


f]0,10]
/n 5 100 100/1 315 100/1 315
]10,20] 15 218 218/1 315 318/1 315
]20,30] 25 464 464/1 315 782/1 315
]30,40] 35 264 264/1 315 1 046/1
]40,50] 45 165 165/1 315 315
]50,60] 55 69 69/1 1 211/1 315
]60,70] 65 315 1 280/1
]70,80] 75 31 31/1 315
315 1 311/1 315
1 211 van de 1 315 passagiers (ofwel zo’n 92 percent) 1is 315/1
4 4/1 jonger dan
315 315
50 jaar of net 50 jaar, of Fˆn(50)=1 211/1 315.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 41 / 117
Cumulatieve verdelingsfunctie

1.00

0.75

0.50

0.25

0.00

0 20 40

60

Deze curve is een goede maar groveLeeftijd


benadering voor de exacte
cumulatieve verdelingsfunctie (lijn met fijnere trapjes).
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 42 / 117
Cumulatieve verdelingsfunctie
De empirische verdelingsfunctie kan ook aangeduid worden op het
dichtheidshistogram.
1 046 van de 1 315 passagiers (ofwel zo’n 79.5 percent) is jonger
dan 40 jaar of net 40 jaar, of F ˆ n( 40)=1 046/1 315 (de som van de
oppervlaktes van alle grijs gekleurde rechthoeken)

0.03
Frequentiedichtheid

0.02

0.01

0.00

0 20 40 60 80
Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 43 / 117


Kwantielfunctie

› Fˆnlevert voor elk re¨eel getal een percentage p op. Omgekeerde vraag: gegeven

een bepaald percentage 0 <p ™1, welk re¨eel getal x situeert zich dan in
de overeenkomstige
steekproef ? positie in de

› Nemen we bijvoorbeeld p = 1/4 bij de variabele ‘Leeftijd’, dan


zoeken we die waarde (leeftijd) waarvoor we weten dat 1/4 van
de passagiers jonger zijn. Voor p = 1/2 zoeken we de middelste
waarde.

› We willen dus de inverse van de cumulatieve verdelingsfunctie


bepalen. Deze noemen we de (empirische) kwantielfunctie
Qˆn.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 44 / 117


Kwantielfunctie

Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=

x(1) x(2) x(3) x(4) x(5)

x = Qˆn (p)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 45 / 117


Kwantielfunctie

Hoe defini¨eren we deze inverse functie?

Hypothetisch voorbeeld: p = 1/2. Er is geen enkele x -waarde


ˆ n( 1/2) =
waarvoor
Q Fˆn(xexact gelijkx(is3)aan
3) omdat = 41/2. Daaromgetal
het kleinste stellen we
is waarvoor Fˆ n
minstens 1/2 is.

Voor p = 4/5 hanteren we dezelfde definitie. Nu is er een heel


interval van x -waarden, namelijk [x (4) , x ( 5) [ waarvoor Fˆn(x ) =
4/5. We kiezen hiervan de kleinste waarde, dus Qˆn(4/5) = x (4) =
6.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 46 / 117


Kwantielfunctie

In het algemeen stellen we dus dat voor elke 0 < p ™ 1

Qˆn(p) is het kleinste getal x waarvoor Fˆn(x ) “ p.

Merk op dat Qˆn(p) = x (4) voor elke 3/5 < p ™ 4/5. Algemeen geldt
i− i
Qˆ n( p) = (ix ) indien <p
1

n n
waarbij x(i ) het i -de kleinste getal voorstelt: x (1) ≤ x (2) ™ . . . ™ x ( n) .

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 47 / 117


Kwantielfunctie

› De kwantielen Qˆ n( 0.25), Qˆ n ( 0.5) en Qˆ n( 0.75) worden vaak


beschouwd.

› Zij hebben daarom een aparte naam gekregen:


Qˆn (0.25): het eerste kwartiel

Qˆn (0.5): het tweede kwartiel of de mediaan


Qˆn(0.75): het derde kwartiel


Dit is een logische naamgeving aangezien resp. een kwart, de
helft en drie kwart van de gegevens kleiner is dan resp.
Qˆn(0.25), Qˆn(0.5) en Qˆn(0.75).

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 48 / 117


Centrumkenmerken

Samenvatten van gegevens: belangrijk maar voorzichtig mee


omspringen.

De eenvoudigste vorm van samenvatten: reductie tot ´e´en getal. Een


dergelijk getal dient typisch te zijn voor de totale gegevensgroep en
zou zich dus best dicht bij het centrum of het midden van de
verdeling bevinden.

Voor symmetrisch verdeelde variabelen: het centrum is het centrum


van symmetrie. Voor scheve verdelingen? De methodes hanteren een
verschillend concept van ‘centrum’ en resulteren in sterk verschillende
getallen. Ook zullen de verschillende methoden anders reageren op de
aanwezigheid van uitschieters.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 49 / 117


Steekproefgemiddelde

Het steekproefgemiddelde x¯ (of x¯n) wordt het meest gebruikt


om het centrum van een verdeling aan te duiden:

1 1n
x¯ (x 1+ ... + x )n = Σ xi
= n ni
=1

Interpretatie: het evenwichtspunt van een balk waarop gelijke


gewichten geplaatst zijn en dit op de posities gegeven door de
waarden xi .

exe1x2 ex
/\
1ex1.5
3 x¯ = 5 10
4

7.5
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 50 / 117
Steekproefgemiddelde

Titanic data set


’Boarded’: nominale variabele, zinloos.

‘Age’: x¯ = 29.49 jaar. In de gegeven steekproef is de leeftijd van de


passagiers gemiddeld gelijk aan 29.49 jaar.

Discrete gegevens, of gegroepeerde continue gegevens:

k
x¯ 1Σ mj j
= n j= f
1

(Als S aftelbaar oneindig is, dan is k gelijk aan oneindig.)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 51 / 117


Steekproefgemiddelde

Titanic data set


Gediscretiseerde ‘Age’:
1
x¯ (5 × 100 + 15 × 218 + 25 × 464 + 35 ×
= 1 264
315 +45 × 165 + 55 × 69 + 65 × 31 +
75 × 4)

29.01 jaar.

Continue versie: x¯ = 29.49 jaar.

Merk op dat 29.01 een vrij goede benadering is voor 29.49.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 52 / 117


Steekproefgemiddelde
Het gemiddelde is zeer populair, ook omwille van theoretische
beschouwingen die later aan bod zullen komen, maar het heeft een
nadeel. Het gemiddelde is erg gevoelig aan uitschieters.
Voorbeeld:
Datapunten: 6, 3, 10, 7 en 8
Steekproefgemiddelde: 8.5
Datapunten met kopieerfout: 6, 3, 100, 7 en 8.
Steekproefgemiddelde: 24.8.
Titanic data set
We hebben vier uitschieters gedetecteerd voor de variabele ‘Paid’. Het
gemiddelde van de variabele ‘Paid’ op basis van alle 1 315 passagiers is
x¯= 33.05 gdp per ticket.
Zonder de uitschieters: x¯= 31.59 gdp per ticket.
Relatief weinig effect van uitschieters op het steekproefgemiddelde
hier.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 53 / 117
Mediaan
‘Robuust’ alternatief voor het steekproefgemiddelde: de
steekproefmediaan.

Dit is de middelste waarde van de geordende steekproef. Ofwel het


punt waar evenveel steekproefelementen links en rechts van te vinden
zijn: r x
((n+1)/2) (n
ı
med x ) = oneven)
x + ((n/2)+1)
( { ı (n/2) (n even).
ı› x 2
Voorbeeld:
Datapunten: 6, 3, 10, 7 en 8; na ordening: 3, 6, 7, 8, 10
Mediaan: 7
Datapunten met kopieerfout: 6, 3, 100, 7 en 8;
na ordening: 3, 6, 7, 8, 100
Mediaan: 7
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 54 / 117
Mediaan

Bijvoorbeeld, voor n = 7, is med (x ) =( 4)x , wat inderdaad exact de


middelste waarde van de geordende steekproef is.
x +x
Voor n = 8 stellen we med (x ) (4) 2(5) . Op deze manier zijn er 4
=
observaties kleiner of gelijk aan de mediaan, en tegelijk zijn er ook 4
waarnemingen groter dan de mediaan. (Indien x( 4) = (x5) , zijn het
er
5 langs iedere zijde.)

Ingeval n oneven is, kan de mediaan teruggevonden worden als het


beeld van het punt p = 0.5 onder de empirische kwantielfunctie! Of
med (x ) =ˆ nQ 1/2). Voor n even vinden we met Q ˆ(n 1/2) een
( de mediaan benadert.
die waarde

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 55 / 117


Mediaan

Fˆ n( x ) =
p 1
4 .
p 5
= . c
1
.
p c
2
. . c
=

x(1) x(2) x(3) x(4) x(5)

x = Qˆn (p)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 56 / 117


Mediaan

Titanic data set


n = 1 315 is oneven. De mediaan voor “Paid”: het middelste getal in de
rij van de geordende metingen, of med (x ) = 14.4 gbp.
Anderzijds is x¯=33.05 gbp.
Aangezien er een viertal tickets zijn met extreem hoge kostprijs,
hebben deze waarden een grote invloed op de gemiddelde prijs.
Bij rechtsscheve verdelingen zal het gemiddelde dus groter zijn dan de
mediaan, terwijl bij linksscheve verdelingen de mediaan het grootst is.
Voor de variable “Age” is de mediaan gelijk aan 28, terwijl de
gemiddelde leeftijd x¯=29.49 jaar is. Gemiddelde en mediaan liggen hier
dus vrij dicht bij elkaar.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 57 / 117


Mediaan

Hoewel we meestal een methode wensen te gebruiken die zo gevoelig


mogelijk is voor alle gegevens, voornamelijk indien ze verzameld zijn
ten koste van veel moeite, kan het gebruik van een niet-robuuste
samenvattingsmethode soms nadelig zijn omdat het te veel aandacht
besteedt aan een te beperkt deel van de gegevens.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 58 / 117


Centrummaten en lineaire transformaties

Eigenschap van deze centrummaten:

indien we de gegevens xi verschuiven over een afstand b, en/of


herschalen met een factor a, dan verschuift en herschaalt de
centrummaat zich op gelijke wijze.

Indien yi = ax +i b (
i =1, ..., n), met a, b re¨elegetallen, dan geldt
dat
y¯ = ax¯ + b med
(y ) = a med (x ) + b.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 59 / 117


Centrummaten en lineaire transformaties

Deze centrummaten zijn translatie- en schaal equivariant.

c mec c
d
−1 3.
verschuiven 5
me
0.5x¯ c c c
xi + 3 d
2 3.5 6.
verbreden c med x¯
5
c c
xi x 2
− 1 7
2 x¯

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 60 / 117


Centrummaten en lineaire transformaties

Deze eigenschap laat toe over te gaan op andere meeteenheden. Zo


kunnen we bijvoorbeeld overgaan van metingen in cm naar metingen
in mm (dan is yi = 10xi ). Een ander voorbeeld is de omzetting
5
van
graden Fahrenheit naar graden Celcius: T =
C ( T − 32) .9
Nog een voorbeeld is de omzetting van gdpF in Euros (aan de huidige
wisselkoers): 1 Britse Pond (gbp) = 1.13 Euro, of nog 1 Euro =
1/1.13 gdp ≈ 0.885 gdp.

Titanic data set


’Paid’: x¯ = 33.05 gdp en med (x ) = 14.4 gdp.
Omzetten van gdp naar Euro, volgens de huidige wisselkoers
Dus x¯Euro = 0.885 × 33.05 = 29.25 Euro en
med (x )Euro = 0.885 × 14.4 = 12.74 Euro.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 61 / 117


Modus

Nominale en ordinale gegevens: gemiddelde is onberekenbaar of niet


zo zinvol.

Meestal blijft als mogelijk centrumkenmerk nog de modus over: dit


is (zo die bestaat en uniek is) het element uit de
uitkomstenverzameling dat het meest voorkomt in de steekproef, of
dat met andere woorden de hoogste frequentie vertoont. Bij een
histogram gebaseerd op continue gegevens wordt de modus
gedefinieerd als het klassemidden waar het gekozen histogram de
hoogste waarde bereikt.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 62 / 117


Modus

Titanic data set


“Boarded’: modus geven door ‘Southampton’ aangezien de
meeste passagiers aan boord gingen in Southampton.

750

500

250

Belfast Cherbourg Queenstown Southampton

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 63 / 117


Modus

Titanic data set


‘Class’ waarbij we ons beperken tot de groep van de
overlevenden: modus wordt gegeven door ’Class=1’ omdat de
meeste overlevenden van de Titanic eerste klasse passagiers
waren.
200

150
Aantal overlevers

100

50

1 2 3
Klasse

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 63 / 117


Spreidingskenmerken

Een centrummaat alleen verschaft te weinig informatie omtrent de


verdeling van de steekproefgegevens.

Voorbeeld:
steekproef 1: 71, 211.5, 55, 7.55, 8.2, 26.55, 15, 134.5 gbp
steekproef 2: 57.75, 59.4, 60, 65, 66.6, 69.55, 71, 80 gbp

Beide hebben x¯ = 66.1625 gbp, maar in de tweede steekproef zijn


bijna alle metingen ongeveer gelijk (vergelijkbare prijs), maar nergens
hoge pieken. In het eerste voorbeeld zijn er een aantal vrij lage en
hoge bedragen te bemerken.

Dus: nood aan kenmerken die weergeven hoe ver of hoe dicht de
overige punten rond een centrummaat gespreid liggen.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 64 / 117


› Merk allereerst op dat:
1n
x − x¯) =
nΣ ( i
i 0
=1

› Average Distance to the Mean


Logische keuze: Average Distance to the Mean
1n
S
A D M = n ΣSxi −
i .
=1

Maar dit wordt niet vaak gebruikt (onder andere omdat de
absolute waarde een lastige wiskundige bewerking is: de
afgeleide hiervan bestaat niet overal.)

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 65 / 117


Standaardafwijking en variantie

De steekproefstandaarddeviatie of standaardafwijking:

1 n
s ı, Σ (x i −
2
n− i
= x¯)
1 =1

2 1 n 2
Het kwadraat van de standaarddeviatie s = Σ (x i − ) is de
n − i x¯
(steekproef)variantie. 1 =1

De variantie bezit bijzonder goede eigenschappen wanneer de data


(tenminste benaderend) normaal verdeeld zijn (zie Hoofdstuk 5).

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 66 / 117


Standaardafwijking en variantie

Waarom delen door n − 1?

› n = 1: het ene steekproefelement is meteen ook het


steekproefgemiddelde. Delen door n levert dan s = 0, maar dit
betekent determinisme en in de statistiek analyseren we enkel
situaties waarin het toeval meespeelt.
Delen door n − 1: de spreiding is ‘onbepaald’ (0/0)
› n = 2 → het gemiddelde van (x 1− ) 2en (x − x¯) geeft een
2
x¯ over de spreiding van de gegevens.
idee 2 Omdat x¯ x1+x2 , zijn
2

= 2
beide kwadraten echter gelijk aan (x1−x 2
) . We kunnen dus
2
slechts het gemiddelde nemen over n − 1 = 1 waarde. We
hebben 1 vrijheidsgraad verloren: van de n termen zijn er dus
slechts n − 1 onafhankelijke termen.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 67 / 117


Standaardafwijking en variantie

Discrete gegevens, of gegroepeerde continue gegevens:

1 k
s2 mj − x¯)2 j
= n − jΣ= ( f
1 1

Titanic data set ‘Paid’: s = 51.9604 gbp, s2 = 2699.883 (gbp) 2

Gediscretiseerde ’Paid’: s = 50.01209 gbp (vrij goede benadering).

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 68 / 117


Standaardafwijking en variantie

Interpretatie: hoe excentrisch is een steekproefwaarde ten opzichte


van het centrumkenmerk, hier het steekproefgemiddelde.

Het meest centrale gedeelte van het histogram: deze mogelijke


uitkomstwaarden die op hoogstens ´e´en standaarddeviatie van het
gemiddelde liggen:
[x¯ − s, x¯ + s]
‘Age’: [29.49 − 13.78, 29.49 + 13.78] = [15.71, 43.27].

Dit interval bevat ongeveer twee-derden, 23 1315 = 877 van


alle
gegevens/leeftijden van passagiers, dus ongeveer 877/11315 ≈ 67 %
van de passagiers was tussen 15 en 43 jaar oud.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 69 / 117


Standaardafwijking en variantie

Bij normaal verdeelde gegevens geldt dat, wat ook de waarde van
het gemiddelde en de standaarddeviatie is:
› ongeveer twee-derden van de gegevens binnen een afstand
van
› ´e´en standaarddeviatie aan weerszijden van het gemiddelde
ligt.
ongeveer 95% van de gegevens binnen een afstand van twee
standaarddeviaties aan weerszijden van het gemiddelde ligt.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 70 / 117


Standaardafwijking en variantie

De standaarddeviatie bezit optimaliteitseigenschappen bij


afwezigheid van ‘abnormale’ gegevens, maar is erg gevoelig aan
uitschieters, aangezien deze in de berekening van s2 een te groot
(kwadratisch) gewicht krijgen.

Titanic data set:


‘Paid’: s = 51.9604 gbp.
Verwijder de vier uitschieters: s = 44.77274 gbp.
Dit is aan aanzienlijk verschil.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 71 / 117


Bereik

Het bereik (range) R: de afstand tussen de grootste x ( n) en de


kleinste waarneming x (1) :

R = x (n) − x (1) .

Nadelen:

› te weinig informatief omdat slechts twee waarnemingen gebruikt


worden
› erg afhankelijk van de steekproefgrootte n: hoe groter n, hoe
groter men R verwacht
› erg gevoelig aan uitschieters

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 72 / 117


Interkwartielafstand

De interkwartielafstand IQR: de lengte van een gebied rond de


mediaan gelegen, dat ongeveer de helft van de gegevens omvat:

IQR = Qˆn(0.75) − Qˆn(0.25).

Titanic data set


› ‘Age’: Qˆn(0.75) = 38.00 en Qˆn(0.25) = 21.00, dus IQR =
›17‘Paid’: s = 51.9604 (alle data), s = 44.77274 (zonder
(terwijl s = 13.78).
uitschieters)
IQR = Q ˆ n ( 0.75) − Qˆ n (0.25) = 31.137500 − 7.895833 ≈
23.24
(met uitschieters)
IQR = Q ˆ n ( 0.75) − ˆQn (0.25) = 30.847917 − 7.895833 ≈
22.95
(zonder uitschieters)
De interkwartielafstand is dus weinig gevoelig voor uitschieters.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 73 / 117
Interkwartielafstand

Merk op: s en IQR zijn van een andere ordegrootte:


‘Age’: IQR/s = 1.23.
‘Paid’ (zonder uitschieters): IQR/s = 0.51.

Voor normaal verdeelde gegevens (dus zonder uitschieters) geldt


dat:
IQR

s 1.34.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 74 / 117


Spreidingsmaten en lineaire transformaties

Indien yi =axi +b (i =1, ..., n), met a, b re¨ele getallen, dan geldt
sy x
SaSs 2 2
s2y = a sx .

Titanic data set


‘Paid’: s = 51.9604 Britse Ponden,
of 0.885 × 51.9604 = 45.98495
Euro.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 75 / 117


Boxplot

Grafische voorstelling van de belangrijke kenmerken van een


verdeling van steekproefelementen.
› horizontale lijn bij de mediaan, ev. een symbool (bv. diamant)
voor het steekproefgemiddelde
› doos (box) van het eerste kwartiel Qˆn(0.25) tot het derde
kwartiel Qˆ n( 0.75). Lengte = IQR.
› gebied waartussen we de reguliere punten verwachten:

[Qˆ n( 0.25) − 1.5 IQR, Qˆ n (0.75) + 1.5


IQR]
Punten die buiten dit interval vallen, worden aangeduid met een
speciaal symbool.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 76 / 117


Boxplot

› Soms nog een onderscheid tussen ‘gewone’ en ‘extreme’


uitschieters, bv. buiten het interval

[Qˆn(0.25) − 3 IQR, Qˆn(0.75) + 3 IQR].

› resp. Qˆ n( 0.75)
de snorharen (whiskers) vanbijdede
en stoppen boxplot:
kleinste,vertrekken bij Qˆn(0.25)
resp. de grootste
observatie die geen uitschieter is.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 77 / 117


Boxplot
extreme
uitschieters

^ b ^
uitschieters
+3 IQR
b
7
^
+1.5 IQR

ˆ n( 0.75)
Q
7 7
Med ^IQR
7
Qˆn (0.25)
^ ^
-1.5 IQR

7
^ b -3 IQR
uitschieters

7 7
extreme
uitschieters
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 78 / 117
Boxplot

De boxplot levert informatie over de verdeling:

centrum: mediaan, gemiddelde


› spreiding: IQR = lengte van de doos
› scheefheid: bij symmetrie ligt de mediaan in het midden van de
doos, bij rechtsscheve verdelingen in de onderste helft. In dat
geval zijn ook de bovenste whiskers langer.
› zwaarte van de staarten: veel uitschieters → zwaarstaartige
verdeling (want lengte van de snorharen gebaseerd op de
normale verdeling).
Nadeel: geen bimodaliteit zichtbaar.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 79 / 117


Boxplot

‘Age’:

60

40
Age

20

−0 . 4 − 0. 2 0.0 0.2
0.4

› symmetrische verdeling, mediaan valt bijna samen met


gemiddelde
› geen uitschieters
med(Age)= 28 jaar mean(Age)= 29.49 jaar

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 80 / 117


Boxplot

‘Paid’:
500

400

300
Paid

200

100

−0.4 −0.2 0.0 0.2 0.4

› rechtsscheve verdeling, mediaan veel kleiner dan gemiddelde,


onderste snorhaan veel kleiner dan bovenste
› uitschieters ....
med(Paid)= 14.4 gbp < mean(Paid)= 33.05 gbp
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 81 / 117
Nog wat meer voorstellingen met boxplots

(a) (b)
500

60
400

300
Leeftijd

40

Betaald
200

20

100

0 0

1 2 3 Alive D ead
Klasse

Figuur: Boxplots van (a) ‘Leeftijd’ per Klasse en (b) ‘Paid’ voor de groep
van overlevenden en de groep van niet-overlevenden.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 82 / 117


Nog wat meer voorstellingen met boxplots

0.02

Frequentiedichtheid
0.01

0.00

0 20 40 60 80

0.4

0.2

0.0

−0.2

−0.4
0 20 40 60 80
Leeftijd klasse 1

Figuur: Histogram tezamen met boxplot van ‘Leeftijd’ van Klasse 1


passagiers.

enkele samenvattende statistieken


minimum 1ste kwartiel mediaan derde kwartiel maximum
0.92 29.00 39.00 48.00 71.00
gemiddelde = 39.09 jaar standaard deviation = 13.63 jaar
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 83 / 117
Nog wat meer voorstellingen met boxplots

0.015

Frequentiedichtheid
0.010

0.005

0.000

0 2 00 4 00
Betaald
0.4

0.2

0.0

−0.2

−0.4
0 10 0 2 00 30 0 40 0 5 00
Paid

Figuur: Histogram tezamen met boxplot van ‘Paid’.

enkele samenvattende statistieken


minimum 1ste kwartiel mediaan derde kwartiel maximum
0.000 7.896 14.400 31.137 512.329
gemiddelde = 33.05 gbp standaard deviation = 51.96 gbp
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 84 / 117
Verbanden tussen twee variabelen

Voorbeelden
: Is er een relatie tussen de leeftijd en prijs ticket ?
› Is de leeftijd van een passagier hoger in eerste klasse dan in
tweede klasse?
› Is er een verband tussen de variabelen ‘Boarded’ en ‘Class’?

Steekproef van de twee variabelen:

x1, x2, . . . , xn
y1, y2, . . . , yn

Verschillende technieken nodig zijn, afhankelijk van de types


variabelen.
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 85 / 117
Tweedimensionaal histogram

Voor twee kwantitatieve (metrische) variabelen: de twee


variabelen worden opgedeeld in klassen en de frequenties worden
berekend voor elke combinatie van klassen. Dit levert een kruistabel
met leeftijd in kolom 1 (en 3 kolommen met enkel nullen weggelaten).
Betaald
[0,50] ]50,100] ]100, 150] ]150, 200] ]200, 250] ]250, 300] ]300, 350] ]500, 550]
[0,10] 93 4 1 2 0 0 … 0 ... 0
]10,20] 190 19 3 1 2 3 0 ... 0
]20, 30] 406 38 7 4 5 4 0 ... 0
]30, 40] 208 37 8 3 4 1 0 ... 3
]40, 50] 114 32 9 1 7 2 0 ... 0
]50, 60] 41 19 4 2 1 1 0 ... 1
]60, 70] 20 7 0 0 2 2 0 ... 0
]70, 80] 4 0 0 0 0 0 0 ... 0

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 86 / 117


Tweedimensionaal histogram

Grafische voorstelling: tweedimensionale histogram (gebaseerd op


frequenties of relatieve frequenties)
‘Betaald’ en ‘Leeftijd’:

400
Absolu te fre que

300

200

100
ntie

0
0
100
200
0
Be

300 20
ta
al

400 40
d

ijd
500 60 L ee ft
80

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 87 / 117


Tweedimensionaal histogram

‘log(Betaald)’ en ‘Leeftijd’:

250
Abs olute freq
200

150

100
uentie

50

0
0
2
lo

0
g(
Be

4 20
ta

40
al

ftijd
d)

6 60 Le e
80

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 88 / 117


Tweedimensionaal histogram

Gladdere voorstelling:
‘Betaald’ en ‘Leeftijd’ ‘log(Betaald)’ en ‘Leeftijd’

400 250

Absolute freq
200
Abso lute freq

300
150
200
100

uentie
uentie

100 50
0
0 0
1
100 2

log
200 3

(B
20

et
300
Be

20 4

aa
40
ta

40

ld)
400
al

5 ijd
ti jd Leeft
d

60 L e ef 60
500 6

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 89 / 117


Tweedimensionaal histogram

Voorstelling m.b.v. kleuren:


(500,550]
(6,7]

(450,500]

(400,450] (5,6]

(350,400]
(4,5]
400
(300,350]

log(Betaald)
300 200
Betaald

(250,300] (3,4]200
100
100
(200,250]
0 0
(2,3]
(150,200]

(100,150] (1,2]

(50,100]

[0,1]
[0,50]

[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] [0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80]
Leeftijd Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 90 / 117


Covariantie en correlatiecoeffici¨ent
Andere voorstelling van data: puntenwolk of scatterplot.

500

400

300
Betaald in £

200

100

0 20 40 60
Leeftijd

zwakke positieve associatie tussen ‘Betaald’ en ‘Leeftijd’

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 91 / 117


De ‘Titanic’ en de reddingsboten

● Om 00u45, 65 minuten na de aanvaring met de ijsberg, werden


de eerste reddingssloepen te water gelaten
● tijdens het Amerikaanse en Britse onderzoek na de ramp
kwamen cijfers aan het licht mbt de bezetting van de
reddingsboten bij tewaterlating
● uit die cijfers blijkt dat van de 1 178 plaatsen in de
reddingssloepen er slechts 823 werden benut

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 92 / 117


De ‘Titanic’ en de reddingsboten

tijdstip tewaterlating nominale capaciteit inzittenden bij


tewaterlating
00.45 65 28
00.55 65 28
00.55 65 41
01.00 65 40
01.10 40 12
01.10 65 28
01.20 65 55
01.20 65 56
01.25 65 70
01.25 65 43
01.30 65 60
01.35 65 56
01.35 65 64
01.35 65 70
01.40 47 39
01.45 40 25
01.55 65 40
02.05 47 44
02.17 47 12*
02.17 47 12**

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 93 / 117


De ‘Titanic’ en de reddingsboten

● efficientie capaciteitsgebruik= gebruikte capaciteit / nominale


capaciteit
● indien deze maat kleiner is dan 1 dan werd de capaciteit van de
reddingsboot niet ten volle benut ...
● we vragen ons af er er een evolutie is in het efficient gebruik van
de reddingsboten naargelang de tijd verstreek na de ramp ....

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 94 / 117


De ‘Titanic’ en de reddingsboten
Boat launching time and
load−efficiency
● ●

1.0


Life boat load−efficiency


● ●

0.8 ●

0.6
● ●●

● ● ●
0.4



0.5 1.0 1.5 2.0


Life Boat launching time

positieve associatie tussen de tijd en de efficientie capaciteitsgebruik

opmerkelijk zijn de 2 data punten rechts onder in de scatter plot

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 95 / 117


Covariantie en correlatiecoeffici¨ent

Een puntenwolk leert ons:


› of de variabelen positief (y stijgt met stijgende x ) of negatief (y
daalt met stijgende x ) geassocieerd zijn
› hoe sterk de associatie is.
Sterke associatie: de kennis van ´e´en van de variabelen helpt de
andere goed voorspellen.
Zwakke associatie: informatie omtrent de ´ene variabele vertelt
weinig over de waarde van de andere variabele.

Associatie leidt dus tot de indruk dat er afhankelijkheid optreedt


tussen de twee variabelen.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 96 / 117


Covariantie en correlatiecoeffici¨ent

Hoe kunnen we deze informatie over de associatie tussen twee


variabelen X en Y meten, of weergeven in ´e´en getal ? We zullen dit
trachten te doen indien de associatie lineair is.
Deel de scatterplot op in vier kwadranten rond ¯, ¯ .



(x y ) ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●●
● ● ● ●
● ●●● ● ● ●


●●
●● ● ●
● ●
● ● ● ● ●
●● ●
y

y
● ● ● ●
● ●
● ● ●

● ●
● ●
● ●
● ●● ● ●●
● ● ●

● ● ●

●● ●● ●

● ●

● ● ● ● ●

x ●● x

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 97 / 117


Covariantie en correlatiecoeffici¨ent

Bereken voor elke i = 1, . . . , n de


score
(x i − )(y i −
x¯ y¯)
Deze score is positief voor punten in de linksonder en rechtsboven
kwadranten, en negatief voor de overige twee kwadranten.
Positieve associatie: meer observaties in de linksonder en
rechtsboven kwadranten, zodat de som
n

Σ ( x i −x¯)(y −
i y¯)
i
=1
positief is.
Negatieve associatie → negatieve som.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 98 / 117


Covariantie en correlatiecoeffici¨ent

Steekproefcovariantie:

1 n
cov (x, y ) x − )(y i −
( i
n− Σ x¯ y¯).
= i
1 =1
Dan geldt dat
cov (x, x ) =x2
s .
Titanic data set en efficient gebruik van de reddingssloepen:
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’. Dan
geldt cov (x, y ) = 0.0018. De twee variabelen zijn dus zwak positief
geassocieerd.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 99 / 117


Covariantie en correlatiecoeffici¨ent
De covariantie tussen X en Y is afhankelijk van de meeteenheden
van X en Y !
Stel dat we de ‘leeftijd’ niet uitdrukken in jaren, maar in aantal
maanden, waardoor we alle y -waarden met 12 moeten
vermenigvuldigen. Dan wordt

1 n
cov (x, 12y ) x − x¯)(12yi −
n− Σ ( i
= i 12y¯)
112 =1 n
= x − )(y i − y¯) = 12 cov x,
n− Σ ( i
i x¯ ( y ).
1 =1
In het algemeen geldt dat als u = i a x1 +i b en
1 v = ai y 2 i + b2 met

a1, a2 en b1, b2 willekeurige re¨ele getallen, dat

cov (u, v ) = a1a2cov (x, y


I. Gijbels (KU Leuven) ).
G0N11C-STATISTIEK & DATA-ANALYSE 100 / 117
Covariantie en correlatiecoeffici¨ent
Op basis van de covarianties kunnen we dus niet besluiten of het om
een sterke of zwakke associatie gaat!
Oplossing: standardizeer de covariantie zodat die onafhankelijk
wordt van de meeteenheden. (Pearson) correlatieco¨effici¨ent r (x, y ), of
kortweg r :
cov (x, y )
r = r (x, y )
= sx sy

als sx > 0 en sy > 0. Er geldt dat n


∑i (x i − )(y i −
r (x, y ) =1 x¯ y¯)
= ( ∑ni =1(xi − x¯)2 ni (y i − 2)1/2

1=1 n xi − x¯ yi
− y¯y¯)
= n − i Σ1 ( sx ) ( sy
) . 1 =
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 101 / 117
Covariantie en correlatiecoeffici¨ent
Men kan nu aantonen dat voor deze herschaalde waarde
−1 ™ r (x, y ) ™ 1
en dat bovendien Sr (u, v )S = Sr (x, y )S. Dit volgt uit su = Sa1Ssx
sen
v= Sa 2Ss
y .

Als de puntenwolk ‘fijner’ is, nadert de correlatieco¨effici¨ent naar de extremen -1


of 1. Indien alle punten op een rechte liggen, dan is
r = −1 indien het een dalende rechte betreft, of r = 1 bij een
stijgende rechte.
Immers als yi = axi + b geldt dat
2
cov (x, y ) = cov (x, ax + b) = ax, x ) = x
terwijl s = cov
yaSs( . Bijgevolg is,
x
as
S
asx2
r (x, y ) = teken(
sx S s
= x a).
I. Gijbels (KU Leuven)
aS & DATA-ANALYSE
G0N11C-STATISTIEK 102 / 117
Covariantie en correlatiecoeffici¨ent
Indien er geen associatie tussen de variabelen X en Y voorkomt, dan
ligt r dicht bij 0.
Merk op dat de omgekeerde redenering (bij associatie is r duidelijk
verschillend van 0) niet geldt: het is dus mogelijk dat r ≈ 0, terwijl er
toch een niet-lineaire associatie is tussen X en Y . Voorbeeld:
r = 0.07, terwijl toch een manifeste kwadratisch verband optreedt
tussen de twee variabelen. Het is dus niet zinvol om deze figuur
samen te vatten in het ene kenmerk r !

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 103 / 117


Covariantie en correlatiecoeffici¨ent

Kijk dus steeds eerst naar de scatterplot, en enkel ingeval van


lineaire associatie (of afhankelijkheid) is het zinvol deze te meten
met behulp van r .

De correlatieco¨effici¨ent is dus een maat voor lineaire associatie!

Voorbeelden:
-3 -2 -1 0 1 2 3

-4 -2 0 2 4 6 8 10

1 2 3 4 5 6 1 2 4 5 6

0 0.
4

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 104 / 117


Covariantie en correlatiecoeffici¨ent

4
2

2
0
6

0
6
1 2 3 4 5 6 1 2 3 4 5 6

r= r=
0.6 0.8
4
2

2 4 6 8 10
0
6

1 2 3 4 5 6 1 2 3 4 5 6

r= r=
0.9 0.95
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 105 / 117
Covariantie en correlatiecoeffici¨ent
Titanic data set
X : ‘Tijdstip na aanvaring’ en Y : ‘efficientie capaciteitsgebruik’.
› dan geldt cov (x, y ) =
0.0018 is sx = 0.47 en sy = 0.26
› bovendien
› dit levert r = 0.0145
› zonder de 2 metingen rechtsonder, vinden we r = 0.55
Boat launching time and Boat
launching
load−efficiency
time and load−efficiency
● ● ● ●
1.0

1.0
● ●


● ●

Life boat load−efficiency


Life boat load−efficiency

● ●
● ● ●
● ●
0.8

0.8

● ●

0.6

● ●
● ●

0.6
● ●

● ● ●
0.4

● ● ●
0.4



● ●

0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0


Life Boat launching time Life Boat launching time

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 106 / 117


Spearman correlatieco¨effici¨ent

●De Pearson correlatiecoeffici¨¨ ent r bevat e


stekpore
gfem
dd
idls en
ee
standaarddeviaties welke erg gevoelig zijn aan uitschieters. Zulke
ongewone waarnemingen kunnen dan ook een groot effect hebben
op de Pearson correlatiecoeffici¨¨ ent.

● Een robuuste maat van associatie (die dit effect vermindert)


wordt bekomen door de geobserveerde waarden voor x en y te
vervangen door hun rangnummers.
Men ordent de twee gegevensgroepen apart om in elk van de
groepen rangen toe te kennen. De kleinste observatie krijgt
rang 1, de tweede kleinste rang 2, enzovoort. Wanneer twee of
meer observaties dezelfde waarde aannemen (knoop, tie):
gemiddelde waarde van de rangen. Als bijvoorbeeld, na
ordening, de vierde en de vijfde observatie gelijk zijn, krijgen
beide
I. Gijbels (KU observaties
Leuven) de rang 4.5.& DATA-ANALYSE
G0N11C-STATISTIEK 107 / 117
Spearman correlatieco¨effici¨ent

De Spearman correlatieco¨effici¨ent rs wordt vervolgens bekomen als de Pearson

correlatieco¨effici¨ent berekend op basis van deze rangen.Interpretatie en


eigenschappen:
enkel waarden tussen -1 en 1 kunnen voorkomen
› positieve (resp. negatieve) waarden duiden aan dat de ene
variabele de neiging heeft om te stijgen (resp. te dalen) als de
andere variabele toeneemt. De Spearman correlatieco¨effici¨ent meet bijgevolg
in welke mate de twee variabelen een stijgende (of dalende)
curve vertonen. Een waarde dicht bij 1 of dicht bij
-1 duidt dan op een sterk monotoon stijgend (resp. dalend)
verband.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 108 / 117


Spearman correlatieco¨effici¨ent


De Pearson correlatieco¨effici¨ent r is anderzijds een maat voor lineaire
associatie. Wanneer die dicht bij 1 (resp. -1) ligt, zal ook rs
groot (resp. klein zijn). Het omgekeerde is echter niet
noodzakelijk waar.
› rswijzigt niet wanneer we een monotoon stijgende
transformatie doorvoeren op X en/of Y (omdat de
rangnummers niet wijzigen).

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 109 / 117


Boxplots voor verschillende groepen

Verband tussen kwantitatieve en kwalitatieve variabele:


histogrammen en cumulatieve verdelingsfuncties
‘Leeftijd’ en ‘Survived’:
(a) 200
(b) 1.00

0.75
150
Absolute frequentie

Alive 0.50 Alive


100
Dead Dead

0.25
50

0 0.00

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 0 20 40 60
Leeftijd Leeftijd

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 110 / 117


Boxplots voor verschillende groepen

Meerdere groepen: boxplots.


(a) (b)

‘Leeftijd’ en ‘Survived’ ‘Leeftijd’ en ‘Klasse’

60 60

40 40
Leeftijd

Leeftijd

20 20

0 0

Alive Dead 1 2 3
Klasse

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 111 / 117


Kruistabel

Verband tussen twee kwalitatieve variabelen: kruistabel.


‘Boarded’ en ‘Klasse’:

Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ op basis van


absolute frequenties.
Class
Boarded 1 2 3 Totaal

Belfast 4 6 0 10
Cherbourg 144 26 99 269
Queenstown 3 7 113 123
Southampton 172 246 495 913
Totaal 323 285 707 1 315

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 112 / 117


Bivariaat staafdiagram

500

400

300

200

100

0 3

Southampton

2
Queenstown

Cherbourg
1

Belfast

Figuur: Bivariaat staafdiagram van ‘Boarded’ en ‘Class’.

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 113 / 117


Duidelijker voorstelling via groepering

(a 500

) 400 400
Absolute frequentie

Absolute frequentie
300 300 Haven
Klasse
Belfast
1
Cherbourg
2
Queenstown
3
200 200 Southampton

100 100

0 0

Belfast Cherbourg Queenstown Southampton 1 2 3


Haven Klasse

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 114 / 117


Kruistabellen met relatieve frequenties

Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ op basis van


relatieve frequenties.
Class
Boarded 1 2 3 Totaal

Belfast 0.0030 0.0046 0.0000 0.0076


Cherbourg 0.1095 0.0198 0.0753 0.2046
Queenstown 0.0023 0.0053 0.0859 0.0935
Southampton 0.1308 0.1871 0.3764 0.6943
Totaal 0.2456 0.2168 0.5376 1

I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 115 / 117


Kruistabellen met voorwaardelijke frequenties
Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ met
voorwaardelijke frequenties per haven boarded (ingescheept) (rij).
Class
Boarded 1 2 3 Totaal

Belfast 0.4000 0.6000 0.0000 1


Cherbourg 0.5353 0.9670 0.3680 1
Queenstown 0.0024 0.0057 0.9187 1
Southampton 0.1884 0.2694 0.5422 1

Tabel: Kruistabel voor de variabelen ‘Boarded’ en ‘Class’ met


voorwaardelijke frequenties per klasse (kolom).
Class
Boarded 1 2 3
Belfast 0.0124 0.0211 0.0000
Cherbourg 0.4458 0.0912 0.1400
Queenstown 0.0093 0.0246 0.1598
Southampton 0.5325 0.8632 0.7001
Totaal 1 1 1
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 116 / 117
grafische voorstellingen

(a) 1.00
( b) 1.00

0.75 0.75
Absolute frequentie

Absolute frequentie
Haven
Klasse
Belfast
1
0.50 0.50 Cherbourg
2
Queenstown
3
Southampton

0.25 0.25

0.00 0.00

Belfast Cherbourg Queenstown Southampton 1 2 3


Haven Klasse

Figuur: Staafdiagrammen van de voorwaardelijke frequenties in de vorige


kruistabellen volgens (a) haven en (b) klasse.

hoe zouden de figuren eruit zien indien de klasse niet afhangt van de
inscheephaven?
onderzoek van afhankelijkheid tussen twee kwalitatieve variabelen:
zie Hoofdstuk 8
I. Gijbels (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 117 / 117

You might also like