You are on page 1of 204

Statistiek met Excel 2016

(Module SIN-2)

Johan van Berkel


Statistiek met Excel 2016

(Module SIN-2)

Johan van Berkel


3

Woord vooraf

Woord vooraf
In 1997 keerde ik, na vijf jaar in Zimbabwe gewerkt te hebben, terug op de door fusies veranderde Hogeschool van
Utrecht en kon weer gaan lesgeven in mijn oude vakgebied, de statistiek. Niet alleen de hogeschool was
veranderd, ook de softwarepakketten. De elektronische snelweg was gemeengoed geworden. Nog niet voor mij,
want ik had in die vijf jaar slechts een rijbewijs gehaald in het ontwijken van groot wild (olifanten, buffels, enz.), in
een gebied waar geen elektriciteit! en zeker geen telecommunicatiemogelijkheden aanwezig waren. Dus de
hoogste tijd om mij weer eens te verdiepen in alle nieuwe mogelijkheden.
De opmars van het Microsoft Office Pakket, waar Excel een onderdeel van is, in de bedrijven, valt nauwelijks in de
(Nederlandstalige) statistiekboeken weer te vinden. Natuurlijk is SPSS een veel beter statistisch pakket en daarin
wordt wel onderwezen. Maar een groot nadeel hiervan is dat studenten die stage lopen, of na hun studie in het
bedrijfsleven gaan werken, hier geen gebruik van kunnen maken, omdat het bij slechts enkele (marktonderzoek)
bedrijven gebruikt wordt.
Daarnaast zie je dat de statistische mogelijkheden van spreadsheet programma’s (Excel) bij elke nieuwe versie
uitgebreid worden.
De Amerikaanse statistiekboeken zijn wat betreft de integratie van statistiek en Excel een stuk verder.
Tegenwoordig zijn er al tientallen boeken op de markt waarbij deze integratie volledig tot stand is gekomen. In het
studiejaar 1998/1999 heb ik een dergelijk boek (“Statistics for Managers using Microsoft Excel” – David Levine) in
het eerste jaar van de CE-opleiding van de HvU uitgeprobeerd. De combinatie statistiek met Excel is goed bevallen,
maar een groot nadeel van een Amerikaans boek voor de “gemiddelde” student is de taal en het werken met een
Nederlandse versie van Excel met een handleiding voor de Engelse versie. Dat laatste is goed te begrijpen. Wie
heeft direct in de gaten dat met “frequency”, “interval” wordt bedoeld?
Gedurende dat studiejaar heb ik aanvullend materiaal voor de studenten moeten schrijven om het Amerikaanse
boek goed te kunnen volgen met de Nederlandse Excelversie. Dit is de basis geweest voor dit handboek, dat
geschreven is voor de Excel 97 versie, die in het studiejaar 1999/2000 op de HvU gebruikt gaat worden. Het
grootste gedeelte van dit handboek is dan ook gebaseerd op het boek van David Levine – “Statistics for Managers
using Microsoft Excel”.
Dit handboek is niet bedoeld als een statistiek- of Excelboek. Hiervoor wil ik verwijzen naar de uitstekende
statistiek- en Excelboeken die op de Nederlandse markt aanwezig zijn. Ik kon slechts tijd vinden om het
integrerende gedeelte op papier te zetten.
Bij dit handboek hoort een diskette met de bestanden van “uitgebreide” Excelbladen voor bijvoorbeeld de
verschillende toetsen. Het lijkt mij een onzinnige tijdsbesteding voor studenten om deze bestanden zelf allemaal
over te typen uit de verschillende hoofdstukken.

Tot slot nog een citaat uit een boek.

“ Op onze slechte sovjetschool kregen we marxisme, bij God dat we werden geïndoctrineerd, maar het wiskunde-
en natuurkundeonderwijs was goed. Dat heeft in mijn hoofd voor de nodige orde gezorgd. Ik durf te beweren dat
de jongste Russische revolutie is veroorzaakt door de mathematica. Want wij hebben geleerd logisch te denken, de
formele logica van Aristoteles. Dan zie je op een gegeven moment ook dat de dingen om je heen niet logisch zijn en
ben je in staat te analyseren. Je weet toch zeker wel dat de eerste ondergrondse samizdat-publicaties circuleerden
in kringen van wis- en natuurkundigen. Sacharov was een natuurkundige.
Maar onze kinderen worden met die logica niet vertrouwd gemaakt. Ze leren rekenmachientjes te gebruiken en
computers. Alsjeblieft zeg! Zelfs een aap kan met een computer leren omgaan.”

Irina Grivnina – Wij waren boekenkinderen, wij kenden het echte leven niet
(Uit: Mijn moeder was analfabeet – Geke van der Wal)

Met dank aan mijn collega Andre de Groot voor zijn handige tips en waardevolle suggesties.

Op- en aanmerkingen zijn van harte welkom.


E-mail: J.vBerkel@econ.hvu.nl

Johan van Berkel

Enschede, juni 1999


4

Statistiek met Excel 2016

Woord vooraf bij herziene versie Statistiek met Excel 2010


(Module Onderzoeksvaardigheden)

Er zijn een aantal wijzigingen aangebracht:


 Meer nadruk op het gebruik van Excelbestanden en minder op het gebruik van formules en functies in Excel.
 Het maken van een cumulatieve tabel wordt nu gedaan met behulp van ‘Voorlopig totaal in’ in plaats van het
gebruik maken van formules.
 Het hoofdstuk ‘Verbanden met kruistabellen’ komt eerder aan de orde.

Op- en aanmerkingen zijn nog steeds van harte welkom.


E-mail: johan.vanberkel@hu.nl

Johan van Berkel

Enschede, juni 2014

Woord vooraf bij gewijzigde versie Statistiek met Excel 2013


(Module Onderzoeksvaardigheden)

Deze nieuwe versie is speciaal geschreven om statistische bewerkingen uit te voeren met Excel 2013.
Ten opzichte van de vorige versie zijn de volgende wijzigingen aangebracht:
 Alle voorbeeldschermen en beschrijvingen zijn toegepast op Excel 2013 in plaats van Excel 2010.
 Hoofdstuk 6 Chi-kwadraatverdeling behandelt naast de toets op afhankelijkheid ook de toets met betrekking
tot de representativiteit van een steekproef.

Op- en aanmerkingen zijn nog steeds van harte welkom.


E-mail: johan.vanberkel@hu.nl

Johan van Berkel

Enschede, augustus 2015

Woord vooraf bij gewijzigde versie Statistiek met Excel 2016


(Module SIN-2)

Deze nieuwe versie is speciaal geschreven om statistische bewerkingen uit te voeren met Excel 2016.
Ten opzichte van de vorige versie zijn de volgende wijzigingen aangebracht:
 Alle voorbeeldschermen en beschrijvingen zijn toegepast op Excel 2016 in plaats van Excel 2013.
 Bij hoofdstuk 3 Grafieken wordt het maken van een box en whiskerdiagram beschreven.

Op- en aanmerkingen zijn nog steeds van harte welkom.


E-mail: johan.vanberkel@hu.nl

Johan van Berkel

Enschede, juli 2017


Inhoudsopgave

Inhoudsopgave

0 Het Excelvenster 9
0.1 Inleiding 9
0.2 Excel starten 9
0.3 Onderdelen van het Excelvenster 9
0.3.1 Titelbalk 10
0.3.2 Werkbalk Snelle toegang 10
0.3.3 Het lint 11
0.3.4 Naamvak 12
0.3.5 Formulebalk 12
0.3.6 Schuifbalken 12
0.3.7 Werkbladen 13
0.3.8 Statusbalk 13
0.3.9 Knoppen voor indelen venster 13

1 Introductie 15
1.1 Een voorbeeld 15
1.2 Statistisch onderzoek 16
1.3 Probleembeschrijving 16
1.4 De enquête 17
1.5 Het databestand 18
1.6 Kwalitatieve en kwantitatieve gegevens 19
1.7 Het belang van onderzoek 21

2 Tabellen 23
2.1 Inleiding 23
2.2 Tabellen van kwalitatieve gegevens 23
2.2.1 Enkelvoudige draaitabellen 24
2.2.2 Meervoudige draaitabellen 31
2.2.3 Relatieve tabellen 33
2.2.4 Filteren 37
2.3 Tabellen van kwantitatieve gegevens 43
2.4 Opgaven 48

3 Grafieken 51
3.1 Inleiding 51
3.2 Grafieken van kwalitatieve gegevens 52
3.2.1 Kolomdiagram 52
3.2.2 Staafdiagram 61
3.2.3 Cirkeldiagram 62
3.3 Grafieken van kwantitatieve variabelen 65
3.3.1 Histogram 66
3.3.2 Frequentiepolygoon 72
3.3.3 Cumulatief polygoon (ogief) 73
3.3.4 Grafieken van tijdreeksen 76
3.3.4.1 Korte tijdreeksen 77
3.3.4.2 Lange tijdreeksen 80
3.3.5 Spreidingsdiagram 81
3.4 Opgaven 87

5
6

Statistiek met Excel 2016

4 Karakteristieken 88
4.1 Inleiding 88
4.2 Karakteristieken bij losse waarnemingen 88
4.2.1 Centrummaten 89
4.2.2 Spreidingsmaten 89
4.2.3 Vormmaten 91
4.3 Karakteristieken bij losse waarnemingen met Excel 92
4.4 Karakteristieken bij frequentieverdelingen met klassenindeling 97
4.4.1 Centrummaten bij frequentieverdelingen 97
4.4.2 Spreidingsmaten bij frequentieverdelingen 98
4.5 Karakteristieken bij frequentieverdelingen met klassenindeling met Excel 99
4.6 Opgaven 101

5 Kansen en kansverdelingen 103


5.1 Inleiding 103
5.2 Het berekenen van kansen 104
5.3 Kansen via draaitabellen 104
5.4 Discrete kansverdelingen 110
5.4.1 Binomiale kansverdeling 110
5.4.2 Hypergeometrische kansverdeling 112
5.4.3 Poisson kansverdeling 113
5.5 Discrete kansverdelingen met Excel 113
5.6 Continue kansverdelingen 116
5.6.1 Normale kansverdeling 116
5.6.2 Exponentiële kansverdeling 119
5.7 Kansen van continue verdelingen met Excel 120
5.8 Opgaven 122

6 Chi-kwadraatverdeling (X2) 125


6.1 Inleiding 125
6.2 Chi-kwadraat (X2) 125
6.3 Chi-kwadraattoets voor representativiteit 127
6.4 Chi-kwadraattoets voor representativiteit met Excel 128
6.5 Chi-kwadraattoets voor afhankelijkheid 129
6.6 Sterkte van de samenhang 132
6.7 Chi-kwadraat met Excel 133
6.8 Opgaven 135

7 Enkelvoudige lineaire regressie- en correlatieanalyse 137


7.1 Inleiding 137
7.2 Regressiemodellen 137
7.3 Het lineaire regressiemodel 139
7.4 Lineaire regressie met Excel 141
7.5 Correlatie-analyse 145
7.6 Correlatie-analyse met Excel 145
7.7 Lineaire regressie bij tijdreeksen 146
7.8 Niet lineaire regressiemodellen 149
7.9 Voorspellingen 150
7.10 Opgaven 151
Inhoudsopgave

8 Tijdreeksanalyse 153
8.1 Inleiding 153
8.2 De componenten van een tijdreeks 153
8.2.1 Trend 153
8.2.2 Conjunctuurinvloed 154
8.2.3 Seizoensinvloed 154
8.2.4 Toevallige afwijking 154
8.2.5 Trendbreuk 155
8.3 Trend via lineaire regressie (kleinste kwadraten methode) 155
8.4 Trend via voortschrijdend (zwevend) gemiddelde 156
8.4.1 Voortschrijdend gemiddelde bij een oneven aantal perioden 157
8.4.2 Voortschrijdend gemiddelde bij een even aantal perioden 157
8.5 Seizoenpatronen en cyclusbewegingen 158
8.5.1 Het additieve model 158
8.5.2 Het multiplicatieve model 160
8.5.3 Seizoenspatronen met behulp van Excel 161
8.6 Voorspellen 162
8.6.1 Voorspellen bij het additieve model 162
8.6.2 Voorspellen bij het multiplicatieve model 163
8.7 Het corrigeren van een tijdreeks voor het seizoen 163
8.8 Opgaven 165

Bijlage 1: Bestand “Fictie2000” 167

Bijlage 2: Antwoorden 173


Antwoorden Hoofdstuk 2: Tabellen 173
Antwoorden Hoofdstuk 3: Grafieken 175
Antwoorden Hoofdstuk 4: Karakteristieken 179
Antwoorden Hoofdstuk 5: Kansen 180
Antwoorden Hoofdstuk 6: Chi-kwadraatverdeling (X2) 182
Antwoorden Hoofdstuk 7: Enkelvoudige lineaire regressie- en correlatieanalyse 183
Antwoorden Hoofdstuk 8: Tijdreeksanalyse 186

Bijlage 3: Tentamenvragen 188

Bijlage 4: Excelbestanden 202

7
Statistiek met Excel 2016

8
0 Het Excelvenster

0 Het Excelvenster

0.1 Inleiding

In dit inleidende hoofdstuk wordt kort uitgelegd hoe je Excel 2016 kunt starten en komen de belangrijkste
onderdelen van het Excelvenster aan de orde. Als je al eens met Excel 2016 gewerkt hebt kun je dit hoofdstuk
zonder problemen overslaan.

0.2 Excel starten

Als je Windows gestart hebt kun je via Start en Alle programma’s, via een snelkoppeling op het bureaublad of via
de Office werkbalk het Excelprogramma starten. Excel 2016 wordt door het volgende symbool weergegeven:

Figuur 0.1: Snelkoppeling naar Excel 2016

Een andere mogelijkheid om Excel 2016 te starten is door het openen van een Excelbestand (werkmap). Deze
bestanden kun je herkennen aan het volgende teken:

Figuur 0.2: Symbool voor Excel 2016 bestand

0.3 Onderdelen van het Excelvenster

Als je Excel 2016 start dan verschijnt een raster van rechthoeken (cellen) dat het grootste deel van het venster
beslaat (zie volgende bladzijde). Dit raster heet een werkblad en bestaat uit 16.384 kolommen en 1.048.576 rijen.
De kolommen hebben letters van A tot en met Z, gevolgd door AA, AB enzovoort eindigend bij XFD. De rijen zijn
genummerd van 1 tot en met 1.048.576.

De andere onderdelen van het venster zijn:


1. Titelbalk
2. Werkbalk Snelle toegang
3. Het lint
4. Naamvak
5. Formulebalk
6. Schuifbalken
7. Werkbladen
8. Statusbalk
9. Knoppen voor indelen venster

9
Statistiek met Excel 2016

2 1

4 5

7
8 6
9

Figuur 0.3: Het Excelvenster

0.3.1 Titelbalk

In de Titelbalk zie je de naam van het bestand, Map1, en de naam van het programma waar je mee werkt,
Microsoft Excel (zie figuur 0.4).

Figuur 0.4: De titelbalk

Rechts in de Titelbalk staan de pictogrammen minimaliseren, verkleinen/maximaliseren en sluiten van het venster.
Links in de Titelbalk staat het pictogram van het Systeemmenu. Hiermee kun je dezelfde bewerkingen uitvoeren als
met de pictogrammen links in de titelbalk. Naast het pictogram van het Systeemmenu vind je de werkbalk Snelle
toegang.

0.3.2 Werkbalk Snelle toegang

Naast het pictogram van het systeemmenu vind je de kleine werkbalk Snelle toegang. Standaard bevat deze
werkbalk de knoppen opslaan, ongedaan maken en opnieuw uitvoeren.

Figuur 0.5: Werkbalk Snelle toegang

Deze werkbalk kun je uitbreiden met knoppen die je vaak gebruikt. Door met de rechtermuisknop op een knop te
klikken kun je deze knop aan de werkbalk snelle toegang toevoegen.
Wanneer je met de rechtermuisknop op de werkbalk Snelle toegang klikt kun je de werkbalk ook aanpassen via
Toevoegen met alle gewenste knoppen die je in deze balk wilt hebben of via Verwijderen van de knoppen die je
juist niet in de balk wilt hebben.

10
0 Het Excelvenster

Figuur 0.6: Venster voor het aanpassen van de werkbalk Snelle toegang

0.3.3 Het lint

Het bovenste gedeelte van het Excelscherm bestaat voor het grootste gedeelte uit het lint. Het lint bestaat uit:
(1) tabbladen rechts van het tabblad Bestand;
(2) knoppen die afhankelijk zijn van welk tabblad geopend is;
(3) startpictogrammen voor dialoogvensters die ook afhankelijk zijn van welk tabblad geopend is;
(4) knoppen voor het instellen van het venster voor de geopende werkmap en de knop voor hulp in Excel.

4
1

3
2

Figuur 0.7: Het lint

Wanneer je op een tabblad klikt verschijnen de meest gebruikte taken gegroepeerd. Zo heb je bij het tabblad
Invoegen de groep Tabellen, Illustraties, Grafieken, Sparklines, Filter, Koppelingen, Tekst en Symbolen. Soms kom
je bij een groep rechtsonder een startpictogram (3) tegen voor dialoogvensters, waaronder je nog meer taken kunt
vinden.

11
Statistiek met Excel 2016

Figuur 0.8: Het lint van het tabblad Invoegen

Soms wordt bij het werken met een bepaald onderdeel van Excel een speciaal tabblad Opties geopend. Het lint
bevat dan taken die speciaal voor dat onderdeel gebruikt kunnen worden. Deze contextgevoelige tabbladen kom
je vooral tegen bij het werken met tabellen, grafieken en afbeeldingen. Zodra je niet meer werkt aan een tabel,
grafiek of afbeelding verdwijnt dit contextgevoelige tabblad.

Figuur 0.2: Contextgevoelig tabblad van draaitabel

0.3.4 Naamvak

Het naamvak vind je aan de linkerkant onder het lint. Hier staat het celadres of naam van de actieve cel in Excel. Je
kunt in het naamvak ook het celadres intypen om naar de desbetreffende cel te gaan.

Figuur 0.10: Het naamvak

0.3.5 Formulebalk

Rechts van het naamvak vind je de formulebalk. Hier verschijnt de inhoud van de actieve cel. De inhoud van de
actieve cel kun je in de cel zelf aanpassen of nadat je de cel geselecteerd hebt in de formulebalk.

Figuur 0.11: De formulebalk

12
0 Het Excelvenster

0.3.6 Schuifbalken

Voor het navigeren door het Excelblad kun je gebruik maken van de horizontale en verticale schuifbalken.

Figuur 0.3: De horizontale schuifbalk

0.3.7 Werkbladen

Linksonder vind je de verschillende werkbladen van de geopende werkmap. Standaard opent Excel één werkblad.
Met de knop + naast Blad1 kun je een nieuw blad openen. Met de knoppen links van Blad1 kun je navigeren naar
de verschillende bladen, wanneer de balk te klein is om alle werkbladen te laten zien.

Figuur 0.4: De werkbladen

0.3.8 Statusbalk

Onder de werkbladen vind je de statusbalk. Wanneer hier Gereed staat kun je in Excel gegevens invoeren. De
status verandert dan in Invoeren. Wanneer je de gegevens gaat bewerken verandert de status in Bewerken.
Wanneer de status Invoeren of Bewerken is, kun je op dat moment niet alle knoppen van het lint gebruiken.

Figuur 0.5: De statusbalk

0.3.9 Knoppen voor indelen venster

Rechtsonder vind je de knoppen om het venster in te delen. De meest linkse knop is voor een normaal venster,
daarnaast vind je de knop om de pagina in te delen, en de knop om pagina-einden aan te geven. Het zoomniveau
kun je instellen door op 100% te klikken en het gewenste zoomniveau te selecteren of in te typen. Je zou ook de
schuif ernaast kunnen gebruiken voor het in- en uitzomen.

Figuur 0.6: Knoppen voor het indelen van het venster

13
Statistiek met Excel 2016

1 Introductie

1.1 Een voorbeeld

Jeugd goede markt voor gratis kranten

Van onze verslaggever Noël van Bemmel − 11/04/00, 00:00


De gratis kranten Metro en Spits blijken bijzonder populair onder jongeren en onder hoogopgeleide
Nederlanders met een bovenmodaal inkomen. Geen van de gewone dagbladen scoort zo goed onder deze - voor
adverteerders interessante - lezers.

De resultaten bevestigen de commerciële strategie van de Zweedse uitgever Modern Times Group (Metro) en De
Telegraaf (Spits). Zij stellen dat een gratis krant toch winstgevend kan zijn, omdat onder treinreizigers het gehalte
twintigers en dertigers met een baan en studenten, relatief hoog is. Die consumenten zijn voor adverteerders
moeilijk selectief te bereiken adverteerders.

Uit cijfers over het tweede halfjaar van 1999 blijkt ieder exemplaar van Metro te worden bekeken door 469
duizend reizigers. Spits bereikt 448 duizend lezers. Daaronder bevinden zich per krant 227 duizend Nederlanders
van 13 tot 35 jaar oud. Dat is heel veel in een wereld waarin deze groep traditioneel ondervertegenwoordigd is.
Alleen de Volkskrant bereikt hetzelfde aantal jongeren als in de steekproef.

Verder worden Metro en Spits bekeken door 106 duizend en 90 duizend Nederlanders uit de hoogste
welstandsklasse. Dat cijfer is minder indrukwekkend, maar wel belangrijk voor adverteerders. De klap komt het
hardst aan bij de Volkskrant, wiens bereik onder jonge lezers is afgenomen met 21 procent. De Telegraaf moest
onder twintigers en dertigers 10 procent inleveren. Vergeleken met de tweede helft van 1998 bereikten alle
dagbladen 6 procent minder lezers. Deze teruggang is slechts deels toe te schrijven aan de twee gratis kranten.

'Ze hebben een gat in de markt gevonden', vindt advertentie-specialist Remon Buter van Initiative Media. 'We
hadden al een vermoeden, maar deze cijfers bevestigen dat relatief veel jongeren en hoogopgeleiden gratis
kranten lezen.' Die consumenten, stelt Buter, zijn nu moeilijk te bereiken. Bijvoorbeeld via prijzige reclameblokken
in speelfilms. 'Ik verwacht dat we meer gaan doen met die kranten.'

Metro en Spits hebben zich op de reclamemarkt ingevochten met forse kortingen. Vorig jaar zomer steunden
adverteerders beide nieuwkomers met advertenties, omdat de dagbladenmarkt in hun ogen wel een nieuw
initiatief kon gebruiken. De afgelopen maanden keken veel adverteerders de kat uit de boom, in afwachting van
onafhankelijke SUMMO-cijfers. Die bevestigen nu de claims van de advertentieverkopers.

'Qua bereik zijn we al de vierde krant van het land', stelt Metro-hoofdredacteur Jelle Leenes tevreden vast. 'En
onder jongeren doen we het nog beter.' Volgens Leenes past een gratis krant bij de gehaaste, zappende mens die
ook op internet gewend is niet te betalen. 'Het gekke is dat wij inhoudelijk nauwelijks rekening houden met
jongeren.'

Leenes verwacht dat andere kranten en sommige tijdschriften dit jaar 'een flinke tik' krijgen. Dankzij de SUMMO-
cijfers kunnen de advertentie-tarieven van Metro verder omhoog. 'We begonnen met hoge kortingen, maar onze
tarieven zijn het afgelopen kwartaal al gestegen. Die lijn willen we vasthouden, en deze cijfers helpen daarbij.'

Volkskrant, 11-04-2000

In het artikel ‘Jeugd goede markt voor gratis kranten’ zie je verschillende uitspraken:

14
1 Introductie

• Metro wordt bekeken door 469 duizend reizigers;


• Spits bereikt 448 duizend lezers;
• Daaronder bevinden zich per krant 227 duizend Nederlanders van 13 tot 35 jaar oud;
• Metro en Spits worden bekeken door 106 duizend en 90 duizend Nederlanders uit de hoogste
welstandsklasse;
• Het bereik van de Volkskrant onder jonge lezers is afgenomen met 21 procent;
• De Telegraaf moest onder twintigers en dertigers 10 procent inleveren;
• Alle dagbladen bereikten 6 procent minder lezers.

Statistiek heeft betrekking op getallen. Zo worden de getallen in de uitspraken statistieken of statistische


kengetallen genoemd. Deze getallen helpen de (marketing)manager van bijvoorbeeld “Metro” om een “juiste”
marketing beslissing te nemen: ‘De advertentietarieven kunnen verder omhoog’.

1.2 Statistisch onderzoek

Een statistisch (markt)onderzoek omvat echter veel meer dan getallen. Het kan in de volgende fasen
onderverdeeld worden:
1. De voorbereiding;
2. Het verzamelen en controleren van gegevens;
3. Het verwerken van gegevens;
4. Het trekken van conclusies;
5. Het publiceren en presenteren van de resultaten.

In deze basismodule statistiek ligt de nadruk op het verwerken van gegevens. De andere fasen van het onderzoek
komen in de module “Methoden van onderzoek” en in de module “Marktonderzoek” aan de orde.

1.3 Probleembeschrijving

In de afgelopen jaren bespeurt men een teruggang in het aantal lezers van dagbladen.
April 2000 ten opzichte van de 2e helft van 1998 6 procent met als pieken:

* Volkskrant: Afname van 21 procent


* Telegraaf: Afname van 10 procent

Men vermoedt dat dit komt door het gratis verstrekken van Metro en Spits op de stations onder treinreizigers.
Wellicht past een abonnement op een landelijk dagblad niet meer in deze tijd van ‘gratis’ internet, waarop
landelijke dagbladen ook gepubliceerd worden.

Men besluit een onderzoek te houden onder treinreizigers, die in de ochtendspits ( 6.00 – 9.00 uur) reizen.

De probleemstelling die hierbij gehanteerd wordt is:


Is het gratis verspreiden van “Metro” en “Spits” van invloed op het lezen van een landelijk dagblad?

Om antwoord te krijgen op bovenstaande probleemstelling formuleert men de volgende deelvragen voor de


ochtendspitstreinreizigers:
1. Hoe lang is zijn reistijd?
2. Hoeveel dagen reist hij gemiddeld per week?
3. Heeft hij wel eens Metro / Spits gelezen en wat is zijn mening hierover?
4. Heeft hij een abonnement op een landelijk dagblad en/of heeft hij dit abonnement het afgelopen jaar
opgezegd?
5. Zijn bovengenoemde uitkomsten afhankelijk van het geslacht, leeftijd dan wel inkomen van de betreffende
reiziger?

15
Statistiek met Excel 2016

1.4 De enquête

Voor het verkrijgen van gegevens over de gratis ochtendkranten (“Metro” en “Spits”) is in de treinen in de
ochtendspits (tussen 6.00 uur en 9.00 uur) de volgende enquête bij de reizigers afgenomen:

1. Welk NS station is het beginpunt1 van uw treinreis geweest?

2. Welk NS station is het eindpunt1 van uw treinreis?

3. Op hoeveel dagen reist u gemiddeld per week met de trein? dagen

4. Welk(e) van onderstaande gratis ochtendblad(en) heeft u wel eens gelezen 2?


Metro Spits

5. Wat is uw mening over de “Metro”?


geen mening
zeer slecht
slecht
redelijk
goed
zeer goed

6. Wat is uw mening over de “Spits”?


geen mening
zeer slecht
slecht
redelijk
goed
zeer goed

7. Op welk(e) dagblad(en) heeft u een abonnement 3?


Algemeen Dagblad Trouw Anders
NRC Volkskrant Geen
Telegraaf

8. Heeft u het afgelopen jaar een dagbladabonnement opgezegd vanwege de gratis ochtendbladen “Metro”
en/of “Spits”?
Nee Ja

9. Wat is uw geslacht?
Man Vrouw

10. Wat is uw leeftijd? jaren

11. Wat is uw netto inkomen per maand? €

1
Om de reistijd per trein te bepalen is gekozen voor vragen over het begin- en het eindpunt van de treinreis. De reistijd is vervolgens
uitgerekend met behulp van “het spoorboekje van de NS”. Deze tijd is ten slotte opgenomen als variabele ‘Reistijd’ (in minuten) in het bestand.
2
Deze vraag is in het databestand opgesplitst in twee variabelen, omdat men twee antwoorden kan aankruisen. Eigenlijk bestaat de vraag uit
twee vragen: Heeft u de “ Metro” wel eens gelezen? Nee/Ja en Heeft u de “Spits” wel eens gelezen? Nee/Ja.
3
Deze vraag bestaat net zoals bij de vraag uit de vorige voetnoot uit meerdere variabelen. Heeft u een abonnement op het Algemeen Dagblad?
Nee/Ja. Heeft u een abonnement op de NRC? Nee/Ja. Omdat elke respondent hier slechts één dagblad heeft aangekruist, is er slechts één
variabele ‘Dagblad’ in het bestand opgenomen.

16
1 Introductie

1.5 Het databestand

Een gedeelte van de verzamelde gegevens (databestand) zie je in tabel 1.1. Het volledige bestand is als bijlage 1
achter in de syllabus te vinden.

Tabel 1.1: Gegevens van een aselecte steekproef onder 300 treinreizigers in de ochtendspits

Respondentnummer Geslacht Leeftijd Reistijd per trein Reisdagen per Inkomen Dagblad
(jaren) (minuten) trein per week (* € 100)
1 2 21 35 3 3 7
2 2 27 29 5 14 3
3 2 18 23 5 5 7
4 1 20 32 4 3 5
5 1 26 14 5 18 5
6 1 60 104 3 27 2
7 1 42 58 5 23 5
8 1 51 55 5 32 3
9 1 19 44 4 2 7
10 1 21 5 5 10 6
11 1 22 36 5 3 5
12 1 55 67 4 21 6

Bron: “Fictie 2000”

Bij dit onderzoek onder 300 treinreizigers kunnen de volgende drie aspecten worden onderscheiden:

1. Eenheden van onderzoek. De 300 treinreizigers in de ochtendspits die ondervraagd zijn, zijn de eenheden bij
dit onderzoek. Elke ondervraagde treinreiziger heeft een (respondent)nummer gekregen (zie kolom 1).
Om alle treinreizigers in de ochtendspits (de populatie) te ondervragen, zou teveel tijd en/of geld kosten. Bij
dit onderzoek heeft men daarom een gedeelte van de populatie, 300 treinreizigers (de steekproef),
ondervraagd.

2. Variabelen of kenmerken. Elke kolom begint met de naam van een variabele. Een variabele is een grootheid
waarvan de waarde van onderzoekseenheid tot onderzoekseenheid kan verschillen. Zo wordt van elke
ondervraagde treinreiziger het ‘Geslacht’, de ‘Leeftijd’, de ‘Reistijd’, enz. genoteerd.

3. Waarnemingsuitkomst of score van een eenheid op een variabele. Wanneer iemand van het vrouwelijke
geslacht is, is de waarde van de variabele ‘Geslacht’ bij die persoon (respondent) vrouw. In de tabel
(databestand) zie je vaak alleen maar getallen (codes) en geen woorden. De reden hiervoor is dat het intypen
van een “2” veel sneller gaat dan het intypen van “vrouw”. Daarnaast kan het bij het verwerken van de
gegevens ook voordelen opleveren.
Een databestand met codes is alleen te begrijpen als er een codeboek (wat is de betekenis van de
verschillende codes) bijgeleverd wordt. Voor het bestand uit bijlage 1 geldt het codeboek van tabel 1.2.

17
Statistiek met Excel 2016

Tabel 1.2: Codeboek van de variabelen uit het onderzoek onder 300 treinreizigers in de ochtendspits

Variabele Code Betekenis


Geslacht 1 Man
2 Vrouw
Dagblad 1 Algemeen Dagblad
2 NRC
3 Telegraaf
4 Trouw
5 Volkskrant
6 Anders
7 Geen
Opgezegd 0 Nee
1 Ja
Metro 0 Nee
1 Ja
Mening Metro 0 Geen mening
1 Zeer slecht
2 Slecht
3 Redelijk
4 Goed
5 Zeer goed
Spits 0 Nee
1 Ja
Mening Spits 0 Geen mening
1 Zeer slecht
2 Slecht
3 Redelijk
4 Goed
5 Zeer goed

Bron: “Fictie 2000”

De eerste ondervraagde treinreiziger (respondentnummer 1) was dus van het vrouwelijke geslacht (code 2), 21
jaar, haar reisduur per trein bedroeg 35 minuten, reist 3 dagen per week per trein, heeft een inkomen van € 300,
heeft het afgelopen jaar geen abonnement op een dagblad opgezegd (code 0), leest wel eens de Metro (code 1),
die ze goed vindt (code 4), leest ook wel eens de Spits (code 1) die ze ook goed vindt (code 4).

1.6 Kwalitatieve en kwantitatieve gegevens

Op welke manier de gegevens verwerkt worden in bijvoorbeeld grafieken en karakteristieken en welke statistische
analyse geschikt is voor een bepaalde variabele, hangt af van de vraag of het gaat om kwalitatieve of kwantitatieve
gegevens (waarden).

Kwalitatieve variabelen kunnen over het algemeen een beperkt aantal waarden (woorden, categorieën of labels)
aannemen en worden gemeten op nominale of ordinale schaal.

18
1 Introductie

Voorbeeld

Variabele Schaalniveau Mogelijke waarden


Geslacht nominaal man, vrouw
Mening ordinaal zeer slecht, slecht, redelijk, goed, zeer goed

Wanneer er op nominaal niveau gemeten wordt, kun je de waarden slechts van elkaar onderscheiden. Bij de
variabele ‘Geslacht’ is man anders dan vrouw, bij de variabele ‘Dagblad’ is het Algemeen Dagblad anders dan NRC,
Telegraaf, Trouw, enzovoort.
Wanneer er op ordinaal niveau gemeten wordt, kun je de waarden van elkaar onderscheiden en in een logische
volgorde zetten. Bij de variabele ‘Mening’ kun je de waarden rangschikken van zeer negatief tot zeer positief 4.

Kwantitatieve (numerieke) variabelen worden altijd gemeten in getallen. De schaal waarop gemeten wordt is
interval of ratio.

Voorbeeld

Variabele Schaalniveau Mogelijke waarden


Temperatuur in °C interval …., -3, -2, -1, 0, 1, 2, 3, …..
Aantal reisdagen per week ratio 0, 1, 2, 3, 4, 5, 6, 7

Wanneer er op interval niveau gemeten wordt kun je de waarden in een volgorde rangschikken en het verschil
tussen twee waarden aangeven. Het verschil tussen 10 °C en 14°C is 4°C. Bij een intervalschaal is er geen absoluut
nulpunt. Intervalschalen komen in de praktijd niet zo vaak voor. Bekende voorbeelden zijn: temperatuur (niet
graden Kelvin), jaartallen, schoenmaat en score op een Cito-toets.
Wanneer er op ratio niveau gemeten wordt kun je het verschil tussen twee waarden aangeven en hoe vaak een
waarde groter is dan een andere waarde. Iemand die op 4 dagen in de week met de trein gaat, reist 2 keer vaker
dan iemand die op 2 dagen met de trein gaat. Bij een ratioschaal is er een absoluut nulpunt.

Vaak worden gegevens van een ratio niveau op een ordinaal niveau gemeten. Dit heeft voornamelijk te maken om
de bereidwilligheid van mensen aan een onderzoek mee te werken te vergroten.

Bijvoorbeeld:
Wat is uw netto maandinkomen? € ………….
Bij deze vraag wordt de variabele ‘Inkomen’ op rationiveau gemeten.
Iemand die € 3500 invult heeft dan een inkomen dat bijvoorbeeld 5 keer hoger ligt dan iemand die
€ 700 invult.

Wat is uw netto maandinkomen?


1. € 0 -< € 1000
2. € 1000 -< € 2000
3. € 2000 -< € 3000
4. € 3000 -< € 4000
5. > € 4000

Bij deze vraag wordt de variabele ‘Inkomen’ op ordinaal niveau gemeten. Je kunt de verschillende waarden wel
rangschikken van laag naar hoog, maar bijvoorbeeld niet aangeven hoeveel iemand die antwoordnummer 4 heeft
aangekruist meer aan inkomen heeft dan iemand die antwoordnummer 2 heeft aangekruist.

Mensen zijn eerder bereid de laatste vraag te beantwoorden dan de eerste vraag. Maar als het meetniveau lager is
kunnen er minder analyses gemaakt en dus ook minder conclusies getrokken worden.

4
In de enquête is ook de waarde geen mening opgenomen. In dit geval is er dan sprake van meten op nominaal niveau, omdat geen mening
niet logisch te rangschikken is bij de mogelijke waarden.

19
Statistiek met Excel 2016

1.7 Het belang van onderzoek

Gratis dagblad De Pers verdwijnt


Redactie − 12/03/12, 15:20

VK UPDATE Uitgevers Wegener en Mountain Media trekken de stekker uit De Pers. Dat is vandaag
bekendgemaakt. De commerciële exploitatie van de gratis krant bleef 'structureel achter bij de
verwachtingen.' De laatste editie verschijnt eind deze maand.

De Pers werd eind 2006 opgericht door investeerder Marcel Boekhoorn. Eind januari 2007 lag het eerste
exemplaar in de speciale bakken op de stations en op andere uitdeelpunten. 

Voor Boekhoorn is er 'geen andere mogelijkheid dan de krant te staken'. Volgens hem was de positie van
De Pers op de advertentiemarkt al bijzonder zwak, terwijl de marktomstandigheden 'naar verwachting
verder zullen verslechteren.'
 
Boekhoorn: 'Ik dacht dat het mogelijk zou zijn om een winstgevende, gratis kwaliteitskrant voor de
Nederlandse markt te maken en heb daarom veel geld in het project geïnvesteerd. Maar helaas werkte
de advertentiemarkt niet mee en is het ook Wegener niet gelukt om betere resultaten te behalen.'

Financiële regeling
De Pers meldt in een persbericht dat er momenteel gewerkt wordt aan een financiële regeling voor het
personeel van dagblad De Pers. Het gaat in totaal om ongeveer 40 man. 

Boekhoorn: 'Het is een grote teleurstelling voor alle betrokkenen dat we hebben moeten besluiten om de
krant op te heffen. Ik blijf ontzettend trots op het in de afgelopen vijf jaar bereikte resultaat: een prachtige
krant gemaakt door een getalenteerde redactie en met veel trouwe en enthousiaste lezers.'

Verdrietig maar begrijpelijk


Ben Rogmans, mede-oprichter en directeur-uitgever van Dagblad De Pers: 'Het is een ongelofelijk
verdrietig maar ook begrijpelijk besluit. We hebben de afgelopen jaren een vrolijke, optimistische,
tegendraadse kwaliteitskrant gemaakt, met een geheel eigen en uniek geluid in de Nederlandse
journalistiek. We hebben keihard en met veel toewijding en creativiteit gewerkt. De betrokkenheid van het
personeel, journalisten en niet-journalisten, bij de krant is enorm. Voor hen is dit een grote klap.'

20
1 Introductie

Voordat de beslissing werd genomen om de “Pers” uit te brengen is er geen onderzoek verricht naar de
advertentiemarkt voor gratis ochtendbladen. Men dacht dat het mogelijk was om de “Pers” winstgevend te
maken, maar na veel investeringen heeft men na zes jaar besloten er mee te stoppen.

21
Statistiek met Excel 2016

2 Tabellen

2.1 Inleiding

In een databestand kun je aflezen hoe elke respondent de vragen beantwoord heeft, maar heb je niet direct een
overzicht over hoe alle respondenten op een variabele gescoord hebben. Zo kun je bijvoorbeeld in bijlage I van
elke respondent aflezen wat zijn mening is over de “Metro”, maar is het bijna niet mogelijk om direct te zien wat
de mening van alle respondenten over de “Metro” is. Vindt men de “Metro” over het algemeen goed, redelijk,
slecht of zijn de meningen juist verdeeld?
Eén van de eerste bewerkingen, die daarom met de verzamelde gegevens (al of niet in een databestand
samengevoegd) uitgevoerd wordt, is het maken van één of meerdere tabellen. Welke tabellen is afhankelijk van de
cijfermatige informatie die je uit het onderzoek wilt overbrengen in je rapport en de conclusies die je wilt trekken.

2.2 Tabellen van kwalitatieve gegevens

Kwalitatieve variabelen kunnen over het algemeen een beperkt aantal waarden aannemen en worden gemeten op
een nominale of ordinale schaal.

Voorbeeld

Variabele Schaalniveau Mogelijke waarden


Geslacht Nominaal man, vrouw
Mening Ordinaal zeer slecht, slecht, redelijk, goed, zeer goed

Bij het maken van een frequentietabel (hoe vaak komt een bepaalde waarde voor) vormt elke mogelijke waarde
zijn eigen categorie (groep).
Bij de variabele ‘Geslacht’ heb je dus twee groepen (“Man” of “Vrouw”). Bij het maken van een frequentietabel
van de variabele ‘Geslacht’ (ook wel rechte telling genoemd) wordt geteld hoe vaak een man en hoe vaak een
vrouw als respondent geantwoord heeft.
Bij de variabele ‘Dagblad’ heb je in het databestand (zie codeboek tabel 1.2) 7 groepen. Bij het maken van een
frequentietabel van de variabele ‘Dagblad’ wordt dan geteld hoeveel respondenten aangegeven hebben, dat ze
een abonnement hebben op Algemeen Dagblad, hoeveel op NRC, hoeveel op Telegraaf, enzovoort.

Een tabel is een overzicht van cijfers. Deze worden weergegeven in (horizontale) rijen en (verticale) kolommen. De
plaats waar een cijfer zich bevindt wordt een cel of veld genoemd.
Een tabel bevat een voorkolom en een kop boven de overige kolommen, waarin de waarden van een (de)
variabele(n) te vinden zijn.
De variabele(n) zelf wordt (worden) boven de voorkolom en de kolomkoppen gezet.
Een totaalrij (geeft het totaal van de kolommen weer) en/of een totaalkolom (geeft het totaal van de rijen weer)
worden weergegeven wanneer deze nuttige informatie bevatten.

Excel kan op een vrij eenvoudige manier dergelijke tabellen voor je samen stellen.
Zelf moet je de tabel dan nog voorzien van een nummer en een titel, waarin aangegeven wordt wat er in de tabel
te vinden is. Indien van toepassing kan de eenheid van meting in de titel worden opgenomen of in het bijschrift.
Onder de tabel geef je in de bronvermelding aan waar je de gegevens vandaan hebt gehaald.

In tabel 2.1 zijn de verschillende onderdelen van een tabel weergegeven.

22
2 Tabellen

Tabel 2.1: Aantal abonnementen per dagblad en per geslacht titel

Het is mogelijk dat enkele cellen (velden) in een tabel onbezet blijven. Bedenk dan de reden daarvoor en zoek
vervolgens het speciale teken dat je hiervoor moet invullen.

Tabel 2.2: Te gebruiken tekens in een tabel met de betekenis ervan

Teken Betekenis
- Nul
niets (blanco) Dit cijfer bestaat niet (kan niet voorkomen)
. Geen gegevens beschikbaar
x Dit cijfer is geheim
* Dit cijfer is voorlopig
0 (0,0) Dit cijfer is minder dan de helft van de gebruikte eenheid

Wanneer je in de titel of bronvermelding jaartallen gebruikt, denk dan aan de volgende afspraken:

2016 – 2017 : het jaar 2016 tot en met het jaar 2017
2016 / ’17 : het boekjaar, schooljaar enz. beginnend in 2016 en eindigend in 2017
2016 / 2017 : het gemiddelde over de jaren 2016 en 2017

2.2.1 Enkelvoudige draaitabellen

Voor het maken van een frequentietabel waarbij de gegevens als kwalitatieve waarden zijn ingevoerd kun je in
Excel gebruik maken van Draaitabel. Van de gegevens uit het genoemde databestand uit hoofdstuk 1 (Fictie2000)
wil je een frequentietabel maken van bijvoorbeeld de variabele ‘Geslacht’.

Werkwijze:

1. Open in Excel het bestand waarvan je tabellen wilt maken. Klik daarvoor op de het tabblad van Bestand in het
lint en vervolgens op Openen.

23
Statistiek met Excel 2016

Figuur 2.1: Het openen van een excelbestand

Zoek het bestand op de schijf en in de map waar het is opgeslagen 1. Dubbelklik op dit bestand om het te
openen.

2. Klik op het tabblad van Invoegen en vervolgens op Draaitabel.

Figuur 2.2: Dialoogvenster van draaitabel openen

3. Bij het dialoogvenster selecteer je het bereik van de gegevens waarvan je een tabel wilt maken. Standaard
kiest Excel alle gegevens van het werkblad dat op dat moment geopend is.
Bij het geopende bestand van Fictie2000 is dat Data!$A$1:$L$301.
Selecteer vervolgens op welke locatie de tabel geplaatst moet worden. Omdat het geopende excelbestand op
dit moment nog uit slechts 2 werkbladen bestaat (Data en het Codeboek) kies je voor een Nieuw werkblad.
Klik hierna op OK.

1
Het bestand Fictie2000 kun je op het netwerk op school vinden onder: K:\FEM\Excel\Statistiek met Excel 201\Fictie2000

24
2 Tabellen

Figuur 2.3: Het dialoogvenster van het maken van een draaitabel

4. Een nieuw werkblad (Blad1) wordt geopend. Hier zie je waar de tabel komt te staan (beginnend in cel A3).
Verder zie je het dialoogvenster voor draaitabel en dat het lint veranderd is in een contextgevoelig tabblad
met opties voor het opmaken van een draaitabel.

Figuur 2.4: Het startvenster voor het maken van een tabel

Wanneer je bijvoorbeeld een tabel wilt maken van hoeveel mannen en vrouwen aan het onderzoek hebben
meegedaan (variabele ‘Geslacht’), dan sleep je de variabele ‘Geslacht’ (door op Geslacht te klikken met de
linkermuisknop en deze ingedrukt te houden) uit de Lijst met draaitabelvelden naar het vak van Rijen (de
voorkolom van de tabel waar straks de namen van de verschillende scores (“Man” en “Vrouw”) komen te
staan. Sleep nog eens de variabele ‘Geslacht’ uit de Lijst met draaitabelvelden maar nu naar het vak van
∑ Waarden.

25
Statistiek met Excel 2016

Figuur 2.5: Het slepen van de variabele ‘Geslacht’ naar het vak van ∑ Waarden

Figuur 2.6: Voorlopige tabel van ‘Geslacht’

5. Je ziet dat de tabel die verschijnt niet de frequentie (aantallen) weergeeft maar de som. Omdat “ Vrouw” de
code 2 heeft wordt in het veld achter 2 niet het aantal vrouwen (= 77) vermeld, maar de som van de codes 154
(= 77*2). De waarden van het veld moeten daarom nog veranderd worden van Som in Aantal. Klik hiervoor op
Som van geslacht en vervolgens op Waardeveldinstellingen.

26
2 Tabellen

Figuur 2.7: Het openen van het dialoogvenster Waardeveldinstellingen

Verander vervolgens in het dialoogvenster van Waardeveldinstellingen het samenvatten op: van Som in Aantal

Figuur 2.8: Het veranderen van de Waardeveld samenvatten op

27
Statistiek met Excel 2016

De tabel ziet er nu als volgt uit.

Figuur 2.9: Tabel van ‘Geslacht’ met correcte aantallen

6. Wat de betekenis van “1” en “2” is kun je in het codeboek (Zie werkblad Codeboek of Tabel 1.2 ) vinden. Een
tabel is pas compleet wanneer het duidelijk is wat je kunt aflezen. Verander daarom “1” in “Man” door cel A4
te selecteren (van het werkblad Data) en hier “Man” te typen en “2” in “Vrouw” door vervolgens cel A5 te
selecteren en hier “Vrouw” te typen. Een bijkomend voordeel van de juiste labels is dat bij het maken van
grafieken (zie hoofdstuk 3) deze ook in de grafiek worden opgenomen.

Figuur 2.10: Definitieve tabel van ‘Geslacht’

Deze tabel kun je eenvoudig kopiëren als opgemaakte tekst (nog te veranderen) of afbeelding (niet te veranderen)
naar een rapport dat je met behulp van een tekstverwerkingsprogramma (bijvoorbeeld Word 2016) maakt.
Selecteer daarvoor de cellen A3:B6.

Klik op het tabblad Start en in de groep Klembord op het icoon van kopiëren (Je kunt ook op CRTL+C drukken).

Figuur 2.11: Het kopiëren van een tabel

28
2 Tabellen

Klik in het tekstverwerkingsprogramma op het tabblad Start en in de groep van Klembord op Plakken (Je kunt ook
op CRTL+V drukken).

Figuur 2.12: Het plakken in een Word document

Zorg ervoor dat je aan de eisen van een tabel voldoet:

1. De tabel moet voorzien zijn van een nummer en een opschrift, waarin aangegeven wordt wat er in de tabel
terug te vinden is;
2. De tabel moet een bronvermelding bevatten (zeker als het om desk-research gaat).

Een tabel in Word 2016 ziet er dan (na wat verfraaien) als volgt uit.

Tabel 2.3: Geslacht van de respondenten

Geslacht Aantal
Man 223
Vrouw 77
Eindtotaal 300
Bron: “Fictie 2000”

Figuur 2.13: De draaitabel in Word

29
Statistiek met Excel 2016

2.2.2 Meervoudige draaitabellen

Draaitabellen worden vaak gebruikt voor het maken van een kruistabel, waarbij gelijktijdig twee (of meer)
variabelen bestudeerd kunnen worden. Eén variabele wordt in de voorkolom uitgesplitst, een andere variabele
wordt in de kolomkop uitgesplitst in de mogelijke waarden. Het is gebruikelijk om de onafhankelijke variabele in de
kolomkop uit te splitsen en de afhankelijke variabele in de voorkolom op rijniveau. Zo kun je bijvoorbeeld een
kruistabel maken van het aantal abonnementen op de verschillende dagbladen per geslacht. De variabele
‘Geslacht’ is dan de onafhankelijke variabele en de variabele ‘Dagblad’ de afhankelijke variabele. Op welk dagblad
men geabonneerd is zou kunnen afhangen van het geslacht. Anders gezegd er zouden verschillen kunnen bestaan
tussen het aantal verschillende dagbladabonnementen bij mannen en vrouwen.

Werkwijze:

1. Ga naar het werkblad Data van je Excelmap “Fictie2000” en klik op cel A1.

2. Selecteer het tabblad Invoegen en klik in de groep van Tabellen op Draaitabel.

3. Bij het dialoogvenster selecteer je het bereik van de gegevens waarvan je een tabel wilt maken. Standaard
kiest Excel alle gegevens van het werkblad dat op dat moment geopend is.
Bij het geopende bestand van Fictie2000 is dat Data!$A$1:$L$301.
Selecteer vervolgens op welke locatie de tabel geplaatst moet worden. Bijvoorbeeld cel A10 van het werkblad
Blad1.

Figuur 2.14: Ingevuld dialoogvenster van Draaitabel maken

4. Sleep de variabele ‘Geslacht’ (door op Geslacht te klikken met de linkermuisknop en deze ingedrukt te
houden) uit de Lijst met draaitabelvelden naar het vak van Kolommen (de kolomkop van de tabel waar straks
de namen van de verschillende scores (“Man” en “Vrouw”) komen te staan. Sleep de variabele ‘Dagblad’ uit de
Lijst met draaitabelvelden naaar het vak van Rijen (de voorkolom van de tabel waar straks de namen van de
verschillende scores (“Algemeen Dagblad”, “NRC”, enz.) komen te staan.
Sleep ten slotte de variabele ‘Dagblad’ naar het vak van ∑ Waarden.
Klik vervolgens op Som van Dagblad en verander dit in het dialoogvenster van Waardeveldinstellingen in Aantal
van Dagblad.

30
2 Tabellen

Figuur 2.15: Kruistabel van ‘Dagblad’ per ‘Geslacht’

5. Verander ten slotte de codes in cel A12:A18 door de namen van de verschillende dagbladen en in de cellen
B11:C11 door “Man” en door “Vrouw” (Zie Tabel 1.2).

Figuur 2.16: Definitieve kruistabel van ‘Dagblad’ per ‘Geslacht’

Bij een kruistabel bevat een totaalkolom en een totaalrij essentiële informatie. In dit voorbeeld geeft de
totaalkolom het totaal aantal abonnementen op een bepaald dagblad en de totaalrij het totaal aantal mannen en
totaal aantal vrouwen.

Na verfraaien in Word 2016 krijg je ten slotte de volgende tabel.

31
Statistiek met Excel 2016

Tabel 2.4: Aantal abonnementen per dagblad en per geslacht

Geslacht
Dagblad Man Vrouw Eindtotaal
Algemeen Dagblad 18 7 25
NRC 9 3 12
Telegraaf 44 6 50
Trouw 16 3 19
Volkskrant 40 20 60
Anders 37 16 53
Geen 59 22 81
Eindtotaal 223 77 300

Bron: “Fictie2000”

Figuur 2.17: Kruistabel van ‘Dagblad’ per ‘Geslacht’ in Word

2.2.3 Relatieve tabellen

In plaats van een absolute frequentieverdeling (aantal) kun je in de tabel ook een relatieve (procentuele) verdeling
weergegeven. Dit is zeker aan te raden als je verschillende categorieën met elkaar wilt vergelijken.

Bij een relatieve verdeling kan er, afhankelijk van wat je benadrukken wilt, gekozen worden tussen:

1. Percentages van het totaal;


2. Percentages van de kolom;
3. Percentages van de rij.

De werkwijze verloopt analoog aan die uit paragraaf 2.2.2 met uitzondering van het aanpassen van de
∑ Waarden.

Bij de gemaakte tabel van dagbladabonnementen per geslacht is het via frequentieweergave (aantallen) moeilijk te
bekijken welk dagblad meer favoriet is bij de mannen dan bij de vrouwen. Wanneer je bij de gemaakte tabel kijkt
naar de aantallen in de kolom van mannen dan zijn deze aantallen voor elk dagblad groter dan de aantallen in de
kolom van de vrouwen. Dit komt omdat de groep van geënquêteerde mannen veel groter is dan de groep van
vrouwen.
Om bij de gemaakte tabel van dagbladabonnementen per geslacht te bekijken welk dagblad meer favoriet is bij
mannen dan bij vrouwen moet je in plaats van aantallen het weergeven als een percentage van de kolom. Per cel
krijg je dan hoeveel procent van de mannen geabonneerd is op een bepaald dagblad en hoeveel procent van de
vrouwen geabonneerd is op een bepaald dagblad.

Om deze weergave te krijgen ga je de gemaakte kruistabel van ‘Dagblad’ en ‘Geslacht’ aanpassen.


Kopieer daarvoor eerst de gemaakte kruistabel door de cellen A10:D19 te selecteren, vervolgens op CRTL+C
(kopiëren) te klikken of kies kopiëren via het tabblad van Start en klik vervolgens op Kopiëren uit de groep van
Klembord. Ga naar bijvoorbeeld cel A23 en klik vervolgens op CRTL+V (plakken) of kies plakken via het tabblad van
Start en vervolgens Plakken uit de groep van Klembord.
Klik op een cel van de gekopieerde draaitabel (bijvoorbeeld cel A23). Het dialoogvenster van Lijst met
draaitabelvelden wordt nu geopend. Klik in dit dialoogvenster in het vak van ∑ Waarden op Aantal van Geslacht en
vervolgens in het afrolmenu op Waardeveldinstellingen.

32
2 Tabellen

Figuur 2.18: Het openen van het dialoogvenster van Waardeveldinstellingen

Klik in het dialoogvenster van Waardeveldinstellingen op het tabblad van Waarden weergeven als en vervolgens op
de knop achter Geen berekening
.

Figuur 2.19: Openen van het keuzemenu voor het weergeven van de waarden

33
Statistiek met Excel 2016

Selecteer vervolgens in het afrolmenu % van kolomtotaal door hierop te klikken.

Figuur 2.20: Het veranderen van de waarden in % van kolomtotaal

Wanneer je ten slotte op OK klikt zie je dat de waarden weergegeven in de draaitabel nu veranderd is in % van
kolom in plaats van de oorspronkelijke aantallen.

Figuur 2.21: Draaitabel van dagbladabonnement per geslacht als percentages van geslacht

Om de percentages overzichtelijker weer te geven om het vergelijken te vergemakkelijken zou je de decimalen


kunnen verwijderen. Selecteer daarvoor de cellen B25:D32 (door de linkermuisknop ingedrukt te houden). De
geselecteerde cellen worden nu door een dikke rand omringd. Klik vervolgens in het tabblad van Start in de groep
van Getal tweemaal op de knop van Minder decimalen.

34
2 Tabellen

Figuur 2.22: Het verminderen van het aantal decimalen in de geselecteerde cellen

Je krijgt dan ten slotte de volgende tabel.

Figuur 2.23: Tabel procentuele verdeling van dagbladabonnementen per geslacht

Uit deze tabel is gemakkelijk af te lezen dat mannen relatief (procentueel) veel vaker een abonnement op de
Telegraaf hebben (20% van de mannen) dan vrouwen (“slechts” 8% van de vrouwen). Vrouwen hebben relatief veel
vaker een abonnement op de Volkskrant (26% van de vrouwen) dan mannen (18% van de mannen).

35
Statistiek met Excel 2016

2.2.4 Filteren

Soms wil je een tabel maken die slechts betrekking heeft op een gedeelte van de respondenten. Zo zou je
bijvoorbeeld geïnteresseerd kunnen zijn in de ‘Mening van Metro’ van alleen de respondenten die de “Metro”ook
lezen.

Werkwijze:

1. Selecteer cel A1 van het werkblad Data.


2. Klik op het tabblad van Invoegen en vervolgens op Draaitabel.
3. Bij het dialoogvenster wordt bij Tabel/bereik Data!$A$1:$L$301 automatisch ingevuld. Selecteer voor de
locatie op het werkblad Blad1 bijvoorbeeld cel A38.
4. Sleep vervolgens in het dialoogvenster van Lijst met draaitabelvelden de variabele ‘Mening Metro’ naar het
kader van Rijen en nogmaals de variabele ‘Mening Metro’ naar het kader van ∑ Waarden. Verander bij de
Waardeveldinstellingen Som van Mening Metro in Aantal van Mening Metro. Sleep de variabele ‘Metro’ naar
het kader van Kolommen. Er is nu een frequentietabel gemaakt van de variabele ‘Mening Metro’ per groep of
men wel of niet de ‘Metro’ gelezen heeft. Verander de codes van de draaitabel in de betekenis ervan (zie tabel
1.2 of Codeboek).

Figuur 2.24: Mening Metro per groep of men wel of niet de Metro gelezen heeft

5. Sleep nu in de Lijst met draaitabelvelden ‘Metro’ van het kader van Kolommen naar het kader van Filters.
In cel A36 komt nu de variabele ‘Metro’ te staan en in cel B36 heb je de keuze uit wat je van de variabele
‘Metro’ wilt zien. Standaard staat deze op Alles, maar door op het pijltje te klikken kun je uit de verschillende
scores kiezen van de variabele ‘Metro’. Wanneer je alleen de ‘Mening Metro’ wilt zien van degenen die de
Metro wel eens gelezen hebben klik je op Ja en vervolgens op OK.

36
2 Tabellen

Figuur 2.25: Het selecteren van de respondenten die de Metro wel eens gelezen hebben via het filter

Je krijgt dan uiteindelijk een tabel van de ‘Mening Metro’ van degenen die de ‘Metro’ wel eens gelezen
hebben.

Figuur 2.26: Mening Metro van de groep die de Metro wel eens gelezen heeft

Door op het filter in B36 te klikken kun je vervolgens weer Alles selecteren of de groep die de “Metro” niet
gelezen heeft.
.

Het filteren hoeft niet beperkt te blijven tot één variabele. Zo zou je bijvoorbeeld slechts geïnteresseerd kunnen
zijn in de ‘Mening over Metro’ van mannelijke respondenten die de “Metro” wel eens gelezen hebben.
In dat geval klik je de variabele ‘Geslacht’ eerst naar het kader van Kolommen. Verander vervolgens in de draaitabel
de code 1 in “Man” en de code 2 in “Vrouw”. Sleep nu in het dialoogvenster van Lijst met draaitabelvelden de
variabele ‘Geslacht’ van het kader van Kolommen naar het kader van Filters 2.
Vervolgens klik je op het pijltje achter (Alles) in de rij van Geslacht en klik je in het venster dat geopend wordt op
Man en ten slotte op OK. Je krijgt dan de volgende tabel.

2
Je kunt een variabele ook direct naar het rapportfilter slepen. In het rapportfilter kun je alleen niet de codes veranderen. Daarom wordt de
variabele eerst naar de kolomlabel (of rijlabel) gesleept om daar de code te veranderen in de betekenis ervan.

37
Statistiek met Excel 2016

Metro Ja
Geslacht Man

Rijlabels Aantal van Mening Metro


Zeer slecht 6
Slecht 19
Redelijk 36
Goed 38
Zeer goed 13
Eindtotaal 112

Figuur 2.27: Frequentietabel van Mening over Metro van de mannen die de Metro wel eens hebben gelezen

In plaats van het werken met een filter boven de tabel kun je ook werken met een slicer als filter. Een slicer is een
venster waarin je direct een overzicht hebt welke gegevens je kunt filteren.

Klik op een cel van de tabel bijvoorbeeld A38. Selecteer het tabblad van Invoegen en kilk in de groep van Filters op
Slicers.

Figuur 2.28: Het openen van het menu voor het invoegen van slicers

Selecteer in de lijst van variabelen de variabele waarop je wilt filteren, bijvoorbeeld ‘Metro’.

Figuur 2.29: Het selecteren van de variabele waarop gefilterd moet worden

38
2 Tabellen

De grootte van de slicer kun je aanpassen door op de rand van de slicer te klikken. Hierdoor kun je ook de slicer
verplaatsen. Het voordeel van een slicer is dat je gemakkelijk kunt zie op welke waarden van een variabele je kunt
filteren. Wanneer je uit de oorspronkelijke tabel het filter van ‘Metro’ verwijdert en in de slicer de waarde ja
selecteert voor de variabele ‘Metro’ zie je dezelfde tabel als in Figuur 2.27.

Figuur 2.30: De tabel gefilterd met behulp van een slicer

Een ander voordeel van gebruik van slicers in plaats van filters is dat je een slicer gelijktijdig op meerdere tabellen
kunt toepassen. Klik daarvoor op de slicer en vervolgens in de menubalk op Opties bij Hulpmiddelen voor slicers.
Klik op Rapportverbindingen.

Figuur 2.31: Het openen van het menu voor het selecteren van meerdere tabellen voor de slicer

In het venster kun je nu selecteren op welke draaitabellen de slicer toegepast moet worden. Wanneer je
bijvoorbeeld ook Draaitabel 3 selecteert zie je dat deze tabel ook aangepast wordt na het klikken op OK.

39
Statistiek met Excel 2016

Figuur 2.32: Het selecteren van meerdere tabellen voor de slicer

Figuur 2.33: Slicer toegepast op meerdere tabellen

Een slicer kun je uitzetten door op het rode kruisje bij filter in de slicer te klikken .
Een slicer kun je verwijderen door op de rand van een slicer te klikken en vervolgens op Delete.

Om overzicht te blijven houden over de verschillende werkbladen verander je ten slotte de naam van het werkblad
Blad1 in bijvoorbeeld Tabellen kwalitatief. Klik hiervoor op Blad1 met de rechtermuisknop en vervolgens op Naam
wijzigen.

40
2 Tabellen

Figuur 2.34: Het wijzigen van de naam van een werkblad

Blad1 wordt nu donker gearceerd en je kunt nu de nieuwe naam voor het werkblad intypen: Tabellen kwalitatief.

41
Statistiek met Excel 2016

2.3 Tabellen van kwantitatieve gegevens

Wanneer de gegevens kwantitatief zijn (bijvoorbeeld van de variabele ‘Leeftijd’ uit het bestand Fictie2000) dan kun
je, in principe op dezelfde manier als bij gegevens van kwalitatieve variabelen, een frequentietabel samenstellen.
Wanneer je dezelfde methode, als in 2.2.1 beschreven is, gebruikt voor het maken van een draaitabel van de
variabele ‘Leeftijd’ dan krijg je ten slotte het volgende resultaat. Maak deze tabel op een nieuw werkblad en
verander deze naam in Tabellen kwantitatief.

Rijlabels Aantal van Leeftijd


13 1
14 4
15 4
16 3
17 5
18 8
19 20
20 10
21 20
22 9
23 12
24 3
25 5
26 10
27 7
28 11
29 16
30 6
31 11
32 5
33 4
34 1
35 10
36 8
37 5
38 7
39 5
40 6
41 6
42 7
43 8
44 5
45 4
46 6
47 5
48 2
49 6
50 5
51 2
52 1
53 4
54 4
55 4
56 1
57 3
58 1
59 3
60 2
62 2
63 1
64 2
Eindtotaal 300

Figuur 2.35: Tabel van de verschillende leeftijden

In deze tabel is af te lezen hoe vaak elke waarde (leeftijd) precies voorkomt. Een groot nadeel echter is dat deze
tabel niet echt overzichtelijk is. In totaal zijn er meer dan 50 verschillende waarden en daardoor is de verdeling van
de leeftijden niet in één oogopslag duidelijk.

42
2 Tabellen

Omdat over het algemeen bij gegevens van kwantitatieve variabelen erg veel verschillende waarden kunnen
voorkomen, worden de waarden meestal in een frequentietabel gegroepeerd. In een frequentietabel wordt dan
aangegeven hoe vaak een waarde op een bepaald interval (klasse of groep) voorkomt.

Voordat je een frequentietabel maakt, moet je weten hoeveel klassen je wilt maken. Een globale richtlijn is de
wortel uit het aantal waarnemingen. Bijvoorbeeld bij 100 getallen moet je denken aan ongeveer 10 groepen of
klassen. In het bestand van Fictie2000 met 300 waarnemingen zou je ongeveer 17 klassen kunnen samenstellen.
Let wel: hoe meer klassen des te onoverzichtelijker de tabel wordt (zie de geproduceerde tabel over leeftijden),
maar hoe minder klassen des te meer informatie verloren gaat (in het meest extreme geval neem je één klasse:
13 – 64 jaar in welke je 300 waarnemingen hebt, maar geen enkele informatie meer geeft over de verdeling van de
leeftijden).

Hoe breed je de intervallen kiest hangt af van de maximale en minimale waarde en het aantal klassen.

Maximum−Minimum
Klassenbreedte=
√ Aantal
Bij 300 getallen, waarvan het minimum 13 en het maximum 64 is: Klassenbreedte = (64 - 13)/300 = 2,94
Maak van de klassenbreedte een “mooi” getal (5, 10 , 25, 50, 100 enz.) hier dus 5.

Elke klasse moet met een veelvoud van de klassenbreedte beginnen. Dus de eerste klasse is dan niet van 13 -< 18
maar van 10 -< 15. De klassen worden dan:

10 -< 15
15 -< 20
20 -< 25
enz.

Je kunt nu de tabel over leeftijden aanpassen.

Werkwijze:
1. Klik op een cel waarin een leeftijd staat bijvoorbeeld cel A4.
2. Het tabblad ANALYSEREN van HULPMIDDELEN VOOR DRAAITABELLEN wordt nu geopend. Klik op de groep
Groeperen en vervolgens op Veld groeperen.

Figuur 2.36: Openen van het venster om Velden te groeperen

3. Je krijgt dan het volgende scherm:

Figuur 2.37: Dialoogvenster van Groeperen

43
Statistiek met Excel 2016

De minimale leeftijd is 13, de maximale leeftijd is 64. Er wordt aangegeven dat er klassen van 10 waarden
gemaakt kunnen worden. Zou je nu op OK klikken, dan krijg je slechts 6 klassen (erg weinig). Daarnaast moet
de eerste klasse bij een veelvoud van de klassenbreedte beginnen.
Beter is om hier een klassenbreedte van 5 te kiezen, Beginnen bij 10 en te Eindigen bij 64.
De waarden in het invulscherm kun je veranderen door te klikken op 13 en hier 10 te typen, vervolgens op 10
te klikken en dit te veranderen in 5.

Figuur 2.38: Aangepast dialoogvenster van Groeperen

Als je nu op OK klikt krijg je de volgende tabel.

Rijlabels Aantal van Leeftijd


10-14 5
15-19 40
20-24 54
25-29 49
30-34 27
35-39 35
40-44 32
45-49 23
50-54 16
55-59 12
60-64 7
Eindtotaal 300

Figuur 2.39: Frequentietabel van leeftijden in klassen van 5 jaar

De oorspronkelijke tabel met alle leeftijden kun je terugkrijgen door op cel A4 te klikken en vervolgens bij het
tabblad van Opties in de groep Groeperen op Degroeperen.

Figuur 2.40: Het groeperen opheffen

Soms ben je niet alleen geïnteresseerd in de aantallen in een bepaalde klasse, maar ook in de aantallen (of
percentages) onder een bepaalde grenswaarde. In dat geval stel je een cumulatieve frequentie (of relatieve) tabel

44
2 Tabellen

samen. Deze kun je samenstellen door de waarden van de gegevens uit een draaitabel weer te geven als:
(%) Voorlopig totaal in.
Als voorbeeld nemen we de frequentie (draai)tabel van leeftijd.

Werkwijze:

1. Klik op een cel van de draaitabel (bijvoorbeeld cel A4) en klik vervolgens in het venster van ∑ WAARDEN op
Aantal van Leeftijd en vervolgens op Waardeveldinstellingen…

Figuur 2.41: Openen van het dialoogvenster van Waardeveldinstellingen

2. Klik in het venster Waardeveldinstellingen op het tabblad Waarden weergeven als en selecteer Voorlopig totaal
in en klik op OK.

Figuur 2.42: Selecteren om de waarden cumulatief weer te geven

45
Statistiek met Excel 2016

3. Verander de Rijlabels van cel A4:A14 in “< 15”, “< 20”, “< 25”, …… “< 65”. De tabel ziet er dan als volgt uit.

Figuur 2.43: Cumulatieve tabel van de variabele ‘Leeftijd’

Uit deze tabel kun je aflezen hoeveel respondenten jonger zijn dan een bepaalde leeftijd. Er zijn bijvoorbeeld 99
respondenten jonger dan 25 jaar en 265 respondenten zijn jonger dan 50 jaar.

Op eenzelfde manier kun je de cumulatieve relatieve (in procenten) tabel krijgen. Selecteer hiervoor bij waarden
weergeven als: % voorlopig totaal in. De cumulatieve relatieve tabel ziet er als volgt uit (afgerond op gehele
procenten).

Figuur 2.44: Cumulatieve relatieve tabel van de variabele ‘Leeftijd’

Uit deze tabel kun je bijvoorbeeld aflezen dat 33% van de respondenten jonger is dan 25 jaar en dat 70% van de
respondenten jonger is dan 40 jaar.

Vergeet niet het Excelbestand met de draaitabellen op te slaan! In het volgende hoofdstuk ga je grafieken maken
en de meeste grafieken worden gemaakt vanuit een draaitabel.

46
2 Tabellen

2.4 Opgaven

Voor alle opgaven moet je gebruik maken van het bestand Fictie2000

1. Maak een frequentietabel van de gegevens van alle respondenten op de variabele ‘Mening Spits’.

2. Maak een frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele ‘Mening
Spits’, uitgesplitst naar de gegevens van de variabele ‘Geslacht’.

3. Maak een relatieve frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele
‘Mening Spits’, waaruit duidelijk blijkt dat de mening over dit blad relatief slechter scoort bij vrouwen dan bij
mannen.

4. Maak een relatieve frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele
‘Mening Spits’, waaruit duidelijk blijkt dat er minder vrouwen dan mannen in de steekproef zijn die dit blad
gelezen hebben.

5. Maak een frequentietabel met klassenbreedtes van 10 minuten van de gegevens van alle respondenten op de
variabele ‘Reistijd’.

6. Maak een frequentietabel met klassenbreedtes van € 500 van de gegevens van alle respondenten met
betrekking tot hun inkomens.

7. Maak een cumulatieve relatieve frequentietabel van de gegevens van alle respondenten met betrekking tot de
variabele ‘Inkomen’.

8. Maak een frequentietabel van de gegevens van alle respondenten voor de variabele ‘Reisdagen per trein per
week’ opgesplitst naar ‘Geslacht’.

9. Maak een frequentietabel van de gegevens van de respondenten die 30 jaar of ouder zijn met betrekking tot
de variabele ‘Dagblad’.

10. Maak een frequentietabel van de gegevens van de mannelijke respondenten die 30 jaar of ouder zijn met
betrekking tot de variabele ‘Dagblad’.

47
Statistiek met Excel 2016

48
2 Tabellen

49
3 Grafieken
3 Grafieken

3.1 Inleiding

In het vorige hoofdstuk heb je geleerd hoe je verzamelde gegevens op een overzichtelijke manier kunt presenteren
in de vorm van een tabel. Een andere methode om een hoeveelheid gegevens weer te geven is in de vorm van een
grafiek, met als voordeel dat je in één oogopslag inzicht verkrijgt in deze gegevens.

Wanneer je een draaitabel hebt gemaakt (zie hoofdstuk 2) dan kun je op een eenvoudige en snelle manier met
Excel 2016 een grafiek van deze gegevens verkrijgen.

Met Excel 2016 heb je de mogelijkheid te kiezen uit 16 soorten grafieken en bij elke soort weer een aantal
subtypen.

Figuur 3.1: Overzicht van de verschillende soorten grafieken en een aantal subtypen

In dit hoofdstuk zullen slechts een aantal soorten grafieken met een aantal subtypen behandeld worden.
Welke grafiek je kiest, is in eerste instantie afhankelijk van de aard van de gegevens (bijvoorbeeld kwalitatief of
kwantitatief).
Voor tabellen van kwalitatieve gegevens wordt meestal gebruik gemaakt van een kolomdiagram, staafdiagram of
cirkeldiagram, terwijl voor frequentieverdelingen van kwantitatieve gegevens meestal een histogram
(kolomdiagram met aansluitende kolommen) of een lijngrafiek (polygoon of ogief) wordt gebruikt.

51
Statistiek met Excel 2016

Tabel 3.1: Onderwerp en grafiekvorm van kwalitatieve- en kwantitatieve gegevens

Gegevens Onderwerp Grafiekvorm


Kwalitatief Totalen Kolomdiagram, staafdiagram, cirkeldiagram
Totalen met onderverdeling Samengesteld kolomdiagram of – staafdiagram
Kwantitatief Korte tijdreeksen Kolomdiagram, staafdiagram
Langere tijdreeksen Lijndiagram
Frequentieverdeling Histogram, Frequentiepolygoon, Box en whisker grafiek
Cumulatieve frequentieverdeling Ogief
Enkelvoudige correlatie / regressie Spreidingsdiagram

Net als bij een tabel moet een goede grafiek ook aan een aantal eisen voldoen:
1. De grafiek moet voorzien zijn van een nummer en een opschrift (titel), waarin aangegeven wordt wat er in de
grafiek valt af te lezen;
2. Veelal is er sprake van een horizontale en een verticale as. Deze moeten voorzien zijn van een duidelijke
schaalverdeling en een bijschrift. Bij deze bijschriften moet de eenheid van meting vermeld worden;
3. De grafiek moet een bronvermelding bevatten (zeker als het om desk-research gaat);
4. Het gebruik van scheurlijnen op de verticale as is bij een kolomdiagram niet toegestaan, bij lijndiagrammen is
dit vaak noodzakelijk.

3.2 Grafieken van kwalitatieve gegevens

Voordat je een kolom-, staaf- of cirkeldiagram van kwalitatieve gegevens kunt maken, met behulp van Excel, moet
je zorgen voor een tabel (zie 2.2 Tabellen van kwalitatieve gegevens). Als je een draaitabel hebt gemaakt van de
kwalitatieve gegevens dan is het maken van een grafiek redelijk eenvoudig.

3.2.1 Kolomdiagram

Neem als voorbeeld de volgende draaitabel van de variabele ‘Geslacht’ (zie ook hoofdstuk 2.2.1).

Figuur 3.2: Tabel van ‘Geslacht’

Werkwijze:
1. Klik op een willekeurige cel van de draaitabel (één van de cellen A3:B6).
2. Klik in het lint op het tabblad INVOEGEN en vervolgens op Kolom in de groep van Grafieken (voor het invoegen
van een kolomdiagram). Klik bij de subtypen op het eerste kolomdiagram (Gegroepeerde kolom).

52
3 Grafieken

Figuur 3.3: Invoegen van een kolomdiagram van de “Tabel van Geslacht”

De grafiek wordt als ingesloten grafiek op het actieve werkblad geplaatst.

Figuur 3.4: (Ingesloten) kolomdiagram van de variabele ‘Geslacht’

Een grafiek is opgebouwd uit verschillende onderdelen. Elk onderdeel heeft een aparte naam en kan gewijzigd
worden.

53
Statistiek met Excel 2016

Figuur 3.5: De grafiekonderdelen van de gemaakte kolomdiagram

Bij elk grafiekonderdeel heb je verschillende keuzeopties. Je kunt grafiekonderdelen toevoegen, hoe dit
grafiekonderdeel moet worden opgenomen in de grafiek en de plaats bepalen waar dit grafiekonderdeel geplaatst
moet worden in de grafiek. Dit is mogelijk door op een pijltje achter een grafiekonderdeel te klikken.

Tabel 3.2: Verschillende onderdelen van een grafiek met een omschrijving ervan

Onderdeel Omschrijving
Grafiekgebied Alles wat binnen het kader valt. De hele grafiek en de achtergrond.
Horizontale as (X-as) De horizontale as met de verschillende categorieën.
Verticale as (Y-as) De verticale as met de waarden.
Grafiektitel Omschrijving wat in de grafiek valt af te lezen.
Tekengebied. Het gedeelte van de grafiek dat begrensd wordt door de assen.
Legenda Omschrijving van de betekenis van de verschillende kleuren in de grafiek.
Reeks De uitgezette waarden in het tekengebied.
Rasterlijnen Horizontale en verticale lijnen die het aflezen vereenvoudigen.

Grafiekgebied Rasterlijnen Grafiektitel Legenda Hulpknoppen

Verticale as Horizontale as Tekengebied Reeks

54
3 Grafieken

Figuur 3.6: De verschillende onderdelen van een grafiek


Naast de grafiek zie je twee hulpknoppen. De eerste knop gebruik je voor het toevoegen of verwijderen van
grafiekelementen. De tweede knop gebruik je om de stijl en/of kleur te veranderen.

Elk onderdeel van de grafiek kun je ook aanpassen door met de rechtermuisknop op het desbetreffende onderdeel
van de grafiek te klikken.

Wanneer je een grafiek maakt of selecteert verschijnt het contextgevoelige tabblad voor ‘hulpmiddelen voor
draaigrafieken’, bestaande uit de tabbladen ‘Analyseren’ , ‘Ontwerpen’ en ‘Indeling’.

Figuur 3.7: De contextgevoelige tabbladen van ‘Hulpmiddelen voor grafieken’

 Analyseren kun je gebruiken om Gegevens te wissen en te vernieuwen en om ‘Deelvenster voor filter van
draaigrafiek’ en de ‘Lijst met draaitabelvelden’ in- en uit te schakelen.
 Ontwerpen kun je gebruiken om de basisgegevens van de grafiek en de lay-out van de totale grafiek te
wijzigen.
 Indeling kun je gebruiken om onderdelen van de grafiek weer te geven met waar het geplaatst moet worden of
te verbergen.

De gemaakte kolomdiagram ga je nu aanpassen aan de eisen die gesteld worden aan een grafiek:
Duidelijke grafiektitel, titels bij de as, bronvermelding en het verwijderen van de overbodige legenda.

 Klik op Totaal en typ in: “Grafiek 3.1: Aantal respondenten per geslacht”. Selecteer vervolgens deze tekst en klik
in het lint op het tabblad Start en vervolgens in de groep van Lettertype op de grootte en verander dit in
bijvoorbeeld 14.
 Er zijn nog geen titels bij de assen. Klik op de eerste hulpknop om grafiekelementen toe te voegen. Vink het
vakje voor Astitels aan. Bij de horizontale en vertikale as komt nu Astitel te staan.

Figuur 3.8: Het selecteren van Astitels om titels bij de assen toe te voegen

 Klik op de nu ingevoegde Astitel onder de horizontale as en verander de naam in “Geslacht”.


 Klik op de nu ingevoegde Astitel bij de vertikale as in en verander de naam in “Aantal”.
 Haal het vinkje bij het Grafiekelement Legenda weg door hier op te klikken.

55
Statistiek met Excel 2016

Figuur 3.9: Het verwijderen van de legenda van de grafiek

 Voor bronvermelding is er geen aparte knop. Je kunt deze invoegen via een tekstvak. Klik in het lint op het
tabblad van Invoegen en klik in de groep van Illustraties op Vormen en vervolgens op Tekstvak. Klik onder de
horizontale as op de plek waar je de bronvermelding wilt hebben. Je kunt later nog via slepen het tekstvak
verplaatsen. Typ hier in:
“Bron: Fictie2000” en verander ten slotte de grootte van het lettertype in 8.

Figuur 3.10: Het invoegen van een tekstvak in de grafiek

De gemaakte kolomdiagram ziet er nu als volgt uit.

Grafiek 3.1: Aantal respondenten per geslacht


250

200

150
Aantal

100

50

0
Man Vrouw
Bron: Fictie2000 Geslacht

Figuur 3.11: De opgemaakte grafiek van de variabele ‘Geslacht’

56
3 Grafieken

De Veldknoppen ‘Geslacht’ en ‘Aantal van geslacht’ kun je nog verwijderen via het tabblad Analyseren, de groep
Weergeven/verbergen en ten slotte bij Veldknoppen klikken op Alles verbergen.

Wanneer je de grafiek niet als een ingesloten grafiek, maar op een apart werkblad wilt, klik dan in het lint op het
tabblad van Ontwerpen en vervolgens in de groep van Locatie op Grafiek verplaatsen. Selecteer in het geopende
dialoogvenster Nieuw blad: Grafiek 1 en klik ten slotte op OK.

Figuur 3.12: Dialoogvenster van Grafiek verplaatsen

Wil je een kolomdiagram maken met betrekking tot twee variabelen, kies dan voor één van de zeven subtypes
onder Kolom. De verschillen bestaan uit:
 gegroepeerd, gestapeld of 100% gestapeld;
 dimensie: tweedimensionaal vlak (2D) of driedimensionale ruimte (3D).

Bij een gegroepeerde kolom gaat het om het vergelijken van de waarden over de categorieën, bij een gestapelde
kolom om het vergelijken van de bijdrage van elke waarde aan een totaal over de categorieën en bij een 100%
gestapelde kolom om het vergelijken van de percentages dat elke waarde bijdraagt aan een totaal over de
categorieën.
Kolomdiagrammen met een driedimensionaal effect zien er fraaier uit, maar maken het aflezen van de exacte
waarden een stuk moeilijker.

Bij het maken van een kolomdiagram van twee variabelen, wordt bij Excel 2016 de variabele in de voorkolom
(Rijlabels) als onafhankelijke variabele beschouwd en de waarden ervan als labels op de X-as vermeld. De variabele
in de kolomkop (Kolomlabels) wordt als afhankelijke variabele beschouwd en in de kolomdiagram wordt de kolom
vervolgens in de waarden van deze variabele onderverdeeld.
Als voorbeeld kun je een gestapelde kolomdiagram maken van de draaitabel met betrekking tot de variabelen
‘Dagblad’ en ‘Geslacht’.

Werkwijze:
1. Klik op één van de cellen A10:D19 van deze draaitabel.
2. Klik in het lint op het tabblad van Invoegen en vervolgens op kolomgrafiek in de groep van Grafieken.
Selecteer de gestapelde kolomdiagram. Je krijgt nu een gestapeld kolomdiagram van de gegevens met
betrekking tot het aantal abonnementen op de verschillende dagbladen per geslacht als ingesloten grafiek.

Figuur 3.13: Het invoegen van een gestapelde kolomdiagram van de gekozen tabel

57
Statistiek met Excel 2016

3. Voeg een grafiektitel, astitels en een bronvermelding toe. Legenda niet verwijderen. Deze is bij een
samengesteld diagram van essentieel belang.

Grafiek 3.2: Aantal respondenten per dagblad verdeeld naar geslacht


90
80
70
60
50
Aantal

40
Vrouw
30
Man
20
10
0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000

Figuur 3.14: Gestapeld kolomdiagram van de variabele ‘Dagblad’ per ‘Geslacht’

In deze grafiek ligt in eerste instantie de nadruk op het totaal aantal abonnementen per dagblad (de lengte van de
kolom) en in tweede instantie op het geslacht van de abonnees (de onderverdeling van de kolom).
Wil je de nadruk leggen op de verdeling over de geslachten per dagblad, klik dan in het lint op het tabblad van
Ontwerpen en in de groep van Type op Ander grafiektype. Klik vervolgens op de eerste subtype van kolomdiagram
(gegroepeerde kolom). Dit heeft het volgende resultaat.

Grafiek 3.2: Aantal respondenten per dagblad verdeeld naar geslacht


70

60

50

40
Aantal

30
Man
20 Vrouw

10

0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000

Figuur 3.15: Gegroepeerde kolomdiagram van de variabele ‘Dagblad’ per ‘Geslacht’

Wanneer je de verdeling van het aantal dagbladabonnementen over de mannen en vrouwen wilt weergeven,
verander dan de draaitabel door de variabelen in Rij en Kolom te verwisselen (dus ‘Geslacht’ in RI J en ‘Dagblad’ in
KOLOM).
Werkwijze:

58
3 Grafieken

1. Klik in de Lijst met draaitabelvelden op Dagblad en sleep deze variabele van het kader van Rijen naar het kader
van Kolommen onder de variabele ‘Geslacht’.

Figuur 3.16: Het slepen van de variabele ‘Dagblad’ naar het kader van Legendavelden

2. Sleep nu de variabele ‘Geslacht’ van het kader van Kolommen naar het kader van Rijen.

Zodra een variabele verplaatst is wordt de grafiek en ook de erbij behorende tabel direct aangepast. Verander ten
slotte de grafiektitel en de horizontale astitel.

Grafiek 3.3: Aantal respondenten per geslacht verdeeld naar dagblad


70

60

50
Algemeen Dagblad
40 NRC
Aantal

Telegraaf
30
Trouw
20 Volkskrant

10 Anders
Geen
0
Man Vrouw
Dagblad
Bron: Fictie2000

Figuur 3.17: Een gestapeld kolomdiagram van de variabele ‘Geslacht’ per ‘Dagblad’

59
Statistiek met Excel 2016

Natuurlijk vallen al deze grafieken nog aan te passen. Je kunt ze net zo kleur- en vormrijk krijgen als je wilt. Elk deel
van de grafiek kun je aanpassen.

Grafiek 3.4: Aantal respondenten per dagblad verdeeld naar geslacht


70
59
60

50 44
40
40 37
Aantal

30
22 Man
20
18
20 16 16 Vrouw
9
10 7 6
3 3
0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000

Figuur 3.18: Een kolomdiagram van de variabele ‘Dagblad’ per ‘Geslacht’

60
3 Grafieken

3.2.2 Staafdiagram

Een staafdiagram is in feite een kolomdiagram die 90 0 gedraaid is. De categorie-as is nu verticaal en de waarde-as
horizontaal. Dit heeft zeker voordelen bij lange namen voor de verschillende categorieën. Om bijvoorbeeld een
staaafdiagram van de meningen over de “Metro” van de respondenten die dit blad ook wel eens gelezen hebben te
maken ga je als volgt te werk.

Werkwijze:
1. Klik op één van de cellen A36: B44 van de desbetreffende draaitabel.
2. Klik in het lint op het tabblad van Invoegen. Selecteer in de groep van Grafieken Kolom – of Staafdiagram
invoegen en selecteer binnen deze groep het subtype van gegroepeerde staaf.
3. Voeg grafiektitel, astitels en bron toe en verwijder de legenda.

Figuur 3.19: Het maken van een gegroepeerde staafdiagram van de variabele ‘Mening Metro’

Dit geeft het volgende resultaat.

Grafiek 3.5: Staafdiagram van de meningen over de Metro van de


respondenten die dit blad hebben gelezen

Zeer goed

Goed
Mening

Redelijk

Slecht

Zeer slecht

0 10 20 30 40 50 60 70
Aantal
Bron: Fictie2000

Figuur 3.20: Staafdiagram van de variabele ‘Mening Metro’ van de respondenten die dit blad gelezen hebben

61
Statistiek met Excel 2016

3.2.3 Cirkeldiagram

Een cirkeldiagram kun je slechts samenstellen van de totalen met betrekking tot één kwalitatieve variabele. Als
voorbeeld wordt genomen de cirkeldiagram van de tabel van de verdeling van de respondenten naar ‘Geslacht’.

Werkwijze:

1. Klik op één van de cellen A3:B6 van de draaitabel van de variabele ‘Geslacht’.

2. Klik in het lint op het tabblad van Invoegen en vervolgens in de groep van Grafieken op Cirkeldiagram.
Selecteer vervolgens de eerste cirkeldiagram.

Figuur 3.21: Het maken van een cirkeldiagram van de variabele ‘Geslacht’

3. Voeg een grafiektitel en een bronvermelding toe.

Grafiek 3.6: Aantal respondenten per geslacht

Man
Vrouw

Bron: Fictie2000

Figuur 3.22: Cirkeldiagram van de variabele ‘Geslacht’

Bij het maken van een cirkeldiagram van de gegevens van een kruistabel wordt in eerste instantie de gegevens uit
de eerste kolom in het cirkeldiagram weergegeven.
Als voorbeeld kun je de draaitabel nemen met betrekking tot de abonnementen op dagbladen verdeeld naar
geslacht.

62
3 Grafieken

Werkwijze:

1. Klik op één van de cellen A10:D19 van de draaitabel van de variabele ‘Dagblad’ per ‘Geslacht’.
2. Klik in het lint op het tabblad van Invoegen en vervolgens in de groep van Grafieken op Cirkel. Selecteer
vervolgens de eerste cirkeldiagram.

Figuur 3.23: Invoegen van een cirkeldiagram van de variabele ‘Dagblad’ per ‘Geslacht’

Dit levert de volgende cirkeldiagram op.

Man

Algemeen Dagblad
NRC
Telegraaf
Trouw
Volkskrant
Anders

Figuur 3.24: Cirkeldiagram van de variabele ‘Dagblad’ van de mannelijke respondenten

Omdat de kruistabel in de eerste kolom de gegevens bevat van de mannelijke respondenten worden deze gegevens
in de cirkeldiagram weergegeven. Wil je een cirkeldiagram van het aantal dagbladabonnementen van de
vrouwelijke respondenten dan moet je eerst de draaitabel veranderen zodat het aantal dagbladabonnementen van
de vrouwen in de eerste kolom komt te staan.

Dit kan op twee manieren:

1. Klik op het pijltje naast Kolomlabels in de tabel en vervolgens op S orteren van hoog naar laag. Dit heeft tot
resultaat dan de vrouwen in de eerste kolom en de mannen in de tweede kolom komen te staan;
2. Haal het vinkje voor Man weg door hier op te klikken. Het resultaat is een tabel waar alleen nog een kolom is
opgenomen voor de vrouw.

63
Statistiek met Excel 2016

Figuur 3.25: Het sorteren van de kolomlabels van hoog naar laag

Wanneer je dit gedaan hebt zie je dat de cirkeldiagram direct veranderd wordt met het volgende resultaat.

Vrouw

Algemeen Dagblad
NRC
Telegraaf
Trouw
Volkskrant
Anders
Geen

Figuur 3.26: Cirkeldiagram van de variabele ‘Dagblad’ van de vrouwelijke respondenten

Vergeet ten slotte niet om een fatsoenlijke grafiektitel en bronvermelding toe te voegen.

Wil je een cirkeldiagram van de dagbladabonnementen van alle respondenten verander dan de kruistabel in een
tabel met slechts alleen de variabele ‘Dagblad’ en laat van deze nieuwe draaitabel een cirkeldiagram maken.

64
3 Grafieken

3.3 Grafieken van kwantitatieve variabelen

Voordat je een histogram of lijngrafiek (polygoon) van kwantitatieve gegevens kunt laten maken door Excel, moet
je ervoor zorgen dat met name de (kwantitatieve) waarden die op de X-as komen te staan, op een correcte manier
en in de juiste volgorde staan. Bij een kolomdiagram (histogram) worden de x-waarden midden onder de kolom
weergegeven, bij een lijngrafiek worden de (x,y) waarden afgezet. Zorg bij kwantitatieve gegevens voor een juiste
asindeling. Het is een soort meetlat. Elke afstand tussen twee getallen moet hetzelfde verschil uitdrukken.

Als je een frequentietabel hebt gemaakt met klassen, dan wordt zo’n klasse gerepresenteerd met behulp van zijn
klassenmidden. Deze klassenmiddens kun je prima gebruiken voor het maken van polygonen en histogrammen.

N.B. Zorg er wel voor dat alle intervallen dezelfde klassenbreedte hebben! Is een interval bijvoorbeeld 2 keer
zo breed dan de andere klassenbreedtes verander dit dan.

Tabel 3.2: Beroepsbevolking in 2017 van 15 tot 75 jaar naar leeftijd

Leeftijd Aantal * 1.000


15 -< 25 1.404
25 -< 45 3.648
45 -< 75 3.933
Totaal 8.985

Bron: Centraal Bureau voor de Statistiek 2017

In de eerste klasse (15 -< 25) heb je 10 verschillende leeftijden, in de tweede klasse 20 en in de derde klasse
vormen 30 leeftijden een groep. Maak van de tweede en derde klasse groepen van 10 jaar en ga ervan uit dat de
verdeling binnen de klassen regelmatig is. Je krijgt dan de volgende tabel, die je kunt gebruiken om er een
histogram van te maken.

Tabel 3.3: Beroepsbevolking in 2008 van 15 – 64 jaar naar leeftijd

Leeftijd Aantal * 10.000


15 -< 25 1.404
25 -< 35 1.824
35 -< 45 1.824
45 -< 55 1.311
55 -< 65 1.311
65 -< 75 1.311
Totaal 8.985

Bron: Centraal Bureau voor de Statistiek 2017

65
Statistiek met Excel 2016

3.3.1 Histogram

Als voorbeeld neem je de tabel van de leeftijden van de 300 respondenten van het onderzoek.
Hierbij hoef je de klassenbreedte niet te veranderen, want deze is bij elke klasse 5 jaar.
De leeftijden komen op de horizontale as te staan en het is gebruikelijk dat deze (horizontale) as bij 0 begint.
Omdat de klassen 0 -< 5 en 5 -< 10 geen waarden bevatten, worden deze niet in de tabel opgenomen. Deze klassen
heb je wel nodig om een histogram te krijgen, waarbij de horizontale as bij 0 begint. Je kunt een tabel maken die
ook klassen weergeeft, die geen waarden bevatten.

Werkwijze:

1. Klik op één van de cellen A3:B15 van de gegroepeerde draaitabel van de variabele ‘Leeftijd’.

2. Bij het groeperen heb je destijds als ondergrens 10 gekozen. Wanneer je een tabel wilt gebruiken die bij 0
begint dan zul je de ondergrens moeten aanpassen aan 0. Klik daarvoor op één van de cellen A4:A14 en klik op
het tabblad van Analyseren en vervolgens op Groepselectie in de groep van Groeperen.

Figuur 3.27: Openen van het dialoogvenster voor het groeperen

3. Vul in bij Beginnen bij: “0” en klik op OK.

Figuur 3.28: Het maken van groepen van 5 breed beginnend bij 0 en eindigend bij 64

66
3 Grafieken

4. Op het eerste gezicht lijkt de tabel niet veranderd. Wanneer je echter op het filter van Rijlabels in cel A3 klikt
dan zie je dat er nieuwe groepen zijn bijgekomen, maar dat deze niet worden weergegeven in de tabel.

Figuur 3.29: Dialoogvenster van Rijlabels met de verschillende groepen

5. Schakel het vinkje voor <0 en voor >65 uit. De reden dat de groepen 0-4 en 5-9 niet worden weergegeven
komt omdat Excel standaard groepen weglaat waar geen waarnemingen in voorkomen. Het aantal in die
groepen is 0.
Klik op het tabblad van Analyseren en vervolgens op Veldinstellingen in de groep van Actief veld. Selecteer in
het geopende dialoogvenster van Veldinstellingen het tabblad van Indeling & afdrukken en vink bij Indeling
“Items zonder gegevens weergeven” aan.

Figuur 3.30: Het inschakelen voor de weergave van Items zonder gegevens

67
Statistiek met Excel 2016

6. De groepen 0-4 en 5-9 worden nu wel weergegeven in de tabel, alleen worden de aantallen voor deze twee
groepen nog niet weergegeven in de draaitabel. Klik op het tabblad van Analyseren en vervolgens op Opties in
de groep van Draaitabel. Klik op het tabblad van Indeling & opmaak, vink het vak Voor lege cellen weergeven
aan, vul 0 in en klik op OK.

Figuur 3.31: Aanpassen van weergave lege cellen in draaitabel

7. Om een goede weergave te krijgen op de horizontale as van het histogram, moet je nog de labels veranderen
in klassenmiddens. Klik op cel A4 en verander 0-4 in “2,5” door dit in te typen. Klik op cel A5 en verander dit in
“7,5”. Ga zo door tot en met cel A16 die je verandert in “62,5”.

Figuur 3.32: Aangepaste tabel voor de variabele ‘Leeftijd’

68
3 Grafieken

8. Klik nu op het tabblad van Invoegen en vervolgens op Kolom in de groep van Grafieken.

Figuur 3.33: Invoegen van een kolomdiagram voor de variabele ‘Leeftijd’

Je krijgt dan het volgende resultaat.

Totaal
60

50

40

30
Totaal
20

10

0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5

Figuur 3.34: Kolomdiagram van de tabel van ‘Leeftijd’

Dit is geen histogram, want bij een histogram bestaat er geen tussenruimte tussen de verschillende kolommen.
Om dit probleem op te lossen moet je op één van de kolommen klikken en vervolgens op het tabblad Indeling
en op Selectie opmaken in de groep van Huidige selectie (de kolommen).

69
Statistiek met Excel 2016

Figuur 3.35: Openen van het dialoogvenster van Selectie opmaken voor kolommen

9. Verschuif het blokje bij Breedte tussenruimte naar 0%.

Figuur 3.36: Het uitschakelen van de tussenruimte tussen de kolommen

Je krijgt dan na aanpassing van de grafiektitel, astitels, legenda en bronvermelding het volgende resultaat te
zien.

70
3 Grafieken

Grafiek 3.8 Histogram van de leeftijden van de respondenten


60

50
Aantal per 5 jaar

40

30

20

10

0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Leeftijd (jaren)
Bron: Fictie2000

Figuur 3.37: Histogram van de variabele ‘Leeftijd’

Natuurlijk kun je dit histogram nog verfraaien. Elk element waaruit de grafiek opgebouwd is kan door erop te
dubbelklikken met de linker muisknop of enkel te klikken met de rechter muisknop veranderd worden. Je kunt
ook de grafiek selecteren en met behulp van het rolmenu Opmaak en of Grafiek de verschillende onderdelen
van de grafiek veranderen. Probeer het maar eens uit.

Grafiek 3.8: Histogram van de leeftijden van de respondenten


60

50
Aantal per 5 jaar

40

30

20

10

0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Bron: Fictie2000 Leeftijd (jaren)

Figuur 3.38: Opgemaakt histogram van de variabele ‘Leeftijd’

71
Statistiek met Excel 2016

3.3.2 Frequentiepolygoon

Een frequentiepolygoon (lijndiagram) verbindt de klassenmiddens van de kolommen van een histogram met
elkaar. Het maken van een frequentiepolygoon loopt dan ook analoog aan het verhaal van het maken van een
histogram, met uitzondering van het te kiezen grafiektype.

Werkwijze:

1. Klik op de tabel van leeftijd, waarbij de leeftijden in klassen zijn ingedeeld en de klassenmiddens als rijlabels
zijn weergegeven (Zie figuur 3.32).
2. Klik op het tabblad van Invoegen in het lint en vervolgens op het pictogram van Lijn in de groep van Grafieken.
Klik nu op het eerste subtype van de weergegeven Lijndiagrammen.

Figuur 3.39: Invoegen van een lijndiagram van de gekozen tabel

3. Pas de grafiektitel en astitels aan. Voeg een bronvermelding toe en verwijder de legenda. Je krijgt dan de
volgende lijndiagram.

Grafiek 3.9: Lijndiagram van de leeftijden van de respondenten


60

50
Aantal per 5 jaar

40

30

20

10

0
2,5 7,5 125 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5

Bron: Fictie2000
Leeftijd (jaren)

Figuur 3.40: Lijndiagram van de variabele ‘Leeftijd’

72
3 Grafieken

3.3.3 Cumulatief polygoon (ogief)

In principe kun je vrij snel een cumulatief polygoon (ogief) maken van een cumulatieve frequentie tabel. Toch
moet je deze tabel iets veranderen om ervoor te zorgen dat je een fatsoenlijke indeling van de horizontale X-as
krijgt (moet namelijk bij 0 beginnen, net zoals bij een histogram en een frequentiepolygoon).
Je moet dus eerst de cumulatieve frequentie tabel, van bijvoorbeeld de variabele ‘Leeftijd’, die je in hoofdstuk 2
gemaakt hebt aanpassen, zoals je dat ook voor de frequentietabel van de leeftijden hebt gedaan voor het maken
van een histogram.
Als voorbeeld kun je de cumulatieve (absolute) frequentie tabel nemen (zie figuur 2.43). Voer de eerste zes
stappen uit voor het maken van een histogram (zie hoofdstuk 3.3.1), met de uitzondering dat je bij stap 5 het
vinkje voor < 0 niet uitschakeld. Geef de waarden weer als voorlopig totaal in (figuur 2.41 en figuur 2.42). Je
cumulatieve tabel van de variabele ‘Leeftijd’ moet er nu als volgt uit zien.

Figuur 3.41: Voorlopig cumulatieve tabel van de variabele ‘Leeftijd’

Als rijlabels (dit worden de labels voor de categorie-as) moet je nu in de cellen A4:A17 0, 5, 10, ……, 65 invullen (de
bovengrenzen van de klassen).

Figuur 3.42: Cumulatieve tabel van de variabele ‘Leeftijd’ voor het maken van een ogief

73
Statistiek met Excel 2016

Werkwijze:

1. Selecteer een cel van de draaitabel (figuur 3.42).


2. Klik op het tabblad van Invoegen in het lint en vervolgens op het pictogram van Lijn in de groep van Grafieken.
Klik nu op het eerste subtype van de weergegeven Lijndiagrammen. Je krijgt dan het volgende resultaat.

Totaal
350
300
250
200
150 Totaal

100
50
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65

Figuur 3.43: Grafiek van het cumulatief aantal van de variabele ‘Leeftijd’

3. Pas de grafiektitel en astitels aan. Voeg een bronvermelding toe en verwijder de legenda. Je krijgt dan de
volgende cumulatief lijndiagram.

Grafiek 3.10: Cumulatief frequentiepolygoon van de leeftijden van de respondenten


350

300

250

200
Aantal

150

100

50

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Leeftijd (jaren)
Bron: Fictie2000

Figuur 3.44: Cumulatief frequentiepolygoon van de variabele ‘Leeftijd’

4. De getallen op de horizontale as moeten nu nog aangepast worden. Selecteer in de grafiek de horizontale as.
Klik op het tabblad van Indeling en vervolgens op Selectie opmaken in de groep van huidige selectie. Er wordt
nu een dialoogvenster geopend voor As opmaken. Klik op de radiobutton Op maatstreepjes in plaats van
Tussen maatstreepjes.

74
3 Grafieken

Figuur 3.45: Openen van het dialoogvenster voor het opmaken van de horizontale as

5. Verander in het dialoogvenster van As opmaken de positie van de as. Klik Op maatstreepjes in plaats van
Tussen maatstreepjes.

Figuur 3.46: Het plaatsen van de as op de maatstreepjes

De waarden van de horizontale as staan nu op de juiste plaats. De grafiek ziet er nu als volgt uit.

75
Statistiek met Excel 2016

Grafiek 3.10: Cumulatief frequentiepolygoon van de leeftijden van de respondenten


350

300

250

200
Aantal

150

100

50

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Leeftijd (jaren)
Bron: Fictie2000

Figuur 3.47: Cumulatief frequentiepolygoon van de variabele ‘Leeftijd’

Uit deze grafiek kun je nu gemakkelijk aflezen hoeveel respondenten jonger zijn dan een bepaalde leeftijd.
Bijvoorbeeld 150 respondenten zijn jonger dan 30 jaar.

3.3.4 Grafieken van tijdreeksen

Omdat het bestand Fictie2000 geen gegevens over tijdreeksen bevat, kun je voor het oefenen van het maken van
grafieken van tijdreeksen gebruik maken van de volgende tabel.

Tabel 3.5: Percentage dagbladabonnementen per leeftijdscategorie 1997-2008

Leeftijd 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
18 tot 25 jarigen 55 55 54 53 52 51 48 48 40 42 45 41
25 tot 35 jarigen 47 47 43 43 40 39 37 33 31 28 27 28
35 tot 45 jarigen 62 61 59 57 55 55 50 50 48 46 40 38
45 tot 55 jarigen 73 74 73 72 69 67 65 64 59 58 57 56
55 tot 65 jarigen 74 76 75 74 74 76 76 72 71 71 67 66
65 tot 75 jarigen 75 74 73 73 74 75 72 72 73 70 70 73
75 jarigen of ouder 70 69 68 68 72 69 70 71 66 64 73 68

© Centraal Bureau voor de Statistiek, Den Haag/Heerlen 25-6-2012

Bij tijdreeksen wordt de tijd altijd op de X-as weergegeven. Bij jaartallen is het logisch dat deze X-as niet bij 0
begint.

76
3 Grafieken

3.3.4.1 Korte tijdreeksen

Bij korte tijdreeksen (bijvoorbeeld tot 5 jaar) worden de gegevens over de jaren weergegeven in een
kolomdiagram. Voor het maken van een kolomdiagram zie ook 3.2.1 (Kolomdiagram).
Bij kolomdiagrammen is de Y-as een echte meetlat die bij 0 begint en waarbij elke afstand op die as dezelfde
eenheid overbrugt. Een scheurlijn is dus niet toegestaan. Dit probleem ben je tot nog toe niet tegen gekomen,
maar bij tijdreeksen heb je vaak te maken met getallen die per jaar weinig verschillen. Neem bijvoorbeeld het
percentage dagbladabonnementen van de 18 tot 25 jarigen over de periode 2004 – 2008 (zie tabel 3.5). Dit
varieert van 40% tot 48%. Je zult merken dat de kolommen dan niet op de verticale as bij 0 beginnen, waardoor je
een vertekend beeld krijgt van de werkelijkheid.

Werkwijze:
1. Open het bestand “Dagbladabonnement.xlsx”.
2. Selecteer de cellen I2:M2 voor het maken van een kolomdiagram van de dagbladabonnementen van de 18 tot
25 jarigen over de periode 2004 – 2008. Klik op het tabblad van Invoegen en vervolgens op Kolom in de groep
van Grafieken. Selecteer vervolgens het eerste subtype.

Figuur 3.48: Invoegen van een kolomdiagram van de geselecteerde cellen

3. Je krijgt dan de volgende kolomdiagram.

Grafiektitel
50

48

46

44

42

40

38

36
1 2 3 4 5

Figuur 3.49: Kolomdiagram van de geselecteerde cellen

77
Statistiek met Excel 2016

Voeg een grafiektitel, verticale astitel (percentage), bron toe.


4. De horizontale asindeling moet nog worden gekozen. Klik hiervoor op het tabblad van Ontwerpen en
vervolgens op Gegevens selecteren in de groep van Gegevens. Het volgende dialoogvenster wordt dan
geopend.

Figuur 3.50: Dialoogvenster van Gegevensbron selecteren

Klik in het dialoogvenster van Gegevensbron selecteren op Bewerken in het kader van Horizontale aslabels
(categorieën). Selecteer vervolgens met de muis de cellen I1:M1 en klik op OK. Onder de horizontale as staan
nu de jaartallen 2004, 2005, …, 2008.

5. De verticale as moet nog netjes ingedeeld worden zodat deze bij 0 begint en niet bij 36. Selecteer daarvoor de
verticale as in de grafiek. Klik in het lint op het tabblad van Indeling, Selectie opmaken in de groep van Huidige
selectie. Er wordt nu een dialoogvenster geopend voor het opmaken van de gekozen as.

Figuur 3.51: Openen van het dialoogvenster voor Opties van de verticale as

Klik in het dialoogvenster van As opmaken bij Opties voor as Minimum en verander “36,0” in “0”. De verticale
as begint nu bij 0. Verander de Primaire eenheid van “2” in “10”. De eenheden die nu bij de verticale as staan
gaan in stappen van 10 omhoog.

78
3 Grafieken

Figuur 3.52: Het minimum van de as instellen op 0 en de primaire eenheid op 10

De kolomdiagram moet er nu als volgt uit zien.

Grafiek 3.11: Percentage dagbladabonnementen van de 18 tot


25 jarigen 2004 - 2008
60

50

40
Percentage

30

20

10

0
2004 2005 2006 2007 2008

Bron: Centraal Bureau voor de Statistiek, Den Haag/Heerlen 25-6-2012

Figuur 3.53: Grafiek van dagbladabonnementen van 18 tot 25 jarigen over de periode 2004-2008

79
Statistiek met Excel 2016

3.3.4.2 Lange tijdreeksen

Bij lange tijdreeksen (bijvoorbeeld meer dan 5 jaar) worden de gegevens over de jaren weergegeven in een
lijndiagram. Voor het maken van een lijndiagram zie ook 3.3.2 Frequentiepolygoon. Een lijndiagram wordt ook
gebruikt wanneer je meer dan één tijdreeks wilt weergeven, bijvoorbeeld alle percentages van
dagbladabonnementen van alle leeftijdscategorieën over een aantal jaren.
Bij lijndiagrammen mag je een scheurlijn gebruiken en hoeft de Y-as dus niet bij 0 te beginnen. Excel geeft deze
scheurlijn niet aan, maar deze scheurlijn zou je bijvoorbeeld in een tekenprogramma wel kunnen toevoegen in je
grafiek.
Neem als voorbeeld het percentage dagbladabonnementen van de 18 tot 25 jarigen over de periode 1997-2007.

Werkwijze:

1. Open het bestand “Dagbladabonnement.xlsx”.

2. Selecteer de cellen B2:M2 voor het maken van een lijndiagram van de dagbladabonnementen van de 18 tot 25
jarigen over de periode 1997 – 2008. Klik op het tabblad van Invoegen en vervolgens op Lijn in de groep van
Grafieken. Selecteer vervolgens het vierde subtype.

Figuur 3.54: Invoegen van een lijndiagram van de geselecteerde gegevens

3. Je krijgt dan het volgende lijndiagram.

Grafiektitel
60

50

40

30

20

10

0
1 2 3 4 5 6 7 8 9 10 11 12

Figuur 3.55: Lijndiagram van de geselecteerde gegevens

Voeg een grafiektitel, verticale astitel (percentage), bron toe.

4. De horizontale asindeling moet nog worden gekozen. Klik hiervoor met de rechtermuisknop op het
grafiekgebied en klik vervolgens op Gegevens selecteren.
Klik in het dialoogvenster van Gegevensbron selecteren op Bewerken in het kader van Horizontale aslabels
(categorieën). Selecteer vervolgens met de muis de cellen B1:M1 en klik op OK. Onder de horizontale as staan
nu de jaartallen 1997, 1998, …, 2008.

80
3 Grafieken

De uiteindelijke grafiek ziet er nu als volgt uit.


Grafiek 3.12: Percentage dagbladabonnementen van de 18 tot
25 jarigen 1997 - 2008
60

50

40
Percentage

30

20

10

0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008

Bron: Centraal Bureau voor de Statistiek, Den Haag/Heerlen 25-6-2012

Figuur 3.56: Lijndiagram van de dagbladabonnementen van 18 tot 25 jarigen 1997-2008

3.3.5 Spreidingsdiagram

Een spreidingsdiagram wordt gebruikt om een verwacht logisch verband tussen twee kwantitatieve variabelen te
onderzoeken (zie ook hoofdstuk 7). De onafhankelijke variabele wordt op de horizontale (X-) as en de afhankelijke
variabele op de verticale (Y-) as afgezet.
Zo zou je bij het bestand van Fictie2000, waarbij gevraagd werd naar de leeftijd en het inkomen van de
respondent, kunnen onderzoeken of het inderdaad zo is dat, hoe ouder men is des te hoger het inkomen is. De
onafhankelijke variabele is dan ‘Leeftijd’, de afhankelijke variabele het ‘Inkomen’.

N.B. Bij alle voorgaande grafieken werd gebruik gemaakt van tabellen. Bij spreidingsdiagrammen wordt
gebruik gemaakt van de “losse” waarnemingen!

Als voorbeeld van een spreidingsdiagram kun je de leeftijden en de inkomens van de 300 respondenten nemen.

Werkwijze:

1. Open in het excelbestand “Fictie2000” een nieuw werkblad.


2. Klik in het lint op het tabblad van Invoegen, in de groep van Grafieken op het pictogram van Spreiding en klik
ten slotte op het eerste subtype. Je krijgt dan een leeg spreidingsdiagram.

81
Statistiek met Excel 2016

Figuur 3.57: Het invoegen van een spreidingsdiagram


3. Klik op het tabblad van Ontwerpen en vervolgens op Gegevens selecteren in de groep van Gegevens.

Figuur 3.58: Het toevoegen van gegevens aan een diagram

4. Selecteer voor de Reeks X-waarden de cellen C2:C301 (de verschillende leeftijden) van het werkblad Data en
voor de Reeks Y-waarden de cellen F2:F301 (de verschillende inkomens) van het werkblad Data. Let op dat je
niet de cellen met de namen ook selecteert (C1 en F1). Klik vervolgens op OK. Door deze manier van
selecteren weet je zeker dat de juiste waarden als x-variabele en de juiste waarden als y-waarden zijn
geselecteerd.

Figuur 3.59: Het selecteren van de X- en Y-waarden voor de grafiek

Je krijgt dan de volgende spreidingsdiagram

Grafiektitel
40

35

30

25

20

15

10

0
0 10 20 30 40 50 60 70

Figuur 3.60: Spreidingsdiagram van de geselecteerde gegevens

82
3 Grafieken

De gegevens uit kolom C (leeftijden) worden op de horizontale as afgezet en de gegevens uit kolom F
(inkomens) op de verticale as.
5. Voeg grafiektitel, astitels en bronvermelding toe en verwijder de legenda. De spreidingsdiagram moet er dan
als volgt uit zien.

Grafiek 3.13: Inkomen van 300 respondenten naar leeftijd


40
35
30
Inkomen (* € 100)

25
20
15
10
5
0
0 10 20 30 40 50 60 70
Bron: Fictie2000 Leeftijd

Figuur 3.61: Spreidingsdiagram van ‘Leeftijd’en ‘Inkomen’

6. Wanneer je naar de punten in de spreidingsdiagram kijkt, zie je dat over het algemeen, wanneer de leeftijd
hoger wordt, ook het inkomen hoger wordt. Dit verband zou je met een vergelijking van een rechte lijn (die zo
nauwkeurig mogelijk bij de punten aansluit) kunnen weergeven. Om deze lijn en vergelijking in de grafiek te
krijgen ga je als volgt te werk.
Klik op het tabblad van Ontwerpen en op Grafiekonderdeel toevoegen in de groep van Grafiekindelingen.
Selecteer Trendlijn en vervolgens Meer opties voor trendlijnen.

83
Statistiek met Excel 2016

Figuur 3.62: Dialoogvenster voor Opties voor trendlijn


Klik op het icoon van Opties voor trendlijn. Selecteer de radioknop voor Lineair. Vink ten slotte Vergelijking in
grafiek weergeven aan en ook R-kwadraat in grafiek weergeven.

Figuur 3.63: Toevoegen van de trendlijn, de vergelijking en R-kwadraat van deze lijn in het spreidingsdiagram

De grafiek moet er dan als volgt uit zien.

Grafiek 3.13: Inkomen van 300 respondenten naar leeftijd


40 y = 0,4935x - 2,2733
R² = 0,6635
35
30
Inkomen (* € 100)

25
20
15
10
5
0
0 10 20 30 40 50 60 70
Bron: Fictie2000 Leeftijd

Figuur 3.64: Spreidingsdiagram van ‘Leeftijd’ en ‘Inkomen’ met regressielijn en vergelijking ervan

De regressielijn is nu in de grafiek getekend en de vergelijking van deze lijn wordt weergegeven


(y = 0,4953x – 2,2733).

84
3 Grafieken

Daarnaast is gegeven dat R2=0,6635. De betekenis hiervan kun je vinden in hoofdstuk 7.


3.3.6 Box en whiskerdiagram

Een box en whiskerdiagram is een vereenvoudigde weergave maar zeer bruikbare voorstelling van de verdeling van
de data. Een box en whiskerdiagram is een grafische weergave van de vijf-getallensamenvatting. Deze vijf-
getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of tweede kwartiel),
het derde kwartiel en het maximum van de waargenomen data (zie ook hoofdstuk 4).
De middelste 50% van de waarnemeningen worden weergegeven door de box, de laagste en de hoogste
25% door de whiskers.

Net zoals bij het spreidingsdiagram wordt een box en whiskerdiagram gemaakt vanuit de oorspronkelijke gegevens
en niet vanuit een draaitabel.

Als voorbeeld van een box en whiskerdiagram worden de gegevens van de variabele ‘Leeftijd’ genomen.

Werkwijze:

1. Kopieer de gegevens van de variabele ‘Leeftijd’ van het Datablad van het bestand Fictie2000 naar
een nieuw blad (inclusief de naam van de variabele).

2. Selecteer de cellen waarin de naam Leeftijd en de gegevens staan.

3. Klik in het lint op het tabblad van Invoegen, in de groep van Grafieken op het pictogram van
Aanbevolen grafieken. Klik vervolgens op het tabblad van Alle grafieken en selecteer hier Box en
whisker. Je krijgt dan een box en whiskerdiagram. Klik op OK.

Figuur 3.65: Het selecteren van de box en whiskerdiagram

Je krijgt dan het volgende box en whiskerdiagram.

85
Statistiek met Excel 2016

Figuur 3.66: Box en whiskerdiagram van de gegevens van de variabele ‘Leeftijd’

4. Klik op het plusteken naast de grafiek om de gegevenslabels toe te voegen. Geef de

Figuur 3.66: Het toevoegen van gegevenslabels bij een box en whiskerdiagram

5. Voeg grafiektitel, astitel en bronvermelding toe. Geef de getallen voor de kwartielen en het
gemiddelde weer als gehele getallen. Je box en whiskerdiagram moet er nu als volgt uit zien.

Figuur 3.67: Box en whiskerdiagram van leeftijd

86
3 Grafieken

3.4 Opgaven

De opgaven 1 tot en met 12 hebben betrekking op het bestand “Fictie2000”.

1. Maak een cirkeldiagram van de gegevens van alle respondenten op de variabele ‘Mening Spits’.

2. Maak een samengesteld kolomdiagram van de gegevens van de respondenten die de ‘Spits lezen’ voor de
variabele ‘Mening Spits’, waarbij de meningen opgesplitst zijn naar de variabele ‘Geslacht’.

3. Maak een staafdiagram van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele ‘Mening
Spits’, waaruit duidelijk blijkt dat de mening over dit blad relatief slechter scoort bij vrouwen dan bij mannen.

4. Maak een histogram van de gegevens van alle respondenten op de variabele ‘Reistijd’.

5. Maak een frequentiepolygoon van de gegevens van alle respondenten op de variabele ‘Inkomen’.

6. Maak een ogief (cumulatief frequentiepolygoon) van de gegevens van de mannelijke respondenten op de
variabele ‘Reistijd’.

7. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Dagblad’.

8. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Reisdagen per trein per
week’.

9. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Dagblad’ opgesplitst naar
de variabele ‘Geslacht’.

10. Maak een passende grafiek waarin valt af te lezen welk percentage van de vrouwen een inkomen heeft dat
lager is dan een bepaald bedrag.

11. Maak een spreidingsdiagram van de gegevens van alle respondenten met als onafhankelijke variabele ‘Leeftijd’
en als afhankelijke variabele ‘Reistijd’.

12. Maak een box en whiskerdiagram van de gegevens van alle respondenten op de variabele ‘Reistijd’.

13. Maak een box en whiskerdiagram van de gegevens op de variabele ‘Inkomen’ opgesplitst naar ‘Geslacht’.

De opgaven 14 tot en met 16 hebben betrekking op de gegevens van het bestand “Dagbladabonnementen”.

14. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren
2004 – 2008 van de 25 tot 35 jarigen.

15. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren 1997-2008 van de
75 jarigen of ouder.

16. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren 1997-2008 van alle
verschillende leeftijdscategorieën.

87
Statistiek met Excel 2016

4 Karakteristieken

4.1 Inleiding

In de vorige twee hoofdstukken heb je gezien hoe je door middel van tabellen en grafieken inzicht kunt krijgen in
de structuur van een groot aantal waarnemingsuitkomsten. Vaak worden waarnemingsuitkomsten (in een rapport
of artikel) niet in tabellen of grafieken gepresenteerd, omdat deze tabellen of grafieken veel ruimte in beslag
nemen.
In de tekst worden de waarnemingsuitkomsten dan met behulp van een centrummaat, spreidingsmaat en of
vormmaat weergegeven.
Een centrummaat geeft aan welke waarde als centrum, het gemiddelde of het midden van een verdeling kan
worden gezien.
Een spreidingsmaat geeft een indruk van de mate waarin de waarnemingsuitkomsten onderling verschillen en
afwijken van het centrum, het gemiddelde of het midden van de verdeling.
Een vormmaat geeft een indruk in hoeverre de waarnemingsuitkomsten overeenkomen met een symmetrische
klokvormige verdeling.

Het is belangrijk om te weten op welke schaal de variabele is gemeten. Wanneer je de scores op nominale en
ordinale variabelen als codes hebt ingevoerd, rekent Excel zonder problemen alle centrum-, spreidings- en
vormmaten uit. De meeste van deze maten hebben dan echter geen enkele betekenis. Voor een nominale
variabele heeft slechts de modus betekenis, voor een ordinale variabele slechts de modus, de mediaan, het bereik
en de kwartielafstand. De andere centrum-, spreidings- en vormmaten zijn alleen zinvol voor kwantitatieve
variabelen (gemeten op interval of ratio niveau).

4.2 Karakteristieken bij losse waarnemingen

Wanneer je de beschikking hebt over de oorspronkelijke verzamelde gegevens, dan kun je de centrum-, spreidings
en vormmaten exact berekenen.
Het is meestal niet mogelijk om gegevens te verzamelen van alle elementen waarin men in geïnteresseerd is (de
populatie). Zo zou het veel tijd en geld kosten om alle ochtendspitsreizigers te ondervragen over hun mening over
de gratis ochtendbladen. Daarom heeft men “slechts” 300 ochtendspitsreizigers geënquêteerd (de steekproef).
Karakteristieken van de populatie worden meestal weergegeven met Griekse letters. Zo wordt het rekenkundig
gemiddelde van een populatie aangegeven met “µ”, de standaardafwijking van een populatie met “ σ” en het
gedeelte (percentage) van een populatie dat aan een bepaalde voorwaarde voldoet met “π”. De grootte van de
populatie wordt met de hoofdletter “N” weergegeven.
Karakteristieken van de steekproef worden meestal weergegeven met Latijnse letters. Zo wordt het rekenkundig
gemiddelde van een steekproef aangegeven met “ x ”, de standaardafwijking van een steekproef met “s” en het
gedeelte (percentage) van een steekproef dat aan een bepaalde voorwaarde voldoet met “p”. De grootte van de
steekproef wordt met de kleine letter “n” weergegeven.
Bij het berekenen van karakteristieken voor steekproeven zijn veel formules gelijk aan die van de karakteristieken
voor populaties. Slechts de notatie is dan verschillend.
Formules voor de standaardafwijking en de ervan afgeleide formules (variantie, variatiecoëfficiënt, scheefheid en
kurtosis) zijn wel verschillend voor populatie en steekproeven en kunnen zeker bij kleine steekproeven grote
verschillen opleveren.

88
4 Karakteristieken

4.2.1 Centrummaten

Een centrummaat geeft aan waar het gemiddelde van alle uitkomsten ligt. De centrummaat die je rechtstreeks uit
een tabel of grafiek kunt aflezen en voor alle variabelen geldt is de modus.
Modus is de meest voorkomende waarnemingsuitkomst.
In een frequentietabel is dat de waarnemingsuitkomst met de hoogste frequentie. Zo kun je in tabel 2.2 aflezen
dat het modale geslacht man is (223 mannen versus 77 vrouwen).
In een staaf- of kolomdiagram is het de waarde die behoort bij de langste staaf of de hoogste kolom. Zo kun je in
grafiek 3.1 aflezen dat het modale geslacht man is, want de kolom bij man is hoger dan de kolom bij vrouw.

Voor het bepalen van de mediaan moet het meetniveau van de variabele minimaal ordinaal zijn. De mediaan
wordt namelijk bepaald door de waarde van de middelste waarnemingsuitkomst, wanneer de uitkomsten eerst
gerangschikt zijn van laag naar hoog.
Neem als voorbeeld de reistijden van de eerste 7 respondenten van het bestand Fictie2000:
35, 29, 23, 32, 14, 104, 58.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
14, 23, 29, 32, 35, 58, 104.
De mediane reistijd is in dit geval 32. De reistijden van 3 respondenten ligt onder de 32 (de mediaan) en de
reistijden van 3 respondenten ligt boven de 32 (de mediaan).

Bij een even aantal getallen (scores) is er geen middelste waarneming. In dat geval neem je als mediaan het
(rekenkundig) gemiddelde van de twee middelste waarnemingsuitkomsten.
Neem als voorbeeld de reistijden van de eerste 8 respondenten van het bestand Fictie 2000:
35, 29, 23, 32, 14, 104, 58, 55.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
14, 23, 29, 32, 35, 55, 58, 104.
De mediane reistijd is in dit geval het gemiddelde van 32 en 35 dus 33,5 minuten. Een mediaan kan dus een
uitkomst zijn die niet echt voorkomt.

Het rekenkundig gemiddelde is de meest gebruikte centrummaat voor kwantitatieve gegevens, dat wil zeggen dat
de gegevens van de variabele op interval- of ratio-niveau zijn gemeten. Het rekenkundig gemiddelde reken je uit
door alle getallen op te tellen en te delen door het aantal getallen. Zo is het rekenkundig gemiddelde van de
‘Reistijd’ van de eerste 7 respondenten gelijk aan:
(35 + 29 + 23 + 32 + 14 + 104 + 58) / 7 = 295 / 7 = 42,1

4.2.2 Spreidingsmaten

Spreidingsmaten geven aan hoe ver de gegevens uit elkaar liggen. Voor nominale variabelen kun je geen
spreidingsmaten geven. Meet je op minimaal ordinaal niveau dan kun je bijvoorbeeld het bereik bepalen. Hierbij
benoem je het interval van de uitslagen.
Zo is het bereik van ‘Mening over Metro’ van de eerste 6 respondenten, die wel eens de “Metro” hebben gelezen,
gelijk aan van slecht tot zeer goed.
De scores zijn namelijk: goed, goed, redelijk, slecht, zeer goed, goed.
Op volgorde gezet: slecht, redelijk, goed, goed, goed, zeer goed.

Het bereik van ‘Reistijd’ van de eerste 7 respondenten is gelijk aan van 14 tot 104.
De scores zijn namelijk: 35, 29, 23, 32, 14, 104, 58.
Op volgorde gezet: 14, 23, 29, 32, 35, 58, 104.

Nauw verwant met het bereik is de spreidingsbreedte (range in het Engels). Voor de spreidingsbreedte neem je
het verschil tussen de hoogste en laagste waarneming.
De spreidingsbreedte van de ‘Reistijd’ van de eerste 7 respondenten is gelijk aan 90, want het maximum is 104 en
het minimum 14, dus is de spreidingsbreedte 104 – 14 = 90.

89
Statistiek met Excel 2016

Het bereik en de spreidingsbreedte zijn nogal gevoelig voor extremen, zowel naar boven als naar beneden. Zo zou
de spreidingsbreedte van inkomens gelijk kunnen zijn aan € 200 miljoen, wanneer er iemand is die geen inkomen
heeft en er iemand is die een inkomen heeft van € 200 miljoen.

Een spreidingsmaat die minder gevoelig is voor dit soort extremen is de interkwartiel afstand. Hierbij worden de
gerangschikte gegevens in 4 groepen van elk 25% ingedeeld.
Q1 = eerste kwartiel; 25% van de waarnemingen heeft een score kleiner of gelijk aan Q 1
Q2 = tweede kwartiel (mediaan); 50% van de waarnemingen heeft een score kleiner of gelijk aan Q 2
Q3 = derde kwartiel; 75% van de waarnemingen heeft een score kleiner of gelijk aan Q 3
Q4 = vierde kwartiel (maximum); 100% van de waarnemingen heeft een score kleiner of gelijk aan Q 4

De interkwartiel afstand is het verschil tussen Q 3 en Q1. De laagste en de hoogste 25% waarnemingen worden dan
buiten beschouwing gelaten.

Neem als voorbeeld de gegevens van de variabele ‘Reistijd’ van de eerste 11 respondenten:
35, 29, 23, 32, 14, 104, 58, 55, 44, 5, 36.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
5, 14, 23, 29, 32, 35, 36, 44, 55, 58, 104.
Q1 = 23, Q2 = 35, Q3 = 55, Q4 = 104
De interkwartiel afstand = 55 – 23 = 32.

De spreidingsmaten die in de statistische praktijk het meest gebruikt worden voor kwantitatieve variabelen zijn
toch wel de standaardafwijking en de variantie. Bij beide spreidingsmaten wordt het verschil tussen de waarden
en het rekenkundig gemiddelde gekwadrateerd en gedeeld door het aantal getallen 0.
Het verschil tussen de variantie en de standaardafwijking is dat bij de standaardafwijking de wortel getrokken
wordt uit de variantie. Je hebt dan een spreidingsmaat die in dezelfde eenheid van meting is berekend dan de
oorspronkelijke waarden. Bij statistische toetsen wordt vaker gebruik gemaakt van de variantie.

Neem als voorbeeld de gegevens van de variabele ‘Reistijd’ van de eerste 7 respondenten:
35, 29, 23, 32, 14, 104, 58
De gemiddelde reistijd is 42,1 minuut.

Variantie = ((35 – 42,1)2 + (29 – 42,1)2 + (23 – 42,1)2 + (32 – 42,1)2 + (14 – 42,1)2 + (104 – 42,1)2 + (58 – 42,1)2) / 6 =
= 927,1
Standaardafwijking = √ 927,1 = 30,4

De laatste spreidingsmaat die hier aan de orde komt is de variatiecoëfficiënt (V.C.). Deze spreidingsmaat wordt
vaak gebruikt om aan te geven dat een reeks waarnemingen met een hoog gemiddelde en een grote
standaardafwijking relatief gezien een kleinere mate van spreiding kan hebben dan een reeks waarnemingen met
een laag gemiddelde en een kleine standaardafwijking.
Zo zal de variatiecoëfficiënt van de inkomens van de Nederlandse bevolking in 2001 gemeten in guldens hetzelfde
zijn als die van de inkomens van de Nederlandse bevolking in 2001 gemeten in euro’s, terwijl de
standaardafwijking van de inkomens in guldens ongeveer 2,2 keer zo groot is dan de standaardafwijking van de
inkomens in euro’s.
De variatiecoëfficiënt wordt berekend door de standaardafwijking te delen door het rekenkundig gemiddelde en te
vermenigvuldigen met 100%.

De variatiecoëfficient van de reistijd van de eerste 7 respondenten is:


VC = (30,4 / 42,1) * 100% = 72,2%

0
Bij waarden van een populatie wordt gedeeld door het aantal getallen en bij waarden van een steekproef wordt gedeeld door het aantal
getallen - 1

90
4 Karakteristieken

Opmerkingen:
1. Hoe meer spreiding of hoe meer de gegevens van elkaar verschillen, des te groter is het bereik, de
spreidingsbreedte, de interkwartielafstand, de standaardafwijking, de variantie en de variatiecoëfficiënt;
2. Hoe homogener de gegevens zijn, des te kleiner is het bereik, de spreidingsbreedte, de interkwartielafstand,
de standaardafwijking, de variantie en de variatiecoëfficiënt;
3. Wanneer alle gegevens aan elkaar gelijk zijn (er zijn dan geen verschillen), zal het bereik, de spreidingsbreedte,
de interkwartielafstand, de standaardafwijking, de variantie en de variatiecoëfficiënt allen gelijk zijn aan 0;
4. Geen van de spreidingsmaten (het bereik, de spreidingsbreedte, de interkwartielafstand, de
standaardafwijking, de variantie en de variatiecoëfficiënt) kan ooit negatief zijn.

4.2.3 Vormmaten

Bij de vorm wordt in eerste instantie gekeken naar de symmetrie. Een verdeling van gegevens wordt symmetrisch
genoemd als de verdeling aan beide zijden van de mediaan dezelfde vorm heeft. In een symmetrische verdeling is
het rekenkundig gemiddelde gelijk aan de mediaan. Heeft de verdeling slechts één top, dan is ook de modus gelijk
aan de mediaan en aan het rekenkundig gemiddelde.
Dus voor een ééntoppige symmetrische verdeling geldt:
Modus = Mediaan = Rekenkundig gemiddelde

Grafische voorbeelden van symmetrische verdelingen:

Figuur 4.1: Eéntoppige symmetrische verdeling Figuur 4.2: Uniforme of rechthoekige verdeling

Wanneer de vorm van de verdeling aan beide zijden van de mediaan van elkaar afwijkt dan wordt de verdeling
asymmetrisch of scheef genoemd.
De vormmaat voor de symmetrie is de scheefheid.

Bij de interpretatie van de scheefheid kun je drie gevallen onderscheiden:


1. Scheefheid = 0. In dit geval is sprake van een symmetrische verdeling, waarbij de mediaan gelijk is aan het
rekenkundig gemiddelde.
2. Scheefheid > 0. Deze verdeling wordt positief scheef of rechtsscheef genoemd. De top (kop) ligt links van het
midden en de verdeling heeft een lang uiteinde (staart) naar rechts. Bijna altijd geldt dan: Modus < Mediaan <
Rekenkundig gemiddelde.
3. Scheefheid < 0. Deze verdeling wordt negatief scheef of linksscheef genoemd. De top (kop) ligt rechts van het
midden en de verdeling heeft een lang uiteinde (staart) naar links. Bijna altijd geldt dan: Rekenkundig
gemiddelde < Mediaan < Modus.

Grafische voorbeelden van scheve verdelingen:

Figuur 4.3: Negatief linksscheve verdeling` Figuur 4.4: Positief rechtsscheve verdeling

91
Statistiek met Excel 2016

Een andere manier om de vorm van een verdeling weer te geven is de kurtosis. Deze vorm geeft aan hoe plat of
hoe spits een verdeling is. De kurtosis van een verdeling wordt vergeleken met een normale verdeling (zie
hoofdstuk 7), die mesokurtisch genoemd wordt en waarvan de kurtosis gelijk is aan 0 0. Is een verdeling platter dan
een normale verdeling, dan wordt deze verdeling platykurtisch genoemd en is de kurtosis kleiner dan 0. Een
verdeling die spitser is dan een normale verdeling heet leptokurtisch en de kurtosis is dan groter dan 0.

Mesokurtisch
Leptokurtisch
Platykurtisch

Figuur 4.5: Grafische voorbeelden van leptokurtische, mesokurtische en platykurtische verdelingen

4.3 Karakteristieken bij losse waarnemingen met Excel

Het minimum, maximum, de kwartielen en het rekenkundig gemiddelde kun je bepalen met een box en
whiskerdiagram (Zie hoofdstuk 3.3.6). Maar daarnaast heeft Excel net zoals bij een rekenmachine ingebouwde
functies voor het berekenen van karakteristieken. Je hoeft dus niet de formules voor de verschillende
karakteristieken te gebruiken om deze te bepalen. Naast de ingebouwde functies beschikt Excel ook nog over een
ingebouwd programma (Analyses Toolpack -> Gegevensanalyse) en een mogelijkheid bij Draaitabellen om de
belangrijkste karakteristieken te laten bepalen. In deze syllabus wordt op deze mogelijkheden verder niet
ingegaan.

Voor het berekenen van centrum- en/of spreidingsmaten 0 kun je de volgende functies in Excel gebruiken:
GEMIDDELDE(bereik) : Berekent het rekenkundig gemiddelde van de waarden van het bereik
MEDIAAN(bereik) : Berekent de mediaan van de waarden van het bereik
MODUS.ENKELV(bereik) : Berekent de modus van de waarden van het bereik
KWARTIEL.INC(bereik;k) : Berekent het k-de kwartiel
PERCENTIEL.INC(bereik;k) : Berekent het k-de percentiel
MIN(bereik) : Berekent de laagste waarde van de waarden van het bereik
MAX(bereik) : Berekent de hoogste waarde van de waarden van het bereik

Voor het berekenen van spreidingsmaten:


STDEV.S(bereik) : Maakt een schatting van de standaardafwijking op basis van een steekproef
STDEV.P(bereik) : Berekent de standaardafwijking van de waarden van het bereik van de
populatie
VAR.S(bereik) : Maakt een schatting van de variantie op basis van een steekproef
VAR.P(bereik) : Berekent de variantie van de waarden van het bereik van de populatie

Voor het berekenen van vormmaten:


SCHEEFHEID(bereik) : Maakt een schatting van de scheefheid op basis van een steekproef
SCHEEFHEID.P(bereik) : Maakt een schatting van de scheefheid op basis van de populatie
KURTOSIS(bereik) : Maakt een schatting van de kurtosis (welving) op basis van een steekproef
KURTOSIS.P(bereik) : Maakt een schatting van de kurtosis (welving) op basis van de populatie
02
Een verdeling kan een kurtosis van 0 hebben, terwijl de verdeling totaal niet lijkt op een normale verdeling. Om de kurtosis goed te kunnen
interpreteren is het maken van een grafiek van de verdeling onontbeerlijk.
0
Er zijn meer statistische functies voor het berekenen van gemiddelden, zoals HARM.GEM (voor het berekenen van het harmonische
gemiddelde), GETRIMD.GEM (voor het berekenen van het rekenkundig gemiddelde, waarbij een bepaald percentage extremen buiten
beschouwing wordt gelaten) en MEETK.GEM (voor het berekenen van het meetkundig gemiddelde).

92
4 Karakteristieken

Door gebruik te maken van het Excelbestand “Karakteristieken” (tabblad ‘losse waarden’) hoef je niet de
verschillende formules uit Excel te gebruiken, want die staan al in dit bestand. Door de verschillende waarden in de
gele cellen onder ‘Gegevens’ in te voeren worden alle centrum-, spreidings- en vormmaten voor je uitgerekend.

Figuur 4.6: Tabblad ‘losse waarden’ van het Excelbestand “Karakteristieken”

Wanneer je de karakteristieken wilt bepalen van bijvoorbeeld de variabele ‘Leeftijd’ van het bestand “Fictie2000”
dan kun je dit doen door alle leeftijden uit dit bestand te kopiëren (C2:C301) en deze te plakken vanaf cel B8 van
het Excelbestand “Karakteristieken”. Dit levert het volgende resultaat op.

Figuur 4.7: Karakteristieken van de variabele ‘Leefijd’

Omdat niet alle ochtendspitsreizigers (populatie) geënquêteerd zijn, maar slechts 300 reizigers (steekproef) kun je
de antwoorden voor de spreidings- en vormmaten aflezen onder het kopje Steekproef.

Ook is het mogelijk om dit bestand te gebruiken voor het bepalen van waarden die bij verschillende percentielen
behoren, of van een waarde het erbij behorende percentiel te laten uitrekenen: 10% is jonger dan 19 jaar en 60%
is jonger dan 35 jaar. Bij een leeftijd van 20 jaar hoort een percentiel van 15% en bij een leeftijd van 50 jaar een
percentiel van 88%.

93
Statistiek met Excel 2016

Om wat meer zicht op de centrum-, spreidings- en vormmaten te krijgen is het handig om een grafiek (histogram)
van bovenstaande gegevens van de variabele ‘Leeftijd’ te maken.

Grafiek 4.1: Verdeling van leeftijden van 300 respondenten

25
Aantal per jaar

20

15

10

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65

Leeftijd
Bron: Fictie2000

Modus Mediaan Rekenkundig gemiddelde

Figuur 4.8: Histogram van de variabele ‘Leeftijd’ met centrummaten

Opmerkingen:

1. In de grafiek is sprake van bimodaliteit. Zowel de score van 19 jaar als van 21 jaar komt het vaakste voor. Via
de Excelfunctie MODUS.ENKELV0 wordt hooguit één modus gegeven, die van 21 jaar, omdat deze score het
eerst in de lijst staat;
2. In de grafiek is duidelijk sprake van een rechtsscheve verdeling. Dit komt overeen met de berekende
scheefheid, die positief (0,56) is. Ook de ligging van de centrummaten:
Modus < Mediaan < Rekenkundig gemiddelde duidt op een rechtsscheve verdeling;
3. In de grafiek is duidelijk sprake van een platykurtische (platte) verdeling. Dit komt overeen met de berekende
kurtosis, die negatief (-0,63) is.

Voor nominale waarden kun je de modus en het bereik via Excel bepalen, door de “woorden” te vervangen door
getallen (codes) en de uitkomst, een getal, weer te vertalen in het bijbehorende woord. Voor ordinale waarden
kun je op deze manier ook de mediaan bepalen. Pas op dat wanneer je bij nominale en/of ordinale variabelen de
“woorden” vervangen hebt door “getallen” je geen bewerkingen uit laat voeren die gezien het meetniveau van de
variabele niet toegestaan zijn (bijvoorbeeld een rekenkundig gemiddelde voor een ordinale variabele).

Mocht je de karakteristieken willen bepalen van een gedeelte van de respondenten, bijvoorbeeld de gemiddelde
leeftijd van alleen de mannelijke respondenten, zet dan het filter aan op je blad met gegevens (Data). Ga hiervoor
in het lint bij Start naar de groep van bewerken en klik op Sorteren en filteren. Vervolgens klik je op Filter.

0
Excel kent ook de functie MODUS.MEERV voor het bepalen van modi (wanneer er meer dan één modus is). Je moet dan meerdere cellen
gelijktijdig kiezen om deze functie te gebruiken met behulp van een matrix formule.

94
4 Karakteristieken

Figuur 4.9: Het selecteren van Filter voor je databestand

Bij de variabelen in de eerste rij zie je nu een pijltje staan. Door hier op te klikken kun je de waarde selecteren die
je wilt filteren.

Figuur 4.10: De variabelen voorzien van filters

Om bijvoorbeeld karakteristieken van alleen de gegevens van de “mannen” te bepalen, klik je nu op het
selectieknop achter de variabel ‘Geslacht’ in cel B1 en schakel je het vinkje voor 2 (“vrouwen”) uit. De tabel bevat
na het klikken op OK nu alleen de gegevens van de “mannen”. Selecteer nu de gegevens van de variabele ‘Leeftijd’
en kopieer deze naar het bestand “Karakteristieken”.
Vergeet niet om in je tabel met gegevens het filter weer uit te zetten wanneer je weer iets wilt berekenen voor alle
respondenten. Klik daarvoor op het filter in cel B1 en vink (Alles selecteren) aan en klik op OK.

95
Statistiek met Excel 2016

Figuur 4.11: Het bestand filteren op “mannen”

Figuur 4.12: Karakteristieken van de variabele ‘Leefijd’ van de mannelijke respondenten


4.3.1

96
4 Karakteristieken

4.4 Karakteristieken bij frequentieverdelingen met klassenindeling

Vaak heb je bij deskresearch niet de beschikking over de losse waarnemingsuitkomsten van een onderzoek, maar
wel over een frequentieverdeling van de waarnemingsuitkomsten. Als je dan centrum- en/of spreidingsmaten wilt
berekenen (eigenlijk schatten), dan ga je ervan uit dat de waarden in een klasse evenredig over die klasse verdeeld
zijn en dat de klassen gerepresenteerd kunnen worden door hun klassenmiddens.
De berekeningen die je uit moet voeren zijn nagenoeg gelijk aan die van de vorige paragrafen. Voor het berekenen
van de mediaan en de kwartielen moet je kunnen interpoleren.
Als voorbeeld wordt gebruik gemaakt van de zelfgemaakte frequentieverdeling en relatieve cumulatieve
frequentieverdeling van de leeftijden van het bestand “Fictie2000” uit hoofdstuk 2. Deze tabellen zijn hieronder
nog eens weergegeven.

Leeftijd Aantal Leeftijd Cumulatief aantal


10-14 5 < 15 5
15-19 40 < 20 45
20-24 54 < 25 99
25-29 49 < 30 148
30-34 27 < 35 175
35-39 35 < 40 210
40-44 32 < 45 242
45-49 23 < 50 265
50-54 16 < 55 281
55-59 12 < 60 293
60-64 7 < 65 300
Eindtotaal 300

Figuur 4.13: Frequentieverdeling en cumulatieve verdeling van de variabele ‘Leeftijd”

4.4.1 Centrummaten bij frequentieverdelingen

De modus is eenvoudig te schatten. De modale klasse is de klasse met de hoogste frequentiedichtheid


(= frequentie / klassenbreedte) en de modus is het midden van de modale klasse.
In het voorbeeld kom je de hoogste frequentiedichtheid tegen in de klasse 20 - 24 (54 per 5 jaar) dus de modale
klasse is 20 - 24 en de modus is dan 22,5 jaar.
In het voorbeeld hebben alle klassen dezelfde breedte, namelijk 5. Als niet alle klassenbreedtes hetzelfde zijn,
moet je de frequentiedichtheid (= frequentie / klassenbreedte) eerst berekenen voordat je de modale klasse kunt
bepalen. Zie onderstaande tabel.

Tabel 4.1: Leeftijden van respondenten ingedeeld in klassen

Leeftijd Aantal Frequentiedichtheid (= aantal per 5 jaar)


10 - < 20 45 = 45 / 2 = 22.5
20 - < 25 54 = 54 / 1 = 54
25 - < 30 49 = 49 / 1 = 49
30 - < 40 62 = 62 / 2 = 31
40 - < 65 90 = 90 / 5 = 18
Totaal 300

Bron: Fictie2000

97
Statistiek met Excel 2016

De kleinste klassenbreedte is 5 jaar. Wanneer je dit als standaardklassenbreedte neemt voor het berekenen van de
frequentiedichtheid, dan krijg je voor de klasse 10 - < 20 jaar, dat deze klasse twee keer zo breed is als de
standaardklassenbreedte (2 * 5 jaar = 10 jaar). De frequentie moet je dan delen door 2 om de frequentiedichtheid
te krijgen. Dus frequentiedichtheid = 45 / 2 = 22.5.
Kijkend naar de hoogste frequentiedichtheid dan is de modale klasse 20 - < 25 en is de modus gelijk aan het
klassenmidden van deze klasse, dus 22,5 jaar.

Voor het schatten van de mediaan van de variabele ‘Leeftijd’ kun je gebruik maken van de cumulatieve
procentuele frequentieverdeling.
De mediaan ligt bij 50% dus ergens tussen de 30 jaar (49,33%) en de 35 jaar (58,33%). Via interpoleren kun je de
mediaan schatten met behulp van de volgende formule:

50%−CV
mediaan=LM+ *KM
CM−CV

LM: ondergrens (linkergrens) van de klasse waar de mediaan invalt;


CV: cumulatief percentage van de klasse voorafgaand waar de mediaan invalt;
CM: cumulatief percentage van de klasse waar de mediaan invalt;
KM: klassenbreedte van de klasse waar de mediaan invalt.

Toegepast op de variabele ‘Leeftijd’:

50%−49,33%
mediaan=30+ *5=30,37
58,33%−49,33%
Omdat een klasse gerepresenteerd wordt door haar klassenmidden wordt het rekenkundig gemiddelde berekend
door de klassenmiddens te vermenigvuldigen met de frequentie (aantal) van de klasse, vervolgens deze bij elkaar
op te tellen en te delen door de totale frequentie.

Het rekenkundig gemidelde van de variabele ‘Leeftijd’ in klassen (zie Figuur 4.9):

5*12,5+40*17,5+ 54*22,5+ 49*27,5+27*32,5+35*37,5+32*42,5+23*47,5+ 16*52,5+ 12*57,5+ 7*62,5


x= =33,12
300

4.4.2 Spreidingsmaten bij frequentieverdelingen

Het bereik (range) is net zoals bij losse waarnemingen gedefinieerd als het verschil tussen het maximum en het
minimum, waarbij het maximum gelijk is aan de bovengrens (rechtergrens) van de laatste klasse en het minimum
gelijk is aan de ondergrens (linkergrens) van de eerste klasse.
Toegepast op de variabele ‘Leeftijd’:

Maximum = 65
Minimum = 10
Bereik = 55

Ook de interkwartielafstand is net zoals bij losse waarnemingen gedefinieerd als het verschil tussen de waarde van
het derde kwartiel en de waarde van het eerste kwartiel. Het berekenen (schatten) van het eerste kwartiel (de
waarde waaronder 25% van de waarnemingen ligt) en het derde kwartiel (de waarde waaronder 75% van de
waarnemingen ligt) gebeurt met eenzelfde formule als voor de mediaan.

25%−CV 75%−CV
Q1=LQ 1 + ∗KQ1 Q3=LQ 3 + ∗KQ 3
CQ 1−CV CQ 3−CV
waarbij:
LQ1: ondergrens (linkergrens) van de klasse waar het eerste kwartiel invalt;
LQ3: ondergrens (linkergrens) van de klasse waar het derde kwartiel invalt;
CV: cumulatief percentage van de klasse voorafgaand waar het eerste kwartiel (derde kwartiel) invalt;
CQ1: cumulatief percentage van de klasse waar het eerste kwartiel invalt;
CQ3: cumulatief percentage van de klasse waar het derde kwartiel invalt;

98
4 Karakteristieken

KQ1: klassenbreedte van de klasse waar het eerste kwartiel invalt;


KQ3: klassenbreedte van de klasse waar het derde kwartiel invalt.

Toegepast op de variabele ‘Leeftijd’:

Het eerste kwartiel valt in de klasse 20 - 24:

25%−15%
Q 1 =20+ *5=22,78
33%−15%
Het derde kwartiel valt in de klasse 40 – 44:

75%−70%
Q3 =40+ *5=42,34
80,67%−70%
Ten slotte nog de twee belangrijkste spreidingsmaten: de variantie en de standaaardafwijking.
Net zoals bij het gemiddelde wordt een klasse gerepresenteerd door zijn klassenmidden. Voor de variantie trek je
van de klassenmidden het rekenkundig gemiddelde af, kwadrateer dit verschil en vermenigvuldig de uitkomst met
de frequentie van die klassen. Tel ten slotte al deze gewogen gekwadrateerde verschillen bij elkaar op en deel door
de totale frequentie0.
De standaardafwijking is vervolgens gelijk aan de wortel uit de variantie.

De variantie berekend uit de gegevens van tabel 4.1 met betrekking tot de variabele ‘Leeftijd’:

2 2 2 2 2
2 45 *(15−33,78) +54 *(22,5−33,78) +49 *(27,5−33,78) +62 *(35−33,78) +90 *(52,5−33,78)
s =300 -1 =188,31
en de steekproefvariantie (s) is dan gelijk aan:

s= √188,31=13,72
4.5 Karakteristieken bij frequentieverdelingen met klassenindeling met Excel

Helaas kent Excel geen functies voor het berekenen van karakteristieken van frequentieverdelingen met
klassenindeling die je direct kunt toepassen, zoals je die bij de losse waarnemingen hebt gebruikt. Je moet dan
gebruik maken van formules.
Het Excelbestand “Karakteristieken” (tabblad ‘klassen’) kun je in het vervolg gebruiken om de verschillende
karakteristieken te bepalen voor je gegroepeerde gegevens. Je hoeft dan niet zelf elke keer de formules in een
Excelblad in te voeren. De bovengrens van een groep behoort niet tot deze groep en is gelijk aan de ondergrens
van de volgende groep. Bijvoorbeeld voor het invoeren van de gegevens van figuur 4.9 typ je voor de eerste groep
als ondergrens 10 in en als bovengrens 15 (en geen 14).

Wanneer je de gegevens van de variabele ´Leeftijd´ ingedeeld in klassen (zie figuur 4.13) invult op het tabblad
klassen, in het Excelbestand Karakteristieken, krijg je de volgende resultaten.

0
Voor een steekproef wordt van de totale frequentie 1 afgetrokken waardoor gedeeld wordt.

99
Statistiek met Excel 2016

Figuur 4.14: Karakteristieken van de variabele ‘Leeftijd’

Wanneer je deze uitkomsten vergelijkt met de karakteristieken van de losse waarden van de variabele ‘Leeftijd’
(zie figuur 4.7) dan zie je kleine verschillen. De veronderstelling die je maakt voor de schatting van de
karakteristieken op basis van de indeling in groepen (waarnemingen binnen een groep worden vertegenwoordigd
door het klassenmidden) klopt dus aardig.

100
4 Karakteristieken

4.6 Opgaven

De opgaven 1 tot en met 8 hebben betrekking op het bestand “Fictie2000”.

1. Bepaal de centrummaten (rekenkundig gemiddelde en mediaan), de spreidingsmaten (standaardafwijking en


interkwartielafstand) en de vormmaten (scheefheid en kurtosis) van de gegevens van de 300 respondenten
met betrekking tot de variabele ‘Inkomen’. Welk percentiel hoort bij een inkomen van 10 (* € 100)? Wat is het
inkomen dat bij het 60ste percentiel hoort?

2. Bepaal de modus en mediaan van de gegevens van de respondenten die wel eens de “Spits” lezen met
betrekking tot de variabele ‘Mening Spits’.

3. Bepaal de centrummaten (rekenkundig gemiddelde, mediaan en modus), de spreidingsmaten


(standaardafwijking en interkwartielafstand) en de vormmaten (scheefheid en kurtosis) van de gegevens van
de 300 respondenten met betrekking tot de variabele ‘Reistijd’ opgesplitst naar de variabele ‘Geslacht’.

4. Bepaal de modus van de gegevens van de 300 respondenten met betrekking tot de variabele ‘Dagblad’.

5. Bepaal de centrummaten (rekenkundig gemiddelde, mediaan en modus), de spreidingsmaten


(standaardafwijking, variantie en kwartielafstand) en de vormmaten (scheefheid en kurtosis) van de gegevens
van de 300 respondenten met betrekking tot de variabele ‘Reisdagen per trein per week’ opgesplitst naar de
variabele ‘Geslacht’. Welk percentiel hoort bij 3 reisdagen? Hoeveel dagen horen bij het 30 ste percentiel?

6. Van de variabele ‘Reistijd’ is de volgende tabel samengesteld:

Reistijd per trein (in minuten) Aantal


0 -< 20 68
20 -< 30 56
30 -< 40 57
40 -< 50 25
50 -< 60 45
60 -< 100 38
100 -< 150 11
Eindtotaal 300

Bron: Fictie2000

Bepaal de centrummaten (rekenkundig gemiddelde, mediaan en modus), de spreidingsmaten


(standaardafwijking, variantie en kwartielafstand) en de vormmaten (scheefheid en kurtosis) van de gegevens
van de 300 respondenten met betrekking tot de variabele ‘Reistijd’ aan de hand van de gegevens van
bovenstaande tabel.

101
Statistiek met Excel 2016

7. Van de variabele ‘Inkomen’ is de volgende tabel samengesteld:

Inkomen (* € 100) Aantal


0 -< 5 51
5 -< 10 32
10 -< 15 69
15 -< 20 85
20 -< 25 42
25 -< 30 17
30 -< 40 4
Eindtotaal 300

Bron: Fictie2000

Bepaal de centrummaten (rekenkundig gemiddelde, mediaan en modus), de spreidingsmaten


(spreidingsbreedte, standaardafwijking en kwartielafstand) en de vormmaten (scheefheid en kurtosis) van de
gegevens van de 300 respondenten met betrekking tot de variabele ‘Inkomen’ aan de hand van de gegevens
van bovenstaande tabel.

8. Van de variabele ‘Inkomen’ opgesplitst naar de variabele ‘Geslacht’ is de volgende tabel samengesteld:

Inkomen (* € 100) man vrouw Eindtotaal


0 -< 5 38 13 51
5 -< 10 16 16 32
10 -< 15 45 24 69
15 -< 20 67 18 85
20 -< 25 36 6 42
25 -< 40 21 - 21
Eindtotaal 223 77 300

Bron: Fictie2000

Bepaal de centrummaten (rekenkundig gemiddelde, mediaan en modus) en de spreidingsmaten


(spreidingsbreedte en standaardafwijking) van de gegevens van de 300 respondenten uitgesplitst naar
‘Geslacht’ met betrekking tot de variabele ‘Inkomen’ aan de hand van de gegevens van bovenstaande tabel.

102
5 Kansen en kansverdelingen

5 Kansen en kansverdelingen

5.1 Inleiding

In de voorgaande drie hoofdstukken heb je tabellen en grafieken gemaakt en karakteristieken berekend om de


groep van 300 geënquêteerde personen (de steekproef) te beschrijven. Zo bleek in hoofdstuk 2 onder andere dat
bij de steekproef:

77 van de 300 (25,7%) ochtendspitsreizigers vrouw is;


“Metro” door meer ochtendspitsreizigers (163) wel eens gelezen wordt dan “Spits” (150).

Eigenlijk ben je als onderzoeker en zeker als opdrachtgever niet direct geïnteresseerd in wat de uitkomsten van je
steekproef zijn, maar veel meer in wat deze uitkomsten betekenen voor je doelgroep van alle ochtendspitsreizigers
(de populatie). Mag je bijvoorbeeld uit je steekproef concluderen dat “Metro” door meer ochtendspitsreizigers
wordt gelezen dan “Spits”, of kan door het toeval de groep van “Metro” lezers in je steekproef
oververtegenwoordigd zijn?
Het toeval bij een aselecte steekproef valt helaas niet te bestrijden, maar de rol ervan kan wel in beeld gebracht
worden met behulp van de statistiek. Enige kennis omtrent kansrekening is dan van belang.

Kans is de mogelijkheid dat een bepaalde gebeurtenis plaats vindt.


De kans dat je een bepaalde trein nog haalt is een subjectieve kans en zal door verschillende personen vaak ook
verschillend ingeschat worden. Jij kunt bijvoorbeeld het idee hebben dat je die trein niet meer zult halen, terwijl je
vriend bijna zeker weet dat je die trein nog wel haalt. Zo kan de ontwerper van een nieuw product denken dat dit
product een groot succes wordt terwijl de marketing directeur hier heel anders over denkt. De grote van een
subjectieve kans is dus afhankelijk van de persoon die erover moet beoordelen. Dit soort kansen worden in dit
hoofdstuk verder niet behandeld.
Wanneer je weet dat de helft van de ochtendspitsreizigers de “Spits” leest dan kun je van te voren, ook wel a priori
genoemd berekenen hoe groot de kans is dat een willekeurig gekozen ochtendspitsreiziger de “Spits” leest,
namelijk 50%. De grote van een a priori kans is onafhankelijk van de persoon die deze kans berekent. Iedereen zal
in het voorgaande voorbeeld uitkomen op 50%.
Wanneer je niet weet hoeveel ochtendspitsreizigers de “Spits” lezen dan kun je ook niet van te voren berekenen
hoe groot de kans is dat een willekeurig gekozen ochtendspitsreiziger de “Spits” leest. Een dergelijke kans zal je via
een onderzoek wel kunnen bepalen. Vraag bijvoorbeeld aan een groep (steekproef) van 300 ochtendspitsreizigers
wie de “Spits” leest. Wanneer van deze groep 150 de “Spits” lezen, dan is de empirische (proefondervindelijke)
kans gelijk aan 150/300 = 0.5 oftewel 50%.

In het dagelijks leven wordt het woord kans vaak gebruikt als een ander woord voor mogelijkheid, bijvoorbeeld de
N.S.-directie krijgt van de overheid nog een kans om er voor te zorgen dat binnen een half jaar minimaal 80% van
de treinen op tijd rijdt. In dit geval is sprake van kwalitatief kansgebruik, dat wil zeggen deze kans is niet in een
getal te meten.

In dit hoofdstuk ga je kwantitatieve kansen berekenen. Deze kansen kun je op twee manieren in een getal
weergeven:

1. Als een fractie, een getal tussen 0 en 1;


2. Als een percentage, een getal tussen 0% en 100%.

De uitkomsten 0 (=0%) en 1 (=100%) zijn bij het berekenen van kansen mogelijk. 0 wil zeggen dat het onmogelijk is
dat de gebeurtenis plaats vindt en 1 wil zeggen dat het zeker is dat de gebeurtenis plaats vindt.

103
Statistiek met Excel 2016

5.2 Het berekenen van kansen

Het gaat in dit hoofdstuk om het berekenen van kwantitatieve kansen.


Hiervoor wordt de regel van Laplace gebruikt: “De kans is het aantal gunstige uitkomsten gedeeld door het totaal
aantal uitkomsten, waarbij verondersteld wordt dat alle uitkomsten even waarschijnlijk zijn”.

Wanneer je willekeurig één van de respondenten uitkiest die aan het onderzoek meegewerkt hebben, dan is de
kans dat deze willekeurig gekozen respondent een man is gelijk aan 223/300 = 0,743. Er zijn namelijk in 300
respondenten (totaal), waarvan er 223 man zijn (gunstig).

De regel van Laplace wordt vaak misbruikt. Zo wordt door sommige mensen wel eens beweerd dat je 50% kans
hebt dat een willekeurige trein vertraging heeft, want je hebt twee mogelijkheden: “De trein heeft vertraging of de
trein heeft geen vertraging”. De regel wordt dan toegepast zonder dat aan de voorwaarde “Als alle uitkomsten
even waarschijnlijk zijn” wordt voldaan.

Het is dus van belang om het aantal gunstige uitkomsten en het totaal aantal uitkomsten te weten en of deze
uitkomsten allemaal even waarschijnlijk zijn.

5.3 Kansen via draaitabellen

Via draaitabellen kun je gemakkelijk, door de aantallen uit te drukken in percentages van kolommen, rijen of van
het totaal, kansen laten berekenen.

Neem het bestand “Fictie2000” van de 300 respondenten. Je wilt weten hoe groot de kans is dat een aselect
(willekeurig) gekozen persoon uit dit bestand 5 dagen per week met de trein reist.

Werkwijze:

1. Open het bestand “Fictie2000” en hierin het werkblad Data.


2. Klik op het tabblad van Invoegen en vervolgens op Draaitabel.

Figuur 5.1: Openen van het dialoogvenster voor het maken van een draaitabel

3. Voor het bereik van de draaitabel wordt automatisch alle gegevens van het werkblad Data geselecteerd. Voor
het maken van de draaitabel van de variabele ‘Reisdagen’ zou je kunnen volstaan met de selectie van de cellen
E1:E301, maar het is handig om alle gegevens te selecteren en straks bij de draaitabel aan te geven welke
gegevens je in de draaitabel wilt laten weergeven. Laat de draaitabel op een Nieuw werkblad maken.

104
5 Kansen en kansverdelingen

Figuur 5.2: Seecteren van het bereik voor de draaitabel en de locatie van de draaitabel

4. Op een nieuw werkblad wordt een lege draaitabel gemaakt en Draaitabelvelden geopend (de verschillende
variabelen die in het werkblad van Data in de eerste rij staan (A1:L1). Sleep de variabele ‘Reisdagen’ naar het
gebied van Rijen en sleep nogmaals deze variabele naar het gebied van ∑ Waarden. In dit gebied klik je nu op
Som van Reisdagen en vervolgens op Waardeveldinstellingen in het afrolmenu

Figuur 5.3: Openen van het dialoogvenster voor het instellen van de waarden in de tabel

105
Statistiek met Excel 2016

5. Verander Som in Aantal en klik daarna op het tabblad Waarden weergeven als.

Figuur 5.4: Veranderen van Som naar Aantal en openen van het dialoogvenster weergave van waarden

6. Klik op het pijltje naast Geen berekening en klik vervolgens in het afrolmenu op % van eindtotaal. Klik daarna
op OK.

Figuur 5.5: Veranderen van de waarden van Aantal in % van totaal

De tabel moet er nu als volgt uit zien.

Figuur 5.6: Draaitabel van de variabele ‘Reisdagen’ weergegeven als percentage van totaal

Dus je hebt 54% kans dat een aselect gekozen persoon uit de groep van 300 respondenten 5 dagen per week per
trein reist.

106
5 Kansen en kansverdelingen

Wanneer je de kruistabel aanpast door er een kruistabel van te maken met de variabele ´Geslacht´ in de
kolomkoppen krijg je de volgende tabel.

Figuur 5.7: Draaitabel van de variabele ‘Reisdagen’ per ‘Geslacht’

De percentages in de tabel zijn percentages van het eindtotaal. Dus 9,67% van alle respondenten is een vrouw die
op 4 dagen per week met de trein reist.
In plaats van percentages van het eindtotaal, zou je ook percentages van het kolomtotaal kunnen weergeven.
Zie daarvoor de volgende tabel.

Figuur 5.8: Draaitabel van de variabele ‘Reisdagen’ als percentage van het ‘Geslacht’

Het totaal (100%) is nu of man of vrouw. Dus bijvoorbeeld 8,52% van de mannen reist op 3 dagen, of 3,9% van de
vrouwen reist op 2 dagen. Wat opvalt is dat de percentages per aantal reisdagen voor de mannen niet hetzelfde is
als voor de vrouwen. Het aantal reisdagen is dus afhankelijk van het geslacht.
Wanneer je de aantallen weergeeft als percentages van het rijtotaal, dan krijg je de volgende tabel.

Figuur 5.9: Draaitabel van de variabele ‘Reisdagen’ als percentage van ‘Reisdagen’

Het totaal is 1, 2, 3, 4 of 5 reisdagen. Dus bijvoorbeeld 82,1% van de respondenten die op 5 dagen per trein reist is
man, of 31,87% van de respondenten die op 4 dagen per trein reist is vrouw.

Samenvattend:
1. Voor het berekenen van een kans op gebeurtenis 1 en op een gebeurtenis 2:
Neem bij de kruistabel % van eindtotaal;
2. Voor het berekenen van een kans op gebeurtenis 1 (weergegeven bij Rijen) onder voorwaarde dat
gebeurtenis 2 (weergegeven bij Kolommen) plaats gevonden heeft:
Neem bij de kruistabel % van kolomtotaal;

107
Statistiek met Excel 2016

3. Voor het berekenen van een kans op gebeurtenis 2 (weergegeven bij Rijen) onder voorwaarde dat
gebeurtenis 1 (weergegeven bij Kolommen) plaats gevonden heeft:
Neem bij de kruistabel % van rijtotaal.

Ten slotte nog een laatste voorbeeld om nog wat mogelijkheden met draaitabellen te bekijken.
Hoe groot is de kans dat een willekeurig gekozen persoon uit de groep van respondenten, die de “Metro” wel
eens leest, een vrouw is die de “Metro” goed of zeer goed vindt?
Je zou dit kunnen uitzoeken met behulp van Rapportfilter.

Werkwijze:
1. Voeg een nieuwe draaitabel in.
2. Sleep de variabele ‘Geslacht’ naar het gebied van Kolommen (verander daar de codes “1” in “Man” en “2” in
“Vrouw”), de variabele ‘Mening Metro’ naar het gebied van Rijen (verander daar ook de codes “0” in “Geen
mening”, “1” in “Zeer slecht”, “2” in “Slecht”, “3” in “Redelijk”, “4” in “Goed” en “5” in “Zeer goed”) en
nogmaals de variabele ‘Mening Metro’ (mag ook de variabel “Geslacht’) naar het gebied van ∑ Waarden.
Verander de weergave van Som in Aantal en verander de weergave van Geen berekening in % van eindtotaal.
3. Sleep ten slotte de variabele ‘Metro’ naar het gebied van Filters.
Je Excelblad ziet er dan als volgt uit.

Figuur 5.10: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ met filter voor ‘Metro’

4. Momenteel zie je in de tabel de uitkomst van alle respondenten en niet alleen die de “Metro” wel eens
gelezen heeft. Boven de tabel zie je de variabele ‘Metro’ staan en wanneer je op het pijltje achter (Alle) klikt
kun je de waarden voor de variabele ‘Metro’ selecteren die je wilt weergeven. “1” is de code voor de groep
die de “Metro” wel eens gelezen heeft dus klik op “1” en vervolgens op OK.

Figuur 5.11: Filteren van de draaitabel voor de groep die de “Metro” wel eens gelezen heeft

108
5 Kansen en kansverdelingen

Je tabel ziet er dan als volgt uit.

Figuur 5.12: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ voor de groep van Metrolezers (code 1)

5. Ten slotte zou je nog de groepen van “Goed” en “Zeer goed” kunnen samenvoegen. Selecteer de cellen A8 en
A9 en klik op Groepselectie in de groep Groeperen van het tabblad Analyseren.

Figuur 5.13: Groeperen van de waarden “Goed” en “Zeer goed”

Je Excelblad ziet er als volgt uit.

Figuur 5.14: Tabel met de gegroepeerde (‘Mening Metro2’) en ongegroepeerde waarden (‘Mening Metro’)

109
Statistiek met Excel 2016

6. Deze tabel ziet er niet overzichtelijk uit. De Rijlabels bevatten zowel de gegroepeerde labels met totalen als de
ongegroepeerde labels. Sleep de variabele ‘Mening Metro’ uit het gebied van Rijen naar het kader van Velden
kiezen om toe te voegen aan rapport. In de draaitabel zie je nu alleen nog de labels van de groepering.
Verander het label van “Groep1” in “Goed of zeer goed”.
De draaitabel ziet er dan als volgt uit. Je ziet dat de percentages van Goed en Zeer goed bij elkaar zijn
opgeteld.

Figuur 5.15: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ van lezers van “Metro”

Uit de tabel kun je nu eenvoudig aflezen dat bijna 16% (15,95%) van de lezers van “Metro” vrouwen zijn die het
blad goed of zeer goed vinden.

5.4 Discrete kansverdelingen

Een discrete variabele is een variabele met een beperkt aantal mogelijke waarden. Een variabele die op nominaal-
of ordinaal schaalniveau wordt gemeten is een discrete variabele. Bijvoorbeeld geslacht heeft slechts twee
uitkomsten: man of vrouw.
Ook variabelen die op interval of rationiveau worden gemeten kunnen discrete variabelen zijn. Bijvoorbeeld het
aantal kinderen in een gezin kan variëren van 0 t/m 20? In elk geval niet onbeperkt en alleen gehele getallen zijn
mogelijk als uitkomst.
Een discrete kansverdeling is een discrete variabele met bij elke mogelijke uitkomst de bijbehorende kans op die
uitkomst. De meest belangrijke discrete kansverdelingen worden nu behandeld.

5.4.1 Binomiale kansverdeling

Er is sprake van een binomiale kansverdeling als aan de volgende eigenschappen wordt voldaan:
1. De mogelijke uitkomsten kunnen op twee steekproefmethoden verzameld worden:
a. een steekproef uit een “oneindige” populatie zonder terugleggen;
b. een steekproef uit een eindige populatie met terugleggen;
2. Elke uitkomst wordt gezien als een “succes” of als een “mislukking”;
3. De kans op “succes”, aangegeven met de letter p, verandert niet evenals de kans op “mislukking”
q = 1 - p;
4. Elke uitkomst is onafhankelijk van vorige uitkomsten.

Voorbeelden
Wanneer je twee willekeurig gekozen ochtendspitsreizigers enquêteert met de vraag of zij die ochtend de “Metro”
hebben gelezen, dan is het aantal “Metro” lezers (X) in deze steekproef binomiaal verdeeld, namelijk:
 Het is een steekproef (n = 2) uit een “oneindige” (er zijn heel veel ochtendspitsreizigers) populatie zonder
terugleggen;
 Elke geënquêteerde reiziger is een “succes” (heeft de “Metro”gelezen) of een mislukking (heeft de “Metro”
niet gelezen);
 Wanneer 30% van de ochtendspitsreizigers de “Metro” op die dag gelezen heeft, dan is de kans op succes
p = 0,3 en de kans op mislukking q = 0,7;

110
5 Kansen en kansverdelingen

 Of een geënquêteerde ochtendspitsreiziger al of niet de “Metro”heeft gelezen is niet afhankelijk van het feit of
een voorgaande ochtendspitsreiziger al of niet de “Metro” heeft gelezen.
Tabel 5.1: Kansverdeling bij een binomiale verdeling met p = 0,3 en n = 2

Mogelijke uitkomsten P (Kans) X (=aantal “Metro” lezers)


wel, wel 0,3 * 0,3 = 0,09 2
wel, niet 0,3 * 0,7 = 0,21 1
niet, wel 0,7 * 0,3 = 0,21 1
niet, niet 0,7 * 0,7 = 0,49 0

De kans dat het aantal “Metro” lezers gelijk is aan 2, P(X=2) is dus gelijk aan:
succeskans * succeskans
De kans dat het aantal “Metro” lezers gelijk is aan 1, P(X=1) is dus gelijk aan:
succeskans * kans op mislukking + kans op mislukking * succeskans
De kans dat het aantal “Metro” lezers gelijk is aan 0, P(X=0) is dus gelijk aan:
kans op mislukking * kans op mislukking.

Onder een groep van 10 treinreizigers bestaande uit 4 vrouwen en 6 mannen deel je blindelings drie vrijkaarten uit
voor de vakantiebeurs (het is dus ook mogelijk dat slechts 1 treinreiziger alle drie de vrijkaarten ontvangt).
Het aantal vrijkaarten dat bij een vrouw terecht komt (X) is dan binominaal verdeeld, namelijk:
 Er worden drie kaarten verdeeld, de steekproef (n = 3) onder een eindig aantal mensen, de populatie (N = 10),
met terugleggen (iemand die de eerste vrijkaart heeft gekregen kan ook de tweede vrijkaart krijgen);
 Elke kaart die uitgedeeld wordt is een “succes”, wanneer een vrouw deze kaart ontvangt, of een “mislukking”,
wanneer een man deze kaart ontvangt;
 De kans op “succes” p = 4/10 = 0,4 en de kans op “mislukking” q = 6/10 = 0,6;
 Of een vrijkaart aan een vrouw of aan een man wordt uitgedeeld is niet afhankelijk van het feit of de daarvoor
uitgedeelde vrijkaart(en) aan een vrouw of aan een man is uitgedeeld.

Tabel 5.2: Kansverdeling bij een binomiale verdeling met n = 3 en p = 0,4

Mogelijke uitkomsten P (Kans) X (=aantal vrouwen)


vrouw, vrouw, vrouw 0,4*0,4*0,4 = 0,43*0,60 = 0,064 3
vrouw, vrouw, man 0,4*0,4*0,6 = 0,42*0,61 = 0,096 2
vrouw, man, vrouw 0,4*0,6*0,4 = 0,42*0,61 = 0,096 2
man, vrouw, vrouw 0,6*0,4*0,4 = 0,42*0,61 = 0,096 2
vrouw, man, man 0,4*0,6*0,6 = 0,41*0,62 = 0,144 1
man, vrouw, man 0,6*0,4*0,6 = 0,41*0,62 = 0,144 1
man, man, vrouw 0,6*0,6*0,4 = 0,41*0,62 = 0,144 1
man, man, man 0,6*0,6*0,6 = 0,40*0,63 = 0,216 0

Er is 1 mogelijkheid waarbij er 3 vrouwen in de steekproef zijn, met een kans van P(X=3) = 1* p 3*q0.
Er zijn 3 mogelijkheden waarbij er 2 vrouwen in de steekproef zijn, met elk een kans van p 2*q1.
Dus P(X=2) = 3 * p2*q1.
Er zijn 3 mogelijkheden waarbij er 1 vrouw in de steekproef is, met elk een kans van p 1*q2.
Dus P(X=1) = 3 * p1*q2.
Er is 1 mogelijkheid waarbij er geen enkele vrouw in de steekproef is, met een kans van P(X=0) = 1* p 0*q3.

111
Statistiek met Excel 2016

5.4.2 Hypergeometrische kansverdeling

De hypergeometrische kansverdeling lijkt erg veel op de binomiale kansverdeling. Het verschil zit in de
steekproefmethode: Bij een hypergeometrische kansverdeling is sprake van een steekproef uit een eindige
populatie zonder terugleggen. De kans op succes verandert evenals de kans op mislukking. Een uitkomst is
afhankelijk van vorige uitkomsten.

Voorbeeld

Onder een groep van 10 treinreizigers (N) bestaande uit 4 vrouwen (A) en 6 mannen deel je 3 vrijkaarten (n) uit
voor de vakantiebeurs. Wanneer een reiziger een kaart heeft ontvangen, doet deze reiziger niet meer mee bij het
uitdelen van een volgende kaart. Het aantal vrijkaarten dat bij een vrouw terecht komt (X) is dan
hypergeometrisch verdeeld, namelijk:
 Er worden drie kaarten verdeeld, de steekproef (n = 3), onder een eindig aantal mensen, de populatie (N = 10),
zonder terugleggen (iemand die een vrijkaart heeft gekregen doet niet meer mee);
 Elke kaart die uitgedeeld wordt is een “succes”, wanneer een vrouw deze kaart ontvangt (A=4), of een
“mislukking”, wanneer een man deze kaart ontvangt;
 Of een vrijkaart aan een vrouw of aan een man wordt uitgedeeld is afhankelijk van het feit of de daarvoor
uitgedeelde vrijkaart(en) aan een vrouw of aan een man is uitgedeeld.

Tabel 5.3: Kansverdeling bij een hypergeometrische verdeling met n = 3, N = 10 en A = 4

Mogelijke uitkomsten P (Kans) X (=aantal vrouwen)


4 3 2
vrouw, vrouw, vrouw ∗ ∗ =0 ,0333 3
10 9 8
4 3 6
vrouw, vrouw, man ∗ ∗ =0,1000 2
10 9 8
4 6 3
vrouw, man, vrouw ∗ ∗ =0,1000 2
10 9 8
6 4 3
man, vrouw, vrouw ∗ ∗ =0 ,1000 2
10 9 8
4 6 5
vrouw, man, man ∗ ∗ =0 ,1667 1
10 9 8
6 4 5
man, vrouw, man ∗ ∗ =0 ,1667 1
10 9 8
6 5 4
man, man, vrouw ∗ ∗ =0 ,1667 1
10 9 8
6 5 4
man, man, man ∗ ∗ =0 ,1667 0
10 9 8

Elke mogelijkheid waarbij het aantal successen in de steekproef hetzelfde is, levert dezelfde kans op. Het maakt
voor de kans dus bijvoorbeeld niet uit of wanneer er 1 man in de steekproef voorkomt, deze man als eerste,
tweede of als laatste “getrokken” wordt.

112
5 Kansen en kansverdelingen

5.4.3 Poisson kansverdeling

De Poisson verdeling kun je gebruiken voor het berekenen van de kans op een aantal successen per continue
eenheid (tijd, lengte, enz).
Er is sprake van een Poisson verdeling wanneer de eenheid (tijd, lengte, oppervlakte) zodanig tot een interval
verkleind kan worden dat aan de volgende voorwaarden wordt voldaan:
1. De kans op precies één succes tijdens het interval is constant;
2. De kans op meer dan één succes tijdens het interval is 0;
3. De kans op een succes in een interval is onafhankelijk van een ander succes in een ander interval.

Voorbeeld

Wanneer tijdens de ochtendspits tussen 7 en 8 uur gemiddeld 180 reizigers bij de loketten op het CS van
Amsterdam komen, dan kan er sprake zijn van een Poisson verdeling van het aantal reizigers, want, wanneer je het
uur verdeelt in (3600) intervallen van seconden dan geldt:
1. De kans dat een reiziger tijdens een bepaalde seconde bij een loket komt is 180 / 3600 = 5%;
2. De kans dat een andere reiziger tijdens dezelfde seconde bij een loket komt is:
5% * 5% = 0,25%  0%;
3. De kans dat een reiziger tijdens een bepaalde seconde bij een loket komt heeft geen effect op een reiziger die
gedurende een andere seconde bij het loket komt.

5.5 Discrete kansverdelingen met Excel

Net zoals voor het berekenen van karakteristieken heeft Excel ingebouwde functies voor het berekenen van
kansen van discrete verdelingen. Je hoeft dus niet de formules voor de verschillende discrete kansverdelingen te
gebruiken om deze te bepalen.

Voor het berekenen van kansen van discrete verdelingen kun je de volgende functies in Excel gebruiken:
BINOM.VERD: Berekent de (cumulatieve) kansen van een binomiale kansverdeling
HYPGEOM.VERD: Berekent de (cumulatieve) kansen van een hypergeometrische verdeling
POISSON.VERD: Berekent de (cumulatieve) kansen van een Poisson verdeling

Voor het berekenen van de verschillende discrete kansen kun je ook gebruik maken van het Excelbestand “Discrete
kansverdelingen”. Dit Excelbestand heeft voor elke discrete kansverdeling een apart tabblad. Wanneer je de gele
cellen op een tabblad invult met de juiste gegevens worden de verschillende (cumulatieve) discrete kansen
uitgerekend.

Wanneer je bijvoorbeeld wilt weten hoe groot de kans is dat je minimaal 5 antwoorden goed gokt bij een MC-
tentamen met 10 vragen met 4 antwoordmogelijkheden dan heb je te maken met een binomiale kansverdeling. De
steekproefgrootte (n) is gelijk aan 10 en de succeskans (p) is gelijk aan 0,25. Vul deze gegevens in op het tabblad
van “Binomiaal”. Op de volgende bladzijde zie je het ingevulde tabblad van deze binomiale kansverdeling.

113
Statistiek met Excel 2016

Figuur 5.16: Ingevuld tabblad van de binomiale kansverdeling met n=10 en p = 0,25

De eerste kolom met X geeft het aantal successen aan (bij een steekproef van 10 kan het aantal successen variëren
van 0, 1, …. tot en met 10). De tweede kolom P(=X) geeft de kans op X aantal successen. De derde kolom geeft de
cumulatieve kans op hooguit X aantal successen (kleiner of gelijk aan X successen). De vierde kolom P(>=X) geeft
de cumulatieve kans op minstens X successen (groter of gelijk aan X successen).
De kans dat je minimaal 5 van de 10 vragen van een MC-tentamen goed gokt is dus gelijk aan 0,0781.

Wanneer je de kans wilt uitrekenen op 5 vrouwen in een aselecte steekproef van 10 personen (zonder
terugleggen) uit de groep van 300 respondenten, waarvan er 77 vrouw zijn dan heb je te maken met een
hypergeometrische kansverdeling. Voor het bepalen van deze kans open je het tabblad “Hypergeometrisch” van
het bestand “Discrete kansverdelingen” en vul je de gegevens in de geelgekleurde cellen in.

Figuur 5.17: Ingevuld tabblad van de hypergeometrische kansverdeling met n=10, N = 300 en A =77

De gevraagde kans kun je nu aflezen op de rij van X = 5 (aantal gevraagde successen) en in de kolom van P(=X). De
kans is dus gelijk aan 0,0621.

114
5 Kansen en kansverdelingen

Ten slotte, wanneer tijdens de ochtendspits tussen 7 en 8 uur gemiddeld per minuut 3 reizigers bij de loketten op
het CS van Amsterdam komen, dan heb je te maken met een Poisson kansverdeling met een gemiddelde van 3 per
minuut.
De kans dat in een willekeurige minuut 4 reizigers bij de loketten arriveren kun je dan bepalen door het tabblad
“Poisson” te openen van het Excelbestand “Discrete kansverdelingen” en het gemiddelde 3 in te vullen.

Figuur 5.18: Ingevuld tabblad van de Poisson kansverdeling met een gemiddelde van 3

De gevraagde kans kun je nu aflezen op de rij van X = 4 (aantal gevraagde successen) en in de kolom van P(=X). De
kans is dus gelijk aan 0,1680.

115
Statistiek met Excel 2016

5.6 Continue kansverdelingen

Een continue variabele is een variabele die binnen een gegeven gebied alle waarden kan aannemen. Oftewel
tussen twee waarden van een continue variabele is altijd een derde waarde mogelijk. Een continue waarde wordt
altijd op kwantitatief niveau (interval of ratio) gemeten. Voorbeelden van continue variabelen kunnen zijn: tijd,
lengte, gewicht, enz.
Bij een continue kansverdeling wordt niet gekeken naar de kans op één bepaalde waarde (die is namelijk gelijk aan
0), maar naar de kans op een hoeveelheid van waarden (kleiner dan een bepaalde waarde of groter dan een
bepaalde waarde).
Vergeet niet de volgende kansregels te gebruiken bij continue kansverdelingen:
 De kans op hooguit X aantal successen is gelijk aan de kans op minder dan X aantal successen
 De kans op meer dan X aantal successen is gelijk aan 1 – kans op hooguit X aantal successen
(complementregel)
 De kans op meer dan X successen en minder dan Y successen is gelijk aan de kans op minder dan Y successen –
kans op minder dan X successen
De meest belangrijke continue kansverdeling, de normale verdeling, wordt in deze paragraaf behandeld. Tevens
wordt kort aandacht besteed aan de exponentiële kansverdeling. Daarnaast zijn er nog meer continue
kansverdelingen zoals bijvorbeeld de Chi-kwadraat en de F-verdeling.

5.6.1 Normale kansverdeling

Een normale verdeling wordt gekenmerkt door haar gemiddelde µ, ook wel verwachtingswaarde E[X] genoemd, en
haar standaardafwijking σ.

Grafiek 5.1: Normale verdelingen

0.45
Kansdichtheid

A
0.4

0.35

0.3

0.25

0.2
B

0.15

0.1
C
0.05

0
-4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

X
Figuur 5.19: Grafieken van normale verdelingen

Grafiek A en B hebben een gemiddelde (µ) van 4 en een standaardafwijking () van 1 respectievelijk 2, terwijl bij
grafiek C het gemiddelde (µ) 6 en de standaardafwijking () 3 is.
De grafieken A, B en C zijn verschillend maar hebben toch bepaalde overeenkomsten, omdat zij allen de grafiek zijn
van een normale verdeling.

116
5 Kansen en kansverdelingen

Eigenschappen van normale verdelingen zijn:

1. De kansdichtheid is klokvormig en symmetrisch. Waarden die bijvoorbeeld meer dan σ boven µ liggen, komen
even vaak voor als waarden die meer dan σ onder µ liggen;
2. Het rekenkundig gemiddelde, de mediaan en de modus zijn aan elkaar gelijk;
3. Een sterke centrale tendentie. Waarden dichtbij het gemiddelde komen het meeste voor;
4. Betrekkelijk grote en betrekkelijk kleine waarden komen zelden voor. Zo ligt 95,4% van alle waarnemingen
binnen twee standaardafwijkingen van µ en 99,7% zelfs binnen drie standaardafwijkingen van µ.

Wanneer je de kans wilt berekenen dat de waarde X van een normale verdeling tussen de waarden a en b ligt,
P(a < X < b), dan moet je de oppervlakte onder de kansdichtheidsfunctie tussen a en b bepalen.

Figuur 5.20: Grafiek van normale verdeling

Deze oppervlakte kun je berekenen door de kansdichtheidsfunctie te integreren op het interval [a,b] of via
standaardiseren en het gebruik maken van de standaardnormale kanstabel.

Een normale verdeling kan omgezet worden in een standaardnormale verdeling met een gemiddelde
µ = 0 en een standaardafwijking  = 1. Dit levert een z-waarde op waarvan de kans op te zoeken valt in een
standaardnormale tabel.

Het omzetten van een normale verdeling in een standaardnormale verdeling, standaardiseren genoemd, verloopt
in twee stappen, die via een normale verdeling met µ = 4 en  = 2, grafisch zal worden toegelicht.

Grafiek 5.3: Normale verdeling met gemiddelde 4 en standaardafwijking 2


0,25
kansdichtheid

0,2

0,15

0,1

0,05

0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12

X
Figuur 5.21: Grafiek van normale verdeling met μ=4 en σ=2

117
Statistiek met Excel 2016

1. Van alle X-waarden wordt het gemiddelde afgetrokken (X - µ). Dit houdt in dat de grafiek verplaatst wordt
zodat het gemiddelde bij 0 komt te liggen.

Grafiek 5.4: Normale verdeling met gemiddelde 0 en standaardafwijking 2


0,25
kansdichtheid

0,2

0,15

0,1

0,05

0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12

X
Figuur 5.22: Grafiek van normale verdeling met μ=0 en σ=2

2. De nieuwe X-waarden worden nu gedeeld door de standaardafwijking . Dus: (X - µ) / 


Op deze manier krijg je de standaardnormale verdeling, waarvan het gemiddelde gelijk is aan 0 en de
standaardafwijking gelijk is aan 1. Bij de standaardnormale verdeling wordt niet meer over de X-waarden
gesproken maar worden deze z-waarden genoemd.

Grafiek 5.5: Standaardnormale verdeling met gemiddelde 0 en


standaardafwijking 1
kansdichtheid

0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8

Z
Figuur 5.23: Grafiek van (standaard)normale verdeling met μ=0 en σ=1

De waarde van z geeft het aantal keren de standaardafwijking aan dat de waarde X van het gemiddelde µ afligt.
Wanneer het gemiddelde (µ) van een normale verdeling gelijk is aan 4 en de standaardafwijking ( ) gelijk is aan 2
dan geldt:

Bij X = 6 is de z-waarde 1 (6 ligt 1 keer de standaardafwijking boven het gemiddelde van 4).
Bij X = 0 is de z-waarde -2 (2 ligt 2 keer de standaardafwijking onder het gemiddelde van 4).
Bij X = 3 is de z-waarde – ½ (3 ligt een ½ keer de standaardafwijking onder het gemiddelde van 4).
Bij X = 8 is de z-waarde 2 (8 ligt 2 keer de standaardafwijking boven het gemiddelde van 4).

Dus de kans dat X < 6, bij een normale verdeling met een gemiddelde van 4 en een standaardafwijking van 2:
P(X < 6 | µ = 4 ;  = 2) = P(z < 1) = 0,84130

0
Op te zoeken in een tabel met linkeroverschrijdingskansen van de standaardnormale verdeling.

118
5 Kansen en kansverdelingen

5.6.2 Exponentiële kansverdeling

De exponentiële kansverdeling wordt gebruikt in wachttijd theorieën om de tijd tussen twee aankomsten te
modelleren.

De exponentiële kansverdeling wordt slechts bepaald door één parameter, het gemiddelde λ (Lambda), dat gelijk is
aan het gemiddeld aantal aankomsten per tijdseenheid. De gemiddelde tijd tussen twee aankomsten is dan gelijk
aan 1/λ. Bijvoorbeeld als het gemiddelde aantal aankomsten 5 per uur is, dan is de tijd tussen twee aankomsten
1/5 uur of 12 minuten.

Figuur 5.24: Grafiek van exponentiële kansverdelingen bij verschillende gemiddelden

Voorbeeld

Als bij een loket van een NS station gemiddeld 30 klanten per uur komen, hoe groot is de kans dat, wanneer net
een klant bij het loket is gearriveerd, de volgende klant binnen 3 minuten komt?

Let op dat je dezelfde tijdseenheden gebruikt:


Gemiddelde van 30 per uur, dan is X (3 minuten) gelijk aan 0,05 uur.
Of X is 3 minuten dan is het gemiddelde (30 per uur) gelijk aan 0,5 per minuut.
7
7.1
7.2
7.3

119
Statistiek met Excel 2016

5.7 Kansen van continue verdelingen met Excel

Ook voor het berekenen van kansen van continue verdelingen heeft Excel ingebouwde functies.
NORM.VERD.N: Berekent de cumulatieve kans van een normale kansverdeling
NORM.INV.N: Berekent de inverse van de cumulatieve normale verdeling
NORM.S.VERD: Berekent de cumulatieve kans van een standaardnormale kansverdeling
NORM.S.INV: Berekent de inverse van de cumulatieve normale standaardverdeling
NORMALISEREN: Berekent de genormaliseerde waarde uit een verdeling
EXPON.VERD.N: Berekent de cumulatieve kans van een exponentiële kansverdeling

In plaats van de ingebouwde functies in Excel kun je ook het bestand “Continue kansverdelingen” gebruiken. Dit
Excelbestand heeft twee tabbladen: Eén voor de normale kansverdeling en één voor de exponentiële
kansverdeling.
Wanneer je de geelgekleurde cellen invult, wordt vervolgens de linker- en rechteroverschrijdingskans uitgerekend.
Daarnaast heb je de mogelijkheid om een kans uit te rekenen op een interval. Dus de kans dat X meer dan a is en
minder dan b.
Bij de normale kansverdeling is het bovendien mogelijk om een kans op te geven en vervolgens de X-waarde laten
bepalen waar beneden of waarboven zoveel procent van alle waarden ligt.

Voor de exponentiële kansverdeling heeft Excel geen ingebouwde inverse functie.

Figuur 5.25: Ingevuld werkblad van de normale kansverdeling met gemiddelde 8 en standaardafwijking 3

Dus als het gemiddelde van een normale verdeling gelijk is aan 8 met een standaardafwijking van 3 dan heeft 25%
van de waarnemingen een uitkomst lager dan 6 en 75% een uitkomst hoger dan 6. Ongeveer 38% heeft een
waarde dat tussen de 6 en de 9 in ligt.
95% van alle waarden is kleiner dan 12,93 en 95% van alle waarden is groter dan 3,07.

120
5 Kansen en kansverdelingen

Figuur 5.26: Ingevuld werkblad van de exponentiële kansverdeling met gemiddelde 0,5

Als bij een loket van een NS station gemiddeld 30 klanten per uur komen (0,5 per minuut) dan is de kans dat de
volgende klant binnen de 3 minuten verschijn gelijk aan 78%. Je hebt 22% kans dat de volgende klant pas na 3
minuten verschijnt.
Dat de volgende klant binnen de 5 minuten verschijnt is gelijk aan 92%, je hebt 14% kans dat de volgende klant
tussen de 3 en 5 minuten komt en de kans dat de volgende klant pas na 5 minuter komt is 8%.

121
Statistiek met Excel 2016

5.8 Opgaven

De eerste vier opgaven hebben betrekking op de gegevens van het bestand “Fictie2000”.
1. Bepaal de kansen op het trekken van een aselect persoon uit de groep van 300 respondenten die voldoet aan:
a. De persoon heeft een dagbladabonnement op de “Volkskrant”.
b. De persoon is van het mannelijk geslacht en heeft een dagbladabonnement op de “Telegraaf”.
c. De persoon is 20 jaar of ouder.
d. De persoon is van het mannelijk geslacht en heeft een inkomen van minder dan 15 (* € 100).

2. Bepaal de kansen op het trekken van een aselect persoon uit de groep van personen die wel eens de “Spits”
hebben gelezen, die voldoet aan:
a. De persoon heeft een dagbladabonnement op het “Algemeen Dagblad”.
b. De persoon heeft een dagbladabonnement op het “Algemeen Dagblad” of op de “Telegraaf”.
c. De persoon heeft een zeer slechte of slechte mening over de “Spits”.
d. De persoon is minimaal 30 jaar oud en heeft vindt de “Spits” goed.

3. De volgende kruistabel is gemaakt met behulp van de gegevens van het bestand Fictie2000

Tabel 5.2: Aantal “Metro” en “Spits” lezers

Metro Spits
Nee Ja Eindtotaal
Nee 60 77 137
Ja 90 73 163
Eindtotaal 150 150 300

Bron: Fictie2000

a. Veronderstel dat de respondent de “Spits” leest. Hoe groot is dan de kans dat deze “Spits” lezer ook de
“Metro” leest?
b. Veronderstel dat de respondent de “Metro” leest. Hoe groot is dan de kans dat deze “Metro” lezer ook de
“Spits” leest?
c. Hoe groot is de kans dat een willekeurige respondent zowel de “Metro” als de “Spits” leest?
d. Hoe groot is de kans dat een willekeurige respondent de “Metro” en/of de “Spits” leest?

4. De volgende kruistabel is gemaakt met behulp van de gegevens van het bestand Fictie2000

Tabel 5.3: Abonnement op “Volkskrant” per geslacht

Volkskrant Geslacht
Man Vrouw Eindtotaal
Nee 183 57 240
Ja 40 20 60
Eindtotaal 223 77 300

Bron: Fictie2000

a. Veronderstel dat de respondent een vrouw is. Hoe groot is dan de kans dat zij een abonnement op de
“Volkskrant” heeft?
b. Veronderstel dat de respondent een man is. Hoe groot is dan de kans dat hij een abonnement op de
“Volkskrant” heeft?
c. Hoe groot is de kans dat een willekeurige respondent een abonnement op de Volkskrant heeft?

122
5 Kansen en kansverdelingen

5. 87% van de treinen rijdt op tijd. Hoe groot is de kans dat iemand die 10 keer met een willekeurige trein rijdt:
a. Altijd op tijd aankomt?
b. Niet vaker dan 1 keer vertraging heeft?
c. Minstens de helft van het aantal keren vertraging heeft?

6. Wanneer je uit de groep van 300 respondenten (van het databestand “Fictie2000”) een aselecte steekproef
neemt van 25 personen (zonder terugleggen), hoe groot is de kans dat van deze groep:
a. 15 personen wel eens de “Metro” hebben gelezen?
b. Minstens 15 personen wel eens de “Metro” hebben gelezen?
c. Het aantal personen dat wel eens de “Metro” heeft gelezen tussen de 10 en 20 ligt (inclusief 10 en 20)?

7. Dagelijks komen gemiddeld 9 reizigers naar de balie voor verloren voorwerpen van een bepaald station. Wat is
de kans dat op een willekeurige dag:
a. Er 7 reizigers bij deze balie komen?
b. Minder dan 5 reizigers bij deze balie komen?
c. 10 of meer reizigers bij deze balie komen?

8. 72% van de mensen die de “Spits” lezen laten deze krant niet achter in het openbaar vervoer. Hoe groot is de
kans dat van 12 aselect gekozen “Spits” lezers:
a. Iedereen de “Spits” meeneemt (niet achterlaat in het openbaar vervoer)?
b. Slechts 2 personen de “Spits” in het openbaar vervoer achterlaten?
c. Minimaal 6 personen de “Spits” meenemen?
d. Minimaal 6 personen en maximaal 8 personen de “Spits” meenemen?

9. Van een groep van 40 treinreizigers hebben 25 reizigers wel eens een formulier voor geldteruggave bij
vertraging ingevuld. Hoe groot is de kans dat, wanneer je een aselecte groep van 10 reizigers kiest uit deze
groep van 40 treinreizigers:
a. Alle 10 reizigers wel eens een geldteruggave formulier hebben ingevuld?
b. Niemand wel eens een geldteruggave formulier heeft ingevuld?
c. 5 reizigers wel eens een geldteruggave formulier hebben ingevuld?
d. Minimaal 4 en maximaal 6 reizigers wel eens een geldteruggave formulier hebben ingevuld?

10. Een besteldienst, die de “Metro” ’s ochtends op een aantal NS stations aflevert, is daar gemiddeld 2 uur mee
bezig met een standaardafwijking van 10 minuten. Ervan uitgaande dat de bezorgtijd normaal verdeeld is
bepaal:
a. de kans dat op een willekeurige dag de besteldienst binnen 1 ½ uur klaar is met afleveren;
b. de kans dat op een willekeurige dag de besteldienst langer dan 2 ¼ uur bezig is met het afleveren van de
“Metro”;
c. de kans dat op een willekeurige dag het afleveren van de “Metro” minimaal 1 ¾ uur en maximaal 2 ¼ uur
duurt;
d. de tijdsduur waarbij je 75% kans hebt dat de aflevering binnen deze tijd gebeurt.

11. Bij een kaartautomaat op een bepaald NS station komen gemiddeld 23 treinreizigers per uur gedurende de
ochtendspits. Wanneer de aankomst van de treinreizigers bij deze kaartautomaat exponentieel verdeeld is,
bepaal de kans dat:
a. de eerstvolgende reiziger binnen 5 minuten komt;
b. de eerstvolgende reiziger na 10 minuten komt;
c. het minimaal 3 minuten en maximaal 7 minuten duurt, voordat de eerstvolgende reiziger komt.

12. De tijd die treinreizigers nodig hebben om een kaartje uit de kaartautomaat te halen is bij benadering normaal
verdeeld met een gemiddelde van 2 minuten en een standaardafwijking van 15 seconden. Bepaal:
a. de kans dat een willekeurige reiziger binnen 1 ½ minuut klaar is bij de kaartautomaat;
b. de kans dat een willekeurige reiziger meer dan 2 minuten en 20 seconden nodig heeft om een kaartje uit
de kaartautomaat te halen;
c. de kans dat een willekeurige reiziger minimaal 2 minuten en maximaal 2 ½ minuut nodig heeft om een
kaartje uit de kaartautomaat te halen;
d. de tijd waarbinnen 95% van de treinreizigers een kaartje uit de kaartautomaat halen.

123
Statistiek met Excel 2016

13. Bij een distributiepunt van de “Spits” arriveren de kranten om 6.00 uur. Het blijkt dat gemiddeld na 5 uur (om
11.00 uur) alle “Spits” kranten op zijn. Wanneer de tijd dat de “Spits” kranten er liggen normaal verdeeld is
met een gemiddelde van 5 uur en een standaardafwijking van ½ uur, bepaal:
a. de kans dat iemand, die op een willekeurige dag om 10.00 uur bij dit distributiepunt komt, geen “Spits”
meer aantreft;
b. de kans dat iemand, die op een willekeurige dag om 11.30 uur bij dit distributiepunt komt, nog een “Spits’
aantreft;
c. de uiterste tijd, waarop iemand op een willekeurige dag bij dit distributiepunt moet arriveren, om nog
90% kans te hebben om er een “Spits” aan te treffen.

14. De centrale informatiedienst van de NS over reistijden, wordt tijdens de ochtendspits gemiddeld 18 keer per
uur gebeld. Wanneer de binnenkomst van telefoongesprekken bij de centrale informatiedienst exponentieel
verdeeld is, bepaal:
a. de kans dat het volgende telefoongesprek binnen 3 minuten binnenkomt;
b. de kans dat het meer dan 5 minuten duurt voordat het volgende telefoongesprek binnenkomt;
c. de kans dat het volgende telefoongesprek tussen de 2 minuten en 4 minuten binnenkomt.

124
6 Chi-kwadraatverdeling (X2)

6 Chi-kwadraatverdeling (X2)

6.1 Inleiding

In hoofdstuk 4 heb je gezien dat het gemiddelde inkomen van de 300 respondenten gelijk is aan 13,9 * € 100 per
maand, maar ook dat er een verschil is in gemiddelde inkomens tussen mannen en vrouwen. Of het gemiddelde
van de respondenten (steekproef) een goed beeld weergeeft van het gemiddelde inkomen van alle
ochtendspitreizigers (populatie) hangt af in hoeverre de steekproef representatief is voor de populatie. Of te wel:
Is de samenstelling van de steekproef hetzelfde als de samenstelling van de populatie zodat karakteristieken van
de steekproef ook gelden voor de populatie.
Je zou dit ten aanzien van een aantal karakteristieken van variabelen die je kent van de populatie kunnen
uitzoeken. Zo is bij de NS bekend hoeveel mannen en vrouwen in de ochtendspits reizen en wat hun leeftijd is.
Wanneer de samenstelling van je steekproef ongeveer hetzelfde is als de samenstelling van de populatie, zou je
mogen verwachten dat karakteristieken van variabelen die je niet kent van de populatie (bijvoorbeeld welk
percentage van alle ochtendspitreizigers leest de “Metro”) dan ook ongeveer hetzelfde is als die van je steekproef.

In dit hoofdstuk leer je op welke aspecten je de representativiteit van je onderzoek kunt controleren en hoe je met
behulp van Excel kunt aantonen dat je onderzoek wel of niet representatief is ten aanzien van die bepaalde
aspecten. Hiervoor gebruik je de Chi-kwadraatverdeling (Χ 2).
Mocht je onderzoek niet representatief zijn voor een bepaalde variabele dan kun je kijken naar de consequenties
hiervan. Wanneer er geen verband is tussen die bepaalde variabele en essentiële variabelen voor je onderzoek,
dan kunnen de consequenties meevallen.
Wanneer er wel een verband bestaat dan zul je bepaalde technieken (bijvoorbeeld wegingsfactoren) moeten
gebruiken om toch iets te kunnen zeggen over de karakteristieken van die essentiële variabelen.
Voor het onderzoeken van al of geen verband tussen twee variabelen gebruik je ook de Chi-kwadraat-verdeling.

6.2 Chi-kwadraat (X2)

Bij een onderzoek naar representativiteit en een onderzoek naar geen verband tussen twee variabelen wordt
gebruik gemaakt van theoretische frequenties of ook wel verwachte frequenties genoemd. De frequenties van je
onderzoek, ook wel geobserveerde of waargenomen frequenties genoemd, worden vergeleken met de verwachte
frequenties volgens de volgende formule.

n 2
( f i−Fi )
Χ =∑2

i=1 Fi

waarbij:

i : verschillende categorieën of klassen


f : waargenomen (geobserveerde) frequentie van je onderzoek
F : verwachte (theoretische) frequentie op basis van representativiteit of geen verband

Chi-kwadraat is altijd groter of gelijk aan nul. Ligt Chi-kwadraat dicht bij nul dan kun je verschillen aan het toeval
wijten (de verschillen tussen de waargenomen frequentie en de verwachte frequenties zijn dan klein) en wanneer
Chi-kwadraat groot is dan zul je twijfelen aan je veronderstelling van representativiteit of geen verband (de
verschillen tussen de waargenomen frequentie en de verwachte frequenties zijn dan groot).
Om te beslissen of een Chi-kwadraatwaarde groot of klein is moet je nog iets meer weten over de Chi-
kwadraatverdeling. De grootte van een Chi-kwadraatwaarde is namelijk afhankelijk van hoeveel verschillen je bij
elkaar optelt.
De maatstaf voor het aantal verschillen dat bij elkaar wordt opgeteld wordt aantal vrijheidsgraden (afgekort tot
d.f. van degrees of freedom) genoemd.
Hieronder zie je grafieken van de kansdichtheid van Chi-kwadraatverdelingen bij verschillende vrijheidsgraden.

125
Statistiek met Excel 2016

Grafiek 6.1: Chi-kwadraatverdeling bij verschillende vrijheidsgraden

0,4
kansdichtheid f(x)

df=1

0,3
df=2

df=3
0,2
df=4

df=6

0,1 df=11

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
chi-kwadraat
Figuur 6.1: Chi-kwadraatverdeling bij verschillende vrijheidsgraden

Een chi-kwadraatverdeling is dus slechts afhankelijk van de parameter: het aantal vrijheidsgraden.
Het gemiddelde van een chi-kwadraatverdeling is gelijk aan het aantal vrijheidsgraden (df) en de variantie is gelijk
aan 2 keer het aantal vrijheidsgraden (2*df).
Chi-kwadraatverdelingen zijn rechtsscheef verdeeld, en zeer sterk rechtsscheef verdeeld als het aantal
vrijheidsgraden klein is. Neemt het aantal vrijheidsgraden toe dan begint de chi-kwadraatverdeling steeds meer op
een normale verdeling te lijken. Vergelijk bijvoorbeeld de grafiek van df =1 en df =11 weergegeven in grafiek 6.1.

De chi-kwadraat kun je gebruiken als de onderzoeksvariabelen minstens een nominaal meetniveau hebben. Als
een onderzoeksvariabele kwantitatief is, dan zullen de uitkomsten meestal in klassen zijn ingedeeld (teruggebracht
tot ordinaal meetniveau), wanneer je een chi-kwadraat wilt gebruiken.

Voordat je de Chi-kwadraattoets uit gaat voeren zul je moeten kijken of aan de volgende voorwaarden voldaan is:
1. Alle verwachte frequenties moeten groter zijn dan 1;
2. Hooguit 20% van de verwachte frequenties mag kleiner zijn dan 5.

Bij de chi-kwadraattoets voor representativiteit wordt ervan uitgegaan dat de steekproef representatief is voor de
populatie ten aanzien van een bepaald kenmerk. Dit uitgangspunt wordt ook wel de nulhypothese (H 0) genoemd.
Mocht je een overtuigend bewijs vinden dat deze veronderstelling niet juist dan verwerp je de nulhypothese en
stapt over op de alternatieve hypothese (H 1): de steekproef is niet representatief.

Voor de chi-kwadraattoets ga je uit van de frequenties (aantallen) en niet van de percentages.

126
6 Chi-kwadraatverdeling (X2)

6.3 Chi-kwadraattoets voor representativiteit

Uit de NS database van ochtendspitsreizigers blijkt dat 75% van deze populatie man is en 25% vrouw.
Is de steekproef van Fictie2000 representatief voor de variabele ‘Geslacht’?

De tabel van ‘Geslacht’ van de respondenten uit de steekproef is de volgende:

Geslacht Aantal (fi)


Man 223
Vrouw 77
Eindtotaal 300

Op basis van de populatiegegevens zou je de volgende aantallen (F i)verwachten:

Geslacht Aantal (Fi)


Man 75% van 300 = 225
Vrouw 25% van 300 = 75
Eindtotaal 300

De verwachte aantallen zijn allemaal groter dan 5 dus kun je de chi-kwadraattoets uitvoeren:

2 ( 223-225 )2 (77-75 )2
X = + = 0,071
225 75

Het aantal vrijheidsgraden bij een representativiteitstoets is gelijk aan het aantal mogelijke uitkomsten op een
variabele – 1. Bij geslacht heb je twee mogelijke uitkomsten (man of vrouw) en is het aantal vrijheidsgraden dus
gelijk aan 1.

P (X2 > 0,071 |df = 1) = 0,21

Dus de kans dat er 2 of meer minder mannen in je steekproef zitten is door het toeval 21%. Wanneer deze kans
kleiner wordt dan de onbetrouwbaarheid α van de toets dan ga je de nulhypothese verwerpen. Vaak kiest men
α = 5%.

Dus in dit voorbeeld mag je aannemen dat je steekproef representatief is ten aanzien van de variabele ‘Geslacht’.
Dat je steekproef iets afwijkt van de populatie wordt aan het toeval toegeschreven.

Je zou bovenstaande conclusie ook kunnen trekken uit het vergelijken van de berekend X 2 – waarde met de
kritieke grenswaarde voor X2.
Bij een α = 5% en df = 1 hoort een kritieke grenswaarde van 3,84.
Zolang de berekende X2 onder de kritieke grenswaarde blijft is er geen reden om de nulhypothese te verwerpen.

Mocht uit de NS database blijken dat in de ochtenspits de helft man en de andere helft vrouw is dan zou je in je
steekproef 50% van 300 = 150 mannen en 50% van 300 = 150 vrouwen verwachten.

2 ( 223-150 )2 (77-150 )2
X = + = 71,05
150 150

De verschillen tussen de aantallen in je steekproef en de verwachte aantallen op basis van je populatie zijn erg
groot. De berekende X2 - waarde is meer dan de kritieke grenswaarde dus verwerp je de nulhypothese. De
steekproef is niet representatief ten aan zien van de variabele ‘Geslacht’.

De overschrijdingskans is P (X 2 > 71,05 |df = 1) = 0,00. Dit is minder dan de onbetrouwbaarheid van de toets (5%)
dus de nulhypothes verwerpen.

127
Statistiek met Excel 2016

6.4 Chi-kwadraattoets voor representativiteit met Excel

Voor het toetsen van de representativiteit van je steekproef ten aanzien van een bepaald kenmerk kun je in Excel
gebruik maken van het Excelbestand “Chi-kwadraat” (tabblad ‘Representativiteit’). Door de percentages van het
kenmerk van de populatie en de frequenties van de steekproef in te vullen in de gele cellen worden alle
berekeningen voor de Chi-kwadraattoets voor je uitgerekend.

Figuur 6.2: Excelblad voor het uitvoeren van de Chi-kwadraattoets op representativiteit

Wanneer je de gegevens met betrekking tot de variabele ‘Geslacht’ invoert in de gele cellen (75% man en 25%
vrouw in de populatie) krijg je het volgende resultaat.

Figuur 6.3: Ingevuld excelblad voor representativiteistoets voor de variabele ‘Geslacht’

De steekproef is dus representatief ten aanzien van de variabele ‘Geslacht’ wanneer 75% van de populatie “Man”
is en 25% “Vrouw”.

128
6 Chi-kwadraatverdeling (X2)

6.5 Chi-kwadraattoets voor afhankelijkheid

In hoofdstuk 2 heb je onder andere de volgende kruistabel gemaakt:

Figuur 6.4: Tabel procentuele verdeling van dagbladabonnementen per geslacht

Het lijkt erop dat er een verband bestaat tussen de variabele ‘Geslacht’ en de variabele ‘Dagblad’. Van de mannen
heeft bijvoorbeeld 20% een abonnement op de “Telegraaf” terwijl dit bij slechts 8% van de vrouwen het geval is.

Bij de chi-kwadraattoets op afhankelijkheid wordt ervan uitgegaan dat er geen verband bestaat tussen de
variabelen. Dit uitgangspunt wordt ook wel de nulhypothese (H 0) genoemd. Mocht je een overtuigend bewijs
vinden dat deze veronderstelling niet juist is dan bestaat er een verband tussen de variabelen. Je verwerpt dan de
nulhypothese en stapt over op de alternatieve hypothese (H 1).

Voor de chi-kwadraattoets ga je uit van de frequenties (aantallen) en niet van de percentages.

Figuur 6.5: Tabel van waargenomen dagbladabonnementen per geslacht

Wanneer er geen verband bestaat tussen deze twee variabelen dan zou je verwachten dat het aantal mannen dat
een abonnement op een bepaald dagblad heeft relatief gelijk zal zijn aan het aantal vrouwen dat een abonnement
op datzelfde dagblad heeft.
Het verwachte aantal mannen dat een abonnement op het Algemeen Dagblad heeft is dan gelijk aan:
25/300 * 223 = 18,6
en het verwachte aantal vrouwen dat een abonnement op het Algemeen Dagblad heeft is gelijk aan:
25/300 * 77 = 6,4

Wanneer je deze verwachtingswaarden voor alle cellen van de tabel uitrekent dan krijg je de volgende tabel.

Geslacht
Dagblad Man Vrouw
Algemeen Dagblad 18,6 6,4
NRC 8,9 3,1
Telegraaf 37,2 12,8
Trouw 14,1 4,9
Volkskrant 44,6 15,4
Anders 39,4 13,6
Geen 60,2 20,8

Figuur 6.6: Tabel van verwachte aantallen abonnementen per geslacht (bij geen verband tussen deze variabelen)

129
Statistiek met Excel 2016

Wanneer de verschillen tussen de waargenomen frequenties (figuur 6.5) en de verwachte frequenties (figuur 6.6)
klein zijn dan zul je de nulhypothese (geen verband) niet verwerpen. Zijn deze verschillen groot dan zul je de
nulhypothese verwerpen en overstappen op het alternatief (wel verband).

De verschillen worden uitgerekend door voor elke cel het gekwadrateerde verschil te nemen tussen de
waargenomen frequentie en de verwachte frequentie en te delen door de verwachte frequenties. Vervolgens
worden deze verschillen allemaal bij elkaar opgeteld. De som van deze gekwadrateerde verschillen wordt chi-
kwadraat genoemd.

Voorbeeld:
Voor de cel Algemeen Dagblad en Man:
(18 – 18,6)2/18,6 = 0,018

Wanneer je deze verschillen voor alle cellen van de tabel uitrekent krijg je de volgende tabel.

Geslacht
Dagblad Man Vrouw
Algemeen Dagblad 0,018 0,053
NRC 0,001 0,002
Telegraaf 1,256 3,639
Trouw 0,249 0,722
Volkskrant 0,474 1,374
Anders 0,146 0,422
Geen 0,024 0,070

Figuur 6.7: Tabel van gekwadrateerde verschillen gedeeld door de verwachte frequenties

De som van deze verschillen is gelijk aan 8,452 (de chi-kwadraat).

Of de uitkomst van de chi-kwadraat als groot of klein gezien moet worden is afhankelijk van het aantal verschillen
dat je bij elkaar opgeteld hebt. Wanneer je vier verschillen bij elkaar opgeteld hebt (bijvoorbeeld bij een 2x2
kruistabel) dan accepteer je een kleinere waarde dan wanneer je 100 verschillen bij elkaar hebt opgeteld
(bijvoorbeeld bij een 10x10 kruistabel).

Wat de maximale chi-kwadraatwaarde mag zijn om de nulhypothese (geen verband) nog net niet te verwerpen is
afhankelijk van het aantal vrijheidsgraden, wat een maatstaf is voor de grootte van een tabel.
Het aantal vrijheidsgraden (df) is gelijk aan (aantal rijen – 1) * (aantal kolommen – 1).
In het voorbeeld van abonnementen per geslacht heb je zeven rijen (de verschillende dagbladen) en twee
kolommen (beide geslachten). Het aantal vrijheidsgraden is dan gelijk aan (7 – 1) * (2 – 1) = 6

Wanneer de kans op de uitkomst van de berekende chi-kwadraatwaarde of groter (rechteroverschrijdingskans),


minder is dan de gehanteerde onbetrouwbaarheid van de toets (α) dan zul je de nulhypothese verwerpen.
Voor de onbetrouwbaarheid α wordt meestal 5% genomen, soms 10% en soms 2,5% of 1%.

Voordat je de Chi-kwadraattoets uit gaat voeren zul je moeten kijken of aan de volgende voorwaarden voldaan is:
1. Alle verwachte frequenties moeten groter zijn dan 1;
2. Hooguit 20% van de verwachte frequenties mag kleiner zijn dan 5.

In figuur 6.5 zie je dat alle verwachte frequenties groter zijn dan 1. In twee van de 14 cellen is de verwachte
frequentie kleiner dan 5. Dit is gelijk aan 14%. Dus zowel aan voorwaarde 1 als aan voorwaarde 2 is voldaan.

De rechteroverschrijdingskans van de chi-kwadraat van 8,452 is gelijk aan 21%. Dit is meer dan de
onbetrouwbaarheid van 5%. Dus is er onvoldoende reden om aan te nemen dat er een verband bestaat tussen de
variabele ‘Geslacht’ en de variabele ‘Dagblad’.
Je zou deze conclusie ook kunnen trekken uit het feit dat de kritieke grenswaarde van de Chi-kwadraat bij zes
vrijheidsgraden en een onbetrouwbaarheid van 5%, gelijk is aan 12,592. Dus wanneer de berekende Chi-kwadraat
boven deze kritieke grenswaarde uit zou komen dan zijn de verschillen tussen de waargenomen en verwachte
frequenties te groot om nog te kunnen zeggen dat er geen verband bestaat.

130
6 Chi-kwadraatverdeling (X2)

Figuur 6.8: Grafiek van de chi-kwadraatverdeling bij 6 vrijheidsgraden met kritieke grenswaarde

De verschillen in percentages van figuur 6.4 zijn dus te klein om te concluderen dat er een verband bestaat tussen
‘Geslacht’ en ‘Dagblad’.

Als tweede voorbeeld wordt gekeken naar de variabelen ‘Geslacht’ en het al of niet lezen van de ‘Metro’.

Aantal van Metro Kolomlabels


Rijlabels Man Vrouw Eindtotaal
Nee 111 26 137
Ja 112 51 163
Eindtotaal 223 77 300

Figuur 6.9: Tabel van het wel of niet lezen van de ‘Metro’ per geslacht

Wanneer je de verwachtingswaarden voor alle cellen van de tabel uitrekent dan krijg je de volgende tabel.

Geslacht
Metro Man Vrouw
Nee 101,8 35,2
Ja 121,2 41,8

Figuur 6.10: Tabel van verwachte aantallen wel of niet Metrolezers per geslacht (bij geen verband tussen deze variabelen)

De bijdrage aan de chi-kwadraatwaarde kun je in de volgende tabel aflezen.

Geslacht
Metro Man Vrouw
Nee 0,825 2,388
Ja 0,693 2,007

Figuur 6.11: Tabel van gekwadrateerde verschillen gedeeld door de verwachte frequenties

In figuur 6.10 kun je zien dat aan de twee voorwaarden voor een chi-kwadraattoets wordt voldaan.

De som van de gekwadrateerde verschillen (chi-kwadraat) is gelijk aan 5,912.


Wanneer je als onbetrouwbaarheid van de toets weer 5% neemt dan is de kritieke grenswaarde bij één
vrijheidsgraad gelijk aan 3,841. De berekende chi-kwadraat ligt hier ruim boven, dus bestaat er een verband tussen
het al of niet lezen van de ‘Metro’ en het ‘Geslacht’.
De rechteroverschrijdingskans van 5,912 bij één vrijheidsgraad is gelijk aan 2%. Dit is minder dan de
onbetrouwbaarheid van de toets dus de verschillen tussen de waargenomen en de verwachte frequenties zijn te
groot. Of te wel er bestaat een verband tussen de twee variabelen.

131
Statistiek met Excel 2016

Wanneer je de tabellen van figuur 6.9 (werkelijke frequenties) en figuur 6.10 (verwachte frequenties) met elkaar
vergelijkt dan kun je concluderen dat in werkelijkheid relatief meer vrouwen de ‘Metro’ wel eens gelezen hebben
dan de mannen. Je zou dit ook gemakkelijk kunnen vinden door de tabel van 6.9 te veranderen in een procentuele
tabel met een percentage van de kolomtotalen (zie figuur 6.12).

Aantal van Metro Kolomlabels


Rijlabels Man Vrouw Eindtotaal
Nee 50% 34% 46%
Ja 50% 66% 54%
Eindtotaal 100% 100% 100%

Figuur 6.12: Relatieve procentuele tabel van Metrolezers per geslacht

6.6 Sterkte van de samenhang

Wanneer er een verband tussen twee categorische variabelen bestaat dan kun je de sterkte van dit verband
uitrekenen met behulp van de samenhangsmaat Cramer’s V.
Cramer’s V wordt uitgerekend door de waarde van de X 2 te delen door de grootte van de steekproef
vermenigvuldigt met het aantal kolommen of het aantal rijen min 1 en vervolgens hier de wortel uit te trekken.
Je neemt het aantal kolommen wanneer dit aantal kleiner is dan het aantal rijen en je neemt het aantal rijen
wanneer dit aantal kleiner is dan het aantal kolommen.
De waarde van Cramer’s V is minimaal 0 0. Er is dan geen samenhang. De waarden van de ene variabele liggen
evenredig verspreid over de waarden van de andere variabele (zie figuur 6.13).
De waarde van Cramer’s V kan maximaal 1 zijn. Je spreekt dan over volledige of perfecte samenhang. Voor elke
waarde van de ene variabele geldt dan dat deze precies overeenkomt met één waarde van de andere variabele (zie
figuur 6.14).

Geslacht Geslacht
Metro Man Vrouw Totaal Metro Man Vrouw Totaal
Nee 30 15 45 Nee 100 0 100
Ja 70 35 105 Ja 0 50 50
Totaal 100 50 150 Totaal 100 50 150

Figuur 6.13: Geen samenhang Figuur 6.14: Volledige samenhang

Hieronder kun je lezen hoe je de waarde van Cramer’s V kan interpreteren.

Tabel 6.1: Betekenis van de verschillende waarden van Cramer’s V

V Samenhang
V=0 geen
0,00 < V < 0,05 verwaarloosbaar
0,05 < V < 0,10 zwak
0,10 < V < 0,15 matig
0,15 < V < 0,25 redelijk sterk
0,25 < V < 0,50 sterk
0,50 < V < 1 zeer sterk
V =1 volkomen

Figuur 6.15: Betekenis van waarden van Cramer’s V

0
Wanneer de twee variabelen een ordinaal meetniveau hebben dan kan Cramer’s V ook negatief zijn bij een negatieve samenhang. Bij een
hogere score van de ene variabele, scoort de andere variabele dan lager.

132
6 Chi-kwadraatverdeling (X2)

6.7 Chi-kwadraat met Excel

Ook voor het berekenen van de overschrijdingskans en de kritieke grenswaarde voor de chi-kwadraat heeft Excel
ingebouwde functies, zodat je geen gebruik hoeft te maken van een tabellenboek.

Voor de overschrijdingskans kent Excel de volgende functies:

CHIKW.VERD (x; vrijheidsgraden; cumulatief) Berekent de linkeroverschrijdingskans


CHIKW.VERD.RECHTS (x; vrijheidsgraden; cumulatief) Berekent de rechteroverschrijdingskans
CHIKW.TEST (waarnemeningen; verwacht) Berekent de rechteroverschrijdingskans

Voor de kritieke grenswaarden kent Excel de volgende functies:

CHIKW.INV (kans; vrijheidsgraden) Berekent de linker kritieke grenswaarde


CHIKW.INV.RECHTS (kans; vrijheidsgraden) Berekent de rechter kritieke grenswaarde

Voor het berekenen van de verwachte frequenties en voor het berekenen van Cramer’s V kent Excel geen
ingebouwde functies. Deze functies moet je dan via de formules invoeren in Excel. Wanneer je gebruik maakt van
het Excelbestand “Chi-kwadraat” (tabblad ‘Afhankelijkheid’) hoef je alleen de waargenomen frequenties in te
typen en de onbetrouwbaarheid van de toets (α). De verwachte frequenties, aantal vrijheidsgraden, Chi-kwadraat,
overschrijdingskans en Cramer’s V worden dan uitgerekend. Bovendien kun je ook de bijdrage aan de Chi-kwadraat
per cel aflezen. Mocht er dus een verband bestaan dan kun je aan de bijdrage een indicatie krijgen waardoor dit
komt.

Als voorbeeld wordt genomen of er een verband bestaat tussen de variabelen ‘Dagblad’ en ‘Metro’. Wordt de
‘Metro’ door bepaalde dagbladabonnees meer of minder gelezen?
Open hiervoor het bestand “Chi-kwadraat” (tabblad ‘Afhankelijkheid’) en vul de cellen A10:C17 in met de gegevens
van de draaitabel uit bestand “Fictie 2000”. Typ in cel B44 de onbetrouwbaarheid van de toets (α) van 5% in.
Zie onderstaand figuur 6.16.

Figuur 6.16: Toets op afhankelijkheid tussen de variabelen ‘Dagblad’ en ‘Metro’

133
Statistiek met Excel 2016

In cel B48 kun je aflezen dat er een verband bestaat. De Chi-kwadraatwaarde in cel B45 is groter dan de kritieke
(maximale) Chi-kwadraatwaarde in cel B46. De kans dat de verschillen tussen de werkelijke (ingetypte) frequenties
en de berekende verwachte frequenties door het toeval komen is 0% (cel B47) en dit is minder dan de
onbetrouwbaarheid van de toets die je als 5% hebt gekozen (cel B44).
In cel B49 kun je aflezen dat de samenhang tussen de twee variabelen sterk is.
In de cellen P11:Q17 zie je dat de samenhang vooral veroorzaakt wordt door de dagbladabonnees van de
“Telegraaf”, “Volkskrant”, “NRC” en “Algemeen Dagblad” (grote bijdrage aan de chi-kwadraatwaarde).
Door nu de werkelijke en de verwachte frequenties met elkaar te vergelijken zie je waardoor dit verband
veroorzaakt wordt.
Van de Telegraaf- en Algemeen Dagbladabonnees zijn er in werkelijkheid meer mensen die de ‘Metro’ niet gelezen
hebben dan je zou verwachten en van de Volkskrant- en NRC abonnees zijn er in werkelijkheid juist meer mensen
die de ‘Metro’ in werkelijkheid hebben gelezen dan je zou verwachten. Voor de abonnees op de andere dagbladen
zijn de bijdragen aan de Chi-kwadraat klein en zijn dus de verschillen tussen werkelijke en verwachte aantallen ook
klein.

134
6 Chi-kwadraatverdeling (X2)

6.8 Opgaven

Voor alle opgaven moet je gebruik maken van het bestand “Fictie2000”.
1. Onderzoek of de steekproef van 300 ochtendspitsreizigers representatief is ten aanzien van de volgende
kenmerken, uitgaande van een onbetrouwbaarheidsdrempel van 5%. Geef aan welke categorieën over of
ondervertegenwoordigd zijn in de variabele waarvoor de steekproef niet representatief is.

a. Leeftijdsklassen
Van alle ochtendspitsreizigers is de verdeling in leeftijdsklassen als volgt:

Leeftijdsklassen Percentages
10 – 19 10
20 – 29 35
30 – 39 20
40 – 49 20
50 – 59 10
>=60 5
Totaal 100

1. Inkomensklassen
Van alle ochtendspitsreizigers is de verdeling in inkomensklassen als volgt:

Inkomensklassen * € 100 Percentages


0–< 5 15
5–<10 10
10–<15 25
15–<20 30
20–<25 15
>=25 5
Totaal 100

c. Reistijden
Van alle ochtendspitsreizigers is de verdeling in reistijden als volgt:

Reistijd (in minuten) Percentages


0–<20 20
20–<40 40
40–<60 20
60–<80 10
80–<100 5
>=100 5
Totaal 100

135
Statistiek met Excel 2016

Bepaal voor de variabelen van de volgende opgaven of er een verband bestaat tussen de twee genoemde
variabelen en zo ja geef aan wat het verband is en bepaal de sterkte van de samenhang. Vergeet niet te
controleren of er aan de vereiste voorwaarden voor de chi-kwadraattoets wordt voldaan. Neem als
onbetrouwbaarheid (α) 5%.

2. ‘Spits’ en ‘Geslacht’.

3. ‘Spits’ en ‘Dagblad’.

4. ‘Spits’ en ‘Opgezegd’.

5. ‘Metro’ en ‘Leeftijdscategorieën (10 – 19, 20 – 29, enz.)’.

6. ‘Spits’ en ‘Leeftijdscategorieën (10 – 19, 20 – 29, enz.)’.

7. ‘Mening Metro’ en ‘Geslacht’ alleen voor de mensen die de ‘Metro’ ook gelezen hebben.

8. ‘Mening Spits’ en ‘Geslacht’ alleen voor de mensen die de ‘Spits’ ook gelezen hebben.

9. ‘Reisdagen’ en ‘Metro’.

10. ‘Reisdagen’ en ‘Spits’.

11. ‘Metro’ en ‘Reistijd categorieën ( 0 – 19, 20 – 39, 40 – 59, 60 – 79, 80 – 99, 100 en meer)’.

136
7 Enkelvoudige lineaire regressie- en correlatieanalyse

7 Enkelvoudige lineaire regressie- en correlatieanalyse

7.1 Inleiding

Bij regressie-analyse gaat het om het ontwikkelen van modellen, die de samenhang tussen een te verklaren
variabele en één of meerdere verklarende variabelen beschrijven, met als doel een voorspelling te kunnen geven
voor een te verklaren variabele met behulp van de verklarende variabele(n).
Een te verklaren variabele in een regressiemodel wordt ook wel de afhankelijke variabele genoemd en de
verklarende variabele(n) de onafhankelijke variabele(n).
Zo zal de ‘Prijs’ die adverteerders voor een advertentie in de “Spits” willen betalen afhangen van de ‘Oplage’ van
de “Spits”. De ‘Prijs’ is dan de afhankelijke (te verklaren) variabele en de ‘Oplage’ de onafhankelijke (verklarende)
variabele.
In de praktijk zal de te verklaren variabele vaak van meer dan één verklarende variabele afhangen. Wordt meer
dan één verklarende variabele in het onderzoek betrokken, dan is er sprake van meervoudige regressie-analyse.
Als het onderzoek zich beperkt tot één verklarende variabele dan is er sprake van enkelvoudige regressie-analyse.
Er wordt dan uitgegaan van de ceteris paribus voorwaarde, wat wil zeggen dat alle overige verklarende variabelen,
die niet in het onderzoek worden opgenomen, constant verondersteld worden.
Bij correlatie-analyse gaat het om de sterkte van het verband tussen twee variabelen te onderzoeken.
Zowel bij correlatie- als bij regressie-analyse moeten de variabelen kwantitatief zijn. Wanneer één of meerdere
variabelen kwalitatief zijn, dan zal een andere statistische techniek gebruikt moeten worden bij het onderzoek
naar samenhang tussen de variabelen.

7.2 Regressiemodellen

In hoofdstuk 3.3.5 wordt het verband tussen de variabele ‘Leeftijd’ en de variabele ‘Inkomen’ weergegeven in een
spreidingsdiagram. Het ‘Inkomen’ is afhankelijk van de ‘Leeftijd’, dus wordt de variabele ‘Inkomen’ op de verticale
(Y) as weergegeven en de variabele ‘Leeftijd’ op de horizontale (X) as.

De samenhang tussen variabelen kan met eenvoudige tot zeer complexe wiskundige functies beschreven worden.
De meest eenvoudige vorm is een rechte lijn.
De wiskundige functie van een rechte lijn is:

y=a*x+b

waarbij:

x : onafhankelijke (verklarende) variabele


y : afhankelijke (te verklaren) variabele
a : richtingscoëfficiënt (de toename van eenheden y wanneer x met één eenheid toeneemt)
b : snijpunt met de y-as (de waarde van y, wanneer x gelijk is aan nul)

In grafiek 7.1 blijkt dat de lineaire regressielijn tussen de variabelen ‘Leeftijd’ en ‘Inkomen’ als volgt kan worden
weergegeven:

y = 0,4935 x – 2,2733

Wanneer iemand één jaar ouder is zal het inkomen 0,4935 * €100 = € 49,35 hoger zijn.

137
Statistiek met Excel 2016

Grafiek 7.1: Spreidingsdiagram van leeftijd en inkomen


40
y = 0,4935x - 2,2733
35

30
Inkomen (* € 100)

25

20

15

10

0
0 10 20 30 40 50 60 70
Leeftijd
Fi
guur 7.1: Spreidingsdiagram van leeftijd en inkomen

Of je voor je model een lineaire functie moet gebruiken of een meer complexere wiskundige functie is afhankelijk
van de verdeling van de (x,y)-waarden in je spreidingsdiagram. Voorbeelden van verschillende vormen van
regressie (verbanden) tussen x en y kun je in de volgende grafieken zien.

Bij grafiek A nemen de waarden van y ongeveer lineair evenredig toe met de toenames van de waarden van x. Een
voorbeeld hiervan kun je in grafiek 7.1 zien waarbij de samenhang tussen ‘Leeftijd’ en ‘Inkomen’ is weergegeven.

Bij grafiek B nemen de waarden van y ongeveer lineair evenredig af met de toenames van de waarden van x. Een
dalende regressielijn houdt in dat het verband negatief is. Een voorbeeld van een negatief lineair verband is
bijvoorbeeld de samenhang tussen de ‘Prijs van een product’ en de ‘Verkopen van dat product’.

Bij grafiek C is er geen verband. Hoge en lage y-waarden kom je bij alle x-waarden tegen.

Bij grafiek D nemen de waarden van y toe, wanneer de x-waarden groter worden. In het begin zijn deze toenames
meer dan evenredig, aan het eind minder dan evenredig. Een voorbeeld van een positief kromlijnig verband is
‘Bestedingen aan reclame voor een product’ en de ‘Verkopen van dat product’. In het begin zullen de verkopen
behoorlijk toenemen tot een moment dat je met de reclame je volledige doelgroep hebt bereikt, waarbij de
verkopen nagenoeg constant blijven.

Bij grafiek E nemen de waarden van y af, wanneer de x-waarden groter worden. In het begin zijn deze afnames
meer dan evenredig en aan het eind minder dan evenredig. Als voorbeeld kun je denken aan het verband tussen
de variabelen ‘Afschrijvingen’ en ‘Jaren’. De waardevermindering van auto’s is in de eerste jaren aanzienlijk meer,
dan later.

Bij grafiek F nemen de waarden van y eerst af, wanneer de x-waarden groter worden. Vervolgens nemen de y
waarden toe, bij toename van de waarden van x. Hierbij kun je denken aan het verband tussen de variabelen ‘Tijd’
en het ‘Aantal fouten dat iemand maakt bij een bepaald werk’. Door oefenen zul je snel minder fouten gaan
maken, maar als je een bepaalde taak lang uitoefent zal het aantal fouten weer gaan toenemen, door
vermoeidheid of door de saaiheid die dan optreedt.

138
7 Enkelvoudige lineaire regressie- en correlatieanalyse

Grafiek A: Positief lineair verband Grafiek B: Negatief lineair verband


Y Y

X X

Grafiek D: Positief kromlijnig verband


Y

Grafiek C: Geen verband


Y

X
Grafiek E: Negatief kromlijnig verband Grafiek F: U-vormig verband
Y Y

X X

7.3 Het lineaire regressiemodel

139
Statistiek met Excel 2016

Wanneer je naar grafiek 7.1 of naar grafiek A kijkt, dan blijken niet alle punten op één rechte lijn te liggen. Toch
kun je een rechte lijn zo tekenen, dat de meeste punten vrij dicht in de buurt van deze lijn liggen. De lijn die het
verband tussen x en y het beste weergeeft heet de regressielijn.
De regressielijn wordt bepaald met de kleinste kwadratenmethode. Volgens deze methode is de regressielijn, die
lijn, waarbij de som van de kwadraten van de verticale afstanden van de punten uit het spreidingsdiagram tot die
lijn minimaal is. Net zoals bij de variantie wordt er gekeken naar de gekwadrateerde afstanden, omdat er zowel
punten boven als onder de lijn liggen.
De verticale afstand van een punt uit het spreidingsdiagram tot de regressielijn heet een residu. Deze residuen
worden dus gekwadrateerd en opgeteld. De regressielijn is dus die lijn, waarvoor de residuele kwadraatsom
minimaal is.
Grafiek 7.2: Spreidingsdiagram met regressielijn

y = ax + b
Y
y5

r5

y2

r4
r2 y4

r3
y3

r1
y1

X
Figuur 7.2: Spreidingsdiagram met regressielijn

In hoeverre een regressielijn een goede beschrijving weergeeft van het verband tussen x en y en vervolgens een
goede voorspelling geeft van de waarde van y bij een gegeven x-waarde is afhankelijk van hoever de punten van de
regressielijn afliggen en hoeveel punten in de regressie-analyse zijn meegenomen.
Een lineair model is geschikt, wanneer de waargenomen punten, niet te ver van de lineaire regressielijn afliggen.
Daarvoor moet je een maat gebruiken die geschikt is om de afstand van de verschillende punten tot de
regressielijn te meten.

Deze maat heet de determinatiecoëfficiënt (r 2) en is gelijk aan de verklaarde variantie gedeeld door de totale
variantie.
Bij de totale variantie wordt gekeken naar de som van de gekwadrateerde afstanden tussen de waargenomen y-

waarden en het gemiddelde van y ( ). y


Bij de verklaarde variantie wordt gekeken naar de som van de gekwadrateerde afstanden tussen de waarden van

y op de regressielijn en het gemiddelde van y ( ). y


Daarnaast heb je nog de som van de gekwadrateerde afstanden tussen de waarden van y op de regressielijn en de
waargenomen y-waarden, waarbij je kijkt naar de onverklaarde variantie.
Oftewel waarom niet alle waargenomen waarden van y gelijk zijn aan het gemiddelde van y kun je gedeeltelijk
verklaren door het verband tussen x en y met behulp van de regressielijn. Maar niet alle punten liggen op de
regressielijn, wat door andere (niet te verklaren) oorzaken komt. x i

140
7 Enkelvoudige lineaire regressie- en correlatieanalyse

Grafiek 7.3: Maten van variantie bij regressie

Y y^
yi
Onverklaarde variantie

Totale variantie
Verklaarde variantie

y-

xi X
Figuur 7.3: Maten van variantie bij regressie
7.4 Lineaire regressie met Excel

Met Excel kun je op verschillende manieren 0 de vergelijking van de lineaire regressielijn bepalen. De methode die
hier besproken wordt is met behulp van grafieken.

Enkelvoudige lineaire regressieanalyse is een techniek om het lineaire (rechtlijnige) verband tussen twee
kwantitatieve variabelen te bepalen met als doel het voorspellen van de grootte van een afhankelijke variabele (y)
door middel van de grootte van een andere onafhankelijke variabele (x).
Dit lineaire verband kan dan beschreven worden met de functie:
y = ax + b

Als voorbeeld dienen de variabelen ‘Leeftijd’ en ‘Inkomen’ uit het bestand “Fictie2000”. Je zou kunnen verwachten
dat men een hoger inkomen geniet naarmate men ouder is. De onafhankelijke variabele (x) is dan de ‘Leeftijd’ en
de afhankelijke variabele (y) het ‘Inkomen’.

Werkwijze:
1. Open het bestand “Fictie2000”.
2. Open een nieuw werkblad. Klik op het tabblad Invoegen en klik vervolgens in de groep van Grafieken op
Spreidingsdiagrammen en selecteer het eerste spreidingsdiagram. Omdat je nog geen gegevens geselecteerd
hebt krijg je een lege grafiek.

0
Je kunt gebruik maken van Functies, Grafieken of Gegevensanalyse. De snelste methode die ook een goed beeld weergeeft is die met behulp
van Grafieken.

141
Statistiek met Excel 2016

Figuur 7.4: Invoegen van een spreidingsdiagram

3. Klik op het tabblad Ontwerpen en vervolgens op Gegevens selecteren.

Figuur 7.5: Openen van het dialoogvenster om gegevens te selecteren voor de grafiek

142
7 Enkelvoudige lineaire regressie- en correlatieanalyse

4. Klik bij Gegevensbron selecteren op Toevoegen.

Figuur 7.6: Openen van het dialoogvenster om gegevens toe te voegen aan de grafiek

5. Bepaal welke van de twee variabelen de onafhankelijke variabele is (‘Leeftijd’) en vul deze gegevens (door te
selecteren van het tabblad Data) in bij Reeks X-waarden. De afhankelijke gegevens (‘Inkomen’) vul je
vervolgens in bij Reeks Y-waarden.

Figuur 7.7: Reeks bewerken door de X- en Y-waarden te selecteren voor het spreidingsdiagram

6. Voeg de horizontale en vertikale titels toe.


Je krijgt dan de volgende grafiek.

Bron: “Fictie 2000”

Figuur 7.8: Spreidingsdiagram van leeftijd en inkomen

143
Statistiek met Excel 2016

Om de regressielijn te krijgen moet je in het lint op het tabblad van Ontwerpen (Hulpmiddelen voor grafieken)
klikken en vervolgens op Grafiekonderdeel toevoegen in de groep van Grafiekindelingen. Klik hierna op Trendlijn
uit het afrolmenu en daarna op Lineair.

Figuur 7.9: Toevoegen van de lineaire trendlijn in het spreidingsdiagram

Je kunt dit ook krijgen door met de rechtermuisknop te klikken op één van de punten weergegeven in de grafiek
en vervolgens op Trendlijn toevoegen.
Kies bij Meer opties voor trendlijnen … de radioknop voor Lineair, vink Vergelijking in grafiek weergeven en R-
kwadraat in grafiek weergeven aan en klik Sluiten.

Figuur 7.10: Ingevuld dialoogvenster voor het opmaken van de trendlijn

144
7 Enkelvoudige lineaire regressie- en correlatieanalyse

Je krijgt dan het volgende resultaat.

Bron: “Fictie 2000”

Figuur 7.11: Spreidingsdiagram van leeftijd en inkomen met regressielijn en vergelijking

R2 is de determinatiecoëfficiënt0. Dit is een maat voor de fractie van de variantie van het ‘Inkomen’ dat van de
‘Leeftijd’ afhankelijk is. Oftewel een verandering in het inkomen kan voor 66,35% verklaard worden door de
verandering in de leeftijden. 33,65% van de verandering in het inkomen hangt dan af van andere factoren die hier
niet onderzocht zijn, bijvoorbeeld opleiding, branche waarin men werkzaam is, enz.

0
De determinatiecoëfficiënt kun je ook met de statistische functie R.KWADRAAT(y-bekend;x-bekend) laten berekenen.

145
Statistiek met Excel 2016

7.5 Correlatie-analyse

De sterkte van het verband tussen twee variabelen in een populatie wordt over het algemeen gemeten met de
correlatiecoëfficiënt r. De betekenis van r kun je in onderstaande tabel aflezen:

Tabel 7.1: Betekenis van de verschillende waarden van de correlatiecoëfficiënt (r)

Waarde van r Sterkte


-0,2 < r < 0,2 verwaarloosbare correlatie
0,2 < r < 0,4 of –0,4 < r < -0,2 zwakke correlatie
0,4 < r < 0,7 of –0,7 < r < -0,4 matige correlatie
0,7 < r < 0,9 of –0,9 < r < -0,7 sterke correlatie
0,9 < r < 1 of –1 < r < -0,9 zeer sterke correlatie
r =1 of r = -1 volkomen correlatie

Een positieve correlatie houdt in dat een stijging van de onafhankelijke (verklarende) variabele een stijging van de
afhankelijke (de te verklaren) variabele tot gevolg heeft. Een negatieve correlatie dat een stijging van de
onafhankelijke variabele een daling van de afhankelijke variabele tot gevolg heeft. Dit komt overeen met een
positieve, respektievelijk negatieve richtingscoëfficiënt van de regressielijn. Bij volkomen correlatie liggen alle
punten van het spreidingsdiagram op de regressielijn.
De sterkte van de correlatie wordt natuurlijk ook bepaald door de betrouwbaarheid van r, oftewel door het aantal
punten van het spreidingsdiagram.

7.6 Correlatie-analyse met Excel

Wanneer je in het spreidingsdiagram de determinatiecoëfficiënt hebt laten weergeven dan kun je de correlatie
snel uitrekenen door de wortel te nemen uit deze coëfficiënt. De wortelfunctie in Excel geeft altijd alleen de
positieve waarde aan. Of je nu dit positieve getal moet hebben of juist het negatieve getal is afhankelijk van de
richting van de regressielijn. Heb je te maken met een stijgende lijn (regressiecoëfficiënt is dan positief), dan moet
je de positieve wortel hebben en wanneer je te maken hebt met een dalende lijn (regressiecoëfficiënt is dan
negatief) dan moet je de negatieve uitkomst van de wortel nemen.

De correlatiecoëfficiënt (r) kun je ook in Excel met de statistische functie CORRELATIE(matrix1;matrix2) laten
berekenen. Wanneer je deze functie gebruikt dan wordt direct aangegeven of het verband (correlatie) positief of
negatief is.

Figuur 7.12: Openen van het dialoogvenster van de functie CORRELATIE

146
7 Enkelvoudige lineaire regressie- en correlatieanalyse

In tegenstelling tot de lineaire regressieanalyse maakt het voor het berekenen van de correlatiecoëfficiënt niet uit
wat je als onafhankelijke- en wat als afhankelijke variabele kiest.
Voor het berekenen van de correlatiecoëfficiënt in het voorbeeld van de leeftijden en de inkomens, kun je voor
matrix1 Data!C2:C301 en voor matrix2 Data1!F2:F301 kiezen.

Figuur 7.13: Ingevuld dialoogvenster voor het berekenen van de correlatie tussen ‘Leeftijd’ en ‘Inkomen’

Dit levert dan een r-waarde van 0,8145 (sterke positieve correlatie) op. Het verwisselen van de twee matrices
heeft geen invloed op de waarde van r.

Wanneer je enkelvoudige lineaire regressieanalyse uitvoert met behulp van een spreidingsdiagram wordt de
correlatiecoëfficiënt niet weergegeven, maar kun je deze berekenen door de wortel uit de determinatiecoëfficiënt
te trekken.

7.7 Lineaire regressie bij tijdreeksen

Ook bij tijdreeksanalyse (zie ook hoofdstuk 8) wordt vaak lineaire regressie toegepast, waarbij de tijd (bijvoorbeeld
het jaar) als onafhankelijke variabele wordt beschouwd.

Neem als voorbeeld de gegevens van tabel 3.5 Percentage dagbladabonnementen van de 18 tot 25 jarigen over de
periode 1997 – 2008. De Nederlandse Dagbladen verwachten een lineair verband tussen de jaren (onafhankelijke
variabele) en de behaalde omzet (afhankelijke variabele).
Om dit lineaire verband te vinden zou je bijvoorbeeld gebruik kunnen maken van het maken van een
spreidingsdiagram.

Werkwijze:
1. Open het bestand “Dagbladabonnement.xlsx.” en open in dit bestand een nieuw werkblad om een
spreidingsdiagram in te voegen.
2. Selecteer de gegevens waarbij je de cellen B1:M1 als X-waarden kiest (tijd is altijd de onafhankelijke variabele)
en de cellen B2:M2 als Y-waarden.
3. Voeg titels toe en schakel legenda weergeven uit.
4. Klik op het tabblad Indeling en vervolgens op Trendlijn in de groep van Analyse. Voeg de lineaire trendlijn toe
en de vink de opties van Vergelijking in grafiek weergeven en R-kwadraat in grafiek weergeven aan.
De grafiek ziet er dan als volgt uit.

147
Statistiek met Excel 2016

Bron: Centraal Bureau voor de Statistiek, Den Haag/Heerlen 19-6-2009

Figuur 7.14: Spreidingsdiagram van dagbladabonnementen van 18 tot 25 jaar over de periode 1997 – 2008

Met behulp van de statistische functie TREND(y-bekend;x-bekend;x-nieuw;const) kun je in één keer voorspellingen
doen voor de komende jaren op basis van de (lineaire) regressielijn.

Wanneer je bijvoorbeeld voor het percentage dagbladabonnementen van de groep 18 tot 25 een voorspelling wilt
doen voor de jaren 2009 tot en met 2011 voer dan eerst in de cellen N1:P1 de desbetreffende jaren in (dus in N1:
2009, in O1: 2010 en in P1: 2011). Selecteer nu de cellen waarin je de voorspelde percentages voor deze jaren wilt
hebben. Dus selecteer bijvoorbeeld de cellen N2:P2.
Klik op het tabblad van Formules en vervolgens op Functie invoegen in de groep van Functiebibliotheek. Klik op
Statistisch en vervolgens op TREND.

Figuur 7.15: Openen van het dialoogvenster van de functie TREND

Vul nu bij Y-bekend B2:M2, bij X-bekend B1:M1 en bij X-nieuw N1:P1 in. Bij Const kun je niks invullen of WAAR. Zie
het volgende scherm.

148
7 Enkelvoudige lineaire regressie- en correlatieanalyse

Figuur 7.16: Ingevuld dialoogvenster van de functie TREND

Klik niet op OK maar gelijktijdig op de Ctrl- de Shift- en de Entertoets. Je krijgt dan het volgende resultaat.

Figuur 7.16: Excelblad met berekende percentages op basis van regressieanalyse

Natuurlijk is het beter om de waarden in de cellen N2:P2 af te ronden op gehele getallen.

149
Statistiek met Excel 2016

7.8 Niet lineaire regressiemodellen

Bij alle beschreven verbanden in dit hoofdstuk ben je uitgegaan van een rechtlijnig (lineair) verband tussen twee
variabelen. Vaak heb je te maken met een niet lineair verband. Denk bijvoorbeeld aan de grafiek van de
productlevenscyclus (introductie, groei, rijpheid, verzadiging, neergang), waarbij de omzet afhankelijk is van de
tijd. Deze grafiek is zeker niet rechtlijnig, maar vertoont duidelijk een polynomisch karakter.

Met behulp van Excel is het vrij eenvoudig om, gebruik makend van het spreidingsdiagram, andere niet lineaire
regressiemodellen (polynomen, exponentieel, logaritmisch, machten) te vinden.
Bij het opmaken van de trendlijn moet je dan voor een ander Type kiezen.

Figuur 7.18: Ingevuld dialoogvenster voor het toevoegen van een polynomische trendlijn

Als voorbeeld zie je hieronder een polynomisch verband tussen de variabele ‘Leeftijd’ en ‘Inkomen’ van de
gegevens uit het bestand “Fictie2000”.

150
7 Enkelvoudige lineaire regressie- en correlatieanalyse

Bron: Fictie2000

Figuur 7.19: Spreidingsdiagram van leeftijd en inkomen met polynomische trendlijn

Wanneer je de determinatiecoëfficiënt bij dit polynomische model vergelijkt met die van het lineaire model, kom je
tot de conclusie dat dit polynomische model een betere beschrijving geeft van het verband tussen de variabelen
‘Leeftijd’ en ‘Inkomen’.

7.9 Voorspellingen

Hoe goed een voorspelling is hangt af van:

1. Of je een voorspelling doet van een waarde die in het bereik van x-waarden ligt, dus tussen de laagste en
hoogste waarneming van x (interpoleren), of dat deze waarde buiten het bereik ligt (extrapoleren).
Interpoleren kan een goede voorspelling opleveren, extrapoleren, zeker als de waarde ver buiten het bereik
ligt, over het algemeen niet. Dus een inkomen voorspellen van een treinreiziger in de ochtendspits met een
leeftijd van 45 jaar (interpoleren) op basis van de regressielijn is betrouwbaarder dan het inkomen voorspellen
van een treinreiziger in de ochtendspits met een leeftijd van 70 jaar (extrapoleren).
2. De determinatiecoëffiënt (r2). Hoe dichter deze bij 1 ligt des te juister is de voorspelling.
3. Het aantal punten in het spreidingsdiagram. In het voorbeeld is de regressielijn gebaseerd op 300
waarnemingen (punten). Wanneer je bijvoorbeeld de regressielijn zou laten bepalen op basis van de eerste 10
respondenten (punten) dan krijg je wel een hogere determinatiecoëfficiënt, maar wordt het 95%
betrouwbaarheidsinterval voor het snijpunt met de y-as en de richtingscoëfficiënt beduidend groter.

Aantal Determinatie- Snijpunt Richtingscoëfficiënt


waarnemingen coëfficiënt Laagste 95% Hoogste 95% Laagste 95% Hoogste 95%
300 0,663 -3,674 -0,873 0,453 0,534
10 0,831 -14,673 1,701 0,419 0,905

Figuur 7.20: Tabel met effect van aantal waarnemingen op de betrouwbaarheidsintervallen

151
Statistiek met Excel 2016

7.10 Opgaven

1. Men wil een eventueel verband tussen de variabele ‘Inkomen’ en de variabele ‘Reistijd’ onderzoeken met
behulp van de gegevens van het bestand “Fictie2000”. De verwachting is namelijk dat mensen die meer
verdienen bereid zijn verder voor dit werk te reizen.
a. Onderzoek de correlatie tussen ‘Inkomen’ en ‘Reistijd’.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Inkomen’
en de (afhankelijke) variabele ‘Reistijd’.
c. Welke reistijd zou je op basis van de lineaire regressielijn verwachten voor iemand met een inkomen van
20 (* € 100)?
d. Wat vind je van de betrouwbaarheid van de voorspelling gedaan in onderdeel c?

2. Men wil een eventueel verband tussen de variabele ‘Reistijd’ en de variabele ‘Aantal reisdagen’ onderzoeken
met behulp van de gegevens van het bestand ”Fictie2000”. De verwachting is dat mensen die een langere
reistijd hebben op minder dagen reizen.
a. Onderzoek de correlatie tussen ‘Reistijd’ en ‘Aantal reisdagen’.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Reistijd’ en
de (afhankelijke) variabele ‘Aantal reisdagen’.
d. Voorspel het aantal reisdagen bij een reistijd van 100 minuten.
e. Wat kun je zeggen over de betrouwbaarheid van de voorspelling?

3. Men wil een eventueel verband tussen de variabele ‘Leeftijd’ en de variabele ‘Inkomen’ onderzoeken van
vrouwelijke reizigers met behulp van de gegevens van het bestand “Fictie2000”.
a. Onderzoek de correlatie tussen ‘Leeftijd’ en ‘Inkomen’ van de vrouwelijke respondenten.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Leeftijd’ en
de (afhankelijke) variabele ‘Inkomen’ van de vrouwelijke respondenten.
c. Welk inkomen zou je verwachten op basis van de lineaire regressielijn voor een vrouwelijke reiziger in de
ochtendspits die 40 jaar oud is?
d. Wanneer je de antwoorden van a. en b. vergelijkt met de correlatie en lineaire regressielijn met
betrekking tot alle respondenten wat valt je dan op?

4. Men wil een eventueel verband bij de categorie van 25 tot 35 jaar tussen de variabele ‘Percentage
dagbladabonnementen’ en de variabele ‘Jaren’ onderzoeken met behulp van de gegevens over de jaren 1997
tot en met 2008 van het bestand “Dagbladabonnementen.xlsx”. De verwachting is dat door de tijd heen het
percentage dagbladabonnementen afneemt.
a. Bepaal de correlatie tussen ‘Jaren’ en ‘Percentage dagbladabonnementen’ voor de categorie 25 tot 35
jaar.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de variabele ‘Jaren’ en de variabele
‘Percentage dagbladabonnementen’ voor de categorie 25 tot 35 jaar.
c. Geef een voorspelling voor het jaar 2015 van het percentage dagbladabonnementen voor de categorie 25
tot 35 jaar.
d. Welke opmerkingen kun je maken met betrekking tot de voorspelling?

5. Men wil een eventueel verband bij de categorie van 75 jaar en ouder tussen de variabele ‘Percentage
dagbladabonnementen’ en de variabele ‘Jaren’ onderzoeken met behulp van de gegevens over de jaren 1997
tot en met 2008 van het bestand “Dagbladabonnementen.xlsx”. De verwachting is dat door de tijd heen het
percentage dagbladabonnementen afneemt.
a. Bepaal de correlatie tussen ‘Jaren’ en ‘Percentage dagbladabonnementen’ voor de categorie 75 jaar en
ouder.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de variabele ‘Jaren’ en de variabele
‘Percentage dagbladabonnementen’ voor de categorie 75 jaar en ouder.
c. Geef een voorspelling voor de periode 2009 – 2011 van het percentage dagbladabonnementen voor de
categorie 75 jaar en ouder.
d. Welke opmerkingen kun je maken met betrekking tot de voorspelling?

152
8 Tijdreeksanalyse

153
Statistiek met Excel 2013

8 Tijdreeksanalyse

8.1 Inleiding

In hoofdstuk 7 heb je de samenhang tussen twee kwantitatieve variabelen onderzocht. In dit hoofdstuk beschouw
je daarvan een speciaal geval, waarbij de onafhankelijke variabele steeds de ‘Tijd’ is.
Het doel van tijdreeksanalyse is het voorspellen van de waarde die een variabele op een bepaald moment in de
toekomst zal aannemen. Dit doel kan bereikt worden door het gedrag van de variabele in het verleden te
bestuderen. Via een analyse kun je proberen de grootte van de factoren, die het verloop van de variabele bepalen,
vast te stellen. Deze factoren zijn: de trend, de conjunctuurinvloed, het seizoenpatroon, de toevallige afwijking en
de trendbreuk. Met behulp van deze factoren probeer je een wiskundig model te ontwikkelen, dat het mogelijk
maakt om een voorspelling te kunnen doen voor de onderzochte variabele.
Eerst komen de verschillende tijdreekscomponenten aan de orde, waarna de verschillende methoden om de trend
te bepalen behandeld worden, vervolgens het seizoenpatroon om te eindigen met toevallige afwijkingen.

8.2 De componenten van een tijdreeks

Schommelingen in een economische tijdreeks worden veroorzaakt door vijf componenten:


 trend
 conjunctuurinvloed
 seizoensinvloed
 toevallige afwijking
 trendbreuk

Grafiek 8.1: De componenten van een tijdreeks


Waargenomen variabele

trend

trendbreuk

trend

De verticale gestippelde lijnstukken geven een afwijking van de trend veroorzaakt


door seizoensinvloed, conjunctuur en toevallige afwijking

Tijd
Figuur 8.1: Componenten van een tijdreeks

8.2.1 Trend

De trend in een tijdreeks is de gemiddelde ontwikkeling van een variabele op lange termijn. In het dagelijks leven
zegt men wel: “Het aantal treinen dat op tijd rijdt vertoont een dalende trend”. Of: “Het aantal reizigers dat de

154
8 Tijdreeksanalyse

N.S. dagelijks vervoert vertoont een stijgende trend”. Dit laatste wil niet zeggen dat het aantal reizigers elke dag
meer is dan de dag ervoor, maar wel: “Ondanks de schommelingen stijgt het aantal door de N.S. vervoerde
reizigers op de lange termijn. Bij tijdreeksen speelt meestal niet alleen de trend een rol in de hoogte van de cijfers.
Zou dit wel het geval zijn, dan zou je bij het ontwikkelen van een wiskundig model om voorspellingen te doen,
kunnen volstaan met de technieken uit de regressieanalyse genoemd in hoofdstuk 6.

8.2.2 Conjunctuurinvloed

Veel economische verschijnselen worden in bepaalde mate beïnvloed door de conjunctuurbeweging, zoals het
nationale inkomen, de werkgelegenheid, de besparingen en investeringen, de import en de export.
In de algemene economie wordt onderscheid gemaakt tussen drie cyclische invloeden:
 Kitchingolf met een tijdsduur van ongeveer 4 jaar;
 Juglargolf met een tijdsduur van ongeveer 9 jaar;
 Kondratieffgolf met een tijdsduur van ongeveer 50 jaar.
De tijdsduur van een conjunctuurcyclus is lastig te bepalen en loopt afhankelijk van de variabele nogal uiteen. De
invloed van de verschillende conjunctuurgolven is in Nederland nogal beperkt. Zo komt op de gemiddelde
economische groei van 2,5% in Nederland ten gevolge van de Kitchingolf nog maximaal plus of min 2,5% erbij. Ten
slotte heb je vaak slechts de beschikking over cijfermateriaal dat minder dan één cycluslengte beslaat. Dit maakt
het schatten van de grootte van de cyclische component haast onmogelijk. Het opnemen van de conjunctuurcyclus
in een wiskundig tijdreeksmodel wordt daarom in dit hoofdstuk om bovengenoemde redenen achterwege gelaten.
De berekening van de cyclische component loopt analoog aan die van de seizoensinvloed.

8.2.3 Seizoensinvloed

Als je naar het aantal door de N.S. vervoerde reizigers kijkt, zul je merken dat tussen 7 uur en 9 uur ’s ochtends het
aantal reizigers behoorlijk wat meer is dan tussen 12 uur en 2 uur ’s middags. Er is een patroon per dag en er
wordt dan ook wel gesproken over een dagcyclus.
Vergelijk je het aantal vervoerde reizigers op verschillende dagen, dan zul je merken dat dit aantal door de week
aanmerkelijk meer is dan in het weekend. Behalve over een dagcyclus zou je dus ook over een weekcyclus kunnen
spreken.
Op eenzelfde manier zou je kunnen kijken naar het aantal vervoerde reizigers per maand (maandcyclus) of per jaar
(jaarcyclus).
Elke regelmatige beweging met vaste tijdlengte (ook wel cycluslengte genoemd), heet een seizoenbeweging.
Het seizoenpatroon bestaat uit een totaal van gemiddelde schommelingen rond de trend. De schommelingen die
door het seizoen veroorzaakt worden zijn op overeenkomstige tijdstippen waargenomen (tijdstippen die één of
meer cycluslengten verschillen) en daarna gemiddeld.
De belangrijkste seizoenbeweging in de economie is die met een cycluslengte van één jaar.
Zo vervoert de N.S. in de winter aanmerkelijk meer reizigers (boven de trend of het gemiddelde) dan in de zomer
(onder de trend of het gemiddelde).

8.2.4 Toevallige afwijking

Het tijdreekscijfer zal meestal niet gelijk zijn aan het trendcijfer waarin de seizoenbeweging verwerkt is. De
afwijking tussen deze twee getallen, die meestal klein is ten opzichte van het trendcijfer en het getal dat het
seizoenpatroon weergeeft, wordt toevallige afwijking genoemd.
De grootte van deze toevallige afwijking wordt veroorzaakt door het toeval.
Zo zou het wel eens kunnen voorkomen dat het aantal vervoerde reizigers door de N.S. op een maandag iets hoger
of iets lager is dan je zou verwachten op basis van de trend (het gemiddelde) en het wekelijks patroon op de
maandag (seizoenpatroon).

155
Statistiek met Excel 2013

8.2.5 Trendbreuk

Een trendbreuk is een éénmalige onregelmatigheid waardoor de hoogte van de trend of de richting van de trend
drastisch en blijvend verandert. Een blijvende drastische verhoging van de trend in het aantal vervoerde reizigers
door de N.S. is bijvoorbeeld de invoering van de Openbaar Vervoerskaart voor studenten geweest.
Zo is in de Verenigde Staten het aantal vliegtuigreizigers drastisch gedaald naar de aanslagen op het World Trade
Centre in september 2001. Ook de beursindices lieten bij de kredietcrisis een drastische daling zien.
Omdat een trendbreuk zelden voorkomt en meestal niet te voorspellen is, zal deze tijdreekscomponent bij het
ontwikkelen van tijdreeksmodellen achterwege blijven.
Soms treedt er een trendonderbreking op. Er is sprake van een trendonderbreking als er van één of meerdere
perioden gegevens ontbreken. Na de cijferloze periode beweegt de trend zich in dezelfde richting en op ongeveer
hetzelfde niveau als voor de onderbreking, dit in tegenstelling tot de situatie na een trendbreuk.
Zo zal bijvoorbeeld na een staking door het N.S. personeel (trendonderbreking) het aantal vervoerde reizigers
ongeveer weer evenveel zijn als ervoor.

8.3 Trend via lineaire regressie (kleinste kwadraten methode)

In dit hoofdstuk wordt het lineaire model besproken (zie ook hoofdstuk 7 lineaire regressieanalyse).

Bij het lineaire model is de trend een rechte lijn: y = ax + b waarbij y de variabele is die bestudeerd wordt en x de
verschillende jaren (of kwartalen). A is de richtingscoëfficiënt van de lijn en b het snijpunt met de y-as.

Voorbeeld

In tabel 8.1 kun je de verschillende omzetbedragen per kwartaal aflezen van een ijszaak op een station.
Van deze gegevens wil men de trend bepalen door de seizoensinvloeden uit te schakelen.

Tabel 8.1: Kwartaalomzetbedragen (* € 1.000) van een ijszaak

Jaar Kwartaal Omzet (* € 1.000)


2009 I 118
II 237
III 425
IV 165
2010 I 117
II 235
III 422
IV 170
2011 I 127
II 258
III 432
IV 186
2012 I 135
II 273
III 437
IV 195
2013 I 140
II 282
III 441
IV 200

156
8 Tijdreeksanalyse

Werkwijze:
1. Open een nieuw excelbestand en typ in cel A1 ‘Kwartaal’ en vervolgens in de cellen A2:A21 de verschillende
kwartalen 1, 2, 3, 4, 5, enz. Typ in cel B1 ‘Omzet’ en vervolgens in de cellen B2:B21 de verschillende
omzetbedragen. Open in dit bestand een nieuw werkblad om een spreidingsdiagram in te voegen.
2. Selecteer de gegevens waarbij je de cellen A2:A21 als X-waarden kiest (tijd is altijd de onafhankelijke
variabele) en de cellen B2:B21 als Y-waarden.
3. Voeg titels toe en schakel legenda weergeven uit.
4. Klik op het tabblad Indeling en vervolgens op Trendlijn in de groep van Analyse. Voeg de lineaire trendlijn toe
en de vink de opties van Vergelijking in grafiek weergeven en R-kwadraat in grafiek weergeven aan.

De grafiek ziet er dan als volgt uit.

Grafiek 8.2: Omzetbedragen per kwartaal van een ijszaak


500

y = 3,282x + 215,29
400
1.000)

R² = 0,027

300
Omzet (*

200

100

0
0 5 10 15 20 25
Kwartaal

Figuur 8.2: Spreidingsdiagram van omzetbedragen per kwartaal

Door de seizoenschommelingen is de determinatiecoëfficiënt erg klein. In het eerste, derde en vierde kwartaal
wijken de omzetbedragen behoorlijk af van de trend (gemiddelde).

8.4 Trend via voortschrijdend (zwevend) gemiddelde

Om de cyclische component (seizoenpatroon of conjunctuur) uit te schakelen wordt een gemiddelde berekend
over de lengte van de cyclus.
Wanneer je de beschikking hebt over trimestergegevens en je wilt de trimesterinvloed uitschakelen dan bereken je
het gemiddelde over de drie trimesters. Bij kwartaalgegevens bereken je het gemiddelde over de vier kwartalen.
Wil je de conjunctuur uitschakelen, dan moet je eerst inzicht hebben in de lengte van de conjunctuurgolven
(Kondratieffcyclus  50 jaar, Juglarcyclus  7 jaar, Kitchencyclus  4 jaar). De gemiddelden moet je dan berekenen
over 50 respektievelijk 7 en 4 jaar.

Afhankelijk van het feit of het aantal perioden in een cycluslengte oneven of even is zijn er twee methoden om de
trend met behulp van het voortschrijdende gemiddelde te berekenen.
Er wordt begonnen met de eenvoudigste: Oneven aantal perioden

157
Statistiek met Excel 2013

8.4.1 Voortschrijdend gemiddelde bij een oneven aantal perioden

Voorbeeld

In tabel 8.2 kun je de verschillende aantallen klanten per trimester (periode van vier maanden) aflezen van een
winkel op een station.
Van deze gegevens wil men de trend bepalen via het voortschrijdende gemiddelde.

Tabel 8.2: Aantal klanten per trimester van een winkel op een station

Jaar Trimester Aantal klanten


2009 I 40.250
  II 36.245
  III 38.672
2010 I 48.299
  II 42.769
  III 47.565
2011 I 58.443
  II 49.612
  III 59.457
2012 I 70.132
  II 58.542
  III 73.132
2013 I 84.859
  II 67.909
  III 91.415

Het voortschrijdend gemiddelde voor het tweede trimester van 2009 wordt berekend door het aantal klanten van
de drie trimesters van 2009 bij elkaar op te tellen en te delen door drie.
(40.250 + 36.245 + 38.672) / 3 = 38.389
Voor het derde trimester van 2009 begin je met het tweede trimester van 2009 tot en met het eerste trimester
van 2010. (36.245 + 38.672 + 48.300) / 3 = 41.072
Dus om het voortschrijden gemiddelde voor een trimester uit te rekenen neem je de som van het trimester ervoor,
van het trimester zelf en het trimester erna en deel je vervolgens door drie.

8.4.2 Voortschrijdend gemiddelde bij een even aantal perioden

Neem het bedrijf uit tabel 8.1, maar nu wil je de trend voor de omzetten bepalen door de seizoensinvloeden (de
verschillende kwartalen) uit te schakelen.
Om een gemiddelde over een even aantal perioden te berekenen (hier 4 kwartalen) heb je een probleem, omdat
bij een even aantal geen van de getallen in het midden ligt, maar precies tussen twee getallen invalt. Je kunt dit
probleem als volgt oplossen:

Jaar Kwartaal Omzet


2009 I 118

II 237
236,25
III 425 236,125
236,00
IV 165

2010 I 117

158
8 Tijdreeksanalyse

Het gemiddelde van de eerste vier kwartalen van 2009 (236,25) valt tussen het tweede en derde kwartaal van
2009 in. Het gemiddelde van het tweede kwartaal van 2009 tot en met het eerste kwartaal van 2010 (236,00) valt
tussen het derde en vierde kwartaal van 2009 in. Wanneer je deze twee getallen middelt (236,125) valt dit
gemiddelde precies achter het derde kwartaal van 2009.

8.5 Seizoenpatronen en cyclusbewegingen

In alle voorgaande voorbeelden waarbij de trend berekend werd heb je kunnen concluderen dat de trend niet
direct gebruikt kan worden om voorspellingen te doen. In al die voorbeelden is er duidelijk sprake van
seizoenpatronen of cyclusbewegingen waarmee geen rekening wordt gehouden.
In dit hoofdstuk wordt gekeken naar de seizoenpatronen. De berekening van cyclusbewegingen verloopt analoog
aan dit verhaal.

8.5.1 Het additieve model

Wanneer de seizoenschommelingen (verschil tussen hoog- en laagseizoen) nagenoeg constant zijn kan het
volgende model gebruikt worden:

Historische reeks = trend + seizoenpatroon (+ toevallige afwijking)

Als voorbeeld worden de omzetten van de ijszaak op een station uit tabel 8.1 gebruikt, waarbij de trend met
behulp van voortschrijdende gemiddelden is bepaald.

N.B. Wanneer je de trend op een andere manier hebt berekend verloopt het onderstaande verhaal op dezelfde
manier.

De seizoenschommelingen vallen duidelijk in grafiek 8.2 af te lezen en tevens dat de verschillen tussen hoog- en
laagseizoen nagenoeg constant zijn, dus dat je het additieve model kunt gebruiken.
Het hoogseizoen in een jaar is het derde kwartaal en het laagseizoen is het eerste kwartaal. De verschillen zijn dan:
2009: 307; 2010: 305; 2011: 305; 2012: 310 en 2013: 301

Het seizoenpatroon wordt nu uitgerekend door de gemiddelde verschillen tussen het oorspronkelijke cijfer en de
trend per overeenkomstig kwartaal te bepalen.

Zo is de trendafwijking voor het derde kwartaal van 2009 gelijk aan: 425 – 236,125 = 188,875
De trendafwijking voor het derde kwartaal van 2010 is gelijk aan: 422 – 237,25 = 184,75
Wanneer je dit voor alle derde kwartalen gedaan hebt bereken je de gemiddelde trendafwijking.
Op eenzelfde manier doe je dit voor het eerste, tweede en vierde kwartaal.

159
Statistiek met Excel 2013

Trendafwijkingen
Jaar Kwartaal Hist. Reeks Trend I II III IV
2009 I 118
II 237
III 425 236,125 188,875
IV 165 235,75 -70,75
2010 I 117 235,125 -118,125
II 235 235,375 -0,375
III 422 237,25 184,75
IV 170 241,375 -71,375
2011 I 127 245,5 -118,5
II 258 248,75 9,25
III 432 251,75 180,25
IV 186 254,625 -68,625
2012 I 135 257,125 -122,125
II 273 258,875 14,125
III 437 260,625 176,375
IV 195 262,375 -67,375
2013 I 140 264 -124
II 282 265,125 16,875
III 441
IV 200

Figuur 8.3: Excelblad met de berekende trendafwijkingen

Vervolgens bereken je de som van de afwijkingen en de gemiddelde afwijking. De som van de gemiddelde
afwijkingen moet gelijk zijn aan 0. Mocht dit niet het geval zijn dan kun je één of meerdere afwijkingen aanpassen
door te kijken naar de kleinste relatieve afrondingsfout die je dan maakt.

Afwijkingen I II III IV
Som -482,75 39,875 730,25 -278,125
Gemiddelde -120,688 9,96875 182,5625 -69,5313 2,3125
Voorlopig -121 9 182 -70 0
Tussenberekening 120,6875 9,96875 182,5625 69,53125 0
Definitief -121 9 182 -70

Figuur 8.4: Excelblad met de berekende definitieve seizoensafwijking

In het eerste kwartaal van een jaar ligt de werkelijke ijsomzet 121 beneden het jaargemiddelde, in het tweede
kwartaal is het 9 meer dan het jaargemiddelde, in het derde kwartaal ligt die omzet 182 boven het gemiddelde en
in het vierde kwartaal er 70 onder.

Of het ontwikkelde model goed te gebruiken is om voorspellingen te doen is afhankelijk van de toevallige
afwijkingen. Deze toevallige afwijkingen kun je per kwartaal berekenen door het verschil te berekenen van het
werkelijke omzet en de omzet gebaseerd op basis van het model.
In het derde kwartaal van 2009 is de werkelijke omzet 425 (* € 1.000). Op basis van het model zou je verwachten:
trend derde kwartaal van 2009 + seizoenafwijking van het derde kwartaal = 236,125 + 182 = 418,125.
De werkelijke omzet ligt dus 425 – 418,125 = 6,875 (*€ 1.000) boven de verwachting. Absoluut gezien is dit een
behoorlijk bedrag maar als je het relativeert aan de verwachting dan is dit (6,875 / 418,125) * 100% = 1,6%.
De werkelijke omzet ligt dus 1,6% boven de verwachting op basis van het model en dit is over het algemeen
behoorlijk acceptabel.

160
8 Tijdreeksanalyse

8.5.2 Het multiplicatieve model

Wanneer de seizoenschommelingen groter worden en de trend stijgend is, of wanneer de seizoenschommelingen


kleiner worden bij een dalende trend, kan het multiplicatieve model gebruikt worden.

Historische reeks = trend * seizoenspatroon * toevallige afwijking

Bij dit model wordt gewerkt met trendindices. Deze indices kun je berekenen door de historische reeks te delen
door de trend en te vermenigvuldigen met 100.

Als voorbeeld wordt gebruikt het aantal klanten per trimester van een bedrijf op een station uit tabel 8.2.
De meeste klanten tref je aan in het eerste trimester (hoogseizoen) en de minste klanten in het tweede trimester
(laagseizoen).
De verschillen tussen het hoog- en laagseizoen zijn:
2009: 4.005; 2010: 5.530; 2011: 8.831; 2012: 11.590 en 2013: 16.950
De verschillen worden steeds groter en de trend is stijgend (zie grafiek 8.3), dus kun je hier het multiplicatieve
model gebruiken.

Grafiek 8.3: Aantal klanten per trimester van een bedrijf


100.000
90.000
80.000
70.000
Aantal klanten

60.000
50.000
40.000
30.000
20.000
10.000
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Trimester

Figuur 8.5: Grafiek van het aantal klanten per trimester van een bedrijf

De trend is stijgend en de seizoenschommelingen nemen toe (de lijn die de laagseizoencijfers met elkaar verbindt
en de lijn die de hoogseizoencijfers met elkaar verbindt zijn divergerend).
Het multiplicatieve model kun je hier dus toepassen.

De trendindex voor het tweede trimester van 2009:


(36.245 / 38.389) * 100 = 94,42
Op eenzelfde manier bereken je de trendindices van de overige trimesters.

161
Statistiek met Excel 2013

Trendindices
Jaar Kwartaal Hist. Reeks Trend I II III
2009 I 40.250
II 36.245 38389 94,41507
III 38.672 41072 94,15660304
2010 I 48.299 43246,67 111,6826
II 42.769 46211 92,55156
III 47.565 49592,33
2011 I 58.443 51873,33 112,66482
II 49.612 55837,33 88,85095
III 59.457 59733,67 99,53683294
2012 I 70.132 62710,33 111,83484
II 58.542 67268,67 87,02714
III 73.132 72177,67 101,3222003
2013 I 84.859 75300 112,69456
II 67.909 81394,33 83,4321
III 91.415

Figuur 8.6: Excelblad met de berekende trendindices

De seizoensindex voor een trimester kun je nu bepalen door de gemiddelde index voor een trimester te berekenen
door de indices voor een bepaald trimester bij elkaar op te tellen en te delen door het aantal indices.
Vervolgens bereken je de som van de indices. De som van de indices voor een trimester moet gelijk zijn aan 300.
Mocht dit niet het geval zijn dan kun je één of meerdere indices aanpassen door te kijken naar de kleinste relatieve
afrondingsfout die je dan maakt.

Indices I II III
Som 448,8768 446,2768 295,0156
Gemiddelde 112,2192 89,25536 98,33855 299,813112
Voorlopig 112 89 98 299
Tussenberekening 12,2192 10,74464 1,661455 1
Definitief 113 89 98

Figuur 8.7: Excelblad met de berekende definitieve seizoenindices

In het eerste trimester ligt het aantal klanten gemiddeld 13% boven het jaargemiddelde, in het tweede trimester
11% beneden het jaargemiddelde en in het derde trimester 2% beneden het jaargemiddelde.

Of het ontwikkelde model goed te gebruiken is om voorspellingen te doen is afhankelijk van de toevallige
afwijkingen. Deze toevallige afwijkingen kun je per trimester berekenen door te kijken naar de verhouding tusssen
het werkelijke cijfer en het cijfer gebaseerd op het model.
Voor het tweede trimester van 2009 is de toevallige afwijking:
36.245 / (38.389*0,89) * 100% = 106,1%
De werkelijke omzet ligt dus 6,1% boven de verwachting op basis van het model en dit is over het algemeen nog
acceptabel. Bekijk ook de afwijkingen voor de andere trimesters en constateer dat de grootste afwijking voor het
tweede trimester van 2013 geldt: 6,3% beneden de verwachting.

8.5.3 Seizoenspatronen met behulp van Excel

Wanneer je gebruik maakt van het excelbestand “Tijdreeksanalyse” wordt na het invullen van de (historische)
gegevens de trend, trendafwijking of trendindex en seizoensafwijking of seizoensindices berekend. Daarnaast zie je
ook meteen hoe groot de toevallige afwijkingen van het model zijn ten opzichte van de oorspronkelijke gegevens.
Het excelbestand “Tijdreeksanalyse” bevat vier tabbladen:

162
8 Tijdreeksanalyse

Additief kwartalen, Multiplicatief kwartalen, Additief trimesters en Multiplicatief trimesters.


Je moet dus eerst kijken of je te maken hebt met kwartalen (gegevens per drie maanden) of met trimesters
(gegevens per vier maanden). Vervolgens kijk je na het invullen van de gegevens of je te maken hebt met een
additief model of met een multiplicatief model.
Je hebt te maken met een multiplicatief model wanneer de trend stijgt (daalt) en de verschillen tussen hoog- en
laagseizoen steeds groter (kleiner) worden.
Wanneer je niet te maken hebt met het multiplicatieve model is de afspraak dat je kiest voor het additieve model 0.

8.6 Voorspellen

Het doel van tijdreeksanalyse is om het ontwikkelde model te gebruiken om voorspellingen voor de toekomst te
doen ten aanzien van de onderzochte afhankelijke variabele.
Het voorspellen gebeurt in twee stappen:

1. Extrapoleer de trendcijfers;
2. Breng vervolgens de seizoensinvloed in de geëxtrapoleerde trendcijfers.

De methode voor het extrapoleren van de trendcijfers is voor het additieve model hetzelfde als voor het
multiplicatieve model. Wel is het extrapoleren afhankelijk van het feit of de trend bepaald is met de methode van
voortschrijdende gemiddelden of met behulp van lineaire regressieanalyse.
De methode voor het inbrengen van de seizoensinvloed is wel afhankelijk van het gekozen model (additief of
multiplicatief).

8.6.1 Voorspellen bij het additieve model

Als voorbeeld worden de gegevens van tabel 8.1 gebruikt, de omzetbedragen van een ijszaak.
Wanneer je aan de hand van deze gegevens de omzetbedragen voor de verschillende kwartalen van 2014 wilt
voorspellen, zul je eerst de verwachte trendcijfers voor de verschillende kwartalen moeten berekenen.
Bij voortschrijdende gemiddelden wordt verwacht dat de trendverandering over de waargenomen perioden in de
toekomst hetzelfde is. In het voorbeeld kun je aannemen dat de trendstijging van het derde kwartaal van 2009 tot
het tweede kwartaal van 2013 zich ook in de toekomst voordoet.

Gemiddelde trendstijging0 = (265,125 – 236,125) / 15= 1,933

Dus de gemiddelde omzet (trend) stijgt elk kwartaal met 1,933 (* € 10.000). Dus als trendcijfer voor het derde
kwartaal van 2013 mag je verwachten: 265,125 + 1,933 = 267,058
Voor het vierde kwartaal: 267,058 + 1,933 = 268,991 enzovoort.

Voor de kwartalen van 2014 zijn dan de verwachte trendcijfers:

2014 Kwartaal Verwachte trend


I 265,125 + 3 * 1,933 = 270,925
II 265,125 + 4 * 1,933 = 272,858
III 265,125 + 5 * 1,933 = 274,792
IV 265,125 + 6 * 1,933 = 276,725

0
Naast het additieve- en multiplicatieve model zijn er nog heel veel andere modellen. Aangezien deze andere modellen vaak lastig (wiskundig)
te ontrafelen zijn wordt dus voor het additieve model gekozen, wanneer het multiplicatieve model niet van toepassing is.
0
Het aantal stijgingen is gelijk aan het aantal perioden – 1. Bij 16 kwartalen heb je dus 16 –1 = 15 keer een stijging.

163
Statistiek met Excel 2013

Ten slotte moet je bij de verwachte trendcijfers de seizoensafwijkingen optellen om de verwachte omzet te
krijgen.

2014 Kwartaal Verwachte trend Seizoensafwijking Verwachte omzet


I 265,125 + 3 * 1,933 = 270,925 -121 270,925 –121 = 149,925
II 265,125 + 4 * 1,933 = 272,858 9 272,858 + 9 = 281,858
III 265,125 + 5 * 1,933 = 274,792 182 274,792 + 182 = 456,792
IV 265,125 + 6 * 1,933 = 276,725 -70 276,725 – 70 = 206,725

8.6.2 Voorspellen bij het multiplicatieve model

Als voorbeeld worden de gegevens van tabel 8.2 gebruikt, het aantal klanten van een bedrijf per trimester.
Om de verwachte trend te bepalen wordt nu gebruik gemaakt van de trendlijn op basis van de kleinste
kwadratenmethode.
Deze luidt: y = 3471x + 30052
(waarbij: x = 1 het eerste trimester van 2009, x = 2 het tweede trimester van 2009, enzovoort)

De verwachte trend voor het eerste trimester van 2014 (x = 16) is dan gelijk aan:
3471*16 + 30.052 = 85.588

Om vervolgens het verwachte aantal klanten te kunnen bepalen moet je de trend vermenigvuldigen met het
seizoenindexcijfer / 100.

2014 Periode Verwachte trend Seizoenindex Verwachte omzet


I 16 3471 * 16 + 30.052 = 85.588 113 85.588 * 113/100 = 96.714
II 17 3471 * 17 + 30.052 = 89.059 89 89.059 * 89/100 = 79.263
III 18 3471 * 18 + 30.052 = 92.530 98 92.530 * 98/100 = 90.679

8.7 Het corrigeren van een tijdreeks voor het seizoen

Soms is men meer geïnteresseerd in de ontwikkeling van het gemiddelde (trend) dan in het werkelijke cijfer. Denk
hierbij bijvoorbeeld aan de werkloosheidscijfers. De werkloosheid is over het algemeen in de wintermaanden
hoger dan in de zomer. Zou je alleen naar de werkelijke cijfers kijken, dan krijg je dat gedurende een jaar de
werkloosheid afneemt en vervolgens weer toeneemt. Men is echter meer geïnteresseerd in de algemene trend
van de werkloosheid en spreekt dan over het werkloosheidscijfer gecorrigeerd voor het seizoen.
Zo kan de werkelijke werkloosheid in december wel met 10.000 zijn gestegen, maar neemt de gemiddelde
werkloosheid (de gecorrigeerde werkloosheid voor het seizoen) met 4.000 af. Het gaat in dat geval dus goed met
de werkloosheidsontwikkeling.
Een ander voorbeeld is het percentage van de treinen dat op tijd rijdt. Hiervan is bekend dat door de
weersomstandigheden dit percentage in de herfst- en wintermaanden lager ligt dan in de lente- en
zomermaanden. Ook bij deze tijdreekscijfers is men meer geïnteresseerd in het voor het seizoen gecorrigeerde
percentage dan in het werkelijke percentage.

Bij het corrigeren van een tijdreeks ga je omgekeerd te werk als bij het voorspellen:

Bij een additief model:

Gecorrigeerd cijfer = Werkelijk cijfer - Seizoensafwijking

164
8 Tijdreeksanalyse

Bij een multiplicatief model:

Gecorrigeerd cijfer = (Werkelijk cijfer / Seizoenindex) * 100

Wanneer bijvoorbeeld bekend is dat in het vierde kwartaal het percentage van de treinen dat op tijd rijdt 5% onder
de trend ligt (uitgaande van een additief model), dan zou dit betekenen dat bij een werkelijk percentage van 72%
voor het vierde kwartaal het voor het kwartaal gecorrigeerde percentage gelijk is aan:
72% - (- 5%) = 77%.

165
Statistiek met Excel 2013

8.8 Opgaven

1. Gegeven zijn de omzetcijfers van 2011 tot en met 2013 van een onderneming

Tabel 1: Omzetcijfers van 2011 tot en met 2013

Jaar Kwartaal Omzet (in € mln)


2011 I 11,87
II 12,13
III 12,52
IV 16,11
2012 I 12,45
II 13,08
III 12,86
IV 17,03
2013 I 12,53
II 13,20
III 13,30
IV 17,50

a. Bereken de trendwaarden volgens het voortschrijdende gemiddelde.


b. Bepaal welk seizoensmodel het beste bij de gegevens past.
c. Bereken voor elk kwartaal de seizoenscomponenten.
d. Geef een voorspelling van de omzet voor het eerste kwartaal van 2014 ervan uitgaande dat de
stijging van de trendcijfers na het tweede kwartaal van 2013 gelijk zal zijn aan de gemiddelde stijging
van de trendwaarden van het derde kwartaal van 2011 tot en met het tweede kwartaal van 2013.

2. Een containermaatschappij heeft voor een bepaald product van de laatste jaren de afzet bijgehouden die
elk kwartaal is gerealiseerd.

Tabel 2: Afzet van een product over de jaren 2011 tot en met 2013

Jaar Kwartaal Afzet (in 1.000 ton)


2011 I 83,0
II 95,6
III 117,9
IV 125,3
2012 I 96,5
II 109,4
III 121,1
IV 130,5
2013 I 104,8
II 116,2
III 131,6
IV 143,4

a. Bereken de trendwaarden volgens het voortschrijdend gemiddelde.


b. Bepaal welk seizoensmodel het beste bij de gegevens past.
c. Bereken voor elk kwartaal de seizoenscomponenten.
d. Laat zien dat de vergelijking van de trendlijn op basis van lineaire regressie er als volgt uitziet:
T = 3,45 * t + 92,2
waarbij t: de tijd in kwartalen (t = 1 in 2011 kwartaal I) en T: de trendwaarde (in 1.000 ton)
e. Bereken de trendmatige jaarlijkse toename.
f. Geef een voorspelling van de afzet (per kwartaal) voor 2014 op basis van de trendlijn en de
seizoenscomponenten.

166
8 Tijdreeksanalyse

3. De directie van het attractiepark “Miracle Star” overweegt in 2015 een aantal evenementen te
organiseren, die tot doel hebben het park voor het publiek aantrekkelijker te maken. Om de nodige
investeringen van een solide basis te voorzien is men van mening dat het bezoekersaantal per jaar bij een
ongewijzigd beleid in 2014 boven 1.500.000 dient uit te komen.

Om zich een beeld te kunnen vormen van de ontwikkeling van de bezoekersaantallen sinds 2010 verricht
men een eenvoudige analyse.

In deze opgave zullen we de analyse uitvoeren, met als doel een prognose te maken voor de
bezoekersaantallen in 2014.

Tabel 3: Bezoekersaantal per kwartaal in de periode 2010 – 2013

Jaar Kwartaal Bezoekersaantal (* 1.000)


2010 I 141
II 400
III 373
IV 216
2011 I 146
II 420
III 390
IV 225
2012 I 156
II 438
III 412
IV 237
2013 I 165
II 465
III 435
IV 254

a. Bereken de trendwaarden op basis van het voortschrijdend gemiddelde.


b. Laat zien dat op bovenstaande gegevens het multiplicatieve model het beste past.
c. Bepaal het seizoenspatroon.
d. In het eerste kwartaal van 2014 blijkt het bezoekersaantal 182.000 te bedragen. Corrigeer dit
gegeven voor het seizoen.
e. Laat zien dat de vergelijking van de trendlijn op basis van lineaire regressie er als volgt uitziet:
T = 4,96 * t + 262,4
waarbij t: de tijd in kwartalen (t=1 voor kwartaal I in 2010; t=2 voor kwartaal II in 2010 enz.)
T: de trendwaarden (in 1.000)
f. Bepaal met behulp van de gegeven regressielijn de prognoses voor het bezoekersaantal voor
kwartaal II, III en IV van 2014.
g. Haalt men volgens de berekeningen het streefcijfer van 1.500.000 bezoekers per jaar?

167
Statistiek met Excel 2013

Bijlage 1: Bestand “Fictie2000”

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
1 2 21 35 3 7 7 0 1 4 1 4
2 2 27 29 5 28 3 0 0 0 1 5
3 2 18 23 5 11 7 0 1 4 1 3
4 1 20 32 4 6 5 0 1 3 0 0
5 1 26 14 5 36 5 0 0 0 0 0
6 1 60 104 3 54 2 0 0 0 0 0
7 1 42 58 5 47 5 0 1 2 0 0
8 1 51 55 5 63 3 0 0 0 1 4
9 1 19 44 4 5 7 0 1 5 1 5
10 1 21 5 5 19 6 0 1 4 1 2
11 1 22 36 5 6 5 0 0 0 0 0
12 1 55 67 4 41 6 0 1 3 0 0
13 1 38 35 5 40 1 0 1 4 0 0
14 2 39 54 3 23 1 0 1 2 1 3
15 1 31 61 5 35 5 0 1 2 0 0
16 1 20 7 4 8 7 0 1 4 1 4
17 2 23 28 5 15 5 0 0 0 1 2
18 1 21 37 3 13 1 0 0 0 1 3
19 1 19 66 4 7 7 0 0 0 1 4
20 1 31 22 5 33 3 0 0 0 1 4
21 2 19 19 4 9 5 0 1 3 0 0
22 2 32 22 3 18 4 0 1 2 0 0
23 1 55 120 4 46 3 0 0 0 1 5
24 2 15 14 5 1 7 0 0 0 1 4
25 1 59 75 4 52 4 0 0 0 0 0
26 2 43 35 3 28 6 0 1 3 0 0
27 1 62 98 3 51 6 0 1 4 0 0
28 1 33 23 5 28 3 0 1 2 1 4
29 1 17 29 5 3 7 0 1 4 1 4
30 1 15 9 5 1 7 0 0 0 1 3
31 1 29 42 5 32 2 0 1 3 0 0
32 2 59 51 4 33 6 0 0 0 0 0
33 1 31 32 1 28 5 0 0 0 0 0
34 1 26 14 5 24 7 1 1 5 0 0
35 1 22 15 4 10 1 0 0 0 1 4
36 1 40 58 5 42 3 0 0 0 1 4
37 1 39 37 4 47 3 0 1 4 1 5
38 1 53 100 4 52 6 0 1 4 0 0
39 2 23 54 5 25 1 0 0 0 1 3
40 1 38 98 2 37 1 0 1 4 1 3
41 1 23 22 5 23 3 0 0 0 1 4
42 1 63 147 3 45 6 0 1 3 0 0
43 2 21 35 5 7 7 0 1 4 0 0
44 2 31 58 4 35 6 0 1 4 1 2
45 2 60 42 4 48 6 0 1 1 0 0
46 1 20 75 3 11 7 1 0 0 1 5
47 1 35 15 5 56 4 0 0 0 0 0
48 1 19 7 5 8 7 0 0 0 1 4
49 1 55 100 3 52 4 0 0 0 0 0
50 2 53 66 4 35 3 0 0 0 1 4

168
Bijlage 1 Bestand “ Fictie2000”

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
51 2 33 51 3 24 1 0 1 5 1 3
52 1 19 14 5 6 7 0 1 4 0 0
53 1 64 42 4 41 6 0 0 0 1 1
54 1 39 61 3 45 6 0 1 4 1 2
55 2 21 32 4 14 5 0 1 3 0 0
56 1 49 70 1 58 5 0 1 3 0 0
57 2 22 36 4 18 3 0 0 0 1 3
58 1 35 37 5 36 3 0 0 0 1 4
59 1 46 58 5 72 3 0 1 2 1 4
60 2 16 22 5 2 7 0 0 0 0 0
61 1 29 15 5 32 1 0 1 4 0 0
62 1 33 29 5 35 4 0 1 4 0 0
63 1 50 70 4 74 3 0 0 0 1 4
64 2 42 9 4 25 6 0 1 2 0 0
65 1 29 23 5 33 6 0 1 3 0 0
66 1 27 51 5 36 5 0 1 4 0 0
67 1 51 100 2 47 3 0 1 3 0 0
68 2 21 54 4 25 5 0 1 3 1 1
69 1 43 58 4 33 3 0 0 0 1 3
70 1 42 89 4 36 1 0 0 0 1 3
71 2 36 28 3 30 2 0 1 3 0 0
72 1 28 23 5 35 5 0 1 3 0 0
73 1 40 67 4 29 7 1 1 4 0 0
74 1 26 5 5 32 7 1 1 5 1 5
75 1 28 23 5 35 5 0 1 3 0 0
76 1 32 44 5 28 3 0 0 0 1 4
77 1 42 58 5 36 3 0 0 0 0 0
78 1 45 54 5 53 3 0 1 3 1 3
79 1 50 104 2 58 6 0 1 4 0 0
80 2 41 35 2 15 5 0 0 0 0 0
81 1 26 35 5 25 3 0 0 0 1 4
82 1 29 23 5 28 1 0 0 0 1 4
83 1 22 15 4 15 5 0 1 4 1 2
84 1 40 32 5 32 7 1 1 4 1 3
85 1 47 98 3 35 3 0 0 0 1 3
86 1 31 51 5 36 5 0 1 2 0 0
87 1 23 19 5 10 7 0 1 4 1 4
88 2 31 89 4 26 7 1 0 0 1 4
89 2 35 61 3 24 6 0 1 4 0 0
90 1 35 31 5 42 5 0 0 0 0 0
91 1 35 42 4 35 3 0 0 0 0 0
92 2 20 37 4 9 7 0 1 4 1 5
93 1 54 89 1 58 5 0 0 0 0 0
94 1 26 14 5 39 2 0 1 2 0 0
95 1 25 23 5 35 5 0 0 0 0 0
96 2 18 58 5 5 7 0 1 5 1 3
97 1 19 22 5 6 7 0 0 0 1 3
98 1 32 15 5 38 5 0 1 4 0 0
99 2 29 36 5 26 6 0 1 3 0 0
100 1 48 9 5 35 6 0 0 0 0 0

169
Statistiek met Excel 2013

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
101 1 27 31 5 20 3 0 0 0 0 0
102 1 64 42 4 41 3 0 0 0 1 3
103 1 45 22 5 36 6 0 0 0 0 0
104 2 22 12 4 26 5 0 1 4 0 0
105 1 19 14 5 8 7 0 1 5 1 2
106 1 21 7 5 4 7 0 0 0 1 3
107 1 46 23 5 34 7 1 1 3 0 0
108 1 57 66 3 44 6 0 0 0 0 0
109 1 29 29 5 37 5 0 1 3 0 0
110 2 23 70 3 26 1 0 1 5 1 4
111 1 29 28 5 30 3 0 0 0 1 3
112 1 19 23 5 6 7 0 1 4 1 4
113 1 35 54 4 30 7 0 1 4 1 4
114 1 35 15 5 32 6 0 1 2 0 0
115 1 41 100 4 35 6 0 0 0 0 0
116 2 14 22 5 1 7 0 0 0 1 3
117 1 54 75 4 48 4 0 0 0 0 0
118 1 56 32 3 44 4 0 0 0 0 0
119 1 29 12 5 29 5 0 1 3 0 0
120 1 29 42 5 25 1 0 0 0 0 0
121 1 13 19 5 2 7 0 0 0 0 0
122 1 39 67 4 35 6 0 1 4 0 0
123 2 29 54 5 32 6 0 1 4 1 1
124 1 22 31 4 8 7 0 1 5 1 3
125 1 21 5 4 18 1 0 0 0 1 3
126 1 19 37 5 9 7 0 1 4 1 5
127 1 36 14 5 28 7 1 0 0 0 0
128 1 29 58 5 32 5 0 1 3 0 0
129 2 39 51 4 36 5 0 1 2 0 0
130 1 21 12 4 19 3 0 0 0 1 5
131 1 30 35 4 22 1 0 0 0 1 3
132 2 19 43 5 14 2 0 1 2 1 1
133 1 44 58 5 59 2 0 1 1 0 0
134 1 14 35 5 2 7 0 0 0 0 0
135 1 50 22 4 57 2 0 1 3 0 0
136 2 28 22 5 30 5 0 1 3 0 0
137 1 49 35 4 44 4 0 1 2 0 0
138 1 14 7 5 1 7 0 0 0 0 0
139 2 43 31 3 24 6 0 0 0 1 1
140 1 29 61 5 32 6 0 1 4 0 0
141 1 37 17 5 34 1 0 1 3 1 2
142 2 19 9 5 18 3 0 0 0 1 3
143 1 43 66 5 47 5 0 0 0 0 0
144 1 28 12 5 29 5 0 1 2 0 0
145 2 23 75 5 27 5 0 1 4 0 0
146 1 27 15 5 28 5 0 1 3 1 2
147 1 23 43 5 25 5 0 0 0 0 0
148 2 45 14 4 32 6 0 1 3 1 3
149 2 50 67 4 40 1 0 0 0 0 0
150 2 19 22 5 9 7 0 1 4 1 5

170
Bijlage 1 Bestand “ Fictie2000”

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
151 1 37 5 5 26 7 1 1 5 1 3
152 2 17 19 5 4 7 0 0 0 1 4
153 1 20 23 5 10 7 0 1 4 1 4
154 1 18 28 5 8 7 0 0 0 1 4
155 1 21 40 4 10 7 0 1 5 0 0
156 1 40 29 5 32 3 0 0 0 1 3
157 1 21 14 5 7 7 0 1 4 1 4
158 1 26 54 3 25 5 0 1 3 0 0
159 1 27 35 3 24 5 0 1 4 0 0
160 1 25 12 5 30 4 0 1 2 1 1
161 2 23 25 5 29 2 0 1 4 0 0
162 1 30 43 5 25 6 0 1 3 0 0
163 1 17 31 5 4 7 0 1 3 0 0
164 2 20 32 4 11 7 0 1 4 1 3
165 1 41 36 5 36 6 0 0 0 1 2
166 2 19 37 5 6 7 0 1 4 1 4
167 1 15 22 5 4 7 0 0 0 1 4
168 1 22 22 5 11 7 0 1 3 1 4
169 1 58 75 2 56 2 0 1 3 0 0
170 1 35 15 4 29 3 0 0 0 1 4
171 1 16 7 5 2 7 0 0 0 0 0
172 1 21 36 5 7 7 0 0 0 1 4
173 2 19 5 4 9 7 0 1 4 0 0
174 1 23 31 4 26 5 0 1 3 0 0
175 1 18 14 3 5 7 0 0 0 0 0
176 1 35 42 5 44 5 0 1 2 1 1
177 2 25 70 3 25 5 0 0 0 1 2
178 1 49 51 2 15 4 0 1 2 1 2
179 1 49 26 4 36 3 0 0 0 0 0
180 1 26 25 5 22 1 0 1 5 1 3
181 1 29 17 4 21 3 0 1 3 0 0
182 1 24 37 5 23 7 1 1 4 1 5
183 1 32 67 3 28 6 0 1 4 0 0
184 1 29 9 4 24 5 0 0 0 0 0
185 2 28 15 5 22 3 0 0 0 1 4
186 2 30 22 2 16 1 0 0 0 0 0
187 1 46 58 5 46 2 0 1 1 1 1
188 1 38 61 4 42 5 0 1 2 1 2
189 2 50 43 5 40 6 0 1 3 0 0
190 1 28 44 4 30 6 0 0 0 1 3
191 2 28 19 4 25 7 0 1 3 1 3
192 1 53 40 4 35 6 0 0 0 0 0
193 2 30 36 3 26 5 0 1 3 0 0
194 1 24 31 3 22 3 0 0 0 1 4
195 1 36 12 5 33 1 0 0 0 1 4
196 1 20 26 5 5 7 0 1 4 1 4
197 1 27 35 3 33 2 0 1 3 1 2
198 2 21 17 4 24 5 0 1 3 1 2
199 2 21 14 5 6 7 0 1 4 1 5
200 1 26 40 5 33 5 0 1 4 0 0

171
Statistiek met Excel 2013

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
201 1 23 26 5 25 3 0 0 0 1 3
202 1 42 51 5 35 3 0 1 3 0 0
203 2 34 22 4 36 5 0 1 2 0 0
204 1 40 37 4 42 4 0 1 3 0 0
205 1 44 54 4 38 4 0 0 0 0 0
206 1 35 23 4 32 6 0 0 0 1 4
207 1 21 5 5 6 7 0 0 0 1 3
208 1 38 54 5 34 3 0 0 0 1 5
209 2 57 32 4 44 4 0 1 2 0 0
210 1 46 50 4 49 4 0 0 0 1 3
211 1 38 28 4 35 6 0 0 0 1 2
212 1 36 61 5 39 5 0 1 3 0 0
213 1 31 22 5 25 3 0 0 0 1 1
214 2 24 7 5 27 1 0 0 0 1 4
215 1 30 50 4 25 6 0 1 5 1 2
216 1 41 26 4 45 1 0 0 0 0 0
217 1 27 35 5 23 3 0 1 2 1 4
218 1 47 43 5 36 3 0 0 0 1 3
219 1 19 12 5 6 7 0 1 3 1 3
220 1 43 44 5 38 1 0 0 0 0 0
221 1 47 84 4 52 5 0 1 2 0 0
222 2 37 58 3 36 5 0 1 3 0 0
223 1 17 29 5 3 7 0 0 0 1 4
224 1 18 17 5 5 7 0 1 4 1 5
225 2 28 37 5 36 6 0 0 0 1 3
226 1 19 9 5 23 4 0 1 3 1 3
227 1 42 54 4 35 7 0 0 0 0 0
228 2 44 39 3 36 6 0 0 0 0 0
229 2 29 14 5 33 6 0 1 4 1 3
230 2 49 19 4 36 6 0 0 0 0 0
231 1 45 39 5 45 5 0 0 0 0 0
232 1 20 36 5 7 7 0 1 5 1 3
233 1 46 43 5 44 6 0 0 0 0 0
234 1 40 67 5 48 3 0 0 0 1 4
235 2 29 35 5 35 5 0 1 2 0 0
236 1 28 37 4 29 5 0 1 1 1 1
237 1 37 61 3 30 3 0 0 0 0 0
238 1 36 22 4 25 3 0 1 2 1 4
239 2 17 23 5 2 7 0 0 0 1 2
240 1 21 50 5 12 7 1 1 5 0 0
241 2 57 40 4 40 6 0 1 2 0 0
242 1 23 5 5 21 6 0 0 0 1 4
243 1 21 23 4 20 7 1 1 4 1 5
244 1 62 54 4 42 6 0 1 3 0 0
245 2 26 12 5 28 5 0 1 5 0 0
246 1 41 37 5 35 7 0 0 0 0 0
247 1 43 44 5 38 6 0 0 0 0 0
248 1 31 14 5 30 6 0 0 0 1 3
249 2 36 50 4 36 7 0 1 4 0 0
250 1 44 51 5 40 6 0 1 2 0 0

172
Bijlage 1 Bestand “ Fictie2000”

Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
251 1 55 23 4 35 3 0 0 0 0 0
252 1 54 19 4 40 1 0 0 0 0 0
253 1 28 9 5 26 3 0 0 0 1 4
254 1 32 32 3 30 5 0 1 3 0 0
255 2 20 35 5 8 7 0 1 4 1 4
256 1 47 36 4 45 6 0 0 0 0 0
257 2 19 40 4 12 7 0 1 3 1 4
258 1 18 7 4 9 7 0 0 0 1 4
259 1 15 39 5 2 7 0 0 0 1 5
260 1 43 54 5 37 6 0 0 0 0 0
261 1 41 37 5 44 5 0 1 3 1 1
262 1 59 120 3 56 3 0 0 0 1 3
263 1 53 50 4 42 3 0 0 0 0 0
264 1 48 54 5 48 3 0 0 0 0 0
265 1 22 12 5 23 5 0 1 3 1 1
266 2 33 61 3 22 5 0 1 4 0 0
267 1 31 23 4 19 4 0 1 2 0 0
268 1 19 67 5 4 7 0 0 0 1 4
269 1 25 29 5 20 7 1 1 5 0 0
270 1 23 84 5 27 6 0 1 3 1 3
271 2 36 19 3 23 5 0 1 3 0 0
272 1 18 28 5 7 7 0 0 0 1 4
273 1 36 50 5 35 6 0 1 4 0 0
274 2 43 37 4 40 3 0 0 0 0 0
275 1 16 14 5 3 7 0 0 0 0 0
276 2 18 29 4 8 7 0 1 5 1 3
277 1 42 114 4 47 3 0 0 0 1 4
278 1 52 114 4 52 4 0 1 3 0 0
279 1 46 51 5 43 5 0 0 0 0 0
280 2 37 50 3 32 4 0 0 0 0 0
281 1 20 9 5 6 7 0 0 0 1 4
282 1 21 22 5 7 7 0 1 5 1 3
283 2 38 54 2 15 5 0 1 4 0 0
284 1 30 28 5 30 5 0 1 2 0 0
285 1 31 29 5 28 6 0 0 0 1 3
286 1 49 50 4 35 6 0 1 1 0 0
287 1 38 5 5 32 3 0 0 0 1 5
288 1 28 36 4 29 2 0 1 1 0 0
289 2 31 32 4 31 5 0 0 0 0 0
290 1 44 61 5 40 6 0 1 1 0 0
291 2 21 44 4 9 7 0 1 5 1 3
292 1 25 51 5 12 7 0 1 4 1 3
293 1 21 29 4 12 7 0 0 0 1 3
294 1 14 37 5 1 7 0 0 0 0 0
295 1 26 50 5 28 5 0 1 4 0 0
296 1 47 44 5 35 3 0 0 5 1 5
297 1 19 12 5 18 1 0 0 5 0 0
298 1 19 28 5 10 7 0 1 4 1 3
299 1 54 67 2 38 1 0 0 0 1 3
300 1 22 35 4 22 4 0 1 4 1 3

173
Statistiek met Excel 2013

Bijlage 2: Antwoorden

Antwoorden Hoofdstuk 2: Tabellen

Tabel 2.1: Mening over “Spits” van Tabel 2.4: Procentuele verdeling van geslacht per
300 respondenten mening over “Spits” van respondenten die de
“Spits” wel eens gelezen hebben
Mening Spits Totaal
Geen mening 150 Mening Spits Man Vrouw Eindtotaal
Zeer slecht 12 Zeer slecht 67% 33% 100%
Slecht 17 Slecht 71% 29% 100%
Redelijk 51 Redelijk 71% 29% 100%
Goed 52 Goed 79% 21% 100%
Zeer goed 18 Zeer goed 78% 22% 100%
Eindtotaal 300 Eindtotaal 74% 26% 100%

Bron: “Fictie 2000” Bron: “Fictie 2000”

Tabel 2.2: Mening over “Spits” per geslacht van Tabel 2.5: Reistijd van 300 respondenten
respondenten die de “Spits” wel eens gelezen
hebben Reistijd per trein Totaal
(in minuten)
Mening Spits Man Vrouw Eindtotaal 0-9 23
Zeer slecht 8 4 12 10-19 45
Slecht 12 5 17 20-29 56
Redelijk 36 15 51 30-39 57
Goed 41 11 52 40-49 25
Zeer goed 14 4 18 50-59 45
Eindtotaal 111 39 150 60-69 21
70-79 9
Bron: “Fictie 2000” 80-89 5
90-99 3
100-109 6
110-119 2
120-129 2
140-149 1
Tabel 2.3: Procentuele verdeling van meningen
Eindtotaal 300
over “Spits” per geslacht van respondenten die de
“Spits” wel eens gelezen hebben Bron: “Fictie 2000”

Mening Spits Man Vrouw Eindtotaal


Zeer slecht 7% 10% 8%
Slecht 11% 13% 11%
Redelijk 32% 38% 34%
Goed 37% 28% 35%
Zeer goed 13% 10% 12%
Eindtotaal 100% 100% 100%

Bron: “Fictie 2000”

174
Bijlage 2 Antwoorden

Tabel 2.6: Inkomens van 300 respondenten Tabel 2.9: Dagbladabonnementen van
respondenten van 30 jaar en ouder
Inkomen (* € 100) Totaal
0-4 51 Dagblad Totaal
5-9 32 Algemeen Dagblad 14
10-14 69 NRC 6
15-19 85 Telegraaf 36
20-24 42 Trouw 16
25-29 17 Volkskrant 27
30-34 2 Anders 43
35-39 2 Geen 10
Eindtotaal 300 Eindtotaal 152

Bron: “Fictie 2000” Bron: “Fictie 2000”

Tabel 2.7: Cumulatieve procentuele verdeling van de Tabel 2.10: Dagbladabonnementen van
inkomens van 300 respondenten mannelijke respondenten van 30 jaar en
ouder
Inkomen * € 100
<0 0.0% Dagblad Totaal
<5 17,0% Algemeen Dagblad 10
< 10 27,7% NRC 5
< 15 50,7% Telegraaf 34
< 20 79,0% Trouw 13
< 25 93,0% Volkskrant 18
< 30 98,7% Anders 31
< 35 99,3% Geen 8
< 40 100,0% Eindtotaal 119

Bron: “Fictie 2000” Bron: “Fictie 2000”

Tabel 2.8: Aantal reisdagen per geslacht van 300


respondenten

Reisdagen per trein Man Vrouw Eindtotaal


per week
1 3 0 3
2 6 3 9
3 19 16 35
4 62 29 91
5 133 29 162
Eindtotaal 223 77 300

Bron: Fictie2000

175
Statistiek met Excel 2013

Antwoorden Hoofdstuk 3: Grafieken

Grafiek 3.1: Mening over "Spits" Grafiek 3.4: Reistijd per trein
60

Geen mening
Zeer slecht

Aantal per 10 minuten


50
Slecht
Redelijk
Goed
40
Zeer goed

30
Bron: “Fictie 2000” Bron: “Fictie 2000”

20

10
Grafiek 3.5: Inkomens van 300
Grafiek 3.2: Mening over "Spits"
respondenten
opgesplitst naar geslacht
0
5 15 25 35 45 55 65 75 85 95
90 Minuten
60
80
Aantal per € 500)

50 70
60
40
50
Aantal

Vrouw
30 40
Man
30
20
20
10 10
0
0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
Zeer Slecht Redelijk Goed Zeer
slecht goed Inkomen (* € 100)
Mening
Bron: “Fictie 2000”
Bron: “Fictie 2000”

Grafiek 3.6: Cumulatieve verdeling


Grafiek 3.3: Mening over "Spits" van reistijden van mannelijke
procentueel per geslacht respondenten
120.0%
Zeer goed 100.0%

Goed 80.0%
Mening

Vrouw 60.0%
Redelijk
Man 40.0%

Slecht 20.0%
0.0%
Zeer slecht 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Minuten
0% 10% 20% 30% 40% 50%

Bron: “Fictie 2000” Bron: “Fictie 2000”

176
Bijlage 2 Antwoorden

Grafiek 3.7: Aantal abonnementen op Grafiek 3.10: Cumulatieve verdeling


dagbladen van 300 respondenten van inkomens van vrouwelijke
respondenten
Geen
120%
Anders
100%
Volkskrant
Dagblad

80%
Trouw 60%
Telegraaf 40%

NRC 20%
0%
Algemeen Dagblad
0 2 4 6 8 10 12 14 16 18 20 22 24 26
0 20 40 60 80 100 Inkomen (* € 100)

Aantal

Bron: “Fictie 2000” Bron: “Fictie 2000”

Grafiek 3.11: Spreidingdiagram van


Grafiek 3.8: Aantal reisdagen per leeftijd per reistijd
trein per week van 300 respondenten
160
180 140
Aantal per dag

160 120

Reistijd (minuten)
140
100
120
80
100
80 60
60 40
40 20
20
0
0
0 20 40 60 80
1 2 3 4 5
Leeftijd
Aantal reisdagen

Bron: “Fictie 2000”


Bron: “Fictie 2000”

Grafiek 3.9: Aantal abonnementen


per dagblad per geslacht

Geen

Anders

Volkskrant
Dagblad

man
Trouw
Vrouw
Telegraaf

NRC

Algemeen Dagblad

0 25 50 75 100
Aantal

Bron: “Fictie 2000” Bron: “Fictie 2000”

177
Statistiek met Excel 2013

Grafiek 3.14: Percentage dagbladabonnementen van


de 25 tot 35 jarigen 2004 - 2008
35

30

25

Percentage
20

15

10

0
Bron: Fictie2000 2004 2005 2006 2007 2008

Bron: CBS

Grafiek 3.15: Percentage dagbladabonnementen van


de 75 jarigen of ouder 1997 - 2008
80

70

60
Percentage

50

40

30

20

10

0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008

Bron: CBS

Grafiek 3.16: Percentage dagbladabonnementen per leeftijdscategorie


1997 - 2008
80
70
18 tot 25 jarigen
60
25 tot 35 jarigen
Percentage

50
35 tot 45 jarigen
40
45 tot 55 jarigen
30
55 tot 65 jarigen
20 65 tot 75 jarigen
10 75 jarigen of ouder
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008

Bron: CBS

178
Bijlage 2 Antwoorden

179
Statistiek met Excel 2013

Antwoorden Hoofdstuk 4: Karakteristieken


Vormmaten
Scheefheid -1,69 -0,56
1. Inkomen Kurtosis 2,94 -0,54

Centrummaten 3 dagen 4e percentiel


Rekenkundig gemiddelde 13,9 30e percentiel 4 dagen
Mediaan 14
6. Reistijd
Spreidingsmaten
Interkwartiel afstand 10 Centrummaten
Standaardafwijking 7,5 Rekenkundig gemiddelde 40,3
Mediaan 34,6
Vormmaten Modus 35
Scheefheid 0,11
Kurtosis -0,42 Spreidingsmaten
Interkwartiel afstand 33
€ 1000 27e percentiel Standaardafwijking 27,5
60e percentiel € 1600 Variantie 756,6

2. Mening “Spits” Vormmaten


Scheefheid 1,15
Centrummaten Kurtosis 1,28
Mediaan Redelijk
Modus Goed 7. Inkomen

3. Reistijd Centrummaten
Rekenkundig gemiddelde 14,2
Centrummaten Man Vrouw Mediaan 14,9
Rekenkundig gemiddelde 39,8 35,7 Modus 17,5
Mediaan 35 35
Modus 23 22 Spreidingsmaten
Spreidingsbreedte 40
Spreidingsmaten Interkwartiel afstand 10,5
Interkwartiel afstand 32 28 Standaardafwijking 7,6
Standaardafwijking 26,2 18,1
Vormmaten
Vormmaten Scheefheid 0,08
Scheefheid 1,18 0,56 Kurtosis -0,43
Kurtosis 1,56 -0,13
8. Inkomen
4. Abonnement dagblad
Centrummaten Man Vrouw
Centrummaten Rekenkundig gemiddelde 15,4 11,7
Modus Geen Mediaan 15,9 12,0
Modus 17,5 12,5
5. Aantal reisdagen per week per trein
Spreidingsmaten
Centrummaten Man Vrouw Spreidingsbreedte 40 25
Rekenkundig gemiddelde 4,4 4,1 Standaardafwijking 8,5 6,0
Mediaan 5 4
Modus 5 4 en 5

Spreidingsmaten
Interkwartiel afstand 1 1
Standaardafwijking 0,9 0,9
Variantie 0,7 0,7

180
Bijlage 2 Antwoorden

181
Statistiek met Excel 2013

Antwoorden Hoofdstuk 5: Kansen

Aantal van Dagblad Aantal van Dagblad Geslacht


Dagblad Totaal Dagblad Man Vrouw Eindtotaal
Algemeen Dagblad 8,3% Algemeen Dagblad 6,0% 2,3% 8,3%
NRC 4,0% NRC 3,0% 1,0% 4,0%
Telegraaf 16,7% Telegraaf 14,7% 2,0% 16,7%
Trouw 6,3% Trouw 5,3% 1,0% 6,3%
Volkskrant 20,0% Volkskrant 13,3% 6,7% 20,0%
Anders 17,7% Anders 12,3% 5,3% 17,7%
Geen 27,0% Geen 19,7% 7,3% 27,0%
Eindtotaal 100,0% Eindtotaal 74,3% 25.7% 100,0%

Antwoord 1a 20,0% Antwoord 1b 14,7%

Aantal van Leeftijd Aantal van Inkomen (* € 100) Geslacht


Leeftijd2 Totaal Inkomen (* € 100) 2 Man Vrouw Eindtotaal
< 20 15,0% < 15 33,0% 17,7% 50,7%
>= 20 85,0% >= 15 41,3% 8,0% 49,3%
Eindtotaal 100,0% Eindtotaal 74,3% 25,7% 100,0%

Antwoord 1c 85,0% Antwoord 1d 33,0%

Aantal van Dagblad Aantal van Mening Spits


Dagblad Totaal Mening Spits Totaal
Algemeen Dagblad 10,7% Zeer slecht 8,0%
NRC 2,0% Slecht 11,3%
Telegraaf 25,3% Redelijk 34,0%
Trouw 3,3% Goed 34,7%
Volkskrant 7,3% Zeer goed 12,0%
Anders 12,0% Eindtotaal 100,0%
Geen 39,3%
Eindtotaal 100,0%

Antwoord 2a 10,7% Antwoord 2c 19,3%


Antwoord 2b 36,0%

Aantal van Leeftijd Leeftijd2


Mening Spits < 30 >= 30 Eindtotaal
Zeer slecht 4,0% 4,0% 8,0%
Slecht 6,0% 5,3% 11,3%
Redelijk 21,3% 12,7% 34,0%
Goed 23,3% 11,3% 34,7%
Zeer goed 8,7% 3,3% 12,0%
Eindtotaal 63,3% 36,7% 100,0%

Antwoord 2d 11,3%

182
Bijlage 2: Antwoorden

3. a. P(Metro | Spits) = 73 / 150 = 48,7%


b. P(Spits | Metro) = 73 / 163 = 44,8%
c. P(Metro en Spits) = 73 / 300 = 24,3%
d. P(Metro of Spits) = 240 / 300 = 80,0% of 163 / 300 + 150 / 300 – 73 / 300 = 240 / 300 = 80,0%
e. Nee, want P(Metro) * P(Spits) = 163 / 300 * 150 / 300 = 27,2% en dit is ongelijk aan het antwoord bij c.
P(Metro en Spits) = 24,3%.

4. a. P(Volkskrant | Vrouw) = 20 / 77 = 26,0%


b. P(Volkskrant | Man) = 40 / 223 = 17,9%
c. P(Volkskrant) = 60 / 300 = 20%
d. Nee, procentueel hebben meer vrouwen een abonnement op de ‘Volkskrant’ dan mannen.

5. X = Aantal keren dat de trein op tijd rijdt


a. P(X = 10) = 0,2484
b. P(X > 9) = 0,6196
c. P(X < 5) = 0,0053

6. X = Aantal personen dat de Metro wel eens gelezen heeft


a. P(X = 15) = 0,1408
b. P(X > 15) = 0,3525
c. P(10 < X < 20) = P(X < 20) – P(X < 9) = 0,9552

7. X = Aantal reizigers dat op een dag bij de balie komt


a. P(X = 7) = 0,1171
b. P(X < 5) = 0,0550
c. P(X > 10) = 0,4126

8. X = Aantal reizigers dat de “Spits” meeneemt


a. P(X = 12) = 0,0194
b. P(X = 10) = 0,1937
c. P(X > 6) = 0,9733
d. P(6 < X < 8) = 0,4452 – 0,0267 = 0,4185

9. X = Aantal reizigers dat een geldteruggave formulier heeft ingevuld


a. P(X = 10) = 0,0039
b. P(X = 0) = 0,0000
c. P(X = 5) = 0,1882
d. P(4 < X < 6) = 0,5680 – 0,0199 = 0,5481

10. a. P(X < 90) = 0,0013


a. P(X > 135) = 0,0668
b. P(105 < X < 135) = 0,8664
c. 126,7 minuten

11. a. P(X < 0,0833) = 0,8529


b. P(X > 0,1667) = 0,0216
c. P(0,500 < X < 0,1167) = 0,2483

12. a. P(X < 90) = 0,0228


b. P(X > 140) = 0,0912
c. P(120 < X < 150) = 0,4772
d. 144,7 seconden

13. a. P(X < 4) = 0,0228


b. P(X > 5.5) = 0,1587
c. 10,21 uur

14. a. P(X < 0,0500) = 0,5934


b. P(X > 0,0833) = 0,2231
c. P(0,0333 < X < 0,0667) = 0,2476

183
Statistiek met Excel 2013

Antwoorden Hoofdstuk 6: Chi-kwadraatverdeling (X2)

1. a. Niet representatief ten aanzien van de leeftijdscategorieën. p = 2,9%


Jongeren (10 -< 20 jaar) zijn oververtegenwoordigd in de steekproef terwijl ouderen (60+)
ondervertegenwoordigd zijn.
b. Wel representatief ten aanzien van inkomenscategorieën. p = 50,8%
c. Wel representatief ten aanzien van reistijdcategorieën. p = 18,8%

2. Geen verband (overschrijdingskans is 89%).

3. Wel verband (overschrijdingskans is 0%).


Trouw, Volkskrant en Anders lezen relatief minder de ‘Spits’ en Telegraaf en Geen lezen relatief vaker de
‘Spits’.
De samenhang is sterk (Cramer’s V is 0,48).

4. Geen verband (overschrijdingskans is 78%).

5. Wel verband (overschrijdingskans is 0%).


‘Metro’ wordt relatief meer gelezen door de 20 – 29 jarigen en relatief minder gelezen door de 40 – 59 jarigen.
De samenhang is sterk (Cramer’s V is 0,26).

6. Wel verband (overschrijdingskans is 0%).


‘Spits’ wordt relatief meer gelezen door de 10 – 29 jarigen en relatief minder gelezen door de 40 – 59 jarigen.
De samenhang is sterk (Cramer’s V is 0,31).

7. Geen verband (overschrijdingskans is 86%).

8. Drie van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de meningen “Zeer slecht” en “Slecht” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 69%).

9. Vier van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de reisdagen “1” en “2” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 96%).

10. Drie van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de reisdagen “1” en “2” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 6%).

11. Geen verband (overschrijdingskans is 91%).

184
Bijlage 2: Antwoorden

Antwoorden Hoofdstuk 7: Enkelvoudige lineaire regressie- en correlatieanalyse

1. a. Correlatie (r) =  0,2452 = 0,4952


b. y = 1,6073x + 16,51
c. reistijd is 49 minuten
d. Er is sprake van een matige correlatie (0,4 < r < 0,7), terwijl het aantal waarnemingspunten redelijk groot
is (n = 300). Dus de betrouwbaarheid van de voorspelling is matig.

Grafiek 7.1: Spreidingsdiagram van inkomen en reistijd


160

140

120

100
Reistijd (minuten)

80
Bron: “Fictie2000 “
f(x) = 1.60734785161076 x + 16.5095410956856
R² = 0.245247859877792
60
2. a. Correlatie (r) = –  0,1724 = – 0,42
b. y = – 0,0148x + 4,907
c. Het aantal reisdagen y = – 0,0148*100 + 4,907 = 3
d. De betrouwbaarheid van de voorspelling is matig. Het aantal punten is redelijk groot maar de
40
correlatiecoëfficiënt is slechts – 0,42

20 Grafiek 7.2: Spreidingsdiagram van reisdagen en reistijd


6

0
0 5 10 15 20 25

Inkomen (* € 100)
5
f(x) = − 0.0147943108050142 x + 4.90700739198244
R² = 0.172353720878421

4
Reisdagen

3
Bron: “Fictie2000 “

185
2
Statistiek met Excel 2013

3. a. Correlatie (r) =  0,5936 = 0,77


b. y = 0,3909x – 0,3542
c. 15,3 * € 100
d. De correlatie bij vrouwelijke respondenten is lager dan bij alle respondenten.
Wanneer een vrouw een jaar ouder wordt neemt het inkomen in vergelijking tot de totale groep minder
toe.

Grafiek 7.3: Spreidingsdiagram van leeftijd en inkomen van vrouwelijke responden


30

25

f(x) = 0.390877413254984 x − 0.354182975305759


R² = 0.59356824192154

20
Inkoemen * (€ 100)

15
Bron: “Fictie2000 “

4. a. Correlatie (r) = – 0,99


b. y 10
= – 2,0175x + 4076,9
c. 11,7%
d. Er is een zeer sterk verband tussen de tijd en het percentage dagbladabonnementen. Toch lijkt de
voorspelling niet echt betrouwbaar, omdat er sterk geëxtrapoleerd wordt (2015 ligt nog ver in de
toekomst).
5

Grafiek 7.4: Spreidingsdiagram van dagbladabonnementen 25 tot 35 jarigen


50
0 f(x) = − 2.01748251748252 x + 4076.92540792541
10 20
R² = 0.971827532423052 30 40 50
45
Leeftijd

40

35

30
Percentage

25

Bron: Centraal Bureau voor de Statistiek, Den Haag/Heerlen 19-6-2009


20

186
15
Bijlage 2: Antwoorden

5. a. Correlatie (r) = – 0,13


b. y = – 0,0909x + 251,05
c.
Jaar Percentage dagbladabonnementen
2009 68,41
2010 68,32
2011 68,23

d. Hoewel de extrapolatie in tegenstelling tot opgave 4 in de nabije toekomst ligt is de voorspelling toch erg
onbetrouwbaar, want het verband is verwaarloosbaar.

Grafiek 7.5: Spreidingsdiagram van dagbladabonnementen 75 jarigen of ouder


80

70
f(x) = − 0.0909090909090909 x + 251.045454545455
R² = 0.0173796791443849
60

50
Percentage

40

30

20

Bron:
10 Centraal Bureau voor de Statistiek, Den Haag/Heerlen 19-6-2009

0
1996 1998 2000 2002 2004 2006

187
Statistiek met Excel 2013

Antwoorden Hoofdstuk 8: Tijdreeksanalyse

1. Multiplicatief model
Trendindices
Jaar Kwartaal Hist. reeks Trend I II III IV
2011 I 11,87
II 12,13
III 12,52 13,23 94,63341
IV 16,11 13,42125 120,0335
2012 I 12,45 13,5825 91,66207
II 13,08 13,74 95,19651
III 12,86 13,865 92,75153
IV 17,03 13,89 122,6062
2013 I 12,53 13,96 89,75645
II 13,2 14,07375 93,79163
III 13,3
IV 17,5

Indices I II III IV
Som 181,4185 188,9881 187,3849 242,6397
Gemiddelde 90,70926 94,49407 93,69247 121,3199 400,2157
Voorlopig 91 94 94 121 400
Tussenberekening 9,290744 5,50593 6,307529 21,31986 0
Definitief 91 94 94 121

d. 13,14 * ƒ 1 miljoen

2. Additief model
Trendafwijkingen
Jaar Kwartaal Hist. Reeks Trend I II III IV
2011 I 83
II 95,6
III 117,9 107,138 10,7625
IV 125,3 110,55 14,75
2012 I 96,5 112,675 -16,175
II 109,4 113,725 -4,325
III 121,1 115,413 5,6875
IV 130,5 117,3 13,2
2013 I 104,8 119,463 -14,6625
II 116,2 122,388 -6,1875
III 131,6
IV 143,4

Afwijkingen I II III IV
Som -30,8375 -10,5125 16,45 27,95
Gemiddelde -15,4188 -5,25625 8,225 13,975 1,525
Voorlopig -16 -6 8 14 0
Tussenberekening 15,4188 5,25625 8,225 13,975 0
Definitief -16 -6 8 14

e. 13,8
f.
I II III IV
121,05 134,5 151,95 161,4

188
Bijlage 2: Antwoorden

3. Multiplicatief model
Trendindices
Jaar Kwartaal Hist. reeks Trend I II III IV
2010 I 141          
  II 400          
  III 373 283,125     131,7439  
  IV 216 286,25       75,45852
2011 I 146 290,875 50,19338      
  II 420 294,125   142,7964    
  III 390 296,5     131,5346  
  IV 225 300       75
2012 I 156 305 51,14754      
  II 438 309,25   141,633    
  III 412 311,875     132,1042  
  IV 237 316,375       74,9111
2013 I 165 322,625 51,14297      
  II 465 327,625   141,9306    
  III 435          
  IV 254          

Indices I II III IV
Som 152,4839 426,36 395,3827 225,3696  
Gemiddelde 50,82796 142,12 131,7942 75,12321 399,8654
Voorlopig 51 142 132 75 400
Tussenberekening 49,17204 42,11999 31,79424 24,87679 0
Definitief 51 142 132 75  

b. De verschillen tussen hoog en laagseizoen worden groter terwijl de trend stijgt.

d. Gecorrigeerd: (182 * 1000) / 0,51 = 356,9 * 1000

f. II: (4,96 * 18 + 262.4) * 1,42 = 499,4


III: (4,96 * 19 + 262.4) * 1,32 = 470,8
IV: (4,96 * 20 + 262.4) * 0,75 = 271,2

g. 182,0 + 499,4 + 470,8 + 271,2 = 1.423,2


Dit is minder dan 1.500 dus niet.

189
Statistiek met Excel 2016

Bijlage 3: Tentamenvragen

Bij een aselecte steekproef in september 2012 onder treinreizigers werden o.a. de volgende vragen gesteld:

1. Wat is uw geslacht?
0 Man
0 Vrouw

2. Wat is uw leeftijd?
………. jaar

3. Hoe vaak leest u gemiddeld de “Spits” in de week?


0 nooit
0 1 à 2 keer
0 3 keer of vaker

4. Wat vindt u van de inhoud van de “Spits”?


0 slecht
0 matig
0 redelijk
0 goed
0 zeer goed
0 geen mening

1. Hoe wordt de verzameling van alle treinreizigers bij bovenstaand onderzoek genoemd?
a. Parameter
b. Populatie
c. Statistiek
d. Steekproef

2. Op welke meetschaal wordt de variabele ‘Geslacht’ gemeten (zie onderzoeksvraag 1)?


a. Nominaal
b. Ordinaal
c. Interval
d. Ratio

3. Op welke meetschaal wordt de variabele ‘Leeftijd’ gemeten (zie onderzoeksvraag 2)?


a. Nominaal
b. Ordinaal
c. Interval
d. Ratio

4. Op welke meetschaal wordt de variabele ‘Gemiddeld aantal keren de “Spits” lezen per week’ gemeten (zie
onderzoeksvraag 3)?
a. Nominaal
b. Ordinaal
c. Interval
d. Ratio
5.

190
Bijlage 3 Tentamenvragen

5. Van de waarden op vraag 1 (“Wat is uw geslacht?”) kun je de volgende centrummaat berekenen:


a. Mediaan
b. Modus
c. Rekenkundig gemiddelde
d. Geen van bovenstaande antwoorden is juist

Van de antwoorden op vraag 2 (“Wat is uw leeftijd?”) is de volgende frequentieverdeling gemaakt.

Tabel 1: Leeftijden van 200 treinreizigers

Leeftijd Aantal
15 -< 20 24
20 -< 30 35
30 -< 40 53
40 -< 50 31
50 -< 80 57
Totaal 200

6. Bij Tabel 1 is de modale leeftijd in jaren:


a. 35
b. 53
c. 57
d. 65

7. Welke van de volgende grafieken geeft een histogram van tabel 1 correct weer?

Grafiek a Grafiek b

Aantal per Leeftijdsopbouw van 200 treinreizigers


Leeftijdsopbouw van 200 treinreizigers Aantal
5 jaar
60
30
50
25
40
20

15 30

10 20

5 10

0 0
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
Leeftijd
Leeftijd

Grafiek c Grafiek d

Aantal per Leeftijdsopbouw van 200 treinreizigers Leeftijdsopbouw van 200 treinreizigers
5 jaar Aantal
30 60

25 50

20 40

15 30

10 20

5 10

0 0
15 20 30 40 50 80 15 20 30 40 50 80
Leeftijd Leeftijd

191
Statistiek met Excel 2016

8. De gemiddelde leeftijd (rekenkundig gemiddelde) van de 200 treinreizigers weergegeven in


tabel 1 is afgerond op jaren:
a. 35
b. 37
c. 41
d. 47

9. De variantie in leeftijd van de 200 treinreizigers weergegeven in tabel 1 is afgerond op jaren:


a. 17
b. 33
c. 65
d. 289

10. Voor het gelijktijdig bestuderen van de gegevens op vraag 3 (“hoe vaak leest u gemiddeld de “Sp!ts” in de
week”) en vraag 4 (“wat vindt u van de inhoud van de “Spits””) moet je gebruik maken van een:
a. Frequentietabel
b. Histogram
c. Kruistabel
d. Procentuele frequentie tabel

11. Welke van onderstaande tabellen geeft het duidelijkst weer dat vrouwelijke treinreizigers relatief minder vaak
de “Spits” lezen dan mannelijke treinreizigers?

Tabel a Tabel b

Aantal van Hoe vaak Geslacht Aantal van Hoe vaak geslacht
Hoe vaak man vrouw Eindtotaal Hoe vaak man vrouw Eindtotaal
Nooit 24 17 41 nooit 59% 41% 100%
1 à 2 keer 83 19 102 1 à 2 keer 81% 19% 100%
3 keer of vaker 46 11 57 3 keer of vaker 81% 19% 100%
Eindtotaal 153 47 200 Eindtotaal 77% 24% 100%

Tabel c Tabel d

Aantal van Hoe vaak Geslacht Aantal van Hoe vaak geslacht
Hoe vaak man vrouw Eindtotaal Hoe vaak man vrouw Eindtotaal
Nooit 16% 36% 21% nooit 12% 9% 21%
1 à 2 keer 54% 40% 51% 1 à 2 keer 42% 10% 51%
3 keer of vaker 30% 23% 29% 3 keer of vaker 23% 6% 29%
Eindtotaal 100% 100% 100% Eindtotaal 77% 24% 100%

12. Zie bovenstaande tabellen (a, b, c en d). Welke van onderstaande uitspraken is correct?
a. 9% van de vrouwelijke treinreizigers leest nooit de “Spits”.
b. 23% van de treinreigers die 3 keer of vaker per week de “Spits” lezen is man.
c. 51% van de treinreizigers leest 1 à 2 keer per week de “Spits”.
d. Alle uitspraken bij a, b en c zijn correct.

13. Welke grafiek is het meest geschikt om de gegevens van tabel a in één grafiek weer te geven?
a. Cirkeldiagram
b. Histogram
c. Polygoon
d. Staafdiagram

192
Bijlage 3 Tentamenvragen

Grafiek 1: Cumulatief frequentiepolygoon van enkele


reisafstand per trein van 200 treinreizigers

Aantal

250

200

150

100

50

0
0 20 40 60 80 100 120 140

Aantal km

14. Zie grafiek 1. Welke van onderstaande uitspraken is correct?


a. 30% van de reizigers heeft een enkele reisafstand van 20 km.
b. De meeste reizigers hebben een enkele reisafstand af van tussen de 120 en 140 km.
c. De modale klasse van enkele reisafstand is 20 -< 40 km.
d. Er zijn geen reizigers met een enkele reisafstand per trein van minder dan 20 km.

Slechts 15 van de 200 ondervraagde treinreizigers wilden hun bruto jaarinkomen geven.
Deze bruto jaarinkomens (in duizend gulden) bedragen:
12 ; 40 ; 67 ; 50 ; 45 ; 8 ; 50 ; 25 ; 34; 75 ; 35 ; 29 ; 0 ; 6 ; 86.

15. Het mediane inkomen (in duizend gulden) van de 15 treinreizigers, die hun bruto jaarinkomen gaven,
bedraagt:
a. 25
b. 35
c. 50
d. 86

16. De standaardafwijking van de inkomens (in duizend gulden) van de 15 treinreizigers, die hun bruto
jaarinkomen gaven, bedraagt:
a. 16
b. 20
c. 26
d. 32

17. Het bereik van de inkomens (in duizend gulden) van de 15 treinreizigers, die hun bruto jaarinkomen gaven,
bedraagt:
a. 15
b. 20
c. 74
d. 86

193
Statistiek met Excel 2016

18. Als het inkomen niet in guldens wordt gemeten, maar in Euro’s met een omrekenfactor van
Euro = 2 gulden, dan:
a. verandert de standaardafwijking niet
b. wordt de standaardafwijking 1/2 keer zo groot
c. wordt de standaardafwijking 2 keer zo groot
d. wordt de standaardafwijking 4 keer zo groot

19. Zie grafiek 2. Welke van onderstaande uitspraken is correct?


a. 10 reizigers vinden de “Spits” zeer slecht
b. 50 reizigers vinden de “Spits” goed of zeer goed
c. 60 reizigers lezen de “Spits” niet
d. Geen van bovenstaande uitspraken is correct

20. Van de waarden op vraag 4 (“Wat vindt u van de inhoud van de Sp!ts?”) kun je de volgende spreidingsmaat
berekenen:
a. Bereik
b. Kwartielafstand
c. Standaardafwijking
d. Geen van bovenstaande antwoorden is juist

21. Ga ervan uit dat de kans dat een jongen geboren wordt gelijk is aan de kans dat een meisje geboren wordt
oftewel P(jongen) = P(meisje) = 0,5. Welke kans is het grootst als je kijkt naar het geslacht van de eerste twee
kinderen die in het Medisch Spectrum Twente geboren worden in het nieuwe jaar.
a. Beide kinderen hebben hetzelfde geslacht
b. Het eerste kind is een jongen, het tweede kind is een meisje
c. Het eerste kind is een meisje, het tweede kind is een jongen
d. De mogelijkheden genoemd bij a, b en c hebben allen dezelfde kans.

194
Bijlage 3 Tentamenvragen

22. Bij het gooien met een “eerlijke” dobbelsteen is de kans op het gooien van een 4 gelijk aan 1/6.
Hoe groot is de kans, wanneer je twee keer met die dobbelsteen gooit je beide keren een 4 gooit?
a. 1/36
b. 1/12
c. 1/6
d. 1/3

23. Iemand gooit 4 keer met een “eerlijke” dobbelsteen. Welke van onderstaande volgorden is het meest
waarschijnlijk dat gegooid wordt?
a. Eerst een 1, dan een 2, vervolgens een 3 en ten slotte een 4
b. Eerst een 1, dan een 1, vervolgens een 1 en ten slotte een 1
c. Eerst een 3, dan een 5, vervolgens een 2 en ten slotte een 6
d. Alle volgorden genoemd bij a, b en c zijn even waarschijnlijk

24. Je ontmoet een willekeurige Nederlander (X). Welke kans is het grootst?
a. P(X is een docent)
b. P(X is een docent of een minister)
c. P(X is een docent en woont in Amsterdam)
d. P(X is een docent of een minister en woont in Amsterdam of in Den Haag)

Grafiek 3: Binomiale kansverdeling met p = 0.3 en n = 10


P(X)
0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9 10
X

25. Zie ook grafiek 3. Als bij een binomiale kansverdeling p = 0,3 en n = 10 dan is de verwachtingswaarde van de
binomiale kansverdeling:
a. 0,03
b. 1,45
c. 2,10
d. 3,00

26. Zie ook grafiek 3. P(3 < X < 5 | p = 0,3 ; n = 10) =


a. 0,20
b. 0,57
c. 0,71
d. 0,84

195
Statistiek met Excel 2016

27. Uit een groep van 9 vrouwelijke en 18 mannelijke journalisten werd een aselecte steekproef van 5 journalisten
getrokken zonder “terugleggen” om het bezoek van koningin Beatrix aan de Nederlandse Antillen te volgen.
De kansverdeling van het aantal vrouwen in de steekproef is:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson

28. Zie ook opgave 27. Uit een groep van 9 vrouwelijke en 18 mannelijke journalisten werd een aselecte
steekproef van 5 journalisten getrokken zonder “terugleggen”, om het bezoek van koningin Beatrix aan de
Nederlandse Antillen te volgen. De kans dat het aantal vrouwen in de steekproef gelijk is aan 2 is:
a. 0,1111
b. 0,3292
c. 0,3639
d. 0,7901

29. Aan een lopende band worden zeer veel plastic “Superfris” flessen per uur geproduceerd en gecontroleerd.
Het aantal niet-geschikte flessen dat op deze lopende band terecht komt is gemiddeld 20 per uur. Het aantal
niet-geschikte flessen dat op deze lopende band terechtkomt gedurende 10 minuten heeft de volgende
kansverdeling:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson

30. Zie ook opgave 29. Aan een lopende band worden zeer veel plastic “Superfris” flessen geproduceerd en
gecontroleerd. Het aantal niet geschikte flessen dat op deze lopende band terecht komt is gemiddeld 20 per
uur. Hoe groot is de kans dat het aantal niet geschikte flessen dat op deze lopende band terechtkomt
gedurende een aselect gekozen periode van 10 minuten gelijk is aan 2?
a. 0,0000
b. 0,0176
c. 0,1982
d. 0,7165

31. Bij de productie van seriële interfaces blijkt 9% niet aan de eisen te voldoen. De kansverdeling van het aantal
seriële interfaces dat niet aan de eisen voldoet bij een aselecte steekproef van 50 seriële interfaces is:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson

32. Zie ook opgave 31. Bij de productie van seriële interfaces blijkt 9% niet aan de eisen te voldoen. Hoe groot is
de kans dat het aantal seriële interfaces dat niet aan de eisen voldoet bij een aselecte steekproef van 50
seriële interfaces groter of gelijk is aan 4?
a. 0,1973
b. 0,3303
c. 0,5277
d. 0,6697

196
Bijlage 3 Tentamenvragen

Grafiek 4: Normale kansverdeling met µ = 10 en σ = 2

kansdichtheid 0,25

0,20

0,15

0,10

0,05

0,00
4 5 6 7 8 9 10 11 12 13 14 15 16
X

33. Zie grafiek 4. Bij de normale verdeling met µ = 10 en  = 2 is P(7 < X < 10) gelijk aan:
a. 0,13
b. 0,27
c. 0,43
d. 0,57

34. De hoeveelheid bier die per keer uit een vulmachine voor flesjes bier komt is bij benadering normaal verdeeld
met µ = 30,4 cl en  = 0,5 cl. Hoe groot is de kans dat een flesje bier die door deze vulmachine gevuld wordt
niet minimaal de 30,0 cl bevat die op het etiket vermeld staat?
a. 0,0026
b. 0,0359
c. 0,2119
d. 0,8000

35. De hoeveelheid bier die per keer uit een vulmachine voor flesjes bier komt is bij benadering normaal verdeeld
met µ = 30,4 cl en  = 0,5 cl. Op welke hoeveelheid moet deze vulmachine minimaal afgesteld worden, zodat
de kans dat een flesje minder dan 30 cl bier bevat hooguit 0,0001 is, ervan uitgaande dat de
standaardafwijking dan niet veranderd?
a. 28,5 cl
b. 28,6 cl
c. 31,9 cl
d. 32,3 cl

197
Statistiek met Excel 2016

Het management van een frisdrankenfabriek wil een methode ontwikkelen om de leveringskosten van kratten
frisdrank door te berekenen aan haar klanten. Eén van de aspecten die de leveringskosten beïnvloeden is de tijd
die nodig is om de afstand tot de klant af te leggen. Het management verwacht een lineair verband tussen tijd en
afstand. Van 10 aselect gekozen leveringen aan klanten verzamelt het management gegevens over de tijd die de
levering kost en de afstand tot de klant.
In onderstaande tabel zijn deze gegevens weergegeven:

Tabel 2: Tijd per afstand van leveringen kratten


frisdrank aan 10 klanten

Klant Tijd (minuten) Afstand (km)


1 30 12
2 26 34
3 102 101
4 59 26
5 120 128
6 78 33
7 145 189
8 129 159
9 86 52
10 67 86

36. Aan de hand van bovenstaande gegevens wil het management de lineaire regressielijn bepalen op basis van
de kleinste kwadraten methode.
Welke variabele moet zij kiezen als afhankelijke (gevolg) en welke variabele als onafhankelijke variabele
(oorzaak)?
a. afhankelijke: afstand onafhankelijke: klant
b. afhankelijke: afstand onafhankelijke: tijd
c. afhankelijke: tijd onafhankelijke: afstand
d. afhankelijke: tijd onafhankelijke: klant

37. Wanneer bij bovenstaande gegevens de variabele ‘Afstand” met x en de variabele ‘Tijd’ met y wordt
aangeduid dan luidt de vergelijking van de regressielijn op basis van de kleinste kwadraten methode:
a. y = 0,6 x + 35,0
b. y = 1,4 x – 34,0
c. y = 8,8 x + 23,5
d. y = 10,4 x + 11,9

38. De correlatiecoëfficiënt (r) tussen ‘Tijd’ en ‘Afstand’ op basis van de gegevens uit tabel 1 is gelijk aan:
a. 0,30
b. 0,41
c. 0,83
d. 0,91

198
Bijlage 3 Tentamenvragen

Een ander aspect dat de leveringskosten beïnvloedt is de tijd die nodig is om de kratten frisdrank uit te laden bij de
klant. Ook hier verwacht het management een lineair verband tussen de variabele “aantal af te leveren kratten” en
de variabele “tijd”. Aan de hand van 20 gegevens over het aantal af te leveren kratten en de ermee gemoeide tijd
voert het management met behulp van Excel een lineaire regressie analyse uit, waarbij ze het aantal kratten als x
variabele kiest en de tijd als y variabele.
Hieronder zie je een gedeelte van de uitvoer die ze krijgt van de lineaire regressie analyse.

SAMENVATTING UITVOER

Gegevens voor de regressie


Meervoudige correlatiecoëfficiënt R 0,986
R-kwadraat 0,972
Aangepaste kleinste kwadraat 0,970
Standaardfout 1,987
Waarnemingen 20

Variantie-analyse
Vrijheidsgraden Kwadratensom
Regressie 1 2443,466006
Storing 18 71,03149378
Totaal 19 2514,4975

Coëfficiënten Standaardfout
Snijpunt 24,83 1,054218648
Aantal kratten 0,14 0,005627243

39. De vergelijking van de lineaire regressielijn op basis van bovenstaande gegevens luidt:
a. y = 0,14 x + 24,83
b. y = 0,97 x + 20
c. y = 24,83 x + 0,14
d. y = 2443 x + 71

40. Voor een bepaald product uit het assortiment van de frisdrankenfabriek bestaat een negatief verband tussen
de ‘Prijs van het product’ en de ‘Afzet van dat product’. Het blijkt dat de prijs 64% van de spreiding van de
afzet kan verklaren. Hoe groot is de correlatiecoëfficiënt (r) voor de samenhang tussen ‘Prijs’ en ‘Afzet’ van het
product?
a. – 0,80
b. – 0,64
c. + 0,64
d. + 0,80

41. De vergelijking die het lineaire verband weergeeft tussen ‘Temperatuur’ (x) gemeten in 0C en de ‘Afzet van een
bepaalde frisdrank’ (y) gemeten in hectoliters luidt: y = 0,83 x – 0,46
Hieruit kun je concluderen dat de correlatie tussen x en y:
a. negatief is
b. zwak negatief is
c. positief is
d. zwak positief is

42. Op basis van de regressielijn genoemd bij opgave 41 (y = 0,83 x – 0,46) is de voorspelling van de afzet (in hl. in
2 decimalen) van de desbetreffende frisdrank bij een temperatuur van 20 0C gelijk aan:
a. 16,14
b. 17,06
c. 20,37
d. 23,54

199
Statistiek met Excel 2016

Grafiek 5: Omzet van frisdrank "Cocicool" 2011 - 2013


100

90

80

70

60
43. Zie bovenstaand spreidingsdiagram van de omzet van “Cocicool”. Een voorspelling van de omzet voor het jaar
f(x) = 10 x − 20070
2020 op basis van de regressielijn geeft eenR² omzet van 130 * € 100.000. Deze voorspelling is zeer
Omzet (* € 100.000)

= 0.0769230769230769
onbetrouwbaar omdat:
a. bij50de voorspelling erg sterk geëxtrapoleerd wordt
b. de regressielijn slechts op bepaald is op basis van 3 punten
c. er sprake is van een verwaarloosbare correlatie
d. alle antwoorden genoemd bij a, b en c zijn juist
40
Het management van een frisdrankfabriek wil de afzet van één van haar producten (“Ansicool”) analyseren om
hiermee voorspellingen voor de verschillende kwartalen van het jaar 2014 te kunnen doen. Het management heeft
30 beschikking over de gegevens die in onderstaande tabel zijn opgenomen.
daarvoor de

Tabel 3: Afzet per kwartaal van frisdrank


20 “Ansicool” over de jaren 2011-2013

Jaar Kwartaal Afzet in hectoliters


2011
10 I 6,4
II 16,1
III 18,9
IV 5,3
0
2012 I 6,7
2010 2011 2012 2013
II 16,5
III 19,0
IV 5,4
2013 I 8,8
II 20,0
III 22,6
IV 8,7

44. Wat is het trendcijfer in hectoliters (afgerond op 1 decimaal) voor “Ansicool” in het vierde kwartaal van 2011,
wanneer dit berekend wordt op basis van het voortschrijdend gemiddelde?
a. 5,3
b. 10,3
c. 11,8
d. 12,7

200
Bijlage 3 Tentamenvragen

45. Het management besluit dat het additieve model het beste past bij de gegevens van “Ansicool”.
De 4 seizoenscomponenten (seizoenspatronen) zijn dan gelijk aan:
(N.B. Deze opgave kan ook zonder rekenwerk goed beantwoord worden).
a. Kwartaal I: – 5 Kwartaal II: + 5 Kwartaal III: + 7 Kwartaal IV: – 7
b. Kwartaal I: + 5 Kwartaal II: – 5 Kwartaal III: – 7 Kwartaal IV: + 7
c. Kwartaal I: + 7 Kwartaal II: – 7 Kwartaal III: + 5 Kwartaal IV: – 5
d. Kwartaal I: 60 Kwartaal II: 138 Kwartaal III: 159 Kwartaal IV: 43

Voor een ander product “Sisicool” van de frisdrankfabriek, heeft het management op basis van de afzetgegevens
over de kwartalen van 2011-2013 de trend berekend op basis van het voortschrijdend gemiddelde. Zie tabel 4.

Tabel 4: Afzet en trend van “Sisicool” per kwartaal over de jaren 2011-2013

Jaar Kwartaal Afzet (in hectoliters) Trend (in hectoliters)


2011 I 60,0
II 102,0
III 126,0 97,3
IV 81,0 111,5
2012 I 100,0 130,5
II 176,0 147,0
III 204,0 161,9
IV 135,0 187,0
2013 I 165,0 222,0
II 312,0 252,4
III 348,0
IV 234,0

De seizoensindices bepaald op basis van het multiplicatieve model luiden als volgt:

Kwartaal I II III IV
Seizoenindex 76 122 129 73

46. Hoeveel bedraagt de toevallige afwijking (in %) voor de afzet van “Sisicool” in het eerste kwartaal van 2012 op
basis van bovenstaande gegevens? Het multiplicatieve model dat gebruikt wordt is:
Tijdreeks = Trend * Seizoensindex * Toevalllige afwijking
a. – 0,83
b. – 0,63
c. + 0,63
d. + 0,83

Het management verwacht dat de stijging van de trendcijfers na het tweede kwartaal van 2013 gelijk zal zijn aan
de gemiddelde stijging van de trendwaarden van het derde kwartaal van 2011 tot en met het tweede kwartaal van
2013.

47. Wat is het trendcijfer (afgerond op 1 decimaal) dat het management voor het tweede kwartaal van 2014 op
basis van bovenstaande gegevens voor het product “Sisicool” verwacht?
a. 318,9
b. 330,0
c. 341,0
d. 374,0

201
Statistiek met Excel 2016

48. De afzet van “Sisicool” in het eerste kwartaal van 2014 bedroeg 250,2 hectoliter. De afzet van “Sisicool” in het
eerste kwartaal van 2014 gecorrigeerd volgens het multiplicatieve model bedraagt in hectoliters (afgerond op
1 decimaal):
a. 174,2
b. 190,2
c. 326,2
d. 329,2

49. Op basis van bovenstaande gegevens heeft het management de trend ook op basis van lineaire regressie
analyse laten berekenen. Voor het derde kwartaal van 2014 heeft zij een trendcijfer voor de afzet gevonden
van 348,1 hectoliter.
Welke afzet (in hectoliters afgerond op 1 decimaal) mag het management op basis van deze gegevens en het
ontwikkelde multiplicatieve model verwachten voor het derde kwartaal van 2014?
a. 269,8
b. 348,1
c. 449,0
d. 477,1

50. Van een nieuw frisdrankproduct dat pas sinds 2 januari 2014 op de markt is, heeft het management de
gegevens van de afzet over de weken in de maanden januari, februari en maart van 2014. Welke van de
onderstaande tijdreeks componenten kan het management aan de hand van deze gegevens bepalen?
a. Cyclus
b. Seizoen
c. Trend
d. Geen van bovenstaande componenten

Tabel 5: Wel of niet drinken van Sisicool per leeftijdscategorie

10 – 19 20 – 29 30 – 59 > 60 Totaal
Wel 30 20 10 5 65
Niet 10 30 50 45 135
Totaal 40 50 60 50 200

Gebruik voor de opgaven 51 – 55 tabel 5.

51. Om te onderzoeken of er een verband bestaat tussen het wel of niet drinken van Sisicool en leeftijdscategorie
moet je gebruik maken van:
a. Binomiaaltoets
b. Chi-kwadraattoets
c. Normaaltoets
d. Regressieanalyse

52. Als je van de veronderstelling uitgaat dat er geen verband bestaat tussen het wel of niet drinken van Sisicool
en leeftijdscategorie dan is de verwachtingswaarde voor het aantal mensen dat wel Sisicool drinkt in de
leeftijdscategorie 20 – 29 gelijk aan:
a. 16
b. 20
c. 34
d. 50

53. Neem voor de toets een maximale onbetrouwbaarheid (α) van 5%. Hoe groot is de overschrijdingskans?
a. 0%
b. 5%
c. 7,8%
d. 52,6%

202
Bijlage 3 Tentamenvragen

54. Hoeveel vrijheidsgraden heeft tabel 5?


a. 2
b. 3
c. 4
d. 8

55. Hoe sterk is de samenhang tussen de variabelen wel of niet drinken van Sisicool en de leeftijdscategorieën?
a. Verwaarloosbaar
b. Zwak
c. Matig
d. Zeer sterk

Antwoorden

Vraag Antwoord Vraag Antwoord Vraag Antwoord Vraag Antwoord Vraag Antwoord
1 b 12 c 23 d 34 c 45 a
2 a 13 d 24 b 35 c 46 d
3 d 14 c 25 d 36 c 47 c
4 b 15 b 26 b 37 a 48 d
5 b 16 c 27 b 38 d 49 c
6 a 17 d 28 c 39 a 50 d
7 a 18 b 29 d 40 a 51 b
8 c 19 b 30 c 41 c 52 a
9 d 20 d 31 a 42 a 53 a
10 c 21 a 32 d 43 d 54 b
11 c 22 a 33 c 44 c 55 d

203
Statistiek met Excel 2016

Bijlage 4: Excelbestanden

Tabel: Excel bestanden op het netwerk (K:\FEM\Excel\Statistiek met Excel 2013

Werkmap Werkblad(en)
Fictie2000 Data
Dagbladabonnementen Data
Karakteristieken Losse waarden
Klassen
Discrete kansverdelingen Binomiaal
Hypergeometrisch
Negatief binomiaal
Poisson
Continue kansverdelingen Normaal
Exponentieel
Chi-kwadraattoets Afhankelijkheid
Representativiteit
Tijdreeksanalyse Additief kwartalen
Multiplicatief kwartalen
Additief trimesters
Multiplicatief trimesters

204

You might also like