Professional Documents
Culture Documents
(Module SIN-2)
(Module SIN-2)
Woord vooraf
Woord vooraf
In 1997 keerde ik, na vijf jaar in Zimbabwe gewerkt te hebben, terug op de door fusies veranderde Hogeschool van
Utrecht en kon weer gaan lesgeven in mijn oude vakgebied, de statistiek. Niet alleen de hogeschool was
veranderd, ook de softwarepakketten. De elektronische snelweg was gemeengoed geworden. Nog niet voor mij,
want ik had in die vijf jaar slechts een rijbewijs gehaald in het ontwijken van groot wild (olifanten, buffels, enz.), in
een gebied waar geen elektriciteit! en zeker geen telecommunicatiemogelijkheden aanwezig waren. Dus de
hoogste tijd om mij weer eens te verdiepen in alle nieuwe mogelijkheden.
De opmars van het Microsoft Office Pakket, waar Excel een onderdeel van is, in de bedrijven, valt nauwelijks in de
(Nederlandstalige) statistiekboeken weer te vinden. Natuurlijk is SPSS een veel beter statistisch pakket en daarin
wordt wel onderwezen. Maar een groot nadeel hiervan is dat studenten die stage lopen, of na hun studie in het
bedrijfsleven gaan werken, hier geen gebruik van kunnen maken, omdat het bij slechts enkele (marktonderzoek)
bedrijven gebruikt wordt.
Daarnaast zie je dat de statistische mogelijkheden van spreadsheet programma’s (Excel) bij elke nieuwe versie
uitgebreid worden.
De Amerikaanse statistiekboeken zijn wat betreft de integratie van statistiek en Excel een stuk verder.
Tegenwoordig zijn er al tientallen boeken op de markt waarbij deze integratie volledig tot stand is gekomen. In het
studiejaar 1998/1999 heb ik een dergelijk boek (“Statistics for Managers using Microsoft Excel” – David Levine) in
het eerste jaar van de CE-opleiding van de HvU uitgeprobeerd. De combinatie statistiek met Excel is goed bevallen,
maar een groot nadeel van een Amerikaans boek voor de “gemiddelde” student is de taal en het werken met een
Nederlandse versie van Excel met een handleiding voor de Engelse versie. Dat laatste is goed te begrijpen. Wie
heeft direct in de gaten dat met “frequency”, “interval” wordt bedoeld?
Gedurende dat studiejaar heb ik aanvullend materiaal voor de studenten moeten schrijven om het Amerikaanse
boek goed te kunnen volgen met de Nederlandse Excelversie. Dit is de basis geweest voor dit handboek, dat
geschreven is voor de Excel 97 versie, die in het studiejaar 1999/2000 op de HvU gebruikt gaat worden. Het
grootste gedeelte van dit handboek is dan ook gebaseerd op het boek van David Levine – “Statistics for Managers
using Microsoft Excel”.
Dit handboek is niet bedoeld als een statistiek- of Excelboek. Hiervoor wil ik verwijzen naar de uitstekende
statistiek- en Excelboeken die op de Nederlandse markt aanwezig zijn. Ik kon slechts tijd vinden om het
integrerende gedeelte op papier te zetten.
Bij dit handboek hoort een diskette met de bestanden van “uitgebreide” Excelbladen voor bijvoorbeeld de
verschillende toetsen. Het lijkt mij een onzinnige tijdsbesteding voor studenten om deze bestanden zelf allemaal
over te typen uit de verschillende hoofdstukken.
“ Op onze slechte sovjetschool kregen we marxisme, bij God dat we werden geïndoctrineerd, maar het wiskunde-
en natuurkundeonderwijs was goed. Dat heeft in mijn hoofd voor de nodige orde gezorgd. Ik durf te beweren dat
de jongste Russische revolutie is veroorzaakt door de mathematica. Want wij hebben geleerd logisch te denken, de
formele logica van Aristoteles. Dan zie je op een gegeven moment ook dat de dingen om je heen niet logisch zijn en
ben je in staat te analyseren. Je weet toch zeker wel dat de eerste ondergrondse samizdat-publicaties circuleerden
in kringen van wis- en natuurkundigen. Sacharov was een natuurkundige.
Maar onze kinderen worden met die logica niet vertrouwd gemaakt. Ze leren rekenmachientjes te gebruiken en
computers. Alsjeblieft zeg! Zelfs een aap kan met een computer leren omgaan.”
Irina Grivnina – Wij waren boekenkinderen, wij kenden het echte leven niet
(Uit: Mijn moeder was analfabeet – Geke van der Wal)
Met dank aan mijn collega Andre de Groot voor zijn handige tips en waardevolle suggesties.
Deze nieuwe versie is speciaal geschreven om statistische bewerkingen uit te voeren met Excel 2013.
Ten opzichte van de vorige versie zijn de volgende wijzigingen aangebracht:
Alle voorbeeldschermen en beschrijvingen zijn toegepast op Excel 2013 in plaats van Excel 2010.
Hoofdstuk 6 Chi-kwadraatverdeling behandelt naast de toets op afhankelijkheid ook de toets met betrekking
tot de representativiteit van een steekproef.
Deze nieuwe versie is speciaal geschreven om statistische bewerkingen uit te voeren met Excel 2016.
Ten opzichte van de vorige versie zijn de volgende wijzigingen aangebracht:
Alle voorbeeldschermen en beschrijvingen zijn toegepast op Excel 2016 in plaats van Excel 2013.
Bij hoofdstuk 3 Grafieken wordt het maken van een box en whiskerdiagram beschreven.
Inhoudsopgave
0 Het Excelvenster 9
0.1 Inleiding 9
0.2 Excel starten 9
0.3 Onderdelen van het Excelvenster 9
0.3.1 Titelbalk 10
0.3.2 Werkbalk Snelle toegang 10
0.3.3 Het lint 11
0.3.4 Naamvak 12
0.3.5 Formulebalk 12
0.3.6 Schuifbalken 12
0.3.7 Werkbladen 13
0.3.8 Statusbalk 13
0.3.9 Knoppen voor indelen venster 13
1 Introductie 15
1.1 Een voorbeeld 15
1.2 Statistisch onderzoek 16
1.3 Probleembeschrijving 16
1.4 De enquête 17
1.5 Het databestand 18
1.6 Kwalitatieve en kwantitatieve gegevens 19
1.7 Het belang van onderzoek 21
2 Tabellen 23
2.1 Inleiding 23
2.2 Tabellen van kwalitatieve gegevens 23
2.2.1 Enkelvoudige draaitabellen 24
2.2.2 Meervoudige draaitabellen 31
2.2.3 Relatieve tabellen 33
2.2.4 Filteren 37
2.3 Tabellen van kwantitatieve gegevens 43
2.4 Opgaven 48
3 Grafieken 51
3.1 Inleiding 51
3.2 Grafieken van kwalitatieve gegevens 52
3.2.1 Kolomdiagram 52
3.2.2 Staafdiagram 61
3.2.3 Cirkeldiagram 62
3.3 Grafieken van kwantitatieve variabelen 65
3.3.1 Histogram 66
3.3.2 Frequentiepolygoon 72
3.3.3 Cumulatief polygoon (ogief) 73
3.3.4 Grafieken van tijdreeksen 76
3.3.4.1 Korte tijdreeksen 77
3.3.4.2 Lange tijdreeksen 80
3.3.5 Spreidingsdiagram 81
3.4 Opgaven 87
5
6
4 Karakteristieken 88
4.1 Inleiding 88
4.2 Karakteristieken bij losse waarnemingen 88
4.2.1 Centrummaten 89
4.2.2 Spreidingsmaten 89
4.2.3 Vormmaten 91
4.3 Karakteristieken bij losse waarnemingen met Excel 92
4.4 Karakteristieken bij frequentieverdelingen met klassenindeling 97
4.4.1 Centrummaten bij frequentieverdelingen 97
4.4.2 Spreidingsmaten bij frequentieverdelingen 98
4.5 Karakteristieken bij frequentieverdelingen met klassenindeling met Excel 99
4.6 Opgaven 101
8 Tijdreeksanalyse 153
8.1 Inleiding 153
8.2 De componenten van een tijdreeks 153
8.2.1 Trend 153
8.2.2 Conjunctuurinvloed 154
8.2.3 Seizoensinvloed 154
8.2.4 Toevallige afwijking 154
8.2.5 Trendbreuk 155
8.3 Trend via lineaire regressie (kleinste kwadraten methode) 155
8.4 Trend via voortschrijdend (zwevend) gemiddelde 156
8.4.1 Voortschrijdend gemiddelde bij een oneven aantal perioden 157
8.4.2 Voortschrijdend gemiddelde bij een even aantal perioden 157
8.5 Seizoenpatronen en cyclusbewegingen 158
8.5.1 Het additieve model 158
8.5.2 Het multiplicatieve model 160
8.5.3 Seizoenspatronen met behulp van Excel 161
8.6 Voorspellen 162
8.6.1 Voorspellen bij het additieve model 162
8.6.2 Voorspellen bij het multiplicatieve model 163
8.7 Het corrigeren van een tijdreeks voor het seizoen 163
8.8 Opgaven 165
7
Statistiek met Excel 2016
8
0 Het Excelvenster
0 Het Excelvenster
0.1 Inleiding
In dit inleidende hoofdstuk wordt kort uitgelegd hoe je Excel 2016 kunt starten en komen de belangrijkste
onderdelen van het Excelvenster aan de orde. Als je al eens met Excel 2016 gewerkt hebt kun je dit hoofdstuk
zonder problemen overslaan.
Als je Windows gestart hebt kun je via Start en Alle programma’s, via een snelkoppeling op het bureaublad of via
de Office werkbalk het Excelprogramma starten. Excel 2016 wordt door het volgende symbool weergegeven:
Een andere mogelijkheid om Excel 2016 te starten is door het openen van een Excelbestand (werkmap). Deze
bestanden kun je herkennen aan het volgende teken:
Als je Excel 2016 start dan verschijnt een raster van rechthoeken (cellen) dat het grootste deel van het venster
beslaat (zie volgende bladzijde). Dit raster heet een werkblad en bestaat uit 16.384 kolommen en 1.048.576 rijen.
De kolommen hebben letters van A tot en met Z, gevolgd door AA, AB enzovoort eindigend bij XFD. De rijen zijn
genummerd van 1 tot en met 1.048.576.
9
Statistiek met Excel 2016
2 1
4 5
7
8 6
9
0.3.1 Titelbalk
In de Titelbalk zie je de naam van het bestand, Map1, en de naam van het programma waar je mee werkt,
Microsoft Excel (zie figuur 0.4).
Rechts in de Titelbalk staan de pictogrammen minimaliseren, verkleinen/maximaliseren en sluiten van het venster.
Links in de Titelbalk staat het pictogram van het Systeemmenu. Hiermee kun je dezelfde bewerkingen uitvoeren als
met de pictogrammen links in de titelbalk. Naast het pictogram van het Systeemmenu vind je de werkbalk Snelle
toegang.
Naast het pictogram van het systeemmenu vind je de kleine werkbalk Snelle toegang. Standaard bevat deze
werkbalk de knoppen opslaan, ongedaan maken en opnieuw uitvoeren.
Deze werkbalk kun je uitbreiden met knoppen die je vaak gebruikt. Door met de rechtermuisknop op een knop te
klikken kun je deze knop aan de werkbalk snelle toegang toevoegen.
Wanneer je met de rechtermuisknop op de werkbalk Snelle toegang klikt kun je de werkbalk ook aanpassen via
Toevoegen met alle gewenste knoppen die je in deze balk wilt hebben of via Verwijderen van de knoppen die je
juist niet in de balk wilt hebben.
10
0 Het Excelvenster
Figuur 0.6: Venster voor het aanpassen van de werkbalk Snelle toegang
Het bovenste gedeelte van het Excelscherm bestaat voor het grootste gedeelte uit het lint. Het lint bestaat uit:
(1) tabbladen rechts van het tabblad Bestand;
(2) knoppen die afhankelijk zijn van welk tabblad geopend is;
(3) startpictogrammen voor dialoogvensters die ook afhankelijk zijn van welk tabblad geopend is;
(4) knoppen voor het instellen van het venster voor de geopende werkmap en de knop voor hulp in Excel.
4
1
3
2
Wanneer je op een tabblad klikt verschijnen de meest gebruikte taken gegroepeerd. Zo heb je bij het tabblad
Invoegen de groep Tabellen, Illustraties, Grafieken, Sparklines, Filter, Koppelingen, Tekst en Symbolen. Soms kom
je bij een groep rechtsonder een startpictogram (3) tegen voor dialoogvensters, waaronder je nog meer taken kunt
vinden.
11
Statistiek met Excel 2016
Soms wordt bij het werken met een bepaald onderdeel van Excel een speciaal tabblad Opties geopend. Het lint
bevat dan taken die speciaal voor dat onderdeel gebruikt kunnen worden. Deze contextgevoelige tabbladen kom
je vooral tegen bij het werken met tabellen, grafieken en afbeeldingen. Zodra je niet meer werkt aan een tabel,
grafiek of afbeelding verdwijnt dit contextgevoelige tabblad.
0.3.4 Naamvak
Het naamvak vind je aan de linkerkant onder het lint. Hier staat het celadres of naam van de actieve cel in Excel. Je
kunt in het naamvak ook het celadres intypen om naar de desbetreffende cel te gaan.
0.3.5 Formulebalk
Rechts van het naamvak vind je de formulebalk. Hier verschijnt de inhoud van de actieve cel. De inhoud van de
actieve cel kun je in de cel zelf aanpassen of nadat je de cel geselecteerd hebt in de formulebalk.
12
0 Het Excelvenster
0.3.6 Schuifbalken
Voor het navigeren door het Excelblad kun je gebruik maken van de horizontale en verticale schuifbalken.
0.3.7 Werkbladen
Linksonder vind je de verschillende werkbladen van de geopende werkmap. Standaard opent Excel één werkblad.
Met de knop + naast Blad1 kun je een nieuw blad openen. Met de knoppen links van Blad1 kun je navigeren naar
de verschillende bladen, wanneer de balk te klein is om alle werkbladen te laten zien.
0.3.8 Statusbalk
Onder de werkbladen vind je de statusbalk. Wanneer hier Gereed staat kun je in Excel gegevens invoeren. De
status verandert dan in Invoeren. Wanneer je de gegevens gaat bewerken verandert de status in Bewerken.
Wanneer de status Invoeren of Bewerken is, kun je op dat moment niet alle knoppen van het lint gebruiken.
Rechtsonder vind je de knoppen om het venster in te delen. De meest linkse knop is voor een normaal venster,
daarnaast vind je de knop om de pagina in te delen, en de knop om pagina-einden aan te geven. Het zoomniveau
kun je instellen door op 100% te klikken en het gewenste zoomniveau te selecteren of in te typen. Je zou ook de
schuif ernaast kunnen gebruiken voor het in- en uitzomen.
13
Statistiek met Excel 2016
1 Introductie
De resultaten bevestigen de commerciële strategie van de Zweedse uitgever Modern Times Group (Metro) en De
Telegraaf (Spits). Zij stellen dat een gratis krant toch winstgevend kan zijn, omdat onder treinreizigers het gehalte
twintigers en dertigers met een baan en studenten, relatief hoog is. Die consumenten zijn voor adverteerders
moeilijk selectief te bereiken adverteerders.
Uit cijfers over het tweede halfjaar van 1999 blijkt ieder exemplaar van Metro te worden bekeken door 469
duizend reizigers. Spits bereikt 448 duizend lezers. Daaronder bevinden zich per krant 227 duizend Nederlanders
van 13 tot 35 jaar oud. Dat is heel veel in een wereld waarin deze groep traditioneel ondervertegenwoordigd is.
Alleen de Volkskrant bereikt hetzelfde aantal jongeren als in de steekproef.
Verder worden Metro en Spits bekeken door 106 duizend en 90 duizend Nederlanders uit de hoogste
welstandsklasse. Dat cijfer is minder indrukwekkend, maar wel belangrijk voor adverteerders. De klap komt het
hardst aan bij de Volkskrant, wiens bereik onder jonge lezers is afgenomen met 21 procent. De Telegraaf moest
onder twintigers en dertigers 10 procent inleveren. Vergeleken met de tweede helft van 1998 bereikten alle
dagbladen 6 procent minder lezers. Deze teruggang is slechts deels toe te schrijven aan de twee gratis kranten.
'Ze hebben een gat in de markt gevonden', vindt advertentie-specialist Remon Buter van Initiative Media. 'We
hadden al een vermoeden, maar deze cijfers bevestigen dat relatief veel jongeren en hoogopgeleiden gratis
kranten lezen.' Die consumenten, stelt Buter, zijn nu moeilijk te bereiken. Bijvoorbeeld via prijzige reclameblokken
in speelfilms. 'Ik verwacht dat we meer gaan doen met die kranten.'
Metro en Spits hebben zich op de reclamemarkt ingevochten met forse kortingen. Vorig jaar zomer steunden
adverteerders beide nieuwkomers met advertenties, omdat de dagbladenmarkt in hun ogen wel een nieuw
initiatief kon gebruiken. De afgelopen maanden keken veel adverteerders de kat uit de boom, in afwachting van
onafhankelijke SUMMO-cijfers. Die bevestigen nu de claims van de advertentieverkopers.
'Qua bereik zijn we al de vierde krant van het land', stelt Metro-hoofdredacteur Jelle Leenes tevreden vast. 'En
onder jongeren doen we het nog beter.' Volgens Leenes past een gratis krant bij de gehaaste, zappende mens die
ook op internet gewend is niet te betalen. 'Het gekke is dat wij inhoudelijk nauwelijks rekening houden met
jongeren.'
Leenes verwacht dat andere kranten en sommige tijdschriften dit jaar 'een flinke tik' krijgen. Dankzij de SUMMO-
cijfers kunnen de advertentie-tarieven van Metro verder omhoog. 'We begonnen met hoge kortingen, maar onze
tarieven zijn het afgelopen kwartaal al gestegen. Die lijn willen we vasthouden, en deze cijfers helpen daarbij.'
Volkskrant, 11-04-2000
In het artikel ‘Jeugd goede markt voor gratis kranten’ zie je verschillende uitspraken:
14
1 Introductie
Een statistisch (markt)onderzoek omvat echter veel meer dan getallen. Het kan in de volgende fasen
onderverdeeld worden:
1. De voorbereiding;
2. Het verzamelen en controleren van gegevens;
3. Het verwerken van gegevens;
4. Het trekken van conclusies;
5. Het publiceren en presenteren van de resultaten.
In deze basismodule statistiek ligt de nadruk op het verwerken van gegevens. De andere fasen van het onderzoek
komen in de module “Methoden van onderzoek” en in de module “Marktonderzoek” aan de orde.
1.3 Probleembeschrijving
In de afgelopen jaren bespeurt men een teruggang in het aantal lezers van dagbladen.
April 2000 ten opzichte van de 2e helft van 1998 6 procent met als pieken:
Men vermoedt dat dit komt door het gratis verstrekken van Metro en Spits op de stations onder treinreizigers.
Wellicht past een abonnement op een landelijk dagblad niet meer in deze tijd van ‘gratis’ internet, waarop
landelijke dagbladen ook gepubliceerd worden.
Men besluit een onderzoek te houden onder treinreizigers, die in de ochtendspits ( 6.00 – 9.00 uur) reizen.
15
Statistiek met Excel 2016
1.4 De enquête
Voor het verkrijgen van gegevens over de gratis ochtendkranten (“Metro” en “Spits”) is in de treinen in de
ochtendspits (tussen 6.00 uur en 9.00 uur) de volgende enquête bij de reizigers afgenomen:
8. Heeft u het afgelopen jaar een dagbladabonnement opgezegd vanwege de gratis ochtendbladen “Metro”
en/of “Spits”?
Nee Ja
9. Wat is uw geslacht?
Man Vrouw
1
Om de reistijd per trein te bepalen is gekozen voor vragen over het begin- en het eindpunt van de treinreis. De reistijd is vervolgens
uitgerekend met behulp van “het spoorboekje van de NS”. Deze tijd is ten slotte opgenomen als variabele ‘Reistijd’ (in minuten) in het bestand.
2
Deze vraag is in het databestand opgesplitst in twee variabelen, omdat men twee antwoorden kan aankruisen. Eigenlijk bestaat de vraag uit
twee vragen: Heeft u de “ Metro” wel eens gelezen? Nee/Ja en Heeft u de “Spits” wel eens gelezen? Nee/Ja.
3
Deze vraag bestaat net zoals bij de vraag uit de vorige voetnoot uit meerdere variabelen. Heeft u een abonnement op het Algemeen Dagblad?
Nee/Ja. Heeft u een abonnement op de NRC? Nee/Ja. Omdat elke respondent hier slechts één dagblad heeft aangekruist, is er slechts één
variabele ‘Dagblad’ in het bestand opgenomen.
16
1 Introductie
Een gedeelte van de verzamelde gegevens (databestand) zie je in tabel 1.1. Het volledige bestand is als bijlage 1
achter in de syllabus te vinden.
Tabel 1.1: Gegevens van een aselecte steekproef onder 300 treinreizigers in de ochtendspits
Respondentnummer Geslacht Leeftijd Reistijd per trein Reisdagen per Inkomen Dagblad
(jaren) (minuten) trein per week (* € 100)
1 2 21 35 3 3 7
2 2 27 29 5 14 3
3 2 18 23 5 5 7
4 1 20 32 4 3 5
5 1 26 14 5 18 5
6 1 60 104 3 27 2
7 1 42 58 5 23 5
8 1 51 55 5 32 3
9 1 19 44 4 2 7
10 1 21 5 5 10 6
11 1 22 36 5 3 5
12 1 55 67 4 21 6
Bij dit onderzoek onder 300 treinreizigers kunnen de volgende drie aspecten worden onderscheiden:
1. Eenheden van onderzoek. De 300 treinreizigers in de ochtendspits die ondervraagd zijn, zijn de eenheden bij
dit onderzoek. Elke ondervraagde treinreiziger heeft een (respondent)nummer gekregen (zie kolom 1).
Om alle treinreizigers in de ochtendspits (de populatie) te ondervragen, zou teveel tijd en/of geld kosten. Bij
dit onderzoek heeft men daarom een gedeelte van de populatie, 300 treinreizigers (de steekproef),
ondervraagd.
2. Variabelen of kenmerken. Elke kolom begint met de naam van een variabele. Een variabele is een grootheid
waarvan de waarde van onderzoekseenheid tot onderzoekseenheid kan verschillen. Zo wordt van elke
ondervraagde treinreiziger het ‘Geslacht’, de ‘Leeftijd’, de ‘Reistijd’, enz. genoteerd.
3. Waarnemingsuitkomst of score van een eenheid op een variabele. Wanneer iemand van het vrouwelijke
geslacht is, is de waarde van de variabele ‘Geslacht’ bij die persoon (respondent) vrouw. In de tabel
(databestand) zie je vaak alleen maar getallen (codes) en geen woorden. De reden hiervoor is dat het intypen
van een “2” veel sneller gaat dan het intypen van “vrouw”. Daarnaast kan het bij het verwerken van de
gegevens ook voordelen opleveren.
Een databestand met codes is alleen te begrijpen als er een codeboek (wat is de betekenis van de
verschillende codes) bijgeleverd wordt. Voor het bestand uit bijlage 1 geldt het codeboek van tabel 1.2.
17
Statistiek met Excel 2016
Tabel 1.2: Codeboek van de variabelen uit het onderzoek onder 300 treinreizigers in de ochtendspits
De eerste ondervraagde treinreiziger (respondentnummer 1) was dus van het vrouwelijke geslacht (code 2), 21
jaar, haar reisduur per trein bedroeg 35 minuten, reist 3 dagen per week per trein, heeft een inkomen van € 300,
heeft het afgelopen jaar geen abonnement op een dagblad opgezegd (code 0), leest wel eens de Metro (code 1),
die ze goed vindt (code 4), leest ook wel eens de Spits (code 1) die ze ook goed vindt (code 4).
Op welke manier de gegevens verwerkt worden in bijvoorbeeld grafieken en karakteristieken en welke statistische
analyse geschikt is voor een bepaalde variabele, hangt af van de vraag of het gaat om kwalitatieve of kwantitatieve
gegevens (waarden).
Kwalitatieve variabelen kunnen over het algemeen een beperkt aantal waarden (woorden, categorieën of labels)
aannemen en worden gemeten op nominale of ordinale schaal.
18
1 Introductie
Voorbeeld
Wanneer er op nominaal niveau gemeten wordt, kun je de waarden slechts van elkaar onderscheiden. Bij de
variabele ‘Geslacht’ is man anders dan vrouw, bij de variabele ‘Dagblad’ is het Algemeen Dagblad anders dan NRC,
Telegraaf, Trouw, enzovoort.
Wanneer er op ordinaal niveau gemeten wordt, kun je de waarden van elkaar onderscheiden en in een logische
volgorde zetten. Bij de variabele ‘Mening’ kun je de waarden rangschikken van zeer negatief tot zeer positief 4.
Kwantitatieve (numerieke) variabelen worden altijd gemeten in getallen. De schaal waarop gemeten wordt is
interval of ratio.
Voorbeeld
Wanneer er op interval niveau gemeten wordt kun je de waarden in een volgorde rangschikken en het verschil
tussen twee waarden aangeven. Het verschil tussen 10 °C en 14°C is 4°C. Bij een intervalschaal is er geen absoluut
nulpunt. Intervalschalen komen in de praktijd niet zo vaak voor. Bekende voorbeelden zijn: temperatuur (niet
graden Kelvin), jaartallen, schoenmaat en score op een Cito-toets.
Wanneer er op ratio niveau gemeten wordt kun je het verschil tussen twee waarden aangeven en hoe vaak een
waarde groter is dan een andere waarde. Iemand die op 4 dagen in de week met de trein gaat, reist 2 keer vaker
dan iemand die op 2 dagen met de trein gaat. Bij een ratioschaal is er een absoluut nulpunt.
Vaak worden gegevens van een ratio niveau op een ordinaal niveau gemeten. Dit heeft voornamelijk te maken om
de bereidwilligheid van mensen aan een onderzoek mee te werken te vergroten.
Bijvoorbeeld:
Wat is uw netto maandinkomen? € ………….
Bij deze vraag wordt de variabele ‘Inkomen’ op rationiveau gemeten.
Iemand die € 3500 invult heeft dan een inkomen dat bijvoorbeeld 5 keer hoger ligt dan iemand die
€ 700 invult.
Bij deze vraag wordt de variabele ‘Inkomen’ op ordinaal niveau gemeten. Je kunt de verschillende waarden wel
rangschikken van laag naar hoog, maar bijvoorbeeld niet aangeven hoeveel iemand die antwoordnummer 4 heeft
aangekruist meer aan inkomen heeft dan iemand die antwoordnummer 2 heeft aangekruist.
Mensen zijn eerder bereid de laatste vraag te beantwoorden dan de eerste vraag. Maar als het meetniveau lager is
kunnen er minder analyses gemaakt en dus ook minder conclusies getrokken worden.
4
In de enquête is ook de waarde geen mening opgenomen. In dit geval is er dan sprake van meten op nominaal niveau, omdat geen mening
niet logisch te rangschikken is bij de mogelijke waarden.
19
Statistiek met Excel 2016
VK UPDATE Uitgevers Wegener en Mountain Media trekken de stekker uit De Pers. Dat is vandaag
bekendgemaakt. De commerciële exploitatie van de gratis krant bleef 'structureel achter bij de
verwachtingen.' De laatste editie verschijnt eind deze maand.
De Pers werd eind 2006 opgericht door investeerder Marcel Boekhoorn. Eind januari 2007 lag het eerste
exemplaar in de speciale bakken op de stations en op andere uitdeelpunten.
Voor Boekhoorn is er 'geen andere mogelijkheid dan de krant te staken'. Volgens hem was de positie van
De Pers op de advertentiemarkt al bijzonder zwak, terwijl de marktomstandigheden 'naar verwachting
verder zullen verslechteren.'
Boekhoorn: 'Ik dacht dat het mogelijk zou zijn om een winstgevende, gratis kwaliteitskrant voor de
Nederlandse markt te maken en heb daarom veel geld in het project geïnvesteerd. Maar helaas werkte
de advertentiemarkt niet mee en is het ook Wegener niet gelukt om betere resultaten te behalen.'
Financiële regeling
De Pers meldt in een persbericht dat er momenteel gewerkt wordt aan een financiële regeling voor het
personeel van dagblad De Pers. Het gaat in totaal om ongeveer 40 man.
Boekhoorn: 'Het is een grote teleurstelling voor alle betrokkenen dat we hebben moeten besluiten om de
krant op te heffen. Ik blijf ontzettend trots op het in de afgelopen vijf jaar bereikte resultaat: een prachtige
krant gemaakt door een getalenteerde redactie en met veel trouwe en enthousiaste lezers.'
20
1 Introductie
Voordat de beslissing werd genomen om de “Pers” uit te brengen is er geen onderzoek verricht naar de
advertentiemarkt voor gratis ochtendbladen. Men dacht dat het mogelijk was om de “Pers” winstgevend te
maken, maar na veel investeringen heeft men na zes jaar besloten er mee te stoppen.
21
Statistiek met Excel 2016
2 Tabellen
2.1 Inleiding
In een databestand kun je aflezen hoe elke respondent de vragen beantwoord heeft, maar heb je niet direct een
overzicht over hoe alle respondenten op een variabele gescoord hebben. Zo kun je bijvoorbeeld in bijlage I van
elke respondent aflezen wat zijn mening is over de “Metro”, maar is het bijna niet mogelijk om direct te zien wat
de mening van alle respondenten over de “Metro” is. Vindt men de “Metro” over het algemeen goed, redelijk,
slecht of zijn de meningen juist verdeeld?
Eén van de eerste bewerkingen, die daarom met de verzamelde gegevens (al of niet in een databestand
samengevoegd) uitgevoerd wordt, is het maken van één of meerdere tabellen. Welke tabellen is afhankelijk van de
cijfermatige informatie die je uit het onderzoek wilt overbrengen in je rapport en de conclusies die je wilt trekken.
Kwalitatieve variabelen kunnen over het algemeen een beperkt aantal waarden aannemen en worden gemeten op
een nominale of ordinale schaal.
Voorbeeld
Bij het maken van een frequentietabel (hoe vaak komt een bepaalde waarde voor) vormt elke mogelijke waarde
zijn eigen categorie (groep).
Bij de variabele ‘Geslacht’ heb je dus twee groepen (“Man” of “Vrouw”). Bij het maken van een frequentietabel
van de variabele ‘Geslacht’ (ook wel rechte telling genoemd) wordt geteld hoe vaak een man en hoe vaak een
vrouw als respondent geantwoord heeft.
Bij de variabele ‘Dagblad’ heb je in het databestand (zie codeboek tabel 1.2) 7 groepen. Bij het maken van een
frequentietabel van de variabele ‘Dagblad’ wordt dan geteld hoeveel respondenten aangegeven hebben, dat ze
een abonnement hebben op Algemeen Dagblad, hoeveel op NRC, hoeveel op Telegraaf, enzovoort.
Een tabel is een overzicht van cijfers. Deze worden weergegeven in (horizontale) rijen en (verticale) kolommen. De
plaats waar een cijfer zich bevindt wordt een cel of veld genoemd.
Een tabel bevat een voorkolom en een kop boven de overige kolommen, waarin de waarden van een (de)
variabele(n) te vinden zijn.
De variabele(n) zelf wordt (worden) boven de voorkolom en de kolomkoppen gezet.
Een totaalrij (geeft het totaal van de kolommen weer) en/of een totaalkolom (geeft het totaal van de rijen weer)
worden weergegeven wanneer deze nuttige informatie bevatten.
Excel kan op een vrij eenvoudige manier dergelijke tabellen voor je samen stellen.
Zelf moet je de tabel dan nog voorzien van een nummer en een titel, waarin aangegeven wordt wat er in de tabel
te vinden is. Indien van toepassing kan de eenheid van meting in de titel worden opgenomen of in het bijschrift.
Onder de tabel geef je in de bronvermelding aan waar je de gegevens vandaan hebt gehaald.
22
2 Tabellen
Het is mogelijk dat enkele cellen (velden) in een tabel onbezet blijven. Bedenk dan de reden daarvoor en zoek
vervolgens het speciale teken dat je hiervoor moet invullen.
Teken Betekenis
- Nul
niets (blanco) Dit cijfer bestaat niet (kan niet voorkomen)
. Geen gegevens beschikbaar
x Dit cijfer is geheim
* Dit cijfer is voorlopig
0 (0,0) Dit cijfer is minder dan de helft van de gebruikte eenheid
Wanneer je in de titel of bronvermelding jaartallen gebruikt, denk dan aan de volgende afspraken:
2016 – 2017 : het jaar 2016 tot en met het jaar 2017
2016 / ’17 : het boekjaar, schooljaar enz. beginnend in 2016 en eindigend in 2017
2016 / 2017 : het gemiddelde over de jaren 2016 en 2017
Voor het maken van een frequentietabel waarbij de gegevens als kwalitatieve waarden zijn ingevoerd kun je in
Excel gebruik maken van Draaitabel. Van de gegevens uit het genoemde databestand uit hoofdstuk 1 (Fictie2000)
wil je een frequentietabel maken van bijvoorbeeld de variabele ‘Geslacht’.
Werkwijze:
1. Open in Excel het bestand waarvan je tabellen wilt maken. Klik daarvoor op de het tabblad van Bestand in het
lint en vervolgens op Openen.
23
Statistiek met Excel 2016
Zoek het bestand op de schijf en in de map waar het is opgeslagen 1. Dubbelklik op dit bestand om het te
openen.
3. Bij het dialoogvenster selecteer je het bereik van de gegevens waarvan je een tabel wilt maken. Standaard
kiest Excel alle gegevens van het werkblad dat op dat moment geopend is.
Bij het geopende bestand van Fictie2000 is dat Data!$A$1:$L$301.
Selecteer vervolgens op welke locatie de tabel geplaatst moet worden. Omdat het geopende excelbestand op
dit moment nog uit slechts 2 werkbladen bestaat (Data en het Codeboek) kies je voor een Nieuw werkblad.
Klik hierna op OK.
1
Het bestand Fictie2000 kun je op het netwerk op school vinden onder: K:\FEM\Excel\Statistiek met Excel 201\Fictie2000
24
2 Tabellen
Figuur 2.3: Het dialoogvenster van het maken van een draaitabel
4. Een nieuw werkblad (Blad1) wordt geopend. Hier zie je waar de tabel komt te staan (beginnend in cel A3).
Verder zie je het dialoogvenster voor draaitabel en dat het lint veranderd is in een contextgevoelig tabblad
met opties voor het opmaken van een draaitabel.
Figuur 2.4: Het startvenster voor het maken van een tabel
Wanneer je bijvoorbeeld een tabel wilt maken van hoeveel mannen en vrouwen aan het onderzoek hebben
meegedaan (variabele ‘Geslacht’), dan sleep je de variabele ‘Geslacht’ (door op Geslacht te klikken met de
linkermuisknop en deze ingedrukt te houden) uit de Lijst met draaitabelvelden naar het vak van Rijen (de
voorkolom van de tabel waar straks de namen van de verschillende scores (“Man” en “Vrouw”) komen te
staan. Sleep nog eens de variabele ‘Geslacht’ uit de Lijst met draaitabelvelden maar nu naar het vak van
∑ Waarden.
25
Statistiek met Excel 2016
Figuur 2.5: Het slepen van de variabele ‘Geslacht’ naar het vak van ∑ Waarden
5. Je ziet dat de tabel die verschijnt niet de frequentie (aantallen) weergeeft maar de som. Omdat “ Vrouw” de
code 2 heeft wordt in het veld achter 2 niet het aantal vrouwen (= 77) vermeld, maar de som van de codes 154
(= 77*2). De waarden van het veld moeten daarom nog veranderd worden van Som in Aantal. Klik hiervoor op
Som van geslacht en vervolgens op Waardeveldinstellingen.
26
2 Tabellen
Verander vervolgens in het dialoogvenster van Waardeveldinstellingen het samenvatten op: van Som in Aantal
27
Statistiek met Excel 2016
6. Wat de betekenis van “1” en “2” is kun je in het codeboek (Zie werkblad Codeboek of Tabel 1.2 ) vinden. Een
tabel is pas compleet wanneer het duidelijk is wat je kunt aflezen. Verander daarom “1” in “Man” door cel A4
te selecteren (van het werkblad Data) en hier “Man” te typen en “2” in “Vrouw” door vervolgens cel A5 te
selecteren en hier “Vrouw” te typen. Een bijkomend voordeel van de juiste labels is dat bij het maken van
grafieken (zie hoofdstuk 3) deze ook in de grafiek worden opgenomen.
Deze tabel kun je eenvoudig kopiëren als opgemaakte tekst (nog te veranderen) of afbeelding (niet te veranderen)
naar een rapport dat je met behulp van een tekstverwerkingsprogramma (bijvoorbeeld Word 2016) maakt.
Selecteer daarvoor de cellen A3:B6.
Klik op het tabblad Start en in de groep Klembord op het icoon van kopiëren (Je kunt ook op CRTL+C drukken).
28
2 Tabellen
Klik in het tekstverwerkingsprogramma op het tabblad Start en in de groep van Klembord op Plakken (Je kunt ook
op CRTL+V drukken).
1. De tabel moet voorzien zijn van een nummer en een opschrift, waarin aangegeven wordt wat er in de tabel
terug te vinden is;
2. De tabel moet een bronvermelding bevatten (zeker als het om desk-research gaat).
Een tabel in Word 2016 ziet er dan (na wat verfraaien) als volgt uit.
Geslacht Aantal
Man 223
Vrouw 77
Eindtotaal 300
Bron: “Fictie 2000”
29
Statistiek met Excel 2016
Draaitabellen worden vaak gebruikt voor het maken van een kruistabel, waarbij gelijktijdig twee (of meer)
variabelen bestudeerd kunnen worden. Eén variabele wordt in de voorkolom uitgesplitst, een andere variabele
wordt in de kolomkop uitgesplitst in de mogelijke waarden. Het is gebruikelijk om de onafhankelijke variabele in de
kolomkop uit te splitsen en de afhankelijke variabele in de voorkolom op rijniveau. Zo kun je bijvoorbeeld een
kruistabel maken van het aantal abonnementen op de verschillende dagbladen per geslacht. De variabele
‘Geslacht’ is dan de onafhankelijke variabele en de variabele ‘Dagblad’ de afhankelijke variabele. Op welk dagblad
men geabonneerd is zou kunnen afhangen van het geslacht. Anders gezegd er zouden verschillen kunnen bestaan
tussen het aantal verschillende dagbladabonnementen bij mannen en vrouwen.
Werkwijze:
1. Ga naar het werkblad Data van je Excelmap “Fictie2000” en klik op cel A1.
3. Bij het dialoogvenster selecteer je het bereik van de gegevens waarvan je een tabel wilt maken. Standaard
kiest Excel alle gegevens van het werkblad dat op dat moment geopend is.
Bij het geopende bestand van Fictie2000 is dat Data!$A$1:$L$301.
Selecteer vervolgens op welke locatie de tabel geplaatst moet worden. Bijvoorbeeld cel A10 van het werkblad
Blad1.
4. Sleep de variabele ‘Geslacht’ (door op Geslacht te klikken met de linkermuisknop en deze ingedrukt te
houden) uit de Lijst met draaitabelvelden naar het vak van Kolommen (de kolomkop van de tabel waar straks
de namen van de verschillende scores (“Man” en “Vrouw”) komen te staan. Sleep de variabele ‘Dagblad’ uit de
Lijst met draaitabelvelden naaar het vak van Rijen (de voorkolom van de tabel waar straks de namen van de
verschillende scores (“Algemeen Dagblad”, “NRC”, enz.) komen te staan.
Sleep ten slotte de variabele ‘Dagblad’ naar het vak van ∑ Waarden.
Klik vervolgens op Som van Dagblad en verander dit in het dialoogvenster van Waardeveldinstellingen in Aantal
van Dagblad.
30
2 Tabellen
5. Verander ten slotte de codes in cel A12:A18 door de namen van de verschillende dagbladen en in de cellen
B11:C11 door “Man” en door “Vrouw” (Zie Tabel 1.2).
Bij een kruistabel bevat een totaalkolom en een totaalrij essentiële informatie. In dit voorbeeld geeft de
totaalkolom het totaal aantal abonnementen op een bepaald dagblad en de totaalrij het totaal aantal mannen en
totaal aantal vrouwen.
31
Statistiek met Excel 2016
Geslacht
Dagblad Man Vrouw Eindtotaal
Algemeen Dagblad 18 7 25
NRC 9 3 12
Telegraaf 44 6 50
Trouw 16 3 19
Volkskrant 40 20 60
Anders 37 16 53
Geen 59 22 81
Eindtotaal 223 77 300
Bron: “Fictie2000”
In plaats van een absolute frequentieverdeling (aantal) kun je in de tabel ook een relatieve (procentuele) verdeling
weergegeven. Dit is zeker aan te raden als je verschillende categorieën met elkaar wilt vergelijken.
Bij een relatieve verdeling kan er, afhankelijk van wat je benadrukken wilt, gekozen worden tussen:
De werkwijze verloopt analoog aan die uit paragraaf 2.2.2 met uitzondering van het aanpassen van de
∑ Waarden.
Bij de gemaakte tabel van dagbladabonnementen per geslacht is het via frequentieweergave (aantallen) moeilijk te
bekijken welk dagblad meer favoriet is bij de mannen dan bij de vrouwen. Wanneer je bij de gemaakte tabel kijkt
naar de aantallen in de kolom van mannen dan zijn deze aantallen voor elk dagblad groter dan de aantallen in de
kolom van de vrouwen. Dit komt omdat de groep van geënquêteerde mannen veel groter is dan de groep van
vrouwen.
Om bij de gemaakte tabel van dagbladabonnementen per geslacht te bekijken welk dagblad meer favoriet is bij
mannen dan bij vrouwen moet je in plaats van aantallen het weergeven als een percentage van de kolom. Per cel
krijg je dan hoeveel procent van de mannen geabonneerd is op een bepaald dagblad en hoeveel procent van de
vrouwen geabonneerd is op een bepaald dagblad.
32
2 Tabellen
Klik in het dialoogvenster van Waardeveldinstellingen op het tabblad van Waarden weergeven als en vervolgens op
de knop achter Geen berekening
.
Figuur 2.19: Openen van het keuzemenu voor het weergeven van de waarden
33
Statistiek met Excel 2016
Wanneer je ten slotte op OK klikt zie je dat de waarden weergegeven in de draaitabel nu veranderd is in % van
kolom in plaats van de oorspronkelijke aantallen.
Figuur 2.21: Draaitabel van dagbladabonnement per geslacht als percentages van geslacht
34
2 Tabellen
Figuur 2.22: Het verminderen van het aantal decimalen in de geselecteerde cellen
Uit deze tabel is gemakkelijk af te lezen dat mannen relatief (procentueel) veel vaker een abonnement op de
Telegraaf hebben (20% van de mannen) dan vrouwen (“slechts” 8% van de vrouwen). Vrouwen hebben relatief veel
vaker een abonnement op de Volkskrant (26% van de vrouwen) dan mannen (18% van de mannen).
35
Statistiek met Excel 2016
2.2.4 Filteren
Soms wil je een tabel maken die slechts betrekking heeft op een gedeelte van de respondenten. Zo zou je
bijvoorbeeld geïnteresseerd kunnen zijn in de ‘Mening van Metro’ van alleen de respondenten die de “Metro”ook
lezen.
Werkwijze:
Figuur 2.24: Mening Metro per groep of men wel of niet de Metro gelezen heeft
5. Sleep nu in de Lijst met draaitabelvelden ‘Metro’ van het kader van Kolommen naar het kader van Filters.
In cel A36 komt nu de variabele ‘Metro’ te staan en in cel B36 heb je de keuze uit wat je van de variabele
‘Metro’ wilt zien. Standaard staat deze op Alles, maar door op het pijltje te klikken kun je uit de verschillende
scores kiezen van de variabele ‘Metro’. Wanneer je alleen de ‘Mening Metro’ wilt zien van degenen die de
Metro wel eens gelezen hebben klik je op Ja en vervolgens op OK.
36
2 Tabellen
Figuur 2.25: Het selecteren van de respondenten die de Metro wel eens gelezen hebben via het filter
Je krijgt dan uiteindelijk een tabel van de ‘Mening Metro’ van degenen die de ‘Metro’ wel eens gelezen
hebben.
Figuur 2.26: Mening Metro van de groep die de Metro wel eens gelezen heeft
Door op het filter in B36 te klikken kun je vervolgens weer Alles selecteren of de groep die de “Metro” niet
gelezen heeft.
.
Het filteren hoeft niet beperkt te blijven tot één variabele. Zo zou je bijvoorbeeld slechts geïnteresseerd kunnen
zijn in de ‘Mening over Metro’ van mannelijke respondenten die de “Metro” wel eens gelezen hebben.
In dat geval klik je de variabele ‘Geslacht’ eerst naar het kader van Kolommen. Verander vervolgens in de draaitabel
de code 1 in “Man” en de code 2 in “Vrouw”. Sleep nu in het dialoogvenster van Lijst met draaitabelvelden de
variabele ‘Geslacht’ van het kader van Kolommen naar het kader van Filters 2.
Vervolgens klik je op het pijltje achter (Alles) in de rij van Geslacht en klik je in het venster dat geopend wordt op
Man en ten slotte op OK. Je krijgt dan de volgende tabel.
2
Je kunt een variabele ook direct naar het rapportfilter slepen. In het rapportfilter kun je alleen niet de codes veranderen. Daarom wordt de
variabele eerst naar de kolomlabel (of rijlabel) gesleept om daar de code te veranderen in de betekenis ervan.
37
Statistiek met Excel 2016
Metro Ja
Geslacht Man
Figuur 2.27: Frequentietabel van Mening over Metro van de mannen die de Metro wel eens hebben gelezen
In plaats van het werken met een filter boven de tabel kun je ook werken met een slicer als filter. Een slicer is een
venster waarin je direct een overzicht hebt welke gegevens je kunt filteren.
Klik op een cel van de tabel bijvoorbeeld A38. Selecteer het tabblad van Invoegen en kilk in de groep van Filters op
Slicers.
Figuur 2.28: Het openen van het menu voor het invoegen van slicers
Selecteer in de lijst van variabelen de variabele waarop je wilt filteren, bijvoorbeeld ‘Metro’.
Figuur 2.29: Het selecteren van de variabele waarop gefilterd moet worden
38
2 Tabellen
De grootte van de slicer kun je aanpassen door op de rand van de slicer te klikken. Hierdoor kun je ook de slicer
verplaatsen. Het voordeel van een slicer is dat je gemakkelijk kunt zie op welke waarden van een variabele je kunt
filteren. Wanneer je uit de oorspronkelijke tabel het filter van ‘Metro’ verwijdert en in de slicer de waarde ja
selecteert voor de variabele ‘Metro’ zie je dezelfde tabel als in Figuur 2.27.
Een ander voordeel van gebruik van slicers in plaats van filters is dat je een slicer gelijktijdig op meerdere tabellen
kunt toepassen. Klik daarvoor op de slicer en vervolgens in de menubalk op Opties bij Hulpmiddelen voor slicers.
Klik op Rapportverbindingen.
Figuur 2.31: Het openen van het menu voor het selecteren van meerdere tabellen voor de slicer
In het venster kun je nu selecteren op welke draaitabellen de slicer toegepast moet worden. Wanneer je
bijvoorbeeld ook Draaitabel 3 selecteert zie je dat deze tabel ook aangepast wordt na het klikken op OK.
39
Statistiek met Excel 2016
Een slicer kun je uitzetten door op het rode kruisje bij filter in de slicer te klikken .
Een slicer kun je verwijderen door op de rand van een slicer te klikken en vervolgens op Delete.
Om overzicht te blijven houden over de verschillende werkbladen verander je ten slotte de naam van het werkblad
Blad1 in bijvoorbeeld Tabellen kwalitatief. Klik hiervoor op Blad1 met de rechtermuisknop en vervolgens op Naam
wijzigen.
40
2 Tabellen
Blad1 wordt nu donker gearceerd en je kunt nu de nieuwe naam voor het werkblad intypen: Tabellen kwalitatief.
41
Statistiek met Excel 2016
Wanneer de gegevens kwantitatief zijn (bijvoorbeeld van de variabele ‘Leeftijd’ uit het bestand Fictie2000) dan kun
je, in principe op dezelfde manier als bij gegevens van kwalitatieve variabelen, een frequentietabel samenstellen.
Wanneer je dezelfde methode, als in 2.2.1 beschreven is, gebruikt voor het maken van een draaitabel van de
variabele ‘Leeftijd’ dan krijg je ten slotte het volgende resultaat. Maak deze tabel op een nieuw werkblad en
verander deze naam in Tabellen kwantitatief.
In deze tabel is af te lezen hoe vaak elke waarde (leeftijd) precies voorkomt. Een groot nadeel echter is dat deze
tabel niet echt overzichtelijk is. In totaal zijn er meer dan 50 verschillende waarden en daardoor is de verdeling van
de leeftijden niet in één oogopslag duidelijk.
42
2 Tabellen
Omdat over het algemeen bij gegevens van kwantitatieve variabelen erg veel verschillende waarden kunnen
voorkomen, worden de waarden meestal in een frequentietabel gegroepeerd. In een frequentietabel wordt dan
aangegeven hoe vaak een waarde op een bepaald interval (klasse of groep) voorkomt.
Voordat je een frequentietabel maakt, moet je weten hoeveel klassen je wilt maken. Een globale richtlijn is de
wortel uit het aantal waarnemingen. Bijvoorbeeld bij 100 getallen moet je denken aan ongeveer 10 groepen of
klassen. In het bestand van Fictie2000 met 300 waarnemingen zou je ongeveer 17 klassen kunnen samenstellen.
Let wel: hoe meer klassen des te onoverzichtelijker de tabel wordt (zie de geproduceerde tabel over leeftijden),
maar hoe minder klassen des te meer informatie verloren gaat (in het meest extreme geval neem je één klasse:
13 – 64 jaar in welke je 300 waarnemingen hebt, maar geen enkele informatie meer geeft over de verdeling van de
leeftijden).
Hoe breed je de intervallen kiest hangt af van de maximale en minimale waarde en het aantal klassen.
Maximum−Minimum
Klassenbreedte=
√ Aantal
Bij 300 getallen, waarvan het minimum 13 en het maximum 64 is: Klassenbreedte = (64 - 13)/300 = 2,94
Maak van de klassenbreedte een “mooi” getal (5, 10 , 25, 50, 100 enz.) hier dus 5.
Elke klasse moet met een veelvoud van de klassenbreedte beginnen. Dus de eerste klasse is dan niet van 13 -< 18
maar van 10 -< 15. De klassen worden dan:
10 -< 15
15 -< 20
20 -< 25
enz.
Werkwijze:
1. Klik op een cel waarin een leeftijd staat bijvoorbeeld cel A4.
2. Het tabblad ANALYSEREN van HULPMIDDELEN VOOR DRAAITABELLEN wordt nu geopend. Klik op de groep
Groeperen en vervolgens op Veld groeperen.
43
Statistiek met Excel 2016
De minimale leeftijd is 13, de maximale leeftijd is 64. Er wordt aangegeven dat er klassen van 10 waarden
gemaakt kunnen worden. Zou je nu op OK klikken, dan krijg je slechts 6 klassen (erg weinig). Daarnaast moet
de eerste klasse bij een veelvoud van de klassenbreedte beginnen.
Beter is om hier een klassenbreedte van 5 te kiezen, Beginnen bij 10 en te Eindigen bij 64.
De waarden in het invulscherm kun je veranderen door te klikken op 13 en hier 10 te typen, vervolgens op 10
te klikken en dit te veranderen in 5.
De oorspronkelijke tabel met alle leeftijden kun je terugkrijgen door op cel A4 te klikken en vervolgens bij het
tabblad van Opties in de groep Groeperen op Degroeperen.
Soms ben je niet alleen geïnteresseerd in de aantallen in een bepaalde klasse, maar ook in de aantallen (of
percentages) onder een bepaalde grenswaarde. In dat geval stel je een cumulatieve frequentie (of relatieve) tabel
44
2 Tabellen
samen. Deze kun je samenstellen door de waarden van de gegevens uit een draaitabel weer te geven als:
(%) Voorlopig totaal in.
Als voorbeeld nemen we de frequentie (draai)tabel van leeftijd.
Werkwijze:
1. Klik op een cel van de draaitabel (bijvoorbeeld cel A4) en klik vervolgens in het venster van ∑ WAARDEN op
Aantal van Leeftijd en vervolgens op Waardeveldinstellingen…
2. Klik in het venster Waardeveldinstellingen op het tabblad Waarden weergeven als en selecteer Voorlopig totaal
in en klik op OK.
45
Statistiek met Excel 2016
3. Verander de Rijlabels van cel A4:A14 in “< 15”, “< 20”, “< 25”, …… “< 65”. De tabel ziet er dan als volgt uit.
Uit deze tabel kun je aflezen hoeveel respondenten jonger zijn dan een bepaalde leeftijd. Er zijn bijvoorbeeld 99
respondenten jonger dan 25 jaar en 265 respondenten zijn jonger dan 50 jaar.
Op eenzelfde manier kun je de cumulatieve relatieve (in procenten) tabel krijgen. Selecteer hiervoor bij waarden
weergeven als: % voorlopig totaal in. De cumulatieve relatieve tabel ziet er als volgt uit (afgerond op gehele
procenten).
Uit deze tabel kun je bijvoorbeeld aflezen dat 33% van de respondenten jonger is dan 25 jaar en dat 70% van de
respondenten jonger is dan 40 jaar.
Vergeet niet het Excelbestand met de draaitabellen op te slaan! In het volgende hoofdstuk ga je grafieken maken
en de meeste grafieken worden gemaakt vanuit een draaitabel.
46
2 Tabellen
2.4 Opgaven
Voor alle opgaven moet je gebruik maken van het bestand Fictie2000
1. Maak een frequentietabel van de gegevens van alle respondenten op de variabele ‘Mening Spits’.
2. Maak een frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele ‘Mening
Spits’, uitgesplitst naar de gegevens van de variabele ‘Geslacht’.
3. Maak een relatieve frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele
‘Mening Spits’, waaruit duidelijk blijkt dat de mening over dit blad relatief slechter scoort bij vrouwen dan bij
mannen.
4. Maak een relatieve frequentietabel van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele
‘Mening Spits’, waaruit duidelijk blijkt dat er minder vrouwen dan mannen in de steekproef zijn die dit blad
gelezen hebben.
5. Maak een frequentietabel met klassenbreedtes van 10 minuten van de gegevens van alle respondenten op de
variabele ‘Reistijd’.
6. Maak een frequentietabel met klassenbreedtes van € 500 van de gegevens van alle respondenten met
betrekking tot hun inkomens.
7. Maak een cumulatieve relatieve frequentietabel van de gegevens van alle respondenten met betrekking tot de
variabele ‘Inkomen’.
8. Maak een frequentietabel van de gegevens van alle respondenten voor de variabele ‘Reisdagen per trein per
week’ opgesplitst naar ‘Geslacht’.
9. Maak een frequentietabel van de gegevens van de respondenten die 30 jaar of ouder zijn met betrekking tot
de variabele ‘Dagblad’.
10. Maak een frequentietabel van de gegevens van de mannelijke respondenten die 30 jaar of ouder zijn met
betrekking tot de variabele ‘Dagblad’.
47
Statistiek met Excel 2016
48
2 Tabellen
49
3 Grafieken
3 Grafieken
3.1 Inleiding
In het vorige hoofdstuk heb je geleerd hoe je verzamelde gegevens op een overzichtelijke manier kunt presenteren
in de vorm van een tabel. Een andere methode om een hoeveelheid gegevens weer te geven is in de vorm van een
grafiek, met als voordeel dat je in één oogopslag inzicht verkrijgt in deze gegevens.
Wanneer je een draaitabel hebt gemaakt (zie hoofdstuk 2) dan kun je op een eenvoudige en snelle manier met
Excel 2016 een grafiek van deze gegevens verkrijgen.
Met Excel 2016 heb je de mogelijkheid te kiezen uit 16 soorten grafieken en bij elke soort weer een aantal
subtypen.
Figuur 3.1: Overzicht van de verschillende soorten grafieken en een aantal subtypen
In dit hoofdstuk zullen slechts een aantal soorten grafieken met een aantal subtypen behandeld worden.
Welke grafiek je kiest, is in eerste instantie afhankelijk van de aard van de gegevens (bijvoorbeeld kwalitatief of
kwantitatief).
Voor tabellen van kwalitatieve gegevens wordt meestal gebruik gemaakt van een kolomdiagram, staafdiagram of
cirkeldiagram, terwijl voor frequentieverdelingen van kwantitatieve gegevens meestal een histogram
(kolomdiagram met aansluitende kolommen) of een lijngrafiek (polygoon of ogief) wordt gebruikt.
51
Statistiek met Excel 2016
Net als bij een tabel moet een goede grafiek ook aan een aantal eisen voldoen:
1. De grafiek moet voorzien zijn van een nummer en een opschrift (titel), waarin aangegeven wordt wat er in de
grafiek valt af te lezen;
2. Veelal is er sprake van een horizontale en een verticale as. Deze moeten voorzien zijn van een duidelijke
schaalverdeling en een bijschrift. Bij deze bijschriften moet de eenheid van meting vermeld worden;
3. De grafiek moet een bronvermelding bevatten (zeker als het om desk-research gaat);
4. Het gebruik van scheurlijnen op de verticale as is bij een kolomdiagram niet toegestaan, bij lijndiagrammen is
dit vaak noodzakelijk.
Voordat je een kolom-, staaf- of cirkeldiagram van kwalitatieve gegevens kunt maken, met behulp van Excel, moet
je zorgen voor een tabel (zie 2.2 Tabellen van kwalitatieve gegevens). Als je een draaitabel hebt gemaakt van de
kwalitatieve gegevens dan is het maken van een grafiek redelijk eenvoudig.
3.2.1 Kolomdiagram
Neem als voorbeeld de volgende draaitabel van de variabele ‘Geslacht’ (zie ook hoofdstuk 2.2.1).
Werkwijze:
1. Klik op een willekeurige cel van de draaitabel (één van de cellen A3:B6).
2. Klik in het lint op het tabblad INVOEGEN en vervolgens op Kolom in de groep van Grafieken (voor het invoegen
van een kolomdiagram). Klik bij de subtypen op het eerste kolomdiagram (Gegroepeerde kolom).
52
3 Grafieken
Figuur 3.3: Invoegen van een kolomdiagram van de “Tabel van Geslacht”
Een grafiek is opgebouwd uit verschillende onderdelen. Elk onderdeel heeft een aparte naam en kan gewijzigd
worden.
53
Statistiek met Excel 2016
Bij elk grafiekonderdeel heb je verschillende keuzeopties. Je kunt grafiekonderdelen toevoegen, hoe dit
grafiekonderdeel moet worden opgenomen in de grafiek en de plaats bepalen waar dit grafiekonderdeel geplaatst
moet worden in de grafiek. Dit is mogelijk door op een pijltje achter een grafiekonderdeel te klikken.
Tabel 3.2: Verschillende onderdelen van een grafiek met een omschrijving ervan
Onderdeel Omschrijving
Grafiekgebied Alles wat binnen het kader valt. De hele grafiek en de achtergrond.
Horizontale as (X-as) De horizontale as met de verschillende categorieën.
Verticale as (Y-as) De verticale as met de waarden.
Grafiektitel Omschrijving wat in de grafiek valt af te lezen.
Tekengebied. Het gedeelte van de grafiek dat begrensd wordt door de assen.
Legenda Omschrijving van de betekenis van de verschillende kleuren in de grafiek.
Reeks De uitgezette waarden in het tekengebied.
Rasterlijnen Horizontale en verticale lijnen die het aflezen vereenvoudigen.
54
3 Grafieken
Elk onderdeel van de grafiek kun je ook aanpassen door met de rechtermuisknop op het desbetreffende onderdeel
van de grafiek te klikken.
Wanneer je een grafiek maakt of selecteert verschijnt het contextgevoelige tabblad voor ‘hulpmiddelen voor
draaigrafieken’, bestaande uit de tabbladen ‘Analyseren’ , ‘Ontwerpen’ en ‘Indeling’.
Analyseren kun je gebruiken om Gegevens te wissen en te vernieuwen en om ‘Deelvenster voor filter van
draaigrafiek’ en de ‘Lijst met draaitabelvelden’ in- en uit te schakelen.
Ontwerpen kun je gebruiken om de basisgegevens van de grafiek en de lay-out van de totale grafiek te
wijzigen.
Indeling kun je gebruiken om onderdelen van de grafiek weer te geven met waar het geplaatst moet worden of
te verbergen.
De gemaakte kolomdiagram ga je nu aanpassen aan de eisen die gesteld worden aan een grafiek:
Duidelijke grafiektitel, titels bij de as, bronvermelding en het verwijderen van de overbodige legenda.
Klik op Totaal en typ in: “Grafiek 3.1: Aantal respondenten per geslacht”. Selecteer vervolgens deze tekst en klik
in het lint op het tabblad Start en vervolgens in de groep van Lettertype op de grootte en verander dit in
bijvoorbeeld 14.
Er zijn nog geen titels bij de assen. Klik op de eerste hulpknop om grafiekelementen toe te voegen. Vink het
vakje voor Astitels aan. Bij de horizontale en vertikale as komt nu Astitel te staan.
Figuur 3.8: Het selecteren van Astitels om titels bij de assen toe te voegen
55
Statistiek met Excel 2016
Voor bronvermelding is er geen aparte knop. Je kunt deze invoegen via een tekstvak. Klik in het lint op het
tabblad van Invoegen en klik in de groep van Illustraties op Vormen en vervolgens op Tekstvak. Klik onder de
horizontale as op de plek waar je de bronvermelding wilt hebben. Je kunt later nog via slepen het tekstvak
verplaatsen. Typ hier in:
“Bron: Fictie2000” en verander ten slotte de grootte van het lettertype in 8.
200
150
Aantal
100
50
0
Man Vrouw
Bron: Fictie2000 Geslacht
56
3 Grafieken
De Veldknoppen ‘Geslacht’ en ‘Aantal van geslacht’ kun je nog verwijderen via het tabblad Analyseren, de groep
Weergeven/verbergen en ten slotte bij Veldknoppen klikken op Alles verbergen.
Wanneer je de grafiek niet als een ingesloten grafiek, maar op een apart werkblad wilt, klik dan in het lint op het
tabblad van Ontwerpen en vervolgens in de groep van Locatie op Grafiek verplaatsen. Selecteer in het geopende
dialoogvenster Nieuw blad: Grafiek 1 en klik ten slotte op OK.
Wil je een kolomdiagram maken met betrekking tot twee variabelen, kies dan voor één van de zeven subtypes
onder Kolom. De verschillen bestaan uit:
gegroepeerd, gestapeld of 100% gestapeld;
dimensie: tweedimensionaal vlak (2D) of driedimensionale ruimte (3D).
Bij een gegroepeerde kolom gaat het om het vergelijken van de waarden over de categorieën, bij een gestapelde
kolom om het vergelijken van de bijdrage van elke waarde aan een totaal over de categorieën en bij een 100%
gestapelde kolom om het vergelijken van de percentages dat elke waarde bijdraagt aan een totaal over de
categorieën.
Kolomdiagrammen met een driedimensionaal effect zien er fraaier uit, maar maken het aflezen van de exacte
waarden een stuk moeilijker.
Bij het maken van een kolomdiagram van twee variabelen, wordt bij Excel 2016 de variabele in de voorkolom
(Rijlabels) als onafhankelijke variabele beschouwd en de waarden ervan als labels op de X-as vermeld. De variabele
in de kolomkop (Kolomlabels) wordt als afhankelijke variabele beschouwd en in de kolomdiagram wordt de kolom
vervolgens in de waarden van deze variabele onderverdeeld.
Als voorbeeld kun je een gestapelde kolomdiagram maken van de draaitabel met betrekking tot de variabelen
‘Dagblad’ en ‘Geslacht’.
Werkwijze:
1. Klik op één van de cellen A10:D19 van deze draaitabel.
2. Klik in het lint op het tabblad van Invoegen en vervolgens op kolomgrafiek in de groep van Grafieken.
Selecteer de gestapelde kolomdiagram. Je krijgt nu een gestapeld kolomdiagram van de gegevens met
betrekking tot het aantal abonnementen op de verschillende dagbladen per geslacht als ingesloten grafiek.
Figuur 3.13: Het invoegen van een gestapelde kolomdiagram van de gekozen tabel
57
Statistiek met Excel 2016
3. Voeg een grafiektitel, astitels en een bronvermelding toe. Legenda niet verwijderen. Deze is bij een
samengesteld diagram van essentieel belang.
40
Vrouw
30
Man
20
10
0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000
In deze grafiek ligt in eerste instantie de nadruk op het totaal aantal abonnementen per dagblad (de lengte van de
kolom) en in tweede instantie op het geslacht van de abonnees (de onderverdeling van de kolom).
Wil je de nadruk leggen op de verdeling over de geslachten per dagblad, klik dan in het lint op het tabblad van
Ontwerpen en in de groep van Type op Ander grafiektype. Klik vervolgens op de eerste subtype van kolomdiagram
(gegroepeerde kolom). Dit heeft het volgende resultaat.
60
50
40
Aantal
30
Man
20 Vrouw
10
0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000
Wanneer je de verdeling van het aantal dagbladabonnementen over de mannen en vrouwen wilt weergeven,
verander dan de draaitabel door de variabelen in Rij en Kolom te verwisselen (dus ‘Geslacht’ in RI J en ‘Dagblad’ in
KOLOM).
Werkwijze:
58
3 Grafieken
1. Klik in de Lijst met draaitabelvelden op Dagblad en sleep deze variabele van het kader van Rijen naar het kader
van Kolommen onder de variabele ‘Geslacht’.
Figuur 3.16: Het slepen van de variabele ‘Dagblad’ naar het kader van Legendavelden
2. Sleep nu de variabele ‘Geslacht’ van het kader van Kolommen naar het kader van Rijen.
Zodra een variabele verplaatst is wordt de grafiek en ook de erbij behorende tabel direct aangepast. Verander ten
slotte de grafiektitel en de horizontale astitel.
60
50
Algemeen Dagblad
40 NRC
Aantal
Telegraaf
30
Trouw
20 Volkskrant
10 Anders
Geen
0
Man Vrouw
Dagblad
Bron: Fictie2000
Figuur 3.17: Een gestapeld kolomdiagram van de variabele ‘Geslacht’ per ‘Dagblad’
59
Statistiek met Excel 2016
Natuurlijk vallen al deze grafieken nog aan te passen. Je kunt ze net zo kleur- en vormrijk krijgen als je wilt. Elk deel
van de grafiek kun je aanpassen.
50 44
40
40 37
Aantal
30
22 Man
20
18
20 16 16 Vrouw
9
10 7 6
3 3
0
Algemeen NRC Telegraaf Trouw Volkskrant Anders Geen
Dagblad
Dagblad
Bron: Fictie2000
60
3 Grafieken
3.2.2 Staafdiagram
Een staafdiagram is in feite een kolomdiagram die 90 0 gedraaid is. De categorie-as is nu verticaal en de waarde-as
horizontaal. Dit heeft zeker voordelen bij lange namen voor de verschillende categorieën. Om bijvoorbeeld een
staaafdiagram van de meningen over de “Metro” van de respondenten die dit blad ook wel eens gelezen hebben te
maken ga je als volgt te werk.
Werkwijze:
1. Klik op één van de cellen A36: B44 van de desbetreffende draaitabel.
2. Klik in het lint op het tabblad van Invoegen. Selecteer in de groep van Grafieken Kolom – of Staafdiagram
invoegen en selecteer binnen deze groep het subtype van gegroepeerde staaf.
3. Voeg grafiektitel, astitels en bron toe en verwijder de legenda.
Figuur 3.19: Het maken van een gegroepeerde staafdiagram van de variabele ‘Mening Metro’
Zeer goed
Goed
Mening
Redelijk
Slecht
Zeer slecht
0 10 20 30 40 50 60 70
Aantal
Bron: Fictie2000
Figuur 3.20: Staafdiagram van de variabele ‘Mening Metro’ van de respondenten die dit blad gelezen hebben
61
Statistiek met Excel 2016
3.2.3 Cirkeldiagram
Een cirkeldiagram kun je slechts samenstellen van de totalen met betrekking tot één kwalitatieve variabele. Als
voorbeeld wordt genomen de cirkeldiagram van de tabel van de verdeling van de respondenten naar ‘Geslacht’.
Werkwijze:
1. Klik op één van de cellen A3:B6 van de draaitabel van de variabele ‘Geslacht’.
2. Klik in het lint op het tabblad van Invoegen en vervolgens in de groep van Grafieken op Cirkeldiagram.
Selecteer vervolgens de eerste cirkeldiagram.
Figuur 3.21: Het maken van een cirkeldiagram van de variabele ‘Geslacht’
Man
Vrouw
Bron: Fictie2000
Bij het maken van een cirkeldiagram van de gegevens van een kruistabel wordt in eerste instantie de gegevens uit
de eerste kolom in het cirkeldiagram weergegeven.
Als voorbeeld kun je de draaitabel nemen met betrekking tot de abonnementen op dagbladen verdeeld naar
geslacht.
62
3 Grafieken
Werkwijze:
1. Klik op één van de cellen A10:D19 van de draaitabel van de variabele ‘Dagblad’ per ‘Geslacht’.
2. Klik in het lint op het tabblad van Invoegen en vervolgens in de groep van Grafieken op Cirkel. Selecteer
vervolgens de eerste cirkeldiagram.
Figuur 3.23: Invoegen van een cirkeldiagram van de variabele ‘Dagblad’ per ‘Geslacht’
Man
Algemeen Dagblad
NRC
Telegraaf
Trouw
Volkskrant
Anders
Omdat de kruistabel in de eerste kolom de gegevens bevat van de mannelijke respondenten worden deze gegevens
in de cirkeldiagram weergegeven. Wil je een cirkeldiagram van het aantal dagbladabonnementen van de
vrouwelijke respondenten dan moet je eerst de draaitabel veranderen zodat het aantal dagbladabonnementen van
de vrouwen in de eerste kolom komt te staan.
1. Klik op het pijltje naast Kolomlabels in de tabel en vervolgens op S orteren van hoog naar laag. Dit heeft tot
resultaat dan de vrouwen in de eerste kolom en de mannen in de tweede kolom komen te staan;
2. Haal het vinkje voor Man weg door hier op te klikken. Het resultaat is een tabel waar alleen nog een kolom is
opgenomen voor de vrouw.
63
Statistiek met Excel 2016
Figuur 3.25: Het sorteren van de kolomlabels van hoog naar laag
Wanneer je dit gedaan hebt zie je dat de cirkeldiagram direct veranderd wordt met het volgende resultaat.
Vrouw
Algemeen Dagblad
NRC
Telegraaf
Trouw
Volkskrant
Anders
Geen
Vergeet ten slotte niet om een fatsoenlijke grafiektitel en bronvermelding toe te voegen.
Wil je een cirkeldiagram van de dagbladabonnementen van alle respondenten verander dan de kruistabel in een
tabel met slechts alleen de variabele ‘Dagblad’ en laat van deze nieuwe draaitabel een cirkeldiagram maken.
64
3 Grafieken
Voordat je een histogram of lijngrafiek (polygoon) van kwantitatieve gegevens kunt laten maken door Excel, moet
je ervoor zorgen dat met name de (kwantitatieve) waarden die op de X-as komen te staan, op een correcte manier
en in de juiste volgorde staan. Bij een kolomdiagram (histogram) worden de x-waarden midden onder de kolom
weergegeven, bij een lijngrafiek worden de (x,y) waarden afgezet. Zorg bij kwantitatieve gegevens voor een juiste
asindeling. Het is een soort meetlat. Elke afstand tussen twee getallen moet hetzelfde verschil uitdrukken.
Als je een frequentietabel hebt gemaakt met klassen, dan wordt zo’n klasse gerepresenteerd met behulp van zijn
klassenmidden. Deze klassenmiddens kun je prima gebruiken voor het maken van polygonen en histogrammen.
N.B. Zorg er wel voor dat alle intervallen dezelfde klassenbreedte hebben! Is een interval bijvoorbeeld 2 keer
zo breed dan de andere klassenbreedtes verander dit dan.
In de eerste klasse (15 -< 25) heb je 10 verschillende leeftijden, in de tweede klasse 20 en in de derde klasse
vormen 30 leeftijden een groep. Maak van de tweede en derde klasse groepen van 10 jaar en ga ervan uit dat de
verdeling binnen de klassen regelmatig is. Je krijgt dan de volgende tabel, die je kunt gebruiken om er een
histogram van te maken.
65
Statistiek met Excel 2016
3.3.1 Histogram
Als voorbeeld neem je de tabel van de leeftijden van de 300 respondenten van het onderzoek.
Hierbij hoef je de klassenbreedte niet te veranderen, want deze is bij elke klasse 5 jaar.
De leeftijden komen op de horizontale as te staan en het is gebruikelijk dat deze (horizontale) as bij 0 begint.
Omdat de klassen 0 -< 5 en 5 -< 10 geen waarden bevatten, worden deze niet in de tabel opgenomen. Deze klassen
heb je wel nodig om een histogram te krijgen, waarbij de horizontale as bij 0 begint. Je kunt een tabel maken die
ook klassen weergeeft, die geen waarden bevatten.
Werkwijze:
1. Klik op één van de cellen A3:B15 van de gegroepeerde draaitabel van de variabele ‘Leeftijd’.
2. Bij het groeperen heb je destijds als ondergrens 10 gekozen. Wanneer je een tabel wilt gebruiken die bij 0
begint dan zul je de ondergrens moeten aanpassen aan 0. Klik daarvoor op één van de cellen A4:A14 en klik op
het tabblad van Analyseren en vervolgens op Groepselectie in de groep van Groeperen.
Figuur 3.28: Het maken van groepen van 5 breed beginnend bij 0 en eindigend bij 64
66
3 Grafieken
4. Op het eerste gezicht lijkt de tabel niet veranderd. Wanneer je echter op het filter van Rijlabels in cel A3 klikt
dan zie je dat er nieuwe groepen zijn bijgekomen, maar dat deze niet worden weergegeven in de tabel.
5. Schakel het vinkje voor <0 en voor >65 uit. De reden dat de groepen 0-4 en 5-9 niet worden weergegeven
komt omdat Excel standaard groepen weglaat waar geen waarnemingen in voorkomen. Het aantal in die
groepen is 0.
Klik op het tabblad van Analyseren en vervolgens op Veldinstellingen in de groep van Actief veld. Selecteer in
het geopende dialoogvenster van Veldinstellingen het tabblad van Indeling & afdrukken en vink bij Indeling
“Items zonder gegevens weergeven” aan.
Figuur 3.30: Het inschakelen voor de weergave van Items zonder gegevens
67
Statistiek met Excel 2016
6. De groepen 0-4 en 5-9 worden nu wel weergegeven in de tabel, alleen worden de aantallen voor deze twee
groepen nog niet weergegeven in de draaitabel. Klik op het tabblad van Analyseren en vervolgens op Opties in
de groep van Draaitabel. Klik op het tabblad van Indeling & opmaak, vink het vak Voor lege cellen weergeven
aan, vul 0 in en klik op OK.
7. Om een goede weergave te krijgen op de horizontale as van het histogram, moet je nog de labels veranderen
in klassenmiddens. Klik op cel A4 en verander 0-4 in “2,5” door dit in te typen. Klik op cel A5 en verander dit in
“7,5”. Ga zo door tot en met cel A16 die je verandert in “62,5”.
68
3 Grafieken
8. Klik nu op het tabblad van Invoegen en vervolgens op Kolom in de groep van Grafieken.
Totaal
60
50
40
30
Totaal
20
10
0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Dit is geen histogram, want bij een histogram bestaat er geen tussenruimte tussen de verschillende kolommen.
Om dit probleem op te lossen moet je op één van de kolommen klikken en vervolgens op het tabblad Indeling
en op Selectie opmaken in de groep van Huidige selectie (de kolommen).
69
Statistiek met Excel 2016
Figuur 3.35: Openen van het dialoogvenster van Selectie opmaken voor kolommen
Je krijgt dan na aanpassing van de grafiektitel, astitels, legenda en bronvermelding het volgende resultaat te
zien.
70
3 Grafieken
50
Aantal per 5 jaar
40
30
20
10
0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Leeftijd (jaren)
Bron: Fictie2000
Natuurlijk kun je dit histogram nog verfraaien. Elk element waaruit de grafiek opgebouwd is kan door erop te
dubbelklikken met de linker muisknop of enkel te klikken met de rechter muisknop veranderd worden. Je kunt
ook de grafiek selecteren en met behulp van het rolmenu Opmaak en of Grafiek de verschillende onderdelen
van de grafiek veranderen. Probeer het maar eens uit.
50
Aantal per 5 jaar
40
30
20
10
0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Bron: Fictie2000 Leeftijd (jaren)
71
Statistiek met Excel 2016
3.3.2 Frequentiepolygoon
Een frequentiepolygoon (lijndiagram) verbindt de klassenmiddens van de kolommen van een histogram met
elkaar. Het maken van een frequentiepolygoon loopt dan ook analoog aan het verhaal van het maken van een
histogram, met uitzondering van het te kiezen grafiektype.
Werkwijze:
1. Klik op de tabel van leeftijd, waarbij de leeftijden in klassen zijn ingedeeld en de klassenmiddens als rijlabels
zijn weergegeven (Zie figuur 3.32).
2. Klik op het tabblad van Invoegen in het lint en vervolgens op het pictogram van Lijn in de groep van Grafieken.
Klik nu op het eerste subtype van de weergegeven Lijndiagrammen.
3. Pas de grafiektitel en astitels aan. Voeg een bronvermelding toe en verwijder de legenda. Je krijgt dan de
volgende lijndiagram.
50
Aantal per 5 jaar
40
30
20
10
0
2,5 7,5 125 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
Bron: Fictie2000
Leeftijd (jaren)
72
3 Grafieken
In principe kun je vrij snel een cumulatief polygoon (ogief) maken van een cumulatieve frequentie tabel. Toch
moet je deze tabel iets veranderen om ervoor te zorgen dat je een fatsoenlijke indeling van de horizontale X-as
krijgt (moet namelijk bij 0 beginnen, net zoals bij een histogram en een frequentiepolygoon).
Je moet dus eerst de cumulatieve frequentie tabel, van bijvoorbeeld de variabele ‘Leeftijd’, die je in hoofdstuk 2
gemaakt hebt aanpassen, zoals je dat ook voor de frequentietabel van de leeftijden hebt gedaan voor het maken
van een histogram.
Als voorbeeld kun je de cumulatieve (absolute) frequentie tabel nemen (zie figuur 2.43). Voer de eerste zes
stappen uit voor het maken van een histogram (zie hoofdstuk 3.3.1), met de uitzondering dat je bij stap 5 het
vinkje voor < 0 niet uitschakeld. Geef de waarden weer als voorlopig totaal in (figuur 2.41 en figuur 2.42). Je
cumulatieve tabel van de variabele ‘Leeftijd’ moet er nu als volgt uit zien.
Als rijlabels (dit worden de labels voor de categorie-as) moet je nu in de cellen A4:A17 0, 5, 10, ……, 65 invullen (de
bovengrenzen van de klassen).
Figuur 3.42: Cumulatieve tabel van de variabele ‘Leeftijd’ voor het maken van een ogief
73
Statistiek met Excel 2016
Werkwijze:
Totaal
350
300
250
200
150 Totaal
100
50
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Figuur 3.43: Grafiek van het cumulatief aantal van de variabele ‘Leeftijd’
3. Pas de grafiektitel en astitels aan. Voeg een bronvermelding toe en verwijder de legenda. Je krijgt dan de
volgende cumulatief lijndiagram.
300
250
200
Aantal
150
100
50
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Leeftijd (jaren)
Bron: Fictie2000
4. De getallen op de horizontale as moeten nu nog aangepast worden. Selecteer in de grafiek de horizontale as.
Klik op het tabblad van Indeling en vervolgens op Selectie opmaken in de groep van huidige selectie. Er wordt
nu een dialoogvenster geopend voor As opmaken. Klik op de radiobutton Op maatstreepjes in plaats van
Tussen maatstreepjes.
74
3 Grafieken
Figuur 3.45: Openen van het dialoogvenster voor het opmaken van de horizontale as
5. Verander in het dialoogvenster van As opmaken de positie van de as. Klik Op maatstreepjes in plaats van
Tussen maatstreepjes.
De waarden van de horizontale as staan nu op de juiste plaats. De grafiek ziet er nu als volgt uit.
75
Statistiek met Excel 2016
300
250
200
Aantal
150
100
50
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Leeftijd (jaren)
Bron: Fictie2000
Uit deze grafiek kun je nu gemakkelijk aflezen hoeveel respondenten jonger zijn dan een bepaalde leeftijd.
Bijvoorbeeld 150 respondenten zijn jonger dan 30 jaar.
Omdat het bestand Fictie2000 geen gegevens over tijdreeksen bevat, kun je voor het oefenen van het maken van
grafieken van tijdreeksen gebruik maken van de volgende tabel.
Leeftijd 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
18 tot 25 jarigen 55 55 54 53 52 51 48 48 40 42 45 41
25 tot 35 jarigen 47 47 43 43 40 39 37 33 31 28 27 28
35 tot 45 jarigen 62 61 59 57 55 55 50 50 48 46 40 38
45 tot 55 jarigen 73 74 73 72 69 67 65 64 59 58 57 56
55 tot 65 jarigen 74 76 75 74 74 76 76 72 71 71 67 66
65 tot 75 jarigen 75 74 73 73 74 75 72 72 73 70 70 73
75 jarigen of ouder 70 69 68 68 72 69 70 71 66 64 73 68
Bij tijdreeksen wordt de tijd altijd op de X-as weergegeven. Bij jaartallen is het logisch dat deze X-as niet bij 0
begint.
76
3 Grafieken
Bij korte tijdreeksen (bijvoorbeeld tot 5 jaar) worden de gegevens over de jaren weergegeven in een
kolomdiagram. Voor het maken van een kolomdiagram zie ook 3.2.1 (Kolomdiagram).
Bij kolomdiagrammen is de Y-as een echte meetlat die bij 0 begint en waarbij elke afstand op die as dezelfde
eenheid overbrugt. Een scheurlijn is dus niet toegestaan. Dit probleem ben je tot nog toe niet tegen gekomen,
maar bij tijdreeksen heb je vaak te maken met getallen die per jaar weinig verschillen. Neem bijvoorbeeld het
percentage dagbladabonnementen van de 18 tot 25 jarigen over de periode 2004 – 2008 (zie tabel 3.5). Dit
varieert van 40% tot 48%. Je zult merken dat de kolommen dan niet op de verticale as bij 0 beginnen, waardoor je
een vertekend beeld krijgt van de werkelijkheid.
Werkwijze:
1. Open het bestand “Dagbladabonnement.xlsx”.
2. Selecteer de cellen I2:M2 voor het maken van een kolomdiagram van de dagbladabonnementen van de 18 tot
25 jarigen over de periode 2004 – 2008. Klik op het tabblad van Invoegen en vervolgens op Kolom in de groep
van Grafieken. Selecteer vervolgens het eerste subtype.
Grafiektitel
50
48
46
44
42
40
38
36
1 2 3 4 5
77
Statistiek met Excel 2016
Klik in het dialoogvenster van Gegevensbron selecteren op Bewerken in het kader van Horizontale aslabels
(categorieën). Selecteer vervolgens met de muis de cellen I1:M1 en klik op OK. Onder de horizontale as staan
nu de jaartallen 2004, 2005, …, 2008.
5. De verticale as moet nog netjes ingedeeld worden zodat deze bij 0 begint en niet bij 36. Selecteer daarvoor de
verticale as in de grafiek. Klik in het lint op het tabblad van Indeling, Selectie opmaken in de groep van Huidige
selectie. Er wordt nu een dialoogvenster geopend voor het opmaken van de gekozen as.
Figuur 3.51: Openen van het dialoogvenster voor Opties van de verticale as
Klik in het dialoogvenster van As opmaken bij Opties voor as Minimum en verander “36,0” in “0”. De verticale
as begint nu bij 0. Verander de Primaire eenheid van “2” in “10”. De eenheden die nu bij de verticale as staan
gaan in stappen van 10 omhoog.
78
3 Grafieken
50
40
Percentage
30
20
10
0
2004 2005 2006 2007 2008
Figuur 3.53: Grafiek van dagbladabonnementen van 18 tot 25 jarigen over de periode 2004-2008
79
Statistiek met Excel 2016
Bij lange tijdreeksen (bijvoorbeeld meer dan 5 jaar) worden de gegevens over de jaren weergegeven in een
lijndiagram. Voor het maken van een lijndiagram zie ook 3.3.2 Frequentiepolygoon. Een lijndiagram wordt ook
gebruikt wanneer je meer dan één tijdreeks wilt weergeven, bijvoorbeeld alle percentages van
dagbladabonnementen van alle leeftijdscategorieën over een aantal jaren.
Bij lijndiagrammen mag je een scheurlijn gebruiken en hoeft de Y-as dus niet bij 0 te beginnen. Excel geeft deze
scheurlijn niet aan, maar deze scheurlijn zou je bijvoorbeeld in een tekenprogramma wel kunnen toevoegen in je
grafiek.
Neem als voorbeeld het percentage dagbladabonnementen van de 18 tot 25 jarigen over de periode 1997-2007.
Werkwijze:
2. Selecteer de cellen B2:M2 voor het maken van een lijndiagram van de dagbladabonnementen van de 18 tot 25
jarigen over de periode 1997 – 2008. Klik op het tabblad van Invoegen en vervolgens op Lijn in de groep van
Grafieken. Selecteer vervolgens het vierde subtype.
Grafiektitel
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12
4. De horizontale asindeling moet nog worden gekozen. Klik hiervoor met de rechtermuisknop op het
grafiekgebied en klik vervolgens op Gegevens selecteren.
Klik in het dialoogvenster van Gegevensbron selecteren op Bewerken in het kader van Horizontale aslabels
(categorieën). Selecteer vervolgens met de muis de cellen B1:M1 en klik op OK. Onder de horizontale as staan
nu de jaartallen 1997, 1998, …, 2008.
80
3 Grafieken
50
40
Percentage
30
20
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
3.3.5 Spreidingsdiagram
Een spreidingsdiagram wordt gebruikt om een verwacht logisch verband tussen twee kwantitatieve variabelen te
onderzoeken (zie ook hoofdstuk 7). De onafhankelijke variabele wordt op de horizontale (X-) as en de afhankelijke
variabele op de verticale (Y-) as afgezet.
Zo zou je bij het bestand van Fictie2000, waarbij gevraagd werd naar de leeftijd en het inkomen van de
respondent, kunnen onderzoeken of het inderdaad zo is dat, hoe ouder men is des te hoger het inkomen is. De
onafhankelijke variabele is dan ‘Leeftijd’, de afhankelijke variabele het ‘Inkomen’.
N.B. Bij alle voorgaande grafieken werd gebruik gemaakt van tabellen. Bij spreidingsdiagrammen wordt
gebruik gemaakt van de “losse” waarnemingen!
Als voorbeeld van een spreidingsdiagram kun je de leeftijden en de inkomens van de 300 respondenten nemen.
Werkwijze:
81
Statistiek met Excel 2016
4. Selecteer voor de Reeks X-waarden de cellen C2:C301 (de verschillende leeftijden) van het werkblad Data en
voor de Reeks Y-waarden de cellen F2:F301 (de verschillende inkomens) van het werkblad Data. Let op dat je
niet de cellen met de namen ook selecteert (C1 en F1). Klik vervolgens op OK. Door deze manier van
selecteren weet je zeker dat de juiste waarden als x-variabele en de juiste waarden als y-waarden zijn
geselecteerd.
Grafiektitel
40
35
30
25
20
15
10
0
0 10 20 30 40 50 60 70
82
3 Grafieken
De gegevens uit kolom C (leeftijden) worden op de horizontale as afgezet en de gegevens uit kolom F
(inkomens) op de verticale as.
5. Voeg grafiektitel, astitels en bronvermelding toe en verwijder de legenda. De spreidingsdiagram moet er dan
als volgt uit zien.
25
20
15
10
5
0
0 10 20 30 40 50 60 70
Bron: Fictie2000 Leeftijd
6. Wanneer je naar de punten in de spreidingsdiagram kijkt, zie je dat over het algemeen, wanneer de leeftijd
hoger wordt, ook het inkomen hoger wordt. Dit verband zou je met een vergelijking van een rechte lijn (die zo
nauwkeurig mogelijk bij de punten aansluit) kunnen weergeven. Om deze lijn en vergelijking in de grafiek te
krijgen ga je als volgt te werk.
Klik op het tabblad van Ontwerpen en op Grafiekonderdeel toevoegen in de groep van Grafiekindelingen.
Selecteer Trendlijn en vervolgens Meer opties voor trendlijnen.
83
Statistiek met Excel 2016
Figuur 3.63: Toevoegen van de trendlijn, de vergelijking en R-kwadraat van deze lijn in het spreidingsdiagram
25
20
15
10
5
0
0 10 20 30 40 50 60 70
Bron: Fictie2000 Leeftijd
Figuur 3.64: Spreidingsdiagram van ‘Leeftijd’ en ‘Inkomen’ met regressielijn en vergelijking ervan
84
3 Grafieken
Een box en whiskerdiagram is een vereenvoudigde weergave maar zeer bruikbare voorstelling van de verdeling van
de data. Een box en whiskerdiagram is een grafische weergave van de vijf-getallensamenvatting. Deze vijf-
getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of tweede kwartiel),
het derde kwartiel en het maximum van de waargenomen data (zie ook hoofdstuk 4).
De middelste 50% van de waarnemeningen worden weergegeven door de box, de laagste en de hoogste
25% door de whiskers.
Net zoals bij het spreidingsdiagram wordt een box en whiskerdiagram gemaakt vanuit de oorspronkelijke gegevens
en niet vanuit een draaitabel.
Als voorbeeld van een box en whiskerdiagram worden de gegevens van de variabele ‘Leeftijd’ genomen.
Werkwijze:
1. Kopieer de gegevens van de variabele ‘Leeftijd’ van het Datablad van het bestand Fictie2000 naar
een nieuw blad (inclusief de naam van de variabele).
3. Klik in het lint op het tabblad van Invoegen, in de groep van Grafieken op het pictogram van
Aanbevolen grafieken. Klik vervolgens op het tabblad van Alle grafieken en selecteer hier Box en
whisker. Je krijgt dan een box en whiskerdiagram. Klik op OK.
85
Statistiek met Excel 2016
Figuur 3.66: Het toevoegen van gegevenslabels bij een box en whiskerdiagram
5. Voeg grafiektitel, astitel en bronvermelding toe. Geef de getallen voor de kwartielen en het
gemiddelde weer als gehele getallen. Je box en whiskerdiagram moet er nu als volgt uit zien.
86
3 Grafieken
3.4 Opgaven
1. Maak een cirkeldiagram van de gegevens van alle respondenten op de variabele ‘Mening Spits’.
2. Maak een samengesteld kolomdiagram van de gegevens van de respondenten die de ‘Spits lezen’ voor de
variabele ‘Mening Spits’, waarbij de meningen opgesplitst zijn naar de variabele ‘Geslacht’.
3. Maak een staafdiagram van de gegevens van de respondenten die de ‘Spits lezen’ op de variabele ‘Mening
Spits’, waaruit duidelijk blijkt dat de mening over dit blad relatief slechter scoort bij vrouwen dan bij mannen.
4. Maak een histogram van de gegevens van alle respondenten op de variabele ‘Reistijd’.
5. Maak een frequentiepolygoon van de gegevens van alle respondenten op de variabele ‘Inkomen’.
6. Maak een ogief (cumulatief frequentiepolygoon) van de gegevens van de mannelijke respondenten op de
variabele ‘Reistijd’.
7. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Dagblad’.
8. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Reisdagen per trein per
week’.
9. Maak een passende grafiek van de gegevens van alle respondenten op de variabele ‘Dagblad’ opgesplitst naar
de variabele ‘Geslacht’.
10. Maak een passende grafiek waarin valt af te lezen welk percentage van de vrouwen een inkomen heeft dat
lager is dan een bepaald bedrag.
11. Maak een spreidingsdiagram van de gegevens van alle respondenten met als onafhankelijke variabele ‘Leeftijd’
en als afhankelijke variabele ‘Reistijd’.
12. Maak een box en whiskerdiagram van de gegevens van alle respondenten op de variabele ‘Reistijd’.
13. Maak een box en whiskerdiagram van de gegevens op de variabele ‘Inkomen’ opgesplitst naar ‘Geslacht’.
De opgaven 14 tot en met 16 hebben betrekking op de gegevens van het bestand “Dagbladabonnementen”.
14. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren
2004 – 2008 van de 25 tot 35 jarigen.
15. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren 1997-2008 van de
75 jarigen of ouder.
16. Maak een passende grafiek van de gegevens over ‘Dagbladabonnementen’ over de jaren 1997-2008 van alle
verschillende leeftijdscategorieën.
87
Statistiek met Excel 2016
4 Karakteristieken
4.1 Inleiding
In de vorige twee hoofdstukken heb je gezien hoe je door middel van tabellen en grafieken inzicht kunt krijgen in
de structuur van een groot aantal waarnemingsuitkomsten. Vaak worden waarnemingsuitkomsten (in een rapport
of artikel) niet in tabellen of grafieken gepresenteerd, omdat deze tabellen of grafieken veel ruimte in beslag
nemen.
In de tekst worden de waarnemingsuitkomsten dan met behulp van een centrummaat, spreidingsmaat en of
vormmaat weergegeven.
Een centrummaat geeft aan welke waarde als centrum, het gemiddelde of het midden van een verdeling kan
worden gezien.
Een spreidingsmaat geeft een indruk van de mate waarin de waarnemingsuitkomsten onderling verschillen en
afwijken van het centrum, het gemiddelde of het midden van de verdeling.
Een vormmaat geeft een indruk in hoeverre de waarnemingsuitkomsten overeenkomen met een symmetrische
klokvormige verdeling.
Het is belangrijk om te weten op welke schaal de variabele is gemeten. Wanneer je de scores op nominale en
ordinale variabelen als codes hebt ingevoerd, rekent Excel zonder problemen alle centrum-, spreidings- en
vormmaten uit. De meeste van deze maten hebben dan echter geen enkele betekenis. Voor een nominale
variabele heeft slechts de modus betekenis, voor een ordinale variabele slechts de modus, de mediaan, het bereik
en de kwartielafstand. De andere centrum-, spreidings- en vormmaten zijn alleen zinvol voor kwantitatieve
variabelen (gemeten op interval of ratio niveau).
Wanneer je de beschikking hebt over de oorspronkelijke verzamelde gegevens, dan kun je de centrum-, spreidings
en vormmaten exact berekenen.
Het is meestal niet mogelijk om gegevens te verzamelen van alle elementen waarin men in geïnteresseerd is (de
populatie). Zo zou het veel tijd en geld kosten om alle ochtendspitsreizigers te ondervragen over hun mening over
de gratis ochtendbladen. Daarom heeft men “slechts” 300 ochtendspitsreizigers geënquêteerd (de steekproef).
Karakteristieken van de populatie worden meestal weergegeven met Griekse letters. Zo wordt het rekenkundig
gemiddelde van een populatie aangegeven met “µ”, de standaardafwijking van een populatie met “ σ” en het
gedeelte (percentage) van een populatie dat aan een bepaalde voorwaarde voldoet met “π”. De grootte van de
populatie wordt met de hoofdletter “N” weergegeven.
Karakteristieken van de steekproef worden meestal weergegeven met Latijnse letters. Zo wordt het rekenkundig
gemiddelde van een steekproef aangegeven met “ x ”, de standaardafwijking van een steekproef met “s” en het
gedeelte (percentage) van een steekproef dat aan een bepaalde voorwaarde voldoet met “p”. De grootte van de
steekproef wordt met de kleine letter “n” weergegeven.
Bij het berekenen van karakteristieken voor steekproeven zijn veel formules gelijk aan die van de karakteristieken
voor populaties. Slechts de notatie is dan verschillend.
Formules voor de standaardafwijking en de ervan afgeleide formules (variantie, variatiecoëfficiënt, scheefheid en
kurtosis) zijn wel verschillend voor populatie en steekproeven en kunnen zeker bij kleine steekproeven grote
verschillen opleveren.
88
4 Karakteristieken
4.2.1 Centrummaten
Een centrummaat geeft aan waar het gemiddelde van alle uitkomsten ligt. De centrummaat die je rechtstreeks uit
een tabel of grafiek kunt aflezen en voor alle variabelen geldt is de modus.
Modus is de meest voorkomende waarnemingsuitkomst.
In een frequentietabel is dat de waarnemingsuitkomst met de hoogste frequentie. Zo kun je in tabel 2.2 aflezen
dat het modale geslacht man is (223 mannen versus 77 vrouwen).
In een staaf- of kolomdiagram is het de waarde die behoort bij de langste staaf of de hoogste kolom. Zo kun je in
grafiek 3.1 aflezen dat het modale geslacht man is, want de kolom bij man is hoger dan de kolom bij vrouw.
Voor het bepalen van de mediaan moet het meetniveau van de variabele minimaal ordinaal zijn. De mediaan
wordt namelijk bepaald door de waarde van de middelste waarnemingsuitkomst, wanneer de uitkomsten eerst
gerangschikt zijn van laag naar hoog.
Neem als voorbeeld de reistijden van de eerste 7 respondenten van het bestand Fictie2000:
35, 29, 23, 32, 14, 104, 58.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
14, 23, 29, 32, 35, 58, 104.
De mediane reistijd is in dit geval 32. De reistijden van 3 respondenten ligt onder de 32 (de mediaan) en de
reistijden van 3 respondenten ligt boven de 32 (de mediaan).
Bij een even aantal getallen (scores) is er geen middelste waarneming. In dat geval neem je als mediaan het
(rekenkundig) gemiddelde van de twee middelste waarnemingsuitkomsten.
Neem als voorbeeld de reistijden van de eerste 8 respondenten van het bestand Fictie 2000:
35, 29, 23, 32, 14, 104, 58, 55.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
14, 23, 29, 32, 35, 55, 58, 104.
De mediane reistijd is in dit geval het gemiddelde van 32 en 35 dus 33,5 minuten. Een mediaan kan dus een
uitkomst zijn die niet echt voorkomt.
Het rekenkundig gemiddelde is de meest gebruikte centrummaat voor kwantitatieve gegevens, dat wil zeggen dat
de gegevens van de variabele op interval- of ratio-niveau zijn gemeten. Het rekenkundig gemiddelde reken je uit
door alle getallen op te tellen en te delen door het aantal getallen. Zo is het rekenkundig gemiddelde van de
‘Reistijd’ van de eerste 7 respondenten gelijk aan:
(35 + 29 + 23 + 32 + 14 + 104 + 58) / 7 = 295 / 7 = 42,1
4.2.2 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de gegevens uit elkaar liggen. Voor nominale variabelen kun je geen
spreidingsmaten geven. Meet je op minimaal ordinaal niveau dan kun je bijvoorbeeld het bereik bepalen. Hierbij
benoem je het interval van de uitslagen.
Zo is het bereik van ‘Mening over Metro’ van de eerste 6 respondenten, die wel eens de “Metro” hebben gelezen,
gelijk aan van slecht tot zeer goed.
De scores zijn namelijk: goed, goed, redelijk, slecht, zeer goed, goed.
Op volgorde gezet: slecht, redelijk, goed, goed, goed, zeer goed.
Het bereik van ‘Reistijd’ van de eerste 7 respondenten is gelijk aan van 14 tot 104.
De scores zijn namelijk: 35, 29, 23, 32, 14, 104, 58.
Op volgorde gezet: 14, 23, 29, 32, 35, 58, 104.
Nauw verwant met het bereik is de spreidingsbreedte (range in het Engels). Voor de spreidingsbreedte neem je
het verschil tussen de hoogste en laagste waarneming.
De spreidingsbreedte van de ‘Reistijd’ van de eerste 7 respondenten is gelijk aan 90, want het maximum is 104 en
het minimum 14, dus is de spreidingsbreedte 104 – 14 = 90.
89
Statistiek met Excel 2016
Het bereik en de spreidingsbreedte zijn nogal gevoelig voor extremen, zowel naar boven als naar beneden. Zo zou
de spreidingsbreedte van inkomens gelijk kunnen zijn aan € 200 miljoen, wanneer er iemand is die geen inkomen
heeft en er iemand is die een inkomen heeft van € 200 miljoen.
Een spreidingsmaat die minder gevoelig is voor dit soort extremen is de interkwartiel afstand. Hierbij worden de
gerangschikte gegevens in 4 groepen van elk 25% ingedeeld.
Q1 = eerste kwartiel; 25% van de waarnemingen heeft een score kleiner of gelijk aan Q 1
Q2 = tweede kwartiel (mediaan); 50% van de waarnemingen heeft een score kleiner of gelijk aan Q 2
Q3 = derde kwartiel; 75% van de waarnemingen heeft een score kleiner of gelijk aan Q 3
Q4 = vierde kwartiel (maximum); 100% van de waarnemingen heeft een score kleiner of gelijk aan Q 4
De interkwartiel afstand is het verschil tussen Q 3 en Q1. De laagste en de hoogste 25% waarnemingen worden dan
buiten beschouwing gelaten.
Neem als voorbeeld de gegevens van de variabele ‘Reistijd’ van de eerste 11 respondenten:
35, 29, 23, 32, 14, 104, 58, 55, 44, 5, 36.
Wanneer je deze getallen rangschikt (op volgorde zet van laag naar hoog) krijg je:
5, 14, 23, 29, 32, 35, 36, 44, 55, 58, 104.
Q1 = 23, Q2 = 35, Q3 = 55, Q4 = 104
De interkwartiel afstand = 55 – 23 = 32.
De spreidingsmaten die in de statistische praktijk het meest gebruikt worden voor kwantitatieve variabelen zijn
toch wel de standaardafwijking en de variantie. Bij beide spreidingsmaten wordt het verschil tussen de waarden
en het rekenkundig gemiddelde gekwadrateerd en gedeeld door het aantal getallen 0.
Het verschil tussen de variantie en de standaardafwijking is dat bij de standaardafwijking de wortel getrokken
wordt uit de variantie. Je hebt dan een spreidingsmaat die in dezelfde eenheid van meting is berekend dan de
oorspronkelijke waarden. Bij statistische toetsen wordt vaker gebruik gemaakt van de variantie.
Neem als voorbeeld de gegevens van de variabele ‘Reistijd’ van de eerste 7 respondenten:
35, 29, 23, 32, 14, 104, 58
De gemiddelde reistijd is 42,1 minuut.
Variantie = ((35 – 42,1)2 + (29 – 42,1)2 + (23 – 42,1)2 + (32 – 42,1)2 + (14 – 42,1)2 + (104 – 42,1)2 + (58 – 42,1)2) / 6 =
= 927,1
Standaardafwijking = √ 927,1 = 30,4
De laatste spreidingsmaat die hier aan de orde komt is de variatiecoëfficiënt (V.C.). Deze spreidingsmaat wordt
vaak gebruikt om aan te geven dat een reeks waarnemingen met een hoog gemiddelde en een grote
standaardafwijking relatief gezien een kleinere mate van spreiding kan hebben dan een reeks waarnemingen met
een laag gemiddelde en een kleine standaardafwijking.
Zo zal de variatiecoëfficiënt van de inkomens van de Nederlandse bevolking in 2001 gemeten in guldens hetzelfde
zijn als die van de inkomens van de Nederlandse bevolking in 2001 gemeten in euro’s, terwijl de
standaardafwijking van de inkomens in guldens ongeveer 2,2 keer zo groot is dan de standaardafwijking van de
inkomens in euro’s.
De variatiecoëfficiënt wordt berekend door de standaardafwijking te delen door het rekenkundig gemiddelde en te
vermenigvuldigen met 100%.
0
Bij waarden van een populatie wordt gedeeld door het aantal getallen en bij waarden van een steekproef wordt gedeeld door het aantal
getallen - 1
90
4 Karakteristieken
Opmerkingen:
1. Hoe meer spreiding of hoe meer de gegevens van elkaar verschillen, des te groter is het bereik, de
spreidingsbreedte, de interkwartielafstand, de standaardafwijking, de variantie en de variatiecoëfficiënt;
2. Hoe homogener de gegevens zijn, des te kleiner is het bereik, de spreidingsbreedte, de interkwartielafstand,
de standaardafwijking, de variantie en de variatiecoëfficiënt;
3. Wanneer alle gegevens aan elkaar gelijk zijn (er zijn dan geen verschillen), zal het bereik, de spreidingsbreedte,
de interkwartielafstand, de standaardafwijking, de variantie en de variatiecoëfficiënt allen gelijk zijn aan 0;
4. Geen van de spreidingsmaten (het bereik, de spreidingsbreedte, de interkwartielafstand, de
standaardafwijking, de variantie en de variatiecoëfficiënt) kan ooit negatief zijn.
4.2.3 Vormmaten
Bij de vorm wordt in eerste instantie gekeken naar de symmetrie. Een verdeling van gegevens wordt symmetrisch
genoemd als de verdeling aan beide zijden van de mediaan dezelfde vorm heeft. In een symmetrische verdeling is
het rekenkundig gemiddelde gelijk aan de mediaan. Heeft de verdeling slechts één top, dan is ook de modus gelijk
aan de mediaan en aan het rekenkundig gemiddelde.
Dus voor een ééntoppige symmetrische verdeling geldt:
Modus = Mediaan = Rekenkundig gemiddelde
Figuur 4.1: Eéntoppige symmetrische verdeling Figuur 4.2: Uniforme of rechthoekige verdeling
Wanneer de vorm van de verdeling aan beide zijden van de mediaan van elkaar afwijkt dan wordt de verdeling
asymmetrisch of scheef genoemd.
De vormmaat voor de symmetrie is de scheefheid.
Figuur 4.3: Negatief linksscheve verdeling` Figuur 4.4: Positief rechtsscheve verdeling
91
Statistiek met Excel 2016
Een andere manier om de vorm van een verdeling weer te geven is de kurtosis. Deze vorm geeft aan hoe plat of
hoe spits een verdeling is. De kurtosis van een verdeling wordt vergeleken met een normale verdeling (zie
hoofdstuk 7), die mesokurtisch genoemd wordt en waarvan de kurtosis gelijk is aan 0 0. Is een verdeling platter dan
een normale verdeling, dan wordt deze verdeling platykurtisch genoemd en is de kurtosis kleiner dan 0. Een
verdeling die spitser is dan een normale verdeling heet leptokurtisch en de kurtosis is dan groter dan 0.
Mesokurtisch
Leptokurtisch
Platykurtisch
Het minimum, maximum, de kwartielen en het rekenkundig gemiddelde kun je bepalen met een box en
whiskerdiagram (Zie hoofdstuk 3.3.6). Maar daarnaast heeft Excel net zoals bij een rekenmachine ingebouwde
functies voor het berekenen van karakteristieken. Je hoeft dus niet de formules voor de verschillende
karakteristieken te gebruiken om deze te bepalen. Naast de ingebouwde functies beschikt Excel ook nog over een
ingebouwd programma (Analyses Toolpack -> Gegevensanalyse) en een mogelijkheid bij Draaitabellen om de
belangrijkste karakteristieken te laten bepalen. In deze syllabus wordt op deze mogelijkheden verder niet
ingegaan.
Voor het berekenen van centrum- en/of spreidingsmaten 0 kun je de volgende functies in Excel gebruiken:
GEMIDDELDE(bereik) : Berekent het rekenkundig gemiddelde van de waarden van het bereik
MEDIAAN(bereik) : Berekent de mediaan van de waarden van het bereik
MODUS.ENKELV(bereik) : Berekent de modus van de waarden van het bereik
KWARTIEL.INC(bereik;k) : Berekent het k-de kwartiel
PERCENTIEL.INC(bereik;k) : Berekent het k-de percentiel
MIN(bereik) : Berekent de laagste waarde van de waarden van het bereik
MAX(bereik) : Berekent de hoogste waarde van de waarden van het bereik
92
4 Karakteristieken
Door gebruik te maken van het Excelbestand “Karakteristieken” (tabblad ‘losse waarden’) hoef je niet de
verschillende formules uit Excel te gebruiken, want die staan al in dit bestand. Door de verschillende waarden in de
gele cellen onder ‘Gegevens’ in te voeren worden alle centrum-, spreidings- en vormmaten voor je uitgerekend.
Wanneer je de karakteristieken wilt bepalen van bijvoorbeeld de variabele ‘Leeftijd’ van het bestand “Fictie2000”
dan kun je dit doen door alle leeftijden uit dit bestand te kopiëren (C2:C301) en deze te plakken vanaf cel B8 van
het Excelbestand “Karakteristieken”. Dit levert het volgende resultaat op.
Omdat niet alle ochtendspitsreizigers (populatie) geënquêteerd zijn, maar slechts 300 reizigers (steekproef) kun je
de antwoorden voor de spreidings- en vormmaten aflezen onder het kopje Steekproef.
Ook is het mogelijk om dit bestand te gebruiken voor het bepalen van waarden die bij verschillende percentielen
behoren, of van een waarde het erbij behorende percentiel te laten uitrekenen: 10% is jonger dan 19 jaar en 60%
is jonger dan 35 jaar. Bij een leeftijd van 20 jaar hoort een percentiel van 15% en bij een leeftijd van 50 jaar een
percentiel van 88%.
93
Statistiek met Excel 2016
Om wat meer zicht op de centrum-, spreidings- en vormmaten te krijgen is het handig om een grafiek (histogram)
van bovenstaande gegevens van de variabele ‘Leeftijd’ te maken.
25
Aantal per jaar
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Leeftijd
Bron: Fictie2000
Opmerkingen:
1. In de grafiek is sprake van bimodaliteit. Zowel de score van 19 jaar als van 21 jaar komt het vaakste voor. Via
de Excelfunctie MODUS.ENKELV0 wordt hooguit één modus gegeven, die van 21 jaar, omdat deze score het
eerst in de lijst staat;
2. In de grafiek is duidelijk sprake van een rechtsscheve verdeling. Dit komt overeen met de berekende
scheefheid, die positief (0,56) is. Ook de ligging van de centrummaten:
Modus < Mediaan < Rekenkundig gemiddelde duidt op een rechtsscheve verdeling;
3. In de grafiek is duidelijk sprake van een platykurtische (platte) verdeling. Dit komt overeen met de berekende
kurtosis, die negatief (-0,63) is.
Voor nominale waarden kun je de modus en het bereik via Excel bepalen, door de “woorden” te vervangen door
getallen (codes) en de uitkomst, een getal, weer te vertalen in het bijbehorende woord. Voor ordinale waarden
kun je op deze manier ook de mediaan bepalen. Pas op dat wanneer je bij nominale en/of ordinale variabelen de
“woorden” vervangen hebt door “getallen” je geen bewerkingen uit laat voeren die gezien het meetniveau van de
variabele niet toegestaan zijn (bijvoorbeeld een rekenkundig gemiddelde voor een ordinale variabele).
Mocht je de karakteristieken willen bepalen van een gedeelte van de respondenten, bijvoorbeeld de gemiddelde
leeftijd van alleen de mannelijke respondenten, zet dan het filter aan op je blad met gegevens (Data). Ga hiervoor
in het lint bij Start naar de groep van bewerken en klik op Sorteren en filteren. Vervolgens klik je op Filter.
0
Excel kent ook de functie MODUS.MEERV voor het bepalen van modi (wanneer er meer dan één modus is). Je moet dan meerdere cellen
gelijktijdig kiezen om deze functie te gebruiken met behulp van een matrix formule.
94
4 Karakteristieken
Bij de variabelen in de eerste rij zie je nu een pijltje staan. Door hier op te klikken kun je de waarde selecteren die
je wilt filteren.
Om bijvoorbeeld karakteristieken van alleen de gegevens van de “mannen” te bepalen, klik je nu op het
selectieknop achter de variabel ‘Geslacht’ in cel B1 en schakel je het vinkje voor 2 (“vrouwen”) uit. De tabel bevat
na het klikken op OK nu alleen de gegevens van de “mannen”. Selecteer nu de gegevens van de variabele ‘Leeftijd’
en kopieer deze naar het bestand “Karakteristieken”.
Vergeet niet om in je tabel met gegevens het filter weer uit te zetten wanneer je weer iets wilt berekenen voor alle
respondenten. Klik daarvoor op het filter in cel B1 en vink (Alles selecteren) aan en klik op OK.
95
Statistiek met Excel 2016
96
4 Karakteristieken
Vaak heb je bij deskresearch niet de beschikking over de losse waarnemingsuitkomsten van een onderzoek, maar
wel over een frequentieverdeling van de waarnemingsuitkomsten. Als je dan centrum- en/of spreidingsmaten wilt
berekenen (eigenlijk schatten), dan ga je ervan uit dat de waarden in een klasse evenredig over die klasse verdeeld
zijn en dat de klassen gerepresenteerd kunnen worden door hun klassenmiddens.
De berekeningen die je uit moet voeren zijn nagenoeg gelijk aan die van de vorige paragrafen. Voor het berekenen
van de mediaan en de kwartielen moet je kunnen interpoleren.
Als voorbeeld wordt gebruik gemaakt van de zelfgemaakte frequentieverdeling en relatieve cumulatieve
frequentieverdeling van de leeftijden van het bestand “Fictie2000” uit hoofdstuk 2. Deze tabellen zijn hieronder
nog eens weergegeven.
Bron: Fictie2000
97
Statistiek met Excel 2016
De kleinste klassenbreedte is 5 jaar. Wanneer je dit als standaardklassenbreedte neemt voor het berekenen van de
frequentiedichtheid, dan krijg je voor de klasse 10 - < 20 jaar, dat deze klasse twee keer zo breed is als de
standaardklassenbreedte (2 * 5 jaar = 10 jaar). De frequentie moet je dan delen door 2 om de frequentiedichtheid
te krijgen. Dus frequentiedichtheid = 45 / 2 = 22.5.
Kijkend naar de hoogste frequentiedichtheid dan is de modale klasse 20 - < 25 en is de modus gelijk aan het
klassenmidden van deze klasse, dus 22,5 jaar.
Voor het schatten van de mediaan van de variabele ‘Leeftijd’ kun je gebruik maken van de cumulatieve
procentuele frequentieverdeling.
De mediaan ligt bij 50% dus ergens tussen de 30 jaar (49,33%) en de 35 jaar (58,33%). Via interpoleren kun je de
mediaan schatten met behulp van de volgende formule:
50%−CV
mediaan=LM+ *KM
CM−CV
50%−49,33%
mediaan=30+ *5=30,37
58,33%−49,33%
Omdat een klasse gerepresenteerd wordt door haar klassenmidden wordt het rekenkundig gemiddelde berekend
door de klassenmiddens te vermenigvuldigen met de frequentie (aantal) van de klasse, vervolgens deze bij elkaar
op te tellen en te delen door de totale frequentie.
Het rekenkundig gemidelde van de variabele ‘Leeftijd’ in klassen (zie Figuur 4.9):
Het bereik (range) is net zoals bij losse waarnemingen gedefinieerd als het verschil tussen het maximum en het
minimum, waarbij het maximum gelijk is aan de bovengrens (rechtergrens) van de laatste klasse en het minimum
gelijk is aan de ondergrens (linkergrens) van de eerste klasse.
Toegepast op de variabele ‘Leeftijd’:
Maximum = 65
Minimum = 10
Bereik = 55
Ook de interkwartielafstand is net zoals bij losse waarnemingen gedefinieerd als het verschil tussen de waarde van
het derde kwartiel en de waarde van het eerste kwartiel. Het berekenen (schatten) van het eerste kwartiel (de
waarde waaronder 25% van de waarnemingen ligt) en het derde kwartiel (de waarde waaronder 75% van de
waarnemingen ligt) gebeurt met eenzelfde formule als voor de mediaan.
25%−CV 75%−CV
Q1=LQ 1 + ∗KQ1 Q3=LQ 3 + ∗KQ 3
CQ 1−CV CQ 3−CV
waarbij:
LQ1: ondergrens (linkergrens) van de klasse waar het eerste kwartiel invalt;
LQ3: ondergrens (linkergrens) van de klasse waar het derde kwartiel invalt;
CV: cumulatief percentage van de klasse voorafgaand waar het eerste kwartiel (derde kwartiel) invalt;
CQ1: cumulatief percentage van de klasse waar het eerste kwartiel invalt;
CQ3: cumulatief percentage van de klasse waar het derde kwartiel invalt;
98
4 Karakteristieken
25%−15%
Q 1 =20+ *5=22,78
33%−15%
Het derde kwartiel valt in de klasse 40 – 44:
75%−70%
Q3 =40+ *5=42,34
80,67%−70%
Ten slotte nog de twee belangrijkste spreidingsmaten: de variantie en de standaaardafwijking.
Net zoals bij het gemiddelde wordt een klasse gerepresenteerd door zijn klassenmidden. Voor de variantie trek je
van de klassenmidden het rekenkundig gemiddelde af, kwadrateer dit verschil en vermenigvuldig de uitkomst met
de frequentie van die klassen. Tel ten slotte al deze gewogen gekwadrateerde verschillen bij elkaar op en deel door
de totale frequentie0.
De standaardafwijking is vervolgens gelijk aan de wortel uit de variantie.
De variantie berekend uit de gegevens van tabel 4.1 met betrekking tot de variabele ‘Leeftijd’:
2 2 2 2 2
2 45 *(15−33,78) +54 *(22,5−33,78) +49 *(27,5−33,78) +62 *(35−33,78) +90 *(52,5−33,78)
s =300 -1 =188,31
en de steekproefvariantie (s) is dan gelijk aan:
s= √188,31=13,72
4.5 Karakteristieken bij frequentieverdelingen met klassenindeling met Excel
Helaas kent Excel geen functies voor het berekenen van karakteristieken van frequentieverdelingen met
klassenindeling die je direct kunt toepassen, zoals je die bij de losse waarnemingen hebt gebruikt. Je moet dan
gebruik maken van formules.
Het Excelbestand “Karakteristieken” (tabblad ‘klassen’) kun je in het vervolg gebruiken om de verschillende
karakteristieken te bepalen voor je gegroepeerde gegevens. Je hoeft dan niet zelf elke keer de formules in een
Excelblad in te voeren. De bovengrens van een groep behoort niet tot deze groep en is gelijk aan de ondergrens
van de volgende groep. Bijvoorbeeld voor het invoeren van de gegevens van figuur 4.9 typ je voor de eerste groep
als ondergrens 10 in en als bovengrens 15 (en geen 14).
Wanneer je de gegevens van de variabele ´Leeftijd´ ingedeeld in klassen (zie figuur 4.13) invult op het tabblad
klassen, in het Excelbestand Karakteristieken, krijg je de volgende resultaten.
0
Voor een steekproef wordt van de totale frequentie 1 afgetrokken waardoor gedeeld wordt.
99
Statistiek met Excel 2016
Wanneer je deze uitkomsten vergelijkt met de karakteristieken van de losse waarden van de variabele ‘Leeftijd’
(zie figuur 4.7) dan zie je kleine verschillen. De veronderstelling die je maakt voor de schatting van de
karakteristieken op basis van de indeling in groepen (waarnemingen binnen een groep worden vertegenwoordigd
door het klassenmidden) klopt dus aardig.
100
4 Karakteristieken
4.6 Opgaven
2. Bepaal de modus en mediaan van de gegevens van de respondenten die wel eens de “Spits” lezen met
betrekking tot de variabele ‘Mening Spits’.
4. Bepaal de modus van de gegevens van de 300 respondenten met betrekking tot de variabele ‘Dagblad’.
Bron: Fictie2000
101
Statistiek met Excel 2016
Bron: Fictie2000
8. Van de variabele ‘Inkomen’ opgesplitst naar de variabele ‘Geslacht’ is de volgende tabel samengesteld:
Bron: Fictie2000
102
5 Kansen en kansverdelingen
5 Kansen en kansverdelingen
5.1 Inleiding
Eigenlijk ben je als onderzoeker en zeker als opdrachtgever niet direct geïnteresseerd in wat de uitkomsten van je
steekproef zijn, maar veel meer in wat deze uitkomsten betekenen voor je doelgroep van alle ochtendspitsreizigers
(de populatie). Mag je bijvoorbeeld uit je steekproef concluderen dat “Metro” door meer ochtendspitsreizigers
wordt gelezen dan “Spits”, of kan door het toeval de groep van “Metro” lezers in je steekproef
oververtegenwoordigd zijn?
Het toeval bij een aselecte steekproef valt helaas niet te bestrijden, maar de rol ervan kan wel in beeld gebracht
worden met behulp van de statistiek. Enige kennis omtrent kansrekening is dan van belang.
In het dagelijks leven wordt het woord kans vaak gebruikt als een ander woord voor mogelijkheid, bijvoorbeeld de
N.S.-directie krijgt van de overheid nog een kans om er voor te zorgen dat binnen een half jaar minimaal 80% van
de treinen op tijd rijdt. In dit geval is sprake van kwalitatief kansgebruik, dat wil zeggen deze kans is niet in een
getal te meten.
In dit hoofdstuk ga je kwantitatieve kansen berekenen. Deze kansen kun je op twee manieren in een getal
weergeven:
De uitkomsten 0 (=0%) en 1 (=100%) zijn bij het berekenen van kansen mogelijk. 0 wil zeggen dat het onmogelijk is
dat de gebeurtenis plaats vindt en 1 wil zeggen dat het zeker is dat de gebeurtenis plaats vindt.
103
Statistiek met Excel 2016
Wanneer je willekeurig één van de respondenten uitkiest die aan het onderzoek meegewerkt hebben, dan is de
kans dat deze willekeurig gekozen respondent een man is gelijk aan 223/300 = 0,743. Er zijn namelijk in 300
respondenten (totaal), waarvan er 223 man zijn (gunstig).
De regel van Laplace wordt vaak misbruikt. Zo wordt door sommige mensen wel eens beweerd dat je 50% kans
hebt dat een willekeurige trein vertraging heeft, want je hebt twee mogelijkheden: “De trein heeft vertraging of de
trein heeft geen vertraging”. De regel wordt dan toegepast zonder dat aan de voorwaarde “Als alle uitkomsten
even waarschijnlijk zijn” wordt voldaan.
Het is dus van belang om het aantal gunstige uitkomsten en het totaal aantal uitkomsten te weten en of deze
uitkomsten allemaal even waarschijnlijk zijn.
Via draaitabellen kun je gemakkelijk, door de aantallen uit te drukken in percentages van kolommen, rijen of van
het totaal, kansen laten berekenen.
Neem het bestand “Fictie2000” van de 300 respondenten. Je wilt weten hoe groot de kans is dat een aselect
(willekeurig) gekozen persoon uit dit bestand 5 dagen per week met de trein reist.
Werkwijze:
Figuur 5.1: Openen van het dialoogvenster voor het maken van een draaitabel
3. Voor het bereik van de draaitabel wordt automatisch alle gegevens van het werkblad Data geselecteerd. Voor
het maken van de draaitabel van de variabele ‘Reisdagen’ zou je kunnen volstaan met de selectie van de cellen
E1:E301, maar het is handig om alle gegevens te selecteren en straks bij de draaitabel aan te geven welke
gegevens je in de draaitabel wilt laten weergeven. Laat de draaitabel op een Nieuw werkblad maken.
104
5 Kansen en kansverdelingen
Figuur 5.2: Seecteren van het bereik voor de draaitabel en de locatie van de draaitabel
4. Op een nieuw werkblad wordt een lege draaitabel gemaakt en Draaitabelvelden geopend (de verschillende
variabelen die in het werkblad van Data in de eerste rij staan (A1:L1). Sleep de variabele ‘Reisdagen’ naar het
gebied van Rijen en sleep nogmaals deze variabele naar het gebied van ∑ Waarden. In dit gebied klik je nu op
Som van Reisdagen en vervolgens op Waardeveldinstellingen in het afrolmenu
Figuur 5.3: Openen van het dialoogvenster voor het instellen van de waarden in de tabel
105
Statistiek met Excel 2016
5. Verander Som in Aantal en klik daarna op het tabblad Waarden weergeven als.
Figuur 5.4: Veranderen van Som naar Aantal en openen van het dialoogvenster weergave van waarden
6. Klik op het pijltje naast Geen berekening en klik vervolgens in het afrolmenu op % van eindtotaal. Klik daarna
op OK.
Figuur 5.6: Draaitabel van de variabele ‘Reisdagen’ weergegeven als percentage van totaal
Dus je hebt 54% kans dat een aselect gekozen persoon uit de groep van 300 respondenten 5 dagen per week per
trein reist.
106
5 Kansen en kansverdelingen
Wanneer je de kruistabel aanpast door er een kruistabel van te maken met de variabele ´Geslacht´ in de
kolomkoppen krijg je de volgende tabel.
De percentages in de tabel zijn percentages van het eindtotaal. Dus 9,67% van alle respondenten is een vrouw die
op 4 dagen per week met de trein reist.
In plaats van percentages van het eindtotaal, zou je ook percentages van het kolomtotaal kunnen weergeven.
Zie daarvoor de volgende tabel.
Figuur 5.8: Draaitabel van de variabele ‘Reisdagen’ als percentage van het ‘Geslacht’
Het totaal (100%) is nu of man of vrouw. Dus bijvoorbeeld 8,52% van de mannen reist op 3 dagen, of 3,9% van de
vrouwen reist op 2 dagen. Wat opvalt is dat de percentages per aantal reisdagen voor de mannen niet hetzelfde is
als voor de vrouwen. Het aantal reisdagen is dus afhankelijk van het geslacht.
Wanneer je de aantallen weergeeft als percentages van het rijtotaal, dan krijg je de volgende tabel.
Figuur 5.9: Draaitabel van de variabele ‘Reisdagen’ als percentage van ‘Reisdagen’
Het totaal is 1, 2, 3, 4 of 5 reisdagen. Dus bijvoorbeeld 82,1% van de respondenten die op 5 dagen per trein reist is
man, of 31,87% van de respondenten die op 4 dagen per trein reist is vrouw.
Samenvattend:
1. Voor het berekenen van een kans op gebeurtenis 1 en op een gebeurtenis 2:
Neem bij de kruistabel % van eindtotaal;
2. Voor het berekenen van een kans op gebeurtenis 1 (weergegeven bij Rijen) onder voorwaarde dat
gebeurtenis 2 (weergegeven bij Kolommen) plaats gevonden heeft:
Neem bij de kruistabel % van kolomtotaal;
107
Statistiek met Excel 2016
3. Voor het berekenen van een kans op gebeurtenis 2 (weergegeven bij Rijen) onder voorwaarde dat
gebeurtenis 1 (weergegeven bij Kolommen) plaats gevonden heeft:
Neem bij de kruistabel % van rijtotaal.
Ten slotte nog een laatste voorbeeld om nog wat mogelijkheden met draaitabellen te bekijken.
Hoe groot is de kans dat een willekeurig gekozen persoon uit de groep van respondenten, die de “Metro” wel
eens leest, een vrouw is die de “Metro” goed of zeer goed vindt?
Je zou dit kunnen uitzoeken met behulp van Rapportfilter.
Werkwijze:
1. Voeg een nieuwe draaitabel in.
2. Sleep de variabele ‘Geslacht’ naar het gebied van Kolommen (verander daar de codes “1” in “Man” en “2” in
“Vrouw”), de variabele ‘Mening Metro’ naar het gebied van Rijen (verander daar ook de codes “0” in “Geen
mening”, “1” in “Zeer slecht”, “2” in “Slecht”, “3” in “Redelijk”, “4” in “Goed” en “5” in “Zeer goed”) en
nogmaals de variabele ‘Mening Metro’ (mag ook de variabel “Geslacht’) naar het gebied van ∑ Waarden.
Verander de weergave van Som in Aantal en verander de weergave van Geen berekening in % van eindtotaal.
3. Sleep ten slotte de variabele ‘Metro’ naar het gebied van Filters.
Je Excelblad ziet er dan als volgt uit.
Figuur 5.10: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ met filter voor ‘Metro’
4. Momenteel zie je in de tabel de uitkomst van alle respondenten en niet alleen die de “Metro” wel eens
gelezen heeft. Boven de tabel zie je de variabele ‘Metro’ staan en wanneer je op het pijltje achter (Alle) klikt
kun je de waarden voor de variabele ‘Metro’ selecteren die je wilt weergeven. “1” is de code voor de groep
die de “Metro” wel eens gelezen heeft dus klik op “1” en vervolgens op OK.
Figuur 5.11: Filteren van de draaitabel voor de groep die de “Metro” wel eens gelezen heeft
108
5 Kansen en kansverdelingen
Figuur 5.12: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ voor de groep van Metrolezers (code 1)
5. Ten slotte zou je nog de groepen van “Goed” en “Zeer goed” kunnen samenvoegen. Selecteer de cellen A8 en
A9 en klik op Groepselectie in de groep Groeperen van het tabblad Analyseren.
Figuur 5.14: Tabel met de gegroepeerde (‘Mening Metro2’) en ongegroepeerde waarden (‘Mening Metro’)
109
Statistiek met Excel 2016
6. Deze tabel ziet er niet overzichtelijk uit. De Rijlabels bevatten zowel de gegroepeerde labels met totalen als de
ongegroepeerde labels. Sleep de variabele ‘Mening Metro’ uit het gebied van Rijen naar het kader van Velden
kiezen om toe te voegen aan rapport. In de draaitabel zie je nu alleen nog de labels van de groepering.
Verander het label van “Groep1” in “Goed of zeer goed”.
De draaitabel ziet er dan als volgt uit. Je ziet dat de percentages van Goed en Zeer goed bij elkaar zijn
opgeteld.
Figuur 5.15: Kruistabel van ‘Mening Metro’ per ‘Geslacht’ van lezers van “Metro”
Uit de tabel kun je nu eenvoudig aflezen dat bijna 16% (15,95%) van de lezers van “Metro” vrouwen zijn die het
blad goed of zeer goed vinden.
Een discrete variabele is een variabele met een beperkt aantal mogelijke waarden. Een variabele die op nominaal-
of ordinaal schaalniveau wordt gemeten is een discrete variabele. Bijvoorbeeld geslacht heeft slechts twee
uitkomsten: man of vrouw.
Ook variabelen die op interval of rationiveau worden gemeten kunnen discrete variabelen zijn. Bijvoorbeeld het
aantal kinderen in een gezin kan variëren van 0 t/m 20? In elk geval niet onbeperkt en alleen gehele getallen zijn
mogelijk als uitkomst.
Een discrete kansverdeling is een discrete variabele met bij elke mogelijke uitkomst de bijbehorende kans op die
uitkomst. De meest belangrijke discrete kansverdelingen worden nu behandeld.
Er is sprake van een binomiale kansverdeling als aan de volgende eigenschappen wordt voldaan:
1. De mogelijke uitkomsten kunnen op twee steekproefmethoden verzameld worden:
a. een steekproef uit een “oneindige” populatie zonder terugleggen;
b. een steekproef uit een eindige populatie met terugleggen;
2. Elke uitkomst wordt gezien als een “succes” of als een “mislukking”;
3. De kans op “succes”, aangegeven met de letter p, verandert niet evenals de kans op “mislukking”
q = 1 - p;
4. Elke uitkomst is onafhankelijk van vorige uitkomsten.
Voorbeelden
Wanneer je twee willekeurig gekozen ochtendspitsreizigers enquêteert met de vraag of zij die ochtend de “Metro”
hebben gelezen, dan is het aantal “Metro” lezers (X) in deze steekproef binomiaal verdeeld, namelijk:
Het is een steekproef (n = 2) uit een “oneindige” (er zijn heel veel ochtendspitsreizigers) populatie zonder
terugleggen;
Elke geënquêteerde reiziger is een “succes” (heeft de “Metro”gelezen) of een mislukking (heeft de “Metro”
niet gelezen);
Wanneer 30% van de ochtendspitsreizigers de “Metro” op die dag gelezen heeft, dan is de kans op succes
p = 0,3 en de kans op mislukking q = 0,7;
110
5 Kansen en kansverdelingen
Of een geënquêteerde ochtendspitsreiziger al of niet de “Metro”heeft gelezen is niet afhankelijk van het feit of
een voorgaande ochtendspitsreiziger al of niet de “Metro” heeft gelezen.
Tabel 5.1: Kansverdeling bij een binomiale verdeling met p = 0,3 en n = 2
De kans dat het aantal “Metro” lezers gelijk is aan 2, P(X=2) is dus gelijk aan:
succeskans * succeskans
De kans dat het aantal “Metro” lezers gelijk is aan 1, P(X=1) is dus gelijk aan:
succeskans * kans op mislukking + kans op mislukking * succeskans
De kans dat het aantal “Metro” lezers gelijk is aan 0, P(X=0) is dus gelijk aan:
kans op mislukking * kans op mislukking.
Onder een groep van 10 treinreizigers bestaande uit 4 vrouwen en 6 mannen deel je blindelings drie vrijkaarten uit
voor de vakantiebeurs (het is dus ook mogelijk dat slechts 1 treinreiziger alle drie de vrijkaarten ontvangt).
Het aantal vrijkaarten dat bij een vrouw terecht komt (X) is dan binominaal verdeeld, namelijk:
Er worden drie kaarten verdeeld, de steekproef (n = 3) onder een eindig aantal mensen, de populatie (N = 10),
met terugleggen (iemand die de eerste vrijkaart heeft gekregen kan ook de tweede vrijkaart krijgen);
Elke kaart die uitgedeeld wordt is een “succes”, wanneer een vrouw deze kaart ontvangt, of een “mislukking”,
wanneer een man deze kaart ontvangt;
De kans op “succes” p = 4/10 = 0,4 en de kans op “mislukking” q = 6/10 = 0,6;
Of een vrijkaart aan een vrouw of aan een man wordt uitgedeeld is niet afhankelijk van het feit of de daarvoor
uitgedeelde vrijkaart(en) aan een vrouw of aan een man is uitgedeeld.
Er is 1 mogelijkheid waarbij er 3 vrouwen in de steekproef zijn, met een kans van P(X=3) = 1* p 3*q0.
Er zijn 3 mogelijkheden waarbij er 2 vrouwen in de steekproef zijn, met elk een kans van p 2*q1.
Dus P(X=2) = 3 * p2*q1.
Er zijn 3 mogelijkheden waarbij er 1 vrouw in de steekproef is, met elk een kans van p 1*q2.
Dus P(X=1) = 3 * p1*q2.
Er is 1 mogelijkheid waarbij er geen enkele vrouw in de steekproef is, met een kans van P(X=0) = 1* p 0*q3.
111
Statistiek met Excel 2016
De hypergeometrische kansverdeling lijkt erg veel op de binomiale kansverdeling. Het verschil zit in de
steekproefmethode: Bij een hypergeometrische kansverdeling is sprake van een steekproef uit een eindige
populatie zonder terugleggen. De kans op succes verandert evenals de kans op mislukking. Een uitkomst is
afhankelijk van vorige uitkomsten.
Voorbeeld
Onder een groep van 10 treinreizigers (N) bestaande uit 4 vrouwen (A) en 6 mannen deel je 3 vrijkaarten (n) uit
voor de vakantiebeurs. Wanneer een reiziger een kaart heeft ontvangen, doet deze reiziger niet meer mee bij het
uitdelen van een volgende kaart. Het aantal vrijkaarten dat bij een vrouw terecht komt (X) is dan
hypergeometrisch verdeeld, namelijk:
Er worden drie kaarten verdeeld, de steekproef (n = 3), onder een eindig aantal mensen, de populatie (N = 10),
zonder terugleggen (iemand die een vrijkaart heeft gekregen doet niet meer mee);
Elke kaart die uitgedeeld wordt is een “succes”, wanneer een vrouw deze kaart ontvangt (A=4), of een
“mislukking”, wanneer een man deze kaart ontvangt;
Of een vrijkaart aan een vrouw of aan een man wordt uitgedeeld is afhankelijk van het feit of de daarvoor
uitgedeelde vrijkaart(en) aan een vrouw of aan een man is uitgedeeld.
Elke mogelijkheid waarbij het aantal successen in de steekproef hetzelfde is, levert dezelfde kans op. Het maakt
voor de kans dus bijvoorbeeld niet uit of wanneer er 1 man in de steekproef voorkomt, deze man als eerste,
tweede of als laatste “getrokken” wordt.
112
5 Kansen en kansverdelingen
De Poisson verdeling kun je gebruiken voor het berekenen van de kans op een aantal successen per continue
eenheid (tijd, lengte, enz).
Er is sprake van een Poisson verdeling wanneer de eenheid (tijd, lengte, oppervlakte) zodanig tot een interval
verkleind kan worden dat aan de volgende voorwaarden wordt voldaan:
1. De kans op precies één succes tijdens het interval is constant;
2. De kans op meer dan één succes tijdens het interval is 0;
3. De kans op een succes in een interval is onafhankelijk van een ander succes in een ander interval.
Voorbeeld
Wanneer tijdens de ochtendspits tussen 7 en 8 uur gemiddeld 180 reizigers bij de loketten op het CS van
Amsterdam komen, dan kan er sprake zijn van een Poisson verdeling van het aantal reizigers, want, wanneer je het
uur verdeelt in (3600) intervallen van seconden dan geldt:
1. De kans dat een reiziger tijdens een bepaalde seconde bij een loket komt is 180 / 3600 = 5%;
2. De kans dat een andere reiziger tijdens dezelfde seconde bij een loket komt is:
5% * 5% = 0,25% 0%;
3. De kans dat een reiziger tijdens een bepaalde seconde bij een loket komt heeft geen effect op een reiziger die
gedurende een andere seconde bij het loket komt.
Net zoals voor het berekenen van karakteristieken heeft Excel ingebouwde functies voor het berekenen van
kansen van discrete verdelingen. Je hoeft dus niet de formules voor de verschillende discrete kansverdelingen te
gebruiken om deze te bepalen.
Voor het berekenen van kansen van discrete verdelingen kun je de volgende functies in Excel gebruiken:
BINOM.VERD: Berekent de (cumulatieve) kansen van een binomiale kansverdeling
HYPGEOM.VERD: Berekent de (cumulatieve) kansen van een hypergeometrische verdeling
POISSON.VERD: Berekent de (cumulatieve) kansen van een Poisson verdeling
Voor het berekenen van de verschillende discrete kansen kun je ook gebruik maken van het Excelbestand “Discrete
kansverdelingen”. Dit Excelbestand heeft voor elke discrete kansverdeling een apart tabblad. Wanneer je de gele
cellen op een tabblad invult met de juiste gegevens worden de verschillende (cumulatieve) discrete kansen
uitgerekend.
Wanneer je bijvoorbeeld wilt weten hoe groot de kans is dat je minimaal 5 antwoorden goed gokt bij een MC-
tentamen met 10 vragen met 4 antwoordmogelijkheden dan heb je te maken met een binomiale kansverdeling. De
steekproefgrootte (n) is gelijk aan 10 en de succeskans (p) is gelijk aan 0,25. Vul deze gegevens in op het tabblad
van “Binomiaal”. Op de volgende bladzijde zie je het ingevulde tabblad van deze binomiale kansverdeling.
113
Statistiek met Excel 2016
Figuur 5.16: Ingevuld tabblad van de binomiale kansverdeling met n=10 en p = 0,25
De eerste kolom met X geeft het aantal successen aan (bij een steekproef van 10 kan het aantal successen variëren
van 0, 1, …. tot en met 10). De tweede kolom P(=X) geeft de kans op X aantal successen. De derde kolom geeft de
cumulatieve kans op hooguit X aantal successen (kleiner of gelijk aan X successen). De vierde kolom P(>=X) geeft
de cumulatieve kans op minstens X successen (groter of gelijk aan X successen).
De kans dat je minimaal 5 van de 10 vragen van een MC-tentamen goed gokt is dus gelijk aan 0,0781.
Wanneer je de kans wilt uitrekenen op 5 vrouwen in een aselecte steekproef van 10 personen (zonder
terugleggen) uit de groep van 300 respondenten, waarvan er 77 vrouw zijn dan heb je te maken met een
hypergeometrische kansverdeling. Voor het bepalen van deze kans open je het tabblad “Hypergeometrisch” van
het bestand “Discrete kansverdelingen” en vul je de gegevens in de geelgekleurde cellen in.
Figuur 5.17: Ingevuld tabblad van de hypergeometrische kansverdeling met n=10, N = 300 en A =77
De gevraagde kans kun je nu aflezen op de rij van X = 5 (aantal gevraagde successen) en in de kolom van P(=X). De
kans is dus gelijk aan 0,0621.
114
5 Kansen en kansverdelingen
Ten slotte, wanneer tijdens de ochtendspits tussen 7 en 8 uur gemiddeld per minuut 3 reizigers bij de loketten op
het CS van Amsterdam komen, dan heb je te maken met een Poisson kansverdeling met een gemiddelde van 3 per
minuut.
De kans dat in een willekeurige minuut 4 reizigers bij de loketten arriveren kun je dan bepalen door het tabblad
“Poisson” te openen van het Excelbestand “Discrete kansverdelingen” en het gemiddelde 3 in te vullen.
Figuur 5.18: Ingevuld tabblad van de Poisson kansverdeling met een gemiddelde van 3
De gevraagde kans kun je nu aflezen op de rij van X = 4 (aantal gevraagde successen) en in de kolom van P(=X). De
kans is dus gelijk aan 0,1680.
115
Statistiek met Excel 2016
Een continue variabele is een variabele die binnen een gegeven gebied alle waarden kan aannemen. Oftewel
tussen twee waarden van een continue variabele is altijd een derde waarde mogelijk. Een continue waarde wordt
altijd op kwantitatief niveau (interval of ratio) gemeten. Voorbeelden van continue variabelen kunnen zijn: tijd,
lengte, gewicht, enz.
Bij een continue kansverdeling wordt niet gekeken naar de kans op één bepaalde waarde (die is namelijk gelijk aan
0), maar naar de kans op een hoeveelheid van waarden (kleiner dan een bepaalde waarde of groter dan een
bepaalde waarde).
Vergeet niet de volgende kansregels te gebruiken bij continue kansverdelingen:
De kans op hooguit X aantal successen is gelijk aan de kans op minder dan X aantal successen
De kans op meer dan X aantal successen is gelijk aan 1 – kans op hooguit X aantal successen
(complementregel)
De kans op meer dan X successen en minder dan Y successen is gelijk aan de kans op minder dan Y successen –
kans op minder dan X successen
De meest belangrijke continue kansverdeling, de normale verdeling, wordt in deze paragraaf behandeld. Tevens
wordt kort aandacht besteed aan de exponentiële kansverdeling. Daarnaast zijn er nog meer continue
kansverdelingen zoals bijvorbeeld de Chi-kwadraat en de F-verdeling.
Een normale verdeling wordt gekenmerkt door haar gemiddelde µ, ook wel verwachtingswaarde E[X] genoemd, en
haar standaardafwijking σ.
0.45
Kansdichtheid
A
0.4
0.35
0.3
0.25
0.2
B
0.15
0.1
C
0.05
0
-4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
X
Figuur 5.19: Grafieken van normale verdelingen
Grafiek A en B hebben een gemiddelde (µ) van 4 en een standaardafwijking () van 1 respectievelijk 2, terwijl bij
grafiek C het gemiddelde (µ) 6 en de standaardafwijking () 3 is.
De grafieken A, B en C zijn verschillend maar hebben toch bepaalde overeenkomsten, omdat zij allen de grafiek zijn
van een normale verdeling.
116
5 Kansen en kansverdelingen
1. De kansdichtheid is klokvormig en symmetrisch. Waarden die bijvoorbeeld meer dan σ boven µ liggen, komen
even vaak voor als waarden die meer dan σ onder µ liggen;
2. Het rekenkundig gemiddelde, de mediaan en de modus zijn aan elkaar gelijk;
3. Een sterke centrale tendentie. Waarden dichtbij het gemiddelde komen het meeste voor;
4. Betrekkelijk grote en betrekkelijk kleine waarden komen zelden voor. Zo ligt 95,4% van alle waarnemingen
binnen twee standaardafwijkingen van µ en 99,7% zelfs binnen drie standaardafwijkingen van µ.
Wanneer je de kans wilt berekenen dat de waarde X van een normale verdeling tussen de waarden a en b ligt,
P(a < X < b), dan moet je de oppervlakte onder de kansdichtheidsfunctie tussen a en b bepalen.
Deze oppervlakte kun je berekenen door de kansdichtheidsfunctie te integreren op het interval [a,b] of via
standaardiseren en het gebruik maken van de standaardnormale kanstabel.
Een normale verdeling kan omgezet worden in een standaardnormale verdeling met een gemiddelde
µ = 0 en een standaardafwijking = 1. Dit levert een z-waarde op waarvan de kans op te zoeken valt in een
standaardnormale tabel.
Het omzetten van een normale verdeling in een standaardnormale verdeling, standaardiseren genoemd, verloopt
in twee stappen, die via een normale verdeling met µ = 4 en = 2, grafisch zal worden toegelicht.
0,2
0,15
0,1
0,05
0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
X
Figuur 5.21: Grafiek van normale verdeling met μ=4 en σ=2
117
Statistiek met Excel 2016
1. Van alle X-waarden wordt het gemiddelde afgetrokken (X - µ). Dit houdt in dat de grafiek verplaatst wordt
zodat het gemiddelde bij 0 komt te liggen.
0,2
0,15
0,1
0,05
0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
X
Figuur 5.22: Grafiek van normale verdeling met μ=0 en σ=2
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
Z
Figuur 5.23: Grafiek van (standaard)normale verdeling met μ=0 en σ=1
De waarde van z geeft het aantal keren de standaardafwijking aan dat de waarde X van het gemiddelde µ afligt.
Wanneer het gemiddelde (µ) van een normale verdeling gelijk is aan 4 en de standaardafwijking ( ) gelijk is aan 2
dan geldt:
Bij X = 6 is de z-waarde 1 (6 ligt 1 keer de standaardafwijking boven het gemiddelde van 4).
Bij X = 0 is de z-waarde -2 (2 ligt 2 keer de standaardafwijking onder het gemiddelde van 4).
Bij X = 3 is de z-waarde – ½ (3 ligt een ½ keer de standaardafwijking onder het gemiddelde van 4).
Bij X = 8 is de z-waarde 2 (8 ligt 2 keer de standaardafwijking boven het gemiddelde van 4).
Dus de kans dat X < 6, bij een normale verdeling met een gemiddelde van 4 en een standaardafwijking van 2:
P(X < 6 | µ = 4 ; = 2) = P(z < 1) = 0,84130
0
Op te zoeken in een tabel met linkeroverschrijdingskansen van de standaardnormale verdeling.
118
5 Kansen en kansverdelingen
De exponentiële kansverdeling wordt gebruikt in wachttijd theorieën om de tijd tussen twee aankomsten te
modelleren.
De exponentiële kansverdeling wordt slechts bepaald door één parameter, het gemiddelde λ (Lambda), dat gelijk is
aan het gemiddeld aantal aankomsten per tijdseenheid. De gemiddelde tijd tussen twee aankomsten is dan gelijk
aan 1/λ. Bijvoorbeeld als het gemiddelde aantal aankomsten 5 per uur is, dan is de tijd tussen twee aankomsten
1/5 uur of 12 minuten.
Voorbeeld
Als bij een loket van een NS station gemiddeld 30 klanten per uur komen, hoe groot is de kans dat, wanneer net
een klant bij het loket is gearriveerd, de volgende klant binnen 3 minuten komt?
119
Statistiek met Excel 2016
Ook voor het berekenen van kansen van continue verdelingen heeft Excel ingebouwde functies.
NORM.VERD.N: Berekent de cumulatieve kans van een normale kansverdeling
NORM.INV.N: Berekent de inverse van de cumulatieve normale verdeling
NORM.S.VERD: Berekent de cumulatieve kans van een standaardnormale kansverdeling
NORM.S.INV: Berekent de inverse van de cumulatieve normale standaardverdeling
NORMALISEREN: Berekent de genormaliseerde waarde uit een verdeling
EXPON.VERD.N: Berekent de cumulatieve kans van een exponentiële kansverdeling
In plaats van de ingebouwde functies in Excel kun je ook het bestand “Continue kansverdelingen” gebruiken. Dit
Excelbestand heeft twee tabbladen: Eén voor de normale kansverdeling en één voor de exponentiële
kansverdeling.
Wanneer je de geelgekleurde cellen invult, wordt vervolgens de linker- en rechteroverschrijdingskans uitgerekend.
Daarnaast heb je de mogelijkheid om een kans uit te rekenen op een interval. Dus de kans dat X meer dan a is en
minder dan b.
Bij de normale kansverdeling is het bovendien mogelijk om een kans op te geven en vervolgens de X-waarde laten
bepalen waar beneden of waarboven zoveel procent van alle waarden ligt.
Figuur 5.25: Ingevuld werkblad van de normale kansverdeling met gemiddelde 8 en standaardafwijking 3
Dus als het gemiddelde van een normale verdeling gelijk is aan 8 met een standaardafwijking van 3 dan heeft 25%
van de waarnemingen een uitkomst lager dan 6 en 75% een uitkomst hoger dan 6. Ongeveer 38% heeft een
waarde dat tussen de 6 en de 9 in ligt.
95% van alle waarden is kleiner dan 12,93 en 95% van alle waarden is groter dan 3,07.
120
5 Kansen en kansverdelingen
Figuur 5.26: Ingevuld werkblad van de exponentiële kansverdeling met gemiddelde 0,5
Als bij een loket van een NS station gemiddeld 30 klanten per uur komen (0,5 per minuut) dan is de kans dat de
volgende klant binnen de 3 minuten verschijn gelijk aan 78%. Je hebt 22% kans dat de volgende klant pas na 3
minuten verschijnt.
Dat de volgende klant binnen de 5 minuten verschijnt is gelijk aan 92%, je hebt 14% kans dat de volgende klant
tussen de 3 en 5 minuten komt en de kans dat de volgende klant pas na 5 minuter komt is 8%.
121
Statistiek met Excel 2016
5.8 Opgaven
De eerste vier opgaven hebben betrekking op de gegevens van het bestand “Fictie2000”.
1. Bepaal de kansen op het trekken van een aselect persoon uit de groep van 300 respondenten die voldoet aan:
a. De persoon heeft een dagbladabonnement op de “Volkskrant”.
b. De persoon is van het mannelijk geslacht en heeft een dagbladabonnement op de “Telegraaf”.
c. De persoon is 20 jaar of ouder.
d. De persoon is van het mannelijk geslacht en heeft een inkomen van minder dan 15 (* € 100).
2. Bepaal de kansen op het trekken van een aselect persoon uit de groep van personen die wel eens de “Spits”
hebben gelezen, die voldoet aan:
a. De persoon heeft een dagbladabonnement op het “Algemeen Dagblad”.
b. De persoon heeft een dagbladabonnement op het “Algemeen Dagblad” of op de “Telegraaf”.
c. De persoon heeft een zeer slechte of slechte mening over de “Spits”.
d. De persoon is minimaal 30 jaar oud en heeft vindt de “Spits” goed.
3. De volgende kruistabel is gemaakt met behulp van de gegevens van het bestand Fictie2000
Metro Spits
Nee Ja Eindtotaal
Nee 60 77 137
Ja 90 73 163
Eindtotaal 150 150 300
Bron: Fictie2000
a. Veronderstel dat de respondent de “Spits” leest. Hoe groot is dan de kans dat deze “Spits” lezer ook de
“Metro” leest?
b. Veronderstel dat de respondent de “Metro” leest. Hoe groot is dan de kans dat deze “Metro” lezer ook de
“Spits” leest?
c. Hoe groot is de kans dat een willekeurige respondent zowel de “Metro” als de “Spits” leest?
d. Hoe groot is de kans dat een willekeurige respondent de “Metro” en/of de “Spits” leest?
4. De volgende kruistabel is gemaakt met behulp van de gegevens van het bestand Fictie2000
Volkskrant Geslacht
Man Vrouw Eindtotaal
Nee 183 57 240
Ja 40 20 60
Eindtotaal 223 77 300
Bron: Fictie2000
a. Veronderstel dat de respondent een vrouw is. Hoe groot is dan de kans dat zij een abonnement op de
“Volkskrant” heeft?
b. Veronderstel dat de respondent een man is. Hoe groot is dan de kans dat hij een abonnement op de
“Volkskrant” heeft?
c. Hoe groot is de kans dat een willekeurige respondent een abonnement op de Volkskrant heeft?
122
5 Kansen en kansverdelingen
5. 87% van de treinen rijdt op tijd. Hoe groot is de kans dat iemand die 10 keer met een willekeurige trein rijdt:
a. Altijd op tijd aankomt?
b. Niet vaker dan 1 keer vertraging heeft?
c. Minstens de helft van het aantal keren vertraging heeft?
6. Wanneer je uit de groep van 300 respondenten (van het databestand “Fictie2000”) een aselecte steekproef
neemt van 25 personen (zonder terugleggen), hoe groot is de kans dat van deze groep:
a. 15 personen wel eens de “Metro” hebben gelezen?
b. Minstens 15 personen wel eens de “Metro” hebben gelezen?
c. Het aantal personen dat wel eens de “Metro” heeft gelezen tussen de 10 en 20 ligt (inclusief 10 en 20)?
7. Dagelijks komen gemiddeld 9 reizigers naar de balie voor verloren voorwerpen van een bepaald station. Wat is
de kans dat op een willekeurige dag:
a. Er 7 reizigers bij deze balie komen?
b. Minder dan 5 reizigers bij deze balie komen?
c. 10 of meer reizigers bij deze balie komen?
8. 72% van de mensen die de “Spits” lezen laten deze krant niet achter in het openbaar vervoer. Hoe groot is de
kans dat van 12 aselect gekozen “Spits” lezers:
a. Iedereen de “Spits” meeneemt (niet achterlaat in het openbaar vervoer)?
b. Slechts 2 personen de “Spits” in het openbaar vervoer achterlaten?
c. Minimaal 6 personen de “Spits” meenemen?
d. Minimaal 6 personen en maximaal 8 personen de “Spits” meenemen?
9. Van een groep van 40 treinreizigers hebben 25 reizigers wel eens een formulier voor geldteruggave bij
vertraging ingevuld. Hoe groot is de kans dat, wanneer je een aselecte groep van 10 reizigers kiest uit deze
groep van 40 treinreizigers:
a. Alle 10 reizigers wel eens een geldteruggave formulier hebben ingevuld?
b. Niemand wel eens een geldteruggave formulier heeft ingevuld?
c. 5 reizigers wel eens een geldteruggave formulier hebben ingevuld?
d. Minimaal 4 en maximaal 6 reizigers wel eens een geldteruggave formulier hebben ingevuld?
10. Een besteldienst, die de “Metro” ’s ochtends op een aantal NS stations aflevert, is daar gemiddeld 2 uur mee
bezig met een standaardafwijking van 10 minuten. Ervan uitgaande dat de bezorgtijd normaal verdeeld is
bepaal:
a. de kans dat op een willekeurige dag de besteldienst binnen 1 ½ uur klaar is met afleveren;
b. de kans dat op een willekeurige dag de besteldienst langer dan 2 ¼ uur bezig is met het afleveren van de
“Metro”;
c. de kans dat op een willekeurige dag het afleveren van de “Metro” minimaal 1 ¾ uur en maximaal 2 ¼ uur
duurt;
d. de tijdsduur waarbij je 75% kans hebt dat de aflevering binnen deze tijd gebeurt.
11. Bij een kaartautomaat op een bepaald NS station komen gemiddeld 23 treinreizigers per uur gedurende de
ochtendspits. Wanneer de aankomst van de treinreizigers bij deze kaartautomaat exponentieel verdeeld is,
bepaal de kans dat:
a. de eerstvolgende reiziger binnen 5 minuten komt;
b. de eerstvolgende reiziger na 10 minuten komt;
c. het minimaal 3 minuten en maximaal 7 minuten duurt, voordat de eerstvolgende reiziger komt.
12. De tijd die treinreizigers nodig hebben om een kaartje uit de kaartautomaat te halen is bij benadering normaal
verdeeld met een gemiddelde van 2 minuten en een standaardafwijking van 15 seconden. Bepaal:
a. de kans dat een willekeurige reiziger binnen 1 ½ minuut klaar is bij de kaartautomaat;
b. de kans dat een willekeurige reiziger meer dan 2 minuten en 20 seconden nodig heeft om een kaartje uit
de kaartautomaat te halen;
c. de kans dat een willekeurige reiziger minimaal 2 minuten en maximaal 2 ½ minuut nodig heeft om een
kaartje uit de kaartautomaat te halen;
d. de tijd waarbinnen 95% van de treinreizigers een kaartje uit de kaartautomaat halen.
123
Statistiek met Excel 2016
13. Bij een distributiepunt van de “Spits” arriveren de kranten om 6.00 uur. Het blijkt dat gemiddeld na 5 uur (om
11.00 uur) alle “Spits” kranten op zijn. Wanneer de tijd dat de “Spits” kranten er liggen normaal verdeeld is
met een gemiddelde van 5 uur en een standaardafwijking van ½ uur, bepaal:
a. de kans dat iemand, die op een willekeurige dag om 10.00 uur bij dit distributiepunt komt, geen “Spits”
meer aantreft;
b. de kans dat iemand, die op een willekeurige dag om 11.30 uur bij dit distributiepunt komt, nog een “Spits’
aantreft;
c. de uiterste tijd, waarop iemand op een willekeurige dag bij dit distributiepunt moet arriveren, om nog
90% kans te hebben om er een “Spits” aan te treffen.
14. De centrale informatiedienst van de NS over reistijden, wordt tijdens de ochtendspits gemiddeld 18 keer per
uur gebeld. Wanneer de binnenkomst van telefoongesprekken bij de centrale informatiedienst exponentieel
verdeeld is, bepaal:
a. de kans dat het volgende telefoongesprek binnen 3 minuten binnenkomt;
b. de kans dat het meer dan 5 minuten duurt voordat het volgende telefoongesprek binnenkomt;
c. de kans dat het volgende telefoongesprek tussen de 2 minuten en 4 minuten binnenkomt.
124
6 Chi-kwadraatverdeling (X2)
6 Chi-kwadraatverdeling (X2)
6.1 Inleiding
In hoofdstuk 4 heb je gezien dat het gemiddelde inkomen van de 300 respondenten gelijk is aan 13,9 * € 100 per
maand, maar ook dat er een verschil is in gemiddelde inkomens tussen mannen en vrouwen. Of het gemiddelde
van de respondenten (steekproef) een goed beeld weergeeft van het gemiddelde inkomen van alle
ochtendspitreizigers (populatie) hangt af in hoeverre de steekproef representatief is voor de populatie. Of te wel:
Is de samenstelling van de steekproef hetzelfde als de samenstelling van de populatie zodat karakteristieken van
de steekproef ook gelden voor de populatie.
Je zou dit ten aanzien van een aantal karakteristieken van variabelen die je kent van de populatie kunnen
uitzoeken. Zo is bij de NS bekend hoeveel mannen en vrouwen in de ochtendspits reizen en wat hun leeftijd is.
Wanneer de samenstelling van je steekproef ongeveer hetzelfde is als de samenstelling van de populatie, zou je
mogen verwachten dat karakteristieken van variabelen die je niet kent van de populatie (bijvoorbeeld welk
percentage van alle ochtendspitreizigers leest de “Metro”) dan ook ongeveer hetzelfde is als die van je steekproef.
In dit hoofdstuk leer je op welke aspecten je de representativiteit van je onderzoek kunt controleren en hoe je met
behulp van Excel kunt aantonen dat je onderzoek wel of niet representatief is ten aanzien van die bepaalde
aspecten. Hiervoor gebruik je de Chi-kwadraatverdeling (Χ 2).
Mocht je onderzoek niet representatief zijn voor een bepaalde variabele dan kun je kijken naar de consequenties
hiervan. Wanneer er geen verband is tussen die bepaalde variabele en essentiële variabelen voor je onderzoek,
dan kunnen de consequenties meevallen.
Wanneer er wel een verband bestaat dan zul je bepaalde technieken (bijvoorbeeld wegingsfactoren) moeten
gebruiken om toch iets te kunnen zeggen over de karakteristieken van die essentiële variabelen.
Voor het onderzoeken van al of geen verband tussen twee variabelen gebruik je ook de Chi-kwadraat-verdeling.
Bij een onderzoek naar representativiteit en een onderzoek naar geen verband tussen twee variabelen wordt
gebruik gemaakt van theoretische frequenties of ook wel verwachte frequenties genoemd. De frequenties van je
onderzoek, ook wel geobserveerde of waargenomen frequenties genoemd, worden vergeleken met de verwachte
frequenties volgens de volgende formule.
n 2
( f i−Fi )
Χ =∑2
i=1 Fi
waarbij:
Chi-kwadraat is altijd groter of gelijk aan nul. Ligt Chi-kwadraat dicht bij nul dan kun je verschillen aan het toeval
wijten (de verschillen tussen de waargenomen frequentie en de verwachte frequenties zijn dan klein) en wanneer
Chi-kwadraat groot is dan zul je twijfelen aan je veronderstelling van representativiteit of geen verband (de
verschillen tussen de waargenomen frequentie en de verwachte frequenties zijn dan groot).
Om te beslissen of een Chi-kwadraatwaarde groot of klein is moet je nog iets meer weten over de Chi-
kwadraatverdeling. De grootte van een Chi-kwadraatwaarde is namelijk afhankelijk van hoeveel verschillen je bij
elkaar optelt.
De maatstaf voor het aantal verschillen dat bij elkaar wordt opgeteld wordt aantal vrijheidsgraden (afgekort tot
d.f. van degrees of freedom) genoemd.
Hieronder zie je grafieken van de kansdichtheid van Chi-kwadraatverdelingen bij verschillende vrijheidsgraden.
125
Statistiek met Excel 2016
0,4
kansdichtheid f(x)
df=1
0,3
df=2
df=3
0,2
df=4
df=6
0,1 df=11
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
chi-kwadraat
Figuur 6.1: Chi-kwadraatverdeling bij verschillende vrijheidsgraden
Een chi-kwadraatverdeling is dus slechts afhankelijk van de parameter: het aantal vrijheidsgraden.
Het gemiddelde van een chi-kwadraatverdeling is gelijk aan het aantal vrijheidsgraden (df) en de variantie is gelijk
aan 2 keer het aantal vrijheidsgraden (2*df).
Chi-kwadraatverdelingen zijn rechtsscheef verdeeld, en zeer sterk rechtsscheef verdeeld als het aantal
vrijheidsgraden klein is. Neemt het aantal vrijheidsgraden toe dan begint de chi-kwadraatverdeling steeds meer op
een normale verdeling te lijken. Vergelijk bijvoorbeeld de grafiek van df =1 en df =11 weergegeven in grafiek 6.1.
De chi-kwadraat kun je gebruiken als de onderzoeksvariabelen minstens een nominaal meetniveau hebben. Als
een onderzoeksvariabele kwantitatief is, dan zullen de uitkomsten meestal in klassen zijn ingedeeld (teruggebracht
tot ordinaal meetniveau), wanneer je een chi-kwadraat wilt gebruiken.
Voordat je de Chi-kwadraattoets uit gaat voeren zul je moeten kijken of aan de volgende voorwaarden voldaan is:
1. Alle verwachte frequenties moeten groter zijn dan 1;
2. Hooguit 20% van de verwachte frequenties mag kleiner zijn dan 5.
Bij de chi-kwadraattoets voor representativiteit wordt ervan uitgegaan dat de steekproef representatief is voor de
populatie ten aanzien van een bepaald kenmerk. Dit uitgangspunt wordt ook wel de nulhypothese (H 0) genoemd.
Mocht je een overtuigend bewijs vinden dat deze veronderstelling niet juist dan verwerp je de nulhypothese en
stapt over op de alternatieve hypothese (H 1): de steekproef is niet representatief.
126
6 Chi-kwadraatverdeling (X2)
Uit de NS database van ochtendspitsreizigers blijkt dat 75% van deze populatie man is en 25% vrouw.
Is de steekproef van Fictie2000 representatief voor de variabele ‘Geslacht’?
De verwachte aantallen zijn allemaal groter dan 5 dus kun je de chi-kwadraattoets uitvoeren:
2 ( 223-225 )2 (77-75 )2
X = + = 0,071
225 75
Het aantal vrijheidsgraden bij een representativiteitstoets is gelijk aan het aantal mogelijke uitkomsten op een
variabele – 1. Bij geslacht heb je twee mogelijke uitkomsten (man of vrouw) en is het aantal vrijheidsgraden dus
gelijk aan 1.
Dus de kans dat er 2 of meer minder mannen in je steekproef zitten is door het toeval 21%. Wanneer deze kans
kleiner wordt dan de onbetrouwbaarheid α van de toets dan ga je de nulhypothese verwerpen. Vaak kiest men
α = 5%.
Dus in dit voorbeeld mag je aannemen dat je steekproef representatief is ten aanzien van de variabele ‘Geslacht’.
Dat je steekproef iets afwijkt van de populatie wordt aan het toeval toegeschreven.
Je zou bovenstaande conclusie ook kunnen trekken uit het vergelijken van de berekend X 2 – waarde met de
kritieke grenswaarde voor X2.
Bij een α = 5% en df = 1 hoort een kritieke grenswaarde van 3,84.
Zolang de berekende X2 onder de kritieke grenswaarde blijft is er geen reden om de nulhypothese te verwerpen.
Mocht uit de NS database blijken dat in de ochtenspits de helft man en de andere helft vrouw is dan zou je in je
steekproef 50% van 300 = 150 mannen en 50% van 300 = 150 vrouwen verwachten.
2 ( 223-150 )2 (77-150 )2
X = + = 71,05
150 150
De verschillen tussen de aantallen in je steekproef en de verwachte aantallen op basis van je populatie zijn erg
groot. De berekende X2 - waarde is meer dan de kritieke grenswaarde dus verwerp je de nulhypothese. De
steekproef is niet representatief ten aan zien van de variabele ‘Geslacht’.
De overschrijdingskans is P (X 2 > 71,05 |df = 1) = 0,00. Dit is minder dan de onbetrouwbaarheid van de toets (5%)
dus de nulhypothes verwerpen.
127
Statistiek met Excel 2016
Voor het toetsen van de representativiteit van je steekproef ten aanzien van een bepaald kenmerk kun je in Excel
gebruik maken van het Excelbestand “Chi-kwadraat” (tabblad ‘Representativiteit’). Door de percentages van het
kenmerk van de populatie en de frequenties van de steekproef in te vullen in de gele cellen worden alle
berekeningen voor de Chi-kwadraattoets voor je uitgerekend.
Wanneer je de gegevens met betrekking tot de variabele ‘Geslacht’ invoert in de gele cellen (75% man en 25%
vrouw in de populatie) krijg je het volgende resultaat.
De steekproef is dus representatief ten aanzien van de variabele ‘Geslacht’ wanneer 75% van de populatie “Man”
is en 25% “Vrouw”.
128
6 Chi-kwadraatverdeling (X2)
Het lijkt erop dat er een verband bestaat tussen de variabele ‘Geslacht’ en de variabele ‘Dagblad’. Van de mannen
heeft bijvoorbeeld 20% een abonnement op de “Telegraaf” terwijl dit bij slechts 8% van de vrouwen het geval is.
Bij de chi-kwadraattoets op afhankelijkheid wordt ervan uitgegaan dat er geen verband bestaat tussen de
variabelen. Dit uitgangspunt wordt ook wel de nulhypothese (H 0) genoemd. Mocht je een overtuigend bewijs
vinden dat deze veronderstelling niet juist is dan bestaat er een verband tussen de variabelen. Je verwerpt dan de
nulhypothese en stapt over op de alternatieve hypothese (H 1).
Wanneer er geen verband bestaat tussen deze twee variabelen dan zou je verwachten dat het aantal mannen dat
een abonnement op een bepaald dagblad heeft relatief gelijk zal zijn aan het aantal vrouwen dat een abonnement
op datzelfde dagblad heeft.
Het verwachte aantal mannen dat een abonnement op het Algemeen Dagblad heeft is dan gelijk aan:
25/300 * 223 = 18,6
en het verwachte aantal vrouwen dat een abonnement op het Algemeen Dagblad heeft is gelijk aan:
25/300 * 77 = 6,4
Wanneer je deze verwachtingswaarden voor alle cellen van de tabel uitrekent dan krijg je de volgende tabel.
Geslacht
Dagblad Man Vrouw
Algemeen Dagblad 18,6 6,4
NRC 8,9 3,1
Telegraaf 37,2 12,8
Trouw 14,1 4,9
Volkskrant 44,6 15,4
Anders 39,4 13,6
Geen 60,2 20,8
Figuur 6.6: Tabel van verwachte aantallen abonnementen per geslacht (bij geen verband tussen deze variabelen)
129
Statistiek met Excel 2016
Wanneer de verschillen tussen de waargenomen frequenties (figuur 6.5) en de verwachte frequenties (figuur 6.6)
klein zijn dan zul je de nulhypothese (geen verband) niet verwerpen. Zijn deze verschillen groot dan zul je de
nulhypothese verwerpen en overstappen op het alternatief (wel verband).
De verschillen worden uitgerekend door voor elke cel het gekwadrateerde verschil te nemen tussen de
waargenomen frequentie en de verwachte frequentie en te delen door de verwachte frequenties. Vervolgens
worden deze verschillen allemaal bij elkaar opgeteld. De som van deze gekwadrateerde verschillen wordt chi-
kwadraat genoemd.
Voorbeeld:
Voor de cel Algemeen Dagblad en Man:
(18 – 18,6)2/18,6 = 0,018
Wanneer je deze verschillen voor alle cellen van de tabel uitrekent krijg je de volgende tabel.
Geslacht
Dagblad Man Vrouw
Algemeen Dagblad 0,018 0,053
NRC 0,001 0,002
Telegraaf 1,256 3,639
Trouw 0,249 0,722
Volkskrant 0,474 1,374
Anders 0,146 0,422
Geen 0,024 0,070
Figuur 6.7: Tabel van gekwadrateerde verschillen gedeeld door de verwachte frequenties
Of de uitkomst van de chi-kwadraat als groot of klein gezien moet worden is afhankelijk van het aantal verschillen
dat je bij elkaar opgeteld hebt. Wanneer je vier verschillen bij elkaar opgeteld hebt (bijvoorbeeld bij een 2x2
kruistabel) dan accepteer je een kleinere waarde dan wanneer je 100 verschillen bij elkaar hebt opgeteld
(bijvoorbeeld bij een 10x10 kruistabel).
Wat de maximale chi-kwadraatwaarde mag zijn om de nulhypothese (geen verband) nog net niet te verwerpen is
afhankelijk van het aantal vrijheidsgraden, wat een maatstaf is voor de grootte van een tabel.
Het aantal vrijheidsgraden (df) is gelijk aan (aantal rijen – 1) * (aantal kolommen – 1).
In het voorbeeld van abonnementen per geslacht heb je zeven rijen (de verschillende dagbladen) en twee
kolommen (beide geslachten). Het aantal vrijheidsgraden is dan gelijk aan (7 – 1) * (2 – 1) = 6
Voordat je de Chi-kwadraattoets uit gaat voeren zul je moeten kijken of aan de volgende voorwaarden voldaan is:
1. Alle verwachte frequenties moeten groter zijn dan 1;
2. Hooguit 20% van de verwachte frequenties mag kleiner zijn dan 5.
In figuur 6.5 zie je dat alle verwachte frequenties groter zijn dan 1. In twee van de 14 cellen is de verwachte
frequentie kleiner dan 5. Dit is gelijk aan 14%. Dus zowel aan voorwaarde 1 als aan voorwaarde 2 is voldaan.
De rechteroverschrijdingskans van de chi-kwadraat van 8,452 is gelijk aan 21%. Dit is meer dan de
onbetrouwbaarheid van 5%. Dus is er onvoldoende reden om aan te nemen dat er een verband bestaat tussen de
variabele ‘Geslacht’ en de variabele ‘Dagblad’.
Je zou deze conclusie ook kunnen trekken uit het feit dat de kritieke grenswaarde van de Chi-kwadraat bij zes
vrijheidsgraden en een onbetrouwbaarheid van 5%, gelijk is aan 12,592. Dus wanneer de berekende Chi-kwadraat
boven deze kritieke grenswaarde uit zou komen dan zijn de verschillen tussen de waargenomen en verwachte
frequenties te groot om nog te kunnen zeggen dat er geen verband bestaat.
130
6 Chi-kwadraatverdeling (X2)
Figuur 6.8: Grafiek van de chi-kwadraatverdeling bij 6 vrijheidsgraden met kritieke grenswaarde
De verschillen in percentages van figuur 6.4 zijn dus te klein om te concluderen dat er een verband bestaat tussen
‘Geslacht’ en ‘Dagblad’.
Als tweede voorbeeld wordt gekeken naar de variabelen ‘Geslacht’ en het al of niet lezen van de ‘Metro’.
Figuur 6.9: Tabel van het wel of niet lezen van de ‘Metro’ per geslacht
Wanneer je de verwachtingswaarden voor alle cellen van de tabel uitrekent dan krijg je de volgende tabel.
Geslacht
Metro Man Vrouw
Nee 101,8 35,2
Ja 121,2 41,8
Figuur 6.10: Tabel van verwachte aantallen wel of niet Metrolezers per geslacht (bij geen verband tussen deze variabelen)
Geslacht
Metro Man Vrouw
Nee 0,825 2,388
Ja 0,693 2,007
Figuur 6.11: Tabel van gekwadrateerde verschillen gedeeld door de verwachte frequenties
In figuur 6.10 kun je zien dat aan de twee voorwaarden voor een chi-kwadraattoets wordt voldaan.
131
Statistiek met Excel 2016
Wanneer je de tabellen van figuur 6.9 (werkelijke frequenties) en figuur 6.10 (verwachte frequenties) met elkaar
vergelijkt dan kun je concluderen dat in werkelijkheid relatief meer vrouwen de ‘Metro’ wel eens gelezen hebben
dan de mannen. Je zou dit ook gemakkelijk kunnen vinden door de tabel van 6.9 te veranderen in een procentuele
tabel met een percentage van de kolomtotalen (zie figuur 6.12).
Wanneer er een verband tussen twee categorische variabelen bestaat dan kun je de sterkte van dit verband
uitrekenen met behulp van de samenhangsmaat Cramer’s V.
Cramer’s V wordt uitgerekend door de waarde van de X 2 te delen door de grootte van de steekproef
vermenigvuldigt met het aantal kolommen of het aantal rijen min 1 en vervolgens hier de wortel uit te trekken.
Je neemt het aantal kolommen wanneer dit aantal kleiner is dan het aantal rijen en je neemt het aantal rijen
wanneer dit aantal kleiner is dan het aantal kolommen.
De waarde van Cramer’s V is minimaal 0 0. Er is dan geen samenhang. De waarden van de ene variabele liggen
evenredig verspreid over de waarden van de andere variabele (zie figuur 6.13).
De waarde van Cramer’s V kan maximaal 1 zijn. Je spreekt dan over volledige of perfecte samenhang. Voor elke
waarde van de ene variabele geldt dan dat deze precies overeenkomt met één waarde van de andere variabele (zie
figuur 6.14).
Geslacht Geslacht
Metro Man Vrouw Totaal Metro Man Vrouw Totaal
Nee 30 15 45 Nee 100 0 100
Ja 70 35 105 Ja 0 50 50
Totaal 100 50 150 Totaal 100 50 150
V Samenhang
V=0 geen
0,00 < V < 0,05 verwaarloosbaar
0,05 < V < 0,10 zwak
0,10 < V < 0,15 matig
0,15 < V < 0,25 redelijk sterk
0,25 < V < 0,50 sterk
0,50 < V < 1 zeer sterk
V =1 volkomen
0
Wanneer de twee variabelen een ordinaal meetniveau hebben dan kan Cramer’s V ook negatief zijn bij een negatieve samenhang. Bij een
hogere score van de ene variabele, scoort de andere variabele dan lager.
132
6 Chi-kwadraatverdeling (X2)
Ook voor het berekenen van de overschrijdingskans en de kritieke grenswaarde voor de chi-kwadraat heeft Excel
ingebouwde functies, zodat je geen gebruik hoeft te maken van een tabellenboek.
Voor het berekenen van de verwachte frequenties en voor het berekenen van Cramer’s V kent Excel geen
ingebouwde functies. Deze functies moet je dan via de formules invoeren in Excel. Wanneer je gebruik maakt van
het Excelbestand “Chi-kwadraat” (tabblad ‘Afhankelijkheid’) hoef je alleen de waargenomen frequenties in te
typen en de onbetrouwbaarheid van de toets (α). De verwachte frequenties, aantal vrijheidsgraden, Chi-kwadraat,
overschrijdingskans en Cramer’s V worden dan uitgerekend. Bovendien kun je ook de bijdrage aan de Chi-kwadraat
per cel aflezen. Mocht er dus een verband bestaan dan kun je aan de bijdrage een indicatie krijgen waardoor dit
komt.
Als voorbeeld wordt genomen of er een verband bestaat tussen de variabelen ‘Dagblad’ en ‘Metro’. Wordt de
‘Metro’ door bepaalde dagbladabonnees meer of minder gelezen?
Open hiervoor het bestand “Chi-kwadraat” (tabblad ‘Afhankelijkheid’) en vul de cellen A10:C17 in met de gegevens
van de draaitabel uit bestand “Fictie 2000”. Typ in cel B44 de onbetrouwbaarheid van de toets (α) van 5% in.
Zie onderstaand figuur 6.16.
133
Statistiek met Excel 2016
In cel B48 kun je aflezen dat er een verband bestaat. De Chi-kwadraatwaarde in cel B45 is groter dan de kritieke
(maximale) Chi-kwadraatwaarde in cel B46. De kans dat de verschillen tussen de werkelijke (ingetypte) frequenties
en de berekende verwachte frequenties door het toeval komen is 0% (cel B47) en dit is minder dan de
onbetrouwbaarheid van de toets die je als 5% hebt gekozen (cel B44).
In cel B49 kun je aflezen dat de samenhang tussen de twee variabelen sterk is.
In de cellen P11:Q17 zie je dat de samenhang vooral veroorzaakt wordt door de dagbladabonnees van de
“Telegraaf”, “Volkskrant”, “NRC” en “Algemeen Dagblad” (grote bijdrage aan de chi-kwadraatwaarde).
Door nu de werkelijke en de verwachte frequenties met elkaar te vergelijken zie je waardoor dit verband
veroorzaakt wordt.
Van de Telegraaf- en Algemeen Dagbladabonnees zijn er in werkelijkheid meer mensen die de ‘Metro’ niet gelezen
hebben dan je zou verwachten en van de Volkskrant- en NRC abonnees zijn er in werkelijkheid juist meer mensen
die de ‘Metro’ in werkelijkheid hebben gelezen dan je zou verwachten. Voor de abonnees op de andere dagbladen
zijn de bijdragen aan de Chi-kwadraat klein en zijn dus de verschillen tussen werkelijke en verwachte aantallen ook
klein.
134
6 Chi-kwadraatverdeling (X2)
6.8 Opgaven
Voor alle opgaven moet je gebruik maken van het bestand “Fictie2000”.
1. Onderzoek of de steekproef van 300 ochtendspitsreizigers representatief is ten aanzien van de volgende
kenmerken, uitgaande van een onbetrouwbaarheidsdrempel van 5%. Geef aan welke categorieën over of
ondervertegenwoordigd zijn in de variabele waarvoor de steekproef niet representatief is.
a. Leeftijdsklassen
Van alle ochtendspitsreizigers is de verdeling in leeftijdsklassen als volgt:
Leeftijdsklassen Percentages
10 – 19 10
20 – 29 35
30 – 39 20
40 – 49 20
50 – 59 10
>=60 5
Totaal 100
1. Inkomensklassen
Van alle ochtendspitsreizigers is de verdeling in inkomensklassen als volgt:
c. Reistijden
Van alle ochtendspitsreizigers is de verdeling in reistijden als volgt:
135
Statistiek met Excel 2016
Bepaal voor de variabelen van de volgende opgaven of er een verband bestaat tussen de twee genoemde
variabelen en zo ja geef aan wat het verband is en bepaal de sterkte van de samenhang. Vergeet niet te
controleren of er aan de vereiste voorwaarden voor de chi-kwadraattoets wordt voldaan. Neem als
onbetrouwbaarheid (α) 5%.
2. ‘Spits’ en ‘Geslacht’.
3. ‘Spits’ en ‘Dagblad’.
4. ‘Spits’ en ‘Opgezegd’.
7. ‘Mening Metro’ en ‘Geslacht’ alleen voor de mensen die de ‘Metro’ ook gelezen hebben.
8. ‘Mening Spits’ en ‘Geslacht’ alleen voor de mensen die de ‘Spits’ ook gelezen hebben.
9. ‘Reisdagen’ en ‘Metro’.
11. ‘Metro’ en ‘Reistijd categorieën ( 0 – 19, 20 – 39, 40 – 59, 60 – 79, 80 – 99, 100 en meer)’.
136
7 Enkelvoudige lineaire regressie- en correlatieanalyse
7.1 Inleiding
Bij regressie-analyse gaat het om het ontwikkelen van modellen, die de samenhang tussen een te verklaren
variabele en één of meerdere verklarende variabelen beschrijven, met als doel een voorspelling te kunnen geven
voor een te verklaren variabele met behulp van de verklarende variabele(n).
Een te verklaren variabele in een regressiemodel wordt ook wel de afhankelijke variabele genoemd en de
verklarende variabele(n) de onafhankelijke variabele(n).
Zo zal de ‘Prijs’ die adverteerders voor een advertentie in de “Spits” willen betalen afhangen van de ‘Oplage’ van
de “Spits”. De ‘Prijs’ is dan de afhankelijke (te verklaren) variabele en de ‘Oplage’ de onafhankelijke (verklarende)
variabele.
In de praktijk zal de te verklaren variabele vaak van meer dan één verklarende variabele afhangen. Wordt meer
dan één verklarende variabele in het onderzoek betrokken, dan is er sprake van meervoudige regressie-analyse.
Als het onderzoek zich beperkt tot één verklarende variabele dan is er sprake van enkelvoudige regressie-analyse.
Er wordt dan uitgegaan van de ceteris paribus voorwaarde, wat wil zeggen dat alle overige verklarende variabelen,
die niet in het onderzoek worden opgenomen, constant verondersteld worden.
Bij correlatie-analyse gaat het om de sterkte van het verband tussen twee variabelen te onderzoeken.
Zowel bij correlatie- als bij regressie-analyse moeten de variabelen kwantitatief zijn. Wanneer één of meerdere
variabelen kwalitatief zijn, dan zal een andere statistische techniek gebruikt moeten worden bij het onderzoek
naar samenhang tussen de variabelen.
7.2 Regressiemodellen
In hoofdstuk 3.3.5 wordt het verband tussen de variabele ‘Leeftijd’ en de variabele ‘Inkomen’ weergegeven in een
spreidingsdiagram. Het ‘Inkomen’ is afhankelijk van de ‘Leeftijd’, dus wordt de variabele ‘Inkomen’ op de verticale
(Y) as weergegeven en de variabele ‘Leeftijd’ op de horizontale (X) as.
De samenhang tussen variabelen kan met eenvoudige tot zeer complexe wiskundige functies beschreven worden.
De meest eenvoudige vorm is een rechte lijn.
De wiskundige functie van een rechte lijn is:
y=a*x+b
waarbij:
In grafiek 7.1 blijkt dat de lineaire regressielijn tussen de variabelen ‘Leeftijd’ en ‘Inkomen’ als volgt kan worden
weergegeven:
y = 0,4935 x – 2,2733
Wanneer iemand één jaar ouder is zal het inkomen 0,4935 * €100 = € 49,35 hoger zijn.
137
Statistiek met Excel 2016
30
Inkomen (* € 100)
25
20
15
10
0
0 10 20 30 40 50 60 70
Leeftijd
Fi
guur 7.1: Spreidingsdiagram van leeftijd en inkomen
Of je voor je model een lineaire functie moet gebruiken of een meer complexere wiskundige functie is afhankelijk
van de verdeling van de (x,y)-waarden in je spreidingsdiagram. Voorbeelden van verschillende vormen van
regressie (verbanden) tussen x en y kun je in de volgende grafieken zien.
Bij grafiek A nemen de waarden van y ongeveer lineair evenredig toe met de toenames van de waarden van x. Een
voorbeeld hiervan kun je in grafiek 7.1 zien waarbij de samenhang tussen ‘Leeftijd’ en ‘Inkomen’ is weergegeven.
Bij grafiek B nemen de waarden van y ongeveer lineair evenredig af met de toenames van de waarden van x. Een
dalende regressielijn houdt in dat het verband negatief is. Een voorbeeld van een negatief lineair verband is
bijvoorbeeld de samenhang tussen de ‘Prijs van een product’ en de ‘Verkopen van dat product’.
Bij grafiek C is er geen verband. Hoge en lage y-waarden kom je bij alle x-waarden tegen.
Bij grafiek D nemen de waarden van y toe, wanneer de x-waarden groter worden. In het begin zijn deze toenames
meer dan evenredig, aan het eind minder dan evenredig. Een voorbeeld van een positief kromlijnig verband is
‘Bestedingen aan reclame voor een product’ en de ‘Verkopen van dat product’. In het begin zullen de verkopen
behoorlijk toenemen tot een moment dat je met de reclame je volledige doelgroep hebt bereikt, waarbij de
verkopen nagenoeg constant blijven.
Bij grafiek E nemen de waarden van y af, wanneer de x-waarden groter worden. In het begin zijn deze afnames
meer dan evenredig en aan het eind minder dan evenredig. Als voorbeeld kun je denken aan het verband tussen
de variabelen ‘Afschrijvingen’ en ‘Jaren’. De waardevermindering van auto’s is in de eerste jaren aanzienlijk meer,
dan later.
Bij grafiek F nemen de waarden van y eerst af, wanneer de x-waarden groter worden. Vervolgens nemen de y
waarden toe, bij toename van de waarden van x. Hierbij kun je denken aan het verband tussen de variabelen ‘Tijd’
en het ‘Aantal fouten dat iemand maakt bij een bepaald werk’. Door oefenen zul je snel minder fouten gaan
maken, maar als je een bepaalde taak lang uitoefent zal het aantal fouten weer gaan toenemen, door
vermoeidheid of door de saaiheid die dan optreedt.
138
7 Enkelvoudige lineaire regressie- en correlatieanalyse
X X
X
Grafiek E: Negatief kromlijnig verband Grafiek F: U-vormig verband
Y Y
X X
139
Statistiek met Excel 2016
Wanneer je naar grafiek 7.1 of naar grafiek A kijkt, dan blijken niet alle punten op één rechte lijn te liggen. Toch
kun je een rechte lijn zo tekenen, dat de meeste punten vrij dicht in de buurt van deze lijn liggen. De lijn die het
verband tussen x en y het beste weergeeft heet de regressielijn.
De regressielijn wordt bepaald met de kleinste kwadratenmethode. Volgens deze methode is de regressielijn, die
lijn, waarbij de som van de kwadraten van de verticale afstanden van de punten uit het spreidingsdiagram tot die
lijn minimaal is. Net zoals bij de variantie wordt er gekeken naar de gekwadrateerde afstanden, omdat er zowel
punten boven als onder de lijn liggen.
De verticale afstand van een punt uit het spreidingsdiagram tot de regressielijn heet een residu. Deze residuen
worden dus gekwadrateerd en opgeteld. De regressielijn is dus die lijn, waarvoor de residuele kwadraatsom
minimaal is.
Grafiek 7.2: Spreidingsdiagram met regressielijn
y = ax + b
Y
y5
r5
y2
r4
r2 y4
r3
y3
r1
y1
X
Figuur 7.2: Spreidingsdiagram met regressielijn
In hoeverre een regressielijn een goede beschrijving weergeeft van het verband tussen x en y en vervolgens een
goede voorspelling geeft van de waarde van y bij een gegeven x-waarde is afhankelijk van hoever de punten van de
regressielijn afliggen en hoeveel punten in de regressie-analyse zijn meegenomen.
Een lineair model is geschikt, wanneer de waargenomen punten, niet te ver van de lineaire regressielijn afliggen.
Daarvoor moet je een maat gebruiken die geschikt is om de afstand van de verschillende punten tot de
regressielijn te meten.
Deze maat heet de determinatiecoëfficiënt (r 2) en is gelijk aan de verklaarde variantie gedeeld door de totale
variantie.
Bij de totale variantie wordt gekeken naar de som van de gekwadrateerde afstanden tussen de waargenomen y-
140
7 Enkelvoudige lineaire regressie- en correlatieanalyse
Y y^
yi
Onverklaarde variantie
Totale variantie
Verklaarde variantie
y-
xi X
Figuur 7.3: Maten van variantie bij regressie
7.4 Lineaire regressie met Excel
Met Excel kun je op verschillende manieren 0 de vergelijking van de lineaire regressielijn bepalen. De methode die
hier besproken wordt is met behulp van grafieken.
Enkelvoudige lineaire regressieanalyse is een techniek om het lineaire (rechtlijnige) verband tussen twee
kwantitatieve variabelen te bepalen met als doel het voorspellen van de grootte van een afhankelijke variabele (y)
door middel van de grootte van een andere onafhankelijke variabele (x).
Dit lineaire verband kan dan beschreven worden met de functie:
y = ax + b
Als voorbeeld dienen de variabelen ‘Leeftijd’ en ‘Inkomen’ uit het bestand “Fictie2000”. Je zou kunnen verwachten
dat men een hoger inkomen geniet naarmate men ouder is. De onafhankelijke variabele (x) is dan de ‘Leeftijd’ en
de afhankelijke variabele (y) het ‘Inkomen’.
Werkwijze:
1. Open het bestand “Fictie2000”.
2. Open een nieuw werkblad. Klik op het tabblad Invoegen en klik vervolgens in de groep van Grafieken op
Spreidingsdiagrammen en selecteer het eerste spreidingsdiagram. Omdat je nog geen gegevens geselecteerd
hebt krijg je een lege grafiek.
0
Je kunt gebruik maken van Functies, Grafieken of Gegevensanalyse. De snelste methode die ook een goed beeld weergeeft is die met behulp
van Grafieken.
141
Statistiek met Excel 2016
Figuur 7.5: Openen van het dialoogvenster om gegevens te selecteren voor de grafiek
142
7 Enkelvoudige lineaire regressie- en correlatieanalyse
Figuur 7.6: Openen van het dialoogvenster om gegevens toe te voegen aan de grafiek
5. Bepaal welke van de twee variabelen de onafhankelijke variabele is (‘Leeftijd’) en vul deze gegevens (door te
selecteren van het tabblad Data) in bij Reeks X-waarden. De afhankelijke gegevens (‘Inkomen’) vul je
vervolgens in bij Reeks Y-waarden.
Figuur 7.7: Reeks bewerken door de X- en Y-waarden te selecteren voor het spreidingsdiagram
143
Statistiek met Excel 2016
Om de regressielijn te krijgen moet je in het lint op het tabblad van Ontwerpen (Hulpmiddelen voor grafieken)
klikken en vervolgens op Grafiekonderdeel toevoegen in de groep van Grafiekindelingen. Klik hierna op Trendlijn
uit het afrolmenu en daarna op Lineair.
Je kunt dit ook krijgen door met de rechtermuisknop te klikken op één van de punten weergegeven in de grafiek
en vervolgens op Trendlijn toevoegen.
Kies bij Meer opties voor trendlijnen … de radioknop voor Lineair, vink Vergelijking in grafiek weergeven en R-
kwadraat in grafiek weergeven aan en klik Sluiten.
144
7 Enkelvoudige lineaire regressie- en correlatieanalyse
R2 is de determinatiecoëfficiënt0. Dit is een maat voor de fractie van de variantie van het ‘Inkomen’ dat van de
‘Leeftijd’ afhankelijk is. Oftewel een verandering in het inkomen kan voor 66,35% verklaard worden door de
verandering in de leeftijden. 33,65% van de verandering in het inkomen hangt dan af van andere factoren die hier
niet onderzocht zijn, bijvoorbeeld opleiding, branche waarin men werkzaam is, enz.
0
De determinatiecoëfficiënt kun je ook met de statistische functie R.KWADRAAT(y-bekend;x-bekend) laten berekenen.
145
Statistiek met Excel 2016
7.5 Correlatie-analyse
De sterkte van het verband tussen twee variabelen in een populatie wordt over het algemeen gemeten met de
correlatiecoëfficiënt r. De betekenis van r kun je in onderstaande tabel aflezen:
Een positieve correlatie houdt in dat een stijging van de onafhankelijke (verklarende) variabele een stijging van de
afhankelijke (de te verklaren) variabele tot gevolg heeft. Een negatieve correlatie dat een stijging van de
onafhankelijke variabele een daling van de afhankelijke variabele tot gevolg heeft. Dit komt overeen met een
positieve, respektievelijk negatieve richtingscoëfficiënt van de regressielijn. Bij volkomen correlatie liggen alle
punten van het spreidingsdiagram op de regressielijn.
De sterkte van de correlatie wordt natuurlijk ook bepaald door de betrouwbaarheid van r, oftewel door het aantal
punten van het spreidingsdiagram.
Wanneer je in het spreidingsdiagram de determinatiecoëfficiënt hebt laten weergeven dan kun je de correlatie
snel uitrekenen door de wortel te nemen uit deze coëfficiënt. De wortelfunctie in Excel geeft altijd alleen de
positieve waarde aan. Of je nu dit positieve getal moet hebben of juist het negatieve getal is afhankelijk van de
richting van de regressielijn. Heb je te maken met een stijgende lijn (regressiecoëfficiënt is dan positief), dan moet
je de positieve wortel hebben en wanneer je te maken hebt met een dalende lijn (regressiecoëfficiënt is dan
negatief) dan moet je de negatieve uitkomst van de wortel nemen.
De correlatiecoëfficiënt (r) kun je ook in Excel met de statistische functie CORRELATIE(matrix1;matrix2) laten
berekenen. Wanneer je deze functie gebruikt dan wordt direct aangegeven of het verband (correlatie) positief of
negatief is.
146
7 Enkelvoudige lineaire regressie- en correlatieanalyse
In tegenstelling tot de lineaire regressieanalyse maakt het voor het berekenen van de correlatiecoëfficiënt niet uit
wat je als onafhankelijke- en wat als afhankelijke variabele kiest.
Voor het berekenen van de correlatiecoëfficiënt in het voorbeeld van de leeftijden en de inkomens, kun je voor
matrix1 Data!C2:C301 en voor matrix2 Data1!F2:F301 kiezen.
Figuur 7.13: Ingevuld dialoogvenster voor het berekenen van de correlatie tussen ‘Leeftijd’ en ‘Inkomen’
Dit levert dan een r-waarde van 0,8145 (sterke positieve correlatie) op. Het verwisselen van de twee matrices
heeft geen invloed op de waarde van r.
Wanneer je enkelvoudige lineaire regressieanalyse uitvoert met behulp van een spreidingsdiagram wordt de
correlatiecoëfficiënt niet weergegeven, maar kun je deze berekenen door de wortel uit de determinatiecoëfficiënt
te trekken.
Ook bij tijdreeksanalyse (zie ook hoofdstuk 8) wordt vaak lineaire regressie toegepast, waarbij de tijd (bijvoorbeeld
het jaar) als onafhankelijke variabele wordt beschouwd.
Neem als voorbeeld de gegevens van tabel 3.5 Percentage dagbladabonnementen van de 18 tot 25 jarigen over de
periode 1997 – 2008. De Nederlandse Dagbladen verwachten een lineair verband tussen de jaren (onafhankelijke
variabele) en de behaalde omzet (afhankelijke variabele).
Om dit lineaire verband te vinden zou je bijvoorbeeld gebruik kunnen maken van het maken van een
spreidingsdiagram.
Werkwijze:
1. Open het bestand “Dagbladabonnement.xlsx.” en open in dit bestand een nieuw werkblad om een
spreidingsdiagram in te voegen.
2. Selecteer de gegevens waarbij je de cellen B1:M1 als X-waarden kiest (tijd is altijd de onafhankelijke variabele)
en de cellen B2:M2 als Y-waarden.
3. Voeg titels toe en schakel legenda weergeven uit.
4. Klik op het tabblad Indeling en vervolgens op Trendlijn in de groep van Analyse. Voeg de lineaire trendlijn toe
en de vink de opties van Vergelijking in grafiek weergeven en R-kwadraat in grafiek weergeven aan.
De grafiek ziet er dan als volgt uit.
147
Statistiek met Excel 2016
Figuur 7.14: Spreidingsdiagram van dagbladabonnementen van 18 tot 25 jaar over de periode 1997 – 2008
Met behulp van de statistische functie TREND(y-bekend;x-bekend;x-nieuw;const) kun je in één keer voorspellingen
doen voor de komende jaren op basis van de (lineaire) regressielijn.
Wanneer je bijvoorbeeld voor het percentage dagbladabonnementen van de groep 18 tot 25 een voorspelling wilt
doen voor de jaren 2009 tot en met 2011 voer dan eerst in de cellen N1:P1 de desbetreffende jaren in (dus in N1:
2009, in O1: 2010 en in P1: 2011). Selecteer nu de cellen waarin je de voorspelde percentages voor deze jaren wilt
hebben. Dus selecteer bijvoorbeeld de cellen N2:P2.
Klik op het tabblad van Formules en vervolgens op Functie invoegen in de groep van Functiebibliotheek. Klik op
Statistisch en vervolgens op TREND.
Vul nu bij Y-bekend B2:M2, bij X-bekend B1:M1 en bij X-nieuw N1:P1 in. Bij Const kun je niks invullen of WAAR. Zie
het volgende scherm.
148
7 Enkelvoudige lineaire regressie- en correlatieanalyse
Klik niet op OK maar gelijktijdig op de Ctrl- de Shift- en de Entertoets. Je krijgt dan het volgende resultaat.
149
Statistiek met Excel 2016
Bij alle beschreven verbanden in dit hoofdstuk ben je uitgegaan van een rechtlijnig (lineair) verband tussen twee
variabelen. Vaak heb je te maken met een niet lineair verband. Denk bijvoorbeeld aan de grafiek van de
productlevenscyclus (introductie, groei, rijpheid, verzadiging, neergang), waarbij de omzet afhankelijk is van de
tijd. Deze grafiek is zeker niet rechtlijnig, maar vertoont duidelijk een polynomisch karakter.
Met behulp van Excel is het vrij eenvoudig om, gebruik makend van het spreidingsdiagram, andere niet lineaire
regressiemodellen (polynomen, exponentieel, logaritmisch, machten) te vinden.
Bij het opmaken van de trendlijn moet je dan voor een ander Type kiezen.
Figuur 7.18: Ingevuld dialoogvenster voor het toevoegen van een polynomische trendlijn
Als voorbeeld zie je hieronder een polynomisch verband tussen de variabele ‘Leeftijd’ en ‘Inkomen’ van de
gegevens uit het bestand “Fictie2000”.
150
7 Enkelvoudige lineaire regressie- en correlatieanalyse
Bron: Fictie2000
Wanneer je de determinatiecoëfficiënt bij dit polynomische model vergelijkt met die van het lineaire model, kom je
tot de conclusie dat dit polynomische model een betere beschrijving geeft van het verband tussen de variabelen
‘Leeftijd’ en ‘Inkomen’.
7.9 Voorspellingen
1. Of je een voorspelling doet van een waarde die in het bereik van x-waarden ligt, dus tussen de laagste en
hoogste waarneming van x (interpoleren), of dat deze waarde buiten het bereik ligt (extrapoleren).
Interpoleren kan een goede voorspelling opleveren, extrapoleren, zeker als de waarde ver buiten het bereik
ligt, over het algemeen niet. Dus een inkomen voorspellen van een treinreiziger in de ochtendspits met een
leeftijd van 45 jaar (interpoleren) op basis van de regressielijn is betrouwbaarder dan het inkomen voorspellen
van een treinreiziger in de ochtendspits met een leeftijd van 70 jaar (extrapoleren).
2. De determinatiecoëffiënt (r2). Hoe dichter deze bij 1 ligt des te juister is de voorspelling.
3. Het aantal punten in het spreidingsdiagram. In het voorbeeld is de regressielijn gebaseerd op 300
waarnemingen (punten). Wanneer je bijvoorbeeld de regressielijn zou laten bepalen op basis van de eerste 10
respondenten (punten) dan krijg je wel een hogere determinatiecoëfficiënt, maar wordt het 95%
betrouwbaarheidsinterval voor het snijpunt met de y-as en de richtingscoëfficiënt beduidend groter.
151
Statistiek met Excel 2016
7.10 Opgaven
1. Men wil een eventueel verband tussen de variabele ‘Inkomen’ en de variabele ‘Reistijd’ onderzoeken met
behulp van de gegevens van het bestand “Fictie2000”. De verwachting is namelijk dat mensen die meer
verdienen bereid zijn verder voor dit werk te reizen.
a. Onderzoek de correlatie tussen ‘Inkomen’ en ‘Reistijd’.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Inkomen’
en de (afhankelijke) variabele ‘Reistijd’.
c. Welke reistijd zou je op basis van de lineaire regressielijn verwachten voor iemand met een inkomen van
20 (* € 100)?
d. Wat vind je van de betrouwbaarheid van de voorspelling gedaan in onderdeel c?
2. Men wil een eventueel verband tussen de variabele ‘Reistijd’ en de variabele ‘Aantal reisdagen’ onderzoeken
met behulp van de gegevens van het bestand ”Fictie2000”. De verwachting is dat mensen die een langere
reistijd hebben op minder dagen reizen.
a. Onderzoek de correlatie tussen ‘Reistijd’ en ‘Aantal reisdagen’.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Reistijd’ en
de (afhankelijke) variabele ‘Aantal reisdagen’.
d. Voorspel het aantal reisdagen bij een reistijd van 100 minuten.
e. Wat kun je zeggen over de betrouwbaarheid van de voorspelling?
3. Men wil een eventueel verband tussen de variabele ‘Leeftijd’ en de variabele ‘Inkomen’ onderzoeken van
vrouwelijke reizigers met behulp van de gegevens van het bestand “Fictie2000”.
a. Onderzoek de correlatie tussen ‘Leeftijd’ en ‘Inkomen’ van de vrouwelijke respondenten.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de (onafhankelijke) variabele ‘Leeftijd’ en
de (afhankelijke) variabele ‘Inkomen’ van de vrouwelijke respondenten.
c. Welk inkomen zou je verwachten op basis van de lineaire regressielijn voor een vrouwelijke reiziger in de
ochtendspits die 40 jaar oud is?
d. Wanneer je de antwoorden van a. en b. vergelijkt met de correlatie en lineaire regressielijn met
betrekking tot alle respondenten wat valt je dan op?
4. Men wil een eventueel verband bij de categorie van 25 tot 35 jaar tussen de variabele ‘Percentage
dagbladabonnementen’ en de variabele ‘Jaren’ onderzoeken met behulp van de gegevens over de jaren 1997
tot en met 2008 van het bestand “Dagbladabonnementen.xlsx”. De verwachting is dat door de tijd heen het
percentage dagbladabonnementen afneemt.
a. Bepaal de correlatie tussen ‘Jaren’ en ‘Percentage dagbladabonnementen’ voor de categorie 25 tot 35
jaar.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de variabele ‘Jaren’ en de variabele
‘Percentage dagbladabonnementen’ voor de categorie 25 tot 35 jaar.
c. Geef een voorspelling voor het jaar 2015 van het percentage dagbladabonnementen voor de categorie 25
tot 35 jaar.
d. Welke opmerkingen kun je maken met betrekking tot de voorspelling?
5. Men wil een eventueel verband bij de categorie van 75 jaar en ouder tussen de variabele ‘Percentage
dagbladabonnementen’ en de variabele ‘Jaren’ onderzoeken met behulp van de gegevens over de jaren 1997
tot en met 2008 van het bestand “Dagbladabonnementen.xlsx”. De verwachting is dat door de tijd heen het
percentage dagbladabonnementen afneemt.
a. Bepaal de correlatie tussen ‘Jaren’ en ‘Percentage dagbladabonnementen’ voor de categorie 75 jaar en
ouder.
b. Bepaal de lineaire regressielijn die het verband beschrijft tussen de variabele ‘Jaren’ en de variabele
‘Percentage dagbladabonnementen’ voor de categorie 75 jaar en ouder.
c. Geef een voorspelling voor de periode 2009 – 2011 van het percentage dagbladabonnementen voor de
categorie 75 jaar en ouder.
d. Welke opmerkingen kun je maken met betrekking tot de voorspelling?
152
8 Tijdreeksanalyse
153
Statistiek met Excel 2013
8 Tijdreeksanalyse
8.1 Inleiding
In hoofdstuk 7 heb je de samenhang tussen twee kwantitatieve variabelen onderzocht. In dit hoofdstuk beschouw
je daarvan een speciaal geval, waarbij de onafhankelijke variabele steeds de ‘Tijd’ is.
Het doel van tijdreeksanalyse is het voorspellen van de waarde die een variabele op een bepaald moment in de
toekomst zal aannemen. Dit doel kan bereikt worden door het gedrag van de variabele in het verleden te
bestuderen. Via een analyse kun je proberen de grootte van de factoren, die het verloop van de variabele bepalen,
vast te stellen. Deze factoren zijn: de trend, de conjunctuurinvloed, het seizoenpatroon, de toevallige afwijking en
de trendbreuk. Met behulp van deze factoren probeer je een wiskundig model te ontwikkelen, dat het mogelijk
maakt om een voorspelling te kunnen doen voor de onderzochte variabele.
Eerst komen de verschillende tijdreekscomponenten aan de orde, waarna de verschillende methoden om de trend
te bepalen behandeld worden, vervolgens het seizoenpatroon om te eindigen met toevallige afwijkingen.
trend
trendbreuk
trend
Tijd
Figuur 8.1: Componenten van een tijdreeks
8.2.1 Trend
De trend in een tijdreeks is de gemiddelde ontwikkeling van een variabele op lange termijn. In het dagelijks leven
zegt men wel: “Het aantal treinen dat op tijd rijdt vertoont een dalende trend”. Of: “Het aantal reizigers dat de
154
8 Tijdreeksanalyse
N.S. dagelijks vervoert vertoont een stijgende trend”. Dit laatste wil niet zeggen dat het aantal reizigers elke dag
meer is dan de dag ervoor, maar wel: “Ondanks de schommelingen stijgt het aantal door de N.S. vervoerde
reizigers op de lange termijn. Bij tijdreeksen speelt meestal niet alleen de trend een rol in de hoogte van de cijfers.
Zou dit wel het geval zijn, dan zou je bij het ontwikkelen van een wiskundig model om voorspellingen te doen,
kunnen volstaan met de technieken uit de regressieanalyse genoemd in hoofdstuk 6.
8.2.2 Conjunctuurinvloed
Veel economische verschijnselen worden in bepaalde mate beïnvloed door de conjunctuurbeweging, zoals het
nationale inkomen, de werkgelegenheid, de besparingen en investeringen, de import en de export.
In de algemene economie wordt onderscheid gemaakt tussen drie cyclische invloeden:
Kitchingolf met een tijdsduur van ongeveer 4 jaar;
Juglargolf met een tijdsduur van ongeveer 9 jaar;
Kondratieffgolf met een tijdsduur van ongeveer 50 jaar.
De tijdsduur van een conjunctuurcyclus is lastig te bepalen en loopt afhankelijk van de variabele nogal uiteen. De
invloed van de verschillende conjunctuurgolven is in Nederland nogal beperkt. Zo komt op de gemiddelde
economische groei van 2,5% in Nederland ten gevolge van de Kitchingolf nog maximaal plus of min 2,5% erbij. Ten
slotte heb je vaak slechts de beschikking over cijfermateriaal dat minder dan één cycluslengte beslaat. Dit maakt
het schatten van de grootte van de cyclische component haast onmogelijk. Het opnemen van de conjunctuurcyclus
in een wiskundig tijdreeksmodel wordt daarom in dit hoofdstuk om bovengenoemde redenen achterwege gelaten.
De berekening van de cyclische component loopt analoog aan die van de seizoensinvloed.
8.2.3 Seizoensinvloed
Als je naar het aantal door de N.S. vervoerde reizigers kijkt, zul je merken dat tussen 7 uur en 9 uur ’s ochtends het
aantal reizigers behoorlijk wat meer is dan tussen 12 uur en 2 uur ’s middags. Er is een patroon per dag en er
wordt dan ook wel gesproken over een dagcyclus.
Vergelijk je het aantal vervoerde reizigers op verschillende dagen, dan zul je merken dat dit aantal door de week
aanmerkelijk meer is dan in het weekend. Behalve over een dagcyclus zou je dus ook over een weekcyclus kunnen
spreken.
Op eenzelfde manier zou je kunnen kijken naar het aantal vervoerde reizigers per maand (maandcyclus) of per jaar
(jaarcyclus).
Elke regelmatige beweging met vaste tijdlengte (ook wel cycluslengte genoemd), heet een seizoenbeweging.
Het seizoenpatroon bestaat uit een totaal van gemiddelde schommelingen rond de trend. De schommelingen die
door het seizoen veroorzaakt worden zijn op overeenkomstige tijdstippen waargenomen (tijdstippen die één of
meer cycluslengten verschillen) en daarna gemiddeld.
De belangrijkste seizoenbeweging in de economie is die met een cycluslengte van één jaar.
Zo vervoert de N.S. in de winter aanmerkelijk meer reizigers (boven de trend of het gemiddelde) dan in de zomer
(onder de trend of het gemiddelde).
Het tijdreekscijfer zal meestal niet gelijk zijn aan het trendcijfer waarin de seizoenbeweging verwerkt is. De
afwijking tussen deze twee getallen, die meestal klein is ten opzichte van het trendcijfer en het getal dat het
seizoenpatroon weergeeft, wordt toevallige afwijking genoemd.
De grootte van deze toevallige afwijking wordt veroorzaakt door het toeval.
Zo zou het wel eens kunnen voorkomen dat het aantal vervoerde reizigers door de N.S. op een maandag iets hoger
of iets lager is dan je zou verwachten op basis van de trend (het gemiddelde) en het wekelijks patroon op de
maandag (seizoenpatroon).
155
Statistiek met Excel 2013
8.2.5 Trendbreuk
Een trendbreuk is een éénmalige onregelmatigheid waardoor de hoogte van de trend of de richting van de trend
drastisch en blijvend verandert. Een blijvende drastische verhoging van de trend in het aantal vervoerde reizigers
door de N.S. is bijvoorbeeld de invoering van de Openbaar Vervoerskaart voor studenten geweest.
Zo is in de Verenigde Staten het aantal vliegtuigreizigers drastisch gedaald naar de aanslagen op het World Trade
Centre in september 2001. Ook de beursindices lieten bij de kredietcrisis een drastische daling zien.
Omdat een trendbreuk zelden voorkomt en meestal niet te voorspellen is, zal deze tijdreekscomponent bij het
ontwikkelen van tijdreeksmodellen achterwege blijven.
Soms treedt er een trendonderbreking op. Er is sprake van een trendonderbreking als er van één of meerdere
perioden gegevens ontbreken. Na de cijferloze periode beweegt de trend zich in dezelfde richting en op ongeveer
hetzelfde niveau als voor de onderbreking, dit in tegenstelling tot de situatie na een trendbreuk.
Zo zal bijvoorbeeld na een staking door het N.S. personeel (trendonderbreking) het aantal vervoerde reizigers
ongeveer weer evenveel zijn als ervoor.
In dit hoofdstuk wordt het lineaire model besproken (zie ook hoofdstuk 7 lineaire regressieanalyse).
Bij het lineaire model is de trend een rechte lijn: y = ax + b waarbij y de variabele is die bestudeerd wordt en x de
verschillende jaren (of kwartalen). A is de richtingscoëfficiënt van de lijn en b het snijpunt met de y-as.
Voorbeeld
In tabel 8.1 kun je de verschillende omzetbedragen per kwartaal aflezen van een ijszaak op een station.
Van deze gegevens wil men de trend bepalen door de seizoensinvloeden uit te schakelen.
156
8 Tijdreeksanalyse
Werkwijze:
1. Open een nieuw excelbestand en typ in cel A1 ‘Kwartaal’ en vervolgens in de cellen A2:A21 de verschillende
kwartalen 1, 2, 3, 4, 5, enz. Typ in cel B1 ‘Omzet’ en vervolgens in de cellen B2:B21 de verschillende
omzetbedragen. Open in dit bestand een nieuw werkblad om een spreidingsdiagram in te voegen.
2. Selecteer de gegevens waarbij je de cellen A2:A21 als X-waarden kiest (tijd is altijd de onafhankelijke
variabele) en de cellen B2:B21 als Y-waarden.
3. Voeg titels toe en schakel legenda weergeven uit.
4. Klik op het tabblad Indeling en vervolgens op Trendlijn in de groep van Analyse. Voeg de lineaire trendlijn toe
en de vink de opties van Vergelijking in grafiek weergeven en R-kwadraat in grafiek weergeven aan.
y = 3,282x + 215,29
400
1.000)
R² = 0,027
300
Omzet (*
200
100
0
0 5 10 15 20 25
Kwartaal
Door de seizoenschommelingen is de determinatiecoëfficiënt erg klein. In het eerste, derde en vierde kwartaal
wijken de omzetbedragen behoorlijk af van de trend (gemiddelde).
Om de cyclische component (seizoenpatroon of conjunctuur) uit te schakelen wordt een gemiddelde berekend
over de lengte van de cyclus.
Wanneer je de beschikking hebt over trimestergegevens en je wilt de trimesterinvloed uitschakelen dan bereken je
het gemiddelde over de drie trimesters. Bij kwartaalgegevens bereken je het gemiddelde over de vier kwartalen.
Wil je de conjunctuur uitschakelen, dan moet je eerst inzicht hebben in de lengte van de conjunctuurgolven
(Kondratieffcyclus 50 jaar, Juglarcyclus 7 jaar, Kitchencyclus 4 jaar). De gemiddelden moet je dan berekenen
over 50 respektievelijk 7 en 4 jaar.
Afhankelijk van het feit of het aantal perioden in een cycluslengte oneven of even is zijn er twee methoden om de
trend met behulp van het voortschrijdende gemiddelde te berekenen.
Er wordt begonnen met de eenvoudigste: Oneven aantal perioden
157
Statistiek met Excel 2013
Voorbeeld
In tabel 8.2 kun je de verschillende aantallen klanten per trimester (periode van vier maanden) aflezen van een
winkel op een station.
Van deze gegevens wil men de trend bepalen via het voortschrijdende gemiddelde.
Tabel 8.2: Aantal klanten per trimester van een winkel op een station
Het voortschrijdend gemiddelde voor het tweede trimester van 2009 wordt berekend door het aantal klanten van
de drie trimesters van 2009 bij elkaar op te tellen en te delen door drie.
(40.250 + 36.245 + 38.672) / 3 = 38.389
Voor het derde trimester van 2009 begin je met het tweede trimester van 2009 tot en met het eerste trimester
van 2010. (36.245 + 38.672 + 48.300) / 3 = 41.072
Dus om het voortschrijden gemiddelde voor een trimester uit te rekenen neem je de som van het trimester ervoor,
van het trimester zelf en het trimester erna en deel je vervolgens door drie.
Neem het bedrijf uit tabel 8.1, maar nu wil je de trend voor de omzetten bepalen door de seizoensinvloeden (de
verschillende kwartalen) uit te schakelen.
Om een gemiddelde over een even aantal perioden te berekenen (hier 4 kwartalen) heb je een probleem, omdat
bij een even aantal geen van de getallen in het midden ligt, maar precies tussen twee getallen invalt. Je kunt dit
probleem als volgt oplossen:
II 237
236,25
III 425 236,125
236,00
IV 165
2010 I 117
158
8 Tijdreeksanalyse
Het gemiddelde van de eerste vier kwartalen van 2009 (236,25) valt tussen het tweede en derde kwartaal van
2009 in. Het gemiddelde van het tweede kwartaal van 2009 tot en met het eerste kwartaal van 2010 (236,00) valt
tussen het derde en vierde kwartaal van 2009 in. Wanneer je deze twee getallen middelt (236,125) valt dit
gemiddelde precies achter het derde kwartaal van 2009.
In alle voorgaande voorbeelden waarbij de trend berekend werd heb je kunnen concluderen dat de trend niet
direct gebruikt kan worden om voorspellingen te doen. In al die voorbeelden is er duidelijk sprake van
seizoenpatronen of cyclusbewegingen waarmee geen rekening wordt gehouden.
In dit hoofdstuk wordt gekeken naar de seizoenpatronen. De berekening van cyclusbewegingen verloopt analoog
aan dit verhaal.
Wanneer de seizoenschommelingen (verschil tussen hoog- en laagseizoen) nagenoeg constant zijn kan het
volgende model gebruikt worden:
Als voorbeeld worden de omzetten van de ijszaak op een station uit tabel 8.1 gebruikt, waarbij de trend met
behulp van voortschrijdende gemiddelden is bepaald.
N.B. Wanneer je de trend op een andere manier hebt berekend verloopt het onderstaande verhaal op dezelfde
manier.
De seizoenschommelingen vallen duidelijk in grafiek 8.2 af te lezen en tevens dat de verschillen tussen hoog- en
laagseizoen nagenoeg constant zijn, dus dat je het additieve model kunt gebruiken.
Het hoogseizoen in een jaar is het derde kwartaal en het laagseizoen is het eerste kwartaal. De verschillen zijn dan:
2009: 307; 2010: 305; 2011: 305; 2012: 310 en 2013: 301
Het seizoenpatroon wordt nu uitgerekend door de gemiddelde verschillen tussen het oorspronkelijke cijfer en de
trend per overeenkomstig kwartaal te bepalen.
Zo is de trendafwijking voor het derde kwartaal van 2009 gelijk aan: 425 – 236,125 = 188,875
De trendafwijking voor het derde kwartaal van 2010 is gelijk aan: 422 – 237,25 = 184,75
Wanneer je dit voor alle derde kwartalen gedaan hebt bereken je de gemiddelde trendafwijking.
Op eenzelfde manier doe je dit voor het eerste, tweede en vierde kwartaal.
159
Statistiek met Excel 2013
Trendafwijkingen
Jaar Kwartaal Hist. Reeks Trend I II III IV
2009 I 118
II 237
III 425 236,125 188,875
IV 165 235,75 -70,75
2010 I 117 235,125 -118,125
II 235 235,375 -0,375
III 422 237,25 184,75
IV 170 241,375 -71,375
2011 I 127 245,5 -118,5
II 258 248,75 9,25
III 432 251,75 180,25
IV 186 254,625 -68,625
2012 I 135 257,125 -122,125
II 273 258,875 14,125
III 437 260,625 176,375
IV 195 262,375 -67,375
2013 I 140 264 -124
II 282 265,125 16,875
III 441
IV 200
Vervolgens bereken je de som van de afwijkingen en de gemiddelde afwijking. De som van de gemiddelde
afwijkingen moet gelijk zijn aan 0. Mocht dit niet het geval zijn dan kun je één of meerdere afwijkingen aanpassen
door te kijken naar de kleinste relatieve afrondingsfout die je dan maakt.
Afwijkingen I II III IV
Som -482,75 39,875 730,25 -278,125
Gemiddelde -120,688 9,96875 182,5625 -69,5313 2,3125
Voorlopig -121 9 182 -70 0
Tussenberekening 120,6875 9,96875 182,5625 69,53125 0
Definitief -121 9 182 -70
In het eerste kwartaal van een jaar ligt de werkelijke ijsomzet 121 beneden het jaargemiddelde, in het tweede
kwartaal is het 9 meer dan het jaargemiddelde, in het derde kwartaal ligt die omzet 182 boven het gemiddelde en
in het vierde kwartaal er 70 onder.
Of het ontwikkelde model goed te gebruiken is om voorspellingen te doen is afhankelijk van de toevallige
afwijkingen. Deze toevallige afwijkingen kun je per kwartaal berekenen door het verschil te berekenen van het
werkelijke omzet en de omzet gebaseerd op basis van het model.
In het derde kwartaal van 2009 is de werkelijke omzet 425 (* € 1.000). Op basis van het model zou je verwachten:
trend derde kwartaal van 2009 + seizoenafwijking van het derde kwartaal = 236,125 + 182 = 418,125.
De werkelijke omzet ligt dus 425 – 418,125 = 6,875 (*€ 1.000) boven de verwachting. Absoluut gezien is dit een
behoorlijk bedrag maar als je het relativeert aan de verwachting dan is dit (6,875 / 418,125) * 100% = 1,6%.
De werkelijke omzet ligt dus 1,6% boven de verwachting op basis van het model en dit is over het algemeen
behoorlijk acceptabel.
160
8 Tijdreeksanalyse
Bij dit model wordt gewerkt met trendindices. Deze indices kun je berekenen door de historische reeks te delen
door de trend en te vermenigvuldigen met 100.
Als voorbeeld wordt gebruikt het aantal klanten per trimester van een bedrijf op een station uit tabel 8.2.
De meeste klanten tref je aan in het eerste trimester (hoogseizoen) en de minste klanten in het tweede trimester
(laagseizoen).
De verschillen tussen het hoog- en laagseizoen zijn:
2009: 4.005; 2010: 5.530; 2011: 8.831; 2012: 11.590 en 2013: 16.950
De verschillen worden steeds groter en de trend is stijgend (zie grafiek 8.3), dus kun je hier het multiplicatieve
model gebruiken.
60.000
50.000
40.000
30.000
20.000
10.000
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Trimester
Figuur 8.5: Grafiek van het aantal klanten per trimester van een bedrijf
De trend is stijgend en de seizoenschommelingen nemen toe (de lijn die de laagseizoencijfers met elkaar verbindt
en de lijn die de hoogseizoencijfers met elkaar verbindt zijn divergerend).
Het multiplicatieve model kun je hier dus toepassen.
161
Statistiek met Excel 2013
Trendindices
Jaar Kwartaal Hist. Reeks Trend I II III
2009 I 40.250
II 36.245 38389 94,41507
III 38.672 41072 94,15660304
2010 I 48.299 43246,67 111,6826
II 42.769 46211 92,55156
III 47.565 49592,33
2011 I 58.443 51873,33 112,66482
II 49.612 55837,33 88,85095
III 59.457 59733,67 99,53683294
2012 I 70.132 62710,33 111,83484
II 58.542 67268,67 87,02714
III 73.132 72177,67 101,3222003
2013 I 84.859 75300 112,69456
II 67.909 81394,33 83,4321
III 91.415
De seizoensindex voor een trimester kun je nu bepalen door de gemiddelde index voor een trimester te berekenen
door de indices voor een bepaald trimester bij elkaar op te tellen en te delen door het aantal indices.
Vervolgens bereken je de som van de indices. De som van de indices voor een trimester moet gelijk zijn aan 300.
Mocht dit niet het geval zijn dan kun je één of meerdere indices aanpassen door te kijken naar de kleinste relatieve
afrondingsfout die je dan maakt.
Indices I II III
Som 448,8768 446,2768 295,0156
Gemiddelde 112,2192 89,25536 98,33855 299,813112
Voorlopig 112 89 98 299
Tussenberekening 12,2192 10,74464 1,661455 1
Definitief 113 89 98
In het eerste trimester ligt het aantal klanten gemiddeld 13% boven het jaargemiddelde, in het tweede trimester
11% beneden het jaargemiddelde en in het derde trimester 2% beneden het jaargemiddelde.
Of het ontwikkelde model goed te gebruiken is om voorspellingen te doen is afhankelijk van de toevallige
afwijkingen. Deze toevallige afwijkingen kun je per trimester berekenen door te kijken naar de verhouding tusssen
het werkelijke cijfer en het cijfer gebaseerd op het model.
Voor het tweede trimester van 2009 is de toevallige afwijking:
36.245 / (38.389*0,89) * 100% = 106,1%
De werkelijke omzet ligt dus 6,1% boven de verwachting op basis van het model en dit is over het algemeen nog
acceptabel. Bekijk ook de afwijkingen voor de andere trimesters en constateer dat de grootste afwijking voor het
tweede trimester van 2013 geldt: 6,3% beneden de verwachting.
Wanneer je gebruik maakt van het excelbestand “Tijdreeksanalyse” wordt na het invullen van de (historische)
gegevens de trend, trendafwijking of trendindex en seizoensafwijking of seizoensindices berekend. Daarnaast zie je
ook meteen hoe groot de toevallige afwijkingen van het model zijn ten opzichte van de oorspronkelijke gegevens.
Het excelbestand “Tijdreeksanalyse” bevat vier tabbladen:
162
8 Tijdreeksanalyse
8.6 Voorspellen
Het doel van tijdreeksanalyse is om het ontwikkelde model te gebruiken om voorspellingen voor de toekomst te
doen ten aanzien van de onderzochte afhankelijke variabele.
Het voorspellen gebeurt in twee stappen:
1. Extrapoleer de trendcijfers;
2. Breng vervolgens de seizoensinvloed in de geëxtrapoleerde trendcijfers.
De methode voor het extrapoleren van de trendcijfers is voor het additieve model hetzelfde als voor het
multiplicatieve model. Wel is het extrapoleren afhankelijk van het feit of de trend bepaald is met de methode van
voortschrijdende gemiddelden of met behulp van lineaire regressieanalyse.
De methode voor het inbrengen van de seizoensinvloed is wel afhankelijk van het gekozen model (additief of
multiplicatief).
Als voorbeeld worden de gegevens van tabel 8.1 gebruikt, de omzetbedragen van een ijszaak.
Wanneer je aan de hand van deze gegevens de omzetbedragen voor de verschillende kwartalen van 2014 wilt
voorspellen, zul je eerst de verwachte trendcijfers voor de verschillende kwartalen moeten berekenen.
Bij voortschrijdende gemiddelden wordt verwacht dat de trendverandering over de waargenomen perioden in de
toekomst hetzelfde is. In het voorbeeld kun je aannemen dat de trendstijging van het derde kwartaal van 2009 tot
het tweede kwartaal van 2013 zich ook in de toekomst voordoet.
Dus de gemiddelde omzet (trend) stijgt elk kwartaal met 1,933 (* € 10.000). Dus als trendcijfer voor het derde
kwartaal van 2013 mag je verwachten: 265,125 + 1,933 = 267,058
Voor het vierde kwartaal: 267,058 + 1,933 = 268,991 enzovoort.
0
Naast het additieve- en multiplicatieve model zijn er nog heel veel andere modellen. Aangezien deze andere modellen vaak lastig (wiskundig)
te ontrafelen zijn wordt dus voor het additieve model gekozen, wanneer het multiplicatieve model niet van toepassing is.
0
Het aantal stijgingen is gelijk aan het aantal perioden – 1. Bij 16 kwartalen heb je dus 16 –1 = 15 keer een stijging.
163
Statistiek met Excel 2013
Ten slotte moet je bij de verwachte trendcijfers de seizoensafwijkingen optellen om de verwachte omzet te
krijgen.
Als voorbeeld worden de gegevens van tabel 8.2 gebruikt, het aantal klanten van een bedrijf per trimester.
Om de verwachte trend te bepalen wordt nu gebruik gemaakt van de trendlijn op basis van de kleinste
kwadratenmethode.
Deze luidt: y = 3471x + 30052
(waarbij: x = 1 het eerste trimester van 2009, x = 2 het tweede trimester van 2009, enzovoort)
De verwachte trend voor het eerste trimester van 2014 (x = 16) is dan gelijk aan:
3471*16 + 30.052 = 85.588
Om vervolgens het verwachte aantal klanten te kunnen bepalen moet je de trend vermenigvuldigen met het
seizoenindexcijfer / 100.
Soms is men meer geïnteresseerd in de ontwikkeling van het gemiddelde (trend) dan in het werkelijke cijfer. Denk
hierbij bijvoorbeeld aan de werkloosheidscijfers. De werkloosheid is over het algemeen in de wintermaanden
hoger dan in de zomer. Zou je alleen naar de werkelijke cijfers kijken, dan krijg je dat gedurende een jaar de
werkloosheid afneemt en vervolgens weer toeneemt. Men is echter meer geïnteresseerd in de algemene trend
van de werkloosheid en spreekt dan over het werkloosheidscijfer gecorrigeerd voor het seizoen.
Zo kan de werkelijke werkloosheid in december wel met 10.000 zijn gestegen, maar neemt de gemiddelde
werkloosheid (de gecorrigeerde werkloosheid voor het seizoen) met 4.000 af. Het gaat in dat geval dus goed met
de werkloosheidsontwikkeling.
Een ander voorbeeld is het percentage van de treinen dat op tijd rijdt. Hiervan is bekend dat door de
weersomstandigheden dit percentage in de herfst- en wintermaanden lager ligt dan in de lente- en
zomermaanden. Ook bij deze tijdreekscijfers is men meer geïnteresseerd in het voor het seizoen gecorrigeerde
percentage dan in het werkelijke percentage.
Bij het corrigeren van een tijdreeks ga je omgekeerd te werk als bij het voorspellen:
164
8 Tijdreeksanalyse
Wanneer bijvoorbeeld bekend is dat in het vierde kwartaal het percentage van de treinen dat op tijd rijdt 5% onder
de trend ligt (uitgaande van een additief model), dan zou dit betekenen dat bij een werkelijk percentage van 72%
voor het vierde kwartaal het voor het kwartaal gecorrigeerde percentage gelijk is aan:
72% - (- 5%) = 77%.
165
Statistiek met Excel 2013
8.8 Opgaven
1. Gegeven zijn de omzetcijfers van 2011 tot en met 2013 van een onderneming
2. Een containermaatschappij heeft voor een bepaald product van de laatste jaren de afzet bijgehouden die
elk kwartaal is gerealiseerd.
Tabel 2: Afzet van een product over de jaren 2011 tot en met 2013
166
8 Tijdreeksanalyse
3. De directie van het attractiepark “Miracle Star” overweegt in 2015 een aantal evenementen te
organiseren, die tot doel hebben het park voor het publiek aantrekkelijker te maken. Om de nodige
investeringen van een solide basis te voorzien is men van mening dat het bezoekersaantal per jaar bij een
ongewijzigd beleid in 2014 boven 1.500.000 dient uit te komen.
Om zich een beeld te kunnen vormen van de ontwikkeling van de bezoekersaantallen sinds 2010 verricht
men een eenvoudige analyse.
In deze opgave zullen we de analyse uitvoeren, met als doel een prognose te maken voor de
bezoekersaantallen in 2014.
167
Statistiek met Excel 2013
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
1 2 21 35 3 7 7 0 1 4 1 4
2 2 27 29 5 28 3 0 0 0 1 5
3 2 18 23 5 11 7 0 1 4 1 3
4 1 20 32 4 6 5 0 1 3 0 0
5 1 26 14 5 36 5 0 0 0 0 0
6 1 60 104 3 54 2 0 0 0 0 0
7 1 42 58 5 47 5 0 1 2 0 0
8 1 51 55 5 63 3 0 0 0 1 4
9 1 19 44 4 5 7 0 1 5 1 5
10 1 21 5 5 19 6 0 1 4 1 2
11 1 22 36 5 6 5 0 0 0 0 0
12 1 55 67 4 41 6 0 1 3 0 0
13 1 38 35 5 40 1 0 1 4 0 0
14 2 39 54 3 23 1 0 1 2 1 3
15 1 31 61 5 35 5 0 1 2 0 0
16 1 20 7 4 8 7 0 1 4 1 4
17 2 23 28 5 15 5 0 0 0 1 2
18 1 21 37 3 13 1 0 0 0 1 3
19 1 19 66 4 7 7 0 0 0 1 4
20 1 31 22 5 33 3 0 0 0 1 4
21 2 19 19 4 9 5 0 1 3 0 0
22 2 32 22 3 18 4 0 1 2 0 0
23 1 55 120 4 46 3 0 0 0 1 5
24 2 15 14 5 1 7 0 0 0 1 4
25 1 59 75 4 52 4 0 0 0 0 0
26 2 43 35 3 28 6 0 1 3 0 0
27 1 62 98 3 51 6 0 1 4 0 0
28 1 33 23 5 28 3 0 1 2 1 4
29 1 17 29 5 3 7 0 1 4 1 4
30 1 15 9 5 1 7 0 0 0 1 3
31 1 29 42 5 32 2 0 1 3 0 0
32 2 59 51 4 33 6 0 0 0 0 0
33 1 31 32 1 28 5 0 0 0 0 0
34 1 26 14 5 24 7 1 1 5 0 0
35 1 22 15 4 10 1 0 0 0 1 4
36 1 40 58 5 42 3 0 0 0 1 4
37 1 39 37 4 47 3 0 1 4 1 5
38 1 53 100 4 52 6 0 1 4 0 0
39 2 23 54 5 25 1 0 0 0 1 3
40 1 38 98 2 37 1 0 1 4 1 3
41 1 23 22 5 23 3 0 0 0 1 4
42 1 63 147 3 45 6 0 1 3 0 0
43 2 21 35 5 7 7 0 1 4 0 0
44 2 31 58 4 35 6 0 1 4 1 2
45 2 60 42 4 48 6 0 1 1 0 0
46 1 20 75 3 11 7 1 0 0 1 5
47 1 35 15 5 56 4 0 0 0 0 0
48 1 19 7 5 8 7 0 0 0 1 4
49 1 55 100 3 52 4 0 0 0 0 0
50 2 53 66 4 35 3 0 0 0 1 4
168
Bijlage 1 Bestand “ Fictie2000”
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
51 2 33 51 3 24 1 0 1 5 1 3
52 1 19 14 5 6 7 0 1 4 0 0
53 1 64 42 4 41 6 0 0 0 1 1
54 1 39 61 3 45 6 0 1 4 1 2
55 2 21 32 4 14 5 0 1 3 0 0
56 1 49 70 1 58 5 0 1 3 0 0
57 2 22 36 4 18 3 0 0 0 1 3
58 1 35 37 5 36 3 0 0 0 1 4
59 1 46 58 5 72 3 0 1 2 1 4
60 2 16 22 5 2 7 0 0 0 0 0
61 1 29 15 5 32 1 0 1 4 0 0
62 1 33 29 5 35 4 0 1 4 0 0
63 1 50 70 4 74 3 0 0 0 1 4
64 2 42 9 4 25 6 0 1 2 0 0
65 1 29 23 5 33 6 0 1 3 0 0
66 1 27 51 5 36 5 0 1 4 0 0
67 1 51 100 2 47 3 0 1 3 0 0
68 2 21 54 4 25 5 0 1 3 1 1
69 1 43 58 4 33 3 0 0 0 1 3
70 1 42 89 4 36 1 0 0 0 1 3
71 2 36 28 3 30 2 0 1 3 0 0
72 1 28 23 5 35 5 0 1 3 0 0
73 1 40 67 4 29 7 1 1 4 0 0
74 1 26 5 5 32 7 1 1 5 1 5
75 1 28 23 5 35 5 0 1 3 0 0
76 1 32 44 5 28 3 0 0 0 1 4
77 1 42 58 5 36 3 0 0 0 0 0
78 1 45 54 5 53 3 0 1 3 1 3
79 1 50 104 2 58 6 0 1 4 0 0
80 2 41 35 2 15 5 0 0 0 0 0
81 1 26 35 5 25 3 0 0 0 1 4
82 1 29 23 5 28 1 0 0 0 1 4
83 1 22 15 4 15 5 0 1 4 1 2
84 1 40 32 5 32 7 1 1 4 1 3
85 1 47 98 3 35 3 0 0 0 1 3
86 1 31 51 5 36 5 0 1 2 0 0
87 1 23 19 5 10 7 0 1 4 1 4
88 2 31 89 4 26 7 1 0 0 1 4
89 2 35 61 3 24 6 0 1 4 0 0
90 1 35 31 5 42 5 0 0 0 0 0
91 1 35 42 4 35 3 0 0 0 0 0
92 2 20 37 4 9 7 0 1 4 1 5
93 1 54 89 1 58 5 0 0 0 0 0
94 1 26 14 5 39 2 0 1 2 0 0
95 1 25 23 5 35 5 0 0 0 0 0
96 2 18 58 5 5 7 0 1 5 1 3
97 1 19 22 5 6 7 0 0 0 1 3
98 1 32 15 5 38 5 0 1 4 0 0
99 2 29 36 5 26 6 0 1 3 0 0
100 1 48 9 5 35 6 0 0 0 0 0
169
Statistiek met Excel 2013
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
101 1 27 31 5 20 3 0 0 0 0 0
102 1 64 42 4 41 3 0 0 0 1 3
103 1 45 22 5 36 6 0 0 0 0 0
104 2 22 12 4 26 5 0 1 4 0 0
105 1 19 14 5 8 7 0 1 5 1 2
106 1 21 7 5 4 7 0 0 0 1 3
107 1 46 23 5 34 7 1 1 3 0 0
108 1 57 66 3 44 6 0 0 0 0 0
109 1 29 29 5 37 5 0 1 3 0 0
110 2 23 70 3 26 1 0 1 5 1 4
111 1 29 28 5 30 3 0 0 0 1 3
112 1 19 23 5 6 7 0 1 4 1 4
113 1 35 54 4 30 7 0 1 4 1 4
114 1 35 15 5 32 6 0 1 2 0 0
115 1 41 100 4 35 6 0 0 0 0 0
116 2 14 22 5 1 7 0 0 0 1 3
117 1 54 75 4 48 4 0 0 0 0 0
118 1 56 32 3 44 4 0 0 0 0 0
119 1 29 12 5 29 5 0 1 3 0 0
120 1 29 42 5 25 1 0 0 0 0 0
121 1 13 19 5 2 7 0 0 0 0 0
122 1 39 67 4 35 6 0 1 4 0 0
123 2 29 54 5 32 6 0 1 4 1 1
124 1 22 31 4 8 7 0 1 5 1 3
125 1 21 5 4 18 1 0 0 0 1 3
126 1 19 37 5 9 7 0 1 4 1 5
127 1 36 14 5 28 7 1 0 0 0 0
128 1 29 58 5 32 5 0 1 3 0 0
129 2 39 51 4 36 5 0 1 2 0 0
130 1 21 12 4 19 3 0 0 0 1 5
131 1 30 35 4 22 1 0 0 0 1 3
132 2 19 43 5 14 2 0 1 2 1 1
133 1 44 58 5 59 2 0 1 1 0 0
134 1 14 35 5 2 7 0 0 0 0 0
135 1 50 22 4 57 2 0 1 3 0 0
136 2 28 22 5 30 5 0 1 3 0 0
137 1 49 35 4 44 4 0 1 2 0 0
138 1 14 7 5 1 7 0 0 0 0 0
139 2 43 31 3 24 6 0 0 0 1 1
140 1 29 61 5 32 6 0 1 4 0 0
141 1 37 17 5 34 1 0 1 3 1 2
142 2 19 9 5 18 3 0 0 0 1 3
143 1 43 66 5 47 5 0 0 0 0 0
144 1 28 12 5 29 5 0 1 2 0 0
145 2 23 75 5 27 5 0 1 4 0 0
146 1 27 15 5 28 5 0 1 3 1 2
147 1 23 43 5 25 5 0 0 0 0 0
148 2 45 14 4 32 6 0 1 3 1 3
149 2 50 67 4 40 1 0 0 0 0 0
150 2 19 22 5 9 7 0 1 4 1 5
170
Bijlage 1 Bestand “ Fictie2000”
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
151 1 37 5 5 26 7 1 1 5 1 3
152 2 17 19 5 4 7 0 0 0 1 4
153 1 20 23 5 10 7 0 1 4 1 4
154 1 18 28 5 8 7 0 0 0 1 4
155 1 21 40 4 10 7 0 1 5 0 0
156 1 40 29 5 32 3 0 0 0 1 3
157 1 21 14 5 7 7 0 1 4 1 4
158 1 26 54 3 25 5 0 1 3 0 0
159 1 27 35 3 24 5 0 1 4 0 0
160 1 25 12 5 30 4 0 1 2 1 1
161 2 23 25 5 29 2 0 1 4 0 0
162 1 30 43 5 25 6 0 1 3 0 0
163 1 17 31 5 4 7 0 1 3 0 0
164 2 20 32 4 11 7 0 1 4 1 3
165 1 41 36 5 36 6 0 0 0 1 2
166 2 19 37 5 6 7 0 1 4 1 4
167 1 15 22 5 4 7 0 0 0 1 4
168 1 22 22 5 11 7 0 1 3 1 4
169 1 58 75 2 56 2 0 1 3 0 0
170 1 35 15 4 29 3 0 0 0 1 4
171 1 16 7 5 2 7 0 0 0 0 0
172 1 21 36 5 7 7 0 0 0 1 4
173 2 19 5 4 9 7 0 1 4 0 0
174 1 23 31 4 26 5 0 1 3 0 0
175 1 18 14 3 5 7 0 0 0 0 0
176 1 35 42 5 44 5 0 1 2 1 1
177 2 25 70 3 25 5 0 0 0 1 2
178 1 49 51 2 15 4 0 1 2 1 2
179 1 49 26 4 36 3 0 0 0 0 0
180 1 26 25 5 22 1 0 1 5 1 3
181 1 29 17 4 21 3 0 1 3 0 0
182 1 24 37 5 23 7 1 1 4 1 5
183 1 32 67 3 28 6 0 1 4 0 0
184 1 29 9 4 24 5 0 0 0 0 0
185 2 28 15 5 22 3 0 0 0 1 4
186 2 30 22 2 16 1 0 0 0 0 0
187 1 46 58 5 46 2 0 1 1 1 1
188 1 38 61 4 42 5 0 1 2 1 2
189 2 50 43 5 40 6 0 1 3 0 0
190 1 28 44 4 30 6 0 0 0 1 3
191 2 28 19 4 25 7 0 1 3 1 3
192 1 53 40 4 35 6 0 0 0 0 0
193 2 30 36 3 26 5 0 1 3 0 0
194 1 24 31 3 22 3 0 0 0 1 4
195 1 36 12 5 33 1 0 0 0 1 4
196 1 20 26 5 5 7 0 1 4 1 4
197 1 27 35 3 33 2 0 1 3 1 2
198 2 21 17 4 24 5 0 1 3 1 2
199 2 21 14 5 6 7 0 1 4 1 5
200 1 26 40 5 33 5 0 1 4 0 0
171
Statistiek met Excel 2013
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
201 1 23 26 5 25 3 0 0 0 1 3
202 1 42 51 5 35 3 0 1 3 0 0
203 2 34 22 4 36 5 0 1 2 0 0
204 1 40 37 4 42 4 0 1 3 0 0
205 1 44 54 4 38 4 0 0 0 0 0
206 1 35 23 4 32 6 0 0 0 1 4
207 1 21 5 5 6 7 0 0 0 1 3
208 1 38 54 5 34 3 0 0 0 1 5
209 2 57 32 4 44 4 0 1 2 0 0
210 1 46 50 4 49 4 0 0 0 1 3
211 1 38 28 4 35 6 0 0 0 1 2
212 1 36 61 5 39 5 0 1 3 0 0
213 1 31 22 5 25 3 0 0 0 1 1
214 2 24 7 5 27 1 0 0 0 1 4
215 1 30 50 4 25 6 0 1 5 1 2
216 1 41 26 4 45 1 0 0 0 0 0
217 1 27 35 5 23 3 0 1 2 1 4
218 1 47 43 5 36 3 0 0 0 1 3
219 1 19 12 5 6 7 0 1 3 1 3
220 1 43 44 5 38 1 0 0 0 0 0
221 1 47 84 4 52 5 0 1 2 0 0
222 2 37 58 3 36 5 0 1 3 0 0
223 1 17 29 5 3 7 0 0 0 1 4
224 1 18 17 5 5 7 0 1 4 1 5
225 2 28 37 5 36 6 0 0 0 1 3
226 1 19 9 5 23 4 0 1 3 1 3
227 1 42 54 4 35 7 0 0 0 0 0
228 2 44 39 3 36 6 0 0 0 0 0
229 2 29 14 5 33 6 0 1 4 1 3
230 2 49 19 4 36 6 0 0 0 0 0
231 1 45 39 5 45 5 0 0 0 0 0
232 1 20 36 5 7 7 0 1 5 1 3
233 1 46 43 5 44 6 0 0 0 0 0
234 1 40 67 5 48 3 0 0 0 1 4
235 2 29 35 5 35 5 0 1 2 0 0
236 1 28 37 4 29 5 0 1 1 1 1
237 1 37 61 3 30 3 0 0 0 0 0
238 1 36 22 4 25 3 0 1 2 1 4
239 2 17 23 5 2 7 0 0 0 1 2
240 1 21 50 5 12 7 1 1 5 0 0
241 2 57 40 4 40 6 0 1 2 0 0
242 1 23 5 5 21 6 0 0 0 1 4
243 1 21 23 4 20 7 1 1 4 1 5
244 1 62 54 4 42 6 0 1 3 0 0
245 2 26 12 5 28 5 0 1 5 0 0
246 1 41 37 5 35 7 0 0 0 0 0
247 1 43 44 5 38 6 0 0 0 0 0
248 1 31 14 5 30 6 0 0 0 1 3
249 2 36 50 4 36 7 0 1 4 0 0
250 1 44 51 5 40 6 0 1 2 0 0
172
Bijlage 1 Bestand “ Fictie2000”
Nr. Geslacht Leeftijd Reistijd Reisdagen Inkomen Dagblad Opgezegd Metro Mening Spits Mening
Metro Spits
251 1 55 23 4 35 3 0 0 0 0 0
252 1 54 19 4 40 1 0 0 0 0 0
253 1 28 9 5 26 3 0 0 0 1 4
254 1 32 32 3 30 5 0 1 3 0 0
255 2 20 35 5 8 7 0 1 4 1 4
256 1 47 36 4 45 6 0 0 0 0 0
257 2 19 40 4 12 7 0 1 3 1 4
258 1 18 7 4 9 7 0 0 0 1 4
259 1 15 39 5 2 7 0 0 0 1 5
260 1 43 54 5 37 6 0 0 0 0 0
261 1 41 37 5 44 5 0 1 3 1 1
262 1 59 120 3 56 3 0 0 0 1 3
263 1 53 50 4 42 3 0 0 0 0 0
264 1 48 54 5 48 3 0 0 0 0 0
265 1 22 12 5 23 5 0 1 3 1 1
266 2 33 61 3 22 5 0 1 4 0 0
267 1 31 23 4 19 4 0 1 2 0 0
268 1 19 67 5 4 7 0 0 0 1 4
269 1 25 29 5 20 7 1 1 5 0 0
270 1 23 84 5 27 6 0 1 3 1 3
271 2 36 19 3 23 5 0 1 3 0 0
272 1 18 28 5 7 7 0 0 0 1 4
273 1 36 50 5 35 6 0 1 4 0 0
274 2 43 37 4 40 3 0 0 0 0 0
275 1 16 14 5 3 7 0 0 0 0 0
276 2 18 29 4 8 7 0 1 5 1 3
277 1 42 114 4 47 3 0 0 0 1 4
278 1 52 114 4 52 4 0 1 3 0 0
279 1 46 51 5 43 5 0 0 0 0 0
280 2 37 50 3 32 4 0 0 0 0 0
281 1 20 9 5 6 7 0 0 0 1 4
282 1 21 22 5 7 7 0 1 5 1 3
283 2 38 54 2 15 5 0 1 4 0 0
284 1 30 28 5 30 5 0 1 2 0 0
285 1 31 29 5 28 6 0 0 0 1 3
286 1 49 50 4 35 6 0 1 1 0 0
287 1 38 5 5 32 3 0 0 0 1 5
288 1 28 36 4 29 2 0 1 1 0 0
289 2 31 32 4 31 5 0 0 0 0 0
290 1 44 61 5 40 6 0 1 1 0 0
291 2 21 44 4 9 7 0 1 5 1 3
292 1 25 51 5 12 7 0 1 4 1 3
293 1 21 29 4 12 7 0 0 0 1 3
294 1 14 37 5 1 7 0 0 0 0 0
295 1 26 50 5 28 5 0 1 4 0 0
296 1 47 44 5 35 3 0 0 5 1 5
297 1 19 12 5 18 1 0 0 5 0 0
298 1 19 28 5 10 7 0 1 4 1 3
299 1 54 67 2 38 1 0 0 0 1 3
300 1 22 35 4 22 4 0 1 4 1 3
173
Statistiek met Excel 2013
Bijlage 2: Antwoorden
Tabel 2.1: Mening over “Spits” van Tabel 2.4: Procentuele verdeling van geslacht per
300 respondenten mening over “Spits” van respondenten die de
“Spits” wel eens gelezen hebben
Mening Spits Totaal
Geen mening 150 Mening Spits Man Vrouw Eindtotaal
Zeer slecht 12 Zeer slecht 67% 33% 100%
Slecht 17 Slecht 71% 29% 100%
Redelijk 51 Redelijk 71% 29% 100%
Goed 52 Goed 79% 21% 100%
Zeer goed 18 Zeer goed 78% 22% 100%
Eindtotaal 300 Eindtotaal 74% 26% 100%
Tabel 2.2: Mening over “Spits” per geslacht van Tabel 2.5: Reistijd van 300 respondenten
respondenten die de “Spits” wel eens gelezen
hebben Reistijd per trein Totaal
(in minuten)
Mening Spits Man Vrouw Eindtotaal 0-9 23
Zeer slecht 8 4 12 10-19 45
Slecht 12 5 17 20-29 56
Redelijk 36 15 51 30-39 57
Goed 41 11 52 40-49 25
Zeer goed 14 4 18 50-59 45
Eindtotaal 111 39 150 60-69 21
70-79 9
Bron: “Fictie 2000” 80-89 5
90-99 3
100-109 6
110-119 2
120-129 2
140-149 1
Tabel 2.3: Procentuele verdeling van meningen
Eindtotaal 300
over “Spits” per geslacht van respondenten die de
“Spits” wel eens gelezen hebben Bron: “Fictie 2000”
174
Bijlage 2 Antwoorden
Tabel 2.6: Inkomens van 300 respondenten Tabel 2.9: Dagbladabonnementen van
respondenten van 30 jaar en ouder
Inkomen (* € 100) Totaal
0-4 51 Dagblad Totaal
5-9 32 Algemeen Dagblad 14
10-14 69 NRC 6
15-19 85 Telegraaf 36
20-24 42 Trouw 16
25-29 17 Volkskrant 27
30-34 2 Anders 43
35-39 2 Geen 10
Eindtotaal 300 Eindtotaal 152
Tabel 2.7: Cumulatieve procentuele verdeling van de Tabel 2.10: Dagbladabonnementen van
inkomens van 300 respondenten mannelijke respondenten van 30 jaar en
ouder
Inkomen * € 100
<0 0.0% Dagblad Totaal
<5 17,0% Algemeen Dagblad 10
< 10 27,7% NRC 5
< 15 50,7% Telegraaf 34
< 20 79,0% Trouw 13
< 25 93,0% Volkskrant 18
< 30 98,7% Anders 31
< 35 99,3% Geen 8
< 40 100,0% Eindtotaal 119
Bron: Fictie2000
175
Statistiek met Excel 2013
Grafiek 3.1: Mening over "Spits" Grafiek 3.4: Reistijd per trein
60
Geen mening
Zeer slecht
30
Bron: “Fictie 2000” Bron: “Fictie 2000”
20
10
Grafiek 3.5: Inkomens van 300
Grafiek 3.2: Mening over "Spits"
respondenten
opgesplitst naar geslacht
0
5 15 25 35 45 55 65 75 85 95
90 Minuten
60
80
Aantal per € 500)
50 70
60
40
50
Aantal
Vrouw
30 40
Man
30
20
20
10 10
0
0
2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
Zeer Slecht Redelijk Goed Zeer
slecht goed Inkomen (* € 100)
Mening
Bron: “Fictie 2000”
Bron: “Fictie 2000”
Goed 80.0%
Mening
Vrouw 60.0%
Redelijk
Man 40.0%
Slecht 20.0%
0.0%
Zeer slecht 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Minuten
0% 10% 20% 30% 40% 50%
176
Bijlage 2 Antwoorden
80%
Trouw 60%
Telegraaf 40%
NRC 20%
0%
Algemeen Dagblad
0 2 4 6 8 10 12 14 16 18 20 22 24 26
0 20 40 60 80 100 Inkomen (* € 100)
Aantal
160 120
Reistijd (minuten)
140
100
120
80
100
80 60
60 40
40 20
20
0
0
0 20 40 60 80
1 2 3 4 5
Leeftijd
Aantal reisdagen
Geen
Anders
Volkskrant
Dagblad
man
Trouw
Vrouw
Telegraaf
NRC
Algemeen Dagblad
0 25 50 75 100
Aantal
177
Statistiek met Excel 2013
30
25
Percentage
20
15
10
0
Bron: Fictie2000 2004 2005 2006 2007 2008
Bron: CBS
70
60
Percentage
50
40
30
20
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Bron: CBS
50
35 tot 45 jarigen
40
45 tot 55 jarigen
30
55 tot 65 jarigen
20 65 tot 75 jarigen
10 75 jarigen of ouder
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Bron: CBS
178
Bijlage 2 Antwoorden
179
Statistiek met Excel 2013
3. Reistijd Centrummaten
Rekenkundig gemiddelde 14,2
Centrummaten Man Vrouw Mediaan 14,9
Rekenkundig gemiddelde 39,8 35,7 Modus 17,5
Mediaan 35 35
Modus 23 22 Spreidingsmaten
Spreidingsbreedte 40
Spreidingsmaten Interkwartiel afstand 10,5
Interkwartiel afstand 32 28 Standaardafwijking 7,6
Standaardafwijking 26,2 18,1
Vormmaten
Vormmaten Scheefheid 0,08
Scheefheid 1,18 0,56 Kurtosis -0,43
Kurtosis 1,56 -0,13
8. Inkomen
4. Abonnement dagblad
Centrummaten Man Vrouw
Centrummaten Rekenkundig gemiddelde 15,4 11,7
Modus Geen Mediaan 15,9 12,0
Modus 17,5 12,5
5. Aantal reisdagen per week per trein
Spreidingsmaten
Centrummaten Man Vrouw Spreidingsbreedte 40 25
Rekenkundig gemiddelde 4,4 4,1 Standaardafwijking 8,5 6,0
Mediaan 5 4
Modus 5 4 en 5
Spreidingsmaten
Interkwartiel afstand 1 1
Standaardafwijking 0,9 0,9
Variantie 0,7 0,7
180
Bijlage 2 Antwoorden
181
Statistiek met Excel 2013
Antwoord 2d 11,3%
182
Bijlage 2: Antwoorden
183
Statistiek met Excel 2013
8. Drie van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de meningen “Zeer slecht” en “Slecht” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 69%).
9. Vier van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de reisdagen “1” en “2” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 96%).
10. Drie van de tien verwachte frequenties is kleiner dan 5, dus mag je hier geen chi-kwadraatanalyse uitvoeren.
Wanneer je de reisdagen “1” en “2” samenvoegt los je het probleem op.
In dat geval bestaat er geen verband (overschrijdingskans is 6%).
184
Bijlage 2: Antwoorden
140
120
100
Reistijd (minuten)
80
Bron: “Fictie2000 “
f(x) = 1.60734785161076 x + 16.5095410956856
R² = 0.245247859877792
60
2. a. Correlatie (r) = – 0,1724 = – 0,42
b. y = – 0,0148x + 4,907
c. Het aantal reisdagen y = – 0,0148*100 + 4,907 = 3
d. De betrouwbaarheid van de voorspelling is matig. Het aantal punten is redelijk groot maar de
40
correlatiecoëfficiënt is slechts – 0,42
0
0 5 10 15 20 25
Inkomen (* € 100)
5
f(x) = − 0.0147943108050142 x + 4.90700739198244
R² = 0.172353720878421
4
Reisdagen
3
Bron: “Fictie2000 “
185
2
Statistiek met Excel 2013
25
20
Inkoemen * (€ 100)
15
Bron: “Fictie2000 “
40
35
30
Percentage
25
186
15
Bijlage 2: Antwoorden
d. Hoewel de extrapolatie in tegenstelling tot opgave 4 in de nabije toekomst ligt is de voorspelling toch erg
onbetrouwbaar, want het verband is verwaarloosbaar.
70
f(x) = − 0.0909090909090909 x + 251.045454545455
R² = 0.0173796791443849
60
50
Percentage
40
30
20
Bron:
10 Centraal Bureau voor de Statistiek, Den Haag/Heerlen 19-6-2009
0
1996 1998 2000 2002 2004 2006
187
Statistiek met Excel 2013
1. Multiplicatief model
Trendindices
Jaar Kwartaal Hist. reeks Trend I II III IV
2011 I 11,87
II 12,13
III 12,52 13,23 94,63341
IV 16,11 13,42125 120,0335
2012 I 12,45 13,5825 91,66207
II 13,08 13,74 95,19651
III 12,86 13,865 92,75153
IV 17,03 13,89 122,6062
2013 I 12,53 13,96 89,75645
II 13,2 14,07375 93,79163
III 13,3
IV 17,5
Indices I II III IV
Som 181,4185 188,9881 187,3849 242,6397
Gemiddelde 90,70926 94,49407 93,69247 121,3199 400,2157
Voorlopig 91 94 94 121 400
Tussenberekening 9,290744 5,50593 6,307529 21,31986 0
Definitief 91 94 94 121
d. 13,14 * ƒ 1 miljoen
2. Additief model
Trendafwijkingen
Jaar Kwartaal Hist. Reeks Trend I II III IV
2011 I 83
II 95,6
III 117,9 107,138 10,7625
IV 125,3 110,55 14,75
2012 I 96,5 112,675 -16,175
II 109,4 113,725 -4,325
III 121,1 115,413 5,6875
IV 130,5 117,3 13,2
2013 I 104,8 119,463 -14,6625
II 116,2 122,388 -6,1875
III 131,6
IV 143,4
Afwijkingen I II III IV
Som -30,8375 -10,5125 16,45 27,95
Gemiddelde -15,4188 -5,25625 8,225 13,975 1,525
Voorlopig -16 -6 8 14 0
Tussenberekening 15,4188 5,25625 8,225 13,975 0
Definitief -16 -6 8 14
e. 13,8
f.
I II III IV
121,05 134,5 151,95 161,4
188
Bijlage 2: Antwoorden
3. Multiplicatief model
Trendindices
Jaar Kwartaal Hist. reeks Trend I II III IV
2010 I 141
II 400
III 373 283,125 131,7439
IV 216 286,25 75,45852
2011 I 146 290,875 50,19338
II 420 294,125 142,7964
III 390 296,5 131,5346
IV 225 300 75
2012 I 156 305 51,14754
II 438 309,25 141,633
III 412 311,875 132,1042
IV 237 316,375 74,9111
2013 I 165 322,625 51,14297
II 465 327,625 141,9306
III 435
IV 254
Indices I II III IV
Som 152,4839 426,36 395,3827 225,3696
Gemiddelde 50,82796 142,12 131,7942 75,12321 399,8654
Voorlopig 51 142 132 75 400
Tussenberekening 49,17204 42,11999 31,79424 24,87679 0
Definitief 51 142 132 75
189
Statistiek met Excel 2016
Bijlage 3: Tentamenvragen
Bij een aselecte steekproef in september 2012 onder treinreizigers werden o.a. de volgende vragen gesteld:
1. Wat is uw geslacht?
0 Man
0 Vrouw
2. Wat is uw leeftijd?
………. jaar
1. Hoe wordt de verzameling van alle treinreizigers bij bovenstaand onderzoek genoemd?
a. Parameter
b. Populatie
c. Statistiek
d. Steekproef
4. Op welke meetschaal wordt de variabele ‘Gemiddeld aantal keren de “Spits” lezen per week’ gemeten (zie
onderzoeksvraag 3)?
a. Nominaal
b. Ordinaal
c. Interval
d. Ratio
5.
190
Bijlage 3 Tentamenvragen
Leeftijd Aantal
15 -< 20 24
20 -< 30 35
30 -< 40 53
40 -< 50 31
50 -< 80 57
Totaal 200
7. Welke van de volgende grafieken geeft een histogram van tabel 1 correct weer?
Grafiek a Grafiek b
15 30
10 20
5 10
0 0
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
Leeftijd
Leeftijd
Grafiek c Grafiek d
Aantal per Leeftijdsopbouw van 200 treinreizigers Leeftijdsopbouw van 200 treinreizigers
5 jaar Aantal
30 60
25 50
20 40
15 30
10 20
5 10
0 0
15 20 30 40 50 80 15 20 30 40 50 80
Leeftijd Leeftijd
191
Statistiek met Excel 2016
10. Voor het gelijktijdig bestuderen van de gegevens op vraag 3 (“hoe vaak leest u gemiddeld de “Sp!ts” in de
week”) en vraag 4 (“wat vindt u van de inhoud van de “Spits””) moet je gebruik maken van een:
a. Frequentietabel
b. Histogram
c. Kruistabel
d. Procentuele frequentie tabel
11. Welke van onderstaande tabellen geeft het duidelijkst weer dat vrouwelijke treinreizigers relatief minder vaak
de “Spits” lezen dan mannelijke treinreizigers?
Tabel a Tabel b
Aantal van Hoe vaak Geslacht Aantal van Hoe vaak geslacht
Hoe vaak man vrouw Eindtotaal Hoe vaak man vrouw Eindtotaal
Nooit 24 17 41 nooit 59% 41% 100%
1 à 2 keer 83 19 102 1 à 2 keer 81% 19% 100%
3 keer of vaker 46 11 57 3 keer of vaker 81% 19% 100%
Eindtotaal 153 47 200 Eindtotaal 77% 24% 100%
Tabel c Tabel d
Aantal van Hoe vaak Geslacht Aantal van Hoe vaak geslacht
Hoe vaak man vrouw Eindtotaal Hoe vaak man vrouw Eindtotaal
Nooit 16% 36% 21% nooit 12% 9% 21%
1 à 2 keer 54% 40% 51% 1 à 2 keer 42% 10% 51%
3 keer of vaker 30% 23% 29% 3 keer of vaker 23% 6% 29%
Eindtotaal 100% 100% 100% Eindtotaal 77% 24% 100%
12. Zie bovenstaande tabellen (a, b, c en d). Welke van onderstaande uitspraken is correct?
a. 9% van de vrouwelijke treinreizigers leest nooit de “Spits”.
b. 23% van de treinreigers die 3 keer of vaker per week de “Spits” lezen is man.
c. 51% van de treinreizigers leest 1 à 2 keer per week de “Spits”.
d. Alle uitspraken bij a, b en c zijn correct.
13. Welke grafiek is het meest geschikt om de gegevens van tabel a in één grafiek weer te geven?
a. Cirkeldiagram
b. Histogram
c. Polygoon
d. Staafdiagram
192
Bijlage 3 Tentamenvragen
Aantal
250
200
150
100
50
0
0 20 40 60 80 100 120 140
Aantal km
Slechts 15 van de 200 ondervraagde treinreizigers wilden hun bruto jaarinkomen geven.
Deze bruto jaarinkomens (in duizend gulden) bedragen:
12 ; 40 ; 67 ; 50 ; 45 ; 8 ; 50 ; 25 ; 34; 75 ; 35 ; 29 ; 0 ; 6 ; 86.
15. Het mediane inkomen (in duizend gulden) van de 15 treinreizigers, die hun bruto jaarinkomen gaven,
bedraagt:
a. 25
b. 35
c. 50
d. 86
16. De standaardafwijking van de inkomens (in duizend gulden) van de 15 treinreizigers, die hun bruto
jaarinkomen gaven, bedraagt:
a. 16
b. 20
c. 26
d. 32
17. Het bereik van de inkomens (in duizend gulden) van de 15 treinreizigers, die hun bruto jaarinkomen gaven,
bedraagt:
a. 15
b. 20
c. 74
d. 86
193
Statistiek met Excel 2016
18. Als het inkomen niet in guldens wordt gemeten, maar in Euro’s met een omrekenfactor van
Euro = 2 gulden, dan:
a. verandert de standaardafwijking niet
b. wordt de standaardafwijking 1/2 keer zo groot
c. wordt de standaardafwijking 2 keer zo groot
d. wordt de standaardafwijking 4 keer zo groot
20. Van de waarden op vraag 4 (“Wat vindt u van de inhoud van de Sp!ts?”) kun je de volgende spreidingsmaat
berekenen:
a. Bereik
b. Kwartielafstand
c. Standaardafwijking
d. Geen van bovenstaande antwoorden is juist
21. Ga ervan uit dat de kans dat een jongen geboren wordt gelijk is aan de kans dat een meisje geboren wordt
oftewel P(jongen) = P(meisje) = 0,5. Welke kans is het grootst als je kijkt naar het geslacht van de eerste twee
kinderen die in het Medisch Spectrum Twente geboren worden in het nieuwe jaar.
a. Beide kinderen hebben hetzelfde geslacht
b. Het eerste kind is een jongen, het tweede kind is een meisje
c. Het eerste kind is een meisje, het tweede kind is een jongen
d. De mogelijkheden genoemd bij a, b en c hebben allen dezelfde kans.
194
Bijlage 3 Tentamenvragen
22. Bij het gooien met een “eerlijke” dobbelsteen is de kans op het gooien van een 4 gelijk aan 1/6.
Hoe groot is de kans, wanneer je twee keer met die dobbelsteen gooit je beide keren een 4 gooit?
a. 1/36
b. 1/12
c. 1/6
d. 1/3
23. Iemand gooit 4 keer met een “eerlijke” dobbelsteen. Welke van onderstaande volgorden is het meest
waarschijnlijk dat gegooid wordt?
a. Eerst een 1, dan een 2, vervolgens een 3 en ten slotte een 4
b. Eerst een 1, dan een 1, vervolgens een 1 en ten slotte een 1
c. Eerst een 3, dan een 5, vervolgens een 2 en ten slotte een 6
d. Alle volgorden genoemd bij a, b en c zijn even waarschijnlijk
24. Je ontmoet een willekeurige Nederlander (X). Welke kans is het grootst?
a. P(X is een docent)
b. P(X is een docent of een minister)
c. P(X is een docent en woont in Amsterdam)
d. P(X is een docent of een minister en woont in Amsterdam of in Den Haag)
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
X
25. Zie ook grafiek 3. Als bij een binomiale kansverdeling p = 0,3 en n = 10 dan is de verwachtingswaarde van de
binomiale kansverdeling:
a. 0,03
b. 1,45
c. 2,10
d. 3,00
195
Statistiek met Excel 2016
27. Uit een groep van 9 vrouwelijke en 18 mannelijke journalisten werd een aselecte steekproef van 5 journalisten
getrokken zonder “terugleggen” om het bezoek van koningin Beatrix aan de Nederlandse Antillen te volgen.
De kansverdeling van het aantal vrouwen in de steekproef is:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson
28. Zie ook opgave 27. Uit een groep van 9 vrouwelijke en 18 mannelijke journalisten werd een aselecte
steekproef van 5 journalisten getrokken zonder “terugleggen”, om het bezoek van koningin Beatrix aan de
Nederlandse Antillen te volgen. De kans dat het aantal vrouwen in de steekproef gelijk is aan 2 is:
a. 0,1111
b. 0,3292
c. 0,3639
d. 0,7901
29. Aan een lopende band worden zeer veel plastic “Superfris” flessen per uur geproduceerd en gecontroleerd.
Het aantal niet-geschikte flessen dat op deze lopende band terecht komt is gemiddeld 20 per uur. Het aantal
niet-geschikte flessen dat op deze lopende band terechtkomt gedurende 10 minuten heeft de volgende
kansverdeling:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson
30. Zie ook opgave 29. Aan een lopende band worden zeer veel plastic “Superfris” flessen geproduceerd en
gecontroleerd. Het aantal niet geschikte flessen dat op deze lopende band terecht komt is gemiddeld 20 per
uur. Hoe groot is de kans dat het aantal niet geschikte flessen dat op deze lopende band terechtkomt
gedurende een aselect gekozen periode van 10 minuten gelijk is aan 2?
a. 0,0000
b. 0,0176
c. 0,1982
d. 0,7165
31. Bij de productie van seriële interfaces blijkt 9% niet aan de eisen te voldoen. De kansverdeling van het aantal
seriële interfaces dat niet aan de eisen voldoet bij een aselecte steekproef van 50 seriële interfaces is:
a. binomiaal
b. hypergeometrisch
c. normaal
d. Poisson
32. Zie ook opgave 31. Bij de productie van seriële interfaces blijkt 9% niet aan de eisen te voldoen. Hoe groot is
de kans dat het aantal seriële interfaces dat niet aan de eisen voldoet bij een aselecte steekproef van 50
seriële interfaces groter of gelijk is aan 4?
a. 0,1973
b. 0,3303
c. 0,5277
d. 0,6697
196
Bijlage 3 Tentamenvragen
kansdichtheid 0,25
0,20
0,15
0,10
0,05
0,00
4 5 6 7 8 9 10 11 12 13 14 15 16
X
33. Zie grafiek 4. Bij de normale verdeling met µ = 10 en = 2 is P(7 < X < 10) gelijk aan:
a. 0,13
b. 0,27
c. 0,43
d. 0,57
34. De hoeveelheid bier die per keer uit een vulmachine voor flesjes bier komt is bij benadering normaal verdeeld
met µ = 30,4 cl en = 0,5 cl. Hoe groot is de kans dat een flesje bier die door deze vulmachine gevuld wordt
niet minimaal de 30,0 cl bevat die op het etiket vermeld staat?
a. 0,0026
b. 0,0359
c. 0,2119
d. 0,8000
35. De hoeveelheid bier die per keer uit een vulmachine voor flesjes bier komt is bij benadering normaal verdeeld
met µ = 30,4 cl en = 0,5 cl. Op welke hoeveelheid moet deze vulmachine minimaal afgesteld worden, zodat
de kans dat een flesje minder dan 30 cl bier bevat hooguit 0,0001 is, ervan uitgaande dat de
standaardafwijking dan niet veranderd?
a. 28,5 cl
b. 28,6 cl
c. 31,9 cl
d. 32,3 cl
197
Statistiek met Excel 2016
Het management van een frisdrankenfabriek wil een methode ontwikkelen om de leveringskosten van kratten
frisdrank door te berekenen aan haar klanten. Eén van de aspecten die de leveringskosten beïnvloeden is de tijd
die nodig is om de afstand tot de klant af te leggen. Het management verwacht een lineair verband tussen tijd en
afstand. Van 10 aselect gekozen leveringen aan klanten verzamelt het management gegevens over de tijd die de
levering kost en de afstand tot de klant.
In onderstaande tabel zijn deze gegevens weergegeven:
36. Aan de hand van bovenstaande gegevens wil het management de lineaire regressielijn bepalen op basis van
de kleinste kwadraten methode.
Welke variabele moet zij kiezen als afhankelijke (gevolg) en welke variabele als onafhankelijke variabele
(oorzaak)?
a. afhankelijke: afstand onafhankelijke: klant
b. afhankelijke: afstand onafhankelijke: tijd
c. afhankelijke: tijd onafhankelijke: afstand
d. afhankelijke: tijd onafhankelijke: klant
37. Wanneer bij bovenstaande gegevens de variabele ‘Afstand” met x en de variabele ‘Tijd’ met y wordt
aangeduid dan luidt de vergelijking van de regressielijn op basis van de kleinste kwadraten methode:
a. y = 0,6 x + 35,0
b. y = 1,4 x – 34,0
c. y = 8,8 x + 23,5
d. y = 10,4 x + 11,9
38. De correlatiecoëfficiënt (r) tussen ‘Tijd’ en ‘Afstand’ op basis van de gegevens uit tabel 1 is gelijk aan:
a. 0,30
b. 0,41
c. 0,83
d. 0,91
198
Bijlage 3 Tentamenvragen
Een ander aspect dat de leveringskosten beïnvloedt is de tijd die nodig is om de kratten frisdrank uit te laden bij de
klant. Ook hier verwacht het management een lineair verband tussen de variabele “aantal af te leveren kratten” en
de variabele “tijd”. Aan de hand van 20 gegevens over het aantal af te leveren kratten en de ermee gemoeide tijd
voert het management met behulp van Excel een lineaire regressie analyse uit, waarbij ze het aantal kratten als x
variabele kiest en de tijd als y variabele.
Hieronder zie je een gedeelte van de uitvoer die ze krijgt van de lineaire regressie analyse.
SAMENVATTING UITVOER
Variantie-analyse
Vrijheidsgraden Kwadratensom
Regressie 1 2443,466006
Storing 18 71,03149378
Totaal 19 2514,4975
Coëfficiënten Standaardfout
Snijpunt 24,83 1,054218648
Aantal kratten 0,14 0,005627243
39. De vergelijking van de lineaire regressielijn op basis van bovenstaande gegevens luidt:
a. y = 0,14 x + 24,83
b. y = 0,97 x + 20
c. y = 24,83 x + 0,14
d. y = 2443 x + 71
40. Voor een bepaald product uit het assortiment van de frisdrankenfabriek bestaat een negatief verband tussen
de ‘Prijs van het product’ en de ‘Afzet van dat product’. Het blijkt dat de prijs 64% van de spreiding van de
afzet kan verklaren. Hoe groot is de correlatiecoëfficiënt (r) voor de samenhang tussen ‘Prijs’ en ‘Afzet’ van het
product?
a. – 0,80
b. – 0,64
c. + 0,64
d. + 0,80
41. De vergelijking die het lineaire verband weergeeft tussen ‘Temperatuur’ (x) gemeten in 0C en de ‘Afzet van een
bepaalde frisdrank’ (y) gemeten in hectoliters luidt: y = 0,83 x – 0,46
Hieruit kun je concluderen dat de correlatie tussen x en y:
a. negatief is
b. zwak negatief is
c. positief is
d. zwak positief is
42. Op basis van de regressielijn genoemd bij opgave 41 (y = 0,83 x – 0,46) is de voorspelling van de afzet (in hl. in
2 decimalen) van de desbetreffende frisdrank bij een temperatuur van 20 0C gelijk aan:
a. 16,14
b. 17,06
c. 20,37
d. 23,54
199
Statistiek met Excel 2016
90
80
70
60
43. Zie bovenstaand spreidingsdiagram van de omzet van “Cocicool”. Een voorspelling van de omzet voor het jaar
f(x) = 10 x − 20070
2020 op basis van de regressielijn geeft eenR² omzet van 130 * € 100.000. Deze voorspelling is zeer
Omzet (* € 100.000)
= 0.0769230769230769
onbetrouwbaar omdat:
a. bij50de voorspelling erg sterk geëxtrapoleerd wordt
b. de regressielijn slechts op bepaald is op basis van 3 punten
c. er sprake is van een verwaarloosbare correlatie
d. alle antwoorden genoemd bij a, b en c zijn juist
40
Het management van een frisdrankfabriek wil de afzet van één van haar producten (“Ansicool”) analyseren om
hiermee voorspellingen voor de verschillende kwartalen van het jaar 2014 te kunnen doen. Het management heeft
30 beschikking over de gegevens die in onderstaande tabel zijn opgenomen.
daarvoor de
44. Wat is het trendcijfer in hectoliters (afgerond op 1 decimaal) voor “Ansicool” in het vierde kwartaal van 2011,
wanneer dit berekend wordt op basis van het voortschrijdend gemiddelde?
a. 5,3
b. 10,3
c. 11,8
d. 12,7
200
Bijlage 3 Tentamenvragen
45. Het management besluit dat het additieve model het beste past bij de gegevens van “Ansicool”.
De 4 seizoenscomponenten (seizoenspatronen) zijn dan gelijk aan:
(N.B. Deze opgave kan ook zonder rekenwerk goed beantwoord worden).
a. Kwartaal I: – 5 Kwartaal II: + 5 Kwartaal III: + 7 Kwartaal IV: – 7
b. Kwartaal I: + 5 Kwartaal II: – 5 Kwartaal III: – 7 Kwartaal IV: + 7
c. Kwartaal I: + 7 Kwartaal II: – 7 Kwartaal III: + 5 Kwartaal IV: – 5
d. Kwartaal I: 60 Kwartaal II: 138 Kwartaal III: 159 Kwartaal IV: 43
Voor een ander product “Sisicool” van de frisdrankfabriek, heeft het management op basis van de afzetgegevens
over de kwartalen van 2011-2013 de trend berekend op basis van het voortschrijdend gemiddelde. Zie tabel 4.
Tabel 4: Afzet en trend van “Sisicool” per kwartaal over de jaren 2011-2013
De seizoensindices bepaald op basis van het multiplicatieve model luiden als volgt:
Kwartaal I II III IV
Seizoenindex 76 122 129 73
46. Hoeveel bedraagt de toevallige afwijking (in %) voor de afzet van “Sisicool” in het eerste kwartaal van 2012 op
basis van bovenstaande gegevens? Het multiplicatieve model dat gebruikt wordt is:
Tijdreeks = Trend * Seizoensindex * Toevalllige afwijking
a. – 0,83
b. – 0,63
c. + 0,63
d. + 0,83
Het management verwacht dat de stijging van de trendcijfers na het tweede kwartaal van 2013 gelijk zal zijn aan
de gemiddelde stijging van de trendwaarden van het derde kwartaal van 2011 tot en met het tweede kwartaal van
2013.
47. Wat is het trendcijfer (afgerond op 1 decimaal) dat het management voor het tweede kwartaal van 2014 op
basis van bovenstaande gegevens voor het product “Sisicool” verwacht?
a. 318,9
b. 330,0
c. 341,0
d. 374,0
201
Statistiek met Excel 2016
48. De afzet van “Sisicool” in het eerste kwartaal van 2014 bedroeg 250,2 hectoliter. De afzet van “Sisicool” in het
eerste kwartaal van 2014 gecorrigeerd volgens het multiplicatieve model bedraagt in hectoliters (afgerond op
1 decimaal):
a. 174,2
b. 190,2
c. 326,2
d. 329,2
49. Op basis van bovenstaande gegevens heeft het management de trend ook op basis van lineaire regressie
analyse laten berekenen. Voor het derde kwartaal van 2014 heeft zij een trendcijfer voor de afzet gevonden
van 348,1 hectoliter.
Welke afzet (in hectoliters afgerond op 1 decimaal) mag het management op basis van deze gegevens en het
ontwikkelde multiplicatieve model verwachten voor het derde kwartaal van 2014?
a. 269,8
b. 348,1
c. 449,0
d. 477,1
50. Van een nieuw frisdrankproduct dat pas sinds 2 januari 2014 op de markt is, heeft het management de
gegevens van de afzet over de weken in de maanden januari, februari en maart van 2014. Welke van de
onderstaande tijdreeks componenten kan het management aan de hand van deze gegevens bepalen?
a. Cyclus
b. Seizoen
c. Trend
d. Geen van bovenstaande componenten
10 – 19 20 – 29 30 – 59 > 60 Totaal
Wel 30 20 10 5 65
Niet 10 30 50 45 135
Totaal 40 50 60 50 200
51. Om te onderzoeken of er een verband bestaat tussen het wel of niet drinken van Sisicool en leeftijdscategorie
moet je gebruik maken van:
a. Binomiaaltoets
b. Chi-kwadraattoets
c. Normaaltoets
d. Regressieanalyse
52. Als je van de veronderstelling uitgaat dat er geen verband bestaat tussen het wel of niet drinken van Sisicool
en leeftijdscategorie dan is de verwachtingswaarde voor het aantal mensen dat wel Sisicool drinkt in de
leeftijdscategorie 20 – 29 gelijk aan:
a. 16
b. 20
c. 34
d. 50
53. Neem voor de toets een maximale onbetrouwbaarheid (α) van 5%. Hoe groot is de overschrijdingskans?
a. 0%
b. 5%
c. 7,8%
d. 52,6%
202
Bijlage 3 Tentamenvragen
55. Hoe sterk is de samenhang tussen de variabelen wel of niet drinken van Sisicool en de leeftijdscategorieën?
a. Verwaarloosbaar
b. Zwak
c. Matig
d. Zeer sterk
Antwoorden
Vraag Antwoord Vraag Antwoord Vraag Antwoord Vraag Antwoord Vraag Antwoord
1 b 12 c 23 d 34 c 45 a
2 a 13 d 24 b 35 c 46 d
3 d 14 c 25 d 36 c 47 c
4 b 15 b 26 b 37 a 48 d
5 b 16 c 27 b 38 d 49 c
6 a 17 d 28 c 39 a 50 d
7 a 18 b 29 d 40 a 51 b
8 c 19 b 30 c 41 c 52 a
9 d 20 d 31 a 42 a 53 a
10 c 21 a 32 d 43 d 54 b
11 c 22 a 33 c 44 c 55 d
203
Statistiek met Excel 2016
Bijlage 4: Excelbestanden
Werkmap Werkblad(en)
Fictie2000 Data
Dagbladabonnementen Data
Karakteristieken Losse waarden
Klassen
Discrete kansverdelingen Binomiaal
Hypergeometrisch
Negatief binomiaal
Poisson
Continue kansverdelingen Normaal
Exponentieel
Chi-kwadraattoets Afhankelijkheid
Representativiteit
Tijdreeksanalyse Additief kwartalen
Multiplicatief kwartalen
Additief trimesters
Multiplicatief trimesters
204