You are on page 1of 13

Oefententamen Toetsende Statistiek.

Versie B
Auteur: Niels Smits, Kees-Jan Kan en Andries van der Ark

mei 2016

Dit tentamen bevat 30 meerkeuzevragen. Bij elke meerkeuzevraag is slechts één alternatief het juiste of het beste
antwoord. Als u van mening bent dat het juiste antwoord niet bij een vraag staat, kies dan het best passende
antwoord. Vergeet niet uw versienummer in te vullen! Formulieren zonder versienummer worden niet
nagekeken.

Op uw tafel ligt alleen: Na afloop:


• legitimatie en collegekaart (rechter boven- • lever gebruikt kladpapier in
hoek)
• noteer uw naam op de afte-
• MC-antwoordblad kenlijst
• rekenmachine (geen grafische)
• geheel onbeschreven formuleboekje
• door de surveillant verstrekt kladpapier
• pen of potlood, gum of tipp-ex

1
2 Versie B

Opgave 1. Bij het vergelijken van twee gemiddelden (onafhankelijke groepen) wordt soms aangeno-
men dat de standaardeviaties op populatieniveau gelijk zijn. In welke van de volgende gevallen mag
deze aanname worden gedaan?
I. Als we in de steekproeven vinden s1 = 20 en s2 = 25.
II. Als we in de steekproeven vinden s1 = 20 en s2 = 8.

a. In beide gevallen.

b. In geen van de gevallen.

c. Enkel in geval I.

d. Enkel in geval II.

*****

Opgave 2. In welke Normale verdeling is een geobserveerde score van x = 14 relatief het hoogst?

a. µ = 10, σ = 2.

b. µ = 10, σ = 3.

c. µ = 12, σ = 2.

d. µ = 12, σ = 3.

*****

Opgave 3. Gegeven de volgende proporties in twee onafhankelijke steekproeven met beide een steek-
proefgrootte van 250: pˆ1 = 0.40 en pˆ2 = 0.60. Wat is de bovengrens van het 90% betrouwbaarheids-
interval van pˆ1 − pˆ2 ?

a. −0.29.

b. −0.27.

c. −0.13.

d. −0.11.

*****
Versie B 3

Opgave 4. Een levensmiddelenfabrikant heeft een nieuwe reclamespot bedacht voor hun ’Kanjerkaas’
pindakaas. Om na te gaan of de reclame aan zal slaan, wordt 200 kinderen voor en na het bekijken
van de reclamespot gevraagd hun favoriete pindakaasmerk te noemen.

Voorkeur na
Voorkeur voor Kanjerkaas Anders
Kanjerkaas 104 6
Anders 14 79

Heeft de reclame effect? Neem α = 0.05

a. Wel bij eenzijdige toetsing, maar niet bij tweezijdige toetsing.

b. Ja, volgens zowel eenzijdige als tweezijdige toetsing.

c. Niet bij eenzijdige toetsing, maar wel bij tweezijdige toetsing.

d. Nee, bij zowel eenzijdige als tweezijdige toetsing.

*****

Opgave 5. In een onderzoek worden academische en regionale ziekenhuizen vergeleken op het succes
waarmee kinderen met gedragsstoornissen worden behandeld, waarbij succes is gedefinieerd als een
vermindering van de klachten. In de analyse worden resultaten ook uitgesplitst voor zware en lichte
gevallen.

Resultaat van behandeling


Type ziekenhuis Succes Geen succes % Succes
Academisch 138 62 69%
Regionaal 152 48 76%

Resultaat van behandeling


Type ziekenhuis Type gevallen Succes Geen succes % Succes
Academisch licht 18 2 90%
zwaar 120 60 67%
Regionaal licht 140 40 78%
zwaar 12 8 60%

Maakt het uit of er wordt gecontroleerd voor Type gevallen?

a. Nee, in beide gevallen doen academische ziekenhuizen het beter.

b. Nee, in beide gevallen doen regionale ziekenhuizen het beter.

c. Ja, zonder controle doen academische ziekenhuizen het beter, maar met controle doen regionale
ziekenhuizen het beter.

d. Ja, zonder controle doen regionale ziekenhuizen het beter, maar met controle doen academische
ziekenhuizen het beter.

*****
4 Versie B

Opgave 6. In een onderzoek naar seksuele aantrekkingskracht werden de volgende frequenties gevon-
den:

Eigen geslacht
Antwoord Mannelijk Vrouwelijk Totaal
Enkel tot het andere geslacht 158 166 324
Tot beide geslachten 36 24 60
Enkel tot hetzelfde geslacht 6 8 16
Total 200 200 400

Wat is onder onafhankelijkheid de verwachte frequentie vrouwen die zich aangetrokken kan voelen tot
zowel mannen als vrouwen?

a. 30.

b. 60.

c. 6.

d. 40.

*****

Opgave 7. De onvolledige frequentietabel hieronder geeft de uitkomst weer van een replicatie van
Fisher’s beroemde theeproef-experiment, maar met een groter aantal waarnemingen dan oorspronke-
lijk. Waaraan kun je onmiddellijk zien dat Fisher’s exact test nog steeds nodig is en niet de χ2 -toets
gebruikt mag worden?

Voorspelling
Werkelijkheid Melk Thee Totaal
Melk ? ? 9
Thee ? ? 9
Totaal 9 9 18

Het aantal waarnemingen is in tenminste één van de cellen lager dan de vereiste .
(Vul aan).

a. geobserveerde, 5.

b. verwachte, 5.

c. geobserveerde, 10.

d. verwachte, 10.

*****
Versie B 5

P
Opgave 8. Bekend is dat de formule voor enkelvoudige regressie ŷ = a+bx is, waarbij b = (x−x̄)(y−ȳ)
P
(x−x̄)2
en a = ȳ − bx̄. Vul aan. b heeft altijd hetzelfde teken als de correlatie tussen x en y; de
regressielijn gaat altijd door het punt (x̄,ȳ).

a. wel, wel.

b. wel, niet.

c. niet, wel.

d. niet, niet.

*****

Opgave 9. Wanneer is bij enkelvoudige regressie de residuele standaardafwijking s kleiner dan sy ?


Vul aan: als parameter afwijkt van 0, dat wil zeggen, als y over het algemeen dicht bij
ligt.

a. α, ȳ.

b. α, ŷ.

c. β, ȳ.

d. β, ŷ.

*****

Opgave 10. Gegeven is de volgende regressievergelijking: ŷ = 28.230 + 0.103x1 − 0.097x2 . Hans heeft
de volgende scores: y = 17, x1 = 46 en x2 = 84. Wat is zijn residu?

a. −15.42.

b. 15.42.

c. −7.80.

d. 7.80.

*****

Opgave 11. Wat is een van de eigenlijke aannamen die geldt bij enkelvoudige regressie?

a. De afhankelijke variabele is normaal verdeeld in de populatie.

b. De afhankelijke variabele is normaal verdeeld in de steekproef.

c. De residuen van de afhankelijke variabele zijn normaal verdeeld.

d. De residuen van de onafhankelijke variabele zijn normaal verdeeld.

*****
6 Versie B

Opgave 12. Gegeven zijn de volgende enkelvoudige en meervoudige regressievergelijkingen:

ŷ = −0.51 + 0.06x1 .
ŷ = 7.78 − 0.04x2 .
ŷ = −7.51 + 0.10x1 + 0.08x2 .

Hoeveel neemt het verwachte gemiddelde op y toe als x1 met één eenheid toeneemt en x2 constant
wordt gehouden?

a. 0.08.

b. 0.06.

c. 0.10.

d. −0.04.

*****

Opgave 13. Je leest een rapport naar gemeentelijke verschillen in sociaal economische omstandighe-
den van kinderen en je komt de volgende tabel tegen met daarin enkele samenvattende gegevens over
inkomen (uitgedrukt in duizenden euro’s per jaar) en educatie van ouders (uitgedrukt in percentage
inwoners met tenminste een diploma Hoger Algemeen Voortgezet Onderwijs).

Variabele Gemiddelde Variantie Parameter Schatting


Inkomen 24.51 22.0 Intercept −4.60
Educatie 69.49 78.5 Richtingscoëfficient 0.42

Je wilt nu de correlatie tussen educatie en inkomen weten, maar deze staat nergens vermeld. Wel bevat
de tabel de resultaten van een enkelvoudige regressie, waarbij educatie de predictor was en inkomen
de responsvariabele. Leid hier de correlatie uit af. Rond af op 1 decimaal.

a. r = 0.1.

b. r = 0.2.

c. r = 0.4.

d. r = 0.8.

*****
Versie B 7

Opgave 14. In het onderstaande figuur, dat met het programma G*power is verkregen, wordt de
steekproevenverdeling van het verschil in proporties weergegeven onder twee hypothesen, H0 (verschil
in proporties = 0) en Ha . De kritieke z-waarde voor de resulterende toets is ook gegeven. Uit dit figuur
valt op te maken dat in dit specifieke geval de kans op het onterecht verwerpen van H0 is
dan de kans op het niet ontdekken van een effect indien Ha waar is. De waarde van α bedraagt
(vul aan).

critical z = 1.64485

0.3

0.2

β
0.1
α

0
-3 -2 -1 0 1 2 3

a. kleiner, 0.05.

b. kleiner, 0.10.

c. groter, 0.05.

d. groter, 0.10.

*****

Opgave 15. Welk van de onderstaande stellingen I en II is juist?

I. De keuze van een strenger significantieniveau van α = 0.01 in plaats van α = 0.05 zal vaker
leiden tot een terechte verwerping van de nulhypothese (H0 ).

II. De keuze voor deze strengere α heeft consequenties voor het onderscheidingsvermogen van de
toets.

a. enkel stelling I is juist

b. enkel stelling II is juist

c. stellingen I en II zijn beide juist

d. geen van de stellingen is juist

*****
8 Versie B

Opgave 16. Wanneer gebruiken we exponentiële regressie? Kies het beste antwoord.

a. Als het verband tussen x en y niet lineair is, maar een andere vorm aanneemt.

b. Als het verband tussen x en y sterker wordt naarmate x groter is.

c. Als het verband tussen de logaritme van x en de logaritme van y lineair is.

d. Als het verband tussen x en y niet additief, maar multiplicatief is.

*****

Opgave 17. In een onderzoek wordt een regressievergelijking met 3 predictoren geschat op de data
van 20 waarnemingen en is de volgende ANOVA-tabel het resultaat:

Source SS df
Regression 1176.18 3
Residual 364.28 ?

Wat is de F -ratio van dit model?

a. 23.27.

b. 25.83.

c. 17.22.

d. 18.30.

*****

Opgave 18. Drie experimentele condities worden vergeleken op de gemiddelde testscore. In het totaal
doen 45 personen mee. In onderstaande tabel staat voor elke conditie het gemiddelde op de test, het
aantal observaties en de standaardafwijking vermeld.

Groep
1 2 3
Aantal 18 12 15
Gemiddelde 27 23 29
Standaardafwijking 7 4 5

Hoe groot is de kwadratensom van de verschillen binnen groepen (SSwithin ) van het ANOVA model
dat wordt gebruikt om te toetsen of de gemiddelden in de drie condities van elkaar verschillen?

a. 3236.

b. 1359.

c. 2038.

d. 2157.

*****
Versie B 9

Opgave 19. In een onderzoek worden kinderen uit drie verschillende Rotterdamse stadsdelen (N =
75) vergeleken op het aantal uren dat ze per week buitenspelen. De volgende (incomplete) ANOVA-
tabel is het resultaat:

Bron SS
Tussen stadsdelen 1362.21
Binnen stadsdelen 5659.02

Hoe groot is de variantie op de variabele uren buiten spelen?

a. 94.88.

b. 93.62.

c. 78.60.

d. 76.47.

*****

Opgave 20. Gegeven is de volgende ANOVA-tabel van een Two-way ANOVA met interactie. Geef
aan hoe groot de gevonden F -waarde is die hoort bij de toets voor het interactie-effect en of dit effect
wel of niet significant is (bij α = 0.05).

Source Sum of Squares df


Corrected Model 70.00 5
Intercept 2450.00 1
Factor A 49.00 2
Factor B 18.00 1
A*B 3.00 2
Error 52.00 12
Total 2572.00 18
Corrected Total 122.00 17

a. De gevonden F ligt tussen 0 en 1 en is wel significant.

b. De gevonden F ligt tussen 0 en 1 en is niet significant.

c. De gevonden F ligt tussen 1 en 3 en is niet significant.

d. De gevonden F ligt tussen 1 en 3 en is wel significant.

*****
10 Versie B

Opgave 21. In een onderzoek naar inspanning zijn de twee factoren: Drug (A of B), en Biofeedback
(ja of nee). De afhankelijke variabele is de toename in bloeddruk ten opzichte van een voormeting.
Gegeven is onderstaande incomplete tabel met celgemiddelden. In elke cel is het aantal observaties
gelijk. Wat is het verwachte gemiddelde voor de deelnemers die zowel Drug A als Biofeedback krijgen
indien er alleen sprake zou zijn van hoofdeffecten?

Drug
A B
Ja ? 1
Biofeedback Nee 11 3

a. 9.

b. 7.5.

c. 12.

d. 11.

*****

De onderstaande logistische regressie-uitkomsten zijn van toepassing op de volgende twee vragen. In


een onderzoek (n = 50), moeten programmeurs een programmeerprobleem in een uur oplossen. Het
resulterende databestand bevat de responsvariabele ‘opgelost’ (dummy, binnen een uur opgelost=1)
en de predictoren ‘ervaring’ (programmeerervaring in maanden) en opleiding (dummy, HBO = 1, WO
= 0).

_________________________
B SE
_________________________
ervaring ,458 ,140
opleiding -,346 ,678
Constant -5,522 1,709
_________________________

Opgave 22. Hoeveel keer zo groot wordt de odds als een programmeur een maand meer ervaring
heeft (waarbij opleiding constant wordt gehouden)?

a. −0.34.

b. 1.58.

c. 0.46.

d. 1.14.

*****
Versie B 11

Opgave 23. Wat is de kans voor een programmeur met een WO-opleiding en 12 maanden ervaring
het probleem oplost?

a. 0.50.

b. 0.60.

c. 0.10.

d. 0.30.

*****
Plaatje 1 Plaatje 2
y − y^

y − y^
● ● ●
●● ●
● ●
Opgave 24. Welke toets wordt bij logistische
●●

● ●●
regressie


gebruikt?

●●

● ● ● ● ● ● ● ●● ●
●●●● ● ●●
●●
● ●
● ● ●● ●
● ● ● ●
● ● ● ● ● ● ●● ●● ●●● ● ●


a. p-toets. ●
● ● ●● ● ● ●


● ● ● ● ●
●● ●
●●● ● ●●
● ●● ● ●● ●● ●
● ● b. z-toets.
● ●
x
0

●● ● ●● ● ●● ● ●
● ● ● ●
x
0

● ● ● ●
● ● ● ●● ● ● ● ● ●

●●
● ●
c. t-toets.


● ●●



● ●
● ● ●

● ● ●
● ● ●● ● ●
● ● ● ●

● ● ● ● ● ●
● ●●● ● ●●● ● ● ●
d. F●-toets.
● ●

● ● ●


●● ● ● ●●

● ● ●

*****

Opgave 25. Bekijk onderstaande residuenplot. Welke aanname van het multipele regressiemodel
wordt hier geschonden?
Plaatje 3 Plaatje 4
y − y^

y − y^

● ●●
●● ●
● ● ●
● ● ●● ● ●
● ● ● ● ● ●
● ●
● ●
●● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ●

● ● ● ● ●●

●●
● ● ● ●●
●● ● ●●● ●● ● ●●● ●


●● ● ●
● ● ● x
●● ●● ● ●
0

● ● ●
● ● ● ● ●●
● ●
● ● ● ●
● ●
● x ● ● ●●● ●● ● ● ●
●● ●
0

● ●
● ● ●● ● ●● ●


● ● ●●● ● ●● ● ●● ● ●
●● ● ● ●● ● ● ● ● ●● ●
●● ● ● ● ●●
● ● ● ● ● ●● ●
● ● ● ● ●● ● ● ● ●
● ●
● ● ● ● ●
● ● ●
● ●
● ●
● ●

● ●

a. Lineair verband tussen elke predictor en y.

b. Data zijn resultaat van randomisatie.

c. Normaliteit van de residuen.

d. Constante residuele standaardafwijking.

*****
12 Versie B

Opgave 26. Gegeven is de volgende reeks van 8 verschilscores (Na−Voor) op een vaardigheidstest:

-1.0 -0.2 0.2 -0.3 -0.5 -0.6 -0.4 0.1

Bepaal de overschrijdingskans van de ‘Sign test for Matched Pairs’ die wordt gebruikt om te toetsen of
er een stijging van vaardigheid heeft plaatsgevonden. Gebruik daartoe de volgende figuur met kansen
voor het aantal stijgingen bij een reeks van 8 waarnemingen (gebaseerd op een binomiaalverdeling met
kans op succes van 0.50):

● ●

0.2
P(x)

● ●
0.1

● ●

● ●
0.0
0 1 2 3 4 5 6 7 8
x

a. p = 0.96.

b. p = 0.99.

c. p = 0.01.

d. p = 0.14.

*****

Opgave 27. Zet de drie methodes voor het toetsen van gepaarde waarnemingen op volgorde (van
zwak naar sterk) van hun aanname over de vorm van de verdeling op populatieniveau.

a. t-test, Wilcoxon’s rangtekentoets, tekentoets.

b. tekentoets, Wilcoxon’s rangtekentoets, t-test.

c. Wilcoxon’s rangtekentoets, t-test, tekentoets.

d. Wilcoxon’s rangtekentoets, tekentoets, t-test.

*****
Versie B 13

Opgave 28. In onderstaande tabel staat voor elk van drie groepen het aantal waarnemingen en het
gemiddelde rangnummer vermeld:

groep n gem.rang
_______________________
1 15 12.00
2 15 19.87
3 15 37.13
_______________________

De Kruskal-Wallis toetsingsgrootheid geeft een waarde van 28.74. Geef aan hoeveel vrijheidsgraden
de χ2 -benadering van deze grootheid gebruikt en of de uitkomst statistisch significant is.

a. df = 1, wel significant.

b. df = 2, niet significant.

c. df = 2, wel significant.

d. df = 1, niet significant.

*****

Opgave 29. In haar onderzoek wil Tanja weten of de gemiddelde verschillen tussen schooltypes
(openbaar, religieus of anders) op de scores op de CITO-toets hetzelfde zijn voor jongens en meisjes.
Welke methode kan zij het beste gebruiken?

a. Logistische regressie.

b. χ2 -toets voor onafhankelijkheid.

c. t-toets.

d. ANOVA.

*****

Opgave 30. Harmen heeft een databestand met daarin drie variabelen: twee kwantitatieve variabelen
en één categorische variabele met twee niveau’s (0 of 1). Bij deze data kun je (gebruikmakend van
twee of drie variabelen) verschillende analysemethoden toepassen. Welke analysemethode is bij deze
data onmogelijk?

a. Logistische regressie.

b. Multipele regressie.

c. t-toets.

d. Two-Way ANOVA.

*****

You might also like