You are on page 1of 12

Werkgroepopgaven Toetsende Statistiek

Opgave 1 Output interpreteren


De National Academy of Sciences heeft gegevens over 46 research masteropleidingen (RM) Psychologie
op de volgende zes kenmerken:
NFACULTY aantal medewerkers RM
NGRADS aantal afgestudeerden bij RM in onderzoeksjaar
PCTSUPP percentage studenten dat beurs verdiende in onderzoeksjaar
PCTGRANT percentage medewerkers met onderzoeksbeurs in onderzoeksjaar
NARTICLE aantal artikelen gepubliceerd in onderzoeksjaar door medewerkers in de RM
PCTPUB percentage van medewerkers met één of meer publicaties in onderzoeksjaar.
Ook is er een variabele beschikbaar die de kwaliteit van de opleiding meet (QUALITY, de uitkomst van
evaluatie door een visitatiecommmissie). Er wordt multipele regressie gebruikt om kwaliteit te voorspellen
op basis van de zes bovenstaande kenmerken. Zie de output hieronder:

Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
1 0.912 0.832 0.806 4.43830

ANOVA

Sum of
Model Squares df Mean Square F Sig.
Regression 3796.48 6 632.75
Residual 768.24 39 19.70
Total 4564.72 45

Coefficients
Unstandardized
Coefficients
Model B Std. Error t Sig.
(Constant) 5.65 4.08 1.384 0.174
NFACULTY 0.19 0.08 2.477 0.018
NGRADS -0.02 0.02 -0.855 0.398
PCTSUPP 0.09 0.03 2.644 0.012
PCTGRANT 0.23 0.05 5.028 0.000
NARTICLE 0.05 0.03 1.695 0.098
PCTPUB 0.07 0.06 1.025 0.312
a. Specificeer de nul- en alternatieve hypothese van de F -toets.
b. Bereken de F -waarde.
c. Is dit model significant beter dan het voorspellen op basis van de gemiddelde kwaliteit? Gebruik
α = .05.
d. Hoeveel procent van de variantie in kwaliteit wordt verklaard door de predictoren?
e. Welke predictoren dragen significant bij aan dit model? Gebruik α = .05.
f. Wat is de waarde van de multipele correlatie? Wat betekent deze correlatie?
*****
Antwoord:
a. H0: β1 = β2 = β3 = β4 = β5 = β6 = 0; Ha : Minstens een β wijkt af van 0.
n
(ŷ −ȳ)2
P
SSreg
i=1
k −1 dfreg MSreg 632.75
b. F = n = SSres = MSres = 19.70 = 32.12
(ȳ −ŷ)2
P
dfres
i=1
n−k

c. Dit is een doordenker, als het model (en dus de F-toets) niet significant is, kan het model kwaliteit
niet beter voorspellen dan het gemiddelde. Als je in de F -tabel kijkt vind je bij df1 = 6 en df2 = 39
(naar beneden afgerond 30) en α = .05 een grenswaarde van F = 2.4205. De berekende F van 32.12
is extremer dan deze grenswaarde. Dit betekent dat het model significant is en kwaliteit dus beter
voorspeld wordt door het model dan op basis van de gemiddelde kwaliteit.
d. De proportie verklaarde variantie wordt weergegeven in R 2. In dit geval is R 2 = 0.832. Als we dit
omzetten naar procenten dan is het percentage verklaarde variantie 0.832 × 100 = 83.17%.
e. Als we de p-waarde (Sig.) bekijken dan zien we dat alleen voor predictoren NFACULTY, PCTSUPP
en PCTGRANT geldt p < α.
f. De multipele correlatie is R = 0.91 . Dit is de correlatie tussen de geobserveerde en voorspelde y
(geobserveerde en voorspelde kwaliteit).
Opgave 2 Stemgedrag en inkomen
Een logistische regressievergelijking die het stemmen op een bepaalde kandidaat (y ) voorspelt op basis
van het inkomen in duizenden euro’s (x) ziet er als volgt uit:

e−1+0.02x
P(stem = ja) = 1+e−1+0.02x
.

a. Wat is de voorspelde kans om ja te stemmen op de kandidaat (i) voor iemand met een inkomen van
10,000 euro, en (ii) voor iemand met een inkomen van 100,000 euro?
b. Op wat voor manier lijkt de kans gerelateerd aan het inkomen?

*****
Antwoord:
e−1+0.02×10 e−0.8
a. Voor persoon (i): P(stem = ja) = 1+e −1+0.02×10 = 1+e−0.8
= 0.31.
e−1+0.02×100 e1
Voor persoon (ii): P(stem = ja) = 1+e −1+0.02×100 = 1+e1
= 0.73.

b. De kans om op een bepaalde kandidaat te stemmen wordt groter als het inkomen stijgt.
Opgave 3 Logistische regressie
De kans om wel (y = 1) of niet (y = 0) te slagen voor een tentamen wordt voorspeld op basis van de
continue score op een intelligentietest x1 en een dummy variabele: het wel (x2 = 1) of niet (x2 = 0) volgen
van een extra training. Respondenten A en B hebben een intelligentiescore x1 = 100. A heeft de training
niet gevolgd en B wel. Respondenten C en D hebben een intelligentiescore x1 = 130. C heeft de training
niet gevolgd en D wel. De regressievergelijking in termen van logits is:
h i
P(y=1)
log 1−P(y=1) = −6 + 0.08x1 + 1x2.

a. Geef de logistische regressievergelijking.


b. Geef de odds voor respondenten A, B, C en D.
c. Bereken de kans dat respondenten A, B, C en D het tentamen halen.
d. Bereken de oddsratio voor het wel en niet meedoen aan de extra training bij zowel x1 = 100 als
x1 = 130.
e. Bereken de verhouding tussen de slaagkansen voor het wel en niet meedoen aan de extra training bij
zowel x1 = 100 als x1 = 130.
*****
Antwoord:
e−6+0.08x1 +1x2
a. P(y = 1) =
1+e−6+0.08x1 +1x2
b.
Odds A = e−6+0.08x1+1x2 = e−6+0.08×100+0 = e2.0 = 7.39
Odds B = e−6+0.08x1+1x2 = e−6+0.08×100+1 = e3.0 = 20.09
Odds C = e−6+0.08x1+1x2 = e−6+0.08×130+0 = e4.4 = 81.45
Odds D = e−6+0.08x1+1x2 = e−6+0.08×130+1 = e5.4 = 221.41
7.39, 20.09, 81.45,221.41
c.

Odds e2.0 7.39


P(yA = 1) = = = = 0.8808.
1 + Odds 1 + e2.0 8.39

Odds e3.0 20.09


P(yB = 1) = = = = 0.9526.
1 + Odds 1 + e3.0 21.09
Odds e4.4 81.45
P(yC = 1) = = = = 0.9879.
1 + Odds 1 + e4.4 82.45

Odds e5.4 221.41


P(yD = 1) = = = = 0.9955.
1 + Odds 1 + e5.4 222.41
e3.0 20.09 1.00
d. Oddsratio bij x1 = 100: e2.0
= 7.39 = e = 2.72.
e5.4 221.41 1.00
Oddsratio bij x1 = 130: e4.4
= 81.45 = e = 2.72.

De interpretatie: de kansverhoudig tussen wel en niet slagen, is 2.7183 keer zo groot voor mensen
die een training hebben gevolgd als voor mensen die geen training hebben gevolgd.
0.9526
e. Kansratio bij x1 = 100: 0.8808 = 1.0815.

Kansratio bij x1 = 130: 0.9955


0.9879 = 1.0077.
Bij x1 = 100 is de kans om het tentamen te halen met training 1.08 keer zo groot als bij zonder training.
Bij x1 = 130 is de kans om het tentamen te halen met training 1.01 keer zo groot als bij zonder training.
De oddsratio blijft constant, de kans ratio verandert steeds.
Opgave 4 Alle regressies
Maak bij de onderstaande situaties een keuze in type regressie die geschikt zou zijn voor het type data:
a. Een onderzoeker wil weten of hij schooluitval kan voorspellen aan de hand van cijfergemiddelde.
b. Het bestuur van een school wil weten of het aantal minuten huiswerk dat wordt opgegeven de ho-
eveelheid stress die leerlingen ervaren kan voorspellen.
c. Familie Huge krijgt ieder jaar 5% meer mensen in de familie, maar er overlijden er ook 3%. Iemand
uit de familie wil een schatting maken van het aantal mensen in een bepaald jaar.
d. Een onderzoeker wil levenskwaliteit van mensen voorspellen aan de hand van het aantal minuten dat
zij in hun vrije tijd besteden aan computeren, lezen, tv kijken en sporten, gemeten in losse schalen.
*****
Antwoord:
a. Logistische regressie -> de afhankelijke variabele schooluitval is een dichotome variabele.
b. Enkelvoudige regressie -> er is sprake van slechts twee kwantitatieve variabelen, waarbij de afhanke-
lijke variabele niet dichotoom is.
c. Exponentiele regressie -> de absolute stijging is hoger bij hogere waarden van de voorspeller (tijd),
het betreft dus een multiplicatief effect.
d. Multipele regressie -> meerdere voorspellers waarbij de afhankelijke variabele niet dichotoom is.

You might also like