Professional Documents
Culture Documents
Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
1 0.912 0.832 0.806 4.43830
ANOVA
Sum of
Model Squares df Mean Square F Sig.
Regression 3796.48 6 632.75
Residual 768.24 39 19.70
Total 4564.72 45
Coefficients
Unstandardized
Coefficients
Model B Std. Error t Sig.
(Constant) 5.65 4.08 1.384 0.174
NFACULTY 0.19 0.08 2.477 0.018
NGRADS -0.02 0.02 -0.855 0.398
PCTSUPP 0.09 0.03 2.644 0.012
PCTGRANT 0.23 0.05 5.028 0.000
NARTICLE 0.05 0.03 1.695 0.098
PCTPUB 0.07 0.06 1.025 0.312
a. Specificeer de nul- en alternatieve hypothese van de F -toets.
b. Bereken de F -waarde.
c. Is dit model significant beter dan het voorspellen op basis van de gemiddelde kwaliteit? Gebruik
α = .05.
d. Hoeveel procent van de variantie in kwaliteit wordt verklaard door de predictoren?
e. Welke predictoren dragen significant bij aan dit model? Gebruik α = .05.
f. Wat is de waarde van de multipele correlatie? Wat betekent deze correlatie?
*****
Antwoord:
a. H0: β1 = β2 = β3 = β4 = β5 = β6 = 0; Ha : Minstens een β wijkt af van 0.
n
(ŷ −ȳ)2
P
SSreg
i=1
k −1 dfreg MSreg 632.75
b. F = n = SSres = MSres = 19.70 = 32.12
(ȳ −ŷ)2
P
dfres
i=1
n−k
c. Dit is een doordenker, als het model (en dus de F-toets) niet significant is, kan het model kwaliteit
niet beter voorspellen dan het gemiddelde. Als je in de F -tabel kijkt vind je bij df1 = 6 en df2 = 39
(naar beneden afgerond 30) en α = .05 een grenswaarde van F = 2.4205. De berekende F van 32.12
is extremer dan deze grenswaarde. Dit betekent dat het model significant is en kwaliteit dus beter
voorspeld wordt door het model dan op basis van de gemiddelde kwaliteit.
d. De proportie verklaarde variantie wordt weergegeven in R 2. In dit geval is R 2 = 0.832. Als we dit
omzetten naar procenten dan is het percentage verklaarde variantie 0.832 × 100 = 83.17%.
e. Als we de p-waarde (Sig.) bekijken dan zien we dat alleen voor predictoren NFACULTY, PCTSUPP
en PCTGRANT geldt p < α.
f. De multipele correlatie is R = 0.91 . Dit is de correlatie tussen de geobserveerde en voorspelde y
(geobserveerde en voorspelde kwaliteit).
Opgave 2 Stemgedrag en inkomen
Een logistische regressievergelijking die het stemmen op een bepaalde kandidaat (y ) voorspelt op basis
van het inkomen in duizenden euro’s (x) ziet er als volgt uit:
e−1+0.02x
P(stem = ja) = 1+e−1+0.02x
.
a. Wat is de voorspelde kans om ja te stemmen op de kandidaat (i) voor iemand met een inkomen van
10,000 euro, en (ii) voor iemand met een inkomen van 100,000 euro?
b. Op wat voor manier lijkt de kans gerelateerd aan het inkomen?
*****
Antwoord:
e−1+0.02×10 e−0.8
a. Voor persoon (i): P(stem = ja) = 1+e −1+0.02×10 = 1+e−0.8
= 0.31.
e−1+0.02×100 e1
Voor persoon (ii): P(stem = ja) = 1+e −1+0.02×100 = 1+e1
= 0.73.
b. De kans om op een bepaalde kandidaat te stemmen wordt groter als het inkomen stijgt.
Opgave 3 Logistische regressie
De kans om wel (y = 1) of niet (y = 0) te slagen voor een tentamen wordt voorspeld op basis van de
continue score op een intelligentietest x1 en een dummy variabele: het wel (x2 = 1) of niet (x2 = 0) volgen
van een extra training. Respondenten A en B hebben een intelligentiescore x1 = 100. A heeft de training
niet gevolgd en B wel. Respondenten C en D hebben een intelligentiescore x1 = 130. C heeft de training
niet gevolgd en D wel. De regressievergelijking in termen van logits is:
h i
P(y=1)
log 1−P(y=1) = −6 + 0.08x1 + 1x2.
De interpretatie: de kansverhoudig tussen wel en niet slagen, is 2.7183 keer zo groot voor mensen
die een training hebben gevolgd als voor mensen die geen training hebben gevolgd.
0.9526
e. Kansratio bij x1 = 100: 0.8808 = 1.0815.