Handleiding MR

M.J.M.
Voeten
J.H.L. van den Bercken
Regressieanalyse met SPSS
Een handleiding voor lineaire regressieanalyse met SPSS
Radboud Universiteit Nijmegen, 2004
www.data-analyse.nl
Regressieanalyse met SPSS 2
Inhoud
1. 1.1
Werken met SPSS REGRESSION Input van data
4 5 5 6 8 10 11 12 13 14 17 17 21
1.1.1 Vorm van de data 1.1.2 Invoer van samenvattende beschrijvende statistieken 1.2 1.2.1 Aansturing Conventies bij het in de tekst weergeven van aansturingen
1.2.2 Aansturing via de dialoogvensters 1.2.3 Aansturing via de syntax 1.2.4 Overzicht van subcommandos 1.2.5 Overzicht van alle opties 1.3 Output
1.3.1 Overzicht van tabellen in de output van REGRESSION 1.3.2 Overzicht van grafieken in de output van REGRESSION
2 2.1 2.2 2.3 2.4 2.5 2.6
Standaardvorm van regressieanalyse Aansturing van LINEAR REGRESSION Output: parametertabel Output: ANOVA-tabel Output: Modelsamenvatting Voorspelde scores en residuen opslaan in het databestand Residuen en uitbijters
24 24 26 28 29 31 31 31 32 35 36 38
2.6.1 Grafische inspectie van de frequentieverdeling van residuen 2.6.2 Spreidingsdiagrammen van residuen 2.6.3 Statistische maten betreffende voorspelde scores en residuen 2.6.4 Gegevens over individuele cases: uitbijters 2.7 Ontbrekende scores
3 3.1
Vergelijken van regressiemodellen
43
Hirarchische regressieanalyse: de additionele bijdragen van predictoren in volgorde 45 48 49 51
3.1.1 Hirarchische of sequentile analyse versus simultane analyse 3.1.2 Keuze van de errorterm bij een hirarchische of sequentile analyse 3.2 Simultane regressieanalyse: toetsing van ongeordende subsets van predictoren
3.3 3.4 3.5 3.6
Simultane regressieanalyse: unieke bijdragen van afzonderlijke predictoren Automatische modelselectie Semi-partile en partile correlaties Regressieanalyse met GLM
53 53 56 59
4 4.1
Regressieanalyse met moderatorvariabelen Voorbereidende constructie van variabelen
65 66 66 68 71 73 74 75 76
4.1.1 Maken van dummyvariabelen 4.1.2 Maken van productvariabelen 4.2 4.3 Uitvoeren van de regressieanalyse Interpretatie van de output
4.3.1 Ongestandaardiseerde regressiecofficinten interpreteren 4.3.2 Verkrijgen van een gestandaardiseerde oplossing 4.3.3 Een grafiek maken van het interactie-effect
Regressieanalyse met mediatorvariabelen
80
6 6.1 6.2
Onderscheidingsvermogen bij regressieanalyse Output van het programma: Tabellen Output van het programma: Grafieken
84 86 88
Literatuurverwijzingen
91
Regressieanalyse met SPSS 1: Inleiding 4
Hoofdstuk 1
Werken met SPSS REGRESSION
Er bestaan diverse pakketten van computerprogrammas voor de statistische analyse van gegevens. SPSS (Statistical Package for the Social Sciences) is een van de meest gangbare, zeker binnen de sociale wetenschappen. Andere pakketten zijn SAS, BMDP, SYSTAT, MINITAB, STATISTICA, S-Plus en STATA. Over het algemeen lijken deze pakketten erg op elkaar voor wat betreft de analyses die ze kunnen doen en de resultaten die ze opleveren. Wel zullen er verschillen zijn in de vormen en opties van regressieanalyse, in de wijze van aansturen, in de lay-out van de output en in de terminologie. Verschillen in terminologie kunnen overigens ook bestaan tussen procedures binnen eenzelfde pakket die (gedeeltelijk) dezelfde analyses kunnen doen, en tussen opeenvolgende versies van eenzelfde procedure.
Deze handleiding betreft versie 12.0 van SPSS voor Windows. We gaan er van uit dat de lezer kan werken met een pc en Windows, en vertrouwd is met de basisfuncties van SPSS: het aanmaken, wijzigen en onderhouden van databestanden in de data-editor, het opslaan van bestanden op een schijf, het lezen van bestanden vanaf een schijf, en het toepassen van beschrijvende en elementaire toetsende technieken. Een goede inleiding in deze materie is, bijvoorbeeld De Vocht (2002). Er zijn ten aanzien van regressieanalyse geen noemenswaardige verschillen tussen versie 10, 11 of 12 van SPSS. Wel is het zo, dat outputbestanden van bijvoorbeeld versie 12 niet kunnen worden gelezen met een eerdere versie. Verder zijn de grafische procedures in versie 12 aanzienlijk gewijzigd.
SPSS heeft verschillende programmas waarmee je een regressieanalyse kunt doen. Deze handleiding is bedoeld voor gebruik bij het boek Lineaire regressieanalyse (Voeten & Van den Bercken, 2003), in het vervolg aangeduid als het regressieboek. De handleiding beperkt zich tot procedures die in dat boek aan de orde komen. Dit betreft voornamelijk de SPSSprocedure REGRESSION. Deze procedure is te gebruiken voor de meest gangbare varianten van univariate lineaire regressieanalyse en is heel gebruikersvriendelijk; de procedure laat
zich aansturen zowel via dialoogvensters als via het syntaxvenster. SPSS kent ook andere procedures waarmee lineaire regressieanalyse kan worden uitgevoerd, namelijk GLM en MANOVA (de laatste is enkel beschikbaar via het syntaxvenster). Deze twee procedures bieden de mogelijkheid voor multivariate regressieanalyses, dat wil zeggen regressieanalyses met twee of meer afhankelijke variabelen tegelijkertijd.
Naast de gewone lineaire regressieanalyse met een kwantitatief gemeten afhankelijke variabele kan men met SPSS ook andere vormen van regressieanalyse toepassen. Zo zijn er procedures voor het geval dat de afhankelijke variabele dichotoom is (Binary Logistic Regression, zie het regressieboek hoofdstuk12, of Probit Regression), of nominaal is (Multinomial Logistic Regression), of ordinaal is (Ordinal Regression). Verder is er een procedure optimal scaling, ook categorical regression genoemd, voor nominale en ordinale data. Deze procedure transformeert de nominale of ordinale data op een manier die optimaal is voor het verkrijgen van een lineaire regressie. Ten slotte, zijn er procedures die van toepassing zijn als het gaat om niet-lineaire relaties tussen kwantitatieve variabelen (curve estimation en nonlinear regression), of wanneer assumpties van de lineaire regressieanalyse vooral de assumpties van homoskedasticiteit of onafhankelijkheid zijn geschonden (respectievelijk weight estimation en2-stage least squares).
1.1
Input van data
Invoer van data om een regressieanalyse op uit te voeren kan op twee manieren, in de vorm van scores van onderzoekseenheden op variabelen of in de vorm van samenvattende statistieken. In deze paragraaf gaan we voornamelijk in op de tweede manier.
1.1.1 Vorm van de data
De meest gebruikelijke input voor een regressieanalyse is een bestand in de vorm van een datamatrix, waarbij de cases de rijen vormen en waarbij in de kolommen de scores op de variabelen staan. Een dergelijke datamatrix wordt aangemaakt met behulp van de data-editor van SPSS. De manier waarop dat gaat veronderstellen we bekend. Bij de aansturing van een regressieanalyse geef je op welke afhankelijke en onafhankelijke variabelen in de analyse mee moeten doen. SPSS leest dan van alle cases de relevante scores en berekent de nodige statistische grootheden: het aantal waarnemingen, het gemiddelde en de standaarddeviatie van
elke variabele en de correlaties tussen alle variabelen. Deze beschrijvende statistieken zijn de essentile bestanddelen voor een regressieanalyse. Ze zijn voldoende voor het uitvoeren van de analyse, behalve wanneer men residuen wil analyseren. Voor de procedures besproken in hoofdstuk 7 en 8 van het regressieboek moet men de beschikking hebben over de oorspronkelijke data: scores van cases op variabelen.
Het is mogelijk om de essentile beschrijvende statistieken rechtstreeks in te voeren, hetzij via het syntaxvenster, hetzij via de data-editor. Dat is heel handig als je niet beschikt over alle individuele scores op de relevante variabelen maar alleen over de verdelingskenmerken ervan (aantal waarnemingen, standaarddeviaties of varianties, en correlaties of covarianties). In een artikel vind je meestal hoogstens deze samenvattende statistieken; ze bieden de mogelijkheid om de gerapporteerde data-analyses na te doen en om eventueel andere modellen of hypothesen te toetsen.
1.1.2 Invoer van samenvattende beschrijvende statistieken
Om samenvattende statistieken direct in SPSS te verwerken moet je ze als matrixdatar invoeren, hetzij rechtstreeks in het datavenster, hetzij via het syntaxvenster met behulp van het commando MATRIX DATA. Zonder in te gaan op alle details rond dit commando (zie daarvoor de SPSS Syntax Reference Guide) geven we een voorbeeld van aansturing via het syntaxvenster. De data zijn ontleend aan Mason (1995). Na de aankondiging dat er MATRIX DATA gaan komen, moet je eerst de namen van de variabelen opgeven. Vervolgens geef je met het subcommando CONTENTS op welke data er komen: een rij met gemiddelden (MEAN), een rij met standaarddeviaties (SD), een rij met aantallen (N), en ten slotte, de benedendriehoek van de correlatiematrix, inclusief de enen op de diagonaal (CORR; andere formats zijn mogelijk). De data zelf staan tussen de commandos BEGIN DATA en END DATA. (let op: de afsluitende punt staat alleen na END DATA!). In het voorbeeld gaat het om gestandaardiseerde variabelen, zodat alle gemiddelden gelijk zijn aan 0 en zodat alle
standaardafwijkingen gelijk zijn aan 1. SPSS zet de gegevens na inlezen in het datavenster, precies zoals ze in de syntax zijn ingevoerd, dat wil zeggen met alle aanduidingen van de soort data erbij. De syntax voor het inlezen van de data is als volgt (ook in apart bestand, SyntaxMatrixdata.sps):
MATRIX DATA VARIABLES = /CONTENTS = BEGIN DATA 0 0 0 1 1 1 607 607 1 .87 1 .87 .82 .86 .84 .84 .89 -.01 .04 .11 .11 -.24 -.22 -.09 -.04 .07 .02 END DATA.
Feel Look Do Interest Age Sex MarSing Edu Income Race MEAN SD N CORR. 0 0 0 1 1 1 607 607 0 0 0 1 1 1 607 607 0 1 607
607
607
607
1 .87 .81 .00 .10 -.23 -.09 .08
1 .80 -.04 .09 -.20 -.06 .07
1 -.03 .07 -.25 -.09 .07
1 .11 .12 .18 -.14
1 -.10 .35 -.08
1 .25 -.11
1 -.14
Als je de data direct in het datavenster zelf wilt invoeren (dus niet via de syntax zoals hier getoond), dan moet je ervoor zorgen dat SPSS begrijpt dat het om matrixdata gaat. Dat kan door als naam voor de eerste variabele (eerste kolom van het datavenster) ROWTYPE_ op te geven en als waarden voor die variabele een van de volgende namen te gebruiken: MEAN, STDV, N, CORR. Elke rij begint dan met een van deze sleutelwoorden en de daarachter volgende data zijn van het aangegeven type. In de tweede kolom moet je dan opnemen de variabele VARNAME_, met daarin de namen van de achtereenvolgende variabelen opgenomen in de rijen voor CORR. Daarna volgen de kolommen voor de variabelen. De variabelen ROWTYPE_ en VARNAME_ moeten worden gedefinieerd als variabelen van het type String. Na de commandos voor de invoer van de data, kunnen we de procedure REGRESSION aanroepen, maar dat kan in dit geval alleen via het syntaxvenster. In deze syntax moet als eerste subcommando zijn opgenomen: /MATRIX = IN(*)
Dit subcommando dient om aan te geven dat we matrixdata aanbieden. Tussen haakjes staat aangegeven waar de matrixdatar zijn te vinden. De (*) achter IN verwijst naar de data die zich
al in het datavenster bevinden. De syntax voor de aansturing van REGRESSION kan nu als volgt luiden:
REGRESSION /MATRIX = IN(*) /VARABLES = Feel TO Race /STATISTICS COEFF OUTS R ANOVA /DEPENDENT Feel /METHOD = ENTER Age Sex MarSing Edu Income Race.
De elementen van een dergelijke syntax gaan we in het onderstaande toelichten.
1.2
Aansturing
Wij gebruiken in deze cursus voornamelijk de procedure REGRESSION. Deze procedure is gemakkelijk op te roepen via het menu Analyze en twee submenus:
Analyze Regression Linear Daarnaast worden in het regressieboek twee andere regressieprocedures uit SPSS gebruikt, namelijk de procedure GLM, die ook voor variantieanalyse en covariantieanalyse kan worden gebruikt:
Analyze General Linear Model Univariate En de procedure LOGISTIC REGRESSION voor logistische regressie (alleen in hoofdstuk 12 van het regressieboek): Analyze Regression Binary Logistic De verdere aansturing kan worden gedaan door middel van een aantal dialoogvensters. De procedures kunnen echter ook worden aangestuurd met behulp van commando's in het syntaxvenster.
Het aansturen via menus en dialoogvensters is erg gemakkelijk; je kunt je wensen eenvoudig kenbaar maken door het aanklikken van opties. SPSS vertaalt de opdrachten in een reeks commandos en voert deze uit. Deze manier van aansturen heeft ook wel een paar bezwaren. Om te beginnen is ze beperkt, in die zin dat ze afgestemd is op de meest gangbare analysevarianten; meer gespecialiseerde varianten moet je toch aansturen met behulp van commandos in een syntaxvenster. Verder is de methode tamelijk bewerkelijk; als je achter elkaar een aantal sterk gelijkende analyses moet doen, moet je steeds weer de hele sequentie van menu- en dialoogopties nalopen. Ten slotte kun je bij deze manier van aansturen aan de output vaak niet meer precies zien, welke elementen van de analyse je precies hebt gevraagd.
Het laatste bezwaar is gemakkelijk te ondervangen door SPSS op te dragen om in de output de commandos op te nemen die corresponderen met de opdrachten die je in de dialoogvensters geeft. Je doet dat door via het menu Edit en het submenu Options in het tabblad voor de Viewer de optie Display commands in the log aan te vinken. Zo zorg je ervoor dat elke analyse in de output begint met een weergave van de syntax, een tekstuele weergave van de ingevoerde opdrachten.
Deze syntax kun je nog op een andere manier krijgen: door de in de dialoogvensters gespecificeerde analyse niet meteen te laten uitvoeren (via de knop OK) maar de specificaties eerst te laten vertalen in commandos. Dat kan door de knop PASTE in te drukken. SPSS geeft dan in het syntaxvenster een lijst van commandos weer die je rustig kunt bekijken alvorens de analyse daadwerkelijk te laten uitvoeren en die je eventueel nog kunt wijzigen. Dat is handig, als je dezelfde analyse wilt herhalen met bijvoorbeeld alleen maar een andere variabele. De analyse wordt pas daadwerkelijk uitgevoerd, als je de betreffende syntax-tekst selecteert en activeert door in het menu van het syntaxvenster de optie Run te kiezen.
Ook al is het dialogeninterface beperkter dan het syntax-interface, toch krijg je via PASTE vaak meer commandos dan strikt noodzakelijk is voor het uitvoeren van een bepaalde analyse of voor bepaalde output. Dat komt omdat de procedures in SPSS meestal een standaard- of default-instelling hebben, d.w.z. dat deze procedures al uit zichzelf, zonder verdere expliciete opdrachten van de zijde van gebruiker, een veelgevraagd type van analyse doen. Dat vergemakkelijkt natuurlijk het aansturen, maar het heeft ook weer een mogelijk nadeel. Een programma levert zo bij een minimale aansturing altijd wel output op; het is
echter de vraag of het de output is die je wenst. Men kan analyses dus ook aansturen door zelf direct in het syntaxvenster de minimaal noodzakelijke commandos in te typen. Maar dan moet je wel goed weten wat de defaults van een procedure zijn.
Wij geven in de tekst zo veel mogelijk de aansturing via menus en dialogen en de daarmee corresponderende syntax, geproduceerd via de knop PASTE. Bij meer gespecialiseerde analysevarianten, die niet via menus en dialogen aan te sturen zijn, geven we alleen de syntax.
Wij geven weliswaar de syntax waarmee je de analyses kunt doen, maar we gaan niet in op de syntax-regels van SPSS of op de specifieke betekenis van alle commandos. Daarvoor verwijzen we naar de handboeken van SPSS zelf. We volstaan met enkele algemene opmerkingen. Procedures worden aangeroepen met een eigen naam, zoals REGRESSION. Procedures moeten weten welke data ze moeten verwerken; daartoe moet men de juiste namen opgeven van de relevante variabelen in het databestand. Bij vrijwel elke procedure kan men speciale onderdelen en varianten van de analyse evenals de samenstelling van de output nader opgeven, door middel van subcommandos. Deze subcommandos worden voorafgegaan door een slash (/). Commandos zijn opgebouwd uit vaste sleutelwoorden (keywords), voorgeschreven door SPSS, en namen van variabelen of getallen. Meestal is in onze teksten wel duidelijk wat de sleutelwoorden van SPSS zijn en wat de vrij te kiezen bestanddelen zijn.
Ten slotte is er nog het probleem van het taalgebruik. Veel elementen van een statistische analyse kunnen op verschillende manieren worden aangeduid. De onafhankelijke variabelen in een regressiemodel, bijvoorbeeld, heten independent variables in de procedure REGRESSION maar covariates in de procedures GLM en LOGISTIC REGRESSION. Zo zijn er meer terminologische varianten. De resultaten van eenzelfde soort analyse, gedaan door verschillende procedures binnen SPSS, kunnen soms verschillend benoemd zijn! Let er dus op dat je van SPSS krijgt wat je hebben wilt!
1.2.1 Conventies bij het in de tekst weergeven van aansturingen Wij hanteren de volgende conventies bij het beschrijven van de aansturing via menus en dialogen. In het eerste dialoogvenster van REGRESSION moeten de afhankelijke en de
onafhankelijke variabelen kenbaar worden gemaakt. Dat gebeurt op dezelfde manier als bij andere procedures op het gebied van de beschrijvende en elementaire toetsende statistiek (uit een lijst met de namen van de variabelen in het databestand moet men een of meer variabelen selecteren die vervolgens overgebracht worden naar aparte vakjes voor de afhankelijke en onafhankelijke variabelen). Wij volstaan daarom met het noemen van de namen van de variabelen die als afhankelijke dan wel onafhankelijke variabele optreden.
Voor de rest is de aansturing gewoonlijk een kwestie van opties aanklikken. Elk dialoogvenster bevat een aantal opties waarmee je bepaalde analysevarianten of specifieke output kunt opvragen. In de weergave van de aansturing beperken wij ons tot die opties die we daadwerkelijk gebruiken (ongebruikte opties noemen we dus niet). Meestal bevat een dialoogvenster ook een of meer knoppen waarmee je een volgende dialoog kunt oproepen, om daarin weer opties aan te klikken. De opeenvolgende dialoogvensters van een procedure (te beginnen met de eerste) duiden we aan met de naam die SPSS zelf ook hanteert. De vensters die je vanuit het eerste venster of hoofdvenster oproept moet je weer verlaten via de optie CONTINUE; deze stap vermelden we niet.
1.2.2 Aansturing via de dialoogvensters Procedure-aanroep via de taakbalk: Analyze Regression Linear Dialoogvensters: Hoofdvenster: Linear Regression Subvensters: Statistics optionele statistische output opvragen Plots optionele plots opvragen, vooral van residuen Save voorspelde waarden en residuen opslaan in databestand Options diverse aspecten van de analyse regelen, o.a. bij ontbrekende scores De functie van de subvensters en de opties daarin kun je gemakkelijk achterhalen door met de rechtermuisknop op de labels van de knoppen of de opties te klikken. Zo verschijnt, bijvoorbeeld, in het subvenster Statistics voor de optie Collinearity diagnostics de volgende tekst:
Displays the tolerances for individual variables and a variety of statistics for diagnosing collinearity problems. Collinearity (or multicollinearity) is the undesirable situation when one independent variable is a linear function of other independent variables.
We geven nu een voorbeeld van een aansturing van de procedure REGRESSION via de dialoogvensters en van de syntax zoals verkregen via de knop PASTE, met daarbij aangegeven welke subcommandos default-instellingen weergeven. Dat zijn dus subcommandos die zijn geactiveerd zonder expliciet door de gebruiker te zijn gekozen.
LINEAR REGRESSION Dependent: Y Independent(s): X1, X2 STATISTICS Regression coefficients Estimates Model fit Descriptives SAVE Predicted values Unstandardized OK / PASTE
(eerste venster: hoofdvenster) (gespecificeerde elementen) (eerste subvenster) (kopje voor groepje opties) (geselecteerde optie) (geselecteerde optie) (geselecteerde optie) (tweede subvenster) (kopje voor groep opties) (geselecteerde optie) (direct uitvoeren dan wel commandos in syntaxvenster zetten)
De bijbehorende syntax ziet er zo uit:

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /* default /STATISTICS COEFF OUTS R ANOVA /* default /CRITERIA=PIN(.05) POUT(.10) /* default /NOORIGIN /* default /DEPENDENT y /METHOD=ENTER x1 x2 /SAVE PRED. (Data van Tabel 2.1, output in Tabel 2.2 (descriptives), 3.1 en 4.1 (predicted values), en 4.3 (Model Summary, ANOVA, en Coefficients; de tabelnummers verwijzen naar het regressieboek)
1.2.3 Aansturing via de syntax
De syntax voor een complete regressieanalyse bestaat uit maar een paar commandos: de aanroep van de procedure (REGRESSION), de specificatie van de afhankelijke variabele (DEPENDENT) en de specificatie van de onafhankelijke variabelen (ENTER). Zo volstaat de volgende aansturing voor een standaard regressieanalyse met als afhankelijke variabele Y en als predictoren X1 en X2:
REGRESSION /DEPENDENT = Y /ENTER = X1, X2 . (Data in Tabel 2.1 en output in Tabel 4.3 van het regressieboek)
De output van deze minimale aansturing bestaat uit drie tabellen Model Summary, ANOVA en Coefficients (zie subparagraaf 1.3) voor n enkele regressievergelijking, in dit geval met drie predictoren. Deze minimale aansturing is equivalent met de volgende die via de dialoogvensters wordt verkregen:
REGRESSION /MISSING LISTWISE /* /STATISTICS COEFF OUTS R ANOVA /* /CRITERIA=PIN(.05) POUT(.10) /* /NOORIGIN /* /DEPENDENT Y /METHOD=ENTER X1, X2 . (Data in Tabel 2.1 en output in Tabel 4.3 van het regressieboek)
default default default default
1.2.4 Overzicht van subcommandos
De basisaansturing kan worden uitgebreid met subcommandos en sleutelwoorden (keywords, in SPSS vastgelegde termen ter aanduiding van bepaalde opties). We noemen een aantal veel gebruikte subcommandos van REGRESSION die in deze handleiding ter sprake komen, in de volgorde waarin ze ingevoerd moeten worden.
Descriptieve statistieken van de variabelen die in de regressieanalyse worden opgenomen:

/Descriptives =
Verzoek om optionele statistische output:

/Statistics =
Specificatie van de afhankelijke variabele:

/Dependent =
Specificatie van de onafhankelijke variabelen die in een of meer sets en volgens meerdere methoden kunnen worden toegevoegd:
/Method = /Method =
Subcommandos betreffende de residuen van de laatste regressievergelijking die met de subcommandos /Method is gevormd:
/Residuals =
/Save = /Casewise = /Scatterplot = /Partialplot =
Het gebruik van de subcommandos zal duidelijk worden uit de voorbeelden van aansturingen die verder in deze handleiding getoond worden. Voor gedetailleerde voorschriften betreffende de specificatie van elk subcommando verwijzen we naar de Syntax Reference Guide van SPSS.
1.2.5 Overzicht van alle opties
In onderstaand overzicht staan links de opties zoals ze voorkomen in de dialooginterface en rechts staan de corresponderende (sub)commandos. De volgorde waarin de commandos voor de diverse opties ingevoerd moeten worden, kan afwijken van die waarin de opties in het linkerdeel staan vermeld.
In deze handleiding zullen we de opties die in de dialoogvensters kunnen worden gekozen of ingevuld, aanduiden met de term optie, bijvoorbeeld: de optie INDEPENDENT(S); we duiden het bijbehorende syntaxcommando aan met subcommando, bijvoorbeeld het subcommando METHOD. Sleutelwoorden die van een * zijn voorzien, geven de defaults aan, die gelden wanneer het betrokken subcommando is weggelaten.
Het overzicht is vrijwel volledig, maar we gaan niet alle faciliteiten en opties van de procedure REGRESSION bespreken. We beperken ons tot de opties binnen de dialoogvensters plus datgene wat nodig is voor de analyses behandeld in het boek Lineaire regressieanalyse. In de laatste twee kolommen van het overzicht staan verwijzingen naar de (sub)paragrafen van het boek, respectievelijk deze handleiding waar de betreffende opties of de output ervan nader zijn besproken.
Opties, subcommandos en sleutelwoorden van SPSS REGRESSION Opties binnen de dialoogvensters

Linear Regression Dependent Block Independent(s) Method
Subcommandos (syntax)
Regression /Variables = /Dependent = /Method = Enter Stepwise / Remove / Backward / Forward / Test /Select = /Regwgt = /Statistics
Regressieboek (sub)paragraaf
Handleiding (sub)paragraaf
1.1, 1.2.1 1.1, 1.2.1
2.1
2.1 10.2.2 10.2.2 5.5.1
Selection variable Case labels WLS Weight Statistics Regression coefficients Estimates Confidence Intervals Covariance Matrix Model fit R squared change Part and partial correlations Collinearity diagnostics
COEFF* CI BCOV OUTS* ANOVA* R* CHA ZPP COLLIN, TOL SELECTION
2.2.2, 2.3.2 3.1, 3.2, 3.4, 3.6, 3.7-3.9, 5.3 3.5
4, 5.1.1, 5.2, 5.4.1, 5.5.1 4.3, 5.4.1, 5.5.4 5.4.1, 5.5.4 6.3, 6.6.3 8.4 10.2.3 1.2.4 7
1.3.1, 2.2 1.3.1, 2.2 1.3.1 1.3.1 1.3.1, 2.3 1.3.1, 2.4 1.3.1 1.3.1 1.3.1 1.3.1 1.3.1 2.6 1.3.1 1.3.1, 2.6.3, 2.6.4
Descriptives Residuals Durbin-Watson Casewise diagnostics Outliers Plots Y-X scatter Standardized residual plots Histogram Normal probability plot Produce all partial plots Save Predicted Values Unstandardized Standardized Adjusted S.E. of mean predictions Residuals Unstandardized Standardized Studentized
/Descriptives
/Residuals DURBIN /Casewise OUTLIERS
8.3 2.6 1.3.2, 2.6.2 1.3.2, 2.6.1
/Scatterplot /Residuals HIST () NORM() /Partialplot ALL /Save PRED ZPRED ADJPRED SEPRED RESID ZRESID SRESID
7.3.3 7.3.2
7.3.3
1.3.2, 2.6.2 2.5 2.6.3
3.2 7.3.3 7.1.3 2.6.3 7.1 7.1.1 7.1.2
Deleted Studentized deleted Distances Mahalanobis Cooks Leverage values Influence Statistics DfBeta(s) Standardized DfBeta(s) DfFit Standardized DfFit Covariance ratio Prediction Intervals Mean Individual Save to New File Coefficients statistics Export model information to Options Stepping Method Criteria Include constant in equation Missing values Exclude cases listwise Exclude cases pairwise Replace with mean
DRESID SDRESID MAHAL COOK LEVER DFBETA SDBETA DFFIT SDFIT COVRATIO MCIN ICIN
7.1.3 7.1.3
8.3 7.1.2, 8.3 8.3 8.3
/SAVE= /OUTFILE= /OUTFILE=
/Criteria /Noorigin* [Origin] /Missing LISTWISE PAIRWISE MEAN SUBSTITUTION
10.2.3
2.7 8.2.2 8.2.2 8.2.2
1.3 Output
De output van SPSS is georganiseerd in zogeheten pivot tables. Wij reproduceren die tabellen in de tekst, met de volgende kanttekeningen. We selecteren de tabellen die voor ons betoog relevant zijn; als je de analyses nadoet, kun je in de output vaak meer tabellen aantreffen dan wij in de tekst hebben opgenomen. Verder geven wij de voorkeur aan een tabelformaat dat overeenstemt met de richtlijnen van de APA (American Psychological Association). SPSS heeft dit formaat niet opgenomen in de lijst van door de gebruiker te kiezen formaten (het formaat dat er het meest op lijkt, heet academic). SPSS biedt wel de mogelijkheid om zelf een tabelformaat samen te stellen. Een dergelijke zogenoemde table look file (een tlo-bestand) voor APA-tabellen, met de naam apa.tlo, is te vinden op de website www.data-analyse.nl, en op de cd-rom bij het regressieboek.
De inhoud van de tabellen zelf laten we zoveel mogelijk ongewijzigd. Ter wille van een hanteerbare omvang halen we een enkele keer overbodige onderdelen weg. En we beperken het aantal decimalen meestal tot 2 of 3; de precisie van gedragswetenschappelijke data rechtvaardigt zelden meer decimalen!
We geven nu een overzicht van de verschillende soorten tabellen die in een output van REGRESSION kunnen voorkomen. Zoals al gezegd, standaard zijn er drie tabellen Model Summary, ANOVA, en Coefficients; daarnaast is er ook altijd de tabel Variables Entered/Removed. Het verschijnen van de overige tabellen hangt af van de geselecteerde opties.
1.3.1 Overzicht van tabellen in de output van REGRESSION Descriptive Statistics
Deze tabel hoort niet bij de standaardoutput en moet expliciet opgevraagd worden (met de optie, respectievelijk het subcommando DESCRIPTIVES). Ze geeft voor alle inputvariabelen het gemiddelde, de standaarddeviatie en het aantal scores. Welke output precies geproduceerd wordt, kan nader aangegeven worden door de selectie van sleutelwoorden (deze kunnen niet in het menu worden gekozen).
De inputvariabelen zijn standaard die welke expliciet worden ingevoerd als afhankelijke variabele en als onafhankelijke variabelen. De set van inputvariabelen kan groter zijn als de variabelen ingevoerd worden met het subcommando /VARIABLES. Correlations
Deze tabel resulteert ook uit optie/subcommando DESCRIPTIVES. Ze geeft voor elk paar van inputvariabelen de Pearson productmomentcorrelatie, de bijbehorende overschrijdingskans voor de nulhypothese (dat de correlatie groter is dan 0; eenzijdig dus) en het aantal waarnemingen waarop de correlatie berust (waarbij SPSS in het geval van missing values standaard listwise deletion heeft toegepast). Variables Entered/Removed
Voor elk model dat de gebruiker specificeert (met de optie INDEPENDENT(S), respectievelijk het subcommando METHOD) wordt een overzicht gegeven van de onafhankelijke variabelen die in het model worden opgenomen. Model Summary
De kern van deze tabel is standaard aanwezig in elke output van REGRESSION (zie regressieboek, hoofdstuk 4); ze resulteert uit de optie MODEL FIT, respectievelijk uit het subcommando /STATISTICS R. Voor elk model geeft de tabel de meervoudige correlatie, R, het kwadraat daarvan, R2, de gecorrigeerde R2 (Adj. Rsquare), en de Standard Error of the Estimate (= de standaarddeviatie van de residuele scores; de wortel uit de Mean Square Error).
De tabel kan worden uitgebreid met de change statistics, via de optie R SQUARED CHANGE, respectievelijk het subcommando /STATISTICS CHA (zie hoofdstuk 5 van het regressieboek, en hoofdstuk 3 van deze handleiding); selectiecriteria voor (sets van) predictoren (zoals Mallows' Cp, zie regressieboek, subparagraaf 10.2.3), via het subcommando /STATISTICS SELECTION;
de Durbin-Watson statistic, via de optie RESIDUALS DURBIN-WATSON, respectievelijk het subcommando /RESIDUALS DURBIN. De Durbin-Watson toets dient om te onderzoeken of er bij de residuen sprake is van autocorrelatie. De waarde van de toets ligt tussen 0 en 4. Bij een uitkomst in de buurt van 2 is er geen sprake van autocorrelatie (zie bijvoorbeeld Cohen, Cohen, West, & Aiken, 2003, p. 136-137). Deze toets is alleen relevant als de volgorde waarin de scores op de afhankelijke variabelen zijn verkregen, van belang is (bijvoorbeeld gegevens in een bepaalde tijdsvolgorde).
ANOVA
De ANOVA-tabel (zie hoofdstuk 4 van het regressieboek en paragraaf 2.3 van deze handleiding) is standaard aanwezig in elke output van REGRESSION; ze resulteert uit de optie MODEL FIT, respectievelijk uit het subcommando /STATISTICS ANOVA. Ze bevat voor elk opgegeven model de F-toets voor de modelvariantie en alle bestanddelen (kwadratensommen en vrijheidsgraden) die voor de berekening daarvan nodig zijn. Coefficients
De tabel Coefficients resulteert uit de optie REGRESSION COEFFICIENTS ESTIMATES, respectievelijk het subcommando /STATISTICS COEFF. De kern van deze tabel is standaard; ze bevat voor elk model de ruwe partile regressiegewichten met hun standaardfouten en ttoetsen, evenals de gestandaardiseerde partile regressiegewichten (zie regressieboek hoofdstuk 3 en paragraaf 2.2 van deze handleiding).
De tabel kan worden uitgebreid met de betrouwbaarheidsintervallen voor de ruwe regressiegewichten (zie regressieboek, paragraaf 3.5), te verkrijgen met de optie REGRESSION COEFFICIENTS CONFIDENCE INTERVALS, of het subcommando /STATISTICS CI; de nulde-orde, partile en semipartile correlaties (zie hoofdstuk 6 van het regressieboek en paragraaf 3.5 van deze handleiding) van elk van de predictoren met de afhankelijke variabele, te verkrijgen met de optie PARTIAL and PART CORRELATIONS, of het subcommando /STATISTICS ZPP;
bepaalde collineariteitsindices, in het bijzonder de toleranties en de VIF, de Variance Inflation Factor (zie regressieboek, paragraaf 8.4), te verkrijgen met de optie COLLINEARITY DIAGNOSTICS, of met het subcommando /STATISTICS TOL;
standaardfouten van de gestandaardiseerde regressiegewichten (het subcommando /STATISTICS SES).
Collinearity Diagnostics
De optie COLLINEARITY DIAGNOSTICS, die al in de cofficintentabel enkele collineariteitsindices oplevert, zorgt nog voor een aparte tabel met diagnostische indices. Deze tabel is ook op te roepen met het subcommando /STATISTICS COLLIN. Excluded Variables
Wanneer een model niet alle onafhankelijke variabelen bevat die SPSS als zodanig herkent, dan geeft REGRESSION in deze tabel het gestandaardiseerde gewicht dat die variabelen zouden hebben wanneer ze wel in het model zaten (BetaIn), de t-toets behorende bij het ruwe partile regressiegewicht, de partile correlatie en de tolerantie. Deze tabel is standaard en is het resultaat van de keuze van Estimates of Model fit in het dialoogvenster Statistics, of van het subcommando /STATISTICS OUTS. Zie voor een illustratie paragraaf 3.5. Coefficient Correlations
Deze tabel is het resultaat van de optie REGRESSION COEFFICIENTS COVARIANCE MATRIX, respectievelijk van het subcommando /STATISTICS BCOV. Ze geeft de correlaties en de covarianties van de parameterschattingen, dus van de schattingen van de regressiegewichten (deze variren en covariren immers van steekproef tot steekproef; de mate waarin ze dat doen, kan worden geschat op basis van n enkele steekproef). Casewise Diagnostics
Deze tabel is het resultaat van de optie CASEWISE DIAGNOSTICS, respectievelijk het subcommando /CASEWISE PLOT(ZRESID) OUTLIERS(3); in plaats van '3' kan een ander getal worden ingevuld. De tabel geeft een opsomming van de cases met een gestandaardiseerd
residu groter dan 3 (of groter dan het opgegeven getal). Vermeld worden het volgnummer van de case in het databestand, het gestandaardiseerde residu, de score op de afhankelijke variabele, de voorspelde score en het ruwe residu. In plaats van ZRESID kan men een van de andere soorten residuen invullen, bijvoorbeeld SDRESID. Residuals Statistics
Wanneer gegevens of plots met betrekking tot de voorspelde scores en de residuen worden opgevraagd, dan verschijnt een tabel met samenvattende statistische gegevens met betrekking tot deze opgevraagde grootheden (Predicted values, Residuals), namelijk minimum, maximum, gemiddelde, standaardafwijking, en N. Bijvoorbeeld het subcommando /CASEWISE PLOT(ZRESID) OUTLIERS(3) leidt tot een tabel met de genoemde beschrijvende statistieken van de voorspelde score, het ruwe residu, de gestandaardiseerde voorspelde score en het gestandaardiseerde residu. Hetzelfde geldt bij het subcommando /RESIDUALS HIST(ZRESID) NORM(ZRESID), wat equivalent is met het aanklikken van de Standardized Residual Plots in het subvenster Plots. Het geldt ook bij het subcommando /PARTIALPLOT ALL. Als gevraagd wordt om plots met andere soorten residuen, dan wordt de tabel Residuals Statistics uitgebreid met beschrijvende statistieken van de andere soorten van voorspelde scores en residuen, inclusief de afstandsmaten (zoals Cook's D). Zie het regressieboek, hoofdstuk 7 en paragraaf 8.3.
1.3.2 Overzicht van grafieken in de output van REGRESSION
Naast output in tabelvorm kan de output van REGRESSION ook grafieken omvatten, in het bijzonder: histogram, normal probability plot (P-P plot), en spreidingsdiagrammen. Deze drie typen grafieken kunnen vanuit REGRESSION zelf worden aangestuurd. Verder kan men ook in het subvenster SAVE of met het subcommando /SAVE vele regressieresultaten (voorspelde scores en residuen) in het databestand wegschrijven, zodat deze vervolgens voor verdere analyses gebruikt kunnen worden, onder andere voor het maken van grafieken met Graphs. Histogram
Het histogram kan worden gebruikt om na te gaan of variabelen, vooral residuen, een normale verdeling volgen (regressieboek, subparagraaf 7.3.2). Standaard resulteert het aanklikken van
HISTOGRAM in het subvenster Plots in een histogram van de gestandaardiseerde residuen. Desgewenst kan men ook andere vormen van residuen kiezen met het subcommando /RESIDUALS, bijvoorbeeld /RESIDUALS HIST(SDRESID) geeft een histogram van de studentized deleted residuals. Normal P-P plot
De normal P-P plot toont de verwachte cumulatieve kans (volgens de normale verdeling) op de verticale as uitgezet tegen de waargenomen cumulatieve kans op de horizontale as (zie regressieboek, subparagraaf 7.3.2). Deze plot wordt verkregen door in het subvenster Plots de optie Normal probability plot aan te klikken. Standaard wordt een plot gemaakt van de gestandaardiseerde residuen. Deze plot kan ook worden verkregen met het subcommando /RESIDUALS NORM(ZRESID). In plaats van ZRESID kan men daarbij een andere vorm van residuen invullen. Scatterplot
Het meest gebruikelijke spreidingsdiagram is een plot van de residuen tegen de voorspelde scores, bijvoorbeeld van de gestudentiseerde residuen-na-weglating (SDRESID) tegen de gestandaardiseerde voorspelde scores (ZPRED), zie regressieboek subparagraaf 7.3.3. Deze plot kan gevormd worden in het subvenster Plots of met het subcommando /SCATTERPLOT = (*SDRESID, *ZPRED). Vanuit het dialoogvenster kunnen spreidingsdiagrammen worden gemaakt, met gebruik van de volgende variabelen, ontleend aan de laatste geschatte regressievergelijking (zie regressieboek, paragraaf 7.1): DEPENDNT: de afhankelijke variabele *ZPRED: de gestandaardiseerde voorspelde scores *ZRESID: de gestandaardiseerde residuen *DRESID: de residuen-na-weglating (deleted residuals) *ADJPRED: de aangepaste voorspelde scores (adjusted predicted values) *SRESID: gestudentiseerde residuen (studentized residuals) *SDRESID: gestudentiseerde residuen-na-weglating (studentized deleted residuals)
Gebruik van het subcommando /SCATTERPLOT geeft nog vele mogelijkheden meer voor het vormen van spreidingsdiagrammen (in het syntaxvenster). Partial Regression Plot
Een bijzondere vorm van spreidingsdiagram is de partile plot (partial regression plot), aanklikbaar in het subvenster Plots, of verkrijgbaar met het subcommando /PARTIALPLOT. Dit is een spreidingsdiagram van de residuen van de afhankelijke variabele tegen de scores van een predictor waaruit de andere predictoren zijn uitgepartialiseerd. Het is dus in feite een plot van residuen (van de afhankelijke variabele) versus residuen (van een predictor), zie het regressieboek, subparagraaf 7.3.3.
Hoofdstuk 2
Standaardvorm van regressieanalyse
Bij wat we de standaardvorm van meervoudige regressieanalyse kunnen noemen gaat het in essentie om de volgende onderdelen: (1) de schatting van de modelparameters, (2) de toetsing van de totale modelvariantie (de variantie van de scores voorspeld op grond van de volledige regressiefunctie) en van de unieke bijdrage van elke predictor in de totale modelvariantie, en, ten slotte (3) een maat voor de verklarende waarde van het model in termen van het percentage verklaarde variantie. Deze standaardvorm van de regressieanalyse is aan de orde in hoofdstuk 1 tot en met 4 van het regressieboek.
Rondom een regressiemodel is natuurlijk nog allerlei andere informatie interessant, zoals de beschrijvende statistiek met betrekking tot de afhankelijke en onafhankelijke variabelen, de voorspelde scores voor elk element in de steekproef en de analyse van de residuen.
Voorbeelddata We illustreren de aansturing en de output van een regressieanalyse aan de hand van de data van Tabel 2.1 in het regressieboek (p. 50). Het bestand heeft scores op een afhankelijke variabele, Y, en op twee predictoren X1 en X2, voor n = 16 subjecten. Voor de analyse van een model met twee predictoren X1 en X2, gaat de aansturing als aangegeven in de volgende paragraaf.
2.1
Aansturing van LINEAR REGRESSION
Door middel van dialoogvensters: LINEAR REGRESSION Dependent: Y Independent(s): X1, X2 STATISTICS Regression coefficients
Regressieanalyse met SPSS 2: Standaardvorm van regressieanalyse 25
Estimates Confidence intervals Model fit Descriptives SAVE Predicted values Unstandardized Residuals Unstandardized PASTE De benamingen van de opties in de dialoogvensters geven over het algemeen goed aan wat de bedoeling is en wat de inhoud is van de bijbehorende output. Voorzover de betekenis van een optie niet meteen duidelijk is, kan men die proefondervindelijk vaststellen, door een keer een analyse zonder en een keer een analyse met de betreffende optie te vragen en de outputs te vergelijken. Zo kom je er bijvoorbeeld wel achter wat SPSS bedoelt met Model Fit.
Door middel van syntax:

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /* default /STATISTICS COEFF OUTS CI R ANOVA /CRITERIA=PIN(.05) POUT(.10) /* default /NOORIGIN /* default /DEPENDENT y /METHOD=ENTER x1 x2 /SAVE PRED RESID. (Data van Tabel 2.1, output in Tabel 2.2 (descriptives), 3.2 (Coefficients), 4.1 (predicted values, residuals), en 4.3 (Model Summary, ANOVA); alle in het regressieboek)
De sleutelwoorden in de syntax zijn over het algemeen minder duidelijk dan de benamingen van de overeenkomende opties in de dialoogvensters. De correspondentie tussen die twee is ook niet meteen inzichtelijk. Bijvoorbeeld: /STATISTICS COEFF CI R levert respectievelijk de parameterschattingen met standaardfouten en t-toetsen, de betrouwbaarheidsintervallen en de meervoudige correlatiecofficint met afgeleiden daarvan (Model Fit). Na enig experimenteren, wordt de betekenis van de diverse termen wel duidelijk. Deze aansturing werkt ook met weglating van de default-specificaties:
REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /STATISTICS COEFF OUTS CI R ANOVA /DEPENDENT y /METHOD=ENTER x1 x2. /SAVE PRED RESID.
Zoals al opgemerkt in paragraaf 1.1 is deze aansturing niet minimaal; niet alle gegeven commandos zijn noodzakelijk. REGRESSION kan al vooruit zodra de afhankelijke variabele en de onafhankelijke variabelen toegekend zijn. De strikt minimale aansturing ziet er dus als volgt uit:
REGRESSION /DEPENDENT y /METHOD=ENTER x1 x2.
Bij de minimale aansturing hoort uiteraard ook een minimale output! In dit geval stellen we prijs op wat extra informatie; dat vraagt additionele commandos.
2.2
Output: parametertabel
De essentile resultaten met betrekking tot een regressieanalyse levert SPS in de vorm van (1) een parametertabel, voor de schatting van de modelparameters en de toetsing van de unieke bijdrage van elke predictor (t-toets) , (2) een ANOVA-tabel voor toetsing van de totale modelvariantie, en (3) een tabel met de meervoudige correlatie en het percentage verklaarde variantie.
De parametertabel reproduceren we hier als Tabel 2.1 (gelijk aan Tabel 3.2 op p. 94 van het regressieboek).
Tabel 2.1.
Schatting en toetsing van de regressieparameters in een model met twee predictoren

Coefficientsa Unstandardized Coefficients B Std. Error Standardized Coefficients Beta t Sig. 95% Confidence Interval for B Lower Bound Upper Bound
(Constant) X1 X2
.23 .62 .20
.97 .20 .11 .58 .34
.23 3.07 1.80
.82 .01 .10
-1.88 .18 -.04
2.33 1.06 .44
a. Dependent Variable: Y
Deze tabel resulteert uit het subcommando /STATISTICS COEFF CI. De rijen in Tabel 2.1 corresponderen met de opeenvolgende parameters in de regressiefunctie: eerst de constante (intercept) en dan de gewichten voor de twee predictoren, X1 en X2. De geschatte waarden van de ruwe of ongestandaardiseerde regressieparameters staan vermeld in de kolom gelabeld
B. De geschatte waarde van 1, ofwel b1 is gelijk aan 0.62 (ter herinnering: we onderscheiden de populatiewaarde van een parameter, voorgesteld met een Griekse letter, en de op basis van een steekproef berekende schatting, voorgesteld door een Latijnse letter). Voor de ruwe gewichten geeft REGRESSION ook de standaardfouten. Zo is SE(b1) gelijk aan 0.20. De gestandaardiseerde regressiegewichten vinden we in de kolom gelabeld Beta (te onderscheiden van , de regressiecofficint in de populatie).
De overige gegevens in Tabel 2.1 betreffen de statistische toetsing van de regressiegewichten en zijn strikt genomen overbodig, omdat ze direct volgen uit de gegevens over de schatting. In de kolom t vinden we de waarde van de grootheid t = bj / SE(bj). Voor het gewicht van X1 hebben we: t = 0.62/0.20 = 3.07. Met deze grootheid kunnen we de nulhypothese toetsen dat 1 = 0.
REGRESSION geeft in de kolom gelabeld Sig. (van Significance) de tweezijdige overschrijdingskans voor de gevonden t-waarde. Voor het gewicht van X1 blijkt die gelijk te zijn aan .01. Dit betekent het volgende. Als de nulhypothese juist zou zijn (dat 1 in de populatie de waarde 0 heeft), dan is de kans om met een steekproef als de onderhavige (ter grootte van n = 16) een t-waarde te vinden die kleiner is dan 3.07 of groter dan + 3.07 gelijk aan .01. De gevonden t-waarde, t = 3.07 is dus onwaarschijnlijk extreem voor een steekproef die zou moeten komen uit een populatie waarin 1 = 0. Hanteren we de conventie dat de overschrijdingskans van een gevonden t-waarde kleiner moet zijn dan = .05 om de nulhypothese te kunnen verwerpen, dan kunnen we concluderen dat het gewicht van X1 statistisch significant verschilt van 0. Met andere woorden X1 levert een significante unieke bijdrage in het regressiemodel, boven de bijdrage die de andere predictor eventueel levert. Die andere predictor, X2, levert hier zelf echter geen significante unieke bijdrage aan de modelvariantie: t = 1.80, p = .10, wat niet kleiner is dan het significantieniveau van .05.
Tabel 2.1 geeft, ten slotte, ook de onder- en de bovengrens van het 95%betrouwbaarheidsinterval voor de schatting van de parameters. REGRESSION doet dat niet standaard; je moet er expliciet om vragen (zie de aansturing: /STATISTICS CI). We zien dat het interval voor de regressiecofficint van X2 loopt van -0.04 tot +0.44.
Met betrekking tot de t-toets die REGRESSION standaard levert, zijn nog twee opmerkingen van belang. Ten eerste, REGRESSION geeft in deze tabel niet aan wat het aantal vrijheidsgraden voor de t-toets is. Wij worden geacht dat te weten. En dat weten we ook: het aantal vrijheidsgraden voor de t-toets van een parameter in een meervoudig regressiemodel is gelijk aan het aantal waarnemingen minus het aantal geschatte parameters, n q. Hier dus: 16 3 = 13 (dit is het aantal vrijheidsgraden voor de residuele variantie).
Ten tweede, de overschrijdingskansen die REGRESSION geeft, zijn, zoals gezegd, tweezijdig. Zou men een eenzijdige hypothese koesteren, dan moet men de kans die REGRESSION geeft halveren. Stel dat in dit voorbeeld de alternatieve hypothese met betrekking tot 2 zou luiden: 2 > 0. (De nulhypothese, de ontkenning van de alternatieve hypothese, wordt dan 2 0). We willen nu alleen maar weten hoe groot de kans is op t + 1.80, m.a.w. we zijn nu alleen genteresseerd in een eenzijdige overschrijdingskans, en wel de rechter overschrijdingskans. REGRESSION geeft echter de totale overschrijdingskans, linker + rechter. Bij eenzijdige toetsing moeten we die halveren. De kans dat t +1.80 vinden we dus als .10/2 = .05 (Laten we SPSS de kansen nauwkeuriger afdrukken, met vier decimalen, dan wordt de berekening .0957/2 = .0428).
2.3
Output: ANOVA-tabel
Het tweede belangrijke onderdeel van elke regressieanalyse is de ANOVA-tabel. Voor de voorbeelddata hier weergegeven in Tabel 2.2; zie regressieboek, hoofdstuk 4. De tabel volgt uit het subcommando /STATISTICS ANOVA, maar verschijnt ook bij afwezigheid van een subcommando /STATISTICS.
Van wezenlijk belang bij de ANOVA-tabel zijn de eerste twee kolommen. Op de regel gelabeld Regression zien we achtereenvolgens de kwadratensom van de voorspelde scores (de modelkwadratensom), SSmodel = 53.115, en het bijbehorende aantal vrijheidsgraden, dfmodel = 2. Op de regel gelabeld Residual zien we de residuele kwadratensom, SSerror = 23.323, en dferror = 13. Zoals het hoort SSmodel + SSerror = 53.115 + 23.323 = 76.438 = SStotal, de totale kwadratensom (de kwadratensom van de waargenomen scores), te vinden op de regel Total. Ook geldt dfmodel + dferror = 2 + 13 = 15 = dftotal, wat impliceert dat het totale aantal waarnemingen gelijk is aan n = dftotal + 1 = 15 + 1 = 16. Met SStotal en dftotal kan de variantie
van de waargnomen scores gereconstrueerd worden SStotal/dftotal = var(Y). De overige resultaten in de tabel kunnen uit de gegevens in de eerste twee kolommen worden afgeleid.
Tabel 2.2. ANOVA-tabel voor een regressiemodel met twee predictoren

ANOVAb Sum of Squares Regression Residual Total Mean Square
df
Sig.
53.115 23.323 76.438
2 13 15
26.557 1.794
14.803
.000a
a. Predictors: (Constant), X2, X1 b. Dependent Variable: Y
In de kolom Mean squarevinden we de gemiddelde kwadraten, ofwel de geschatte varianties, van de voorspelde scores, MSregression = SSmodel / dfmodel, hier: 53.115/2 = 26.557, en van de residuele scores, MSresidual = SSerror / dferror, hier: 23.323/13 = 1.794. De verhouding van de twee variantieschattingen levert de F-grootheid: F = MSmodel/MSerror, hier F = 26.557/1.794 = 14.803. De modelvariantie blijkt bijna 15 keer groter dan de residuele variantie. Als de nulhypothese zou gelden (dat de modelvariantie gelijk is aan de residuele variantie) dan is een dergelijk hoge F-waarde wel erg onwaarschijnlijk. Dat zien we dan ook in de kolom Sig., waar de overschrijdingskans op de waargenomen F-waarde staat afgedrukt: p < .000, d.w.z. onder de nulhypothese is de kans op een F-waarde van 14.803 kleiner dan ntienduizendste; reden om de nulhypothese te verwerpen.
2.4
Output: Modelsamenvatting
De derde belangrijke tabel die REGRESSION geeft is getiteld Model Summary, de standaardvorm van deze tabel is gegeven als Tabel 2.3; zie regressieboek hoofdstuk 4. Deze tabel is de output van het subcommando /STATISTICS R; ze geeft eerst de meervoudige correlatiecofficint (de correlatie tussen waargenomen en voorspelde scores), R = .834, en vervolgens het kwadraat daarvan, R2 = .695. Dit ene getal vat de verklarende kracht van het regressiemodel samen. Het geeft het percentage variatie in de afhankelijke variabele dat te verklaren is op grond van het meervoudige regressiemodel, bijna 70%, in dit geval.
Tabel 2.3. Verklarende waarde van het regressiemodel: proportie verklaarde variantie (R-kwadraat)
Model Summaryb Adjusted R Square Std. Error of the Estimate
Model 1
R Square
.834a
b. Dependent Variable: Y
.695
.648
1.34
a. Predictors: (Constant), X2, X1
Strikt genomen hebben we voor deze informatie Tabel 2.3 niet nodig. Immers, we weten dat bij lineaire regressie R-kwadraat gelijk is aan SSmodel/(SSmodel + SSerror) ofwel aan SSmodel/SStotal. En deze grootheden staan ook in de ANOVA-tabel (Tabel 2.2): 53.115/76.438 = .695. Ook de grootheid die als laatste genoemd staat in Tabel 2.3 kunnen we reconstrueren op basis van de ANOVA-tabel. Onder de naam Standard error of the estimate geeft REGRESSION in feite de wortel uit de residuele variantie. In Tabel 2.1 hadden we MSerror = 1.794. De wortel daaruit is 1.34.
Toch hebben we meer aan Tabel 2.3 dan alleen het feit dat ze nog eens samenvat wat we ook uit de ANOVA-tabel kunnen halen. De tabel geeft onder de naam Adjusted R square informatie waarmee we de verklarende kracht van het model beter kunnen beoordelen dan op basis van R-kwadraat alleen. Deze laatste maat geeft een overschatting van het percentage verklaarde variantie. De gecorrigeerde R-kwadraat geeft een meer realistische indicatie van het percentage verklaarde variantie. Het verschil tussen de ruwe en gecorrigeerde R-kwadraat is groter naarmate je met een kleinere steekproef een kleinere werkelijke R-kwadraat probeert te schatten. In het voorbeeld hebben we een heel kleine steekproef, maar het verband tussen de afhankelijke en de onafhankelijke variabelen is vrij sterk, zodat de correctie op R-kwadraat niet groot is.
In reactie op de boven gespecificeerde aansturing geeft REGRESSION verder nog tabellen met de beschrijvende statistiek: per variabele het gemiddelde en de standaarddeviatie en per paar van variabelen de correlatie. Wij laten deze tabellen hier buiten beschouwing. Zie hoofdstuk 1 en Tabel 2.2 van het regressieboek
2.5
Voorspelde scores en residuen opslaan in het databestand
Ten slotte zorgt de gegeven aansturing ervoor dat aan het oorspronkelijke databestand twee nieuwe variabelen worden toegevoegd: een voor de voorspelde scores en een voor de ruwe residuen. Dit is het resultaat van het subcommando /SAVE PRED RESID. REGRESSION geeft zelf namen aan deze variabelen, in dit geval: PRE_1 en RES_1 (je kunt deze namen in het databestand zelf desgewenst wijzigen). Je hoeft dus niet voor elke waarneming de regressievergelijking uit te werken om de voorspelde score en het residu te verkrijgen (zie Tabel 4.1 van het regressieboek). REGRESSION kan per waarneming nog andere variabelen leveren, in het bijzonder andere soorten residuele scores en maten voor de invloed van elk datapunt op de parameterschatting; daarvoor zij verwezen naar hoofdstuk 7 en 8 van het regressieboek. Bij het overzicht van de optie SAVE, respectievelijk het subcommando /SAVE in subparagraaf 1.2.5 zijn alle mogelijkheden genoemd.
2.6
Residuen en uitbijters
Bij het uitvoeren van een regressieanalyse maak je veronderstellingen over de residuen (zie regressieboek, hoofdstuk 2 en 7). Als een regressieanalyse is uitgevoerd, kunnen de residuen worden berekend. Inspectie van deze residuen verschaft diagnostische informatie over schendingen van de assumpties en over mogelijke andere problemen met de data, zoals uitbijters en invloedrijke datapunten (zie regressieboek, hoofdstuk 7 en 8). Een regressieanalyse is niet compleet zonder een inspectie van de residuen. In de voorbeeldaansturing van een standaard regressieanalyse was hier nog weinig rekening mee gehouden. Om een residuenanalyse te kunnen verrichten, moeten daartoe expliciet opties worden gekozen of subcommandos worden gespecificeerd. We gaan nu na welke middelen SPSS REGRESSION biedt voor regressiediagnostiek.
2.6.1 Grafische inspectie van de frequentieverdeling van residuen
In het subvenster Plots van REGRESSION zijn twee opties aanwezig om de residuen van een regressiemodel te controleren op de assumptie van de normale verdeling. Op de eerste plaats kan met Histogram een histogram worden gemaakt van de gestandaardiseerde residuen, met een normaalcurve ingetekend in de plot (zie regressieboek, subparagraaf 7.3.2). Dit is equivalent met het subcommando /RESIDUALS HIST(ZRESID). Welke vorm van de
residuen hier wordt gekozen, maakt weinig uit. Het histogram geeft vaak een goed globaal beeld van de vorm van een verdeling, maar kan ook misleidend zijn door de arbitraire keuze van klassegrenzen. Het histogram geeft meestal geen goed beeld van de staarten van een verdeling. Daarvoor kan men beter in het dialoogvenster Plots kiezen voor de Normal probability plot, waarmee een Normal P-P plot wordt geconstrueerd (zie regresssieboek, subparagraaf 7.3.2). Deze kan ook worden verkregen met het subcommando /RESIDUALS NORM(ZRESID) in het syntaxvenster.
Betere mogelijkheden voor het inspecteren van de vorm van de verdeling van residuen zijn te verkrijgen door de residuen op te slaan in het databestand (zie paragraaf 2.5), waarna de volle mogelijkheden van SPSS ter beschikking staan, bijvoorbeeld de Normal Q-Q plot, het stemand-leaf display (informatiever dan een histogram) en statistische toetsen op normaliteit (zie subparagraaf 7.3.2 van het regressieboek).
2.6.2 Spreidingsdiagrammen van residuen
Voor het onderzoeken van de assumptie van constante variantie kan men een spreidingsdiagram maken van de gestudentiseerde residuen-na-weglating (SDRESID) tegen de (gestandaardiseerde) voorspelde scores (ZPRED). Deze plot kan geselecteerd worden in het dialoogvenster Plots. Plaats *SDRESID op de Y-as en *ZPRED op de X-as. Dit is equivalent met het subcommando /SCATTERPLOT = (*SDRESID, *ZPRED). In het dialoogvenster kunnen meerdere spreidingsdiagrammen worden gekozen door gebruik van de knop Next.
Voor onderzoek van de assumptie van lineariteit is ook het spreidingsdiagram van residuen zeer nuttig. Maak een plot met de gestudentiseerde residuen-na-weglating op de Y-as en om beurten elk van de predictoren op de X-as. Een dergelijke plot kan niet in het dialoogvenster Plots van REGRESSION worden gekozen. Er zijn twee manieren om zulke plots te verkrijgen. De eerste manier is via het subcommando /SCATTERPLOT, in te voeren in het syntaxvenster. De tweede manier is om eerst de residuen (*SDRESID) op te slaan in het databestand (zie subparagraaf 3.6.5) om vervolgens in het menu Graphs van SPSS het gewenste scattergram te maken. Stel er zijn twee predictoren met namen X1 en X2, dan zou je bij de eerste manier het volgende subcommando van REGRESSION kunnen maken:
/SCATTERPLOT = (*SDRESID, X1) (*SDRESID, X2)
Er worden nu twee spreidingsdiagrammen van residuen geproduceerd met achtereenvolgens X1 en X2 op de X-as. Zie voor een voorbeeld Figuur 7.14 op p. 216 van het regressieboek. Als voldaan is aan de assumptie van lineariteit, dan is er gn trend in de puntenwolk waarneembaar. Voor het nagaan van de assumptie van lineariteit is het overigens informatiever om niet het gewone spreidingsdiagram maar de partile plot te gebruiken (Fox, 1991, p. 54-58; vergelijk Figuur 7.15 op p. 217 van het regressieboek). Dit is een optie die eenvoudig aangeklikt kan worden in het subvenster Plots, of die verkregen kan worden via het subcommando /PARTIALPLOT ALL. Hiermee worden partile plots verkregen voor elk van de predictoren. De partile plot beeldt de ruwe residuen af op de Y-as en de (uitgepartialiseerde) scores van de predictor op de X-as. In een partile plot kun je de aard van de samenhang zien van Y met een predictor, onder constant houden van alle overige predictoren.
Als grafieken zijn gemaakt, kun je deze met de Chart Editor bewerken. Je kunt een grafiek in de Chart Editor openen door dubbelklikken op de grafiek, of door klikken op de grafiek met de rechter muisknop en dan in het snelmenu de optie SPSS Chart object Open kiezen. De
Chart Editor opent in een apart venster. Om de Chart Editor te verlaten moet je dat venster sluiten. Voor werken met de Chart Editor in SPSS 10 of 11 zie bijvoorbeeld De Vocht (2002). In versie 12 is de Chart Editor aanzienlijk veranderd.
Voor spreidingsdiagrammen van residuen zijn enkele handige aanvullingen aan te geven. Residuen in een steekproef liggen per definitie verspreid rond de waarde 0. Daarom is het altijd handig om een referentielijn in te tekenen bij de waarde 0 op de Y-as. In de Chart Editor van versie 12 kan dat als volgt. Klik in de taakbalk op Y; er verschijnt dan een Properties venster. Klik op het tabblad Scale; vervolgens de optie Display line at origin aanklikken en op de knop Apply drukken. Het kan ook via de knop Chart op de taakbalk. Kies voor Add chart element en vervolgens Y Axis Reference Line. Er verschijnt dan een Properties venster waarin je onder meer de positie van de referentielijn op de Y-as kunt aangeven.
Bij het nagaan van de assumptie van lineariteit is het handig om een lijn of curve bij de puntenwolk van residuen te fitten, bijvoorbeeld een lowess-curve (Locally Weighted Scatterplot Smoother; zie regressieboek, subparagraaf 1.2.5 en 7.3.3). Een lowess-curve vat de
trend in het spreidingsdiagram samen. Als voldaan is aan de assumptie van lineariteit, dan moet in het spreidingsdiagram van de residuen versus de voorspelde scores de gefitte curve nagenoeg een rechte lijn volgen overeenkomend met de referentielijn vanuit het punt 0 op de Y-as (zie Figuur 7.14 op p. 216 van het regressieboek). In een partile plot moet de curve ook nagenoeg een rechte lijn volgen, maar niet de nul-lijn (zie Figuur 7.15 op p. 217 van het regressieboek). Om afwijkingen ten opzichte van de rechte lijn na te gaan, is het daarom handig om bij een partile plot naast de lowess-curve ook een rechte lijn te fitten. Aan de eventuele afwijkingen van de lowess-curve ten opzichte van de rechte lijn in een partile plot kun je de aard van het eventuele niet-lineaire verband aflezen.
Het fitten van een lowess- of loess-curve gaat bij versie 12 van SPSS als volgt. Selecteer in de Chart Editor de puntenwolk door er op te klikken. Klik vervolgens in de taakbalk op het icoon voor Add fit line (kan ook via het menu Chart en via het snelmenu door met de rechter muisknop op de puntenwolk te klikken). Er verschijnt dan een Properties venster; klik op het tabblad Fit line; vervolgens kun je Loess kiezen en eventueel de opties voor het fitten van de curve aanpassen. Meestal zullen overigens de standaardinstellingen van deze opties goed werken. Er is een optie voor % points to fit; deze staat standaard op 50%. De fitprocedure werkt met een opschuivend window dat telkens 50% van alle datapunten omvat. Als je deze waarde verhoogt, dan zal de curve er gladder gaan uitzien; daarmee krijg je een meer globaal beeld van de trend in het spreidingsdiagram. Als je dit percentage verlaagt, dan zal de curve een grilliger verloop krijgen en dan zal het beeld van de trend sterker wisselen met lage of hoge waarden op de predictor. De tweede optie staat standaard ingesteld als de Epanechnikov kernel. Dat is een bepaalde manier om de datapunten in de buurt van een gegeven punt gewichten te geven (het bepalen van de locale gewichten) in het fitten van de curve. SPSS biedt daartoe vele mogelijkheden; soms zal enig uitproberen zijn vereist. Klik ten slotte op de knop Apply. Voor het fitten van een rechte lijn kies voor Linear en klik vervolgens op Apply.
Een andere handige faciliteit in de Chart Editor is de Data ID Mode op de taakbalk (kan ook gekozen worden vanuit het menu Chart). Als je het Data ID Mode-icoon op een punt in de puntenwolk plaatst, verschijnt het case-nummer (het nummer van een rij in het databestand) dat bij dat punt hoort in beeld. Hiermee kun je bij ongewone datapunten (uitbijters) snel identificeren om welke case het gaat.
2.6.3 Statistische maten betreffende voorspelde scores en residuen
SPSS kan een overzicht afdrukken van beschrijvende statistieken (minimum, maximum, gemiddelde, standaardafwijking, N) met betrekking tot variabelen die ontleend worden aan de voorspelde scores en de residuen. Dit is de tabel Residuals Statistics. In minimale vorm bevat deze tabel vier variabelen: de voorspelde score, het ruwe residu, de gestandaardiseerde voorspelde score, het gestandaardiseerde residu. Deze tabel verschijnt in de output als je in het subvenster Statistics de optie Casewise diagnostics selecteert, of als je in het subvenster Plots de optie Histogram of de optie Normal probability plot selecteert. Tabel 2.4 toont deze tabel voor de voorbeelddata, bijvoorbeeld verkregen met de volgende syntax:
REGRESSION /DEPENDENT y /METHOD=ENTER x1 x2 /CASEWISE PLOT(ZRESID)OUTLIERS(3). (Data van Tabel 2.1 uit het regressieboek, output in Tabel 4.3 van het regressieboek en van /CASEWISE in Tabel 2.4 van deze handleiding) Tabel 2.4. Beschrijvende statistieken van voorspelde scores en residuen
Residuals Statisticsa Minimum Predicted Value Residual Std. Predicted Value Std. Residual Maximum Mean Std. Deviation N
2.26 -1.90 -1.55 -1.42
8.60 2.01 1.81 1.50
5.19 .00 .00 .00
1.88 1.25 1.00 .93
16 16 16 16
a. Dependent Variable: y
Het gemiddelde van de residuen is gelijk aan 0; dit is noodzakelijk zo als gevolg van het toepassen van het kleinste-kwadratencriterium. De beide gestandaardiseerde variabelen (ZPRED en ZRESID) hebben een gemiddelde van 0 en een standaardafwijking van 1. De standaardafwijking van de ruwe residuen is gelijk aan de standard error of the estimate.
Volgens Tabel 2.3 is de standard error of the estimate gelijk aan 1.34; in Tabel 2.4 vinden we de waarde 1.25. Dit verschil en de afwijking in de standaarddeviatie van de gestandaardiseerde residuen (.93 in plaats van 1.0) komen doordat SPSS bij het berekenen van de variantie van de residuen in Tabel 2.4 de gebruikelijke procedure heeft gevolgd, namelijk de kwadratensom delen door N 1. De residuen zijn in dit geval echter niet op N 1 maar op N 3 vrijheidsgraden gebaseerd. Bij het berekenen van de gestandaardiseerde residuen door REGRESSION heeft SPSS wel rekening gehouden met het juiste aantal vrijheidsgraden. Als N groot is in vergelijking met het aantal predictoren, wordt de fout in Tabel 2.4 verwaarloosbaar klein.
De belangrijkste informatie in Tabel 2.4 betreft het minimum en het maximum van de residuen en vooral van de gestandaardiseerde residuen. De case die het verst van de voorspelde score afligt, heeft een residu van 2.01, wat overeenkomt met een z-waarde van 1.50. In een normale verdeling liggen bijna alle scores tussen z = -3 en z = +3. Een z van 1.50 is dus zeker niet extreem te noemen. Er blijkt in dit kleine databestand dus gn uitbijter aanwezig.
De tabel Residuals Statistics kan ook een uitgebreidere inhoud hebben, met de gegevens van 12 variabelen. SPSS REGRESSION kan in totaal vier variabelen construeren betreffende de voorspelde scores. Naast de twee al genoemde zijn dat de standaardfout van de voorspelde score (S.E. of mean predictions, SEPRED, ook aangeduid als Standard Error of Predicted Value. De standaardfout van een voorspelde score hangt mede af van de scores op de predictoren en is daardoor een variabele die verschillende waarden kan hebben bij verschillende cases. Er zijn in totaal vijf variabelen betreffende de residuen (regressieboek, Tabel 7.2 op p. 194; paragraaf 1.3 van deze handleiding). Verder zijn er nog drie variabelen die aangeduid worden als Distances en die te maken hebben met het zoeken naar invloedrijke datapunten. Twee daarvan, Cooks D en de Centered Leverage Value, worden besproken in paragraaf 8.3 van het regressieboek. Zie ook het overzicht van alle opties in subparagraaf 1.2.5 van deze handleiding.
2.6.4 Gegevens over individuele cases: uitbijters
SPSS REGRESSION kan twee soorten tabellen produceren met residuen voor individuele cases. Dit is van belang voor het opsporen van uitbijters. In de vorige subparagraaf noemden we al de optie Casewise diagnostics (in het subvenster Statistics). Bij die optie kun je kiezen voor Outliers outside 3 standard deviations, of voor ALL cases. Meestal is alleen de eerste optie nuttig, zeker bij grote databestanden. Deze optie selecteren is equivalent met het subcommando /CASEWISE PLOT(ZRESID) OUTLIERS(3).
Een uitbijter (outlier) is een case met een groot residu. Standaard beschouwt het programma cases met een gestandaardiseerd residu groter dan 3 of kleiner dan -3 als een uitbijter. De gebruiker kan in plaats van z = 3 een ander criterium kiezen, bijvoorbeeld z = 2. Tevens kan de gebruiker kiezen voor een andere vorm van residuen; dit laatste kan alleen in het syntaxvenster. Aan te raden is bijvoorbeeld /CASEWISE PLOT(SDRESID) OUTLIERS(2);
daarmee worden de uitbijters bekeken in termen van de gestudentiseerde residuen-naweglating.
Zoals we in de vorige subparagraaf al zagen, zijn er in het bestand van de voorbeelddata geen uitbijters aanwezig. Om toch de casewise diagnostics te kunnen demonstreren, leggen we het criterium bij een z-waarde van 1.5 in termen van de SDRESID. De output is hier gegeven als Tabel 2.5.
Tabel 2.5
Voorbeeld van diagnostische gegevens per case

Casewise Diagnosticsa Stud. Deleted Residual
Case Number 10 14
Predicted Value
Residual
1.901 -1.585
a. Dependent Variable: y
9 2
6.99 3.90
2.015 -1.904
De syntax voor het verkrijgen van deze output is:

REGRESSION /DEPENDENT y /METHOD=ENTER x1 x2 /CASEWISE PLOT(ZRESID)OUTLIERS(1.5). (Data van Tabel 2.1 uit het regressieboek, output in Tabel 4.3 van het regressieboek en van /CASEWISE in Tabel 2.4 en 2.5 van deze handleiding)
Er zijn twee cases met een gestudentiseerd residu-na-weglating dat in absolute waarde groter is dan 1.5. Case 10 heeft een positief residu; bij deze case is dus de geobserveerde waarde op Y groter dan de voorspelde waarde. Case 14 heeft een negatief residu; de score op Y was bij deze case dus kleiner dan de score die volgens de regressievergelijking te verwachten is.
In de tabel Casewise diagnostics worden de cases geordend naar hun case-nummer, dus naar hun volgorde in het databestand. De tweede mogelijke tabel van diagnostische gegevens per case is de tabel Outlier statistics. In deze tabel worden de cases geordend naar de hoogte van hun residu. Gepresenteerd worden de cases met de 10 hoogste residuen (positief dan wel negatief). Deze tabel kan niet in de dialoogvensters geselecteerd worden; de tabel wordt verkregen via het subcommando /RESIDUALS OUTLIERS(SDRESID).
2.7
Ontbrekende scores
De voorbeeldaansturing van REGRESSION in paragraaf 2.1 omvat het subcommando
/MISSING LISTWISE
Daarbij is vermeld dat dit de default is. Dat wil zeggen: als het subcommando /MISSING ontbreekt, dan wordt automatisch /MISSING LISTWISE toegepast. De optie Missing values kan gekozen worden in het subvenster Options. Daar worden drie alternatieven aangeboden om te handelen in geval er in het databestand scores ontbreken: lijstgewijze weglating van cases met ontbrekende scores (listwise deletion), paarsgewijze weglating van cases ontbrekende scores (pairwise deletion), of vervanging van ontbrekende scores door het gemiddelde van de cases die wel een valide score hebben (mean substitution). Maakt men deze keuze niet, dan past het programma listwise deletion toe. Deze opties worden besproken in subparagraaf 8.2.2 van het regressieboek.
Zorgvuldige behandeling van ontbrekende scores is noodzakelijk omdat altijd het gevaar dreigt dat resultaten van een analyse vertekend worden als gevolg van de ontbrekende scores. De behandeling van ontbrekende scores kan men daarom meestal niet zonder meer overlaten aan de standaardinstellingen van een computerprogramma.
Naast de mogelijkheden die een programma als REGRESSION zelf biedt, kent SPSS ook een aparte procedure voor het onderzoeken en behandelen van ontbrekende scores. Dit is de procedure Missing Value Analysis, die vanuit het menu Analyze kan worden geselecteerd. Zie de subparagrafen 1.2.3 en 8.2.1 van het regressieboek. Deze procedure kan worden gebruikt om aard en omvang van de ontbrekende scores na te gaan. Op basis daarvan kan men besluiten hoe om te gaan met de ontbrekende scores die zich voordoen. Verder biedt het programma diverse mogelijkheden om eventueel de ontbrekende scores in een databestand op te vullen met schattingen. Als zich ontbrekende scores in een databestand voordoen, en dat is bijna altijd het geval, dan is het raadzaam eerst Missing Value Analysis uit te voeren alvorens een programma als REGRESSION toe te passen.
Het programma onderscheidt twee soorten variabelen, kwantitatieve (quantitative) en kwalitatieve (categorical). De standaardaansturing bestaat eruit dat men de variabelen opgeeft,
verdeeld in deze twee soorten. Voor het voorbeeld van subparagraaf 1.2.3 zou deze standaardaansturing als volgt zijn (toegepast op het databestand leesvorderingen.sav):
MVA tot31 tot33 tot54
Er zijn drie variabelen opgegeven, alledrie als kwantitatieve variabelen. Zouden we een kwalitatieve (categorical) variabele, zoals geslacht, willen toevoegen dan is de standaardaansturing:
MVA tot31 tot33 tot54 sex /MAXCAT = 25 /CATEGORICAL = sex. (Data leesvorderingen.sav, output in Tabel 2.6 van deze handleiding)
De output van de standaardaansturing bestaat uit slechts n tabel, de tabel Univariate Statistics (zie Tabel 2.6). Uit deze tabel zie je de omvang van de ontbrekende scores per variabele, plus het aantal lage en hoge extreme scores.
Tabel 2.6 Beschrijvende statistieken geleverd door de procedure Missing Value Analysis
Univariate Statistics
a
N tot31 tot33 tot54 sex
Mean
Std. Deviation
Missing Count Percent
No. of Extremes Low
High
626 625 614 861
30.56 16.17 19.29
5.751 6.827 6.135
237 238 249 2
27.5 27.6 28.9 .2
28 0 9
0 0 0
a. Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).
Belangrijker is informatie over aard en patroon van de ontbrekende scores, zoals in Tabel 1.1 op p. 37 van het regressieboek. Deze output kan worden verkregen door in het dialoogvenster van Missing Value Analysis op Patterns te klikken. Vervolgens moet je bij Display de eerste optie aanvinken: Tabulated cases grouped by missing value patterns. Je kunt daarbij verder kiezen om weinig voorkomende patronen buiten beschouwing te laten en om de patronen al dan niet gesorteerd weer te geven. Bij Tabel 1.1 van het regressieboek is ervoor gekozen om patronen die in minder dan 0.5% van de cases voorkomen buiten beschouwing te laten. Het corresponderende subcommando is /TPATTERN PERCENT = 0.5.
Hiermee verkrijg je de tabel Tabulated Patterns, een overzicht van de patronen van ontbrekende scores bij de betrokken variabelen met het aantal malen dat elk patroon zich in de data voordoet. Tevens wordt per patroon vermeld het aantal cases met volledige data dat je krijgt als de variabelen met ontbrekende scores buiten de analyse worden gehouden, of als de betrokken ontbrekende scores zouden worden opgevuld (Complete if ). Het bovenste deel van Tabel 1.1 van het regressieboek toont deze tabulated patterns voor het voorbeeld.
Het onderste deel van Tabel 1.1 is een stukje geknipt uit een grotere tabel met Separate Variance t Tests. Deze kan worden verkregen door in het dialoogvenster van Missing Value Analysis te klikken op Descriptives. Vervolgens kies je bij Indicator Variable Statistics voor t tests with groups formed by indicator variables. Per (kwantitatieve) variabele wordt hiermee een indicatorvariabele geconstrueerd. Dat is een variabele die de waarde 1 heeft bij cases die op de corresponderende echte variabele een ontbrekende score hebben; in alle andere gevallen heeft de indicatorvariabele de waarde 0. Met behulp van deze indicatorvariabele worden voor bijvoorbeeld de variabele TOT31 (visuele leesvoorwaarden) twee groepen onderscheiden: 0 = er is een valide score aanwezig op visuele leesvoorwaarden, 1 = de score op visuele leesvoorwaarden ontbreekt. De bedoeling is nu om deze twee groepen te vergelijken op de andere variabelen, hier auditieve leesvoorwaarden (TOT33) en begrijpend lezen (TOT54). Deze vergelijking gebeurt met een t-toets voor twee onafhankelijke gemiddelden; de separate variance t-test wordt toegepast, omdat er niet verwacht kan worden dat de varianties van de twee gempliceerde populaties aan elkaar gelijk zullen zijn.
Deze keuze in het dialoogvenster leidt tot het volgende subcommando: /TTEST PROB PERCENT=5. Het sleutelwoord PROB betekent dat (tweezijdige) p-waarden worden gerapporteerd. PERCENT=5 betekent dat analyse alleen wordt uitgevoerd bij variabelen waarbij het percentage ontbrekende scores groter is dan 5% (dit is de default). Al bij al is de syntax waarmee de resultaten in Tabel 1.1 van het regressieboek zijn verkregen
MVA tot31 tot33 tot54 /TTEST PROB PERCENT=5 /TPATTERN PERCENT=0.5 . (Data leesvorderingen.sav, gedeeltelijke output in Tabel 1.1 van het regressieboek en Tabel 2.7 van deze handleiding)
Tabel 2.7 toont de output van de t-toetsen, waaruit een gedeelte is opgenomen in Tabel 1.1 van het regressieboek. De tabel bestaat uit drie blokken output; elk blok betreft de vergelijking tussen de gemiddelden van twee groepen gevormd door de indicatorvariabele behorende bij de genoemde variabele. Zo betreft het eerste blok de vergelijking van cases met en zonder een geldige score op TOT31 (visuele leesvoorwaarden). Deze twee groepen blijken niet te verschillen in hun gemiddelden op de andere twee variabelen (TOT33 en TOT54). Bij het derde blok, betreffende begrijpend lezen, is er wel sprake van statistisch significante verschillen tussen de groepen met en zonder een score op begrijpend lezen (zie de interpretatie in subparagraaf 1.2.3 van het regressieboek.
Tabel 2.7.
Output van Missing Value Analysis: t-toetsen om na te gaan of het ontbreken van een score op een variabele samenhangt met de scores op andere variabelen
Separate Variance t Testsa tot31 tot33 tot54
t df P(2-tail) # Present # Missing tot31 Mean(Present) Mean(Missing) t df P(2-tail) # Present # Missing tot33 Mean(Present) Mean(Missing) t df P(2-tail) # Present # Missing tot54 Mean(Present) Mean(Missing)
. . . 626 0 30.56 . 2.0 7.1 .079 618 8 30.66 23.13 2.8 51.6 .008 578 48 30.79 27.81
1.2 6.2 .283 618 7 16.19 13.86 . . . 625 0 16.17 . 1.9 56.2 .059 577 48 16.31 14.44
.3 38.8 .792 578 36 19.30 19.00 1.0 40.3 .301 577 37 19.35 18.22 . . . 614 0 19.29 .
For each quantitative variable, pairs of groups are formed by indicator variables (present, missing). a. Indicator variables with less than 5% missing are not displayed.
Hoofdstuk 3
Vergelijken van regressiemodellen
In een standaard regressieanalyse is er n set van predictoren die alle tegelijk in de analyse worden opgenomen. Vaak zijn er echter redenen dat een onderzoeker twee of meer sets van predictoren wil analyseren. Daarbij kunnen we de volgende situaties onderscheiden:
1) er zijn twee of meer ongeordende sets van predictoren en de onderzoeker wil de bijdrage tot het verklaren van de afhankelijke variabele onderzoeken voor elke set zonder en met constant houden van de andere sets. Anders gezegd, de onderzoeker wil nagaan wat elke set van predictoren op zichzelf kan verklaren en wat elke set nog kan verklaren als de andere sets van predictoren constant worden gehouden. In het laatste geval gaat het om de unieke of extra bijdrage van een bepaalde set van predictoren bovenop wat de andere predictoren kunnen verklaren. Voor een voorbeeld van deze analysestrategie zie het regressieboek, subparagraaf 5.5.5. 2) er zijn twee of meer geordende sets van predictoren, anders gezegd de onderzoeker heeft een sequentie van (sets van) predictoren opgesteld op basis van inhoudelijke overwegingen. De onderzoeker wil nagaan wat elke set van predictoren toevoegt aan het verklaren van de afhankelijke variabele bovenop de predictoren die vooraf gaan in de gegeven volgorde. Men noemt dit sequentile of hirarchische regressieanalyse; voor een voorbeeld van deze analysestrategie zie het regressieboek, subparagraaf 5.4.2. 3) er is n grote set van predictoren en de onderzoeker wil exploreren welke subset van predictoren het beste de criteriumvariabele kan voorspellen. In deze situatie kunnen methoden van automatische modelselectie van toepassing zijn.
Bij alledrie analysestrategien is sprake van het vergelijken van modellen. Bij het vergelijken van twee regressiemodellen (regressieboek, hoofdstuk 5) gaat het over de vraag of een bepaalde variantiebron (een enkele predictor of een set van predictoren als geheel) statistisch
Regressieanalyse met SPSS 3: Vergelijken van regressiemodellen 44
significant bijdraagt in het verklaren van de variantie van de afhankelijke variabele. Er is een vol model met alle predictoren en een gereduceerd of beperkt model. Het beperkte model is verkregen door weglating van een of meer predictoren uit het volle model. Doel is het toetsen van de additionele bijdrage van de weggelaten predictor(en). Beide modellen leveren een hoeveelheid residuele variatie, uitgedrukt in de residuele kwadratensommen SSerr(vol) en SSerr(bep), respectievelijk een percentage verklaarde variantie, uitgedrukt in de meervoudige correlatiecofficinten R2(vol) en R2(bep). Het verschil tussen deze grootheden representeert de extra bijdrage van de te toetsen variantiebron(nen), kortweg de hypothese. Je kunt deze extra bijdrage op twee equivalente manieren beschrijven:
SSerr(bep) SSerr(vol) ofwel R2(vol) - R2(bep)
= reductie in residuele variatie door de hypothese
= toename in verklaarde variantie door de hypothese.
Merk op dat in het volle model de residuele variantie of errorvariantie altijd kleiner (beter: nooit groter) is dan in het beperkte model. De proportie verklaarde variantie is dienovereenkomstig in het volle model groter dan in het beperkte model.
Of het effect van de te toetsen bron statistisch significant is stellen we vast met behulp van de algemene F-toets. In termen van residuele kwadratensommen is de toetsingsgrootheid als volgt gedefinieerd:
(1)
[SSerr(beperkt) - SSerr(vol)] / [dferr(beperkt) - dferr(vol)] SSerr(vol) / dferr(vol)
De F-toets kan ook geformuleerd worden termen van meervoudige correlaties, ofwel in termen van extra verklaarde variantie::
(2)
[R 2(vol) - R 2(bep)] / [dferr(bep) - dferr(vol)] [1 - R 2(vol)] / dferr(vol)
Elk paar van regressiemodellen waarbij het ene model (het volle) een of meer termen wel bevat die het andere model (het beperkte model) niet bevat, kan vergeleken worden door twee regressieanalyses uit te voeren en de nodige bestanddelen voor de F-toets over te nemen uit de output. SPSS REGRESSION biedt echter mogelijkheden om modellen te vergelijken in n enkele analyse. We demonstreren dat aan de hand van de data in tabel 5.8 van het regressieboek (p. 137), een klein bestand, met n = 16, een afhankelijke varabele Y en vier predictoren, X1, X2, X3 en X4.
3.1
Hirarchische regressieanalyse: de additionele bijdragen van predictoren in volgorde
Stel we willen weten of de predictoren X3 en X4 significant bijdragen in het verklaren van de variantie van Y, in een model waarin al de twee predictoren X1 en X2 opgenomen zijn. Daartoe vergelijken we de volgende twee modellen:
vol model: beperkt model:
Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + e Y = 0 + 1 X1 + 2 X2 + e
Er is een subset van variabelen die zowel in het volle als in het beperkte model voorkomt (X1 en X2) en er is een subset die alleen in het volle model voorkomt, de hypothese-subset (X3 en X4). De eerste subset kunnen we in deze context de controlevariabelen noemen, want in het volle model worden de bijdragen van X3 en X4 gecontroleerd voor X1 en X2. Dit is een sequentile of hirarchische analysestrategie, waarbij a priori een volgorde van subsets van predictoren is gespecificeerd.
De procedure REGRESSION kan deze vergelijking in n keer uitvoeren, wanneer we elke subset van variabelen, in REGRESSION aangeduid met de term block, op de juiste manier invoeren. Dat kan via het dialoogvenster waarin we de procedure REGRESSION aanroepen; bij de methode ENTER kun je variabelen in opeenvolgende blokken invoeren, via de knop NEXT. Voor de juiste statistische toetsing moet je ook nog in het subvenster STATISTICS de optie R squared Change aanklikken.
De aansturing kan natuurlijk ook gebeuren via het syntaxvenster. We voeren de variabelen in met twee maal het subcommando METHOD = ENTER. Bij het eerste ENTER noemen we X1 en X2 (de controlevariabelen), en na het tweede noemen we X3 en X4 (de te toetsen variabelen). In het subcommando STATISTICS nemen we het sleutelwoord CHA of CHANGE op. De volgende aansturing geeft de gewenste output:
REGRESSION /STATISTICS R ANOVA CHANGE /DEPENDENT Y /METHOD= ENTER X1 X2 /METHOD = ENTER X3 X4.
(Data van Tabel 5.8 en gedeeltelijke output in Tabel 5.9 en 5.10 van het regressieboek)
De ANOVA-tabel die REGRESSION nu geeft (als reactie op de optie ANOVA in het subcommando /STATISTICS) bevat nu in feite twee ANOVA-tabellen. Zie Tabel 3.1; deze is identiek aan Tabel 5.9 op p. 137 van het regressieboek.
Tabel 3.1. ANOVA-resultaten voor twee regressiemodellen

ANOVAc Sum of Squares Regression Residual Total 2 Regression Residual Total Mean Square
Model 1
df
Sig.
435.293 112.707 548.000 498.771 49.229 548.000
2 13 15 4 11 15
217.647 8.670 124.693 4.475
25.104
.000a
27.862
.000b
a. Predictors: (Constant), X2, X1 b. Predictors: (Constant), X2, X1, X4, X3 c. Dependent Variable: Y
De output nummert beide modellen en geeft voor elk model aan welke termen er in de getoetste model- of regressiekwadratensom gaan.
Op grond van Tabel 3.1 zouden we zelf formule (1) voor de F-toets kunnen invullen. SSerr(bep) SSerr(vol) is gelijk aan 112.707 49.229 = 63.478. Deze afname van de errorkwadratensom of toename van de modelkwadratensom met 63.478 correspondeert met een toegenomen proportie verklaarde variantie ten bedrage van R2(toename) = 63.478/548.00 = .12 of 12%. Met deze toename zijn 4 2 = 2 vrijheidsgraden gemoeid. De F-toets (met df teller = 2 en df noemer = 11) voor de additionele bijdrage wordt dus als volgt:
F = (63.478 / 2) / (49.229 / 11) = 31.739 / 4.475 = 7.09.
In plaats van deze F met de hand te berekenen (en de bijbehorende overschrijdingskans in een F-tabel op te zoeken) verlaten we ons liever op REGRESSION. De gewenste resultaten staan in de output in een tabel met het kopje MODEL SUMMARY, hier weergegeven als Tabel 3.2 (= Tabel 5.10 van het regressieboek, p. 138).
Tabel 3.2.
Toetsing van de additionele bijdrage van een subset van predictoren (X3 en X4)
Model Summary
Change Statistics Adjusted R Square Std. Error of the Estimate R Square Change Sig. F Change
Model 1 2
R Square
F Change
df1
df2
.89a .95b
.79 .91
.76 .88
2.94 2.12
.79 .12
25.10 7.09
2.00 2.00
13 11
.000 .011
a. Predictors: (Constant), X2, X1 b. Predictors: (Constant), X2, X1, X4, X3
Tabel 3.2 geeft in essentie dezelfde informatie als Tabel 3.1, maar nu in termen van proporties verklaarde variantie en R-kwadraat. Voor elk model geeft Tabel 3.2 eerst R en R square. Nemen we de predictoren X3 en X4 op in het model, dan neemt de proportie verklaarde variantie toe van .79 naar .91, een toename dus van .12 of 12%. Deze toename staat nog eens expliciet vermeld in de kolom gelabeld R Square Change, op de regel voor model 2, het volle model. Op die regel staat ook de waarde van de F-grootheid voor het toetsen van de toename (F = 7.09), het aantal vrijheidsgraden voor de teller en de noemer van F (df1 = 2 en en df2 = 11) en ten slotte de significantie van F, dat wil zeggen de overschrijdingskans p = .011. Deze overschrijdingskans is kleiner dan het gebruikelijke significantieniveau van .05, dus we concluderen dat de beide predictoren (als set!) statistisch significant bijdragen in de variantie van de afhankelijke variabele Y, buiten de bijdrage die we al kunnen toeschrijven aan X1 en X2 (die overigens ook statistisch significant is).
Het gegeven voorbeeld is eenvoudig en betreft maar vier predictoren, verdeeld in twee blokken. De procedure is echter heel algemeen: ze werkt ook met meer dan twee blokken en
ook met subsets die maar bestaan uit een enkele predictor. Het initile model volgt uit de eerste METHOD = ENTER opdracht. Elke volgende METHOD = ENTER opdracht voegt een of meer nieuwe predictoren toe aan het eerder gevormde model. De opeenvolgende ENTERopdrachten zijn cumulatief.
3.1.1 Hirarchische of sequentile analyse versus simultane analyse
Voor de goede orde zij er op gewezen dat de additionele bijdrage van een subset van een of meer predictoren niet hetzelfde is als de unieke bijdrage van de subset. Bij maar twee blokken van variabelen, zoals in het zojuist besproken voorbeeld, is de additionele bijdrage van het tweede blok wel gelijk aan de unieke bijdrage van dat blok. Dat is echter niet zo in het algemene geval van meer dan twee blokken. Additionele bijdragen toets je als je wilt weten wat een volgende variabele of set van variabelen nog bijdraagt aan een eerder gespecificeerd model; er is dan sprake van een reeks van modellen, met steeds meer predictoren erin. Unieke bijdragen toets je wanneer je van een set van variabelen wilt weten wat elke variabele (of elke subset van variabelen) toevoegt aan alle andere variabelen (zie paragraaf 5.5 van het regressieboek).
Neem het volgende voorbeeld. We zouden met vier predictoren, X1, X2, X3 en X4, bijvoorbeeld de volgende analyse kunnen specificeren: begin met X1 en X3, voeg dan X4 toe, en neem ten slotte X2 op. We toetsen dan achtereenvolgens de modellen:
initieel model: volgend model: laatste model:
Y = 0 + 1 X1 + 2 X3 + e Y = 0 + 1 X1 + 2 X3 + 3 X4 + e Y = 0 + 1 X1 + 2 X3 + 3 X4 + 4 X2 + e
Met de hirarchische analyse toetsen we eerst de bijdrage van X4, gegeven X1 en X3 (hetgeen de unieke bijdrage is van X4 in het model met X1, X3 en X4) en dan de bijdrage van X2, gegeven X1, X3 en X4 (hetgeen de unieke bijdrage is van X2 in een model met X1, X2, X3 en X4). We laten het als oefening aan de lezer over om deze analyse uit te voeren met het voorbeelddatabestand DataTabel5-8.sav.
Je zou unieke bijdragen kunnen bepalen met behulp van meerdere analyses met METHOD = ENTER, waarbij elke variabele of set van variabelen op zijn beurt als laatste toegevoegd wordt aan het model. Dit kan echter efficinter met de opdracht METHOD = TEST (zie paragraaf 3.2).
3.1.2 Keuze van de errorterm bij een hirarchische of sequentile analyse
Bij het toetsen van de toename in proportie verklaarde variantie met behulp van een serie METHOD = ENTER opdrachten moeten twee strategien worden onderscheiden voor het kiezen van de errorterm waartegen wordt getoetst, zoals besproken in subparagraaf 5.5.4 van het regressieboek: toetsen tegen de errorterm van het lopende model versus toetsen tegen de errorterm van het meest volle model. Het verschil tussen de beide strategien laat zich verduidelijken aan de hand van een dataset met vier variabelen A tot en met D. Stel dat de lexicale volgorde A - B - C - D ook de volgorde is waarin we de variabelen willen toetsen. Bij het toetsen van additionele bijdragen in een hirarchische of sequentile analyse vergelijken we opeenvolgende paren van modellen. Het gaat om de volgende modellen:
Model 1: Model 2: Model 3: Model 4:
A A+B A+B+C A+B+C+D
Met de vergelijking van model 2 en 1 toetsen we de additionele bijdrage van B, gegeven A; met de vergelijking van model 3 en 2 toetsen we datgene wat C toevoegt aan de predictoren A en B; met de vergelijking van 4 en 3 toetsen we, ten slotte, de bijdrage van D gegeven A, B en C. Bij de standaardwerkwijze met een serie van ENTER-opdrachten (opeenvolgende blokken van variabelen ingevoerd met NEXT in het dialoogvenster) wordt de toename in modelkwadratensom die elk volgend model biedt, getoetst tegen de residuele variantie van datzelfde model. Bij het paar 3 en 2, bijvoorbeeld, toetsen we de bijdrage van C tegen de error die nog overblijft in model 3. Elke additionele bijdrage wordt getoetst tegen een eigen errorterm. Dit is het geval bij de toetsen die SPSS rapporteert in de tabel Model Summary.
In de tweede strategie bij een hirarchische of sequentile analyse toetsen we dezelfde toenames in modelkwadratensom als in de eerste strategie, maar dat gebeurt steeds tegen
dezelfde errorterm, namelijk die van het meest volle model waarin alle vier de predictoren voorkomen! We illustreren de twee strategien aan de hand van de voorbeelddata (Tabel 5.8, regressieboek p. 137) met de volgende aansturing.
REGRESSION /STATISTICS COEFF OUTS R ANOVA CHANGE /DEPENDENT Y /METHOD=ENTER x1 /METHOD=ENTER x4 /METHOD=ENTER x3
/METHOD=ENTER x2.
(Data van Tabel 5.8 van het regressieboek en output samengevat in Tabel 3.3 van deze handleiding)
REGRESSION levert nu de resultaten voor vier modellen in volgorde:
Model 1: Model 2: Model 3: Model 4:
X1 X1 + X4 X1 + X4 + X3 X1 + X4 + X3 + X2
Elk volgend model vergroot de modelkwadratensom op basis van de additionele bijdrage van elke volgende predictor, en reduceert dienovereenkomstig de residuele kwadratensom. De opdeling van de totale kwadratensom geleverd door de opeenvolgende modellen is samengevat in Tabel 3.3.
Tabel 3.3 SSmodel en SSerror bij vier opeenvolgende regressiemodellen: elk volgend model bevat een predictor meer dan het voorafgaande model (n = 16) SSerror dfmodel dferror Model SSmodel X1 X1, X4 X1, X4, X3 X1, X4, X3, X2 427.87 438.15 493.99 498.77 120.13 109.85 54.50 49.23 1 2 3 4 14 13 12 11
Bij deze analyses zijn verschillende F-toetsen mogelijk. Op de eerste plaats kun je per model de modelvariantie toetsen tegen de residuele variantie. Deze F-toetsen geeft REGRESSION in de ANOVA-tabel verkregen met bovenstaande aansturing. Deze ANOVA-tabel heeft dezelfde structuur als Tabel 3.1, maar bevat nu vier ANOVAs. Zo is in het model met X1, X4 en X3
de modelvariantie statistisch significant: F = [493.99/3] / [54.50/12] = 36.26, df = 3 en 12, p = .000. Let op de vrijheidsgraden. Daaraan zie je dat het gaat om de modelvariantie horend bij een model met drie predictoren, die getoetst wordt tegen de residuele variantie die dat model achterlaat.
Op de tweede plaats kun je bij elk volgend model de toename in modelvariantie toetsen als gevolg van de opname van een volgende predictor in het model. Dat kan met de F-toets volgens de boven gegeven formule (1). De gegevens voor deze F-toets kun je ook uit Tabel 4.3 halen. In een model met X1 en X4 zorgt X3 voor een reductie in residuele kwadratensom: van 109.85 naar 54.50. Deze reductie is statistisch significant: F = [(109.85 54.50)/1] / [54.50/12] = 12.19, df = 1 en 12, p = .004. Let weer op de vrijheidsgraden. We toetsen hier tegen de error van het model met X1, X2 en X3. Dit is de F-toets die REGRESSION desgevraagd geeft in de Model Summary onder de naam F Change (zie Tabel 3.2).
Ten slotte is er de F-toets waarbij elke additionele bijdrage wordt getoetst tegen de error van het meest volle model, hier dus het laatste model. Neem weer de bijdrage van X3. De sequentile F-toets wordt nu: F = [(109.85 54.50)/1] / [49.23/11] = 12.37, df = 1 en 11, p = .005. Zou je zo de opeenvolgende bijdrage van elk van de vier predictoren willen toetsen (waarbij de volgorde dus vastligt als X1, X4, X3 en X2), dan moet je ofwel zelf de toetsingsgrootheden uitrekenen op basis van de gegevens die REGRESSION levert in de ANOVA-tabel, ofwel gebruik maken van een ander SPSS-programma namelijk GLM (zie paragraaf 3.6).
3.2
Simultane regressieanalyse: toetsing van ongeordende subsets van predictoren
Met behulp van het subcommando /METHOD = ENTER kan men voor een gegeven set van predictoren vrijwel elk gewenst model specificeren en vergelijken met andere modellen. REGRESSION biedt nog een interessante mogelijkheid om diverse modellen tegelijkertijd te toetsen, en wel het subcommando /METHOD = TEST. Dit kan echter uitsluitend via de syntax. De algemene vorm van het subcommando is als volgt:
/METHOD = TEST (varlist A) (varlist B) (varlist C)
Achter TEST komen, steeds tussen haakjes, lijsten met namen van een of meer variabelen. REGRESSION construeert op basis van deze lijsten een aantal modellen. Het eerste model bestaat uit alle variabelen die in het subcommando genoemd worden (het volle model). Met dit volle model worden vervolgens een aantal gereduceerde modellen vergeleken, en wel zoveel als er lijstjes zijn in het METHOD-commando. Elk gereduceerd model komt tot stand door steeds de variabelen van een bepaald lijstje weg te laten uit het volle model. Bij drie subsets, A B en C, krijgen we met het subcommando /METHOD = TEST(varlist A)(varlist B)(varlist C) dus achtereenvolgens:
het model met A en B en C het model met B en C (A eruit) het model met A en C (B eruit) het model met A en B (C eruit)
Stel we willen weten of de predictoren X3 en X4 significant bijdragen in het verklaren van de variantie van Y. We willen dan de volgende twee modellen vergelijken.
vol model: beperkt model:
Y = 0 + 1 X1 + 2 X2 + 3 X3 + 4 X4 + e Y = 0 + 1 X1 + 2 X2 + e
We zouden dat kunnen doen met de volgende aansturing:

REGRESSION /STATISTICS COEFF OUTS R ANOVA CHANGE /DEPENDENT Y /METHOD = TEST (X1, X2) (X3, X4).
(Data van Tabel 5.8 en output in Tabel 5.12 van het regressieboek)
Het voornaamste bestanddeel van de output is weer de ANOVA-tabel, hier gereproduceerd als Tabel 3.4 (identiek aan tabel 5.12, regressieboek p. 145). Tabel 3.4 bevat nu drie F-toetsen: een voor het volle model, waarmee de modelvariantie getoetst wordt tegen de residuele variantie van dat model (F = 27.86), een waarmee de bijdrage van de eerste subset van predictoren (X1, X2) in het volle model getoetst wordt, d.w.z. de bijdrage van X1 en X2 gegeven X3 en X (F = 4.22), en een waarin de bijdrage van de tweede subset van predictoren getoetst wordt, dus die van X3 en X4, gegeven X1 en X2 (F = 7.09). In deze procedure is de errorterm van alle toetsen dezelfde, namelijk de errorterm van het meest volle model.
Tabel 3.4
Toetsing van de bijdrage van meerdere subsets van predictoren, met het subcommando TEST van SPSS REGRESSION
ANOVAc Sum of Squares Subset Tests Regression Residual Total X1, X2 X3, X4 Mean Square R Square Change
Model 1
df
Sig.
37.758 63.478 498.771 49.229 548.000
2 2 4 11 15
18.879 31.739 124.693 4.475
4.218 7.092 27.862
.044a .011a .000b
.069 .116
a. Tested against the full model. b. Predictors in the Full Model: (Constant), X4, X3, X2, X1. c. Dependent Variable: Y
3.3
Simultane regressieanalyse: unieke bijdragen van afzonderlijke predictoren
Zou je de in paragraaf 3.2 gedemonstreerde methode om SPSS REGRESSION aan te sturen toepassen met subsets bestaande uit elk n variabele, dan krijg je in de ANOVA-tabel dus de F-toetsen voor de unieke bijdrage van elke predictor in het volle model. Deze toetsen zijn equivalent met de t-toets voor elk partieel regressiegewicht in het volle model (zie paragraaf 2.2). Ze geven dus op zichzelf geen nieuwe statistische informatie; maar mocht je niet alleen willen weten of een predictor significant bijdraagt in de modelkwadratensom van het volle model, maar ook met welk aandeel, dan kun je op deze manier gemakkelijk de unieke (type III) kwadratensom voor elke predictor vinden. De uitvoering van deze analyse laten we als oefening aan de lezer over.
3.4 Automatische modelselectie
De tot nu toe besproken mogelijkheden om regressiemodellen te vergelijken die verschillen qua samenstelling, vragen van de onderzoeker dat hij van te voren enige theoretische overdenkingen heeft, op basis waarvan hij de verzameling predictoren kan ordenen in subsets en op basis waarvan hij eventueel een volgorde van belangrijkheid kan specificeren. Er zijn situaties denkbaar waar dat moeilijk is en wellicht helemaal niet nodig. Zo zou een landelijke grootgrutter een onderzoek kunnen laten uitvoeren, om te achterhalen wat nu precies de kenmerken zijn van zijn beste (= meest bestedende) klanten. De gegevens kunnen verzameld worden met behulp van vragenlijsten. Het uiteindelijke databestand zal tamelijk groot zijn, en
heel wat variabelen bevatten, waaronder gegevens als leeftijd, geslacht, inkomen, sociaaleconomische status, e.d. De opdrachtgever is absoluut niet genteresseerd in enig theoretisch model over de psychologie of sociologie van zijn klanten; hij wil alleen maar weten welke variabelen het best het koopgedrag voorspellen. Hij kan dan een regressieanalyse doen met automatische modelselectie. Dat wil zeggen, dat het programma (REGRESSION) op zoek gaat naar die combinatie van predictoren die zorgt voor de grootste hoeveelheid modelvariantie, en waarbij elke predictor een significante unieke bijdrage levert.
He zoekproces is in het algemeen gebaseerd op het vergelijken van modellen in termen van proporties verklaarde variantie, zoals we dat eerder hebben gedemonstreerd. REGRESSION kent een aantal veel gebruikte algoritmen voor het samenstellen van een optimaal model. Deze zijn op te roepen met de opdracht METHOD, hetzij via het eerste dialoogvenster voor REGRESSION, hetzij in de syntax:
/METHOD = STEPWISE /METHOD = FORWARD /METHOD = BACKWARD /METHOD = REMOVE
Bij wijze van illustratie demonstreren we hier een van deze methoden, zonder in te gaan op de technische details. Bij deze procedure zijn de criteria voor het opnemen of verwijderen van predictoren van groot belang. De aansturing met gebruik van de standaardcriteria (defaults) is:
REGRESSION /STATISTICS COEFF OUTS R ANOVA CHANGE /CRITERIA=PIN(.05) POUT(.10) /* default /DEPENDENT y /METHOD=STEPWISE x1 x2 x3 x4 . (Data van Tabel 5.8 van het regressieboek, gedeeltelijke output in Tabel 3.5 van deze handleiding)
Het voornaamste bestanddeel van de output is de tabel genaamd Model Summary, hier weergegeven als Tabel 3.5. Deze tabel laat zien dat REGRESSION achtereenvolgens X1, X3 en X4 opneemt in een model dat uiteindelijk een R-kwadraat heeft van .90. Het model met alle vier de predictoren kan een R-kwadraat van .91 leveren (zie bijvoorbeeld Tabel 3.2). Maar REGRESSION acht de unieke bijdrage van X2 kennelijk niet de moeite waard.
Tabel 3.5
Automatische selectie van de best voorspellende combinatie van vier predictoren (stepwise methode)
Model Summary
Model 1 2 3
R Square
Adjusted R Square
Std. Error of the Estimate
Change Statistics R Square Change F Change df1 df2 Sig. F Change
.884a .919b .949c

a. Predictors: (Constant), X1
.781 .844 .901
.765 .820 .876
2.93 2.57 2.13
.781 .063 .057
49.863 5.250 6.841
1 1 1
14 13 12
.000 .039 .023
b. Predictors: (Constant), X1, X3 c. Predictors: (Constant), X1, X3, X4
SPSS REGRESSION kent een aantal selectiecriteria die gebruikt kunnen worden bij de selectie van predictoren (bijvoorbeeld Mallows Cp), te verkrijgen met het subcommando /STATISTICS SELECTION. Op het gebruik hiervan gaan we in deze handleiding niet in (zie regressieboek, subparagraaf 10.2.3).
Automatische modelselectie kan vaak beter worden vermeden. De procedure is alleen nuttig wanneer exploratief uit een zeer groot aantal predictoren moet worden gekozen en wanneer daarvoor een zeer groot databestand (aantal cases vele malen groter dan het aantal predictoren) beschikbaar is. Het gevaar van automatische modelselectie is dat het resultaat van de analyse sterk kan afhangen van toevallige kenmerken van de steekproef.
De stapsgewijze selectiemethode en andere automatische selectieprocedures leveren problemen op en kunnen dus niet worden toegepast in de volgende gevallen: bij de kandidaatpredictoren bevinden zich kwalitatieve predictoren die vertegenwoordigd moeten worden door sets van dummyvariabelen (zie regressieboek hoofdstuk 9); bij de kandidaatpredictoren bevinden zich hogere-orde machten van een predictor, bijvoorbeeld het kwadraat van een predictor (zie regressieboek paragraaf 10.3); bij de kandidaatpredictoren bevinden zich producten van twee of meer andere predictoren voor het analyseren van interactie-effecten (zie regressieboek paragraaf 10.4).
3.5
Semi-partile en partile correlaties
Bij de vergelijking van een vol met een beperkt regressiemodel bepaal je met de R2change vermeld in de Model Summary de proportie variantie die je met het volle model extra kunt verklaren in vergelijking met het beperkte model. Deze R2change kan tevens worden opgevat als een gekwadrateerde semi-partile correlatie (zie regressieboek paragraaf 6.4). Daarnaast kun je semi-partile en partile correlaties laten afdrukken in de parametertabel.
Bijvoorbeeld neem een vol model met X1, X4 en X3 en een beperkt model met X1 en X4 als predictoren. We vragen de change statistics op en tevens vragen we om de semi-partile en partile correlaties. In het subvenster voor Statistics kiezen we R squared Change en Part and partial correlations. SPSS gebruikt voor de semi-partile correlatie de term part correlation. We verkrijgen nu de volgende syntax, toegepast op het databestand DataTabel58.sav:
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT y /METHOD=ENTER x1 x4 /METHOD=ENTER x3.
Uitvoeren resulteert in vier tabellen.
b Variables Entered/Removed
Model 1 2
Variables Entered
Variables Removed
Method
x4, x3a
x1 a
. .
Enter Enter
a. All requested variables entered. b. Dependent Variable: y
Model Summary Change Statistics Model 1 2 R Square Change F Change df1 df2 Sig. F Change
.800a .101b
25.927 12.186
2 1
13 12
.000 .004
a. Predictors: (Constant), x4, x1 b. Predictors: (Constant), x4, x1, x3
De Model Summary hebben we nu beperkt tot de Change statistics. We zien dat toevoegen van X3 aan een model waar X1 en X4 al inzitten, leidt 10.1% extra verklaarde variantie. Immers R2change van model 2 is gelijk aan .101. Je kunt ook zeggen dat het .101 het kwadraat is van een semi-partile correlatie, namelijk de correlatie van Y met de residuen van X3 die overblijven wanneer je X3 voorspelt uit X1 en X4, de twee variabelen in Model 1. De semipartile correlatie van Y enerzijds met anderzijds een X3 waaruit de lineaire samenhang met X1 en X4 is verwijderd, is dus .101 = 0.32 of -0.32. Aan het resultaat in de Model Summary kun je niet het teken van de semi-partile correlatie aflezen. Dat kan wel uit de derde tabel, de parametertabel:
Coefficientsa Unstandardized Coefficients Model 1 (Constant) x1 x4 2 (Constant) x1 x4 x3 a. Dependent Variable: y B Std. Error Standardized Coefficients Beta t Sig.
Correlations Zero-order Partial Part
2.57 2.70 -.40 16.05 1.33 -.73 -.92
3.43 .42 .36 4.61 .50 .28 .26 .41 -.27 -.51 .84 -.14
.75 6.42 -1.10 3.48 2.67 -2.62 -3.49
.467 .000 .290 .005 .020 .023 .004 .88 -.40 -.83 .61 -.60 -.71 .24 -.24 -.32 .88 -.40 .87 -.29 .80 -.14
In de laatste rij van deze tabel zie je in de laatste kolom, Part, de semi-partile correlatie van Y met een X3 waaruit X1 en X4 zijn uitgepartialiseerd. Deze semi-partile correlatie blijkt inderdaad gelijk aan -0.32.
In de cofficintentabel zien we in de laatste drie kolommen het resultaat van het aanklikken van de optie Part and partial correlations, ofwel van het subcommando /STATISTICS ZPP. Er zijn drie soorten correlaties weergegeven (zie regressieboek, p. 185). De variabele X3, bijvoorbeeld blijkt een sterke negatieve correlatie te vertonen met Y, namelijk -0.83. De weergegeven partile en semi-partile correlaties zijn specifiek voor het betrokken regressiemodel. Zo geeft de tabel twee verschillende semi-partile correlaties tussen Y en X1. Het verschil zit in de vraag welke variabelen gecontroleerd wordt. Bij Model 1 zien we de semi-partile correlatie van Y met een X1 waaruit X4 is uitgepartialiseerd. Deze blijkt 0.80 te zijn, terwijl de correlatie tussen Y en X1 met negeren van andere variabelen gelijk is aan 0.88. Bij Model 2 zien we de semi-partile correlatie van Y met een X1 waaruit X4 en X3 beide zijn uitgepartialiseerd. Door deze extra controle blijkt de semi-partile correlatie te zijn gedaald tot 0.24.
Naast de nulde-orde correlaties en de semi-partile correlaties bevat de parametertabel ook een kolom met partile correlaties, ook nu weer specifiek voor elk model. Bij de semi-partile en partile correlaties is steeds gecontroleerd voor alle overige predictoren in het model.
De vierde laatste tabel van de output heeft enkel betrekking op Model 1:
Excluded Variablesb Collinearity Statistics Tolerance
Model 1 x3
Beta In
Sig.
Partial Correlation
-.514a
-3.491
.004
-.710
.382
a. Predictors in the Model: (Constant), x4, x1 b. Dependent Variable: y
Deze tabel verschijnt standaard en is het resultaat van het subcommando /STATISTICS OUTS. De tabel heeft betrekking op de predictoren die niet in Model 1 zijn opgenomen. Dat is er hier slechts eentje, namelijk X3. We kunnen aflezen wat het gestandaardiseerde regressiegewicht en de partile correlatie met Y zou worden voor X3 wanneer deze predictor wel aan het model zou worden toegevoegd. Deze gegevens kun je ook aflezen uit de laatste rij van de parametertabel bij Model 2, want in Model 2 is X3 inderdaad aan het model toegevoegd. In de situatie van het voorbeeld is de enige nieuwe informatie in de tabel de Tolerance. Deze maat is van belang voor het diagnosticeren van (multi)collineariteit (zie
regressieboek paragraaf 8.4). Hoe dichter de Tolerance bij 1.0 komt, hoe minder reden om te vrezen voor multicollineariteit; waarden kleiner dan zeg .10 vormen een sterke indicatie voor dit probleem.
SPSS kent ook een aparte procedure voor het berekenen van partile correlaties, de procedure PARTIAL CORR: Analyze Correlate Partial
Deze procedure produceert de partile correlatie (lineaire samenhang) tussen twee of meer variabelen onderling waarbij wordt gecontroleerd voor de effecten van een of meer andere variabelen.
3.6 Regressieanalyse met GLM
GLM (General Linear Model) is een algemeen programma voor de analyse van lineaire modellen, omvattende regressieanalyse, variantieanalyse en covariantieanalyse. Voor een uitgebreide handleiding, over variantieanalyse met GLM, verwijzen we naar Van den Bercken en Voeten (2002; 2003). Via de dialoogvensters kan deze procedure benaderd worden met
Analyze General Linear Model Univariate Dependent variable: Y Covariate(s): OPTIONS Display Parameter estimates PASTE X1, X2
In GLM worden drie soorten onafhankelijke variabelen onderscheiden: Fixed Factors, Random Factors en Covariates. De term Factors wordt in deze context gebruikt voor kwalitatieve (nominale of ordinale) onafhankelijke variabelen; de term Covariates staat voor
kwantitatieve onafhankelijke variabelen (predictoren gemeten op intervalniveau). In de voorbeelddata hebben we alleen met het laatste type te maken.
Deze aansturing via de dialoogvensters is equivalent met de volgende syntax:

UNIANOVA /* hier kan ook staan: GLM Y WITH x1 x2 /METHOD = SSTYPE(3) /* default /INTERCEPT = INCLUDE /* default /PRINT = PARAMETER /CRITERIA = ALPHA(.05) /* default /DESIGN . (Data van Tabel 2.1 en output in Tabel 5.6 van het regressieboek)
De essentile output bestaat uit een ANOVA-tabel en een parametertabel; de vorm hiervan verschilt enigszins van die bij REGRESSION, maar de resultaten zijn uiteraard gelijk. Toegepast op de voorbeelddata DataTabel2-1.sav, resulteert de ANOVA-tabel weergegeven in Tabel 3.6 (identiek met Tabel 5.6 op p. 131 van het regressieboek).
Tabel 3.6 ANOVA-tabel uit GLM

Tests of Between-Subjects Effects Dependent Variable: y Type III Sum of Squares Mean Square
Source Corrected Model Intercept x1 x2 Error Total Corrected Total
df
Sig.
53.11a .10 16.95 5.79 23.32 507.00 76.44
2 1 1 1 13 16 15
26.56 .10 16.95 5.79 1.79
14.80 .05 9.45 3.23
.000 .820 .009 .096
a. R Squared = .695 (Adjusted R Squared = .648)
Tabel 3.6 bevat dezelfde elementen als de ANOVA-tabel van REGRESSION, maar met andere namen; vergelijk met Tabel 2.2. De variantiebron Regression uit Tabel 2.2 ontmoeten we in de GLM-output onder de naam Corrected Model. De variantiebron Residual van Tabel 2.2 komen we in Tabel 3.6 tegen onder de naam Error. Onder de tabel staan als een noot de R-kwadraat en de gecorrigeerde R-kwadraat, die bij REGRESSION worden gerapporteerd in de Model Summary.
Wat in Tabel 2.2 Total wordt genoemd, heet in Tabel 3.6 Corrected Total. De kwadratensom voor Total bij GLM is de som van de kwadraten van alle scores op de afhankelijke variabele Y. Corrected Total is gelijk aan wat we gewoonlijk (ook in het regressieboek) de totale kwadratensom noemen. Dat is de som van gekwadrateerde afwijkingsscores, dus van Y minus het gemiddelde van Y. Het verschil tussen Total en Corrected Total in Tabel 3.6 is gelijk aan het aantal waarnemingen n maal het kwadraat van het gemiddelde. Bij de voorbeelddata is dat 16 5.18752 = 430.56.
Het belangrijkste verschil met de ANOVA-tabel van REGRESSION is, dat Tabel 3.6 aparte ingangen heeft voor elke predictor. De tabel Tests of Between-Subjects Effects van GLM combineert als het ware de ANOVA-tabel van REGRESSION met informatie die de Model Summary van REGRESSION kan bieden. Tabel 3.6 geeft op de rijen voor X1 en X2 de unieke bijdragen van deze predictoren aan de variatie van de voorspelde scores, nadat de andere predictoren al hun bijdrage hebben geleverd. Elk van de rijen voor de afzonderlijke predictoren is dus het resultaat van een vergelijking van modellen. Bijvoorbeeld de gegevens op de rij voor X1 betreffen de vergelijking tussen een vol model met X1 en X2 enerzijds en een beperkt model met alleen X2 als predictor. De F-toets bij X1 en X2 noemen we de partile F-toets (zie regressieboek, paragraaf 5.3), de F-toets bij Corrected Model noemen we de globale F-toets. De partile F-toets vinden we in de output van REGRESSION terug in de Model Summary, onder de naam F Change.
De kwadratensommen voor X1 en X2 apart in Tabel 3.6 betreffen dus unieke of extra bijdragen van elke predictor apart. Dit type kwadratensom wordt een type-III-kwadratensom genoemd (zie regressieboek paragraaf 5.5), zoals aangegeven in de titel van de kolom met de kwadratensommen in Tabel 3.6. Standaard (by default) presenteert GLM deze type-III-SS. Dit wordt in de syntax aangegeven met het subcommando /METHOD = SSTYPE(3). In de dialoogvensters van GLM vind je deze optie in het subvenster voor Model. In dat subvenster kun je bij Sum of squares kiezen voor Type I, II, III, of IV. Dit is een optie die niet aanwezig is in de procedure REGRESSION.
Merk op dat de kwadratensommen bij X1 en X2 niet optellen tot de kwadratensom voor Corrected Model . De oorzaak daarvan is het feit dat X1 en X2 onderling zijn gecorreleerd.
Bij twee predictoren kunnen we onderscheiden: de unieke bijdrage van elke predictor en de bijdrage die aan beide predictoren tegelijkertijd moet worden toegeschreven.
Ten slotte bevat Tabel 3.6 ook nog een kwadratensom voor Intercept. Deze is in vele gevallen, zoals ook hier, niet inhoudelijk relevant. Deze variantiebron betreft de nulhypothese dat in de populatie de intercept van de regressievergelijking gelijk is aan 0. Deze variantiebron is standaard in een regressiemodel aanwezig, zowel bij GLM als bij REGRESSION, maar wordt door REGRESSION niet expliciet getoond in de ANOVA-tabel. Met GLM kan men een model zonder intercept forceren door het subcommando /INTERCEPT = EXCLUDE, of door in de dialoogvensters van GLM bij het subvenster Model de optie Include intercept in model uit te vinken. (In de procedure REGRESSION kun je hetzelfde bereiken door het subcommando /ORIGIN in plaats van /NOORIGIN.) Regressiemodellen zonder intercept zijn niet aan te bevelen, behalve in speciale gevallen.
De parametertabel behoort niet tot de standaardoutput van GLM; deze wordt verkregen door in het subvenster Options bij Display te kiezen voor Parameter estimates. Dat geeft hetzelfde resultaat als toevoegen van het subcommando /PRINT = PARAMETER. De bijbehorende output staat in Tabel 3.7.
Tabel 3.7
Parametertabel uit GLM

Parameter Estimates
Dependent Variable: y 95% Confidence Interval Parameter Intercept x1 x2 B Std. Error t Sig. Lower Bound Upper Bound
.23 .62 .20
.97 .20 .11
.23 3.07 1.80
.820 .009 .096
-1.88 .18 -.04
2.33 1.06 .44
Opbouw en inhoud van deze tabel zijn nagenoeg gelijk aan die van de tabel Coefficients esstimates van REGRESSION. Per parameter zijn gegeven de schatting in de kolom B, de standaardfout van de geschatte parameter (Std. Error), de waarde van de t-toets met bijbehorende overschrijdingskans (Sig.) en het 95%-betrouwbaarheidsinterval voor de geschatte b-cofficint.
In tegenstelling tot REGRESSION geeft GLM niet de gestandaardiseerde regressiecofficinten, noch de semi-partile en partile correlaties en ook geen collineariteitsindices. Daarentegen geeft GLM wel per parameter de partile ta-kwadraat (zie Van den Bercken & Voeten, 2002), de noncentraliteitsparameter (regressieboek, paragraaf 11.3) en het post-hoc onderscheidingsvermogen (power) van de t-toets.
b2 De partile ta-kwadraat wordt in deze situatie berekend als 2 . b + (n q){SE (b)}2
Hierbij is b de schatting van het betrokken regressiegewicht, SE(b) is de standaardfout van het regressiegewicht, n is de steekproefgrootte en q is het aantal parameters in het model. Bij regressieanalyse is het overigens gebruikelijker om de gestandaardiseerde regressiecofficint of de (gekwadrateerde) semi-partile correlatie als maat voor effectgrootte te nemen (zie regressieboek, paragraaf 11.3).
Wanneer men in GLM gegevens over de power opvraagt, verschijnen deze zowel in de parametertabel als in de tabel Tests of Between-Subjects Effects. De noncentraliteitsparameter is bij de bepaling van de post-hoc power van de t-toets gelijk aan de gevonden waarde van t. De berekening van de post-hoc power is gebaseerd op de veronderstelling dat het b-gewicht in de populatie gelijk is aan het in de steekproef gevonden b-gewicht. Deze powerberekening heeft dan ook slechts zeer beperkte betekenis.
Tabel 5.13 en 5.14 van het regressieboek (p. 153) tonen het verschil tussen Type-III-SS en Type-I-SS toegepast met GLM. De aansturing voor de simultane analyse van Tabel 5.13 is
UNIANOVA y WITH x1 x2 x3 x4 /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = x1 x2 x3 x4 . (Data van Tabel 5.8 en output in Tabel 5.13 van het regressieboek)
De Type-III-SS wordt aangeroepen middels /METHOD = SSTYPE(3). De aansturing voor de sequentile analyse van Tabel 5.14 luidt
UNIANOVA y WITH x3 x4 x2 x1 /METHOD = SSTYPE(1) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = x3 x4 x2 x1. (Data van Tabel 5.8 en output in Tabel 5.14 van het regressieboek)
Deze aansturing verschilt in twee opzichten van die bij Tabel 5.13. Op de eerste plaats is nu gevraagd om een analyse met Type-I-SS middels het subcommando /METHOD = SSTYPE(1). Deze keuze kan ook in de dialoogvensters van GLM worden gerealiseerd. Kies in het subvenster Model bij Sum of squares voor Type I. Op de tweede plaats is nu de volgorde waarin de predictoren (covariates) zijn opgegeven van belang. Deze volgorde is zichtbaar achter het sleutelwoord WITH en ook bij het subcommando /DESIGN. Essentieel voor de sequentile analyse is de volgorde van de predictoren op het subcommando /DESIGN.
Beide analyses leiden tot dezelfde globale F-toets, maar tot verschillende partile F-toetsen voor de afzonderlijke predictoren, behalve voor de laatste predictor in de volgorde bij Tabel 5.14. In beide tabellen is de errorterm voor alle F-toetsen dezelfde, namelijk de errorkwadratensom van het volle model met alle vier predictoren. Dit laatste maakt dat deze sequentile regressieanalyse via GLM anders is dan de sequentile regressieanalyse via REGRESSION (zie regressieboek p. 152-154).
Hoofdstuk 4
Regressieanalyse met moderatorvariabelen
Vaak komt het voor dat onderzoekers aan een of meer onafhankelijke variabelen de rol van moderatorvariabele toedenken (zie regressieboek, hoofdstuk 1, 9 en 10). Een moderatorvariabele modereert de relatie van een andere onafhankelijke variabele met de afhankelijke variabele. Veelal is de moderatorvariabele een kwalitatieve of categorische variabele. De meest simpele situatie is dat de moderatorvariabele een dichotome variabele is (bijvoorbeeld geslacht). Deze situatie is aan de orde in paragraaf 9.5 van het regressieboek. De principes van gemodereerde regressieanalyse kunnen aan de hand van deze situatie uiteengezet worden. Een complexere situatie ontstaat wanneer de moderatorvariabele meer dan twee categorien kent (bijvoorbeeld etniciteit). In dat geval moet met dummyvariabelen (zie regressieboek, hoofdstuk 9) of een andere vorm van codering worden gewerkt (Aguinis, 2004; Cohen et al., 2003). Het kan, ten slotte, ook voorkomen dat het effect van een predictor op de afhankelijke variabele varieert met de score op een andere kwantitatieve onafhankelijke variabele (bijvoorbeeld leeftijd of de score op een voormeting). Nu wordt de interactie tussen twee kwantitatieve predictoren onderzocht (zie regressieboek, paragraaf 10.4). Onderzoekers gaan in een dergelijk geval vaak de kwantitatieve moderatorvariabelen opsplitsen in twee (hoog versus laag) of drie (hoog, midden, laag) categorien. Deze praktijk moet in het algemeen echter worden afgeraden (Cohen et al., 2003, p. 256). Daarom maken we in dit hoofdstuk onderscheid tussen de analyse met een categorische moderatorvariabele en de analyse met een kwantitatieve moderatorvariabele. We behandelen in deze handleiding alleen de meer eenvoudige vormen van interactie. Zo blijven hogere-orde interacties en niet-lineaire moderatoreffecten buiten beschouwing (zie Aiken & West, 1991; Cohen et al., 2003; Jaccard, Turisi, & Wan, 1990). We beperken ons tot het toetsen van interactie-effecten via productvariabelen (bi-lineaire interactie).
Het onderzoeken van moderatoreffecten komt op hetzelfde neer als het onderzoeken van interactie-effecten. Voor een overzicht van interactie-effecten zie regressieboek p. 294. Interactie-effecten zijn symmetrisch; de twee variabelen die met elkaar interacteren hebben dezelfde status. Dit is echter niet het geval bij onderzoek van moderatoreffecten. Je zou een moderatoreffect kunnen zien als de keuze van een gezichtspunt van waaruit het verhaal van
Regressieanalyse met SPSS 4: Moderatorvariabelen 66
het interactie-effect wordt verteld. Op theoretische of empirische gronden wordt een bepaalde variabele de rol van moderatorvariabele toegedacht, bijvoorbeeld de variabele Z modereert het effect van X op Y. Dit betekent dat het effect van X op Y varieert met de waarde van Z. En dit impliceert dat X en Z interacteren in hun effect op Y. Deze laatste formulering is symmetrisch. Dat we hier Z (en niet X) de moderatorvariabele noemen, kan alleen door een a priori redenering worden verantwoord.
De procedure REGRESSION in SPSS kent geen speciale voorzieningen voor het werken met moderatorvariabelen. De gebruiker moet voorafgaande aan de eigenlijke regressieanalyse hulpvariabelen construeren, vervolgens de regressieanalyse uitvoeren en daarna de output interpreteren. Voor het laatste kunnen verdere bewerkingen met SPSS nodig of handig zijn. Het is daarom nuttig onderscheid te maken in drie fasen: (1) voorbereidende constructie van hulpvariabelen; (2) uitvoeren van de regressieanalyse, en (3) interpretatie van de output. We behandelen deze fasen achtereenvolgens. Nadat de juiste voorbereidingen zijn getroffen gaat de uitvoering van de regressieanalyse op de manier zoals besproken in de vorige hoofdstukken. Speciale aandacht vereist de voorbereiding (paragraaf 4.1) en vooral de interpretatie van de output (paragraaf 4.3).
4.1
Voorbereidende constructie van variabelen
Om een categorische moderatorvariabele in een regressieanalyse te kunnen betrekken, moeten dummyvariabelen worden geconstrueerd. Bij k categorien zijn k 1 dummyvariabelen nodig (zie regressieboek hoofdstuk 9; zie ook Hardy, 1993). Bij categorische variabelen zijn in de voorbereiding daarom twee stappen nodig: het maken van dummyvariabelen en het vormen van productvariabelen voor het toetsen van de moderatoreffecten. Bij een kwantitatieve moderatorvariabele is alleen het construeren van een productvariabele aan de orde.
4.1.1 Maken van dummyvariabelen
Als de moderatorvariabele slechts twee categorien kent, dan is het maken van dummyvariabelen slechts een kwestie van hercoderen. De onderzoeker moet wel de keuze maken welke van de twee categorien de referentiecategorie (de categorie met de code 0) wordt. Bijvoorbeeld bij Tabel 9.2 van het boek hoort de volgende hercodering:
RECODE sex (1=0) (2=1) INTO sekse . EXECUTE .
of :
COMPUTE sekse = sex - 1 . EXECUTE .
(Zowel RECODE als COMPUTE is te vinden in het menu Transform.)
In het bestand Leesvorderingen_H7.sav heeft de variabele sex de categorien 1 = jongen en 2 = meisje. De hercodering maakt jongen tot de referentiecategorie. Deze keuze heeft consequenties voor de interpretatie van de geschatte regressiecofficinten (zie regressieboek, p. 263).
Ook bij categorische variabelen met meer dan twee categorien moet de onderzoeker beginnen met de keuze van de referentiecategorie. Als die keuze is gemaakt, volgt het coderingsschema vanzelf. Bij tabel 9.3 (regressieboek, p. 264) is sprake van een variabele met drie categorien (drie groepen). In dit voorbeeld is de derde groep als de referentiecategorie genomen. Bij drie categorien moeten twee dummyvariabelen worden gemaakt. De referentiecategorie (dus hier de personen in de derde groep) krijgt de code 0 op beide dummyvariabelen. De andere twee categorien worden gedentificeerd met de code 1 op een van de twee dummyvariabelen, bijvoorbeeld als volgt:
RECODE groep (1=1) (2=0) (3=0) INTO X1 . RECODE groep (1=0) (2=1) (3=0) INTO X2 . EXECUTE .
N.B. De output van RECODE- en COMPUTE-commandos verschijnt als nieuwe variabelen, toegevoegd achteraan het actieve databestand; als het goed is, verschijnt gn output ervan in het output-bestand.
Het is handig om de naam van elke dummyvariabele zo te kiezen dat meteen duidelijk is welke categorie de code 1 heeft gekregen. Verder is het goed om de namen zo te kiezen dat duidelijk is dat de dummyvariabelen als set bij elkaar horen en samen in feite n variabele
vormen. Zie bijvoorbeeld de dummyvariabelen in Tabel 9.5 (boek p. 268) die horen bij de variabele opleidingsniveau vader uit het bestand Leesvorderingen_H7.sav (Tabel 9.4). Het gaat hier om zes categorien zodat vijf dummyvariabelen moeten worden gevormd. Er is voor gekozen om de laagste opleidingscategorie (categorie 1) als referentiecategorie te nemen. Het bestand SyntaxTabel9-5.sps laat zien hoe de dummyvariabelen van dit voorbeeld met COMPUTE-commandos zijn gemaakt, rekening houdend met ontbrekende scores in het bestand. Dit had ook kunnen worden gerealiseerd met vijf RECODE-commandos. Bijvoorbeeld voor de eerste dummyvariabele (vlo22a is de naam van de variabele opleidingsniveau vader in het databestand):
RECODE vlo22a (1=0) (2=1) (3 thru 6=0) INTO oplnivd2 . EXECUTE .
Van belang is ervoor te zorgen dat bij ontbrekende waarden van de categorische variabelen de betrokken cases ook ontbrekende waarden krijgen op de dummyvariabelen. Bij de hier gegeven toepassing van RECODE gaat dat goed.
4.1.2 Maken van productvariabelen
Productvariabelen kunnen eenvoudig gemaakt worden met het commando COMPUTE (uit het menu Transform). Een keuze hierbij is nog of men (kwantitatieve) onafhankelijke variabelen al dan niet wil centreren. Al dan niet centreren heeft geen gevolgen voor de toetsing van de interactie-effecten, wel voor de interpretatie van de intercept en van de hoofdeffecten (zie regressieboek, par. 9.4, 9.5 en 10.4).
Bij Tabel 9.19 (boek, p. 292) is sprake van een dichotome moderatorvariabele (sekse) die de relatie van begrijpend lezen met auditieve leesvoorwaarden modereert. Voor deze analyse is de productvariabele SEKSE*AUDITIEF geconstrueerd. De variabele SEKSE heeft de code 0 voor jongens en de code 1 voor meisjes. Jongens krijgen dus op de productvariabele de score 0 en meisjes een score die gelijk is aan hun score op AUDITIEF. In dit geval is er voor gekozen om de variabele AUDITIEF eerst te centreren. De meest toegepaste vorm van centreren is het aftrekken van het gemiddelde (van de hele steekproef). De te volgen stappen zijn:
1) bereken het gemiddelde (hier van de variabele AUDITIEF); 2) construeer een gecentreerde variabele AUDITIEF; via COMPUTE: nieuwe variabele = oorspronkelijke variabele min het in stap 1) gevonden gemiddelde; 3) bereken met COMPUTE de productvariabele = SEKSE*AUDITIEF (gecentreerd).
De eerste stap kan een praktisch probleem opleveren, namelijk wanneer het databestand ontbrekende scores kent. In de analyse van Tabel 9.19 is ervoor gekozen om het gemiddelde te berekenen van alle beschikbare cases in het bestand. Dit gebeurt bijvoorbeeld met het commando (zie SyntaxTabel9-19.sps):
DESCRIPTIVES VARIABLES=tot33 /STATISTICS=MEAN STDDEV MIN MAX .
Dit commando geeft het gemiddelde van alle cases met een valide score op de variabele TOT33 (betreft auditieve leesvoorwaarden in het bestand Leesvorderingen_H7.sav). In de regressieanalyse spelen ook de variabelen SEKSE en BEGRIJPEND LEZEN een rol. Als er cases zouden zijn van wie de sekse of de score op begrijpend lezen niet bekend is, dan zal bij listwise deletion de regressieanalyse plaatsvinden op een subset uit de set leerlingen met een valide score op TOT33. In die subset kan het gemiddelde van TOT33 enigszins afwijken van het gemiddelde van de totale set. Desgewenst kan men meteen bij het berekenen van het gemiddelde van TOT33 al lijstgewijze weglating toepassen, bijvoorbeeld als volgt:
DESCRIPTIVES VARIABLES=tot33 tot54 sekse /MISSING LISTWISE /STATISTICS=MEAN STDDEV MIN MAX .
Nu wordt niet alleen de variabele genoemd waarvan het gemiddelde berekend moet worden, maar alle variabelen die in de regressieanalyse gaan meedoen. Verder is het subcommando /MISSING LISTWISE toegevoegd. Het laatste kan bij DESCRIPTIVES niet in het dialoogvenster maar wel in het syntaxvenster. Op deze manier wordt voor TOT33 een gemiddelde berekend op precies dezelfde subset van cases waarop de regressieanalyse wordt uitgerekend.
Is het gemiddelde bekend dan volgen het centreren en het berekenen van de productvariabele. Als voorbeeld, bij Tabel 9.19 is dat als volgt gedaan (zie SyntaxTabel9-19.sps toe te passen op Leesvorderingen_H7.sav):
COMPUTE tot33dev = tot33 - 16.3275 . EXECUTE . /* Productvariabele voor interactie-effect berekenen COMPUTE s_tot33 = sekse*tot33dev . VARIABLE LABELS tot33dev 'auditief' /s_tot33 'sekse*auditief'. EXECUTE .
Als de moderatorvariabele categorisch is met meer dan twee categorien, dan moeten eerst dummyvariabelen worden gemaakt (subparagraaf 4.1.2) of moet een andere vorm van codering worden toegepast (zie bijvoorbeeld Aguinis, 2004 of Cohen et al., 2003). Vervolgens moet per dummyvariabele of pseudopredictor een productvariabele worden gemaakt. Stel we willen opleidingsniveauvader met zes categorien gebruiken als een variabele die de relatie van begrijpend lezen met auditieve leesvoorwaarden modereert. Nu moeten we eerst vijf dummyvariabelen voor opleidingsniveau vader maken en vervolgens vijf productvariabelen: OPLNIVD2*AUDITIEF, OPLNIVD3*AUDITIEF enzovoorts. De set van vijf dummyvariabelen representeert conceptueel gezien slechts n variabele, namelijk opleidingsniveau vader. Ook de set van vijf productvariabelen representeert conceptueel gezien slechts n effect, namelijk het interactie-effect van opleidingsniveau vader en AUDITIEF op begrijpend lezen. Deze sets van variabelen dienen bij de uitvoering en de interpretatie van de regressieanalyse als sets behouden te blijven.
Het gevaar van kwalitatieve variabelen met veel categorien is dat ze veel (pseudo)predictoren voor de regressieanalyse genereren. In het voorbeeld genereert opleidingsniveau vader tien onafhankelijke variabelen die aan het regressiemodel moeten worden toegevoegd. Het aantal predictoren in een analyse kan op deze manier snel te groot worden, met onder meer problemen voor het onderscheidingsvermogen van de analyse.
Dit praktische probleem doet zich niet voor bij een kwantitatieve moderatorvariabele. In dit geval hoeft slechts n hulpvariabele te worden geconstrueerd, namelijk het product van twee kwantitatieve variabelen (aannemende dat we ons beperken tot lineaire relaties tussen variabelen). Dit is aan de orde bij Tabel 10.3 (boek p. 326). In SyntaxTabel10-3.sps zijn de commandos opgenomen voor het maken van de productvariabele na centreren van elk van de
betrokken predictoren. In de analyse voor Tabel 10.3 is het centreren gebeurt op basis van het steekproefgemiddelde, geschat voor elke variabele apart met gebruikmaking van alle beschikbare cases. Een alternatief zou hier zijn geweest om lijstgewijze weglating toe te passen.
Centreren vergemakkelijkt de interpretatie van de regressiecofficinten en vermijdt tevens het optreden van hoge correlaties tussen de productvariabele enerzijds en de beide predictoren die het product vormen anderzijds. Deze hoge correlatie is in het verleden wel als argument gebruikt om kwantitatieve variabelen te dichotomiseren alvorens een productvariabele te maken. Aftrekken van het gemiddelde doet echter die correlatie verdwijnen en vermijdt de problemen verbonden aan dichotomiseren. Al of niet (of hoe) centreren heeft overigens geen invloed op de schatting of toetsing van de regressiecofficint van de productvariabele.
4.2
Uitvoeren van de regressieanalyse
Bij de uitvoering van de regressieanalyse zijn enkele overwegingen van belang. Op de eerste plaats is er de keuze tussen een simultane en een hirarchische analyse (zie boek, paragraaf 5.5; deze handleiding, paragraaf 3.1). Aan te bevelen is een hirarchische analyse; voor een voorbeeld zie Tabel 10.3 (boek, p. 326). In dit voorbeeld gaat het om een mogelijk moderatoreffect van sociaal milieu op het effect dat auditieve leesvoorwaarden hebben op de prestatie in begrijpend lezen. In de eerste stap zijn de (gecentreerde) predictoren auditieve leesvoorwaarden en sociaal milieu in de analyse opgenomen. In de tweede stap is daar de productvariabele aan toegevoegd. Een simultane analyse is overigens vaak ook adequaat. Een voorbeeld is te vinden in Tabel 9.19. Hier gaat het om een mogelijk moderatoreffect van sekse van de leerling op het effect dat auditieve leesvoorwaarden hebben op de prestatie in begrijpend lezen. Auditieve leesvoorwaarden, sekse en de productvariabele zijn tegelijkertijd in de analyse opgenomen. Het voordeel van de hirarchische analyse is dat een indicatie voor de sterkte van het interactie-effect wordt verkregen met de R Square Change van het tweede model (zie de Model Summary in Tabel 10.3). Deze geeft immers de extra proportie verklaarde variantie die toe te schrijven is aan het interactie-effect. Wat betreft de toetsing van het interactie-effect (de toetsing van de regressiecofficint van de productvariabele) zijn beide analysestrategien in het geval van Tabel 9.19 en Tabel 10.3 waar het om slechts n productvariabele gaat volledig equivalent.
Op de tweede plaats is het van belang te bedenken dat een productvariabele afhangt van de variabelen die het product maken. Dat betekent dat het ongewenst en onjuist zou zijn om als eerste stap de productvariabele in het regressiemodel op te nemen en de twee constituerende predictoren pas in de tweede stap. Deze procedure zou leiden tot een inflatoir interactie-effect.
Een andere consequentie van de samenhang bij constructie tussen de productvariabele en de twee betrokken predictoren is dat deze drie variabelen altijd in n verband moeten worden gezien, bij de uitvoering zowel als bij de interpretatie van de regressieanalyse. Daarmee wordt elke methode van automatische modelselectie, inclusief stapsgewijze regressie, onacceptabel. Stapsgewijze regressie werkt immers met toevoegen en verwijderen van individuele predictoren, ongeacht het logische verband tussen de predictoren.
Een vierde overweging betreft de meer ingewikkelde situatie van een categorische moderatorvariabele met meer dan twee categorien. In die situatie zijn minstens twee subsets van predictoren te onderscheiden die logischerwijze als subsets behandeld moeten worden: de dummyvariabelen die samen de categorische moderatorvariabele vormen en de subset van productvariabelen die samen het te toetsen interactie-effect vormen. In een dergelijk geval is een simultane analyse wellicht niet de meest aangewezen procedure, aangezien daarmee geen statistische grootheden worden verkregen over de subsets als zodanig. In een hirarchische analyse dient zich dan echter de wellicht moeilijk te beantwoorden vraag aan naar de logische of theoretisch te verantwoorden volgorde van de dummyvariabelen ten opzichte van de kwantitatieve predictoren. Het is duidelijk dat de subset van productvariabelen als laatste in het regressiemodel moet worden opgenomen. Het is echter de vraag of bij de subset van dummyvariabelen wel of niet gecontroleerd moet worden voor de kwantitatieve predictor(en): eerst de subset van dummyvariabelen en dan de kwantitatieve predictor(en), of omgekeerd. Deze vraag kan alleen door theoretische overwegingen worden beslist. Indien niet, dan moeten wellicht meerdere volgordes worden uitgeprobeerd.
Ten slotte, is het van belang om verdacht te zijn op het optreden van schijninteracties als gevolg van een onjuist gespecificeerd model (zie regressieboek hoofdstuk 10), of als gevolg van het niet voldoen aan de statistische assumpties voor hypothesetoetsing (zie boek, hoofdstuk 7 en 8). Daarnaast is het evenzo van belang om verdacht te zijn op gebrek aan onderscheidingsvermogen (boek, hoofdstuk 11) waardoor werkelijk bestaande interactieeffecten niet worden ontdekt. Vaak is het zo dat het onderscheidingsvermogen voor het
ontdekken van interactie-effecten geringer is dan het onderscheidingsvermogen voor het ontdekken van hoofdeffecten.
Wanneer het gaat om interactie-effecten zal dus veelal de strategie van modellen vergelijken (boek hoofdstuk 5; handleiding hoofdstuk 3) aangewezen zijn. Daarnaast is het van groot belang verdacht te zijn niet-lineariteiten (Ganzach, 1997) en op schendingen van assumpties (Aquinis, 2004). Gebruik van de mogelijkheden die het programma biedt voor regressiediagnostiek is dan ook zeer aan te bevelen (boek, hoofdstuk 7 en 8; handleiding, paragraaf 2.6). Een groot probleem bij gebruik van een kwantitatieve moderatorvariabele is dat gemeten variabelen vrijwel altijd onderhevig zijn aan meetfouten. De hier besproken procedures van multipele regressie houden echter geen rekening met het bestaan van meetfouten. Meer ingewikkelde procedures zijn nodig om hier adequaat voor te corrigeren (zie Aiken & West, 1991; Jaccard & Wan, 1996).
4.3
Interpretatie van de output
Bij regressiemodellen met interactie-effecten ligt het voor de hand om allereerst te kijken naar de aan- of afwezigheid van mogelijke interactie-effecten. Bij de strategie van modellen vergelijken, zoals toegepast in Tabel 10.3 (boek, p. 326) moet dus eerst naar Model 2 worden gekeken. Immers in Model 1 is geen productterm aanwezig, in Model 2 wel. Mocht er interactie bestaan tussen sociaal milieu en auditieve leesvoorwaarden op begrijpend lezen, dan is een eventueel effect van auditieve leesvoorwaarden op begrijpend lezen, gevonden in Model 1, niet generaliseerbaar over sociaal milieu maar juist verschillend per sociaal milieu. In geval van interactie moet dus eerst het interactie-effect gevonden in Model 2 worden genterpreteerd. Pas daarna, of als geen interactie blijkt te bestaan, heeft het zin om de uitkomsten van Model 1 zonder interactie te interpreteren. Als er gn statistisch significante interactie blijkt te bestaan, is het zinvol om de cofficinten van Model 1 (zonder interactie) te interpreteren. Het is dan niet zinvol om het effect van bijvoorbeeld auditieve leesvoorwaarden te interpreteren vanuit het Model 2 (met de productvariabele).
Als het interactie-effect slechts n productvariabele betreft (zoals het geval is in het regressieboek bij Tabel 9.19 en Tabel 10.3), is het eerst zaak om te kijken naar de t-toets bij deze productvariabele. Is deze statistisch significant, dan doet zich wellicht nog steeds de vraag voor of het om een echt interactie-effect gaat. Als we uitgaan van een valide
interactie-effect, dan is het zaak verder te kijken naar de sterkte en de aard van dit interactieeffect. Van belang is daarbij vooral of het gevonden interactie-effect klopt met de theoretische verwachtingen. Als de cofficint van de productvariabele niet statistisch significant van 0 verschilt, kan de conclusie zijn dat er geen sprake is van een interactie- of moderatoreffect, maar moet tevens afgewogen worden of het resultaat niet een fout van Type II is (zie boek, hoofdstuk 11), als gevolg van te gering onderscheidingsvermogen.
Betreft het interactie-effect een subset van productvariabelen, dan kan men kijken naar de F Change bij deze subset (in Model 2 van de Model Summary) voor een globale toetsing van het interactie-effect en men kan kijken naar de t-toetsen van afzonderlijke productvariabelen in Model 2. In het laatste geval is het van groot belang dat de dummyvariabelen of pseudopredictoren zijn geconstrueerd op basis van geldige theoretische overwegingen. Deze meer complexe situatie is in het regressieboek niet aan de orde gekomen. We gaan dan ook op deze situatie niet verder in.
In het vervolg van deze paragraaf gaan we in op enkele mogelijkheden om nader zicht te krijgen op de aard van een interactie-effect.
4.3.1
Ongestandaardiseerde regressiecofficinten interpreteren
Bij het interpreteren van regressiecofficinten in een model met een productvariabele zijn twee zaken van groot belang:
1) het is niet mogelijk om de regressiecofficint van een productvariabele losstaand te interpreteren; er moet altijd gekeken worden naar alle betrokken cofficinten in onderlinge samenhang. Of de cofficint van een productvariabele positief of negatief is, zegt op zich niet zoveel. Dat moet bezien worden in het verband van de tekens en groottes van de cofficinten van de predictoren die in de vorming van de productvariabele zijn betrokken. 2) bij een geschatte regressievergelijking met een productvariabele zijn alleen de ongestandaardiseerde regressiecofficinten van belang. De gestandaardiseerde cofficinten zijn niet correct gestandaardiseerd (Aiken & West, 1991, p. 40-47).
De interpretatie van de cofficinten is het eenvoudigst bij een dichotome moderatorvariabele. De interpretatie wordt nog vergemakkelijkt, als de kwantitatieve predictor is gecentreerd. Een prototypisch voorbeeld geeft Tabel 9.19 (boek, p. 292). Op basis van de geschatte cofficinten de intercept, de cofficinten van de twee in het product betrokken variabelen en de cofficint van de productvariabele (alle ongestandaardiseerd) kan men gemakkelijk de door het model gempliceerde regressielijnen van de twee groepen afleiden (zie boek, p. 292; vergelijk met simpele hoofdeffecten bij variantieanalyse, Van den Bercken & Voeten, 2002). De cofficint van de moderatorvariabele (hier: sekse) geeft het verschil in intercepten aan, en wel de intercept van de groep die als 1 is gecodeerd (hier: meisjes) min de intercept van de groep die als 0 is gecodeerd (hier: jongens). Dit verschil in intercepten betreft enkel de cases met de waarde 0 op de andere predictoren (hier: auditieve leesvoorwaarden). Dank zij het centreren is dit verschil interpreteerbaar als het gemiddelde verschil in begrijpend lezen tussen meisjes en jongens die op of in de buurt van het gemiddelde scoren op auditieve leesvoorwaarden. De regressiecofficint van de productvariabele geeft het verschil in helling aan van de regressielijnen bij meisjes in vergelijking met jongens.
Bij een interactie tussen kwantitatieve predictoren, zoals in Tabel 10.3 (boek, p. 326) gaat de interpretatie in principe op dezelfde manier. De complicatie is dat we nu niet met slechts twee groepen te maken hebben, maar in principe met evenveel groepen als er verschillende waarden mogelijk zijn op de moderatorvariabele. Zoals we in het vorige geval de regressielijnen per categorie van de moderatorvariabele konden bepalen, zo kunnen we nu, in het voorbeeld, de regressie van begrijpend lezen op auditieve leesvoorwaarden schrijven als een functie van de mogelijke waarden op de moderatorvariabele (zie boek, p. 327 en het erratum dat daar bij hoort). Het patroon van de interactie wordt niet alleen bepaald door de cofficint van de productvariabele, maar ook door de cofficinten van de twee betrokken predictoren. Beide predictoren van het voorbeeld hebben een positief regressiegewicht terwijl hun product een negatief gewicht heeft. Dit wijst op een antagonistisch patroon van interactie (zie verder boek, p. 317-322).
4.3.2 Verkrijgen van een gestandaardiseerde oplossing
Soms willen onderzoekers gestandaardiseerde regressiecofficinten kunnen rapporteren, bijvoorbeeld omdat de meetschaal van de betrokken variabelen niet gemakkelijk
communiceerbaar is, of omdat het in het onderzoeksgebied gebruikelijk is om gestandaardiseerde resultaten te publiceren. Effectgroottes worden vaak in gestandaardiseerde vorm uitgedrukt; standaardiseren zou kunnen bijdragen tot inzicht in de belangrijkheid van een gevonden interactie-effect.
Zoals al opgemerkt, kun je bij aanwezigheid van een productvariabele in het model geen gebruik maken van de gestandaardiseerde cofficinten (bta) die SPSS standaard rapporteert. Correct gestandaardiseerde regressiegewichten zijn te verkrijgen met de volgende procedure (Aiken & West, 1991, p. 43). Zet eerst de scores op de betrokken (kwantitatieve) predictoren en op de afhankelijke variabele om in z-scores. Bereken vervolgens de productvariabele op basis van deze z-scores. Voer de regressieanalyse uit met gebruik van deze z-scores (en hun product). De ongestandaardiseerde regressiegewichten (de kolom B, niet de kolom Beta) zijn nu de correct gestandaardiseerde regressiegewichten. Een voorbeeld van deze procedure is opgenomen in SyntaxTabel10-3.sps.
4.3.3 Een grafiek maken van het interactie-effect
Een zeer nuttig hulpmiddel bij het interpreteren van een interactie-effect is het maken van een grafiek. In het geval van een dichotome moderatorvariabele is dat een grafiek van de twee regressielijnen die volgen uit het geschatte model, zoals Figuur 9.6 (boek, p. 293). Ook kan het nuttig zijn om een spreidingsdiagram te maken van de data zelf, met daarbij regressielijnen, geschat per groep apart, ingetekend (zie Figuur 9.5 op p. 285). Het laatste kan met het volgende SPSS commando:
GRAPH /SCATTERPLOT(BIVAR)=tot33 WITH tot54 BY sex /MISSING=LISTWISE .
of:
IGRAPH /VIEWNAME='Scatterplot' /X1 = VAR(tot33) TYPE = SCALE /Y = VAR(tot54) TYPE = SCALE /STYLE = VAR(sex) /COORDINATE = VERTICAL /FITLINE METHOD = REGRESSION LINEAR LINE = MEFFECT SPIKE=OFF /X1LENGTH=3.0 /YLENGTH=3.0 /X2LENGTH=3.0 /CHARTLOOK='NONE' /CATORDER VAR(sex) (ASCENDING VALUES OMITEMPTY) /SCATTER COINCIDENT = NONE. EXE.
Het eerste commando betreft Graphs
Scatter, het tweede betreft Graphs
Interactive
Scatterplot. Het voordeel van het tweede commando is dat de regressielijnen voor de twee groepen meteen (in de dialoogvensters) geselecteerd kunnen worden. Bij het eerste
commando kunnen de regressielijnen alleen achteraf worden aangebracht door het editen van de output.
Hoe Figuur 9.6 is gemaakt, is te zien in SyntaxTabel9-19.sps. De daar toegepaste manier is om eerst de voorspelde scores (van het model van Tabel 9.19) op te vragen, door bij de REGRESSION procedure het subcommando /SAVE PRED te selecteren. Vervolgens is een lijngrafiek gemaakt van deze voorspelde scores tegen Auditieve leesvoorwaarden, met onderscheid naar sekse. Deze lijngrafiek kan gekozen worden in het menu Graphs. Selecteer als type grafiek Multiple en vul bij Data in chart are in Summaries for groups of cases. Kies vervolgens voor Other summary function en vul de variabelen in: Variable = de voorspelde score, Category Axis = AUDITIEF, Define lines by = SEKSE.
Er zijn ook andere manieren om dezelfde grafiek te maken. Een van die andere manieren is goed toepasbaar bij een plot van de interactie tussen twee kwantitatieve predictoren, zoals de figuren 10.4 en 10.5 (boek, p. 320-321). In Figuur 10.5 zijn regressielijnen in beeld gebracht bij drie geselecteerde waarden van de moderatorvariabele: het gemiddelde, een hoge waarde en een lage waarde. Als hoge, respectievelijk lage waarde kan men bijvoorbeeld kiezen voor de score die 1 s.d. hoger, respectievelijk lager ligt dan het gemiddelde. Het zou niet verstandig zijn om al te extreme waarden te kiezen, omdat je dan waarschijnlijk scores in beeld brengt die in de data weinig voorkomen, of die zelfs misschien helemaal niet (kunnen) voorkomen.
Na de punten op de moderatorvariabele te hebben gekozen, moet je de schaal van de tweede betrokken predictor kiezen, die op de X-as moet worden uitgezet. Om lijnen te trekken heb je in principe slechts twee X-waarden nodig. Verstandig is enkele X-waarden zo te kiezen, dat het feitelijk bereik van de waarden op de predictor in beeld komt. Een voorbeeld voor het construeren van grafieken als die van de figuren 10.4 en 10.5 is te vinden in SyntaxFiguur104.sps. Wij geven hier een voorbeeld voor de data van Tabel 10.3 (bestand Leesvoorwaarden_H10).
De scores op de moderatorvariabele (Sociale Milieu Index) variren in het databestand van 19 tot 76, met een gemiddelde van 50.11 en een s.d. van 10.12. Je zou dus de punten 40, 50 en 60 kunnen kiezen, of na centreren van de variabele de punten 10, 0 en 10. Bij deze drie punten willen we de regressielijn voor de regressie van begrijpend lezen op auditieve leesvoorwaarden creren. Vervolgens moeten we enkele punten kiezen op de schaal van de
auditieve leesvoorwaarden. In het databestand variren de scores op deze variabele van 1 29, met een gemiddelde van 16.17 en een s.d. van 6.83. Na centreren variren deze scores van 15.17 tot 12.83. We zouden dus kunnen kiezen voor de punten 10, 5, 0, 5 en 10. Maak nu een SPSS-databestand met de gekozen waarden voor de twee predictoren:
AUDITIEF 10.0 5.0 0.0 5.0 10.0 10.0 5.0 0.0 5.0 10.0 10.0 5.0 0.0 5.0 10.0
SOCIAAL MILIEU 10.0 10.0 10.0 10.0 10.0 0.0 0.0 0.0 0.0 0.0 10.0 10.0 10.0 10.0 10.0
Daarna de voorspelde scores berekenen bij de gekozen waarden door toepassen van de geschatte regressievergelijking uit Tabel 10.3:
COMPUTE Yp = 19.48 + 0.17*SOCIMILC + 0.302*TOT33C - 0.006*SOCIMILC*TOT33C . VARIABLE LABELS Yp 'Voorspeld Begrijpend Lezen' . EXECUTE .
Ten slotte, kan de lijngrafiek worden gemaakt:
Graphs Line Multiple, Summaries for groups of cases Other summary function, Variable: Yp Category Axis: TOT33C Define lines by: SOCIMILC
Deze keuzes leiden tot de volgende syntax:

GRAPH /LINE(MULTIPLE)MEAN(Yp) BY TOT33C BY SOCIMILC .
Het resultaat is de volgende grafiek, die laat zien dat de regressielijn wat minder stijl gaat lopen naarmate de score op de sociale milieu index hoger wordt:
24
Sociaal Milieu Index

laag gemiddeld hoog
Voorspeld Begrijpend Lezen
22
20
18
16
14 -10.00 -5.00 .00 5.00 10.00
Auditieve Leesvoorwaarden
De formules voor de afgebeelde regressielijnen kunnen worden afgeleid uit de geschatte regressievergelijking:
Y' = 19.48 + 0.17*SOCIMILC + 0.302*TOT33C - 0.006*SOCIMILC*TOT33C.
De simpele regressielijnen bij de drie gekozen waarden van de moderatorvariabele zijn : Bij SOCIMILC = 0: Y' = 19.48 + 0.302*TOT33C Bij SOCIMILC = 10: Y' = (19.48 + 1.7) + (0.302 0.06)*TOT33C = 21.18 + 0.242*TOT33C Bij SOCIMILC = -10: Y' = (19.48 1.7) + (0.302 + 0.06)*TOT33C = 17.78 + 0.362*TOT33C (N.B. Deze formules staan foutief in het boek op p. 327).
Deze formules geven een alternatief voor het maken van de grafiek. Maak een databestand met enkel de vijf gekozen waarden voor TOT33C. Bereken vervolgens drie variabelen met de voorspelde scores volgens deze drie regressielijnen. Maak nu de lijngrafiek door niet te kiezen voor Summaries of groups of cases, maar voor Summaries of separate variables, waarna je de drie geconstrueerde variabelen kunt opgeven bij Lines represent. Deze methode is toegepast in SyntaxFiguur10-4.sps.
Hoofdstuk 5
Regressieanalyse met mediatorvariabelen
Een mediatorvariabele of intervenirende variabele Z is een variabele die medieert of intervenieert tussen een onafhankelijke variabele X en een afhankelijke variabele Y. Een mediatorvariabele speelt twee rollen (zie regressieboek hoofdstuk 1 en 13): de rol van afhankelijke variabele ten opzichte van de variabele X; de rol van onafhankelijke variabele ten opzichte van de variabele Y.
Deze formulering impliceert minimaal twee regressieanalyses: Z als een functie van X; Y als een functie van Z.
Er zijn echter nog meer regressieanalyses nodig om een mediatoreffect van Z te kunnen vaststellen (zie regressieboek p. 395). Als Z medieert tussen X en Y, dan kun je ook zeggen dat Z in staat is om de samenhang tussen X en Y gedeeltelijk te verklaren. Dit impliceert het volgende: 1) er bestaat een samenhang tussen X en Y. Er is dus een regressieanalyse nodig met Y als afhankelijke variabele en X als predictor. Deze analyse moet aantonen dat X een statistisch significant effect heeft op Y. 2) Z kan deze samenhang tussen X en Y alleen dan verklaren, als Z samenhangt met X. Nauwkeuriger gezegd, er moet een regressieanalyse worden uitgevoerd met Z als afhankelijke variabele en X als predictor. Deze analyse moet aantonen dat X een statistisch significant effect heeft op Z. 3) Z kan deze samenhang tussen X en Y alleen dan verklaren, als Z ook samenhangt met Y. Nauwkeuriger gezegd, er moet een regressieanalyse worden uitgevoerd met Y als afhankelijke variabele en Z als predictor. Deze analyse moet aantonen dat Z een statistisch significant effect heeft op Y. 4) als Z de samenhang tussen X en Y kan verklaren dan impliceert dit, ten slotte, dat Y niet langer samenhangt met X zodra Z constant wordt gehouden. Om dit na te gaan,
Regressieanalyse met SPSS 5: Mediatorvariabelen 81
moet een regressieanalyse worden uitgevoerd met Y als afhankelijke variabele en X en Z beide als predictoren. Deze analyse moet aantonen dat de partile regressiecofficint van X onder constant houden van Z niet statistisch significant is.
Er zijn dus vier stappen nodig om een mediatoreffect te kunnen aantonen (Baron & Kenny, 1986). Bij de vierde stap kan onderscheid worden gemaakt tussen volledige en gedeeltelijke mediatie. Van volledige mediatie is sprake als het effect van X op Y volledig verklaard kan worden door de mediatorvariabele Z. Het effect van X op Y verdwijnt geheel zodra Z constant wordt gehouden. Van gedeeltelijke mediatie is sprake wanneer het effect van X op Y zwakker wordt maar niet geheel verdwijnt als Z constant wordt gehouden. Er is gn sprake van mediatie als de partile regressiecofficint van X in stap 4 ongeveer even groot of zelfs groter is dan de regressiecofficint van X in stap 1, waarbij Z niet constant is gehouden.
Je kunt deze relaties tussen X, Z en Y ook formuleren in termen van totale, directe en indirecte effecten (zie regressieboek, hoofdstuk 13). Het directe effect van X op Y is het effect van X op Y dat niet verloopt via een andere variabele maar rechtstreeks naar Y gaat. Dit komt overeen met het partile regressiegewicht van X in stap 4, waar Z constant is gehouden. Het indirecte effect van X op Y is het effect van X op Y dat verloopt via Z. Dit is de regressiecofficint van X in stap 2, waar nagegaan wordt of X effect heeft op Z, maal de regressiecofficint van Z in stap 3, waar immers nagegaan wordt of Z een effect heeft op Y. Het totale effect van X op Y is de som van het directe en de indirecte effecten. Het bestaan van dit totale effect proberen we vast te stellen in stap 1.
De vereiste stappen kunnen we zetten met drie regressieanalyses (vul voor X, Z en Y de relevante variabelen in):
Regressieanalyse 1: effect van onafhankelijke variabele X op de afhankelijke variabele Y

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD=ENTER X.
Regressieanalyse 2: effect van de onafhankelijke variabele X op de mediatorvariabele Z

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Z /METHOD=ENTER X.
Regressieanalyse 3: effecten van de onafhankelijke variabele X en de mediatorvariabele Z op de afhankelijke variabele Y:

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD=ENTER X Z.
De derde regressieanalyse combineert stap 3 en 4. We verkrijgen in deze analyse het effect van Z op Y onder constant houden van X (stap 3) en het effect van X op Y onder constant houden van Z (stap 4). Bij stap 3 moeten we X constant houden om het effect van Z op Y te kunnen vaststellen. Immers als het effect van Z op Y weg verklaard zou kunnen worden door X, dan kan Z niet de relatie van X met Y mediren.
Overzien we de drie benodigde regressieanalyses, dan zien we dat er twee analyses bij zijn met Y als afhankelijke variabele (analyse 1 en 3). Bovendien zien we dat het model van analyse 1 een beperkt model is in vergelijking met het model van analyse 3. Daarom kunnen we analyse 1 en 3 tot n regressieanalyse combineren, zodat we uiteindelijk slechts twee regressieanalyses hoeven te doen om de vereiste vier stappen te zetten:
Regressieanalyse A (is dezelfde als regressieanalyse 2 hierboven): effect van de onafhankelijke variabele X op de mediatorvariabele Z:
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Z /METHOD=ENTER X.
Regressieanalyse B (combineert de regressieanalyses 1 en 3): de effecten van de onafhankelijke variabele X en de mediatorvariabele Z op de afhankelijke variabele Y:
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD=ENTER X /ENTER Z.
Primaire relevante resultaten van deze analyses zijn de (ongestandaardiseerde) regressiecofficinten en de bijbehorende standaardfouten en t-toetsen. Deze primaire resultaten kunnen worden gebruikt voor verdere analyses van het mediatoreffect, zoals bijvoorbeeld toetsen of het indirecte effect van X op Y (de combinatie van de stappen 2 en 3) statistisch significant is en nagaan hoeveel procent van het totale effect van X op Y voor rekening komt van het indirecte effect (via Z), dus voor hoeveel procent Z het effect van X op Y medieert. Deze aanvullende analyses kunnen in SPSS worden uitgevoerd, gebruik makend van de mogelijkheid om de parameterschattingen te bewaren als een sav-file (het subcommando /OUTFILE = COVB), zie een syntaxfile met de relevante commandos op de website http://www.ats.ucla.edu/stat/spss/faq/mediation.htm . Voor meer informatie over de relevante analyses en hun achtergronden zie de website van David Kenny en Dave McKinnon, respectievelijk http://users.rcn.com/dakenny/mediate.htm en http://www.public.asu.edu/~davidpm/ripl/mediate.htm .
Hoofdstuk 6
Onderscheidingsvermogen bij regressieanalyse
Onderstaand SPSS-programma berekent het onderscheidingsvermogen van de F-toets bij meervoudige regressie. Dit onderscheidingsvermogen betreft de globale F-toets met als nulhypothese dat in de populatie R2 = 0.
Het werkt met de volgende SPSS-functies: IDF.F voor de inverse verdelingsfunctie van de centrale F NCDF.F en voor de noncentrale verdelingsfunctie.
De relevante grootheden en hun ingestelde waarden zijn: alfa = .05. effectsterkte (R-kwadraat in de populatie, RSquare): van .05 tot .30, in stappen van bijvoorbeeld .05 (Cohen:.03 = "small", .10 = "medium", .30 = "large"). aantal waarnemingen (nobs): van 15 tot 150 in stappen van 10. aantal predictorvariabelen (npred):1 tot 5.
Voor andere alfa-waarden: wijzig het betreffende compute-commando. Voor andere waarden van Rsquare, nobs en npred: wijzig de betreffende loop-commandos (met de indexvariabelen #i, #j, #k).
De vrijheidsgraden voor de F-verdelingen (df1 en df2) volgen uit nobs en npred. De noncentraliteitsparameter voor de F-verdeling (lambda) wordt berekend als: lambda = Rsquare*df2/(1 - Rsquare).
Verder worden berekend: de kritieke F-waarde (Fcrit) en de kritieke waarde voor R-kwadraat (Rcrit).
Regressieanalyse met SPSS 6: Onderscheidingsvermogen 85
Om het programma te gebruiken moet je de tekst (ingevoerd via een syntaxvenster) selecteren en runnen. ---------------------------------------------------------------------------------------------------------------SPSS-Programma ter berekening van het onderscheidingsvermogen van de F-toets bij meervoudige regressie.
Input program. loop #i = .05 to .31 by .05. /* effectgrootte, Rsquare loop #j = 30 to 150 by 30. /* steekproefomvang, nobs loop #k = 1 to 5. /* aantal predictoren, npred compute Rsquare = #i. compute nobs = #j. compute npred = #k. compute df1 = npred. compute df2 = nobs - npred - 1. compute alfa = .05. /* significantieniveau compute fcrit = idf.f(1 - alfa, df1, df2). compute rcrit = idf.beta(1-alfa, df1/2, df2/2). compute lambda = Rsquare*df2/(1 - Rsquare). compute pow = 1 - ncdf.f(fcrit, df1, df2, lambda). end case. end loop. end loop. end loop. end file. end input program. execute.
----------------------------------------------------------------------------------------------------------------Het inputprogramma zet de resultaten van de berekeningen in het datavenster van SPSS. Opdracht voor het afdrukken in de output-file (tabellen):
formats nobs, npred, df1, df2 (f5.0) Rsquare alfa fcrit rcrit lambda pow (f6.2). list variables Rsquare nobs npred df1 df2 alfa lambda fcrit rcrit pow. execute.
Opdracht voor grafieken: per effectgrootte (Rsquare) een grafiek van de power als functie van de steekproefomvang(nobs) met aparte lijnen voor aantallen predictoren (npred).
Split file by Rsquare. GRAPH /LINE(MULTIPLE) MEAN(pow) BY nobs BY npred /MISSING=REPORT. Split file off.
6.1
Output van het programma: Tabellen

NOBS NPRED 30 30 30 30 30 60 60 60 60 60 90 90 90 90 90 120 120 120 120 120 150 150 150 150 150 30 30 30 30 30 60 60 60 60 60 90 90 90 90 90 120 120 120 120 120 150 150 150 150 150 30 30 30 30 30 60 60 60 60 60 90 90 90 90 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 DF1 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 DF2 28 27 26 25 24 58 57 56 55 54 88 87 86 85 84 118 117 116 115 114 148 147 146 145 144 28 27 26 25 24 58 57 56 55 54 88 87 86 85 84 118 117 116 115 114 148 147 146 145 144 28 27 26 25 24 58 57 56 55 54 88 87 86 85 ALFA LAMBDA .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 1.47 1.42 1.37 1.32 1.26 3.05 3.00 2.95 2.89 2.84 4.63 4.58 4.53 4.47 4.42 6.21 6.16 6.11 6.05 6.00 7.79 7.74 7.68 7.63 7.58 3.11 3.00 2.89 2.78 2.67 6.44 6.33 6.22 6.11 6.00 9.78 9.67 9.56 9.44 9.33 13.11 13.00 12.89 12.78 12.67 16.44 16.33 16.22 16.11 16.00 4.94 4.76 4.59 4.41 4.24 10.24 10.06 9.88 9.71 9.53 15.53 15.35 15.18 15.00 FCRIT 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77 2.54 2.39 3.95 3.10 2.71 2.48 2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77 2.54 2.39 3.95 3.10 2.71 2.48 2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77 2.54 2.39 3.95 3.10 2.71 2.48 RCRIT .13 .20 .26 .31 .35 .06 .10 .13 .16 .18 .04 .07 .09 .10 .12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07 .13 .20 .26 .31 .35 .06 .10 .13 .16 .18 .04 .07 .09 .10 .12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07 .13 .20 .26 .31 .35 .06 .10 .13 .16 .18 .04 .07 .09 .10 POW .22 .16 .13 .11 .10 .40 .31 .25 .22 .19 .57 .45 .39 .34 .30 .70 .58 .51 .46 .41 .79 .69 .62 .57 .52 .40 .29 .23 .19 .17 .70 .58 .50 .44 .39 .87 .79 .72 .66 .61 .95 .90 .85 .81 .77 .98 .96 .93 .90 .88 .57 .44 .35 .30 .25 .88 .80 .72 .66 .60 .97 .94 .91 .87
RSQUARE .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15
.15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .15 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .20 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .25 .30 .30 .30 .30 .30 .30 .30 .30
90 120 120 120 120 120 150 150 150 150 150 30 30 30 30 30 60 60 60 60 60 90 90 90 90 90 120 120 120 120 120 150 150 150 150 150 30 30 30 30 30 60 60 60 60 60 90 90 90 90 90 120 120 120 120 120 150 150 150 150 150 30 30 30 30 30 60 60 60
5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3
5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3
84 118 117 116 115 114 148 147 146 145 144 28 27 26 25 24 58 57 56 55 54 88 87 86 85 84 118 117 116 115 114 148 147 146 145 144 28 27 26 25 24 58 57 56 55 54 88 87 86 85 84 118 117 116 115 114 148 147 146 145 144 28 27 26 25 24 58 57 56
.05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05
14.82 20.82 20.65 20.47 20.29 20.12 26.12 25.94 25.76 25.59 25.41 7.00 6.75 6.50 6.25 6.00 14.50 14.25 14.00 13.75 13.50 22.00 21.75 21.50 21.25 21.00 29.50 29.25 29.00 28.75 28.50 37.00 36.75 36.50 36.25 36.00 9.33 9.00 8.67 8.33 8.00 19.33 19.00 18.67 18.33 18.00 29.33 29.00 28.67 28.33 28.00 39.33 39.00 38.67 38.33 38.00 49.33 49.00 48.67 48.33 48.00 12.00 11.57 11.14 10.71 10.29 24.86 24.43 24.00
2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77 2.54 2.39 3.95 3.10 2.71 2.48 2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77 2.54 2.39 3.95 3.10 2.71 2.48 2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28 4.20 3.35 2.98 2.76 2.62 4.01 3.16 2.77
.12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07 .13 .20 .26 .31 .35 .06 .10 .13 .16 .18 .04 .07 .09 .10 .12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07 .13 .20 .26 .31 .35 .06 .10 .13 .16 .18 .04 .07 .09 .10 .12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07 .13 .20 .26 .31 .35 .06 .10 .13
.84 .99 .99 .97 .96 .94 1.00 1.00 .99 .99 .98 .72 .59 .49 .41 .35 .96 .92 .87 .82 .78 1.00 .99 .98 .96 .95 1.00 1.00 1.00 .99 .99 1.00 1.00 1.00 1.00 1.00 .84 .72 .62 .53 .46 .99 .97 .95 .93 .90 1.00 1.00 1.00 .99 .99 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 .92 .83 .74 .66 .58 1.00 .99 .99
.30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30 .30
60 60 90 90 90 90 90 120 120 120 120 120 150 150 150 150 150
4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
55 54 88 87 86 85 84 118 117 116 115 114 148 147 146 145 144
.05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05 .05
23.57 23.14 37.71 37.29 36.86 36.43 36.00 50.57 50.14 49.71 49.29 48.86 63.43 63.00 62.57 62.14 61.71
2.54 2.39 3.95 3.10 2.71 2.48 2.32 3.92 3.07 2.68 2.45 2.29 3.91 3.06 2.67 2.43 2.28
.16 .18 .04 .07 .09 .10 .12 .03 .05 .06 .08 .09 .03 .04 .05 .06 .07
.98 .96 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
6.2
Output van het programma: Grafieken (voor R2 van .05 tot .25)
Rsquare: .05
0.80
npred
1 2 3 4 5
0.60
Power
0.40
0.20
0.00
30
60
90
120
150
nobs
Rsquare: .10
1.00
npred
1 2 3 4
0.80
0.60
Power
0.40 0.20 0.00
30
60
90
120
150
nobs
Rsquare: .15
1.00
npred
1 2 3 4 5
0.80
Power
0.60
0.40
0.20
30
60
90
120
150
nobs
Rsquare: .20
1.00
npred
1 2 3
0.90
4 5
0.80
Power
0.70
0.60
0.50
0.40
0.30
30
60
90
120
150
nobs
Rsquare: .25
1.00
npred
1 2 3 4 5
0.90
0.80
Power
0.70
0.60
0.50
0.40
30
60
90
120
150
nobs
Literatuurverwijzingen
Aguinis, H. (2004). Regression analysis for categorical moderators. New York: The Guilford Press. Aiken, L.S., & West, S.G. (1991). Multiple regression: Testing and interpreting interactions. Newbury Park, CA: Sage Publications. American Psychological Association (2001). Publication manual of the American Psychological Association (5th ed.). Washington, DC: Author. Bercken, J.H.L. van den, & Voeten, M.J.M. (2002). Variantieanalyse: De GLM-benadering. Groningen: Stenfert Kroese. Bercken, J.H.L. van den, & Voeten, M.J.M. (2003). Variantieanalyse met SPSS. Nijmegen: Onderwijsschool PWO. Verkrijgbaar via www.data-analyse.nl. Baron, R.M., & Kenny, D.A. (1986). The moderator-mediator variable distinction in social psychological research: Conceptual, strategic and statistical considerations. Journal of Personality and Social Psychology, 51, 1173-1182. Cohen, J., Cohen, P.,West, S.G., & Aiken, L.S. (2003). Applied multiple regression / correlation analysis for the behavioral sciences (3rd ed.). Mahwah, NJ: Erlbaum. Fox, J. (1991). Regression diagnostics. Newbury Parks: Sage.
Ganzach, Y. (1997). Misleading interaction and curvilinear terms. Psychological Methods, 2, 235-247.
Hardy, M.A. (1993). Regression with dummy variables. Newbury Park, CA: Sage Publications. Jaccard, J., Turrisi, R., & Wan, C.K. (1990). Interaction effects in multiple regression. Newbury Park, CA: Sage Publications. Jaccard, J., & Wan, C.K. (1996). Lisrel approaches to interaction effects in multiple regression. Thousand Oaks, CA: Sage Publications. Mason, E.S. (1995). Gender differences in job satisfaction. Journal of Social Psychology, 135, 143-152. SPSS (2001). SPSS 11.5 Syntax Reference Guide. SPSS, Inc. Vocht, A. de (2002). Basishandboek SPSS 11 voor Windows 98/ME/2000/XP. Utrecht: Bijleveld Press. Voeten, M.J.M., & Bercken, J.H.L. van den (2003). Lineaire regressieanalyse. Groningen: Stenfert Kroese.

Handleiding MR

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Handleiding MR

Uploaded by

Copyright:

Available Formats

M.J.M.

J.H.L. van den Bercken

Regressieanalyse met SPSS

Een handleiding voor lineaire regressieanalyse met SPSS

Radboud Universiteit Nijmegen, 2004

Regressieanalyse met SPSS 2

Werken met SPSS REGRESSION Input van data

2 2.1 2.2 2.3 2.4 2.5 2.6

Vergelijken van regressiemodellen

Hirarchische regressieanalyse: de additionele bijdragen van predictoren in volgorde 45 48 49 51

Regressieanalyse met SPSS 3

3.3 3.4 3.5 3.6

Regressieanalyse met moderatorvariabelen Voorbereidende constructie van variabelen

Regressieanalyse met mediatorvariabelen

Regressieanalyse met SPSS 1: Inleiding 4

Werken met SPSS REGRESSION

Regressieanalyse met SPSS 1: Inleiding 5

Input van data

1.1.1 Vorm van de data

Regressieanalyse met SPSS 1: Inleiding 6

1.1.2 Invoer van samenvattende beschrijvende statistieken

Regressieanalyse met SPSS 1: Inleiding 7

1 .87 .81 .00 .10 -.23 -.09 .08

1 .80 -.04 .09 -.20 -.06 .07

1 -.03 .07 -.25 -.09 .07

1 .11 .12 .18 -.14

1 -.10 .35 -.08

Regressieanalyse met SPSS 1: Inleiding 8

De elementen van een dergelijke syntax gaan we in het onderstaande toelichten.

Regressieanalyse met SPSS 1: Inleiding 9

Regressieanalyse met SPSS 1: Inleiding 10

Regressieanalyse met SPSS 1: Inleiding 11

Regressieanalyse met SPSS 1: Inleiding 12

De bijbehorende syntax ziet er zo uit:

1.2.3 Aansturing via de syntax

Regressieanalyse met SPSS 1: Inleiding 13

default default default default

1.2.4 Overzicht van subcommandos

Descriptieve statistieken van de variabelen die in de regressieanalyse worden opgenomen:

Verzoek om optionele statistische output:

Specificatie van de afhankelijke variabele:

Regressieanalyse met SPSS 1: Inleiding 14

/Save = /Casewise = /Scatterplot = /Partialplot =

1.2.5 Overzicht van alle opties

Regressieanalyse met SPSS 1: Inleiding 15

Opties, subcommandos en sleutelwoorden van SPSS REGRESSION Opties binnen de dialoogvensters

1.1, 1.2.1 1.1, 1.2.1

2.1 10.2.2 10.2.2 5.5.1

COEFF* CI BCOV OUTS* ANOVA* R* CHA ZPP COLLIN, TOL SELECTION

2.2.2, 2.3.2 3.1, 3.2, 3.4, 3.6, 3.7-3.9, 5.3 3.5

/Residuals DURBIN /Casewise OUTLIERS

8.3 2.6 1.3.2, 2.6.2 1.3.2, 2.6.1

1.3.2, 2.6.2 2.5 2.6.3

3.2 7.3.3 7.1.3 2.6.3 7.1 7.1.1 7.1.2

Regressieanalyse met SPSS 1: Inleiding 16

8.3 7.1.2, 8.3 8.3 8.3

/SAVE= /OUTFILE= /OUTFILE=

/Criteria /Noorigin* [Origin] /Missing LISTWISE PAIRWISE MEAN SUBSTITUTION

2.7 8.2.2 8.2.2 8.2.2

Regressieanalyse met SPSS 1: Inleiding 17

1.3.1 Overzicht van tabellen in de output van REGRESSION Descriptive Statistics

Regressieanalyse met SPSS 1: Inleiding 18

Regressieanalyse met SPSS 1: Inleiding 19

Regressieanalyse met SPSS 1: Inleiding 20

/SCATTERPLOT = (SDRESID, X1) (SDRESID, X2)

a. Number of cases outside the range (Q1 - 1.5IQR, Q3 + 1.5IQR).