You are on page 1of 24

SPSS handleiding

Inhoud

In dit onderdeel willen we je een handleiding aanreiken voor het gebruik van SPSS bij
de verwerking van je onderzoeksresultaten. De inhoud van dit onderdeel is als volgt
opgebouwd:

1. SPSS Inleiding
1.1 SPSS opstarten
1.2 SPSS vensters
2. Algemene Werkwijze
2.1 De menustructuur
2.2 De statusbalk in het applicatievenster
2.3 Dialoogvensters
3. Datahantering in SPSS
3.1 Data ingeven en veranderen
3.1.1 Definiëring van de variabelen
3.1.2 En wat met de missing values?
3.1.3 Data veranderen
3.2 Data-file saven
3.3 Bestaande data-files openen in SPSS
4. Het creëren van een SPSS data-bestand
4.1 Het aanmaken van het codeboek
4.2 Het coderen van de vragenlijsten
4.3 Intikken van de datamatrix
4.4 Datacleaning
5. Datamanipulatie
5.1 Het creëren van nieuwe variabelen a.d.h.v. reeds bestaande
5.2 Het hercoderen van varaibelen
6. SPSS-procedures voor univariate statistiek
7. SPSS-procedures voor bivariate statistiek
1 SPSS inleiding
1.1 SPSS opstarten

SPSS for Windows is een zuivere Windows-toepassing. Dit houdt onder meer in dat
je het programma kan opstarten door achtereenvolgens aan te klikken: start, programs,
SPSS for Windows, SPSS 10.0 for Windows. Indien er een icoon van SPSS op je
desktop staat kan je SPSS for Windows ook opstarten door te dubbelklikken op het
icoon.
Wanneer SPSS wordt geopend verschijnt er een dialoogkader met de vraag wat we
willen doen in SPSS.

We hebben 5 keuzemogelijkheden:

• doorloop de handleiding
• typ data in
• laat een bestaande databank lopen
• creëer een nieuw databank aan de hand van de Database Wizard
• open een bestaande file (bvb. Excel-file)

2
1.2 SPSS vensters

Bovendien is SPSS net zoals andere Windows-toepassingen (vb. Word)


gestructureerd aan de hand van vensters en menu's. Binnen SPSS kunnen we drie
types van vensters onderscheiden met elk hun eigen functie:

• applicatievenster: dit is het basisvenster van SPSS waarin alle andere


vensters verschijnen
• data editor venster: in deze spreadsheetachtige datamatrix wordt de inhoud
van je datafile getoond, je kan dit venster opsplitsen in twee mappen. In de
map Data View kan je de data zien van het actieve bestand. In de map
Variabele View zie je de definiëring van de verschillende variabelen uit je
data-bestand.
• output-venster: in dit venster verschijnen alle outputs van je analyses met
name tabellen, statistieken en grafieken (dit venster is bij het opstarten van
SPSS normaliter niet actief maar wordt automatisch geactiveerd indien je
SPSS een statistische toets, grafiek of tabel laat berekenen.)

3
2 Algemene werkwijze
2.1 De menustructuur

SPSS werkt volledig menugestructureerd zodat de meeste mogelijkheden bereikbaar


zijn door de opties te selecteren uit de menu's. Het menusysteem in het
applicatievenster (zowel de data-editor als de output applicatie) ziet er als volgt uit:

• File: Het file-menu bevat een aantal opdrachten om bestanden te bewaren en


te activeren. Je kan er ook SPSS mee afsluiten.
• Edit: Hiermee kunnen teksten en afbeeldingen worden gekopieerd, gewijzigd
of verwijderd.
• View: In dit menu kan je bepaalde toolbars selecteren zodat deze wel of niet in
je applicatievenster verschijnen.
• Data: Onder dit menu zitten opdrachten waarmee de globale actieve dataset
kan worden gewijzigd (vb. het trekken van een steekproef). De aangebrachte
wijzigingen zijn slechts tijdelijk
• Transform: Met de opties in dit menu kunnen wijzigingen worden
aangebracht in de individuele variabelen (vb. hercoderen van variabelen of
nieuwe variabelen creëren op basis van bestaande). Ook deze wijzigingen zijn
slechts tijdelijk en moeten worden bewaard als je ze definitief wil vastleggen
op schijf.
• Analyze: Via dit menu kunnen de verschillende statistische analyses worden
uitgevoerd.
• Graphs: Dit biedt een overzicht van het groot aantal grafieken dat je kan
maken met SPSS.
• Utilities: Via dit menu kan je een overzicht verkrijgen van al je variabelen in
je data-file.
• Windows: Hiermee kan van het ene venster naar het andere worden
overgegaan en kunnen de geopende vensters in een bepaalde volgorde worden
geplaatst
• Help: Via dit menu kan hulp worden gevraagd over de algemene werkwijze
van SPSS en over de verschillende statistische technieken.

2.2 De statusbalk in het applicatievenster

Onderaan in het applicatievenster is de statusbalk zichtbaar. Wanneer de processor


bezig is met het uitvoeren van een commando verschijnt hierop de naam van dit
commando. Wanneer je slechts met een beperkt aantal cases werkt doordat je bvb. een
steekproef hebt getrokken dan verschijnt op de statusbalk 'filter on'.

4
2.3 Dialoogvensters

Een dialoogvenster is een venster dat verschijnt wanneer een bepaalde optie uit het
menu is geselecteerd. Het dialoogkader wordt gebruikt om het gevraagde commando
te specifiëren.
Wanneer er bijvoorbeeld wordt gevraagd om een frequentietabel te berekenen van een
variabele uit de datafile dan verschijnt een volgend dialoogvenster.

In het bovenstaande dialoogkader zijn de volgende elementen aanwezig:

• Titelbalk: de naam van het dialoogvenster


• Commandoknop: Dit zijn de grote rechthoekige knoppen rechts in het
dialoogkader. Er zijn verschillende commando's:
 OK: Deze opdracht voert het gevraagde commando uit met alle
opgegeven specificaties. (Opmerking: in een subdialoogvenster staat in
plaats van OK, Continue vermeld.)
 Paste: Dit commando kopieert het geselecteerde commando in
tekstvorm met alle opties naar het syntax-venster.
 Reset: Door deze knop aan te klikken worden alle reeds gemaakte
selecties in het dialoogkader gewist.
 Cancel: Dit commando sluit het dialoogvenster zonder de functie uit te
voeren.
 Help: Hiermee kan je de hulp inroepen van SPSS: je krijgt dan
informatie over wat de verschillende mogelijkheden betekenen (vb. in
dit dialoogkader krijg je informatie over wat je kan berekenen met
statistics, charts en format).
• Bronlijst: in deze lijst vind je een overzicht van alle variabelen, wanneer je
een analyse wil uitvoeren selecteer je een variabele uit deze lijst en breng je ze
met behulp van de pijl over naar de 'doel'-kolom.
• Doellijst: in deze lijst staan alle variabelen waarvoor je de geselecteerde
analyse zal uitvoeren

5
Opmerking 1: wanneer je in het dialoogkader informatie wenst betreffende een
bepaalde variabele dan klik je met je linkermuisknop om de variabele te selecteren in
de 'bronlijst'. Nadien klik je met de rechtermuistoets in deze lijst en kies je voor
'variable information'. Een pop-up venster geeft een overzicht van de variabele (naam,
meetniveau, aantal labels, naam van deze labels).
Opmerking 2: numerieke variabelen worden in de bronlijst aangeduid met een
kardinaalgetal, string variabelen met de letter A.

Wanneer je SPSS je een dialoogkader toont waarvan je niet weet wat alle mogelijke
functies inhouden kan je steeds om hulp vragen. Klik de rechtermuisknop op de
analyse waarvoor je hulp wenst. Een pop-up window verschijnt en toont informatie
over de betreffende analyse.

3 Data hantering in SPSS


3.1 Data ingeven en veranderen

De gegevens worden in SPSS ingebracht via de Data Editor. Dit venster is een
spreadsheet-achtige methode om een datamatrix in te tikken, te bekijken en te
bewerken. Je komt op dit venster door bij het opstarten van SPSS te kiezen voor de
optie 'type in new data'.
Is SPSS reeds opgestart dan kan je dit data-editor venster ook bekomen door de
volgende selecties te maken: File, New, Data.

In de Data Editor gelden de volgende afspraken:

• Cases worden weergegeven in de rijen: op iedere rij staan de antwoorden van


één respondent
• Variabelen worden weergegeven in de kolommen: elke variabele staat in een
aparte kolom
• Cellen bevatten waarden: elke cel is de kruising tussen de cases en de
variabelen. M.a.w. elke cel bevat de waarde van één bepaald element uit de
populatie op één bepaalde variabele.
• De waarden van de cellen zijn bij voorkeur numeriek! Veel statistische
toetsen werken in SPSS niet als er geen gebruik werd gemaakt van de
numerieke codes. Bijvoorbeeld: voor de variabele geslacht tik je best de codes
0, 1 of 9 in in de datamatrix.

Voor het intekken van waarden in de datamatrix ga je als volgt te werk:

• klik in de cel waar je waarden wil intikken: zo wordt de gewenste cel actief (er
komt een dikker rand rond de cel die actief is), enkel in deze actieve cel kan je
gegevens intikken (de variabele naam en het casenummer wordt in de actieve
cel steeds vermeld in de linker-bovenhoek van het data-editor venster.
• tik de waarde of numerieke code in

6
• druk op:
 enter: om naar de cel onder aan de actieve cel te gaan
 Tab: om naar de cel rechts van de actieve cel te gaan (is het meest
gebruikt omdat het eenvoudigst is om case per case in te vullen)
 gebruik de pijltjestoetsen om de respectievelijke richting uit te gaan

3.1.1 Definiëring van de variabelen

In de eerste fase van het intikken van de gegevens moeten we de variabelen


definiëren. In het begin heeft elke kolom in de data-editor window de variabelenaam
'var' en is elke cel leeg.

Onderaan het venster zie je dat de Data Editor onderverdeelt is in twee mappen: Data
View en Variabele View. Om data in te voeren moet je eerst je variabele definiëren.
Dit kan je doen door te klikken op de map 'Variabele View' of je dubbelklikt op de
variabele naam 'var' aan het hoofd van elke kolom en de 'Variabele View' map wordt
zichtbaar. In de kolom variabele namen klik je in de gewenste rij van de variabele en
geef je de nieuwe variabele naam in.
Je variabele naam moet aan een aantal voorwaarden voldoen:

• de variabele naam is maximum 8 karakters


• de naam moet beginnen met een letter (dus niet met een cijfer!)
• speciale tekens zoals !,? en * zijn niet wenselijk
• de naam mag niet één van de sleutelwoorden zijn waarmee SPSS zijn
statistische berekeningen uitvoert (zoals AND, NOT, EQ, BY en ALL)

Omdat we getallen of woorden wensen in te voeren in SPSS moeten we ook aangeven


wat voor type van gegevens de variabele is. Dit doe je door in de kolom 'Type' de cel
te selecteren. Er verschijnt dan een grijs blokje. Als je op dit blokje klikt dan komt er
een dialoogkader te voorschijnt voor het ingeven van het type van variabele. Je hebt
een keuzemogelijkheid uit diverse types van data zoals numeriek, munteenheid,
comma, datum en tekstwoord (string).
In de derde kolom ('width') duid je de grootte van je variabele naam aan.
Voor je vierde stap bepaal als je variabele een decimaal getal is, hoeveel decimalen er
moeten zijn.
In 'label' kan je een omschrijving geven van je variabelenaam. Dit is vooral belangrijk
bij de interpretatie van je statistische outprint. In de tabellen van je output vind je dan
niet de variabele naam terug (bvb. opleidin) maar wel het volledige label (bvb. hoogst
behaalde diploma).
In de zesde kolom moet je ingeven wat de waarden zijn van je labels (bvb. variabele
geslacht: code 0 voor man en code 1 voor vrouw). Ook dit is zeer belangrijk om je
output interpreteerbaar te maken. Anders krijg je tabellen met cijfers waarvan je niet
meer weet waar elk cijfer voor staat. Hier wordt nog op ingegaan verder in deze
handleiding.
Het invoeren van missing values doe je in een volgende stap. Meestal wordt er
gebruik gemaakt van 9, 99, 999 of 9999 in de optie 'discrete missing values'. Dit
wordt in de volgende alinea uitgelegd.
Je kan ook nog de kolomwijdte en de uitlijning opgeven.

7
De allerlaatste stap voor het definiëren van je variabele is het opgeven van het
meetniveau.

3.1.2 En wat met de missing values?

Als je een vragenlijst afneemt, heb je meestal geen gegevens over alle antwoorden
van alle respondenten. Het komt immers vaak voor dat respondenten het antwoord op
een bepaalde vraag niet willen geven omdat ze de informatie té delicaat vinden. Ze
laten de vraag dan open. Soms is het ook mogelijk dat respondenten een vraag wel
invulden maar dat het antwoord onleesbaar is of totaal naast de kwestie is. Op dat
ogenblik is het onmogelijk een waarde op te geven op de variabele die naar deze
vraag peilde. Je zou de respondent dan uit de steekproef kunnen verwijderen maar dit
zou absurd zijn omdat deze respondent wel valabele antwoorden gaf op de overige
vragen. Een werkbare oplossing voor deze situatie is de respondent een missing value
te geven voor deze onbekende waarde. De missing value is een speciale code die door
SPSS wordt herkend, niet als echte code maar wel als een ontbrekende waarde.
Concreet houdt dit in dat alle respondenten met een missing value als code op een
bepaalde variabele, bij de statistische berekeningen voor die variabele niet worden
betrokken. Het resultaat van het definiëren van missing values is dat SPSS alle cases
met een missing value op een bepaalde variabele uit de analyses weert.

In SPSS roep je het dialoogvenster op door in de map 'Variabele View' de cel bij een
bepaalde variabele aan te klikken in de kolom 'missing'. Dan verschijnt er in deze cel
een rechthoekje waarop je nog eens klikt. Je hebt drie mogelijke opties voor het
definiëren van de missing value:

• no missing values: op de variabele zijn van alle respondenten een valabel


antwoord bekend
• discrete missing values: de ontbrekende waarde wordt weergegeven door
middel van een discreet getal. In SPSS kiest men meestal voor 9, 99, 999 of
9999.
• range plus one optionel discrete missing value: bij deze optie kan men een
volledig interval opgegeven als missing value en optioneel een discrete waarde
buiten dit interval (bvb. voor de variabele: aantal uren dat je gemiddeld per
week werkt : het maximum aantal uren per week dat iemand kan werken er

8
van uitgaande dat iemand 24u werkt zeven dagen lang is 168u. Je zou nu
kunnen opgeven dat iedereen die een score opgeeft van 101 of meer een
missing value label krijgt voor deze variabele)

Meestal wordt de optie 'discrete missing value' gebruikt.

3.1.3 Data veranderen

Het wijzigen van data in SPSS is afhankelijk van waarom je wijzigingen wil
aanbrengen. Wil je de waarde van 1 cel wijzigen of moeten er een hercodering van
variabelen gebeuren?

Het veranderen van individuele waarden


Het wijzigen van een waarde uit één enkele cel is zeer eenvoudig. Je klikt op de cel
die je wil wijzigen, typ de nieuwe waarde en druk op enter.

Kopiëren en plakken
Het is mogelijk om een blok cellen te selecteren en te kopiëren. Net zoals bij Word of
Excel maak je dan gebruik van de methode 'Copy' en 'paste'.

• Seleceer het gebied dat je wil kopiëren, Edit, Copy, nadien selecteer het
gebied waar je de nieuwe waarden wil plaatsen, Edit, Paste
• Seleceer het gebied dat je wil kopiëren, Ctrl + C, nadien selecteer het gebied
waar je de nieuwe waarden wil plaatsen, Ctrl + V

Het verwijderen van waarden


Om een waarden in een cel of in een blok van cellen te verwijderen:

• Om de waarde van één cel te verwijderen: selecteer de cel en druk op de knop


Delete
• voor het verwijderen van een volledige rij van waarden: klik op het grijze
hokje dat het rij nummer bevat (links van de data editor window), hierdoor
worden alle cellen op deze rij opgelicht, klik op delete en de volledige rij
wordt verwijderd
• voor het verwijderen van een volledige kolom: klik op het grijze hokje dat het
kolom nummer bevat (bovenaan de data editor window), hierdoor worden alle
cellen in deze kolom opgelicht, klik op delete en de volledige kolom wordt
verwijderd, inclusief de variabele naam

Het hercoderen van variabelen


Kijk hiervoor naar hoofdstuk 5: hercodering van variabelen

3.2 Data-file saven

Om je data-file te saven ga je te werk net zoals bij alle andere Windows toepassingen.
Kies achtereenvolgens in de menustructuur: File, Save as. De 'Save as' dialoogkader

9
wordt geopend. In dit venster geef je file een naam en definieer op welke locatie je de
file wil opslaan, je duidt het type van je file aan (in spss is dit .sav) en klikt op OK.
Hou er wel rekening mee dat je data-editor venster actief moet zijn. Indien je reeds
statistische analyses hebt gemaakt en je output-venster is actief dan zal je je output
file opslaan en niet je data-file.

Opmerking: om te vermijden dat uren werk verloren gaan is het ten zeerste
aangeraden om bij het intikken van je datamatrix regelmatig je werk te saven (bvb om
het half uur). Op die manier verlies je maximaal het werk van een half uurtje wanneer
de computer plots blokkeert of uitvalt.

3.3 Bestaande data-files openen in SPSS

Het is mogelijk om bestaanden datafiles (bvb. Excel-file) in SPSS te openen.


Afhankelijk van het type van file dat je wenst te openen heb je twee
keuzemogelijkheden:

1. eenvoudige datafile (bvb. excel):


• Bij het opstarten van SPSS kan je dit aangeven door de
keuzemogelijkheid 'open een bestaande file' aan te klikken en de
gewenste file te specifiëren.
• Wanneer SPSS reeds is opgestart kan je eenvoudig gegevens
importeren in SPSS door achtereenvolgens te selecteren: File, Open,
Data. Het dialoogkader 'open data file' verschijnt. Je zoekt de gewenste
file op en duidt het type van file aan (txt, xls).
2. grote en/of complexe databank (bvb. access, foxpro): in deze databanken zijn
de variabelen meestal gedefinieerd, om een goede transfer van je variabele
namen en labels te garanderen gebruik je best de de volgende methode: File,
Open database, New Query en de databank wizard wordt geopend, doorloop
deze wizard en je gegevens zullen zo goed als mogelijki worden
getransporteerd

4 Het creëren van een SPSS data-bestand in de


praktijk!
Bij het doorlopen van dit hoofdstuk zal je leren hoe je bijvoorbeeld voor je thesis je
gegevens uit de vragenlijsten vertaalt in SPSS. Het opstellen van een SPSS-
databestand (of Excel-file) bestaat uit de volgende stappen:

• aanmaken van het codeboek: definiëren van de variabelen


 het geven van een variabelenaam aan elke vraag
 bepalen van het meetniveau
 het toekennen van labels aan de antwoordcategorieën en de missing
value

10
• intikken van de datamatrix
• data-cleaning

Aan de hand van een voorbeeld zullen we deze verschillende stappen uitleggen. De
enquête waarop we beroep doen bestaat uit gesloten vragen (geen multiple items
scales). Het toekennen van labels aan open vragen is immers een onderwerp apart
(wens je hierover meer informatie contacteer dan je docent).

In het verdere verloop van deze handleiding maken we gebruik van de onderstaande
vragenlijst. Als je het bestand codering (via de website
http://habe.hogent.be/stat/statistiek/spss.html) download op een diskette dan kan je de
gegevens van 40 respondenten op onze korte vragenlijst geïllustreerd zien in SPSS.

Vragenlijst: kruis het antwoord van uw keuze aan door het bijbehorende bolletje in te
kleuren.

1. Bent u man/vrouw

Vrouw
Man

2. Hou oud bent u?


......... jaar

3. Wat is uw burgelijke staat?

ongehuwd gescheiden

ongehuwd maar samenwonend met partner weduwe/weduwenaar

gehuwd

4. Wat is uw hoogst behaalde diploma?

Lager secundair onderwijs

Hoger secundair onderwijs

Hoger onderwijs, korte type

Hoger onderwijs, lange type

Universitair of post-universitair onderwijs

11
5. Wat is uw netto inkomen (gemiddeld bekeken over de voorbije 6 maanden)?

19.999 Bef of minder 60.000 tot 69.000 Bef

20.000 tot 29.999 Bef 70.000 tot 79.000 Bef

30.000 tot 39.999 Bef 80.000 tot 89.000 Bef

40.000 tot 49.000 Bef 90.000 tot 100.000 Bef

meer dan 100.000 Bef


50.000 tot 59.000 Bef

4.1 Aanmaken van het codeboek

Coderen is het toekennen van getalsmatige labels aan de antwoorden. Deze codering
is nodig om een latere verwerking via SPSS gemakkelijker te maken.

Voor het bepalen van de verschillende codes neem je je een niet-ingevulde


vragenlijst. Je leeg codeboek ziet er als volgt uit (je kan dit maken in excel maar een
papieren versie is hiervoor nog steeds het eenvoudigst):

Vraag Naam variabele Meetniveau Omschrijving Antwoord Code Label


1
2

Per vraag ken je een variabelenaam toe en bepaal je het meetniveau van de variabele.
Nadien ken je labels toe aan alle antwoordcategorieën, ook aan de missing values.

Wanneer een vraag op interval- of rationiveau gemeten wordt, zal het antwoord een
numerieke vorm aannemen.
Bijvoorbeeld: hoe oud ben je? .............
Het antwoord bij deze vraag is een getal. De variabele noem je leeftijd. Je
antwoordcategoriën laat je variëren van 0 jaar tot 98 jaar. Wanneer een respondent
zijn leeftijd niet heeft ingevuld, dan heb je met een missing value te maken. De
codering van missing values zijn meestal 9, 99, 999 of 9999. In dit voorbeeld kiezen
we ervoor om de waarde 99 op te geven als missing value.
Wanneer je een variabele meet op nominaal of ordinaal niveau, worden de
antwoorden meestal ook in een numerieke code weergegeven. Er zijn enkele
belangrijke reden om hiervoor te kiezen:

12
1. Dit vereenvoudigt immers de aanmaak van een datafile: je moet minder
gegevens intikken wat een tijdwinst oplevert en je hebt minder kans op fouten
dan bij het typen van voluit teksten.
2. Sommige statistische analyses in SPSS zijn niet mogelijk indien er geen
gebruik wordt gemaakt van numerieke codes in de datafile!

Voor onze vragenlijst typen we dus numerieke codes voor de vraag: Wat is je
geslacht? man of vrouw
De waarden (values) van de variabele geslacht worden hier mannelijk = 0, vrouwelijk
= 1, missing value = 9
In je datamatrix zal je dus 0, 1 of 9 vinden.
Hou er wel rekening mee dat de statistische analyses op deze variabelen beperkt
moeten worden tot het niet-metrische niveau. In menig onderzoek krijg je resultaten te
horen als het rekenkundig gemiddelde van de variabele geslacht is 1,46. Uiteraard is
dit een zinloze uitspraak daar je variabele geslacht slechts gemeten is op nominaal
niveau.

Het codeboek voor deze vragenlijst ziet er als volgt uit:

Naam
Vraag Meetniveau Omschrijving Antwoord Code Label
variabele
man 0 man
geslacht van
1 geslacht nominaal
de respondent vrouw 1 vrouw
geen 9 geen informatie
zoals
leeftijd van de getal ingevuld
-
2 leeftijd interval
respondent
geen 99 geen informatie
optie 1 1 ongehuwd
optie 2 2 samenwonend
burgerlijke optie 3 3 gehuwd
3 burgerl nominaal staat van de
respondent optie 4 4 gescheiden
optie 5 5 weduwe/weduwenaar
geen 9 geen informatie
optie 1 1 lager secundair
optie 2 2 hoger secundair
hoogst optie 3 3 hoger kt
4 opleidin ordinaal behaalde
opleiding optie 4 4 hoger lt
optie 5 5 univ
geen 9 geen informatie

13
optie 1 1 < 19.999
optie 2 2 20.000 - 29.999
optie 3 3 30.000-39.999
optie 4 4 40.000 - 49.999
optie 5 5 50.000 - 59.999
5 inkomen ordinaal nettoinkomen optie 6 6 60.000 - 69.999
optie 7 7 70.000-79.999
optie 8 8 80.000 - 89.999
optie 9 9 90.000 - 99.999
optie 10 10 > 100.000
geen 99 geen informatie

4.2 Coderen van de vragenlijsten

Eens je codeboek is opgesteld, kan je beginnen met het coderen van alle ingevulde
vragenlijsten. Je eerste stap in het coderen van een vragenlijst is het aanbrengen van
een identificatienummer. Elk nummer is een overeenkomstige case uit je datafile.
Dit cijfer breng je bovenaan op de eerste bladzijde van je vragenlijst aan in de
rechterhoek. Voor je eerste vragenlijst is het nummer dan bijvoorbeeld 001. Het
identificeren van je vragenlijsten is belangrijk voor het ontdekken van fouten gemaakt
tijdens het intypen van je data. Stel je typt de gegevens van 300 enquêtes in. Bij het
opvragen van je frequentietabel krijg je voor geslacht een onmogelijke waarde (bvb.
7). Je hebt dus duidelijk een typfout gemaakt. Wat nu? Indien je een
identificatienummer hebt aangebracht kan je deze vragenlijst/case opnieuw opzoeken
en je fout verbeteren. Zonder identificatienummer is deze case niet meer correct. Je
kan nu wel willekeurig kiezen of je 7 een 0, 1 of 9 wordt maar dit is uiteraard een te
vermijden praktijk.
Dit houdt in dat je met een herkenbare (opvallende) kleur per vraag het antwoord van
de respondent in een gecodeerde vorm vermeldt. Dit vergemakkelijkt het intikken
van de datamatrix aanzienlijk omdat men bij het inputten enkel maar de codes om de
vragenlijsten moet overtikken zonder zich nog bezig te houden met de codering
tijdens de input.

Een voorbeeld van een reeds ingevulde en gecodeerde vragenlijst (case 001):

001
1. Bent u man/vrouw
1
Man Vrouw

2. Hou oud bent u?


25 jaar 25

14
3. Wat is uw burgelijke staat?

ongehuwd gescheiden
ongehuwd maar samenwonend met partner weduwe/weduwenaar
2
gehuwd

4. Wat is uw hoogst behaalde diploma?

Lager secundair onderwijs

Hoger secundair onderwijs

Hoger onderwijs, korte type 4


Hoger onderwijs, lange type

Universitair of post-universitair onderwijs

5. Wat is uw netto inkomen (gemiddeld bekeken over de voorbije 6 maanden)?

19.999 Bef of minder 60.000 tot 69.000 Bef

20.000 tot 29.999 Bef 70.000 tot 79.000 Bef

30.000 tot 39.999 Bef 80.000 tot 89.000 Bef 4

40.000 tot 49.000 Bef 90.000 tot 100.000 Bef

50.000 tot 59.000 Bef meer dan 100.000 Bef

4.3 Intikken van de datamatrix

Na het coderen van je vragenlijst kan je beginnen aan een intikken van je gegevens.
Afhankelijk van de lengte van je vragenlijst en het aantal cases vraagt wordt de
benodigde tijd hiervoor verlengd. Er zijn twee stappen die je achtereenvolgens moet
doorlopen: 1. definiëren van je variabelen, 2. intikken van je gegevens.

4.3.1. Definiëring van de variabelen

In de eerste fase van het intikken van de gegevens moeten we de variabelen


definiëren. Dit gebeurt in de map Variabele View van de data editor.
De naam van de eerste variabele, Var00001, kan worden veranderd door de cel aan te
klikken en de nieuwe variabele naam in te tikken. Onze eerste variabelenaam is het

15
identificatienummer. De naam van de variabele wordt dan 'nummer'.
Voor de tweede stap moet je het type van de variabele opgeven. Je kan diverse types
van data opgeven zoals numeriek, munteenheid, comma, datum en tekstwoord
(string). Klik in de kolom type op het grijze blokje in de cel en je bekomt een lijst met
deze verschillende keuzemogelijkheden. Voor ons identificatienummer is het type van
deze variabele 'numeriek'.
Bij 'width' duid je de grootte van je variabele aan. Als je getal een decimaal is, bepaal
je hoeveel decimalen achter de komma.
In 'label' kan je een omschrijving geven van je variabelenaam.
Het invoeren van missing values doe je in een volgende stap. Bij geslacht vul je '9' in
in de optie 'discrete missing values'.
Je kan ook nog de kolomwijdte, de uitlijning en het meetniveau opgeven.

Het definiëren van de verschillende values (waarden) is belangrijk wanneer de


numerieke code geen aanduiding meer is van de werkelijke betekenis. Zo doe je er
bijvoorbeeld goed aan voor de numerieke code 0 en 1 een aanduiding te geven wat
deze betekenen, namelijk man en vrouw bij de variabelenaam geslacht. Het
dialoogkader 'define value labels' wordt opgeroepen door in desbetreffende cel te
staan van de kolom 'values'. Op dat ogenblik staat er in die cel de waarde 'none'. Als
je de cel aanklikt verschijnt er een grijs blokje. Bij het aanklikken van dit blokje
verschijnt het dialoogkader.
Type bij value het cijfer '0' in en bij value label het woord 'man'. Klik nadien op add.
Type vervolgens het cijfer '1' in bij value en 'vrouw' bij value label. Klik nadien op
add. Vergeet ook niet de missing value te definiëren: '9' voor value en 'geen
informatie' voor value label.
Nu heb je je labels voor de variabele geslacht gedefinieerd. Je dialoogkader ziet er
dan als volgt uit:

Het voordeel van het definiëren van je waarden is dat het de interpretatie van je
analyses vereenvoudigt. In je output-venster zie je immers de waarde van de
numerieke code staan en dit vergemakkelijkt de interpretatie. Een illustratie zal dit
verduidelijken. Indien we bij het opvragen van een kruistabel voor de variabelen
geslacht en burgerlijke staat de waarden niet definiëren, dan krijgen we in ons output-
venster het volgende resultaat:

16
Een illustratie van het voordeel van het opgeven van de waarden van je codes:

Neem je codeboek bij de hand en voer achtereenvolgens de verschillende gegevens in


in het Variabele View venster voor de variabelen uit ons voorbeeld. Indien je dit
gedaan hebt zien de gegevens van de variabelen uit ons voorbeeld er in SPSS als volgt
uit:

17
4.3.2 Intikken van de gegevens

Zoals reeds in hoofdstuk 3.1 data ingeven en veranderen werd uitgelegd worden de
data in SPSS ingebracht via de Data Editor.
Neem je gecodeerde vragenlijsten in de hand. Begin met het de eerste vragenlijst, geef
het identificatienummer in en vervolgens breng je de andere gegevens in. Indien je de
vragenlijsten door elkaar ingeeft (dus niet beginnend met nummer 1) dan kan je na het
ingeven van je data je cases ordenen: druk achtereenvolgens Data, Sort Cases, breng
variabele identificatienummer over naar de rechterkant, controleer of 'sort cases as
ascending' aangeduid is en klik op OK.
De datfile van de persoon uit ons voorbeeld ziet er dan als volgt uit:

Nummer Geslacht Leeftijd Burgerl Opleidin Inkomen


001 1 25 2 4 4

Als je deze gegevens hebt ingetikt, sla je je datafile op. Je kan je file steeds
vergelijken met onze datafile codering (te downloaden via het web).

4.4 Datacleaning

De laatste fase bij het maken van een data-file is de data-cleaning fase. Tijdens deze
fase wordt de datamatrix gecontroleerd op mogelijke typ- en/of codeerfouten.
Om tikfouten op het spoor te komen zijn er twee mogelijke strategieën. Bij de eerste
mogelijkheid neemt men weer alle ingevulde vragenlijsten in de hand en controleert
men de volledig ingetikte datamatrix met de oorspronkelijke gegevens. Het nadeel
van deze werkwijze is dat ze zeer lang duurt en het is maar de vraag of het zinvol is
om zoveel energie te steken in deze methode. Daarom wordt in de praktijk meestal de
andere methode gehanteerd waarbij men probeert de fouten te vinden door
abnormaliteiten in de datamatrix op te sporen. Deze abnormaliteiten kunnen twee
zaken zijn:

• onmogelijke waarden
• onmogelijke combinaties van waarden

De eenvoudigste manier om deze onmogelijke waarden op te sporen is door een


frequentietabel op te vragen. Klik achtereenvolgens: Analyze, Descriptive Statistics
en Frequencies. Je krijgt dan het dialoogkader voor het opgeven van de
frequentietabel. In het bovenstaande voorbeeld van onze korte vragenlijst krijg je het
volgende dialoogvenster.

18
Door het bekijken van de output kan je nagaan of je missing values correct opgegeven
zijn en of er in de frequentietabel waarden voorkomen die onmogelijk zijn. Wanneer
je codes voor burgerlijke staat lopen van 1 tot 5 met missing value 9 dan is een
waarde zoals 12 uiteraard uit den boze.
Bij grote datasets kan het soms een probleem zijn om deze onmogelijke waarde terug
te vinden in de eigenlijke data-editor. Daarom is het aan te raden om te werken met
identificatienummers bij grote datasets(zie hoofdstuk 4.3 Intikken van de datamatrix :
dit betekent dat je eerste variabele een identificatienummer is. Om tussen de
duizenden respondenten dan die ene respondent terug te vinden met een onmogelijke
waarde op burgerlijke staat, selecteer je alle cases met onmogelijke waarden. Dit doe
je door achtereenvolgens te klikken: Data, Select Cases, optie 'If condition is satisfied'
aanduiden, de conditie te specifiëren, Continue en OK. Nadien vraag je van een
frequentietabel op van deze cases met onmogelijke waarden via hun
identificatienummer.

Hoe selecteer ik cases met onmogelijke waarden?


Voorbeeld:
In een uitgebreide dataset vinden we bij het opvragen van de frequentietabel een
onmogelijke waarde '12' voor de variabele burgerlijke staat.
Nu moeten we dit probleemgeval selecteren in de dataset (Data, Select Cases, optie 'If
condition is satisfied' aanduiden, de conditie te specifiëren, Continue en OK). De
conditionele voorwaarde wordt dan als volgt ingegeven:
(burgerl<1|burgerl>5) & burgerl-=9
Dit betekent dat alles wat buiten het interval 1 tot 5 ligt en niet gelijk is aan 9,
geselecteerd wordt. Vraag nu je frequentietabel op voor de variabele
identificatienummer van de geselecteerde cases die waarden hebben die aan deze
conditie beantwoorden.
Aan de hand van deze frequentietabel kan je de respondenten opsporen die
onmogelijke waarden opgaven voor een bepaalde variabelen en deze waarde
corrigeren. Na de verbetering maak je de selectie ongedaan (Data, Select Cases, all
cases, ok) en bewaar je het bestand.

Zoek in ons voorbeeld de onmogelijke waarden op voor de variabele burgerlijke staat.


Verander de foutieve codering door een 3 (= getrouwd). Nadien maak je de selectie
ongedaan en sla je je bestand op.

19
5 Data manipulatie
Soms moet je in de loop van je onderzoek bepaalde statistische analyses maken die
onmogelijk zijn op je ruwe dataset. SPSS maakt het dan mogelijk om je datamatrix te
manipuleren zodat we wel instaat zijn om de gewenste analyses uit te voeren voor ons
onderzoek.

5.1 Het creëren van nieuwe variabelen a.d.h.v. reeds bestaande

Een nieuwe variabele creëren op basis van reeds bestaande variabelen betekent
meestal dat je nood hebt aan een samengestelde variabele in je onderzoek. Vooral in
de psychologie en sociologie wordt deze methode vaak toegepast. Zo kan je van een
persoon zijn individuele scores te weten komen per vraag in een intelligentietest.
Door middel van het creëren van een samengestelde variabele, tel je de score van alle
variabelen op een bepaalde subtest op en bekom je bijvoorbeeld de intelligentiescore
op taalgebied. Deze samengestelde variabele kan men dan gebruiken om conclusies te
trekken rond het verband tussen intelligentie en andere variabelen (bvb. is er een
verschil in intelligentie naar gelang het inkomen of het geslacht). Ook in
marktonderzoek wordt hiervan gebruik gemaakt. Zo kan men in een vragenlijst
diverse attitudes nagaan van een respondent ten aanzien van een bepaald merk. De
som van alle antwoorden op de vragen die attitude meten, geven dan een globaal
overzicht van hoe deze respondent tegenover dat merk staat. Zal hij geneigd zijn om
het merk wel of niet aan te kopen?

Om een nieuwe variabele te creëren selecteer je: Transform, Compute en het


dialoogvenster 'Compute Variable' komt tevoorschijn.
Dit dialoogvenster is bijna identiek aan het dialoogvenster voor select cases, if. Om
een nieuwe variabele te definiëren:

• klik in de tekstbox onder 'Target Variable'


• geef een nieuwe naam voor je samengestelde variabele
• vorm in de tekstbox onder 'Numeric Expression' de formule in aan de hand
waarvan de nieuwe variabele moet worden berekend

Voorbeeld: we doen een onderzoek in een fitness-centrum en vragen aan de


sportliefhebbers hoeveel tijd ze gemiddeld spenderen in het centrum, hoe vaak ze
nieuwe schoenen/kledij kopen, hoe veel toestellen ze gemiddeld gebruiken en hoelang
ze aan krachttraining doen. Stel dat we vor ons onderzoek een globaal idee willen
krijgen over de status van onze fitness-gebruikers, meer bepaald is deze gebruiker een
occasionele gebruiker, free time gebruiker, liefhebber of profesional. Hiervoor kunnen
we de scores op de 5 variabelen samentellen zodat we een eindscore bereiken. Op
basis van deze eindscore wordt de gebruiker in 1 van deze status-categoriën gevoegd.
De definitie van onze samengestelde variabele zou er dan als volgt uit zien:

20
Wil je dit zelf eens uitproberen in SPSS? Download dan de fitness data-file via de
website.

5.2 Het hercoderen van variabelen

Het hercoderen van een variabele wordt meestal gebruikt als men een aantal
categoriën wil beperken om op die manier het verrichten van statistische analyses te
vereenvoudigen.
Om een variabele te hercoderen kies: Transform, Recode, Into different variables
waardoor het 'Recode into different variables' dialoogkader wordt opgeroepen.
In dit venster geef je de naam voor je nieuwe variabele op en breng de oude variabele
van de linkerkolom over naar de rechterkolom. Klik nadien op 'Old en New Values'
en het volgende subdialoogvenster wordt opgeroepen:

21
Het principe van hercodering verloopt als volgt:

• geef de oude codes op in het kader onder 'Old Value' (links)


• geef de nieuwe code op in het kader 'New Value' (rechts)
• klik op Add
• herhaal deze stappen tot alle oude codes in nieuwe zijn ondergebracht

De SPSS gebruiker geeft 7 mogelijkheden om de oude code aan te geven:

1. Value: om één enkele code aan te geven


2. System-missing: selecteert alle cases met een system-missing value (dit zijn
waarden op een variabele die niet ingevuld zijn, in de datamatrix zijn deze te
herkennen door een puntje)
3. system- or user-missing: selecteert alle cases met een missing value (zelf
gedefinieerd vb9 of een puntje)
4. Range: geeft een interval aan van oude codes, inclusief de opgegeven grenzen
5. Range: lowest: geeft een interval aan vanaf de laagste waarde van de
variabele tot en met de opgegeven grens
6. Range: ... through highest: geeft een interval aan vanaf een opgegeven grens
tot en met de hoogste waarde van de variabele
7. All other values: selecteert de nog niet aangewezen waarden

Stel dat we in ons voorbeeldje de variabele leeftijd willen hercoderen in drie groepen:
jonge mensen, de actieve bevolking en de gepensioneerden. We gaan ervan uit dat
veel jongeren nog studeren na hun 18 en daarom stellen we de leeftijd van de actieve
bevolking pas beginnend op 26 jaar. De hercodering in het Old naar New kader ziet er
dan als volgt uit:

Lowest thru 25 —> 1


26 thru 60 —> 2
61 thru highest —> 3

6 SPSS-procedures voor univariate statistiek


Hieronder vind je een lijst van de verschillende opties die je moet aanklikken om een
bepaalde opdracht uit te voeren (opmerking: deze lijst is gebaseerd op de
menustructuur van SPSS 10.0, in lagere versies zoals SPSS 9.0 is het woord analyze
vervangen door ‘statistics’):

• Frequentietabel opvragen: Analyze, Descriptive statisctics, Frequencies,


variabele(n) overbrengen naar rechterkolom, OK
• Frequentietabel opvragen en univariate statistische parameters
berekenen:Analyze, Descriptive statisctics, Frequencies, variabele(n)

22
overbrengen naar rechterkolom, Statistics, aanduiden van parameters die je wil
berekenen (vb.mean=rekenkundig gemiddelde), Continue, OK
• Univariate statistische parameters berekenen zonder frequentietabel:
Analyze, Descriptive statisctics, Frequencies, variabele(n) overbrengen naar
rechterkolom, optie 'Display frequencies tables' uitzetten, Statistics, aanduiden
van parameters die je wil berekenen (vb.mean=rekenkundig gemiddelde),
Continue, OK
• Frequentietabel opvragen en frequentieverdeling in grafische vorm
weergeven: Analyze, Descriptive statisctics, Frequencies, variabele(n)
overbrengen naar rechterkolom, Charts, aanduiden van gewenste grafiek,
Continue, OK
• Frequentieverdeling in grafische vorm weergegeven (zonder
frequentieverdeling): 2 mogelijkheden:
 Analyze, Descriptive statisctics, Frequencies, variabele(n) overbrengen
naar rechterkolom, optie 'Display frequencies tables' uitzetten, Charts,
aanduiden van gewenste grafiek, Continue, OK
 Graphs, gewenste grafiek aanduiden (vb. bar, pie, ...), variabele(n)
overbrengen, OK
 Opmerking: Graphs, Gallery : hierin geeft men je uitleg over de
verschillende mogelijke grafieken
• Frequentietabel opvragen en waarden veranderen van oplopend naar
aflopend: Analyze, Descriptive statistics, Frequencies, variabele(n)
overbrengen naar rechterkolom, Format, bij optie Order 'descending values'
aanduiden, Continue, OK (Opmerking: Optie 'Suppres tables with more than n
categories': er wordt dan enkel een frequentietabel getoond als de categoriën
van variabelen kleiner of gelijk zijn aan n.)
• het opvragen van een boxplot voor de verdeling van 1 variabele: Graphs,
Boxplot, optie define summaries of separate variables aanduiden, variabele
kiezen, OK

7 SPSS-procedures voor bivariate statistiek


Wanneer we twee variabelen van nominaal of ordinaal meetniveau met elkaar in
verband brengen dan kunnen we de Crosstabs-procedure worden gebruikt om
kruistabellen en bijbehorende statistische parameters te berekenen. Om de relatie
tussen twee variabelen op interval of ratio meetniveau na te gaan is het produceren
van een scatterplot (grafische weergave van de relatie) aangeraden. Voor de sterkte
van het verband tussen deze twee variabelen voer je dan een regressie-analyse uit.
(opmerking: deze lijst is gebaseerd op de menustructuur van SPSS10.0.)

• Kruistabel opvragen: Analyze, Descriptive statistics, Crosstabs, variabelen


overbrengen naar rechterkolommen, OK
• Kruistabel opvragen en bivariate statistische parameters berekenen:
Analyze, Descriptive statistics, Crosstabs, variabelen overbrengen naar
rechterkolommen, Statistics, bivariate parameters aanduiden die je wil
berekenen, Continue, OK

23
• Kruistabel opvragen en rij, kolom en/of totaalpercentages tonen: Analyze,
Descriptive statistics, Crosstabs, variabelen overbrengen naar
rechterkolommen, gewenste percentage aanduiden, Continue, OK
• Scatterplot opvragen: Graphs, Scatter, optie Simple Define kiezen,
variabelen overbrengen naar rechterkolommen, OK
• Correlatiecoëfficiënt berekenen: Analyze, Correlate, Bivariate, aanduiden
van variabelen, aanduiden welke correlatiecëfficiënt je wil berekenen (vb.
Pearson), OK
• Regressie-analyse uitvoeren: Analyze, Regression, Lineair, aanduiden van
afhankelijke en onafhankelijke variabele, OK
• Regressie-analyse uitvoeren en determinatiecoëfficiënt opvragen: Analyze,
Regression, Lineair, aanduiden van afhankelijke en onafhankelijke variabele,
statistics, aanduiden van 'R square changed', Continue, OK
• Regressie-analyse uitvoeren en ongestandaardiseerde richtingscoëfficiënt
opvragen: Analyze, Regression, Lineair, aanduiden van afhankelijke en
onafhankelijke variabele, statistics, aanduiden van 'Model fit', Continue, OK
(in de output verschijnt dan de parameter B die aangeeft hoe stijl de relatie is,
hoeveel eenheden we verwachten dat de afhankelijke variabele stijgt als de
onafhankelijke variabele met 1 eenheid toeneemt. Uit het teken van B (+ of -)
kunnen we ook de richting van de relatie afleiden.)
• Regressie-analyse uitvoeren en de constante in de regressievergelijking
opvragen: Analyze, Regression, Lineair, aanduiden van afhankelijke en
onafhankelijke variabele, statistics, aanduiden van 'Model fit', Continue, OK
(in de output verschijnt dan de waarde van de constante (=A) in de kolom B
naast '(Constant)'; de constante in de regressievergelijking geeft aan welke
waarde we op de afhankelijke variabele verwachten als de onafhankelijke
variabele gelijk is aan 0.)
• Regressie-analyse uitvoeren en scatterplot met regressielijn opvragen:
Analyze, Regression, Lineair, aanduiden van afhankelijke en onafhankelijke
variabele, Plot, aanduiden van optie 'normal probability plot', Continue, OK
• Boxplot opvragen voor de verdeling van 1 variabele die wordt vergeleken
met de verschillende categorieën van een andere variabele: Graphs,
Boxplot, optie define summaries for group of cases, 2 variabelen aanduiden,
OK

24

You might also like