You are on page 1of 22

*Display names, Output values & labels

1) Vis hvordan du fr frem frekvensfordelingen til lykke


tabularisk.
Analyse, descriptive statistics, frequencies, fr over variabel, paste,
PLAY.
2) Vis hvordan du definer Vet ikke som missing og vis
frekvensfordelingen p nytt. Sammenlikn og kommenter
resultatene fr og etter endringen.
Ha p variable view, klikk p kolonne missing for lykkevariabelraden. Huk av discrete missing values og skriv tallverdien (her 8) i
det hvite feltet. OK.
3) Vis hvordan du fr frem frekvensfordelingen til lykke med et
stolpediagram.
Frekvenstabell, klikk p charts, huk av bar charts, continue,
paste.
4) Vis hvordan du fr frem gjennomsnitt, standardavvik,
skjevhet og kurtose til sosstat. Hva blir skjevheten og hva
forteller den?
Analyse, descriptive statistics, descriptives. Fr sosstat over til
variables. Klikk p Options, huk av mean, st. deviation,
skewness og kurtosis. Fjern evt markeringer p max og min.
Continue, paste.
* Gjennomsnittet er 4,38.
* Standardavviket er 1,488. Dette er regne som et "gjennomsnittlig avvik
fra gjennomsnittsverdien".
* Med en normalfordeling som har denne fordelingens gjennomsnitt og
standardavvik, vil 95% av enhetene vil befinne seg i intervallet 4,38 +/(1,96 * 1,488).
* Skjevheten 0,601 kan tolkes som en svakt hyre-skjev fordeling
(fortegnet er positivt, og koeffisienten er mellom 0 og 1).
* Skjevheten er likevel statistisk signifikant (Absoluttverdien til
koeffisienten er mer enn 1,96 ganger s stor som standardfeilen).
* Kurtosen er 0,894. Dette innebrer at fordelingen er svakt (men
signifikant p 0,05-niv) leptokurtisk
5) Vis hvordan du fr frem fordelingen til sosstat med et
histogram
Fr over sosstat i frekvenstabell, klikk p charts, marker
histogram og huk av show normal curve, continue og paste.
* Histogrammet viser at fordelingen til sosstat er svakt hyre-skjev og
svakt leptokurtisk.
6) Vis hvordan du fr frem et boxplot for sosial status. Hva
forteller plottet om uteligger p sosial status?
Graphs, legacy dialogs, boxplot. Markere simple boxplot og
summaries for separate variables klikk define flytt sosstat til
box represents og paste.
1

* Boxplottet viser observasjoner som befinner seg mellom 1. og 3. kvartil


som en firkant (lysebrun boks). Den mrke streken gjennom boksen
markerer medianen (2. kvartil).
* De tynne strekene over og under boksen markerer 1,5. bokslengder fra
hhv. 1. og 3. kvartil.
* "Outliers" er enheter som ligger utenfor dette spekteret. Her blir de
markert med lpenummer. Det dreier seg om enhetene med lpenumre
300, 340, 500, 735, 785 og 996.
* Hvis vi sammenlikner med frekvensfordelingen ovenfor, ser vi at ikke alle
uteliggerne blir markert i boxplottet med lpenummer.
7) 7. Vis hvordan oppretter en variabel utd3 for utdanning slik
at: utd3 = 1: Grunnskole utd3 = 2: Videreg. skole og mindre
enn ett r p universitet/hgskole utd3 = 3: Minst ett r p
universitet/hgskole
Lag frekvensfordeling. * Basert p vr inspeksjon, kan vi n lage en ny
variabel med tre kategorier. Vi gr inn p...
* Transform > Recode into different variables.
* Marker variabelen "utdanning", og flytt den over i feltet "Input Variable
--> Output variable". Vi skriver navnet p den nye variabelen "utd3" i
feltet "Name" og lager en label, f.eks: "Utanning, 3 kategorier".
* Deretter trykker vi "Change".
* Vi klikker p "Old and New Values", og legger inn verdier fra den
originale variabelen "Utdanning" i feltet "Old Values," og tilsvarende
verdier p "utd_3kat" i feltet "New Values."
* Hver operasjon avsluttes ved klikke p "Add".
* For forenkle prosedyren kan vi bruke "Range", og argumentet "2
through 4" (samtidig som vi skriver "2" i feltet "New value"). Da vil
verdiene 2, 3 og 4 p "Utdanning" bli kodet "2" p "utd3".
* Vi kan ogs bruke "Range, value through HIGHEST" sammen med
verdien "5" (samtidig som vi skriver "3" i feltet "New value").
* Da vil alle verdier fra 5 og oppover p "Utdanning" bli kodet "3" p
"utd3".
* Nr alle verdiene er lagt inn, klikker vi p "Continue" og "Paste".
* Utfr kommandoen i syntaks.
8) Vis hvordan du kontrollerer at utd3 ble som forventet.
Operasjonen utfres ved lage en krysstabell mellom den gamle
utdanningsvariabelen og den nye variabelen "utd3".
* Klikk Analyze > Descriptive Statistics > Crosstabs
* Flytt "Utdanning" over til "Row(s)".
* Flytt "utd3" over til "Column(s)".
* Klikk "Paste" og utfr kommandoen i syntaks.
* Krysstabellen viser at alle enheter med verdi "1" p "utdanning" har ftt
verdi "1" p "utd3".
* Alle enheter med verdier i intervallet [2, 4] p "utdanning" har ftt verdi
"2" p "utd3".
2

* Alle enheter med verdier => 5 p "utdanning" har ftt verdi "3" p
"utd3".
9) Vis hvordan du undersker med en kji-kvadrat-test om
sammenhengen mellom kjnn og utdanning er signifikant.
Hva forteller resultatet p testen om styrken p
sammenhengen?
Vi lager en krysstabell med variablene "kjonn" og "utd3".
* Analyze > Descriptive Statistics > Crosstabs
* Flytt "kjonn" over til "Row(s)".
* Flytt "utd3" over til "Column(s)".
* Klikk p "Statistics" og huk av for "Chi-square".
* Klikk "Continue".
* Klikk "Paste" og utfr kommandoen i syntaks.
* Kjikvadrat = 0,796 er ikke statistisk signifikant med 2 frihetsgrader (p =
0,672).
* Frihetsgradene er her beregnet som (m-1) * (n-1), hvor m og n str for
henholdsvis rader og kolonner i krysstabellen.
* Siden utvalget er stort (1061 enheter teller med her), konkluderer vi med
at det ikke er noen (pviselig) sammenheng mellom kjonn og utd3, eller
mer generelt, mellom kjnn og utdanning.
10) Vis hvordan du finner korrelasjonen mellom utdanning og
lykke.
Siden "utd3" har tre verdier og "lykke" har fire ordinale verdier, vil
krysstabellen vre rektangulr. Vrt valg av korrelasjonskoeffisient er
derfor Tau-C og Gamma.
* Det er i og for seg ikke noe i veien for ta med bde kjikvadratet og
Somer's d ogs.
Vi ser at gamma = -0,038 og tau-C = -0,018.
* Negativt fortegn betyr at hye verdier p en variabel tenderer til g
sammen med lave verdier p den andre variabelen.
* Men: Da bde gamma og tau varierer i intervallet [-1, 1], er dette er
svake koeffisienter. Sammenhengen er ikke statistisk signifikant
(p=0,471).
* Heller ikke Somer's d viser signifikant korrelasjon. Merk at Somer's d
kommer i tre varianter, alt ettersom hvilken variabel blir betraktet som
den avhengige variabelen i analysen (evt. ingen av dem).
* Vi har derfor ikke grunnlag for hevde at det er en liner negativ (eller
positiv) sammenheng mellom variablene.
* Hvis vi derimot ser p kjikvadratet, ser vi at det er statistisk signifikant.
(p= 0,03).
* Det er dermed en pviselig samvariasjon mellom variablene, men den er
ikke liner.
* Samvariasjonen synes best i at personer med middels utdanning er
underrapportert i kategoriene "litt" og "absolutt ikke" lykkelig.
* Legg merke til at variabelen "lykke" er kontraintuitivt skalert.
3

* Det som ser ut som en svak negativ korrelasjon, m derfor ikke tolkes
som at hyt utdannede tenderer til vre ulykkelige.
* For lett kunne tolke sammenhengen, br vi snu "lykke".
* For snu en variabel, velger vi en konstant, og trekker variabelens
verdier fra konstanten.
* Hvis vi velger konstanten lik den opprinnelige variabelens hyeste verdi,
vil den nye variabelen f minimumsverdien "0".
* Dette er ofte hensiktsmessig.
SNU SKALARETNING: * For snu skalaretningen til variabelen lykke (og
reskalere den til 0) bruker vi flgende kommando:
* Transform > Compute Variable
* Skriv "lykke_sn" i feltet "Target Variable" og klikk p knappen "Type &
Label."
* Skriv inn en forklarende label i det hvite feltet i dialogboksen som pner
seg, for eksempel: "Lykke snudd: Hy verdi (3) = svrt lykkelig". Trykk p
"Continue."
* Skriv inn det relevante numeriske uttrykket i feltet "Numeric Expression,"
i dette tilfellet: "4-lykke".
* Klikk "Paste" og utfr kommandoen i syntaks.

1) Vis hvordan du avdekker eventuelle verdier uten substansiell


mening p de graderte skalaene til tillitsindikatorene
Oppgaven kan lses ved pne Variable View. Klikk p verdiene til
tilretts, tilstort og tilskole i kolonnen "Values".
* Oppgaven kan ogs lses ved en frekvensfordeling, gitt at du har gjort
brukerinnstillingene ovenfor.
* Analyze > Descriptive statistics > Frequencies.
* Dialogboksen "Frequencies" pnes.
* Marker "tilstort", og hold Ctrl+ Shift inne. Marker "tilskole". Du vil se at
ogs "tilretts", som ligger mellom de to andre variablene i dialogboksen,
markeres.
* Fr variablene over til feltet "Variable(s)" ved klikke p pilknappen.
* Klikk "Continue" og "Paste", og utfr kommandoen i syntaks.
* Vi registrerer at verdien "8" (Vet ikke) er kodet som en ekstremverdi.
* Hvis ikke vi gjr noe med denne koden, vil personer som oppgir at de
ikke vet hva slags tillit de har, bli oppfattet som ekstremt skeptiske i
analyser.
2) MISSING VALUES
3) Vis hvordan du kan kontrollere at tillitsindikatorene bare har
gyldige verdier som gir substansiell mening
Analyze > Descriptive statistics > Frequencies.
* Marker "tilstort", og hold Ctrl+ Shift inne. Marker "tilskole". Ogs "tilretts"
markeres.
4

* Fr variablene over til feltet "Variable(s)" ved klikke p pilknappen.


Analysen viser at verdi 8 "Vet ikke" n er rubrisert under "Missing".
Continue + paste.
* Ingen andre verdier framstr som problematiske.
4) Vis hvordan du finner bivariate korrelasjonene mellom
tillitsindikatorene. Utelate respondenter med missing
listwise. Hvor mange respondenter bygger korrelasjonene
p? Hvilke korrelasjoner er signifikante? Hva kan det
indikere dersom noen korrelasjoner er positive og andre
negative?
Klikk p Analyze > Correlate > Bivariate.
* Flytt "tilretts," "tilskole" og "tilstort" over i feltet "Variables."
* Sjekk at det er huket av for Kendall's tau-b.
* (Tau er laget for ordinalniv, og passer til analyser med f verdier i
forhold til antall enheter, srlig hvis vi forventer en monoton relasjon.
* Tau-b er spesielt tilpasset kvadratiske krysstabeller. (Christophersen
2013: 45, Hellevik 2002: 254f)).
* Klikk p "Options", og markr "Exclude Cases Listwise" (om ndvendig).
Klikk "Continue."
* Trykk "Paste" og kjr kommandoen fra syntaks.
Korrelasjon betyr samvariasjon mellom variabler. Hvis hye verdier p
variabel A tenderer til falle sammen hye verdier p variabel B,
foreligger det positiv (liner) korrelasjon.
* Hvis hye verdier p variabel A tenderer til falle sammen lave verdier
p variabel B, foreligger det negativ (liner) korrelasjon.
* Normerte korrelasjonskoeffisienter som Tau, Gamma og Pearsons r
varierer mellom -1 (perfekt negativ korrelasjon) og +1 (perfekt positiv
korrelasjon).
* Vi ser at alle analysene er basert p 991 enheter.
* Listwise exclusion utelater alle enheter med missingverdier p n eller
flere indikatorer i indikatorsettet nr korrelasjonen mellom par av
indikatorer beregnes.
* Pairwise exclusion utelater bare enheter med missingverdier p de to
variablene som inngr i den aktuelle bivariate korrelasjonen.
* Enheter med missingverdi p den tredje indikatoren fr vre med i
beregningen.
* Hvis enkelte korrelasjoner er positive mens andre er negative, nr man
sammenlikner indikatorer for samme begrep, er flgende metodologiske
forklaring nrliggende:
* Av og til brukes sprsml med "motsatt tendens" i sprreskjemaer.
* Hensikten er skille ut ja-siere fra enheter med en klar oppfatning.
* I s tilfelle vil det vre riktig snu skalaretningen til de indikatorene som
har motsatt tendens fr en evt. oppretter en indeks.
* I dette tilfellet er imidlertid alle korrelasjonene positive.

5) Vis hvordan du finner bivariate korrelasjonene mellom


tillitsindikatorene. Utelate respondenter med missing
pairwise.
Gjenta prosedyren fra oppg. 4 og huk av for "Exclude Cases Pairwise". Vi
ser at N varierer i de forskjellige analysene.
* SPSS beregner n korrelasjoner p basis av s mange enheter som
mulig.
* Enheter med missing p "tilskole" tas alts med nr korrelasjonen
mellom "tilstort" og "tilretts" beregnes, osv.
6) Vis hvordan du oppretter en variabel am1 som viser om
respondentene har missing p 0, 1, 2 eller 3
tillitsindikatorer.
Transform > Compute variable.
Skriv "am1" i feltet "Target Variable" og "Antall missing p tilstort, tilretts
og tilskole" i feltet "Type & Label."
Markr "Missing Values" i feltet "Function Group" og flytt kommandoen
"NMISS" fra feltet "Functions and Special Variables" til feltet "Numeric
Expression."
* Fyll inn "tilretts, tilskole, tilstort." i parentesen som dannes bak "NMISS."
Slett sprsmlstegnet.
* Trykk "Paste" og utfr kommandoen i Syntax Editor.
7) Vis hvordan du ser hvor mange respondenter som har gyldig
verdi p alle tillitsindikatorene? Hvor mange respondenter
har missing p 2 indikatorer?
For finne svaret, lager vi en frekvensfordeling over am1.
Analyze > Descriptive statistics > Frequencies.
Marker "am1", Fr "am1" over til feltet "Variable(s)" ved klikke p
pilknappen. Continue + paste
8) Vis hvordan du oppretter tillit1 ved addisjon: tilstort +
tilretts + tilskole, og tillit2 med sum-funksjonen:
sum(tilstort, tilretts, tilskole)
Transform > Compute variable.
Skriv "tillit1" i feltet "Target Variable".Klikk p "Type & Label" og skriv
"Additiv indeks for tillit, ved addisjon" i feltet "Label".
I feltet "Numeric Expression": Skriv "tilstort + tilretts + tilskole".
Trykk "Paste" og utfr kommandoen i Syntax Editor.
En additiv indeks er en variabel som dannes ved at man legger sammen
verdiene p to eller flere andre variabler, ofte skalte "indikatorer" for et
felles underliggende begrep.
* Her nsker vi mle tillit til samfunnsinstitusjoner ved sl sammen ml
for tillit til rettssystemet, skolesystemet og Stortinget.
* Det kan vre flere grunner til danne additive indekser, f.eks.: kt
reliabilitet, kt validitet og hyere mleniv.
* (Nr en variabel p ordinalniv har minst 7 verdier (enkelte ganger s
lite som 5), er det ikke uvanlig akseptere at det benyttes analyseformer
som vanligvis forbeholdes variabler p intervall- eller forholdstallsniv.
(Christophersen 2013: 97)).
6

* For lage "tillit2", gjr flgende:


* Klikk Transform > Compute Variable, og skriv "tillit2" i feltet "Target
Variable"
* Klikk "Type & Label" og skriv: "Additiv indeks for tillit, ved sumfunksjon"
* Klikk p "Statistical" i feltet "Functions Groups," og scroll nedover
funksjonsmalene som penbares i feltet "Functions and Special Variables."
* Velg funksjonsmalen "Sum" og flytt den opp i feltet "Numeric Expression"
ved klikke p piltasten nede til hyre p skjermen.
* Fr over "tilretts," "tilskole" og "tilstort," slik at uttrykket i feltet "Numeric
Expression" blir: "SUM(tilretts,tilskole,tilstort)"
* Trykk "Paste", og utfr kommandoen i Syntax Editor.
COMPUTE tillit2=sum(tilstort, tilretts, tilskole).
VARIABLE LABELS tillit2 'Additiv indeks for tillit, ved sumfunksjon'.
EXECUTE.
9) Vis hvordan du sammenlikner beskrivende opplysninger
(antall, mini-mum, maksimum, gjennomsnitt og
standardavvik) for tillit1 og tilli2, og kommenter likhet og
forskjell.
Klikk Analyze > Descriptive Statistics > Descriptives, og fr "tillit1" og
"tillit2" over i feltet "Variable(s)."
Klikk p "Options" og srg for at det er huket av for "Mean", "Std.
deviation", "Minimum" og "Maximum".
Klikk "Continue", "Paste" og utfr kommandoen.
Vi ser at variablene skiller seg fra hverandre p antall enheter med gyldig
verdi, og ogs p minimumsverdi, gjennomsnittsverdi og standardavvik.
Variablene er penbart ulike.
* For bedre forst hva ulikhetene skyldes, benytter vi rapportfunksjonen i
SPSS:
* Klikk Analyze > Reports > Case Summaries.
* Fr over "tilretts," "tilskole," "tilstort," "tillit1" og "tillit2" til feltet
"Variables."
* Fjern haken i ruten "Show only valid cases."
* Trykk "Paste" og utfr kommandoen i syntaks.
Tabellen "Case summaries" viser de hundre frste enhetene i datasettet og
deres verdier p indikatorene "tilretts," "tilskole," "tilstort," samt indeksene
"tillit1" og "tillit2."
* Enhet nr. 19 og 45 gir oss en god pekepinn p hva som har skjedd:
* Nr enheter har missingverdi p n eller flere indikatorer, fr indeksen
som dannes ved addisjon ogs missingverdi.
* Sumfunksjonen fungerer annerledes, og summerer opp alle gyldige
verdier p indikatorene, og regner missingverdier som "0."
* Resultatet er stort bortfall av enheter fra pflgende analyser, dersom
addisjon benyttes, og misvisende (sgar ugyldige) verdier p indeksen,
dersom sumfunksjonen brukes.
* Ingen av disse indeksene fungerer tilfredsstillende.
7

1) Vis hvordan du finner korrelasjonen mellom tillit og sosial


status. Begrunn korrelasjonsmetode og kommenter
sammenhengens styrke, retning og form. Er sammenhengen
er signifikant? Begrunn svaret.
Korrelasjonsml bestemmes av variablenes mleniv (samt forventet
form p sammenhengen).
Vrt frste skritt blir derfor underske variablene med hensyn p
mleniv.
En frekvensanalyse vil vre nyttig i s mte.
En frekvensanalyse vil ogs gi oversikt over andre relevante faktorer, som
skalaretning og verdier som evt. burde vrt definert som missing.
Analyze > Descriptive Statistics > Frequencies.
Flytt variablene "tillit" og "sosstat" over til feltet "Variable(s)" ved
markere variablene og klikke p den bl pilen midt i dialogboksen.
Klikk p "Paste" og utfr kommandoen i syntaks (som ovenfor).
Vi ser at variablene ikke har verdier som br defineres som missing fr vi
gr videre.
* Begge variablene har imidlertid kontraintuitiv skalaretning (Hy tallverdi
str for henholdsvis liten tillit og "bunn" sosial status).
* Vi ser at variablene er p tilnrmet intervallniv (mer enn 7 ordinale
verdier). Sammenhengen forventes vre liner.
* Vi kan derfor forsvare bruke Pearson's r.
* Nedenfor tar vi ogs med Kendall's Tau-B for sammenlikningens skyld.
* Klikk p Analyze > Correlate > Bivariate.
* Flytt tillit og sosstat over til feltet "Variables."
* Sjekk at det er haket av for Pearsons r (og evt. Kendall's Tau-B).
* Trykk "Paste" og kjr kommandoen fra syntaks.
Pearsons r varierer mellom -1 (perfekt negativ korrelasjon) og +1 (perfekt
positiv korrelasjon).
* Korrelasjon betyr samvariasjon mellom variabler. Hvis hye verdier p
variabel A tenderer til falle sammen med hye p variabel B, foreligger
det positiv (liner) korrelasjon.
* Hvis hye verdier p variabel A tenderer til falle sammen med lave
verdier p variabel B, foreligger det negativ (liner) korrelasjon.
* r = 0,195 har positivt fortegn og indikerer positiv sammenheng.
* r = 0,195 indikerer en svak korrelasjon (Se Christophersen (2013: 38) for
nrmere differensiering). r i andre potens = 0,038, noe som indikerer at
den ene variabelen forklarer 3,8% av variasjonen i den andre.
* r = 0,195 indikerer en korrelasjon som i det minste er delvis liner. (Hvis
sammenhengen er kurviliner, blir r tilnrmet lik 0).
* Tau-B varierer ogs mellom -1 og 1, slik at 0 innebrer ingen korrelasjon.
(Se definisjon i Christophersen 2013: 45, og sammenlikn med definisjonen
av Tau i Hellevik 2002: *************)
* Tau-B = 0,140 indikerer ogs en svak, positiv, monoton sammenheng.

* Tau er generelt et "konservativt" eller restriktivt korrelasjonsml, og det


er ikke overraskende at tau er noe mindre enn r. (Tau vil alltid vre mindre
enn gamma, med mindre korrelasjonen er perfekt).
* Bde r og tau-B er markert med to stjerner i krysstabellene. Det betyr at
sammenhengen er statistisk signifikant p 0,01-niv, tosidig test.
* Det er med andre ord mindre enn 1% sannsynlighet for at en kunne
observere en s sterk sammenheng som dette i et utvalg som er tilfeldig
trukket fra et univers med statistisk uavhengighet mellom variablene.
2) Vis hvordan du fr frem et spredningsdiagram for relasjonen
mellom tillit og sosial status, og kommenter diagrammet.
Vis hvordan du fr frem et spredningsdiagram for relasjonen mellom
tillit og sosial status, og kommenter diagrammet.
Klikk p Graphs > Legacy Dialogs > Scatter/Dot, Marker "Simple Scatter"
og trykk "Define.", Flytt sosstat til feltet "X Axis" og tillit til feltet "Y Axis."
Trykk p "Paste" og kjr kommandoen i syntaks.
Vi ser en tendens til at hye verdier p X-variabelen sosstat tenderer til
g sammen med hye verdier p Y-variabelen tillit. Punktene ligger noks
spredt.
* Bildet av en positiv, liner, men svak sammenheng, bekreftes derfor.
3) . Juster spredningsdiagrammet slik at: skalaen til Y-aksen
starter i 0 sammenhengen markeres med en linje/kurve
observasjons-punktene/sirklene har en nsket farge.
Dobbeltklikk p diagrammet for pne redigeringsvinduet "Chart Editor".
For endre skala p Y-aksen: Dobbeltklikk p Y-aksen. Boksen "Properties"
pnes. Se p arkfanen "Scale", og endre minimumsverdien til 0. Klikk p
"Apply".For f fram regresjonslinjen: Klikk s p ikonet "Add Fit Line at
Total."For endre fargene p punktene: Klikk p et punkt, eller p ikonet
"Bin element". Se p arkfanen "Marker" og endre farge.
4) Vis hvordan du oppretter flgende dummyvariabler for
utdanning:
utd31: Grunnskole
utd32: Videreg. skole og mindre enn ett r p
universitet/hgskole
utd33: Minst ett r p universitet/hgskole
Transform > Create Dummy Variables.
Fr utd3 over til feltet "Create Dummy Variables for:"
Skriv utd i feltet "Root Names (One Per Selected Variable)". Klikk p
"Paste"
5) Vis og forklar hvordan du ser at dummyvariablene er korrekt
opprettet.
Igjen er det hensiktsmessig bruke krysstabell for vise at
omkodingene er riktige.Analyze > Descriptive Statistics > Crosstabs.
Flytt utd3 over til "Columns" og de tre dummy-variablene over til "Rows".
"Paste".
9

6) Vis hvordan du gjennomfrer en regresjonsanalyse med tillit


som AV og utdanning som UV. Bruk grunnskole som
referansekategori og tolk koeffisienten til
utdanningskategori 2 (utd3=2).
Nr vi gjennomfrer en regresjonsanalyse med dummy-variabler, er det
ndvendig utelate en av dummy-variablene.Dummy-variabelen som
utelates, representerer "referansekategorien".Hvis vi tar med alle dummyvariablene, blir modellen overlesset, og vi fr et tilfelle av perfekt
kolinearitet.
Perfekt kolinearitet innebrer at vi kan predikere enhetens verdi p en
uavhengig variabel p basis av en eller flere andre uavhengige variabler.
Siden en uavhengig variabel er en perfekt representasjon av flere andre
uavhengige variabler, klarer ikke SPSS skille effektene fra hverandre.
Vi husker ovenfra at tillit-variabelen har kontraintuitiv skalaretning, slik at
hy verdi str for lav tillit og omvendt.
Hvis vi ikke snur skalaretningen til tillit, vil vi f problemer med tolke
koeffisientene, fordi en positiv effekt av en X-variabel substansielt sett vil
innebre LAVERE tillit for hye verdier av X.
Vi begynner derfor med "snu" tillit. I praksis oppretter vi en ny variabel
med utgangspunkt i tillit.
For snu en variabel, velger vi en konstant, og s trekker vi variabelens
verdier fra konstanten (NB: Viktig huskeregel!).
* Hvis vi velger en konstant lik den opprinnelige variabelens hyeste
gyldige verdi, vil vi f 0 som laveste verdi p den snudde variabelen.
Transform > Compute Variable
Skriv "rtillit" i feltet "Target Variable"
Klikk p "Type & Label" og skriv i feltet "Label": "Tillit snudd, 0= lav tillit".
Klikk p "Continue". Skriv i feltet "Numeric Expression": "5 - tillit".Klikk p
"Paste" og utfr kommandoen i syntaks:
For sjekke om omkodingen har blitt riktig, lager vi en krysstabell.
* Analyze > Regression > Crosstabs.
* Konstantleddet (a = 2,107) indikerer forventet Y nr alle X-variablene =
0.
* Her betyr det: Gjennomsnittlig tillitsskre for respondenter med
grunnskoleutdanning.
* Stigningskoeffisientene indikerer hvor mye gjennomsnittlig Y ker per
enhets kning i X (nr en kontrollerer for andre uavhengige variabler).
* Stigningskoeffisientet til utd32 = .145. Dette kan leses som at tilliten er
gjennomgende .145 skalenheter hyere for enheter med videregende
utdanning (og ideelt inntil ett rs hyere utdanning) enn for enheter med
kun grunnskole
* Det innebrer at personer med middels utdanning har gjennomsnittlig
tillitsskre lik 2,107 + 0,145 * 1 = 2,252.
* Tilsvarende vil gjennomsnittlig tillitsskre for respondenter med hyere
utdanning vre: 2,107 + 0,463 * 1 = 2,570.
* Begge effektene er statistisk signifikante p 0,05-niv. (p < 0,05, tosidig
test). (Vises i kolonnen "Sig.").
10

7) Vis hvordan du oppretter utd2 slik at: utd2 = 0: Grunnskole,


videregende skole og mindre enn ett r p
universitet/hgskole utd2 = 1: Minst ett r p
universitet/hgskole
Vi skal n lage en dikotom utdanningsvariabel med verdiene 0 og 1.
(Metoden nedenfor kan ogs benyttes til lage dummyvariabler, hvis man
kopierer de to frste linjene av kommandoen, modifiserer dem litt og limer
dem inn igjen. Se Christophersen 2012: 67-68).
Transform > Compute VariableSkriv i feltet "Target Variable": "utd2".
Fr over variabelen utd3 til feltet "Numeric Expression" og forandre
uttrykket slik at det str "utd3 = 3".
Klikk p "Type & Label" og skriv i feltet "Label": "Utdanning dikotom, 1=
hy utdanning". Klikk "Continue". Klikk "Paste" og utfr kommandoen i
syntaks.
Vi sjekker at utd2 er korrekt opprettet.Analyze > Descriptive Statistics >
Crosstabs.Fr utd3 over til "Column(s)" og utd2 over til "Row(s)".
"Paste", "Run Selection".
Vi ser at alle enhetene som har verdi 1 og 2 p utd3 har ftt verdi 0 p
utd2.
* Alle enhetene med hyere utdanning (verdi 3 p utd3) har ftt verdi 1 p
utd2
8) Vis hvordan du gjennomfrer en regresjonsanalyse med tillit
som AV og med sosial status og utd2 som UV og tolk
resultatet.
Analyze > Regression > LinearFr rtillit over til feltet "Dependent".
Fr utd2 og sosstat over til feltet "Independent(s)".
Klikk p "Paste" og utfr kommandoen i syntaks:
R square 0,086 innebrer at de to uavhengige variablene i modellen
forklarer 8,6% av variansen (variasjonen) i rtillit.
* R square = Regression (Model) Sum of Squares / Total Sum of Squares =
40,762 / 476,619 = 0,086.
* Konstantleddet viser forventet (gjennomsnittlig) Y (rtillit) nr alle Xvariablene = 0.
* Konstant = 2,511 innebrer at gjennomsnittlig tillitsskre (rtillit) for
personer med lav eller middels utdaning og sosstat = 0.
* NB: Dette resultatet er ikke substansielt tolkbart av to grunner:
* a) Ingen enheter har verdi 0 p sosstat. (Som vi s ovenfor, har sosstat
minimumsverdien 1 og maksimumsverdien 10).
* b) I og med at skalaretningen til sosstat er kontraintuitiv, ville verdi 0 p
sosstat st for noe MER ENN maksimal sosial status--en absurd tanke.
* Vi kan derfor ikke tolke konstantleddet substansielt, men kun som en
projisering (forlenging) av regresjonslinjen ned p Y-aksen.
* Stigningskoeffisienten til utd2 = ,316.
* Det innebrer at enheter med hyere utdanning har gjennomsnittlig
0,316 hyere skre p rtillit enn enheter med lav/middels utdanning, nr
sosial status holdes konstant.
11

* Stigningskoeffisienten til sosstat = -,064.


* Det innebrer at for hver skalaenhet sosstat ker (dvs. sosial status
synker), s synker rtillit med ca. 0,064 skalaenheter (hvis vi holder utd2
konstant).
* Bde effekten av utd2 og effekten av sosstat er statistisk signifikante p
0,01-niv (tosidig test). p (sig) < 0,01.
* En person med hyere utdanning og middels sosial status (sosstat=5),
vil ha predikert rtillit = 2,511 + 0,316 * 1 - 0,064 * 5 = 2,507.
* Hvis vi skal sammenlikne effektene av to variabler som er forskjellig
skalert (som her), er det riktig se p kolonnen "Beta".
* Beta indikerer antall standardavviks kning i Y per standardavviks kning
i X.
* Her ser vi at effekten av utd2 er sterkere enn effekten av sosstat_sn
(0,229 > 0,135).

1)

Vis hvordan du oppretter en variabel (rsosstat) for


sosial status med skala fra 1 = Bunn til 10 = Topp.
Lag frekvensanalyse av sosstat. Vi ser at "sosstat" har en kontraintuitiv
skalaretning. Hy verdi (10) str for "Bunn" sosial status, og lav verdi
(1) str for "Topp" sosial status.
* Det er ingen verdier som penbart br defineres som missing. (Det er
ingen ekstremverdier uten substansiell mening).

* Nr vi skal snu en variabels skalaretning, velger vi en konstant, og


trekker den opprinnelige variabelens verdier fra konstanten.
* Dersom vi velger en konstant lik den opprinnelige variabelens hyeste
verdi, vil vi f 0 som laveste verdi p den snudde variabelen.
* Her sier imidlertid oppgaveteksten at "1" skal vre minste verdi og "10"
skal vre hyeste verdi.
* For f variabelen skalert slik oppgaveteksten ber om, velger vi som
konstant den opprinnelige variabelens hyeste verdi plus 1.
* Frekvensanalysen ovenfor viste oss at 10 er hyeste verdi p "sosstat".
Vi velger derfor konstanten 11.
* Transform > Compute Variable
* Skriv "rsosstat" i feltet "Target Variable"
* Klikk p "Type & Label" og skriv i feltet "Label": "Sosstat snudd, 1=
bunn sosial status". Klikk p "Continue".
* Skriv i feltet "Numeric Expression": "11-sosstat".
* Klikk p "Paste" og utfr kommandoen i syntaks:
Vi sjekker at kommandoen har blitt korrekt utfrt ved en krysstabell:
* Analyze > Descriptivs Statistics > Crosstabs
* Fr over "sosstat" til "Row(s)" og "sosstat_sn" til "Columns"
* Klikk p "Paste" og utfr kommandoen i syntaks:

2) Vis hvordan du gjennomfr en regresjonsanalyse med tillit som AV og med


sosial status og politisk orientering som UV-er, og vis hvordan du
oppretter variabler for hhv. predikert tillit og for tilhrende restledd.
Tolk sosstat-koeffisienten.

Lag frekvensanalyser av variablene. Vi ser at polskala har gyldige verdier


fra 1 (Helt til venstre) til 10 (Helt til hyre).
* Skalaretningen er gunstig (lave verdier for venstrepartier vil gjre at
venstrepartier vises til venstre i et histogram, f.eks).

12

* Men for at konstantleddet i regresjonslikningen skal bli substansiet


tolkbart, m 0 vre en gyldig verdi p alle de uavhengige variablene,
inkludert polskala.
* Vi skalerer derfor ned polskala ett hakk, og lager en ny variabel:
polskala0.
* Transform > Compute Variable
* Skriv i feltet "Target Variable": "polskala0".
* Fr over variabelen polskala til feltet "Numeric Expression" og forandre
uttrykket slik at det str "polskala - 1".
* Klikk p "Type & Label" og huk av for "Use expression as label". Klikk
"Continue".
* Klikk "Paste" og utfr kommandoen i syntaks.
Ogs rtillit br ha verdilabeler p ekstremverdiene.
* Vi velger uttrykkene "Full tillit" og "Ingen tillit" snarere enn de mer
tannlse uttrykkene "stor" og "liten" som vi finner p variabelen "tillit".
* Grunnen er at "tillit" er laget som en ideks p basis av indikatorer der
"Full tillit" og "Ingen tillit" har blitt benyttet originalt.
* Disse formuleringene er dermed mer genuine enn de tilsvarende verdiene
"stor" og "liten".
SJEKK I KRYSSTABELL
Vi er n klar til gjennomfre selve regresjonsanalysen.
* G til Analyze > Regression > Linear.
* Fr over rtillit til feltet "Dependent" og sosstat_sn og polskala0 til
feltet Independent(s).
* Klikk p "Save" og huk av for "unstandardized residuals" og
"unstandardized predicted values".
* Trykk "Continue", "Paste" og kjr kommandoen i syntaks.
Vi kan g inn i Data View og se at det er opprettet nye variabler for
predikerte Y-verdier (PRED_1) og for residualer (RES_1).
* R Square = 0,078 innebrer at variablene sosstat_sn og polskala0
forklarer 7,8 % av variansen (variasjonen) i rtillit.
* R Square er regnet ut p basis av tallene for kvadratsummer i tabellen
"Anova". (36,297 / 463,918 = 0,078).
* Std. Error of the Estimate er det vi p norsk kaller standardavviket til
regresjonen, eller sigma.
* Standardfeilen til regresjonen er standardavviket til de kvadrerte
residualene, dvs.: Kvadratroten av (427.622 / 975).
* Konstantleddet 2,165 str for forventet tillitsskre (dvs.:
gjennomsnittlig rtillit) for enheter med verdien 0 p alle de uavhengige
variablene.
* Her vil det si: gjennomsnittlig rtillit for personer med laveste sosiale
status, som befinner seg helt til venstre p den politiske venstre-hyreskalaen.
* Stigningskoeffisienten til sosstat_sn (0,098) indikerer at dersom vi ker
sosstat_sn med n skalaenhet (samtidig som vi holder polskala0 konstant),
s ker forventet rtillit med gjennomgende 0,098 skalaenheter.
* Tilsvarende: En skalaenhets kning i polskala0 er assosiert med en
reduksjon i rtillit p 0,069 skalaenheter, dersom vi holder sosial status
konstant.
* Begge effektene er statistisk signifikante. Dette vises i kolonnen "Sig."
ved at signifikanssannsynligheten (p) < 0,05.
3) Vis hvordan du finner gjennomsnitt, standardavvik, skjevhet og
kurtose til predikert tillit og tillitsresidualene. Oppgi og
kommenter skjevheten til residualene.
Analyze > Descriptive Statistics > Descriptives

13

Marker variablene PRE_1 og RES_1, og fr dem over til feltet "Variable(s)"


ved klikke p pilknappen.
Klikk p "Options" og huk av for "Std. Deviation", "Skewness" og
"Kurtosis".
Klikk "Continue" og "Paste", og utfr kommandoen i syntaks.
Vi kan lese flgende av den beskrivende statistikken til residualene:
* Skewness = -0,467. Negativt fortegn indikerer venstre skjev fordeling.
Skjevheten er ikke stor (<1) men den er statistisk signifikant (-0,467 /
0,078 < -1,96).
* Kurtosis = Positivt fortegn indikerer leptokurtisk fordeling. (Toppen
stikker opp over den hypotetiske normalfordelingskurven som kunne lages p
basis av den virkelige fordelingens N, gjennomsnitt og standardavvik).
* Kurtose < 1 indikerer svak kurtose. Her er den ikke signifikant.
* For f et bedre inntrykk av fordelingen, kan det vre nyttig lage et
histogram med normalfordelingskurve.
* Analyze > Descriptive Statistics > Frequencies
* Marker RES_1 og fr den over til feltet "Variable(s)" ved klikke p
pilknappen.
* Klikk p "Charts". Huk av for "Histograms" og "Show normal curve on
histogram".
* Klikk "Continue" og "Paste", og utfr kommandoen i syntaks.
4) Vis hvordan du undersker om kravene til normalfordelte restledd,
homoskedastisitet, ingen betydningsfulle observasjoner og ingen
multikolinearitet er oppfylt. Kommenter resultatene.
Analyze > Regression > Linear
Behold variablene i samme posisjon som i oppgave 4.
* Klikk p "Statistiscs" og huk av for Casewise diagnostics. Huk av for
Outliers outside og skriv 3 i feltet Standard deviations. Huk av for
"Collinearity diagnostics". Klikke "Continue".
Klikk p "Plots". Fr over "ZPRED" (Standardiserte predikerte Y-verdier)
til feltet "X" og "ZRESID" (Standardiserte residualer) til feltet "Y".
* Huk av for "Histogram" og "Normal Probability Plot". Klikk "Continue".
* Klikk p "Save" og huk av for "Mahalanobis", "Cook's" og "Leverage" under
"Distances", samt "Standardized DfBeta(s)" under "Influence Statistics".
(Siden vi lagret ustandardiserte residualer og predikerte verdier ovenfor,
bryr vi oss ikke med dette i denne omgang).
* Klikk "Continue" og "Paste" og utfr kommandoen i syntaks-vinduet.
Vi har imidlertid bedt om en del diagnostikk, og dette er nytt her:
* Tabellen "Coefficients" har ftt to nye kolonner, helt til hyre.
* Den frste av dem oppgir Tolerance. Den andre oppgir VIF.
* For forst hva disse mlene viser, m vi tenke oss at det er
gjennomfrt to ekstra regresjonsanalyser, der de uavhengige variablene er
brukt som avhengig variabel for hverandre.
* Tolerance er definert som 1 - R square for slike subsidire modeller, og
viser med andre ord hvor mye av variasjonen til en uavhengig variabel som
ikke predikeres av de andre uavhengige variablene i modellen.
* Tolerance = 0,994 betyr at sosstat_sn predikerer 0,006 (6 promille) av
variasjonen i polskala0.
* VIF (Variance Inflation Factor) er definert som 1 / Tolerance.
* En huskeregel kan vre at VIF > 5 innebrer kolinearitet av problematsik
omfang.
* Her er VIF mye lavere, og vi har ikke gjre med kolinearitet i denne
modellen.
* Tabellen Residual Statistics viser deskriptiv statistikk for de
nyopprettede diagnostikkvariablene.

14

* Standardiserte residualer: Minimumsverdien for standardiserte residualer


er -3,590. Dette er alts tale om en enhet som befinner seg nesten 3,6
standardavvik under regresjonslinjen.
* Tabellen Casewise diagnostics identifiserer i alt 4 enheter som
befinner seg > 3 standardavvik under regresjonslinjen. Dette er enheter som
br inspiseres.
* Hvis X-variabelverdiene til disse enhetene ikke er plausible, br de
rettes, eller enheten(e) br kanskje tas ut av analysen.
* Ingen enhet befinner seg 3 standardavvik eller mer over regresjonslinjen.
* Mahalanobis distance: Enheter med verdier strre enn kjikvadrat (df=k,
alts antall uavhengige variabler i modellen) br inspiseres nrmere.
* Her er strste verdi 17,49, dvs. > 9,21 som er kritisk verdi ved df=2,
=0,01. Minst n enhet br derfor inspiseres.
* For finne ut hvilke enheter som skal inspiseres, kan man klikke:
* Analyze > Descriptive Statistics > Explore.
* Fr over variabelen MAH_1 over til feltet Dependent list. Klikk p
Statistics og huk av for Outliers. Klikk Continue.
* Klikk p Plots. Huk av for Stem-and-leaf og Histogram. Sjekk at det
er huket av for Dependents together. Klikk Continue, Paste og kjr
kommandoen i syntaks. For tolkning av grafene, se Christophersen (2012: 3235). Det viser seg at enhet nr. 300 utmerker seg. Dette er en enhet som
befinner seg langt til hyre i det politiske landskapet (7).
* Han har hyere utdanning, men laveste mulige sosiale status. Han har litt
under gjennomsnittlig tillit.
* Her vil det vre verd underske omstendighetene rundt innhentingen og
kodingen av datasrlig verdien for sosial status burde sjekkes.
* Det er mulig sortere datasettet etter en variabel, noe som kanskje er
spesielt greit i diagnostikksammenheng.
* Fr en gjr endringer i datasettet, kan det imidlertid vre greit sikre
seg at man kan gjenopprette den originale rekkeflgen p enhetene.
* For sikre seg dette, kan en opprette en variabel som viser lpenummer:
* Transform > Compute Variable
* Skriv lopenr i feltet Target Variable.
* Klikk p Type & Label og skriv: Original rekkeflge p enhetene i
datasettet.
* Klikk p Miscellaneous i feltet Function group. Marker $Casenum og
fr funksjonen opp til feltet Numerical expression ved klikke p den
bl pilen.
* Klikk Paste og utfr kommandoen i syntaks.
DATASET ACTIVATE DataSet1.
COMPUTE lopenr=$CASENUM.
VARIABLE LABELS lopenr 'Original rekkeflge p enhetene i datasettet'.
EXECUTE.
* Det opprettes n en variabel "lopenr" i datasettet, som kan brukes til
gjenopprette enhetenes rekkeflge.
* Vi kan n sortere enhetene etter nske, f.eks. etter strrelsen p MAH_1.
* Data > Sort Cases
* Fr MAH_1 over til feltet Sort by. Huk av for Descending for f
enhetene med de strste Mahalanobis-verdiene verst i datasettet.
* Klikk Paste og utfr kommandoen i syntaks.
SORT CASES BY MAH_1(D).

15

* Hvis vi n pner Data Editor, og ser p variabelen lopenr, ser vi at


enehtene ikke ligger i samme rekkeflge som fr.
* Vi kan imidlertid lett sortere tilbake ved gjennomfre samme prosedyre
som ovenfor, bare velge lopenr som sorteringsvariabel, og huke av for
Ascending, slik at de laveste verdiene kommer frst.
SORT CASES BY lopenr(A).
* Merk at det ogs er mulig finne fram til enkelte enheter ved klikke
p skevariabelen i Data View, f.eks lopenr, og deretter klikke Ctrl+F.
* Du fr n muligheten til skrive lpenummeret til enheten med den
strste Mahalanobis-verdien inn i skefeltet.
* Skriv "300" og trykk "Find Next". SPSS hopper n ned til riktig enhet.
* La oss n g tilbake til modellvurderingen.
* Cooks distance: Hovedregel: Verdier > 0,20 indikerer enheter som br
vurderes (Christophersen 2012: 123). I dette tilfellet er ingen enheter i
faresonen etter dette kriteriet.
* Leverage-verdi: (varierer i intervallet [0,1], tilsv. ingen
leverage~maksimal leverage). Her er maksimal observert leverageverdi =
0,018.
* Huskeregel: Enheter med Leverage > 3 * (k+1)/n br inspiseres (nr k <
10) (Christophersen 2013: 79). I dette tilfellet blir det: 3*3/978=0,0092.
* Hvis vi sorterer datasettet etter synkende leverage-verdier, viser det
seg at 12 enheter har strre verdier enn 0,0092.
* Disse enhetene kan med fordel inspiseres.
* Histogrammet kjenner vi igjen fra oppgave 4 ovenfor. Fordelingen er svakt
venstre skjevog noe leptokurtisk. Forskjellen her er at residualene her er
standardiserte (se nedenfor).
* Man standardiserer en variabel gjennom frst sentrere den, og deretter
dele de sentrerte verdiene p standardavviket.
* Sentrering innebrer trekke gjennomsnittsverdien til en variabel fra
alle variabelens verdier. Da forskyves variabelen, slik at
gjennomsnittsverdien blir 0.
* Normal Probability Plottet viser sammenlikner faktiske residualer med
forventede residualer, gitt residualfordelingens M og s (gjennomsnitt og
standardavvik).
* Hvis residualfordelingen er normalfordelt, vil prikkene i plottet flge
diagonalen. Avvik fra diagonalen indikerer dermed avvik fra
referansenormalfordelingen.
* Vi fr igjen bekreftet bildet vi har dannet oss fra fr: Det er sm, men
tydelige, avvik.
* Scatterplottet (spredningsdiagrammet) viser standardiserte predikerte Yverdier langs X-aksen, og standardiserte residualer langs Y-aksen.
* De predikerte Y-verdiene (Jf. PRED_1 ovenfor) er regnet ut fra
regresjonsmodellen, og dermed standardisert ved at man sentrerer (dvs.
trekker gjennomsnittsverdien fra observert verdi) og deretter deler p
standardavviket.
* De predikerte Y-verdiene er dermed en funksjon av X-variablene i
modellen, og de kan brukes for gi et frste hint om avhengighet mellom Xverdiene og residualene og om heteroskedastisitet.
* Heteroskedastisitet innebrer at de kvadrerte residualene er korrelert
med X.
* Scatterplottet viser en litt lavere residualvarians for lave verdier av
predikert Y enn for middels verdier av predikert Y.
* Det er imidlertid ingen ptakelig vifteform her, og det ser umiddelbart
ikke ut til vre ndvendig bytte estimator (lage en vektet "GLS"
modell).

16

* Vi kan for sikkerhets skyld gjennomfre egne diagnostiske uformelle


tester ved bruke de kvadrerte residualene som avhengig variabel for hver
av X-variablene:
Ingen av testene viser signifikant sammenheng mellom X og de kvadrerte
residualene p 0,05-niv (tosidig test). Vi dropper derfor dette temaet.
* Det er opprettet standardiserte DFBETA-verdier for konstantleddet og for
hver av de uavhengige variablene. De kalles henholdsvis: SDB0_1, SDB1_1 og
SDB2_1.
* DFBETA indikerer hvor mye hvert estimat vil forandres, dersom den enkelte
enhet blir tatt ut av analysen (Field 2013: 307f).
* Standardiserte DFBETA-verdier br ikke vre strre enn 2 eller mindre enn
-2 for sm utvalg, og ikke strre enn +/-2*N^0,5 for store utvalg
(Christophersen 2013: 79).
* Vi kan underske dette ved lage en beskrivende statistikk-analyse for
DFBETA-variablene.
*
*
*
*

Analyze > Descriptive Statistics > Descriptives


Flytt variablene SDB0_1, SDB1_1 og SDB2_1 over til feltet "Variables".
Klikk p "Options" og srg for at det er huket av for Maximum.
Klikk "Continue", "Paste" og utfr kommandoen i syntaks.
5) Vis hvordan du finner gjennomsnittet og standardavviket til sosial
status. Oppgi verdien p gjennomsnittet.
Analyze > Descriptive Statistics > Descriptives.
Flytt sosstat_sn over til feltet "Variable(s)".
Klikk evt. p "Options" og fjern avhukingen fra "Minimum" og
"Maximum". Klikk "Continue".* Klikk "Paste" og utfr kommandoen i
syntaks:

6) Vis hvordan du oppretter en variabel (sosstat_ms) for sentrert sosial


status.
Vi sentrerer sosstat gjennom trekke gjennomsnittet til sosstat fra
alle verdiene p sosstat.
Hele fordelingen til sosstat blir da parallellforskjvet nedover, slik at
gjennomsnittsverdien blir 0.
Vi forventer at gjennomsnittsverdien til sosstat_ms skal vre 0 og at
standardavviket skal vre like stort som det er for sosstat_sn, nemlig
1,48787.
7) Vis hvordan du kontrollerer at sentrert sosial status er opprettet
korrekt.
Vi begynner med en deskriptiv statistikk for den nyopprettede
variabelen, sosstat_ms.
Analyze > Descriptive Statistics > Descriptives.
Flytt sosstat_ms over til feltet "Variable(s)".
Klikk evt. p "Options" og fjern avhukingen fra "Minimum" og
"Maximum". Klikk "Continue".
Klikk "Paste" og utfr kommandoen i syntaks:
Gjennomsnittet til sosstat_sn er: 0.
Standardavviket til sosstat_sn er: 1,48787.
Funnene er som forventet.
* For vre helt sikre, kan vi lage en krysstabell:
Analyze > Descriptive Statistics > Crosstabs.
Flytt sosstat_ms over til feltet "Column(s)" og sosstat_sn over til
"Row(s)".
Paste
8) Vis hvordan du oppretter en variabel som samspill mellom sentrert
sosial status og utdanning.
En produktvariabel omtales ogs som en "samspillsvariabel".

17

* Samspill betyr at effekten av variabel A p B betinges av en tredje


variabel, C.
* For eksempel kan det vre at hy utdanning frer til hy tillit, men
at dette bare gjelder for enheter med hy sosial status.
* Vi danner en samspillsvariabel enkelt ved gange sammen verdiene til de
to uavhengige variablene som inngr i samspillsleddet.
* Transform > Computte Variable.
* Skriv utd_sos i feltet Target variable. Klikk Type & Label.
* Skriv Samspill mellom utdanning (dikotom) og sosial status (sentrert) i
feltet Label og trykk Continue.
* Skriv i feltet Numerical expression: utd_sos=utd2 * sosstat_ms.
* Klikk Paste og kjr kommandoen i syntaks.
Det er p sett og vis overfldig lage tre samspillsvariabler med dummyvariablene her. Det er to grunner til det:
* For det frste vil s_utd_d3Xsosstat_ms vre identisk med utd_sos -- fordi
verdi "1" p begge disse variablene str for "hyere utdanning".
* Nr disse enerne ganges sammen med like verdier (sosstat_ms brukes i
begge tilfelle som faktor), blir ogs produktet likt.
* Den andre grunnen er at man aldri skal bruke alle dummy-variablene
samtidig i en analyse, men at man skal holde en (referansekategorien)
utenfor analysen.
* Da skal heller ikke samspillsvariabelen som er laget sammen med
referansekategorien tas med i modellen.
* At s_utd_d3Xsosstat_ms og utd_sos er like, kan vises med en krysstabell:
9) Vis hvordan du gjennomfr en regresjonsanalyse med tillit som AV og
med sosial status, utd2 og samspill mellom sosial status og utd2 som
UV. Tolk koeffisienten til hhv. sosial status og
samspillskoeffisienten.
Analyze > Regression > Linear.* Fr over rtillit til feltet "Dependent" og
utd2, sosstat_ms og utd_sos til feltet Independent(s).
* Trykk "Continue", "Paste" og kjr kommandoen i syntaks.
R square = 0,088 innebrer at de uavhengige variablene forklarer 8,8 % av
variasjonen i rtillit.
* Konstantleddet viser forventet Y nr alle X-variablene er lik 0.
* Her betyr det: Gjennomsnittlig rtillit for personer med lav/middels
utdanning og middels sosial status.
* Merk at konstantleddet (2.241) n ikke svarer til personer med lav sosial
status, men til personer med gjennomsnittlig sosial status og lav eller
middels utdanning.
* (Grunnen er at vi har sentrert sosstat-variabelen, slik at verdien 0 n
befinner seg nr midten av skalaen).
* Den ustandardiserte regresjonskoeffisienten til sosstat_ms indikerer at
n skalaenhets kning i sosial status er assosiert med en kning i
gjennomsnittlig rtillit p 0,07 skalaenheter, for personer med lav/middels
utdanning.
* Samspillskoeffisienten kan tolkes som et fratrekk i denne effekten for
personer med hy utdanning. Personer med hy utdanning har derfor 0,070,011=0,059 kning i gjennomsnittlig tillit for hver skalaenhet sosial
status ker.
* Denne forskjellen i effekt av sosial status mellom lavt og hyt utdannede
er liten og statistisk insignifikant, noe som indikeres av p-verdien til
samspillseffekten (0,721).
* Insignifikante effekter kan skyldes (multi)kolinearitet, og dette er et
metodologisk problem som ofte oppstr i forbindelse med samspillsvariabler.
* Hensikten med sentrere utd2 fr samspillsvariabelen opprettes, er
unng for hy intern korrelasjon mellom de uavhengige variablene.

18

* Multikolinearitet br derfor ikke vre rsaken til dette resultatet. For


sjekke empirisk om multikolinearitet likevel kan vre rsaken til at
effekten av samspillsvariabelen er insignifikant, kan analysen gjennomfres
p nytt.
* Pass p klikke for Statistics og huke av for Collinearity
Diagnostics. Tabellen Coefficients vil da vise to kolonner lengst til
hyre med Tolerance og VIF-verdier.
For forst hva Tolerance og VIF str for, m vi tenke oss at det er
gjennomfrt flere analyser, der hver uavhengige variabel er brukt som
avhengig variabel for de andre uavhengige variablene etter tur.
* Tolerance-verdien indikerer hvor mye av variansen til hver enkelt
(u)avhengig variabel som ikke forklares av variansen til de andre
uavhengige variablene.
* Tolerance er alts definert som 1 - R2 (R square). VIF er definert som
1/Tolerance.
* Som en huskeregel gjelder det at Tolerance ikke br vre mindre enn 0,2,
og derav flger det at VIF ikke br vre strre enn 5 (Christophersen 2013:
77).
* Hvis ikke disse kravene er
oppfylt, foreligger det sterk kolinearitet.
* I dette tilfellet ser vi at VIF-verdiene er klart mindre enn 5. Dermed
kan vi utelukke at samspillsvariabelens mangel p signifikant effekt
skyldes kolinearitet.
* Den substansielle fortolkningen av samspillsvariabelen (ovenfor) styrkes
dermed.
1) Vis hvordan du oppretter datasettet religion5a.sav som kun omfatter
variablene idnr, utd2, rsosstat, polskala og rtillit der respondenter
med missing p minst en av variablene utd2, rsosstat, polskala og
rtillit er fjernet. Hvor mange respondenter omfatter datasettet
religion5a.sav?
Lag frekvensanalyse av variablene. Variabelen idnr har ingen missing.
* Variablene polskala og polskala0 har 47 missing.
* Vi vet dermed at det nye datasettet ikke kan best av mer enn maks 1025
enheter (1072-47=1025).
* Sannsynligvis vil datasettet best av enda frre enheter, fordi det er
lite trolig at enhetene med missing p de andre variablene er identiske med
de 47 enhetene som mangler verdi p polskala.
* Ingen av variablene har gyldige verdier som burde defineres som missing.
(Typiske kandidater ville vrt "vet ikke" og tallverdier langt utenfor den
ordinre skalaen, f.eks. -999).
* Variablene sosstat_sn og polskala0 er foretrekke framfor henholdsvis
rsosstat og polskala, fordi de har "0" som gyldig verdi. Dette vil gjre
konstantleddet i en pflgende regresjonsanalyse tolkbart.
* Vrt frste skritt blir identifisere enheter med missing p de nevnte
variablene.
* Vi kan lage en variabel som teller opp hvor mange missing enhetene har p
disse variablene.
* Vi begynner med opprette en variabel, am2, som viser hvor mange
missingverdier hver enhet har p de fire variablene til sammen.
* Transform > Compute Variable
* Skriv am2 i feltet Target variable. Klikk Type & Label og skriv
Antall missingverdier p utd2, sosstat, polskala0 og rtillit. Klikk
Continue.
* G til feltet Function Group. Marker Missing values. Marker NMISS i
feltet Functions and special values og fr denne funksjonen opp til
feltet Numeric expression ved klikke p den bl pilknappen.

19

* Fr n over de fire variablene til parentesen som vises bak NMISS, slik
at det str: NMISS(utd2, rtillit, sosstat_sn, polskala0). Trykk p
Paste og utfr kommandoen i syntaks.
Kjr frekvensanalyse av den nye variablen. Verdien "1" p am2 betyr at
vedkommende enhet har n missingverdi blant de opprinnelige fire
variablene.
* Verdi "2" betyr at man har to missing p de fire variablene, osv.
* Det er 974 enheter som har am2 = 0, og som dermed ikke har noen missing
p utd2, rtillit, sosstat_sn eller polskala0.
* N kan vi begynne utvelgelsen av enheter.
* Data > Select Cases
* Marker If condition is satisfied. Klikk p If. Fr am2 over til det
hvite feltet oppe til hyre og legg til <1, slik at det fullstendige
matematiske uttrykket blir If am2 < 1.
* Klikk p Continue. Huk av for Delete unselected cases. Klikk Paste
og utfr kommandoen i syntaks.
* Lag en ny frekvensanalyse med am2. Denne variabelen skal n kun ha
verdien "0", og det skal vre 974 enheter i datasettet.
* Analyze > Descriptive Statistics > Frequencies
* Fr over am2 til feltet "Variable(s)".
* Klikk p "Paste" og utfr kommandoen i syntaks:
* Vi ser at det kun er 974 enheter i datasettet, og alle har verdien "0" p
am2.
* Vi kan n begynne fjerne variabler fra datasettet.
* Enkelte variabler kan fjernes ved markere enkeltvariabler i Data View
eller Variable View og trykke p delete.
* Det blir imidlertid tungvint her.
* Klikk File > Save As
* Browse fram til mappen der du vil lagre datasettet. Skriv religion5a i
feltet File name.
* Klikk p knappen Variables. Klikk p Drop all. Huk s av for idnr,
rtillit, utd2, sosstat_sn og polskala0. Klikk Continue.
* Klikk Paste og utfr kommandoen i syntaks. Inspiser datasettet i Data
Editor og sjekk at de riktige variablene har blitt lagret.
* Du m trolig pne det nyopprettede datasettet fra hjemmeomrdet.
* File > Open Data
* Browse fram til mappen der du har lagret det reduserte datasettet. Skriv
religion5a i feltet File name.
* Klikk p "Paste" og pne datasettet fra syntaks:
Lag frekvenstabell for se antall enheter.
2) Vis hvordan du finner de bivariate korrelasjonene mellom tillit,

utdanning, sosial status og politisk orientering. Oppgi


korrelasjonen mellom utdanning og tillit.

Analyze > Correlate >Bivariate.


Fr rtillit, utd2, sosstat_sn og polskala0 over til feltet Variables. Vi
vet n at alle enhetene har gyldige verdier p samtlige variabler. Dermed
trenger vi ikke tenke p eksklusjon av enheter etter listwise-prinsippet.*
Vanligvis ville vi ha klikket p "Options" og huket av for "Exclude cases
listwise".
* Dette ville gjort at bare enheter som har gyldige verdier p samtlige
variabler i analysen, blir tatt med nr de bivariate korrelasjonene
beregnes.
* Sjekk at det er huket av for Pearson i feltet Correlation
Coefficient.

20

* Klikk Paste og kjr kommandoen i syntaks.


3) Vis hvordan du dekomponerer de bivariate korrelasjonene mellom

tillit, utdanning, sosial status og politisk orientering i direkte,


indirekte og spurise komponenter p grunnlag av flgende
stimodell.

Analyze > Regression > Linear


Fr over rtillit til feltet Dependent.
Fr over utd2 til feltet Independent(s) (Block 1 of 1) og klikk Next.
Fr over sosstat til feltet Independent(s) (Block 2 of 2) og klikk Next
Fr over polskala0 til feltet Independent(s) (Block 3 of 3).
Klikk Statistics og huk av for Part and partial correlations.
Klikk Continue, Paste og utfr kommandoen i syntaks.
Tabellen Coefficients viser n tre modeller. Modell 1 har bare utd2 som
forklaringsvariabel. Modell 2 har utd2 og sosstat. Modell 3 har alle de tre
forklaringsvariablene.
* Standardiserte regresjonskoeffisienter (direkte effekter) vises i
kolonnen Beta.
* Kolonnen Zero-order viser bivariate sammenhenger.
* Legg merke til at de bivariate korrelasjonene er de samme som dem vi fant
mellom variabelen rtillit og de andre variablene i korrelasjonsanalysen i
oppgave 3.
* En generell formel, som er god huske p nr vi skal regne ut indirekte
og spurise effekter, er flgende: BS = DE + IE + SE.
4) Oppgi totaleffekten av sosial status.
Den totale kausaleffekten av sosstat_sn framgr av Modell 2, der det er
kontrollert for den bakenforliggende (kausalt foranstilte) variabelen
utd2, men ikke for den mellomliggende variabelen polskala0.
Den totale kausaleffekten av sosstat_sn er derfor: Beta = 0,132
5) Hvor sterk er direkte effekt av utdanning?
De direkte effektene framgr av modell 3, der det kontrolleres for
samtlige uavhengige variabler.
Den direkte effekten av utdanning (utd2) er derfor: Beta = 0,214
6) Oppgi spuris effekt til politisk orientering?
Den direkte effekten av polskala0 = -0,180.* Det er ingen mellomliggende
variabel mellom polskala0 og rtillit. Den indirekte effekten av polskala0
er dermed = 0.
* Hele differansen mellom den bivariate sammenhengen og den direkte
effekten m derfor vre spuris effekt. (BS = DE + 0 + SE => SE = BS DE - 0).
* -0,190 - (-0,180) = -0,01.
7) Oppgi indirekte effekt av sosial status?
* For finne den indirekte effekten av sosstat_sn, m vi ta utgangspunkt i
den totale kausaleffekten av denne, og trekke fra den direkte effekten. *
Den totale kausaleffekten av sosstat_sn framgr av Modell 2, der det er
kontrollert for den bakenforliggende (kausalt foranstilte) variabelen utd2,
men ikke for den mellomliggende variabelen polskala0. * Vi fr derfor:
* IE(Sosstat-rtillit) = TKE(Sosstat-rtillit) - DE(Sosstat-rtillit): 0,132
0,151 = -0,019

21

22

You might also like