You are on page 1of 109

111111 8501111111111111111111111

01 94 5774 BE
I
l Innehall

Forord 7

00 Kopieringsforbud
1 Statistiska undersokningar - mru och medel 9
1.1 Hur ska populationen definieras? 13
1.2 Vilka uppgifter ska vi samla in - och hur? 14
Detta verk ar skyddat av lagen om upphovsratt.
Kopiering, utover liirares ratt att kopiera for 1.3 Variabler och skalor 18
undervisningsbruk enligt BONUS-Presskopias 1.4 Vilka individer ska inga i undersokningen? 21
avtal, ar fOrbjuden. SAdant avtal tecknas mellan 1.5 Med datoms hjalp 25
upphovsrattsorganisationer och huvudman for
utbildningsanorclnare t.ex. kommuner/universitet.
For information om avtalet hanvisas till
I bvningsuppgifter 27

2 Tabeller och diagram 29


utbildningsanordnarens huvudman eller
BONUS-Presskopia. j 2.1 Kategorivariabler 29
2.2 Kvantitativa variabler 36
2.3 Med datoms hjalp 40
Den som bryter mot lagen om upphovsratt kan
atalas av allman aklagare och domas till bater eller
I
.., Ovningsuppgifter 42
fangelse i upp till tva ar samt bli skyldig att erliigga
ersattning till upphovsman/rattsinnehavare.
3 Genomsnitt och spridning 44
3.1 Medianen och kvartilema 45
Denna trycksak ar miljoanpassad, bade nar det 3.2 Det aritmetiska medelvardet 47
galler papper och tryckprocess. 3.3 Standardavvikelsen 50
3.4 Normalfordelningsregeln 53
3.5 Ladagram 55
Art.nr 6809 3.6 Med datoms hjalp 57
ISBN 978-91-44-04420-0 Ovningsuppgifter 59
Upplaga 2:5
4 Regression och korrelation 63
Svante Korner, Lars Wahlgren och Studentlitteratur 1998, 2005
4.'l Minsta-kvadratmetoden. Bestarnning av regressionslinjen 70
www.studentlitteratur.se
Studentlitteratur AB, Lund
4.2 Spridningen kring regressionslinjen 74
4.3 Hur starkt ar sambandet? 76
Omslagslayout: Mikael Korner 4.4 Hur paverkas korrelationskoefficienten av extremvarden? 78
4.5 Ekologisk korrelation 79
Printed by Pozkal, Poland 2009 4.6 Med datoms hjalp 81
Ovningsuppgifter 83
3
Repetitionsuppgifter, kapitel 1-4 85 Ovningsuppgifter 186

5 Slumpmassiga urval 90 Summasymbolen L, 189


5.1 Variation och stabilitet 92
5.2 Normalfordelningen 96 Tabeller & Formler 191
Tabell 1 Normalfordelningen 192
6 Konfidensintervall 100 Tabell 2 Normalfordelningen, kritiska varden 193
6.1 Den statistiska felmarginalen 102 Tabell 3 t-fordelningen 194
6.2 Stickprovets storlek 103 Tabell 4 X2 -fordelningen 195
6.3 Konfidensintervall for medelvarden 105 Beskrivande statistik 196
6.4 Konfidensintervall vid jamforelser 109 Konfidensintervall 197
6.5 Med datoms hjalp 117 Hypotesprovning, testfunktioner 198
Ovningsuppgifter 119
Svar till vissa uppgifter 199
7 Hypotesprovning 122
7.1 a= Hur manga oskyldiga ska domas? 123 Sakregister 208
7.2 Skillnaden ligger inom felmarginalen 124
7.3 Signifikant = statistiskt sakerstallt 127
7.4 Maste signifikansnivan anges? 130
7 .5 Ensidigt eller tvasidigt? 132
7.6 Hypotesprovning av medelvarden 136
7. 7 Hypotesprovning vid jamforelser 139
7.8 Hypotesprovning ar svart! 146
7.9 Med datoms hjalp 148
Ovningsuppgifter 150

8 x -metoden
2
153
8.1 Analys av enkla frekvenstabeller 153
8.2 Analys av korstabeller 157
8.3* Fishers exakta test 161
8.4 Med datoms hjalp 165
Ovningsuppgifter 167

9 Multivariata metoder - en introduktion 169


9.1 Multipel regressionsanalys 170
9.2 Klusteranalys 175
9.3 Faktoranalys 182
9.4 Diskriminantanalys 183
9.5 Med datoms hjalp 184

4 5
Forord

I ett modemt samhalle finns ett start behov av statistik inom manga olika
omrMen, inte minst som underlag for plane ring och beslut:
Kommunen som ska besluta om bostadsbyggandet maste ha tillgang till
prognoser avseende folkmangdens framtida storlek och alders-
fordelning.
Foretaget som planerar att ta fram en ny produkt maste ha en
nagorlunda realistisk uppskattning av marknaden for produkten.
Forslikringsbolaget behaver uppgifter for att kunna gora riskbedom-
ningar och fastst:iilla premier for olika forsiikringar.
Postkontoret och snabbkopsaffaren maste ha underlag for att bedoma
hur manga kassor som ska vara oppna under rusningstid.
Banken behaver underlag for att bedoma hur stor kontantkassan ska
vara vid oppningsdags olika dagar.
Bokforlaget behaver underlag for att bedoma upplagans storlek vid
tryckning av en liirobok.
Den tekniske chefen pa en fabrik vill veta hur stor andel av de tillver-
kade produktema som inte gar att salja pa grund av produktionsfel.
Politikem behaver uppgifter om arbetslOsheten, prisnivans forand-
ringar, behovet av vardplatser, valdeltagandet och opinionen inom
valjarkaren.
Llikaren vill veta om en ny behandljngsmetod ger battre resultat an en
annan och hur stor risken for biverkningar lir med en viss medicin.
Lantbrukaren vill veta hur spridningen av godsel och mangden av olika
gOdningsamnen paverkar skordens storlek.
Aven du sjalv lir statistikkonsument, oavsett om du vill det eller inte.
Tidningar och TV formedlar dagligen statistiska uppgifter, vars tillfor-
litlighet ibland kan ifragasattas. For varje tidningsliisare eller TV-tittare
horde det darfor vara angelaget att ha vissa statistiska baskunskaper.
Den hiir boken handlar om statistiska metoder. Det lir sadana metoder man
anvander for att pa ett fornuftigt satt sarnla in, redovisa, tolka och kritiskt
granska statistiska data eller uppgifter. I kapitel 1-4 ligger tyngdpunkten

7
pa statistisk beskrivning och kritisk granskning av statistisk. Kapitel 5 ger
en kortfattad introduktion till de sannolikhetsteoretiska grunderna for 1 Statistiska undersokningar
statistisk slutledning. Kapitel 6-8 presenterar nagra vanliga statistiska
metoder for analys av urvalsundersokningar. Kapitel 9 ger en introduktion
till multivariata metoder.
mal och medel
Boken innehaller flera exempel pa utskrifter fran de bada statistik-
prograrnmen SPSS och Minitab. De diagram som presenteras i boken ar
konstruerade antingen med nagot av dessa bada program eller med Excel.
Boken inneMller ett start antal lOsta exempel och till varje kapitel finns Man kan klassificera en statistisk undersokning efter det mal - syfte - man
ovningsuppgifter med svar. Vi tror darfor att boken ocksa kan anvandas har med undersokningen. Da skiljer man mellan beskrivande under-
vid sjalvstudier av den som vill skaffa sig grundlaggande kunskaper i sokningar och analytiska undersokningar. Man kan ocksa klassificera en
statistik. undersokning efter de medel - metoder - man anvander vid datainsam-
Aven sol en har sina flackar och vi har med den har boken inte haft nagon lingen. Da gar en viktig skiljelinje mellan experimentella undersokningar
ambition att overglansa solen. Men om du, kare lasare, hittar nagot fel eller och icke-experimentella undersokningar.
om det ar nagot du undrar over sa hOr garna av dig till oss ! Alla statistiska undersokningar innehfiller ett beskrivande moment. En
folkriikning ger information om befolkningens storlek och fordelning efter
filder, kon och civilstand vid en viss tidpunkt. En partisyinpatiunder-
sokning visar hur manga eller hur stor andel av valjarkaren som
De djupa skogarna sympatiserar med ett visst parti.

Midsommarafton 2005 Genom statistisk kvalitetskontroll pa en fabrik avslOjas hur star andel av de
tillverkade enheterna som inte uppfyller de krav koparen stiller. En hiilso-
och arbetsmiljoundersokning pa en arbetsplats kartlagger hur manga som
Svante Korner Lars Wahlgren lider av belastningsbesvar, hur Zange besvaren har varat och omfattningen
av terminalarbete.
Svante.Komer@stat.lu.se Lars.Wahlgren@stat.lu.se
En analytisk undersokning innehaller ofta nagon form av hypotesprovning.
http://www.studentlitteratur. se/6809
Syftet kan vara att fa svar pa fragor av foljande slag: Har andelen
moderater i valjarkaren okat under den senaste manaden? Ar andelen
defekta enheter i en viss tillverkningsprocess signifikant - eller statistiskt
pavisbart - lagre an tva procent?
Att kartliigga och forklara samband ar ett vanligt syfte med en analytisk
undersokning. Orsak och verkan ar naturliga begrepp vid denna typ av
undersokningar. Hur paverkades forsaljningen av den genomforda annons-
kampanjen? Vilka ar orsakerna till att valdsbrotten okar? Hur kan man pa
ett start foretag beskriva sambandet mellan de anstalldas !Oner och faktorer
som alder, utbildning, anstallningstid och kon? Detta ar exempel pa frage-
stallningar som man analyserar med multivariata statistiska metoder.

8 9
Skillnaden mellan experimentella och icke-experimentella undersokningar kontrollgrupp, om man sak:ert ska kunna saga vad som verkligen ar
framgar av foljande exempel. Anta att vi vill studera sambandet mellan medicinens effekt.
bromsstrackans langd och den hastighet en bil haller. Da genomfor vi ett Kan foreningsarbete minska ateifallsrisken for ungdomsbrottslingar som
experiment, som innebar att vi mater hur lang bromsstrackan blir vid ett fatt villkorliga domar? For att besvara denna fraga gjorde man en kvasi-
antalforsok med olika hastigheter pa bilen. Naturligtvis ar det viktigt att vi experimentell undersokning med foljande upplaggning.
har samma underlag hela tiden.
Sju manliga ungdomsbrottslingar som fatt villkorliga domar erbjOds sex
En experimentell undersokning av detta slag har foljande kannetecken: manaders arbete i en idrottsforening ett antal tirnmar per vecka. Lonen
Forsoket kan upprepas onskat antal ganger. Detta innebar att vi kan betaldes av projektmedel. En jamforelsegrupp omfattande atta ungdoms-
gora sa manga observationer vi vill och darmed fa sa manga matvarden brottslingar med motsvarande bakgrund studerades ocksa. Efter ett ar sag
som behOvs. man hur manga som hade fatt aterfall, dvs. iikt fast igen.
Forsoksbetingelserna kan kontrolleras. Detta innebar att dessa kan
Foreningsarbete Ej fOreningsarbete
hfillas oforandrade (samma underlag i alla forsok) eller andras som vi Experimentgrupp Jiimforelsegrupp Summa
sjalva onskar (bilens hastighet kan varieras).
Aterran 2 7 9
Att gora experimentella undersokningar med bilar ar ingen storre konst. Ej aterfall 5 6
Men har man med manniskor att gora maste man vara lite mer finurlig. Summa 7 8 15
Anta att ett nytt lak:emedel sags Jindra symtomen vid forkylning. 60
personer har anmalt att de vill delta i ett experiment som syftar till att
Har tycker vi oss seen tydlig tendens. I experimentgruppen ar det bara tva
utvardera denna undermedicin. Genom ett slumpforfarande kallat
av sju som hade aterfallit mot sju av atta i jarnforelsegruppen. I kapitel 8
randomisering delas personema in i tva ungefar lika stora grupper, en
aterkornmer vi till detta exempel och visar hur en statistisk analys kan
experimentgrupp och en kontrollgrupp. Deltagama informeras om hur
goras.
forsoket ar upplagt men inte vilken grupp man har hamnat i. Man kallar
detta for ett blindforsok. Om ocksa den person som registrerar matvardena En viktig skillnad mellan en experimentell undersokning och en kvasi-
ar ovetande om vilken grupp olika patienter tillhOr sager man att forsoket experimentell undersokning ar alltsa hur man far fram den grupp man
har en dubbelblind-design. Experimentgruppens deltagare far det nya jamfor sina resultat med. Nar man gor en experimentell undersokning till
lakemedlet medan personerna i kontrollgruppen far placebo, som ar en exempel for att utprova ett nytt lakemedel litar man helt pa slumpen. Man
verkningslOs substans men ser ut pa exakt samrna satt som det riktiga har en kontrollgrupp som har bildats genom randornisering. I en kvasi-
lakemedlet. experimentell undersokning forsoker man daremot astadkornma en
jamforelsegrupp dar individema forhoppningsvis liknar individerna i
Tankama bakom denna forsoksupplaggning ar ganska enkla. Genom
experimentgruppen.
randorniseringen forsoker man astadkornma tva jamforbara grupper - man
litar helt enkelt pa att slumpen ordnar detta. Dessutom kontrollerar man tva
valkanda fenomen. Manga sjukdomar spontanlaker, inte rninst banala
forkylningar. Inom nagra fa dagar kanner de fiesta sig battre aven utan
nagon som heist form av medicinering eller behandling. I medicinska
sarnmanhang ar det .ocksa ett valkant faktum att manga patienter upplever
forbattringar nar de tror sig vara behandlade. Man kallar detta for placebo-
effekt. Det ar alltsa inte tillrackligt att enbart studera resultaten i en
experimentgrupp. Man rnaste ocksa ha en grupp att jamfora med, en
11
10
I samhallsvetenskapliga undersokningar har vi sallan mojlighet att genom-
fora experiment. Det beror pa att vi inte kan kontrollera eller manipulera
1.1 Hur ska populationen definieras?
de faktorer som vi betraktar som orsaken. I en icke-experimentell under- Varje statistisk undersokning syftar till att ge kunskaper om en population.
sokning maste vi istallet noja oss med att konstatera vad som intrliffat och i Populationen bestar av en mangd individer.
efterhand forsoka kartlagga orsakema. V arfor drabbas vissa personer av
IKEAs kunder i Sverige under 2005, aktenskap som ingicks i Sverige
hjartinfarkt medan andra skonas fran detta? Vilka skillnader mellan dessa
under forsta halvaret 2005 och motorfordon registrerade den 30 juli 2005
bada grupper kan det finnas vad galler stress, motions- och kostvanor, rok-
ar exempel pa iindliga populationer. lndividema i dessa populationer ar
och alkoholvanor? I vilken utstrackning kan lOneskillnadema pa ett foretag
manniskor, aktenskap och motorfordon.
forklaras av faktorer som utbildning, anstallningstid och kon?
I experimentella undersokningar ar populationen ofta en oandlig mangd av
Nastan dagligen kan vi lasa om nya statistiska undersokningar i
mojliga observationer. Om vi undersoker forekomsten av kolibakterier i en
dagspressen. Rubrikema ar ofta stora och i fetstil aven om innehallet inte
sjo kan vi i praktiken fylla ett obegransat antal provror med vatten fran
alltid ar sa sensationellt. Detta ar ett utdrag fran en artikel i Sydsvenskan:
sjon. Innehfillet i varje sadant provror ar da en individ eller observation
fran den oiindliga population vi vill undersoka.
Det ar vanligt att man definierar en population med hjalp av ett register
Tittarsiffrorna luras eller en ram over de individer som populationen bestar av. Da ar det
viktigt att det inte finns alltfor stora skillnader mellan ramen och den
Osakerheten storre an man trott population man egentligen vill undersoka, malpopulationen. Om ramen
innehaller individer som inte tillhor populationen talar man om over-
Tittarsiffrorna bar blivit ett viktigt Stor osakerhet
redskap i reklamkanalernas kamp Hittills har man sagt att <let inte gar att tiickning. Motsatsen - undertiickning - innebar att vissa individer inte
om tittare och annonsorer. Men nu ta reda pa hur stor osak:erheten ar i de komrnit med i ramen trots att de tillhor populationen.
visar en uppsats av L-J Blom och J siffrorna men vi har genom att
Holmstedt vid Statistiska institutio- Om ramen inte tacker populationen kan detta ge upphov till systematiska
simulera tittannatningarna i datorn
nen vid Lunds universitet att kommit fram till att osak:erheten ar tiickningsfel i undersokningen. bvertackning ar lattast att bemastra. Nar
siffrorna inte ar sa tillforlitliga som stor, forklarar Holmstedt. man upptacker individer som inte ska vara med sorteras de helt enkelt bort.
man hittills bar trott. Framfor allt ar det i tv-program med Undertackning ar daremot svarare att komma till ratta med.
laga tittarsiffror som osak:erheten ar
Tittarsiffror i Sverige mats av !bland gar det inte att fa fram ett register som gor skal for benamningen
stor. UWver statistiska avvikelser
foretaget Mediematning i Skandi-
paverkar liven andra faktorer osak:er- ram. Anta att vi vill undersoka den ekonorniska brottsligheten i Sverige.
navien (MMS) som ags av de stora tv-
heten - tv-tittande i sommarstugor, pa Da maste vi begransa oss till att studera den registrerade brottsligheten,
bolagen samt foretradare for reklam-
arbetsplatser eller pa pubar. dvs. personer som har domts for olika typer av ekonomiska brott. Vi maste
branschen. Med hjli.lp av en apparat, sk
Bade tv-kanaler och annonsorer tycks
People meter, som placeras i ett antal alltsa utga fran en registrerad population, och den skiljer sig sakert
underskatta hur mycket de skattade
statistiskt utvalda hushfill, mater man avsevart fran malpopulationen. Detta leder till att vi gar rniste om vardefull
tittarsiffrorna kan avvika fran de sanna
tittandet dygnet runt. Siffrorna utgor information. Man talar i detta sammanhang om morkertal. Speciellt nar
vardena.
sedan bland annat grunden for hur
mycket det ska kosta att annonsera i man studerar kansliga foreteelser (incest eller forekomsten av sexuella
tv-kanaler. trakasserier pa en arbetsplats) kan man forutsatta att morkertalen ar stora.

13
12
Anta att vi ska gora en arbetsmiljoundersokning pa ett foretag. Da kan vi
1.2 Vilka uppgifter ska vi samla in- och sakert ta in tillrackligt tillforlitliga uppgifter om alder, civilstand, langd,
bur? vikt, blodtryck och sanka for de anstallda. Men kanske ar vi ocksa
intresserade av att klassificera personerna efter arbetsuppgifternas art. Pa
I god tid innan det praktiska insamlingsarbetet barjar bar man gora klart vissa arbetsplatser med en tydlig organisation kan detta vara enkelt att
for sig vilken information man vill ha och hur denna information ska gora, men pa andra arbetsplatser kan risken vara stor att klassificeringen
bearbetas, redovisas och inte minst anvandas. Huvudregeln ar att man ska inte gors pa ett satt som star i overensstammelse med undersokningens
begriinsa sig till att samla in de uppgifter som ar relevanta for syftet med syfte. Vi far ett klassifikationsfel.
undersokningen. For miinga fragor sanker kvaliteten pa de uppgifter vi far
in genom att fragorna besvaras slarvigare. I miinga undersokningar arbetar man med begrepp, vars innebord ar
liingtifriin kristallklar och som dessutom kan ha olika betydelser for olika
For manga fragor medfor ocksa att vissa individer enbart besvarar en del manniskor. Livskvalitet i samband med olika sjukdomar ar exempel pa ett
av fragorna eller helt later bli att delta i undersokningen. Man far ett svars- sadant begrepp. Da ar det vanligt att man anvander sig av opera-
bortfall. Ar detta bortfall start kan resultaten av undersokningen bli mindre tionalisering. Detta innebar att man forsoker oversatta eller opera-
tillforlitliga. tionalisera det abstrakta och kanske omatbara begreppet till nagot konkret
Nar en individ inte alls svarar kallar man detta for individbortfall eller och matbart. Med ett antal matvarden forsoker man alltsa fiinga in det som
externt bortfall. Nar svaren ar utelarnnade pa endast vissa fragor talar man man anser vara centralt for det begrepp man anvander.
om partiellt bortfall eller internt bortfall. Vill man till exempel mata stress staller man fragor som har att gora med
sa kallat A-beteende, over- och understimulering, sjalvuppfattning, livsstil
och halsovanor, den privata situationen och forandringar i privat- och
Att tiinka pa niir man formulerar fragor:
arbetslivet. Givetvis staller man ocksa fragor om symtom: huvudvark,
Begransa antalet fragor! hjartklappning, somnsvangheter, etc.
Anvand korta meningar och ett enkelt sprfilc! Alla maste kunna Vid operationalisering finns det alltid en risk att man mater nagot darfor att
forsta fragorna. det gar att mata fast det i sjalva verket ar nagot annat an det man vill mata.
Forklara facktermer! Aven bland yrkesfolk kan ett visst ord Det ar darfor nodvandigt att stalla sig fragan om matvardena verkligen
eller uttryck ha olika innebord. galler det begrepp vi avser att undersoka. Har man anledning att ifragasatta
giltigheten eller validiteten kan man ifragasatta hela undersokningen.
Undvik prestigeladdade fragor! Validiteten ar alltsa ett matt pa overensstammelse mellan vad ett
Undvik ledande fragor! matinstrument - till exempel ett frageformular - avser att mata och vad det
faktiskt mater.
Fraga om en sak i sander! En komplicerad fraga kan ibland
ersattas av tva enklare. Det ar viktigt att matningen sker med noggrannhet sa att det slumpmassiga
felet i matvardet inte blir stOrre an nOdvandigt. Upprepade miitningar av
samma variabel for en viss individ bar ge ungefar samma resultat. Vi
I varje statistisk undersokning vill man uppskatta det numeriska vardet hos Staller alltsa krav pa tillforlitlighet eller reliabilitet hos Vara matvarden.
en eller flera storheter: marknaden for en ny produkt, forekomsten av
sexuella trakasserier pa en arbetsplats, arbetslOsheten eller prisnivans
forandringar. Nar man ska gora en sadan skattning maste man forst gora
klart for sig vad man ska skatta. Man har alltsa ett definitionsproblem.
15
14
lndividema i undersakningen kan man na pa olika satt. Valet av insam- kanske anda svart for att ge ett korrekt svar. Tiden gar sa fort och det
lingsmetod bestams i stor utstrackning av vilken typ av information man mesta ar ju redan slut! Kanske tror han darfor att den senaste resan gjordes
anskar, bur manga och hur svara fragor man ska stalla, bur manga indi- for fem veckor sen fast det i sjalva verket bara var tre. Nar man som Lasse
vider som ska tillfragas och givetvis ocksa av undersakningens budget. i detta exempel placerar en handelse felaktigt i tiden talar man om
teleskopeffekt. Har ar det en teleskopeffekt bakat men aven teleskopeffekt
Postenkat ar ett billigt satt att na manga personer, som i lugn och ro kan
framat ar ett valkant fenomen.
besvara ett forballandevis stort antal fragor i ett frageformular utan att
paverkas av nagon intervjuare. Vid postenkat ar det sarskilt viktigt att Manga undersakningar gars med hjalp av utbildade intervjuare, som
texten ar formulerad pa ett lattfattligt satt, sa att fragoma ar enkla att genomfor intervjuer per telefon eller genom personliga besok. Risken att
besvara och inte kan missuppfattas. fragor missuppfattas ar mindre an vid postenkater, eftersom intervjuaren
har majlighet att fortydliga fragoma. Istallet finns det en risk att
Ofta anvander man slutna svarsalternativ. Det innebar att de som ska
intervjuaren genom sitt upptradande mer eller mindre omedvetet kan styra
besvara enkaten bara behaver kryssa for ett av fl.era givna svarsaltemativ
svaren i en eller annan riktning. Nar den intervjuade paverkas av
for varje fraga. Da blir svaren latta att bearbeta. Samtidigt finns det en risk
undersakningssituationen och ger det svar han eller hon tror intervjuaren
att svarsaltemativen inte tacker alla majligheter och att svaren blir
forvantar sig talar man om intervjuareffekt. Undersaker man
ogenomtankta. Ofta bar man darfor ha med svarsaltemativet "Ovrigt,
specificera _ _" diskriminering av invandrare pa arbetsmarknaden far man formodligen
inte samma resultat nar man later en infodd svensk intervjuare stalla
Vid oppna svarsalternativ far personema sjalva formulera sina svar. Det fragoma som nar intervjuaren ar av utlandsk harkomst.
innebar att kvalitativa aspekter kan komma fram battre men samtidigt den
Intervjuareffekten kan vara sarskilt tydlig vid prestigeladdade amnen. Man
olagenheten att svaren maste kodas innan de kan bearbetas med dator och
talar om prestigebias. Staller man fragor av typen Hur ofta laser du
sammanstallas.
ledarsidan i din tidning? visar ofta svaren - nagot overraskande - att just
Strangt taget vet man aldrig med sakerhet vem som bar besvarat fragoma i ledarsidan ar tidningens popularaste. Men pa foljdfragan Vad handlade
en postenkat. Det kan vara den utvalde personen men ocksa nagon i bans dagens ledare om? blir bortfallet - lika averraskande - ofta ganska stort ...
omgivning. Risken for svarsbortfall ar ocksa stormed denna metod. Detta
galler speciellt om fragorna upplevs som kansliga eller integritets-
krankande. Da kan man forutsatta att manga inte besvarar enkaten eller
fyller i frageblanketten slarvigt, felaktigt och ofullstandigt. Hur manga ger
till exempel arliga svar pa nargangna fragor om alkoholvanor, brottslighet
och sexualitet? Fragor av den typen kan ge stora systematiska fel - som
med ett engelskt ord ocksa kallas bias - i undersakningsresultaten och ar
darfor inte lampliga att stalla i en postenkat.
Det finns alltsa manga forklaringar till att en fraga kan bli felaktigt
besvarad. Missuppfattningar nar fragan ar oklart formulerad och rena
10gner nar fragan inbjuder till detta ar tva vanliga orsaker. Men aven den
som vill vara arlig och uppriktig kan ge felaktiga svar oavsiktligt darfor att
man belt enkelt minns fel.
"Har du varit utomlands under de senaste fyra veckorna?" Den fragan
tycker nog manga ar enkel att besvara med ja eller nej. Men Lasse, som
bor i Dalby utanfor Lund och ofta gar inkopsresor till Danmark, bar
17
16
konkurser under andra kvartalet 2005 - far vi en diskret kvantitativ
1.3 Variabler och skalor variabel.
Nar vi tar reda pa att en person ar man, 63 ar, gift och 178 centimeter lang,
Alder, kroppslangd och vikt ar kontinuerliga kvantitativa variabler. De kan
vager 85 kilogram och har tre barnbarn, sager vi att vi mii.ter variablema
anta alla varden inom ett intervall, dvs. teoretiskt sett oandligt manga
kon, alder, civilstand, kroppslangd, kroppsvikt och antal barnbarn.
varden. Matvarden pa kontinuerliga variabler maste i praktiken alltid
Man brukar skilja mellan kvantitativa (numeriska) variabler och avrundas. Om vikten ska redovisas i hela kilogram anger vi narmevardet
kategorivariabler (icke-numeriska eller kvalitativa variabler). For kvanti- 79 kg for en person som vager mellan 78,5 och 79,5 kg. Om vagen pekar
tativa variabler skiljer man mellan diskreta variabler och kontinuerliga pa exakt 78,5 eller exakt 79,5 kg avrundar vi uppat, dvs. anger
variabler. narmevardena 79 kg respektive 80 kg.
Matvarden for kvantitativa variabler avrundas alltid - med ett enda
VARIABEL undantag - pa detta satt. Undantaget ar variabeln alder som alltid avrun-
das nedat till hela k En person, vars alder anges till 51 ar, har alltsa fyllt
51 ar men inte 52 ar, dvs. 51 ar ar man fran den dag man fyller 51 ar till
den dag man fyller 52 ar. Detta stammer val med normalt sprakbruk.
Aven vid matning av kvantitativa variabler forekommer skalor. Skalan
Kategori- Kvantitativ
eller den dataniva vi har avgor vilka berakningar som ar mojliga att
variabel variabel
genomfora med matvardena. Tre skalor forekommer: ordinalsk.ala (eller
ordningsskala), intervallskala och kvotskala.
Diskret Kontinuerlig Anta att vi vill mata kroppslangden for tva ungdomar, Erika och Isabella.
variabel variabel Den enklaste matningen innebar att vi konstaterar att Erika ar Zangre an
Isabella. Vi kan ocksa saga att Isabella ar kortare an Erika, vilket ger
samma information. Matningen 1nnebar att vi gar en rangordning av
Figur I.I Variabelbegreppet individema. Den ena individen far ordningstalet 1, den andra individen
ordningstalet 2. Beroende pa fran vilket hfill man gor rangordningen blir
Kon och civilstand ar kategorivariabler. Kon kan bara anta tva olika antingen Erika eller Isabella nummer 1.
varden (man/kvinna) och sags ocksa vara en altemativ, dikotom eller binar
variabel. Nar vi mater en kategorivariabel sager vi att vi har en nomi- Nar man mater en variabel genom att rangordna individer sager man att
nalskala. Detta sprakbruk gar kanske ett egendornligt intryck. Nagon skala man anvander en ordinalskala. Typiskt for denna skala ar att man kan
i den betydelsen att vi bedomer storleken eller gar en storleksjamforelse ar avgora om det ena variabelvardet ar starre (langre, tyngre, battre, etc.) eller
det inte. Matningen innebar enbart att vi anger de olika individemas klass- rnindre (kortare, Iattare, samre) an det andra. Daremot kan man inte saga
eller kategoritillhOrighet efter den egenskap eller variabel vi studerar. I en nagot om skillnaden mellan olika matvarden. Matvardenas summa eller
partisympatiundersokning klassar vi till exempel individema som socialde- differens och inte heller kvoten mellan tva matvarden ger nagon
mokrater, moderater, folkpartister, etc. meningsfull information. Vi kan alltsa inte anvanda de fyra raknesatten -
addition, subtraktion, multiplikation och division - vid denna typ av
Alder i ar, kroppslangd i cm och antal barn ar kvantitativa variabler. matvarden. Detta ar en viktig slutsats.
Antalet barn kan anges exakt och ar en diskret kvantitativ variabel. En
sadan variabel kan bara anta vissa varden, oftast heltalsvarden. V arje gang I en tidning anvander man 0 till 5 stjamor nar man betygsatter filmer.
vi raknar antalet av nagot - franvarodagar pa en arbetsplats eller Matningen innebar alltsa att varje film fors till en av sex mojliga ordnade

19
kategorier. Exemplet visar att gransen mellan kategorivariabler och ordnade grupper, det vill saga ordinalskala. I det tredje fallet far man som
kvantitativa variabler inte alltid ar sa knivskarp. svar ett exakt numeriskt varde och har ar det en kvotskala.
Nu atervander vi till vara ungdomar och far veta att Erika ar atta Lasaren kan dessutom sjalv fundera over vilken kvalitet man far pa svaren
centimeter Iangre an Isabella. Detta ar mer information an tidigare och vara pa de har fragorna. Har finns det ju goda mojligheter till bade prestigebias
matvarden ligger nu pa en hOgre dataniva. Vi har en intervallskala, vilket och teleskopeffekter. For att inte tala om sjalva karnfriigan: Vad menas
innebar att vi kan ange skillnaden mellan olika matvarden . Det innebar egentligen med teater?
ocksa att det ar mojligt att bade addera och subtrahera matvardena.
De iakttagelser vi gjort vad galler olika skalor sammanfattar vi nu i en
Temperatur matt i Celsiusgrader ar exempel pa en intervallskala. Pa ett tabla:
meningsfullt satt kan vi ange skillnaden mellan tva matvarden: "Idag ar det
nog fem grader varmare an igk" Daremot ar det inte meningsfullt att Individema Individema Skillnader/ Kvoter
berakna kvoten mellan tva matvarden. "Igar var det 22 grader, idag ar det kan delas in kan summorkan kan
44, alltsa dubbelt sa varmt." Pastaendet ar meningslost eftersom Celsius- Dataniva i grupper rangordnas beriiknas beraknas
skalan - som alla intervallskalor - saknar en absolut nollpunkt. Nominal Ja Nej Nej Nej
Slutligen far vi veta hela sanningen om Erika och Isabella: Erika ar 168 Ordinal Ja Ja Nej Nej
Intervall Ja Ja Ja Nej
centimeter liing, Isabella 160. Vi visste redan att Erika ar atta centimeter
Kvot Ja Ja Ja Ja
Iangre an Isabella. Nu kan vi ocksa bilda kvoten 168/160 = 1,05 eller
8/160 = 0,05, vilket innebar att Erika ar fem procent Iangre an Isabella.
Kroppslangd i centimeter ar liksom vikt i kilogram och iilder i ar exempel Nar man arbetar med kvantitativa uppgifter ar det lampligt att forst
pa en kvotskala. I motsats till intervallskalan har denna skala en absolut faststalla vilken niva matvardena ligger pa. Det resultat man kommer fram
nollpunkt. Det innebar att rakneoperationer med samtliga fyra raknesatt ar till blir avgorande for hur den fortsatta bearbetningen ska ske. Det ar
tillatna och meningsfulla. meningslost att anvanda metoder, for vilka grundforutsattningama inte ar
uppfyllda. Man kan naturligtvis aldrig genom ett mekaniskt raknande
Lagg marke till att det ar sattet att ma.ta variabeln och inte variabeln i sig vaska fram mer information ur ett datamaterial an det faktiskt innehiiller.
som bestammer datanivan. Variabler som kroppsvikt, Iangd och iilder kan
alltsa matas med olika skalor. Har ar tre olika satt att fraga efter personers
teatervanor:

i) Gick du pa teater nagon gang under forra aret? 1.4 Vilka individer ska inga i
D Nej D Ja undersokningen?
ii) Hur manga ganger gick du pa teater forra aret? Nar populationen ar liten ar det ofta praktiskt att studera samtliga indi-
vider. Man gor alltsa en totalundersokning. Ocksa for mycket stora popu-
D Ingen D 1-2 ganger D 3 eller fler
lationer genornfor man ibland totalundersokningar. Folk- och bostads-
rakningarna som gjordes vart femte ar i Sverige mellan 1960 och 1990 ar
iii) Hur manga ganger gick du pa teater forra aret? _ _ ganger
exempel pa detta.
Den forsta fragans svar ar enbart en indelning i tva kategorier och detta
I experimentella undersokningar, dar populationen kan definieras som en
innebar norninalskala. Den andra fragans svarsalternativ innebar tre
oandlig mangd av mojliga observationer, ar det inte mojligt att gora nagon
totalundersokning. Vi kan inte undersoka allt vatten i en sjo. Istallet far vi
21
naja oss med ett stickprov. Det bestar av vattenprover, som vi tagit i olika Man kan nagot forenklat saga att urvalet eller stickprovet vid enkelt
delar av sjan. slumpmassigt urval blir en mer eller mindre god kopia i miniatyr av popu-
Vid statistisk kvalitetskontroll av produkterna i en tillverkningsprocess lationen. Hur pass bra eller dfilig denna kopia blir beror pa slumpen, som
arbetar man oftast med stickprov. Vid forstorande provtagning - till avgar vilka individer som kommer med i urvalet. Olika typer av
exempel da man vid kvalitetskontroll pa en livsmedelsindustri appnar systematiskafel (bias) kan ocksa paverka resultatet.
konservburkarna eller frysforpackningarna - gar man klokt i att begransa Om det inte finns nagra systematiska fel i var undersakning beror de
undersakningen till en del av populationen. skillnader som finn~ mellan stickprovet och populationen pa slumpen.
!bland ar det alltsa nOdvandigt att gara nagon form av urval. Sa fort popu- Anta att andelen hushfill som anvander ett visst tvattmedel ar 34 procent i
lationen omfattar manga individer ar i allmanhet detta ocksa det enda var stickprovsbaserade marknadsundersakning fast samma andel i popula-
rationella alternativet. tionen ar 32 procent. Denna skillnad kallas slumpfelet eller urvalsfelet, och
i just denna undersokning ar detta fel 34 - 32 = 2 procentenheter.
En urvalsundersakning blir billigare an en totalundersakning. Den kan
ocksa utforas snabbare, vilket innebar att resultaten kan publiceras innan I praktiken kan vi aldrig rakna ut urvalsfelet exakt eftersom denna
de hunnit bli inaktuella. Detta ar givetvis en viktig aspekt, speciellt om berakning forutsatter att vi kanner vardet pa det vi vill uppskatta. Men
man vill spegla tillfalliga opinioner, till exempel genom en partisympati- statistiker har utvecklat metoder som gar det majligt att bestarnma den
unde rsokning. statistiska felmarginalen enbart med utgangspunkt fran den kunskap ett
enda stickprov ger. I 95 av 100 urval ar det verkliga urvalsfelet mindre an
En totalundersokning innebar lite information fran manga, en urvalsunder-
den statistiska felmarginalen. Farutsattningen ar att stickprovet har
sakning mycket information fran farre. I en totalundersakning maste man i erhfillits genorn sannolikhetsurval.
allmanhet noja sig med en enkel postenkii.t. I en urvalsundersakning med
fa deltagande personer ar det kanske ekonomiskt och praktiskt majligt att Nu ska vi ta dad pa en vanlig missuppfattning ! Det ar fel att tro att man
anvanda sig av speciellt tranad personal for att genomfora kvalificerade maste undersaka en viss andel av individerna i populationen. Den
intervjuer. Darfor kan man fa bade storre omfattning och djup i en statistiska felmarginalen beror framfar allt pa urvalets absoluta storlek,
urvalsundersakning an i en totalundersakning. Tillforlitligheten i de insam- dvs. antalet individer i urvalet. Om stickprovet omfattar en mindre andel
lade uppgifterna kan ocksa bli starre. an tio procent av populationen ar det i stort sett likgiltigt bur stor
populationen ar. Detta pastaende kan verka paradoxalt men kan visas strikt
Vid urvalsundersakningar bar man arbeta med sannolikhetsurval. Varje matematiskt. En partisympatiundersakning i USA kraver alltsa i princip
individ i populationen har da en sannolikhet, som ar starre an noll, att
inte stOrre urval an liknande undersakning av den svenska valjarkaren.
komma med i urvalet. Sannolikheten behaver inte vara lika for alla Men givetvis kan den amerikanska undersakningen bli betydligt tyngre att
individer, men den ska vara kand. Da kan man for olika skattningar adrninistrera.
berakna den statistiska felmarginalen.
Majligheten att berakna den statistiska felmarginalen ar den Stora fordelen
Sannolikhetsurval kan garas pa olika satt beroende pa den kunskap man med sannolikhetsurval och forklaringen till att man med sadana urval kan
har om populationen. Har ska vi kortfattat beskriva fyra tekniker: enkelt dra relativt sakra slutsatser om den population sorn urvalet kommer fran.
slumpmassigt urval, systematiskt urval, stratifierat urval och flerstegsurval. Man talar da om statistisk slutledning eller statistisk inferens.
Vid enkelt slumpmii.ssigt urval, som ibland ocksa kallas obundet slump-
Systematiska urval kan anvandas nar samtliga individer i populationen ar
mii.ssigt urval (OSU), ger man alla individer i populationen samma
numrerade, 1, 2, 3, etc. Om individerna ar slumpmassigt numrerade ar
sannolikhet att komma med. Man gar alltsa urvalet i princip pa samma satt
systernatiskt urval ett praktiskt satt att genomfara ett enkelt slumpmassigt
som man drar vinstlotter i ett lotteri. I begreppet obundet ligger just att urval. Anta att stickprovet ska omfatta tio procent av populationen. Da
man inte forsaker styra urvalet i en viss riktning. valjer man forst en av individerna med nummer 1- 10 slumpmassigt. Nar
22 23
denna individ ar vald, sag att det blev individ nr 4, later man darefter 1.5 Med datorns hjalp
individerna med nummer 14, 24, 34, etc. inga i urvalet.
Nar insamlingsarbetet ar klart ar det dags att gora de berakningar som
Om individerna i ett register ar ordnade efter personnummer far vi samma behovs for att fa svar pa de fragor som initierat undersokningen. Med hjalp
fildersstruktur i stickprovet som i populationen vilket ibland kan vara en av ett lampligt statistikprogram kan datom utfora bade berakningsarbete
fordel. Har vi daremat ett register som innebar nagon form av periodicitet i och diagramritning at ass.
numreringen, till exempel sa att var tionde individ kannetecknas av en viss
egenskap, kan vi fa uppskattningar med stora fel. Forsiktighet vid systema- Det finns manga statistikprogram pa marknaden. SAS, SPSS ach Minitab
tiska urval ar alltsa en god regel. ar tre av de mest valrenommerade och mest anvanda prograrnmen vid
universitet over hela varlden. Kalkylprogram som Excel och Lotus kan
Anta att vi ska gora en undersokning av en bransch, som bestar av ett start , ocksa gora en del statistiska berakningar, men anses fortfarande inte vara
antal sma foretag, ett antal medelstora Och nagra fa mycket Stora foretag. nagot seriost altemativ vid statistisk analys av olika skal, som man kan lasa
Med ett obundet urval ar det troligt att inget av de fa men mycket stora . om pa olika webbsidor.
foretagen kommer med. Slutsatsema kan da bli klart missvisande. Istallet
genomfor vi en stratifiering av populationen. Vi delar in papulationen Ett bra program ska inte hara kunna utfora omfattande statistiska analyser.
efter nagon lamplig stratifieringsvariabel i ett antal delpopulatianer, Det ska till .exempel ocksa kunna hantera invecklade datastrukturer och
strata. Man bor stratifiera sa att individema inom varje stratum ar sa lika kunna Iasa data som kommer fran andra system. Till exempel fran program
varandra som mojligt. I vart exempel kan det vara lampligt att stratifiera som hanterar webbenkater, enkater via e-post eller inskannade blanketter.
foretagen efter storlek i tre strata. De manga men sma foretagen far alltsa For den ovane anvandaren ar det viktigt att programrnet ar latt att anvanda.
bilda ett stratum, de medelstora foretagen ett annat stratum och de fa men For yrkesmannen - statistikem - ar det ocksa viktigt att prograrnmet ger
rnycket stora foretagen ett tredje stratum. Darefter gor vi ett enkelt avancerade mojligheter. Det ar alltsa omojligt att ge en allman
slumpmassigt urval fran varje stratum. Sag att vi undersoker fem procent rekomrnendatian om vilket program som ar "bast".
av de sma foretagen, tjuga procent av de medelstora foretagen och
samtliga mycket stora foretag. Resultaten kan redovisas for varje stratum I varje kapitel ges exempel pa hur utskrifter fran nagra av prograrnmen kan
och kan ocksa sammanviigas sa att vi far en helhetsbild av populationen. se ut. Vi har i forsta hand anvant SPSS och Minitab sam ar de vanligaste
Det ar ocksa mojligt att berakna den statistiska felmarginalen, sam med en programmen vid svenska universitet ach hOgskolor.
klok stratifiering blir mindre an vid enkelt urval. For att statistikprogrammet ska kunna bearbeta och analysera data kravs att
Ibland ar det praktiskt att lata urvalet ske genom flerstegsurval. Lat man strukturerar data pa ett lampligt satt. Det vanligaste sattet ar att data
populationen vara alla elever i grundskolan. For ett enkelt slumpmassigt stalls upp i ett rutnat - en datamatris - .dar varje rad motsvarar en individ
urval kravs en forteckning av dessa elever. En sactan ram har vi inte och och varje kolurnn motsvarar en variabel.
genomfor darfor valet i flera steg. Fran en forteckning over samtliga skolor Pa sidan 85 i slutet av kapitel 4 presenteras en sida ur en enkat som
valjer vi forst nagra skalar slurnpmassigt (steg 1), for var och en av de skickats ut till medlemmama i en bokklubb. Varje enkat, som kom tillbaka
valda skoloma valjer vi darefter nagra klasser slumpmassigt (steg 2) ach till bokklubben, fick ett lOpnummer som identifikation. Detta lOpnummer
for varje vald klass valjer vi slutligen alla elever eller valjer nagra elever samt de sex fragoma blir de sju variabler - kolumner - sam ska matas in i
slumpmassigt (steg 3). Aven vid flerstegsurval kan man gora uppskatt- statistikprogrammet.
ningar avseende hela populationen och berakna den statistiska
felmarginalen. Overst pa nasta sida visas hur datamaterialet ser ut nar vi anvander SPSS
for den statistiska analysen.

25
8 Ahsolute Books SPSS Dold [ dito1
Fie Edit Yiew Dato Transform Analyze Graphs utiloties Window Help
Ovningsuppgifter
~1 111 1191 ~ ~ b l -d..::. ~ >t<ll''-1~;:i;!r:.I r~ ~
= - ""':
~ Nr . 11
101
Nr Alder Kon lnvanare ~ -AntalBOcker Favorrtbok OmT1dn1n en ""'
Diskutera hur statistiska undersokningar kan klassificeras efter mfil och
medel. Diskutera ocksa skillnadema mellan experimentella och icke-
experimentella undersokningar.

102
a) Redogor for begreppen population och ram.
b) Ge exempel pa andliga och oandliga populationer.
c) Vad innebar begreppet morkertal?

103
Vi ska gora en undersokning bland tennisspelare - bade motionarer och
tavlingsspelare - i en kommun.
a) Hur kan en urvalsram upprattas?
Figur 1.2 visarhur datafonstret ser ut i statistikprogrammet SPSS. b) Vilka typer av overtackning och undertackning kan forekomma?

Bilden visar hur de forsta personerna svarat pa enkatens fragor. Pa den gra 104
raden ovanfor svaren anges de variabelnamn som anvants. Vad menas med
a) klassifikationsfel b) operationalisering
Vi ser att den forsta personen, den oversta raden i det vita faltet, ar en 15- c) validitet d) reliabilitet
ang flicka. Hon bor pa en ort med mellan 10 000 och 50 000 invanare och
laser helst hastbocker. Den fjarde personen har formodligen inte svarat pa 105
fragoma om alder och kon eftersom dessa rutor ar tomma. Postenkat och besoksintervjuer ar tva insamlingsmetoder vid statistiska
Allra langst upp finns en menyrad. Den anvands nar man ska gora undersokningar. Vilka for- och nackdelar kan dessa metoder ha?
analyser eller rita diagram. Vill man gora statistiska berakningar borjar
man med att klicka pa Analyze och vill man rita en figur ska man borja 106
med ett klick pa Graph. Beskriv kortfattat foljande begrepp
a) slutna svarsalternativ b) oppna svarsalternativ
Vi aterkommer med exempel pa olika SPSS-utskrifter de foljande
kapitlen.
107
Du kan lasa mer om SPSS i Wahlgren, SPSS steg for steg som ges ut av Vad innebar
Studentlitteratur. Boken lar ut det mesta som behovs om SPSS for en a) intervjuareffekt b) prestigebias c) teleskopeffekt
grundkurs i statistik.
108
Ge exempel pa situationer dar intervjuareffekter kan forekomma.

26 27
109
I en undersokning skulle de sydsvenska konsumentemas olinkop kart- 2 Tabeller och diagram
Higgas. Man stallde bland annat fragan "Hur stor andel (procent) av dina
olinkop gar Du normalt i Danmark?"
a) Kan fragan missuppfattas?
b) Formulera om fragan sa att den blir tydligare.

110 Yid redovisning och granskning av statistik ar det Himpligt att stalla nagra
Har foljer en upprakning av ett antal variabler. For varje variabel ska Du fragor av den har typen:
ange minst en matmetod. For varje matmetod ska du ocksa ange vilken Vilken information skall bilden/tabellen formedla?
dataniva som matningen resulterar i. Ar redovisningen meningsfull?
Exempel: Kroppsvikten kan anges i kg, vilket ger matvarden pa kvotskale- Ger redovisningen en korrekt bild?
niva. Kroppsvikten kan ocksa ges i form av en grov kategoriindelning av Ar redovisningen latt att begripa?
typen undemard, smal, lagom, overviktig, fet. Matvardena ligger da
narmast pa ordinalskaleniva. Vi ska hiilla dessa fragor i minnet nar vi nu overgar till att diskutera hur
statistiska material kan presenteras pa olika satt.
a) alder b)kon
c) religionstillhorighet d) avstand till arbetsplatsen
e) bokforsaljning f) division i fotbollsserien
g) handelsbalans h) antal tander
2.1 Kategorivariabler
111
"Man bar forbjuda cykling pa Lilla Fiskaregatan." I en enkatundersokning Att mata en kategorivariabel - eller kvalitativ variabel som det ocksa
i Lund fick de tillfragade ta stallning till detta pastaende. Fragan hade kallas - innebar att gora en klassificering av de individer som ingar i
foljande svarsaltemativ. undersokningen. I en tabell anger vi darefter for varje klass antalet
individer eller frekvensen for klassen.
D instarnmer helt
D instammer delvis
D varken instammer eller tar avstand Exempel 1
D tar delvis avstand I ett fackforbund - P- forbundet - finils 1 787 medlemmar, 683 man och
D tar helt avstand 1 104 kvinnor. I enfrekvenstabell kan dennafordelning redovisas sa har:
Pa vilken dataniva ligger de erhiillna matvardena?
Tabell 2.1 Fordelning efter kon i P-forbundet
112 Kon Antal
Vilka fordelar kan ett sannolikhetsurval ha jamfort med en totalunder-
Man 683
sokning? Kvinnor 1104

Totalt 1 787

29
Man kan ocksa redovisa den relativa fordelningen. Da raknar man om de Studera det tredimensionella cirkeldiagrammet till hdger i figur 2.1. Den
absoluta frekvenserna till relativa frekvenser, som ofta anges i procent. bar typen av diagram forekommer ofta idag. De ser trevliga ut och ritas
Nar variabeln ar kvalitativ kan man visa fordelningen med ett stapel- snabbt med hjalp av en dator. Men vi vill anda utfarda en varning. Ett
diagram eller ett cirkeldiagram. sactant diagram ger ofta missvisande eller svartolkade jamforelser. Fick
folkpartiet eller vansterpartiet storst andel av vfiljarsympatierna enligt detta
diagram?
Exempel 2
I ett stapeldiagram representeras varje klass av en stapel, vars liingd mot-
Vilket parti skulle du rosta pa om det vore val idag? I en partisympati- svarar frekvensen i klassen. Staplarna kan ritas staende eller liggande.
undersokning svarade 1 423 personer sa har:
40 -. . . - - - - - - - - - - - - ,
6 I
Tabell 2.2 Svarsfordelningen i en partisympatiundersokning (n=1423)
30
Parti
Moderatema
Procent
24
-e
c:
~ 20
Fp

v
I:=]
I

II. c I
Centerpartiet 16
Folkpartiet 7 M I

Socialdemokratema 34
Vansterpartiet 9
s I

Ovriga partier 10
M C Fp S V 0 0 10 20 30 40

Nar fordelningen anges i procent ar det viktigt att lasaren ocksa far veta Procent
totala antalet individer i materialet, n. Figur 2.2 Exempel pa stapeldiagram

I figur 2.1 visas resultatet med cirkeldiagram. V arje parti representeras av I vilken ordning ska staplarna for de olika partierna ritas? I bokstavs-
en cirkelsektor, vars area motsvarar frekvensen. For "Moderaterna", som ordning, i storleksordning eller efter politisk farg fran vanster till hdger?
omfattar 24 procent av materialet, blir medelpunktsvinkeln for Fragan har inget sjfilvklart svar.
motsvarande sektor 0,24 360 = 86,4 . Ibland forekommer diagram med
Fp
kapad eller stympad frekvensaxel.
Bilden ger da en felaktig uppfattning v
c ____.
om storleksrelationema. Figuren till

....
hOger ger intryck av att V ar dubbelt M _ _ _ _ ___,
sa stort som Fp. Men av tabell 2.3
framgar att V har 9 procent s t----------~

s c sympatisorer medan Fp har 7 procent ! 5 15 25 35


c Fp
Procent

Figur 2.3 Ett felaktigt stapeldiagram


Figur 2.1 Exempel pa cirkeldiagram

30 31
Exempel 3 I figur 2.4 jamfors de absoluta frekvenserna for olika klasser. Nu ska vi
jamfora andelen kvinnor i de bacta forbunden. Da maste vi forst rakna om
Tabell 2.3 Fordelning efter kon av medlemmama i tvafackforbund frekvenserna i tabellen till procent. Har ser du resultatet:
Antal medlemmar
Kon P-fOrbundet R-fOrbundet Tabell 2.4 Konsfordelningen (procent) i tvafackforbund
Man 683 1 812 Andel medlemmar
Kvinnor 1104 4 415
Kon P-fOrbundet R-fOrbundet
Man 38 % 29%
En tabell som visar tva eller flera fordelningar samtidigt kallas for en kors- Kvinnor 62% 71%
tabell. En korstabell som enbart bestar av tva rader och tva kolumner,
Totalt 100% 100%
alltsa sammanlagt fyra falt for frekvenser, kallas for enfyrfiiltstabell. Aven
om vi i tabell 2.3 Higger till en rad som visar totalantalet medlemmar i P- Antal
medlemmar 1 787 6 227
forbundet och i R-forbundet kallar vi tabellen for en fyrfaltstabell.
I ett stapeldiagram ska var och en av de fyra frekvensema i tabellen mot-
svaras av en stapel. Genom att arrangera staplama pa olika satt kan vi I figur 2.5 finns exempel pa stapeldiagram som visar de relativa fordel-
framhfilla olika egenskaper i materialet. ningama.

5 000 5000
OKvinnor o P-forbundet
4 000 OMan 4000 0 RfOrbundet
Kvinnor
3 000 3000 oMan

2 000 2000

p. R-
1 000 1000
fOrbundet fOrbundet p. R- -
ftirbundet fOrbundet
0 [ o Man Kvinnor [
0
Man Kvlnnor
P-fOrbundet R-forbundet

Figur 2.5 Stapeldiagram som visar kansfordelningen i tvaferbund (relativa


Figur 2.4 Konsfordelningen i tvaforbund. Diagram med grupperade staplar f rekvenser)
(absoluta frekvenser ).
I diagrammet till vanster har staplama grupperats. I diagrammet till hOger
representeras varje forbund av en stapel som delats upp pa man och
kvinnor. Andelen kvinnor ar Higre i P-forbundet an i R-forbundet. Vilket
av diagrammen formedlar denna information tydligast?

33
Exempel 4 Tabell 2. 7 Procentuell fordelning efter attityd - jiimforelse mellan man och
kvinnor
Pa ett start foretag har man gjort en attitydundersokning. Sa hiir blev
resultatet: Kon Positiv Negativ Summa
Miin 82 % 18 % 100 %
Tabell 2.5 Fordelning efter kon och attityd vid en undersokning av 518 Kvinnor 80% 20% 100 %
personer pa ett fore tag.

Kon Positiv Negativ Summa


Har har vi gjort procentberakningen for varje rad for sig. Diirfor iir det
enbart mojligt att summera procenttalen radvis. Procenttalen ska alltsa
Miin 89 19 108 summeras i samma riktning som de beraknats.
Kvinnor 328 82 410
Summa 417 101 518
Med hjalp av tabellen kan vi analysera sambandet mellan variablerna
attityd och kon. Som vi ser finns det inte nagon starre skillnad mellan man
och kvinnor vad gliller fordelning efter attityd. Andelen positiva personer
Kon ar en dikotom variabel. I denna undersokning later man ocksa attityd
iir i start sett densamma i de bada grupperna: 82 respektive 80 procent.
anta enbart tva olika viirden. Darfor kan resultatet visas i en fyrfaltstabell. Variabeln attityd iir alltsa oberoende av variabeln kon.
I tabellen har vi beraknat marginalfrekvenserna genom att summera Slutligen slitter vi frekvenserna i varje kolurnn i relation till kolurnn-
frekvenserna radvis och kolurnnvis. Den radvisa summeringen ger frek- summan. Da far vi foljande tabell:
venserna for variabeln "kon". Summerar vi kolurnnvis far vi frekvenserna
for variabeln "attityd". Tabell 2.8 Procentuellfordelning efter konfor personer med positiv
Vi raknar nu om de absoluta frekvenserna i tabellen till procent. Omrak- respektive negativ attityd.
ningen kan ske pa tre olika satt. Om vi slitter samtliga frekvenser i relation Kon Positiv Negativ
till totalantalet (518) far vi denna tabell:
Man 21 % 19 %
Kvinnor 79% 81 %
Tabell 2.6 Procentuell fordelning efter kon och attityd vid en undersokning
Summa 100 % 100 %
av 518 personer pa ettforetag

Kon Positiv Negativ Summa Detta iir ingen bra redovisning ! Med stOd av tabellen kan vi hlivda att cirka
Miin 17 % 4% 21 % 80 procent av de negativa iir kvinnor. Det iir ett sant pastaende men det iir
Kvinnor 63% 16 % 79% vilseledande! Det far oss att tro att kvinnoma Cir negativa i storre
Summa 80% 20 % 100% utstrackning an mannen. Men vi kan ocksa havda att ungefiir 80 procent
av de positiva ar kvinnor. Da far vi istlillet intrycket att kvinnorna Cir
positiva i storre utstrackning an mannen.
Om vi slitter frekvenserna i varje rad i relation till radsumman far vi
mannens och kvinnornas relativa fordelning efter attityd. I sjlilva verket har vi i tabell 2. 7 visat att attityden iir oberoende av kon.
Daremot ar kvinnorna ungefar fyra ganger fler an mannen. Detta paverkar
naturligtvis konsfordelningen i klassen personer med positiv attityd pa
samma satt som det paverkar konsfordelningen i klassen personer med
negativ attityd. Alltsa: berakna och tolka aldrig procenttal mekaniskt! Lat
ocksa det sunda fornuftet vara med.
35
2.2 K vantitativa variabler Aven en enkel frekvenstabell kan rnissuppfattas. Det galler att skilja
mellan de varden variabeln (antal salda enheter) kan anta och de frek-
Observationer pa en kvantitativ (eller numerisk) variabel sorterar man venser (antal dagar) som galler for olika variabelvarden. I tabellen har vi
lampligen i storleksordning. Vid fa observationer behOvs varken tabeller anvant beteckningen x for variabelvardena och f for frekvensema.
eller diagram. Man nojer sig med att redovisa de enskilda vardena. Variabelvardet 5 har frekvensen 19, dvs. under 19 av de 80 dagarna har
affaren sillt 5 enheter av den aktuella varan.
SWrre material visas i frekvenstabeller.
Totala antalet observationer n ar summan av sarntliga frekvenser. Med
Exempel 5 hjalp av surnmasymbolen I: (som du kan lasa om i slutet av boken) kan
detta mera kortfattat skrivas I:/= n.
I en affar har antalet sillda enheter dagligen registrerats under 80 dagar. Sa
har blev resultatet: lbland kan det vara lampligare att visa den relativa fordelningen. Da
dividerar vi frekvensema med totalantalet individer och far pa vanligt satt
3 2 3 4 5 4 6 4 3 6 5 4 2 de relativafrekvensema. De finns i den tredje kolurnnen i tabellen.
6 5 4 7 5 4 7 3 8 5 7 2 7
5 6 3 3 5 5 4 4 3 5 5 1 5 En diskret variabel som enbart antar ett litet antal olika varden visar man
4 7 4 3 5 4 4 8 2 7 4 6 7 med ett stolpdiagram:
3 6 7 6 3 3 5 5 3 5 6 4 4
3 2 4 4 3 4 5 2 4 5 5 4 4
5 8 30
25 ::0
Antal sillda enheter ar en diskret variabel, som enbart antar heltalsvarden, ..
IQ
20 Cll
i
20 :c:
det rninsta 1 och <let sWrsta 8. For att fa en battre overblick sammanstaller g> 15 ....
~
15 Ci!
vi nu observationema i en frekvenstabell. s 10
r::
~
<
Cll
c( 10 :I
!'
5
Tabell 2.9 Forsiiljningsresultat under 80 dagar i en affiir 5 0~
0
Antal salda Antal dagar, Relativ 2 3 4 5 6 7 8
enheter frekvens frekvens
Antal salda enheter
(x) (0 (%)

1 1 1
2 6 8 Figur 2.6 Forsiiljningsresultat under 80 dagar i en affiir. Stolpdiagram.
3 14 18
4 21 26 Av diagrammet frarngilr att variabeln enbart antar heltalsvarden. Frekven-
5 19 24 sema har angetts bade i absoluta tal och i procent.
6 8 10
7 9 11 I exempel 5 har vi studerat en variabel som enbart antar ett litet antal olika
8 2 2 varden. Da ar det naturligt och praktiskt mojligt att lata varje variabelvarde
n =80 100 vara en egen klass i frekvenstabellen. Men hur gor man om variabeln kan
anta manga olika varden?

37
Exempel 6 Exempel 7
I en halsoundersokning mater man bland annat kroppslangden i centimeter
for 497 pojkar i fildem 17 ar. Har ser vi nagra av observationerna: Tabell 2.11 Aldersfordelningen for de anstdllda pa ett fore tag

176 177 171 Antal


176 181 180 181 173
Alder anstiillda
177 175 164 176 171 175 174 176
185 170 175 171 175 182 165 182 -24 5
172 177 182 176 168 183 177 168 25-29 20
180 164 182 184 171 173 185 169 30--34 45
178 175 172 182 35- 39 50
40--44 25
Observationema Jigger i intervallet 150 cm till 200 cm. Om varje variabel- 45-49 10
varde ska redovisas separat maste frekvenstabellen darfor innehfilla unge- Totalt 155
far 50 klasser. Mer overskadligt blir det om vi for samman de observa-
tioner som ar ungefar lika stora till en klass. Variabeln alder avrundas alltid nedat. Det innebar att klassen 25- 29 inne-
hfiller de individer som fyllt 25 ar men linnu inte 30 ar. Klassgrlinserna ar
Tabell 2.10 Fordelning av 497 sjuttonariga pojkar efter kroppsldngd ar
25 och 30 ar, ar
klassbredden 5 och klassmitten 27,5 ar.
Langd/cm Antal pojkar
150--154 l
50
155- 159 5 50
160--164 22 40 45
165-169 79
170--174 120 30
175-179 133
180--184 91 20 25
20
185-189 30
190--194 13 10
10
195-199 3 5
0
n=497 -24 25-29 30-34 35.39 40-44 45-49
Alder (ar)
Har har vi delat upp observationema pa tio klasser. Kroppslangden anges i
hela centimeter. Om avrundning skett pa vanligt satt har de pojkar som ar Figur 2. 7 Aldersfordelningen for de anstdllda pa ett fore tag. Histogram
mellan 164,5 cm och 165,5 cm langa fatt vardet 165 cm. De pojkar som
finns i klassen 165-169 ar alltsa mellan 164,5 cm och 169,5 cm langa. I figur 2.7 har vi visat aldersfordelningen med ett histogram. Den lagsta
Vardet 164,5 ar klassens undre grii.ns och 169,5 dess ovre grii.ns. 169,5 ar klassen ( -24) ar oppen. Detta markerar vi genom att strecka denna klass i
ocksa den undre grlinsen for nasta klass (170--174). Skillnaden mellan den histogrammet!
ovre och den undre grlinsen for en klass kallas klassbredden. Ett approxi-
mativt varde for de individer som tillhor en viss klass ar klassmitten. I vart
exempel ar klassmitterna 152, 157, ... , 197 centimeter. Undre klassgransen
plus halva klassbredden ger alltsa klassmitten.

38 39
2.3 Med datorns hjalp Vid en attitydundersokning pa ett foretag noterade man bland annat de 518
personemas installning i en viss fraga samt kon. Resultat:
I en marknadsundersokning fick 1 245 personer fylla i ett formular. I en
ruta fick man kryssa for vilken aldersgrupp man tillhOrde. De i forvag
Attityd
bestamda fildersgruppema var 18-19 ar, 20-24 ar, 25-29 ar, 30-49 ar,
Positiv Negativ Total
50-64 ar och 65 ar eller aldre. Statistikprograrnmet SPSS konstruerade Kon Man Count 89 19 108
denna frekvenstabell fran databasen: % within Kon 82,4% 17,6% 100,0%
Kvinna Count 328 82 410
Aldersgrupp % within Kon 80,0% 20,0% 100,0%
Total Count 417 101 518
Cumulative
Frequency Percent Valid Percent Percent % within Kon 80,5% 19,5% 100,0%
Valid 18-19 ar 49 3,9 4,1 4,1
20-24 ar 118 9,5 10,0 14, 1
25-29 ar 121 9,7 10,2 24,3 I en korstabell kan man rakna procent pa flera satt. Det oversta vardet i
30-49 ar 491 39,4 41 ,5 65,8 varje ruta Count ar den absoluta frekvensen och det undre vardet % within
50-64 ar 319 25,6 27,0 92,8 Kon ar procenttalen beraknade varje rad for sig. 328 kvinnor med en
65 + ar 85 6,8 7,2 100,0 positiv instillning innebar att 80,0 procent av samtliga kvinnor var
Total 1183 95,0 100,0 positiva. Jamfor med tabellerna pa sidorna 34-35.
Missing System 62 5,0
Total 1245 100,0 Anta att man for varje person aven vet vilken avdelning personen arbetar
pa. Da kan man konstruera en korstabell med tre variabler. Den kan se ut
sa har:
Foljande information kan utlasas ur tabellen.
Avdelning
Frequency ar den absoluta frekvensen - antalet personer. Vi ser att det
2
ar 49 personer i intervallet 18 - 19 k Den forsta totalsiffran 1 183 ar
Attityd Attityd
antal personer som avgett ett giltigt (Valid) svar. Av de sammanlagt
Positiv Negativ Total Positiv Negativ Total
1 245 personema var det 62 som inte svarade (System Missing). Kon Man Count 60 15 75 29 4 33
Percent ar de absoluta frekvenserna omraknade till procenttal for % within Kon 80,0% 20,0% 100,0% 87,9% 12,1% 100,0%

samtliga 1 245 personerna. De 62 personer som inte svarat pa fragan Kvinna Count 229 58 287 99 24 123
% within Kon
blir en egen kategori. 79,8% 20,2% 100,0% 80,5% 19,5% 100,0%

Valid Percent ar procenttalen enbart for de personer som svarade pa Total Count 289 73 362 128 28 156

fragan. Av samtliga 1 245 tillfragade var 3,9 procent i fildern 18-19 ar % within Kon 79,8% 20,2% 100,0% 82,1% 17,9% 100,0%

men av de 1 183 som svarade pa aldersfragan var andelen 4,1 procent.


I den sista kolumnen finns de ackumulerade procenttalen (Cumulative Ju mer information man forsoker fa med i en tabell desto svarare blir det
Percent). Av de personer som svarade pa fragan var till exempel 24,3 att lasa tabellen !
procent under 30 ar.

40 41
203
Ovningsuppgifter En idrottsforening importerar och saljer sportsockor till medlemrnarna. Yid
ett tillfalle har man bytt leverantOr. Fyra manader senare gjorde man en
201 enkatundersokning bland medlemmarna. Anser du att den nya typen av
Vad tyckte Du om huvudrollsinnehavarens prestation? Efter prerniaren pa sockor iir lika bra som den gamla typen? Detta var en av de fragor man
en ny film staJ.ldes den fragan till ett slumpmassigt urval av askadarna. stallde. Den gav foljande svarsfordelning:
Detta ar en sammanstallning av resultatet:
Svar Man Kvinnor
Huvudrollsinnehavarens prestation var
Ja 64 152
Alder Svag Hyfsad Bra Nej 22 242
15-24 25% 51 % 86% Vet inte 18 120
25-39 34 % 34% 12 %
40-- .41 % 15 % 2% Finns det nagra skillnader mellan man och kvinnor vad galler uppfatt-
Summa
ningen om de nya sockoma? Rakna om frekvensema i tabellen till procent
100% 100% 100%
pa lampligt satt och visa resultatet i ett diagram. Besvara darefter fragan.
Antal intervjuade 73 102 325

For varje svarsalternativ visas de intervjuade personemas aldersfordelning 204


i procent. Vi ser att 86 procent av de personer som tyckte prestationen var Foljande anteckningar visar forsaljningen av Coca Cola (hela flak) i ett
bra tillhOrde 8.ldersklassen 15-24 8.r. gatukok under 40 lordagar:
Du ska nu konstruera en ny tabell, som for varje aldersgrupp redovisar den 4 7 8 5 6 2 5 4 8 5 3 5 2 6
procentuella fordelningen pa de tre svarsaltemativen "svag", "hyfsad" och 6 3 5 6 3 5 6 7 3 6 4 7 4 7
"bra". Darefter ska du jamfora de tre fordelningarna med lampliga 6 5 6 7 3 5 5 4 6 1 4 6
diagram. Vilka slutsatser drar du om sambandet mellan variablema alder a) Vad ar individ och vad ar variabel i detta material?
och bedomning av huvudrollsinnehavarens prestation? b) Ar <let en kategorivariabel eller en kvantitativ variabel?
c) Vilken dataniva har matvardena?
202 d) Ordna observationema i en frekvenstabell.
En undersokning visar att 25 procent av de personer som rakar ut for en e) Visa fordelningen med ett stolpdiagram.
viss typ av trafikolycka inte ar nyktra vid olyckstillfallet. Av denna
statistik drar en person foljande tva slutsatser: 205
Slutsats 1: 75 procent av de personer som rakar ut for denna typ av Detta ar de faktiska kostnadema (kr) for kurslitteratur under en manad for
olycka ar nyktra. nagra studenter:
Slutsats 2: Det ar alltsa tre ganger farligare att vara nykter an onykter i
660 820 740 770 700 360 670 690 80 650
trafiken. 80 370 840 650 700 1360 lllO 500 270 940
a) Ar slutsats 1 ratt eller fel? Kommentera! 470 650 1130 200 1080 1120 710 570 650 1010
b) Ar slutsats 2 ratt eller fel? Kommentera! 1080 930 660 660 450 950 570 1080 30
a) Dela in materialet i sju klasser 0--199, 200--399, ..., 1200--1399.
b) Visa fordelningen med ett histogram.

42 43
3 Genomsnitt och spridning
3.1 Medianen och kvartilerna
Medianen (md) ar mittobservationens variabelvarde nar observationema ar
ordnade i storleksordning. Vid jarnnt antal observationer ar medianen
Tabeller och diagram kan ge en god bild av ett statistiskt material. Nar medelvardet av de tva mittvardena.
materialet ska analyseras maste man komplettera denna bild med tal som
lyfter fram vasentliga egenskaper i materialet. For en kvantitativ variabel Exempel 3
ar det frarnforallt tva egenskaper man mater: observationemas genomsnitt Kontorsmaskiner AB har installerat nya kopiatorer hos sex olika kunder.
och observationemas spridning kring detta genomsnitt. Sa har manga extrabesok fick serviceteknikem gora hos varje kund under
de forsta tva manaderna:
Exempel 1
0 1 3 5 5 8
Deltagarna i en kvallskurs i italienska beskrivs pa foljande satt:
" 71
Det vanligaste antalet narvarande ar tio deltagare. mittvardena
Medianinkomsten ar 23 800 kronor per manad. Antalet observationer ar jamnt, vilket innebar att mitten i materialet ligger
Medelaldern ar 37 ar. mellan tva varden. Da blir medianen
Med hjalp av typvardet, medianen och aritmetiska medelvardet har vi har 3 5
angett olika genomsnitt for de tre variablerna antal narvarande, inkomst md= + =4
2
och fil.der.
vilket ar medelvardet av de tva mittvardena.
Exempel 2 Vilka fordelar har medianen som genomsnittsmatt?
Har kommer mer intressant information om kvallskursen: Medianen ar latt att tolka.
Antalet narvarande har varierat mellan 7 och 12 deltagare per samman- Berakning av medianen innebar enbart att observationema ordnas efter
komst. storlek. Det ar alltsa tillrackligt med en ordningsskala.
En av fyra deltagare bar en manadsinkomst under 18 100 kronor. Nar materialet innehfil.ler extremvarden - dvs. kraftigt avvikande
Standardavvikelsen for aldem ar 5,2 ar. varden - kan andra genomsnittsmatt bli missvisande. Medianen
bestams av mittvardet/rnittvardena i materialet och paverkas inte av
Pa tre olika satt har vi nu beskrivit spridningen i gruppen. Vi har angett eventuella extremvarden.
variationsomradet for antalet narvarande, forsta kvartilen for manads-
inkomsten och standardavvikelsen for fil.dem. Medianen ar rnittvardet och delar alltsa det statistiska materialet i tva lika
stora delar. De tre varden som delar materialet i fyra lika stora delar kallas
Typvardet ar det vanligaste vardet. Variationsomractet ges av det minsta kvartiler. Man talar om den forsta (undre) kvartilen, den andra kvartilen
och det storsta vardet. Dessa bada matt pa genomsnitt och spridning ar och den tredje (ovre) kvartilen. Under den forsta kvartilen finns 25 procent
enkla att berakna och tolka. Som beskrivande matt fyller de darfor en av materialet, over den tredje kvartilen likasa 25 procent. Den andra
funktion. Som analytiska instrument ar de daremot utan stOrre betydelse. kvartilen ar ocksa kand under ett annat namn, namligen medianen.

45
Exempel 4
For de anstallda pa en avdelning finns foljande uppgifter om personemas
alder. 3.2 Det aritmetiska medelvardet
19 19 20
Det aritmetiska medelvardet - som oftast kallas medelvardet - ar surnman
21 21 24 25 25 27 27 27
28 28 30 30 33 34 34 35 35 38 39 av de observerade vardena dividerad med antalet observationer.
40 40 43 47 47 48 50 55 64
Exempel S
Materialet bestar av 31 observationer, ordnade efter storlek. Medianen har Antalet anrnar.kningar vid bilprovningen for sex slumpmassigt valda Opel
ordningsnummer sexton och medianfildem ar alltsa 33 ar. av arsinodell 2001 eller tidigare antecknades. Sa bar blev resultatet:
Nar man beraknar den forsta (undre) och den tredje (ovre) kvartilen delar 1 2 3 3 5 7
man det ordnade materialet i tva lika stora delar. Om antalet observationer
ar udda ska medianen inga i bade den undre och den ovre halften av Medelvardet ar
materialet. Efter denna delning ar den forsta kvartilen medianen i undre
1+2+3+3+5+7 =~=35
halften av materialet. Den tredje kvartilen ar medianen i ovre halften av
6 6 '
materialet.
dvs. i genomsnitt 3,5 anmarkningar per bil.
I vart exempel ar den undre halften av materialet de sexton personer som
ar mellan 19 och 33 ar.
Forsta kvartilen ligger mellan det attonde och Trots att variabeln - antal anmarkningar - enbart kan anta heltalsvarden
nionde vardet. behaver inte medelvardet anges i heltal, men decimalema bOr naturligtvis
inte vara flera an att de ger korrekt och rneningsfull information.
q1 = 25 + 27 = 26
2
Forsta kvartilen ar alltsa 26 ar.
Medelvardet x for n observationer X 1,X2 ,. . ., xn ar
- X 1 +x2+ ...+xn LX
Tredje kvartilen ar rnedianen for de sexton personer sorn ar mellan 33 och x= =--
64 ar. Om vi for enkelhetens skull raknar fran slutet i materialet, dvs. utgar n n
fran den aldste, hittar vi tredje kvartilen mellan det attonde och nionde
vardet.
Detta ar ett mer kortfattat satt att definiera rnedelvardet.
q3 = 40 + 40 =40 Medelvardet forutsatter att det ar meningsfullt att summera rnatvardena.
2 Det kravs alltsa minst intervallskala for observationema. Vid lagre
Den tredje kvartilen ar 40 ar. datanivaer bor man istallet ange medianen eller typvardet.
Medianen och kvartilema kallas ocksa fraktiler. Ett annat exempel pa
fraktiler ar percentilerna, som delar ett statistiskt material i hundradelar.
Med fraktiler avser vi alltsa varden som delar ett material i bestamda
proportioner. Var diskussion har visat att man med hjalp av larnpligt valda
fraktiler kan fa en god bild bade av observationemas genomsnitt och av
spridningen i materialet.

46 47
Exempel 6 !bland har vi inte tillgang till de enskilda matvardena. I en vetenskaplig
artikel i en tidskrift hittar vi kanske en intressant tabell med klassindelning.
For 38 arbetstagare pa ett stort foretag finns dessa uppgifter om antalet Orn vi da grips av en villdig lust att berakna ett medelvarde maste vi ersatta
franvarodagar under oktober manad: de verkliga - men okanda - vardena med klassmittema.
1 0 3 4 2 0 3 2 1
2 4 5 2 1 2 0 0 2 3 Exempel 7
1 3 2 3 0 0 1 3 2 0
0 0 2 0 3 3 2 0 Tabellen visar forsilljningen under 36 dagar i en affar:
Vi summerar de 38 observationema och dividerar summan med 38. Totala
Forsaljning/
antalet franvarodagar ar ~:> = 63, vilket ger medelvardet tusental kronor Antal dagar

x = ~> = 63 = 1 66
40-49 4
50 - 59 8
n 38 ' 60 - 69 12
70 - 79 9
Medelvardet ar alltsa 1,7 franvarodagar per anstalld. 80-89 3 I

Materialet kan ocksa sarnmanstallas i enfrekvenstabell: /

Om avrundningen skett pa vanligt satt ar klassgransema 39,5, 49,5,


Franvaro/antal dagar (x) 0 2 3 4 5 89,5. Klassbredden ar 10 for samtliga klasser, vilket ger klassmittema
Antal arbetstagare (f) 11 6 10 8 2
44,5 , 54,5, ... , 84,5.
Berakningama av rnedelvardet kan sammanfattas sa har:
Nar medelvardet ska beraknas fran en frekvenstabell ar det praktiskt att
gora berakningarna sa hlir: x f f-x
44,5 4 178,0
x f f-x 54,5 8 436,0
0 11
64,5 12 774,0
0
1 74,5 9 670,5
6 6
2 10 20 84,5 3 253,5
3 8 24 n= L: J =36 I J x= 2312
4 2 8
5 5
Medelvardet blir
:L/ = 38 Z:f-x = 63
.x = L. f. x = 2312 = 64 222
n 36 '
Medelvardet blir
Forsilljningen per dag ar 64 000 kronor. Men resultatet ar approximativt
- L.fx = Lf X =63- =166
x= och forutsatter att observationerna inom varje klass ar nagorlunda jamnt
L,J n 38 ' fordelade over klassen.

vilket givetvis ar exakt samma resultat som tidigare.

48 49
Praktiska berakningar
Definitionen av standardavvikelsen innebli.r att berakningama sker i flera
3.3 Standardavvikelsen steg. Men det li.r mer praktiskt att anvanda foljande beriikningsformel:
Standardavvikelsen li.r ett sammanfattande matt pa de enskilda observa-
tionemas spridning laing rnedelvli.rdet. Har kommer den formella Standardavvikelsens beriikningsformel
definitionen:

Standardavvikelsen s for n observationer x u x 2 , .. , x n lir

s = JL,(x-x)2
n-1
Berakningsformeln li.r en utveckling av den tidigare formeln. De Mda
forrnlema ger dlirfor alltid sarnrna resultat.
For den oinvigde kan detta uttryck gora ett kornplicerat intryck.
Berakningama sker i flera steg och kan med ord beskrivas sa hli.r: Exempel 8 (fortsattning pa exempel 5)
Antalet anmlirkningar vid bilprovningen for sex slumpmassigt valda Opel
Forst beraknar vi observationemas rnedelvli.rde x.
av arsrnodell 2001 eller tidigare antecknades. Sa hlir blev resultatet:
For varje observation x bestammer vi darefter differensen rnellan
observationen och rnedelvli.rdet, dvs. (x - x). 1 2 3 3 5 7
Sarntliga dessa differenser, varav vissa li.r positiva och andra negativa, Vi ska berakna standardavvikelsen for dessa observationer.
kvadreras. Vi beraknar alltsa (x - x) 2 .
Forst beraknar vi
Dli.refter surnrneras dessa n kvadrater. Resultatet blir kvadratsurnrnan
L,(x-x)2. L,x = 1+2 + 3 + 3 + 5 + 7 = 21
Denna kvadratsurnrna divideras med n - 1 . Dli.rrned far vi "nastan" ett
L,x 2 =1 2 +2 2 +3 2 +3 2 +5 2 +7 2 =97
rnedelvli.rde av de kvadrerade avvikelsema.
Slutligen beraknar vi den positiva kvadratroten ur detta rnedelvli.rde. Med berakningsformeln far vi
Resultatet, sorn kallas standardavvikelsen, far da samma dimension
sorn de observationer vi vill beskriva, till exernpel meter istallet for
kvadratrneter.
s=
Sorn vi ser innebli.r berakningama att bade surnrnor och differenser bildas. n-1
Det kravs alltsa rninst intervallskala for observationema, alltsa sarnrna
Detta li.r exakt samma resultat som vi skulle ha fatt med den ursprungliga
krav som vid berakning av rnedelvardet.
forrneln. Prova sjalv sa far du se!
Kommentar for den matematiskt intresserade: Man kan visa att en
kvadratsurnrna L (x - a ) alltid antar sitt rninsta vlirde om a =.X . Detta li.r
2

ett exempel pa minsta-kvadratmetoden. Se kapitel 4 och aven ovnings-


uppgift 312.
50 51
Lagg for ovrigt miirke till att ~:X 2 = 97 iir en summa av kvadrater medan 3.4 Normalfordelningsregeln
2
(L x) 2
= 21 = 441 ar en kvadrerad summa.
Man liir sig snabbt att beriikna standardavvikelsen. Men vad betyder olika
viirden pa standardavvikelsen?
Om vi har en frekvenstabell ser berakningsformeln ut sa hiir:
Statistiker har hiirlett ett antal sannolikhetsmodeller for att beskriva
variationen vid olika typer av undersokningar. Den viktigaste och mest
Standardavvikelsens berakningsformel vid frekvenstabell kiinda av dessa sannolikhetsmodeller iir normalfordelningen. I figur 3.1
och 3.2 ser du hur denna kan se ut.
L:fx2 - (L:f-x)2
s =1 n
I n-1

Exempel 9 (fortsattning pa exempel 6)


Tabellen visar antalet franvarodagar under en manad for 38 arbetstagare:

Franvaro/antal dagar (x) 0 1 2 3 4 5


Antal arbetstagare (f) 11 6 10 8 2 20 30 40 50 60 70 80 90 100

Figur 3.1 Tva normalfordelningar med samma standardavvikelse (JO) men olika
Sa hiir beriiknar vi standardavvikelsen:
medelviirden (50 och 70).

x f f x fx2
0 11 0 0
I 6 6 6
2 10 20 40
3 8 24 72
4 2 8 32
5 5 25
2
L:t = 38 L:Jx = 63 L:Jx =l75

2
10 20 30 40 50 60 70 80 90
175-__
s= 38 =1,38 Figur 3.2 Tre normalfordelningar med samma medelviirde (50) men olika
38 - 1 standardavvikelser (5, JO och 15).
For klassindelade material kan beriikningarna genomforas pa liknande satt.

52 53
Nagot kryptiskt kan vi saga att normalfordelningen ar en teoretisk modell
for att beskriva hur vissa typer av matvarden kan variera. Man kan visa att
fordelningen ar fullstandigt bestlirnd av medelvardet och standardav-
3.5 Ladagram
vikelsen. Kanner vi dessa parametrar vet vi alltsa hur kurvan ska ritas. Ett ltidagram eller en box-and-whiskers-plot eller kortare boxplot, som ar
Som vi ser kan normalfordelningen se ut pa olika satt, beroende pa de motsvarande engelska fackuttryck, beskriver olika egenskaper i ett
numeriska vardena pa medelvardet och standardavvikelsen. For alla statistiskt material. Ett ladagram visar det rninsta och det stOrsta icke-
normalfordelningar galler att kurvan ar symmetrisk kring sitt medelvarde. extrema vardet, de tre kvartilerna och eventuella extremvarden.
Mellan granserna x- x
s och + s finns cirka 68 procent av observa- John W Tukey (1915-2000) beskrev tekniken i sin bok Exploratory Data
tionerna och mellan granserna x- x
2 s och + 2 s cirka 95 procent. Analysis 1977. I en boxplot askactliggors variabelns "five number
I praktiken, dvs. i samband med riktiga undersokningar, ar vara matvarden summary". Dessa varden illustreras i figuren:
sallan eller aldrig exakt normalfordelade. Daremot ar det inte ovanligt att
observationerna ligger ungefar symmetriskt i forhfillande till medelvardet;
och med viss fantasi kanske ocksa ett diagram over materialet plirninner
om normalfordelningskurvan. 1---1 f I
For normalfordelade material ligger som vi nlirnnt ungefiir 95 procent av
1
min 1' median 'i'
'\' P75 t
max
x
observationema i intervallet 2 s . For inte alltfor stora symmetriskt
P25

fordelade material kan det darfor vara rirnligt att rakna med att difforensen
mellan det stOrsta och det rninsta vardet - variationsvidden - ar cirka fyra
standardavvikelser. De blida strecken ut frlin ladan (whiskers = morrhar) far enligt Tukeys
ursprungsdefinition inte vara langre an 1,5 ganger ladans langd. Skulle
Anta att vi har beraknat standardavvikelsen i ett statistiskt material Da kan nagon observation ha ett varde langre bort, betraktas det som avvikande
vi snabbt kontrollera rimligheten i vara berakningar genom att dela (outlier) och markeras med en ring eller asterisk i figuren.
variationsvidden med fyra Resultatet av en sactan berakning bestams belt
av det stOrsta och det minsta vardet och kan darfor ibland ge ganska I figuren betecknar min och max det rninsta respektive stOrsta vardet av de
opalitliga resultat. Men som en snabbkontroll fungerar trots detta metoden varden som inte ar outliers.
oftast ganska bra.
Exempel 10
I exempel 8 blev standardavvikelsen s = 1,4 enligt vara berakningar. Ar
detta ett rirnligt varde? Vi kontrollerar med motsvarande snabbupp- For de anstallda pa en avdelning finns foljande uppgifter om personemas
filder. Det ar sarnma material som i exempel 4 pa sidan 46.
skattning som blir (5 - 0) I 4 = 1,25. Snabbkontrollen ger alltsa ingen
anledning att tro att var berakning av standardavvikelsen ar felaktig. 19 19 20 21 21 24 25 25 27 27 27
28 28 30 30 33 34 34 35 35 38 39
40 40 43 47 47 48 50 55 64

I detta material ar det minsta viirdet 19 och det storsta viirdet 64.
De tre kvartilema ar 26, 33 (medianen) och 40.

54 55
Det kan finnas sarskild anledning att narmare granska de varden som vanster har alltsa dragits till den punkt dar det lagsta icke extrema vardet ar
kraftigt avviker fran materialets normalvarden. Deis kan dessa extrem- belaget. I exemplet ar detta punkten 19, dar materialets rninsta varde - som
vdrden vara felaktigt angivna (till exempel 64 i stallet for 46), dels kan de inte ar nagot extremvarde - ar belaget. Den hOgra linjen har dragits till
innehfilla sarskilt intressant information. punkten 55, som ar det stOrsta vardet av de varden som inte klassats som
extremvarden. Med var definition av extremvarden blir den storsta mojliga
Vad som ska menas med extremvarden ar en definitionsfraga. !bland
Hi.ngden av en linje 1,5 kvartilavstand. I vart exempel ar bada linjema
anvander man foljande terrninologi:
kortare.
De varden som ligger mer an 1,5 kvartilavstand till vanster om forsta
I diagrammet har extremvardet markerats med en ring. Hade avlagsna
kvartilen eller lika langt till hoger om tredje kvartilen kallar man
uteliggare forekomrnit skulle vi ha markerat dessa sarskilt, med en * till
uteliggare.
exempel.
Overstiger avstandet tre kvartilavstand talar man ibland om avldgsna
uteliggare.
De observationer som ar stOrre an 40+1,5( 40- 26) = 61 eller rnindre an
26 -1,5(40 - 26) = 5 ar alltsa uteliggare i vart exempel. En uteliggare 3.6 Med datorns hjalp
forekommer (64) men inget varde kan klassas som avlagsen uteliggare.
Vid en undersokning av 154 konkurser i ett sydsvenskt Hin noterades bland
Vi ritar nu ladagramrnet. Det ser ut sa har.
annat skuldemas storlek. Resultatet redovisades branschvis och inneholl
uppgifter om antalet konkurser (N), median (Median), medelvarde (Mean),
standardavvikelse (Std Dev) och minsta (Min) och stOrsta varde (Max).

Belopp I 1000 kr
Std.

HI
Bransch N Median Mean Deviation Minimum Maximum
)- 31 93 253 356 1,5 1214
2 43 17 147 635 ,7 4180
I 3 19 317 1575 2793 12,1 8600
4 18 58 320 665 17,6 2400
5 42 477 1511 2840 21,5 11763
Total 153 102 741 1925 ,7 11763

10 20 30 40 50 60 70

Alder/fir Det ar stora skillnader mellan stora och sma konkurser men det finns ocksa
stora skillnader mellan olika branscher. Lagg aven marke till den stora
Figur 3.3 Uulagram. Aldersfordelningenfor 31 anstii.llda. skillnaden mellan median och medelvarde - vad beror den pa?
Ladans vansterkant ar forsta kvartilen och hogerkanten tredje kvartilen. I
ladan finns ocksa medianen markerad. Ladans Hi.ngd motsvaras av kvartil-
avstandet, dvs. ladan innehfiller femtio procent av observationema.
Fran ladans kanter har vi dragit linjer till vanster och till hoger for att ange
var ovriga observationer utom extremvdrdena befinner sig. Linjen till

56 57
Om vi istallet vliljer att redovisa vart material branschvis med stamblad-
diagram ser man skillnadema mellan branscher mycket tydligt.
Ovningsuppgifter
~ 301
Hur manga ganger gick du pa teater forra aret? I en undersokning av
4-
t *
kulturkonsumtionen i en kommun stallde man bland annat den fragan.
r.
... Tjugo personer svarade sa har:
~ 3-
!!!
{]-1
Ill

2-
.,. 1
2
1
0
5
0
2
0
0
0
8
3
1
0
2
0
2
2
7
1

a) Diskutera de statistiska uppgiftemas kvalitet.


1-
IJ-P ** b) Illustrera materialet med ett lampligt diagram.
c) Berakna tre olika matt pa genomsnittet i materialet.
I I I I
0 2000
I
4000
I
6000
I
8000 10000 12000 d) Berakna variationsvidden och gor en grov uppskattning av standard-
Belopp / 1000 kr
avvikelsen.
e) Berakna standardavvikelsen.
Ett fatal mycket stora konkurser pa mellan fyra och tolv miljoner kronor
f) Berakna kvartilema. .
gor att diagrammet blir svart att avlasa. Ritar man om diagrarnmet med
g) Anta nu att vi istallet fragar Gick du pa teater forra aret? och kodar
maximivardet 3 000 - dvs. 3 miljoner kronor - pa den vagrata axeln blir
svaren sa att "ja" far vardet ett och "nej" vardet noll. Vilka matvarden
jamforelsen av boxarna annu tydligare.
far vi da for de 20 personema? Berakna medel vardet for denna _,0-1-
variabel. Hur kan detta medelvarde tolkas?
r-j~~~~~~~t--~~~~~---i
302
En auktionsfirrna i Malmo sfilde nitton farglitografier av Lennart Jirlow.
r.
t Priserna, inklusive koparprovision, avrundade till hundratal kronor blev:
~3 r-j~~'~~~1--~~~__, 6 800 5 600 5 600 10 200 6 100 4 400 5 300 8-700 4 600 5 800
Ill
7 500 7 500 4 200 ' 5 100 12 700 5 800 6 800 7 300 4 200
&o ..
a) Berakna medianpriset och kvartilema.
([}----i CD b) Illustrera materialet med ett Iadagram (boxplot).
c) Berakna medelvardet och standardavvikelsen.
500 1 000 1 500 2 000 2 500 3000 d) Anvand variationsvidden for att gora en rimlighetsbedomning av
Bel opp / 1000 kr
standardavvikelsen i c).
e) Hur manga av observationema hamnar mellan x- x
s och + s ? Hur val
stammer detta med norrnalfordelningsregeln?

58 59
303 306
En kvallskurs, som omfattar fjorton sammankomster, har nio anmalda I en Friskis&Svettis-forening ar 80 procent av medlemmarna kvinnor. I
deltagare. Efter avslutad kurs ser narvarostatistiken ut pa foljande satt: foreningens verksamhetsberattelse redovisas aldersfordelningarna sa har:

Antal niirvarande Antal kviillar Man Kvinnor

6 3 Alder/ar Procent Medelalder/ar Procent Medelfilder/ar


7 7
:::; 25 77 21,5 19 23,2
8 3
9 1 > 25 23 31,6 81 42,3

a) Hur manga personer deltar i genomsnitt i sammankomstema? a) Berakna medelfildem for foreningens kvinnliga medlemmar.
b) Berakna standardavvikelsen. . b) Berakna medelaldern for samtliga medlemmar i foreningen.

304 307
I en rapport fran en konsumtionsundersokning fanns denna tabell over Tabellen visar .antalet anstallda och medelfildem pa tva avdelningar inom
husMllens manadsutgifter av ett visst slag: ett foretag:

Utgifter/ Relativ fOrdelning/ Antal anstiillda Medelalder/ar


kr procent Personalavdelningen 7 55
1000 - 1999 12 Ekonomiavdelningen 5 40
2 000-2 999 21
3 000 - 3 999 42 I samband med en omorganisation flyttas en person fran personalavdel-
4000-4999 17 ningen till ekonorniavdelningen. Efter omorganisationen blir medelfildern
5000 - 5999 8 inom ekonomiavdelningen 41 ar.
a) Berakna aldem for den person som forflyttades.
a) Gor en uppskattning av de genomsnittliga utgifterna.
b) Berakna medelfildern pa personalavdelningen efter omorganisationen.
b) Uppskatta medianutgiftema.
c) Varfor okar medelfildern pa bacta avdelningama?
305
308
I en vallokalundersokning 1995 (VALU) fick valjama anonymt fylla i ett
Pa ett foretag finns femton personer pa avloningslistan. Medellonen ar 400
frageformular. Fraga 2 pa blanketten hade foljande utformning:
tusen kronor per ar. Fjorton av personema har en arslOn pa cirka 180 tusen
Vilket ar ar Du fOdd? Ar 1 9 kronor. Hur mycket tjanar den femtonde personen, som overraskande nog
ocksa ar foretagets agare?
Ett av de mer hapnadsvackande resultaten i undersokningen var att medel-
fildem bland valjarna i ett valdistrikt var mycket hog, 72 ar. Vid en
narmare kontroll visade det sig att detta resultat berodde pa en felaktighet.
309
Linjara transformationer. Berakna medelvarden och standardavvikelser
For 37 av sammanlagt 92 personer som deltog i undersokningen hade man
for foljande tre statistiska material och jamfor resultaten.
rapporterat fodelsearet 1900 (dvs. fildem 95 ar) medan personerna i sjalva
verket inte alls besvarat fragan. Vad var medelaldem for de personer som Material A 3 5 4 7 5
besvarat fragan? Material B 0,3 0,5 0,4 0,7 0,5
Material C 100,3 100,5 100,4 100,7 100,5

60 61
310
Den bland ekonomer valkande bankiren Joakim von Anka raknar vid fem 4 Regression och korrelation
tillfallen enkronoma i sin bassang och far foljande resultat:
19200000 19200001 19200001 19200002 19200004
a) Berakna medelvardet for dessa observationer.
b) Berakna standardavvikelsen.
Dagligen !Oser vi praktiska problem genom att gora berakningar, som
311 bygger pa matematiska samband.
Normering och standardisering. Har ser du fem observationer. De har
x
medelvardet = 4,0 och standardavvikelsen s = 2,0. Exempel 1
x: 5 3 1 6 5 Viktoria ska gora sin arliga shoppingresa till England. Hon tanker ta med
a) Transformera vardena enligt uttrycket y = (x - min) I (max- min) dar sig tva hundra pund i kontanter och ringer till sin bank och fragar vad det
"min" betyder <let minsta vardet och "max" <let st6rsta. Vilka blir y- kostar. Vaxlingsavgiften ar 30 kronor och ett pund kostar 13,04 kronor.
vardena? Vilket ar <let storsta och <let minsta vardet for y? Snabbt raknar Viktoria ut att hon maste betala 2638 kronor.
b) Transformera vardena enligt formeln z = (x - i) Is. Vilka blir z- Det finns ett enkelt samband mellan kostnaden (y) och antalet pund (x).
vardena? Berakna medelvardet och standardavvikelsen for z. Det kan skrivas sa har:

312
y =30+13,04 . x
En liten butikskedja har fem butiker som samtliga ligger langs en riksvag Detta ar ett linjart matematiskt samband. Det kan beskrivas med en rat
enligt "kartan" nedan. A vstanden i kilometer fran butiken som ligger linje i ett diagram och <let galler exakt. Nar Viktoria vet hur manga pund
langst vasterut till var och en av de ovriga anges under respektive butik. hon vill ha kan banken direkt tala om vad hon maste betala.

30 Exempel 2
200
0 120 150 Erika har sett ett runt matbord i ett skyltfonster. Men hur start ar <let
egentligen? Far <let egentligen plats darhemma i koket? Hon far veta att
Ett gemensamt lager ska byggas nagonstans Iangs vagen. Det ska antingen bordets radie ar 120 centimeter och raknar snabbt ut att ytan ar 4,52
byggas vid en av butikema eller vid en to mt som ligger 100 km fran kvadratmeter. For hon minns sa klart sambandet mellan en cirkels area (y)
butiken langst vasterut. Vi ska rakna pa tva alternativ. och <less radie (x)! Det ser ut sa har
a) Transportkostnaden ar 100 kr ganger avstandet till respektive butik. Yid
vilken av de fyra foreslagna platserna (30, 100, 120 eller 150) ska lagret y = TC x 2
byggas om den totala kostnaden ska minimeras?
b) Minsta-kvadratmetoden. Transportkostnaden ar lika med avstandet i och ar ett exempel pa ett kvadratiskt matematiskt samband. Nar man vet en
kvadrat till varje butik. Vid vilken av de foreslagna platserna ska lagret cirkels radie kan man ocksa exakt bestarnma hur star arean ar.
byggas om den totala kostnaden ska minimeras?
c) Berakna medelvardet och medianvardet for de fem avstanden som anges
pa kartan. Jamfor med resultaten i a) och b).

62 63
Exempel3 Vart fornuft och var erfarenhet sager att det finns ett samband mellan
langd och iilder for barn och mellan pris och arsmodell for bilar. Men vi
Isabella har flyttat in i en ny tjusig lagenhet. Hur stort ar vardagsrummet?
inser ocksa att dessa samband inte ar matematiska och exakta utan sta-
fragar farmor. Jo, 40 kvadratmeter! Kortsidan ar namligen fem meter och
tistiska och ungefarliga. Fragan ar da: Hur kan sadana samband se ut? Och
langsidan atta meter och det matematiska sambandet mellan en rektangels
hur starka ar sambanden?
area (y) och dess bada sidor ( x 1 och x 2 ) ar
Sa har tanker en statistiker!
y =X1 X2

Cirkelns area ar bara beroende av en faktor (radien) medan rektangelns Exempel4


area bestams av tva faktorer. Men i bada fallen kan vi bestamma arean For atta barn har vi uppgifter om filder och langd:
exakt.
Har kommer nagra andra praktiska problem att grubbla pa. Men den har Tabell 4.1 Kroppslangd och alder for atta barn
gangen finns det inte nagot enkelt och sjalvklart facit. Barn A B C D E F G H
Lasse ska kopa en bil till Margareta. En fem ar gamma! Golf, har han tankt Alder/ar 1 2 3 3 4 4 5 6
sig. Annars blir det for dyrt. Hur mycket kostar en san bil? Langd/cm 68 91 102 107 105 114 115 127
Professor W ska kora fran Staffanstorp till Halmstad for att halla en av sina
beromda forelasningar. Hur lang tid tar resan? Har har vi ett statistiskt material med tva matvarden for varje individ.
Dessa observationspar ritar vi in i ett spridningsdiagram:
Tuva ar tre ar. Hur lang ar hon?
Vi inser nog att det inte finns nagra exakta svar pa de tre fragor vi stallt. 140
Priset pa begagnade bilar av ett visst marke beror inte enbart av dess iilder.
120
Korstrackan, antalet tidigare agare, extrautrustning, bilens allmanna
kondition och skick ar ocksa av betydelse. Men praktiskt !Oser Lasse detta 100'
problem genom att ringa runt till ett antal bilhandlare och ocksa studera E
u 80
annonser. Da far han en uppfattning om vad en fem ar gamma! Golf kostar =g,
. c:
60

ungefar. 'Cll
...J

40'
Ingen kan heller saga exakt hur lang tid det tar att kora fran Staffanstorp
till Halmstad nasta gang vi ska gora den turen. Det beror pa en rad 20
faktorer, du kan sjalv fundera over detta. Men den som kort denna stracka 0
manga ganger vet sa klart hur lang tid det brukar ta ungefar. 0 2 3 4 5 6 7

Den som aldrig har traffat Tuva kan inte heller saga hur lang hon ar. Det Alder/ar

racker inte att veta hennes alder - alla treiiringar ar inte lika langa. Figur 4.1 Spridningsdiagram. Kroppsliingd och alder for atta barn
Langden beror till exempel ocksa pa foraldrarnas langd. Men givetvis kan
man genom att mata manga trearingar ta reda pa hur langa de ar i Diagrarnmet bekraftar vad vi redan visste, namligen att aldre barn i
genomsnitt. Om Tuva sen ar langre eller kortare an detta genomsnitt ar en genomsnitt ar langre an yngre barn. Vi sager att det finns ett positivt
annan fraga. samband mellan alder och langd.

64 65
Ett positivt sarnband eller en positiv korrelation innebl.ir alltsa att hoga Vid analys av sarnband ar det naturligt att diskutera vad som l.ir orsak och
varden pa den ena variabeln oftast motsvaras av hoga varden pa den andra vad som l.ir verkan. !bland l.ir orsakssambandet mellan variablema helt
variabeln. Sarntidigt rnotsvaras laga vl.irden pa den ena variabeln oftast av uppenbart.
laga varden pa den andra variabeln.
For begagnade bilar l.ir priset beroende av aldem, inte tvartorn. Man kan
Nl.ir vi sager att det finns ett positivt sarnband rnellan tva variabler ar detta saga att Aldem i viss man forklarar priset. A.Idem l.ir alltsa den oberoende
alltsa en bedornning av rnaterialet i stort. Enskilda observationer kan eller forklarande variabeln och priset den beroende variabeln.
avvika fran vad som galler i genomsnitt. Men ju fler observationer som
foljer huvudtendensen i materialet desto starkare maste sambandet vara. Barns kroppslangd (den beroende variabeln) l.ir beroende av aldem (den
oberoende variabeln). Kroppslangden l.ir en funktion av aldem.
Material A Material B Nl.ir orsakssambandet l.ir entydigt sager man att sarnbandet l.ir ensidigt. Det
gar bara i en riktning, fran den ena variabeln till den andra. Schematiskt
.. kan man aterge detta pa foljande satt:
. ...
. . X-::=>Y Ensidigt samband

Har l.ir alltsa X den oberoende och Y den beroende variabeln.


lbland l.ir det inte mojligt att skilja rnellan orsak och verkan. Mellan
Figur 4.2 Spridningsdiagram. Negativt korrelerade variabler. Sambandet mellan inkomst och aktieinnehav finns inget enkelt orsakssarnband. Vad som l.ir
variablerna i material A i:ir svagare an i material B oberoende och vad som ar beroende variabel l.ir inte mojligt att ange. Vi
sager dl.irfor att sarnbandet ar ornsesidigt. Schematiskt kan detta beskrivas
I figur 4.2 ser vi tva spridningsdiagrarn med negativt korrelerade sa bar:
variabler. I material B l.ir punktsvl.irmen mer samlad kring en tankt linje an
i material A, sorn har en stOrre spridning. Detta innebl.ir att sarnbandet x~Y Omsesidigt samband
rnellan variablema i material B l.ir starkare an i material A.
I figur 4.3 ser vi tre material med okorrelerade variabler. lbland ger sambandsstudier forbryllande resultat. I massmedia redovisas
standigt nya sensationella samband mellan variabler, som man rent

.. .. fomuftsmassigt tycker borde vara oberoende. Da l.ir det klokt att lita pa sitt
sunda fomuft. Till orimliga sarnband - nonsenssamband eller skensam-
.. .. . ..
. . ..
band - finns det oftast enkla forklaringar.
En forklaring kan vara att slumpen har spelat oss ett spratt. Om man i en
.. undersokning studerar 80 olika variabler ar det teoretiskt mojligt att gora
sambandsberakningar for inte rnindre an 3 160 olika kombinationer av tva
variabler. Med alla dessa kombinationsmojligheter bOr vi inte bli
forvanade over att hitta ett antal skensarnband. Gor vi vid ett senare
tillfalle om undersokningen komrner vi formodligen ocksa hitta vissa
Figur 4.3 Spridningsdiagram. Tre material med okorrelerade variabler
skensamband men troligen inte sarnma som vid forsta tillfallet. I begreppet
slump Jigger just att det blir olika resultat fran gang till gang.
66 67
Exempel 5 Sjalvklart inte! Detar inte heller troligt att slumpen har astadkommit detta
I tabellen redovisas antal lbsta radiolicenser och noterade fall av mentala resultat. Forklaringen ar en helt annan. I sjalva verket bestar materialet av
defekter i England under aren 1924-1937: tva helt oberoende tidsserier. En tidsserie ar alltsa en lopande foljd av
observationer, som oftast ar gjorda med samma tidsavstand, i vart exempel
ett ar. De tva tidsseriema redovisas parallellt under ett antal ar men
Antal Personer med mentala
Ar radiolicenser/ defekter per 10 000 av materialet bestar inte av observationspar. Det finns inga gemensamma
1000-tal befolkningen individer, som matningarna har gjorts pa, och <let ena vardet har
1924 1 350 8
naturligtvis ingen anknytning alls till <let andra.
1925 1 960 8 Den allmanna utvecklingen i England under aren 1924-1937 ar huvud-
1926 2 270 9
1927 2 483 10 orsaken till bade okningen i antalet radiolicenser och antalet registrerade
1928 2 730 11 mentalsjuka. Under denna period okade det allmanna valstandet. Bade
1929 3 091 11 radiotekniken och intresset for psykiatrisk forskning och behandling okade
1930 3 647 12 starkt, men - givetvis - helt oberoende av varandra. Det som intraffat ar
1931 4620 16
1932 5 497 18 alltsa att de tva variablema (X och Y) samtidigt och pa likartat satt
1933 6 260 19 paverkats av en tredje variabel (Z), vilket schematiskt kan beskrivas sa har:
1934 7 012 20
1935
1936
7 618
8 131
21
22
z
!'. ~ Skensamband
1937 8 593 23
X---- - Y
Kalla: Herman Wold, Orientering i det statistiska arbetsfdltet, 1963
Deff oberoende variabeln Z paverkar samtidigt bade X och Y. Detta
uppfattas felaktigt som att X och Y ar beroende variabler.
25 ---r-~~~~~~~~~~~~~~~

Var inledande diskussion har visat att sambandet mellan tva variabler kan
~
~
20-
se ut pa olika satt. !bland kan en rat linje ge en bra beskrivning. For andra
~ 15- material kanske ett polynom eller en exponentialfunktion ger en battre
Cll beskrivning. Ett spridningsdiagram kan vagleda oss sa att vi valjer en

c 10-

]i
lamplig funktion.
~ 5-
For att analysen ska bli realistisk kravs ofta att man samtidigt studerar
0-1 sambandet mellan en beroende variabel och flera forklarande variabler.
0 2000 4000 6000 8000 10000 Om de forklarande variabler vi valt ar starkt beroende av varandra mater vi
Radiolicenser
ett sarskilt problem kallat multikollinearitet. I vart tidigare exempel med
Figur 4.4 Spridningsdiagram. Diagrammet visar utvecklingen av antalet ZOsta begagnade bilar finns det sjalvklart ett positivt samband mellan ruder och
radiolicenser och personer med mentala defekter per 10 000 av befolkningen i korstracka. Den har typen av problem behandlas i multipel regressions-
England under aren 1924-1937 analys, som vi aterkommer till i kapitel 9.

Detta ser ut som ett linjart samband! Men - tank efter ett ogonblick! Finns Vid sambandsstudier kan <let alltsa finnas manga problem att losa. Har
<let egentligen nagot orsakssamband? maste vi noja oss med denna korta orientering nar vi nu overgar till att
beratta om enkel linjar regression.

68 69
Om vi skriver regressionslinjen
4.1 Minsta-kvadratmetoden. Bestamning
y = a+b x
av regressionslinjen
innebar MK-metoden att konstanterna a och b i linjens ekvation ska be-
Lat oss anta att det verkligen finns ett orsakssamband mellan tva variabler stammas sa att kvadratsumman
och att spridningsdiagrammet visar att detta samband bast kan beskrivas
med en rat linje. Da kan man pa fri hand rita en sadan linje och med hjalp ~]y - (a + b x) ]2
av en linjal bestamma dess ekvation.
blir sa liten som mojligt. For att gora en Hing historia kort presenterar vi
Minsta-kvadratmetoden - liven kallad MK-metoden - ar en mer objektiv lOsningen direkt:
men ocksa mer komplicerad metod att anpassa en rat linje - en regres-
sionslinje - till ett material av observationspar. MK-metoden, som
forutsatter rninst intervallskala for matvardena, fungerar sa bar: MK-metoden innebdr att konstantema a och b i den rdta
linjens ekvation
Vi tanker oss en linje genom punktsvarmen.
For varje punkt mater vi avstandet - parallellt med y-axeln - till linjen. y=a+b x
Vi kvadrerar alla dessa avstand ocb summerar kvadraterna. kan bestdmmas med foljande uttryck:
Slutligen bestammer vi linjens ekvation sa att denna kvadratsumma
blir sa liten som mojligt. a = y-bx
ddr y och x ii.r medelvii.rdena for de blida variable ma och
y LXLY
b-
L:(x - xXy - y) -2:.xy- n
-- - -- -
+ 2
- 2:(x - x) - 2:x 2 _ {Lx)2
Yi ..................................................................
Dessa avstand n
kvadreras och
summeras
a+bX;
a anger var regressionslinjen skar y-axeln. Om x-variabeln kan anta vardet
noll kan a tolkas som det varde som variabeln y i genomsnitt antar nar
variabeln x = 0 .
b ar linjens riktningskoefficient och kallas regressionskoefficienten. Den
anger med bur manga enheter y andras niir x okar med en enhet. Det sista
x uttrycket for b iir enklast att anvanda vid numeriska berfilmingar.
Detta resonemang var kanske inte belt enkelt att folja. Men vi ska i
Figur 4.5 Figuren illustrerar MK-metoden
exemplet pa nasta sida visa att de praktiska berlikningarna iir enkla.

71
Exempel 6 140

For de atta barnen i exempel 4 ska vi bestamma en regressionslinje som 120

visar hur kroppsliingden (y) i genomsnitt varierar med aldem (x). Forst 100
beriiknar vi de summor som behovs: E
u 80
'>
60
Barn x y x2 ~
xy
40
A 1 68 68
20
B 2 91 4 182
c 3 102 9 306 0
0 2 3 4 5 6 7
D 3 107 9 321
E 4 105 16 420 Alderfar
F 4 114 16 456
G 5 115 25 575 Figur 4.6 Spridningsdiagram med regressionslinje
H 6 127 36 762
Regressionslinjen iir den linje som i MK-metodens mening bast beskriver
~:::x = 28 L:y = 829 2
L:x = 116 L:xy=3090 genomsnittssambandet mellan langd och alder for de atta barnen. Som vi
vet bestams ett barns langd inte bara av aldem utan ocksa av en rad andra
Dessutom vet vi att n = 8 (antalet barn) . faktorer. Darfor ger regressionslinjen oss inga mojligheter att med hjalp av
ett barns ruder exakt ange dess langd. Materialet ar litet men i princip
Regressionskoefficienten blir innebiir linjen att barn i fildem x ar i genomsnitt iir
y = 67,0 + 10,5x
3090 - 28 . 829
8 188 5 centimeter langa. Kring detta genomsnittsviirde finns det individuella
- - - - = :- = ' = 104722::::;10 5
2
116 - 28 18 ' ' variationer; det finns en spridning kring regressionslinjen.
8 Genom att satta in olika varden pa den oberoende variabeln (fildem) i
Lagg miirke till att uttrycket L .xy iir en summa av produkter medan regressionslinjens ekvation kan vi uppskatta den beroende variabelns
viirde. Sadana uppskattningar kallar man for prediktioner.
LX LY iir en produkt av tva summor.
For fyra ar gamla barn uppskattar vi medellangden till
_ LX 28 829
x=- =- =35
n 8 '
Y- = LY=
n 8
= 103 625
'
67,0+10,5 . 4 = 109
centimeter.
a= y- b i = 103,625 - 10,4722 3,5 = 66,9723 : : : 67,0
Prediktioner forutsatter att regressionslinjen ger en god beskrivning av
Regressionslinjen blir sambandet. Det iir ofta felaktigt att gora prediktioner utanfor det varia-
y = 67,0 + 10,5x tionsomracte som vi studerat. Den som med stOd av regressionslinjen
havdar att nyfodda barn i genomsnitt iir 67 centimeter eller att 63-anngar
och denna linje och de ursprungliga observationema ser vi i figur 4.6. iir mer an sju meter langa (hemska tanke!) far finna sig i att inte bli trodd.
Som alltid galler att sunt fomuft iir betydligt mer viirdefullt an formler och
mekaniska beriikningar.
72 73
pa spridningen kring regressionslinjen beraknar man darfor residualsprid-
4.2 Spridningen kring regressionslinjen ningen se.
Om vi i vfut exempel jamfor de varden som den beroende variabeln
(langden) har antagit med motsvarande uppskattade eller anpassade
viirden far vi en uppfattning om hur val regressionslinjen beskriver Residualspridningen se kring regressionslinjen y = a+ b x iir
sambandet mellan de bada variablerna.
Barn A (som ar 1 ar) ar i verkligheten
y=68
Residualspridningens kvadrat kallas residualvariansen
centimeter. Motsvarande uppskattning ar
y = 66,9723 + 10,4722 . 1 = 77,44 Nar vi beraknar den vanliga standardavvikelsen kring medelvardet har vi
Skillnaden, som kallas residualen, blir alltsa n - 1 i narnnaren. Da far vi i en viss mening den basta uppskattningen.
Men nar vi beraknar residualspridningen eller standardavvikelsen kring
e=y - y = 68 - 77,44 = -9,44
regressionslinjen ska kvadratsumman istallet delas med n - 2 .
Pa samma satt kan ovriga residualer beraknas. Resultatet visas grafiskt i
I vfut exempel blir residualspridningen
figur 4.7 och i foljande sammanstallning, som ocksa innehfiller residua-
lemas kvadrater. For att undvika alltfor stora avrundningsfel i slutresultatet
arbetar vi med nagot stOrre exakthet pa konstanterna a och b. s =~Le2 = 253,7284 =6,5029~6,5
e n- 2 8- 2

Barn x y y e e2 Sa har beraknar man alltsa residualspridningen med definitionsformeln.


Som du ser blir det ganskajobbiga berakningar. Men -var inte orolig! Det
A 1 68 77,44 - 9,44 89,1136 finns ett mycket enklare satt. Det visar vi i nasta avsnitt.
I B 2 91 87,92 3,08 9,4864
c 3 102 98,39 3,61 13,0321
D 10
3 107 98,39 8,61 74,1321
E 4 105 108,86 -3,86 14,8996
F 4 114 108,86 5,14 26,4196
G 5 115 119,33 -4,33 18,7489
5
H 6 127 129,81 - 2,81 7,8961
Summa 28 829 829,00 0,00 253,7284
~
:12
"'
0
r
l 1
Q)
a::

Raknar man med farre decimaler i koefficienterna a och b kan det bli a
{)

avrundningsfel sa att summan av de anpassade vardena y inte blir exakt


lika med summan av de observerade vardena y. 10 a I
0 1 2 3 4 5 6 7
MK-metoden innebar att vi bestlimmer regressionslinjen sa att residual- J.Jder/ar
kvadratsumman L e blir sa liten som mojligt. Denna kvadratsumma ar ett
2

matt pa variationen kring linjen, dvs. hur val regressionslinjen beskriver Figur 4. 7 Spridningsdiagram med residualema plottade mot alder.
materialet. Men kvadratsummans storlek bestams inte bara av variationen
kring linjen utan ocksa av antalet observationer i materialet. Som ett matt
74 75

[,
Ii
~
- - .
'
4.3 Hur starkt ar sambandet? r 2 anger hur stor del av den totala variationen for den beroende variabeln
som forklaras av det linjara sambandet med den oberoende variabeln.
Som ett matt pa det linjara sambandets styrka kan man berfilma korrela-
tionskoefficienten r. Da anvander vi foljande formel: I vart exempel ar korrelationskoefficienten mellan langd och alder
r = 0,9413. Detta innebar att deterrninationskoefficienten blir

r 2 = 0,9413 2 = 0,8860"" 88,6%


Resultatet innebar att nastan 89 procent av variationen i kroppslangd beror
pa att barnen inte ar lika gamla.
Vi har tidigare utlovat en enklare formel for berakning av residual-
spridningen. Har ar den:
Residualspridningen s e kan beraknas med uttrycket
Samtliga summor i detta uttryck har vi berfilmat i vart exempel och far

3090 - 28 . 829
8 188 5
r= -;== = = = ======= =0,9413R:0,94
28 ) (2
829 ) 2
~18 . 2227,875 dar s Y Cir standardavvikelsen for y-variabeln och r korre-
[ 116-8 88133-8
lationskoefficienten.

Hur ska korrelationskoefficienten tolkas?


Anvand denna formel for att berfilma residualspridningen i vart exempel.
Forst konstaterar vi att r alltid antar varden mellan minus och plus ett, dvs. Da ser du att resultatet blir exakt detsamma.
-1::; r::; 1 Av formeln framgar att om korrelationen ar exakt + 1 eller -1 blir s e =0
r = -1 innebar att sambandet ar negativt och att samtliga observa- eftersom (1 - r 2 ) = 0. Da finns det ingen spridning kring linjen, vilket
tioner ligger pa regressionslinjen.
innebar att samtliga observationer Jigger pa linjen.
r = 1 innebar att sambandet ar positivt och att samtliga observationer Korrelationskoefficienten mater alltsa om det finns ett linjart samband
ligger pa regressionslinjen. mellan tva variabler, dvs. om det ar lampligt att beskriva sambandet mellan
variablerna med en rat linje.
Om korrelationskoefficienten ar nara ett (plus eller minus) innebar detta Far vi ett varde nara ett (plus eller minus) kan det vara lampligt att
att observationerna ligger val samlade kring regressionslinjen. Korrela- beskriva sambandet mellan variablerna med en rat linje.
tionskoefficienten r = 0,94 i vart exempel innebar alltsa ett starkt positivt
Far vi ett varde nara noll kan vi inte beskriva sambandet med en rat linje.
linjart samband mellan langd och alder for de aktuella aldersgrupperna.
Av detta kan vi inte automatiskt dra slutsatsen att variablerna ar oberoen-
Men vad menas egentligen med ett starkt linjart samband? Den fragan de. Forst maste vi undersoka om det finns ett samband som kan beskrivas
besvarar man enklast genom att berfilma kvadraten pa korrelations- pa nagot annat satt, till exempel med en andragradsfunktion. I ovnings-
koefficienten. Da far man determinationskoefficienten. Man kan visa att uppgift 404 ger vi en praktisk tillampning pa detta.

76 77
Korrelationskoefficienten i detta material ar r = -0,06. Men om vi
4.4 Hur paverkas korrelations- granskar materialet narmare ser vi att det i sjalva verket finns ett perfekt
koefficienten av extremvarden? linjiirt samband (r = 1) mellan variablerna for fem av observationerna. En
enda observation (10,1) avviker fran detta monster. Detta enda varde, som
Har ser du ett spridningsdiagram med elva parvisa observationer.
kanske ar felaktigt i nagot avseende, forvranger alltsa berakningarna
Korrelationskoefficienten ar 0,97 . Vad beror detta hdga varde pa?
fullstandigt.
100, _,.-----------~.
Vardet pa korrelationskoefficienten kan alltsa paverkas i stor utstrac.kning
90-
av extremvarden i materialet. En god regel kan darfor vara att inleda
80 -
bearbetningen med en granskning av observationerna, till exempel med
>. 70 -

--...
hjalp av ett spridningsdiagram. Forst darefter bOr de numeriska
60 -
berakningarna pabOrjas.
50 -
40 --,_-~---~-~.--~
, -----y', Aven stympning av ett statistiskt material kan paverka korrelations-
40 50 60 70 80 90 100 koefficientens varde. I uppgift 403 och 413 ger vi praktiska tillampningar
x
pa detta.
Figur 4.8 Spridningsdiagram med ett extremt talpar.

I spridningsdiagrammet ar det svart att se nagot samband mellan variab-


lerna. Men vi liigger marke till att det finns ett extremt avvikande talpar:
(99,99). Lat oss anta att detta varde inte ar korrekt eller att det inte ar ett 4.5 Ekologisk korrelation
vanligt matvarde. Vardet kan alltsa vara felaktigt angivet - (99,99) kanske
istallet ska vara (49,49). Det kan ocksa vara korrekt angivet men vara ett Korrelationskoefficienten forutsatter parvisa observationer for individer,
kodvarde av nagot slag, till exempel med betydelsen att svar saknas. till exempel uppgifter om langd och vikt for tjugo barn eller pris och alder
for 34 bilar. !bland har man inte tillgang till de enskilda individernas
Stryks extremvardet blir korrelationskoefficenten r = -0,04 for de ater- matvarden, daremot kanske man kanner medelvarden eller procenttal for
staende tio observationerna. Det tidigare vardet har alltsa fullstandigt grupper av individer. Nar korrelationskoefficienten beraknas pa denna typ
bestamts av det extrema och kanske felaktiga observationsvardet. av aggregerade data anvander man benamningen ekologisk korrelation.
I figur 4.9 visas sex parvisa observationer. Anta att vi ar intresserade av att studera sambandet mellan pris och
efterfragan pa en viss produkt. Da borde undersokningen innebara att vi
5- for ett antal konsumenter tar reda pa i vilken utstrackning de forandrar sin
4- konsumtion nar priset andras. lstallet beraknar man ibland korrelations-
>.
3- koefficienten mellan olika medelpriser for varan i fraga och den totala
2- efterfragan dessa medelpriser leder till.
1- Med liknande metoder analyserar man valresultat. Hur enskilda valjare har
o-
--..-r-.---.r-,-
,,,-,.,--.-.--
, ~
,--r
, rostat ar visserligen hemligt, men vi kanner antalet roster som partierna fatt
0 1 2 3 4 5 6 7 8 9 10
x i de olika valdistrikten. Vi kanner ocksa valjarnas fordelning efter kon,
Figur 4.9 Spridningsdiagram med ett extremt talpar alder, yrke etc. i varje valdistrikt. Med hjalp av dessa uppgifter forsoker
man sedan beskriva hur olika kategorier av valjare rostar.

78 79
I en undersokning fran 1955 studerades sambandet mellan rokning och
lungcancer pa foljande satt. For elva lander beraknade man korrelations-
4.6 Med datorns hjalp
koefficienten mellan cigarrettkonsumtionen per invanare 1930 och dOdlig- De berakningar som vi hittills med viss mOda utfort for hand med hjalp av
heten i lungcancer 20 ar senare. Korrelationen blev 0,7 och tolkades som en enkel fickraknare gar man snabbt med datorns hjalp. Vi ska nu lata de
ett bevis pa att sambandet mellan rokning och lungcancer ar starkt. Senare bada statistikprogrammen Minitab och SPSS gora berakningar pa mate-
undersokningar har visat att det forhfiller sig sa. Men fragan ar: Kan man rialet i exempel 4 pa sidan 65, dvs. det material som vi anvant genom hela
dra en sadan slutsats fran denna undersokning? kapitel 4 for att illustrera tekniken vid regressionsanalys.
Man kan resonera sa har. Nar korrelationskoefficienten beraknas pa Minitab ger foljande utskrift i bildskarmen:
gruppmedelvarden istallet for individvarden innebar detta att man inte tar
hansyn till den spridning som finns inom varje grupp och som givetvis Regressionsekvationen
forsvagar sambandet. Ett vanligt resultat ar darfor att den ekologiska
korrelationskoefficienten overskattar den verkliga korrelationen. I uppgift
414 ges ett exempel pa detta. Regressionskoefficienterna
The regression equation i s
Vi kan alltsa konstatera att en korrelationskoefficient som beraknas pa Langd = 67,0 + 10,5 Alder
medelvarden och procenttal inte alltid har en motsvarighet pa individ- Predictor Coef SE Coef T p
planet. Det galler sambandets styrka men det kan ocksa galla sambandets Constant 66,972 5,838 11, 47 0,000
riktning. Det finns alltsa anledning att vara sarskilt forsiktig nar man tolkar Alder 10,472 1 ,533 6,83 0,000
ekologiska korrelationskoefficienter. s = 6,50463 R-sq 88,6% R-sq{adj) = 86,7%
Variance

Source SS MS F p
Regression 19 74 ,0 197 4,0 46,66 0,000
Error 253,9 42,3
Total 2227,9

Residualspridningen och
determinationskoefficienten

Du kanner sakert igen en del varden i utskriften. Regressionsekvationen


blev y = 67,0 + 10,5x . Har star variabelnamnen Langd och Alder i stfillet
for y och x. Residualspridningen blev 6,505 och determinations-
koefficienten 88,6 procent precis som vi tidigare raknat ut. Observera:
forvaxla inte residualspridningen, som har betecknas S, med den vanliga
standardavvikelsen !
Forutom de varden vi kanner igen gar Minitab ytterligare berakningar som
kan anvandas vid en mer fullstandig analys av materialet.

80 81
Later vi SPSS analysera samma datamaterial far vi en utskrift, som vid en
hastig blick ser annorlunda ut. Uppstallningen ar gjord pa ett annat satt och
Ovningsuppgifter
det finns ocksa skillnader mellan beteckningarna. Men vid ett noggrannare
studium visar det sig att det ar nastan exakt samma berakningar som gjorts. 401
I tabellen redovisas manadslOn och ruder for nio personer pa ett foretag:
.-------- /'Korrelationskoeff'1c1enten
. ' Person A B C D E F G H I
~------------- -------
------:::,,. . .,: : . . __--i Determinationskoefficienten11 Lon/1000-tal kr 17 20 21 30 27 35 24 38 36 J

Models~ ~, Residualspridningen
Alder/Ar 20 20 30 30 40 40 50 50 60 y

V-
R ..#" R Sauare~
~
R Sauare
Std. Error of
the Estimate
l' a) Rita in observationema i ett spridningsdiagram.
Model
,941. ,886 ,867 6,505 b) Anpassa med iUK-metoden den regressionslinje som beskriver lOnen
a. Predictors: (Constant). Alder/ar som en funktion av a.Idem. Rita aven in linjen i diagrammet.
c) Tolka de bada koefficientemas varden i ord.
ANOV* d) Uppskatta med hjalp av regressionslinjen den genomsnittliga lOnen for
Sum of
personer som ar 30 och 50 ar.
Model Squares df Mean Sauare F Siq. e) Berakna korrelationskoefficienten.
1 Regression 1974,014 1 1974,014 46,656 ,ooo f) Berakna determinationskoefficienten. Hur tolkar du detta varde?
Residual 253,861 6 42,310
Total 2227,875
g) Berakna residualspridningen. Vad mater denna?
7
a. Predictors: (Constant), Alder/ar
b. Dependent Variable: Langd/cm
402
Istallet for att rakna antalet postforsandelser borde man kunna vaga posten
Coefficients" och med ledning av vikten uppskatta antalet. Detta var tanken bakom
Unstandardized Standardized foljande undersokning, dar man under sju dagar pa ett foretag antecknade
Coefficients Coefficients antalet utgaende postforsandelser och den sammanlagda vikten av dessa.
Model B Std. Error Beta Sia.
I Y.
1 (Constant) 66,972 5,838 11 ,472 ,000 Dag ViKOkg Antal/100-tal
Alder/ar if" 10,4 72 1,533 ,941 6 ,831 ,000
1 60 10,5
a. Depend~able: Langd/cm 2 69 12,1
3 51 8,8
Regressionskoefficientema I 4
5
57
75
10,0
13,6
1: 6 54 9,2
7 61 10,5
I fotnotema under tabellema ovan framgar att det att vid analysen ar
I "Dependent Variable: Langel/cm" och "Predictors: Alder/ar". Den a) Anpassa med MK-metoden en rat linje y =a + b x som ger postens
beroende variabeln y ar alltsa kroppslangd och som forklarande variabel x vikt som en funktion av antalet forsandelser.
bar ruder anvants. b) Skatta postens vikt en dag <la antalet forsandelser ar 1 000.
c) Omvand prediktion. Skatta antalet forsandelser da vikten ar 70 kg.
d) Tolka regressionskoefficienten b i detta exempel.
e) Vilket varde borde vi egentligen ha pa koefficienten a. Motivera.

82 83
403
En popular Kop&Salj-sida pa webben hade en vacker vardag foljande VW Repetitionsuppgifter, kapitel 1-4
Golf till salu.

Bil A B c D E F G H I J K L Abso.lute Books ar en bokklubb som i huvudsak vander sig till tonaringar.
'l.Alder/ar 7 7 8 8 9 10 11 11 12 12 13 14 ~n gang per kvartal far medlemmarna en tidning ur vilken de kan bestalla
'j Pris/1000 kr 72 50 57 69 44 39 33 42 26 35 24 19 s1!1a. bb~ker. For att_ fa en battre uppfattning om medlemmarnas synpunkter
pa tidningen och vllka bocker som ar popularast bland tonanngar skickar
For detta material kan foljande summor beraknas: man en enkat till ett urval av medlemmarna. Har ar nagra av fragorna i
enkaten:
~> =1302
2 ,\
~>=122 :Lxy=4783

:Ly=510 LY 2
= 24 842 1. Hur gammal ar Du?

a) Aterge observationerna i ett spridningsdiagram. 2. Ar Du flicka eller pojke? 0 Flicka 0 Pojke


b) Bestam den regressionslinje som beskriver priset som en funktion av
aldern. 3. Hur manga mlinniskor bor pa din hemort?
c) Uppskatta med hjalp av regressionslinjen det genomsnittliga priset for 0 under 10 000
bilar som ar 0, 10 och 20 ar gamla. Kommentera resultatet. 0 mellan 10 000 och 50 000
d) Berakna korrelationskofficienten. 0 fler an 50 000
e) Berakna determinationskoefficienten. Hur tolkar du detta varde?
f) Anta att vi stympar materialet sa att alla bilar som ar 11 ar eller aldre
stryks. Vad blir korrelationskoefficienten mellan ruder och pris i det
4. Hur manga backer har Du last den senaste manaden? D
stympade materialet? 5. Vad handlar din favoritbok om? (Satt kryss for ett av alternativen)
0 Deckare I Spanning
404 0 Fantasy I Rollspel
Berakna korrelationskoefficienten for foljande statistiska material. Rita 0 Hastar
0 Idrott I Sport
spridningsdiagram och diskutera resultaten.
0 Romantik I Karlek
Material 1
j 6.
Individ A B c D E Vad tycker Du om medlemstidningen?
0 Jattebra
x-viirde 10 21 30 39 51 0 Bra
y-viirde 59 29 19 29 60
0 Sadar
Material 2 0 Ganska dfilig
0 Jattedfilig
Individ A B c D E
x-viirde 11 19 40 58 98
y-viirde 60 41 21 9 97

I 84
85

ll~~~~~~----~~------------------
405 b) Komplettera korstabellen med procentsiffror sorn visar, for flickor och
a) Vid postenkater blir svarsfrekvensen ofta lag. Foresla atgarder som kan pojkar var for sig, hur stor andel som bodde pa mindre, medelstora
oka svarsfrekvensen. respektive storre orter.
b) Skriv ett foljebrev till enkaten pa hOgst en halv .A4~sida. Viilj ett sprak c) Illustrera korstabellerna i a) och b) med liirnpliga diagram.
som passar den aldersgrupp bokklubben vander s1g till.
410
Svaren pa fraga 4 presenterades sa hiir i den intema rapporten:
406 . J'k
Anta att syftet ar att ta reda pa vad tonanngar i allmiinhet tycker 1 o 1 a
Antal
fragor som handlar om backer. liista bOcker 0 1 2 3 4 5 6-
a) Vad kan man saga om den urvalsram som anvands (dvs. klubbens
Yngre (13-15 ar) 34 99 164 161 101 63 63
medlemsregister)? Aldre (16-19 ar) 76 164 133 81 43 38 12
b) Vilka olika typer av overtiickning och undertiickning kan forekomma?
c) Pa vad satt kan resultatet snedvridas? a) Illustrera tabellen med en lamplig figur.
II d) Ge forslag pa alternativa urvalsramar. b) Hur stor iir den genornsnittliga skillnaden mellan yngre och iildre? For
att kunna beriikna medelviirden maste Du gora liirnpliga antaganden om
407 boklasandet hos dem som laser mest (atrninstone 6 bOcker). Prova med
a) Pa vilka datanivaer ges svaren i de olika fragorna? tva olika viirden och se hur stor skillnaden i medelviirdet blir.
b) Diskutera kvaliteten i svaren pa de olika fragorna. c) Inte alla 1 244 tonllringama svarade pa fragan. Hur tror Du att detta
paverkar medelvardet?
408 d) Beriikna standardavvikelsen, medianen och kvartilema for de aldre.
Aldem for de 50 forsta som svarade var: e) Lite langre ner i rapporten star det att tonaringama (13-19 ar) laste i
12 12 13 13 13 13 13 13 13 13 genomsnitt 2,65 hocker den senaste manaden. Hur manga backer laste i
7 9 12
14 14 14 15 15 15 15 15 15 16 genomsnitt de som laste fler an 5 bOcker?
14 14 14
16 17 17 17 17 17 18 18 18 18 19
16 16
22 24 36 37 45 52 67 411
19 19 20 20
Svaren pa fragoma fem och sex samrnanfattades sa hiir:
a) Konstruera en frekvenstabell. . .
b) Visa tonaringarnas fildersfordelning med ett lamp~1gt diagram. Fraga s Flickor Pojkar Fraga 6 Flickor Pojkar
c) Visa aldersfordelningen for sa.mtliga 50 med ett histogram. Deckaremm 222 201 Jattebra 438 158
d) Bestam typvardet och variationsornradet. Fantasy mm 54 103 Bra 359 131
Has tar 398 13 Slldar 62 61
e) Beriikna rnedianen och kvartilema. Idrott 5 51 Dlllig 17 13

I f) Berakna medelviirdet och standardavvikelsen. Romantik 197 0 Jattedlllig

a) Visa svaren pa fraga 5 for samtliga svarande med ett diagram.


0 5

409
Av samtliga som svarade pa enkaten var 1 244 t~nM?ngar. Av de 87? b) Konstruera ett diagram som visar skillnadema mellan flickomas och
flickoma bodde 124 pa orter med hOgst 10 000 mvanare och 431 pa pojkamas svar. Eftersom det iir betydligt fler flickor an pojkar ska Du
medelstora orter. Bland pojkarna var det 150 som bodde pa orter med over forst riikna om till relativa frekvenser pa ett lampligt satt.
50 000 invanare och lika manga bodde pa medelstora orter. c) Rita motsvarande diagram for svaren pa fraga 6.
a) Visa uppgiftema i en korstabell. d) Beriikna nagra lampliga genomsnittsvarden for fragoma 5 och 6.

86 87

l
Data till uppgifterna 412-414 412
a) Illustrera sambandet mellan alder och antalet lasta backer i ett sprid-
Absolute Books gjorde en specialstudie bland 70 av de tonarsflickor som
ningsdiagram. Ett problem som uppstar nar man ska rita in punktema ar
tyckte att hastbOcker var det basta som fanns. Forteckningen visar alder
och antal lasta bocker for dessa 70 flickor: att flera punkter sammanfaller. Ge forslag pa hur man kan 16sa detta.
Hur gor ditt datorprogram?
b) Verkar det finnas nagot samband? Berakna korrelationen som ett matt
Alder Bocker Alder Bocker Alder Bocker Alder Bocker pa det linjara sambandet.
x y x y x y x y
c) Anpassa med MK-metoden en rat linje till punktema. Tolka vardet pa de
13 6 14 2 16 4 18 1 bada koefficientema. Ar tolkningama rirnliga?
13 1 14 6 16 3 18 6
13 3 14 8 16 4 18 2 d) Hur manga bOcker laser i genomsnitt en 13-aring enligt den anpassade
13 9 14 3 16 0 18 0 linjen? Gor om berakningama for 16-aringar och 19-anngar.
1:
13 6 14 6 16 0 18 0 e) Rita in regressionslinjen i spridningsdiagrammet.
I'
13 7 15 l 16 8 18 0 f) Berakna standardavvikelsen kring linjen, residualspridningen. Berakna
11 13 8 15 3 16 7 18 6
11
13 5 15 0 17 7 19 3 ocksa standardavvikelsen for antalet lasta backer. Kommentar.
13 3 15 3 17 6 19 3
13 6 15 6 17 0 19 5 413
13 6 15 7 17 2 19 2 Om vi i datamaterialet enbart ser pa flickoma i aldem 16-19 ar far vi
13 5 15 9 17 0 19 1
foljande summor:
14 6 15 2 17 1 19 6
14 17
14
7
7
15
15
2
6 17
5
4
19
19
0
0
LX = 645 :Lx 2
=11291
14 8 16 0 17 3 19 2
14 l 16 2 17 0 LY= 106 LY 2
= 552 1.:.xy = 1830
14 2 16 8 18 5
a) Berakna korrelationen ochjarnfor med svaret i 412 b.
De foljande uppgiftema lOses enklast med datorns hjalp men for den som b) Varfor har korrelationen forandrats pa detta satt?
inte bar tillgang till dator eller lampligt datorprogram ges har summoma
414
som behovs vid berakningama.
a) Berakna medelantalet lasta bocker for var och en av de sju aldrarna 13
2:x = 1105 2.::X 2 = 17 725 till och med 19 ilr.
b) Rita i ett spridningsdiagram in de sju punkterna, x = alder och y =
l:y=266 LY 2
=1540 1.:.xy = 4 044 medelantalet lasta bocker i den aldem.
c) Berakna korrelationskoefficienten och jamfor med resultatet i 412 b.
d) Vad kallas den typen av korrelation som vi beraknat.
e) Berakna regressionslinjen och jamfor med resultatet i 412 c.

88 89
5 Slumpmassiga urval Slutsats om stickprov:
Sannolikhetslara

Population
Stickprov ar en god metod
nar man undersoker blod
R W-sson

Lat oss nlirma oss den statistiska teorin utan alltfor stor respekt! Dakan vi
tillilta oss foljande definition:
Statistisk slutledning eller statistisk inferens ar konsten att gora intelligenta
Slutsats om population:
gissningar med hjalp av slumpmassiga urval.
lnferensteori
Istallet for urval talar man ibland om stickprov eller sampel. Den engelska
motsvarigheten stavas sample och oversatts i vissa engelsk-svenska Figur 5.1 Principemafor statistisk slutledning
ordlistor med (blod)prov. Ur pedagogisk synpunkt ar detta en bra
oversattning - vi vet alla att ett blodprov ar ett stickprov. Vi vet ocksa I sjalva verket ar tillvaron full av situationer dar beslut fattas utan att det
varfor man tar blodprov. Syftet ar att fa veta nagonting om den undersokta finns fullstandig eller absolut saker information:
personen, till exempel om hans balsa eller om han har alkohol i blodet. De
fiesta ar antagligen ocksa beredda att lita pa den information en droppe vi bestarnmer oss for att salta pa maten (eller lata bli) efter att ha
provsmakat en tugga
blod kan ge. Inte ens personer som rnisstanks for rattfylleri kommer
antagligen att krava att allt blod i kroppen skall undersokas. lararen slitter betyg och utgar i sin bedomning fran resultatet pa ett par
. En stickprovsundersokning innebar tydligen att vi begransar oss till att skrivningar och de personliga intryck han har av elevema
studera ett urval. Med hjalp av detta urval forsoker vi sen dra slutsatser om personalchefen rangordnar sokande till en tjanst och utgar i sin
helheten - populationen. Men hur kan man dra sakra slutsatser nar man bar bedomning fran meritforteckningar och de intryck de sokande ger vid
ofullstandig information? Svaret ar sjalvklart: det gar inte! Istallet ar en intervju
utgangspunkten att en urvalsundersokning ger tillrackligt sakra resultat.
vi gifter oss - kanske med syftet att leva resten av livet tillsarnmans
Urvalsundersokningar ar ibland enda mojligheten. Detta galler vid alla med en annan person - och i var bedomning utgar vi fran de intryck en
former av forstOrande kontroll. Men aven nar det gar att gora en tids samvaro med var tillkommande har gett
totalundersokning foredrar man ofta att begransa sig till en del av
Att fatta beslut under osakerhet ar alltsa en naturlig och ofrilnkomlig del av
populationen. Det ar inte bara tid och pengar att tjana. StOrre tillforlitlighet
livet. Statistik handlar om att gora sadana beslut sa fomuftiga som mojligt.
och stOrre omfattning talar ocksa till forman for urvalsundersokningar.

90 91
alltsa noteringen "rokare". Sannolikheten att fa en "rokare" ar darmed 2/6
5.1 Variation och stabilitet = 1/3, som enligt vart antagande ar andelen rokare pa foretaget.
Vad hander nar man gor ett slumpmassigt urval? Anta att vi ska gora en Nar sarntliga 40 kast ar gjorda bar vi simulerat dragning av ett stickprov
undersokning om rokvanor bland de anstallda pa ett start foretag. och kan se efter bur manga rokare vi fatt. Darefter upprepar vi denna
Populationen - de anstallda - kan vi kanske definier~ med hjalp av nagon process, inte en gang utan flera. Lat oss simulera dragning av 1000
forteckning over utbetalda loner. Denna fortecknmg utgor ?a .u~der~ stickprov! Teoretiskt sett ar det inte omojligt att gora detta manuellt med
sokningens ram. Ett enkelt slumpmiissigt urval innebar att alla md1v1der 1 hjalp av tarningen. Men det ar naturligtvis enklare att lata en dator gora
populationen - alla anstallda pa foretaget - ska ha samma chans (s~n~o jobbet. Det bar resultatet bar simulering med statistikprogrammet Minitab
likhet) att komma med i undersokningen. Att gora ett enkelt slumpmass1gt gett:
urval kan alltsa jamforas med att dra vinster i ett lotteri. Alla lotter maste
ha samma chaos att ge vinst. Tabell 5.1 Antal rokare i 1000 stickprov (n = 40)
Om vi tanker fraga 40 personer kan teoretiskt sett 0, 1, 2, ... , 40 av dessa
Antal rokare 4 5 6 7 8 9 10 11 12 13
vara rokare. Hur manga rokare vi faktiskt far i ett visst stickprov beror pa Antal stickprov 0 1 4 10 24 46 69 106 142 158
slumpen och givetvis pa den verkliga andelen rokare i populationen. O~
Antal rokare 14 15 16 17 18 19 20 21 22 23
manga ar rokare pa foretaget vantar vi oss ocksa att fa manga rokare l Antal stickprov 132 87 86 49 43 23 8 9 3 0
urvalet.
I ett stickprov ar kanske 12 av 40 rokare, dvs. 30 procent. Tar vi ett nytt 180
stickprov om 40 slumpmassigt valda personer ar kanske 14 av dessa rokare
160
(35 procent). Tar vi flera stickprov finner vi att antalet - och darmed o~ksa
140
andelen - rokare varierar fran stickprov till stickprov beroende pa vilka >
individer som rilkar kornma med.
ea. 120
""~0 100
Men bur kan man dra slutsatser med hjalp av stickprov nar resultatet 80
]j
varierar? Jo, det finns ocksa en stabilitet - ett monster - i variationen och <(
c
60
dessa till synes motsagelsefulla fenomen - variationen och stabiliteten - 40
kan man studera pa olika satt. 20
En metod innebar att man simulerar - efterliknar - vad som hander vid 0
slumpmassiga urval. Det ar naturligt att gora simuleringen med. en dator 4 6 8 10 12 14 16 18 20 22
men den kan faktiskt ocksa goras med en vanlig tlirmng som Antal rOkare
arbetsredskap. Sa har gar det till!
Lat oss anta att var tredje person pa foretaget ar rokare. Sannolikheten att Figur 5.2 Antal rokare i 1000 stickprov (n = 40)
en slumpmassigt vald person roker ar da 1/3. Hur manga rokare kan .vi da
fa i ett stickprov omfattande 40 personer? Svaret far vi genom folJande Detta resultat fick vi alltsa vid ett sirnuleringsforsok omfattande 1000
simuleringsforsok. stickprov. Lat oss nu simulera ytterligare 1000 stickprov. Den har gangen
gav Minitab foljande resultat:
Tarningen kastas 40 ganger. For varje kast noterar vi "rokar~" om
resultatet ar en prick eller tva prickar. For alla andra utfall (tre till sex
prickar) noterar vi "icke rokare". Tva av tarningens sex mojliga utfall ger

93
92
Tabell 5.2 Antal rokare i 1000 stickprov (n = 40) 180 -r---------------< Simulering 1
4 7 8 9 10 12 13 160 D Simulering 2
Antal rokare 5 6 11
Antal stickprov 1 0 6 11 30 57 71 116 124 129 140
>
Antal rokare 14 15 16 17 18 19 20 21 22 23 2 120 -
a.
Antal stickprov 121 108 95 60 39 11 12 6 0 3 ..lll:
.~
100
u; 80
iii
180 c:
ct 60
160 40
140 20
ea.> 120 0
~
(.) 100 4 6 8 10 12 14 16 18 20 22
~
ro 80 Antal rokare
c 60
<
40
Figur 5.4 Jiimforelse mellan tva simuleringsfersok
20
0 Med hjalp av resultaten fran vara simuleringsforsok kan vi gora olika
4 6 8 10 12 14 16 18 20 22 sannolikhetsbedomningar. I 106 av de 1000 stickproven i tabell 5.1 har vi
Antal rokare fatt exakt elva rokare. Eftersom vi har studerat sa manga stickprov ar den
relativa frekvensen 10611000 = 0, 106 ett bra matt pa sannolikheten for
Figur 5.3 Antal rokare i 1000 stickprov (n = 40) handelsen "exakt elva rokare i ett slumpmassigt urval". Som vi ser ger
tabell 5.2 i stort sett samma resultat.
Vi har redan konstaterat att antalet rokare varierar fran stickprov till
Vi kan ocksa dra slutsatsen att det verkar osannolikt att fa fler an tjugotre
stickprov. Men om vi jam.for resultaten fran de b~da sim~~erings~?r~oken
0 rokare. Inte i nagot av de tva tusen stickproven har detta intraffat.
(se figur 5.4) ser vi att denna variation sker pa ett hkartat satt .. Detar mgen
namnvard skillnad mellan de bada fordelningarna. Detta ar mgen slump. Genom simulering kan man alltsa bestamma sannolikhetsfordelningen for
Gor vi ytterligare ett simuleringsforsok omfattan~e 1000 stic~prov far ~i antalet rokare i ett stickprov omfattande 40 personer. Sannolikhetsfor-
0

ungefar samma resultat. Fast antalet rokare vanerar fr~n stickpro"., till delningen talar om hur vanligt det ar att fa 0, I, ... , 40 rokare i stickprovet.
stickprov blir alltsa resultatet i stort sett detsamma nar v1 studerar manga Dessa sannolikheter beror naturligtvis pa andelen rokare i populationen.
stickprov.
I vissa komplicerade sammanhang ar simulering den enda mojligheten att
bestamma sannolikhetsfordelningen. Men i vart exempel gar det att teo-
retiskt berakna sannolikheterna. Hur dessa berakningar gars gar vi inte in
pa. Vi nojer oss med att konstatera att antalet rokare i ett slumpmassigt
stickprov kan beskrivas med hjalp av binomialfordelningen. Denna ar en
valkand sannolikhetsfordelning. Se till exempel Korner-Wahlgren:
Statistisk dataanalys, tredje upplagan, Studentlitteratur 2000.

94 95
Tabell 5.3 Sannnolikheter for antalet rokare i ett stickprov om 40 individer tatet kallas for centrala grdnsvdrdessatsen) men kan for enkelbetens skull
beriiknat fran dels tva simuleringar och dels e.xakt med binomial- uppfattas som nagot av en naturlag. Har ska vi noja oss med att visa bur
fordelningen. man rent tekniskt gor denna approximation.

Exakta I fortsattningen bebovs en del beteckningar. Det ar nOdvandigt att skilja


Antal Simulering 1 Simulering 2
rokare sannolikheter mellan andelen rokare i populationen ocb andelen rokare i ett slump-
massigt urval fran denna population. Ta en titt pa figuren pa sidan 91. For
4 0,000 0,001 0,001
5 0,001 0,000 0,002 populationen anvander vi den grekiska bokstaven 7r ocb for stickprovet
6 0,004 0,006 0,005 bokstaven p. 7r ar en valkand matematisk konstant (n ""3,14) men bar bar
7 0,010 0,Qll 0,013 7r en annan innebord ocb ar alltsa ett tal mellan noll och ett.
8 0,024 0,030 0,027
9 0,046 0,057 0,048 I nasta kapitel ska vi ocksa studera medelvarden. Da betecknas
10 0,069 0,Q71 0,Q75 populationsmedelvardet med den grekiska bokstaven och stickprovs-
0,116 0,102
11 0,106
0,124 0,123 medelvardet som tidigare med x.
12 0,142
13 0,158 0,129 0,133
Fran populationen tar vi alltsa ett slumpmassigt stickprov med n personer.
14 0,132 0,121 0,128
0,087 0,108 0,111 Vi beraknar andelen rokare i stickprovet och betecknar denna andel med p.
15
16 0,086 0,095 0,087
0,061
Om vi upprepar denna procedur gang pa gang, . dvs. tar manga olika
17 0,049 0,060
18 0,043 0,039 0,039 stickprov, kommer vi att finna att p varierar fran stickprov till stickprov.
19 0,023 0,011 0,023 Det ar denna variation vi kan beskriva med normalfordelningen, under
20 0,008 0,012 0,012 forutsattning att stickprovet inte ar mycket litet.
21 0,009 0,006 0,006
22 0,003 0,000 0,002 En normalfordelning ar fullstandigt bestamd av sitt medelvarde ocb sin
23 0,000 0,003 0,001 standardavvikelse. Den normalfordelning som ska anvandas bar bar
medelvardet n , vilket ar andelen i populationen, ocb standardavvikelsen
Om andelen rokare i populationen ar 1/3 ocb stickprovet omfattar 40
individer ger binomialfordelningen de sannolikheter som finns i bogra ~n(l:n)
kolumnen i tabell 5.3. I tabellen bar vi ocksa visat de sannolikheter vi
beraknat med bjalp av vara simuleringar. Som vi ser ar det mycket god For att beskriva variationen i p i ett slumpmassigt urval behaver vi alltsa
overensstarnmelse mellan binomialfordelningens sannolikheter ocb de inte ha nagon information alls om hur ett konkret stickprov utfallit. Det
sannolikheter som simuleringarna gett. racker om vi kanner stickprovsstorleken n och populationens andel n .
Innan vi overhuvudtaget bar tagit nagot stickprov kanner vi alltsa i detalj
bur sannolikhetsfordelningen for p ser ut.

5.2 N ormalfordelningen Exempel


I vart exempel bar vi visat att antalet rokare ocb darmed ocksa andelen Ett foretag bar en mycket stor kundkrets. Innan man startar en storre
rokare varierar fran stickprov till stickprov enligt ett bestamt monster. Vi annonskampanj vill man uppskatta bur stor andel av kundema som ar
tar nu ett stort kliv in i den teoretiska statistikens varld ocb konstaterar att intresserade av en viss typ av reklamerbjudanden. Man tanker darfor ta ett
denna variation med mycket god approximation kan beskrivas med slumpmassigt stickprov med n=400 kunder och berakna bur stor andel (p)
nonnalfordelningen (avsnitt 3.4). Detta gar att bevisa matematiskt (resul- av dessa som ar intresserade av denna typ av reklamerbjudanden.

96
97
Teoretiskt sett kan p anta alla varden mellan 0 och 1. Dessa granser
motsvarar de extrema altemativen att ingen respektive alla 400 kunder i z = 1,96 motsvarar 2,5 procent i hogra svansen. Melian -1,96 och + 1,96
urvalet tackar ja. Mer intressant ar foljande fraga. Vilka varden ar det ligger alltsa 95 procent av normalfordelningen.
troligt att p kan anta? I denna situation ar
Lat oss en liten stund forutsatta att vi kanner andelen 7! i populationen! Medelviirdet = tr
Det gar vi sa klart aldrig i praktiken for da ar ju hela undersokningen
onodig. Lat oss till exempel utga fran att tjugo procent av samtliga kunder
i population (dvs. n =0,20) ar intresserade av reklamerbjudandet. Da kan
motsvarande andel p i stickprovet beskrivas med en normalfordelning med
medelvardet 0,20 och standardavvikelsen

~ = 0,200,80 =002
v~ 400 ,
Satter viz= 1,96, n = 400 och tr =0,20 far vi
Stickprovets andel p kan i ett konkret stickprov hamna over eller under
populationsvardet n =0,20. Har vi riktig tur kan vi ocksa fa vardet 0,20! 0 80
0,20 1,96 . 0,20. = 0,20 0,039
Men vi kan aldrig i forvag ange vilket varde p kommer att anta - detta 400
beror pa slumpen.
Om vi avrundar far vi de granser som vi tidigare angett, namligen
Daremot kan man ange ett interval!, inom vilket p kan hamna med en viss 0,20-0,04 = 0,16 och 0,20 + 0,04 = 0,24. I 95 av 100 stickprov ligger p
sannolikhet. Man kan till exempel visa att p med sannolikheten 95 procent
mellan dessa granser.
antar ett varde mellan 0,16 och 0,24, forutsatt att 7! =0,20 och n=400.
Darmed ar sannolikheten fem procent att fa ett stickprovsvarde utanfor Om vi istallet satter z = 3,29 och n = 1 600, vilket innebar att vi fyr-
detta interval!, dvs. i praktiken intraffar delta enbart for fem av ett hundra dubblar stickprovsstorleken, far vi intervallet 0,20 0,033 . Med sanno-
stickprov. likheten 99,9 procent ligger alltsa andelen pi ett slumpmassigt stickprov i
Att berakna interval! av denna typ ar enkelt. For varje normalfordelning, detta interval!. Detta ar darfor en niistan saker handelse. Endast ett av tu-
dar vi kanner medelvardet och standardavvikelsen, kan vi ange ett intervall sen stickprov ger ett varde utanfor detta intervall.
pa foljande satt: Det ar alltsa en mycket liten sannolikhet att fa ett stickprovsvarde som ar
(Medelviirdet) z (Standardavvikelsen) mindre an 0,167 eller storre an 0,233.

Vardet z bestammer vi med hjalp av I praktiken ar populationsvardet n okant. Det ska darfor uppskattas med
en tabell over norrnalfordelningen andelen p fran ett stickprov. Felet i en sadan skattning ar skillnaden mel-
(tabell 2) sa att vi far den sanno- lan vardet i stickprovet och det sanna vardet 0,20. Da maste vi ha verklig
likhet vi onskar. otur om felet i denna skattning skall bli stOrre an 0,033. Med 1 600 obser-
vationer hander ju detta bara i ett av 1 000 stickprov!
95%
z-vlirde Sannolikhet Nu sluter vi cirkeln. I inledningen pa detta kapitel har vi konstaterat att ut-
2,5% 2,5%
1,96 95 procent gangspunkten for en stickprovsundersokning ar att man far tillriickligt
2,58 99 procent siikra resultat. Av vart avslutande resonemang kan vi dra foljande slutsats.
3,29 99,9 procent Urvalet kan goras sa att felet i skattningen med stor sannolikhet blir till-
-3 0
z
riickligt litet. Hur detta gar till i praktiken behandlas i nasta kapitel.
98 99
6 Konfidensintervall vara mindre an eller stOrre an andelen i populationen. Denna osakerhet
garderar vi oss mot genom att berakna ett konfidensintervall.
Om vi valjer konfidensgraden 95 procent far vi foljande resultat

0 072 0 928
0,0721,96. . = 0 072 0 013
1487 ' '
Med relativt liten kunskap om populationen kan vi berakna sannolikheter Detta kan ocksa skrivas
for olika tankbara utfall i ett slumpmassigt stickprovet. Den slutsatsen
drog vi i foregaende kapitel. Men vad har vi for gladje av att kanna till 0,059 < 1Z" < 0,085
detta? Syftet med var undersokning var ju att gora uppskattningar an-
Med hjalp av stickprovet uppskattar vi att mellan 5,9 och 8,5 procent av
gaende populationen, till exempel andelen rokare? I denna diskussion har
samtliga valjare vid undersokningstillfallet sympatiserade med center-
vi plOtsligt forutsatt att vi kanner denna andel (n).
partiet. Den nedre gransen for konfidensintervallet ar alltsa 0,059 och den
Invandningen ar korrekt - men en statistiker vander pa hela resonemanget. ovre gransen 0,085. Skillnaden 0,085 - 0,059 =0,026 kallas konfidens-
Anta att vi har tagit ett stickprov - och fler stickprov tar vi oftast inte i intervallets bredd (eller liingd).
praktiken! Dakan vi berakna andelen rokare pi detta stickprov och dar-
efter ett konfidensintervall pa foljande satt:
Nar stickprovet iir tillriickligt stort kan ett konfidensintervall

p 1,96 . Jp(l: p)
for populationens andel n beriiknas med uttrycket

Man kan visa att intervall som beraknas enligt denna formel i 95 fall av -.
p z. J p(l: p)

100 ringar in populationens sanna varde (n). Vi sager att intervallet bar
konfidensgraden 95 procent. Men en viktig forutsattning ar att individerna n iir stickprovets storlek och p stickprovets andel. z bestiims
verkligen har valts slumpmiissigt ur populationen och att alla matvarden ar med hjalp av tabell 2 sa att man far onskad konfidensgrad.
oberoende.
Med tillrackligt stort stickprov menar vi att uttrycket np(l - p) ar storre
Exempel 1 an 5.
I

Vilket parti skulle du rosta pa om det vore val idag? I en partisympati- Man kan berakna ett konfidensintervall med den konfidensgrad - till-
undersokning stalldes den fragan till 1487 personer slumpmassigt valda ur forlitlighet - man sjfilv onskar. z-vardena hittar man i tabell 2. z = 1,96
hela valjarkaren. 107 svarade (oberoende av varandra) centerpartiet. Upp- innebar alltsa att konfidensgraden blir 95 procent. Satter vi istfillet
skatta andelen centerpartister i hela valjarkaren. z =2,58 blir konfidensgraden 99 procent. Da okar konfidensintervallets
bredd med hela 32 procent. z = 3,29 ger konfidensgraden 99,9 procent
Andelen centerpartister i stickprovet ar
och detta interval! ar 68 procent bredare an ett intervall med konfi-
densgraden 95 procent.
= 107 = 0 072
p 1487 ' Vara berakningar visar varfor man i allmanhet anvander sig av intervall
Detta varde ar en punktskattning av populationens andel. Punktskattningen med konfidensgraden 95 procent. Da ar tillforlitligheten oftast tillrackligt
kan vara en underskattning eller overskattning av det sanna vardet, dvs. hOg samtidigt som intervallen inte ar onodigt breda.

100 101

~,,
/r .

Som vi ser ar grundprincipen for skattning mycket enkel. Att studera hela
6.1 Den statistiska felmarginalen populationen kan bade ta lang tid och bli dyrbart. Istallet nojer vi oss med
Nar konfidensgraden ar 95 procent anvander vi tabellvardet z = 1,96. att undersoka ett stickprov. Om slumpen far avgora vilka individer som
Uttrycket ska komma med i stickprovet bar detta kunna ge en god bild av
populationen, i basta fall bli en kopia i miniatyr. Darfor kan fordelningen i
1,96~p(l: p) stickprovet anvandas som en approximation av fordelningen i popu-
lationen.
kallas den statistiska felmarginalen. Sannolikheten att stickprovets andel p Detta innebar att ett procenttal som beraknas pa stickprovet kan anvandas
avviker fran populationens andel 7r med mer an den statistiska felmargi- for att skatta motsvarande procenttal for populationen. Det faktum att inte
nalen ar alltsa mindre an fem procent. samtliga individer undersoks kan leda till vissa avvikelser - slumpfel -men
for 95 procent av alla skattningar ar slumpfelet mindre an den statistiska
Den statistiska felmarginalen ar halva intervallbredden nar konfidens- felmarginalen.
graden ar 95 procent. Felmarginalen beror bade pa stickprovets storlek n
och pa stickprovets andel p. I var partisympatiundersokning ar felmar-
ginalen ungefar 1,3 procentenheter. Ett sWrre stickprov ger mer
information. Da kan vi utt.ala oss med sWrre sakerhet, vilket innebar att
den statistiska felmarginalen blir mindre. I tabell 6.1 redovisas felmar- 6.2 Stickprovets storlek
ginalen i procentenheter for olika varden pan och p. Av tabellen framgar
att en halvering av felmarginalen kraver en fyrdubbling av stickprovs- Som vi sett paverkar stickprovsstorleken n den statistiska felmarginalen.
storleken (jamfor till exempel felmarginalen for n = 100 och n =400). SWrre stickprov ger mindre felmarginal, men for att halvera felmarginalen
maste vi fyrdubbla stickprovets storlek.
Ii Tabell 6.1 Den statistiskafelmarginalen i procentenheter for olika stick- Stickprovets storlek kan bestammas pa olika satt. Ofta ar budgetaspekter
provsstorlekar och procenttal. Pa tre stallenfinns inget procenttal angivet. helt avgorande. Pengarna, som ar avsatta for undersokningen, racker helt
Dar iir villkoret np(l - p) > 5 inte uppfyllt. enkelt till ett visst antal observationer.

Procenttal uppmlitt i stickprovet Hur stort stickprov kravs for att fa absolut saker information? Den fragan
far manga statistiker vid den forsta kontakten med uppdragsgivaren. Men
Urvals- 5 10 15 20 25 30 35 40 45 50
75 70 65 60 55
tyvarr maste statistikem ge ett negativt svar.
storlek 95 90 85 80
Ii
50 9,9 11 ,1 12,0 12,7 13,2 13,6 13,8 13,9 Om vi med absolut saker information menar punktskattningar utan felmar-
100 5,9 7,0 7,8 8,5 9,0 9,3 9,6 9,8 9,8 ginal ar detta inte mojligt att astadkomma med hjalp av stickprovsunder-
200 3,0 4,2 4,9 5,5 6,0 6,4 6,6 6,8 6,9 6,9 sokningar.
300 2,5 3,4 4,0 4,5 4,9 5,2 5,4 5,5 5,6 5,7
400 2,1 2,9 3,5 3,9 4,2 4,5 4,7 4,8 4,9 4,9
Om vi istallet menar konfidensintervall med konfidensgraden 100 procent
I! 500 1,9 2,6 3,1 3,5 3,8 4,0 4,2 4,3 4,4 4,4 blir resultatet fullstandigt meningslOst. Vern ar beredd att betala for
750 1,6 2,1 2,6 2,9 3,1 3,3 3,4 3,5 3,6 3,6 "informationen" att mellan 0 och 100 procent av valjarna skulle rosta pa
1000 1,4 1,9 2,2 2,5 2,7 2,8 3,0 3,0 3,1 3,1 socialdemokratema om det vore val idag - trots att denna bedomning
1500 1,1 1,5 1,8 2,0 2,2 2,3 2,4 2,5 2,5 2,5 naturligtvis ar korrekt?
2000 1,0 1,3 1,6 1,8 1,9 2,0 2,1 2,1 2,2 2,2
Ett konfidensintervall ska givetvis bade ha hog tillforlitlighet och vara sa
4000 0,7 0,9 1,1 1,2 1,3 1,4 1,5 1,5 1,5 1,5
smalt att informationen ar meningsfull. Darfor ar det viktigt att uppdrags-

102 103
givaren redan pa ett tidigt stadium av undersokningen preciserar sina Manga har den felaktiga uppfattningen att man maste undersoka en viss
onskemal vad galler konfidensgrad och intervallets bredd. Med dessa andel av individerna i en population for att kunna gora tillrackligt sakra
onskemal som utgangspunkt kan statistikem darefter bedoma ungefar hur uppskattningar. Men nar stickprovet omfattar mindre an tio procent av
stort stickprov som behovs. populationen ar det ur tillforlitlighetssynpunkt nastan betydelselost hur
stor populationen ar. Detta later paradoxalt men ar anda sant. Tillfor-
litligheten i slutsatser fran ett stickprov omfattande 50 individer ar alltsa
Exempel 2
ungefar densamma oavsett om populationen bestar av 2 000, 20 000 eller
Hur manga procent av valjarkaren skulle rosta pa socialdemokratema om 2 000 000 individer.
det vore val idag? Svaret skall ges i form av ett konfidensintervall med
konfidensgraden 95 procent. Vi accepterar att intervallets bredd ar ungefar
0,04. Hur stort stickprov skall vi ta?
Konfidensintervallets bredd d ar skillnaden mellan intervallets granser: 6.3 Konfidensintervall for medelvarden
d =2 . z . ~ p(l: p) Ofta vill man uppskatta ett medelvarde i en population. Som punktskatt-
ning anvander man sig da av medelvardet x fran ett stickprov.
I vart exempel ar konfidensgraden 95 procent, vilket innebar att z = 1,96. Stickprovsmedelvardet kan underskatta eller overskatta populationsmedel-
Da ar alltsa intervallbredden den dubbla statistiska felmarginalen. vardet och i stOrre eller rnindre utstrackning. Felet i skattningen beror
liksom tidigare pa hur mycket tur eller otur vi har nar det slumpmassiga
Det krav som stalls innebar att d = 0,04. Det ger oss foljande ekvation:
urvalet gars. Aven vid skattning av medelvarden ar det darfor lampligt att

0,04 = 2 . 1,96 . ~ p(l: p)


arbeta med konfidensintervall.
Precis som for andelar blir berakningama mycket enkla.
Med hjalp av detta samband ska vi bestamma stickprovets ungefarliga
storlek, n. Men eftersom vi annu inte tagit nagot stickprov ar vardet pa p Nar stickprovet ar tillrackligt stort kan ett konfidensintervall
okant. Det maste darfor gissas pa nagot satt, kanske med hjalp av for populationens medelvarde beraknas med uttrycket
resultaten fran aldre undersokningar. Det spelar faktiskt inte sa stor roll om
vi gissar lite fel. Anta att vi provar med vardet p = 0,30. Da far vi - s
x z ,J;;.
0 04 = 2 . 1 96 . 0,30(1 - 0,30)
' ' n n ar stickprovets storlek, x stickprovets medelvarde och s
stickprovets standardavvikelse. z bestams med hjalp av tabell
och efter kvadrering och forenkling blir stickprovsstorleken 2 sa att man far onskad konfidensgrad.

n = (21,96) 2 0, 30 0,7 0 = 2017


0,04 2 Det racker alltsa att vi kanner stickprovets storlek n, stickprovets medel-
,f
varde x och stickprovets standardavvikelse s. Nagon kunskap om popula-
Anvander vi istallet vardet p = 0,50, som ger den stOrsta stickprovs-
tionen kravs inte. Formeln galler under forutsattning att stickprovet ar
storleken, blir n =2 401. Nagonstans i narheten av 2 200 observationer kan
tillrackligt stort. En vanlig tumregel sager att det kravs minst 30 obser-
alltsa vara en lagom stickprovsstorlek.
vationer.

104 105

.I
Den ungefarliga stickprovsstorleken blir da
Exempel 3
I ett stickprov med 90 personer ar medelaldem 42,3 ar och standard- 1 75
n = (21,96) 2 : = 1176
avvikelsen 7, 1 ar. En intervallskattning med konfidensgraden 95 procent 0,2
av medelfildem i populationen kan skrivas sa har:
Om vi avrundar till 1 200 verkar det alltsa rimligt att undersoka cirka sex
42,3 1,96 . ~ = 42,3 1,5 procent av de 20 000 hushallen. Visar det sig att standardavvikelsen i detta
-v90 stickprov blir betydligt st6rre an vardet 1,75, det varde som kalkylen
bygger pa, maste stickprovsstorleken justeras uppat sa att de stallda
vilket ocksa kan skrivs kraven uppfylls.
40,8 < < 43,8 I exempel 3 har vi forutsatt att stickprovet ar tillriickligt stort. Men hur gor
Med hjalp av stickprovet uppskattar vi medelaldem i populationen till man vid sma stickprov?
42,3 c1r. Den statistiska felmarginalen i denna skattning ar 1,5 c1r. Vi be-
domer alltsa att medelaldem ligger mellan 40,8 och 43,8 ar. Niir observationerna iir normalfordelade kan ett konfidens-
Nar uppdragsgivaren preciserat sina krav vad galler intervallbredd och intervall for populationens medelviirde beriiknas med
konfidensgrad ar det statistikems uppgift att berakna stickprovets storlek. uttrycket

- s
x+t -
Exempel 4 - J;;
Vi vill uppskatta hur manga personer det bor i ett mycket stort bostads-
n iir stickprovets storlek, x stickprovets medelviirde och s
omrade med ungefar 20 000 bostader. Vi ska darfor gora en urvals-
stickprovets standardavvikelse. t bygger pa n - 1 frihets-
undersokning. Med hjalp av resultaten fran denna ska vi som ett forsta
grader (Jg) och bestiims med hjiilp av tabell 3 over t-fordel-
steg uppskatta medelantalet personer per bostad. Skattningen ska goras i
ningen sa att man far onskad konfidensgrad.
form av ett konfidensintervall med konfidensgraden 95 procent. lnter-
vallets bredd far inte overstiga 0,2.
Med konfidensgraden 95 procent blir intervallbredden d Vardet t bestams av konfidensgraden och antalet frihetsgrader (jg). Utan
att narmare forklara detta begrepp konstaterar vi att antalet frihetsgrader i
s denna situation iir n - I, dvs. helt bestarnt av stickprovets storlek.
d=2196-
' J;; Har ser vi for nagra olika frihetsgrader de t-varden som ska anvandas om
Har ar d = 0,2 men for att bestarnma n behOver vi ett ungefiirligt varde pa vi valjer konfidensgraden 95 procent:
s. Om vi inte har tillgang till nagon tidigare undersokning maste detta
varde gissas. I avsnitt 3.4 konstaterade vi att variationsbredden dividerad Frihetsgrader (fg) 8 12 16 20 24 28
med fyra ofta ger ett hyfsat varde pa s. Det rninsta antalet personer som t-varde 2,31 2,18 2,12 2,09 2,06 2,05
bor i en lagenhet satter vi till 1. Men vad ar det storsta vardet? 5, 6, 7 eller
8? Eller ett annu storre tal? Fragan gar naturligtvis inte att besvara.
Nar vi arbetar med normalfordelningstabellen ar motsvarande tabellvarde
Om vi forutsatter att variationsbredden ar 8 - 1 = 7 bedomer vi att stan- z = 1,96. Detta varde far vi hara anvanda om stickprovet ar tillrackligt
dardavvikelsen ar ungefar 7I4=1,75. stort. Yid sma stickprov maste vi i stallet hamta tabellvardet fran t-
tabellen. Da far vi alltid varden som ar storre an 1,96. Detta gor att
106 107
konfidensintervallet blir bredare. t-vardena ar dessutom storre ju mindre
stickprovet ar. Vi ser till exempel att n = 25, som innebar 25 -1=24
6.4 Konfidensintervall vid jamforelser
frihetsgrader, ger tabellvardet 2,06 medan n = 9 ger tabellvardet 2,31. Syftet med en statistisk undersokning ar ofta att gora jamforelser mellan
En.klast kan vi sammanfatta vara iakttagelser sa har. Ju rnindre stickprov olika grupper. Da ar det vanligt att man vill uppskatta skillnadema mellan
vi har desto storre osakerhet blir det i vara punktskattningar. Darfor gor vi gruppema.
konfidensintervallet bredare. Vi marknadsfor en ny produkt pa tva olika satt och vill veta vilka skill-
Vad innebar det att observationerna ska vara normalfordelade? Man kan nader i forsaljningsresultat detta leder till.
svara sa har. Nar man matematiskt hiirleder t-fordelningen forutsatter man En larare provar en ny form av undervisning och vill veta hur mycket
att observationerna ar exakt normalfordelade. For den matematiske battre eller sarnre denna ar jarnford med traditionell undervisning.
statistikern ar detta ett idealtillstand! Men verkligheten ser ofta ut pa ett
annat satt och den teoretiska forutsattningen ar alltsa sallan eller aldrig De fackliga organisationema kraver att man uppskattar vilka
uppfylld i praktiken. Trots detta fungerar metoden ganska val om lOneskillnader det finns mellan man och kvinnor pa ett foretag.
materialet inte ar alltfor snett fordelat och innehaller manga extremviirden. En vanlig situation innebar att man studerar skillnaden i andelar mellan
Man sager att det ar en robust metod, det vill saga en metod som ar tva populationer. Vi marknadsfor en produkt pa tva olika satt, enligt metod
relativt okanslig for skiftningar i forutsattningarna. Det har man visat 1 och metod 2. Det ena metoden leder till att en viss andel av de n 1
genom olika simuleringsforsok (Monte Carlo-experiment). bearbetade och tilltankta kundema koper produkten ifraga. Denna andel
betecknas p 1 Den andra metoden, som vi provat pa n2 kunder, leder pa
Exempel S motsvarande satt till andelen p 2

I en livsmedelsaffar kan kostnaderna for kundernas smainkop (inkop dar Andelarna p 1 och p 2 ar skattningar av motsvarande andelar n 1 och n 2 i
totalbeloppet understiger 600 kronor) beskrivas med en normalfordelning. tankta populationer. Dessa populationer bestar av alla de kunder som vi
skulle ha kunnat bearbeta med den ena eller den andra metoden.
Vi ska uppskatta medelkostnaden for dessa smainkop. Bland mangden av
fakturor (kvitton) gor vi darfor ett slumpmassigt urval omfattande 20 Det ar naturligt att punktskatta skillnaden n 1 - Jr 2 mellan populationema
fakturor. For dessa antecknar vi beloppen och beraknar medelvardet och med p 1 - p 2 , som ar motsvarande skillnad mellan de bada stickproven.
standardavvikelsen med foljande resultat: p 1 kan naturligtvis vara en over- eller underskattning av 7!1 och p 2 en
over- eller underskattning av n 2 Vi kompenserar for denna dubbla
x=178 s =82 osakerhet genom att gora skattningen i form av ett konfidensintervall.
En intervallskattning med konfidensgraden 95 procent av medelkostnaden
for smrunkopen beraknas sa har:

178 2,09 . ~ =178 38


v20
Vi bedomer alltsa att medelkostnaden () for smrunkopen ligger
intervallet 140 till 216 kronor.

108 109
(0,35-0,25)1,96. 0,35. 0,65 + 0,25. 0,75
Ndr stickproven dr tillrdckligt stora kan ett konfidensintervall 240 240
for skillnaden ffi - ff 2 mellan andelarna i tva populationer
Detta kan ocksii skrivas
berdknas med uttrycket
0,10 0,082
(p, _ ) + . Pi (1 - Pi) + P2 (1 - Pz)
Pz _ z 11 ell er
~ n1 nz
0,018 < lri - 7'2 < 0,182
n 1 och n2 dr stickprovsstorlekarna och p 1 och p 2 andelar- _I
- -
na i de bdda stickproven. z bestdms med hjdlp av tabell 2 sa , Vi drar al_!!:sii sJ~t~~t~i:i- ~t~. saljare_ ~ iir n~g~t mer effektiv .an sin kollega.
att man far onskad konfidensgrad. Med detta konstaterande tangerar v1 samtid1gt begreppet hypotesprovning.
Om detta viktiga omriide handlar de foljande kapitlen.
Konfidensintervall for skillnaden mellan medelvdrdena i tva populationer
Med tillrackligt stora stickprov menar vi att uttrycken n 1p 1(1- p 1) och
kan berliknas pii olika satt beroende pii forutsattningarna.
n 2 p 2 (1 - p 2 ) biida iir storre an 5.

Exempel 6 Ndr stickproven dr oberoende och tillrdckligt stora kan ett


konfidensintervallfor skillnaden 1 - 2 mellan medel-
Ett postorderforetag skickade ut en reklambroschyr for en ny produkt till
vdrdena i tva populationer berdknas med uttrycket
en stor mangd personer. For att stimulera forsliljningen lat man tvii veckor
senare tvii saljare ringa upp 240 personer vardera. Dessa personer var
slumpmassigt valda bland de personer som fiitt broschyren. Efter
ytterligare tre veckor hade man fiitt detta resultat:
n1 och n 2 dr stickprovsstorlekarna, x1 och x2 stickprovens
Siiljare 1 Siiljare 2
medelvdrden och s 1 och s 2 standardavvikelserna i de bada
84 bestallningar 60 bestiillningar stickproven. z bestdms med hjdlp av tabell 2 sa att man far
onskad konfidensgrad.
Vilka skillnader finns det mellan de biida saljarnas resultat? Slumpen kan
naturligtvis ha piiverkat resultaten pii olika satt. Diirfor besvarar vi friigan
genom att berlikna ett konfidensintervall. Med de beteckningar som inforts Minst 30 observationer i varje stickprov iir liksom tidigare en vanlig tum-
galler att regel. Hur gor man vid mindre stickprov?
n1 =n 2 =240

84 60
p, = 240 = 0,35 p2 =- =0,25
240
Med konfidensgraden 95 procent blir intervallet

110 111
Efter visningen fick personema fylla i ett formular med fragor pa de
Niir stickproven iir oberoende och de studerade variablerna moment som behandlats i filmen. For varje person noterade man antalet
ar normalfordelade med samma standardavvikelse i popu- ratt besvarade fragor. Resultaten sarnmanfattades sa har:
lationerna kan ett konfidensintervallfor skillnaden 1 - 2
Film- Antal Medel- Standard-
mellan medelviirdena i tva populationer beriiknas med version personer varde avvikelse
uttrycket
Svartvit 51 14,3 3,18
Farg 52 12,6 3,50

Berakna ett intervall med konfidensgraden 95 procent for den genom-


diir snittliga skillnaden i inlarningseffekt mellan de bada filmversionema.
Stickproven ar oberoende och tillrackligt stora. Vi skriver upp lOsningen
direkt:

3 18 2 3 50 2
n 1 och n 2 iir stickprovsstorlekarna, x1 och x2 stickprovens (14,3 - 12,6) 1,96 - ' - + - '-
51 52
medelviirden och s 1 och s 2 standardavvikelserna i de bada
stickproven. t bygger pa n1 + n2 - 2 frihetsgrader och Mer kortfattat kan detta skrivas
bestams med hjiilp av tabell 3 sa att man far onskad 1,7 1,3
konfidensgrad.
eller
0,4 < ] - 2 < 3,0
Aven detta ar en robust metod, <let vill saga en metod som fungerar val
aven om de matematiska forutsattningarna inte ar exakt uppfyllda. Har betecknar 1 det teoretiska medelviirdet eller populationsmedelviir-
Normalfordelningskravet ska alltsa inte overdrivas. Kravet pa att (de det vid inlaming med den svartvita versionen. 2 ar motsvarande medel-
okanda!) standardavvikelsema i de bada populationema ska vara lika kan (
varde vid inlarning med fargversionen.
man ocksa ta latt pa om stickproven ar ungefar lika stor.
Av vara berakningar drar vi slutsatsen att inlarningseffekten ar nagot
Exempel 7 ( hogre med den svartvita versionen an ined fargversionen.

Video Education Inc ar ett utbildningsforetag som specialiserat sig pa


instruktionsfilmer for sjukvarden. For att undersoka om det finns nagon Exempel 8
skillnad i inlamingseffekt mellan fargfilmer och svartvita filmer gjorde I en bilsimulator kan man studera hur snabbt personer reagerar i olika
man en ny instruktionsfilm i tva versioner. En grupp med 103 personer trafiksituationer. Tabellen sammanfattar resultaten fran en studie dar av-
fordelades slumpmassigt - randomiserades - sa att 51 personer fick se sikten var att jamfora reaktionstiderna i tva fildersgrupper. Som vi ser
den svartvita filmen och ovriga fargversionen. bestar den ena gruppen av relativt nya korkortsinnehavare medan den
andra gruppen bestar av mer rutinerade bilforare. Bada grupperna ar
Vi kan betrakta dessa 51 respektive 52 personer som tva oberoende
slumpmassiga urval fran motsvarande populationer. Medelvardena och
stickprov. Populationerna ar har inte klart definierade men vi far tanka oss
att de utgors av alla de personer som teoretiskt sett hade kunnat se den standardavvikelserna anges i sekunder.
svartvita filmen respektive fargversionen.
113
112
Standard-
Exempel 9
Alders- Antal Medel-
grupp/ar personer varde avvikelse Video Education Inc utvarderar sina instruktionsfilmer med hjalp av tva
18-19 11 1,23 0,23 olika frageformular, A och B. Varje frageformular besw av 80 fragor.
35-39 13 1,18 0,27 Syftet med frageformularen ar att mata askactarnas kunskaper inom det
omrade som filmen behandlar. Fragorna ar sa standardiserade att man kan
Lat oss forutsatta att matvardena ar ungefii.r normalfordelade med ungefii.r forutsatta att de bacta frageformularen har samma svarighetsgrad. Fore
samma populationsstandardavvikelse i de bacta fildersgruppema! Berakna visningen av filmen gars en randomisering sa att halften av askadarna far
ett intervall med konfidensgraden 95 procent for den genomsnittliga fylla i frageformular A och ovriga formular B. Efter visningen gar man sa
skillnaden i reaktionstid mellan de bacta aldersgruppema. att saga tvartom. Genom denna upplaggning vill man eliminera de syste-
matiska fel som kan uppkomma om det trots allt finns nagon skillnad i
Har har vi tva sma och oberoende stickprov. Forst beraknar vi svarighetsgrad mellan de bacta frageformularen.
2 2
s2 = (n1 - l)sf + (n2 - l)si = 10 0,23 + 12 0,27 = 0 0638 En ny film visades for nio slumpmassigt valda personer. Dessa fick fore
P n 1 + n2 - 2 11 + 13 - 2 ' och efter filmvisningen fylla i de bada frageformularen. Tabellen visar for
varje person antalet ratt besvarade fragor fore respektive efter visningen:
Konfidensintervallet blir
Person A B c D E F G H I
I 1 }) (
(1,23-1,18) 2,07.' 0,0638 - + - Fore 42 49 50 57 36 41 54 62 39
11 13
Efter 62 67 72 74 49 58 78 81 51
Vardet 2,07 finns i tabellen over t-fordelningen (22 frihetsgrader). Mer
kortfattat skriver vi intervallet Som ett matt pa hur filmen har okat kunskapema hos askactarna beraknar
II vi for varje person skillnaden mellan resultatet efter filmvisningen och
0,05 0,21
resultatet fore filmvisningen. Vi far foljande resultat:
eller
- 0,16 <I - 2 < +0,26
Person A B c D E F G H I

Differens 20 18 22 17 13 17 24 19 12
Detta intervall gar fran -0,16 till +0,26 och innehfiller alltsa vardet 0.
Darfor kan vi inte vara sakra pa att det finns nagon skillnad i reaktionstid
mellan de bada gruppema. Mer om detta i nasta kapitel. Vi kan betrakta dessa differenser som matvarden for nio personer i ett
slumpmassigt urval och pa vanligt satt berakna medelvardet och standard-
Nar vi bar tva stickprov fran tva olika populationer kommer de bacta stick- avvikelsen. Forst beraknar vi de summor som behovs:
proven att innehalla olika individer och blir darfor ocksa oberoende. Vi
har visat hur man under denna forutsattning kan berakna konfidens- n =9 ~>=162
t
intervall for skillnaden mellan proportioner och medelvarden.
Medelvardet och standardavvikelsen blir:
Vi ska nu behandla en annan vanlig situation, namligen hur man
analyserar parvisa observationer. Da har man bara ett stickprov men x= z>n = 1629 =18
istallet tva mii.tvii.rden for varje individ.
111

114 115
~> 2 _ {Lx)2 3036- 1622
6.5 Med datorns hjalp
s=
_ _ _ _.:..:
n_= --~9- = J15 = 3,87
n- 1 8 Parvisa observationer
Som vi ser fmns det inga extremvarden. Lat oss darfor anta att I exempel 9 beraknade vi ett konfidensintervall for den genomsnittliga
differensema ungeflir kan beskrivas med en normalfordelning. Da kan vi differensen i antal korrekt besvarade fragor. Om vi med Minitabs hjalp
berakna ett konfidensintervall for differensernas populationsmedelvarde beraknar konfidensintervallet far vi nedanstaende resultat:
med uttrycket
Konfidensintervallets
- s nedre och ovre granser
xt J;, One-Sample T: Differens

Med konfidensgraden 95 procent blir detta intervall Variable N Mean StDev SE Mean \ 95% CI 7
.Ji =
Differens 9 18,0000 3,8730 1,2910 ( 15 ,0230; 20, 9770)
3
18 2,31 183,0
Variabeln Differens ar de nio differenserna som beraknats pa sidan 115.
Efter visningen kan alltsa de personer som sett filmen i genomsnitt
besvara 15 tiU 21 fler fragor an fore visningen. Minitab ger resultatet inte enbart i form av siffror. Man kan ocksa valja att
fa resuJtatet som ett histogram, en boxplot eller en dotplot med konfidens-
Tekniken vid parvisa observationer ar som vi ser mycket enkel. For varje intervallet inritat. Med sa fa varden som nio ar ett histogram inte speciellt
talpar beraknar man differensen och dessa differenser behandlar man lampligt utan vi valjer denna gang en dotplot, dar varje differens markeras
darefter som ett enda stickprov. med en punkt i diagrammet:

Individual Value Plot of Differens


(wlh 95% t-confidence interval for the mean)

12 14 16 18 20 22
Dlfferens

Observationsvardena ar inritade i figuren. Forskjutningarna i hOjdled gors


for att de tva differenser som har vardet 17 inte ska sammanfalla. Under
punkterna ar konfidensintervallet ritat som en vagrat linje som stracker sig
fran 15 till 2 i.
116 117
Tva oberoende grupper
I exempel 8 studerades reaktionstiden i trafiken for tva aldersgrupper. Data
Ovningsuppgifter
ar inmatat som tva variabler i SPSS, reaktionstiden ar den ena och
grupptillhOrigheten - Yngre eller Aldre - den andra. Ett konfidensint~rvall 601
for den genomsnittliga skillnaden fas tillsammans med ytterligare Var det riitt ZO.t som vann? Denna for hela nationen sa viktiga fraga stalldes
information som vi ska se narrnare pa i nasta kapitel. av en kvallstidning till ett slumpmassigt urval om 400 man och 600
Forst kommer lite beskrivande statistik uppdelat pa de bacta aiders- kvinnor dagen efter den svenska uttagningen till Melodifestivalen. Bland
grupperna. Samma information som tabellen i exempel 8. mannen var det 202 och bland kvinnorna 334 som svarade Ja.
a) Uppskatta andelen Ja-svarare bland mannen i hela nationen med ett
Group Statistics interval! med konfidensgraden 95 procent.
Std. Std. Error b) Gor samma berakningar for kvinnoma men arbeta nu med konfidens-
Gruoo N Mean Deviation Mean graden 99 procent.
Reaktionstid Yngre (18-19 ar) 11 1,2300 ,2300 ,0693
(sek) Aldre (35-39 ar) 13 1,1800 ,2700 ,0749
602
Planerar ni att kopa julskinkan i Danmark i ar? Den fragan ska Absolute
Darefter redovisas detta resultat. Opinions stalla till hushfill i Helsingborg den forsta veckan i december.
Man vill uppskatta andelen Ja-svarare med ett interval} med konfidens-
I -- Independ en t S ampI es Test
graden 80 procent. Intervallets bredd far vara hOgst 0,02.
I I-test for Equalitv of Means
95% Confidence
a) Hur stort stickprov maste man ta om man bedomer att var fjarde person

, .

Reaktionstid Equal
I df
Sig .
12-tailedl
Mean
Difference
Std. Error
Difference
Interval of the
Difference
Lower Upper
svarar Ja?
b) Hur stort stickprov maste man ta om man inte kan bedoma andelen Ja-
svarare?,


(sek) variances ,483 22 ,634 ,0500 ,1035 -1646
;646
assumed ~ 603
I v Hur manga ganger har du gatt pa konstutstiillning under det senaste aret?
Att det ar tva oberoende grupper som analyseras ser vi av overskriften Fragan stalldes till ett slumpmassigt urval bland medlemmarna i en riks-
Independent Samples Test. . tackande konstforening. For de 72 personer som besvarade fragan blev
medelvardet 4,9 och standardavvikelsen 3,5. Uppskatta med ett interval}
Variabeln som analyseras ar Reaktionstid (sek). Skillnaden mellan stick- med konfidensgraden 95 procent hur manga ganger foreningens samtliga
provsmedelvardena 1,23 - 1,18 = 0,05 star under Mean Difference i medlemmar i genomsnitt har gatt pa konstutstallning under det senaste
tabellen. Slutligen hittar vi konfidensintervallets undre grans, --0,1646, och aret.
\.
ovre grans, 0,2646, !angst till hOger. Vid berakningarna har SPSS anvant t-
fordelningen med 22 frihetsgrader, df star for degrees offreedom. 604
Vi atervander till detta resultat i slutet av nasta kapitel. Hur stort stickprov kravs det om en intervallskattning av den typ som
forekommer i foregaende uppgift ska ha enfelmarginal pa cirka 0,2?

118
119
irr !

605
608
Ett postorderforetag med en mycket stor och ungdomlig kundkrets har
konsulterat en statistiker som gjort en urvalsundersakning bland foretagets Se uppgi_ft 601. Intervallskatta skillnaden mellan mannen och kvinnorna i
kunder. Undersakningen omfattade 144 kunder. Medelfildern i stickprovet hela nationen vad galler andelen ja-svarare med konfidensgraden 95
procent.
var 29 ar, standardavvikelsen var 9,2 ar
och 16 procent av kunderna i
stickprovet var under 20 ar.
609
a) Intervallskatta med konfidensgraden 95 procent andelen kunder under Med ~jalp. av en bilsimulator kan man studera bromsstrackan i en viss
20 ar i kundkretsen. t~afiks1tuatton. I ett experiment deltog 60 slumpmassigt valda yngre
b) Hur stort stickprov maste man ta om bredden for en intervallskattning bllforare (35 ar eller yngre) och 40 iildre bilforare (60 ar eller aldre)
av kundernas medelalder med konfidensgraden 95 procent far vara hagst Resultaten
.. k for de bada grupperna sarnmanfattas i folJ.ande tabell . Broms_
1,5 ar? s trac an anges i meter.

606 Alders- Antal Medel- Standard-


grupp person er vlirde
I en undersakning ville man for tva omraden jamfara prisnivaerna pa avvikelse
bostadsratter for trerumslagenheter. De Iagenheter som ingick i under- Yngre 60 73,9 18,7
sakningen' valdes slumpmassigt bland de Iagenheter som hade sfilts under Aldre 40 79,3 23,I
det senaste kvartalet. Resultaten kan sammanfattas pa foljande satt:
B~r~a e~t interv~ll med konfidensgraden 95 procent for den genom-
Omrade Antal Medel- Standard- sruttliga skillnaden I bromsstracka mellan populationerna Yngre ocb Aldre.
lligenheter pris/tkr avvikelse/tkr
Namndemannen 18 616,0 99,4 610
l\1idso1TI1I1arkransen 14 570,0 83,2 I sam?and med en kurs i lasteknik far de atta kursdeltagarna vara med om
tva olika Iashastighetstest A och B, det ena fore kursen och det and ft
I a) Uppskatta prisnivan for trerumslagenheterna i Namndemannen med ett Man b d
. e omer att testen ar av samma svangbetsgrad men for att r
ra e er.
interval! med konfidensgraden 95 procent. Diskutera ocksa forutsatt- nske .k & e urunera
n or systematis a 1el far halften av personerna test A fore k
ningarna for dina berakningar. med .. . fo B E~ ursen
an ovnga ar test . 1ter kursen gar man tvartom. Resultat:
b) Gar samma berakningar for Midsommarkransen.
c) Intervallskatta med konfidensgraden 95 procent den genomsnittliga Deltagare 1 2 3 4 5 6 7 8
skillnaden i prisniva for trerumslagenbeter i de bada omractena. Diskutera Fore 287 308 275 310 322 269 290 299
ocksa forutsattningarna for berakningarna. Efter 298 305 288 315 321 281 295 305

607 Uppskatta den genomsnittliga forandringen i Iasbastigbet med ett interval!


11
Tar din chef hiinsyn till dina synpunkter? Faretagshalsovarden pa ett med.. kn.konfidensgraden 95 procent. Ange forutsattningarna 1or & d ma
'
flygbolag bar kartlagt bur de anstallda upplever sin arbetsrnilja och bland bera mgar.
annat stallt denna fraga. Av de 88 slumpmassigt valda mannen svarade 63
Ja. Bland kvinnorna svarade 71 av 113 tillfragade Ja. Berakna et~ intervall
11 med konfidensgraden 95 procent for skillnaden mellan flygbolagets man
II och kvinnor vad galler andelen som tycker att deras chef tar bansyn till
deras synpunkter.

120
121

I
Beslutet att inte forkasta en nollhypotes maste alltid tolkas med
7 Hypotesprovning forsiktighet. Det beror pa att det ofta finns en stor risk att acceptera
nollhypotesen nar den ar felaktig.
Beslutet att forkasta en nollhypotes innebi:ir att stickprovet ger stod for
mothypotesen. Risken ar naml.igen liten (ocb ett kant tal) att forkasta
nollhypotesen nar den ar sann. StOdet for mothypotesen blir naturligtvis
Med en hypotes menar vi ett antagande. Statistisk hypotesprovning innebar starkare ju mindre varde pa avi arbetar med.
att man med hjalp av information fran ett slumpmassigt urval bedomer - Kare lasare! Nu har du allt fatt nagot att fundera over! Som du nu nog har
provar - hypoteser angaende populationen. borjat inse ar tankarna bakom hypotesprovning inte belt enkla att tranga in
i. Men - ge inte upp! Las vidare sa klarnar bilden successivt.
Yid all hypotesprovning formulerar man en nol.lhypotes (H?) och ett
altemativ till denna, en mothypotes (H1). Provrungen leder ull att ~an
antingen forkastar nollhypotesen eller inte forkastar den. Nar man mte
forkastar nollbypotesen sager man ocksa att man acc~pterar n~ll
hypotesen. I fortsattningen anvander vi biida dessa formul~nngar omvax- 7.1 a= Hur manga oskyldiga ska domas?
lande. Och vi kan redan nu avsloja att nastan hela detta kap1tel handlar om
vad dessa tekniska termer - att acceptera och att forkasta nollhypotesen - Yid en rattegang ska man avgora om en atalad person ar oskyldig eller
innebar i praktiken. skyldig. Denna bedomning gor man bland annat genom att vardera de
uppgifter som presenteras under rattegangen.
Ett slumpmassigt urval ger aldrig fullstandig information om popul~tio?en.
Det finns darfor alltid en risk att ett beslut som baseras pa sadan Med ett statistisk sprakbruk kan hypoteserna formuleras sa har:
ofallsti:indig information blir felaktigt. Man skiljer mellan tva typer av
H 0 : Den atalade personen ar oskyldig.
risker:
H 1 : Den atalade personen ar skyldig.
Risken att forkasta nollhypotesen ni:ir den i:ir sann.
Anta att vi satter a= 10 procent. Da innebar detta att vi ar beredda att ta en
Risken att acceptera ( = inte ferkasta) nollhypotesen ni:ir den i:ir falsk.
risk pa tio procent att falla en oskyldig person! I langa lappet innebar det
Vid all hypotesprovning faststaller man sjalv hur st?r risken sk~ vara att alltsa att tio procent av de personer som ar oskyldigt atalade blir domda for
forkasta nollhypotesen oar den ar sann. Denna nsk kallas for t~stets brott de aldrig begatt.
signi.fikansniva och betecknas med den gre~s~a bokstaven. a: a-nsken
Sa hOga procentsatser kan vi nog inte acceptera, speciellt inte om vi sjalva
maste naturligtvis vara liten men det ar omoJhgt att helt eliminera den.
tillhor gruppen oskyldigt atalade! Enligt svensk rattspraxis ska i sjalva
Vanliga varden pa aar 5 %, 1%och0,1 %. verket risken att falla en oskyldig vara sa liten som mojligt. Annorlunda
f3 ar risken att inte forkasta(=acceptera) nollhypo~~sen ~~de~ ar f~sk. I uttryckt: nar vi forkastar nollhypotesen ska vi vara overtygade om att
motsats till risken a, som alltid ar ett ki:int tal, ar ,8-vardet 1 allmanhet mothypotesen ar korrekt, dvs. att den atalade personen ar skyldig. Trots
oki:int. a ar dessutom alltid ett litet tal (sa litet vi sjalva vill!) medan det detta hander <let att personer blir domda for brott de aldrig begatt.
okanda p.vardet ofta kan bedomas vara ett stort tal. Att risken a att falla en oskyldig ska vara sa liten som mojligt ar nog nagot
Av det har resonemanget kan vi dra tva viktiga slutsatser: som de fiesta haller med om. Men myntet bar ocksa en annan sida. De
Mrda beviskraven medfor naturligtvis att risken f3 ar stor att fria en skyldig
person.

122 123
Ju hogre beviskrav som stalls desto mindre blir alltsa risken a att falla en har Jost den uppgiften kan du liisa vidare. Da far du veta bur var van
oskyldig och desto sttirre blir risken f3 att fria en skyldig. statistikern resonerar.
Anta nu att vi har bestamt oss for ett mycket litet varde pa a och att Ar andelen sympatisorer till Asiktspartiet oforandrad sedan valet eller har
resultat har blivit att vi forkastat nollhypotesen. Da finns det stark.a skiil det sk~~t e? forandri ng? Det ar de fragorna som ska besvaras med hjalp av
0
for bedomningen att mothypotesen iir sann, dvs. att personen ar skyldig. undersokningen. Fragorna oversatts latt till hypoteser. De kan skrivas sa
har:
Men har vi inte kunnat forkasta nollhypotesen innebiir detta inte att noll-
hypotesen iir sann, dvs. att personen ar oskyldig. Som vi papekat ar risken H 0 : Andelen ar oforandrad
f3 att acceptera en felaktig nollhypotes ofta ett stort tal. I vart exempel
H 1: Andelen har andrats
innebar detta att personen mycket val kan vara skyldig men med de stora
krav vi staller har bevisen inte varit tillrackligt starka for en fallande dom. Men iinnu vanligare ar det nog att man skriver hypoteserna sa har:
H 0 :~=0,20
Hi : ~ :t; 0,20

7.2 Skillnaden ligger inom felmarginalen Tecknet :# betyder inte lika med och 7f betecknar den verkliga andelen
partisympatisorer i hela valjarkaren vid undersokningstillfallet. Om noll-
Som du nog kommer ihag hade Asiktspartiet en avsevard framgang vid hypotesen ar sann ar denna andel oforandrad sedan valet, dvs. fortfarande
senaste valet. Partiet fick faktiskt tjugo procent av de avgivna rosterna, tjugo procent. En nollhypotes innebar ofta just detta: noll = ingen
vilket inte ar daligt for ett nytt parti helt utan program. Men hur ser det ut forandring.
atta manader senare. Ar andelen sympatisorer i viiljarkaren oforandrad
eller har det skett en okning eller minskning? J':1othypotesen innebar helt enkelt att en forandring bar agt rum. Forand-
nngen kan ha gatt i tva riktningar: andelen kan ha okat eller minskat. Vi
For att fa de har fragorna besvarade genomfors en partisympatiunder- sager att mothypotesen iir tvasidig.
sokning. Den omfattar 900 slumpmassigt valda personer, som far besvara
fragan: Vilket parti skulle du rosta pa om det vore val idag? Det visar sig Liigg miirke till att mothypotesen alltid ska formuleras med utgangspunkt
att 22 procent svarar Asiktspartiet. fran ~en [ragestiillning som gett upphov till undersokningen, dvs.
egentlzgen mnan urvalet gors. Har vill vi ta reda om andelen sympatisorer
Vilka slutsatser kan vi dra med hjiilp av resultatet fran denna under- i .valjark~en ar oforandrad eller om det bar skett en okning eller minsk-
sokning? nmg? V1 utesluter inget alternativ och darfor ska mothypotesen vara
tvasidig.
Jo, i Asiktspartiets eget Informationsblad kommenterar man pa ledarplats
resultatet av undersokningen sa bar: Nar hypoteserna ar formulerade ska vi granska den information vi bar
- Vart parti har okat med tva procentenheter. tillgang till. Da konstaterar vi forst att ett valresultat i praktiken kan
uppfattas som en totalundersokning av en population. Populationen bar
I samma nummer finns ocksa en intervju med Asiktspartiets Ordforande, ~tgors av hela viiljarkaren. Det finns darfor inget slumpmiissigt fel i vardet
som gor foljande uttalande: t]ugo procent.
- Antalet viiljare som idag ger Partiet sitt sttid har okat med sensationella Med den partisympatiundersokning som gars atta manader senare forhfiller
tio procent. det sig pa ett annat satt. Da ar det fraga om en urvalsundersokning och
Hur kan man - utan att rakna fel - komma fram till de har till synes helt resultatet beror pa vilka individer som rlt.k:ar komma med i urvalet, dvs. pa
olika sifferuppgifterna? Den fragan far du sjiilv fundera over. Och nar du
124
125
slumpen. I denna undersokning har vi fatt vardet 22 procent. I en annan Men vad sager vi till Asiktspartiets foretradare, som har bestallt och ocksa
undersokning hade vi kanske fatt vardet 21 procent eller 18 procent. ska betala hela denna undersokning? De kanske inte begriper sa mycket av
Fragan kan nu formuleras sa har: Ger undersokningsresultatet stOd for vart resonemang hittills.
antagandet att andelen sympatisorer har andrats sedan valet? Vi kan ocksa Jo, ~a har e?kelt kan man uttrycka det. Procenttalet for Asiktspartiet i var
uttrycka det sa har: Ar skillnaden sa stor mellan stickprovsresultatet och part:tsyrnpatmndersokningen ligger visserligen nagot hogre an valresultatet.
valresultatet att den tyder pa opinionsforandringar i valjarkaren? Eller ii.r Men skillnaden ar sa liten att den kan bero pa slumpen. Nagra siikra
skillnaden sa liten att den helt enkelt kan bero pa slumpen? slutsatser att andelen sympatisorer har andrats kan vi alltsa inte dra med
Vad som menas med en stor eller liten skillnad ar naturligtvis en hjalp av denna undersokning.
definitionsfraga. Sa har kan man resonera: Om vi dessutom vill svanga oss med nagra vanliga statistiska termer kan vi
Om nollhypotesen ar sann har ingen forandring skett sedan valet vad ~illag~a. ~killnaden ligger inom den statistiska felmarginalen. Den ar alltsa
galler andelen sympatisorer i valjarkaren. Da ar denna andel i vii.ljarkllren mte signifikant eller statistiskt sii.kerstii.lld.
fortfarande tjugo procent nar undersokningen genornfors. Enligt vad vi Och darmed ar sakert allt kristallklart!
tidigare sagt i kapitel 5 kommer da andelen sympatisorer i urvalet med 95
procents sannolikhet att ligga i intervallet

0 20 0 80
0' 20 +
- 1,96 . 900
. =0 ,20 +- 0 ,026 7.3 Signiflkant = statistiskt sakerstallt
Eller - uttryckt i procent - i intervallet Yid hypotesprovning gor man en trovii.rdighetsbedomning av de hypoteser
202,6 man formulerat. Bedomningen sker med hjhlp av utfallet i ett stickprov
och bygger alltid pa nagon form av sannolikhetsberalcningar.
Intervallet ar ett matt pa slumpvariationen for ett stickprov av denna
storlek. En avvikelse - uppat eller nedat - med 2,6 procentenheter fran Berakningama vid hypotesprovning kan rent tekniskt utforas och redovisas
vardet 20 ar alltsa inte stOrre an att den kan bero pa slumpen. pa olika satt men innebar trots detta i stort sett samma sak. I foljande
exempel visar vi en vanlig teknik vid statistisk hypotesprovning av
I vart exempel galler att skillnaden mellan det varde som vi fatt i stick- andelar.
provet (22 procent) och valresultatet (20 procent) ar mindre an 2,6
procentenheter. Skillnaden kan alltsa bero pa slumpen. Det innebar att vi Exempel 1
inte kan forkasta nollhypotesen att ingen forandring har agt rum. Den
maste alltsa tills vidare accepteras. Visst var det rii.tt Lat som vann! Sa tycker en majoritet av Sveriges
befolkningI
Men att vi accepterar nollhypotesen innebar inte att vi pastar att andelen
sympatisorer ar oforandrad. En forandring kan ha agt rum, men den ar i sa Den rubriken kunde man lasa i en kvhllstidning dagen efter den svenska
fall inte sa stor att den gar att statistiskt sii.kerstii.lla med hjalp av detta ~tta?ningen till Melodifestivalen. Som stOd for sitt pastaende redovisade
enda stickprov. Att nollhypotesen accepteras innebar alltsa att stickprovet t1drungen en undersokning ornfattande ett slumpmassigt urval om 1 000
inte ger tillrii.ckligt stOd for mothypotesen. Skillnaden kan verka subtil personer. Bland dessa var det 536 som ansag att den lat som vann ocksa
men ar i praktiken mycket viktig. var den basta Iaten.

Ger uppgiftema stOd for pastaendet att en majoritet - mer an hiilften - av


Sveriges befolkning har denna uppfattning?

126
127
Forst oversatter vi fragestallningen till hypoteser. De skrivs sa bar: Verkar allt detta obegripligt? Da kan den som sa vill repetera sidoma
96-99 i kapitel 5. Men det gar ocksa bra att lasa vidare direkt.
H0 : :ff= 0,5
Testvariabeln z kan anta olika varden. Om nollbypotesen ar sann kan
H 1 : :ff> 0,5
variationen i z beskrivas med en normalfordelning med medelvarde noll
1far bar den verkliga andelen i bela populationen, dvs. den andel vi far om ocb standardavvikelse ett.
samtliga personer i befolkningen tillfragas. Motbypotesen ar ensidig ocb
Som en foljd av vart tidigare
betyder att 7r ar storre iin 0,5 eftersom vi ar intresserade av att analysera
resonemang konstaterar vi nu att
pastaendet att mer iin halften av populationen har en viss uppfattning.
nollbypotesen ska forkastas om vi
Om nollhypotesen ar sann, dvs. :ff = 0,5 , vantar vi oss att andelen i far ett "stort" positivt varde pa
stickprovet p ocksa antar ett varde nara 0,5. Ar daremot motbypotesen testvariabeln. I tabell 2 far vi veta
sann ar det troligt att vardet pa p ar stOrre an 0,5, dvs. att differensen var gransen gar. Valjer vi signi- 5%
p - 0,5 ar positiv. fikansnivan a = 5 % ocb har en
ensidig mothypotes ska vi forkasta
Slutsatsen av detta resonemang bor da bli:
nollhypotesen for alla varden, som
-3 -2 -1 0 1 2
Acceptera nollhypotesen om stickprovsvardet p ar ungefar lika med ar srorre an 1,64. Dessa varden 1,64
vardet enligt nollbypotesen, dvs. om differensen p - 0,5 ar nara noll. bildar det kritiska omradet. Vardet
Forkasta nollbypotesen till forman for motbypotesen om stickprovs- 1,64 kallar vi for <let kritiska viirdet ocb vi anvander beteckningen z ..
vardet p ar mycket storre an vardet enligt nollbypotesen, dvs. om Har galler alltsa att z1a-u = 1,64. Sannolikheten ar namligen fem procent;tt
differensen p - 0,5 ar ett stort positivt tal. fa ett stOrre varde an 1,64 om nollbypotesen ar sann.

Nar ar differensen p - 0,5 "nara noll" ocb nar ar den "ett stort positivt Nu ar d.et <lags att berakna det observerade viirdet pa testvariabeln for just
tal"? Det ar en bedomningsfraga. Svaret beror bade pa bur stor slump- detta stzckprov. Det betecknar vi zobs Det galler att
variation <let finns i stickprovsvardet p ocb pa hur stor risk ex vi ar beredda n = 1000 (stickprovets storlek)
att ta att forkasta nollhypotesen nar den ar sann.
:ffo = 0,5 (nollbypotesens varde)
Slumpvariationen tar vi hansyn till genom att bilda en testvariabel. Den
kan allmant skrivas sa bar: 536
p = 1000 = 0,536 (stickprovets varde)
p -:ff
z= o ocb slutligen
~ :ffo (1 ~ :ffo)
_ P - :ffo 0,536 - 0,5
zobs - = = 2,28
dar
~ 0,50,5
~~ 1000
Eftersom det observerade vardet zobs = 2,28 ar srorre an det kritiska
vardet ~krit = 1,64 ska nollbypotesen forkastas till forman for mothypo-
ar standardavvikelsen for stickprovsviirdet p under forutsattning att noll- tesen. V1 sager att andelen i populationen ar signifikant stOrre an 0,5 eller
hypotesen ar sann. :ffo betecknar vardet enligt nollbypotesen (i vart 50 %. Vi kan ocksa saga att <let ar statistiskt siikerstiillt att en majoritet av
exempel ar alltsa Jr0 = 0,5) och n ar som vanligt stickprovets storlek. Sveriges befolkning anser att ratt lat vann.

128 129
Nar vi sager att andelen ar signifikant stOrre an femtio procent ar detta ett Uppdragsgivaren har ibland ett intresse av att fa fram signifikanta resul-
uttryck som Iatt kan missuppfattas. Ordet signifikant betyder hii.r att vi me4 tat. Forskaren, som vigt manga ar av sitt liv at nagon konstig teori, blir
ett signifikanstest har visat att andelen troligen iir storre ii.n femtio naturligtvis besviken nar inte resultaten ger vad han hade hoppats pa.
procent. Vi har alltsa inte sagt att andelen ar mycket stOrre an femtio Om signifikansnivan valjs i efterhand, nar berakningama fran under-
procent. Det kan i sjalva verket rora sig om en ytterst svag majoritet men sokningen ar klara, finns det alltid en risk att detta val inte sker seriost
det intressanta med vart testresultat ar att vi har gjort troligt att den finns. utan framfor allt med syftet att resultatet ska bli det man onskar.
Varfor valde vi signifikansnivan a= 5 %? Om vi istallet hade arbetat med Ja, sa resonerade man i hypotesprovningens barndom. Men idag tanker
signifikansnivan en procent, som motsvaras av det kritiska vardet 2,33, man helt annorlunda och struntar ofta i att ange nagon signifikansniva.
hade slutsatsen blivit den motsatta, dvs. nollhypotesen hade accepterats. Istallet beraknar man nollhypotesens p-viirde (probvalue). Med det menar
Fragan kan besvaras sa har. Av ren rutin valjer man ofta signifikansnivan vi sannolikheten att fa minst en sa stor skillnad som den vi fiitt mellan
fem procent, om det inte finns speciella orsaker att valja nagon annan niva. stickprovets varde och vardet enligt nollhypotesen. Man kan saga att man
Men det ar nOdvandigt att man alltid bedomer de konsekvenser ett felaktigt beraknar signifikansnivan i efterhand. Ar sannolikheten liten forkastar vi
beslut fAr. I avsnitt 7.1 har signifikansnivan en mycket praktisk innebord. nollhypotesen och ju mindre p-vardet ar desto stOrre stOd ger detta
Den ar risken att doma en oskyldig person! Denna risk maste naturligtvis naturligtvis for mothypotesen.
vara sa liten som mojligt. Var gar gransen?
I andra sarnmanhang kan man kanske beskriva konsekvensema av ett Man har infort en skala omfattande noll till tre stjamor for att beteckna
felbeslut i ekonomiska termer och med ledning av ett sadant resonemang olika intervall for sannolikhetsvardet.
bestarnma signifikansnivan.
Om p-vardet ar mindre an 0,1 procent talar man om trestjiimig signi-
I vart exempel valde vi alltsa signifikansnivan a= 5 %. Har ar arisken att fikans . Da finns det alltsa ett mycket starkt stOd for mothypotesen.
pasta att en majoritet av Sveriges befolkning anser att ratt lat vann, fast
majoriteten inte alls tycker sa. Om p-vardet ar mindre an 1 procent (men stOrre an 0,1 procent) har
man tvastjiimig signifikans. Aven detta ar ett starlet stOd for
Nog ar vi beredda att liita den risken uppga till fem procent! mothypotesen.
Om p-vardet ar mindre an 5 procent (men stOrre an 1 procent) kallar
man detta enstjiimig signifikans.
Om p-vardet ar storre an 5 procent finns det ingen statistisk
7.4 Maste signifikansnivan anges? signifikans. Da kan nollhypotesen inte forkastas, den maste alltsa
I hypotesprovningens bamdom var det en tvingande regel att bestamma accepteras. Detta markeras ibland med n.s. vilket star for not
signifikansnivan redan nar undersokningen planerades. Vardet pa a skulle significant.
alltsa bestammas innan urvalet gjordes och nagra berakningar utfordes. Med andra ord: ju fler stjamor desto starkare stOd for mothypotesen!
Det finns tva grundlaggande tankar bakom denna ide:
Med ett givet varde pa a ar det mojligt att berakna styrkefunktionen,
som definieras 1 - f3. f3 ar risken att acceptera en falsk nollhypotes och
styrkefunktionen 1 - f3 iir alltsa sannolikheten att forkasta en falsk
nollhypotes. Hur man gor dessa berakningar gar vi inte in pa har.

130 131
Ofta ar det mycket enkelt att Om syftet ar att ta reda pa om andelen ar skild fran femtio procent ska vi
berakna p-vardet. I exemplet i alltid ha en tvasidig mothypotes.
foregaende avsnitt ar testvariabelns !bland ska vi undersoka om mer iin femtio procent av populationen har en
observerade varde zobs = 2,28. viss uppfattning. Fragestallningen innebar att vi i forviig utesluter
Mothypotesen ar ensidig. p-vardet alternativet rnindre an femtio procent. Darfor arbetar vi med en ensidig
utgors da av arean under normalfor- mothypotes:
1,1%
delningskurvan till hOger om vardet
2,28. Sannolikheten som vi enkelt H 1 : 1l' > 0,5
avHiser i tabell 1, ar 1,1 procent. Om vi istallet ska undersoka om mindre iin femtio procent har en viss
Detta motsvarar enstjarnig signifi- .3 2 .1 0
egenskap skrivs mothypotesen
kans och ofta skriver vi kortfattat
H 1 : 1l' < 0,5
zobs := 2,28* p = 0,011
Vi upprepar att hypoteserna alltid ska formuleras med utgangspunkt fran
Har betyder p alltsa probvalue och inte en and~l i ~tt ur~al! Opeda~~giskt den fragestallning som gett upphov till undersokningen, dvs. innan urvalet
_ kan man tycka - att lata en beteckning ha ohka mnebord, men sa ar det gars. I ett konkret urval ar alltid procenttalet starre eller mindre an ett visst
alltsa inom statistiken ! varde men detta far alltsa inte paverka utformningen av hypoteserna.
Ytterligare en gang kan vi alltsa med tillfredsstallelse konstat~ra att en Man kan inte bade formulera och prova hypoteser med hjalp av samma
majoritet av Sveriges befolkning ansag att ratt lat vann. Men sa var den material.
ocksa bra!
Schematiskt kan arbetsgangen beskrivas sa har:
Fragestallning
Fragestallningen oversatts till hypoteser
7.5 Ensidigt eller tvasidigt? Slumpmassigt urval. Numeriska berakningar
I nollhypotesen preciserar man alltid ett varde. Sa har kan det se ut: Nollhypotesen accepteras eller forkastas
H 0 :n =0,5 Verbal (begriplig) slutsats
Nollhypotesen ar ett antagande att exakt halften ~v individe~a i Darmed behaver det inte vara slut. En undersokning kan ge upphov till nya
populationen har en viss egenskap. 1r .a.r alltsa den :erkhga andel.en 1 hela fragestallningar och darmed nya hypoteser som i sin tur kan provas pa ett
0
populationen, det vill saga den andel v1 far om samtllga personer tillfragas. 1
nytt slumpmassigt urval, som i sin tur kan ge upphov till nya
Mothypotesen ar ett alternativ till nollhypotesen. Den ger svar pa fragan: fragestallningar och darmed nya hypoteser. ..
Om inte nollhypotesen ar sann vad ar da sant? I exemplet kan den fragan . For att prova nollhypotesen
formuleras: Om inte halften har en viss egenskap vad galler da?
Ho :Jr=1l'o
Jo, da finns det tva alternativ: att mindre iin hii.lften eller at~ mer iin hiilfte~
har en viss egenskap. !bland ska Mda dessa alternatlv vara med i dar n 0 ar ett godtyckligt tal mellan 0 och 1 anvander vi testfunktionen
mothypotesen. Denna ar da tvasidig och skrivs sa har:
H 1 : n-::;:. 0,5
132 133
p-li
z= o
~n0 (1:no)
Om mothypotesen ar ensidig och skrivs

Hi: Ji> lio


ska vi forkasta nollhypotesen nar testfunktionens observerade varde ar ett 5%
start positivt tal. Var gransen gar bestams av signifikansnivan. Om
a= 5 % ska nollhypotesen forkastas om vi far ett varde stOrre an 1,64.
Sannolikheten att detta ska intraffa ar just fem procent om nollhypotesen ar
Acceptansomr~de 1,64 Krliskt
sann. om~e

Om mothypotesen istallet skrivs

H1: Ji< lio


ska vi forkasta nollhypotesen for varden i norma]fordelningens vanstra
svans, dvs. for varden mindre iin -1,64 om a= 5 %.
Om mothypotesen ar tvasidig

H1: Ji* lio


ska vi forkasta nollhypotesen for varden i normalfordelningens bada
svansar. Om a= 5 % ska vardera svansen innehfilla 2,5 procent, dvs.
nollhypotesen ska forkastas om vardet pa testfunktionen ar mindre iin Krtiskt -1,64 Acceptansomrllde
omrllde
-1,96 eller storre iin I,96.
Nollhypotesen
Ho :n = lio
motsvaras alltsa av tre olika mothypoteser, beroende pa vilken fragestall-
ning vi har. Mothypotesen avgor hur det kritiska omri'ldet bestams. Om
signifikansnivan ar fem procent kan de tre altemativen illustreras som pa
motstaende sida.
2,5% 2,5%

Kritiskt -l,% Acceptansomrllde 1 96 Kritiskt


omrde ' omrde

134 135
- ~

Som vi har konstaterat anger man inte alltid nagon signifikansniva. Istallet Vi upprepar att det ar fragestallningen och aldrig resultatet av urvalet som
beraknar man p-vardet med utgangspunkt fran det varde testfunktionen har avgor hur mothypotesen formuleras. Hypoteserna ska alltsa formuleras
antagit. innan urvalet gors.
For den ensidiga mothypotesen Ht : n > n0 blir sannolikheten arean under Testfunktionen valjer man med utgangspunkt fran de forutsattningar som
normalfordelningskurvan till hOger om testfunktionens observerade varde. galler. Har vi ett stort slumpmassigt stickprov med oberoende obser-
Om detta varde exempelvis ar zobs =2,07 blir alltsa p-vardet 1,9 procent, vationer anvander man uttrycket
vilket vi enkelt slar upp i tabell 1.
x-~
z=--
Om mothypotesen istallet gar i motsatt riktning gor vi samma typ av s l fn
berakningar for normalfordelningens vanstra svans. Da utnyttjar vi att den
standardiserade normalfordelningen ar symmetrisk kring punkten noll. Nar vi anvander denna testfunktion bestlirnmer vi det kritiska omradet eller
beraknar sannolikhetsvardet med hjalp av tabellema over normalfordel-
*
Om mothypotesen ar tvasidig H 1 : n n 0 ska vi forkasta nollhypotesen for ningen (tabell 1 eller tabell 2).
varden i norrnalfordelningens bada svansar. Om z obs = 2,12 motsvarar
detta 1,7 % i hOgra svansen. Men nar mothypotesen Cir tvasidig ska denna Om den variabel vi undersoker ar ungefar normalfordelad (se kommen-
sannolikhet dubbleras. p-vardet blir alltsa 3,4 %. tarema i kapitel 6, sidan 108) kan vi som testfunktion anvanda uttrycket
x-
t= - --0
s l fn
Da bestams det kritiska ornradet med hjalp av tabell 3 over t-fordelningen.
7.6 Hypotesprovning av medelvarden Denna testfunktion kan anvandas oberoende av stickprovets storlek men
Det finns ett antal trosklar man maste ta sig over innan man riktigt forstar den ar av praktiskt intresse framforallt vid sma stickprov.
II
II hur hypotesprovning fungerar. Men har man val lyckats med denna bravad
inser man att hypotesprovning sker pa ungefar samma satt i en rad olika Exempel 2
situationer. Detta och nasta avsnitt visar att det forhaller sig sa.
Pa ett bankkontor planerar man att infora ett nytt kosystem. Av det nya
Vid hypotesprovning av ett medelvarde formuleras nollhypotesen alltid sa systemet kraver man att den genomsnittliga vantetiden per kund
har: understiger tio minuter.
Ho : = o Under en manad provas det nya systemet. For 70 slumpmassigt valda
vantetider beraknas medelvardet och standardavvikelsen:
Har star li1J for det hypotetiska varde vi ska arbeta med.
x=8,2 s=5,8
Mothypotesen kan vara tvasidig eller ensidig. Grundprincipen ar att den
ska vara tvasidig om det inte finns uttalade skal for nagot annat. Da skrivs Ska det nya kosystemet inforas?
mothypotesen:
Fragestallningen oversatts till hypoteser, som formuleras sa har: I
HI: *~ H 0 :=10
Nar mothypotesen ar ensidig finns det tva mojligheter: HI: <10
I! eller

136 137
Vi bar ett start stickprov, vilket innebar att testfunktionen kan skrivas .x-25
t= - -
.X-10 s! /;;
z= - -
s ! /;; sombar
Mothypotesen ar ensidig. Nagon a-risk anges inte men nollhypotesen ska n-1=15-1 = 14
forkastas for varden som ligger langt till vanster i normalfordelningens fribetsgrader.
svans. Testfunktionens observerade varde for detta stickprov blir
Motbypotesen ar ensidig (till vanster). Testfunktionens varde blir
8,2-10
z0 bs = I r;::;;:;
5,8 '170
= -2,59 t = 24,1-25 = -1 74
obs
21.Jl5 '
Med hjalp av tabell 1 beraknar vi Med bjalp av tabell 3 over t-fordel-
p-vardet till 0,5 %. ningen kan vi inte berakna sanno-
likheten exakt. Vi kan daremot
Vi bar alltsa tvastjarnig signifi- konstatera att det kritiska vardet pa
kans ocb forkastar nollhypotesen. signifikansnivan fem procent ar
Slutsatsen blir att den genomsnitt- 0,5%
tkrit =-1,76. Detta innebar att p-
liga vantetiden understiger tio vardet, som ar arean under kurvan 5%
minuter. Det nya systemet ska till vanster om t obs = -1,74, ar en
1 0 2 3
darfor inforas. liten aning stOrre an fem procent.
Nollhypotesen kan inte forkastas. -3 -2 -1 0 2 3
Exempel 3 Undersokningen ger alltsa inget -1 ,76
stOd for pastaendet att cigarettema i
En cigarettillverkare havdar att bans cigaretter i genomsnitt inneballer genomsnitt inneballer mindre an 25 mg nikotin.
mindre an 25 mg nikotin.
Ett stickprov fran produktionen bestar av femton cigaretter, som undersoks
pa ett laboratorium. Medelvikten vad galler nikotininneballet visar sig vara
24,1 mg ocb standardavvikelsen 2 mg.
Goren statistisk bypotesprovning av fabrikorens pastaende! 7.7 Hypotesprovning vid jamforelser
Hypotesema formuleras: Att jarnfora populationer innebar ofta att studera skillnader mellan medel-
H 0 :=25 varden eller procenttal. I avsnitt 6.4 bar vi visat hur man i nagra olika
situationer kan berakna konfidensintervall. Nu ska vi - for samrna situa-
HI : < 25
tioner - visa bur hypotesprovning gar till.
Tillverkning av cigaretter ar en standardiserad process. Da kan
variationen ofta beskrivas med en normalfordelning. Vi valjer darfor Skillnad mellan medelvarden
testfunktionen
Nar analysen avser skillnaden mellan medelvardena 1 och ,_ i tva popu-
lationer skrivs nollhypotesen
138 139
..~ !
I

Ho:, -2 =do s2 = (rzi - l)s~ + (n2- l)si


Har ar d 0 differensen mellan populationsmedelvardena enligt nollhypote- P ni+n2 -2
sen. Det ar vanligt att nollhypotesen innebar att <let inte finns nagon
skillnad mellan populationsmedelvardena. Da ar alltsa d 0 = 0. x x
n1 och n2 ar stickprovsstorlekarna, 1 och 2 stickprovens medelvarden
och Si och s 2 standardavvikelserna i de bada stickproven. t bygger pa
Mothypotesen kan vara tvasidig fli + n2 - 2 frihetsgrader och <let kritiska vardet bestams med hjalp av
tabell 3.
H, :1-2 -:;:.do
eller ensidig Exempel 4
Hi :1 -2 >do Finns <let nagon skillnad i koffeininnehfill mellan coladrycker av tva olika
eller marken? 36 flaskor av vardera market undersoktes. Resultaten anges i g
per volymenhet:
Hi : Jli - 1 < do
Medelvarde Standardavvikelse
Som vi tidigare papekat ska hypotesema formuleras med utgangspunkt
Marke A 20,1 2,35
fran de fragestallningar som gett upphov till undersokningen, dvs. i princip Marke B 19,2 2,25
innan urvalet gors.
Nii.r stickproven ii.r oberoende och tillrii.ckligt stora (rninst 30 observa- Hypotesema formuleras pa vanligt satt:
tioner i varje stickprov) kan vi som testfunktion anvanda uttrycket
Ho:, -2 =0
(.X1 - .X2) - do Hi : Jli - 1 -:;:. 0
z=
2 2
~+~ i betecknar populationsmedelvii.rdet for marke A, dvs. det medelvarde vi
'n1 n2 skulle fa om vi undersokta samtliga tillverkade flaskor. 2 kan ges en
motsvarande tolkning.
x
Liksom tidigare ar n1 och n2 stickprovsstorlekama, 1 och x2 stick-
provens medelvarden och s 1 och s 2 standardavvikelsema i de bada stick- Syftet ar att undersoka om <let finns nagon skillnad, inte om skillnaden gar
proven . Det kritiska vardet eller p-vardet far man fram med hjalp av i viss riktning. Darfor ar mothypotesen tvasidig.
tabellema over normalfordelningen (tabell 1 eller 2).
Stickproven ar oberoende och tillrackligt stora. Testfunktionen antar vardet
Nar stickproven ar oberoende och de studerade variablema ar "ungefar
normalfordelade med samma standardavvikelse i populationerna" kan vi z = (x 1 -x2 )-d0 = (20,1 - 19,2) - 0 =
obs 2 2 2 2 166
'
anvi:i.nda testfunktionen Si S2 2,35 2,25
- +- - --+ - -
n, n2 36 36

z06s = 1,66 motsvarar cirka fem procent i hogra svansen. Detta varde ska
dubbleras, eftersom mothypotesen ar tvasidig. Probvalue blir alltsa ungefar
tio procent. Det innebar att vi accepterar nollhypotesen. Det finns ingen
dar signifikant skillnad i koffeininnehall mellan markena.

140
141
Exempel 5 (vanstra svansen) eller starre an 2,07 (hOgra svansen). 0,48 tillhor
Finns det skillnader mellan yngre och aldre bilforare vad galler reaktions- acceptansomractet. Vi kan alltsa konstatera att det inte finns nagon
formaga i olika trafiksituationer? For att besvara denna fraga bar man med signifikant skillnad i reaktionstid mellan de bada gruppema.
hjalp av en bilsimulator genomfort ett experiment. Tabellen sammanfattar Denna slutsats hade vi ocksa vantat oss ! Nar vi tidigare har intervallskattat
resultaten. Medelvarden och standardavvikelser anges i sekunder. skillnaden mellan medelvardena har detta intervall innehfillit vardet noll,
vilket ju kan tolkas som att det inte behaver finnas nagon skillnad.
Alders- Antal Medel- Standard-
grupp/ar personer varde avvikelse
Exempel 6
18-19 11 1,23 0,23
35-39 13 1,18 0,27 Har originalprodukter li:ingre livsli:ingd i:ir piratmi:irken? En motortidning
testade livslangden for tva olika statdampare. Pa atta bakaxlar placerades
Man kan forutsatta att matvardena ar normalfordelade med samma popu- en stOtdampare av varje slag. Bakaxlarna sattes i en speciell testbank som
lationsstandardavvikelse i de bacta fildersgruppema. simulerade koming pa ojarnn vagbana. Testet pagick till dess att
I:
statdamparnas funktion minskat under ett visst gransvarde. Matvardena
Som du ser paminner texten och resultaten egendomligt mycket om som anger livslangden (tiotal timmar) kan anses normalfordelade:
11
exempel 8 i kapitel 6, sidan 113-114. Da gallde det att berakna ett
konfidensintervall. Nu ska vi istallet genomfora en hypotesprovning. Lat Bil 1 2 3 4 5 6 7 8
oss bestamma oss for signifikansnivan fem procent.
Original 73 68 82 76 87 61 78 67
Hypotesema skriver visa har: Pirat 71 62 83 73 89 54 77 65

Ho:.. -2 = 0
Goren hypotesprovning pa signifikansnivan fem procent.
H 1 : .. - ~ :;t 0
Detta ar ett exempel pa parvisa observationer. For varje bil ska vi berakna
dar 1 och 2 ar poulationsmedelvardena for yngre och aldre. differensen mellan de bada matvardena. Dessa differenser behandlar vi
Vi har tva sma och oberoende stickprov. Matvardena ar normalfordelade darefter som ett enda stickprov. Differenserna x beraknar visa har
med samma populationsstandardavvikelse i de bada gruppema. Fran tidi- x = original - pirat
gare vet vi att
Da blir hypotesema
82 = (11-1)0,23 2 + (13-1)0,27 2 = 0, 0638 H 0 :=0
p 11 +13-2
H 1 :>0
Vi kan nu skriva upp testfunktionen och det varde den antar.
dar ar den genomsnittliga skillnaden i den tankta populationen. Syftet ar
_ (:X1 -:X2)-d0 _ (1,23-1,18)-0 =048 att undersoka om originalprodukter har langre livslangd ar piratmarken.
fobs - s2(_!_+ _l) - ,I0,0638(_!_+_!_) ' Darfor ar mothypotesen ensidig.
' P n1 n2 , 11 13 Stickprovet ar litet och observationema normalfordelade. Som testfunktion
valjer vi uttrycket
Mothypotesen ar tvasidig och bada svansarna i t-fordelningen bildar det
kritiska omradet. Med a= 5 % och 22 frihetsgrader ska nollhypotesen x-
t =---
0
forkastas om testfunktionen antar ett varde som ar mindre an -2,07 s!f;;
142 143
Med n -1=8 -1=7 frihetsgrader och signifikansnivan fem procent ska Nar stickproven ar tillrackligt stora (det vill saga nar n1p 1 (1- p 1) > 5 och
nollhypotesen forkastas om testfunktionen antar ett varde stOrre an 1,90. n2P2 (1- p 2) > 5 ) kan vi som testfunktion anvanda uttrycket
Fran stickprovet beriiknar vi
z =-.==~P~1=-=P=2====
n=8 Ix=1s 2:x 2
=108
p(I- p{
\n n
_l+_I)
Da blir medelvardet och standardavvikelsen 1 2

x=2,25 s = 3,11 dar n 1 och n2 ar stickprovsstorlekarna. Pi och p 2 ar andelarna i de hada


stickproven och p ar andelen i det sammanslagna stickprovet (som alltsa
Testfunktionen antar vardet bestar av n1 + n2 individer).
2,25 - 0 = 2,05 Med hjalp av tabell 1 beriiknas p-vardet och det kritiska vardet beraknas
3,11/ ,J8 med hjalp av tabell 2.

Testfunktionens observerade varde tobs = 2,05 ar stOrre an det kritiska


vardet tkrit = 1,90. Nollhypotesen ska alltsa forkastas pa nivan fem procent. Exempel 7
Slutsatsen blir att originalprodukter ger signifikant langre livslangd ar Finns det nagon skillnad i genomslagskraft mellan tva reklambroschyrer?
piratmarken.
Absolut Reklam AB delade ut 1 000 A-broschyrer och 1 500 B-broschyrer
till slumpmassigt valda personer. Broschyrerna hade samma innehall men
Skillnad mellan andelar var grafiskt utformade pa olika satt. I broschyrerna fanns ett reklam-
erbjudande, som skulle besvaras inom tio dagar. A-broschyrerna gav 370
Nar analysen avser skillnaden ;r1 - ;r2 mellan andelar i tva populationer svar och B-broschyrerna 491 svar.
innebar nollhypotesen oftast att det inte finns nagon sadan skillnad.
Nollhypotesen skrivs da Hypoteserna formulerar vi pa vanligt satt:

Ho :;r, -;r2 =0 Ho :;r, -;r2 =0


Hi :;r, -;r2 -:t:-0
Liksom tidigare kan mothypotesen vara tvasidig
H1 : 1r1 - lrz -::;:. 0 lri ar andelen svarande i den population som teoretiskt sett bestar av alla
personer som hade kunnat fa broschyr A. ;r2 kan ges en liknande tolkning.
eller ensidig. Da har vi de bacta alternativen Forst beraknar vi
H 1 : ;r1 - ;r2 > 0 370
p 1 = lOOO = 0,3700
eller
491
p2 = = 0,3273
1500

samt andelen i det sammanslagna stickprovet

= 370+491 =03444
p 1000+1500 '

144
145
-.-

Testfunktionen antar vardet Nollhypotesen ar antingen sann eller falsk. Det finns inget slumpmassigt i
p1- p2 0,3700-0,3273 = 2 20 d~tta. Det ar alltsa fel att saga att nollhypotesen ar sann eller falsk med en
v1ss sannolikhet (om vi undantar vardena O och 1).
zobs = p(l - p{_!__+__!_) = 1-+- 1- )
0 34440 6556(- '
\ \n 1
n2 ) ' ' 1000 1500 Att en skillnad ar signifikant ar ett uttryck som latt kan missuppfattas.
Kanske ~or man att en signifikant skillnad maste vara en stor och betydel-
Testfunk:tionens varde ger ett p-varde pa ungefar 2,8 procent. Noll- sefull skzllnad. Men uttrycket har varken med skillnadens storlek eller med
hypotesen forkastas. Det finns en signifikant skillnad i genomslagskraft <less betydelse att gora. Det anger enbart att vi efter vissa sannolikhets-
mellan de bada broschyrerna. ber~n~ar funni~ anledning att tro att ett populationsvarde skiljer sig -
dvs. mte ar exakt lika med - ett visst hypotetiskt varde. Denna skillnad kan
sedan i praktiken vara bade liten och ointressant.
Om_ m~n vill formulera sig drastiskt kan man havda att nollhypotesen
7.8 Hypotesprovning ar svart! al~g ar _exakt k?i:rekt. I exempel 4 undersokte vi om det finns nagon
s~llnad 1 koffemmneball mellan coladrycker av tva olika marken.
Hypotesprovning ar bade latt och svart. SJalvklart finns det en skillnad - den kan vara hur liten som helst men den
Det ar latt i den betydelsen att man ganska snabbt lar sig hur hypotes- finns! Nar vi undersokte sammanlagt 72 flaskor kunde denna sbllnad inte
provning rent tekniskt gar till. En stor del av detta kapitel har handlat om pavisas. Men bara vi undersoker tillrackligt manga flaskor - 1000 eller
denna teknik. 10 000 eller fl er - kommer skillnaden att kunna konstateras. I statistisk
~ening blir den da signifikant trots att den praktiskt sett kanske ar helt
Men det viktiga ar naturligtvis att begripa vad man gor, att forsta sina egna omtressant. Tillrackligt stora stickprov ger alltsa alltid signifikanta
berakningar eller de utskrifter som datorn forser oss med. Da ar hypotes- resultat.
provning svart. Darfor ger vi har en kort sammanfattning kompletterad
J?.e~ praktiska vardet av hypotesprovning har diskuterats flitigt under en
med ytterligare ett par aspekter.
folJd av fil. Det h~ fra~ort~ invandningar och synpunkter av samma slag
Hypotesprovningen resulterar i att vi forkastar eller accepterar nollhypo- s~m presenteras har. V1 ska mte ge oss in i denna debatt. Vigor det enkelt
tesen. Detar viktigt att vi forstar inneborden av dessa uttryck. for oss genom att sammanfatta med rubrikens ord:
Vill vi vara riktigt tydliga kan vi oversatta ordet acceptera med inte Hypotesprovning ar svart!
forkasta. Vi accepterar nollhypotesen nar den inte ar oforenlig med utfallet
II i stickprovet. Darmed pastar vi inte att nollhypotesen ar korrekt. Risken f3
att acceptera en felaktig nollhypotes ar ofta ett stort tal och darfor maste vi
uttala oss med forsiktighet.
Nollhypotesen forkastas med den kanda felrisken a. Nar nollhypotesen
forkastas innebar detta att den bedoms som felaktig och att mothypotesen
bedoms som korrekt. Trots detta ar det inte fullstandigt uteslutet att
nollhypotesen ar korrekt. Utfor man manga oberoende hypotesprovningar
pa till exempel signifikansnivan fem procent forvantar man att i cirka fem
procent av fallen forkasta en riktig nollhypotes. Det statistiska fack-
uttrycket for detta ar massignifikans.
11

146
147
Parvisa observationer
7.9 Med datorns hjalp
Exempel 6 pa sidan 143 handlar om enjamforelse mellan originaldelar och
Tva oberoende grupper sa kallade piratdelar till bilar. Eftersom mothypotesen ar att originaldelarna
hillier langre blir mothypotesen ensidig. Minitab ar ett av fa
Vi atervander till exempel 5 pa sidan 142. Dar studerades reaktionstiden i statistikprogram som tillater anvandaren att specificera ensicliga
en viss trafiksituation for tva illdersgrupper. mothypoteser.
Utskriften fran SPSS ar densamma som i kapitel 6, sidan ll8. Forst
kommer beskrivande statistik uppdelat pa de bada illdersgrupperna: Paired T-Test and Cl: Original; Pirat
Group Statistics
Paired T for Original - Pirat
Std. Std. Error
Gruoo N Mean Deviation Mean
Original
N
8
Mean StDev SE Mean Ensiclig mothypotes, > 0,
Reaktionstid Yngre (18-19 ar) 11 1,2300 ,2300 ,0693 74,000 8,519 3,012
(sek)
Pirat 8 71,750 11,399 4,030 och ensicligt p-varde.
Aldre (35-39 ar) 13 1,1800 ,2700 ,0749 Difference 8 2,2500 3,1053 1,0979

95% lower bound for mean difference: ,1700


Darefter far vi detta - nagot avkortade - resultat: T-Test of mean difference = 0 (vs> 0): T-Value 2,05 P-Value = 0,040

Independent Samples Test

t-test for Eaualitv of Means Variabeln Difference ar skillnaden mellan originalproduktens och pirat-
95% Confidence markets resultat.
Interval of the
Difference
t df
Sig.
12-tailedl
Mean
Difference
Std. Error
Difference Lower Upper Resultatet av testet blev t = 2,05 vilket ger ett p-varde pa 0,040 eller fyra
Reaktionstid Equal procent. Eftersom detta ar mindre an den magiska fem procentsgransen
(sek) variances ,483 22 ,634 ,0500 ,1035 -.1646 ,2646
assumed ~
"'J/ ,,Jr forkastas nollhypotesen pa denna niva. Det ar statistiskt sakerstallt att
originalprodukten har langre genomsnittlig livslangd.
Om man analyserar dessa data med ett program som enbart anger det tva-
SPSS bar utfort ett t-test for att testa H 0 : 1 - Jii = 0 dar 1 och 2 ar sidiga p-vardet maste man hal vera detta for att fa ett ensidigt p-varde.
poulationsmedelvardena for yngre och aldre. Fran vanster utlaser vi att
Reaktionstid (sek) ar variabeln som analyseras
vi antar att det ar samma varians i de bada illdersgrupperna - Equal
variances assumed
t-testet gav vardet t = 0,483 med 22 frihetsgrader. Detta motsvarar ett p-
varde - Sig. (2 -tailed) - pa 0,634 och 63,4 % ar vasentligt stOrre an
5 %. Nollhypotesen kan inte forkastas.
Det ar alltsa inte statistiskt sakerstallt att det i populationen finns skillnad i
genomsnittlig reaktionstid mellan de bilda illdersgrupperna.

148 149
,,..

Ovningsuppgifter 705
Pa ett foretag har man utvecklat ett nytt utbildningsprogram, som man
anvander parallellt med ett mer beprovat program. Under en tvaarsperiod
701 nyanstaller man trettio personer. For att undersoka om det nya prograrnmet
Ett fackforbund har utarbetat ett forslag till ett nytt arbetsm.iljoprogram.
ar battre an det gamla later man halften av de trettio personema utbildas
For att pejla medlemmamas installning till forslaget gor man slump-
med det nya programmet och halften med det gamla. Sex manader senare
massiga urval omfattande 100 man och 100 kvinnor bland medlemmama.
utfor man ett arbetstest pa dessa personer. Testresultaten sarnmanfattas i
Det visar sig att 63 man och 54 kvinnor ar positivt installda till forslaget. tabellen:
Prova pa 5%-nivan om det lean pavisas nagon majoritet for en positiv
installning bland Nya programmet Gamla programmet
a) mannen b) kvinnoma Medelvlirde 24,6 22,4
Standardavvikelse 3,2 3,5
702
En delikatessaffar saljer sin egen hemlagade hummersoppa. Man Gor en statistisk analys. Ange ocksa forutsattningama for analysen.
garanterar att innehfillet i de vackra glasburkarna i genomsnitt vager mer
an 450 gram. For att kontrollera detta pastaende koper en misstanksam 706
kund sexton burkar. Han vager innehallet i burkarna och eftersom han har Ett foretag koper en viss ravara fran tva leverantarer. Varan ar forpackad i
grundlaggande kunskaper i statistik beraknar han medelvardet och paket med den nominella vikten 1000 gram. I ett stickprov med ett hundra
standardavvikelsen: paket fran den ena leverantaren var medelvikten 1002 gram och
st:uidardavvikelsen tio gram. I ett annat stickprov med fyra hundra paket
x=454 s =8,3
fran den andra leverantaren var medelvikten 999 gram och standard-
Langre stracker sig dock inte kundens statistiska kunskaper. Hjalp honom avvikelsen femton gram. Finns det nagon signifikant skillnad i medelvikt
att slutfora analysen. mellan paketen fran de bada leverantOrema? Formulera hypoteser, berakna
p -vardet och besvara darefter fragan.
703
En mobelfabrikor funderar pa att kopa en ny maskin. En forutsattning for 707
kopet ar att maskinen i genomsnitt kraver mindre an tio minuters Reagerar yngre bilforare snabbare i:in i:ildre? I ett experiment, dar man :1
installning per arbetstimme. Installningstiden (x) mats under 40 slump- med hjalp av en bilsimulator studerade bromsstrackan i en viss trafik-
massigt valda produktionstimmar. Resultat: situation, deltog 60 slumpmassigt valda yngre bilforare (35 ar eller yngre)
och 40 i:ildre bilforare (60 ar eller aldre.) Resultaten for de bada gruppema
~>=390,0 2::X =4153,5
2
sammanfattas i tabellen. Bromsstrackan anges i meter. l
Ska maskinen kopas? Alders- Antal Medel- Standard-

704
grupp
Yngre
personer
60
varde
73,9
avvikelse
18,7
I
l
Finns det nagon skillnad mellan mannens och kvinnornas installning till Aldre 40 79,3 23,1
det nya arbetsmiljoprograrnmet? Besvara fragan med hjalp av den
information som finns i uppgift 701. Goren statistisk analys . Ange forutsattningarna for dina berakningar.

150
151
708
En riktig bluffkurs! havdar en av deltagarna. Kunskapema varken okar 8 X2 -metoden
eller minskar. Den kurs som omnamns i sa foga smickrande ordalag har ett
mycket stort antal deltagare, till stor gladje for arrangarerna. Bland
deltagarna har man slumpmassigt valt atta personer, som far delta i tva
olika test A och B, det ena fore kursen och det andra efter. Man bedamer
att testen ar av samma svanghetsgrad men for att eliminera risken for
Med X -m~toden - uttalas tji-tva pa svenska - analyserar man absoluta
2
systematiska fel far halften av personerna test A fore kursen medan avriga
far test B. Efter kursen gar man tvartom. Resultat: frekvenser t en frekvenstabell. Metoden innebar att man jamfor de faktiska
frekvensema i tabellen med de frekvenser som forvantas enligt
Deltagare 1 2 3 4 5 6 7 8 nollhypotesen.
Hire 87 108 89 llO 124 169 190 99
Efter 94 105 75 ll4 121 174 193 104 Man kan bade analysera enkla frekvenstabeller med en variabel och kors-
tabeller med tva variabler. Vid korstabeller ar syftet ofta att faststalla om
Andrar kursen kunskaperna? Gar en statistisk analys och ange ocksa det finns nagot samband mellan variablerna.
forutsattningarna for dina berakningar.

709
FOljande tidningsartikel kunde man lasa dagen efter den senaste parti-
sympatiundersakningen.
8.1 Analys av enkla frekvenstabeller
8,~: stor roll spelar forpackningen? Nar en produkt ska marknadsforas
v~l.J.er ~an mellan . tre olika typer av forpackningar. Innan tillverkningen
Mandagspartiet in i riksdagen! borJar t full s~ala v1~.1 man u.ndersoka om det ur forsaljningssynpunkt spelar
Efter riksdagsvalet kommer Man-
dagspartiet att vara representerat i
Vart politiska arbete har gett resultat
tidigare an forvantat, sager partisekre-
har:
n~gon roll v1lken forpacknmg man valjer. En sttidie laggs darfor upp sa

riksdagen. Den senaste valjarunder- terare Mansson till var utsande.


Under en forsaksperiod tillverkas och saljs produkten i de tre olika
sokningen ger Maodagspartiet 4,7 Vanligt folk vill ha lediga mandags-
procent av rosterna. forpackningarna. Farpackningarna placeras vid sidan av varandra i de
formiddagar. Vara ekonomer raknar ~aruh~s dar for.saljningen sker. Farpackningarna har alltsa identiskt
med att det. kommer att skapa minst
Gladjen var stor pa Mandagspartiets
245 000 nya arbetstillfallen. i~nehall, kostar ~ka myeket och exponeras for kunderna pa ett Iikvardigt
kansli i gar nar resultatet av den satt. Den enda skillnaden ar designen.
senaste partisympatiundersokningen Det nya partiet har onekligen medvind
presenterades. i valkampen. Und~r farsaksperioden kaper 90 personer den aktuella varan. Kan vi med
l~dning av forsaljningsstatistiken gra slutsatsen att forpackningarna inte ar
lika Iattsalda?
a) Anta att det ar statistiskt sakerstallt att Mandagspartiet skulle ta mer an
fyra procent av rasterna. Hur stort urval maste man (minst) ha haft? ~?m va!igt b~rjar v! med att formulera hypoteser. Var nollhypotes ar att
b) Vid nasta partisympatiundersakning planerar man att intervjua 1 200 forpacknm~en mte paverkar forsaljningen i nagon speciell riktning. Detta
personer. Hur manga procent av dessa maste valja Mandagspartiet for antagande mnebar att kunderna pa ma.fa eller slumpmassigt valjer mellan
att det fortfarande ska vara signifikant fler an fyra procent? Hur manga olika forpackningar.
av de 1 200 personerna motsvarar det?

152
153
.r : I

Mothypotesen innebar att forpackningen paverkar forsiiljningen men inte


faktiska frekvenser sa sma att de kan bero pa slumpen? Om svaret ar ja ska
hur den paverkas.
nollhypotesen accepteras. Eller ar skillnadema sa stora att de inte kan
Sa har formulerar vi hypotesema: tolkas som slumpmiissiga? Da ska nollhypotesen forkastas.
H 0 : Kundema viiljer pa mMa mellan forpackningama Som ett sammanfattande matt pa skillnadema mellan de observerade
frekvensema 0 och de forvantade (expected) frekvensema E anvander vi
H 1 : Kundema viiljer inte pa miifa mellan forpackningama testfunktionen
90 personer har alltsa kopt den aktuella varan. Om nollhypotesen ar s~, 2
dvs om valet mellan olika forpackningar sker pa mMa, bor de ohka %2 =L (0-E)
forpackningama siilja i ungefar lika stor omfattning. E

I sannolikhetsteoretiska termer kan detta uttryckas pa foljande satt. Vid ett For varje forpackningsdesign beriiknas differensen mellan den faktiskt
slumpmassigt val mellan tre forpackningar ar sannolikheten att viilja en observerade frekvensen och den forvantade frekvensen. Denna differens
viss angiven produkt 1/3. 90 personer gor oberoende av varandra detta kvadreras och divideras med den forvantade frekvensen. Sa gor vi for varje
slumpmiissiga val. Om nollhypotesen ar sann blir alltsa det forvantade forpackningsdesign och slutligen summerar vi de erMllna resultaten.
antalet kunder som viiljer en viss angiven forpackning Om nollhypotesen ar riktig far vi enbart slumpmiissiga skillnader mellan
1 de observerade frekvenserna 0 och de forvantade frekvenserna E. Da ar
90-=30
(o- E)2 och (o ~E) antar relativt sma varden, vilket ock-
2
3 det troligt att
Vi ska ~u granska forsiiljningsstatistiken. I tabellen har vi for varje design
ocksa angett det forvantade antalet enligt nollhypotesen. sa medfor att testfunktionen - X,2 -summan - antar ett litet varde.
Sitt lagsta varde, narnligen noll, antar testfunktionen om de faktiska
Forvantat antal frekvensema fullstandigt stammer overens med de forvantade frekven-
Forpacknings- Faktisktantal
design sfilda forpackningar
salda f<irpackningar sema. Pa grund av kvadreringen kan X,2-summan aldrig bli negativ.
enligt nollhypotesen
Om nollhypotesen ar felaktig blir det troligen relativt stora skillnader
1 23 30
2 36 30 mellan de faktiska frekvensema och de forvantade. Da antar ocksa
3 31 30 testfunktionen ett start positivt varde.
Nollhypotesen ska alltsa accepteras om testfunktionens observerade varde
Som vi ser finns det for varje design en skillnad mellan det f aktiska antalet x:bs understiger ett visst kritiskt varde X~it . For andra Varden ska
och det forvantade. Men det forvantar vi oss, naturligtvis! En symmetrisk
nollhypotesen forkastas till formiin for mothypotesen. Var gar griinsen?
taming ger i genomsnitt och teoretiskt sett utfallet sex prickar pa en sjiitt~
del av kasten om vi kastar tillriickligt lange. Men pa en begriinsad kastsene Testfunktionen foljer approximativt X,2-fordelningen om nollhypotesen ar
far vi i praktiken slumpmassiga avvikelser fran detta forvantade antal. Pa sann. Approx.imationen forutsatter att de forvantade frekvenserna inte ar
samma siitt ar det har. Aven om kundema viiljer slumpmiissigt mellan de alltfor sma. Darfor har vi dessa tumregler:
tre forpackningama ar det inte troligt att varje forpackning viiljs av exakt De forvantade frekvensema E bar vara storre an 5.
lika manga personer.
Hogst tjugo procent av de forvantade frekvensema E far understiga 5
I vart exempel maste vi nu fora foljande resonemang. De forviintade men ingen forvantad frekvens far vara mindre an 1.
frekvensema har beriiknats under forutsattning att nollhypotesen ar sann. 2
X, -fordelningen, som finns i tabell 4 i slutet av boken, bestiims precis som
Ar skillnadema mellan de hypotetiska frekvensema och motsvarande
t-fordelningen av antalet frihetsgrader. Fordelningens utseende varierar
154
155
med antalet frihetsgrader. Ju fler frihetsgrader desto langre at hoger
forskjuts x2-fordelningens tyngdpunkt. Den X2-fordelning som visas pa den
8.2 Analys av korstabeller
har sidan har tva frihetsgrader medan X2 -fordelningen som visas i tabell 4 I en korstabell redovisar man tva - ibland flera - variabler samtidigt.
har fyra frihetsgrader. Variablerna kan vara kvantitativa eller kvalitativa. Det ar ocksa mojligt
med en kombination av dessa typer av variabler.
Nar vi i en enkel frekvenstabell jamfor k kategorier beraknas antalet
frihetsgrader sa har:
Exempel 1
antal frihetsgrader = k - 1
Ledningen for Absolut Trivsel AB har beslutat om ett nytt overgripande
I vart exempel har vi tre kategorier (forpackningar) och alltsa tre faktiska
personalpolitiskt program. Men manga ar kritiska och havdar att det finns
frekvenser som vi jamfor med motsvarande forvantade frekvenser. Det
stora skillnader mellan hur olika personalkategorier uppfattar prograrnmet.
betyder att k = 3 vilket innebar att vi
har 3-1=2 frihetsgrader. Som stOd for sin uppfattning hanvisar kritikema till den urvals-
undersokning som gjorts bland olika grupper av anstallda. Den fick
De kritiska vardena for olika signi- foljande resultat.
fikansnivaer finner vi i tabell 4. Om
vi valjer nivan a= 5% blir det kri-
tiska vardet 5,99. Genom testfunk- Uppfattning om programmet
tionens konstruktion ligger hela det 5%
Varken bra
ManadslOn/kr Dfiligt eller dfiligt Bra
kritiska omradet i hOgra svansen. Vi
ska alltsa forkasta nollhypotesen for Under20 000 62 43 15
varden starre an 5,99. 20 000 - 30 000 58 65 57
0 5 5,99 10 Over 30 000 11 20 69

Hur har urvalet gjorts?


2
ae Xob
Vi beraknar nu X -summans ob serverad e var
2
s Ar det ett enkelt slumpmiissigt urval bland samtliga anstallda? Da har
slumpen astadkornmit fordelningen pa olika inkomstklasser.
Forpack- Observerade Forvantade (O - E)2
ning frekvenser (0) frekvenser (E) (0 - E) Ar det ett stratifierat urval? Da har vi i forvag bestamt oss for att slump-
E
massigt valja 120 personer i den lagsta inkomstklassen, 180 i mellanklas-
23 30 -7 1,633
sen och 100 i den hOgsta klassen?
2 36 30 6 1,200
3 31 30 0,033
Ur principiell synpunkt ar detta viktiga fragor. Men oavsett hur urvalet har
Summa 90 90 0 2,866 gjorts ska den fortsatta analysen ske pa samma satt. Forst formulerar vi
hypotesema:
Testfunktionens observerade varde z ;bs = 2,87 ar mindre an det kritiska H 0 : Det finns ingen skillnad i uppfattning mellan olika inkomstklasser.
vardet z!it = 5,99. Det inneb~- ~!t _~_-vardet ar ..starre :n.
fem pr?c~nt.
Nollhypotesen kan darfor inte fork:astas. Det ar alltsa i~te statlstiskt
H 1 : Det finns skillnader i uppfattning_
sakerstallt att det ur forsaljningssynpunkt finns nagon skillnad mellan Mothypotesen talar helt enkelt om att nollhypotesen ar felaktig men aldrig
forpackningarna. pa vilket satt den ar felaktig.

157
Ett altemativt satt att formulera hypoteserna ser ut sa bar: Nu ser vi ett monster. For varje cell i korstabellen blir den forvantade
H 0 : Uppfattningen om programmet ar oberoende av inkomst. frekvensen produkten av motsvarande marginalfrekvenser dividerad med
totala antalet individer i materialet.
H 1 : Det finns ett samband mellan uppfattning och inkomst.
Pa detta satt raknar vi ut samtliga forvantade frekvenser. Resultatet presen-
Hypoteserna kan alltsa formuleras pa tva olika satt. Men l~gg ~arke ti!l att terar vi inom parentes i den ursprungliga tabellen.
inneborden i bada fallen ar exakt densamrna. Om det mte fmns nagon
skillnad i uppfattning mellan olika inkomstklasser ar naturligtvis uppfatt-
Uppfattning om programmet, 0 (E)
ningen oberoende av inkomst. Och om det finns sactana skillnader finns
det ocksa ett sarnband mellan uppfattning och inkomst. Varken bra
ManadslOn/kr Daligt eller daligt Bra Summa
For de fortsatta berakningarna maste vi komplettera korstabellen med mar- Under 20000 62 (39,3) 43 (38,4) 15 (42,3) 120
ginalfrekvense rna. 20 000 - 30 000 58 (58,95) 65 (57,6) 57 (63,45) 180
Over30000 11 (32,75) 20 (32) 69 (35,25) 100
Uppfattning om programmet Summa 131 128 141 400
Varken bra
ManadslOn/kr Daligt eller daligt Bra Summa
Lagg marke till att summan av de forvantade frekvenserna i varje rad och
Under20000 62 43 15 120 kolurnn ar lika med sum.man av de observerade frekvenserna.
20 000 - 30 000 58 65 57 180
Over 30 000 11 20 69 100 Vid analys av en korstabell blir antalet frihetsgrader (jg)
Summa 131 128 141 400 Jg= (r -1) (k-1)

Vi ska nu berakna de forvantade frekvensema under nollhypotesen. Man dar r och k ar antalet rader respektive kolumner i den ursprungliga
kan resonera pa olika satt beroende pa om det ar ett enkelt slurnpmassigt tabellen. I exemplet ar r = 3 rader (inkomstklasser) och k = 3 kolumner
(uppfattningar). Det innebar (3-1) (3-1) = 4 frihetsgrader.
urval eller ett stratifierat urval. Men resultatet blir detsarnma i bada fallen.
Lat oss uppfatta materialet sorn tre stickprov, ett fran varje inkomstklass.
Anta att signifikansnivan ar a =0,1 %. Da ar enligt tabell 4 det kritisk:a
InnebOrden av nollhypotesen ar att det inte finns nagon skillnad mellan
vardet x!u =18,47.
2
klasserna vad galler installning till programmet. Da bor relativt sett lika X -summan innehiller nio termer. Har ge.s den forsta och den sista.
manga i varje inkornstklass ge programmet betyget Daligt.
2 _" (0-E)2 _ (62-39,3)2 (69-35,25)2
Betyget Daligt ges av sammanlagt 131 av 400 tillfragade. Av .de 40? Xobs-L,, E - 393 + ... + 3525
tillfragade tillhor 120 den lagsta inkomstklassen. I denna klass blir alltsa ' '
denforvantadefrekvensen enligt nollhypotesen = 13,11+ ... +32,31=84,16

120.
131
=3930 Det observerade vardet .z;bs =84,16 ar alltsa betydligt storre an det
400 ' kritisk:a vardetz!u =18,47. Nollhypotesen ska forkastas. Signifikansen ar
trestjarnig och slutsatsen blir att det finns ett starkt samband mellan
For mellanklassen blir motsvarande forvantade frekvens
uppfattningen om programmet och inkomst.
1
180 13 =5895
400 ' I'

158 II
159
II
l
X2-testet ar approximatiVt OCh forutsatter att de forvantade frekvenserna ar Vid fyifaltstabeller med alltfor sma forvantade frekvenser kan man
stOrre an fem. Nagon rnindre avvikelse kan accepteras men vad gor man anvanda Fishers exakta test.
nar de forvantade frekvensema ar for sma?

Exempel2
Vad tycker du om forslaget om ett forbud mot cykling pa Fiskaregatan? 8.3* Fishers exakta test
Fragan stalldes till 126 slumpmassigt valda personer som svarade sa har:
Exempel 3
Kon Mycketbra Ganska bra Ganska Mycket Summa
dliligt daligt K_an Ji!reni~gsarbete minska ateifallsrisken for ungdomsbrotts/ingar Som
Kvinnor 1 (3,2) 8 (11,9) 36 (32,4) 23 (20,5) 68 fatt vz.llkorliga domar? For att besvara denna fraga gjorde man en kvasi-
Man 5 (2,8) 14 (10,1) 24 (27,6) 15 (17,5) 58 expenmentell undersokning med foljande upplaggning.
Summa 6 22 60 38 126 Sj~ manliga ung~oms~rottslingar som fatt villkorliga domar erbjods sex
manaders arbet~ 1 en 1drottsforening ett antal tirnmar per vecka. Lonen
En forsta tanke ar att analysera tabellen med ett X2-test for att ta reda pa om betaldes av proJektmedel. En jamjorelsegrupp omfattande atta ungdoms-
det finns ett samband mellan asikt ocb kon. Nollhypotesen innebar att asikt brottslinga: med motsvarande. bakgrund studerades ocksa. Efter ett ar sag
ar oberoende av kon och mothypotesen att det finns ett samband. Men av man bur manga som bade fatt aterfall, det vill saga akt fast igen.
de forvantade frekvenserna - inom parentes - ar tva av atta rnindre an fem.
Det innebar att forutsattningarna for X2-testet inte ar uppfyllda. Foreningsarbete Ej r<ireningsarbete
Forutsattningarna gick vi igenom pa sidan 155. Experimentgrupp Jiimforelsegrupp Summa
Aterfall 2 7
Ett satt att ta sig ur knipan ar att sla samman nagra av kategoriema med Ej aterfall
9
5 1 6
sma forvantade frekvenser pa ett lampligt satt. Kategorin "Mycket bra"
kan pa ett naturligt satt slas samman med "Ganska bra" till en kategori som Summa 7 8 15
vi kallar for "Bra". Detta leder till en viss informationsforlust men nu ar
forutsattningarna for x2-testet uppfyllda. ~ Har .tycker vi oss se en tydlig tendens. I experimentgruppen ar det bara tva
~v SJU som hade aterfallit mot sju av atta.i jamforelsegruppen. Men vi ska
Kon Bra Ganska dliligt Mycket daligt Summa mte ga bandelsema i forvag ! Som vanligt ska vi borja med att formulera
Kvinnor 9 (15,1) 36 (32,4) 23 (20,5) 68 hypotesema. Med den fragestallning som fanns innan experimentet gjordes
Man 19 (12,9) 24 (27,6) 15 (17,5) 58 ska mothypotesen vara ensidig.
Summa 28 60 38 123 H0 : Risken for aterfall ar densarnma i de bada gruppema
H, : Risken for aterfall ar lagre i experimentgruppen
Du kan sakert sjalv slutfora analysen. Man far z:bs
= 6,88 , som ar stOrre
an 5,99, vilket ar det kritiska vardet pa 5%-nivan vid 2 frihetsgrader. Om vi pa vanligt satt bestarnmer de forvantade frekvensema ser vi att
Nollhypotesen ska darmed forkastas. Det finns alltsa ett samband mellan samtl.iga blir rnin.dre an fem. Med en fyrfaltstabell finns inga mojligbeter
asikt ocb kon. Eller, annorlunda uttryckt: Man ocb kvinnor bar olika att sla sarnman
2
nagra rader eller kolurnner - da blir det ju ingen korstabell
uppfattningar i denna fraga. kvar! .% -metoden ar alltsa utesluten.

160
16 1
Det ar i denna situation man anvander Fishers exakta test. Det forsta steget Sannolikheten att fa den frekvenstabell vi fick, den som har nummer 2 i
i analysen innebar att man staller upp samtliga korstabeller som ar mojliga upprakningen pa forra sidan, blir alltsa
med samma marginalfrekvenser som vi fick i var undersokning:

'lD 6 0
2)
,,-,
\
,_, I
5
7
1
3)D 4)D
4 2 3 3
9!6!7!8!
2! 7! 5! H 15!
Efter forenkling och en stunds raknande far vi att detta blir 0,0336.
Pa samma satt kan man bestamma sannolikhetema for samtliga sju tabeller

5)[8] 6)[J [IJJ


2 4 1 5
7)
0 6
pa foregaende sida. Har ser du resultatet:
Ta bell Antal aterfall i
experilnentgruppen
Sannolikhet

1 1 0,0014 *
2 2 0,0336 *
I samtliga dessa sju tabeller ar summan av frekvensema pa den ovre raden
3 3 0,1958
nio och pa den undre raden sex. Summan av frekvensema i den forsta 4 4 0,3916
kolumnen ar sju och i den andra atta. 5 5 0,2937
6 6 0,0783
Nasta steg ar att man beraknar sannolikhetema att fa var och en av de sju 7 7 0,0056 *
korstabellema med givna marginalfrekvenser och under forutsiittning att Summa 1,0000
nollhypotesen iir sann. Hur man gar dessa berakningar ar inte helt enkelt
att komma pa. Det visar sig att man ska anvanda den hypergeometriska
Summan av samtliga sannolikheter blir naturligtvis 1.
fordelningen som du kan lasa mer om i andra backer (t ex Statistisk
dataanalys av Svante Komer & Lars Wahgren). Det ar nu dags att berakna testets p-varde. Mothypotesen ar ensidig och
innebar att de som far foreningsarbete - jamfort med kontrollgruppen -
Har visas enbart hur man utfor berakningama. Vi betecknar frekvensema i
mer sallan aterfaller i brottslighet. Som vi redan har konstaterat pekar
tabellen med a, b, c, d och n.
utfallet i var undersokning i mothypotesens riktning. Vi beraknar p-vardet
Arbete i Ej arbete i genom att summera sannolikheten for det utfall som vi faktiskt fatt i var
forening fOrening Summa undersokning (0,0336) och sannolikhetema for de tabeller som iinnu
Aterfall a b a+b tydligare pekar i mothypotesens riktning. Har finns det bara en sadan
Ej aterfall c d c+d tabell, narnligen tabell 1, som anger hui fordelningen ser ut om enbart 1
Summa a+c b+d n person har aterfallit i experimentgruppen. Vart p-varde blir alltsa
0,0014 + 0,0336 =0,0350 =3,5 % < 5 %
Man kan visa att sannolikheten att fa en tabell med dessa frekvenser ar
Nollhypotesen forkastas. Det ar statistiskt sakerstallt att foreningsarbete
(a+ b)!(c + d)!(a + c)!(b + d)! minskar risken for aterfall.
a!b!c!d!n! Har var mothypotesen ensidig. Med en annan fragestallning kunde den ha
Utropstecknet ar det matematiska begreppet "fakultet". Till exempel ar varit tvasidig. Da beraknar man p-vardet genom att summera alla
sannolikheter som ar mindre an eller lika med sannolikheten for "var"
5 != 5. 4. 3. 21 = 120
korstabell, det vill saga for vart utfall och alla andra mer extrema

162
163
-~

("osannolika") utfall. Dessa utfall har markerats med * i tabellen och p-


vardet skulle i sa fall bli 8.4 Med datorns hjalp
0,0014 + 0,0336 + 0,0056 =0,0406 =4,1 % < 5 % Yid en attitydundersokning pa ett foretag noterade man bland annat de 518
Lagg marke till att for Fishers exakta test ar inte det tvasidiga p-vardet personemas installning i en viss fraga samt kon. Materialet ar tidigare
analyserat i kapitel 2.
lltid dubbelt sa start som det ensidiga. Sa ar ju fallet med z-test och t-test.
~et beror pa att sannolikhetsfordelningen inte ar symmetrisk vilket Korstabellen ar fran SPSS och visar absoluta frekvenser (Count) och
framgar av figuren. forvantade frekvenser (Expected Count):

Kon Attityd Crosstabulation


Sannolikheten for de olika miijllgheterna
Attitvd
0,4
Positiv Negativ Total
Kon Man Count 89 19 108
0,3
Expected Count 86,9 21, 1 108,0
Kvinna Count 328 82 410
Expected Count 330, 1 79,9 410,0
0,2 Total Count 417 101 518
Expected Count 417,0 101,0 518,0
0,1

-----.---- --- -- ---l------


o,o L -lr--- . J2!11-- ...
3 ---1111114L____J!sL-----'!6.___"'.!'7"--
Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Antal lterfal I e>cperimentgruppen Value df 12-sided) 12-sided) 11-sided)
Pearson Chi-Square ,316~ 1 ,574
Continuity Correctiori' ,181 ~ 1 ,671
I de fall de bacta radsummoma - eller kolumnsummorna - ar samma blir Likelihood Ratio
,3221 ~ ,571
Fisher's Exact Test
fordelningen symmetrisk och det tvasidiga p-vardet blir dubbelt sa start ,682 ,340
Linear-by-Linear
som det ensidiga. Association ,315 ,575
N of Valid Cases 518
a. Computed only for a 2x2 table
11
b. 0 cells (,0%) have expected count less ihan 5. The minimum expected count is
21 ,06.

I den nedre tabellen redovisas flera olika test. Pa den oversta raden -
2
Pearson Chi-Square - finns X -testet som testar om variablema kon och
attityd ar oberoende. x -vardet ar 0,316 med en frihetsgrad (df) och p -
2

vardet (Asymp. Sig. 2-sided) ar 0,574 (= 57,4 %) vilket ar betydligt storre


an fem procent. Vi kan alltsa inte forkasta nollhypotesen att attityd och kon
ar oberoende.

I fotnot b talar SPSS om for oss att inga celler i tabellen har en forvantad
frekvens under fem och att minsta forvantade frekvens ar 21,06. Forut-
sattningarna for testet ar uppfyllda.
I 164
165
Om vi lliter SPSS analysera data fran exempel 3 pa sidan 161 far vi det har
resultatet:
Ovningsuppgifter
Resultat Grupp Crosstabulation 801
Grupp I samband med en marknadsundersokning fick 400 slumpmassigt valda
Experiment Jamforelse personer smaka fyra olika sorters hamburgare. De fick darefter tala om
grupp grupp Total vilken hamburgare som smakade bast. Sa har fordelades svaren:
Resultat Aterfall Count 2 7 9
Expected Count 4,2 4,8 9,0 Absolute Gourmet- Bosses Ekonomi-
Ej aterfall Count 5 1 6 Hamburgare Burger burgaren burgare burgaren
Expected Count 2,8 3,2 6,0
. Total Count 7 8 15 Smakade bast tyckte 114 84 116 86
Expected Count 7,0 8,0 15,0
Analysera resultatet av undersokningen.
Chi-Square Tests
802
Asymp. Sig. Exact Sig. Exact Sig.
Value df 2-sided 2-sided 1-sided I en undersokning studerade man sambandet mellan bostadskostnad och
Pearson Chi-Square 5,402 ,020 disponibel inkomst. Bade inkomst och bostadskostnad redovisades i en
Continuity Correctior1' 3,225 ,073 tregradig skala. For 510 slumpmassigt valda enpersonshushfill blev
Likelihood Ratio 5,786 ,016 resultatet:
Fisher's Exact Test .._----+-----+-----+--+ ,041 ,035
Linear-by-Linear
,025 Bostadskostnad
Association
N of Valid Cases lnkomstk.Jass Lag Menan Hog
Lag 30 73 20
b. 4 cells (100,0%) have expected count less than 5. The minimum expected count is Melian 78 97 57
2,80. Hog 16 40 99

Finns det ett samband mellan disponibel inkomst och bostadskostnad?


I korstabellen overst anges bade observerade och forvantade frekvenser.
Fotnot b till den nedre tabellen upplyser ass om att alla fyra forvantade 803
x
frekvenserna ar mindre an fem. 2-testet ar darmed mycket tveksamt och vi Pa ett start foretag har en attitydundersi:>kning genomforts med hjalp av ett
valjer att anvanda Fishers exakta test. Det tvasidiga p-vardet ar 0,041 och slumpmassigt urval bland de anstallda. Resultat:
det ensidiga 0,035 vilket ar exakt samma sannolikheter som vi med star Kon Positiv Negativ Summa
mOda raknat ut for hand tidigare i kapitlet.
Man 89 19 108
Kvinnor 328 82 410

Finns det skillnader mellan man och kvinnor vad galler attityd?
a) Utfor ett X2-test och besvara fragan.
b) Anvand den metod som beskrivs pa sidoma 144-146 och besvara
fragan. Jamfor resultaten.

166 167
804
I en undersokning var syftet att kartlagga arbetsforhfillandena i tva stora
industriforetag. Pa foretag A gjordes ett slumpmassigt urval omfattande
9 Multivariata metoder -
120 anstiillda och pa foretag B ett liknande urval om 180 anstiillda.
Personema i de bada urvalen fick besvara ett start antal fragor. Med
en introduktion
ledning av svaren klassificerades personema diirefter som positiva,
neutrala eller negativa till arbetsforhfillandeni Resultatet omriiknat till
procent visas i tabellen:
Attityd till arbets-
fi>rhallandena Foretag A ForetagB Det gamla valkanda riiknesattet ett, tva, manga stiimmer val in aven pa
terminologin vid statistisk analys. Enkla frekvenstabeller, histogram,
Positiv 17 % 28%
Neutral 65% 44%
medelviirden, standardavvikelser etc brukar ibland beniimnas univariat
Negativ 18 % 28 % statistik. Bivariat analys innebiir att man studerar tva variabler samtidigt.
Det kan vara korstabeller, uppdelade stapeldiagram, regressionslinjer,
Analysera resultatet. korrelationskoefficienter och jamforelser av medelviirden eller procenttal
med z-test eller x2-test.
805
Verkligheten iir dock sallan sa enkel att det racker med att studera
En urvalsundersokning i fyra fororter redovisar foljande siffror:
variablema tva och tva. Niir man simultant studerar tre eller flera variabler
Skruvberget Algkullen Skatviken Turmossen talar man om multivariat analys.
Andel I uppgift 401 studerades hur lonen beror pa fildem. Det finns naturligtvis
28% 21% 34% 40%
moderater flera variabler an filder som kan tankas paverka lonebilden. Utbildnings-
Antal
intervjuade 400 600 250 195 niva, typ av examen, kon, antal ar i branschen ar nagra andra faktorer som
kan ha betydelse. Schematiskt kan detta beskrivas sa hiir:
Finns det nagon skillnad mellan forortema vad galler andelen moderater?

806 utbildning
Regnum - den nya tuffa glassen heter det i reklamen. Vi lat 17 mellan-
stadiebam provsmaka - med bindel for ogonen naturligtvis - bade
Regnum och konkurrenternas storsaljare och sedan saga vilken de tyckte
var godast.
G-Odaste glassen
Kon Regn um "den andra" Summa
Tjejer 7 2 9
Killar 3 5 8

Tycker tjejer och killar pa mellanstadiet olika om de bada glassama? Figur 9.1 Hur paverkas ZOnen av olikafaktorer?

168 169
Man kan visa samma samband med ett tvadimensionellt spridnings-
9.1 Multipel regressionsanalys diagram. Punktema far olika symboler beroende pa utbildningsniva.
Multipel regressionsanalys ar en metod att analysera variationen i en Metoden fungerar just den har gangen eftersom det finns ett begransat
beroende variabel eller responsvariabel med hjalp av flera forklarande antal - namligen tre - olika utbildningsnivaer.
variabler. Hur manga - och vilka - forklarande variabler ska man anvanda
sig av i regressionsmodellen? Hur ska sambandet bast beskrivas? Detta ar Utbildning

viktiga fragor som ska besvaras genom analysen. 30 - ------~+Lill




Exempel 1
s:
0
0
0
...... 20 -

I tabellen visas manadslon, alder och utbildning for nio personer: C: +
,0
_J
0
Person A B C D E F G H I
0
Lon/1000-tal kr 10 13 14 23 20 28 17 31 29 +
Alder/Ar 20 20 30 30 40 40 50 50 60 10 - 0
Utbildning/sko!Ar 9 12 9 15 12 15 9 15 12 I
20
'
30
I
40
l
so
I
60
I vilken utstrackning beror lOnen av filder och utbildning? Alder/ar

Det ar klokt att forst skaffa sig en bild av eventuella samband. Att visa
Figur 9.3 Spridningsdiagram som visar sambandet mellan ton, alder och
sarnband i tre dimensioner gar men figurerna blir ibland svara att tyda. utbildningsniva.

I kapitel 4 studerade vi det linjara sambandet mellan tva variabler. Vi


30 anpassade en rat linje till punkterna sa att summan av kvadraterna pa de
lodrata avstanden fran punktema till linjen blev sa liten som mojligt -
metoden kallades minsta-kvadratmetoden. Vi ska nu generalisera denna
Lon 20 metod. I fallet med tre variabler innebar detta att anpassa ett regressions-
plan till punktema i den tredimensionella figuren.
10 Vi anvander beteckningarna
1514
13 y=lOn
12
Utbildning 11
10
9 x 1 =alder

Xi = utbildning
Figur 9.2 Sambandet mellan ton, alder och utbildningsniva.
Lonen ar den beroende variabeln eller responsvariabeln. Alder och utbild-
Av praktiska skal har loneaxeln stympats. Som framgar av figuren okar ning ar de bada forklarande variablerna. Regressionssarnbandet skriver vi
lonen - hojden pa stolparna - bade nar aldern okar och nar antalet skolar y =a+ b1 x 1 +bi Xi
okar. Lat ass anta att denna okning ar linjar.
MK-metoden innebar att konstantema a, b1 och bi i regressionsuttrycket
ska bestammas sa att kvadratsumman
170 171
Determinationskoe.fficienten R 2 som mater forklaringsgraden ar 96,8%.
L [y - (a + b
1 x 1 + b2 x 2 ) ]2
Det innebar att nastan all lonevariation hos de undersokta individema
blir sa liten som mojligt. For att inte forlorn ass i matematiska detaljer beror pa den variation som finns i alder och utbildning.
overlater vi berakningama till de statistiska datorprogrammen. p-vardena i kolumnen !angst till hoger bar samma innebOrd som vid z-test
Har visas en redigerad utskrift fr1'm Minitab: och X2 -test. De visar om nollhypotesen ska forkastas eller ej. Vid

Regression Analysis
[ o-varden < 5% I regressionsanalys ar nollhypotesen att x-variabeln inte har nagot linjart
samband med responsvariabeln, dvs att motsvarande regressionskoefficient
i populationen ar noll.
The regression e quation is
Lon = - 15,1 + 0,339 Alder + 1,90 Utbildn Som vi vet ska man forkasta nollhyptesen nar p-vardet ar litet, till exempel

Pred i ctor Coef SE Coef T p


rnindre an fem procent. Har ar p = 0,000 for bade filder och utbildnings-
niva. Darfor forkastas nollhypotesen att dessa variabler inte paverkar
Con sta n t -15,060 2 , 833 -5,32 0 , 002
Ald er 0,33881 0,04118 8 ,23 0 ,000 lonen. Slutsatsen blir alltsa att bade filder och utbildningsniva har betydelse
Utbildn 1,9013 0 , 2210 8 ,6 0 0,000 for lOnen. Detta stammer val med det hoga vardet pa deterrnina-
R- sq (adj ) = 95,7%
tionskoefficienten.
s = 1 , 58 9 R-sq = 96,8%
Att konstruera ett lampligt regressionssamband - en regressionsmodell -
Ana l ys i s o f Varia n c e
innebar ofta svara avvagningar mellan delvis motstridande utgangspunkter.
p
Sou rce DF SS MS F Ofta vill vi forsoka fa med al/a viisentliga - dvs saklogiskt motiverade -
Regression 2 451,08 225,5 4 8 9 ,3 4 0,0 0 0
1 5,15 2,52
forklarande variabler. Men lika ofta vill vi att modellen ska vara enkel och
Error 6
Total 8 466 ,22 innehfilla safa variabler som mojligt.

So urc e DF Seq S S I vart loneexempel verkar det riktigt att ta med bade filder ocb utbildning.
Alder 1 264,23 Detta later fomuftigt och dessutom far vi en mycket hog forklaringsgrad
Utbildn 1 186,85
totalt sett. Men hur gor man nar det inte ar lika sjalvklart bur manga eller
vilka forklarande variabler som ska inga i modellen?
Av utskriften framgar att det linjara regressionssambandet enligt MK- Nagot vagt kan man svara sa bar. Da maste man pa prova sig fram. Detta
metoden kan skrivas innebar att
y = -15,1+0,339x 1 + 1,90x 2 bland tiinkbara forklarande variabler
Lonen redovisas i 1000-tal kronor. Koefficienten 0,339 frarnfor variabeln valja ett lii.mpligt antal
x 1 =alder anger bur mycket lonen y forandras nar variabeln X1 okar med av de variabler, som ar mest viisentliga och
en enhet och variabeln x 2 ar oforandrad. Personer med lika lang som tillsammans ger sa hOgforklaringsgrad som mojligt.
utbildning som ar ett ar aldre bar alltsa en manadslon som i genomsnitt ar Vilka ar de tlinkbara forklarande variablerna i en viss situation? Vilka ar
339 kronor hOgre. mest vasentliga? Detta ar viktiga fragor. Men de ska normalt inte stallas till
Pa motsvarande satt tolkas koefficienten 1,90 framfor variabeln ass statistiker utan till var uppdragsgivare, till exempel till foretagsledaren
X 2 = utbildning. For lika garnla personer har de med ett ars langre som vill ha en regressionsmodell for att forklara bur omsattningen varierar
utbildning i genomsnitt 1900 kronor mer per manad. pa ett foretag. Statistikems uppgift ar da att vara en klok samtalspartner
och redovisa vilka konsekvenser olika variabelval leder till.

172 173
Vad som menas med ett lampligt antal forklarande variabler beror bade pa
materialets storlek och syftet med regressionsmodellen. Om vi har ett litet 9.2 Klusteranalys
material men flera forklarande variabler finns det risk for overanpassning. Yid klusteranalys ar syftet att sarnla objekt i grupper eller kluster (engelska
Detta innebar att den framraknade regressionsmodellen visserligen ger en cluster betyder klunga, anhopning). Objekten inom varje kluster ska i
god beskrivning av den speciella struktur som finns i det aktuella nagon mening likna varandra. Vid klusteranalys forsoker man alltsa fa svar
materialet. Men om denna struktur framforallt ar ett resultat av slumpen pa fragan: "Vilka individer liknar varandra sa mycket att de kan bilda
och alltsa inte ar typisk for den population, som stickprovet kommer fran, naturliga grupper?"
fungerar modellen mindre bra for statistisk slutledning. Dakan ett mindre
antal forklarande variabler vara ett blittre alternativ. Klusteranalys anvands bland annat vid marknadsundersokningar dar man
forsoker skapa homogena kundkategorier eller grupper av foretag for att
En regressionsmodell blir alltsa inte alltid blittre nar antalet forklarande till exempel kunna effektivisera sin marknadsforing.
variabler okar. !bland kan resultatet till och med bli det motsatta. Om man
bar tva tankbara variabler, som var och en forklarar till exempel 85 procent Man kan antingen klustra individer eller variabler. Klustringsmetoderna
av variationen i responsvariabeln men tillsammans 90 procent av bygger pa att man beraknar avstanden mellan objekten och darefter for
variationen, ger tva variabler (istallet for enbart en) i regressionsmodellen samman de objekt som ligger narmast varandra. Har skall vi beskriva en
en ytterst mattlig okning av forklaringsgraden. Detta kan verka paradoxalt enkel klustringsprocedur vid hierarkisk klusteranalys.
men beror givetvis pa att de bMa forklarande variablerna ar starkt
korrelerade och alltsa i praktiken forklarar ungefar samma sak. Med en Berakning av avstand i tva eller flera dimensioner
statistisk fackterm kallas detta multikollinearitet.
Hur avstand ska definieras ar inte sjalvklart nar man har flera variabler. Vi
Vid hog korrelation mellan tva tankbara forklarande variabler ar det darfor ska visa hur man rent matematiskt definierar avstand i tva eller flera
lampligt att enbart Iata den ena inga i modellen. Det finns tva viktiga dimensioner. Aven nar variablerna har olika enheter, t ex alder i ar och
orsaker till detta. Den ena ar att modellen blir enklare. Den andra ar att inkomst i kronor, ar det fullt mojligt att berakna avstand med denna teknik.
multikollinearitet okar osakerheten i skattningarna av regressions- A vstandsmattet har da ingen enkel geometrisk tolkning. Yid klusteranalys
koefficienterna. En regressionsmodell, dar de forklarande variablerna ar blir det istallet ett matt pa hur lika eller olika objekten ar.
hOgt korrelerade, blir alltsa mindre tillforlitlig.
Om vi vill vi oka antalet forklarande variabler i modellen - till exempel Exempel 2
fran tva till fyra - galler det alltsa att finna den biista kombinationen av
forklarande variabler. Nar vi infor de nya variablerna kan detta darfor Alder/ Lon/ Utbildning/
innebara att nagon eller nagra av variablerna i den mindre modellen maste lndivid ar (x) 1000 kr (y) skolar (z)
bytas ut. I praktiken kan vi alltsa fa en helt ny variabeluppsattning. 28 15 15
2 44 22 12
etc

I detta exempel studerar vi variablerna alder, inkomst och utbildning.


A vstandet mellan tva individer ar enkelt att berakna nar man begransar sig
till en variabel. Man bildar belt enkelt den positiva differensen mellan
variabelvardena. Men hur gor man nar man vill mata avstandet och har tva
eller flera variabler?

174 175
avstandet. Detta medfor att nastan hela avstandet baseras pa lone-
25
skillnaden.
(x2, y2)
For att komma tillratta med denna typ av problem kan man normera
matvardena. Detta kan t ex goras genom att alla variabler standardiseras
20 avstand, d eller genom att variablema transformeras sa att vardena hamnar mellan 0
c och 1 - se uppgift 311, sidan 62.
:O
..J

15 --- --- ------------------' Exempel 3


(x1, y1)
Pa en karta over Europa har vi markerat fem stader: Amsterdam,
Bruxelles, Copenhagen, Dublin och Stockholm. Med hjalp av kluster-
analys ska vi fora samman naraliggande stader till grupper.
20 30 40 50 100 -
Stockholm
Alder

Figur 9.4 Avstandet i tva dimensioner illustreras med Pythagoras sats.
Dublin
Copenhagen
>- 50 -
I figuren visas filder och inkomst for tva individer. Det vagrata avstandet
Amsterdam
(x 2 - x 1) ar avstandet i alder och det lodrata avstandet (y2 - y 1) ar

avstandet i inkomst. Kortaste avstandet d mellan de bada punktema ar Bruxelles

triangelns hypotenusa som kan beraknas med hjalp av Pythagoras sats:


o--..,--.---.---.--...--.-1-...-...-...---,--...,---,----,----,--.-
d2 = (x2 -x1)2 +(y2 -y,)2 0 50 100
x
vilket ger

d= ~(x2 -x 1) 2 +(y2 -y1 ) 2 Figur 9. 5 "Karta" med fem stiider. x- och y-koordinaterna iir avliisningar i mm
fran en bi/atlas.
Detta kallas det euklidiska avstandet. Med de aktuella vardena insatta fas
Att Amsterdam och Bruxelles ligger narmast varandra och kan inga i
d = ~(44- 28) 2 + (22-15) 2 = ,J16 2 + 7 2 = ,J305 "" 17,46 samma gruppering ar klart. Men vilka sarnmanslagningar kan goras
darefter? Ska Copenhagen och Stockholm bilda en grupp eller ska
Denna metod att berakna avstand kan generaliseras till flera variabler eller Copenhagen foras till AB-gruppen? COBRA-gruppen ar valkand inom
dimensioner. Ett tredimensionellt avstand kan skrivas konstkretsar men for att vi inte ska gora subjektiva sarnmanslagningar
anvander vi
d = ~(x2 -x,)2 +(y2 - y,)2 +(z2 -z1)2
ett valdefinierat avstandsmatt och
Vardena for en variabel kan anges pa olika satt. Anta att vi anger en valdefinierad procedur for sammanslagningen, klustringen.
inkomsten i kronor i stallet for 1 000-tal kronor. Da betyder tio kronors
lOneskillnad lika mycket som tio ars fildersskillnad nar vi beraknar

176 177
Nar det galler avstanden kan man i detta fall tanka sig flera mojligheter: Arbetet underlattas om det sammanfattas i en tabell. Efter tva steg ser
Man kan ta fram linjalen och mata pa "kartan". Da far vi samma tabellen ut sa bar:
resultat som nar vi anvander avstandsformeln for det euklidiska
avstandet. Antal Minimi-
Man kan definiera avstandet som flygtiden mellan stadernas Steg kluster Kluster avstand
flygplatser. 0 5 (AJ [BJ [CJ [DJ [SJ
Man kan definiera avstandet mellan tva stader som transportkostnaden 1 4 [A, BJ [CJ [DJ [S] 210
mellan staderna. 2 3 [A, BJ [C, SJ [DJ 630
Vi valjer for enkelhetens skull att ur kartboken ta fram avstandstabellen for
snabbaste bilforbindelse mellan staderna. Efter 630 ar 760 det kortaste avstandet. Det ar avstandet mellan Amster-
dam och Copenhagen och innebar att klustret [A, B] fors samman med
Tabell 9.1 Avstand i km enligt bilatlasen.
klustret [C, S]. Dublin bildar an sa lange en grupp for sig.
Nasta avstand ar 920 km, men eftersom det ar avstandet mellan Bruxelles
Amsterdam Bruxelles Copenhagen Dublin Stockholm
och Copenhagen som redan finns i samma kluster hoppar man over det.
Amsterdam 0
Bruxelles 210 0 Pa nivan 940 km ar det till slut Dublins tur att komma med i den ovriga
Copenhagen 760 920 0 europeiska gemenskapen ! Den slutliga sammanstallningen blir:
Dublin 1100 940 1860 0
Stockholm 1390 1550 630 2490 0
Antal Minimi-
Steg kluster Kluster avstand
Hierarkisk klusteranalys innebar att observationerna stegvis fors samman
till allt stOrre kluster tills dess att samtliga observationer bildar ett enda 0 5 (AJ (BJ (CJ [DJ [SJ
1 4 [A, BJ [CJ [DJ [SJ 210
kluster. Den enklaste metoden for klustring ar narmsta-grannemetoden. 2 3 [A, BJ [C, SJ (DJ 630
Den kallas ocksa nearest neighbour eller single linkage. 3 2 [(A, B), (C, S)J (DJ 760
Forst sammanfor man de tva observationerna mellan vilka avstandet ar 4 1 [(A, B, C, S), DJ 940
minst. Detar Amsterdam och Bruxelles dar avstandet ar 210 km.
A vstand mellan tva kluster - eller mellan ett kluster och en observation - Parenteserna i tabellen ar endast till for att man enklare ska se vilka objekt
beraknas som avstandet mellan klustrens tva narmsta punkter. Narmsta- eller kluster som forts samman. Resultatet av klustringen kan ocksa visas
med ett sa kallat dendrogram.
granneprincipen innebar alltsa att avstandet mellan klustret [Amsterdam,
Bruxelles] - eller [A, BJ i fortsattningen - och Copenhagen blir 760 km. For att inte fa korsande linjer i dendrogrammet staller man upp objekten i
Detta ar avstandet mellan Amsterdam och Copenhagen. Fran Copenhagen den ordning de bar pa sista raden i vart sammanslagningsschema.
till Bruxelles ar det 920 km.
Men li.nnu kortare ar det mellan Copenhagen och Stockholm - 630 km -
sa steg 2 blir att dessa bada Stader bildar nasta kluster.

178
179
I
I'll

I vart exempel har vi bi'tda gangema fortsatt tills samtliga individer bildar
1000 ,,
ett kluster. Detta ar ju inte speciellt anvandbart eftersom syftet ar att f
nagra olika grupperingar att arbeta vidare med. Hur manga kluster ar de~
800 da lampligt att ha? Har maste man anvanda sitt sunda fomuft. Bade
den~ogra~et och rninirniavstanden i sammanslagningstabellen kan ge
I ledtradar till var man bOr stanna. Genom att berakna beskrivande matt for
600
olika kluster kan man sedan se vilken typ av individer dessa innehaller.

400

I
200

Amster- Bruxel- Copen- Stock- Dublin


dam les hagen holm

Figur 9.6 Dendrogram som visar klustring av fem europeiska stiider.

Det finns flera olika metoder att bilda kluster. En annan vanlig metod ar
bortersta-grannemetoden, furthest neighbour eller complete linkage.
Denna metod innebar att avstandet mellan tva kluster beraknas som
avstandet mellan de tva observationer, ett i varje kluster, som ligger langst
fran varandra.
Bortersta-grannemetoden ger i kartexemplet detta klustringsschema:

Antal Minimi-
Steg kluster Kloster avstand
0 5 [A] [B] [C] [D] [S]
1 4 [A, B] [C] [D] [S] 210
2 3 [A, B] [C, S] [D] 630
3 2 [(A, B), D] [C, S] 1100
4 1 [(A, B, D), (C, S)] 2490

Med denna metod blir det Dublin som i steg 3 hamnar i samma grupp som
[A, B]. Avstandet mellan Dublin och Amsterdam ar 1100 km medan
Stockholm ligger 1550 km fran Bruxelles, vilket enligt bortersta-granne-
metoden ar avstandet mellan kluster [A, B] och kluster [C, S].

180 181
9.3 Faktoranalys 9.4 Diskriminantanalys
En statistikers uppgift ar ofta att bearbeta ett stort antal korrelerade variab- Diskriminantanalys ar en metod att klassificera individer. Utgangspunkten
ler. Da ar det naturligt att stalla foljande fragor: ar att varje individ eller objekt tillhor en av tva eller flera i forvag defi-
Finns det nag on mojlighet att komprimera all denna information? Kan nierade kategorier. Genom att analysera matvardena forsoker man for varje
en mindre mangd variabler ersatta den ursprungliga informationen? individ avgora vilken av kategorierna individen tillhor.
Vilka bakornliggande faktorer ar <let vi egentligen mater med detta
datamaterial? Exempel5
Den forsta fragan har vi redan berort i avsnitt 9.1. Vi har konstaterat att tva Pa banken far man dagligen in laneansokningar fran privatpersoner och
variabler, som ar starkt korrelerade, inte samtidigt far inga i regressions- foretag. Privatpersonen far uppge alder, civilstand, inkomst, yrke, anstall-
modellen. Da uppkommer problemet med multikollinearitet. ningsform, boende, tillgangar och skulder. Foretaget far larnna uppgifter
Vill man komprimera informationen i ett stort datamaterial finns det som avser att visa soliditeten i bolaget. Med hjalp av dessa uppgifter
sarskilda metoder for detta. Dessa kallas med ett engelskt fackuttryck for forsoker sedan banken avgora om den eventuella lantagaren ar kreditvardig
Variable Reduction. eller utgor en alltfor stor risk for banken.

Den andra fragan for tankarna tillfaktoranalys. Genom att se pa historiska data om andra Iantagare kan banken med hyfsad
sakerhet avgora om man ska bevilja Janet eller inte. Syftet ar alltsa att gora
atskillnad eller diskriminera mellan kreditvardiga och icke kreditvardiga
Exempel4 kunder.
Vilka faktorer gor en bra tiokampare? Han ska vara snabb, stark, spanstig
och uthfillig, sager nagon. Men hur mater vi spanstigheten? ldrottsmannens Exempel 6
ruder, langd, vikt och poling i de tio grenarna kan vi enkelt mlita. Kan man
pa nagot slitt kombinera nagra av dessa variabler till en faktor som skulle Yid en marknadsundersokning inom bilbranschen ar man intresserad av att
kunna kallas for spanstighet? gora atskillnad mellan bilkopare som ar markestrogna och bilkopare som
kan tanka sig att byta till ett annat marke. Denna diskriminering gor man
Detta ar grundiden bakom faktoranalys, som ar en metod att behandla stora genom att analysera vardena pa llimpliga bakgrundsvariabler for de
statistiska material. Utgangspunkten ar att vardena pa de manga variabler presumtiva bilkoparna.
man studerar i sjalva verket ar ett uttryck for en mindre mangd
bakornliggande faktorer eller dimensioner. Genom att pa olika satt bilda I bada dessa exempel anvander man bakgrundsvariabler eller diskriminant-
kombinationer av de studerade variablerna forsoker man identifiera dessa variabler for att klassificera individer i olika kategorier. Diskriminant-
faktorer. analys innebar att man med hjalp av diskriminantvariablerna bildar en
diskriminantfunktion. Det varde denna antar for en viss individ avgor till
vilken kategori individen fors. Det galler alltsa att konstruera
Kula
diskriminantfunktionen sa att denna med sa stor sakerhet som mojligt
klassificerar individema korrekt.

Faktor Faktor
Diskriminantanalys ar en teknik som paminner om regressionsanalys men
Snabbhet Styrka dar vardet pa responsvariabeln medfor en klassificering. Responsvariabeln
mats alltsa med en nominalskala.

182 183
9.5 Med datorns hjalp
Yid konstruktionen av dendrogrammet gor SPSS en omrak.ning av
Later vi SPSS utfora klusteranalysen i uppgift 903 far vi foljande - nagot avstanden sa att det minsta och stOrsta avstandet vid sammanslagningen far
redigerade - utskrift: vardena 1 och 25 och de ovriga justeras darefter.

* * * * * * * * * P R 0 X I MI T I E S * * * * * * * * *
Data Information * * * * * * H I E R AR C H I C A L C L U S T E R A N A L Y S I S * * *

8 unweighted cases accepted.


O cas es rejected because of missing v_a_l_u_e_._ _ _ ___.~ Dendrogram using Single Linkage
1
Euclidean measure used. - - - - - - - - - - - ,1 euklidiskt avstand I Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +------ ---+---------+---------+---------+----- ----+
Euclidean Dissimilarity Coefficient Matrix Minimjolk 1
Lattyoghurt 2 _J I
Case Minimjol Lattyogh Honungsy Matl.gra Vispgrad I
I
Matl.gradde 4
I
Lattyogh .1105 ~
I minsta avstandet I Vispgradde
Lattmargarin
5
6 I
I I
Honungsy
Matl.gra
. 3763
.2377
.3484
.3132 .4884
Honungsyogh.
Graddglass
Bregott
3
8 I I
Vispgrad .6568 . 7269 . 8182 .4196 7
Lattmarg .5465 .5780 .7301 . 3444 .3008
Bregott 1. 3326 1. 3990 1.4585 1.0950 .6761
Graddgla .85 38 .8578 .5259 .8678 1.0126

Case Lattmarg Bregott Att minimjolk och Iattyoghurt Jigger valdigt nara varandra framgar tydligt.
Bregott .8742 Vi ser ocksa att de tva som kommer med sist - de avvikande - ar
Graddgla 1.0348 1.5075 graddglass och Bregott.

A vstandsmatrisen kan man naturligtvis fa utraknad - se ovan. Strax


ovanfor sjalva avstandsmatrisen star texten Euclidean measure used vilket
innebar att avstanden ar berliknade enligt formeln for euklidiskt avstand.
Ur avstandsmatrisen ser vi att de tva produkter som ligger narmast
varandra ar Iattyoghurt och minimjolk. Avstandet ar 0,1105.
SPSS ger ocksa en sammanslagningstabell sa att man kan folja pa vilka
avstand de olika klustren fors samrnan. Denna ar dock bortredigerad har.

II
!I

184 185

1
Ovningsuppgifter 902
Vid en marknadsstudie ville man se hur intresserade folk var av special-
901 tidningar inom omradena Hus & Tradgard, Djur & Natur samt Jakt &
Vid en undersokning av hushallens sparande noterades forutom sparandet i Fiske. De utvalda personema fick markera sitt intresse pa en skala fran 1
1 000-tal kr (Spar) aven inkomst i 10 000-tal kr (Ink), tillgangar i 10 000- till 7 (dar I = helt ointresserad och 7 = mycket intresserad). Resultatet for
tal kr (Tillg) samt antal hemmavarande barn (Barn). For att se vilka nagra av individema finns i tabellen.
variabler som paverkar hushallens sparande och pa vilket satt gjordes en
multipel regressionsanalys. Har foljer en redigerad utskrift fran analysen
som utfordes med Minitab. lndivid H&T D&N J&F
A 7 1 3
Regression Analysis B 2 6 5
c 1 4 7
The regression equation is D 3 5 6
Spar = - 6,93 + 1,38 Ink - 0,195 Tillg - 3,82 Barn E 7 2 1
p
F 5 3 4
Predictor Coef SE Coef T
G 1 7 4
Constant -6,935 3,903 - 1,78 0,103
Ink 1,38163 0,09969 13' 86 0,000
Tillg -0,19452 0,08319 -2,34 0,039
Barn -3,8173 0,8174 -4,67 0,000 Vid den foljande klusteranalysen beraknades denna avstandsmatris:

R-sq 95,4% R-sq(adj) = 94,2%


s = 3' 971 A B c D E F G
A 0
a) Skriv ut den skattade regressionsmodellen. Ska alla tre forklarande B 7,35 0
variabler inga i modellen? c 7,81 3,00 0
D 1,73 2,45 0
b) Ange innebOrden av de tre regressionskoefficienternas numeriska E 2,24 7,55 7,07 0
varden. F 3,00 4,36 5,10 3,74 0
c) Hur stor andel av variationen i sparande beror pa hushfillens olikheter i G 8,54 1,73 4,24 3,46 8,37 5,66 0
inkomst, tillgangar och antal hemmavarande barn?
a) Komplettera matrisen med de tre avstand som saknas.
b) Genomfor en gruppering till kluster enligt narmsta-grannemetoden.
c) Beskriv sarnmanslagningen med ett dendrogram.
d) Anta att du avslutade klustringen nar individerna var grupperade i tva
kluster. Vilka individer ingar i dessa kluster? Berakna medelvardet for
de tre variablerna D&N, H&T och J&F for varje kluster for sig. Hur kan
man i ord beskriva de tva klustren?

186 187
903
Pa inneballsdeklarationen for ett antal mejeriprodukter har vi avlast Summasymbolen L
energiinnehfill (kcal), proteiner (g) och kolhydrater (g). Eftersom skalorna
ar sa valdigt olika ar de ursprungliga vardena omraknade till varden pa en
skala fran O till 1 (se uppgift 3 lla, sidan 62). Dessa varden har darefter
anvants vid berakning av avstandsmatrisen.

Produkt Energi Protein Kolhydrater Den grekiska bokstaven stort sigma ser ut sa har ~ och anvands som
symbol nar man ska summera varden. Det ar ju enklare att skriva ett enda
A: Minirnji.ilk 0,00 0,86 0,19
tecken i stallet for kanske hundra plustecken.
B: Mild liittyoghurt O,Ql 0,97 0,19
C: Honungsyoghurt 0,08 1,00 0,53
D: Matlagningsgriidde 0,18 0,71 0,15 Exempel 1
E : Vispgradde 0,49 0,43 0,11
F: Carlsharnns liittmargarin 0,49 0,71 0,00 Vi har tagit ett stickprov om fem familjer och noterat antal hemmavarande
G : Bregott 1,00 0,00 0,00
H: Sia Griiddglass 0,27 0,86 1,00
barn i var och en av familjerna. Sa har kan data beskrivas om vi later
bokstaven x beteckna variabeln antal barn:

Har ser du nagra av de euklidiska avstanden mellan mejeriprodukterna: Familj nr (i) 2 3 4 5


A B c D E F G H Antal barn (x) 4 0 2 2
A 0
B 0,110 0 Bokstaven i innebar enbart en numrering av familjerna. Den forst till-
c 0,376 0,348 0
fragade familjen hade 4 barn, den andra familjen 0 barn etc. Informationen
D 0,238 0,313 0,488 0
E 0,657 0,818 0,420 0 i uppstallningen ovan skulle ocksa kunna skrivas
F 0,547 0,578 0,344 0,301 0
G 1,333 1,399 1,459 1,095 0,676 0,874 0 x 5 = 1.
H 0,853 0,858 0,526 0,868 1,013 1,035 1,507 0
Nar man ska summera antalet barn for samtliga fem familjer skriver man
a) Komplettera tabellen med de avstand som saknas. 5

b) Genomfor en gruppering till kluster enligt narmsta-grannemetoden. ,Lx; eller ,Lx; eller enbart ,Lx.
i=I
c) Illustrera med ett dendrogram.
Det forsta uttrycket ar det matematiskt sett mest korrekta men nar det ar
sjalvklart att samtliga varden ska summeras nojer man sig som regel med
nagot av de enklare uttrycken. Oavsett skrivsatt ar inneborden denna:
,Lx = x1 + x 2 + x 3 +x4 +x 5 = 4+0+2+2+1 = 9.
Vi summerar sarntliga x-varden - alla barn - och far reda pa att <let fanns
nio stycken.
,ff

188 189
Yid en del berakningar dyker uttrycket 2.:X 2 upp. InnebOrden av detta ar
att varje x-varde ska kvadreras och darefter ska de kvadrerade vardena
Tabeller & Formler
summeras. Sa har:
"L,,x 2 = x 12 +x22 +x 32 +x 42 +x52 = 42 + 02 + 22 + 22 +l 2 =
= 16+0+4+4+ 1=25
2
Detta uttryck ska inte forvaxlas med (L: x ) Eftersom det finns en
parentes med ska man forst berakna summan av alla vardena innan hela
summan kvadreras.
2 2 2 2
(L:x) =(x 1 +x 2 +x3 +x4 +x 5 ) =(4+0+2+2+1) =9 =81
Vi ser att "summan av de kvadrerade vardena" blir 25 men "kvadraten pa
de summerade vardena" blir 81 . Lagg marke till skillnaden - den ar viktig.

Exempel 2
Nu far vi veta mer om de fem farniljerna. De har aven svarat pa fragan om
hur manga bilar de har. Vi later bokstaven y beteckna antalet bilar.

Familj nr (i) 2 3 4 5
Antal barn (x) 4 0 2 2
Anta bilar (y) 2 0 3

Kontroller forst att nedanstaende summor ar korrekt beraknade.

Yid regressions- och korrelationsanalys (kapitel 4) maste man ocksa


berakna summor dar biide x och y ingiir. Bade den har

L:xy = X1Y1 +X2Y2 +X3YJ +x4y4 +x5y5 =


=4 2+0 1+ 2 0+2.2+ 1 3 = 8+0+0+4 + 3 =15

och denna
L:xL:y=(x1 +x2 +x3 +x4 +xsXY1 +y2 +y3 +y4 +ys)=97=63.
Det sis ta uttrycket innebar att man multiplicerar ihop tva summor - Lx
och LY - och dessa biida hade vi redan raknat ut.

190 191

,l
l
Tabell 1 N ormalfordelningen
z 0 1 2 3 4 5 6 7 8 9
2,5 0,6 0,6 0,6 0,6 0,6 0,5 0,5 0,5 0,5 0,5
Tabellen ger sannolikheten att en stan- 2,6 0,5 0,5 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4
dardiserad norrnalfordelad variabel ar 2,7 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3
storre an ett visst varde z. 2,8 0,3 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2
Sanno- 2,9 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,1 0,1 0,1
Exempel: Sannolikheten att fa ett varde likhet 3,0 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
starre an 1,23 ar 10,9%.
Den standardiserade norrnalfordel-
ningen ar symrnetrisk kring punkten 0 z
noll. Darfor ges sannolikhetema endast
for positiva z-varden.

Tabell 2 N ormalfordelningen
z 0 1 2 3 4 5 6 7 8 9
0,0 50,0 49,6 49,2 48,8 48,4 48,0 47,6 47,2 46,8 46,4
0,1 46,0 45,6 45,2 44,8 44,4 44,0 43,6 43,3 42,9 42,5 z-varden for vissa sannolikheter.
0,2 42,1 41,7 41,3 40,9 40,5 40,1 39,7 39,4 39,0 38,6
0,3 38,2 37,8 37,4 37,1 36,7 36,3 35,9 35,6 35,2 34,8
0,4 34,5 34,1 33,7 33,4 33,0 32,6 32,3 31,9 31,6 31,2
Sanno-
0,5 30,9 30,5 30,2 29,8 29,5 29,l 28,8 28,4 28,1 27,8 likhet
0,6 27,4 27,1 26,8 26,4 26,1 25,8 25,5 25,1 24,8 24,5
0,7 24,2 23,9 23,6 23,3 23,0 22,7 22,4 22,1 21,8 21,5
0,8 21,2 20,9 20,6 20,3 20,0 19,8 19,5 19,2 18,9 18,7
0,9 18,4 18,1 17,9 17,6 17,4 17,1 16,9 16,6 16,4 16,l
0 z
1,0 15,9 15,6 15,4 15,2 14,9 14,7 14,5 14,2 14,0 13,8
1,1 13,6 13,3 13,1 12,9 12,7 12,5 12,3 12,1 11,9 11,7 Sannolik- Sannolik- Sannolik-
1,2 11,5 11,3 11,1 10,9 10,7 10,6 10,4 10,2 10,0 9,9 bet z het z bet z
1,3 9,7 9,5 9,3 9,2 9,0 8,9 8,7 8,5 8,4 8,2
8,1 7,9 7,8 7,6 7,5 7,4 7,2 7,1 6,9 6,8 50% 0,00 9% 1,34 2,5% 1,96
1,4
40% 0,25 8% 1,41 1,0% 2,33
1,5 6,7 6,6 6,4 6,3 6,2 6,1 5,9 5,8 5,7 5,6 30% 0,52 7% 1,48 0,5% 2,58
1,6 5,5 5,4 5,3 5,2 5,1 4,9 4,8 4,7 4,6 4,6 20% 0,84 6% 1,55 0,1% 3,09
1,7 4,5 4,4 4,3 4,2 4,1 4,0 3,9 3,8 3,8 3,7 10% 1,28 5% 1,64 0,05% 3,29
1,8 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3, 1 3,0 2,9
1,9 2,9 2,8 2,7 2,7 2,6 2,6 2,5 2,4 2,4 2,3
2,0 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8
2,1 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5 1,4
2,2 1,4 1,4 1,3 1,3 1,3 1,2 1,2 1,2 1,1 1,1
2,3 1,1 1,0 1,0 1,0 1,0 0,9 0,9 0,9 0,9 0,8
2,4 0,8 0,8 0,8 0,8 0,7 0,7 0,7 0,7 0,7 0,6

192 193
Tabell 3 t-fordelningen Tabell 4 X2-fordelningen

t-varden for vissa sannoJikheter. X2-varden for vissa sannolikheter.

Sanno-
likhet
Sanno likhet

0
0
5 Sannolikhet
Sannolikhet Sannolikhet
fg 5% 2,5% 1% 0,5% 0,1% 0,05 %
fg 5% 1% 0,1% fg 5% 1% 0,1%
5 2,02 2,57 3,36 4,03 5,89 6,87
6 1,94 2,45 3,14 3,71 5,21 5,96 1 3,84 6,63 10,83 26 38,89 45,64 54,05
7 1,89 2,36 3,00 3,50 4,79 5,41 2 5,99 9,21 13,82 27 40,11 46,96 55,48
8 1,86 2,31 2,90 3,36 4,50 5,04 3 7,81 11,34 16,27 28 41,34 48,28 56,89
1,83 2,26 2,82 3,25 4,30 4,78 4 9,49 13,28 18,47 29 42,56 49,59 58,30
~' 9 5 11,07 15,09 20,52 30 43,77 50,89 59,70
10 1,81 2,23 2,76 3, 17 4,14 4,59
11 1,80 2,20 2,72 3, 11 4,02 4,44 6 12,59 16,81 22,46 31 44,99 52,19 61,10
12 1,78 2,18 2,68 3,05 3,93 4,32 7 14,07 18,48 24,32 32 46,19 53,49 62,49
13 1,77 2,16 2,65 3,01 3,85 4,22 8 15,51 20,09 26,12 33 47,40 54,78 63,87
14 1,76 2,14 2,62 2,98 3,79 4,14 9 16,92 21,67 27,88 34 48,60 56,06 65,25
2,13 2,60 2,95 3,73 4,07 10 18,31 23,21 29,59 35 49,80 57,34 66,62
15 1,75
16 1,75 2,12 2,58 2,92 3,69 4,0 1 11 19,68 24,72 31,26 36 51 ,00 58,62 67,99
17 1,74 2,11 2,57 2,90 3,65 3,97 12 21,03 26,22 32,91 37 52,19 59,89 69,35
18 1,73 2,10 2,55 2,88 3,61 3,92 13 22,36 27,69 34,53 38 53,38 61,16 70,71
19 1,73 2,09 2,54 2,86 3,58 3,88 14 23,68 29,14 36,12 39 54,57 62,43 72,06
2,53 2,85 3,55 3,85 15 25,00 30,58 37,70 40 55,76 63,69 73,41
20 1,72 2,09
21 1,72 2,08 2,52 2,83 3,53 3,82 16 26,30 32,00 39,25 41 56,94 64,95 74,75
22 1,72 2,07 2,51 2,82 3,50 3,79 17 27,59 33,41 40,79 42 58,12 66,21 76,09
1,71 2,07 2,50 2,8 1 3,48 3,77 18 28,87 34,81 42,3 1 43 59,30 67,46 77,41
23 '
24 1,7 1 2,06 2,49 2,80 3,47 3,75 19 30, 14 36,19 43,82 44 60,48 68,71 78,75
2,49 2,79 3,45 3,73 20 31,41 37,57 45,3 1 45 61,66 69,96 80,08
25 1,71 2,06
26 1,71 2,06 2,48 2,78 3,44 3,7 1 21 32,67 38,93 46,80 46 62,83 7 1,20 81,39
27 1,70 2,05 2,47 2,77 3,42 3,69 22 33,92 40,29 48,27 47 64,00 72,44 82,72
28 1,70 2,05 2,47 2,76 3,41 3,67 23 35, 17 41,64 49,73 48 65,17 73,68 84,03
29 1,70 2,05 2,46 2,76 3,40 3,66 24 36,42 42,98 51,18 49 66,34 74,92 85,35
2,46 2,75 3,39 3,65 25 37,65 44,31 52,62 50 67,50 76,15 86,66
30 1,70 2,04
40 1,68 2,02 2,42 2,70 3,31 3,55
60 1,67 2,00 2,39 2,66 3,23 3,46
120 1,66 1,98 2,36 2,62 3, 16 3,37
~
1,64 1,96 2,33 2,58 3,09 3,29

194 195
Beskrivande statistik Konfidensintervall
Medelvardet Ett stickprov, populationens andel

- L:x
x= - - L:J x
x= ~-
pz)p(l:p)
n n

Standardavvikelsen Ett stickprov, populationens medelvarde

Lf x2- (LJ x)2 (stort stickprov)


s= s= n
n- l n-1
(normalfordelad variabel, n - 1 frihetsgrader)

Regr essionslinjen
y=a+bx Tva oberoende stickprov, skillnader mellan andelar

(Pi _ Pz) z . P1 (1- P1) + P2 (1- P2)


a = y - bx n1 nz

Tva oberoende stickprov, skillnader mellan medelvarden


2 2
Korrelationskoefficienten (x1 - x2 ) z ~ + !.1_ (stora oberoende stickprov)
n1 nz

s2 = (11i - l)sf + (n 2 -l)si


( n1 + n2 - 2 frihetsgrader)
P n1 +n2 - 2
Residualspridningen
(oberoende stickprov, normalfordelade variabler med sarnma standard-
(n - l) s; l-r 2 avvikelse i populationerna)
se =
n-2

196 197
Hypotesprovning, testfunktioner
Svar till vissa uppgifter
Ett stickprov, populationens andel
p - ff
z= o
~ Jr0 (1: ffo)
110
a) Aldern kan anges i antal ar, vilket innebar att man anvander en
Ett stickprov, populationens medelvarde kvotskala. Man kan ocksa gora en grov indelning av typen
barn/ung/medelalders/gammal, vilket ar en ordinalskala.
z= - -
x-
o x- b) Man/kvinna. Nominalskala
t= - -0
s l fn s ! J;; c) Buddisrn/hinduisrn/. . ., Nominalskala
d) Man kan mata avstandet i km eller eller genom att ange restiden i
minuter. I bada fallen far man en kvotskala.
Tva oberoende stickprov, skillnader mellan andelar
e) Man kan rakna antalet sfilda backer eller ange forsaljningen i kronor. I
bacta fallen far man en kvotskala.
P1-P2 f) Division 1, 2, 3, etc. Ordinalskala - detta ar ju en rangordning!
z =-============ (par andelen i det sammanslagna stickprovet)
g) Miljoner kr. Intervallskala eftersom bade positiva och negativa varden
p(l - p{__!__+ _!_) kan forekomma
\n1 nz h) Antal tander, kvotskala

Tva oberoende stickprov, skillnader mellan medelvarden 111


Ordinalskala

301
c) Typvardet ar oganger md = 1 gang .X = 1,85 ganger
d) s "" (8-0)/4 = 2 ganger
e) s = 2,3 ganger
x -metoden
2
f) 0 ganger respektive 2 ganger
g) Medelvardet blir 0,65 - eller 65 % - vilket ar andelen personer som gatt
x2=L. (o-E)2 pa teater minst en gang.
E
302
a) md = 5 800 kr kvartilerna = 5 200 kr samt 7 400 kr
c) x =6 537 kr s =2 167 kr
d) s "" (12 700-4 200)/4 =2 125 kr

198
199
e) 15 av 19 = 79 %. Enligt normalfordelningsregeln ska <let vara cirka 311
68 %. Av den boxplot som konstruerades i b-uppgiften framgar ocksa a) 0,8 0,4 0,0 1,0 0,8
att variationen inte kan beskrivas med normalfordelningen. Det stOrsta vardet blir 1 och det minsta vardet blir 0.
b) 0,5 --0,5 -1,5 1,0 0,5
303 Medelvardet blir 0 och standardavvikelsen 1.
a) Typvardet ar 7 personer md = 7 personer x = 7, 1 personer
b) s = 0,9 personer 401
b) y = 12,0 + 0,412.x d) 24 400 kr samt 32 600 kr
304 e) r= 0,753 f) r
2
= 0,7532 =56,7 % g) s =5,37
a) x ""3 380 kr
b) md "" 3 400 kr 402
a) y= 7,43 + 5,02x b) 57,6 kg
305 c) Antalet forsandelser blir 12,5100=1250 e) 0 !
56,5 a.r
403
306 b) y = 108,8 - 6,52.x c) 108 800 kr, 43 600 kr samt -21 600 kr (!?)
d) r = --0,910 f) r =--0,707
2
a) 0,19. 23,2 + 0,81. 42,3 =38,671 z3 8, 7 ar e) r = 0,827 2 =82,7 %
b) 35,7 ar
404
307 0,034 0,415
a) Ekvationen 5 40 + x = 6 41 ger x =46 ar
407
a) kvot, nominal, ordinal, kvot, nominal, ordinal
b) 7. 55-46 = 56 5 ar
6 '
408
c) Den som flyttas har en alder som understiger medelfildem pa personal- d) 13 ar, 7 ar - 67 ar e) 15,5 ar, 13 ar och 18 ar
avdelningen (som han flyttas fran). Men han har ocksa en ruder som ar
f) 18,6 och 10,8 ar
overstiger medeliildem pa ekonomiavdelningen (som han flyttas till).
409
308 a) och b) Frekvenser med procenttalen inom parentes
3 480 000 kronor
under 10 000 10 000 - SO 000 over SO 000 Totalt
309 Flickor 124 (14 %) 431 (49 %) 321 (37 %) 876 (100 %)
Medelvarde: 4,8 (A) 0,48 (B) 100,48 (C) Pojkar 68 (18 %) 150 (41 %) 150 (41 %) 368 (100 %)
Standardavvikelse: 1,5 (A) 0,15 (B) 0,15 (C) Totalt 192 (15 %) 581 (47 %) 471 (38 %) 1244 (100 %)

310
Standardavvikelsen ar 1,5. Ledning: Gor en lamplig linjar transformation 410
av observationema och utnyttjade slutsatser du drog i foregaende uppgift! b) Om vi antar att de som laser atminstone sex hocker (6-) i genomsnitt
laser 7,0 backer blir medelvardena xyngre = 3,02' x iildre = 2,05 och

200 201
skillnaden 0,97 backer. Om vi anvander 10,0 i stallet for 7,0 blir
medelvardena 3,30, 2,11 och skillnaden 1,19. Den stOrre skillnaden 604
beror pa att andelen som laser atminstone sex bocker ar stOrre hos de n = 1177
yngre an hos de aldre.
d) Med vardet 7 ,0 for dem som laser mest blir s = 1,58 bocker. Medianen 605
blir alltid 2 bocker och kvartilerna 1 bok respektive 3 bocker. a) 0,16 0,06 eller 0,10 < 7r < 0,22
e) 8,0 backer b)n=578

411 606
d) For fraga 5 kan endast typvarde beraknas. Flickor: T = Hastbacker, a) 616 49 eller 567 < < 665
Pojkar: T = Deckare, Samtliga: T = Deckare. b) 570 48 eller 522 < < 618
For fraga 6 kan bade typvarde och median beraknas. Flickor: T = Jatte- c) 46 67 eller -21 < 1 - 2 < 113
bra, md = mellan Bra och Jattebra. Pojkar: T = Jattebra, md = Bra.
Samtliga: T = Jattebra, md = Bra 607
0,088 0,130 eller - 0,042<.7i'M - .7i'K <0,218
412
b) r = -0,401 c) y = 12,5 - 0,550x 608
d) 5,3 3,7 2,0 f) Se =2,56 Sy =2,77 n
0,052 0,063 eller -0,011 < M - Ji' K < 0,115
413 609
a) r = -0,165 5,4 8,6 eller -3,2 <A' - y < 14,0

414~~~~~~~~~~~~~~~~~~~~~
610
a) alder/x 13 14 15 16 17 18 19 6,0 4,9 eller 1,1<d<10,9
medelantal
lasta bocker/y 5,42 5,09 3,90 3,60 2,80 2,50 2,44 701
a) Mothypotesen ar ensidig: Ji'> 0,5
c) r = -0,971 d) ekologisk korrelation
zobs = 2,6 som ar storre an det kritiska vardet 1,64. H 0 forkastas. Vi

601 har pavisat att det finns en majoritet for forslaget bland mannen.
a) 0,505 0,049 eller 0,456 < 7r < 0,554 (p-varde = 0,5 % < 1 %. Signifikansen ar alltsa tvastjarnig.)
b) 0,557 0,052 eller 0,505 < 7r < 0,609 b) zobs = 0,8 som ar mindre an det kritiska vardet 1,64. Ho kan inte
forkastas. Vi kan inte pavisa att det finns en majoritet for forslaget bland
602 kvinnorna.
a) n = 3 072 (p-varde = 21,2 % > 5 %. Det finns alltsa ingen signifikans.)
b) n = 4 096 Satt p = 0,50, som ger den stOrsta stickprovsstorleken for att
kravet ska vara uppfyllt.

603
4,9 :::.0,8 eller 4,1 < < 5,7

202 203
702
Mothypotesen ar ensidig: > 450 708
lobs = 1,93 som ar stOrre an 1,75 (det kritiska vardet pa 5 %-nivan med 15 Ledning: Berakna differensen for varje observationspar (deltagare) och
frihetsgrader). Det innebar att p-vardet ar mindre an 5 procent. (Signifi- behandla darefter de atta differenserna som ett stickprov.
kansen ar enstjarnig). Ho ska forkastas. Det ar statistiskt sakerstallt att Mothypotesen ar tvasidig: :t:. 0
medelvikten overstiger 450 g. tobs = 0,20 som ar rnindre an 2,36 (<let kritiska vardet pa 5 %-nivan, 2-
sidig mothypotes, 7 frihetsgrader). p-varde > 5 % Ho accepteras.
703 Vi kan inte pavisa att kursen ger forandrade kunskaper.
Mothypotesen ar ensidig: < 10
zobs =-0,53p-varde =29,8 % > 5 % Ho kan inte forkastas 709
0,047 -0,040
Nej, maskinen bor inte kopas in. a) Ekvationen > 1,64 ger svaret n = 2 108
0,04 0,96
704 n
Mothypotesen ar tvasidig: n 1 - n 2 :t:. 0 . p-0,040 .
b ) EkvatJ.onen ----;::==== > 1,64 ger p = 0,0493 eller mmst 60 personer
zobs = 1,29 p-varde = 29,9%=19,8 % > 5 % H 0 accepteras 0,04 0,96
Nej, det finns ingen signifikant skillnad mellan man och kvinnor vad galler 1200
installning till arbetsmiljoprogrammet.
801
705 H 0 : Det finns ingen skillnad H 1 : Det finns skillnad
Mothypotesen ar ensidig: N - 0 > 0
z~bs =9,04* som ar stOrre an 7,81 (<let kritiska vardet pa 5 %-nivan, 3
tobs = 1,80 som ar stOrre an 1,70 (det kritiska vardet pa 5 %-nivan med 28
frihetsgrader. Det innebar att p-vardet ar mindre an fem procent. (Signi- frihetsgrader). p-varde < 5 % Ho forkastas
fikansen ar enstjarnig). Ho ska forkastas. Detar statistiskt sakerstallt att det Konsumenterna tycker inte att hamburgarna ar lika goda.
nya programmet ar battre an det garnla.
802
706 H 0 : Det finns inget samband Hi : Det finns ett samband
Mothypotesen ar tvasidig: I - 2 *0 X~bs = 96,8 * * * som ar stOrre an 18,47 (<let kritiska vardet pa 0, 1 %-nivan,
zobs = 2,4 p -varde = 20,8%=1,6 % < 5 % Ho forkastas 4 frihetsgrader). p-varde < 0,1 % Ho forkastas
Ja, det finns en signifikant skillnad i medelvikt mellan paketen fran de Ja, det finns ett samband.
bada leverantOrerna.
803
H 0 : Det finns ingen skillnad Hi : Det finns skillnad
707 a) z;bs = 0,3 16 som ar mindre an 3,84 (det kritiska vardet pa 5%-nivan, 1
Mothypotesen ar ensidig: A. - y > 0 frihetsgrad). p-varde > 5% Ho accepteras
zobs = 1,23 p-varde = 10,9 % > 5 % Ho accepteras Nej, skillnaden ar inte statistiskt sakerstalld.
Nej, det kan inte pavisas att yngre reagerar snabbare.

204 205
b) Zobs =0,56 p-varde = 2 28,8 % = 57,6 % Ho accepteras d) Kluster 1: A E F Kluster 2: B C D G
Nej, skillnaden ar inte statistiskt sakerstalld. Medelvardet for de tre variablema uppdelat pa kluster blev
Anmarkning: De bade testen ger alltid samma resultat.
Kluster H&T D&N J&F

804 I (AEF) 6,33 2,00 2,67


2 (BCDG) 1,75 5,50 5,50
H 0 : Det finns ingen skillnad mellan foretagen H 1 : Det finns skillnad
x;bs =12,3** som ar storre an 9,21 (det kritiska vardet pa 1 %-nivan, 2 Individema i kluster 1 ar mycket intresserade av Hus & Tradgard
frihetsgrader) p-varde < 1 % Ho forkastas medan individema i kluster 2 har lagt intresse for detta men ar desto mer
intresserade av Djur & Natur samt Jakt & Fiske.
Det finns skillnad i attityden till arbetsforhfillandena.
903
805 a) EB: 0,727 FC: 0,730
H 0 : Det finns ingen skillnad H 1 : Det finns skillnad c) Pa sidan 172 finns dendrogrammet i SPSS version. Dar ar avstanden
x;bs = 33,1 * * * som ar storre an 16,27 fg = 3 p-varde < 0,1 % omraknade sa att det kortaste avstandet ar 1 och det stOrsta 25.
Ho forkastas
Ja, det finns en genomsnittlig skillnad mellan forortema.

806
H 0 :Tjejer och killar tycker lika H 1 : Tjejer och killar tycker olika
Eftersom tre av de forvantade frekvensema blir mindre an fem gors
analysen med Fishers exakta test. Mothypotesen ar tvasidig.
p-vardet = 0,1037 + 0,0130 + 0,0004 + 0,0346 + 0,0019 = 15,4 %. Vi kan
inte pavisa nagon skillnad vad galler preferens for de bacta glassama.

901
a) Eftersom samtliga tre regressionskoefficienter har p-varden rnindre an
5 % ska de vara med i modellen.
y = -6,93+1,38 lnkomst - 0,195 Tillgangar - 3,82 Barnantal
b) Med samma tillgangar och samrna bamantal ar det genomsnittliga
sparandet 1 380 kr hOgre for hushall med 10 000 kr hOgre inkomst.
Tolkningama for de andra koefficientema blir pa motsvarande satt.
Dock ar det genomsnittliga sparandet i dessa fall lagre eftersom koeffi-
cientema ar negativa.
c) 95,4 % i det studerade materialet.

902
a) AD: 6,40 EC: 8,72 FD: 3,46

206 207
Svante Korner Lars Wahlgren
- '

labeller & formler

Supplement till:

Statistiska metoder
Andra upplagan - Art.nr 6809

~ Studentlitteratur
'7/ .,-
' 7 1 . :J
Tabell 1 Normalfordelningen
z 0 1 2 3 4 5 6 7 8 9

Tabellen ger sannolikheten att en stan- 2,5 0,6 0,6 0,6 0,6 0,6 0,5 0,5 0,5 0,5 0,5
2,6 0,5 0,5 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4
dardiserad normalfordelad variabel ar 0,3
2,7 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3
storre an ett visst varde z. 2,8 0,3 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2
Sanno-
2,9 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,1 0,1 0,1
Exempel: Sannolikheten att fa ett varde likhet
3,0 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
storre an 1,23 ar 10,9%.
Den standardiserade normalfordel-
ningen ar symmetrisk kring punkten 0 z
noll. Darfor ges sannolikhetema endast
for positiva z-varden.

z 0 1 2 3 4 5 6 7 8 9
Tabell 2 Normalfordelningen
0,0 50,0 49,6 49,2 48,8 48,4 48,0 47,6 47,2 46,8 46,4
0,1 46,0 45,6 45,2 44,8 44,4 44,0 43,6 43,3 42,9 42,5
z-varden for vissa sannolikheter.
0,2 42,1 41,7 41,3 40,9 40,5 40,1 39,7 39,4 39,0 38,6
0,3 38,2 37,8 37,4 37,1 36,7 36,3 35,9 35,6 35,2 34,8
0,4 34,5 34,l 33,7 33,4 33,0 32,6 32,3 31,9 31,6 31,2
Sanno-
0,5 30,9 30,5 30,2 29,8 29,5 29,1 28,8 28,4 28,l 27,8 likhet
0,6 27,4 27,1 26,8 26,4 26,l 25,8 25,5 25,1 24,8 24,5
0,7 24,2 23,9 23,6 23,3 23,0 22,7 22,4 22,1 21,8 21,5
0,8 21,2 20,9 20,6 20,3 20,0 19,8 19,5 19,2 18,9 18,7
0,9 18,4 18,1 17,9 17,6 17,4 17,1 16,9 16,6 16,4 16,1 0 z
1,0 15,9 15,6 15,4 15,2 14,9 14,7 14,5 14,2 14,0 13,8
1,1 13,6 13,3 13,1 12,9 12,7 12,5' 12,3 12,1 11,9 11,7 Sannolik- Sannolik- Sannolik-
1,2 11,5 11,3 11,1 10,9 10,7 10,6 10,4 10,2 10,0 9,9 bet z bet z bet z
1,3 9,7 9,5 9,3 9,2 9,0 8,9 8,7 8,5 8,4 8,2 50% 0,00 9% 1,34 2,5% 1,96
1,4 8,1 7,9 7,8 7,6 7,5 7,4 7,2 7,1 6,9 6,8 40% 0,25 8% 1,41 1,0% 2;33
1,5 6,7 6,6 6,4 6,3 6,2 6,1 5,9 5,8 5,7 5,6 30% 0,52 7% 1,48 0,5% 2,58
1,6 5,5 5,4 5,3 5,2 5,1 4,9 4,8 4,7 4,6 4,6 20% 0,84 6% 1,55 0,1% 3,09
1,7 4,5 4,4 4,3 4,2 4,1 4,0 3,9 3,8 3,8 3,7 10% 1,28 5% 1,64 0,05% 3,29
1,8 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3,1 3,0 2,9
1,9 2,9 2,8 2,7 2,7 2,6 2,6 2,5 2,4 2,4 2,3
2,0 2,3 2,2 2,2 2, 1 2,1 2,0 2,0 1,9 1,9 1,8
2,1 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5 1,4
2,2 1,4 1,4 1,3 1,3 1,3 1,2 1,2 1,2 1,1 1,1
2,3 1,1 1,0 1,0 1,0 1,0 0,9 0,9 0,9 0,9 0,8
24 0,8 0,8 0,8 0,8 0,7 0,7 0,7 0,7 0,7 0,6

2 3
2
Tabell 3 t-fordelningen Tabell 4 X -fordelningen
t-varden for vissa sannolikheter.
x -varden for vissa sannolikheter.
2

Sanno-
likhet

) Sannolikhet

0
0
Sannolikhet
fg 5% 2,5% 1% 0,5% 0,1% 0,05% Sannolikhet Sannolikhet
5 2,02 2,57 3,36 4,03 5,89 6,87 fg 5% 1% 0,1% fg 5% 1% 0,1%
6 1,94 2,45 3,14 3,71 ,5,21 5,96
l 3,84 6,63 10,83 26 38,89 45,64 54,05
7 1,89 2,36 3,00 3,50 4,79 5,41
2 5,99 9,21 13,82 27 40,11 46,96 55,48
8 1,86 2,31 2,90 3,36 4,50 5,04
3 7,81 11,34 16,27 28 41,34 48,28 56,89
9 1,83 2,26 2,82 3,25 4,30 4,78
4 9,49 13,28 18,47 29 42,56 49,59 58,30
10 1,81 2,23 2,76 3,17 4,14 4,59 5 . ll,Q7 15,09 20,52 30 43,77 50,89 59,70
11 1,80 2,20 2,72 3,11 4,02 4,44
6 12,59 16,8 1 22,46 31 44,99 52,19 61,10
12 1,78 2,18 2,68 3,05 3,93 4,32
7 14,07 18,48 24,32 32 46,19 53,49 62,49
13 1,77 2,16 2,65 3,01 3,85 4,22
8 15,51 20,09 26,12 33 47,40 54,/8 63,87
14 1,76 2,14 2,62 2,98 3,79 4,14
9 16,92 2 1,67 27,88 34 48,60 56,06 65,25
15 1,75 2,13 2,60 2,95 3,73 4,07 10 18,31 23,21 29,59 35 49,80 57,34 66,62
16 1,75 2,12 2,58 2,92 3,69 4,01
11 19,68 24,72 31,26 36 51,00 58,62 67,99
17 1,74 2,11 2,57 2,90 3,65 3,97
12 21,03 26,22 32,91 37 52,19 59,89 69,35
18 1,73 2,10 2,55 2,88 3,61 3,92
13 22,36 27,69 34,53 38 53,38 61,16 70,71
19 1,73 2,09 2,54 2,86 3,58 3,88
14 23,68 29,14 36,12 39 54,57 62,43 72,06
20 1,72 2,09 2,53 2,85 3,55 3,85 15 25,00 30,58 37,70 40 55,76 63,69 73,41
21 1,72 2,08 2,52 2,83 3,53 3,82
16 26,30 32,00 39,25 41 56,94 64,95 74,75
22 1,72 2,07 2,51 2,82 3,50 3,79
17 27,59 33,41 40,79 42 58,12 66,21 76,09
23 1,71 2,07 2,50 2,81 3,48 3,77
18 28,87 34,81 42,31 43 59,30 67,46 77,41
24 1,71 2,06 2,49 2,80 3,47 3,75
19 30,14 36,19 43,82 44 60,48 68,71 78,75
25 1,71 2,06 2,49 2,79 3,45 3,73 20 31,41 37,57 45,31 45 61,66 69,96 80,08
26 1,71 2,06 2,48 2,78 3,44 .3,71
21 32,67 38,93 46,80 46 62,83 71,20 81,39
27 1,70 2,05 2,47 2,77 3,42 3,69
22 33,92 40,29 48,27 47 64,00 72,44 82,72
28 1,70 2,05 2,47. 2,76 3,41 3,67
23 35,17 41,64 49,73 48 65,17 73,68 84,03
29 1,70 2,05 2,46 2,76 3,40 3,66
24 36,42 42,98 51,18 49 66,34 74,92 85,35
30 1,70 2,04 2,46 2,75 3,39 3,65 25 37,65 44,31 52,62 50 67,50 76,15 86,66
40 1,68 2,02 2,42 2,70 3,31 3,55
60 1,67 2,00 2,39 2,66 3,23 3,46
120 1,66 1,98 2,36 2,62 3, 16 3,37
~
1,64 1,96 2,33 2,58 3,09 3,29
4 5
Beskrivande statistik Konfidensintervall

Medelvardet Ett stickprov, populationens andel

-
x=-
L:x _
x=
L:fx pz~p(l: p)
n n

Standardavvikelsen Ett stickprov, populationens medelvarde

L:f x2 - (LJ x)2 (stort stickprov)


s= s= n
n-1 n- I - s
xt .J,; (normalfordelad variabel, n - 1 frihetsgrader)

Regressionslinjen
y =a+bx Tva oberoende stickprov, skillnader mellan andelar

a=y - bx

Tva oberoende stickprov, skillnader mellan medelvarden

Korrelationskoefficienten (stora oberoende stickprov)


L:xy - L:xL:y
r =--;==============n=========
[v-cr::rru-cr::rJ
8
2 = (ni - I)s~ + (n 2 - l)s~ ( nLf n~ -2 frjhetsgrader)
L P n1 +n2 - 2
Residualspridningen

(n - l)s~ 1-r2
I (oberoende stickprov, normalfordelade variabler med samm(l .~tandard
se = "I avvikelse i populationema)
n- 2 ..i
..,

6 7
Hypotesprovning, testfunktioner
Ett stickprov, populationens andel

z= P -7!o
~ 7!0(1~7!o)

Ett stickprov, populationens medelvarde

z=-
x -
-o
s/~

Tva oberoende stickprov, skillnader mellan andelar

P1-pz
z =--.========== (p ar andelen i det sammanslagna stickprovet)
p(l - p { _!_+ _l)
\ 11i nz

Tva oberoende stickprov, skillnader mellan medelvarden

x: -metoden

You might also like