You are on page 1of 49

SISSEJUHATUS KVANTITATIIVSETESSE

MEETODITESSE

Milliste uurimisülesannete lahendamiseks sobivad


kvantitatiivsed meetodid?

Küsimused on kui palju ja miks. Tulemused üldistatakse üldkogumile ning


tulemuste üldistamine tugineb arvulisele argumendile. Esinemissagedus,
seoste analüüsimine, hüpoteeside testimine, arvulised/kvantifitseeritavad
andmed, suhteliselt palju uuritavad.

Andmestike tüübid

Läbilõikeandmestik, ristlõikeandmestik - Erinevad tunnused kogutakse


kokku ühte tabelisse indiviidi kaupa. Võtab vähe aega. Samal ajal uuritakse
sama meetodi abil erinevaid inimgruppe.

Longituuduuring - uuringutüüp, mille puhul tehakse kordusmõõtmisi


kindlate ajavahemike tagant ühtede ja samade indiviidide hulgas.

Tunnuste jaotus

Tunnus - Tunnus on näitaja, mida saab mõõta kõigil uurimisalustel objektidel.

Nominaaltunnus - vastusevariandid pakuvad objekti kirjelduse, aga ei ütle


midagi kirjeldatus omaduse intensiivsuse või suuruse kohta (sugu, rahvus).
Järjestustunnus - vastusevariandid on intensiivsuse põhjal järjestatavad,
kuid skaalapunktide vahed ei pea tingimata võrdsed olema (haridustase,
meeldivus ja rahuolu hinnangud).

Binaartunnus - kaheväärtuselised tunnused. Näiteks sugu (mees/naine)

Arvuline tunnus - mõõtmistulemus on arv. Arvtunnuseid saab jagada


pidevateks ja diskreetseteks arvtunnusteks. Iga arvtunnus on ka
järjestustunnus.

Pidev tunnus - vastusevariantidena sobivad kõik punktid tunnuse skaalal


(pikkus, kaal, vanus, sissetulek).

Diskreetne tunnus - sobivad ainult täisarvulised ja loetavad vastusevariandid


(laste arv peres).

Sagedustabel

Millist tüüpi tunnustega on mõistlik teha sagedustabeleid?

Järjestustunnust saab kasutada sagedustabeli tegemiseks, aga sõltub palju


tunnuseid on. Arvulist tunnust ei ole mõtet esitada sagedustabelina.
Nominaaltunnuseid saab esitada, aga 5-6 kategooriat maksimaalselt.
Kumulatiivne sagedus - näitab kui palju või kui suur osa indiviide jääb antud
astmest allapoole või ülespoole. Kumulatiivse ehk koguneva sageduse puhul
liidetakse kõik vastaval real või eelmistel ridadel olnud vastusevariantide
sagedused.

Kumulatiivne suhteline sagedus - kumulatiivne sagedus aga liidetakse


suhtelised sagedused.

Mood - suurima sagedusega väärtus, osutab tüüpilisele väärtusele. Moodi


saab leida nii arvuliste, järjestus- kui ka nominaaltunnuste puhul.

Mediaan - punkt tunnuse väärtuste järjestatud skaalal, millest suuremaid ja


väiksemaid väärtusi on ühepalju. Mediaani mõjutab variatsioonirea pikkus.

Aritmeetiline keskmine - ainult arvuliste tunnuste puhul. See on näitaja,


mida võib käsitleda kui tüüpilist või läbilõikelist vastust vaatlusalusele
küsimusele, aga võib olla ka väärtus, mida tegelikult ükski vastajatest täpselt
andnud pole. See on adekvaatne ainult siis, kui tunnuseväärtused on
kogunenud keskmise ümber. Keskmist mõjutavad kõik väärtused.

Variatsioonirida - järjestatud väärtuste rida.

Detsiil - variatsioonirida jagatud kümneks osaks.

Kvintiil - variatsioonirida jagatud viieks osaks.

Kvartiil - variatsioonirida jagatud neljaks osaks.

Kvantiilhaare - iseloomustab jaotuse hajuvust, mida suurem on väärtuste


variatiivsus, seda suurem on kvantiilhaare. See katab 1-2p osa tunnuse
väärtusest.
Ülemine, alumine kvartiil - nende vahele jääb kvartiilhaare.

Dispersioon - standardhälbe ruut ehk keskmine ruuthälve. Seda kasutatakse


tunnuse hajuvuse iseloomustamiseks.

Standardhälve - iseloomustab vastuste hajuvust keskmise ümber. Seega


näitab tüüpilist erinevust üldisest keskmisest. Kui standardhälve on suur, siis
võib arvata, et vastused on keskmisest kaugel. Kui standardhälve on väike, siis
on vastajate vastused antud üldise keskmise lähedale. Viimasel juhul tundub,
et vastajad on olnud oma vastustes küllaltki üksmeelsed.

1. Leia keskmine 2. Lahuta igast andmepunktist keskmine ja võta saadud


tulemus ruutu 3. Liida kokku eelmises punktis saadud väärtused 4. Jaga
andmepunktide arvuga 5. Võta ruutjuur

Variatsioonikordaja - suhteline standardhälve ehk standardhälve jagatud


keskmisega. Teeb erineva skaalaga tunnused võrreldavaks.
Tunnuste standardiseerimine - tehakse arvtunnustega ja
standardiseerimise käigus skaala alguspunkt nihkub või toimub
mastaabimuutus. Standardiseerimise eesmärk on tunnuste võrreldavaks või
tulemuste tähendusrikkaks muutmine, näiteks riigile omasest
vastamismustrist lahti saamine.

Nihe - skaala alguspunkt viiakse näiteks nulli või keskmine nulli. Nihkega
tunnuste puhul ei ole mõtekas võrrelda keskmisi, sest oleme ise selle
määranud.

Mastaabimuutus - ühiku muutus, näiteks üleminek sentimeetrilt meetrile,


eurolt tuhandele eurole. Formaalselt tähendab see tunnuse väärtuse
korrutamist teatava konstandiga.

Sümmeetriline jaotus - sümmeetrilise jaotuse korral langevad mediaan ja


mood kokku.

Positiivne ja negatiivne asümmeetria

Asümmeetriakordaja - põhineb keskmisel individuaalsel hälbel


aritmeetilisest keskmisest. Positiivne: rohkem erandlikke suuri väärtusi.
Negatiivne: rohkem erandlikke väikseid väärtusi.
Järskuskordaja ehk ekstsess - põhineb keskmisel individuaalsel hälbel
aritmeetilisest keskmisest. Standardiseeritud normaaljaotuse ehk
sümmeetrilise jaotuse korral 0. Standardiseeritud normaaljaotusest väiksema
järskusastmega jaotused on negatiivse järskuskordajaga.

Standardiseeritud normaaljaotuse praktiliselt kõik väärtused on


vahemikus -3 kuni 3.

Aegread

Ajadimensioonid - kohort (ühe populatsiooni sama põlvkonna kõik liikmed),


periood (Iseloomustab sesoonse iseloomuga aegridu), vanus.

Läbilõikeuuringud - samal ajal uuritakse sama meetodi abil erinevaid


inimgruppe.

Longituuduuringud - samu inimesi uuritakse aastate või aastakümnete


jooksul.

Aegrida - kronoloogiline rida ehk dünaamikarida. Ühe ja sama muutuja


kordusmõõtmised teatud ajavahemike järel, mis enamasti võetakse
ühepikkused. Arvandmete rida, mis iseloomustab nähtuste ajalist muutumist.
Eeldused: üksteisest sõltumatud vaatlused, inimesed on analüüsis
mittevaadeldavate tunnuste poolest ühetaolised, vastuste puudumine ei ole
süstemaatiline.

Autokorrelatsioon - perioodil t esineva aegrea väärtuse sõltuvus varasemate


perioodide väärtustest. Positiivne kui kasvamisele järgneb kasvamine ja
kahanemisele järgneb kahanemine. Negatiivne siis, kui kasvamisele järgneb
kahanemine ja kahanemisele kasvamine.

Momentrida - Iga element on seotud teatud kindla ajamomendiga (kuupäev,


aasta, algus, lõpp).
Perioodirida - Iga element on seotud mingi ajavahemikuga, perioodiga (kuu,
kvartal, aasta).

Trend - Väljendab ligikaudse mudelina aegrea põhilist kulgu.

Vahede aegrida ehk absoluutne muutus ehk diferents - Kahe järjestikuse


ajamomendi väärtuste vahe, mis toob esile aegrea muutlikkuse ja kõneleb
muutumiskiirusest ilma nähtuse suuruseta.

Esimest ja teist järku diferents - esimest järku diferents on kahe järjestikuse


elemendi vahe, mis vabastab trendist aga sesoonsus jääb. Teist järku diferents
on kahe järjestikuse elemendi vahede vahe ning see vabastab sesoonsusest.

Kasvutempo - Kasvutempo (ahelindeks) ajamomendil t saadakse aegrea


antud väärtuse jagamisel eelmise väärtusega; kt = xt / xt-1, kus xt on n
ajamomendi aegrida, t = 1, 2, ..., n. Arvust 1 väiksem kasvutempo tähendab
kahanemist, arvust 1 suurem kasvutempo kasvu ja arvuga 1 võrduv
kasvutempo aegrea püsivust antud ajamomendil. Kasvutempo näitab, kui
mitu korda ületab antud väärtus eelmist (kasvamisel) või kui suure osa
moodustab eelmisest (kahanemisel)

Viitaeg - mitme liikme võrra nihutada.

Absoluutne juurdekasv (ik difference, growth) dt ajamomendil t on


käesoleva oleku xt ja eelmise oleku xt-1 vahe: dt = xt – xt-1

Aegridade analüüs

Excelis. Vajutad format as table ja lülitad tabelis sisse my table has headers.
Seejärel insert ja tabel ja saad joonise. Tuleb enne märgistada ka andmete
veerud, mida tahame kasutada.
Valim ja üldkogum, usaldusvahemik

Valim ja populatsioon - valimi alusel arvutatud näitaja kehtib täpselt valimi


kohta. Populatsioonile saab üldistada seda siis, kui valim on populatsiooni
suhtes esinduslik. Selleks, et valim oleks esinduslik on vaja, et valim on
juhuslik ehk tõenäosuslik valim.

Tegelik väärtus - näitaja väärtus populatsioonis. Ei ole võimalik teada saada


muidu, kui uurides kogu populatsiooni, näiteks rahvaloendus.

Tõenäosuslik valim - Kõigil populatsiooni liikmetel on nullist erinev


tõenäosus sattuda valimisse.

Lihtne juhuvalim - tõenäosus valimisse sattuda on kõigil populatsiooni


liikmetel võrdne.

Usalduspiir, usaldusvahemik - usaldusvahemik on valimi alusel arvutatav


vahemik, mis katab parameetri tegeliku väärtuse teatud tõenäosusega.
Usaldusvahemik jääb ülemise ja alumise usalduspiiri vahele.
Usaldusvahemike kõrvutamine ühe ja sama usaldusnivoo korral ühe ja sama
tunnuse jaoks eri gruppides võimaldab teha järeldusi gruppide võrdlemiseks
selle parameetri (nt keskmise) alusel, mille kohta on usaldusvahemik leitud.

Usaldusvahemike leidmine

Jamovis. Analyses => Exploration => Descriptives. Tuleb sisse lülitada


Skewness, Kurtosis ja Histogram ning Std. Error of Mean (keskmise
standardviga) ja Confidence interval for Mean (keskmise usaldusvahemik).

Kui tunnuse jaotus on küllaltki normaaljaotuse lähedane, saab edasi minna


artimeetilise keskmisega ja sellele usalduspiiride arvutamisega. Kui tunnus on
märkimisväärselt asümmeetrilise jaotusega, ei mõjuta see usaldusvahemiku
usaldusväärsus, kuid seda tuleb arvesse võtta keskmise sisulisel
tõlgendamisel.

Kui keskmine ehk MEAN jääb usaldusvahemiku piiridesse, siis katab see
usaldusvahemik üldistatud usalduse tegeliku väärtuse populatsioonis.

Excelis saab usaldusvahemikke lisada ERROR BAR ja ERROR AMOUNT abil.

Mida saab öelda valimi põhjal arvutatud statistiku alusel, mida


statistiku usaldusvahemiku alusel?

Valimi põhjal arvutatud statistik näitab valimi kohta, usaldusvahemiku puhul


saab väita et vastava usaldusvahemiku väärtused esinevad ka populatsioonis.

Punkthinnang ja vahemikhinnang - punkthinnang on statistik, mis annab


parameetrile ühese väärtuse, näiteks valimi aritmeetiline keskmine on
punkthinnang kogumi keskväärtusele. Vahemikhinnangu puhul määratakse
valimi põhjal uuritava karakteristiku väärtuste hulgast vahemik, millesse
üldkogumi vastav karakteristik peaks sattuma.

Standardviga - valimite keskmiste standardhälve.

Usaldusvahemiku ja usaldusnivoo tõlgendamine - Usaldusnivoo näitab


teatavat täpsuse astet. Mida rangema usaldusnivoo valime, seda laiem on
usaldusvahemik, seda suuremat valimi erinevust populatsioonist peame
võimalikuks ja arvestame võimalusega, et meie valim erineb populatsioonist
rohkem.

Usaldusvahemiku laius (millest sõltub) - usaldusnivoo valik sõltub sellest,


kui suurt kindlust meil on vaja selles, et usaldusvahemik katab tegeliku
väärtuse. Usaldusvahemiku laius sõltub: valimimahust (suurem valimimaht - >
kitsam usaldusvahemik), tunnuse hajuvus (väiksem hajuvus -> kitsam
usaldusvahemik), usaldusnivoo (madalam usaldusnivoo -> kitsam
usaldusvahemik). Keskmise usaldusvahemik on seda kitsam, mida väiksem
on tunnuse standardhälve, kui valimimaht ei muutu.

Usaldusvahemike võrdlemine - Kui usaldusvahemikud kattuvad, siis


keskmiste erinevuse osas saaks täpsema järelduse teha t-testi (keskmiste
erinevuse usaldusvahemiku) põhjal.

Usaldusvahemikke pole kohane arvutada:

● Kui tegu pole valimiandmetega (rahvaloendus, registriandmed)


● Kui tegu pole tõenäosusliku valimi andmetega

Hüpoteeside kontrollimine, t-test

Statistiline hüpotees - oletus üldkogumi kohta. Seda testitakse


valimiandmete alusel.

Nullhüpotees - vastupidine alternatiivhüpoteesile.

Alternatiivhüpotees - sõnastatud nii, et väidab erinevuse esinemist või seose


kehtimist.

Ühe- ja kahepoolne hüpotees - kahepoolne on siis kui hüpoteesid on võrdub


või ei võrdu ning suurem/väiksem on ühepoolne.
Hüpoteeside kontrollimine / testimine (mida endast kujutab, millel
põhineb)

Püüame jõuda tõele jälile, keskendudes mitte sellele, kas kehtib H1, vaid
sellele, kas kehtib H0. Kui valimiandmete põhjal leiame, et H0 kehtivus ei ole
tõepärane, saame kinnitada H1, sest H0 ja H1 välistavad teineteise. Seejuures
prioriteet on vältida esimest liiki viga (ka teist liiki viga oleks halb, aga esimest
liiki vea vältimine olulisem). Ehk kinnitame H1 ainult juhul, kui
tõendusmaterjal on kaalukalt nullhüpoteesi paikapidavuse vastu

Esimest ja teist liiki viga - esimest liiki viga on kui populatsioonis kehtib H0
aga võtame valimi põhjal vastu H1. Teist liiki viga on kui populatsioonis kehtib
H1 ja võtame valimi põhjal vastu H0.

Olulisuse nivoo (sh erinevus usaldusnivoost) - esimest liiki vea lubatav


ülempiir. See on tavaliselt 0,05, aga rangem 0,01 ja leebem 0,1. H0
kummutatakse, kui esimest liiki vea tegemise võimalus on väiksem olulisuse
nivoost.

Olulisuse tõenäosus - Olulisuse tõenäosus on väikseim olulisuse nivoo, mis


antud valimi põhjal lubab vastu võtta alternatiivse hüpoteesi. See näitab
antud valimi sobivust nullhüpoteesiga.

Statistiline olulisus - kasutatakse iga seosekordaja puhul, statistiliselt


oluliseks peetakse seosekordajat <0,05 ehk 95%. Tulemus 0,05 näitab, et
esitatud seos esineb reaalselt üldkogumis 95%-l juhtudest.

t-test - aritmeetiliste keskmiste võrdlemiseks. Võrdleme arvulise tunnuse


keskmisi kategoriseeritava tunnuse lõikes. Eeldused: arvulise tunnuse jaotus
gruppide lõikes on normaaljaotuse lähedane, arvulise tunnuse hajuvus
gruppide lõikes on sarnane (kui ei ole siis teeme welchi t-testi).
Ühe kogumi t-test - ühe valimi alusem mõõdetud kogumi keskmise asemel
on mingi kindel väärtus. Testime, kas valimi alusel arvutatud keskmine sellest
erinev.

Paariskogumite t-test - kasutatakse, kui vaatlused on omavahel seotud.


Seega me ei võrdle kahe erineva grupi keskmisi, vaid samade indiviidide
keskmisi, mis on mõõdetud erinevatel aegadel või mõõdavad erinevaid
nähtusi.

Vabadusastmed - väljendab tõsiasja, et kui arvutame t-statistikut, siis meil on


andmed n indiviidi kohta, kuid ka teatud piirangud.

t-statistik - t positiivsest kriitilisest väärtusest suuremate väärtuste piirkonda


ja t negatiivsest kriitilisest väärtusest väiksemate väärtuste piirkonda. Kui
valimi alusel saadud t-statistik asub kriitilises piirkonnas, saame H0
kummutada ja kinnitada H1.

● kriitilised väärtused 0,05: t > 1.96 või t < −1.96


● kriitilised väärtused 0,01 olulisuse nivool: t > 2.58 või t < −2.58

t-testi tulemuste esitamine

Seega, t-testi tulemuste põhjal saame olulisuse nivool 0,05 väita, et 2016.
aastal keskmine eluga rahulolu Põhja- ja Lõuna-Eestis erines ( t = 2.33, df =
1384, p = 0.02)

Või: …erines (t-statistiku väärtus 2,33, vabadusastmete arv 1384, olulisuse


tõenäosus 0,02)

Hüpoteeside testimine t-testiga

Jamovis. Analyses => Exploration => Descriptives Statistics: valime lisaks


Mode, Std. Deviation, Skewness, Kurtosis.
Kui asümmeetria- ja järskuskordajad (read Skewness ja Kurtosis) on küllaltki
lähedal nullile, on tegu küllaltki normaaljaotuselähedaste jaotustega.

Kui võrdleme kahe teineteisest sõltumatu kogumi keskmisi (nt naised ja


mehed), siis Independent samples t-test. Kui tabelis veer p on väiksem kui
kehtestatud olulisuse nivoo, siis H0 tuleb kummutada.

Olulisuse nivool 0,05 on kahepoolse hüpoteesi korral t-statistiku kriitilised


piirid -1,96 ja 1,96.

Risttabel, hii-ruut-test

Risttabel - kui palju on muutujate variatsioonis ühist, 2 mõõtmeline. Kui


protsentjaotus leiti indiviidide üldarvu suhtes, siis protsentuaalsete
osakaalude summa beerus näitab veerutunnuse vastava kategooria
protsentuaalset osakaalu kogumis.

Hii-ruut-test - kas on seos või ei ole. Kui on väiksem olulisuse nivoost, saab
kinnitada alternatiivhüpoteesi.

Hii-ruut-statistiku arvutamise sammud

1. nullhüpotees (seost ei ole) ja alternatiivhüpotees (seos on) 2. Jamovis


Analyses => Frequencies => Independent Samples 3. Jaotuse Statistics alt
oleks hea valida ka Phi and Cramer’s V. 4. Seose sisuliseks iseloomustamiseks
võib kasu olla tegeliku ja teoreetilise jaotuse (risttabeli seadetes Cells =>
Expected counts) võrdlusest ja reaprotsentidest (Cells => Percentages =>
Row).

Üldiselt on küll nii, et mida tugevam on seos, seda väiksem on ka olulisuse


tõenäosus, kuid pidagem meeles, et olulisuse tõenäosus sõltub ka valimi
suurusest – suure valimi korral on võimalik ka nõrga seose korral saada väike
olulisuse tõenäosus, mille põhjal kinnitada alternatiivhüpotees.
Vabadusastmete arv - vaatluste arvu ja kitsenduste arvu vahe ehk vabalt
varieeruda saavate väärtuste arv ehk sõltumatute komponentide arv
parameetri arvutamisel.

Crameri V - Crameri V puhul ei ole väga selgeid piire, millise V väärtusega


seost lugeda nõrgaks või mõõdukaks või tugevaks, nagu loengus öeldud,
sõltub see ka uurimisvaldkonnast või isegi konkreetsetest tunnustest. Crameri
V on kokkuvõtlik näitaja, mis on küll kasulik, kuid ei võimalda samas seose
olemust täpsemini lahata.

Korrelatsioonanalüüs

Korrelatsioon - kahe muutuja vaheline seos. Mida madalam on


olulisusväärtus, seda suurema tõenäosusega on muutujad omavahel seotud. 1
- otsene seos, >0,7 - tugev seos, 0,4–0,7 - mõõdukas seos, <0,4 - nõrk seos, 0 -
seos puudub.

Positiivne korrelatsioon - ühe suuruse kasvades teine suurus samuti kasvab.

Negatiivne korrelatsioon - ühe suuruse kasvades teine suurus kahaneb.

Monotoonne seos - ühe tunnuse väärtuse suurenedes teise tunnuse


väärtused suurenevad või vähenevad.

Pearsoni (lineaarne) korrelatsioonikordaja - varieerub -1 ja 1 vahel. Väärtused


-1 ja 1 näitavad täielikku lineaarset seost ehk andmepunktid asetsevad joonisel
täpselt sirgjoonel. Mida suurem on korrelatsioonikordaja absoluutväärtus,
seda tugevam seos. Seose puudumist näitab kordaja väärtus 0. Kordaja
positiivne väärtus näitab kasvavat ehk positiivset seost ja negatiivne
kahanevat ehk negatiivset seost. 0,2-0,3 - nõrk seos; 0,4-0,5 - mõõdukas seos;
üle 0,5 - tugev seos.
Lineaarse eeldused: mõlemad tunnused on mõõdetud arvulisel skaalal,
tunnuste vahel esineb ligilähedaselt lineaarne seos ning tunnuste jaotuses ei
esine erinedeid.

Ainult arvuliste tunnuste puhul.

Spearmani korrelatsioonikordaja - tunnuste tegelike väärtuste asemel


arvutatakse korrelatsioonikordaja väärtuste astakute (väärtuse
järjekorranumber variatsioonireas) põhjal. Mida lähemad on kahe tunnuse
astakud indiviidide lõikes, seda tugevam on korrelatsioon.

Eeldused: erindid ei ole probleem, on võimalik arvutada korrelatsioon


järjestustunnuste vahel, seos tunnuste vahel ei pea olema lineaarne aga peab
olema monotoonne.

Kategoriaalsete tunnuste puhul ja teoorias võib ka arvuliste tunnuste puhul.

Tunnuste kovariatsioon ehk ühismuutuvus ehk koosmuutuvus ehk


koosvarieeruvus ehk kooshajuvus - ühe tunnuse väärtuse muutudes
muutuvad teise tunnuse väärtused teatud suunas.

Korrelatsioonimaatriks - Juhul kui esitatavaid korrelatsioonikordajaid on


rohkem, võib need koondada korrelatsioonimaatriksisse.

Hüpoteesipaari testimine korrelatsioonanalüüsis

H0. et seos puudub. H1, et seos esineb. Kui andmete põhjal saadud t
absoluutväärtus on suurem t kriitilisest väärtusest saame H1 kinnitada.
Suure valimi puhul ilmneb statistiliselt olulisena ka juba väga nõrk
korrelatsioonseos. Tuleb teha vahet statistilise olulisuse ja sisulise olulisuse
vahel.

Excelis hajuvusdiagramm. Märgistad mõlema tunnuse andmehulgad ning


valid tabelitest scatter. Saab vaadata kas kasvav või kahanev seos.

Jamovis. Analyses => Regression => Correlation Matrix. Jaotuses Plot sisse
lülitada kõik valikud.

Tõenäosuslikud ja mittetõenäosuslikud valimid, andmete


täpsuse hindamine

Millele peaks küsitlusuuringu andmete puhul tähelepanu pöörama:

- Kuidas andmed on saadud tekkinud.


- Milline on uuringu ja andmete kogumise metoodika.
- Millal ja kuidas uuring läbi viidi
- Keda küsitleti
- Kuidas nad välja valiti
- Kes rahastas uuringut
- Milliseid küsimusi küsiti

Kui uuringu korraldada ei oska anda selgeid vastuseid olulistele küsimustele


või ajab kesksete mõistete kohta segast, siis pigem hoida nendest
andmetest eemale.

Sihtpopulatsioon - kogum, millest võetakse uuringu valim ja millele saab


uuringu tulemusi üldistada. Hästi oluline, sest kui sihtpopulatsioon pole
defineeritud või on segane ei saa ka andmetest korrektseid järeldusi teha.
Tõenäosuslik valim - lihtne juhuvalim, kihtvalim, klastervalim. Saadud näitaja
ei pruugi olla täpselt sama, mis populatsioonis, aga on võimalik hinnata selle
täpsust, näiteks usaldusvahemikuga.

Mittetõenäosuslik valim - lumepallivalim, kvootvalim, ekspertvalim. Üldiselt


odavam, aga ei ole teada valiku tõenäosust populatsiooni kohta, ei ole
võimalik täpselt hinnata andmete esinduslikkust, ei ole võimalik hinnata
andmete üldistatavust, ei ole võimalik öelda, kas valimi eripära või päriselt
populatsioonis. Tulemused kehtivad rangelt ainult valimi kohta.

Andmete kaalumine - andmete kaalumine võimaldab muuta tulemused


sihtpopulatsiooni suhtes esinduslikumad. Näiteks mehi populatsioonis 45%,
andmetes 40% saavad kaalu 0.45/0.4=1.125. Kaalumisjärgselt saab andmete
esinduslikkust kindlalt väita vaid tunnuste kohta, mis on kaalude arvutamise
aluseks. Kaalumine eeldab, et sihtpopulatsioon on täpselt defineeritud, teame
oluliste tunnuste jaotusi sihtpopulatsioonis ning andmekogumine on olnud
kvaliteetne.

Andmete esinduslikkus - kui tõenäosuslik valim, siis mida rohkem vastajaid


seda täpsemad analüüsitulemused on. Tõenäosuslik valim üldiselt peaks
olema esinduslik.

Andmete täpsus - tõenäosusliku valimi puhul saab usaldusvahemiku ja


usalduspiiridega teada.

Osakaalu usalduspiiride / veapiiri arvutamine

Kõigepealt vaja standardviga. Osakaalu usalduspiirides kasutatakse


standardiseeritud normaaljaotuse arvu, mis usaldusnivool 90% on 1,64, 95%
1,96 ja 99% 2,58.
50% on protsentnäitaja, mille usalduspiire otsime ja 1.58% on standardviga.

Osakaalu maksimaalne veapiir - veapiir on suurus, mille usalduspiiride


leidmiseks lahutame või liidame protsentnäitajale. Mida lähemal on osakaal
50%-le, seda suurem on veapiir ja seda laiem on usaldusvahemik.

maksimaalne veapiir ehk margin of error (mep).

Valimimahu arvutamine - Valimimaht näitab, kui suurt valimit on piisava


täpsusega andmete saamiseks vaja. Aluseks võetakse maksimaalne veapiir.

Väikese valimi andmete analüüs - saab leida korrigeeritud vastajate arvu


ehk finite population correctioni, mis võtab arvesse sihtpopilatsiooni suurust.

Suurandmed

Suurandmed - andmed, mida ei saa käsitleda traditsiooniliste


analüüsivahenditega. Andmed, mis tulevad sisse peaaegu reaalajas.
Keerulised andmed (meedia, struktureerimata tekst, logid).

Suurandmete eelised - andmete kvaliteet ja täpsus, varieeruvus ehk andmed


muutuvad ajas. Palju andmeid, isetekkelised, odavad. Võimalik uurida
käitumist, kasutada erinevaid andmetöötlusmeetodeid ja tuvastada
korratusest korda.
Suurandmete puudused - piiratud andmed, pole võimalik kõike uurida,
taustatunnused puuduvad, sisuliste seoste uurimine keerukam, tihti võimalik
analüüsida kirjeldavalt, aga mitte põhjuslikkust.

Andmete visualiseerimine

Visuaalsed elemendid - punkt, joon, pind.

Visuaalsed parameetrid - suurus, värv, asukoht.


Praktikum: korrelatsioon, hajuvusdiagramm

Harjutus 8.1. Palun uurige Excelis hajuvusdiagrammi põhjal, milline võiks olla
seos riigi SKP (osjujõu pariteedi põhjal elaniku kohta) ja tervishoiukukutuste
vahel (% SKPst). Andmestik on Jamovis on küll võimalik hajuvusdiagrammi
koostada, aga ilma lisandmoodulite installeerimiseta ei pruugi head tulemust
saada ning joonist korralikult vormindada ei saa, seega võiks ülesande teha
Excelis. Andmed on praktikumi Exceli andmefailis lehel Riigid.

Hajuvusdiagrammi koostamine: märgistada Excelis mõlema tunnuse


andmehulgad (koos tunnuste nimede ehk esimese reaga või ilma, sisulist
vahet pole), klikkida Insert => Scatter.

Tulemus:
Antud joonist korrektselt esitades tuleks lisada telgede nimed (Design => Add
Chart Element => Axis Titles), x-telje väärtustelt eemaldada komakohad
(topeltklõps skaala väärtustel, avaneb menüü paremal servas, seal valida
ikoon ja alajaotus Number ja Decimal Places väärtuseks sisestada 0),
eemaldada joonise pealkiri ja lisada allkiri. Joonisel ruumi paremaks
kasutamiseks võiks muuta skaalade piire, nt y-teljel viiest 12-ni ja x-teljel
10000-st 50000-ni.

Kui on soov lisada joonisele ka riikide nimed, siis saab seda teha Design =>
Add Chart Element => Data Labels => More Data Label Options. Ekraani
paremas servas avaneb menüü, kust jällegi tuleks valida ikooni alt alajaotus
Label Options ja teha linnuke kasti Value From Cells. Avanevas väikses aknas
klikkida lahtri lõpus olevat sinist punase noolega kastikest, märgistada
andmetabelis riikide tähiste lahtrid (veerus A) ja klikkide uuesti aknakeses
sama kastikest ja vajutada OK. Kui kasti Value From Cells linnukest tehes uut
aknakest ei avane, vajutada Value From Cells järel olevat nuppu Select Range.
Lõpuks eemaldada parempoolses menüüs linnuke kastist Y Value. Riikide
nimed kipuvad kattuma, kuna andmepunktid on joonisel tihedalt, aga riikide
nimesid on ka võimalik ükshaaval natuke liigutada, et kattuvust vähendada.

Lõplik joonis:

Joonis 1. Kulutused tervishoiule (% SKP-st) ja sisemajanuse kogutoodang (PPS


ehk ostujõu standard elaniku kohta) riigiti 2014. aastal (andmed: Euroopa
Sotsiaaluuringu mitmetasandiliste andmete andmebaas).

Jooniselt on näha, et tunnuste vahel on kasvav seos (ühe tunnuse väärtuste


kasvades kasvavad ka teise tunnuse väärtused), seos ei paista olevat päris
lineaarne, vaid sirge asemel kirjeldaks seda paremini teatud kõver. Lineaarse
ehk Pearsoni korrelatsioonikordaja oleks seetõttu siinkohal kindlam valik
arvutada Spearmani korrelatsioonikordaja.
Harjutus 8.2. Palun uurige hajuvusdiagrammi põhjal, milline seos võiks olla
riigi sissetulekute ebavõrdsuse (Gini indeks, arvutatud skaalal 0-100,
kõrgemad väärtused näitavad suuremat ebavõrdsust sissetulekutes) ja
pikaajalise töötuse vahel (pikaajaliste töötute osakaal aktiivsest rahvastikust).
Tehke ka see harjutus Excelis, andmed on samuti praktikumi Exceli
andmefailis lehel Riigid.

Samu võtteid kasutades, mida eelmises harjutuses rakendasime, saaksime


alloleva joonise:

Antud joonisel paistab kahe tunnuse vahel samuti olevat kasvav seos – mida
kõrgem on ebavõrdsuse tase riigis, seda suurem on pikaajaliste töötute
osakaal. Seos näib mõnevõrra lineaarsem kui eelmisel joonisel.

Harjutus 8.3. Palun võtke jamovis lahti .sav laiendiga praktikumi andmestik.
Arvutage tunnus, kus on iga indiviidi kohta viie siseriikliku institutsiooni
usaldamise keskmine, vastavad tunnused on trstprl, trstlgl, trstplc, trstplt ja
trstprt. Uurige hajuvusdiagrammi põhjal, kas arvutatud usalduse
koondtunnuse ja haridusaastate arvu vahel võiks esineda mingi (lineaarne)
seos. Arvutage ka korrelatsioonikordaja ja selle olulisuse tõenäosus.

See ja järgmised ülesanded on lahendatavad ka täielikult Excelis, kuid on seal


palju aeganõudvam.

Koondtunnuse tegemine / keskmise arvutamine:

Data => Compute


Pange tähele, et keskmine arvutatakse ainult nende indiviidide kohta, kellel
on kõigis viies tunnuses valiidne väärtus. See annab täpsema tulemuse,
samas jääb rohkem indiviide analüüsist välja (st koondtunnusesse ei arvutata
keskmist nende indiviidide kohta, kellel on vähemalt ühes tunnuses viiest
andmelünk ehk puuduv väärtus). Nende hulk ei ole küll õnneks väga suur.

Korrelatsioonikordaja arvutamine:

Analyses => Regression => Correlation Matrix

Viime paremale poole tunnused eduyrs ja vastloodud tunnuse trst5. Kui


jamovi annab korrelatsioonimaatriksi tabelis veateate, muutke tunnuse
eduyrs tüübiks arvuline ehk Continuous (topeltklõps andmestikus tunnuse
nimel, valik rippmenüüs Measure Type). Jamovi on vahel tunnusetüüpidega
pirtsakas, seega kui eduyrs tüüp on juba vaikimisi Continuous ja veateade
ilmneb, muutke tunnusetüüp millekski muuks ja siis tagasi Continuouse
peale.

Lisaks võiks jaotuses Plot sisse lülitada kõik valikud.


Korrelatsioonikordaja väärtus on 0,2, seos on statistiliselt oluline ka rangeimal
olulisuse nivool 0,001, kuid seos on pigem nõrk või mõõdukas. Mida lugeda
tugevaks seoseks, sõltub paljuski sellest, mida uurime, siin ei ole konkreetseid
kriteeriume – ka loengus ette antud piiridesse tuleks suhtuda teatud
ettevaatusega. Seose tugevust võib aidata täpsemalt mõtestada nt see, kui
kodeerime haridustee pikkuse tunnuse kategoriaalseks (tunnuse algsed
väärtused nt viide gruppi) ning vaatame haridustee pikkuse kategooriates
usalduse tunnuse keskmisi, kuivõrd need erinevad.

Hajuvusdiagrammilt on raske mingit selget seost välja lugeda. Jamovi esitab


kattuvaid andmepunkte küll mõnevõrra tumedamalt, kuid mitte eriti suure
eristusastmega. Punktiparvest teatud tõusev seos siiski visuaalselt ilmneb,
kuid seose pigem raske hoomatavus annab mõista, et seos ei saa olla tugev.
Sirgjoon punktiparves kirjeldab küll lineaarset seost ning jamovi lisab selle
vaikimisi, kuid sellest ei maksa veel järeldada, et lineaarne seos kirjeldab kahe
tunnuse vahelist seost kõige paremini, oluline on hinnata lineaarse seose
esinemist punktiparve põhjal (sirgjoon lisatakse regressioonimudeli põhjal).
Tihti see ongi keeruline, aga selle hindamisel, kas lineaarse
korrelatsioonikordaja arvutamise eeldus lineaarse seose esinemise näol on
täidetud, on eelkõige oluline, kas mingi muud tüüpi kõver kirjeldaks tunnuste
vahelist seost paremini kui sirgjoon. Kui seda öelda ei saa, võib lineaarse seose
eelduse lineaarse korrelatsioonikordaja arvutamiseks täidetuks lugeda.
Harjutus 8.4. Tehke jamovis ESS 2016 andmete põhjal korrelatsioonimaatriks
usalduse tunnustega (kui palju usaldatakse parlamenti, õigussüsteemi,
politseid, poliitikuid, poliitilisi parteisid, Euroopa Parlamenti ja ÜRO-d). Kas
kõrge usaldus ühe institutsiooni vastu tähendab reeglina kõrgemat usaldust
ka teiste institutsioonide vastu? Kas madal usaldus ühe institutsiooni vastu
tähendab reeglina madalamat usaldust ka teiste institutsioonide vastu? Mis
tüüpi on tunnused? Millist korrelatsioonikordajat oleks sobiv nende tunnuste
puhul kasutada?

Tunnused on mõõdetud skaalal, mida saab käsitleda arvulisena (täpsemalt on


tegu täisarvuliste ehk diskreetsete arvuliste tunnustega), seega vähemalt selle
omaduse põhjal saaksime arvutada lineaarse korrelatsioonikordaja. Selleks
veendumiseks oleks hea teha ka tunnustevahelised hajuvusdiagrammid, et
veenduda, et kui tunnuste vahel seos esineb, siis on see tõesti enam-vähem
lineaarne, nii et lineaarse korrelatsioonikordajaga saaksime adekvaatselt
hinnata tunnustevaheliste seoste tugevust. Jätame praegu küll selle etapi
vahele ja keskendume sellele, kuidas jamovis koostada korreltsioonimaatriksit
mitme tunnuse kohta.

Analyses => Regression => Correlation Matrix


Loodud tabelis on iga tunnuspaari kohta ära toodud korrelatsioonikordaja ja
selle olulisuse tõenäosus. Lisaks on statistiliselt oluliste tulemuste
esiletoomiseks sisse lülitatud nupp Flag significant correlations, mis lisab
korrelatsioonikordaja juurde tärnid vastavalt olulisuse nivoole, millel antud
korrelatsioonikordaja on statistiliselt oluline. Antud juhul see küll palju midagi
juurde ei anna, sest kõik seosed on olulisuse nivool 0,001 statistiliselt olulised.
Näeme, et kõik korrelatsioonikordajad on positiivsed, st mida rohkem
usaldatakse üht institutsiooni, seda rohkem reeglina ka teist. Kõige madalam
korrelatsioon on politsei usaldamise ja ÜRO usaldamise vahel, 0,391, mida
saab siiski lugeda mõõdukaks korrelatsiooniks.

Harjutus 8.5 Selgitage välja, kas ja kuidas on meediatarbimine (täpsemalt,


päevakajaliste ja poliitikauudiste jälgimisele kulutatud aeg minutites, tunnus
nwspol) seotud inimeste hinnangutega oma tervislikule seisundile (tunnus
health). Mis tegurid võivad selle seose taga olla? Arvutage ka
korrelatsioonikordaja usaldusvahemik usaldusnivool 95%. Mida saate selle
usaldusvahemiku põhjal öelda? Mis tüüpi on tunnused? Millist
korrelatsioonikordajat oleks sobiv nende tunnuste puhul kasutada?

Tervisliku seisundi enesehinnangu tunnus on järjestustunnus, mitte arvuline,


seetõttu tuleks siin kasutada Spearmani korrelatsioonikordajat. Selleks ei ole
meil vaja tunnuste astakuid eraldi arvutada, seda teeb jamovi kulisside taga.

Analyses => Regression => Correlation Matrix

Kuna hinnang oma tervisele on järjestustunnus, tuleks arvutada Spearmani


korrelatsioonikordaja. Kui jamovi seda teha ei lase, seadistage mõlemate
tunnuste tüübiks Continuous (kui see on tehtud, võib tunnused jälle
määratleda järjestustunnustena (Ordinal)).
Spearmani korrelatsioonikordaja väärtus küll ei erine antud juhul kuigivõrd
Pearsoni korrelatsioonikordajast, aga kindlam on raporteerida Spearmani
oma (kas või selleks, et vähendada lugeja võimalikku kriitikat). Seos on nõrk
või mõõdukas ja positiivne (sest korrelatsioonikordaja märk on positiivne).
Intuitiivne järeldus sellest oleks, et kõrgem hinnang oma tervisele tähendab
enamasti ka suuremat meediatarbimist, aga tähele tuleb panna, kuidas
tunnused on kodeeritud. Antud juhul tervisehinnangu tunnuses tähistavad
väiksemad väärtused paremat tervist (seda näeme, tehes andmestikus päises
topeltklõpsu tunnuse nimele, ülal avaneb tunnuse menüü, kust on näha
tunnuse väärtused). See tähendab, et sisuline seos kahe näitaja vahel on
selline, et mida kehvem on vastaja tervis, seda rohkem aega ta uudiste
jälgimisele kulutab. Seega, tunnuste vahel tuimalt korrelatsioonikordajaid
arvutada ei ole hea mõte, eelnevalt tuleks ka tutvuda, mis on tunnuste sisu ja
millised on tunnuste väärtused. Et korrelatsioonikordaja oleks informatiivne
ka lugeja jaoks, kes ise andmeid peensusteni ei tunne, oleks antud juhul
mõttekas enne korrelatsioonikordaja arvutamist tervisehinnangu tunnuse
skaala ümber pöörata (5 => 1, 4 => 2 jne). Sellisel juhul tuleks siiski analüüsi
kirjeldamisel see nüanss (et tunnuse skaala on võrreldes algse ankeedi ja
andmestikuga ümber pööratud) samuti välja tuua, nagu ikka igasuguste
ümberkodeerimiste puhul.

Mingit põhjusliku seose esinemist tunnuste vahel väita oleks tõenäoliselt


meelevaldne (nt tervise paranemine ei pane meid ju rohkem uudiseid
jälgima, samuti ei ole erilist põhjust arvata, et ainuüksi uudiste jälgimisele
rohkema aja kulutamine kuidagi meie tervist parandaks). Kui analüüsida
andmeid täpsemalt ja vaadata mõlema tunnuse korreleerumist vanusega, siis
tuleb välja, et uudiste jälgimisele kuluv aeg on kasvavas seoses vanusega ja
teisalt vanuse kasvades reeglina tervis kehveneb.

Igaks juhuks võiks kontrollida (kas või tagantjärele) ka hajuvusdiagrammi, kas


kahe tunnuse vaheline seos on vähemalt monotoonne.

Nagu näha, järjestustunnuse või üldse mis tahes tunnuse puhul, kus
eristuvaid väärtuseid on vähe, ei ole hajuvusdiagramm kuigi informatiivne (ka
ei ole järjestustunnuse puhul päris korrektne, et joonisele on lisatud lineaarset
seost kirjeldav regressioonijoon, sest see eeldaks, et tunnused on arvulised –
jamovi lisab joone automaatselt, teadmata, et üks tunnus ei ole tegelikult
mõõdetud arvulisel skaalal, ka ei oska jamovi ise hinnata, kas tunnustevahelist
seost saaks kirjeldada lineaarsena või mitte). Antud juhul on siiski näha
vähemalt seda, et enamik indiviidide jälgib uudiseid päevas alla kolme tunni.
Kui arvutaksime lineaarse korrelatsioonikordaja, siis selle väärtust mõjutaksid
enam üksikud indiviidid, kes kulutavad enamikust oluliselt rohkem aega
päevas uudiste jälgimisele. Ka siit ilmneb, et kindlam oleks antud juhul
korrelatsiooni arvutamisel vaadata Spearmani korrelatsioonikordajat. Antud
juhul Spearmani korrelatsioonikordaja väärtus küll peaaegu et ei erine
lineaarsest korrelatsioonikordajast, kuid ette seda kunagi ei tea.
Praktikum 7: risttabelid ja seosekordajad

Harjutusülesanne 1. Kas esineb seos haridustaseme ja suhtumise vahel, et


töökohtade nappuse korral peaks meestel olema eelisõigus tööd saada?
Sõnastage null- ja alternatiivhüpotees ning testige hüpoteesipaari olulisuse
nivool 0,05. Kui seos esineb, püüdke seda ka sisuliselt iseloomustada (kuidas
mingi haridustaseme esindajad oma suhtumise poolest üldiselt erinevad).

Üks võimalus seose olemasolu ja tugevuse hindamiseks on teha hii-ruut-test.


Sõnastame kõigepealt null- ja alternatiivhüpoteesi.

H0: haridustaseme ja suhtumise, et töökohtade nappuse korral peaks meestel


olema eelisõigus tööd saada, vahel seos puudub.

H1: haridustase ja suhtumine, et töökohtade nappuse korral peaks meestel


olema eelisõigus tööd saada, on omavahel seotud.

Oleme tegelikult jamovis hii-ruut-testi teinud ehk hii-ruut-statistikut


arvutanud, sest see käib risttabeliga koos, aga pole seda varem uurinud ega
tõlgendanud. Seega tehniliselt ei ole jamovis peaaegu midagi uut, küll aga
sisuliselt.

Risttabeli ja hii-ruut-statistiku saamiseks valime jamovis

Analyses => Frequencies => Independent Samples

Rows: haridus

Columns: mnrgtjb

Saame risttabeli, selle all on vaikeseadena hii-ruut-testi tulemus. Valime


jaotuse Statistics alt ka Phi and Cramer’s V.
Näeme, et hii-ruut-statistiku väärtus on 87,5, vabadusastmete arvu 12 juures
on olulisuse tõenäosus alla 0,001, seega saame olulisuse nivool 0,05 järeldada,
et haridustaseme ja suhtumise vahel, et meestel peaks töökohtade nappuse
korral olema eelisõigus tööd saada, esineb ka populatsioonis (st Eesti
rahvastikus vanuses 15+ aastat – see on Euroopa Sotsiaaluuringu Eesti
andmete sihtpopulatsioon). Näeme ka, et oleksime saanud H1 kinnitada ka
palju rangemal olulisuse nivool, nt 0,01 või 0,001.

Saime küll teada, et seos kahe tunnuse vahel on statistiliselt oluline, st saame
öelda, et seos esineb ka populatsioonis, kuid püüame anda mingi hinnagu ka
seose tugevusele. See on sisulises mõttes vajalik, sest vabalt võib olla nii, et
seos on statistiliselt oluline, st on alust öelda, et seos esineb populatsioonis,
kuid seos on küllaltki nõrk. Üldiselt on küll nii, et mida tugevam on seos, seda
väiksem on ka olulisuse tõenäosus, kuid pidagem meeles, et olulisuse
tõenäosus sõltub ka valimi suurusest – suure valimi korral on võimalik ka
nõrga seose korral saada väike olulisuse tõenäosus, mille põhjal kinnitada
alternatiivhüpotees. See ei tähenda sisulist vastuolu, taolisel juhul oleme
lihtsalt oma andmete pealt tuvastanud populatsioonis esineva nõrga seose.

Seega, oluline on ka seose tugevust hinnata, mida võimaldabki lihtsamini


Crameri V. Crameri V puhul ei ole väga selgeid piire, millise V väärtusega seost
lugeda nõrgaks või mõõdukaks või tugevaks, nagu loengus öeldud, sõltub see
ka uurimisvaldkonnast või isegi konkreetsetest tunnustest. Seetõttu ei näita
Crameri V n-ö lõplikku tõde seose tugevuse kohta. Crameri V väärtust 0,12
võiks tõlgendada nõrga seosena, kuid seosetugevuse hindamiseks tuleks
uurida ka Crameri V aluseks olevat risttabelit.

Crameri V on kokkuvõtlik näitaja, mis on küll kasulik, kuid ei võimalda samas


seose olemust täpsemini lahata. Võib olla, et nt kutsehariduse ja
üldkeskharidusega vastajate seas ei erine suhtumise tunnuse jaotused
jaotusest kogu valimis (st veerutunnuse marginaaljaotusest) ja põhiline
erinevus, mis panustab üldisesse seosesse kahe tunnuse vahel, tuleneb põhi-
ja kõrgharidusega vastajate suhtumise jaotuste erinevusest. Sellest võib anda
aimu teoreetiline jaotus. Jamovi seda vaikeseadena ei esita, saame selle ise
seadistada jaotusest Cells => Expected counts.

Kahjuks ei arvuta jamovi liht- ega standardiseeritud ruutjääke, mille alusel


oleks tegeliku ja teoreetilise jaotuse erinevuse hindamine lihtsam. Üldiselt
võib ehk siiski märgata eelkirjeldatud mustrit, et suurim jaotuste lahknevus
on kõige madalama ja kõige kõrgema haridustasemega vastajate seas, mis
on ka loomulik. Lähema sisulise võrdluse jaoks võiks sisse lülitada
reaprotsendid (Cells => Percentages => Row), tegeliku ja teoreetilise jaotuse
sagedused võiks samas välja lülitada, et tabel liiga kirjuks ei läheks.

Ka siit on näha, et üsna sarnased on omavahel kutse- ja üldkeskharidusega


vastajate arvamuste jaotused, erinedes rohkem ainult nende osakaalu
poolest, kes esitatud väitega üldse ei nõustu. See selgitab ka päris madalat
Crameri V väärtust (0,12). Samas veerutunnuse marginaaljaotusest (tabeli
alumises reas toodud protsentjaotusest) erinevad rohkem kõrg- ja
põhiharidusega vastajate arvamuste jaotused, sealjuures vastanduvad need
teineteisele enim. Kõrgharidusega vastajate hulgas on väiksem väitega
nõustujate ja neutraalsel seisukohal olijate osakaal ning suurem üldse mitte
nõustujate osakaal, samas põhihariduse või madalama haridusega vastajate
hulgas on märkimisväärselt suurem nõustujate ja ka neutraalsel positsioonil
olijate osakaal, oluliselt väiksem on (üldse) mitte nõustujate osakaal. Seega
seose tugevust hinnates näeme, et kogu tabeli peale tervikuna ei pruugi seos
tõesti tugev olla, kuid konkreetsemalt teatud haridustaseme kategooriates on
väitega nõustmise jaotustes märkimisväärsed erinevused, mis on sisuliselt
olulised. Siit tuleb ka välja tõsiasi, et Crameri V võib sisuliselt oluliste detailide
märkamiseks jääda liiga üldiseks.
Siinkohal oleks paras hetk käsitleda ka andmete kaalumist, sest kui üldiselt
jamovis kahjuks andmete kaalumist pole võimalik teha, siis risttabeli ja selle
alusel arvutatava hii-ruut-statistiku puhul on see võimalik. Andmete
kaalumiseks nimetatakse seda, kui me omistame mingitele indiviididele
analüüsis suurema, mingitele väiksema kaalu. See võib olla vajalik nt juhul, kui
hoolimata populatsioonist juhuvalimi võtmisest on küsitlusega saadud
andmetes mingid indiviidide grupid ala- või üleesindatud. Taoline olukord
võib tekkida nt selle tõttu, et osades gruppides (nt nooremate meeste seas,
nagu enamasti küsitlustes juhtub) on vastamismäär madalam kui teistes.
Selle tõttu võib kannatada küsitlusega saadavate andmete esinduslikkus ehk
andmestikus olevate tunnuste jaotused ja tunnuste alusel arvutatavad
parameetrid võivad erineda nende tegelikest väärtustest populatsioonis
rohkem kui see oleks ainult valimi juhuslikkusest tulenevalt. Andmete
kaalumine võib seda esinduslikkuse kadu vähendada ehk muuta meie valimi
andmed (täpsemalt, nende alusel arvutatavad jaotused ja parameetrid)
populatsiooni suhtes esinduslikumaks.

Andmete kaalumiseks peab andmetes esinema n-ö kaalu tunnus, kus igal
indiviidil on kaalumiseks vajalik väärtus. Nendel indiviididel, kes kuuluvad
mingisse andmetes alaesindatud gruppi, on kaalu tunnuses ühest suurem
väärtus ja seetõttu saavad nemad analüüsis n-ö suurema kaalu – nt indiviid,
kellel on kaalu tunnuses väärtus 1,3, esindab analüüsis mitte ühte indiviidi,
vaid 1,3 indiviidi. Sisuliselt võib see tunduda imelik, sest 1,3 indiviidi on justkui
sama võimatu kui see, et kellelgi on 2,45 last, aga andmeanalüüsi tehes ei
analüüsigi me ainult ühte indiviidi, vaid teeme järeldusi indiviidide kogumi(te)
kohta. Analoogselt on nendel indiviididel, kes esindavad mingit andmetes
üleesindatud gruppi, kaalu tunnuses ühest väiksem väärtus ja seetõttu
saavad nemad analüüsis väiksema kaalu. Eesmärk on saada valim samadesse
proportsioonidesse nagu populatsioonis, nt kui populatsioonis on 55% naisi ja
45% mehi, aga kogutud küsitlusandmetes nt 60% naisi ja 40% mehi, siis
omistatakse naistele ühest väiksem kaal ja meestele suurem kaal, nõnda et
kokku oleks sooline jaotus valimiandmetes sama, mis populatsioonis (55%
naisi, 45% mehi). Muidugi ei võeta kaalu tunnuse arvutamisel arvesse ainult
sugu, vaid ka teisi tunnuseid (tavaliselt sotsiaaldemograafilisi tunnuseid nagu
elukoht, rahvus jms).

Jamovis saame risttabeli koostamisel andmed kaaluda, asetades kaalu


tunnuse väljale Counts (optional). ESS-i andmestikes on reeglina kolm
kaalutunnust: disainikaal (dweight), järelkihistamiskaal (pspwght, sisaldab
endas ka disainikaalu) ja populatsioonikaal (pweight). Nende erinevustesse
lähemalt laskumata ütlen ära, et reeglina on analüüsil mõttekas kasutada
kaalumiseks järelkihistamiskaalu tunnust. Asetame tunnuse pspwght väljale
Counts (optional).

Antud juhul risttabelis ega muudes näitajates muutusi praktiliselt ei ole – nt


hii-ruut-statistik kahanes ainult 2,1 võrra 87,5-lt 85,4-le. Nii võibki olla, et
andmete kaalumine ei pruugi analüüsitulemust muuta, aga see ei pruugi
alati, st teiste tunnuste puhul nii olla – võib esineda juhtumeid, kus nt
kaalumata andmetega te statistiliselt olulist seost ei leia, kuid kaalutud
andmete põhjal see ilmneb. Põhjus on siis ilmselt selles, et seos esineb
(tugevamalt) just mingite rühmade seas, kes on valimiandmetes mingitel
põhjustel alaesindatud. Kuivõrd kaalumine tulemust mõjutab, sõltub eelkõige
sellest, kui kvaliteetsete andmetega on tegu. ESS-i Eesti andmete (vähemalt
viimaste küsitluslainete andmete) puhul kaalumine tihtilugu märkimisväärset
efekti ei omagi, sest kogutud andmed esindavad uuringu sihtpopulatsiooni
juba niigi üsna hästi.

Andmete kaalumisega on üldiselt nii, et kui seda on võimalik teha (kaalu


tunnus on andmetes olemas ja kasutatav analüüsiprogramm võimaldab
andmeid kaaluda), võiks andmeid kaaluda. Tasulised
andmeanalüüsiprogrammid (nt SPSS, Stata, SAS) seda üldjuhul võimaldavad,
tasuta ehk vabavaralistest programmidest võimaldab seda kõigi
andmeanalüüsimeetodite puhul minu teada ainult SPSSi tasuta analoog
PSPP. Jamovis on kaalumine võimalik ainult osade (st väheste)
analüüsimeetodite puhul nagu risttabel ja hii-ruut-test, seega kui kasutate
jamovis samas analüüsis erinevaid analüüsimeetodeid, millest kõik kaalumist
ei võimalda, võib olla tulemuste võrreldavuse suhtes mõttekam kaalusid mitte
kasutada. Kuigi kaalumine võib ESS-i Eesti andmete puhul analüüsitulemust
natuke täpsemaks muuta, ei eelda ma, et jamovis ESS-i Eesti andmete
analüüsimisel kaale kasutaksite. Küll on oluline teada, mida kaalud teevad ja
vajadusel osata neid kasutada. Kuidas täpsemalt kaale arvutatakse, milles
seisnevad erinevate kaalutunnuste erinevused, millal on andmete
kaalumisest kasu ja mis juhtudel võib see andmete esinduslikkust hoopis
vähendada, sellega saab tutvuda ainekursuses Andmepädevus (SVUH.00.059,
6EAP), mis on alates sügisest 2023 valikainena võetav ka ajakirjanduse ja
kommunikatsiooni õppekaval.

Harjutusülesanne 2. Kas linnas ja maal elavad inimesed suhtuvad


sotsiaaltoetustesse erinevalt või sarnaselt? Andmestikus on kuus tunnust, mis
sisaldavad hinnanguid sotsiaaltoetuste mõjule, valige neist vähemalt kolm.

Kas saame väita seoste esinemist ka laiemalt elanikkonna seas, st


populatsioonis?

Kas seosed on pigem nõrgad, mõõdukad või tugevad? Kas seosetugevused


erinevad?

Kui seos on olemas, püüdke ka risttabelite põhjal leida, kus linna- ja


maainimeste hinnangud enim lahknevad, st millistes sotsiaaltoetuste
hinnangu tunnuse kategooriates on erinevused linna- ja maainimeste
hinnangutes suurimad.
Risttabeli ja hii-ruut-statistiku saamiseks valime jamovis

Analyses => Frequencies => Independent Samples

Rows: elukoht

Columns: sbstrec (esimene kuuest tunnusest, mis mõõdavad hinnanguid


sotsiaaltoetuste mõjule)

Counts (optional): pspwght (andmeid võiks ka kaaluda, sel juhul tuleks antud
väljale asetada järelkihistamiskaalu tunnus pspwght)

Saame risttabeli, selle all on vaikeseadena hii-ruut-testi tulemus. Valime


jaotuse Statistics alt ka Phi and Cramer’s V.

Seose sisuliseks tõlgendamiseks võiks risttabelis seadistada indiviidide arvude


asemele reaprotsendid (Cells => Percentages => Row), et uurida väitega
nõustumise jaotust elukoha lõikes. Enne seda võiks kontrollida ka
hii-ruut-testi eelduste täidetust, lülitades hetkeks sisse teoreetilise ühisjaotuse
(Cells => Counts => Expected counts). Kõigi kuue risttabeli puhul peaks
ilmnema, et hii-ruut-testi eeldused on täidetud (kõigi teoreetiliste jaotuste
kõik lahtrisagedused on ühest suuremad, ka on kõigi tabelite puhul 80%
lahtrites sagedused üle viie).

Tunnuste elukoht ja sbstrec puhul peaksite nägema taolist pilti:

Risttabelite koostamiseks elukoha ja teiste sotsiaaltoetuste mõju puudutavate


tunnustega oleks mõttekas teha saadud tabelil parem hiireklikk ja avanevast
hüpikmenüüst valida Analysis => Duplicate. Saate samasugused tabelid, kus
seadetes on lihtne veerutunnuseks panna sbstrec asemel mingi muu tunnus,
näiteks sbprvpv (vastavat risttabelit on ka eelmiselt kuvatõmmiselt juba
näha).
Kas saame väita seoste esinemist ka populatsioonis, st laiemalt elanikkonna
seas? Näiteks olulisuse nivool 0,01 saame kinnitada seose esinemist kolme
tunnuspaari puhul (sest hii-ruut-statistiku olulisuse tõenäosus on väiksem
seatud olulisuse nivoost), st et elukohaga on seotud hinnangud väidetele, et

• sotsiaaltoetused koormavad liiga palju majandust (χ2 = 23,9, df = 4, p <


0,001)

• sotsiaaltoetused hoiavad ära vaesuse laialdast levikut (χ2 = 19, df = 4, p <


0,001), ja

• sotsiaaltoetused muudavad inimesed laisaks (χ2 = 35,8, df = 4, p < 0,001).

Siin ja edaspidi esitatud näitajad on arvutatud kaalutud andmete pealt (st


arvestades kaalutunnust pspwght).

Olulisuse nivool 0,01 ei saa seose esinemist väita elukoha ja hinnangute vahel,
et

• sotsiaaltoetused muudavad ühiskonna võrdsemaks (χ2 = 9,74, df = 4, p =


0,045),

• sotsiaaltoetused lähevad ettevõtlusele maksude ja lõivude läbi liiga


palju maksma (χ2 = 2,67, df = 4, p = 0,614), ja

• sotsiaaltoetused vähendavad inimeste valmidust üksteise eest


hoolitseda (χ2 = 13,3, df = 4, p = 0,01).

Kahe eelnimetatud seose puhul oleks võimalik küll seose esinemist


populatsioonis väita olulisuse nivool 0,05, kuid ühel juhul oleks niikuinii tegu
päris piiripealse otsusega.
Kas seosed on pigem nõrgad, mõõdukad või tugevad? Kas seosetugevused
erinevad? Seose tugevust pole eriti mõtet hinnata neil juhtudel, kus olulisuse
tõenäosus on väiksem seatud olulisuse nivoost, sest nendel juhtudel ei saa
me väita, et seos esineb populatsioonis, seega igasugused edasised
tõlgendused (kaasa arvatud hinnang seose tugevusele) saavad kehtida ainult
valimile. Enamasti ei huvitav meid see, mida on öelnud tuhat või paar tuhat
vastajat, vaid see, mida me saame öelda populatsiooni kohta laiemalt (antud
juhul Eesti elanike arvamuste kohta).

Kõigi kolme (olulisuse nivool 0,01) statistiliselt olulise seose puhul jääb Crameri
V 0,1 piirimaile, kõrgeim Crameri V väärtus esineb seose puhul, kus
uuritavateks tunnuseks on elukoht ja hinnang sellele, et sotsiaaltoetused
muudavad inimesed laisaks (V = 0,13). Crameri V järgi võiks öelda, et seosed on
pigem nõrgad. Tõepoolest, tugevaima seose puhul on erinevused maa- ja
linnaelanike hinnangute jaotustes nõustujate ja mittenõustujate vahel umbes
10% – sisuliselt võttes võib see olla märkimisväärne erinevus, aga arvestada
tuleb ka sellega, et tegu on valimiandmetega ja populatsioonis võib erinevus
olla mõnevõrra veelgi väiksem (võib muidugi olla ka suurem, täpselt me seda
ei tea). Mis on sisulises mõttes oluline või märkimisväärne või tugev või
mõõdukas või nõrk seos, see on subjektiivne otsus ja sõltub andmete
analüüsija enda ainealastest teadmistest ja hinnangust.

Seoste puhul, kus olulisuse tõenäosus ei olnud väiksem kui 0,01, aga oli siiski
väiksem kui 0,05, võib näha, et Crameri V on veelgi väiksem ja erinevused
maa- ja linnaelanike hinnangute jaotustes veelgi väiksemad. See viitab ka
tõsiasjale, et tulemus p < 0,05 ei pruugi veel sisuliselt olulist tulemust
tähendada (väga suure indiviidide arvu korral ei pruugi seda muidugi
tähendada ka tulemus p < 0,01). Nii või teisiti tuleb tulemuste sisulist olulisust
(st kas seos esineb ka sisulises mõttes, kas on mõtet seose esinemisele rajada
ka sisulisi järeldusi) hinnata eraldi statistilisest olulisusest.

Kus linna- ja maainimeste hinnangud enim lahknevad? Tõlgendust võiks


alustada sellest, et hinnangutes kaldutakse üldiselt sotsiaaltoetuste mõju
positiivsemaks pidama. Sisulises plaanis on siin mõned huvitavad erinevused
maa- ja linnaelanike vahel. Linnaelanike seas on mõnevõrra rohkem neid, kes
ei nõustu väitega, et sotsiaaltoetused koormavad majandust (st
linnainimesed näevad selles mõttes sotsiaaltoetusi mõnevõrra positiivsemas
valguses). Sarnaselt võib öelda, et maaelanikud arvavad sagedamini, et
sotsiaaltoetused muudavad inimesed laisaks. Samas, sellest hoolimata
nõustuvad maaelanikud mõnevõrra sagedamini väitega, et sotsiaaltoetused
hoiavad ära vaesuse laialdast levikut.
Praktikum 6 – hüpoteeside testimine, t-test

Eelmises praktikumis uurisime, millist meeste ja naiste üldistatud usalduse


taset populatsioonis saame eeldada, kasutades keskmiste usaldusvahemikke.
Muuhulgas leidsime, et usaldusnivool 95% ei saa eeldada, et meeste ja naiste
keskmine üldistatud usalduse tase ei kattu (ehk need keskmised võivad
populatsioonis olla võrdsed). Võrdleme seekord meeste ja naiste üldistatud
usalduse taset hüpoteeside testimise nurga alt, kasutades t-testi.

Harjutus 1. Leidke Euroopa Sotsiaaluuringu Eesti 2016. aasta andmete põhjal,


kas meeste ja naiste üldistatud usalduse (tunnus ppltrst) aritmeetilise
keskmised populatsioonis erinevad. Sõnastage vastav alternatiiv- ja
nullhüpotees ja testige hüpoteesipaari t-testi abil olulisuse nivool 0,05
(eelnevalt uurige, kas t-testi eeldused on üldse täidetud), sõnastage
järeldused. Uurige jamovis sõltumatute kogumite t-testi seadistuses ka
valikuid Mean Difference ja Confidence Interval – mida need näitajad teile
ütlevad, kuidas neid tõlgendada?

Kui soovime teada, kas mehed ja naised erinevad selle poolest, kuivõrd nad
inimesi üldiselt usaldavad, siis on selleks üks (ja praktikas väga sagedasti
kasutatav) võimalus püstitada vastavad hüpoteesid ja neid kontrollida.
Püstitame hüpoteesid meeste ja naiste keskmise üldistatud usalduse kohta:

H1: meeste ja naiste keskmine üldistatud usaldus on erinev (mm ≠ mn)

H0: meeste ja naiste keskmine üldistatud usaldus ei erine (mm = mn)

Loengus me liit- ja lihthüpoteesi mõistet ei käsitlenud, aga saate selle kohta


täpsemalt Toodingu (2015) õpikust lugeda; antud juhul alternatiivhüpotees H1
on liithüpotees, nullhüpotees H0 lihthüpotees. Liit- ja lihthüpotees pole
maailma kõige olulisemad mõisted, aga hea on neis siiski orienteeruda.
Olulisem on see, kas tegu on kahe- või ühepoolse hüpoteesipaariga (võib
öelda ka kahe- või ühepoolse alternatiivhüpoteesiga, sest reeglina sõltub
kahe- või ühepoolsus just sellest, milline on alternatiivhüpotees). Sellest, kas
tegu on ühe- või kahepoolse hüpoteesiga, sõltub, kuidas seadistada testi
läbiviimine jamovis. Antud juhul on tegu kahepoolse hüpoteesipaariga.

Hüpoteesipaari testimiseks t-testiga oleks hea kõigepealt kontrollida, kas


tunnus, mille keskmist tahame arvutada, on normaaljaotuselähedase
jaotusega mõlemas võrreldavas grupis, st nii meeste kui naiste puhul (nagu
kirjas ka Tooding 2015: 161). Samamoodi kontrollime eeldust, kas arvulise
tunnuse jaotus on meeste ja naiste seas sarnase hajuvusega. Selle jaoks
saame jamovis arvutada jaotusparameetrid nagu seda juba varem oleme
teinud:

• Analyses => Exploration => Descriptives

• Variables: ppltrst

• Split by: gndr

• Statistics: valime lisaks Mode, Std. Deviation, Skewness, Kurtosis

Asümmeetria- ja järskuskordajad (read Skewness ja Kurtosis) on küllaltki


lähedal nullile, nii et tegu on küllaltki normaaljaotuselähedaste jaotustega. Ka
aritmeetiline keskmine ja mediaan skaalal 0-10 on küllaltki lähestikku, mood
erineb natuke rohkem, kuid on skaala keskpunktis. Üldistatud usalduse
standardhälbed on meeste ja naiste puhul väga lähedased, nii et ei teki
küsimust hajuvuse erinevusest. Seega läheme edasi standardse t-testi juurde.
Kõrvalmärkusena: mis on piisavalt suur standardhälvete erinevus, et peaks
t-testi eelduste täidetuse pärast muret tundma? See on jällegi suhteline, mõni
allikas ütleb, et erinevus üle 2 standardhälbe. Erinevatel juhtudel võib see olla
liiga konservatiivne või liiga piirav hinnang, seega kui on kahtlus, võib teha
lisaks Welchi t-testi, jamovis käib see ühe nupulevajutusega.

Kuna võrdleme kahe teineteisest sõltumatu kogumi keskmisi (st meeste ja


naiste keskmisi, need grupid omavahel ei kattu), siis valime menüüribalt
Analyses nupu T-Tests ja Independent samples t-test. Viime tunnuse ppltrst
väljale Dependent Variables ja tunnuse gndr väljale Grouping Variable.
Jaotuse Hypothesis alt on vaikimisi sees esimene valik Group 1 ≠ Group 2, mis
tähendab, et testitakse kahepoolest hüpoteesipaari, mis sobib meie
uurimisküsimuse ja hüpoteesidega. Nende valikutega saamegi juba olulise
kätte, mille alusel saab hüpoteesipaari suhtes otsuse teha.

Et kummutada H0 ja kinnitada H1, peaks t-statistiku väärtus (jamovi


väljundtabelis veerus Statistic) asuma kriitilises piirkonnas. Suure hulga
indiviidide ehk kõrge vabadusastmete arvu korral nagu meie ülesandes (df =
n - 1 = 2016) ja olulisuse nivool 0,05 on kahepoolse hüpoteesi korral t-statistiku
kriitilised piirid -1,96 ja 1,96 (miks just sellised, saad meelde tuletada loengu
põhjal). Tulemustest näeme, et olulisuse nivool 0,05 tuleb H0 kummutada ja
kinnitada H1, sest teststatistiku väärtus -2,12 asub kahepoolse hüpoteesi
kriitilises piirkonnas ehk ei ole kooskõlas nullhüpoteesi eeldusega. Kui
oleksime kasutanud rangemat olulisuse nivood, nt 0,01, oleks kriitiliste piiride
väärtused kaugemal nullist.

Sama järelduseni jõuame olulisuse tõenäosuse põhjal (tabelis veerg p), sest
see on väiksem kui kehtestatud olulisuse nivoo (p < 0,05).

Kui mäletate eelmises praktikumis tehtut, siis tekib kindlasti õigustatud


küsimus, miks jõudsime tookord keskmiste usaldusvahemike põhjal
vastupidisele järeldusele (meeste ja naiste üldistatud usalduse keskmiste
erinevust usaldusnivool 95% ei saa väita) ja miks. Kumb järeldus on siis vale
(sest vastukäivad järeldused justkui samal ajal õiged olla ei saa)? Tegelikult on
mõlemad järeldused omal kohal, sest järelduste loogika on erinev (sedasama
näilist vastuolu käsitleb ka Tooding 2015: 164-165). Eelmise nädala näites
põhines järeldus keskmiste usaldusvahemikel, antud näites põhineb see
keskmiste erinevuse tõepärasuse hinnangul – kui mäletate t-statistiku
valemit, siis see arvutatakse kahe kogumi keskmiste erinevuse põhjal, samas
kui keskmise usaldusvahemik, mida arvutasime eelmine kord, arvutatakse
ühe grupi keskmise põhjal (olenemata sellest, milline on teise grupi
usaldusvahemik). Nii võibki olla, et keskmiste endi usaldusvahemike põhjal
saame konservatiivsema hinnagu keskmiste erinevuse esinemisele
populatsioonis, st teatud juhtudel, kui keskmiste erinevus valimis on väike,
jääb statistiline seos ehk tegelikkuses esinev keskmiste erinevus
populatsioonis valimi keskmiste usaldusvahemike põhjal kinnitamata. Need
on juhud, kus keskmiste usaldusvahemikud etteantud usaldusnivool
kattuvad, aga keskmiste erinevuse (st näitaja mm - mn) usaldusvahemik on
samal usaldusnivool nullist erinev. Keskmiste erinevuse usaldusvahemik on
arvutatud Tooding 2015 näites lk 163 Tabelis 5.2, jamovis saame selle arvutada,
lülitades jaotuse Additional Statistics all sisse Mean difference ja Confidence
Interval, kus vaikimisi on on seadistatud 95% – kui hüpoteeside testimise
aluseks võtsime olulisuse nivoo 0,05, siis peakski siin arvutama keskmiste
erinevuse usaldusvahemiku sama range kriteeriumi järgi ehk usaldusnivool
95%.

Näeme, et keskmiste erinevus on -0,197 palli, sellega koos antakse ka


keskmiste erinevuse standardviga, mille alusel ongi arvutatud keskmiste
erinevuse usaldusvahemik usaldusnivool 95%. Usaldusvahemik ei kata nulli,
see kinnitab samamoodi H1 kehtivust. Usaldusvahemik annab siinkohal
lisainfot – saame väita keskmiste erinevust populatsioonis, kuid usaldusnivool
95% peame arvestama, et see erinevus võib olla nii suur nagu 0,38 palli kui ka
nii väike nagu 0,02 palli.

Erinevaid statistilisi teste on palju, ükski neist ei ole vale (eeldusel, et testi
kasutatakse selleks sobivatel andmetel), aga nagu näha, piiripealsete
tulemuste korral võivad nad (antud juhul keskmiste usaldusvahemike
võrdlemine ja t-test) anda alust erinevateks järeldusteks – kui see juhtub, on
oluline mõtestada, millest erinevus võib tulla. Seetõttu võibki olla kasulik (eriti
piiripealsete tulemuste korral) kasutada ka mõnda muud statistilist testi või
meetodit (ingl k nimetatakse seda lähenemist robustness check). Lõpuks on
oluline ka mõista, et statistiliselt oluline erinevus ei pruugi tähendada
sisuliselt olulist erinevust – ka antud näites, kuigi tuvastasime t-testi põhjal
naiste ja meeste üldistatud usalduses statistiliselt olulise erinevuse (st on alust
väita keskmiste erinevust ka populatsioonis), on see erinevus tõenäoliselt väga
väike (valimi põhjal keskmiselt vaid 0,2 palli). Kas see tähendab, et olulisuse
tõenäosuses sajandiku komakoha tagaajamine on mõttetu? Oleneb meie ees
seisva küsimuse sisulisest olulisusest ja sellest, kui suurt eksimisruumi saame
endale lubada. Seetõttu kasutatakse ka sõltuvalt olukorrast erinevaid usaldus-
ja olulisuse nivoosid – kui testime paberlennuki vastupidavust, võime
rahulduda esimest liiki veaga 10% (ehk olulisuse nivoo 0,1), kui testime päris
Boeingu vastupidavust, võib olla oluline saada tulemused olulisuse nivool
0,001 (sest suuremat eksimisruumi ei saa me inimeste elude arvelt endale
lubada).

Veel paar tähelepanekut.

Kui oleksime püstitanud ühepoolse alternatiivhüpoteesi, nt H1: mm < mn,


sellele vastav nullhüpotees oleks olnud H0: mm ≥ mn, siis oleksime pidanud
seadistama jaotuse Hypothesis alt Group 1 < Group 2. Tehke see läbi.

Antud juhul oleksime saanud ka ühepoolse alternatiivhüpoteesi kinnitada,


sest t-statistiku väärtus on väiksem kriitilisest piirist ühepoolse hüpoteesi
korral (-2,12 < -1,64). NB! Vastavalt sellele, kumma grupi keskmise väiksemat
väärtust eeldame, tuleb valida ka t-statistiku kriitilise väärtuse märk; mõelge
loenguslaididel nähtud täidetud sabadega jaotuse joonisele. Kumma grupi
keskmisest lahutab jamovi teise grupi keskmine, sõltub sellest, millised
koodid on gruppidel andmestikus (antud juhul on meestel tunnuses gndr
kood 1, naistel kood 2). T-statistiku väärtus võrreldes eelnevaga ei muutu, sest
kõik parameetrid t valemis jäävad samaks, muutub t-statistiku kriitiline piir.

Küll aga poleks me saanud alternatiivhüpoteesi kinnitada, kui hüpoteesipaar


oleks olnud H1: mm > mn ja H0: mm ≤ mn, sest -2,12 < 1,64 ehk t-statistiku
väärtus oleks olnud väljaspool kriitilist piirkonda (st nullhüpoteesiga kooskõlas
olevas piirkonnas, mis on antud juhul -∞ kuni 1,64). Seega: NB! Ühepoolse
alternatiivhüpoteesi puhul on alati oluline kontrollida, kumma grupi
keskmine on tegelikult suurem ja kas see vastab sisuliselt sellele, mida
alternatiivhüpotees väidab.

Nagu eelnevast näha, kui valida n-ö „õige“ testitava erinevuse suund, on
võimalik keskmiste erinevust kergemini kinnitada (esimese ühepoolse
hüpoteesipaari korral pidi t-statistik olema H1 kinnitamiseks väiksem kui -1,64,
eelnevalt kahepoolse hüpoteesipaari puhul oli H1 kinnitamiseks vaja, et
t-statistiku väärtus oleks väiksem kui -1,96 või suurem kui 1,96). Tehniliselt
tõesti nii ongi, aga polnuks õige, juhul kui oleksime t väärtuseks saanud nt -1,7,
vahetada kahepoolne hüpoteesipaar meile „sobiva“ ühepoolse hüpoteesipaari
vastu ainult sellepärast, et see võimaldab H1 kinnitada. See läheb juba
tegevuse alla, mida nimetatakse p-hacking (analüüsi eeldusi muudetakse nii,
et saadakse endale sobiva olulisuse tõenäosuse väärtuse alusel H1 kinnitada)
ja kus analüüsi ei juhi enam sisulised kaalutlused, vaid valikuline subjektiivne
lähtumine andmetehnilistest nüanssidest. Peaksime hüpoteeside
sõnastamisel siiski lähtuma sisulistest kaalutlustest.
Valisime eelnevalt t-testi, mis ei eeldanud võrdseid hajuvusi kogumites. Võite
huvi pärast proovida, millise tulemuse saate siis, kui valite jaotuse Tests alt
Welch’s. Tulemused tõesti praktiliselt ei erine, sest hajuvused olid väga
sarnased.

Meile olulistest valikutest võivad kasulikud olla ka jaotuse Additional Statistics


alt Descriptives ja Descriptives Plots, mis antud juhul küll annavad info, mida
praeguseks hetkeks oleme analüüsi käigus juba käsitlenud.

Harjutus 2. Kas keskmine rahulolu haridussüsteemiga on Põhja- ja


Kirde-Eestis erinev? Sõnastage vastav alternatiiv- ja nullhüpotees ja testige
hüpoteesipaari t-testi abil tavalisest rangemal olulisuse nivool 0,01 (eelnevalt
uurige, kas t-testi eeldused on üldse täidetud), sõnastage järeldused.

H1: Keskmine rahulolu haridussüsteemiga on Põhja- ja Kirde-Eestis erinev (mp


≠ mk).

H0: Keskmine rahulolu haridussüsteemiga Põhja- ja Kirde-Eestis ei erine (mp


= mk).

Jaotusparameetrite seadistamine käib antud juhul samamoodi nagu ennegi,


tunnusteks on siin stfedu ja cregion. Jaotusparameetritest näeme, et rahulolu
tunnuse jaotused vaadeldavates gruppides ei ole normaaljaotusest väga
kaugel, standardhälbed on Põhja-Eestis (kood EE001) 2,08, Kirde-Eestis (kood
EE007) 2,4. Tundub ok.

Edasi selgub, et t-test ei taha grupeerivaks tunnuseks võtta tunnust, kus on


rohkem kui kaks gruppi. Õige küll, t-testiga saab võrrelda ainult kahe grupi
keskmisi. Kodeerime tunnuse cregion ümber, märgistades selle tunnuse
andmestikus ja valides Data => Compute.

Seadistades sõltumatute kogumite t-testi, saame tabeli alla märke ᵃ Levene's


test is significant (p < .05), suggesting a violation of the assumption of equal
variances. Räägitakse hoopis mingist muust testist ja tuuakse tulemuse
olulisuse tõenäosus. Tegu on Levene’i testiga, millega jamovi kulisside taga
testib hüpoteesipaari:

H1: arvulise tunnuse hajuvus gruppides on erinev

H0: arvulise tunnuse hajuvus gruppides ei erine

Ja järeldab, et hajuvused on erinevad. Selliste statistiliste testide puhul tuleb


küll tähele panna, et mida suurem on indiviidide arv, seda kergemini leitakse
statistiliselt olulisi erinevusi, seega alati ei pruugi olla mõistlik neist
tulemustest lähtuda (oleneb testi tundlikkusest). Me ei pea sellesse sügavalt
süüvima, vaid võime kindluse mõttes teha ka Welchi t-testi (t-testi seadetes
jaotuses Tests). Lülitame Additional Statistics alt sisse ka muud valikud, et
uurida, kui suur keskmiste erinevus on.

Tõsi on, et Welchi t-testiga saame mõnevõrra erineva t-statistiku, kuid


mõlemad on kaugelt üle kriitilise väärtuse 2,58 (vabadusastmete arv on
Studenti t-testi puhul 1007, Welchi t-testi puhul 272). Ka olulisuse tõenäosus
on mõlemal juhul väga madal, p < 0,001. Seega saame olulisuse nivool 0,01
kinnitada, et keskmine rahulolu haridussüsteemiga Põhja- ja Kirde-Eestis
erineb. Keskmiste erinevus on pea terve pall, mis skaalal 0-10 on ka sisulises
mõttes päris suur erinevus. Jooniselt on näha, et keskmiste
usaldusvahemikud on küll üksteisele lähemal, kuid keskmiste erinevuse
usaldusvahemiku alumine usalduspiir on ikkagi poole palli juures (ülemine
tabel, eelviimane veerg), ülemine usalduspiir lausa 1,2 palli.

Harjutus 3. Kas tervishoiusüsteemiga ollakse rahul erineval määral kui


haridussüsteemiga? Kõnealused tunnused on samas andmestikus. Sõnastage
vastav alternatiiv- ja nullhüpotees ja testige hüpoteesipaari t-testi abil
(eelnevalt uurige, kas t-testi eeldused on üldse täidetud), sõnastage
järeldused.
H1: keskmine rahuloluhinnang tervishoiusüsteemile erineb keskmisest
rahuloluhinnangust haridussüsteemile (mt ≠ mh)

H0: keskmine rahuloluhinnang tervishoiusüsteemile ei erine keskmisest


rahuloluhinnangust haridussüsteemile (mt = mh)

Jällegi on tegu kahepoolse hüpoteesipaariga.

Kuna võrdleme kahe teineteisega seotud kogumi keskmisi (arvutame kahe


tunnuse keskmised samade indiviidide pealt), teeme paariskogumite t-testi.
Eelnevalt veel vaatleme jälle jaotusparameetreid.

• Analyses => Exploration => Descriptives

• Variables: stfedu, stfhlth

• Statistics: valime lisaks Mode, Std. Deviation, Skewness, Kurtosis

Kujuparameetritest on haridussüsteemiga rahulolu asümmeetriakordaja


mõnevõrra kõrgem (-0,786), teatavad asümmeetriat näeme ka histogrammilt
(kui see sisse lülitada) ja sellele viitavad ka haridussüsteemiga rahulolu
erinevad keskmine, mediaan ja mood. Samas pole asümmeetria liiga suur.
Standardhälbed on küllaltki sarnased, seega jätkame paariskogumite
t-testiga.

Analyses => T-Tests => Paired Samples T-Test

Paired Variables: stfedu, stfhlth

Hypothesis: Measure 1 ≠ Measure 2

Additional Statistics: Mean Difference, Confidence Interval 95%


Tulemused on tõlgendatavad analoogselt nagu eelmise t-testi puhul. Antud
juhul saame kinnitada H1, sest t väärtus asub t-statistiku kriitilises piirkonnas
ka rangeimal olulisuse nivool, 28,6 > 2,58 (df = 1970). T-statistiku olulisuse
tõenäosus ehk p < 0,001 (täpne p väärtus on ilmselt nii väike, et selle
edasiandmine oleks tähendanud paljude komakohtade esitamist). Seega
saame olulisuse tõenäosuse alusel samamoodi järeldada, et H0 tuleb
kummutada ja H1 kinnitada (võime öelda, et keskmiste erinevus on olulisuse
nivool 0,01 (või ka olulisuse nivool 0,001) statistiliselt oluline).

Kahe tunnuse keskmiste erinevus on 1,57 palli (positiivne väärtus tähendab, et


haridusega rahulolu keskmine on kõrgem, sest vastav tunnus on väljale
Paired Variables asetatud esimesena ning on tabelis enne tunnust stfhlth).
Keskmiste erinevuse usaldusvahemik on 1,46 kuni 1,68, mis näitab veenvalt ka
rahuloluhinnangute keskmiste erinevust sisulises mõttes.

358

You might also like