Sissejuhatus Kvantitatiivsetesse Meetoditesse Konspekt Eksamiks

SISSEJUHATUS KVANTITATIIVSETESSE
MEETODITESSE
Milliste uurimisülesannete lahendamiseks sobivad

kvantitatiivsed meetodid?
Küsimused on kui palju ja miks. Tulemused üldistatakse üldkogumile ning

tulemuste üldistamine tugineb arvulisele argumendile. Esinemissagedus,
seoste analüüsimine, hüpoteeside testimine, arvulised/kvantifitseeritavad
andmed, suhteliselt palju uuritavad.
Andmestike tüübid
Läbilõikeandmestik, ristlõikeandmestik - Erinevad tunnused kogutakse

kokku ühte tabelisse indiviidi kaupa. Võtab vähe aega. Samal ajal uuritakse
sama meetodi abil erinevaid inimgruppe.
Longituuduuring - uuringutüüp, mille puhul tehakse kordusmõõtmisi

kindlate ajavahemike tagant ühtede ja samade indiviidide hulgas.
Tunnuste jaotus
Tunnus - Tunnus on näitaja, mida saab mõõta kõigil uurimisalustel objektidel.
Nominaaltunnus - vastusevariandid pakuvad objekti kirjelduse, aga ei ütle

midagi kirjeldatus omaduse intensiivsuse või suuruse kohta (sugu, rahvus).
Järjestustunnus - vastusevariandid on intensiivsuse põhjal järjestatavad,
kuid skaalapunktide vahed ei pea tingimata võrdsed olema (haridustase,
meeldivus ja rahuolu hinnangud).
Binaartunnus - kaheväärtuselised tunnused. Näiteks sugu (mees/naine)
Arvuline tunnus - mõõtmistulemus on arv. Arvtunnuseid saab jagada

pidevateks ja diskreetseteks arvtunnusteks. Iga arvtunnus on ka
järjestustunnus.
Pidev tunnus - vastusevariantidena sobivad kõik punktid tunnuse skaalal

(pikkus, kaal, vanus, sissetulek).
Diskreetne tunnus - sobivad ainult täisarvulised ja loetavad vastusevariandid

(laste arv peres).
Sagedustabel
Millist tüüpi tunnustega on mõistlik teha sagedustabeleid?
Järjestustunnust saab kasutada sagedustabeli tegemiseks, aga sõltub palju

tunnuseid on. Arvulist tunnust ei ole mõtet esitada sagedustabelina.
Nominaaltunnuseid saab esitada, aga 5-6 kategooriat maksimaalselt.
Kumulatiivne sagedus - näitab kui palju või kui suur osa indiviide jääb antud
astmest allapoole või ülespoole. Kumulatiivse ehk koguneva sageduse puhul
liidetakse kõik vastaval real või eelmistel ridadel olnud vastusevariantide
sagedused.
Kumulatiivne suhteline sagedus - kumulatiivne sagedus aga liidetakse

suhtelised sagedused.
Mood - suurima sagedusega väärtus, osutab tüüpilisele väärtusele. Moodi

saab leida nii arvuliste, järjestus- kui ka nominaaltunnuste puhul.
Mediaan - punkt tunnuse väärtuste järjestatud skaalal, millest suuremaid ja

väiksemaid väärtusi on ühepalju. Mediaani mõjutab variatsioonirea pikkus.
Aritmeetiline keskmine - ainult arvuliste tunnuste puhul. See on näitaja,

mida võib käsitleda kui tüüpilist või läbilõikelist vastust vaatlusalusele
küsimusele, aga võib olla ka väärtus, mida tegelikult ükski vastajatest täpselt
andnud pole. See on adekvaatne ainult siis, kui tunnuseväärtused on
kogunenud keskmise ümber. Keskmist mõjutavad kõik väärtused.
Variatsioonirida - järjestatud väärtuste rida.
Detsiil - variatsioonirida jagatud kümneks osaks.
Kvintiil - variatsioonirida jagatud viieks osaks.
Kvartiil - variatsioonirida jagatud neljaks osaks.
Kvantiilhaare - iseloomustab jaotuse hajuvust, mida suurem on väärtuste

variatiivsus, seda suurem on kvantiilhaare. See katab 1-2p osa tunnuse
väärtusest.
Ülemine, alumine kvartiil - nende vahele jääb kvartiilhaare.
Dispersioon - standardhälbe ruut ehk keskmine ruuthälve. Seda kasutatakse

tunnuse hajuvuse iseloomustamiseks.
Standardhälve - iseloomustab vastuste hajuvust keskmise ümber. Seega

näitab tüüpilist erinevust üldisest keskmisest. Kui standardhälve on suur, siis
võib arvata, et vastused on keskmisest kaugel. Kui standardhälve on väike, siis
on vastajate vastused antud üldise keskmise lähedale. Viimasel juhul tundub,
et vastajad on olnud oma vastustes küllaltki üksmeelsed.
1. Leia keskmine 2. Lahuta igast andmepunktist keskmine ja võta saadud

tulemus ruutu 3. Liida kokku eelmises punktis saadud väärtused 4. Jaga
andmepunktide arvuga 5. Võta ruutjuur
Variatsioonikordaja - suhteline standardhälve ehk standardhälve jagatud

keskmisega. Teeb erineva skaalaga tunnused võrreldavaks.
Tunnuste standardiseerimine - tehakse arvtunnustega ja
standardiseerimise käigus skaala alguspunkt nihkub või toimub
mastaabimuutus. Standardiseerimise eesmärk on tunnuste võrreldavaks või
tulemuste tähendusrikkaks muutmine, näiteks riigile omasest
vastamismustrist lahti saamine.
Nihe - skaala alguspunkt viiakse näiteks nulli või keskmine nulli. Nihkega
tunnuste puhul ei ole mõtekas võrrelda keskmisi, sest oleme ise selle
määranud.
Mastaabimuutus - ühiku muutus, näiteks üleminek sentimeetrilt meetrile,

eurolt tuhandele eurole. Formaalselt tähendab see tunnuse väärtuse
korrutamist teatava konstandiga.
Sümmeetriline jaotus - sümmeetrilise jaotuse korral langevad mediaan ja

mood kokku.
Positiivne ja negatiivne asümmeetria
Asümmeetriakordaja - põhineb keskmisel individuaalsel hälbel

aritmeetilisest keskmisest. Positiivne: rohkem erandlikke suuri väärtusi.
Negatiivne: rohkem erandlikke väikseid väärtusi.
Järskuskordaja ehk ekstsess - põhineb keskmisel individuaalsel hälbel
aritmeetilisest keskmisest. Standardiseeritud normaaljaotuse ehk
sümmeetrilise jaotuse korral 0. Standardiseeritud normaaljaotusest väiksema
järskusastmega jaotused on negatiivse järskuskordajaga.
Standardiseeritud normaaljaotuse praktiliselt kõik väärtused on

vahemikus -3 kuni 3.
Aegread
Ajadimensioonid - kohort (ühe populatsiooni sama põlvkonna kõik liikmed),

periood (Iseloomustab sesoonse iseloomuga aegridu), vanus.
Läbilõikeuuringud - samal ajal uuritakse sama meetodi abil erinevaid

inimgruppe.
Longituuduuringud - samu inimesi uuritakse aastate või aastakümnete

jooksul.
Aegrida - kronoloogiline rida ehk dünaamikarida. Ühe ja sama muutuja

kordusmõõtmised teatud ajavahemike järel, mis enamasti võetakse
ühepikkused. Arvandmete rida, mis iseloomustab nähtuste ajalist muutumist.
Eeldused: üksteisest sõltumatud vaatlused, inimesed on analüüsis
mittevaadeldavate tunnuste poolest ühetaolised, vastuste puudumine ei ole
süstemaatiline.
Autokorrelatsioon - perioodil t esineva aegrea väärtuse sõltuvus varasemate

perioodide väärtustest. Positiivne kui kasvamisele järgneb kasvamine ja
kahanemisele järgneb kahanemine. Negatiivne siis, kui kasvamisele järgneb
kahanemine ja kahanemisele kasvamine.
Momentrida - Iga element on seotud teatud kindla ajamomendiga (kuupäev,

aasta, algus, lõpp).
Perioodirida - Iga element on seotud mingi ajavahemikuga, perioodiga (kuu,
kvartal, aasta).
Trend - Väljendab ligikaudse mudelina aegrea põhilist kulgu.
Vahede aegrida ehk absoluutne muutus ehk diferents - Kahe järjestikuse

ajamomendi väärtuste vahe, mis toob esile aegrea muutlikkuse ja kõneleb
muutumiskiirusest ilma nähtuse suuruseta.
Esimest ja teist järku diferents - esimest järku diferents on kahe järjestikuse

elemendi vahe, mis vabastab trendist aga sesoonsus jääb. Teist järku diferents
on kahe järjestikuse elemendi vahede vahe ning see vabastab sesoonsusest.
Kasvutempo - Kasvutempo (ahelindeks) ajamomendil t saadakse aegrea

antud väärtuse jagamisel eelmise väärtusega; kt = xt / xt-1, kus xt on n
ajamomendi aegrida, t = 1, 2, ..., n. Arvust 1 väiksem kasvutempo tähendab
kahanemist, arvust 1 suurem kasvutempo kasvu ja arvuga 1 võrduv
kasvutempo aegrea püsivust antud ajamomendil. Kasvutempo näitab, kui
mitu korda ületab antud väärtus eelmist (kasvamisel) või kui suure osa
moodustab eelmisest (kahanemisel)
Viitaeg - mitme liikme võrra nihutada.
Absoluutne juurdekasv (ik difference, growth) dt ajamomendil t on

käesoleva oleku xt ja eelmise oleku xt-1 vahe: dt = xt – xt-1
Aegridade analüüs
Excelis. Vajutad format as table ja lülitad tabelis sisse my table has headers.
Seejärel insert ja tabel ja saad joonise. Tuleb enne märgistada ka andmete
veerud, mida tahame kasutada.
Valim ja üldkogum, usaldusvahemik
Valim ja populatsioon - valimi alusel arvutatud näitaja kehtib täpselt valimi

kohta. Populatsioonile saab üldistada seda siis, kui valim on populatsiooni
suhtes esinduslik. Selleks, et valim oleks esinduslik on vaja, et valim on
juhuslik ehk tõenäosuslik valim.
Tegelik väärtus - näitaja väärtus populatsioonis. Ei ole võimalik teada saada

muidu, kui uurides kogu populatsiooni, näiteks rahvaloendus.
Tõenäosuslik valim - Kõigil populatsiooni liikmetel on nullist erinev

tõenäosus sattuda valimisse.
Lihtne juhuvalim - tõenäosus valimisse sattuda on kõigil populatsiooni

liikmetel võrdne.
Usalduspiir, usaldusvahemik - usaldusvahemik on valimi alusel arvutatav

vahemik, mis katab parameetri tegeliku väärtuse teatud tõenäosusega.
Usaldusvahemik jääb ülemise ja alumise usalduspiiri vahele.
Usaldusvahemike kõrvutamine ühe ja sama usaldusnivoo korral ühe ja sama
tunnuse jaoks eri gruppides võimaldab teha järeldusi gruppide võrdlemiseks
selle parameetri (nt keskmise) alusel, mille kohta on usaldusvahemik leitud.
Usaldusvahemike leidmine
Jamovis. Analyses => Exploration => Descriptives. Tuleb sisse lülitada

Skewness, Kurtosis ja Histogram ning Std. Error of Mean (keskmise
standardviga) ja Confidence interval for Mean (keskmise usaldusvahemik).
Kui tunnuse jaotus on küllaltki normaaljaotuse lähedane, saab edasi minna

artimeetilise keskmisega ja sellele usalduspiiride arvutamisega. Kui tunnus on
märkimisväärselt asümmeetrilise jaotusega, ei mõjuta see usaldusvahemiku
usaldusväärsus, kuid seda tuleb arvesse võtta keskmise sisulisel
tõlgendamisel.
Kui keskmine ehk MEAN jääb usaldusvahemiku piiridesse, siis katab see
usaldusvahemik üldistatud usalduse tegeliku väärtuse populatsioonis.
Excelis saab usaldusvahemikke lisada ERROR BAR ja ERROR AMOUNT abil.
Mida saab öelda valimi põhjal arvutatud statistiku alusel, mida

statistiku usaldusvahemiku alusel?
Valimi põhjal arvutatud statistik näitab valimi kohta, usaldusvahemiku puhul

saab väita et vastava usaldusvahemiku väärtused esinevad ka populatsioonis.
Punkthinnang ja vahemikhinnang - punkthinnang on statistik, mis annab

parameetrile ühese väärtuse, näiteks valimi aritmeetiline keskmine on
punkthinnang kogumi keskväärtusele. Vahemikhinnangu puhul määratakse
valimi põhjal uuritava karakteristiku väärtuste hulgast vahemik, millesse
üldkogumi vastav karakteristik peaks sattuma.
Standardviga - valimite keskmiste standardhälve.
Usaldusvahemiku ja usaldusnivoo tõlgendamine - Usaldusnivoo näitab

teatavat täpsuse astet. Mida rangema usaldusnivoo valime, seda laiem on
usaldusvahemik, seda suuremat valimi erinevust populatsioonist peame
võimalikuks ja arvestame võimalusega, et meie valim erineb populatsioonist
rohkem.
Usaldusvahemiku laius (millest sõltub) - usaldusnivoo valik sõltub sellest,

kui suurt kindlust meil on vaja selles, et usaldusvahemik katab tegeliku
väärtuse. Usaldusvahemiku laius sõltub: valimimahust (suurem valimimaht - >
kitsam usaldusvahemik), tunnuse hajuvus (väiksem hajuvus -> kitsam
usaldusvahemik), usaldusnivoo (madalam usaldusnivoo -> kitsam
usaldusvahemik). Keskmise usaldusvahemik on seda kitsam, mida väiksem
on tunnuse standardhälve, kui valimimaht ei muutu.
Usaldusvahemike võrdlemine - Kui usaldusvahemikud kattuvad, siis

keskmiste erinevuse osas saaks täpsema järelduse teha t-testi (keskmiste
erinevuse usaldusvahemiku) põhjal.
Usaldusvahemikke pole kohane arvutada:
● Kui tegu pole valimiandmetega (rahvaloendus, registriandmed)

● Kui tegu pole tõenäosusliku valimi andmetega
Hüpoteeside kontrollimine, t-test
Statistiline hüpotees - oletus üldkogumi kohta. Seda testitakse

valimiandmete alusel.
Nullhüpotees - vastupidine alternatiivhüpoteesile.
Alternatiivhüpotees - sõnastatud nii, et väidab erinevuse esinemist või seose

kehtimist.
Ühe- ja kahepoolne hüpotees - kahepoolne on siis kui hüpoteesid on võrdub

või ei võrdu ning suurem/väiksem on ühepoolne.
Hüpoteeside kontrollimine / testimine (mida endast kujutab, millel
põhineb)
Püüame jõuda tõele jälile, keskendudes mitte sellele, kas kehtib H1, vaid
sellele, kas kehtib H0. Kui valimiandmete põhjal leiame, et H0 kehtivus ei ole
tõepärane, saame kinnitada H1, sest H0 ja H1 välistavad teineteise. Seejuures
prioriteet on vältida esimest liiki viga (ka teist liiki viga oleks halb, aga esimest
liiki vea vältimine olulisem). Ehk kinnitame H1 ainult juhul, kui
tõendusmaterjal on kaalukalt nullhüpoteesi paikapidavuse vastu
Esimest ja teist liiki viga - esimest liiki viga on kui populatsioonis kehtib H0
aga võtame valimi põhjal vastu H1. Teist liiki viga on kui populatsioonis kehtib
H1 ja võtame valimi põhjal vastu H0.
Olulisuse nivoo (sh erinevus usaldusnivoost) - esimest liiki vea lubatav

ülempiir. See on tavaliselt 0,05, aga rangem 0,01 ja leebem 0,1. H0
kummutatakse, kui esimest liiki vea tegemise võimalus on väiksem olulisuse
nivoost.
Olulisuse tõenäosus - Olulisuse tõenäosus on väikseim olulisuse nivoo, mis

antud valimi põhjal lubab vastu võtta alternatiivse hüpoteesi. See näitab
antud valimi sobivust nullhüpoteesiga.
Statistiline olulisus - kasutatakse iga seosekordaja puhul, statistiliselt

oluliseks peetakse seosekordajat <0,05 ehk 95%. Tulemus 0,05 näitab, et
esitatud seos esineb reaalselt üldkogumis 95%-l juhtudest.
t-test - aritmeetiliste keskmiste võrdlemiseks. Võrdleme arvulise tunnuse

keskmisi kategoriseeritava tunnuse lõikes. Eeldused: arvulise tunnuse jaotus
gruppide lõikes on normaaljaotuse lähedane, arvulise tunnuse hajuvus
gruppide lõikes on sarnane (kui ei ole siis teeme welchi t-testi).
Ühe kogumi t-test - ühe valimi alusem mõõdetud kogumi keskmise asemel
on mingi kindel väärtus. Testime, kas valimi alusel arvutatud keskmine sellest
erinev.
Paariskogumite t-test - kasutatakse, kui vaatlused on omavahel seotud.

Seega me ei võrdle kahe erineva grupi keskmisi, vaid samade indiviidide
keskmisi, mis on mõõdetud erinevatel aegadel või mõõdavad erinevaid
nähtusi.
Vabadusastmed - väljendab tõsiasja, et kui arvutame t-statistikut, siis meil on

andmed n indiviidi kohta, kuid ka teatud piirangud.
t-statistik - t positiivsest kriitilisest väärtusest suuremate väärtuste piirkonda

ja t negatiivsest kriitilisest väärtusest väiksemate väärtuste piirkonda. Kui
valimi alusel saadud t-statistik asub kriitilises piirkonnas, saame H0
kummutada ja kinnitada H1.
● kriitilised väärtused 0,05: t > 1.96 või t < −1.96

● kriitilised väärtused 0,01 olulisuse nivool: t > 2.58 või t < −2.58
t-testi tulemuste esitamine
Seega, t-testi tulemuste põhjal saame olulisuse nivool 0,05 väita, et 2016.
aastal keskmine eluga rahulolu Põhja- ja Lõuna-Eestis erines ( t = 2.33, df =
1384, p = 0.02)
Või: …erines (t-statistiku väärtus 2,33, vabadusastmete arv 1384, olulisuse

tõenäosus 0,02)
Hüpoteeside testimine t-testiga
Jamovis. Analyses => Exploration => Descriptives Statistics: valime lisaks

Mode, Std. Deviation, Skewness, Kurtosis.
Kui asümmeetria- ja järskuskordajad (read Skewness ja Kurtosis) on küllaltki
lähedal nullile, on tegu küllaltki normaaljaotuselähedaste jaotustega.
Kui võrdleme kahe teineteisest sõltumatu kogumi keskmisi (nt naised ja

mehed), siis Independent samples t-test. Kui tabelis veer p on väiksem kui
kehtestatud olulisuse nivoo, siis H0 tuleb kummutada.
Olulisuse nivool 0,05 on kahepoolse hüpoteesi korral t-statistiku kriitilised

piirid -1,96 ja 1,96.
Risttabel, hii-ruut-test
Risttabel - kui palju on muutujate variatsioonis ühist, 2 mõõtmeline. Kui

protsentjaotus leiti indiviidide üldarvu suhtes, siis protsentuaalsete
osakaalude summa beerus näitab veerutunnuse vastava kategooria
protsentuaalset osakaalu kogumis.
Hii-ruut-test - kas on seos või ei ole. Kui on väiksem olulisuse nivoost, saab
kinnitada alternatiivhüpoteesi.
Hii-ruut-statistiku arvutamise sammud
1. nullhüpotees (seost ei ole) ja alternatiivhüpotees (seos on) 2. Jamovis

Analyses => Frequencies => Independent Samples 3. Jaotuse Statistics alt
oleks hea valida ka Phi and Cramer’s V. 4. Seose sisuliseks iseloomustamiseks
võib kasu olla tegeliku ja teoreetilise jaotuse (risttabeli seadetes Cells =>
Expected counts) võrdlusest ja reaprotsentidest (Cells => Percentages =>
Row).
Üldiselt on küll nii, et mida tugevam on seos, seda väiksem on ka olulisuse

tõenäosus, kuid pidagem meeles, et olulisuse tõenäosus sõltub ka valimi
suurusest – suure valimi korral on võimalik ka nõrga seose korral saada väike
olulisuse tõenäosus, mille põhjal kinnitada alternatiivhüpotees.
Vabadusastmete arv - vaatluste arvu ja kitsenduste arvu vahe ehk vabalt
varieeruda saavate väärtuste arv ehk sõltumatute komponentide arv
parameetri arvutamisel.
Crameri V - Crameri V puhul ei ole väga selgeid piire, millise V väärtusega

seost lugeda nõrgaks või mõõdukaks või tugevaks, nagu loengus öeldud,
sõltub see ka uurimisvaldkonnast või isegi konkreetsetest tunnustest. Crameri
V on kokkuvõtlik näitaja, mis on küll kasulik, kuid ei võimalda samas seose
olemust täpsemini lahata.
Korrelatsioonanalüüs
Korrelatsioon - kahe muutuja vaheline seos. Mida madalam on

olulisusväärtus, seda suurema tõenäosusega on muutujad omavahel seotud. 1
- otsene seos, >0,7 - tugev seos, 0,4–0,7 - mõõdukas seos, <0,4 - nõrk seos, 0 -
seos puudub.
Positiivne korrelatsioon - ühe suuruse kasvades teine suurus samuti kasvab.
Negatiivne korrelatsioon - ühe suuruse kasvades teine suurus kahaneb.
Monotoonne seos - ühe tunnuse väärtuse suurenedes teise tunnuse

väärtused suurenevad või vähenevad.
Pearsoni (lineaarne) korrelatsioonikordaja - varieerub -1 ja 1 vahel. Väärtused

-1 ja 1 näitavad täielikku lineaarset seost ehk andmepunktid asetsevad joonisel
täpselt sirgjoonel. Mida suurem on korrelatsioonikordaja absoluutväärtus,
seda tugevam seos. Seose puudumist näitab kordaja väärtus 0. Kordaja
positiivne väärtus näitab kasvavat ehk positiivset seost ja negatiivne
kahanevat ehk negatiivset seost. 0,2-0,3 - nõrk seos; 0,4-0,5 - mõõdukas seos;
üle 0,5 - tugev seos.
Lineaarse eeldused: mõlemad tunnused on mõõdetud arvulisel skaalal,
tunnuste vahel esineb ligilähedaselt lineaarne seos ning tunnuste jaotuses ei
esine erinedeid.
Ainult arvuliste tunnuste puhul.
Spearmani korrelatsioonikordaja - tunnuste tegelike väärtuste asemel

arvutatakse korrelatsioonikordaja väärtuste astakute (väärtuse
järjekorranumber variatsioonireas) põhjal. Mida lähemad on kahe tunnuse
astakud indiviidide lõikes, seda tugevam on korrelatsioon.
Eeldused: erindid ei ole probleem, on võimalik arvutada korrelatsioon

järjestustunnuste vahel, seos tunnuste vahel ei pea olema lineaarne aga peab
olema monotoonne.
Kategoriaalsete tunnuste puhul ja teoorias võib ka arvuliste tunnuste puhul.
Tunnuste kovariatsioon ehk ühismuutuvus ehk koosmuutuvus ehk

koosvarieeruvus ehk kooshajuvus - ühe tunnuse väärtuse muutudes
muutuvad teise tunnuse väärtused teatud suunas.
Korrelatsioonimaatriks - Juhul kui esitatavaid korrelatsioonikordajaid on

rohkem, võib need koondada korrelatsioonimaatriksisse.
Hüpoteesipaari testimine korrelatsioonanalüüsis
H0. et seos puudub. H1, et seos esineb. Kui andmete põhjal saadud t
absoluutväärtus on suurem t kriitilisest väärtusest saame H1 kinnitada.
Suure valimi puhul ilmneb statistiliselt olulisena ka juba väga nõrk
korrelatsioonseos. Tuleb teha vahet statistilise olulisuse ja sisulise olulisuse
vahel.
Excelis hajuvusdiagramm. Märgistad mõlema tunnuse andmehulgad ning

valid tabelitest scatter. Saab vaadata kas kasvav või kahanev seos.
Jamovis. Analyses => Regression => Correlation Matrix. Jaotuses Plot sisse
lülitada kõik valikud.
Tõenäosuslikud ja mittetõenäosuslikud valimid, andmete

täpsuse hindamine
Millele peaks küsitlusuuringu andmete puhul tähelepanu pöörama:
- Kuidas andmed on saadud tekkinud.

- Milline on uuringu ja andmete kogumise metoodika.
- Millal ja kuidas uuring läbi viidi
- Keda küsitleti
- Kuidas nad välja valiti
- Kes rahastas uuringut
- Milliseid küsimusi küsiti
Kui uuringu korraldada ei oska anda selgeid vastuseid olulistele küsimustele

või ajab kesksete mõistete kohta segast, siis pigem hoida nendest
andmetest eemale.
Sihtpopulatsioon - kogum, millest võetakse uuringu valim ja millele saab

uuringu tulemusi üldistada. Hästi oluline, sest kui sihtpopulatsioon pole
defineeritud või on segane ei saa ka andmetest korrektseid järeldusi teha.
Tõenäosuslik valim - lihtne juhuvalim, kihtvalim, klastervalim. Saadud näitaja
ei pruugi olla täpselt sama, mis populatsioonis, aga on võimalik hinnata selle
täpsust, näiteks usaldusvahemikuga.
Mittetõenäosuslik valim - lumepallivalim, kvootvalim, ekspertvalim. Üldiselt

odavam, aga ei ole teada valiku tõenäosust populatsiooni kohta, ei ole
võimalik täpselt hinnata andmete esinduslikkust, ei ole võimalik hinnata
andmete üldistatavust, ei ole võimalik öelda, kas valimi eripära või päriselt
populatsioonis. Tulemused kehtivad rangelt ainult valimi kohta.
Andmete kaalumine - andmete kaalumine võimaldab muuta tulemused

sihtpopulatsiooni suhtes esinduslikumad. Näiteks mehi populatsioonis 45%,
andmetes 40% saavad kaalu 0.45/0.4=1.125. Kaalumisjärgselt saab andmete
esinduslikkust kindlalt väita vaid tunnuste kohta, mis on kaalude arvutamise
aluseks. Kaalumine eeldab, et sihtpopulatsioon on täpselt defineeritud, teame
oluliste tunnuste jaotusi sihtpopulatsioonis ning andmekogumine on olnud
kvaliteetne.
Andmete esinduslikkus - kui tõenäosuslik valim, siis mida rohkem vastajaid

seda täpsemad analüüsitulemused on. Tõenäosuslik valim üldiselt peaks
olema esinduslik.
Andmete täpsus - tõenäosusliku valimi puhul saab usaldusvahemiku ja

usalduspiiridega teada.
Osakaalu usalduspiiride / veapiiri arvutamine
Kõigepealt vaja standardviga. Osakaalu usalduspiirides kasutatakse

standardiseeritud normaaljaotuse arvu, mis usaldusnivool 90% on 1,64, 95%
1,96 ja 99% 2,58.
50% on protsentnäitaja, mille usalduspiire otsime ja 1.58% on standardviga.
Osakaalu maksimaalne veapiir - veapiir on suurus, mille usalduspiiride

leidmiseks lahutame või liidame protsentnäitajale. Mida lähemal on osakaal
50%-le, seda suurem on veapiir ja seda laiem on usaldusvahemik.
maksimaalne veapiir ehk margin of error (mep).
Valimimahu arvutamine - Valimimaht näitab, kui suurt valimit on piisava

täpsusega andmete saamiseks vaja. Aluseks võetakse maksimaalne veapiir.
Väikese valimi andmete analüüs - saab leida korrigeeritud vastajate arvu

ehk finite population correctioni, mis võtab arvesse sihtpopilatsiooni suurust.
Suurandmed
Suurandmed - andmed, mida ei saa käsitleda traditsiooniliste

analüüsivahenditega. Andmed, mis tulevad sisse peaaegu reaalajas.
Keerulised andmed (meedia, struktureerimata tekst, logid).
Suurandmete eelised - andmete kvaliteet ja täpsus, varieeruvus ehk andmed

muutuvad ajas. Palju andmeid, isetekkelised, odavad. Võimalik uurida
käitumist, kasutada erinevaid andmetöötlusmeetodeid ja tuvastada
korratusest korda.
Suurandmete puudused - piiratud andmed, pole võimalik kõike uurida,
taustatunnused puuduvad, sisuliste seoste uurimine keerukam, tihti võimalik
analüüsida kirjeldavalt, aga mitte põhjuslikkust.
Andmete visualiseerimine
Visuaalsed elemendid - punkt, joon, pind.
Visuaalsed parameetrid - suurus, värv, asukoht.

Praktikum: korrelatsioon, hajuvusdiagramm
Harjutus 8.1. Palun uurige Excelis hajuvusdiagrammi põhjal, milline võiks olla
seos riigi SKP (osjujõu pariteedi põhjal elaniku kohta) ja tervishoiukukutuste
vahel (% SKPst). Andmestik on Jamovis on küll võimalik hajuvusdiagrammi
koostada, aga ilma lisandmoodulite installeerimiseta ei pruugi head tulemust
saada ning joonist korralikult vormindada ei saa, seega võiks ülesande teha
Excelis. Andmed on praktikumi Exceli andmefailis lehel Riigid.
Hajuvusdiagrammi koostamine: märgistada Excelis mõlema tunnuse

andmehulgad (koos tunnuste nimede ehk esimese reaga või ilma, sisulist
vahet pole), klikkida Insert => Scatter.
Tulemus:
Antud joonist korrektselt esitades tuleks lisada telgede nimed (Design => Add
Chart Element => Axis Titles), x-telje väärtustelt eemaldada komakohad
(topeltklõps skaala väärtustel, avaneb menüü paremal servas, seal valida
ikoon ja alajaotus Number ja Decimal Places väärtuseks sisestada 0),
eemaldada joonise pealkiri ja lisada allkiri. Joonisel ruumi paremaks
kasutamiseks võiks muuta skaalade piire, nt y-teljel viiest 12-ni ja x-teljel
10000-st 50000-ni.
Kui on soov lisada joonisele ka riikide nimed, siis saab seda teha Design =>
Add Chart Element => Data Labels => More Data Label Options. Ekraani
paremas servas avaneb menüü, kust jällegi tuleks valida ikooni alt alajaotus
Label Options ja teha linnuke kasti Value From Cells. Avanevas väikses aknas
klikkida lahtri lõpus olevat sinist punase noolega kastikest, märgistada
andmetabelis riikide tähiste lahtrid (veerus A) ja klikkide uuesti aknakeses
sama kastikest ja vajutada OK. Kui kasti Value From Cells linnukest tehes uut
aknakest ei avane, vajutada Value From Cells järel olevat nuppu Select Range.
Lõpuks eemaldada parempoolses menüüs linnuke kastist Y Value. Riikide
nimed kipuvad kattuma, kuna andmepunktid on joonisel tihedalt, aga riikide
nimesid on ka võimalik ükshaaval natuke liigutada, et kattuvust vähendada.
Lõplik joonis:
Joonis 1. Kulutused tervishoiule (% SKP-st) ja sisemajanuse kogutoodang (PPS

ehk ostujõu standard elaniku kohta) riigiti 2014. aastal (andmed: Euroopa
Sotsiaaluuringu mitmetasandiliste andmete andmebaas).
Jooniselt on näha, et tunnuste vahel on kasvav seos (ühe tunnuse väärtuste

kasvades kasvavad ka teise tunnuse väärtused), seos ei paista olevat päris
lineaarne, vaid sirge asemel kirjeldaks seda paremini teatud kõver. Lineaarse
ehk Pearsoni korrelatsioonikordaja oleks seetõttu siinkohal kindlam valik
arvutada Spearmani korrelatsioonikordaja.
Harjutus 8.2. Palun uurige hajuvusdiagrammi põhjal, milline seos võiks olla
riigi sissetulekute ebavõrdsuse (Gini indeks, arvutatud skaalal 0-100,
kõrgemad väärtused näitavad suuremat ebavõrdsust sissetulekutes) ja
pikaajalise töötuse vahel (pikaajaliste töötute osakaal aktiivsest rahvastikust).
Tehke ka see harjutus Excelis, andmed on samuti praktikumi Exceli
andmefailis lehel Riigid.
Samu võtteid kasutades, mida eelmises harjutuses rakendasime, saaksime

alloleva joonise:
Antud joonisel paistab kahe tunnuse vahel samuti olevat kasvav seos – mida
kõrgem on ebavõrdsuse tase riigis, seda suurem on pikaajaliste töötute
osakaal. Seos näib mõnevõrra lineaarsem kui eelmisel joonisel.
Harjutus 8.3. Palun võtke jamovis lahti .sav laiendiga praktikumi andmestik.
Arvutage tunnus, kus on iga indiviidi kohta viie siseriikliku institutsiooni
usaldamise keskmine, vastavad tunnused on trstprl, trstlgl, trstplc, trstplt ja
trstprt. Uurige hajuvusdiagrammi põhjal, kas arvutatud usalduse
koondtunnuse ja haridusaastate arvu vahel võiks esineda mingi (lineaarne)
seos. Arvutage ka korrelatsioonikordaja ja selle olulisuse tõenäosus.
See ja järgmised ülesanded on lahendatavad ka täielikult Excelis, kuid on seal

palju aeganõudvam.
Koondtunnuse tegemine / keskmise arvutamine:
Data => Compute

Pange tähele, et keskmine arvutatakse ainult nende indiviidide kohta, kellel
on kõigis viies tunnuses valiidne väärtus. See annab täpsema tulemuse,
samas jääb rohkem indiviide analüüsist välja (st koondtunnusesse ei arvutata
keskmist nende indiviidide kohta, kellel on vähemalt ühes tunnuses viiest
andmelünk ehk puuduv väärtus). Nende hulk ei ole küll õnneks väga suur.
Korrelatsioonikordaja arvutamine:
Analyses => Regression => Correlation Matrix
Viime paremale poole tunnused eduyrs ja vastloodud tunnuse trst5. Kui

jamovi annab korrelatsioonimaatriksi tabelis veateate, muutke tunnuse
eduyrs tüübiks arvuline ehk Continuous (topeltklõps andmestikus tunnuse
nimel, valik rippmenüüs Measure Type). Jamovi on vahel tunnusetüüpidega
pirtsakas, seega kui eduyrs tüüp on juba vaikimisi Continuous ja veateade
ilmneb, muutke tunnusetüüp millekski muuks ja siis tagasi Continuouse
peale.
Lisaks võiks jaotuses Plot sisse lülitada kõik valikud.

Korrelatsioonikordaja väärtus on 0,2, seos on statistiliselt oluline ka rangeimal
olulisuse nivool 0,001, kuid seos on pigem nõrk või mõõdukas. Mida lugeda
tugevaks seoseks, sõltub paljuski sellest, mida uurime, siin ei ole konkreetseid
kriteeriume – ka loengus ette antud piiridesse tuleks suhtuda teatud
ettevaatusega. Seose tugevust võib aidata täpsemalt mõtestada nt see, kui
kodeerime haridustee pikkuse tunnuse kategoriaalseks (tunnuse algsed
väärtused nt viide gruppi) ning vaatame haridustee pikkuse kategooriates
usalduse tunnuse keskmisi, kuivõrd need erinevad.
Hajuvusdiagrammilt on raske mingit selget seost välja lugeda. Jamovi esitab

kattuvaid andmepunkte küll mõnevõrra tumedamalt, kuid mitte eriti suure
eristusastmega. Punktiparvest teatud tõusev seos siiski visuaalselt ilmneb,
kuid seose pigem raske hoomatavus annab mõista, et seos ei saa olla tugev.
Sirgjoon punktiparves kirjeldab küll lineaarset seost ning jamovi lisab selle
vaikimisi, kuid sellest ei maksa veel järeldada, et lineaarne seos kirjeldab kahe
tunnuse vahelist seost kõige paremini, oluline on hinnata lineaarse seose
esinemist punktiparve põhjal (sirgjoon lisatakse regressioonimudeli põhjal).
Tihti see ongi keeruline, aga selle hindamisel, kas lineaarse
korrelatsioonikordaja arvutamise eeldus lineaarse seose esinemise näol on
täidetud, on eelkõige oluline, kas mingi muud tüüpi kõver kirjeldaks tunnuste
vahelist seost paremini kui sirgjoon. Kui seda öelda ei saa, võib lineaarse seose
eelduse lineaarse korrelatsioonikordaja arvutamiseks täidetuks lugeda.
Harjutus 8.4. Tehke jamovis ESS 2016 andmete põhjal korrelatsioonimaatriks
usalduse tunnustega (kui palju usaldatakse parlamenti, õigussüsteemi,
politseid, poliitikuid, poliitilisi parteisid, Euroopa Parlamenti ja ÜRO-d). Kas
kõrge usaldus ühe institutsiooni vastu tähendab reeglina kõrgemat usaldust
ka teiste institutsioonide vastu? Kas madal usaldus ühe institutsiooni vastu
tähendab reeglina madalamat usaldust ka teiste institutsioonide vastu? Mis
tüüpi on tunnused? Millist korrelatsioonikordajat oleks sobiv nende tunnuste
puhul kasutada?
Tunnused on mõõdetud skaalal, mida saab käsitleda arvulisena (täpsemalt on

tegu täisarvuliste ehk diskreetsete arvuliste tunnustega), seega vähemalt selle
omaduse põhjal saaksime arvutada lineaarse korrelatsioonikordaja. Selleks
veendumiseks oleks hea teha ka tunnustevahelised hajuvusdiagrammid, et
veenduda, et kui tunnuste vahel seos esineb, siis on see tõesti enam-vähem
lineaarne, nii et lineaarse korrelatsioonikordajaga saaksime adekvaatselt
hinnata tunnustevaheliste seoste tugevust. Jätame praegu küll selle etapi
vahele ja keskendume sellele, kuidas jamovis koostada korreltsioonimaatriksit
mitme tunnuse kohta.

Loodud tabelis on iga tunnuspaari kohta ära toodud korrelatsioonikordaja ja
selle olulisuse tõenäosus. Lisaks on statistiliselt oluliste tulemuste
esiletoomiseks sisse lülitatud nupp Flag significant correlations, mis lisab
korrelatsioonikordaja juurde tärnid vastavalt olulisuse nivoole, millel antud
korrelatsioonikordaja on statistiliselt oluline. Antud juhul see küll palju midagi
juurde ei anna, sest kõik seosed on olulisuse nivool 0,001 statistiliselt olulised.
Näeme, et kõik korrelatsioonikordajad on positiivsed, st mida rohkem
usaldatakse üht institutsiooni, seda rohkem reeglina ka teist. Kõige madalam
korrelatsioon on politsei usaldamise ja ÜRO usaldamise vahel, 0,391, mida
saab siiski lugeda mõõdukaks korrelatsiooniks.
Harjutus 8.5 Selgitage välja, kas ja kuidas on meediatarbimine (täpsemalt,

päevakajaliste ja poliitikauudiste jälgimisele kulutatud aeg minutites, tunnus
nwspol) seotud inimeste hinnangutega oma tervislikule seisundile (tunnus
health). Mis tegurid võivad selle seose taga olla? Arvutage ka
korrelatsioonikordaja usaldusvahemik usaldusnivool 95%. Mida saate selle
usaldusvahemiku põhjal öelda? Mis tüüpi on tunnused? Millist
korrelatsioonikordajat oleks sobiv nende tunnuste puhul kasutada?
Tervisliku seisundi enesehinnangu tunnus on järjestustunnus, mitte arvuline,

seetõttu tuleks siin kasutada Spearmani korrelatsioonikordajat. Selleks ei ole
meil vaja tunnuste astakuid eraldi arvutada, seda teeb jamovi kulisside taga.
Kuna hinnang oma tervisele on järjestustunnus, tuleks arvutada Spearmani

korrelatsioonikordaja. Kui jamovi seda teha ei lase, seadistage mõlemate
tunnuste tüübiks Continuous (kui see on tehtud, võib tunnused jälle
määratleda järjestustunnustena (Ordinal)).
Spearmani korrelatsioonikordaja väärtus küll ei erine antud juhul kuigivõrd
Pearsoni korrelatsioonikordajast, aga kindlam on raporteerida Spearmani
oma (kas või selleks, et vähendada lugeja võimalikku kriitikat). Seos on nõrk
või mõõdukas ja positiivne (sest korrelatsioonikordaja märk on positiivne).
Intuitiivne järeldus sellest oleks, et kõrgem hinnang oma tervisele tähendab
enamasti ka suuremat meediatarbimist, aga tähele tuleb panna, kuidas
tunnused on kodeeritud. Antud juhul tervisehinnangu tunnuses tähistavad
väiksemad väärtused paremat tervist (seda näeme, tehes andmestikus päises
topeltklõpsu tunnuse nimele, ülal avaneb tunnuse menüü, kust on näha
tunnuse väärtused). See tähendab, et sisuline seos kahe näitaja vahel on
selline, et mida kehvem on vastaja tervis, seda rohkem aega ta uudiste
jälgimisele kulutab. Seega, tunnuste vahel tuimalt korrelatsioonikordajaid
arvutada ei ole hea mõte, eelnevalt tuleks ka tutvuda, mis on tunnuste sisu ja
millised on tunnuste väärtused. Et korrelatsioonikordaja oleks informatiivne
ka lugeja jaoks, kes ise andmeid peensusteni ei tunne, oleks antud juhul
mõttekas enne korrelatsioonikordaja arvutamist tervisehinnangu tunnuse
skaala ümber pöörata (5 => 1, 4 => 2 jne). Sellisel juhul tuleks siiski analüüsi
kirjeldamisel see nüanss (et tunnuse skaala on võrreldes algse ankeedi ja
andmestikuga ümber pööratud) samuti välja tuua, nagu ikka igasuguste
ümberkodeerimiste puhul.
Mingit põhjusliku seose esinemist tunnuste vahel väita oleks tõenäoliselt

meelevaldne (nt tervise paranemine ei pane meid ju rohkem uudiseid
jälgima, samuti ei ole erilist põhjust arvata, et ainuüksi uudiste jälgimisele
rohkema aja kulutamine kuidagi meie tervist parandaks). Kui analüüsida
andmeid täpsemalt ja vaadata mõlema tunnuse korreleerumist vanusega, siis
tuleb välja, et uudiste jälgimisele kuluv aeg on kasvavas seoses vanusega ja
teisalt vanuse kasvades reeglina tervis kehveneb.
Igaks juhuks võiks kontrollida (kas või tagantjärele) ka hajuvusdiagrammi, kas

kahe tunnuse vaheline seos on vähemalt monotoonne.
Nagu näha, järjestustunnuse või üldse mis tahes tunnuse puhul, kus
eristuvaid väärtuseid on vähe, ei ole hajuvusdiagramm kuigi informatiivne (ka
ei ole järjestustunnuse puhul päris korrektne, et joonisele on lisatud lineaarset
seost kirjeldav regressioonijoon, sest see eeldaks, et tunnused on arvulised –
jamovi lisab joone automaatselt, teadmata, et üks tunnus ei ole tegelikult
mõõdetud arvulisel skaalal, ka ei oska jamovi ise hinnata, kas tunnustevahelist
seost saaks kirjeldada lineaarsena või mitte). Antud juhul on siiski näha
vähemalt seda, et enamik indiviidide jälgib uudiseid päevas alla kolme tunni.
Kui arvutaksime lineaarse korrelatsioonikordaja, siis selle väärtust mõjutaksid
enam üksikud indiviidid, kes kulutavad enamikust oluliselt rohkem aega
päevas uudiste jälgimisele. Ka siit ilmneb, et kindlam oleks antud juhul
korrelatsiooni arvutamisel vaadata Spearmani korrelatsioonikordajat. Antud
juhul Spearmani korrelatsioonikordaja väärtus küll peaaegu et ei erine
lineaarsest korrelatsioonikordajast, kuid ette seda kunagi ei tea.
Praktikum 7: risttabelid ja seosekordajad
Harjutusülesanne 1. Kas esineb seos haridustaseme ja suhtumise vahel, et

töökohtade nappuse korral peaks meestel olema eelisõigus tööd saada?
Sõnastage null- ja alternatiivhüpotees ning testige hüpoteesipaari olulisuse
nivool 0,05. Kui seos esineb, püüdke seda ka sisuliselt iseloomustada (kuidas
mingi haridustaseme esindajad oma suhtumise poolest üldiselt erinevad).
Üks võimalus seose olemasolu ja tugevuse hindamiseks on teha hii-ruut-test.

Sõnastame kõigepealt null- ja alternatiivhüpoteesi.
H0: haridustaseme ja suhtumise, et töökohtade nappuse korral peaks meestel

olema eelisõigus tööd saada, vahel seos puudub.
H1: haridustase ja suhtumine, et töökohtade nappuse korral peaks meestel

olema eelisõigus tööd saada, on omavahel seotud.
Oleme tegelikult jamovis hii-ruut-testi teinud ehk hii-ruut-statistikut

arvutanud, sest see käib risttabeliga koos, aga pole seda varem uurinud ega
tõlgendanud. Seega tehniliselt ei ole jamovis peaaegu midagi uut, küll aga
sisuliselt.
Risttabeli ja hii-ruut-statistiku saamiseks valime jamovis
Analyses => Frequencies => Independent Samples
Rows: haridus
Columns: mnrgtjb
Saame risttabeli, selle all on vaikeseadena hii-ruut-testi tulemus. Valime

jaotuse Statistics alt ka Phi and Cramer’s V.
Näeme, et hii-ruut-statistiku väärtus on 87,5, vabadusastmete arvu 12 juures
on olulisuse tõenäosus alla 0,001, seega saame olulisuse nivool 0,05 järeldada,
et haridustaseme ja suhtumise vahel, et meestel peaks töökohtade nappuse
korral olema eelisõigus tööd saada, esineb ka populatsioonis (st Eesti
rahvastikus vanuses 15+ aastat – see on Euroopa Sotsiaaluuringu Eesti
andmete sihtpopulatsioon). Näeme ka, et oleksime saanud H1 kinnitada ka
palju rangemal olulisuse nivool, nt 0,01 või 0,001.
Saime küll teada, et seos kahe tunnuse vahel on statistiliselt oluline, st saame
öelda, et seos esineb ka populatsioonis, kuid püüame anda mingi hinnagu ka
seose tugevusele. See on sisulises mõttes vajalik, sest vabalt võib olla nii, et
seos on statistiliselt oluline, st on alust öelda, et seos esineb populatsioonis,
kuid seos on küllaltki nõrk. Üldiselt on küll nii, et mida tugevam on seos, seda
väiksem on ka olulisuse tõenäosus, kuid pidagem meeles, et olulisuse
tõenäosus sõltub ka valimi suurusest – suure valimi korral on võimalik ka
nõrga seose korral saada väike olulisuse tõenäosus, mille põhjal kinnitada
alternatiivhüpotees. See ei tähenda sisulist vastuolu, taolisel juhul oleme
lihtsalt oma andmete pealt tuvastanud populatsioonis esineva nõrga seose.
Seega, oluline on ka seose tugevust hinnata, mida võimaldabki lihtsamini

Crameri V. Crameri V puhul ei ole väga selgeid piire, millise V väärtusega seost
lugeda nõrgaks või mõõdukaks või tugevaks, nagu loengus öeldud, sõltub see
ka uurimisvaldkonnast või isegi konkreetsetest tunnustest. Seetõttu ei näita
Crameri V n-ö lõplikku tõde seose tugevuse kohta. Crameri V väärtust 0,12
võiks tõlgendada nõrga seosena, kuid seosetugevuse hindamiseks tuleks
uurida ka Crameri V aluseks olevat risttabelit.
Crameri V on kokkuvõtlik näitaja, mis on küll kasulik, kuid ei võimalda samas

seose olemust täpsemini lahata. Võib olla, et nt kutsehariduse ja
üldkeskharidusega vastajate seas ei erine suhtumise tunnuse jaotused
jaotusest kogu valimis (st veerutunnuse marginaaljaotusest) ja põhiline
erinevus, mis panustab üldisesse seosesse kahe tunnuse vahel, tuleneb põhi-
ja kõrgharidusega vastajate suhtumise jaotuste erinevusest. Sellest võib anda
aimu teoreetiline jaotus. Jamovi seda vaikeseadena ei esita, saame selle ise
seadistada jaotusest Cells => Expected counts.
Kahjuks ei arvuta jamovi liht- ega standardiseeritud ruutjääke, mille alusel

oleks tegeliku ja teoreetilise jaotuse erinevuse hindamine lihtsam. Üldiselt
võib ehk siiski märgata eelkirjeldatud mustrit, et suurim jaotuste lahknevus
on kõige madalama ja kõige kõrgema haridustasemega vastajate seas, mis
on ka loomulik. Lähema sisulise võrdluse jaoks võiks sisse lülitada
reaprotsendid (Cells => Percentages => Row), tegeliku ja teoreetilise jaotuse
sagedused võiks samas välja lülitada, et tabel liiga kirjuks ei läheks.
Ka siit on näha, et üsna sarnased on omavahel kutse- ja üldkeskharidusega

vastajate arvamuste jaotused, erinedes rohkem ainult nende osakaalu
poolest, kes esitatud väitega üldse ei nõustu. See selgitab ka päris madalat
Crameri V väärtust (0,12). Samas veerutunnuse marginaaljaotusest (tabeli
alumises reas toodud protsentjaotusest) erinevad rohkem kõrg- ja
põhiharidusega vastajate arvamuste jaotused, sealjuures vastanduvad need
teineteisele enim. Kõrgharidusega vastajate hulgas on väiksem väitega
nõustujate ja neutraalsel seisukohal olijate osakaal ning suurem üldse mitte
nõustujate osakaal, samas põhihariduse või madalama haridusega vastajate
hulgas on märkimisväärselt suurem nõustujate ja ka neutraalsel positsioonil
olijate osakaal, oluliselt väiksem on (üldse) mitte nõustujate osakaal. Seega
seose tugevust hinnates näeme, et kogu tabeli peale tervikuna ei pruugi seos
tõesti tugev olla, kuid konkreetsemalt teatud haridustaseme kategooriates on
väitega nõustmise jaotustes märkimisväärsed erinevused, mis on sisuliselt
olulised. Siit tuleb ka välja tõsiasi, et Crameri V võib sisuliselt oluliste detailide
märkamiseks jääda liiga üldiseks.
Siinkohal oleks paras hetk käsitleda ka andmete kaalumist, sest kui üldiselt
jamovis kahjuks andmete kaalumist pole võimalik teha, siis risttabeli ja selle
alusel arvutatava hii-ruut-statistiku puhul on see võimalik. Andmete
kaalumiseks nimetatakse seda, kui me omistame mingitele indiviididele
analüüsis suurema, mingitele väiksema kaalu. See võib olla vajalik nt juhul, kui
hoolimata populatsioonist juhuvalimi võtmisest on küsitlusega saadud
andmetes mingid indiviidide grupid ala- või üleesindatud. Taoline olukord
võib tekkida nt selle tõttu, et osades gruppides (nt nooremate meeste seas,
nagu enamasti küsitlustes juhtub) on vastamismäär madalam kui teistes.
Selle tõttu võib kannatada küsitlusega saadavate andmete esinduslikkus ehk
andmestikus olevate tunnuste jaotused ja tunnuste alusel arvutatavad
parameetrid võivad erineda nende tegelikest väärtustest populatsioonis
rohkem kui see oleks ainult valimi juhuslikkusest tulenevalt. Andmete
kaalumine võib seda esinduslikkuse kadu vähendada ehk muuta meie valimi
andmed (täpsemalt, nende alusel arvutatavad jaotused ja parameetrid)
populatsiooni suhtes esinduslikumaks.
Andmete kaalumiseks peab andmetes esinema n-ö kaalu tunnus, kus igal
indiviidil on kaalumiseks vajalik väärtus. Nendel indiviididel, kes kuuluvad
mingisse andmetes alaesindatud gruppi, on kaalu tunnuses ühest suurem
väärtus ja seetõttu saavad nemad analüüsis n-ö suurema kaalu – nt indiviid,
kellel on kaalu tunnuses väärtus 1,3, esindab analüüsis mitte ühte indiviidi,
vaid 1,3 indiviidi. Sisuliselt võib see tunduda imelik, sest 1,3 indiviidi on justkui
sama võimatu kui see, et kellelgi on 2,45 last, aga andmeanalüüsi tehes ei
analüüsigi me ainult ühte indiviidi, vaid teeme järeldusi indiviidide kogumi(te)
kohta. Analoogselt on nendel indiviididel, kes esindavad mingit andmetes
üleesindatud gruppi, kaalu tunnuses ühest väiksem väärtus ja seetõttu
saavad nemad analüüsis väiksema kaalu. Eesmärk on saada valim samadesse
proportsioonidesse nagu populatsioonis, nt kui populatsioonis on 55% naisi ja
45% mehi, aga kogutud küsitlusandmetes nt 60% naisi ja 40% mehi, siis
omistatakse naistele ühest väiksem kaal ja meestele suurem kaal, nõnda et
kokku oleks sooline jaotus valimiandmetes sama, mis populatsioonis (55%
naisi, 45% mehi). Muidugi ei võeta kaalu tunnuse arvutamisel arvesse ainult
sugu, vaid ka teisi tunnuseid (tavaliselt sotsiaaldemograafilisi tunnuseid nagu
elukoht, rahvus jms).
Jamovis saame risttabeli koostamisel andmed kaaluda, asetades kaalu

tunnuse väljale Counts (optional). ESS-i andmestikes on reeglina kolm
kaalutunnust: disainikaal (dweight), järelkihistamiskaal (pspwght, sisaldab
endas ka disainikaalu) ja populatsioonikaal (pweight). Nende erinevustesse
lähemalt laskumata ütlen ära, et reeglina on analüüsil mõttekas kasutada
kaalumiseks järelkihistamiskaalu tunnust. Asetame tunnuse pspwght väljale
Counts (optional).
Antud juhul risttabelis ega muudes näitajates muutusi praktiliselt ei ole – nt

hii-ruut-statistik kahanes ainult 2,1 võrra 87,5-lt 85,4-le. Nii võibki olla, et
andmete kaalumine ei pruugi analüüsitulemust muuta, aga see ei pruugi
alati, st teiste tunnuste puhul nii olla – võib esineda juhtumeid, kus nt
kaalumata andmetega te statistiliselt olulist seost ei leia, kuid kaalutud
andmete põhjal see ilmneb. Põhjus on siis ilmselt selles, et seos esineb
(tugevamalt) just mingite rühmade seas, kes on valimiandmetes mingitel
põhjustel alaesindatud. Kuivõrd kaalumine tulemust mõjutab, sõltub eelkõige
sellest, kui kvaliteetsete andmetega on tegu. ESS-i Eesti andmete (vähemalt
viimaste küsitluslainete andmete) puhul kaalumine tihtilugu märkimisväärset
efekti ei omagi, sest kogutud andmed esindavad uuringu sihtpopulatsiooni
juba niigi üsna hästi.
Andmete kaalumisega on üldiselt nii, et kui seda on võimalik teha (kaalu

tunnus on andmetes olemas ja kasutatav analüüsiprogramm võimaldab
andmeid kaaluda), võiks andmeid kaaluda. Tasulised
andmeanalüüsiprogrammid (nt SPSS, Stata, SAS) seda üldjuhul võimaldavad,
tasuta ehk vabavaralistest programmidest võimaldab seda kõigi
andmeanalüüsimeetodite puhul minu teada ainult SPSSi tasuta analoog
PSPP. Jamovis on kaalumine võimalik ainult osade (st väheste)
analüüsimeetodite puhul nagu risttabel ja hii-ruut-test, seega kui kasutate
jamovis samas analüüsis erinevaid analüüsimeetodeid, millest kõik kaalumist
ei võimalda, võib olla tulemuste võrreldavuse suhtes mõttekam kaalusid mitte
kasutada. Kuigi kaalumine võib ESS-i Eesti andmete puhul analüüsitulemust
natuke täpsemaks muuta, ei eelda ma, et jamovis ESS-i Eesti andmete
analüüsimisel kaale kasutaksite. Küll on oluline teada, mida kaalud teevad ja
vajadusel osata neid kasutada. Kuidas täpsemalt kaale arvutatakse, milles
seisnevad erinevate kaalutunnuste erinevused, millal on andmete
kaalumisest kasu ja mis juhtudel võib see andmete esinduslikkust hoopis
vähendada, sellega saab tutvuda ainekursuses Andmepädevus (SVUH.00.059,
6EAP), mis on alates sügisest 2023 valikainena võetav ka ajakirjanduse ja
kommunikatsiooni õppekaval.
Harjutusülesanne 2. Kas linnas ja maal elavad inimesed suhtuvad

sotsiaaltoetustesse erinevalt või sarnaselt? Andmestikus on kuus tunnust, mis
sisaldavad hinnanguid sotsiaaltoetuste mõjule, valige neist vähemalt kolm.
Kas saame väita seoste esinemist ka laiemalt elanikkonna seas, st

populatsioonis?
Kas seosed on pigem nõrgad, mõõdukad või tugevad? Kas seosetugevused

erinevad?
Kui seos on olemas, püüdke ka risttabelite põhjal leida, kus linna- ja

maainimeste hinnangud enim lahknevad, st millistes sotsiaaltoetuste
hinnangu tunnuse kategooriates on erinevused linna- ja maainimeste
hinnangutes suurimad.
Risttabeli ja hii-ruut-statistiku saamiseks valime jamovis
Analyses => Frequencies => Independent Samples
Rows: elukoht
Columns: sbstrec (esimene kuuest tunnusest, mis mõõdavad hinnanguid

sotsiaaltoetuste mõjule)
Counts (optional): pspwght (andmeid võiks ka kaaluda, sel juhul tuleks antud
väljale asetada järelkihistamiskaalu tunnus pspwght)
Saame risttabeli, selle all on vaikeseadena hii-ruut-testi tulemus. Valime

jaotuse Statistics alt ka Phi and Cramer’s V.
Seose sisuliseks tõlgendamiseks võiks risttabelis seadistada indiviidide arvude

asemele reaprotsendid (Cells => Percentages => Row), et uurida väitega
nõustumise jaotust elukoha lõikes. Enne seda võiks kontrollida ka
hii-ruut-testi eelduste täidetust, lülitades hetkeks sisse teoreetilise ühisjaotuse
(Cells => Counts => Expected counts). Kõigi kuue risttabeli puhul peaks
ilmnema, et hii-ruut-testi eeldused on täidetud (kõigi teoreetiliste jaotuste
kõik lahtrisagedused on ühest suuremad, ka on kõigi tabelite puhul 80%
lahtrites sagedused üle viie).
Tunnuste elukoht ja sbstrec puhul peaksite nägema taolist pilti:
Risttabelite koostamiseks elukoha ja teiste sotsiaaltoetuste mõju puudutavate

tunnustega oleks mõttekas teha saadud tabelil parem hiireklikk ja avanevast
hüpikmenüüst valida Analysis => Duplicate. Saate samasugused tabelid, kus
seadetes on lihtne veerutunnuseks panna sbstrec asemel mingi muu tunnus,
näiteks sbprvpv (vastavat risttabelit on ka eelmiselt kuvatõmmiselt juba
näha).
Kas saame väita seoste esinemist ka populatsioonis, st laiemalt elanikkonna
seas? Näiteks olulisuse nivool 0,01 saame kinnitada seose esinemist kolme
tunnuspaari puhul (sest hii-ruut-statistiku olulisuse tõenäosus on väiksem
seatud olulisuse nivoost), st et elukohaga on seotud hinnangud väidetele, et
• sotsiaaltoetused koormavad liiga palju majandust (χ2 = 23,9, df = 4, p <

0,001)
• sotsiaaltoetused hoiavad ära vaesuse laialdast levikut (χ2 = 19, df = 4, p <

0,001), ja
• sotsiaaltoetused muudavad inimesed laisaks (χ2 = 35,8, df = 4, p < 0,001).
Siin ja edaspidi esitatud näitajad on arvutatud kaalutud andmete pealt (st

arvestades kaalutunnust pspwght).
Olulisuse nivool 0,01 ei saa seose esinemist väita elukoha ja hinnangute vahel,
et
• sotsiaaltoetused muudavad ühiskonna võrdsemaks (χ2 = 9,74, df = 4, p =

0,045),
• sotsiaaltoetused lähevad ettevõtlusele maksude ja lõivude läbi liiga

palju maksma (χ2 = 2,67, df = 4, p = 0,614), ja
• sotsiaaltoetused vähendavad inimeste valmidust üksteise eest

hoolitseda (χ2 = 13,3, df = 4, p = 0,01).
Kahe eelnimetatud seose puhul oleks võimalik küll seose esinemist

populatsioonis väita olulisuse nivool 0,05, kuid ühel juhul oleks niikuinii tegu
päris piiripealse otsusega.
Kas seosed on pigem nõrgad, mõõdukad või tugevad? Kas seosetugevused
erinevad? Seose tugevust pole eriti mõtet hinnata neil juhtudel, kus olulisuse
tõenäosus on väiksem seatud olulisuse nivoost, sest nendel juhtudel ei saa
me väita, et seos esineb populatsioonis, seega igasugused edasised
tõlgendused (kaasa arvatud hinnang seose tugevusele) saavad kehtida ainult
valimile. Enamasti ei huvitav meid see, mida on öelnud tuhat või paar tuhat
vastajat, vaid see, mida me saame öelda populatsiooni kohta laiemalt (antud
juhul Eesti elanike arvamuste kohta).
Kõigi kolme (olulisuse nivool 0,01) statistiliselt olulise seose puhul jääb Crameri
V 0,1 piirimaile, kõrgeim Crameri V väärtus esineb seose puhul, kus
uuritavateks tunnuseks on elukoht ja hinnang sellele, et sotsiaaltoetused
muudavad inimesed laisaks (V = 0,13). Crameri V järgi võiks öelda, et seosed on
pigem nõrgad. Tõepoolest, tugevaima seose puhul on erinevused maa- ja
linnaelanike hinnangute jaotustes nõustujate ja mittenõustujate vahel umbes
10% – sisuliselt võttes võib see olla märkimisväärne erinevus, aga arvestada
tuleb ka sellega, et tegu on valimiandmetega ja populatsioonis võib erinevus
olla mõnevõrra veelgi väiksem (võib muidugi olla ka suurem, täpselt me seda
ei tea). Mis on sisulises mõttes oluline või märkimisväärne või tugev või
mõõdukas või nõrk seos, see on subjektiivne otsus ja sõltub andmete
analüüsija enda ainealastest teadmistest ja hinnangust.
Seoste puhul, kus olulisuse tõenäosus ei olnud väiksem kui 0,01, aga oli siiski
väiksem kui 0,05, võib näha, et Crameri V on veelgi väiksem ja erinevused
maa- ja linnaelanike hinnangute jaotustes veelgi väiksemad. See viitab ka
tõsiasjale, et tulemus p < 0,05 ei pruugi veel sisuliselt olulist tulemust
tähendada (väga suure indiviidide arvu korral ei pruugi seda muidugi
tähendada ka tulemus p < 0,01). Nii või teisiti tuleb tulemuste sisulist olulisust
(st kas seos esineb ka sisulises mõttes, kas on mõtet seose esinemisele rajada
ka sisulisi järeldusi) hinnata eraldi statistilisest olulisusest.
Kus linna- ja maainimeste hinnangud enim lahknevad? Tõlgendust võiks

alustada sellest, et hinnangutes kaldutakse üldiselt sotsiaaltoetuste mõju
positiivsemaks pidama. Sisulises plaanis on siin mõned huvitavad erinevused
maa- ja linnaelanike vahel. Linnaelanike seas on mõnevõrra rohkem neid, kes
ei nõustu väitega, et sotsiaaltoetused koormavad majandust (st
linnainimesed näevad selles mõttes sotsiaaltoetusi mõnevõrra positiivsemas
valguses). Sarnaselt võib öelda, et maaelanikud arvavad sagedamini, et
sotsiaaltoetused muudavad inimesed laisaks. Samas, sellest hoolimata
nõustuvad maaelanikud mõnevõrra sagedamini väitega, et sotsiaaltoetused
hoiavad ära vaesuse laialdast levikut.
Praktikum 6 – hüpoteeside testimine, t-test
Eelmises praktikumis uurisime, millist meeste ja naiste üldistatud usalduse

taset populatsioonis saame eeldada, kasutades keskmiste usaldusvahemikke.
Muuhulgas leidsime, et usaldusnivool 95% ei saa eeldada, et meeste ja naiste
keskmine üldistatud usalduse tase ei kattu (ehk need keskmised võivad
populatsioonis olla võrdsed). Võrdleme seekord meeste ja naiste üldistatud
usalduse taset hüpoteeside testimise nurga alt, kasutades t-testi.
Harjutus 1. Leidke Euroopa Sotsiaaluuringu Eesti 2016. aasta andmete põhjal,

kas meeste ja naiste üldistatud usalduse (tunnus ppltrst) aritmeetilise
keskmised populatsioonis erinevad. Sõnastage vastav alternatiiv- ja
nullhüpotees ja testige hüpoteesipaari t-testi abil olulisuse nivool 0,05
(eelnevalt uurige, kas t-testi eeldused on üldse täidetud), sõnastage
järeldused. Uurige jamovis sõltumatute kogumite t-testi seadistuses ka
valikuid Mean Difference ja Confidence Interval – mida need näitajad teile
ütlevad, kuidas neid tõlgendada?
Kui soovime teada, kas mehed ja naised erinevad selle poolest, kuivõrd nad
inimesi üldiselt usaldavad, siis on selleks üks (ja praktikas väga sagedasti
kasutatav) võimalus püstitada vastavad hüpoteesid ja neid kontrollida.
Püstitame hüpoteesid meeste ja naiste keskmise üldistatud usalduse kohta:
H1: meeste ja naiste keskmine üldistatud usaldus on erinev (mm ≠ mn)
H0: meeste ja naiste keskmine üldistatud usaldus ei erine (mm = mn)
Loengus me liit- ja lihthüpoteesi mõistet ei käsitlenud, aga saate selle kohta

täpsemalt Toodingu (2015) õpikust lugeda; antud juhul alternatiivhüpotees H1
on liithüpotees, nullhüpotees H0 lihthüpotees. Liit- ja lihthüpotees pole
maailma kõige olulisemad mõisted, aga hea on neis siiski orienteeruda.
Olulisem on see, kas tegu on kahe- või ühepoolse hüpoteesipaariga (võib
öelda ka kahe- või ühepoolse alternatiivhüpoteesiga, sest reeglina sõltub
kahe- või ühepoolsus just sellest, milline on alternatiivhüpotees). Sellest, kas
tegu on ühe- või kahepoolse hüpoteesiga, sõltub, kuidas seadistada testi
läbiviimine jamovis. Antud juhul on tegu kahepoolse hüpoteesipaariga.
Hüpoteesipaari testimiseks t-testiga oleks hea kõigepealt kontrollida, kas

tunnus, mille keskmist tahame arvutada, on normaaljaotuselähedase
jaotusega mõlemas võrreldavas grupis, st nii meeste kui naiste puhul (nagu
kirjas ka Tooding 2015: 161). Samamoodi kontrollime eeldust, kas arvulise
tunnuse jaotus on meeste ja naiste seas sarnase hajuvusega. Selle jaoks
saame jamovis arvutada jaotusparameetrid nagu seda juba varem oleme
teinud:
• Analyses => Exploration => Descriptives
• Variables: ppltrst
• Split by: gndr
• Statistics: valime lisaks Mode, Std. Deviation, Skewness, Kurtosis
Asümmeetria- ja järskuskordajad (read Skewness ja Kurtosis) on küllaltki

lähedal nullile, nii et tegu on küllaltki normaaljaotuselähedaste jaotustega. Ka
aritmeetiline keskmine ja mediaan skaalal 0-10 on küllaltki lähestikku, mood
erineb natuke rohkem, kuid on skaala keskpunktis. Üldistatud usalduse
standardhälbed on meeste ja naiste puhul väga lähedased, nii et ei teki
küsimust hajuvuse erinevusest. Seega läheme edasi standardse t-testi juurde.
Kõrvalmärkusena: mis on piisavalt suur standardhälvete erinevus, et peaks
t-testi eelduste täidetuse pärast muret tundma? See on jällegi suhteline, mõni
allikas ütleb, et erinevus üle 2 standardhälbe. Erinevatel juhtudel võib see olla
liiga konservatiivne või liiga piirav hinnang, seega kui on kahtlus, võib teha
lisaks Welchi t-testi, jamovis käib see ühe nupulevajutusega.
Kuna võrdleme kahe teineteisest sõltumatu kogumi keskmisi (st meeste ja

naiste keskmisi, need grupid omavahel ei kattu), siis valime menüüribalt
Analyses nupu T-Tests ja Independent samples t-test. Viime tunnuse ppltrst
väljale Dependent Variables ja tunnuse gndr väljale Grouping Variable.
Jaotuse Hypothesis alt on vaikimisi sees esimene valik Group 1 ≠ Group 2, mis
tähendab, et testitakse kahepoolest hüpoteesipaari, mis sobib meie
uurimisküsimuse ja hüpoteesidega. Nende valikutega saamegi juba olulise
kätte, mille alusel saab hüpoteesipaari suhtes otsuse teha.
Et kummutada H0 ja kinnitada H1, peaks t-statistiku väärtus (jamovi

väljundtabelis veerus Statistic) asuma kriitilises piirkonnas. Suure hulga
indiviidide ehk kõrge vabadusastmete arvu korral nagu meie ülesandes (df =
n - 1 = 2016) ja olulisuse nivool 0,05 on kahepoolse hüpoteesi korral t-statistiku
kriitilised piirid -1,96 ja 1,96 (miks just sellised, saad meelde tuletada loengu
põhjal). Tulemustest näeme, et olulisuse nivool 0,05 tuleb H0 kummutada ja
kinnitada H1, sest teststatistiku väärtus -2,12 asub kahepoolse hüpoteesi
kriitilises piirkonnas ehk ei ole kooskõlas nullhüpoteesi eeldusega. Kui
oleksime kasutanud rangemat olulisuse nivood, nt 0,01, oleks kriitiliste piiride
väärtused kaugemal nullist.
Sama järelduseni jõuame olulisuse tõenäosuse põhjal (tabelis veerg p), sest
see on väiksem kui kehtestatud olulisuse nivoo (p < 0,05).
Kui mäletate eelmises praktikumis tehtut, siis tekib kindlasti õigustatud

küsimus, miks jõudsime tookord keskmiste usaldusvahemike põhjal
vastupidisele järeldusele (meeste ja naiste üldistatud usalduse keskmiste
erinevust usaldusnivool 95% ei saa väita) ja miks. Kumb järeldus on siis vale
(sest vastukäivad järeldused justkui samal ajal õiged olla ei saa)? Tegelikult on
mõlemad järeldused omal kohal, sest järelduste loogika on erinev (sedasama
näilist vastuolu käsitleb ka Tooding 2015: 164-165). Eelmise nädala näites
põhines järeldus keskmiste usaldusvahemikel, antud näites põhineb see
keskmiste erinevuse tõepärasuse hinnangul – kui mäletate t-statistiku
valemit, siis see arvutatakse kahe kogumi keskmiste erinevuse põhjal, samas
kui keskmise usaldusvahemik, mida arvutasime eelmine kord, arvutatakse
ühe grupi keskmise põhjal (olenemata sellest, milline on teise grupi
usaldusvahemik). Nii võibki olla, et keskmiste endi usaldusvahemike põhjal
saame konservatiivsema hinnagu keskmiste erinevuse esinemisele
populatsioonis, st teatud juhtudel, kui keskmiste erinevus valimis on väike,
jääb statistiline seos ehk tegelikkuses esinev keskmiste erinevus
populatsioonis valimi keskmiste usaldusvahemike põhjal kinnitamata. Need
on juhud, kus keskmiste usaldusvahemikud etteantud usaldusnivool
kattuvad, aga keskmiste erinevuse (st näitaja mm - mn) usaldusvahemik on
samal usaldusnivool nullist erinev. Keskmiste erinevuse usaldusvahemik on
arvutatud Tooding 2015 näites lk 163 Tabelis 5.2, jamovis saame selle arvutada,
lülitades jaotuse Additional Statistics all sisse Mean difference ja Confidence
Interval, kus vaikimisi on on seadistatud 95% – kui hüpoteeside testimise
aluseks võtsime olulisuse nivoo 0,05, siis peakski siin arvutama keskmiste
erinevuse usaldusvahemiku sama range kriteeriumi järgi ehk usaldusnivool
95%.
Näeme, et keskmiste erinevus on -0,197 palli, sellega koos antakse ka

keskmiste erinevuse standardviga, mille alusel ongi arvutatud keskmiste
erinevuse usaldusvahemik usaldusnivool 95%. Usaldusvahemik ei kata nulli,
see kinnitab samamoodi H1 kehtivust. Usaldusvahemik annab siinkohal
lisainfot – saame väita keskmiste erinevust populatsioonis, kuid usaldusnivool
95% peame arvestama, et see erinevus võib olla nii suur nagu 0,38 palli kui ka
nii väike nagu 0,02 palli.
Erinevaid statistilisi teste on palju, ükski neist ei ole vale (eeldusel, et testi
kasutatakse selleks sobivatel andmetel), aga nagu näha, piiripealsete
tulemuste korral võivad nad (antud juhul keskmiste usaldusvahemike
võrdlemine ja t-test) anda alust erinevateks järeldusteks – kui see juhtub, on
oluline mõtestada, millest erinevus võib tulla. Seetõttu võibki olla kasulik (eriti
piiripealsete tulemuste korral) kasutada ka mõnda muud statistilist testi või
meetodit (ingl k nimetatakse seda lähenemist robustness check). Lõpuks on
oluline ka mõista, et statistiliselt oluline erinevus ei pruugi tähendada
sisuliselt olulist erinevust – ka antud näites, kuigi tuvastasime t-testi põhjal
naiste ja meeste üldistatud usalduses statistiliselt olulise erinevuse (st on alust
väita keskmiste erinevust ka populatsioonis), on see erinevus tõenäoliselt väga
väike (valimi põhjal keskmiselt vaid 0,2 palli). Kas see tähendab, et olulisuse
tõenäosuses sajandiku komakoha tagaajamine on mõttetu? Oleneb meie ees
seisva küsimuse sisulisest olulisusest ja sellest, kui suurt eksimisruumi saame
endale lubada. Seetõttu kasutatakse ka sõltuvalt olukorrast erinevaid usaldus-
ja olulisuse nivoosid – kui testime paberlennuki vastupidavust, võime
rahulduda esimest liiki veaga 10% (ehk olulisuse nivoo 0,1), kui testime päris
Boeingu vastupidavust, võib olla oluline saada tulemused olulisuse nivool
0,001 (sest suuremat eksimisruumi ei saa me inimeste elude arvelt endale
lubada).
Veel paar tähelepanekut.
Kui oleksime püstitanud ühepoolse alternatiivhüpoteesi, nt H1: mm < mn,

sellele vastav nullhüpotees oleks olnud H0: mm ≥ mn, siis oleksime pidanud
seadistama jaotuse Hypothesis alt Group 1 < Group 2. Tehke see läbi.
Antud juhul oleksime saanud ka ühepoolse alternatiivhüpoteesi kinnitada,

sest t-statistiku väärtus on väiksem kriitilisest piirist ühepoolse hüpoteesi
korral (-2,12 < -1,64). NB! Vastavalt sellele, kumma grupi keskmise väiksemat
väärtust eeldame, tuleb valida ka t-statistiku kriitilise väärtuse märk; mõelge
loenguslaididel nähtud täidetud sabadega jaotuse joonisele. Kumma grupi
keskmisest lahutab jamovi teise grupi keskmine, sõltub sellest, millised
koodid on gruppidel andmestikus (antud juhul on meestel tunnuses gndr
kood 1, naistel kood 2). T-statistiku väärtus võrreldes eelnevaga ei muutu, sest
kõik parameetrid t valemis jäävad samaks, muutub t-statistiku kriitiline piir.
Küll aga poleks me saanud alternatiivhüpoteesi kinnitada, kui hüpoteesipaar

oleks olnud H1: mm > mn ja H0: mm ≤ mn, sest -2,12 < 1,64 ehk t-statistiku
väärtus oleks olnud väljaspool kriitilist piirkonda (st nullhüpoteesiga kooskõlas
olevas piirkonnas, mis on antud juhul -∞ kuni 1,64). Seega: NB! Ühepoolse
alternatiivhüpoteesi puhul on alati oluline kontrollida, kumma grupi
keskmine on tegelikult suurem ja kas see vastab sisuliselt sellele, mida
alternatiivhüpotees väidab.
Nagu eelnevast näha, kui valida n-ö „õige“ testitava erinevuse suund, on
võimalik keskmiste erinevust kergemini kinnitada (esimese ühepoolse
hüpoteesipaari korral pidi t-statistik olema H1 kinnitamiseks väiksem kui -1,64,
eelnevalt kahepoolse hüpoteesipaari puhul oli H1 kinnitamiseks vaja, et
t-statistiku väärtus oleks väiksem kui -1,96 või suurem kui 1,96). Tehniliselt
tõesti nii ongi, aga polnuks õige, juhul kui oleksime t väärtuseks saanud nt -1,7,
vahetada kahepoolne hüpoteesipaar meile „sobiva“ ühepoolse hüpoteesipaari
vastu ainult sellepärast, et see võimaldab H1 kinnitada. See läheb juba
tegevuse alla, mida nimetatakse p-hacking (analüüsi eeldusi muudetakse nii,
et saadakse endale sobiva olulisuse tõenäosuse väärtuse alusel H1 kinnitada)
ja kus analüüsi ei juhi enam sisulised kaalutlused, vaid valikuline subjektiivne
lähtumine andmetehnilistest nüanssidest. Peaksime hüpoteeside
sõnastamisel siiski lähtuma sisulistest kaalutlustest.
Valisime eelnevalt t-testi, mis ei eeldanud võrdseid hajuvusi kogumites. Võite
huvi pärast proovida, millise tulemuse saate siis, kui valite jaotuse Tests alt
Welch’s. Tulemused tõesti praktiliselt ei erine, sest hajuvused olid väga
sarnased.
Meile olulistest valikutest võivad kasulikud olla ka jaotuse Additional Statistics

alt Descriptives ja Descriptives Plots, mis antud juhul küll annavad info, mida
praeguseks hetkeks oleme analüüsi käigus juba käsitlenud.
Harjutus 2. Kas keskmine rahulolu haridussüsteemiga on Põhja- ja

Kirde-Eestis erinev? Sõnastage vastav alternatiiv- ja nullhüpotees ja testige
hüpoteesipaari t-testi abil tavalisest rangemal olulisuse nivool 0,01 (eelnevalt
uurige, kas t-testi eeldused on üldse täidetud), sõnastage järeldused.
H1: Keskmine rahulolu haridussüsteemiga on Põhja- ja Kirde-Eestis erinev (mp

≠ mk).
H0: Keskmine rahulolu haridussüsteemiga Põhja- ja Kirde-Eestis ei erine (mp

= mk).
Jaotusparameetrite seadistamine käib antud juhul samamoodi nagu ennegi,

tunnusteks on siin stfedu ja cregion. Jaotusparameetritest näeme, et rahulolu
tunnuse jaotused vaadeldavates gruppides ei ole normaaljaotusest väga
kaugel, standardhälbed on Põhja-Eestis (kood EE001) 2,08, Kirde-Eestis (kood
EE007) 2,4. Tundub ok.
Edasi selgub, et t-test ei taha grupeerivaks tunnuseks võtta tunnust, kus on

rohkem kui kaks gruppi. Õige küll, t-testiga saab võrrelda ainult kahe grupi
keskmisi. Kodeerime tunnuse cregion ümber, märgistades selle tunnuse
andmestikus ja valides Data => Compute.
Seadistades sõltumatute kogumite t-testi, saame tabeli alla märke ᵃ Levene's

test is significant (p < .05), suggesting a violation of the assumption of equal
variances. Räägitakse hoopis mingist muust testist ja tuuakse tulemuse
olulisuse tõenäosus. Tegu on Levene’i testiga, millega jamovi kulisside taga
testib hüpoteesipaari:
H1: arvulise tunnuse hajuvus gruppides on erinev
H0: arvulise tunnuse hajuvus gruppides ei erine
Ja järeldab, et hajuvused on erinevad. Selliste statistiliste testide puhul tuleb

küll tähele panna, et mida suurem on indiviidide arv, seda kergemini leitakse
statistiliselt olulisi erinevusi, seega alati ei pruugi olla mõistlik neist
tulemustest lähtuda (oleneb testi tundlikkusest). Me ei pea sellesse sügavalt
süüvima, vaid võime kindluse mõttes teha ka Welchi t-testi (t-testi seadetes
jaotuses Tests). Lülitame Additional Statistics alt sisse ka muud valikud, et
uurida, kui suur keskmiste erinevus on.
Tõsi on, et Welchi t-testiga saame mõnevõrra erineva t-statistiku, kuid

mõlemad on kaugelt üle kriitilise väärtuse 2,58 (vabadusastmete arv on
Studenti t-testi puhul 1007, Welchi t-testi puhul 272). Ka olulisuse tõenäosus
on mõlemal juhul väga madal, p < 0,001. Seega saame olulisuse nivool 0,01
kinnitada, et keskmine rahulolu haridussüsteemiga Põhja- ja Kirde-Eestis
erineb. Keskmiste erinevus on pea terve pall, mis skaalal 0-10 on ka sisulises
mõttes päris suur erinevus. Jooniselt on näha, et keskmiste
usaldusvahemikud on küll üksteisele lähemal, kuid keskmiste erinevuse
usaldusvahemiku alumine usalduspiir on ikkagi poole palli juures (ülemine
tabel, eelviimane veerg), ülemine usalduspiir lausa 1,2 palli.
Harjutus 3. Kas tervishoiusüsteemiga ollakse rahul erineval määral kui

haridussüsteemiga? Kõnealused tunnused on samas andmestikus. Sõnastage
vastav alternatiiv- ja nullhüpotees ja testige hüpoteesipaari t-testi abil
(eelnevalt uurige, kas t-testi eeldused on üldse täidetud), sõnastage
järeldused.
H1: keskmine rahuloluhinnang tervishoiusüsteemile erineb keskmisest
rahuloluhinnangust haridussüsteemile (mt ≠ mh)
H0: keskmine rahuloluhinnang tervishoiusüsteemile ei erine keskmisest

rahuloluhinnangust haridussüsteemile (mt = mh)
Jällegi on tegu kahepoolse hüpoteesipaariga.
Kuna võrdleme kahe teineteisega seotud kogumi keskmisi (arvutame kahe

tunnuse keskmised samade indiviidide pealt), teeme paariskogumite t-testi.
Eelnevalt veel vaatleme jälle jaotusparameetreid.
• Analyses => Exploration => Descriptives
• Variables: stfedu, stfhlth
• Statistics: valime lisaks Mode, Std. Deviation, Skewness, Kurtosis
Kujuparameetritest on haridussüsteemiga rahulolu asümmeetriakordaja

mõnevõrra kõrgem (-0,786), teatavad asümmeetriat näeme ka histogrammilt
(kui see sisse lülitada) ja sellele viitavad ka haridussüsteemiga rahulolu
erinevad keskmine, mediaan ja mood. Samas pole asümmeetria liiga suur.
Standardhälbed on küllaltki sarnased, seega jätkame paariskogumite
t-testiga.
Analyses => T-Tests => Paired Samples T-Test
Paired Variables: stfedu, stfhlth
Hypothesis: Measure 1 ≠ Measure 2
Additional Statistics: Mean Difference, Confidence Interval 95%

Tulemused on tõlgendatavad analoogselt nagu eelmise t-testi puhul. Antud
juhul saame kinnitada H1, sest t väärtus asub t-statistiku kriitilises piirkonnas
ka rangeimal olulisuse nivool, 28,6 > 2,58 (df = 1970). T-statistiku olulisuse
tõenäosus ehk p < 0,001 (täpne p väärtus on ilmselt nii väike, et selle
edasiandmine oleks tähendanud paljude komakohtade esitamist). Seega
saame olulisuse tõenäosuse alusel samamoodi järeldada, et H0 tuleb
kummutada ja H1 kinnitada (võime öelda, et keskmiste erinevus on olulisuse
nivool 0,01 (või ka olulisuse nivool 0,001) statistiliselt oluline).
Kahe tunnuse keskmiste erinevus on 1,57 palli (positiivne väärtus tähendab, et

haridusega rahulolu keskmine on kõrgem, sest vastav tunnus on väljale
Paired Variables asetatud esimesena ning on tabelis enne tunnust stfhlth).
Keskmiste erinevuse usaldusvahemik on 1,46 kuni 1,68, mis näitab veenvalt ka
rahuloluhinnangute keskmiste erinevust sisulises mõttes.
358

Sissejuhatus Kvantitatiivsetesse Meetoditesse Konspekt Eksamiks

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sissejuhatus Kvantitatiivsetesse Meetoditesse Konspekt Eksamiks

Uploaded by

Copyright:

Available Formats

SISSEJUHATUS KVANTITATIIVSETESSE

Milliste uurimisülesannete lahendamiseks sobivad

Küsimused on kui palju ja miks. Tulemused üldistatakse üldkogumile ning

Läbilõikeandmestik, ristlõikeandmestik - Erinevad tunnused kogutakse

Longituuduuring - uuringutüüp, mille puhul tehakse kordusmõõtmisi

Tunnus - Tunnus on näitaja, mida saab mõõta kõigil uurimisalustel objektidel.

Nominaaltunnus - vastusevariandid pakuvad objekti kirjelduse, aga ei ütle

Binaartunnus - kaheväärtuselised tunnused. Näiteks sugu (mees/naine)

Arvuline tunnus - mõõtmistulemus on arv. Arvtunnuseid saab jagada

Pidev tunnus - vastusevariantidena sobivad kõik punktid tunnuse skaalal

Diskreetne tunnus - sobivad ainult täisarvulised ja loetavad vastusevariandid

Millist tüüpi tunnustega on mõistlik teha sagedustabeleid?

Järjestustunnust saab kasutada sagedustabeli tegemiseks, aga sõltub palju

Kumulatiivne suhteline sagedus - kumulatiivne sagedus aga liidetakse

Mood - suurima sagedusega väärtus, osutab tüüpilisele väärtusele. Moodi

Mediaan - punkt tunnuse väärtuste järjestatud skaalal, millest suuremaid ja

Aritmeetiline keskmine - ainult arvuliste tunnuste puhul. See on näitaja,

Variatsioonirida - järjestatud väärtuste rida.

Detsiil - variatsioonirida jagatud kümneks osaks.

Kvintiil - variatsioonirida jagatud viieks osaks.

Kvartiil - variatsioonirida jagatud neljaks osaks.

Kvantiilhaare - iseloomustab jaotuse hajuvust, mida suurem on väärtuste

Dispersioon - standardhälbe ruut ehk keskmine ruuthälve. Seda kasutatakse

Standardhälve - iseloomustab vastuste hajuvust keskmise ümber. Seega

1. Leia keskmine 2. Lahuta igast andmepunktist keskmine ja võta saadud

Variatsioonikordaja - suhteline standardhälve ehk standardhälve jagatud

Mastaabimuutus - ühiku muutus, näiteks üleminek sentimeetrilt meetrile,

Sümmeetriline jaotus - sümmeetrilise jaotuse korral langevad mediaan ja

Positiivne ja negatiivne asümmeetria

Asümmeetriakordaja - põhineb keskmisel individuaalsel hälbel

Standardiseeritud normaaljaotuse praktiliselt kõik väärtused on

Ajadimensioonid - kohort (ühe populatsiooni sama põlvkonna kõik liikmed),

Läbilõikeuuringud - samal ajal uuritakse sama meetodi abil erinevaid

Longituuduuringud - samu inimesi uuritakse aastate või aastakümnete

Aegrida - kronoloogiline rida ehk dünaamikarida. Ühe ja sama muutuja

Autokorrelatsioon - perioodil t esineva aegrea väärtuse sõltuvus varasemate

Momentrida - Iga element on seotud teatud kindla ajamomendiga (kuupäev,

Trend - Väljendab ligikaudse mudelina aegrea põhilist kulgu.

Vahede aegrida ehk absoluutne muutus ehk diferents - Kahe järjestikuse

Esimest ja teist järku diferents - esimest järku diferents on kahe järjestikuse

Kasvutempo - Kasvutempo (ahelindeks) ajamomendil t saadakse aegrea

Viitaeg - mitme liikme võrra nihutada.

Absoluutne juurdekasv (ik difference, growth) dt ajamomendil t on

Valim ja populatsioon - valimi alusel arvutatud näitaja kehtib täpselt valimi

Tegelik väärtus - näitaja väärtus populatsioonis. Ei ole võimalik teada saada

Tõenäosuslik valim - Kõigil populatsiooni liikmetel on nullist erinev

Lihtne juhuvalim - tõenäosus valimisse sattuda on kõigil populatsiooni

Usalduspiir, usaldusvahemik - usaldusvahemik on valimi alusel arvutatav

Jamovis. Analyses => Exploration => Descriptives. Tuleb sisse lülitada

Kui tunnuse jaotus on küllaltki normaaljaotuse lähedane, saab edasi minna

Excelis saab usaldusvahemikke lisada ERROR BAR ja ERROR AMOUNT abil.

Mida saab öelda valimi põhjal arvutatud statistiku alusel, mida

Valimi põhjal arvutatud statistik näitab valimi kohta, usaldusvahemiku puhul

Punkthinnang ja vahemikhinnang - punkthinnang on statistik, mis annab

Standardviga - valimite keskmiste standardhälve.

Usaldusvahemiku ja usaldusnivoo tõlgendamine - Usaldusnivoo näitab

Usaldusvahemiku laius (millest sõltub) - usaldusnivoo valik sõltub sellest,

Usaldusvahemike võrdlemine - Kui usaldusvahemikud kattuvad, siis

Usaldusvahemikke pole kohane arvutada:

● Kui tegu pole valimiandmetega (rahvaloendus, registriandmed)

Hüpoteeside kontrollimine, t-test

Statistiline hüpotees - oletus üldkogumi kohta. Seda testitakse

Nullhüpotees - vastupidine alternatiivhüpoteesile.