Professional Documents
Culture Documents
Sissejuhatus Kvantitatiivsetesse Meetoditesse Konspekt Eksamiks
Sissejuhatus Kvantitatiivsetesse Meetoditesse Konspekt Eksamiks
MEETODITESSE
Andmestike tüübid
Tunnuste jaotus
Sagedustabel
Nihe - skaala alguspunkt viiakse näiteks nulli või keskmine nulli. Nihkega
tunnuste puhul ei ole mõtekas võrrelda keskmisi, sest oleme ise selle
määranud.
Aegread
Aegridade analüüs
Excelis. Vajutad format as table ja lülitad tabelis sisse my table has headers.
Seejärel insert ja tabel ja saad joonise. Tuleb enne märgistada ka andmete
veerud, mida tahame kasutada.
Valim ja üldkogum, usaldusvahemik
Usaldusvahemike leidmine
Kui keskmine ehk MEAN jääb usaldusvahemiku piiridesse, siis katab see
usaldusvahemik üldistatud usalduse tegeliku väärtuse populatsioonis.
Püüame jõuda tõele jälile, keskendudes mitte sellele, kas kehtib H1, vaid
sellele, kas kehtib H0. Kui valimiandmete põhjal leiame, et H0 kehtivus ei ole
tõepärane, saame kinnitada H1, sest H0 ja H1 välistavad teineteise. Seejuures
prioriteet on vältida esimest liiki viga (ka teist liiki viga oleks halb, aga esimest
liiki vea vältimine olulisem). Ehk kinnitame H1 ainult juhul, kui
tõendusmaterjal on kaalukalt nullhüpoteesi paikapidavuse vastu
Esimest ja teist liiki viga - esimest liiki viga on kui populatsioonis kehtib H0
aga võtame valimi põhjal vastu H1. Teist liiki viga on kui populatsioonis kehtib
H1 ja võtame valimi põhjal vastu H0.
Seega, t-testi tulemuste põhjal saame olulisuse nivool 0,05 väita, et 2016.
aastal keskmine eluga rahulolu Põhja- ja Lõuna-Eestis erines ( t = 2.33, df =
1384, p = 0.02)
Risttabel, hii-ruut-test
Hii-ruut-test - kas on seos või ei ole. Kui on väiksem olulisuse nivoost, saab
kinnitada alternatiivhüpoteesi.
Korrelatsioonanalüüs
H0. et seos puudub. H1, et seos esineb. Kui andmete põhjal saadud t
absoluutväärtus on suurem t kriitilisest väärtusest saame H1 kinnitada.
Suure valimi puhul ilmneb statistiliselt olulisena ka juba väga nõrk
korrelatsioonseos. Tuleb teha vahet statistilise olulisuse ja sisulise olulisuse
vahel.
Jamovis. Analyses => Regression => Correlation Matrix. Jaotuses Plot sisse
lülitada kõik valikud.
Suurandmed
Andmete visualiseerimine
Harjutus 8.1. Palun uurige Excelis hajuvusdiagrammi põhjal, milline võiks olla
seos riigi SKP (osjujõu pariteedi põhjal elaniku kohta) ja tervishoiukukutuste
vahel (% SKPst). Andmestik on Jamovis on küll võimalik hajuvusdiagrammi
koostada, aga ilma lisandmoodulite installeerimiseta ei pruugi head tulemust
saada ning joonist korralikult vormindada ei saa, seega võiks ülesande teha
Excelis. Andmed on praktikumi Exceli andmefailis lehel Riigid.
Tulemus:
Antud joonist korrektselt esitades tuleks lisada telgede nimed (Design => Add
Chart Element => Axis Titles), x-telje väärtustelt eemaldada komakohad
(topeltklõps skaala väärtustel, avaneb menüü paremal servas, seal valida
ikoon ja alajaotus Number ja Decimal Places väärtuseks sisestada 0),
eemaldada joonise pealkiri ja lisada allkiri. Joonisel ruumi paremaks
kasutamiseks võiks muuta skaalade piire, nt y-teljel viiest 12-ni ja x-teljel
10000-st 50000-ni.
Kui on soov lisada joonisele ka riikide nimed, siis saab seda teha Design =>
Add Chart Element => Data Labels => More Data Label Options. Ekraani
paremas servas avaneb menüü, kust jällegi tuleks valida ikooni alt alajaotus
Label Options ja teha linnuke kasti Value From Cells. Avanevas väikses aknas
klikkida lahtri lõpus olevat sinist punase noolega kastikest, märgistada
andmetabelis riikide tähiste lahtrid (veerus A) ja klikkide uuesti aknakeses
sama kastikest ja vajutada OK. Kui kasti Value From Cells linnukest tehes uut
aknakest ei avane, vajutada Value From Cells järel olevat nuppu Select Range.
Lõpuks eemaldada parempoolses menüüs linnuke kastist Y Value. Riikide
nimed kipuvad kattuma, kuna andmepunktid on joonisel tihedalt, aga riikide
nimesid on ka võimalik ükshaaval natuke liigutada, et kattuvust vähendada.
Lõplik joonis:
Antud joonisel paistab kahe tunnuse vahel samuti olevat kasvav seos – mida
kõrgem on ebavõrdsuse tase riigis, seda suurem on pikaajaliste töötute
osakaal. Seos näib mõnevõrra lineaarsem kui eelmisel joonisel.
Harjutus 8.3. Palun võtke jamovis lahti .sav laiendiga praktikumi andmestik.
Arvutage tunnus, kus on iga indiviidi kohta viie siseriikliku institutsiooni
usaldamise keskmine, vastavad tunnused on trstprl, trstlgl, trstplc, trstplt ja
trstprt. Uurige hajuvusdiagrammi põhjal, kas arvutatud usalduse
koondtunnuse ja haridusaastate arvu vahel võiks esineda mingi (lineaarne)
seos. Arvutage ka korrelatsioonikordaja ja selle olulisuse tõenäosus.
Korrelatsioonikordaja arvutamine:
Nagu näha, järjestustunnuse või üldse mis tahes tunnuse puhul, kus
eristuvaid väärtuseid on vähe, ei ole hajuvusdiagramm kuigi informatiivne (ka
ei ole järjestustunnuse puhul päris korrektne, et joonisele on lisatud lineaarset
seost kirjeldav regressioonijoon, sest see eeldaks, et tunnused on arvulised –
jamovi lisab joone automaatselt, teadmata, et üks tunnus ei ole tegelikult
mõõdetud arvulisel skaalal, ka ei oska jamovi ise hinnata, kas tunnustevahelist
seost saaks kirjeldada lineaarsena või mitte). Antud juhul on siiski näha
vähemalt seda, et enamik indiviidide jälgib uudiseid päevas alla kolme tunni.
Kui arvutaksime lineaarse korrelatsioonikordaja, siis selle väärtust mõjutaksid
enam üksikud indiviidid, kes kulutavad enamikust oluliselt rohkem aega
päevas uudiste jälgimisele. Ka siit ilmneb, et kindlam oleks antud juhul
korrelatsiooni arvutamisel vaadata Spearmani korrelatsioonikordajat. Antud
juhul Spearmani korrelatsioonikordaja väärtus küll peaaegu et ei erine
lineaarsest korrelatsioonikordajast, kuid ette seda kunagi ei tea.
Praktikum 7: risttabelid ja seosekordajad
Rows: haridus
Columns: mnrgtjb
Saime küll teada, et seos kahe tunnuse vahel on statistiliselt oluline, st saame
öelda, et seos esineb ka populatsioonis, kuid püüame anda mingi hinnagu ka
seose tugevusele. See on sisulises mõttes vajalik, sest vabalt võib olla nii, et
seos on statistiliselt oluline, st on alust öelda, et seos esineb populatsioonis,
kuid seos on küllaltki nõrk. Üldiselt on küll nii, et mida tugevam on seos, seda
väiksem on ka olulisuse tõenäosus, kuid pidagem meeles, et olulisuse
tõenäosus sõltub ka valimi suurusest – suure valimi korral on võimalik ka
nõrga seose korral saada väike olulisuse tõenäosus, mille põhjal kinnitada
alternatiivhüpotees. See ei tähenda sisulist vastuolu, taolisel juhul oleme
lihtsalt oma andmete pealt tuvastanud populatsioonis esineva nõrga seose.
Andmete kaalumiseks peab andmetes esinema n-ö kaalu tunnus, kus igal
indiviidil on kaalumiseks vajalik väärtus. Nendel indiviididel, kes kuuluvad
mingisse andmetes alaesindatud gruppi, on kaalu tunnuses ühest suurem
väärtus ja seetõttu saavad nemad analüüsis n-ö suurema kaalu – nt indiviid,
kellel on kaalu tunnuses väärtus 1,3, esindab analüüsis mitte ühte indiviidi,
vaid 1,3 indiviidi. Sisuliselt võib see tunduda imelik, sest 1,3 indiviidi on justkui
sama võimatu kui see, et kellelgi on 2,45 last, aga andmeanalüüsi tehes ei
analüüsigi me ainult ühte indiviidi, vaid teeme järeldusi indiviidide kogumi(te)
kohta. Analoogselt on nendel indiviididel, kes esindavad mingit andmetes
üleesindatud gruppi, kaalu tunnuses ühest väiksem väärtus ja seetõttu
saavad nemad analüüsis väiksema kaalu. Eesmärk on saada valim samadesse
proportsioonidesse nagu populatsioonis, nt kui populatsioonis on 55% naisi ja
45% mehi, aga kogutud küsitlusandmetes nt 60% naisi ja 40% mehi, siis
omistatakse naistele ühest väiksem kaal ja meestele suurem kaal, nõnda et
kokku oleks sooline jaotus valimiandmetes sama, mis populatsioonis (55%
naisi, 45% mehi). Muidugi ei võeta kaalu tunnuse arvutamisel arvesse ainult
sugu, vaid ka teisi tunnuseid (tavaliselt sotsiaaldemograafilisi tunnuseid nagu
elukoht, rahvus jms).
Rows: elukoht
Counts (optional): pspwght (andmeid võiks ka kaaluda, sel juhul tuleks antud
väljale asetada järelkihistamiskaalu tunnus pspwght)
Olulisuse nivool 0,01 ei saa seose esinemist väita elukoha ja hinnangute vahel,
et
Kõigi kolme (olulisuse nivool 0,01) statistiliselt olulise seose puhul jääb Crameri
V 0,1 piirimaile, kõrgeim Crameri V väärtus esineb seose puhul, kus
uuritavateks tunnuseks on elukoht ja hinnang sellele, et sotsiaaltoetused
muudavad inimesed laisaks (V = 0,13). Crameri V järgi võiks öelda, et seosed on
pigem nõrgad. Tõepoolest, tugevaima seose puhul on erinevused maa- ja
linnaelanike hinnangute jaotustes nõustujate ja mittenõustujate vahel umbes
10% – sisuliselt võttes võib see olla märkimisväärne erinevus, aga arvestada
tuleb ka sellega, et tegu on valimiandmetega ja populatsioonis võib erinevus
olla mõnevõrra veelgi väiksem (võib muidugi olla ka suurem, täpselt me seda
ei tea). Mis on sisulises mõttes oluline või märkimisväärne või tugev või
mõõdukas või nõrk seos, see on subjektiivne otsus ja sõltub andmete
analüüsija enda ainealastest teadmistest ja hinnangust.
Seoste puhul, kus olulisuse tõenäosus ei olnud väiksem kui 0,01, aga oli siiski
väiksem kui 0,05, võib näha, et Crameri V on veelgi väiksem ja erinevused
maa- ja linnaelanike hinnangute jaotustes veelgi väiksemad. See viitab ka
tõsiasjale, et tulemus p < 0,05 ei pruugi veel sisuliselt olulist tulemust
tähendada (väga suure indiviidide arvu korral ei pruugi seda muidugi
tähendada ka tulemus p < 0,01). Nii või teisiti tuleb tulemuste sisulist olulisust
(st kas seos esineb ka sisulises mõttes, kas on mõtet seose esinemisele rajada
ka sisulisi järeldusi) hinnata eraldi statistilisest olulisusest.
Kui soovime teada, kas mehed ja naised erinevad selle poolest, kuivõrd nad
inimesi üldiselt usaldavad, siis on selleks üks (ja praktikas väga sagedasti
kasutatav) võimalus püstitada vastavad hüpoteesid ja neid kontrollida.
Püstitame hüpoteesid meeste ja naiste keskmise üldistatud usalduse kohta:
• Variables: ppltrst
Sama järelduseni jõuame olulisuse tõenäosuse põhjal (tabelis veerg p), sest
see on väiksem kui kehtestatud olulisuse nivoo (p < 0,05).
Erinevaid statistilisi teste on palju, ükski neist ei ole vale (eeldusel, et testi
kasutatakse selleks sobivatel andmetel), aga nagu näha, piiripealsete
tulemuste korral võivad nad (antud juhul keskmiste usaldusvahemike
võrdlemine ja t-test) anda alust erinevateks järeldusteks – kui see juhtub, on
oluline mõtestada, millest erinevus võib tulla. Seetõttu võibki olla kasulik (eriti
piiripealsete tulemuste korral) kasutada ka mõnda muud statistilist testi või
meetodit (ingl k nimetatakse seda lähenemist robustness check). Lõpuks on
oluline ka mõista, et statistiliselt oluline erinevus ei pruugi tähendada
sisuliselt olulist erinevust – ka antud näites, kuigi tuvastasime t-testi põhjal
naiste ja meeste üldistatud usalduses statistiliselt olulise erinevuse (st on alust
väita keskmiste erinevust ka populatsioonis), on see erinevus tõenäoliselt väga
väike (valimi põhjal keskmiselt vaid 0,2 palli). Kas see tähendab, et olulisuse
tõenäosuses sajandiku komakoha tagaajamine on mõttetu? Oleneb meie ees
seisva küsimuse sisulisest olulisusest ja sellest, kui suurt eksimisruumi saame
endale lubada. Seetõttu kasutatakse ka sõltuvalt olukorrast erinevaid usaldus-
ja olulisuse nivoosid – kui testime paberlennuki vastupidavust, võime
rahulduda esimest liiki veaga 10% (ehk olulisuse nivoo 0,1), kui testime päris
Boeingu vastupidavust, võib olla oluline saada tulemused olulisuse nivool
0,001 (sest suuremat eksimisruumi ei saa me inimeste elude arvelt endale
lubada).
Nagu eelnevast näha, kui valida n-ö „õige“ testitava erinevuse suund, on
võimalik keskmiste erinevust kergemini kinnitada (esimese ühepoolse
hüpoteesipaari korral pidi t-statistik olema H1 kinnitamiseks väiksem kui -1,64,
eelnevalt kahepoolse hüpoteesipaari puhul oli H1 kinnitamiseks vaja, et
t-statistiku väärtus oleks väiksem kui -1,96 või suurem kui 1,96). Tehniliselt
tõesti nii ongi, aga polnuks õige, juhul kui oleksime t väärtuseks saanud nt -1,7,
vahetada kahepoolne hüpoteesipaar meile „sobiva“ ühepoolse hüpoteesipaari
vastu ainult sellepärast, et see võimaldab H1 kinnitada. See läheb juba
tegevuse alla, mida nimetatakse p-hacking (analüüsi eeldusi muudetakse nii,
et saadakse endale sobiva olulisuse tõenäosuse väärtuse alusel H1 kinnitada)
ja kus analüüsi ei juhi enam sisulised kaalutlused, vaid valikuline subjektiivne
lähtumine andmetehnilistest nüanssidest. Peaksime hüpoteeside
sõnastamisel siiski lähtuma sisulistest kaalutlustest.
Valisime eelnevalt t-testi, mis ei eeldanud võrdseid hajuvusi kogumites. Võite
huvi pärast proovida, millise tulemuse saate siis, kui valite jaotuse Tests alt
Welch’s. Tulemused tõesti praktiliselt ei erine, sest hajuvused olid väga
sarnased.
358