Professional Documents
Culture Documents
Hi-kvadrat test
Razlike izmedu aritmetiekih sredina, neki raEuni korelacije itd., mogu se primije-
niti samo n a kuantitatiune brojEane podatke, koji su ili normalno rasporedeni ili bar
simetriEno rasporedeni. Medutim, ako su podaci kualitatiuni ili ako im distribucija
znatajno odstupa od normalne, onda se velik broj do sada opisanih postupaka
(osim raCuna proporcija, nekih koeficijenata korelacije ne mogu upotrijebiti, nego
se vetinom upotrebljava postupak nazvan x2-test (Citaj: hi-kvadrat). VeC u poEetku
treba naglasiti d a se hi-kvadrat test raEuna samo s frekuenczjama, pa, prema tome,
nije dopuSteno u raEun unositi nikakve mjerne jedinice! Osnovni podaci istraiivanja
dakako mogu biti i mjerene vrijednosti, ali u hi-kvadrat unose se samo njihove
frekvencije.
Hi-kvadrat test je vrlo praktiEan test, koji moie osobito posluiiti onda kad
ielimo utvrditi d a li neke dobivene (opaiene) frekvencije odstupaju od frekvencija
koje bismo kekivali pod odredenom hipotezom. On je test0 utoliko slitan raEunu
korelacije, Sto i kod hi-kvadrat testa katkada traiimo postoji li pouezanost izmedu
dvije varijable, ali i u tim slucajevima postoji bitna razlika izmedu raEuna korelacije
i hi-kvadrat testa, jer nam raEun korelacije pokazuje stupanj povezanosti izmedu
dvije varijable, dok nam hi-kvadrat test pokazuje vjerojatnost povezanosti. 0 tome
Ce joS biti rijeEi na kraju ovog poglavlja.
Gotovo se u svim slutajevima hi-kvadrat izratunava na jednak naCin (uz
ogranicenje da katkada treba unijeti neke dodatne korekcije, ili je pak praktitnije
upotrijebiti neku drugu formulu koja skraCuje ratunanje), i to prema formuli:
pri Eemu j,, znaCi opaiene frekvencije, a jt oCekivane (teoretske) frekvencije, tj.
frekvencije koje bismo oCekivali pod nekom odredenom hipotezom.
NajEeSCe upotrebljavamo hi-kvadrat test u ovim sluEajevima:
1. Kad imamo frekvencije jednog uzorka pa ielimo ustanoviti odstupaju li te
frekvencije od frekvencija koje oCekujemo uz neku hipotezu.
250 15 HI-KVADRAT TEST
2. Kad imamo frekvencije dvuju ili vise nezavisnih uzoraka te ielimo ustanoviti
razlikliju li se uzorci u opaienini svojstvima.
3. Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svoj-
stva, t e ielimo ustanoviti razlikuju li se uzorci u mjerenim svojstvima, tj. je
li do310 do promjene.
Prvi primjer. 48 1ijeEnika iznijelo je miSljenje o tome treba li ieni u porodu dati
analgeziju. Dobiveni su ovi odgovori: 26 odgovora "da", 12 odgovora "ne znam" i
10 odgovora "ne". Da li ti odgovori pokazuju neko znacajno odstupanje od onoga
Sto bismo oEekivali ka.d bi odgovori bili dani "nasurnce", tj. posve slucajno?
Postavit Cemo "mil-hipotezu": nenla razlike izmedu dobivenih odgovora i
s l ~ ~ F ( ~rasporedenih
jno odgovora. Kad bi odgovori bili dani potpuno sluEajno, svaki
bi od njih imao jednaku vjerojatnost, pa bisnio prema tome svaki odgovor otekivali
4813 = 16 puta. Daltle, oCeltivana frekvencija za svaki odgovor bila bi 16.
Najprije Cenlo rezultate tabelirati:
Prije nego Sto interpretiramo dobiveni "X 9,50, rastumaEit Cemo princip njegove
interpretacije: kad ne bi naSli nikakve razlike izmedu opaianih i otekiwnih frekven-
cija, izraz X' bi bio 0. Sto su razlikc izmedu opaienih i oeekivanih frekvencija veCe,
t o je veCi i definitivni izraz X" Prema tome, Sto je hi-kvadrat manji (bliii nuli) (do
neke odredene granice, vidi o tome zavrSetak poglavlja o hi-kvadrat testu), t o je
yjerojatnije d a treba prihvatiti postavljenu hipotezu, a Sto je hi-kvadrat veCi, t o je
vjerojatnije d a postavljenu hipotezu treba odbaciti, jer se opaieni rezultati znatno
15 1 JEDAN UZORAK 251
razliltuju od onih koje bismo pod odredenom hipotezom otekivali. Tablzco graniCnih
vrijednosti X L (tablica H u Dodatku) pokazuje nam do lcoje vrijednosti (uz odredeni
broj stupnjeva slobode) moramo srnatrati da je hi-ltvadrat joS uvijek dovoljno vi-
sok, a d a bismo mogli odbaciti hipotezu, odnosno, drugim rijecima, koliko mora
nojrnunje iznositi vrijednost hi-kvadrat pa da odbacimo hipotezu. Naravno da i
ovdje (kao i kod svih dosada5rijih testiranja znaCajnosti) moiemo postaviti blaie
ili stroke zalitjeve, tj. moiemo traiiti znatajnost na razini od 5%, od 1%, itd.
Kao praktitno pravilo moie posluiiti Cinjenica da centralna vrijednost hi-
kvadrata uz neki stupanj slobode iznosi po prilici toliko ltoliko imamo stupnjeva
slobode. Prema tome, nul-hipotezu sigurno moierno prihvatiti (bez uvida u tablicu
hi-ltvadrata) ako je dobiveni hi-kvadrat manji ili jednak broju stupnjeva slobode.
Postanak tablice H moiemo relativno jednostavno protumaCiti: Zamislimo d a
smo 100 ispravnih komada novca bacili u zrak (ili 1 riovCiC 100 puta), i da smo
dobili 46 "glava" i 54 "pisma". Kao Sto znamo, oCeltivane su frekvencije: 50 "glava"
i 50 "pisama". Izraeunamo li hi-kvadrat, dobit Cemo:
Glava 46 50 -4 16 0,32
Pisrno 54 50 4 16 0,32
Nastavimo li bacarijem tih 100 komada riovaca i dalje, dobit Cemo i dalje Eesto
odredene razlike izmedu broja "glava," i "pisma", a ako su novci potpuno ispravni
(tj. nemaju pojedini liomadi novca tendenciju da preteirio padaju na jednu stranu),
sigu,mo je da s u sua talcvu odstu.punjo potpuno slu,Eajnu. BuduCi da je dovoljno znat,i
kolilto je palo "glava" pa da time odmah znamo koliko je palo "pisama." (jer su
obje Celije zavisne jedna od druge), to je broj stupnjeva slobode = 1. Na slici 15.1.
prikazaria je distribucija hi-ltvadrata uz razliEite stupnjeve slobode. Medu njima je
i distribucija hi-kvadrata uz 1 stupanj slobode, tj. distribucija rezultata koje bismo
dobili kad bismo zaista bacali 100 komada novca mnogo puta. Prema tome, sve su
t e vrijednosti hi-kvadrata slu,fajne.
( N a p o m e n a: Da smo umjesto 100 komada novCiCa bacali recimo 20 ko-
mada, p a registrirali ishode "pismo" i "glava", i usporedivali 'ih s otekivanim
ishodima, t e izra,Cunavali velik broj hi-kvadrata, dobili bismo jedriaku distribuciju
hi-ltvadrat,a).
Nledutim, one vrijednosti hi-kvadrata koje toliko jako odstupaju od oeekivanog
da je njihovo sluCajno pojavljivanje moguCe samo u 1% ili u 5% sluEajeva, moiemo
vet sniatrati tolikim odstuparijem da s pravom moiemo pretpostaviti d a vjeroja,tno
71'1s~slueajne. Na slici 15.1. uz krivulju distribucije hi-kvadrata uz 1 stupanj slobode
oznateria je na apscisi 5%-t,nagranica, iza koje povrSina krivulje nadesno iznosi 5%.
Kako se vidi iz slike (i Eitarno iz tablice H), t a je vrijednost 3,84.
252 '4, 15. HI-KVADRAT T E S T
Taj je broj rnunji od 5,991, pa Cemo, prema tome, prihuatiti hipotezu i za-
kljuciti d a se dobiveni rezultati ne razlikuju statistitki znatajno od onih koje
bismo oEekivali pod pretpostavkom da je mjereno svojstvo normalno distribuirano
u skupini.
TreCi primjer. Medutim, postoji moguCnost d a mi neku otekivanu frekvenciju
veC unaprijed znamo jer je ona poznata u populaciji. Tako, na primjer, moiemo
ispitati da li se uzorak u kojem imalno 50 ljudi, i to 40 s tamnom kosom (80%) i
10 sa svjetlom kosom (20%), znacajno razlikuje od omjera koji je poznat u nekoj
populaciji, tj. d a 75% ljudi imaju tamnu, a 25% svjetlu kosu.
Prema tome, moiemo postaviti ovu tablicu:
Tamna Svjetla
Ukupno
kosa kosa
15. HI-KVADRAT T E S T
TABLICA 15.1.
Zanima. nas da li su nesrete medu tim ljudima rasporedene prema "sluFajun tj.
prema zakonu "rijetkih dogadaja" (to je tzv. Poissonova raspodjela).
Poissonova se raspodjela moZe izracunati ovako:
1. Ukupan broj nesreCa podijelimo brojem ljudi te tako dobijemo "prosjetan"
broj nesreCa;
2. izratunamo logaritam iz broja ljudi;
3. prosjeEan broj nesreCa (1) pomnoiimo izrazom 0,4343;
4. izvrSimo operaciju (2) - (3);
5. izratunamo antilogaritam izraza pod (4). Tako dobivamo frekvenciju ljudi s
0 nesreCa. Ovaj i daljnje ratune treba ratunati na nekoliko decimala, a kad
smo sve izraEunali, inoiemo u tablicu otekivanih frekvencija unositi rezultate
s manje (npr. 1 - 2) decimala;
6. izvedemo operaciju (5) . ( I ) , i tako dobivamo frekvenciju ljudi s 1 nesretom;
( 6 ) . (1) = broj ljudi s 2 nesrete;
7. -----
2
15.1. JEDAN UZORAK
8.=(7) . (1)
-, broj ljudi s 3 nesreCe;
TABLICA 15.2.
OCEKIVANA FREKVENCIJA LJUDI s RAZLIGITIM BROJEM NESRECA
Broj nesreta Broj ljudi
0 8,12
1 31,59
2 61,44
. 3
4
79,67
77,48
5 60,28
6 39,08
7 21,72
8 10,56
9 4,56
10 1,77
11 0,63
12 0,20
13 0,06
14 0,02
15 0,Ol
TABLICA 15.3.
IZRACUNAVANJE HI-KVADRATA ZA PODL4TKEIZ TABLICA 15.1. i 15.2.
(fo - fd2
Broj nesreta fo ft fo - ft (fo - ft)"
ft
0 14 8,12 5,88 34,57 4,26
1 37 31,59 5,41 29,27 0,93
2 76 61,44 14,56 211,99 3,45
3 70 79,67 -9,67 93,51 1,17
4 64 77,48 -13,48 181,71 2,35
5 53 60,28 -7,28 53,OO 0,88
6 31 39,08 -8,08 65,29 1,67
7 19 21,72 -2,72 7,40 0,34
8 14 10,56 3,44 11,83 1,12
9 i vise 20 7,25 12,75 162,56 22,42
TABLICA 15.4.
TESTIRANJE NORMALNOS?I RASPODJELE
2 3 4 5 6 7
w
.
d
32
m
42 b o a
Q, 0 k-dh
a
a
:z
.-?
a .
'a3
a a :?:,% za :S
u
- ~
:, a
f i re a
.%.2 = U$$a
k. 5
a:?
5 9 ~2g.g .? 9
m + a a 2
OaN
"am
44 azmE % wA
o&
a%
n hz % 0 3
gzO2
! % N * M
'0
OLE
Najprije Cemo unijeti rezultate u tzv. 2.2 tablicu u kojoj Ce apscisa predstavljati
jednu varijablu (stav), a ordinata drugu varijablu (spol):
15.2. DVA ILI VISE NEZAVISNIH UZORAKA
Ukupno 1 1 23b+d 1 49
Spol
~ene
Ukuprlo
U tablicama koje imaju redove i stupce, broj stupnjeva slobode izratunava se:
(broj redova- 1 ) . (broj stupaca - I ) . BuduCi da mi imamo 2 . 2 tablicu (jer imarno 2 .
reda. i 2 stupca), broj stuprijeva slobode =(2 - 1 ) .(2 - 1) = 1. Iz tablice X 2 moierno
otitati da je graniCna vrijednost X' uz 1 stupanj slobode na razini znatajnosti od
506, "X 3, 841. Bududi d a je naS hi-kvadrat manji, prihvatit Cemo hipotezu, tj.
zalcljutit Cemo d a se muSkarci ne razlikuju statistitki znatajno od iena u stavu
prerna konkretnom lijeEniku.
Ovo je gotovo "Skolski primjer" kako statistitki postupci "lcainjavaju" mali broj
mjerenja. To je i potpuno opravdano, jer na 23 muBka i 26 zenskih ispitanika zaista
bi se i potpuno slutajno moglo dogoditi to, Sto se dogodilo tj. da iene u relativno
veCem postotlcu imaju negativari stall prema lijetnici, nego muskarci. No buduCi
d a za takav rezultat postoje i izvjesna moguCa psiholoSka ili socioloSka opravdanja
(tj. moida je lijetnica bila atraktivna osoba, pa se vise svidala muskarcima), bilo
bi zanimljivo znati radi li se moida zaista o jednom takvom fenomenu. Pod pret-
p o s t a ~ i k o md a bi odnosi izmedu pozitivnog i negativnog stava kod velikog broja
ispitanika ostali jednoki (tj. da preko 65% iena irna riegativan stav, a samo 39%
muSlcaraca takoder negativan stav prema toj lijetnici), uz 10 puta,veCe uzroke imali
bismo 230 muSkaraca i 260 iena. MuSkaraca bi bilo 90, a iena 170 s negativnim
stavom. Kada bisrno sada raFunali hi-kvadrat, dobili bismo da je on deset puta
ueCi, tj. d a iznosi gotovo 40, Sto je dakako (jer i sada imamo 1 stupanj slobode)
statistitki potpuno znatajno. Iz toga bi u praksi bilo potpuno neopravdano, p a Eak
i nedozvoljeno izvesti za.kljutak: "dakle, kada bi uzorak bio 10 puta veCi, ra,zlika bi
bila statistielti znatajna". Za svakoga, tko je do sada nautio "statistitki misliti",
bit Ce jasno, da hi t a j zak1.jutak bio toean samo pod pretpostaukom da odnosi 0s-
tanu, jednaki. A to nikad ne moiemo znati, jer moida bi se kod velikih uzoraka
pro7nijenio postotak zadovoljnih ili nezadovoljnih ispitariika razlieitih spolova.
Postoji medutim jedan jednostavniji postupak za izratunavanje hi- kvadrata
kod 2 . 2 tablice, a jednostavniji je u tome Sto pomoCu tog postupka nije uopCe
potrebno izraturlavati razlike izmedu opaienih i otekivanih frekvencija. Ako, naime,
Celije oznaeimo slovinla a , b, c, d, onda se X"uklju~ujuCi i Yatesovu korekciju)
moie izraElinati prenla formuli:
N a p o m e n a . Znak I I oko izraza lad - bcl znati da treba uvijek uzeti pozitiunu
razliku izmedu ad i bc, tj. uvijelc treba oduzeti manji izraz od veCega.
U naSem primjeru dobivamo ove rezultate (vidi prvu tablicu):
Kalto se vidi, rezultat je pralctitki jedna.k rezultatu koji smo dobili prije.
(Malu razliku treba pripisati tome Sto smo izraze (fO - jt)' sveli na samo 3
ft
decimale.)
15.2. DVA ILI VISE NEZAVISNIH UZORAKA 261
D r ~ ~ primjer.
gi Medicinski centar u Osijeku izvrSio je 1967. godine analizu obo-
ljenja od epidenlije influence A-2 u poduzekima, od kojih su kolelctivi nekih bili
necijepljeni, ltolelctivi nekih cijepljeni 11 mjeseci prije epidemije, a kolektivi nekih
neposredno prije epidemije. Dobiveni su ovi rezultati:
Cijepljeni 11 mjeseci
378 3 789 4 167
prije epidernije
Cijepljeni neposredno
131 2 009 2 140
prije epidernije
Boja
oCiju
sinova
15.2. DVA ILI V I S E NEZAVISNIH UZORAK.4
IzraCunavanje:
Ako usporedujemo rezultate jedne te iste grupe "prije" i "poslije", ili us-
poredujemo istu grupu u dvije razliEite aktivnosti, onda vjerojatno postoji ko-
relaczja izmedu prvih i drugih rezultata.
Primjer. Uzmimo isti primjer ltoji smo upotrijebili pri izraeunavanju znaEajnosti
razlike u proporcijama koje su u korelaciji (vidi str. 172): 100 ispitanika ispitani su
testom 1 i testorn 2. Dobili smo ove rezultate:
Test 2
Nisu zadovoljili Zadovoljili
Test 1 Zadovoljili
Nisu zadovoljili 25c
15.3. DVA ZAVlSNA UZORKA (MCNEMAROV TEST) 265
naSem prijaSnjem primjeru nije dodo ni do kalcvih promjena izmedu prvog i drugog
mjerenja, i da je rezultat recinlo bio ovalav:
Test 2
Nisu zadovoljili Zadovoljili
Zadovoljili 0 A 70 B 70
Test 1
Nisu zadovoljili 30 C 0 D 30
30 70 100
Kako vidimo, od ultupno 100 ispitanika isti ispitanici koji nisu zadovoljili u pr-
vom testiran,ju (njih 30), nisu zadovoljili ni u drugom, a takoder istih 70 ispitanika
oba je puta zadovoljilo. IzraCunamo li standardnim postupkom oCekivane frekven-
cije, dobili bi ove frekvencije: 21, 49, 9, 21. IzraEunati hi-kvadrat (uz Yatesovu ko-
rekciju) iznosio bi 95,29, no t a j bi rezultat bio potpuno besmislen, jer n i i t a se nije
promijenilo. McNemarov test (ovaj puta bez Yatesove korekture, jer je u brojniku
nula) dao bi naprotiv potpuno t,oCan rezultat: hi-kvadrat = 0, tj. nema promjene.
Za neke (rijetke) situaci,je moie McNemarov test ipak biti izriEito nepogo-
dan: ako neki postupak, primijenjen na grupu ispitanika, moie kod njih proizvesti
suprotne uCinlte (npr. neki ispitanici se od nekog sredstva uzbude, a neki umire,
ili palc neki postupak kod jednih ispitarlika dovodi do poveCanja, a kod drugih do
snlanjenja agresivnosti), onda se dakako moie dogoditi d a ih bude podjednako ili
sliran broj u Celijarna A i D, i McNemarov test Ce dati malu vrijednost (Sto bi
trebalo znatiti da nije do310 do promjene), a do znatajnih promjena je dodo!
Kao $to smo vidjeli, hi-kvadrat test je stvarno vrlo jednostavan test, jer je
njegova logika jasna, a izraEunava,n,jevrlo jednostavno. No upravo se u tome vjero-
jatno i krije opasnost da se njegova jednostavnost precijeni, pa se tako u struEnoj i
nauC11oj literaturi najviSe pogreSala u primjeni stlat,istjiEkihpostupaka nalazi upravo
kod primjene hi-kvadrat testa. Dok se mnogi drugi statistitki postupci dadu Cesto
primijeniti dosta rnehanirlci i bez posebnog opreza, kod hi-kvadrat testa uvijek je
potrebno dobro proniisliti lcako Cemo rezultate prikazati u tablici.
Prije nego Sto iznesemo ncke osnovne uvjete, koji moraju biti ispunjeni da bi
se smio raEunat,i hi-kvadrat test, navest Cemo jednu praktiEnu stranu hi-kvadrata.
To je test koji posjeduje tzv. aditivna svojstva, a t o znaFi d a imamo pravo zbro-
jiti nekoliko hi-kvadrata iz istih istra,iivanja, i na znaCajnost dobivenog rezultata
zakl.juEivati iz tablice, s tim da, zbrojimo i stupnjeve slobode. Tako je, na primjer,
poznato da su svojedobno, u doba ispitivanja cjepiva protiv kolere, izvrSena brojna
istraiivanja djelovanja cjepiva. Iz Indije je bilo p o z n a t , ~5 izvjeStaja o 5 manjih
ispitiva.nja, ltoja., ako se rezultati izraze hi-kvadrat testom, daju ovakvu situaciju:
15.4. NEKI OSNOVNI UVJETI Z A UPOTREBU HI-KVADRAT TESTA
xL
Regimenta pokrajine ist. Lancashire 2,04
Britanske trupe u Cowrlporeu 1,83
Britdnske trupe u Dinaporeu 1,60
Gya Jail 5,90
Durbhanga Jail 3,18.
Svi t i rezultati bili su vezani svaki za 1stupanj slobode. Kako se vidi, samo jedan
od njih bio je statistitki znatajan. No, ako sve t e rezultate zbrojzmo, dobivamo
x2 = 14,55, a iz tablice ustanovljujenio da je uz 5 stupnjeva slobode t a j rezultat
statistitki znatajan (P < 0,05).
Pri takvim sitliacijama zbrajanja rezultata hi-kvadrata treba paziti d a se zbroje
svi raspoloiivi rrzultati (a ne samo pozitivni!). Osim toga, potpuno je razurnljivo
d a smijemo zbrajati samo one hi-kvadrate koji svi pokazuju devijaciju u "istom
smjeru". BuduCi da je "smjer" devijacije kod hi-kvadrata vidljiv samo iz inspekczje
tahlzce (a ne iz samog broja, jer je broj uvijek pozitivan!), pri tom poslu treba biti
vrlo oprezarl.
Evo na ltraju saietih glavnih uvjeta, koji moraju biti ispunjeni d a bi se smio
raeunati hi-ltvadrat test:
1. hz-kuadrat test m o i e se ratunatz samo s frekvenczjama. Prema tome, u delije
hi-ltvadrat testa ne smijemo unositi aritmetitke sredine, kao ni p o s t o t k ~ ,ni
proporcije. Ako 11 Celije unesemo postotke, sveli smo na t a j naEin N svake
glupe n a 100, Sto, naravno, nije dopuSteno.
2. S u m a otekrvanzh frekvenczja mora bztz jednalca sumz opaienzh frekvencya.
Toleriraju se rninimalne razlike u vezi sa zaolcruiivanjem decimalnih brojeva.
3. Kad god u hi-ltvadrat testu ratlimo s nekim svojstvom koje se pojavzlo ili se
nzje pojavilo, treba u raeurlu staviti i frrkvencije u kojima se t o svojstvo nije
pojavilo. Ako t o ne uCinimo, moie nanl se u neltim sluFajevirna dogoditi da
suma opaieriih frekvencija ne odgovara sumi otekivanih frekvencija.
I kad suma orekivanih frekvencija potpuno odgovara sumi opaienih frekvencija,
treba se pridriavati pravila d a u ratunu navedemo i frekvencije u kojima se svojstvo
nije pojavilo.
P r ~ n i j e r Zanima
. nas postoje li razlilte u frekvenciji ozljedivanja medu radnicima
razlitite starosti, i izvrSirno registraciju nesreka u jednom poduzetu t e dobijemo ove
rezultate:
Starost radnika 20-29 god. 30-49 god. 50 i vise god.
Broj radnika 200 500 300
Broj radnika sa dvije
ili vise nesreCa 70 100 30
Alto nema razlilte u frekvenciji ozljedivanja medu radnicima razliFite starosne
dobi (nul-hipoteza), moiemo uzeti sve radnike zajedno, pa tako dobivamo da je od
ukupno 1000 radnila njih 200 imalo nesrrte. To iznosi 20%, pa bismo stoga morali
otekivati jednak postotak u svim dobnim skupinama; to su ove otekivane frekven-
cije: 40, 100, 60. Kako se vidi, suma otekivanih frekvencija iznosi 200, jednako
268 4, 15. HI-KVADRAT TEST
Na kraju rasprave o hi-kvadrat testu dodajemo joS tri riapomene, od kojih smo
prvu spomenuli veC nd poEetltu ovog poglavlja, druga je manje poznata, ali je vrlo
zanirnljiva, a treCa je posebiio vaina za one koji nedovolpzo razrnzSZpju prilikom
koristenja toga testa.
1. Prva se riapoineria odnosi na spomenuto svojstvo hi-kvadrat testa da uz
njegovu pomob moiemo ustanoviti i vjerojatnost povezanosti izmedu dvije varijable
(ne dalcle ~ ~ ? s zpovezanosti
nu koju narn daje koeficijerit korelacije).
BuduCi dd u tom pogledu 1tadSto vlada kod poCetnika odredena konfuzija, raz-
jasnit Cemo na jednom jednostavnom prinijeru o Cemu se zapravo radi.
Uz~nimoda nas zanima razlikuju li se muskarci od iena u svom stavu prema
boksaElcim borbdnia i da anketom dobijenlo podatke da od 200 ankctiranih iena
samo rijih 50 izjavljuje d a odobrava boksaFka natjecanja. a od 300 anketiranih
muSkaraca njih 200 izjasnilo se u pr ilog boksu. U donjoj tablici prikazani su dobiveni
rezultati:
Spol
2ene
muSkarci
m-
1 :: za
Stav
proti-
(Kao Sto se moie lako ustanoviti, jednak rezultat dobili bismo d a smo raCunali i
kritizirani koeficijent kontingencije C . Razlog tome je Cinjenica d a kod 2 . 2 kontin-
gencijskih tablica nema razlike izrnedu C i Cramerova Fi.).
( N a p o m e n a. Hi kvadrat ima za ltorelaciju otprilike ono isto znatenje Sto
ga ima i testiranje znaCajnosti korelacije: ako je hi-kvadrat znaCajan, i korelacija -
bila ona niska ili visola. - statistiEki je znaCajna.)
2. Druga napomena o hi-ltvadrat testu pripada medu rijetko poznate, a radi se
o mulzm vrijednostima hi-kvaclrata. Evo u Eemu se t a napomena sastoji:
15. HI-KVADRAT TEST
Ishod fo ft. b
1 98 100
je netlco tko zna ratunati hi-kvadrat i poznaje njegovu osnovnu logiku, ali ga ne
razurnije doleraja.
Neka usputno bude spomenuto i t o da su naknadna provjeravanja eksperimenata
osnivata genetilee Gregora Mendela (prvi je te podatke provjeravao R. A. Fisher,
jedan od najveCili statistitara do sada) pokazala (la se stvarno dobivene frekvencije
nekih nasljednih karakteristika u njegovim pokusinla toliko dobro slaiu s teoret,ski
otekivanim frekvencijama Mendelovih zakona da su svi hi-kvadrat,i (koje Mendel,
naravno, u ono vrijeme nije znao raCunati) "previSe visoki d a hi izgledali istiniti"!
StruCnjaci danas na razlitite naEine tumate t u pojavu (jer Mendelovi zakoni su
toEni i riit,lco u njih ne sumnja), pa se izmedu ostaloga spominje i mogutnost da su
njegovi mladi suradnici, ieleCi mu ugoditi, poneSto "frizirali" rezultate eksperime-
nata kako bi se oni joS bolje slagali s otekivanim frekvencijama. No, bilo kako bilo,
Mendelovo otkriCe - kako kaiu Hodges, Krech i Crutchfield - koje mriogi smatraju
jednim od najveCih trijumfa ljudslcog uma, bilo je dovoljno snaino da odoli Cak i
kritici "odvet dobrih rezultata".
N a p o m e n a. Spo~nenutumoguCnost oCitavanja hi-kvadrat distribucije i s
lzjeuog kraja (tj. za one hi-kvadrat vrijednosti koje su "suviSe male da bi iz-
gledale istinite") ne treba niijeSati s "jednosmjernim" ili "dvosmjernim" testiranjem
znaCajnosti ra,zlike kod t-testa!"Dvosmnjcrnon testiranje - kao Sto smo rekli - znaEi
testirati je li neka razlika - bez obzira n,a smjer te razlz'ke - statistitki znaCajna ili
nije. Drligirn ri,jeCirna, ako nademo da je npr. grupa djece A viSa od grupe djece B,
onda dvosrn.jernim test,irari,jem znatajnosti razlilte mi samo odgovaramo na pitanje
je li mogude da se razlila, koju snio medu uzorcima dobili, dogodila slutajno ili ne.
Pri tome je potpuno svejedno je li t a razlika, u korist grupe A ili grupe B, jer zanima
nas samo velitina razlilce, bez obzira ria predznak, tj. na njezin smjer. (A ako nas
opravdano za,nima sanio jedan srnjer razlike, onda - eventualno - moiemo koris-
titi samo jednu qtranu normalne odnosno t-distribucije, i provesti "jednosmjerno"
testiranje.)
Granicne vrijednosti hi-kvadrat distribucije, koje se nalaze u hi-kva,drat t,ablici,
makar se odnose na "desnu stranu" hi-kvadrat distribucije, jesu vrijednosti dvosm-
jernog testiranja, jer pomodu njih testiramo znaCajnost razlike bez ohziru nu njezin
sn~jcr!(Kao Sto znamo, prilikom raEunanja hi-kvadrata smjer razlike u raCunu nema
nikdkvu ulogu, jer se razlike izmedu opaienih i oEekivanih frelcvencija kvadriraju!)
Prema tome, upozorerije da i suviSe mali hi-kvadrat moie biti sumnjiv (tj. da
moida nije nast,ao potpuno slutajno), i d a se to moie provjeriti s lzjeve strane
krivulje distribucije hi-lcvadrata - problem je sasvim druge vrste od problema
"jednosmnjernog" ili "dvosmjernog" testiranja znaCajnosti razlike.
3. Isltustvo pokazuje, da pojedini korisnici hi-ltvadrat testa katkada nedovoljno
razrniSl.jaju o torne, ito ih zapravo zaninla u njihovu istraz'ivanju. To Cemo najbolje
objasniti jednim primjerom, koji se katkada dogada.
Recimo da je neki istraiivaC sakupio podatke o broju samoubojstava u toku svih
12 mjeseci nelce godine u jedriom velikom gradu, i da ga zanima postoje li razlike
izmedu muskaraca i icna u sniislu frekvencije samoubojstava, tj. da li muSkarci ili
iene Cine veSe samoubojstava. Pretpostavimo d a je dobio ove rezultate:
\
272 15. HI-KVADRAT T E S T
SijeC. Velj. O i . Trav. Svib. Lip. Srp. Kol. Ruj. List. Stud. Pros. Ukupno
MuSk. 5 7 8 4 12 10 12 9 10 6 10 9 102
~enc 4 7 10 8 7 10 9 8 4 5 8 12 92
Ako on sada na sue te rezultate primijeni pravila izratunava,nja oEekivanih
frekvencija (tj. utirli i sume stupaca, pa rrinoZi sume reda sa sumom stupca i di-
jeli ultupnom sumorn), on je zapravo ratunao razlikuju li se muSkarci od iena po
broju samoubojstava u toku pojedinih rmjeseci, a nije dobio odgovor na svoje pi-
tanje da li muSkarci ili iene imaju vise samoubojstava. Alio je to problem, koji on
ieli rijeSiti uz pomoC hi-kvadrat test,a, onda ga uopCe ne zani~nastanje samoubo-
jstava po mjesecima, vet jedino ukupni broj sarnoubojstava kod iena i muSkaraca
u toku godine dana. Bududi d a u poplilaciji postoji uglavnom jednaki broj iena i
muSliaraca, on bi mogao postaviti jednostavnu tablieti:
fo ft
MuSkarci 102 97
~ene 84 97
Krada Krade i
Silovanje Ostalo
automob. diepar.
Grad A 76 112 87 102
Grad B 64 184 77 98
Grad C 39 131 48 82